在强化学习领域,一项突破性成果引发关注:一种无需神经网络训练、不依赖梯度更新的全新范式——启发式学习(Heuristic Learning, HL),成功在经典游戏《Breakout》中取得864分的理论满分,并在多项任务中超越传统算法。这一成果由OpenAI核心研究员翁家翌提出,其核心在于将决策逻辑从神经网络的隐式权重转化为显式程序代码,通过代码编辑替代梯度下降,实现状态-动作的符号化映射。
传统深度强化学习(DRL)长期依赖神经网络作为决策核心,但这一架构存在三大瓶颈:一是灾难性遗忘,新任务训练会覆盖旧技能;二是决策黑箱,动作选择隐藏在复杂权重中难以解释;三是样本效率低,依赖海量数据迭代,算力消耗巨大。翁家翌团队提出的HL范式则彻底摒弃参数更新,转而构建一套完整的智能化软件系统,包含显式状态检测器(如“球在左上方,速度向右”)、规则逻辑(如“若球将落左,则向左移动”)以及测试用例、失败记录等模块。每次迭代中,由GPT-5.4驱动的Codex会分析系统表现、失败录像和日志,直接对代码进行结构性调整,而非优化神经网络权重。
这一设计使HL天然具备可解释性、抗遗忘性和高效率特性。知识以模块化形式存储,旧能力不会被覆盖,而是通过测试封装为可调用、可验证的组件。翁家翌比喻道:“HL将持续学习从‘更新参数’转化为‘维护一个吸收反馈的软件系统’。”尽管HL内部某些组件(如模型预测控制MPC)仍会使用梯度进行局部搜索,但其运算仅服务于实时动作决策,不涉及神经网络训练。
实验验证了HL的竞争力。在包含57款经典游戏的Atari基准测试中,HL在统一环境交互步数下,中位表现与主流算法PPO持平,并在《Breakout》《Asterix》等游戏中超越人类玩家水平。更复杂的连续控制任务中,HL同样表现亮眼:在四足机器人Ant任务中,其通过迭代加入姿态反馈、触地信号感知等逻辑,综合评分突破6000分;在HalfCheetah猎豹仿真任务中,平均得分达11836分,展现出对高维连续动作空间的强适配能力。
翁家翌坦言,HL并非万能。他指出,目前难以想象用纯Python代码解决ImageNet等复杂视觉任务,但HL的价值在于策略持续迭代场景,尤其当环境动态变化、需要长期自适应调整时,显式代码规则系统更具优势。他提出,未来可探索将神经网络与HL融合:利用HL实时处理环境数据流,沉淀可复用的在线行为经验,再将这些经验转化为高质量数据集,反向迭代更新神经网络,从而攻克在线学习与持续学习的双重挑战。























