人工智能领域近日迎来新的讨论热点,图灵奖得主杨立昆对大语言模型提出了批评,他指出这类模型在理解物理世界、拥有持久记忆、具备推理能力以及复杂规划能力上存在缺陷。为了克服这些挑战,一种名为“世界模型”的技术浮出水面,成为业界关注的新焦点。
世界模型的概念或许听起来较为抽象,但其在现实中的应用已经初露锋芒,例如谷歌的3D游戏技术和特斯拉的自动驾驶系统。这一技术的核心在于,机器能够像人一样理解物理空间、掌握物理规律,并根据这些经验做出推理和决策。与大语言模型依赖海量文本数据不同,世界模型通过深入分析大规模现实世界视频来推测因果关系,这种学习模式与人类婴儿通过交互学习构建世界认知的过程颇为相似。
想象一下,一个刚出生的婴儿,虽然视觉尚未完全聚焦,但能通过触觉、温度和声音等感官碎片拼凑出世界的轮廓。人类大脑经过数百万年的进化,发展出了将感官信息转化为对物理规律理解的能力,而这正是当前人工智能所欠缺的。世界模型致力于从数据中重构对重力、时间等物理知识的理解,使机器能够更智能地应对现实世界。
世界模型的概念最早可以追溯到上世纪八九十年代的认知科学和控制理论。当时的研究者受心理学影响,提出AI系统需要构建对环境的内部模拟,以进行预测和决策。这一理论的核心要素是“环境”,生物的行为本质上遵循“刺激-反应”模式,即生物的反应是对环境刺激的直接响应。随着生物漫长的进化,动物发展出了感觉和心理,而人类则进一步发展出了自我意识,能够进行自主规划和有目的的决策。
从生物进化到AI的发展历程来看,AI的终极形态——通用人工智能(AGI)需要发展出自主感知现实、自我规划和有目的决策的能力。世界模型的雏形萌芽于心理学家对人类和动物认知世界的观察,这一理论被称为心智模型,强调智能体需要对环境形成抽象表征。人类大脑对周围世界有一种习得的内在认知框架,能够根据经验做出决策,而世界模型就是让机器也具备这种对周围环境和世界的理解和预测能力。
世界模型的研究从理论构想阶段逐渐落地,进入计算建模阶段。随着强化学习和深度学习的深入发展,学者开始尝试用神经网络构建可训练的世界模型。2018年,DeepMind的《World Models》论文首次提出了“VAE+RNN+控制器”的三段式架构,构建了可预测环境的神经网络模型,这标志着现代世界模型的里程碑。这一架构使机器具备了颅内推演的能力,能够在行动前预判后果,大大降低了试错成本。
近年来,世界模型借助Transformer的序列建模能力和多模态学习技术,应用范围从单一模态扩展到跨模态仿真,推演也从2D走向3D。谷歌、腾讯等企业通过世界模型生成逼真的游戏场景,特斯拉利用神经网络预测车辆轨迹,DeepMind则通过建模预测全球天气。世界模型正逐步走出实验室,走向现实世界的各个领域。
在游戏场景中,世界模型通过大量训练,从规则明确的虚拟环境和边界清晰的离散空间,进化到能够生成可交互的无限3D世界。谷歌DeepMind的Genie 2可以通过单张图片生成可交互的3D世界,用户可以在其中自由探索动态环境。腾讯等团队推出的模型则可以一键生成各种游戏角色和复杂场景,展示了世界模型在游戏领域的巨大潜力。
在工业场景中,世界模型的应用同样引人注目。机器人公司波士顿动力通过虚拟环境预演机器人动作,特斯拉利用世界模型整合游戏引擎仿真技术训练自动驾驶系统,减少对真实路测数据的依赖。这些应用展示了世界模型在提升机器智能和降低试错成本方面的巨大优势。
世界模型还走进了基础研究领域。DeepMind的GraphCast通过世界模型处理百万级网格气象变量,预测天气的能力比传统数值模拟快1000倍,能耗降低1000倍。这一成果展示了世界模型在复杂系统预测和模拟方面的强大能力。
世界模型通过大量多模态数据理解物理世界的规律,其本质是一种通过构建内部虚拟环境来模拟和理解现实世界的智能系统。未来,“世界模型+大语言模型”可能成为AGI的核心架构,使AI不仅能够聊天,还能真正理解并做出决策改变现实世界。然而,世界模型目前仍面临算力、泛化能力和训练集等方面的挑战,需要进一步的研究和探索。