智元GE-Sim 2.0发布:构建可交互“模型世界” 引领机器人自主进化新篇章

   发布时间:2026-04-12 05:21 作者:沈如风

在机器人技术领域,一场具有里程碑意义的变革正在悄然发生。智元机器人公司近日取得重大突破,推出世界模型迭代版本Genie Envisioner World Simulator 2.0(GE-Sim 2.0),为机器人行业带来了全新的发展思路,有望推动机器人从被动执行走向自主进化。

长期以来,机器人技术发展面临诸多挑战。真实世界中,机器人策略训练高度依赖实际环境,不仅评估成本高昂,效率也极为有限,高质量数据的获取与扩展更是成为制约机器人发展的关键瓶颈。传统世界模型大多仅聚焦于“状态”建模,而忽略了机器人动作对环境演化的重要影响。机器人面对的世界是连续变化的,动作不仅是输出,更是影响环境演化的核心变量。机器人做了什么动作、动作如何改变世界、世界又如何反馈给策略,这些问题在传统模型中未能得到有效解决。

智元机器人敏锐地察觉到这一痛点,在技术路径上大胆创新,沿着两条主线推进世界模型的发展。一条是世界动作模型(World Action Model),专注于对动作表征进行深度建模;另一条是世界模拟器(World Simulator),致力于打造一个可交互、可推演、可训练的完整环境。通过将“状态 - 动作 - 状态演化”作为统一建模对象,智元让世界模型成为策略学习与动作生成的基础表示层,为机器人理解世界提供了全新的视角。

在探索过程中,智元取得了一系列阶段性成果。先是构建了EnerVerse,将具身场景拓展为可计算的4D世界模型;接着推出Genie Envisioner Act(GE - Act),实现从世界表征能力到动作轨迹生成的跨越;又通过Act2Goal,让机器人具备目标驱动的长程控制能力。这些探索使世界模型首次具备承载动作策略的能力,为后续发展奠定了坚实基础。

然而,智元并未满足于此。为了让机器人能在更真实、稳定、高效的环境中训练,降低真实世界试错成本,智元在强化世界动作模型建模能力的同时,同步推动世界模型向可交互模拟器能力发展。通过EnerVerse - AC引入动作条件化世界建模,使模型能够基于动作进行未来推演;借助Genie Envisioner Sim(GE - Sim 1.0)构建可用于策略闭环评估的神经模拟器;并从场景一致性、动作正确性与语义对齐等多个维度,对世界模型的模拟能力进行系统评估。

在此基础上,智元还建立了一套全新的数据与训练范式。将真实数据与生成数据相结合,使策略训练既保证真实性,又增强泛化能力。同时,提出Real2Edit2Real流程,让真实数据从被动采集转变为主动扩展与编辑的基础,显著提升数据规模与多样性。

此次发布的GE - Sim 2.0,是智元技术创新的集大成者。它不再仅仅是一个生成模型,而是一个真正意义上的“可操作世界”。该模型能够严格响应机器人动作信号,生成高保真的环境变化,且严格遵循物理与语义逻辑。它支持分钟级长时序稳定推演,可将零散视频片段转化为完整任务过程的连续生成。多视角视觉、跨视角3D一致性与机器人本体状态被统一建模,让机器人面对的不再是简单的“画面”,而是一个完整、可交互的具身世界。内置激励模型使模型具备自评估能力,可基于文本对生成状态自动评估与优化,无需人工激励训练即可完成强化学习,训练闭环真正内嵌进模型世界本身。随着推理效率提升,GE - Sim 2.0已接近实时运行,成为可实时交互的系统环境。

这一技术升级为具身智能带来范式革新。世界动作模型与视觉 - 语言 - 动作模型深度融合,让机器人从被动响应环境的“反应式控制”,转变为能预判未来、规划全局的“生成式决策”。世界模拟器搭建起无限延伸的虚拟训练场,机器人可在此大规模试错、反复优化,不再受真实数据稀缺性束缚,其能力上限由模拟的真实度与高效性决定。当模型成为可交互、可训练、可进化的完整世界,现实不再是机器人唯一的训练场,机器人有望彻底跳出“复现经验”的局限,真正走向自主探索、持续进化的新阶段。

 
 
更多>同类内容
全站最新
热门内容
本栏最新