智元GE-Sim 2.0发布：构建可交互“模型世界” 引领机器人自主进化新篇章

发布时间：2026-04-12 05:21 来源：快讯作者：沈如风

在机器人技术领域，一场具有里程碑意义的变革正在悄然发生。智元机器人公司近日取得重大突破，推出世界模型迭代版本Genie Envisioner World Simulator 2.0（GE-Sim 2.0），为机器人行业带来了全新的发展思路，有望推动机器人从被动执行走向自主进化。

长期以来，机器人技术发展面临诸多挑战。真实世界中，机器人策略训练高度依赖实际环境，不仅评估成本高昂，效率也极为有限，高质量数据的获取与扩展更是成为制约机器人发展的关键瓶颈。传统世界模型大多仅聚焦于“状态”建模，而忽略了机器人动作对环境演化的重要影响。机器人面对的世界是连续变化的，动作不仅是输出，更是影响环境演化的核心变量。机器人做了什么动作、动作如何改变世界、世界又如何反馈给策略，这些问题在传统模型中未能得到有效解决。

智元机器人敏锐地察觉到这一痛点，在技术路径上大胆创新，沿着两条主线推进世界模型的发展。一条是世界动作模型（World Action Model），专注于对动作表征进行深度建模；另一条是世界模拟器（World Simulator），致力于打造一个可交互、可推演、可训练的完整环境。通过将“状态 - 动作 - 状态演化”作为统一建模对象，智元让世界模型成为策略学习与动作生成的基础表示层，为机器人理解世界提供了全新的视角。

在探索过程中，智元取得了一系列阶段性成果。先是构建了EnerVerse，将具身场景拓展为可计算的4D世界模型；接着推出Genie Envisioner Act（GE - Act），实现从世界表征能力到动作轨迹生成的跨越；又通过Act2Goal，让机器人具备目标驱动的长程控制能力。这些探索使世界模型首次具备承载动作策略的能力，为后续发展奠定了坚实基础。

然而，智元并未满足于此。为了让机器人能在更真实、稳定、高效的环境中训练，降低真实世界试错成本，智元在强化世界动作模型建模能力的同时，同步推动世界模型向可交互模拟器能力发展。通过EnerVerse - AC引入动作条件化世界建模，使模型能够基于动作进行未来推演；借助Genie Envisioner Sim（GE - Sim 1.0）构建可用于策略闭环评估的神经模拟器；并从场景一致性、动作正确性与语义对齐等多个维度，对世界模型的模拟能力进行系统评估。

在此基础上，智元还建立了一套全新的数据与训练范式。将真实数据与生成数据相结合，使策略训练既保证真实性，又增强泛化能力。同时，提出Real2Edit2Real流程，让真实数据从被动采集转变为主动扩展与编辑的基础，显著提升数据规模与多样性。

此次发布的GE - Sim 2.0，是智元技术创新的集大成者。它不再仅仅是一个生成模型，而是一个真正意义上的“可操作世界”。该模型能够严格响应机器人动作信号，生成高保真的环境变化，且严格遵循物理与语义逻辑。它支持分钟级长时序稳定推演，可将零散视频片段转化为完整任务过程的连续生成。多视角视觉、跨视角3D一致性与机器人本体状态被统一建模，让机器人面对的不再是简单的“画面”，而是一个完整、可交互的具身世界。内置激励模型使模型具备自评估能力，可基于文本对生成状态自动评估与优化，无需人工激励训练即可完成强化学习，训练闭环真正内嵌进模型世界本身。随着推理效率提升，GE - Sim 2.0已接近实时运行，成为可实时交互的系统环境。

这一技术升级为具身智能带来范式革新。世界动作模型与视觉 - 语言 - 动作模型深度融合，让机器人从被动响应环境的“反应式控制”，转变为能预判未来、规划全局的“生成式决策”。世界模拟器搭建起无限延伸的虚拟训练场，机器人可在此大规模试错、反复优化，不再受真实数据稀缺性束缚，其能力上限由模拟的真实度与高效性决定。当模型成为可交互、可训练、可进化的完整世界，现实不再是机器人唯一的训练场，机器人有望彻底跳出“复现经验”的局限，真正走向自主探索、持续进化的新阶段。

更多>同类内容