在近期举办的2026北京智源大会上,具身智能领域的前沿探索成为焦点,其中世界模型作为最新范式引发广泛讨论。自变量机器人联合创始人兼CTO王昊在论坛中分享了团队在“事件驱动的世界模型”领域的突破性成果,为多模态智能模型的发展提供了新思路。
王昊指出,智能的涌现具有尺度依赖性,不同模态的表示需要找到合适的尺度基准,并通过规模化训练实现多模态的融合。他以大语言模型中的“对齐税”类比,当前世界模型训练中普遍存在的“时间税”问题源于固定时间窗口的预测机制,这种设计限制了模型对动态世界的适应性。
针对这一痛点,自变量团队研发的“事件级”世界模型WALL-WM创新性地采用事件边界划分数据。该方法基于三个核心发现:语言天然以事件为单位组织信息,视觉场景的分割与事件进程高度同步,同一事件内的动作具有更强的可预测性。通过变长事件分割,模型实现了语言、视觉和动作模态的深度对齐。“事件尺度为多模态统一提供了天然接口。”王昊解释道。
实证测试显示,WALL-WM在多个维度展现优势:具身视频生成任务中,其运动质量、语义连贯性和物理合理性均超越WAN 2.1/2.2版本;隐式3D感知能力显著优于现有开源视觉模型;真机操作测试覆盖基础任务、推理任务、灵巧操作和泛化能力四大类,得分大幅领先π 0.5和DreamZero等主流模型。
作为国内率先探索完全端到端通用具身智能的公司,自变量机器人近期开源的两项技术引发行业关注。其VLA模型Wall-OSS-0.5在自研本体上实现部分任务“预训练即零样本泛化”,省去传统后训练微调环节;XRZero-g0数采方案通过软硬一体化设计,将全身无本体数据采集成本降至行业平均水平的二十分之一,为大规模训练数据获取提供了新范式。






















