自变量机器人王昊：以事件为尺破局世界模型训练

发布时间：2026-06-15 17:06 来源：快讯作者：朱天宇

在近期举办的2026北京智源大会上，具身智能领域的前沿探索成为焦点，其中世界模型作为最新范式引发广泛讨论。自变量机器人联合创始人兼CTO王昊在论坛中分享了团队在“事件驱动的世界模型”领域的突破性成果，为多模态智能模型的发展提供了新思路。

王昊指出，智能的涌现具有尺度依赖性，不同模态的表示需要找到合适的尺度基准，并通过规模化训练实现多模态的融合。他以大语言模型中的“对齐税”类比，当前世界模型训练中普遍存在的“时间税”问题源于固定时间窗口的预测机制，这种设计限制了模型对动态世界的适应性。

针对这一痛点，自变量团队研发的“事件级”世界模型WALL-WM创新性地采用事件边界划分数据。该方法基于三个核心发现：语言天然以事件为单位组织信息，视觉场景的分割与事件进程高度同步，同一事件内的动作具有更强的可预测性。通过变长事件分割，模型实现了语言、视觉和动作模态的深度对齐。“事件尺度为多模态统一提供了天然接口。”王昊解释道。

实证测试显示，WALL-WM在多个维度展现优势：具身视频生成任务中，其运动质量、语义连贯性和物理合理性均超越WAN 2.1/2.2版本；隐式3D感知能力显著优于现有开源视觉模型；真机操作测试覆盖基础任务、推理任务、灵巧操作和泛化能力四大类，得分大幅领先π 0.5和DreamZero等主流模型。

作为国内率先探索完全端到端通用具身智能的公司，自变量机器人近期开源的两项技术引发行业关注。其VLA模型Wall-OSS-0.5在自研本体上实现部分任务“预训练即零样本泛化”，省去传统后训练微调环节；XRZero-g0数采方案通过软硬一体化设计，将全身无本体数据采集成本降至行业平均水平的二十分之一，为大规模训练数据获取提供了新范式。

更多>同类内容