阿里Qwen-VLA入局具身智能：统一基座破局碎片化，AGI之路再进一步？

发布时间：2026-06-04 15:42 来源：快讯作者：顾青青

人工智能领域正经历一场深刻变革，从虚拟世界的文本生成迈向物理世界的自主操作。具身智能（Embodied AI）作为这一趋势的核心方向，正吸引全球科技企业的激烈竞争。阿里巴巴旗下通义千问团队推出的Qwen-VLA模型，凭借其独特的"大脑-小脑"架构与四阶段训练法，成为该领域的重要突破。

当前机器人行业面临严重碎片化困境：家用机器人仅能完成叠衣服等单一任务，工业机器人局限于物品分类，不同品牌设备需要定制化算法支持。这种"专机专用"模式导致研发成本居高不下，与通用人工智能（AGI）理念背道而驰。Qwen-VLA试图通过统一数学框架解决这一难题，将机械臂抓取、双臂协同等操作抽象为"视觉观察-语言指令-动作预测"的通用问题，实现软件跨硬件平台的复用。

该模型的技术路线融合了VLA策略模型、扩散动作生成与仿真强化学习。其架构设计借鉴人类神经系统：以Qwen3.5多模态模型作为认知中枢，负责理解环境与语言指令；11.5亿参数的扩散动作解码器则模拟小脑功能，生成平滑连续的关节轨迹。这种设计使模型能直接输出物理参数而非预测画面，在动态场景中展现出显著优势。

训练体系包含四个关键阶段：首先通过文本指令建立动作先验，继而进行多模态对齐训练，然后通过人类操作录像实现模仿学习，最终在虚拟环境中完成强化学习。这种渐进式训练使模型能处理未见过物体的抓取任务——即使测试时出现玩具鸭、墨镜等训练中未涉及的物品，仍能根据指令准确操作。在动态场景测试中，模型甚至能实时调整轨迹拦截移动物体，表现超越多数专用模型。

数据构建是该模型的核心竞争力。其训练集包含74.2%的真实机器人遥操作数据、6%的人类第一视角视频、3.7%的合成仿真数据及8.5%的图文常识数据。阿里通过内部收集超1000小时真实操作轨迹，结合800万条自动生成的物理碰撞数据，构建起覆盖长尾场景的数据体系。这种数据组合既保证了操作真实性，又通过仿真技术降低了成本。

尽管在动态操控评测中表现优异，Qwen-VLA仍面临多重挑战：物理动作数据规模远不及文本数据，多任务优化可能导致视觉性能衰退，缺乏触觉反馈限制复杂操作，长程任务规划能力有待提升。这些瓶颈反映出具身智能从实验室到实际应用的巨大跨越，需要解决传感器融合、持续学习等基础性问题。

阿里此次探索证明，通过统一基座模型收敛物理控制碎片化的路径具有可行性。当算法开始感知重力、摩擦力等物理约束，人工智能才真正踏上改造现实世界的征程。这场变革不仅需要技术创新，更考验企业对工程化难题的破解能力，而Qwen-VLA的推出无疑为行业提供了重要参考。

更多>同类内容