昆仑万维近期宣布了一项重大技术突破,正式向公众开源了其Matrix-Game大模型,这一举措标志着交互式世界生成技术迈入了一个全新的发展阶段。Matrix-Game不仅是Matrix系列在交互式世界生成领域的首次实践落地,更是工业界首个对外开放的、参数规模超过10B的空间智能大模型。
空间智能技术作为AI领域的前沿探索,正悄然改变着我们与虚拟世界的互动方式。通过整合视频生成、三维建模与交互控制等前沿技术,空间智能不仅为用户带来了更为自然、直观且沉浸式的体验,还在具身智能、影视创作及游戏开发等多个领域展现出了巨大的应用潜力。
昆仑万维作为空间智能技术的长期关注者与推动者,此次开源的Matrix-Game大模型无疑是一次技术实力的集中展现。Matrix-Game不仅刷新了交互式世界生成的技术上限,更为构建一个通用的虚拟世界基座提供了全新的参考标准。该模型以游戏世界建模为核心,专为开放式环境中的高质量生成与精确控制而设计。
Matrix-Game大模型的核心竞争力在于其深度融合了视频生成与用户交互。用户只需通过简单直观的指令,就能自由探索、操控甚至创造出细节丰富、物理规则合理的虚拟世界。这一特性得益于其精心设计的三大核心组成部分:Matrix-Game-MC数据集、Matrix-Game主模型以及GameWorld Score评测体系。
Matrix-Game-MC数据集是昆仑万维自主构建的大规模交互世界数据集,它包含了大量无标签的Minecraft游戏视频以及带有键盘与鼠标控制信号的Minecraft与Unreal可控视频数据。这些数据为模型提供了丰富的训练素材,支持其对复杂环境动态与交互模式的高效建模与学习。
Matrix-Game主模型则是基于先进的扩散模型技术开发而成,它能够根据用户输入(如键盘指令、鼠标移动等)生成连贯、可控的互动视频。该模型在视觉质量、时序一致性与物理合理性方面均表现出色,为用户带来了极致的交互体验。
为了系统性地评估和比较交互式世界生成模型的性能,昆仑万维还提出了GameWorld Score评测体系。该体系从视觉质量、时序质量、交互可控性与物理规则理解四个维度对模型进行全面量化评估,填补了该领域缺乏系统性评测基准的空白。
在GameWorld Score评测体系中,Matrix-Game大模型展现出了卓越的性能。无论是在视觉质量、时间一致性还是动作可控性与物理规则理解方面,Matrix-Game均取得了领先成绩,全面超越了现有的开源基线模型。
Matrix-Game大模型还具备强大的泛化能力。它能够在不同Minecraft场景下实现可控生成,包括基础运动、复合运动、视角运动等。得益于Unreal数据的融入,Matrix-Game在泛化到更广泛的通用游戏场景方面也展现出了明显优势。
昆仑万维表示,Matrix-Game大模型的开源将为多个领域带来革命性影响。在虚拟游戏世界方面,借助模型的可控生成能力,可以低成本、高效率地创建多样化、结构合理的游戏地图与交互环境;在影视与元宇宙内容生产方面,Matrix-Game支持高保真、物理一致的动态场景合成,为沉浸式体验开发与创意内容生成提供了通用世界建模基础;在具身智能体训练与数据生成方面,尽管当前模型未直接用于具身智能,但其生成大规模交互视频的能力具备扩展至具身智能体训练与评估的潜力。
Matrix-Game大模型的开源不仅是对技术实力的一次展示,更是对开源社区的一次回馈。昆仑万维表示,未来将持续投入前沿技术与基础模型研发,并坚定开源SOTA级别模型,以推动整个行业的共同进步与发展。