昆仑万维公司近期宣布了一项重大进展,其Matrix系列中的Matrix-Game大模型(超过170亿参数)已正式向公众开源。这一开源模型是Matrix-Zero世界模型中的重要组成部分,专注于可交互视频生成。
据昆仑万维介绍,Matrix-Game标志着Matrix系列在交互式世界生成领域的实质性突破,同时也是业界首个开源的超过100亿参数的空间智能大模型。该模型专为游戏世界的建模而设计,旨在开放式环境中实现高质量的内容生成与精确控制。
Matrix-Game的核心构成包括三大要素。首先是Matrix-Game-MC数据集,这是一个由昆仑万维自主构建的大规模交互世界数据集。该数据集包含两类核心数据:一是大量无标签的Minecraft游戏视频,二是带有详细键盘与鼠标控制信号的Minecraft与Unreal可控视频数据,这些数据均具备精细的动作注释,为复杂环境动态与交互模式的高效建模与学习提供了坚实基础。
其次是Matrix-Game主模型,这一模型基于先进的扩散模型技术开发,构建了一个从图像到世界生成的框架。它能够根据用户的输入(如键盘指令、鼠标移动等)生成连贯且可控的互动视频,同时兼顾视觉质量、时序一致性与物理合理性。这一技术突破为游戏世界的动态生成提供了强有力的支持。
最后是GameWorld Score评测体系,这是昆仑万维提出的一项统一的游戏交互世界评估标准。该体系从视觉质量、时序质量、动作可控性与物理规则理解四个维度全面量化模型性能,填补了该领域缺乏系统性评测基准的空白,为模型的优化与改进提供了明确的方向。
Matrix-Game在不同Minecraft场景下均能实现可控生成,包括基础运动、复合运动、视角运动等多种动态行为。例如,在沙漠场景中,用户可以通过输入键盘指令和移动鼠标来控制角色的前后左右移动、跳跃、攻击以及视角变换等动作,Matrix-Game能够实时生成对应的游戏世界视频,呈现出流畅且真实的游戏体验。
Matrix-Game还支持自回归式的长视频生成,能够在动作与视角之间实现丝滑衔接,同时在时间一致性与环境适应性方面表现出色。这一功能为开发沉浸式长时体验、创意内容生成及游戏设计等应用提供了坚实的模型基础,有望推动游戏产业的进一步创新与发展。