在小米近期举办的一场技术分享会上,罗福莉以一场别开生面的演讲完成了她在小米的首秀。这位在人工智能领域备受瞩目的青年学者,凭借其独特的视角和深刻的见解,迅速成为全场焦点,也让外界对她担任小米基座大模型核心研发角色的期待值拉满。
演讲开场,罗福莉并未急于切入Xiaomi MiMo的最新技术进展,而是将时间轴拉长至10亿年前,以生物进化的宏大叙事为引,重新审视当下人工智能领域的变革浪潮。她指出,自然界构建“智能”体系遵循着清晰的逻辑链条:6亿年前,生命通过多巴胺分泌学会与环境互动,形成对世界的初步认知;2亿年前,哺乳动物进化出“预演未来”的能力,能够在行动前模拟风险;直到近10万年,人类才凭借语言这一抽象符号系统登顶智能金字塔。与之形成鲜明对比的是,大模型的发展路径呈现逆向特征——先掌握语言能力,再逐步补足思考与具身感知。
“语言不是简单的符号组合,而是人类思维在物理世界的投影。”罗福莉解释道,当大模型在文本中挖掘规律时,本质上是在压缩人类数十亿年积累的认知经验,这种压缩过程构成了现代人工智能的基础。但她同时指出,当前技术框架仍存在根本性局限:模型仅能处理人类思维的文本投影,却缺乏对物理世界的真实感知,其运作逻辑更像是“已知结果倒推过程”,难以真正理解问题本质。
针对这一瓶颈,罗福莉提出了小米的技术突破方向。她透露,Xiaomi MiMo基座模型通过架构创新,在参数量减少1/2至2/3的情况下,推理性能仍可与DeepSeek V3.2、Kimi K2-Thinking等主流模型媲美。这意味着在相同难度任务中,MiMo能以更少的参数调用实现更快处理速度。其升级版MiMo-V2-Flash已初步具备模拟能力,例如通过HTML语言编写操作系统或绘制图形,但距离真正的物理感知仍有差距。
作为一家兼具软硬件研发实力的科技企业,小米为突破技术边界提供了独特路径。罗福莉提出“具身智能”作为实现AGI(通用人工智能)的终极方案,强调人形机器人是连接数字模型与物理世界的最佳载体。当被问及如何突破文本限制实现真正智能时,MiMo模型本身给出回应:“AGI必须是具身的、嵌入环境的,通过持续交互涌现的智能形态。”
这一思路与行业动态形成有趣对比。近期meta花费143亿美元收购Scale AI,旨在解决数据标注难题,而罗福莉向小米提出的方案则另辟蹊径:通过具身智能模拟重力、气流、水流等物理现象,让AI在交互中理解世界运行规则。这种技术路线不仅规避了算力竞赛与数据采购的高昂成本,更可能为通往AGI开辟新赛道。现场观众不禁思考:这种颠覆性创新,究竟该用怎样的价值衡量?





















