在AI编程能力的全球竞技场上,中国科技企业再次交出一份亮眼成绩单。阿里巴巴最新发布的大语言模型Qwen 3.6-Plus,在权威盲测平台LMArena旗下Code Arena榜单中斩获React专项第二名,成为首个在该领域超越国际顶尖模型的中国大模型。这一突破性成果不仅刷新了国产模型的技术高度,更标志着中国AI在工程化应用层面实现重要跨越。
作为AI领域最具公信力的盲测平台之一,LMArena通过真实用户匿名评测、实时动态排名的机制,构建起全球大模型性能的"试金石"。其Code Arena榜单聚焦AI编程能力,在Agent技术浪潮下愈发受到行业关注。本次评测的React专项被视为当前AI代码生成领域的技术制高点,要求模型在无人干预的条件下,独立完成从项目初始化到调试运行的全流程开发,对工程思维和端到端能力提出严苛考验。
数据显示,Qwen 3.6-Plus以1452分的成绩紧追Anthropic的Claude-Opus-4.6-Thinking(1540分),领先OpenAI最新发布的GPT-5.0-High达4分,较Google的Gemini 3.1 Pro Preview更是高出12分。这种以更小参数量实现更优性能的表现,在权威编程评测中已成常态——千问3.6系列此前已在多项测试中超越参数量数倍于己的GLM-5、Kimi-K2.5等模型,确立了国产模型在代码生成领域的标杆地位。
该模型于4月2日正式发布后,立即在全球开发者社区引发强烈反响。其原生支持的多模态理解与推理能力,配合在代码生成和Agent任务中的突出表现,使阿里在全球AI实验室排名中跃升至第四位,形成与Anthropic、OpenAI、Google三强鼎立的竞争格局。特别值得关注的是,Qwen 3.6-Plus在全面评估AI编程能力的Code Arena总榜中,同样位居国产模型首位。
据研发团队透露,此次发布的Qwen 3.6-Plus仅是千问3.6系列的首款模型。按照规划,后续将陆续开源不同参数规模的版本,并计划于近期推出性能更强的旗舰模型Qwen 3.6-Max。这种"基础模型+开源生态+旗舰产品"的立体化布局,预示着中国AI企业正在构建覆盖全场景的技术矩阵,为全球开发者提供更具竞争力的解决方案。






















