智谱GLM-4.7强势登场:代码工具推理全升级,国产开源模型再攀高峰

   发布时间:2025-12-23 23:01 作者:任飞扬

在人工智能领域,国产大模型正以惊人的速度崛起。近日,智谱推出的GLM-4.7模型引发广泛关注,这款在IPO前夕亮相的模型,凭借多项技术突破,成为全球开源模型中的佼佼者。

从专业测评数据来看,GLM-4.7在多个维度展现出强劲实力。在Code Arena面向全球开发者的编码盲测中,该模型在Web开发方向排名第六,超越GPT-5.2与Claude Sonnet 4.5,成为全球排名最高的开源模型,同时稳居国产模型榜首。在代码能力方面,SWE-bench‑Verified测试中取得73.8%的成绩,LiveCodeBench‑V6测试中达到84.9%,整体水平与Claude Sonnet 4.5持平,处于开源模型第一梯队。复杂推理任务中,HLE成绩在工具辅助条件下提升至42.8%,较GLM‑4.6提升超12个百分点,甚至超过GPT‑5.1 High。工具调用能力同样出色,在τ²‑Bench中取得87.4%的成绩,BrowseComp在开启上下文管理后提升至67.5%,在多轮网页任务和交互式工具调用场景中表现稳定。

这些亮眼成绩的背后,是模型内部思考机制的重大调整。GLM‑4.7在“交错思考”基础上,引入保留式思考与轮级思考控制机制。模型在每次生成和工具调用前会先进行推理,并在多轮任务中自动保留已有思考结果,避免重复推导。开发者还可按轮次决定是否启用推理过程,在简单请求中降低时延,在复杂任务中提升稳定性。这种设计增强了长任务执行的一致性和可控性,为模型在代码智能体、终端任务和工具协同类基准上的整体提升提供了支撑。模型还针对前端美学、长文本稳定性、网页生成结构等细节进行了优化。

为了验证GLM‑4.7在实际开发任务中的表现,智谱对100个真实编程任务进行了对比测试,涵盖前端开发、后端逻辑和指令遵循三个核心方向。结果显示,前端任务中,GLM‑4.7相较4.6版本胜率提升至64.6%;指令遵循场景中达到58.3%;后端方向胜率稳定在46.7%。在多技能联动能力方面,GLM-4.7在Z.ai上线了全栈技能环境,接入全新Skills模块,支持调用ASR语音识别、TTS语音合成、GLM‑4.6V视觉模型等多个模块进行统一调度,实现了多模态任务中的路径规划和动作执行,打通了工具之间的“调度逻辑”。

在实际互动任务测试中,GLM-4.7的表现同样令人惊艳。在3D控制任务中,模型输出可直接运行的HTML代码,构建出包含5000多个粒子的立体圣诞树,顶部带有辉光效果的星星。移动鼠标时,粒子会产生斥力波纹,形成流动的视觉效果。系统还能调用摄像头识别用户手势,张开手掌时圣诞树炸开变为照片墙,左右移动手掌照片墙会旋转,握拳时所有元素收拢归位,形成完整动画。代码中还集成了性能优化机制,确保页面在不依赖构建工具的情况下保持高帧率和流畅度。在UI生成任务中,输入“1:1复刻iOS系统”提示词后,模型生成了模仿iOS的主页面,Safari、Siri等图标均可点击,日历、天气等功能页可交互,计算器能进行基础运算,图标风格和颜色搭配也具备基本审美。在前端代码实现任务中,模型生成了完整的双人格斗游戏界面,风格高度还原Switch主机Joy-Con手柄配色和布局,左侧蓝色手柄,右侧红色手柄,中间是游戏主屏幕。游戏中有两个火柴人角色,头顶有动态血条,UI显示当前波次与敌人数量等信息,操作体验上,左右玩家可通过键盘不同按键控制角色移动、攻击和释放技能,整体界面结构、角色逻辑和按键响应完整,具备真实游戏框架感,且内置节奏感强的格斗BGM。

GLM-4.7的开源代码在全球社区中已被下载超6000万次,付费API使用量长期居于OpenRouter全球前十,逐步进入开发者的实际工具列表。在智谱即将登陆港交所的背景下,GLM-4.7的上线成为国产大模型企业从科研模型、开源生态向“真实使用”与“市场验证”过渡的一个缩影,标志着开源国产模型正从“对标国际”迈向“领跑、实用”。

 
 
更多>同类内容
全站最新
热门内容
本栏最新