智谱GLM-4.7强势登场：代码工具推理全升级，国产开源模型再攀高峰

发布时间：2025-12-23 23:01 来源：快讯作者：任飞扬

在人工智能领域，国产大模型正以惊人的速度崛起。近日，智谱推出的GLM-4.7模型引发广泛关注，这款在IPO前夕亮相的模型，凭借多项技术突破，成为全球开源模型中的佼佼者。

从专业测评数据来看，GLM-4.7在多个维度展现出强劲实力。在Code Arena面向全球开发者的编码盲测中，该模型在Web开发方向排名第六，超越GPT-5.2与Claude Sonnet 4.5，成为全球排名最高的开源模型，同时稳居国产模型榜首。在代码能力方面，SWE-bench‑Verified测试中取得73.8%的成绩，LiveCodeBench‑V6测试中达到84.9%，整体水平与Claude Sonnet 4.5持平，处于开源模型第一梯队。复杂推理任务中，HLE成绩在工具辅助条件下提升至42.8%，较GLM‑4.6提升超12个百分点，甚至超过GPT‑5.1 High。工具调用能力同样出色，在τ²‑Bench中取得87.4%的成绩，BrowseComp在开启上下文管理后提升至67.5%，在多轮网页任务和交互式工具调用场景中表现稳定。

这些亮眼成绩的背后，是模型内部思考机制的重大调整。GLM‑4.7在“交错思考”基础上，引入保留式思考与轮级思考控制机制。模型在每次生成和工具调用前会先进行推理，并在多轮任务中自动保留已有思考结果，避免重复推导。开发者还可按轮次决定是否启用推理过程，在简单请求中降低时延，在复杂任务中提升稳定性。这种设计增强了长任务执行的一致性和可控性，为模型在代码智能体、终端任务和工具协同类基准上的整体提升提供了支撑。模型还针对前端美学、长文本稳定性、网页生成结构等细节进行了优化。

为了验证GLM‑4.7在实际开发任务中的表现，智谱对100个真实编程任务进行了对比测试，涵盖前端开发、后端逻辑和指令遵循三个核心方向。结果显示，前端任务中，GLM‑4.7相较4.6版本胜率提升至64.6%；指令遵循场景中达到58.3%；后端方向胜率稳定在46.7%。在多技能联动能力方面，GLM-4.7在Z.ai上线了全栈技能环境，接入全新Skills模块，支持调用ASR语音识别、TTS语音合成、GLM‑4.6V视觉模型等多个模块进行统一调度，实现了多模态任务中的路径规划和动作执行，打通了工具之间的“调度逻辑”。

在实际互动任务测试中，GLM-4.7的表现同样令人惊艳。在3D控制任务中，模型输出可直接运行的HTML代码，构建出包含5000多个粒子的立体圣诞树，顶部带有辉光效果的星星。移动鼠标时，粒子会产生斥力波纹，形成流动的视觉效果。系统还能调用摄像头识别用户手势，张开手掌时圣诞树炸开变为照片墙，左右移动手掌照片墙会旋转，握拳时所有元素收拢归位，形成完整动画。代码中还集成了性能优化机制，确保页面在不依赖构建工具的情况下保持高帧率和流畅度。在UI生成任务中，输入“1:1复刻iOS系统”提示词后，模型生成了模仿iOS的主页面，Safari、Siri等图标均可点击，日历、天气等功能页可交互，计算器能进行基础运算，图标风格和颜色搭配也具备基本审美。在前端代码实现任务中，模型生成了完整的双人格斗游戏界面，风格高度还原Switch主机Joy-Con手柄配色和布局，左侧蓝色手柄，右侧红色手柄，中间是游戏主屏幕。游戏中有两个火柴人角色，头顶有动态血条，UI显示当前波次与敌人数量等信息，操作体验上，左右玩家可通过键盘不同按键控制角色移动、攻击和释放技能，整体界面结构、角色逻辑和按键响应完整，具备真实游戏框架感，且内置节奏感强的格斗BGM。

GLM-4.7的开源代码在全球社区中已被下载超6000万次，付费API使用量长期居于OpenRouter全球前十，逐步进入开发者的实际工具列表。在智谱即将登陆港交所的背景下，GLM-4.7的上线成为国产大模型企业从科研模型、开源生态向“真实使用”与“市场验证”过渡的一个缩影，标志着开源国产模型正从“对标国际”迈向“领跑、实用”。

更多>同类内容