阿里云近日宣布,正式推出全新升级的多模态交互混合智能体——Qwen3.7-Plus。作为Qwen3.7的增强版本,该模型在视觉与语言融合领域实现突破性进展,成为全球首个同时支持图像、视频、屏幕、网页及文本输入的智能体基座。
技术层面,Qwen3.7-Plus在保留原有文本处理、代码生成、工具调用等核心能力的基础上,重点强化了视觉理解与跨模态推理能力。通过整合多模态感知系统,该模型可实现从GUI界面操作到命令行交互的全方位任务执行,特别针对复杂办公场景进行优化,支持在各类软件环境中自动完成流程化操作。
在权威评测机构Vision Arena发布的最新榜单中,阿里凭借Qwen3.7-Plus的卓越表现跻身全球前五,并登顶中国区榜首。纯文本能力测试显示,该模型在编码智能体、多语言处理等维度已接近行业顶尖水平,尤其在指令遵循和复杂推理任务中展现出稳定性能。多模态专项评测中,其在BabyVision、MathVision等视觉推理基准测试中的准确率较前代提升超过30%,工具调用链路的完整性达到行业领先标准。
开发团队透露,Qwen3.7-Plus已通过阿里云百炼平台全面开放服务,开发者可在Qwen Studio体验完整功能。该模型特别针对企业级应用进行优化,支持在安全合规的环境中处理敏感数据,目前已与多家金融机构达成合作试点,在合同智能解析、财务报表自动化等场景取得实质性进展。





















