在人工智能技术的浪潮中,AI已从早期的感知与生成阶段,大步迈入Agentic AI的新纪元。这一阶段的AI正逐渐展现出端到端的自主决策与执行能力,深入到各个生产环节的核心。
火山引擎总裁谭待在近期的FORCE LINK AI创新巡展·杭州站活动中,分享了火山引擎在AI模型、Agent工具以及云基础设施方面的最新进展。这些进展旨在帮助企业以更高效、更经济的方式构建和部署Agent应用。
火山引擎发布了豆包1.5·深度思考模型,并对豆包·文生图模型3.0和豆包·视觉理解模型进行了升级。还推出了面向Agent服务的OS Agent解决方案,以及GUI Agent大模型——豆包1.5·UI-TARS模型。同时,针对大规模推理需求,火山引擎还发布了AI云原生·ServingKit推理套件。
据统计,截至2025年3月底,豆包大模型的日均tokens调用量已超过12.7万亿,这一数字是2024年12月的三倍,更是其发布之初的106倍。IDC的报告显示,2024年中国公有云大模型调用量大幅增长,火山引擎凭借46.4%的市场份额,位居中国市场首位。
深度思考模型能够模拟人类的思维过程,对复杂问题进行精准分析和逻辑推导。新发布的豆包1.5·深度思考模型在数学、代码、科学等专业领域表现出色,已达到或接近全球领先水平。同时,在创意写作等非推理任务中,该模型也展现出强大的泛化能力,适用于多种复杂场景。
为了提升模型的通用性,火山引擎优化了数据处理策略,将可验证数据与创意性数据进行融合处理。通过采用创新的双轨奖励机制,大规模强化学习技术得以有效优化,兼顾了“对错分明”和“见仁见智”的任务。
豆包1.5·深度思考模型采用MoE架构,总参数达到200B,但激活参数仅为20B,具有显著的成本优势。该模型在提供高并发承载能力的同时,实现了20毫秒的极低延迟。豆包APP基于豆包1.5·深度思考模型进行了定向训练,能够“边想边搜”,解决了生活生产中的具体问题。
例如,在推荐露营装备时,豆包1.5·深度思考模型能够综合考虑温度、天气、预算、便携性和安全性等多个因素,经过多轮搜索和思考,给出细致周到的推荐方案。同时,该模型还具备视觉理解能力,能够基于所见画面进行思考,使思考更加立体。
此次升级的豆包·文生图模型3.0在文字排版、图像生成效果以及高清图片生成方面均有显著提升。该模型可广泛应用于影视、海报、绘画、玩偶设计等营销、电商和设计场景,为用户带来更好的视觉体验。
在最新的文生图领域权威榜单Artificial Analysis竞技场中,豆包·文生图3.0模型超越了众多主流模型,排名全球领先。同时,新版本的豆包·视觉理解模型在视觉定位和视频理解能力上也有大幅提升,可应用于线下门店巡检、GUI agent、机器人训练、自动驾驶训练以及安防、家庭看护等商业化场景。
火山引擎还发布了OS Agent解决方案,该方案通过火山引擎veFaaS平台对豆包大模型能力进行封装,让企业和开发者能够轻松构建轻量级的Code use和Browser use。同时,针对任务相对复杂的Computer Use和Mobile Use Agent,可以通过ECS或云手机等调用豆包1.5·UI-TARS模型,实现精准的感知、自主推理和行动。
为了支持大规模的推理需求,火山引擎推出了ServingKit推理套件,帮助企业实现模型的快速部署、推理优化和运维可观测。该套件可在极短时间内完成大模型的下载和预热,以及推理引擎的加载。同时,通过优化算子、AI网关和VKE编排调度,可以大幅度降低GPU消耗,提高资源利用率。
火山引擎还发布了国内首个AI IDE——Trae。这款AI原生的集成开发环境工具可以让开发者和AI进行更智能的协作,实现软件开发的交付化、智能化和协作化。未来,AI Agent将在“应用Agent”和“OS Agent”两个方向上并行发展,为企业和开发者带来更多创新和机遇。