火山引擎谭待：深度思考模型成Agent基石，或按自动驾驶模式分级

发布时间：2025-04-18 16:49 来源：ITBEAR 作者：任飞扬

近日，字节跳动旗下的云服务平台火山引擎公布了豆包大模型的最新数据。数据显示，截至今年3月底，豆包大模型的日均tokens调用量已达到惊人的12.7万亿，与去年5月发布时相比，实现了106倍的增长。这一数字不仅远超去年12月的4万亿日均调用量，也彰显了豆包大模型在处理信息方面的强大能力。

火山引擎总裁谭待在近期接受媒体采访时表示，火山引擎对模型的接入持开放态度，只要模型质量高且符合客户需求，无论是字节的模型还是其他开源模型，都会考虑接入平台。他特别提到，对豆包大模型抱有极大的信心。

谭待进一步解释了豆包大模型调用量激增的原因。他指出，模型在聊天和信息处理能力上的提升，以及成本的降低，是调用量增长的基础。而深度思考模型的上线，则为豆包大模型注入了新的活力。他透露，未来模型的一个突破方向将是视觉推理，这将解锁更多视觉驱动的现实场景，使模型更加贴近人类的生活方式。

在“AI创新巡展”上，火山引擎面向B端发布了豆包1.5深度思考模型。这款模型具备视觉推理能力，能够像人类一样对看到的事物进行联想和思考。谭待表示，多模态能力的加持将使豆包深度思考模型在更多场景中助力企业实现智能化升级。例如，在分析航拍图时，模型能结合地貌特征来判断区域开发的可行性。

值得注意的是，就在火山引擎发布豆包1.5深度思考模型的同时，OpenAI也发布了最新的推理模型o3和o4-mini，同样强调了视觉推理方面的突破。这表明，在AI领域，视觉推理已成为各大厂商竞相角逐的焦点。

除了视觉推理外，火山引擎还关注另一个模型突破方向——Agent。谭待认为，AI在对话和信息处理市场的潜力有限，要真正深入到各行各业中，Agent是必经之路。然而，业内对智能体并没有统一的定义，这造成了概念上的混乱。他强调，真正的Agent应该能够完成专业度较高、需要较长时间才能实现的完整任务，并且需要基于深度思考模型构建，支持多模态处理复杂任务。

谭待表示，随着Agent的进一步落地，其定义可能会变得更清晰。他提出了一个类比，就像自动驾驶一样，Agent也可能发展出不同级别的定义。他预测，开发出几千个能完成简单任务的Agent只能算作L1级，而最终做到L2++级才能算作“落地的元年”。

针对Agent的分类，火山引擎将其大致划分为垂直类Agent和通用型Agent。谭待透露，对于垂直类Agent，火山引擎可能会在擅长的领域尝试自主研发，如数据、代码Agent。而在通用型Agent方面，火山引擎更注重提供合适的工具，帮助开发者和企业构建自己的通用Agent。

为此，火山引擎推出了OS Agent解决方案，包括豆包UI-TARS模型以及一系列云服务产品。这些产品能够实现对代码、浏览器、电脑、手机以及其他Agent的操作。在活动现场，谭待演示了如何使用Agent操作浏览器完成商品比价任务，甚至通过Agent在剪映上进行视频编辑与配乐。这一演示充分展示了火山引擎在Agent领域的实力和创新能力。

谭待还分享了火山引擎在Agent研发方面的规划。他表示，火山引擎将继续投入资源，加强在深度思考模型、多模态处理等方面的研发，以推动Agent技术的不断突破和落地应用。

随着AI技术的不断发展，火山引擎作为领先的云服务平台，将继续发挥自身优势，推动AI技术的创新和应用，为各行各业提供更多智能化解决方案。

更多>同类内容