腾讯云TACO-LLM加速模块,荣耀AI底座性能大飞跃!

   发布时间:2025-06-09 19:47 作者:顾雨柔

在生成式AI技术迅猛发展的浪潮中,手机行业迎来了AI大模型的新一轮革新。众多前沿厂商纷纷将AI技术深度融入最新产品,迭代速度令人瞩目。荣耀作为行业佼佼者,携手腾讯云,通过在其TencentOS Server AI平台中集成的TACO-LLM加速模块,成功优化了DeepSeek-R1等开源大模型的部署效率,显著提升了内部应用场景下的稳定性、可靠性与推理性能。

针对推理平台的关键需求,荣耀尤为重视框架效率、系统稳定性、运行状态实时监控及应急响应策略。在采用TACO-LLM进行推理任务后,DeepSeek-R1满血版相较于原始线上业务,首Token延迟(TTFT)P95的响应时间实现了最高6.25倍的缩减,吞吐量翻倍,端到端延迟更是降低了整整100%。而在sglang社区最新版本的应用场景下,TTFT P95的响应时间优化更为显著,最高降低了12.5倍。

腾讯云TACO-LLM加速模块之所以能为荣耀业务带来如此显著的性能提升,关键在于其创新的投机采样技术。传统大语言模型因自回归解码属性,难以高效利用GPU算力,导致计算效率低下且解码成本高昂。而TACO-LLM通过投机采样策略,从根本上解决了计算密度问题,实现了大模型的“并行”解码,从而大幅度提升了解码效率。

荣耀大数据平台部门负责人对此表示高度认可:“借助腾讯云TACO-LLM,荣耀构建了高性能的AI基础架构,不仅部署稳定可靠,还极大提升了性能加速体验,为我们的业务发展注入了强劲动力。”

TencentOS Server AI加速版提供的TACO-LLM加速模块,专门针对企业级AI模型私有化部署的复杂挑战,对大语言模型业务进行了深入的内核优化。该模块旨在提高大模型的推理效率,提供高吞吐与低延时并重的优化方案,并能无缝融入现有的大模型部署体系,为荣耀等企业用户带来了前所未有的性能提升与部署便利性。

 
 
更多>同类内容
全站最新
热门内容
本栏最新