随着全球智能技术的加速落地,算力需求正以指数级速度增长,以GPU为核心的AI基础设施成为支撑行业发展的关键支柱。据摩根士丹利预测,到2028年,全球AI基础设施累计投资将突破2.9万亿美元。然而,行业数据显示,运维人力、故障损失和集群闲置等成本占比高达15%至20%,全行业潜在优化空间超过4350亿美元。这一背景下,如何提升运维效率、降低资源浪费成为行业关注的焦点。
作为全球领先的AI基础设施服务商,某企业早在去年10月便率先启动运维智能体研发,并成功部署早期版本。实践表明,该智能体显著提升了运维效率:工单处理时长缩短50%,关键故障处理效率提升约6倍,运维人员人效提高5倍以上,综合成本下降约30%。这一成果为大规模GPU训练与推理业务提供了更稳定、高效的基础设施保障。然而,行业仍面临一个核心问题:什么样的运维智能体才算“好用”?
AI集群运维涉及复杂系统知识、工具调用和长链路推理,对智能体能力提出极高要求。传统模型评估侧重语言能力,但在基础设施领域,“能否解决实际问题”成为核心标准。为此,中国信息通信研究院推出首个面向AI基础设施运维的智能体评测基准——AISHPerf,该企业作为重点技术支持单位参与建设。基于近百亿条真实运维数据,AISHPerf为智能体在智算运维场景的落地定义了问题边界,提供了可参考的基线。
与传统评测不同,AISHPerf不关注模型“说得多好”,而是聚焦“能否把事情做成”。其评测用例源自该企业积累的百亿条真实运维数据,经过严格筛选和处理,最终合成103条高质量、高保真案例。这些案例覆盖从底层硬件到上层训推框架的全链路问题,涵盖网络、GPU、宿主机、云原生平台等传统领域,以及大模型训练、推理等AI原生领域,并支持5种国产芯片的运维场景。
评测框架设计上,AISHPerf采用开放式故障探索模式。系统不直接指出故障根因,而是提供真实集群环境和有限现象描述,要求智能体自主排查、修复。例如,针对“训练任务卡死”问题,智能体需通过复现现象、排查原因、验证假设等步骤完成修复。这种模式考验智能体的自主决策和问题解决能力,而非单纯的知识记忆。
为支持评测,AISHPerf配套推出GPU集群故障模拟工程AIops-Chaos。该工程通过软件层精准模拟GPU掉卡、显存错误、NVLink故障等硬件场景,结合真实业务负载构造高保真测试环境。其创新方案包括劫持nvml库实现GPU故障注入,以及通过rdma hostmesh模拟交换机故障。AIops-Chaos仅需一台GPU服务器即可支持多机任务故障构造,实现分钟级故障编排与自动化恢复验证。
评测体系采用多维度综合评估,主指标为综合得分,辅助指标包括平均耗时、Token消耗和工具调用次数。例如,时延定义为从调用智能体到返回结论的耗时,Token消耗衡量资源成本,工具调用次数反映智能体与环境交互的效率。为解决社区评测工具的痛点,AISHPerf开发了端到端评测工具链AIops-eval,包含用户交互、智能体评测、环境构造、轨迹采集等核心模块,支持自定义规则和LLM-as-a-judge评测。
实测验证显示,主流模型在AISHPerf上的总得分均低于50分,但时效性较人类运维专家有数量级提升。不同难度问题上,模型在中等和困难场景的正确率均低于50%,工具调用时间占比随难度增加显著上升,但正确率下降。技术栈维度上,模型更擅长处理代码类Bug,硬件故障的正确率普遍较低且Token消耗更高。这些结果揭示了智能体在运维领域的典型失败模式,包括任务稳定性不足、推理链质量差和决策执行不安全等。





















