百亿真实运维数据加持，首个AI Infra运维智能体评测基准开源启航

发布时间：2026-06-30 12:30 来源：快讯作者：顾雨柔

随着全球智能技术的加速落地，算力需求正以指数级速度增长，以GPU为核心的AI基础设施成为支撑行业发展的关键支柱。据摩根士丹利预测，到2028年，全球AI基础设施累计投资将突破2.9万亿美元。然而，行业数据显示，运维人力、故障损失和集群闲置等成本占比高达15%至20%，全行业潜在优化空间超过4350亿美元。这一背景下，如何提升运维效率、降低资源浪费成为行业关注的焦点。

作为全球领先的AI基础设施服务商，某企业早在去年10月便率先启动运维智能体研发，并成功部署早期版本。实践表明，该智能体显著提升了运维效率：工单处理时长缩短50%，关键故障处理效率提升约6倍，运维人员人效提高5倍以上，综合成本下降约30%。这一成果为大规模GPU训练与推理业务提供了更稳定、高效的基础设施保障。然而，行业仍面临一个核心问题：什么样的运维智能体才算“好用”？

AI集群运维涉及复杂系统知识、工具调用和长链路推理，对智能体能力提出极高要求。传统模型评估侧重语言能力，但在基础设施领域，“能否解决实际问题”成为核心标准。为此，中国信息通信研究院推出首个面向AI基础设施运维的智能体评测基准——AISHPerf，该企业作为重点技术支持单位参与建设。基于近百亿条真实运维数据，AISHPerf为智能体在智算运维场景的落地定义了问题边界，提供了可参考的基线。

与传统评测不同，AISHPerf不关注模型“说得多好”，而是聚焦“能否把事情做成”。其评测用例源自该企业积累的百亿条真实运维数据，经过严格筛选和处理，最终合成103条高质量、高保真案例。这些案例覆盖从底层硬件到上层训推框架的全链路问题，涵盖网络、GPU、宿主机、云原生平台等传统领域，以及大模型训练、推理等AI原生领域，并支持5种国产芯片的运维场景。

评测框架设计上，AISHPerf采用开放式故障探索模式。系统不直接指出故障根因，而是提供真实集群环境和有限现象描述，要求智能体自主排查、修复。例如，针对“训练任务卡死”问题，智能体需通过复现现象、排查原因、验证假设等步骤完成修复。这种模式考验智能体的自主决策和问题解决能力，而非单纯的知识记忆。

为支持评测，AISHPerf配套推出GPU集群故障模拟工程AIops-Chaos。该工程通过软件层精准模拟GPU掉卡、显存错误、NVLink故障等硬件场景，结合真实业务负载构造高保真测试环境。其创新方案包括劫持nvml库实现GPU故障注入，以及通过rdma hostmesh模拟交换机故障。AIops-Chaos仅需一台GPU服务器即可支持多机任务故障构造，实现分钟级故障编排与自动化恢复验证。

评测体系采用多维度综合评估，主指标为综合得分，辅助指标包括平均耗时、Token消耗和工具调用次数。例如，时延定义为从调用智能体到返回结论的耗时，Token消耗衡量资源成本，工具调用次数反映智能体与环境交互的效率。为解决社区评测工具的痛点，AISHPerf开发了端到端评测工具链AIops-eval，包含用户交互、智能体评测、环境构造、轨迹采集等核心模块，支持自定义规则和LLM-as-a-judge评测。

实测验证显示，主流模型在AISHPerf上的总得分均低于50分，但时效性较人类运维专家有数量级提升。不同难度问题上，模型在中等和困难场景的正确率均低于50%，工具调用时间占比随难度增加显著上升，但正确率下降。技术栈维度上，模型更擅长处理代码类Bug，硬件故障的正确率普遍较低且Token消耗更高。这些结果揭示了智能体在运维领域的典型失败模式，包括任务稳定性不足、推理链质量差和决策执行不安全等。

更多>同类内容