AIOps 生产实践与反共识

一句话:vendor 营销讲的都是”赢”。这一页讲”输”——真实生产数据 / 失败模式 / 成本爆炸 / 通用 Agent 在云原生中的崩溃。


🚨 5 大反共识(跨 6 篇 source 综合)

反共识 1:最高价值不是”自主修复”,是”知识”

来源:108-Thoughtworks-AIOps-What-Learned-2025

  • vendor 把 AIOps = Agent 自主操作
  • Thoughtworks 实证:“让团队更快理解系统” 比 “Agent 自主操作”价值高得多
  • 知识图谱 + 智能问答 ≫ 自动执行

反共识 2:架构 > 模型(不是换更强 LLM 就行)

来源:80-Why-AI-Agents-Fail-at-Cloud-RCA-arXiv

  • 1675 次 Agent 运行实证:12 种 pitfall 源于架构,不是模型能力
  • Prompt 优化救不了
  • 加强 inter-agent 通信能降 15% 失败率

反共识 3:通用 Agent 在云原生崩溃,必须 vertical specialization

来源:110-Why-General-Purpose-Agentic-AI-Breaks-Cloud-Native

  • 通用 LLM Agent 失败 3 大原因:领域知识不足 / 多 hop 推理崩溃 / 工具调用面爆炸
  • 解药:vertical AI SREHolmesGPT / K8sGPT / Traversal

反共识 4:学术 benchmark ≠ 真实生产

来源:84-LATS-RCA-Language-Agent-Tree-Search-arXiv

  • LO2 基准 91.3% → 真实生产 MSS 仅 65.1%
  • 真实世界三大挑战:多因素根因 / 规模复杂度 / 不完整可观测性

反共识 5:幻觉不可消除,是概率系统的预期属性

来源:109-When-AI-SRE-Fails-Production-Reality

  • 128K/1M context window 不解决幻觉——生产有效仅 8K-50K
  • 唯一解药:纪律工程(测试 / 验证 / 结构 / 冗余 / 受控输入)

💰 真实成本数据(来自 109-When-AI-SRE-Fails-Production-Reality

维度数据
单 LLM chat 实现€50/月
4-Agent AI SRE 系统€8500/月 (15x 倍数)
工具调用失败率3-15%(生产实证)
30 次 tool call 至少 1 次失败60% (3%) → 99% (15%)
Berkeley MAST 整体失败率41-86.7%
Prompt 注入成功率11.2%
开发测试 overhead3-5x 单 Agent

金句:vendor 宣传不会告诉你的 — 4-Agent AI SRE 系统月烧 €8500


🛡️ 5 大防护策略

来源 109-When-AI-SRE-Fails-Production-Reality + 综合:

#策略解决什么
1Circuit Breakertoken 预算上限 / 重试限 / 强制升级 — 防 retry loop 成本飙升
2Tool-chain reliability metrics不只 per-call,要 chain success rate
3Hallucination guardrails输出 schema 强制 + 二次验证 Agent
4Prompt injection 检测全链路监控(不只输入)
5HITL 升级路径任何不确定 → 转人

⚠️ 4 大已知失败模式

模式 1:Cascade Failure(级联失败)

单 Agent 调失败工具 → 不停 retry → 无 circuit breaker → token 无上限 → 在错系统 queue 错操作 → 事件更糟

模式 2:Hallucinated Topology(幻觉拓扑)

LLM 编出不存在的服务名 → 错拓扑查询 → 错依赖图 → 错补救目标 → 错系统执行

模式 3:Prompt Injection via Log

攻击者控制 1 行 log → 注入 prompt → Agent 抑制告警掩盖真实故障 / 错升级 / 错系统执行

模式 4:Context Window 中段失真

“Lost in the middle” 效应:长 incident 进展时,20% 性能下降在中段


🎯 反共识 → 实操原则

  1. 从”知识层”起步,不从”自主行动”起步
  2. 架构投入 > 模型投入 —— 加强 inter-agent 通信比换 GPT-5 重要
  3. 选 vertical 不选通用 —— K8s 用 HolmesGPT / 金融用 Traversal
  4. Benchmark 不可信 —— 用过去事件 backlog 回测
  5. 预算 circuit breaker 是必须,不是 nice-to-have
  6. HITL 是工程纪律,不是过渡方案

🔗 在本 wiki 中

💡 一句话总结

vendor 卖的是赢,生产看的是输。 架构 > 模型,知识 > 自主,vertical > 通用,纪律 > 信仰。