AIOps 生产实践与反共识
一句话:vendor 营销讲的都是”赢”。这一页讲”输”——真实生产数据 / 失败模式 / 成本爆炸 / 通用 Agent 在云原生中的崩溃。
🚨 5 大反共识(跨 6 篇 source 综合)
反共识 1:最高价值不是”自主修复”,是”知识”
来源:108-Thoughtworks-AIOps-What-Learned-2025
- vendor 把 AIOps = Agent 自主操作
- Thoughtworks 实证:“让团队更快理解系统” 比 “Agent 自主操作”价值高得多
- 知识图谱 + 智能问答 ≫ 自动执行
反共识 2:架构 > 模型(不是换更强 LLM 就行)
来源:80-Why-AI-Agents-Fail-at-Cloud-RCA-arXiv
- 1675 次 Agent 运行实证:12 种 pitfall 源于架构,不是模型能力
- Prompt 优化救不了
- 加强 inter-agent 通信能降 15% 失败率
反共识 3:通用 Agent 在云原生崩溃,必须 vertical specialization
来源:110-Why-General-Purpose-Agentic-AI-Breaks-Cloud-Native
- 通用 LLM Agent 失败 3 大原因:领域知识不足 / 多 hop 推理崩溃 / 工具调用面爆炸
- 解药:vertical AI SRE(HolmesGPT / K8sGPT / Traversal)
反共识 4:学术 benchmark ≠ 真实生产
来源:84-LATS-RCA-Language-Agent-Tree-Search-arXiv
- LO2 基准 91.3% → 真实生产 MSS 仅 65.1%
- 真实世界三大挑战:多因素根因 / 规模复杂度 / 不完整可观测性
反共识 5:幻觉不可消除,是概率系统的预期属性
来源:109-When-AI-SRE-Fails-Production-Reality
- 128K/1M context window 不解决幻觉——生产有效仅 8K-50K
- 唯一解药:纪律工程(测试 / 验证 / 结构 / 冗余 / 受控输入)
💰 真实成本数据(来自 109-When-AI-SRE-Fails-Production-Reality)
| 维度 | 数据 |
|---|---|
| 单 LLM chat 实现 | €50/月 |
| 4-Agent AI SRE 系统 | €8500/月 (15x 倍数) |
| 工具调用失败率 | 3-15%(生产实证) |
| 30 次 tool call 至少 1 次失败 | 60% (3%) → 99% (15%) |
| Berkeley MAST 整体失败率 | 41-86.7% |
| Prompt 注入成功率 | 11.2% |
| 开发测试 overhead | 3-5x 单 Agent |
金句:vendor 宣传不会告诉你的 — 4-Agent AI SRE 系统月烧 €8500
🛡️ 5 大防护策略
来源 109-When-AI-SRE-Fails-Production-Reality + 综合:
| # | 策略 | 解决什么 |
|---|---|---|
| 1 | Circuit Breaker | token 预算上限 / 重试限 / 强制升级 — 防 retry loop 成本飙升 |
| 2 | Tool-chain reliability metrics | 不只 per-call,要 chain success rate |
| 3 | Hallucination guardrails | 输出 schema 强制 + 二次验证 Agent |
| 4 | Prompt injection 检测 | 全链路监控(不只输入) |
| 5 | HITL 升级路径 | 任何不确定 → 转人 |
⚠️ 4 大已知失败模式
模式 1:Cascade Failure(级联失败)
单 Agent 调失败工具 → 不停 retry → 无 circuit breaker → token 无上限 → 在错系统 queue 错操作 → 事件更糟
模式 2:Hallucinated Topology(幻觉拓扑)
LLM 编出不存在的服务名 → 错拓扑查询 → 错依赖图 → 错补救目标 → 错系统执行
模式 3:Prompt Injection via Log
攻击者控制 1 行 log → 注入 prompt → Agent 抑制告警掩盖真实故障 / 错升级 / 错系统执行
模式 4:Context Window 中段失真
“Lost in the middle” 效应:长 incident 进展时,20% 性能下降在中段
🎯 反共识 → 实操原则
- 从”知识层”起步,不从”自主行动”起步
- 架构投入 > 模型投入 —— 加强 inter-agent 通信比换 GPT-5 重要
- 选 vertical 不选通用 —— K8s 用 HolmesGPT / 金融用 Traversal
- Benchmark 不可信 —— 用过去事件 backlog 回测
- 预算 circuit breaker 是必须,不是 nice-to-have
- HITL 是工程纪律,不是过渡方案
🔗 在本 wiki 中
- 上承:AIOps-2026-全景综述、AI-SRE-范式
- 平行:AI-可观测性-四维追踪 —— Token 成本是反共识 1 的延伸
- 实体:HolmesGPT · K8sGPT · Traversal
💡 一句话总结
vendor 卖的是赢,生产看的是输。 架构 > 模型,知识 > 自主,vertical > 通用,纪律 > 信仰。