AIOps 生产实践与反共识

一句话：vendor 营销讲的都是”赢”。这一页讲”输”——真实生产数据 / 失败模式 / 成本爆炸 / 通用 Agent 在云原生中的崩溃。

🚨 5 大反共识（跨 6 篇 source 综合）

反共识 1：最高价值不是”自主修复”，是”知识”

来源：108-Thoughtworks-AIOps-What-Learned-2025

vendor 把 AIOps = Agent 自主操作
Thoughtworks 实证：“让团队更快理解系统” 比 “Agent 自主操作”价值高得多
知识图谱 + 智能问答 ≫ 自动执行

反共识 2：架构 > 模型（不是换更强 LLM 就行）

来源：80-Why-AI-Agents-Fail-at-Cloud-RCA-arXiv

1675 次 Agent 运行实证：12 种 pitfall 源于架构，不是模型能力
Prompt 优化救不了
加强 inter-agent 通信能降 15% 失败率

反共识 3：通用 Agent 在云原生崩溃，必须 vertical specialization

来源：110-Why-General-Purpose-Agentic-AI-Breaks-Cloud-Native

通用 LLM Agent 失败 3 大原因：领域知识不足 / 多 hop 推理崩溃 / 工具调用面爆炸
解药：vertical AI SRE（HolmesGPT / K8sGPT / Traversal）

反共识 4：学术 benchmark ≠ 真实生产

来源：84-LATS-RCA-Language-Agent-Tree-Search-arXiv

LO2 基准 91.3% → 真实生产 MSS 仅 65.1%
真实世界三大挑战：多因素根因 / 规模复杂度 / 不完整可观测性

反共识 5：幻觉不可消除，是概率系统的预期属性

来源：109-When-AI-SRE-Fails-Production-Reality

128K/1M context window 不解决幻觉——生产有效仅 8K-50K
唯一解药：纪律工程（测试 / 验证 / 结构 / 冗余 / 受控输入）

💰 真实成本数据（来自 109-When-AI-SRE-Fails-Production-Reality）

维度	数据
单 LLM chat 实现	€50/月
4-Agent AI SRE 系统	€8500/月 (15x 倍数)
工具调用失败率	3-15%（生产实证）
30 次 tool call 至少 1 次失败	60% (3%) → 99% (15%)
Berkeley MAST 整体失败率	41-86.7%
Prompt 注入成功率	11.2%
开发测试 overhead	3-5x 单 Agent

金句：vendor 宣传不会告诉你的 — 4-Agent AI SRE 系统月烧 €8500

🛡️ 5 大防护策略

来源 109-When-AI-SRE-Fails-Production-Reality + 综合：

#	策略	解决什么
1	Circuit Breaker	token 预算上限 / 重试限 / 强制升级 — 防 retry loop 成本飙升
2	Tool-chain reliability metrics	不只 per-call，要 chain success rate
3	Hallucination guardrails	输出 schema 强制 + 二次验证 Agent
4	Prompt injection 检测	全链路监控（不只输入）
5	HITL 升级路径	任何不确定 → 转人

⚠️ 4 大已知失败模式

模式 1：Cascade Failure（级联失败）

单 Agent 调失败工具 → 不停 retry → 无 circuit breaker → token 无上限 → 在错系统 queue 错操作 → 事件更糟

模式 2：Hallucinated Topology（幻觉拓扑）

LLM 编出不存在的服务名 → 错拓扑查询 → 错依赖图 → 错补救目标 → 错系统执行

模式 3：Prompt Injection via Log

攻击者控制 1 行 log → 注入 prompt → Agent 抑制告警掩盖真实故障 / 错升级 / 错系统执行

模式 4：Context Window 中段失真

“Lost in the middle” 效应：长 incident 进展时，20% 性能下降在中段

🎯 反共识 → 实操原则

从”知识层”起步，不从”自主行动”起步
架构投入 > 模型投入 —— 加强 inter-agent 通信比换 GPT-5 重要
选 vertical 不选通用 —— K8s 用 HolmesGPT / 金融用 Traversal
Benchmark 不可信 —— 用过去事件 backlog 回测
预算 circuit breaker 是必须，不是 nice-to-have
HITL 是工程纪律，不是过渡方案

🔗 在本 wiki 中

上承：AIOps-2026-全景综述、AI-SRE-范式
平行：AI-可观测性-四维追踪 —— Token 成本是反共识 1 的延伸
实体：HolmesGPT · K8sGPT · Traversal

💡 一句话总结

vendor 卖的是赢，生产看的是输。 架构 > 模型，知识 > 自主，vertical > 通用，纪律 > 信仰。