SoftwareSeni — When AI SRE Fails: Production Reality + Failure Modes + Cost

TL;DR · 极珍贵反共识(21KB)

4 大失败维度的真实数据

维度数据
工具调用失败率3-15%(生产实证)—— 30 次调用 99% 至少 1 次失败
4-Agent 月成本€8500(vs 单 LLM €50 = 15x
Berkeley MAST 整体失败率41-86.7%(1642 trace 实证)
Prompt 注入成功率11.2%(生产实证)

金句

  • Hallucinations are not anomalies; they are an expected property of probabilistic systems.
  • 128K/1M context window 不解决幻觉——生产有效仅 8K-50K

5 大防护策略:Circuit Breaker / Tool-chain reliability / Hallucination guardrails / Prompt injection 检测 / HITL 升级

涉及实体 / 概念

原文链接