Locsic — AI 可观测性的三层盲区

TL;DR

反共识核心:传统 APM 告诉你”200 OK, 延迟 250ms”——但没告诉你

  • 这次请求花了 $1.74 的 token
  • 推理引擎的 KV Cache 命中率不到 20%
  • Agent 早在中段就走偏了,后面全是浪费

残酷数据:UC Berkeley 等研究发现多 Agent 系统在 AppWorld 测试中故障率高达 86.7% —— 而传统监控完全不知情。

三层盲区

  1. 业务成本盲区:Token 经济不可见
  2. 推理引擎盲区:KV Cache / GPU 利用率不可见
  3. Agent 决策盲区:Agent 推理过程的中段失败不可见

终局

观测体系的终局 = 闭环控制系统:观测 → 诊断 → 决策 → 执行 → 验证

涉及的实体 / 概念

原文链接