Locsic — AI 可观测性的三层盲区
TL;DR
反共识核心:传统 APM 告诉你”200 OK, 延迟 250ms”——但没告诉你:
- 这次请求花了 $1.74 的 token
- 推理引擎的 KV Cache 命中率不到 20%
- Agent 早在中段就走偏了,后面全是浪费
残酷数据:UC Berkeley 等研究发现多 Agent 系统在 AppWorld 测试中故障率高达 86.7% —— 而传统监控完全不知情。
三层盲区
- 业务成本盲区:Token 经济不可见
- 推理引擎盲区:KV Cache / GPU 利用率不可见
- Agent 决策盲区:Agent 推理过程的中段失败不可见
终局
观测体系的终局 = 闭环控制系统:观测 → 诊断 → 决策 → 执行 → 验证