OpenObserve — LLM Monitoring Best Practices 2026
TL;DR
LLM 监控不同于传统 ML 监控——输出非结构化、ground truth 缺失、失败隐蔽(hallucination)、成本动态、安全风险真实。4 类核心指标:
- 性能:延迟 P50/P90/P99 / 吞吐 / Token 用量 / 错误率
- 质量:幻觉率 / 相关性 / 忠实度 / 任务完成率
- 安全策略:toxicity / prompt injection / 策略违规率
- 业务:CSAT / 转化 / 单交互成本
关键论点
- 完整日志不能省:完整 prompt + 响应 + 模型版本 + metadata
- PII 入库前脱敏
- 实时告警:延迟尖峰、错误率 > 1-2%、成本异常、有害内容
- 专建工具:LangSmith / Helicone / Langfuse / Arize AI(通用 APM 不够用)