Augment Code — AI SRE: The 2026 Guide
TL;DR
AI SRE 重新定义 SRE 实践:从被动响应 → 主动预测、自主诊断、自动修复、自生成 postmortem。
5 大转变
- 告警 → 调查:自动跑工具链查日志/trace/code/deploy
- MTTR 减半:领先案例 70-80%
- 跨系统推理:Agent 在单 context 关联 K8s + RDS + GitHub + Confluence
- 自主修复:高置信低风险直接执行,人审高风险
- Postmortem 自动起草
2026 工具栈
- 开源:HolmesGPT / K8sGPT / Aurora
- 商业:Datadog-Bits-AI-SRE / PagerDuty SRE Agent / Resolve.ai / Traversal
- 底层:OpenTelemetry + LLM + MCP-Model-Context-Protocol + Agent Framework
生产实证
- iFood:MTTR 减 70%
- American Express:根因准确率 82%,MTTR -32%
- Datadog 内部:调查完成快 2x