AI SRE 范式

🎯 定义

AI SRE（AI Site Reliability Engineering） = 用 LLM Agent 把传统 SRE 实践（事件响应 / 根因分析 / postmortem）自动化、规模化、24×7 化。

与 AIOps 互补（不替代）：

AIOps：事前去噪（告警聚类）
AI SRE：事后调查（根因 + 补救）

详见：AIOps-2026-全景综述

📈 5 大转变（vs 传统 SRE）

来自 85-AI-SRE-2026-Guide-Augment-Code：

#	维度	传统 SRE	AI SRE
1	响应模式	告警 → 人 on-call	告警 → Agent 自动调查
2	MTTR	30-90 分钟	5-10 分钟（减 70-80%）
3	推理能力	单点 + 人工切 5 个 tab	跨系统单 context 关联
4	修复	人工 rollback	高置信低风险自主修复，人审高风险
5	Postmortem	人工写 1-2 天	Agent 自动起草，人编辑

🏗️ 标准 5 Agent 架构

来源：97-Middleware-OpsAI-AI-SRE-Agent + 93-大型集团IT运维智能体平台详细设计方案

Observer Agent — 监听 PagerDuty/Opsgenie 告警流
Investigation Agent — ReAct 循环并行调用 LogQL/PromQL/deploy API
Reasoning Agent — 证据合成 → 根因假设 + 置信度
Action Agent — HITL 审批 → 执行（rollback/scale/config 变更）
Reporter Agent — Markdown postmortem + 更新 Jira/Linear

📊 生产实证

案例	MTTR	来源
iFood（Datadog Bits AI SRE）	-70%	85-AI-SRE-2026-Guide-Augment-Code
American Express（Traversal）	-32%，准确率 82%	85-AI-SRE-2026-Guide-Augment-Code
Datadog 内部	调查快 2x	85-AI-SRE-2026-Guide-Augment-Code
Middleware OpsAI 客户	-70%，告警到根因 5 分钟	97-Middleware-OpsAI-AI-SRE-Agent

🚨 反共识：失败模式

反共识 1：失败源于架构，不是模型能力

来源：80-Why-AI-Agents-Fail-at-Cloud-RCA-arXiv

1675 次 Agent 运行实证 → 12 种 pitfall
Prompt 优化救不了
加强 inter-agent 通信能降 15%

反共识 2：学术 benchmark ≠ 真实生产

来源：84-LATS-RCA-Language-Agent-Tree-Search-arXiv

LO2 基准 91.3% → 真实生产 仅 65.1%
真实世界：多因素根因 / 规模复杂度 / 不完整可观测性

反共识 3：AI 优势其实是反直觉的

来源：94-码农视角-AI诊断和修复问题三个反直觉优势

不被自己代码束缚
凌晨 3 点和白天表现一致（不疲劳）
可并行 evaluate 多条假设（人脑串行）

🛠️ 2026 工具栈

开源

HolmesGPT — 调查 Agent
K8sGPT — K8s 诊断
Aurora — 多云沙箱

商业

Datadog-Bits-AI-SRE — 企业级旗舰
Middleware-OpsAI — 中端轻量
Resolve.ai / Traversal / PagerDuty SRE Agent

底层

OpenTelemetry / MCP-Model-Context-Protocol
Gemini / Claude / GPT
Google-ADK / LangGraph / AutoGen

✅ 采用路线（4 步）

来自 85-AI-SRE-2026-Guide-Augment-Code：

选范围：高频低风险事件（不是最复杂的）
集成工具链：observability + ticketing + chat
评估准确率：在过去事件 backlog 上回测
扩到自主修复：先建议，后执行

🚧 4 大陷阱

陷阱	后果
没上游降噪就买 AI SRE	LLM 推理成本烧在假阳性上
不带可解释性的 Agent	不能信任做 prod 变更
跳过评估直接上 prod	用户当 QA
高风险变更没 HITL	灾难

🔗 在本 Wiki 中

上承：AIOps-2026-全景综述（AI SRE 是其事后侧）
平行：AI-可观测性-四维追踪（可观测层基础）
实体：HolmesGPT · Middleware-OpsAI · Datadog-Bits-AI-SRE · Google-ADK

💡 一句话总结

AI SRE = LLM Agent 重写事件响应循环。 MTTR -70%、5 分钟从告警到根因，是 2026 行业基线（iFood / AMEX / Google 一手数据）。 架构是杠杆，不是模型；HITL 是必需，不是 nice-to-have。

邵的知识库

探索

AI-SRE-范式

AI SRE 范式

🎯 定义

📈 5 大转变（vs 传统 SRE）

🏗️ 标准 5 Agent 架构

📊 生产实证

🚨 反共识：失败模式

反共识 1：失败源于架构，不是模型能力

反共识 2：学术 benchmark ≠ 真实生产

反共识 3：AI 优势其实是反直觉的

🛠️ 2026 工具栈

开源

商业

底层

✅ 采用路线（4 步）

🚧 4 大陷阱

🔗 在本 Wiki 中

💡 一句话总结

关系图谱

目录

反向链接