AIOps 2026 全景综述

一句话：2026 H1 AIOps 从 “Gartner 2016 统计 ML 时代” 跨入 “LLM Agent 时代”——AIOps + AI SRE 双轨制成为行业共识，可观测性升级为 AI 基础设施。

🎯 核心范式演进（4 大转变）

维度	旧范式（2016-2024）	新范式（2025-2026）
AIOps 定位	事前去噪（告警聚类）	事前去噪 + 事后 AI SRE 调查
可观测目标	”问题在哪里？“（定位）	“问题为什么 + 怎么修？“（调查）
执行模式	被动响应告警	自主投查 + 补救建议 + postmortem 自动起草
可观测维度	Logs/Metrics/Traces	+ Prompt / Tool Call / Trace / Token 四维

金句（96-AI观测站-从定位走向调查）： “可观测性正在从’定位’走向’调查’。”

📊 AIOps vs AI SRE（关键概念辨析）

维度	AIOps	AI SRE
起源	Gartner 2016	2024-2026
技术	统计 ML	LLM Agent
时机	事前	事后
输入	时序数据 + 告警	全栈非结构化（日志/对话/Confluence/code）
产出	告警聚合 + 异常检测	根因假设 + 补救建议 + postmortem
关系	互补，不替代	互补

来源：86-AI-SRE-vs-AIOps-Arvo-AI

🏗️ 标准多 Agent SRE 架构（5 角色）

来自 97-Middleware-OpsAI-AI-SRE-Agent + 85-AI-SRE-2026-Guide-Augment-Code：

                    告警流
                      ↓
            ┌─────────────────┐
            │  Observer Agent │   监听 PagerDuty/Opsgenie
            └────────┬────────┘
                      ↓
            ┌─────────────────┐
            │ Investigation   │   ReAct 循环
            │     Agent       │   并行调用 LogQL/PromQL/deploy API
            └────────┬────────┘
                      ↓
            ┌─────────────────┐
            │  Reasoning      │   证据 → 根因假设排序
            │     Agent       │   + 置信度
            └────────┬────────┘
                      ↓
            ┌─────────────────┐
            │  Action Agent   │   HITL 审批 → 执行
            │  （rollback/    │   安全补救
            │   scale/patch） │
            └────────┬────────┘
                      ↓
            ┌─────────────────┐
            │ Reporter Agent  │   Markdown postmortem
            │                 │   + Jira/Linear 更新
            └─────────────────┘

🛠️ 2026 工具栈（开源 + 商业）

开源

项目	定位	入 CNCF 时间
K8sGPT	K8s 集群诊断（“是什么”）	2023-12-19（最早）
HolmesGPT	故障调查 Agent（“为什么 + 怎么修”）	2025-10-08
Aurora（Arvo AI）	多云沙箱执行	-
OpenObserve	高性能可观测平台（Rust）	-
Langfuse / Phoenix / OpenLLMetry	LLM 监控（98-Agent可观测性工具爆发五大开源项目）	-

商业

产品	估值/状态	定位
Datadog-Bits-AI-SRE	上市公司旗舰，GA 2025-12-02	企业级标杆
PagerDuty SRE Agent	上市公司	事件管理切入
Resolve.ai	$125 M @$ 1B 估值	创业挑战者
Traversal	$48M（Sequoia + KP）	AMEX 实证
Middleware-OpsAI	创业公司	中端市场轻量

底层标准

OpenTelemetry（事实标准）
MCP-Model-Context-Protocol（工具调用协议）
LLM（Gemini / Claude / GPT）

📈 生产实证（5 个案例）

案例	来源	数据
iFood	85-AI-SRE-2026-Guide-Augment-Code	MTTR 减 70%（用 Datadog Bits AI SRE）
American Express	85-AI-SRE-2026-Guide-Augment-Code	根因准确率 82%，MTTR -32%（用 Traversal）
Datadog 内部	85-AI-SRE-2026-Guide-Augment-Code	调查完成快 2 倍（2026-03 后）
Google SRE	87-Google-SRE-Agentic-AI	20 年首次系统披露 agentic AI 落地
新浪微博	95-新浪微博-AI-Agent协作运维落地与演进	中国互联网大厂一手落地

🚨 3 大行业反共识（关键论点）

反共识 1：架构 > 模型（不是换更强 LLM 就行）

来源：80-Why-AI-Agents-Fail-at-Cloud-RCA-arXiv

1675 次 Agent 运行实证：12 种 pitfall 源于架构，不是模型能力
Prompt 优化救不了
加强 inter-agent 通信能降 15%

反共识 2：传统 APM 不够（三层盲区）

来源：89-AI可观测性的三层盲区

业务成本盲区：Token 经济不可见
推理引擎盲区：KV Cache / GPU 利用率不可见
Agent 决策盲区：Agent 推理中段失败不可见
UC Berkeley 数据：多 Agent 系统 AppWorld 故障率 86.7%，传统监控完全不知情

反共识 3：学术 benchmark ≠ 真实生产

来源：84-LATS-RCA-Language-Agent-Tree-Search-arXiv

LO2 基准 91.3% → 真实生产 MSS 仅 65.1%
真实世界三大挑战：多因素根因 / 规模复杂度 / 不完整可观测性

📐 可观测的 4 大维度（AI 时代）

来源：90-AI可观测性全链路追踪 + 82-LLM-Monitoring-Best-Practices-OpenObserve

维度	关键指标	推荐工具
Prompt	模板版本、变量、token 数	LangSmith / Langfuse
Tool Call	入参 / 出参 / 耗时 / 错误率	OpenTelemetry + 自定 attr
Trace	多 Agent 协作链路	OpenTelemetry
Token	input/output / 成本 / 缓存命中	Helicone / Portkey

详见：AI-可观测性-四维追踪

🎯 企业建设路线（从 0 到 1）

来自 93-大型集团IT运维智能体平台详细设计方案综合 83-AIOps-Platform-for-Enterprises-portkey：

Phase 1（0-3 月）: 告警收敛 + 日志语义解析
   ↓
Phase 2（3-6 月）: 根因分析（RCA） + 可观测 4 维上线
   ↓
Phase 3（6-12 月）: 自动化运维编排 + 故障自愈
   ↓
Phase 4（12+ 月）: 变更影响评估 + 混沌工程 + 知识库 + Postmortem 自动化

🧩 与本 Wiki 其他主题的关系

上承

Agentic-AI — AIOps Agent 是 Agentic AI 在运维垂直的落地
Enterprise-Agent-Architecture-2026 — AIOps Agent 是该架构的具体应用
Harness-Engineering — AIOps 是 Harness 工程在运维领域的延伸

平行

金融智能体落地 — 金融垂直 vs 运维垂直
汽车金融-AI-建设方向 — 业务垂直 vs IT 垂直

下接

AI-SRE-范式 — AIOps 的事后调查侧详解
AI-可观测性-四维追踪 — AIOps 的可观测层详解

💡 一句话总结

2026 AIOps = AIOps（事前去噪）+ AI SRE（事后调查）+ 可观测性四维（Prompt/Tool/Trace/Token）。 架构 > 模型，工具开源 + 商业双轨，多 Agent 5 角色协作。 企业级 MTTR 减 70% 不是营销话术，是 iFood / AMEX / Google 一手数据。

邵的知识库

探索

AIOps-2026-全景综述

AIOps 2026 全景综述

🎯 核心范式演进（4 大转变）

📊 AIOps vs AI SRE（关键概念辨析）

🏗️ 标准多 Agent SRE 架构（5 角色）

🛠️ 2026 工具栈（开源 + 商业）

开源

商业

底层标准

📈 生产实证（5 个案例）

🚨 3 大行业反共识（关键论点）

反共识 1：架构 > 模型（不是换更强 LLM 就行）

反共识 2：传统 APM 不够（三层盲区）

反共识 3：学术 benchmark ≠ 真实生产

📐 可观测的 4 大维度（AI 时代）

🎯 企业建设路线（从 0 到 1）

🧩 与本 Wiki 其他主题的关系

上承

平行

下接

💡 一句话总结

关系图谱

目录

反向链接