AIOps 2026 全景综述

一句话:2026 H1 AIOps 从 “Gartner 2016 统计 ML 时代” 跨入 “LLM Agent 时代”——AIOps + AI SRE 双轨制成为行业共识,可观测性升级为 AI 基础设施。


🎯 核心范式演进(4 大转变)

维度旧范式(2016-2024)新范式(2025-2026)
AIOps 定位事前去噪(告警聚类)事前去噪 + 事后 AI SRE 调查
可观测目标问题在哪里?“(定位)问题为什么 + 怎么修?“(调查)
执行模式被动响应告警自主投查 + 补救建议 + postmortem 自动起草
可观测维度Logs/Metrics/Traces+ Prompt / Tool Call / Trace / Token 四维

金句96-AI观测站-从定位走向调查): “可观测性正在从’定位’走向’调查’。”


📊 AIOps vs AI SRE(关键概念辨析)

维度AIOpsAI SRE
起源Gartner 20162024-2026
技术统计 MLLLM Agent
时机事前事后
输入时序数据 + 告警全栈非结构化(日志/对话/Confluence/code)
产出告警聚合 + 异常检测根因假设 + 补救建议 + postmortem
关系互补,不替代互补

来源:86-AI-SRE-vs-AIOps-Arvo-AI


🏗️ 标准多 Agent SRE 架构(5 角色)

来自 97-Middleware-OpsAI-AI-SRE-Agent + 85-AI-SRE-2026-Guide-Augment-Code

                    告警流
                      ↓
            ┌─────────────────┐
            │  Observer Agent │   监听 PagerDuty/Opsgenie
            └────────┬────────┘
                      ↓
            ┌─────────────────┐
            │ Investigation   │   ReAct 循环
            │     Agent       │   并行调用 LogQL/PromQL/deploy API
            └────────┬────────┘
                      ↓
            ┌─────────────────┐
            │  Reasoning      │   证据 → 根因假设排序
            │     Agent       │   + 置信度
            └────────┬────────┘
                      ↓
            ┌─────────────────┐
            │  Action Agent   │   HITL 审批 → 执行
            │  (rollback/    │   安全补救
            │   scale/patch) │
            └────────┬────────┘
                      ↓
            ┌─────────────────┐
            │ Reporter Agent  │   Markdown postmortem
            │                 │   + Jira/Linear 更新
            └─────────────────┘

🛠️ 2026 工具栈(开源 + 商业)

开源

项目定位入 CNCF 时间
K8sGPTK8s 集群诊断(“是什么”)2023-12-19(最早)
HolmesGPT故障调查 Agent(“为什么 + 怎么修”)2025-10-08
Aurora(Arvo AI)多云沙箱执行-
OpenObserve高性能可观测平台(Rust)-
Langfuse / Phoenix / OpenLLMetryLLM 监控(98-Agent可观测性工具爆发五大开源项目-

商业

产品估值/状态定位
Datadog-Bits-AI-SRE上市公司旗舰,GA 2025-12-02企业级标杆
PagerDuty SRE Agent上市公司事件管理切入
Resolve.ai1B 估值创业挑战者
Traversal$48M(Sequoia + KP)AMEX 实证
Middleware-OpsAI创业公司中端市场轻量

底层标准


📈 生产实证(5 个案例)

案例来源数据
iFood85-AI-SRE-2026-Guide-Augment-CodeMTTR 减 70%(用 Datadog Bits AI SRE)
American Express85-AI-SRE-2026-Guide-Augment-Code根因准确率 82%,MTTR -32%(用 Traversal)
Datadog 内部85-AI-SRE-2026-Guide-Augment-Code调查完成快 2 倍(2026-03 后)
Google SRE87-Google-SRE-Agentic-AI20 年首次系统披露 agentic AI 落地
新浪微博95-新浪微博-AI-Agent协作运维落地与演进中国互联网大厂一手落地

🚨 3 大行业反共识(关键论点)

反共识 1:架构 > 模型(不是换更强 LLM 就行)

来源:80-Why-AI-Agents-Fail-at-Cloud-RCA-arXiv

  • 1675 次 Agent 运行实证:12 种 pitfall 源于架构,不是模型能力
  • Prompt 优化救不了
  • 加强 inter-agent 通信能降 15%

反共识 2:传统 APM 不够(三层盲区)

来源:89-AI可观测性的三层盲区

  • 业务成本盲区:Token 经济不可见
  • 推理引擎盲区:KV Cache / GPU 利用率不可见
  • Agent 决策盲区:Agent 推理中段失败不可见
  • UC Berkeley 数据:多 Agent 系统 AppWorld 故障率 86.7%,传统监控完全不知情

反共识 3:学术 benchmark ≠ 真实生产

来源:84-LATS-RCA-Language-Agent-Tree-Search-arXiv

  • LO2 基准 91.3%真实生产 MSS 仅 65.1%
  • 真实世界三大挑战:多因素根因 / 规模复杂度 / 不完整可观测性

📐 可观测的 4 大维度(AI 时代)

来源:90-AI可观测性全链路追踪 + 82-LLM-Monitoring-Best-Practices-OpenObserve

维度关键指标推荐工具
Prompt模板版本、变量、token 数LangSmith / Langfuse
Tool Call入参 / 出参 / 耗时 / 错误率OpenTelemetry + 自定 attr
Trace多 Agent 协作链路OpenTelemetry
Tokeninput/output / 成本 / 缓存命中Helicone / Portkey

详见:AI-可观测性-四维追踪


🎯 企业建设路线(从 0 到 1)

来自 93-大型集团IT运维智能体平台详细设计方案 综合 83-AIOps-Platform-for-Enterprises-portkey

Phase 1(0-3 月): 告警收敛 + 日志语义解析
   ↓
Phase 2(3-6 月): 根因分析(RCA) + 可观测 4 维上线
   ↓
Phase 3(6-12 月): 自动化运维编排 + 故障自愈
   ↓
Phase 4(12+ 月): 变更影响评估 + 混沌工程 + 知识库 + Postmortem 自动化

🧩 与本 Wiki 其他主题的关系

上承

平行

下接


💡 一句话总结

2026 AIOps = AIOps(事前去噪)+ AI SRE(事后调查)+ 可观测性四维(Prompt/Tool/Trace/Token)。 架构 > 模型,工具开源 + 商业双轨,多 Agent 5 角色协作。 企业级 MTTR 减 70% 不是营销话术,是 iFood / AMEX / Google 一手数据。