Google Cloud — How Google SRE is using agentic AI to improve operations
TL;DR
Google SRE 20 年首次系统披露 agentic AI 落地。底层 Gemini + ADK + MCP,强调透明度优先黑盒。
6 大落地方向
- 可靠性设计 —— Agent 评估架构方案的可靠性
- 异常检测 —— Agent 分析多源信号
- 事件管理 —— Agent 拉群 / 通知 / 协调
- 事件调查 —— Agent 主动收集证据
- 洞察风险 —— Agent 提取趋势 / 预警
- 设计原则 —— 透明度 > 自主性,可解释 > 黑盒
关键论点
- 透明度优先 —— Google 选可解释推理过程,宁可慢一点
- Gemini + Google-ADK + MCP-Model-Context-Protocol 是底层标准栈
- 生产数据:Datadog 内部调查完成快 2x(2026-03)