企业级 Agentic AI 架构设计

AWS China 官方博客，2025-10-24 发布。

TL;DR

提供一套”可用、可控、可度量”的 Agentic-AI 工程化方法论：从 Agentic AI vs AI Agent 概念、行业应用、设计方法论、核心组件到部署。“城市与车辆”类比：Agentic AI 是城市（统一基础设施 + 规则），AI Agents 是车辆（在框架内承担具体角色）。

关键事实

市场数据

Agentic AI 市场 2025 → 2032：138.1 亿 → 1408 亿美元（CAGR 39.3%）
82% 大型企业计划 3 年内大规模部署 Agent
78% 跨国企业用 Agent 替代传统 RPA
2028 年：15% 日常工作决策由 Agentic AI 自主完成，33% 企业软件集成（vs 2024 < 1%）

设计方法论

清晰的协作模型：垂直架构（主从）/ 水平架构（平等协商）/ 混合架构
明确定义的 Agent 边界：能做 / 不能做 / 与其他 Agent 的职责划分
可调整可追踪的推理策略：场景选择 + 充分测试
可控可评测：四维评估（可观测性 / 策略与资源控制 / 故障恢复 / 目标驱动评估）

核心组件（分三大域）

服务域：Agent 服务 / 通信协议 / 服务发现
治理域：安全（三层：网络/传输/内容）/ 护栏（Guardrail）
弹性可观测域：容错（限速/重试/断路器）/ 监控

通信协议对比

协议	发布者	场景
MCP	Anthropic	本地 IDE/聊天应用的插件/数据库/API 集成
A2A	Google	跨供应商/跨平台 Agent 编排
ANP	社区	跨组织/多域 Agent 网络

重要工程经验

⚠️ 单次 LLM 请求中放入 > 20 个 Agent 服务，调用精准度会急剧下降
✅ 推荐 Agent 服务和大模型调用前后都用 Guardrail 做安全检查
✅ 通信协议建议作为”插件式”接入，预留适配层

可观测性新增维度（vs 传统系统）

提示词与模型调用、工具/API 调用、检索上下文、规划器/执行器步骤
新指标：Token 成本、输出质量分数、幻觉率、护栏命中率、工具使用成功率
新故障类型：行为性（幻觉/不安全/违规/不相关）

涉及实体 / 概念

Agentic-AI · Harness-Engineering（理念呼应）

原文链接

内部：2025-10-24 企业级Agentic AI架构设计