拆解智能体的五大核心模块:从感知到行动的完整闭环
2023年6月,OpenAI在论文《Generative Agents》中给出定义:AI Agent 是能够自主规划、记忆和使用工具来完成复杂任务的系统。
如果说 RAG 让 LLM 学会了"开卷考试",那么 AI Agent 则赋予了 LLM"手和脚"——不再只是回答问题,而是能够感知环境、制定计划、调用工具、评估结果、动态调整,真正像代理一样替你行动。
LLM 是 Agent 的"大脑",承担三重角色:理解器(解析意图)、控制器(决定何时调用哪个模块)、协调器(整合各模块输出)。
上下文学习:通过提示词动态学习新任务,无需微调。Agent 依赖此能力注入规划策略、工具描述和记忆片段。
思维链(CoT):让模型"先想后答",大幅提升推理准确率。规划模块广泛使用——先拆解步骤,再逐步执行。
自我反思:执行某个动作后评估结果,若失败则反思原因并调整策略重试。
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 核心推理 / 规划 | GPT-4.5 / Claude 3.7 / DeepSeek V3 | 强逻辑推理 |
| 快速工具调用 | GPT-4o-mini / Claude Haiku | 低延迟、低成本 |
| 代码生成执行 | Claude 3.7 Sonnet / DeepSeek Coder | 专项优化 |
| 本地私有部署 | Qwen2.5 / GLM-4 / Llama-3 | 数据安全 |
规划模块将模糊的长期目标分解为可执行的短期子任务序列。
CoT(线性思考链):逐步推理,适合规则明确、步骤清晰的任务。
ToT(思维树):探索多条可能分支,评估后选择最优,适合探索性强、无标准答案的任务。
ReAct(Reasoning + Acting)是 Princeton 和 Google 提出的核心框架:思考→行动→观察→再思考交替循环。
用户:查北京天气,并告诉我穿什么衣服
Thought: 需要先获取天气数据
Action: search_weather(city="北京")
Observation: {"weather":"晴","temp":28,"humidity":45}
Thought: 晴天28度,建议轻薄透气衣物,同时提醒防晒
Final Answer: 今天北京晴天28℃,建议短袖/薄衬衫,记得涂防晒霜。
| 层级 | 介质 | 容量 | 生命周期 |
|---|---|---|---|
| 感觉记忆 | 上下文窗口 | ~128K tokens | 单次交互 |
| 短期记忆 | 上下文窗口 | ~128K tokens | 会话内 |
| 长期记忆 | 向量数据库 / 知识图谱 | 无限制 | 跨会话持久化 |
长期记忆的核心是 RAG(检索增强生成):将记忆转为向量,通过相似度搜索召回相关信息,注入 LLM 上下文。
检索流程: 1. 用户问题 → 向量 embedding 2. 向量数据库相似度搜索(Top-K 最相关片段) 3. 召回片段注入提示词 4. LLM 基于记忆上下文生成回答
信息过载:需要优先级和压缩策略。遗忘机制:什么该记、什么该忘。知识图谱融合:从纯文本片段向结构化知识图谱演进。
工具模块让 Agent 拥有了操作真实世界的能力。
| 技术 | 提出者 | 特点 |
|---|---|---|
| Function Calling | OpenAI | 结构化 JSON,参数类型安全 |
| Tool Use / Tools | Anthropic | 与 MCP 深度集成 |
| Toolformer | Meta | 模型自主学习,无需人工标注 |
| ReAct | Princeton/Google | 推理链中自然穿插工具调用 |
MCP(Model Context Protocol) 是 Anthropic 在2024年底发布的开放协议,为 AI 工具调用建立统一标准。
┌─────────────────────────────────────────┐ │ 🤖 AI 应用 / Agent(Client) │ │ │ MCP Protocol(标准化通信) │ │ ┌──────────────────────────────────┐ │ │ │ 🖥️ MCP Server(工具封装层) │ │ │ │ GitHub / Slack / DB / Search │ │ │ └──────────────────────────────────┘ │ └─────────────────────────────────────────┘ 优势:一次编写 → 所有支持 MCP 的 Agent 都能用
动作执行:运行代码、调用API、操作文件系统。
状态跟踪:维护任务进度快照,支持断点恢复。
容错回滚:捕获异常反馈给规划模块,恢复到稳定状态重试。
| 方案 | 特点 |
|---|---|
| E2B Sandboxed | 云端沙箱隔离,安全但有网络延迟 |
| Docker 容器 | 完全隔离,可自定义环境,启动较慢 |
| 本地代码执行 | 最快,但安全风险高需严格限权 |
| WebAssembly | 轻量级沙箱,启动极快 |
MCP 生态全面爆发:MCP 正在成为 AI 工具连接的事实标准,将出现 MCP 应用商店和企业内部服务器目录。
A2A 协议崛起:Agent-to-Agent 通信协议补充 MCP 的垂直连接能力,让多 Agent 水平协作。Google ADK 和 CrewAI 已原生支持。
专业化 Agent 模型:针对 Agent 场景优化的专用小模型(规划模型、工具调用专用模型),降低成本同时提升专项能力。
具身 Agent:从数字世界延伸到物理世界,机器人控制、自动驾驶场景将成为 Agent 新战场。
| 方向 | 描述 | 成熟度 |
|---|---|---|
| 世界模型集成 | Agent 内置世界模拟器,预测行动后果后再执行 | ⭐⭐ 研究中 |
| 主动记忆管理 | Agent 自主决定记什么、忘什么 | ⭐⭐⭐ 早期应用 |
| 多 Agent 协作规划 | 复杂任务由多特化 Agent 协商完成 | ⭐⭐⭐ 快速发展 |
| Agent 安全治理 | 企业级审计、权限控制、行动约束 | ⭐⭐⭐ 迫切需求 |
| 端到端 Agent 训练 | 从"组装模式"到端到端联合优化 | ⭐ 探索阶段 |
AI Agent 的架构,本质上是将 LLM 的推理能力与模块化的外部能力(规划、记忆、工具、执行)有机结合。理解五大模块的职责边界和协作机制,你就能:
✅ 设计更合理的 Agent 系统架构
✅ 诊断 Agent 故障时的根本原因(规划错了?工具挂了?记忆没召回?)
✅ 选择最适合项目需求的开发框架
✅ 预判技术演进方向,提前布局