智能体
1. 概述
智能体(Agent,常称 AI 智能体)
- 一种能自主感知环境、独立思考决策、调用工具并执行行动以完成特定目标的智能系统。
- 大模型能力的延伸,不再是被动问答,而是能主动完成复杂任务的AI 助手。
2. 特征
- 自主性:无需人工干预,独立运行并决策。
- 反应性:实时感知并响应环境变化。
- 目标导向:一切行为围绕预设目标展开。
- 适应性:能从经验中学习,优化后续行为。
- 社交性:可与用户、其他智能体交互协作。
4. 架构
- 从外部获取信息:文本、语音、图像、API 数据、网页、数据库、传感器等
- 信息过滤、清洗、结构化
- 短期记忆(当前任务):上下文窗口、对话历史、当前任务状态
- 长期记忆(历史经验):向量库/知识库、经验总结、用户偏好
- 工作记忆:中间推理结果、计划步骤
- 作用:让 Agent 不失忆,能持续迭代。
- 基于大模型拆解目标、制定步骤、反思优化(核心大脑)。
- 逻辑推理、规划、判断、选择工具
- 常见机制:
- ReAct(思考 + 行动)
- CoT 思维链
- 反思 / 自我修正
- 多轮决策
- 任务拆解:复杂任务 → 子步骤
- 执行顺序、依赖管理
- 动态调整计划(失败重试、条件分支)
- 典型:任务树、状态机、有向图(LangGraph)
- 能使用外部能力:工具搜索、代码执行、文件读写、API、数据库、浏览器、机器人控制
- 将决策转化为实际动作(发消息、控制机器人、生成文件等)。
5. 应用场景
- 个人助理:自动写文案、做报表、整理日程、收发邮件。
- 客户服务:7×24 小时智能客服,处理咨询、售后、投诉。
- 专业领域:法律助手(起草合同)、医疗助手(分析病历)、金融助手(理财分析)。
- 工业与自动驾驶:产线机器人、自动驾驶汽车、无人机巡检。
- 软件开发:自动生成、测试、调试代码。
6. 区别大模型
- 大模型:是大脑,擅长理解、推理、生成内容,但被动等待指令。
- 智能体:是像完整的人,有大脑 + 记忆 + 手脚,能主动设定目标、规划、执行、复盘,闭环完成任务。
7. 工作时序图
意图识别 → 知识检索 → 规划 → 迭代执行 → 结果返回
- LLM:理解、规划、决策
- RAG:外部知识
- Skill:业务能力单元
- Tool:实际执行 / API
- Agent:总调度
7.1 RAG (检索增强生成)
- 定义:让Agent拥有实时、准确、可定制的知识,从而做出更靠谱、更贴合场景的决策与输出,同时避免大模型自身的幻觉与知识过时问题。
- 作用
- 补全Agent的知识底座,突破LLM固有边界。让Agent从通用模型升级为垂直领域专家。
- 降低幻觉风险,提升Agent输出的可信度。给Agent加一道安全锁,保证决策与输出的可靠性。
- 支持Agent动态决策,适配实时场景。让Agent从按预设流程执行变成随环境动态调整。
- 降低 Agent 对大模型微调的依赖,降低迭代成本。用检索替代部分训练,大幅降低 Agent 垂直化落地的门槛与成本。
- 提升 Agent 的任务执行精度,适配复杂业务场景。让Agent的输出从泛泛而谈变成精准落地。|对比维度 |无 RAG 的 Agent| 有 RAG 的 Agent|
|---|---|---|
|知识范围 |仅依赖 LLM 训练数据(过时、通用) |可接入实时 / 私有数据,知识垂直且实时
|幻觉风险 |高,易输出错误信息,决策不可靠 |低,生成内容基于真实证据,可追溯
|适配场景 |仅限简单对话、通用任务 |支持垂直领域、复杂业务、实时决策
|迭代成本 |需微调 LLM,成本高、周期长 |仅需更新检索库,成本低、周期短
|可信度 |低,无法保证内容准确性 |高,生成内容可引用权威来源
7.2 Skill 技能
(技能)
Skill = 智能体的 “业务能力 / 执行逻辑”
- Agent 的核心能力/业务逻辑层
- 封装 “做什么、怎么做” 的任务逻辑(如 “数据分析”、“生成周报”、“订机票”)
- 包含:
- 任务 SOP(步骤流程)
- 需调用的工具清单
- 领域知识/规则
- 结果处理逻辑
- Agent 收到任务 → 加载 / 调用 Skill
- Skill 内部决定:何时调用工具、调用哪个、如何处理返回值
7.3 Tool 工具
- 搜索引擎(联网搜索)
- 数据库查询(SQL 查询、向量库检索)
- 知识库查询(RAG 底层检索也可封装为 Tool)
- 天气、地址、时间、汇率、翻译等通用 API
- 文件读写:创建、读取、写入、解析文档
- 代码执行:Python/Shell 执行器
- 流程调用:审批、通知、工单、任务派发
- 外部系统 API:CRM、ERP、OA、业务平台接口
7.4 Tool和 Skill区别
- 例如:订机票技能、写周报技能、查账单技能
- Skill 不直接调用接口,只告诉 Agent 要做什么业务动作。
- 例如:HTTP 请求、数据库、搜索、代码执行
- Tool 是真正执行操作的原子能力。
7.5 MCP(模型上下文协议)
MCP = 智能体连接外部工具的 “通信协议”(Tool 层)
- Tool / Environment 交互的标准化协议层(对应时序图中的 Tool 调用接口)
- 定义 “怎么连、怎么传参、怎么返回” 的统一接口规范(AI 的 “USB-C”)
- 作用:
- 让 Agent 以标准方式调用外部工具 / 数据库 / API / 文件系统
- 不关心业务逻辑,只负责安全、标准化通信
- Agent/Skill → MCP Client → MCP Server → 实际工具 / 环境
- 工具结果原路返回