智能体

1. 概述

智能体(Agent,常称 AI 智能体)

2. 特征

4. 架构

- 从外部获取信息:文本、语音、图像、API 数据、网页、数据库、传感器等 - 信息过滤、清洗、结构化 - 短期记忆(当前任务):上下文窗口、对话历史、当前任务状态 - 长期记忆(历史经验):向量库/知识库、经验总结、用户偏好 - 工作记忆:中间推理结果、计划步骤 - 作用:让 Agent 不失忆,能持续迭代。 - 基于大模型拆解目标、制定步骤、反思优化(核心大脑)。 - 逻辑推理、规划、判断、选择工具 - 常见机制: - ReAct(思考 + 行动) - CoT 思维链 - 反思 / 自我修正 - 多轮决策 - 任务拆解:复杂任务 → 子步骤 - 执行顺序、依赖管理 - 动态调整计划(失败重试、条件分支) - 典型:任务树、状态机、有向图(LangGraph) - 能使用外部能力:工具搜索、代码执行、文件读写、API、数据库、浏览器、机器人控制 - 将决策转化为实际动作(发消息、控制机器人、生成文件等)。

5. 应用场景

6. 区别大模型

7. 工作时序图

意图识别 → 知识检索 → 规划 → 迭代执行 → 结果返回

智能体工作时序图

7.1 RAG (检索增强生成)

- 补全Agent的知识底座,突破LLM固有边界。让Agent从通用模型升级为垂直领域专家。 - 降低幻觉风险,提升Agent输出的可信度。给Agent加一道安全锁,保证决策与输出的可靠性。 - 支持Agent动态决策,适配实时场景。让Agent从按预设流程执行变成随环境动态调整。 - 降低 Agent 对大模型微调的依赖,降低迭代成本。用检索替代部分训练,大幅降低 Agent 垂直化落地的门槛与成本。 - 提升 Agent 的任务执行精度,适配复杂业务场景。让Agent的输出从泛泛而谈变成精准落地。

|对比维度 |无 RAG 的 Agent| 有 RAG 的 Agent| |---|---|---| |知识范围 |仅依赖 LLM 训练数据(过时、通用) |可接入实时 / 私有数据,知识垂直且实时 |幻觉风险 |高,易输出错误信息,决策不可靠 |低,生成内容基于真实证据,可追溯 |适配场景 |仅限简单对话、通用任务 |支持垂直领域、复杂业务、实时决策 |迭代成本 |需微调 LLM,成本高、周期长 |仅需更新检索库,成本低、周期短 |可信度 |低,无法保证内容准确性 |高,生成内容可引用权威来源

7.2 Skill 技能

(技能) Skill = 智能体的 “业务能力 / 执行逻辑” - 任务 SOP(步骤流程) - 需调用的工具清单 - 领域知识/规则 - 结果处理逻辑 - Agent 收到任务 → 加载 / 调用 Skill - Skill 内部决定:何时调用工具、调用哪个、如何处理返回值

7.3 Tool 工具

- 搜索引擎(联网搜索) - 数据库查询(SQL 查询、向量库检索) - 知识库查询(RAG 底层检索也可封装为 Tool) - 天气、地址、时间、汇率、翻译等通用 API - 文件读写:创建、读取、写入、解析文档 - 代码执行:Python/Shell 执行器 - 流程调用:审批、通知、工单、任务派发 - 外部系统 API:CRM、ERP、OA、业务平台接口

7.4 Tool和 Skill区别

- 例如:订机票技能、写周报技能、查账单技能 - Skill 不直接调用接口,只告诉 Agent 要做什么业务动作。 - 例如:HTTP 请求、数据库、搜索、代码执行 - Tool 是真正执行操作的原子能力。

7.5 MCP(模型上下文协议)

MCP = 智能体连接外部工具的 “通信协议”(Tool 层) - 让 Agent 以标准方式调用外部工具 / 数据库 / API / 文件系统 - 不关心业务逻辑,只负责安全、标准化通信 - Agent/Skill → MCP Client → MCP Server → 实际工具 / 环境 - 工具结果原路返回