技术演进总览
LLM 的发展不是线性的能力增强,而是五次架构范式的跃迁。每一个 Era 都代表着一次质变——从「补全」到「对齐」,从「单轮」到「多轮」,从「文字」到「行动」,从「单体」到「群体」,从「受控」到「自主」。
2017
Transformer 论文发布——「Attention Is All You Need」,奠定 LLM 时代的架构基础
2019–20
GPT-2 / GPT-3——大规模生成能力涌现,175B 参数,少样本学习
2022
ChatGPT / InstructGPT——RLHF 对齐突破,两个月 1 亿用户
2023
Function Calling / ReAct——LLM 获得「手脚」,Tool-Use Agent 时代开启
2024
MCP 协议 / Multi-Agent——工具生态标准化,CrewAI / LangGraph 协作框架成熟
2025+
自主 Agent——Claude Computer Use / Devin,「数字员工」成为现实
Era 1 · Token 补全时代(2017—2020)
Era 1
Token 补全
2017 — 2020
核心理念:预测序列中的下一个 Token,无监督自回归训练,规模即能力。Transformer 自注意力机制实现并行建模长距离依赖,规模定律(Scaling Law)揭示:参数 × 数据 × 算力协同增长,能力随之指数提升。
核心洞察:这一时代的 LLM 本质是一个极其复杂的自动完成器,不具备任何主动性。
核心技术
自注意力机制序列中每个 Token 并行与所有其他 Token 计算关联权重,一次捕获任意距离的语义依赖,彻底解决长程依赖问题。
自回归语言建模训练目标:给定前 t 个 Token,预测第 t+1 个的概率分布。看似简单,随规模增大,翻译、推理、编程等复杂能力自发「涌现」。
规模定律 Scaling LawKaplan et al. 2020:能力与参数量 N、数据量 D、算力 C 成幂律关系。Chinchilla 定律修正:最优训练满足 D ≈ 20 × N。
BPE 分词将文本分割为子词 Token,词表约 50K–100K。英文约 1–2 token/词,中文约 1–2 token/汉字。上下文窗口与 API 计费均以 Token 为单位。
里程碑:2017 Transformer 论文 → 2018 GPT-1 首个大规模预训练模型 → 2019 GPT-2 惊艳零样本生成 → 2020 GPT-3 175B 参数少样本涌现。
Era 2 · 对话助手时代(2021—2022)
Era 2
对话助手
2021 — 2022
核心理念:通过 RLHF 对齐人类意图,从「补全」转向「理解指令」。InstructGPT 范式无需改变架构,仅通过对齐训练即实现质的飞跃。ChatGPT 引爆全民 AI 时代。
核心洞察:RLHF 将 LLM 从「语言预测器」变为「听得懂人话的助手」,ChatGPT 是第一个大众化 AI 产品。
RLHF 三阶段流程
阶段一 · SFT 有监督微调——收集(指令→期望回答)配对数据,人工标注高质量示例,对预训练模型做初步微调。
阶段二 · 训练奖励模型——对同一 Prompt 生成多个候选回答,人工偏好排序(A>B>C),训练奖励模型量化人类偏好。
阶段三 · PPO 强化学习——以奖励模型打分为信号,用 PPO 算法迭代优化,KL 散度惩罚防止模型偏离预训练分布过远。
上下文窗口在这一时代快速扩展:GPT-3(4K)→ GPT-4 Turbo(128K)→ Claude 3(200K)→ Gemini 1.5 Pro(1M)。Anthropic 提出宪法 AI(Constitutional AI),用书面原则替代人工偏好标注,对齐成本更低、价值观更可解释。
Era 3 · Tool-Use Agent 时代(2023)
Era 3
Tool-Use Agent
2023
核心理念:LLM 获得「手」——通过 Function Calling 调用工具,突破纯文字边界。ReAct 框架赋予模型思维回路:Think → Act → Observe 循环,直到任务完成。
核心洞察:Function Calling 赋予 LLM「手脚」,ReAct 给了它「思维回路」——Agent 时代正式开启。
核心技术栈
Function Calling开发者声明工具的 JSON Schema,LLM 决定是否调用并输出结构化调用意图,客户端执行后将结果回传。MCP 协议是其标准化进化。
ReAct 循环Thought(CoT 推理)→ Action(调用工具)→ Observe(读取返回结果)→ 循环直到输出答案。工具涵盖搜索、代码执行、API 调用、浏览器、数据库等。
RAG 检索增强文档切分→Embedding→向量库→相似度检索→注入 Prompt。解决知识截止日期问题,大幅降低幻觉。
CoT / ToT 推理思维链(CoT)让模型生成可见推导步骤;思维树(ToT)并行探索多条路径并回溯,适合复杂规划任务。
2023.3OpenAI 发布 Function Calling
2023.4AutoGPT 走红,Agent 概念爆炸性传播
2023.8LangChain Agent 生态成熟
2023.10GPT-4 Turbo + Plugins,多模态 Tool-Use 全面落地
Era 4 · Multi-Agent 协作时代(2024)
Era 4
Multi-Agent 协作
2024
核心理念:分而治之——Orchestrator 将复杂任务分发给专业 Sub-Agent,并行协作突破单体能力上限。DAG 有向图作为流程模型,支持循环、条件跳转与共享状态。
核心洞察:单体 Agent 遇到任务复杂度天花板,专业化分工 + 协调机制是提升上限的关键架构范式。
关键基础设施:MCP 协议
Anthropic 2024 年发布 Model Context Protocol——Agent 生态的「USB 接口」。MCP Host(AI 应用)通过 MCP Client 连接 MCP Server(工具服务),三类原语:Tools(可执行动作)· Resources(只读数据)· Prompts(模板)。一次开发,处处可用。
五种编排模式
顺序链A 完成→传 B→传 C,串行执行,适合有明确依赖关系的流程。
并行扇出同时启动 N 个 Sub-Agent,汇总结果,适合可并行的独立子任务。
层级委派Orchestrator 递归分发给子 Orchestrator,适合超复杂任务的树状分解。
黑板系统共享中央状态,各 Agent 读写协调,适合需要全局信息的协作场景。
代表框架:LangGraph(状态图流程编排)、CrewAI(角色驱动协作)、AutoGen(多轮对话代理)、Dify / n8n(低代码部署)。
Era 5 · 自主 Agent 时代(2024—2025+)
Era 5
自主 Agent
2024 — 2025+
核心理念:无需人工逐步干预,Agent 自主规划、执行、纠错、完成完整工作流。长程规划、Computer Use、自我纠错、持久记忆、安全护栏共同构成能力矩阵,「数字员工」成为现实。
核心洞察:自主 Agent 不只是「更强的助手」,而是第一次让 AI 成为能独立承担工作流的「数字同事」。
Claude 自主 Agent 里程碑
Claude Computer Use(2024.10)——截图→分析→点击→输入,操控整个 OS 界面,完成跨应用复杂工作流。打破 Agent 只能通过 API 交互的限制,任何有 GUI 的软件均可被操控。
Claude Code(2025)——命令行 AI 编程 Agent,自主读写代码库、运行测试、提交 PR,成为开发者标配工具。
OpenClaw 现象(2026)——以 OpenClaw 为代表的 Claw 系列掀起自主 Agent 浪潮,中国大陆云服务厂商纷纷上线OpenClaw相关部署服务。 MCP, A2A, Skill生态三线并进,成为企业级 Agent 中互操作性的事实标准。
Projects & Memory——项目级长期记忆,跨会话保留用户偏好与工作背景,实现个性化自主助手。
长期记忆四种策略
向量记忆库对话片段 Embedding 化存储,按语义相似度检索,适合非结构化知识。
结构化摘要将长对话压缩为 JSON/Markdown,存储关键事实、决策、偏好,适合精确查询。
实体记忆维护「实体字典」,记录人物、项目、概念及其属性,支持快速精确定位。
记忆写入策略判断重要性、时效性、隐私敏感性,决定是否写入,防止记忆库质量下降。
Human-in-the-Loop 是产品成熟度的体现:对删除数据、财务交易、代码部署等高风险操作,强制设计人工确认节点。更高的自主性必须配套更强的护栏,两者并行演进。
五代架构能力对比
| 维度 |
Era 1 Token 补全 |
Era 2 对话助手 |
Era 3 Tool Agent |
Era 4 Multi-Agent |
Era 5 自主 Agent |
| 主动性 | 被动 | 被动 | 有限主动 | 协作主动 | 完全自主 |
| 工具使用 | 无 | 无 | Function Call | MCP + 多工具 | 任意工具 + UI |
| 规划能力 | 无 | CoT 初步 | ReAct 循环 | DAG 子任务 | 长程自主规划 |
| 记忆系统 | 单次上下文 | 多轮对话 | 工具结果 | 共享状态 | 持久跨会话 |
| 执行环境 | 纯文本 | 纯文本 | API 调用 | 多 Agent 并行 | OS / 浏览器 |
| 自我纠错 | 无 | 有限 | 部分 | Critic 审查 | Reflexion 全程 |
| 代表模型 | GPT-3 | ChatGPT | GPT-4 + FC | CrewAI 多模型 | Claude / OpenClaw |
关键结论
01
范式跃迁而非渐进演化——每个 Era 都是架构层面的质变,从补全到对齐,从单轮到多轮,从文字到行动,从单体到群体,从受控到自主。
02
工具是边界,记忆是深度,规划是高度——Agent 的能力上限由这三个维度共同决定,缺一不可。
03
MCP 和 A2A 是基础设施革命——就像 TCP/IP 统一了网络,标准化工具协议将统一 Agent 生态,大幅降低集成成本。
04
安全与自主性并行演进——更高的自主性必须配套更强的护栏,这不是矛盾,而是产品成熟度的双轮驱动。
05
机遇窗口——数字化转型进入 Agent 阶段,懂得设计和应用 Agent 的专业人员将成为稀缺价值。