大语言模型应用发展历程 — Memo

从 Token 补全 → 对话助手 → Tool-Use Agent → Multi-Agent → 自主 Agent，
追踪 LLM 从「预测下一个词」到能够独立规划、使用工具、自主完成复杂任务的完整技术演进脉络。

技术演进总览

LLM 的发展不是线性的能力增强，而是五次架构范式的跃迁。每一个 Era 都代表着一次质变——从「补全」到「对齐」，从「单轮」到「多轮」，从「文字」到「行动」，从「单体」到「群体」，从「受控」到「自主」。

2017

Transformer 论文发布——「Attention Is All You Need」，奠定 LLM 时代的架构基础

2019–20

GPT-2 / GPT-3——大规模生成能力涌现，175B 参数，少样本学习

2022

ChatGPT / InstructGPT——RLHF 对齐突破，两个月 1 亿用户

2023

Function Calling / ReAct——LLM 获得「手脚」，Tool-Use Agent 时代开启

2024

MCP 协议 / Multi-Agent——工具生态标准化，CrewAI / LangGraph 协作框架成熟

2025+

自主 Agent——Claude Computer Use / Devin，「数字员工」成为现实

Era 1 · Token 补全时代（2017—2020）

Era 1

Token 补全

2017 — 2020

核心理念：预测序列中的下一个 Token，无监督自回归训练，规模即能力。Transformer 自注意力机制实现并行建模长距离依赖，规模定律（Scaling Law）揭示：参数 × 数据 × 算力协同增长，能力随之指数提升。

核心洞察：这一时代的 LLM 本质是一个极其复杂的自动完成器，不具备任何主动性。

核心技术

自注意力机制序列中每个 Token 并行与所有其他 Token 计算关联权重，一次捕获任意距离的语义依赖，彻底解决长程依赖问题。

自回归语言建模训练目标：给定前 t 个 Token，预测第 t+1 个的概率分布。看似简单，随规模增大，翻译、推理、编程等复杂能力自发「涌现」。

规模定律 Scaling LawKaplan et al. 2020：能力与参数量 N、数据量 D、算力 C 成幂律关系。Chinchilla 定律修正：最优训练满足 D ≈ 20 × N。

BPE 分词将文本分割为子词 Token，词表约 50K–100K。英文约 1–2 token/词，中文约 1–2 token/汉字。上下文窗口与 API 计费均以 Token 为单位。

里程碑：2017 Transformer 论文 → 2018 GPT-1 首个大规模预训练模型 → 2019 GPT-2 惊艳零样本生成 → 2020 GPT-3 175B 参数少样本涌现。

Era 2 · 对话助手时代（2021—2022）

Era 2

对话助手

2021 — 2022

核心理念：通过 RLHF 对齐人类意图，从「补全」转向「理解指令」。InstructGPT 范式无需改变架构，仅通过对齐训练即实现质的飞跃。ChatGPT 引爆全民 AI 时代。

核心洞察：RLHF 将 LLM 从「语言预测器」变为「听得懂人话的助手」，ChatGPT 是第一个大众化 AI 产品。

RLHF 三阶段流程

阶段一 · SFT 有监督微调——收集（指令→期望回答）配对数据，人工标注高质量示例，对预训练模型做初步微调。

阶段二 · 训练奖励模型——对同一 Prompt 生成多个候选回答，人工偏好排序（A>B>C），训练奖励模型量化人类偏好。

阶段三 · PPO 强化学习——以奖励模型打分为信号，用 PPO 算法迭代优化，KL 散度惩罚防止模型偏离预训练分布过远。

上下文窗口在这一时代快速扩展：GPT-3（4K）→ GPT-4 Turbo（128K）→ Claude 3（200K）→ Gemini 1.5 Pro（1M）。Anthropic 提出宪法 AI（Constitutional AI），用书面原则替代人工偏好标注，对齐成本更低、价值观更可解释。

Era 3 · Tool-Use Agent 时代（2023）

Era 3

Tool-Use Agent

2023

核心理念：LLM 获得「手」——通过 Function Calling 调用工具，突破纯文字边界。ReAct 框架赋予模型思维回路：Think → Act → Observe 循环，直到任务完成。

核心洞察：Function Calling 赋予 LLM「手脚」，ReAct 给了它「思维回路」——Agent 时代正式开启。

核心技术栈

Function Calling开发者声明工具的 JSON Schema，LLM 决定是否调用并输出结构化调用意图，客户端执行后将结果回传。MCP 协议是其标准化进化。

ReAct 循环Thought（CoT 推理）→ Action（调用工具）→ Observe（读取返回结果）→ 循环直到输出答案。工具涵盖搜索、代码执行、API 调用、浏览器、数据库等。

RAG 检索增强文档切分→Embedding→向量库→相似度检索→注入 Prompt。解决知识截止日期问题，大幅降低幻觉。

CoT / ToT 推理思维链（CoT）让模型生成可见推导步骤；思维树（ToT）并行探索多条路径并回溯，适合复杂规划任务。

2023.3

OpenAI 发布 Function Calling

2023.4

AutoGPT 走红，Agent 概念爆炸性传播

2023.8

LangChain Agent 生态成熟

2023.10

GPT-4 Turbo + Plugins，多模态 Tool-Use 全面落地

Era 4 · Multi-Agent 协作时代（2024）

Era 4

Multi-Agent 协作

2024

核心理念：分而治之——Orchestrator 将复杂任务分发给专业 Sub-Agent，并行协作突破单体能力上限。DAG 有向图作为流程模型，支持循环、条件跳转与共享状态。

核心洞察：单体 Agent 遇到任务复杂度天花板，专业化分工 + 协调机制是提升上限的关键架构范式。

关键基础设施：MCP 协议

Anthropic 2024 年发布 Model Context Protocol——Agent 生态的「USB 接口」。MCP Host（AI 应用）通过 MCP Client 连接 MCP Server（工具服务），三类原语：Tools（可执行动作）· Resources（只读数据）· Prompts（模板）。一次开发，处处可用。

五种编排模式

顺序链A 完成→传 B→传 C，串行执行，适合有明确依赖关系的流程。

并行扇出同时启动 N 个 Sub-Agent，汇总结果，适合可并行的独立子任务。

层级委派Orchestrator 递归分发给子 Orchestrator，适合超复杂任务的树状分解。

黑板系统共享中央状态，各 Agent 读写协调，适合需要全局信息的协作场景。

代表框架：LangGraph（状态图流程编排）、CrewAI（角色驱动协作）、AutoGen（多轮对话代理）、Dify / n8n（低代码部署）。

Era 5 · 自主 Agent 时代（2024—2025+）

Era 5

自主 Agent

2024 — 2025+

核心理念：无需人工逐步干预，Agent 自主规划、执行、纠错、完成完整工作流。长程规划、Computer Use、自我纠错、持久记忆、安全护栏共同构成能力矩阵，「数字员工」成为现实。

核心洞察：自主 Agent 不只是「更强的助手」，而是第一次让 AI 成为能独立承担工作流的「数字同事」。

Claude 自主 Agent 里程碑

Claude Computer Use（2024.10）——截图→分析→点击→输入，操控整个 OS 界面，完成跨应用复杂工作流。打破 Agent 只能通过 API 交互的限制，任何有 GUI 的软件均可被操控。

Claude Code（2025）——命令行 AI 编程 Agent，自主读写代码库、运行测试、提交 PR，成为开发者标配工具。

OpenClaw 现象（2026）——以 OpenClaw 为代表的 Claw 系列掀起自主 Agent 浪潮,中国大陆云服务厂商纷纷上线OpenClaw相关部署服务。 MCP, A2A, Skill生态三线并进，成为企业级 Agent 中互操作性的事实标准。

Projects & Memory——项目级长期记忆，跨会话保留用户偏好与工作背景，实现个性化自主助手。

长期记忆四种策略

向量记忆库对话片段 Embedding 化存储，按语义相似度检索，适合非结构化知识。

结构化摘要将长对话压缩为 JSON/Markdown，存储关键事实、决策、偏好，适合精确查询。

实体记忆维护「实体字典」，记录人物、项目、概念及其属性，支持快速精确定位。

记忆写入策略判断重要性、时效性、隐私敏感性，决定是否写入，防止记忆库质量下降。

Human-in-the-Loop 是产品成熟度的体现：对删除数据、财务交易、代码部署等高风险操作，强制设计人工确认节点。更高的自主性必须配套更强的护栏，两者并行演进。

五代架构能力对比

维度	Era 1 Token 补全	Era 2 对话助手	Era 3 Tool Agent	Era 4 Multi-Agent	Era 5 自主 Agent
主动性	被动	被动	有限主动	协作主动	完全自主
工具使用	无	无	Function Call	MCP + 多工具	任意工具 + UI
规划能力	无	CoT 初步	ReAct 循环	DAG 子任务	长程自主规划
记忆系统	单次上下文	多轮对话	工具结果	共享状态	持久跨会话
执行环境	纯文本	纯文本	API 调用	多 Agent 并行	OS / 浏览器
自我纠错	无	有限	部分	Critic 审查	Reflexion 全程
代表模型	GPT-3	ChatGPT	GPT-4 + FC	CrewAI 多模型	Claude / OpenClaw

关键结论

范式跃迁而非渐进演化——每个 Era 都是架构层面的质变，从补全到对齐，从单轮到多轮，从文字到行动，从单体到群体，从受控到自主。

工具是边界，记忆是深度，规划是高度——Agent 的能力上限由这三个维度共同决定，缺一不可。

MCP 和 A2A 是基础设施革命——就像 TCP/IP 统一了网络，标准化工具协议将统一 Agent 生态，大幅降低集成成本。

安全与自主性并行演进——更高的自主性必须配套更强的护栏，这不是矛盾，而是产品成熟度的双轮驱动。

机遇窗口——数字化转型进入 Agent 阶段，懂得设计和应用 Agent 的专业人员将成为稀缺价值。