大语言模型如何工作

一句话概括：大语言模型不是一个“脑中装着百科全书的人”，而是一个被训练得极其强大的“上下文条件下的下一个 token 预测器”；它先把输入切成 token，再把 token 变成向量，交给多层 Transformer 做注意力计算^[1,2]，最后一个 token 一个 token 地解码生成回答^[11]；真实产品则会在这条主链路外，再叠加检索^[18]、工具调用^[23,24]、多模态^[29,30]、安全和评估^[14,34]系统。

课程框架

这份教程严格采用“三层解释法”：先给你直觉类比，再讲真实计算机制，最后再告诉你真实产品是怎么把这些能力拼成可用系统的。课程内容以 Transformer、GPT-3、InstructGPT、DPO、RAG、Toolformer、ViT、Flamingo、LLaVA 等论文，以及 OpenAI、Anthropic 等官方开发文档为主要依据^{[1,2,12,13,18,23,29,31,32,35,38]}。

课程定位

这不是“只会讲概念名词”的泛泛科普，也不是“上来就推公式”的硬核论文解读。你会看到两个始终并行的视角：

用户视角：为什么它能聊天、能写代码、能分析文档，也会一本正经地出错。
工程视角：为什么 token 会影响成本，为什么上下文会装不下，为什么要上 RAG、工具调用、缓存、评估和安全策略。

学习目标

目标	你将真正理解什么
会用	知道 token、上下文、温度、幻觉、RAG、工具调用分别影响什么
会解释	能把“模型为什么会聊天”讲给非技术同事听
会设计	能看懂一个真实 LLM 产品请求链路
会质疑	知道模型什么时候可能错、为什么会错、怎么减轻错误
会进阶	知道继续学 API、RAG、微调、推理优化该往哪里走

交互模块

本课程内置 5 个可交互演示模块，均已嵌入对应章节正文中：

Token 切分器（第 2 章）：输入一句话，实时拆分 token，显示 token 数。
Attention 热力图（第 4 章）：点击一个 token，查看它对其他 token 的关注权重。
Next-Token 生成器（第 6 章）：逐 token 可视化解码过程。
Temperature 滑块（第 7 章）：实时观察概率分布如何随温度变化。
RAG 检索模拟器（第 12 章）：对比“闭卷回答”与“先查资料再回答”。

Part I

语言模型如何工作

第 1 章 · 大模型到底是什么

小白版解释

把 LLM 先想成一个“超级自动补全器”。你说一句话，它不是在脑子里“像人一样先理解、再思考、再表达”，而是在不断问自己：结合前文，下一个最可能出现的 token 是什么？ 但因为它见过极大量文本，又有很强的模式归纳能力，这个“自动补全”会高级到像在聊天、写作、翻译、写代码、总结文档，甚至像在推理。为了方便理解，我们可以先把它类比成“概率接龙大师”；但真实机制更准确地说，是一个在上下文条件下建模 token 条件分布的自回归语言模型。

技术版解释

主流 GPT 类模型本质上学习的是类似 P(下一个 token | 前面的所有 token) 这样的条件概率。GPT-3 论文显示，当模型规模、训练数据和算力足够大时，仅靠这种语言建模目标，就能在问答、翻译、补全、代码和 few-shot 任务上表现出广泛能力^[2]。Transformer 论文则提供了支撑这种建模的核心架构^[1]。更谨慎的说法是：模型学到了大量语言、知识和任务模式，但这不等于它像人一样拥有稳定意识、主观体验或和人类等价的“理解”。

LLM 高层流程图：从用户输入到逐 token 生成 — 图 1 · 用简化方式串起“用户输入”到“逐 token 生成回答”的主链路。这个高层流程来自自回归语言模型与 Transformer 的组合。

小例子

用户问：“请解释什么是黑洞。” 模型不会一下子写出整段百科，而是可能先预测“黑洞”“是”“一种”“引力”“极强”的概率，然后一步步继续扩展成完整回答。

常见误解

误解是：大模型就是搜索引擎。更准确的理解是：搜索引擎主要做检索，数据库主要做精确存取，传统程序主要按明确规则执行；大模型主要做概率生成。它可以和检索、数据库、工具组合，但它本身不等于这些系统。

小结

LLM 最核心的定义不是“会聊天”，而是“在上下文里预测下一个 token 的大型概率模型”。

第 2 章 · 从一句话开始，Token 是什么

小白版解释

模型眼里的语言，不是你看到的“整句字词”，而是一块一块的小积木。这些积木就叫 token。一个 token 可能是一个字、一个词、一段词根词缀、一个标点，甚至前面带空格的半个词。

技术版解释

Tokenization 是把原始文本转换成 token 序列的过程。现代模型常使用子词方案，比如 BPE 一类方法^[7]，这样既能保持词表规模可控，又能处理罕见词和新词。OpenAI 官方文档也明确说明，token 可以短到一个字符，也可以长到一个完整单词，空格与标点也会进入计数^[35]。不同语言、不同模型、不同 tokenizer，得到的切分结果都可能不同。

Token 切分示意：中英文示例 — 图 2 · 静态切分示意。它只是为了帮你形成直觉，不代表任何单一模型的精确 tokenizer。token 数之所以重要，是因为它直接影响成本、速度、上下文占用。

交互Token 切分器第 2 章

使用 GPT-4 tokenizer (cl100k_base) 实时切分文本，并显示字符数与 token 数对比。

字符数

Token 数

字符 / Token

1.36

切分结果（共 11 个 token）

我想学习大语言模型的工作原理。

注：cl100k_base 是 GPT-4 / GPT-3.5-turbo 长期使用的 tokenizer。不同模型的切分结果可能不同；换行与多字节字符（如部分中文）会被切成多个 token。

小例子

同样一句“我想学习大模型原理”，对某些模型可能是一字一 token；对另一些模型，可能“学习”“模型”会被视作更大的子词片段。英语里 unbelievable 也常被切成前缀 + 词干 + 后缀。

常见误解

误解是：token 就等于一个汉字，或一个英文单词。正确理解是：token 只是模型内部采用的一种切分单位，它和“字”“词”的边界经常不一致。

小结

你每多输入一点内容，模型不是在读“字符数”，而是在处理更多 token；工程上，token 就是最直接的预算单位。

第 3 章 · Embedding，把文字变成可计算的数字

小白版解释

计算机不能直接处理“猫”“狗”“黑洞”这些字面符号，它真正擅长的是数字。所以模型会先把每个 token 变成一串数字，也就是向量。你可以把它想成：给每个 token 在“意义地图”里找一个坐标。

技术版解释

早期词向量研究已经证明，分布式表示可以捕捉语义和句法关系^[6]。现代 Transformer 模型更进一步，不只有静态 token embedding，还会在各层里不断生成上下文化表示：同一个词在不同语境下，会得到不同向量。BERT 及相关分析表明，上层表示比下层更依赖上下文^[8,9]，因此“苹果”在“吃苹果”和“苹果发布手机”里，不应被当作完全相同的内部表示。

词向量空间二维示意：语义相近的词更靠近 — 图 3 · 词向量空间二维投影（PCA 降维教学示意）。真实 embedding 空间通常是几百到几千维。

小例子

如果模型在训练中反复看到“猫会叫、会跑、是动物”“狗会叫、会跑、是动物”，那么“猫”和“狗”的内部表示通常会更接近；而“冰箱”“火车”出现在完全不同上下文里，位置就会更远。

常见误解

误解是：embedding 就是“给每个词一个固定编号”。正确理解是：编号只是离散 ID；embedding 是模型真正参与计算的稠密向量，而且在现代模型里，上下文还会继续把它改写。

小结

从 token 到 embedding，是大模型从“符号世界”进入“可计算空间”的第一步。

第 4 章 · Transformer，现代大模型的核心架构

小白版解释

如果说 token 是积木，embedding 是积木的数字坐标，那么 Transformer 就像一个超级装配车间：它会反复看整句话，决定“当前这个位置，到底该重点参考前面哪些位置”。

技术版解释

Transformer 的关键能力是 self-attention。它不再像传统 RNN 那样严格一格一格把信息往后传，而是能让每个位置直接对其他位置分配注意力权重。原始 Transformer 论文把 multi-head attention 设计成多个并行“注意力头”，让模型能从不同表示子空间里同时捕捉关系^[1]。后续对 BERT 的分析也发现，一些注意力头会明显偏向语法、指代等关系^[10]。

Self-attention 示意：「它」更强关注「新手机」 — 图 4 · “苹果发布了新手机，它的性能很强” 中，self-attention 把“它”的权重更多分配给“新手机”而不是“苹果”。这不是说模型真懂代词学，而是它能通过上下文关系把权重放到更相关的位置。

交互Attention 热力图第 4 章

点击句中任意 token（作为 query），下方矩阵高亮该 token 对其他 token 的注意力权重。权重为示意值，并非真实模型输出。

点击 Query：

Query: 它 · 对其他 token 的注意力（仅可看到 ≤ 自己位置的 token，因果掩码）

10%

苹果

发布

了

55%

新手机

，

25%

它

的

性能

很

强

最关注：新手机55%/苹果10%/发布5%

查看完整矩阵

	苹果	发布	了	新手机	，	它	的	性能	很	强
苹果	100
发布	55	45
了	15	55	30
新手机	35	30	5	30
，	5	5	2	35	53
它	10	5	2	55	3	25
的	5	3	2	10	2	35	43
性能	10	5	2	30	2	20	6	25
很	3	3	2	10	3	6	8	40	25
强	2	2		8	2	5	6	45	12	17

小例子

句子：“苹果发布了新手机，它的性能很强。” 这里“它”更可能指“新手机”，而不是“苹果”。模型正是依赖上下文中的相关线索，动态决定该关注哪里。

常见误解

误解是：attention 就等于人在“看哪里”。正确理解是：attention 是一种可学习的权重分配机制。它有时和人类直觉相符，但不能简单等同于人类注意力或解释性本身。

小结

Transformer 让模型摆脱了“顺着句子一格一格往后传”的限制，能更高效地建模长距离关系。

第 5 章 · 大模型怎样一层一层加工表示

小白版解释

你可以把多层 Transformer 想成一群编辑在轮流改稿：第一轮看字词和格式，第二轮看句子关系，第三轮看语义和意图，越往后越接近“这句话到底在干什么”。

技术版解释

研究者对 BERT 等 Transformer 的分析发现，底层更偏表面特征，中层更偏句法，高层更偏语义与任务相关信息^[9]。同时，上层表示通常比下层更“上下文化”，也就是更依赖整段语境^[9,10]。这并不意味着模型像人脑一样有“层层思考意识”，更准确的说法是：向量表示在层与层之间不断被重写。

Transformer 多层结构示意 — 图 5 · 多层处理流程。每一层并不是在单独“产出答案”，而是在重新组织信息，为后面的预测准备更好的表示。

小例子

“银行”在“我去银行取钱”和“河流的银行”这种假英文类比里，会因为上下文不同而被高层表示区分得更明显。

常见误解

误解是：第 1 层负责语法，第 2 层负责语义，第 3 层负责逻辑，分工非常绝对。正确理解是：这更像是“常见趋势”，不是硬边界；不同模型、不同任务、不同层之间会重叠。

小结

“模型在思考”这句话，如果非要翻译成技术语言，更接近“内部表示在多层网络里被不断更新”。

第 6 章 · 模型为什么能生成回答

小白版解释

模型写回答，不像人先想完整大纲再一次性写出来；它更像在玩一个超高级接龙游戏：先决定下一个 token，再把这个 token 添到上下文里，然后继续决定下一个。

技术版解释

自回归语言模型在推理时通常按“一个 token 一步”解码。每一步都根据已有上下文输出一个候选分布，然后按某种解码策略选出当前 token，再继续预测后续 token。Holtzman 等人的研究也说明，模型本身的概率分布是一回事，如何从分布中选 token 的解码策略又是另一回事^[11]。

Next-token prediction：前缀「猫是一种」之后的候选概率分布 — 图 6 · 给定前缀“猫 / 是 / 一种”之后，模型在词表上给出候选概率。数值仅为教学示意。

交互Next-Token 生成器第 6 章

给定前缀，逐 token 展开模型在每一步的 top-k 候选。点击候选 token 即可向前一步。概率数值为示意值。

当前上下文

猫是一种?

下一 token 候选分布 (top-6)

点击任意候选 → 推进一步

小例子

如果模型这一步选了“动物”，下一步它看到的上下文就变成“猫是一种动物”；于是后续候选会变成“，”“，通常”“，它们”“。”之类。

常见误解

误解是：模型先把整篇文章都想好了，再慢慢吐出来。正确理解是：大多数主流生成式 LLM 在推理时都是按 token 逐步展开的。

小结

生成不是“整段输出”，而是“条件概率分布 + 一步步解码”。

第 7 章 · Temperature、Top-k、Top-p 是什么

小白版解释

同一个模型，有时像严谨考生，有时像创意写手。这个差别，很多时候不是模型“换了脑子”，而是采样参数不同。

技术版解释

Temperature 控制的是概率分布的“尖锐”或“平坦”程度。温度低时，高概率候选会被进一步放大；温度高时，长尾候选更容易进入竞争。Top-k 是只保留概率最高的前 k 个候选再采样；Top-p 是保留累计概率质量达到 p 的那个最小候选集合，也叫 nucleus sampling。Holtzman 等人提出 nucleus sampling，正是因为单纯追逐最高似然，容易得到重复、乏味甚至退化的文本^[11]。

交互Temperature 滑块第 7 章

同一组 logits，不同温度产生完全不同的概率分布。低温尖锐（贪婪），高温平坦（探索）。

Temperature1.00

熵 (随机度)1.48 bits

前缀 “猫 / 是 / 一种” · 经 softmax(logits / T) 后的候选分布

动物69.2%

宠物14.0%

哺乳动物10.4%

食物2.8%

生物1.7%

昆虫1.1%

植物0.7%

交通工具0.052%

温度并不会改变模型已学到的知识（即 logits），只会改变它 从候选中怎么选 。低温适合代码 / 结构化抽取，高温适合创意写作。

小例子

让模型补全一句诗，temperature 低时，它更像按标准答案写；temperature 高时，它更可能走向新颖表达，但也更容易偏题。代码生成、结构化抽取这类任务通常更偏好低温；创意写作、头脑风暴通常更能容忍高温。温度并不会改变模型已经学到的知识，只会改变它从候选中“怎么选”。

常见误解

误解是：temperature 越高，模型越聪明。正确理解是：它只是更随机，不是更聪明。随机性增加，创造性可能上升，但错误率也可能上升。

小结

采样参数不是“改模型”，而是在改模型如何从自己的分布里挑答案。

Part II

模型如何被训练与扩大能力

第 8 章 · 大模型是怎么训练出来的

小白版解释

如果推理阶段像“答题”，那训练阶段就像“海量刷题 + 专项辅导 + 行为纠偏”。模型先大量阅读文本学语言规律，再学着更像助手回答，最后再根据人类偏好和安全规则进一步校准。

技术版解释

典型流程可以分成四段。预训练：在海量语料上做下一个 token 预测，学习语言模式与广泛知识；SFT：用高质量问答示例把模型拉向“按指令回答”的形态；偏好对齐：如 RLHF、DPO，让模型更符合“有帮助、真实、无害”等偏好；安全训练与评估：通过规则、红队、拒答策略、评测流程减少危险输出。InstructGPT 论文系统展示了 SFT + RLHF 的路线^[12]，DPO 提供了更简单直接的偏好优化方式^[13]，Constitutional AI 则展示了基于原则列表的自我改写与反馈式对齐^[14]。

训练流水线：预训练 → SFT → 偏好对齐 → 安全评估 → 上线 — 图 7 · 常见训练流水线。预训练让模型“会说话”，SFT 让它“像助手回答”，偏好对齐让它“更符合人类期待”，安全训练让它“知道边界”。

小例子

预训练让模型知道“怎么说话”；SFT 让它学会“像助手一样回答”；偏好对齐让它更懂“什么样的回答更符合人类期待”；安全训练让它知道“哪些边界不能越”。

常见误解

误解是：训练就是把百科全书整本复制进模型。正确理解是：模型主要把模式压缩进参数，而不是像数据库一样逐条存档；但研究也表明，模型在某些情况下确实可能记住并复现训练数据中的片段^[17]，所以“不是简单复制”与“完全没有记忆”都不准确。

小结

训练不是一锤子买卖，而是一条从“语言能力”到“助手行为”再到“安全边界”的流水线。

第 9 章 · 参数是什么，为什么有 7B、70B、175B

小白版解释

把模型想成一台极其复杂的机器，里面有无数旋钮。参数就是这些可调旋钮。训练，就是反复拧这些旋钮，让机器在看到某种输入时，更容易给出合理输出。

技术版解释

参数是模型内部的可学习数值权重。GPT-3 论文公开了 175B 规模^[2]，LLaMA 论文公开了 7B 到 65B^[3]，Chinchilla 使用 70B 参数但凭借更优的数据-参数配比，在多个任务上优于更大的模型^[5]。Scaling Laws 与 Chinchilla 一起说明：参数更大通常有潜力带来更强能力，但是否“更好”，还取决于训练 token 数、数据质量、架构和训练策略。^[4,5]

参数旋钮类比：海量可学习权重经过训练不断调整 — 图 8 · 把模型想成一台拥有海量“旋钮”的机器。训练即是反复调整这些旋钮，让输出分布更靠近目标。

小例子

“7B”“70B”“175B”里的 B 指十亿。7B 大约是 70 亿参数，70B 大约是 700 亿参数。参数更多通常意味着模型容量更大，但也意味着显存、推理吞吐、部署成本的压力更大。

常见误解

误解是：参数越多一定越好。正确理解是：参数只是能力上限和容量的一部分；训练得更“合理”的 70B，完全可能压过训练不足的更大模型。

小结

参数像旋钮，规模重要，但规模不是全部。

第 10 章 · 上下文窗口是什么

小白版解释

上下文窗口就像一张桌子。你能把多少资料摊在桌上给模型看，取决于桌子有多大。桌子大，模型能一次看到更多信息；但资料堆得太多、太乱，它也未必抓得住重点。

技术版解释

上下文窗口是模型单次请求中可处理的 token 容量。Anthropic 官方文档明确指出，它包含对话历史、当前请求以及将要生成的输出空间^[38]；在实际代理/编码场景中，上下文还常包括系统提示、读取的文件、模型前面的回复、工具返回内容等。更长上下文通常意味着更高的预填充开销、KV cache 内存压力和更高延迟；vLLM/PagedAttention 一类系统工作，就是专门在工程上优化这部分内存与吞吐^[33]。与此同时，“Lost in the Middle” 研究提醒我们：上下文变长，不代表模型一定更会用这些信息，重要证据放在中间时，性能反而可能下降^[22]。

上下文窗口组成：系统提示 + 历史对话 + 用户问题 + 检索资料 — 图 9 · 当前可见上下文的组成。系统提示、对话历史、用户问题、检索资料与工具返回，都要挤进同一张“桌子”，加上模型生成的输出预算。

工程层补充

现实产品里，长上下文往往要结合裁剪、摘要、检索、缓存一起用。比如 OpenAI 与 Anthropic 都提供了 prompt caching 相关能力，用来降低长前缀的重复处理成本，从而改善长文档场景的延迟与费用^[37,40]。

常见误解

误解是：只要上下文够长，模型就等于“永久记住你”。正确理解是：上下文只是本次会话里当前看得到的内容，不等于永久记忆。

小结

上下文窗口是 LLM 使用体验里最重要、也最容易被忽视的“桌面空间”。

Part III

真实产品里的检索、工具与多模态

第 11 章 · 为什么大模型会幻觉

小白版解释

幻觉不是模型“故意骗人”，而更像“一个非常会说话的人，在不知道答案时也倾向于说得像知道一样”。

技术版解释

LLM 幻觉通常指“语言流畅但事实不成立”的输出。近年的综述认为，这来自多个层面：参数化知识本身有限、训练数据可能过时或有偏差、问题表述模糊、缺少外部检索、以及解码过程更偏向生成“像答案的文本”而不是“确认自己是否真的知道”^[15]。OpenAI 在“Why language models hallucinate”中进一步指出，传统训练与评估往往会奖励“猜一个看似合理的答案”，而不是奖励模型诚实地表达不确定性^[16]。

幻觉常见原因因果图 — 图 10 · 幻觉的常见来源：知识缺失或过时、问题含糊、缺乏检索，叠加“按概率继续写”的解码偏好。

小例子

如果你问一个并不存在的论文 — “请总结张三在 2024 年发表的《量子奶茶优化算法》” — 模型可能会临场拼出作者单位、实验设置和结论，因为生成机制更偏向“补完一个像真的学术摘要”。

怎么减轻

让模型引用来源、接入搜索或 RAG、要求它显式说明不确定性、区分事实与建议，并在医疗、法律、金融等高风险任务中加入人工复核，都是有效的工程减缓手段。幻觉可以降低，但目前不能靠单一技巧彻底消除。

小结

幻觉不是“模型坏”，而是概率生成系统在事实要求很高的任务上天然有风险。

第 12 章 · RAG 是什么，为什么能减少幻觉

小白版解释

普通 LLM 更像闭卷考试。RAG 则像允许先去图书馆查资料，再回来答题。

技术版解释

RAG 是 Retrieval-Augmented Generation。Lewis 等人把它描述为“参数化记忆 + 非参数化外部记忆”的组合：模型先检索外部文档，再把文档片段放进上下文进行生成^[18]。检索器可以使用密集向量检索，DPR 证明 dense retriever 在开放域问答里能明显优于强 BM25 基线^[19]；向量数据库与近邻索引系统则负责高效存储和搜索 embedding，Faiss 是这一类系统的代表^[20]。

RAG 流程：查询改写 → 检索 → 上下文拼接 → 生成 → 附带引用 — 图 11 · RAG 典型流程。模型在生成前先做检索（向量 + 关键词），把命中的文档片段放进上下文，再生成回答并附带引用。

交互RAG 检索模拟器第 12 章

同一个问题在“闭卷”与“先检索再回答”两种模式下的回答差异。检索文档与答案均为示意素材。

用户问题

这份财报最大的风险是什么？

闭卷 · 仅靠参数化记忆

从一般经验看，财报常见的风险包括：宏观环境波动、市场竞争加剧、毛利率压力、汇率与监管不确定性。具体到这一份财报，需要进一步阅读才能给出更精准的判断。

⚠ 泛泛而谈，难以核实，无引用

RAG · 检索 → 上下文 → 生成

（等待执行检索 ...）

RAG 不是“一定不出错”。检索质量、切块方式、排序、上下文位置都会影响最终回答可靠性（参见 Lost-in-the-Middle）。

小例子

你问“这份财报最大的风险是什么”。如果不用 RAG，模型可能泛泛回答“宏观环境、市场竞争、经营风险”；如果先检索财报相关段落，它就能更具体地说出“现金流下滑、海外收入波动、应收账款拉长”等，并给出出处。

RAG 也不是万能

如果检索不到正确资料，或者把太多不相关片段塞进上下文，模型照样会答错。CRAG 等后续工作专门研究“检索错了怎么办”^[21]；“Lost in the Middle” 也说明，就算资料真的进了上下文，模型也不一定总能有效使用，尤其当关键信息被埋在长上下文中段时^[22]。

常见误解

误解是：有了 RAG 就不会幻觉。正确理解是：RAG 只是把“闭卷”变成“可查资料”，不是把系统自动变成事实机器。检索质量、切块方式、排序和引用设计都很关键。

小结

RAG 的本质，是把“模型脑子里模糊记得的东西”，换成“当前能看到的外部证据”。

第 13 章 · 工具调用和 Agent 是什么

小白版解释

大模型会说话，但不一定会算账，不一定有实时数据，也不一定能替你真去执行操作。所以工程上常给它接“手”和“脚” — 也就是工具。

技术版解释

OpenAI 官方工具调用流程很清楚：应用先把可用工具描述给模型，模型返回结构化工具调用，再由应用实际执行工具，把结果回填给模型，最后模型再整合出最终回答^[36]。Anthropic 的文档也强调，模型会根据用户请求和工具描述决定是否调用、调用哪个、传什么参数^[39]。Toolformer 进一步展示，语言模型甚至可以学习“何时用 API、传什么参数、如何利用返回值”^[23]；ReAct 则把“思考”和“行动”交织起来，推动多步任务完成^[24]。

工具调用最小闭环：判断 → 调用 → 返回 → 整合 — 图 12 · 工具调用的最小闭环。模型不直接执行外部动作，而是返回结构化调用请求，由应用层执行后把结果回填。

Agent 怎么理解

可以把 Agent 暂时理解成：LLM + 目标 + 工具 + 记忆 + 多步规划。它不只是“说一句答一句”，而是会拆目标、选工具、检查中间结果、再决定下一步。听上去很强，但也更脆弱：目标理解错、计划错、工具参数错、工具结果理解错，都会让整条链路出问题。

小例子

用户说：“帮我查今天美元兑欧元，再算一下 500 美元等于多少欧元。” 一个纯 LLM 容易瞎估；接上汇率查询和计算器后，模型可以先查，再算，再解释。

常见误解

误解是：Agent 就是已经会自主工作的数字员工。正确理解是：Agent 是一套设计模式，不是魔法人格。它能显著扩展能力，但也会把错误放大到多步骤流程里。

小结

工具给模型的是“外部能力”，Agent 给模型的是“多步执行框架”。

第 14 章 · 多模态大模型如何看图、听音、处理视频

小白版解释

多模态模型并不是“突然长出了眼睛和耳朵”，而是学会把图片、音频、视频也变成和文字类似的可计算表示，再和文本一起处理。

技术版解释

Vision Transformer 证明，图像可以被切成 patch 序列后送进 Transformer^[29]；CLIP 证明，图像和文本可以被映射进共享的语义空间^[30]；Flamingo 和 LLaVA 则进一步把视觉编码器与语言模型桥接起来，让模型能够处理图文交织输入、图像问答、截图理解和多模态对话^[31,32]。视频则通常可以看作“多帧图像 + 时间线”的扩展形式。

多模态处理高层流程：视觉编码器 + 文本 token 合流到多模态模型 — 图 13 · 多模态处理的高层流程。图像通过视觉编码器变成向量，与文本 token 一起进入同一个模型，最终输出回答。

小例子

你给模型一张财报截图，再问“这张图里利润率下降的主要原因是什么”，它会先把图像变成视觉特征，再把你的文字问题一起送入模型，最后生成解释。

常见误解

误解是：多模态模型看到图片就像人在看图片。正确理解是：它看到的是经过编码器提取后的数值表示，而不是人类主观视觉体验。

小结

多模态不是把文本模型“外面贴一层图像壳”，而是把多种模态统一进可计算表示空间。

第 15 章 · 为什么大模型看起来会推理

小白版解释

很多时候，模型之所以“看起来会推理”，是因为它在训练中见过太多问题、答案、步骤和范式，于是学会了许多解决问题的语言模板。

技术版解释

Chain-of-Thought 论文显示，给模型提供中间推理步骤示例，能显著提高复杂推理任务表现^[25]；Self-Consistency 说明，多采样几条推理路径再汇总，往往比只走单一路线更稳^[26]；Program-of-Thoughts 把“算数”交给解释器执行^[27]；Tree-of-Thoughts 甚至允许模型探索多条思路并回退^[28]。这些研究说明：分步表达、外部验证与搜索式推理，能让模型表现出更强的求解能力。

直接答 vs 分步推理 vs 搜索式推理 — 图 14 · 对比“直接给答案”与“分步推理 / 搜索 / 外部验证”。后者通常更慢，但准确率更稳。

小例子

问“Roger 有 5 个球，又买了 2 罐，每罐 3 个，一共多少个？” 模型如果直接拍脑袋，容易出错；如果先写出“2×3=6，再 5+6=11”，准确率往往会更高。把“2×3”交给计算器执行会更稳。

常见误解

误解是：只要模型会“分步骤写”，它就真的懂逻辑而且永远正确。正确理解是：分步推理通常有帮助，但不保证步骤本身就正确；语言上的“像推理”，和稳定可靠的数学/逻辑正确性，不是一回事。

小结

大模型可以表现出类似推理的能力，但这更像“学到了推理模式”，而不是“已经拥有永不出错的推理引擎”。

第 16 章 · Prompt 为什么重要

小白版解释

Prompt 就像你给助手下任务时的工作单。你说得越清楚：你是谁、你要什么、你对格式有什么要求，它通常越容易给出你想要的结果。

技术版解释

OpenAI 的官方文档直接说，prompting 是给模型输入任务，输出质量往往取决于你 prompt 得多好^[35]。Anthropic 的提示工程文档同时提醒：不是每个失败都该靠 prompt 来修；有些问题更适合靠选不同模型、改系统架构、加检索或改评测来解决^[38]。系统消息设计文档也强调，system prompt 会影响角色设定、语气、格式与安全边界。

实用 Prompt 模板：角色 + 目标 + 背景 + 约束 + 输出格式 + 质量标准 — 图 15 · 一个可复用的实用 prompt 骨架：角色、目标、背景、约束、输出格式、质量标准。

好 Prompt 的骨架

角色、目标、背景、约束、输出格式、质量标准，这六块通常最实用。比如：“你是一名财报分析师。基于上传 PDF，总结风险项。必须按‘风险 — 证据 — 影响 — 不确定性’四列输出表格。看不见证据就明确写‘未找到依据’。” 这个 prompt 的价值，不是“让模型变聪明”，而是让任务边界更清楚、输出更可评估。

常见误解

误解是：prompt 写得足够长、足够花，就能解决所有问题。正确理解是：prompt 只能在模型能力、上下文、工具和系统设计允许的范围内发挥作用。它很重要，但绝不是万能钥匙。

小结

好 prompt 的本质不是“咒语”，而是把任务说明写得精确、可执行、可验收。

第 17 章 · 一次完整的 LLM 产品请求流程

小白版解释

真实产品不是“用户提问 → 模型开口”这么简单。中间通常站着一整套后台系统，负责权限、安全、检索、工具、格式控制、日志和评估。

技术版解释

以“帮我分析这份财报，并给出投资风险摘要”为例，真实系统常常会依次完成：接收请求、检查权限和安全策略、读取文件、切分文档、做检索或重排、构造 prompt、调用模型、必要时调用计算工具、生成结构化输出、附加引用、返回结果、记录日志用于后续评估。OpenAI 的结构化输出文档说明了如何约束返回 JSON schema、工具调用文档说明了模型如何与外部函数协作^[36]；HELM 强调评估不能只看正确率，还要看鲁棒性、校准、公平性、毒性和效率等维度^[34]。

真实 LLM 产品请求链路：从用户上传到日志评估 — 图 16 · 用财报分析场景串起真实产品链路。LLM 只是链路里的一个节点，旁边还有权限、文档切分、检索、工具、结构化输出与日志评估。

小例子

如果财报里有“同比增长率”“现金流覆盖倍数”这类需要精确计算的指标，系统可以让模型先提取数值，再交给计算器执行，而不是让模型人肉心算。这样通常比“纯语言回答”更可靠。

常见误解

误解是：一个好模型就足以组成好产品。正确理解是：上线质量往往取决于“模型 + 数据 + 工具 + 提示 + 安全 + 评估 + 成本控制”的整体系统设计。

小结

当你在产品里看到一句流畅回答时，背后很可能不是一个单独模型，而是一整条工程流水线。

Part IV

误解澄清与学习路线

第 18 章 · 常见误解澄清

#1大模型就是搜索引擎

为什么不准确搜索引擎主要从已有文档中检索结果；大模型主要根据上下文生成文本。

正确理解很多好用产品其实是“LLM + 搜索/RAG”，但两者不是一回事。

#2大模型什么都知道

为什么不准确参数里虽然压缩了大量知识，但知识会过时、缺失，也可能被问到训练中没覆盖好的角落。

正确理解它更像“见识很广但不总能核实的助手”，不是全知数据库。

#3参数越多一定越好

为什么不准确训练 token 数、数据质量和训练策略同样重要。

正确理解大模型有潜力，但 Chinchilla 和 LLaMA 类结果说明，“更小但训练更合理”的模型完全可能赢过更大模型。^[3,5]

#4回答越流畅，就越正确

为什么不准确语言流畅性和事实正确性不是同一回事。

正确理解幻觉常常恰恰出现在“说得特别像真的”时。

#5RAG 可以彻底消除幻觉

为什么不准确检索会错，排序会错，切块会错，模型也可能没用好上下文。

正确理解RAG 是重要减缓手段，不是终极保险。

#6Prompt 可以解决所有问题

为什么不准确有些问题不是提示不够好，而是模型能力不够、系统设计不对、工具没有接上。

正确理解prompt 很重要，但不是替代检索、工具、评估和安全设计的万能药。

#7Agent 可以完全自主完成复杂任务

为什么不准确多步规划会把局部错误扩散到整条链路。

正确理解Agent 是高能力、高风险的系统模式，仍然需要约束、监控和评估。

#8模型有真正的人类意识

为什么不准确主流论文与官方文档讨论的是语言建模、对齐与行为设计，不等于证明其具有人类式意识。

正确理解面向工程与产品，最稳妥的做法是把它当成强大的统计生成系统，而不是拟人化心灵。

#9大模型只是复制训练数据

为什么不准确如果只是复制，它无法在新任务上做 few-shot 泛化与组合^[2]；但研究也显示它确实可能记住并泄露部分训练片段^[17]。

正确理解它既有泛化，也有记忆风险，两头都得承认。

#10开源一定差，或闭源一定更好

为什么不准确能力取决于模型、训练、数据、系统与应用场景；不存在一个永远正确的阵营判断。

正确理解该比较的是任务表现、成本、可控性、安全、延迟和部署需求，而不是只看“开源/闭源”标签。

第 19 章 · 用一张总图总结大模型运行原理

下面这张图把训练侧与推理侧放到同一张图里，方便初学者形成“全链路视角”。

LLM 全流程总览：训练侧 + 推理侧 — 图 17 · 训练侧从数据 → 预训练 → SFT → 对齐 → 评估 → 部署；推理侧从用户输入 → tokenize → embed → Transformer → 解码 → 输出，并在必要时调用工具或检索资料。

图后一句话总结

如果你只记住一件事，请记住这件事：LLM 的核心是“在上下文里逐 token 预测”，产品能力则来自“模型本体 + 外部系统增强”。

第 20 章 · 学习路线图

非技术用户

重点理解 token、上下文、幻觉、prompt、RAG、工具调用。目标不是自己训练模型，而是会正确使用模型、会识别风险、会提出更高质量问题。

产品经理 / 运营 / 创业者

重点理解应用架构、RAG、Agent、成本、延迟、风险和评估。目标是能设计一条真实可落地的 LLM 请求链路，而不是只停留在 demo。

初级工程师

重点理解 API 调用、prompt engineering、向量数据库、RAG、结构化输出、工具调用和评估。目标是能做出稳定的 LLM 应用。

AI 工程师

重点理解 Transformer、训练、对齐、推理优化、KV cache、吞吐/延迟、模型压缩与评测。目标是能优化模型和系统，而不是只会调用现成 API。

术语表

下面的术语解释沿用本教程前面使用的主流论文与官方文档定义。

基础表征

Token: 模型处理的最小文本单位。
Tokenization: 把原始文本切成 token 的过程。
Embedding: 把 token 映射成可计算的稠密向量。
Vector Space: 这些向量所在的高维空间。
Layer: 逐层加工表示的网络层。
Parameter: 训练中被学习到的数值权重。

架构与运行

Transformer: 以 attention 为核心的现代序列建模架构。
Self-Attention: 当前位置对上下文各位置分配关注权重的机制。
Multi-Head Attention: 多个并行注意力头同时捕捉不同关系。
Inference: 模型上线后的实际运行阶段。
Decoding: 从下一个 token 分布里选出输出 token 的过程。
Temperature / Top-k / Top-p: 控制解码随机性与候选范围的采样参数。
Context Window: 单次请求可处理的上下文 token 容量。
System Prompt: 系统级角色与规则设定。

训练与对齐

Pretraining: 在海量语料上做语言建模预训练。
Fine-tuning: 在更具体数据上继续训练。
SFTSupervised Fine-Tuning: 监督微调，常用高质量问答示例。
RLHFReinforcement Learning from Human Feedback: 利用人类偏好反馈做强化式对齐。
DPODirect Preference Optimization: 用更直接的偏好优化方式替代传统 RLHF 流程。
Alignment: 让模型行为更符合人类目标与边界。
Safety: 降低有害输出与风险的设计。
Evaluation: 用多指标评估模型和系统质量。

系统工程

Hallucination: 看似合理但事实错误的输出。
RAGRetrieval-Augmented Generation: 先检索外部知识，再生成答案。
Vector Database: 存储 embedding 并做相似搜索的系统。
Tool Calling: 让模型发起结构化工具调用。
Agent: 在工具与目标驱动下进行多步规划执行的系统模式。
Multimodal Model: 可联合处理文本、图像、音频、视频的模型。
Latency: 从请求到得到结果的耗时。
Cost: 推理、存储、带宽等工程成本。
Deployment: 把模型与系统上线到真实环境。

参考文献

本教程引用的论文与官方文档清单。优先列出可直接访问的一手来源（arXiv 预印本、官方 API 文档、研究博客）。

架构与预训练

[1]Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS 2017. arXiv:1706.03762
[2]Brown, T., et al. (2020). Language Models are Few-Shot Learners (GPT-3). NeurIPS 2020. arXiv:2005.14165
[3]Touvron, H., et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971
[4]Kaplan, J., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361
[5]Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556

表征、Token 与解释性

[6]Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space (word2vec). arXiv:1301.3781
[7]Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units (BPE). arXiv:1508.07909
[8]Devlin, J., et al. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805
[9]Tenney, I., Das, D., & Pavlick, E. (2019). BERT Rediscovers the Classical NLP Pipeline. arXiv:1905.05950
[10]Clark, K., Khandelwal, U., Levy, O., & Manning, C. D. (2019). What Does BERT Look At? An Analysis of BERT’s Attention. arXiv:1906.04341

解码与采样

[11]Holtzman, A., Buys, J., Du, L., Forbes, M., & Choi, Y. (2020). The Curious Case of Neural Text Degeneration (nucleus sampling). ICLR 2020. arXiv:1904.09751

对齐、SFT 与安全

[12]Ouyang, L., et al. (2022). Training Language Models to Follow Instructions with Human Feedback (InstructGPT). arXiv:2203.02155
[13]Rafailov, R., et al. (2023). Direct Preference Optimization: Your Language Model is Secretly a Reward Model (DPO). arXiv:2305.18290
[14]Bai, Y., et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073

幻觉与不确定性

[15]Ji, Z., et al. (2023). Survey of Hallucination in Natural Language Generation. arXiv:2202.03629
[16]Kalai, A., Nachum, O., et al. (2025). Why Language Models Hallucinate (OpenAI research). openai.com/research/why-language-models-hallucinate
[17]Carlini, N., et al. (2021). Extracting Training Data from Large Language Models. arXiv:2012.07805

检索增强（RAG）

[18]Lewis, P., et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. arXiv:2005.11401
[19]Karpukhin, V., et al. (2020). Dense Passage Retrieval for Open-Domain Question Answering (DPR). arXiv:2004.04906
[20]Johnson, J., Douze, M., & Jégou, H. (2017). Billion-scale similarity search with GPUs (Faiss). arXiv:1702.08734
[21]Yan, S., et al. (2024). Corrective Retrieval Augmented Generation (CRAG). arXiv:2401.15884
[22]Liu, N. F., et al. (2023). Lost in the Middle: How Language Models Use Long Contexts. arXiv:2307.03172

工具调用与 Agent

[23]Schick, T., et al. (2023). Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761
[24]Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629

推理与思维链

[25]Wei, J., et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.11903
[26]Wang, X., et al. (2022). Self-Consistency Improves Chain-of-Thought Reasoning in Language Models. arXiv:2203.11171
[27]Chen, W., et al. (2022). Program of Thoughts Prompting: Disentangling Computation from Reasoning. arXiv:2211.12588
[28]Yao, S., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601

多模态

[29]Dosovitskiy, A., et al. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ViT). ICLR 2021. arXiv:2010.11929
[30]Radford, A., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP). arXiv:2103.00020
[31]Alayrac, J.-B., et al. (2022). Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198
[32]Liu, H., et al. (2023). Visual Instruction Tuning (LLaVA). arXiv:2304.08485

推理系统与长上下文

[33]Kwon, W., et al. (2023). Efficient Memory Management for Large Language Model Serving with PagedAttention (vLLM). arXiv:2309.06180

评测

[34]Liang, P., et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110

官方开发文档

[35]OpenAI. Tokenization & Tokens · API guide. platform.openai.com/docs/guides/text-generation
[36]OpenAI. Function Calling & Structured Outputs. platform.openai.com/docs/guides/function-calling · structured-outputs
[37]OpenAI. Prompt Caching. platform.openai.com/docs/guides/prompt-caching
[38]Anthropic. Context windows & prompt engineering. docs.claude.com/.../context-windows · prompt-engineering
[39]Anthropic. Tool use with Claude. docs.claude.com/.../tool-use/overview
[40]Anthropic. Prompt caching. docs.claude.com/.../prompt-caching

所列链接均为公开可访问的一手来源。如有论文版本更新或链接失效，欢迎反馈。

免责声明

本教程仅为作者个人学习笔记与教学整理，所含内容仅供参考，不构成任何投资、法律、医疗或其他专业建议。所引用的论文、官方文档与第三方资料仅用于教学示意，作者对其准确性与完整性不作明示或暗示的保证。

本报告中所表达的观点仅为作者个人意见，不代表作者的雇主或任何第三方机构的立场。文中提及的产品、模型、机构名称及其商标归各自所有者所有。

使用本教程中提供的交互模块进行的任何输入仅在本地浏览器内运行，作者不收集、不存储任何用户输入数据。