大模型

1. 大模型参数

参数 = 神经网络里的权重（weights）+ 偏置（biases），是一堆浮点数矩阵
参数 = 模型的全部知识与能力本身。

1.1 参数包含内容

权重（Weights）

- 神经元之间连接的强度值，决定信息传递多少。

偏置（Biases）

- 每个神经元的激活阈值偏移量。

合起来就是模型的全部 “记忆 + 知识 + 能力”。

1.2 参数存放内容

不是文本，不是知识库，而是学到的模式：

语言规律（语法、语义、逻辑）
世界知识（事实、常识、关系）
推理模式（因果、类比、步骤）
生成风格（流畅度、结构）

知识不是存在库里，而是被压缩进权重分布里。

1.3 参数 vs 超参数

参数（Parameters）：模型训练出来的权重，会变（训练时）
超参数（Hyperparameters）：人为设定的配置，训练时不变
常见超参数（不属于参数）：

- 层数、头数、隐藏维度 - 学习率、batch size、训练步数 - 上下文长度（context window）

1.4 参数数量

7B = 70 亿参数
13B = 130 亿
70B = 700 亿
400B+ = 超大模型

参数越多 ≈ 模型容量越大 ≈ 能记住 / 理解更复杂模式

2. 通用大模型参数不变与变

使用的时候：参数不变，不会越用越聪明。
平台更新时：参数会优化，模型整体变强。
感觉更懂你，大多是记住了上下文，不是模型进化了。

2.1 不变化

部署好的大模型参数在使用时是固定不变

用户提问，模型计算输出，过程只读取参数，不写入、不更新，参数整个过程固定不变
不会因为多问几次、多聊几天，就自动学习、更新权重
模型的智商、知识上限、推理能力在发布那一刻就基本定死了
感觉到的好像更懂我，一般来自

- 历史对话上下文记忆（记住之前说过什么） - 提示词、指令更清晰，模型回答更贴合 - 不是模型本身变强，是使用方式变好了

2.2 变化

大模型在后台重新训练/微调时参数发生变化。后工程师在服务器端批量更新参数部署，

研发团队用新数据重新训练、增量预训练
研发团队继续微调、LoRA/QLoRA 微调或针对特定场景做微调（Fine-tuning）
研发团队用人类反馈做RLHF(强化学习)优化
模型蒸馏、量化后重新保存

2.3 容易混淆点

LoRA 适配器可以单独更新，但基座大模型参数依然不变
上下文缓存、KV cache 是中间状态，不是模型参数
系统提示词、prompt 模板是配置，不是模型权重

3. 越用越聪明个人版模型

个性化微调 / LoRA：开发者可以用你的对话数据微调一个小版本
本地模型持续学习：极少数研究型模型支持增量学习
智能体 + 记忆系统：通过外挂记忆、工具、知识库变好用，但参数不变
普通用户用的云端大模型，不支持边用边学、参数实时进化。

4. 自回归生成

4.1 具体流程

- 首轮输入：输入“今天天气” - 模型计算：预测下一个概率最高的字为“真” - 拼接输入：输入序列更新为“今天天气真” - 再次计算：预测下一个字为“好” - 循环生成：重复上述过程，直至输出结束符或达到最大长度限制

4.2 核心特点

每一轮推理的输入长度都会递增，模型需要将原始提示 + 已生成的全部内容重新输入，以计算下一个 token。
这也是对话越长、回复越慢、显存占用越高的根本原因——注意力矩阵大小随序列长度平方级增长。

4.3 优化技术

现有优化方法（如 KV Cache）会缓存历史计算的中间结果，避免重复全量计算，但底层逻辑仍为“输出→拼接→再输入”的循环过程。

5. 下一个 Token 的计算机制

5.1 核心原理

输入提示词及已生成的历史文本，相当于一张语义路径地图，计算下一个 token 就是在这张地图上找到最合理的下一个节点。
模型本身是固定的映射函数，输入是唯一变量。输入提示构建了上下文“引力场”，下一个 token 即为该引力场下概率最高的落点。没有输入，模型就只有词表而无生成动力。

5.2 具体关系

约束范围：决定候选池

输入文本会框定语义场，大幅缩小下一个 token 的可选范围。 - 若输入为“1+1=”，输出候选池基本只有 2、计算错误时的 3、？等 - 若输入为“床前明月”，即便词表包含全部汉字，候选也会被极度压缩为“光” 本质关系：模型并非随机猜测，而是在条件概率分布中进行采样。 $$ P(\text{下一个词} \mid \text{已输入的词}) $$

注意力权重：决定信息主次

输入越长，模型越需要区分内容优先级。计算下一个 token 时，通过 Attention 机制为每个字分配权重： - 关键词捕获：输入包含“反面”和“硬币”时，“面”字权重会显著升高，进而导向“正面”或“图案” - 远距离依赖：即使前文 1000 字提到“巴黎”，模型仍可通过注意力机制回溯该信息，在第 1001 字合理输出“埃菲尔铁塔”

模式激活：决定生成风格

输入的系统提示（System Prompt）或开头语句相当于功能开关，激活不同生成模式： - 输入“请翻译成英文：苹果”→ 激活跨语言映射回路，输出 Apple - 输入“请写一首关于苹果的儿歌：苹果”→ 激活押韵与修辞回路，输出“红红脸”这类表达