大模型

1. 大模型参数

1.1 参数包含内容

- 神经元之间连接的强度值,决定信息传递多少。 - 每个神经元的激活阈值偏移量。

合起来就是模型的全部 “记忆 + 知识 + 能力”。

1.2 参数存放内容

不是文本,不是知识库,而是学到的模式:

知识不是存在库里,而是被压缩进权重分布里。

1.3 参数 vs 超参数

- 层数、头数、隐藏维度 - 学习率、batch size、训练步数 - 上下文长度(context window)

1.4 参数数量

参数越多 ≈ 模型容量越大 ≈ 能记住 / 理解更复杂模式

2. 通用大模型参数不变与变

2.1 不变化

部署好的大模型参数在使用时是固定不变 - 历史对话上下文记忆(记住之前说过什么) - 提示词、指令更清晰,模型回答更贴合 - 不是模型本身变强,是使用方式变好了

2.2 变化

大模型在后台重新训练/微调时参数发生变化。后工程师在服务器端批量更新参数部署,

2.3 容易混淆点

3. 越用越聪明个人版模型

4. 自回归生成

4.1 具体流程

- 首轮输入:输入“今天天气” - 模型计算:预测下一个概率最高的字为“真” - 拼接输入:输入序列更新为“今天天气真” - 再次计算:预测下一个字为“好” - 循环生成:重复上述过程,直至输出结束符或达到最大长度限制

4.2 核心特点

4.3 优化技术

5. 下一个 Token 的计算机制

5.1 核心原理

5.2 具体关系

输入文本会框定语义场,大幅缩小下一个 token 的可选范围。 - 若输入为“1+1=”,输出候选池基本只有 2、计算错误时的 3、? 等 - 若输入为“床前明月”,即便词表包含全部汉字,候选也会被极度压缩为“光” 本质关系:模型并非随机猜测,而是在条件概率分布中进行采样。 $$ P(\text{下一个词} \mid \text{已输入的词}) $$

输入越长,模型越需要区分内容优先级。计算下一个 token 时,通过 Attention 机制为每个字分配权重: - 关键词捕获:输入包含“反面”和“硬币”时,“面”字权重会显著升高,进而导向“正面”或“图案” - 远距离依赖:即使前文 1000 字提到“巴黎”,模型仍可通过注意力机制回溯该信息,在第 1001 字合理输出“埃菲尔铁塔”

输入的系统提示(System Prompt)或开头语句相当于功能开关,激活不同生成模式: - 输入“请翻译成英文:苹果”→ 激活跨语言映射回路,输出 Apple - 输入“请写一首关于苹果的儿歌:苹果”→ 激活押韵与修辞回路,输出“红红脸”这类表达