大模型
1. 大模型参数
- 参数 = 神经网络里的权重(weights)+ 偏置(biases),是一堆浮点数矩阵
- 参数 = 模型的全部知识与能力本身。
1.1 参数包含内容
- 神经元之间连接的强度值,决定信息传递多少。
- 每个神经元的激活阈值偏移量。合起来就是模型的全部 “记忆 + 知识 + 能力”。
1.2 参数存放内容
不是文本,不是知识库,而是学到的模式:
- 语言规律(语法、语义、逻辑)
- 世界知识(事实、常识、关系)
- 推理模式(因果、类比、步骤)
- 生成风格(流畅度、结构)
知识不是存在库里,而是被压缩进权重分布里。
1.3 参数 vs 超参数
- 参数(Parameters):模型训练出来的权重,会变(训练时)
- 超参数(Hyperparameters):人为设定的配置,训练时不变
- 常见超参数(不属于参数):
- 层数、头数、隐藏维度
- 学习率、batch size、训练步数
- 上下文长度(context window)
1.4 参数数量
- 7B = 70 亿参数
- 13B = 130 亿
- 70B = 700 亿
- 400B+ = 超大模型
参数越多 ≈ 模型容量越大 ≈ 能记住 / 理解更复杂模式
2. 通用大模型参数不变与变
- 使用的时候:参数不变,不会越用越聪明。
- 平台更新时:参数会优化,模型整体变强。
- 感觉更懂你,大多是记住了上下文,不是模型进化了。
2.1 不变化
部署好的大模型参数在使用时是固定不变
- 用户提问,模型计算输出,过程只读取参数,不写入、不更新,参数整个过程固定不变
- 不会因为多问几次、多聊几天,就自动学习、更新权重
- 模型的智商、知识上限、推理能力在发布那一刻就基本定死了
- 感觉到的好像更懂我,一般来自
- 历史对话上下文记忆(记住之前说过什么)
- 提示词、指令更清晰,模型回答更贴合
- 不是模型本身变强,是使用方式变好了
2.2 变化
大模型在后台重新训练/微调时参数发生变化。后工程师在服务器端批量更新参数部署,
- 研发团队用新数据重新训练、增量预训练
- 研发团队继续微调、LoRA/QLoRA 微调或针对特定场景做微调(Fine-tuning)
- 研发团队用人类反馈做RLHF(强化学习)优化
- 模型蒸馏、量化后重新保存
2.3 容易混淆点
- LoRA 适配器可以单独更新,但基座大模型参数依然不变
- 上下文缓存、KV cache 是中间状态,不是模型参数
- 系统提示词、prompt 模板是配置,不是模型权重
3. 越用越聪明个人版模型
- 个性化微调 / LoRA:开发者可以用你的对话数据微调一个小版本
- 本地模型持续学习:极少数研究型模型支持增量学习
- 智能体 + 记忆系统:通过外挂记忆、工具、知识库变好用,但参数不变
- 普通用户用的云端大模型,不支持边用边学、参数实时进化。
4. 自回归生成
4.1 具体流程
- 首轮输入:输入“今天天气”
- 模型计算:预测下一个概率最高的字为“真”
- 拼接输入:输入序列更新为“今天天气真”
- 再次计算:预测下一个字为“好”
- 循环生成:重复上述过程,直至输出结束符或达到最大长度限制4.2 核心特点
- 每一轮推理的输入长度都会递增,模型需要将原始提示 + 已生成的全部内容重新输入,以计算下一个 token。
- 这也是对话越长、回复越慢、显存占用越高的根本原因——注意力矩阵大小随序列长度平方级增长。
4.3 优化技术
- 现有优化方法(如 KV Cache)会缓存历史计算的中间结果,避免重复全量计算,但底层逻辑仍为“输出→拼接→再输入”的循环过程。
5. 下一个 Token 的计算机制
5.1 核心原理
- 输入提示词及已生成的历史文本,相当于一张语义路径地图,计算下一个 token 就是在这张地图上找到最合理的下一个节点。
- 模型本身是固定的映射函数,输入是唯一变量。输入提示构建了上下文“引力场”,下一个 token 即为该引力场下概率最高的落点。没有输入,模型就只有词表而无生成动力。
5.2 具体关系
输入文本会框定语义场,大幅缩小下一个 token 的可选范围。
- 若输入为“1+1=”,输出候选池基本只有 2、计算错误时的 3、? 等
- 若输入为“床前明月”,即便词表包含全部汉字,候选也会被极度压缩为“光”
本质关系:模型并非随机猜测,而是在条件概率分布中进行采样。
$$
P(\text{下一个词} \mid \text{已输入的词})
$$
输入越长,模型越需要区分内容优先级。计算下一个 token 时,通过 Attention 机制为每个字分配权重:
- 关键词捕获:输入包含“反面”和“硬币”时,“面”字权重会显著升高,进而导向“正面”或“图案”
- 远距离依赖:即使前文 1000 字提到“巴黎”,模型仍可通过注意力机制回溯该信息,在第 1001 字合理输出“埃菲尔铁塔”
输入的系统提示(System Prompt)或开头语句相当于功能开关,激活不同生成模式:
- 输入“请翻译成英文:苹果”→ 激活跨语言映射回路,输出 Apple
- 输入“请写一首关于苹果的儿歌:苹果”→ 激活押韵与修辞回路,输出“红红脸”这类表达