大模型框架

1. 概述

2. 核心架构

通用大模型都用纯解码器架构。通用大模型 = 一堆注意力层 + 前馈层 叠起来 - 词嵌入(token → 向量) - 位置编码(Positional Encoding) 每层包含: - 多头自注意力 - 前馈网络 - LayerNorm、残差连接 - 激活函数(GELU/SiLU 等) - 线性层 + Softmax - 输出下一个 token 概率分布

2. 关键参数

这些决定参数量 = 模型大小。

3. 训练框架

通用大模型完整体系 = 模型结构 + 训练系统 + 推理系统 - 海量无标注文本 - 目标:Next Token Prediction(下一个词预测) - 问答 / 对话数据 - 让模型听话 - 更安全、更有用、更符合人类偏好 - 数据并行 DP - 模型并行 TP/PP - ZeRO 优化(分片显存) - FlashAttention - 混合精度训练(FP16/BF16)

4. 主流开源框架

  • vLLM / TensorRT-LLM:推理加速