大模型框架

1. 概述

通用大模型（LLM）标准框架：Transformer 基座 + 工程体系
所有主流通用大模型（GPT、Qwen、豆包、文心等）核心都是 Transformer 架构，只是细节优化不同。
通用大模型框架 = Decoder-only Transformer + 预训练 + SFT + 对齐 + 分布式训练 / 推理系统

2. 核心架构

通用大模型都用纯解码器架构。通用大模型 = 一堆注意力层 + 前馈层叠起来

Embedding 层

- 词嵌入（token → 向量） - 位置编码（Positional Encoding）

N 层 Decoder Block（重复堆叠）

每层包含： - 多头自注意力 - 前馈网络 - LayerNorm、残差连接 - 激活函数（GELU/SiLU 等）

输出层

- 线性层 + Softmax - 输出下一个 token 概率分布

2. 关键参数

n_layers：层数（24/32/40/80）
d_model：隐藏维度（4096/5120/8192）
n_heads：注意力头数（32/40/64）
vocab_size：词表大小（32000/100000+）
max_seq_len：上下文长度（2k/4k/8k/32k/128k）

这些决定参数量 = 模型大小。

3. 训练框架

通用大模型完整体系 = 模型结构 + 训练系统 + 推理系统

训练流程三阶段
预训练（Pre-training）

- 海量无标注文本 - 目标：Next Token Prediction（下一个词预测）

有监督微调（SFT）Supervised Fine-Tuning

- 问答 / 对话数据 - 让模型听话

人类对齐（RLHF/DPO/IPO）Reinforcement Learning from Human Feedback

- 更安全、更有用、更符合人类偏好

分布式训练技术

- 数据并行 DP - 模型并行 TP/PP - ZeRO 优化（分片显存） - FlashAttention - 混合精度训练（FP16/BF16）

4. 主流开源框架

PyTorch：最主流
Megatron-LM（NVIDIA）：大模型训练标配
DeepSpeed（微软）：ZeRO 核心
Transformers（Hugging Face）：最通用推理 / 微调库

vLLM / TensorRT-LLM：推理加速