大模型框架
1. 概述
- 通用大模型(LLM)标准框架:Transformer 基座 + 工程体系
- 所有主流通用大模型(GPT、Qwen、豆包、文心等)核心都是 Transformer 架构,只是细节优化不同。
- 通用大模型框架 = Decoder-only Transformer + 预训练 + SFT + 对齐 + 分布式训练 / 推理系统
2. 核心架构
通用大模型都用纯解码器架构。通用大模型 = 一堆注意力层 + 前馈层 叠起来
- 词嵌入(token → 向量)
- 位置编码(Positional Encoding)
每层包含:
- 多头自注意力
- 前馈网络
- LayerNorm、残差连接
- 激活函数(GELU/SiLU 等)
- 线性层 + Softmax
- 输出下一个 token 概率分布
2. 关键参数
- n_layers:层数(24/32/40/80)
- d_model:隐藏维度(4096/5120/8192)
- n_heads:注意力头数(32/40/64)
- vocab_size:词表大小(32000/100000+)
- max_seq_len:上下文长度(2k/4k/8k/32k/128k)
这些决定参数量 = 模型大小。
3. 训练框架
通用大模型完整体系 = 模型结构 + 训练系统 + 推理系统
- 训练流程三阶段
- 预训练(Pre-training)
- 海量无标注文本
- 目标:Next Token Prediction(下一个词预测)
- 有监督微调(SFT)Supervised Fine-Tuning
- 问答 / 对话数据
- 让模型听话
- 人类对齐(RLHF/DPO/IPO)Reinforcement Learning from Human Feedback
- 更安全、更有用、更符合人类偏好
- 数据并行 DP
- 模型并行 TP/PP
- ZeRO 优化(分片显存)
- FlashAttention
- 混合精度训练(FP16/BF16)
4. 主流开源框架
- PyTorch:最主流
- Megatron-LM(NVIDIA):大模型训练标配
- DeepSpeed(微软):ZeRO 核心
- Transformers(Hugging Face):最通用推理 / 微调库
vLLM / TensorRT-LLM:推理加速