CctoctoFX
所有工具
推理计算器
训练显存计算器
博客
LLM 训练显存计算器
从
config.json
到 per-GPU 训练显存。基于
LLM 系统分析方法论(五)
的完整公式体系。
模型预设
—
模型参数(自动填充,可手动调整)
总参数 N
B
hidden d
Layers L
H_q
H_kv
D_h
MoE 配置
MoE 架构
启用专家并行 EP
Experts E
top-k
d_ff_moe
N_non_expert
B
N_expert
B
训练配置
Global Batch
32
Micro Batch
2
序列长度 T
8K
权重精度
BF16
FP8
FP32
优化器
AdamW (12B)
Muon (8B)
Adafactor (4B)
FP8 Adam (6B)
bytes/param = master(FP32) + 一阶动量 + 二阶动量
Gradient Checkpointing
None (C=34)
Selective
Full (C=2)
FlashAttention
移除 attention score 平方项
FP8 Activation
激活存储字节减半(Transformer Engine,910C 不支持)
LoRA / QLoRA 微调(CH 9)
启用 LoRA
冻结 base model,仅训练低秩适配器
LoRA rank r
16
LoRA 目标模块
QKVO (×1.0)
+FFN (×2.5)
All Linear (×3.5)
QLoRA 量化(base model)
None (BF16)
NF4 (4-bit)
FP8 (8-bit)
QLoRA: base model 量化冻结,仅 LoRA adapters 进优化器
并行策略
—
TP
(切矩阵维)
4
PP
(切层)
4
DP
(切batch)
4
EP
(专家并行)
8
CP
(序列并行)
1
ZeRO Stage
None
Stage 1 (Opt)
Stage 2 (Opt+Grad)
Stage 3 (+Weight)
Sequence Parallelism
TP 附属,省 ~12% 激活
验证案例
一键载入
Per-GPU 训练显存
0
GB
Per-GPU 参数:
0
B · 总 GPU 数:
0
· 激活系数 C =
34
权重
0 GB
优化器
0 GB
梯度
0 GB
激活
0 GB
grad_accum
—
显存组分分解
单位 GB
组分
公式
值 (GB)
占比
⚠ 注意事项