aiinfraLLM 系统分析方法论(四):M3 实战推演与 Roofline 模型MiniMax M3 完整推演:从 config.json 到参数量、FLOPs、KV Cache、推理显存的全链路计算。Roofline 模型分析推理延迟,理解 FP8/INT4 量化的性能收益。