LLM 系统分析方法论(七):推理服务性能建模

推理服务完整性能建模:从单 token 延迟到多请求并发,覆盖连续批处理、PagedAttention、Prefill-Decode 分离、推测解码、量化部署。含 Llama-70B 完整服务分析和 MoE 模型服务策略。跨 NVIDIA + Ascend 双平台。

June 22, 2026 · 14 min · 2848 words · Me