Ascend

6.19发布的CloudMatrix384论文拆解，从宏观到基础概念核心指标和计算方式 TPOT (Time Per Output Token) 公式： $$TPOT= \frac{Decode总耗时}{生成Token数量}$$ 测量方式：从第一个输出Token开始计时，到生成结束（含MoE通信/KV读取）为什么重要：直接决定用户体验（如Chatbot响应速度），论文要求 <50ms（严格模式<15ms）深层意义：反映系统通信+计算综合能力，EP320下TPOT=42ms证明UB网络突破MoE通信墙计算效率 (Tokens/s per TFLOPS) 公式： $$计算效率=\frac {吞吐量(tokens/s)} {NPU峰值算力(TFLOPS)}$$ 论文数据：阶段值对比基准 Prefill 4.45 超NVIDIA H100+SGLang(3.8) Decode 1.29 超NVIDIA H800+DeepSeek(0.9) 为什么重要：揭示硬件利用率，1.0以上表明软硬件协同极致优化深层意义： Decode阶段1.29 → 昇腾910的Cube引擎利用率达 86%（传统GPU仅60%) 缓存访问延迟 (KV Cache Access Latency) 公式： $$延迟=TMMU_{查询}+TUB_{传输}+TDRAM_{读取}$$ 论文数据：场景延迟对比传统本地HBM命中 0.2μs - 远程DRAM访问(UB) 1.5μs >10μs (PCIe+IB) 为什么重要：长上下文推理中70%时间花在KV缓存访问深层意义： UB统一内存将远程访问性能提升至近本地水平，支撑百万Token上下文。专家并行扩展性 (EP Degree) 定义：单个MoE层可分布的专家数量论文突破：EP320（每个昇腾Die托管1个专家）支撑公式： $$可扩展性=\frac {UB总带宽}{单个专家通信需求}$$ $$EPmax=\frac {384×392GB/s} {8B/token×10^6token/s}=320$$ 为什么重要： EP>100时传统网络崩溃，EP320证明UB突破通信可扩展性极限 INT8量化收益公式：$$ 加速比=\frac {FP16吞吐}{INT8吞吐}×精度保持率$$ 论文数据：吞吐提升：1.8倍精度损失：<0.5%（16个基准测试）为什么重要： Decode阶段内存带宽减少50%，解决NPU的“内存墙”问题 QA辅助理解为什么用TPOT而非QPS？ TPOT剥离Batch Size影响，纯粹衡量单次生成效率更直观反映SLA（用户感知的延迟）为什么强调计算效率而非绝对吞吐？排除工艺优势（7nm vs 5nm），聚焦架构创新价值 1.29 tokens/s/TFLOPS → 证明UB+LEP设计优于NVLink+GPU 为什么测量远程DRAM访问延迟？验证内存池化的实际效果，这是打破“内存墙”的核心 1.5μs延迟 → 实现“全集群如单机”的硬件基础超节点架构三级网络平面的物理隔离硬件隔离原理 ...