Ascend Profiling Analysis Skill 设计深度解析
Ascend Profiling Analysis Skill 设计深度解析 本文深度解析一个用于分析 Ascend NPU torch profiler 产出的 skill,涵盖其设计哲学、Pipeline 架构、昇腾核心知识体系和先验知识体系。 一、背景与动机 为什么需要 profiling 分析? 在昇腾 NPU 上运行 LLM 推理时,的性能调优需要回答几个关键问题: Step 时间去哪了? attention/FFN/MoE 各占多少? 瓶颈在哪? Cube 计算还是 Vector 内存搬运? EP/TP 负载均衡吗? 有没有 rank 掉队? 通信是否拖后腿? HCCL collective 是否慢于预期? 传统的分析手段面临几个问题: 工具 问题 CANN Studio Timeline 只能看时序,无法聚合统计 trace_view.json 数据稀疏,难以关联到 kernel 语义 kernel_details.csv 数据量级 GB,需要专门解析逻辑 设计目标 这个 skill 的核心目标:从原始 profiling 数据出发,产出带证据链的可追溯报告。 每一条诊断结论都必须能追溯到原始 CSV 的行号 支持跨 rank 对齐和异常检测 输出 Markdown / Excel / HTML 三种格式 二、设计哲学:证据链优先 核心理念 每个 claim 必须能追溯到原始 row。 ...