<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Aiinfra on CctoctoFX</title>
    <link>https://pillumina.github.io/categories/aiinfra/</link>
    <description>Recent content in Aiinfra on CctoctoFX</description>
    <image>
      <title>CctoctoFX</title>
      <url>https://pillumina.github.io/imgs/icon_head.png</url>
      <link>https://pillumina.github.io/imgs/icon_head.png</link>
    </image>
    <generator>Hugo -- 0.148.2</generator>
    <language>en</language>
    <lastBuildDate>Thu, 28 May 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://pillumina.github.io/categories/aiinfra/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Ascend Profiling Analysis Skill 设计深度解析</title>
      <link>https://pillumina.github.io/posts/aiinfra/ascend-profiling-analysis-skill/</link>
      <pubDate>Thu, 28 May 2026 00:00:00 +0000</pubDate>
      <guid>https://pillumina.github.io/posts/aiinfra/ascend-profiling-analysis-skill/</guid>
      <description>&lt;h1 id=&#34;ascend-profiling-analysis-skill-设计深度解析&#34;&gt;Ascend Profiling Analysis Skill 设计深度解析&lt;/h1&gt;
&lt;blockquote&gt;
&lt;p&gt;本文深度解析一个用于分析 Ascend NPU torch profiler 产出的 skill，涵盖其设计哲学、Pipeline 架构、昇腾核心知识体系和先验知识体系。&lt;/p&gt;&lt;/blockquote&gt;
&lt;h2 id=&#34;一背景与动机&#34;&gt;一、背景与动机&lt;/h2&gt;
&lt;h3 id=&#34;为什么需要-profiling-分析&#34;&gt;为什么需要 profiling 分析？&lt;/h3&gt;
&lt;p&gt;在昇腾 NPU 上运行 LLM 推理时，的性能调优需要回答几个关键问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Step 时间去哪了？&lt;/strong&gt; attention/FFN/MoE 各占多少？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;瓶颈在哪？&lt;/strong&gt; Cube 计算还是 Vector 内存搬运？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;EP/TP 负载均衡吗？&lt;/strong&gt; 有没有 rank 掉队？&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;通信是否拖后腿？&lt;/strong&gt; HCCL collective 是否慢于预期？&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;传统的分析手段面临几个问题：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;工具&lt;/th&gt;
          &lt;th&gt;问题&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;CANN Studio  Timeline&lt;/td&gt;
          &lt;td&gt;只能看时序，无法聚合统计&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;trace_view.json&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;数据稀疏，难以关联到 kernel 语义&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;kernel_details.csv&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;数据量级 GB，需要专门解析逻辑&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;设计目标&#34;&gt;设计目标&lt;/h3&gt;
&lt;p&gt;这个 skill 的核心目标：&lt;strong&gt;从原始 profiling 数据出发，产出带证据链的可追溯报告&lt;/strong&gt;。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;每一条诊断结论都必须能追溯到原始 CSV 的行号&lt;/li&gt;
&lt;li&gt;支持跨 rank 对齐和异常检测&lt;/li&gt;
&lt;li&gt;输出 Markdown / Excel / HTML 三种格式&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;二设计哲学证据链优先&#34;&gt;二、设计哲学：证据链优先&lt;/h2&gt;
&lt;h3 id=&#34;核心理念&#34;&gt;核心理念&lt;/h3&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;每个 claim 必须能追溯到原始 row。&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
