CctoctoFX

GLM-5.1 架构深度拆解

GLM-5.1（744B 总参 / 40B 激活）是智谱 AI 与清华联合发布的旗舰 Agent 大模型。核心创新为 DSA 动态稀疏注意力（top-2048, 节省 72.5% 注意力计算）+ MLA 潜 KV 压缩（理论 ~19 GB）+ 256+1 MoE（routed_scaling_factor=2.5）。本期完整拆解 78 层架构、DSA Indexer 7 步算子、MLA Muon Split、异步 Agent RL 训练体系，并与 M2.7 做全维度对比。

architecture

MiniMax-M2.7 架构深度拆解

M2.7（229.9B/9.8B 激活）的核心不在规模而在自我进化与训练体系。本期拆解五代演进、62层 Full Attention + 256 MoE 设计空间、单 token 6.1 TFLOPs / 48.8GB KV Cache / ~510GB 推理显存的计算分析，以及 attention + MoE gate 的算子级拆解，另附完整训练体系（29.2T tokens / FP8 / 自进化）。

architecture

Qwen3.5-MoE 架构深度拆解

Qwen3.5-MoE（255B 总参 / 30B 激活）是阿里 Qwen 团队的 MoE 旗舰模型。核心创新为 Gated DeltaNet（GDN）线性注意力与传统 Full Attention 的混合架构（Hybrid-Attn）、2048 专家细粒度 MoE（k=8 激活 + 1 共享）、FW4a 量化部署。本期拆解 GDN chunkwise-parallel 递归机制、混合注意力层分布策略、MoE 拓扑及与 M2.7/GLM-5.1/V4-Flash 的对比。

demo

博客富文本新功能：Callout、折叠、脚注、ECharts

本文展示博客新支持的富文本功能：Callout 提示块、折叠内容、脚注增强和 ECharts 交互图表。 Callout 提示块 Callout 是一种突出重要信息的视觉方式，支持四种类型：示例 tip - 提示信息 info - 背景信息 warning - 注意事项 danger - 危险警告提示当你学习新概念时，尝试用自己的话复述一遍，这能加深理解。背景信息 Transformer 架构最早由 Google 在 2017 年的论文《Attention Is All You Need》中提出。注意事项这个配置选项在生产环境中不建议修改，可能导致服务不稳定。危险警告执行此操作将删除所有数据，且无法恢复。请务必确认已备份重要文件。用法 1 2 3 {{< callout "tip" "标题" >}} 内容 {{< /callout >}} 类型可选：tip、info、warning、danger ...

Skills

Ascend Profiling Analysis Skill 设计深度解析

Ascend Profiling Analysis Skill 设计深度解析本文深度解析一个用于分析 Ascend NPU torch profiler 产出的 skill，涵盖其设计哲学、Pipeline 架构、昇腾核心知识体系和先验知识体系。一、背景与动机为什么需要 profiling 分析？在昇腾 NPU 上运行 LLM 推理时，的性能调优需要回答几个关键问题： Step 时间去哪了？ attention/FFN/MoE 各占多少？瓶颈在哪？ Cube 计算还是 Vector 内存搬运？ EP/TP 负载均衡吗？有没有 rank 掉队？通信是否拖后腿？ HCCL collective 是否慢于预期？传统的分析手段面临几个问题：工具问题 CANN Studio Timeline 只能看时序，无法聚合统计 trace_view.json 数据稀疏，难以关联到 kernel 语义 kernel_details.csv 数据量级 GB，需要专门解析逻辑设计目标这个 skill 的核心目标：从原始 profiling 数据出发，产出带证据链的可追溯报告。每一条诊断结论都必须能追溯到原始 CSV 的行号支持跨 rank 对齐和异常检测输出 Markdown / Excel / HTML 三种格式二、设计哲学：证据链优先核心理念每个 claim 必须能追溯到原始 row。 ...