GLM-5.1 架构深度拆解

GLM-5.1(744B 总参 / 40B 激活)是智谱 AI 与清华联合发布的旗舰 Agent 大模型。核心创新为 DSA 动态稀疏注意力(top-2048, 节省 72.5% 注意力计算)+ MLA 潜 KV 压缩(理论 ~19 GB)+ 256+1 MoE(routed_scaling_factor=2.5)。本期完整拆解 78 层架构、DSA Indexer 7 步算子、MLA Muon Split、异步 Agent RL 训练体系,并与 M2.7 做全维度对比。

June 10, 2026 · 26 min · 5532 words · Me

MiniMax-M2.7 架构深度拆解

M2.7(229.9B/9.8B 激活)的核心不在规模而在自我进化与训练体系。本期拆解五代演进、62层 Full Attention + 256 MoE 设计空间、单 token 6.1 TFLOPs / 48.8GB KV Cache / ~510GB 推理显存的计算分析,以及 attention + MoE gate 的算子级拆解,另附完整训练体系(29.2T tokens / FP8 / 自进化)。

June 10, 2026 · 14 min · 2947 words · Me

Qwen3.5-MoE 架构深度拆解

Qwen3.5-MoE(255B 总参 / 30B 激活)是阿里 Qwen 团队的 MoE 旗舰模型。核心创新为 Gated DeltaNet(GDN)线性注意力与传统 Full Attention 的混合架构(Hybrid-Attn)、2048 专家细粒度 MoE(k=8 激活 + 1 共享)、FW4a 量化部署。本期拆解 GDN chunkwise-parallel 递归机制、混合注意力层分布策略、MoE 拓扑及与 M2.7/GLM-5.1/V4-Flash 的对比。

June 10, 2026 · 22 min · 4538 words · Me

博客富文本新功能:Callout、折叠、脚注、ECharts

本文展示博客新支持的富文本功能:Callout 提示块、折叠内容、脚注增强和 ECharts 交互图表。 Callout 提示块 Callout 是一种突出重要信息的视觉方式,支持四种类型: 示例 tip - 提示信息 info - 背景信息 warning - 注意事项 danger - 危险警告 提示 当你学习新概念时,尝试用自己的话复述一遍,这能加深理解。 背景信息 Transformer 架构最早由 Google 在 2017 年的论文《Attention Is All You Need》中提出。 注意事项 这个配置选项在生产环境中不建议修改,可能导致服务不稳定。 危险警告 执行此操作将删除所有数据,且无法恢复。请务必确认已备份重要文件。 用法 1 2 3 {{< callout "tip" "标题" >}} 内容 {{< /callout >}} 类型可选:tip、info、warning、danger ...

May 28, 2026 · 1 min · 185 words · Me

Ascend Profiling Analysis Skill 设计深度解析

Ascend Profiling Analysis Skill 设计深度解析 本文深度解析一个用于分析 Ascend NPU torch profiler 产出的 skill,涵盖其设计哲学、Pipeline 架构、昇腾核心知识体系和先验知识体系。 一、背景与动机 为什么需要 profiling 分析? 在昇腾 NPU 上运行 LLM 推理时,的性能调优需要回答几个关键问题: Step 时间去哪了? attention/FFN/MoE 各占多少? 瓶颈在哪? Cube 计算还是 Vector 内存搬运? EP/TP 负载均衡吗? 有没有 rank 掉队? 通信是否拖后腿? HCCL collective 是否慢于预期? 传统的分析手段面临几个问题: 工具 问题 CANN Studio Timeline 只能看时序,无法聚合统计 trace_view.json 数据稀疏,难以关联到 kernel 语义 kernel_details.csv 数据量级 GB,需要专门解析逻辑 设计目标 这个 skill 的核心目标:从原始 profiling 数据出发,产出带证据链的可追溯报告。 每一条诊断结论都必须能追溯到原始 CSV 的行号 支持跨 rank 对齐和异常检测 输出 Markdown / Excel / HTML 三种格式 二、设计哲学:证据链优先 核心理念 每个 claim 必须能追溯到原始 row。 ...

May 28, 2026 · 9 min · 1867 words · Me