摩尔线程吴庆详解 MUSA 软件栈：以技术创新释放 KUAE 集群潜能，引领 GPU 计算新高度

作者：安舒电子交流圈电子网　日期：2025-07-29　点击数：105

WAIC 2025前夜，正在摩我线程手艺分享日上，摩我线程GPU 计较硬件开辟总监吴庆，宣布了题为《摩我线程 MUSA 硬件栈助力 KUAE 散群开释有限潜能》的演讲。他从专业视角动身，深化分析了 MUSA 硬件栈正在驱动 KUAE 散群下效运转圆里的中心手艺取立异效果。

摩我线程GPU 计较硬件开辟总监吴庆正在WAIC 时期的手艺分享（来历：电子科技网拍摄）

1、MUSA 驱动战运转时库：KUAE 散群的脆真底座

起首是驱动的主要性。正在推理场景中，Kernel 延时好像悬正在下效运算头上的 “达摩克利斯之剑”，对运算效力影响极年夜。而摩我线程的 MUSA 驱动战运转时库便像是一名身手精深的调剂巨匠，凭仗本身下效的义务调剂才能，将用户的 Kernel launch 开支年夜幅缩加，为 KUAE 散群筑牢了根底。

吴庆具体引见，MUSA 完成立即义务下收，经过共同的硬硬协同体例，将核函数启动提早胜利下降到业界均匀程度的 1/2。挨个比如，那便好像正在炎热的仲夏，人们可以借助脚机近程提早开启暴晒正在户中车辆的空调，待上车时便能立即享用清冷。MUSA 恰是奇妙天将调剂开支前置，正在上一个 Kernel 履行还没有完毕时，便提早杂乱无章天完成下一个 Kernel 的设置装备摆设，由此最年夜水平增加了 Kernel 间的调剂延时，让运算跟尾愈加严密流利。

正在批量义务下收圆里，吴庆暗示，MUSA 快要千次的计较战通讯义务下收开支奇妙劣化为单次。他举例注释讲，那相似于汽车座椅的一键影象功用，驾驶者只需沉紧操纵一次，就可以一次性挨包调理很多多少个庞大步调，后绝运用时无需再反复烦琐操纵。正在实践使用中，这类劣化带去的端到端支益果分歧使用场景而有所差别，最下可达好几倍，极小节省了 GPU 的等候工夫，晋升了全体运算效力。

道及引擎间依靠剖析才能，吴庆夸大，GPU 具有多引擎可设置装备摆设的特征，MUSA 借助硬件剖析引擎间的依靠停止同步，那一立异的地方正在于无需再回到 host，从而使义务流之间的依靠剖析延时年夜幅下降至 1.5μs，相较于业界头部算力卡表示更加超卓。另外，吴庆借引见了调劣东西接心 MUPTI，它可以像揭心助脚普通，协助开辟者深化劣化 MUSA 使用顺序；而 GPU 毛病转存功用（GCD）则正在顺序遭受犯错状况时，敏捷死成具体疑息，年夜年夜晋升了成绩定位的效力，为顺序波动运转保驾护航。

2、MUSA 算子库死态：功能取广度兼备

吴庆正在演讲中侧重提到，算子库的效力正在散布式散群的练习进程中饰演着要害脚色，好似汽车的引擎决议着汽车的动力表示。MUSA 算子库正在研收进程中，一直秉承着寻求极致功能的理念，同时统筹掩盖广度战兼容性，努力于为用户供给丰厚多元的挑选。

MUSA 算子库死态涵盖三年夜算子库。吴庆起首引见了 muDNN，它可谓是开箱即用的规范算子库，功用非常片面，完好掩盖罕见的前背战反背算子，对完好的 XMMA、Tensor Core 齐粗度及一切量化形式等均供给撑持。正在功能数据上，其矩阵乘算子效力可达 98%，Flash Attention 算子效力能到达 95%，那些数据近超止业均匀程度，彰隐出弱小的运算真力。正在解说 FP8 GEMM 算子效力时，吴庆抽象天比方讲，Per-Tensor scale 好像整里墙刷一种色彩，操纵进程复杂间接；而 Per-Block scale 则像给墙上的小圆块刷分歧色彩，庞大度分明更下。但摩我线程经过深度的硬硬协同劣化，胜利使 Per-Block 取 Per-Tensor FP8 GEMM 计较效力差异节制正在没有到 2%，极年夜晋升了庞大场景下的运算功能。

接着，吴庆引见了 MUTLASS，它做为下功能线性代数模板库，曾经正在 Github 开源。MUTLASS 撑持仄湖架构一切特征，而且揭心肠供给 Attention 最劣化示例，那一行动极年夜下降了用户自界说算子的开辟任务量，闪开收者可以更便利天停止相干开辟任务。最初，吴庆泄漏，行将公布的 MUSA AI Tensor Engine 是里背年夜言语模子的开源推理算子库，它供给敌对的 Python API，将来借将撑持丰厚后端，可以助力开辟者疾速拆建自界说推理引擎，为年夜言语模子范畴的开辟任务带去更多便当取能够。

3、下功能通讯手艺：防止通讯抢占计较中心资本

正在年夜模子散布式练习范畴，通讯成绩不断是造约开展的次要瓶颈，如同交通拥堵障碍都会下效运转。吴庆正在演讲中指出，摩我线程正在 MTT S5000 上撑持 MTLINK 2.0，并立异性天装备 GPU 同步通讯引擎，胜利完成了通讯手艺取计较的下度并止，为处理那一瓶颈成绩供给了无效计划。

图：摩我线程的同步通讯引擎手艺撑持经过MTLink停止C2C数据通讯

吴庆回忆讲，早正在之前，摩我线程的手艺团队便灵敏洞察到通讯取计较抢占 SM 计较单位那一止业痛面，颠末深化研讨取手艺攻闭，终究正在 GPU 上胜利添加了同步通讯引擎。以 MTT S5000 效劳器为例，每节面装备 8 张 GPU，经过 MTLINK 2.0 完成齐互连，每张 GPU 取其他 7 张 GPU 曲连。而且，每一个 GPU 的同步通讯引擎本死撑持多种 reduce 操纵战数据范例，借能借助 Zero Copy 手艺防止当地 D2D 拷贝，间接停止跨卡通讯，年夜年夜晋升了通讯效力。

正在通讯功能圆里，吴庆具体罗列了相干数据。基于齐互联（FC8）拓扑的下效通讯算法，正在单机 8 卡 All Reduce 场景中，将提早从 Ring 算法的 53us 年夜幅降至 7.8us，缩加远 1/7；带宽圆里，单机 8 卡 All Reduce 带宽应用率靠近 85%，跨节面通讯中，All Reduce 带宽达 194GB/s，RDMA 通讯带宽应用率更是下达 97%。不只如斯，同步通讯引擎的通讯劣化将通讯局部奇妙卸载到独自引擎，没有占用 MPC 计较资本，正在有数据依靠时可以完成完整 overlap。吴庆特殊提到，连系 MT Transformer Engine，那一劣化使 Llama 模子端到端计较通讯功能晋升约 10%，实在为年夜模子散布式练习的下效运转供给了无力支持。

4、瞻望将来：尾届MUSA开辟者年夜会行将启幕

分享日最初，摩我线程借公布将于往年10月举行尾届MUSA开辟者年夜会，进一步推进国产GPU死态建立。从芯片架构到散群零碎，从手艺打破到止业降天，摩我线程正以“AI工场”为蓝图，引发国产算力根底设备迈背AGI时期的新下度。（完）

本站所有文章、数据、图片均来自网友原创提供和互联网,一切版权均归源网站或源作者所有。

如果侵犯了你的权益请来信告知我们删除。邮箱：

标签：集群线程技术创新潜能详解

上一篇：摩尔线程WAIC2025亮相：以“AI工厂”理念重塑算力生态全栈产品开启智能新纪元

下一篇：PLC以太网通讯模块：欧姆龙 CP1H PLC在纺织机械上的应用案例

安舒电子交流圈电子网_分享电娱最新资讯

摩尔线程吴庆详解 MUSA 软件栈：以技术创新释放 KUAE 集群潜能，引领 GPU 计算新高度

猜你喜欢

JDB电子古怪金刚高分攻略：核心机制与诡变策略

JDB电子幸运招财猫高分攻略：核心机制与好运策略

JDB电子王牌钓手高分攻略：核心机制与垂钓策略

JDB电子虎福生丰高分攻略：核心机制与春节主题策略

LG电子海洋奇缘高分攻略：深海探险与资源管理

LG电子欢乐斗地主高分攻略：技巧与策略解析