华为创造AI算力新纪录：万卡集群训练98%可用度，秒级恢复

大模型的落地能力，核心在于性能的稳定输出，而性能稳定的底层支撑，是强大的算力集群。其中，构建万卡级算力集群，已成为全球公认的顶尖技术挑战。

　　但是，在华为，昇腾万卡算力集群，已经可以做到近乎“永不罢工”了：

　　或许有小伙伴要问了：AI算力需要如此24小时不间断的运作吗？

　　答案是肯定的，需要，且有必要。

　　因为小到我们用手机导个航，背后都会有几十个AI模型在发力来分析路况、预测拥堵；再如医院用AI辅助诊断癌症，系统得在瞬间处理掉成百上千的CT照片。

　　这些看似简单的智能应用，其实都离不开如 “超级大脑” 般的AI算力集群，需要它们全天候不停歇地运转着。

　　而要保证有这样的能力，高训练可用度、高线性度、快速消除故障，就相当于给AI发动机上了一份强有力的保险。

　　更严格来说，AI推理的可用度甚至还需要达到99.95%的程度。

　　那么华为又是如何做到这点的？

　　关于这一切背后的秘密，华为在今天首次把技术给公开了出来。

　　AI大集群出问题时，定位故障特别麻烦；毕竟系统规模庞大，软件和硬件组成的技术栈错综复杂，而且调用链条还很长。

　　要解决问题，首先得确定故障出在哪个大的领域，接着再在这个领域内部一步步排查，确定具体的故障位置。在整个故障诊断过程中，面临的挑战非常大。

　　以往技术人员进行故障定位时，短则需数小时，长则可能耗时数天。这一过程不仅对技术人员的专业技能要求颇高，且往往难以快速锁定故障设备及根本原因。

　　为此，华为团队针对AI大集群面临的复杂挑战，构建了三大基础能力。

　　首先是全栈可观测能力。

　　它像是给集群装了一套“火眼金睛”监控系统（故障感知），主要包含这几部分：

　　同时，华为还拿出了一套“故障诊断组合拳”，包含四大核心能力：

　　这套组合拳让集群故障诊断更高效，就像给工程师配了 “智能侦探工具”，大大缩短了找问题的时间。

　　最后，是一套“钢铁韧带”自愈系统（容错设计）。

　　想要把超平面网络的厉害之处完全发挥出来，超节点的规模就得足够大。不过到现在，还没有哪个团队能用光链路搭建超节点并成功的。

　　于是，华为团队就琢磨出一套超节点光链路软件容错的好办法。

　　这套办法就像给超节点穿上了好几层 “防护铠甲”，用上 “超时代答”“绿色通道” 这些关键技术后，超节点基本不会出现大故障。

　　同时，又通过链路级重传、光模块动态调整Lane、重新执行HCCL算子、借轨通信、双层路由快速恢复、Step级重新调度等技术，让超节点对光模块突然中断这类故障的承受能力变得超强，能容忍超过99%的光模块闪断情况。

　　哪怕超节点里的光模块数量一下子增加了10倍还多，依靠软件提升可靠性的手段，再配合光链路压力测试技术，光模块闪断的概率能降低到和传统电链路差不多的水平，稳稳保障超平面网络不出问题。

　　而且，华为团队还打造出Step级重调度能力，以前遇到频繁的 HBM 多比特 ECC 故障，修复可能要花很长时间，现在1分钟内就能搞定，用户因为故障损失的算力也减少了5%，实实在在地省下了不少 “计算力”。

　　线性度指标，简单来说就是看算力卡数量增加后，训练任务的速度或效率能提高多少（比如完成时间缩短的比例）。

　　举个例子：如果算力卡增加2倍，训练速度也能接近2倍，说明线性度高；如果速度只提高1.2倍，就说明线性度差，资源没被充分利用。

　　为了让训练效率随着算力卡增多而 “更成正比地提升”，华为团队研发了四项关键技术：

　　通过这四项技术，华为让Pangu大模型的训练线性度（即效率随算力卡增加的提升比例）明显提高。

教育知识更多>>