首页 > 教育综合知识 > 教育综合知识 > 华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复

华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复

发布时间:2025-06-10 14:40:02来源: 15510183920
大模型的落地能力,核心在于性能的稳定输出,而性能稳定的底层支撑,是强大的算力集群。其中,构建万卡级算力集群,已成为全球公认的顶尖技术挑战。
 
  但是,在华为,昇腾万卡算力集群,已经可以做到近乎“永不罢工”了:
 
 
  或许有小伙伴要问了:AI算力需要如此24小时不间断的运作吗?
 
  答案是肯定的,需要,且有必要。
 
  因为小到我们用手机导个航,背后都会有几十个AI模型在发力来分析路况、预测拥堵;再如医院用AI辅助诊断癌症,系统得在瞬间处理掉成百上千的CT照片。
 
  这些看似简单的智能应用,其实都离不开如 “超级大脑” 般的AI算力集群,需要它们全天候不停歇地运转着。
 
  而要保证有这样的能力,高训练可用度、高线性度、快速消除故障,就相当于给AI发动机上了一份强有力的保险。
 
  更严格来说,AI推理的可用度甚至还需要达到99.95%的程度。
 
  那么华为又是如何做到这点的?
 
  关于这一切背后的秘密,华为在今天首次把技术给公开了出来。
 
  AI大集群出问题时,定位故障特别麻烦;毕竟系统规模庞大,软件和硬件组成的技术栈错综复杂,而且调用链条还很长。
 
  要解决问题,首先得确定故障出在哪个大的领域,接着再在这个领域内部一步步排查,确定具体的故障位置。在整个故障诊断过程中,面临的挑战非常大。
 
  以往技术人员进行故障定位时,短则需数小时,长则可能耗时数天。这一过程不仅对技术人员的专业技能要求颇高,且往往难以快速锁定故障设备及根本原因。
 
  为此,华为团队针对AI大集群面临的复杂挑战,构建了三大基础能力。
 
  首先是全栈可观测能力。
 
  它像是给集群装了一套“火眼金睛”监控系统(故障感知),主要包含这几部分:
 
 
  同时,华为还拿出了一套“故障诊断组合拳”,包含四大核心能力:
 
  这套组合拳让集群故障诊断更高效,就像给工程师配了 “智能侦探工具”,大大缩短了找问题的时间。
 
  最后,是一套“钢铁韧带”自愈系统(容错设计)。
 
  想要把超平面网络的厉害之处完全发挥出来,超节点的规模就得足够大。不过到现在,还没有哪个团队能用光链路搭建超节点并成功的。
 
  于是,华为团队就琢磨出一套超节点光链路软件容错的好办法。
 
  这套办法就像给超节点穿上了好几层 “防护铠甲”,用上 “超时代答”“绿色通道” 这些关键技术后,超节点基本不会出现大故障。
 
  同时,又通过链路级重传、光模块动态调整Lane、重新执行HCCL算子、借轨通信、双层路由快速恢复、Step级重新调度等技术,让超节点对光模块突然中断这类故障的承受能力变得超强,能容忍超过99%的光模块闪断情况。
 
  哪怕超节点里的光模块数量一下子增加了10倍还多,依靠软件提升可靠性的手段,再配合光链路压力测试技术,光模块闪断的概率能降低到和传统电链路差不多的水平,稳稳保障超平面网络不出问题。
 
  而且,华为团队还打造出Step级重调度能力,以前遇到频繁的 HBM 多比特 ECC 故障,修复可能要花很长时间,现在1分钟内就能搞定,用户因为故障损失的算力也减少了5%,实实在在地省下了不少 “计算力”。
 
  线性度指标,简单来说就是看算力卡数量增加后,训练任务的速度或效率能提高多少(比如完成时间缩短的比例)。
 
  举个例子:如果算力卡增加2倍,训练速度也能接近2倍,说明线性度高;如果速度只提高1.2倍,就说明线性度差,资源没被充分利用。
 
  为了让训练效率随着算力卡增多而 “更成正比地提升”,华为团队研发了四项关键技术:
 
  通过这四项技术,华为让Pangu大模型的训练线性度(即效率随算力卡增加的提升比例)明显提高。

教育综合知识更多>>

华为Mate70 Pro 12GB+1TB 麒麟芯片大存储摄影旗舰机6744元 华为Pura 80系列全新滤镜曝光 影像体验再迎个性化升级! 哈尔滨工业大学与华为举行智慧校园创新成果发布会,引领教育智能化新变革 又又又来上海啦!明天下午,华为Pura 80系列手机发布会 OPPO Find X9工程机曝光:天玑9500之王 三大新势力车企上周订单数据曝光:鸿蒙>小鹏>零跑 华为Pura 80系列发布在即,鸿蒙版小红书再次更新,社交体验持续升级 联想拯救者平板 Y700 四代新增 16+1TB 冰魄白版本:4399 元,国补大学生价 3599 元 苹果升级开发工具:优化光线追踪,加速游戏移植 iPhone/iPad/Mac 两步教你升级iPhone新系统!iOS 26开发者预览版Beta已开启推送 苹果WWDC25:液态玻璃设计,系统年份命名,AI深度集成,在「颠覆」与「渐进」之间 苹果新功能亮相,液态玻璃设计焕新,科创AIETF(588790)连续4天净流入 iOS改了设计风格,含一些 AI 功能,Siri 继续跳票|苹果WWDC2025 苹果史上最大规模软件设计更新:iOS 26亮相,“液态玻璃”设计褒贬不一,仅支持iPhone 11以上 苹果AI表现引争议 是“保守派”的坚持还是“错失良机”? vivo Y77 5G钢化膜10D高清版2片装促销 彻底打通苹果生态!vivo X Fold5史无前例支持iCloud云端直连 荣耀豁出去了!骁龙8跌至3099元,至尊版+512GB+7200mAh+4320Hz 从奥运荣耀到全运征程,重庆艺术体操的基石在这里 荣耀Magic V5配色曝光:黑白金敦煌四色 辨识度拉满 小米Civi 4 Pro 5G手机柔雾粉1278元 小米BE3600 Wi-Fi7路由器限时特惠144元 华为Pura80系列视频能力升级,主摄感光大幅提升 华为Pura80视频能力升级,感光性能显著提升 余承东秀拍火焰视频!华为Pura80参数遭“剧透”,已有22.7万人预约 6月4日,第十三届华为全球智慧金融峰会2025 在东莞松山湖召开 华为徐直军:2024-25年华为公司对质量的重视是空前的 华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复 一加中国区总经理刘宝有与OPPO游戏中心负责人谭皓透露一加将继续专注性能赛道 惠普暗影游戏本促销,原价16599现12499