新闻中心

EEPW首页 > 智能计算 > 业界动态 > Meta训练Llama 3遭遇频繁故障

Meta训练Llama 3遭遇频繁故障

作者：时间：2024-07-29 来源：IT之家

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

收藏

7 月 28 日消息，Meta 发布的一份研究报告显示，其用于训练 4050 亿参数模型 Llama 3 的 16384 个英伟达 H100 显卡集群在 54 天内出现了 419 次意外故障，平均每三小时就有一次。其中，一半以上的故障是由显卡或其搭载的高带宽内存（HBM3）引起的。

本文引用地址：//www.cazqn.com/article/202407/461443.htm

由于系统规模巨大且任务高度同步，单个显卡故障可能导致整个训练任务中断，需要重新开始。尽管如此，Meta 团队还是保持了 90% 以上的有效训练时间。

IT之家注意到，在为期 54 天的预预训练中，共出现了 466 次工作中断，其中 47 次是计划中断，419 次是意外中断。计划内的中断是由于自动化维护造成的，而意外的中断则主要源于硬件问题。GPU 问题是导致故障的主要原因，占意外中断的 58.7%。其中只有三起事件需要大量人工干预，其余的由自动化管理。

无标题.jpg

在 419 个意外中断中，148 个（30.1%）是由各种 GPU 故障（包括 NVLink 故障）引起的，而 72 个（17.2%）是由 GPU 的 HBM3 内存故障引起的。有趣的是，54 天内只有两个 CPU 发生故障。41.3% 的意外中断是由多种因素造成的，包括软件错误、网络电缆和网络适配器。

为提高效率，Meta 团队开发了一系列工具和优化策略，包括缩短任务启动和检查点时间、利用 PyTorch 的 NCCL 飞行记录器诊断性能问题、识别拖后显卡等。此外，Meta 还关注到了环境因素的影响，如午间温度波动对 GPU 性能的轻微影响，以及巨量 GPU 同时运行对数据中心电网的巨大压力。

然而，随着人工智能模型参数量的不断增加，所需的计算资源也随之扩大。以 xAI 计划中的 10 万块 H100 显卡集群为例，故障率可能会成倍增长，给未来的 AI 训练带来更大的挑战。

<a href='https://ad.eepw.com.cn/www/delivery/ck.php?n=a7a83b30&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a href='//www.cazqn.com/ad/www/delivery/ck.php?n=a3d98779&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a href='//www.cazqn.com/ad/www/delivery/ck.php?n=abca108c&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a href='//www.cazqn.com/ad/www/delivery/ck.php?n=a1775170&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a href='//www.cazqn.com/ad/www/delivery/ck.php?n=a449048b&cb=INSERT_RANDOM_NUMBER_HERE' target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

关键词： Meta Llama 3 英伟达 H100 显卡 GPU

评论

相关推荐

擅自下载被判侵权微软在港赢官司获偿3500万元

hpnet | 2002-10-11

META-DX1系列：具有MACsec和FlexE的太比特级以太网PHY

视频 Microchip META-DX1系列 MACsec FlexE 太比特级以太网PHY | 2019-07-18

三星通过英伟达测试内幕：用在中国大陆产品

网络与存储三星英伟达 HBM3 | 2024-07-24

AST-3型彩色显示器的电源电路图

设计方案 AST-3 彩色显示器电源电路图 | 2009-07-06

在英伟达工作不容易？员工曝高压高工时更甚台积电

国际视野英伟达台积电 | 2024-07-24

Cyclone 与Spartan-3对比

资源下载 altera Cyclone 与Spartan-3 器件对比 | 2007-12-13

Intel 收购 NVDIA 意欲何为

视频 Intel NVDIA CPU GPU 移动处理 | 2012-12-26

Lattice的3.3伏ispMACH 4000V CPLD上市

hpnet | 2002-08-27

大嘴业话：A12真的能改变竞争格局么？

视频 ARM A12 GPU | 2013-06-21

触摸屏软件开发系统2.3.1

资源下载触摸屏软件系统 2.3.1 | 2007-02-09

IBM又一场IT革命：在中国推出“1.2.3”战略

liujt_ic | 2003-02-25

[注意]那位大侠有iar arm 3.21a 的解密

lzyr | 2002-12-28

摩根士丹利：仅 GB200 AI 服务器业务，就为英伟达创造 2100 亿美元年收入

智能计算 GB200 AI 英伟达 GPU | 2024-07-26

消息称英伟达 RTX 4070 及以上显卡因 GDDR6X 显存缺货 8 月供应紧张

消费电子英伟达 GPU | 2024-07-29

WINRAR 3.3

资源下载 RAR ZIP 压缩格式 WINRAR 3.3 | 2007-02-09

Meta发布“前沿级”开源AI模型扎克伯格：不怕竞争者使用

智能计算 Meta 开源 AI 模型扎克伯格 | 2024-07-24

多功能车载酒精测试器

视频信息技术大赛单片机 STC15F2K61S2 车载 ADC0832 LCD 传感器 MQ-3 | 2013-01-18

英特尔AI解决方案为最新Meta Llama 3.1模型提供加速

智能计算英特尔 AI解决方案 Meta Llama 3.1 | 2024-07-25

嵌入式图形界面GUI-3，需要的请排队！

jackwang | 2002-05-21

可控硅三相过零触发控制板KJZ6-3电原理图

设计方案可控硅三相触发控制板 KJZ6-3 原理 | 2009-07-06

3-DES算法的FPGA高速实现(Xilinx)

资源下载 Xilinx FPGA 3-DES算法 | 2007-12-13

英伟达RTX 50系显卡延期至2025年

英伟达显卡 AMD Intel CES | 2024-07-23

MSP430 IAR 3.42环境使用指南（中文完整版！）

资源下载 TI 软件介绍 MSP430 IAR 3.42环境 | 2007-11-28

消息称英伟达曾向台积电询问建设厂外 CoWoS 先进封装专线可能，遭拒绝

EDA/PCB 英伟达 GPU 封装工艺台积电 | 2024-07-23

ADI Voyager 3: 无线SmartMesh振动监测平台

视频 adi Voyager 3 无线信号链传感器 | 2021-07-16

Meta训练Llama 3遭遇频繁故障

智能计算 Meta Llama 3 英伟达 H100 显卡 GPU | 2024-07-29

MIC29300-3.3和MIC5014构成的具有开关稳压器的效率和线性稳压器的高稳定度的稳压器电路

设计方案 MIC29300-3.3 MIC5014 构成具有开关 | 2009-07-06

传英伟达曾要求建立专用CoWoS产线，但是被台积电拒绝

智能计算英伟达 CoWoS 台积电 | 2024-07-24

同创ATX-200SE-3型开关电源(KA7500B) 电路

设计方案同创 ATX-200SE-3 开关电源 KA7500B 电路 | 2009-07-06

由MIC5156-3.3构成的由5V变为3.3V的稳压器电路

设计方案 MIC5156-3.3 构成变为稳压器电路 | 2009-07-06

焦点

推荐视频

技术专区

关闭