16384块N卡训练4050亿参数大模型:3小时报错一次
发布时间:2024-08-26 来源:互联网 点击:(3041) 【 字体:大 中 小 】
16384块N卡训练4050亿参数大模型:3小时报错一次
如今的AI大模型规模越来越庞大,动辄成百上千亿参数,训练过程不仅需要数万甚至十几万块GPU加速卡,出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。
Meta在报告中披露,为了训练自己的Llama 3 4050亿参数大模型,使用了包含16384块NVIDIA H100 80GB GPU的集群,一共花了45天,期间居然出现了419次意外报错,平均每3个小时就一次,而一半的错误都和GPU及其自带的HBM3内存有关。
要知道,大模型训练的工作量异常庞大,而且需要高度同步,一次错误就可能导致整个训练工作必须从头再来。
报告显示,为期45天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的,且大部分都来自硬件问题,GPU又是最多的,占了其中的58.7%。
具体来说,148次即30.1%的意外中断来自各种GPU失效(包括NVLink总线),72次即17.2%来自HBM3内存失效——毕竟,700W的功耗太热了。
还有19次来自GPU SRAM,17次来自GPU处理器,6次来自GPU静默数据错误,6次来自GPU散热和传感器。
其他错误来自软件bug、网线和网卡等等各个方面。有趣的是,CPU错误只出现了2次。
还好,Llama 3团队非常给力,在这么高的出错几率下,依然维持了超过90%的有效训练时间,而且只有三次GPU报错需要大量人工干预,其他都被自动化管理纠正了。
猜你喜欢

第五届中国工业互联网大赛无锡赛站决赛举办
以“数字赋能 智创未来”为主题,由工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会等单位主办的第五届中国工业互联···

消息称《光环》和《战争机器》今年都要登陆PS5平台
今日早些时候,业内知情人士NateDrake报道称,Xbox主机独占游戏《光环:士官长合集》将于2025年登陆PS5平台。似乎另一···

索尼高管谈《星鸣特攻》失败:会继续专注在线服务游戏
近日SIE联席首席执行官赫尔曼·胡尔斯特(Herman Hulst)接受日媒Fami通采访,他谈到《星鸣特攻》的失败,以及Play···

浜口直树:《最终幻想7》重制版第三部开发非常顺利
据《最终幻想7》重制三部曲的监督浜口直树透露,该三部曲第三部的开发“进展顺利”。《FAMI通》推出了其年度年终专题,在这个专题中,···

网传:游戏大奖TGA2024将公布“重磅”消息
网传:游戏大奖TGA2024将公布“重磅”消息距离游戏大奖颁奖典礼还有不到一周的时间,这也意味着未来几天我们将看到一些游戏的新细节···

复旦教授称中国退休年龄还是太早,建议推行延迟退休制···
在当今这个快速发展的时代,退休年龄问题成了一个热门话题。复旦大学的一位教授彭希哲,这位在学术界有着丰富成就的资深教授,近日就提出了···

2024年中考有“变化”,学生考多少分才进入高中?至少要到这个分数


《花戎》魏凌月是孔雀吗


实验室噪音防护:从耳塞到降噪耳机的选择


没有营业执照就不能申请银行贷款吗?


启动机坏了怎么检查?


《神隐》古晋什么时候知道凤隐才是当年的恩人


肉粽可以和甜粽一起煮吗,不同口味的粽子可以一起煮吗


老北京名小吃推荐-冰糖葫芦


什么颜色的唇彩最适合你,如何用腮红和唇彩,不同肤色妆


电冰箱快速除霜的技巧
