16384块N卡训练4050亿参数大模型:3小时报错一次
发布时间:2024-08-26 来源:互联网 点击:(3038) 【 字体:大 中 小 】
16384块N卡训练4050亿参数大模型:3小时报错一次
如今的AI大模型规模越来越庞大,动辄成百上千亿参数,训练过程不仅需要数万甚至十几万块GPU加速卡,出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。
Meta在报告中披露,为了训练自己的Llama 3 4050亿参数大模型,使用了包含16384块NVIDIA H100 80GB GPU的集群,一共花了45天,期间居然出现了419次意外报错,平均每3个小时就一次,而一半的错误都和GPU及其自带的HBM3内存有关。
要知道,大模型训练的工作量异常庞大,而且需要高度同步,一次错误就可能导致整个训练工作必须从头再来。
报告显示,为期45天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的,且大部分都来自硬件问题,GPU又是最多的,占了其中的58.7%。
具体来说,148次即30.1%的意外中断来自各种GPU失效(包括NVLink总线),72次即17.2%来自HBM3内存失效——毕竟,700W的功耗太热了。
还有19次来自GPU SRAM,17次来自GPU处理器,6次来自GPU静默数据错误,6次来自GPU散热和传感器。
其他错误来自软件bug、网线和网卡等等各个方面。有趣的是,CPU错误只出现了2次。
还好,Llama 3团队非常给力,在这么高的出错几率下,依然维持了超过90%的有效训练时间,而且只有三次GPU报错需要大量人工干预,其他都被自动化管理纠正了。
猜你喜欢

第五届中国工业互联网大赛无锡赛站决赛举办
以“数字赋能 智创未来”为主题,由工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会等单位主办的第五届中国工业互联···

消息称《光环》和《战争机器》今年都要登陆PS5平台
今日早些时候,业内知情人士NateDrake报道称,Xbox主机独占游戏《光环:士官长合集》将于2025年登陆PS5平台。似乎另一···

索尼高管谈《星鸣特攻》失败:会继续专注在线服务游戏
近日SIE联席首席执行官赫尔曼·胡尔斯特(Herman Hulst)接受日媒Fami通采访,他谈到《星鸣特攻》的失败,以及Play···

浜口直树:《最终幻想7》重制版第三部开发非常顺利
据《最终幻想7》重制三部曲的监督浜口直树透露,该三部曲第三部的开发“进展顺利”。《FAMI通》推出了其年度年终专题,在这个专题中,···

网传:游戏大奖TGA2024将公布“重磅”消息
网传:游戏大奖TGA2024将公布“重磅”消息距离游戏大奖颁奖典礼还有不到一周的时间,这也意味着未来几天我们将看到一些游戏的新细节···

复旦教授称中国退休年龄还是太早,建议推行延迟退休制···
在当今这个快速发展的时代,退休年龄问题成了一个热门话题。复旦大学的一位教授彭希哲,这位在学术界有着丰富成就的资深教授,近日就提出了···

中国香料香精化妆品工业协会理事长颜江瑛:三个阶段一个持续 督导企业落实化妆品质量安全主体责任


房山区非物质文化遗产-秦德泰油酥烧饼


平行志愿录取规则及填报技巧详解 高考志愿填报指导


七天无理由退货的适用范围是什么?


雪窦山门票奉化溪口雪窦山门票多少钱一张


居家预防驱除蟑螂的十五种小妙招


《为有暗香来》华浅的官配是谁


假期防溺水安全教育大全详细


乐火影视推荐《寂静之地:入侵日》


实际收益率怎么算?
