16384块N卡训练4050亿参数大模型:3小时报错一次
发布时间:2024-08-26 来源:互联网 点击:(3036) 【 字体:大 中 小 】
16384块N卡训练4050亿参数大模型:3小时报错一次
如今的AI大模型规模越来越庞大,动辄成百上千亿参数,训练过程不仅需要数万甚至十几万块GPU加速卡,出错的几率也越来越高。Meta(Facebook)就披露了一份惊人的报告。
Meta在报告中披露,为了训练自己的Llama 3 4050亿参数大模型,使用了包含16384块NVIDIA H100 80GB GPU的集群,一共花了45天,期间居然出现了419次意外报错,平均每3个小时就一次,而一半的错误都和GPU及其自带的HBM3内存有关。
要知道,大模型训练的工作量异常庞大,而且需要高度同步,一次错误就可能导致整个训练工作必须从头再来。
报告显示,为期45天的预训练阶段中,总共出现了466次工作中断,其中47次是计划内的自动维护,419次是意外的,且大部分都来自硬件问题,GPU又是最多的,占了其中的58.7%。
具体来说,148次即30.1%的意外中断来自各种GPU失效(包括NVLink总线),72次即17.2%来自HBM3内存失效——毕竟,700W的功耗太热了。
还有19次来自GPU SRAM,17次来自GPU处理器,6次来自GPU静默数据错误,6次来自GPU散热和传感器。
其他错误来自软件bug、网线和网卡等等各个方面。有趣的是,CPU错误只出现了2次。
还好,Llama 3团队非常给力,在这么高的出错几率下,依然维持了超过90%的有效训练时间,而且只有三次GPU报错需要大量人工干预,其他都被自动化管理纠正了。
猜你喜欢

第五届中国工业互联网大赛无锡赛站决赛举办
以“数字赋能 智创未来”为主题,由工业和信息化部、国务院国有资产监督管理委员会、中华全国工商业联合会等单位主办的第五届中国工业互联···

索尼高管谈《星鸣特攻》失败:会继续专注在线服务游戏
近日SIE联席首席执行官赫尔曼·胡尔斯特(Herman Hulst)接受日媒Fami通采访,他谈到《星鸣特攻》的失败,以及Play···

浜口直树:《最终幻想7》重制版第三部开发非常顺利
据《最终幻想7》重制三部曲的监督浜口直树透露,该三部曲第三部的开发“进展顺利”。《FAMI通》推出了其年度年终专题,在这个专题中,···

网传:游戏大奖TGA2024将公布“重磅”消息
网传:游戏大奖TGA2024将公布“重磅”消息距离游戏大奖颁奖典礼还有不到一周的时间,这也意味着未来几天我们将看到一些游戏的新细节···

复旦教授称中国退休年龄还是太早,建议推行延迟退休制···
在当今这个快速发展的时代,退休年龄问题成了一个热门话题。复旦大学的一位教授彭希哲,这位在学术界有着丰富成就的资深教授,近日就提出了···

2024年AI领域五大趋势
人工智能(AI)的未来将是什么模样?美国《福布斯》双周刊网站在近日的报道中,列出了2024年AI领域发展的五大趋势,这些趋势有望赋···

前三季度国内旅游总人次、出游总花费同比增长75.5%和114.4%


落实“双碳”目标 美的楼宇科技TRUE大会展示数字化低碳之路


怎样和银行申请停息挂账?


自驾游十大注意事项


政策叠加发力 科技创新活力迸发


小短剧《逃出大英博物馆》凭啥出圈?


老铺黄金的奢侈品之路行得通吗


乐火影视推荐《清明上河图密码》狄伦的背后之人是谁


乐火影视推荐《月亮与蛋糕第二季》


一日三餐必须避开的八大误区 别让食物成为你健康的杀手
