阿里大幅增持小鹏汽车。 当地时间11月14日,阿里巴巴向美国证监会提交的13F文件显示,三季度,阿里巴巴大幅增持了小鹏汽车ADS,同时减持了少量玩美股份。阿里增......
2024-11-17 173
国内大模型训练面临的算力困局有望得到纾缓。面向大模型训练,4月14日,腾讯云正式发布新一代HCC(High-Performance Computing Cluster)高性能计算集群。
该集群采用腾讯云星星海自研服务器,国内首发搭载英伟达最新代次H800 GPU,服务器之间采用业界最高的3.2T超高互联带宽,为大模型训练、自动驾驶、科学计算等提供高性能、高带宽和低延迟的集群算力。
▍开启云上大模型训练模式
当下,大模型训练如火如荼,且参数量级已进入万亿时代,单体服务器算力有限,随着算力需求的增长,因此需要将大量服务器通过高性能网络相连,打造大规模算力集群。
集群的算力要求,意味着用于采购硬件的资金投入是指数级增长,这给不少企业带来了巨大的现金流压力。自己采购GPU,面临着成本和供应链问题,且峰谷问题较为明显。
例如,本地的物理CPU/GPU资源配比是固定绑定在一起的,扩展性比较差。有时CPU跑满、GPU空闲(或相反)。造成效率低下和资源浪费。在云上,这些资源可以池化随取随用,按需按量取用。
面对业务架构多样、用量无法准确预估、模型及环境部署难度大等问题,腾讯认为,云上算力能帮助企业完成随机突发的算力需求。
▍先进芯片≠先进算力
目前大热的人工智能大模型,其训练需要海量数据和强大的算力来支撑训练和推理过程,其中数据主要由服务器和光模块存储、运输,算力支撑则依赖各类芯片。
算力需求陡增,业界普遍认为,高性能芯片的短缺是限制国内大模型行业发展的重要因素。
但在腾讯看来,用上了先进芯片并不代表就拥有了先进算力,原因在于高性能计算存在“木桶效应”,一旦计算、存储、网络任一环节出现瓶颈,就会导致运算速度严重下降。
以算力对网络的要求为例:目前,GPU并行是大模型训练的必备技术,不同于传统并行以加快计算速度为目的,大模型的并行计算往往还要考虑怎样将庞大的参数有机地分布到多张GPU卡中,并保持不同GPU卡之间有效的通信,整体配合完成大模型的训练部署。
即使是目前业界已有的GPU分布式训练方案,也严重受制于服务器之间的通信、拓扑、模型并行、流水并行等底层问题。如果只有分布式训练框架,甚至都无法正常启动训练过程。这也是为什么当时GPT-3已经发布一年,却只有少数企业可以复现GPT-3。
换句话而言,先进算力的背后,是先进芯片、先进网络、先进存储等一系列的支撑,缺一不可。
▍首发搭载英伟达H800
腾讯新一代HCC集群搭载了英伟达最新代的H800芯片,这是H800在国内首发。不过,腾讯暂未透露采购了多少H800。
H800是英伟达新代次处理器,基于Hopper架构,对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升显著。
网络层面,腾讯自研的星脉网络,为新一代集群带来了3.2T的超高通信带宽。实测结果显示,搭载同样的GPU卡,3.2T星脉网络相较前代网络,能让集群整体算力提升20%,使得超大算力集群仍然能保持优秀的通信开销比和吞吐性能。并提供单集群高达十万卡级别的组网规模,支持更大规模的大模型训练及推理。
存储层面,腾讯云自研的文件存储、对象存储架构,具备TB级吞吐能力和千万级IOPS,充分满足大模型训练的大数据量存储要求。
在自研芯片方面,腾讯已经量产了用于AI推理加速的紫霄芯片,并已在语音转写、OCR等业务场景使用,用于视频转码的沧海芯片,已经在云游戏、直点播等场景中规模落地。
【内容声明】文章内容由新财梯网编辑整理,新闻来源:财联社
国内大模型训练面临的算力困局有望得到纾缓。面向大模型训练,4月14日,腾讯云正式发布新一代HCC(High-Performance Computing Clus...
以上就是好财梯网整理的关于做大模型时代的“卖铲人”:腾讯发布超强算力集群(今日财经:#国内首发搭载英伟达H100#解读)的全部内容,希望你在了解【今日财经:#国内首发搭载英伟达H100#解读】的基础上可以帮助到你,让我们一起学习理财知识。
相关文章
阿里大幅增持小鹏汽车。 当地时间11月14日,阿里巴巴向美国证监会提交的13F文件显示,三季度,阿里巴巴大幅增持了小鹏汽车ADS,同时减持了少量玩美股份。阿里增......
2024-11-17 173
今日哔哩哔哩-W(09626.HK)公布三季业绩,季度首次实现盈利。股价却出现大跌,盘中一度跌超13%。截至发稿,跌10.59%,报145.20港元。从上图走势......
2024-11-17 519
截至本周五,美股多数机构投资者已经完成了第三季度持仓数据(13F)的披露。而对于国内投资者们来说,高瓴、高毅等中资私募机构的海外投资动向无疑是最为关注的。注:四......
2024-11-17 254
上证报中国证券网讯 11月16日,TCL科技首席技术官、TCL华星首席技术官闫晓林在2024年TCL华星全球显示生态大会(DTC2024)上宣布印刷OLED正式......
2024-11-17 672
证券时报e公司讯,思泉新材(301489)近日接受机构调研时表示,北美大客户是公司重要客户,目前该客户订单充足。公司向该客户提供的产品主要为石墨膜,仅应用于其手......
2024-11-17 232