阿里大幅增持小鹏汽车。 当地时间11月14日,阿里巴巴向美国证监会提交的13F文件显示,三季度,阿里巴巴大幅增持了小鹏汽车ADS,同时减持了少量玩美股份。阿里增......
2024-11-17 178
国盛证券刘高畅在节目中表示,数据方面,高质量的中文语料库相对稀缺,会有一些误差率的问题;算力方面,训练端对算力的要求不是很极限,但应用端对算力的消耗非常显著。
以下为文字精华:
提问:除了算法,人工智能训练的时候也需要很大的算力,包括海量的数据,特别是我们中国跟海外的数据源可能还存在一些割裂。在算力和数据方面,我们和海外有多少差距?
刘高畅:数据方面,在GPT3以前用的都是互联网的公开数据,中文目前来看,客观的条件就是高质量的语料库相对来讲会稀缺一些。
在整个OpenAI的大模型中,我们了解到中文的语料库使用只有5%,从误差率的角度来讲,英文可能在2%—3%,中文大概在10%以上。用中文去测试ChatGPT,效果也不如英文。但是,我们也看到国内的高质量语料库在快速生成中,大家也在探索,包括知乎和万方这样的一些高质量语料库在形成。
大模型的数据还是以互联网公开数据为主,可能在写代码这个阶段,一些顶尖大厂比如微软,代码的水平会比较高,但是毕竟这一块只是小部分,我们推测起不了决定性的作用,应该不是特别大的瓶颈。OpenAI在去年GPT3.5的时候,大概用了45TB的数据,做模型数据集处理和倾斜的部分应该是不超过1TB的,所以其实是很少的数据,这一点不用特别担心。
算力方面,如果从训练端的角度来看,如果在GPT3以前,用2000张英伟达A100的算力,如果你训不出来成果,我们建议就不要去做了,说明这个团队水平有点问题。如果在GPT3.5以前,5000张如果训不出来,我们建议也不要再做训练了,说明这个团队多多少少有点问题。
我们认为在训练阶段,对算力的需求量没有那么极限,国内明面上和潜在的产业中的储备我们认为是够的。
应用端来看,做模型蒸馏和模型裁剪,把算力的消耗做到以前的90%,已经是很高的缩减度了。但是就这样的情况来看,算力还是会捉襟见肘,对未来算力的消耗还会非常显著,包括我们国家的一些晶圆代工和设计厂商,这也是他们需要努力的地方,其实是机遇也是挑战。
【内容声明】文章内容由新财梯网编辑整理,新闻来源:东方财富网
国盛证券刘高畅在节目中表示,数据方面,高质量的中文语料库相对稀缺,会有一些误差率的问题;算力方面,训练端对算力的要求不是很极限,但应用端对算力的消耗非常显著。 ...
以上就是好财梯网整理的关于国盛证券刘高畅:中文数据欠缺(今日财经:#算力消耗显著#解读)的全部内容,希望你在了解【今日财经:#算力消耗显著#解读】的基础上可以帮助到你,让我们一起学习理财知识。
标签: 国盛证券刘高畅:中文数据欠缺
相关文章
阿里大幅增持小鹏汽车。 当地时间11月14日,阿里巴巴向美国证监会提交的13F文件显示,三季度,阿里巴巴大幅增持了小鹏汽车ADS,同时减持了少量玩美股份。阿里增......
2024-11-17 178
今日哔哩哔哩-W(09626.HK)公布三季业绩,季度首次实现盈利。股价却出现大跌,盘中一度跌超13%。截至发稿,跌10.59%,报145.20港元。从上图走势......
2024-11-17 522
截至本周五,美股多数机构投资者已经完成了第三季度持仓数据(13F)的披露。而对于国内投资者们来说,高瓴、高毅等中资私募机构的海外投资动向无疑是最为关注的。注:四......
2024-11-17 257
上证报中国证券网讯 11月16日,TCL科技首席技术官、TCL华星首席技术官闫晓林在2024年TCL华星全球显示生态大会(DTC2024)上宣布印刷OLED正式......
2024-11-17 675
证券时报e公司讯,思泉新材(301489)近日接受机构调研时表示,北美大客户是公司重要客户,目前该客户订单充足。公司向该客户提供的产品主要为石墨膜,仅应用于其手......
2024-11-17 235