阿里大幅增持小鹏汽车。 当地时间11月14日,阿里巴巴向美国证监会提交的13F文件显示,三季度,阿里巴巴大幅增持了小鹏汽车ADS,同时减持了少量玩美股份。阿里增......
2024-11-17 172
在“自我批评”这件事上,AI也要超越人类了。
北京时间6月28日,OpenAI 在其官网发布最新模型CriticGPT。
该模型基于GPT-4训练而成,用于识别ChatGPT生成代码中的错误。
传统上,人工智能开发人员使用一种称为“从人类反馈中强化学习”(RLHF)的方法来帮助人类审查员评估大模型的输出结果。
OpenAI研究员纳特·麦卡利斯(Nat McAleese)表示,RLHF的问题在于,随着模型变得越来越聪明,这项工作也越来越困难。人类需要超越RLHF的东西来校准更先进的系统。
OpenAI想到的解决方案是人工智能。
OpenAI的研究人员训练了一个名为CriticGPT的模型来评估ChatGPT的反应。研究人员通过手动将错误插入ChatGPT编写的代码中并提供反馈示例,教会了CriticGPT如何识别最常见的和一些不太常见的编码错误。
对于为何要人为添加错误然后编写反馈示例,而不是直接筛选出错误的代码,OpenAI认为,如果使用原始、未经修饰的答案,许多答案并不存在严重问题,这会降低数据对于改进批评意见的价值。而且如果不控制错误的类型,CriticGPT就会输出自由形式且模糊不清的审查意见。
另外,人类也很难发现CriticGPT遗漏的重要问题,偏好率也可能受到风格因素的影响,并会高估模型性能。
训练结果显示,在发现人为插入的错误代码方面,人类审核员只能找到25%左右,而CriticGPT的成功率在75%以上,而且CriticGPT给出的审查意见也更全面。在评估自然产生的错误代码方面,63%的情况下,CriticGPT编写的审查意见比人工编写的审查意见更受青睐。
不过,人类审查员给出的意见严重失误最少,无用的“挑剔”也最少,这一点是目前CriticGPT难以超越的。
CriticGPT仍存在一些不足之处。CriticGPT是基于ChatGPT较短的响应训练而成的,这意味着它还难以评估更长、更复杂的任务。此外,CriticGPT不能显示所有错误,并且在某些情况下会误报,导致人类注释者在标记数据时出错。
OpenAI计划将CriticGPT集成到其RLHF管道中,这意味着openAI的开发人员将拥有自己的生成式人工智能助手,来帮助他们审查人工智能的输出结果。
值得一提的是,OpenAI 团队根据CriticGPT训练成果发布的论文中,出现了 Jan Leike 的名字,后者曾共同领导了 OpenAI超级对齐团队。当OpenAI 联合创始人、首席科学家 Ilya Sutskever 在5月初离职后,Jan Leike 也随即离开,转投到OpenAI 的竞争对手Anthropic 。
【内容声明】文章内容由新财梯网编辑整理,新闻来源:21世纪经济报道
在“自我批评”这件事上,AI也要超越人类了。 北京时间6月28日,OpenAI 在其官网发布最新模型CriticGPT。 该模型基于GPT-4训练而成,用于识别...
以上就是好财梯网整理的关于用GPT(今日财经:#OpenAI推出新模型CriticGPT#解读)的全部内容,希望你在了解【今日财经:#OpenAI推出新模型CriticGPT#解读】的基础上可以帮助到你,让我们一起学习理财知识。
标签:
相关文章
阿里大幅增持小鹏汽车。 当地时间11月14日,阿里巴巴向美国证监会提交的13F文件显示,三季度,阿里巴巴大幅增持了小鹏汽车ADS,同时减持了少量玩美股份。阿里增......
2024-11-17 172
今日哔哩哔哩-W(09626.HK)公布三季业绩,季度首次实现盈利。股价却出现大跌,盘中一度跌超13%。截至发稿,跌10.59%,报145.20港元。从上图走势......
2024-11-17 518
截至本周五,美股多数机构投资者已经完成了第三季度持仓数据(13F)的披露。而对于国内投资者们来说,高瓴、高毅等中资私募机构的海外投资动向无疑是最为关注的。注:四......
2024-11-17 253
上证报中国证券网讯 11月16日,TCL科技首席技术官、TCL华星首席技术官闫晓林在2024年TCL华星全球显示生态大会(DTC2024)上宣布印刷OLED正式......
2024-11-17 671
证券时报e公司讯,思泉新材(301489)近日接受机构调研时表示,北美大客户是公司重要客户,目前该客户订单充足。公司向该客户提供的产品主要为石墨膜,仅应用于其手......
2024-11-17 231