• OpenAI发布新模型CriticGPT:利用GPT优化GPT训练,RLHF实现超越人类能力!


    目录

    01 基于GPT-4,改进GPT-4

    02 CriticGPT取得了哪些成果呢?

    03 RLHF的上限不再是人类


    近日,OpenAI突然发布了一个新模型!这个模型基于GPT-4训练,旨在帮助下一代GPT的训练。

    CriticGPT能够在代码挑错中找到超过75%的错误,而人类只能找到不到25%。

    此外,它还能为这些错误撰写“评论”,在60%的情况下,人类训练师更喜欢有CriticGPT帮助下的批评。

    但这项研究的关键在于,CriticGPT的挑错能力不仅限于代码。

    例如,它可以在RLHF训练中挑出AI输出的错误,且已经被纳入OpenAI的内部训练流程

    更好的RLHF训练能产生更强的模型,而更强的模型又能通过更好地挑错来增强RLHF训练……

    没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
    升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

    论文结论中明确指出:在真实世界数据中挑错方面,AI还有进步空间,而人类智能已经达到极限。

    论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

    这篇论文来自已解散的超级对齐团队,由前负责人Jan Leike带队完成。

    Leike本人已经跳槽到Anthropic,继续从事类似研究。

    01 基于GPT-4,改进GPT-4


    OpenAI官网文章间接承认了,GPT-4之后的改进遇到了一些瓶颈:

    随着AI能力增强,它犯的错误变得不那么显眼,人类训练师难以发现不准确之处。

    人类无法提供反馈,RLHF“人类反馈强化学习”也就无从谈起。

    CriticGPT正是为了解决这一挑战而诞生。

    CriticGPT基于GPT-4,并接受了RLHF训练,但特别之处在于训练数据中包含大量的错误输入。

    具体来说,分为三步:

    1. 让人类标注员在ChatGPT生成的代码中故意植入一些微妙的bug。
       
    2. 标注员扮演代码审查员的角色,写下他们对这些bug的评论。
       
    3. 用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。

    在训练过程中,他们还加入了一些有趣的环节。

    例如,不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。

    这种方法有点像GAN的对抗训练,只不过生成器的角色由人类来扮演……

    最后,OpenAI还采用了一种“强制采样束搜索”(FSBS)技术,使CriticGPT在生成评论时既能保持全面,又能减少“幻觉”和“鸡蛋里挑骨头”的现象。

    具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。

    通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。

    02 CriticGPT取得了哪些成果呢?

    • 在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上。
       
    • 在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。
       
    • CriticGPT的评论被认为比ChatGPT的更全面,更少出现“幻觉”和无关紧要的挑剔。
       
    • 在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是“完美”的错误。

    不过CriticGPT也不是十全十美,它也会有“幻觉”问题,指出一些实际上不存在的问题。

    目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的“幻觉”。

    03 RLHF的上限不再是人类

    RLHF是创造ChatGPT的核心技术之一,但其局限在于人类能力就是RLHF的天花板。

    当需要AI解决人类无法应对的任务时,人类无法提供相应的反馈,AI也就无法改进。

    CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,即用弱模型监督训练更强模型的愿景,终于有了实现的希望。

    为什么选择从代码任务入手呢?

    一方面,代码任务具有现实意义,开发出的模型可以直接应用。

    另一方面,代码可以清晰明确地评估,比开放式对话更客观,更容易判断CriticGPT发现的问题是否真实和重要。

    结果表明,虽然CriticGPT在代码上训练,但不仅能挑出代码中的Bug,还发现了1/4的ChatGPT生产数据中的问题。


    如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

    官网有更详细介绍:WildCard


    推荐阅读:

    ChatGPT之母:AI自动化将取代人类,创意性工作或将消失

    超越GPT-4o!新王Claude 3.5 Sonnet来啦!

    GPT-4o首次引入!全新图像自动评估基准发布!

  • 相关阅读:
    『吴秋霖赠书活动 | 第三期』《Python asyncio并发编程》
    JavaScript 判断客户端是手机还是pad
    arthas 线上修改代码(免重启)
    为什么在做微服务设计的时候一定需要DDD?
    No instances available for IP
    google abseil c++ Tip of the Week #65: Putting Things in their Place 把对象放入容器的方式
    电压源的电路分析知识分享
    哈希表简介
    docker socket设置
    Nacos-Feign-Gateway
  • 原文地址:https://blog.csdn.net/ElevenSakura/article/details/140041905