• SimpleQA:OpenAI 开源评估大模型事实性的基准测试


    ❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

    🥦 微信公众号|搜一搜:蚝油菜花 🥦


    🚀 快速阅读

    1. SimpleQA 是 OpenAI 推出的用于评估大型语言模型回答事实性问题的基准测试。
    2. SimpleQA 包含 4326 个问题,每个问题只有一个正确答案,易于评分。
    3. SimpleQA 能评估模型的事实性回答能力和模型的“校准”程度。

    正文(附运行示例)

    SimpleQA 是什么

    在这里插入图片描述

    SimpleQA 是 OpenAI 推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA 包含 4326 个问题,每个问题设计为只有一个正确答案,易于评分。

    SimpleQA 挑战性强,即使是最先进的大模型如 o1-preview 和 Claude Sonnet 3.5 的准确率也不到 50%。所有问题经过两位独立标注员验证,确保参考答案的准确性和时效性。

    SimpleQA 能评估模型的事实性回答能力,能测量模型的“校准”程度,即模型对自己回答准确性的自我评估能力。SimpleQA 的数据集具有多样性,涵盖多个主题,包括历史、科学、艺术等,用在推动更可靠、可信赖的语言模型的发展。

    SimpleQA 的主要功能

    • 评估事实性回答能力: SimpleQA 主要用在测试语言模型回答简短、事实性问题的能力,问题设计为只有一个正确答案。
    • 挑战性问题设计: 问题对抗性地收集,针对 GPT-4 等前沿模型,确保测试具有挑战性。
    • 易于评分: 问题设计让答案易于评定,答案被分类为正确、错误或未尝试。
    • 模型自我认知评估: 基于评估模型是否“知道自己知道什么”,衡量模型的自我认知能力。
    • 校准测量: 测量模型对回答准确性的自信程度,即模型是否能准确评估自己的回答。

    SimpleQA 的技术原理

    • 数据收集与验证: 基于 AI 训练师创建问题和答案对,由另一名 AI 训练师独立验证答案,确保一致性。
    • 高标准问题筛选: 问题必须满足特定标准,包括单一答案、答案随时间不变、有证据支持、具有挑战性,且截至 2023 年可回答。
    • 质量控制: 用 ChatGPT 分类器检测违反标准的问题是提高问题质量的步骤之一。
    • 多样性和覆盖: 基于 ChatGPT 分类问题主题和答案类型,确保数据集的多样性。
    • 评分机制: 用提示的 ChatGPT 分类器对模型的回答进行评分,确定其是否正确、错误或未尝试。
    • 性能评估: 比较模型在 SimpleQA 上的表现,评估其在事实性问题回答方面的能力。
    • 校准评估: 询问模型对答案的置信度,且与实际准确性进行比较,评估模型的校准能力。

    如何运行 SimpleQA

    为了运行 SimpleQA,您需要安装一些依赖项并设置环境。以下是一些安装步骤和命令:

    1. 安装 HumanEval:
    git clone https://github.com/openai/human-eval
    pip install -e human-eval
    
    1. 安装 OpenAI API:
    pip install openai
    
    1. 安装 Anthropic API:
    pip install anthropic
    
    1. 设置 API 密钥环境变量:
    export OPENAI_API_KEY='your_openai_api_key'
    export ANTHROPIC_API_KEY='your_anthropic_api_key'
    
    1. 运行演示:
    python -m simple-evals.demo
    

    这将通过 OpenAI API 启动评估。

    请注意,您需要替换'your_openai_api_key''your_anthropic_api_key'为您的实际 API 密钥。

    资源

    • 关注并回复公众号【57】或【SimpleQA】获取相关项目资源。

    ❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

    🥦 微信公众号|搜一搜:蚝油菜花 🥦

  • 相关阅读:
    解决pod健康检查问题
    uni vuex 组件及常用api
    PX4模块设计之三十:Hysteresis类
    线程池执行定时任务
    动手学深度学习(Pytorch版)代码实践 -卷积神经网络-27含并行连结的网络GoogLeNet
    「X」Embedding in NLP|初识自然语言处理(NLP)
    从0实战一个 vue3+ ts+element-plus 项目
    [C++][opengl]使用opengl绘制一个简单三角形
    【生成式网络】入门篇(二):GAN的 代码和结果记录
    SpringCloud详解
  • 原文地址:https://blog.csdn.net/qq_19841021/article/details/143418531