DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS

本文是LLM系列文章，针对《DYVAL: GRAPH-INFORMED DYNAMIC EVALUATION OF LARGE LANGUAGE MODELS》的翻译。

大语言模型的基于图形的动态评估

摘要
1 引言
2 相关工作
3 DYVAL
4 实验
5 DYVAL帮助进行微调
6 结论和讨论

摘要

大型语言模型(llm)在各种评价基准中取得了显著的成绩。然而，对其性能的担忧是由于其大量的训练语料库中潜在的数据污染。此外，当前基准的静态性质和固定复杂性可能无法充分衡量llm的先进能力。本文介绍了一种新颖、通用、灵活的LLM动态评价协议DYVAL。基于我们提出的动态评估框架，我们利用有向无环图的结构优势，构建了基于图的DYVAL，以动态生成具有可控复杂性的评估样本。DYVAL在推理任务上生成具有挑战性的评估集，包括数学、逻辑推理和算法问题。我们评估了从Flan-T5-large到ChatGPT和GPT-4的各种llm。实验表明，llm在dyval生成的不同复杂度的评价样本中表现较差，强调了动态评价的重要性。分析了不同提示方法的失败案例和结果。此外，dyval生成的样本不仅是评估集，也是用于微调以提高

相关阅读:
GitLab仓库管理系统安装详细步骤
qt 怎么实现在子窗体通知mainwindow界面发生改变
JavaScript 基础语法
ES6如何声明一个类？类如何继承？
8/26 网络流Dinic算法+最小割+cf
Qt之随机数
声明 Array List 的3种方式 ArrayList、Collection、List 的区别
Elelemt-UI el-table 接收后端返回换行符 /n 不生效
matlab的矩阵常用操作方法
小红书关键词排名怎么做?小红书搜索排名提升技巧

原文地址：https://blog.csdn.net/c_cpp_csharp/article/details/133693834