欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://blog.csdn.net/caroline_wendy/article/details/138160155

大语言模型(LLM)的评估是复杂且多维的过程,涉及多个方面,包括评估体系、评估方法、评估实践。评估体系包括评估数据集、模型输出、样本/输出变换、
真值(Ground Truth)、评估媒介、性能报告。评估方法包括直接评估指标、基于辅助模型的评估、基于模型的评估。评估实践主要包括,避免数据泄漏、测试样本的覆盖率、测试评估样本与任务无关、数据集划分和表述改写、随机数种子、准确率与召回率的权衡。

大型语言模型(LLM)的评估,需要考虑多个维度,主要包括: