A Close Look into the Calibration of Pre-trained Language Models

本文是LLM系列文章，针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。

预训练语言模型的校准研究

摘要
1 引言
2 背景
3 评测指标
4 PLM是否学会了校准？
5 现有方法的效果如何？
6 结论
局限性与未来工作

摘要

预训练语言模型(plm)可能无法给出预测不确定性的可靠估计。我们仔细研究了这个问题，旨在回答两个问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?对于第一个问题，我们进行细粒度控制实验，研究PLMs在训练过程中校准性能的动态变化。我们考虑六个因素作为控制变量，包括数据集难度、可用训练样本、训练步骤、可调参数数量、模型规模和预训练。我们观察到校准性能在六个因素中的一致变化。我们发现，无论预测是否正确，plm都不会在训练中学会校准，这可以通过信心的持续增长来证明。我们强调，我们的发现在某种程度上与两个既定结论相矛盾:(a)更大的plm更精确;(b)预训练改进了模型校准。接下来，我们

相关阅读:
【计算机视觉】人脸算法之图像处理基础知识（四）
Foxit PDF SDK 5.9.6 for ActiveX Crack
微服务框架 SpringCloud微服务架构 19 文档操作 19.3 动态映射
vue相关原理
MySQL 日志管理
Android 10.0 Launcher3禁用widget微件功能实现
数据挖掘--认识数据
SQL Server数据库语法篇（终篇）
YOLOv5 结合切片辅助超推理算法 | 这才叫让小目标无处遁形！
arm架构，django4.2.7适配达梦8数据库

原文地址：https://blog.csdn.net/c_cpp_csharp/article/details/133860448