Truncation Sampling as Language Model Desmoothing

本文是LLM系列文章，针对《Truncation Sampling as Language Model Desmoothing》的翻译。

截断采样作为语言模型的去平滑性

摘要
1 引言
2 背景
3 截断作为去平滑性
4 方法
5 实验与结果
6 相关工作
7 结论
8 不足

摘要

来自神经语言模型的长文本样本可能质量较差。截断采样算法（如top-p或top-k）通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架，并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体，以避免无限的困惑。在这种情况下，截断算法的目的是执行去平滑，估计真实分布的支持子集。找到一个好的子集至关重要：我们表明，top-p不必要地截断了高概率单词，例如，对于以Donald开头的文档，导致它截断了除Trump之外的所有单词。我们引入了

相关阅读:
信号量的使用和示例
Springboot中的@Import注解~
Springboot学习
datagridview设置随窗口改变大小
设计模式之外观模式
C++进阶篇1---继承
自定义hooks
不同选择器的语法
pytest的搜索路径和导入模式
使用 @FastNative 和 @CriticalNative 的区别

原文地址：https://blog.csdn.net/c_cpp_csharp/article/details/132605268