Parallel Context Windows for Large Language Models

本文是LLM系列文章，针对《Parallel Context Windows for Large Language Models》的翻译。

大语言模型并行上下文窗口

摘要
1 引言
2 并行上下文窗口
3 上下文学习的PCW
4 PCW用于QA
5 相关工作
6 结论和未来工作
不足

摘要

当应用于处理长文本时，大型语言模型（LLM）受到其上下文窗口的限制。现有的解决这一限制的努力涉及训练专门的体系结构，并且不能很容易地应用于现成的LLM。我们提出了并行上下文窗口（PCW），这是一种在没有进一步训练的情况下减轻任何现成LLM的上下文窗口限制的方法。该方法的关键是将长上下文分割成块（“窗口”），将注意力机制限制为仅在每个窗口内应用，并在窗口之间重复使用位置嵌入。我们的主要结果测试了PCW方法在上下文学习中的应用，模型的大小在7.5亿到1780亿个参数之间，并显示出对具有不同输入和输出空间的任务的显著改进。我们在长上下文窗口可能有益的其他设置中展示了额外的好处：多跳问题和使

相关阅读:
【Unity每日一记】资源加载相关和检测相关
怎么做好web服务器安全措施
mapreduce序列化（Hadoop）
使用Windbg过程中两个使用细节分享
【论文分享】Fuzzing: A Survey for Roadmap
CN_MAC介质访问控制子层@CSMA协议
【MybatisPlus】MP解决四种表与实体的映射问题，以及id自增策略
CSS在页面中使用的三种方式：行内样式、内嵌式样式表、链接式样式表
思科网络中如何配置扩展ACL协议
【OpenCV】Chapter5.空间域图像滤波

原文地址：https://blog.csdn.net/c_cpp_csharp/article/details/132587963