一、说明
在这项工作中,我们提出保留网络(RETNET)作为基础架构大型语言模型的结构,同时实现训练并行, 推理成本低,性能好。我们从理论上推导出这种联系 复发与关注之间。然后我们提出保留机制 序列建模,支持三种计算范式,即并行、 复发和分块复发。具体来说,并行表示允许 用于训练并行性。循环表示可实现低成本 O(1) 推断ence,它可以提高解码吞吐量、延迟和 GPU 内存,而无需 牺牲性能。分块循环表示有助于提高效率具有线性复杂度的古代长序列建模,其中每个块都被编码 并行地同时反复总结块。实验结果 语言建模表明 RETNET 取得了良好的扩展结果,并行 训练、低成本部署、高效推理。有趣的属性 使 RETNET 成为大型语言模型 Transformer 的强大继承者。代码 将在 https://aka.ms/retnet 上提供