NV-Embed论文阅读笔记

在这里插入图片描述

这是NVIDIA的一篇论文，LLM通常使用的是GPT的decoder范式作为一个生成模型，文章探讨如何利用这样的decoder生成模型来实现BERT这样的encoder的功能，即提取有效的embedding。
现有的方法提取embedding的方式无非是 1 mean pooling； 2 the last token embedding。前者是encoder-like的model用得多，后者是decoder-like的model用得多。然而这两者都有问题。
文章提出的方法是，decoder模型正常是会通过循环的方式生成一段序列嘛，最后一个time step的一层的Q就是 $l\times d$ 的， $l$ 个token每个 $d$ 维，然后我预定义一个latent array，是 $r\times d$ 的，它作为 $r$ 个token的K和V，用来和Q算attention（实际上做的是多头注意力，这里简单起见按单头注意力讲解），得到 $O$ 是 $l\times d$ 的，再接MLP GELU MLP，再过一个mean pooling，得到最终的embedding。
文章一边说train from scratch，又说用LoRA，就很奇怪。
另外呢，文章把mask去掉了，之前的GPT，每个token做注意力只能看到前面的token，但文章发现直接全都看得到在提取embedding方面效果更好：
文章试验了bidirect attention/causal attention的对比，EOS Mean latent-attention self-attention的对比：

相关阅读:
马可尼光传输设备全新原装板卡
计算机毕业设计源代码java项目开发实例ssm+mysql实现零食商城系统(电商项目)[包运行成功]
七层负载均衡-nginx
如何套用模板制作大屏？
为什么你的抖音小店做不好？因为你没有做好这两点，看完收藏
【无标题】
使用shell脚本安装hadoop高可用集群
maven命令记录及学习
卫星通话过后，卫星导航产业被彻底激活
一分钟看懂“低代码“是什么？低代码真能“砸“掉程序员饭碗？

原文地址：https://blog.csdn.net/weixin_44326452/article/details/139765096