• 浅谈wor2vec,RNN,LSTM,Transfermer之间的关系


    浅谈wor2vec,RNN,LSTM,Transfermer之间的关系

    今天博主谈一谈wor2vec,RNN,LSTM,Transfermer这些方法之间的关系。

    首先,我先做一个定位,其实Transfermer是RNN,LSTM,和word2vec的一种“提升版”。这里的提升并不是说他们是一种迭代版本,而是说Transfermer它解决了RNN,LSTM,和word2vec的一些缺点。

    下面我们先说一下RNN,LSTM,和word2vec主要i的缺点。
    下面是RNN的模型示意图。我们可以很显然的发现,RNN在做一些任务的时候,是一个个的输入一个句子的单词,这样的计算方式,会导致忽略句子内单词之间的内在联系。虽然RNN,和LSTM有这种记忆,可以记忆之前句子留下来的信息,但是这种单向不并行计算方式,还是很大程度上不能考虑句子单词之间的内在联系。
    在这里插入图片描述

    同样word2vec其实也是如此,word2vec生成的词向量是固定的,这很大的限制了词向量的灵活性、表达能力。同时,我们知道word2vec其实只是从集合的角度去考虑句子内单词之间的联系,没有考虑单词间位置的关系。而且不能根据特定任务去灵活的发挥词向量的表达能力。

    所以这两类模型的问题,渐渐的使得研究者去思考更好的模型,transfermer也因此诞生。

    在transfermer论文中,作者说过,其实transfermer很大程度上是为了解决长句子的句子间因为有些词语距离太远,当时的很多模型不能很好的去学习词语间的联系这一问题。

    transfermer则可以较好的解决这一问题。

    那么对于transfermer 其自注意力机制,很特别的一个地方,就是对于一个句子,先对词向量进行一次提取,每一个词语先经过一个V矩阵进行一次提取。然后呢,其再用一个Q矩阵个一个K矩阵对x进行两次信息提取,提取完之后,得到的 q向量和k向量乘积作为V矩阵提取信息的权值。所以,其充分利用了神经网络的强大表征能力。但是也存在冒险,在学习的时候,神经网络需要自己知道Q K矩阵是为了权值而学习的,而V矩阵则是对数据进行最后的信息提取而学习的。我们可以给与transfermer更多的提示,让其对于这三个矩阵的学习更加具有目的性,这样或许可以更好的提升transfermer的学习能力,否则直接让其再目标函数的驱动下去学习这三个矩阵,目的性较弱,且会局限于数据初始化。

  • 相关阅读:
    Vue-Pinia
    蓝桥杯(3.1)
    从 Docker Hub 拉取镜像受阻?这些解决方案帮你轻松应对
    网络模块使用Hilt注入
    Jackson ImmunoResearch 直接和间接蛋白质印迹方案
    软件项目管理(第二版 宁涛)问答题(个人背诵)
    Mysql5.7在线安装详细步骤
    PSINS中19维组合导航模块sinsgps详解(时间同步部分)
    【性能测试入门必看】性能测试理论知识
    腾讯云抱歉不满足产品首购条件解决方法
  • 原文地址:https://blog.csdn.net/weixin_43327597/article/details/133577969