码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • (一)从rnn attention 到 attention withouot rnn 再到transformer


    参考:https://www.youtube.com/watch?v=aButdUV0dxI&list=PLvOO0btloRntpSWSxFbwPIjIum3Ub4GSC

    1、attention for seq2seq model

     seq2seq包含一个encoder和一个decoder。encoder类似于rnn,deocder类似于文本生成器。

    attention机制如何引入?

    在计算decoder的每一个step生成时,会用到attention,那么其中的Q、K、V如何去理解?

    首先,我们想得到每个step的生成c,c肯定是由权重乘积再相加得来的。那么权重参数以及与它相乘的数肯定是与encoder有关的。

    1)对于encoder的每一个step的状态h,分别乘以W(k) W(v),得到key value ,所有的step的key value组成大矩阵K V。

    2)K与decoder的当前step的状态s 进行softmax操作,得到权重矩阵 A。

    3)A再与V值进行加权求和得到当前step的结果c。

    2、attention without rnn

    1)得到Q K V,去掉rnn之后,直接用输入的词向量去得到K V,与之前的相比,不同的是用词向量去代替RNN的每一个step得到的隐状态h。

     2)得到权重矩阵A .

     3) 加权求和得到当前step的输出c 

     4) 重复步骤3)即可得到所有的step的输出。由c的公式可知,每个step的输出c不仅与当前step的输入x有关,更与encoder所有的step的k、v有关,因此它能用到encoder所有的信息。

    总结:attention layer。

    seq2seq输入是两个序列X,X'

     3、self-attention layer 

    与attention layer不同的是,它输入序列只有一个X,但每一个输出的c与所有的输入x有关,而不是当前step的x

     步骤:

     1)得到Q K V,与之前不同的是,Q也来源于x

     2) 得到权重矩阵A 

    3) 加权求和得到当前step的输出c 

     

    4) 总结

     attention可以用在seq2seq上,也可以脱离seq2seq、rnn,独立开来,这样就称为self-attention。

  • 相关阅读:
    图文详解Linux基础经典教程(04)——配置子网IP和网关
    dolphinscheduler 2.0.5-python任务使用记录(资源栏位)
    2023-9-14 最长上升子序列
    C# 移动飞机
    从左到右计算的计算器
    独立站运营技巧:如何引流?如何提高转化率
    算法通关村第十四关——解析堆在数组中找第K大的元素的应用
    win10磁盘分区解决方案
    高并发技巧-流量聚合和高并发写入处理技巧
    Python基础--PART1
  • 原文地址:https://blog.csdn.net/ZcsLv_zyq/article/details/126095152
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号