码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 深度学习笔记(十四):Transormer知识总结


    Transformer知识总结

      • 谈谈你的理解
      • 什么是Self-attention![在这里插入图片描述](https://img-blog.csdnimg.cn/322688c5305540558d7540336629ff0b.png)
      • 什么是Q、K、V
      • 什么是Multi-head attention
      • 什么是位置编码,解决什么问题
      • 如何理解transformer的并行运算

    谈谈你的理解

    最开始运用在NLP中的,它就相当于一个Attention结构,它相当于将一张图片平均分割成很多窗口,每个窗口相当于NLP里面的每个词,如果在目标检测中就是每个序列,然后计算每个序列上下文关系,然后将所有的关系融入在一起,这样就能够直接获取全局信息了,而不像CNN那样需要逐步递归才能获得全局信息,也不像RNN那样速度很慢,是因为它可以并行计算。

    什么是Self-attention在这里插入图片描述

    self-attention就是自注意机制,也就是说当前时刻的输入不止关注当前时刻的信息,还会关注其它时刻的或者说关注所有的时刻信息,计算出其相关性,得到注意力权重矩阵。

    什么是Q、K、V

    在这里插入图片描述
    首先Attention的任务是获取局部关注的信息。Attention的引入让我们知道输入数据中,哪些地方更值得关注。
    Q、K、V都源于输入特征本身,是根据输入特征产生的向量。V可以看做表示单个输入特征的向量,我们直接将V输入到网络中进行训练是没有引入Attention的网络。如果要引入Attention网络就需要通过V乘以一组权重,这个权重由Q和K计算得来,就可以做到关注局部输入特征。

    • V:输入特征的向量 Q和K:计算Attention权重的特征向量。
    • Attention机制中的Q,K,V:我们对当前的Query和所有的Key计算相似度,将这个相似度值通过Softmax层进行得到一组权重,根据这组权重与对应Value的乘积求和得到Attention下的Value值。

    什么是Multi-head attention

    在这里插入图片描述
    multi-head attention是多个自注意机制模块,通过对self-attention赋予不一样的权重,来得到不一样的结果,并把所有的attention结果拼接起来,通过一个全连接层得到最终结果,从而有助于捕捉到更丰富特征。

    什么是位置编码,解决什么问题

    由于同一张映射图,目标在不同的位置,Transormer中attention机制并没有包含其位置信息,是不能够进行有效区分的,比如说最简单的我喜欢你和你喜欢我是不一样的结果,所以我们通过加入了位置编码,这样就能够区分到底是谁喜欢谁这一问题,也就是说模型可以考虑前后位置的关系。

    如何理解transformer的并行运算

    最核心的在multi-head attention ,多组KQV进行self-attention运算,它们是可以同时运算的,由于使用同步运算,所以对于硬件要求比较高。

  • 相关阅读:
    生产者-消费者问题详细分析【操作系统原理】
    Qt QtCreator 所有官方下载地址
    Golang标准库 container/list(双向链表) 的图文解说
    【量化】一个简版单档tick数据回测框架
    10.Python_结构型模式_代理模式
    新书速览|解密AI绘画与修图: Stable Diffusion+Photoshop
    abc 321 c
    git实现服务器自动push拉取代码--webhooks
    Microsoft Azure & NVIDIA IoT 开发者季 I|Azure IoT & NVIDIA Jetson 开发基础
    基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的自动驾驶目标检测系统详解(深度学习+Python代码+PySide6界面+训练数据集)
  • 原文地址:https://blog.csdn.net/m0_51004308/article/details/126499702
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号