Transformer——自回归Decoder到底在干什么？ - 码农知识堂 - 文章详情页

Transformer——自回归Decoder到底在干什么？
Decoder整体结构详解图

出自知乎文章：Transformer之Decoder的QKV来源

图画的很清晰，Decoder分为两个部分，Self Attention和Encoder Attention：
- Self Attention：输入的QKV都是经过embedding后的想要输出的 query；
- Encoder Attention：输入的Q是目标语言的经过Self Attention后的向量embedding；输入的K和V分别是Encoder输出的需要被参考语言的向量embedding。
相关阅读:
STM32-LCD液晶显示
 美国国防部网络战略如何改变国家网络防御
 java毕业设计校园快递柜存取件系统mybatis+源码+调试部署+系统+数据库+lw
分布式 | 如何与 DBLE 进行“秘密通话”
【Rust日报】2022-07-25 如何修复和预防 buffered streams 死锁
 带有数据存储内存块的数据存储
 aarch64 libvirt 编译笔记
 逆向-beginners之指针变量
 百亿规模京东实时浏览记录系统的设计与实现
 （附源码）计算机毕业设计SSM教学团队管理系统
原文地址：https://blog.csdn.net/qq_45779334/article/details/128188420