码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • TransformerPPT使用链接


    讲解transformer源码的(基于pytorch)
    Transformer源代码解释之PyTorch篇,decoder部分分析看懂了
    https://zhuanlan.zhihu.com/p/375221936
    理论+代码:
    https://spaces.ac.cn/archives/4765/comment-page-1
    关于bert三个embedding层(Token Embeddings、Segment Embeddings、Position Embeddings)
    https://www.cnblogs.com/d0main/p/10447853.html
    transformer参数量分析
    https://zhuanlan.zhihu.com/p/107891957

    transformer源代码分析 看懂了
    https://zhuanlan.zhihu.com/p/375221936

    图片分析transformer
    https
    在这里插入图片描述

    transformer降解及疑惑
    疑惑一:Transformer的Decoder的输入输出都是什么?
    疑惑二:Shifted Right到底是什么?
    上面两个疑惑的总结
    疑惑三:Transformer里decoder为什么还需要seq mask?
    https://blog.csdn.net/qq_44766883/article/details/112008655

    外文网站
    https://jalammar.github.io/illustrated-transformer/

    transformer分析
    https://zhuanlan.zhihu.com/p/311156298
    在这里插入图片描述
    代码分享
    https://zhuanlan.zhihu.com/p/411311520

    讲解
    http
    在这里插入图片描述

    手工框架图
    https://blog.csdn.net/weixin_40118989/article/details/121520223
    在这里插入图片描述
    如何理解Transformer论文中的positional encoding,和三角函数有什么关系?
    https://www.zhihu.com/question/347678607

    Attention中的Q、K、V是什么?
    https://blog.csdn.net/weixin_44371912/article/details/116278561
    李宏毅老师视频
    系统讲解模型
    https://zhuanlan.zhihu.com/p/44731789
    self-attention中的QKV机制
    http
    知乎问题
    内积运算
    添加链接描述
    知乎提问

    Multi-Head Attention
    https://zhuanlan.zhihu.com/p/266448080

    在这里插入图片描述
    六种位置编码的代码实现及性能实验
    https://zhuanlan.zhihu.com/p/415020704
    深入理解transformer源码
    https://blog.csdn.net/zhaojc1995/article/details/109276945
    一文看懂 Attention(本质原理 +3 大优点 +5 大类型)
    http
    在这里插入图片描述

    Informer输入embedding
    https://www.cnblogs.com/biganabc/p/15136073.html
    BERT Bidirectional Encoder Representation from Transformers
    Multi-head Attention
    详解没看完
    知乎提问
    大佬讲解。系列文章
    在这里插入图片描述
    feed forward layer理解
    https://www.cnblogs.com/peixu/p/16842247.html
    框架详解
    decoder
    https://blog.csdn.net/xiufan1/article/details/122571920
    图解Transformer 参考外文网站
    https://zhuanlan.zhihu.com/p/427311331

    Masked Self-Attention的原理
    https://zhuanlan.zhihu.com/p/419748171
    在测试或者预测时,Transformer里decoder为什么还需要seq mask?
    https://www.zhihu.com/question/369075515/answer/1619930190
    深入理解transformer源码
    https://blog.csdn.net/zhaojc1995/article/details/109276945
    https://blog.csdn.net/qq_15821487/article/details/119757894
    inear和softmax层
    https://blog.csdn.net/weixin_40005743/article/details/85460869
    https://www.jianshu.com/p/6268df2fd00d
    讲解

    李沐老师讲解
    维度变换
    https://blog.csdn.net/hyzhyzhyz12345/article/details/104119375
    https://www.cnblogs.com/yh-blog/p/15115253.html

  • 相关阅读:
    ESP32 MicroPython wifi的使用⑨
    C++编程功底和常用规则
    【Numpy-矩阵库~python】
    基于Docker容器DevOps应用方案
    浅析LSM树
    导出数据库表信息生成Word文档
    Mac代码文本编辑器Sublime Text 4
    Java版工程行业管理系统源码-专业的工程管理软件- 工程项目各模块及其功能点清单
    【Vue】快速入门案例与工作流程的讲解
    机器学习---使用 TensorFlow 构建神经网络模型预测波士顿房价和鸢尾花数据集分类
  • 原文地址:https://blog.csdn.net/qq_43426335/article/details/127827632
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号