码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • VIT(Vision Transformer)学习-模型理解(一)


    如果想了解细一点,可以直接照着第二个链接学习,第二个有哔哩哔哩和csdn,而且讲的更细

    如果粗略了解,可以跟着第一个学习 

    VIT (Vision Transformer) 模型论文+代码(源码)从零详细解读,看不懂来打我_哔哩哔哩_bilibili
    Vision Transformer详解-CSDN博客

    VIT模型架构图 

    1.图片切分为patch

    2. patch转化为embedding

    1)将patch展平为一维长度

    2)token embedding:将拉平之后的序列映射到规定的向量长度(transformer encoder 的embedding size)

    实现方法有两种,一种是线性(此处展示为线性),一种是卷积操作

    3.位置embedding和token embedding相加

    1)生成CLS 符号的token embedding(图中粉色表示)

    2)生成所有序列的位置编码。针对patch生成patch embedding,对应CLS是初始化了CLS的token embedding,位置编码(图中紫色表示)生成所有序列的位置编码

    3)粉色和紫色相加,token embedding和位置embedding相加

     位置信息

    4.输入到TRM模型

    原始TRM中,Norm放在了多头自注意力机制(Muti-Head Attention)后面,Norm放在了前馈神经网络(Feed Forward)后面;在VIT中,Norm放在了多头自注意力机制(Muti-Head Attention)前面,Norm放在了前馈神经网络(Feed Forward)前面

    VIT没有pad符号,不做边缘补0

    5. CLS输出做多分类任务

    复习

    图片切分为patch

    每个pacth拉平为768,映射为encode 中的embedding size,768

    生成CLS初始化token embedding

    拉平映射的token embedding和位置embedding相加得到Input embedding

    输入到encoder中,*N对应多少层

    最终每个token都会得到768输出,将每个输出进行多分类任务。

  • 相关阅读:
    NFS共享
    使用软引用实现缓存机制
    C++模板
    [附源码]Python计算机毕业设计SSM家纺商品展示平台(程序+LW)
    vue3 + element plus 使用字节跳动图标
    express提交文件 和 状态存储,模板引擎
    Java日志框架的扛把子 - SLF4J - SLF4J的原理和实践
    就推荐 4 个 yyds 的开源项目
    内部类及Lambda表达式
    哆啦a梦教你页面的转发与重定向
  • 原文地址:https://blog.csdn.net/weixin_61235989/article/details/133757000
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号