使用Pytorch从零实现Vision Transformer

在这篇文章中，我们将基于Pytorch框架从头实现Vision Transformer模型，并附录完整代码。

Vision Transformer（ViT）是一种基于Transformer架构的深度学习模型，用于处理计算机视觉任务。它将图像分割成小的图像块（patches），然后使用Transformer编码器来处理这些图像块。ViT的核心思想是将图像转换为序列数据，然后通过自注意力机制建立图像中不同位置之间的关系。

模型详解

在这里插入图片描述

如上图所示为Vision Transformer(ViT)的模型框架，由三个模块组成：

Linear Projection of Flattened Patches(Embedding层，将子图映射为向量)
Transformer Encoder(编码层，对输入的信息进行计算学习)
MLP Head(用于分类的层结构)

Embedding层

标准的Transformer模型的输入是token（向量）序列，即二维矩阵[num_token, token_dim]，其中每行是一个token向量，如下图所示，token0-9对应的都是向量，以ViT-B/16(其中B表示模型的大小，16表示图像被分割成的小块的大小)为例每个token向量长度为768。

相关阅读:
C++ 12：函数模板，模板函数，类模板
Kafka保证消息幂等以及解决方案
多线程的学习中篇下
NIO与Netty学习指南
Yolov4网络详解
极简实现任意版本 SwiftUI 中隐藏和显示系统底部横条（Home Indicator）
QGIS开发笔记（二）：Windows安装版二次开发环境搭建（上）：安装OSGeo4W运行依赖其Qt的基础环境Demo
AttributeError: module ‘xxx‘ has no attribute
应用现代化产业联盟，正式成立
nginx配置之温故而知新

原文地址：https://blog.csdn.net/xu1129005165/article/details/133359089