ConvNets 与 Vision Transformers：数学深入探讨 - 码农知识堂 - 文章详情页

ConvNets 与 Vision Transformers：数学深入探讨

一、说明

我目睹了关于 Vision Transformer 的争论，讨论它们如何与 CNN 一样好或更好。我想知道我们是否也同样争论菠萝比西瓜好！或者马比海豚更好？其中许多讨论往往缺乏具体性，有时可能会歪曲上下文。

作为背景，在快速发展的深度学习领域，有两种架构在图像“分类”任务中脱颖而出：卷积神经网络（ConvNets）和视觉变换器（ViTs）。虽然从业者经常交替使用它们进行分类，但它们的数学基础是不同的。
相关阅读:
G1D10-APT论文（综述应用部分）
day17：SSM整合
 11 Daemonset:忠实可靠的看门狗
 记录vue配置跨域不起作用以及一些理解
 【GitHub】保姆级使用教程
 RabbitMQ-网页使用消息队列
 Kafka系列之：深入理解死信队列和重试队列
 MySQL 8.0 Public Key Retrieval is not allowed 错误的原因及解决方法
 java计算机毕业设计Vue网上书籍购买商城登录源码+数据库+系统+lw文档
 C++ 并发编程指南（8）线程间通信
原文地址：https://blog.csdn.net/gongdiwudu/article/details/134234532