【无标题】

1.可以看到，整个MAE逻辑上很简单，就包括三个部分，（1）encoder（2）decoder（3）forwardloss。让我们看看这三个部分都是什么东西。

2.encoder中learnable的部分，3.这个patch就是标准的vit patch，进入之前图像的尺寸是3，224，224.

4.将三维度的变成二维度的。

5，将进行patch编码后的img的hidden feature进行添加位置编码。

6.输入进random masking的x，是16，196，768尺寸的，也就是二维的。

7.下面进进入random，mask了，可以看到进入的尺寸是16，196，768。

8.噪声的尺寸是，16，196的维度的。

9.这里就比较麻烦了，这个x_masked的，这个是

这个尺寸是16，49，768维度的，也就是说，这是被mask的x，也就是这是灰色的那些值。

这个黄色部分一下子理解不来，这个mask是为啥呢？

相关阅读:
从零开始匹配vim(0)——vimscript 简介
JCP系列电磁铁电源详解
【DB】Windows 环境修改MySql 8.0.x 密码
ThePASS 研究院｜探索 Aragon：开创性的 DAO 基础设施实现全面治理
1688API 接入说明，Onebound数据
TensorFlow和Pytorch是什么？干什么用的？
C++——C++入门
rust学习——方法 Method
LeetCode题目67:二进制求和
动态代理模式下UndeclaredThrowableException的产生

原文地址：https://blog.csdn.net/weixin_45193103/article/details/133916176