注意力机制:忽略无关信息而关注重点信息
软注意力(soft attention): 更关注区域或通道,学习完后直接可以通过网络生成。重要的是可微分的!
强注意力(hard attention): 更关注点,图像中的每个点都可能延伸出注意力,是一个随机的预测过程,强调动态变化,最关键的是不可微分的,训练过程中往往需要通过增强学习来完成。
由于卷积核作用的感受野是局部的,要经过累积很多层之后才能把整个图像不同部分的区域关联起来。所以Hu等人提出SENet,从特征通道层面上统计图像的全局信息。
self- attention上从NLP中借鉴的思想,保留了Query、key和value等名称。下图是基本结构。

self-attention结构自上而下分为三个分支:query、key和value,计算分成三步:
CNN在统计全局信息时存在的问题:
Non-local 是借鉴了滤波中非局部均值滤波的思想,设计一个非局部操作算子。其通用公式如下:
y
i
=
1
C
(
x
)
∑
j
f
(
x
i
,
x
j
)
g
(
x
j
)
y_i=\frac{1}{C(x)}\sum_j f(x_i,x_j)g(x_j)
yi=C(x)1j∑f(xi,xj)g(xj)
其中,x是输入信号,CV中使用的一般是feature map,i 代表的是输出位置,如空间、时间或者时空的索引,他的响应应该对j进行枚举然后计算得到的,f 函数式计算i和j的相似度,g 函数计算feature map在j位置的表示,最终的y是通过响应因子C(x) 进行标准化处理以后得到的。
上述的思想,可以表示出:i代表当前位置的响应,j代表全局响应,通过加权得到一个非局部的响应值
Non-local block如下图。
