实质上是特征合并
出处:FiLM: Visual Reasoning with a General Conditioning Layer,知识点参考feature-wise linear modulation

ps:初始化
W
c
=
I
,
b
c
=
0
W_c=I, b_c=0
Wc=I,bc=0,即初始化为concate,随着训练的深入,学习二者的合并特征
注意这里输出的特征是三种特征:
(1) 视觉特征
h
V
h_V
hV
(2)传感器特征
h
S
h_S
hS
(3)合并的特征
h
V
+
S
h_{V+S}
hV+S
对三种特征进行动态选择注意力



这里使用了Gumbel Softmax
ps:使用三种特征的原因:因为在许多情况下,只使用单一模态是可取的(例如,包含不需要的噪声的传感器数据)。