(NDVI-Net:一种生成高分辨率归一化植被指数的遥感融合网络)
归一化植被指数(Normalized Difference Vegetation Index,NDVI)是一种基于多光谱(multi-spectral (MS))影像的植被生长状况遥感评价指标。现有的高分辨率归一化植被指数(high-resolution (HR) NDVI)生成方法通常基于全色锐化,即使在光谱畸变很小的情况下,也会产生很大的误差。为了克服这一挑战,本文从一个新的角度,引入HR植被指数(HRVI),实现与低分辨率NDVI的直接融合,而不是对HRMS影像进行全色锐化。特别地,我们提出了一种基于多尺度和注意力机制的两分支网络,称为NDVI-Net,以获得失真较小的HRNDVI。该网络在NDVI和HRVI两个分支中均采用多尺度通道增强块,利用多尺度卷积获取不同接收场的结构信息,并采用通道注意机制进行特征选择。同时,将空间特征从HRVI单向注入到NDVI分支中,以进一步提高NDVI分支中的特征质量。随后,仅在NDVI分支中采用空间增强块,对先前获取的特征沿空间位置进行选择性增强,加强局部细节特征的保留。最后,利用高代表性的NDVI特征重构HRNDVI,得到纹理细节清晰、亮度精确的HRNDVI。实验结果表明,我们的方法在主观视觉效果和定量指标方面均优于当前最先进的方法。
几种植被指数的参考
归一化差异植被指数(NDVI)用来评估绿色植被的水平,其根据Eq.(1)从多光谱(MS)图像4中的NIR波段和R波段计算。由于其优良的植被表征性能,NDVI 已成为遥感领域最重要的指标之一。
然而,遥感卫星很难获得高分辨率质谱图像,这是由质谱传感器的特性造成的。更具体地说,MS传感器中的光谱/滤波器机制需要大的瞬时视场(instantaneous field of view (IFOV))来满足信噪比要求,这意味着它在确保所得图像光谱丰富度的同时降低了空间分辨率。这一限制还间接导致只有低分辨率(LR)NDVI可用,这在很大程度上限制了后续应用的准确性,例如植被检测。因此,需要开发一种生成 HRNDVI的技术。
现有的HRNDVI获取方法都是基于全色锐化的。具体而言,这些方法首先融合 HR全色(HR panchromatic (PAN))图像和LRMS图像以生成HRMS图像,然后根据 HRMS的R和NIR波段计算HRNDVI。然而,全色锐化很难生成精确的HRMS。大多数全色锐化方法通常遵循以下假设:PAN图像的强度/梯度是MS图像中多个通道的强度/梯度的线性组合。然而,线性组合系数的精确求解问题尚未得到解决,导致全色锐化得到的HRMS图像存在或多或少的失真。
此外,NIR和R的值非常小(即,接近0)。在这种情况下,由全色锐化产生的HRMS中的失真将通过Eq.(1)计算NDVI进一步放大。也就是说,一个很小的光谱畸变就会造成巨大的NDVI误差,对后续的应用是有害的。由于全色锐化,NDVI将遭受一些空间信息损失。为了更直观地说明这个问题,图1中使用了最新的全色锐化方法LGC作为示例。可以清楚地看到,LGC生成的全色锐化结果与地面实况相比存在轻微的光谱失真,而计算的NDVI则存在较大误差。这种误差不仅体现在强度(植被覆盖度)上,还体现在纹理细节(植被之间的边界)上,对农业遥感的应用十分不利。
针对上述局限性,本文提出直接在NDVI影像上进行融合以生成HRNDVI,而不是对HRMS影像进行全色锐化,以避免Eq.(1)的误差放大效应。不过,直接聚变也面临着巨大挑战。首先,LRNDVI融合的源数据难以定义。特别地,源数据应包含丰富的空间纹理信息以补偿LRNDVI。同时,空间纹理信息应尽可能与NDVI相似,即新源数据应具有与NDVI相似的物理意义。第二,NDVI中存在大量复杂的纹理细节。其中有些是植被之间的人工边界,如道路和建筑物,另一些是植被覆盖较深的地区与植被覆盖较浅的地区之间的过渡边界。保留这些复杂而微小的纹理细节是非常具有挑战性的。
为了克服上述问题,本文设计了一种基于多尺度和注意力机制的两分支网络进行NDVI融合,生成失真较小的HRNDVI,称为NDVI-Net。在我们的方法中,从两个方面解决了上述考虑。
一方面,我们引入了HR植被指数(HRVI),并将其修改为与LRNDVI融合的源数据。具体而言,HRVI定义为:
其中PAN是HRPAN,R是指LRMS的红色波段,↑表示双三次的上采样函数。显然,HRVI的定义与NDVI的定义类似。不同之处在于,HRVI定义中引入了HRPAN图像,从而包含了丰富的空间纹理信息。图2提供了一个直观示例。结果表明,HRVI与NDVI具有相似但清晰的纹理特征,可为HRNDVI的重建提供空间信息。请注意,HRVI的原始定义中,R被替换为LRMS图像的红、绿色和蓝波段的平均值。Eq.(2)中新定义的HRVI可以在保证PAN影像纹理结构尽可能接近NDVI,同时引入PAN影像的空间信息,降低了精确纹理重建的难度。我们将在实验部分展示我们的新定义的优点。
另一方面,我们设计了一个特定的网络来保存微小而复杂的纹理。它是一个两分支网络,即NDVI分支和HRVI分支,用于从LRNDVI和HRVI中提取特征并重建HRNDVI。在第一阶段,多尺度通道增强块用于这两个分支中。在该块中,我们使用不同尺度的卷积来进行特征提取,因为多个感受野可以允许在所提取的特征中包含更多的结构信息。然后,信道注意机制根据融合目标在每个多尺度卷积之后选择性地增强更重要的特征。在该过程中,在HRVI分支中的每一层过滤的空间特征被单向注入到NDVI分支中,以改善特征的空间结构质量。在第二阶段,利用空间增强块对前一级NDVI分支网络生成的特征沿着像素位置进行选择性加权,进一步增强小细节特征信息的保留。最后,利用表达能力强的特征重构出高质量的HRNDVI,其纹理细节清晰、准确。
为了直观地展示我们的方法相对于基于全色锐化的方法的优势,我们提供了我们的融合结果的典型示例,并与两种最先进的方法进行了比较,即:基于广义拉普拉斯金字塔的方法MTF-GLP和基于深度学习的方法PNN 。MTF-GLP采用多光谱扫描器的调制传递函数设计广义拉普拉斯金字塔降阶滤波器,实现全色锐化的空间注入。PNN在参考图像的监督下训练神经网络实现全色锐化。结果如图3的顶行所示。显然,我们的NDVI结果与参考图像更相似。在强度分布方面,NDVI-Net能够提供相对准确的结果,较好地保持了植被的生长状况。此外,该方法更清晰地保持了NDVI的纹理细节。从突出显示的区域可以看出,植被之间的分界线在我们的结果和参考中几乎相同,而MTF-GLP和PNN都模糊了它们。
此外,该方法生成的HRNDVI可进一步应用于HRMS影像的植被检测和增强。不同方法的结果在图3的底行中提供。由于该方法获得的HRNDVI精度较高,因此增强植被的效果最好,尤其是植被间纹理的保持效果最好。结果表明,在对全色锐化后的HRMS影像进行植被检测和增强时,可以用NDVI网络生成的NDVI代替全色锐化生成的NDVI,从而大大提高了植被检测和增强的精度。
1)定义了一种新的HRVI,实现了与NDVI的直接融合,为HRNDVI重建提供了空间纹理信息,从而使得生成纹理细节清晰的HRNDVI成为可能。
2)提出了一种基于多尺度和注意力机制的两分支网络来实现NDVI融合,与传统的基于全色锐化的方法相比,该方法能够生成纹理细节更清晰、亮度更精确的HRNDVI。
3)设计了多尺度通道增强块和空间增强块,增强了对微小纹理细节的保留。此外,两个分支之间的空间信息的单向注入也是特征质量改进的有价值的手段。
4)将本文的方法应用于基于NDVI的植被检测与增强中,取得了与参考文献最一致的检测与增强结果。
全色锐化是获取HRMS图像并计算HRNDVI的最常用策略。该算法的目标是保留HRPAN图像的几何纹理细节和LRMS图像的光谱信息。然而,PAN是单通道图像,MS是多通道图像,这使得难以定义它们的纹理或强度之间的对应关系。大多数全色锐化方法都遵循以下假设:PAN图像(或其梯度)可以被建模为HRMS图像的所有频带(或其梯度)之间的线性组合,其可以被形式化为:
其中PAN和MS分别代表HRPAN图像和HRMS图像,B是光谱带指数,n是HRMS中的光谱带总数。另外,ω(·)和α(·)表示线性组合的系数,ε(·)是偏差项。对于Eq.(3)在此基础上,提出了一些初步的解决办法。特别地,在广义HIS方法中使用简单的解决方案,其中采用不同频带的相同权重。随后,Aiazzi等人采用优化的方法确定了这些线性组合系数。然而,这些方法倾向于引起严重的频谱失真。因为安装在卫星上的不同传感器对物体的响应特性有很大不同。具体地,一些MS图像的成像带的联合不如PAN图像那样广泛。多光谱图像的这种强度线性组合往往无法合成出良好的伪全色图像,从而降低了HRMS的强度保真度。
在认识到这个问题之后,最近大多数方法倾向于遵循Eq.(4)该方法保证了PAN图像和HRMS图像的高通滤波分量的一致性,而不是强度的一致性。Chen等人提出SIRF引入动态梯度稀疏,将PAN图像复制到与MS图像相同的通道号,并要求它们具有梯度一致性。类似地,PMGI要求MS图像的每个通道与PAN图像具有梯度一致性。值得注意的是,这一定义仍存在问题。由于PAN图像是较宽波段的成像,其纹理结构比MS图像的任何通道都要丰富。因此,将PAN图像复制到多个通道中,然后约束梯度一致性是不合理的。LGC最近的一项工作创新性地指出,上述所有方法中的线性加权都是基于全局视角,不能很好地模拟MS和PAN之间的局部关系。在此基础上,提出了一种基于局部梯度约束的变分全色锐化算法,该算法能够提供相对精确的空间保持。
从概念上讲,注意机制是一种仿生技术,它是受动物观察特性的启发而产生的。具体地说,神经网络在提取被观察目标的特征时,应根据特征图对当前任务的贡献程度赋予不同的权值。经典的是 Itti等人提出的视觉注意系统,它可以快速地实现场景理解。随后,注意机制被引入到各种视觉任务中。注意机制的实现具有多个维度,可以是通道、空间和时间。
沿信道维度的注意机制也称为信道注意,即对不同卷积核提取的不同类型特征进行选择性加权,从而实现特征增强或抑制。这些特征可以是高频特征、低频特征等,高频特征往往反映图像的纹理结构,在某些领域更为重要。相反,低频特征反映了图像的整体信息,如图像的强度分布特征,这在某些领域是需要的。
与此不同的是,空间注意关注的是空间位置的特征。所谓的空间位置是来自图像的长度和宽度,其反映了投影到2D成像平面上的3D对象的空间关系。在某些情况下,图像的某些区域对于特定任务更为重要。例如,在检测任务中,目标比背景更重要。另一个例子是,在红外图像中,具有强热辐射的区域比具有弱热辐射的区域更重要。
时间注意不同于上述两种注意机制,是针对时间序列数据提出的。在某些情况下,一个时刻的数据特征比另一时刻的数据特征更重要。例如,单词在自然语言处理中的重要性不同。此外,视频帧对动作理解的贡献也是不同的,其中具有动作状态变化的帧比那些静止的帧更重要。
下面给出一些典型注意机制的发展和应用。Bah danau等人将注意机制应用于自然语言处理领域,充分利用了语境信息,提高了机器翻译的性能。Luong等人进一步考虑了注意力的尺度,提出了两种注意力模型,即全局注意力和局部注意力,并将其应用于机器翻译中。近年来,一些即插即用的注意块相继被提出,可以应用于各种任务。Hu等人设计了一个称为SI块的信道注意模块,其沿着信道维度执行特征选择。Woo等人提出了CBAM块,其将SI块从仅信道维度扩展到信道加空间维度。SE和CBAM区块的有效性已得到广泛证实。在SCSCN 中,采用了分离的通道-空间注意力,以聚焦于目标的边缘和高频特征,从而获得高质量的3D重建结果。Hua等人设计了一个类注意学习层,其目的是捕获具有区分性的类特异性特征,以提高多标签航空影像分类的准确率。在我们的NDVI-Net中,注意力机制被用来筛选重要的特征并增强NDVI的微小纹理细节。
我们的工作目的是生成空间纹理清晰、强度分布准确的HRNDVI。在参考图像的约束下,从LRNDVI中推断出强度分布特征并不困难,但要将空间纹理由弱变强并不容易。对于该观察结果,我们引入由Eq.(2)定义的HRVI为HRNDVI重建提供足够的空间纹理信息。在此基础上,设计了一种新的双分支融合网络,能够重建清晰的空间纹理和精确的强度分布。如图4所示,NDVI-Net的两个分支是NDVI和HRVI分支。NDVI分支是从LRNDVI中恢复HRNDVI的主要分支,其中的强度分布特征可以从LRNDVI中获得。HRVI分支的作用是从HRVI中提取和选择空间纹理特征,然后注入到NDVI分支中,使NDVI分支生成强度分布合理、空间纹理清晰的HRNDVI。
具体来说,
首先对LRNDVI进行上采样,使其大小与HRVI相同,然后通过转置卷积实现。
其次,在NDVI和HRVI两个分量中分别使用多尺度通道增强块进行重要特征的提取和选择。如LRNDVI的强度分布特征和HRVI的空间纹理特征对HRNDVI的重建具有重要意义,需要提取和选择。每个多尺度通道增强块由多尺度卷积和通道注意组成。多尺度卷积是从不同尺度的感受野中提取特征,有利于局部结构的保持。通道注意力是过滤由不同卷积核提取的特征。在每一个多尺度通道增强块之后,以单向方式将HRVI分支的特征注入到NDVI分支中,以提高NDVI分支中特征的空间信息质量。
然后,采用空间强度块对NDVI分支中的特征沿空间位置进行选择性加权,进一步加强了对微小纹理的保护。值得注意的是,我们在网络中的每一级执行特征重用,以减少由于卷积而导致的信息损失。在设计的损失函数的指导下,我们的NDVI网络可以重建初步的HRNDVI。
最后,我们进行后处理,以减少神经网络输出的漂移。具体而言,首先采用传统的方法将HRNDVI分解为基本层和细节层,然后参考上采样的LRNDVI对基本层进行直方图规格化。通过将细节层与处理后的基本层相加,得到了高质量的HRNDVI,不仅具有与地面真实值相似的强度分布,而且包含了精细的纹理细节。
基于强度分布和纹理细节设计损失函数,其由强度损失项Lint和梯度损失项Lgrad组成:
强度损失项用于约束重建HRNDVI的强度分布以近似参考图像的强度分布。为了减少回归引起的细节平滑效应,我们使用l1损失代替l2。强度损失项Lint形式化为:
仅使用强度损失项仍然不可避免地导致一些局部细节模糊。为了保持图像的细节,引入梯度损失项,利用Sobel算子求梯度。值得注意的是,我们约束了融合NDVI和参考NDVI在X和Y方向上的梯度一致性,而不是合并这两个维度的梯度。换句话说,我们要求它们的梯度在数值上相等,并且还希望它们在相同的方向上。我们再次选择梯度损耗项Lgrad中的l1损耗,其定义:
为:
我们提出的NDVI-Net是一个双分支卷积神经网络,如图5所示。
首先,在NDVI分支中使用具有5 × 5卷积核的两个转置卷积层,以将LRNDVI上采样到与HRVI相同的大小。
其次,NDVI和HRV分支都使用四个多尺度通道增强块来提取和选择所需的特征。图5的右下角示出了多尺度通道增强块的详细结构。具体地说,首先使用3 × 3、5 × 5和7 × 7卷积核的三个卷积层,然后将它们的输出级联。基于级联的0结果,可以生成信道注意图,然后将级联的特征与注意图相乘以获得增强的特征。在每个多尺度通道增强块之后,我们将HRVI分支中的特征单向地注入到NDVI分支中,以提高NDVI分支中的特征的空间质量。
然后,在NDVI分支中采用了四个空间强度块,以加强对微小细节的保留。空间增强块由5 × 5卷积核的卷积层和空间注意组成,也如图5右下角所示。具体地,基于由该卷积层提取的特征,生成空间关注图,然后通过将该特征与空间关注图相乘来获得空间增强的特征。
最后,采用两个卷积层,卷积核为5 × 5,重建HRNDVI。除最后一层外,所有卷积层均采用Leaky ReLU作为激活函数,而最后一层卷积层采用Tanh作为激活函数.
PS: 这算是我第一篇正式的入门遥感图像,最近这一段时间看了好多有关于融合的文章,结果老师说还没确定最终方向,不一定做这个,突然感觉没什么动力了,摆烂了两天。想来想去我还是想选择遥感方向(管它是什么方向),虽然被劝放弃,说数据集不好找,但是我还是想试试,这段时间先打好框架,最起码能看懂遥感的一些描述
。