基于多尺度自适应语义分割的遥感影像灾害检测方法

未命名 09-22 阅读:145 评论:0


1.本发明涉及图像处理技术领域,更具体的说是涉及一种基于多尺度自适应语义分割的遥感影像灾害检测方法,尤其涉及一种基于卷积神经网络(co nvolutional neural networks,下文简称cnn)和transformer的对抗网络自适应学习u-net模型,用于滑坡、泥石流和地震等自然灾害区域在遥感影像中的分割。


背景技术:

2.对山体滑坡部分在高分辨率遥感影像中分割提取,以获得滑坡发生地的位置信息以及事故特征参数,是遥感领域灾害检测和评估的关键环节。由于遥感影像数据可以提供大范围的地表信息,及时获取灾害情况,可帮助快速响应和决策;同时,还可以通过图像处理技术进行可视化和分析,从遥感影像中提取有关灾害的关键特征和指标等许多独特的优势,再加之以神经网络深度学习技术的发展,基于深度学习网络对遥感影像进行滑坡分割得到快速发展。其核心是构建注意力引导多尺度融合模块,实现在编码器多尺度特征提取时相邻尺度的信息融合,以保证整体特征的一致性。
3.目前,基于深度学习的滑坡遥感影像分割方法主要可以分为三类:第一类方法是基于卷积神经网络的编码器和解码器结构的方法,采用基于cnn模型进行遥感影像分割(fang,cy;2022),例如u-net、segnet和fcn等。编码器用于提取影像的高层语义特征,解码器则用于将特征图恢复到与输入影像相同的尺寸,这种结构可以有效地捕捉影像中的细节和上下文信息,实现准确的滑坡地点分割,缺点是采用这种方法的模型通常需要较长的训练时间,需要大量的数据和计算资源;并且对于山地这种具有复杂地物特征的图像,可能无法有效地进行分割。
4.此外,还有在卷积神经网络的基础之上引入注意力机制的方法,这类方法利用注意力机制来自动选择和聚焦对滑坡地点分割最有用的信息。但是,注意力机制对于输入图像的大小和尺度敏感,需要对不同尺度的图像进行适当的处理和调整,以保证分割的准确性。
5.第二类方法是基于transformer的图像分割方法,使用transformer的模型主要思想是利用其自注意力机制来建模像素之间的依赖关系。transformer可以捕捉像素之间的长程依赖,并在生成分割结果时考虑全局上下文信息。然而,目前仍然存在一些挑战,如处理图像的空间信息和大规模图像的计算效率等问题。因此,对于特定的应用场景,可能需要结合其他技术或进行适当的改进来提高分割结果的质量和效率。
6.第三类方法是基于生成对抗网络(gan)的方法,这类方法利用生成对抗网络的结构,将分割任务转化为生成真实滑坡地点的任务。通过生成器网络生成分割结果,判别器网络评估生成结果的真实性。再通过对抗学习的方式,使得模型逐渐习得分割目标的相关特征,可以生成具有高质量的滑坡地点分割结果。可以处理复杂的场景和多类别的图像分割任务,但缺点是分割结果可能受到噪声和伪影的影响,尤其在边界区域可能存在模糊或不准确的情况,需要大量的标注数据和高质量的真实样本,以获得更好的生成效果。
7.综合上述分析可知,当前基于基于深度学习的滑坡遥感影像分割方法在数据需求、复杂地形和背景以及细节保留方面仍存在较大的不足,尚不能有效满足遥感影像灾害实时监测的实际应用需求。


技术实现要素:

8.有鉴于此,本发明提供了一种基于多尺度自适应语义分割的遥感影像灾害检测方法,可获得更丰富的高层语义信息,提高山体滑坡的分割精度。
9.为了实现上述目的,本发明采用如下技术方案:
10.一种基于多尺度自适应语义分割的遥感影像灾害检测方法,包括以下步骤:
11.对输入图像进行预处理后输入至生成器中;
12.在所述生成器中,以密集卷积和残差连接相结合的方式提取输入图像的多尺度特征;
13.基于注意力引导多尺度融合块对所述多尺度特征进行相邻尺度的渐进融合,得到融合特征;
14.利用多个连续的transformer模块提取所述多尺度特征的高层语义特征;
15.将所述高层语义特征进行上采样,并与所述融合特征逐层融合,得到预测输出;
16.通过判别器将预测输出和真值标签进行拼接,输出判别矩阵,对判别矩阵的所有元素求均值,作为判别输出;以预测输出与真值标签之间的距离最小化为优化目标,对所述生成器和所述判别器进行对抗训练,得到最优的生成器;
17.基于最优的生成器对待检测图片进行滑坡位置分割。
18.进一步的,所述对输入图像进行预处理,包括:
19.将输入图像进行像素级等比例缩放,在缩放后的图像上选取两张图片输入所述生成器中。
20.进一步的,所述生成器包括两个分支,分别为残差网络分支和密集流分支;
21.所述残差网络分支对输入图像进行下采样,提取输入图像不同尺度下的中间特征映射ri;
22.所述密集流分支先对输入图像进行初步特征提取和转换,得到输入图像的低级特征,再对低级特征进行编码,得到特征di;
23.将相同维度下残差网络分支输出的特征ri与密集流分支输出的特征di进行矩阵元素相加,得到输入图像的多尺度特征fi。
24.进一步的,所述注意力引导多尺度融合块对所述多尺度特征进行相邻尺度的渐进融合,包括:
25.对于低层特征,使用步长为2的深度可分离卷积下采样到相同分辨率,得到具有空间信息的低层特征;
26.对于高层特征,使用1
×
1卷积进行降维处理,并通过上采样处理为相同分辨率,得到具有语义信息的高层特征;
27.通过级联操作和卷积运算将具有空间信息的低层特征和具有语义信息的高层特征进行融合,得到融合特征fi。
28.进一步的,所述注意力引导多尺度融合块对所述多尺度特征进行相邻尺度的渐进
融合,还包括:
29.并行采用基于卷积块的注意力机制、逐像素点注意力机制和全局注意力机制对所述融合特征进行特征选择,并进行信息聚合,得到融合特征的加强特征表示。
30.进一步的,所述基于卷积块的注意力机制由通道注意力机制和空间注意力机制级联组成,表达式分别如下:
31.ms(f)=σ(f7×7([avgpool(f);maxpool(f)]))
[0032]
mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))
[0033]
所述基于卷积块的注意力机制的输出表示为:
[0034][0035][0036]
其中,ms(f)表示空间注意力映射;σ表示sigmoid函数;f7×7表示滤波器大小为7
×
7的卷积运算;avgpool(f)表示平均池处理;maxpool(f)表示最大池化处理;mc(f)表示通道注意力映射;mlp表示多层感知器;f
′i表示通道特征提取;fi表示中间特征图;mc(fi)表示不同层次特征得到的通道注意力映射;表示不同层次特征得到的空间注意力映射;ci表示基于卷积块的注意力机制的输出;表示矩阵元素乘法;
[0037]
所述逐像素点注意力机制的输出表示为:
[0038]
pi=w2(w1(fi)
⊕fi
[0039]
其中,pi(i=1,2,3)表示与输入fi形状相同的逐点注意特征;wj(j=1,2)表示第j个包含1
×
1卷积、批归一化和relu激活的卷积层,

表示为矩阵元素相加;
[0040]
所述全局注意力机制的输出表示为:
[0041]gi
=fi+h(fi)+α
·
σ(h(fi))
·fi
[0042]
其中,gi(i=1,2,3)表示全局注意力输出矩阵;h(
·
)表示瓶颈结构,σ表示sigmoid激活函数;α表示可学习的权重因子;
[0043]
将上述三种注意力机制的输出通过sigmoid激活函数和乘法操作得到最终的加强特征表示ai:
[0044][0045]
进一步的,利用多个连续的transformer模块提取所述多尺度特征的高层语义特征,具体步骤包括:通过自注意力机制和前馈神经网络层的迭代,transformer模块逐渐提取和整合输入特征的语义信息,每个transformer模块的输出成为下一个transformer模块的输入;其中,底层的transformer模块更关注局部细节,顶层的transformer模块更关注全局语义。
[0046]
进一步的,所述预测输出的表达式为:
[0047]di
=w2(w1(concat(up(d
i-1
),ai))),(i=1,2,3)
[0048]
其中,di表示第i个解码阶段的输出特征;d0=t4,t4表示高层语义特征;concat表示通道级联;up表示2
×
上采样;wj(j=1,2)表示第j个包含3
×
3卷积、批归一化和relu激活的卷积层。
[0049]
进一步的,所述判别器的输出结果的表达式为:
[0050][0051]
其中,d(x)表示判别器的输出,di(x)为每个图像块的预测概率,n为图像块个数。
[0052]
经由上述的技术方案可知,与现有技术相比,本发明以密集卷积和残差连接相结合的方式提取多尺度特征,并通过注意力引导多尺度融合块实现相邻尺度特征的信息融合,然后对融合特征进行自适应动态选择以保持特征的整体一致性,能够充分适应山地地形变化与地表植物特征;随后通过transformer将高层编码特征作为输入提取全局上下文信息。在解码路径中,将transformer输出的全局高层语义特征进行上采样并逐层与自适应特征增强的融合特征进行整合,实现滑坡位置在遥感影像中的准确分割。本发明具有以下
[0053]
有益效果:
[0054]
(1)本发明采用了双分支编码器结构可以获得更丰富的高层语义信息,并将其与擅长远距离建模的transformer相结合,进一步加强了图像的特征表示。
[0055]
(2)本发明基于注意力机制提出的多尺度multi-scale注意力attention融合引导co-guided模块block(下文称为magb)实现了对不同特征信息的逐层融合,并自适应动态选择其中有用信息,尽可能降低了噪声的干扰,也提高了特征的一致性。
[0056]
(3)本发明采用对抗性学习的方式,将分割网络作为生成器与判别器融入到生成对抗网络中,进一步提高了分割精度。此外,在模型评估过程中也没有引入额外的计算成本。
附图说明
[0057]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0058]
图1为本发明提供的基于多尺度自适应语义分割的遥感影像灾害检测方法的流程图;
[0059]
图2为本发明提供的密集流分支的结构示意图;
[0060]
图3为本发明提供的注意力引导多尺度融合块的结构示意图;
[0061]
图4为本发明提供的生成器分割结果示意图。
具体实施方式
[0062]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0063]
如图1所示,本发明实施例公开了一种基于多尺度自适应语义分割的遥感影像灾害检测方法,包括以下步骤:
[0064]
s1、对输入图像进行预处理后输入至生成器中;
[0065]
s2、在生成器中,以密集卷积和残差连接相结合的方式提取输入图像的多尺度特征;
[0066]
s3、基于注意力引导多尺度融合块对多尺度特征进行相邻尺度的渐进融合,得到融合特征;
[0067]
s4、利用多个连续的transformer模块提取多尺度特征的高层语义特征;
[0068]
s5、将高层语义特征进行上采样,并与融合特征逐层融合,得到预测输出;
[0069]
s6、通过判别器将预测输出和真值标签进行拼接,输出判别矩阵,对判别矩阵的所有元素求均值,作为判别输出;以预测输出与真值标签之间的距离最小化为优化目标,对生成器和判别器进行对抗训练,得到最优的生成器;
[0070]
s7、基于最优的生成器对待检测图片进行滑坡位置分割。
[0071]
下面,以一个具体实施方式对上述各步骤做进一步的说明。
[0072]
s1、对输入图像进行预处理操作,考虑到输入数据规格大小不同会影响到生成器模型的训练效果,统一将输入图像进行像素级等比例缩放,比如缩放至286*286像素,然后在缩放后的图像上随机选取两张256*256的图片输入生成器中,每张图片大小为缩放后图像的百分之九十以上,尽可能使输入的生成器的图像内容完全覆盖原始输入图像。
[0073]
s2、在生成器中,采用基于cnn的双分支编码结构(即残差网络分支和密集流分支)对预处理后的输入图像进行下采样处理。
[0074]
残差网络分支对输入图像进行下采样,提取输入图像不同尺度下的中间特征映射;本实施例采用resnet残差网络的预训练模型,通过三次步长为1的卷积进行下采样提取输入图像的多尺度特征,得到四个中间特征映射r
1-r4;
[0075]
本实施例引入密集流分支进一步丰富高级语义信息,如图2所示。首先将随机裁剪后的输入图像输入与预训练模型分支相同的stem模块("stem"模块是神经网络模型中的初始模块或初始层,位于模型的前端,用于对输入数据进行一系列预处理和特征提取操作,以准备输入数据进入后续的网络层进行更复杂的处理。总体步骤可以概括为卷积-池化-卷积-卷积-池化),对原始输入图像进行初步的特征提取和转换,以捕捉输入数据的一些低级特征,从而得到中间特征dm,然后对其进行编码,得到特征d
1-d4。其中,每个编码层都包含了三个密集卷积块,不同编码层之间和卷积块之间都建立了有利于特征重用的跳跃连接,以加强特征的传播,更有效地利用特征,图2细节部分展示了密集卷积块的具体结构,它由四个扩张率均相同的深度可分离卷积层和残差连接组成,旨在以较少的参数量扩大感受野,捕获多尺度信息。
[0076]
然后,将相同维度下残差网络分支输出的特征ri与密集流分支输出的特征di进行矩阵元素相加,得到不同维度下采样得到的中间特征矩阵,即多尺度特征f
1-f4。
[0077]
密集流分支重点关注上下文信息和细节特征,残差网络分支提供高层次的语义特征,通过将这两个分支关联,可以提高模型在图像处理任务中的性能和准确性。本实施例中将密集流分支和残差网络分支的特征通过矩阵元素相加的操作进行融合,得到最终的特征表示,通过融合不同分支的特征来提升模型的表达能力和性能。
[0078]
s3、基于注意力引导多尺度融合块对多尺度特征进行相邻尺度的渐进融合,融合三个相邻尺度的特征,得到融合特征。本实施例在注意力引导多尺度融合块中融合三个尺度的特征,可以根据任务和模型的需求选择融合的尺度数量。
[0079]
融合多个尺度的特征有助于模型捕捉不同层次和不同尺度的信息,提高模型的感知能力和表达能力。本发明实施例采用三个尺度的特征融合是为了兼顾低层次的细节信息、中层次的语义信息和高层次的全局信息。这样的融合策略可以在细节、上下文和全局视野之间进行平衡,适应不同任务的需求。如图3所示,为注意力引导多尺度融合块的具体结构,其操作过程包括:
[0080]
对于低层特征,使用步长为2的深度可分离卷积下采样到相同分辨率,得到具有丰富空间信息的低层特征,避免了传统的池化操作造成的信息丢失;
[0081]
低层特征对应着输入图像的较低层次信息,它们具有较小的感受野,只能捕捉到图像的局部细节。通过使用步长为2的深度可分离卷积进行下采样,特征图的尺寸减半,但卷积操作的感受野增大。这意味着每个输出像素点的感受野范围扩大,能够捕捉到更广阔的上下文信息,包括更大范围内的空间结构和全局特征。在进行下采样的同时,深度可分离卷积会对每个通道的特征进行整合和组合。这种整合可以帮助低层特征融合不同尺度的信息,包括底层的细节信息和更高层次的语义信息。
[0082]
对于高层特征,使用1
×
1卷积进行降维处理,并通过2
×
上采样处理为相同分辨率,得到具有语义信息的高层特征;
[0083]
高层特征通常具有较高的维度,包含了较多的语义信息。通过使用1
×
1卷积进行降维处理,可以减少特征通道的数量,从而减少了参数量和计算量。这种降维操作有助于减小模型的复杂度,并提高计算效率。1
×
1卷积不仅可以降低特征通道的维度,还可以对特征通道进行组合和整合。通过适当的卷积操作,可以将具有相似语义的特征通道进行融合,从而增强高层特征的语义表达能力。这样可以帮助模型更好地理解图像中的物体、场景和语义信息。
[0084]
在进行了降维操作后,可以使用2
×
上采样(也称为反卷积或转置卷积)将特征图的尺寸恢复到与输入相同的分辨率。上采样操作通过插值和填充的方式,将特征图的空间维度进行扩展,从而保持了相对较高的分辨率。这样做的目的是为了在保持语义信息的同时,恢复高层特征的空间细节,以便更好地与低层特征进行融合,生成鲁棒特性图fi。
[0085]
通过级联操作和卷积运算将具有空间信息的低层特征和具有语义信息的高层特征进行融合,得到融合特征fi。
[0086]
考虑到不同尺度特征存在语义差异,本实施例分别从通道层面、空间层面、像素层面和全局层面对融合特征进行多角度筛选以减少信息冗余,并行采用基于卷积块的注意力机制(convolutional block attention module,cbam)、逐像素点注意力机制(point-wise attention block,pab)和全局注意力机制(global-wise attention block,gab)对融合特征进行特征选择,并进行信息聚合,得到融合特征的加强特征表示。
[0087]
下面,对三种注意力机制分别进行说明。
[0088]
(1)基于卷积块的注意力机制由通道注意力机制和空间注意力机制级联组成,表达式分别如下:
[0089]ms
(f)=σ(f7×7([avgpool(f);maxpool(f)]))
[0090]
mc(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))
[0091]
基于卷积块的注意力机制的输出表示为:
[0092]
[0093][0094]
其中,ms(f)表示空间注意力映射;σ表示sigmoid函数;f7×7表示滤波器大小为7
×
7的卷积运算;avgpool(f)表示平均池处理;maxpool(f)表示最大池化处理;mc(f)表示通道注意力映射;mlp表示多层感知器;f'i表示通道特征提取;fi表示中间特征图;mc(fi)表示不同层次特征得到的通道注意力映射;ms(f'i)表示不同层次特征得到的空间注意力映射;ci表示基于卷积块的注意力机制的输出;表示矩阵元素乘法;
[0095]
(2)逐像素点注意力机制旨在每个像素点上进行注意力学习,这有助于滑坡位置边缘细节的选择,其输出表示为:
[0096]
pi=w2(w1(fi))
⊕fi
[0097]
其中,pi(i=1,2,3)表示与输入fi形状相同的逐点注意特征;wj(j=1,2)表示第j个包含1
×
1卷积、批归一化和relu激活的卷积层,

表示为矩阵元素相加;
[0098]
(3)全局注意力机制的特点是通过特征本身生成全局注意力权重,它在不引入额外参数的情况下加强了关注有效信息的能力。因为高层次的特征具有更好的语义表达能力,所以本发明将高层更抽象的特征图作为低层的注意力权重,并通过可学习参数自适应调整注意力特征图的贡献。其输出表示为:
[0099]gi
=fi+h(fi)+α
·
σ(h(fi))
·fi
[0100]
其中,gi(i=1,2,3)表示全局注意力输出矩阵;h(
·
)表示瓶颈结构(bottleneck architecture),σ表示sigmoid激活函数;α表示可学习的权重因子,用于平衡全局注意力特征图和与其他两个注意力机制输出的特征图;
[0101]
考虑到每个注意机制的关注点不同,因此将这三种不同的注意执行矩阵元素相加进行信息的聚合,通过sigmoid激活函数和乘法操作得到最终的加强特征表示。最终的加强特征表示为:
[0102][0103]
s4、利用多个连续的transformer模块进行自注意学习,通过自注意力机制和前馈神经网络层的迭代,transformer模块逐渐提取和整合输入特征的语义信息,每个transformer模块的输出成为下一个transformer模块的输入。这样逐层堆叠的transformer模块可以提取更高层的语义特征,其中,底层的transformer模块更关注局部细节,而顶层的transformer模块更关注全局语义,进而得到全局特征映射(即高层语义特征)。具体步骤包括:
[0104]
a.自注意力机制:使用自注意力机制对输入嵌入进行特征加权融合;
[0105]
b.残差连接和层归一化:将自注意力机制的输出与输入嵌入相加,并进行残差连接和层归一化操作;
[0106]
c.前馈神经网络层:使用前馈神经网络层进行非线性变换和特征提取;
[0107]
d.残差连接和层归一化:将前馈神经网络层的输出与残差连接的结果相加,并进行残差连接和层归一化操作;
[0108]
e.循环执行:重复执行自注意力机制、残差连接和层归一化、前馈神经网络层的步骤,以提取更高层的语义特征;
[0109]
f.输出:最后一个transformer模块的输出即为提取的高层语义特征。
[0110]
s5、对经transformer模块处理后得到的高层语义特征进行上采样,并与经注意力引导多尺度融合块处理后输出的融合特征逐层结合得到预测输出,预测输出的表达式为:
[0111]di
=w2(w1(concat(up(d
i-1
),ai))),(i=1,2,3)
[0112]
其中,di表示第i个解码阶段的输出特征;d0=t4,t4表示高层语义特征;ai表示经注意力机制筛选出的一致注意力特征;concat表示通道级联;up表示2
×
上采样;wj(j=1,2)表示第j个包含3
×
3卷积、批归一化和relu激活的卷积层。
[0113]
s6、通过马尔科夫判别器(patchgan)模型的预测输出y与相应的数据集中的真值标签进行拼接作为输入,并将拼接结果分割为8*8大小的矩阵,矩阵中每个元素分别代表对应的32*32大小的图片块为真的概率,对矩阵元素求均值作为判别器的判别输出结果,判别器的输出结果的表达式为:
[0114][0115]
其中,d(x)表示判别器的输出,di(x)为每个图像块的预测概率,n为图像块个数。
[0116]
通过最小化预测输出和真值标签两者间的距离,提升判别器的判别能力,对两个模型进行对抗训练,最终得到最优的生成器。
[0117]
s7、根据最优生成器对测试图片进行滑坡位置的分割。
[0118]
本发明实施例主要结合了u-net优异的局部建模能力,transformer的全局注意机制以及注意力引导多尺度融合块对相邻尺度特征的融合实现了遥感影像中滑坡发生位置的自动准确分割。本发明还对上述方法进行了验证,验证结果如图4所示,可知,该方法能够适应卫星成像姿态和复杂地形变化的影响,具有良好的精度和可靠性。
[0119]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0120]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,包括以下步骤:对输入图像进行预处理后输入至生成器中;在所述生成器中,以密集卷积和残差连接相结合的方式提取输入图像的多尺度特征;基于注意力引导多尺度融合块对所述多尺度特征进行相邻尺度的渐进融合,得到融合特征;利用多个连续的transformer模块提取所述多尺度特征的高层语义特征;将所述高层语义特征进行上采样,并与所述融合特征逐层融合,得到预测输出;通过判别器将预测输出和真值标签进行拼接,输出判别矩阵,对判别矩阵的所有元素求均值,作为判别输出;以预测输出与真值标签之间的距离最小化为优化目标,对所述生成器和所述判别器进行对抗训练,得到最优的生成器;基于最优的生成器对待检测图片进行滑坡位置分割。2.根据权利要求1所述的基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,所述对输入图像进行预处理,包括:将输入图像进行像素级等比例缩放,在缩放后的图像上选取两张图片输入所述生成器中。3.根据权利要求1所述的基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,所述生成器包括两个分支,分别为残差网络分支和密集流分支;所述残差网络分支对输入图像进行下采样,提取输入图像不同尺度下的中间特征映射r
i
;所述密集流分支先对输入图像进行初步特征提取和转换,得到输入图像的低级特征,再对低级特征进行编码,得到特征d
i
;将相同维度下残差网络分支输出的特征r
i
与密集流分支输出的特征d
i
进行矩阵元素相加,得到输入图像的多尺度特征f
i
。4.根据权利要求1所述的基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,所述注意力引导多尺度融合块对所述多尺度特征进行相邻尺度的渐进融合,包括:对于低层特征,使用步长为2的深度可分离卷积下采样到相同分辨率,得到具有空间信息的低层特征;对于高层特征,使用1
×
1卷积进行降维处理,并通过上采样处理为相同分辨率,得到具有语义信息的高层特征;通过级联操作和卷积运算将具有空间信息的低层特征和具有语义信息的高层特征进行融合,得到融合特征f
i
。5.根据权利要求1所述的基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,所述注意力引导多尺度融合块对所述多尺度特征进行相邻尺度的渐进融合,还包括:并行采用基于卷积块的注意力机制、逐像素点注意力机制和全局注意力机制对所述融合特征进行特征选择,并进行信息聚合,得到融合特征的加强特征表示。6.根据权利要求5所述的基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,所述基于卷积块的注意力机制由通道注意力机制和空间注意力机制级联组成,表
达式分别如下:m
s
(f)=σ(f7×7([avgpool(f);maxpool(f)]))m
c
(f)=σ(mlp(avgpool(f))+mlp(maxpool(f)))所述基于卷积块的注意力机制的输出表示为:所述基于卷积块的注意力机制的输出表示为:其中,m
s
(f)表示空间注意力映射;σ表示sigmoid函数;f7×7表示滤波器大小为7
×
7的卷积运算;avgpool(f)表示平均池处理;maxpool(f)表示最大池化处理;m
c
(f)表示通道注意力映射;mlp表示多层感知器;f'
i
表示通道特征提取;f
i
表示中间特征图;m
c
(f
i
)表示不同层次特征得到的通道注意力映射;表示不同层次特征得到的空间注意力映射;c
i
表示基于卷积块的注意力机制的输出;表示矩阵元素乘法;所述逐像素点注意力机制的输出表示为:其中,p
i
(i=1,2,3)表示与输入f
i
形状相同的逐点注意特征;w
j
(j=1,2)表示第j个包含1
×
1卷积、批归一化和relu激活的卷积层,表示为矩阵元素相加;所述全局注意力机制的输出表示为:g
i
=f
i
+h(f
i
)+α
·
σ(h(f
i
))
·
f
i
其中,g
i
(i=1,2,3)表示全局注意力输出矩阵;h(
·
)表示瓶颈结构,σ表示sigmoid激活函数;α表示可学习的权重因子;将上述三种注意力机制的输出通过sigmoid激活函数和乘法操作得到最终的加强特征表示a
i
:7.根据权利要求6所述的基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,利用多个连续的transformer模块提取所述多尺度特征的高层语义特征,具体步骤包括:通过自注意力机制和前馈神经网络层的迭代,transformer模块逐渐提取和整合输入特征的语义信息,每个transformer模块的输出成为下一个transformer模块的输入;其中,底层的transformer模块更关注局部细节,顶层的transformer模块更关注全局语义。8.根据权利要求6所述的基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,所述预测输出的表达式为:d
i
=w2(w1(concat(up(d
i-1
),a
i
))),(i=1,2,3)其中,d
i
表示第i个解码阶段的输出特征;d0=t4,t4表示高层语义特征;concat表示通道级联;up表示2
×
上采样;w
j
(j=1,2)表示第j个包含3
×
3卷积、批归一化和relu激活的卷积层。9.根据权利要求1所述的基于多尺度自适应语义分割的遥感影像灾害检测方法,其特征在于,所述判别器的输出结果的表达式为:
其中,d(x)表示判别器的输出,d
i
(x)为每个图像块的预测概率,n为图像块个数。

技术总结
本发明涉及图像处理技术领域,具体涉及一种基于多尺度自适应语义分割的遥感影像灾害检测方法,以密集卷积和残差连接相结合的方式提取多尺度特征,并通过注意力引导多尺度融合块实现相邻尺度特征的信息融合,然后对融合特征进行自适应动态选择以保持特征的整体一致性,能够充分适应山地地形变化与地表植物特征;随后通过Transformer将高层编码特征作为输入提取全局上下文信息。在解码路径中,将Transformer输出的全局高层语义特征进行上采样并逐层与自适应特征增强的融合特征进行整合,实现滑坡位置在遥感影像中的准确分割。实现滑坡位置在遥感影像中的准确分割。实现滑坡位置在遥感影像中的准确分割。


技术研发人员:胡堃 张倚天 张嘉铭 张新峰
受保护的技术使用者:北京航空航天大学
技术研发日:2023.06.30
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐