一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法

未命名 09-15 阅读:118 评论:0


1.本发明涉及图像处理和计算机视觉领域,具体是一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法。


背景技术:

2.伪装目标检测(camouflaged object detection,cod),是一种新兴的视觉检测任务,旨在模仿人类视觉检测机制,从输入图像中准确地定位并完整地分割与背景具有相似纹理、颜色和图案的目标。近年来,伪装目标检测越来越受到计算机视觉领域的关注,因为其在多个领域都有较高的应用价值,如医学图像分割、农业害虫检测、军事迷彩伪装目标检测等。
3.早期的伪装目标检测主要依赖传统的手工特征,通过图像的纹理差异、颜色对比度、运动、强度差异、光流或结合了以上多种特征的多模态融合方法来区分前景与背景。但是这些方法只能挖掘低层次的特征,在面对前景背景非常相似或目标边缘模糊等复杂场景时,早期的传统算法很难生成准确的预测图像。
4.近年来,随着深度学习的发展,基于卷积神经网络(cnn)的伪装目标检测方法打破了手工特征的限制,取得了巨大进展。le等人提出了一个多任务学习策略的检测算法,即anet,它结合了分类任务和分割任务,其中分类流识别图片中是否存在伪装目标,如果存在,再用分割流进行分割。受捕食者狩猎过程的启发,范等人基于由粗到细策略提出了一个两阶段伪装目标检测算法,即先搜索再识别,搜索阶段寻找图片中的伪装目标,识别阶段细化检测到的物体。除此之外,范等人在这篇文章中还提出了迄今为止最大的数据集,即cod10k,它涉及78个类共10000张图片。庞等人采用放大缩小策略,将三种不同分辨率的图像输入到一个三元组网络中进行尺度集成,并通过设计的不确定度感知损失抑制来自背景的干扰。吕等人创新性地提出了伪装目标排序和伪装目标定位两个任务,以估计伪装目标的难度并识别伪装目标的辨别性区域。张等人使用现有的单目深度预测方法在伪装目标数据集上生成深度图,将其作为rgb图像的补充,取得了良好的性能收益。孙等人认为解决cod问题的两个关键因素是能够提供丰富上下文的大感受野和跨层级特征融合,因此作者据此提出两个对应模块以获得更好的性能。虽然上述的伪装目标检测方法在提取特征的过程中能够意识到上下文信息的重要性,但是它们很少考虑到不同尺度上下文信息之间的相关性,导致生成的预测图不够精确,因此需要提供一个对多尺度上下文相关性进行探索的方法以提升检测准确率。


技术实现要素:

5.为了缓解上述问题,本发明提供了一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法;该方法可以捕捉强相关的多尺度特征,并通过混合交互策略自适应聚合多层级特征,最后通过注意力自适应分配特征权重,以生成强大的特征表示。
实验结果表明,该方法性能较现有方法有了较大提升。
6.本发明公开了一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,该方法包括以下步骤:
7.1.通过主干网络swin-transformer对输入的伪装目标图像和显著性目标图像分别进行特征提取,得到初始特征fi(i=1,2,3,4)。
8.1.1)收集并整理伪装目标检测和显著性目标检测领域相关数据集,其中伪装目标检测数据集包括chameleon、camo、cod10k和nc4k;显著性目标检测数据集包括包含sod、ecssd、pascal-s、dut-omron、hku-is和dust。
9.1.2)考虑到模型训练需要大规模数据,对于伪装目标检测任务,本专利使用camo-train数据集和cod10k-train数据集共4040张包含伪装目标的图片作为训练数据集,利用chameleon、camo-test、cod10k-test和nc4k作为测试数据集;对于显著性目标检测任务,本专利使用包含10553张图像的duts数据集作为训练数据集,利用ecssd、pascal-s、hku-is、dut-omron和duts-te数据集作为测试数据集。
10.1.3)使用在imagenet上预训练处理的swin-transformer作为骨干网络,对输入的伪装目标图像和显著性目标图像分别进行特征提取,得到初始特征fi(i=1,2,3,4);
11.2.通过多尺度上下文探索模块(mce)对初始特征fi(i=1,2,3,4)进行特征增强,以捕捉强相关的多尺度特征ii(i=1,2,3,4)。
12.2.1)为充分增强主干网络提取出来的初始特征fi(i=1,2,3,4),多尺度上下文探索模块(mce)分为四个分支,逐步集成经由mce处理后的多尺度特征。
13.2.2)具体来说,初始特征fi(i=1,2,3,4)首先经过组数为4的组卷积处理,以减少通道数、提升计算效率(初始特征fi(i=2,3,4)与mce上一个分支的特征相加之后再执行以下操作)。然后,这些特征作为输入并行经过一个卷积核大小为1
×1×
128的卷积操作c和一个卷积核大小为(1
×
(2k+1),(2k+1)
×
1)的非对称卷积操作a,这里k表示mce的第k个分支;其中卷积操作c用于将初始特征重建为128个通道,非对称卷积用来提取上下文信息。卷积后的特征与输入特征逐元素相加增加特征多样性后,再经过填充率为2k的深度可分离卷积来进一步提取重要的多尺度上下文信息;与常规的卷积操作相比,深度可分离卷积的参数数量和运算成本更低。
14.2.3)从上述描述可以看出,前一个分支使用小感受野提取的特征被输入到下一个大感受野分支作为指导,由此增强多尺度上下文之间的相关性。上述过程可以被公式化为:
[0015][0016]
其中,down表示降维运算,c表示卷积核大小为1
×
1的卷积运算,a表示卷积核大小为(1
×
(2k+1),(2k+1)
×
1)的非对称卷积运算,∑是逐元素加法运算,dk表示填充率为2k的深度可分离卷积。
[0017]
2.4)将mce每个分支得到的sk(k=1,2,3,4)级联起来,并与初始特征fi(i=1,2,3,4)分别相加,最终生成多尺度特征ii(i=1,2,3,4)。上述过程可表示为:
[0018]
i=∑(down(f),down(cat(s1,...,sk))),k=4
ꢀꢀ
(2)
[0019]
其中,down表示降维操作,∑表示逐元素加法运算,cat表示级联操作。
[0020]
3.通过多层级特征交互模块(mfi)以混合交互策略自适应对多尺度特征ii(i=1,2,3,4)进行聚合,以生成多层级特征yi(i=1,2,3,4)。
[0021]
3.1)mfi模块以自顶向下的方式混合交互多层级特征,高级特征依次与低级特征交互,多尺度特征ii(i=1,2,3,4)作为指导参与同级特征的交互。
[0022]
3.2)以生成多层级特征y2为例,由上一个mfi模块生成的多层级特征y3、y4以及对应层级的多尺度特征i2先进行逐元素乘法和逐元素加法操作,再进行逐元素加法和逐元素乘法操作,最后将两组特征级联,得到多层级特征y2。其它层级的特征生成与y2类似。上述过程可表示为:
[0023][0024]
其中,cat表示级联操作,∑和*表示逐元素加法和乘法运算。
[0025]
4.通过立体注意力增强模块(sae)对聚合后的多层级特征自适应分配权重,以过滤不重要信息、最终获得高质量的输出特征oi(i=1,2,3,4)。
[0026]
4.1)首先对上一个mfi模块聚合后的多层级特征分别执行全局平均池化和全局最大池化操作,以此来关注全局上下文信息和减少无用信息的干扰;然后,这两个分支的特征再分别经过k
×
k一维卷积、relu操作、k
×
k一维卷积来增强特征表示,其中卷积核大小k可以自适应选择;最后,两个增强后的特征相加,再经过sigmoid激活,获得通道注意力权重ai。
[0027]
4.2)为了充分利用聚合后的多层级特征,对yi(i=1,2,3,4)执行一系列的二维卷积操作。具体来说,该操作分为两个分支,第一个分支依次进行卷积核大小为1
×
1、k
×
k、1
×
1的二维卷积,第二个分支执行一个1
×
1二维卷积。注意,每个卷积操作都包含batchnorm和relu操作;然后,两个分支的特征逐元素相加,在执行卷积、激活后,与ai逐元素相乘得空间注意力权重bi。
[0028]
4.3)为了保留原始特征,将相乘后的权重与多层级特征残差连接,最终生成强大的特征表示;经降维后得到输出特征oi(i=1,2,3,4)。上述过程可表示为:
[0029][0030]
其中,σ表示sigmoid函数,ci表示卷积核大小为i
×
i的卷积操作,表示relu激活,avg表示全局平均池化,max表示全局最大池化,cibr表示一个卷积块(包括卷积层、batchnorm和激活层)。
[0031]
5.对每个高质量的输出特征oi(i=1,2,3,4)执行降维操作,以生成显著性预测图或伪装预测图,并用真值图进行监督。使用bce损失和iou损失作为损失函数来监督训练模型,总的损失函数可表示为:
[0032][0033]
其中,表示二值交叉熵损失,它可以独立计算每个预测像素的损失;表示iou损失,它可以在考虑全局上下文的情况下增加像素的响应。
[0034]
本发明具有以下有益效果:
[0035]
采用上述方案,本发明解决了现有伪装目标检测方法极少关注不同尺度上下文信息之间相关性的问题,通过捕捉强相关的多尺度特征、以混合交互策略聚合多层级特征和关注图像主要部分,最终生成高质量的特征表示,从而提高了伪装目标检测方法的性能。
附图说明
[0036]
图1是网络模型结构图。
[0037]
图2是多尺度上下文探索模块mce的结构图。
[0038]
图3是多层级特征交互模块mfi的结构图。
[0039]
图4是立体注意力增强模块sae。
[0040]
图5是伪装目标检测实验结果图。
[0041]
图6是显著性目标检测实验结果图。
具体实施方式
[0042]
下面将结合本发明实例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
[0043]
本发明的流程图框架如图1所示,一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,其具体操作说明如下:
[0044]
1.通过主干网络swin-transformer对输入的伪装目标图像和显著性目标图像分别进行特征提取,得到初始特征fi(i=1,2,3,4)。
[0045]
1.1)收集并整理伪装目标检测和显著性目标检测领域相关数据集,其中伪装目标检测数据集包括chameleon、camo、cod10k和nc4k;显著性目标检测数据集包括包含sod、ecssd、pascal-s、dut-omron、hku-is和dust。
[0046]
1.2)考虑到模型训练需要大规模数据,对于伪装目标检测任务,本专利使用camo-train数据集和cod10k-train数据集共4040张包含伪装目标的图片作为训练数据集,利用chameleon、camo-test、cod10k-test和nc4k作为测试数据集;对于显著性目标检测任务,本专利使用包含10553张图像的duts数据集作为训练数据集,利用ecssd、pascal-s、hku-is、dut-omron和duts-te数据集作为测试数据集。
[0047]
1.3)使用在imagenet上预训练处理的swin-transformer作为骨干网络,对输入的伪装目标图像和显著性目标图像分别进行特征提取,得到初始特征fi(i=1,2,3,4);
[0048]
2.通过多尺度上下文探索模块(mce)对初始特征fi(i=1,2,3,4)进行特征增强,以捕捉强相关的多尺度特征ii(i=1,2,3,4),详细流程如图2所示。
[0049]
2.1)为充分增强主干网络提取出来的初始特征fi(i=1,2,3,4),多尺度上下文探索模块(mce)分为四个分支,逐步集成经由mce处理后的多尺度特征。
[0050]
2.2)具体来说,初始特征fi(i=1,2,3,4)首先经过组数为4的组卷积处理,以减少通道数、提升计算效率(初始特征fi(i=2,3,4)与mce上一个分支的特征相加之后再执行以下操作)。然后,这些特征作为输入并行经过一个卷积核大小为1
×1×
128的卷积操作c和一个卷积核大小为(1
×
(2k+1),(2k+1)
×
1)的非对称卷积操作a,这里k表示mce的第k个分支;其中卷积操作c用于将初始特征重建为128个通道,非对称卷积用来提取上下文信息。卷积
后的特征与输入特征逐元素相加增加特征多样性后,再经过填充率为2k的深度可分离卷积来进一步提取重要的多尺度上下文信息;与常规的卷积操作相比,深度可分离卷积的参数数量和运算成本更低。
[0051]
2.3)从上述描述可以看出,前一个分支使用小感受野提取的特征被输入到下一个大感受野分支作为指导,由此增强多尺度上下文之间的相关性。上述过程可以被公式化为:
[0052][0053]
其中,down表示降维运算,c表示卷积核大小为1
×
1的卷积运算,a表示卷积核大小为(1
×
(2k+1),(2k+1)
×
1)的非对称卷积运算,∑是逐元素加法运算,dk表示填充率为2k的深度可分离卷积。
[0054]
2.4)将mce每个分支得到的sk(k=1,2,3,4)级联起来,并与初始特征fi(i=1,2,3,4)分别相加,最终生成多尺度特征ii(i=1,2,3,4)。上述过程可表示为:
[0055]
i=∑(down(f),down(cat(s1,...,sk))),k=4
ꢀꢀꢀ
(2)
[0056]
其中,down表示降维操作,∑表示逐元素加法运算,cat表示级联操作。
[0057]
3.通过多层级特征交互模块(mfi)以混合交互策略自适应对多尺度特征ii(i=1,2,3,4)进行聚合,以生成多层级特征yi(i=1,2,3,4),具体流程如图3所示。
[0058]
3.1)mfi模块以自顶向下的方式混合交互多层级特征,高级特征依次与低级特征交互,多尺度特征ii(i=1,2,3,4)作为指导参与同级特征的交互。
[0059]
3.2)以生成多层级特征y2为例,由上一个mfi模块生成的多层级特征y3、y4以及对应层级的多尺度特征i2先进行逐元素乘法和逐元素加法操作,再进行逐元素加法和逐元素乘法操作,最后将两组特征级联,得到多层级特征y2。其它层级的特征生成与y2类似。上述过程可表示为:
[0060][0061]
其中,cat表示级联操作,∑和*表示逐元素加法和乘法运算。
[0062]
4.通过立体注意力增强模块(sae)对聚合后的多层级特征自适应分配权重,以过滤不重要信息、最终获得高质量的输出特征oi(i=1,2,3,4),具体流程如图4所示。
[0063]
4.1)首先对上一个mfi模块聚合后的多层级特征分别执行全局平均池化和全局最大池化操作,以此来关注全局上下文信息和减少无用信息的干扰;然后,这两个分支的特征再分别经过k
×
k一维卷积、relu操作、k
×
k一维卷积来增强特征表示,其中卷积核大小k可以自适应选择;最后,两个增强后的特征相加,再经过sigmoid激活,获得通道注意力权重ai。
[0064]
4.2)为了充分利用聚合后的多层级特征,对yi(i=1,2,3,4)执行一系列的二维卷积操作。具体来说,该操作分为两个分支,第一个分支依次进行卷积核大小为1
×
1、k
×
k、1
×
1的二维卷积,第二个分支执行一个1
×
1二维卷积。注意,每个卷积操作都包含batchnorm和relu操作;然后,两个分支的特征逐元素相加,在执行卷积、激活后,与ai逐元素相乘得空间注意力权重bi。
[0065]
4.3)为了保留原始特征,将相乘后的权重与多层级特征残差连接,最终生成强大
的特征表示;经降维后得到输出特征oi(i=1,2,3,4)。上述过程可表示为:
[0066][0067]
其中,σ表示sigmoid函数,ci表示卷积核大小为i
×
i的卷积操作,表示relu激活,avg表示全局平均池化,max表示全局最大池化,cibr表示一个卷积块(包括卷积层、batchnorm和激活层)。
[0068]
5.对每个高质量的输出特征oi(i=1,2,3,4)执行降维操作,以生成显著性预测图或伪装预测图,并用真值图进行监督。使用bce损失和iou损失作为损失函数来监督训练模型,总的损失函数可表示为:
[0069][0070]
其中,表示二值交叉熵损失,它可以独立计算每个预测像素的损失;表示iou损失,它可以在考虑全局上下文的情况下增加像素的响应。
[0071]
我们将基于上述算法和监督训练策略生成的预测图与现有方法进行了比较,伪装目标检测结果图如图5所示,显著性目标检测结果图如图6所示。
[0072]
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。

技术特征:
1.一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,其特征在于,包括以下步骤:1)通过主干网络swin-transformer对输入的显著性目标图像和伪装目标图像分别进行特征提取,得到初始特征f
i
(i=1,2,3,4);2)通过多尺度上下文探索模块(mce)对初始特征f
i
(i=1,2,3,4)进行特征增强,以捕捉强相关的多尺度特征i
i
(i=1,2,3,4);3)通过多层级特征交互模块(mfi)以混合交互策略自适应对多尺度特征i
i
(i=1,2,3,4)进行聚合,以生成多层级特征y
i
(i=1,2,3,4);4)通过立体注意力增强模块(sae)对聚合后的多层级特征自适应分配权重,以过滤不重要信息、最终获得高质量的输出特征o
i
(i=1,2,3,4);5)对每个高质量的输出特征o
i
(i=1,2,3,4)执行降维操作,以生成显著性预测图或伪装预测图,并用真值图进行监督。2.根据权利要求1所述的一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,其特征在于:所述步骤1)具体方法是:2.1)收集并整理伪装目标检测和显著性目标检测领域相关数据集,其中伪装目标检测数据集包括chameleon、camo、cod10k和nc4k;显著性目标检测数据集包括包含sod、ecssd、pascal-s、dut-omron、hku-is和dust。2.2)考虑到模型训练需要大规模数据,对于伪装目标检测任务,本专利使用camo-train数据集和cod10k-train数据集共4040张包含伪装目标的图片作为训练数据集,利用chameleon、camo-test、cod10k-test和nc4k作为测试数据集;对于显著性目标检测任务,本专利使用包含10553张图像的duts数据集作为训练数据集,利用ecssd、pascal-s、hku-is、dut-omron和duts-te数据集作为测试数据集。2.3)使用在imagenet上预训练处理的swin-transformer作为骨干网络,对输入的伪装目标图像和显著性目标图像分别进行特征提取,得到初始特征f
i
(i=1,2,3,4)。3.根据权利要求1所述的一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,其特征在于:所述步骤2)具体方法是:3.1)为充分增强主干网络提取出来的初始特征f
i
(i=1,2,3,4),多尺度上下文探索模块(mce)分为四个分支,逐步集成经由mce处理后的多尺度特征。3.2)具体来说,初始特征f
i
(i=1,2,3,4)首先经过组数为4的组卷积处理,以减少通道数、提升计算效率(初始特征f
i
(i=2,3,4)与mce上一个分支的特征相加之后再执行以下操作)。然后,这些特征作为输入并行经过一个卷积核大小为1
×1×
128的卷积操作c和一个卷积核大小为(1
×
(2k+1),(2k+1)
×
1)的非对称卷积操作a,这里k表示mce的第k个分支;其中卷积操作c用于将初始特征重建为128个通道,非对称卷积用来提取上下文信息。卷积后的特征与输入特征逐元素相加增加特征多样性后,再经过填充率为2k的深度可分离卷积来进一步提取重要的多尺度上下文信息;与常规的卷积操作相比,深度可分离卷积的参数数量和运算成本更低。3.3)从上述描述可以看出,前一个分支使用小感受野提取的特征被输入到下一个大感受野分支作为指导,由此增强多尺度上下文之间的相关性。上述过程可以被公式化为:
其中,down表示降维运算,c表示卷积核大小为1
×
1的卷积运算,a表示卷积核大小为(1
×
(2k+1),(2k+1)
×
1)的非对称卷积运算,∑是逐元素加法运算,d
k
表示填充率为2k的深度可分离卷积。3.4)将mce每个分支得到的s
k
(k=1,2,3,4)级联起来,并与初始特征f
i
(i=1,2,3,4)分别相加,最终生成多尺度特征i
i
(i=1,2,3,4)。上述过程可表示为:i=∑(down(f),down(cat(s1,...,s
k
))),k=4(2)其中,down表示降维操作,∑表示逐元素加法运算,cat表示级联操作。4.根据权利要求1所述的一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,其特征在于:所述步骤3)具体方法是:4.1)mfi模块以自顶向下的方式混合交互多层级特征,高级特征依次与低级特征交互,多尺度特征i
i
(i=1,2,3,4)作为指导参与同级特征的交互。4.2)以生成多层级特征y2为例,由上一个mfi模块生成的多层级特征y3、y4以及对应层级的多尺度特征i2先进行逐元素乘法和逐元素加法操作,再进行逐元素加法和逐元素乘法操作,最后将两组特征级联,得到多层级特征y2。其它层级的特征生成与y2类似。上述过程可表示为:其中,cat表示级联操作,∑和*表示逐元素加法和乘法运算。5.根据权利要求1所述的一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,其特征在于:所述步骤4)具体方法是:5.1)首先对上一个mfi模块聚合后的多层级特征分别执行全局平均池化和全局最大池化操作,以此来关注全局上下文信息和减少无用信息的干扰;然后,这两个分支的特征再分别经过k
×
k一维卷积、relu操作、k
×
k一维卷积来增强特征表示,其中卷积核大小k可以自适应选择;最后,两个增强后的特征相加,再经过sigmoid激活,获得通道注意力权重a
i
。5.2)为了充分利用聚合后的多层级特征,对y
i
(i=1,2,3,4)执行一系列的二维卷积操作。具体来说,该操作分为两个分支,第一个分支依次进行卷积核大小为1
×
1、k
×
k、1
×
1的二维卷积,第二个分支执行一个1
×
1二维卷积。注意,每个卷积操作都包含batchnorm和relu操作;然后,两个分支的特征逐元素相加,在执行卷积、激活后,与a
i
逐元素相乘得空间注意力权重b
i
。5.3)为了保留原始特征,将相乘后的权重与多层级特征残差连接,最终生成强大的特征表示;经降维后得到输出特征o
i
(i=1,2,3,4)。上述过程可表示为:
其中,σ表示sigmoid函数,c
i
表示卷积核大小为i
×
i的卷积操作,表示relu激活,avg表示全局平均池化,max表示全局最大池化,c
i
br表示一个卷积块(包括卷积层、batchnorm和激活层)。6.根据权利要求1所述的一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,其特征在于:所述步骤5)具体方法是:使用bce损失和iou损失作为损失函数来监督训练模型,总的损失函数可表示为:其中,表示二值交叉熵损失,它可以独立计算每个预测像素的损失;表示iou损失,它可以在考虑全局上下文的情况下增加像素的响应。

技术总结
本发明公开了一种基于立体注意力的多尺度上下文与多层级特征交互的伪装目标检测方法,包括主干网络、多尺度上下文探索模块(MCE)、多层级特征交互模块(MFI)以及立体注意力增强模块(SAE)。主干网络提取输入图像的多级特征f


技术研发人员:夏晨星 陈欣雨 高修菊 葛斌 吴涛林 张梦格 高梦亚
受保护的技术使用者:安徽理工大学
技术研发日:2023.06.21
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐