基于对抗学习中差分特征感知的红外可见光目标检测方法
未命名
09-07
阅读:191
评论:0

internationaljournal of computer vision,vol.57,no.2,pp.137
–
154,2004.
11.[7]p.felzenszwalb,d.mcallester,and d.ramanan,“a discriminatively trained,multiscale,deformable part model,”in 2008 ieee conference on computer vision andpattern recognition.ieee,2008,pp.1
–
8.
[0012]
[8]a.bochkovskiy,c.-y.wang,and h.-y.m.liao,“yolov4:optimal speed andaccuracy of object detection,”arxiv preprint arxiv:2004.10934,2020.
[0013]
[9]s.ren,k.he,r.girshick,and j.sun,“faster r-cnn:towards real-time object detection with region proposal networks,”advances in neural information processing systems,vol.28,2015.
[0014]
[10]w.liu,d.anguelov,d.erhan,c.szegedy,s.reed,c.-y.fu,and a.c.berg,“ssd:single shot multibox detector,”in european conference on computer vision.springer,2016,pp.21
–
37.
[0015]
[11]s.liu and z.liu,“multi-channel cnn-based object detection for enhanced situation awareness,”arxiv preprint arxiv:1712.00075,2017.
[0016]
[12]z.zhou,b.wang,s.li,and m.dong,“perceptual fusion of infrared and visible images through a hybrid multi-scale decomposition with gaussian and bilateral filters,”information fusion,vol.30,pp.15
–
26,2016.
[0017]
[13]j.liu,s.zhang,s.wang,and d.n.metaxas,“multispectral deep neural networks for pedestrian detection,”arxiv preprint arxiv:1611.02644,2016.
技术实现要素:
[0018]
本发明针对现有技术的缺陷,提供了一种基于对抗学习中差分特征感知的红外可见光目标检测方法。
[0019]
为了实现以上发明目的,本发明采取的技术方案如下:
[0020]
一种基于对抗学习中差分特征感知的红外可见光目标检测方法,该方法包括以下步骤:
[0021]
步骤一:基于由kl散度和js散度组成的融合散度损失函数,用非共享的特征提取网络分别提取差分的红外特征和可见光特征;
[0022]
步骤二:使用ir-attention模块和rgb-attention模块分别对步骤一中提取到的红外特征和可见光特征进行再提取,更加关注红外特征图和可见光特征图中的有效信息;
[0023]
步骤三:使用f-attention模块对再提取到的差分的双模特征进行融合,保留双模特征的共性的同时追求其更多的差异信息;
[0024]
步骤四:使用rpn对融合的双模特征进行回归与分类,完成目标检测。
[0025]
进一步地,步骤一中,应用由kl散度和js散度组成的融合散度损失函数来度量红外特征和可见光特征之间的相似性。
[0026]
红外与可见光特征的相似度与kl和js散度值呈负相关。kl散度表示为:
[0027][0028]
js散度表示为:
[0029][0030]
基于kl散度和js散度定义的融合散度损失函数表示为:
[0031][0032]
式中,f1和f2分别为两个骨干网络各resnet的最后一个卷积层输出的特征;f1和f2分别表示f1和f2中各个位置的像素强度,它们由softmax函数计算;n表示f1或f2中的特征个数,取最大值为n。进一步地,步骤二中,所述ir-attention模块在两个方向上执行注意力机制,包括:通道注意力模块和空间注意力模块。
[0033]
在通道注意力模块中,利用信道方向信息之间的联系来生成相应的权值。首先,使用全局平均池化对输入进行挤压,得到然后,将f
1c
送入两个全连接层以获得权向量。最后,将权重向量重塑为rc×h×w。通道注意力模块表示为:
[0034]
mc=reshape(fc1(fc0(gap(f1))))
ꢀꢀꢀꢀꢀꢀ
(4)
[0035]
其中fc为全连接层,gap为全局平均池化操作。
[0036]
在空间注意力模块中,空间注意力模块表示为:
[0037]ms
=reshape(conv1(conv3(dconv(gap(f1)))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0038]
式中,convi为核为i
×
i的卷积层,dconv为扩张卷积。分别得到通道注意力模块和空间注意力模块的权重后;
[0039]
将通道注意力模块和空间注意力模块结合,得到输入特征f1的最终权值m(f1),表示为:
[0040]
m(f1)=σ(mc+ms)
ꢀꢀꢀꢀꢀꢀ
(6)
[0041]
其中σ为sigmoid函数,ir-attention模块处理后的红外特征图表示为:
[0042]
f1’
=f1+f1*m(f1)
ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0043]
进一步地,步骤二中rgb-attention模块用于生成具有上下文联系的可见光特征,将可见光特征f2输入到三个自注意力模块:通道注意力模块、高度注意力模块和宽度注意力模块,分别得到在通道维度、高度维度和宽度维度上具有相关性的特征。对通道注意力模块进行详细的介绍,高度注意力模块和宽度注意力模块具有与通道注意力模块相似的结构。
[0044]
进一步地,首先对输入特征图分别进行三次线性运算,得到query、key和value三个特征图,分别用e、f、g表示,其中接下来,将e重塑为将f重塑为后转置为得到通道注意力矩阵:
[0045][0046]
其中t
ji
表示第i个通道对第j个通道的影响,此相关性与t的值成正相关。同时,将g重塑为并对t和g进行矩阵乘法运算,将结果重塑为此为中间部分的子输出特征图。本实施例定义子输出为
[0047]
[0048]
使用全局平均池化f
sq
(
·
)将原始特征图压缩为该操作压缩了特征图的大小,同时保留了特征图的完整信息。m可以表示为:
[0049][0050]
其中h和w分别为原始特征图的高度和宽度。接下来,将m送入两个全连接层,得到激活值n表示为:
[0051]
n=f
ex
(m,ω)=σ(ω2δ(ω1m))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0052]
其中σ(
·
)和δ(
·
)分别为sigmoid函数和relu函数。分别为第一个全连接层和第二个全连接层的权值,r为两个全连接层中隐藏层的神经元数量,设r为16。这部分的子输出特征图表示为:
[0053][0054]
其中f
scale
(
·
,
·
)表示对应的元素相乘。
[0055]
最后,将得到的两个子输出特征图和与原始特征图f2线性组合,得到通道关注模块的总输出特征图
[0056][0057]
其中α和β的初始值均为0,随着学习过程最终确定权值。同样的,本实施例可以得到高度特征图f
2,h
和宽度特征图f
2,w
。最后,本实施例通过逐像素加法合并三个特征图,得到rgb-attention的输出,即具有上下文联系的可见光特征f
’2:
[0058]f’2=f
2,c
+f
2,h
+f
2,w
ꢀꢀꢀꢀꢀꢀꢀ
(14)
[0059]
进一步地,步骤三中采用f-attention融合步骤二中得到的差分的红外特征与可见光特征。使用f-attention融合不同的红外和可见光特征,公式如下:
[0060]
f=f1'*conv1(conv1(f'))+f2'conv1(conv1(f'))+conv1(conv1(f'))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0061]
最后,将f-attention输出的张量进行重构,即得到最终的融合特征。
[0062]
进一步地,步骤四中,采用rpn进行预测框的回归与目标的分类。
[0063]
在训练过程中,使用多个损失函数来辅助模型进行误差分析,分别是基于融合散度的损失l
div
、分类损失和回归损失。总损失为三种损失的加权和,表示为:
[0064][0065]
其中,其中l
cls
和l
reg
分别是分类和回归的损失函数。pi和分别是第i个锚的包含物体的预测概率和其真实值。ti包含了第i个边界框的四个位置参数。包含了对应于第i个边界框的真实框的四个位置参数。n
cls
和n
reg
分别为小批量的大小和锚的数量。λ是回归损失函数的权值。
[0066]
本发明还公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于对抗学习中差分特征感知的红外可见光目标检测方法。
[0067]
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处
理器执行时实现上述基于对抗学习中差分特征感知的红外可见光目标检测方法。
[0068]
与现有技术相比,本发明的优点在于:
[0069]
能够尽可能完整地提取互补的差分红外和可见光特征,可以实现提取的红外和可见光差分特征的全面融合,大大提高了目标检测的精度。对于提高红外和可见光目标检测模型性能有十分重大的意义。
[0070]
在icv数据集与cvc 14数据集中,本发明的ap都高于现有技术,与次优模型相比,本发明在两个数据集上的map分别提高了2.1%和3.9%;
[0071]
本发明在轿车、客车和卡车类别上的改善更为显著,在检测大型目标方面表现出更强的鲁棒性。
附图说明
[0072]
图1为本发明实施例本发明所述红外和可见光目标检测方法的总体方案图;
[0073]
图2为本发明实施例多残差块结构图;
[0074]
图3为本发明实施例基于注意力的差分特征融合(adff)模块结构图;
[0075]
图4为本发明实施例rgb-attention模块结构图;
[0076]
图5为本发明实施例icv和cvc 14数据集上检测结果的可视化表示图;
[0077]
图6为本发明实施例散度损失的消融实验结果图;
[0078]
图7为本发明实施例注意力机制的消融实验结果图。
具体实施方式
[0079]
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
[0080]
一种基于对抗学习中差分特征感知的红外可见光目标检测方法,该方法包括以下步骤:
[0081]
步骤一:基于由kl和js散度组成的融合散度,用非共享的特征提取网络分别提取差分的红外特征和可见光特征;
[0082]
步骤二:使用ir-attention模块和rgb-attention模块分别对步骤一中提取到的红外特征和可见光特征进行再提取,更加关注红外特征图和可见光特征图中的有效信息;
[0083]
步骤三:使用f-attention模块对再提取到的差分的双模特征进行融合,保留双模特征的共性的同时追求其更多的差异信息;
[0084]
步骤四:使用rpn对融合的双模特征进行回归与分类,完成目标检测。
[0085]
以下结合图1对本发明作进一步的说明。
[0086]
一、对抗学习中差分特征感知的红外可见光目标检测总体方案
[0087]
所提出的目标检测方法如图1所示。首先,本实施例设计了基于散度的对抗特征提取(afed)模块,利用非共享的残差块分别提取红外特征和可见光特征;利用由kl和js散度组成的融合散度损失函数计算每个残差块的输出特征值。损失监督双模特征提取网络产生对抗,并向提取更多差分双模特征学习。其次,本实施例提出了基于注意力的差分特征融合(adff)模块,该模块由三个部分组成:ir-attention、rgb-attention和f-attention。adff将提取的多尺度差分双模特征作为输入,实现更全面的差分特征融合。最后,将融合后的多
尺度特征组合到rpn中完成检测。
[0088]
二、基于散度的对抗特征提取模块
[0089]
afed中采用两个参数非共享的具有相同结构的多重残差网络作为骨干网络,其结构如图2所示。每个残差网络由三个残差块组成。通过连接残差块,将浅层细节特征和深层语义特征进行残差连接,可以得到包含更多信息的特征。
[0090]
另外,为了提取互补的红外差分特征和可见光特征,本实施例提出了一种融合散度损失函数,其由kl散度和js散度组成。本实施例使用其来度量红外特征与可见光特征之间的相似性。红外与可见光特征的相似度与kl和js散度值呈负相关。kl散度可表示为:
[0091][0092]
js散度可表示为:
[0093][0094]
基于kl散度和js散度定义的融合散度损失函数可表示为:
[0095][0096]
式中,f1和f2分别为两个骨干网络各resnet的最后一个卷积层输出的特征;f1和f2分别表示f1和f2中各个位置的像素强度,它们由softmax函数计算;n表示f1或f2中的特征个数,取最大值为n。三、基于注意力的差分特征融合
[0097]
使用ir-attention来关注红外特征中的有效信息,具体结构如图3所示。ir-attention模块在两个方向上执行注意力机制:通道注意力模块和空间注意力模块。
[0098]
在通道注意力模块中,本实施例利用信道方向信息之间的联系来生成相应的权值。首先,本实施例使用全局平均池化对输入进行挤压,得到然后,将f
1c
送入两个全连接层以获得权向量。最后,本实施例将权重向量重塑为rc×h×w。通道注意力模块可以表示为:
[0099]
mc=reshape(fc1(fc0(gap(f1))))
ꢀꢀꢀꢀꢀꢀꢀ
(4)
[0100]
其中fc为全连接层,gap为全局平均池化操作。
[0101]
在空间注意力模块中,为了处理不同空间位置的上下文信息,卷积运算需要较大的接受野。空间注意力模块可以表示为:
[0102]ms
=reshape(conv1(conv3(dconv(gap(f1)))))
ꢀꢀꢀꢀꢀꢀ
(5)
[0103]
式中,convi为核为i
×
i的卷积层,dconv为扩张卷积。分别得到通道注意力模块和空间注意力模块的权重后,本实施例将两者结合,得到输入特征f1的最终权值m(f1),可以表示为:
[0104]
m(f1)=σ(mc+ms)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0105]
其中σ为sigmoid函数,ir-attention模块处理后的红外特征图可表示为:
[0106]
f1’
=f1+f1*m(f1)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0107]
提出rgb-attention来生成具有上下文连接的可见光特征,如图3所示。将可见光特征f2输入到三个自注意力模块:通道注意力模块、高度注意力模块和宽度注意力模块,可以分别得到在通道维度、高度维度和宽度维度上具有相关性的特征。本实施例对通道注意
力模块进行详细的介绍,高度注意力模块和宽度注意力模块具有与通道注意力模块相似的结构。
[0108]
如图4中间部分所示,本实施例首先对输入特征图分别进行三次线性运算,可以得到query、key和value三个特征图,分别用e、f、g表示,其中接下来,将e重塑为将f重塑为后转置为可以得到通道注意力矩阵:
[0109][0110]
其中t
ji
表示第i个通道对第j个通道的影响,此相关性与t的值成正相关。同时,将g重塑为并对t和g进行矩阵乘法运算,将结果重塑为此为中间部分的子输出特征图。本实施例定义子输出为
[0111][0112]
如图4下半部分所示,本实施例使用全局平均池化f
sq
(
·
)将原始特征图压缩为该操作压缩了特征图的大小,同时保留了特征图的完整信息。m可以表示为:
[0113][0114]
其中h和w分别为原始特征图的高度和宽度。接下来,本实施例将m送入两个全连接层,得到激活值n可以表示为:
[0115]
n=f
ex
(m,ω)=σ(ω2δ(ω1m))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0116]
其中σ(
·
)和δ(
·
)分别为sigmoid函数和relu函数。其中,分别为第一个全连接层和第二个全连接层的权值,r为两个全连接层中隐藏层的神经元数量,设r为16。子输出特征图可表示为:
[0117][0118]
其中f
scale
(
·
,
·
)表示对应的元素相乘。
[0119]
最后,本实施例将得到的两个子输出特征图和与原始特征图f2线性组合,得到通道关注模块的总输出特征图
[0120][0121]
其中α和β的初始值均为0,随着学习过程最终确定权值。同样的,本实施例可以得到高度特征图f
2,h
和宽度特征图f
2,w
。最后,本实施例通过逐像素加法合并三个特征图,得到rgb-attention的输出,即具有上下文联系的可见光特征f2’
:
[0122]
f2’
=f
2,c
+f
2,h
+f
2,w
ꢀꢀꢀꢀꢀꢀꢀ
(14)
[0123]
使用f-attention融合不同的红外和可见光特征,尽可能多地保留有效的单模独特信息,同时保留双模特征的共性,如图3所示。
[0124]
f=f1'*conv1(conv1(f'))+f2'conv1(conv1(f'))+conv1(conv1(f'))
ꢀꢀꢀꢀꢀꢀꢀ
(15)
[0125]
最后,将f-attention输出的张量进行重构,即得到最终的融合特征。
[0126]
四、监督训练
[0127]
在训练过程中,本实施例使用多个损失函数来辅助模型进行误差分析,分别是基于融合散度的损失l
div
、分类损失和回归损失。总损失为三种损失的加权和,可以表示为:
[0128][0129]
其中,其中l
cls
和l
reg
分别是分类和回归的损失函数。pi和分别是第i个锚的包含物体的预测概率和其真实值。ti包含了第i个边界框的四个位置参数。包含了对应于第i个边界框的真实框的四个位置参数。n
cls
和n
reg
分别为小批量的大小和锚的数量。λ是回归损失函数的权值。
[0130]
五、分析与讨论
[0131]
为验证论文所提抗干扰方法的有效性,本实施例在两个数据集上评估了所提出的网络:icv数据集和cvc 14数据集。使用平均精度(map)来评估目标检测算法的性能,并使用pytorch框架来训练提出的网络。模型使用adam优化进行训练,每层初始学习率设置为1e-4,正则化权值衰减为1e-5。使用在imagenet数据集[20]上预训练好的参数初始化骨干网络,其余参数随机初始化。
[0132]
本实施例将提出的dfanet与几种先进的红外和可见光图像目标检测算法在两个数据集上进行比较。其中,传统方法有vj+pso[5],[6]、hog+svm[1]、dpm[7],基于深度学习的方法有yolov4[8]、faster-rcnn[9]、ssd[10]、mcdetection[11]、fusiondetection[12]、twofusion[13]、triplefusion[2]、iaf r-cnn[4]、ivod[3]。如表1和表2所示,dfanet每个类别的ap都高于其他方法。与次优模型(ivod)相比,该模型在两个数据集上的map分别提高了2.1%和3.9%,并且在轿车、客车和卡车类别上的改善更为显著。从结果可以看出,所提出的dfanet在检测大型目标方面表现出更强的鲁棒性,本实施例将此结果归因于互补的红外和可见光特征增强了目标检测。基于散度的损失函数使特征提取网络对抗,提取到了差分的包含结构信息的红外特征和包含纹理、颜色信息的可见光特征。此外,基于注意力机制的融合模块可以保留差分双模特征之间的差异,使融合特征包含更全面的双模信息。这种方法迫使网络更有效地利用互补的红外和可见光特征,以提高检测性能。
[0133]
表1icv数据集检测精度
[0134][0135]
表2cvc 14数据集检测精度
[0136][0137]
图5为其他深度学习检测算法与本发明算法在icv数据集和cvc 14数据集上得到的可视化结果,本实施例随机选择了六种不同的交通场景。结果表明,本实施例提出的算法能较好地检测出目标,对目标的识别更加准确和全面。
[0138]
进行了整体模块的消融实验。首先,本实施例去掉散度模块和注意力模块,使整个网络只包含主干和其他需要的架构,并将其记录为初始网络。为了评估网络各模块的有效性,本实施例进行了各种实验,如表3所示。在保持训练策略和处理流程不变的情况下,本实施例在初始模型中逐步增加散度模块和注意力模块。可以看出,随着各个模块的加入,检测map得到了提高;加入散度模块,在icv和cvc 14数据集上分别提升了5.8%和7.4%,加入注意力模块,两个数据集上分别提升了4.4%和5.9%。
[0139]
进行了散度模块的消融实验。首先,本实施例将发散模块从所提出的dfanet中移除,并将其作为基础网络。接下来,本实施例在基网络中分别加入js散度、kl散度和kl+js散度来辅助互补特征的提取,如图6所示。可以看出,每个模块对于检测精度的提升都有帮助,本实施例采用的kl散度与js散度相结合的方法是提高检测精度的最有效方法。
[0140]
进行了注意力模块的消融实验。首先,本实施例将注意力模块从所提出的dfanet中移除,并将其作为基础网络。接下来,本实施例将ir-attention、rgb-attention、f-attention、ir+rgb-attention和ir+rgb+f-attention分别添加到基础网络中,如图7所示。可以看出,加入单个注意力模块或多个注意力模块的组合都对模型的性能有贡献,经过试验有效验证了该模块的有效性。
[0141]
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor、dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于一种基于对抗学习中差分特征感知的红外可见光目标检测方法的操作,包括以下步骤:
[0142]
步骤一:基于由kl和js散度组成的融合散度,用非共享的特征提取网络分别提取差分的红外特征和可见光特征;
[0143]
步骤二:使用ir-attention模块和rgb-attention模块分别对步骤一中提取到的
红外特征和可见光特征进行再提取,更加关注红外特征图和可见光特征图中的有效信息;
[0144]
步骤三:使用f-attention模块对再提取到的差分的双模特征进行融合,保留双模特征的共性的同时追求其更多的差异信息;
[0145]
步骤四:使用rpn对融合的双模特征进行回归与分类,完成目标检测。
[0146]
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
[0147]
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关一种基于对抗学习中差分特征感知的红外可见光目标检测方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
[0148]
步骤一:基于由kl和js散度组成的融合散度,用非共享的特征提取网络分别提取差分的红外特征和可见光特征;
[0149]
步骤二:使用ir-attention模块和rgb-attention模块分别对步骤一中提取到的红外特征和可见光特征进行再提取,更加关注红外特征图和可见光特征图中的有效信息;
[0150]
步骤三:使用f-attention模块对再提取到的差分的双模特征进行融合,保留双模特征的共性的同时追求其更多的差异信息;
[0151]
步骤四:使用rpn对融合的双模特征进行回归与分类,完成目标检测。
[0152]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0153]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0154]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0155]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或
其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0156]
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
技术特征:
1.一种基于对抗学习中差分特征感知的红外可见光目标检测方法,其特征在于,包括以下步骤:步骤一:基于由kl和js散度组成的融合散度损失函数,用非共享的特征提取网络分别提取差分的红外特征和可见光特征;步骤二:使用ir-attention模块和rgb-attention模块分别对步骤一中提取到的红外特征和可见光特征进行再提取,更加关注红外特征图和可见光特征图中的有效信息;步骤三:使用f-attention模块对再提取到的差分的双模特征进行融合,保留双模特征的共性的同时追求其更多的差异信息;步骤四:使用rpn对融合的双模特征进行回归与分类,完成目标检测。2.根据权利要求1所述的一种基于对抗学习中差分特征感知的红外可见光目标检测方法,其特征在于:步骤一中,应用由kl散度和js散度组成的融合散度损失函数来度量红外特征和可见光特征之间的相似性;红外与可见光特征的相似度与kl和js散度值呈负相关;kl散度表示为:js散度表示为:基于kl散度和js散度定义的融合散度损失函数表示为:式中,式中,f1和f2分别为两个骨干网络各resnet的最后一个卷积层输出的特征;f1和f2分别表示f1和f2中各个位置的像素强度,它们由softmax函数计算;n表示f1或f2中的特征个数,取最大值为n。3.根据权利要求2所述的一种基于对抗学习中差分特征感知的红外可见光目标检测方法,其特征在于:步骤二中,所述ir-attention模块在两个方向上执行注意力机制,包括:通道注意力模块和空间注意力模块;在通道注意力模块中,利用信道方向信息之间的联系来生成相应的权值;首先,使用全局平均池化对输入进行挤压,得到然后,将f
1c
送入两个全连接层以获得权向量;最后,将权重向量重塑为r
c
×
h
×
w
;通道注意力模块表示为:m
c
=reshape(fc1(fc0(gap(f1))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)式中,fc为全连接层,gap为全局平均池化操作;在空间注意力模块中,空间注意力模块表示为:m
s
=reshape(conv1(conv3(dconv(gap(f1)))))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)式中,conv
i
为核为i
×
i的卷积层,dconv为扩张卷积;分别得到通道注意力模块和空间注意力模块的权重后;将通道注意力模块和空间注意力模块结合,得到输入特征f1的最终权值m(f1),表示为:m(f1)=σ(m
c
+m
s
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
式中,σ为sigmoid函数,ir-attention模块处理后的红外特征图表示为:f1’
=f1+f1*m(f1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)。4.根据权利要求3所述的一种基于对抗学习中差分特征感知的红外可见光目标检测方法,其特征在于:步骤二中rgb-attention模块用于生成具有上下文联系的可见光特征,将可见光特征f2输入到三个自注意力模块:通道注意力模块、高度注意力模块和宽度注意力模块,分别得到在通道维度、高度维度和宽度维度上具有相关性的特征;对通道注意力模块进行详细的介绍,高度注意力模块和宽度注意力模块具有与通道注意力模块相似的结构。5.根据权利要求4所述的一种基于对抗学习中差分特征感知的红外可见光目标检测方法,其特征在于:步骤二具体子步骤如下:首先对输入特征图分别进行三次线性运算,得到query、key和value三个特征图,分别用e、f、g表示,其中接下来,将e重塑为将f重塑为后转置为得到通道注意力矩阵:其中t
ji
表示第i个通道对第j个通道的影响,此相关性与t的值成正相关;同时,将g重塑为并对t和g进行矩阵乘法运算,将结果重塑为此为中间部分的子输出特征图;定义此子输出为特征图;定义此子输出为使用全局平均池化f
sq
(
·
)将原始特征图压缩为该操作压缩了特征图的大小,同时保留了特征图的完整信息;m表示为:其中h和w分别为原始特征图的高度和宽度;接下来,将m送入两个全连接层,得到激活值n表示为:n=f
ex
(m,ω)=σ(ω2δ(ω1m))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)其中σ(
·
)和δ(
·
)分别为sigmoid函数和relu函数;分别为第一个全连接层和第二个全连接层的权值,r为两个全连接层中隐藏层的神经元数量,设r为16;这部分的子输出特征图表示为:其中f
scale
(
·
,
·
)表示对应的元素相乘;最后,将得到的两个子输出特征图和与原始特征图f2线性组合,得到通道关注模块的总输出特征图的总输出特征图
其中α和β的初始值均为0,随着学习过程最终确定权值,得到高度特征图f
2,h
和宽度特征图f
2,w
;最后,通过逐像素加法合并三个特征图,得到rgb-attention的输出,即具有上下文联系的可见光特征f
’2:f
’2=f
2,c
+f
2,h
+f
2,w
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)。6.根据权利要求5所述的一种基于对抗学习中差分特征感知的红外可见光目标检测方法,其特征在于:步骤三中采用f-attention融合步骤二中得到的差分的红外特征与可见光特征;使用f-attention融合不同的红外和可见光特征,公式如下:f=f'1*conv1(conv1(f'))+f'2conv1(conv1(f'))+conv1(conv1(f'))
ꢀꢀꢀꢀꢀꢀꢀ
(15)最后,将f-attention输出的张量进行重构,即得到最终的融合特征。7.根据权利要求6所述的一种基于对抗学习中差分特征感知的红外可见光目标检测方法,其特征在于:步骤四中,采用rpn进行预测框的回归与目标的分类;在训练过程中,使用多个损失函数来辅助模型进行误差分析,分别是基于融合散度的损失l
div
、分类损失和回归损失;总损失为三种损失的加权和,表示为:其中,其中l
cls
和l
reg
分别是分类和回归的损失函数;p
i
和分别是第i个锚的包含物体的预测概率和其真实值;t
i
包含了第i个边界框的四个位置参数;包含了对应于第i个边界框的真实框的四个位置参数;n
cls
和n
reg
分别为小批量的大小和锚的数量;λ是回归损失函数的权值。8.一种计算机设备,其特征在于:包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1至7其中一项所述的红外可见光目标检测方法。9.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,该程序被处理器执行时实现权利要求1至7其中一项所述的红外可见光目标检测方法。
技术总结
本发明公开了一种基于对抗学习中差分特征感知的红外可见光目标检测方法,包括:基于由KL和JS散度组成的融合散度损失函数,用非共享的特征提取网络分别提取差分的红外特征和可见光特征;使用IR-Attention模块和RGB-Attention模块分别对提取到的红外特征和可见光特征进行再提取,更加关注红外特征图和可见光特征图中的有效信息;使用F-Attention模块对再提取到的差分的双模特征进行融合,保留双模特征的共性的同时追求其更多的差异信息;使用RPN对融合的双模特征进行回归与分类,完成目标检测。本发明的优点是:能够使特征提取网络产生对抗,尽可能多得提取双模独特信息,并且基于多种注意力机制的特征融合网络可以全面地融合互补的差分双模特征,从而提高模型的检测精度。检测精度。检测精度。
技术研发人员:张睿恒 李璐 徐立新 杨志东 余恒
受保护的技术使用者:北京理工大学
技术研发日:2023.06.05
技术公布日:2023/9/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种单星高精度协同遥感方法 下一篇:一种具有减震功能的热真空实验装置的制作方法