一种城市遥感图像目标检测方法和装置

未命名 08-22 阅读:94 评论:0


1.本发明涉及计算机视觉中的目标检测技术领域,特别涉及一种城市遥感图像目标检测方法和装置。


背景技术:

2.目前在面对不同方向目标时的遥感图像目标检测一直是该领域的难题。在现有的遥感图像目标检测技术中,检测方法主要可以分为基于传统机器学习的方法和基于深度学习的方法。基于传统机器学习的方法在给定图像上通过滑动窗口搜索目标并进行分类识别,通常需要人为手工设计特征。基于深度学习的方法一般包括图像特征提取、图像特征融合、目标分类回归、反向传播四步。
3.对于传统的遥感图像目标检测任务,大多数的算法普遍采用滑动窗口的方法来获取候选区域,并在此基础上进行感兴趣目标的分类识别,而这种方法预先需要人为手工设计特征,且设计的特征有时无法有效提取图像特征信息,而遥感图像存在较多尺度大小不一,角度方向各异的目标,更是阻碍了传统目标检测方法在遥感图像上的运用。随着深度学习技术的不断发展,越来越多的深度学习算法被运用到遥感领域,深度学习特有的大数据迁移学习方法使得遥感信息提取技术得到进一步的提升,遥感图像的纹理、形状等底层传统特征不仅被极大程度利用,而且通过提取遥感图像的语义特征使得对遥感目标的分类和识别更加快速准确,极大的提升了遥感图像目标检测的精度。然而,近几年大多数遥感图像目标检测算法使用的仍然是通用的水平框检测方法,虽然一定程度可以解决遥感图像多尺度和多目标的问题,但是仍然无法很好的解决遥感图像目标多角度的问题,尤其是物体导致的背景冗余干扰和边界框定位不准确的问题。在面对物体紧密排放时,由于通用水平框自身的弊端而导致多个边界框之间大量重叠,且引入过多背景等无用信息,极大程度上影响了遥感图像的检测效果,而对于旋转框检测方法来说,通过将边界框旋转适当角度,可以使得边界框更加贴合目标边缘,抑制了无用信息的干扰。因此,基于旋转框的遥感图像目标检测算法研究是遥感领域重要的研究方向。


技术实现要素:

4.本发明提供了一种城市遥感图像目标检测方法和装置,以解决现有技术很难对角度多变的城市遥感目标取得较好检测效果的技术问题。
5.为解决上述技术问题,本发明提供了如下技术方案:
6.第一方面,本技术实施例提出一种城市遥感图像目标检测方法,包括:
7.获取城市遥感图像,对图像进行预处理获取子图;
8.将子图输入混合注意力骨干网络进行特征提取,获取特征图;
9.构建双重检测网络,对特征图进行处理得到预测旋转边界框;
10.用smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值,得到新的边界框;
11.保留最优的边界框,输出最终检测结果。
12.进一步地,所述城市遥感图像为卫星或机载传感器拍摄的可见光图像;
13.所述预处理为将原图,切成多个小图输入网络注意力骨干网络,通过拼图与后处理,将子图预测结果再合并成大图。
14.进一步地,所述进行特征提取,包括:
15.将城市遥感图像ia输入到深度卷积神经网络模型中,通过混合自注意力对图像中目标的全局和局部信息进行特征提取,最终输出信息整合特征图ib。
16.进一步地,构建双重检测网络中的检测解耦网络,通过拆分分类回归操作分别预测目标的类别信息和位置角度信息,包括:
17.对于输入的特征图ib,经过分类处理得到目标的类别信息c,经过回归操作得到目标的位置和角度信息(x,y,w,h,θ),其中,x,y分别为边界框中心点的横坐标和纵坐标,h,w分别边界框的长度和宽度,θ为边界框的旋转角度。
18.进一步地,构建双重检测网络中的角度修正网络,同时通过角度回归操作得到目标的修正角度信息,得到修正后的预测旋转边界框,包括:
19.将特征图ib同样输入角度修正网络中进行回归操作得到修正角度信息θ

,θ、与θ

求l1范数得到偏差δθ,若δθ大于预设阈值x,则将θ

赋予θ以得到修正旋转角的目的,反之则保持不变,接着融合所得到位置和角度信息,最终输出预测旋转边界框。
20.进一步地,提出smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值,得到新的边界框,包括:
21.基于得到的预测旋转边界框,使用损失函数得到预测旋转边界框与真值之间的初始损失值;然后对城市遥感图像ia重新提取特征点,迭代预设次数,得到ia在真实标签监督下的损失值集合选取作为损失值la的最低损失结果,从而更新位置角度信息;其中,表示第n次迭代得到的损失值la的结果,n表示预设的迭代次数,max表示损失值最小的迭代次数。最终损失函数收敛得到新的边界框。
22.进一步地,所述保留最优的边界框,输出最终检测结果,包括:
23.对得到的所有边界框重新生成一个新的边界框列表,然后通过公式计算对边界框进行排序,得到最优边界框的坐标和置信度分数。
24.第二方面,本技术实施例还提出一种城市遥感图像目标检测装置,用于实现权本技术第一方面任意一项实施例所述的方法包括:获取模块、检测模块、选择模块。
25.所述获取模块,用于获取城市遥感图像,对图像进行预处理获取子图。
26.所述检测模块,包含混合注意力单元、双重检测网络单元和优化单元。所述混合注意力单元,用于对图像进行特征提取,获取特征图。所述双重检测网络单元,通过对特征图进行处理得到预测旋转边界框。所述优化单元,通过smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值得到新的边界框。
27.所述选择模块,用于保留最优的边界框,输出最终检测结果。
28.本技术实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本技术第一方面任一实施例所述的方法。
29.本技术实施例还提出一种电子设备,包括存储器,处理器及存储在存储器上并可
在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本技术第一方面任一实施例所述的方法。
30.本发明提供的技术方案带来的有益效果至少包括:
31.本发明提供的一种城市遥感图像目标检测方法和装置,首先利用预处理获取图像子图,通过混合注意力骨干网络对目标进行特征提取,然后使用双重检测网络对特征图进行分类回归以及角度修正,利用smooth-z损失函数优化预测值与真值的偏差,最后对边界框进行最优筛选,实现对城市遥感图像的精准目标检测。本发明提供的检测方法能够针对城市遥感图像,实现旋转目标的精准检测。
附图说明
32.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
33.图1是本发明实施例提供的一种城市遥感图像目标检测方法的流程示意图;
34.图2是本发明实施例提供的获取特征图的混合注意力网络结构示意图;
35.图3是本发明实施例提供的获取预测旋转边界框的双重检测网络结构示意图;
36.图4是本发明实施例提供的获取新的边界框的smooth-z损失函数优化更新方法的流程示意图;
37.图5是本发明实施例提供的最优边界框筛选方法的流程示意图;
38.图6是本发明城市遥感图像目标检测装置实施例。
具体实施方式
39.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
40.本发明的实施例提供了一种城市遥感图像目标检测方法,如图1所示,该方法包括以下步骤:
41.步骤110、获取城市遥感图像,对图像进行预处理获取子图;
42.步骤120、将子图输入混合注意力骨干网络进行特征提取,获取特征图;
43.步骤130、构建双重检测网络,对特征图进行处理得到预测旋转边界框;
44.步骤140、用smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值,得到新的边界框;
45.步骤150、保留最优的边界框,输出最终检测结果。
46.针对遥感图像目标检测的问题,本实施例提供了一种新型的城市遥感图像目标检测方法,该方法可以由电子设备实现。该方法将城市遥感图像输入计算机、基于混合注意力的图像特征提取、使用双重检测网络对特征图位置角度回归和修正角度信息、利用smooth-z损失函数求取旋转框偏差、采用最优边界框筛选方法筛选边界框,输出最后的旋转检测框。
47.进一步地,如图2所示,为实施步骤120,将子图输入混合注意力骨干网络进行特征
提取,获取特征图,具体包括:
48.采用混合注意力机制的方法对输入城市遥感子图进行特征提取。
49.混合注意力机制的主要过程是将输入特征图通过卷积操作进行特征压缩,压缩后的特征图输入多头自注意力模块中提取图像重点区域空间特征,然后通过上采样操作将特征图扩展到原本尺寸大小,并与输入特征图进行拼接连接,融合后的特征图再次进行如上操作得到局部特征。自注意力的公式如下:
[0050][0051]
其中,q代表问询向量,k代表键向量,v代表权值,dk代表着向量ki的维度数,t代表对矩阵进行转置。
[0052]
同时将特征图分别进行最大值池化和平均值池化,并将池化后的特征图进行通道相加操作,之后对相加特征图进行卷积和激活操作得到图像全局特征。两个新的特征图进行拼接操作融合为一个特征图即为混合注意力处理过程。
[0053]
进一步地,如图3所示,为实施步骤130,构建双重检测网络,对特征图进行处理得到预测旋转边界框,具体包括:
[0054]
构建双重检测网络中的检测解耦网络,通过拆分分类回归操作分别预测目标的类别信息和位置角度信息。
[0055]
对特征图进行分类操作,具体方式为:将目标的标签类别当作离散值,就可以把目标类别当作分类问题来处理。网络检测头采用的是分类器,根据要预测的目标类别的数量,分类器的输出也有对应的输出数量,分别对应正样本属于某个类别的预测得分,假设城市遥感图像训练集为{(x1,y1),(x2,y2),

,(xn,yn)},其中,xi表示检测头的输出特征向量;yi表示样本的真实值,值为预先设定的标签真是类别;n是训练集样本数量。网络前向传播之后,对于单个训练样本,分类器的输出可以表示为
[0056][0057]
其中,t表示矩阵的转置,wi是检测头中的神经元与softmax分类器第i个输出神经元相连接的权重参数;hw(x1)是一个概率向量,向量中的各项之和为1,每一项代表该样本属于对应类别的概率值,取概率最大的那个类别作为的分类结果。
[0058]
对特征图进行回归操作,具体方式为:首先对目标框的平移变化、尺寸变化和角度变化进行建模,然后采用l2范数正则化进行最小二乘线性回归,以避免过度拟合具有高维特征的数据,最终输出精修后的目标框。边框回归的目的是学习一种正确标注框(ground-truth box)到区域候选框(region proposal box)的映射关系。p=(p
x
,py,pw,ph,p
θ
),其中p代表区域候选框,x,y,w,h,θ分别表示图像矩形框中心的横纵坐标和矩形框的长度和宽度以及矩形框的旋转角度。g=(g
x
,gy,gw,gh,g
θ
,)其中,g代表正确标注框。通过五个可学习函数s
x
(p),sy(p),sw(p),sh(p),s
θ
(p)将区域候选框p转换为正确的标注框g,在实际情况中,由于误差的存在,转换后的边界框g

一般并不完全与正确标注框g重合。p到g

的变换包含边界框的平移变换和尺度变换。s
x
(p),sy(p)对应如下的边界框平移变换:g

x
=pws
x
(p)+p
x
,g′y=phsy(p)+py,sw(p),sh(p)对应如下的边界框平移变换:
[0059]g′w=pwexp(sw(p)),g
′h=phexp(sh(p)),
[0060]sθ
(p)对应如下的角度变换:g

θ
=p
θ
+sw(p)+kπ。
[0061]
构建双重检测网络中的角度修正网络,同时通过角度回归操作得到目标的修正角度信息,得到修正后的预测旋转边界框。
[0062]
具体方式为:将特征图ib同样输入修正网络中进行回归操作得到修正角度信息θ

,θ、θ

分别与真实值求l1范数得到各自偏差,若θ

得到的偏差最小,则将θ

赋予θ以得到修正旋转角的目的,反之则保持不变,角度修正变换可表示为δθ=min((p
θ
′-g
θ
),(p
θ-g
θ
)),之后使用角度修正变换δθ替换sw(p)即可得到修正后的角度g

θ

[0063]
进一步地,如图4所示,为实施步骤140,用smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值,得到新的边界框,具体包括:
[0064]
用smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值,得到新的边界框。
[0065]
其中,smooth-z损失函数的设计过程如下:
[0066]
当训练过程中对旋转框边界进行计算时,考虑到通用检测头在水平边界框分类及回归的过程中,两者相关性较弱,这就导致了分类得分与回归定位无法有效的关联在一起,所得到的结果不够可靠。因此在锚框分配中采用了匹配度衡量两者的关联程度,促进回归损失进一步收敛,回归的参数如下:
[0067][0068][0069][0070][0071]
其中x,y,w,h,θ分别表示真实框的中心坐标、宽度、高度和角度;xa,ya,wa,ha,θa分别表示锚框的中心坐标、宽度、高度和角度;x

,y

,w

,h

,θ

分别表示预测边界框的中心坐标、宽度、高度和角度;l
x
表示锚框与真实值的x偏差,ly,lw,ly,lθ同理;l

x
表示预测边界框与锚框的x偏差,l
′y,l
′w,l
′h,l

θ
同理。
[0072]
基于上述,在本实施例中,上述优化迭代优化执行过程如下:
[0073]
(1)先计算每一层的状态和激活值,直到最后一层;
[0074]
(2)计算每一层的误差,误差的计算过程是从最后一层向前推进的;
[0075]
(3)计算每个神经元连接权重的梯度;
[0076]
(4)根据梯度下降法则更新参数。
[0077]
迭代以上步骤,直到满足停止准则。
[0078]
进一步地,如图5所示,为实施步骤150,提出最优边界框筛选方法保留最优的边界框,输出最终检测结果,具体包括:
[0079]
首先为每个目标的边界框重新生成一个新的边界框列表,然后通过公式计算的得到最优边界框的坐标和置信度分数。其中最优边界框的置信度设置为形成它的所有框的平均置信度,最优边界框的坐标是构成它的框的坐标的加权总和,其中权重是相应框的置信度得分,计算公式如下
[0080][0081]
其中,c为最优边界框的置信度,ci为列表中第i个检测框的置信度,a为最优选择系数,(x,y)为更新后列表中融合框的坐标,n表示边界框的数量。因此,具有较高置信度的框比具有较低置信度的框对融合框坐标的贡献更大。
[0082]
为实现本技术第一方面任意一项实施例的方法,本技术实施例还提出一种城市遥感图像目标检测装置,如图6所示,包括:
[0083]
获取模块610,获取城市遥感图像,对图像进行预处理获取子图,如步骤110;
[0084]
检测模块600,进一步包含混合注意力单元620、双重检测网络单元630、优化单元640。其中所述混合注意力单元,用于对图像进行特征提取,获取特征图,如步骤120;
[0085]
所述双重检测网络单元,通过对特征图进行处理得到预测旋转边界框,如步骤130。
[0086]
所述优化单元,通过smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值得到新的边界框,如步骤140。
[0087]
选择模块650,用于保留最优的边界框,输出最终检测结果,如步骤160。
[0088]
进一步地,本技术装置各模块用于实施步骤110~150的进一步优化的实施例,见附图2~6及相关说明,这里不再赘述。
[0089]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0090]
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
[0091]
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0092]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备
以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0093]
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0094]
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

技术特征:
1.一种城市遥感图像目标检测方法,其特征在于,包括:获取城市遥感图像,对图像进行预处理获取子图;将子图输入混合注意力骨干网络进行特征提取,获取特征图;构建双重检测网络,对特征图进行处理得到预测旋转边界框;用smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值,得到新的边界框;保留最优的边界框,输出最终检测结果。2.如权利要求1所述的一种城市遥感图像目标检测方法,其特征在于,所述城市遥感图像为卫星或机载传感器拍摄的可见光图像;所述预处理为将原图,切成多个小图输入网络注意力骨干网络,通过拼图与后处理,将子图预测结果再合并成大图。3.如权利要求2所述的一种城市遥感图像目标检测方法,其特征在于,所述进行特征提取,包括:将城市遥感图像i
a
输入到深度卷积神经网络模型中,通过混合自注意力对图像中目标的全局和局部信息进行特征提取,最终输出信息整合特征图i
b
。4.如权利要求1所述的一种城市遥感图像目标检测方法,其特征在于,构建双重检测网络中的检测解耦网络,通过拆分分类回归操作分别预测目标的类别信息和位置角度信息,包括:对于输入的特征图i
b
,经过分类处理得到目标的类别信息c,经过回归操作得到目标的位置和角度信息(x,y,w,h,θ),其中,x,y分别为边界框中心点的横坐标和纵坐标,h,w分别为边界框的长度和宽度,θ为边界框的旋转角度。5.如权利要求1所述的一种城市遥感图像目标检测方法,其特征在于,构建双重检测网络中的角度修正网络,同时通过角度回归操作得到目标的修正角度信息,得到修正后的预测旋转边界框,包括:将特征图i
b
同样输入角度修正网络中进行回归操作得到修正角度信息θ

,θ、与θ

求l1范数得到偏差δθ,若δθ大于预设阈值x,则将θ

赋予θ以得到修正旋转角的目的,反之则保持不变,接着融合所得到位置和角度信息,最终输出预测旋转边界框。6.如权利要求5所述的一种城市遥感图像目标检测方法,其特征在于用smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值,得到新的边界框,包括:基于得到的预测旋转边界框,使用损失函数得到预测旋转边界框与真值之间的初始损失值;然后对城市遥感图像i
a
重新提取特征点,迭代预设次数,得到i
a
在真实标签监督下的损失值集合选取作为损失值l
a
的最低损失结果,从而更新位置角度信息;其中,表示第n次迭代得到的损失值l
a
的结果,n表示预设的迭代次数,max表示损失值最小的迭代次数;最终损失函数收敛得到新的边界框。7.如权利要求1所述的一种城市遥感图像目标检测方法,其特征在于,所述保留最优的边界框,输出最终检测结果,包括:对得到的所有边界框重新生成一个新的边界框列表,然后通过公式计算对边界框进行
排序,得到最优边界框的坐标和置信度分数。8.一种城市遥感图像目标检测装置,用于实现权利要求1~7任意一项所述的方法,其特征在于,包括:获取模块,用于获取城市遥感图像,对图像进行预处理获取子图;检测模块,包含混合注意力单元、双重检测网络单元和优化单元;所述混合注意力单元,用于对图像进行特征提取,获取特征图。所述双重检测网络单元,通过对特征图进行处理得到预测旋转边界框。所述优化单元,通过smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值得到新的边界框。选择模块,用于保留最优的边界框,输出最终检测结果。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7任意一项所述的方法。10.一种电子设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7任意一项所述的方法。

技术总结
本发明公开了一种城市遥感图像目标检测方法和装置,包括:获取城市遥感图像,对图像进行预处理获取子图;将子图输入混合注意力骨干网络进行特征提取,获取特征图;构建双重检测网络,对特征图进行处理得到预测旋转边界框;用smooth-z损失函数获取预测旋转边界框与真值之间的偏差,通过迭代优化损失值,得到新的边界框;保留最优的边界框,输出最终检测结果。本发明的方法和装置能够针对卫星或机载航拍城市遥感图像,实现俯瞰视角下方向各异的城市遥感目标精准检测,具有通用性。具有通用性。具有通用性。


技术研发人员:蓝金辉 张铖
受保护的技术使用者:北京科技大学
技术研发日:2023.04.17
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐