一种基于孪生网络的四足机器人目标跟踪方法

未命名 08-15 阅读:51 评论:0


1.本发明涉及计算机视觉单目标跟踪领域,特别涉及一种基于孪生网络的四足机器人目标跟踪方法。


背景技术:

2.目标跟踪是计算机视觉中一个非常重要的研究领域。它在智能视频监控、自动监控、人机交互、机器人视觉导航等许多领域都有非常广泛的应用。给定初始帧中目标的位置和大小,目标跟踪的目标是估计后续帧中目标的位置和大小。尽管近年来取得了许多进展,但由于目标跟踪过程中存在许多影响因素,如照明变化、遮挡和背景杂乱,摄像头的剧烈运动等,设计一种高鲁棒性的跟踪器依然极具挑战。
3.近年来,四足机器人技术得到了迅速的发展,相比轮式机器人,四足机器人具备在复杂地形环境下灵活运动的能力,拥有更为广阔的发展前景。因此,深入研究四足机器人并提升其智能化程度具有重要意义。在许多场景中,需要能够在一般轮式机器人无法通过的复杂路面上行驶的机器人。由于四足机器人需要在各种复杂的环境中移动,如台阶、斜坡等,机器人在颠簸崎岖的路面运动时,会产生相机抖动,这为面向四足机器人的目标跟踪带来了独特的挑战和困难。相对于普通视频中的目标跟踪,相机的运动范围非常大。当在碎石或滑冰上行走时,相机的运动会变得更剧烈,并伴随着抖动,因此,物体在相邻帧中的位置会发生很大变化。同时四足机器人不仅在室内行走,而且在室外行走,这使得在目标跟踪过程中发生剧烈的光照变化,跟踪算法需要具有很高的鲁棒性。
4.现有的基于相关滤波的跟踪方法,虽然具有很高的跟踪速度,但是没有充分有效的对目标的特征进行利用,导致跟踪过程中容易出现失败。而现有基于孪生网络的方法在大量的数据集上进行离线训练,在跟踪过程中模型固定,将搜索区域输入到网络中对目标进行跟踪,缺少在线更新模块,目标形状和外观变化对跟踪器的影响较大。


技术实现要素:

5.发明目的:本发明针对四足机器人视角下的目标跟踪所面临的问题,提出一种基于孪生网络的四足机器人目标跟踪方法,以解决现有技术在四足机器人视角下进行目标跟踪存在的问题,提升跟踪精度的同时减少跟踪器由于摄像头的剧烈变化带来的跟踪失败问题。
6.技术方案:本发明所提出的基于孪生网络的四足机器人目标跟踪方法采用多路架构提高跟踪时的精度和鲁棒性。为了解决四足机器人运动过程中带来的相机抖动的问题,提出了一个图像对齐模块,在进行图像进行特征提取前进行初步的定位,使得目标始终处于搜索区域内,减少跟踪器丢失目标的次数。为了解决目标跟踪过程中尺度变化的问题,提出了一个尺度自适应模块,适应跟踪过程中目标的尺度变化,同时在线更新的回归子网络适应光照及目标形状等的变化。
7.一种基于孪生网络的四足机器人目标跟踪方法,具体步骤如下:
8.步骤1:数据预处理。首先需要将跟踪的视频进行处理成连续的视频帧,将待处理的视频帧进行数据类型转换。有利于提高后续过程的运行效率。对视频帧的处理包括:读取图片并将图片转化为rgb格式;将数据类型转化为tensor型。
9.步骤2:构建图像对齐模块。具体过程如下,给定经过预处理后的初始帧和当前需要跟踪的图像帧,以及初始帧中目标的位置。在图像输入网络进行特征提取前,对预处理后的初始帧和当前帧两张图片进行对齐和配准。首先利用sift方法找到两张图片的特征点,利用orb特征匹配算法对两张图片的特征点进行配准,根据配准点计算两张图片的转换矩阵h,计算方法采用随机样本一致性的估计方法,转换矩阵h如下所示:
[0010][0011]
其中h为转换矩阵,h
11
…h33
为转换矩阵的每个元素值。
[0012]
通过计算的转换矩阵对两张图片中的目标位置进行对齐,即通过上一帧的目标位置估计目标在当前帧中的大致位置,在上一帧中目标的位置表示为:
[0013][0014]
其中,p
l
为上一帧中目标的位置坐标,x
l
,y
l
为坐标值。
[0015]
在当前帧中目标的估计位置表示为:
[0016][0017]
其中,pn为当前帧中目标的估计位置坐标,xn,yn为坐标值。
[0018]
当前帧中的目标估计位置坐标可以通过上一帧中的目标位置和转换矩阵进行计算,计算方式如下:
[0019][0020]
其中,xn,yn为当前帧中目标的估计坐标值。x
l
,y
l
为前一帧中目标的坐标值。h为转换矩阵,h
11
…h33
为转换矩阵的每个元素值。
[0021]
步骤3:通过第一帧中的目标的位置对初始帧进行裁剪,获取模板图。通过步骤2计算出来的目标估计位置pn对当前图片进行裁剪,获取搜索图。
[0022]
首先计算需要剪切模板图和搜索图的边长。定义模板图的边长为sz,搜索图的边长为sx。模板图边长的计算公式如下:
[0023][0024]
其中,w,h分别为目标的宽度和长度,α为预设的缩放因子,sz为初始帧中剪切模板图的正方形的边长。
[0025]
搜索图边长的计算过程如下:
[0026]
pad=(s-t)/(sz*β)
[0027]
sx=sz+2*pad
[0028]
其中,s为预设的搜索图的边长,t为预设模板图的边长,sz为从图片中剪切模板图
的正方形的边长,pad为搜索图相对于模板图在图像边缘填充的大小,β为预设模板缩放因子。然后可以计算出搜索图边长,sx为从图片中剪切搜索图正方形的边长,sz为从图片中剪切模板图的正方形的边长。
[0029]
得到从图片中剪切模板图的正方形的边长sz和从图片中剪切搜索图的正方形的边长sx后,在当前帧中以步骤1得到的估计目标位置pn为中心剪切得到搜索图,同时获取在第一帧中以目标中心剪切获取模板图,如果正方形区域超出原图片的边界,就用像素均值进行填充。然后将剪切得到的模板图缩放为127
×
127的大小,将搜索图缩放为255
×
255的大小。
[0030]
步骤4:构建如图1所示的深度孪生网络模型。将步骤3中剪切得到的模板图和搜索图送入训练好的特征提取子网络,通过特征提取子网络对步骤3中剪切得到的模板图和搜索图进行特征提取,并将其拼接聚合。然后通过尺度自适应子网络产生多个候选的跟踪框。最后,利用回归子网络基于特征提取子网络的特征生成高斯响应图,并根据高斯响应图选择最终的跟踪结果。
[0031]
本文中采用resnet-50作为特征提取子网络,并将模板图和搜索图经过特征提取网络的conv3_3,conv4_6和conv5_3卷积层的特征进行拼接聚合。特征提取子网络进行离线训练。为便于理解,本说明文中所描述的卷积层参数依次表示为:输入通道数_输出通道数_卷积核大小
×
卷积核大小_步长。
[0032]
对三个卷积层输出特征进行缩放并拼接聚合。使用(512_256_1
×
1_1)卷积层,(1024_256_1
×
1_1)卷积层,(2048_256_1
×
1_1)卷积层分别对conv3_3,conv4_6和conv5_3卷积层的输出特征进行通道的缩放,将三个卷积层的输出的特征的通道数缩放到256。
[0033]
将缩放后的特征进行拼接聚合,拼接聚合方式如下:
[0034][0035][0036]
其中,z是经过拼接后的模板特征,x是经过拼接后的搜索区域特征,α
l
,β
l
为拼接聚合的权重,l为卷积层的序号,z
l
为三个卷积层输出的模板特征经过缩放的特征,大小为256
×7×
7,x
l
为三个卷积层输出的搜索区域特征,大小为256
×
31
×
31,其中l∈{3,4,5}。
[0037]
步骤5:构建尺度自适应子网络。将拼接好的特征送入尺度自适应子网络进行预测,如图2所示,尺度自适应子网络包括特征调整层,深度相关层和监督层,深度相关层用于得到模板特征和搜索区域特征的相似性响应图,首先将模板特征转化为256
×1×5×
5大小的特征图,然后将其与搜索区域特征进行相关运算,从而得到相似性响应图,监督层有两个分支,包括一个用于前景和背景分类的类别回归层和一个用于目标跟踪框长和宽以及位置的回归。尺度自适应子网络进行离线训练。
[0038]
设定k个预测的锚点,网络需要输出k个通道用于输出预测跟踪框的概率,输出4*k个通道用于回归目标框的大小。首先,尺度自适应子网络利用4个参数不共享的特征调整层,增加模板特征z和搜索区域x的通道数,对模板特征和搜索区域特征的差异进行编码,使
得特征更适合目标跟踪任务,编码后的特征变成两个分支,经过深度相关操作后,得到的响应图,分别用于分类和回归得到分类分支增加通道后的模板特征[za]
cls
和搜索区域特征[xa]
cls
,以及回归分支增加通道后的模板特征[za]
reg
和搜索区域特征[xa]
reg
。特征调整层为一个“卷积-归一化-激活函数”块,卷积核的参数为(256_256_3
×
3_1)。
[0039]
然后对分类和回归两个分支同时进行深度相关操作,深度相关操作如下所示:
[0040][0041][0042]
其中,w,h分别为目标的宽和高。[za]
cls
和[xa]
reg
为增加通道后的模板特征,[xa]
cls
和[xa]
reg
为增加通道后的搜索区域特征,*表示相关操作,表示每个锚点处预测框的概率,表示区域生成网络输出的回归的结果,包含k组预测值,每组包含4个通道向量,分别为dx,dy,dw,dz,其中,dx为锚点x坐标与目标实际x坐标的差值,dy为锚点y坐标与目标实际y坐标的差值,dw为预测框的宽度与目标实际宽度的差值,dh为预测框的高度与目标实际高度的差值。
[0043]
网络预测出的候选框的尺寸可通过以下公式计算:
[0044]
xr=xm+wm*dx
[0045]
yr=ym+hm*dy
[0046]
wr=wm*e
aw
[0047]hr
=hm*e
ah
[0048]
其中,xr,yr,wr,hr分别为最后的候选框坐标和长宽。xm,ym,wm,hm分别为每个锚点的坐标及长和宽,dx,dy,dw,dz为网络预测的锚点和目标实际位置之间的偏移量值。
[0049]
步骤6:构建回归子网络。在深度孪生网络中的特征提取子网络之后,回归子网络利用初始帧经过图1中特征提取子网络conv5_3卷积层的输出特征进行训练,输出以目标位置为中心的二维高斯响应图。回归子网络模块包括一个卷积核参数为(256_1_1
×
1_1)的卷积层和一个卷积核大小为(1_1_w
×
h_1)的卷积层,其中第一个卷积层用于降低深度特征的维度,降低计算资源的占用,第二个卷积层用于生成高斯响应图,定位目标的可能的位置,卷积核的大小和所跟踪目标的尺寸相同,w,h分别为目标的宽和高。
[0050]
得到高斯响应图后,在步骤5得到的候选跟踪框中选取概率大的前10个预测框,将预测框和该高斯响应图区域计算重合度,重合度最高的框即为最终的预测值。重合度计算公式如下:
[0051]
r=mr0+nr
p
[0052]
其中,r0是尺度自适应子网络输出的预测框和高斯响应图的重叠率,r
p
是尺度自适应子网络得到的该预测框的概率分数,m,n为预设的系数。最后选择拥有最大的r值的预测框作为最后的跟踪结果。
[0053]
与现有技术相比,本发明的优点和有益效果:本发明采用图像对齐模块和深度孪生网络模块相结合,有效解决了四足机器人在目标跟踪过程中,由于运动引起的相机抖动而导致跟踪算法容易失去目标的问题。
附图说明
[0054]
图1为本跟踪方法的流程图。
[0055]
图2为本跟踪方法中对齐模块的流程图。
[0056]
图3为本跟踪方法中尺度自适应子网络的流程图。
具体实施方式
[0057]
本发明首先通过对当前帧和第一帧进行配准和对齐,然后在对齐后的目标周围进行剪切,将剪切后的图像送入特征提取网络中进行特征的提取,再将提取后的模板特征和搜索区域特征送入尺度自适应子网络,最后通过回归子网络对结果进行选择。得到最终的预测结果。
[0058]
下面结合附图和实例进行详细说明本发明的技术方案。
[0059]
步骤1:数据预处理。首先需要将跟踪的视频进行处理成连续的视频帧,将待处理的视频帧进行数据类型转换。有利于提高后续过程的运行效率。对视频帧的处理包括:读取图片并将图片转化为rgb格式;将数据类型转化为tensor型。
[0060]
步骤2:构建图像对齐模块,本发明为了解决四足机器人运动过程中造成的相机抖动,最后导致的目标位置剧烈变化的问题。具体过程如下,给定经过预处理后的初始帧和当前需要跟踪的图像帧,以及初始帧中目标的位置。在图像输入网络进行特征提取前,对预处理后的初始帧和当前帧两张图片进行对齐和配准。首先利用sift方法找到两张图片的特征点,利用orb特征匹配算法对两张图片的特征点进行配准,根据配准点计算两张图片的转换矩阵h,计算方法采用随机样本一致性的估计方法,转换矩阵h如下所示:
[0061][0062]
其中h为转换矩阵,h
11
…h33
为转换矩阵的每个元素值。
[0063]
通过计算的转换矩阵对两张图片中的目标位置进行对齐,即通过上一帧的目标位置估计目标在当前帧中的大致位置,在上一帧中目标的位置表示为:
[0064][0065]
其中,p
l
为上一帧中目标的位置坐标,x
l
,y
l
为坐标值。
[0066]
在当前帧中目标的估计位置表示为:
[0067][0068]
其中,pn为当前帧中目标的估计位置坐标,xn,yn为坐标值。
[0069]
当前帧中的目标估计位置坐标可以通过上一帧中的目标位置和转换矩阵进行计算,计算方式如下:
[0070][0071]
其中,xn,yn为当前帧中目标的估计坐标值。x
l
,y
l
为前一帧中目标的坐标值。h为转
换矩阵,h
11
…h33
为转换矩阵的每个元素值。
[0072]
步骤3:通过第一帧中的目标的位置对初始帧进行裁剪,获取模板图。通过步骤2计算出来的目标估计位置pn对当前图片进行裁剪,获取搜索图。
[0073]
首先计算需要剪切的模板图和搜索图的边长。定义模板图的边长为sz,搜索图的边长为sx。模板图边长的计算公式如下:
[0074][0075]
其中,w,h分别为目标的宽度和长度,α为预设的缩放因子,sz为从图片中剪切模板图的正方形的边长。
[0076]
搜索图边长的计算过程如下:
[0077]
pad=(s-t)/(sz*β)
[0078]
sx=sz+2*pad
[0079]
其中,s为预设的搜索图的边长,在本实例中设为300,t为预设模板图的边长,在本实例中设为150。sz为从图片中剪切模板图的正方形的边长,pad为搜索图相对于模板图在图像边缘填充的大小,β为预设模板缩放因子,在本实例中设为0.8。然后可以计算出搜索图边长sx为从图片中剪切搜索图正方形的边长,sz为从图片中剪切模板图的正方形的边长。
[0080]
得到从图片中剪切模板图的正方形的边长sz和从图片中剪切搜索图的正方形的边长sx后,在当前帧中以步骤1得到的估计目标位置pn为中心剪切得到搜索图,同时获取在第一帧中以目标中心剪切获取模板图,如果正方形区域超出原图片的边界,就用像素均值进行填充。然后将剪切得到的模板图缩放为127
×
127的大小,将搜索图缩放为255
×
255的大小。
[0081]
步骤4:构建如图1所示的深度孪生网络模型。通过特征提取子网络对步骤3中剪切得到的模板图和搜索图进行特征提取,并将其拼接聚合。然后通过尺度自适应子网络产生多个候选的跟踪框。最后,利用回归子网络基于特征提取子网络的特征生成高斯响应图,并根据高斯响应图选择最终的跟踪结果。
[0082]
本文中采用resnet-50作为特征提取子网络,并将模板图和搜索图经过特征提取网络的conv3_3,conv4_6和conv5_3卷积层的特征进行拼接聚合。特征提取子网络进行离线训练。为便于理解,本说明文中所描述的卷积层参数依次表示为:输入通道数_输出通道数_卷积核大小
×
卷积核大小_步长。
[0083]
对三个卷积层输出特征进行缩放并拼接聚合。使用(512_256_1
×
1_1)卷积层,(1024_256_1
×
1_1)卷积层,(2048_256_1
×
1_1)卷积层分别对conv3_3,conv4_6和conv5_3卷积层的输出特征进行通道的缩放,将三个卷积层的输出的特征的通道数缩放到256。
[0084]
将缩放后的特征进行拼接聚合,拼接聚合方式如下:
[0085][0086][0087]
其中,z是经过拼接后的模板特征,x是经过拼接后的搜索区域特征,α
l
,β
l
为拼接聚
合的权重,l为卷积层的序号,z
l
为三个卷积层输出的模板特征经过缩放的特征,大小为256
×7×
7,x
l
为三个卷积层输出的搜索区域特征,大小为256
×
31
×
31,其中l∈{3,4,5}。
[0088]
步骤5:构建尺度自适应子网络。将拼接好的特征送入尺度自适应子网络进行预测,如图2所示,尺度自适应子网络包括特征调整层,深度相关层和监督层。深度相关层用于得到模板特征和搜索区域特征的相似性响应图,首先将模板特征转化为256
×1×5×
5大小的特征图,然后将其与搜索区域特征进行相关运算,从而得到相似性响应图。监督层有两个分支,包括一个用于前景和背景分类的类别回归层和一个用于目标跟踪框长和宽以及位置的回归。尺度自适应子网络进行离线训练。
[0089]
在本实例中锚点的数量k设定为400,网络需要输出400个通道用于输出预测跟踪框的概率,输出4*400个通道用于回归目标框的大小。首先,尺度自适应子网络利用4个参数不共享的特征调整层,增加模板特征z和搜索区域x的通道数,对模板特征和搜索区域特征的差异进行编码,使得特征更适合目标跟踪任务,编码后的特征变成两个分支,经过深度相关操作后,得到的响应图,分别用于分类和回归,得到分类分支增加通道后的模板特征[za]
cls
和搜索区域特征[xa]
cls
,以及回归分支增加通道后的模板特征[za]
reg
和搜索区域特征[xa]
reg
。特征调整层为一个“卷积-归一化-激活函数”块,卷积核的参数为(256_256_3
×
3_1)。
[0090]
然后对分类和回归两个分支同时进行深度相关操作,深度相关操作如下所示:
[0091][0092][0093]
其中,w,h分别为目标的宽和高。[za]
cls
和[xa]
reg
为增加通道后的模板特征,[xa]
cls
和[xa]
reg
为增加通道后的搜索区域特征,*表示相关操作,表示每个锚点处预测框的概率,表示区域生成网络输出的回归的结果,包含k组预测值,每组包含4个通道向量,分别为dx,dy,dw,dz,其中,dx为锚点x坐标与目标实际x坐标的差值,dy为锚点y坐标与目标实际y坐标的差值,dw为预测框的宽度与目标实际宽度的差值,dh为预测框的高度与目标实际高度的差值。
[0094]
网络预测出的候选框的尺寸可通过以下公式计算:
[0095]
xr=xm+wm*dx
[0096]
yr=ym+hm*dy
[0097]
wr=wm*e
dw
[0098]hr
=hm*e
dh
[0099]
其中,xr,yr,wr,hr分别为最后的候选框坐标和长宽。xm,ym,wm,hm分别为每个锚点的坐标及长和宽,dx,dy,dw,dz为网络预测的锚点和目标实际位置之间的偏移量值。
[0100]
步骤6:构建回归子网络。在深度孪生网络中的特征提取网络之后,回归子网络利用初始帧经过图1中特征提取子网络conv5_3卷积层的输出特征进行训练,输出以目标位置为中心的二维高斯响应图,在本实例中,每隔10帧更新一次回归网络参数。回归子网络模块包括一个卷积核参数为(256_1_1
×
1_1)的卷积层和一个卷积核大小为(1_1_w
×
h_1)的卷积层,其中第一个卷积层用于降低深度特征的维度,降低计算资源的占用,第二个卷积层用
于生成高斯响应图,定位目标的可能的位置,卷积核的大小和所跟踪目标的尺寸相同,w,h分别为目标的宽和高。
[0101]
得到高斯响应图后,在步骤5得到的候选跟踪框中选取概率大的前10个预测框,将预测框和该高斯响应图区域计算重合度,重合度最高的框即为最终的预测值。重合度计算公式如下:
[0102]
r=mr0+nr
p
[0103]
其中,r0是尺度自适应子网络输出的预测框和高斯响应图的重叠率,r
p
是尺度自适应子网络得到的该预测框的概率分数,m,n为预设的系数。最后选择拥有最大的r值的预测框作为最后的跟踪结果。
[0104]
重复以上步骤完成连续视频帧中目标的跟踪。
[0105]
本文中所描述的具体实施例仅仅是对本发明精神作举例说明,本发明所属技术领域的技术人员可对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但不会偏离本发明的精神或超越所附权利要求书所定义的范围。

技术特征:
1.一种基于孪生网络的四足机器人目标跟踪方法,其特征在于,包括如下步骤:步骤1,数据预处理,步骤2,构建图像对齐模块,在将图像输入特征提取子网络前,获取目标在当前帧中的估计位置,首对预处理后的初始帧和当前帧两张图片进行对齐和配准,然后利用计算得到的转换矩阵,将初始帧中的位置映射到当前帧中,得到当前帧中目标的估计位置,然后进行后续的特征提取过程;步骤3,利用步骤2中得到的目标在当前帧中的估计位置,对图像进行剪切,首先通过第一帧中的目标的位置对初始帧进行裁剪,获取一个以目标位置为中心形状为正方形的模板图,通过步骤2计算出来的目标估计位置对当前帧进行裁剪,获取以目标估计位置为中心形状为正方形搜索图;步骤4,构建特征提取子网络,将步骤3中剪切得到的模板图和搜索图送入训练好的特征提取子网络,将模板图和搜索图经过特征提取子网络的conv3_3,conv4_6和conv5_3卷积层输出特征进行拼接聚合,将聚合后的特征用于后续的尺度自适应子网络进行尺度预测;采用resnet-50作为特征提取子网络,特征提取子网络进行离线训练;步骤5,构建尺度自适应子网络,将拼接好的特征送入尺度自适应子网络进行预测,尺度自适应子网络包括特征调整层,深度相关层和监督层,深度相关层用于得到模板特征和搜索区域特征的相似性响应图,监督层有两个分支,一个用于前景和背景的分类,另外一个用于目标跟踪框长和宽,以及位置的回归,最后输出多个候选的跟踪框;步骤6,构建回归子网络,在深度孪生网络中的特征提取网络之后,回归子网络利用初始帧经过特征提取子网络中conv5_3卷积层的输出特征进行训练,输出以目标位置为中心的二维高斯响应图,将当前帧经过特征提取子网络中conv5_3卷积层的输出特征输入回归子网络,得到当前搜索区域的高斯响应图,然后对步骤5中得到的多个候选跟踪框进行选择,得到最终的跟踪结果。2.如权利要求1所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:步骤1具体方法如下:首先需要将跟踪的视频进行处理成连续的视频帧,将待处理的视频帧进行数据类型转换,对视频帧的处理包括:读取图像并将图像转化为rgb格式;将数据类型转化为tensor型。3.如权利要求1所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:步骤2具体方法如下:给定经过预处理后的初始帧和当前需要跟踪的图像帧,以及初始帧中目标的位置,在图像输入网络进行特征提取前,对预处理后的初始帧和当前帧两张图片进行对齐和配准,首先利用sift方法找到两张图片的特征点,利用orb特征匹配算法对两张图片的特征点进行配准,根据配准点计算两张图片的转换矩阵h,计算方法采用随机样本一致性的估计方法,转换矩阵h如下所示:其中h为转换矩阵,h
11

h
33
为转换矩阵的每个元素值;通过计算的转换矩阵对两张图片中的目标位置进行对齐,即通过上一帧的目标位置估
计目标在当前帧中的大致位置,在上一帧中目标的位置表示为:其中,p
l
为上一帧中目标的位置坐标,x
l
,y
l
为坐标值;在当前帧中目标的估计位置表示为:其中,p
n
为当前帧中目标的估计位置坐标,x
n
,y
n
为坐标值;当前帧中的目标估计位置坐标可以通过上一帧中的目标位置和转换矩阵进行计算,计算方式如下:其中,x
n
,y
n
为当前帧中目标的估计坐标值,x
l
,y
l
为前一帧中目标的坐标值。h为转换矩阵,h
11

h
33
为转换矩阵的每个元素值。4.如权利要求1所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:步骤3的具体方法如下:首先计算需要剪切模板图和搜索图的边长,定义模板图的边长为sz,搜索图的边长为sx,模板图边长的计算公式如下:其中,w,h分别为目标的宽度和长度,α为预设的缩放因子,sz为初始帧中剪切模板图的正方形的边长;搜索图边长的计算过程如下:pad=(s-t)/(sz*β)sx=sz+2*pad其中,s为预设的搜索图的边长,t为预设模板图的边长,sz为从图片中剪切模板图的正方形的边长,pad为搜索图相对于模板图在图像边缘填充的大小,β为预设模板缩放因子,然后计算出搜索图边长,sx为从图片中剪切搜索图正方形的边长,sz为从图片中剪切模板图的正方形的边长;得到从图片中剪切模板图的正方形的边长sz和从图片中剪切搜索图的正方形的边长sx后,在当前帧中以步骤2得到的估计目标位置为中心剪切得到搜索图,同时获取在第一帧中以目标中心剪切获取模板图,如果正方形区域超出原图片的边界,就用像素均值进行填充,然后将剪切得到的模板图和搜索图进行缩放。5.如权利要求1所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:步骤4具体方法如下:对三个卷积层输出特征进行缩放并拼接聚合,使用3个卷积层分别对conv3_3,conv4_6和conv5_3卷积层的输出特征进行通道的缩放,将三个卷积层的输出的特征的通道数缩放到256;将缩放后的特征进行拼接聚合,拼接聚合方式如下:
其中,z是经过拼接后的模板特征,x是经过拼接后的搜索区域特征,α
l
,β
l
为拼接聚合的权重,l为卷积层的序号,z
l
为三个卷积层输出的模板特征经过缩放的特征,大小为256
×7×
7,x
l
为三个卷积层输出的搜索区域特征,大小为256
×
31
×
31,其中l∈{3,4,5}。6.如权利要求1所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:步骤5具体方法如下:设定k个预测的锚点,尺度自适应子网络需要输出k个通道用于输出预测跟踪框的概率,输出4*k个通道用于回归目标框的大小;首先,尺度自适应子网络利用4个参数不共享的特征调整层,增加模板特征z和搜索区域x的通道数,对模板特征和搜索区域特征的差异进行编码,编码后的特征变成两个分支,经过深度相关操作后,得到的响应图,分别用于分类和回归,得到分类分支增加通道后的模板特征[z
a
]
cls
和搜索区域特征[x
a
]
cls
,以及回归分支增加通道后的模板特征[z
a
]
reg
和搜索区域特征[x
a
]
reg
,特征调整层为一个卷积-归一化-激活函数结构;然后对分类和回归两个分支同时进行深度相关操作,深度相关操作如下所示:然后对分类和回归两个分支同时进行深度相关操作,深度相关操作如下所示:其中,w,h分别为目标的宽和高,[z
a
]
cls
和[x
a
]
reg
为增加通道后的模板特征,[x
a
]
cls
和[x
a
]
reg
为增加通道后的搜索区域特征,*表示相关操作,表示每个锚点处预测框的概率,表示区域生成网络输出的回归的结果,包含k组预测值,每组包含4个通道向量,分别为dx,dy,dw,dz,其中,dx为锚点x坐标与目标实际x坐标的差值,dy为锚点y坐标与目标实际y坐标的差值,dw为预测框的宽度与目标实际宽度的差值,dh为预测框的高度与目标实际高度的差值;网络预测出的候选框的尺寸可通过以下公式计算:x
r
=x
m
+w
m
*dxy
r
=y
m
+h
m
*dyw
r
=w
m
*e
dw
h
r
=h
m
*e
dh
其中,x
r
,y
r
,w
r
,h
r
分别为最后的候选框坐标和长宽。x
m
,y
m
,w
m
,h
m
分别为每个锚点的坐标及长和宽。7.如权利要求1所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:步骤6具体方法如下:在特征提取子网络之后,回归子网络利用初始帧经过特征提取网络conv5_3卷积层的输出特征进行训练,输出以目标位置为中心的二维高斯响应图;回归子网络模块包括一个卷积核参数为256_1_1
×
1_1的卷积层和一个卷积核大小为1_1_w
×
h_1的卷积层,其中第一
个卷积层用于降低深度特征的维度,降低计算资源的占用,第二个卷积层用于生成高斯响应图,定位目标的可能的位置,卷积核的大小和所跟踪目标的尺寸相同,w,h分别为目标的宽和高;其中卷积层参数依次表示为:输入通道数_输出通道数_卷积核大小
×
卷积核大小_步长;得到高斯响应图后,在步骤5得到的候选跟踪框中选取概率大的前k个预测框,将预测框和该高斯响应图区域计算重合度,重合度最高的框即为最终的预测值,重合度计算公式如下:r=mr0+nr
p
其中,r0是尺度自适应子网络输出的预测框和高斯响应图的重叠率,r
p
是尺度自适应子网络得到的该预测框的概率分数,m,n为预设的系数,最后选择拥有最大的r值的预测框作为最后的跟踪结果。8.如权利要求5所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:使用512_256_1
×
1_1卷积层,1024_256_1
×
1_1卷积层,2048_256_1
×
1_1卷积层分别对conv3_3,conv4_6和conv5_3卷积层的输出特征进行通道的缩放;其中卷积层参数依次表示为:输入通道数_输出通道数_卷积核大小
×
卷积核大小_步长。9.如权利要求4所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:将剪切得到的模板图缩放为127
×
127的大小,将搜索图缩放为255
×
255的大小。10.如权利要求7所述的一种基于孪生网络的四足机器人目标跟踪方法,其特征在于:k的取值为10。

技术总结
本发明针对单目标跟踪领域,公开了一种基于孪生网络的四足机器人目标跟踪方法。首先对视频进行数据预处理,然后构建图像对齐模块,在进行图像进行特征提取前进行初步的定位,使得目标始终处于搜索区域内,减少跟踪器丢失目标的次数。然后利用一个特征提取子网络,进行特征提取,并对提取的多个卷积特征进行分层聚合,之后,通过一个尺度自适应子网络,适应跟踪过程中目标的尺度变化,同时在线更新的回归子网络适应光照及目标形状等的变化。最后得到目标在当前帧中的位置。标在当前帧中的位置。标在当前帧中的位置。


技术研发人员:陈震中 李洋 张考
受保护的技术使用者:武汉大学
技术研发日:2023.04.12
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐