视频单目标跟踪方法、装置及电子设备

未命名 08-26 阅读:119 评论:0


1.本技术涉及图像处理技术领域,尤其是涉及一种视频单目标跟踪方法、装置及电子设备。


背景技术:

2.现有的基于神经网络的视频单目标跟踪方法,总的来说具有如下的缺点:(1)对复杂背景环境抗干扰能较差;(2)对跟踪目标各项变化的适应能力较差;(3)对相似程度的表征不够完善。


技术实现要素:

3.本技术的目的在于提供一种视频单目标跟踪方法、装置及电子设备,通过基于transformer的孪生网络的视频单目标跟踪网络,结合依据当前帧的上一帧的目标跟踪预测结果所更新的模板,对当前帧的目标区域图像进行综合预测,可以提高目标跟踪精准度。
4.第一方面,本技术提供一种视频单目标跟踪方法,方法包括:获取待跟踪的视频帧序列;以视频帧序列中的第一帧的目标检测结果更新当前模板,以第二帧作为当前帧,执行以下预测更新步骤:获取当前帧的目标区域图像,将当前模板和目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到当前帧的目标跟踪预测结果;应用当前帧的目标跟踪预测结果更新当前模板;以当前帧的下一帧重新作为当前帧,继续执行预测更新步骤,直至得到视频帧序列中每一帧对应的目标跟踪预测结果。
5.在本技术较佳的实施方式中,上述基于transformer的孪生网络的视频单目标跟踪网络包括:特征提取网络、模板分支对应的第一特征融合网络、搜索区域分支对应的第二特征融合网络、预测网络;特征提取网络包括:五层结构的resnet50网络;将当前模板和目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到当前帧的目标跟踪预测结果的步骤,包括:通过resnet50网络对当前模板和目标区域图像分别进行特征提取,通过resnet50网络的第四层输出模板分支的第一特征图,通过resnet50网络的第三层输出搜索区域分支的第二特征图;分别将第一特征图和第二特征图作为当前特征图,将第一特征融合网络和第二特征融合网络作为当前特征融合网络,通过当前特征整合网络对当前特征图进行特征融合处理,得到目标向量;目标向量包括第一特征图对应的分类向量、第二特征图对应的回归向量;通过预测网络对分类向量和回归向量进行预测,得到当前帧的目标跟踪预测结果。
6.在本技术较佳的实施方式中,上述当前特征融合网络包括:特征输入模块、n层编码器、解码器;通过当前特征整合网络对当前特征图进行特征融合处理,得到目标向量的步骤,包括:通过特征输入模块将当前特征图进行降维处理和尺寸变化处理,确定模板特征向量和搜索区域特征向量;通过n层编码器对模板特征向量和搜索区域特征向量进行特征增
强融合处理,得到模板增强向量和融合向量;通过解码器对模板增强向量和融合向量进行解码,得到目标向量。
7.在本技术较佳的实施方式中,上述n层编码器包括:模板直接注意力增强模块、搜索区域直接注意力增强模块、交叉注意力融合模块;通过n层编码器对模板特征向量和搜索区域特征向量进行特征增强融合处理,得到模板增强向量和融合向量的步骤,包括:分别将模板特征向量和搜索区域特征向量作为当前特征向量,分别将模板直接注意力增强模块和搜索区域直接注意力增强模块作为当前直接注意力增强模块,通过当前直接注意力增强模块对当前特征向量进行增强处理,得到目标增强向量;目标增强向量包括:模板特征向量对应的模板增强向量和搜索区域特征向量对应的搜索区域增强向量;通过交叉注意力融合模块对模板增强向量和搜索区域增强向量进行融合处理,得到融合向量。
8.在本技术较佳的实施方式中,上述当前直接注意力增强模块包括:两个正弦编码单元和多头自注意力单元;通过当前直接注意力增强模块对当前特征向量进行增强处理,得到目标增强向量的步骤,包括:通过两个正弦编码单元将当前特征向量分别进行位置编码,向多头自注意力单元输出两个第一编码处理向量;通过多头自注意力单元将当前特征向量以及两个第一编码处理向量进行注意力特征加权处理,得到第一特征增强向量;对当前特征向量和第一特征增强向量进行relu激活函数计算和批归一化处理,得到目标增强向量。
9.在本技术较佳的实施方式中,上述交叉注意力融合模块包括:两个正弦编码器、多头交叉注意力模块、前馈网络;通过交叉注意力融合模块对模板增强向量和搜索区域增强向量进行融合处理,得到融合向量的步骤,包括:通过两个正弦编码器分别对模板增强向量和搜索区域增强向量进行位置编码处理,得到两个第二编码处理向量;通过多头交叉注意力模块对两个第二编码处理向量和模板增强向量进行注意力特征加权处理,得到第二特征增强向量;对第二特征增强向量与搜索区域增强向量进行relu激活函数计算及批归一化处理,将批归一化处理结果输入至前馈网络,得到输出结果,对输出结果和批归一化处理结果再次进行relu激活函数计算及批归一化处理,得到融合向量。
10.在本技术较佳的实施方式中,上述预测网络包括回归分支多层感知器、分类分支多层感知器和处理模块;通过预测网络对分类向量和回归向量进行预测,得到当前帧的目标跟踪预测结果的步骤,包括:通过回归分支多层感知器对回归向量进行处理,得到回归感知向量;通过分类分支多层感知器对分类向量进行处理,得到分类感知向量;通过处理模块对回归感知向量和分类感知向量进行综合处理,得到当前帧的目标跟踪预测结果。
11.第二方面,本技术还提供一种视频单目标跟踪装置,装置包括:数据获取模块,用于获取待跟踪的视频帧序列;预测更新模块,用于以视频帧序列中的第一帧的目标检测结果更新当前模板,以第二帧作为当前帧,执行以下预测更新步骤:获取当前帧的目标区域图像,将当前模板和目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到当前帧的目标跟踪预测结果;应用当前帧的目标跟踪预测结果更新当前模板;以当前帧的下一帧重新作为当前帧,继续执行预测更新步骤,直至得到视频帧序列中每一帧对应的目标跟踪预测结果。
12.第三方面,本技术还提供一种电子设备,包括处理器和存储器,存储器存储有能够
被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面所述的方法。
13.第四方面,本技术还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述第一方面所述的方法。
14.本技术提供的视频单目标跟踪方法、装置及电子设备中,首先获取待跟踪的视频帧序列;然后以视频帧序列中的第一帧的目标检测结果更新当前模板,以第二帧作为当前帧,执行以下预测更新步骤:获取当前帧的目标区域图像,将当前模板和目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到当前帧的目标跟踪预测结果;应用当前帧的目标跟踪预测结果更新当前模板;以当前帧的下一帧重新作为当前帧,继续执行预测更新步骤,直至得到视频帧序列中每一帧对应的目标跟踪预测结果。该方案中,通过基于transformer的孪生网络的视频单目标跟踪网络,结合依据当前帧的上一帧的目标跟踪预测结果所更新的模板,对当前帧的目标区域图像进行综合预测,可以提高目标跟踪精准度。
附图说明
15.为了更清楚地说明本技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1为本技术实施例提供的一种视频单目标跟踪方法的流程图;图2为本技术实施例提供的另一种视频单目标跟踪方法的流程图;图3为本技术实施例提供的一种基于transformer的孪生网络的视频单目标跟踪网络的示意图;图4为本技术实施例提供的一种直接注意力增强模块的示意图;图5为本技术实施例提供的一种交叉注意力融合模块的示意图;图6为本技术实施例提供的一种视频单目标跟踪装置的结构框图;图7为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
17.下面将结合实施例对本技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
18.目前,基于神经网络的视频单目标跟踪方法,具有如下的缺点:(1)对复杂背景环境抗干扰能较差:在真实环境中进行目标跟踪时,环境中的各因素是动态变化的,易出现待跟踪目标被其他物体遮挡的情况,使目标外观的完整性在不同程度上被破坏,加大了跟踪器辨认目标的难度。其次,自然环境或室内环境下的光照条件同样是处在变化中的,待跟踪目标的
移动也会切换到不同场景,使图像的整体色调随之变化,给目标外观带来不可预知的阴影,对目标跟踪任务造成影响。最后,在真实环境中进行目标跟踪时,背景往往比较杂乱且存在相似目标,使跟踪算法难以区分目标信息和背景信息,从而发生跟踪漂移。
19.(2)对跟踪目标各项变化的适应能力较差:待跟踪目标的运动规律十分复杂,突然的转向和快速移动等往往会引起目标轨迹发生未知的变化,不利于对目标进行持续稳定的跟踪。例如,待跟踪目标的速度突变引起快速移动时,容易导致视频序列相邻帧之间的目标产生模糊或较 大的位移,使跟踪器在下一帧中难以分辨和捕获目标,甚至丢失目标。其次,待跟踪目标在运动过程中往往伴随着未知的姿态或形状变化,从而造成目标外观在不同帧之间存在较大的差异,使得跟踪器无法准确地辨认目标,影响跟踪性能。
20.(3)对相似程度的表征不够完善:一般的跟踪算法采用交叉相关或其变形对模板与带搜索区域的相似程度进行表征。然而,交叉相关本身存在着两个被忽略的缺陷。由于无法充分利用一个帧中的全局上下文信息,该机制的一个缺陷是使用交叉相关操作的网络往往会陷入局部最优解。另一个缺陷是交叉相关操作本身必然会在一定程度上丢失语义信息,而当涉及到跟踪目标的边界时,这种不可避免的高级语义信息损失是跟踪结果不够精确的原因。
21.基于此,本技术实施例提供一种视频单目标跟踪方法、装置及电子设备,通过基于transformer的孪生网络的视频单目标跟踪网络,结合依据当前帧的上一帧的目标跟踪预测结果所更新的模板,对当前帧的目标区域图像进行综合预测,可以提高目标跟踪精准度。
22.为便于对本实施例进行理解,首先对本技术实施例所公开的一种视频单目标跟踪方法进行详细介绍。孪生网络作为计算机视觉领域的一种常用结构,在目标检测、分割等任务中都取得了比较好的表现。从横向来看,孪生网络由模板分支和搜索区域分支组成,它们的网络结构相同且参数共享。其中视频第一帧的目标图像作为模板分支的输入,后续帧中目标可能出现的图像区域作为搜索区域分支的输入。孪生网络结构尝试找到一组参数,使得两个分支输出特征的相似性度量在类内最小,类间最大。而纵向来看,孪生网络可分为两个主要部分,即特征提取网络和特征融合网络。其中特征提取网络主要负责对运动模型生成的候选样本进行外观特征提取。外观特征的好坏会直接影响到后续观测模型的判断。因此,提取特征的方式应具有较强的鲁棒性和较好的可区分性。而特征融合网络用于表征模板与搜索区域地相似程度,其基本方法为对模板分支和搜索区域分支经过特征提取网络的输入图像进行相同的变换,并使用深层特征进行相似性匹配得到互相关响应图。部分孪生网络还会在这两个组成部分之后再添加一个预测网络,用于对观测模型设置一定的更新策略,以保证跟踪时对目标和背景的准确区分。
23.本技术实施例提供了一种基于transformer的孪生网络的视频单目标跟踪方法,其由以下几个步骤组成:1.初始化阶段,接收到需要进行目标跟踪的视频序列,初始化目标状态,获取待跟踪目标的位置和大小;也就是确定出每一帧中目标区域图像,可以是人为指定,也可以是通过某种检测、识别算法进行检测定位得到。2.利用基于上一帧的目标跟踪预测结果更新的模板,在对当前帧预测时,生成多个可能包含目标的候选样本;3.提取候选样本的外观特征并输入观测模型进行评估,得到当前帧的最优决策结果,即最终的目标跟踪
预测位置;4.利用定位后的目标跟踪预测位置更新模板,以继续进行后续帧的预测。本技术实施例的跟踪算法的流程可用图1来描述。
24.参见图2所示,该方法具体包括以下步骤:步骤s102,获取待跟踪的视频帧序列。待跟踪的视频帧序列包括针对目标对象采集的多个连续视频帧;每一帧为包含有目标对象的图像。
25.步骤s104,以视频帧序列中的第一帧的目标检测结果更新当前模板,以第二帧作为当前帧,执行以下预测更新步骤:具体实施时,第一帧的目标跟踪预测结果是目标检测结果,即可以人为指定,也可以是通过某种检测、识别算法进行检测定位得到的结果。
26.这里的当前帧是从视频帧序列的第二帧开始的。
27.步骤s1042,获取当前帧的目标区域图像,将当前模板和目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到当前帧的目标跟踪预测结果。
28.上述当前帧的目标区域图像和前述第一帧的目标检测结果的获取方式相同,也即前面所述的初始化过程。通过初始化可以获取到每个帧对应的目标区域图像。
29.步骤s1044,应用当前帧的目标跟踪预测结果更新当前模板;以当前帧的下一帧重新作为当前帧,继续执行预测更新步骤,直至得到视频帧序列中每一帧对应的目标跟踪预测结果。
30.整个目标跟踪检测过程实际上是一个不断循环重复的过程,初始化第一帧的目标检测结果,然后通过第一帧的目标检测结果更新的模板和第二帧的目标区域图像,预测出第二帧对应的目标跟踪预测结果,然后再基于基于第二帧的目标跟踪预测结果更新的模板和第三帧的目标区域图像,预测出第三帧对应的目标跟踪预测结果,以此类推,完成视频帧序列的目标跟踪预测。
31.本技术实施例提供视频单目标跟踪方法中,通过基于transformer的孪生网络的视频单目标跟踪网络,结合依据当前帧的上一帧的目标跟踪预测结果更新的模板,对当前帧的目标区域图像进行综合预测,可以提高目标跟踪精准度。
32.针对单目标跟踪过程,本技术实施例提出了一种基于transformer的高度专业化特征融合网络,其结构如图3所示。所提出的特征融合网络完全基于注意力机制,并应用了一种不对称结构,在特征融合过程中采用了两个不同的特征提取器分支。该网络在每个层中由直接注意力增强模块和交叉注意力融合模块构成,使跟踪器能够聚焦于有用的信息并建立长期的特征关联。新融合机制不再基于以往常用的交叉相关操作,因而不仅能够积极地整合感兴趣的搜索区域和模板的特征,而且在计算注意力时有效地避免它们之间的相互干扰。此外,本技术实施例还提供了一个独特的两层输出机制,以更好地分类和回归。该机制将骨干提取器的两层输出和解耦预测头进行了组合,用分类和回归的解耦预测头增强了之前特征融合注意力图的结果,并用更适合单目标跟踪的diou代替基本的giou损失。
33.在本技术较佳的实施方式中,上述基于transformer的孪生网络的视频单目标跟踪网络包括:特征提取网络、模板分支对应的第一特征融合网络、搜索区域分支对应的第二特征融合网络、预测网络;特征提取网络包括:五层结构的resnet50网络。
34.大多数基于深度特征匹配的目标跟踪算法采用的网络结构较为浅层,无法充分利
用深层神经网络在特征提取方面的优势。浅层网络所提取的特征语义信息相对较少,在复杂的真实场景下难以满足信息表达的需求,尽管在某些单一且稳定的场景中表现较好。深层网络提取的特征具有层次结构和不同的属性,在捕获细节信息和语义信息方面表现出色。然而,直接采用vgg、resnet等深层网络会破坏孪生网络结构的平移不变性,增加计算量,且较大的网络步长和增加的感受野也会直接影响目标特征的区分度,导致跟踪精度降低。
35.本技术实施例中,特征提取网络采用变形后的resnet50网络作为骨干网络结构,优化了空间感知采样策略以破坏孪生结构固有的平移不变性。该特征提取网络充分利用了深度神经网络在特征提取方面的优势,所使用的resnet50网络结构如表1所示。由于本技术实施例还采用了双层输出机制及其对应的解耦预测技术,需要第三层与第四层提取的特征作为后续网络的输入,其中第三层的通道数为512,第四层的通道数为1024。
36.表1上述将当前模板和目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到当前帧的目标跟踪预测结果的步骤,包括:(1)通过resnet50网络对当前模板和目标区域图像分别进行特征提取,通过resnet50网络的第四层输出模板分支的第一特征图,通过resnet50网络的第三层输出搜索区域分支的第二特征图;(2)分别将第一特征图和第二特征图作为当前特征图,将第一特征融合网络和第二特征融合网络作为当前特征融合网络,通过当前特征整合网络对当前特征图进行特征融合处理,得到目标向量;目标向量包括第一特征图对应的分类向量、第二特征图对应的回归向量;具体实施时,当前特征融合网络包括:特征输入模块、n层编码器、解码器;通过当
前特征整合网络对当前特征图进行特征融合处理,得到目标向量的步骤,包括:a、通过特征输入模块将当前特征图进行降维处理和尺寸变化处理,确定模板特征向量和搜索区域特征向量。
37.b、通过n层编码器对模板特征向量和搜索区域特征向量进行特征增强融合处理,得到模板增强向量和融合向量。
38.上述n层编码器包括:模板直接注意力增强模块、搜索区域直接注意力增强模块、交叉注意力融合模块;通过n层编码器对模板特征向量和搜索区域特征向量进行特征增强融合处理,得到模板增强向量和融合向量的步骤,包括:a、分别将模板特征向量和搜索区域特征向量作为当前特征向量,分别将模板直接注意力增强模块和搜索区域直接注意力增强模块作为当前直接注意力增强模块,通过当前直接注意力增强模块对当前特征向量进行增强处理,得到目标增强向量;目标增强向量包括:模板特征向量对应的模板增强向量和搜索区域特征向量对应的搜索区域增强向量。
39.具体实施时,当前直接注意力增强模块包括:两个正弦编码单元和多头自注意力单元;通过当前直接注意力增强模块对当前特征向量进行增强处理,得到目标增强向量的步骤,包括:通过两个正弦编码单元将当前特征向量分别进行位置编码,向多头自注意力单元输出两个第一编码处理向量;通过多头自注意力单元将当前特征向量以及两个第一编码处理向量进行注意力特征加权处理,得到第一特征增强向量;对当前特征向量和第一特征增强向量进行relu激活函数计算和批归一化处理,得到目标增强向量。
40.b、通过交叉注意力融合模块对模板增强向量和搜索区域增强向量进行融合处理,得到融合向量。
41.交叉注意力融合模块包括:两个正弦编码器、多头交叉注意力模块、前馈网络(即残差网络);通过交叉注意力融合模块对模板增强向量和搜索区域增强向量进行融合处理,得到融合向量的步骤,包括:通过两个正弦编码器分别对模板增强向量和搜索区域增强向量进行位置编码处理,得到两个第二编码处理向量;通过多头交叉注意力模块对两个第二编码处理向量和模板增强向量进行注意力特征加权处理,得到第二特征增强向量;对第二特征增强向量与搜索区域增强向量进行relu激活函数计算及批归一化处理,将批归一化处理结果输入至前馈网络,得到输出结果,对输出结果和批归一化处理结果再次进行relu激活函数计算及批归一化处理,得到融合向量。
42.c、通过解码器对模板增强向量和融合向量进行解码,得到目标向量。
43.(3)通过预测网络对分类向量和回归向量进行预测,得到当前帧的目标跟踪预测结果。
44.下面对特征整合网络进行详细介绍:不同于传统的对称transformer-like结构,本技术实施例提出了一个不对称的特征融合网络,其中包括直接注意力增强模块(das)和交叉注意力融合模块(crf)。
45.模板和搜索区域特征图和均由上一阶段中的resnet50骨干网络提取而出。在进入特征融合网络之前,需要降低和的通道维度。在本发明中,使用通用的1
×
1卷
积来实现。在降维后的在两个低维特征图和中,,,其中是默认的紧凑维度数。后续的transformer-like特征融合网络以向量作为输入,因此两个低维特征图也必须成为特征向量。和在空间维度上被展平,得到所需的特征向量和。,两者均可视为长度为的向量的堆叠;其中,、分别为与提取网络中层数相关的常数。
46.如图3所示,特征提取器的两个输出(以第4层作输出为例)分别作为输入发送到模板分支和搜索分支。在模板分支中,具有多头自注意力的直接注意力增强模块专注于模板对象本身及其周围区域。包含模板和其背景信息的输出特征向量也是搜索分支和解码器中交叉注意力融合模块的输入。在搜索分支中,输入的特征向量也首先通过直接注意力增强模块进行处理。然后,处理后的搜索区域特征向量与处理后的模板特征向量一起进入交叉注意力融合模块。交叉注意力融合模块同时从两个分支接收特征向量,并通过内置的多头交叉注意力融合这些不同的特征。与原始transformer中的编码器相同,两个直接注意力增强模块和交叉注意力融合模块一起作为特征融合层。之后,交叉注意力融合模块的融合特征向量和直接注意力增强模块的模板向量被送入解码器。解码器使用多头交叉注意力处理来自两个分支的两个输入,并最终获得回归向量或分类向量。
47.多头注意力机制是本技术实施例提出的特征融合网络中的一个重要机制。由于比例点积注意力函数是注意力机制的基础,之前的研究也将基础的注意力机制发展成为多头版本,下面给出本算法中的注意力机制介绍。多头注意力机制能够考虑各种注意力分布并关注输入的不同区域。多头注意力机制定义如公式(1, 2, 3)所示。
48.在上述公式中,代表查询(queries),代表键(keys),代表值(values),表示权重矩阵分别为,,和,其中默认值,,,分别为::多头注意力机制的头数;:查询、键和值的向量维度;:键的向量维度,等于dm / nh ;:值的向量维度,等于dm / nh 。
49.das模块的结构如图4所示。直接注意力增强的主要功能是整合来自特征图各个部分的信息并通过自注意力机制加强所需要关注的部分。结合残差(residual)形式和多头注意力机制,das能够根据通道数加强给定的特征图。由于缺乏区分位置信息的能力,das的输入应该先进行位置编码。生成位置编码的方法是使用正弦函数。如前文,多头注意力需要q、k、v三条路径上的输入,以下的公式(4)是das机制的总结。
50.其中,代表正弦位置编码模块的输出,代表整个das模块的输出。
51.交叉注意力融合模块crf的结构如图5所示。crf模块的主要功能是融合来自两个分支的特征向量。crf模块将搜索分支中先前的das模块的输出和模板分支中的das模块的输出作为其输入。因为应用了类似的注意力结构,crf的输入也需要进行正弦位置编码。为了提高模型的拟合能力,可以在注意力部分之后添加额外的全连接前馈网络模块(ffn)。考虑到ffn的好处和增加参数的平衡,本技术实施例只在crf中添加了一个ffn模块。crf中的ffn模块是一个具有修正线性单元(relu)的3层线性变换。下面的公式(5,6,7)是crf机制的总结。
52.其中,是搜索分支中前一个das模块的输出,是模板分支中das模块的输出,是搜索分支中的正弦位置编码结果,是模板分支中的正弦位置编码结果,是多头注意力阶段的输出,是crf模块的输出。、、和、、是ffn模块中不同层的权重和偏置。
53.crf模块将模板和搜索区域的特征集成起来。两个das模块和一个crf模块构成一个特征融合层,该层将给定对象的特征和搜索区域的背景特征集成在一起。增加特征融合层数可以提高融合特征图的效果,但同时也会减慢运算速度。在本技术实施例中,使用了两个特征融合层。此外,特征融合层也充当了transformer-like结构中的编码器。下一个解码器将前面特征融合层的输出作为输入。最终,解码器的输出可以被解耦预测头使用。
54.下面对预测网络进行详细说明:本技术实施例中,预测网络包括回归分支多层感知器、分类分支多层感知器和处理模块;通过预测网络对分类向量和回归向量进行预测,得到当前帧的目标跟踪预测结果的步骤,包括:通过回归分支多层感知器对回归向量进行处理,得到回归感知向量;通过分类分支多层感知器对分类向量进行处理,得到分类感知向量;通过处理模块对回归感知向量和分类感知向量进行综合处理,得到当前帧的目标跟踪预测结果。上述综合处理实际为:在得到回归感知向量和分类感知向量之后,由于其含有预测框的中心和长宽,但由于对应的向量不止一组,再经过一个窗口惩罚函数进行筛选,就能得到最佳的预测框,即为当前帧的目标跟踪预测结果。
55.参见图3所示,预测网络由两个不同分支的解耦预测头组成,一个是分类分支,另一个是回归分支。在卷积网络中,深层具有更多的语义信息,而浅层具有更多的机械信息,如位置和颜色。因此,将不同的输出层分配给不同的分支。如图1所示,回归分支接收特征提
取器的第3层输出,而分类分支接收特征提取器的第4层输出。预测网络完全放弃了基于先验知识的锚点或锚框。两个分支的解耦预测头从特征融合网络的特征向量生成预测逻辑值,其中包含前景/背景分类结果和基于搜索区域原始尺寸的归一化坐标。跟踪器可以通过预测逻辑值直接计算最终边界框。这就是为什么本技术实施例中的2层解耦预测头可以提高整个跟踪网络的精度。它们每个都是一个多层感知器(mlp)。在本技术实施例中,mlp层数为三层。
56.每个预测头从前一个特征融合层接收特征向量,根据该预测头所在的分支生成包含分类或回归结果的二进制预测对数。对于分类,正样本是与给定真实边界框中的像素相关的特征向量的预测,而负样本则是其他样本。在回归分支中,只有正样本对总回归损失产生影响。而在分类分支中,总分类损失与所有正负样本相关。将标准的二进制交叉熵损失定义为公式(8)中的分类损失,如下所示:其中是第个样本的实际标签,当其为前景时=1,而当其为背景时=0。是由预测头生成的样本属于前景的概率。对于边界框回归,回归损失定义为 l1正则化损失和distance-iou(diou)损失的线性组合,如下的公式(9)所示:其中,是指示函数,是正样本的集合,表示第个预测边界框,是损失在总回归损失中的权重,是正则化损失在总回归损失中的权重;表示正确的预测框。
57.本技术实施例提供的方法的三点核心具体优势描述如下:(1)针对单目标跟踪视频帧中存在的复杂背景干扰,在特征融合网络中嵌入transformer结构:一般的特征融合网络是基于交叉相关函数特征信息架构的。而本技术实施例中的基于transformer的特征融合网络结构克服了交叉相关函数所带来的两个缺点,即无法充分利用帧中的全局上下文,导致陷入局部最优的缺陷和丢失高级语义信息的缺陷。本实施例中的特征融合机制不仅能积极地整合感兴趣区域和模板的特征,而且在计算注意力时还能有效地避免它们之间的相互干扰。
58.(2)对于跟踪目标的长期形变和短期突变,设计了直接注意力强化模块和交叉注意力融合模块:在对模板和搜索区域进行对称自注意力和交叉注意力操作期间,每层的特征图都将相关和不相关的信息平等地混合在一起,导致注意机制无法确定要关注什么。在本技术实施例中,使得transformer-like架构在特定位置上两个分支必须不同于彼此,并基于此设计了直接注意力强化模块和交叉注意力融合模块。这两个全新的模块既能关注局部的信息,也可以在整个搜索区域中获得全局的注意力,使得添加了这两个模块之后的特征融合网络能够聚焦于有用的信息并建立长期的特征关联。
59.(3)针对相似程度表征不够完善的问题,采用双层输出机制及其对应的解耦预测技术:本技术实施例使用了特征提取网络的双层输出,使得预测网络能够同时利用到浅层的细节信息和深层的语义信息进行预测,大大提升了单目标跟踪结果的准确性。同时,本技术实施例采用的解耦预测头放弃了基于先验知识的锚点与锚框,也提升了整个网络的跟踪精度。
60.基于上述方法实施例,本技术实施例还提供一种视频单目标跟踪装置,参见图6所示,该装置包括:数据获取模块62,用于获取待跟踪的视频帧序列;预测更新模块64,用于以视频帧序列中的第一帧的目标检测结果更新当前模板,以第二帧作为当前帧,执行以下预测更新步骤:获取当前帧的目标区域图像,将当前模板和目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到当前帧的目标跟踪预测结果;应用当前帧的目标跟踪预测结果更新当前模板;以当前帧的下一帧重新作为当前帧,继续执行预测更新步骤,直至得到视频帧序列中每一帧对应的目标跟踪预测结果。
61.在本技术较佳的实施方式中,上述基于transformer的孪生网络的视频单目标跟踪网络包括:特征提取网络、模板分支对应的第一特征融合网络、搜索区域分支对应的第二特征融合网络、预测网络;特征提取网络包括:五层结构的resnet50网络;预测更新模块64,用于通过resnet50网络对当前模板和目标区域图像分别进行特征提取,通过resnet50网络的第四层输出模板分支的第一特征图,通过resnet50网络的第三层输出搜索区域分支的第二特征图;分别将第一特征图和第二特征图作为当前特征图,将第一特征融合网络和第二特征融合网络作为当前特征融合网络,通过当前特征整合网络对当前特征图进行特征融合处理,得到目标向量;目标向量包括第一特征图对应的分类向量、第二特征图对应的回归向量;通过预测网络对分类向量和回归向量进行预测,得到当前帧的目标跟踪预测结果。
62.当前特征融合网络包括:特征输入模块、n层编码器、解码器;预测更新模块64,用于通过特征输入模块将当前特征图进行降维处理和尺寸变化处理,确定模板特征向量和搜索区域特征向量;通过n层编码器对模板特征向量和搜索区域特征向量进行特征增强融合处理,得到模板增强向量和融合向量;通过解码器对模板增强向量和融合向量进行解码,得到目标向量。
63.n层编码器包括:模板直接注意力增强模块、搜索区域直接注意力增强模块、交叉注意力融合模块;预测更新模块64,用于分别将模板特征向量和搜索区域特征向量作为当前特征向量,分别将模板直接注意力增强模块和搜索区域直接注意力增强模块作为当前直接注意力增强模块,通过当前直接注意力增强模块对当前特征向量进行增强处理,得到目标增强向量;目标增强向量包括:模板特征向量对应的模板增强向量和搜索区域特征向量对应的搜索区域增强向量;通过交叉注意力融合模块对模板增强向量和搜索区域增强向量进行融合处理,得到融合向量。
64.当前直接注意力增强模块包括:两个正弦编码单元和多头自注意力单元;预测更新模块64,用于通过两个正弦编码单元将当前特征向量分别进行位置编码,向多头自注意力单元输出两个第一编码处理向量;通过多头自注意力单元将当前特征向量以及两个第一编码处理向量进行注意力特征加权处理,得到第一特征增强向量;对当前特征向量和第一
特征增强向量进行relu激活函数计算和批归一化处理,得到目标增强向量。
65.交叉注意力融合模块包括:两个正弦编码器、多头交叉注意力模块、前馈网络;预测更新模块64,用于通过两个正弦编码器分别对模板增强向量和搜索区域增强向量进行位置编码处理,得到两个第二编码处理向量;通过多头交叉注意力模块对两个第二编码处理向量和模板增强向量进行注意力特征加权处理,得到第二特征增强向量;对第二特征增强向量与搜索区域增强向量进行relu激活函数计算及批归一化处理,将批归一化处理结果输入至前馈网络,得到输出结果,对输出结果和批归一化处理结果再次进行relu激活函数计算及批归一化处理,得到融合向量。
66.预测网络包括回归分支多层感知器、分类分支多层感知器和处理模块;预测更新模块64,用于通过回归分支多层感知器对回归向量进行处理,得到回归感知向量;通过分类分支多层感知器对分类向量进行处理,得到分类感知向量;通过处理模块对回归感知向量和分类感知向量进行综合处理,得到当前帧的目标跟踪预测结果。
67.本技术实施例提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置的实施例部分未提及之处,可参考前述方法实施例中相应内容。
68.本技术实施例还提供了一种电子设备,如图7所示,为该电子设备的结构示意图,其中,该电子设备包括处理器71和存储器70,该存储器70存储有能够被该处理器71执行的计算机可执行指令,该处理器71执行该计算机可执行指令以实现上述方法。
69.在图7示出的实施方式中,该电子设备还包括总线72和通信接口73,其中,处理器71、通信接口73和存储器70通过总线72连接。
70.其中,存储器70可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口73(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线72可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线72可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
71.处理器71可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器71中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器71可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器71读取存储器中
的信息,结合其硬件完成前述实施例的方法的步骤。
72.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述方法,具体实现可参见前述方法实施例,在此不再赘述。
73.本技术实施例所提供的方法、装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
74.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本技术的范围。
75.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
76.在本技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本技术的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
77.最后应说明的是:以上所述实施例,仅为本技术的具体实施方式,用以说明本技术的技术方案,而非对其限制,本技术的保护范围并不局限于此,尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本技术实施例技术方案的精神和范围,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。

技术特征:
1.一种视频单目标跟踪方法,其特征在于,所述方法包括:获取待跟踪的视频帧序列;以所述视频帧序列中的第一帧的目标检测结果更新当前模板,以第二帧作为当前帧,执行以下预测更新步骤:获取所述当前帧的目标区域图像,将所述当前模板和所述目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到所述当前帧的目标跟踪预测结果;应用所述当前帧的目标跟踪预测结果更新所述当前模板;以所述当前帧的下一帧重新作为所述当前帧,继续执行所述预测更新步骤,直至得到所述视频帧序列中每一帧对应的目标跟踪预测结果。2.根据权利要求1所述的方法,其特征在于,所述基于transformer的孪生网络的视频单目标跟踪网络包括:特征提取网络、模板分支对应的第一特征融合网络、搜索区域分支对应的第二特征融合网络、预测网络;所述特征提取网络包括:五层结构的resnet50网络;将所述当前模板和所述目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到所述当前帧的目标跟踪预测结果的步骤,包括:通过所述resnet50网络对所述当前模板和所述目标区域图像分别进行特征提取,通过所述resnet50网络的第四层输出模板分支的第一特征图,通过所述resnet50网络的第三层输出搜索区域分支的第二特征图;分别将所述第一特征图和所述第二特征图作为当前特征图,将所述第一特征融合网络和所述第二特征融合网络作为当前特征融合网络,通过所述当前特征整合网络对所述当前特征图进行特征融合处理,得到目标向量;所述目标向量包括所述第一特征图对应的分类向量、所述第二特征图对应的回归向量;通过所述预测网络对所述分类向量和所述回归向量进行预测,得到所述当前帧的目标跟踪预测结果。3.根据权利要求2所述的方法,其特征在于,所述当前特征融合网络包括:特征输入模块、n层编码器、解码器;通过所述当前特征整合网络对所述当前特征图进行特征融合处理,得到目标向量的步骤,包括:通过所述特征输入模块将所述当前特征图进行降维处理和尺寸变化处理,确定模板特征向量和搜索区域特征向量;通过所述n层编码器对所述模板特征向量和搜索区域特征向量进行特征增强融合处理,得到模板增强向量和融合向量;通过所述解码器对所述模板增强向量和所述融合向量进行解码,得到目标向量。4.根据权利要求3所述的方法,其特征在于,所述n层编码器包括:模板直接注意力增强模块、搜索区域直接注意力增强模块、交叉注意力融合模块;通过所述n层编码器对所述模板特征向量和搜索区域特征向量进行特征增强融合处理,得到模板增强向量和融合向量的步骤,包括:分别将所述模板特征向量和所述搜索区域特征向量作为当前特征向量,分别将所述模板直接注意力增强模块和所述搜索区域直接注意力增强模块作为当前直接注意力增强模
块,通过所述当前直接注意力增强模块对所述当前特征向量进行增强处理,得到目标增强向量;所述目标增强向量包括:所述模板特征向量对应的模板增强向量和所述搜索区域特征向量对应的搜索区域增强向量;通过所述交叉注意力融合模块对所述模板增强向量和所述搜索区域增强向量进行融合处理,得到融合向量。5.根据权利要求4所述的方法,其特征在于,所述当前直接注意力增强模块包括:两个正弦编码单元和多头自注意力单元;通过所述当前直接注意力增强模块对所述当前特征向量进行增强处理,得到目标增强向量的步骤,包括:通过两个所述正弦编码单元将所述当前特征向量分别进行位置编码,向所述多头自注意力单元输出两个第一编码处理向量;通过所述多头自注意力单元将所述当前特征向量以及两个所述第一编码处理向量进行注意力特征加权处理,得到第一特征增强向量;对所述当前特征向量和所述第一特征增强向量进行relu激活函数计算和批归一化处理,得到目标增强向量。6.根据权利要求4所述的方法,其特征在于,所述交叉注意力融合模块包括:两个正弦编码器、多头交叉注意力模块、前馈网络;通过所述交叉注意力融合模块对所述模板增强向量和所述搜索区域增强向量进行融合处理,得到融合向量的步骤,包括:通过两个所述正弦编码器分别对所述模板增强向量和所述搜索区域增强向量进行位置编码处理,得到两个第二编码处理向量;通过所述多头交叉注意力模块对两个所述第二编码处理向量和所述模板增强向量进行注意力特征加权处理,得到第二特征增强向量;对所述第二特征增强向量与所述搜索区域增强向量进行relu激活函数计算及批归一化处理,将批归一化处理结果输入至所述前馈网络,得到输出结果,对所述输出结果和所述批归一化处理结果再次进行relu激活函数计算及批归一化处理,得到融合向量。7.根据权利要求2所述的方法,其特征在于,所述预测网络包括回归分支多层感知器、分类分支多层感知器和处理模块;通过所述预测网络对所述分类向量和所述回归向量进行预测,得到所述当前帧的目标跟踪预测结果的步骤,包括:通过所述回归分支多层感知器对所述回归向量进行处理,得到回归感知向量;通过所述分类分支多层感知器对所述分类向量进行处理,得到分类感知向量;通过所述处理模块对所述回归感知向量和所述分类感知向量进行综合处理,得到所述当前帧的目标跟踪预测结果。8.一种视频单目标跟踪装置,其特征在于,所述装置包括:数据获取模块,用于获取待跟踪的视频帧序列;预测更新模块,用于以所述视频帧序列中的第一帧的目标检测结果更新当前模板,以第二帧作为当前帧,执行以下预测更新步骤:获取所述当前帧的目标区域图像,将所述当前模板和所述目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到所述当前帧的目标跟踪预测结果;应用所述当前帧的目标跟踪预测结果更新所述当前模板;以所述当前帧的下一帧重新作为所述当前帧,继续执行所述预测更新步骤,直至得到所述视频
帧序列中每一帧对应的目标跟踪预测结果。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的方法。

技术总结
本申请提供了一种视频单目标跟踪方法、装置及电子设备,方法包括:获取待跟踪的视频帧序列;以视频帧序列中的第一帧的目标检测结果更新当前模板,以第二帧作为当前帧,执行以下预测更新步骤:获取当前帧的目标区域图像,将当前模板和目标区域图像分别作为模板分支和搜索区域分支的输入,输入至基于Transformer的孪生网络的视频单目标跟踪网络,进行当前帧的跟踪结果预测,得到当前帧的目标跟踪预测结果;应用当前帧的目标跟踪预测结果更新当前模板;以当前帧的下一帧重新作为当前帧,继续执行预测更新步骤,直至得到视频帧序列中每一帧对应的目标跟踪预测结果。本申请可以提高目标跟踪精准度。跟踪精准度。跟踪精准度。


技术研发人员:周浩 杨凌宇 袁国武 陈冬 马仪 徐邦武 成秋艳 杜欣悦
受保护的技术使用者:云南大学
技术研发日:2023.07.21
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐