一种复杂背景下的运动小目标跟踪方法及系统

未命名 07-12 阅读:316 评论:0


1.本发明涉及物体跟踪技术,具体涉及一种复杂背景下的运动小目标跟踪方法及系统。


背景技术:

2.运动的小目标物体在我们的日常生活中随处可见,比如当前高楼层小区中的高空抛物现象时有发生。通常运动的小目标物体具有旋转、形变、背景干扰、光线变化、遮挡、低分辨率等特点。近年来,随着深度学习技术的不断发展进步,在计算机视觉领域取得了不断的突破,在许多领域得到了应用,计算机视觉的主要任务是使计算机具有一双跟人一样的眼睛。而对图像中小目标物体进行检测和跟踪是一个难点问题。
3.当前,随着深度学习的迅速发展,在目标检测领域取得了重大突破,但是检测和跟踪小目标物体仍然存在着很大的不足。现有的运动小目标物体检测和跟踪算法还不能很好的满足在实际的复杂场景中的应用,主要存在如下问题:
4.1、小目标物体跟踪的难点在于目标的特征不明显,可利用的特征信息较少,若是图像本身分辨率不高的情况下,小目标通常仅有几个像素,特征不明显。
5.2、复杂的背景干扰问题,复杂环境下的运动小目标检测和跟踪会受到光照、遮挡等因素的影响,因此难以将目标与背景或相似物体分割开来,有效实现对小目标的检测和跟踪。


技术实现要素:

6.针对现有技术中的上述不足,本发明提供的一种复杂背景下的运动小目标跟踪方法及系统解决了现有技术不能对复杂场景下的小目标精准识别的问题。
7.为了达到上述发明目的,本发明采用的技术方案为:
8.第一方面,提供一种复杂背景下的运动小目标跟踪方法,其包括以下步骤:
9.s1、获取待跟踪小目标的视频段,将视频段转化为一帧一帧的图像序列;
10.s2、采用尺度自适应残差神经网络对每一帧图像进行特征粗提取,之后采用transformer对粗提取特征进行多尺度和细粒度特征提取,得到细粒度特征;
11.s3、采用transformer和多层感知机对细粒度特征中的小目标进行检测,得到细粒度特征中所有小目标的类别和检测框;
12.s4、计算相邻两帧图像中同一类别小目标的检测框之间的相似度,基于相似度确定每帧图像中的跟踪目标。
13.本发明的有益效果为:本方案通过残差神经网络超强的特征提取能力和transformer的逐像素级的提取图像中的特征,可以有效的提取小目标的特征信息,多层感知机进行编码、解码,得以准确的获取到目标的位置信息,可以更为精准的跟踪到移动中的小目标物体,实现复杂背景下的运动小目标的实时跟踪。
14.进一步地,所述尺度自适应残差神经网络的残差块中的卷积核采用1*3和3*1的卷
积核。使用更小的卷积核进行卷积操作时候,可以逐像素级的对图像中的小目标进行特征提取,提取的特征更有针对性,且参数量有所减少。
15.进一步地,粗提取和提取细粒度特征的计算公式分别为:
16.y=sa-resnet(pn+bias)+x
17.q=w*transformer(y,θ)+b
18.其中,y为粗提取后的特征;sa-resnet(
·
)为尺度自适应残差运算,bias为动态的自适应算子;x为卷积核对特征图进行采样的区域;q为细粒度特征;w为自适应权重值;transformer(
·
)为将视频片段p中获取运动小目标出现在每一帧的图片集,之后再通过卷积算子将图片集的图片逐一做特征变换;θ为transformer模型的可学习的权重参数;b为网络的偏置项。
19.上述技术方案的有益效果为:本方案通过改进提出了一种尺度自适应的残差神经网络,在特征提取能力提升的基础上,网络模型的参数量减少了,并且逐像素级别的提取图像中的特征,在特征粗提取时就提取了图像中丰富的特征,便于后续的编码和解码,获取到小目标物体的定位信息。
20.进一步地,所述步骤s3进一步包括:
21.s31、采用transformer编码器中的多头注意力机制对细粒度特征进行编码:
[0022][0023]
multi-head(q,k,v)=concat(head1,......,headi)*wi[0024][0025]
其中,q为细粒度特征,q为编码时的查询向量;k为键,v为多头注意力计算的值,分别为键对应的权重值;self-attention(
·
)为自注意力计算,headi为一个子空间;n为子空间的总数量;multi-head(
·
)表示将多头进行合并;wi为模型的权值;wi为查询向量的权重值,q
transpose
为查询向量的转置;k
transpose
为查询键的矩阵转置,v
transpose
为查询的向量值的转置;
[0026]
s32、采用过transformer解码器中的多头注意力机制对查询到图像中实体进行解码;
[0027]
s33、采用多层感知机对解码器的输出进行映射,得到图像中所有小目标的类别和检测框:
[0028]
class,boxm=w1*(decoder(encoder(multi-head(q,k,v))))+b1[0029]
其中,class为物体类别;boxn为小目标物体的检测框;w1为多层感知机的权重;encoder(.)为编码,decoder(.)为解码,b1为偏置项。
[0030]
上述技术方案的有益效果为:本方案通过改进提出了一种多头自注意力网络模型,通过在编码和解码时引入自注意力模型,通过获取多个子空间的特征信息,再将多个子空间的特征进行融合,最终获取到小目标物体的准确类别和位置信息。
[0031]
进一步地,相似度的计算公式为:
[0032]
a=jaccard_sim(boxn,box
n-1
,tn)
[0033]
其中,a为相似度;jaccard_sim(.)为相似度计算函数;boxn和box
n-1
分别为第n帧
和第n-1帧图像中的小目标物体的检测框;tn=(t1,t2,...,tn)为视频段的时间序列。
[0034]
进一步地,运动小目标跟踪方法还包括对运动中小目标物体的实时跟踪结果,实时发出预警信息。
[0035]
第二方面,本方案提供一种运动小目标跟踪系统,其包括:
[0036]
视频获取模块,用于获取待跟踪小目标的视频段,将视频段转化为一帧一帧的图像序列;
[0037]
特征提取模块,用于采用尺度自适应残差神经网络对每一帧图像进行特征粗提取,之后采用transformer对粗提取特征进行多尺度和细粒度特征提取,得到细粒度特征;
[0038]
小目标检测模块,用于采用transformer和多层感知机对细粒度特征中的小目标进行检测,得到细粒度特征中所有小目标的类别和检测框;
[0039]
小目标跟踪模块,用于计算相邻两帧图像中同一类别小目标的检测框之间的相似度,基于相似度确定每帧图像中的跟踪目标。
附图说明
[0040]
图1为复杂背景下的运动小目标跟踪方法的流程图。
[0041]
图2为尺度自适应残差神经网络中的尺度自适应残差块的示意图。
[0042]
图3为transformer编码解码示意图。
具体实施方式
[0043]
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0044]
参考图1,图1示出了复杂背景下的运动小目标跟踪方法的流程图;如图1所示,该方法包括步骤s1~步骤s4。
[0045]
在步骤s1中,获取待跟踪小目标的视频段,将视频段转化为一帧一帧的图像序列;转化过程为:pn=opencv(p),其中,tn表示图像序列,p为获取到视频段;获取视频段的时间序列tn=(t1,t2,...,tn)。
[0046]
在步骤s2中,采用尺度自适应残差神经网络对每一帧图像进行特征粗提取;
[0047]
y=sa-resnet(pn+bias)+x
[0048]
其中,y为粗提取后的特征;sa-resnet(
·
)为尺度自适应残差运算;bias为动态的自适应算子;x为卷积核对特征图进行采样的区域;
[0049]
上述方式对视频中的每一帧图像特征粗提取,可以更有效且丰富的提取图像中的各部分目标物体的特征。
[0050]
之后采用transformer对粗提取特征进行多尺度和细粒度特征提取,得到细粒度特征;具体地,transformer对粗提取的特征进行特征交互融合,再进行多尺度的特征提取,获得全局细粒度融合的特征:
[0051]
q=w*transformer(y,θ)+b
[0052]
其中,q为细粒度特征;w为自适应权重值;transformer(
·
)为将视频片段p中获取
运动小目标出现在每一帧的图片集,之后再通过卷积算子将图片集的图片逐一做特征变换;θ为transformer模型的可学习的权重参数;b为网络的偏置项。
[0053]
如图2所示,实施时,本方案优选尺度自适应残差神经网络的残差块中的卷积核采用1*3和3*1的卷积核。使用更小的卷积核进行卷积操作时候,可以逐像素级的对图像中的小目标进行特征提取,且参数量有所减少。参数量为什么减小说明如下:
[0054]
二维卷积核大小为p*q,参数量为v,s表示前面层数所有特征图的数量,那么当前层特征提取的参数量:v=p*q*s,那么进行尺度自适应之后的参数量为y=(p+q)*s,一般卷积核是大于2*2,可以推断出y是要小于v。
[0055]
在步骤s3中,采用transformer和多层感知机对细粒度特征中的小目标进行检测,得到细粒度特征中所有小目标的类别和检测框;
[0056]
在本发明的一个实施例中,所述步骤s3进一步包括:
[0057]
s31、采用transformer编码器中的多头注意力机制对细粒度特征进行编码:
[0058][0059]
multi-head(q,k,v)=concat(head1,......,headi)*wi[0060][0061]
其中,q为细粒度特征,q为编码时的查询向量;k为键,v为多头注意力计算的值,分别为键对应的权重值;self-attention(
·
)为自注意力计算,headi为一个子空间;n为子空间的总数量;multi-head(
·
)表示将多头进行合并;wi为模型的权值;wi为查询向量的权重值,q
transpose
为查询向量的转置;k
transpose
为查询键的矩阵转置,v
transpose
为查询的向量值的转置;
[0062]
s32、采用过transformer解码器中的多头注意力机制对查询到图像中实体进行解码;transformer的编码和解码过程具体可以参考图3。
[0063]
在图3中,首先将特征具体输入到本方案所改进的编码器中,在编码的过程中优化提取特征矩阵的特征部分,编码器是一个堆叠n个相同的层。每层由两个子层组成,第一个是多头自注意力机制,第二个是简单的全连接的前馈神经网络,最后使用add&norm的残差连接与归一化操作,防止梯度消失和过拟合现象的发生。解码器与编码器类似,也是一个堆叠n个相同的层,但是在第一层使用多头的自注意掩膜,让其拥有更丰富的特征信息,从而提升网络模型的准确率。
[0064]
s33、采用多层感知机对解码器的输出进行映,得到图像中所有小目标的类别和检测框:
[0065]
class,boxm=w1*(decoder(encoder(multi-head(q,k,v))))+b1[0066]
其中,class为物体类别;boxn为小目标物体的检测框;w1为多层感知机的权重;encoder(.)为编码,decoder(.)为解码,b1为偏置项。
[0067]
在步骤s4中,计算相邻两帧图像中同一类别小目标的检测框之间的相似度,基于相似度确定每帧图像中的跟踪目标。其中,相似度的计算公式为:
[0068]
a=jaccard_sim(boxn,box
n-1
,tn)
[0069]
其中,a为相似度;jaccard_sim(.)为相似度计算函数;boxn和box
n-1
分别为第n帧
和第n-1帧图像中的小目标物体的检测框;tn=(t1,t2,...,tn)为视频段的时间序列。
[0070]
当本方案应用于高空抛物的监测时,可以在基于得到的动态小目标实时跟踪结果,实时给监控方发出预警信息,以及时提醒落物下方的行人,以此降低高空抛物造成的影响。
[0071]
第二方面,本方案提供一种运动小目标跟踪系统,其包括:
[0072]
视频获取模块,用于获取待跟踪小目标的视频段,将视频段转化为一帧一帧的图像序列;
[0073]
特征提取模块,用于采用尺度自适应残差神经网络对每一帧图像进行特征粗提取,之后采用transformer对粗提取特征进行多尺度和细粒度特征提取,得到细粒度特征;
[0074]
小目标检测模块,用于采用transformer和多层感知机对细粒度特征中的小目标进行检测,得到细粒度特征中所有小目标的类别和检测框;
[0075]
小目标跟踪模块,用于计算相邻两帧图像中同一类别小目标的检测框之间的相似度,基于相似度确定每帧图像中的跟踪目标。
[0076]
综上所述,本方案通过残差神经网络超强的特征提取能力和transformer的逐像素级的提取图像中的特征,可以有效的提取小目标的特征信息,可以更为精准的跟踪到移动中的小目标物体。

技术特征:
1.一种复杂背景下的运动小目标跟踪方法,其特征在于,包括以下步骤:s1、获取待跟踪小目标的视频段,将视频段转化为一帧一帧的图像序列;s2、采用尺度自适应残差神经网络对每一帧图像进行特征粗提取,之后采用transformer对粗提取特征进行多尺度和细粒度特征提取,得到细粒度特征;s3、采用transformer和多层感知机对细粒度特征中的小目标进行检测,得到细粒度特征中所有小目标的类别和检测框;s4、计算相邻两帧图像中同一类别小目标的检测框之间的相似度,基于相似度确定每帧图像中的跟踪目标。2.根据权利要求1所述的运动小目标跟踪方法,其特征在于,所述尺度自适应残差神经网络的残差块中的卷积核采用1*3和3*1的卷积核。3.根据权利要求2所述的运动小目标跟踪方法,其特征在于,粗提取和提取细粒度特征的计算公式分别为:y=sa-resnet(p
n
+bias)+xq=w*transformer(y,θ)+b其中,y为粗提取后的特征;sa-resnet(
·
)为尺度自适应残差运算,bias为动态的自适应算子;x为卷积核对特征图进行采样的区域;q为细粒度特征;w为自适应权重值;transformer(
·
)为将视频片段p中获取运动小目标出现在每一帧的图片集,之后再通过卷积算子将图片集的图片逐一做特征变换;θ为transformer模型的可学习的权重参数;b为网络的偏置项。4.根据权利要求1所述的运动小目标跟踪方法,其特征在于,所述步骤s3进一步包括:s31、采用transformer编码器中的多头注意力机制对细粒度特征进行编码:multi-head(q,k,v)=concat(head1,
……
,head
i
)*w
i
其中,q为细粒度特征,q为编码时的查询向量;k为键,v为多头注意力计算的值,分别为键对应的权重值;self-attention(
·
)为自注意力计算,head
i
为一个子空间;n为子空间的总数量;multi-head(
·
)表示将多头进行合并;w
i
为模型的权值;w
i
为查询向量的权重值,q
transpose
为查询向量的转置;k
transpose
为查询键的矩阵转置,v
transpose
为查询的向量值的转置;s32、采用过transformer解码器中的多头注意力机制对查询到图像中实体进行解码;s33、采用多层感知机对解码器的输出进行映,得到图像中所有小目标的类别和检测框:class,box
m
=w1*(decoder(encoder(multi-head(q,k,v))))+b1其中,class为物体类别;box
m
为小目标物体的检测框;m表示目标检测框的数量,w1为多层感知机的权重;encoder(.)为编码,decoder(.)为解码,b1为偏置项。5.根据权利要求1所述的运动小目标跟踪方法,其特征在于,相似度的计算公式为:a=jaccard_sim(box
n
,box
n-1
,t
n
)
其中,a为相似度;jaccard_sim(.)为相似度计算函数;box
n
和box
n-1
分别为第n帧和第n-1帧图像中的小目标物体的检测框;t
n
=(t1,t2,

,t
n
)为视频段的时间序列。6.根据权利要求1-5任一所述的运动小目标跟踪方法,其特征在于,还包括对运动中小目标物体的实时跟踪结果,实时发出预警信息。7.一种应用于权利要求1-6任一所述的复杂背景下的运动小目标跟踪方法的运动小目标跟踪系统,其特征在于,包括:视频获取模块,用于获取待跟踪小目标的视频段,将视频段转化为一帧一帧的图像序列;特征提取模块,用于采用尺度自适应残差神经网络对每一帧图像进行特征粗提取,之后采用transformer对粗提取特征进行多尺度和细粒度特征提取,得到细粒度特征;小目标检测模块,用于采用transformer和多层感知机对细粒度特征中的小目标进行检测,得到细粒度特征中所有小目标的类别和检测框;小目标跟踪模块,用于计算相邻两帧图像中同一类别小目标的检测框之间的相似度,基于相似度确定每帧图像中的跟踪目标。

技术总结
本发明公开了一种复杂背景下的运动小目标跟踪方法及系统,跟踪方法包括获取待跟踪小目标的视频段,将视频段转化为一帧一帧的图像序列;采用尺度自适应残差神经网络对每一帧图像进行特征粗提取,之后采用Transformer对粗提取特征进行多尺度和细粒度特征提取,得到细粒度特征;采用Transformer和多层感知机对细粒度特征中的小目标进行检测,得到细粒度特征中所有小目标的类别和检测框;计算相邻两帧图像中同一类别小目标的检测框之间的相似度,基于相似度确定每帧图像中的跟踪目标。于相似度确定每帧图像中的跟踪目标。于相似度确定每帧图像中的跟踪目标。


技术研发人员:蒋建辉 覃晓 元昌安 杨晓东 唐沫岚 陈必泉
受保护的技术使用者:广西科学院
技术研发日:2023.04.10
技术公布日:2023/7/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐