一种基于半监督学习的运动目标检测方法、介质及设备与流程
未命名
10-19
阅读:65
评论:0

1.本发明涉及计算机视觉技术领域,具体涉及一种基于半监督学习的运动目标检测方法。
背景技术:
2.运动目标检测是指在大量的视频序列信息中剔除长期不变的背景信息,检测出运动物体信息,在智慧安防、虚拟现实、导航与制导、交通管控、目标跟踪、人机交互等领域都有实践应用价值。目前,针对视频图像的目标检测方法主要是从图像中获取一些预设目标的位置和类别。该方法只能区分出特定目标在图像中的位置,无法判断目标的运动状态,静止或运动,因此在一些特殊的应用场景下,如区域入侵检测等智慧安防场景,无法使用。
3.虽然业界已经有一些智能运动目标检测方法,但基本都属于基于模型的方法实现,通过主观的人工特征设计,建立运动目标检测数学模型实现运动目标检测,例如基于帧间差异、背景建模、光流法等,此类方法存在算法鲁棒性差、泛化性能弱等问题。例如,在应对情况复杂的监控环境,比如光照变化、遮挡、相机抖动、阴影等影响,经典的智能运动目标检测方法会出现大量的误报和漏报。针对某一种场景做了优化后,切换到另一种场景,算法的效果会急剧下降,泛化能力弱,无法做到通用和可复制。此外,经典的智能运动目标检测方法只能应用于相机静止的场景,一旦涉及相机运动的情况,经典智能运动目标检测方法便会失效。
4.cn109740563b在2021年2月12日公开了一种面向视频监控的运动目标检测方法,针对输入的rgb视频流进行采样,分别对r通道、g通道以及b通道进行检测并融合,能够在fpga等专用硬件器件上高速并行处理,但是,输入的图像集只来自视频监控,全场景适用性差,鲁棒性低。
技术实现要素:
5.针对上述问题,本发明提出一种基于半监督学习的运动目标检测方法,与传统基于背景建模的智能运动目标检测方法不同,本发明通过深度学习神经网络,通过大量的相机静止和相机运动数据训练,自动学习出运动目标特征,从而端到端地实现运动目标的检测,提高了智能运动目标检测算法鲁棒性和泛化性。
6.第一方面,本技术实施例提供了一种基于半监督学习的运动目标检测方法,包括步骤:
7.a,获取数据集,所述数据集包括自动生成集、半人工标注集、全人工标注集以及测试集;
8.b,建立神经网络参数模型,神经网络参数模型包括依次连接的图像输入器、特征提取器以及结构输出器;神经网络参数模型用于图像高维抽象特征提取。
9.c,基于获取的数据集中的自动生成集、半人工标注集以及全人工标注集对神经网络参数模型进行训练,并计算损失函数,直至损失函数收敛至预设值,以得到训练好的神经
网络参数模型;
10.d,利用训练好的神经网络参数模型对测试集进行运动目标检测。
11.在第一方面的一种可选方案中,图像输入器包括两层并列设置的第一卷积层以及特征拼接层,两层并列设置的第一卷积层分别用于输入第一图像和第二图像,以得到两张特征图,特征拼接层用于将两张特征图拼接后得到第一拼接特征图。
12.在第一方面的又一种可选方案中,图像输入器包括依次连接的特征拼接层和一层第二卷积层,特征拼接层用于拼接两张预处理后的输入图像,所述预处理为将输入图像处理为单通道的灰度图像,以得到拼接图,第二卷积层用于对得到的拼接图进行卷积,以得到第二拼接特征图。
13.在第一方面的又一种可选方案中,特征提取器包括依次连接的多层下采样卷积层和对应的多层上采样反卷积层,下采样卷积层和对应的上采样反卷积层之间均连接有对应的通道拼接层。
14.在第一方面的又一种可选方案中,结构输出器包括三层并列的卷积层,分别对应三层卷积结果,第一输出表示输入第一帧图像中目标位置,第二输出表示输入图像第二帧图像中目标位置,第三输出表示对应位置目标之间的位移。
15.在第一方面的又一种可选方案中,步骤c中,从获取的数据集中选取相隔预设帧数的两张序列图像,并进行缩放处理,以得到像素大小一致的两张图像,以对神经网络参数模型进行训练。
16.在第一方面的又一种可选方案中,步骤c中,依次利用自动生成集、半人工标注集以及全人工标注集进行训练时,设置对应的参数学习率,自动生成集为随机生成几何图形以模拟运动目标,半人工标注集为随机选取截图以作为运动目标,全人工标注集为人工标定其中的运动目标。
17.在第一方面的又一种可选方案中,步骤c中,所述损失函数,记为l,计算式为:
18.l=λ1l
mov
+λ2l
distance
+λ3l
loc
19.l
mov
=-[c
·
log(p)+(1-c)log(1-p)]
[0020][0021][0022]
其中,l
mov
表示运动目标是否存在移动的损失值,l
distance
表示运动目标中心的位移损失值,l
loc
表示对运动目标位置预测的损失值,λ1表示运动目标是否存在移动的损失值的权重,λ2表示运动目标中心的位移损失值的权重,λ3表示对运动目标位置预测的损失值的权重,c表示运动目标是否移动的真值,p表示运动目标是否移动的预测值,δx表示运动目标中心在横坐标上的偏移量真值,δy表示运动目标中心在纵坐标上的偏移量真值,表示运动目标中心在横坐标上的偏移量预测值,表示运动目标中心在纵坐标上的偏移量预测值,x表示运动目标的中心横坐标的真值,y表示运动目标的中心纵坐标的真值,w表示运动目标宽的真值,h表示运动目标高的真值,表示运动目标的中心横坐标的预测值,表示运动目标的中心纵坐标的预测值,表示运动目标宽的预测值,表示运动目标高的预测值。
[0023]
第二方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行如本技术实施例第一方面或第一方面的任意一种实现方式提供的一种基于半监督学习的运动目标检测方法。
[0024]
第三方面,本技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如本技术实施例第一方面或第一方面的任意一种实现方式提供的一种基于半监督学习的运动目标检测方法。
[0025]
本发明的有益技术效果包括:
[0026]
1.本发明通过对对图像的高维抽象特征的提取,能够有效区分运动目标和背景,在相机运动的情况下能够有效检测到运动目标。
[0027]
2.与现有“模型驱动”的运动目标检测方法通过人工设计特征对图像进行背景建模实现运动目标检测不同,本发明是以“数据驱动”的深度学习算法模型为技术基础,通过深度卷积神经网络和海量的训练数据自动学习出运动目标特征,能有效解决现有智能运动目标检测方法容易受环境影响,具有更好的算法鲁棒性。
附图说明
[0028]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]
图1为本发明中一种基于半监督学习的运动目标检测方法流程图;
[0030]
图2为本发明中一种基于半监督学习的神经网络参数模型框图。
具体实施方式
[0031]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。
[0032]
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本技术的多个实施例,不同实施例之间可以替换或者合并组合,因此本技术也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征a、b、c,另一个实施例包含特征b、d,那么本技术也应视为包括含有a、b、c、d的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
[0033]
下面的描述提供了示例,并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本技术内容的范围的情况下,对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行,并且可以添加、省略或组合各种步骤。此外,可以将关于一些示例描述的特征组合到其他示例中。
[0034]
实施例一:
[0035]
参照图1,一种基于半监督学习的运动目标检测方法,通过建立一种神经网络参数
模型,然后通过自动生成集、半人工标注集以及全人工标注集对神经网络参数模型进行训练,自动学习出运动目标特征。神经网络参数模型的参数训练过程分为三个阶段,首先基于自动生成集和半人工标注集进行预训练,训练过程可以边训练同时自动产生大量的训练数据,无需人工干预,实现半监督训练。然后,基于真实场景数据集,即全人工标注集对所述深度学习神经网络进行修正训练,得到训练好的神经网络参数模型。该模型以视频流和对应的相机参数为输入,通过神经网络的前向推理分析,直接获取视频中运动目标的位置,从而实现端到端的智能运动目标检测。
[0036]
包括步骤:
[0037]
步骤a,获取数据集,包括自动生成集、半人工标注集以及全人工标注集。
[0038]
自动生成集:采集一批开源的图像数据集作为背景图像,首先从开源图像数据集中选取任意一张图像,然后对所选取的图像进行预处理,包括改变图像亮度、对比度、添加噪声等。通过计算机软件随机生成不同形状的规则和不规则几何图形粘贴到预处理后的背景图像上,在同一个背景图像上均匀改变几何图形的位置形成图像序列,从而模拟移动目标在动态视频中的运动。
[0039]
同一个图像序列中的几何图形相同,几何图形尺寸可以有变化,变化幅度不大于前一次几何图形尺寸的50%,数量不少于5种,单个几何图形面积占图像面积比例为s,满足0.0002≤s≤0.02;自动生成每帧图像的目标位置,几何图形的外接矩形框,记录相邻图像之间目标是否运动以及目标的位移(c,δx,δy),c表示目标是否移动的真值,δx表示移动目标中心在横坐标上的偏移量真值,δy表示移动目标中心在纵坐标上的偏移量真值。
[0040]
进一步地,自动生成集可以在训练的时候边训练边生成,实现自监督学习。
[0041]
半人工标注集:采集一批开源的或私有的目标检测图像数据,首先从目标检测标签文件从图像中截取目标图像,形成目标图像集合,从开源图像数据集中选取任意一张图像,然后对所选取的图像进行预处理,包括改变图像亮度、对比度、添加噪声等。从目标图像集合中随机选取一张目标截图粘贴到预处理后的背景图像上,在同一个背景图像上均匀改变目标截图的位置形成图像序列,从而模拟真实目标在动态视频中的运动。
[0042]
同一个图像序列中的目标尺寸可以有变化,变化幅度不大于前一次几何图形尺寸10%,同一个序列中的相邻背景图像进行平移、旋转处理,模拟相机运动的场景,其中同一个序列只能有一种连续的平移或旋转或平移与旋转组合预处理,前后帧之间平移/旋转的变化幅度不超过图像尺寸的5%,最后,根据目标贴图的位置自动生成将每帧图像的目标位置(目标外接矩形框),记录相邻图像之间目标是否运动以及目标的位移(c,δx,δy)。
[0043]
进一步地,半人工标注集可以在训练的时候边训练边生成,实现自监督学习。
[0044]
全人工标注集:采集不同场景下固定相机和运动相机拍摄的连续视频,对采集的视频通过人工标注的方法识别出其中的移动目标,并使用标定工具进行标定。
[0045]
步骤b,建立神经网络参数模型,神经网络参数模型包括依次连接的图像输入器、特征提取器以及结构输出器。
[0046]
图像输入器为第一输入结构,所述第一输入结构包括两层并列设置的第一下采样卷积层,在结构上相同,由相同的卷积神经网络层组成,例如resnet18,两张输入图像分别输入两层并列设置的下采样卷积层中,以得到第一特征图和第二特征图,输入图像为连续视频流的相邻图像帧或相隔n帧的图像,其中0≤n≤50,将两张特征图拼接后得到第一拼接
特征图,卷积层的输入图像分辨率为w*h,卷积层的输出图像分辨率为w/2*h/2。
[0047]
特征提取器包括依次连接的多层下采样卷积层和对应的多层上采样反卷积层,下采样卷积层和对应的上采样反卷积层之间均连接有对应的通道拼接层。进一步地,特征提取器也可以为其他卷积神经网络结构,如基于darknet53、vgg、resnet,googlenet等成熟卷积神经网络结构进行修改。
[0048]
特征提取器的输入为图像输入器的输出特征图,特征图的维度为c*w/2*h/2,其中c为特征图通道数,w为输入图像宽,h为输入图像高。
[0049]
进一步地,包括依次连接的五层下采样卷积层和对应的五层上采样反卷积层,输入特征图的维度为c*w/2*h/2,经过一次卷积、批归一化、激活函数,激活函数为relu操作后,经过第一层下采样卷积层进行下采样处理得到维度为c*w/4*h/4的特征图,下采样处理可以是步长为2的卷积,也可以是窗口大小为2*2的最大池化。
[0050]
继而重复经过卷积、批归一化、激活函数操作后,得到维度为2c*w/4*h/4的特征图,经过第二层下采样卷积层进行下采样处理得到维度为2c*w/8*h/8的特征图。
[0051]
经过卷积、批归一化、激活函数操作后,得到维度为4c*w/8*h/8的特征图,经过第三层下采样卷积层进行下采样处理得到维度为4c*w/16*h/16的特征图。
[0052]
经过卷积、批归一化、激活函数操作后,得到维度为8c*w/16*h/16的特征图,经过第四层下采样卷积层进行下采样处理得到维度为8c*w/32*h/32的特征图。
[0053]
经过卷积、批归一化、激活函数操作后,得到维度为16c*w/32*h/32的特征图,经过第五层下采样卷积层进行下采样处理得到维度为16c*w/64*h/64的特征图,经过一次卷积、批归一化、激活函数,激活函数为relu操作后,得到维度为32c*w/64*h/64的特征图。
[0054]
经过第五层上采样卷积层进行上采样操作,得到通道数更少,宽高更大的16c*w/64*h/64特征图。其中,所述2倍上采样操作可以为特征图插值,也可以为反卷积操作。上采样得到的特征图与对应的下采样得到的特征图进行拼接后,再通过卷积、批归一化、激活函数得到16c*w/64*h/64的特征图输出。
[0055]
经过第四层上采样卷积层进行上采样操作,上采样得到的特征图与对应的第四层下采样中的特征图进行拼接后,再通过卷积、批归一化、激活函数得到8c*w/16*h/16特征图输出。
[0056]
经过第三层上采样卷积层进行上采样操作,上采样得到的特征图与对应的第三层下采样中的特征图进行拼接后,再通过卷积、批归一化、激活函数得到4c*w/8*h/8特征图输出。
[0057]
经过第二层上采样卷积层进行上采样操作,上采样得到的特征图与对应的第二层下采样中的特征图进行拼接后,再通过卷积、批归一化、激活函数得到2c*w/4*h/4特征图输出。
[0058]
经过第一层上采样卷积层进行上采样操作,上采样得到的特征图与对应的第一层下采样中的特征图进行拼接后,再通过卷积、批归一化、激活函数得到c*w/2*h/2特征图输出。
[0059]
进一步地,每次上采样或下采样得到新特征图后经过的卷积、批归一化和激活的操作次数可以适当增加和减少,下采样层和对应的上采样层的数量也可以增加或减少。
[0060]
结构输出器的输入为特征提取器的输出特征图,特征图的维度为c*w/2*h/2,对特
征提取器的输出特征图进行卷积操作,然后通过三层并列的卷积层进行卷积操作,分别得到第一输出、第二输出和第三输出。第一输出的维度为12*w/8*h/8,第二输出的维度为12*w/8*h/8,第三输出的维度为3*w/8*h/8。第一输出、第二输出和第三输出分别用于表示输入第一帧图像中目标位置、输入图像第二帧图像中目标位置和对应位置目标之间的位移。
[0061]
第一输出和第二输出目标位置定义与yolov3的位置定义相同,输出特征图的每个网格的通道数可以看做12维的向量,向量每4个元素与预设锚框通过计算可得到表示目标位置的矩形框,因此每个输出特征图的网格对应3个预设锚框。所述预设锚框与yolov3定义相同,根据数据集预先计算得到。第三输出每个特征图网格是维度为3的向量,定义为其中0≤p≤1.0,p表示存在目标移动的概率,表示移动目标在横坐标上的偏移量,表示移动目标在纵坐标上的偏移量。
[0062]
步骤c,基于获取的数据集对神经网络结构进行训练,计算损失函数,直至损失函数收敛至预设值,以得到训练好的神经网络参数模型。依次利用自动生成集、半人工标注集以及全人工标注集,且设置对应的参数学习率对神经网络参数模型进行训练,具体为:自动生成集中随机生成几何图形以模拟运动目标,半人工标注集中随机选取截图以作为运动目标,全人工标注集中标定其中的运动目标。
[0063]
具体包括:
[0064]
模型训练主要分为三个阶段,利用自动生成集进行第一次预训练,在利用半人工标注集进行第二次预训练,最后利用全人工标注集进行修正训练得到最终的深度卷积神经网络算法参数模型。
[0065]
步骤c1:从自动生成集中选取相隔为n的图像序列数据,记为图像1和图像2,并将图像统一缩放至w*h像素大小,作为输入图像,n满足0≤n≤50,w和h为32的m倍,m满足15≤m≤20,具体地,w和h均设为640,n设为15。
[0066]
步骤c2:通过图像输入器、特征提取器以及结构输出器进行前向推理计算,得到第一输出、第二输出和第三输出,并计算损失函数值l;
[0067]
进一步地,图像相邻间隔n为15,即所选取的输入图像不相邻,中间有间隔,目标位移参数通过中间间隔图像对应的参数累加计算得到。
[0068]
步骤c3:根据得到的损失函数值l,利用梯度更新参数值,判断是否达到训练目标,若达到,则停止训练,若未达到训练目标,则查看是否达到预设训练次数,若达到训练次数,则停止训练,以得到第一训练模型,得到第一训练模型后,冻结特征提取器中的网络参数不改变,否则重复步骤c1到步骤c2。
[0069]
步骤c4:从半人工标注集中选取相隔为n的图像序列数据,记为图像1和图像2,并将图像统一缩放至w*h像素大小,作为输入图像,n满足0≤n≤50,w和h为32的m倍,m满足15≤m≤20,具体地,w和h均设为640,n设为15。
[0070]
步骤c5:将参数学习率设为原来的0.1倍,基于损失函数值l,进行参数训练得到第二训练模型,冻结特征提取器中的网络参数和图像输入器的网络参数不变,使其在参数梯度下降训练过程中不更新参数。
[0071]
步骤c6:从全人工标注集中选取相隔为15的图像序列数据,记为图像1和图像2,做与步骤c1相同的图像预处理。
[0072]
步骤c7:将参数学习率设为原来的0.05倍,基于损失函数值l,进行参数训练得到第三训练模型,即以得到训练好的神经网络参数模型。
[0073]
其中,损失函数,记为l,计算式为
[0074]
l=λ1l
mov
+λ2l
distance
+λ3l
loc
[0075]
l
mov
=-[c
·
log(p)+(1-c)log(1-p)]
[0076][0077][0078]
其中,l
mov
表示位置目标是否存在移动的损失值,l
distance
表示目标中心的位移损失值,l
loc
表示对移动目标位置预测的损失值,λ1表示是否存在移动目标的损失值的权重,λ2表示目标中心的位移损失值的权重,λ3表示对移动目标位置预测的损失值的权重,权重分别满足5<λ1<10,3<λ2<7,0.5<λ3<1,其中,λ1=7,λ2=5,λ3=0.7。
[0079]
c表示标签文件中目标是否移动的真值,p表示标签文件中目标是否移动的预测值,δx表示移动目标中心在横坐标上的偏移量真值,δy表示移动目标中心在纵坐标上的偏移量真值,表示移动目标中心在横坐标上的偏移量预测值,表示移动目标中心在纵坐标上的偏移量预测值,x表示存储于标签文件中移动目标的中心横坐标的真值,y表示存储于标签文件中移动目标的中心纵坐标的真值,w表示存储于标签文件中移动目标宽的真值,h表示存储于标签文件中移动目标高的真值,表示移动目标的中心横坐标的预测值,表示移动目标的中心纵坐标的预测值,表示移动目标宽的预测值,分别表示移动目标高的预测值。
[0080]
步骤d中,利用训练好的神经网络参数模型对测试集进行运动目标检测时,训练好的神经网络参数模型中图像输入器为第一输入结构,第一输入结构包括两层并列的卷积层,如resnet18,输入图像分辨率为640*640,输出第一特征图/第二特征图的分辨率为320*320,步骤d具体包括:
[0081]
步骤d1:获取相机拍摄的视频流数据,并对视频流数据进行解码获取连续视频流的相邻图像帧或相隔n帧的图像,其中0≤n≤50,获取两个三通道图像作为输入,进一步地,n=10。
[0082]
步骤d2:将两张三通道图像输入神经网络参数模型进行运动目标检测,以得到运动目标位置。
[0083]
进一步地,观察输入视频流的帧率以及目标移动速率,若所述输入视频流帧率较高,目标移动较慢,则增大输入图像序列的间隔数至30,以获取更好的效果。
[0084]
验证实验一:根据以下实验对本发明所提出的移动目标检测方法和现有技术方法对于移动目标进行对比测试实验。实验对象:15段测试视频,每段测试视频时长为2分钟,视频分辨率包含1280*720,1920*1080两种不同的像素。分别使用本发明的移动目标检测算法和传统的移动目标检测方法获取移动目标检测结果,并对相应的虚警率和检测率进行人工统计,下表1为移动目标检测方法测试结果:
[0085]
表1使用不同检测方法进行检测的检测结果
[0086][0087]
实验结果分析:
[0088]
1.对比现有技术方法,本发明方法具有更高的检测率和更低的虚警率,充分说明了本发明方法的有效性。
[0089]
2.当本发明的特征提取结构替换为yolov4的骨干网络daeknet53时,在虚警率和检测率虽然在指标上略有下降,性能略有下降,但对比传统方法虚警率高达29.3%的检测结果来看,本发明方法仍在应用场景中具有极强的适应性。
[0090]
验证实验二:
[0091]
根据以下实验对本发明所提出的移动目标检测方法和现有技术方法对于针对相机运动情况下的运动目标检测进行对比测试实验。实验对象:13段测试视频,每段测试视频时长在30秒至1分钟之间,视频分辨率为1920*1080像素。分别使用本发明的移动目标检测算法和传统的移动目标检测方法针对相机运动情况获取移动目标检测结果,并对相应的虚警率和检测率进行人工统计,下表2为移动检测算法测试结果:
[0092]
表2使用不同检测方法进行检测的检测结果
[0093][0094]
实验结果分析:
[0095]
1.对比现有技术方法,本发明方法在相机运动情况下具有更高的检测率和更低的虚警率,充分说明了本发明方法的有效性。
[0096]
2.当本发明的特征提取结构替换为yolov4的骨干网络daeknet53时,在相机运动情况下,在虚警率和检测率虽然在指标上略有下降,性能略有下降,但仍然表现出了对相机运动场景下的适应性,对相机运动场景下的运动目标检测仍然有效。而在相机运动情况下,现有技术方法虚警率高达81.1%的检测结果来看,说明传统方法将背景变化误认为是目标运动,从而出现大量的虚警,完全不适用于相机运动的场景。
[0097]
在应对动态背景的智能运动目标检测情况时,本发明方法能减少大量虚警,结果更准确,针对相机运动情况下的运动目标检测,传统方法无法区分背景和前景,出现大量误检。在静态背景中,传统方法的智能运动目标检测还存在少量虚警,而本发明方法虚警更少,充分说明本发明方法的有效性和鲁棒性。
[0098]
实施例二:
[0099]
实施例二与实施一的步骤基本相同,区别在于:
[0100]
步骤b中,建立的神经网络参数模型中图像输入器为第二输入结构,第二输入结构包括一层第二下采样卷积层,第二输入结构的输入图像分辨率为w*h,第二输入结构的输出图像的分辨率为w/2*h/2。两张输入图像分别进行预处理,得到第一单通道灰度图和第二单通道灰度图,并将预处理后的两张输入图像进行拼接组合成一张三通道图像,其中通道1为
所述第一单通道灰度图,通道2和通道3为所述第二单通道灰度图。并输入第二下采样卷积层中,以得到第三特征图,进一步地,输入图像分辨率为640*640,输出第三特征图的分辨率为320*320,第三特征图与第一特征图、第二特征图的通道数相同。
[0101]
步骤d中,利用训练好的神经网络参数模型对测试集进行运动目标检测时,具体包括:
[0102]
步骤d1’:获取相机拍摄的视频流数据,并对视频流数据进行解码获取连续视频帧序列。
[0103]
步骤d2’:从所述视频帧序列中选取相隔10帧的两帧图像,并将图像缩放至与深度卷积网络输入相同尺寸,640*640,再将对图像进行预处理,以得到第一单通道灰度图和第二单通道灰度图。
[0104]
步骤d3’:将两种单通道灰度图组合成一张三通道图像,通道1为第一单通道灰度图,通道2和通道3均为第二单通道灰度图,并将三通道图像输入神经网络参数模型进行运动目标检测,以得到运动目标位置。
[0105]
进一步地,观察输入视频流的帧率以及目标移动速率,若所述输入视频流帧率较高,目标移动较慢,则增大输入图像序列的间隔数至30,以获取更好的效果。
[0106]
实施例三:
[0107]
一种计算机可读存储介质,存储有计算机指令,计算机指令用于使计算机执行如实施例一提出的一种基于半监督学习的运动目标检测方法。可为人工智能加速硬件为华为atlas 200神经网络专用推理硬件,利用华为提供的模型转换工具链将实施例一提供的网络模型转换为.om格式的文件,以便模型参数能被正确的加载到计算机可读存储介质中进行推理计算。
[0108]
实施例四:
[0109]
一种电子设备,可以是单台服务器,也可以是嵌入式计算平台。包括存储器和处理器,存储器和处理器之间互相通信连接,存储器存储有计算机指令,处理器通过执行计算机指令,从而执行如实施例一提出的一种基于半监督学习的运动目标检测方法。
[0110]
存储器为机器可读存储介质,电子设备还包括深度学习并行计算加速芯片和网络接口,深度学习并行计算加速芯片、机器可读存储介质、网络接口以及处理器之间通过pcie总线系统相连,深度学习并行计算加速芯片用于深度学习模型前向推理计算加速,机器可读存储介质用于存储程序、指令或代码,处理器可以用于控制网络接口的收发动作,从而可以通过网络进行数据收发,深度学习并行计算加速芯片实现深度学习网络前线推理计算的并行处理,加快计算速度。
[0111]
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案作出的各种变形和改进,均应落入本发明的保护范围内。
技术特征:
1.一种基于半监督学习的运动目标检测方法,其特征在于,包括步骤:a,获取数据集,所述数据集包括自动生成集、半人工标注集、全人工标注集以及测试集;b,建立神经网络参数模型,神经网络参数模型包括依次连接的图像输入器、特征提取器以及结构输出器;c,基于获取的数据集中的自动生成集、半人工标注集以及全人工标注集对神经网络参数模型进行训练,并计算损失函数,直至损失函数收敛至预设值,以得到训练好的神经网络参数模型;d,利用训练好的神经网络参数模型对测试集进行运动目标检测。2.根据权利要求1所述的一种基于半监督学习的运动目标检测方法,其特征在于,图像输入器包括两层并列设置的第一卷积层以及特征拼接层,两层并列设置的第一卷积层分别用于输入第一图像和第二图像,以得到两张特征图,特征拼接层用于将两张特征图拼接后得到第一拼接特征图。3.根据权利要求1所述的一种基于半监督学习的运动目标检测方法,其特征在于,图像输入器包括依次连接的特征拼接层和一层第二卷积层,特征拼接层用于拼接两张预处理后的输入图像,所述预处理为将输入图像处理为单通道的灰度图像,以得到拼接图,第二卷积层用于对得到的拼接图进行卷积,以得到第二拼接特征图。4.根据权利要求1所述的一种基于半监督学习的运动目标检测方法,其特征在于,特征提取器包括依次连接的多层下采样卷积层和对应的多层上采样反卷积层,下采样卷积层和对应的上采样反卷积层之间均连接有对应的通道拼接层。5.根据权利要求2或3所述的一种基于半监督学习的运动目标检测方法,其特征在于,结构输出器包括三层并列的卷积层,分别对应三层卷积结果,第一输出表示输入第一帧图像中目标位置,第二输出表示输入图像第二帧图像中目标位置,第三输出表示对应位置目标之间的位移。6.根据权利要求1至5任一项所述的一种基于半监督学习的运动目标检测方法,其特征在于,步骤c中,从获取的数据集中选取相隔预设帧数的两张序列图像,并进行缩放处理,以得到像素大小一致的两张图像,以对神经网络参数模型进行训练。7.根据权利要求6所述的一种基于半监督学习的运动目标检测方法,其特征在于,步骤c中,依次利用自动生成集、半人工标注集以及全人工标注集进行训练时,设置对应的参数学习率,自动生成集为随机生成几何图形以模拟运动目标,半人工标注集为随机选取截图以作为运动目标,全人工标注集为人工标定其中的运动目标。8.根据权利要求1至5任一项所述的一种基于半监督学习的运动目标检测方法,其特征在于,步骤c中,所述损失函数,记为l,计算式为:l=λ1l
mov
+λ2l
distance
+λ3l
loc
l
mov
=-[c
·
log(p)+(1-c)log(1-p)]p)]
其中,l
mov
表示运动目标是否存在移动的损失值,l
distance
表示运动目标中心的位移损失值,l
loc
表示对运动目标位置预测的损失值,λ1表示运动目标是否存在移动的损失值的权重,λ2表示运动目标中心的位移损失值的权重,λ3表示对运动目标位置预测的损失值的权重,c表示运动目标是否移动的真值,p表示运动目标是否移动的预测值,δx表示运动目标中心在横坐标上的偏移量真值,δy表示运动目标中心在纵坐标上的偏移量真值,表示运动目标中心在横坐标上的偏移量预测值,表示运动目标中心在纵坐标上的偏移量预测值,x表示运动目标的中心横坐标的真值,y表示运动目标的中心纵坐标的真值,w表示运动目标宽的真值,h表示运动目标高的真值,表示运动目标的中心横坐标的预测值,表示运动目标的中心纵坐标的预测值,表示运动目标宽的预测值,表示运动目标高的预测值。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-8任一项所述的一种基于半监督学习的运动目标检测方法。10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-8任一项所述的一种基于半监督学习的运动目标检测方法。
技术总结
本发明涉及计算机视觉技术领域,具体涉及一种基于半监督学习的运动目标检测方法、介质及设备,包括步骤:A,获取数据集,包括自动生成集、半人工标注集、全人工标注集以及测试集;B,建立神经网络参数模型,神经网络参数模型包括依次连接的图像输入器、特征提取器以及结构输出器;C,基于获取的数据集中的自动生成集、半人工标注集以及全人工标注集对神经网络参数模型进行训练,并计算损失函数,直至损失函数收敛至预设值,以得到训练好的神经网络参数模型;D,利用训练好的神经网络参数模型对测试集进行运动目标检测,在相机运动的情况下能够有效检测到运动目标,自动学习出运动目标特征,不容易受环境影响,具有更好的算法鲁棒性。具有更好的算法鲁棒性。具有更好的算法鲁棒性。
技术研发人员:陈初杰 李彤 李俊薇 阮成明 陈碧乾 许斌 吴昊天
受保护的技术使用者:中国电子科技集团公司第五十二研究所
技术研发日:2023.07.12
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种电网调节优化方法、装置及设备与流程 下一篇:一种图像修复方法、系统及电子设备