视频行为识别模型的训练方法、视频行为识别方法及装置与流程

未命名 10-19 阅读:136 评论:0


1.本技术涉及信息处理领域,具体而言,涉及一种视频行为识别模型的训练方法、视频行为识别方法及装置。


背景技术:

2.视频行为识别模型,也即用于识别视频中人物行为的模型。通常地,可以通过采集的样本视频数据训练模型。也即,可以将样本视频数据输入初始行为识别模型中,利用初始行为识别模型的分类器输出分类结果,该分类结果可以反映人物的行为。然后,当模型收敛即可用于识别实际场景中的人物行为。
3.在相关技术中,视频行为识别模型在提取图像特征时,容易被图像背景所干扰,继而导致了模型的性能不佳。


技术实现要素:

4.本技术实施例的目的在于提供一种视频行为识别模型的训练方法、视频行为识别方法及装置,用以改善图像背景的干扰情况,提高模型的识别性能。
5.第一方面,本技术实施例提供了一种视频行为识别模型的训练方法,所述视频行为识别模型基于mict-net网络框架构建,该方法包括:将样本视频流所对应的样本图像序列输入初始行为识别模型;所述样本视频流包括源域样本视频流;所述初始行为识别模型包括分类器、特征提取器以及解码器;利用所述特征提取器提取所述样本图像序列的整体图像特征;利用所述解码器从所述整体图像特征中分割出人物图像特征;基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型。
6.这样,可以将初始行为识别模型视为多任务框架,也即,可以将mict-net网络框架视为由特征提取器和分类器组成,其可以执行识别人物行为的主任务;然后可以将特征提取器作为编码器,以将特征提取器和解码器作为辅助任务框架,其可以执行提取人物图像特征的辅助任务。这样,由于解码器可以促使特征提取器仅提取人物图像特征,而忽略图像背景,继而改善了图像背景的干扰情况,有效提高了模型的识别性能。
7.另外,解码器作为辅助任务框架的一部分,其可以仅存在于训练初始行为识别模型的过程中,继而可以将其从目标行为识别模型中剖离出来,以使目标行为识别模型在实际应用场景中的处理速度不会衰减。因此,收敛后的目标行为识别模型兼顾了处理速度以及识别性能,更能满足实际应用场景的需求。
8.可选地,所述样本图像序列标注有分割标签以及分类标签,以及所述基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型,包括:计算所述分类结果与所述分类标签之间的分类损失;计算所述人物图像特征与所述分割标签之间的分割损失;将所述分类损失以及所述分割损失进行反向传播,以更新所述初始行为识别模型的模型参数。这样,通过分别计算分割损失以及分类损失,可以较为清晰地计算出初始行为识别模型的模型参数,以使初始行为识别模型朝着优化目标逐步收敛。
9.可选地,所述分割标签包括二进制掩模标签或者水平集图标签;其中,所述二进制掩模标签通过图像分割模型mask r-cnn分割所述源域样本视频流所对应的源域样本图像序列得到;所述水平集图标签通过灰度值描述所述源域样本图像序列中的人体动作轮廓。这样,可以通过图像分割模型mask r-cnn分割源域样本图像序列得到分割标签,以兼顾标注效率以及分割质量,以及通过水平集图标签提供较为丰富的监督信息,以直接监督源域样本图像序列中的人物行为。
10.可选地,所述解码器包括3d反卷积层,以及所述利用所述解码器从所述整体图像特征中分割出人物图像特征,包括:针对所述特征提取器所提取的最后一层下采样特征图,对该层下采样特征图进行上采样处理;针对上采样处理过程中的每一层上采样特征图,按照预设特征融合函数将该层上采样特征图以及所对应的下采样特征图进行特征融合处理;其中,所述人物图像特征为特征融合处理后的特征。这样,可以结合上采样特征图以及下采样特征图进行特征融合处理,以减少样本图像序列在上采样处理过程中丢失的语义信息,继而得到语义信息较为完善的人物图像特征。
11.可选地,所述基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型,包括:基于所述分类器针对所述最后一层下采样特征图输出的分类结果以及所述解码器针对所述最后一层下采样特征图输出的人物图像特征,训练所述初始行为识别模型。这样,分类器与解码器的输入均为特征提取器所提取的最后一层下采样特征图,由于该下采样特征图具备较为完善的语义信息,使得分类结果以及分割结果都较为准确,在一定程度上增强了目标行为识别模型的识别性能。
12.可选地,所述样本视频流还包括目标域样本视频流,所述初始行为识别模型还包括多个领域判别器,以及所述方法还包括:利用所述多个领域判别器将所述样本图像序列在不同尺度上的特征对齐,得到领域判别结果;以及基于所述分类结果、所述人物图像特征以及所述领域判别结果训练所述初始行为识别模型。这样,通过解码器、领域判别器以及分类器三者的输出训练初始行为识别模型,可以将目标域样本视频数据与源域样本视频数据的特征对齐,并且能够降低图像背景造成的干扰,继而有效提高了目标行为识别模型的识别性能。
13.可选地,所述基于所述分类结果、所述人物图像特征以及所述领域判别结果训练所述初始行为识别模型,包括:利用领域判别器计算源域样本图像序列对应的源域预测值;所述源域样本图像序列与所述源域样本视频流对应;利用领域判别器计算目标域样本图像序列对应的目标域预测值;所述目标域样本图像序列与所述目标域样本视频流对应;基于所述源域预测值以及所述目标域预测值,计算多个所述领域判别器的领域损失;将所述分类损失、所述分割损失以及所述领域损失进行反向传播,以更新所述初始行为识别模型的模型参数。这样,通过分别计算领域损失、分割损失以及分类损失,可以较为清晰地计算出初始行为识别模型的模型参数,以使初始行为识别模型朝着优化目标逐步收敛。
14.第二方面,本技术实施例提供了一种视频行为识别方法,该方法包括:提取待处理视频流数据所对应的待处理图像序列;将所述待处理图像序列输入目标行为识别模型中,以利用所述目标行为识别模型输出行为识别结果;所述目标行为识别模型基于如第一方面所述的方法训练得到。这样,可以较为准确地识别出视频中的人物行为。
15.第三方面,本技术实施例提供了一种视频行为识别模型的训练装置,所述视频行
为识别模型基于mict-net网络框架构建,该装置包括:输入模块,用于将样本视频流所对应的样本图像序列输入初始行为识别模型;所述样本视频流包括源域样本视频流;所述初始行为识别模型包括分类器、特征提取器以及解码器;特征提取模块,用于利用所述特征提取器提取所述样本图像序列的整体图像特征;分割模块,用于利用所述解码器从所述整体图像特征中分割出人物图像特征;训练模块,用于基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型。
16.第四方面,本技术实施例提供了一种视频行为识别装置,该装置包括:提取模块,用于提取待处理视频流数据所对应的待处理图像序列;识别模块,用于将所述待处理图像序列输入目标行为识别模型中,以利用所述目标行为识别模型输出行为识别结果;所述目标行为识别模型基于如第一方面所述的方法训练得到。
17.第五方面,本技术实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面或者第二方面提供的所述方法中的步骤。
18.第六方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面或者第二方面提供的所述方法中的步骤。
19.本技术的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术实施例了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
20.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
21.图1为本技术实施例提供的一种视频行为识别模型的训练方法的流程图;
22.图2为本技术实施例提供的一种解码器的结构示意图;
23.图3为本技术实施例提供的一种视频行为识别模型的网络框架结构示意图;
24.图4为本技术实施例提供的一种视频行为识别方法的流程图;
25.图5为本技术实施例提供的一种视频行为识别模型的训练装置的结构框图;
26.图6为本技术实施例提供的一种视频行为识别装置的结构框图;
27.图7本技术实施例提供的一种用于执行视频行为识别模型的训练方法或者视频行为识别方法的电子设备的结构示意图。
具体实施方式
28.下面将结合本技术实施例中附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的
范围,而是仅仅表示本技术的选定实施例。基于本技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
30.应当说明的是,在不冲突的情况下,本技术中的实施例或者实施例中的技术特征可以进行结合。
31.相关技术中,视频行为识别模型在提取图像特征时,容易被图像背景所干扰,继而导致了模型性能不佳的问题;为了解决该问题,本技术提供一种视频行为识别模型的训练方法;进一步地,通过解码器提取图像前景,让初始行为识别模型更加关注于前景中的人体图像区域,从而减少图像背景的干扰,提高模型的识别性能。
32.在一些应用场景中,可以在带有ubuntu(乌班图)系统的服务器或者云平台中执行该视频行为识别模型的训练方法,以满足训练所需的算力以及内存要求。示例性地,本技术下文以应用于服务器行文。
33.以上相关技术中的方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案,都应该是发明人在本发明过程中对本发明做出的贡献。
34.请参考图1,其示出了本技术实施例提供的一种视频行为识别模型的训练方法的流程图。其中,所述视频行为识别模型基于mict-net网络框架构建。上述mict-net网络框架采用的是3d/2d混合卷积方式,基于其可以提取出视频流中的图像特征。另外,mict-net网络框架所对应的参数量小,且其操作算子较为简单,继而便于部署在不同的终端(例如不同型号的开发板)中。
35.如图1所示,该视频行为识别模型的训练方法包括以下步骤101至步骤104。
36.步骤101,将样本视频流所对应的样本图像序列输入初始行为识别模型;所述样本视频流包括源域样本视频流;所述初始行为识别模型包括分类器、特征提取器以及解码器;
37.上述源域样本视频流也即已有的可以被学习的样本视频流。其例如可以是ucf-101数据集或者hmdb51数据集所提供的视频流。
38.在一些应用场景中,服务器针对每一个源域样本视频流,可以将其抽帧为多个图像,然后可以采用固定的采样间隔来截取图像帧,以得到对应的样本图像序列。然后可以随机选取某个采样时间点所截取的固定帧数的图像,得到该源域样本视频流所对应的源域样本图像序列。这里,也可以采用不同的采样间隔或者不同帧数的图像序列,本技术不作限制。
39.在这些应用场景中,样本图像序列可以对应于多个样本图像帧,继而可以将多个样本图像帧进行增强处理。也即,服务器可以对每一个样本图像帧进行诸如中心裁剪、随机翻转以及增强亮度等增强处理,以提高样本数据的真实性,继而提高初始行为模型的泛化能力。
40.然后,服务器可以将样本图像序列输入初始行为识别模型。在一些应用场景中,初始行为识别模型可以包括分类器、特征提取器以及解码器。
41.上述分类器用于判别人物行为;其可以包括全连接层和全局平均池化层。
42.上述特征提取器用于提取样本图像序列的整体图像特征,其例如可以包括卷积神经网络(convolutional neural networks,cnn)、循环神经网络(recurrent neural network,rnn)等。
43.上述解码器可以包括3d反卷积层。在一些应用场景中,解码器结构可以3d u-net图像分割网络为参照确定,该解码器的结构例如可以如图2所示。其中,其三维卷积神经网络参数(conv3d参数)可以包括卷积核的通道数、宽度以及高度;例如,针对于图2中的计算式conv3d 4
×3×
3,其数值4可以视为该卷积核的通道数,首个数值3可以视为卷积核的宽度,末尾的数值3可以视为卷积核的高度。卷积层的尺度可以包括512、256、128、64、32等。
44.步骤102,利用所述特征提取器提取所述样本图像序列的整体图像特征;
45.服务器将样本图像序列输入初始行为识别模型之后,可以利用其所包括的特征提取器提取样本图像序列的整体图像特征。该整体图像特征也即包括样本图像序列的前景图像特征以及人物图像特征。这里,每一个样本图像序列可以视为在不同通道上的同一个样本图像帧,每一个样本图像帧可以视为一个通道。
46.步骤103,利用所述解码器从所述整体图像特征中分割出人物图像特征;
47.在一些应用场景中,可以将特征提取器视为编码器,继而可以通过解码器从整体图像特征中分割出人物图像特征。
48.步骤104,基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型。
49.将样本图像序列输入初始行为识别模型之后,其分类器可以输出针对源域样本视频流的分类结果。继而可以结合该分类结果与人物图像特征,训练初始行为识别模型收敛至目标行为识别模型。
50.在本实施例中,可以将初始行为识别模型视为多任务框架,也即,可以将mict-net网络框架视为由特征提取器和分类器组成,其可以执行识别人物行为的主任务;然后可以将特征提取器作为编码器,以将特征提取器和解码器作为辅助任务框架,其可以执行提取人物图像特征的辅助任务。这样,由于解码器可以促使特征提取器仅提取人物图像特征,而忽略图像背景,继而改善了图像背景的干扰情况,有效提高了模型的识别性能。
51.另外,解码器作为辅助任务框架的一部分,其可以仅存在于训练初始行为识别模型的过程中,继而可以将其从目标行为识别模型中剖离出来,以使目标行为识别模型在实际应用场景中的处理速度不会衰减。因此,收敛后的目标行为识别模型兼顾了处理速度以及识别性能,更能满足实际应用场景的需求。
52.在一些可选的实现方式中,所述样本图像序列标注有分割标签以及分类标签。这里,由于源域样本视频流是已知的,因此其可以具有对应的分类标签,该分类标签用于标记人物行为。上述分类标签例如可以通过人工标注得到。
53.并且,该源域样本视频流可以具有对应的分割标签,该分割标签用于标记分割出的人物特征。上述分割标签例如可以通过人工标注、阈值分割或者边缘检测等方式得到。其中,阈值分割方式可以根据像素值将样本图像序列分割为对象和背景两部分,继而可以得到对应的人物图像。边缘检测方式可以通过检测样本图像序列中不同区域之间的边缘来生成掩膜图,继而可以得到对应的人物图像。
54.在一些可选的实现方式中,所述分割标签包括二进制掩模标签或者水平集图标
签;
55.其中,所述二进制掩模标签通过图像分割模型mask r-cnn分割所述源域样本视频流所对应的源域样本图像序列得到;
56.上述图像分割模型mask r-cnn(region-based convolutional networks,r-cnn)的算法可以视为目标检测算法faster-rcnn(towards real-time object detection with region proposal networks,faster r-cnn)以及语义分割算法fcn(fully convolutional networks for semantic segmentation,fcn)的结合算法,继而其可以在完成目标检测的同时也能得到语义分割的结果。
57.在一些应用场景中,若样本视频流的数量较多,通过人工标注会导致标注效率较低,而利用阈值分割或者边缘检测虽然能够提升标注效率,但分割质量不佳。
58.在本实现方式中,可以通过图像分割模型mask r-cnn分割源域样本图像序列得到分割标签,以兼顾标注效率以及分割质量。
59.所述水平集图标签通过灰度值描述所述源域样本图像序列中的人体动作轮廓。
60.上述水平集图标签可以通过水平集模型(level set model,lsm)标注得到。
61.在本实现方式中,上述水平集图标签可以利用灰度值表示人体动作轮廓,继而可以提供较为丰富的监督信息,以直接监督源域样本图像序列中的人物行为。
62.在一些应用场景中,上述步骤104中所述的基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型,包括以下子步骤:
63.子步骤1041,计算所述分类结果与所述分类标签之间的分类损失;
64.在一些应用场景中,可以将分类器输出的分类结果与分类标签进行损失计算,以得到分类损失。在这些应用场景中,例如可以通过交叉熵损失函数计算该分类损失。
65.子步骤1042,计算所述人物图像特征与所述分割标签之间的分割损失;
66.在一些应用场景中,可以将解码器输出的人物图像特征与分割标签进行损失计算,以得到分割损失。在这些应用场景中,例如可以通过dice loss损失函数、或者含l1正则化、l2正则化的损失函数计算该分割损失。
67.子步骤1043,将所述分类损失以及所述分割损失进行反向传播,以更新所述初始行为识别模型的模型参数。
68.得到上述分类损失以及分割损失之后,可以将两者的累加和确定为初始行为识别模型的损失。例如,可以通过以下计算式表征初始行为识别模型的损失:l
total
=l
cls
+l
seg
;其中,l
total
表示初始行为识别模型的损失;l
cls
表示分类损失;l
seg
表示分割损失。
69.继而,初始行为识别模型的优化目标可以视为:分类损失取最小值、且分割损失取最小值。也即,在分类损失最小,且分割损失最小时,初始行为识别模型的损失最小。
70.在一些应用场景中,为了达到初始行为识别模型的优化目标,可以将分割损失以及分类损失进行反向传播,利用梯度下降算法更新网络参数,直至该初始行为识别模型收敛为目标行为识别模型。
71.在本实现方式中,通过分别计算分割损失以及分类损失,可以较为清晰地计算出初始行为识别模型的模型参数,以使初始行为识别模型朝着优化目标逐步收敛。
72.应当说明的是,样本视频流的个数可以是多个,每一个样本视频流可以对应于一个样本图像序列,继而可以通过多个样本图像序列迭代训练初始行为识别模型,直至初始
行为识别模型收敛为目标行为识别模型。
73.在一些可选的实现方式中,所述解码器包括3d反卷积层,上述步骤103中所述的利用所述解码器从所述整体图像特征中分割出人物图像特征,可以包括以下子步骤:
74.子步骤1031,针对所述特征提取器所提取的最后一层下采样特征图,对该层下采样特征图进行上采样处理;
75.特征提取器可以提取样本图像序列在不同尺度上的特征图,当其作为由3d反卷积层构成的解码器所对应的编码器时,其所提取的每一个尺度上的特征可以整合在一层下采样特征图中。其中,由于最后一层下采样特征图所包括的语义信息最为丰富。继而,可以将提取的最后一层下采样特征图输入解码器中,以分割出较为准确的人物图像特征。
76.解码器接收到最后一层下采样特征图之后,可以对该层下采样特征图进行上采样处理,以实现反卷积过程,得到多层上采样特征图。
77.子步骤1032,针对上采样处理过程中的每一层上采样特征图,按照预设特征融合函数将该层上采样特征图以及所对应的下采样特征图进行特征融合处理;其中,所述人物图像特征为特征融合处理后的特征。
78.解码器对最后一层下采样特征图进行上采样处理时,可以对每一层上采样特征图进行特征融合处理。具体的,针对于每一层上采样特征图,解码器可以获取与之对应的下采样特征图,以按照预设特征融合函数进行特征融合处理。例如,特征提取器顺次提取了64*28*28、128*14*14、256*7*7、512*4*4四个尺度上的下采样特征图之后,针对于最后一层下采样特征图(也即512*4*4的下采样特征图),可以对其进行上采样处理,继而可以得到顺次排列的512*4*4、256*7*7、128*14*14、64*28*28四个上采样特征图;若对于尺度为256*7*7的上采样特征图,可以获取尺度同为256*7*7的下采样特征图进行特征融合处理。上述预设特征融合函数例如可以为矩阵拼接函数torch.cat,或者利用矩阵点乘函数torch.mul以及矩阵相加函数torch.add组合形成该预设特征融合函数。
79.解码器将上采样特征图进行特征融合处理之后,即可输出人物图像特征。
80.在本实现方式中,可以结合上采样特征图以及下采样特征图进行特征融合处理,以减少样本图像序列在上采样处理过程中丢失的语义信息,继而得到语义信息较为完善的人物图像特征。
81.在一些可选的实现方式中,上述步骤104中所述的基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型,包括:基于所述分类器针对所述最后一层下采样特征图输出的分类结果以及所述解码器针对所述最后一层下采样特征图输出的人物图像特征,训练所述初始行为识别模型。
82.在一些应用场景中,可以将最后一层下采样特征图分别作为分类器以及解码器的输入。这样,分类器针对该最后一层下采样特征图可以输出对应的分类结果,解码器针对该最后一层下采样特征图可以输出对应的分割结果(也即人物图像特征)。
83.在本实现方式中,分类器与解码器的输入均为特征提取器所提取的最后一层下采样特征图,由于该下采样特征图具备较为完善的语义信息,使得分类结果以及分割结果都较为准确,在一定程度上增强了目标行为识别模型的识别性能。
84.在一些可选的实现方式中,如图3所示,所述样本视频流还包括目标域样本视频流,所述初始行为识别模型还包括多个领域判别器。
85.上述目标域样本视频流也即将要进行学习或迁移的样本视频流;此部分样本视频流的数量可以较少,继而能够以较少的目标域视频流训练出满足目标域全域的视频流使用的目标行为识别模型。
86.在一些应用场景中,上述目标域样本视频流例如可以包括smoke ucf101数据集和smoke hmdb51数据集。其中,smoke ucf101数据集可以基于ucf-101数据集合成,其用于模拟浓雾情况下的动作;smoke hmdb51数据集可以基于hmdb51数据集合成,其用于模拟浓雾情况下的动作。
87.上述领域判别器用于判别样本图像序列属于源域还是目标域。该领域判别器可以设置多个,例如,领域判别器的个数可以与样本图像序列的尺度特征图个数相同,也可以是尺度特征图个数的一半,此处不作限制。
88.进一步的,每个领域判别器可以由一个梯度反转层(gradient reversal layer,grl)以及三个1*1的卷积层组成。并且,每个卷积层可以外接一个激活函数层(rectified linear unit,relu),并可以通过sigmoid函数确定领域判别结果。
89.在一些应用场景中,服务器可以将每一个样本视频流所对应的样本图像序列输入初始行为识别模型。在这些应用场景中,例如可以将源域样本图像序列和目标域样本图像序列进行混合,并可以随机加载任一样本图像序列,以提高样本图像序列的真实性,继而提高初始行为模型的泛化能力。
90.在一些应用场景中,服务器将样本图像序列输入初始行为识别模型时,例如可以将源域样本图像序列以及目标域样本图像序列打包,以使两者能够一起输入初始行为识别模型,以避免由于源域样本图像序列与目标域样本图像序列没有一起输入初始行为识别模型导致的数据不均衡情况。在这些应用场景中,例如可以基于显卡的存储能力确定打包的样本图像序列个数。
91.这样,所述视频行为识别模型的训练方法还包括:
92.步骤105,利用所述多个领域判别器将所述样本图像序列在不同尺度上的特征对齐,得到领域判别结果;
93.在一些应用场景中,样本图像序列在输入初始行为识别模型之后,可以先经过领域判别器处理。具体的,领域判别器可以将样本图像序列在不同尺度上的特征对齐。
94.进一步的,针对于其中一个尺度特征图,可以将该尺度特征图作为其中一个领域判别器的输入,继而,该领域判别器可以输出该尺度特征图是源域还是目标域的领域判别结果。
95.步骤106,基于所述分类结果、所述人物图像特征以及所述领域判别结果训练所述初始行为识别模型。
96.在一些应用场景中,由于源域样本视频流有分类标签,而目标域样本视频流没有分类标签,因此目标域样本视频流无需确定其分类结果。继而,可以仅将源域样本视频流所对应的源域样本图像序列输入分类器,以得到对应的分类结果。
97.然后,可以结合该分类结果、人物图像特征以及多个领域判别器输出的领域判别结果,训练初始行为识别模型收敛至目标行为识别模型。
98.相关技术中,由于目标域样本视频数据与源域样本视频数据的特征分布不均匀,继而降低了模型性能。
99.在本实施例中,在训练初始行为识别模型时,利用多个领域判别器将源域样本视频数据与目标域样本视频数据之间的特征对齐,并预测出领域结果,由于其存在的grl,可以对判别损失取反,继而形成了特征提取器与领域判别器之间的对抗训练方式,在一定程度上提高了目标行为识别模型的识别性能。
100.另外,由于领域判别器仅存在于初始行为识别模型的训练过程,继而其并不影响目标行为识别模型在实际应用场景中的处理速度,因此收敛后的目标行为识别模型兼顾了处理速度以及识别性能,更能满足实际应用场景的需求。
101.在本实现方式中,通过解码器、领域判别器以及分类器三者的输出训练初始行为识别模型,可以将目标域样本视频数据与源域样本视频数据的特征对齐,并且能够降低图像背景造成的干扰,继而有效提高了目标行为识别模型的识别性能。
102.应当说明的是,在这些应用场景中,分类器以及解码器的输入可以是特征提取器所提取的最后一层下采样特征图,继而可以得到较为准确的分类损失以及分割损失,在一定程度上提高了目标行为识别模型的识别性能。
103.在一些应用场景中,在上述步骤105中所述的利用所述多个领域判别器将所述样本图像序列在不同尺度上的特征对齐,得到领域判别结果之前,所述视频行为识别模型的训练方法还可以包括:利用所述特征提取器提取该样本图像序列的图像特征,得到浅层特征图以及深层特征图;其中,所述特征提取器基于mict-net网络框架提取所述浅层特征图以及所述深层特征图;
104.在一些应用场景中,特征提取器可以提取样本图像序列的图像特征。在这些应用场景中,特征提取器可以通过mict-net网络框架提取出浅层特征图以及深层特征图。上述mict-net网络框架采用的是3d/2d混合卷积方式,基于其可以判别出浅层特征或者深层特征。
105.上述浅层特征例如可以包括图像的色彩特征、亮度特征等局部特征;上述深层特征例如可以包括人体面部轮廓、肢体轮廓等全局特征。
106.在这些应用场景中,mict-net网络框架例如可以通过图3所示的网络结构组成。其中,若mict-net网络框架利用四个模块提取了四层特征图,则可以将前三层特征图确定为浅层特征图,将第四层确定为深层特征图。
107.这样,上述步骤105中所述的利用所述多个领域判别器将所述样本图像序列在不同尺度上的特征对齐,得到领域判别结果,包括:利用所述多个领域判别器分别对齐所述样本图像序列所对应的浅层特征以及深层特征。
108.针对特征提取器提取的浅层特征图以及深层特征图,可以利用多个领域判别器分别进行特征对齐操作。例如,图3中针对首个模块提取的浅层特征图,可以使用领域判别器d1识别其属于源域还是目标域。针对于最后一个模块提取的深层特征图,可以使用领域判别器d4识别其属于源域还是目标域。应当说明的是,领域判别器的个数可以为2个、3个或者4个,此处不作限制。
109.在这些应用场景中,可以利用领域判别器分别对齐浅层特征以及深层特征,继而能够训练特征提取器较为全面地提取图像信息,提高目标行为识别模型的特征提取性能。
110.在一些应用场景中,所述多个领域判别器与所述特征提取器提取的多层特征图一一对应。也即,领域判别器的个数与特征提取器所提取的特征图层数相同。例如图3中,特征
提取器提取了4层特征图,则可以存在4个领域判别器(也即图3所示的d1、d2、d3、d4),每个领域判别器处理对应的特征图。
111.这样,上述的利用所述多个领域判别器分别对齐所述样本图像序列所对应的浅层特征以及深层特征,包括:
112.步骤1,针对浅层特征图所对应的任一浅层领域判别器,将该浅层领域判别器对应的浅层特征图作为输入,使该浅层领域判别器输出针对该浅层特征图的领域判别结果。
113.特征提取器提取出浅层特征图之后,可以将每一个浅层特征图输入与之对应的领域判别器中,以使该领域判别器能够输出该浅层特征图对应的领域判别结果。
114.步骤2,针对深层特征图所对应的任一深层领域判别器,将该深层领域判别器对应的深层特征图作为输入,使该深层领域判别器输出针对所述深层特征的领域判别结果。
115.特征提取器提取出深层特征图之后,可以将每一个深层特征图输入与之对应的领域判别器中,以使该领域判别器能够输出该深层特征图对应的领域判别结果。
116.在这些应用场景中,特征提取器基于mict-net网络框架提取特征时,可能提取多个浅层特征图以及一个或多个深层特征图,因此针对每一个特征图,可以均设置一个领域判别器,以能够对齐每一个特征图的特征,得到较为全面的领域信息。
117.在一些应用场景中,所述浅层领域判别器与所述深层领域判别器的损失函数不相同;其中,所述浅层领域判别器的损失函数包括加权均方损失函数;所述深层领域判别器的损失函数包括焦点损失函数。
118.在一些应用场景中,可以使用强对齐的方式对齐浅层特征,使用弱对齐的方式对齐深层特征。其原因在于:首先,源域样本视频流和目标域样本视频流所对应的全局特征的类别可能完全不同。例如,源域样本视频流的全局特征表征人物的打架行为,目标域样本视频流的全局特征表征人物的蹦跳行为。若采用强对齐方式,可能将人物的打架行为强行识别为蹦跳行为,继而可能导致模型的识别性能下降。其次,若特征图所包括的特征过于显著(例如,特征图表征在同一地点,白天存在人物打篮球的行为,夜晚存在人物跳舞的行为,可以将亮度特征视为过于显著的特征),则领域判别器会将其视为简单特征,继而会使领域判别器较为容易地预测出领域判别结果,继而其与特征提取器所形成的对抗能力较弱,也可能导致模型的识别性能下降。因此,深层领域判别器以及浅层领域判别器可以采用不同的损失函数,以对特征图进行相适应的对齐方式。
119.在这些应用场景中,浅层领域判别器可以使用加权均方损失函数(weighted mean square error loss,wmse loss),深层领域判别器可以使用焦点损失函数(focal loss)。
120.其中,使用加权均方损失函数的原因在于:首先,领域判别器用于判别输入数据属于源域还是目标域,即领域判别器实质上执行的是二分类任务,而均方差损失是通过衡量预测值和真实值之间的差距来拟合函数的,当预测值和真实值出现不一致时能够在训练过程中引起足够的重视。其次,利用加权方式是因为不同尺度的特征图包含的语义信息是不完全一致的,不同的权重值有利于模型训练的稳定性。
121.使用焦点损失函数的原因在于:焦点损失函数的作用就是让模型对难易样本的关注度不同,其更加贴合于当前的弱对齐方式。
122.在这些应用场景中,可以通过损失函数不同的领域判别器针对性地对齐浅层特征以及深层特征,在一定程度上能够提高模型的识别性能。
123.在一些应用场景中,所述浅层领域判别器与所述深层领域判别器的损失函数相同;所述损失函数包括加权均方损失函数。
124.在一些应用场景中,也可能不存在上述源域样本视频流和目标域样本视频流所对应的全局特征的类别完全不同或者特征显著情况,因此,多个领域判别器的损失函数也可以相同。优先地,为了避免领域判别器降低对简单特征的关注度,可以均使用强对齐的加权均方损失函数对齐特征,以将所提取的各个特征均对齐。
125.应当说明的是,上述加权均方损失函数以及焦点损失函数均为本领域常用的损失函数,本领域技术人员在获知了本技术中需要使用强对齐或者弱对齐的方式对齐特征的基础上,可以根据实际所需适应性选择其中任意一者,此处不作限制。
126.在一些可选的实现方式中,上述步骤106中所述的基于所述分类结果、所述人物图像特征以及所述领域判别结果训练所述初始行为识别模型,包括:
127.步骤1061,利用领域判别器计算源域样本图像序列对应的源域预测值;所述源域样本图像序列与所述源域样本视频流对应;
128.将源域样本图像序列输入领域判别器之后,领域判别器可以计算与之对应的源域预测值。也即,领域判别器可以使用sigmoid函数计算源域样本图像序列对应的源域预测值。
129.步骤1062,利用领域判别器计算目标域样本图像序列对应的目标域预测值;所述目标域样本图像序列与所述目标域样本视频流对应。
130.将目标域样本图像序列输入领域判别器之后,领域判别器可以计算与之对应的目标域预测值。也即,领域判别器也可以使用sigmoid函数计算目标域样本图像序列对应的目标域预测值。
131.步骤1063,基于所述源域预测值以及所述目标域预测值,计算多个所述领域判别器的领域损失;
132.基于领域判别器预测出源域预测值以及目标域预测值之后,可以计算多个领域判别器所对应的领域损失。
133.在一些应用场景中,可以将各个领域判别器分别对应的领域损失的累加和确定为多个领域判别器对应的领域损失。在这些应用场景中,若存在浅层特征以及深层特征,则可以通过以下计算式表征多个领域判别器的损失:其中,mict-net网络架构当前提取了4层特征图。继而,l
muda
表示多个领域判别器的损失,表示浅层领域判别器(也即前三层对应的领域判别器)的损失;λ4l
dl
表示深层领域判别器(也即第四层对应的领域判别器)的损失;λ表示领域判别器的超参数,用于调节各个领域判别器的损失权重,以控制特征对齐程度。
134.步骤1064,将所述分类损失、所述分割损失以及所述领域损失进行反向传播,以更新所述初始行为识别模型的模型参数。
135.在一些应用场景中,由于特征提取器基于mict-net网络框架提取特征,则初始行为识别模型可以划分出mict-net部分以及领域判别器部分。继而,初始行为识别模型的模型损失包含mict-net部分、解码器部分以及领域判别器部分的损失。
136.继而,在得到上述领域损失、分割损失以及分类损失之后,可以将三者的累加和确定为初始行为识别模型的损失。例如,可以通过以下计算式表征初始行为识别模型的损失:l
total
=l
cls
+l
muda
+l
seg
;其中,l
total
表示初始行为识别模型的损失;l
cls
表示分类损失;l
muda
表示多个领域判别器的领域损失;l
seg
表示分割损失。应当说明的是,由于领域判别器中存在梯度反转层,因此其领域损失较大时,初始行为识别模型的损失较小。
137.继而,初始行为识别模型的优化目标可以视为:分类损失取最小值、领域损失取最大值、且分割损失取最小值。也即,在分类损失以及分割损失最小,且领域损失最大时,初始行为识别模型的损失最小。
138.在一些应用场景中,为了达到初始行为识别模型的优化目标,可以将领域损失、分割损失以及分类损失进行反向传播,利用梯度下降算法更新网络参数,直至该初始行为识别模型收敛为目标行为识别模型。
139.在本实现方式中,通过分别计算领域损失、分割损失以及分类损失,可以较为清晰地计算出初始行为识别模型的模型参数,以使初始行为识别模型朝着优化目标逐步收敛。
140.在一些应用场景中,当初始行为识别模型收敛得到目标行为识别模型之后,可以利用目标域数据集进行测试。在这些应用场景中,可以通过计算分类准确率确定目标行为识别模型的识别性能。进一步的,在这些应用场景中,例如可以将目标域数据集中的部分数据用于训练,并将剩余部分数据用于测试。
141.请参考图4,其示出了本技术实施例提供的一种视频行为识别方法的流程图,该方法包括以下步骤401至步骤402:
142.步骤401,提取待处理视频流数据所对应的待处理图像序列;
143.服务器在接收到待处理视频流数据之后,可以提取该待处理视频流数据所对应的待处理图像序列。其中,提取该待处理图像序列的过程例如可以与上述步骤101中提取样本图像序列的过程相同或相似,此处不赘述。
144.步骤402,将所述待处理图像序列输入目标行为识别模型中,以利用所述目标行为识别模型输出行为识别结果;所述目标行为识别模型基于如图1所示实施例中所述的方法训练得到。
145.服务器提取出待处理图像序列之后,可以将其输入目标行为识别模型,继而目标行为识别模型可以利用分类器输出分类结果,以识别出待处理视频流数据对应的人物行为。
146.在本实施例中,可以利用目标行为识别模型识别待处理视频流中的人物行为。其中,由于在训练初始行为识别模型时,将初始行为识别模型视为多任务框架。也即,将mict-net网络框架视为由特征提取器和分类器组成,其可以执行识别人物行为的主任务;然后可以将特征提取器作为编码器,以将特征提取器和解码器作为辅助任务框架,其可以执行提取人物图像特征的辅助任务。这样,由于解码器可以促使特征提取器仅提取人物图像特征,而忽略图像背景,继而改善了图像背景的干扰情况,有效提高了模型的识别性能。
147.另外,解码器作为辅助任务框架的一部分,其可以仅存在于训练初始行为识别模型的过程中,继而可以将其从目标行为识别模型中剖离出来,以使目标行为识别模型在实际应用场景中的处理速度不会衰减。因此,收敛后的目标行为识别模型兼顾了处理速度以及识别性能,更能满足实际应用场景的需求。
148.本领域技术人员可以理解,在具体实施例的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
149.请参考图5,其示出了本技术实施例提供的一种视频行为识别模型的训练装置的结构框图,该视频行为识别模型的训练装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
150.可选地,上述视频行为识别模型的训练装置包括输入模块501、特征提取模块502、分割模块503以及训练模块504。其中,所述视频行为识别模型基于mict-net网络框架构建;输入模块501,用于将样本视频流所对应的样本图像序列输入初始行为识别模型;所述样本视频流包括源域样本视频流;所述初始行为识别模型包括分类器、特征提取器以及解码器;特征提取模块502,用于利用所述特征提取器提取所述样本图像序列的整体图像特征,分割模块503,用于利用所述解码器从所述整体图像特征中分割出人物图像特征;训练模块504,用于基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型。
151.可选地,所述样本图像序列标注有分割标签以及分类标签,以及训练模块504进一步用于:计算所述分类结果与所述分类标签之间的分类损失;计算所述人物图像特征与所述分割标签之间的分割损失;将所述分类损失以及所述分割损失进行反向传播,以更新所述初始行为识别模型的模型参数。
152.可选地,所述分割标签包括二进制掩模标签或者水平集图标签;其中,所述二进制掩模标签通过图像分割模型mask r-cnn分割所述源域样本视频流所对应的源域样本图像序列得到;所述水平集图标签通过灰度值描述所述源域样本图像序列中的人体动作轮廓。
153.可选地,所述解码器包括3d反卷积层,以及所述分割模块503进一步用于:针对所述特征提取器所提取的最后一层下采样特征图,对该层下采样特征图进行上采样处理;针对上采样处理过程中的每一层上采样特征图,按照预设特征融合函数将该层上采样特征图以及所对应的下采样特征图进行特征融合处理;其中,所述人物图像特征为特征融合处理后的特征。
154.可选地,所述训练模块504进一步用于:基于所述分类器针对所述最后一层下采样特征图输出的分类结果以及所述解码器针对所述最后一层下采样特征图输出的人物图像特征,训练所述初始行为识别模型。
155.可选地,所述样本视频流还包括目标域样本视频流,所述初始行为识别模型还包括多个领域判别器,以及所述装置还包括特征对齐模块以及判别训练模块,上述特征对齐模块用于:利用所述多个领域判别器将所述样本图像序列在不同尺度上的特征对齐,得到领域判别结果;判别训练模块用于:基于所述分类结果、所述人物图像特征以及所述领域判别结果训练所述初始行为识别模型。
156.可选地,所述判别训练模块进一步用于:利用领域判别器计算源域样本图像序列对应的源域预测值;所述源域样本图像序列与所述源域样本视频流对应;利用领域判别器计算目标域样本图像序列对应的目标域预测值;所述目标域样本图像序列与所述目标域样本视频流对应;基于所述源域预测值以及所述目标域预测值,计算多个所述领域判别器的
领域损失;将所述分类损失、所述分割损失以及所述领域损失进行反向传播,以更新所述初始行为识别模型的模型参数。
157.请参考图6,其示出了本技术实施例提供的一种视频行为识别装置的结构框图,该视频行为识别装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图4方法实施例对应,能够执行图4方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
158.可选地,上述视频行为识别模型的训练装置包括提取模块以及识别模块。其中,提取模块,用于提取待处理视频流数据所对应的待处理图像序列;识别模块,用于将所述待处理图像序列输入目标行为识别模型中,以利用所述目标行为识别模型输出行为识别结果;所述目标行为识别模型基于如图4所示实施例的方法训练得到。
159.需要说明的是,本领域技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再重复描述。
160.请参照图7,图7为本技术实施例提供的一种用于执行视频行为识别模型的训练方法或者视频行为识别方法的电子设备的结构示意图,所述电子设备可以包括:至少一个处理器701,例如cpu,至少一个通信接口702,至少一个存储器703和至少一个通信总线704。其中,通信总线704用于实现这些组件直接的连接通信。其中,本技术实施例中设备的通信接口702用于与其他节点设备进行信令或数据的通信。存储器703可以是高速ram存储器,也可以是非易失性的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器703可选的还可以是至少一个位于远离前述处理器的存储装置。存储器703中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器701执行时,电子设备可以执行上述图1或者图4所示方法过程。
161.可以理解,图7所示的结构仅为示意,所述电子设备还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
162.本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,可以执行如图1或者图4所示方法实施例中电子设备所执行的方法过程。
163.本技术实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如,该方法可以包括:将样本视频流所对应的样本图像序列输入初始行为识别模型;所述样本视频流包括源域样本视频流;所述初始行为识别模型包括分类器、特征提取器以及解码器;利用所述特征提取器提取所述样本图像序列的整体图像特征;利用所述解码器从所述整体图像特征中分割出人物图像特征;基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型。
164.在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间
的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
165.另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
166.再者,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
167.在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
168.以上所述仅为本技术的实施例而已,并不用于限制本技术的保护范围,对于本领域的技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种视频行为识别模型的训练方法,其特征在于,所述视频行为识别模型基于mict-net网络框架构建,该方法包括:将样本视频流所对应的样本图像序列输入初始行为识别模型;所述样本视频流包括源域样本视频流;所述初始行为识别模型包括分类器、特征提取器以及解码器;利用所述特征提取器提取所述样本图像序列的整体图像特征;利用所述解码器从所述整体图像特征中分割出人物图像特征;基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型。2.根据权利要求1所述的方法,其特征在于,所述样本图像序列标注有分割标签以及分类标签,以及所述基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型,包括:计算所述分类结果与所述分类标签之间的分类损失;计算所述人物图像特征与所述分割标签之间的分割损失;将所述分类损失以及所述分割损失进行反向传播,以更新所述初始行为识别模型的模型参数。3.根据权利要求2所述的方法,其特征在于,所述分割标签包括二进制掩模标签或者水平集图标签;其中,所述二进制掩模标签通过图像分割模型mask r-cnn分割所述源域样本视频流所对应的源域样本图像序列得到;所述水平集图标签通过灰度值描述所述源域样本图像序列中的人体动作轮廓。4.根据权利要求1-3任一项所述的方法,其特征在于,所述解码器包括3d反卷积层,以及所述利用所述解码器从所述整体图像特征中分割出人物图像特征,包括:针对所述特征提取器所提取的最后一层下采样特征图,对该层下采样特征图进行上采样处理;针对上采样处理过程中的每一层上采样特征图,按照预设特征融合函数将该层上采样特征图以及所对应的下采样特征图进行特征融合处理;其中,所述人物图像特征为特征融合处理后的特征。5.根据权利要求4所述的方法,其特征在于,所述基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型,包括:基于所述分类器针对所述最后一层下采样特征图输出的分类结果以及所述解码器针对所述最后一层下采样特征图输出的人物图像特征,训练所述初始行为识别模型。6.根据权利要求2或者3所述的方法,其特征在于,所述样本视频流还包括目标域样本视频流,所述初始行为识别模型还包括多个领域判别器,以及所述方法还包括:利用所述多个领域判别器将所述样本图像序列在不同尺度上的特征对齐,得到领域判别结果;以及基于所述分类结果、所述人物图像特征以及所述领域判别结果训练所述初始行为识别模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述分类结果、所述人物图像特征以及所述领域判别结果训练所述初始行为识别模型,包括:利用领域判别器计算源域样本图像序列对应的源域预测值;所述源域样本图像序列与所述源域样本视频流对应;利用领域判别器计算目标域样本图像序列对应的目标域预测值;所述目标域样本图像序列与所述目标域样本视频流对应;基于所述源域预测值以及所述目标域预测值,计算多个所述领域判别器的领域损失;将所述分类损失、所述分割损失以及所述领域损失进行反向传播,以更新所述初始行为识别模型的模型参数。8.一种视频行为识别方法,其特征在于,包括:提取待处理视频流数据所对应的待处理图像序列;将所述待处理图像序列输入目标行为识别模型中,以利用所述目标行为识别模型输出行为识别结果;所述目标行为识别模型基于如权利要求1-7任一项所述的方法训练得到。9.一种视频行为识别模型的训练装置,其特征在于,所述视频行为识别模型基于mict-net网络框架构建,该装置包括:输入模块,用于将样本视频流所对应的样本图像序列输入初始行为识别模型;所述样本视频流包括源域样本视频流;所述初始行为识别模型包括分类器、特征提取器以及解码器;特征提取模块,用于利用所述特征提取器提取所述样本图像序列的整体图像特征;分割模块,用于利用所述解码器从所述整体图像特征中分割出人物图像特征;训练模块,用于基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型。10.一种视频行为识别装置,其特征在于,包括:提取模块,用于提取待处理视频流数据所对应的待处理图像序列;识别模块,用于将所述待处理图像序列输入目标行为识别模型中,以利用所述目标行为识别模型输出行为识别结果;所述目标行为识别模型基于如权利要求1-7任一项所述的方法训练得到。11.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-7或者8任一所述的方法。12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-7或者8任一所述的方法。

技术总结
本申请提供一种视频行为识别模型的训练方法、视频行为识别方法及装置,该方法的一具体实施方式包括:将样本视频流所对应的样本图像序列输入初始行为识别模型;所述样本视频流包括源域样本视频流;所述初始行为识别模型包括分类器、特征提取器以及解码器;利用所述特征提取器提取所述样本图像序列的整体图像特征;利用所述解码器从所述整体图像特征中分割出人物图像特征;基于所述分类器输出的分类结果以及所述解码器输出的人物图像特征,训练所述初始行为识别模型。该方法可以改善图像背景的干扰情况,提高模型的识别性能。提高模型的识别性能。提高模型的识别性能。


技术研发人员:董帅 李文生 熊坤坤 邹昆 冯子钜 叶润源
受保护的技术使用者:中山市希道科技有限公司
技术研发日:2023.06.08
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐