行为识别模型的训练、行为识别方法、装置、设备及介质与流程

未命名 07-29 阅读:103 评论:0


1.本发明涉及行为识别技术领域,尤其涉及一种行为识别模型的训练、行为识别方法、装置、设备及介质。


背景技术:

2.行为识别是利用视频序列中的空域外观信息和时域动态信息对视频中人体的行为进行研究的技术,是近年来计算机视觉领域的研究热点之一,在智能监控、虚拟现实和人机交互等领域有着广泛的应用前景。
3.现有技术中,双流网络是进行行为识别的主流网络之一,其中一条分支输入为rgb图像的空域分支学习视频中外观信息,另一条分支输入为光流图像的时域分支学习运动信息,将两分支融合后的结果用于最终的识别。
4.然而,基于双流网络进行行为识别虽然取得了较好的识别效果,但存在光流计算开销大的问题。双流网络中时域分支的输入模态是经过处理的光流图像,而处理光流图像的计算开销大、时间成本高,不能满足低延迟应用场景的需求。


技术实现要素:

5.本发明提供一种行为识别模型的训练、行为识别方法、装置、设备及介质,用以解决现有技术中双流网络中时域分支的输入模态是经过处理的光流图像,而处理光流图像的计算开销大、时间成本高,不能满足低延迟应用场景的需求的缺陷。
6.本发明提供一种行为识别模型的训练方法,包括:
7.获取光流行为识别模型和图像行为识别模型;
8.基于所述光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别;
9.基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;
10.基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。
11.根据本发明提供的一种行为识别模型的训练方法,所述基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,包括:
12.基于所述光流全局特征和所述图像全局特征,确定特征分布蒸馏损失;
13.基于所述图像行为识别结果和所述样本视频的行为标签,确定识别损失;
14.基于所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代。
15.根据本发明提供的一种行为识别模型的训练方法,所述基于所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代,包括:
16.基于光流行为识别结果和所述图像行为识别结果,确定识别分布蒸馏损失,所述光流行为识别结果是所述光流行为识别模型应用提取得到的光流全局特征进行行为识别得到的;
17.基于所述识别分布蒸馏损失,以及所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代。
18.根据本发明提供的一种行为识别模型的训练方法,所述基于所述光流全局特征和所述图像全局特征,确定特征分布蒸馏损失,包括:
19.基于所述光流全局特征和所述图像全局特征之间的拟合程度,确定所述特征分布蒸馏损失。
20.根据本发明提供的一种行为识别模型的训练方法,所述光流行为识别模型包括多个光流特征提取层,所述光流全局特征是所述多个光流特征提取层中的倒数第二个光流特征提取层输出的;
21.所述图像行为识别模型包括多个图像特征提取层,所述图像特征提取层是所述多个图像特征提取层中的倒数第二个图像特征提取层输出的。
22.本发明还提供一种行为识别方法,包括:
23.获取待识别图像;
24.基于行为识别模型,对所述待识别图像进行行为识别;
25.所述行为识别模型是基于如上述任一项所述的行为识别模型的训练方法执行得到的。
26.本发明还提供一种行为识别模型的训练装置,包括:
27.获取单元,用于获取光流行为识别模型和图像行为识别模型;
28.光流行为识别单元,用于基于所述光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别;
29.图像行为识别单元,用于基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;
30.参数迭代单元,用于基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。
31.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述行为识别模型的训练方法。
32.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述行为识别模型的训练方法。
33.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述行为识别模型的训练方法。
34.本发明提供的行为识别模型的训练、行为识别方法、装置、设备及介质,基于光流全局特征和图像全局特征,以及图像行为识别结果和样本视频的行为标签,对图像行为识别模型进行参数迭代,得到行为识别模型,采用了知识蒸馏的思想,图像行为识别模型不仅
可以学习到如何更好地对样本视频的光流数据进行全局特征提取,还可以学习到如何更好地对样本视频的图像数据进行全局特征提取,即后续应用中只需输入样本视频的图像数据即可进行行为识别,避免了输入光流数据造成的模型计算开销大的问题,降低了模型的计算量,节省了大量的时间成本,可以满足低延迟应用场景的需求,并且进一步提高了行为识别的精度。
附图说明
35.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
36.图1是本发明提供的行为识别模型的训练方法的流程示意图之一;
37.图2是本发明提供的行为识别模型的训练方法的流程示意图之二;
38.图3是本发明提供的行为识别模型的训练方法的流程示意图之三;
39.图4是本发明提供的行为识别模型的训练方法的流程示意图之四;
40.图5是本发明提供的图像行为识别模型训练装置的结构示意图;
41.图6为本发明提供的行为识别装置的结构示意图;
42.图7是本发明提供的电子设备的结构示意图。
具体实施方式
43.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
44.本发明的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类。
45.相关技术中,双流网络(two-stream convolutional networks)是进行行为识别的主流网络之一,双流网络,顾名思义,其网络框架由两个分支组成,分别为rgb分支和光流分支,rgb图像主要表征外观信息,而光流图像是由图像数据帧求出的密集光流,主要表达运动信息。
46.然而,基于双流网络进行行为识别虽然取得了较好的识别效果,但存在光流计算开销大的问题。双流网络中时域分支的输入模态是经过处理的光流图像,而处理光流图像的计算开销大、时间成本高,不能满足低延迟应用场景的需求。因此,光流图像的使用对设备要求较高,且对在线识别环境不友好。
47.针对上述问题,本发明提供一种行为识别模型的训练方法,图1是本发明提供的行为识别模型的训练方法的流程示意图之一,图2是本发明提供的行为识别模型的训练方法的流程示意图之二,如图1、图2所示,该方法包括:
48.步骤110,获取光流行为识别模型和图像行为识别模型。
49.具体地,可以获取光流行为识别模型和图像行为识别模型,此处的图像行为识别模型是指以rgb图像为输入的行为识别模型,例如,图像行为识别模型可以是以rgb图像为输入的空域模型,此处的rgb图像主要表征外观信息。此处的rgb图像可以是对样本视频进行分割得到的图像序列。
50.此处的rgb图像可以由格式为m
×n×
3的三维数组组成,其中的“3”可以理解为三幅m
×
n的二维图像(灰度值图像)。这三幅图像分别代表r、g、b分量,每个分量的像素点取值范围是[0,255]。
[0051]
此处的图像行为识别模型可以是级联结构的多层卷积神经网络(convolutional neural network,cnn),也可以是深度神经网络(deep neural networks,dnn),还可以是cnn和dnn的组合结构等,本发明实施例对此不作具体限定。
[0052]
此处的图像行为识别模型的识别维度可以是二维,也可以是三维,相应地,图像行为识别模型可以是二维cnn模型,也可以是三维cnn模型等,本发明实施例对此不作具体限定。
[0053]
此处的光流行为识别模型是指以光流图像为输入的行为识别模型,例如,光流行为识别模型可以是以光流图像为输入的时域模型,此处的光流图像是由图像数据帧求出的密集光流,主要表达运动信息。此处的光流是指相邻两帧rgb图像中通过光流求解算法得到的二维向量场,此处的时域模型的作用是消除连续帧之间的时域冗余。
[0054]
此处的光流行为识别模型可以是级联结构的多层cnn模型,也可以是dnn模型,还可以是cnn和dnn的组合结构等,本发明实施例对此不作具体限定。
[0055]
此处的光流行为识别模型的识别维度可以是二维,也可以是三维,相应地,光流行为识别模型可以是二维cnn模型,也可以是三维cnn模型等,本发明实施例对此不作具体限定。
[0056]
此外,还可以以resnet50为主干网络,对光流行为识别模型和图像行为识别模型分别进行单独训练。
[0057]
步骤120,基于所述光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别。
[0058]
具体地,可以预先收集样本视频的光流数据,在获取到光流行为识别模型之后,可以将样本视频的光流数据输入至光流行为识别模型中,由光流行为识别模型对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别。
[0059]
此处的样本视频即需要进行行为识别的视频,此处样本视频可以是预先拍摄并存储的视频,也可以是实时采集的视频流,本发明实施例对此不作具体限定。
[0060]
样本视频的光流数据是指先对样本视频进行分割得到的rgb图像序列,再对rgb图像序列中相邻两帧rgb图像通过光流求解算法得到的。
[0061]
可以理解的是,神经网络的低层一般表示的是低级局部特征,而高层则表示高级全局特征,对于光流行为识别模型,对样本视频的光流数据进行全局特征提取得到的光流全局特征能够包含更多的光流表达信息。即,光流全局特征反映了全局层面的光流特征信息。
[0062]
步骤130,基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征
提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果。
[0063]
具体地,可以预先收集样本视频的图像数据,在获取到图像行为识别模型之后,可以将样本视频的图像数据输入至图像行为识别模型,由图像行为识别模型对样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果。
[0064]
此处的图像行为识别结果反映了图像中的人的行为情况,图像行为识别结果可以是人在走路,也可以是人在跳跃,还可以是人在挥手等,本发明实施例对此不作具体限定。
[0065]
此处的样本视频即需要进行行为识别的视频,此处样本视频可以是预先拍摄并存储的视频,也可以是实时采集的视频流,本发明实施例对此不作具体限定。样本视频的图像数据是指对样本视频进行分割得到的rgb图像数据。
[0066]
可以理解的是,神经网络的低层一般表示的是低级局部特征,而高层则表示高级全局特征,对于图像行为识别模型,对样本视频的图像数据进行全局特征提取得到的图像全局特征能够包含更多的图像表达信息。即,图像全局特征反映了全局层面的图像特征信息。
[0067]
此外,在模型开始训练之前,可以对样本视频的光流数据和样本视频的图像数据进行数据预处理操作,数据预处理操作主要是数据增强和归一化处理。
[0068]
数据增强方式主要是多尺度裁剪和随机水平翻转,目的是增大训练数据量,提高模型的泛化能力以及降低模型过拟合风险。归一化处理是将数据限定在一定的范围内,如[-1,1],从而消除奇异样本数据导致的不良影响。
[0069]
除此之外,对输入模型中的图像进行采样时,可以采用稀疏采样而非密集采样。稀疏采样的好处是在视频转为单帧图像时,相邻帧图像之间只有微小的变化,会有大量的冗余数据,稀疏采样是为了去冗余,减少计算量。稀疏采样可以将图像序列分为k段,然后在每段序列中随机连续采样n帧图像。
[0070]
需要说明的是,样本视频的光流数据与样本视频的图像数据是采样同一样本视频的相同帧序列,这样是为了保持不同模态之间的样本配对。
[0071]
在训练过程中则采用了跨模态初始化和正则化技巧来防止模型过拟合。跨模态初始化是将训练好的图像行为识别模型用来初始化光流行为识别模型。正则化技巧则可以采用部分批量归一化,在模型训练过程中,除了第一层批量归一化层外,冻结其余所有批量归一化层的均值参数和方差参数。与此同时,还可以在模型的全局池化层的后面增加一个失活层以进一步减少模型过拟合。
[0072]
此外,训练过程中的模型参数设置也极为重要,例如初始学习率,权重衰减等。
[0073]
步骤140,基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。
[0074]
具体地,可以预先获取样本视频的行为标签,在得到光流全局特征、图像全局特征和图像行为识别结果之后,即可以将光流全局特征和图像全局特征进行比较,以及将图像行为识别结果和样本视频的行为标签进行比较,并根据光流全局特征和图像全局特征之间的差异程度计算得到第一损失函数值,以及根据图像行为识别结果和样本视频的行为标签之间的差异程度计算得到第二损失函数值,并基于第一损失函数值和第二损失函数值对图
像行为识别模型进行参数迭代,并将参数迭代之后的图像行为识别模型确定为行为识别模型。
[0075]
可以理解的是,光流全局特征和图像全局特征之间的差异程度越大,第一损失函数值越大;光流全局特征和图像全局特征之间的差异程度越小,第一损失函数值越小。
[0076]
可以理解的是,图像行为识别结果和样本视频的行为标签之间的差异程度越大,第二损失函数值越大;图像行为识别结果和样本视频的行为标签之间的差异程度越小,第二损失函数值越小。
[0077]
即,在行为识别模型的训练过程中,采用了知识蒸馏的思想,图像行为识别模型不仅可以学习到如何更好地对样本视频的光流数据进行全局特征提取,还可以学习到如何更好地对样本视频的图像数据进行全局特征提取,即后续应用中只需输入样本视频的图像数据即可进行行为识别,避免了输入光流数据造成的模型计算开销大的问题,降低了模型的计算量,节省了大量的时间成本,可以满足低延迟应用场景的需求。
[0078]
知识蒸馏是一种在繁琐的模型中提炼知识并将其转移到另一模型的方法,常见的有将同一输入模态下大模型中的知识转移到小模型,以达到模型压缩的目的,或者将不同模态下的知识进行转移。对于深度神经网络来说,知识蒸馏作为一种有效的模型压缩和加速技术,已经广泛应用于不同的人工智能领域,如计算机视觉、语音识别、自然语言处理等。
[0079]
一般的知识蒸馏是为了进行模型压缩,即将知识从复杂大网络转移到简单小网络,使其更好的应用于实际场景中,其中两个网络的输入模态是相同的,这样的蒸馏在高容量教师网络的指导下,可以很容易地对轻量级的学生网络进行训练。跨模态蒸馏相比于一般蒸馏,教师网络和学生网络的输入模态不同,但教师网络(光流行为识别模型)和学生网络(图像行为识别模型)的网络框架是一致的,这样便于实现网络监督。即,知识蒸馏使得图像行为识别模型学习到了对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别的能力,进一步提高了行为识别的精度。
[0080]
需要说明的是,在行为识别模型的训练过程中,教师网络(光流行为识别模型)在整个知识蒸馏过程中起指导作用,不参与模型训练。
[0081]
即,在行为识别模型的训练过程中,学习到了对样本视频的图像数据进行全局特征提取,并应用提取得到的图像全局特征进行行为识别的能力,以及学习到了对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别的能力。
[0082]
此外,在两个常用的行为识别数据集ucf101和hmdb51上的实验结果证明了本发明实施例中行为识别模型的有效性。经过跨模态知识蒸馏后,行为识别模型不仅在识别精度上优于原来的图像行为识别模型,其测试速度也大幅提升,在ucf101数据集上的fps(每秒处理帧数)为625,远高于原来光流行为识别模型的fps=15。
[0083]
本发明实施例提供的方法,基于光流全局特征和图像全局特征,以及图像行为识别结果和样本视频的行为标签,对图像行为识别模型进行参数迭代,得到行为识别模型,采用了知识蒸馏的思想,图像行为识别模型不仅可以学习到如何更好地对样本视频的光流数据进行全局特征提取,还可以学习到如何更好地对样本视频的图像数据进行全局特征提取,即后续应用中只需输入样本视频的图像数据即可进行行为识别,避免了输入光流数据造成的模型计算开销大的问题,降低了模型的计算量,节省了大量的时间成本,可以满足低延迟应用场景的需求,并且进一步提高了行为识别的精度。
[0084]
基于上述任一实施例,图3是本发明提供的行为识别模型的训练方法的流程示意图之三,如图3所示,在获取到光流行为识别模型和图像行为识别模型之后,可以将样本视频的图像数据输入至图像行为识别模型中,将样本视频的光流数据输入至光流行为识别模型中,并将光流行为识别模型和图像行为识别模型输出的特征进行特征融合,再基于特征融合后的特征预测得分(行为识别结果)。此处,基于特征融合后的特征预测得分可以使用池化层,此处的池化层可以是最大池化层,也可以是平均池化层等,本发明实施例对此不作具体限定。
[0085]
基于上述任一实施例,步骤140包括:
[0086]
步骤141,基于所述光流全局特征和所述图像全局特征,确定特征分布蒸馏损失;
[0087]
步骤142,基于所述图像行为识别结果和所述样本视频的行为标签,确定识别损失;
[0088]
步骤143,基于所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代。
[0089]
具体地,在得到光流全局特征和图像全局特征之后,可以基于光流全局特征和图像全局特征,确定特征分布蒸馏损失,此处的特征分布蒸馏损失可以用l
mse
表示。
[0090]
可以理解的是,光流全局特征和图像全局特征之间的差异程度越大,特征分布蒸馏损失越大;光流全局特征和图像全局特征之间的差异程度越小,特征分布蒸馏损失越小。
[0091]
在得到图像行为识别结果和样本视频的行为标签之后,可以基于图像行为识别结果和样本视频的行为标签,确定识别损失,此处的识别损失可以用l
ce
表示,识别损失可以是交叉熵损失函数,也可以是均方差损失函数等,本发明实施例对此不作具体限定。
[0092]
其中,l
ce
=crossentropy(ps,y)
[0093]
其中,ps为图像行为识别模型输出的图像行为识别结果,y为样本视频的行为标签。
[0094]
可以理解的是,图像行为识别结果和样本视频的行为标签之间的差异程度越大,识别损失越大;图像行为识别结果和样本视频的行为标签之间的差异程度越小,识别损失越小。
[0095]
图4是本发明提供的行为识别模型的训练方法的流程示意图之四,如图4所示,在得到特征分布蒸馏损失和识别损失之后,可以基于特征分布蒸馏损失和识别损失之和,或者加权之和,对图像行为识别模型进行参数迭代。
[0096]
其中,基于特征分布蒸馏损失和识别损失,对图像行为识别模型进行参数迭代的公式如下:
[0097]
l=αl
mse
+l
ce
[0098]
其中,l
ce
是识别损失,l
mse
是特征分布蒸馏损失,α是比例系数,控制特征分布蒸馏损失和识别损失的贡献比例。
[0099]
基于上述任一实施例,步骤143包括:
[0100]
步骤1431,基于光流行为识别结果和所述图像行为识别结果,确定识别分布蒸馏损失,所述光流行为识别结果是所述光流行为识别模型应用提取得到的光流全局特征进行行为识别得到的;
[0101]
步骤1432,基于所述识别分布蒸馏损失,以及所述特征分布蒸馏损失和所述识别
损失,对所述图像行为识别模型进行参数迭代。
[0102]
具体地,可以基于光流行为识别结果和图像行为识别结果,确定识别分布蒸馏损失,此处的光流行为识别结果是光流行为识别模型应用提取得到的光流全局特征进行行为识别得到的。
[0103]
此处的识别分布蒸馏损失可以用l
kd
表示,l
kd
=l(s(f
t
(x)),σ(fs(x)),其中,
[0104]
其中,f
t
(x)表示光流行为识别结果,fs(x)表示图像行为识别结果,σ为softmax函数,l表示交叉熵损失函数,t表示温度系数,s(f(x))表示带有温度系数t的softmax函数。
[0105]
可以理解的是,识别分布蒸馏损失的目的是使得图像行为识别模型能够学习到光流行为识别模型中的知识,使得图像行为识别模型的参数分布尽可能地接近光流行为识别模型。此处,图像行为识别模型相当于知识蒸馏中的学生网络,光流行为识别模型相当于教师网络。
[0106]
可以理解的是,光流行为识别结果和图像行为识别结果之间的差异程度越大,识别分布蒸馏损失越大;光流行为识别结果和图像行为识别结果之间的差异程度越小,识别分布蒸馏损失越小。
[0107]
在得到识别分布蒸馏损失之后,可以基于识别分布蒸馏损失,以及特征分布蒸馏损失和识别损失之和,或者基于识别分布蒸馏损失,以及特征分布蒸馏损失和识别损失的加权之和,对图像行为识别模型进行参数迭代。
[0108]
基于上述任一实施例,步骤1431包括:
[0109]
基于所述光流全局特征和所述图像全局特征之间的拟合程度,确定所述特征分布蒸馏损失。
[0110]
具体地,在得到光流全局特征和图像全局特征之后,可以基于光流全局特征和图像全局特征之间的拟合程度,确定特征分布蒸馏损失。此处的特征分布蒸馏损失可以为均方差蒸馏损失等,本发明实施例对此不作具体限定。
[0111]
此处的特征分布蒸馏损失可以用l
mse
表示,l
mse
=||(fs(x))-(f
t
(x))||2,其中,fs(x)表示图像全局特征,f
t
(x)表示光流全局特征。
[0112]
可以理解的是,光流全局特征和所述图像全局特征之间的拟合程度越高,特征分布蒸馏损失越小;光流全局特征和所述图像全局特征之间的拟合程度越低,特征分布蒸馏损失越大。
[0113]
基于上述任一实施例,所述光流行为识别模型包括多个光流特征提取层,所述光流全局特征是所述多个光流特征提取层中的倒数第二个光流特征提取层输出的;
[0114]
所述图像行为识别模型包括多个图像特征提取层,所述图像特征提取层是所述多个图像特征提取层中的倒数第二个图像特征提取层输出的。
[0115]
具体地,考虑到神经网络的低层一般表示的是低级局部特征,而高层则表示高级全局特征,对于光流行为识别模型,对样本视频的光流数据进行全局特征提取得到的光流全局特征能够包含更多的光流表达信息。即,光流全局特征反映了全局层面的光流特征信息。
[0116]
以及神经网络的低层一般表示的是低级局部特征,而高层则表示高级全局特征,
对于图像行为识别模型,对样本视频的图像数据进行全局特征提取得到的图像全局特征能够包含更多的图像表达信息。即,图像全局特征反映了全局层面的图像特征信息。
[0117]
光流行为识别模型可以包括多个光流特征提取层,因此,光流全局特征可以是多个光流特征提取层中的倒数第二个光流特征提取层输出的,能够包含更多的光流表达信息。
[0118]
图像行为识别模型包括多个图像特征提取层,因此,图像特征提取层是多个图像特征提取层中的倒数第二个图像特征提取层输出的,能够包含更多的图像表达信息。
[0119]
此处的光流特征提取层可以是级联结构的多层cnn模型,也可以是dnn模型,还可以是cnn和dnn的组合结构等,本发明实施例对此不作具体限定。
[0120]
此处的图像特征提取层可以是级联结构的多层cnn模型,也可以是dnn模型,还可以是cnn和dnn的组合结构等,本发明实施例对此不作具体限定。
[0121]
基于上述任一实施例,考虑到对行为识别模型训练完后,可以应用训练好的行为识别模型对待识别图像进行行为识别,得到行为识别结果。本发明提供一种行为识别方法,该方法包括:
[0122]
步骤210,获取待识别图像;
[0123]
具体地,可以获取待识别图像,此处的待识别图像即后续需要进行行为识别的图像,待识别图像可以是通过扫描仪、手机采集得到的,也可以是相机、平板等采集得到的,本发明实施例对此不作具体限定。
[0124]
步骤220,基于行为识别模型,对所述待识别图像进行行为识别;
[0125]
所述行为识别模型是基于上述行为识别模型的训练方法执行得到的。
[0126]
具体地,在获取到待识别图像之后,可以基于行为识别模型,对待识别图像进行行为识别,此处的行为识别的结果可以是人在走路,也可以是人在跳跃,还可以是人在挥手等,本发明实施例对此不作具体限定。
[0127]
具体在行为识别模型的训练过程中,可以预先收集样本视频的光流数据和样本视频的图像数据,还可以获取光流行为识别模型和图像行为识别模型。
[0128]
此处的光流行为识别模型可以是级联结构的多层cnn模型,也可以是dnn模型,还可以是cnn和dnn的组合结构等,本发明实施例对此不作具体限定。
[0129]
此处的光流行为识别模型的识别维度可以是二维,也可以是三维,相应地,光流行为识别模型可以是二维cnn模型,也可以是三维cnn模型等,本发明实施例对此不作具体限定。
[0130]
此处的图像行为识别模型可以是级联结构的多层cnn模型,也可以是dnn模型,还可以是cnn和dnn的组合结构等,本发明实施例对此不作具体限定。
[0131]
此处的图像行为识别模型的识别维度可以是二维,也可以是三维,相应地,图像行为识别模型可以是二维cnn模型,也可以是三维cnn模型等,本发明实施例对此不作具体限定。
[0132]
此外,在模型开始训练之前,可以对样本视频的光流数据和样本视频的图像数据进行数据预处理操作,数据预处理操作主要是数据增强和归一化处理。
[0133]
数据增强方式主要是多尺度裁剪和随机水平翻转,目的是增大训练数据量,提高模型的泛化能力以及降低模型过拟合风险。归一化处理是将数据限定在一定的范围内,如
[-1,1],从而消除奇异样本数据导致的不良影响。
[0134]
除此之外,对输入模型中的图像进行采样时,可以采用稀疏采样而非密集采样。稀疏采样的好处是在视频转为单帧图像时,相邻帧图像之间只有微小的变化,会有大量的冗余数据,稀疏采样是为了去冗余,减少计算量。稀疏采样可以将图像序列分为k段,然后在每段序列中随机连续采样n帧图像。
[0135]
在获取到光流行为识别模型和图像行为识别模型之后,可以将样本视频的光流数据输入至光流行为识别模型中,可以将样本视频的图像数据输入至图像行为识别模型中,由光流行为识别模型对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别。此处的光流全局特征反映了全局层面的光流特征信息。
[0136]
由图像行为识别模型对样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果。此处的图像全局特征反映了全局层面的图像特征信息。
[0137]
还可以预先获取样本视频的行为标签,在得到光流全局特征、图像全局特征和图像行为识别结果之后,可以基于光流全局特征和图像全局特征之间的拟合程度,确定特征分布蒸馏损失,此处的特征分布蒸馏损失可以用l
mse
表示。
[0138]
可以理解的是,光流全局特征和图像全局特征之间的差异程度越大,特征分布蒸馏损失越大;光流全局特征和图像全局特征之间的差异程度越小,特征分布蒸馏损失越小。
[0139]
在得到图像行为识别结果和样本视频的行为标签之后,可以基于图像行为识别结果和样本视频的行为标签,确定识别损失,此处的识别损失可以用l
ce
表示,识别损失可以是交叉熵损失函数,也可以是均方差损失函数等,本发明实施例对此不作具体限定。
[0140]
其中,l
ce
=crossentropy(ps,y)
[0141]
其中,ps为图像行为识别模型输出的图像行为识别结果,y为样本视频的行为标签。
[0142]
可以理解的是,图像行为识别结果和样本视频的行为标签之间的差异程度越大,识别损失越大;图像行为识别结果和样本视频的行为标签之间的差异程度越小,识别损失越小。
[0143]
在得到特征分布蒸馏损失和识别损失之后,可以基于特征分布蒸馏损失和识别损失之和,或者加权之和,对图像行为识别模型进行参数迭代,并将参数迭代之后的图像行为识别模型确定为行为识别模型。
[0144]
其中,基于特征分布蒸馏损失和识别损失,对图像行为识别模型进行参数迭代的公式如下:
[0145]
l=αl
mse
+l
ce
[0146]
其中,l
ce
是识别损失,l
mse
是特征分布蒸馏损失,α是比例系数,控制特征分布蒸馏损失和识别损失的贡献比例。
[0147]
本发明实施例提供的方法,行为识别模型是基于特征分布蒸馏损失和识别损失,对图像行为识别模型进行参数迭代得到的,由此,基于行为识别模型,对待识别图像进行行为识别,只需输入待识别图像即可进行行为识别,避免了输入光流数据造成的模型计算开销大的问题,降低了模型的计算量,节省了大量的时间成本,可以满足低延迟应用场景的需求,并且进一步提高了行为识别的精度。
[0148]
基于上述任一实施例,一种行为识别模型的训练方法,步骤如下:
[0149]
第一步,获取光流行为识别模型和图像行为识别模型。
[0150]
第二步,基于光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别。此处的光流行为识别模型可以包括多个光流特征提取层,光流全局特征可以是多个光流特征提取层中的倒数第二个光流特征提取层输出的。
[0151]
第三步,基于图像行为识别模型,对样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果。此处的图像行为识别模型可以包括多个图像特征提取层,所述图像特征提取层可以是多个图像特征提取层中的倒数第二个图像特征提取层输出的。
[0152]
第四步,基于光流全局特征和图像全局特征之间的拟合程度,确定特征分布蒸馏损失。
[0153]
第五步,基于图像行为识别结果和样本视频的行为标签,确定识别损失。
[0154]
第六步,基于光流行为识别结果和所述图像行为识别结果,确定识别分布蒸馏损失,此处的光流行为识别结果是光流行为识别模型应用提取得到的光流全局特征进行行为识别得到的。
[0155]
第七步,基于识别分布蒸馏损失,以及特征分布蒸馏损失和识别损失,对图像行为识别模型进行参数迭代,并将参数迭代之后的图像行为识别模型确定为行为识别模型。
[0156]
下面对本发明提供的行为识别模型的训练装置进行描述,下文描述的行为识别模型的训练装置与上文描述的行为识别模型的训练方法可相互对应参照。
[0157]
基于上述任一实施例,本发明提供一种行为识别模型的训练装置,图5是本发明提供的行为识别模型的训练装置的结构示意图,如图5所示,该装置包括:
[0158]
获取单元510,用于获取光流行为识别模型和图像行为识别模型;
[0159]
光流行为识别单元520,用于基于所述光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别;
[0160]
图像行为识别单元530,用于基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;
[0161]
参数迭代单元540,用于基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。
[0162]
本发明实施例提供的装置,基于光流全局特征和图像全局特征,以及图像行为识别结果和样本视频的行为标签,对图像行为识别模型进行参数迭代,得到行为识别模型,采用了知识蒸馏的思想,图像行为识别模型不仅可以学习到如何更好地对样本视频的光流数据进行全局特征提取,还可以学习到如何更好地对样本视频的图像数据进行全局特征提取,即后续应用中只需输入样本视频的图像数据即可进行行为识别,避免了输入光流数据造成的模型计算开销大的问题,降低了模型的计算量,节省了大量的时间成本,可以满足低延迟应用场景的需求,并且进一步提高了行为识别的精度。
[0163]
基于上述任一实施例,参数迭代单元540具体用于:
[0164]
确定特征分布蒸馏损失单元,用于基于所述光流全局特征和所述图像全局特征,确定特征分布蒸馏损失;
[0165]
确定识别损失单元,用于基于所述图像行为识别结果和所述样本视频的行为标签,确定识别损失;
[0166]
参数迭代子单元,用于基于所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代。
[0167]
基于上述任一实施例,参数迭代子单元具体用于:
[0168]
基于光流行为识别结果和所述图像行为识别结果,确定识别分布蒸馏损失,所述光流行为识别结果是所述光流行为识别模型应用提取得到的光流全局特征进行行为识别得到的;
[0169]
基于所述识别分布蒸馏损失,以及所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代。
[0170]
基于上述任一实施例,确定特征分布蒸馏损失单元具体用于:
[0171]
基于所述光流全局特征和所述图像全局特征之间的拟合程度,确定所述特征分布蒸馏损失。
[0172]
基于上述任一实施例,所述光流行为识别模型包括多个光流特征提取层,所述光流全局特征是所述多个光流特征提取层中的倒数第二个光流特征提取层输出的;
[0173]
所述图像行为识别模型包括多个图像特征提取层,所述图像特征提取层是所述多个图像特征提取层中的倒数第二个图像特征提取层输出的。
[0174]
下面对本发明提供的行为识别装置进行描述,下文描述的行为识别装置与上文描述的行为识别方法可相互对应参照。
[0175]
基于上述任一实施例,本发明提供一种行为识别装置,图6为本发明提供的行为识别装置的结构示意图,如图6所示,该装置包括:
[0176]
获取待识别图像单元610,用于获取待识别图像;
[0177]
行为识别单元620,用于基于行为识别模型,对所述待识别图像进行行为识别;
[0178]
所述行为识别模型是基于上述行为识别模型的训练方法执行得到的。
[0179]
本发明实施例提供的装置,行为识别模型是基于特征分布蒸馏损失和识别损失,对图像行为识别模型进行参数迭代得到的,由此,基于行为识别模型,对待识别图像进行行为识别,只需输入待识别图像即可进行行为识别,避免了输入光流数据造成的模型计算开销大的问题,降低了模型的计算量,节省了大量的时间成本,可以满足低延迟应用场景的需求,并且进一步提高了行为识别的精度。
[0180]
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行行为识别模型的训练方法,该方法包括:获取光流行为识别模型和图像行为识别模型;基于所述光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别;基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;基于所述光流全局特征和所述图像
全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。
[0181]
处理器710还可以调用存储器730中的逻辑指令,以执行行为识别方法,该方法包括:获取待识别图像;基于行为识别模型,对所述待识别图像进行行为识别;所述行为识别模型是基于上述行为识别模型的训练方法执行得到的。
[0182]
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0183]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的行为识别模型的训练方法,该方法包括:获取光流行为识别模型和图像行为识别模型;基于所述光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别;基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。
[0184]
所述计算机程序被处理器执行时,计算机还能够执行上述各方法所提供的行为识别方法,该方法包括:获取待识别图像;基于行为识别模型,对所述待识别图像进行行为识别;所述行为识别模型是基于上述行为识别模型的训练方法执行得到的。
[0185]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的行为识别模型的训练方法,该方法包括:获取光流行为识别模型和图像行为识别模型;基于所述光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别;基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。
[0186]
该计算机程序被处理器执行时实现以执行上述各方法提供的行为识别方法,该方法包括:获取待识别图像;基于行为识别模型,对所述待识别图像进行行为识别;所述行为识别模型是基于上述行为识别模型的训练方法执行得到的。
[0187]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0188]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0189]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种行为识别模型的训练方法,其特征在于,包括:获取光流行为识别模型和图像行为识别模型;基于所述光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别;基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。2.根据权利要求1所述的行为识别模型的训练方法,其特征在于,所述基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,包括:基于所述光流全局特征和所述图像全局特征,确定特征分布蒸馏损失;基于所述图像行为识别结果和所述样本视频的行为标签,确定识别损失;基于所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代。3.根据权利要求2所述的行为识别模型的训练方法,其特征在于,所述基于所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代,包括:基于光流行为识别结果和所述图像行为识别结果,确定识别分布蒸馏损失,所述光流行为识别结果是所述光流行为识别模型应用提取得到的光流全局特征进行行为识别得到的;基于所述识别分布蒸馏损失,以及所述特征分布蒸馏损失和所述识别损失,对所述图像行为识别模型进行参数迭代。4.根据权利要求2所述的行为识别模型的训练方法,其特征在于,所述基于所述光流全局特征和所述图像全局特征,确定特征分布蒸馏损失,包括:基于所述光流全局特征和所述图像全局特征之间的拟合程度,确定所述特征分布蒸馏损失。5.根据权利要求1至4中任一项所述的行为识别模型的训练方法,其特征在于,所述光流行为识别模型包括多个光流特征提取层,所述光流全局特征是所述多个光流特征提取层中的倒数第二个光流特征提取层输出的;所述图像行为识别模型包括多个图像特征提取层,所述图像特征提取层是所述多个图像特征提取层中的倒数第二个图像特征提取层输出的。6.一种行为识别方法,其特征在于,包括:获取待识别图像;基于行为识别模型,对所述待识别图像进行行为识别;所述行为识别模型是基于如权利要求1至5中任一项所述的行为识别模型的训练方法执行得到的。7.一种行为识别模型的训练装置,其特征在于,包括:获取单元,用于获取光流行为识别模型和图像行为识别模型;光流行为识别单元,用于基于所述光流行为识别模型,对样本视频的光流数据进行全
局特征提取,并应用提取得到的光流全局特征进行行为识别;图像行为识别单元,用于基于所述图像行为识别模型,对所述样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;参数迭代单元,用于基于所述光流全局特征和所述图像全局特征,以及所述图像行为识别结果和所述样本视频的行为标签,对所述图像行为识别模型进行参数迭代,得到所述行为识别模型。8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述行为识别模型的训练方法。9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述行为识别模型的训练方法。10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述行为识别模型的训练方法。

技术总结
本发明提供一种行为识别模型的训练、行为识别方法、装置、设备及介质,其中方法包括:获取光流行为识别模型和图像行为识别模型;基于光流行为识别模型,对样本视频的光流数据进行全局特征提取,并应用提取得到的光流全局特征进行行为识别;基于图像行为识别模型,对样本视频的图像数据进行全局特征提取,并应用提取所得的图像全局特征进行行为识别,得到图像行为识别结果;基于光流全局特征和图像全局特征,以及图像行为识别结果和样本视频的行为标签,对图像行为识别模型进行参数迭代,得到行为识别模型。本发明提供的方法、装置、电子设备及存储介质,避免输入光流数据造成的模型计算开销大的问题,满足低延迟应用场景需求,提高了识别的精度。了识别的精度。了识别的精度。


技术研发人员:王陈燕
受保护的技术使用者:中银金融科技有限公司
技术研发日:2023.03.08
技术公布日:2023/7/26
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐