一种行为识别方法、装置、计算机设备和存储介质与流程
未命名
09-13
阅读:88
评论:0

1.本发明涉及样本处理领域,尤其涉及一种行为识别方法、装置、计算机设备和存储介质。
背景技术:
2.随着物联网的大规模应用,越来越多的终端设备开始对时序数据进行智能序列识别,序列识别广泛应用于购物、社交、互动游戏等诸多场景下。其中,时序数据包括视频数据、音频数据等。而智能序列识别将对时序数据进行实时分类和实时识别。
3.对时序数据进行识别时,通常需要消耗终端设备的大量算力,才能完成时序数据的智能序列识别。为了保证终端设备的能效,将时序数据进行智能序列识别前,会对时序数据进行过滤,但现有技术中,在进行智能序列识别前对时序数据的过滤方法不够精确,经过过滤后的时序数据依然存在大量冗余,因此,将这些冗余时序数据进行智能序列识别时,依然会消耗不必要的算力。
技术实现要素:
4.本发明实施例提供一种行为识别方法、装置、计算机设备及存储介质,以解决对时序数据进行智能序列识别时,算力消耗过大的问题。
5.本发明第一方面,提供一种行为识别方法,包括:
6.提取待识别时序图像的局部具体特征;
7.将携带所述局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像;
8.提取所述预期时序图像的全局抽象特征;
9.将携带所述全局抽象特征的预期时序图像输入行为识别模型,识别出所述预期时序图像的行为类别和属性。
10.在一种可能的设计中,所述提取待识别时序图像的局部具体特征之前,所述方法还包括:
11.获取待处理时序图像;
12.去除所述待处理时序图像中姿势重复的无效图像,得到所述待识别时序图像。
13.在一种可能的设计中,所述待处理时序图像包括第一时序图像和第二时序图像,所述第一时序图像和第二时序图像是所述待处理时序图像中相邻的两个图像,所述去除所述待处理时序图像中姿势重复的无效图像之前,所述方法还包括:
14.判断所述第一时序图像与第二时序图像的内容,是否存在变化;
15.若所述第一时序图像与第二时序图像的内容变化程度大于预期变化程度,则判断所述第一时序图像与第二时序图像都为有效图像;
16.若所述第一时序图像与第二时序图像的内容变化程度小于所述预期变化程度,则判断所述第二时序图像为所述无效图像。
17.在一种可能的设计中,所述姿势检测模型通过姿势检测模型训练方法训练得到,所述姿势检测模型训练方法包括:
18.获取训练图像,所述训练图像包括图像内容以及所述图像内容的姿势标签,所述姿势标签用于指示所述训练图像是否包含所述预期姿势;
19.提取所述训练图像的局部具体特征;
20.依据携带所述局部具体特征的训练图像,对初始姿势检测模型进行训练,得到所述预期姿势的执行概率;
21.根据所述预期姿势的执行概率与所述姿势标签的差异,调整所述姿势检测模型的模型参数并继续训练,直至满足训练停止条件时结束训练,得到所述姿势检测模型。
22.在一种可能的设计中,所述依据携带所述局部具体特征的训练图像,对初始姿势检测模型进行训练,得到所述预期姿势的执行概率,包括:
23.依据所述局部具体特征,判断所述训练图像是否包含所述预期姿势;
24.若所述训练图像包含所述预期姿势,则将所述训练图像标记为预期图像;
25.若所述训练图像不包含所述预期姿势,则将所述训练图像标记为非预期图像;
26.依据所述预期图像和非预期图像的数量,得出所述预期姿势的执行概率。
27.在一种可能的设计中,所述根据所述预期姿势的执行概率与所述姿势标签的差异,调整所述姿势检测模型的模型参数并继续训练,直至满足训练停止条件时结束训练,包括:
28.依据所述预期姿势的执行概率与所述姿势标签,计算姿势检测损失值;
29.依据所述姿势检测损失值,调整模型参数,直至所述姿势检测损失值符合预期损失值时,结束训练。
30.在一种可能的设计中,所述去除所述待处理时序图像中姿势重复的无效图像之前,所述方法还包括:
31.去除所述待处理时序图像中的空白图像。
32.第二方面,提供一种行为识别装置,包括:
33.第一提取模块,用于提取待识别时序图像的局部具体特征;
34.过滤模块,用于将携带所述局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像;
35.第二提取模块,用于提取所述预期时序图像的全局抽象特征;
36.输出模块,用于将携带所述全局抽象特征的预期时序图像输入行为识别模型,识别出所述预期时序图像的行为类别和属性。
37.第三方面,提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述行为识别方法的步骤。
38.第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述行为识别方法的步骤。
39.上述行为识别方法、装置、计算机设备和存储介质,通过提取待识别时序图像的局部具体特征,并将携带所述局部具体特征的待识别时序图输入姿势检测模型,得到包含预期姿势的预期时序图像,这一过程中过滤了不包含预期姿势的时序图像,有效去除了后续
输入行为识别模型的冗余数据,然后,提取所述预期时序图像的全局抽象特征,并将携带所述全局抽象特征的预期时序图像输入行为识别模型,通过行为识别模型对预期时序图像进行智能序列识别,识别出预期时序图像的行为类别和属性,由于最终输入行为识别模型的预期时序图像只包含存在预期姿势的时序图像,排除了冗余的、不存在预期姿势的时序图像,有效降低了行为识别模型的计算量,减少了设备的算力消耗。
附图说明
40.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明一实施例中行为识别方法的一应用环境示意图;
42.图2是本发明一实施例中行为识别方法的一流程示意图;
43.图3是本发明一实施例中行为识别方法的一流程示意图;
44.图4是本发明一实施例中行为识别方法的一流程示意图;
45.图5是本发明一实施例中行为识别方法的一流程示意图;
46.图6是本发明一实施例中行为识别方法的一流程示意图;
47.图7是本发明一实施例中行为识别方法的一流程示意图;
48.图8是本发明一实施例中行为识别装置的一示意图;
49.图9是本发明一实施例中计算机设备的一示意图。
具体实施方式
50.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
52.还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
53.另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
54.在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
55.本发明实施例提供的行为识别方法,可应用在如图1的应用环境中,其中,客户端设备通过网络与服务器进行通信。客户端设备采集时序图像,将采集到的时序图像传输给服务端,由服务端对该时序图像进行行为识别,客户端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。该行为识别方法可用于但不仅限于支付视频记录设备、交易记录视频设备、校园安防视频设备、体育运动采集视频设备等多种视频图像识别场景。
56.在一实施例中,如图2所示,提供一种行为识别方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
57.s10:提取待识别时序图像的局部具体特征。
58.服务端获取到待识别时序图像后,提取该时序图的浅层特征,也就是该时序图像的局部具体特征。其中,时序图像指依照时间先后顺序排列的连续图像,包括但不仅限于视频数据、预设时间范围内连续拍摄的图像数据等,另外,提取该时序图像的浅层特征的方法包括但不仅限于通过卷积神经网络(convolutional neural network,简称为cnn)进行特征提取、通过循环神经网络(recurrent neural network,简称为rnn)进行特征提取等方法。局部具体特征指神经网络感受野较小时捕获的细节特征,包括但不仅限于待识别时序图像的颜色、纹理、边缘、棱角等。
59.例如,本实施例中,将获取到的时序图像输入卷积神经网络中,以提取该时序图像的浅层特征。
60.s20:将携带所述局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像。
61.提取出待识别时序图像的局部具体特征后,将携带局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像。其中,姿势检测模型用于判断静态图像中是否包含预期姿势。该姿势检测模型可以通过自动化机器学习来训练获得。预期姿势包括但不仅限于人体姿势、手势等,因此预期时序图像包括但不仅限于连续的人体姿势图像、连续的手势图像等。例如,预期姿势为体育运动姿势,则获取所有包含体育运动姿势的时序图像。
62.具体地,本实施例基于域外样本检测(out-of-distribution detection,简称ood detection)算法训练出姿势检测模型,以对待识别时序图进行分类检测,得出预期时序图像。该域外样本检测算法包括但不仅限于基于softmax(归一化指数)函数的ood检测算法、基于feature(特征)的ood检测算法等。
63.例如,客户端为一体育运动检测设备,该设备将体育运动视频传输给服务端,此时预期姿势为体育动作姿势,服务端依据步骤s20筛选出包含体育动作姿势的视频帧,用于后续智能行为识别。
64.s30:提取所述预期时序图像的全局抽象特征。
65.获得包含预期姿势的预期时序图像后,提取该预期时序图像的深层特征,及全局抽象特征。其中,全局抽象特征指神经网络感受野较大时,对预期时序图像信息进行压缩,得到的预期时序图像整体信息,包含是更抽象的信息,该全局抽象特征包括但不仅限于语义信息、颗粒度信息等。提取预期时序图像的深层特征的方法包括但不仅限于通过卷积神
经网络进行特征提取、通过循环神经网络进行特征提取等方法。
66.例如,本实施例中,将获取到的预期时序图像输入卷积神经网络,以提取预期时序图像的深层特征。
67.s40:将携带所述全局抽象特征的预期时序图像输入行为识别模型,识别出所述预期时序图像的行为类别和属性。
68.提取到预期时序图像的全局抽象特征后,将携带全局抽象特征的预期时序图输入行为识别模型,得出预期时序图像的行为类别和属性。其中,行为指由预期时间范围内的连续姿势构成的动作行为,包括但不仅限于抬手、抬头、踢腿等。行为识别模型用于识别时序图像中的序列姿势构成的行为类型和属性,行为识别模型包括但不仅限于lstm(long short-term memory)模型、gru(gate recurrent unit)模型等网络模型。最终识别出的行为类别包括但不仅限于挥拳、肘击、脚踢等,而识别出的行为属性包括但不仅限于危险动作、体育动作等行为属性。
69.例如,客户端为金融安防视频设备,该金融安防视频设备向服务端传输了一段安防视频,服务端通过行为识别模型,得出该安防视频中出现了挥拳动作,属性为危险动作,依据行为属性,向安防人员发起警报,提示安防人员注意安防视频设备所在地的危险情况。
70.需要说明的是,本实施例提取待识别时序图像的局部具体特征,并将携带所述局部具体特征的待识别时序图输入姿势检测模型,得到包含预期姿势的预期时序图像,这一过程中过滤了不包含预期姿势的时序图像,有效去除了后续输入行为识别模型的冗余数据,然后,提取所述预期时序图像的全局抽象特征,并将携带所述全局抽象特征的预期时序图像输入行为识别模型,通过行为识别模型对预期时序图像进行智能序列识别,识别出预期时序图像的行为类别和属性,由于最终输入行为识别模型的预期时序图像只包含存在预期姿势的时序图像,排除了冗余的、不存在预期姿势的时序图像,有效降低了行为识别模型的计算量,减少了设备的算力消耗。
71.在一实施例中,在校园中安装安防监控设备,服务端需要自动处理从安防监控设备传输来的待处理时序图像,也就是视频帧。如图3所示,步骤s10之前,即提取待识别时序图像的局部具体特征之前,该方法还包括如下步骤:
72.s11:获取待处理时序图像。
73.s12:去除所述待处理时序图像中姿势重复的无效图像,得到所述待识别时序图像。
74.通过客户端采集待处理时序图像,将采集到的待处理时序图像传输给服务端。服务端去除待处理图像中姿势重复的无效图像,得到待识别时序图像。
75.具体地,通过判断待处理图像中连续几张图像没有任何变化,则判断这几张图像的行为为静态行为,只需保留其中一张图像,将其他的重复图像作为无效图像,进行删除。
76.需要说明的是,在提取局部具体特征之前,过滤待处理时序图像中的无效图像,有效减少了后续姿势检测和行为识别的计算消耗,同时,由于减少了无效图像的输入,加快了整体的行为识别方法的效率。
77.在一实施例中,在校园中安装安防监控设备,服务端需要使用帧差法自动过滤从安防监控设备传输来的待处理时序图像。如图4所示,待处理时序图像包括第一时序图像和第二时序图像,第一时序图像和第二时序图像是待处理时序图像中相邻的两个图像,在步
骤s12之前,即去除所述待处理时序图像中姿势重复的无效图像之前,该方法还包括如下步骤:
78.s51:判断所述第一时序图像与第二时序图像的内容,是否存在变化。
79.s52:若所述第一时序图像与第二时序图像的内容变化程度大于预期变化程度,则判断所述第一时序图像与第二时序图像都为有效图像。
80.s53:若所述第一时序图像与第二时序图像的内容变化程度小于所述预期变化程度,则判断所述第二时序图像为所述无效图像。
81.具体地,判断第一时序图像与第二时序图像之间的变化程度,若变化程度很小,则第一时序图像与第二时序图像为连续静止画面,因此不存在任何需要判断的姿势或行为,无需进行姿势检测或行为识别。因此判定第二时序图像为无效帧,去除第二时序图像。
82.需要说明的是,使用帧差法对时序图像的相邻两张图像进行差分运算,判断图像背景的灰度值是否发生变化,然后根据灰度值变化判断两张图像之间的变化程度,该帧差法实现简单,程序设计复杂度低,对光线等场景变化不敏感,能够适应各种动态环境,有着良好的稳定性。
83.在一实施例中,如图5所示,在步骤s20中,姿势检测模型通过姿势检测模型训练方法训练得到,该姿势检测模型的训练方法,具体包括如下步骤:
84.s21:获取训练图像,所述训练图像包括图像内容以及所述图像内容的姿势标签,所述姿势标签用于指示所述训练图像是否包含所述预期姿势。
85.s22:提取所述训练图像的局部具体特征。
86.s23:依据携带所述局部具体特征的训练图像,对初始姿势检测模型进行训练,得到所述预期姿势的执行概率。
87.s24:根据所述预期姿势的执行概率与所述姿势标签的差异,调整所述姿势检测模型的模型参数并继续训练,直至满足训练停止条件时结束训练,得到所述姿势检测模型。
88.在其中一实施例中,基于域外样本检测的训练得到步骤s20中的姿势检测模型,该训练方法具体包括:
89.步骤s21,构造了训练数据集,也就是获取训练图像。该训练图像包括包含预期姿势的训练图像和不包含预期姿势的训练图像。该训练图像所标注的姿势标签,标记了哪些训练图像包含预期姿势和那些不包含预期姿势。例如,预期图像为举手,训练图像若包含举手姿势,则姿势标签为1,若不包含,则姿势标签为0。
90.步骤s22中,提取训练图像的局部具体特征,也就是浅层特征。提取该训练图像的浅层特征的方法包括但不仅限于通过卷积神经网络进行特征提取、通过循环神经网络进行特征提取等方法。局部具体特征包括但不仅限于训练图像的颜色、纹理、边缘、棱角等。
91.在步骤s23-s24中,依据携带局部具体特征的训练图像,对初始姿势检测模型进行训练。根据初始姿势检测模型输出的预期姿势的执行概率与姿势标签的差异,调整姿势检测模型的模型参数并继续训练,直至满足训练停止条件时结束训练,得到姿势检测模型。
92.需要说明的是,基于域内检测算法训练得出的姿势检测模型,由于域内检测算法能够依照当前输入的待识别时序图像浅层特征,判断是否与训练图像的浅层特征一致,从而判断该待识别时序图像的分类,而非常规模型中,依据训练出的模型在训练阶段是否见过该时序图像或类似的时序图像,来进行类别判断,提高了图像分类的准确性,也提高了后
续行为识别的准确性和识别效率。
93.在一实施例中,如图6所示,在步骤s23中,即依据携带所述局部具体特征的训练图像,对初始姿势检测模型进行训练,得到所述预期姿势的执行概率,具体包括如下步骤:
94.s231:依据所述局部具体特征,判断所述训练图像是否包含所述预期姿势。
95.s232:若所述训练图像包含所述预期姿势,则将所述训练图像标记为预期图像。
96.s233:若所述训练图像不包含所述预期姿势,则将所述训练图像标记为非预期图像。
97.s234:依据所述预期图像和非预期图像的数量,得出所述预期姿势的执行概率。
98.在其中一实施例中,依据预期姿势和训练图像的局部具体特征,对训练图像进行分类。分类的结果为包含了预期姿势的预期图像和未包含预期姿势的非预期图像,得出预期图像的概率作为预期姿势的执行概率,以对当前模型训练结果和预期训练结果的差异进行判断。其中,依据局部具体特征对训练图像进行分类的方式包括但不仅限于依据图像特征的分布对训练图像进行分类、依据图像的纹理分布对训练图像进行分类等。
99.需要说明的是,对姿势检测模型进行预训练,有效提升了整体行为识别方法对待识别时序图像进行处理的效率。
100.在一实施例中,如图7所示,步骤s24中,即根据所述预期姿势的执行概率与所述姿势标签的差异,调整所述姿势检测模型的模型参数并继续训练,直至满足训练停止条件时结束训练中,具体包括如下步骤:
101.s241:依据所述预期姿势的执行概率与所述姿势标签,计算姿势检测损失值。
102.s242:依据所述姿势检测损失值,调整模型参数,直至所述姿势检测损失值符合预期损失值时,结束训练。
103.步骤s241中,依据预期姿势的执行效率与姿势标签,来计算姿势检测损失值。其中,姿势检测损失值指初始姿势检测模型在检测过程中造成的风险或损失。计算姿势检测损失指的方法包括但不仅限于通过交叉熵损失函数计算、通过均方误差损失函数计算等。
104.在步骤s242中,依据姿势检测损失值与预期损失值的偏差值,对模型参数进行调整,直至该偏差值满足预期偏差,结束训练,得出目标姿势检测模型。
105.需要说明的是,由于计算损失值可以衡量姿势检测模型输出结果与预期结果之间的误差,误差值越小,姿势检测模型的性能越好,因此损失值的计算可以有效地提升姿势检测模型的性能和计算效率,从而有效提升行为识别方法的性能和效率。
106.在一实施例中,步骤s12之前,即去除所述待处理时序图像中姿势重复的无效图像之前,该方法包括如下步骤:
107.s61:去除所述待处理时序图像中的空白图像。
108.步骤s61中,去除待处理时序图像中的空白图像。具体地,获取待处理时序图像的像素值,筛选出像素值大于200的像素点,若像素点大于预期数量,则判断待处理时序图像为空白图像,将该图像去除。
109.需要说明的是,去除待处理时序图像中的空白图像,减少了后续计算中的冗余数据,有效减少了后续姿势检测和行为识别的计算消耗,同时,由于减少了无效图像的输入,加快了整体的行为识别方法的效率。
110.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程
的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
111.在一实施例中,提供一种行为识别装置,该行为识别装置与上述实施例中行为识别方法一一对应。如图8所示,该行为识别装置包括第一提取模块10、过滤模块20、第二提取模块30和输出模块40。各功能模块详细说明如下:
112.第一提取模块10,用于提取待识别时序图像的局部具体特征;
113.过滤模块20,用于将携带所述局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像;
114.第二提取模块30,用于提取所述预期时序图像的全局抽象特征;
115.输出模块40,用于将携带所述全局抽象特征的预期时序图像输入行为识别模型,识别出所述预期时序图像的行为类别和属性。
116.在一实施例中,在第一提取模块10之前,所述行为识别装置还包括:
117.获取模块,用于获取待处理时序图像;
118.第一筛选模块,用于去除所述待处理时序图像中姿势重复的无效图像,得到所述待识别时序图像。
119.在一实施例中,所述待处理时序图像包括第一时序图像和第二时序图像,所述第一时序图像和第二时序图像是所述待处理时序图像中相邻的两个图像,在第一筛选模块之前,所述行为识别装置还包括:
120.判断模块,用于判断所述第一时序图像与第二时序图像的内容,是否存在变化;
121.输出有效模块,用于若所述第一时序图像与第二时序图像的内容变化程度大于预期变化程度,则判断所述第一时序图像与第二时序图像都为有效图像;
122.输出无效模块,用于若所述第一时序图像与第二时序图像的内容变化程度小于所述预期变化程度,则判断所述第二时序图像为所述无效图像。
123.在一实施例中,所述过滤模块20中的姿势检测模型通过姿势检测模型训练方法训练模块得到,所述姿势检测模型训练模块用于:
124.获取训练图像,所述训练图像包括图像内容以及所述图像内容的姿势标签,所述姿势标签用于指示所述训练图像是否包含所述预期姿势;
125.提取所述训练图像的局部具体特征;
126.依据携带所述局部具体特征的训练图像,对初始姿势检测模型进行训练,得到所述预期姿势的执行概率;
127.根据所述预期姿势的执行概率与所述姿势标签的差异,调整所述姿势检测模型的模型参数并继续训练,直至满足训练停止条件时结束训练,得到所述姿势检测模型。
128.在一实施例中,所述姿势检测模型训练模块还用于:
129.依据所述局部具体特征,判断所述训练图像是否包含所述预期姿势;
130.若所述训练图像包含所述预期姿势,则将所述训练图像标记为预期图像;
131.若所述训练图像不包含所述预期姿势,则将所述训练图像标记为非预期图像;
132.依据所述预期图像和非预期图像的数量,得出所述预期姿势的执行概率。
133.在一实施例中,所述姿势检测模型训练模块还用于:
134.依据所述预期姿势的执行概率与所述姿势标签,计算姿势检测损失值;
135.依据所述姿势检测损失值,调整模型参数,直至所述姿势检测损失值符合预期损失值时,结束训练。
136.在一实施例中,所述过滤模块20还用于:
137.去除所述待处理时序图像中的空白图像。
138.关于行为识别装置的具体限定可以参见上文中对于行为识别方法的限定,在此不再赘述。上述行为识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
139.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储行为识别方法中获取和产生的所有数据,包括但不仅限于时序图像、训练图像等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行为识别方法。
140.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
141.提取待识别时序图像的局部具体特征;
142.将携带所述局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像;
143.提取所述预期时序图像的全局抽象特征;
144.将携带所述全局抽象特征的预期时序图像输入行为识别模型,识别出所述预期时序图像的行为类别和属性。
145.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
146.提取待识别时序图像的局部具体特征;
147.将携带所述局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像;
148.提取所述预期时序图像的全局抽象特征;
149.将携带所述全局抽象特征的预期时序图像输入行为识别模型,识别出所述预期时序图像的行为类别和属性。
150.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,
诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
151.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
152.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种行为识别方法,其特征在于,包括:提取待识别时序图像的局部具体特征;将携带所述局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像;提取所述预期时序图像的全局抽象特征;将携带所述全局抽象特征的预期时序图像输入行为识别模型,识别出所述预期时序图像的行为类别和属性。2.如权利要求1所述的行为识别方法,其特征在于,所述提取待识别时序图像的局部具体特征之前,所述方法还包括:获取待处理时序图像;去除所述待处理时序图像中姿势重复的无效图像,得到所述待识别时序图像。3.如权利要求1所述的行为识别方法,其特征在于,所述待处理时序图像包括第一时序图像和第二时序图像,所述第一时序图像和第二时序图像是所述待处理时序图像中相邻的两个图像,所述去除所述待处理时序图像中姿势重复的无效图像之前,所述方法还包括:判断所述第一时序图像与第二时序图像的内容,是否存在变化;若所述第一时序图像与第二时序图像的内容变化程度大于预期变化程度,则判断所述第一时序图像与第二时序图像都为有效图像;若所述第一时序图像与第二时序图像的内容变化程度小于所述预期变化程度,则判断所述第二时序图像为所述无效图像。4.如权利要求1所述的行为识别方法,其特征在于,所述姿势检测模型通过姿势检测模型训练方法训练得到,所述姿势检测模型训练方法包括:获取训练图像,所述训练图像包括图像内容以及所述图像内容的姿势标签,所述姿势标签用于指示所述训练图像是否包含所述预期姿势;提取所述训练图像的局部具体特征;依据携带所述局部具体特征的训练图像,对初始姿势检测模型进行训练,得到所述预期姿势的执行概率;根据所述预期姿势的执行概率与所述姿势标签的差异,调整所述姿势检测模型的模型参数并继续训练,直至满足训练停止条件时结束训练,得到所述姿势检测模型。5.如权利要求4所述的行为识别方法,其特征在于,所述依据携带所述局部具体特征的训练图像,对初始姿势检测模型进行训练,得到所述预期姿势的执行概率,包括:依据所述局部具体特征,判断所述训练图像是否包含所述预期姿势;若所述训练图像包含所述预期姿势,则将所述训练图像标记为预期图像;若所述训练图像不包含所述预期姿势,则将所述训练图像标记为非预期图像;依据所述预期图像和非预期图像的数量,得出所述预期姿势的执行概率。6.如权利要求4所述的行为识别方法,其特征在于,所述根据所述预期姿势的执行概率与所述姿势标签的差异,调整所述姿势检测模型的模型参数并继续训练,直至满足训练停止条件时结束训练,包括:依据所述预期姿势的执行概率与所述姿势标签,计算姿势检测损失值;依据所述姿势检测损失值,调整模型参数,直至所述姿势检测损失值符合预期损失值
时,结束训练。7.如权利要求2所述的行为识别方法,其特征在于,所述去除所述待处理时序图像中姿势重复的无效图像之前,所述方法还包括:去除所述待处理时序图像中的空白图像。8.一种行为识别装置,其特征在于,包括:第一提取模块,用于提取待识别时序图像的局部具体特征;过滤模块,用于将携带所述局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像;第二提取模块,用于提取所述预期时序图像的全局抽象特征;输出模块,用于将携带所述全局抽象特征的预期时序图像输入行为识别模型,识别出所述预期时序图像的行为类别和属性。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法的步骤。
技术总结
本发明涉及样本处理领域,尤其公开了一种行为识别方法、装置、计算机设备和存储介质,以解决对时序数据进行智能序列识别时,算力消耗过大的问题。该方法包括:提取待识别时序图像的局部具体特征;将携带局部具体特征的待识别时序图像输入姿势检测模型,得到包含预期姿势的预期时序图像;提取预期时序图像的全局抽象特征;将携带全局抽象特征的预期时序图像输入行为识别模型,识别出预期时序图像的行为类别和属性。和属性。和属性。
技术研发人员:瞿晓阳 王健宗 曾尘杰
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.15
技术公布日:2023/9/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/