基于深度学习的人体动作检测方法、设备及存储介质与流程

未命名 09-08 阅读:98 评论:0


1.本技术涉及人体检测技术领域,尤其涉及一种基于深度学习的人体动作检测方法、设备及存储介质。


背景技术:

2.人体动作捕捉技术,简称人体动捕技术(motion capture,mocap),用于捕捉视频中人体运动的姿态或者运动数据,将这些运动姿态数据作为一种驱动数据去驱动虚拟形象模型(如,参数化人体模型)或者进行行为分析。在相关技术中,为了使采集到的动作数据能很好的驱动虚拟形象模型,通常采用反向动力学(inverse kinematics,ik)算法计算得到每个关节点的旋转信息,但是直接采用ik算法得到的旋转角缺少一个自由度,无法有效地对人体动作进行检测。


技术实现要素:

3.本技术实施例公开了一种基于深度学习的人体动作检测方法、设备及介质,解决了无法有效地对人体动作进行检测的技术问题。
4.本技术提供一种基于深度学习的人体动作检测方法,所述方法包括:获取目标视频对应的图像序列,从所述图像序列中获取一原始图像;从所述原始图像中截取目标图像,并获取所述目标图像在所述原始图像中对应的预设位置信息;基于所述目标图像建立目标坐标系;将所述目标图像输入预设的人体关键点检测模型,检测所述目标图像中人体在所述目标坐标系中对应的第一人体关键点坐标;根据所述第一人体关键点坐标以及所述预设位置信息,得到第二人体关键点坐标;基于所述第二人体关键点坐标,确定所述人体的目标边界框;基于所述目标边界框,获取所述图像序列中所述原始图像之后的所有图像中的第三人体关键点坐标;将获取的第二人体关键点坐标以及第三人体关键点坐标输入反向动力学模型,得到对应的旋转数据;基于所述旋转数据,驱动参数化人体模型,得到所述人体的动作。
5.在本技术的一些实施例中,将所述目标图像输入预设的人体关键点检测模型之前,所述方法还包括:计算所述目标图像的跟踪置信度;在所述目标图像的跟踪置信度满足预设跟踪置信度时,将所述目标图像输入人体关键点检测模型;在所述目标图像的跟踪置信度不满足预设跟踪置信度时,舍弃所述目标图像,返回执行从所述原始图像中截取目标图像,以获取一更新的目标图像。
6.在本技术的一些实施例中,所述计算所述目标图像的跟踪置信度,包括:将所述目标图像输入预设的人体跟踪模型,得到对所述目标图像的置信度分值;在所述置信度分值大于或等于预设置信分数时,确定所述目标图像满足所述预设跟踪置信度;在所述置信度分值小于所述预设置信分数时,确定所述目标图像不满足所述预设跟踪置信度。
7.在本技术的一些实施例中,还包括:获取所述原始图像对应的原始边界框;基于预设的放大比例,放大所述原始图像对应的原始边界框;基于放大的原始边界框,建立所述原
始图像对应的原始坐标系。
8.在本技术的一些实施例中,所述从所述原始图像中截取目标图像,并获取所述目标图像在所述原始图像中对应的预设位置信息,包括:基于实例分割算法,检测所述放大的原始边界框内的人体,确定所述人体的预设边界框;基于所述预设边界框,截取所述目标图像,并获取所述预设边界框在所述原始坐标系中对应的预设位置信息。
9.在本技术的一些实施例中,还包括:从所述预设位置信息中获取预设位置对应的横坐标以及纵坐标;将所述预设位置对应的横坐标作为第一差值;将所述预设位置对应的纵坐标作为第二差值。
10.在本技术的一些实施例中,所述根据所述第一人体关键点坐标以及所述预设位置信息,得到第二人体关键点坐标,包括:计算所述第一人体关键点坐标对应的横坐标与所述第一差值的第一和值;计算所述第一人体关键点坐标对应的纵坐标与所述第二差值的第二和值;基于所述第一和值以及所述第二和值,得到在所述原始坐标系中的所述第二人体关键点坐标。
11.本技术还提供一种基于深度学习的人体动作检测装置,包括:获取模块,用于获取目标视频对应的图像序列,从所述图像序列中获取一原始图像;第一截取模块,用于从所述原始图像中截取目标图像,并获取所述目标图像在所述原始图像中对应的预设位置信息;构建模块,用于基于所述目标图像建立目标坐标系;检测模块,用于将所述目标图像输入预设的人体关键点检测模型,检测所述目标图像中人体在所述目标坐标系中对应的第一人体关键点坐标;计算模块,用于根据所述第一人体关键点坐标以及所述预设位置信息,得到第二人体关键点坐标;确定模块,用于基于所述第二人体关键点坐标,确定所述人体的目标边界框;第二截取模块,用于基于所述目标边界框,获取所述图像序列中所述原始图像之后的所有图像中的第三人体关键点坐标;输出模块,用于将获取的第二人体关键点坐标以及第三人体关键点坐标输入反向动力学模型,得到对应的旋转数据;驱动模块,用于基于所述旋转数据,驱动参数化人体模型,得到所述人体的动作。
12.本技术还提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现所述的基于深度学习的人体动作检测方法。
13.本技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述的基于深度学习的人体动作检测方法。
14.在本技术的基于深度学习的人体动作检测方法中,首先,从图像序列中获取一原始图像,并从原始图像中截取目标图像,减少对原始图像中背景区域的检测,优化检测流程;其次,对目标图像的人体关键点进行检测,得到第一人体关键点坐标,再结合原始图像中的预设位置信息,可以进一步得到人体在原始图像中的第二人体关键点坐标,基于该第二人体关键点坐标,得到人体的目标边界框,为检测图像序列中的后续原始图像提供检测框,简化检测流程的同时,提高检测的精度;最后,利用反向动力学模型得到驱动参数化人体模型的旋转数据,有效地对人体动作进行检测。
附图说明
15.图1是本技术一实施例提供的电子设备的结构图。
16.图2是本技术一实施例提供的基于深度学习的人体动作检测方法的流程图。
17.图3是本技术一实施例提供的原始坐标系的示意图。
18.图4是本技术一实施例提供的原始坐标系以及目标坐标的示意图。
19.图5是本技术一实施例提供的基于深度学习的人体动作检测装置的结构示意图。
具体实施方式
20.为了便于理解,示例性的给出了部分与本技术实施例相关概念的说明以供参考。
21.需要说明的是,本技术的说明书和权利要求书及附图中的术语“第一”、“第二”是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。
22.另外需要说明的是,本技术实施例中公开的方法或流程图所示出的方法,包括用于实现方法的一个或多个步骤,在不脱离权利要求的范围的情况下,多个步骤的执行顺序可以彼此互换,其中某些步骤也可以被删除。
23.下面将结合附图对一些实施例做出说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
24.人体动作捕捉技术,简称人体动捕技术(motion capture,mocap),用于捕捉视频中人体运动的姿态或者运动数据,将这些运动姿态数据作为一种驱动数据去驱动虚拟形象模型(如,参数化人体模型)或者进行行为分析。在相关技术中,为了使采集到的动作数据能很好的驱动虚拟形象模型,通常采用反向动力学(inverse kinematics,ik)算法计算得到每个关节点的旋转信息,但是直接采用ik算法得到的旋转角缺少一个自由度,无法有效地对人体动作进行检测。
25.为了提高人体动作检测的精度,本技术实施例提供了基于深度学习的人体动作检测方法、设备及存储介质。所述基于深度学习的人体动作检测方法应用于电子设备中,下文结合图1介绍电子设备的相关结构。
26.图1是本技术一实施例提供的电子设备的结构图。如图1所示,在本技术实施例中,电子设备1包括,但不限于,通过通信总线10互相通信连接的存储器11以及至少一个处理器12。
27.电子设备1可以包括手机、平板电脑、笔记本电脑等任意一种电子设备,在一些实施例中,电子设备1可以进一步包括拍摄装置,用于拍摄包含人体的多个图像或者视频,在其他实施例中,电子设备1也可以与一个或多个外部拍摄装置建立通信连接,以获取多个图像或者视频。
28.图1仅仅是对电子设备1的示例性说明,并不构成相应的限定,在其他实施例中,电子设备1可以包括比图示更多或更少的部件,或者组合某些部件,或者替换不同的部件,例如电子设备1还可以包括输入输出设备、网络接入设备等。
29.图2是本技术一实施例提供的基于深度学习的人体动作检测方法的流程图,如图2所示,本技术实施例提供的基于深度学习的人体动作检测方法应用在电子设备(如图1的电子设备1)中。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
30.如图2所示,包括如下步骤:
31.步骤201,获取目标视频对应的图像序列,从图像序列中获取一原始图像。
32.在本技术的一些实施例中,可以采用电子设备拍摄一人体动作视频,该视频可以
是在指定时间段内获取的一段指定人体动作的视频,也可以是在任意时间段内获取的任意人体动作的视频。从视频中可以逐帧提取出一张张图像并组合成图像序列,由于逐帧获取的图像的相似度过高,也可以隔帧提取多张图像作为图像序列,对图像的选取方式,在本技术中不予限制。
33.在一实施例中,从图像序列中获取的图像可称为原始图像。在确定图像序列以后,获取图像序列中每一张原始图像的时间戳,根据时间戳,从获取的多个原始图像中选择时间戳最早的一原始图像作为后续训练的原始图像。此外,也可以获取任一时间戳的原始图像,例如,将第n张原始图像作为后续训练的原始图像,则基于原始图像的时间戳,舍弃第n张原始图像前的原始图像,保障初始训练的图像的时间戳最早,为实现后续的平滑训练奠定基础。
34.步骤202,从原始图像中截取目标图像,并获取目标图像在原始图像中对应的预设位置信息。
35.在本技术的一些实施例中,在确定原始图像以后,可以利用目标检测网络对原始图像中的人体进行检测,以得到原始图像的原始边界框,其中,目标检测网络,比如,利用长短期记忆网络(long short-term memory,lstm)、循环神经网络(recurrent neural network,rnn)、卷积神经网络(convolutional neural networks,cnn)中任意一种或两种训练得到的神经网络模型。目标检测网络可以对图像中的目标对象(例如,人体)进行检测,即检测出图像中的目标对象,并给出目标对象在图像中的位置范围、分类和概率,位置范围具体可以采用检测框的形式标注,分类可表示目标对象的具体类别,概率可表示检测框中的目标对象为具体类别的概率。
36.在本技术的一些实施例中,将以目标检测网络标注的检测框作为原始图像的原始边界框。为了减少目标检测网络标注的原始边界框出现误差,在得到以目标检测网络标注的原始边界框以后,基于预设的放大比例,放大原始图像对应的原始边界框,以保障原始边界框能够完全包含人体。例如,放大比例为5%,在原始边界框的基础上,再增加5%的框选区域,其中,该放大比例针对的是原始边界框,对于原始图像中的大小不作处理,例如,不对原始图像进行图像拉伸。
37.在本技术的一些实施例中,在得到放大后的原始边界框以后,可以采用实例分割算法,检测放大的原始边界框内的人体,以确定人体的预设边界框。实例分割算法(instance segmentation)既具备了语义分割的特点,也具备了目标检测的特点,即,实例分割算法能够做到像素层面上的分类也能定位出不同的实例,例如,可以在一张图像中定位出人体所在的位置,可以采用掩膜的方式标注。其中,掩膜(mask)也称为掩蔽,表示用选定的图像、图形或物体对待处理的图像(全部或局部)进行遮挡,从而控制图像处理的区域或处理过程。比如,将一张待处理图像中的某个对象进行遮挡,那么这个被遮挡的区域就称为掩膜。
38.在得到基于实例分割算法标注的人体区域以后,根据人体区域可以重新确定框选人体的矩形框,即,预设边界框。基于预设边界框,从原始图像中截取目标图像,并获取目标图像在原始边界框中的预设位置信息,例如,基于原始图像的放大的原始边界框建立原始坐标系,获取预设边界框在原始坐标系上的多个坐标点,比如,获取预设边界框的左上角所对应的预设位置点,获取该预设位置点的横坐标以及纵坐标作为预设位置信息,还可以获
取预设边界框的右下角所对应的预设位置点的横坐标以及纵坐标,本技术对此不予限制。
39.例如,在一些示例中,图3是本技术一实施例提供的原始坐标系的示意图,如图3所示,预设边界框在原始坐标系中的左上角的预设位置点的坐标为a(x1,y1),右下角的预设位置点的坐标为b(x2,y2),则,目标图像的高为|y2-y1|,目标图像的宽为|x2-x1|。
40.步骤203,基于目标图像建立目标坐标系。
41.在本技术的一些实施例中,在截取目标图像以后,可以基于目标图像建立目标坐标系,以获取目标图像中人体的人体关键点坐标(例如,在下述步骤204中需确定的第一人体关键点坐标),例如,结合图3所示的示意图,将a点作为目标坐标系的原点建立目标坐标系。
42.步骤204,将目标图像输入预设的人体关键点检测模型,检测目标图像中人体在目标坐标系中对应的第一人体关键点坐标。
43.在本技术的一些实施例中,由于目标图像中可能会出现部分遮挡、变形、运动模糊、快速运动、照明变化、背景杂波和比例变化等因素的影响,可以在输入人体关键点检测模型之前,对目标图像是否包含人体进行检测,比如,可以计算目标图像的跟踪置信度,具体可以是计算目标图像中的人体是否完整。
44.在本技术的一些实施例中,将截取出的目标图像输入人体跟踪模型,人体跟踪模型中的人体跟踪技术可以包括基于核的结构化输出(structured output tracking with kernel,struck)跟踪方法、多样本学习(multipleinstance learning,mil)跟踪方法、跟踪-学习-检测(tracking-learning-detection,tld)跟踪方法等任意一种,具体的跟踪方式可以包括:首先,分别以人体与背景作为正负样本,训练一个分类器,其次,在搜索区域上根据此分类器进行检测,将最大响应值位置作为人体中心位置的估计,从而实现跟踪。
45.在本技术的一些实施例中,获取人体跟踪模型输出的对目标图像的置信度分值,该置信度分值用于评价目标图像中包含的人体的完整度,若置信度分值大于或等于预设置信分数,确定目标图像满足预设跟踪置信度,即,保留目标图像,以便后续输入人体关键点检测模型,若置信度分值小于预设置信分数,确定目标图像不满足预设跟踪置信度,将此目标图像舍弃,不对此目标图像进一步检测人体关键点,即,不将不满足预设跟踪置信度的目标图像输入人体关键点检测模型中进行检测,其中,预设置信度分数可以是预先设置的一个分值,例如,95%,本技术对此不予限制。
46.在本技术的一些实施例中,人体关键点检测模型可以包括特征提取网络。特征提取网络可以是现有的用于提取特征的图像的多种网络。例如,特征提取网络可以是残差网络(resnet)、卷积神经网络(cnn)等等。此外,人体关键点检测模型还可以包括与至少一个部位对应的至少一个关键点检测网络。人体的部位可以包括但不限于:头部、上肢以及下肢等,各个部位的关键点可以不同。例如,对于头部,可以将左耳、右耳、左眼、右眼、嘴巴等所在的位置确定为关键点的位置。对于上肢,可以将手腕、手肘等所在的位置确定为关键点的位置。根据实际需要的不同,可以灵活确定每个部位的关键点的数量以及位置。对此,本技术不予限定。
47.在本技术的一些实施例中,将目标图像输入人体关键点检测模型以后,输出目标图像中人体的第一人体关键点坐标,例如,手肘对应的坐标。
48.步骤205,根据第一人体关键点坐标以及预设位置信息,得到第二人体关键点坐
标。
49.在本技术的一些实施例中,第一人体关键点从目标坐标系中获取,预设位置信息从原始坐标系中获取,第二人体关键点坐标是计算目标图像中检测出的关键点在原始坐标系中对应的坐标。
50.图4是本技术一实施例提供的原始坐标系以及目标坐标的示意图,如图4所示,在本技术的一些实施例中,以0为原点建立的坐标系为原始坐标系,以a点建立的坐标系为目标坐标系,在原始坐标系中的预设位置信息可以是a点在原始坐标系中对应的坐标,例如a(x1,y1),第一关键点坐标是目标坐标系中某一关键点对应的坐标,例如,c点的坐标(x3,y3),则将a点对应的横坐标x1作为第一差值,将a点对应的纵坐标y1作为第二差值,计算第一人体关键点坐标(如c(x3,y3))对应的横坐标x3与第一差值x1的第一和值x1+x3,计算第一人体关键点坐标对应的纵坐标y3与第二差值y1的第二和值y1+y3,则,第二人体关键点坐标为(x1+x3,y1+y3)。通过此类方法计算每一个在目标图像中检测出的关键点在原始坐标系中的坐标,即第二人体关键点坐标。
51.步骤206,基于第二人体关键点坐标,确定人体的目标边界框。
52.在本技术的一些实施例中,在得到人体的每一关键点在原始坐标系中的坐标以后,根据每一个关键点在原始坐标系上的第二人体关键点坐标,确定位于人体边界的坐标位置,例如,当人呈t型站立时,将手张开,则,位于人体边界的位置可以包括人的头部、双手的位置以及双脚的位置,根据位于人体边界的坐标位置,可以得出框选出人体的目标边界框,即,更新步骤202中得到的预设边界框。
53.步骤207,基于目标边界框,获取图像序列中原始图像之后的所有图像中的第三人体关键点坐标。
54.在本技术的一些实施例中,假设图像序列一共有m张原始图像,基于步骤201~步骤206计算出了第一张原始图像的第二人体关键点坐标以及目标边界框,在计算第二张原始图像时,可以将第一张原始图像的目标边界框作为第二张原始图像的预设边界框,从而得到第二张原始图像对应的目标图像,即,获取第n张原始图像对应的目标边界框,利用第n张原始图像对应的目标边界框截取第n+1张原始图像对应的目标图像,n∈m,可以计算出第n+1张原始图像对应的第三人体关键点坐标。如此迭代,得到图像序列中每一张原始图像的人体关键点坐标(包括第二人体关键点坐标以及第三人体关键点坐标),并且基于此方法得到的人体关键点坐标准确度更高,每一个对应关键点的人体关键点坐标。
55.步骤208,将获取的第二人体关键点坐标以及第三人体关键点坐标输入反向动力学模型,得到对应的旋转数据。
56.在本技术的一些实施例中,反向动力学(inverse kinematics,ik)模型反映的是一种由手部带到肩部的运动形式,在这个运动中,运动以手部这个自由端为起始,当手部进行运动时会自然的带动固定端肩部的运动,例如,由一个手肘的关键点去确定手臂的运动,进而确定肩膀的运行。
57.在本技术的一些实施例中,将图像序列对应的第二人体关键点坐标以及第三人体关键点坐标输入反向动力学模型,得到人体每个关节点对应的旋转数据,例如,手肘对应的旋转数据。
58.步骤209,基于旋转数据,驱动参数化人体模型,得到人体的动作。
59.在本技术的一些实施例中,参数化人体模型可以是利用三维网格形式表示的人体几何形状模型,可以用于自动的人体身材测量,设计相应的服装,或将虚拟形象模型作为用户的替身应用在电子设备(例如,电子游戏)中。
60.在本技术的一些实施例中,在得到旋转数据以后,将旋转数据输入参数化人体模型中,带动参数化人体模型运动,从而可以得到人体的动作。
61.在本技术的实施例中,首先,通过不断更新预设边界框,简化图像检测的流程,提高检测关键点的精度;其次,在得到目标图像以后,通过计算目标图像的置信度,保证每一张输入人体关键点检测模型中检测的目标图像均包含完整的人体,避免了一定的关键点检测误差;最后,将得到的所有人体关键点坐标输入反向动力学模型,以得到驱动参数化模型的旋转数据,提高人体动作的检测精度,实现对视频的人体动作的捕捉。
62.图5是本技术一实施例提供的基于深度学习的人体动作检测装置5的结构示意图。如图5所示,在本技术实施例中,基于深度学习的人体动作检测装置5根据其所执行的功能,可以被划分为多个功能模块,可以包括:获取模块51、第一截取模块52、构建模块53、检测模块54、计算模块55、确定模块56、第二截取模块57、输出模块58以及驱动模块59。
63.获取模块51,用于获取目标视频对应的图像序列,从所述图像序列中获取一原始图像。
64.第一截取模块52,用于从所述原始图像中截取目标图像,并获取所述目标图像在所述原始图像中对应的预设位置信息。
65.构建模块53,用于基于所述目标图像建立目标坐标系。
66.检测模块54,用于将所述目标图像输入预设的人体关键点检测模型,检测所述目标图像中人体在所述目标坐标系中对应的第一人体关键点坐标。
67.计算模块55,用于根据所述第一人体关键点坐标以及所述预设位置信息,得到第二人体关键点坐标。
68.确定模块56,用于基于所述第二人体关键点坐标,确定所述人体的目标边界框。
69.第二截取模块57,用于基于所述目标边界框,获取所述图像序列中所述原始图像之后的所有图像中的第三人体关键点坐标。
70.输出模块58,用于将获取的第二人体关键点坐标以及第三人体关键点坐标输入反向动力学模型,得到对应的旋转数据。
71.驱动模块59,用于基于所述旋转数据,驱动参数化人体模型,得到所述人体的动作。
72.在本技术的一些实施例中,所述基于所述目标边界框,获取所述图像序列中所述原始图像之后的所有图像中的第三人体关键点坐标,包括:获取第n张原始图像对应的目标边界框;基于所述第n张原始图像对应的目标边界框,截取第n+1张原始图像对应的目标图像,其中,所述图像序列中共有m张原始图像,n∈m;基于所述第n+1张原始图像对应的目标图像,得到所述第n+1张原始图像对应的第三人体关键点坐标。
73.在本技术的一些实施例中,将所述目标图像输入预设的人体关键点检测模型之前,所述方法还包括:计算所述目标图像的跟踪置信度;在所述目标图像的跟踪置信度满足预设跟踪置信度时,将所述目标图像输入人体关键点检测模型;在所述目标图像的跟踪置信度不满足预设跟踪置信度时,舍弃所述目标图像,返回执行从所述原始图像中截取目标
图像,以获取一更新的目标图像。
74.在本技术的一些实施例中,所述计算所述目标图像的跟踪置信度,包括:将所述目标图像输入预设的人体跟踪模型,得到对所述目标图像的置信度分值;在所述置信度分值大于或等于预设置信分数时,确定所述目标图像满足所述预设跟踪置信度;在所述置信度分值小于所述预设置信分数时,确定所述目标图像不满足所述预设跟踪置信度。
75.在本技术的一些实施例中,还包括:获取所述原始图像对应的原始边界框;基于预设的放大比例,放大所述原始图像对应的原始边界框;基于放大的原始边界框,建立所述原始图像对应的原始坐标系。
76.在本技术的一些实施例中,所述从所述原始图像中截取目标图像,并获取所述目标图像在所述原始图像中对应的预设位置信息,包括:基于实例分割算法,检测所述放大的原始边界框内的人体,确定所述人体的预设边界框;基于所述预设边界框,截取所述目标图像,并获取所述预设边界框在所述原始坐标系中对应的预设位置信息。
77.在本技术的一些实施例中,还包括:从所述预设位置信息中获取预设位置对应的横坐标以及纵坐标;将所述预设位置对应的横坐标作为第一差值;将所述预设位置对应的纵坐标作为第二差值。
78.在本技术的一些实施例中,所述根据所述第一人体关键点坐标以及所述预设位置信息,得到第二人体关键点坐标,包括:计算所述第一人体关键点坐标对应的横坐标与所述第一差值的第一和值;计算所述第一人体关键点坐标对应的纵坐标与所述第二差值的第二和值;基于所述第一和值以及所述第二和值,得到在所述原始坐标系中的所述第二人体关键点坐标。
79.本实施例提供的基于深度学习的人体动作检测装置可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
80.请继续参阅图1,本实施例中,存储器11可以是电子设备1的内部存储器,即内置于电子设备1的存储器。在其他实施例中,存储器11也可以是电子设备1的外部存储器,即外接于电子设备1的存储器。
81.在一些实施例中,存储器11用于存储程序代码和各种数据,并在电子设备1的运行过程中实现高速、自动地完成程序或数据的存取。
82.存储器11可以包括随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
83.在一实施例中,处理器12可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者处理器也可以是其它任何常规的处理器等。
84.存储器11中的程序代码和各种数据如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,例如基于深度学习的人体动作检测方法,也可
以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于计算机可读存储介质中,计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)等。
85.可以理解的是,以上所描述的模块划分,为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本技术各个实施例中的各功能模块可以集成在相同处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在相同单元中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
86.最后应说明的是,以上实施例仅用以说明本技术的技术方案而非限制,尽管参照较佳实施例对本技术进行了详细说明,本领域的普通技术人员应当理解,可以对本技术的技术方案进行修改或等同替换,而不脱离本技术技术方案的精神和范围。

技术特征:
1.一种基于深度学习的人体动作检测方法,其特征在于,包括:获取目标视频对应的图像序列,从所述图像序列中获取一原始图像;从所述原始图像中截取目标图像,并获取所述目标图像在所述原始图像中对应的预设位置信息;基于所述目标图像建立目标坐标系;将所述目标图像输入预设的人体关键点检测模型,检测所述目标图像中人体在所述目标坐标系中对应的第一人体关键点坐标;根据所述第一人体关键点坐标以及所述预设位置信息,得到第二人体关键点坐标;基于所述第二人体关键点坐标,确定所述人体的目标边界框;基于所述目标边界框,获取所述图像序列中所述原始图像之后的所有图像中的第三人体关键点坐标;将获取的第二人体关键点坐标以及第三人体关键点坐标输入反向动力学模型,得到对应的旋转数据;基于所述旋转数据,驱动参数化人体模型,得到所述人体的动作。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标边界框,获取所述图像序列中所述原始图像之后的所有图像中的第三人体关键点坐标,包括:获取第n张原始图像对应的目标边界框;基于所述第n张原始图像对应的目标边界框,截取第n+1张原始图像对应的目标图像,其中,所述图像序列中共有m张原始图像,n∈m;基于所述第n+1张原始图像对应的目标图像,得到所述第n+1张原始图像对应的第三人体关键点坐标。3.根据权利要求1所述的方法,其特征在于,将所述目标图像输入预设的人体关键点检测模型之前,所述方法还包括:计算所述目标图像的跟踪置信度;在所述目标图像的跟踪置信度满足预设跟踪置信度时,将所述目标图像输入人体关键点检测模型;在所述目标图像的跟踪置信度不满足预设跟踪置信度时,舍弃所述目标图像,返回执行从所述原始图像中截取目标图像,以获取一更新的目标图像。4.根据权利要求3所述的方法,其特征在于,所述计算所述目标图像的跟踪置信度,包括:将所述目标图像输入预设的人体跟踪模型,得到对所述目标图像的置信度分值;在所述置信度分值大于或等于预设置信分数时,确定所述目标图像满足所述预设跟踪置信度;在所述置信度分值小于所述预设置信分数时,确定所述目标图像不满足所述预设跟踪置信度。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述原始图像对应的原始边界框;基于预设的放大比例,放大所述原始图像对应的原始边界框;基于放大的原始边界框,建立所述原始图像对应的原始坐标系。
6.根据权利要求5所述的方法,其特征在于,所述从所述原始图像中截取目标图像,并获取所述目标图像在所述原始图像中对应的预设位置信息,包括:基于实例分割算法,检测所述放大的原始边界框内的人体,确定所述人体的预设边界框;基于所述预设边界框,截取所述目标图像,并获取所述预设边界框在所述原始坐标系中对应的预设位置信息。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:从所述预设位置信息中获取预设位置对应的横坐标以及纵坐标;将所述预设位置对应的横坐标作为第一差值;将所述预设位置对应的纵坐标作为第二差值。8.根据权利要求7所述的方法,其特征在于,所述根据所述第一人体关键点坐标以及所述预设位置信息,得到第二人体关键点坐标,包括:计算所述第一人体关键点坐标对应的横坐标与所述第一差值的第一和值;计算所述第一人体关键点坐标对应的纵坐标与所述第二差值的第二和值;基于所述第一和值以及所述第二和值,得到在所述原始坐标系中的所述第二人体关键点坐标。9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至8中任意一项所述的基于深度学习的人体动作检测方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至8中任意一项所述的基于深度学习的人体动作检测方法。

技术总结
本申请提供一种基于深度学习的人体动作检测方法、设备及存储介质,所述方法包括:获取目标视频对应的图像序列中获取一原始图像;从原始图像中截取目标图像,并获取对应的预设位置信息;基于目标图像建立目标坐标系;将目标图像输入预设的人体关键点检测模型,得到第一人体关键点坐标;根据第一人体关键点坐标以及预设位置信息,得到第二人体关键点坐标;基于第二人体关键点坐标,确定人体的目标边界框;基于目标边界框,获取图像序列中原始图像的所有在后图像中的第三人体关键点坐标;将获取的第二人体关键点坐标以及第三人体关键点坐标输入反向动力学模型,得到驱动参数化人体模型的旋转数据,得到人体的动作。本申请能够有效地检测人体动作。地检测人体动作。地检测人体动作。


技术研发人员:吉祥
受保护的技术使用者:抖动科技(深圳)有限公司
技术研发日:2023.04.27
技术公布日:2023/9/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐