一种基于多任务分类网络的新生儿肢体动作监控方法

未命名 07-29 阅读:156 评论:0


1.本发明属于动作识别及智慧医疗辅助分析领域,提出一种基于多任务多标签的智能新生儿的肢体动作视频监护方法。
2.背景故事
3.根据世界卫生组织(wto)的最新报告,每年全世界约有十分之一的婴儿早产(即怀孕37周之前出生)。早产儿与正常出生的婴儿相比,存在器官不成熟、需要外部设备支持和潜在病理性等因素,这些问题均需要通过早期的临床观察进行发现,因此早产儿生理指标、肢体行为的观察显得尤为重要。然而,早产儿的肢体运动存在偶发性、不规律的特点,状态监控多是依赖监护人员对保育箱的定期巡检,受医护人员疲劳和临床间变化影响,监控数据常会缺乏精准性和实时性,无法及时有效应对突发情况,因此亟需一种智能、自动监护系统实现对新生儿的实时肢体监测。
4.传统的新生儿智能监护主要依靠可穿戴传感器,如三轴加速度计、陀螺仪和磁强计等传感设备,对新生儿的肢体运动状态进行记录。但是,该种接触式的传感设备存在限制婴儿活动、造成皮肤感染、需要多次人为设置和校准等缺点,在舒适和便捷性上无法满足监护需求。本发明通过无接触式视频监控方式,配合深度卷积神经网络进行新生儿肢体动作识别,提出了多任务多标签学习的新生儿智能视频监护系统。相比于可接触传感设备,本发明具有无接触、实时性、精准性等优点,同时本发明采用联合多标签分类网络,实现了对婴儿多肢体协同运动的精准分类;采用多标签软编码对婴儿肢体运动进行连续逐帧解析,弥补了传统监控方法依赖人工和状态初始化的不足。本发明对婴儿的实时临床监测,对医护人员把握婴儿生理状态、降低医疗压力和提高医疗效率起到了至关重要的作用。


技术实现要素:

5.本发明提出一种基于多任务分类网络的新生儿肢体动作监控方法,其中,主任务主要是对新生儿四肢、头部进行运动检测,通过使用分类网络对上述五个类别进行的多标签分类任务;辅助任务主针对新生儿静止、单肢体运动和多肢体运动三种运动状态,进行的多分类任务。本发明能实现基于视频流的新生儿肢体动作分类,以及实现对新生儿的肢体运动实时监测,能够有效抑制多标签分类误差,从而实现新生儿肢体动作检测和生理状态的智能视频监护需求。
6.本发明的技术方案主要包括以下几个步骤:
7.步骤1:新生儿视频数据集处理
8.首先,将新生儿监控视频按照肢体动作类别进行裁减,得到若干包含新生儿肢体运动的视频片段。根据视频片段中新生儿肢体运动情况判断是否含有四肢和头部对应的运动,有序排列[头部,左手,右手,左腿,右腿]作为主任务的多标签分类标签。例如[0,1,0,1,0]这个标签代表的含义就是该视频片段含有新生儿左手和左脚同时运动的情况。根据肢体运动数量划分成三种类别,分别是无肢体运动、单肢体运动和多肢体运动三个类别作为辅助分类任务的标签,一个视频片段只对应一个肢体运动数量分类标签。
[0009]
所述步骤1,具体操作如下:
[0010]
1-1、根据不同新生儿以及不同的肢体运动情况来裁剪视频片段,以增强数据集分布的多样性。根据后续网络输入数据长度需求,将视频片段长度控制在若干秒内,以保证数据集的有效性。
[0011]
1-2、将每一个视频片段的肢体运动动作定义成[头部,左手,右手,左腿,右腿]的标签,其中1代表该位置的运动,0代表无运动情况,将肢体运动数量分成无肢体运动、单肢体运动和多肢体运动三个类别。
[0012]
步骤2:针对h
×w×
t的视频帧数据,选择3d卷积残差神经网络作为主干网络构建特征提取网络提取空间和时间特征,采用硬参数共享的方式在两个任务之间共享隐藏层来应用,同时保留特定于辅助任务的肢体运动数量分类网络输出层和特定于主任务肢体运动多标签分类网络输出层,联合主任务和辅助任务的交叉熵损失函数共同训练网络模型。
[0013]
所述步骤2,具体操作如下:
[0014]
2-1、选择3d卷积残差神经网络作为主干网络,其由若干个3d残差卷积块组成,每个3d残差卷积块均会将底层特征和高级特征融合,并将融合特征作为相邻的下一个3d残差卷积块的输入;该3d卷积残差神经网络还能从视频数据中提取空间和时间特征以进行动作识别。这些3d残差卷积块在空间和时间维度上操作,从而捕获视频流中的运动信息。
[0015]
2-2、对于肢体运动数量分类的辅助任务分支,由全局平均池化、全连接层和softmax层组成。softmax公式如下:
[0016][0017]
其中,zj为辅助分类任务类别z中第j个类别的值,根据肢体运动数量划分成的辅助分类任务类别为三种,分别是无肢体运动、单肢体运动和多肢体运动三个类别作为辅助分类任务的标签,一个视频片段只对应一个肢体运动数量分类标签。设置全连接层的最后一个维度为预测肢体运动数量类别数,再由softmax层输出类别的概率值。
[0018]
2-3、对于肢体运动多标签分类的主任务分支上,再次通过一个3d卷积残差块提取更高层次的共享知识和逐步分离任务相关参数使联合表示学习和共享更加高效和灵活。主任务分支由全局平均池化、全连接层和sigmoid函数,公式如下:
[0019][0020]
其中,x为输入,该函数允许我们对头和四肢的多个标签类别生成置信度评分,然后使用固定的阈值来判断是否运动。
[0021]
2-4、采用多任务学习机制进行训练,模型应用硬参数共享机制,即两个任务输出层之前的网络层共享参数,只有输出层对应各自的网络参数。由于辅助分类任务对应交叉熵损失(coss-etropy loss,cel)函数,多标签分类主任务对应的二元交叉熵(binary cross-entropy loss,bcel)损失函数,因此所用的损失函数l
total
为交叉熵损失函数和二元交叉熵损失函数的加权叠加。每个损失函数的定义如下:
[0022]
l
total
=λ1l
lmnc
+λ2l
amc
ꢀꢀ
(3)
[0023]
其中l
lmnc
为交叉熵作为肢体运动数分类任务的损失函数,定义如下:
[0024]
[0025]
其中,x'为交叉熵损失函数的逻辑回归值输入,class为肢体运动数量分类的标签以及l
amc
为二元交叉熵作为动作多标签分类的损失函数,描述如下:
[0026][0027]
w=weigh t[c]
·
1{c≠ignore_index}
ꢀꢀ
(6)
[0028]
其中,z'n为表示第n个样本作为正例的预测得分,yn表示第n个样本的标签,wn表示第n个样本的权重值,δ为sigmoid激活函数,λ1和λ2为权重。目的是平衡分类和多标签分类两项任务在联合损失中的贡献。
[0029]
步骤3:随后将若干个短视频片段等间距裁剪成视频帧数据,并将每帧图像大小调整为h
×
w。将视频帧数据调整成对应尺寸符合网络输入的需求后,送入网络并训练模型,最终得到四肢和头部分别是否运动来实现辅助监护的功能。
[0030]
所述步骤3,具体操作如下:
[0031]
3-1、在步骤1生成的视频数据中随机选择重叠且连续的t帧视频片段,作为网络输入,输入维度为c
×
t
×h×
w。模型训练过程中,借助随机裁剪中的差帧抽取得到输入视频片段,然后传入3d卷积残差神经网络进行特征提取。
[0032]
3-2、网络架构从相邻视频帧数据获得多信息通道的特征图,并在每个信道中分别执行卷积和子采样,通过同时堆叠多个连续帧形成的立方体与一个3d核进行卷积,其计算公式如下:
[0033][0034]
其中,表示第i层的第j个特征图的计算值,tanh为双曲正切函数,b
ij
、pi、qi、ri分别表示偏置、权重、卷积核高度、卷积核宽度以及卷积核的深度。每个特征图的维度大小计算公式如下:
[0035][0036][0037][0038]
其中,d
out
、h
out
和w
out
分别表示输出特征图时间维度、高度以及宽度。p表示填充参数的大小,d表示膨胀系数,k表示卷积核的大小,s表示步长,d
in
、h
in
和w
in
分别表示输入特征图深度、高度以及宽度。
[0039]
卷积层中特征图的像素值(特征值)是通过上一层的所有通道值的局部感受野通过卷积核加权得到。3d卷积核每次只能提取一种类型特征,在整个卷积的过程中卷积核的权值,通过模型训练过程中的损失和反馈梯度进行调整和参数共享。通过时空卷积层构建,网络模型从初始视频连续帧中提取得到的初始视频序列特征,实现视频序列动作信息的初步提取。
[0040]
3-3、在经过由数个3d卷积残差块构成的特征特征提取网络后,输出的特征由特定于任务输出层分离训练相关任务参数并输出预测值。具体步骤如下:
[0041]
3-3-1、卷积操作表示如下:
[0042][0043]
其中,f
tr
(.,θ)表示标准卷积操作,θ表示卷积核的参数,y表示卷积层的输入特征图,该特征图尺寸为d'
×
h'
×
w'
×
c';u表示卷积层的输出特征图,该特征图尺寸为d
×h×w×
c。
[0044]
3-3-2、压缩操作是对输出特征图u进行全局平均池化操作,压缩操作表示如下:
[0045][0046]
压缩操作过程中,将输出大小为d
×h×w×
c的特征图在空间尺度进行压缩特征操作,将其中各个三维特征通道转换为一维向量,得到大小为c
×1×1×
1的一维向量;uc表示特征图u;f
sq
表示压缩操作函数。
[0047]
3-3-3、随后传入全连接层,在肢体运动数量分类任务中由softmax层输出类别的概率值,选取最大概率得到最终的类别。而在肢体运动多标签分类任务中由sigmoid函数输出每个肢体运动的概率值,再由固定的阈值进行判断并输出。
[0048]
3-4、网络训练效果采用平均每类的average per-class precision(cp),average per-class recall(cr),average per-class f1(cf1)以及平均整体average overall precision(op),average overall recall(or),average overall f1(of1)。各参数计算公式如下:
[0049][0050][0051][0052][0053][0054][0055]
其中为第i类预测正确的视频数量,是第i类预测的视频数量,是第i类真实视频的数量。每项指标都在0~1之间,越接近于1,说明模型的预测效果越好,越接近于0,说明模型的预测效果越差。
[0056]
本发明有益效果如下:
[0057]
本发明基于多任务分类网络对婴儿监控视频流进行视频动作解析,本发明所具有的社会效益如下:(1)相比于传统基于传感器和人工临床巡检的监测方法,本发明可以与新生儿零接触的基础上辅助临床医生进行新生儿肢体实时监测分析。(2)采用联合分类任务和多标签分类任务特征共享限制新生儿无意识细微动作识别中的模糊性,提高肢体动作识别准确率。(3)采用多标签硬编码的方式对婴幼儿肢体运动视频样本进行标签标记,能更好地对婴儿无意识的肢体运动进行建模。
[0058]
通过本发明能够为新生儿建立一个基于视频的精准高效的肢体动作识别架构,弥
补了先前的监测工作只能依赖于人工或者贴附在新生儿上设备的不足。能对医生的临床监测提供很好的帮助,医护人员可以随时随地根据不同新生儿状态及时沟通,从而快速下达医嘱,及时转运婴儿及处理问题,有望降低医疗压力和提高医疗效率。
附图说明
[0059]
图1为本发明的流程图。
具体实施方式
[0060]
基于视频多任务学习的新生儿智能监护辅助分析方法的实现步骤在发明内容内已有详细的介绍,具体网络结构如图所示,如图1所示。下面结合附图和具体实施方式对本发明作详细说明,本发明的技术方案主要包括如下步骤:
[0061]
步骤1:新生儿视频数据集预处理
[0062]
首先,将对采集到的临床新生儿的肢体动作视频进行裁剪,得出多个1-3s的新生儿肢体运动视频片段。通过观察视频片段中新生儿运动情况对视频片段进行多类别标记,和用于多肢体分类任务的多标签分类标签。根据肢体运动数量划分成三种类别,分别是无肢体运动、单肢体运动和多肢体运动三个类别,选择肢体运动数量作为辅助分类任务的标签。
[0063]
步骤2:针对视频片段数据,选择r2plus1d中的卷积残差神经网络作为主干网络,进行输入张量的时空特征特征提取。本发明采用硬参数共享的方式在两个任务之间共享提取视频特征的权重,同时保留特定于辅助任务的肢体数量分类网络输出层和用于主任务肢体运动多标签分类网络输出层如图1所示,联合主任务分支和辅助任务分支借助交叉熵损失函数实现网络模型实现单标签和多标签的多标签分类任务。
[0064]
步骤3:随后将视频片段等间距裁剪成等长视频序列,即将帧空间大小调整为171
×
128。将视频序列数据裁剪成对应尺寸以适应网络输入,并选择神经网络优化器sgd进行网络训练优化,随后送入步骤2构建的网络模型进行迭代训练。训练完成后模型即可实时进行模型推理,实时输出婴儿肢体的运动情况,以实现辅助监护新生儿肢体运动状态的功能。
[0065]
所述步骤1,具体操作如下:
[0066]
1-1、根据不同新生儿肢体运动个数的情况来裁剪视频片段,视频数据集包含临床新生儿肢体活动的所有情况,数据集符合新生儿肢体运动分布的多样性。根据训练环境和网络结构对输入视频帧数需求,将视频片段长度控制在1-3s之间,以保证视频数据集的利用的高效性。
[0067]
1-2、观察视频片段新生儿运动情况,将每个视频附上两个标签:肢体类别运动标签和多标签分类标签。每个视频片段的肢体运动动作定义为[头部,左手,右手,左腿,右腿]的运动情况,并按one-hot编码为[0,1,0,0,0](左手运动时),当多肢体运动时,编码为肢体运动的数目。编码以0和1来代表特定肢体是否运动,0代表没运动,1代表存在运动。多标签分类标签将肢体运动数量作为标签,以区分无肢体、单肢体和多肢体运动类别。数据集编码过程根据视频片段内的运动情况选择多分类标签和多标签分类标签进行双重标记。
[0068]
所述步骤2,具体操作如下:
[0069]
2-1、网络特征提取结构选择r2plus1d网络作为主体网络,从视频数据中提取空间
和时间特征以进行动作识别。主体网络在空间和时间维度进行分离卷积操作,以捕获视频流中的运动信息。主体网络主要由3个残差卷积块组成,卷积块结构如图1中conv3
x
所示,其中卷积核为1
×3×
3,步长为{1,2,2}和卷积核为3
×1×
1,步长为{2,1,1}的空间卷积和时空卷积步骤组合而成,然后使用3维的批量标准化(batch normalization,bn)函数batch norm3d进行归一化处理,激活函数使用线性整流函数relu。其中,1
×3×
3和3
×1×
1卷积层以并行方式的组合得到,以取代了标准的3
×3×
3卷积层,旨在减少模型的计算效率。同时在训练初始阶段,对模型使用在imagenet上预训练的模型进行权重初始化。
[0070]
2-2、对于辅助肢体运动数量的网络分支中,模型采用全局平均池化方式,增加全连接层的泛化效果。取代传统的全连接层来减少模型的参数,防止模型过拟合,从而加快网络训练。全连接层的最后一个维度设定为3个节点,分别代表无肢体、单肢体和多肢体运动3种分类,并由softmax层输出所有类别的概率值,并选择最大概率值类别进行输出。
[0071]
2-3、在肢体运动多类别分类任务上,首先通过conv5_x卷积块提取前段模型的共享特征图的类别信息,并逐步分离与无关分类的特征信息。模型使得联合表示学习和参数共享变得高效和灵活。在最后一层插入一个sigmoid函数进行分类概率计算,该函数对包括头(h)、左手(lh)、右手(rh)、左腿(ll)和右腿(rl)在内的多个类别节点生成置信度评分,分别表示其部位运动概率,然后使用0.5的分类阈值来判断肢体是否运动。
[0072]
2-4、通过采用多任务学习机制进行训练,模型使用硬参数共享机制,为后续的两个任务输出层提供网络层权重共享,为分支网络的输出层提提供各自的特征提取结果。由于辅助分类任务对应交叉熵(cross-entropy loss,cel)损失函数,多标签分类任务对应的二元交叉熵(binary cross-entropy loss,bcel)损失函数,因此所用的损失函数l
total
为交叉熵损失函数和二元交叉熵损失函数的加权叠加,具体函数的定义如下:
[0073]
l
total
=λ1l
lmnc
+λ2l
amc
ꢀꢀ
(19)
[0074]
其中l
lmnc
为交叉熵作为肢体运动数分类任务的损失函数,定义如下:
[0075]
l
lmnc
=-x[class]+log(∑jexp([j]))
ꢀꢀ
(20)
[0076]
其中x为交叉熵损失函数的输入,class为肢体运动数量分类的标签以及l
amc
为二元交叉熵作为动作多标签分类的损失函数,描述如下:
[0077][0078]
w=weigh t[c]
·
1{c≠ignore_index}
ꢀꢀ
(22)
[0079]
其中zn为表示第n个样本作为正例的预测得分,yn表示第n个样本的标签,δ为sigmoid激活函数,λ1和λ2为权重系数,旨在平衡分类和多标签分类两项任务在联合损失中权重,其中本模型采取的λ1=1,λ2=1。
[0080]
所述步骤3,具体操作如下:
[0081]
3-1、在步骤1生成的数据中随机选择16帧非重叠且连续视频帧片段,作为网络输入,输入维度为3
×
16
×
128
×
171,训练时通过数据增强,维度调整为3
×
16
×
112
×
112。模型选择随机梯度下降(stochastic gradient descent,sgd)优化器,每次选择一个batch的视频序列集,而非全部样本。模型使用梯度下降来更新模型参数以加快训练速度,随后按照更新权重的模型继续计算模型损失,并以此继续迭代训练。
[0082]
3-2、模型对单个批次的视频序列依次进行时空卷积计算,信息流图如附图1所示,
precision(op),average overall recall(or),average overall f1(of1),各参数计算公式如下:
[0100][0101][0102][0103][0104][0105][0106]
其中,为第i类预测正确的视频数量,是第i类预测的视频数量,是第i类的真实视频数量。每项指标都在0~1之间,越接近于1,说明模型的预测效果越好,越接近于0,说明模型的预测效果越差。
[0107]
本发明还提供一种基于多任务多标签学习的新生儿智能视频监护系统,具体包括新生儿视频数据集处理模块、模型构建模块、模型训练模块;
[0108]
所述的新生儿视频数据集处理模块:首先,将对采集到的临床新生儿的肢体动作视频进行裁剪,得出多个1-3s的新生儿肢体运动视频片段。通过观察视频片段中新生儿运动情况对视频片段进行多类别标记,和用于多肢体分类任务的多标签分类标签。根据肢体运动数量划分成三种类别,分别是无肢体运动、单肢体运动和多肢体运动三个类别,选择肢体运动数量作为辅助分类任务的标签。
[0109]
所述的模型构建模块:针对视频片段数据,选择r2plus1d中的卷积残差神经网络作为主干网络,进行输入张量的时空特征特征提取。本发明采用硬参数共享的方式在两个任务之间共享提取视频特征的权重,同时保留特定于辅助任务的肢体数量分类网络输出层和用于主任务肢体运动多标签分类网络输出层如图1所示,联合主任务分支和辅助任务分支借助交叉熵损失函数实现网络模型实现单标签和多标签的多标签分类任务。
[0110]
模型训练模块:将视频片段等间距裁剪成等长视频序列,即将帧空间大小调整为171
×
128。将视频序列数据裁剪成对应尺寸以适应网络输入,并选择神经网络优化器sgd进行网络训练优化,随后送入步骤2构建的网络模型进行迭代训练。训练完成后模型即可实时进行模型推理,实时输出婴儿肢体的运动情况,以实现辅助监护新生儿肢体运动状态的功能。
[0111]
为了达到更好的新生儿智能监护辅助预测效果,以下将从实际应用时参数的选择与设计方面展开介绍,以作为该发明用于其他应用的参考:
[0112]
本发明采用固定16帧的视频数据只是为了方便模型训练,而模型训练完后在实际应用中可以处理任意长度的视频数据。辅助任务仅用于模型训练,在推理过程中可以去除辅助任务,不会增加模型的复杂性,提高了主任务的准确性。获取实际应用中的视频数据,经过步骤3处理,等间距裁剪成视频帧数据,并将帧大小调整为171
×
128,随后随机选择16
帧非重叠且连续视频帧片段并将其调整为3
×
16
×
112
×
112,随后传入3d卷积残差神经网络,最终由sigmoid函数输出每个肢体运动的概率值,再由0.5阈值进行判断并输出。
[0113]
本发明中当只采用一个多标签分类任务模型的评价指标为cf1=85.65%,of1=84.18%通过比较模型预测值和实际真实值发现,有部分样本的预测误差较大。而多任务学习的评价指标为cf1=90.00%,of1=88.04%,且预测误差较大的样本数量明显减少。综上所述,本发明中基于视频多任务学习的新生儿智能监护辅助分析方法,能对新生儿临床监测工作给出科学且客观的评估结果,填补了新生儿监测时大量依赖于人工的不足。

技术特征:
1.一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于该方法包括主任务和辅助任务;其中主任务主要是对新生儿四肢、头部进行运动检测,通过分类网络对四肢和头部五个类别进行多标签分类任务;辅助任务主针对新生儿静止、单肢体运动和多肢体运动三种运动状态进行的多分类任务,具体实现包括如下步骤:步骤1:新生儿视频数据集处理首先,将新生儿监控视频按照肢体动作类别进行裁减,得到若干包含新生儿肢体运动的视频片段;根据视频片段中新生儿肢体运动情况判断是否含有四肢和头部对应的运动,有序排列[头部,左手,右手,左腿,右腿]作为主任务的多标签分类标签;根据肢体运动数量划分成三种类别,分别是无肢体运动、单肢体运动和多肢体运动三个类别作为辅助分类任务的标签,一个视频片段只对应一个肢体运动数量分类标签;步骤2:针对h
×
w
×
t的视频帧数据,选择3d卷积残差神经网络作为主干网络构建特征提取网络提取空间和时间特征,采用硬参数共享的方式在两个任务之间共享隐藏层来应用,同时保留特定于辅助任务的肢体运动数量分类网络输出层和特定于主任务肢体运动多标签分类网络输出层,联合主任务和辅助任务的交叉熵损失函数共同训练网络模型;步骤3:将若干个短视频片段等间距裁剪成视频帧数据,并将每帧图像大小调整为h
×
w;将视频帧数据调整成对应尺寸符合网络输入的需求后,送入网络并训练模型,最终得到四肢和头部分别是否运动来实现辅助监护的功能。2.根据权利要求1所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤1具体操作如下:1-1、根据不同新生儿以及不同的肢体运动情况来裁剪视频片段,以增强数据集分布的多样性;1-2、将每一个视频片段的肢体运动动作定义成[头部,左手,右手,左腿,右腿]的标签,其中1代表该位置的运动,0代表无运动情况,将肢体运动数量分成无肢体运动、单肢体运动和多肢体运动三个类别。3.根据权利要求1或2所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤2具体操作如下:2-1、选择3d卷积残差神经网络作为主干网络,其由若干个3d残差卷积块组成,能够从视频数据中提取空间和时间特征以进行动作识别并且通过残差网络将底层特征和高级特征融合在一块防止网络退化问题;这些3d特征提取器在空间和时间维度上操作,从而捕获视频流中的运动信息;2-2、对于肢体运动数量分类的辅助任务分支,由全局平均池化、全连接层和softmax层组成;2-3、对于肢体运动多标签分类的主任务分支上,通过3d卷积残差块提取更高层次的共享知识和逐步分离任务相关参数使联合表示学习和共享更加高效和灵活,同时在最后一层插入一个simoid函数,2-4、采用多任务学习机制进行训练,模型应用硬参数共享机制,即两个任务输出层之前的网络层共享参数,只有输出层对应各自的网络参数;由于辅助分类任务对应交叉熵损失函数,多标签分类主任务对应的二元交叉熵损失函数,因此所用的损失函数l
total
为交叉熵损失函数和二元交叉熵损失函数的加权叠加。
4.根据权利要求3所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤2-2所述的softmax公式如下:其中z
j
为z中第j个类别的值;设置全连接层的最后一个维度为预测肢体运动数量类别数,再由softmax层输出类别的概率值。5.根据权利要求3或4所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤2-3所述的sigmoid函数,公式如下:其中x为输入,该函数允许对头和四肢的多个标签类别生成置信度评分,然后使用固定的阈值来判断是否运动。6.根据权利要求5所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤2-3所述的每个损失函数的定义如下:l
total
=λ1l
lmnc
+λ2l
amc
ꢀꢀ
(3)其中l
lmnc
为交叉熵作为肢体运动数分类任务的损失函数,定义如下:l
lmnc
=loss(x,class)=-x[class]+log(∑
j
exp(x[j]))
ꢀꢀꢀ
(4)其中x为交叉熵损失函数的逻辑回归值输入,class为肢体运动数量分类的标签以及l
amc
为二元交叉熵作为动作多标签分类的损失函数,描述如下:w=weigh t[c]
·
1{c≠ignore_index}
ꢀꢀꢀꢀ
(6)其中z
n
为表示第n个样本作为正例的预测得分,y
n
表示第n个样本的标签,δ为sigmoid激活函数,λ1和λ2为权重;目的是平衡分类和多标签分类两项任务在联合损失中的贡献。7.根据权利要求6所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤3具体操作如下:3-1、在步骤1生成的视频数据中随机选择t帧、重叠且连续视频片段,作为网络输入,输入维度为c
×
t
×
h
×
w;模型训练过程中,借助随机裁剪中的差帧抽取得到输入视频片段,然后传入3d卷积残差神经网络进行特征提取;3-2、网络架构从相邻视频序列获得多信息通道的特征图,并在每个信道中分别执行卷积和子采样,通过同时堆叠多个连续帧形成的立方体与一个3d核进行卷积;3-3、在经过由数个3d卷积残差块构成的特征特征提取网络后,输出的特征由特定于任务输出层分离训练相关任务参数并输出预测值;3-4、网络训练效果指标。8.根据权利要求7所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤3-2中计算公式如下:其中,表示第i层的第j个特征图的计算值,tanh为双曲正切函数,b
ij
,p
i
,q
i
,r
i
分别表示偏置,权重,卷积核高度,卷积核宽度以及卷积核的深度;每个特征图的维度大
小计算公式如下:小计算公式如下:小计算公式如下:其中,d
out
、h
out
和w
out
分别表示输出特征图时间维度、高度以及宽度;p表示填充参数的大小,d表示膨胀系数,k表示卷积核的大小,s表示步长,d
in
、h
in
和w
in
分别表示输入特征图深度、高度以及宽度。9.根据权利要求8所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤3-3具体步骤如下:3-3-1、卷积操作表示如下:其中,f
tr
(.,θ)表示标准卷积操作,θ表示卷积核的参数,y表示卷积层的输入特征图,该特征图尺寸为d'
×
h'
×
w'
×
c';u表示卷积层的输出特征图,该特征图尺寸为d
×
h
×
w
×
c;3-3-2、压缩操作是对输出特征图u进行全局平均池化操作,压缩操作表示如下:压缩操作过程中,将输出大小为d
×
h
×
w
×
c的特征图在空间尺度进行压缩特征操作,将其中各个三维特征通道转换为一维向量,得到大小为c
×1×1×
1的一维向量;u
c
表示特征图u;f
sq
表示压缩操作函数;3-3-3、随后传入全连接层,在肢体运动数量分类任务中由softmax层输出类别的概率值,选取最大概率得到最终的类别;而在肢体运动多标签分类任务中由sigmoid函数输出每个肢体运动的概率值,再由固定的阈值进行判断并输出。10.根据权利要求9所述的一种基于多任务分类网络的新生儿肢体动作监控方法,其特征在于步骤3-4具体步骤如下:网络训练效果采用平均每类的cp、cr、cf1以及平均整体op、or、of1,各参数计算公式如下:下:下:下:下:下:
其中为第i类预测正确的视频数量,是第i类预测的视频数量,是第i类真实视频的数量;每项指标都在0~1之间,越接近于1,说明模型的预测效果越好,越接近于0,说明模型的预测效果越差。

技术总结
本发明公开了一种基于多任务分类网络的新生儿肢体动作监控方法。本发明包括主任务和辅助任务;其中主任务主要是对新生儿四肢、头部进行运动检测,通过分类网络对四肢和头部五个类别进行多标签分类任务;辅助任务主针对新生儿静止、单肢体运动和多肢体运动三种运动状态进行的多分类任务。本发明相比于传统基于传感器和人工临床巡检的监测方法,本发明可以与新生儿零接触的基础上辅助临床医生进行新生儿肢体实时监测分析。采用联合分类任务和多标签分类任务特征共享限制新生儿无意识细微动作识别中的模糊性,提高肢体动作识别准确率。采用多标签硬编码的方式对婴幼儿肢体运动视频样本进行标签标记,能更好地对婴儿无意识的肢体运动进行建模。肢体运动进行建模。肢体运动进行建模。


技术研发人员:王天磊 於汉杰 曹九稳 林鹏 徐方勇
受保护的技术使用者:杭州电子科技大学
技术研发日:2023.02.15
技术公布日:2023/7/26
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐