微表情识别方法和装置

未命名 08-05 阅读:73 评论:0


1.本发明属于图像识别技术领域,尤其是涉及一种微表情识别方法和装置。


背景技术:

2.根据持续时间,面部表情可分为宏表情和微表情。微表情是一种微妙而自发的面部表情,当人们想要隐藏自己内心的情感时产生的。微表达通常发生在0.04s至0.2s 内,只出现在面部的一小部分区域,可以反映人们的真实情绪,不能欺骗他人。因此,微表情识别是行为分析的重要辅助工具,在刑事讯问、临床医学、商业谈判等领域具有重要的应用价值。与大尺度宏观面部表情不同,微表情持续时间短,波动小,且难以用肉眼识别,这给微表情的自动检测和分类带来了诸多挑战。
3.针对微表情识别问题,计算机视觉技术的主流方法分为传统方法和深度学习方法两类。在早期,传统的微表情识别方法主要包括局部二值模式(local binary patterns,以下简称“lbp”)及其改进方法和基于光流特征及其改进方法。两种方法的不同之处在于,基于lbp算法通常使用lbp来表示图像的局部纹理进行分类,而基于光流的方法则提取光流信息进行分类。虽然基于lbp和光流方法提取的特征被证明可以反映微表达式的微小运动,提高了传统方法考虑全局特征信息的上限,但基于lbp的方法对过多冗余信息进行编码,导致计算成本高且泛化能力较弱,仅基于光流的方法考虑了峰值帧与结束帧之间的光流信息,但是却忽略了人面部自发动作(如眨眼)所带来的影响。这些方法可能不能自然地学习细微的时空变化,造成部分面部信息丢失。
4.随着计算机视觉和图形处理单元(graphics processing unit,以下简称“gpu”)的快速发展,深度学习算法在该领域得到了广泛的应用。基于传统cnn的网络大都是对微表情的起始帧、峰值帧和结束帧三者之间进行水平和垂直光流提取, 但是却忽略了其它偏移帧的信息。许多方法同时结合卷积神经网络(convolutional neural networks,以下简称“cnn”)和长短期记忆神经网络(long short term memory,以下简称“lstm”)提取时间和空间特征,但这样会导致网络参数量和运行时间增加,对于微表情这样的小样本数据集很容易造成过拟合。近年来,三维卷积神经网络(以下简称“3d cnn”)利用联合提取时空特征的优势,在微表情识别(以下简称“mer”)领域逐渐取代了二维卷积,对mer研究有了显著的改进。
5.然而3d cnn在特征提取方面仍存在不足,首先,微表情的有效信息只存在于特定时间的特定区域,而3dcnn提取的时空信息大多不重要。此外,简单地叠加3dcnn块不仅会忽略浅层图像的细节,还可能会导致过拟合。


技术实现要素:

6.本发明的目的是提供一种微表情识别方法和系统,所述方法将三维残差模块和st注意机制结合到双流金字塔融合策略的网络中,以提高局部精细信息在空间、时间和通道维度上的重要性,并保持特征的多样性,以克服关键时序信息提取不充分,识别准确率低的
问题。
7.为解决上述问题,本发明的第一方面提供了一种微表情识别方法,包括:s1、获取第一微表情数据集和第二微表情数据集,所述第一微表情数据集和第二微表情数据集包括预设视频中的原始数据帧;s2、对所述第一微表情数据集和第二微表情数据集进行图像预处理,得到固定帧数的全脸图像序列、眼睛图像序列、嘴巴图像序列和光流图像序列;s3、将所述全脸图像序列、所述眼睛图像序列、所述嘴巴图像序列和所述光流图像序列分别输入三维时空注意力卷积网络进行提取,得到全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图;s4、将全脸图像特征图和光流图像特征图输入双流特征金字塔融合模块,进行特征融合得到特征融合后的全脸特征图,将眼睛图像特征图和嘴巴图像特征图输入眼嘴辅助模块进行计算,得到特征融合后的眼睛的特征图和特征融合后嘴巴的特征图;s5、将所述特征融合后的全脸特征图、特征融合后的眼睛的特征图和特征融合后嘴巴的特征图发送到类别概率计算模块,在类别概率模块中计算交叉熵损失函数,根据所述交叉熵损失函数得到每个类别的概率,所述类别为微表情识别的结果;s6、采用步骤s1-s5进行模型训练,得到训练好的微表情识别模型;s7、采用所述训练好的微表情识别模型对人脸微表情进行分类和识别。
8.可选的,所述第一微表情数据集包含高帧率数据子集、普通数据子集和红外数据子集,其中,高帧率数据子集使用高帧率相机进行拍摄,普通数据子集使用普通相机进行拍摄,红外数据子集使用红外线相机进行拍摄;所述第二微表情数据集使用高速相机进行拍摄。
9.可选的,所述s2中的预处理包括:s2.1、使用时域插值模块分别对所述第一微表情数据集和第二微表情数据集进行处理,得到插值后的图像序列;s2.2、使用机器模型算法库对插值后的图像序列识别人脸关键点;s2.3、通过机器模型算法库的配准方法,使用5个关键点模型进行配准,配准后使用机器模型算法库裁剪人脸、双眼以及嘴部图片,分别得到全脸图像序列、眼睛图像序列、嘴巴图像序列;s2.4、采用光流法对插值后的图像序列进行光流特征提取,得到光流图像序列。
10.可选的,将所述全脸图像序列、所述眼睛图像序列、所述嘴巴图像序列和所述光流图像序列分别输入三维时空注意力卷积网络进行提取全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图包括:将所述全脸图像序列输入三维时空注意力卷积网络的人脸分支进行提取全脸图像特征图;将所述光流图像序列输入三维时空注意力卷积网络的人脸光流分支进行提取光流图像特征图;将所述眼睛图像序列输入三维时空注意力卷积网络的双眼分支进行提取眼睛图像特征图;将所述嘴巴图像序列输入三维时空注意力卷积网络的嘴部分支进行提取嘴巴图
像特征图。
11.可选的,将所述全脸图像序列输入三维时空注意力卷积网络的人脸分支进行提取全脸图像特征图包括:将全脸图像序列依次经过两个三维单卷积特征蒸馏模块得到特征图δ1;将特征图δ1经过一个三维时空注意力模块得到特征图γ1;将特征图γ1经过一个三维双卷积特征提取模块得到特征图α1;将特征图α1依次经过两个残差模块得到全脸特征图β1。
12.可选的,将所述光流图像序列输入三维时空注意力卷积网络的人脸光流分支进行提取光流图像特征图包括:将光流图像序列依次经过两个三维单卷积特征蒸馏模块得到特征图δ2;将特征图δ2经过一个三维时空注意力模块得到特征图γ2;将特征图γ2经过一个三维双卷积特征提取模块得到特征图α2;将特征图α2依次经过两个残差模块得到光流特征图β2。
13.可选的,将所述眼睛图像序列输入三维时空注意力卷积网络的双眼分支进行提取眼睛图像特征图包括:将眼睛图像序列依次经过两个三维单卷积特征蒸馏模块得到特征图δ3;将特征图δ3经过一个三维时空注意力模块得到特征图γ3;将特征图γ3经过一个三维双卷积特征提取模块得到特征图α3;将特征图α3依次经过两个残差模块得到眼睛特征图β3。
14.可选的,将所述嘴巴图像序列输入三维时空注意力卷积网络的嘴部分支进行提取嘴巴图像特征图包括:将嘴巴图像序列依次经过两个三维单卷积特征蒸馏模块得到特征图δ4;将特征图δ4经过一个三维时空注意力模块得到特征图γ4;将特征图γ4经过一个三维双卷积特征提取模块得到特征图α4;将特征图α4依次经过两个残差模块得到嘴巴特征图β4。
15.可选的,所述计算交叉熵损失函数,得到每个类别的概率计算公式如下:
16.其中,m表示类别的数量,yic表示符号函数,如果样本 i 的真实类别等于 c取 1 ,否则取 0;pic表示观测样本i属于类别c的预测概率,n表示折数(模型训练使用n折交叉验证),li表示每一折对应的损失函数的和。
17.本发明的另一方面提供了一种微表情识别装置,所述装置包括:模型训练模块,对微表情识别模型进行训练,以得到训练好的微表情识别模型;所述对微表情识别模型进行训练包括:s1、获取第一微表情数据集和第二微表情数据集,所述第一微表情数据集和第二微表情数据集包括预设视频中的原始数据帧;s2、对所述第一微表情数据集和第二微表情数据集进行图像预处理,得到固定帧数的全脸图像序列、眼睛图像序列、嘴巴图像序列和光流图像序列;
s3、将所述全脸图像序列、所述眼睛图像序列、所述嘴巴图像序列和所述光流图像序列分别输入三维时空注意力卷积网络进行提取,得到全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图;s4、将全脸图像特征图和光流图像特征图输入双流特征金字塔融合模块,进行特征融合得到特征融合后的全脸特征图,将眼睛和嘴巴分支的特征图输入眼嘴辅助模块进行计算,得到特征融合后的眼睛的特征图和特征融合后嘴巴的特征图;s5、将所述特征融合后的全脸特征图、特征融合后的眼睛的特征图和特征融合后嘴巴的特征图发送到类别概率计算模块,在类别概率模块中计算交叉熵损失函数,根据所述交叉熵损失函数得到每个类别的概率;s6、采用步骤s1-s5进行模型训练,得到训练好的微表情识别模型;微表情识别模块,采用所述训练好的微表情识别模型对人脸微表情进行分类和识别。
18.本发明的上述技术方案具有如下有益的技术效果:本发明通过整体上使用提出的四个分支的三维时空注意力卷积网络进行特征提取,全脸和光流分支进入改进结构的双流特征金字塔融合模块,配合眼部和嘴部特征输入眼嘴辅助模块,进行特征图输出融合,完成了时空特征和细节信息的联合学习,实现了对图像细节信息的捕捉,提升了微表情识别性能和效率。三维时空注意力卷积网络使用3d卷积的方式,避免了传统卷积的时序信息遗漏,同时在内部设置了三维时空注意力模块,分别包括sam(空间)和tam(时间),从空间和时间维度上进行双重特征权值校准,放大了微表情式的局部细微表情变化和时间维度上的表情幅度变化,提高了基于多向特征的识别精度,实现自适应时空特征选择,弥补了三维卷积无偏好的学习冗余特征的问题。接着配合改进结构的双流特征金字塔融合模块,双流特征金字塔融合模块将低层光流特征、高层全脸图像特征进行融合,同时利用了底层光流特征的高分辨率和运动信息,以及高层人脸图像特征的高语义信息,在双流结构中共享语义信息,从而双流信息进行有效组合。同时针对眼部和嘴部区域丰富的微动作语义信息,我们将从眼部和嘴部提取到的特征在眼嘴辅助结构中进行二次提取,对多分支特征进行增强融合,在类别概率模型中计算交叉熵损失,多分支特征增强了局部细节和光流运动信息对原始预测的校正。
附图说明
19.图1是本发明实施例提供的微表情识别方法流程图。
20.图2是本发明实施例提供的微表情识别方法的模型框架图。
21.图3是本发明实施例提供的三维时空注意力模型的结构图。
22.图4是本发明实施例提供的双流特征金字塔融合模块结构图。
23.图5是本发明实施例提供的眼嘴辅助模型结构图。
具体实施方式
24.为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本
发明的概念。
25.显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
26.在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
27.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
28.技术术语:多分支三维时空注意金字塔网络(multi-branch spatial-temporal attention pyramid net,以下简称“msapnet”),本发明中完整的msapnet网络模型结构图2所示。
29.三维时空注意力卷积网络(简称3d stac),结构参照图2中左侧第一个虚线部分;值得说明的是,三维时空注意力卷积网络与三维时空注意力模块不同,具体关系会在后面介绍步骤s3的部分详细说明。
30.三维时空注意力模块(以下简称“3dstattention”),后边会根据具体内容进行详细解释,具体结构请参见图3;双流特征金字塔融合模块(以下简称“dual stream-fpn”),后边会根据具体内容进行详细解释,具体结构请参见图4;眼嘴辅助模块(eye mouth auxiliary module,以下简称“ema”),具体结构请参见图5;图1是根据本发明第一实施方式的微表情识别方法的流程图。
31.参照图1-图4,本发明提供了一种微表情识别方法,包括:s1、获取第一微表情数据集和第二微表情数据集,所述第一微表情数据集和第二微表情数据集包括预设视频中的原始数据帧;例如,获取由预设视频中人脸微表情起始帧到结束帧的原始数据帧组成的第一微表情数据集smic和第二微表情数据集casmeii;s2、对所述第一微表情数据集和第二微表情数据集进行图像预处理,得到固定帧数的全脸图像序列、眼睛图像序列、嘴巴图像序列和光流图像序列;例如,对获取到的casmeii和smic微表情数据集进行图像预处理,包括tim插值固定样本帧数、面部关键点检测、面部对齐裁剪、计算光流,得到固定帧数的全脸图像序列、眼睛图像序列、嘴巴图像序列和光流图像序列;s3、将所述全脸图像序列、所述眼睛图像序列、所述嘴巴图像序列和所述光流图像序列分别输入三维时空注意力卷积网络(简称3d stac)进行提取,得到全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图;例如,将预处理过的四种图像序列分别输入三维时空注意力卷积网络3d stac进行提取各分支样本图像的特征图;s4、将全脸图像特征图和光流图像特征图输入双流特征金字塔融合模块,进行特征融合得到特征融合后的全脸特征图,将眼睛和嘴巴分支的特征图输入眼嘴辅助模型进行计算,得到特征融合后的眼睛的特征图和特征融合后嘴巴的特征图;例如,将全脸序列和光流序列特征图输入dual stream-fpn特征金字塔融合策略,进行特征融合得到特征融合后的全脸特征图,将眼睛和嘴巴分支的特征图输入眼嘴辅助模块ema进行计算眼睛和嘴巴的
特征图;s5、将所述特征融合后的全脸特征图、特征融合后的眼睛的特征图和特征融合后嘴巴的特征图发送到类别概率计算模块,在类别概率模块中计算交叉熵损失函数,根据所述交叉熵损失函数得到每个类别的概率,所述类别为微表情识别的结果;例如,将三种特征图融合后的特征图发送到类别概率模块(以下简称“head模块”),并计算交叉熵损失函数cross-entropyloss,以得到微表情的类别信息;s6、采用步骤s1-s5进行模型训练,得到训练好的微表情识别模型;例如,采用步骤s1-s5进行模型训练,得到多分支三维时空注意金字塔网络msapnet模型(简称msapnet模型);s7、采用所述训练好的微表情识别模型对人脸微表情进行分类和识别,例如,人脸微表情测试数据输入至训练完成的msapnet模型进行微表情分类。
32.本发明提供的基于多分支三维时空注意力金字塔网络msapnet模型的微表情识别方法基于多分支三维时空注意力金字塔网络msapnet模型进行识别,解决了因变化细微、数据集样本不足以及单一分支导致的微表情局部细节信息偏移、弱化甚至丢失的问题。
33.本发明实施例提出的识别方法,主要应用于司法审讯等专业的微表情识别场景。
34.本发明在casme ii 3分类和smic3分类数据集的测试集上测试了msapnet模型的检测效果。使用准确率(accuracy)/f1分数(f1-scorce)作为衡量准确性的标准,得到msapnet模型检测精度达到95.92%/95.02%和73.17%/73.07%。
35.本发明通过整体上使用三维时空注意力卷积网络3d stac配合改进结构的双流特征金字塔融合模块dual stream-fpn和眼嘴辅助模型ema进行特征图输出,并使用交叉熵损失函数crossentropyloss计算分类损失,解决了因变化细微、数据集样本不足以及单一分支导致的微表情局部细节信息偏移、弱化甚至丢失的问题,修正了时间以及空间维度上的微表情峰值信息,保证细节信息的有效传输与识别。
36.在一实施例中,第一微表情数据集(smic)包含高帧率数据(hs)子集、普通数据(vis)子集和红外数据(nir)子集,其中,hs子集使用高帧率相机进行拍摄,vis子集使用普通相机进行拍摄,nir子集使用红外线相机进行拍摄;casmeii数据集使用高速相机进行拍摄。
37.举例来说,步骤s1中微表情原始数据集smic和casmeii分别来源于芬兰奥卢大学以及中国科学院心理研究所拍摄的微表情视频流数据。两个数据集的采集均是在控制良好的实验室环境中,在适当的实验设计和照明条件下,要求被试保持面无表情且身体不动,消除光照和头部运动等非情绪因素的干扰,激发参与者的面部表情,从而获得纯净的微表情样本,组成微表情数据集。有所区别的是,smic数据集包含三个数据子集,使用了不同类型的相机进行拍摄——hs子集使用了高帧率相机,vis子集使用了普通相机,nir子集使用了红外线相机。对于casmeii数据集,则是使用了高速相机进行拍摄。
38.对于smic数据集,微表情总共分为107个积极样本、116个消极样本以及83个惊讶样本共三个类别306个样本;而对于casmeii数据集,微表情总共分为33个高兴样本、60个厌恶样本、25个惊讶样本、27个压抑样本以及102个其他样本共五个类别247个样本。此外,为了方便对比,我们将casmeii数据集中的五个类别合并为积极(包括高兴样本)、消极(包括厌恶和压抑样本)以及惊讶三个类别,分别有33、87以及25个样本,合起来共145个样本。
39.在一实施例中,所述s2中的预处理包括:s2.1、使用时域插值模块分别对所述第一微表情数据集和第二微表情数据集进行处理,得到插值后的图像序列;
40.s2.2、使用机器模型算法库对插值后的图像序列识别人脸关键点;s2.3、通过机器模型算法库的配准方法,使用5个关键点模型进行配准,配准后使用机器模型算法库裁剪人脸、双眼以及嘴部图片,分别得到全脸图像序列、眼睛图像序列、嘴巴图像序列;s2.4、采用光流法对插值后的图像序列进行光流特征提取,得到光流图像序列。
41.举例来说,步骤s2中的预处理包括:s2.1、本发明使用时域插值模块(temporal interpolation model,以下简称tim)增加微表情片段包含的图像数量,从而延长微表情持续时间。该方法首先将视频片段视为一个图,并用图中的节点代表一帧图像;随后,使用图嵌入算法将该图嵌入到一个低维的流形中,最后代入图像向量,计算出这条高维的连续曲线。在曲线上重新进行采样,便可以得到插值后的图像序列,一般采用32张的图像组成的图像序列;
42.s2.2、对于面部关键点检测,首先使用机器模型算法库(dlib工具包)检测人脸,获取人脸后也同样使用dlib工具包获取人脸关键点;
43.s2.3、对于人脸对齐功能,通过dlib工具包中的配准方法“get_face_chip()方法”,使用5个关键点模型进行配准。配准后同样使用dlib工具包裁剪人脸、双眼以及嘴部图片,大小分别为64
×
64,64
×
32以及64
×
32。为了避免裁剪后图像抖动所带来的影响,本发明对图像进行了归一化处理。其中人脸视频流归一化的均值为0.3678、标准差为0.1484;人脸光流归一化的均值为[0.0291, 0.4986, 0.4978]、标准差为[0.0451, 0.0673, 0.0474];
[0044]
s2.4、本发明采用tv-l1光流法对微表情进行光流特征提取,通过opencv函数库中dualtvl1opticalflow类的create方法实现。具体地,将已添加掩膜的微表情视频帧序列的第一帧作为基线帧,然后通过基线帧对已添加掩膜的起始帧与结束帧依次计算光流信息。计算结果是一个二维矢量场,分别表示每个像素运动的水平和垂直分量。
[0045]
通过步骤s2中的预处理,可以得到四组视频流:人脸视频流(即全脸图像序列)、人脸光流视频流(即光流图像序列)、双眼视频流(即眼睛图像序列)以及嘴部视频流(即嘴巴图像序列)。将上述视频流分别输入对应的分支中即可进行特征提取。
[0046]
在一实施例中,将全脸图像序列、眼睛图像序列、嘴巴图像序列和光流图像序列分别输入三维时空注意力卷积网络进行提取全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图包括:将全脸图像序列输入三维时空注意力卷积网络的人脸分支进行提取全脸图像特征图;将眼睛图像序列输入三维时空注意力卷积网络的双眼分支进行提取眼睛图像特征图;将嘴巴图像序列输入三维时空注意力卷积网络的嘴部分支进行提取嘴巴图像特征图;将光流图像序列输入三维时空注意力卷积网络的人脸光流分支进行提取光流图
像特征图。
[0047]
在一实施例中,将全脸图像序列输入三维时空注意力卷积网络的人脸分支进行提取全脸图像特征图包括:将全脸图像序列依次经过两个三维单卷积特征蒸馏(以下简称“3d cbl”)模块得到特征图δ1;将特征图δ1经过一个三维时空注意力(以下简称“3dstattention”)模块得到特征图γ1;将特征图γ1经过一个三维双卷积特征提取(以下简称“3d ccd”)模块得到特征图α1;将特征图α1依次经过两个残差模块(以下简称“res_block”)得到全脸特征图β1。
[0048]
举例来说,步骤s3中的三维时空注意力卷积网络3d stac包括人脸分支layer1、人脸光流分支layer2、双眼分支layer3和嘴部分支layer4;人脸分支layer1的计算方式如下:将全脸图像序列依次经过两个三维单卷积特征蒸馏(以下简称“3d cbl”)模块得到特征图δ1;将特征图δ1经过一个三维时空注意力(以下简称“3dstattention”)模块得到特征图γ1;将特征图γ1经过一个三维双卷积特征提取(以下简称“3d ccd”)模块得到特征图α1;将特征图α1依次经过两个残差模块(以下简称“res_block”)得到全脸特征图β1。
[0049]
其中,第一个3dcbl模块包括一个卷积核大小为3
×3×
3、步幅为1
×2×
2以及填充为1的3d卷积模型,一个输出通道数为64的3d批量规范化模块以及随机修正线性单元(randomized leakyrelu,以下简称“leakyrelu”)。第二个3dcbl模块包括一个卷积核大小为3
×3×
3、步幅为2
×2×
2以及填充为1的3d卷积模型,一个输出通道数为128的3d批量规范化模型以及一个leakyrelu激活函数模型,将全脸图像序列先经过第一个3dcbl模块再经过第二个3dcbl模块得到特征图δ1;3dstattention模块包括一个时间注意力模型和一个空间注意力模型,在模块内部特征图的通道数不变。其中时间注意力模块是将特征图复制成相同的两份,一份经过最大池化得到最大池化特征向量,另一份经过平均池化得到平均池化向量。两个向量随后分别经过一个2d卷积模块、一个relu激活函数以及一个2d卷积模块后相加并经过一个sigmoid激活函数得到时间特征向量。空间注意力模块是将特征图复制成相同的两份,一份经过最大池化得到最大池化特征向量,另一份经过平均池化得到平均池化向量。两个向量在列维度上拼接后经过一个3d卷积以及一个sigmoid激活函数得到空间特征向量。特征图δ1分别与时间特征向量以及空间特征向量相乘且加上原特征图本身,即可得到特征图γ1。
[0050]
3dccd模块包括一个输出通道数为256、卷积核大小为3
×3×
3、步幅为2
×1×
2以及填充为1的3d卷积模型,一个输出通道数为512、卷积核大小为3
×3×
3、步幅为2
×1×
2以及填充为1的3d卷积模型以及一个随机失活率为0.5的三维随机失活(以下简称“3ddropout”)模型,特征图γ1依次经过上述的3d卷积模型和三维随机失活模型得到特征图α1。
[0051]
第一个res_block包括两个分支。一个分支需要经过两个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dcbl模型,另一个分支上没有模型。最后两个分支的特征图经过残差连接得到输出。第二个res_block包括两个分支。一个分支需要经过两个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dcbl模型,另一个分支上没有模型。最后同样是两个分支的特征图经过残差连接得到输出。在这过程中,特征图的通道数均保持512不变,特征图α1依次经过上述两个res_block模块得到全脸特征图β1。
[0052]
在一实施例中,将光流图像序列输入三维时空注意力卷积网络的人脸光流分支进行提取光流图像特征图包括:将光流图像序列依次经过两个三维单卷积特征蒸馏(以下简称“3d cbl”)模块得到特征图δ2;将特征图δ2经过一个三维时空注意力(以下简称“3dstattention”)模块得到特征图γ2;将特征图γ2经过一个三维双卷积特征提取(以下简称“3d ccd”)模块得到特征图α2;将特征图α2依次经过两个残差模块(以下简称“res_block”)得到光流特征图β2。
[0053]
举例来说,人脸光流分支layer2的计算方式如下:其中,第一个3dcbl模块包括一个卷积核大小为3
×3×
3、步幅为1
×2×
2以及填充为1的3d卷积模型,一个输出通道数为64的3d批量规范化模块以及随机修正线性单元(randomized leakyrelu,以下简称“leakyrelu”)。第二个3dcbl模块包括一个卷积核大小为3
×3×
3、步幅为2
×2×
2以及填充为1的3d卷积模型,一个输出通道数为128的3d批量规范化模型以及一个leakyrelu激活函数模型,将光流图像序列先经过第一个3dcbl模块再经过第二个3dcbl模块得到特征图δ2。
[0054]
3dstattention模块包括一个时间注意力模型和一个空间注意力模型,在模块内部特征图的通道数不变。其中时间注意力模块是将特征图复制成相同的两份,一份经过最大池化得到最大池化特征向量,另一份经过平均池化得到平均池化向量。两个向量随后分别经过一个2d卷积模块、一个线性整流函数(rectified linear unit,以下简称relu)激活函数以及一个2d卷积模块后相加并经过一个sigmoid激活函数得到时间特征向量。空间注意力模块是将特征图复制成相同的两份,一份经过最大池化得到最大池化特征向量,另一份经过平均池化得到平均池化向量。两个向量在列维度上拼接后经过一个3d卷积以及一个sigmoid激活函数得到空间特征向量。特征图δ4分别与时间特征向量以及空间特征向量相乘且加上原特征图本身,即可得到特征图γ2。
[0055]
3dccd模块包括一个输出通道数为256、卷积核大小为3
×3×
3、步幅为2
×1×
2以及填充为1的3d卷积模块,一个输出通道数为512、卷积核大小为3
×3×
3、步幅为2
×1×
2以及填充为1的3d卷积模型以及一个随机失活率为0.5的三维随机失活(以下简称“3ddropout”)模型,特征图γ4依次经过上述的3d卷积模型和三维随机失活模型得到特征图α2。
[0056]
第一个res_block包括两个分支。一个分支需要经过两个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dcbl模型,另一个分支上没有模型。最后两个分支的特征图经过残差连接得到输出。第二个res_block包括两个分支。一个分支需要经过两个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dcbl模型,另一个分支上没有模型。最后同样是两个分支的特征图经过残差连接得到输出。在这过程中,特征图的通道数均保持512不变,特征图α4依次经过上述两个res_block模块得到眼睛特征图β2。
[0057]
在一实施例中,将眼睛图像序列输入三维时空注意力卷积网络的双眼分支进行提取眼睛图像特征图包括:将眼睛图像序列依次经过两个三维单卷积特征蒸馏(以下简称“3d cbl”)模块得到特征图δ3;将特征图δ3经过一个三维时空注意力模块(以下简称“3dstattention”)得到特征图γ3;将特征图γ3经过一个三维双卷积特征提取(以下简称“3d ccd”)模块得到特征图α3;将特征图α3依次经过两个残差模块(以下简称“res_block”)得到眼睛特征图β3。
[0058]
举例来说,双眼分支layer3的计算方式如下:其中,第一个3dcbl模块包括一个卷积核大小为3
×3×
3、步幅为1
×2×
2以及填充为1的3d卷积模型,一个输出通道数为64的3d批量规范化模块以及随机修正线性单元(randomized leakyrelu,以下简称“leakyrelu”)。第二个3dcbl模块包括一个卷积核大小为3
×3×
3、步幅为2
×2×
2以及填充为1的3d卷积模型,一个输出通道数为128的3d批量规范化模型以及一个leakyrelu激活函数模型,将眼睛图像序列先经过第一个3dcbl模块再经过第二个3dcbl模块得到特征图δ3;3dstattention模块包括一个时间注意力模型和一个空间注意力模型,在模块内部特征图的通道数不变。其中时间注意力模块是将特征图复制成相同的两份,一份经过最大池化得到最大池化特征向量,另一份经过平均池化得到平均池化向量。两个向量随后分别经过一个2d卷积模块、一个relu激活函数以及一个2d卷积模块后相加并经过一个sigmoid激活函数得到时间特征向量。空间注意力模块是将特征图复制成相同的两份,一份经过最大池化得到最大池化特征向量,另一份经过平均池化得到平均池化向量。两个向量在列维度上拼接后经过一个3d卷积以及一个sigmoid激活函数得到空间特征向量。特征图δ3分别与时间特征向量以及空间特征向量相乘且加上原特征图本身,即可得到特征图γ3。
[0059]
3dccd模块包括一个输出通道数为256、卷积核大小为3
×3×
3、步幅为2
×1×
2以及填充为1的3d卷积模块,一个输出通道数为512、卷积核大小为3
×3×
3、步幅为2
×1×
2以及填充为1的3d卷积模型以及一个随机失活率为0.5的三维随机失活(以下简称“3ddropout”)模型,特征图γ2依次经过上述的3d卷积模型和三维随机失活模型得到特征图α3。
[0060]
第一个res_block包括两个分支。一个分支需要经过两个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dcbl模型,另一个分支上没有模型。最后两个分支的特征图经过残差连接得到输出。第二个res_block包括两个分支。一个分支需要经过两个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dcbl模型,另一个分支上没有模型。最后同样是两个分支的特征图经过残差连接得到输出。在这过程中,特征图的通道数均保持512不变,特征图α3依次经过上述两个res_block模块得到眼睛特征图β3。
[0061]
在一实施例中,将嘴巴图像序列输入三维时空注意力卷积网络的嘴部分支进行提
取嘴巴图像特征图包括:将嘴巴图像序列依次经过两个三维单卷积特征蒸馏(以下简称“3d cbl”)模块得到特征图δ4;将特征图δ4经过一个三维时空注意力(以下简称“3dstattention”)模块得到特征图γ4;将特征图γ4经过一个三维双卷积特征提取(以下简称“3d ccd”)模块得到特征图α4;将特征图α4依次经过两个残差模块(以下简称“res_block”)得到嘴巴特征图β4。
[0062]
其中,嘴部分支layer4的计算方式如下:其中,第一个3dcbl模块包括一个卷积核大小为3
×3×
3、步幅为1
×2×
2以及填充为1的3d卷积模型,一个输出通道数为64的3d批量规范化模块以及随机修正线性单元(randomized leakyrelu,以下简称“leakyrelu”)。第二个3dcbl模块包括一个卷积核大小为3
×3×
3、步幅为2
×2×
2以及填充为1的3d卷积模型,一个输出通道数为128的3d批量规范化模型以及一个leakyrelu激活函数模型,将嘴巴图像序列先经过第一个3dcbl模块再经过第二个3dcbl模块得到特征图δ4。
[0063]
3dstattention模块包括一个时间注意力模型和一个空间注意力模型,在模块内部特征图的通道数不变。其中时间注意力模块是将特征图复制成相同的两份,一份经过最大池化得到最大池化特征向量,另一份经过平均池化得到平均池化向量。两个向量随后分别经过一个2d卷积模块、一个relu激活函数以及一个2d卷积模块后相加并经过一个sigmoid激活函数得到时间特征向量。空间注意力模块是将特征图复制成相同的两份,一份经过最大池化得到最大池化特征向量,另一份经过平均池化得到平均池化向量。两个向量在列维度上拼接后经过一个3d卷积以及一个sigmoid激活函数得到空间特征向量。特征图δ3分别与时间特征向量以及空间特征向量相乘且加上原特征图本身,即可得到特征图γ4。
[0064]
3dccd模块包括一个输出通道数为256、卷积核大小为3
×3×
3、步幅为2
×1×
2以及填充为1的3d卷积模块,一个输出通道数为512、卷积核大小为3
×3×
3、步幅为2
×1×
2以及填充为1的3d卷积模型以及一个随机失活率为0.5的三维随机失活(以下简称“3ddropout”)模型,特征图γ3依次经过上述的3d卷积模型和三维随机失活模型得到特征图α4。
[0065]
第一个res_block包括两个分支。一个分支需要经过两个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dcbl模型,另一个分支上没有模型。最后两个分支的特征图经过残差连接得到输出。第二个res_block包括两个分支。一个分支需要经过两个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dcbl模型,另一个分支上没有模型。最后同样是两个分支的特征图经过残差连接得到输出。在这过程中,特征图的通道数均保持512不变,特征图α3依次经过上述两个res_block模块得到眼睛特征图β4。
[0066]
参照图5,举例来说,步骤s4中的双流特征金字塔融合模块(dual stream-fpn特征金字塔)以及眼嘴辅助模型(ema)有如下具体原理:在dual stream-fpn特征金字塔中,特征图的通道数始终保持512不变。其中,人脸分支首先经过一个卷积核大小为3
×3×
3、步幅为1以及填充为1的3dccd模块,然后和经过一个卷积核大小为3
×3×
3、步幅为1和填充为1的3dccd模块以及一个卷积核大小为1的1
×
1卷积模块的人脸光流相加得到第一层叠加特征图。将第一层叠加特征图经过一个卷积核大小为3
×3×
3、步幅为1以及填充为1的res_block模块,然后和经过一个卷积核大小为3
×3×
3、步幅为1和填充为1的res_block模块以及一个卷积核大小为1的1
×
1卷积模块的人脸光流相加得到第二层叠加特征图。将第二层叠加特征图经过一个卷积核大小为3
×3×
3、步幅为1以及填充为1的res_block模块,然后和经过一个卷积核大小为3
×3×
3、步幅为1和填充为1的res_block模块以及一个卷积核大小为1的1
×
1卷积模块的人脸光流相加得到第三层叠加特征图。将第三层叠加特征图展平后,得到融合了人脸和光流的特征向量。
[0067]
在眼嘴辅助模块ema中,特征图的通道数始终保持512不变。其中双眼分支首先通过一个卷积核大小为3
×3×
3、步幅为1和填充为1的3dccd模块,然后经过两个卷积核大小为3
×3×
3、步幅为1和填充为1的res_block模块,最后将特征图展平得到双眼特征向量。嘴部分支则是首先通过一个卷积核大小为3
×3×
3、步幅为1和填充为1的3dccd模块,然后经过两个卷积核大小为3
×3×
3、步幅为1和填充为1的res_block模块,最后将特征图展平得到嘴部特征向量。
[0068]
举例来说,步骤s5中首先将人脸光流特征向量、双眼特征向量以及嘴部特征向量通过在列维度上拼接融合成一个向量,然后发送到类别概率计算模块(head模块)。在head模块中,向量将经过一个输出维度为512的全连接层、一个relu激活函数以及一个输出维度为3或者5的全连接层(等于类别数),即可得到每个类别的概率。
[0069]
在一实施例中,计算交叉熵损失函数,得到每个类别的概率计算公式如下:
[0070]
其中,m表示类别的数量;yic表示符号函数(0或1),如果样本 i 的真实类别等于 c取 1 ,否则取 0;pic表示观测样本i属于类别c的预测概率,n表示折数(模型训练使用n折交叉验证),li表示每一折对应的损失函数的和。
[0071]
举例来说,步骤(6)中,视频流首先分批经过一系列预处理操作,然后送入网络中进行正向传播,即可获知属于某一类别(对于积极、消极、惊讶三个微表情的3分类)的概率,举例来说,输入一个图像序列,模型输出得到3个概率值(即1x3的向量), 最大的概率对应的微表情,即为模型对于微表情的识别结果。
[0072]
本发明的另一实施例提供了一种微表情识别装置,装置包括:模型训练模块,对微表情识别模型进行训练,以得到训练好的微表情识别模型;所述对微表情识别模型进行训练包括:s1、获取第一微表情数据集和第二微表情数据集,第一微表情数据集和第二微表情数据集包括预设视频中的原始数据帧;s2、对第一微表情数据集和第二微表情数据集进行图像预处理,得到固定帧数的全脸图像序列、眼睛图像序列、嘴巴图像序列和光流图像序列;s3、将全脸图像序列、所述眼睛图像序列、所述嘴巴图像序列和所述光流图像序列分别输入三维时空注意力卷积网络进行提取,得到全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图;s4、将全脸图像特征图和光流图像特征图输入多分支时空注意金字塔网络,进行
特征融合得到特征融合后的全脸特征图,将眼睛和嘴巴分支的特征图输入眼嘴辅助模型进行计算,得到特征融合后的眼睛的特征图和特征融合后嘴巴的特征图;s5、将特征融合后的全脸特征图、特征融合后的眼睛的特征图和特征融合后嘴巴的特征图发送到类别概率计算模型,在类别概率模型中计算交叉熵损失函数,根据所述交叉熵损失函数得到每个类别的概率;s6、采用步骤s1-s5进行模型训练,得到训练好的微表情识别模型;微表情识别模块,采用所述训练好的微表情识别模型对人脸微表情进行分类和识别。本发明旨在保护一种微表情识别方法,本发明通过整体上使用提出的四分支3d stac网络进行特征提取,全脸和光流分支进入改进结构的dual stream-fpn,配合眼部和嘴部特征输入ema模块,进行特征图输出融合,完成了时空特征和细节信息的联合学习,实现了对图像细节信息的捕捉,提升了微表情识别性能和效率。3d stac网络使用3d卷积的方式,避免了传统卷积的时序信息遗漏,同时在内部设置了三维时空注意力模型st attention,分别包括时间注意力模块(tam)和一个空间注意力模块(sam),从空间和时间维度上进行双重特征权值校准,放大了微表情式的局部细微表情变化和时间维度上的表情幅度变化,提高了基于多向特征的识别精度,实现自适应时空特征选择,弥补了三维卷积无偏好的学习冗余特征的问题。接着配合改进结构的dual stream-fpn,双流特征金字塔融合模块将低层光流特征、高层全脸图像特征进行融合,同时利用了底层光流特征的高分辨率和运动信息,以及高层人脸图像特征的高语义信息,在双流结构中共享语义信息,从而双流信息进行有效组合。同时针对眼部和嘴部区域丰富的微动作语义信息,我们将从眼部和嘴部提取到的特征在眼嘴辅助结构中进行二次提取,对多分支特征进行增强融合,在head中计算交叉熵损失,多分支特征增强了局部细节和光流运动信息对原始预测的校正。在casme ii和smic及复合数据集上的优秀表现证明该方法可以满足不同数据集下微表情精准识别的任务需求。
[0073]
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
[0074]
以上参照本发明的实施例对本发明予以了说明。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。本发明的范围由所附权利要求及其等价物限定。不脱离本发明的范围,本领域技术人员可以做出多种替换和修改,这些替换和修改都应落在本发明的范围之内。
[0075]
尽管已经详细描述了本发明的实施方式,但是应该理解的是,在不偏离本发明的精神和范围的情况下,可以对本发明的实施方式做出各种改变、替换和变更。
[0076]
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
[0077]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实
施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0078]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0079]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0080]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0081]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,简称rom)或随机存取存储器(randomaccessmemory,简称ram)等。
[0082]
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例系统中的模块可以根据实际需要进行合并、划分和删减。

技术特征:
1.一种微表情识别方法,其特征在于,包括:s1、获取第一微表情数据集和第二微表情数据集,所述第一微表情数据集和第二微表情数据集包括预设视频中的原始数据帧;s2、对所述第一微表情数据集和第二微表情数据集进行图像预处理,得到固定帧数的全脸图像序列、眼睛图像序列、嘴巴图像序列和光流图像序列;s3、将所述全脸图像序列、所述眼睛图像序列、所述嘴巴图像序列和所述光流图像序列分别输入三维时空注意力卷积网络进行提取,得到全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图;s4、将全脸图像特征图和光流图像特征图输入双流特征金字塔融合模块,进行特征融合得到特征融合后的全脸特征图,将眼睛图像特征图和嘴巴图像特征图输入眼嘴辅助模块进行计算,得到特征融合后的眼睛的特征图和特征融合后嘴巴的特征图;s5、将所述特征融合后的全脸特征图、特征融合后的眼睛的特征图和特征融合后嘴巴的特征图发送到类别概率计算模块,在类别概率模块中计算交叉熵损失函数,根据所述交叉熵损失函数得到每个类别的概率,所述类别为微表情识别的结果;s6、采用步骤s1-s5进行模型训练,得到训练好的微表情识别模型;s7、采用所述训练好的微表情识别模型对人脸微表情进行分类和识别。2.如权利要求1所述的微表情识别方法,其特征在于,所述第一微表情数据集包含高帧率数据子集、普通数据子集和红外数据子集,其中,高帧率数据子集使用高帧率相机进行拍摄,普通数据子集使用普通相机进行拍摄,红外数据子集使用红外线相机进行拍摄;所述第二微表情数据集使用高速相机进行拍摄。3.如权利要求1所述的微表情识别方法,其特征在于,所述s2中的预处理包括:s2.1、使用时域插值模块分别对所述第一微表情数据集和第二微表情数据集进行处理,得到插值后的图像序列;s2.2、使用机器模型算法库对插值后的图像序列识别人脸关键点;s2.3、通过机器模型算法库的配准方法,使用5个关键点模型进行配准,配准后使用机器模型算法库裁剪人脸、双眼以及嘴部图片,分别得到全脸图像序列、眼睛图像序列、嘴巴图像序列;s2.4、采用光流法对插值后的图像序列进行光流特征提取,得到光流图像序列。4.如权利要求1所述的微表情识别方法,其特征在于,将所述全脸图像序列、所述眼睛图像序列、所述嘴巴图像序列和所述光流图像序列分别输入三维时空注意力卷积网络进行提取全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图包括:将所述全脸图像序列输入三维时空注意力卷积网络的人脸分支进行提取全脸图像特征图;将所述光流图像序列输入三维时空注意力卷积网络的人脸光流分支进行提取光流图像特征图;将所述眼睛图像序列输入三维时空注意力卷积网络的双眼分支进行提取眼睛图像特
征图;将所述嘴巴图像序列输入三维时空注意力卷积网络的嘴部分支进行提取嘴巴图像特征图。5.如权利要求4所述的微表情识别方法,其特征在于,将所述全脸图像序列输入三维时空注意力卷积网络的人脸分支进行提取全脸图像特征图包括:将全脸图像序列依次经过两个三维单卷积特征蒸馏模块得到特征图δ1;将特征图δ1经过一个三维时空注意力模块得到特征图γ1;将特征图γ1经过一个三维双卷积特征提取模块得到特征图α1;将特征图α1依次经过两个残差模块得到全脸特征图β1。6.如权利要求4所述的微表情识别方法,其特征在于,将所述光流图像序列输入三维时空注意力卷积网络的人脸光流分支进行提取光流图像特征图包括:将光流图像序列依次经过两个三维单卷积特征蒸馏模块得到特征图δ2;将特征图δ2经过一个三维时空注意力模块得到特征图γ2;将特征图γ2经过一个三维双卷积特征提取模块得到特征图α2;将特征图α2依次经过两个残差模块得到光流特征图β2。7.如权利要求4所述的微表情识别方法,其特征在于,将所述眼睛图像序列输入三维时空注意力卷积网络的双眼分支进行提取眼睛图像特征图包括:将眼睛图像序列依次经过两个三维单卷积特征蒸馏模块得到特征图δ3;将特征图δ3经过一个三维时空注意力模块得到特征图γ3;将特征图γ3经过一个三维双卷积特征提取模块得到特征图α3;将特征图α3依次经过两个残差模块得到眼睛特征图β3。8.如权利要求4所述的微表情识别方法,其特征在于,将所述嘴巴图像序列输入三维时空注意力卷积网络的嘴部分支进行提取嘴巴图像特征图包括:将嘴巴图像序列依次经过两个三维单卷积特征蒸馏模块得到特征图δ4;将特征图δ4经过一个三维时空注意力模块得到特征图γ4;将特征图γ4经过一个三维双卷积特征提取模块得到特征图α4;将特征图α4依次经过两个残差模块得到嘴巴特征图β4。9.如权利要求1所述的微表情识别方法,其特征在于,所述计算交叉熵损失函数,得到每个类别的概率计算公式如下:;其中,m表示类别的数量,yic表示符号函数,如果样本 i 的真实类别等于 c取 1 ,否则取 0;pic表示观测样本i属于类别c的预测概率,n表示折数,l
i
表示每一折对应的损失函数的和。
10.一种微表情识别装置,其特征在于,所述装置包括:模型训练模块,对微表情识别模型进行训练,以得到训练好的微表情识别模型;所述对微表情识别模型进行训练包括:s1、获取第一微表情数据集和第二微表情数据集,所述第一微表情数据集和第二微表情数据集包括预设视频中的原始数据帧;s2、对所述第一微表情数据集和第二微表情数据集进行图像预处理,得到固定帧数的全脸图像序列、眼睛图像序列、嘴巴图像序列和光流图像序列;s3、将所述全脸图像序列、所述眼睛图像序列、所述嘴巴图像序列和所述光流图像序列分别输入三维时空注意力卷积网络进行提取,得到全脸图像特征图、眼睛图像特征图、嘴巴图像特征图和光流图像特征图;s4、将全脸图像特征图和光流图像特征图输入双流特征金字塔融合模块,进行特征融合得到特征融合后的全脸特征图,将眼睛和嘴巴分支的特征图输入眼嘴辅助模块进行计算,得到特征融合后的眼睛的特征图和特征融合后嘴巴的特征图;s5、将所述特征融合后的全脸特征图、特征融合后的眼睛的特征图和特征融合后嘴巴的特征图发送到类别概率计算模块,在类别概率模块中计算交叉熵损失函数,根据所述交叉熵损失函数得到每个类别的概率;s6、采用步骤s1-s5进行模型训练,得到训练好的微表情识别模型;微表情识别模块,采用所述训练好的微表情识别模型对人脸微表情进行分类和识别。

技术总结
本发明公开了一种微表情识别方法和装置,属于图像识别技术领域,方法包括:获取待识别图像信息;获取第一微表情数据集和第二微表情数据集,对第一微表情数据集和第二微表情数据集进行图像预处理,得到全脸图像、眼睛图像、嘴巴图像和光流图像序列;将全脸图像、眼睛图像、嘴巴图像和光流图像序列分别输入三维时空注意力卷积网络进行提取,提取后的图像序列进行特征融合,将特征融合后的全脸特征图、眼睛的特征图和嘴巴的特征图发送到类别概率计算模型,得到每个类别的概率;采用上述步骤进行模型训练,得到训练好的微表情识别模型;采用训练好的微表情识别模型对人脸微表情进行分类和识别。本发明对图像细节信息的捕捉,提升微表情识别效率。表情识别效率。表情识别效率。


技术研发人员:杨军 岳政融 邹放达 兰凯崴 林家豪 梁伟超 何博
受保护的技术使用者:中国矿业大学(北京)
技术研发日:2023.05.09
技术公布日:2023/8/4
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐