一种情绪识别方法、装置、存储介质及设备与流程
未命名
09-07
阅读:92
评论:0

1.本技术涉及计算机技术领域,尤其涉及一种情绪识别方法、装置、存储介质及设备。
背景技术:
2.随着人工智能技术的快速发展,人机交互在人们日常工作、生活中出现的频率越来越高,能够为人们带来极大的便利。情绪识别作为人机交互中一个重要的分支,在医疗、教育等领域具有重要意义,已成为当前各领域的研究热点。
3.目前,现有的情绪识别方法通常是采用基于深度学习的多模态情绪识别方法,但该方法是通过多任务学习的方式进行模型训练的。不同模态间抽象出的情绪表征向量,是通过共享融合的方式合并在一起的。这种训练方式是以不同模态间抽象表征信息完全共享为前提条件的。如果模型网络结构无法聚合得到匹配的高维信息表达,那么再采用多任务学习的训练方法,将会造成模型偏差,导致模型得到的识别结果的准确率较低。因此,如何提高情绪识别结果的准确率是目前亟待解决的技术问题。
技术实现要素:
4.本技术实施例的主要目的在于提供一种情绪识别方法、装置、存储介质及设备,能够有效提高情绪识别结果的准确率。
5.本技术实施例提供了一种情绪识别方法,包括:
6.获取待识别的目标视频,并从所述目标视频中分离出音频信号流和图像信号流;
7.将所述音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到所述目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;所述情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;
8.根据所述第一初步情绪识别结果和第二初步情绪识别结果,确定所述目标用户对应的最终情绪识别结果。
9.一种可能的实现方式中,所述情绪识别模型的构建方式如下:
10.获取第一样本视频,并从所述第一样本视频中分离出第一样本音频信号流和第一样本图像信号流;
11.将所述第一样本音频信号流输入初始情绪识别模型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型;
12.将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型;
13.对所述第一梯度和第二梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。
14.一种可能的实现方式中,所述将所述第一样本音频信号流输入初始情绪识别模
型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型,包括:
15.将所述第一样本音频信号流按照预设固定时间窗长,切分为音频信号段,并将所有所述音频信号段打包为音频训练数据块;
16.从所述音频训练数据块中选取n个音频信号段,并提取出所述n个音频信号段各自对应的声学特征;所述n为大于0的正整数;
17.将所述n个音频信号段各自对应的声学特征输入初始情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第一情绪预测结果;
18.通过将所述第一样本用户的第一情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第一损失函数;
19.根据所述第一损失函数,通过误差反向传播算法,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型。
20.一种可能的实现方式中,所述将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型,包括:
21.将所述第一样本图像信号流按照所述预设固定时间窗长,切分为图像信号段,并将所有所述图像信号段打包为图像训练数据块;
22.从所述图像训练数据块中选取与所述n个音频信号段在时间上相对应的n个图像信号段,并提取出所述n个图像信号段各自对应的图像特征;
23.将所述n个图像信号段各自对应的图像特征输入所述第一初步情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第二情绪预测结果;
24.通过将所述第一样本用户的第二情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第二损失函数;
25.根据所述第二损失函数,通过误差反向传播算法,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型。
26.一种可能的实现方式中,所述第一损失函数和第二损失函数均为交叉熵损失函数。
27.一种可能的实现方式中,所述情绪识别模型的构建方式如下:
28.获取第二样本视频,并从所述第二样本视频中分离出第二样本音频信号流和第二样本图像信号流;
29.将所述第二样本图像信号流输入初始情绪识别模型,通过调整第三损失函数,计算模型参数更新的第三梯度,并训练得到第三初步情绪识别模型;
30.将所述第二样本音频信号流输入所述第三初步情绪识别模型,通过调整第四损失函数,计算模型参数更新的第四梯度,并训练得到第四初步情绪识别模型;
31.对所述第三梯度和第四梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。
32.一种可能的实现方式中,所述初始情绪识别模型为卷积神经网络cnn。
33.一种可能的实现方式中,所述方法还包括:
34.获取验证视频,并从所述验证视频中分离出验证音频信号流和验证图像信号流;
35.将所述验证音频信号流和验证图像信号流分别输入所述情绪识别模型,得到所述验证视频中验证用户对应的第一情绪验证结果和第二情绪验证结果;
36.根据所述第一情绪验证结果和第二情绪验证结果,确定所述验证用户对应的最终情绪验证结果;
37.当所述验证用户对应的最终情绪验证结果与真实情绪不一致时,将所述验证视频重新作为所述第一样本视频或第二样本视频,对所述情绪识别模型进行更新。
38.本技术实施例还提供了一种情绪识别装置,包括:
39.第一获取单元,用于获取待识别的目标视频,并从所述目标视频中分离出音频信号流和图像信号流;
40.预测单元,用于将所述音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到所述目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;所述情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;
41.第一确定单元,用于根据所述第一初步情绪识别结果和第二初步情绪识别结果,确定所述目标用户对应的最终情绪识别结果。
42.一种可能的实现方式中,所述装置还包括:
43.第二获取单元,用于获取第一样本视频,并从所述第一样本视频中分离出第一样本音频信号流和第一样本图像信号流;
44.第一训练单元,用于将所述第一样本音频信号流输入初始情绪识别模型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型;
45.第二训练单元,用于将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型;
46.第一更新单元,用于对所述第一梯度和第二梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。
47.一种可能的实现方式中,所述第一训练单元包括:
48.第一切分子单元,用于将所述第一样本音频信号流按照预设固定时间窗长,切分为音频信号段,并将所有所述音频信号段打包为音频训练数据块;
49.第一提取子单元,用于从所述音频训练数据块中选取n个音频信号段,并提取出所述n个音频信号段各自对应的声学特征;所述n为大于0的正整数;
50.第一预测子单元,用于将所述n个音频信号段各自对应的声学特征输入初始情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第一情绪预测结果;
51.第一计算子单元,用于通过将所述第一样本用户的第一情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第一损失函数;
52.第一训练子单元,用于根据所述第一损失函数,通过误差反向传播算法,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型。
53.一种可能的实现方式中,所述第二训练单元包括:
54.第二切分子单元,用于将所述第一样本图像信号流按照所述预设固定时间窗长,切分为图像信号段,并将所有所述图像信号段打包为图像训练数据块;
55.第二提取子单元,用于从所述图像训练数据块中选取与所述n个音频信号段在时间上相对应的n个图像信号段,并提取出所述n个图像信号段各自对应的图像特征;
56.第二预测子单元,用于将所述n个图像信号段各自对应的图像特征输入所述第一初步情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第二情绪预测结果;
57.第二计算子单元,用于通过将所述第一样本用户的第二情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第二损失函数;
58.第二训练子单元,用于根据所述第二损失函数,通过误差反向传播算法,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型。
59.一种可能的实现方式中,所述第一损失函数和第二损失函数均为交叉熵损失函数。
60.一种可能的实现方式中,所述装置还包括:
61.第三获取单元,用于获取第二样本视频,并从所述第二样本视频中分离出第二样本音频信号流和第二样本图像信号流;
62.第三训练单元,用于将所述第二样本图像信号流输入初始情绪识别模型,通过调整第三损失函数,计算模型参数更新的第三梯度,并训练得到第三初步情绪识别模型;
63.第四训练单元,用于将所述第二样本音频信号流输入所述第三初步情绪识别模型,通过调整第四损失函数,计算模型参数更新的第四梯度,并训练得到第四初步情绪识别模型;
64.第二更新单元,用于对所述第三梯度和第四梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。
65.一种可能的实现方式中,所述初始情绪识别模型为卷积神经网络cnn。
66.一种可能的实现方式中,所述装置还包括:
67.第三获取单元,用于获取验证视频,并从所述验证视频中分离出验证音频信号流和验证图像信号流;
68.输入单元,用于将所述验证音频信号流和验证图像信号流分别输入所述情绪识别模型,得到所述验证视频中验证用户对应的第一情绪验证结果和第二情绪验证结果;
69.第二确定单元,用于根据所述第一情绪验证结果和第二情绪验证结果,确定所述验证用户对应的最终情绪验证结果;
70.第三更新单元,用于当所述验证用户对应的最终情绪验证结果与真实情绪不一致时,将所述验证视频重新作为所述第一样本视频或第二样本视频,对所述情绪识别模型进行更新。
71.本技术实施例还提供了一种情绪识别设备,包括:处理器、存储器、系统总线;
72.所述处理器以及所述存储器通过所述系统总线相连;
73.所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述情绪识别方法中的任意一种实现方式。
74.本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述情绪识别方法中的任意一种实现方式。
75.本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述情绪识别方法中的任意一种实现方式。
76.本技术实施例提供的一种情绪识别方法、装置、存储介质及设备,首先获取待识别的目标视频,并从目标视频中分离出音频信号流和图像信号流,然后将音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;其中,情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;接着,可以根据第一初步情绪识别结果和第二初步情绪识别结果,确定目标用户对应的最终情绪识别结果。可见,由于本技术是先利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式构建了情绪识别模型,有效提升了模型的识别效果,从而在利用该情绪识别模型对目标视频中的目标用户进行情绪识别时,可以有效提高识别结果的准确率。
附图说明
77.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
78.图1为本技术实施例提供的一种情绪识别方法的流程示意图;
79.图2为本技术实施例提供的构建情绪识别模型的过程示意图;
80.图3为本技术实施例提供的一种情绪识别装置的组成示意图。
具体实施方式
81.情绪是一种内部的主观体验,是人们对外界因素或自身刺激产生的生理及心理反应,情绪识别在医疗、教育等领域具有重要意义。情绪识别作为人机交互中一个重要的分支,成为当前各领域的研究热点。
82.传统的情绪识别方法通常集中在语音、面部表情、脑电信号、文本等单模态领域。其中,面部表情识别作为情绪识别领域的重要发展方向,已取得较大的进展。传统的面部表情识别方法大多采用人工设计特征或浅层学习特征。识别流程主要包括图像获取、预处理、特征提取和分类,其中预处理部分通常包括数据增强、人脸识别、归一化等技术。而语音情绪识别也随着数据集的不断丰富而得到快速发展。语音作为人们交流最直接的手段,其中涵盖了丰富的情绪信息,人们情绪的变化可以通过语音特征体现出来。而语音情绪识别正是将输入包含情绪信息的语音信号转化为可读的物理特征,并提取其中与情绪表达相关的语音特征,再构建情绪识别分类器进行测试和训练,最后输出情绪识别分类结果。
83.但是单模态情绪识别方法的缺点是识别依据比较单一,识别准确率较低,所以在大多数情况下,多模态情绪识别系统远比对应最优的单模态情绪识别系统更准确,应用也
更为广发。这是因为同时采用语音、面部表情等多模态信息,可以充分挖掘相同情绪在不同模态间的互补关系,提高情绪识别系统的泛化能力,进而达到较高的情绪识别准确率。
84.近年来,最常用的情绪识别方法是采用基于深度学习的多模态情绪识别方法。其中,深度学习的方法,不需要储备太多相关领域的专业知识,也不需要定义提取的特征参数的实际物理含义,主要通过设计神经网络结构来进行特征提取,并识别相对应的情绪类别。这种情绪类别的识别方法,是一种端到端的识别方法,对神经网络结构建立一定的数学模型和算法,训练出连接权重参数,使网络能够实现基于数据的模式识别、函数映射等功能。利用带有情绪类别信息标注的训练样本,不断进行模型训练,可实现对语音和图像中蕴含的微弱情绪本质信息深度挖掘。利用深度学习方法进行情绪识别,不需要预先人工设计好的精细特征参数提取方法,较少研究者对相关专业的先验知识依赖,降低研究门槛,因此成为目前情绪识别领域中较为先进的技术方案。
85.具体来讲,基于深度学习的情绪识别方法,通常是采用多任务学习的网络结构,将多种模态的输入信号分别送入相对应的神经网络中,如时延神经网络(time delay neural networks,简称tdnn)、循环神经网络(recurrent neural network,简称rnn)等。通过多层信息连接和高层信息共享,将多模态输入信号抽象融合在一起,统一对所属情绪类别进行预测。但该识别方法的模型训练方式是以不同模态间抽象表征信息完全共享为前提条件的。如果模型网络结构无法聚合得到匹配的高维信息表达,未考虑到各模态的先验信息,也并未利用到各模特之间的互补信息,那么再采用多任务学习的训练方法,将会造成模型偏差,导致模型得到的识别结果不够准确。因此,如何提高情绪识别结果的准确率是目前亟待解决的技术问题。
86.为解决上述缺陷,本技术提供了一种情绪识别方法,首先获取待识别的目标视频,并从目标视频中分离出音频信号流和图像信号流,然后将音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;其中,情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;接着,可以根据第一初步情绪识别结果和第二初步情绪识别结果,确定目标用户对应的最终情绪识别结果。可见,由于本技术是先利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式构建了情绪识别模型,有效提升了模型的识别效果,从而在利用该情绪识别模型对目标视频中的目标用户进行情绪识别时,可以有效提高识别结果的准确率。
87.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
88.第一实施例
89.参见图1,为本实施例提供的一种情绪识别方法的流程示意图,该方法包括以下步骤:
90.s101:获取待识别的目标视频,并从目标视频中分离出音频信号流和图像信号流。
91.在本实施例中,将需要进行用户情绪识别的任一一段视频定义为目标视频。并将目标视频中包含的需要进行情绪识别的用户定义为目标用户,需要说明的是,本实施例不
限制目标视频的色彩类型,比如,目标视频可以是彩色视频、也可以是灰度视频等。并且,本实施例不限制目标视频的格式类型,比如,目标视频可以是mp4或wmv(windows media video)等视频格式。以及,本技术也不限制目标视频的场景类型,比如,目标视频可以是一个影视视频片段,或者也可以是一段教学领域的短视频等。
92.可以理解的是,目标视频可以根据实际需要,通过摄像头拍摄等方式获得,例如,利用教室安装的摄像头拍摄到的教师的教学视频、或者从视频流中截取的一段包含至少一个用户的视频等均可作为目标视频。
93.进一步的,在获取到目标视频后,可以利用现有或未来出现的视频流分离方法,对目标视频进行模态信号的分离处理,如可以利用开源计算机程序ffmpeg(fast forward mpeg)对目标视频进行模态信号的分离处理,以分别抽取出目标视频中包含的音频信号流和图像信号流,用以执行后续步骤s102-s103,实现对该目标视频中目标用户的情绪识别,以获得更为准确的识别结果。
94.s102:将音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;其中,情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的。
95.在本实施例中,通过步骤s101获取到待识别的目标视频,并从中分离出音频信号流和图像信号流后,为了准确识别出目标视频中目标用户的情绪类别,进一步可以将音频信号流和图像信号流分别输入预先构建的情绪识别模型,从而预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果,并将二者分别定义为s1和s2,用以执行后续步骤s103。
96.其中,需要说明的是,为了准确识别出目标视频中目标用户的情绪类别,本实施例预先构建了情绪识别模型,该模型是在分别利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的,这样,可以避免在现有采用的多任务学习训练方法中以音频和图像高维抽象情绪表征向量共享的前提条件,保证了多模态中的各个单模态系统可以训练效果。并且,针对音频和图像这两个模态信号成对存在的特点,分别计算了针对音频训练数据和图像训练数据的参数更新梯度,在参数更新梯度层面对音频和图像信号域下分别计算的梯度进行融合,从而避免了梯度计算中存在的跨音频和图像信号域问题,进而提高了模型的泛化能力,便于后续利用该情绪识别模型对目标视频中的目标用户进行情绪识别时,能够有效提升识别结果的准确率。
97.接下来,本实施例将对情绪识别模型的构建过程进行介绍,如图2所示,其示出了本实施例提供的构建情绪识别模型的过程示意图,该流程包括以下步骤a1-a4:
98.步骤a1:获取第一样本视频,并从第一样本视频中分离出第一样本音频信号流和第一样本图像信号流。
99.在本实施例中,为了构建情绪识别模型,需要预先进行大量的准备工作,首先,需要收集大量包含用户在说话时发出的语音和图像的视频,如可以通过麦克风阵列拾音和摄像头拍摄等,拾音设备可以是平板电脑,亦或是智能硬件设备,如智能音响、电视和空调等,并可以将收集到的各条视频数据分别作为第一样本视频。
100.并且,在获取到第一样本视频后,并不能直接用于训练生成情绪识别模型,而是需
要采用与步骤s101中从目标视频中分离出音频信号流和图像信号流类似的方法,如采用开源计算机程序ffmpeg,将目标视频替换为第一样本视频,即可提取出各条第一样本视频包含的第一样本音频信号流和第一样本图像信号流,用以执行后续步骤a2。
101.步骤a2:将第一样本音频信号流输入初始情绪识别模型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型。
102.其中,一种可选的实现方式是,初始情绪识别模型可以为(但不限于)包括多层卷积模块、残差模块、池化模块以及线性层(fully connection layer)的卷积神经网络(convolutional neural networks,简称cnn)。之所以优选cnn作为初始情绪识别模型,是因为cnn所拥有的局部感受野、权重共享、池化等模块,能够大幅降低网络结构的规模,很大程度上缓解网络模型因规模庞大而出现的过拟合问题。通过参数随机初始化生成的卷积神经网络,对输入的音频和图像等样本多模态信号进行情绪类别预测,该预测值和真实情绪类别的标注值之间的误差,用于驱动卷积神经网络的参数更新。经过若干轮的模型参数更新,获得情绪识别准确率较高的模型参数,即可完成模型训练。
103.具体来讲,在本实施例中,通过步骤a1获取到多个第一样本视频,并从各个第一样本视频中分离出第一样本音频信号流和第一样本图像信号流后,为了提高模型的识别效果,进一步的,对于每一从第一样本视频中分离出的第一样本音频信号流来说,首先可以将其按照预设固定时间窗长(具体取值不进行限定,可根据实际情况和经验值设定,比如可以将其取值为5秒)切分为各个音频信号段,若该第一样本音频信号流的时长不足,则可以将其复制多份进行拼接,再按照预设固定时间窗长进行切分,并将得到的这些音频信号段打包为该第一样本视频对应的一个音频训练数据块,并将其定义为d
audio
。
104.然后,可以从该音频训练数据块d
audio
中随机选取一批(batch)数量为n(n为大于0的正整数)的音频信号段,如图2所示,并提取出这n个音频信号段各自对应的声学特征。其中,在提取这n个音频信号段各自对应的声学特征时,首先需要对其中每一音频信号段进行分帧处理,得到对应的语音帧序列,然后再对分帧后的语音帧序列进行预加重;进而再依次提取出每一语音帧的声学特征,其中,该声学特征指的是用于表征对应语音帧的声学信息的特征数据,并将其维度定义为d,具体内容格式和维度取值不做限定。一种优选的实现方式是,这n个音频信号段各自对应的声学特征可以为但不限于梅尔倒谱系数(mel-scale frequency cepstral coefficients,简称mfcc)特征或滤波器组(filterbank)特征等;维度d可以为64维等。
105.需要说明的是,本技术实施例并不限定这n个音频信号段各自对应的声学特征的提取方法,也不限定具体的提取过程,可根据实际情况选择适当的提取方法,以及进行相应的特征提取操作。
106.接着,可以将这n个音频信号段各自对应的声学特征输入初始情绪识别模型(如cnn)的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,确定出第一样本视频中第一样本用户对应的每一预设情绪类别对应的概率值,并将其定义为q
audio,n
,该概率值越大,表明该第一样本用户为对应预设情绪类别(该概率值对应的情绪类别)的程度越高,反之亦然,即可得到第一样本视频中第一样本用户的第一情绪预测结果。
107.例如,假设预设情绪类别分别为:“喜悦”、“信任”、“害怕”、“惊讶”、“难过”、“恶心”、“生气”、“期待”。模型输出的第一样本用户的第一情绪预测结果为一个8维的情绪类别
预测向量[0.14,0.05,0.03,0.31,0.05,0.05,0.32,0.05],其中,每维向量值代表了每一预设情绪类别对应的概率值,该概率值表征了第一样本用户属于对应情绪类别的程度,概率值越大,表明第一样本用户为该情绪类别的程度越高,反之,则表明第一样本用户为该情绪类别的程度越低。
[0108]
接着,可以通过将第一样本用户的第一情绪预测结果与第一样本用户的真实情绪所属类别进行对比,计算出第一损失函数,并根据该第一损失函数,通过误差反向传播(error back propagation,简称bp)算法,计算模型参数更新的第一梯度(此处将其定义为gradient1),完成一次基于第一样本音频信号流的网络参数更新,得到参数更新后的卷积神经网络(cnn),作为第一初步情绪识别模型。
[0109]
其中,第一损失函数的函数内容本技术不做限定,可根据实际情况和经验值进行设定,一种优选的实现方式是,可以将第一损失函数设定为交叉熵(cross entropy,简称ce)损失函数,具体计算公式如下:
[0110][0111]
其中,表示第一样本用户的真实情绪类别i对应的概率值;l
audi
o表示第一损失函数。
[0112]
步骤a3:将第一样本图像信号流输入第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型。
[0113]
在本实施例中,通过步骤a1获取到多个第一样本视频,并从各个第一样本视频中分离出第一样本音频信号流和第一样本图像信号流后,为了提高模型的识别效果,进一步的,对于每一从第一样本视频中分离出的第一样本图像信号流来说,首先可以将其按照预设固定时间窗长(具体取值不进行限定,可根据实际情况和经验值设定,比如可以将其取值为5秒,仅需保证与第一样本音频信号流被切分时所采用的预设固定时间窗长一致即可)切分为各个图像信号段,若该第一样本图像信号流的时长不足,则可以将其复制多份进行拼接,再按照预设固定时间窗长进行切分,并将得到的这些图像信号段打包为该第一样本视频对应的一个图像训练数据块,并将其定义为d
image
。
[0114]
然后,可以从该图像训练数据块d
image
中选取出一批(batch)与上述n个音频信号段在时间上相对应的n个图像信号段,如图2所示,并提取出这n个图像信号段各自对应的图像特征。需要说明的是,本技术实施例并不限定这n个图像信号段各自对应的图像特征的提取方法,也不限定具体的提取过程,可根据实际情况选择适当的提取方法,以及进行相应的特征提取操作,在此不再赘述。
[0115]
接着,可以将这n个图像信号段各自对应的图像特征(如特征图或特征向量)输入第一初步情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,确定出第一样本视频中第一样本用户对应的每一预设情绪类别对应的概率值,并将其定义为该概率值越大,表明该第一样本用户为对应预设情绪类别(该概率值对应的情绪类别)的程度越高,反之亦然,即可得到第一样本视频中第一样本用户的第二情绪预测结果。
[0116]
进而,可以通过将第一样本用户的第二情绪预测结果与第一样本用户的真实情绪所属类别进行对比,计算出第二损失函数,并根据该第二损失函数,通过误差反向传播(bp)
算法,计算模型参数更新的第二梯度(此处将其定义为gradient2),完成一次基于第一样本图像信号流的网络参数更新,得到第二初步情绪识别模型,如图2所示。
[0117]
其中,第二损失函数的函数内容本技术也不做限定,可根据实际情况和经验值进行设定,一种优选的实现方式是,可以将第二损失函数设定为交叉熵(ce)损失函数,具体计算公式如下:
[0118][0119]
其中,表示第一样本用户的真实情绪类别i对应的概率值;l
image
表示第二损失函数。
[0120]
步骤a4:对第一梯度和第二梯度进行加权求和计算,并利用得到的计算结果对初始情绪识别模型进行参数更新,得到训练后的情绪识别模型。
[0121]
在本实施例中,通过步骤a2得到第一梯度gradient1,以及通过步骤a3得到第二梯度gradient2后,进一步的,可以对第一梯度gradient1和第二梯度gradient2进行加权求和计算,得到全局网络参数更新的梯度,具体计算公式如下:
[0122]
gradient
global
=α
·
gradient1+(1-α)
·
gradient2[0123]
其中,gradient
global
表示全局网络参数更新的梯度;α表示融合系数,具体取值不做限定,可根据实际情况和经验值进行设定,比如可以将α取值为0.5等。
[0124]
在此基础上,进一步的,可以利用得到的全局网络参数更新的梯度gradient
global
对初始情绪识别模型(如cnn)进行参数更新,得到经过这一批(batch)音频信号段和图像信号段训练后的情绪识别模型。
[0125]
依次类推,可以逐批(batch)从音频训练数据块d
audio
和图像训练数据块d
image
中选取在时间上相对应的音频信号段和图像信号段进行模型的叠加训练,以完成该第一样本视频对应的音频训练数据块d
audio
和图像训练数据块d
image
中所有批在时间上相对应的音频信号段和图像信号段的模型参数(如卷积神经网络cnn参数)的更新。
[0126]
类似的,在进行模型训练时,可以依次从训练数据中提取一个第一样本视频作为模型输入,对应的第一样本用户的情绪识别结果作为输出,按照上述训练过程,进行多轮(如10轮)模型训练,并将每轮训练得到的情绪识别结果与对应的人工标注结果进行比较,并根据二者的差异对模型参数进行更新,直至满足预设的条件,比如各损失函数的取值很小且基本不变,则停止模型参数的更新,完成情绪识别模型的训练,生成一个训练好的情绪识别模型,如图2所示。
[0127]
需要说明的是,通过执行上述步骤a1-a4,可以实现对模型先样本音频信号流再样本图像信号流的先后交替训练,类似的,另一种模型的训练方式是,还可以对模型进行先样本图像信号流再样本音频信号流的先后交替训练,具体训练流程包括以下步骤b1-b4:
[0128]
步骤b1:获取第二样本视频,并从第二样本视频中分离出第二样本音频信号流和第二样本图像信号流。
[0129]
步骤b2:将第二样本图像信号流输入初始情绪识别模型,通过调整第三损失函数,计算模型参数更新的第三梯度,并训练得到第三初步情绪识别模型。
[0130]
步骤b3:将第二样本音频信号流输入第三初步情绪识别模型,通过调整第四损失函数,计算模型参数更新的第四梯度,并训练得到第四初步情绪识别模型。
[0131]
步骤b4:对第三梯度和第四梯度进行加权求和计算,并利用得到的计算结果对初始情绪识别模型进行参数更新,得到训练后的情绪识别模型。
[0132]
需要说明的是,步骤b1-b4的实现过程与上述步骤a1-a4相类似,仅需将第一样本视频、第一样本音频信号流、第一样本图像信号流、第一梯度、第一初步情绪识别模型、第二初步情绪识别模型、第二梯度分别依次对应替换为第二样本视频、第二样本音频信号流、第二样本图像信号流、第三梯度、第三初步情绪识别模型、第四梯度、第四初步情绪识别模型,即得到训练后的情绪识别模型,具体实现过程在此不再赘述。
[0133]
在此基础上,在根据第一样本视频或者第二样本视频训练生成情绪识别模型后,进一步的,还可以利用验证视频对生成的情绪识别模型进行验证。具体验证过程可以包括下述步骤(1)-(4):
[0134]
步骤(1):获取验证视频,并从验证视频中分离出验证音频信号流和验证图像信号流。
[0135]
在本实施例中,为了实现对情绪识别模型进行验证,首先需要获取验证视频,如可以在用户允许的情况下,采集到包含不同用户在说话时发出的语音和图像的1000条视频作为验证视频,该验证视频指的是可以用来进行情绪识别模型验证的视频信息,在获取到这些验证视频及每条验证视频中验证用户对应的情绪识别标签后,可从这些验证视频中分离出验证音频信号流和验证图像信号流,用以继续执行后续步骤(2)。
[0136]
步骤(2):将验证音频信号流和验证图像信号流分别输入情绪识别模型,得到验证视频中验证用户对应的第一情绪验证结果和第二情绪验证结果。
[0137]
通过步骤(1)获取到验证视频并从中分离出验证音频信号流和验证图像信号流后,进一步的,可以将验证音频信号流和验证图像信号流(各自对应的特征)分别输入情绪识别模型,获得验证视频中验证用户对应的第一情绪验证结果和第二情绪验证结果,用以执行后续步骤(3)。
[0138]
步骤(3):根据第一情绪验证结果和第二情绪验证结果,确定验证用户对应的最终情绪验证结果。
[0139]
通过步骤(2)得到验证视频中验证用户对应的第一情绪验证结果和第二情绪验证结果,可以对第一情绪验证结果和第二情绪验证结果进行求平均计算,以根据计算结果确定出验证用户对应的最终情绪验证结果。
[0140]
步骤(4):当验证用户对应的最终情绪验证结果与真实情绪不一致时,将验证视频重新作为第一样本视频或第二样本视频,对情绪识别模型进行更新。
[0141]
通过步骤(3)获得验证用户对应的最终情绪验证结果后,若该最终情绪验证结果与验证用户对应的真实情绪识别结果(如人工标注的情绪标记结果)不一致,则可以将验证视频重新作为第一样本视频或第二样本视频,对情绪识别模型进行参数更新。
[0142]
通过上述实施例,可以利用验证视频对情绪识别模型进行有效验证,当验证视频中验证用户的最终情绪验证结果与真实情绪识别结果(如人工标注的情绪标记结果)不一致时,可以及时调整更新情绪识别模型,进而有助于提高情绪识别模型的识别精度和准确性。
[0143]
s103:根据第一初步情绪识别结果和第二初步情绪识别结果,确定目标用户对应的最终情绪识别结果。
[0144]
在本实施例中,通过步骤s102得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果,并将二者分别定义为s1和s2后,进一步可以对第一初步情绪识别结果和第二初步情绪识别结果进行数据融合处理,并根据处理结果,确定出目标用户对应的最终情绪识别结果。
[0145]
具体来讲,一种可选的实现方式是,可以对第一情绪验证结果s1和第二情绪验证结果s2进行求平均计算,得到计算结果s,即再将计算结果s中最高维度对应的情绪类别,或者超过预设阈值(具体取值不做限定)的维度对应的情绪类别,均作为目标用户对应的最终情绪识别结果,即作为目标用户所属的情绪类别。
[0146]
举例说明:假设预设情绪类别分别为:“喜悦”、“信任”、“害怕”、“惊讶”、“难过”、“恶心”、“生气”、“期待”。而模型输出的第一情绪验证结果s1为[0.14,0.05,0.03,0.31,0.05,0.05,0.32,0.05]、第二情绪验证结果s2为[0.14,0.05,0.02,0.32,0.05,0.05,0.32,0.05],则对第一情绪验证结果s1和第二情绪验证结果s2进行求平均计算,得到计算结果s为[0.14,0.05,0.025,0.315,0.05,0.05,0.32,0.05],这样,可以从中选择出最高概率值(0.315)对应的情绪类型“惊讶”作为目标用户所属的情绪类别。
[0147]
综上,本实施例提供的一种情绪识别方法,首先获取待识别的目标视频,并从目标视频中分离出音频信号流和图像信号流,然后将音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;其中,情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;接着,可以根据第一初步情绪识别结果和第二初步情绪识别结果,确定目标用户对应的最终情绪识别结果。可见,由于本技术是先利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式构建了情绪识别模型,有效提升了模型的识别效果,从而在利用该情绪识别模型对目标视频中的目标用户进行情绪识别时,可以有效提高识别结果的准确率。
[0148]
第二实施例
[0149]
本实施例将对一种情绪识别装置进行介绍,相关内容请参见上述方法实施例。
[0150]
参见图3,为本实施例提供的一种情绪识别装置的组成示意图,该装置300包括:
[0151]
第一获取单元301,用于获取待识别的目标视频,并从所述目标视频中分离出音频信号流和图像信号流;
[0152]
预测单元302,用于将所述音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到所述目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;所述情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;
[0153]
第一确定单元303,用于根据所述第一初步情绪识别结果和第二初步情绪识别结果,确定所述目标用户对应的最终情绪识别结果。
[0154]
在本实施例的一种实现方式中,所述装置还包括:
[0155]
第二获取单元,用于获取第一样本视频,并从所述第一样本视频中分离出第一样本音频信号流和第一样本图像信号流;
[0156]
第一训练单元,用于将所述第一样本音频信号流输入初始情绪识别模型,通过调
整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型;
[0157]
第二训练单元,用于将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型;
[0158]
第一更新单元,用于对所述第一梯度和第二梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。
[0159]
在本实施例的一种实现方式中,所述第一训练单元包括:
[0160]
第一切分子单元,用于将所述第一样本音频信号流按照预设固定时间窗长,切分为音频信号段,并将所有所述音频信号段打包为音频训练数据块;
[0161]
第一提取子单元,用于从所述音频训练数据块中选取n个音频信号段,并提取出所述n个音频信号段各自对应的声学特征;所述n为大于0的正整数;
[0162]
第一预测子单元,用于将所述n个音频信号段各自对应的声学特征输入初始情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第一情绪预测结果;
[0163]
第一计算子单元,用于通过将所述第一样本用户的第一情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第一损失函数;
[0164]
第一训练子单元,用于根据所述第一损失函数,通过误差反向传播算法,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型。
[0165]
在本实施例的一种实现方式中,所述第二训练单元包括:
[0166]
第二切分子单元,用于将所述第一样本图像信号流按照所述预设固定时间窗长,切分为图像信号段,并将所有所述图像信号段打包为图像训练数据块;
[0167]
第二提取子单元,用于从所述图像训练数据块中选取与所述n个音频信号段在时间上相对应的n个图像信号段,并提取出所述n个图像信号段各自对应的图像特征;
[0168]
第二预测子单元,用于将所述n个图像信号段各自对应的图像特征输入所述第一初步情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第二情绪预测结果;
[0169]
第二计算子单元,用于通过将所述第一样本用户的第二情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第二损失函数;
[0170]
第二训练子单元,用于根据所述第二损失函数,通过误差反向传播算法,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型。
[0171]
在本实施例的一种实现方式中,所述第一损失函数和第二损失函数均为交叉熵损失函数。
[0172]
在本实施例的一种实现方式中,所述装置还包括:
[0173]
第三获取单元,用于获取第二样本视频,并从所述第二样本视频中分离出第二样本音频信号流和第二样本图像信号流;
[0174]
第三训练单元,用于将所述第二样本图像信号流输入初始情绪识别模型,通过调整第三损失函数,计算模型参数更新的第三梯度,并训练得到第三初步情绪识别模型;
[0175]
第四训练单元,用于将所述第二样本音频信号流输入所述第三初步情绪识别模型,通过调整第四损失函数,计算模型参数更新的第四梯度,并训练得到第四初步情绪识别
模型;
[0176]
第二更新单元,用于对所述第三梯度和第四梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。
[0177]
在本实施例的一种实现方式中,所述初始情绪识别模型为卷积神经网络cnn。
[0178]
在本实施例的一种实现方式中,所述装置还包括:
[0179]
第三获取单元,用于获取验证视频,并从所述验证视频中分离出验证音频信号流和验证图像信号流;
[0180]
输入单元,用于将所述验证音频信号流和验证图像信号流分别输入所述情绪识别模型,得到所述验证视频中验证用户对应的第一情绪验证结果和第二情绪验证结果;
[0181]
第二确定单元,用于根据所述第一情绪验证结果和第二情绪验证结果,确定所述验证用户对应的最终情绪验证结果;
[0182]
第三更新单元,用于当所述验证用户对应的最终情绪验证结果与真实情绪不一致时,将所述验证视频重新作为所述第一样本视频或第二样本视频,对所述情绪识别模型进行更新。
[0183]
进一步地,本技术实施例还提供了一种情绪识别设备,包括:处理器、存储器、系统总线;
[0184]
所述处理器以及所述存储器通过所述系统总线相连;
[0185]
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述情绪识别方法的任一种实现方法。
[0186]
进一步地,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述情绪识别方法的任一种实现方法。
[0187]
进一步地,本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述情绪识别方法的任一种实现方法。
[0188]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0189]
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0190]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备
所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0191]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种情绪识别方法,其特征在于,包括:获取待识别的目标视频,并从所述目标视频中分离出音频信号流和图像信号流;将所述音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到所述目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;所述情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;根据所述第一初步情绪识别结果和第二初步情绪识别结果,确定所述目标用户对应的最终情绪识别结果。2.根据权利要求1所述的方法,其特征在于,所述情绪识别模型的构建方式如下:获取第一样本视频,并从所述第一样本视频中分离出第一样本音频信号流和第一样本图像信号流;将所述第一样本音频信号流输入初始情绪识别模型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型;将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型;对所述第一梯度和第二梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。3.根据权利要求2所述的方法,其特征在于,所述将所述第一样本音频信号流输入初始情绪识别模型,通过调整第一损失函数,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型,包括:将所述第一样本音频信号流按照预设固定时间窗长,切分为音频信号段,并将所有所述音频信号段打包为音频训练数据块;从所述音频训练数据块中选取n个音频信号段,并提取出所述n个音频信号段各自对应的声学特征;所述n为大于0的正整数;将所述n个音频信号段各自对应的声学特征输入初始情绪识别模型的多层卷积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第一情绪预测结果;通过将所述第一样本用户的第一情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第一损失函数;根据所述第一损失函数,通过误差反向传播算法,计算模型参数更新的第一梯度,并训练得到第一初步情绪识别模型。4.根据权利要求3所述的方法,其特征在于,所述将所述第一样本图像信号流输入所述第一初步情绪识别模型,通过调整第二损失函数,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型,包括:将所述第一样本图像信号流按照所述预设固定时间窗长,切分为图像信号段,并将所有所述图像信号段打包为图像训练数据块;从所述图像训练数据块中选取与所述n个音频信号段在时间上相对应的n个图像信号段,并提取出所述n个图像信号段各自对应的图像特征;将所述n个图像信号段各自对应的图像特征输入所述第一初步情绪识别模型的多层卷
积模块、残差模块、池化模块以及线性层进行情绪预测,得到所述第一样本视频中第一样本用户的第二情绪预测结果;通过将所述第一样本用户的第二情绪预测结果与所述第一样本用户的真实情绪进行对比,计算第二损失函数;根据所述第二损失函数,通过误差反向传播算法,计算模型参数更新的第二梯度,并训练得到第二初步情绪识别模型。5.根据权利要求2所述的方法,其特征在于,所述第一损失函数和第二损失函数均为交叉熵损失函数。6.根据权利要求1所述的方法,其特征在于,所述情绪识别模型的构建方式如下:获取第二样本视频,并从所述第二样本视频中分离出第二样本音频信号流和第二样本图像信号流;将所述第二样本图像信号流输入初始情绪识别模型,通过调整第三损失函数,计算模型参数更新的第三梯度,并训练得到第三初步情绪识别模型;将所述第二样本音频信号流输入所述第三初步情绪识别模型,通过调整第四损失函数,计算模型参数更新的第四梯度,并训练得到第四初步情绪识别模型;对所述第三梯度和第四梯度进行加权求和计算,并利用得到的计算结果对所述初始情绪识别模型进行参数更新,得到训练后的所述情绪识别模型。7.根据权利要求2或6所述的方法,其特征在于,所述初始情绪识别模型为卷积神经网络cnn。8.根据权利要求2或6所述的方法,其特征在于,所述方法还包括:获取验证视频,并从所述验证视频中分离出验证音频信号流和验证图像信号流;将所述验证音频信号流和验证图像信号流分别输入所述情绪识别模型,得到所述验证视频中验证用户对应的第一情绪验证结果和第二情绪验证结果;根据所述第一情绪验证结果和第二情绪验证结果,确定所述验证用户对应的最终情绪验证结果;当所述验证用户对应的最终情绪验证结果与真实情绪不一致时,将所述验证视频重新作为所述第一样本视频或第二样本视频,对所述情绪识别模型进行更新。9.一种情绪识别装置,其特征在于,包括:第一获取单元,用于获取待识别的目标视频,并从所述目标视频中分离出音频信号流和图像信号流;预测单元,用于将所述音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到所述目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;所述情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;第一确定单元,用于根据所述第一初步情绪识别结果和第二初步情绪识别结果,确定所述目标用户对应的最终情绪识别结果。10.一种情绪识别设备,其特征在于,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过所述系统总线相连;所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被
所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。
技术总结
本申请公开了一种情绪识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标视频,并从中分离出音频信号流和图像信号流,然后将音频信号流和图像信号流分别输入预先构建的情绪识别模型,预测得到目标视频中目标用户对应的第一初步情绪识别结果和第二初步情绪识别结果;其中,情绪识别模型是在利用样本音频信号流和样本图像信号流进行交替训练后,再通过梯度融合的参数更新方式训练得到的;接着根据第一初步情绪识别结果和第二初步情绪识别结果,确定目标用户的最终情绪识别结果。由于本申请是先利用模态相关的训练方法和梯度融合的参数更新方式构建了情绪识别模型,从而在利用该模型进行情绪识别时,能够提高识别结果的准确率。别结果的准确率。别结果的准确率。
技术研发人员:殷兵 李晋 高天 方昕 刘俊华
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2023.06.01
技术公布日:2023/9/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/