基于图像的情绪识别方法、装置、设备和存储介质
未命名
09-15
阅读:82
评论:0

1.本技术涉及深度学习技术领域,尤其涉及一种基于图像的情绪识别方法、装置、设备和存储介质。
背景技术:
2.随着深度学习的发展,其不仅极大地促进了人工智能和机器学习的发展,也促进了其他领域的发展,产生了深度学习领域与其他领域的交叉研究领域,如深度学习领域与心理学领域交叉的技术研究领域等。其中,心理学领域中有关情绪数据的研究,是一个主要的心理学研究方向,其主要研究人的情绪状态,如积极情绪和消极情绪等。
3.相关技术中,有关情绪状态的研究,通常是先由用户基于标准量表进行自行打分,然后由专业人员根据用户的打分情况,评估该用户的情绪状态。该方式受用户、专业人员的主观思维影响较大,不仅耗时费力,还存在准确率低的问题。
技术实现要素:
4.本技术提供一种基于图像的情绪识别方法、装置、设备和存储介质,用以解决现有情绪识别方法准确率低的问题。
5.第一方面,本技术提供一种基于图像的情绪识别方法,包括:
6.获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;
7.将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;
8.针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一pad值;并确定描述文本对应的第二pad值;
9.根据多个第一pad值和第二pad值,确定目标pad值;
10.根据目标pad值,确定目标用户的情绪状态。
11.一种可能的实施方式中,根据多个第一pad值和第二pad值,确定目标pad值,包括:基于预设公式,对多个第一pad值和第二pad值进行加权处理,得到目标pad值;其中,预设公式为:
[0012][0013]
其中,yi表示第i类情绪风格的图像字幕对应的第一pad值,ai表示第i类情绪风格对应的量表分数,r0表示第二pad值,n表示情绪风格的种类总数,a表示归一化系数。
[0014]
一种可能的实施方式中,确定情绪风格的图像字幕对应的第一pad值,包括:确定情绪风格的图像字幕对应的第一语义向量,第一语义向量包含多个第一语义元素;针对多个第一语义元素中的每个第一语义元素,确定第一语义元素和第二语义向量中的每个第二
语义元素的第一语义相似度,第二语义向量为基于情绪词典确定的,情绪词典包括多个情绪词组;在第二语义元素中,确定与第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素;将第一目标语义元素对应的第一语义相似度和第一目标语义元素对应的pad值进行加权处理,得到第一pad值。
[0015]
一种可能的实施方式中,确定描述文本对应的第二pad值,包括:确定描述文本对应的第三语义向量,第三语义向量包含多个第三语义元素;针对多个第三语义元素中的每个第三语义元素,确定第三语义元素和第二语义向量中的每个第二语义元素的第二语义相似度;在第二语义元素中,确定与第三语义元素的第二语义相似度满足第二设定条件的第二目标语义元素;将第二目标语义元素对应的第二语义相似度和第二目标语义元素对应的pad值进行加权处理,得到第二pad值。
[0016]
一种可能的实施方式中,基于图像的情绪识别方法中的图像字幕生成模型可以包括卷积神经网络和基于注意力机制的风格化文本生成模块,风格化文本生成模块包含gru单元、编码子模块和解码子模块。将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕,包括:将目标图像输入至卷积神经网络进行特征提取,得到目标图像对应的图像特征;将图像特征输入gru单元进行语义提取,得到第四语义向量;将第四语义向量输入编码子模块进行编码处理,得到编码向量;将编码向量输入解码子模块进行解码处理,得到解码向量;将通过注意力机制处理的编码向量和解码向量进行级联处理,得到目标图像对应的多种情绪风格的图像字幕。
[0017]
一种可能的实施方式中,基于图像的情绪识别方法中的图像字幕生成模型是可以通过以下方式训练得到的:获取样本数据,样本数据包括样本图像和样本图像对应的参考图像字幕以及风格化文本数据,风格化文本数据包括风格化文本和风格化文本对应的参考风格标签;将样本图像输入至图像字幕生成模型,得到样本图像对应的输出图像字幕;基于风格指示器,根据风格化文本数据,调整输出图像字幕;确定调整后的输出图像字幕与参考图像字幕的第一损失值;根据第一损失值,调整图像字幕生成模型。
[0018]
一种可能的实施方式中,基于图像的情绪识别方法还包括:采用分类模型对生成的多种情绪风格的图像字幕进行风格化文本分类,用于确定图像字幕符合目标图像的风格。其中,分类模型是可以通过以下方式训练得到的:获取风格化文本数据;将风格化文本数据中的风格化文本输入至分类模型,得到风格化文本对应的输出风格标签;确定输出风格标签与风格化文本数据中的参考风格标签的第二损失值;根据第二损失值,调整分类模型。
[0019]
第二方面,本技术提供一种基于图像的情绪识别装置,包括:
[0020]
获取模块,用于获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;
[0021]
生成模块,用于将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;
[0022]
第一确定模块,用于针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一pad值;并确定描述文本对应的第二pad值;
[0023]
第二确定模块,用于根据多个第一pad值和第二pad值,确定目标pad值;
[0024]
第三确定模块,用于根据目标pad值,确定目标用户的情绪状态。
[0025]
一种可能的实施方式中,第二确定模块可以具体用于:基于预设公式,对多个第一pad值和第二pad值进行加权处理,得到目标pad值。其中,预设公式为:
[0026][0027]
其中,yi表示第i类情绪风格的图像字幕对应的第一pad值,ai表示第i类情绪风格对应的量表分数,r0表示第二pad值,n表示情绪风格的种类总数,a表示归一化系数。
[0028]
一种可能的实施方式中,第一确定模块可以具体用于:确定情绪风格的图像字幕对应的第一语义向量,第一语义向量包含多个第一语义元素;针对多个第一语义元素中的每个第一语义元素,确定第一语义元素和第二语义向量中的每个第二语义元素的第一语义相似度,第二语义向量为基于情绪词典确定的,情绪词典包括多个情绪词组;在第二语义元素中,确定与第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素;将第一目标语义元素对应的第一语义相似度和第一目标语义元素对应的pad值进行加权处理,得到第一pad值。
[0029]
一种可能的实施方式中,第一确定模块还可以用于:确定描述文本对应的第三语义向量,第三语义向量包含多个第三语义元素;针对多个第三语义元素中的每个第三语义元素,确定第三语义元素和第二语义向量中的每个第二语义元素的第二语义相似度;在第二语义元素中,确定与第三语义元素的第二语义相似度满足第二设定条件的第二目标语义元素;将第二目标语义元素对应的第二语义相似度和第二目标语义元素对应的pad值进行加权处理,得到第二pad值。
[0030]
一种可能的实施方式中,基于图像的情绪识别装置中的图像字幕生成模型可以包括卷积神经网络和基于注意力机制的风格化文本生成模块,风格化文本生成模块包含gru单元、编码子模块和解码子模块。其中,基于图像的情绪识别装置中的生成模块可以具体用于:将目标图像输入至卷积神经网络进行特征提取,得到目标图像对应的图像特征;将图像特征输入gru单元进行语义提取,得到第四语义向量;将第四语义向量输入编码子模块进行编码处理,得到编码向量;将编码向量输入解码子模块进行解码处理,得到解码向量;将通过注意力机制处理的编码向量和解码向量进行级联处理,得到目标图像对应的多种情绪风格的图像字幕。
[0031]
一种可能的实施方式中,基于图像的情绪识别装置中的图像字幕生成模型是可以通过以下方式训练得到的:获取样本数据,样本数据包括样本图像和样本图像对应的参考图像字幕以及风格化文本数据,风格化文本数据包括风格化文本和风格化文本对应的参考风格标签;将样本图像输入至图像字幕生成模型,得到样本图像对应的输出图像字幕;基于风格指示器,根据风格化文本数据,调整输出图像字幕;确定调整后的输出图像字幕与参考图像字幕的第一损失值;根据第一损失值,调整图像字幕生成模型。
[0032]
一种可能的实施方式中,基于图像的情绪识别装置还包括:采用分类模型对生成的多种情绪风格的图像字幕进行风格化文本分类,用于确定图像字幕符合目标图像的风格。其中,分类模型是可以通过以下方式训练得到的:获取风格化文本数据;将风格化文本数据中的风格化文本输入至分类模型,得到风格化文本对应的输出风格标签;确定输出风格标签与风格化文本数据中的参考风格标签的第二损失值;根据第二损失值,调整分类模
型。
[0033]
第三方面,本技术提供一种电子设备,包括:存储器和处理器。存储器用于存储程序指令;处理器用于调用存储器中的程序指令执行第一方面的基于图像的情绪识别方法。
[0034]
第四方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被执行时,实现第一方面的基于图像的情绪识别方法。
[0035]
第五方面,本技术提供一种计算机程序产品,计算机程序产品包含计算机程序,计算机程序被处理器执行时用于实现第一方面的基于图像的情绪识别方法。
[0036]
本技术提供的基于图像的情绪识别方法、装置、设备和存储介质,通过获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一pad值;并确定描述文本对应的第二pad值;根据多个第一pad值和第二pad值,确定目标pad值;根据目标pad值,确定目标用户的情绪状态。其中,通过使用图像字幕生成模型,在保持语义向量准确性的基础上,得到了多种情绪风格的图像字幕,解决了图像字幕风格化单一的问题,更有利于识别不同用户的不同情绪状态;另外,根据多个第一pad值和第二pad值,确定目标pad值,即结合图像模态和文本模态确定目标pad值,并根据目标pad值识别用户的情绪状态,有利于提高识别结果的准确率。
附图说明
[0037]
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
[0038]
图1为本技术一实施例提供的应用场景示意图;
[0039]
图2为本技术一实施例提供的基于图像的情绪识别方法的流程示意图;
[0040]
图3为本技术一实施例提供的图像字幕生成过程的示意图;
[0041]
图4为本技术另一实施例提供的基于图像的情绪识别方法的流程示意图;
[0042]
图5为本技术一实施例提供的基于图像的情绪识别方法的模型训练示意图;
[0043]
图6为本技术一实施例提供的基于图像的情绪识别装置的结构示意图;
[0044]
图7为本技术一实施例提供的电子设备的结构示意图。
[0045]
通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
[0046]
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
[0047]
本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以
互换,以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、产品或设备固有的其它步骤或单元。
[0048]
随着深度学习的快速发展,部分研究人员开始将深度学习应用到心理学领域。但心理学领域中有关情绪状态识别的研究仍以标准量表打分为主,缺少基于图像模态的情绪状态识别方法或情绪状态判断方法。
[0049]
针对上述问题,本技术提出一种基于图像的情绪识别方法,该方法引入了风格化图像字幕生成模型,在保证图像字幕语义准确度的同时,实现了不同风格的图像字幕生成,解决了图像字幕风格化单一的问题。同时,还结合生成的风格化图像字幕和用户针对图像的文本描述,基于pad三维情感模型,实现用户的情绪状态识别,创新地提出了一种结合图像模态和文本模态识别用户情绪状态的方法,可以提高识别结果的准确率。
[0050]
其中,图像字幕生成(image caption),是当今深度学习领域的一大主流任务,通常包含计算机视觉、自然语言处理等多个方面的综合问题。简单来说,图像字幕生成就是将图像概括成文本,即,将图像中的目标、目标所包含的目标信息以及目标间的相互关系通过文本进行描述。具体地,在这一任务中,需要在检测图像中的目标后,得到目标所包含的目标信息,并根据目标信息,理解目标间的相互关系,以及通过得到的目标信息和目标间的相互关系,将图像用合理的语言进行表达。
[0051]
目前的图像字幕生成任务,有两个主要的提升目标,分别是提升图像字幕语义表征的准确度和图像字幕的风格化。其中,在提升图像字幕语义表征准确度方面,已经取得了很大的进展,但在风格化图像字幕生成方面,大多数工作都是针对单样式的风格化图像字幕,缺少多种风格化类型的图像字幕生成。因此,如何更高效地生成风格化图像字幕也是本技术研究的重点之一。
[0052]
进一步地,可以将图像字幕生成方法引入其他学科领域,如心理学领域,成为深度学习与心理学交叉领域中的一个重要研究。即,将生成的风格化图像字幕引入心理学领域,进行情绪状态识别。如,利用迁移学习的方式,将情绪图像转化为文本信息,进而进行文本情感分析,可以识别出用户看到情绪图像时的情绪状态。其中,情绪图像是指可以引起用户产生情绪的图像。
[0053]
另外,结合生成的风格化图像字幕进行情绪状态识别时,本技术的研究重点在于整体情绪状态识别流程的构建和神经网络框架的设计。
[0054]
图1为本技术一实施例提供的应用场景示意图。如图1所示,该应用场景包括图像11、用户12和电脑13,其中,用户12在看到图像11时,一般会产生情绪变化,也会有针对图像11的描述文本产生。可以将图像11与描述文本一起输入电脑13,电脑13中的存储器可以存储图像11、描述文本以及对图像11与描述文本进行相应处理的程序指令。相应地,电脑13中的处理器可以调用相关的程序指令,对存储器中存储的图像11和描述文本进行相应的处理,并得到针对用户12的情绪状态识别结果。
[0055]
示例地,图像11和用户12的个数均可以为至少一个。在实际应用中,当同时有多个用户针对图像11产生情绪变化,并进行文本描述后,电脑13中的处理器,可以调用相关的程序指令,进行批量处理,快速识别出多个用户的情绪状态,提高识别效率。
[0056]
需说明的是,电脑13也可以替换为笔记本、服务器集群或其他具有一定算力的计算设备,或者,也可以是用户使用手机拍照,并针对拍照内容进行文本描述后,上传到云端,由云端服务器调用相关的程序指令进行情绪状态识别等。
[0057]
下面结合图1的应用场景,参考图2来描述根据本技术示例性实施方式的基于图像的情绪识别方法。需要注意的是,上述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式不受图1所示应用场景的限制。
[0058]
图2为本技术一实施例提供的基于图像的情绪识别方法的流程示意图。如图2所示,本技术实施例中的基于图像的情绪识别方法包括以下步骤:
[0059]
s201:获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像。
[0060]
在该步骤中,目标图像可通过手机、相机等具有拍照功能的设备获得,也可以直接从网上下载等。另外,可以寻找目标用户,对获得的目标图像进行描述,得到描述文本。
[0061]
在获得目标图像和目标用户针对目标图像的描述文本后,可进行后续针对目标用户的情绪状态识别等。
[0062]
示例地,可以是一个目标用户针对一个目标图像进行描述,获得一个描述文本后,识别该目标用户的情绪状态;也可以是多个目标用户针对一个目标图像进行描述,获得多个描述文本后,同时识别多个目标用户的情绪状态;还可以是同一个目标用户针对多个目标图像进行描述,获得多个描述文本后,识别该目标用户的情绪状态,等等。
[0063]
可以理解的是,在实际情况中,不同的目标用户观看同一个目标图像时,是会引起不同的情绪状态的。如,同一个目标用户观看多个积极风格的目标图像后,可能会由消极的情绪状态转变为积极的情绪状态;或者,同一个目标用户观看多个消极风格的目标图像后,可能会由积极的情绪状态转变为消极的情绪状态等。
[0064]
另外,还可以是多种不同风格的图像混合在一起,组成目标图像,由不同的目标用户观看后,识别不同目标用户从第一张目标图像观看到最后一张目标图像的情绪状态变化,以此来判断目标用户的情绪状态是否稳定等。其中,多种不同风格的图像包括积极风格的图像、中性风格的图像和消极风格的图像等。
[0065]
示例地,目标图像也可以换成视频或其他具有引起用户产生情绪的数据或材料等。
[0066]
s202:将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕。
[0067]
示例地,多种情绪风格的图像字幕可以包括积极风格的图像字幕、中性风格的图像字幕和消极风格的图像字幕。进一步细分后,积极风格还可以包括喜悦、乐观、轻松和惊奇等,中性风格可以包括温和、无聊等,消极风格可以包括悲伤、恐惧、焦虑、藐视、厌恶和愤懑等。
[0068]
在实际情况中,情绪风格是更多样化的,可以根据实际情况和具体的应用场景进行情绪风格的粗粒度划分和细粒度划分,此处不作限制。
[0069]
s203:针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一pad值;并确定描述文本对应的第二pad值。
[0070]
具体地,pad值是一个三维向量,可以通过pad三维情感模型映射得到。其中,pad三
维情感模型是一种较常用的利用维度空间标识情感状态的模型,在音视频语音合成、情感计算等领域均有较为广泛的应用。pad三维情感模型包括愉悦度(pleasure)、激活度(arousal)和优势度(dominance)三个维度。
[0071]
其中,愉悦度可以体现用户情感(或情绪)状态中的积极性(正值)和消极性(负值)两个方面;激活度可以体现用户神经(或生理层面)的激活水平及兴奋程度,其中,高兴奋为正值,低兴奋为负值;优势度可以体现用户与外部环境相互主导的强弱情况,其中,用户主导为正值,外界主导为负值。
[0072]
结合上述实施例,针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一pad值,可以包括:先确定情绪风格的图像字幕对应的语义向量(或语义序列、义原序列);再将语义向量映射至pad三维情感空间,进而得到情绪风格的图像字幕对应的第一pad值。
[0073]
如,针对积极风格的图像字幕,提取图像字幕的语义向量,再通过pad三维情感模型,将语义向量映射至pad三维情感空间,进而得到积极风格的图像字幕对应的pad值。同样地,可以确定中性风格的图像字幕对应的pad值、消极风格的图像字幕对应的pad值,以及描述文本对应的pad值。
[0074]
s204:根据多个第一pad值和第二pad值,确定目标pad值。
[0075]
一些示例中,根据多个第一pad值和第二pad值,确定目标pad值,可以包括:基于预设公式,对多个第一pad值和第二pad值进行加权处理,得到目标pad值;其中,预设公式为:
[0076][0077]
其中,yi表示第i类情绪风格的图像字幕对应的第一pad值,ai表示第i类情绪风格对应的量表分数,r0表示第二pad值,n表示情绪风格的种类总数,a表示归一化系数。n可以根据实际情况确定,如,情绪风格包括积极风格、中性风格和消极风格时,n=3。量表分数是用户对生成的图像字幕的评分,如评分机制为5分制,则归一化系数a为n
×
5=3
×
5=15。
[0078]ri
表示目标图像i基于预设公式得到的目标pad值。其中,目标pad值由图像字幕对应的第一pad值和描述文本对应的第二pad值进行加权处理后得到,更加符合实际情况和目标用户的情绪状态,能有效提高情绪状态识别结果的准确率。
[0079]
当量表分数的评分机制为5分制时,具体的评分原则可以是:满足语言通顺、用词准确、符合实际场景和用户内心活动等,可得5分;满足语言通顺、符合实际场景和用户内心活动,但用词不太准确等,可得4分;满足语言通顺、符合实际场景,但用词不准确,不能准确描述用户内心活动等,可得3分;仅满足语言通顺等,可得2分;语言不通顺、容易引起歧义等,可得1分;等等。
[0080]
一些示例中,与基于传统标准量表识别情绪状态的方法相比,本技术提供的方法,基于pad三维情感模型,根据多个第一pad值和第二pad值,确定目标pad值,即结合图像模态和文本模态确定目标pad值,进而识别用户情绪状态的方法,仍具有较好的效度(或有效性)。
[0081]
s205:根据目标pad值,确定目标用户的情绪状态。
[0082]
具体地,在pad三维情感模型中,可以通过一组标准情感量表完成pad参数坐标的
确定,其中,每一种情感(或情绪状态)都唯一对应一个pad三维情感空间坐标位置。当pad参数归一化后,情绪状态可以用唯一的三维坐标来标识,具有高置信度的评价。另外,pad各维度间的独立性能够更容易的区分位于不同情感维度的文本情感或用户情绪状态等。
[0083]
示例地,由于每一种情绪状态都唯一对应一个pad三维情感空间坐标位置,即目标pad值与目标用户的情绪状态存在一一对应的关系,确定目标pad值后,即可确定目标用户的情绪状态。
[0084]
结合上述实施例,根据目标pad值,确定目标用户的情绪状态,可以包括:基于预设的愉悦度值(p值)、激活度值(a值)和优势度值(d值)与pad值的对应关系,根据目标pad值的愉悦度值、激活度值和优势度值,确定目标pad值对应的参考pad值;根据参考pad值,确定目标用户的情绪状态。其中,预设的愉悦度值、激活度值和优势度值与pad值的对应关系,可以通过设置情绪状态识别实验确定,即,采集大量不同风格的图像数据,基于pad标准量表,进行问卷调查,获得不同用户关于pad标准量表的打分结果,取平均值,得到基于pad标准量表评估的参考pad值以及参考pad值对应的情绪状态。进一步地,可以根据得到的目标pad值,与参考pad值进行对照,完成情绪状态的识别。
[0085]
一些示例中,一些基本的情绪状态与pad值的对应关系如表1所示:
[0086]
表1
[0087]
序号情绪状态p值a值d值1喜悦2.771.211.422乐观2.481.051.753轻松2.19-0.661.054惊奇1.721.710.225温和1.57-0.790.386依赖0.39-0.81-1.487无聊-0.53-1.25-0.848悲伤-0.890.17-0.709恐惧-0.931.30-0.6410焦虑-0.950.32-0.6311藐视-1.580.321.0212厌恶-1.800.400.6713愤懑-1.981.100.6014敌意-2.081.001.12
[0088]
当得到的目标pad值为(1.72,1.71,0.22)时,参考表1可确定目标用户的情绪状态为惊奇;得到的目标pad值为(-0.53,-1.25,-0.84)时,参考表1可确定目标用户的情绪状态为无聊。或者,得到的目标pad值为(1.55,-0.80,0.38)时,参考表1可知,没有与目标pad值一样的,但通过一些相似度算法,或者直接对比,可知(1.57,-0.79,0.38)与目标pad值(1.55,-0.80,0.38)最接近,因此,可以确定目标用户的情绪状态为温和;等等。
[0089]
本技术实施例提供的基于图像的情绪识别方法,通过使用图像字幕生成模型,在保持语义向量准确性的基础上,生成了多种情绪风格的图像字幕,解决了图像字幕风格化单一的问题,更有利于识别不同用户的不同情绪状态。另外,基于多个第一pad值和第二pad
值,确定目标pad值,即结合图像模态和文本模态确定目标pad值,并根据目标pad值识别用户的情绪状态,有利于提高识别结果的准确率。
[0090]
一些示例中,确定情绪风格的图像字幕对应的第一pad值,可以包括:确定情绪风格的图像字幕对应的第一语义向量,第一语义向量包含多个第一语义元素;针对多个第一语义元素中的每个第一语义元素,确定第一语义元素和第二语义向量中的每个第二语义元素的第一语义相似度,第二语义向量为基于情绪词典确定的,情绪词典包括多个情绪词组;在第二语义元素中,确定与第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素;将第一目标语义元素对应的第一语义相似度和第一目标语义元素对应的pad值进行加权处理,得到第一pad值。其中,情绪词典(emotion dict)可以根据实际情况采集与情绪相关的情绪词组,如,喜悦、愉悦、高兴、激动、愤怒、无聊、低落、烦躁和焦虑,等等。相应地,这些情绪词组都有对应的pad值。
[0091]
可选地,情绪风格的图像字幕对应的第一语义向量,可以采用自然语言处理(natural language processing,简称nlp)方法,通过循环神经网络(recurrent neural network,简称rnn)确定。此外,还可以通过word2vec模型、神经网络语言模型(neural network language model,简称nnlm)、长短期记忆网络(long-short term memory,简称lstm)等,确定第一语义向量。
[0092]
示例地,为了综合考虑多种情绪状态对pad值的影响,可以引入语义相似度,计算第一语义向量中的多个第一语义元素与情绪词典中的多个第二语义元素的语义相似度,得到多个语义相似度,以语义相似度最高的一种情绪状态为主要情绪,进而通过加权,计算不同情绪风格的图像字幕的pad值。其中,语义相似度可以通过计算第一语义元素与第二语义元素之间的欧式距离获得,也可以通过计算第一语义元素与第二语义元素之间的余弦值获得,此处不作限定。如,通过计算第一语义元素与第二语义元素之间的余弦值,确定语义相似度时,余弦值的取值范围为[0,1],则余弦值越大,语义相似度越大。
[0093]
一种示例中,若输入的目标图像中包括蓝天、白云、青山、绿水等,通过图像字幕生成模型,生成的图像字幕是:蓝天白云,象征自由与欢乐;青山绿水,象征生命的活力与希望。通过提取语义向量,计算该图像字幕中的多个第一语义元素与情绪词典中的多个第二语义元素的语义相似度,得到“欢乐”与情绪词典中“喜悦”的语义相似度最大,则以“喜悦”为主要情绪。
[0094]
另外,为了综合考虑多种情绪状态对pad值的影响,在得到多个语义相似度时,可以通过设定条件,从多个语义相似度中进行选择。如,预设第一设定条件为,选择语义相似度最大的前五个。
[0095]
在确定语义相似度后,可以将语义相似度对应的情绪词典中的第二语义元素确定为目标语义元素,如,情绪词典中的“喜悦”即为目标语义元素。若确定5个语义相似度值,则存在5个目标语义元素。相应地,根据情绪状态与pad值的对应关系,可以分别得到5个目标语义元素分别对应的pad值。再将这5个语义相似度值与5个pad值对应相乘相加,即进行加权处理,得到第一pad值。
[0096]
基于上述实施例,本技术提供的方法可以基于预先构建和训练好的图像字幕生成模型,根据输入的图像,生成多种情绪风格的图像字幕,并基于语义相似度计算出生成的图像字幕在pad三维情感空间的映射值,即pad值。
[0097]
与上述实施例对应,确定描述文本对应的第二pad值,可以包括:确定描述文本对应的第三语义向量,第三语义向量包含多个第三语义元素;针对多个第三语义元素中的每个第三语义元素,确定第三语义元素和第二语义向量中的每个第二语义元素的第二语义相似度;在第二语义元素中,确定与第三语义元素的第二语义相似度满足第二设定条件的第二目标语义元素;将第二目标语义元素对应的第二语义相似度和第二目标语义元素对应的pad值进行加权处理,得到第二pad值。其中,描述文本是目标用户针对目标图像描述的文本,如,目标图像中包括蓝天、白云、青山、绿水等,目标用户针对该目标图像描述的文本是:我看到这幅图像,有一种自由自在的感觉,会不自觉的开心。
[0098]
另外,第二设定条件同样可以为选择语义相似度最大的前五个;也可以根据实际情况进行具体的设定,此处不作限制。
[0099]
进一步地,通过提取语义向量,计算该描述文本中的多个第三语义元素与情绪词典中的多个第二语义元素的语义相似度,得到“开心”与情绪词典中“乐观”的语义相似度最大,则以“乐观”为主要情绪。类似地,后续计算第二pad值的过程,与上述实施例中计算第一pad值的过程类似,此处不再赘述。
[0100]
一些示例中,基于图像的情绪识别方法中的图像字幕生成模型可以包括卷积神经网络和基于注意力机制的风格化文本生成模块,风格化文本生成模块包含gru单元、编码子模块和解码子模块。将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕,包括:将目标图像输入至卷积神经网络进行特征提取,得到目标图像对应的图像特征;将图像特征输入gru单元进行语义提取,得到第四语义向量;将第四语义向量输入编码子模块进行编码处理,得到编码向量;将编码向量输入解码子模块进行解码处理,得到解码向量;将通过注意力机制处理的编码向量和解码向量进行级联处理,得到目标图像对应的多种情绪风格的图像字幕。
[0101]
图3为本技术一实施例提供的图像字幕生成过程的示意图。如图3所示,输入目标图像,通过图像特征提取模块,提取目标图像的图像特征。其中,图像特征提取模块可以是普通的卷积神经网络;也可以是inception v3,其具有较好的图像特征提取能力。获得图像特征后,可以采用门控循环单元(gated recurrent unit,简称gru),将图像特征转换成语义向量{x1,x2,
…
,xm},其中,gru单元具有较好的处理时序序列的能力。图3中《sos》是语义序列开始的标志。
[0102]
将得到的语义向量{x1,x2,
…
,xm}输入编码子模块进行编码处理,得到编码向量{h
enc,0
,h
enc,1
,
…
,h
enc,m
};再将编码向量{h
enc,0
,h
enc,1
,
…
,h
enc,m
}输入解码子模块进行解码处理,得到解码向量{h
dec,0
,h
dec,1
,
…
,h
dec,l
}。
[0103]
另外,还可以引入注意力机制(attention),用于学习文本的风格化信息,并将编码向量{h
enc,0
,h
enc,1
,
…
,h
enc,m
}通过注意力机制处理后,与解码向量{h
dec,0
,h
dec,1
,
…
,h
dec,l
}进行级联处理,得到目标图像对应的多种情绪风格的图像字幕{y1,y2,
…
,y
l
}。其中,注意力机制包括软注意力(soft attention)。
[0104]
仍以图3为例,进一步地,同样可以采用gru单元提取图像字幕{y1,y2,
…
,y
l
}中的语义向量,得到图像字幕对应的语义向量p
i,s
,并通过pad三维情感模型,将语义向量p
i,s
映射至pad三维情感空间,得到不同情绪风格的图像字幕对应的pad值。
[0105]
一些示例中,可以采用分类器,将生成的图像字幕进行风格化文本分类,以确定生
成的图像字幕符合输入的目标图像的风格,并添加风格标签(style label)。
[0106]
与上述实施例对应,基于图像的情绪识别方法中的图像字幕生成模型是可以通过以下方式训练得到的:获取样本数据,样本数据包括样本图像和样本图像对应的参考图像字幕以及风格化文本数据,风格化文本数据包括风格化文本和风格化文本对应的参考风格标签;将样本图像输入至图像字幕生成模型,得到样本图像对应的输出图像字幕;基于风格指示器,根据风格化文本数据,调整输出图像字幕;确定调整后的输出图像字幕与参考图像字幕的第一损失值;根据第一损失值,调整图像字幕生成模型。
[0107]
其中,可以直接选用现有的数据集作为样本数据(即训练集),进行图像字幕生成模型的训练,如,图像数据集(mscoco)和未配对风格化文本数据集(sentiment140),其中,mscoco包含了图像和图像对应的图像字幕,可以用于训练图像字幕生成模型,以生成标准字幕描述;sentiment140包含了情感分析文本,包括消极(negative)、中性(neutral)和积极(positive)三种情感的文本数据,用于指示图像字幕生成模型学习该数据集中的风格化特征。
[0108]
示例地,样本数据也可以由研究人员专门收集能引起用户产生情绪的图像,并由多个专业人员对收集的图像进行客观描述,得到多种情绪风格的图像字幕作为参考图像字幕。进一步地,可以用收集的样本数据训练图像字幕生成模型,并生成多种情绪风格的图像字幕;再通过提取生成的多种情绪风格的图像字幕的语义向量,基于pad三维情感模型,得到图像字幕对应的pad值,进而确定用户的情绪状态。可以理解的是,当样本数据足够大时,可以提高图像字幕生成模型生成的图像字幕的准确性,进而可以识别不同用户看到不同图像时产生的不同情绪。
[0109]
图4为本技术另一实施例提供的基于图像的情绪识别方法的流程示意图。如图4所示,包括网络模型训练部分和网络模型应用部分。其中,网络模型训练部分包括:
[0110]
s401:准备样本数据。
[0111]
其中,样本数据可以是上述实施例中图像数据集和未配对风格化文本数据集,也可以是收集的样本数据。
[0112]
图5为本技术一实施例提供的基于图像的情绪识别方法的模型训练示意图。如图5所示,训练的模型(emocap)包括两个任务和三个阶段,即图像字幕生成任务和情绪状态识别任务,以及义原序列生成阶段、风格化文本生成阶段(即多种情绪风格的图像字幕生成阶段)和情绪状态识别阶段。其中,可以将图像字幕生成分解为义原序列生成和风格化文本生成。可选地,在情绪状态识别阶段,还结合了分类模型的训练,用于得到生成的图像字幕的语义向量,进而实现情绪状态的识别和对图像字幕添加风格标签。
[0113]
另外,图5对应图4中的网络模型训练部分,同样是本技术的关键。下面将结合图4、图5和上述实施例,对网络模型训练过程进行详细阐述。
[0114]
s402:设定神经网络提取样本数据中图像的图像特征,并生成义原序列。
[0115]
基于已有的样本数据,可以设定神经网络提取样本数据中图像的图像特征,并生成义原序列,即语义向量。具体地,设定的神经网络可以是使用inception v3提取图像特征,使用gru单元用于将提取的图像特征转换成语义向量{x1,x2,
…
,xm},对应图5中的第一层网络结构。
[0116]
示例地,可以单独提取图5中的第一层网络结构进行网络模型训练,并采用基于语
义向量的平均交叉熵损失函数,如公式(1)所示,指导网络模型的训练。在公式(1)的损失值最小且收敛时,得到优化的第一网络模型,进而在图像输入该第一网络模型时,可以得到准确性更高的语义向量{x1,x2,
…
,xm}。公式(1)如下所示:
[0117][0118]
其中,表示语义向量中的位置i处对应的语义向量真实值,m表示语义向量真实值的长度,∑为求和符号,log表示对数函数,p表示概率,i表示输入图像。
[0119]
公式(1)所示的平均交叉熵损失函数,可以反映第一网络模型学习到图像中的语义表征信息。
[0120]
s403:利用注意力机制生成风格化文本。
[0121]
在图5中的第二层网络结构中,仍可以采用gru单元作为风格化文本生成,即多种情绪风格的图像字幕生成,的主干网络,但同时引入了注意力机制和风格指示器(style indicator),可以更好的加强对于多种情绪风格的图像字幕的学习,得到更准确的风格化文本。
[0122]
其中,引入风格指示器时可以采用教师-强迫(teacher-forcing)模式,该模式在训练网络模型的过程中,每次不使用上一个状态x(t)的输出h(t)作为下一个状态x(t+1)的输入,而是直接使用样本数据的期望输出或实际输出的对应上一项y(t)作为下一个状态x(t+1)的输入,可以更加准确地生成符合图像语义信息的语义向量和符合风格化特征的图像字幕。
[0123]
示例地,同样可以单独提取图5中的第二层网络结构进行网络模型训练,并采用基于风格化文本的平均交叉熵损失函数,如公式(2)所示,指导网络模型的训练。在公式(2)的损失值最小且收敛时,得到优化的第二网络模型,进而在上述第一网络模型输出的语义向量输入该第二网络模型时,可以得到准确性更高的风格化文本{y1,y2,
…
,y
l
}。公式(2)如下所示:
[0124][0125]
其中,表示风格化文本中的位置j处对应的风格化文本真实值(或参考图像字幕),l表示风格化文本真实值的长度。
[0126]
公式(2)所示的平均交叉熵损失函数,可以反映第二网络模型学习到的风格化文本信息,对应上述实施例中的第一损失值。
[0127]
可以理解的是,上述实施例中的第一网络模型和第二网络模型,共同组成了图像字幕生成模型。
[0128]
s404:设定神经网络进行风格化文本分类,并提取语义向量映射至pad三维情感空间。
[0129]
示例地,设定神经网络进行风格化文本分类,可以对应图5中的第三层网络结构,如,采用分类模型对生成的风格化文本进行分类。
[0130]
具体地,采用分类模型对生成的多种情绪风格的图像字幕进行风格化文本分类,可以用于确定图像字幕符合目标图像的风格。其中,分类模型是可以通过以下方式训练得到的:获取风格化文本数据;将风格化文本数据中的风格化文本输入至分类模型,得到风格化文本对应的输出风格标签;确定输出风格标签与风格化文本数据中的参考风格标签的第二损失值;根据第二损失值,调整分类模型。其中,分类模型可以为gru单元。或者,分类模型也可以直接使用常见的分类器进行优化训练后,得到优化的分类器作为分类模型使用。
[0131]
示例地,单独训练图5中的第三层网络结构,即分类模型时,可以采用基于风格化文本分类的平均交叉熵损失函数,如公式(3)所示,指导分类模型的训练。在公式(3)的损失值最小且收敛时,得到优化的分类模型,进而在上述第二网络模型输出的风格化文本{y1,y2,
…
,y
l
}输入该分类模型时,可以得到风格化文本{y1,y2,
…
,y
l
}对应的风格标签zk。公式(3)如下所示:
[0132][0133]
其中,p(z=zk)表示生成的风格化文本属于第k类风格的概率,表示真实的风格化文本的风格类型,exp表示指数函数。
[0134]
公式(3)所示的平均交叉熵损失函数,可以反映分类模型学习到的风格化文本类型信息,对应上述实施例中的第二损失值。
[0135]
一些实施例中,上述实施例中的三个网络模型(第一网络模型、第二网络模型和分类模型),以及网络模型对应的损失函数相互独立,可以分别进行网络模型训练;也可以直接将三个网络模型组合到一起,直接进行网络模型训练;或者,第一网络模型和第二网络模组合到一起进行训练,分类模型单独训练,等等。
[0136]
可选地,上述实施例中的平均交叉熵损失函数,也可以根据实际情况,换成其他对网络模型优化有益的损失函数,此处不作限定。
[0137]
另外,上述实施例中的网络模型在训练时,可以根据实际情况配置训练的数据集相关参数及网络结构中出现的各种超参数。
[0138]
一些示例中,以图5为例,上述实施例中的分类模型,可以提取风格化文本{y1,y2,
…
,y
l
}中的语义向量,得到风格化文本对应的语义向量p
i,s
,并通过pad三维情感模型,将语义向量p
i,s
映射至pad三维情感空间,基于情感词典,得到风格化文本对应的字幕(caption)pad值。
[0139]
s405:设置损失函数指导网络模型的训练。
[0140]
具体地,在模型训练过程中,不断循环迭代,直至达到损失值最小且收敛时,训练完成,得到优化网络模型。具体可参考上述有关平均交叉熵损失函数的实施例,此处不再赘述。
[0141]
可以理解的是,优化后的网络模型在测试时,比未优化的网络模型,能得到更好的评估指标结果。
[0142]
进一步地,可以应用得到的优化网络模型,对应图4中的网络模型应用部分。具体地,将图像和图像对应的描述文本,输入优化网络模型中,根据输入的图像可以生成多种情绪风格的图像字幕,并得到基于图像字幕的pad值;再根据描述文本,得到基于描述文本的
pad值。将基于图像字幕的pad值和基于描述文本的pad值进行加权处理,得到目标pad值。基于设置的情绪状态识别实验,将目标pad值与基于标准量表评估的参考pad值进行对比,得到目标pad值对应的情绪状态,完成情绪状态的识别。
[0143]
另外,还可以将上述实施例中的情绪状态识别结果与专业人员根据标准量表评估出的情绪状态进行对比,以验证本技术构建和训练的网络模型的合理性和有效性。
[0144]
基于上述实施例,本技术提供的方法,基于网络模型和pad三维情感空间,可以更快速高效的生成图像字幕和得到pad值,进而基于pad值实现情绪状态的识别,无需专业人员参与,可以减轻专业人员的压力等。
[0145]
示例地,在基于注意力机制的风格化文本生成模块,生成多种情绪风格的图像字幕{y1,y2,
…
,y
l
}后,可以采用一些评价指标,如,双语互译质量评估(bilingual evaluation understudy,简称bleu)、以回忆为导向的评分理解(recall-oriented understanding for gisting evaluation,简称rouge)、明确有序翻译的评价标准(metric for evaluation of translation with explicit ordered,简称meteor),对生成的图像字幕进行评价。其中,bleu、meteor、rouge的值越大,说明生成的图像字幕保留了更多的语义信息。
[0146]
另外,还可以比较各个关键模块存在与否时的最优模型效果,如,是否包含风格化文本生成模块、是否使用sentiment140数据集生成风格化图像字幕(即多种情绪风格的图像字幕)等,对生成的图像字幕的影响,仍通过上述评价指标进行评价。
[0147]
不同模型生成的图像字幕进行比较时,具体的比较结果可以如表2所示:
[0148]
表2
[0149]
模型bleu@1bleu@3meteorrouge@1nic0.62410.14030.39390.5159emocap-coco0.56520.12790.36450.4817emocap0.56140.12530.36290.4764
[0150]
其中,神经图像字幕(neural image caption,简称nic)模型只对卷积神经网络-循环神经网络(cnn-rnn)编解码器(即上述实施例中的编码子模块和解码子模块)进行训练,是一种传统的编码器-解码器(encoder-decoder)模型。风格化图像字幕生成模型(emocap)是本技术提供的一种图像字幕生成模型,如图5所示。emocap-coco模型是在emocap框架上改变训练数据集,只对中性风格文本(如,mscoco数据集)进行训练得到的模型。
[0151]
表2中的@1、@3指连续的单词个数,如,bleu@1衡量的是单词级别的准确性,而更高阶的bleu可以衡量生成的图像字幕的流畅性。
[0152]
从表2中的比较结果可知,相比于传统的nic模型,emocap和emocap-coco对应的指标评价结果都有小幅下降,这是因为本技术提供的emocap架构在原有cnn-rnn的基础结构上添加了一个seq2seq模块,使得网络结构复杂化了。但从总体来看,下降比例很小,可以近似认为本技术提供的模型在mscoco数据集上生成的图像字幕仍具有较好的语义相关性表征。
[0153]
另外,比较emocap和emocap-coco的各项指标评价结果,均十分接近,而emocap-coco是采用未配对的风格化文本数据训练的模型,表明未配对的风格化文本数据几乎不会
影响图像字幕的语义相关性表征。
[0154]
一些示例中,可以收集一些图像-风格化文本的数据对和风格化文本-风格化文本分类结果的数据对,作为测试集,用于测试训练好的图像字幕生成模型和分类模型的正确率。
[0155]
示例地,基于图像-风格化文本的数据对,将图像输入图像字幕生成模型,生成多种情绪风格的图像字幕,即生成风格化文本,将生成的风格化文本与图像-风格化文本数据对中的风格化文本进行比较,得到风格化文本生成的测试结果,是一个混淆矩阵,如表3所示:
[0156]
表3
[0157]
真实值\预测值消极中性积极消极12561902842中性040000积极60723441049
[0158]
基于风格化文本-风格化文本分类结果的数据对,将风格化文本输入分类模型,得到分类结果,将分类结果与风格化文本-风格化文本分类结果数据对中的风格化文本分类结果进行比较,得到风格化文本分类的测试结果,是一个混淆矩阵,如表4所示:
[0159]
表4
[0160]
真实值\预测值消极中性积极消极16412286中性219621积极28931657
[0161]
从表3可知,对于图像字幕生成模型,可以将输入的图像生成较理想的风格化图像字幕,且符合相应的风格类型的正确率为52.54%,即(1256+4000+1049)/(4000+4000+4000)=52.54%。
[0162]
从表4可知,对于分类模型,可以对风格化文本进行正确分类的概率为90.05%,即(1641+1962+1657)/(1929+1965+1947)=90.05%,具有较好的分类效果。
[0163]
一些示例中,本技术提供的方法同样可以针对一些特殊图像,识别用户的情绪状态,其中,特殊图像指包括用户的动作、表情等的图像。此时,可以不结合描述文本对应的pad值,而是用图像字幕对应的pad值,即可直接得到目标pad值,进而识别出用户的情绪状态。
[0164]
综上,本技术至少具有以下优势:
[0165]
1、在保持语义信息(即语义向量)的基础上,引入风格指示器,创新实现了多种风格化特性,即生成了多种情绪风格的图像字幕,更有利于识别不同用户的不同情绪状态。
[0166]
2、基于pad三维情感模型,结合图像模态和文本模态识别用户情绪状态的方法,相比传统标准量表识别情绪状态仍具有较好的效度。
[0167]
3、引入基于注意力机制的风格化文本生成模块,可以更好的学习图像的风格化特征,解决图像字幕风格化单一问题,同样有利于识别不同用户的不同情绪状态。
[0168]
4、可应用于图像字幕生成及其相关领域,在保证图像字幕语义准确度的同时,还可以实现不同风格的图像字幕描述。
[0169]
5、借用深度学习技术进行情绪状态识别,快速高效,且无需专业人员,可以减轻专业人员的压力等。
[0170]
下述为本技术装置实施例,可以用于执行本技术方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术方法实施例。
[0171]
图6为本技术一实施例提供的基于图像的情绪识别装置的结构示意图。为了便于说明,仅示出了与本技术实施例相关的部分。如图6所示,该基于图像的情绪识别装置60包括:获取模块61、生成模块62、第一确定模块63、第二确定模块64和第三确定模块65。其中:
[0172]
获取模块61,用于获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;
[0173]
生成模块62,用于将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;
[0174]
第一确定模块63,用于针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一pad值;并确定描述文本对应的第二pad值;
[0175]
第二确定模块64,用于根据多个第一pad值和第二pad值,确定目标pad值;
[0176]
第三确定模块65,用于根据目标pad值,确定目标用户的情绪状态。
[0177]
一种可能的实施方式中,第二确定模块64可以具体用于:基于预设公式,对多个第一pad值和第二pad值进行加权处理,得到目标pad值。其中,预设公式为:
[0178][0179]
其中,yi表示第i类情绪风格的图像字幕对应的第一pad值,ai表示第i类情绪风格对应的量表分数,r0表示第二pad值,n表示情绪风格的种类总数,a表示归一化系数。
[0180]
一种可能的实施方式中,第一确定模块63可以具体用于:确定情绪风格的图像字幕对应的第一语义向量,第一语义向量包含多个第一语义元素;针对多个第一语义元素中的每个第一语义元素,确定第一语义元素和第二语义向量中的每个第二语义元素的第一语义相似度,第二语义向量为基于情绪词典确定的,情绪词典包括多个情绪词组;在第二语义元素中,确定与第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素;将第一目标语义元素对应的第一语义相似度和第一目标语义元素对应的pad值进行加权处理,得到第一pad值。
[0181]
一种可能的实施方式中,第一确定模块63还可以用于:确定描述文本对应的第三语义向量,第三语义向量包含多个第三语义元素;针对多个第三语义元素中的每个第三语义元素,确定第三语义元素和第二语义向量中的每个第二语义元素的第二语义相似度;在第二语义元素中,确定与第三语义元素的第二语义相似度满足第二设定条件的第二目标语义元素;将第二目标语义元素对应的第二语义相似度和第二目标语义元素对应的pad值进行加权处理,得到第二pad值。
[0182]
一种可能的实施方式中,基于图像的情绪识别装置中的图像字幕生成模型可以包括卷积神经网络和基于注意力机制的风格化文本生成模块,风格化文本生成模块包含gru单元、编码子模块和解码子模块。其中,基于图像的情绪识别装置中的生成模块62可以具体用于:将目标图像输入至卷积神经网络进行特征提取,得到目标图像对应的图像特征;将图
像特征输入gru单元进行语义提取,得到第四语义向量;将第四语义向量输入编码子模块进行编码处理,得到编码向量;将编码向量输入解码子模块进行解码处理,得到解码向量;将通过注意力机制处理的编码向量和解码向量进行级联处理,得到目标图像对应的多种情绪风格的图像字幕。
[0183]
一种可能的实施方式中,第三确定模块65可以具体用于:基于预设的愉悦度值、激活度值和优势度值与pad值的对应关系,根据目标pad值的愉悦度值、激活度值和优势度值,确定目标pad值对应的参考pad值;根据参考pad值,确定目标用户的情绪状态。
[0184]
一种可能的实施方式中,基于图像的情绪识别装置中的图像字幕生成模型是可以通过以下方式训练得到的:获取样本数据,样本数据包括样本图像和样本图像对应的参考图像字幕以及风格化文本数据,风格化文本数据包括风格化文本和风格化文本对应的参考风格标签;将样本图像输入至图像字幕生成模型,得到样本图像对应的输出图像字幕;基于风格指示器,根据风格化文本数据,调整输出图像字幕;确定调整后的输出图像字幕与参考图像字幕的第一损失值;根据第一损失值,调整图像字幕生成模型。
[0185]
一种可能的实施方式中,基于图像的情绪识别装置还包括:采用分类模型对生成的多种情绪风格的图像字幕进行风格化文本分类,用于确定图像字幕符合目标图像的风格。其中,分类模型是可以通过以下方式训练得到的:获取风格化文本数据;将风格化文本数据中的风格化文本输入至分类模型,得到风格化文本对应的输出风格标签;确定输出风格标签与风格化文本数据中的参考风格标签的第二损失值;根据第二损失值,调整分类模型。
[0186]
本技术实施例提供的基于图像的情绪识别装置,其实现原理和技术效果与上述实施例类似,具体可参考上述实施例,此处不再赘述。
[0187]
图7为本技术一实施例提供的电子设备的结构示意图。如图7所示,该电子设备700包括:
[0188]
处理器701、存储器702、通信接口703和系统总线704。
[0189]
其中,存储器702和通信接口703通过系统总线704与处理器701连接并完成相互间的通信,存储器702用于存储计算机执行指令,通信接口703用于和其他设备进行通信,处理器701用于执行计算机执行指令以执行如上述基于图像的情绪识别方法实施例的方案。
[0190]
具体地,处理器701可以包括一个或多个处理单元,例如:处理器701可以是cpu,也可以是数字信号处理(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0191]
存储器702可以用于存储程序指令。存储器702可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如图像处理功能等)等。存储数据区可存储电子设备700使用过程中所创建的数据(比如文本数据等)等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,简称ufs)等。处理器701通过运行存储在存储器702的程序指令,执行电子设备700的各种功能应用以及数据处理。
[0192]
通信接口703可以提供应用在电子设备700上的包括2g/3g/4g/16g等无线通信的解决方案。通信接口703可以由天线接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。通信接口703还可以对经调制解调处理器调制后的信号放大,经天线转为电磁波辐射出去。在一些实施例中,通信接口703的至少部分功能模块可以被设置于处理器701中。在一些实施例中,通信接口703的至少部分功能模块可以与处理器701的至少部分模块被设置在同一个器件中。
[0193]
系统总线704可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该系统总线704可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0194]
需说明的是,对于存储器702及处理器701的个数,本技术实施例不对其进行限制,其均可以为一个或多个,图7以一个为例进行图示;存储器702及处理器701之间,可以通过多种方式进行有线或者无线连接,例如通过总线连接。实际应用中,该电子设备700可以是各种形式的计算机或移动终端。其中,计算机例如为膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机等;移动终端例如为个人数字处理、蜂窝电话、智能电话、可穿戴设备以及其它类似的计算装置。
[0195]
本实施例的电子设备,可以用于执行上述方法实施例中的技术方案,其实现原理和技术效果类似,此处不再赘述。
[0196]
本领域技术人员可以理解,图7示出的电子设备并不构成对电子设备的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者不同的部件布置。
[0197]
本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当计算机执行指令被执行时,实现如上基于图像的情绪识别方法。
[0198]
本技术实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被执行时实现如上基于图像的情绪识别方法。
[0199]
本技术实施例还提供一种运行指令的芯片,芯片用于执行如上任一方法实施例的基于图像的情绪识别方法。
[0200]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0201]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
[0202]
应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
技术特征:
1.一种基于图像的情绪识别方法,其特征在于,包括:获取目标图像及目标用户针对所述目标图像的描述文本,所述目标图像为可引起用户产生情绪的图像;将所述目标图像输入图像字幕生成模型进行图像字幕生成,得到所述目标图像对应的多种情绪风格的图像字幕;针对所述多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定所述情绪风格的图像字幕对应的第一pad值;并确定所述描述文本对应的第二pad值;根据多个所述第一pad值和所述第二pad值,确定目标pad值;根据所述目标pad值,确定所述目标用户的情绪状态。2.根据权利要求1所述的情绪识别方法,其特征在于,所述根据多个所述第一pad值和所述第二pad值,确定目标pad值,包括:基于预设公式,对多个所述第一pad值和所述第二pad值进行加权处理,得到目标pad值;其中,所述预设公式为:其中,y
i
表示第i类情绪风格的图像字幕对应的第一pad值,a
i
表示第i类情绪风格对应的量表分数,r0表示第二pad值,n表示情绪风格的种类总数,a表示归一化系数。3.根据权利要求1所述的情绪识别方法,其特征在于,所述确定所述情绪风格的图像字幕对应的第一pad值,包括:确定所述情绪风格的图像字幕对应的第一语义向量,所述第一语义向量包含多个第一语义元素;针对所述多个第一语义元素中的每个第一语义元素,确定所述第一语义元素和第二语义向量中的每个第二语义元素的第一语义相似度,所述第二语义向量为基于情绪词典确定的,所述情绪词典包括多个情绪词组;在所述第二语义元素中,确定与所述第一语义元素的第一语义相似度满足第一设定条件的第一目标语义元素;将所述第一目标语义元素对应的第一语义相似度和所述第一目标语义元素对应的pad值进行加权处理,得到第一pad值。4.根据权利要求1所述的情绪识别方法,其特征在于,所述确定所述描述文本对应的第二pad值,包括:确定所述描述文本对应的第三语义向量,所述第三语义向量包含多个第三语义元素;针对所述多个第三语义元素中的每个第三语义元素,确定所述第三语义元素和第二语义向量中的每个第二语义元素的第二语义相似度;在所述第二语义元素中,确定与所述第三语义元素的第二语义相似度满足第二设定条件的第二目标语义元素;将所述第二目标语义元素对应的第二语义相似度和所述第二目标语义元素对应的pad值进行加权处理,得到第二pad值。5.根据权利要求1至4中任一项所述的情绪识别方法,其特征在于,所述图像字幕生成模型包括卷积神经网络和基于注意力机制的风格化文本生成模块,所述风格化文本生成模
块包含gru单元、编码子模块和解码子模块,所述将所述目标图像输入图像字幕生成模型进行图像字幕生成,得到所述目标图像对应的多种情绪风格的图像字幕,包括:将所述目标图像输入至卷积神经网络进行特征提取,得到所述目标图像对应的图像特征;将所述图像特征输入gru单元进行语义提取,得到第四语义向量;将所述第四语义向量输入所述编码子模块进行编码处理,得到编码向量;将所述编码向量输入所述解码子模块进行解码处理,得到解码向量;将通过注意力机制处理的编码向量和所述解码向量进行级联处理,得到所述目标图像对应的多种情绪风格的图像字幕。6.根据权利要求1至4中任一项所述的情绪识别方法,其特征在于,所述图像字幕生成模型是通过以下方式训练得到的:获取样本数据,所述样本数据包括样本图像和所述样本图像对应的参考图像字幕以及风格化文本数据,所述风格化文本数据包括风格化文本和所述风格化文本对应的参考风格标签;将所述样本图像输入至所述图像字幕生成模型,得到所述样本图像对应的输出图像字幕;基于风格指示器,根据风格化文本数据,调整所述输出图像字幕;确定调整后的输出图像字幕与所述参考图像字幕的第一损失值;根据所述第一损失值,调整所述图像字幕生成模型。7.根据权利要求1至4中任一项所述的情绪识别方法,其特征在于,采用分类模型对生成的多种情绪风格的图像字幕进行风格化文本分类,用于确定所述图像字幕符合所述目标图像的风格;其中,所述分类模型是通过以下方式训练得到的:获取风格化文本数据;将所述风格化文本数据中的风格化文本输入至所述分类模型,得到所述风格化文本对应的输出风格标签;确定所述输出风格标签与所述风格化文本数据中的参考风格标签的第二损失值;根据所述第二损失值,调整所述分类模型。8.一种基于图像的情绪识别装置,其特征在于,包括:获取模块,用于获取目标图像及目标用户针对所述目标图像的描述文本,所述目标图像为可引起用户产生情绪的图像;生成模块,用于将所述目标图像输入图像字幕生成模型进行图像字幕生成,得到所述目标图像对应的多种情绪风格的图像字幕;第一确定模块,用于针对所述多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定所述情绪风格的图像字幕对应的第一pad值;并确定所述描述文本对应的第二pad值;第二确定模块,用于根据多个所述第一pad值和所述第二pad值,确定目标pad值;第三确定模块,用于根据所述目标pad值,确定所述目标用户的情绪状态。9.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序指令;所述处理器,用于调用所述程序指令,以执行如权利要求1至7中任一项所述的基于图像的情绪识别方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被执行时,用于实现如权利要求1至7中任一项所述的基于图像的情绪识别方法。
技术总结
本申请提供一种基于图像的情绪识别方法、装置、设备和存储介质,涉及深度学习技术领域,包括获取目标图像及目标用户针对目标图像的描述文本,目标图像为可引起用户产生情绪的图像;将目标图像输入图像字幕生成模型进行图像字幕生成,得到目标图像对应的多种情绪风格的图像字幕;针对多种情绪风格的图像字幕中的每种情绪风格的图像字幕,确定情绪风格的图像字幕对应的第一PAD值;并确定描述文本对应的第二PAD值;根据多个第一PAD值和第二PAD值,确定目标PAD值,进而根据目标PAD值,确定目标用户的情绪状态,有利于提高识别结果的准确率。另外,根据得到的多种情绪风格的图像字幕,可以进一步提高用户情绪状态识别结果的准确率。进一步提高用户情绪状态识别结果的准确率。进一步提高用户情绪状态识别结果的准确率。
技术研发人员:文子潇 杨毅 孙甲松
受保护的技术使用者:清华大学
技术研发日:2023.05.31
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/