语音情感识别方法、装置、电子设备和存储介质与流程
未命名
07-12
阅读:68
评论:0

1.本公开涉及计算机技术领域,尤其涉及一种语音情感识别方法、语音情感识别装置、电子设备和存储介质。
背景技术:
2.语音是人们在日常生活中交流的主要媒介,它不仅能够传达思想,还能够表达说话人的情感状态。通过语音情感识别,可以检测用户的心理健康,并且,可以在不同的场景(例如,数字人、机器人客服等场景)中基于用户的情感变化进行相应的反馈和回复等。语音情感识别也利于家长关注孩子的心理健康等指标。因此,进行准确的语音情感识别具有重要意义。
技术实现要素:
3.本公开提供了一种语音情感识别技术方案。
4.根据本公开的一方面,提供了一种语音情感识别模型的训练方法,包括:
5.获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块;
6.获取目标用户对应的第一语音样本集,其中,所述第一语音样本集包括所述目标用户输入的多个第一语音样本,以及与所述多个第一语音样本对应的多个情感分类标签;
7.对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征;
8.将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果;
9.根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,更新所述第二模块的参数。
10.在一种可能的实现方式中,
11.所述方法还包括:获得训练完成的说话人识别模型;
12.所述对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征,包括:对于所述第一语音样本集中的任一第一语音样本,通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征。
13.在一种可能的实现方式中,所述获得预训练的语音情感识别模型,包括:
14.获取第二语音样本集,其中,所述第二语音样本集包括多个说话人对应的多个第二语音样本,以及与所述多个第二语音样本对应的多个情感分类标签;
15.采用所述第二语音样本集训练所述语音情感识别模型,直至满足第一预设训练条件;
16.对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或说话人识别模型,得到所述第二语音样本对应的语音特征;
17.将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果;
18.根据所述第二语音样本对应的情感分类预测结果和第二所述语音样本对应的情感分类标签,更新所述第二模块的参数。
19.在一种可能的实现方式中,
20.所述对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或说话人识别模型,得到所述第二语音样本对应的语音特征,包括:对于第二语音样本集中的任一第二语音样本,通过所述第一模块得到所述第二语音样本对应的第一语音特征,并通过说话人识别模型得到所述第二语音样本对应的第二语音特征;根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征;
21.所述将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果,包括:将所述第二语音样本对应的第三语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果。
22.在一种可能的实现方式中,所述说话人识别模型为轻量模型。
23.在一种可能的实现方式中,所述说话人识别模型至少部署在所述目标用户对应的用户终端上;
24.所述通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征,包括:通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征;
25.所述将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,包括:将所述第一语音样本对应的第二语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
26.在一种可能的实现方式中,所述通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征,包括:
27.响应于所述目标用户请求在所述用户终端上保留所述第一语音样本集,通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征。
28.在一种可能的实现方式中,
29.所述通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征,包括:响应于所述目标用户同意上传所述第一语音样本集,通过所述第一模块得到所述第一语音样本对应的第一语音特征;
30.所述将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,包括:将所述第一语音样本对应的第一语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
31.根据本公开的一方面,提供了一种语音情感识别方法,包括:
32.获取所述语音情感识别模型的训练方法训练完成的语音情感识别模型;
33.将待处理语音输入所述训练完成的语音情感识别模型,通过所述训练完成的语音情感识别模型得到所述待处理语音对应的情感分类标签。
34.根据本公开的一方面,提供了一种语音情感识别模型的训练装置,包括:
35.第一获得模块,用于获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块;
36.第一获取模块,用于获取目标用户对应的第一语音样本集,其中,所述第一语音样本集包括所述目标用户输入的多个第一语音样本,以及与所述多个第一语音样本对应的多个情感分类标签;
37.第二获得模块,用于对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征;
38.第三获得模块,用于将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果;
39.更新模块,用于根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,更新所述第二模块的参数。
40.在一种可能的实现方式中,
41.所述装置还包括:获得训练完成的说话人识别模型;
42.所述第二获得模块用于:对于所述第一语音样本集中的任一第一语音样本,通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征。
43.在一种可能的实现方式中,所述第一获得模块用于:
44.获取第二语音样本集,其中,所述第二语音样本集包括多个说话人对应的多个第二语音样本,以及与所述多个第二语音样本对应的多个情感分类标签;
45.采用所述第二语音样本集训练所述语音情感识别模型,直至满足第一预设训练条件;
46.对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或说话人识别模型,得到所述第二语音样本对应的语音特征;
47.将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果;
48.根据所述第二语音样本对应的情感分类预测结果和第二所述语音样本对应的情感分类标签,更新所述第二模块的参数。
49.在一种可能的实现方式中,所述第一获得模块用于:
50.对于第二语音样本集中的任一第二语音样本,通过所述第一模块得到所述第二语音样本对应的第一语音特征,并通过说话人识别模型得到所述第二语音样本对应的第二语音特征;根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征;
51.将所述第二语音样本对应的第三语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果。
52.在一种可能的实现方式中,所述说话人识别模型为轻量模型。
53.在一种可能的实现方式中,所述说话人识别模型至少部署在所述目标用户对应的用户终端上;
54.所述第二获得模块用于:通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征;
55.所述第三获得模块用于:将所述第一语音样本对应的第二语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
56.在一种可能的实现方式中,所述第二获得模块用于:
57.响应于所述目标用户请求在所述用户终端上保留所述第一语音样本集,通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征。
58.在一种可能的实现方式中,
59.所述第二获得模块用于:响应于所述目标用户同意上传所述第一语音样本集,通过所述第一模块得到所述第一语音样本对应的第一语音特征;
60.所述第三获得模块用于:将所述第一语音样本对应的第一语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
61.根据本公开的一方面,一种语音情感识别装置,包括:
62.第二获取模块,用于获取所述语音情感识别模型的训练装置训练完成的语音情感识别模型;
63.语音情感识别模块,用于将待处理语音输入所述训练完成的语音情感识别模型,通过所述训练完成的语音情感识别模型得到所述待处理语音对应的情感分类标签。
64.根据本公开的一方面,提供了一种电子设备,包括:一个或多个处理器;用于存储可执行指令的存储器;其中,所述一个或多个处理器被配置为调用所述存储器存储的可执行指令,以执行上述方法。
65.根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
66.根据本公开的一方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述方法。
67.在本公开实施例中,通过获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块,获取目标用户对应的第一语音样本集,对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征,将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,并根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,更新所述第二模块的参数,由此利用与目标用户强相关的第一语音样本集对预训练的语音情感识别模型进行约束,对预训练的语音情感识别模型进行微调,从而能够针对目标用户实现快速的自适应,即,能够使语音情感识别模型快速自适应到目标用户的情感特点上。由于针对目标用户的语音情感识别模型在预训练的语音情感识别模型的基础上进行微调,因此,能够快速自适应至不同的用户。由于无需针对每个用户分别从头训练语音情感识别模型,因此能够降低针对不同用户的语音情感识别模型的训练成本。
68.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
69.根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
70.此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。
71.图1示出本公开实施例提供的语音情感识别模型的训练方法的流程图。
72.图2示出本公开实施例提供的语音情感识别模型的示意图。
73.图3示出本公开实施例提供的语音情感识别模型的训练方法中,在将语音情感识别模型训练至第一预设训练条件之后,引入说话人识别模型继续训练语音情感识别模型的示意图。
74.图4示出本公开实施例提供的语音情感识别模型的训练和部署的示例性的流程图。
75.图5示出本公开实施例提供的语音情感识别模型的训练装置的框图。
76.图6示出本公开实施例提供的电子设备1900的框图。
具体实施方式
77.以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
78.在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
79.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。
80.另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
81.由于语音情感数据难以标注,导致语音情感识别模型会偏向于训练集中说话人的情感。也就是说,如果换一个说话人进行语音情感识别的测试,常常会出现错误识别的情况。并且,语音情感识别具有主观性,可能不同的用户对同一句话的认知是不一样的,有的人认为具有情感倾向,而有的人认为是平静的情绪。因此,针对不同的说话人定制合适的语音情感识别模型具有重要意义。
82.在相关技术的语音情感识别系统中,主要采用以下两种方式实现说话人自适应:
83.第一种方式是在语音情感识别模型的训练初期就利用声纹模型预先获取每个说话人的声纹,然后对不同的说话人训练不同的语音情感识别模型。即,针对不同的说话人,分别从头开始训练语音情感识别模型。这种方式的缺点是,需要在语音情感识别模型的训练初期就同时对声纹特征到情感分类进行建模,无法快速地对不同的用户进行迭代,即,无法快速地使训练得到的语音情感识别模型自适应到不同的用户上,且对不同说话人训练不同语音情感识别模型的成本较大。
84.第二种方式是在语音情感识别模型的训练过程中,对不同的说话人进行约束,从
而使得模型可以学习到与说话人无关的情感识别特征。这样虽然可以有效地提升语音情感识别系统对不同说话人的鲁棒性,但是无法针对某个用户进行快速的自适应,例如某个用户的情感表现如果不是很显著,则可能无法较准确地进行情感识别。
85.本公开实施例提供了一种语音情感识别模型的训练方法,通过获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块,获取目标用户对应的第一语音样本集,对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征,将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,并根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,更新所述第二模块的参数,由此利用与目标用户强相关的第一语音样本集对预训练的语音情感识别模型进行约束,对预训练的语音情感识别模型进行微调,从而能够针对目标用户实现快速的自适应,即,能够使语音情感识别模型快速自适应到目标用户的情感特点上。由于针对目标用户的语音情感识别模型在预训练的语音情感识别模型的基础上进行微调,因此,能够快速自适应至不同的用户。由于无需针对每个用户分别从头训练语音情感识别模型,因此能够降低针对不同用户的语音情感识别模型的训练成本。
86.下面结合附图对本公开实施例提供的语音情感识别模型的训练方法进行详细的说明。
87.图1示出本公开实施例提供的语音情感识别模型的训练方法的流程图。在一种可能的实现方式中,所述语音情感识别模型的训练方法的执行主体可以是语音情感识别模型的训练装置,例如,所述语音情感识别模型的训练方法可以由终端设备或服务器或其它电子设备执行。其中,终端设备可以是用户设备(user equipment,ue)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(personal digital assistant,pda)、手持设备、计算设备、车载设备或者可穿戴设备等。在一些可能的实现方式中,所述语音情感识别模型的训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,所述语音情感识别模型的训练方法包括步骤s11至步骤s15。
88.在步骤s11中,获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块。
89.在步骤s12中,获取目标用户对应的第一语音样本集,其中,所述第一语音样本集包括所述目标用户输入的多个第一语音样本,以及与所述多个第一语音样本对应的多个情感分类标签。
90.在步骤s13中,对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征。
91.在步骤s14中,将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
92.在步骤s15中,根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,更新所述第二模块的参数。
93.在本公开实施例中,预训练的语音情感识别模型可以为通用的语音情感识别模型。针对任一目标用户,可以在预训练的语音情感识别模型的基础上进行微调,得到针对所述目标用户的语音情感识别模型。
94.语音情感识别模型可以采用cnn(convolutional neural network,卷积神经网络)、lstm(long short-term memory,长短期记忆网络)、transformer等网络结构,在此不做限定。语音情感识别模型包括第一模块和第二模块。在一种可能的实现方式中,第一模块可以包括至少一个子模块,第二模块可以包括至少一个子模块,且第一模块中的子模块与第二模块中的子模块的网络结构可以相同。第一模块中的子模块的数量与第二模块中的子模块的数量可以相同或不同。在另一种可能的实现方式中,第一模块中的子模块与第二模块中的子模块的网络结构也可以不同。
95.在一个例子中,语音情感识别模型可以记为b1,语音情感识别模型中的第一模块可以记为m1,语音情感识别模型中的第二模块可以记为m2,第一模块输出的语音特征可以记为n。其中,第一模块输出的语音特征可以为高维特征。
96.图2示出本公开实施例提供的语音情感识别模型的示意图。如图2所示,语音情感识别模型包括第一模块m1和第二模块m2。语音情感识别模型可以输入人讲话的音频,第一模块m1可以输出表征n,第二模块m2可以输出情感分类预测结果。其中,第一模块m1在训练过程中将建模语音至高维度表征n,第二模块m2在训练过程中将建模高维度表征n至具体的情感分类(例如高兴、生气、平静等)。
97.在一种可能的实现方式中,所述方法还包括:获得训练完成的说话人识别模型;所述对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征,包括:对于所述第一语音样本集中的任一第一语音样本,通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征。
98.在该实现方式中,说话人识别模型可以用于输出说话人对应的语音特征(例如声纹特征)。在一个例子中,说话人识别模型可以记为m3,说话人识别模型输出的语音特征可以记为s。作为该实现方式的一个示例,说话人识别模型输出的语音特征与语音情感识别模型中的第一模块输出的语音特征的维度相同。
99.其中,说话人识别模型可以是基于神经网络的模型,或者是基于马尔科夫序列的模型等,在此不做限定。
100.作为该实现方式的一个示例,对于所述第一语音样本集中的任一第一语音样本,可以通过所述第一模块,得到所述第一语音样本对应的语音特征。通过基于第一模块得到的第一语音样本对应的语音特征,对第二模块进行微调,有助于提高语音情感识别模型的微调效果,提高语音情感识别模型的语音情感识别的准确度。
101.作为该实现方式的另一个示例,对于所述第一语音样本集中的任一第一语音样本,可以通过所述说话人识别模型,得到所述第一语音样本对应的语音特征。其中,说话人识别模型可以部署在用户终端上,由此能够在不将第一语音样本集中的语音样本上传至云端的情况下,获得第一语音样本集中的语音样本对应的语音特征,从而实现对第二模型的微调。根据该示例,能够根据用户需求确定是否上传第一语音样本集至云端,从而能够满足用户的数据传输需求。
102.作为该实现方式的另一个示例,对于所述第一语音样本集中的任一第一语音样本,可以通过所述第一模块和所述说话人识别模型,得到所述第一语音样本对应的语音特征。通过基于第一模块得到的第一语音样本对应的语音特征,以及说话人识别模型得到的第一语音样本对应的语音特征,对第二模块进行微调,由此能够进一步提高语音情感识别
模型的微调效果。
103.在一种可能的实现方式中,可以采用第三语音样本集训练说话人识别模型,直至满足第二预设训练条件。其中,第三语音样本集可以包括多个说话人对应的多个第三语音样本,以及与所述多个第三语音样本对应的多个说话人标签。其中,第二预设训练条件可以为预设的收敛条件、预设的迭代数、预设的时期数等中的任意一项。
104.在一种可能的实现方式中,所述获得预训练的语音情感识别模型,包括:获取第二语音样本集,其中,所述第二语音样本集包括多个说话人对应的多个第二语音样本,以及与所述多个第二语音样本对应的多个情感分类标签;采用所述第二语音样本集训练所述语音情感识别模型,直至满足第一预设训练条件;对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或说话人识别模型,得到所述第二语音样本对应的语音特征;将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果;根据所述第二语音样本对应的情感分类预测结果和第二所述语音样本对应的情感分类标签,更新所述第二模块的参数。
105.在该实现方式中,第二语音样本集可以表示用于训练通用的语音情感识别模型的语音样本集。第二语音样本可以表示第二语音样本集中的语音样本。第二语音样本集可以包括大量的第二语音样本,且第二语音样本集可以包括多个说话人对应的第二语音样本,例如,第二语音样本集可以包括大量说话人对应的第二语音样本。即,第二语音样本集中的不同语音样本可以包括不同说话人的语音,从而能够提高训练得到的语音情感识别模型的通用性。
106.在该实现方式中,可以先采用第二语音样本集训练语音情感识别模型,直至满足第一预设训练条件。其中,第一预设训练条件可以为预设的收敛条件、预设的迭代数、预设的时期数等中的任意一项。
107.在一个例子中,训练至满足第一预设训练条件时的语音情感识别模型可以称为基础语音情感识别模型。
108.在该实现方式中,在语音情感识别模型训练至满足第一预设训练条件后(即,在训练得到基础语音情感识别模型后),引入说话人识别模型。其中,说话人识别模型可以用于提取说话人的相关特征(例如声纹特征)。
109.在该实现方式中,通过获取第二语音样本集,其中,所述第二语音样本集包括多个说话人对应的多个第二语音样本,以及与所述多个第二语音样本对应的多个情感分类标签,采用所述第二语音样本集训练所述语音情感识别模型,直至满足第一预设训练条件,对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或所述说话人识别模型,得到所述第二语音样本对应的语音特征,将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果,根据所述第二语音样本对应的情感分类预测结果和第二所述语音样本对应的情感分类标签,更新所述第二模块的参数,由此在语音情感识别模型训练至满足第一预设训练条件后,引入说话人识别模型,由此在语音情感识别模型的训练中注入说话人的相关特征(例如声纹特征),从而使语音情感识别模型学习到对说话人特征(例如声纹特征)建模到情感分类的能力。
110.作为该实现方式的一个示例,所述对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或说话人识别模型,得到所述第二语音样本对应的语音特征,包括:
对于第二语音样本集中的任一第二语音样本,通过所述第一模块得到所述第二语音样本对应的第一语音特征,并通过说话人识别模型得到所述第二语音样本对应的第二语音特征;根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征;所述将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果,包括:将所述第二语音样本对应的第三语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果。
111.在一个例子中,所述根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征,包括:对所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征进行平均池化,得到所述第二语音样本对应的第三语音特征。例如,所述第二语音样本对应的第一语音特征记为n,所述第二语音样本对应的第二语音特征记为s,则通过对所述第二语音样本对应的第一语音特征n和所述第二语音样本对应的第二语音特征s进行平均池化,可以得到所述第二语音样本对应的第三语音特征(n+s)/2。在这个例子中,所述第二语音样本对应的第一语音特征、所述第二语音样本对应的第二语音特征和所述第二语音样本对应的第三语音特征的维度相同,所述第二语音样本对应的第三语音特征中的任一维度的值,等于所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征中相应维度的平均值。
112.在另一个例子中,所述根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征,包括:对所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征进行最大池化,得到所述第二语音样本对应的第三语音特征。在这个例子中,所述第二语音样本对应的第一语音特征、所述第二语音样本对应的第二语音特征和所述第二语音样本对应的第三语音特征的维度相同,所述第二语音样本对应的第三语音特征中的任一维度的值,为所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征中相应维度的最大值。
113.在另一个例子中,所述根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征,包括:对所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征进行最小池化,得到所述第二语音样本对应的第三语音特征。在这个例子中,所述第二语音样本对应的第一语音特征、所述第二语音样本对应的第二语音特征和所述第二语音样本对应的第三语音特征的维度相同,所述第二语音样本对应的第三语音特征中的任一维度的值,为所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征中相应维度的最小值。
114.在该示例中,通过对于第二语音样本集中的任一第二语音样本,通过所述第一模块得到所述第二语音样本对应的第一语音特征,通过所述说话人识别模型得到所述第二语音样本对应的第二语音特征,根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征,并将所述第二语音样本对应的第三语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预
测结果,由此能够对有限的第二语音样本集进行数据增强和扩充,从而能够提高语音情感识别模型的训练效果。
115.作为该实现方式的一个示例,对于第二语音样本集中的任一第二语音样本,可以通过语音情感识别模型中的第一模块,得到所述第二语音样本对应的第一语音特征,并通过说话人识别模型得到所述第二语音样本对应的第二语音特征。可以根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征。可以随机将所述第二语音样本对应的第一语音特征、所述第二语音样本对应的第二语音特征或者所述第二语音样本对应的第三语音特征输入语音情感识别模型的第二模块,得到所述第二语音样本对应的情感分类预测结果。
116.图3示出本公开实施例提供的语音情感识别模型的训练方法中,在将语音情感识别模型训练至第一预设训练条件之后,引入说话人识别模型继续训练语音情感识别模型的示意图。如图3所示,可以通过语音情感识别模型中的第一模块m1提取第二语音样本(即图3中的音频)对应的第一语音特征n,并通过说话人识别模型m3提取第二语音样本对应的第二语音特征s。可以对第一语音特征n和第二语音特征s求平均,得到第三语音特征(n+s)/2。可以随机将第一语音特征n、第二语音特征s或者第三语音特征(n+s)/2输入语音情感识别模型的第二模块,得到第二语音样本对应的情感分类预测结果(即图3中的语音情感),从而对第二模块进行训练。
117.在另一种可能的实现方式中,所述获得预训练的语音情感识别模型,包括:获取第二语音样本集,其中,所述第二语音样本集包括多个说话人对应的多个第二语音样本,以及与所述多个第二语音样本对应的多个情感分类标签;对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或所述说话人识别模型,得到所述第二语音样本对应的语音特征;将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果;根据所述第二语音样本对应的情感分类预测结果和第二所述语音样本对应的情感分类标签,更新所述第二模块的参数。在该实现方式中,在预训练语音情感识别模型时,可以直接引入说话人识别模型,而无需等待语音情感识别模型训练至满足第一预设训练条件后再引入说话人识别模型。
118.在本公开实施例中,第一语音样本可以表示目标用户输入的语音样本,第一语音样本集可以表示由多个第一语音样本构成的语音样本集。在本公开实施例中,第一语音样本集可以包括目标用户输入的少量第一语音样本,即,第一语音样本集可以仅包括单个用户输入的少量的语音样本。其中,第一语音样本集可以包括预设的多个情感类别中的至少一个情感类别对应的第一语音样本。
119.在一种可能的实现方式中,第一语音样本集可以包括预设的各个情感类别对应的第一语音样本。例如,预设的多个情感类别包括高兴、生气和平静,第一语音样本集包括高兴对应的第一语音样本、生气对应的第一语音样本和平静对应的第一语音样本。
120.在另一种可能的实现方式中,第一语音样本集可以包括预设的多个情感类别中的部分情感类别对应的第一语音样本。例如,预设的多个情感类别包括高兴、生气和平静,第一语音样本集包括高兴对应的第一语音样本和生气对应的第一语音样本。
121.在一种可能的实现方式中,所述说话人识别模型为轻量模型。
122.例如,说话人识别模型可以是基于马尔科夫序列的模型。
123.在该实现方式中,通过采用轻量的说话人识别模型,由此能够降低说话人识别模型在用户终端的部署成本。
124.作为该实现方式的一个示例,所述说话人识别模型至少部署在所述目标用户对应的用户终端上;所述通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征,包括:通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征;所述将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,包括:将所述第一语音样本对应的第二语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
125.在该示例中,通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征,并将所述第一语音样本对应的第二语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,由此无需将第一语音样本集中的第一语音样本上传至服务器,从而能够在将语音情感识别模型实现说话人(即目标用户)自适应的同时,满足目标用户的数据传输需求。
126.需要说明的是,本公开实施例中的所有数据均在获得用户授权的前提下使用。
127.在一个示例中,所述通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征,包括:响应于所述目标用户请求在所述用户终端上保留所述第一语音样本集,通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征。
128.在该示例中,可以根据目标用户的选择判断是否上传第一语音样本集,从而能够权衡用户需求和语音情感识别模型的训练效果。
129.在一种可能的实现方式中,在云端和用户终端可以部署相同的说话人识别模型。例如,可以在云端和用户终端均部署基于马尔科夫序列的模型。
130.在另一种可能的实现方式中,可以在云端和用户终端部署不同的说话人识别模型。例如,可以在云端部署基于神经网络的模型,并在用户终端部署基于马尔科夫序列的模型。
131.在一种可能的实现方式中,所述通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征,包括:响应于所述目标用户同意上传所述第一语音样本集,通过所述第一模块得到所述第一语音样本对应的第一语音特征;所述将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,包括:将所述第一语音样本对应的第一语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
132.在该实现方式中,可以基于第一模块得到的第一语音样本对应的第一语音特征,以及说话人识别模型得到的第一语音样本对应的第二语音特征,对第二模块进行微调,从而能够提高语音情感识别模型的微调效果。
133.在一种可能的实现方式中,在目标用户同意上传第一语音样本集的情况下,对于第一语音样本集中的任一第一语音样本,可以通过语音情感识别模型中的第一模块,得到所述第一语音样本对应的第一语音特征,并通过说话人识别模型得到所述第一语音样本对应的第二语音特征。可以根据所述第一语音样本对应的第一语音特征和所述第一语音样本
对应的第二语音特征,得到所述第一语音样本对应的第三语音特征。可以随机将所述第一语音样本对应的第一语音特征、所述第一语音样本对应的第二语音特征或者所述第一语音样本对应的第三语音特征输入语音情感识别模型的第二模块,得到所述第一语音样本对应的情感分类预测结果。
134.在一个例子中,所述根据所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征,得到所述第一语音样本对应的第三语音特征,包括:对所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征进行平均池化,得到所述第一语音样本对应的第三语音特征。例如,所述第一语音样本对应的第一语音特征记为n,所述第一语音样本对应的第二语音特征记为s,则通过对所述第一语音样本对应的第一语音特征n和所述第一语音样本对应的第二语音特征s进行平均池化,可以得到所述第一语音样本对应的第三语音特征(n+s)/2。在这个例子中,所述第一语音样本对应的第一语音特征、所述第一语音样本对应的第二语音特征和所述第一语音样本对应的第三语音特征的维度相同,所述第一语音样本对应的第三语音特征中的任一维度的值,等于所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征中相应维度的平均值。
135.在另一个例子中,所述根据所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征,得到所述第一语音样本对应的第三语音特征,包括:对所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征进行最大池化,得到所述第一语音样本对应的第三语音特征。在这个例子中,所述第一语音样本对应的第一语音特征、所述第一语音样本对应的第二语音特征和所述第一语音样本对应的第三语音特征的维度相同,所述第一语音样本对应的第三语音特征中的任一维度的值,为所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征中相应维度的最大值。
136.在另一个例子中,所述根据所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征,得到所述第一语音样本对应的第三语音特征,包括:对所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征进行最小池化,得到所述第一语音样本对应的第三语音特征。在这个例子中,所述第一语音样本对应的第一语音特征、所述第一语音样本对应的第二语音特征和所述第一语音样本对应的第三语音特征的维度相同,所述第一语音样本对应的第三语音特征中的任一维度的值,为所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征中相应维度的最小值。
137.在本公开实施例中,将所述第一语音样本对应的语音特征输入所述第二模块,可以得到所述第一语音样本对应的情感分类预测结果。根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,可以确定第一语音样本对应的损失函数的值。根据第一语音样本对应的损失函数的值,可以更新第二模块的参数。
138.本公开实施例提供的语音情感识别模型的训练方法可以应用于人工智能、语音情感识别、声纹等技术领域,在此不做限定。
139.下面通过一个具体的应用场景说明本公开实施例提供的语音情感识别模型的训练方法。
140.在该应用场景中,可以获取第一语音样本集、第二语音样本集和第三语音样本集。
141.其中,第二语音样本集可以包括多个说话人对应的多个第二语音样本,以及与所述多个第二语音样本一一对应的多个情感分类标签。可以采用第二语音样本集训练语音情感识别模型,直至满足第一预设训练条件。训练至满足第一预设训练条件时的语音情感识别模型可以称为基础语音情感识别模型。其中,语音情感识别模型可以记为b1。
142.第三语音样本集可以包括多个说话人对应的多个第三语音样本,以及与所述多个第三语音样本一一对应的多个说话人标签。可以采用第三语音样本集训练说话人识别模型,直至满足第二预设训练条件。其中,说话人识别模型可以记为m3。
143.在得到基础语音情感识别模型和说话人识别模型之后,可以基于第二语音样本集,对语音情感识别模型中的第二模块进行训练。其中,语音情感识别模型包括第一模块和第二模块,其中,第一模块可以记为m1,第二模块可以记为m2。
144.对于第二语音样本集中的任一第二语音样本,可以通过语音情感识别模型中的第一模块,得到所述第二语音样本对应的第一语音特征n,并通过说话人识别模型得到所述第二语音样本对应的第二语音特征s。可以对所述第二语音样本对应的第一语音特征n和所述第二语音样本对应的第二语音特征s求平均,得到所述第二语音样本对应的第三语音特征(n+s)/2。可以随机将所述第二语音样本对应的第一语音特征n、所述第二语音样本对应的第二语音特征s或者所述第二语音样本对应的第三语音特征(n+s)/2输入语音情感识别模型的第二模块,得到所述第二语音样本对应的情感分类预测结果。可以根据所述第二语音样本对应的情感分类预测结果和所述第二语音样本对应的情感分类标签,更新所述第二模块的参数。通过在语音情感识别模型训练至满足第一预设训练条件后,引入说话人识别模型,由此在语音情感识别模型的训练中注入说话人的声纹特征,从而使语音情感识别模型学习到对说话人的声纹特征建模到情感分类的能力。其中,引入说话人识别模型训练语音情感识别模型,可以训练至满足第三预设训练条件,得到预训练的语音情感识别模型(即通用的语音情感识别模型)。
145.第一语音样本集可以包括目标用户输入的多个第一语音样本,以及与所述多个第一语音样本一一对应的多个情感分类标签。对于所述第一语音样本集中的任一第一语音样本,可以通过预训练的语音情感识别模型中的第一模块和/或所述训练完成的说话人识别模型,得到所述第一语音样本对应的语音特征。
146.例如,在目标用户不同意上传第一语音样本集的情况下,可以通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征,并将所述第一语音样本对应的第二语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
147.又如,在目标用户同意上传第一语音样本集的情况下,对于第一语音样本集中的任一第一语音样本,可以通过语音情感识别模型中的第一模块,得到所述第一语音样本对应的第一语音特征,并通过说话人识别模型得到所述第一语音样本对应的第二语音特征。可以根据所述第一语音样本对应的第一语音特征和所述第一语音样本对应的第二语音特征,得到所述第一语音样本对应的第三语音特征。可以随机将所述第一语音样本对应的第一语音特征、所述第一语音样本对应的第二语音特征或者所述第一语音样本对应的第三语音特征输入语音情感识别模型的第二模块,得到所述第一语音样本对应的情感分类预测结
果。
148.可以根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,可以确定第一语音样本对应的损失函数的值。根据第一语音样本对应的损失函数的值,可以更新第二模块的参数。
149.本公开实施例还提供一种语音情感识别方法,包括:获取通过所述语音情感识别模型的训练方法训练完成的语音情感识别模型;将待处理语音输入所述训练完成的语音情感识别模型,通过所述训练完成的语音情感识别模型得到所述待处理语音对应的情感分类标签。
150.图4示出本公开实施例提供的语音情感识别模型的训练和部署的示例性的流程图。如图4所示,可以采用语音情感数据(例如第二语音样本集)训练语音情感模型(即语音情感识别模型),直至满足第一预设训练条件。在语音情感模型训练至满足第一预设训练条件之后,可以通过语音情感模型提取情感信息(例如,通过第一模块提取第一语音特征),并通过说话人识别模型提取声纹信息(例如,通过说话人识别模型提取第二语音特征)。可以基于语音情感模型提取的情感信息和说话人识别模型提取的声纹信息,对情感数据集进行扩充。例如,可以对同一语音样本的第一语音特征n和第二语音特征s求平均,得到该语音样本的第三语音特征(n+s)/2。可以基于大量语音样本的第一语音特征、第二语音特征和第三语音特征微调语音情感模型,直至满足第三预设训练条件。在微调语音情感模型至满足第三预设训练条件之后,可以进入部署阶段。可以采用实际用户数据对语音情感模型进行微调,得到说话人自适应语音情感模型。
151.可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
152.此外,本公开还提供了语音情感识别模型的训练装置、语音情感识别装置、电子设备、计算机可读存储介质、计算机程序产品,上述均可用来实现本公开提供的任一种语音情感识别模型的训练方法或语音情感识别方法,相应技术方案和技术效果可参见方法部分的相应记载,不再赘述。
153.图5示出本公开实施例提供的语音情感识别模型的训练装置的框图。如图5所示,所述语音情感识别模型的训练装置包括:
154.第一获得模块51,用于获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块;
155.第一获取模块52,用于获取目标用户对应的第一语音样本集,其中,所述第一语音样本集包括所述目标用户输入的多个第一语音样本,以及与所述多个第一语音样本对应的多个情感分类标签;
156.第二获得模块53,用于对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征;
157.第三获得模块54,用于将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果;
158.更新模块55,用于根据所述第一语音样本对应的情感分类预测结果和所述第一语
音样本对应的情感分类标签,更新所述第二模块的参数。
159.在一种可能的实现方式中,
160.所述装置还包括:获得训练完成的说话人识别模型;
161.所述第二获得模块53用于:对于所述第一语音样本集中的任一第一语音样本,通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征。
162.在一种可能的实现方式中,所述第一获得模块51用于:
163.获取第二语音样本集,其中,所述第二语音样本集包括多个说话人对应的多个第二语音样本,以及与所述多个第二语音样本对应的多个情感分类标签;
164.采用所述第二语音样本集训练所述语音情感识别模型,直至满足第一预设训练条件;
165.对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或说话人识别模型,得到所述第二语音样本对应的语音特征;
166.将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果;
167.根据所述第二语音样本对应的情感分类预测结果和第二所述语音样本对应的情感分类标签,更新所述第二模块的参数。
168.在一种可能的实现方式中,所述第一获得模块51用于:
169.对于第二语音样本集中的任一第二语音样本,通过所述第一模块得到所述第二语音样本对应的第一语音特征,并通过说话人识别模型得到所述第二语音样本对应的第二语音特征;根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征;
170.将所述第二语音样本对应的第三语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果。
171.在一种可能的实现方式中,所述说话人识别模型为轻量模型。
172.在一种可能的实现方式中,所述说话人识别模型至少部署在所述目标用户对应的用户终端上;
173.所述第二获得模块53用于:通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征;
174.所述第三获得模块54用于:将所述第一语音样本对应的第二语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
175.在一种可能的实现方式中,所述第二获得模块53用于:
176.响应于所述目标用户请求在所述用户终端上保留所述第一语音样本集,通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征。
177.在一种可能的实现方式中,
178.所述第二获得模块53用于:响应于所述目标用户同意上传所述第一语音样本集,通过所述第一模块得到所述第一语音样本对应的第一语音特征;
179.所述第三获得模块54用于:将所述第一语音样本对应的第一语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。
180.本公开实施例还提供了一种语音情感识别装置,所述语音情感识别装置包括:
181.第二获取模块,用于获取所述语音情感识别模型的训练装置训练完成的语音情感识别模型;
182.语音情感识别模块,用于将待处理语音输入所述训练完成的语音情感识别模型,通过所述训练完成的语音情感识别模型得到所述待处理语音对应的情感分类标签。
183.在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现和技术效果可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
184.本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。其中,所述计算机可读存储介质可以是非易失性计算机可读存储介质,或者可以是易失性计算机可读存储介质。
185.本公开实施例还提出一种计算机程序,包括计算机可读代码,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述方法。
186.本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述方法。
187.本公开实施例还提供一种电子设备,包括:一个或多个处理器;用于存储可执行指令的存储器;其中,所述一个或多个处理器被配置为调用所述存储器存储的可执行指令,以执行上述方法。
188.电子设备可以被提供为终端、服务器或其它形态的设备。
189.图6示出本公开实施例提供的电子设备1900的框图。例如,电子设备1900可以被提供为一服务器或一终端。参照图6,电子设备1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
190.电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入/输出接口1958(i/o接口)。电子设备1900可以操作基于存储在存储器1932的操作系统,例如微软服务器操作系统(windows server
tm
),苹果公司推出的基于图形用户界面操作系统(mac os x
tm
),多用户多进程的计算机操作系统(unix
tm
),自由和开放原代码的类unix操作系统(linux
tm
),开放原代码的类unix操作系统(freebsd
tm
)或类似。
191.在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。
192.本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
193.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的
更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
194.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
195.用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
196.这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
197.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
198.也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
199.附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
200.该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
201.上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
202.若本公开实施例的技术方案涉及个人信息,应用本公开实施例的技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本公开实施例的技术方案涉及敏感个人信息,应用本公开实施例的技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。
203.以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
技术特征:
1.一种语音情感识别模型的训练方法,其特征在于,包括:获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块;获取目标用户对应的第一语音样本集,其中,所述第一语音样本集包括所述目标用户输入的多个第一语音样本,以及与所述多个第一语音样本对应的多个情感分类标签;对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征;将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果;根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,更新所述第二模块的参数。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获得训练完成的说话人识别模型;所述对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征,包括:对于所述第一语音样本集中的任一第一语音样本,通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征。3.根据权利要求1或2所述的方法,其特征在于,所述获得预训练的语音情感识别模型,包括:获取第二语音样本集,其中,所述第二语音样本集包括多个说话人对应的多个第二语音样本,以及与所述多个第二语音样本对应的多个情感分类标签;采用所述第二语音样本集训练所述语音情感识别模型,直至满足第一预设训练条件;对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或说话人识别模型,得到所述第二语音样本对应的语音特征;将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果;根据所述第二语音样本对应的情感分类预测结果和第二所述语音样本对应的情感分类标签,更新所述第二模块的参数。4.根据权利要求3所述的方法,其特征在于,所述对于第二语音样本集中的任一第二语音样本,通过所述第一模块和/或说话人识别模型,得到所述第二语音样本对应的语音特征,包括:对于第二语音样本集中的任一第二语音样本,通过所述第一模块得到所述第二语音样本对应的第一语音特征,并通过说话人识别模型得到所述第二语音样本对应的第二语音特征;根据所述第二语音样本对应的第一语音特征和所述第二语音样本对应的第二语音特征,得到所述第二语音样本对应的第三语音特征;所述将所述第二语音样本对应的语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果,包括:将所述第二语音样本对应的第三语音特征输入所述第二模块,得到所述第二语音样本对应的情感分类预测结果。5.根据权利要求2所述的方法,其特征在于,所述说话人识别模型为轻量模型。6.根据权利要求5所述的方法,其特征在于,所述说话人识别模型至少部署在所述目标
用户对应的用户终端上;所述通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征,包括:通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征;所述将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,包括:将所述第一语音样本对应的第二语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。7.根据权利要求6所述的方法,其特征在于,所述通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征,包括:响应于所述目标用户请求在所述用户终端上保留所述第一语音样本集,通过部署在所述目标用户对应的用户终端上的说话人识别模型,得到所述第一语音样本对应的第二语音特征。8.根据权利要求2所述的方法,其特征在于,所述通过所述第一模块和/或所述说话人识别模型,得到所述第一语音样本对应的语音特征,包括:响应于所述目标用户同意上传所述第一语音样本集,通过所述第一模块得到所述第一语音样本对应的第一语音特征;所述将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果,包括:将所述第一语音样本对应的第一语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果。9.一种语音情感识别方法,其特征在于,包括:获取如权利要求1至8中任意一项所述的语音情感识别模型的训练方法训练完成的语音情感识别模型;将待处理语音输入所述训练完成的语音情感识别模型,通过所述训练完成的语音情感识别模型得到所述待处理语音对应的情感分类标签。10.一种语音情感识别模型的训练装置,其特征在于,包括:第一获得模块,用于获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块;第一获取模块,用于获取目标用户对应的第一语音样本集,其中,所述第一语音样本集包括所述目标用户输入的多个第一语音样本,以及与所述多个第一语音样本对应的多个情感分类标签;第二获得模块,用于对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征;第三获得模块,用于将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果;更新模块,用于根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,更新所述第二模块的参数。11.一种语音情感识别装置,其特征在于,包括:第二获取模块,用于获取如权利要求10所述的语音情感识别模型的训练装置训练完成的语音情感识别模型;
语音情感识别模块,用于将待处理语音输入所述训练完成的语音情感识别模型,通过所述训练完成的语音情感识别模型得到所述待处理语音对应的情感分类标签。12.一种电子设备,其特征在于,包括:一个或多个处理器;用于存储可执行指令的存储器;其中,所述一个或多个处理器被配置为调用所述存储器存储的可执行指令,以执行权利要求1至9中任意一项所述的方法。13.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至9中任意一项所述的方法。
技术总结
本公开涉及一种语音情感识别方法、装置、电子设备和存储介质。所述方法包括:获得预训练的语音情感识别模型,其中,所述语音情感识别模型包括第一模块和第二模块;获取目标用户对应的第一语音样本集,其中,所述第一语音样本集包括所述目标用户输入的多个第一语音样本,以及与所述多个第一语音样本对应的多个情感分类标签;对于所述第一语音样本集中的任一第一语音样本,获得所述第一语音样本对应的语音特征;将所述第一语音样本对应的语音特征输入所述第二模块,得到所述第一语音样本对应的情感分类预测结果;根据所述第一语音样本对应的情感分类预测结果和所述第一语音样本对应的情感分类标签,更新所述第二模块的参数。更新所述第二模块的参数。更新所述第二模块的参数。
技术研发人员:请求不公布姓名
受保护的技术使用者:摩尔线程智能科技(北京)有限责任公司
技术研发日:2023.04.13
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/