音频合成方法、装置、设备及存储介质与流程
未命名
07-15
阅读:79
评论:0
1.本公开涉及计算机技术领域,尤其涉及一种音频合成方法、装置、设备及存储介质。
背景技术:
2.目前,音频合成技术得到了快速发展,且在生成中性风格音频(也可以称为中性风格语音)时已经可以得到较好的效果。中性风格音频即不存在任何情感色彩的音频。
3.然而,对于智能语音服务和有声小说等应用场景来说,中性风格音频的表现力水平往往难以达到要求,无法体现出喜悦和悲伤等各种语音风格。
技术实现要素:
4.本公开提供一种音频合成方法、装置、设备及存储介质,用于提高合成音频的表现力水平以满足各类应用场景的需求。
5.本公开实施例的技术方案如下:
6.根据本公开实施例的第一方面,提供一种音频合成方法,包括:获取待合成信息;待合成信息包括待处理文本序列、目标音色信息和源语音风格信息;将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息;待处理音素序列为对待处理文本序列进行编码处理后得到的;韵律预测信息用于表征待处理音素序列中各音素的韵律信息;将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列;声学特征序列的音色信息为目标音色信息;根据声学特征序列进行音频合成处理,得到待合成信息对应的音频。
7.可选地,待合成信息还包括风格程度调整参数;风格程度调整参数用于调整源语音风格信息对应的语音风格的风格程度;音频合成方法,还包括:根据风格程度调整参数对源语音风格信息进行调整处理,得到调整后源语音风格信息;将待处理音素序列和调整后源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到韵律预测信息。
8.可选地,将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息的方法,具体包括:对待处理音素序列和源语音风格信息进行音素级别预测处理,得到音素级别预测信息;音素级别预测信息包括待处理音素序列中各音素的音高预测信息、音强预测信息和音长预测信息;按照音素级别预测信息对待处理音素序列中的各音素进行扩展处理,得到扩展后音素序列;对扩展后音素序列进行帧级别预测处理,得到帧级别预测信息;帧级别预测信息包括各音素对应的至少一个音频帧的音高预测信息和音强预测信息;将各音素对应的至少一个音频帧的音高预测信息的平均值,和各音素对应的至少一个音频帧的音强预测信息的平均值,确定为各音素的平均音高信息和平均音强信息,得到韵律预测信息。
9.可选地,该音频合成方法,还包括:获取多个样本音素序列和多个参考语音风格信
息;将样本音素序列和参考语音风格信息输入至初始韵律预测模型,进行韵律预测处理,得到韵律预测处理过程中的音素级别处理结果和帧级别处理结果;音素级别处理结果包括样本音素序列中各音素的音高预测信息和音强预测信息;帧级别处理结果包括样本音素序列中各音素对应的至少一个音频帧的音高预测信息和音强预测信息;根据音素级别处理结果和参考语音风格信息,确定音素级别预测损失值;根据帧级别处理结果和参考语音风格信息,确定帧级别预测损失值;根据音素级别预测损失值和帧级别预测损失值,对初始韵律预测模型进行训练,直至音素级别预测损失值小于第一阈值、且帧级别预测损失值小于第二阈值时,得到韵律预测模型。
10.可选地,获取多个参考语音风格信息的方法,还包括:将多个参考音频数据输入至风格提取模型进行风格提取处理,得到多个参考语音风格信息;风格提取模型为基于多个第一音频数据和多个第二音频数据训练得到的;第一音频数据用于表征具备风格标签和音色标签的音频数据;第二音频数据用于表征不具备风格标签、且具备音色标签的音频数据。
11.可选地,音频合成方法,还包括:获取多个第一音频数据和多个第二音频数据;将多个第一音频数据和多个第二音频数据输入至初始风格提取模型,进行风格提取处理,得到多个风格处理结果;确定多个风格处理结果的音色分类结果,以及第一处理结果的风格分类结果;第一处理结果用于表征多个风格处理结果中与第一音频数据对应的风格处理结果;根据多个风格处理结果的音色分类结果,和多个与风格处理结果对应的音色标签,确定音色分类损失;根据第一处理结果的风格分类结果,和与第一处理结果对应的风格标签,确定风格分类损失;根据音色分类损失和风格分类损失对初始风格提取模型进行训练,直至音色分类损失大于第三阈值、且风格分类损失小于第四阈值时,得到风格提取模型。
12.可选地,该音频合成方法,还包括:获取多个样本音色信息对和多个样本输入信息;样本音色信息对包括两个不同的第一音色信息和第二音色信息;样本输入信息包括样本音素序列、参考语音风格信息和样本韵律预测信息;将第一音色信息和第二音色信息,分别与样本输入信息组合后,输入至初始声学特征预测模型进行声学特征预测处理,得到第一声学特征序列和第二声学特征序列;分别对第一声学特征序列和第二声学特征序列进行风格提取处理,得到第一语音风格信息和第二语音风格信息;根据第一语音风格信息和第二语音风格信息,确定第一风格损失值;根据第二语音风格信息和参考语音风格信息,确定第二风格损失值;根据第一风格损失值和第二风格损失值对初始声学特征预测模型进行训练,直至第一风格损失值小于第五阈值、且第二风格损失值小于第六阈值时,得到声学特征预测模型。
13.根据本公开实施例的第二方面,提供一种音频合成装置,包括:获取单元和处理单元;
14.获取单元,被配置为获取待合成信息;待合成信息包括待处理文本序列、目标音色信息和源语音风格信息;处理单元,被配置为将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息;待处理音素序列为对待处理文本序列进行编码处理后得到的;韵律预测信息用于表征待处理音素序列中各音素的韵律信息;处理单元,还被配置为将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列;声学特征序列的音色信息为目标音色信息;处理单元,还被配置为根据声学特征序列
进行音频合成处理,得到待合成信息对应的音频。
15.可选地,待合成信息还包括风格程度调整参数;风格程度调整参数用于调整源语音风格信息对应的语音风格的风格程度;处理单元,还被配置为根据风格程度调整参数对源语音风格信息进行调整处理,得到调整后源语音风格信息;处理单元,还被配置为将待处理音素序列和调整后源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到韵律预测信息。
16.可选地,处理单元,具体被配置为:对待处理音素序列和源语音风格信息进行音素级别预测处理,得到音素级别预测信息;音素级别预测信息包括待处理音素序列中各音素的音高预测信息、音强预测信息和音长预测信息;按照音素级别预测信息对待处理音素序列中的各音素进行扩展处理,得到扩展后音素序列;对扩展后音素序列进行帧级别预测处理,得到帧级别预测信息;帧级别预测信息包括各音素对应的至少一个音频帧的音高预测信息和音强预测信息;将各音素对应的至少一个音频帧的音高预测信息的平均值,和各音素对应的至少一个音频帧的音强预测信息的平均值,确定为各音素的平均音高信息和平均音强信息,得到韵律预测信息。
17.可选地,该音频合成装置还包括:确定单元;获取单元,还被配置为获取多个样本音素序列和多个参考语音风格信息;处理单元,还被配置为将样本音素序列和参考语音风格信息输入至初始韵律预测模型,进行韵律预测处理,得到韵律预测处理过程中的音素级别处理结果和帧级别处理结果;音素级别处理结果包括样本音素序列中各音素的音高预测信息和音强预测信息;帧级别处理结果包括样本音素序列中各音素对应的至少一个音频帧的音高预测信息和音强预测信息;确定单元,被配置为根据音素级别处理结果和参考语音风格信息,确定音素级别预测损失值;确定单元,还被配置为根据帧级别处理结果和参考语音风格信息,确定帧级别预测损失值;处理单元,还被配置为根据音素级别预测损失值和帧级别预测损失值,对初始韵律预测模型进行训练,直至音素级别预测损失值小于第一阈值、且帧级别预测损失值小于第二阈值时,得到韵律预测模型。
18.可选地,获取单元,具体被配置为:将多个参考音频数据输入至风格提取模型进行风格提取处理,得到多个参考语音风格信息;风格提取模型为基于多个第一音频数据和多个第二音频数据训练得到的;第一音频数据用于表征具备风格标签和音色标签的音频数据;第二音频数据用于表征不具备风格标签、且具备音色标签的音频数据。
19.可选地,获取单元,还被配置为获取多个第一音频数据和多个第二音频数据;处理单元,还被配置为将多个第一音频数据和多个第二音频数据输入至初始风格提取模型,进行风格提取处理,得到多个风格处理结果;确定单元,还被配置为确定多个风格处理结果的音色分类结果,以及第一处理结果的风格分类结果;第一处理结果用于表征多个风格处理结果中与第一音频数据对应的风格处理结果;确定单元,还被配置为根据多个风格处理结果的音色分类结果,和多个与风格处理结果对应的音色标签,确定音色分类损失;确定单元,还被配置为根据第一处理结果的风格分类结果,和与第一处理结果对应的风格标签,确定风格分类损失;处理单元,还被配置为根据音色分类损失和风格分类损失对初始风格提取模型进行训练,直至音色分类损失大于第三阈值、且风格分类损失小于第四阈值时,得到风格提取模型。
20.可选地,获取单元,还被配置为获取多个样本音色信息对和多个样本输入信息;样
本音色信息对包括两个不同的第一音色信息和第二音色信息;样本输入信息包括样本音素序列、参考语音风格信息和样本韵律预测信息;处理单元,还被配置为将第一音色信息和第二音色信息,分别与样本输入信息组合后,输入至初始声学特征预测模型进行声学特征预测处理,得到第一声学特征序列和第二声学特征序列;处理单元,还被配置为分别对第一声学特征序列和第二声学特征序列进行风格提取处理,得到第一语音风格信息和第二语音风格信息;确定单元,还被配置为根据第一语音风格信息和第二语音风格信息,确定第一风格损失值;确定单元,还被配置为根据第二语音风格信息和参考语音风格信息,确定第二风格损失值;处理单元,还被配置为根据第一风格损失值和第二风格损失值对初始声学特征预测模型进行训练,直至第一风格损失值小于第五阈值、且第二风格损失值小于第六阈值时,得到声学特征预测模型。
21.根据本公开实施例的第三方面,提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现如第一方面中任一种可选的音频合成方法。
22.根据本公开实施例的第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面中任一种可选的音频合成方法。
23.根据本公开实施例的第五方面,提供一种计算机程序产品,包括指令,当指令在电子设备上的处理器运行时,使得电子设备执行如第一方面中任一种可选的音频合成方法。
24.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
25.本公开的实施例提供的技术方案至少带来以下有益效果:
26.基于上述任一方面,本公开提供的音频合成方法中,服务器在获取包括待处理文本序列、目标音色信息和源语音风格信息的待合成信息,且对待处理文本序列进行编码处理得到待处理音素序列后,可以将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息,并进一步将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列,从而可以根据声学特征序列进行音频合成处理,得到待合成信息对应的音频。其中,韵律预测信息可以用于表征待处理音素序列中各音素的韵律信息,且声学特征序列的音色信息为目标音色信息。
27.基于此,在目标说话人不具备丰富的语音风格(例如喜悦和悲伤等)的情况下,可以选择语音风格较丰富的源说话人,并将来自于源说话人的源语音风格信息,迁移到目标说话人的目标音色信息上,得到具备各种语音风格的目标说话人的音频。并且,本公开中可以在通过韵律预测模型得到音素级别的韵律特征(即各音素的韵律信息)后,进一步通过声学特征预测模型对源语音风格信息进行声学特征预测处理,从而提升合成音频中包括的源语音风格信息的丰富程度,避免合成音频中源语音风格的失真问题。因此,本公开可以用于提高合成音频的表现力水平以满足各类应用场景的需求。
附图说明
28.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施
例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
29.图1示出了本公开实施例提供的一种音频合成系统的框架示意图;
30.图2示出了本公开实施例提供的一种音频合成系统的结构示意图;
31.图3示出了本公开实施例提供的一种音频合成方法的流程示意图一;
32.图4示出了本公开实施例提供的一种音频合成方法的流程示意图二;
33.图5示出了本公开实施例提供的一种音频合成方法的流程示意图三;
34.图6示出了本公开实施例提供的一种音频合成方法的流程示意图四;
35.图7示出了本公开实施例提供的一种模型训练流程的示意图一;
36.图8示出了本公开实施例提供的一种音频合成方法的流程示意图五;
37.图9示出了本公开实施例提供的一种模型的结构示意图一;
38.图10示出了本公开实施例提供的一种音频合成方法的流程示意图六;
39.图11示出了本公开实施例提供的一种模型训练流程的示意图二;
40.图12示出了本公开实施例提供的一种模型的结构示意图二;
41.图13示出了本公开实施例提供的一种韵律特征的示意图;
42.图14示出了本公开实施例提供的一种音频合成装置的结构示意图;
43.图15示出了本公开实施例提供的一种终端的结构示意图;
44.图16示出了本公开实施例提供的又一种服务器的结构示意图。
具体实施方式
45.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
46.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
47.还应当理解的是,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件的存在或添加。
48.本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。
49.音频合成技术是智能语音交互的核心技术之一,往往可以直接影响人机交互的实际效果。可以用于将文本序列转换为自然逼真的音频波形,涉及语音信号处理、模式识别、自然语言处理、声学和语言学等多个学科,是信息处理领域不可或缺的一门关键技术。随着硬件运算能力的不断提高和机器学习技术研究的不断深入,音频合成技术逐渐从最初的基于语言学规则的参数音频合成,发展成基于大语料库拼接合成和基于统计参数的音频合成,合成音频的多方面听感都得到了明显提升。
50.目前,主流的音频合成方法为基于波形拼接的音频合成方法、基于统计声学建模的音频合成方法和端到端的音频合成方法。端到端的音频合成方法由于结构相对简单、不依赖较多专家知识和独立于语言等特点,已成为当前的热点研究内容,且在很多场景中都
取得了成功应用。例如医院和银行等公共场合的语音播报系统、电子小说和电子讲解系统等有声读物、地图导航和自动问答类的信息查询系统等。并且,随着便携式智能终端的迅速普及,音频合成技术也逐渐向智能语音机器人、智慧家庭和语音教学等越来越多的现实场景渗透。
51.图1示出了一种端到端的音频合成系统的框架示意图。端到端的音频合成系统按照功能可以划分为前端文本分析和后端波形合成两大部分。前端部分用于为输入文本提供文本分析功能,得到文本分析结果。后端部分用于将得到的文本分析结果进行波形合成。
52.近年来,基于神经网络的端到端音频合成模型得到了飞速发展,生成的中性风格音频已经可以达到相当高质量的程度。但是在新闻播报和有声小说等较多场景下,中性风格音频的语调往往会显得单调,不符合文本的语境需求。
53.为了提升这类场景下音频的表现力,需要着重考虑音频的韵律信息(即发音风格)的建模。合理的发音风格会提升音频的整体表现力。文本到音频是一个高度上采样过程,同一文本可以对应不同风格的音频。因此,需要对文本以外的风格信息进行独立的建模,以合成具备各种语音风格的音频,从而满足各类应用场景对于合成音频表现力水平的需求。
54.基于此,本公开实施例提供一种音频合成方法,服务器在获取包括待处理文本序列、目标音色信息和源语音风格信息的待合成信息,且对待处理文本序列进行编码处理得到待处理音素序列后,可以将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息,并进一步将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列,从而可以根据声学特征序列进行音频合成处理,得到待合成信息对应的音频。其中,韵律预测信息可以用于表征待处理音素序列中各音素的韵律信息,且声学特征序列的音色信息为目标音色信息。
55.基于此,在目标说话人不具备丰富的语音风格(例如喜悦和悲伤等)的情况下,可以选择语音风格较丰富的源说话人,并将来自于源说话人的源语音风格信息,迁移到目标说话人的目标音色信息上,得到具备各种语音风格的目标说话人的音频。并且,本公开中可以在通过韵律预测模型得到音素级别的韵律特征(即各音素的韵律信息)后,进一步通过声学特征预测模型对源语音风格信息进行声学特征预测处理,从而提升合成音频中包括的源语音风格信息的丰富程度,避免合成音频中源语音风格的失真问题。因此,本公开可以用于提高合成音频的表现力水平以满足各类应用场景的需求。
56.图2为本公开实施例提供的一种音频合成系统的示意图,如图2所示,该音频合成系统100中可以包括:终端101和服务器102,终端101可以通过有线网络或无线网络与服务器102之间建立连接。
57.可选的,图2中的终端101和服务器102可以是集成于同一个设备内的功能模块,也可以是两个相互独立设置的设备。本公开实施例对此不作限制。
58.容易理解的是,当终端101和服务器102是集成于同一个设备内的功能模块时,终端101和服务器102之间的通信方式为设备内部模块之间的通信。这种情况下,二者之间的通信流程与“终端101和服务器102相互独立设置的情况下,二者之间的通信流程”相同。
59.为了便于理解,本技术主要以终端101和服务器102相互独立设置为例进行说明。
60.图2中的终端101可以配置有音频合成应用程序的客户端,和/或具备音频合成功
能的内容社区应用程序的客户端等,以向用户提供音频合成服务。
61.一种可能的方式中,终端101可以配置有输入模块和显示模块。输入模块可以是鼠标、键盘和触摸屏等,用于支持用户执行各种操作(例如文本编辑操作和点击操作等)。显示模块可以是液晶屏幕等,用于显示各种界面(例如文本编辑界面等)。
62.可选的,终端101可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,pda)、增强现实(augmented reality,ar)\虚拟现实(virtual reality,vr)设备等可以安装并使用音频合成和/或内容社区等应用程序的设备,本公开对该终端的具体形态不作特殊限制。其可以与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。
63.图2中的服务器102可以配置有音频合成应用程序的服务端,和/或具备音频合成功能的内容社区应用程序的服务端等,用于针对终端101配置的客户端提供各种数据和服务。例如,针对于文本序列的编码服务和音频波形的合成服务等。
64.可选的,图2中的服务器102可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。
65.可选地,上述图2所示的音频合成系统中,服务器102可以与至少一个终端101连接。本公开对终端101的数量及类型均不作限制。
66.需要说明的是,上述终端101和服务器102均可以称为电子设备。
67.本公开实施例提供的音频合成方法可以应用于图2所示的音频合成系统100中的服务器102。
68.下面结合附图对本公开实施例提供的音频合成方法进行详细介绍。
69.如图3所示,该音频合成方法可以包括:s301-s304。
70.s301、服务器获取待合成信息。
71.其中,待合成信息可以包括待处理文本序列、目标音色信息、和源语音风格信息。
72.可选地,待处理文本序列可以是一个词组,也可以是一个句子,还可以是一段文字。
73.一种可能的方式中,目标音色信息可以是用于表征目标说话人的音色特征的向量信息,也可以用于指示该目标说话人的音色特征的向量信息的标识信息。
74.一种可能的方式中,源语音风格信息可以是用于表征源说话人的语音风格特征的向量信息,也可以是用于指示该源说话人的语音风格特征的向量信息的标识信息。例如,源语音风格信息可以是源说话人带有喜悦感情色彩的语音风格信息,也可以是源说话人带有悲伤感情色彩的语音风格信息等。具体的,源语音风格信息可以包括源说话人带有特定感情色彩说话时发音各音素的音高、音强和音长等特征信息,以及字与字之间、词组与词组之间和句子与句子之间的停顿信息,语速信息和轻重音分布信息等特征信息。特定感情色彩可以是喜悦感情色彩、悲伤感情色彩和恐怖感情色彩等。
75.一种可能的方式中,用户可以通过终端配置的输入模块执行文本编辑操作,以编辑待处理文本序列。响应于用户执行的文本编辑操作,终端可以生成待处理文本序列。并且,终端可以通过配置的显示模块显示多个目标音色信息。例如多个不同的目标说话人的
头像信息等。终端还可以通过配置的显示模块显示多个源语音风格信息。例如多个不同的源说话人的头像信息,以及与每个源说话人的头像信息对应的的多个不同感情色彩的语音风格。用户可以通过终端配置的输入模块,对目标音色信息执行音色选中操作(例如点击头像等),并对源语音风格信息执行风格选中操作。响应于用户执行的音色选中操作和风格选中操作,终端可以分别确定目标音色信息和源语音风格信息。
76.接着,用户可以通过终端配置的输入模块执行音频合成操作(例如点击合成按钮)。响应于用户执行的音频合成操作,终端可以将待处理文本序列、目标音色信息和源语音风格信息作为待合成信息,将该待合成信息添加在音频合成请求中,并向服务器发送该音频合成请求。相应的,服务器可以接收到来自于终端的音频合成请求,并解析音频合成请求确定待处理文本序列、目标音色信息和源语音风格信息,得到待合成信息。
77.一种可能的方式中,服务器可以配置有存储模块。待合成信息也可以由工作人员预先存储在该存储模块中。基于此,服务器也可以在该存储模块中,读取到待合成信息。
78.s302、服务器将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息。
79.其中,待处理音素序列可以是对待处理文本序列进行编码处理后得到的。韵律预测信息可以用于表征待处理音素序列中各音素的韵律信息。韵律信息即音高信息、音强信息和音长信息。
80.一种可能的方式中,韵律预测模型可以是基于多个样本音素序列和多个参考语音风格信息训练得到的。其中,多个参考语音风格信息中的一个参考语音风格信息可以是源语音风格信息。具体的,关于训练得到韵律预测模型的具体流程,可以参考下述s601-s605中的描述,在此不再赘述。
81.一种可能的方式中,服务器获取到待处理文本序列后,可以对待处理文本序列进行编码处理,得到待处理音素序列。待处理音素序列可以用于描述待处理文本序列中各文字的音素信息,以及各文字之间的组合信息等的向量序列。
82.一种可能的方式中,服务器可以预先配置有包括字音转换层和编码层的文本编码模块。字音转换层可以用于对待处理文本序列进行字音转换处理,得到待处理文本序列中各文字对应的音素。编码层可以对待处理文本序列中各文字对应的音素进行编码,得到用于描述待处理文本序列中各文字的音素信息,以及各文字之间的组合信息等的向量序列,以便于后续处理。基于此,服务器可以通过该文本编码模块对待处理文本序列进行编码处理。
83.一种可能的方式中,为了待合成信息对应的音频具备源语音风格信息中的韵律特征,服务器可以将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到韵律预测信息。具体而言,服务器可以先对待处理音素序列和源语音风格信息进行音素级别预测处理,再根据音素级别预测处理的处理结果对待处理音素序列进行扩展处理,并对扩展后的音素序列进行帧级别预测处理,得到帧级别预测信息,从而通过计算各音素对应的音频帧的预测信息均值,得到韵律预测信息。关于该过程的具体实现方式,可以参考下述s501-s504中的描述,在此不再赘述。
84.s303、服务器将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列。
85.其中,声学特征序列的音色信息为目标音色信息。声学特征序列可以用于表征待处理音素序列中各音素对应的至少一个音频帧的声学特征。声学特征即音高特征、音强特征、音长特征和音色特征。
86.一种可能的方式中,声学特征预测模型可以是基于多个样本音色信息对和多个样本输入信息训练得到的。其中,样本音色信息对可以包括两个不同的第一音色信息和第二音色信息。第一音色信息或者第二音色信息可以是目标音色信息。样本输入信息可以包括样本音素序列、参考语音风格信息和样本韵律预测信息。样本韵律预测信息可以是基于样本音素序列和参考语音风格信息进行韵律预测得到的。具体的,关于训练得到声学特征预测模型的具体流程,可以参考下述s901-s906中的描述,在此不再赘述。
87.一种可能的方式中,声学特征预测模型可以包括注意力层和解码层。注意力层可以用于对输入数据进行参数化处理,以使得解码层对输入数据进行完整处理。解码层可以用于将输入数据划分为预设长度的音频帧,并预测各音频帧的声学特征,从而进一步组合各音频帧得到声学特征序列。其中,音频帧的长度可以有工作人员预先设置在编码层中。例如,音频帧的长度可以是10毫秒,也可以是20毫秒等。
88.一种可能的方式中,声学特征预测模型包括的解码层可以是自回归解码层。
89.一种可能的方式中,为了使合成音频(即待合成信息对应的音频)具备目标说话人的音色特征,以及进一步提升合成音频包括的源语音风格信息的丰富程度,避免合成音频中源语音风格信息的失真问题,服务器通过韵律预测模型得到各音素的韵律特征后,还可以将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,以将待处理音素序列中的各音素划分为至少一个音频帧,并根据目标音色信息、源语音风格信息和韵律预测信息,依次确定各音频帧声学特征,得到声学特征序列。
90.一种可能的方式中,声学特征序列可以具备源语音风格信息和目标音信息的梅尔频谱。
91.s304、服务器根据声学特征序列进行音频合成处理,得到待合成信息对应的音频。
92.一种可能的方式中,服务器可以根据声学特征序列进行音频合成处理,合成与待合成信息对应的音频。该合成得到的音频可以是发音音色为目标音色、且具备源语音风格的音频,以对待处理文本序列进行表现,满足有声小说和语音导航等特定场景的业务需求。
93.可选地,服务器可以通过神经网络声码器对声学特征序列进行音频合成处理,也可以通过其他方式对声学特征序列进行音频合成处理。其中,神经网络声码器可以通过深度神经网络建立频谱与音频之间的联系,输出音频波形。
94.上述实施例提供的技术方案至少带来以下有益效果:由s301-s304可知,服务器在获取包括待处理文本序列、目标音色信息和源语音风格信息的待合成信息,且对待处理文本序列进行编码处理得到待处理音素序列后,可以将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息,并进一步将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列,从而可以根据声学特征序列进行音频合成处理,得到待合成信息对应的音频。其中,韵律预测信息可以用于表征待处理音素序列中各音素的韵律信息,且声学特征序列的音色信息为目标音色信息。
95.基于此,在目标说话人不具备丰富的语音风格(例如喜悦和悲伤等)的情况下,可以选择语音风格较丰富的源说话人,并将来自于源说话人的源语音风格信息,迁移到目标说话人的目标音色信息上,得到具备各种语音风格的目标说话人的音频。并且,本公开中可以在通过韵律预测模型得到音素级别的韵律特征(即各音素的韵律信息)后,进一步通过声学特征预测模型对源语音风格信息进行声学特征预测处理,从而提升合成音频中包括的源语音风格信息的丰富程度,避免合成音频中源语音风格的失真问题。因此,本公开可以用于提高合成音频的表现力水平以满足各类应用场景的需求。
96.一种实施例中,如图4所示,本公开实施例提供的音频合成方法,还包括:s401-s402。
97.s401、服务器根据风格程度调整参数对源语音风格信息进行调整处理,得到调整后源语音风格信息。
98.一种可能的方式中,待合成信息还可以包括风格程度调整参数。风格程度调整参数可以用于调整源语音风格信息对应的语音风格的风格程度。
99.一种可能的方式中,用户通过终端配置的输入模块执行风格选中操作时,还可以执行参数编辑操作(例如拖动数值条等)。响应于用户执行的参数配置操作,终端可以确定风格程度调整参数,并将风格程度调整参数携带在音频合成请求中发送至服务器。相应的,服务器可以通过解析音频合成请求,得到风格程度调整参数。
100.基于此,服务器对待处理音素序列进行韵律预测处理之前,可以根据风格程度调整参数对源语音风格信息进行调整处理,即对源语音风格信息进行缩放处理,得到调整后源语音风格信息,以调整与待合成信息对应的音频中的语音风格的风格程度。
101.示例性的,若源语音风格信息的语音风格是喜悦风格、且风格程度调整参数是0.5时,则调整后源语音风格信息的语音风格可以是轻度喜悦风格。若源语音风格信息的语音风格是喜悦风格、且风格程度调整参数是1时,则调整后源语音风格信息的语音风格可以是中等程度喜悦风格。若源语音风格信息的语音风格是喜悦风格、且风格程度调整参数是1.5时,则调整后源语音风格信息的语音风格可以是重度喜悦风格。
102.s402、服务器将待处理音素序列和调整后源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到韵律预测信息。
103.一种可能的方式中,服务器在得到调整后源语音风格信息后,可以将待处理音素序列和调整后源语音风格信息输入至韵律预测模型,进行韵律预测处理,以得到具备调整后源语音风格的韵律预测信息。
104.上述实施例提供的技术方案至少带来以下有益效果:由s401-s402可知,服务器可以根据风格程度调整参数对源语音风格信息进行调整处理,得到调整后源语音风格信息,并进一步基于调整后源语音风格信息进行韵律预测处理,得到具备调整后源语音风格的韵律预测信息。基于此,本公开合成得到的音频可以具备与风格程度调整参数对应的风格程度的源语音风格(例如喜悦和悲伤等),以通过细粒度的源语音风格(例如轻微悲伤和十分悲伤等)对待处理文本序列进行表现,从而更好地满足各类应用场景的需求。因此,本公开可以提高合成音频的表现力水平。
105.一种实施例中,结合图3,在上述s302中,即服务器将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信
息时,如图5所示,本公开实施例提供一种可选地实现方式,包括:s501-s504。
106.s501、服务器对待处理音素序列和源语音风格信息进行音素级别预测处理,得到音素级别预测信息。
107.其中,音素级别预测信息包括待处理音素序列中各音素的音高预测信息、音强预测信息和音长预测信息。
108.一种可能的方式中,韵律预测模型可以包括音素级别预测模块。音素级别预测模块可以包括2层一维卷积层和一层全连接层。
109.一种可能的方式中,服务器将待处理音素序列和源语音风格信息输入至韵律预测模型后,可以通过韵律预测模型的音素级别预测模块,对待处理音素序列和源语音风格信息进行音素级别预测处理,以根据源语音风格信息待处理预测音素序列中各个音素的韵律信息,得到音素级别预测信息。
110.s502、服务器按照音素级别预测信息对待处理音素序列中的各音素进行扩展处理,得到扩展后音素序列。
111.一种可能的方式中,韵律预测模型还可以包括长度扩展模块。长度扩展模块可以用于扩展待处理音素序列的长度。例如,长度扩展模块可以增加或减少待处理音素序列中各音素的持续时间,还可以更改空白标记的持续时间以调整音素之间的间隔等。
112.一种可能的方式中,服务器可以通过韵律预测模型的长度扩展模块,对待处理音素序列和音素级别预测信息进行扩展处理,以将待处理音素序列中各音素的音高预测信息和音强预测信息嵌入在待处理音素序列中,并按照各音素的音长预测信息调整待处理音素序列的长度。
113.s503、服务器对扩展后音素序列进行帧级别预测处理,得到帧级别预测信息。
114.其中,帧级别预测信息包括各音素对应的至少一个音频帧的音高预测信息和音强预测信息。音频帧的长度可以由工作人员预先设置在帧级别预测子模块内。
115.一种可能的方式中,韵律预测模型还可以包括帧级别预测模块。帧级别预测模块可以包括2层一维卷积层和一层全连接层。进一步地,帧级别预测模块中还可以由工作人员预先设置音频帧的长度。
116.一种可能的方式中,服务器可以通过韵律预测模型的帧级别预测模块,对扩展后音素序列进行帧级别预测处理,以基于各音素的音长预测信息,将各音素划分为至少一个音频帧,并进一步确定各音频帧的音高预测信息和音强预测信息,得到帧级别预测信息。
117.s504、服务器将各音素对应的至少一个音频帧的音高预测信息的平均值,和各音素对应的至少一个音频帧的音强预测信息的平均值,确定为各音素的平均音高信息和平均音强信息,得到韵律预测信息。
118.其中,韵律预测信息可以包括待处理音素序列中各音素的平均音高信息、平均音强信息,以及音素级别预测信息中的音长预测信息。
119.一种可能的方式中,韵律预测模型还可以包括下采样模块。下采样模块可以用于计算各音素对应的至少一个音频帧的音高预测信息的均值和音强预测信息的均值,以对预测的帧级别信息进行下采样。
120.一种可能的方式中,服务器可以通过韵律预测模型的下采样模块,确定各音素对应的至少一个音频帧的音高预测信息的平均值,和各音素对应的至少一个音频帧的音强预
测信息的平均值,得到各音素的平均音高信息和平均音强信息,实现对于帧级别预测信息的下采样,从而得到韵律预测信息。
121.上述实施例提供的技术方案至少带来以下有益效果:由s501-s504可知,韵律预测模型可以包括音素级别预测模块和帧级别预测模块。基于此,服务器可以对待处理音素序列依次进行音素级别和帧级别的预测处理,提高预测得到的各音素的韵律信息的准确性。进一步地,考虑到源语音风格信息中可能存在少量的源说话人的音色信息,容易导致合成音频中同时出现目标说话人的音色和源说话人的音色。本公开通过对帧级别预测处理得到的帧级别预测信息进行下采样处理,可以减少韵律预测信息中源说话人的音色信息,以避免合成音频中同时出现目标说话人和源说话人的音色,提高合成音频中音色信息的稳定性,从而提高合成音频的表现力水平。
122.一种实施例中,为了训练得到韵律预测模型,如图6所示,本公开实施例提供的音频合成方法,还包括:s601-s605。
123.s601、服务器获取多个样本音素序列和多个参考语音风格信息。
124.一种可能的方式中,工作人员可以预先在服务器配置的存储模块中设置多个样本文本序列。基于此,服务器可以从存储模块中读取到多个样本文本序列,并分别对多个样本文本序列进行编码处理,得到多个样本音素序列。
125.一种可能的方式中,工作人员还可以预先在服务器配置的存储模块中设置来自于多个不同的源说话人的参考音频数据。基于此,服务器可以从存储模块中读取到多个不同的源说话人的参考音频数据,并分别对多个参考音频数据进行风格提取处理,得到多个参考语音风格信息。或者,工作人员也可以直接在服务器配置的存储模块中设置多个参考语音风格信息。基于此,服务器可以直接从存储模块中读取多个参考语音风格信息。
126.一种可能的方式中,服务器可以基于预先训练好的风格提取模型对参考音频数据进行风格提取处理。
127.s602、服务器将样本音素序列和参考语音风格信息输入至初始韵律预测模型,进行韵律预测处理,得到韵律预测处理过程中的音素级别处理结果和帧级别处理结果。
128.其中,音素级别处理结果可以包括样本音素序列中各音素的音高预测信息和音强预测信息。帧级别处理结果可以包括样本音素序列中各音素对应的至少一个音频帧的音高预测信息和音强预测信息。
129.需要说明的是,在对初始韵律预测模型的训练过程中,基于的是未进行风格程度调整的参考语音风格信息,以便于确定训练过程中得到的预测值和真实值之间的差异。进一步地,对于组成初始韵律预测模型的音素级别预测模块、长度扩展模块、帧级别预测模块和下采样模块来说,长度扩展模块和下采样模块无需进行训练,相关参数可以由工作人员直接进行配置。音素级别预测模块和帧级别预测模块的相关参数则需要通过训练得到。
130.一种可能的方式中,如图7所示,为本公开提供的一种初始韵律预测模型的训练过程示意图。在对初始韵律预测模型进行训练时,服务器可以通过文本编码模块确定样本文本序列对应的样本音素序列。接着,服务器可以将样本音素序列和参考语音风格信息,输入至初始韵律预测模型的音素级别预测模块进行音素级别韵律预测处理,得到各音素的音高预测信息、音强预测信息和音长预测信息,并将各音素的音高预测信息和音强预测信息确定为音素级别处理结果。
131.接着,服务器可以将样本音素序列,以及各音素的音高预测信息、音强预测信息和音长预测信息输入至初始韵律预测模型的长度扩展模块进行扩展处理,并进一步将扩展处理后的序列输入至初始韵律预测模型的帧级别预测模块,得到帧级别处理结果。接着,服务器可以将帧级别处理结果和各音素的音长预测信息,输入至初始韵律预测模型的下采样模块进行处理。在此过程中,服务器可以分别得到音素级别处理结果和帧级别处理结果,以进一步确定音素级别预测损失值和帧级别预测损失值。
132.s603、服务器根据音素级别处理结果和参考语音风格信息,确定音素级别预测损失值。
133.其中,音素级别预测损失值可以用于表征音素级别处理结果,与参考语音风格信息中各对应音素的真实音强信息、真实音高信息之间的差异。
134.一种可能的方式中,服务器在得到音素级别处理结果后,可以通过均方误差算法,确定音素级别处理结果和参考语音风格信息之间的均方误差,得到音素级别预测损失值。
135.或者,服务器也可以通过平均绝对误差算法,确定音素级别处理结果和参考语音风格信息之间的平均绝对误差,得到音素级别预测损失值。
136.s604、服务器根据帧级别处理结果和参考语音风格信息,确定帧级别预测损失值。
137.其中,帧级别预测损失值可以用于表征帧级别处理结果,与参考语音风格信息中各对应音频帧的真实音强信息、真实音高信息之间的差异。
138.一种可能的方式中,服务器在得到帧级别处理结果后,可以通过均方误差算法,确定帧级别处理结果和参考语音风格信息之间的均方误差,得到帧级别预测损失值。
139.或者,服务器也可以通过平均绝对误差算法,确定帧级别处理结果和参考语音风格信息之间的平均绝对误差,得到帧级别预测损失值。
140.s605、服务器根据音素级别预测损失值和帧级别预测损失值,对初始韵律预测模型进行训练,直至音素级别预测损失值小于第一阈值、且帧级别预测损失值小于第二阈值时,得到韵律预测模型。
141.其中,第一阈值和第二阈值可以由工作人员凭经验预先设置在服务器中。进一步地,第一阈值和第二阈值可以相同,也可以不同。一种可能的方式中,在对初始韵律预测模型的训练过程中,服务器在得到音素级别预测损失值和帧级别预测损失值后,可以将音素级别预测损失值和第一阈值进行比较,并将帧级别预测损失值和第二阈值进行比较。
142.若音素级别预测损失值大于或等于第一阈值,则可以表明初始韵律预测模型中的音素级别预测模块的性能不符合要求。这种情况下,服务器可以基于第一更新参数对音素级别预测模块内的超参数进行更新。若帧级别预测损失值大于或等于第二阈值,则可以表明初始韵律预测模型中的帧级别预测模块的性能不符合要求。这种情况下,服务器可以基于第二更新参数对帧级别预测模块内的超参数进行更新。其中,第一更新参数和第二更新参数可以由工作人员凭经验预先设置。
143.若音素级别预测损失值小于第一阈值、且帧级别预测损失值小于第二阈值,则可以表明初始韵律预测模型中音素级别预测模块和帧级别预测模块的性能已经符合要。这种情况下,服务器可以得到韵律预测模型。
144.上述实施例提供的技术方案至少带来以下有益效果:由s601和s605可知,在对初始韵律预测模型的训练过程中,服务器可以分别得到音素级别处理结果和帧级别处理结
果,并进一步确定音素级别预测损失值和帧级别预测损失值,从而可以根据音素级别预测损失值和帧级别预测损失值,对初始韵律预测模型进行训练。由于韵律预测模型为音素级别预测损失值和帧级别预测损失值同时收敛的情况下得到的,因此,本公开可以更准确地确定初始韵律预测模型的性能符合要求,保证韵律预测模型具备较好的性能。基于此,本公开可以通过韵律预测模型准确地预测待处理音素序列的韵律信息,以将源语音风格信息更好地嵌入在合成音频中,从而提高合成音频的表现力水平。
145.一种实施例中,在服务器获取多个参考语音风格信息时,本公开实施例提供一种可选地实现方式,包括:s701。
146.s701、服务器将多个参考音频数据输入至风格提取模型进行风格提取处理,得到多个参考语音风格信息。
147.其中,风格提取模型可以是基于多个第一音频数据和多个第二音频数据训练得到的。第一音频数据可以用于表征具备风格标签和音色标签的音频数据。第二音频数据可以用于表征不具备风格标签、且具备音色标签的音频数据。
148.一种可能的方式中,参考音频数据可以是对源说话人的音频进行处理后得到的梅尔频谱图。进一步地,参考音频数据可以是具备音色标签和风格标签的音频数据。
149.需要说明的是,在实际应用中,具备风格标签的音频较少,且同一个源说话人的多种语音风格的音频也较少。也就是说,在训练得到风格提取模型时,难以搜集到大量的具备风格标签的样本音频数据。这种情况下,本公开考虑基于无风格标签的样本音频数据(即第二音频数据)进行辅助训练,获得比只用有风格标签的样本音频数据(即第一音频数据)训练得到的风格提取模型性能更优的风格提取模型,弥补有风格标签的样本音频数据不足的缺陷。
150.进一步地,各样本音频数据对应的源说话人是容易确定的,即可以确定各样本音频数据的音色标签。考虑到音频数据中源说话人的音色信息和语音风格信息高度纠缠,在训练得到风格提取模型时,本公开采取了基于风格分类和音色分类的对抗性训练方式,以减少源语音风格信息中源说话人的音色信息,从而避免合成音频中出现源说话人的音色信息。具体的,关于训练得到风格提取模型的训练过程,可以参考下述s801-s806中的描述进行理解,在此不再赘述。
151.一种可能的方式中,为了减少参考语音风格信息中源说话人的音色信息,以改善韵律预测模型的训练效果,并提高合成音频中音色信息的稳定性,服务器可以将多个参考音频数据输入至目标风格提取模型进行风格提取处理,得到多个参考语音风格信息。进一步地,服务器可以基于参考音频数据的音色标签和风格标签,为各参考语音风格信息添加音色标签和风格标签。
152.上述实施例提供的技术方案至少带来以下有益效果:由s701可知,由于风格提取模型可以准确地提取参考音频数据中的源语音风格信息,且可以降低提取到的源语音风格信息中源说话人的音色信息。因此,服务器可以通过风格提取模型,从多个参考音频数据中提取到具备较强表现力和较高准确性的参考语音风格信息。基于此,本公开可以基于多个参考语音风格信息,提升对韵律预测模型的训练效果,以提高韵律预测模型预测韵律信息时的准确性,并提高合成音频中音色信息的稳定性。因此,本公开可以提高合成音频的表现力。
153.一种实施例中,为了训练得到风格提取模型,如图8所示,本公开实施例提供的音频合成方法,还包括:s801-s806。
154.s801、服务器获取多个第一音频数据和多个第二音频数据。
155.一种可能的方式中,工作人员可以预先搜集到多个样本音频数据,并凭经验为各样本音频数据标注标签,得到多个第一音频数据和多个第二音频数据。进一步地,工作人员可以将多个第一音频数据和多个第二音频数据设置在服务器配置的存储模块中。基于此,服务器可以从存储模块中,读取到多个第一音频数据和多个第二音频数据。
156.s802、服务器将多个第一音频数据和多个第二音频数据输入至初始风格提取模型,进行风格提取处理,得到多个风格处理结果。
157.一种可能的方式中,风格处理结果可以是关于第一音频数据的处理结果,也可以是关于第二音频数据的处理结果。
158.一种可能的方式中,初始风格提取模型可以是变分自编码器(variational auto-encoder,vae)结构。如图9所示,为本公开实施例提供的一种初始风格提取模型的结构示意图。初始风格提取模型可以包括重新参数化网络、均值线性层、方差线性层、门控循环单元层、压缩激发残差网络(squeeze-excitation residual network,se-resnet)和二维卷积网络。
159.其中,se-resnet可以包括比例层、激活层、两个线性层、线性整流层和全局平均池化层。se-resnet可以通过显式建模通道之间的相互依赖关系,自适应地重新校准通道级特征响应,显著地提升模型性能。二维卷积网络可以包括6层二维卷积层。se-resnet和二维卷积网络也可以看作是一个风格瓶颈网络。风格瓶颈网络用于改善音频中音色信息和风格信息高度纠缠的问题,提高模型的风格提取能力。基于此,初始风格提取模型可以通过vae结构,获得连续且完整的风格潜空间分布(即参考语音风格信息),具备较高的风格提取能力。
160.第一音频数据或者第二音频数据输入初始风格提取模型后,先由二维卷积网络和se-resnet进行处理,再通过两个均值线性层和方差线性层进行处理,得到多元高斯分布的均值和方差,最后通过重新参数化网络从多元高斯分布中,采样64维向量作为第一音频数据或者第二音频数据的语音风格信息(即风格处理结果)。其中,通过重新参数化网络采样时,对每个向量施加一组非线性变换(也可以称为pre-net)。pre-net是一个3层的网络结构,主要用于对输入进行一系列的非线性变换,辅助模型收敛和泛化。由于重新参数化网络中的随机操作不能通过反向传播处理,本公开采用了重参数化技巧。重参数化技巧可以基于第一公式实现。第一公式为:
[0161][0162]
其中,z为向量值。为均值估计量。为方差估计量。表示同或运算。表示集合n中的随机数值。n表示集合(0,i)。i为常数。
[0163]
需要说明的是,在初始风格提取模型的训练过程中,kullback-leibler散度(kullback-leibler divergence,kl散度)损失容易降为零,也称为kl散度崩溃。为了避免kl散度崩溃,本公开中,服务器可以通过预设方式处理训练过程中的kl散度损失。预设方式可以是kl散度退火的方式,也可以是分阶段优化的方式,还可以是限制最小值的方式。kl散度退火的方式即逐渐增大kl散度损失的权值。分阶段优化的方式即先优化重构损失,再优化kl散度损失。限制最小值的方式即引入一个最小值超参数来限制kl散度损失的最小值。
限制最小值的方式可以基于第二公式实现。第二公式为:
[0164][0165]
其中,l
kl
为处理后的kl散度损失值。max()表示取最大值。表示对kl散度损失值进行正态分布计算或者标准正态分布计算。表示正态分布为方差估计量。n(0,i)表示标准正态分布计算。i为常数。δ表示
[0166]
计算。为均值估计量。
[0167]
最小值超参数。
[0168]
s803、服务器确定多个风格处理结果的音色分类结果,以及第一处理结果的风格分类结果。
[0169]
其中,第一处理结果可以用于表征多个风格处理结果中与第一音频数据对应的风格处理结果。
[0170]
一种可能的方式中,风格分类结果可以用于表征风格处理结果对应的语音风格的类型。音色分类结果可以用于表征风格处理结果对应的音色。
[0171]
一种可能的方式中,初始风格提取模型可以连接有一个风格分类模块和一个音色分类模块。风格分类模块可以用于确定风格处理结果的风格分类结果。音色分类模块可以用于确定风格处理结果的音色分类结果。风格分类模块和音色分类模块的结构可以相同,均可以包括全连接层、分类层和梯度反转层。
[0172]
一种可能的方式中,服务器可以将多个风格处理结果分别输入至音色分类模块,以确定各风格处理结果的音色分类结果。
[0173]
需要说明的是,由于与第二音频数据对应的风格处理结果不存在对应的风格标签,难以确定关于第二音频数据的风格分类损失。因此,为了保证风格分类模块的精度,考虑不对与第二音频数据对应的风格处理结果进行风格分类。这种情况下,服务器可以将第一处理结果输入至风格分类模块,确定第一处理结果的风格分类结果。
[0174]
s804、服务器根据多个风格处理结果的音色分类结果,和多个与风格处理结果对应的音色标签,确定音色分类损失。
[0175]
一种可能的方式中,在训练过程中,服务器可以在得到多个风格处理结果的音色分类结果后,可以将音色分类结果和音色分类结果对应的风格处理结果的音色标签进行匹配。若音色分类结果和音色分类结果对应的风格处理结果的音色标签一致,则可以表明音色分类结果正确。若音色分类结果和音色分类结果对应的风格处理结果的音色标签不一致,则可以表明音色分类结果不正确。
[0176]
基于此,服务器可以统计音色分类结果不正确的音色分类结果的数量。接着,服务器可以将音色分类结果不正确的音色分类结果的数量,与多个风格处理结果的数量之间的比值,确定为音色分类损失。
[0177]
s805、服务器根据第一处理结果的风格分类结果,和与第一处理结果对应的风格标签,确定风格分类损失。
[0178]
需要说明的是,在实际应用中,第一音频数据的数量是较少的,即带有风格标签的音频数据的数量较少。基于此,为了辅助风格提取模型学习,以提升风格提取模型的性能,引入了大量的第二音频数据,即不具备风格标签的音频数据。然而,对于第二音频数据的风
格分类结果而言,并没有真实风格标签进行对比以确定分类的准确性。
[0179]
由于第二音频数据也包括较多的语音风格信息,且可能与第一音频数据的语音风格信息相近或相同。因此,若将不具备风格标签的音频数据分类为中性音频数据,则容易降低风格分类模块的精度,并进一步影响风格提取模型的精度,降低合成音频中源语音风格信息的表现力。这种情况下,在确定训练过程中的风格分类损失时,考虑基于第一音频数据的风格分类结果进行计算,而不统计第二音频数据的风格分类结果。也就是说,在半监督训练过程中,采取风格损失掩蔽的方法,即将不具备风格标签的音频数据的风格分类损失掩蔽为零,以使得风格提取模型更好地提取每个音频数据的语音风格信息。
[0180]
一种可能的方式中,在训练过程中,服务器可以在得到第一预设数量的风格分类结果后,将风格分类结果和风格分类结果对应的第一处理结果的风格标签进行匹配。若风格分类结果和风格分类结果对应的第一处理结果的风格标签一致,则可以表明风格分类结果正确。若风格分类结果和风格分类结果对应的第一处理结果的风格标签不一致,则可以表明风格分类结果不正确。
[0181]
基于此,服务器可以统计风格分类结果不正确的风格分类结果的数量。接着,服务器可以将风格分类结果不正确的风格分类结果的数量,与第一预设数量之间的比值,确定为风格分类损失。其中,第一预设数量可以是10或者50等。
[0182]
s806、服务器根据音色分类损失和风格分类损失对初始风格提取模型进行训练,直至音色分类损失大于第三阈值、且风格分类损失小于第四阈值时,得到风格提取模型。
[0183]
一种可能的方式中,第三阈值和第四阈值可以由工作人员凭经验预先设置。例如第三阈值可以是0.9等。第四阈值可以是0.1等。
[0184]
需要说明的是,考虑到音频数据中音色信息和风格信息往往高度纠缠。因此,本公开采取基于音色分类损失和风格分类损失的对抗性训练方式,即期望音色分类损失发散、风格分类损失收敛,以提高风格提取模型提取语音风格信息时的准确性,从而减少源语音风格信息中源说话人的音色信息,避免合成音频中源说话人的泄漏问题。
[0185]
因此,为了提高风格提取模型提取音频数据中语音风格信息的准确性,并降低风格提取模型对于音频数据中音色信息的提取,以提高源语音风格信息的表现力,考虑实现较小的风格分类损失、且较大的音色分类损失。也就是说,在训练过程中,若音色分类损失大于第三阈值、且风格分类损失小于第四阈值,则可以确定风格提取模型的性能符合要求。
[0186]
一种可能的方式中,服务器得到音色分类损失和风格分类损失后,可以将音色分类损失和第三阈值进行比较,并将风格分类损失和第四阈值进行比较。
[0187]
若音色分类损失小于或等于第三阈值,则可以表明初始风格提取模型提取到了较多的音色信息。这种情况下,服务器可以基于第三更新参数对初始风格提取模型内的超参数进行更新。若风格分类损失大于或等于第四阈值,则可以表明初始风格提取模型提取语音风格信息的准确性较低。这种情况下,服务器可以基于第四更新参数对初始风格提取模型内的超参数进行更新。其中,第三更新参数和第四更新参数可以由工作人员凭经验预先设置。
[0188]
若音色分类损失大于第三阈值、且风格分类损失小于第四阈值,则可以表明初始风格提取模型可以准确地提取音频数据中的语音风格信息,且可以准确地避免提取音频数据中的音色信息。这种情况下,服务器可以得到风格提取模型。
[0189]
上述实施例提供的技术方案至少带来以下有益效果:由s801-s806可知,本公开在具备风格标签的样本音频数据数量较少的情况下,可以通过不具备风格标签的样本音频数据进行辅助训练,且可以通过风格损失掩蔽的方法,即针对具备风格标签的样本音频数据确定风格分类损失的方法,提高了确定风格分类结果的准确性,以进一步提升了风格提取模型提取语音风格信息的精度。进一步地,本公开还可以通过风格分类和音色分类进行对抗性训练的方法,进一步提高风格提取模型提取语音风格信息的准确性,并降低风格提取模型对于音色信息的提取。因此,本公开可以通过训练得到的风格提取模块,更好地将语音风格信息从音频内容和音色信息中分离出来,以避免合成音频中源说话人音色的泄露,从而提高合成音频中语音风格信息的表现力,以及音色信息的稳定性。
[0190]
一种实施例中,为了训练得到声学特征预测模型,如图10所示,本公开实施例提供的音频合成方法,还包括:s901-s906。
[0191]
s901、服务器获取多个样本音色信息对和多个样本输入信息。
[0192]
其中,一个样本音色信息对可以包括两个不同的第一音色信息和第二音色信息。即第一音色信息和第二音色信息为来源于两个不同的说话人的样本音色信息。样本输入信息可以包括样本音素序列、参考语音风格信息和样本韵律预测信息。进一步地,样本韵律预测信息为基于样本音素序列和参考语音风格信息进行韵律预测处理得到的。
[0193]
一种可能的方式中,服务器的存储模块中可以存储有不同的目标说话人的样本音频数据。基于此,服务器可以从存储模块中读取到不同的目标说话人的样本音频数据,并进行音色信息提取处理得到样本音色信息。
[0194]
需要说明的是,在训练初始声学特征预测模型的过程中,由于样本音色信息和参考语音风格信息来源于不同的说话人,因此,在得到合成音频后,没有真实的音频作为参考来确定训练过程中的损失值。这种情况下,可以考虑对合成音频进行风格提取处理得到语音风格信息,并基于对应的参考语音风格信息和提取到的语音风格信息确定损失值。
[0195]
进一步地,若训练时基于一个样本音色信息进行处理得到合成音频,并基于该合成音频中的语音风格信息和对应的参考语音风格信息确定损失值,则可能由于教师学生模型的强迫,即由于合成音频中的语音风格信息是基于参考语音风格信息生成的,容易出现合成音频中的语音风格信息和对应的参考语音风格信息几乎相同的情况,导致确定到的损失值难以反映初始声学特征预测模型的真实性能,训练效果较差。
[0196]
基于此,为了更好地辅助初始声学特征预测模型学习新的音色信息和风格信息组合,提高训练得到的声学特征预测模型的性能,本公开考虑将两个不同的样本音色信息分别和同一个样本输入信息组合得到两个声学特征序列后,再将得到的两个声学特征序列之间的差异作为训练时的参考,从而解决损失值参考意义较低的问题。
[0197]
一种可能的方式中,在每次的训练过程中,服务器可以从多个样本音色信息中随机抽取不同的两个样本音色信息,即第一音色信息和第二音色信息,组成样本音色信息对。并且,服务器可以将样本音素序列和参考语音风格信息输入至韵律预测模型,进行韵律预测处理,得到样本韵律预测信息。
[0198]
s902、服务器将第一音色信息和第二音色信息,分别与样本输入信息组合后,输入至初始声学特征预测模型进行声学特征预测处理,得到第一声学特征序列和第二声学特征序列。
[0199]
一种可能的方式中,服务器可以将第一音色信息和样本输入信息,输入至初始音色预测模块得到第一声学特征序列,并将第二音色信息和样本输入信息,输入至初始音色预测模块得到第二声学特征序列。
[0200]
需要说明的是,由于第一声学特征序列和第二声学特征序列为基于相同的语音风格信息,以及不同的音色信息合成得到的。后续,可以通过对第一声学特征序列和第二声学特征序列进行风格提取处理,并对提取到的两个语音风格信息进行比对,确定语音风格信息是否可以稳定的嵌入在合成音频中。
[0201]
s903、服务器分别对第一声学特征序列和第二声学特征序列进行风格提取处理,得到第一语音风格信息和第二语音风格信息。
[0202]
一种可能的方式中,服务器可以将第一声学特征序列,输入至风格提取模型进行风格提取处理,得到第一声学特征序列对应的第一语音风格信息。并且,服务器可以将第二声学特征序列,输入至风格提取模型进行风格提取处理,得到第二声学特征序列对应的第二语音风格信息。
[0203]
s904、服务器根据第一语音风格信息和第二语音风格信息,确定第一风格损失值。
[0204]
其中,第一风格损失值可以用于表征第一语音风格信息和第二语音风格信息之间的差异。
[0205]
一种可能的方式中,服务器可以基于重构损失算法,确定第一语音风格信息和第二语音风格信息之间的第一风格损失值,也可以基于循环一致性损失算法,确定第一语音风格信息和第二语音风格信息之间的第一风格损失值。
[0206]
一种可能的方式中,服务器可以基于循环一致性损失算法,确定第一语音风格信息和第二语音风格信息之间的第一风格损失值时,可以参考第三公式实现。第三公式为:
[0207][0208]
其中,l
cycle
为循环一致性损失(例如第一风格损失值)。ε(y)为第一输入(例如第一语音风格信息)。ε(y)为第一输入的转置矩阵。为第二输入(例如第二语音风格信息)。为第二输入的转置矩阵。n为维度数量。其中,第一输入和第二输入的维度数量相同。
[0209]
s905、服务器根据第二语音风格信息和参考语音风格信息,确定第二风格损失值。
[0210]
其中,第二风格损失值可以用于表征第二语音风格信息和参考语音风格信息之间的差异。
[0211]
一种可能的方式中,为了提高初始声学特征预测模型的训练效果,服务器还可以进一步根据第二语音风格信息和参考语音风格信息,确定第二风格损失值,从而更准确地确定初始声学特征预测模型在训练过程中达到的性能。
[0212]
应理解,服务器根据第二语音风格信息和参考语音风格信息,确定第二风格损失值的具体方式,可以参考s904中服务器根据第一语音风格信息和第二语音风格信息,确定第一风格损失值的描述,在此不再赘述。
[0213]
s906、服务器根据第一风格损失值和第二风格损失值对初始声学特征预测模型进行训练,直至第一风格损失值小于第五阈值、且第二风格损失值小于第六阈值时,得到声学特征预测模型。
[0214]
其中,第五阈值和第六阈值可以由工作人员凭经验预先设置在服务器中。第五阈
值和第六阈值可以相同,也可以不同。
[0215]
一种可能的方式中,服务器可以将第一风格损失值和第五阈值进行比较,并将第二风格损失值和第六阈值进行比较。
[0216]
若第一风格损失值大于或等于第五阈值,或者第二风格损失值大于或等于第六阈值,则可以表明初始声学特征预测模型不能准确地预测合成音频中的语音风格信息,性能不符合要求。这种情况下,服务器可以根据第五更新参数对初始声学特征预测模型内的超参数进行更新。其中,第五更新参数可以由工作人员凭经验设置在服务器中。
[0217]
若第一风格损失值小于第五阈值、且第二风格损失值小于第六阈值,则可以表明初始声学特征预测模型可以稳定的将参考语音风格信息嵌入在合成音频中。并且,由于参考语音风格信息为基于风格提取模型提取到的,即参考语音风格信息所包括的源说话人的音色信息较少,因此,在第一风格损失值和第二风格损失值收敛的情况下,可以准确地确定合成音频中包括的源说话人的音色信息较少,从而可以很好地避免合成音频中源说话人音素泄露的问题。这种情况下,服务器可以得到声学特征预测模型。
[0218]
示例性的,如图11所示,为本公开提供的一种初始声学特征预测模型的训练过程示意图。服务器可以将第一音色信息和样本输入信息,或者第二音色信息和样本输入信息,依次输入至初始声学特征预测模型的注意力层和解码层进行声学特征预测处理,得到第一声学特征序列或者第二声学特征序列。接着,服务器可以将第一声学特征序列或者第二声学特征序列,输入至风格提取模型进行风格提取处理,得到第一语音风格信息或者第二语音风格信息。接着,服务器可以基于第一语音风格信息,和第二语音风格信息确定第一风格损失值。并且,服务器可以基于第二语音风格信息,和参考语音风格信息确定第二风格损失值。
[0219]
上述实施例提供的技术方案至少带来以下有益效果:由s901-s906可知,在对初始声学特征预测模型的训练过程中,本公开可以通过确定两个损失值,即第一风格损失值和第二风格损失值,准确地确定初始声学特征预测模型进行声学特征预测处理的能力,改善对于初始声学特征预测模型的训练效果,从而提高合成音频中源语音风格信息的表现力。并且,由于参考语音风格信息为基于风格提取模型提取到的,即参考语音风格信息所包括的源说话人的音色信息较少,因此,在第一风格损失值和第二风格损失值收敛时,第一本公开可以准确地确定合成音频中包括的源说话人的音色信息较少,从而可以很好地避免合成音频中源说话人音素泄露的问题。基于此,本公开可以提高合成音频中源语音风格信息嵌入的准确性和稳定性,以及合成音频中音色信息的稳定性。
[0220]
一种实施例中,如图12所示,为本公开实施例提供的一种音频合成模型的结构示意图。在训练得到韵律预测模型和声学特征预测模型后,还可以将文本编码模块、韵律预测模型和声学特征预测模型组合得到音频合成模型,并为韵律预测模型添加风格映射模块,为声学特征预测模型添加音色映射模块。其中,韵律预测模型的韵律预测模块可以分别与风格映射模块、文本编码模块的编码层、声学特征预测模型的注意力层相连接。声学特征预测模型的注意力层可以分别与音色映射模块、文本编码模块的编码层、韵律预测模型的风格映射模块和韵律预测模块相连接。
[0221]
其中,韵律预测模型包括的韵律预测模块可以是图7中所示的初始韵律预测模型的结构。风格映射模块可以由工作人员预先配置有多个源语音风格标识,以及与多个源语
音风格标识一一对应的多个源语音风格信息。基于此,风格映射模块可以用于确定与源语音风格标识对应的源语音风格信息。进一步地,风格映射模块的输出端还可以连接有一个算子,用于确定与源语音风格标识对应的源语音风格信息和风格程度调整参数之间的乘积,以得到调整后源语音风格信息。
[0222]
音色映射模块可以预先设置有多个目标音色标识,以及与多个目标音色标识一一对应的多个目标音色信息。基于此,音色映射模块可以用于确定与目标音色标识对应的目标音色信息。
[0223]
基于此,服务器获取到待处理文本序列、目标音色标识、源语音风格标识和风格程度调整参数后,可以基于文本编码模块对待处理文本序列进行编码处理,得到待处理音素序列,并将待处理音素序列、源语音风格标识和风格程度调整参数输入至韵律预测模型,进行韵律预测处理,得到韵律预测信息。接着,服务器可以将待处理音素序列、调整后源语音风格信息、韵律预测信息和目标音色标识输入至声学特征预测模型中进行声学特征预测处理,得到声学特征序列。
[0224]
目前,在将源说话人的语音风格信息迁移到目标说话人的音色信息(也可以称为跨说话人风格迁移)的音频合成方法中,disentangling和bottleneck是最先进的损失函数计算方法。为了展示本公开的优越性,采用这两种方法与本公开的损失函数计算方法进行比较。基于公平性考虑,disentangling和bottleneck两种方法,与本方法使用相同的基于注意力的端到端模型结构。消融实验是通过disentangling方法训练得到的第一实验模型,和bottleneck方法训练得到的第二实验模型,与本公开方法训练得到的第三实验模型,删除风格损失掩蔽方法(即上述s801-s806的训练方法)后的本公开方法训练得到的第四实验模型,删除循环一致性损失方法(即上述s901-s906的训练方法)后的本公开方法训练得到的第五实验模型进行比较来进行的。
[0225]
消融实验过程中,所有的主观测试由11位音频数据对应的母语者作为评判者进行。每项指标由每种风格的20个句子组成。实验中的测试指标包括韵律测量值、强度感知值、风格评分值和风格感知值。韵律测量指实验模型合成的音频中音素级的韵律信息,与真实风格信息在音高、音长和音强方面的相关性。强度感知指评判者对实验模型合成的音频的风格强度的评价(例如弱、中和强等)。风格评分即实验模型合成的音频和风格来源音频的相似度评分,用于验证实验模型合成的音频和风格来源音频在风格和音色上的相似性。风格感知指评判者根据器对实验模型合成的音频的主观感知,从舒适、开心、悲伤和惊喜四种风格中选择一种进行主观分类。
[0226]
表1
[0227][0228]
表2
[0229][0230]
表3
[0231][0232]
表4
[0233][0234]
表1中的韵律测量表明,第三实验模型(即本方法)的韵律预测效果明显优于第二实验模型(即bottleneck方法)。本方法引入的帧级别预测子模块提供了更详细的无失真监督,音高和音强的预测结果更接近真实值。
[0235]
表2中,基于细粒度的风格分类,第三实验模型实现了更好的风格强度控制。在训练时,与不关心排序方向的disentangling方法不同,本方法中,只有按弱、中和强顺序排列的样本才被视为正确。
[0236]
示例性的,如图13所示,针对于舒适、开心、悲伤和惊喜四种风格,分别绘制了真实信息、调整参数等于1、调整参数等于0.5和调整参数等于2四种合成音频的音素级韵律特征。可见,舒适、开心、悲伤和惊喜四种风格,在不同程度的特征轨迹呈现相似的趋势,但具有不同的值。例如,当调整参数从0.5增加到2时,音高降低,持续时间增加。开心和惊喜的风格音频中,随着调整参数的增加音高增加、且音长降低,结果与预期一致。实验结果表明,本方法在调整风格强度方面具有显著效果。
[0237]
表3中,在风格评分上,第三实验模型和第二实验模型取得了相近的得分。将第三实验模型与第四实验模型相比,可见风格损失掩蔽方法为模型提供了更明确的风格信息,实现了最佳的风格相似度。
[0238]
表4中,第三实验模型取得了最好的性能。将第三实验模型与第四实验模型相比,可见风格损失掩蔽方法对风格表征能力是有效的。将第三实验模型与第五实验模型相比,可见上述s901-s904的训练方法具有改进效果。
[0239]
可以理解的,在实际实施时,本公开实施例所述的服务器可以包含有用于实现前
述对应音频合成方法的一个或多个硬件结构和/或软件模块,这些执行硬件结构和/或软件模块可以构成一个电子设备。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
[0240]
基于这样的理解,本公开实施例还对应提供一种音频合成装置。图14示出了本公开实施例提供的音频合成装置的结构示意图。如图14所示,该音频合成装置可以包括:获取单元1001和处理单元1002;
[0241]
获取单元1001,被配置为获取待合成信息;待合成信息包括待处理文本序列、目标音色信息和源语音风格信息;处理单元1002,被配置为将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息;待处理音素序列为对待处理文本序列进行编码处理后得到的;韵律预测信息用于表征待处理音素序列中各音素的韵律信息;处理单元1002,还被配置为将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列;声学特征序列的音色信息为目标音色信息;处理单元1002,还被配置为根据声学特征序列进行音频合成处理,得到待合成信息对应的音频。
[0242]
可选地,待合成信息还包括风格程度调整参数;风格程度调整参数用于调整源语音风格信息对应的语音风格的风格程度;处理单元1002,还被配置为根据风格程度调整参数对源语音风格信息进行调整处理,得到调整后源语音风格信息;处理单元1002,还被配置为将待处理音素序列和调整后源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到韵律预测信息。
[0243]
可选地,处理单元1002,具体被配置为:对待处理音素序列和源语音风格信息进行音素级别预测处理,得到音素级别预测信息;音素级别预测信息包括待处理音素序列中各音素的音高预测信息、音强预测信息和音长预测信息;按照音素级别预测信息对待处理音素序列中的各音素进行扩展处理,得到扩展后音素序列;对扩展后音素序列进行帧级别预测处理,得到帧级别预测信息;帧级别预测信息包括各音素对应的至少一个音频帧的音高预测信息和音强预测信息;将各音素对应的至少一个音频帧的音高预测信息的平均值,和各音素对应的至少一个音频帧的音强预测信息的平均值,确定为各音素的平均音高信息和平均音强信息,得到韵律预测信息。
[0244]
可选地,该音频合成装置还包括:确定单元1003;获取单元1001,还被配置为获取多个样本音素序列和多个参考语音风格信息;处理单元1002,还被配置为将样本音素序列和参考语音风格信息输入至初始韵律预测模型,进行韵律预测处理,得到韵律预测处理过程中的音素级别处理结果和帧级别处理结果;音素级别处理结果包括样本音素序列中各音素的音高预测信息和音强预测信息;帧级别处理结果包括样本音素序列中各音素对应的至少一个音频帧的音高预测信息和音强预测信息;确定单元1003,被配置为根据音素级别处理结果和参考语音风格信息,确定音素级别预测损失值;确定单元1003,还被配置为根据帧级别处理结果和参考语音风格信息,确定帧级别预测损失值;处理单元1002,还被配置为根据音素级别预测损失值和帧级别预测损失值,对初始韵律预测模型进行训练,直至音素级
别预测损失值小于第一阈值、且帧级别预测损失值小于第二阈值时,得到韵律预测模型。
[0245]
可选地,获取单元1001,具体被配置为:将多个参考音频数据输入至风格提取模型进行风格提取处理,得到多个参考语音风格信息;风格提取模型为基于多个第一音频数据和多个第二音频数据训练得到的;第一音频数据用于表征具备风格标签和音色标签的音频数据;第二音频数据用于表征不具备风格标签、且具备音色标签的音频数据。
[0246]
可选地,获取单元1001,还被配置为获取多个第一音频数据和多个第二音频数据;处理单元1002,还被配置为将多个第一音频数据和多个第二音频数据输入至初始风格提取模型,进行风格提取处理,得到多个风格处理结果;确定单元1003,还被配置为确定多个风格处理结果的音色分类结果,以及第一处理结果的风格分类结果;第一处理结果用于表征多个风格处理结果中与第一音频数据对应的风格处理结果;确定单元1003,还被配置为根据多个风格处理结果的音色分类结果,和多个与风格处理结果对应的音色标签,确定音色分类损失;确定单元1003,还被配置为根据第一处理结果的风格分类结果,和与第一处理结果对应的风格标签,确定风格分类损失;处理单元1002,还被配置为根据音色分类损失和风格分类损失对初始风格提取模型进行训练,直至音色分类损失大于第三阈值、且风格分类损失小于第四阈值时,得到风格提取模型。
[0247]
可选地,获取单元1001,还被配置为获取多个样本音色信息对和多个样本输入信息;样本音色信息对包括两个不同的第一音色信息和第二音色信息;样本输入信息包括样本音素序列、参考语音风格信息和样本韵律预测信息;处理单元1002,还被配置为将第一音色信息和第二音色信息,分别与样本输入信息组合后,输入至初始声学特征预测模型进行声学特征预测处理,得到第一声学特征序列和第二声学特征序列;处理单元1002,还被配置为分别对第一声学特征序列和第二声学特征序列进行风格提取处理,得到第一语音风格信息和第二语音风格信息;确定单元1003,还被配置为根据第一语音风格信息和第二语音风格信息,确定第一风格损失值;确定单元1003,还被配置为根据第二语音风格信息和参考语音风格信息,确定第二风格损失值;处理单元1002,还被配置为根据第一风格损失值和第二风格损失值对初始声学特征预测模型进行训练,直至第一风格损失值小于第五阈值、且第二风格损失值小于第六阈值时,得到声学特征预测模型。
[0248]
如上所述,本公开实施例可以根据上述方法示例对终端进行功能模块的划分。其中,上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,还需要说明的是,本公开实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。
[0249]
关于上述实施例中的音频合成装置,其中各个模块执行操作的具体方式、以及具备的有益效果,均已经在前述方法实施例中进行了详细描述,此处不再赘述。
[0250]
本公开实施例还提供一种终端,终端可以是手机、电脑等用户终端。图15示出了本公开实施例提供的终端的结构示意图。该终端可以是音频合成装置可以包括至少一个处理器61,通信总线62,存储器63以及至少一个通信接口64。
[0251]
处理器61可以是一个处理器(central processing units,cpu),微处理单元,asic,或一个或多个用于控制本公开方案程序执行的集成电路。
[0252]
通信总线62可包括一通路,在上述组件之间传送信息。
[0253]
通信接口64,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如服务器、以太网,无线接入网(radio access network,ran),无线局域网(wireless local area networks,wlan)等。
[0254]
存储器63可以是只读存储器(read-only memory,rom)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,ram)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。
[0255]
其中,存储器63用于存储执行本公开方案的应用程序代码,并由处理器61来控制执行。处理器61用于执行存储器63中存储的应用程序代码,从而实现本公开方法中的功能。
[0256]
在具体实现中,作为一种实施例,处理器61可以包括一个或多个cpu,例如图15中的cpu0和cpu1。
[0257]
在具体实现中,作为一种实施例,终端可以包括多个处理器,例如图15中的处理器61和处理器65。这些处理器中的每一个可以是一个单核(single-cpu)处理器,也可以是一个多核(multi-cpu)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
[0258]
在具体实现中,作为一种实施例,终端还可以包括输入设备66和输出设备67。输入设备66和输出设备67通信,可以以多种方式接受用户的输入。例如,输入设备66可以是鼠标、键盘、触摸屏设备或传感设备等。输出设备67和处理器61通信,可以以多种方式来显示信息。例如,输出设备61可以是液晶显示器(liquid crystal display,lcd),发光二级管(light emitting diode,led)显示设备等。
[0259]
本领域技术人员可以理解,图15中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0260]
本公开实施例还提供一种服务器。图16示出了本公开实施例提供的服务器的结构示意图。该服务器可以是音频合成装置。该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器71和一个或一个以上的存储器72。其中,存储器72中存储有至少一条指令,至少一条指令由处理器71加载并执行以实现上述各个方法实施例提供的音频合成方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0261]
本公开还提供了一种包括指令的计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述计算机可读存储介质中的指令由计算机设备的处理器执行时,使得计算机能够执行上述所示实施例提供的音频合成方法。例如,计算机可读存储介质可以为包括指令的存储器63,上述指令可由终端的处理器61执行以完成上述方法。又例如,计算机可读存储介质可以为包括指令的存储器72,上述指令可由服务器的处理器71执行以完成上
述方法。可选地,计算机可读存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是rom、ram、cd-rom、磁带、软盘和光数据存储设备等。
[0262]
本公开还提供了一种计算机程序产品,该计算机程序产品包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行上述图3-图6、图8和图10中任一附图所示的音频合成方法。
[0263]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0264]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
技术特征:
1.一种音频合成方法,其特征在于,包括:获取待合成信息;所述待合成信息包括待处理文本序列、目标音色信息和源语音风格信息;将待处理音素序列和所述源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到所述待处理音素序列对应的韵律预测信息;所述待处理音素序列为对所述待处理文本序列进行编码处理后得到的;所述韵律预测信息用于表征所述待处理音素序列中各音素的韵律信息;将所述待处理音素序列、所述目标音色信息、所述源语音风格信息和所述韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列;所述声学特征序列的音色信息为所述目标音色信息;根据所述声学特征序列进行音频合成处理,得到所述待合成信息对应的音频。2.根据权利要求1所述的音频合成方法,其特征在于,所述待合成信息还包括风格程度调整参数;所述风格程度调整参数用于调整所述源语音风格信息对应的语音风格的风格程度;所述音频合成方法,还包括:根据所述风格程度调整参数对所述源语音风格信息进行调整处理,得到调整后源语音风格信息;将所述待处理音素序列和所述调整后源语音风格信息输入至所述韵律预测模型,进行韵律预测处理,得到所述韵律预测信息。3.根据权利要求1所述的音频合成方法,其特征在于,所述将待处理音素序列和所述源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到所述待处理音素序列对应的韵律预测信息,包括:对所述待处理音素序列和所述源语音风格信息进行音素级别预测处理,得到音素级别预测信息;所述音素级别预测信息包括所述待处理音素序列中各所述音素的音高预测信息、音强预测信息和音长预测信息;按照所述音素级别预测信息对所述待处理音素序列中的各所述音素进行扩展处理,得到扩展后音素序列;对所述扩展后音素序列进行帧级别预测处理,得到帧级别预测信息;所述帧级别预测信息包括各所述音素对应的至少一个音频帧的音高预测信息和音强预测信息;将各所述音素对应的至少一个音频帧的音高预测信息的平均值,和各所述音素对应的至少一个音频帧的音强预测信息的平均值,确定为各所述音素的平均音高信息和平均音强信息,得到所述韵律预测信息。4.根据权利要求1或3所述的音频合成方法,其特征在于,还包括:获取多个样本音素序列和多个参考语音风格信息;将所述样本音素序列和所述参考语音风格信息输入至初始韵律预测模型,进行韵律预测处理,得到韵律预测处理过程中的音素级别处理结果和帧级别处理结果;所述音素级别处理结果包括所述样本音素序列中各音素的音高预测信息和音强预测信息;所述帧级别处理结果包括所述样本音素序列中各音素对应的至少一个音频帧的音高预测信息和音强预测信息;根据所述音素级别处理结果和所述参考语音风格信息,确定音素级别预测损失值;
根据所述帧级别处理结果和所述参考语音风格信息,确定帧级别预测损失值;根据所述音素级别预测损失值和所述帧级别预测损失值,对所述初始韵律预测模型进行训练,直至所述音素级别预测损失值小于第一阈值、且所述帧级别预测损失值小于第二阈值时,得到所述韵律预测模型。5.根据权利要求4所述的音频合成方法,其特征在于,所述获取多个参考语音风格信息,包括:将多个参考音频数据输入至风格提取模型进行风格提取处理,得到所述多个参考语音风格信息;所述风格提取模型为基于多个第一音频数据和多个第二音频数据训练得到的;所述第一音频数据用于表征具备风格标签和音色标签的音频数据;所述第二音频数据用于表征不具备风格标签、且具备音色标签的音频数据。6.根据权利要求5所述的音频合成方法,其特征在于,还包括:获取多个所述第一音频数据和多个所述第二音频数据;将多个所述第一音频数据和多个所述第二音频数据输入至初始风格提取模型,进行风格提取处理,得到多个风格处理结果;确定多个所述风格处理结果的音色分类结果,以及第一处理结果的风格分类结果;所述第一处理结果用于表征所述多个风格处理结果中与所述第一音频数据对应的风格处理结果;根据多个所述风格处理结果的音色分类结果,和多个与所述风格处理结果对应的音色标签,确定音色分类损失;根据所述第一处理结果的风格分类结果,和与所述第一处理结果对应的风格标签,确定风格分类损失;根据所述音色分类损失和所述风格分类损失对所述初始风格提取模型进行训练,直至所述音色分类损失大于第三阈值、且所述风格分类损失小于第四阈值时,得到所述风格提取模型。7.根据权利要求1或2所述的音频合成方法,其特征在于,还包括:获取多个样本音色信息对和多个样本输入信息;所述样本音色信息对包括两个不同的第一音色信息和第二音色信息;所述样本输入信息包括样本音素序列、参考语音风格信息和样本韵律预测信息;将所述第一音色信息和所述第二音色信息,分别与所述样本输入信息组合后,输入至初始声学特征预测模型进行声学特征预测处理,得到第一声学特征序列和第二声学特征序列;分别对所述第一声学特征序列和所述第二声学特征序列进行风格提取处理,得到第一语音风格信息和第二语音风格信息;根据所述第一语音风格信息和所述第二语音风格信息,确定第一风格损失值;根据第二语音风格信息和所述参考语音风格信息,确定第二风格损失值;根据所述第一风格损失值和所述第二风格损失值对所述初始声学特征预测模型进行训练,直至所述第一风格损失值小于第五阈值、且所述第二风格损失值小于第六阈值时,得到所述声学特征预测模型。8.一种音频合成装置,其特征在于,包括:获取单元和处理单元;
所述获取单元,被配置为获取待合成信息;所述待合成信息包括待处理文本序列、目标音色信息和源语音风格信息;所述处理单元,被配置为将待处理音素序列和所述源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到所述待处理音素序列对应的韵律预测信息;所述待处理音素序列为对所述待处理文本序列进行编码处理后得到的;所述韵律预测信息用于表征所述待处理音素序列中各音素的韵律信息;所述处理单元,还被配置为将所述待处理音素序列、所述目标音色信息、所述源语音风格信息和所述韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列;所述声学特征序列的音色信息为所述目标音色信息;所述处理单元,还被配置为根据所述声学特征序列进行音频合成处理,得到所述待合成信息对应的音频。9.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为执行所述指令,以实现如权利要求1-7中任一项所述的音频合成方法。10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1-7中任一项所述的音频合成方法。
技术总结
本公开关于一种音频合成方法、装置、设备及存储介质,涉及计算机技术领域,用于提高合成音频的表现力水平以满足各类应用场景的需求。该音频合成方法,包括:获取待合成信息;待合成信息包括待处理文本序列、目标音色信息和源语音风格信息;将待处理音素序列和源语音风格信息输入至韵律预测模型,进行韵律预测处理,得到待处理音素序列对应的韵律预测信息;韵律预测信息用于表征待处理音素序列中各音素的韵律信息;将待处理音素序列、目标音色信息、源语音风格信息和韵律预测信息输入至声学特征预测模型,进行声学特征预测处理,得到声学特征序列;根据声学特征序列进行音频合成处理,得到待合成信息对应的音频。得到待合成信息对应的音频。得到待合成信息对应的音频。
技术研发人员:强春雨
受保护的技术使用者:北京达佳互联信息技术有限公司
技术研发日:2023.03.10
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
