语音合成方法、装置、电子设备及存储介质与流程

未命名 09-09 阅读:73 评论:0


1.本发明涉及音频领域,具体而言,涉及一种语音合成方法、装置、电子设备及存储介质。


背景技术:

2.随着aigc(ai generated content,人工智能生成内容,简称生成式ai)技术的发展,文本、音频内容等内容可以通过ai技术生成,例如:ai文本续写、ai音频生成、文字转图像的ai图、ai主持人等,都属于aigc的应用。
3.而在音频领域,利用语音合成技术(tts,text-to-speech),可以将文本内容转换成语音。个性化tts,则是指在生成语音的同时,能够保留与人说话时特定的音色特征。由于个性化tts能够模拟人的音色特征,提升听众的亲近程度,因此相比于通用的tts,它更受到用户的欢迎。
4.而合成符合用户个人音色的个性化语音,需要提前训练出个性化tts模型,需要经过选音、数据录制、模型训练等环节,大约耗时2-3个月。而训练好的个性化tts模型,是定制化的固定音色,不具备普适性,例如:基于小明录制的音频数据得到的是符合小明音色的tts音色模型。所以,在需要不同音色的个性化语音的场景下,就需要训练每种音色需求的多个个性化tts模型,但是这样非常占用算力,并且耗费的时间成本和人力成本巨大。


技术实现要素:

5.本发明的目的在于提供一种语音合成方法、装置、电子设备及存储介质,以改善现有技术存在的问题。
6.本发明的实施例可以这样实现:
7.第一方面,本发明提供一种语音合成方法,包括:
8.获取个性化需求信息和待转换文本;
9.将所述个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量;
10.利用所述待转换文本、所述音色权重分布向量、所述风格权重分布向量、所述情感权重分布向量以及训练后的多维度语音合成模型,生成所述待转换文本的合成音频。
11.可选的,所述音色描述列表包括多种音色类型各自的描述信息;所述风格描述列表包括多种风格类型各自的描述信息;所述情感描述列表包括多种情感类型各自的描述信息;
12.所述将所述个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量的步骤,包括:
13.将所述个性化需求信息与所述音色描述列表输入预先训练的大型语言模型,得到所述音色权重分布向量;所述音色权重分布向量包括每种所述音色类型对应的权重占比;
14.将所述个性化需求信息与所述风格描述列表输入所述大型语言模型,得到所述风格权重分布向量;所述风格权重分布向量包括每种所述风格类型对应的权重占比;
15.将所述个性化需求信息与所述情感描述列表输入所述大型语言模型,得到所述情感权重分布向量;所述情感权重分布向量包括每种所述情感类型对应的权重占比;
16.其中,所述权重占比表征所述个性化需求信息与所述描述信息的相似度。
17.可选的,所述训练后的多维度语音合成模型包括训练后的声学模型和预先训练的声码器;
18.所述利用所述待转换文本、所述音色权重分布向量、所述风格权重分布向量、所述情感权重分布向量以及训练后的多维度语音合成模型,生成所述待转换文本的合成音频的步骤,包括:
19.获取音色表征矩阵、风格表征矩阵以及情感表征矩阵;所述音色表征矩阵、所述风格表征矩阵以及所述情感表征矩阵均为所述训练后的声学模型的控制矩阵;
20.利用所述音色权重分布向量、所述风格权重分布向量以及所述情感权重分布向量分别对所述音色表征矩阵、所述风格表征矩阵以及所述情感表征矩阵进行加权处理,得到加权音色表征矩阵、加权风格表征矩阵和加权情感表征矩阵;
21.基于所述加权音色表征矩阵、所述加权风格表征矩阵以及所述加权情感表征矩阵,控制所述训练后的声学模型将所述待转换文本转化为个性化频谱特征;
22.将所述个性化频谱特征输入所述预先训练的声码器,得到所述合成音频。
23.可选的,所述训练后的声学模型通过以下方式训练得到:
24.构建训练数据集,所述训练数据集包括若干份训练样本,每份所述训练样本包括一段音频样本的实际频谱特征和文本样本,所述训练样本存在类型标签;
25.利用所述训练数据集对预先构建的声学模型进行多轮训练,得到所述训练后的声学模型。
26.可选的,所述构建训练数据集的步骤,包括:
27.获取若干音频样本;所述音频样本带有所述类型标签;
28.分别对每份所述音频样本进行语音识别,得到每份所述音频样本的文本样本;
29.分别对每份所述音频样本进行特征提取,得到每份所述音频样本的实际频谱特征;
30.将所述音频样本的文本样本和实际频谱特征作为训练样本,并将所述音频样本的类型标签作为所述训练样本的类型标签,得到所述训练数据集。
31.可选的,所述类型标签包括音色类型标签、风格类型标签和情感类型标签;
32.所述利用所述训练数据集对预先构建的声学模型进行多轮训练,得到所述训练后的多维度语音合成模型的步骤,包括:
33.将所述训练数据集输入所述声学模型,得到每个所述文本样本的预测频谱特征;所述预测频谱特征是利用所述音色类型标签、所述风格类型标签和所述情感类型标签控制所述声学模型对所述文本样本进行转换得到的;
34.基于每份所述训练样本中的实际频谱特征以及每个所述文本样本的预测频谱特征,计算总损失;
35.利用所述总损失进行反向传播以更新所述声学模型的模型权重以及控制矩阵,得
到所述训练后的声学模型。
36.第二方面,本发明提供一种语音合成装置,包括:
37.需求获取模块,用于获取个性化需求信息和待转换文本;
38.数据匹配模块,用于将所述个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量;
39.音频合成模块,用于利用所述待转换文本、所述音色权重分布向量、所述风格权重分布向量、所述情感权重分布向量以及训练后的多维度语音合成模型,生成所述待转换文本的合成音频。
40.可选的,所述语音合成装置还包括模型训练模块,用于:
41.构建训练数据集,所述训练数据集包括若干份训练样本,每份所述训练样本包括一段音频样本的实际频谱特征和文本样本,所述训练样本存在类型标签;
42.利用所述训练数据集对预先构建的声学模型进行多轮训练,得到所述训练后的声学模型。
43.第三方面,本发明提供一种电子设备,包括:存储器和处理器,所述存储器存储有软件程序,当所述电子设备运行时所述处理器执行所述软件程序以实现第一方面所述的语音合成方法。
44.第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的语音合成方法。
45.与现有技术相比,本发明实施例提供了一种语音合成方法、装置、电子设备及存储介质,首先获取个性化需求信息和待转换文本,接着将个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量;最后利用待转换文本、音色权重分布向量、风格权重分布向量、情感权重分布向量以及训练后的多维度语音合成模型,生成合成音频。相较于现有技术,本发明可利用训练后的多维度语音合成模型来得到符合个性化需求信息的合成音频,而无需预先训练每种个性化需求对应的个性化tts模型,节省了算力,并且训练后的多维度语音合成模型可以适用于不同的个性化需求,应用面广泛。
附图说明
46.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
47.图1为本发明实施例提供的一种语音合成方法的流程示意图之一。
48.图2为本发明实施例提供的一种基于训练后的多维度语音合成模型得到合成音频的流程示意图。
49.图3为本发明实施例提供的一种个性化需求信息与音色描述列表进行匹配的示意图。
50.图4为本发明实施例提供的一种个性化需求信息与风格描述列表进行匹配的示意
图。
51.图5为本发明实施例提供的一种个性化需求信息与情感描述列表进行匹配的示意图。
52.图6为本发明实施例提供的一种语音合成装置的结构示意图。
53.图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
54.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
55.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
56.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
57.需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
58.本发明实施例提供的语音合成方法,可以应用于电子设备,该电子设备可以是但不限于手机、平板、电脑、服务器等。
59.请参考图1,图1为本发明实施例提供的一种语音合成方法的流程示意图,该方法包括以下步骤s201~s203:
60.s201、获取个性化需求信息和待转换文本。
61.在本实施例中,个性化需求信息可以是一种文本信息,包括对合成音频的音色、风格、情感等方面需求的描述。该个性化需求信息以及待转换文本可以是用户语音输入后转换得到的,或者也可以是用户直接文字输入的,个性化需求信息与待转换文本的获取方式在此不作限定。
62.s202、将个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量。
63.在本实施例中,可以获取预先存储的音色描述列表、风格描述列表以及情感描述列表,然后利用个性化需求信息分别与这三项进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量。
64.可选的,音色描述列表、风格描述列表以及情感描述列表三者可以分别包括多种音色类型各自的描述信息、多种风格类型各自的描述信息以及多种情感类型各自的描述信息。
65.s203、利用待转换文本、音色权重分布向量、风格权重分布向量、情感权重分布向量以及训练后的多维度语音合成模型,生成待转换文本的合成音频。
66.在的本实施例中,利用待转换文本、音色权重分布向量、风格权重分布向量、情感权重分布向量以及训练后的多维度语音合成模型,可以将待转换文本转换为与个性化需求
信息相符合的合成音频。
67.本发明实施例提供的语音合成方法,可利用训练后的多维度语音合成模型来对待转换文本进行处理,得到符合个性化需求信息的合成音频,而无需预先训练每种个性化需求对应的个性化tts模型,节省了算力,并且训练后的多维度语音合成模型可以适用于不同的个性化需求,应用面广泛。
68.可选的实现方式中,可以采用文本匹配算法分别来实现个性化需求信息与音色描述列表、风格描述列表以及情感描述列表之间的相似性匹配。以文本匹配算法采用大语言模型(large language model,简称llm)为例,上述步骤s202的子步骤可以包括s2021~s2023:
69.s2021、将个性化需求信息与音色描述列表输入预先训练的大型语言模型,得到音色权重分布向量。
70.在本实施例中,音色权重分布向量可以包括每种音色类型对应的权重占比。可选的,全部音色类型对应的权重占比之和可以为1。
71.s2022、将个性化需求信息与风格描述列表输入大型语言模型,得到风格权重分布向量。
72.在本实施例中,风格权重分布向量可以包括每种风格类型对应的权重占比。可选的,全部风格类型对应的权重占比之和可以为1。
73.s2023、将个性化需求信息与情感描述列表输入大型语言模型,得到情感权重分布向量。
74.在本实施例中,情感权重分布向量可以包括每种情感类型对应的权重占比。可选的,全部情感类型对应的权重占比之和可以为1。其中,权重占比可以表征个性化需求信息与描述信息之间的相似度。
75.可选的实现方式中,训练后的多维度语音合成模型可以包括训练后的声学模型和预先训练的声码器,训练后的声学模型可以输出频谱特征,预先训练的声码器可以将训练后的声学模型输出的频谱特征转换为音频输出。对应的,上述步骤s203的子步骤可以包括s2031~s2034:
76.s2031、获取音色表征矩阵、风格表征矩阵以及情感表征矩阵。
77.在本实施例中,音色表征矩阵、风格表征矩阵以及情感表征矩阵均为训练后的声学模型的控制矩阵。
78.s2032、利用音色权重分布向量、风格权重分布向量以及情感权重分布向量分别对音色表征矩阵、风格表征矩阵以及情感表征矩阵进行加权处理,得到加权音色表征矩阵、加权风格表征矩阵和加权情感表征矩阵。
79.s2033、基于加权音色表征矩阵、加权风格表征矩阵以及加权情感表征矩阵,控制训练后的声学模型将待转换文本转化为个性化频谱特征。
80.s2034、将个性化频谱特征输入预先训练的声码器,得到合成音频。
81.在本实施例中,音色表征矩阵、风格表征矩阵以及情感表征矩阵各自包括每种音色类型的特征向量、每种风格类型的特征向量、每种情感类型的特征向量,对应的,经过加权处理后,加权音色表征矩阵、加权风格表征矩阵和加权情感表征矩阵各自包括每种音色类型的加权特征向量、每种风格类型的加权特征向量、每种情感类型的加权特征向量。
82.结合图2,可以看出训练后的声学模型存在三个控制维度(音色、风格、情感),利用音色权重分布向量、风格权重分布向量以及情感权重分布向量分别对音色表征矩阵、风格表征矩阵以及情感表征矩阵进行加权处理后,声学模型实际的三个控制矩阵即为加权音色表征矩阵、加权风格表征矩阵和加权情感表征矩阵。
83.以下给出一种将待转换文本转化为符合个性化需求信息的合成音频过程举例。
84.假设个性化需求信息为“一个年轻女声讲故事的风格”,音色描述列表包括8种音色类型的、风格描述列表包括8种风格类型各自的描述信息、情感描述列表包括8种情感类型各自的描述信息。
85.请参见图3、图4、图5,利用个性化需求信息分别与音色描述列表、风格描述列表以及情感描述列表进行匹配,可以得到音色权重分布向量风格权重分布向量情感权重分布向量
86.其中,音色表征矩阵e
timbre
、风格表征特征e
style
、情感表征矩阵e
emotion
的大小均为8*d,d代表向量的维度,例如d通常可以取为128或者256等。所以,用对e
timbre
进行加权得到加权音色表征矩阵用对e
style
进行加权得到加权风格表征矩阵用对e
emotion
进行加权得到加权情感表征矩阵其中,加权音色表征矩阵中的一行代表一种音色类型的加权特征向量,加权风格表征矩阵中的一行代表一种风格类型的加权特征向量,加权情感表征矩阵中的一行代表一种情感类型的加权特征向量。
87.结合图2,训练后的声学模型即可在加权音色表征矩阵加权风格表征矩阵加权情感表征矩阵这三个控制矩阵的控制下,将待转换文本转换成个性化频谱特征,从而预先训练的声码器接着将该个性化频谱特征转换为符合“一个年轻女声讲故事的风格”的合成音频。
88.需要说明的是,上述图3、图4、图5的举例仅为示例,在实际应用中,三类描述列表的内容、音色类型、风格类型以及情感类型的数量以实际应用情况为准,在此不做限定;且个性化需求信息的内容也仅为一种举例,在实际应用中个性化需求信息的内容以用户需求为准,在此不做限定。
89.以下对声学模型的训练过程进行介绍。
90.可选的实现方式中,声学模型的训练过程可包括以下步骤s101~s102:
91.s101、构建训练数据集。
92.在本实施例中,训练数据集可以包括若干份训练样本,每份训练样本包括一段音频样本的实际频谱特征和文本样本,训练样本存在类型标签。
93.s101的子步骤可以包括s1011~s1014:
94.s1011、获取若干音频样本。
95.在本实施例中,音频样本可以带有类型标签,类型标签可以包括音色类型标签、风
格类型标签和情感类型标签。音色类型标签、风格类型标签和情感类型标签分别可以表征音频样本所属的音色类型、风格类型和情感类型。
96.可选的,音色类型标签、风格类型标签和情感类型标签分别可以是向量形式。
97.假设一共500份音频样本,统计一共可分为10种音色类型、8种风格类型、8种情感类型,若某份音频样本的音色类型标签、风格类型标签、情感类型标签分别为0000100000、10000000、00010000,说明,该音频样本属于第5种音色类型、第1种风格类型、第4种情感类型。该举例仅为示例,在此不作限定。
98.可选的,音频样本的类型标签可以是人工标注或者是机器标注,在此不作限定。
99.s1012、分别对每份音频样本进行语音识别,得到每份音频样本的文本样本。
100.s1013、分别对每份音频样本进行特征提取,得到每份音频样本的实际频谱特征。
101.可选的,可以才采取现有的特征提取方式对每份音频样本进行特征提取,从而得到每份音频样本的实际频谱特征。例如,利用librosa工具对音频样本进行特征提取,该举例仅为示例,在此不作限定。
102.s1014、将音频样本的文本样本和实际频谱特征作为训练样本,并将音频样本的类型标签作为训练样本的类型标签,得到训练数据集。
103.如上,所以,一份训练样本的类型标签包括音色类型标签、风格类型标签和情感类型标签。
104.s102、利用训练数据集对预先构建的声学模型进行多轮训练,得到训练后的声学模型。
105.可选的,在每一轮训练时,训练过程包括以下子步骤:
106.s1021、将训练数据集输入声学模型,得到每个文本样本的预测频谱特征。
107.其中,一个文本样本的预测频谱特征是利用该文本样本对应的音色类型标签、风格类型标签和情感类型标签来控制声学模型对文本样本进行转换得到的。
108.在训练时,声学模型的三大控制矩阵初始的音色表征矩阵、风格表征矩阵以及情感表征矩阵,针对一份训练样本s,处理方式为:
109.(1)利用该训练样本s的音色类型标签、风格类型标签和情感类型标签分别对初始的音色表征矩阵、风格表征矩阵以及情感表征矩阵,得到加权音色表征矩阵、加权风格表征矩阵以及加权情感表征矩阵:
110.(2)利用加权音色表征矩阵、加权风格表征矩阵以及加权情感表征矩阵控制声学模型将训练样本s中的文本样本转换为预测频谱特征。
111.s1022、基于每份训练样本中的实际频谱特征以及每个文本样本的预测频谱特征,计算总损失。
112.可选的,假设总计t份训练样本,那么即可得到t份预测频谱特征,对于每份训练样本,可以将预测频谱特征与实际频谱特征之间的绝对距离作为该份训练样本的损失值,最后将全部的损失值求和取平均即得到总损失loss,其计算公式可以为:
[0113][0114]
其中,y
t
为第t个预测频谱特征,y
t

为第t份训练样本中的实际频谱特征;t为所有
训练样本的数量,也即所有实际频谱特征的数量。|y
t-y
t

|可以表示第t个预测频谱特征与第t个实际频谱特征之间的绝对距离。
[0115]
s1023、利用总损失进行反向传播以更新声学模型的模型权重以及控制矩阵,得到训练后的声学模型。
[0116]
在本实施例中,利用总损失loss进行反向传播从而来更新声学模型的模型权重以及三个控制矩阵,可以得到一个调整后的声学模型。如此进行多轮训练,每轮训练执行上述步骤s1021~s1023即可得到训练后的声学模型。
[0117]
在一种可选的实现方式中,本发明的声学模型、声码器分别可以采用durian模型结构、hifigan模型结构。需要说明的是,声学模型、声码器,也可采用其他模型结构,例如还可采用fastspeech2、lpcnet等模型结构。
[0118]
需要说明的是,上述方法实施例中各个步骤的执行顺序不以附图所示为限制,各步骤的执行顺序以实际应用情况为准。
[0119]
与现有技术相比,本发明实施例具有以下有益效果:
[0120]
相较于现有技术,本发明可利用训练后的多维度语音合成模型来得到符合个性化需求信息的合成音频,而无需预先训练每种个性化需求对应的个性化tts模型,节省了算力;
[0121]
利用训练后的多维度语音合成模型,本发明可以直接基于用户对合成音频的音色、风格以及情感这三方面的需求,来将文本转换为符合用户需求的音频,能够适用于用户不同的个性化需求,应用面广泛。
[0122]
为了执行上述方法实施例及各个可能的实施方式中的相应步骤,下面给出一种语音合成装置的实现方式。
[0123]
请参见图6,图6示出了本发明实施例提供的语音合成装置的结构示意图。该语音合成装置200包括:需求获取模块220、数据匹配模块230以及音频合成模块240。
[0124]
需求获取模块220,用于获取个性化需求信息和待转换文本;
[0125]
数据匹配模块230,用于将个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量;
[0126]
音频合成模块240,用于利用待转换文本、音色权重分布向量、风格权重分布向量、情感权重分布向量以及训练后的多维度语音合成模型,生成待转换文本的合成音频。
[0127]
可选的,语音合成装置200还可以包括模型训练模块210,用于:构建训练数据集,训练数据集包括若干份训练样本,每份训练样本包括一段音频样本的实际频谱特征和文本样本,训练样本存在类型标签;利用训练数据集对预先构建的声学模型进行多轮训练,得到训练后的声学模型。
[0128]
所属领域的技术人员可以清楚地了解到,模型训练模块210可以用于实现上述步骤s101~s102及其子步骤,数据匹配模块230可以用于实现上述步骤s202及其子步骤,音频合成模块240可以用于实现上述步骤s203及其子步骤。为描述的方便和简洁,上述描述的语音合成装置200的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0129]
请参见图7,图7为本发明实施例提供的一种电子设备的结构示意图。该电子设备300包括处理器310、存储器320和总线330,处理器310通过总线330与存储器320连接。
[0130]
存储器320可用于存储软件程序,例如,如本发明实施例所提供的语音合成装置200对应的软件程序。处理器310通过运行存储在存储器320内的软件程序,从而执行各种功能应用以及数据处理以实现如本发明实施例所提供的语音合成方法。
[0131]
其中,存储器320可以是但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),闪存存储器(flash),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
[0132]
处理器310可以是一种集成电路芯片,具有信号处理能力。该处理器310可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0133]
可以理解,图7所示的结构仅为示意,电子设备300还可以包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
[0134]
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时实现上述实施例揭示的语音合成方法。该计算机可读存储介质可以是但不限于:u盘、移动硬盘、rom、ram、prom、eprom、eeprom、flash磁碟或者光盘等各种可以存储程序代码的介质。
[0135]
综上,本发明实施例提供了一种语音合成方法、装置、电子设备及存储介质,首先获取个性化需求信息和待转换文本,接着将个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量;最后利用待转换文本、音色权重分布向量、风格权重分布向量、情感权重分布向量以及训练后的多维度语音合成模型,生成合成音频。相较于现有技术,本发明可利用训练后的多维度语音合成模型来得到符合个性化需求信息的合成音频,而无需预先训练每种个性化需求对应的个性化tts模型,节省了算力,并且训练后的多维度语音合成模型可以适用于不同的个性化需求,应用面广泛。
[0136]
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

技术特征:
1.一种语音合成方法,其特征在于,包括:获取个性化需求信息和待转换文本;将所述个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量;利用所述待转换文本、所述音色权重分布向量、所述风格权重分布向量、所述情感权重分布向量以及训练后的多维度语音合成模型,生成所述待转换文本的合成音频。2.根据权利要求1所述的方法,其特征在于,所述音色描述列表包括多种音色类型各自的描述信息;所述风格描述列表包括多种风格类型各自的描述信息;所述情感描述列表包括多种情感类型各自的描述信息;所述将所述个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量的步骤,包括:将所述个性化需求信息与所述音色描述列表输入预先训练的大型语言模型,得到所述音色权重分布向量;所述音色权重分布向量包括每种所述音色类型对应的权重占比;将所述个性化需求信息与所述风格描述列表输入所述大型语言模型,得到所述风格权重分布向量;所述风格权重分布向量包括每种所述风格类型对应的权重占比;将所述个性化需求信息与所述情感描述列表输入所述大型语言模型,得到所述情感权重分布向量;所述情感权重分布向量包括每种所述情感类型对应的权重占比;其中,所述权重占比表征所述个性化需求信息与所述描述信息的相似度。3.根据权利要求1所述的方法,其特征在于,所述训练后的多维度语音合成模型包括训练后的声学模型和预先训练的声码器;所述利用所述待转换文本、所述音色权重分布向量、所述风格权重分布向量、所述情感权重分布向量以及训练后的多维度语音合成模型,生成所述待转换文本的合成音频的步骤,包括:获取音色表征矩阵、风格表征矩阵以及情感表征矩阵;所述音色表征矩阵、所述风格表征矩阵以及所述情感表征矩阵均为所述训练后的声学模型的控制矩阵;利用所述音色权重分布向量、所述风格权重分布向量以及所述情感权重分布向量分别对所述音色表征矩阵、所述风格表征矩阵以及所述情感表征矩阵进行加权处理,得到加权音色表征矩阵、加权风格表征矩阵和加权情感表征矩阵;基于所述加权音色表征矩阵、所述加权风格表征矩阵以及所述加权情感表征矩阵,控制所述训练后的声学模型将所述待转换文本转化为个性化频谱特征;将所述个性化频谱特征输入所述预先训练的声码器,得到所述合成音频。4.根据权利要求3所述的方法,其特征在于,所述训练后的声学模型通过以下方式训练得到:构建训练数据集,所述训练数据集包括若干份训练样本,每份所述训练样本包括一段音频样本的实际频谱特征和文本样本,所述训练样本存在类型标签;利用所述训练数据集对预先构建的声学模型进行多轮训练,得到所述训练后的声学模型。5.根据权利要求4所述的方法,其特征在于,所述构建训练数据集的步骤,包括:
获取若干音频样本;所述音频样本带有所述类型标签;分别对每份所述音频样本进行语音识别,得到每份所述音频样本的文本样本;分别对每份所述音频样本进行特征提取,得到每份所述音频样本的实际频谱特征;将所述音频样本的文本样本和实际频谱特征作为训练样本,并将所述音频样本的类型标签作为所述训练样本的类型标签,得到所述训练数据集。6.根据权利要求5所述的方法,其特征在于,所述类型标签包括音色类型标签、风格类型标签和情感类型标签;所述利用所述训练数据集对预先构建的声学模型进行多轮训练,得到所述训练后的多维度语音合成模型的步骤,包括:将所述训练数据集输入所述声学模型,得到每个所述文本样本的预测频谱特征;所述预测频谱特征是利用所述音色类型标签、所述风格类型标签和所述情感类型标签控制所述声学模型对所述文本样本进行转换得到的;基于每份所述训练样本中的实际频谱特征以及每个所述文本样本的预测频谱特征,计算总损失;利用所述总损失进行反向传播以更新所述声学模型的模型权重以及控制矩阵,得到所述训练后的声学模型。7.一种语音合成装置,其特征在于,包括:需求获取模块,用于获取个性化需求信息和待转换文本;数据匹配模块,用于将所述个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量;音频合成模块,用于利用所述待转换文本、所述音色权重分布向量、所述风格权重分布向量、所述情感权重分布向量以及训练后的多维度语音合成模型,生成所述待转换文本的合成音频。8.根据权利要求7所述的装置,其特征在于,所述语音合成装置还包括模型训练模块,用于:构建训练数据集,所述训练数据集包括若干份训练样本,每份所述训练样本包括一段音频样本的实际频谱特征和文本样本,所述训练样本存在类型标签;利用所述训练数据集对预先构建的声学模型进行多轮训练,得到所述训练后的声学模型。9.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有软件程序,当所述电子设备运行时所述处理器执行所述软件程序以实现如权利要求1-6中任一项所述的语音合成方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的语音合成方法。

技术总结
本发明提供了一种语音合成方法、装置、电子设备及存储介质,首先获取个性化需求信息和待转换文本,接着将个性化需求信息分别与预先存储的音色描述列表、风格描述列表以及情感描述列表进行匹配,得到音色权重分布向量、风格权重分布向量以及情感权重分布向量;最后利用待转换文本、音色权重分布向量、风格权重分布向量、情感权重分布向量以及训练后的多维度语音合成模型,生成合成音频。相较于现有技术,本发明可利用训练后的多维度语音合成模型来得到符合个性化需求信息的合成音频,而无需预先训练每种个性化需求对应的个性化TTS模型,节省了算力,并且训练后的多维度语音合成模型可以适用于不同的个性化需求,应用面广泛。应用面广泛。应用面广泛。


技术研发人员:周鸿斌 贺来朋 贺天威 贺雯迪 谭芃菲 游于人 任凯盟 卢恒
受保护的技术使用者:上海珠峰智人信息科技有限公司
技术研发日:2023.07.10
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐