文本朗读风格生成模型的训练方法、风格生成方法和设备与流程

未命名 09-19 阅读:66 评论:0


1.本技术涉及人工智能及音频技术领域,特别是涉及一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质。


背景技术:

2.随着人工智能及音频技术的发展,出现了获取文本朗读风格信息的相关技术,文本朗读风格在整体上可以包括高兴、生气、悲伤、惊讶、害怕、厌恶等情感类别及各情感类别对应的情感强度,文本朗读风格信息可用于提升语音合成系统的语音表现力。
3.在目前技术中提供的用于获取文本朗读风格信息的相关方法中,需要以特定说话人在录音棚录制的音频数据为基础进行模型训练及文本朗读风格信息预测,其存在文本朗读风格受限于特定说话人而影响语音合成系统的语音表现力的问题。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质。
5.第一方面,本技术提供了一种文本朗读风格生成模型的训练方法。所述方法包括:
6.获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;
7.获取所述多个文本朗读音频句样本的多个音频特征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;
8.将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;
9.将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;
10.基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。
11.在其中一个实施例中,所述获取多个文本朗读音频句样本及多个句文本样本,包括:
12.获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本;根据所述多个文本朗读音频句样本以及所述对应的文本数据,获取每个所述文本朗读音频句样本对应的句文本样本。
13.在其中一个实施例中,所述根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据所述音量均衡处理后的文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本。
14.在其中一个实施例中,所述获取多个文本朗读音频句样本及多个句文本样本,包括:获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述对应的文本数据,获取多个句文本样本;根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本。
15.在其中一个实施例中,所述根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据所述多个句文本样本以及所述音量均衡处理后的文本朗读音频数据,获取所述多个文本朗读音频句样本。
16.在其中一个实施例中,所述获取文本朗读音频数据,包括:获取来自所述文本朗读音频发布平台的原始文本朗读音频数据;确定所述原始文本朗读音频数据的语种分布信息、说话人特性信息和伴奏信息;若根据所述语种分布信息判断所述原始文本朗读音频数据满足预设的语种分布条件,且根据所述说话人特性信息判断所述原始文本朗读音频数据满足预设的说话人条件,以及根据所述伴奏信息确定所述原始文本朗读音频数据满足预设的伴奏条件,则将所述原始文本朗读音频数据确定为所述文本朗读音频数据。
17.在其中一个实施例中,所述获取所述多个文本朗读音频句样本的平均说话人朗读特征,包括:根据所述多个文本朗读音频句样本的平均基频和/或平均语速,得到所述多个文本朗读音频句样本的平均说话人朗读特征;其中所述平均基频由所述多个文本朗读音频句样本的多个基频序列进行平均处理后得到,所述平均语速由所述多个文本朗读音频句样本对应的朗读总时长及所述多个句文本样本对应的文本总字数得到。
18.在其中一个实施例中,所述将所述多个句文本样本输入待训练的文本编码器,包括:针对所述多个句文本样本中的每一句文本样本,按照第一预设比例对句文本样本中的文本内容进行掩模处理,得到多个掩模处理后的句文本样本;将所述多个掩模处理后的句文本样本输入待训练的文本编码器;和/或,所述将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,包括:针对所述多个音频特征中的每一音频特征,按照第二预设比例对音频特征中的特征内容进行掩模处理,得到多个掩模处理后的音频特征;将所述多个文本朗读音频句样本的多个掩模处理后的音频特征以及所述平均说话人朗读特征输入待训练的音频编码器。
19.第二方面,本技术提供了一种文本朗读风格生成方法。所述方法包括:获取待朗读的文本;将所述待朗读的文本输入经训练的文本朗读风格生成模型;所述经训练的文本朗读风格生成模型根据如上任一实施例所述的方法训练得到;获取所述经训练的文本朗读风格生成模型输出的所述待朗读的文本对应的文本朗读风格信息。
20.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
21.获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;获取所述多个文本朗读音频句样本的多个音频特
征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。
22.第四方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
23.获取待朗读的文本;将所述待朗读的文本输入经训练的文本朗读风格生成模型;所述经训练的文本朗读风格生成模型根据如上任一实施例所述的方法训练得到;获取所述经训练的文本朗读风格生成模型输出的所述待朗读的文本对应的文本朗读风格信息。
24.第五方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
25.获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;获取所述多个文本朗读音频句样本的多个音频特征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。
26.第六方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
27.获取待朗读的文本;将所述待朗读的文本输入经训练的文本朗读风格生成模型;所述经训练的文本朗读风格生成模型根据如上任一实施例所述的方法训练得到;获取所述经训练的文本朗读风格生成模型输出的所述待朗读的文本对应的文本朗读风格信息。
28.上述文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质,获取多个文本朗读音频句样本及多个句文本样本,其中一文本朗读音频句样本和句文本样本具有对应关系,获取该多个文本朗读音频句样本的多个音频特征,以及获取多个文本朗读音频句样本的平均说话人朗读特征,将该多个句文本样本输入待训练的文本编码器,获取其输出的分别对应于每个句文本样本的第一文本朗读风格预测信息,以及将
多个文本朗读音频句样本的多个音频特征以及平均说话人朗读特征输入待训练的音频编码器,获取其输出的分别对应于每个文本朗读音频句样本的第二文本朗读风格预测信息,基于各第一、第二文本朗读风格预测信息的相似度训练文本编码器和音频编码器,当具有对应关系的第一与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。该方案的训练数据可以来自文本朗读音频发布平台,不依赖于特定说话人在录音棚录制的音频数据,可显著节约训练数据获取成本,及提取平均说话人朗读特征进行基于跨模态的模型训练,一方面使经训练模型预测的文本朗读风格信息可以更好地与说话人风格解耦,将该文本朗读风格信息接入到不同说话人的语音合成系统中也可得到更加一致的情感表现,提升语音合成系统的语音表现力,另一方面在模型应用时仅需输入待朗读的文本便可获得文本朗读风格信息,便于接入语音合成系统指导其合成高表现力的语音。
附图说明
29.图1为本技术实施例中文本朗读风格生成模型的训练方法的应用环境图;
30.图2为本技术实施例中文本朗读风格生成模型的训练方法的流程示意图;
31.图3为本技术实施例中模型训练过程的示意图;
32.图4为本技术实施例中音频编码器处理数据的示意图;
33.图5为本技术实施例中获取文本朗读音频数据的步骤的流程示意图;
34.图6为本技术另一实施例中文本朗读风格生成模型的训练方法的流程示意图;
35.图7(a)为本技术实施例中计算机设备的内部结构图;
36.图7(b)为本技术另一实施例中计算机设备的内部结构图。
具体实施方式
37.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
38.本技术实施例提供的文本朗读风格生成模型的训练方法、文本朗读风格生成方法,可以应用于如图1所示的应用环境中,该应用环境可以包括终端110和服务器120,终端110可以通过网络与服务器120进行通信。数据存储系统可以存储服务器120需要处理的数据。数据存储系统可以集成在服务器120上,也可以放在云上或其他网络服务器上。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
39.具体的,本技术实施例提供的文本朗读风格生成模型的训练方法,可以由服务器120执行,服务器120根据本技术实施例提供的文本朗读风格生成模型的训练方法,可训练经训练的文本编码器作为文本朗读风格生成模型,然后服务器120可以将该文本朗读风格生成模型进行本地部署或者发送至终端110。由此,本技术实施例提供的文本朗读风格生成
方法,可以由服务器120或者终端110执行,其中,服务器120可以从终端110获取待朗读的文本,然后将该待朗读的文本输入前述的经训练的文本朗读风格生成模型,获取该经训练的文本朗读风格生成模型输出的待朗读的文本对应的文本朗读风格信息,该文本朗读风格信息可以进一步接入到语音合成系统提升语音表现力,其中,终端110也可以获取待朗读的文本,然后将该待朗读的文本输入前述从服务器120收到的经训练的文本朗读风格生成模型,获取该经训练的文本朗读风格生成模型输出的待朗读的文本对应的文本朗读风格信息,该文本朗读风格信息可以进一步接入到语音合成系统提升语音表现力。
40.语音合成技术作为人机交互的重要环节,目标是达到媲美真人的合成效果,高表现力语音合成逐渐成为未来的趋势,在制作有声读物或者构建虚拟数字人方面都有很高的应用价值。高表现力语音可以具备韵律自然、情感风格丰富和音质清澈等显著特点,而目前技术在韵律自然表示、情感风格丰富度上和真人之间还存在着较大的、人耳容易分辨的差距,本技术的方法通过文本朗读风格生成模型的训练及其应用,可从文本中预测出文本朗读风格信息,将其应用于语音合成系统,可显著提升有声读物合成的表现力,以及语音交互技术的自然程度。
41.对于目前技术中提供的用于获取文本朗读风格信息的相关方法,为提升泛化能力,其必不可少地需要采集大量高质量音频数据用于构建语音合成系统,这种数据成本是巨大的,而其所训练得到的文本朗读风格信息都受限于特定的单个说话人,即相同的朗读风格,在不同说话人的语音合成系统上得到的情感表现是有明显差异的,影响了语音合成系统的语音表现力。与之不同的是,本技术的方法,不依赖特定说话人在录音棚录制的音频数据,可显著节约训练数据获取成本,且本技术的方法提取平均说话人朗读特征进行基于跨模态的模型训练,一方面使经训练模型预测的文本朗读风格信息可以更好地与说话人风格解耦,将该文本朗读风格信息接入到不同说话人的语音合成系统中也可得到更加一致的情感表现,提升语音合成系统的语音表现力,另一方面在模型应用时仅需输入待朗读的文本便可获得文本朗读风格信息,便于接入语音合成系统指导其合成高表现力的语音。
42.以下部分基于如图1所示的应用环境并结合各实施例及相应附图,依次对本技术的文本朗读风格生成模型的训练方法、文本朗读风格生成方法作进一步说明。
43.在一个实施例中,如图2所示,提供了一种文本朗读风格生成模型的训练方法,该方法可由如图1中的服务器120执行,该方法包括以下步骤:
44.步骤s201,获取多个文本朗读音频句样本及多个句文本样本。
45.其中,一文本朗读音频句样本和一句文本样本具有对应关系。具体的,服务器120可以以句子为单位对文本朗读音频数据和对应的文本数据进行相应地切分,句子的时长可以限制在一定范围内,如句子的时长可以设置在0至10秒内,这样服务器120可以切分得到多个文本朗读音频句,以及每个文本朗读音频句各自对应的多个文本,因与音频句对应故该文本称为句文本,而服务器120将把该多个文本朗读音频句及对应的多个句文本作为训练样本用于模型训练,故进一步将文本朗读音频句记为文本朗读音频句样本,将句文本记为句文本样本,由此服务器120得到多个文本朗读音频句样本及对应的多个句文本样本。示例性的,“啊!这真是令人高兴的事儿啊!”可以作为一句文本样本,该“啊!这真是令人高兴的事儿啊!”的音频即为对应的文本朗读音频句样本。其中,文本朗读音频数据可以包括用户发布的朗读文本的音频数据,对应的文本数据可以包括该用户发布的朗读文本的音频数
据所对应的文字内容,在实际应用中,文本朗读音频数据的总时长越长、涵盖的说话人越多、朗读文本的类型越多,会使得训练得到的文本朗读风格生成模型对文本朗读风格信息的预测效果更准确。
46.步骤s202,获取多个文本朗读音频句样本的多个音频特征,以及获取多个文本朗读音频句样本的平均说话人朗读特征。
47.本步骤中,需要获取两方面特征,一方面是针对每个文本朗读音频句样本的音频本身的特征即音频特征,另一方面是由多个文本朗读音频句样本整体呈现的反应其涵盖的各说话人的平均朗读特征的平均说话人朗读特征。其中,音频特征可以采用梅尔谱,即针对每一文本朗读音频句样本,获取文本朗读音频句样本对应的梅尔谱,从而服务器120获得分别对应于多个文本朗读音频句样本的多个音频特征,具体的,提取梅尔谱作为音频特征,原因在于人耳能听到的频率范围是20至20000赫兹,但人耳对赫兹这种标度单位并不是线性感知关系,梅尔谱的提取,首先可以对文本朗读音频句样本进行分帧加窗,然后通过傅里叶变化计算线性频谱,最后采用梅尔标度的滤波器组将线性频谱变换为梅尔频谱,从而实现将频谱的线性标度转化为梅尔标度,在具体实现中可以选用80组梅尔三角滤波器对每个文本朗读音频句样本进行特征提取。
48.对于平均说话人朗读特征,其可以包括各说话人的平均基频、平均语速中的至少一种,对此,在其中一些实施例中,本技术的方法还可以包括以下步骤:
49.根据多个文本朗读音频句样本,获取分别对应于多个文本朗读音频句样本的多个基频序列;对分别对应于多个文本朗读音频句样本的多个基频序列进行平均处理,得到平均基频。
50.也即,平均基频可以由多个文本朗读音频句样本的多个基频序列进行平均处理后得到。本实施例的方案主要是用于获取各说话人的平均基频。具体的,对于平均基频,可以采用pyin基频提取方式,针对多个文本朗读音频句样本中的每一文本朗读音频句样本,可以获得文本朗读音频句样本对于的帧级别的基频序列,从而获得分别对应于多个文本朗读音频句样本的多个基频序列,这里涵盖了每个说话人的所有文本朗读音频句样本的基频序列,将该分别对应于多个文本朗读音频句样本的多个基频序列进行平均处理,即将每个说话人的所有文本朗读音频句样本的基频序列进行平均处理,得到平均基频。
51.在另外一些实施例中,本技术的方法还可以包括以下步骤:
52.根据多个文本朗读音频句样本对应的朗读总时长以及多个句文本样本对应的文本总字数,得到平均语速。
53.也即,平均语速可以由多个文本朗读音频句样本对应的朗读总时长及多个句文本样本对应的文本总字数得到。本实施例的方案主要是用于获取各说话人的平均语速。具体的,对于平均语速,服务器120可以获取多个文本朗读音频句样本对应的朗读总时长,获取多个句文本样本对应的文本总字数,然后根据朗读总时长以及文本总字数计算得到平均语速,在具体实现中服务器120可以根据文本朗读音频数据中涵盖的所有说话人的所有文本朗读音频的总时长和所有文本的总字数,计算得到多个文本朗读音频句样本的平均语速。
54.基于此,在一些实施例中,步骤s202中的获取多个文本朗读音频句样本的平均说话人朗读特征,可以包括:根据多个文本朗读音频句样本的平均基频和/或平均语速,得到多个文本朗读音频句样本的平均说话人朗读特征。具体的,在只获取平均基频或平均语速
的情况下,服务器120可以将平均基频或平均语速作为多个文本朗读音频句样本的平均说话人朗读特征,在获取了平均基频和平均语速的情况下,服务器120可以将平均基频和平均语速作为多个文本朗读音频句样本的平均说话人朗读特征。本技术中使用包含如平均基频、平均语速等的平均说话人朗读特征,其意义在于避免不同说话人的整体朗读风格影响到后续模型对文本朗读风格的提取。
55.步骤s203,将多个句文本样本输入待训练的文本编码器,获取待训练的文本编码器输出的分别对应于每个句文本样本的第一文本朗读风格预测信息。
56.步骤s204,将多个文本朗读音频句样本的多个音频特征以及平均说话人朗读特征输入待训练的音频编码器,获取待训练的音频编码器输出的分别对应于每个文本朗读音频句样本的第二文本朗读风格预测信息。
57.步骤s205,基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。
58.上述步骤s203至步骤s205,是本技术在获得多个句文本样本、分别对应于多个文本朗读音频句样本的多个音频特征、平均说话人朗读特征后,进行模型训练的主要过程。对此,结合图3进行说明,在步骤s203中,将多个句文本样本输入待训练的文本编码器,获取待训练的文本编码器输出的分别对应于每个句文本样本的第一文本朗读风格预测信息(t1、t2、t3、

、tn),n表示多个句文本样本的数量。在步骤s204中,将多个文本朗读音频句样本的多个音频特征(梅尔谱)以及平均说话人朗读特征(平均基频、平均语速)输入待训练的音频编码器,获取待训练的音频编码器输出的分别对应于每个文本朗读音频句样本的第二文本朗读风格预测信息(a1、a2、a3、

、an)。
59.其中,对于文本编码器,可以使用开源的bert(bidirectionalencoder representationfromtransformers)模型,该模型是一个预训练的语言表征模型,文本编码器的最终输出为最后一层的隐藏状态,其维度为[batch_size,embed_dim],里batch_size为单批次训练的样本数量n,embed_dim为预测的第一文本朗读风格预测信息对应的向量维度,具体可设为256。
[0060]
其中,对于音频编码器,音频编码器的输入具体可以包含多个梅尔谱,以及平均基频和平均语速,如前所述的,使用平均基频和平均语速的意义在于避免不同说话人的整体朗读风格影响到第二文本朗读风格预测信息的提取。其中,设梅尔谱的维度为[t,80],t表示时间,平均基频和平均语速均为量化后的单个数值,可以分别进行词嵌入操作后得到维度为[1,80]的词嵌入向量,接着将词嵌入向量分别复制t份后和梅尔谱拼接起来,可以得到[t,240]的特征表示,进一步结合图4,将特征表示[t,240]输入到音频编码器的残差网络中,然后在卷积层使用不同的卷积(卷积核大小分别为1、3、5、7、9,通道数可以均为128)捕获局部特征,然后将卷积计算结果进行拼接可以得到[t,640]的向量,然后紧接着的线性层(linear)和线性整流单元(relu)负责将特征降维到[t,256],最后使用双向门控递归单元网络(bi-gru)进一步增强时序建模能力,取出双向门控递归单元网络的最后状态层后使用线性层(linear)转换,得到和上述的第一文本朗读风格预测信息对应的向量维度256相同
的第二文本朗读风格预测信息。注意输入的音频梅尔谱同样进行20%的随机掩模操作来提升音频编码器的建模能力。
[0061]
基于此,结合图3,在步骤s205中,可以先获取各第一文本朗读风格预测信息(t1、t2、t3、

、tn)与各第二文本朗读风格预测信息(a1、a2、a3、

、an)的相似度(x11、x12、

、xnn),基于该相似度(x11、x12、

、xnn)训练待训练的文本编码器和待训练的音频编码器。
[0062]
具体的,本技术对模型进行训练的原理,主要是使模型预测给定的音频特征和给定的句文本样本是否是一对(paired),可以借助对比学习作为损失函数来预训练一个跨模态模型,该跨模态模型可以通过前述的文本编码器预测句文本样本对应的第一文本朗读风格预测信息,通过前述的音频编码器根据音频特征以及平均说话人朗读特征预测得到第二文本朗读风格预测信息,当给定的音频特征和给定的句文本样本是一对时,其相似度很高,而不是一对时,其相似度很低。由此,对于一个包含n个音频特征-句文本样本对的批次来说,正样本是具有对应关系的音频特征及句文本样本,共有n个,而其他的所有音频特征及句文本样本的组合都是不成对的,也就是负样本有n
×
n-n个。由此,在计算各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度后,对比学习的目标函数就是让正样本对的相似度较高,负样本对的相似度较低,具体的,在本步骤中,当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,服务器120可以获得经训练的文本编码器,将该经训练的文本编码器作为文本朗读风格生成模型。
[0063]
上述文本朗读风格生成模型的训练方法,获取多个文本朗读音频句样本及多个句文本样本,其中一文本朗读音频句样本和句文本样本具有对应关系,获取该多个文本朗读音频句样本的多个音频特征,以及获取多个文本朗读音频句样本的平均说话人朗读特征,将该多个句文本样本输入待训练的文本编码器,获取其输出的分别对应于每个句文本样本的第一文本朗读风格预测信息,以及将多个文本朗读音频句样本的多个音频特征以及平均说话人朗读特征输入待训练的音频编码器,获取其输出的分别对应于每个文本朗读音频句样本的第二文本朗读风格预测信息,基于各第一、第二文本朗读风格预测信息的相似度训练文本编码器和音频编码器,当具有对应关系的第一与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。该方案的训练数据可以来自文本朗读音频发布平台,不依赖于特定说话人在录音棚录制的音频数据,可显著节约训练数据获取成本,及提取平均说话人朗读特征进行基于跨模态的模型训练,一方面使经训练模型预测的文本朗读风格信息可以更好地与说话人风格解耦,将该文本朗读风格信息接入到不同说话人的语音合成系统中也可得到更加一致的情感表现,提升语音合成系统的语音表现力,另一方面在模型应用时仅需输入待朗读的文本便可获得文本朗读风格信息,便于接入语音合成系统指导其合成高表现力的语音。
[0064]
在其中一个实施例中,步骤s201中的获取多个文本朗读音频句样本及多个句文本样本,包括:
[0065]
获取文本朗读音频数据和对应的文本数据;根据文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本;根据多个文本朗读音频句样本以及对应的
文本数据,获取每个文本朗读音频句样本对应的句文本样本。
[0066]
本实施例中,服务器120可以获取来自文本朗读音频发布平台的文本朗读音频数据和对应的文本数据,即所获取的文本朗读音频数据和对应的文本数据均可来自文本朗读音频发布平台。其中,文本朗读音频发布平台是指供各类说话人(用户)进行文本朗读音频的相关内容发布的平台,具体可以是各种有声书朗读数据的发布平台,服务器120可以在获得相关授权的情况下获取由文本朗读音频发布平台提供的文本朗读音频数据和对应的文本数据,在实际应用中,文本朗读音频数据的总时长越长、涵盖的说话人越多、朗读文本的类型越多,会使得训练得到的文本朗读风格生成模型对文本朗读风格信息的预测效果更准确。然后,服务器120可以先根据文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本,然后再根据多个文本朗读音频句样本以及对应的文本数据,基于时间上的对应关系,从文本数据中获取分别于与该多个文本朗读音频句样本相对应的多个句文本,从而得到对应的多个句文本样本。其中,预设音频句时长条件可以是预设时长,该预设时长可以设为0至10秒范围内的一个时长,这样可以供相关人员灵活设置所需时长的文本朗读音频句样本并由此获取对应的多个句文本样本。
[0067]
进一步的,在一些实施例中,上述实施例中的根据文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本,可以包括:
[0068]
对文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据音量均衡处理后的文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本。
[0069]
本实施例中,可以在获取多个文本朗读音频句样本前,先对文本朗读音频数据进行音量均衡处理,具体可以将采样率统一为16000hz,然后对文本朗读音频数据进行音量均衡处理,将文本朗读音频数据的响度设置为统一值,得到音量均衡处理后的文本朗读音频数据,然后可以根据音量均衡处理后的文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本,从而避免引入不同音频数据的音量差异,提升所训练模型的预测准确性。
[0070]
在另外一个实施例中,步骤s201中的获取多个文本朗读音频句样本及多个句文本样本,可以包括:
[0071]
获取文本朗读音频数据和对应的文本数据;根据对应的文本数据,获取多个句文本样本;根据多个句文本样本以及文本朗读音频数据,获取多个文本朗读音频句样本。
[0072]
本实施例中,服务器120可以获取来自文本朗读音频发布平台的文本朗读音频数据和对应的文本数据,即所获取的文本朗读音频数据和对应的文本数据均可来自文本朗读音频发布平台。其中,文本朗读音频发布平台是指供各类说话人(用户)进行文本朗读音频的相关内容发布的平台,具体可以是各种有声书朗读数据的发布平台,服务器120可以在获得相关授权的情况下获取由文本朗读音频发布平台提供的文本朗读音频数据和对应的文本数据,在实际应用中,文本朗读音频数据的总时长越长、涵盖的说话人越多、朗读文本的类型越多,会使得训练得到的文本朗读风格生成模型对文本朗读风格信息的预测效果更准确。然后,服务器120可以先根据对应的文本数据获取多个句文本样本,具体可以以句为单位从对应的文本数据中切分出多个句文本样本,然后再根据多个句文本样本以及文本朗读音频数据,基于时间上的对应关系,从文本朗读音频数据中获取分别于与该多个句文本样
本相对应的多个文本朗读音频句样本,这样可以以句为单位且分出高质量的相对应的句文本样本以及文本朗读音频句样本。
[0073]
进一步的,在一些实施例中,上述实施例中的根据多个句文本样本以及文本朗读音频数据,获取多个文本朗读音频句样本,可以包括:
[0074]
对文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据多个句文本样本以及音量均衡处理后的文本朗读音频数据,获取多个文本朗读音频句样本。
[0075]
本实施例中,类似的,在获取多个文本朗读音频句样本前,先对文本朗读音频数据进行音量均衡处理,具体可以将采样率统一为16000hz,然后对文本朗读音频数据进行音量均衡处理,将文本朗读音频数据的响度设置为统一值,得到音量均衡处理后的文本朗读音频数据,然后可以根据多个句文本样本以及音量均衡处理后的文本朗读音频数据,基于时间上的对应关系,从音量均衡处理后的文本朗读音频数据中获取分别于与该多个句文本样本相对应的多个文本朗读音频句样本,从而避免引入不同音频数据的音量差异,提升所训练模型的预测准确性。
[0076]
在一些实施例中,如图5所示,上述实施例中的获取文本朗读音频数据,具体包括:
[0077]
步骤s501,获取来自文本朗读音频发布平台的原始文本朗读音频数据。
[0078]
本步骤中,如前所述的,服务器120可以在获得相关授权的情况下获取由文本朗读音频发布平台提供的文本朗读音频数据,服务器120将该文本朗读音频数据先设为原始文本朗读音频数据。
[0079]
步骤s502,确定原始文本朗读音频数据的语种分布信息、说话人特性信息和伴奏信息。
[0080]
具体的,服务器120可以通过相关识别模型对原始文本朗读音频数据进行分析,确定该原始文本朗读音频数据的语种分布信息、说话人特性信息和伴奏信息。其中,语种分布信息可以是用于表示该原始文本朗读音频数据涵盖了多少语种等相关信息,说话人特性信息可以是用于表示该原始文本朗读音频数据涵盖了哪类和多少说话人等相关信息,伴奏信息可以是用于表示该原始文本朗读音频数据中是否包含有伴奏等相关信息。
[0081]
步骤s503,若根据语种分布信息判断原始文本朗读音频数据满足预设的语种分布条件,且根据说话人特性信息判断原始文本朗读音频数据满足预设的说话人条件,以及根据伴奏信息确定原始文本朗读音频数据满足预设的伴奏条件,则将原始文本朗读音频数据确定为文本朗读音频数据。
[0082]
本步骤中,服务器120可以根据语种分布信息判断原始文本朗读音频数据是否满足预设的语种分布条件,该预设的语种分布条件可以是用于判断该原始文本朗读音频数据中涵盖了指定的若干种语种且该若干种语种对应的音频数据达到了预定时长的相关条件,如英文的音频数据达到12小时等,还可以根据说话人特性信息判断原始文本朗读音频数据是否满足预设的说话人条件,该预设的说话人条件可以是用于判断该原始文本朗读音频数据中涵盖了指定的说话人类型及对应的数量的相关条件,如包含a名男性说话人和a名女性说话人等,还可以根据伴奏信息确定原始文本朗读音频数据满足预设的伴奏条件,该预设的伴奏条件可以是用于判断该原始文本朗读音频数据中未包含伴奏的相关条件,由此,若服务器120判断原始文本朗读音频数据满足预设的语种分布条件、预设的说话人条件以及
预设的伴奏条件,则服务器120可以将该原始文本朗读音频数据确定为文本朗读音频数据。本实施例的方案可使所获得的文本朗读音频数据对模型训练的效果获得准确性的提升,且相对于传统的语音合成所需的音频数据,音质要求及对应的文本质量要求更低,显著降低数据获取成本。
[0083]
在一个实施例中,步骤s203中的将多个句文本样本输入待训练的文本编码器,可以包括:
[0084]
针对多个句文本样本中的每一句文本样本,按照第一预设比例对句文本样本中的文本内容进行掩模处理,得到多个掩模处理后的句文本样本;将多个掩模处理后的句文本样本输入待训练的文本编码器。
[0085]
具体的,如前所述的,文本编码器可以使用开源的bert模型,与传统的采用单向语言模型或者把两个单向语言模型进行浅层拼接的方法不同,本实施例中,针对多个句文本样本中的每一句文本样本,采用对文本内容掩模的方式使其可以生成深层次的语言表征,具体的,针对每一句文本样本,将句文本样本中的文本内容(如单词)按照第一预设比例(如30%)进行随机掩模,从而可得到多个掩模处理后的句文本样本,然后将该多个掩模处理后的句文本样本输入待训练的文本编码器(具体可以由多个transformer模块组成),从而增强文本编码器对文本朗读风格信息的建模能力。
[0086]
在一个实施例中,步骤s204中的将多个文本朗读音频句样本的多个音频特征以及平均说话人朗读特征输入待训练的音频编码器,可以包括:
[0087]
针对多个音频特征中的每一音频特征,按照第二预设比例对音频特征中的特征内容进行掩模处理,得到多个掩模处理后的音频特征;将多个文本朗读音频句样本的多个掩模处理后的音频特征以及平均说话人朗读特征输入待训练的音频编码器。
[0088]
类似的,本实施例中,针对多个音频特征中的每一音频特征,在输入至音频编码器前,服务器120可按照第二预设比例(如20%)对音频特征中的特征内容进行随机掩模,从而得到多个掩模处理后的音频特征,然后将该多个掩模处理后的音频特征以及平均说话人朗读特征输入待训练的音频编码器,从而提升音频编码器对文本朗读风格信息的建模能力。
[0089]
在一个实施例中,如图6所示,提供了一种文本朗读风格生成方法,该方法可由如图1中的终端110执行,该方法可以包括以下步骤:
[0090]
步骤s601,获取待朗读的文本。
[0091]
本步骤中,终端110可以获取由用户提供的或者由服务器120提供的待朗读的文本。
[0092]
步骤s602,将待朗读的文本输入经训练的文本朗读风格生成模型。
[0093]
具体的,经训练的文本朗读风格生成模型可以由服务器120根据如上任一项实施例所述的文本朗读风格生成模型的训练方法训练得到,并由服务器120发送至终端110进行使用。本步骤中,终端110将待朗读的文本输入经训练的文本朗读风格生成模型,需要注意的是,无需对待朗读的文本进行随机掩模处理,在模型应用阶段,只需将待朗读的文本输入经训练的文本朗读风格生成模型即文本编码器中。
[0094]
步骤s603,获取经训练的文本朗读风格生成模型输出的待朗读的文本对应的文本朗读风格信息。
[0095]
本步骤中,服务器120获取经训练的文本朗读风格生成模型根据输入的待朗读的
文本输出的该待朗读的文本对应的文本朗读风格信息,该文本朗读风格信息可以接入语音合成系统指导其合成高表现力的语音。
[0096]
本实施例的方案,可通过大量情感朗读的有声书音频和文本,构建一个跨模态模型进行无监督的对比学习,在文本朗读风格预测阶段,可将待朗读的文本直接输入到经训练的文本编码器以预测得到相应的文本朗读风格信息,该文本朗读风格信息对语音合成系统来说,可以在语速、音高和情感等方面进行控制,从而实现高表现力的语音合成。
[0097]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0098]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7(a)所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本朗读音频数据、文本数据等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法。
[0099]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图7(b)所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本朗读风格生成方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0100]
本领域技术人员可以理解,图7(a)和图7(b)中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同
的部件布置。
[0101]
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0102]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0103]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0104]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistiverandomaccessmemory,mram)、铁电存储器(ferroelectricrandomaccessmemory,fram)、相变存储器(phasechange memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccess memory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0105]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0106]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:
1.一种文本朗读风格生成模型的训练方法,其特征在于,所述方法包括:获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;获取所述多个文本朗读音频句样本的多个音频特征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。2.根据权利要求1所述的方法,其特征在于,所述获取多个文本朗读音频句样本及多个句文本样本,包括:获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本;根据所述多个文本朗读音频句样本以及所述对应的文本数据,获取每个所述文本朗读音频句样本对应的句文本样本。3.根据权利要求2所述的方法,其特征在于,所述根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据所述音量均衡处理后的文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本。4.根据权利要求1所述的方法,其特征在于,所述获取多个文本朗读音频句样本及多个句文本样本,包括:获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述对应的文本数据,获取多个句文本样本;根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本。5.根据权利要求4所述的方法,其特征在于,所述根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数
据;根据所述多个句文本样本以及所述音量均衡处理后的文本朗读音频数据,获取所述多个文本朗读音频句样本。6.根据权利要求2至5中任一项所述的方法,其特征在于,所述获取文本朗读音频数据,包括:获取来自所述文本朗读音频发布平台的原始文本朗读音频数据;确定所述原始文本朗读音频数据的语种分布信息、说话人特性信息和伴奏信息;若根据所述语种分布信息判断所述原始文本朗读音频数据满足预设的语种分布条件,且根据所述说话人特性信息判断所述原始文本朗读音频数据满足预设的说话人条件,以及根据所述伴奏信息确定所述原始文本朗读音频数据满足预设的伴奏条件,则将所述原始文本朗读音频数据确定为所述文本朗读音频数据。7.根据权利要求1所述的方法,其特征在于,所述获取所述多个文本朗读音频句样本的平均说话人朗读特征,包括:根据所述多个文本朗读音频句样本的平均基频和/或平均语速,得到所述多个文本朗读音频句样本的平均说话人朗读特征;其中所述平均基频由所述多个文本朗读音频句样本的多个基频序列进行平均处理后得到,所述平均语速由所述多个文本朗读音频句样本对应的朗读总时长及所述多个句文本样本对应的文本总字数得到。8.根据权利要求1所述的方法,其特征在于,所述将所述多个句文本样本输入待训练的文本编码器,包括:针对所述多个句文本样本中的每一句文本样本,按照第一预设比例对句文本样本中的文本内容进行掩模处理,得到多个掩模处理后的句文本样本;将所述多个掩模处理后的句文本样本输入待训练的文本编码器;和/或,所述将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,包括:针对所述多个音频特征中的每一音频特征,按照第二预设比例对音频特征中的特征内容进行掩模处理,得到多个掩模处理后的音频特征;将所述多个文本朗读音频句样本的多个掩模处理后的音频特征以及所述平均说话人朗读特征输入待训练的音频编码器。9.一种文本朗读风格生成方法,其特征在于,所述方法包括:获取待朗读的文本;将所述待朗读的文本输入经训练的文本朗读风格生成模型;所述经训练的文本朗读风格生成模型根据权利要求1至8任一项所述的方法训练得到;获取所述经训练的文本朗读风格生成模型输出的所述待朗读的文本对应的文本朗读风格信息。10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的或权利要求9所述的方法的步骤。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序
被处理器执行时实现权利要求1至8中任一项所述的或权利要求9所述的方法的步骤。

技术总结
本申请涉及文本朗读风格生成模型的训练方法、风格生成方法、设备和介质,能使文本朗读风格信息与说话人风格解耦,提升语音表现力。包括:根据多个音频句样本及对应的多个句文本样本,获取多个音频句样本对应的多个音频特征和平均说话人朗读特征,将多个句文本样本输入文本编码器,得到多个第一文本朗读风格预测信息,将多个音频特征和平均说话人朗读特征输入音频编码器,得到多个第二文本朗读风格预测信息,基于第一、第二预测信息训练编码器,对应的第一与第二预测信息的相似度大于或等于第一阈值且不对应的第一与第二预测信息的相似度小于第二阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。文本朗读风格生成模型。文本朗读风格生成模型。


技术研发人员:庄晓滨
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2023.07.20
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐