语音合成方法、语音合成系统、电子设备及存储介质与流程

未命名 08-29 阅读:200 评论:0


1.本技术涉及金融科技技术领域,尤其涉及一种语音合成方法、语音合成系统、电子设备及存储介质。


背景技术:

2.随着金融科技和社会经济的快速发展,人们对于银行服务水平的要求越来越高。在智能客服、多轮对话、机器人外呼等场景中,能够通过表达自然且语义准确的语音向目标对象传递相关信息,是提升客户体验和服务水平最有效和最直接的方法之一。目前,基于深度学习的语音合成系统通常通过声码器进行语音合成。然而,当对某些语义变化较大且不定长的文本进行语音合成时,相关技术的语音合成方法无法精准地捕捉到文本中不同的上下文关系,从而影响了声码器对语音合成的准确性,生成了表达不自然且语义不通的合成语音。因此,如何提高文本到语音的预测准确度,且生成表达自然、语义通顺的合成语音,成为了亟待解决的技术问题。


技术实现要素:

3.本技术实施例的主要目的在于提出了一种语音合成方法、语音合成系统、电子设备及存储介质,能够提高文本到语音的预测准确度,且生成表达自然、语义通顺的合成语音。
4.为实现上述目的,本技术实施例的第一方面提出了一种语音合成方法,所述方法包括:
5.获取样本文本序列和所述样本文本序列的样本语音;
6.将所述样本文本序列输入至预设的原始语音合成模型,所述原始语音合成模型包括字符调节子模型和初始语音预测子模型;
7.根据所述字符调节子模型对所述样本文本序列进行文本字符调节,得到初始样本变量序列;
8.根据所述初始语音预测子模型对所述初始样本变量序列进行语音预测处理,得到第一预测语音;
9.根据所述第一预测语音和所述样本语音对所述初始语音预测子模型进行参数调整,得到候选语音合成模型;
10.根据所述第一预测语音和所述样本语音对所述初始样本变量序列进行字符筛选,得到目标样本变量序列;
11.将所述目标样本变量序列输入至所述候选语音合成模型进行语音合成处理,得到第二预测语音;
12.根据所述第二预测语音和所述样本语音对所述候选语音合成模型进行参数调整,得到目标语音合成模型;
13.将获取的目标文本序列输入至所述目标语音合成模型进行语音合成处理,得到目
标合成语音。
14.在一些实施例中,所述样本文本序列包括样本初始字符,所述根据所述字符调节子模型对所述样本文本序列进行文本字符调节,得到初始样本变量序列,包括:
15.对所述样本文本序列进行随机字符抽取,得到样本初始变量字符;
16.对所述样本初始字符和所述样本初始变量字符进行字符合并,得到初始样本变量序列。
17.在一些实施例中,所述初始样本变量序列包括样本候选字符,所述根据所述第一预测语音和所述样本语音对所述初始语音预测子模型进行参数调整,得到候选语音合成模型,包括:
18.根据所述第一预测语音和所述样本语音进行频谱损失计算,得到预测损失数据;
19.根据所述预测损失数据对所述样本候选字符进行偏导数计算,得到字符变量数据;
20.根据所述样本文本序列的数量对所述字符变量数据进行均值计算,得到字符度量数据;
21.对预设字符度量阈值和所述字符度量数据进行数值比较,得到度量比较结果;
22.根据所述度量比较结果对所述样本候选字符进行字符筛选,得到样本目标字符;
23.根据所述样本初始字符、所述样本初始变量字符和所述样本目标字符对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型。
24.在一些实施例中,所述根据所述样本初始字符、所述样本初始变量字符和所述样本目标字符对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型,包括:
25.对所述样本目标字符进行字符判断,得到样本目标变量字符;
26.根据所述样本初始字符、所述样本初始变量字符、所述样本目标字符和所述样本目标变量字符进行伪发现计算,得到字符伪发现数据;
27.根据所述字符伪发现数据和预设伪发现阈值进行比较,得到伪发现比较结果;
28.根据所述伪发现比较结果对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型。
29.在一些实施例中,所述根据所述伪发现比较结果对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型,包括:
30.若所述伪发现比较结果表示所述字符伪发现数据大于所述预设伪发现阈值,再次执行所述根据所述字符调节子模型对所述样本文本序列进行文本字符调节,以更新所述初始样本变量序列;
31.根据更新后的所述初始样本变量序列对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型。
32.在一些实施例中,所述根据所述第一预测语音和所述样本语音对所述初始样本变量序列进行字符筛选,得到目标样本变量序列,包括:
33.根据所述第一预测语音和所述样本语音对所述初始样本变量序列进行字符筛选,得到样本筛选序列,所述样本筛选序列包括所述样本目标字符;
34.对所述样本目标字符进行字符识别,得到字符识别结果;
35.若所述字符识别结果表示当前识别的所述样本目标字符为所述样本初始变量字
符,对当前识别的所述样本目标字符进行字符移除,得到所述目标样本变量序列。
36.在一些实施例中,所述语音预测子模型包括语音字符编码层、注意力层、线性投影层、后处理层、预测输出层,所述根据所述初始语音预测子模型对所述初始样本变量序列进行语音合成处理,得到第一预测语音,包括:
37.根据所述语音字符编码层对所述初始样本变量序列进行语音字符编码处理,得到语音样本编码特征;
38.根据所述注意力层对所述语音样本编码特征进行上下文特征提取,得到第一样本当前步上下文特征;
39.将所述第一样本当前步上下文特征和预设梅尔频谱进行特征拼接,得到待处理上下文特征;
40.将所述待处理上下文特征输入至预设的双层长短时记忆层进行上下文特征预测,得到第二样本当前步上下文特征;
41.根据所述线性投影层对所述第二样本当前步上下文特征进行线性投影处理,得到当前步投影标量数据;
42.根据所述后处理层对所述第二样本当前步上下文特征进行频谱更新处理,以更新所述预设梅尔频谱;
43.根据所述预测输出层对所述当前步投影标量数据进行语音合成处理,得到所述第一预测语音。
44.为实现上述目的,本技术实施例的第二方面提出了一种语音合成系统,所述系统包括:
45.文本获取模块,用于获取样本文本序列和所述样本文本序列的样本语音;
46.模型输入模块,用于将所述样本文本序列输入至预设的原始语音合成模型,所述原始语音合成模型包括字符调节子模型和初始语音预测子模型;
47.文本字符调节模块,用于根据所述字符调节子模型对所述样本文本序列进行文本字符调节,得到初始样本变量序列;
48.第一语音预测模块,用于根据所述初始语音预测子模型对所述初始样本变量序列进行语音合成处理,得到第一预测语音;
49.第一参数调整模块,用于根据所述第一预测语音和所述样本语音对所述初始语音预测子模型进行参数调整,得到候选语音合成模型;
50.字符筛选模块,用于根据所述第一预测语音和所述样本语音对所述初始样本变量序列进行字符筛选,得到目标样本变量序列;
51.第二语音预测模块,用于将所述目标样本变量序列输入至所述候选语音合成模型进行语音合成处理,得到第二预测语音;
52.第二参数调整模块,用于根据所述第二预测语音和所述样本语音对所述候选语音合成模型进行参数调整,得到目标语音合成模型;
53.目标语音合成模块,用于将获取的目标文本序列输入至所述目标语音合成模型进行语音合成处理,得到目标合成语音。为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本技术实施例的第一方面提出的任一项所述的方法。
54.为实现上述目的,本技术实施例的第四方面还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本技术实施例的第一方面提出的任一项所述的方法。
55.本技术实施例提出的语音合成方法、语音合成系统、电子设备及存储介质,通过获取样本文本序列和样本文本序列的样本语音,将样本文本序列输入至预设的原始语音合成模型,该原始语音合成模型包括字符调节子模型和初始语音预测子模型。然后,根据字符调节子模型对样本文本序列进行文本字符调节,得到初始样本变量序列,并根据初始语音预测子模型对初始样本变量序列进行语音预测处理,得到第一预测语音。并根据第一预测语音和样本语音对初始语音预测子模型进行参数调整,得到候选语音合成模型。之后,根据第一预测语音和样本语音对初始样本变量序列进行字符筛选,得到目标样本变量序列。并将目标样本变量序列输入至候选语音合成模型进行语音合成处理,得到第二预测语音,以根据该第二预测语音和样本语音对候选语音合成模型进行参数调整,得到目标语音合成模型。本技术实施例通过结合字符调节子模型对初始语音预测子模型进行模型训练,能够精准地捕捉到文本中不同的上下文关系,由此可知,当根据本技术实施例提供的目标语音合成模型对获取的目标文本序列进行语音合成处理时,能够有效提高文本到语音的预测准确度,且生成表达自然、语义通顺的合成语音。
附图说明
56.图1是本技术实施例提供的语音合成方法的第一流程图;
57.图2是图1中步骤s110的具体方法的流程图;
58.图3是图1中步骤s120的具体方法的流程图;
59.图4是图1中步骤s150的具体方法的流程图;
60.图5是图4中步骤s420的具体方法的流程图;
61.图6是图1中步骤s170的具体方法的流程图;
62.图7是图6中步骤s610的具体方法的流程图;
63.图8是本技术实施例提供的语音合成系统的模块结构框图;
64.图9是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
65.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
66.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
67.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
68.首先,对本技术中涉及的若干名词进行解析:
69.人工智能(artificial intelligence,ai):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
70.自然语言处理(natural language processing,nlp):nlp是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,自然语言处理涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
71.语音合成(text-to-speech,tts):tts是一种从文本到语音的一种技术,tts一般包括两个步骤:第一步是文本处理,主要是将文本转化成音素序列,并标出每个音素的起止时间、频率变化等信息;第二步是语音合成,主要是根据音素序列(以及标注好的起止时间、频率变化等信息)生成语音。
72.l1损失函数:用于最小化误差,该误差是真实值和预测值之间的所有绝对差之和。
73.随着金融科技和社会经济的快速发展,人们对于银行服务水平的要求越来越高。在智能客服、多轮对话、机器人外呼等场景中,能够通过表达自然且语义准确的语音向目标对象传递相关信息,是提升客户体验和服务水平最有效和最直接的方法之一。目前,基于深度学习的语音合成系统通常将梅尔频谱作为语音合成的中间表示,并通过声码器进行语音合成。然而,当对某些语义变化较大且不定长的文本进行语音合成时,相关技术的语音合成方法无法精准地捕捉到文本中不同的上下文关系,从而影响了声码器对语音合成的准确性,生成了表达不自然且语义不通的合成语音。因此,如何提高文本到语音的预测准确度,且生成表达自然、语义通顺的合成语音,成为了亟待解决的技术问题。
74.基于此,本技术实施例提供的语音合成方法、语音合成系统、电子设备及存储介质,能够提高文本到语音的预测准确度,且生成表达自然、语义通顺的合成语音。
75.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
76.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
77.本技术实施例提供的语音合成方法,涉及人工智能技术领域。本技术实施例提供的语音合成方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器
端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等;服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现语音合成方法的应用等,但并不局限于以上形式。
78.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
79.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据、用户语音数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
80.请参照图1,图1是本技术实施例提供的语音合成方法的一个可选的流程图,在本技术的一些实施例中,本技术所提出的语音合成方法包括但不限于步骤s110至步骤s190,下面结合图1对这九个步骤进行详细介绍。
81.步骤s110,获取样本文本序列和样本文本序列的样本语音;
82.步骤s120,将样本文本序列输入至预设的原始语音合成模型,原始语音合成模型包括字符调节子模型和初始语音预测子模型;
83.步骤s130,根据字符调节子模型对样本文本序列进行文本字符调节,得到初始样本变量序列;
84.步骤s140,根据初始语音预测子模型对初始样本变量序列进行语音预测处理,得到第一预测语音;
85.步骤s150,根据第一预测语音和样本语音对初始语音预测子模型进行参数调整,得到候选语音合成模型;
86.步骤s160,根据第一预测语音和样本语音对初始样本变量序列进行字符筛选,得到目标样本变量序列;
87.步骤s170,将目标样本变量序列输入至候选语音合成模型进行语音合成处理,得到第二预测语音;
88.步骤s180,根据第二预测语音和样本语音对候选语音合成模型进行参数调整,得到目标语音合成模型;
89.步骤s190,将获取的目标文本序列输入至目标语音合成模型进行语音合成处理,
得到目标合成语音。
90.在一些实施例的步骤s110至步骤s190中,通过获取样本文本序列和样本文本序列的样本语音,将样本文本序列输入至预设的原始语音合成模型,该原始语音合成模型包括字符调节子模型和初始语音预测子模型。然后,根据字符调节子模型对样本文本序列进行文本字符调节,得到初始样本变量序列,并根据初始语音预测子模型对初始样本变量序列进行语音预测处理,得到第一预测语音。并根据第一预测语音和样本语音对初始语音预测子模型进行参数调整,得到候选语音合成模型。之后,根据第一预测语音和样本语音对初始样本变量序列进行字符筛选,得到目标样本变量序列。并将目标样本变量序列输入至候选语音合成模型进行语音合成处理,得到第二预测语音,以根据该第二预测语音和样本语音对候选语音合成模型进行参数调整,得到目标语音合成模型。本技术实施例通过结合字符调节子模型对初始语音预测子模型进行模型训练,能够精准地捕捉到文本中不同的上下文关系,由此可知,当根据本技术实施例提供的目标语音合成模型对获取的目标文本序列进行语音合成处理时,能够有效提高文本到语音的预测准确度,且生成表达自然、语义通顺的合成语音。
91.在一些实施例的步骤s110中,为了生成表达自然、语义通顺的合成语音,首先,获取训练样本集,该训练样本集包括至少一个样本数据,该样本数据包括样本文本序列和样本文本序列的样本语音。其中,样本语音用于表示样本文本序列在模型训练时的一个参考语音。样本文本序列可以为通过文本音素转换模型得到的文本音素序列,文本音素转换模型可以采用deep voice3模型、字音转换模型(grapheme to phoneme,g2p)等。
92.需要说明的是,本技术中的样本语音的存储格式可以是mp3格式、cda格式、wav格式、wma格式、ra格式、mi di格式、ogg格式、ape格式或aac格式等,本技术不加以限定。
93.需要说明的是,本技术的语音合成方法还可以用于辅助如汽车广播及公告、汽车导航、电子词典、消费电子、智能电话、智能扬声器的应用、语音助理、电子书朗读等,以根据输入的目标文本序列生成表达自然且语义通顺的合成语音。
94.需要说明的是,在语音合成中,由于输入的文本序列与输出的音频序列长度常常不是一致的,则不能直接将输入序列的每个字符与目标发音一一对应,因此需要使用编码器-解码器(encoder-decoder)结构对模型进行调整。其中编码器用于对输入的文本序列的信息进行提取并压缩成固定长度的上下文向量,以作为输入文本的编码表示,之后,解码器利用编码得到的上下文向量,经过一定的变换得到目标输出序列。在tacotron2中,编码器模块包括卷积层和blstm层。输入的文本序列的字符首先被表示成512维的文本嵌入,然后依次通过3个卷积层,其中每层卷积包含512个5
×
1的卷积核,再经过批标准化(batch normalization)和relu激活函数处理。然后传递给blstm层,它包含512个单元(即前后方向各256个单元),用于生成编码特征。编码器的输出被传递给注意力模块用来关注输入序列的位置信息,经过32个31
×
1卷积核计算出位置特征,映射到128维向量上,作为注意力概率的表示。因此,tacotron 2提出的一种带有注意力机制的循环s2s特征预测结构去进行梅尔频谱的预测,且该方法在encoder输入时,使用了三层带有512个维过滤器的卷积层去对5个字符进行长程上下文关系建模,以弥补后续rnn结构在实际应用当中捕捉长程依赖关系较差的问题,但是这种固定长度的上下文关系提取可能无法精准地捕捉到文本各处不同的上下文关系,缺乏灵活性。
95.在一些实施例的步骤s120中,为了解决上述问题,以提高tacotron 2模型预测梅尔频谱的灵活性,并优化后续声码器的输入特征表示,本技术实施例所提供的原始语音合成模型是在tacotron 2模型的基础上进行模型改进。其中,原始语音合成模型包括字符调节子模型和初始语音预测子模型,该字符调节子模型用于调整训练初始语音预测子模型中的编码器即本技术所提到的语音字符编码层。该语音字符编码层能够自适应的选择每次编码所使用到的字符个数,即并不是每次只固定对5个字符进行长程上下文关系建模,而是使训练后的目标语音合成模型能够动态地捕捉输入文本中不同的上下文关系,有利于提升文本到语音预测结果的可靠性,从而提高基于tacotron 2的模型的语音生成质量。
96.在一些实施例的步骤s130中,本技术所提出的字符调节子模型是一种在训练深度神经网络时能够改进变量选择过程的技术,能够根据输入的样本文本序列,动态地调整长程上下文关系建立模型所用到的字符个数。
97.请参照图2,图2是本技术实施例提供的步骤s130的具体方法的流程图。在本技术的一些实施例中,样本文本序列包括样本初始字符,步骤s130具体可以包括但不限于步骤s210和步骤s220,下面结合图2对这两个步骤进行详细介绍。
98.步骤s210,对样本文本序列进行随机字符抽取,得到样本初始变量字符;
99.步骤s220,对样本初始字符和样本初始变量字符进行字符合并,得到初始样本变量序列。
100.在一些实施例的步骤s210中,在进行模型训练前,需要先向模型内加入代理变量(surrogate variables)。具体地,对样本文本序列进行随机字符抽取后的样本初始变量字符即为代理变量,该代理变量对应的特征是通过对样本文本序列对应的字符编码矩阵中进行有重复或无重复随机抽样得来的,其作为未知的零变量的代理,可以得到获得对应的零分布。
101.在一些实施例的步骤s220中,在获取样本初始变量字符后,第一次训练的训练集就变成了tacotron 2模型得到的5个样本初始字符和随机抽样的样本初始变量字符,将且进行字符合并后得到的初始样本变量序列对应的字符编码矩阵作为模型的训练对象。
102.需要说明的是,第一次训练时的训练数据会根据单次传递给程序用以训练的样本个数batch size分成多个批次,其中,batch size可以表示单次传递的样本文本序列的数量。
103.在一些实施例的步骤s140中,在通过字符选择,并根据选择后的样本初始变量字符更新样本文本序列,得到初始样本变量序列后,根据基于tacotron 2结构的初始语音预测子模型对初始样本变量序列进行语音预测处理,得到第一预测语音。
104.请参照图3,图3是本技术实施例提供的步骤s140的具体方法的流程图。在本技术的一些实施例中,语音预测子模型包括语音字符编码层、注意力层、线性投影层、后处理层、预测输出层,则步骤s140具体可以包括但不限于步骤s310至步骤s370,下面结合图3对这七个步骤进行详细介绍。
105.步骤s310,根据语音字符编码层对初始样本变量序列进行语音字符编码处理,得到语音样本编码特征;
106.步骤s320,根据注意力层对语音样本编码特征进行上下文特征提取,得到第一样本当前步上下文特征;
107.步骤s330,将第一样本当前步上下文特征和预设梅尔频谱进行特征拼接,得到待处理上下文特征;
108.步骤s340,将待处理上下文特征输入至预设的双层长短时记忆层进行上下文特征预测,得到第二样本当前步上下文特征;
109.步骤s350,根据线性投影层对第二样本当前步上下文特征进行线性投影处理,得到当前步投影标量数据;
110.步骤s360,根据后处理层对第二样本当前步上下文特征进行频谱更新处理,以更新预设梅尔频谱;
111.步骤s370,根据预测输出层对当前步投影标量数据进行语音合成处理,得到第一预测语音。
112.在一些实施例的步骤s310至步骤s370中,本实施例中所采用的语音字符编码层为基于tacotron 2模型的编码器,包括依次连接的字符嵌入层、预处理层,之后,该语音字符编码层还连接注意力层、线性投影层、后处理层、预测输出层。其中,以初始样本变量序列作为字符嵌入层的输入,其中的每个字符均表示为一个独热编码one-hot向量。通过设置一个初始参数且可训练的嵌入矩阵,将one-hot向量映射为字符嵌入向量,即将输入的初始样本变量序列的每个字符表示为256维的字符嵌入向量。模型训练中与其他网络层参数一样,通过反向传播训练嵌入矩阵,获得能表征各个字符集文本的嵌入矩阵。然后,字符嵌入向量经过预网络进行一系列的非线性变换,并将经过非线性变换的字符嵌入向量输入注意力层,并经过线性投影层以得到初始样本变量序列的编码表示,以结合上下文将特征投影到一个简化的连续向量空间。之后,根据后处理层对第二样本当前步上下文特征进行频谱更新处理,以更新预设梅尔频谱,该预设梅尔频谱用于后续对模型进行迭代训练时的新的梅尔频谱模板。第一预测语音用于表示添加了样本初始变量字符后,模型第一次训练得到的预测语音。本技术实施例通过结合字符调节子模型对初始语音预测子模型进行模型训练,能够动态地捕捉输入的目标文本序列的长程上下文关系,有利于提升文本到梅尔频谱预测结果的可靠性。
113.需要说明的是,本技术实施例的预测输出层包括解码器和声码器,其中,解码器为基于tacotron 2模型的具有注意机制的解码器,包括注意力机制、预处理网络、长短时记忆神经网络lstm、线性映射层。具体地,解码器是一个自回归的循环神经网络,经过解码器的注意力机制得到注意力上下文向量。在解码过程中,将上一步的解码结果当前步投影标量数据作为输入,并经过2层全连接组成的预处理网络,每层由256个隐藏relu单元组成,且预处理网络的输出与注意力机制计算得到的注意力上下文向量拼接起来,一起输入到2层lstm中进行解码,每个lstm层包含1024个单位,以得到预测语音编码特征。之后,根据声码器对该预测语音编码特征进行语音合成处理。
114.在一些实施例的步骤s150中,第一预测语音为对样本初始字符和随机抽样出的样本初始变量字符进行字符合并后训练得到的,则根据第一预测语音和样本语音对初始语音预测子模型进行参数调整,以提高初始语音预测子模型可以自适应的选择每次编码所使用到的字符个数的能力。
115.请参照图4,图4是本技术实施例提供的步骤s150的具体方法的流程图。在本技术的一些实施例中,初始样本变量序列包括样本候选字符,则步骤s150具体可以包括但不限
于步骤s410至步骤s460,下面结合图4对这六个步骤进行详细介绍。
116.步骤s410,根据第一预测语音和样本语音进行频谱损失计算,得到预测损失数据;
117.步骤s420,根据预测损失数据对样本候选字符进行偏导数计算,得到字符变量数据;
118.步骤s430,根据样本文本序列的数量对字符变量数据进行均值计算,得到字符度量数据;
119.步骤s440,对预设字符度量阈值和字符度量数据进行数值比较,得到度量比较结果;
120.步骤s450,根据度量比较结果对样本候选字符进行字符筛选,得到样本目标字符;
121.步骤s460,根据样本初始字符、样本初始变量字符和样本目标字符对初始语音预测子模型进行参数调整,得到候选语音合成模型。
122.在一些实施例的步骤s410中,基于损失函数的字符重要性度量可以有效识别字符对于捕捉长程上下文关系时的重要性衡量,例如,在智能机器人场景下,对于目标对象输入的文本序列为“我今天想做个菜,不如做个番茄炒蛋吧”,其中,“我”对于捕捉上下文关系没那么重要,但“菜”和“番茄炒蛋”会相对重要一些。因此,本技术实施例通过对每个字符进行重要性度量,可以有效调整字符编码矩阵。第一预测语音和样本语音可以通过l1损失函数进行频谱损失计算,还可以采用l2损失函数、均方差损失函数、交叉熵损失函数、对比损失函数等进行频谱损失计算,在此不作具体限定。
123.在一些实施例的步骤s420至步骤s430中,对初始样本变量序列的字符度量数据用于表征初始样本变量序列中全部样本初始字符与样本初始变量字符的重要性。其中,样本候选字符包括样本初始字符与样本初始变量字符,则对初始样本变量序列中每个样本候选字符的重要性度量计算如公式(1)所示,将得到的字符变量数据记为cvj,j用于表示样本候选字符的字符id。
[0124][0125]
其中,i表示样本文本序列对应的编号,n表示训练样本集中样本文本序列的数量,l表示进行频谱损失计算所采用的损失函数,x(i)表示样本文本序列i的编码特征,f表示基于tacotron 2的初始语音合成模型从字符编码后到生成第一预测语音对应的梅尔频谱的模型结构,则f(x(i))表示第一预测语音对应的梅尔频谱,y(i)表示样本文本序列i对应的样本语音的梅尔频谱。因此,根据预测损失数据f(x(i))对样本候选字符进行偏导数计算,得到字符变量数据并根据样本文本序列的数量n对字符变量数据进行均值计算,得到每个样本候选字符的字符度量数据cvj。本技术实施例不论网络层数以及结构如何,通过损失函数和偏导数能够方便地使用反向传播来计算字符度量数据cvj。
[0126]
在一些实施例的步骤s440至步骤s460中,为了估算当前模型的错误发现率(false discovery rate,fdr),首先需要使用反向消除法剔除不重要的字符,即通过一个个剔除掉不符合要求的字符,最后只剩下符合要求的重要字符。预设字符度量阈值为字符调节子模型中预先设置的超参数ε,该超参数ε用于表征字符调节子模型选择变量的强度,且超参数ε介于0至1之间。通过对预设字符度量阈值和字符度量数据进行数值比较,当度量比较结果
表示所识别的字符度量数据小于预设字符度量阈值,则将该字符度量数据对应的样本候选字符进行剔除。本技术实施例根据预设的超参数ε保留度量比较结果表示所识别的字符度量数据小于预设字符度量阈值的样本候选字符,并将保留的样本候选字符作为样本目标字符,能够有效减少模型的计算量,提高模型训练的效率。
[0127]
请参照图5,图5是本技术实施例提供的步骤s460的具体方法的流程图。在本技术的一些实施例中,步骤s460具体可以包括但不限于步骤s510至步骤s540,下面结合图5对这四个步骤进行详细介绍。
[0128]
步骤s510,对样本目标字符进行字符判断,得到样本目标变量字符;
[0129]
步骤s520,根据样本初始字符、样本初始变量字符、样本目标字符和样本目标变量字符进行伪发现计算,得到字符伪发现数据;
[0130]
步骤s530,根据字符伪发现数据和预设伪发现阈值进行比较,得到伪发现比较结果;
[0131]
步骤s540,根据伪发现比较结果对初始语音预测子模型进行参数调整,得到候选语音合成模型。
[0132]
在一些实施例的步骤s510至步骤s540中,为了判断添加代理变量后模型的识别情况,本技术实施例通过错误发现率fdr判断模型的训练情况,且该fdr用于表示字符伪发现数据。具体地,将样本目标字符的数量记为r,r用于表示经过原始语音合成模型网络后保留的字符变量的数量。通过样本对样本目标字符进行字符判断,确定样本目标变量字符,将样本目标变量字符的数量记为r0,r0用于表示剩余样本目标字符中为代理变量的数量。然后,将样本初始字符的数量记为p,则p表示初始样本变量序列中的原始变量数,并将样本初始变量字符中数量记为q,则q表示添加的代理变量数。因此,本技术实施例原始语音合成模型对应的fdr的具体计算如公式(2)所示。
[0133][0134]
需要说明的是,为了更好地提升本技术初始语音预测子模型对梅尔频谱预测结果的可靠性,本技术提出了预设伪发现阈值,将该预设伪发现阈值记为cutoff,并将字符伪发现数据和cutoff进行比较,得到伪发现比较结果,该伪发现比较结果用于确定当前初始语音预测子模型的训练结果是否满足所需的可靠性要求。
[0135]
需要说明的是,例如,原始变量数p为5、添加的代理变量数q为3,则当第一次迭代剔除了1个真实的样本初始字符和1个添加的代理变量,那么网络保留的变量数为r为5+3-1-1=6,且其中所剔除的代理变量数是1,则剩余的代理变量数r0为2。
[0136]
请参照图6,图6是本技术实施例提供的步骤s540的具体方法的流程图。在本技术的一些实施例中,步骤s540具体可以包括但不限于步骤s610和步骤s620,下面结合图6对这两个步骤进行详细介绍。
[0137]
步骤s610,若伪发现比较结果表示字符伪发现数据大于预设伪发现阈值,再次执行根据字符调节子模型对样本文本序列进行文本字符调节,以更新初始样本变量序列;
[0138]
步骤s620,根据更新后的初始样本变量序列对初始语音预测子模型进行参数调整,得到候选语音合成模型。
[0139]
在一些实施例的步骤s610和步骤s620中,若伪发现比较结果表示字符伪发现数据
大于预设伪发现阈值,则表示当前初始语音预测子模型的训练结果未满足所需的可靠性要求。因此,需要根据字符调节子模型对样本文本序列进行文本字符调节,以更新初始样本变量序列。并根据更新后的初始样本变量序列再次进行语音预测。若伪发现比较结果表示字符伪发现数据小于或等于预设伪发现阈值,则表示当前初始语音预测子模型的训练结果满足所需的可靠性要求,则跳出对模型的训练,以根据当前的初始语音预测子模型的模型参数和模型结构构建候选语音合成模型。
[0140]
需要说明的是,当超参数ε接近于1时,反向消除的时候最为“激进”,则fdr所设定的cutoff的步数就越小。反之,当设定超参数ε很接近于0时,对于fdr的判断就需要很长时间。例如,当初始样本变量序列包括5个样本初始字符和3个样本初始变量字符即代理变量。假设将fdr的cutoff设为0.01,同时假设知道达到该cutoff需要删掉的变量数为3。因此,如果ε很接近于1,那么可能只需要迭代1次,就能一下子把3个代理变量全部剔除。但是,如果ε取的很小,那么可能一次迭代中算法只会删掉一个代理变量,则需要3次迭代才能完成这个达到fdr小于或等于cutoff的步骤。
[0141]
在一些实施例的步骤s160中,在对候选语音合成模型的第二训练阶段,需要移除剩余代理变量,以训练最终的目标合成语音模型。
[0142]
请参照图7,图7是本技术实施例提供的步骤s160的具体方法的流程图。在本技术的一些实施例中,步骤s160具体可以包括但不限于步骤s710至步骤s730,下面结合图7对这三个步骤进行详细介绍。
[0143]
步骤s710,根据第一预测语音和样本语音对初始样本变量序列进行字符筛选,得到样本筛选序列,样本筛选序列包括样本目标字符;
[0144]
步骤s720,对样本目标字符进行字符识别,得到字符识别结果;
[0145]
步骤s730,若字符识别结果表示当前识别的样本目标字符为样本初始变量字符,对当前识别的样本目标字符进行字符移除,得到目标样本变量序列。
[0146]
在一些实施例的步骤s710至步骤s730中,当fdr小于或等于cutoff时,跳出模型的第一阶段训练,根据第一预测语音和样本语音确定样本目标字符构成的样本筛选序列。然后,对每个对样本目标字符进行字符识别,即判断是否还存在代理变量。若字符识别结果表示当前识别的样本目标字符为样本初始变量字符,对当前识别的样本目标字符进行字符移除,得到目标样本变量序列,该目标样本变量序列中不包含代理变量。
[0147]
在一些实施例的步骤s170中,该候选语音合成模型的模型结构与上述初始语音预测子模型的结构相同,在此不再赘述。
[0148]
需要说明的是,以训练数据集为ljspeech举例说明,从模型训练开始,比如选batch size为32,那么一次输入模型训练就是32条样本文本序列。例如,当batch size为1,则假设获取的样本文本序列为“printing,inthe only sense with which we are at present concerned
……”
。具体的,tacotron2的语音字符编码层,由于卷积层卷积核的设定,每次只能看到5个样本初始字符,即“print”、“ingin”等。然后,通过本技术根据变量选择和tacotron2网络构建的原始语音合成模型训练后,所得到的候选语音合成模型在输入到语音字符编码层的bilstm前,每次能看到的样本初始字符的数量可以为不同数量的字符组合,例如,变成了“prn”、“ngln”等。之后,再次经过基于tacotron 2的候选语音合成模型训练后,得到了第二预测语音的梅尔频谱形式的输出。并通过候选语音合成模型中的声码
器,即可得到音频形式的第二预测语音。
[0149]
在一些实施例的步骤s180中,根据第二预测语音和样本语音进行语音损失求解,且该语音损失求解所用到的损失函数可以为上述的l1损失函数、l2损失函数等任一种,在此不作具体限定。此外,本技术实施例模型进行参数调整的预设训练结束条件,可以为当候选语音合成模型的相似度准确率大于或等于预设的准确率阈值,该相似度准确率为根据样本语音和第二预测语音进行相似度计算得到,且进行相似度计算的函数可以根据实际需要选择,如余弦相似度计算、时间轴比对方法等,在此不作具体限定。或者,当候选语音合成模型的语音损失值小于预设损失阈值,如预设损失阈值为0.05等,在此不作具体限定。
[0150]
在一些实施例的步骤s190中,在具体应用中,本技术提出的语音合成系统可以应用于终端,该语音合成系统中部署了本技术训练得到的目标语音合成模型,且该语音合成系统用于执行上述语音合成方法。当目标对象在终端需要进行语音合成时,目标对象可以通过在终端页面输入需要语音合成的目标文本序列。然后,终端页面可以显示弹出框,使目标对象可以通过在弹出框中触摸合成语音按钮,即可以生成语音合成业务请求,并将包含目标文本序列的语音合成业务请求发送给包含语音合成系统的端口进行语音合成处理。之后,接收返回的合成后的目标合成语音,并通过终端的扬声器进行语音播报,本技术实施例所采用的语音合成方法能够有效提高文本到语音的预测准确度,且使目标对象可以听到表达自然、语义通顺的合成语音。
[0151]
示例性的,在金融科技的智能机器人场景下,例如,对于目标对象输入的文本序列为“我看今天天气很好,不如出去跑步吧”,其中,“我”对于捕捉上下文关系没那么重要,但“天气很好”和“跑步”会相对重要一些。因此,在进行语音合成时,本技术可以根据字符重要性的不同调节模型的参数,以提高目标语音合成模型的预测准确度。并且,根据文本合成的目标合成语音表达更自然,且语义更通顺。同时,利用本技术实施例提供的语音合成方法合成语音,能够在降低人工劳动力成本的基础上,也能够保证和人工客服具有相同的服务水平。
[0152]
请参照图8,图8是本技术实施例提供的语音合成系统的模块结构示意图。在本技术的一些实施例中,该语音合成系统包括文本获取模块810、模型输入模块820、文本字符调节模块830、第一语音预测模块840、第一参数调整模块850、字符筛选模块860、第二语音预测模块870、第二参数调整模块880和目标语音合成模块890。
[0153]
文本获取模块810,用于获取样本文本序列和样本文本序列的样本语音;
[0154]
模型输入模块820,用于将样本文本序列输入至预设的原始语音合成模型,原始语音合成模型包括字符调节子模型和初始语音预测子模型;
[0155]
文本字符调节模块830,用于根据字符调节子模型对样本文本序列进行文本字符调节,得到初始样本变量序列;
[0156]
第一语音预测模块840,用于根据初始语音预测子模型对初始样本变量序列进行语音合成处理,得到第一预测语音;
[0157]
第一参数调整模块850,用于根据第一预测语音和样本语音对初始语音预测子模型进行参数调整,得到候选语音合成模型;
[0158]
字符筛选模块860,用于根据第一预测语音和样本语音对初始样本变量序列进行字符筛选,得到目标样本变量序列;
[0159]
第二语音预测模块870,用于将目标样本变量序列输入至候选语音合成模型进行语音合成处理,得到第二预测语音;
[0160]
第二参数调整模块880,用于根据第二预测语音和样本语音对候选语音合成模型进行参数调整,得到目标语音合成模型;
[0161]
目标语音合成模块890,用于将获取的目标文本序列输入至目标语音合成模型进行语音合成处理,得到目标合成语音。
[0162]
需要说明的是,本技术实施例的语音合成系统用于执行上述语音合成方法,且本技术实施例的语音合成系统与前述的语音合成方法相对应,具体的训练过程请参照前述的语音合成方法,在此不一一赘述。
[0163]
本技术实施例还提供了一种电子设备,该电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述本技术实施例的语音合成方法。
[0164]
电子设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant,pda)、车载电脑等任意智能终端。
[0165]
下面结合图9对本技术实施例的电子设备进行详细介绍。
[0166]
请参照图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
[0167]
处理器910,可以采用通用的中央处理器(central processing unit,cpu)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术实施例所提供的技术方案;
[0168]
存储器920,可以采用只读存储器(read only memory,rom)、静态存储设备、动态存储设备或者随机存取存储器(random access memory,ram)等形式实现。存储器920可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器920中,并由处理器910来调用执行本技术实施例的语音合成方法;
[0169]
输入/输出接口930,用于实现信息输入及输出;
[0170]
通信接口940,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信;
[0171]
总线950,在设备的各个组件(例如处理器910、存储器920、输入/输出接口930和通信接口940)之间传输信息;
[0172]
其中处理器910、存储器920、输入/输出接口930和通信接口940通过总线950实现彼此之间在设备内部的通信连接。
[0173]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述本技术实施例的语音合成方法。
[0174]
本技术实施例提供的一种语音合成方法、语音合成系统、电子设备及存储介质,通过获取样本文本序列和样本文本序列的样本语音,将样本文本序列输入至预设的原始语音合成模型,该原始语音合成模型包括字符调节子模型和初始语音预测子模型。然后,根据字符调节子模型对样本文本序列进行文本字符调节,得到初始样本变量序列,并根据初始语音预测子模型对初始样本变量序列进行语音预测处理,得到第一预测语音。并根据第一预测语音和样本语音对初始语音预测子模型进行参数调整,得到候选语音合成模型。之后,根据第一预测语音和样本语音对初始样本变量序列进行字符筛选,得到目标样本变量序列。
并将目标样本变量序列输入至候选语音合成模型进行语音合成处理,得到第二预测语音,以根据该第二预测语音和样本语音对候选语音合成模型进行参数调整,得到目标语音合成模型。本技术实施例通过结合字符调节子模型对初始语音预测子模型进行模型训练,能够动态地捕捉输入的目标文本序列的长程上下文关系,有利于提升文本到语音预测的可靠性,从而提高了声码器对语音合成的准确性。根据第一预测语音和样本语音对初始样本变量序列进行字符筛选得到的目标样本变量序列,以根据该目标样本变量序列对经过字符调节后的候选语音合成模型再次进行参数调整,能够生成表达自然、语义通顺的合成语音对应的目标语音合成模型,且提高了基于tacotron 2构建的模型最终生成的语音质量。与此同时,本技术实施例所提供的技术方案可以结合各种深度学习梅尔频谱预测模型,且几乎无需人工干预,泛化性强。
[0175]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0176]
本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
[0177]
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本技术实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
[0178]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0179]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0180]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0181]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可
以是多个。
[0182]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0183]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0184]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0185]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-on ly memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序的介质。
[0186]
以上参照附图说明了本技术实施例的优选实施例,并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本技术实施例的权利范围之内。

技术特征:
1.一种语音合成方法,其特征在于,所述方法包括:获取样本文本序列和所述样本文本序列的样本语音;将所述样本文本序列输入至预设的原始语音合成模型,所述原始语音合成模型包括字符调节子模型和初始语音预测子模型;根据所述字符调节子模型对所述样本文本序列进行文本字符调节,得到初始样本变量序列;根据所述初始语音预测子模型对所述初始样本变量序列进行语音合成处理,得到第一预测语音;根据所述第一预测语音和所述样本语音对所述初始语音预测子模型进行参数调整,得到候选语音合成模型;根据所述第一预测语音和所述样本语音对所述初始样本变量序列进行字符筛选,得到目标样本变量序列;将所述目标样本变量序列输入至所述候选语音合成模型进行语音合成处理,得到第二预测语音;根据所述第二预测语音和所述样本语音对所述候选语音合成模型进行参数调整,得到目标语音合成模型;将获取的目标文本序列输入至所述目标语音合成模型进行语音合成处理,得到目标合成语音。2.根据权利要求1所述的方法,其特征在于,所述样本文本序列包括样本初始字符,所述根据所述字符调节子模型对所述样本文本序列进行文本字符调节,得到初始样本变量序列,包括:对所述样本文本序列进行随机字符抽取,得到样本初始变量字符;对所述样本初始字符和所述样本初始变量字符进行字符合并,得到初始样本变量序列。3.根据权利要求2所述的方法,其特征在于,所述初始样本变量序列包括样本候选字符,所述根据所述第一预测语音和所述样本语音对所述初始语音预测子模型进行参数调整,得到候选语音合成模型,包括:根据所述第一预测语音和所述样本语音进行频谱损失计算,得到预测损失数据;根据所述预测损失数据对所述样本候选字符进行偏导数计算,得到字符变量数据;根据所述样本文本序列的数量对所述字符变量数据进行均值计算,得到字符度量数据;对预设字符度量阈值和所述字符度量数据进行数值比较,得到度量比较结果;根据所述度量比较结果对所述样本候选字符进行字符筛选,得到样本目标字符;根据所述样本初始字符、所述样本初始变量字符和所述样本目标字符对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述样本初始字符、所述样本初始变量字符和所述样本目标字符对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型,包括:对所述样本目标字符进行字符判断,得到样本目标变量字符;
根据所述样本初始字符、所述样本初始变量字符、所述样本目标字符和所述样本目标变量字符进行伪发现计算,得到字符伪发现数据;根据所述字符伪发现数据和预设伪发现阈值进行比较,得到伪发现比较结果;根据所述伪发现比较结果对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述伪发现比较结果对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型,包括:若所述伪发现比较结果表示所述字符伪发现数据大于所述预设伪发现阈值,再次执行所述根据所述字符调节子模型对所述样本文本序列进行文本字符调节,以更新所述初始样本变量序列;根据更新后的所述初始样本变量序列对所述初始语音预测子模型进行参数调整,得到所述候选语音合成模型。6.根据权利要求3所述的方法,其特征在于,所述根据所述第一预测语音和所述样本语音对所述初始样本变量序列进行字符筛选,得到目标样本变量序列,包括:根据所述第一预测语音和所述样本语音对所述初始样本变量序列进行字符筛选,得到样本筛选序列,所述样本筛选序列包括所述样本目标字符;对所述样本目标字符进行字符识别,得到字符识别结果;若所述字符识别结果表示当前识别的所述样本目标字符为所述样本初始变量字符,对当前识别的所述样本目标字符进行字符移除,得到所述目标样本变量序列。7.根据权利要求2至6任一项所述的方法,其特征在于,所述语音预测子模型包括语音字符编码层、注意力层、线性投影层、后处理层、预测输出层,所述根据所述初始语音预测子模型对所述初始样本变量序列进行语音合成处理,得到第一预测语音,包括:根据所述语音字符编码层对所述初始样本变量序列进行语音字符编码处理,得到语音样本编码特征;根据所述注意力层对所述语音样本编码特征进行上下文特征提取,得到第一样本当前步上下文特征;将所述第一样本当前步上下文特征和预设梅尔频谱进行特征拼接,得到待处理上下文特征;将所述待处理上下文特征输入至预设的双层长短时记忆层进行上下文特征预测,得到第二样本当前步上下文特征;根据所述线性投影层对所述第二样本当前步上下文特征进行线性投影处理,得到当前步投影标量数据;根据所述后处理层对所述第二样本当前步上下文特征进行频谱更新处理,以更新所述预设梅尔频谱;根据所述预测输出层对所述当前步投影标量数据进行语音合成处理,得到所述第一预测语音。8.一种语音合成系统,其特征在于,所述系统包括:文本获取模块,用于获取样本文本序列和所述样本文本序列的样本语音;模型输入模块,用于将所述样本文本序列输入至预设的原始语音合成模型,所述原始
语音合成模型包括字符调节子模型和初始语音预测子模型;文本字符调节模块,用于根据所述字符调节子模型对所述样本文本序列进行文本字符调节,得到初始样本变量序列;第一语音预测模块,用于根据所述初始语音预测子模型对所述初始样本变量序列进行语音合成处理,得到第一预测语音;第一参数调整模块,用于根据所述第一预测语音和所述样本语音对所述初始语音预测子模型进行参数调整,得到候选语音合成模型;字符筛选模块,用于根据所述第一预测语音和所述样本语音对所述初始样本变量序列进行字符筛选,得到目标样本变量序列;第二语音预测模块,用于将所述目标样本变量序列输入至所述候选语音合成模型进行语音合成处理,得到第二预测语音;第二参数调整模块,用于根据所述第二预测语音和所述样本语音对所述候选语音合成模型进行参数调整,得到目标语音合成模型;目标语音合成模块,用于将获取的目标文本序列输入至所述目标语音合成模型进行语音合成处理,得到目标合成语音。9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

技术总结
本申请实施例提供了一种语音合成方法、语音合成系统、电子设备及存储介质,属于金融科技技术领域。该方法包括:根据原始语音合成模型的字符调节子模型对获取的样本文本序列进行字符调节得到初始样本变量序列;根据初始语音预测子模型对初始样本变量序列进行语音合成确定第一预测语音;根据第一预测语音对初始语音预测子模型得到候选语音合成模型,并对初始样本变量序列进行字符筛选得到目标样本变量序列,将该序列输入候选语音合成模型得到第二预测语音;根据第二预测语音对候选语音合成模型确定目标语音合成模型;将目标文本序列输入目标语音合成模型进行语音合成得到目标合成语音。本申请实施例能够生成表达自然、语义通顺的合成语音。通顺的合成语音。通顺的合成语音。


技术研发人员:郭洋 王健宗 程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/8/28
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐