语音合成方法、语音合成装置、电子设备及存储介质与流程

未命名 08-27 阅读:100 评论:0


1.本技术涉及金融科技领域,尤其涉及一种语音合成方法、语音合成装置、电子设备及存储介质。


背景技术:

2.随着人工智能相关技术应用的发展,人工智能客服已被引入银行系统来应对复杂的金融交易场景,为用户提供智能化和个性化的服务。在银行系统中,人工智能客服支持转账任务、账务明细查询、理财任务、闲聊等复杂场景。人工智能客服通过自然语言处理技术对用户的输入进行理解、分析,识别用户的需求和意图,并根据用户的需求和意图给出答复文本,利用语音合成技术将答复文本转换为语音输出,方便用户收听。例如,账务明细查询场景中,用户通过人工智能客服查询账户的历史交易明细,人工智能客服从数据库中搜索出历史交易记录,将历史交易记录转换为语音数据,将语音数据反馈给用户。历史交易明细涉及过去一段时间的交易金额、交易方、交易类型等重要信息,需要注重词语之间的停顿、连续、音调等韵律,这对合成语音的表现力、音质有了更高的要求。
3.相关技术中,人工智能客服利用包括编码器、变量适配器和解码器的声学模型将文本数据转换为语音数据,以进行语音合成。将音素序列输入至编码器,使编码器能够学习音素序列的上下文特征,但是仅利用音素序列级别的特征进行语音合成,会使得合成的语音缺乏韵律,影响合成的语音数据的语音质量。


技术实现要素:

4.本技术实施例的主要目的在于提出一种语音合成方法、语音合成装置、电子设备及存储介质,旨在增加合成语音的韵律,提高合成语音的语音质量,使得人工智能客服能够为用户提供更好的体验。
5.为实现上述目的,本技术实施例的第一方面提出了一种语音合成方法,所述语音合成方法包括:
6.获取文本数据;所述文本数据包括多个字符;
7.对所述文本数据进行字符特征提取,得到初步字符特征;
8.对所述文本数据进行音素转换,得到音素序列;
9.对所述音素序列进行音素特征提取,得到目标音素特征;
10.根据所述初步字符特征对所述字符进行分类,得到所述字符的类别特征;
11.对所述目标音素特征和所述类别特征进行特征融合,得到融合特征;
12.对所述融合特征进行韵律特征提取,得到目标韵律特征;
13.根据所述目标韵律特征进行语音合成,得到所述文本数据的语音数据。
14.在一些实施例,所述对所述音素序列进行音素特征提取,得到目标音素特征,包括:
15.对所述音素序列进行注意力特征提取,得到注意力特征;
16.对所述音素序列和所述注意力特征进行特征融合,得到初始音素特征;
17.对所述初始音素特征进行层归一化处理,得到第一中间音素特征;
18.对所述第一中间音素特征进行特征映射,得到第二中间音素特征;
19.对所述第一中间音素特征和所述第二中间音素特征进行特征融合,得到第三中间音素特征;
20.对所述第三中间音素特征进行层归一化处理,得到所述目标音素特征。
21.在一些实施例,所述根据所述初步字符特征对所述字符进行分类,得到所述字符的类别特征,包括:
22.对所述初步字符特征进行特征维度调整,得到候选字符特征;
23.根据所述候选字符特征对所述字符进行分类,得到所述类别特征。
24.在一些实施例,所述音素序列包括多个音素,所述对所述目标音素特征和所述类别特征进行特征融合,得到融合特征,包括:
25.获取所述音素序列中所述音素的数量,得到第一数量;
26.获取所述文本数据中所述字符的数量,得到第二数量;
27.比对所述第一数量和所述第二数量;
28.若所述第一数量和所述第二数量相等,则对所述目标音素特征和所述类别特征进行特征融合,得到融合特征。
29.在一些实施例,在所述比对所述第一数量和所述第二数量之后,所述语音合成方法还包括:
30.若所述第一数量大于所述第二数量,则将所述字符和所述音素进行对齐,得到所述字符对应音素的第三数量;
31.根据所述第三数量对所述类别特征进行扩充,得到扩充特征;
32.对所述目标音素特征和所述扩充特征进行特征融合,得到所述融合特征。
33.在一些实施例,所述对所述融合特征进行韵律特征提取,得到目标韵律特征,包括:
34.对所述融合特征进行音素时长特征提取,得到音素时长特征;
35.根据所述音素时长特征对所述融合特征进行长度调整,得到梅尔频谱特征;
36.对所述梅尔频谱特征进行音调特征提取,得到音调特征,对所述梅尔频谱特征进行音强特征提取,得到音强特征,并对所述梅尔频谱特征进行初始韵律特征提取,得到初始韵律特征;
37.对所述梅尔频谱特征、所述音调特征、所述音强特征和所述初始韵律特征进行特征融合,得到所述目标韵律特征。
38.在一些实施例,所述根据所述目标韵律特征进行语音合成,得到所述文本数据的语音数据,包括:
39.对所述目标韵律特征进行转置卷积处理,得到第一卷积特征;
40.对所述第一卷积特征进行膨胀卷积处理,得到第二卷积特征;
41.对所述第二卷积特征进行门限激活处理,得到激活特征;
42.对所述激活特征进行特征提取,得到所述语音数据。
43.为实现上述目的,本技术实施例的第二方面提出了一种语音合成装置,所述语音
合成装置包括:
44.获取模块,用于获取文本数据;所述文本数据包括多个字符;
45.第一特征提取模块,用于对所述文本数据进行字符特征提取,得到初步字符特征;
46.音素转换模块,用于对所述文本数据进行音素转换,得到音素序列;
47.第二特征提取模块,用于对所述音素序列进行音素特征提取,得到目标音素特征;
48.分类模块,用于根据所述初步字符特征对所述字符进行分类,得到所述字符的类别特征;
49.特征融合模块,用于对所述目标音素特征和所述类别特征进行特征融合,得到融合特征;
50.第三特征提取模块,用于对所述融合特征进行韵律特征提取,得到目标韵律特征;
51.语音合成模块,用于根据所述目标韵律特征进行语音合成,得到所述文本数据的语音数据。
52.为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的语音合成方法。
53.为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的语音合成方法。
54.本技术提出的语音合成方法、语音合成装置、电子设备及存储介质,其通过获取文本数据,对文本数据进行字符特征提取,得到初步字符特征,以通过字符特征增加合成语音的韵律。为了得到文本数据的语言学特征,对文本数据进行音素转换,得到音素序列,对音素序列进行音素特征提取,得到目标音素特征。根据初步字符特征对字符进行分类,得到字符的类别特征,以根据类别特征确定文本数据的停顿,使合成语音具有抑扬顿挫感。对目标音素特征和类别特征进行特征融合,得到融合特征,使得融合特征不仅包括音素特征,还包括字符特征。对融合特征进行韵律特征提取,得到目标韵律特征,能够丰富合成语音的韵律。根据目标韵律特征进行语音合成,得到文本数据的语音数据,能够增加语音数据的韵律,提高语音合成的效果。当用户通过网页客服、语音电话等渠道接入人工智能客服后,人工智能客服响应于用户的查询请求,在转账任务、账务明细查询、理财任务、闲聊等复杂场景下均能给用户提供高质量的、与查询请求相匹配的语音解答,以为用户提供更好的体验。
附图说明
55.图1是本技术实施例提供的语音合成方法的流程图;
56.图2是图1中的步骤s140的流程图;
57.图3是图1中的步骤s150的流程图;
58.图4是图1中的步骤s160的流程图;
59.图5是本技术实施例提供的语音合成方法的另一流程图;
60.图6是图1中的步骤s170的流程图;
61.图7是图1中的步骤s180的流程图;
62.图8是本技术实施例提供的语音合成装置的结构示意图;
63.图9是本技术实施例提供的电子设备的硬件结构示意图。
具体实施方式
64.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
65.需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
66.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
67.首先,对本技术中涉及的若干名词进行解析:
68.人工智能(artificial intelligence,ai):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
69.自注意力机制(attention mechanism):注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力,选择特定的输入,可以应用于任何类型的输入而不管其形状如何。在计算能力有限情况下,注意力机制是解决信息超载问题的主要手段的一种资源分配方案,将计算资源分配给更重要的任务。
70.编码(encoder):将输入序列转化成一个固定长度的向量。
71.解码(decoder):将之前生成的固定向量再转化成输出序列;其中,输入序列可以是文字、语音、图像、视频;输出序列可以是文字、图像。
72.随着人工智能相关技术应用的发展,人工智能客服已被引入银行系统来应对复杂的金融交易场景,为用户提供智能化和个性化的服务。在银行系统中,人工智能客服支持转账任务、账务明细查询、理财任务、闲聊等复杂场景,人工智能客服通过自然语言处理技术对用户的输入进行理解、分析,识别用户的需求和意图,并根据用户的需求和意图给出答复文本,利用语音合成技术将答复文本转换为语音输出,方便用户收听。例如,用户通过人工智能客服查询账户的历史交易明细,人工智能客服从数据库中搜索出历史交易记录,将历史交易记录转换为语音数据,将语音数据反馈给用户。历史交易明细涉及过去一段时间的交易金额、交易方、交易类型等重要信息,需要注重词语之间的停顿、连续、音调等韵律,这对合成语音的表现力、音质有了更高的要求。
73.相关技术中,利用包括编码器、变量适配器和解码器的声学模型将文本数据转换为语音数据,以进行语音合成。将音素序列输入至编码器,使编码器能够学习音素序列的上
下文特征,但是该上下文特征为音素之间的特征,缺少单词或者汉字级别的特征,仅利用音素序列级别的特征进行语音合成,会使得合成的语音缺乏词语或字之间的停顿、连续、音调等韵律,影响合成的语音数据的语音质量。
74.基于此,本技术实施例提供了一种语音合成方法、语音合成装置、电子设备及计算机可读存储介质,旨在增加合成语音的韵律,提高合成语音的语音质量。
75.本技术实施例提供的语音合成方法、语音合成装置、电子设备及计算机可读存储介质,具体通过如下实施例进行说明,首先描述本技术实施例中的语音合成方法。
76.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
77.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
78.本技术实施例提供的语音合成方法,涉及金融科技领域。本技术实施例提供的语音合成方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现语音合成方法的应用等,但并不局限于以上形式。
79.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
80.图1是本技术实施例提供的语音合成方法的一个可选的流程图,图1中的语音合成方法可以包括但不限于包括步骤s110至步骤s180。
81.步骤s110,获取文本数据;文本数据包括多个字符;
82.步骤s120,对文本数据进行字符特征提取,得到初步字符特征;
83.步骤s130,对文本数据进行音素转换,得到音素序列;
84.步骤s140,对音素序列进行音素特征提取,得到目标音素特征;
85.步骤s150,根据初步字符特征对字符进行分类,得到字符的类别特征;
86.步骤s160,对目标音素特征和类别特征进行特征融合,得到融合特征;
87.步骤s170,对融合特征进行韵律特征提取,得到目标韵律特征;
88.步骤s180,根据目标韵律特征进行语音合成,得到文本数据的语音数据。
89.本技术实施例所示意的步骤s110至步骤s180,通过对文本数据进行字符特征提取,得到初步字符特征,以通过字符特征增加合成语音的韵律。为了得到文本数据的语言学特征,对文本数据进行音素转换,得到音素序列,对音素序列进行音素特征提取,得到目标音素特征。根据初步字符特征对字符进行分类,得到字符的类别特征,以根据类别特征确定文本数据的停顿,使合成语音具有抑扬顿挫感。对目标音素特征和类别特征进行特征融合,得到融合特征,使得融合特征不仅包括音素特征,还包括字符特征。对融合特征进行韵律特征提取,得到目标韵律特征,能够丰富合成语音的韵律。根据目标韵律特征进行语音合成,得到文本数据的语音数据,能够增加语音数据的韵律,提高语音合成的效果。
90.在一些实施例的步骤s110中,用户通过语音电话、网页客服、银行应用程序等渠道接入人工智能客服,人工智能客服获取用户输入的问题数据,并判断问题数据是否为文本形式。若问题数据为语音形式的数据,将语音形式的问题数据转换为问题文本,对问题文本进行解析,识别问题文本中的关键词,根据关键词从语料库中获取与问题文本匹配的答案文本,得到文本数据。人工智能客服支持问答、转账任务、账务明细查询、理财任务、闲聊等复杂场景,该文本数据可以是业务文本,也可以是与业务问题无关的、闲聊沟通的非业务文本。文本数据中包括多个字符,该字符分为文字字符和标点字符,文字字符可以是汉字、英文、数字字符,标点字符可以是标点符号。
91.例如,在账务明细查询场景中,人工智能客服提供的答案文本为用户在2022年3月至2022年4月这一个月的历史转账明细记录,历史转账明细记录包括交易金额、转账方式、交易对象等,若一条历史转账明细记录为“2022年3月1日,交易金额为200,转账方式为x应用程序,交易对象为b”,当该条历史转账明细记录转换为语音形式时,现有的声学模型编码器仅能学习音素序列之间的上下文特征,缺乏单词或者汉字级别的特征,使得合成的语音数据出现在日和交之间没有停顿、各字符音调错误、词语之间割裂等现象,导致语音合成的质量降低,影响用户的体验。
92.例如,在闲聊沟通场景中,用户与人工智能客服进行人机交互,由于人机交互是模拟人类对话,这要求人工智能客服输出的语音富含韵律。但编码器仅能学习音素级别的特征,导致人工智能客服输出的语音数据为机器合成音,不仅缺乏情感且无法区分一个完整的字或者词,降低语音合成的质量。
93.在一些实施例的步骤s120中,为了提高语音合成的质量,引入字符特征,使人工智能客服能够区分完整的字或者词语。通过基于transformers的双向编码表示模型(bidirectional encoder representation from transformers,bert)对文本数据进行字符特征提取,得到初步字符特征,初步字符特征包括上下文语义特征、位置关系特征等,若文本数据为中文文本,则初步字符特征为汉字级别的特征,若文本数据为英文文本,则初步字符特征为单词级别的特征,其中bert模型是一种自编码语言模型,能够学习文本数据的情境上下文表示,bert模型可以是bert-base系列、gpt系列、xlnet系列、xlm系列中的任一模型。
94.以bert-base-chinese模型为例,对中文文本数据的字符特征提取过程进行说明。bert-base-chinese包括12个编码层,每个编码层包括多头注意力层、第一归一化层、前馈神经网络层和第二归一化层,多头注意力层的输入与输出之间残差连接,第一归一化层和
前馈神经网络层之间残差连接,前馈神经网络层为全连接映射网络,其中多头注意力层具有12个头的注意力层。以字为粒度对中文文本数据进行切分,得到多个字符,基于字典将字符映射为数字索引,得到字嵌入向量,通过多头注意力层对字嵌入向量进行注意力特征提取,得到注意力向量,通过残差连接将字嵌入向量与注意力向量进行向量融合,得到第一特征向量,通过第一归一化层对第一特征向量进行层归一化处理,得到第一归一化向量,通过前馈神经网络层对第一归一化向量进行特征映射,得到第二特征向量,通过残差连接对第二特征向量和第一归一化向量进行向量融合,得到第三特征向量,通过第二归一化层对第三特征向量进行层归一化处理,得到第二归一化向量,将第二归一化向量作为编码器的输出,将该输出作为另一编码器的输入,将第12个编码器的输出作为初步字符特征,得到中文文本数据中每个字符的上下文嵌入向量表示。选用预训练模型bert-base-chinese进行字符特征提取,不需要提前进行模型训练,提高了特征提取的效率,从而语音合成的效率。
95.在一些实施例的步骤s130中,从文本数据中提取语言学特征,根据语言学特征生成声学特征,将声学特征转换为语音信号,实现语音合成。为了得到语言学特征,通过文本音素转换模型(grapheme-to-phoneme,g2p)将文本数据进行音素转换,得到音素序列,音素序列包括文本数据中每个文字字符的音素,若文本数据为中文文本,音素分为两部分,第一部分为汉字字符的拼音,第二部分为汉字字符的声调,声调包括阴平、阳平、上声和去声。例如,文本数据为“您好”,通过g2p模型得到汉字字符“您”的音素为[nin2],“好”的音素为[hao3]。
[0096]
请参阅图2,在一些实施例中,步骤s140可以包括但不限于包括步骤s210至步骤s260:
[0097]
步骤s210,对音素序列进行注意力特征提取,得到注意力特征;
[0098]
步骤s220,对音素序列和注意力特征进行特征融合,得到初始音素特征;
[0099]
步骤s230,对初始音素特征进行层归一化处理,得到第一中间音素特征;
[0100]
步骤s240,对第一中间音素特征进行特征映射,得到第二中间音素特征;
[0101]
步骤s250,对第一中间音素特征和第二中间音素特征进行特征融合,得到第三中间音素特征;
[0102]
步骤s260,对第三中间音素特征进行层归一化处理,得到目标音素特征。
[0103]
在一些实施例的步骤s210中,为了学习音素序列中多个音素之间的上下文特征,通过编码器对音素序列进行音素特征提取,得到目标音素特征,其中编码器包括多个前馈transformer编码块,每个前馈transformer编码块包括注意力层和一维卷积层,自注意力层采用多头注意力机制。通过注意力层对音素序列进行注意力特征提取,得到注意力特征。将前一前馈transformer编码块的输出作为下一前馈transformer编码块的输入,直至得到最后一个前馈编码块的输出,将最后一个前馈编码块的输出作为目标音素特征。具体地,对音素序列进行向量化表示,得到音素向量,将第一权重矩阵、第二权重矩阵和第三权重矩阵分别与音素向量相乘,得到对应于第一权重矩阵的查询向量、对应于第二权重矩阵的键向量和对应于第三权重矩阵的值向量,根据查询向量和键向量计算值向量的注意力权重,将注意力权重与该头对应的值向量进行相乘,得到每一头的注意力向量,将多个注意力向量进行拼接得到注意力特征。需要说明的是,将查询向量与键向量相乘,得到第一数值,将第一数值与缩放因子相除,得到第二数值,将第二数值作为softmax函数的输入参数,得到注
意力权重。
[0104]
在一些实施例的步骤s220中,随着前馈transformer编码块堆叠个数的增加,会出现编码器退化现象,导致提取的目标音素特征不准确,因此将音素向量和注意力特征进行特征融合,以避免出现梯度消息、梯度爆炸、过拟合等现象,使音素信息的前后向传播更加顺畅,得到初始音素特征。
[0105]
在一些实施例的步骤s230中,为了提高编码器提取音素特征的效率,对初始音素特征进行层归一化处理,得到第一中间音素特征。若注意力层包括m个神经元,初始音素特征由m个神经元输出的向量构成,每个向量的维度为l,则初始音素特征表示为对初始音素特征进行平均处理,得到平均值μ为对初始音素特征进行方差处理,得到方差σ2为根据方差得到标准差σ为ε为大于0的常数,根据平均值和方差对向量进行标准化处理,得到初始基准向量为根据尺度a和位移b对初始基准向量进行仿射变换,得到目标基准向量zi为将每个神经元的向量转换为目标基准向量,得到第一中间音素特征。
[0106]
在一些实施例的步骤s240中,为了能够得到高层次的音素特征,通过一维卷积层对第一中间音素特征进行特征映射,以将第一中间音素特征从低维空间映射到高维空间,得到第二中间音素特征。
[0107]
在一些实施例的步骤s250中,为了缓解编码器退化现象,对第一中间音素特征和第二中间音素特征进行特征相加,得到第三中间音素特征。
[0108]
在一些实施例的步骤s260中,为了提高编码器提取音素特征的效率,对第三中间音素特征进行层归一化处理,得到目标音素特征,层归一化处理的方法与步骤s230相同,此处不再赘述。
[0109]
通过上述步骤s210至步骤s260,能够提取到音素序列的上下文特征,得到音素特征,以基于音素特征得到声学特征,并根据声学特征进行语音合成。
[0110]
请参阅图3,在一些实施例中,步骤s150可以包括但不限于包括步骤s310至步骤s320:
[0111]
步骤s310,对初步字符特征进行特征维度调整,得到候选字符特征;
[0112]
步骤s320,根据候选字符特征对字符进行分类,得到类别特征。
[0113]
在一些实施例的步骤s310中,将初步字符特征输入至全连接映射网络进行字符分类,得到字符的类别特征,其中全连接映射网络包括线性层和分类层,bert模型提取的初步字符特征的特征维度为768维,编码器提取的目标音素特征的特征维度为256维,由于初步字符特征和目标音素特征的特征维度不一致,导致类别特征无法与目标音素特征进行特征融合,因此通过线性层对初始字符特征进行特征映射,将768维映射为256维,得到候选字符特征,使得候选字符特征的特征维度与目标音素特征的特征维度相同。
[0114]
在一些实施例的步骤s320中,分类层用于进行三类别分类,类别特征用于标识字符的类别。若文本数据为中文文本数据,将候选字符特征输入至分类层,根据候选字符特征对字符分类,得到字符类别为句首位置的汉字、除句首位置之外其他位置的汉字或者标点
符号这三个类别中的一个。
[0115]
需要说明的是,全连接映射网络可根据如下方式进行训练。获取样本中文数据,样本中文数据包括多个字符,字符具有基准类别标签,对样本中文数据进行字符特征提取,得到样本字符特征,将样本字符特征输入至全连接映射网络进行类别预测,得到字符的预测类别标签,通过损失函数评估基准类别标签与预测类别标签之间的差异,得到损失数据,根据损失数据调整全连接映射网络的网络参数,以训练全连接映射网络。若字符为句首位置的汉字字符,基准类别标签为0,若字符为该句其他位置的汉字字符,基准类别标签为1,若字符为标点符号,基准类别标签为2。
[0116]
上述步骤s310至步骤s320,通过对初步字符特征进行特征维度调整,能够解决初步字符特征与目标音素特征之间特征维度不一致的问题,通过对字符进行分类,能够得到文本数据中每个字符的类别,使得可以基于类别确定文本数据的连续或者停顿,从而使合成的语音具有抑扬顿挫之感。
[0117]
请参阅图4,在一些实施例中,音素序列包括多个音素,步骤s160可以包括但不限于包括步骤s410至步骤s440:
[0118]
步骤s410,获取音素序列中音素的数量,得到第一数量;
[0119]
步骤s420,获取文本数据中字符的数量,得到第二数量;
[0120]
步骤s430,比对第一数量和第二数量;
[0121]
步骤s440,若第一数量和第二数量相等,则对目标音素特征和类别特征进行特征融合,得到融合特征。
[0122]
在一些实施例的步骤s410中,当目标音素特征和类别特征之间的特征维度一致后,可能会存在音素个数与字符个数不一致的问题,导致目标音素特征和类别特征无法进行特征融合,因此需要确定音素的数量与字符的数量是否相等。获取音素序列中音素的数量,得到第一数量。例如,音素序列为[[nin2],[hao3]],序列第一项元素的音素数量为2,第二项元素的音素数量为2,第一数量为4。
[0123]
在一些实施例的步骤s420中,文本数据为“您好”,获取文本数据中字符的数量,文本数据包括两个汉字字符,得到第二数量为2。
[0124]
在一些实施例的步骤s430中,为了判断第一数量和第二数量是否相等,比对第一数量和第二数量。
[0125]
在一些实施例的步骤s440中,若第一数量和第二数量相等,说明文本数据的字符数量和音素序列的音素数量相等,类别特征和目标音素特征可以融合,对目标音素特征和类别特征进行特征融合,得到融合特征。
[0126]
上述步骤s410至步骤s440,通过比对字符数量和音素数量,能够使类别特征和目标音素特征可以融合,使融合特征既包含音素特征,又包含字符特征,增加了特征的多样性,以提高合成语音的质量。
[0127]
请参阅图5,在一些实施例中,在步骤s430之后,语音合成方法还可以包括但不限于包括步骤s510至步骤s530:
[0128]
步骤s510,若第一数量大于第二数量,则将字符和音素进行对齐,得到字符对应音素的第三数量;
[0129]
步骤s520,根据第三数量对类别特征进行扩充,得到扩充特征;
[0130]
步骤s530,对目标音素特征和扩充特征进行特征融合,得到融合特征。
[0131]
在一些实施例的步骤s510中,若音素数量大于字符数量,说明类别特征和目标音素特征无法融合,则将字符和音素进行对齐,得到字符和音素之间的映射关系,根据映射关系得到字符对应音素的数量,得到第三数量。例如,音素序列为[[nin2],[hao3]],文本数据为“您好”,第一数量为4,第二数量为2,第一数量大于第二数量,将文本数据的字符和音素序列的音素进行对齐,得到映射关系为{“您”:“nin2”,“好”:“hao3”},根据映射关系得到字符“您”对应音素“nin2”的第三数量为2,字符“好”对应音素“hao3”的第三数量为2。
[0132]
在一些实施例的步骤s520中,一个字符具有一个类别特征,一个字符具有多个音素,每个音素具有一个音素特征,则一个字符具有多个音素特征,每个字符的类别特征构成文本数据的类别特征,导致类别特征与音素特征的个数不一致。为了使字符的类别特征与字符对应的音素特征在数量方面相等,根据第三数量对类别特征进行扩充,将类别特征从一个扩展到第三数量个,得到扩充特征。
[0133]
在一些实施例的步骤s530中,每个字符的扩充特征构成文本数据的扩充特征,将文本数据的扩充特征与目标音素特征进行特征相加,得到融合特征。
[0134]
上述步骤s510至步骤s530,能够解决类别特征和音素特征在数量上不一致的问题,使文本数据的类别特征和音素序列的目标音素特征能够进行特征融合,基于融合特征进行语音合成。
[0135]
请参阅图6,在一些实施例中,步骤s170可以包括但不限于包括步骤s610至步骤s640:
[0136]
步骤s610,对融合特征进行音素时长特征提取,得到音素时长特征;
[0137]
步骤s620,根据音素时长特征对融合特征进行长度调整,得到梅尔频谱特征;
[0138]
步骤s630,对梅尔频谱特征进行音调特征提取,得到音调特征,对梅尔频谱特征进行音强特征提取,得到音强特征,并对梅尔频谱特征进行初始韵律特征提取,得到初始韵律特征;
[0139]
步骤s640,对梅尔频谱特征、音调特征、音强特征和初始韵律特征进行特征融合,得到目标韵律特征。
[0140]
在一些实施例的步骤s610中,通过变量适配器对融合特征进行韵律特征提取,得到目标韵律特征,以将语言学特征转换为声学特征,变量适配器包括音素时长预测器、长度调节器、音调预测器、音强预测器和初始韵律预测器,音素时长预测器、音调预测器、音强预测器和初始韵律预测器的网络结构相同,均包括第一卷积层、第二卷积层和线性层,第一卷积层和第二卷积层均采用1d卷积神经网络。通过音素时长预测器对融合特征进行音素时长特征提取,得到音素时长特征,音素时长特征用于表示音素持续时间,可用于控制合成语音的语速,音素持续时间为音素对应的梅尔谱序列的长度。通过第一卷积层对融合特征进行卷积操作,得到卷积向量,对卷积向量进行rulu激活处理,得到激活向量,对激活向量进行层归一化处理,得到归一化向量,对归一化向量进行随机失活处理,得到第一时长向量,通过第二卷积层对第一时长向量进行卷积操作,得到第二时长向量,通过线性层对第二时长向量进行线性映射,得到音素时长特征。需要说明的是,第一卷积层和第二卷积层的处理过程相同,此处不再赘述。
[0141]
在一些实施例的步骤s620中,一个音素对应于多个梅尔谱序列,音素和梅尔谱序
列存在长度差异,为了调节长度差异,控制合成语音的声音速度,将音素时长特征以及融合特征输入至长度调节器,根据音素持续时长将融合特征平铺,以匹配融合特征对应的梅尔谱序列的长度,得到梅尔频谱特征。通过延长或者缩短音素持续时间,可控制合成语音的声音速度。此外,通过特征对齐,能够避免合成语音出现复读、漏读等现象。
[0142]
在一些实施例的步骤s630中,通过音调预测器对梅尔频谱特征进行音调预测,得到音调频谱,对音调频谱进行逆连续小波变换,将音调频谱转换为基频曲线,将基频曲线中的多个基频作为音调特征,音调特征用于表示声音基本频率的高低。通过音强预测器对梅尔频谱特征进行音强预测,得到音强特征,音强特征用于表示声音的强度。通过初始韵律预测器对梅尔频谱特征进行初始韵律特征提取,得到初始韵律特征,初始韵律特征用于表示语音的内容,即每个字符的读音。音调预测器进行音调预测的过程、音强预测器进行音强预测的过程、初始韵律预测器进行初始韵律预测的过程均与素时长预测器进行音素时长预测的过程相同,此处不再赘述。
[0143]
需要说明的是,音素时长预测器的训练过程如下,获取样本文本的音素序列以及样本文本的样本音频,音素序列包括多个音素,音频序列包括多个梅尔帧,通过对齐工具对音素和梅尔帧进行对齐,得到每个音素对应的梅尔帧的帧数,将帧数作为基准音素时长。对音素序列进行音素时长预测,得到预测音素时长,通过均方误差损失函数评估基准音素时长和预测音素时长之间的差异,得到损失数据,根据损失数据调整模型的网络参数,以训练模型得到音素时长预测器。
[0144]
音调预测器的训练过程包括:通过连续小波变换将样本音调序列分解为基准音调频谱,对音素序列进行音调频谱预测,得到预测音调频谱。通过均方误差损失函数评估基准音调频谱和预测音调频谱之间的差异,得到损失数据。根据损失数据调整模型的网络参数,以训练模型得到音调预测器。
[0145]
音强预测器的训练过程包括:通过短时傅里叶变换将样本音频从时间域转换到频率域得到短时频谱,短时频谱包括短时幅度谱和短时相位谱,短时幅度谱包括多个短时幅度。将短时幅度的l2范数作为基准音强,对音素序列进行音强预测,得到预测音强。通过均方误差损失函数评估预测音强和基准音强之间的差异,得到损失数据。根据损失数据调整模型的网络参数,以训练模型得到音强预测器。
[0146]
初始韵律预测器的训练过程包括:对音素序列进行读音预测,得到每个字符的预测音频。通过均方误差损失函数评估样本音频和预测音频之间的差异,得到损失数据。根据损失数据调整模型的网络参数,以训练模型得到初始韵律预测器。
[0147]
在一些实施例的步骤s640中,对梅尔频谱特征、音调特征、音强特征和初始韵律特征进行特征求和处理,以提升上下文韵律特征,增强合成语音的韵律效果,得到目标韵律特征。
[0148]
上述步骤s610至步骤s640,通过提取音素时长特征、音调特征、音强特征和初始韵律特征,能够丰富韵律特征,以提升合成语音的语音质量。
[0149]
请参阅图7,在一些实施例中,步骤s180可以包括但不限于包括步骤s710至步骤s740:
[0150]
步骤s710,对目标韵律特征进行转置卷积处理,得到第一卷积特征;
[0151]
步骤s720,对第一卷积特征进行膨胀卷积处理,得到第二卷积特征;
[0152]
步骤s730,对第二卷积特征进行门限激活处理,得到激活特征;
[0153]
步骤s740,对激活特征进行特征提取,得到语音数据。
[0154]
在一些实施例的步骤s710中,将目标韵律特征输入至解码器,根据目标韵律特征进行语音合成,将文本数据直接转换为语音信号,得到文本数据的语音数据,解码器包括多个解码块和1d卷积层,解码块包括1d转置卷积层、1d膨胀卷积层、门限激活层和1
×
1卷积层。通过1d转置卷积层对目标韵律特征进行转置卷积,将目标韵律特征从低维特征映射到高维特征,以提高语音的分辨率,得到第一卷积特征。
[0155]
在一些实施例的步骤s720中,通过1d膨胀卷积层对第一卷积特征进行膨胀卷积,以增大卷积核的感受野,避免丢失大量的局部特征信息,得到第二卷积特征。
[0156]
在一些实施例的步骤s730中,通过门限激活层对第二卷积特征进行门限激活,以确定输入至下一解码块的特征,若当前神经元的激励值超过门限值,则该神经元被激活,输入该神经元的特征能够被传输至下一解码块,得到激活特征。
[0157]
在一些实施例的步骤s740中,将前一解码块的输出作为当前解码块的输入,得到激活特征,将最后一个解码块输出的激活特征输入至1
×
1卷积层进行维度调整,并将维度调整后的特征输入至1d卷积层进行特征提取,得到语音数据。
[0158]
上述步骤s710至步骤s740,通过对目标韵律特征进行波形解码,将文本数据转换成语音信息,得到语音数据,并提高了语音数据的韵律效果,使语音数据具有情感性,增强了用户体验感。
[0159]
请参阅图8,本技术实施例还提供一种语音合成装置,可以实现上述语音合成方法,该语音合成装置包括:
[0160]
获取模块810,用于获取文本数据;文本数据包括多个字符;
[0161]
第一特征提取模块820,用于对文本数据进行字符特征提取,得到初步字符特征;
[0162]
音素转换模块830,用于对文本数据进行音素转换,得到音素序列;
[0163]
第二特征提取模块840,用于对音素序列进行音素特征提取,得到目标音素特征;
[0164]
分类模块850,用于根据初步字符特征对字符进行分类,得到字符的类别特征;
[0165]
特征融合模块860,用于对目标音素特征和类别特征进行特征融合,得到融合特征;
[0166]
第三特征提取模块870,用于对融合特征进行韵律特征提取,得到目标韵律特征;
[0167]
语音合成模块880,用于根据目标韵律特征进行语音合成,得到文本数据的语音数据。
[0168]
该语音合成装置的具体实施方式与上述语音合成方法的具体实施例基本相同,在此不再赘述。
[0169]
本技术实施例还提供了一种电子设备,电子设备包括括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述语音合成方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
[0170]
请参阅图9,图9示意了另一实施例的电子设备的硬件结构,电子设备包括:
[0171]
处理器910,可以采用通用的cpu(centralprocessingunit,中央处理器)、微处理器、应用专用集成电路(applicationspecificintegratedcircuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本技术实施例所提供的技术方案;
[0172]
存储器920,可以采用只读存储器(readonlymemory,rom)、静态存储设备、动态存储设备或者随机存取存储器(randomaccessmemory,ram)等形式实现。存储器920可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器920中,并由处理器910来调用执行本技术实施例的语音合成方法;
[0173]
输入/输出接口930,用于实现信息输入及输出;
[0174]
通信接口940,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信;
[0175]
总线950,在设备的各个组件(例如处理器910、存储器920、输入/输出接口930和通信接口940)之间传输信息;
[0176]
其中处理器910、存储器920、输入/输出接口930和通信接口940通过总线950实现彼此之间在设备内部的通信连接。
[0177]
本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述语音合成方法。
[0178]
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0179]
本技术实施例提供的语音合成方法、语音合成装置、电子设备及计算机可读存储介质,其通过对文本数据进行字符特征提取,得到初步字符特征,以通过字符特征增加合成语音的韵律。为了得到文本数据的语言学特征,对文本数据进行音素转换,得到音素序列,对音素序列进行音素特征提取,得到目标音素特征。根据初步字符特征对字符进行分类,得到字符的类别特征,以根据类别特征确定文本数据的停顿,使合成语音具有抑扬顿挫感。对目标音素特征和类别特征进行特征融合,得到融合特征,使得融合特征不仅包括音素特征,还包括字符特征。对融合特征进行韵律特征提取,得到目标韵律特征,能够丰富合成语音的韵律。根据目标韵律特征进行语音合成,得到文本数据的语音数据,能够增加语音数据的韵律,提高语音合成的效果。
[0180]
本技术实施例描述的实施例是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本技术实施例提供的技术方案对于类似的技术问题,同样适用。
[0181]
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本技术实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
[0182]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0183]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
[0184]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0185]
应当理解,在本技术中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
[0186]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0187]
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0188]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0189]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例的方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-on ly memory,简称rom)、随机存取存储器(random access memory,简称ram)、磁碟或者光盘等各种可以存储程序的介质。
[0190]
以上参照附图说明了本技术实施例的优选实施例,并非因此局限本技术实施例的权利范围。本领域技术人员不脱离本技术实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本技术实施例的权利范围之内。

技术特征:
1.语音合成方法,其特征在于,所述方法包括:获取文本数据;所述文本数据包括多个字符;对所述文本数据进行字符特征提取,得到初步字符特征;对所述文本数据进行音素转换,得到音素序列;对所述音素序列进行音素特征提取,得到目标音素特征;根据所述初步字符特征对所述字符进行分类,得到所述字符的类别特征;对所述目标音素特征和所述类别特征进行特征融合,得到融合特征;对所述融合特征进行韵律特征提取,得到目标韵律特征;根据所述目标韵律特征进行语音合成,得到所述文本数据的语音数据。2.根据权利要求1所述的语音合成方法,其特征在于,所述对所述音素序列进行音素特征提取,得到目标音素特征,包括:对所述音素序列进行注意力特征提取,得到注意力特征;对所述音素序列和所述注意力特征进行特征融合,得到初始音素特征;对所述初始音素特征进行层归一化处理,得到第一中间音素特征;对所述第一中间音素特征进行特征映射,得到第二中间音素特征;对所述第一中间音素特征和所述第二中间音素特征进行特征融合,得到第三中间音素特征;对所述第三中间音素特征进行层归一化处理,得到所述目标音素特征。3.根据权利要求1所述的语音合成方法,其特征在于,所述根据所述初步字符特征对所述字符进行分类,得到所述字符的类别特征,包括:对所述初步字符特征进行特征维度调整,得到候选字符特征;根据所述候选字符特征对所述字符进行分类,得到所述类别特征。4.根据权利要求1所述的语音合成方法,其特征在于,所述音素序列包括多个音素,所述对所述目标音素特征和所述类别特征进行特征融合,得到融合特征,包括:获取所述音素序列中所述音素的数量,得到第一数量;获取所述文本数据中所述字符的数量,得到第二数量;比对所述第一数量和所述第二数量;若所述第一数量和所述第二数量相等,则对所述目标音素特征和所述类别特征进行特征融合,得到融合特征。5.根据权利要求4所述的语音合成方法,其特征在于,在所述比对所述第一数量和所述第二数量之后,所述语音合成方法还包括:若所述第一数量大于所述第二数量,则将所述字符和所述音素进行对齐,得到所述字符对应音素的第三数量;根据所述第三数量对所述类别特征进行扩充,得到扩充特征;对所述目标音素特征和所述扩充特征进行特征融合,得到所述融合特征。6.根据权利要求1至5任一项所述的语音合成方法,其特征在于,所述对所述融合特征进行韵律特征提取,得到目标韵律特征,包括:对所述融合特征进行音素时长特征提取,得到音素时长特征;根据所述音素时长特征对所述融合特征进行长度调整,得到梅尔频谱特征;
对所述梅尔频谱特征进行音调特征提取,得到音调特征,对所述梅尔频谱特征进行音强特征提取,得到音强特征,并对所述梅尔频谱特征进行初始韵律特征提取,得到初始韵律特征;对所述梅尔频谱特征、所述音调特征、所述音强特征和所述初始韵律特征进行特征融合,得到所述目标韵律特征。7.根据权利要求1至5任一项所述的语音合成方法,其特征在于,所述根据所述目标韵律特征进行语音合成,得到所述文本数据的语音数据,包括:对所述目标韵律特征进行转置卷积处理,得到第一卷积特征;对所述第一卷积特征进行膨胀卷积处理,得到第二卷积特征;对所述第二卷积特征进行门限激活处理,得到激活特征;对所述激活特征进行特征提取,得到所述语音数据。8.语音合成装置,其特征在于,所述装置包括:获取模块,用于获取文本数据;所述文本数据包括多个字符;第一特征提取模块,用于对所述文本数据进行字符特征提取,得到初步字符特征;音素转换模块,用于对所述文本数据进行音素转换,得到音素序列;第二特征提取模块,用于对所述音素序列进行音素特征提取,得到目标音素特征;分类模块,用于根据所述初步字符特征对所述字符进行分类,得到所述字符的类别特征;特征融合模块,用于对所述目标音素特征和所述类别特征进行特征融合,得到融合特征;第三特征提取模块,用于对所述融合特征进行韵律特征提取,得到目标韵律特征;语音合成模块,用于根据所述目标韵律特征进行语音合成,得到所述文本数据的语音数据。9.电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的语音合成方法。10.计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音合成方法。

技术总结
本申请提供了一种语音合成方法、语音合成装置、电子设备及存储介质,属于金融科技领域,通过获取文本数据,文本数据包括多个字符,对文本数据进行字符特征提取,得到初步字符特征,对文本数据进行音素转换,得到音素序列,对音素序列进行音素特征提取,得到目标音素特征,根据初步字符特征对字符进行分类,得到字符的类别特征,对目标音素特征和类别特征进行特征融合,得到融合特征,对融合特征进行韵律特征提取,得到目标韵律特征,根据目标韵律特征进行语音合成,得到文本数据的语音数据,能够提高合成的语音数据的语音质量。够提高合成的语音数据的语音质量。够提高合成的语音数据的语音质量。


技术研发人员:涂必超
受保护的技术使用者:中国平安人寿保险股份有限公司
技术研发日:2023.07.07
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐