语音转换方法、装置、计算机设备及存储介质与流程

未命名 08-17 阅读：78 评论：0

1.本发明涉及语音转换和数字医疗领域，尤其涉及一种语音转换方法、装置、计算机设备及存储介质。

背景技术：

2.随着短视频技术的快速发展，短视频越来越受大众的欢迎。通常，用户在制作短视频的过程中需要通过配音进行语音转换，以增强短视频的效果和趣味性。但由于大部分用户不具备专业的配音水平，导致通过配音的短视频的制作效果和趣味性较差。其中，语音转换是指在不改变话语内容信息的情况下，将说话人的声音更换成另一个人的声音。在数字医疗相关场景下，比如智能诊疗、远程会诊时，问诊医生或病人的声音也可能存在声音不好听或需要隐私保护等问题，此时，亦可以通过语音转换提升医生和病人之间的沟通效果。
3.现有的语音转换技术，通常利用统计映射方法(例如，高斯混合模型)使说话人的声音经过转换后的转换声音与目标声音之间的误差最小，从而实现了语音转换。由于统计映射方法未充分学习说话人声音的隐藏信息(例如，风格信息)，使得转换后得到的音质效果较差。

技术实现要素：

4.基于此，有必要针对上述技术问题，提供一种语音转换方法、装置、计算机设备及存储介质，以解决现有语音转换技术中，语音转换效果较差的问题。
5.一种语音转换方法，包括：
6.获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；
7.利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；
8.对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；
9.根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。
10.一种语音转换装置，包括：
11.用户输入数据模块，用于获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；
12.待处理语音内容数据模块，用于利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；
13.音素对齐内容数据模块，用于对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；
14.目标语音数据模块，用于根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。
15.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述语音转换方法。
16.一个或多个存储有计算机可读指令的可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如上述语音转换方法。
17.上述语音转换方法、装置、计算机设备及存储介质，通过获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。本发明通过矢量量化技术以及音素对齐处理消除初始语音数据中初始说话人的风格信息，使得到的音素对齐内容数据更好地脱离来初始说话人的风格信息，提高目标语音数据的准确性和音质效果；上述语音转换方法可应用于智能诊疗、远程会诊，可以提升问诊双方的目标语音数据的准确性和音质效果，进而提升问诊效率和效果。并且，根据目标语音长度和目标语音风格对音素对齐内容数据进行语音转换，实现语音时间的可控性和目标语音风格的可选择性，提高语音转换的灵活性。
附图说明
18.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
19.图1是本发明一实施例中语音转换方法的一应用环境示意图；
20.图2是本发明一实施例中语音转换方法的一流程示意图；
21.图3是本发明一实施例中语音转换装置的一结构示意图；
22.图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
23.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.本实施例提供的语音转换方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
25.在一实施例中，如图2所示，提供一种语音转换方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：
26.s10、获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标
语音长度和目标语音风格。
27.可理解地，初始语音数据为用户在客户端输入或选择的语音数据。该初始语音数据可为用户预先存储在客户端的录音数据。目标语音信息是指用户预期生成的目标语音数据的相关信息。该目标语音信息包括但不限于目标语音长度和目标语音风格。其中，目标语音长度是指目标语音数据的时间长度。目标语音风格是指目标语音数据的语音风格。该目标语音风格可以是指定人物的语音风格，也可以是指定类别的语音风格。例如，该指定人物可为某明星。指定类别包括但不限于娃娃音、男声和女声。
28.s20、利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据。
29.可理解地，矢量量化技术是一种将原有的连续型数据聚类成离散数据，使得需要存储的数据量降低，实现数据压缩技术。在这里，利用矢量量化技术将初始语音数据从原有的连续型数据聚类成离散数据，进而，提取离散数据中的初始说话人的风格信息提取，将提取的风格特征信息进行剔除，得到待处理语音内容数据。其中，待处理语音内容数据为剔除了初始说话人的风格信息保留了内容信息的语音数据。
30.s30、对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据。
31.可理解地，音素对齐处理是指识别待处理语音内容数据中的每个音素，并将每个音素包含的若干音素帧进行合并对齐，得到与音素对应的一帧对齐音素帧，生成音素对齐内容数据的过程。其中，将每个音素包含的若干音素帧进行合并对齐相当于将与同一音素对应的多个音素帧合并为一帧，也即，进一步消除待处理语音内容数据中初始说话人的风格信息，使得到的音素对齐内容数据不包含初始说话人的风格信息。音素对齐内容数据包括待处理语音内容数据中所有音素的对齐音素帧。
32.s40、根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。
33.可理解地，在得到音素对齐内容数据之后，根据用户输入的目标语音长度和目标语音风格，对音素对齐内容数据进行语音转换。也即，将音素对齐内容数据转换为目标语音风格的目标语音数据，且该目标语音数据的时间长度为目标语音长度。如此，可实现在语音转换过程中，对目标语音数据的时间长度的控制。
34.在步骤s10-s40中，通过获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。本实施例通过矢量量化技术以及音素对齐处理消除初始语音数据中初始说话人的风格信息，使得到的音素对齐内容数据更好地脱离来初始说话人的风格信息，提高目标语音数据的准确性和音质效果；上述语音转换方法可应用于智能诊疗、远程会诊，可以提升问诊双方的目标语音数据的准确性和音质效果，进而提升问诊效率和效果。进而，根据目标语音长度和目标语音风格对音素对齐内容数据进行语音转换，实现语音时间的可控性和目标语音风格的可选择性，提高语音转换的灵活性。
35.可选地，在步骤s30中，即所述对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据，包括：
36.s301、获取所述待处理语音内容数据中每个音素的音素帧的数量；一个所述音素帧对应一个音素向量；
37.s302、根据所述音素向量和所述数量，计算得到每个所述音素的平均音素向量；
38.s303、根据所述平均音素向量，对每个所述音素的所有所述音素帧进行合并对齐处理，得到每个所述音素的对齐音素帧；
39.s304、根据所有所述对齐音素帧，生成所述音素对齐内容数据。
40.可理解地，待处理语音内容数据包含若干音素，每个音素对应有至少一个音素帧。一般地，一个音素帧的时间长度为125ms。也即，一个音素的语音时间越长，则该音素对应的音素帧的数量越大。音素的音素帧的数量是指待处理语音内容数据中一个音素包含的所有的音素帧的个数。音素向量是指音素的特征向量。一个音素对应至少一个音素帧，一个音素帧对应一个音素向量，也即，一个音素对应有至少一个音素向量。根据某个音素的所有的音素向量和音素帧的数量，可计算出该音素的平均音素向量。进而，根据该平均音素向量对该音素的所有音素帧进行合并对齐处理。也即，将该音素的所有音素帧进行合并对齐为一帧音素帧，该帧音素帧为音素向量为平均音素向量的对齐音素帧。
41.在步骤s301-s304中，对待处理语音内容数据中的每个音素进行合并对齐处理，也即，消除待处理语音内容数据中的每个音素的风格信息，更好地消除了待处理语音内容数据中初始说话人的风格信息。
42.可选地，在步骤s40中，即所述根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据，包括：
43.s401、根据所述目标语音长度，对所述音素对齐内容数据进行音素重构处理，得到音素重构内容数据；
44.s402、将所述目标语音风格和所述音素重构内容数据进行合并处理，得到所述目标语音数据。
45.可理解地，音素重构处理是指根据目标语音长度，对音素对齐内容数据中的音素进行音素帧的重构，得到音素重构内容数据的过程。具体地，根据目标语音长度，确定每个音素的音素语音长度。进而，根据所音素语音长度，对每个音素的对齐音素帧进行复制重构处理，得到每个音素的若干重构音素帧。根据所有重构音素帧，生成音素重构内容数据。在得到音素重构内容数据之后，将目标语音风格与音素重构内容数据进行合并，得到目标语音数据。
46.在步骤s401和402中，根据目标语音长度和目标语音风格对音素对齐内容数据进行语音转换，实现语音时间的可控性和目标语音风格的可选择性，提高语音转换的灵活性。
47.可选地，在步骤s401中，即所述根据所述目标语音长度，对所述音素对齐内容数据进行音素重构处理，得到音素重构内容数据，包括：
48.s4011、根据所述目标语音长度，确定每个所述音素的音素语音长度；
49.s4012、根据所述音素语音长度，对每个所述音素的所述对齐音素帧进行复制重构处理，得到每个所述音素的若干重构音素帧；
50.s4013、根据所有重构音素帧，生成所述音素重构内容数据。
51.可理解地，音素语音长度是指某个音素的语音时间长度。在确定某个音素的音素语音长度之后，对与该音素对应的对齐音素帧进行复制重构，以生成重构音素帧。具体地，
在确定某个音素的音素语音长度之后，根据音素语音长度确定与该音素对应的对齐音素帧需要复制的倍数，进而，将该对齐音素帧进行多次复制，得到多个重构音素帧。将每个音素的对齐音素帧和重构音素帧进行合并，生成音素重构内容数据。
52.在步骤s4011和s4013中，根据目标语音长度对每个音素的对齐音素帧进行音素重构，可实现目标语音数据的时间长度的可控性。同时，对每个音素的对齐音素帧进行音素重构，确保目标语音数据的准确性。
53.可选地，在步骤s4011中，即所述根据所述目标语音长度，确定每个所述音素的音素语音长度，包括：
54.s40111、根据所述音素对齐内容数据的上下文信息，对每个所述音素进行语义分析，得到分析结果；
55.s40112、根据所述目标语音长度和所述分析结果，确定每个所述音素的音素语音长度。
56.可理解地，可通过语义分析模型根据音素对齐内容数据的上下文信息对音素对齐内容数据中的每个音素进行语义分析，得到分析结果。该分析结果包括该音素的词性、词义等信息。进而，根据目标语音长度和分析结果，确定每个音素的音素语音长度，使得确定的音素语音长度更加准确。
57.可选地，在步骤s20中，即所述利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据，包括：
58.s201、将所述初始语音数据输入基于所述矢量量化技术的语音转换模型中；
59.s202、利用所述矢量量化技术对所述初始语音数据进行离散处理，得到离散语音数据；
60.s203、通过所述语音转换模型对所述离散语音数据进行风格特征提取，得到所述风格信息；
61.s204、将所述风格信息从所述离散语音数据中进行剔除，得到所述待处理语音内容数据。
62.可理解地，基于矢量量化技术的语音转换模型运用来矢量量化技术实现语音转换功能。在此，利用矢量量化技术对初始语音数据进行离散处理，将初始语音数据从原有的连续型数据聚类成离散数据，得到离散语音数据。并通过语音转换模型中训练好的风格提取器对离散语音数据中的风格信息初步提取，并将提取的风格信息进行剔除，得到进行初步风格信息消除的待处理语音内容数据。
63.应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
64.在一实施例中，提供一种语音转换装置，该语音转换装置与上述实施例中语音转换方法一一对应。如图3所示，该语音转换装置包括用户输入数据模块10、待处理语音内容数据模块20、音素对齐内容数据模块30和目标语音数据模块40。各功能模块详细说明如下：
65.用户输入数据模块10，用于获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；
66.待处理语音内容数据模块20，用于利用矢量量化技术对所述初始语音数据进行风
格信息的剔除处理，得到待处理语音内容数据；
67.音素对齐内容数据模块30，用于对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；
68.目标语音数据模块40，用于根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。
69.音素对齐内容数据模块30，包括：
70.可选地，音素帧数量单元，用于获取所述待处理语音内容数据中每个音素的音素帧的数量；一个所述音素帧对应一个音素向量；
71.平均音素向量单元，用于根据所述音素向量和所述数量，计算得到每个所述音素的平均音素向量；
72.对齐音素帧单元，用于根据所述平均音素向量，对每个所述音素的所有所述音素帧进行合并对齐处理，得到每个所述音素的对齐音素帧；
73.音素对齐内容数据单元，用于根据所有所述对齐音素帧，生成所述音素对齐内容数据。
74.可选地，目标语音数据模块40，包括：
75.音素重构内容数据单元，用于根据所述目标语音长度，对所述音素对齐内容数据进行音素重构处理，得到音素重构内容数据；
76.目标语音数据单元，用于将所述目标语音风格和所述音素重构内容数据进行合并处理，得到所述目标语音数据。
77.可选地，所述音素重构内容数据单元，包括：
78.音素语音长度单元，用于根据所述目标语音长度，确定每个所述音素的音素语音长度；
79.重构音素帧单元，用于根据所述音素语音长度，对每个所述音素的所述对齐音素帧进行复制重构处理，得到每个所述音素的若干重构音素帧；
80.音素重构内容数据单元，用于根据所有重构音素帧，生成所述音素重构内容数据。
81.可选地，所述音素语音长度单元，包括：
82.分析结果单元，用于根据所述音素对齐内容数据的上下文信息，对每个所述音素进行语义分析，得到分析结果；
83.音素语音长度确定单元，用于根据所述目标语音长度和所述分析结果，确定每个所述音素的音素语音长度。
84.可选地，待处理语音内容数据模块20，包括：
85.数据输入单元，用于将所述初始语音数据输入基于所述矢量量化技术的语音转换模型中；
86.离散处理单元，用于利用所述矢量量化技术对所述初始语音数据进行离散处理，得到离散语音数据；
87.风格信息单元，用于通过所述语音转换模型对所述离散语音数据进行风格特征提取，得到所述风格信息；
88.待处理语音内容数据单元，用于将所述风格信息从所述离散语音数据中进行剔除，得到所述待处理语音内容数据。
89.关于语音转换装置的具体限定可以参见上文中对于语音转换方法的限定，在此不再赘述。上述语音转换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
90.在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储语音转换方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音转换方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
91.在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现以下步骤：
92.获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；
93.利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；
94.对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；
95.根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。
96.在一个实施例中，提供了一个或多个存储有计算机可读指令的计算机可读存储介质，本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令，计算机可读指令被一个或多个处理器执行时实现以下步骤：
97.获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；
98.利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；
99.对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；
100.根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。
101.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而
非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
102.所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
103.以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

技术特征：
1.一种语音转换方法，其特征在于，包括：获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。2.如权利要求1所述的语音转换方法，其特征在于，所述对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据，包括：获取所述待处理语音内容数据中每个音素的音素帧的数量；一个所述音素帧对应一个音素向量；根据所述音素向量和所述数量，计算得到每个所述音素的平均音素向量；根据所述平均音素向量，对每个所述音素的所有所述音素帧进行合并对齐处理，得到每个所述音素的对齐音素帧；根据所有所述对齐音素帧，生成所述音素对齐内容数据。3.如权利要求1所述的语音转换方法，其特征在于，所述根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据，包括：根据所述目标语音长度，对所述音素对齐内容数据进行音素重构处理，得到音素重构内容数据；将所述目标语音风格和所述音素重构内容数据进行合并处理，得到所述目标语音数据。4.如权利要求2所述的语音转换方法，其特征在于，所述根据所述目标语音长度，对所述音素对齐内容数据进行音素重构处理，得到音素重构内容数据，包括：根据所述目标语音长度，确定每个所述音素的音素语音长度；根据所述音素语音长度，对每个所述音素的所述对齐音素帧进行复制重构处理，得到每个所述音素的若干重构音素帧；根据所有重构音素帧，生成所述音素重构内容数据。5.如权利要求4所述的语音转换方法，其特征在于，所述根据所述目标语音长度，确定每个所述音素的音素语音长度，包括：根据所述音素对齐内容数据的上下文信息，对每个所述音素进行语义分析，得到分析结果；根据所述目标语音长度和所述分析结果，确定每个所述音素的音素语音长度。6.如权利要求1所述的语音转换方法，其特征在于，所述利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据，包括：将所述初始语音数据输入基于所述矢量量化技术的语音转换模型中；利用所述矢量量化技术对所述初始语音数据进行离散处理，得到离散语音数据；通过所述语音转换模型对所述离散语音数据进行风格特征提取，得到所述风格信息；将所述风格信息从所述离散语音数据中进行剔除，得到所述待处理语音内容数据。
7.一种语音转换装置，其特征在于，包括：用户输入数据模块，用于获取用户输入的初始语音数据和目标语音信息；所述目标语音信息包括目标语音长度和目标语音风格；待处理语音内容数据模块，用于利用矢量量化技术对所述初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；音素对齐内容数据模块，用于对所述待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；目标语音数据模块，用于根据所述目标语音长度和所述目标语音风格，对所述音素对齐内容数据进行语音转换，生成目标语音数据。8.如权利要求7所述的语音转换装置，其特征在于，所述音素对齐内容数据模块，包括：音素帧数量单元，用于获取所述待处理语音内容数据中每个音素的音素帧的数量；一个所述音素帧对应一个音素向量；平均音素向量单元，用于根据所述音素向量和所述数量，计算得到每个所述音素的平均音素向量；对齐音素帧单元，用于根据所述平均音素向量，对每个所述音素的所有所述音素帧进行合并对齐处理，得到每个所述音素的对齐音素帧；音素对齐内容数据单元，用于根据所有所述对齐音素帧，生成所述音素对齐内容数据。9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述语音转换方法。10.一个或多个存储有计算机可读指令的可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至6中任一项所述语音转换方法。

技术总结
本发明涉及语音转换和数字医疗领域，尤其涉及一种语音转换方法、装置、计算机设备及存储介质。其方法包括：获取用户输入的初始语音数据和目标语音信息；利用矢量量化技术对初始语音数据进行风格信息的剔除处理，得到待处理语音内容数据；对待处理语音内容数据进行音素对齐处理，得到音素对齐内容数据；根据目标语音长度和目标语音风格，对音素对齐内容数据进行语音转换，生成目标语音数据。本发明通过矢量量化技术以及音素对齐处理消除初始语音数据中初始说话人的风格信息，提高目标语音数据的准确性和音质效果。根据目标语音长度和目标语音风格对音素进行语音转换，实现语音时间的可控性和目标语音风格的可选择性，提高语音转换的灵活性。换的灵活性。换的灵活性。

技术研发人员：张旭龙王健宗
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2023.06.09
技术公布日：2023/8/16

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

语音转换方法、装置、计算机设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

语音转换方法、装置、计算机设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表