音频处理模型的训练方法、音频转换方法及装置与流程
未命名
08-26
阅读:78
评论:0

1.本技术涉及计算机技术领域,尤其涉及一种音频处理模型的训练方法、音频转换方法、装置、电子设备及计算机可读存储介质。
背景技术:
2.歌声转换是语音转换的子集,是指将一个说话人的歌唱音频转换为另一个人的声音,可应用于在线直播、影视剧配音等领域。流式歌声转换可以在处理音频的过程中实时返回识别结果,相比于整段转换的方式,流式转换模型可以应用于有实时性需求的应用场景。
3.由于流式歌声具有实时性,在进行转换时,无法获取到当前正在转换的流式歌声在未来时刻的歌声信息,因此,现有的流式歌声转换方式通常是基于不依赖未来信息输入的模型进行歌声处理的,例如,通过单向的循环神经网络、因果卷积模型等进行歌声转换时的歌声处理。
4.然而,由于歌声转换网络中的歌声处理模型无法感知未来的信息,使得歌声转换网络的转换准确性较低,会导致转换后的歌声的效果较差。
技术实现要素:
5.有鉴于此,本技术提供了一种音频处理模型的训练方法、音频转换方法、装置、电子设备及计算机可读存储介质,能够提高歌声转换的准确性,使得转换后的歌声的效果更好。
6.本技术实施例第一方面提供了一种音频处理模型的训练方法,所述方法包括:
7.确定样本音频数据的各音频段对应的样本发音特征;
8.将所述样本发音特征输入第一待训练模型进行数值化编码,得到所述样本发音特征对应的数值化的第一输出特征,所述第一待训练模型为基于过去的信息对发音特征进行数值化编码的模型,所述过去的信息为在所述音频段之前产生的过去音频段对应的过去发音特征;
9.将所述样本发音特征输入第二模型进行数值化编码,得到所述样本发音特征对应的数值化的第二输出特征,所述第二模型为基于所述过去的信息和未来的信息对发音特征进行数值化编码的模型,所述未来的信息为在所述音频段之后产生的未来音频段对应的未来发音特征;
10.基于减小所述第一输出特征与所述第二输出特征之间的差别的第一参数调整原则,对所述第一待训练模型进行参数调整,得到调整后第一模型;
11.根据所述调整后第一模型确定音频处理模型。
12.本技术实施例第二方面提供了一种音频转换方法,所述方法包括:
13.获取待转换的源音频、以及目标发声者的音色信息;
14.提取所述源音频的发音特征,所述发音特征为所述源音频中至少过滤掉源发声者音色信息后的特征;
15.将所述发音特征输入预先训练的音频处理模型中,得到所述源音频对应的第一音频提取特征,所述音频处理模型根据第一方面中任一项所述的音频处理模型的训练方法训练得到;
16.将所述第一音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。
17.本技术实施例第三方面提供了一种音频处理模型的训练装置,包括:
18.第一确定单元,用于确定样本音频数据的各音频段对应的样本发音特征;
19.第一提取单元,用于将所述样本发音特征输入第一待训练模型进行数值化编码,得到所述样本发音特征对应的数值化的第一输出特征,所述第一待训练模型为基于过去的信息对发音特征进行数值化编码的模型,所述过去的信息为在所述音频段之前产生的过去音频段对应的过去发音特征;将所述样本发音特征输入第二模型进行数值化编码,得到所述样本发音特征对应的数值化的第二输出特征,所述第二模型为基于所述过去的信息和未来的信息对发音特征进行数值化编码的模型,所述未来的信息为在所述音频段之后产生的未来音频段对应的未来发音特征;
20.调整单元,用于基于减小所述第一输出特征与所述第二输出特征之间的差别的第一参数调整原则,对所述第一待训练模型进行参数调整,得到调整后第一模型;
21.第二确定单元,用于根据所述调整后第一模型确定音频处理模型。
22.本技术实施例第四方面提供了一种音频转换装置,包括:
23.获取单元,用于获取待转换的源音频、以及目标发声者的音色信息;
24.第二提取单元,用于提取所述源音频的发音特征,所述发音特征为所述源音频中至少过滤掉源发声者音色信息后的特征;
25.处理单元,用于将所述发音特征输入预先训练的音频处理模型中,得到所述源音频对应的第一音频提取特征,所述音频处理模型根据第一方面任一项所述的音频处理模型的训练方法训练得到;
26.融合单元,用于将所述第一音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。
27.本技术实施例第五方面提供了一种电子设备,包括:存储器和处理器,存储器和处理器耦合。
28.其中,存储器用于存储一条或多条计算机指令。
29.处理器用于执行一条或多条计算机指令,以实现上述第一方面或第二方面所述的方法。
30.本技术实施例第六方面还提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其特征在于,该指令被处理器执行以实现上述第一方面或第二方面所述的方法。
31.与现有技术相比,本技术实施例具有以下优点:
32.本技术实施例所提供的音频处理模型的训练方法,在确定了样本音频数据的各音频段对应的样本发音特征后,将样本发音特征输入第一待训练模型进行数值化编码得到数值化的第一输出特征,将样本发音特征输入第二模型进行数值化编码得到数值化的第二输出特征,由于第一待训练模型为基于过去的信息对发音特征进行数值化编码的模型,过去
的信息为在音频段之前产生的过去音频段对应的过去发音特征,第二模型为基于过去和未来的信息对发音特征进行数值化编码的模型,未来的信息为在音频段之后产生的未来音频段对应的未来发音特征,即第一待训练模型在进行数值化编码时无法感知未来信息,第二模型在进行数值化编码时能够感知未来信息,所以,第二输出特征是在感知过去和未来信息的基础上得到的特征,第一输出特征是没有感知未来信息的特征,本技术实施例基于减小第一输出特征与第二输出特征之间的差别的第一参数调整原则对第一待训练模型进行参数调整,这样,可以使得调整后第一模型输出与能够感知未来信息的模型更加一致的输出结果,也就是说,本技术基于能够感知未来信息的第二模型的输出结果来蒸馏无法感知未来信息的第一待训练模型,这样,蒸馏得到的调整后第一模型虽然在进行数值化编码时未使用未来信息,但调整后第一模型进行数值化编码时的结果也是能够很好地感知未来信息的,因此,根据调整后第一模型所确定的音频处理模型也能很好地感知未来信息。
33.在进行音频转换时,由于使用了能够很好地感知未来信息的音频处理模型对源音频的发声特征进行了特征提取,因此,提取得到的第一音频提取特征与目标发生者的音色进行融合后得到的转换后音频也是在感知未来信息基础上的转换后音频,所以转换后音频的准确性更高,可懂性和音质更好,基频更稳定,转换效果更好。
附图说明
34.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
35.图1为本技术实施例提供的音频处理模型的训练方法的一例的流程示意图;
36.图2为本技术实施例提供的音频处理模型的训练方法的另一例的流程示意图;
37.图3为本技术实施例中的预测网络的结构示意图;
38.图4为本技术实施例提供的音频转换方法的流程示意图;
39.图5为本技术实施例提供的音频处理模型的训练装置的结构示意图;
40.图6为本技术实施例提供的电子设备的结构示意图。
具体实施方式
41.为了使本领域的技术人员能够更好的理解本技术的技术方案,下面结合本技术实施例中的附图,对本技术进行清楚、完整地描述。但本技术能够以很多不同于上述描述的其他方式进行实施,因此,基于本技术提供的实施例,本领域普通技术人员在不经过创造性劳动的情况下,所获得的所有其他实施例,都应属于本技术保护的范围。
42.需要说明的是,本技术的权利要求书、说明书及附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,并不用于描述特定的顺序或先后次序。这样使用的数据在适当情况下是可以互换的,以便于本文所描述的本技术的实施例,能够以除了在本文图示或描述的内容以外的顺序实施。此外,术语“包括”、“具有”以及他们的变形形式,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
或设备固有的其它步骤或单元。
43.歌声转换是语音转换的子集,是指将一个说话人的歌唱音频转换为另一个人的声音,可应用于在线直播、影视剧配音等领域。目前主流歌声转换方式是整段转换,即将整段音频输入至非流式歌声转换模型中,等待非流式歌声转换模型将整段音频处理结束,再输出整段转换后的音频。然而,由于非流式歌声模型转换的方式需要等待整段音频处理结束才能返回结果,无法应用于有实时性需求的应用场景。
44.流式歌声转换可以在处理音频的过程中实时返回识别结果,相比于整段转换的方式,流式转换模型可以应用于有实时性需求的应用场景。
45.进行歌声转换的常见做法是先提取音频中与说话人无关的发音特征,再对发音特征进行数值化编码处理,例如,对发音特征进行向量化处理、对向量进行维度变换等,以将发音特征处理成便于进行歌声转换的数值化信息,从而丰富发音特征的信息内容,再将处理后的发音特征与目标发声者的音色进行融合,得到转换为目标发声者音色的歌声。
46.针对流式歌声转换,由于需要在处理音频的过程中实时返回识别结果,其不同于整段转换,而是需要将实时传输过来的歌声进行转换,通常情况下,需要训练针对流式转换的特征处理模型以满足流式歌声转换的实时性需求的应用场景。
47.由于流式歌声具有实时性,在进行转换时,无法获取到当前正在转换的流式歌声在未来时刻的歌声信息,因此,现有的流式歌声转换方式通常是基于不依赖未来信息输入的特征处理模型进行歌声的发音特征处理的,例如,通过单向的循环神经网络、因果卷积模型等进行歌声转换时的歌声处理。
48.然而,由于歌声转换网络中的特征处理模型无法感知未来的信息,使得歌声转换网络的转换准确性较低,会导致转换后的歌声的效果较差。
49.为了提高歌声转换的准确性,使得转换后的歌声的效果更好,本技术第一实施例提供了一种音频处理模型的训练方法。
50.本技术提供的音频处理模型的训练方法的执行主体可以为电子设备,该电子设备可以为服务器、台式电脑、笔记本电脑、平板电脑、手机、智能手表、智能电视等,也可以为其他具有数据处理功能的电子设备,本技术不具体限定。
51.本技术提供的音频处理模型的训练方法所训练的模型能够用于在歌声转换时对歌声音频进行处理,也可以用于在其他发音转换时对音频进行处理,例如,对朗诵音频进行处理以转换朗诵音频的发声者音色。除了音频转换场景,本技术提供的音频处理模型的训练方法所训练的模型也能够用于其他场景的音频处理,例如,用于语音识别时对语音的处理。
52.图1为本技术实施例提供的音频处理模型的训练方法的流程示意图。需要说明的是,该流程示意图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,同时,在某些情况,可以以不同于该流程示意图中示出的逻辑顺序执行所释出的步骤。
53.本技术提供的音频处理模型的训练方法包括以下步骤s110~步骤s150。
54.步骤s110:确定样本音频数据的各音频段对应的样本发音特征。
55.样本音频数据可以是样本歌声音频数据、样本诵读音频数据等,也可以是其他包含发声者语音信息的音频数据,样本音频数据可以预先录制好以用于训练音频处理模型,也可以是网络上搜索到的各种具有发声者发声的音频,本技术不限定样本音频数据的具体
内容。
56.本技术实施例中,可以将样本音频数据按照产生时间从前到后的顺序划分为多个音频段,具体的,可以以音频时长为划分基础划分为多个音频段,或者以发音数量为基础划分为多个音频段。例如,一段20秒的音频,可以将每5秒作为一个音频段而划分为4个音频段;再例如,一段总共包括100个发音的音频,可以将每20个发音作为一个音频段而划分为5个音频段,也可以通过其他方式将样本音频数据按照从前到后的顺序进行分段。步骤s110中确定出了样本音频数据的每个音频段对应的样本发音特征。
57.样本发音特征可以理解为样本音频数据中至少过滤掉发声者音色信息后的特征,也就是说,样本发音特征是与发声者音色无关的信息,样本发音特征用于表示样本音频数据中各个发音的特征,根据发音特征,能够确定样本音频数据中与发声者音色无关的具体发音。
58.发音特征可以通过文本形式表示,也可以通过音素等的形式表示,发音特征包括样本音频数据中每个时刻或者每一帧的发音特征。
59.由于歌声等音频中不仅包含语义,还包含音调、韵律等发声信息,因此,本技术在进行音频处理模型的训练时,为了使训练好的音频处理模型不仅适用于常规的诵读等发音音调与文字本身音调一致的场景,还适用于歌声等发音音调与文字本身音调可能不一致的场景,本技术实施例基于发音特征对模型进行训练,提高了训练后的音频处理模型的使用范围。
60.本技术实施例中,可以通过预先训练的语音识别模型确定样本音频数据的样本发音特征。具体的,可以将样本音频数据输入预先训练的语音识别模型中,得到样本音频数据对应的样本发音特征。语音识别模型可以基于常规的有监督训练方法进行训练得到,例如,基于已经设置有对应的音频特征的音频样本训练语音识别模型,具体训练方法本技术不再详述。
61.可选地,步骤s110中,可以按以下步骤s111~步骤s112确定发音特征。
62.步骤s111:将样本音频数据各音频段对应的转换为样本梅尔普频谱数据。
63.步骤s112:将所述梅尔普频谱数据输入预先训练好的语音识别模型中,得到所述样本音频数据的各音频段对应的瓶颈特征,并将所述瓶颈特征确定为所述样本音频数据的各音频段对应的样本发音特征,所述语音识别模型用于识别音频数据的发音特征。
64.步骤s120:将上述样本发音特征输入第一待训练模型进行数值化编码,得到样本发音特征对应的数值化的第一输出特征,第一待训练模型为基于过去的信息对发音特征进行数值化编码的模型。
65.上述过去的信息为在样本发音特征对应的音频段之前产生的过去音频段对应的过去发音特征。
66.本步骤中,可以将样本音频数据的各音频段对应的各样本发音特征均输入第一待训练模型进行数值化编码,第一待训练模型在对各样本发音特征中的目标样本发音特征进行数值化编码时,会基于目标样本发音特征之前的样本发音特征对目标样本发音特征进行数值化编码。目标样本发音特征之前的样本发音特征即目标样本发音特征对应的音频段之前产生的过去音频段对应的过去发音特征。
67.例如,样本音频数据包括a、b、c、d四个音频段,这四个音频段分别对应有各自的样
本发音特征,则可以将a、b、c、d四个音频段对应的四个样本发音特征均输入第一待训练模型进行数值化编码,当对a音频段对应的样本发音特征进行数值化编码时,由于a之前不存在音频段,所以,可以将a对应的过去的信息默认设置为空,此时,直接对a对应的发音特征进行数值化编码即可;当对b音频段对应的样本发音特征进行数值化编码时,由于b之前的音频段为a,所以,可以基于a音频段对应的发音特征对b对应的发音特征进行数值化编码;当对c音频段对应的样本发音特征进行数值化编码时,由于c之前的音频段为a和b,所以,可以基于a音频段和b音频段对应的发音特征对c对应的发音特征进行数值化编码。
68.具体的,第一待训练模型可以为单向循环神经网络模型、因果卷积神经网络模型等,也可以是其他基于过去的信息对数据进行数值化编码的模型。第一待训练模型基于过去的信息对数据进行数值化处理,可以理解为第一待训练模型基于过去的信息、且未基于未来的信息对数据进行数值化编码。
69.步骤s130:将上述样本发音特征输入第二模型进行数值化编码,得到样本发音特征对应的数值化的第二输出特征,第二模型为基于上述过去的信息和未来的信息对发音特征进行数值化编码的模型。
70.上述未来的信息为在样本发音特征对应的音频段之后产生的未来音频段对应的未来发音特征。
71.本步骤中,可以将样本音频数据的各音频段对应的各样本发音特征均输入第二模型进行数值化编码,第二模型在对各样本发音特征中的目标样本发音特征进行数值化编码时,会基于目标样本发音特征之后的样本发音特征对目标样本发音特征进行数值化编码。目标样本发音特征之后的样本发音特征即目标样本发音特征对应的音频段之后产生的未来音频段对应的未来发音特征。
72.以上文中样本音频数据包括a、b、c、d四个音频段为例,可以将a、b、c、d四个音频段对应的四个样本发音特征均输入第二模型进行数值化编码。当第二模型对a音频段对应的样本发音特征进行数值化编码时,由于a之前不存在音频段,而a之后的音频段为b、c、d,所以,可以基于b、c、d三个未来音频段对应的三个未来发音特征对a对应的发音特征进行数值化编码;当第二模型对b音频段对应的样本发音特征进行数值化编码时,由于b之前的音频段为a,而b之后的音频段为c、d,所以,可以基于a这个过去音频段对应的过去音频特征、以及c、d这两个未来音频段对应的两个未来发音特征对b对应的发音特征进行数值化编码。
73.第二模型可以为已经训练好的模型,也可以是还未训练好的模型,若第二模型为还未训练好的模型,可以在本技术进行音频处理模型训练的过程中,同步训练第二模型。
74.第二模型可以为双向循环神经网络模型、非因果卷积神经网络模型等,也可以是其他基于过去的信息以及未来的信息对数据进行处理的模型,也就是说,第二模型在进行数据处理时能够感知未来信息。
75.本技术实施例中,第一待处理模型、第二模型可以是对样本发音特征进行向量编码处理、矩阵编码处理、增维处理等中的至少一种数值化编码处理过程,也可以是对样本发音特征进行其他数值化编码处理,具体处理内容可以根据实际需求确定,本技术不具体限定。
76.可以理解的是,第一待处理模型与第二模型是对发音特征进行相同维度处理的,例如,第一待处理模型用于对发音特征进行向量化编码,那么,第二模型也是对发音特征进
行向量化编码。
77.步骤s140:基于减小上述第一输出特征与上述第二输出特征之间的差别的第一参数调整原则,对上述第一待训练模型进行参数调整,得到调整后第一模型。
78.具体的,可以通过大量的样本音频数据进行音频处理模型的训练,根据上述第一输出特征与上述第二输出特征之间的差别是否满足收敛条件,确定第一带训练模型是否完成训练,从而得到调整后第一模型。收敛条件例如可以是第一输出特征与上述第二输出特征之间的差别小于第一预设阈值,或者,针对多个样本音频数据,第一输出特征与第二输出特征之间的差别小于第一预设阈值的比例到达第一预设比例阈值,第一预设比例阈值例如可以是80%~95%,也可以是其他比较大的比例。
79.步骤s150:根据上述调整后第一模型确定音频处理模型。
80.具体的,可以直接将调整后第一模型确定为音频处理模型,也可以继续对调整后第一模型进行进一步的优化而得到音频处理模型,具体如何处理可以根据音频处理模型的具体应用场景确定。
81.例如,当本技术提供的音频处理模型用于音频的音色转换场景时,若第二模型为预先已经训练好的、满足音色转换场景的模型时,可以直接将调整后第一模型确定为音频处理模型。
82.为了使得音色转换后得到的转换后音频准确率更高,也可以通过以下具体实施方式确定音频处理模型。本具体实施方式中,在步骤s150之前,还可以包括以下步骤s140a~步骤s140b,步骤s150可以按以下步骤s151实现。
83.步骤s140a:确定所述样本音频数据的样本音色特征。
84.具体的,可以通过预先训练的音色识别模型识别出样本音频数据的样本音色特征;也可以通过人工标记的方式确定出样本音频数据的样本音色特征,即人工识别样本音频数据的音色后进行音色的标识;或者,也可以预先设置音色库,音色库中包括各种音色特征,通过预先训练的音色确定模型从音色库中确定与样本音频数据的音色一致的音色。预先训练的音色识别模型和音色确定模型可以通过有监督训练方式或者无监督训练方式训练得出,本技术不再进行详述。
85.可选地,如图2所示,也可以获取样本音频数据对应的发声者标识,通过发声者嵌入层从预先存储的音色库中确定与发声者标识对应的音色特征作为样本音色特征。
86.步骤s140b:将样本音色特征与第一输出特征进行融合,得到融合音频数据。
87.具体的,可以通过融合模型将样本音色特征与第一输出特征进行融合;或者,也可以获取样本音色的谐波分布,通过滤波器使第一输出特征具有与所述谐波分布一致的谐波分布,得到融合音频数据;也可以通过其他方式进行融合,本技术不具体限定。
88.步骤s151:基于减小所述融合音频数据与所述样本音频数据之间差别的第二参数调整原则,对所述调整后第一模型进行参数调整,得到音频处理模型。
89.具体的,可以在融合音频数据与样本音频数据之间的差别满足第二收敛条件时,确定对调整后第一模型的参数完成调整,从而得到音频处理模型。第二收敛条件例如可以是融合音频数据与对应的样本音频数据之间的差别小于第二预设阈值,或者,针对多个样本音频数据,融合音频数据与样本音频数据之间的差别小于第二预设阈值的比例到达第二预设比例阈值,第二预设比例阈值可以与第一预设比例阈值相同,也可以不同,本技术不具
体限定。
90.本实施方式通过判断第一输出特征与音色特征进行融合后的融合音频数据是否准确来对调整后第一模型进行参数调整,使得得到的音频处理模型的特征处理能力更加能够满足音色与发音进行融合的场景,这样,针对音色与发音融合的场景,音频处理模型处理后的特征进行音色融合的融合准确度更高。
91.本技术实施例所提供的音频处理模型的训练方法,在确定了样本音频数据的各音频段对应的样本发音特征后,将样本发音特征输入第一待训练模型进行数值化编码得到数值化的第一输出特征,将样本发音特征输入第二模型进行数值化编码得到数值化的第二输出特征,由于第一待训练模型为基于过去的信息对发音特征进行数值化编码的模型,过去的信息为在音频段之前产生的过去音频段对应的过去发音特征,第二模型为基于过去和未来的信息对发音特征进行数值化编码的模型,未来的信息为在音频段之后产生的未来音频段对应的未来发音特征,即第一待训练模型在进行数值化编码时无法感知未来信息,第二模型在进行数值化编码时能够感知未来信息,所以,第二输出特征是在感知过去和未来信息的基础上得到的特征,第一输出特征是没有感知未来信息的特征,本技术实施例基于减小第一输出特征与第二输出特征之间的差别的第一参数调整原则对第一待训练模型进行参数调整,这样,可以使得调整后第一模型输出与能够感知未来信息的模型更加一致的输出结果,也就是说,本技术基于能够感知未来信息的第二模型的输出结果来蒸馏无法感知未来信息的第一待训练模型,这样,蒸馏得到的调整后第一模型虽然在进行数值化编码时未使用未来信息,但调整后第一模型进行数值化编码时的结果也是能够很好地感知未来信息的,因此,根据调整后第一模型所确定的音频处理模型也能很好地感知未来信息。
92.在进行音频转换时,由于使用了能够很好地感知未来信息的音频处理模型对源音频的发声特征进行了特征提取,因此,提取得到的第一音频提取特征与目标发生者的音色进行融合后得到的转换后音频也是在感知未来信息基础上的转换后音频,所以转换后音频的准确性更高,可懂性和音质更好,基频更稳定,转换效果更好。
93.在一个具体实施例中,所述方法还可以包括以下步骤s160。
94.步骤s160:基于所述第二参数调整原则对所述第二模型进行参数调整,得到调整后第二模型。
95.步骤s160即基于减小融合音频数据与样本音频数据之间差别的第二参数调整原则,对第二模型进行参数调整,得到调整后第二模型。对第二模型的具体参数调整方式可以参考上文中对调整后第一模型的调整方式,也就是常规的有监督模型训练方式,此处不再详述。
96.本实施例基于融合音频数据对第二模型也进行了参数更新,使得第二模型提取的特征更加符合音色与发音相融合的场景,使得第二模型在后续进行音频处理模型的训练时能更准确地提取到满足融合场景的特征,从而使得最终训练得到的音频处理模型能更准确地提取到满足融合场景的特征。另外,本实施例对第二模型进行更新训练,后续可以直接使用第二模型对非流式音频进行特征处理以用于音色和发音的融合,从而使得本技术一次训练过程可以同时训练出用于流式和非流式两种音频的处理的模型,提高了模型训练效率。
97.上述第一待训练模型、第二模型即图2中的因果卷积编码器、非因果卷积编码器,第一待训练模型、第二模型形成了图2中的双模编码器。
98.在一个具体实施例中,步骤s140b中具体可以按以下步骤a得到融合音频数据,上述音频处理模型的训练方法还可以包括以下步骤s170。
99.步骤a:将所述样本音色特征与所述第一输出特征输入第一融合模型中,得到第一融合音频数据。
100.步骤s170:基于减小所述第一融合音频数据与所述样本音频数据之间差别的原则,对所述第一融合模型进行参数调整,得到调整后第一融合模型。
101.第一融合模型可以为基于过去的第一融合信息对数据进行融合的模型。其中,过去的第一融合信息包括上述过去发音特征对应的第一输出特征、上述过去发音特征对应的音色特征。
102.示例性的,同样以样本音频数据包括a、b、c、d四个音频段进行说明。当第一融合模型对样本音色特征和a对应的第一输出特征进行融合时,由于a之前不存在音频段,因此,可以直接进行融合;当第一融合模型对样本音色特征和b对应的第一输出特征进行融合时,b之前的音频段包括a,因此,第一融合模型会基于a对应的第一输出特征对样本音色特征和b对应的第一输出特征进行融合;当第一融合模型对样本音色特征和c对应的第一输出特征进行融合时,c之前的音频段包括a和b,因此,第一融合模型会基于a和b分别对应的第一输出特征对样本音色特征和c对应的第一输出特征进行融合。
103.步骤s170中具体的调整过程可以参考上文中对第二模型、第一融合模型进行参数调整的过程,此处不再详述。
104.第一融合模型可以为神经网络模型、决策树模型、支持向量机模型等,也可以是其他机器学习模型。
105.具体的,第一融合模型可以为基于过去的信息对数据进行处理的模型,例如,第一融合模型可以为因果卷积模型、单向循环神经网络模型等,这样,由于第一输出特征是基于过去的信息得到的特征,所以,当第一融合模型为基于过去的信息对数据进行处理的模型时,第一融合模型更适合于融合第一输出特征,使得音频融合更准确。另外,当第一融合模型为基于过去的信息对数据进行处理的模型时,参数调整后得到的调整后第一融合模型在后续能够更准确地对流式音频进行融合处理。本实施例对第一融合模型进行更新训练,后续可以直接用于音频融合,提高了模型训练效率。
106.第一融合模型也可以为基于过去和未来的信息对数据进行处理的模型,例如,第一融合模型可以为非因果卷积模型、双向循环神经网络模型等,这样也可以实现对音色和发音的融合,本技术不具体限定。
107.步骤a中得到的第一融合音频数据,即步骤s140b中得到的融合音频数据,也就是说,步骤s140b中得到的融合音频数据中包括第一融合音频数据。
108.可选地,步骤s140b中具体还可以按以下步骤b得到融合音频数据,上述音频处理模型的训练方法还可以包括以下步骤s180。
109.步骤b:将样本音色特征与第二输出特征输入第二融合模型中,得到第二融合音频数据。
110.第二融合模型为基于过去和未来的信息对数据进行处理的模型。第二融合模型可以为双向神经网络模型、非因果卷积模型等,也可以是其他基于过去和未来的信息对数据进行处理的模型。
111.所述第二融合模型为基于过去的第二融合信息和未来的第二融合信息对数据进行融合的模型,过去的第二融合信息包括过去发音特征对应的第二输出特征,未来的第二融合信息包括未来发音特征对应的第二输出特征。
112.示例性的,同样以样本音频数据包括a、b、c、d四个音频段进行说明。当第二融合模型对样本音色特征和a对应的第二输出特征进行融合时,由于a之前不存在音频段,a之后的音频段包括b、c、d三个音频段,因此,第二融合模型会基于b、c、d这三个未来音频段的三个未来发音特征对应的第二输出特征对样本音色特征和a对应的第二输出特征进行融合;当第二融合模型对样本音色特征和b对应的第二输出特征进行融合时,由于b之前的音频段为a,b之后的音频段包括c、d三个音频段,因此,第二融合模型会基于a这个过去音频段的过去发音特征对应的第二输出特征以及c、d这两个未来音频段的两个未来发音特征对应的第二输出特征对样本音色特征和b对应的第二输出特征进行融合。
113.步骤b中得到的第二融合音频数据,即步骤s140b中得到的融合音频数据,也就是说,步骤s140b中得到的融合音频数据中还包括第二融合音频数据。
114.步骤s180:基于减小第二融合音频数据与样本音频数据之间差别的原则,对第二融合模型进行参数调整,得到调整后第二融合模型。
115.步骤s180的参数调整过程可以参数步骤s170,此处不再详述。
116.本实施例中调整后第二融合模型可以在后续应用于非流式音频转换时与目标发声者音色进行融合,一次训练可以得到多个模型,提高了模型训练的效率。
117.如图2所示,上述第一融合模型与第二融合模型即图2中的双模解码器。上述第一融合音频数据、第二融合音频数据即图2中的流式转换音频、非流式转换音频。
118.调整后第二融合模型可以在后续应用于非流式音频的转换时与目标发声者音色进行融合。
119.在一种实施方式中,在步骤s150之前,所述方法还可以包括以下步骤a。步骤s150可以按以下步骤s152实现。
120.步骤a:将第一输出特征输入预测网络,得到样本音频数据对应的样本预测数据。
121.预测网络用于根据第一输出特征确定对应的音频数据(及步骤a中的样本预测数据)。预测网络中可以包括一个预测模型,也可以包括多个预测模型。预测网络中包括的预测模型可以是预先训练好的模型,也可以是未训练好的模型,当预测模型为未训练好的模型时,后续可以对预测模型进行参数更新训练。
122.步骤s152:基于减小样本预测数据与样本音频数据之间差别的原则,对调整后第一模型进行参数调整,得到音频处理模型。
123.具体的,可以在样本预测数据与样本音频数据之间的差别满足第三收敛条件时,确定对调整后第一模型的参数完成调整,从而得到音频处理模型。第三收敛条件例如可以是样本预测数据与对应的样本音频数据之间的差别小于第三预设阈值,或者,针对多个样本音频数据,样本预测数据与样本音频数据之间的差别小于第三预设阈值的比例到达第三预设比例阈值,第三预设比例阈值可以与第一预设比例阈值相同,也可以不同,本技术不具体限定。
124.本实施方式通过预测网络对第一输出特征进行预测,并根据预测结果的准确性对调整后第一模型进一步进行参数调整,可以提高得到的音频处理模型的准确性。
125.可选地,上述方法还可以包括以下步骤:将第二输出特征输入预测网络,得到样本音频数据对应的第二预测数据;基于减小第二样本预测数据与样本音频数据之间差别的原则,对第二模型进行参数调整,得到调整后第二模型。调整后第二模型的特征提取更准确,后续进行非流式音频转换的准确率更高。
126.可选地,所述预测网络可以包括第一预测模型和第二预测模型,所述第一预测模型用于根据当前帧的数据预测下一帧的数据,所述第二预测模型用于从多个帧数据中选择下一帧的数据。
127.具体的,如图2所示,上述预测网络可以为混合预测性编码器(hybrid predictive coding,hpc),上述第一预测模型可以为自回归预测编码器(autoregressive predictive coding,apc),上述第二预测模型可以为对比预测编码器(contrastive predictive coding,cpc),对比预测编码器和自回归预测编码器分别使用一个自回归结构的网络(g-net)。
128.cpc通过分类真实未来帧和随机选取的负样例来学习表征,对比预测编码器利用先验知识选取负样例,可以更好的针对具体任务学习表征。对比预测编码器是一种对比学习方法。输入音频通过编码器得到隐藏表征,再经过自回归网络后得到序列特征,我们选择距离目标点较近的隐藏表征作为正样例,而距离较远的作为负样例。
129.apc是一种生成性模型,其直接预测未来帧,给定一段输入序列,来预测未来时段的频谱。apc直接预测的做法不受负样例选取方式的影响,相比cpc有更好的泛化性。结合对比预测编码器和自回归预测编码器这两种方式,能使混合预测性编码器输出结果有更好的泛化性。
130.步骤a可以按以下步骤a-1、步骤a-2实现。步骤s152可以按以下步骤s152a实现。
131.步骤a-1:将上述第一输出特征输入第一预测模型,得到样本音频数据对应的第一样本预测数据。
132.步骤a-2:将上述第一输出特征输入第二预测模型,得到样本音频数据对应的第二样本预测数据。
133.步骤s152a:基于减小所述第一样本预测数据、所述第二样本预测数据与所述样本音频数据之间差别的原则,对所述调整后第一模型进行参数调整。
134.示例性的,以第一输出特征为例,如图3所示,z序列为输入的第一输出特征,将第一输出特征输入至混合预测性编码器的自回归预测编码器获得第一预测样本数据,其中,第一样本预测数据为序列数据,即第一r序列,即图3中的序列,z
t
表示z序列在t时刻的值,表示z序列在t时刻的预测值。将第一输出特征输入至混合预测性编码器的对比预测编码器获得第二样本预测数据,即第二r序列,即图3中的r序列。
135.本实施例分别使用第一预测模型和第二预测模型进行预测,从而根据两个预测结果对调整后第一模型进行进一步的参数更新,既可以针对具体任务学习表征又能使输出结果有更好的泛化性,使音频处理模型的泛化性更好、特征处理更准确。
136.第二输出特征具体也可以分别输入第一预测模型和第二预测模型中得到预测数据,具体过程参考第一输出特征,此处不再详述。
137.在一种实施方式中,上述步骤a可以按以下步骤a-1、步骤a-2实现。
138.步骤a-1:获取样本音频数据的音高特征;
139.步骤a-2:将所述样本音色特征、所述第一输出特征以及所述音高特征输入第一融合模型中,得到第一融合音频数据。
140.音高特征可以通过预先训练的音高提取模型提取,音高提取模型可以通过相关的机器学习算法训练得到,本技术不再具体介绍。音高用于表示发生者的音调高度,不同时刻发音者的音高通常是不同的,通过融合音高,能够更加准确地得到融合音频,使得最终得到的音频处理模型在应用于音频融合场景时特征处理准确性更高。
141.本技术第二实施例还提供了一种音频转换方法,本技术提供的音频转换方法的执行主体可以为电子设备,该电子设备可以为服务器、台式电脑、笔记本电脑、平板电脑、手机、智能手表、智能电视等,也可以为其他具有数据处理功能的电子设备,本技术不具体限定。
142.本技术提供的音频转换方法能够用于直播场景、配音场景等进行歌声、演讲等的音频进行转换,具体应用场景不限定。具体可以用于在歌声转换时对实时传输过来的流式音频进行转换,也可以用于对非流式音频进行转换。
143.如图4所示,本技术提供的音频转换方法包括以下步骤s210~步骤s240。
144.步骤s210:获取待转换的源音频、以及目标发声者的音色特征。
145.源音频可以为歌声、演讲音频、影视剧或者其他视频的台词音频等,也可以是其他形式的音频。
146.步骤s210中,可以基于接收到的客户端发送的音频转换请求确定待转换的源音频和目标发生者的音色特征,其中,音频转换请求中可以包括待转换的源音频的音频信息以及目标发生者的音色信息。源音频的音频信息可以是具体的音频内容,也可以是音频对应的标识,电子设备可以通过音频对应的标识从音频库中查找对应的音频作为源音频。音色信息可以是具体的音色特征,也可以是音色对应的音色标识,电子设备同样可以通过音色标识确定对应的音色特征。
147.步骤s220:提取源音频的发音特征。
148.所述发音特征为源音频中至少过滤掉源发声者音色信息后的特征。
149.本步骤提取发音特征的过程可以参考第一实施例中步骤s110提取样本发音特征的方式,此处不再详述。
150.步骤s230:将发音特征输入预先训练的音频处理模型中,得到源音频对应的第一音频提取特征。
151.音频处理模型根据第一实施例中任一项所述的音频处理模型的训练方法训练得到。
152.步骤s240:将第一音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。
153.步骤s240进行融合的方式可以参考第一实施例中步骤步骤s140b的具体执行过程,此处不再详述。
154.由第一实施例可知,由于使用了能够很好地感知未来信息的音频处理模型对源音频的发生特征进行了特征提取,因此,提取得到的第一音频提取特征与目标发生者的音色进行融合后得到的转换后音频也是在感知未来信息基础上的转换后音频,所以转换后音频的准确性更高,可懂性和音质更好,基频更稳定,转换效果更好。
155.可选地,所述步骤s240具体可以按以下步骤得到目标发声者对应的转换后音频:将所述第一音频提取特征与所述音色信息输入预先训练的第一融合模型中,以得到目标发声者对应的转换后音频,所述第一融合模型根据第一实施例所述的音频处理模型的训练方法中训练所述调整后第一融合模型的方式训练得到。从第一实施例可知,由于第一融合模型为基于过去的信息对数据进行处理的模型,因此,更适合于融合流式音频数据,融合准确性更高。
156.可选地,步骤s230中将发音特征输入预先训练的音频处理模型中,具体可以按以下步骤s231实现。
157.步骤s231:当源音频为实时音频流时,将所述发音特征输入预先训练的音频处理模型中。
158.所述音频转换方法还可以包括以下步骤s250~步骤s260。
159.步骤s250:当所述源音频为非实时音频流时,将所述发音特征输入第二模型中,得到所述源音频对应的第二音频提取特征,所述第二模型根据第一实施例所述的音频处理模型的训练方法中训练调整后第二模型的方式训练得到。
160.步骤s260:将所述第二音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。
161.从第一实施例可知,音频处理模型是通过对因果卷积模型、单向神经网络模型这些基于过去的信息对数据进行处理的模型进行训练得到的,因此,音频处理模型更适合于对流式音频进行处理,处理结果更准确,从而使得融合结果也更准确。针对非实时的音频流,即非流式音频,本实施例通过第二模型进行特征处理,由于第二模型是通过第一实施例中训练调整后第二模型的方式训练出的,从第一实施例可知,第二模型是基于过去和未来的信息对数据进行处理的模型,因此,第二模型处理非流式音频更准确,融合结果也更准确。
162.可选地,所述步骤s260可以按以下步骤s261实现。
163.步骤s261:将所述第二音频提取特征与所述音色信息输入预先训练的第二融合模型中,得到目标发声者对应的转换后音频,所述第二融合模型根据第一实施例所述的音频处理模型的训练方法中训练所述调整后第二融合模型的方式训练得到。由第一实施例可知,由于第二融合模型是基于过去和未来的信息进行数据融合的模型,因此更适合于融合非流式数据,融合准确性更高。
164.本技术第三实施例还提供一种音频处理模型的训练装置,如图5所示,该装置包括:
165.第一确定单元310,用于确定样本音频数据的各音频段对应的样本发音特征;
166.第一提取单元320,用于将所述样本发音特征输入第一待训练模型进行数值化编码,得到所述样本发音特征对应的数值化的第一输出特征,所述第一待训练模型为基于过去的信息对发音特征进行数值化编码的模型,所述过去的信息为在所述样本发音特征对应的音频段之前产生的过去音频段对应的过去发音特征;将所述样本发音特征输入第二模型进行数值化编码,得到所述样本发音特征对应的数值化的第二输出特征,所述第二模型为基于所述过去的信息和未来的信息对发音特征进行数值化编码的模型,所述未来的信息为在所述样本发音特征对应的音频段之后产生的未来音频段对应的未来发音特征;
167.调整单元330,用于基于减小所述第一输出特征与所述第二输出特征之间的差别的第一参数调整原则,对所述第一待训练模型进行参数调整,得到调整后第一模型;
168.第二确定单元340,用于根据所述调整后第一模型确定音频处理模型。
169.可选地,所述第一待训练模型为因果卷积模型,所述第二模型为非因果卷积模型。
170.可选地,所述第一确定单元310还用于:确定所述样本音频数据的样本音色特征;
171.所述装置还包括:
172.第一融合单元,用于将所述样本音色特征与所述第一输出特征进行融合,得到融合音频数据;
173.第二确定单元340具体用于:基于减小所述融合音频数据与所述样本音频数据之间差别的第二参数调整原则,对所述调整后第一模型进行参数调整,得到音频处理模型。
174.可选地,所述调整单元330还用于:基于所述第二参数调整原则对所述第二模型进行参数调整,得到调整后第二模型。
175.可选地,所述第一融合单元具体用于:将所述样本音色特征与所述第一输出特征输入第一融合模型中,得到第一融合音频数据;
176.所述调整单元还用于:基于减小所述第一融合音频数据与所述样本音频数据之间差别的原则,对所述第一融合模型进行参数调整,得到调整后第一融合模型。
177.可选地,所述第一融合模型为基于过去的第一融合信息对数据进行融合的模型,所述过去的第一融合信息包括所述过去发音特征对应的第一输出特征。
178.可选地,所述第一融合单元还用于:将所述样本音色特征与所述第二输出特征输入第二融合模型中,得到第二融合音频数据,所述第二融合模型为基于过去的第二融合信息和未来的第二融合信息对数据进行融合的模型,所述过去的第二融合信息包括所述过去发音特征对应的第二输出特征,所述未来的第二融合信息包括所述未来发音特征对应的第二输出特征;
179.所述调整单元还用于:基于减小所述第二融合音频数据与所述样本音频数据之间差别的原则,对所述第二融合模型进行参数调整,得到调整后第二融合模型。
180.可选地,所述装置还包括:预测单元,用于将所述第一输出特征输入预测网络,得到所述样本音频数据对应的样本预测数据;
181.所述第二确定单元具体用于:基于减小所述样本预测数据与所述样本音频数据之间差别的原则,对所述调整后第一模型进行参数调整,得到音频处理模型。
182.可选地,所述预测网络包括第一预测模型和第二预测模型,所述第一预测模型用于根据当前帧的数据预测下一帧的数据,所述第二预测模型用于从多个帧数据中选择下一帧的数据;
183.所述预测单元具体用于:将所述第一输出特征输入所述第一预测模型,得到所述样本音频数据对应的第一样本预测数据;将所述第一输出特征输入所述第二预测模型,得到所述样本音频数据对应的第二样本预测数据;
184.所述第二确定单元具体用于:基于减小所述第一样本预测数据、所述第二样本预测数据与所述样本音频数据之间差别的原则,对所述调整后第一模型进行参数调整。
185.可选地,所述第一融合单元具体用于:获取样本音频数据的音高特征;将所述样本音色特征、所述第一输出特征以及所述音高特征输入第一融合模型中,得到第一融合音频
数据。
186.可选地,所述第一确定单元具体用于:将样本音频数据的各音频段转换为样本梅尔普频谱数据;
187.将所述梅尔普频谱数据输入预先训练好的语音识别模型中,得到所述样本音频数据的各音频段对应的瓶颈特征,并将所述瓶颈特征确定为所述样本音频数据的各音频段对应的样本发音特征,所述语音识别模型用于识别音频数据的发音特征。
188.本技术第四实施例还提供一种音频转换装置,所述装置包括:
189.获取单元,用于获取待转换的源音频、以及目标发声者的音色信息;
190.第二提取单元,用于提取所述源音频的发音特征,所述发音特征为所述源音频中至少过滤掉源发声者音色信息后的特征;
191.处理单元,用于将所述发音特征输入预先训练的音频处理模型中,得到所述源音频对应的第一音频提取特征,所述音频处理模型根据第一实施例中任一项所述的音频处理模型的训练方法训练得到;
192.融合单元,用于将所述第一音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。
193.可选地,所述融合单元具体用于:
194.将所述第一音频提取特征与所述音色特征输入预先训练的第一融合模型中,得到目标发声者对应的转换后音频,所述第一融合模型根据第一实施例所述的音频处理模型的训练方法中训练所述调整后第一融合模型的方式训练得到。
195.可选地,所述处理单元具体用于:当所述源音频为实时音频流时,将所述发音特征输入预先训练的音频处理模型中;
196.所述处理单元还用于:当所述源音频为非实时音频流时,将所述发音特征输入第二模型中,得到所述源音频对应的第二音频提取特征,所述第二模型根据第一实施所述的音频处理模型的训练方法中训练调整后第二模型的方式训练得到;将所述第二音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。
197.可选地,所述融合单元具体用于:将所述第二音频提取特征与所述音色信息输入预先训练的第二融合模型中,得到目标发声者对应的转换后音频,所述第二融合模型根据第一实施例所述的音频处理模型的训练方法中训练所述调整后第二融合模型的方式训练得到。
198.需要说明的是,装置中各模块/单元之间的信息交互、执行过程等内容,与本技术中图1至图3对应的各个方法实施例基于同一构思,具体内容可参见本技术前述所示的方法实施例中的叙述,此处不再赘述。
199.接下来介绍本技术实施例提供的一种电子设备,请参阅图6,图6为本技术实施例提供的电子设备的一种结构示意图,电子设备500具体可以表现为虚拟现实vr设备、手机、平板、笔记本电脑、智能穿戴设备、监控数据处理设备或者雷达数据处理设备等,此处不做限定。其中,电子设备500上可以部署有图1或图4对应实施例中所描述的训练装置或转换装置,用于实现图1至图4对应实施例中的功能。具体的,电子设备500包括:接收器501、发射器502、处理器503和存储器504(其中执行设备500中的处理器503的数量可以一个或多个,图6中以一个处理器为例),其中,处理器503可以包括应用处理器5031和通信处理器5032。在本
申请的一些实施例中,接收器501、发射器502、处理器503和存储器504可通过总线或其它方式连接。
200.存储器504可以包括只读存储器和随机存取存储器,并向处理器503提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器(non-volatile random access memory,nvram)。存储器504存储有处理器和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。
201.处理器503控制执行设备的操作。具体的应用中,执行设备的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
202.上述本技术实施例揭示的方法可以应用于处理器503中,或者由处理器503实现。处理器503可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器503可以是通用处理器、数字信号处理器(digital signal processing,dsp)、微处理器或微控制器,还可进一步包括专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。该处理器503可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器504,处理器503读取存储器504中的信息,结合其硬件完成上述方法的步骤。
203.接收器501可用于接收输入的数字或字符信息,以及产生与执行设备的相关设置以及功能控制有关的信号输入。发射器502可用于通过第一接口输出数字或字符信息;发射器502还可用于通过第一接口向磁盘组发送指令,以修改磁盘组中的数据;发射器502还可以包括显示屏等显示设备。
204.本技术实施例中,处理器503中的应用处理器5031,用于执行图1至图4对应实施例中的训练方法或转换方法。需要说明的是,应用处理器5031执行各个步骤的具体方式,与本技术中图1至图4对应的各个方法实施例基于同一构思,其带来的技术效果与本技术中图1至图4对应的各个方法实施例相同,具体内容可参见本技术前述所示的方法实施例中的叙述,此处不再赘述。
205.本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质包括计算机指令,计算机指令在被处理器执行时用于实现本技术第一实施例或第二实施例中任意一种技术方案。
206.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
207.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的
示例。
208.其中,计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
209.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
210.本技术虽然以较佳实施例公开如上,但其并不是用来限定本技术,任何本领域技术人员在不脱离本技术的精神和范围内,都可以做出可能的变动和修改,因此本技术的保护范围应当以本技术权利要求所界定的范围为准。
技术特征:
1.一种音频处理模型的训练方法,其特征在于,所述方法包括:确定样本音频数据的各音频段对应的样本发音特征;将所述样本发音特征输入第一待训练模型进行数值化编码,得到所述样本发音特征对应的数值化的第一输出特征,所述第一待训练模型为基于过去的信息对发音特征进行数值化编码的模型,所述过去的信息为在所述样本发音特征对应的音频段之前产生的过去音频段对应的过去发音特征;将所述样本发音特征输入第二模型进行数值化编码,得到所述样本发音特征对应的数值化的第二输出特征,所述第二模型为基于所述过去的信息和未来的信息对发音特征进行数值化编码的模型,所述未来的信息为在所述样本发音特征对应的音频段之后产生的未来音频段对应的未来发音特征;基于减小所述第一输出特征与所述第二输出特征之间的差别的第一参数调整原则,对所述第一待训练模型进行参数调整,得到调整后第一模型;根据所述调整后第一模型确定音频处理模型。2.根据权利要求1所述的方法,其特征在于,所述第一待训练模型为因果卷积模型,所述第二模型为非因果卷积模型。3.根据权利要求1所述的方法,其特征在于,在所述根据所述调整后第一模型确定训练好的音频处理模型之前,所述方法还包括:确定所述样本音频数据的样本音色特征;将所述样本音色特征与所述第一输出特征进行融合,得到融合音频数据;所述根据所述调整后第一模型确定音频处理模型,包括:基于减小所述融合音频数据与所述样本音频数据之间差别的第二参数调整原则,对所述调整后第一模型进行参数调整,得到音频处理模型。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:基于所述第二参数调整原则对所述第二模型进行参数调整,得到调整后第二模型。5.根据权利要求3所述的方法,其特征在于,所述将所述样本音色特征与所述第一输出特征进行融合,得到融合音频数据,包括:将所述样本音色特征与所述第一输出特征输入第一融合模型中,得到第一融合音频数据;所述方法还包括:基于减小所述第一融合音频数据与所述样本音频数据之间差别的原则,对所述第一融合模型进行参数调整,得到调整后第一融合模型。6.根据权利要求5所述的方法,其特征在于,所述第一融合模型为基于过去的第一融合信息对数据进行融合的模型,所述过去的第一融合信息包括所述过去发音特征对应的第一输出特征。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:将所述样本音色特征与所述第二输出特征输入第二融合模型中,得到第二融合音频数据,所述第二融合模型为基于过去的第二融合信息和未来的第二融合信息对数据进行融合的模型
,
所述过去的第二融合信息包括所述过去发音特征对应的第二输出特征,所述未来的第二融合信息包括所述未来发音特征对应的第二输出特征;
基于减小所述第二融合音频数据与所述样本音频数据之间差别的原则,对所述第二融合模型进行参数调整,得到调整后第二融合模型。8.根据权利要求1所述的方法,其特征在于,在所述根据所述调整后第一模型确定音频处理模型之前,所述方法还包括:将所述第一输出特征、所述第二输出特征输入预测网络,得到所述样本音频数据对应的样本预测数据;所述根据所述调整后第一模型确定音频处理模型,包括:基于减小所述样本预测数据与所述样本音频数据之间差别的原则,对所述调整后第一模型进行参数调整,以得到音频处理模型。9.根据权利要求8所述的方法,其特征在于,所述预测网络包括第一预测模型和第二预测模型,所述第一预测模型用于根据当前帧的数据预测下一帧的数据,所述第二预测模型用于从多个帧数据中选择下一帧的数据;所述将所述第一输出特征、所述第二输出特征输入预测网络,得到所述样本音频数据对应的样本预测数据,包括:将所述第一输出特征、所述第二输出特征输入所述第一预测模型,得到所述样本音频数据对应的第一样本预测数据;将所述第一输出特征、所述第二输出特征输入所述第二预测模型,得到所述样本音频数据对应的第二样本预测数据;所述基于减小所述样本预测数据与所述样本音频数据之间差别的原则,对所述调整后第一模型进行参数调整,包括:基于减小所述第一样本预测数据、所述第二样本预测数据与所述样本音频数据之间差别的原则,对所述调整后第一模型进行参数调整。10.根据权利要求5所述的方法,其特征在于,所述将所述样本音色特征与所述第一输出特征输入第一融合模型中,以得到第一融合音频数据,包括:获取样本音频数据的音高特征;将所述样本音色特征、所述第一输出特征以及所述音高特征输入第一融合模型中,得到第一融合音频数据。11.根据权利要求1至10任一项所述的方法,其特征在于,所述确定样本音频数据的各音频段对应的样本发音特征,包括:将样本音频数据的各音频段转换为样本梅尔普频谱数据;将所述梅尔普频谱数据输入预先训练好的语音识别模型中,得到所述样本音频数据的各音频段对应的瓶颈特征,并将所述瓶颈特征确定为所述样本音频数据的各音频段对应的样本发音特征,所述语音识别模型用于识别音频数据的发音特征。12.一种音频转换方法,其特征在于,所述方法包括:获取待转换的源音频、以及目标发声者的音色信息;提取所述源音频的发音特征,所述发音特征为所述源音频中至少过滤掉源发声者音色信息后的特征;将所述发音特征输入预先训练的音频处理模型中,得到所述源音频对应的第一音频提取特征,所述音频处理模型根据权利要求1至11中任一项所述的音频处理模型的训练方法
训练得到;将所述第一音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。13.根据权利要求12所述的音频转换方法,其特征在于,所述将所述第一音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频,包括:将所述第一音频提取特征与所述音色信息输入预先训练的第一融合模型中,以得到目标发声者对应的转换后音频,所述第一融合模型根据权利要求5或6所述的音频处理模型的训练方法中训练所述调整后第一融合模型的方式训练得到。14.根据权利要求12所述的音频转换方法,其特征在于,所述将所述发音特征输入预先训练的音频处理模型中,包括:当所述源音频为实时音频流时,将所述发音特征输入预先训练的音频处理模型中;所述音频转换方法还包括:当所述源音频为非实时音频流时,将所述发音特征输入第二模型中,得到所述源音频对应的第二音频提取特征,所述第二模型根据权利要求4所述的音频处理模型的训练方法中训练调整后第二模型的方式训练得到;将所述第二音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。15.根据权利要求14所述的音频转换方法,其特征在于,所述将所述第二音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频,包括:将所述第二音频提取特征与所述音色信息输入预先训练的第二融合模型中,得到目标发声者对应的转换后音频,所述第二融合模型根据权利要求7所述的音频处理模型的训练方法中训练所述调整后第二融合模型的方式训练得到。16.一种音频处理模型的训练装置,其特征在于,包括:第一确定单元,用于确定样本音频数据的各音频段对应的样本发音特征;第一提取单元,用于将所述样本发音特征输入第一待训练模型进行数值化编码,得到所述样本发音特征对应的数值化的第一输出特征,所述第一待训练模型为基于过去的信息对发音特征进行数值化编码的模型,所述过去的信息为在所述样本发音特征对应的音频段之前产生的过去音频段对应的过去发音特征;将所述样本发音特征输入第二模型进行数值化编码,得到所述样本发音特征对应的数值化的第二输出特征,所述第二模型为基于所述过去的信息和未来的信息对发音特征进行数值化编码的模型,所述未来的信息为在所述样本发音特征对应的音频段之后产生的未来音频段对应的未来发音特征;调整单元,用于基于减小所述第一输出特征与所述第二输出特征之间的差别的第一参数调整原则,对所述第一待训练模型进行参数调整,得到调整后第一模型;第二确定单元,用于根据所述调整后第一模型确定音频处理模型。17.一种音频转换装置,其特征在于,包括:获取单元,用于获取待转换的源音频、以及目标发声者的音色信息;第二提取单元,用于提取所述源音频的发音特征,所述发音特征为所述源音频中至少过滤掉源发声者音色信息后的特征;处理单元,用于将所述发音特征输入预先训练的音频处理模型中,得到所述源音频对
应的第一音频提取特征,所述音频处理模型根据权利要求1至11中任一项所述的音频处理模型的训练方法训练得到;融合单元,用于将所述第一音频提取特征与所述音色信息进行融合,得到目标发声者对应的转换后音频。18.一种电子设备,其特征在于,所述电子设备包括:存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储一条或多条计算机指令;所述处理器用于执行所述一条或多条计算机指令,以实现如权利要求1-15任一项所述的方法。19.一种计算机可读取存储介质,其上存储有一条或多条计算机指令,其特征在于,该指令被处理器执行以实现如权利要求1-15任一项所述的方法。
技术总结
本申请提供了一种音频处理模型的训练方法、音频转换方法、装置、电子设备及计算机可读存储介质,训练方法包括:确定样本音频数据的样本发音特征;将样本发音特征输入第一待训练模型进行数值化编码得到数值化的第一输出特征,第一待训练模型为基于过去的信息对数据进行数值化编码的模型;将样本发音特征输入第二模型进行数值化编码得到数值化的第二输出特征,第二模型为基于过去和未来的信息对数据进行处理的模型;基于减小第一输出特征与第二输出特征之间的差别的第一参数调整原则,对第一待训练模型进行参数调整,得到调整后第一模型;根据调整后第一模型确定音频处理模型。如此,使得流式歌声转换能够实现流式推理的同时保证了流式推理的效果。保证了流式推理的效果。保证了流式推理的效果。
技术研发人员:朱鹏程 薛鹤洋 毕梦霄 郭帅 张晴 吕唐杰
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2023.05.19
技术公布日:2023/8/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/