音频数据的处理方法、服务器及计算机可读存储介质与流程

未命名 08-26 阅读:162 评论:0


1.本技术涉及计算机技术领域,特别是涉及一种音频数据的处理方法、服务器及计算机可读存储介质。


背景技术:

2.在用户进行外放录歌过程中,被录制的音频数据除了包括用户的干声数据之外,也包括被播放的歌曲的伴奏数据或者原唱数据,从而在对用户的干声数据进行分析和修改时,需要在录制的音频数据中对回采的音频数据(即录制到的被播放的歌曲的伴奏数据或者原唱数据)进行消音处理。
3.在传统的对回采音频数据进行消音处理的过程中,一般是利用预设的声学回声消除模型(webrtc aec)将录制音频数据中的回采音频数据进行消除,以得到用户的干声数据。
4.然而,目前的声学回声消除模型对一些特殊的音频数据(如关于打击乐强的回采音频)直接进行消音处理的效果不佳,导致消音处理后的录制音频数据中仍具有较多的回采音频数据,以使得到的关于用户的干声数据不准确。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够提升音频消音质量的音频数据的处理方法、服务器及计算机可读存储介质。
6.根据本公开实施例的第一方面,提供一种音频数据的处理方法,包括:
7.获取用户演唱目标歌曲时的录制音频数据,所述录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和所述用户的干声数据,所述伴声音频数据为所述目标歌曲的原唱音频数据或者背景音频数据;
8.提取所述伴声音频数据的音频特征,并将所述音频特征输入回采预测模型,由所述回采预测模型预测所述伴声音频数据在经过回采系统后得到的预测音频特征;
9.基于所述预测音频特征,确定针对所述伴声音频数据的预测回采数据;
10.基于所述预测回采数据对所述录制音频数据进行回踩消除处理,得到所述录制音频数据中关于所述用户的预测干声数据。
11.在一示例性实施例中,所述方法还包括:
12.获取所述回采系统的样本激励数据和样本录音数据;所述样本录音数据为所述激励数据在经过所述回采系统后得到的回采数据;
13.基于所述样本激励数据和所述样本录音数据,确定针对所述回采系统的模拟回采数据;
14.提取所述模拟回采数据的音频特征,并将所述模拟回采数据的音频特征输入待训练的回采预测模型进行模型训练,由所述待训练的回采预测模型预测所述模拟回采数据在经过所述回采系统后得到的训练音频特征;
15.基于所述模拟回采数据的音频特征与所述训练音频特征之间的差异,确定所述待训练的回采预测模型的模型损失,并根据所述模型损失调整所述待训练的回采预测模型,直到得到训练完成的回采预测模型。
16.在一示例性实施例中,所述基于所述样本激励数据和所述样本录音数据,确定针对所述回采系统的模拟回采数据,包括:
17.对所述样本激励数据进行频谱调整处理,得到调整后的激励数据;所述频谱调整处理用于模拟所述样本激励数据在经过所述回采系统后的频谱损失,并基于所述频谱损失调整所述样本激励数据;以及
18.基于所述样本激励数据和所述样本录音数据,确定所述回采系统的脉冲响应;
19.对所述调整后的激励数据和所述脉冲响应进行卷积处理,得到所述回采系统的初始回采数据;
20.对所述初始回采数据进行数据增益处理,得到所述回采系统的模拟回采数据。
21.在一示例性实施例中,所述样本激励数据基于第一信号值序列表征,所述样本录音数据基于第二信号值序列表征;所述基于所述样本激励数据和所述样本录音数据,确定所述回采系统的脉冲响应,包括:
22.基于互相关函数确定所述第一信号值序列和所述第二信号值序列之间的互相关值,并将所述互相关值作为所述回采系统的脉冲响应。
23.在一示例性实施例中,所述获取所述回采系统的样本激励数据,包括:
24.获取样本音频数据,并基于所述样本音频数据得到针对所述回采系统的最大长度序列、格雷码和扫频信号中的任意一种作为所述样本激励数据。
25.在一示例性实施例中,所述模拟回采数据的音频特征包括第一幅频特征和第一相频特征;在所述将所述模拟回采数据的音频特征输入待训练的回采预测模型进行模型训练之前,还包括:
26.对所述模拟回采数据依次进行傅里叶变换处理和特征提取处理,得到所述第一幅频特征和所述第一相频特征。
27.在一示例性实施例中,所述伴声音频数据的音频特征包括第二幅频特征和第二相频特征;在所述将所述音频特征输入回采预测模型之前,还包括:
28.对所述伴声音频数据进行音调调整处理,得到音调调整后的第一处理音频数据;
29.对所述第一处理音频数据进行分帧加窗处理,得到分帧加窗后的第二处理音频数据;
30.对所述第二处理音频数据进行傅里叶变换处理,得到针对所述伴声音频数据的复数频谱;
31.基于所述复数频谱,得到所述第二相频特征和所述第二幅频特征。
32.在一示例性实施例中,所述预测音频特征包括对应于所述第二相频特征的预测相频特征和对应于所述第二幅频特征的预测幅频特征;所述基于所述预测音频特征,确定针对所述伴声音频数据的预测回采数据,包括:
33.对所述预测幅频特征和所述预测相频特征进行特征融合,得到对应的融合特征;
34.对所述融合特征进行傅里叶逆变换处理,得到所述预测回采数据。
35.在一示例性实施例中,所述基于所述预测回采数据对所述录制音频数据进行回踩
消除处理,得到所述录制音频数据中关于所述用户的预测干声数据,包括:
36.对所述录制音频数据和所述预测回采数据进行线性相关处理,得到线性相关的录制音频数据和预测回采数据;
37.对所述线性相关的录制音频数据和预测回采数据进行线性相减处理,得到所述预测干声数据。
38.根据本公开实施例的第二方面,提供一种音频数据的处理装置,包括:
39.数据获取单元,被配置为执行获取用户演唱目标歌曲时的录制音频数据,所述录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和所述用户的干声数据,所述伴声音频数据包括所述目标歌曲的原唱音频数据或者背景音频数据;
40.特征预测单元,被配置为执行提取所述伴声音频数据的音频特征,并将所述音频特征输入回采预测模型,由所述回采预测模型预测所述伴声音频数据在经过回采系统后得到的预测音频特征;
41.回采预测单元,被配置为执行基于所述预测音频特征,确定针对所述伴声音频数据的预测回采数据;
42.音频消音单元,被配置为执行基于所述预测回采数据对所述录制音频数据进行回踩消除处理,得到所述录制音频数据中关于所述用户的预测干声数据。
43.根据本公开实施例的第三方面,提供一种电子设备,包括:
44.处理器;
45.用于存储所述处理器的可执行指令的存储器;
46.其中,所述处理器被配置为执行所述可执行指令,以实现如上述任一项所述的音频数据的处理方法。
47.根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,当所述计算机程序由电子设备的处理器执行时,使得所述电子设备能够执行如上述任一项所述的音频数据的处理方法。
48.根据本公开实施例的第五方面,提供一种计算机程序产品,所述计算机程序产品中包括程序指令,当所述程序指令被电子设备的处理器执行时,使得所述电子设备能够执行如上述任一项所述的音频数据的处理方法。
49.本公开的实施例提供的技术方案至少带来以下有益效果:
50.该方法先通过获取用户演唱目标歌曲时的录制音频数据,其中,录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和用户的干声数据,伴声音频数据为目标歌曲的原唱音频数据或者背景音频数据;提取伴声音频数据的音频特征,并将音频特征输入回采预测模型,由回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征;基于预测音频特征,确定针对伴声音频数据的预测回采数据;基于预测回采数据对录制音频数据进行回踩消除处理,得到录制音频数据中关于用户的预测干声数据。这样,一方面,区别于现有技术中直接通过回声消除模型来将录制音频数据中的原唱音频进行消除的方式,本技术通过目标歌曲的伴声音频预测得到伴声音频数据在经过回采系统后的预测回采数据,以根据确定预测回采数据和用户的录制音频数据得到关于用户的预测干声数据,从而优化了音频消音处理的流程,提升了对录制音频数据进行音频
消音的效率;另一方面,通过预训练完成的回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征,以利用预测音频特征得到后续关于用户的预测干声数据,从而减少了在对录制音频数据进行音频消除过程中消音不准确和消音不充分的问题,以提高了音频消音处理的有效性和准确性,使得消音处理得到的关于用户的预测干声数据具有较高质量。
51.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
52.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
53.图1是根据一示例性实施例示出的一种音频数据的处理方法的应用环境图。
54.图2是根据一示例性实施例示出的一种音频数据的处理方法的流程图。
55.图3是根据一示例性实施例示出的一种回采系统的结构图。
56.图4是根据一示例性实施例示出的一种训练回采预测模型步骤的流程图。
57.图5是根据一示例性实施例示出的一种训练回采预测模型步骤的模块图。
58.图6是根据一示例性实施例示出的一种确定模拟回采数据步骤的模块图。
59.图7是根据另一示例性实施例示出的一种音频数据的处理方法的模块图。
60.图8是根据另一示例性实施例示出的一种音频数据的处理方法的流程图。
61.图9是根据一示例性实施例示出的一种音频数据的处理装置框图。
62.图10是根据一示例性实施例示出的一种特征预测模型的训练装置框图。
63.图11是根据一示例性实施例示出的一种用于音频数据的处理的电子设备的框图。
64.图12是根据一示例性实施例示出的一种用于音频数据的处理的计算机可读存储介质的框图。
65.图13是根据一示例性实施例示出的一种用于音频数据的处理的计算机程序产品的框图。
具体实施方式
66.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
67.本技术实施例中的术语“和/或”指的是包括相关联的列举项目中的一个或多个的任何和全部的可能组合。还要说明的是:当用在本说明书中时,“包括/包含”指定所陈述的特征、整数、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件和/或它们的组群的存在或添加。
68.本技术中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备
固有的其它步骤或单元。
69.另外,本技术中尽管多次采用术语“第一”、“第二”等来描述各种操作(或各种元件或各种应用或各种指令或各种数据)等,不过这些操作(或元件或应用或指令或数据)不应受这些术语的限制。这些术语只是用于区分一个操作(或元件或应用或指令或数据)和另一个操作(或元件或应用或指令或数据)。例如,第一音频特征可以被称为第二音频特征,第二音频特征也可以被称为第一音频特征,仅仅是其两者所包括的范围不同,而不脱离本技术的范围,第一音频特征和第二音频特征都是各种类别的用于音频数据在经过回采系统之前/之后得到的预测音频特征的集合,只是二者并不是相同类别的预测音频特征的集合而已。
70.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
71.本技术实施例提供的音频数据的处理方法和/或回采预测模型的训练方法,可以应用于如图1所示的应用环境中。其中,电子设备102通过通信网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或网络服务器上。
72.在一些实施例中,参考图1,电子设备102首先获取用户演唱目标歌曲时的录制音频数据;其中,录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和用户的干声数据,伴声音频数据为目标歌曲的原唱音频数据或者背景音频数据;然后,电子设备102再提取伴声音频数据的音频特征,并将音频特征输入回采预测模型,由回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征;然后,电子设备102再基于预测音频特征,确定针对伴声音频数据的预测回采数据;最后,电子设备102再基于预测回采数据对录制音频数据进行回踩消除处理,得到录制音频数据中关于用户的预测干声数据。
73.在一些实施例中,终端102(如移动终端、固定终端)可以以各种形式来实施。其中,终端102可为包括诸如移动电话、智能电话、笔记本电脑、便携式手持式设备、个人数字助理(pda,personal digital assistant)、平板电脑(pad)等等的可以根据用户演唱的录制音频数据和伴声音频数据得到关于用户的预测干声数据的移动终端,终端102也可以是自动柜员机(automated teller machine,atm)、自动一体机、数字tv、台式计算机、固式计算机等等的可以根据用户演唱的录制音频数据和伴声音频数据得到关于用户的预测干声数据的固定终端。
74.下面,假设终端102是固定终端。然而,本领域技术人员将理解的是,若有特别用于移动目的的操作或者元件,根据本技术公开的实施方式的构造也能够应用于移动类型的终端102。
75.在一些实施例中,服务器104运行的数据处理组件可以加载正在被执行的可以包括各种附加服务器应用和/或中间层应用中的任何一种,如包括http(超文本传输协议)、ftp(文件传输协议)、cgi(通用网关界面)、rdbms(关系型数据库管理系统)等。
76.在一些实施例中,电子设备102可以通过部署连接的服务器104(如独立的服务器
或者是多个服务器组成的服务器集群)来实现对应的网络功能。电子设备102也可以适于运行提供前述公开中描述的服务器104的一个或多个应用服务或软件组件。
77.在一些实施例中,应用服务可以包括向用户提供关于多种音频文件选择的服务界面,以及对应程序服务等等。其中,软件组件可以包括例如具有根据用户演唱目标歌曲时的录制音频数据以及目标歌曲的伴声音频数据,来预测录制音频数据中关于用户的干声数据功能的应用程序(sdk)或者客户端(app)。
78.在一些实施例中,电子设备102所提供的具有预测录制音频数据中关于用户的干声数据功能的应用程序或者客户端包括一个在前台向用户提供一对一应用服务的门户端口和多个位于后台进行数据处理的业务系统,以将预测录制音频数据中关于用户的干声数据功能应用扩展到app或者客户端,从而用户能够在任何时间任何地点进行预测功能的使用和访问。
79.在一些实施例中,app或者客户端中关于预测录制音频数据中关于用户的干声数据功能可为运行在用户模式以完成某项或多项特定工作的计算机程序,其可以与用户进行交互,且具有可视的用户界面。其中,app或者客户端可以包括两部分:图形用户接口(gui)和引擎(engine),利用这两者能够以用户界面的形式向用户提供多种应用服务的数字化客户系统。
80.在一些实施例中,用户可以通过预设的输入装置或者自动控制程序向app或者客户端输入相应的代码数据或者控制参数,以执行电子设备102中的计算机程序的应用服务,以及显示用户界面中的应用服务。
81.作为一种示例,当用户需要将在电子设备102中预测一首录制歌曲数据中关于自己演唱的干声数据时,用户可以通过输入装置向电子设备102传入自己演唱的录制歌曲数据以及歌曲对应的伴声音频数据,然后电子设备102调用预先训练完成的回采预测模型确定伴声音频数据的预测音频特征,从而基于录制音频数据和预测音频特征,得到关于用户的预测干声数据,最后,电子设备102向服务器104发送该预测干声数据,以使预测干声数据被服务器104进一步的处理,或者电子设备102将预测干声数据运行在app或者客户端中,以进行干声播放。
82.在一些实施例中,app或者客户端运行的操作系统可以包括各种版本的microsoftapple和/或linux操作系统、各种商用或类操作系统(包括但不限于各种gnu/linux操作系统、googleos等)和/或移动操作系统,诸如os等)和/或移动操作系统,诸如phone、os、os、os操作系统,以及其它在线操作系统或者离线操作系统,在这里不做具体的限制。
83.在一些实施例中,如图2所示,提供了一种音频数据的处理方法,以该方法应用于图1中的电子设备102为例进行说明,该方法包括以下步骤:
84.步骤s11,获取用户演唱目标歌曲时的录制音频数据。
85.在一些实施例中,目标歌曲可以为任意形式的音乐歌曲,包括如已发行的正式版本的音乐歌曲,或者终端应用录制的本地歌曲(如,终端应用线下录制的现场歌曲和线上录制的网络歌曲)。
86.在一实施例中,录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和用户的干声数据。
87.在一实施例中,伴声音频数据为目标歌曲的原唱音频或者背景音频在经过回采系统播放前纯净的音频数据,例如,伴声音频数据包括如目标歌曲对应的标准歌唱音频、标准伴奏音频等这里不做具体限定。其中,回采系统为一个用于对音频信号依次进行播放和采集的声乐系统。
88.在一实施例中,录制音频数据为关于目标歌曲的伴声音频和用户的干声音频的“双讲”录音音频。
89.在一实施例中,“双讲”录音音频表征录音设备音频在回采系统中,对两个发音源同时发出的音频信号进行录制得到录制音频数据。即目标歌曲的录制音频数据包括录制到的用户的干声数据和伴声音频数据在经过回采系统后得到的回采数据。
90.在一示例性实施例中,参考图3,图3为本技术中回采系统一实施例的结果示意图。其中,回采系统100包括存储介质101、数模转换器102、播放器103、录音器104和模数转换器105。其中,数模转换器102为数字模拟转换器(digital to analog converter,dac),用于将输入回采系统100的关于目标歌曲的伴声音频数据由数字信号转换为模拟信号,得到回采前的伴声音频数据;播放器103用于将回采前的伴声音频数据通过喇叭播放,以对录音器104发出回采数据;录音器104用于回采喇叭播放的伴声音频数据以及同步采集用户在根据喇叭播放的原唱音频同步演唱的干声音频数据,得到录制音频数据;模数转换器105为模拟数字转换器(analog to digital converter,adc),用于将录制音频数据由模拟信号转换为数字信号,得到向外输出的演唱音频数据;存储介质101用于将输入的伴声音频数据和输出的演唱音频数据存储。
91.步骤s12:提取伴声音频数据的音频特征,并将音频特征输入回采预测模型,由回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征。
92.在一些实施例中,电子设备首先按照预设的线性变换方式对伴声音频数据进行数据变换,得到对应线性变换后的音频数据,再对线性变换后的音频数据进行特征提取,得到针对伴声音频数据的音频特征。然后,电子设备再将伴声音频数据的音频特征输入训练完成的回采预测模型中进行回采特征预测,即训练完成的回采预测模型根据音频特征,预测伴声音频数据在经过回采系统后所得到的回采数据的预测音频特征。
93.在一些实施例中,线性变换(linear transformation)是指数据在经过线性空间到其自身的线性映射之后,其输出的变换数据与输入的原始数据之间的线性质不变。
94.在一些实施例中,电子设备预设的线性变换方式可以包括快速傅立叶变换、(改进的)离散余弦变换、小波变换等,这里不做具体限定。
95.在一些实施例中,回采预测模型为服务器利用大量的训练音频样本应用于回采系统中进行训练得到的声学模型。其中,该声学模型可通过多种方式训练得到,如正向训练方式(包括向回采系统输入伴声音频数据的音频特征,回采系统输出关于回采数据的预测音频特征),或者逆向训练方式(包括向回采系统输入关于回采数据的真实音频特征,回采系统输出关于伴声音频数据的预测音频特征)。在一些实施中,回采预测模型可以为各种类型的深度神经网络,例如,基于cnn/rnn/lstm的深度卷积神经网络等等,这里不做具体限定。
96.步骤s13:基于预测音频特征,确定针对伴声音频数据的预测回采数据。
97.在一些实施例中,该预测音频特征为待确定的预测回采数据的特征数据。电子设备通过相对于预设的线性变换方式的线性逆变换方式将预测音频特征转换为预测回采数
据。
98.在一些实施例中,电子设备预设的线性逆变换方式可以包括快速傅立叶逆变换、(改进的)离散余弦逆变换、小波逆变换等,这里不做具体限定。
99.作为示例,若电子设备是对伴声音频数据进行快速傅立叶变换得到的真实音频特征,则电子设备对预测音频特征进行快速傅立叶逆变换,以得到预测回采数据;或者,若电子设备是对伴声音频数据进行离散余弦变换得到的真实音频特征,则电子设备对预测音频特征进行离散余弦逆变换,以得到预测回采数据;或者,若电子设备是对伴声音频数据进行小波变换得到的真实音频特征,则电子设备对预测音频特征进行小波逆变换,以得到预测回采数据。
100.步骤s14:基于预测回采数据对录制音频数据进行回踩消除处理,得到录制音频数据中关于用户的预测干声数据。
101.在一实施例中,回踩消除处理目的在于将录制音频数据中关于目标歌曲的伴声音频数据消除,以得到录制音频数据中关于用户的干声音频数据。
102.在一实施例中,回踩消除处理具体包括步骤:首先,对录制音频数据和预测回采数据进行线性相关处理,得到线性相关的录制音频数据和预测回采数据;然后,对线性相关的录制音频数据和预测回采数据进行线性相减处理,得到预测干声数据。
103.作为示例,录制音频数据基于用户真实演唱的干声数据和伴声音频数据在经过回采系统后得到的回采数据组成。在电子设备得到关于伴声音频数据的预测回采数据之后,电子设备先将录制音频数据和预测回采数据进行线性相关处理,以将录制音频数据和预测回采数据调整为维度相同的两种数据,然后,电子设备再对录制音频数据和预测回采数据进行线性相减处理,以得到录制音频数据中关于用户的预测干声数据。
104.在一示例性实施例中,录制音频数据基于x
in
(n)表征、用户真实演唱的干声数据基于x
clean
(n)表征、伴声音频数据在经过回采系统后得到的回采数据基于x
echo
(n)表征,则存在有关系:x
in
(n)=x
echo
(n)+x
clean
(n)。然后,电子设备预测得到关于伴声音频数据的预测回采数据基于y
echo
(n)表征,电子设备预测录制音频数据中关于用户的预测干声数据基于y
clean
(n)表征。现电子设备假设存在关系:y
echo
(n)≈x
echo
(n),则电子设备预测录制音频数据中关于用户的预测干声数据即为y
clean
(n)=x
in
(n)-y
echo
(n)。
105.上述的音频数据的处理过程中,服务器首先获取用户演唱目标歌曲时的录制音频数据;其中,录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和用户的干声数据,伴声音频数据为目标歌曲的原唱音频数据或者背景音频数据;然后,再提取伴声音频数据的音频特征,并将音频特征输入回采预测模型,由回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征;然后,基于预测音频特征,确定针对伴声音频数据的预测回采数据;最后,基于预测回采数据对录制音频数据进行回踩消除处理,得到录制音频数据中关于用户的预测干声数据。这样,一方面,区别于现有技术中直接通过回声消除模型来将录制音频数据中的原唱音频进行消除的方式,本技术通过目标歌曲的伴声音频预测得到伴声音频数据在经过回采系统后的预测回采数据,以根据确定预测回采数据和用户的录制音频数据得到关于用户的预测干声数据,从而优化了音频消音处理的流程,提升了对录制音频数据进行音频消音的效率;另一方面,通过预训练完成的回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征,以利用预测音频
特征得到后续关于用户的预测干声数据,从而减少了在对录制音频数据进行音频消除过程中消音不准确和消音不充分的问题,以提高了音频消音处理的有效性和准确性,使得消音处理得到的关于用户的预测干声数据具有较高质量。
106.本领域技术人员可以理解地,在具体实施方式的上述方法中,所揭露的方法可以通过更为具体的方式以实现。例如,以上所描述的电子设备将音频特征输入回采预测模型,由回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征的实施方式仅仅是示意性的。
107.示例性地,电子设备基于预测音频特征,确定针对伴声音频数据的预测回采数据的方式;或者电子设备基于预测回采数据对录制音频数据进行回踩消除处理,得到录制音频数据中关于用户的预测干声数据的方式等等,其仅仅为一种集合的方式,实际实现时可以有另外的划分方式,例如针对伴声音频数据的预测回采数据、关于用户的预测干声数据之间可以结合或者可以集合到另一个系统中,或一些特征可以忽略,或不执行。
108.在一示例性实施例中,参阅图4和图5,图4为本技术中训练回采预测模型一实施例的流程示意图,图5为本技术中训练回采预测模型一实施例的模块示意图。在步骤s11之前,电子设备预先可以执行以下方式的技术内容:
109.步骤a1,获取回采系统的样本激励数据和样本录音数据。
110.在一些实施例中,电子设备获取回采系统的样本激励数据,包括:获取样本音频数据,并基于样本音频数据构建针对回采系统的最大长度序列(mls序列)、格雷码(golay码)和扫频信号中的任意一种数据,然后将该mls序列、golay码或者扫频信号作为样本激励数据。
111.其中,以基于样本音频数据构建针对回采系统的扫频信号为样本激励数据为例,其中,扫频信号全称为播放指数扫频信号(exponential sweep signal,ess)。首先,电子设备构造长度为1s的播放指数扫频信号片段如下:
[0112][0113]
其中,此处的fw表示扫频频宽,本技术使用最大扫频频宽:fw=fs/2,fs表示参照样本音频数据设置的采样率(如采样率可以为44.1khz,8khz),t表示当前扫频信号在扫完0~fw频宽需要的时间,此处t=1s,n表示1s时间对应扫频信号的样点序列,以序列n的取值范围可表示为:0,1,2,

,(n-1),n=fs·
t。
[0114]
在一实施例中,样本录音数据为样本激励数据在经过回采系统后得到的回采数据。具体地,样本录音数据为样本激励数据在回采系统中经过“单讲”录音后得到的回采音频数据。
[0115]
在一实施例中,“单讲”录音表征录音设备音频在回采系统中,对单个发音源发出的音频信号进行录制得到录音音频数据。
[0116]
步骤a2,基于样本激励数据和样本录音数据,确定针对回采系统的模拟回采数据。
[0117]
在一示例性实施例中,参阅图6,图6为本技术中确定模拟回采数据一实施例的模块示意图,电子设备基于样本激励数据和样本录音数据,确定针对回采系统的模拟回采数
据,可以理解为对样本激励数据进行模拟回采处理的过程,具体可以执行以下方式的技术内容:
[0118]
步骤一:对样本激励数据进行频谱调整处理,得到调整后的激励数据。
[0119]
在一些实施例中,频谱调整处理用于模拟样本激励数据在经过回采系统后的频谱损失,并基于频谱损失调整样本激励数据。
[0120]
作为一示例,电子设备利用双二阶滤波器(biquard filter)来模拟样本激励数据在经过回采系统后的频谱损失,其中,滤波器结构如下:
[0121][0122]
其中,电子设备为了保证频谱调整处理的过程处于因果稳定的最小相位(即极零点均在单位圆上或圆内)的条件,配置滤波器的参数取值范围限制如下:
[0123]
b1∈(-0.5,0.5),a1∈(-0.5,0.5),b2∈(-0.5,0.25),a2∈(-0.5,0.25)。
[0124]
其中,在上述参数范围内可以随机选择a1,a2,b1,b2来模拟频谱改变。其中,b1和b2是指的在z域上的零点(相位特征)位置、a1和a2是指的在z域上的极点(因果稳定性)位置,a1,a2,b1,b2都是人为设置的系数。
[0125]
其中,样本激励数据在经过上述双二阶滤波器进行频谱调整处理后,输出的调整后的激励数据表示如下:y
bq
(n)=-a1y
bq
(n-1)-a2y
bq
(n-2)+x
ref
(n)+b1x
ref
(n-1)+b2x
ref
(n-2)。
[0126]
其中,此处以及后续位置的n表示的样本激励数据离散序列的样点索引。
[0127]
步骤二:基于样本激励数据和样本录音数据,确定回采系统的脉冲响应。
[0128]
在一些实施例中,步骤一和步骤二可以同步执行,即步骤一是对样本激励数据进行频谱调整处理,得到调整后的激励数据;步骤二是基于样本激励数据和样本录音数据,确定回采系统的脉冲响应。步骤一和步骤二也可以按照预定顺序先后执行,即步骤一是对样本激励数据进行频谱调整处理,得到调整后的激励数据;步骤二是基于调整后的激励数据和调整后的激励数据所对应的样本录音数据,确定回采系统的脉冲响应。在本技术中这里不做具体限定。
[0129]
在一些实施例中,样本激励数据基于第一信号值序列x(n)表征,样本录音数据基于第二信号值序列y(n)表征。其中,第一信号值序列x(n)中的每一个数值为样本激励数据对应各数据帧的信号值;第二信号值序列y(n)中的每一个数值为样本录音数据对应各数据帧的信号值。
[0130]
在一些实施例中,电子设备基于样本激励数据和样本录音数据,确定回采系统的脉冲响应,包括:基于互相关函数确定第一信号值序列和第二信号值序列之间的互相关值,并将互相关值作为回采系统的脉冲响应。
[0131]
其中,回采系统的脉冲响应可基于如下表达式表征:
[0132][0133]
其中,r(n)为预设的互相关函数(即两种序列的互相关处理过程),n的取值范围:0,1,2,

,(n-1);m的取值范围:0,1,2,

,(m-1),且m<n。
[0134]
步骤三:对调整后的激励数据和脉冲响应进行卷积处理,得到回采系统的初始回采数据。
[0135]
在一些实施例中,电子设备基于预设的卷积函数实现对调整后的激励数据和脉冲响应进行卷积处理,以得到回采系统的初始回采数据,其初始回采数据表达式如下:
[0136]yeir
(n)=conv(y
bq
(n),h
eir
(n)),其中conv(
·
)表示对两种具有时序特性的数据进行的卷积处理。
[0137]
步骤四:对初始回采数据进行数据增益处理,得到回采系统的模拟回采数据。
[0138]
在一些实施例中,由于播放的样本激励数据在经过回采系统的过程会受到其播放音量的大小以及采集设备的采集幅度限制等影响,导致不同影响情况下的模拟回采数据不同,因此,本技术对初始回采数据进行数据增益处理,来降低模拟回采数据在回采系统中受到的影响,其中电子设备对初始回采数据进行数据增益处理,得到回采系统的模拟回采数据可表示为:
[0139]yecho
(n)=g
·yeir
(n),其中g为在[0,1]范围上正态分布的随机系数。
[0140]
步骤a3,提取模拟回采数据的音频特征,并将模拟回采数据的音频特征输入待训练的回采预测模型进行模型训练,由待训练的回采预测模型预测模拟回采数据在经过回采系统后得到的训练音频特征。
[0141]
在一些实施例中,模拟回采数据的音频特征为模拟回采数据真实的音频特征,其包括第一幅频特征和第一相频特征。
[0142]
在一些实施例中,电子设备将模拟回采数据的音频特征输入待训练的回采预测模型进行模型训练之前,还包括:对模拟回采数据依次进行傅里叶变换处理和特征提取处理,得到第一幅频特征和第一相频特征。
[0143]
可以理解为,电子设备将模拟回采数据的第一幅频特征输入待训练的回采预测模型进行模型训练,得到待训练的回采预测模型针对模拟回采数据输出的训练幅频特征,并将该训练幅频特征作为训练音频特征;以及,电子设备将模拟回采数据的第一相频特征输入待训练的回采预测模型进行模型训练,得到待训练的回采预测模型针对模拟回采数据输出的训练相频特征,并将该训练相频特征作为训练音频特征。
[0144]
步骤a4,基于模拟回采数据的音频特征与训练音频特征之间的差异,确定待训练的回采预测模型的模型损失,并根据模型损失调整待训练的回采预测模型,直到得到训练完成的回采预测模型。
[0145]
在一些实施例中,电子设备基于模拟回采数据的第一幅频特征与训练幅频特征之间的差异,确定待训练的回采预测模型的第一模型损失;以及,电子设备基于模拟回采数据的第一相频特征与训练相频特征之间的差异,确定待训练的回采预测模型的第二模型损失。然后,电子设备再根据第一模型损失和第二模型损失调整待训练的回采预测模型,直到得到预训练完成的回采预测模型。
[0146]
其中,电子设备在根据模型损失值调整模型参数时,可以采用梯度下降方法朝着使模型对应的损失值下降的方向对模型参数进行调整。具体地,由于训练音频特征是待训练的回采预测模型训练模拟回采数据而输出的音频特征,因此对于待训练的回采预测模型来说,第一幅频特征与训练幅频特征之间的第一差异,以及第一相频特征与训练相频特征之间的第二差异越小越好,即使得待训练的回采预测模型可以更准确地预测出具有模拟回
采数据的实际音频特征的预测音频特征。
[0147]
因此,电子设备在基于模拟回采数据的第一幅频特征与训练幅频特征之间的差异,确定待训练的回采预测模型的第一模型损失;以及,基于模拟回采数据的第一相频特征与训练相频特征之间的差异,确定待训练的回采预测模型的第二模型损失后,电子设备可以朝着使第一模型损失值和第二模型损失值均变小的方向调整待训练的回采预测模型的模型参数。在对待训练的回采预测模型进行训练的过程中,通过逐步地对模型参数进行调整,直到满足训练结束条件时,可以得到预训练的回采预测模型。其中,在向该回采预测模型输入目标音频数据的实际音频特征之后,该回采预测模型预测目标音频数据在经过回采系统之后得到的关于回采音频数据的预测音频特征。
[0148]
在一实施例中,电子设备在得到预训练完成的回采预测模型之后,并且在将伴声音频数据真实的音频特征输入预训练完成的回采预测模型之前,具体还可以执行以下方式的技术内容:
[0149]
步骤一:对伴声音频数据进行音调调整处理,得到音调调整后的第一处理音频数据。
[0150]
在一些实施例中,为了避免待播放的伴声音频数据可能是伴奏与原唱之间的切换或者是未经过变调后的伴奏或原唱,此时原始伴奏/原唱无法直接作为可回采的伴声音频数据。因此,电子设备首先对伴声音频数据进行音调调整处理,以将伴声音频数据的音调调整到预设的音调区间内,得到音调调整后的第一处理音频数据。
[0151]
步骤二:对第一处理音频数据进行分帧加窗处理,得到分帧加窗后的第二处理音频数据。
[0152]
在一些实施例中,为了便于对第一处理音频数据进行后续的数据处理,电子设备先对第一处理音频数据进行分帧处理,得到多个音频帧数据;再对每个音频帧数据进行加窗处理,以减少每个音频帧数据在非整数个频率周期上进行后续数据处理产生的误差。
[0153]
作为示例,分帧处理可表示:xn(i)=x(n
·
m+i),其中n表示第n帧信号,m表示帧移,i表示第n帧内信号的索引,i的取值范围为0,1,2,

,l-1,其中l表示帧长。本技术使用帧长t
frmhop
=0.02s(秒)帧移t
frmhop
=0.01s(秒)。
[0154]
作为示例,加窗处理可表示:xwn(i)=x
n(i)·
w(i),其中w(i)表示窗函数,i表示第i个样点,本技术使用汉宁(hanning)窗,表达式为:
[0155]
步骤三:对第二处理音频数据进行傅里叶变换处理,得到针对伴声音频数据的复数频谱。
[0156]
在一些实施例中,电子设备首先对伴声音频数据进行傅里叶变换处理,以确定对应变换后的音频数据的复数频谱。
[0157]
在一些实施例中,电子设备除了可以是对伴声音频数据进行傅里叶变换处理之外,还可以是对伴声音频数据进行包括快速傅立叶变换处理、(改进的)离散余弦变换处理、小波变换处理等,这里不做具体限定。
[0158]
作为一示例,第m帧伴声音频数据在经过傅里叶变换处理之后,得到对应第m帧的
复数频谱基于公式表征:
[0159]
其中,k表示帧长(其中,帧长完全等于傅里叶变换的点数)。
[0160]
其中,伴声音频数据对应的复数频谱特征基于x(k)表征。
[0161]
步骤四:基于复数频谱,得到第二相频特征和第二幅频特征。
[0162]
在一些实施例中,电子设备对伴声音频数据的复数频谱进行特征提取处理,以得到第二相频特征和第二幅频特征。
[0163]
作为一示例,幅频响应特征基于公式表征:a
x
(k)=||x(k)||,其中||
·
||表示复数取模操作。
[0164]
其中,相频响应特征基于公式表征:φ
x
(k)=atan2(xr(k),xi(k)),其中xr(k),xi(k)分别表示复数频谱的实部与虚部,即:x(k)=xr(k)+jxi(k),j表示虚数。
[0165]
作为示例,以包括傅里叶变换处理和特征提取处理的应用为例:电子设备设处理后的参考信号的帧长为20ms、采样率为48khz,对应的fft(傅里叶)点数为960。电子设备对第二处理音频数据以正半轴信号做短时傅里叶变换处理,最终得到的第二幅频序列以及第二相频序列的点数均为480。
[0166]
在一实施例中,电子设备在将伴声音频数据的音频特征输入预训练完成的回采预测模型中,得到回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征之后,电子设备基于预测音频特征,确定针对伴声音频数据的预测回采数据,具体可以执行以下方式的技术内容:
[0167]
步骤一:对预测幅频特征和预测相频特征进行特征融合,得到对应的融合特征。
[0168]
在一些实施例中,预测音频特征包括对应于第二相频特征的预测相频特征和对应于第二幅频特征的预测幅频特征。
[0169]
步骤二:对融合特征进行傅里叶逆变换处理,得到预测回采数据。
[0170]
在一些实施例中,电子设备通过相对于傅里叶变换处理的傅里叶逆变换处理方式将融合特征转换为预测回采数据。
[0171]
作为示例,电子设备将对应于第二相频特征的预测相频特征和对应于第二幅频特征的预测幅频特征进行特征融合,再对融合特征进行傅里叶逆变换处理,得到初始的预测回采信号。
[0172]
其中,初始的预测回采信号可表示为:
[0173][0174]
在一些实施例中,电子设备除了对融合特征进行傅里叶逆变换处理之外,还可以对融合特征进行包括快速傅立叶逆变换处理、(改进的)离散余弦逆变换处理、小波逆变换处理等,这里不做具体限定。
[0175]
作为示例,若电子设备是对伴声音频数据进行快速傅立叶变换得到的音频特征,则电子设备对预测音频特征进行快速傅立叶逆变换,以得到预测回采数据;或者,若电子设备是对伴声音频数据进行离散余弦变换得到的音频特征,则电子设备对预测音频特征进行离散余弦逆变换,以得到预测回采数据;或者,若电子设备是对伴声音频数据进行小波变换
得到的音频特征,则电子设备对预测音频特征进行小波逆变换,以得到预测回采数据。
[0176]
为了更清晰阐明本公开实施例提供的音频数据的处理方法,以下以一个具体的实施例对该音频数据的处理方法进行具体说明。在一示例性实施例中,如图7和图8所示,图7提供了一种音频数据的处理方法的流程示意图,图8提供了一种音频数据的处理方法的模块示意图,以该方法应用于图1中的服务器104为例进行说明,该方法包括以下步骤:
[0177]
步骤s21,获取演唱歌曲的用户录音信号和参考信号。
[0178]
其中,用户录音信号为由麦克风采集的“双讲”类型的录音音频信号。
[0179]
其中,“双讲”类型表征对应的音频信号是基于两个发声源所发出的音频信号得到。
[0180]
其中,用户录音信号包括用户的干声音频信号和参考信号的回采信号。
[0181]
其中,参考信号为演唱歌曲所对应的伴奏音频信号/原唱音频信号在经过音调调整之后,得到的“单讲”类型的音频信号。
[0182]
其中,“单讲”类型表征对应的音频信号是基于单个发声源所发出的音频信号得到。
[0183]
其中,回采信号为参考信号在经过dac(数模转换)转换器转换之后,被手机喇叭所播放以传输至麦克风处的音频信号。
[0184]
其中,用户录音信号基于x
in
(n)表征、干声音频信号基于x
clean
(n)表征、回采信号基于x
echo
(n)表征,且x
in
(n)=x
echo
(n)+x
clean
(n)。
[0185]
其中,参考信号基于x
ref
(n)表征。
[0186]
步骤s22,对参考信号依次进行分帧加窗处理,得到处理后的参考信号。
[0187]
其中,分帧表示:xn(i)=x(n
·
m+i),其中n表示第n帧信号,m表示帧移,i表示第n帧内信号的索引,i的取值范围为0,1,2,

,l-1,其中l表示帧长。本技术使用帧长t
frmhop
=0.02s(秒)帧移t
frmhop
=0.01s(秒)。
[0188]
其中,加窗表示:xwn(i)=x
n(i)·
w(i),其中w(i)表示窗函数,i表示第i个样点,本技术使用汉宁(hanning)窗,表达式为:
[0189]
步骤s23,对处理后的参考信号进行短时傅里叶变换处理,得到参考信号对应的复数频谱特征。
[0190]
其中,第m帧处理后的参考信号在经过傅里叶变换处理之后,得到第m帧的复数频谱特征基于如下公式表征:
[0191]
其中,k表示帧长(其中,帧长完全等于傅里叶变换的点数)。
[0192]
其中,参考信号对应的复数频谱特征基于x(k)表征。
[0193]
步骤s24,根据参考信号对应的复数频谱特征,确定参考信号对应的幅频响应特征和相频响应特征。
[0194]
其中,幅频响应特征基于如下公式表征:a
x
(k)=||x(k)||,其中||
·
||表示复数取模操作。
[0195]
其中,相频响应特征基于如下公式表征:φ
x
(k)=atan2(xr(k),xi(k)),其中xr(k),xi(k)分别表示复数频谱的实部与虚部,即:x(k)=xr(k)+jxi(k),j表示虚数。
[0196]
其中,短时傅里叶变换处理的应用实施例:设处理后的参考信号的帧长为20ms、采样率为48khz,对应的fft点数为960。对处理后的参考信号以正半轴信号做短时傅里叶变换处理,最终得到的幅频序列以及相频序列的点数均为480。
[0197]
步骤s25,将参考信号对应的幅频响应特征和相频响应特征输入到预训练的回采预测模型中进行回采预测,得到关于回采信号对应的预测幅频响应特征和预测相频响应特征。
[0198]
其中,模型层设置如下:
[0199]
a),第一全连接层dense(amp)接收幅频特性,使用激活函数sigmoid将幅度调整到[0,1]范围内;数据维数映射到512维。
[0200]
b),第二全连接层dense(phase)将相频特性同样映射到512维空间,基于相频辐角主值范围[-π,π]的分布特点,对phase(相频特征)使用tanh激活函数,将辐角范围映射到[-1,1]范围内。
[0201]
c),一维卷积层:convd1(amp),convd1(phase)选择卷积核维度维5,输出维度维128。
[0202]
d),gru层:gru(amp),gru(phase)输出维度维256,激活函数为tanh。
[0203]
e),第三全连接输出层:dense(echo-amp),dense(echo-pha)将维数映射回480维,该层输出结果应为echo回声对应的幅频、相频特征,即:
[0204]
步骤s26,根据回采信号对应的预测幅频响应特征和预测相频响应特征,得到初始的预测回采信号。
[0205]
其中,电子设备将回采信号对应的预测幅频响应特征和预测相频响应特征进行特征融合,得到初始的预测回采信号。
[0206]
其中,初始的预测回采信号可表示为:
[0207][0208]
步骤s27,对初始的预测回采信号进行短时傅里叶逆变换处理,得到预测回采信号。
[0209]
步骤s28,基于用户录音信号对预测回采信号进行线性相减处理,得到关于用户的预测干声音频信号。
[0210]
其中,预测回采信号基于:y
echo
(n)表征;并且,电子设备假设存在关系y
echo
(n)≈x
echo
(n),以及用户录音信号和预测回采信号两者之间的线性维度相同,则电子设备将用户录音信号减去预测回采信号即可得到关于用户的预测干声音频信号,如下列公式表征:y
clean
(n)=x
in
(n)-y
echo
(n)。
[0211]
这样,一方面,区别于现有技术中直接通过回声消除模型来将录制音频数据中的原唱音频进行消除的方式,本技术通过目标歌曲的伴声音频预测得到伴声音频数据在经过回采系统后的预测回采数据,以根据确定预测回采数据和用户的录制音频数据得到关于用户的预测干声数据,从而优化了音频消音处理的流程,提升了对录制音频数据进行音频消音的效率;另一方面,通过预训练完成的回采预测模型预测伴声音频数据在经过回采系统
后得到的预测音频特征,以利用预测音频特征得到后续关于用户的预测干声数据,从而减少了在对录制音频数据进行音频消除过程中消音不准确和消音不充分的问题,以提高了音频消音处理的有效性和准确性,使得消音处理得到的关于用户的预测干声数据具有较高质量。
[0212]
应该理解的是,虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0213]
可以理解的是,本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见,每个实施例重点说明的是与其他实施例的不同之处,相关之处参见其他方法实施例的说明即可。
[0214]
图9是本技术实施例提供的一种音频数据的处理装置框图。参照图9,该音频数据的处理装置10包括:数据获取单元11、特征预测单元12、回采预测单元13和音频消音单元14。
[0215]
其中,该数据获取单元11,被配置为执行获取用户演唱目标歌曲时的录制音频数据,所述录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和所述用户的干声数据,所述伴声音频数据为所述目标歌曲的原唱音频数据或者背景音频数据;
[0216]
其中,该特征预测单元12,被配置为执行提取所述伴声音频数据的音频特征,并将所述音频特征输入回采预测模型,由所述回采预测模型预测所述伴声音频数据在经过回采系统后得到的预测音频特征;
[0217]
其中,该回采预测单元13,被配置为执行基于所述预测音频特征,确定针对所述伴声音频数据的预测回采数据;
[0218]
其中,该音频消音单元14,被配置为执行基于所述预测回采数据对所述录制音频数据进行回踩消除处理,得到所述录制音频数据中关于所述用户的预测干声数据。
[0219]
在一实施例中,所述伴声音频数据的音频特征包括第二幅频特征和第二相频特征;在所述将所述音频特征输入回采预测模型之前,该音频数据的处理装置10还包括:
[0220]
对所述伴声音频数据进行音调调整处理,得到音调调整后的第一处理音频数据;
[0221]
对所述第一处理音频数据进行分帧加窗处理,得到分帧加窗后的第二处理音频数据;
[0222]
对所述第二处理音频数据进行傅里叶变换处理,得到针对所述伴声音频数据的复数频谱;
[0223]
基于所述复数频谱,得到所述第二相频特征和所述第二幅频特征。
[0224]
在一实施例中,所述预测音频特征包括对应于所述第二相频特征的预测相频特征和对应于所述第二幅频特征的预测幅频特征;在所述基于所述预测音频特征,确定针对所述伴声音频数据的预测回采数据的方面,该音频数据的处理装置10还包括:
[0225]
对所述预测幅频特征和所述预测相频特征进行特征融合,得到对应的融合特征;
[0226]
对所述融合特征进行傅里叶逆变换处理,得到所述预测回采数据。
[0227]
在一实施例中,在所述基于所述预测回采数据对所述录制音频数据进行回踩消除处理,得到所述录制音频数据中关于所述用户的预测干声数据的方面,该音频数据的处理装置10还包括:
[0228]
对所述录制音频数据和所述预测回采数据进行线性相关处理,得到线性相关的录制音频数据和预测回采数据;
[0229]
对所述线性相关的录制音频数据和预测回采数据进行线性相减处理,得到所述预测干声数据。
[0230]
图10是本技术实施例提供的一种回采预测模型的训练装置框图。参照图10,该回采预测模型的训练装置10a包括:样本获取单元11a、数据确定单元12a、模型训练单元13a和模型调整单元14a。
[0231]
其中,该样本获取单元11a,被配置为执行获取所述回采系统的样本激励数据和样本录音数据;所述样本录音数据为所述激励数据在经过所述回采系统后得到的回采数据。
[0232]
其中,该数据确定单元12a,被配置为执行基于所述样本激励数据和所述样本录音数据,确定针对所述回采系统的模拟回采数据。
[0233]
其中,该模型训练单元13a,被配置为执行提取所述模拟回采数据的音频特征,并将所述模拟回采数据的音频特征输入待训练的回采预测模型进行模型训练,由所述待训练的回采预测模型预测所述模拟回采数据在经过所述回采系统后得到的训练音频特征。
[0234]
其中,该模型调整单元14a,被配置为执行基于所述模拟回采数据的音频特征与所述训练音频特征之间的差异,确定所述待训练的回采预测模型的模型损失,并根据所述模型损失调整所述待训练的回采预测模型,直到得到训练完成的回采预测模型。
[0235]
在一实施例中,在所述基于所述样本激励数据和所述样本录音数据,确定针对所述回采系统的模拟回采数据的方面,该数据确定单元12a还包括:
[0236]
对所述样本激励数据进行频谱调整处理,得到调整后的激励数据;所述频谱调整处理用于模拟所述样本激励数据在经过所述回采系统后的频谱损失,并基于所述频谱损失调整所述样本激励数据;以及
[0237]
基于所述样本激励数据和所述样本录音数据,确定所述回采系统的脉冲响应;
[0238]
对所述调整后的激励数据和所述脉冲响应进行卷积处理,得到所述回采系统的初始回采数据;
[0239]
对所述初始回采数据进行数据增益处理,得到所述回采系统的模拟回采数据。
[0240]
在一实施例中,所述样本激励数据基于第一信号值序列表征,所述样本录音数据基于第二信号值序列表征;在所述基于所述样本激励数据和所述样本录音数据,确定所述回采系统的脉冲响应的方面,该数据确定单元12a还包括:
[0241]
基于互相关函数确定所述第一信号值序列和所述第二信号值序列之间的互相关值,并将所述互相关值作为所述回采系统的脉冲响应。
[0242]
在一实施例中,在所述获取所述回采系统的样本激励数据的方面,该样本获取单元11a还包括:
[0243]
获取样本音频数据,并基于所述样本音频数据得到针对所述回采系统的最大长度
序列、格雷码和扫频信号中的任意一种作为所述样本激励数据。
[0244]
在一实施例中,所述模拟回采数据的音频特征包括第一幅频特征和第一相频特征;在所述将所述模拟回采数据的音频特征输入待训练的回采预测模型进行模型训练之前,该回采预测模型的训练装置10a还包括:
[0245]
对所述模拟回采数据依次进行傅里叶变换处理和特征提取处理,得到所述第一幅频特征和所述第一相频特征。
[0246]
图11是本技术实施例提供的一种电子设备20的框图。例如,电子设备20可以为一种服务器、服务器组件或者服务器阵列等等。参照图11,电子设备20包括处理器21,其进一步处理器21可以为处理器集合,其可以包括一个或多个处理器,以及电子设备20包括由存储器22所代表的存储器资源,其中,存储器22上存储有计算机程序,例如应用程序。在存储器22中存储的计算机程序可以包括一个或一个以上的每一个对应于一组可执行指令的模块。此外,处理器21被配置为执行计算机程序时实现如上述的音频数据的处理方法,和/或回采预测模型的训练方法。
[0247]
在一些实施例中,电子设备20为服务器,该电子设备20中的计算系统可以运行一个或多个操作系统,包括以上讨论的任何操作系统以及任何商用的服务器操作系统。该电子设备20还可以运行各种附加服务器应用和/或中间层应用中的任何一种,包括http(超文本传输协议)服务器、ftp(文件传输协议)服务器、cgi(通用网关界面)服务器、超级服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器)等商购获得的数据库服务器。
[0248]
在一些实施例中,处理器21通常控制电子设备20的整体操作,诸如与显示、数据处理、数据通信和记录操作相关联的操作。处理器21可以包括一个或多个处理器组件来执行计算机程序,以完成上述的方法的全部或部分步骤。此外,处理器组件可以包括一个或多个模块,便于处理器组件和其他组件之间的交互。例如,处理器组件可以包括多媒体模块,以方便利用多媒体组件控制用户电子设备20和处理器21之间的交互。
[0249]
在一些实施例中,处理器21中的处理器组件还可以称为cpu(central processing unit,中央处理单元)。处理器组件可能是一种电子芯片,具有信号的处理能力。处理器还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器组件等。另外,处理器组件可以由集成电路芯片共同实现。
[0250]
在一些实施例中,存储器22被配置为存储各种类型的数据以支持在电子设备20的操作。这些数据的示例包括用于在电子设备20上操作的任何应用程序或方法的指令、采集数据、消息、图片、视频等。存储器22可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram)、电可擦除可编程只读存储器(eeprom)、可擦除可编程只读存储器(eprom)、可编程只读存储器(prom)、只读存储器(rom)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。
[0251]
在一些实施例中,存储器22可以为内存条、tf卡等,可以存储电子设备20中的全部
信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器22中。在一些实施例中,它根据处理器指定的位置存入和取出信息。在一些实施例中,有了存储器22,电子设备20才有记忆功能,才能保证正常工作。在一些实施例中,电子设备20的存储器22按用途可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。
[0252]
在一些实施例中,电子设备20还可以包括:电源组件23被配置为执行服务器20的电源管理,有线或无线网络接口24被配置为将服务器20连接到网络,和输入输出(i/o)接口25。电子设备20可以操作基于存储在存储器22的操作系统,例如windows server,mac os x,unix,linux,freebsd或类似。
[0253]
在一些实施例中,电源组件23为电子设备20的各种组件提供电力。电源组件23可以包括电源管理系统,一个或多个电源,及其他与为电子设备20生成、管理和分配电力相关联的组件。
[0254]
在一些实施例中,有线或无线网络接口24被配置为便于电子设备20和其他设备之间有线或无线方式的通信。电子设备20可以接入基于通信标准的无线网络,如wifi,运营商网络(如2g、3g、4g或5g),或它们的组合。
[0255]
在一些实施例中,有线或无线网络接口24经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,有线或无线网络接口24还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
[0256]
在一些实施例中,输入输出(i/o)接口25为处理器21和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
[0257]
图12是本技术实施例提供的一种计算机可读存储介质30的框图。该计算机可读存储介质30上存储有计算机程序31,其中,计算机程序31被处理器执行时实现如上述的音频数据的处理方法,和/或回采预测模型的训练方法。
[0258]
在本技术各个实施例中的各功能单元集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读存储介质30中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机可读存储介质30在一个计算机程序31中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)、电子设备(例如mp3、mp4等,也可以是手机、平板电脑、可穿戴设备等智能终端,也可以是台式电脑等)或者处理器(processor)以执行本技术各个实施方式方法的全部或部分步骤。
[0259]
图13是本技术实施例提供的一种计算机程序产品40的框图。该计算机程序产品40中包括程序指令41,该程序指令41可由服务器20的处理器执行以实现如上述的音频数据的处理方法,和/或回采预测模型的训练方法。
[0260]
本领域内的技术人员应明白,本技术的实施例可提供有音频数据的处理方法、回
采预测模型的训练方法、音频数据的处理装置10、回采预测模型的训练装置10a、服务器20、计算机可读存储介质30或计算机程序产品40。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机程序指令41(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品40的形式。
[0261]
本技术是参照根据本技术实施例中音频数据的处理方法、回采预测模型的训练方法、音频数据的处理装置10、回采预测模型的训练装置10a、服务器20、计算机可读存储介质30或计算机程序产品40的流程图和/或方框图来描述的。应理解可由计算机程序产品40实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序产品40到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的程序指令41产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0262]
这些计算机程序产品40也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机程序产品40中的程序指令41产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0263]
这些程序指令41也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的程序指令41提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0264]
需要说明的,上述的各种方法、装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
[0265]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0266]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

技术特征:
1.一种音频数据的处理方法,其特征在于,所述方法包括:获取用户演唱目标歌曲时的录制音频数据,所述录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和所述用户的干声数据,所述伴声音频数据为所述目标歌曲的原唱音频数据或者背景音频数据;提取所述伴声音频数据的音频特征,并将所述音频特征输入回采预测模型,由所述回采预测模型预测所述伴声音频数据在经过回采系统后得到的预测音频特征;基于所述预测音频特征,确定针对所述伴声音频数据的预测回采数据;基于所述预测回采数据对所述录制音频数据进行回踩消除处理,得到所述录制音频数据中关于所述用户的预测干声数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述回采系统的样本激励数据和样本录音数据;所述样本录音数据为所述激励数据在经过所述回采系统后得到的回采数据;基于所述样本激励数据和所述样本录音数据,确定针对所述回采系统的模拟回采数据;提取所述模拟回采数据的音频特征,并将所述模拟回采数据的音频特征输入待训练的回采预测模型进行模型训练,由所述待训练的回采预测模型预测所述模拟回采数据在经过所述回采系统后得到的训练音频特征;基于所述模拟回采数据的音频特征与所述训练音频特征之间的差异,确定所述待训练的回采预测模型的模型损失,并根据所述模型损失调整所述待训练的回采预测模型,直到得到训练完成的回采预测模型。3.根据权利要求2所述的方法,其特征在于,所述基于所述样本激励数据和所述样本录音数据,确定针对所述回采系统的模拟回采数据,包括:对所述样本激励数据进行频谱调整处理,得到调整后的激励数据;所述频谱调整处理用于模拟所述样本激励数据在经过所述回采系统后的频谱损失,并基于所述频谱损失调整所述样本激励数据;以及基于所述样本激励数据和所述样本录音数据,确定所述回采系统的脉冲响应;对所述调整后的激励数据和所述脉冲响应进行卷积处理,得到所述回采系统的初始回采数据;对所述初始回采数据进行数据增益处理,得到所述回采系统的模拟回采数据。4.根据权利要求3所述的方法,其特征在于,所述样本激励数据基于第一信号值序列表征,所述样本录音数据基于第二信号值序列表征;所述基于所述样本激励数据和所述样本录音数据,确定所述回采系统的脉冲响应,包括:基于互相关函数确定所述第一信号值序列和所述第二信号值序列之间的互相关值,并将所述互相关值作为所述回采系统的脉冲响应。5.根据权利要求2所述的方法,其特征在于,所述获取所述回采系统的样本激励数据,包括:获取样本音频数据,并基于所述样本音频数据得到针对所述回采系统的最大长度序列、格雷码和扫频信号中的任意一种作为所述样本激励数据。6.根据权利要求2所述的方法,其特征在于,所述模拟回采数据的音频特征包括第一幅
频特征和第一相频特征;在所述将所述模拟回采数据的音频特征输入待训练的回采预测模型进行模型训练之前,还包括:对所述模拟回采数据依次进行傅里叶变换处理和特征提取处理,得到所述第一幅频特征和所述第一相频特征。7.根据权利要求1所述的方法,其特征在于,所述伴声音频数据的音频特征包括第二幅频特征和第二相频特征;在所述将所述音频特征输入回采预测模型之前,还包括:对所述伴声音频数据进行音调调整处理,得到音调调整后的第一处理音频数据;对所述第一处理音频数据进行分帧加窗处理,得到分帧加窗后的第二处理音频数据;对所述第二处理音频数据进行傅里叶变换处理,得到针对所述伴声音频数据的复数频谱;基于所述复数频谱,得到所述第二相频特征和所述第二幅频特征。8.根据权利要求7所述的方法,其特征在于,所述预测音频特征包括对应于所述第二相频特征的预测相频特征和对应于所述第二幅频特征的预测幅频特征;所述基于所述预测音频特征,确定针对所述伴声音频数据的预测回采数据,包括:对所述预测幅频特征和所述预测相频特征进行特征融合,得到对应的融合特征;对所述融合特征进行傅里叶逆变换处理,得到所述预测回采数据。9.根据权利要求1所述的方法,其特征在于,所述基于所述预测回采数据对所述录制音频数据进行回踩消除处理,得到所述录制音频数据中关于所述用户的预测干声数据,包括:对所述录制音频数据和所述预测回采数据进行线性相关处理,得到线性相关的录制音频数据和预测回采数据;对所述线性相关的录制音频数据和预测回采数据进行线性相减处理,得到所述预测干声数据。10.一种电子设备,其特征在于,包括:处理器;用于存储所述处理器的可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令,以实现如权利要求1至9中任一项所述的音频数据的处理方法。11.一种计算机可读存储介质,所述计算机可读存储介质中包括程序数据,其特征在于,当所述程序数据由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至9中任一项所述的音频数据的处理方法。

技术总结
本申请涉及一种音频数据的处理方法、电子设备和计算机可读存储介质。所述方法包括:获取用户演唱目标歌曲时的录制音频数据;录制音频数据包括录制到的目标歌曲的伴声音频数据在经过回采系统后得到的回采数据和用户的干声数据;提取伴声音频数据的音频特征,并将音频特征输入回采预测模型,由回采预测模型预测伴声音频数据在经过回采系统后得到的预测音频特征;基于预测音频特征,确定针对伴声音频数据的预测回采数据;基于预测回采数据对录制音频数据进行回踩消除处理,得到录制音频数据中关于用户的预测干声数据。采用本方法能够减少音频消除过程中消音不准确和消音不充分的问题,以及提高音频消音处理的有效性和准确性。性。性。


技术研发人员:张超鹏 邓源强 陈凯 宗旋
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2023.05.23
技术公布日:2023/8/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐