混音处理模型搭建的方法、计算机设备和存储介质与流程

未命名 09-17 阅读:90 评论:0


1.本技术涉及音频处理技术领域,特别是涉及一种混音处理模型搭建的方法、计算机设备、存储介质和计算机程序产品。


背景技术:

2.在音乐制作中,专业的混音师能够将歌手的歌声和多种乐器声整合为一个立体音轨或者单音音轨,以使得到的音乐作品更加美妙动听。
3.传统的混音技术,首先需要分别录制歌声的音轨和乐器声的音轨,然后混音师依据专业经验将不同音轨上的音频信号依次进行调整、叠加,以得到专业的音乐作品。
4.在唱歌平台中,多数用户缺乏独立音轨的录制环境,录制得到的通常是歌声和乐器声已经被混合的音乐作品,因此,传统的混音技术也无法对已经混合的音乐作品再次进行混音处理,在用户缺乏专业的混音能力的情况下,该混合的音乐作品的混音效果也往往较差。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够提高音乐作品的混音效果的混音处理模型搭建的方法、计算机设备、计算机可读存储介质和计算机程序产品。
6.第一方面,本技术提供了一种混音处理模型搭建的方法。所述方法包括:
7.由人声音轨和至少一条伴奏音轨生成混合音频;
8.将所述混合音频,输入至所述音轨分离模块,得到所述混合音频的目标人声音轨和至少一条目标伴奏音轨;
9.根据所述目标人声音轨与所述人声音轨之间的差异,以及所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异,调整所述混音处理模型的第一损失函数;所述第一损失函数用于使所述人声音轨和所述至少一条伴奏音轨分别与所述目标人声音轨和所述至少一条目标伴奏音轨接近;
10.将所述目标人声音轨和所述至少一条目标伴奏音轨,输入至所述音轨混音模块,得到目标混合音频;
11.根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数;所述第二第损失函数用于使所述目标混合音频与所述混合音频接近。
12.在其中一个实施例中,所述根据所述目标人声音轨与所述人声音轨之间的差异,以及所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异,调整所述混音处理模型的第一损失函数,包括:
13.对所述目标人声音轨与所述人声音轨之间的差异和所述人声音轨进行信噪比处理,得到所述目标人声音轨与所述人声音轨之间的人声音轨信噪比;
14.对所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异和所述至少
一条伴奏音轨进行信噪比处理,得到所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的伴奏音轨信噪比;
15.根据所述人声音轨信噪比和所述伴奏音轨信噪比的融合结果,调整所述混音处理模型的第一损失函数。
16.在其中一个实施例中,所述根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数,包括:
17.确定所述混合音频对应的标签混合音频与所述目标混合音频之间的音频差异;
18.对所述音频差异和所述标签混合音频进行信噪比处理,得到所述目标混合音频与所述标签混合音频之间的混音信噪比;
19.根据所述混音信噪比,调整所述混音处理模型的第二损失函数。
20.在其中一个实施例中,由人声音轨和至少一条伴奏音轨生成混合音频,包括:
21.对所述人声音轨和所述至少一条伴奏音轨进行音轨叠加处理,得到所述混合音频。
22.在其中一个实施例中,在根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数之后,还包括:
23.根据所述第一损失函数,对所述音轨分离模块的模型参数进行更新,并根据所述第二损失函数,对所述音轨混音模块的模型参数进行更新,得到训练完成的混音处理模型。
24.在其中一个实施例中,在根据所述第一损失函数,对所述音轨分离模块的模型参数进行更新,并根据所述第二损失函数,对所述音轨混音模块的模型参数进行更新,得到训练完成的混音处理模型之后,还包括:
25.获取原始混合音频;
26.将所述原始混合音频,输入至所述训练完成的混音处理模型中,得到所述原始混合音频的目标混合音频;所述目标混合音频的混音质量高于所述原始混合音频的混音质量。
27.在其中一个实施例中,将所述原始混合音频,输入至所述训练完成的混音处理模型中,得到所述原始混合音频的目标混合音频,包括:
28.将所述原始混合音频,输入至所述训练完成的混音处理模型中的音轨分离模块,得到所述原始混合音频的目标人声音轨、鼓点音轨、贝斯音轨和钢琴音轨;
29.将所述目标人声音轨、所述鼓点音轨、所述贝斯音轨和所述钢琴音轨,输入至所述训练完成的混音处理模型中的音轨混音模块,得到所述原始混合音频的目标混合音频。
30.第二方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
31.由人声音轨和至少一条伴奏音轨生成混合音频;
32.将所述混合音频,输入至所述音轨分离模块,得到所述混合音频的目标人声音轨和至少一条目标伴奏音轨;
33.根据所述目标人声音轨与所述人声音轨之间的差异,以及所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异,调整所述混音处理模型的第一损失函数;所述第一损失函数用于使所述人声音轨和所述至少一条伴奏音轨分别与所述目标人声音轨和所述至少一条目标伴奏音轨接近;
34.将所述目标人声音轨和所述至少一条目标伴奏音轨,输入至所述音轨混音模块,得到目标混合音频;
35.根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数;所述第二第损失函数用于使所述目标混合音频与所述混合音频接近。
36.第三方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
37.由人声音轨和至少一条伴奏音轨生成混合音频;
38.将所述混合音频,输入至所述音轨分离模块,得到所述混合音频的目标人声音轨和至少一条目标伴奏音轨;
39.根据所述目标人声音轨与所述人声音轨之间的差异,以及所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异,调整所述混音处理模型的第一损失函数;所述第一损失函数用于使所述人声音轨和所述至少一条伴奏音轨分别与所述目标人声音轨和所述至少一条目标伴奏音轨接近;
40.将所述目标人声音轨和所述至少一条目标伴奏音轨,输入至所述音轨混音模块,得到目标混合音频;
41.根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数;所述第二第损失函数用于使所述目标混合音频与所述混合音频接近。
42.第四方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
43.由人声音轨和至少一条伴奏音轨生成混合音频;
44.将所述混合音频,输入至所述音轨分离模块,得到所述混合音频的目标人声音轨和至少一条目标伴奏音轨;
45.根据所述目标人声音轨与所述人声音轨之间的差异,以及所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异,调整所述混音处理模型的第一损失函数;所述第一损失函数用于使所述人声音轨和所述至少一条伴奏音轨分别与所述目标人声音轨和所述至少一条目标伴奏音轨接近;
46.将所述目标人声音轨和所述至少一条目标伴奏音轨,输入至所述音轨混音模块,得到目标混合音频;
47.根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数;所述第二第损失函数用于使所述目标混合音频与所述混合音频接近。
48.上述混音处理模型搭建的方法、计算机设备、存储介质和计算机程序产品,通过由人声音轨和至少一条伴奏音轨生成混合音频;进而将混合音频,输入至音轨分离模块,得到混合音频的目标人声音轨和至少一条目标伴奏音轨;根据目标人声音轨与人声音轨之间的差异,以及至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异,调整混音处理模型的第一损失函数;将目标人声音轨和至少一条目标伴奏音轨,输入至音轨混音模块,得到目标混合音频;根据混合音频对应的标签混合音频与目标混合音频之间的差异,调整混音处理
模型的第二损失函数。采用本方法,能够通过第一损失函数,使人声音轨和至少一条伴奏音轨分别与目标人声音轨和至少一条目标伴奏音轨不断接近,同时通过第二损失函数使目标混合音频与混合音频不断接近,不仅能够利用混音处理模型中的音轨分离模块从混合音频中分离出人声音轨和伴奏音轨,还有效的提升了混音处理模型输出的目标混合音频的混音效果,解决了传统技术中无法对混合音频进行二次混音的缺陷,进而还可以通过混音处理模型提高原始音乐作品的混音效果。
附图说明
49.图1为一个实施例中混音处理模型搭建的方法的流程示意图;
50.图2为一个实施例中混音处理模型搭建的方法的原理示意图;
51.图3为一个实施例中获取标签混合音频的原理示意图;
52.图4为一个实施例中获取混合音频的原理示意图;
53.图5为一个实施例中得到原始混合音频的目标混合音频步骤的流程示意图;
54.图6为一个实施例中训练完成的混音处理模型的应用示意图;
55.图7为另一个实施例中混音处理模型搭建的方法的流程示意图;
56.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
57.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
58.在一个实施例中,如图1所示,提供了一种混音处理模型搭建的方法,该方法中的混音处理模型包括音轨分离模块和音轨混音模块,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
59.步骤s101,由人声音轨和至少一条伴奏音轨生成混合音频。
60.其中,人声音轨是指可单独展示和调节处理的、未与其他音频混合的人声音频所在的音频轨道。伴奏音轨是指可单独展示和调节处理的、未与其他音频混合的伴奏音频所在的音频轨道。混合音频是指通过多种音轨(例如人声音频和伴奏音轨)混合得到的音频数据。
61.具体地,图2为混音处理模型搭建的方法的原理示意图,如图2所示,终端可以将人声音轨和至少一条伴奏音轨进行融合,得到混合音频。
62.步骤s102,将混合音频,输入至音轨分离模块,得到混合音频的目标人声音轨和至少一条目标伴奏音轨。
63.其中,音轨分离模块用于将输入的音频数据分离为独立的音轨。实际应用中,音轨分离模块可以通过非负矩阵分解(nonnegative matrix factorization,nmf)实现,还可以通过神经网络实现,例如音轨分离模块可以是u-net结构的神经网络和卷积结构的神经网
络。
64.具体地,在终端获取到混合音频之后,可以将混合音频输入音轨分离模块中,通过音轨分离模块对混合音频进行音轨分离处理,进而音轨分离模块从混合音频中提取出人声的音轨,则终端得到目标人声音轨,同时,音轨分离模块还可以从混合音频中提取出至少一条伴奏的音轨,则终端得到至少一条目标伴奏音轨。
65.步骤s103,根据目标人声音轨与人声音轨之间的差异,以及至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异,调整混音处理模型的第一损失函数;第一损失函数用于使人声音轨和至少一条伴奏音轨分别与目标人声音轨和至少一条目标伴奏音轨接近。
66.具体地,终端可以利用目标人声音轨与人声音轨之间的差异,以及至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异,调整混音处理模型的第一损失函数,从而利用第一损失函数来使音轨分离模块输出的目标人声音轨和至少一条目标伴奏音轨分别与人声音轨和至少一条伴奏音轨不断接近,进而不断提升音轨分离模块的音轨分离准确率。
67.步骤s104,将目标人声音轨和至少一条目标伴奏音轨,输入至音轨混音模块,得到目标混合音频。
68.其中,音轨混音模块用于对音轨进行混音处理。目标混合音频是指对混合音频重新进行混音处理后得到的音频数据。
69.具体地,终端将上述步骤s102中获取到的目标人声音轨和至少一条目标伴奏音轨输入音轨混音模块,通过音轨混音模块对目标人声音轨和至少一条目标伴奏音轨进行混音处理,可以是通过音轨混音模块模拟专业的混音师对目标人声音轨上承载的人声音频和至少一条目标伴奏音轨上承载的伴奏音频进行调整、叠加等多层次的混音处理,从而得到目标人声音轨和至少一条目标伴奏音轨对应的目标混合音频。
70.步骤s105,根据混合音频对应的标签混合音频与目标混合音频之间的差异,调整混音处理模型的第二损失函数;第二第损失函数用于使目标混合音频与混合音频接近。
71.具体地,终端在获取到目标混合音频之后,还可以利用目标混合音频与混合音频之间的差异,调整混音处理模型的第二损失函数,从而利用第二损失函数来使音轨混合模块输出目标混合音频与混合音频不断接近,进而不断提升音轨混合模块的混音效果。最后终端根据训练完成的音轨分离模块和音轨混音模块,构建得到混音处理模型。
72.上述混音处理模型搭建的方法中,由人声音轨和至少一条伴奏音轨生成混合音频;进而将混合音频,输入至音轨分离模块,得到混合音频的目标人声音轨和至少一条目标伴奏音轨;根据目标人声音轨与人声音轨之间的差异,以及至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异,调整混音处理模型的第一损失函数;将目标人声音轨和至少一条目标伴奏音轨,输入至音轨混音模块,得到目标混合音频;根据混合音频对应的标签混合音频与目标混合音频之间的差异,调整混音处理模型的第二损失函数。采用本方法,能够通过第一损失函数,使人声音轨和至少一条伴奏音轨分别与目标人声音轨和至少一条目标伴奏音轨不断接近,同时通过第二损失函数使目标混合音频与混合音频不断接近,不仅能够利用混音处理模型中的音轨分离模块从混合音频中分离出人声音轨和伴奏音轨,还有效的提升了混音处理模型输出的目标混合音频的混音效果,解决了传统技术中无法对混合音频进行二次混音的缺陷,进而还可以通过混音处理模型提高原始音乐作品的混音效果。
73.在一个实施例中,上述步骤s103,根据目标人声音轨与人声音轨之间的差异,以及
至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异,调整混音处理模型的第一损失函数,具体包括如下内容:对目标人声音轨与人声音轨之间的差异和人声音轨进行信噪比处理,得到目标人声音轨与人声音轨之间的人声音轨信噪比;对至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异和至少一条伴奏音轨进行信噪比处理,得到至少一条目标伴奏音轨与至少一条伴奏音轨之间的伴奏音轨信噪比;根据人声音轨信噪比和伴奏音轨信噪比的融合结果,调整混音处理模型的第一损失函数。
74.其中,人声音轨信噪比是指用于评价从输入的音源(例如混合音频)中分离得到的目标人声音轨的指标。伴奏音轨信噪比是指用于评价从输入的音源中分离得到的至少一条目标伴奏音轨的指标。混音处理模型的第一损失函数可以是音源分离技术领域中的评价指标,例如snr(signal-to-noise ratio,信噪比)、si-sdr(scale invariant signal-to-distortion ratio,尺度不变的信号失真比)和sdr(signal-to-distortion ratio,信号失真比)。
75.具体地,终端对目标人声音轨与人声音轨之间的差异和人声音轨进行信噪比处理,可以是将目标人声音轨与人声音轨之间的差异作为分母,将人声音轨的平方作为分子,以得到对应的分数,再对该分数进行对数处理,进而终端得到目标人声音轨与人声音轨之间的人声音轨信噪比。同理,终端对至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异和至少一条伴奏音轨进行信噪比处理,可以是将至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异作为分母,将至少一条伴奏音轨的平方作为分子,以得到对应的分数,再对该分数进行对数处理,进而终端得到至少一条目标伴奏音轨与至少一条伴奏音轨之间的伴奏音轨信噪比。终端对人声音轨信噪比和伴奏音轨信噪比进行融合处理,可以是计算人声音轨信噪比和伴奏音轨信噪的信噪比均值,将信噪比均值作为混音处理模型的第一损失函数;还可以是根据人声音轨信噪比的重要度和伴奏音轨信噪比的重要度,对人声音轨信噪比和伴奏音轨信噪比进行加权处理,得到混音处理模型的第一损失函数。
76.在本实施例中,通过对目标人声音轨与人声音轨之间的差异和人声音轨进行信噪比处理,得到目标人声音轨与人声音轨之间的人声音轨信噪比;对至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异和至少一条伴奏音轨进行信噪比处理,得到至少一条目标伴奏音轨与至少一条伴奏音轨之间的伴奏音轨信噪比;对人声音轨信噪比和伴奏音轨信噪比进行融合处理,得到混音处理模型的第一损失函数,从而能够利用第一损失函数对音轨分离模模块的性能不断优化,以使音轨分离模块具有更佳的音轨分离性能。
77.在一个实施例中,上述步骤s105,根据混合音频对应的标签混合音频与目标混合音频之间的差异,调整混音处理模型的第二损失函数,具体包括如下内容:确定混合音频对应的标签混合音频与目标混合音频之间的音频差异;对音频差异和标签混合音频进行信噪比处理,得到目标混合音频与标签混合音频之间的混音信噪比;根据混音信噪比,调整混音处理模型的第二损失函数。
78.其中,混音信噪比是指用于评价输出得到的目标混合音频的指标。可以理解的是,混音处理模型的第二损失函数也可以是音源分离技术领域中的评价指标,例如snr(signal-to-noise ratio,信噪比)、si-sdr(scale invariant signal-to-distortion ratio,尺度不变的信号失真比)和sdr(signal-to-distortion ratio,信号失真比)。
79.具体地,终端计算得到混合音频对应的标签混合音频与目标混合音频之间的混音
差异,然后对混音差异和标签混合音频进行信噪比处理,可以是将该混音差异作为分母,将标签混合音频的平方作为分子,以得到对应的分数,再对该分数进行对数处理,进而终端得到目标混合音频与标签混合音频之间的混音信噪比,则终端根据混音信噪比来调整(如更新、替换)混音处理模型的第二损失函数。
80.需要说明的是,标签混合音频是指通过人声音轨和至少一条伴奏音轨进行专业混音后得到的音频数据。图3为获取标签混合音频的原理示意图,终端可以对人声音轨和至少一条伴奏音轨进行混音处理,以确定混合音频的标签混合音频。还可以由专业的混音师通过终端对人声音轨和至少一条伴奏音轨进行人工混音处理,得到专业混音结果,将其作为混合音频的标签混合音频。因而标签混合音频的混音效果明显高于混合音频的混音效果。
81.在本实施例中,通过对混合音频对应的标签混合音频与目标混合音频之间的混音差异和标签混合音频进行信噪比处理,得到目标混合音频与标签混合音频之间的混音信噪比;将混音信噪比作为混音处理模型的第二损失函数,从而能够利用该第二损失函数对混音处理模型的模型参数不断优化,以使混音处理模型具有更好的混音性能。
82.在一个实施例中,上述步骤s101,由人声音轨和至少一条伴奏音轨生成混合音频,具体包括如下内容:对人声音轨和至少一条伴奏音轨进行音轨叠加处理,得到混合音频。
83.具体地,图4为获取混合音频的原理示意图,终端可以将人声音轨和至少一条伴奏音轨进行音轨叠加处理,以生成与人声音轨和至少一条伴奏音轨对应的混合音频。终端进行音轨叠加处理,可以是将人声音轨上的人声音频和至少一条伴奏音轨上的伴奏音频进行音频融合,则终端得到混合音频;还可以是将人声音轨上的人声音频和至少一条伴奏音轨上的伴奏音频同时播放,然后记录人声音频和伴奏音频同时播放的音频信号,则终端也可以得到的混合音频。
84.在本实施例中,通过对人声音轨和至少一条伴奏音轨进行音轨叠加处理来得到混合音频;从而获取到混音效果显著不同的混合音频和标签混合音频。通过混音效果较差的混合音频模拟非专业的用户或常规软件进行非专业混音处理后得到的音乐作品,通过混音效果较好的标签混合音频模拟专业混音师进行专业混音处理后得到的高质量的音乐作品,以便混音处理模型将标签混合音频作为学习目标,使其输出的目标混合音频不断接近标签混合音频的混音效果,从而提高了混音处理模型对混合音频的混音效果。
85.在一个实施例中,在根据混合音频对应的标签混合音频与目标混合音频之间的差异,调整混音处理模型的第二损失函数之后,还包括:根据第一损失函数,对音轨分离模块的模型参数进行更新,并根据第二损失函数,对音轨混音模块的模型参数进行更新,得到训练完成的混音处理模型。
86.具体地,终端在获取到混音处理模型的第一损失函数和第二损失函数之后,还可以利用第一损失函数和第二损失函数,对混音处理模型中的音轨分离模块的模型参数和音轨混音模块的模型参数进行同步更新,直到混音处理模型收敛为止,则终端得到训练完成的混音处理模型。
87.在本实施例中,根据第一损失函数和第二损失函数,对混音处理模型中音轨分离模块的模型参数和音轨混音模块的模型参数进行更新,得到训练完成的混音处理模型,使得训练完成的混音处理模型不仅学习了人声音轨和至少一条伴奏音轨音轨,还学习了标签混合音频,使得训练完成的混音处理模型不仅能够对混合音频进行二次混音,还能进一步
提升得到的目标混合音频的混音效果。
88.在一个实施例中,如图5所示,在根据第一损失函数,对音轨分离模块的模型参数进行更新,并根据第二损失函数,对音轨混音模块的模型参数进行更新,得到训练完成的混音处理模型之后,还包括:
89.步骤s501,获取原始混合音频。
90.其中,原始混合音频是指通过多种音轨混合得到的音频数据。例如,混合音频可以是用户对演唱作品经过简单混音后得到的音频数据,混合音频还可以是k歌场景中录制得到的音乐成品。
91.具体地,用户可以将需要重新进行混音处理的原始混合音频发送至终端,进而终端接收该原始混合音频。终端也可以从音频库中获取需要重新进行混音处理的原始混合音频。
92.步骤s502,将原始混合音频,输入至训练完成的混音处理模型中,得到原始混合音频的目标混合音频;目标混合音频的混音质量高于原始混合音频的混音质量。
93.具体地,在终端获取到原始混合音频之后,可以将原始混合音频输入训练完成的混音处理模型中的音轨分离模块,通过音轨分离模块对混合音频进行音轨分离处理,得到原始混合音频的目标人声音轨和至少一条目标伴奏音轨,从而终端可以将获取到的目标人声音轨和至少一条目标伴奏音轨输入训练完成的混音处理模型中的音轨混音模块,通过音轨混音模块对目标人声音轨和至少一条目标伴奏音轨进行混音处理,得到原始混合音频的目标混合音频。
94.图6为训练完成的混音处理模型的应用示意图,如图6所示,在实际应用中,用户可以将原始音乐作品的音频数据(即原始混合音频)发送至终端,进而终端将原始混合音频,输入至训练完成的混音处理模型,通过训练完成的混音处理模型对该原始混合音频进行音轨分离处理和混音处理,得到原始混合音频的目标混合音频,而无需依赖用户采集独立的音轨。
95.在本实施例中,通过获取原始混合音频;将原始混合音频,输入至训练完成的混音处理模型中,得到原始混合音频的目标混合音频,解决传统技术中无法对混合音频进行二次混音的缺陷,从而实现了对原始混合音频的混音效果提升,尤其是在缺乏独立音轨采集能力和专业混音处理能力的场景,更能显著的提升原始音乐作品的混音效果。
96.在一个实施例中,将原始混合音频,输入至训练完成的混音处理模型中,得到原始混合音频的目标混合音频,具体包括如下内容:将原始混合音频,输入至训练完成的混音处理模型中的音轨分离模块,得到原始混合音频的目标人声音轨、鼓点音轨、贝斯音轨和钢琴音轨;将目标人声音轨、鼓点音轨、贝斯音轨和钢琴音轨,输入至训练完成的混音处理模型中的音轨混音模块,得到原始混合音频的目标混合音频。
97.具体地,伴奏音轨可以是鼓点音轨、贝斯音轨和钢琴音轨中的至少一个。在原始混合音频的伴奏中包含有鼓点、贝斯和钢琴三种乐器的音频的情况下,终端将原始混合音频,输入至训练完成的混音处理模型中的音轨分离模块,通过音轨分离模块处理得到原始混合音频的目标人声音轨、鼓点音轨、贝斯音轨和钢琴音轨。然后终端将目标人声音轨、鼓点音轨、贝斯音轨和钢琴音轨输入音轨混音模块中,以通过音轨混音模块对目标人声音轨、鼓点音轨、贝斯音轨和钢琴音轨进行混音处理,进而终端得到始混合音频的目标混合音频。
98.在本实施例中,在伴奏音轨的种类较多的情况下,训练完成的混音处理模型仍可以实现对原始混合音频的音轨准确分离和重新混音处理,有效的提高了原始混合音频的混音效果,还无需单独采集人声音频和多种伴奏音频的独立音轨,提高了原始混合音频的混音处理效率,还提高了处理得到的目标混合音频的混音质量。
99.在一个实施例中,如图7所示,提供了另一种混音处理模型搭建的方法,以该方法应用于终端为例进行说明,包括以下步骤:
100.步骤s701,对人声音轨和至少一条伴奏音轨进行音轨叠加处理,得到混合音频。
101.步骤s702,将混合音频,输入至音轨分离模块,得到混合音频的目标人声音轨和至少一条目标伴奏音轨。
102.步骤s703,对目标人声音轨与人声音轨之间的差异和人声音轨进行信噪比处理,得到目标人声音轨与人声音轨之间的人声音轨信噪比。
103.步骤s704,对至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异和至少一条伴奏音轨进行信噪比处理,得到至少一条目标伴奏音轨与至少一条伴奏音轨之间的伴奏音轨信噪比。
104.步骤s705,根据人声音轨信噪比和伴奏音轨信噪比的融合结果,调整混音处理模型的第一损失函数。
105.其中,第一损失函数用于使人声音轨和至少一条伴奏音轨分别与目标人声音轨和至少一条目标伴奏音轨接近。
106.步骤s706,将目标人声音轨和至少一条目标伴奏音轨,输入至音轨混音模块,得到目标混合音频。
107.步骤s707,确定混合音频对应的标签混合音频与目标混合音频之间的音频差异;对音频差异和标签混合音频进行信噪比处理,得到目标混合音频与标签混合音频之间的混音信噪比。
108.步骤s708,根据混音信噪比,调整混音处理模型的第二损失函数。
109.其中,第二第损失函数用于使目标混合音频与混合音频接近。
110.步骤s709,根据第一损失函数,对音轨分离模块的模型参数进行更新,并根据第二损失函数,对音轨混音模块的模型参数进行更新,得到训练完成的混音处理模型。
111.上述混音处理模型搭建的方法,能够实现以下有益效果:能够通过第一损失函数,使人声音轨和至少一条伴奏音轨分别与目标人声音轨和至少一条目标伴奏音轨不断接近,同时通过第二损失函数使目标混合音频与混合音频不断接近,不仅能够利用混音处理模型中的音轨分离模块从混合音频中分离出人声音轨和伴奏音轨,还有效的提升了混音处理模型输出的目标混合音频的混音效果,解决了传统技术中无法对混合音频进行二次混音的缺陷,进而还可以通过混音处理模型提高原始音乐作品的混音效果。
112.为了更清晰阐明本公开实施例提供的混音处理模型搭建的方法,以下以一个具体的实施例对上述混音处理模型搭建的方法进行具体说明。提供了又一种混音处理模型搭建的方法,可以应用于终端,具体包括如下内容:终端在得到训练完成的混音处理模型之后,用户可以将录制的个人音乐作品上传到k歌平台上,终端获取到k歌平台中的个人音乐作品,然后将个人音乐作品输入至训练完成的混音处理模型中的音轨分离模块,得到个人音乐作品的目标人声音轨和至少一条目标伴奏音轨;进而终端将目标人声音轨和至少一条目
标伴奏音轨,输入至训练完成的混音处理模型中的音轨混音模块,得到个人音乐作品经过重新混音后的目标混合音频,并将目标混合音频展示给用户。
113.在本实施例中,通过训练完成的混音处理模型为用户的个人音乐作品进行重新混音处理,从而获取到混音效果比个人音乐作品更加的目标混合音频,提高了对原始混合音频的混音处理效果,还无需用户具备独立音轨采集能力和专业混音处理能力,大大提高了混音处理效率。
114.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
115.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种混音处理模型搭建的方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
116.本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
117.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
118.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
119.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
120.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
121.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
122.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
123.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:
1.一种混音处理模型搭建的方法,所述方法包括音轨分离模块和音轨混音模块,其特征在于,所述方法包括:由人声音轨和至少一条伴奏音轨生成混合音频;将所述混合音频,输入至所述音轨分离模块,得到所述混合音频的目标人声音轨和至少一条目标伴奏音轨;根据所述目标人声音轨与所述人声音轨之间的差异,以及所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异,调整所述混音处理模型的第一损失函数;所述第一损失函数用于使所述人声音轨和所述至少一条伴奏音轨分别与所述目标人声音轨和所述至少一条目标伴奏音轨接近;将所述目标人声音轨和所述至少一条目标伴奏音轨,输入至所述音轨混音模块,得到目标混合音频;根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数;所述第二第损失函数用于使所述目标混合音频与所述混合音频接近。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标人声音轨与所述人声音轨之间的差异,以及所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异,调整所述混音处理模型的第一损失函数,包括:对所述目标人声音轨与所述人声音轨之间的差异和所述人声音轨进行信噪比处理,得到所述目标人声音轨与所述人声音轨之间的人声音轨信噪比;对所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的差异和所述至少一条伴奏音轨进行信噪比处理,得到所述至少一条目标伴奏音轨与所述至少一条伴奏音轨之间的伴奏音轨信噪比;根据所述人声音轨信噪比和所述伴奏音轨信噪比的融合结果,调整所述混音处理模型的第一损失函数。3.根据权利要求1所述的方法,其特征在于,所述根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数,包括:确定所述混合音频对应的标签混合音频与所述目标混合音频之间的音频差异;对所述音频差异和所述标签混合音频进行信噪比处理,得到所述目标混合音频与所述标签混合音频之间的混音信噪比;根据所述混音信噪比,调整所述混音处理模型的第二损失函数。4.根据权利要求1所述的方法,其特征在于,所述由人声音轨和至少一条伴奏音轨生成混合音频,包括:对所述人声音轨和所述至少一条伴奏音轨进行音轨叠加处理,得到所述混合音频。5.根据权利要求1所述的方法,其特征在于,在根据所述混合音频对应的标签混合音频与所述目标混合音频之间的差异,调整所述混音处理模型的第二损失函数之后,还包括:根据所述第一损失函数,对所述音轨分离模块的模型参数进行更新,并根据所述第二损失函数,对所述音轨混音模块的模型参数进行更新,得到训练完成的混音处理模型。6.根据权利要求5所述的方法,其特征在于,在根据所述第一损失函数,对所述音轨分离模块的模型参数进行更新,并根据所述第二损失函数,对所述音轨混音模块的模型参数
进行更新,得到训练完成的混音处理模型之后,还包括:获取原始混合音频;将所述原始混合音频,输入至所述训练完成的混音处理模型中,得到所述原始混合音频的目标混合音频;所述目标混合音频的混音质量高于所述原始混合音频的混音质量。7.根据权利要求6所述的方法,其特征在于,所述将所述原始混合音频,输入至所述训练完成的混音处理模型中,得到所述原始混合音频的目标混合音频,包括:将所述原始混合音频,输入至所述训练完成的混音处理模型中的音轨分离模块,得到所述原始混合音频的目标人声音轨、鼓点音轨、贝斯音轨和钢琴音轨;将所述目标人声音轨、所述鼓点音轨、所述贝斯音轨和所述钢琴音轨,输入至所述训练完成的混音处理模型中的音轨混音模块,得到所述原始混合音频的目标混合音频。8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种混音处理模型搭建方法、计算机设备、存储介质和计算机程序产品。所述方法包括:由人声音轨和至少一条伴奏音轨生成混合音频;将混合音频,输入至音轨分离模块,得到混合音频的目标人声音轨和至少一条目标伴奏音轨;根据目标人声音轨与人声音轨之间的差异,以及至少一条目标伴奏音轨与至少一条伴奏音轨之间的差异,调整混音处理模型的第一损失函数;将目标人声音轨和至少一条目标伴奏音轨,输入至音轨混音模块,得到目标混合音频;根据混合音频对应的标签混合音频与目标混合音频之间的差异,调整混音处理模型的第二损失函数;第二第损失函数用于使目标混合音频与混合音频接近。采用本方法能够提高音乐作品的混音效果。效果。效果。


技术研发人员:江益靓 翁志强 姜涛 寇志娟 李革委
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2023.04.06
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐