一种一键消人声原音方法及系统与流程

未命名 07-12 阅读：78 评论：0

1.本发明涉及伴奏制作技术领域，具体为一种一键消人声原音方法及系统。

背景技术：

2.唱歌软件，是近年来随着互联网发展而兴起的音乐内容社群应用，其提供播放背景音乐和录音的功能，使用户可以通过软件在线上唱歌。对于唱歌软件来说，伴奏是十分重要的，在一些情况下，需要通过对含有人声的歌曲进行处理，消除歌曲中的人声，从而得到伴奏。
3.汽车智能座舱的兴起，良好的音响系统和汽车大屏使得车内karaoke成为必备功能，现有karaokeapp软件都是在歌曲源头进行伴奏切换，即一首歌有原音和伴奏两种数据。但是这种模式依赖于app库的歌曲数量，很难快速覆盖大量歌曲和最新最热的歌曲，在目前的人声消除技术中，一般是利用人声在左右两个声道中基本相同的特点，通过将两个声道中的信号直接取反相加的方法来消除人声。
4.现有的消人声原因的方法在使用时存在以下弊端：无法使得用户在听任何歌曲时都可以一键消除人声，获得伴奏曲；无法根据输入的次人声信号中音调的准确性，自动开启或关闭伴奏模式，达到音乐与伴奏之间互相转化的效果；无法根据次人声信号的情况，进行针对性消音，从而定制相适配的伴奏。
5.为此我们提出一种一键消人声原音方法及系统用于解决上述问题。

技术实现要素：

6.本发明的目的在于提供一种一键消人声原音方法及系统，以解决上述背景技术中提出的问题。
7.为实现上述目的，本发明提供如下技术方案：一种一键消人声原音方法，包括以下步骤：
8.获取目标音频信号，将立体声输入声道进行混音，以增强背景声环绕效果，并输入该音频；
9.根据用户的需要自动消除相关的原人声信号，并形成最终音频，
10.控制播放结果，将采集到的次人声信号按照人声音色进行标记，并将其与消除原人声的音频段落结合，根据次人声音色标记分别导出相对应的结果，可选择多个人声信号中的一个进行播放，查看播放结果。
11.优选的，所述自动消除相关的原人声信号过程如下：
12.识别原人声信号与次人声信号，并将输入的次人声信号的音调与原人声信号的音调进行对比，判断两者的匹配程度；
13.采集环境音频信息，环境音频信息包括次人声信号与非人声信号，预先设置原音调的阈值m，并获取次人声信号输入的音调t，将次人声的音调t与阈值m进行对比；
14.根据次人声与原人声对比后的跑调程度与跑调时间判断是否需要启动消音模式，
15.根据对比结果，判断该次人声信号与伴奏的匹配程度，用于控制消音模式的开启与关闭，
16.建立数据库，对次人声信号进行存储，将输入的次人声所对应的音乐建立模型并存储；
17.消除该音频段落中的人声信号，截取具备人声信号的音频段落，采用滤波器对该段音频中人声段外的背景声段滤波保留，并将左右声道的歌曲音频相减，对歌曲中的人声消除，同时最大限度的保存歌曲的背景音，将输入音频的人声段用fir数字滤波器滤除，将背景音滤波混入音量控制，在人声消除后，进行混音，即可以消除人声又可以最大限度的保存歌曲的背景音，采用延迟的调整项目，使得混音前两者相位一致，防止由于在滤除人声时使用的fir滤波器，对相位产生一定的偏移；
18.将消除人声的部分音频段信号插入原音频信号中，并将消除完人声后的背景声混入音量控制。
19.优选的，所述是否跑调判断过程如下：
20.预先设定跑调时间的阈值s；
21.通过语言端点检测次人声信号输入的起始点，并将次人声信号输入的终点进行端点检测，判断该端点距离起始点的整体时间：
22.当终点与起始点之间的时间s大于跑调时间预先设定阈值s时，则判断次人声信号输入时存在跑调的时间；
23.当终点与起始点之间的时间s位于跑调时间预先设定阈值s的范围内时，则继续监测终点的位置，判断其与预先设定阈值最大值的关系。
24.优选的，所述匹配程度分为轻微跑调、无跑调与严重跑调。
25.优选的，所述匹配程度判断过程如下：
26.当t∈m，则为无跑调，自动开启消音模式，对原人声音调进行消除；
27.当s∈s,则为轻微跑调，自动开启消音模式，对原人声音调进行消除；
28.当则为严重跑调，自动关闭消音模式，播放原人声音调；
29.当检测到次人声音调t回到阈值m范围内，则自动开启消音模式，对原人声音调进行消除，保证伴奏可以根据输入的次人声信号中音调的准确性，自动开启或关闭伴奏模式，使得演唱效果更佳，达到音乐与伴奏之间互相转化的效果。
30.优选的，所述伴奏音频存储过程如下：设置存储时间阈值，超出时间阈值，则根据用户音乐演唱重新建立模型并存储，当在存储时间阈值内，次人声重新播放该音乐时，则自动启动该模型，使其根据用户的熟悉程度进行伴奏；
31.对于同一首音乐，预先设置若干个不同音色的次人声信息存储位置，并依照建立时间顺序分别将其标记为n1、n2
…
nt，
32.当输入的次人声信号不属于[n1，nt]时，则自动取代模型建立最早的次人声存储内容，进行重新标记并依照建立时间顺序将其排列；
[0033]
当输入的次人声信号属于[n1，nt]时，则根据用户距离存储时间最近一次的次人声输入进行更新。
[0034]
优选的，对检测到的所述次人声信号并对其进行增强，对检测到的所述非人声信号进行抑制。
[0035]
优选的，所述消除该音频段落中的人声信号中，预先记录目标音频中背景音乐衔接的标准值，将消音后的音频与标准值相比，判断衔接效果。
[0036]
一种一键消人声原音系统，包括：
[0037]
获取模块，配置为获取目标音频并传输至消音模块对其进行处理；
[0038]
消音模块，配置为接受并响应于获取模块传输的目标音频，对其进行消音处理，输出至控制模块；
[0039]
控制模块，配置为接收并相应于消音模块传输的处理后的音频。
[0040]
优选的，所述消音模块包括，
[0041]
采集单元，用于获取环境音频信息并将其传输至识别单元；
[0042]
识别单元，用于接收并响应于采集单元采集的环境音频信息，从该信息中识别出次人声信号与非人声信号，并进行归类，并将该信号传输至对比单元中；
[0043]
获取单元，用于获取次人声信号输入的时间点以及次人声信号的音调，并对次人声信号的时间点和音调进行记录；
[0044]
对比单元，用于接收并响应于获取单元传输的次人声信号的音调与时间点，比较其与预先设置音调阈值和时间阈值的结果，判断是否启动消音单元；
[0045]
消音单元，用于接收并响应于对比单元传输的结果，并根据次人声信号对目标音频进行消音，将消音后的音频传输值数据库中；
[0046]
数据库，用于接收并响应于消音单元传输的处理后的音频，并对其进行标记分类，将其导出至控制模块中。
[0047]
与现有技术相比，本发明的有益效果是：
[0048]
1.利用歌曲录制时人声与伴奏的为后期混音，将双声道的歌曲音频相减即可将歌曲中的人声消除，并在声道相减前将人声段外的背景声段滤波保留，在声道相减后再进行混音，达到既可以消除人声又可以最大限度的保存歌曲的背景音的效果；
[0049]
2.能够根据输入的次人声信号中音调的准确性，自动开启或关闭伴奏模式，达到音乐与伴奏之间互相转化的效果；
[0050]
3.能够根据次人声信号的情况，进行针对性消音，从而定制相适配的伴奏。
附图说明
[0051]
为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0052]
图1为本发明的整体方法流程示意图；
[0053]
图2为本发明的步骤s2子步骤的流程示意图；
[0054]
图3为本发明的系统结构框图；
[0055]
图4为本发明的步骤s25子步骤的流程示意图。
[0056]
附图中，各标号所代表的部件列表如下：
[0057]
1、获取模块；2、消音模块；3、控制模块；21、采集单元；22、识别单元；23、获取单元；24、对比单元；25、消音单元；26、数据库。
具体实施方式
[0058]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0059]
实施例1
[0060]
请参阅图1至图4，本发明提供一种一键消人声原音方法及系统技术方案：一种一键消人声原音方法，包括以下步骤：
[0061]
s1：获取目标音频信号，通过背景声音增强手柄将立体声输入声道进行混音，以增强背景声环绕效果，并输入该音频；
[0062]
s2：根据用户的需要自动消除相关的原人声信号，并形成最终音频，原人声信号为目标音频中的演唱人员的人声信号，
[0063]
s21：识别原人声信号与次人声信号，并将输入的次人声信号的音调与原人声信号的音调进行对比，判断两者的匹配程度，匹配程度分为轻微跑调、无跑调与严重跑调，次人声信号是环境中出现的其他的演唱该曲目的人声信号；
[0064]
s22：采集环境音频信息，环境音频信息包括次人声信号与非人声信号，预先设置原音调的阈值m，检测次人声信号并对其进行增强，检测非人声信号并进行抑制，并获取次人声信号输入的音调t，将次人声的音调t与阈值m进行对比，通过将次人声信号与非人声信号进行增强与抑制处理能够麦克风等能够更好的识别次人声信号，减少其他声音信号扰乱的情况，更方便判断是否存在音调不合的情况，从而判断需要在什么时间段进行自动消音，提高伴奏效果；
[0065]
预先设定跑调时间的阈值s，根据次人声与原人声对比后的跑调程度与跑调时间判断是否需要启动消音模式；
[0066]
通过语言端点检测次人声信号输入的起始点，并将次人声信号输入的终点进行端点检测，判断该端点距离起始点的整体时间：
[0067]
当终点与起始点之间的时间s大于跑调时间预先设定阈值s时，则判断次人声信号输入时存在跑调的时间；
[0068]
当终点与起始点之间的时间s位于跑调时间预先设定阈值s的范围内时，则继续监测终点的位置，判断其与预先设定阈值最大值的关系；
[0069]
s23：根据对比结果，判断该次人声信号与伴奏的匹配程度，用于控制消音模式的开启与关闭，
[0070]
当t∈m，则为无跑调，自动开启消音模式，对原人声音调进行消除；
[0071]
当s∈s,则为轻微跑调，自动开启消音模式，对原人声音调进行消除；
[0072]
当则为严重跑调，自动关闭消音模式，播放原人声音调；
[0073]
当检测到次人声音调t回到阈值m范围内，则自动开启消音模式，对原人声音调进行消除，保证伴奏可以根据输入的次人声信号中音调的准确性，自动开启或关闭伴奏模式，使得演唱效果更佳，达到音乐与伴奏之间互相转化的效果；
[0074]
s24：建立数据库，对次人声信号进行存储，将输入的次人声所对应的音乐建立模型并存储，设置存储时间阈值，超出时间阈值，则根据用户音乐演唱重新建立模型并存储，
当在存储时间阈值内，次人声重新播放该音乐时，则自动启动该模型，使其根据用户的熟悉程度进行伴奏；
[0075]
对于同一首音乐，预先设置若干个不同音色的次人声信息存储位置，并依照建立时间顺序分别将其标记为n1、n2
…
nt，
[0076]
当输入的次人声信号不属于[n1，nt]时，则自动取代模型建立最早的次人声存储内容，进行重新标记并依照建立时间顺序将其排列；
[0077]
当输入的次人声信号属于[n1，nt]时，则根据用户距离存储时间最近一次的次人声输入进行更新；
[0078]
s25：消除该音频段落中的人声信号，截取具备人声信号的音频段落，采用滤波器对该段音频中人声段外的背景声段滤波保留，通过语音取消手柄将左右声道的歌曲音频相减，对歌曲中的人声消除，同时最大限度的保存歌曲的背景音，通过背景声音过滤器手柄将输入音频的人声段用fir数字滤波器滤除，防止造成背景色音乐的非线性相位偏移的情况，通过背景增益控制将背景音滤波混入音量控制，数字滤波器包括高通滤波器和低通滤波器，在人声消除后，进行混音，即可以消除人声又可以最大限度的保存歌曲的背景音，通过相位延迟手柄使得混音前两者相位一致，防止由于在滤除人声时使用的fir滤波器，对相位产生一定的偏移；
[0079]
将消除人声的部分音频段信号插入原音频信号中，并与标准值相比，判断衔接效果，使其与原音频相匹配，通过语音增益控制将消除完人声后的背景声混入音量控制；
[0080]
s3：控制播放结果，将采集到的次人声信号按照人声音色进行标记，并将其与消除原人声的音频段落结合，根据次人声音色标记分别导出相对应的结果，可选择多个人声信号中的一个进行播放，查看播放结果。
[0081]
一种一键消人声原音系统，包括：
[0082]
获取模块，配置为获取目标音频并传输至消音模块对其进行处理，通过麦克风等设备预先录入目标音频；
[0083]
消音模块，配置为接受并响应于获取模块传输的目标音频，对其进行消音处理，输出至控制模块；
[0084]
消音模块包括，
[0085]
采集单元，用于获取环境音频信息并将其传输至识别单元，
[0086]
识别单元，用于接收并响应于采集单元采集的环境音频信息，从该信息中识别出次人声信号与非人声信号，并进行归类，并将该信号传输至对比单元中，
[0087]
获取单元，用于获取次人声信号输入的时间点以及次人声信号的音调，并对次人声信号的时间点和音调进行记录，
[0088]
对比单元，用于接收并响应于获取单元传输的次人声信号的音调与时间点，比较其与预先设置音调阈值和时间阈值的结果，判断是否启动消音单元，
[0089]
消音单元，用于接收并响应于对比单元传输的结果，并根据次人声信号对目标音频进行消音，将消音后的音频传输值数据库中，
[0090]
数据库，用于接收并响应于消音单元传输的处理后的音频，并对其进行标记分类，将其导出至控制模块中；
[0091]
获取目标音频以及输入的人声信号，人声信号可以为相关人员的演唱曲调，目标
音频可以为演唱的曲目原音频，将人声信号的音调与目标音频的信号进行对比，判断是否存在音调不准的情况，根据音调相符情况判断是否需要进行原人声消除，从而使得伴奏可以跟随输入人声的人员进行个性化定制，并对定制后的伴奏进行存储，方便下次使用；
[0092]
控制模块，配置为接收并相应于消音模块传输的处理后的音频。
[0093]
本发明，利用歌曲录制时人声与伴奏的为后期混音，将双声道的歌曲音频相减即可将歌曲中的人声消除，并在声道相减前将人声段外的背景声段滤波保留，在声道相减后再进行混音，达到既可以消除人声又可以最大限度的保存歌曲的背景音的效果；能够根据输入的次人声信号中音调的准确性，自动开启或关闭伴奏模式，达到音乐与伴奏之间互相转化的效果；能够根据次人声信号的情况，进行针对性消音，从而定制相适配的伴奏。
[0094]
在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0095]
尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

技术特征：
1.一种一键消人声原音方法，其特征在于，包括以下步骤：获取目标音频信号，将立体声输入声道进行混音，以增强背景声环绕效果，并输入该音频；根据用户的需要自动消除相关的原人声信号，并形成最终音频；控制播放结果，将采集到的次人声信号按照人声音色进行标记，并将其与消除原人声的音频段落结合，根据次人声音色标记分别导出相对应的结果，可选择多个人声信号中的一个进行播放，查看播放结果。2.根据权利要求1所述的一种一键消人声原音方法，其特征在于：所述自动消除相关的原人声信号过程如下：识别原人声信号与次人声信号，并将输入的次人声信号的音调与原人声信号的音调进行对比，判断两者的匹配程度；采集环境音频信息，环境音频信息包括次人声信号与非人声信号，预先设置原音调的阈值m，并获取次人声信号输入的音调t，将次人声的音调t与阈值m进行对比；根据次人声与原人声对比后的跑调程度与跑调时间判断是否需要启动消音模式，根据对比结果，判断该次人声信号与伴奏的匹配程度，用于控制消音模式的开启与关闭，建立数据库，对次人声信号进行存储，将输入的次人声所对应的音乐建立模型并存储；消除该音频段落中的人声信号，截取具备人声信号的音频段落，采用滤波器对该段音频中人声段外的背景声段滤波保留，并将左右声道的歌曲音频相减，对歌曲中的人声消除，同时最大限度的保存歌曲的背景音，将输入音频的人声段用fir数字滤波器滤除，将背景音滤波混入音量控制，在人声消除后，进行混音，即可以消除人声又可以最大限度的保存歌曲的背景音，采用延迟的调整项目，使得混音前两者相位一致，防止由于在滤除人声时使用的fir滤波器，对相位产生一定的偏移；将消除人声的部分音频段信号插入原音频信号中，并将消除完人声后的背景声混入音量控制。3.根据权利要求1所述的一种一键消人声原音方法，其特征在于：所述是否跑调判断过程如下：预先设定跑调时间的阈值s；通过语言端点检测次人声信号输入的起始点，并将次人声信号输入的终点进行端点检测，判断该端点距离起始点的整体时间：当终点与起始点之间的时间s大于跑调时间预先设定阈值s时，则判断次人声信号输入时存在跑调的时间；当终点与起始点之间的时间s位于跑调时间预先设定阈值s的范围内时，则继续监测终点的位置，判断其与预先设定阈值最大值的关系。4.根据权利要求1所述的一种一键消人声原音方法，其特征在于：所述匹配程度分为轻微跑调、无跑调与严重跑调。5.根据权利要求1所述的一种一键消人声原音方法，其特征在于：所述匹配程度判断过程如下：当t∈m，则为无跑调，自动开启消音模式，对原人声音调进行消除；
当s∈s,则为轻微跑调，自动开启消音模式，对原人声音调进行消除；当则为严重跑调，自动关闭消音模式，播放原人声音调；当检测到次人声音调t回到阈值m范围内，则自动开启消音模式，对原人声音调进行消除，保证伴奏可以根据输入的次人声信号中音调的准确性，自动开启或关闭伴奏模式，使得演唱效果更佳，达到音乐与伴奏之间互相转化的效果。6.根据权利要求1所述的一种一键消人声原音方法，其特征在于：所述伴奏音频存储过程如下：设置存储时间阈值，超出时间阈值，则根据用户音乐演唱重新建立模型并存储，当在存储时间阈值内，次人声重新播放该音乐时，则自动启动该模型，使其根据用户的熟悉程度进行伴奏；对于同一首音乐，预先设置若干个不同音色的次人声信息存储位置，并依照建立时间顺序分别将其标记为n1、n2
…
nt，当输入的次人声信号不属于[n1，nt]时，则自动取代模型建立最早的次人声存储内容，进行重新标记并依照建立时间顺序将其排列；当输入的次人声信号属于[n1，nt]时，则根据用户距离存储时间最近一次的次人声输入进行更新。7.根据权利要求1所述的一种一键消人声原音方法，其特征在于：对检测到的所述次人声信号并对其进行增强，对检测到的所述非人声信号进行抑制。8.根据权利要求1所述的一种一键消人声原音方法，其特征在于：所述消除该音频段落中的人声信号中，预先记录目标音频中背景音乐衔接的标准值，将消音后的音频与标准值相比，判断衔接效果。9.一种一键消人声原音系统，其特征在于，包括：获取模块，配置为获取目标音频并传输至消音模块对其进行处理；消音模块，配置为接受并响应于获取模块传输的目标音频，对其进行消音处理，输出至控制模块；控制模块，配置为接收并相应于消音模块传输的处理后的音频。10.根据权利要求9所述的一种一键消人声原音方法及系统，其特征在于：所述消音模块包括，采集单元，用于获取环境音频信息并将其传输至识别单元；识别单元，用于接收并响应于采集单元采集的环境音频信息，从该信息中识别出次人声信号与非人声信号，并进行归类，并将该信号传输至对比单元中；获取单元，用于获取次人声信号输入的时间点以及次人声信号的音调，并对次人声信号的时间点和音调进行记录；对比单元，用于接收并响应于获取单元传输的次人声信号的音调与时间点，比较其与预先设置音调阈值和时间阈值的结果，判断是否启动消音单元；消音单元，用于接收并响应于对比单元传输的结果，并根据次人声信号对目标音频进行消音，将消音后的音频传输值数据库中；数据库，用于接收并响应于消音单元传输的处理后的音频，并对其进行标记分类，将其导出至控制模块中。

技术总结
本发明公开了伴奏制作技术领域的一种一键消人声原音方法及系统，一种一键消人声原音方法，包括以下步骤：获取目标音频信号，将立体声输入声道进行混音，以增强背景声环绕效果，并输入该音频；根据用户的需要自动消除相关的原人声信号，并形成最终音频，控制播放结果，将采集到的次人声信号按照人声音色进行标记，并将其与消除原人声的音频段落结合，根据次人声音色标记分别导出相对应的结果，可选择多个人声信号中的一个进行播放，查看播放结果，能够根据输入的次人声信号中音调的准确性，自动开启或关闭伴奏模式，进行针对性消音，从而定制相适配的伴奏，达到音乐与伴奏之间互相转化的效果。效果。效果。

技术研发人员：蒋勇凯
受保护的技术使用者：上海大嘴鸭电子科技有限公司
技术研发日：2023.03.22
技术公布日：2023/7/7

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种温度检测电路和温度控制系统的制作方法 下一篇：一种单列高速包装机的制作方法

一种一键消人声原音方法及系统与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种一键消人声原音方法及系统与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表