噪声估计方法、装置、介质和设备与流程
未命名
09-20
阅读:70
评论:0

1.本技术涉及蓝牙音频编解码技术领域,特别涉及一种噪声估计方法、装置、存储介质和电子设备。
背景技术:
2.气导麦克风采集到的信号是语音和噪声混合的信号,在现有的语音降噪算法中,为消除噪音通常采用谱减法或维纳滤波法等算法,采用现有技术进行降噪时都需要估计噪声存在的概率。这种在假定噪声特性平稳的前提下,即噪声的概率不仅与当前帧的特性有关还与当前帧以前的帧的特性有关,采取平滑算法计算噪声存在概率的方法会导致如下问题:
3.1、噪声估计不足:实际的噪声中会有不平稳的成分,帧间平滑处理会导致有突发噪声时当前帧的噪声估计不足,使得噪声消除算法无法完全消除噪声,较多的残留噪声会降低用户体验;
4.2、噪声估计过度:在非平稳的噪声环境中,也存在过渡估计噪声的情况,即将一部分语音估计成噪声,使得噪声消除算法在消除噪声的同时消除了一部分语音,同样降低了用户体验。
技术实现要素:
5.针对现有技术存在的噪声估计不足和噪声估计过度的问题,本技术主要提供一种噪声估计方法、装置、存储介质和电子设备。
6.为了实现上述目的,本技术采用的第一个技术方案是:提供一种噪声估计方法,其包括:利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理;在语音信号未完成降噪处理时,利用气导语音信号计算得到语音信号中是否存在音频信号的第一语音概率;根据骨导语音信号的幅度谱,判断语音信号是否为纯噪声帧,并在语音信号为非纯噪声帧时,根据骨导语音信号的幅度谱,修正第一语音概率,得到第二语音概率;根据气导语音信号的长期后置滤波处理后的参数和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率。
7.可选的,对每一帧语音信号的第三语音概率进行平滑处理,并利用处理后的第三语音概率计算得到语音信号对应的噪声增益;利用噪声增益对语音信号进行去噪处理。
8.可选的,利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理,包括:当语音信号的带宽小于奈奎斯特带宽时,则判断接收的语音信号已完成降噪处理;当语音信号的带宽等于奈奎斯特带宽时,则判断接收的语音信号未完成降噪处理。
9.可选的,利用气导语音信号计算得到语音信号中是否存在音频信号的第一语音概率,包括:利用气导语音信号的谱系数,计算得到气导语音信号在频域的平滑功率谱;利用平滑功率谱,计算得到气导语音信号在时域的递归平均值;利用递归平均值,计算得到每一帧气导语音信号对应的功率谱最小值;利用功率谱最小值和递归平均值,计算得到递归平
均值和功率谱最小值之间的比值;以及利用比值计算得到语音信号中是否存在音频信号的第一语音概率。
10.可选的,根据骨导语音信号的幅度谱,判断语音信号是否为纯噪声帧,并在语音信号为非纯噪声帧时,根据骨导语音信号的幅度谱,修正第一语音概率,得到第二语音概率包括:在骨导语音信号的幅度谱不大于预设的噪声幅度门限值,且骨导语音信号的幅度谱不大于预设的噪声幅度门限值所对应的数量不小于预设的噪声判决门限值时,判定语音信号是纯噪声帧,并在语音信号是纯噪声帧对第一语音概率进行修正,得到第二语音概率。
11.可选的,根据气导语音信号的长期后置滤波处理后的参数和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率,包括:在长期后置滤波模块中,利用气导语音信号获取语音信号的当前帧是否存在基音标志、整数基音延迟信息和分数基音延迟信息;根据是否存在基音标志,判断当前帧中是否包含基音,并在当前帧中包含基音时,利用整数基音延迟信息和分数基音延迟信息计算得到基音频率索引和谐波频率索引;利用基音频率索引、谐波频率索引和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率。
12.可选的,利用处理后的第三语音概率计算得到语音信号对应的噪声增益,包括:
13.利用处理后的第三语音概率计算得到时频相关的平滑因子;利用平滑因子估算得到噪声谱;以及利用噪声谱计算得到先验信噪比,并利用先验信噪比计算得到噪声增益。
14.本技术采用的第二个技术方案是:提供一种噪声估计装置,其包括:带宽检测模块,用于利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理;第一语音概率获取模块,用于在语音信号未完成降噪处理时,利用气导语音信号计算得到语音信号中是否存在音频信号的第一语音概率;第二语音概率获取模块,用于根据骨导语音信号的幅度谱,判断语音信号是否为纯噪声帧,并在语音信号为非纯噪声帧时,根据骨导语音信号的幅度谱,修正第一语音概率,得到第二语音概率;第三语音概率获取模块,用于根据气导语音信号的长期后置滤波处理后的参数和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率
15.可选的,噪声估计装置,还包括:增益获取模块,用于对每一帧语音信号的第三语音概率进行平滑处理,并利用处理后的第三语音概率计算得到语音信号对应的噪声增益;去噪模块,用于利用噪声增益对语音信号进行去噪处理。
16.可选的,带宽检测模块,包括:用于当语音信号的带宽小于奈奎斯特带宽时,则判断接收的语音信号已完成降噪处理;当语音信号的带宽等于奈奎斯特带宽时,则判断接收的语音信号未完成降噪处理的模块。
17.可选的,第一语音概率获取模块包括:用于利用气导语音信号的谱系数,计算得到气导语音信号在频域的平滑功率谱;利用平滑功率谱,计算得到气导语音信号在时域的递归平均值;利用递归平均值,计算得到每一帧气导语音信号对应的功率谱最小值;利用功率谱最小值和递归平均值,计算得到递归平均值和功率谱最小值之间的比值;以及利用比值计算得到语音信号中是否存在音频信号的第一语音概率的模块。
18.可选的,第二语音概率获取模块包括:用于在骨导语音信号的幅度谱不大于预设的噪声幅度门限值,且骨导语音信号的幅度谱不大于预设的噪声幅度门限值所对应的数量不小于预设的噪声判决门限值时,判定语音信号是纯噪声帧,并在语音信号是纯噪声帧对
第一语音概率进行修正,得到第二语音概率的模块。
19.可选的,第三语音概率获取模块,包括:用于在长期后置滤波模块中,利用气导语音信号获取语音信号的当前帧是否存在基音标志、整数基音延迟信息和分数基音延迟信息;根据是否存在基音标志,判断当前帧中是否包含基音,并在当前帧中包含基音时,利用整数基音延迟信息和分数基音延迟信息计算得到基音频率索引和谐波频率索引;利用基音频率索引、谐波频率索引和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率的模块。
20.可选的,增益获取模块,包括:用于利用处理后的第三语音概率计算得到时频相关的平滑因子;利用平滑因子估算得到噪声谱;以及利用噪声谱计算得到先验信噪比,并利用先验信噪比计算得到噪声增益的模块。
21.本技术采用的第三个技术方案是:提供一种计算机可读存储介质,其存储有计算机程序/指令,该计算机程序/指令被操作以执行方案一中的噪声估计方法。
22.本技术采用的第四个技术方案是:提供一种计算机设备,包括存储器、处理器以及存储在存储器上的计算机程序,该处理器执行计算机程序以实现方案一中的噪声估计方法。
23.本技术采用的第五个技术方案是:提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如方案一中的噪声估计方法。
24.本技术的技术方案可以达到的有益效果是:在不增加算法延迟的条件下,通过准确的估计噪声,保证了降噪效果,同时,通过将降噪与语音编码结合在一起,实现共用部分算法模块,降低算力需求。
附图说明
25.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
26.图1是本技术一种噪声估计方法的一个具体实施方式的示意图;
27.图2是本技术一种噪声估计方法的编码流程的示意图;
28.图3是本技术一种噪声估计方法的基于气导语音信号修正第二语音概率的流程的示意图;
29.图4是本技术一种噪声估计装置的一个具体实施方式的示意图。
30.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
31.下面结合附图对本技术的较佳实施例进行详细阐述,以使本技术的优点和特征能更易于被本领域技术人员理解,从而对本技术的保护范围做出更为清楚明确的界定。
32.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实
体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
33.下面,以具体的实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面述及的具体的实施例可以相互结合形成新的实施例。对于在一个实施例中描述过的相同或相似的思想或过程,可能在其他某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
34.图1示出了本技术一种噪声估计方法的一个实施方式。
35.图1所示的噪声估计方法,包括:步骤s101,利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理;
36.步骤s102,在语音信号未完成降噪处理时,利用气导语音信号计算得到语音信号中是否存在音频信号的第一语音概率;
37.步骤s103,根据骨导语音信号的幅度谱,判断语音信号是否为纯噪声帧,并在语音信号为非纯噪声帧时,根据骨导语音信号的幅度谱,修正第一语音概率,得到第二语音概率;
38.步骤s104,根据气导语音信号的长期后置滤波处理后的参数和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率。
39.该具体实施方式,能够准确的估计噪声,特别是对于基音及其谐波成分的噪声估计,避免了现有技术中将部分语音成分估计为噪声导致音质降低,确保了音频的音质,提高了用户体验,同时通过将降噪与语音编码结合在一起,实现共用部分算法模块,降低算力需求。
40.具体的,图2是本技术一种噪声估计方法的编码流程的示意图。如图2所示,在编码过程中通过将带噪气导语音和骨导语音分别进行低延迟改进型离散余弦变换得到带噪的气导谱系数和纯净的骨导谱系数。获取长期后置滤波器的相关参数和带宽检测的相关参数,利用以上相关参数,以及带噪的气导谱系数和纯净的骨导谱系数进行降噪处理,得到降噪的气导谱系数,并利用降噪的气导谱系数执行后续的编码处理步骤,得到去噪的音频码流。
41.在图1所示的实施方式中,噪声估计方法包括步骤s101,利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理。该步骤能够减少去噪计算过程中不必要的重复计算,节约算力,同时能够降低重复降噪造成的音质降低。
42.在本技术的一个具体实施例中,步骤s101包括,当语音信号的带宽小于奈奎斯特带宽时,则判断接收的语音信号已完成降噪处理;当语音信号的带宽等于奈奎斯特带宽时,则判断接收的语音信号未完成降噪处理。
43.具体的,在现实情形中存在编码器接收到的语音信号已经进行了降噪处理,即语音信号的带宽小于奈奎斯特带宽,此时若不进行判断仍旧对语音信号进行降噪处理,会因为重复降噪降低音质。例如,在电信网络中,远端的信号其音频采样率为8khz(带宽4khz)的
语音信号,而近端的蓝牙音频编码器的输入语音信号为采样率16khz(带宽仍然为4khz)的语音信号,其采样率不同而带宽相同的原因是电信网络中的某模块执行了重采样,譬如说基站或手机的基带,此种情形下的语音信号通常已经执行过降噪,因此当真实带宽小于奈奎斯特带宽时,则说明此语音信号来自网络,可以认为其已经执行过降噪处理。
44.在图1所示的实施方式中,噪声估计方法包括步骤s102,在语音信号未完成降噪处理时,利用气导语音信号计算得到语音信号中是否存在音频信号的第一语音概率。
45.在本技术的一个具体实施例中,步骤s102包括,利用气导语音信号的谱系数,计算得到气导语音信号在频域的平滑功率谱;利用平滑功率谱,计算得到气导语音信号在时域的递归平均值;利用递归平均值,计算得到每一帧气导语音信号对应的功率谱最小值;利用功率谱最小值和递归平均值,计算得到递归平均值和功率谱最小值之间的比值;以及利用比值计算得到语音信号中是否存在音频信号的第一语音概率。
46.具体的,在图2所示的降噪模块中,利用气导语音信号的谱系数(即图2中的带噪谱系数)计算气导语音信号在频域的平滑功率谱,其计算公式如下:计算气导语音信号在频域的平滑功率谱,其计算公式如下:其中x
ac
(k)为气导语音信号的谱系数,l是帧序号,b(i)是求取平滑功率谱的窗函数,sf(k,l)是频域的平滑功率谱。
47.然后,利用平滑功率谱,计算得到气导语音信号在时域的递归平均值,其计算过程如下:s(k,l)=αss(k,l-1)+(1-αs)sf(k,l),其中s(k,l)是时域的递归平均值,αs是用于计算递归平均值的平滑因子。
48.然后,利用递归平均值,计算得到每一帧气导语音信号对应的功率谱最小值,即对递归平均值进行初始化处理得到功率谱最小值和临时变量,其处理结果为:s
min
(k,0)=s(k,0)和s
tmp
(k,0)=s(k,0),其中s
min
(k,0)指初始化的功率谱最小值,s
tmp
(k,0)指初始化的临时变量。
49.计算每一帧信号的功率谱最小值和临时变量的最小值,其计算过程如下:s
min
(k,l)=min{s
min
(k,l-1),s(k,l)};s
tmp
(k,l)=min{s
tmp
(k,l-1),s(k,l)},其中s
min
(k,l)是指第l帧语音信号的功率谱最小值,s
tmp
(k,l)是指第l帧语音信号的临时变量的最小值。
50.因为功率谱最小值和临时变量最小值的变换较慢,为避免遇到非平稳噪声没有及时处理的问题,本技术对功率谱最小值和临时变量最小值定期进行初始化,即对于气导语音信号,每l帧气导语音信号计算完成功率谱最小值和临时变量的最小值,需要重新进行初始化,最终得到新的第l帧的功率谱最小值和递归平均值,即
51.s
min
(k,l)=min{s
tmp
(k,l-1),s(k,l)}
52.s
tmp
(k,l)=s(k,l)
53.利用功率谱最小值和递归平均值,计算得到递归平均值和功率谱最小值之间的比值:其中sr(k,l)为递归平均值和功率谱最小值之间的比值。
54.根据上述比值得到语音信号中是否存在音频信号的第一语音概率,
[0055][0056]
其中,p
voice
(k,l)为当前帧中是否存在音频信号的第一语音概率,p
voice
(k,l)=1表示当前帧的当前子带对应的全部是音频信号,p
voice
(k,l)=0表示当前帧的当前子带对应
的全部是噪声信号,δ表示语音存在的概率门限。
[0057]
计算第一语音概率的方法由于噪声的非平稳性以及有时噪声能量大的特点,会存在估计的语音概率不准确的问题,因此需要进行概率校准,使得计算得到的概率更加准确。
[0058]
在图1所示的实施方式中,噪声估计方法包括步骤s103,根据骨导语音信号的幅度谱,判断语音信号是否为纯噪声帧,并在语音信号为非纯噪声帧时,根据骨导语音信号的幅度谱,修正第一语音概率,得到第二语音概率。该步骤能够使计算得到的概率更加准确,能够有效的避免噪声估计不足和噪声估计过度问题,进一步保证音质。
[0059]
在本技术的一个具体实施例中,步骤s103包括,在骨导语音信号的幅度谱不大于预设的噪声幅度门限值,且骨导语音信号的幅度谱不大于预设的噪声判决门限值所对应的数量不小于预设的噪声判决门限值时,判定语音信号是纯噪声帧,并在语音信号是纯噪声帧对第一语音概率进行修正,得到第二语音概率。该具体实施例能够提升噪声估计的准确度和及时性,基于语音通话的统计特性,语音通话过程中约65%的时间不说话,因此基于骨导语音信号可以将65%的噪音帧提取出来,减少后续的计算量,同时当噪声特性发生变化时,也便于噪声谱的及时更新,提高噪声估计的准确性。
[0060]
具体的,由于骨导语音的优点是抗干扰性强,即骨导语音中只有很少的环境噪声或者没有噪声,基于此特点可以利用骨导语音信号判断当前帧是否包含有效的语音成分。即在骨导语音信号的幅度谱不大于预设的噪声幅度门限值,且骨导语音信号的幅度谱不大于预设的噪声幅度门限值所对应的数量不小于预设的噪声判决门限值时,判定语音信号是纯噪声帧,在以上两个条件均不满足或任一条件不满足时,判定语音信号是非纯噪声帧。其中,骨导语音信号的幅度谱不大于预设的噪声幅度门限值所对应的数量是指在判断每一帧骨导语音信号的幅度谱是否不大于预设的噪声幅度门限值时,在判断得到骨导语音信号的幅度谱不大于预设的噪声幅度门限值时对其对应的次数进行计数,当前帧中骨导语音信号的幅度谱不大于预设的噪声幅度门限值的计数值即为骨导语音信号的幅度谱不大于预设的噪声幅度门限值所对应的数量,以及,在语音信号是纯噪声帧时修正第一语音概率,得到第二语音概率,在语音信号是语音帧时,不对第一语音概率进行修正,此处认为第一语音概率计算得到的概率是准确的。
[0061]
例如,骨导语音信号的谱系数为:x
bc
(k),k=0
…nf-1,则对应的骨导语音信号的幅度谱为:|x
bc
(k)|,k=0
…nf-1,噪声幅度门限值为噪声判决门限骨导语音信号的幅度谱不大于预设的噪声幅度门限值所对应的数量为c
noise
。其中,nf为帧长。
[0062]
在当前帧的骨导语音信号的幅度谱|x
bc
(k)|不大于噪声幅度门限且数量c
noise
不小于噪声判决门限时,在当前帧满足以上条件时则说明幅度谱中大部分的能量都很小,符合纯噪声的统计特点,则判定当前帧为纯噪声帧,将当前帧的所有频率索引对应的语音存在概率设为0。其中,上述门限值的具体取值根据典型的骨导语音信号计算,且与ld-mdct的具体实施方式有关,在一个典型的实施例中以16khz采样率、帧长10ms的配置为例,nf为160,噪声幅度门限可以取值5.0,为150,即时,判决当前帧为纯噪音帧,在判断当前帧为纯噪声帧时修正第一语音概率。
[0063]
其简要的计算机程序语言如下:
[0064]cnoise
=0
[0065]
for k=0
…nf-1{
[0066][0067]cnoise
=c
noise
+1}
[0068][0069]
p
voice
(k)=0,k=0
…nf-1。
[0070]
在图1所示的实施方式中,噪声估计方法包括步骤s104,根据气导语音信号的长期后置滤波处理后的参数和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率。该步骤进一步修正了噪声估计概率不准确问题,能够进一步保证语音噪声估计的准确性。
[0071]
在本技术的一个具体实施例中,步骤s104包括,在长期后置滤波模块中,利用气导语音信号获取语音信号的当前帧是否存在基音标志、整数基音延迟信息和分数基音延迟信息;根据是否存在基音标志,判断当前帧中是否包含基音,并在当前帧中包含基音时,利用整数基音延迟信息和分数基音延迟信息计算得到基音频率索引和谐波频率索引;利用基音频率索引、谐波频率索引和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率。
[0072]
具体的,图3是本技术一种噪声估计方法的基于气导语音信号修正二语音概率的流程的示意图。如图3,利用ltpf模块(长期后置滤波模块)对气导语音信号进行处理,得到当前帧是否存在基音的标志(pitch_present)、整数基音延迟(pitch_int)和分数基音延迟(pitch_fr)首先根据pitch_present的值,判断当前帧中包含的基音成分的强弱,在基音成分较强时,基于气导语音信号的ltpf结果和气导语音信号的幅度谱修正第二语音概率。例如,当pitch_present=1时,说明当前帧有较强的基音成分,其中的噪声能量也比较强,而在噪声能量比较强时,使用现有技术进行噪声估计会将部分语音成分估计为噪声,导致降噪后的音质下降,为了避免在估计噪声时将部分语音特别是基音成分,估计为噪声,需要利用气导语音信号的ltpf结果和气导语音的幅度谱修正第二语音概率。其具体的修正方法如下:
[0073]
根据获取得到的pitch_int与pitch_fr计算基音频率索引及其谐波的频率索引,基音频率索引的计算公式是:谐波的频率索引的计算公式是:第一谐波频率索引:harmonic
freqindex1
=2*pitch
freqindex
、第二谐波频率索引:harmonic
freqindex2
=3*pitch
freqindex
、第n谐波频率索引:harmonic
freqindexn
=(n+1)*pitch
freqindex
。
[0074]
遍历基音频率索引和谐波频率索引,得到存在较强语音能量的频率索引,并修改其对应的语音存在概率。例如,对于pitch
freqindex
其判决方法如下:
[0075][0076]
p
voice
(pitch
freqindex-1)=1
[0077][0078]
p
voice
(pitch
freqindex
)=1
[0079]
[0080]
p
voice
(pitch
freqindex
+1)=1
[0081]
其中,表示当前的基音频率索引对应的是基音或对应的是基音的谐波成分,需要被判别为语音,为判别基音成分的门限值,其可以根据典型的场景取经验值,以浮点ld-mdct为例,可以取20.0,|x
ac
|是气导语音的幅度谱。
[0082]
根据上述判决方法,计算得到所需的基音频率索引pitch
freqindex
,同时能够判断出pitch
freqindex-1与pitch
freqindex
+1是pitch
freqindex
附近可能存在较强语音能量的频率索引。
[0083]
在本技术的一个具体实施例中,在噪声估计方法还包括,对每一帧语音信号的第三语音概率进行平滑处理,并利用处理后的第三语音概率计算得到语音信号对应的噪声增益;以及,利用噪声增益对语音信号进行去噪处理。
[0084]
在本技术的一个具体实施例中,上述步骤包括,利用处理后的第三语音概率计算得到时频相关的平滑因子;利用平滑因子估算得到噪声谱;以及利用噪声谱计算得到先验信噪比,并利用先验信噪比计算得到噪声增益。
[0085]
具体的,对每一帧的第三语音存在概率执行平滑操作,其处理过程如下:p(k,l)=α
p
p(k,l-1)+(1-α
p
)p
voice
(k,l),其中,α
p
为避免语音概率剧烈波动的平滑因子,p
voice
(k,l)表示第l帧的第k子带对应的语音存在概率,即第三语音存在概率,p(k,l-1)代表第l-1帧的第k子带对应的语音存在概率。然后利用平滑处理后的第三语音存在概率计算时频相关的平滑因子,其计算公式为αs(k,l)=αd+(1-αd)p(k,l),其中,αd为平滑因子,0<αd<1,优选的,αd取值为0.9。
[0086]
根据平滑因子估算得到噪声谱,其具体计算过程如下:n(k,l)=αs(k,l)n(k,l-1)+(1-αs(k,l))|x
ac
(k,l)|2,其中n(k,l)为噪声谱。
[0087]
利用利用噪声谱先计算得到后验信噪比,其计算过程如下:然后利用后验信噪比计算先验信噪比,其计算过程如下:ξ(k,l)=αg2(k,l-1)γ(k,l-1)+(1-α)max(γ(k,l)-1,0)其中,0<α<1,优选的α取值为0.8。
[0088]
然后,根据先验信噪比计算降噪增益,其计算过程如下:
[0089]
最后,根据计算得到的增益,利用如下公式对气导语音的音频谱系数进行处理,得到降噪的气导谱系数,x
ac
(k,l)=x
ac
(k,l)
·
g(k,l),for k=0
…nf-1。
[0090]
图4示出了本技术一种噪声估计装置的具体实施方式。
[0091]
在图4所示的具体实施方式中,噪声估计装置主要包括:带宽检测模块401,用于利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理;
[0092]
第一语音概率获取模块402,用于在语音信号未完成降噪处理时,利用气导语音信号计算得到语音信号中是否存在音频信号的第一语音概率;
[0093]
第二语音概率获取模块403,用于根据骨导语音信号的幅度谱,判断语音信号是否为纯噪声帧,并在语音信号为非纯噪声帧时,根据骨导语音信号的幅度谱,修正第一语音概率,得到第二语音概率;
[0094]
第三语音概率获取模块404,用于根据气导语音信号的长期后置滤波处理后的参数和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率
[0095]
在本技术的一个具体实施例中,噪声估计装置还包括,增益获取模块,用于对每一
帧语音信号的第二语音概率进行平滑处理,并利用处理后的第二语音概率计算得到语音信号对应的噪声增益;以及,去噪模块,用于利用噪声增益对语音信号进行去噪处理。
[0096]
在本技术的一个具体实施例中,带宽检测模块401,包括:用于当语音信号的带宽小于奈奎斯特带宽时,则判断接收的语音信号已完成降噪处理;当语音信号的带宽等于奈奎斯特带宽时,则判断接收的语音信号未完成降噪处理的模块。
[0097]
在本技术的一个具体实施例中,第一语音概率获取模块402包括:用于利用气导语音信号的谱系数,计算得到气导语音信号在频域的平滑功率谱;利用平滑功率谱,计算得到气导语音信号在时域的递归平均值;利用递归平均值,计算得到每一帧气导语音信号对应的功率谱最小值;利用功率谱最小值和递归平均值,计算得到递归平均值和功率谱最小值之间的比值;以及利用比值计算得到语音信号中是否存在音频信号的第一语音概率的模块。
[0098]
在本技术的一个具体实施例中,第二语音概率获取模块403包括:用于在骨导语音信号的幅度谱不大于预设的噪声幅度门限值,且骨导语音信号的幅度谱不大于预设的噪声幅度门限值所对应的数量不小于预设的噪声判决门限值时,判定语音信号是纯噪声帧的模块,并在语音信号是纯噪声帧对第一语音概率进行修正,得到第二语音概率。
[0099]
在本技术的一个具体实施例中,第三语音概率获取模块404,包括:用于在长期后置滤波模块中,利用气导语音信号获取语音信号的当前帧是否存在基音标志、整数基音延迟信息和分数基音延迟信息;根据是否存在基音标志,判断当前帧中是否包含基音,并在当前帧中包含基音时,利用整数基音延迟信息和分数基音延迟信息计算得到基音频率索引和谐波频率索引;利用基音频率索引、谐波频率索引和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率的模块。
[0100]
在本技术的一个具体实施例中,增益获取模块,包括:用于利用处理后的第三语音概率计算得到时频相关的平滑因子;利用平滑因子估算得到噪声谱;以及利用噪声谱计算得到先验信噪比,并利用先验信噪比计算得到噪声增益的模块。
[0101]
本技术提供的噪声估计装置,可用于执行上述任一实施例描述的噪声估计方法,其实现原理和技术效果类似,在此不再赘述。
[0102]
在本技术的一个具体实施例中,本技术一种噪声估计装置中各功能模块可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
[0103]
软件模块可驻留在ram存储器、快闪存储器、rom存储器、eprom存储器、eeprom存储器、寄存器、硬盘、可装卸盘、cd-rom或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
[0104]
处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)、现场可编程门阵列(英文:field programmable gate array,简称:fpga)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如dsp与微处理器的组合、多个微处理器、结合dsp核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储
介质可驻留在asic中。asic可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
[0105]
在本技术的另一个具体实施方式中,一种计算机可读存储介质,其存储有计算机程序/指令,计算机程序/指令被操作以执行上述实施例中描述的噪声估计方法。
[0106]
在本技术的一个具体实施方式中,一种计算机设备,包括存储器、处理器以及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述实施例中描述的噪声估计方法。
[0107]
在本技术的一个具体实施方式中,一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述实施例中描述的噪声估计方法。
[0108]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0109]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0110]
以上所述仅为本技术的实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
技术特征:
1.一种噪声估计方法,其特征在于,包括:利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理;在所述语音信号未完成降噪处理时,利用气导语音信号计算得到所述语音信号中是否存在音频信号的第一语音概率;根据骨导语音信号的幅度谱,判断所述语音信号是否为纯噪声帧,并在所述语音信号为非纯噪声帧时,根据所述骨导语音信号的幅度谱,修正所述第一语音概率,得到第二语音概率;根据所述气导语音信号的长期后置滤波处理后的参数和所述气导语音信号的幅度谱,对所述第二语音概率进行修正,得到第三语音概率。2.根据权利要求1所述的噪声估计方法,其特征在于,所述利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理,包括:当所述语音信号的带宽小于奈奎斯特带宽时,则判断接收的所述语音信号已完成降噪处理;当所述语音信号的带宽等于奈奎斯特带宽时,则判断接收的所述语音信号未完成降噪处理。3.根据权利要求1所述的噪声估计方法,其特征在于,所述利用气导语音信号计算得到所述语音信号中是否存在音频信号的第一语音概率,包括:利用所述气导语音信号的谱系数,计算得到所述气导语音信号在频域的平滑功率谱;利用所述平滑功率谱,计算得到所述气导语音信号在时域的递归平均值;利用所述递归平均值,计算得到每一帧所述气导语音信号对应的功率谱最小值;利用所述功率谱最小值和所述递归平均值,计算得到所述递归平均值和所述功率谱最小值之间的比值;以及利用所述比值计算得到所述语音信号中是否存在音频信号的所述第一语音概率。4.根据权利要求1所述的噪声估计方法,其特征在于,所述根据骨导语音信号的幅度谱,判断所述语音信号是否为纯噪声帧,并在所述语音信号为非纯噪声帧时,根据所述骨导语音信号的幅度谱,修正所述第一语音概率,得到第二语音概率包括:在所述骨导语音信号的幅度谱不大于预设的噪声幅度门限值,且所述骨导语音信号的幅度谱不大于预设的噪声幅度门限值所对应的数量不小于预设的噪声判决门限值时,判定所述语音信号是纯噪声帧,并在所述语音信号是纯噪声帧时,对所述第一语音概率进行修正,得到所述第二语音概率。5.根据权利要求1所述的噪声估计方法,其特征在于,所述根据所述气导语音信号的长期后置滤波处理后的参数和所述气导语音信号的幅度谱,对所述第二语音概率进行修正,得到第三语音概率,包括:在长期后置滤波模块中,利用所述气导语音信号获取所述语音信号的当前帧是否存在基音标志、整数基音延迟信息和分数基音延迟信息;根据所述是否存在基音标志,判断所述当前帧中是否包含基音,并在所述当前帧中包含基音时,利用所述整数基音延迟信息和所述分数基音延迟信息计算得到基音频率索引和谐波频率索引;利用所述基音频率索引、所述谐波频率索引和所述气导语音信号的幅度谱,对所述第
二语音概率进行修正,得到所述第三语音概率。6.根据权利要求1所述的噪声估计方法,其特征在于,还包括:对每一帧所述语音信号的所述第三语音概率进行平滑处理,并利用处理后的所述第三语音概率计算得到所述语音信号对应的噪声增益;利用所述噪声增益对所述语音信号进行去噪处理。7.根据权利要求6所述的噪声估计方法,其特征在于,利用处理后的所述第三语音概率计算得到所述语音信号对应的噪声增益,包括:利用处理后的所述第三语音概率计算得到时频相关的平滑因子;利用所述平滑因子估算得到噪声谱;以及利用所述噪声谱计算得到先验信噪比,并利用所述先验信噪比计算得到所述噪声增益。8.一种噪声估计装置,其特征在于,包括:带宽检测模块,用于利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理;第一语音概率获取模块,用于在所述语音信号未完成降噪处理时,利用气导语音信号计算得到所述语音信号中是否存在音频信号的第一语音概率;第二语音概率获取模块,用于根据骨导语音信号的幅度谱,判断所述语音信号是否为纯噪声帧,并在所述语音信号为非纯噪声帧时,根据所述骨导语音信号的幅度谱,修正所述第一语音概率,得到第二语音概率;第三语音概率获取模块,用于根据所述气导语音信号的长期后置滤波处理后的参数和所述气导语音信号的幅度谱,对所述第二语音概率进行修正,得到第三语音概率。9.一种计算机可读存储介质,其存储有计算机程序/指令,其特征在于,所述计算机程序/指令被操作以执行如权利要求1-7中任一项所述的噪声估计方法。10.一种计算机设备,包括存储器、处理器以及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1-7中任一项所述的噪声估计方法。
技术总结
本申请公开了一种噪声估计方法、装置、介质和设备,属于蓝牙音频编解码技术领域。该方法主要包括:利用编码过程中的带宽检测模块,判断语音信号是否已完成降噪处理;在语音信号未完成降噪处理时,利用气导语音信号计算得到语音信号中是否存在音频信号的第一语音概率;根据骨导语音信号的幅度谱,判断语音信号是否为纯噪声帧,并在语音信号为非纯噪声帧时,根据骨导语音信号的幅度谱,修正第一语音概率,得到第二语音概率;根据气导语音信号的长期后置滤波处理后的参数和气导语音信号的幅度谱,对第二语音概率进行修正,得到第三语音概率。本申请在不增加算法延迟的条件下,能够准确的进行噪声估计,进而能够提高音频的音质。进而能够提高音频的音质。进而能够提高音频的音质。
技术研发人员:李强 叶东翔 朱勇
受保护的技术使用者:深圳百瑞互联技术有限公司
技术研发日:2023.07.10
技术公布日:2023/9/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种低氯防静电手套的制作方法 下一篇:一种对重护栏安装结构的制作方法