一类单通道频域语音降噪方法
未命名
09-18
阅读:95
评论:0

1.本发明属于语音降噪技术领域,尤其涉及一类单通道频域语音降噪方法。
背景技术:
2.语音降噪在智能语音、人机交互、远程会议、助听设备、车载、虚拟现实、临境通讯和军用超高背景噪声下的语音通信等系统中都起着举足轻重的作用,其性能的好坏直接影响着语音交互的体验。根据是否利用空间信息,面向语音通信的语音降噪方法可以分为单通道语音降噪和多通道语音降噪两大类。尽管多通道降噪语音降噪利用了空间信息,可取得更好的语音降噪性能。但基于以下三点原因,对单通道语音降噪的研究仍不可或缺:1)多数多通道语音降噪方法在理论上等价于波束形成加单通道降噪的结合;2)在实际中,由于成本、结构、硬件空间的限制,很多设备只能装备一个麦克风;3)单通道语音降噪方法实现起来比较简单、复杂度较低。因此,本发明主要针对于单通道语音降噪方法。目前,绝大多数频域单通道语音降噪方法为滤波增益(即针对每个频点的滤波器长度为1)或滤波向量(即针对每个频点的滤波器长度大于1)的方法。但不管哪种方式,都有如下弊端:1)每次滤波操作只能在频域得到一个点的干净语音信号估计值;2)只能利用当前语音帧(或当前帧和过去帧)的信息,无法同时利用当前帧、过去帧及未来帧的信息来提高滤波器的性能。在本发明中,为克服上述缺点,导出了一组单通道滤波矩阵,该方法既可以同时利用过去帧、当前帧和未来帧的信息,又可以在一次滤波操作后得到多个点的干净语音信号,同时又具有较低的计算复杂度。
技术实现要素:
3.为解决上述技术问题,本发明提出了一类单通道频域语音降噪方法,能够更好地改善带噪语音信号的信噪比,提升语音质量和可懂度,并降低计算复杂度。
4.为实现上述目的,本发明提供了一类单通道频域语音降噪方法,包括:
5.获取时域带噪语音信号;
6.对所述带噪语音信号进行预处理,获取频域带噪语音信号,并引入帧间相关性;
7.估计所述频域带噪语音信号及噪声信号的统计特性;
8.基于所述统计特性,估计语音降噪滤波矩阵;
9.基于所述语音降噪滤波矩阵,对频域带噪语音信号滤波,获取干净频域语音信号的估计值;
10.将所述干净频域语音信号的估计值进行转换获取降噪后的时域语音信号。
11.可选的,对所述带噪语音信号进行预处理,获取频域带噪语音信号,并引入帧间相关性的方法包括:
12.已知时域带噪语音信号模型表示为:y(t)=x(t)+v(t);
13.其中,t表示离散时间点,x(t)和v(t)分别为干净语音信号和加性噪声,y(t)为带噪信号;
14.时域信号经过分帧、加窗及傅里叶变换后,频域信号模型为:y(k,n)=x(k,n)+v(k,n);
15.其中,y(k,n),x(k,n),v(k,n)分别为y(t)、x(t)和v(t)在第n帧第k个频点的傅立叶变换系数,为简洁起见,后面的描述中将去掉k和n;
16.为引入帧间相关性,将n个连续的时间帧组合在一起,定义为:
17.y=[y(1)y(2)
…
y(n)]
t
=x+v
[0018]
其中,向量y为长度为n的带噪信号向量,向量x的定义为x=[x(1)x(2)
…
x(n)]
t
,向量v的定义为v=[v(1)v(2)
…
v(n)]
t
,向量x和向量v分别表示语音信号向量和噪声信号向量;向量y中的元素y(τ)表示y(k,n-τ+1),其中1≤τ≤n,上标(
·
)
t
表示转置操作;
[0019]
为了能同时利用到过去和未来帧的信息,同时为使得一次滤波操作得到多个点的干净语音信号估计值,并降低计算复杂度,定义长度为l的向量x
l
=[x(1) x(2)
ꢀ…ꢀ
x(l)]
t
为期望信号向量,语音降噪的目的为从带噪语音信号向量y中恢复出信号x
l
,其中,1≤l≤n。
[0020]
可选的,估计所述频域带噪语音信号及噪声信号的统计特性的方法包括:
[0021]
通过现有的噪声估计方法估计噪声信号向量v的自相关矩阵φv,通过递归方法估计带噪语音信号向量y的自相关矩阵φy:
[0022]
φy(k,n)=αyφy(k,n-1)+(1-αy)y(k,n)yh(k,n)
[0023]
其中,αy为遗忘因子,上标(
·
)h表示共轭转置;因语音信号和噪声信号相互独立,通过φ
x
=φ
y-φv估计语音信号向量x的自相关矩阵φ
x
;由φ
x
即得到和和为φ
x
的前l行前l列,为φ
x
的前l列,并由和通过公式得到基于和通过计算最后,通过式估计干扰信号加噪声信号的自相关矩阵φ
in
。
[0024]
可选的,所述语音降噪滤波矩阵包括维纳滤波矩阵、最小方差无失真响应滤波矩阵和折中滤波矩阵。
[0025]
可选的,基于所述统计特性,估计语音降噪滤波矩阵的方法具体包括:
[0026]
基于所述统计特性,通过估计维纳滤波矩阵(其中ii=[i
l0l
×
(n-l)
],i
l
为大小为l
×
l的单位矩阵,0
l
×
(n-l)
为大小为l
×
(n-l)的0矩阵),通过估计最小方差无失真响应滤波矩阵,通过估计折中滤波矩阵。其中,μ为折中参数,可人为设置。
[0027]
可选的,基于所述语音降噪滤波矩阵,对频域带噪语音信号滤波,获取干净频域语音信号的估计值的方法包括:基于所述语音降噪滤波矩阵,通过降噪滤波矩阵和带噪语音信号相乘,获取干净频域语音信号的估计值。
[0028]
可选的,将所述干净频域语音信号的估计值进行转换获取降噪后的时域语音信号的方法包括:通过反傅里叶变换以及重叠相加或重叠保留法,将所述干净频域语音信号的估计值转换为降噪后的时域语音信号。
[0029]
本发明技术效果:本发明公开了一类单通道频域语音降噪方法,能充分利用过去帧和未来帧的信息、同时可得到多个点的干净语音信号估计值、且具有较低计算复杂度;不
仅适用于单通道降噪,还可将单通道滤波矩阵的思想推广到多通道以及双耳降噪的框架中;既可用于智能语音、人机交互等系统,也可用于音视频会议、车载、临境通信等系统;既可单独使用,也可和回声消除、声源定位、去混响、语音分离等模块配合使用。
附图说明
[0030]
构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0031]
图1为本发明实施例一类单通道频域语音降噪方法的流程示意图;
[0032]
图2为本发明实施例在高斯白噪声场中,输入信噪比取不同值时,维纳滤波矩阵的输出信噪比、语音失真系数以及语音质量感知评价评分随参数l(即期望信号向量x
l
的长度)的变化情况,其中(a)为输出信噪比、(b)为语音失真系数和(c)为语音质量感知评价评分;
[0033]
图3为维纳滤波矩阵的计算复杂度随参数l的变化情况,作为对比,同时给出了维纳滤波器向量的计算复杂度随参数l的变化情况。
具体实施方式
[0034]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0035]
需要说明的是,在附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0036]
如图1所示,本实施例中提供一类单通道频域语音降噪方法,包括以下步骤:获取带噪语音信号;
[0037]
对带噪语音信号进行预处理,获取频域带噪语音信号,并引入帧间相关性;
[0038]
估计频域带噪语音信号及噪声信号的统计特性;
[0039]
基于统计特性,构建语音降噪滤波矩阵;
[0040]
基于语音降噪滤波矩阵,对频域带噪语音信号滤波,获取干净频域语音信号;
[0041]
将干净频域语音信号的估计值进行转换获取降噪后的时域语音信号。
[0042]
已知时域带噪语音信号模型表示为:y(t)=x(t)+v(t);
[0043]
其中,t表示离散时间点,x(t)和v(t)分别表示干净语音信号和加性噪声,y(t)表示带噪信号;时域信号经过分帧、加窗及傅里叶变换后,频域信号模型写为:
[0044]
y(k,n)=x(k,n)+v(k,n)
[0045]
其中,y(k,n),x(k,n),v(k,n)分别表示y(t)、x(t)和v(t)在第n帧第k个频点的傅立叶变换系数,为简洁起见,后面的描述中将去掉k和n;
[0046]
为引入帧间相关性,将n个连续的时间帧组合在一起,定义为:
[0047]
y=[y(1) y(2 )
…ꢀ
y(n)]
t
=x+v
[0048]
其中,向量y是长度为n的带噪信号向量,向量x的定义为x=[x(1) x(2)
ꢀ…ꢀ
x(n)]
t
,向量v的定义为v=[v(1) v(2)
ꢀ…ꢀ
v(n)]
t
,分别表示语音信号向量和噪声信号向量;向量y中的元素y(τ)表示y(k,n-τ+1),其中1≤τ≤n,上标(
·
)
t
表示转置;
[0049]
为了能同时利用到过去和未来帧的信息,且一次滤波操作可得到多个点的干净语音信号估计值,并降低计算复杂度,本发明中定义长度为l的向量x
l
为期望信号向量(即本发明希望从带噪语音信号中恢复的信号):x
l
=[x(1) x(2)
ꢀ…ꢀ
x(l)]
t
。其中,1≤l≤n。
[0050]
通过现有的噪声估计方法估计噪声信号向量v的自相关矩阵φv,通过递归方法估计带噪语音信号向量y的自相关矩阵φy:
[0051]
φy(k,n)=αyφy(k,n-1)+(1-αy)y(k,n)yh(k,n)
[0052]
其中αy为遗忘因子(0<αy<1),上标(
·
)h表示共轭转置;因语音信号和噪声信号相互独立,通过φ
x
=φ
y-φv估计语音信号向量x的自相关矩阵φ
x
。由φ
x
即得到和(为φ
x
的前l行前l列,为φ
x
的前l列),并由和通过公式得到基于和通过计算最后,通过式估计干扰信号加噪声信号的自相关矩阵φ
in
。
[0053]
基于所述统计特性,通过估计维纳滤波矩阵(其中ii=[i
l0l
×
(n-l)
],i
l
为大小为l
×
l的单位矩阵,0
l
×
(n-l)
为大小为l
×
(n-l)的0矩阵),通过估计最小方差无失真响应滤波矩阵,通过估计折中滤波矩阵。其中,μ为折中参数,可人为设置。
[0054]
基于估计得到的滤波矩阵,通过降噪滤波矩阵和带噪语音信号相乘(即z
l
=hy)即可得到频域干净语音信号的估计值z
l
。
[0055]
通过反傅里叶变换以及重叠相加或重叠保留法,即可将步骤5得到的频域干净语音信号的估计值z
l
转换到时域。
[0056]
音视频会议场景为语音降噪技术的重要应用场景。在实验中,采用的带噪信号为在会议室中采集的不同输入信噪比的带噪语音信号,信噪比(signal-to-noise ratio,snr)分别为-10db、0db和10db。在实验中,将n设置为8,滤波矩阵的大小设置为l
×
8。图2给出了不同输入信噪比(input signal-to-noise ratio,isnr)条件下维纳滤波矩阵的性能随参数l的变化而变化的情况。可以看出,输入信噪比取不同值时,输出信噪比(a)和语音失真系数(b)都随着l的增大而增大,而语音质量感知评价评分(c)则随着l先增大后减小。其中,语音质量感知评价为评价语音质量的国际通用客观指标。综上,由图2可以看出,在参数l的大小选择适当的情况下,本发明中的维纳滤波矩阵可以取得比传统的维纳滤波向量(在本发明中,当l=1即为传统滤波向量,所以传统滤波向量为本发明的特例)更好的语音质量。
[0057]
为说明本发明中所提滤波矩阵的复杂度比滤波向量(即当l=1时)低,分别统计了使用维纳滤波矩阵和维纳滤波向量估计l个点的干净语音信号所需的复数乘法量(只统计了不同部分,相同部分未统计)。其中维纳滤波矩阵所需的复数乘法量见表1所示。维纳滤波向量所需的复数乘法量为l
×
(3
×
n3+n2)。
[0058]
表1
[0059][0060]
图3中给出了当参数n=8时,维纳滤波矩阵的复数乘法量随参数l的变化情况。作为对比,图3中同时给出了维纳滤波向量估计l个点的干净语音信号所需的复数乘法量。从图3中可以看出,当l较大时,维纳滤波矩阵所需的复数乘法量远小于维纳滤波向量。
[0061]
以上,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。
技术特征:
1.一类单通道频域语音降噪方法,其特征在于,包括以下步骤:获取时域带噪语音信号;对所述带噪语音信号进行预处理,获取频域带噪语音信号,并引入帧间相关性;估计所述频域带噪语音信号及噪声信号的统计特性;基于所述统计特性,估计语音降噪滤波矩阵;基于所述语音降噪滤波矩阵,对频域带噪语音信号滤波,获取干净频域语音信号的估计值;将所述干净频域语音信号的估计值进行转换获取降噪后的时域语音信号。2.如权利要求1所述的一类单通道频域语音降噪方法,其特征在于,对所述带噪语音信号进行预处理,获取频域带噪语音信号,并引入帧间相关性的方法包括:已知时域带噪语音信号模型表示为:y(t)=x(t)+v(t);其中,t表示离散时间点,x(t)和v(t)分别为干净语音信号和加性噪声,y(t)为带噪信号;时域信号经过分帧、加窗及傅里叶变换后,频域信号模型为:y(k,n)=x(k,n)+v(k,n);其中,y(k,n),x(k,n),v(k,n)分别为y(t)、x(t)和v(t)在第n帧第k个频点的傅立叶变换系数,为简洁起见,后面的描述中将去掉k和n;为引入帧间相关性,将n个连续的时间帧组合在一起,定义为:y=[y(1) y(2)
ꢀ…ꢀ
y(n)]
t
=x+v其中,向量y为长度为n的带噪信号向量,向量x的定义为x=[x(1) x(2)
ꢀ…ꢀ
x(n)]
t
,向量v的定义为v=[v(1) v(2)
ꢀ…ꢀ
v(n)]
t
,向量x和向量v分别表示语音信号向量和噪声信号向量;向量y中的元素y(τ)表示y(k,n-τ+1),其中1≤τ≤n,上标(
·
)
t
表示转置操作;为了能同时利用到过去和未来帧的信息,同时为使得一次滤波操作得到多个点的干净语音信号估计值,并降低计算复杂度,定义长度为l的向量x
l
=[x(1) x(2)
ꢀ…ꢀ
x(l)]
t
为期望信号向量,语音降噪的目的为从带噪语音信号向量y中恢复出信号x
l
,其中,1≤l≤n。3.如权利要求1所述的一类单通道频域语音降噪方法,其特征在于,估计所述频域带噪语音信号及噪声信号的统计特性的方法包括:通过现有的噪声估计方法估计噪声信号向量v的自相关矩阵φ
v
,通过递归方法估计带噪语音信号向量y的自相关矩阵φ
y
:其中,α
y
为遗忘因子,上标(
·
)
h
表示共轭转置;因语音信号和噪声信号相互独立,通过φ
x
=φ
y-φ
v
估计语音信号向量x的自相关矩阵φ
x
;由φ
x
即得到和和为φ
x
的前l行前l列,为φ
x
的前l列,并由和通过公式得到基于和通过计算最后,通过式估计干扰信号加噪声信号的自相关矩阵φ
in
。4.如权利要求1所述的一类单通道频域语音降噪方法,其特征在于,所述语音降噪滤波矩阵包括维纳滤波矩阵、最小方差无失真响应滤波矩阵和折中滤波
矩阵。5.如权利要求4所述的一类单通道频域语音降噪方法,其特征在于,基于所述统计特性,估计语音降噪滤波矩阵的方法具体包括:基于所述统计特性,通过估计维纳滤波矩阵,其中i
i
=[i
l 0
l
×
(n-l)
],i
l
为大小为l
×
l的单位矩阵,0
l
×
(n-l)
为大小为l
×
(n-l)的0矩阵,通过估计最小方差无失真响应滤波矩阵,通过估计折中滤波矩阵。其中,μ为折中参数,可人为设置。6.如权利要求5所述的一类单通道频域语音降噪方法,其特征在于,基于所述语音降噪滤波矩阵,对频域带噪语音信号滤波,获取干净频域语音信号的估计值的方法包括:基于所述语音降噪滤波矩阵,通过降噪滤波矩阵和带噪语音信号相乘,获取干净频域语音信号的估计值。7.如权利要求1所述的一类单通道频域语音降噪方法,其特征在于,将所述干净频域语音信号的估计值进行转换获取降噪后的时域语音信号的方法包括:通过反傅里叶变换以及重叠相加或重叠保留法,将所述干净频域语音信号的估计值转换为降噪后的时域语音信号。
技术总结
本发明公开了一类单通道频域语音降噪方法,包括以下步骤:获取时域带噪语音信号;对所述带噪语音信号进行预处理,获取频域带噪语音信号,并引入帧间相关性;估计所述频域带噪语音信号及噪声信号的统计特性;基于所述统计特性,估计语音降噪滤波矩阵;基于所述语音降噪滤波矩阵,对频域带噪语音信号滤波,获取干净频域语音信号的估计值;将所述干净频域语音信号的估计值进行转换获取降噪后的时域语音信号。本发明能够更好地改善带噪信号的信噪比,提升语音质量和可懂度,并降低计算复杂度。并降低计算复杂度。并降低计算复杂度。
技术研发人员:王向辉 李梅 高朴 韩冬 田旭华 王姣 郭晶 陈晓屹 王瑞琪
受保护的技术使用者:陕西科技大学
技术研发日:2023.07.31
技术公布日:2023/9/16
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种煤粉燃烧器喷火装置的制作方法 下一篇:一种燃气管道接头的制作方法