一种深度学习辅助谱减法的语音增强方法与流程

未命名 08-02 阅读:195 评论:0


1.本发明涉及环境噪声抑制技术领域,具体而言,涉及一种深度学习辅助谱减法的语音增强方法。


背景技术:

2.经典谱减法的难点在于噪声的估计与参数调谐。具体而言,经典谱减法噪声估计假设含噪语音信号的前几帧为环境噪声。
3.然而当实际条件与假设不符时谱减法语音增强性能会严重下降。此外,平滑因子和过减因子参数的设定大多依靠大量实验进行手工调整,这极大的限制了谱减法的实际降噪效果。近年来,得益于深度学习强大的非线性处理能力,基于数据驱动的深度语音增强方法展示出优异的降噪效果。然而,基于数据驱动的深度语音增强方法的网络可解释性有待进一步提高。为此,需要借助于深度学习强大的自适应学习能力,采用基于数据驱动的深度学习辅助基于模式驱动的经典语音增强方法。
4.因此,为提高深度学习中网络的可解释性,采用基于数据驱动的深度学习辅助基于模式驱动的经典语音增强方法是极具意义的。


技术实现要素:

5.本发明的目的在于提供一种深度学习辅助谱减法的语音增强方法,其目的是提高深度学习中网络的可解释性,实现优异的降噪效果。
6.本发明的实施例通过以下技术方案实现:
7.一种深度学习辅助谱减法的语音增强方法,包括以下步骤:
8.进行初始特征提取,获取离散时域下的含噪语音信号的对数功率谱特征和相位特征n、t和f分别表示离散时域下的所述含噪语音信号的样本点数以及离散时域下的所述含噪语音信号变换到时-频域后信号的帧数和频点数;
9.根据含噪语音信号的对数功率谱特征y和估计与降噪网络,获取增强幅度谱
10.根据所述增强后的幅度谱和初始相位θ,通过短时傅里叶反变换获取增强后的时域语音信号
11.优选地,所述进行初始特征提取的方法为:
12.通过短时傅里叶变换将离散时域含噪语音信号变换到时-频域;计算含噪语音信号的对数功率谱特征和相位特征
13.优选地,所述估计与降噪网络包括局部特征提取网络、噪声估计网络和参数估计网络。
14.优选地,所述获取增强幅度谱的方法包括以下步骤:
15.根据所述对数功率谱特征y,利用所述局部特征提取网络获取局部细化特征
[0016][0017]
其中,f1(
·
,φ1)表示执行局部特征提取子网络的映射函数,φ1为执行局部特征提取子网络的参数;
[0018]
根据所述局部细化特征,通过所述噪声估计网络与所述参数估计网络,并行估计噪声功率谱与过减因子α,以及平滑因子β:
[0019][0020]
其中f2(
·
,φ2)表示执行噪声估计子网络的映射函数,φ2为执行噪声估计子网络的参数,f3(
·
,φ3)表示执行参数估计子网络的映射函数,φ3为执行参数估计子网络的参数;
[0021]
根据所述噪声功率谱,所述过减因子α与所述平滑因子β,通过执行谱减法操作的子网络获取所述增强幅度谱:
[0022][0023]
其中,表示所述增强幅度谱第i行第j列的幅度谱值;表示所述噪声功率谱第i行第j列的噪声功率谱值;y[i,j]表示含噪语音信号的所述对数功率谱特征y的第i行第j列的对数功率谱值。
[0024]
优选地,所述局部特征提取网络包括两层卷积层和一层线性层;
[0025]
所述噪声估计网络包括两层线性层;所述参数估计网络包括一层线性层。
[0026]
优选地,每层所述线性层包括全连接层、批归一化层和relu激活函数;
[0027]
每层所述卷积层包括一个二维卷积层、批归一化层和prelu激活函数。
[0028]
优选地,所述估计与降噪网络的训练方法包括以下步骤:
[0029]
收集离散时域的训练用含噪语音信号与训练用干净语音信号的集合{y
train
,s
train
},其中
[0030]
将所述训练用含噪语音信与所述训练用干净语音信号的集合变换到时-频域,获取其对数功率谱特征集合{y
input
,s
label
},其中,y
input
为训练估计与降噪网络时的输入,s
label
为训练所述估计与降噪网络的标签;
[0031]
根据对数功率谱特征集合{y
input
,s
label
}与构建的估计与降噪网络,采用最小均方误差损失函数对所述估计与降噪网络进行训练,误差收敛后保存网络模型及其参数,获取训练好的估计与降噪网络。
[0032]
本发明实施例的技术方案至少具有如下优点和有益效果:
[0033]
本发明相对于经典谱减法可以获得更好的语音降噪效果;
[0034]
本发明采用基于数据驱动的深度学习辅助基于模式驱动的谱减法,相对于基于映
射的深度语音增强方法能进一步提高语音增强质量的同时提高深度学习中网络的可解释性;
[0035]
本发明基于深度学习训练网络,训练方法不繁琐且得到的估计与降噪网络可靠性高;
[0036]
本发明设计合理,获取的降噪效果和算法成本下资源消耗性价比很高,便于推广和应用。
附图说明
[0037]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0038]
图1为本发明实施例提供的一种深度学习辅助谱减法的语音增强方法的流程示意图;
[0039]
图2为本发明的局部特征提取网络结构示意图;
[0040]
图3为本发明的噪声估计网络结构示意图;
[0041]
图4为本发明的参数估计网络结构示意图。
具体实施方式
[0042]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0043]
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0044]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0045]
实施例1
[0046]
参阅图1,本实施例提供一种深度学习辅助谱减法的语音增强方法,包括以下步骤:
[0047]
步骤s1:进行初始特征提取,获取离散时域下的含噪语音信号的对数功率谱特征和相位特征
[0048]
n、t和f分别表示离散时域下的所述含噪语音信号的样本点数以及离散时域下的所述含噪语音信号变换到时-频域后信号的帧数和频点数;
[0049]
步骤s2:根据含噪语音信号的对数功率谱特征y和估计与降噪网络,获取增强幅度谱
[0050]
步骤s3:根据所述增强后的幅度谱和初始相位θ,通过短时傅里叶反变换获取增强后的时域语音信号
[0051]
本实施例的目的在于提供深度学习辅助谱减法的语音增强方法,与经典语音增强方法如谱减法与mmse估计相比,本实施例方法能获得更好的语音降噪效果;与基于幅度谱映射的深度语音增强方法相比,能获得更好的降噪效果的同时使得网络可解释性更强。
[0052]
为了体现本实施例的效果,我们在这里将原始含噪语音(在表1中用原始表示)、本实施例的方法增强后得到的语音(在表1中用本实施例表示)、谱减法产生的语音(在表1中用谱减法表示)与基于幅度谱映射的语音增强方法产生的语音(在表1中用幅度谱映射表示)作对比。以下表1即为以上提到的不同方法分别应用在3种噪声(babble,factory1,destoryerengine)分别在pesq和stoi指标测试下的信噪比结果,三种噪声的强度分别为-5db、0db和5db。
[0053]
表1
[0054][0055]
从表1中可以明显看出,本实施例采取的方法在三种噪声、两种指标的测试下,均能得到信噪比最高的信号,也就可以直观反映出本实施例采取的方法可以产生更好的语音增强效果,也就是说本实施例所采用的的方法能获得更好的降噪效果。
[0056]
实施例2
[0057]
本实施例基于实施例1的技术方案,对步骤s1中进行初始特征提取的方法的相关内容进行进一步说明。
[0058]
在本实施例中,所述进行初始特征提取的方法为:
[0059]
步骤s11:通过短时傅里叶变换将离散时域含噪语音信号变换到时-频域;
[0060]
步骤s12:计算含噪语音信号的对数功率谱特征和相位特征
[0061]
短时傅里叶变换是一种时频分析方法,利用短时傅里叶变换可以同时在时间域和频率域中对信号分析。
[0062]
短时傅里叶变换执行的时候,首先对信号在时域上进行分段,然后在每个时间段分别进行傅里叶变换得到频率分量。最后将所有时间段的频率分量组合在一起,得到时域和频域的联合表示。
[0063]
特别说明的是,在执行的时候的时候,是把信号划分成多个等长的时间段,一个时间段即视为一个窗口在短时傅里叶变换中,窗口的大小对短时傅里叶变换结果的精度和时间分辨率都有影响,窗口大小越小,精度越高而时间分辨率越低。
[0064]
实施例3
[0065]
本实施例基于实施例1的技术方案,对步骤s2中获取增强幅度谱的相关内容进行进一步说明。
[0066]
在本实施例中,所述估计与降噪网络包括局部特征提取网络、噪声估计网络和参数估计网络。
[0067]
作为优选方案,所述获取增强幅度谱的方法包括以下步骤:
[0068]
步骤s21:根据所述对数功率谱特征y,利用所述局部特征提取网络获取局部细化特征
[0069][0070]
其中,f1(
·
,φ1)表示执行局部特征提取子网络的映射函数,φ1为执行局部特征提取子网络的参数;
[0071]
步骤s22:根据所述局部细化特征通过所述噪声估计网络与所述参数估计网络,并行估计噪声功率谱与过减因子α,以及平滑因子β:
[0072][0073]
其中f2(
·
,φ2)表示执行噪声估计子网络的映射函数,φ2为执行噪声估计子网络的参数,f3(
·
,φ3)表示执行参数估计子网络的映射函数,φ3为执行参数估计子网络的参数;
[0074]
步骤s23:根据所述噪声功率谱,所述过减因子α与所述平滑因子β,通过执行谱减法操作的子网络获取所述增强幅度谱:
[0075][0076]
其中,表示所述增强幅度谱第i行第j列的幅度谱值;表示所述噪声功率谱第i行第j列的噪声功率谱值;y[i,j]表示含噪语音信号的所述对数功率谱特征y的第i行第j列的对数功率谱值。
[0077]
进一步地,参阅图2、图3和图4:
[0078]
所述局部特征提取网络可以包括两层卷积层(convs,convolutional layers)和一层线性层(ll,linear layer),在图2中分别用convs_1、convs_2和ll表示;
[0079]
所述噪声估计网络包括两层线性层,在图3中分别用ll_1和ll_2表示;
[0080]
所述参数估计网络包括一层线性层,在图4中用ll表示。
[0081]
进一步地,每层所述线性层优选包括全连接层(fc,fully connected)、批归一化层(bn,batch normalization layer)和relu激活函数;
[0082]
另一方面,每层所述卷积层优选包括一个二维卷积层(2d-conv,two-dimensional convolutional layer)、批归一化层(bn,batch normalization layer)和prelu激活函数。
[0083]
以上全连接层、relu激活函数、二维卷积层、批归一化层和prelu激活函数在图2-图4中均分别用fc、relu、2d-conv、bn和prelu表示。
[0084]
具体设置的时候,按照以下方法执行:
[0085]
局部特征提取网络中的两个二维卷积层的卷积核大小分别为a
×
b与b
×
a;
[0086]
所述局部特征提取中的两个二维卷积层的输入通道数分别为1与c,输出通道数分别为c与d;
[0087]
所述局部特征提取中的两个二维卷积层的步进均为(e,f);所述局部特征提取中的全连接层的输入节点与输出节点均为f;其中,所述a,b,c,d,e与f分别根据工程经验设定。
[0088]
所述噪声估计网络的两层线性层中的全连接层的输入节点与输出节点均为f;
[0089]
所述参数估计网络的全连接层的输入节点分别为f与g,输出节点分别为g与2,同样的,g根据工程经验设定。
[0090]
实施例4
[0091]
本实施例基于实施例1的技术方案,对步骤s2中获取增强幅度谱的相关内容进行进一步说明。
[0092]
作为本实施例的优选方案,所述估计与降噪网络的训练方法包括以下步骤:
[0093]
收集离散时域的训练用含噪语音信号与训练用干净语音信号的集合{y
train
,s
train
},其中
[0094]
将所述训练用含噪语音信与所述训练用干净语音信号的集合变换到时-频域,获取其对数功率谱特征集合{y
input
,s
label
},其中,y
input
为训练估计与降噪网络时的输入,s
label
为训练所述估计与降噪网络的标签;
[0095]
根据对数功率谱特征集合{y
input
,s
label
}与构建的估计与降噪网络,采用最小均方误差损失函数对所述估计与降噪网络进行训练,误差收敛后保存网络模型及其参数,获取训练好的估计与降噪网络。
[0096]
在本实施例中,所述离散时域含噪语音与干净语音信号集合根据实际应用设备记录或人工合成得到。
[0097]
特别说明的是,本实施例的估计与降噪网络依然包括局部特征提取网络、噪声估计网络和参数估计网络,可以采用联合训练的方式对局部特征提取网络、噪声估计网络和参数估计网络这三个子网络进行训练。
[0098]
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种深度学习辅助谱减法的语音增强方法,其特征在于,包括以下步骤:进行初始特征提取,获取离散时域下的含噪语音信号的对数功率谱特征和相位特征n、t和f分别表示离散时域下的所述含噪语音信号的样本点数以及离散时域下的所述含噪语音信号变换到时-频域后信号的帧数和频点数;根据含噪语音信号的对数功率谱特征y和估计与降噪网络,获取增强幅度谱根据所述增强后的幅度谱和初始相位θ,通过短时傅里叶反变换获取增强后的时域语音信号2.根据权利要求1所述的一种深度学习辅助谱减法的语音增强方法,其特征在于,所述进行初始特征提取的方法为:通过短时傅里叶变换将离散时域含噪语音信号变换到时-频域;计算含噪语音信号的对数功率谱特征和相位特征3.根据权利要求1所述的一种深度学习辅助谱减法的语音增强方法,其特征在于,所述估计与降噪网络包括局部特征提取网络、噪声估计网络和参数估计网络。4.根据权利要求3所述的一种深度学习辅助谱减法的语音增强方法,其特征在于,所述获取增强幅度谱的方法包括以下步骤:根据所述对数功率谱特征y,利用所述局部特征提取网络获取局部细化特征根据所述对数功率谱特征y,利用所述局部特征提取网络获取局部细化特征其中,f1(
·
,φ1)表示执行局部特征提取子网络的映射函数,φ1为执行局部特征提取子网络的参数;根据所述局部细化特征通过所述噪声估计网络与所述参数估计网络,并行估计噪声功率谱与过减因子α,以及平滑因子β:其中f2(
·
,φ2)表示执行噪声估计子网络的映射函数,φ2为执行噪声估计子网络的参数,f3(
·
,φ3)表示执行参数估计子网络的映射函数,φ3为执行参数估计子网络的参数;根据所述噪声功率谱所述过减因子α与所述平滑因子β,通过执行谱减法操作的子网络获取所述增强幅度谱络获取所述增强幅度谱其中,表示所述增强幅度谱第i行第j列的幅度谱值;表示所述噪声功率谱第i行第j列的噪声功率谱值;y[i,j]表示含噪语音信号的所述对数功率谱特征y的第i行第j列的对数功率谱值。5.根据权利要求4所述的一种深度学习辅助谱减法的语音增强方法,其特征在于:所述
局部特征提取网络包括两层卷积层和一层线性层;所述噪声估计网络包括两层线性层;所述参数估计网络包括一层线性层。6.根据权利要求5所述的一种深度学习辅助谱减法的语音增强方法,其特征在于,每层所述线性层包括全连接层、批归一化层和relu激活函数;每层所述卷积层包括一个二维卷积层、批归一化层和prelu激活函数。7.根据权利要求1所述的一种深度学习辅助谱减法的语音增强方法,其特征在于,所述估计与降噪网络的训练方法包括以下步骤:收集离散时域的训练用含噪语音信号与训练用干净语音信号的集合{y
train
,s
train
},其中将所述训练用含噪语音信与所述训练用干净语音信号的集合变换到时-频域,获取其对数功率谱特征集合{y
input
,s
label
},其中,y
input
为训练估计与降噪网络时的输入,s
label
为训练所述估计与降噪网络的标签;根据对数功率谱特征集合{y
input
,s
label
}与构建的估计与降噪网络,采用最小均方误差损失函数对所述估计与降噪网络进行训练,误差收敛后保存网络模型及其参数,获取训练好的估计与降噪网络。

技术总结
本发明提供了一种深度学习辅助谱减法的语音增强方法,涉及环境噪声抑制技术领域,其目的是提高深度学习中网络的可解释性,实现优异的降噪效果,包括进行初始特征提取,获取含噪语音信号的对数功率谱特征和相位特征;根据含噪语音信号的对数功率谱特征和估计与降噪网络,获取增强幅度谱;根据所述增强后的幅度谱和初始相位,通过短时傅里叶反变换获取增强后的时域语音信号。本发明具有能进一步提高语音增强质量的同时提高深度学习中网络的可解释性的优点。释性的优点。释性的优点。


技术研发人员:付小伟
受保护的技术使用者:成都水月雨科技有限公司
技术研发日:2023.05.30
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐