一种基于身份信息和语义信息解纠缠的文本无关的说话人确认方法
未命名
08-05
阅读:67
评论:0

1.本发明涉及声纹识别(又称说话人识别)技术领域,尤其涉及一种基于身份信息和语义信息解纠缠的文本无关的说话人确认方法。
背景技术:
2.说话人识别已被广泛应用于公安电信反欺诈、刑事调查和移动支付等领域的任务。目前,文本无关的说话人确认技术已成为近年来国内外研究的热点。文本无关的说话人确认是一种复杂的声纹识别问题,不需要依赖特定语义信息,即不需要限定说话内容,便可从嘈杂的环境中判断出注册语音与测试语音是否属于同一说话人。
3.由于语音信号同时包含了说话人的身份信息和语义信息,现有的声纹识别算法在训练模型得到声纹特征的过程中,往往会受到语义内容的影响。例如,voxceleb 2数据集中包含了来自不同职业领域的名人演讲,演讲中使用的词汇往往与其所从事的行业有密切关系,就比如其中运动员所说的内容主要与运动有关,而政治家说的内容主要与政治有关。再例如,在主要说英文的voxceleb2数据集上训练的模型在中文的cn-celeb数据集上测试时效果会很差。可见,训练的声纹识别模型可能会将语义内容作为识别身份的线索。虽然身份信息和语义信息必然会存在一些耦合,但过度依赖语义内容可能会降低声纹识别模型的准确性,并影响其对新数据的泛化性能。
4.因此,将声纹特征与语义信息分开,消除语义内容对声纹识别模型的影响,对提高声纹识别模型的精度和泛化性都有很大的帮助。因此,本发明提出一种基于解纠缠的文本无关的说话人确认方法,通过同时对说话人身份和语义内容进行编码,得到代表说话人身份信息和语义内容的特征,引入一种互信息机制来解开二者之间的纠缠。
技术实现要素:
5.为解决说话人识别系统提取到的声纹特征受数据集语义内容的干扰导致模型泛化性能差的技术问题,本发明提供一种基于身份信息和语义信息解纠缠的文本无关的说话人确认方法。
6.为解决上述技术问题,本发明采用的技术方案是:
7.一种基于身份信息和语义信息解纠缠的文本无关的说话人确认方法,其包括如下步骤:
8.1)神经网络的搭建
9.所用神经网络为双流网络架构,同时对一段语音分别提取用来表征说话人身份信息的特征和语义内容的特征,使用声纹识别网络提取说话人特征,使用语音识别网络提取语音内容特征;
10.其中,声纹识别网络用于训练,在说话人特征层之后添加分类层,分类维度等于训练数据集中的说话人数量;语音识别网络不参与训练,直接使用已经训练好的语音识别网
络的预训练模型提取语义内容特征;完成神经网络的搭建;
11.2)模型的训练
12.首先,将数据集中的语音划分为大小相同的批,每批包含k条语音数据,针对一批数据中的每条语音,随机选取其中的3s语音片段,对其进行语音增强,然后计算其频谱图,并提取梅尔频率倒谱系数(mel-scale frequency cepstral coefficients,mfcc)特征作为神经网络模型的输入;
13.然后,将mfcc特征输入语音识别网络直接得到语义内容的特征表示f
sch
;
14.同时,将mfcc特征输入声纹识别网络并得到声纹特征f
spk
;
15.然后,通过如下公式(1)计算一批数据得到的k个声纹特征的分类结果与真实标签之间的交叉熵损失之和la,其中分类结果是经过aam-softmax计算得到的,真实标签需要经过one-hot处理;
[0016][0017]
公式(1)中,cos(θ
j,i
)=||wj||||f
spk_i
||cos《wj,f
spk_i
》,即f
spk_i
和wj经过l2正则化后的点积,i、j是一批数据中的索引,0<i<k、0<j<k,f
spk_i
表示第i条语音的声纹特征,yi代表第i条语音的标签,w代表分类头的权重矩阵,代表分类结果为标签yi时所对应的权重参数,wj代表除了yi的其他分类头的权重参数,s是一个固定的缩放因子以防止梯度在训练阶段变得太小,通过在wj和f
spk_i
之间增加角裕度m以实现类内相似性的最大化和类间相似性的最小化,旨在令相似的不同说话人之间的距离更远。
[0018]
同时,使用解纠缠方法计算批量话语数据得到的声纹特征f
spk
与语义特征f
sch
之间的相关性,得到损失ls,以实现声纹特征与语义特征之间的解纠缠;
[0019]
所述解纠缠方法这里使用互信息方法如下公式(2)。
[0020][0021]
公式(2)中,是给定f
sch
下f
spk
的真实后验的变分近似,可以被网络θ(f
spk
,f
sch
)参数化。
[0022]
接着,通过如下公式(3)得到整个训练网络的损失函数;
[0023]
l
cls
=la+λlsꢀꢀꢀ
(3)
[0024]
公式(3)中,λ是权重超参数。
[0025]
最后,利用所有训练数据,最小化损失函数l
cls
,完成训练得到说话人确认模型。
[0026]
3)结果测试
[0027]
首先,将训练好的模型去除分类层的最后一层,表示声纹特征;
[0028]
然后,对两条待比较语音,分别提取其完整长度的频谱图,并提取其mfcc特征,并将mfcc特征输入模型,得到两句语音的声纹特征表示f
spk1
,f
spk2
;
[0029]
最后,通过如下公式(4)对两条待比较语音的声纹特征进行相似度打分,得到两条待比较语音是否为同一个人的判别结果。
[0030][0031]
公式(4)中,||
·
||2是指第二范数。
[0032]
所述声纹识别网络是ecapa-tdnn、resnet、thin-resnet、vgg网络模型中的任意一种。
[0033]
所述语音识别网络是deep speech2、deep speech、whisper网络模型中的任意一种。
[0034]
与现有技术相比,本发明的有益效果是:
[0035]
通过将语义内容用固定长度的特征f
sch
表示出来,并使用互信息等解纠缠方法计算声纹特征f
spk
与语义特征f
sch
之间的相关性,以实现声纹特征与语义特征之间的解纠缠,得到更加精确且鲁棒的说话人声纹特征,并解决了说话人识别系统提取到的说话人声纹特征因受到数据集中语义内容因素干扰而造成的系统泛化性能差的问题。
具体实施方式
[0036]
本实施例所述一种基于身份信息和语义信息解纠缠的文本无关的说话人确认方法,包括如下步骤:
[0037]
1)神经网络的搭建
[0038]
所用神经网络为双流网络架构,同时对一段语音分别提取用来表征说话人身份信息的特征和语义内容的特征,使用声纹识别网络提取说话人特征,所述声纹识别网络可以是ecapa-tdnn、resnet、thin-resnet、vgg网络模型;使用语音识别网络提取语音内容特征,所述语音识别网络可以是deep speech2、deep speech、whisper网络模型;
[0039]
其中,声纹识别网络用于训练,在说话人特征层之后添加分类层,分类维度等于训练数据集中的说话人数量;语音识别网络不参与训练,直接使用已经训练好的语音识别网络的预训练模型提取语义内容特征;完成神经网络的搭建;
[0040]
2)模型的训练
[0041]
首先,将数据集中的语音划分为大小相同的批,每批包含k条语音数据,针对一批数据中的每条语音,随机选取其中的3s语音片段,对其进行语音增强,然后计算其频谱图,并提取梅尔频率倒谱系数(mel-scale frequency cepstral coefficients,mfcc)特征作为神经网络模型的输入;训练数据集为voxceleb2数据集,voxceleb2数据集来源于自然环境下的真实场景,音频取自youtube网站的英文语音。语音带有一定真实噪声,噪声出现时间点无规律,包括环境突发噪声、背景人声、笑声、语音混叠、回声、室内噪声、录音设备噪声等,说话场景包括明星红毯走秀、名人演讲、真人节目访谈、大型体育场解说等;mfcc特征的维度为80。在语音处理时采用了两种增强方法——加性噪声和房间脉冲响应(room impluse response,rir)模拟,加性噪声使用来自musan语料库的语音片段。
[0042]
然后,将mfcc特征输入语音识别网络deep speech2网络直接得到语义内容的特征表示f
sch
,语音特征的维度为(101,29)。
[0043]
同时,将mfcc特征输入声纹识别网络ecapa-tdnn网络并得到声纹特征f
spk
,声纹特征的维度为256。
[0044]
然后,通过如下公式(1)计算一批数据得到的k个声纹特征的分类结果与真实标签
之间的交叉熵损失之和la,其中分类结果是经过aam-softmax计算得到的,真实标签需要经过one-hot处理;
[0045][0046]
公式(1)中,cos(θ
j,i
)=||wj||||f
spk_i
||cos《wj,f
spk_i
》,即f
spk_i
和wj经过l2正则化后的点积,i、j是一批数据中的索引,0<i<k、0<j<k,f
spk_i
表示第i条语音的声纹特征,yi代表第i条语音的标签,w代表分类头的权重矩阵,代表分类结果为标签yi时所对应的权重参数,wj代表除了yi的其他分类头的权重参数,s是一个固定的缩放因子以防止梯度在训练阶段变得太小,通过在wj和f
spk_i
之间增加角裕度m以实现类内相似性的最大化和类间相似性的最小化,旨在令相似的不同说话人之间的距离更远。其中,s取30,m取0.2,k取400。
[0047]
同时,通过如下公式(2)使用基于互信息的解纠缠方法计算批量话语数据得到的声纹特征f
spk
与语义特征f
sch
之间的相关性,得到损失ls,以实现声纹特征与语义特征之间的解纠缠;
[0048][0049]
公式(2)中,是给定f
sch
下f
spk
的真实后验的变分近似,可以被网络θ(f
spk
,f
sch
)参数化。
[0050]
接着,通过如下公式(3)得到整个训练网络的损失函数;
[0051]
l
cls
=la+λlsꢀꢀꢀ
(3)
[0052]
公式(3)中,λ是权重超参数。其中λ取10。
[0053]
最后,利用所有训练数据,最小化损失函数l
cls
,完成训练得到说话人确认模型。
[0054]
3)结果测试
[0055]
首先,将训练好的模型去除分类层的最后一层,表示声纹特征表示;
[0056]
然后,对两条待比较语音,分别提取其完整长度的频谱图,并提取其mfcc特征,并将mfcc特征输入模型,得到两句语音的声纹特征表示f
spk1
,f
spk2
,其中,待比较语音来源于测试集,测试集为cn-celeb数据集,cn-celeb是清华大学设计的中文语音数据集,包括约130 000个来自1 000位中国名人的语音样本。cn-celeb涵盖了11种语音场景,如娱乐节目、访谈、歌唱、戏剧、电影、视频博客、现场直播、演讲、朗诵和广告等。与只有访谈类语音的voxceleb2相比,cn-celeb的场景更加丰富。cn-celeb数据集对于目前的说话人识别方法来说更有挑战性。
[0057]
最后,通过如下公式(4)对两条待比较语音的声纹特征进行相似度打分,得到两条待比较语音是否为同一个人的判别结果。
[0058][0059]
公式(4)中,||
·
||2是指第二范数。
技术特征:
1.一种基于身份信息和语义信息解纠缠的文本无关的说话人确认方法,其特征是,包括如下步骤:1)神经网络的搭建所用神经网络为双流网络架构,同时对一段语音分别提取用来表征说话人身份信息的特征和语义内容的特征,使用声纹识别网络提取说话人特征,使用语音识别网络提取语音内容特征,其中,声纹识别网络用于训练,在说话人特征层之后添加分类层,分类维度等于训练数据集中的说话人数量;语音识别网络不参与训练,直接使用已经训练好的语音识别网络的预训练模型提取语义内容特征;完成神经网络的搭建;2)模型的训练首先,将数据集中的语音划分为大小相同的批,每批包含k条语音数据,针对一批数据中的每条语音,随机选取其中的3s语音片段,对其进行语音增强,然后计算其频谱图,并提取梅尔频率倒谱系数(mel-scale frequency cepstral coefficients,mfcc)特征作为神经网络模型的输入;然后,将mfcc特征输入语音识别网络直接得到语义内容的特征表示f
sch
;同时,将mfcc特征输入声纹识别网络并得到声纹特征f
spk
;然后,通过如下公式(1)计算一批数据得到的k个声纹特征的分类结果与真实标签之间的交叉熵损失之和l
a
,其中分类结果是经过aam-softmax计算得到的,真实标签需要经过one-hot处理;公式(1)中,cos(θ
j,i
)=||w
j
||||f
spk_i
||cos<w
j
,f
spk_i
>,即f
spk_i
和w
j
经过l2正则化后的点积,i、j是一批数据中的索引,0<i<k、0<j<k,f
spk_i
表示第i条语音的声纹特征,y
i
代表第i条语音的标签,w代表分类头的权重矩阵,代表分类结果为标签y
i
时所对应的权重参数,w
j
代表除了y
i
的其他分类头的权重参数,s是一个固定的缩放因子以防止梯度在训练阶段变得太小,通过在w
j
和f
spk_i
之间增加角裕度m以实现类内相似性的最大化和类间相似性的最小化,旨在令相似的不同说话人之间的距离更远;同时,使用解纠缠方法计算批量话语数据得到的声纹特征f
spk
与语义特征f
sch
之间的相关性,得到损失l
s
,以实现声纹特征与语义特征之间的解纠缠;所述解纠缠方法这里使用互信息方法如下公式(2);公式(2)中,是给定f
sch
下f
spk
的真实后验的变分近似,可以被网络θ(f
spk
,f
sch
)参数化;接着,通过如下公式(3)得到整个训练网络的损失函数;l
cls
=l
a
+λl
s
ꢀꢀꢀ
(3)公式(3)中,λ是权重超参数;最后,利用所有训练数据,最小化损失函数l
cls
,完成训练得到说话人确认模型;
3)结果测试首先,将训练好的模型去除分类层的最后一层,表示声纹特征;然后,对两条待比较语音,分别提取其完整长度的频谱图,并提取其mfcc特征,并将mfcc特征输入模型,得到两句语音的声纹特征表示f
spk1
,f
spk2
;最后,通过如下公式(4)对两条待比较语音的声纹特征进行相似度打分,得到两条待比较语音是否为同一个人的判别结果;公式(4)中,||
·
||2是指第二范数。2.根据权利要求1所述基于身份信息和语义信息解纠缠的文本无关的说话人确认方法,其特征是,所述声纹识别网络是ecapa-tdnn、resnet、thin-resnet、vgg网络模型中的任意一种。3.根据权利要求1所述基于身份信息和语义信息解纠缠的文本无关的说话人确认方法,其特征是,所述语音识别网络是deep speech2、deep speech、whisper网络模型中的任意一种。
技术总结
本发明涉及声纹识别技术领域,尤其涉及一种基于身份信息和语义信息解纠缠的文本无关的说话人确认方法。本发明的技术方案由神经网络的搭建、模型的训练、结果测试完成,本发明通过将语义内容用固定长度的特征f
技术研发人员:姚姗姗 张玉莲
受保护的技术使用者:山西大学
技术研发日:2023.06.01
技术公布日:2023/8/4
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/