一种基于孪生网络的声纹识别方法
未命名
09-17
阅读:97
评论:0

1.本发明属于声纹识别领域,尤其涉及一种基于孪生网络的声纹识别方法。
背景技术:
2.传统的方法利用模版匹配的方式,准确率低;近年来采用深度学习的方式,但该方式需要大量的训练数据集,且当有新的标签类别加入时,就需要重新训练,工作量很大。在智能陪伴的场景下,通过声纹识别主人,并通过声纹保护对话或者隐私,或者有新的陪护者加入或者退出的场景下,需要一种快速高校的声纹识别方式。
技术实现要素:
3.针对现有技术中的上述不足,本发明提供的一种基于孪生网络的声纹识别方法解决了声纹识别过程语音信息各维度相关性低的问题,且小量数据集也能达到较好的效果,提高了声纹识别准确率。
4.为了达到上述发明目的,本发明采用的技术方案为:一种基于孪生网络的声纹识别方法,包括以下步骤:
5.s1、获取由若干组语音训练样本对组成的初始数据;
6.s2、根据初始数据,利用孪生神经网络,得到声纹识别模型;
7.s3、获取待验证语音和语音数据库;
8.s4、根据待验证语音和语音数据库,利用声纹识别模型,得到声纹识别结果。
9.本发明的有益效果为:本发明利用梅尔频率倒谱特征mfcc通过滤波器过滤掉了语音频谱的一些信息,保留了高频信息,同时结合语谱图,综合了时域和频域的信息,解决了声纹识别过程语音信息各维度相关性低的问题,更大程度的在保留语音高频信息的同时,保证说话人特征信息的完整性,更好地提取到语音中的特征,提高了声纹识别准确率。
10.进一步地,所述步骤s1中语音训练样本对包括一条训练语音和一条验证语音。
11.上述进一步方案的有益效果为:该方式便于构建匹配样本对,即使小量数据也可以进行训练构建声纹识别模型。
12.进一步地,所述步骤s2中孪生神经网络包括对称且平行的残差网络a和残差网络b。
13.上述进一步方案的有益效果为:孪生神经网络共享权值,采用对称的残差网络以高效且相同的深度特征提取方式提取训练语音、验证语音的特征。
14.进一步地,所述步骤s2具体为:
15.s201、对初始数据中各组语音训练样本对加上验证标签,得到训练数据;
16.s202、提取训练数据的语音信息,分别得到训练语音的语谱图、训练语音的mfcc初级特征、验证语音的语谱图和验证语音的mfcc初级特征;
17.s203、根据训练语音的语谱图、训练语音的mfcc初级特征、验证语音的语谱图和验证语音的mfcc初级特征,利用孪生神经网络进行语音深度特征提取,得到训练语音深度特
征和验证语音深度特征;
18.s204、根据训练语音深度特征和验证语音深度特征,得到声纹识别模型。
19.上述进一步方案的有益效果为:声纹识别模型利用语音训练样本对的匹配度来判断语音对是否来自同一个人,声纹识别模型能快速地进行声纹的识别。对所有标签类别中的数据集大小要求低。
20.进一步地,所述步骤s202具体为:
21.s2021、对初始数据中的训练语音和验证语音分别进行预加重,得到训练语音预加重信号和验证语音预加重信号:
22.y(t)=x(t)-μx(t-1),t=1,2,...,t
23.y'(t')=x(t')-μx(t'-1),t'=1,2,...,t'
24.其中,y(t)为训练语音预加重信号;x(t)为训练语音;t为训练语音的语音片段中的时刻;t为训练语音的时长;μ为预加重系数;y'(t')为验证语音预加重信号;x(t')为验证语音;t'为验证语音的语音片段中的时刻;t'为验证语音的时长;
25.s2022、根据训练语音预加重信号和验证语音预加重信号,分别进行分帧与加窗,得到训练语音第一信号和验证语音第一信号:
26.x1(n)=y(t)*w(n)
[0027][0028]
x1'(n')=y'(t')*w'(n')
[0029][0030]
其中,x1(n)为训练语音第一信号;w(n)为训练语音窗函数;n为训练语音的语音帧;n为训练语音窗口长度;x1'(n')为验证语音第一信号;w'(n')为验证语音窗函数;n'为验证语音的语音帧;n'为验证语音窗口长度;
[0031]
s2023、根据训练语音第一信号和验证语音第一信号,分别利用离散傅里叶变换将时域信号转化到频域信号,并将多帧频域信号进行连接,得到训练语音的语谱图和验证语音的语谱图:
[0032][0033][0034]
其中,si(k)为第i帧训练语音的语谱图的频域信号;i为训练语音第一信号的语音帧编号;k为训练语音频域对应的频谱线编号;si(u)为第i帧训练语音的时域信号;u为第i帧训练语音对应的时间序列;u为第i帧训练语音的时长;k为离散傅里叶变换的窗宽;j为虚数单位;s
i'
'(k')为第i帧验证语音的语谱图的频域信号;i'为验证语音第一信号的语音帧
编号;k'为验证语音频域对应的频谱线编号;s
i'
'(u')为第i'帧验证语音的时域信号;u'为第i'帧验证语音对应的时间序列;u'为第i'帧验证语音的时长;
[0035]
s2024、根据训练语音的语谱图和验证语音的语谱图,分别计算训练语音对数能量和验证语音对数能量:
[0036][0037][0038][0039][0040][0041][0042][0043]
其中,si(m)为第i帧训练语音对数能量;hm(k)为第m个梅尔滤波器的训练语音传递函数;m为梅尔滤波器编号;m为梅尔滤波器数量;f(m)为训练语音的梅尔滤波器的中心频率;q为训练语音频域对应的频谱线总数;fs为采样率;b(f
l
)为按滤波器最低频率由时域频率到梅尔频率的转换;b(fh)为按滤波器最高频率由时域频率到梅尔频率的转换;f
l
为滤波器所在频域范围内的最低频率;fh为滤波器所在频域范围内的最高频率;s
i'
'(m)为第i'帧验证语音对数能量;hm'(k')为第m个梅尔滤波器的验证语音传递函数;q'为验证语音频域对应的频谱线总数;f'(m)为验证语音的梅尔滤波器的中心频率;b-1
(b)为滤波器按频率b由时域频率到梅尔频率的转换的逆函数;b为滤波器频率范围中的值;
[0044]
s2025、根据训练语音对数能量和验证语音对数能量,分别得到训练语音的mfcc初级特征和验证语音的mfcc初级特征:
[0045][0046][0047]
其中,mfcci(v)为第i帧训练语音的mfcc初级特征;mfcc
i'
'(v)为第i'帧验证语音的mfcc初级特征;v为mfcc系数阶数。
[0048]
上述进一步方案的有益效果为:利用离散傅里叶变换,得到训练语音的语谱图和验证语音的语谱图,综合了时域和频域的信息;同时利用梅尔频率倒谱特征mfcc通过滤波器过滤掉了语音频谱的一些信息,保留了语音的高频信息。
[0049]
进一步地,所述步骤s203具体为:
[0050]
s2031、根据训练语音的mfcc初级特征和验证语音的mfcc初级特征,分别采用一维卷积神经网络进行维度变换,并经过一层全连接得到训练语音mfcc的特征向量和验证语音mfcc的特征向量;
[0051]
s2032、根据训练语音的语谱图和验证语音的语谱图,分别采用二维卷积神经网络进行维度变换,并经过一层全连接得到训练语音语谱图特征向量和验证语音语谱图特征向量;
[0052]
s2033、将训练语音mfcc的特征向量与训练语音语谱图特征向量进行矩阵相加,进行特征融合,得到训练语音的融合特征;
[0053]
s2034、将验证语音mfcc的特征向量与验证语音语谱图特征向量进行矩阵相加,进行特征融合,得到验证语音的融合特征;
[0054]
s2035、根据训练语音的融合特征和验证语音的融合特征,分别进行one-hot编码,并通过嵌入embedding映射为固定长度的低维稠密向量,得到训练语音嵌入特征向量和验证语音嵌入特征向量;
[0055]
s2036、将训练语音嵌入特征向量输入到残差网络a中,经过resnet34神经网络的深度特征提取,得到训练语音深度特征;
[0056]
s2037、将验证语音嵌入特征向量输入到残差网络b中,经过resnet34神经网络的深度特征提取,得到验证语音深度特征。
[0057]
上述进一步方案的有益效果为:利用孪生神经网络的残差网络a和残差网络b能够高效地提取深度特征。
[0058]
进一步地,所述步骤s204中声纹识别模型的损失函数为:
[0059][0060]
其中,loss为声纹识别模型的损失函数;x3's为第s组语音训练样本对中验证语音的验证语音深度特征;x3s为第s组语音训练样本对中训练语音的训练语音深度特征;ys为第s组语音训练样本对的验证标签;h为不相似阈值。
[0061]
上述进一步方案的有益效果为:采用余弦相似性的比较方式并结合不相似阈值h,做到了同类更聚集,异类更离散。
[0062]
进一步地,所述步骤s4具体为:
[0063]
s401、将待验证语音与语音数据库中的语音数据分别配对,得到验证样本对数据集;
[0064]
s402、将验证样本对数据集中的验证样本对依次输入声纹识别模型中,得到声纹识别结果。
[0065]
上述进一步方案的有益效果为:通过语音对相似度值来判定是否是同一个说话人,该方式对训练数据集大小要求低。
附图说明
[0066]
图1为本发明的方法流程图。
[0067]
图2为本发明的声纹识别模型训练框架结构图。
具体实施方式
[0068]
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
[0069]
如图1所示,在本发明的一个实施例中,一种基于孪生网络的声纹识别方法,包括以下步骤:
[0070]
s1、获取由若干组语音训练样本对组成的初始数据;
[0071]
s2、根据初始数据,利用孪生神经网络,得到声纹识别模型;
[0072]
s3、获取待验证语音和语音数据库;
[0073]
s4、根据待验证语音和语音数据库,利用声纹识别模型,得到声纹识别结果。
[0074]
所述步骤s1中语音训练样本对包括一条训练语音和一条验证语音。
[0075]
所述步骤s2中孪生神经网络包括对称且平行的残差网络a和残差网络b。
[0076]
本实施例中,本发明采用孪生神经网络,采用两个结构完全相同的残差网络,它们共享权值。通过将验证语音与训练语音的特征进行相似性比较,判断是否为主人的声纹。
[0077]
所述步骤s2具体为:
[0078]
s201、对初始数据中各组语音训练样本对加上验证标签,得到训练数据;
[0079]
s202、提取训练数据的语音信息,分别得到训练语音的语谱图、训练语音的mfcc初级特征、验证语音的语谱图和验证语音的mfcc初级特征;
[0080]
s203、根据训练语音的语谱图、训练语音的mfcc初级特征、验证语音的语谱图和验证语音的mfcc初级特征,利用孪生神经网络进行语音深度特征提取,得到训练语音深度特征和验证语音深度特征;
[0081]
s204、根据训练语音深度特征和验证语音深度特征,得到声纹识别模型。
[0082]
所述步骤s202具体为:
[0083]
s2021、对初始数据中的训练语音和验证语音分别进行预加重,得到训练语音预加重信号和验证语音预加重信号:
[0084]
y(t)=x(t)-μx(t-1),t=1,2,...,t
[0085]
y'(t')=x(t')-μx(t'-1),t'=1,2,...,t'
[0086]
其中,y(t)为训练语音预加重信号;x(t)为训练语音;t为训练语音的语音片段中的时刻;t为训练语音的时长;μ为预加重系数;y'(t')为验证语音预加重信号;x(t')为验证语音;t'为验证语音的语音片段中的时刻;t'为验证语音的时长;
[0087]
s2022、根据训练语音预加重信号和验证语音预加重信号,分别进行分帧与加窗,得到训练语音第一信号和验证语音第一信号:
[0088]
x1(n)=y(t)*w(n)
[0089][0090]
x1'(n')=y'(t')*w'(n')
[0091][0092]
其中,x1(n)为训练语音第一信号;w(n)为训练语音窗函数;n为训练语音的语音帧;n为训练语音窗口长度;x1'(n')为验证语音第一信号;w'(n')为验证语音窗函数;n'为验证语音的语音帧;n'为验证语音窗口长度;
[0093]
s2023、根据训练语音第一信号和验证语音第一信号,分别利用离散傅里叶变换将时域信号转化到频域信号,并将多帧频域信号进行连接,得到训练语音的语谱图和验证语音的语谱图:
[0094][0095][0096]
其中,si(k)为第i帧训练语音的语谱图的频域信号;i为训练语音第一信号的语音帧编号;k为训练语音频域对应的频谱线编号;si(u)为第i帧训练语音的时域信号;u为第i帧训练语音对应的时间序列;u为第i帧训练语音的时长;k为离散傅里叶变换的窗宽;j为虚数单位;s
i'
'(k')为第i帧验证语音的语谱图的频域信号;i'为验证语音第一信号的语音帧编号;k'为验证语音频域对应的频谱线编号;s
i'
'(u')为第i'帧验证语音的时域信号;u'为第i'帧验证语音对应的时间序列;u'为第i'帧验证语音的时长;
[0097]
s2024、根据训练语音的语谱图和验证语音的语谱图,分别计算训练语音对数能量和验证语音对数能量:
[0098]
[0099][0100][0101][0102][0103][0104][0105]
其中,si(m)为第i帧训练语音对数能量;hm(k)为第m个梅尔滤波器的训练语音传递函数;m为梅尔滤波器编号;m为梅尔滤波器数量;f(m)为训练语音的梅尔滤波器的中心频率;q为训练语音频域对应的频谱线总数;fs为采样率;b(f
l
)为按滤波器最低频率由时域频率到梅尔频率的转换;b(fh)为按滤波器最高频率由时域频率到梅尔频率的转换;f
l
为滤波器所在频域范围内的最低频率;fh为滤波器所在频域范围内的最高频率;s
i'
'(m)为第i'帧验证语音对数能量;hm'(k')为第m个梅尔滤波器的验证语音传递函数;q'为验证语音频域对应的频谱线总数;f'(m)为验证语音的梅尔滤波器的中心频率;b-1
(b)为滤波器按频率b由时域频率到梅尔频率的转换的逆函数;b为滤波器频率范围中的值;
[0106]
s2025、根据训练语音对数能量和验证语音对数能量,分别得到训练语音的mfcc初级特征和验证语音的mfcc初级特征:
[0107][0108][0109]
其中,mfcci(v)为第i帧训练语音的mfcc初级特征;mfcc
i'
'(v)为第i'帧验证语音的mfcc初级特征;v为mfcc系数阶数。
[0110]
本实施例中,梅尔频率倒谱特征mfcc通过滤波器过滤掉了频谱的一些信息,保留了高频信息,但它会降低了各维度之间的相关性,而致说话人的特征信息不完整。语谱图综合了时域和频域的信息,横轴为时间,纵轴为频率,但其高频信息部分不好区分。因此将mfcc和语谱图进行综合,能更好地提取到语音中的特征。
[0111]
本实施例中,预加重能提高语音数据的高频分辨率。
[0112]
本实施例中,对训练语音预加重信号和验证语音预加重信号进行分帧与加窗,是因为语音信号是随时间变化的,但具有短时平稳性,一般是15ms~30ms。分帧就是将语音切分为语音片段,利用交叠分帧的方式进行分帧,增加帧过渡的平稳。假定取帧长30ms,相邻帧的位移为15ms。通过加窗对帧移重叠部分进行衰减,使得产生的信号与原始信号接近且平滑。可采用的窗函数有汉明窗、汉宁窗和矩形窗等,但汉明窗衰减较为平滑,且旁瓣滚降率更高。
[0113]
所述步骤s203具体为:
[0114]
s2031、根据训练语音的mfcc初级特征和验证语音的mfcc初级特征,分别采用一维卷积神经网络进行维度变换,并经过一层全连接得到训练语音mfcc的特征向量和验证语音mfcc的特征向量;
[0115]
s2032、根据训练语音的语谱图和验证语音的语谱图,分别采用二维卷积神经网络进行维度变换,并经过一层全连接得到训练语音语谱图特征向量和验证语音语谱图特征向量;
[0116]
s2033、将训练语音mfcc的特征向量与训练语音语谱图特征向量进行矩阵相加,进行特征融合,得到训练语音的融合特征;
[0117]
s2034、将验证语音mfcc的特征向量与验证语音语谱图特征向量进行矩阵相加,进行特征融合,得到验证语音的融合特征;
[0118]
s2035、根据训练语音的融合特征和验证语音的融合特征,分别进行one-hot编码,并通过嵌入embedding映射为固定长度的低维稠密向量,得到训练语音嵌入特征向量和验证语音嵌入特征向量;
[0119]
s2036、将训练语音嵌入特征向量输入到残差网络a中,经过resnet34神经网络的深度特征提取,得到训练语音深度特征;
[0120]
s2037、将验证语音嵌入特征向量输入到残差网络b中,经过resnet34神经网络的深度特征提取,得到验证语音深度特征。
[0121]
本实施例中,如图2所示,图中,验证语音mfcc特征m'为验证语音的mfcc初级特征;验证语音语谱图特征s'为验证语音的语谱图;训练语音mfcc特征m为训练语音的mfcc初级特征;训练语音语谱图特征s为训练语音的语谱图;conv_1d为一维卷积神经网络;conv_2d为二维卷积神经网络;x1'为验证语音mfcc的特征向量;x2'为验证语音语谱图特征向量;x1为训练语音mfcc的特征向量;x2为训练语音语谱图特征向量;one-hot为one-hot编码;embedding为嵌入;x'为验证语音嵌入特征向量;x为训练语音嵌入特征向量;a为残差网络a;b为残差网络b;resnet34为残差网络;x3'为验证语音深度特征;x3为训练语音深度特征;w为共享权值;loss(x3',x3)为声纹识别模型的损失函数。
[0122]
所述步骤s204中声纹识别模型的损失函数为:
[0123][0124]
其中,loss为声纹识别模型的损失函数;x3's为第s组语音训练样本对中验证语音的验证语音深度特征;x3s为第s组语音训练样本对中训练语音的训练语音深度特征;ys为第s组语音训练样本对的验证标签;h为不相似阈值。
[0125]
所述步骤s4具体为:
[0126]
s401、将待验证语音与语音数据库中的语音数据分别配对,得到验证样本对数据集;
[0127]
s402、将验证样本对数据集中的验证样本对依次输入声纹识别模型中,得到声纹识别结果。
技术特征:
1.一种基于孪生网络的声纹识别方法,其特征在于,包括以下步骤:s1、获取由若干组语音训练样本对组成的初始数据;s2、根据初始数据,利用孪生神经网络,得到声纹识别模型;s3、获取待验证语音和语音数据库;s4、根据待验证语音和语音数据库,利用声纹识别模型,得到声纹识别结果。2.根据权利要求1所述基于孪生网络的声纹识别方法,其特征在于,所述步骤s1中语音训练样本对包括一条训练语音和一条验证语音。3.根据权利要求1所述基于孪生网络的声纹识别方法,其特征在于,所述步骤s2中孪生神经网络包括对称且平行的残差网络a和残差网络b。4.根据权利要求3所述基于孪生网络的声纹识别方法,其特征在于,所述步骤s2具体为:s201、对初始数据中各组语音训练样本对加上验证标签,得到训练数据;s202、提取训练数据的语音信息,分别得到训练语音的语谱图、训练语音的mfcc初级特征、验证语音的语谱图和验证语音的mfcc初级特征;s203、根据训练语音的语谱图、训练语音的mfcc初级特征、验证语音的语谱图和验证语音的mfcc初级特征,利用孪生神经网络进行语音深度特征提取,得到训练语音深度特征和验证语音深度特征;s204、根据训练语音深度特征和验证语音深度特征,得到声纹识别模型。5.根据权利要求4所述基于孪生网络的声纹识别方法,其特征在于,所述步骤s202具体为:s2021、对初始数据中的训练语音和验证语音分别进行预加重,得到训练语音预加重信号和验证语音预加重信号:y(t)=x(t)-μx(t-1),t=1,2,...,ty'(t')=x(t')-μx(t'-1),t'=1,2,...,t'其中,y(t)为训练语音预加重信号;x(t)为训练语音;t为训练语音的语音片段中的时刻;t为训练语音的时长;μ为预加重系数;y'(t')为验证语音预加重信号;x(t')为验证语音;t'为验证语音的语音片段中的时刻;t'为验证语音的时长;s2022、根据训练语音预加重信号和验证语音预加重信号,分别进行分帧与加窗,得到训练语音第一信号和验证语音第一信号:x1(n)=y(t)*w(n)x1'(n')=y'(t')*w'(n')其中,x1(n)为训练语音第一信号;w(n)为训练语音窗函数;n为训练语音的语音帧;n为
训练语音窗口长度;x1'(n')为验证语音第一信号;w'(n')为验证语音窗函数;n'为验证语音的语音帧;n'为验证语音窗口长度;s2023、根据训练语音第一信号和验证语音第一信号,分别利用离散傅里叶变换将时域信号转化到频域信号,并将多帧频域信号进行连接,得到训练语音的语谱图和验证语音的语谱图:语谱图:其中,s
i
(k)为第i帧训练语音的语谱图的频域信号;i为训练语音第一信号的语音帧编号;k为训练语音频域对应的频谱线编号;s
i
(u)为第i帧训练语音的时域信号;u为第i帧训练语音对应的时间序列;u为第i帧训练语音的时长;k为离散傅里叶变换的窗宽;j为虚数单位;s
i
′
′
(k')为第i帧验证语音的语谱图的频域信号;i'为验证语音第一信号的语音帧编号;k'为验证语音频域对应的频谱线编号;s
i
′
′
(u')为第i'帧验证语音的时域信号;u'为第i'帧验证语音对应的时间序列;u'为第i'帧验证语音的时长;s2024、根据训练语音的语谱图和验证语音的语谱图,分别计算训练语音对数能量和验证语音对数能量:证语音对数能量:证语音对数能量:证语音对数能量:证语音对数能量:
其中,s
i
(m)为第i帧训练语音对数能量;h
m
(k)为第m个梅尔滤波器的训练语音传递函数;m为梅尔滤波器编号;m为梅尔滤波器数量;f(m)为训练语音的梅尔滤波器的中心频率;q为训练语音频域对应的频谱线总数;f
s
为采样率;b(f
l
)为按滤波器最低频率由时域频率到梅尔频率的转换;b(f
h
)为按滤波器最高频率由时域频率到梅尔频率的转换;f
l
为滤波器所在频域范围内的最低频率;f
h
为滤波器所在频域范围内的最高频率;s
i
′
′
(m)为第i'帧验证语音对数能量;h
m
'(k')为第m个梅尔滤波器的验证语音传递函数;q'为验证语音频域对应的频谱线总数;f'(m)为验证语音的梅尔滤波器的中心频率;b-1
(b)为滤波器按频率b由时域频率到梅尔频率的转换的逆函数;b为滤波器频率范围中的值;s2025、根据训练语音对数能量和验证语音对数能量,分别得到训练语音的mfcc初级特征和验证语音的mfcc初级特征:征和验证语音的mfcc初级特征:其中,mfcc
i
(v)为第i帧训练语音的mfcc初级特征;mfcc
i
′
′
(v)为第i'帧验证语音的mfcc初级特征;v为mfcc系数阶数。6.根据权利要求4所述基于孪生网络的声纹识别方法,其特征在于,所述步骤s203具体为:s2031、根据训练语音的mfcc初级特征和验证语音的mfcc初级特征,分别采用一维卷积神经网络进行维度变换,并经过一层全连接得到训练语音mfcc的特征向量和验证语音mfcc的特征向量;s2032、根据训练语音的语谱图和验证语音的语谱图,分别采用二维卷积神经网络进行维度变换,并经过一层全连接得到训练语音语谱图特征向量和验证语音语谱图特征向量;s2033、将训练语音mfcc的特征向量与训练语音语谱图特征向量进行矩阵相加,进行特征融合,得到训练语音的融合特征;s2034、将验证语音mfcc的特征向量与验证语音语谱图特征向量进行矩阵相加,进行特征融合,得到验证语音的融合特征;s2035、根据训练语音的融合特征和验证语音的融合特征,分别进行one-hot编码,并通过嵌入embedding映射为固定长度的低维稠密向量,得到训练语音嵌入特征向量和验证语音嵌入特征向量;s2036、将训练语音嵌入特征向量输入到残差网络a中,经过resnet34神经网络的深度特征提取,得到训练语音深度特征;s2037、将验证语音嵌入特征向量输入到残差网络b中,经过resnet34神经网络的深度
特征提取,得到验证语音深度特征。7.根据权利要求4所述基于孪生网络的声纹识别方法,其特征在于,所述步骤s204中声纹识别模型的损失函数为:其中,loss为声纹识别模型的损失函数;x3'
s
为第s组语音训练样本对中验证语音的验证语音深度特征;x3
s
为第s组语音训练样本对中训练语音的训练语音深度特征;y
s
为第s组语音训练样本对的验证标签;h为不相似阈值。8.根据权利要求1所述基于孪生网络的声纹识别方法,其特征在于,所述步骤s4具体为:s401、将待验证语音与语音数据库中的语音数据分别配对,得到验证样本对数据集;s402、将验证样本对数据集中的验证样本对依次输入声纹识别模型中,得到声纹识别结果。
技术总结
本发明公开了一种基于孪生网络的声纹识别方法,属于声纹识别领域,该方法包括获取由若干组语音训练样本对组成的初始数据;根据初始数据,利用孪生神经网络,得到声纹识别模型;获取待验证语音和语音数据库;根据待验证语音和语音数据库,利用声纹识别模型,得到声纹识别结果。本发明解决了声纹识别过程语音信息各维度相关性低的问题,且小量数据集也能达到较好的效果,提高了声纹识别准确率。提高了声纹识别准确率。提高了声纹识别准确率。
技术研发人员:陈虹君 考铭堃 魏一鹏 李瑞林 余磊鋆 罗福强 李瑶 赵力衡 马磊 王建 高杨 杜立峰 何香霓 李鹏雨 申致尧
受保护的技术使用者:成都锦城学院
技术研发日:2023.08.01
技术公布日:2023/9/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:车内通讯系统、车内通讯方法和车辆与流程 下一篇:一种家禽实验动物操作固定设备