一种基于经典-量子混合网络的说话人识别方法

未命名 07-27 阅读:65 评论:0


1.本发明属于语音处理技术领域。涉及一种新的模型和算法的说话人识别方法。


背景技术:

2.量子计算(qc)和量子信息(qi)已成为热门研究领域,在过去的几年中,将量子方法应用于机器学习算法的好处已被广泛报道。尽管该框架中的大多数初始工作都致力于降低计算复杂度并实现相关的加速,但最近的一些工作也分析了量子方法如何提供替代机器学习表示,这可能导致与经典机器学习提供的解决方案不同,并通常表现优于经典机器学习。现已有的研究包括量子聚类、量子自动编码器、量子强化学习、量子非线性建模、量子神经网络。这些量子机器学习方法最先在加密和图像处理领域取得了成功,在语音处理上的研究是寥寥无几的,而在说话人辨识领域上还没有相关的研究。


技术实现要素:

3.本发明的目的在于提供一种基于经典-量子混合网络的说话人识别方法,以提升说话人识别系统的性能。
4.该方法的具体过程如下:
5.①
利用汉明窗将说话人的语音信号分帧,提取每一帧的频域特征向量,如梅尔对数谱特征fbank,将所有帧的频域特征向量构成特征矩阵,即其中,f(i)(i=1,,t)表示第i帧语音的频域特征向量,t表示语音帧的个数,d表示每帧语音的频域特征向量的维数。
6.②
f作为卷积神经网络的输入,将卷积神经网络的输出向量作为f的深度表示,其中n表示深度特征向量的维数。为了验证我们提出的量子网络对经典网络有增益效果,对于卷积神经网络我们只采用了四层一维卷积层conv1d,每个卷积层后面都添加一个leakyrelu激活函数和batch normalization(bn)层。
7.③
利用振幅编码将fd映射到量子态|ψ
in
》,将|ψ
in
》作为可学习量子线路u(θ)的输入,其中θ是可学习参数,得到输出量子态|ψ
out
》,通过测量|ψ
out
》得到各个态的概率p(j)(j=0,,n-1),其中j表示各个态,即
8.|ψ
out
》=u(θ)|ψ
in

ꢀꢀꢀꢀ
(1)
9.p=|ψ
out

*

out

ꢀꢀꢀꢀ
(2)
10.其中|ψ
out

*
是|ψ
out
》的共轭,
11.量子神经网络主要包括三个部分,分别是量子编码、量子线路和测量。
12.量子编码是将特征映射到量子态的过程,在使用量子算法解决经典问题的过程中,量子编码是非常重要的一步。目前主流的量子编码方式包括基态编码、振幅编码、角度编码、iqp编码和哈密顿量演化编码,除了振幅编码所需的量子比特数为n=log2n,其余的编码所需的量子比特数都为n=n。由于目前经典计算机模拟量子运算还不足以使用过多的
量子比特数,所以我们利用振幅编码对特征fd映射到量子态,即输入量子态|ψ
in
》。
13.比如存在一个四维向量根据量子振幅编码算法的定义,则x的状态可以用归一化的波函数表示,进而得到x的量子态|ψ
x
》可以表示如下公式所示的2量子比特的叠加态:
14.|ψ
x
》=x0|00》+x1|01》+x2|10》+x3|11》
ꢀꢀꢀꢀ
(3)
15.可学习量子线路u(θ)对应的是一个幺正变换,其中θ是可学习参数。在量子机器学习中,量子线路的表达能力是决定量子机器学习任务能否成功的关键因素。一般来说,量子线路拟设的表达能力越强,量子机器学习能够搜索到全局最优解的可能性就越大。我们采用量子线路输出态之间的保真度概率分布来量化量子线路的表达能力。对任意量子线路u(θ),采样两次量子线路参数(设为ν和μ),量子线路u(θ)能够均匀地分布在所有酉矩阵上时(此时称u(θ)服从哈尔分布,即k~p
haar
(k)),则两个量子线路输出态之间的保真度的概率分布满足:
[0016][0017]
其中是u(ν)的共轭转置,《0|是|0》的转置,|0》=[1 0]
t
。在统计学中,可以用k-l散度来衡量两个概率分布之间的差异。两个离散概率分布p和q之间的k-l散度定义为:
[0018][0019]
若将u(θ)的输出的保真度记为p
qnn
(k),则u(θ)的表达能力expr
qnn
定义为p
qnn
(k)和p
harr
(k)之间的k-l散度:
[0020]
expr
qnn
=d
kl
(p
qnn
(k)||p
harr
(k))
ꢀꢀꢀꢀ
(6)
[0021]
综合式子(3)和(4)可以看出,当p
qnn
(k)越接近于p
harr
(k)时,expr
qnn
的值就越小,量子线路u(θ)的表达能力也就越强。
[0022]
测量是量子机器学习中最后一步,量子力学中的测量通常指的是一个统计结果而不是单次测量。这是由于测量本身的特性会使得观察后的量子态塌缩。比如存在一个叠加态|ψ》=α|0》+β|1》,那么经过测量后会有|α|2的概率观测到|0》,会有|α|2的概率观测到|1》,根据完备性原则,|α|2+|β|2=1。
[0023]

将p与fd点乘构建说话人的融合特征f
fusion
=fd⊙
p,将f
fusion
作为说话人的语音特征输入到一层全连接层fc和利用softmax函数实现说话人识别,其中

表示点乘。
[0024]
本发明的有益效果是:
[0025]
本发明采用卷积神经网络和量子神经网络结合,构成一个新的说话人识别模型,首先利用卷积神经网络提取到说话人语音信号的深度特征,然后利用量子神经网络计算该深度特征的概率分布,将所得到的概率分布与深度特征点乘构建说话人的融合特征,该概率分布可以自适应地分配某卷积层不同通道的注意力权重,从而对不同通道的语音特征图进行加权,增强包含较多说话人话语特征信息的重要性,使得混合神经网络提取的说话人话语深度特征表示更有利于说话人识别,从而提高说话人识别的性能,同时也加快了模型的收敛速度。
附图说明
[0026]
图1为本发明提出基于经典-量子混合网络的说话人识别系统的整体框架。
[0027]
图2为不附加量子神经网络的卷积神经网络的说话人识别系统的整体框架,用于与本发明提出的说话人识别系统对比。
[0028]
图3为本发明提出基于经典-量子混合网络的说话人识别系统的训练损失曲线。
[0029]
图4为不附加量子神经网络的卷积神经网络的说话人识别系统的训练损失曲线。
具体实施方式
[0030]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
[0031]
如图1所示,本发明提出了一种基于经典-量子混合网络的说话人识别方法。首先利用卷积神经网络提取到说话人语音信号的深度特征,然后利用量子神经网络计算该深度特征的概率分布,将所得到的概率分布与深度特征点乘构建说话人的融合特征,利用该融合特征实现说话人识别。
[0032]
本发明将通过以下实施步骤例作进一步说明。
[0033]

首先,从librispeech数据集中挑选100个说话人,每个说话人40条语音,其中20条用来训练,20条用来测试。对每条说话人语音进行去除静音、截取3s时长语音、预加重、加汉明窗分帧、快速傅里叶变换、取功率谱,其中,预加重系数设为0.97,语音帧长设为25ms,帧移设为10ms;接着,在0~8000hz频率范围内,选取40个三角滤波器构造梅尔滤波器组;将语音的功率谱经过梅尔滤波器组和取对数操作即可得到fbank语音特征在本例中,t=300,d=40。
[0034]

f作为卷积神经网络的输入,将卷积神经网络的输出向量作为f的深度表示,即该说话人的深度特征,其中n表示深度特征向量的维数,在本例中,n=512。为了验证我们提出的量子网络对卷积神经网络有增益效果,对于卷积神经网络我们只采用了四层一维卷积层conv1d,每个卷积层后面都添加一个leakyrelu函数和batch normalization(bn)层。
[0035]

利用振幅编码将fd映射到量子态|ψ
in
》,将|ψ
in
》作为可学习量子线路u(θ)的输入,其中θ是可学习参数,得到输出量子态|ψ
out
》,通过测量|ψ
out
》得到各个态的概率p(j)(j=0,...,n-1),其中j表示各个态,即
[0036]

out
》=u(θ)|ψ
in

ꢀꢀꢀꢀ
(1)
[0037]
p=|ψ
out

*

out

ꢀꢀꢀꢀ
(2)
[0038]
其中|ψ
out

*
是|ψ
out
》的共轭,
[0039]

将p与fd点乘构建说话人的融合特征f
fusion
=fd⊙
p,将f
fusion
作为说话人的语音特征输入到一层全连接层fc和利用softmax函数计算出相应的概率,选择概率最大的作为系统的识别标签,利用交叉熵损失函数计算识别标签和真实标签之间的损失值,将损失值进行反向传播并利用adam优化器对整个网络进行参数优化。通过反复训练模型最终选择损失值最小的作为本方法的最终模型。
[0040]
为验证我们设计的量子线路的表达能力的优越性,我们通过设计不同量子线路的结构及其深度进行实验,最后通过实验结果评估expr
qnn
(值越小代表该量子线路的表达能力越好)选择表达能力最好的量子线路作为本发明中量子神经网络采用的量子线路,实验结果如表1所示。
[0041]
为验证经典-量子混合网络的性能,设置了两组说话人识别实验,第一组实验是基于经典-量子混合网络的说话人识别系统,整体框架如图1所示,训练损失曲线如图3所示;另一组实验是去除量子神经网络后只剩下卷积神经网络的说话人识别系统,整体框架如图2所示,训练损失曲线如图4所示。实验结果表明本发明提出的性能更优。两个实验结果如表2所示。
[0042]
在表1中,e表示纠缠层,cel由量子逻辑门u3(θ,φ,λ)与纠缠层组成的强纠缠层,其中θ、φ和λ都是可学习的参数。x表示r
x
(θ)旋转门,y表示ry(θ)旋转门,z表示rz(θ)旋转门,cel(2)_eyzy表示先是深度固定为2的强纠缠层,然后是纠缠层、ry(θ)旋转门、rz(θ)旋转门和ry(θ)旋转门的组合。从表1中可知,不同的线路结构其表达能力是不一样的,在我们的实验中表达效果最好的量子线路结构是cel(2)_eyzy,最佳深度是5,即cel(2)_eyzy(5),其表达能力为0.0033,即该量子线路结构的神经网络的k-l散度为0.0033。在本发明设计的19种量子线路结构中,该线路的输出代表希尔伯特空间的状态最佳。
[0043]
在表2中,cqnn表示本发明提出的基于经典-量子混合网络的说话人识别方法,cnn表示不附加量子神经网络的卷积神经网络的说话人识别方法。通过对比系统说话人的识别率可以明显观察到,在100个说话人辨识的实验里,本发明提出的基于经典-量子混合网络的说话人识别系统的说话人辨识率达到96.5%,而不附加量子神经网络的卷积神经网络的说话人识别系统的说话人辨识率只有94.3%,本发明提出的方法相对于不附加量子神经网络的方法提升了2.2%的辨识率,实验结果表明本发明所提出的方法有效。
[0044]
综上,此实验可以表明加入了量子神经网络后构成的经典-量子混合网络的方法可以提高说话人识别系统的性能。
[0045]
表1不同量子线路结构的表达能力
[0046][0047]
表2两种方法的说话人辨识率(%)
[0048][0049]
以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

技术特征:
1.一种基于经典-量子混合网络的说话人识别方法,其特征在于:首先利用卷积神经网络提取到说话人语音信号的深度特征,然后利用量子神经网络计算该深度特征的概率分布,将所得到的概率分布与深度特征点乘构建说话人的融合特征,利用该融合特征实现说话人识别;所述的基于经典-量子混合网络的说话人识别方法具体步骤如下:

利用汉明窗将说话人的语音信号分帧,提取每一帧的频域特征向量,将所有帧的频域特征向量构成特征矩阵,即其中,f(i)(i=1,

,t)表示第i帧语音的频域特征向量,t表示语音帧的个数,d表示每帧语音的频域特征向量的维数;

f作为卷积神经网络的输入,将卷积神经网络的输出向量作为f的深度表示,即该说话人的深度特征,其中n表示深度特征向量的维数;

利用振幅编码将f
d
映射到量子态|ψ
in
>,将|ψ
in
>作为可学习量子线路u(θ)的输入,其中θ是可学习参数,得到输出量子态|ψ
out
>,通过测量|ψ
out
>得到各个态的概率p(j)(j=0,

,n-1),其中j表示各个态,即|ψ
out
>=u(θ)|ψ
in
>
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)p=|ψ
out
>
*

out
>
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)其中|ψ
out
>
*
是|ψ
out
>的共轭,

将p与f
d
点乘构建说话人的融合特征f
fusion
=f
d

p,将f
fusion
作为说话人的语音特征实现说话人识别。

技术总结
本发明提供了一种基于经典-量子混合网络的说话人识别方法。该方法首先利用卷积神经网络提取到说话人语音信号的深度特征,然后利用量子神经网络计算该深度特征的概率分布,将所得到的概率分布与深度特征点乘构建说话人的融合特征,利用该融合特征输入到说话人识别网络中实现说话人识别。本发明采用卷积神经网络和量子神经网络相结合构成一个新的说话人识别模型,该模型利用量子神经网络所提取的概率分布可以自适应地分配某卷积层不同通道的注意力权重,从而对不同通道的语音特征图进行加权,增强包含较多说话人话语特征信息的重要性,使得混合神经网络提取的说话人话语深度特征表示更有利于说话人识别,从而提高说话人识别的性能。别的性能。别的性能。


技术研发人员:张烨 许程本
受保护的技术使用者:南昌大学
技术研发日:2023.04.20
技术公布日:2023/7/25
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐