一种基于注意力MCNN结合性别信息的语音情感识别方法
未命名
07-22
阅读:96
评论:0

一种基于注意力mcnn结合性别信息的语音情感识别方法
技术领域
1.本发明属于语音信号处理与模式识别领域,特别是基于注意力mcnn结合性别信息的语音情感识别方法。
背景技术:
2.语音情感识别是语音识别领域的重要分支,目的是让机器通过学习和记忆人的发音或声线去识别和理解语音信号传递中当前说话人的情感状态,其过程可以简要总结为:语音信号预处理、特征提取、特征选择、识别模型匹配、完成识别。近年来,依赖于用户情感状态的智能机器人、对话系统、医疗护理、音频监控、车载驾驶、刑事调查、自动化智能家电、音乐或电影推荐系统等重要应用,都可以通过一个从语音中自动检测和识别用户情感状态系统来实现。
3.基于人工智能的深度学习语音情感识别系统在很多方面做出了重大贡献,但是目前已有的语音情感识别技术在实际应用中的性能与人类听觉感知到的情感信息相比还存在很大差距。识别人类声音中的情绪很困难,因为人类情感缺乏独特的时间界限,不同的人有不同的表达情绪的方式。人与人之间的声学特征差异是影响语音情感识别系统性能的主要因素之一,由于男性和女性表达情感方式各异并具有独特的发声系统,这表明性别差异会影响语音情感识别系统的整体性能。在过去的语音情感识别研究中,很少有研究通过性别差异来探讨情感识别。以往的研究中,narayanan等人证明了基于性别的情感识别器的表现优于独立于性别的情感识别器。bisio等人提出一种基于音高特征来建立性别识别的情感分类算法,旨在提供说话人性别的先验信息。anish等人采用以性别识别作为辅助任务的多任务学习进行情感识别。王林等人提议对语音情感识别系统使用性别意识特征,将说话者的性别信息用于修改语音频谱图,然后将其作为输入,输入到单个cnn-blstm分类器进行训练,这种方法比完全不使用性别信息能提供更好的识别结果。
4.本发明针对情感识别模型泛化能力和由于男女表达情感方式差异导致情感识别率低的问题进行了改进。将男女混合样本提供给性别分类器进行训练,并分别使用仅有女性样本和仅有男性样本来独立训练女性情感分类器和男性情感分类器,提高模型的泛化能力。有性别识别模型的输出决定使用那个性别特定的情感识别模型。
5.cn113643723a,一种基于注意力cnn bi-gru融合视觉信息的语音情感识别方法,包括步骤:s1,将语音信号经过预处理得到三维对数梅尔谱图;s2,利用三维对数梅尔谱图预训练3dracnn语音网络提高泛化能力;s3,通过cnn和agrus分别提取面部静态外观特征和几何特征;s4,为了降低语音特征识别率低的问题,采用融合模型将语音特征依次与面部特征进行融合得到混合特征,并由klda过滤无关特征;s5,在模型训练的过程中通过更新参数最小化损失,同时通过算法进行优化,最后由softmax层进行情感分类。本发明能够有效解决情感识别模型识别率低以及泛化能力弱的问题,提高识别准确率和鲁棒性。
6.该专利在一定程度上提升了语音情感识别系统的鲁棒性和泛化能力,对于语音情感识别有良好的识别结果。但是该专利3dracnn网络中采用的是传统cnn,特征提取时,若想
获得较大的感受野,则必须扩大卷积核,从而增加了计算复杂度,而本发明将传统cnn与扩张卷积相结合形成混合卷积神经网络(mcnn),在获得较大感受野的同时也降低了计算开销。其次,该专利用到的卷积注意力模块(cabm)是使用大规模池化的方式利用位置信息来仅仅捕获局部相关性,并且很难对长期依赖关系进行建模。而本发明则采用协调注意力模块,将位置信息嵌入到通道注意力中,不仅增加了空间注意力范围,而且消除了卷积注意力模块中二维全局池化导致的位置信息丢失的问题。同时,该模块不仅并行考虑了通道和空间,而且很好的解决了长期依赖的问题。最后,该专利采用融合模型将语音特征与面部特征进行融合得到混合特征进行情感识别,而本发明是针对男性和女性之间的声学差异和情感表达方式不同,根据说话人特定的性别提供情感识别结果。
技术实现要素:
7.本发明旨在解决以上现有技术的问题。提出了一种基于注意力mcnn结合性别信息的语音情感识别方法。本发明的技术方案如下:
8.一种基于注意力mcnn结合性别信息的语音情感识别方法,其包括以下步骤:
9.s1,对原始语音信号进行分帧、加窗、傅里叶变换、差分在内的预处理得到三维动态mfcc特征;
10.s2,将经过步骤s1预处理后得到的三维动态mfcc输入到性别识别网络,利用mcnn(混合卷积神经网络)模型进行性别识别,并将语音信号分类,包括男性和女性;
11.s3,基于性别识别的输出,从男性和女性语音数据中提取三维mfcc特征输入到情感识别模型中,同时引入协调注意力机制到mcnn中;
12.s4,为了捕捉情感特征和时序信息,添加双向门控循环单元(bi-gru)与注意力层结合的(attention-grus,a-grus)到情感识别模型中,最后由softmax函数进行情感分类,提供不同性别的情感识别结果。
13.进一步的,所述步骤s1对原始语音信号进行分帧、加窗、傅里叶变换、差分在内的预处理,具体过程为:将给定的语音信号分成帧,连续帧之间的时间长度为5-10ms;在对每一帧信号进行傅立叶变换之前,使用汉明窗口,窗口长度等于帧长度;对每一帧进行短时傅立叶变换,通过对平方求和获得功率谱;mfcc特征通过对数梅尔频谱图的离散余弦变换获得;为了获得动态信息,通过沿时间轴对输入mfcc特征进行差分运算,添加速度特征和加速度特征以形成三维动态特征。
14.进一步的,所述步骤s2将预处理得到的三维动态mfcc特征输入到性别识别网络,利用mcnn模型进行性别识别和语音信号分类,具体包括:
15.(1)混合卷积层在同一层中结合了标准卷积和扩张卷积并且可以利用相同的卷积核,混合卷积层形成如下:
16.[σ(ωs);σ(ωd)]
ꢀꢀ
(1)
[0017]
其中ωs和ωd分别是标准卷积和扩张卷积的参数;σ是组归一化层(gn)和线性整流单元(relus)的组合;
[0018]
(2)混合卷积块由混合卷积层、组归一化层(gn)和线性整流单元(relu)组成,用于特征的获取;
[0019]
(3)性别识别mcnn架构包括5个混合层、1个最大池化层、2个全连接层。
[0020]
进一步的,所述性别识别mcnn架构具体包括:将三维mfcc特征大小调整为224
×
224
×
3作为mcnn网络的输入,第一层卷积核大小为2
×
2,步长为2,输入3个通道,输出32个通道;最大池化层卷积核大小为2
×
2,步长为2,输入32个通道,输出32个通道;第二层卷积核大小为1
×
1,步长为1,输入3个通道,输出32个通道;第三层卷积核大小为1
×
1,步长为1,输入3个通道,输出96个通道;第四层卷积核大小为2
×
2,步长为2,输入96个通道,输出96个通道;第五层卷积核大小为1
×
1,步长为1,输入96个通道,输出96个通道;第一全连接层由1000个神经元组成,第二个全连接层是一个分类层,具有2个对应于男性或女性的神经元。
[0021]
进一步的,所述步骤s3利用注意力机制对图像特征空间和通道权重参数进行加权,再将特征层中的浅层特征和深层特征进行融合,具体包括:
[0022]
(1)在性别识别的mcnn架构中去掉最后两个全连接层并增加两个混合卷积层为第六层和第7层和一个平均池化层。第6层的卷积和大小为卷积核大小为2
×
2,步长为2,输入96个通道,输出288个通道。第7层的卷积和大小为卷积核大小为1
×
1,步长为1,输入288个通道,输出288个通道。平均池化层的卷积核大小为2
×
2,步长为1,输入288个通道,输出288个通道。
[0023]
(2)将3个协调注意力模块分别融入到混合卷积层的第3层和第4层第5层和第6层以及第7层与平均池化层之间。协调注意力模块的操作过程可以分为两部分:坐标信息嵌入和坐标注意力生成。坐标信息嵌入在水平和垂直坐标中对通道信息进行编码,在坐标注意力生成捕获位置信息并生成权重值。
[0024]
进一步的,所述步骤s3利用协调注意力机制关注通道和空间为位置信息,其计算过程具体包括:
[0025]
(1)坐标信息嵌入步骤:
[0026]
(2)坐标注意力生成步骤。
[0027]
进一步的,所述坐标信息嵌入步骤具体包括:
[0028]
对于给定的输入要素大小为(h,1)和(1,w)的池化内核分别用于沿水平方向和垂直方向对不同通道的信息进行编码,表示三维矩阵要素,xc表示第c个通道的特征向量,c表示通道数。对于第c个通道的特征在高度h处的输出过程为:
[0029][0030]
同样,通道c在宽度w处的输出为:
[0031][0032]
这两个公式生成一对方向感知特征图,实现坐标信息嵌入。
[0033]
i、j分别表示沿宽度和高度的遍历次数。
[0034]
进一步的,所述坐标注意力生成步骤具体包括:
[0035]
在空间维度上连接两个编码特征,长度变为(h+w),然后使用共享的卷积变换函数f1得到:
[0036]
f=δ(f1([zh,zw]))
ꢀꢀ
(4)
[0037]
其中,[zh,zw]表示沿空间维度的串联操作,zh,zw分别表示在高度和宽度的输出向
量,δ是一个非线性激活函数,是一种中间要素映射,用于在水平和垂直方向对空间信息进行编码,其中的r是控制块大小的缩减率,一般为32,用公式(5)来缩减f的通道数;
[0038]cout
=max(8,c
in
/r)
ꢀꢀ
(5)
[0039]cin
表示输入的通道数,f沿空间维度分解为两个独立的张量:和fh和fw分别表示空间维度上的垂直张量和水平张量。使用两个1
×
1卷积变换用于fh和fw以便它们保持张量,具有与x输入相同数量的通道;然后采用sigmoid激活函数进行处理得到gh与gw,用公式(6)实现:
[0040]gh
=δ(fh(fh))
[0041]gw
=δ(fw(fw))
ꢀꢀꢀꢀꢀ
(6)
[0042]
其中,fh和fw是两个1
×
1卷积,gh和gw是二维的权重;最后将gh和gw与输入特征x融合,得到坐标注意力模块的输出:
[0043][0044]
进一步的,所述s4步骤在建立的情感识别模型中加入a_grus模型,用于捕捉情感线索,具体包括:
[0045]
将ca-mcnn(协调注意力-混合卷积神经网络)提取到的高级特征传递给bi-gru(双向门控循环单元)捕捉时序信息;通过加入注意力层来来关注语音特征信息中与情感相关的部分;设置的bi-gru有512个双向隐藏单元,然后创建了一个形状为l
×
1024的新序列放入注意力层中最后产生一个新序列h;将序列h先输入到全连接层中进行预分类,最后由softmaxx函数实现最终情感分类结果。
[0046]
进一步的,所述softmax函数的公式如下:
[0047][0048]
p(si)表示分类输出结果,n表示分类的个数,一共有n个用数值表示的分类sk,k∈(0,n],i表示k中的某个分类,gi表示该分类的值,si表示第i个元素的分类概率。
[0049]
本发明的优点及有益效果如下:
[0050]
本发明的主要创新集中在s2、s3、s4三个部分。本发明提供了一种基于注意力mcnn结合性别信息的语音情感识别方法,在相同的实验条件下,基于注意力mcnn结合性别信息的语音情感识别方法能够改善男女情感表达差异带来的情感识别率低的问题。首先将语音信号经过预处理后得到三维动态梅尔频率倒谱系数作为性别识别网络输入;其次,利用mcnn进行性别识别并将语音信号分为男性和女性;然后,基于性别分类的输出,从男性和女性语音信号中提取三维动态mfcc特征输入到语音情感识别模型,同时引入协调注意力机制到原本的mcnn模型中;最后,为了更好捕捉情感特征和时序信息,添加a_grus到情感识别模型中,最终由softmax函数进行情感分类,提供不同性别的情感识别结果。本发明提出的模型能够有效解决男女声学特征差异导致情感识别模型识别率低以及泛化能力弱的问题,提高情感识别准确率和鲁棒性。
附图说明
[0051]
图1是本发明提供优选实施例基于注意力mcnn结合性别信息的语音情感识别方法框架图;
[0052]
图2是用于性别识别的mcnn架构图;
[0053]
图3是用于情感识别的ca-mcnn网络架构图。
具体实施方式
[0054]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0055]
本发明解决上述技术问题的技术方案是:
[0056]
如图1所示,本发明提供了一种基于注意力mcnn结合性别信息的语音情感识别方法。其特征在于,包括以下步骤:
[0057]
s1:对原始语音信号进行分帧、加窗、傅里叶变换、差分等预处理得到三维动态mfcc特征,体过程为:将给定的语音信号被分成帧(大约20ms),连续帧之间的时间长度为5-10ms。在对每一帧信号进行傅立叶变换之前,使用汉明窗口,窗口长度等于帧长度。对每一帧进行短时傅立叶变换,通过对平方求和获得功率谱。mfcc特征通过对数梅尔频谱图的离散余弦变换获得。为了获得动态信息,通过沿时间轴对输入mfcc特征进行差分运算,添加delta特征和double-delta特征以形成三维动态特征。
[0058]
s2:将经过步骤s1处理后得到的三维动态mfcc输入到性别识别网络,利用mcnn模进行性别识别,并将语音信号分类,包括男性和女性。具体包括:
[0059]
(1)混合卷积层在同一层中结合了标准卷积和扩张卷积并且可以利用相同的卷积核,混合卷积层形成如下:
[0060]
[σ(ωs);σ(ωd)]
ꢀꢀ
(1)
[0061]
其中ωs和ωd分别是标准卷积和扩张卷积的参数;σ是组归一化层(gn)和线性整流单元(relus)的组合。
[0062]
(2)混合卷积块由混合卷积层,组归一化层(gn)和线性整流单元(relu)组成,用于特征的获取;
[0063]
(3)性别识别mcnn架构包括5个混合层和、1个最大池化层、2个全连接层。
[0064]
s3:基于性别识别的输出,从男性和女性语音数据中提取三维mfcc特征输入到情感识别模型中,同时引入协调注意力机制到原本的mcnn架构中,解决长期依赖问题,具体包括:
[0065]
(1)在性别识别的mcnn架构中去掉最后两个全连接层并增加两个混合卷积层为第六层和第7层和一个平均池化层。第6层的卷积和大小为卷积核大小为2
×
2,步长为2,输入96个通道,输出288个通道。第7层的卷积和大小为卷积核大小为1
×
1,步长为1,输入288个通道,输出288个通道。平均池化层的卷积核大小为2
×
2,步长为1,输入288个通道,输出288个通道。
[0066]
(2)将3个协调注意力模块分别融入到混合卷积层的第3层和第4层第5层和第6层以及第7层与平均池化层之间。协调注意力模块的操作过程可以分为两部分:坐标信息嵌入和坐标注意力生成。坐标信息嵌入在水平和垂直坐标中对通道信息进行编码,在坐标注意
力生成捕获位置信息并生成权重值
[0067]
坐标信息嵌入:
[0068]
对于给定的输入要素大小为(h,1)和(1,w)的池化内核分别用于沿水平方向和垂直方向对不同通道的信息进行编码。对于第c个通道的特征在高度h处的输出过程为:
[0069][0070]
同样,通道c在宽度w处的输出为:
[0071][0072]
这两个公式生成一对方向感知特征图,实现坐标信息嵌入。
[0073]
i、j分别表示沿宽度和高度的遍历次数。
[0074]
坐标注意力生成:
[0075]
在空间维度上连接两个编码特征,长度变为(h+w)。然后使用共享的卷积变换函数f1得到:
[0076]
f=δ(f1([zh,zw]))
ꢀꢀꢀ
(4)
[0077]
其中,[zh,zw]表示沿空间维度的串联操作,zh,zw分别表示在高度和宽度的输出向量,δ是一个非线性激活函数,是一种中间要素映射,用于在水平和垂直方向对空间信息进行编码,其中的是控制块大小的缩减率,一般为32,用公式(5)来缩减f的通道数。
[0078]cout
=max(8,c
in
/r)
ꢀꢀꢀꢀꢀ
(5)
[0079]cin
表示输入的通道数,f沿空间维度分解为两个独立的张量:和fh和fw分别表示空间维度上的垂直张量和水平张量。使用两个1
×
1卷积变换用于fh和fw以便它们保持张量,具有与x输入相同数量的通道。然后采用sigmoid激活函数进行处理得到gh与gw,用公式(6)实现:
[0080]gh
=δ(fh(fh))
[0081]gw
=δ(fw(fw))
ꢀꢀꢀꢀꢀ
(6)
[0082]
其中,fh和fw是两个1
×
1卷积,gh和gw是二维的权重。最后将gh和gw与输入特征x融合,得到坐标注意力模块的输出:
[0083][0084]
s4:,为了捕捉情感特征和时序信息,添加双向门控循环单元(bi-gru)与注意力层结合的(attention-grus,a-grus)到情感识别模型中,最后由softmax函数进行情感分类,提供不同性别的情感识别结果。具体包括:
[0085]
将ca-mcnn提取到的高级特征传递给bi-gru捕捉时序信息。通过加入注意力层来来关注语音特征信息中与情感相关的部分。设置的bi-gru有512个双向隐藏单元,然后创建了一个形状为l
×
1024的新序列放入注意力层中最后产生一个新序列h。将序列h先输入到
全连接层中进行预分类,最后由softmaxx函数实现最终情感分类结果。
[0086]
softmax函数的公式如下:
[0087][0088]
p(si)表示分类输出结果,n表示分类的个数,一共有n个用数值表示的分类sk,k∈(0,n],i表示k中的某个分类,gi表示该分类的值,si表示第i个元素的分类概率。
[0089]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。
[0090]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0091]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
技术特征:
1.一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,包括以下步骤:s1,对原始语音信号进行分帧、加窗、傅里叶变换、差分在内的预处理得到三维动态mfcc特征;s2,将经过步骤s1预处理后得到的三维动态mfcc输入到性别识别网络,利用混合卷积神经网络mcnn进行性别识别,并将语音信号分类,包括男性和女性;s3,基于性别识别的输出,从男性和女性语音数据中提取三维mfcc特征输入到情感识别模型中,同时引入协调注意力机制到mcnn中;s4,为了捕捉情感特征和时序信息,添加双向门控循环单元bi-gru与注意力层结合的a-grus到情感识别模型中,最后由softmax函数进行情感分类,提供不同性别的情感识别结果。2.根据权利要求1所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述步骤s1对原始语音信号进行分帧、加窗、傅里叶变换、差分在内的预处理,具体过程为:将给定的语音信号分成帧,连续帧之间的时间长度为5-10ms;在对每一帧信号进行傅立叶变换之前,使用汉明窗口,窗口长度等于帧长度;对每一帧进行短时傅立叶变换,通过对平方求和获得功率谱;mfcc特征通过对数梅尔频谱图的离散余弦变换获得;为了获得动态信息,通过沿时间轴对输入mfcc特征进行差分运算,添加速度特征和加速度特征以形成三维动态特征。3.根据权利要求1所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述步骤s2将预处理得到的三维动态mfcc特征输入到性别识别网络,利用mcnn模型进行性别识别和语音信号分类,具体包括:(1)混合卷积层在同一层中结合了标准卷积和扩张卷积并且可以利用相同的卷积核,混合卷积层形成如下:[σ(ω
s
);σ(ω
d
)]
ꢀꢀ
(1)其中ω
s
和ω
d
分别是标准卷积和扩张卷积的参数;σ是组归一化层(gn)和线性整流单元(relus)的组合;(2)混合卷积块由混合卷积层、组归一化层(gn)和线性整流单元(relu)组成,用于特征的获取;(3)性别识别mcnn架构包括5个混合层、1个最大池化层、2个全连接层。4.根据权利要求3所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述性别识别mcnn架构具体包括:将三维mfcc特征大小调整为224
×
224
×
3作为mcnn网络的输入,第一层卷积核大小为2
×
2,步长为2,输入3个通道,输出32个通道;最大池化层卷积核大小为2
×
2,步长为2,输入32个通道,输出32个通道;第二层卷积核大小为1
×
1,步长为1,输入3个通道,输出32个通道;第三层卷积核大小为1
×
1,步长为1,输入3个通道,输出96个通道;第四层卷积核大小为2
×
2,步长为2,输入96个通道,输出96个通道;第五层卷积核大小为1
×
1,步长为1,输入96个通道,输出96个通道;第一全连接层由1000个神经元组成,第二个全连接层是一个分类层,具有2个对应于男性或女性的神经元。5.根据权利要求4所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述步骤s3利用注意力机制对图像特征空间和通道权重参数进行加权,再将特
征层中的浅层特征和深层特征进行融合,具体包括:(1)在性别识别的mcnn架构中去掉最后两个全连接层并增加两个混合卷积层为第六层和第7层和一个平均池化层。第6层的卷积和大小为卷积核大小为2
×
2,步长为2,输入96个通道,输出288个通道。第7层的卷积和大小为卷积核大小为1
×
1,步长为1,输入288个通道,输出288个通道。平均池化层的卷积核大小为2
×
2,步长为1,输入288个通道,输出288个通道。(2)将3个协调注意力模块分别融入到混合卷积层的第3层和第4层第5层和第6层以及第7层与平均池化层之间。协调注意力模块的操作过程可以分为两部分:坐标信息嵌入和坐标注意力生成。坐标信息嵌入在水平和垂直坐标中对通道信息进行编码,在坐标注意力生成捕获位置信息并生成权重值。6.根据权利要求1所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述步骤s3利用协调注意力机制关注通道和空间为位置信息,其计算过程具体包括:(1)坐标信息嵌入步骤;(2)坐标注意力生成步骤。7.根据权利要求6所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述坐标信息嵌入步骤具体包括:对于给定的输入要素大小为(h,1)和(1,w)的池化内核分别用于沿水平方向和垂直方向对不同通道的信息进行编码,其中,表示三维矩阵要素,x
c
表示第c个通道的特征向量,c表示通道数。对于第c个通道的特征在高度h处的输出过程为:同样,通道c在宽度w处的输出为:这两个公式生成一对方向感知特征图,实现坐标信息嵌入;i、j分别表示沿宽度和高度的遍历次数。8.根据权利要求7所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述坐标注意力生成步骤具体包括:在空间维度上连接两个编码特征,长度变为(h+w),然后使用共享的卷积变换函数f1得到:f=δ(f1([z
h
,z
w
]))
ꢀꢀ
(4)其中,[z
h
,z
w
]表示沿空间维度的串联操作,z
h
,z
w
分别表示在高度和宽度的输出向量,δ是一个非线性激活函数,是一种中间要素映射,用于在水平和垂直方向对空间信息进行编码,其中的r是控制块大小的缩减率,一般为32,用公式(5)来缩减f的通道数;c
out
=max(8,c
in
/r)
ꢀꢀ
(5)c
in
表示输入的通道数,f沿空间维度分解为两个独立的张量:和
f
h
和f
w
分别表示空间维度上的垂直张量和水平张量,使用两个1
×
1卷积变换用于f
h
和f
w
以便它们保持张量,具有与x输入相同数量的通道;然后采用sigmoid激活函数进行处理得到g
h
与g
w
,用公式(6)实现:g
h
=δ(f
h
(f
h
))g
w
=δ(f
w
(f
w
))
ꢀꢀ
(6)其中,f
h
和f
w
是两个1
×
1卷积,g
h
和g
w
是二维的权重;最后将g
h
和g
w
与输入特征x融合,得到坐标注意力模块的输出:9.根据权利要求8所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述s4步骤在建立的情感识别模型中加入a_grus模型,用于捕捉情感线索,具体包括:将ca-mcnn协调注意力-混合卷积神经网络提取到的高级特征传递给双向门控循环单元bi-gru捕捉时序信息;通过加入注意力层来来关注语音特征信息中与情感相关的部分;设置的bi-gru有512个双向隐藏单元,然后创建了一个形状为l
×
1024的新序列放入注意力层中最后产生一个新序列h;将序列h先输入到全连接层中进行预分类,最后由softmaxx函数实现最终情感分类结果。10.根据权利要求9所述的一种基于注意力mcnn结合性别信息的语音情感识别方法,其特征在于,所述softmax函数的公式如下:p(s
i
)表示分类输出结果,n表示分类的个数,一共有n个用数值表示的分类s
k
,k∈(0,n],i表示k中的某个分类,g
i
表示该分类的值,s
i
表示第i个元素的分类概率。
技术总结
本发明请求保护一种基于注意力MCNN结合性别信息的语音情感识别方法,该方法包括步骤:S1,将语音信号经过预处理后得到三维动态梅尔频率倒谱系数作为性别识别网络输入;S2,利用MCNN进行性别识别并将语音信号分为男性和女性;S3,基于性别分类的输出,从男性和女性语音信号中提取三维动态MFCC特征输入作为情感识别模型输入,为了关注通道和空间位置信息并解决长期依赖的问题,引入协调注意力机制到原本的MCNN模型中建立语音情感识别模型;S4,为了更好捕捉情感特征和时序信息,添加A_GRUs到情感识别模型中,最后由softmax函数进行情感分类,提供不同性别的情感识别结果。本发明能够有效解决男女声学特征差异导致情感识别模型识别率低以及泛化能力弱的问题,提高情感识别准确率和鲁棒性。识别准确率和鲁棒性。识别准确率和鲁棒性。
技术研发人员:胡章芳 令狐克欢 余弘玲
受保护的技术使用者:重庆邮电大学
技术研发日:2023.03.28
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/