一种基于ECAPA-TDNN的肺音识别方法

未命名 07-23 阅读:89 评论:0

一种基于ecapa-tdnn的肺音识别方法
技术领域
1.本发明属于肺音识别检测技术领域,尤其涉及一种基于ecapa-tdnn的肺音识别方法。


背景技术:

2.肺音识别领域是指利用计算机技术,对人类肺部呼吸过程中产生的声音进行分析和识别的研究领域。肺音是由肺部呼吸运动产生的声音,其包括呼气音和吸气音两种类型。呼气音是由肺部呼气过程中的气体流动引起的声音,而吸气音则是由肺部吸气时空气通过气道引起的声音。
3.肺音识别领域的主要应用包括肺部疾病的诊断、疾病监测、康复治疗和运动生理学等方面。肺音可以提供有关呼吸过程的许多信息,如肺部疾病的类型和程度、气道狭窄和阻塞等。
4.不同肺部疾病可以通过肺部声音听诊进行辅助区分。例如:慢性阻塞性肺疾病的听诊双肺呼吸音减弱,呼气延长,部分患者可闻及湿性啰音和(或)干性啰音;呼吸道疾病听诊时哮鸣音常于呼气相明显,提示细小支气管梗阻。不固定的中、粗湿啰音常来自小支气管的分泌物。于吸气相,特别是深吸气末,听到固定不变的细湿啰音提示肺泡内存在分泌物,常见于肺泡炎。这种肺音识别的方式往往受医护人员主观、经验等方面的影响。基于深度学习肺音识别可以提取人耳无法分辨的深度特征,从而对肺部病症进行分类。


技术实现要素:

5.本发明就是针对现有技术存在的缺陷,提供一种基于ecapa-tdnn的肺音识别方法。
6.为实现上述目的,本发明采用如下技术方案,包括:将不同肺部病症的肺音输入ecapa-tdnn网络中,从而提取不同肺部病症的肺音的深度嵌入特征,然后通过aam-softmax分类器实现对不同肺部病症的肺音进行分类。
7.进一步地,ecapa-tdnn的主干网络包括:一维挤压激励残差块(squeeze-excitation res2blocks,se-res2blocks);依赖于通道和上下文的统计池化模块、多层特征聚合求和模块、aam-softmax分类器。
8.更进一步地,所述一维挤压激励残差块包含具有前一层和后一层为1帧的空洞卷积,使用跳跃连接,第一个层可用于降低特征维度,第二个密集层将特征数量恢复到原始维度,然后用一维挤压激励模块来缩放每个通道。
9.进一步地,用于计算时序池化层中的加权统计信息软自注意力,在不同的帧集上提取特定的语音属性,这种注意力机制扩展到通道维度为:
[0010][0011]ht
是时间步长t处最后一个帧层的激活,参数w和b将注意力信息投影到一个较小的r维表示中,f为非线性函数,通过带权重的线性层vc和偏置kc转换为通道相关的自注意力
分数e
t,c
,再通过时域上t的softmax函数进行归一化得到注意力权重α
t,c

[0012][0013]
α
t,c
表示给定信道的每个帧的重要性,用于计算信道c的加权统计量。对于每组输入,加权平均向量的信道分量估计为:
[0014][0015]
加权标准差向量的信道分量为:
[0016][0017]
池化层的最终输出是加权平均值向量和加权标准差向量
[0018]
更进一步地,所述多层特征聚合与求和是对于每一帧,将所有一维挤压激励残差块的输出特征串联起来,多层特征聚合(mfa)之后,密集层(dense layer)处理连接的信息以生成用于注意力统计池的特征。
[0019]
进一步地,所述aam-softmax分类器采用附加角裕度损失作为损失函数。具体为:
[0020][0021]
其中,样本xi对应的标签为yi,批量个数为n,类别数为n,令偏差项bj=0,θj是wj和xi之间的夹角,通过l2归一化令个||wj||=1,同时把嵌入特征||xi||重新缩放为s,m为xi和wj之间的θ角上添加一个附加的角裕度。
[0022]
具体地,通过上述模拟训练,经过50个训练周期,模型识别准确率在训练集和测试集上分别达到99.2%、95.312%的识别准确率,从而进一步验证了该方法能够提高识别肺音的分析效率和准确性。
[0023]
与现有技术相比本发明有益效果。
[0024]
本发明将不同肺部病症的肺音输入ecapa-tdnn中,从而提取不同肺部病症的肺音的深度嵌入特征,然后通过aam-softmax分类器实现对不同肺部病症的肺音进行分类。通过结合维挤压激励残差块、依赖于通道和上下文的统计池化以及多层特征聚合与求和进行肺音分析数据,有效提高识别肺音的分析效率和准确性。
附图说明
[0025]
下面结合附图和具体实施方式对本发明做进一步说明。本发明保护范围不仅局限于以下内容的表述。
[0026]
图1为se-res2block模块示意图。
[0027]
图2为ecapa-tdnn的整体架构图。
[0028]
图3为肺音识别模型整体流程。
具体实施方式
[0029]
改进时延神经网络(tdnn)体系结构可以用于各类声学场景分类。我们将强调信道关注、传播和聚集的时延神经网络(emphasized channel attention,propagation and aggregation in tdnn,ecapa-tdnn)作为肺音识别的主干模型。将不同肺部病症的肺音输入ecapa-tdnn中提取不同肺部病症的肺音的深度嵌入特征,通过aam-softmax分类器实现对不同肺部病症的肺音进行分类。
[0030]
ecapa-tdnn主干网络主要由以下四部分构成:一维挤压激励残差块(squeeze-excitation res2blocks,se-res2blocks)、依赖于通道和上下文的统计池化、多层特征聚合与求和、aam-softmax分类器。
[0031]
ecapa-tdnn的整体架构如图2所示。
[0032]
一维挤压激励残差块作为计算机视觉领域中的一维挤压激励模块,能有效建模全局通道的相关性。一维挤压激励残差块的第一个组件是挤压操作,包括计算跨时域的帧级特征的均值向量:
[0033][0034]
然后在激励操作中使用z来计算每个通道的权重:
[0035]
s=σ(w2f(w1z+b1)+b2)。
[0036]
用σ为sigmoid函数,f为非线性变换函数,w1∈rr×c和w2∈rc×r。此操作充当瓶颈层(bottleneck layer),其中c和r分别指输入通道的数量和减小的维数。生成的向量s包含介于0和1之间的权重sc,每个通道分别与权重相乘:
[0037][0038]
如图1所示,se-res2block包含具有前一层和后一个层上下文为1帧的空洞卷积,使用跳跃连接,第一个层可用于降低特征维度,第二个密集层将特征数量恢复到原始维度,然后用se模块来缩放每个通道。
[0039]
关于依赖于通道和上下文的统计池化,其软自注意力(soft-attention)主要用于计算时序池化层中的加权统计信息,可以在不同的帧集上提取特定的语音属性。这种时间注意力机制扩展到通道维度为:
[0040][0041]
式中,h
t
是时间步长t处最后一个帧层的激活,参数w和b将注意力信息投影到一个较小的r维表示中,这一表征由所有c个通道共享以减小过拟合的风险。通过非线性函数f之后,该信息通过带权重的线性层vc和偏置kc转换为通道相关的自注意力分数e
t,c
,再通过时域上t的softmax函数进行归一化得到注意力权重α
t,c

[0042][0043]
α
t,c
表示给定信道的每个帧的重要性,并用于计算信道c的加权统计量。对于每组输入,加权平均向量的信道分量估计为:
[0044][0045]
加权标准差向量的信道分量构造如下:
[0046][0047]
池化层的最终输出是加权平均值向量和加权标准差向量
[0048]
关于多层特征聚合与求和,对于每一帧,将所有se-res2blocks的输出特征串联起来。在这个多层特征聚合(mfa)之后,一个密集层(dense layer)处理连接的信息以生成用于注意力统计池的特征。
[0049]
传统的softmax损失函数包括全连接输出层,softmax函数以及交叉熵损失函数,表达式为:
[0050][0051]
其中,xi∈rd表示属于第yi类的第i个样本的嵌入特征,嵌入特征尺寸d设置为512,wj∈rd表示权重的第j列w∈rd×n以及bj∈rn是偏差项,批次大小和类别数分别为n和n.softmax损失函数可以增强类间的多样性,但不能最小化类内的变化,因此更适合于分类任务,对说话人确认任务的性能提升很小。一些研究通过改变softmax损失函数中某些参数来同时满足上述两个功能。为了改进softmax函数的功能特性,令偏差项bj=0,θj是wj和xi之间的夹角,通过l2归一化令个体权重||wj||=1,同时把嵌入特征||xi||重新缩放为s,进而使所学习的嵌入特征分布在半径为s的超球面上,相应损失函数为
[0052][0053]
aam-softmax分类器采用additive angular margin loss作为损失函数,additive angular margin loss的特点是在xi和w
yj
之间的θ角上添加一个附加的角裕度m,最终得到改进的additive angular margin loss损失函数为:
[0054][0055]
最后,用模型训练进行验证,训练所使用的数据来自icbhi 2017 challenge respiratory sound database,呼吸声音数据库包含由两个不同国家的两个研究团队在几年内独立收集的音频样本。大部分数据库由阿威罗大学健康科学学院(essua)研究小组在essua呼吸研究与康复实验室(lab3r)和葡萄牙阿威罗infante d.pedro医院记录的音频样本组成。
[0056]
该数据库包含总共5.5小时的录音,包含6898个呼吸周期,其中1864个包含噼啪声,886个包含喘息声,506个包含噼啪声和喘息声,来自126个受试者的920个带注释的音频
样本。库中包括四种肺部声音:健康情况下肺音(health),慢性阻塞性肺病肺音(copd)、下呼吸道感染(lrti)、上呼吸道感染(urti)。其中70%数据作为训练集,30%数据作为测试集。
[0057]
将梅尔频率倒谱系数(mel frequency cestrum coefficient,mfcc)作为ecapa-tdnn作为模型的输入特征。训练批次大小batch size取32,训练周期epoch设置为50。为了解决固定学习率下训练过程中不易收敛的问题,初始学习率lr设置为0.001,学习衰减步数lr_step设置为10,即每十个epoch学习率变为原来的10。
[0058]
经过50个训练周期,模型识别准确率在训练集和测试集上分别达到99.2%、95.312%的识别准确率。
[0059]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonly memory)、随机存取存储器(ram,random access memory)、磁盘或光盘等。另外,以上对本发明实施例所提供的一种基于ecapa-tdnn的肺音识别方法进行了详细介绍,本文中采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种基于ecapa-tdnn的肺音识别方法,其特征在于:包括:将不同肺部病症的肺音输入ecapa-tdnn网络中,从而提取不同肺部病症的肺音的深度嵌入特征,然后通过aam-softmax分类器实现对不同肺部病症的肺音进行分类。2.根据权利要求1所述的一种基于ecapa-tdnn的肺音识别方法,其特征在于:ecapa-tdnn网络包括:一维挤压激励残差块;统计池化模块、多层特征聚合求和模块、aam-softmax分类器。3.根据权利要求2所述的一种基于ecapa-tdnn的肺音识别方法,其特征在于:所述一维挤压激励残差块包含具有前一层和后一层为1帧的空洞卷积,使用跳跃连接,第一个层可用于降低特征维度,第二个密集层将特征数量恢复到原始维度,然后用一维挤压激励模块来缩放每个通道。4.根据权利要求1所述的一种基于ecapa-tdnn的肺音识别方法,其特征在于:用于计算时序池化层中的加权统计信息软自注意力,在不同的帧集上提取特定的语音属性,这种注意力机制扩展到通道维度为:h
t
是时间步长t处最后一个帧层的激活,参数w和b将注意力信息投影到一个较小的r维表示中,f为非线性函数,通过带权重的线性层v
c
和偏置k
c
转换为通道相关的自注意力分数e
t,c
,再通过时域上t的softmax函数进行归一化得到注意力权重α
t,c
:α
t,c
表示给定信道的每个帧的重要性,用于计算信道c的加权统计量。对于每组输入,加权平均向量的信道分量估计为:加权标准差向量的信道分量为:池化层的最终输出是加权平均值向量和加权标准差向量5.根据权利要求2所述的一种基于ecapa-tdnn的肺音识别方法,其特征在于:所述多层特征聚合求和是对于每一帧,将所有一维挤压激励残差块的输出特征串联起来,多层特征聚合之后,密集层处理连接的信息以生成用于注意力统计池的特征。6.根据权利要求1所述的一种基于ecapa-tdnn的肺音识别方法,其特征在于:所述aam-softmax分类器采用附加角裕度损失作为损失函数;具体为:其中,样本x
i
对应的标签为y
i
,批量个数为n,类别数为n,令偏差项b
j
=0,θ
j
是w
j
和x
i
之间的夹角,通过l2归一化令个||w
j
||=1,同时把嵌入特征||x
i
||重新缩放为s,m为x
i
和w
j
之间的θ角上添加一个附加的角裕度。

技术总结
本发明属于肺音识别检测技术领域,尤其涉及一种基于ECAPA-TDNN的肺音识别方法。本发明有效提高识别肺音的分析效率和准确性。其将不同肺部病症的肺音输入ECAPA-TDNN网络中,从而提取不同肺部病症的肺音的深度嵌入特征,然后通过AAM-SoftMax分类器实现对不同肺部病症的肺音进行分类。肺音进行分类。肺音进行分类。


技术研发人员:汪天青 尹小倩 刘益铭 闫道申
受保护的技术使用者:辽宁中医药大学
技术研发日:2023.03.15
技术公布日:2023/7/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐