一种基于层次元数据信息约束的异常声音检测方法

未命名 09-15 阅读:180 评论:0


1.本发明属于异音检测方法技术领域,涉及一种基于层次元数据信息约束的异常声音检测方法。


背景技术:

2.异常声音检测(anomalous sounddetection,asd),目的是自动检测目标机器处于异常状况时发出的异常声音。
3.随着深度学习技术在音频领域的不断发展,无监督异常声音检测中广泛采用自编码器架构。现有的方法通常会利用机械设备正常运转时的声音的对数梅尔频谱图(log-mel spectrogram)作为特征输入来训练自编码器模型,并通过输出与输入相同数量帧的对数梅尔频谱图作为重构特征来进行异常声音的检测。然而,在训练过程中自编码器只包含正常声音的约束条件,没有包含异常声音的信息,如果训练得到的特征不能很好地适用于异常声音,那么自编码器重构方法的有效性就会受到限制。
4.在神经网络的训练过程中,需要足够的标签数据来进行约束,但是获得异常数据本身在工业异常声音检测领域就是一个挑战。为解决这个问题,现有的自监督方法将无监督模型转化成有监督模型来更好地学习正常数据的紧凑表示。其中一个自监督分类的辅助任务通过训练一个分类器来预测每台机器的机器id,并通过辨别伴随音频数据的机器id作为标签来学习精细的正常声音特征,从而将它们与异常声音区分开来。如果分类器错误地分类了声音数据的机器id,则将其视为异常。然而,由于现实世界存在域偏移问题,训练和测试数据的主要特征有时并不具有相似的分布,在实践中,异常声音检测的性能往往会受到限制。例如,机器操作条件或噪声类型的改变可能会导致源域(训练)和目标域(检测)之间的声学特性不同,因此使用来自源域声音训练的模型可能会错误地识别目标域中的异常声音。
5.自监督分类方案采用机器id作为音频文件的辅助标签,以进行特征学习,因为每个机器id代表特定类型的域偏移。然而,除了机器类型和机器id之外,声音还与各种属性相关联,例如机器的运行速度。因此,属性值的改变也是导致域偏移的原因之一,对于影响域偏移至关重要。仅使用机器id可能不足以获得有助于表征域偏移的特征。而自监督机器属性分类考虑了工业机器属性对声学特性的影响,并将其作为自监督特征学习的辅助标签。然而,该系统并没有充分利用与音频文件本身相关联的元数据信息,因此提取的特征表示不足够精细。


技术实现要素:

6.针对上述现有技术,本发明要解决的技术问题是提供一种基于层次元数据信息约束的异常声音检测方法,解决机器的音频文件附带的元数据信息没有被充分利用,域偏移下自监督方法提取的特征表示不够精细的问题。
7.为解决上述技术问题,本发明的一种基于层次元数据信息约束的异常声音检测方
法,包括:
8.将待检测声音的音频波形转换为log-mel谱频特征,然后输入至预先训练的特征提取器中,得到高级音频特征计算高级音频特征与待检测声音对应机器id的每个属性组中心cm的马氏距离,选取其中最小值作为异常分数a,m为对应机器id下的属性组个数,当a大于给定阈值时,判定待检测声音为异常声音;
9.所述属性组中心cm为训练集音频片段经过预先训练的特征提取器得到的高级音频特征的平均值;
10.所述特征提取器的训练过程包括:
11.选取机器的一组正常声音片段作为训练集;
12.将每个机器id对应的训练集音频片段中属性及属性的值均相同的音频片段划分为一个属性组,每个机器id及对应的属性组构成层次元数据信息;
13.将训练集音频波形转换为log-mel谱频特征并送入特征提取器中,得到音频的低级特征f
l
和高级特征fh;
14.将低级特征f
l
和高级特征fh分别送入机器id分类器c
id
和机器ag分类器c
ag
中,分别得到机器id分类器c
id
对机器id辅助标签的预测值和机器ag分类器c
ag
对机器ag辅助标签的预测值c
id
(
·
)表示机器id分类器,c
ag
(
·
)表示机器属性分类器;
15.利用总交叉熵损失函数l
total
训练特征提取器,得到训练后的特征提取器,l
total
=λl
id
+(1-λ)l
ag
,λ是设定的权重参数,l
id
表示预测值和层次元数据信息中机器id标签l
id
之间的差异值的损失函数,l
ag
表示预测值和层次元数据信息中机器属性组标签l
ag
的差异值的损失函数。
16.进一步的,所述特征提取器包括带有注意力机制的深度网络和二维卷积层,通过带有注意力机制的深度网络提取低级特征f
l
,然后经过二维卷积层提取得到高级特征fh。
17.进一步的,所述带有注意力机制的深度网络为mobilefacenet。
18.本发明的有益效果:
19.1)针对现有的自监督方法对元数据信息利用不充分的问题,本发明设计了元数据信息树结构,充分利用元数据信息提取更精细的特征;
20.2)本发明设计的层次元数据信息约束方法能够有效地提升异音检测系统的性能,解决现有工业异音检测方法在域偏移下性能不足,检测结果可信度低的问题。
附图说明
21.图1是本发明总体技术路线图;
22.图2是本发明中构建的层次元数据信息结构图;
23.图3是基于mobilefacenet构建的骨干网络结构。
具体实施方式
24.下面结合说明书附图和实施例对本发明做进一步说明。
25.本发明一种基于层次元数据信息约束的异常声音检测方法,借助构建的每个机器的元数据信息树结构获取机器id与属性之间的层次关系,本发明的技术方案是这样实现的:
26.步骤1:提取数据集中机器音频的log-mel谱频特征,同时利用机器id和属性之间的层次关系,构建层次元数据信息结构;
27.步骤2:将log-mel谱频特征送入特征提取器中,得到低级和高级特征表示。用得到的特征表示和层次元数据信息结构训练模型;
28.步骤3:用训练好的模型对测试声音使用基于属性组中心的异常检测,判断声音是否异常。
29.进一步的,所述步骤1具体包含:
30.步骤101:使用快速傅里叶变换和梅尔滤波器组将音频波形转换为log-mel谱频特征;
31.步骤102:利用音频片段所对应的不同属性及其相应的值构建属性组(attribute group,ag);
32.步骤103:用机器id和步骤102得到的属性组构建层次元数据信息结构,得到机器id辅助标签l
id
和机器ag辅助标签l
ag
,所述机器id和机器属性层次关系用于学习与域偏移相关的特征。
33.进一步的,所述步骤2具体包括:
34.步骤201:将步骤101得到的log-mel谱频特征送入特征提取器中,得到音频的低级和高级特征表示;
35.步骤202:将步骤201得到的低级和高级特征表示分别送入机器id分类器c
id
和机器ag分类器c
ag
中,分别得到机器id分类器c
id
对机器id辅助标签的预测值和机器ag分类器c
ag
对机器ag辅助标签的预测值,其公式如下:和
36.步骤203:将步骤202得到的机器id和机器ag的预测值分别送入训练总交叉熵损失函数l
total
,以训练基于hmic的异常声音检测模型,公式如下:和和
37.进一步的,所述步骤3具体包括:
38.步骤301:在训练过程中计算正常声音的每个ag的中心点,即属性组中心(attribute group center,agc),ag的中心是模型在每个属性组中学到的音频特征的平均值,以检测存在域偏移的测试数据的异常,计算公式如下:
39.其中,cm表示第m个属性组中心,表示从第n个训练音频片段的模型中得到的高级音频特征,n∈[1,n]。
[0040]
步骤302:将测试数据的特征表示与agc的马氏距离作为异常分数,以衡量测试数据的音频特征表示与每个属性组中心cm之间的相似度,马氏距离是一种考虑了相关性和协方差矩阵的距离度量方式,可用于评估未知样本与训练数据之间的相似度。测试样本到agc的马氏距离越近表示该未知声音越可能属于正常数据,到agc的马氏距离越远表示该未
知声音越可能为异常数据。计算公式如下:
[0041]
其中,a表示异常分数,σ-1
是协方差矩阵∑的逆矩阵,并且∑由第m个属性组相同的节段下的所有音频片段的特征获得。
[0042]
下面结合具体参数给出实施例。
[0043]
结合图1,本发明提供了一种基于层次元数据信息约束的异常声音检测方法,具体包括如下步骤:
[0044]
步骤1:
[0045]
利用快速傅里叶变换和梅尔滤波器组从原始声音信号中提取log-mel谱频特征,其中帧大小设置为1024,帧的跳跃大小为512,梅尔滤波器组的数量为128。对于长达10秒的音频,至少需要生成313帧的对数梅尔频谱图特征,因此,输入的对数梅尔频谱图特征维度为313
×
128。
[0046]
之后构建层次元数据信息结构。图2是本发明中构建的层次元数据信息结构图,进一步利用机器id和属性之间的层次关系。由于每个机器id下的音频片段可能具有某些不同值的属性,因此将这些属性和相应的值一起分组为该机器id下的一个ag,从而可以得到每个机器id具有不同属性值的多个ag,得到机器id辅助标签l
id
和机器ag辅助标签l
ag
。构建了每个机器类型的元数据信息树结构,其中机器id为信息树的节点,ag为信息树的叶。这种层次关系用作自监督学习中的约束以获得更精细的音频特征表示,其中机器id表征低级特征学习的域偏移类型,属性组利用域偏移的声学特性用于高级特征学习。
[0047]
以机器类型为玩具车为例,机器id为00的玩具车包含4个不同属性值的属性,其中car表示汽车型号,spd表示汽车速度大小,mic表示采集麦克风数量,noise表示环境噪声等级,例如car的值为a1、c2等,而noise的值为1、2等。通过对这些属性及相应值进行分组,获得机器id为00的玩具车的ag数量为11个,以及机器类型玩具车的全部机器id的ag数量44个。因此使用针对所有机器类型的42个机器id(即七种机器类型,每个具有六个机器id)下的总共250个ag来构建机器id与属性之间的层次关系。
[0048]
步骤2:
[0049]
将步骤1得到的log-mel谱频特征送入特征提取器中得到低级特征表示f
l
和高级特征表示fh:
[0050]fl
=f(x)
[0051]
低级特征表示f
l
通过骨干网络中的二维卷积层提取高级特征表示fh:
[0052]fh
=conv2d(f
l
)
[0053]
其中,f(
·
)表示骨干网络中的特征提取器,conv2d(
·
)表示骨干网络中的2d卷积层。图3展示了基于mobilefacenet构建的骨干网络结构,所述骨干网络借助特征提取器模块和2d卷积层实现。此外,骨干网络的结构并不局限于上述结构,可替换为带有注意力机制的深度网络层。
[0054]
步骤1得到的机器id和机器属性层次关系用于学习与域偏移相关的特征,其借助低层次的机器id约束低级特征学习,其借助高层次的机器ag约束高级特征学习:
[0055]
步骤2得到的低级和高级特征表示分别送入机器id分类器c
id
和机器ag分类器c
ag
中,分别得到机器id分类器c
id
对机器id辅助标签的预测值和机器ag分类器c
ag
对机器ag辅
助标签的预测值:
[0056][0057][0058]
步骤2得到的机器id和机器ag的预测值分别送入训练总交叉熵损失函数l
total
,以训练基于hmic的异常声音检测模型:
[0059]
l
total
=λl
id
+(1-λ)l
ag

[0060]
其中,λ是在训练期间经验性地选择的权重参数,权重参数λ针对每种机器类型进行调整,对于机器类型的所有机器id都是相同的。其中,l
id
和l
id
分别为:
[0061][0062][0063]
其中,ce(
·
)表示交叉熵(cross-entropy,ce)损失函数
[0064]
步骤3:
[0065]
计算每个属性组学习到的音频特征的平均值作为agc来评估测试声音,agc包含与域偏移相关的正常声音的声学特性,因此可以用来测量存在域偏移的测试样本的异常。异常分数为检测到的声音的音频特征表示与agc的马氏距离。
[0066]
假设第m个属性组下有n个训练音频片段,标签为其中m∈[1,m],m为对应机器id下的属性组个数。
[0067][0068]
其中,cm表示第m个属性组中心,表示从第n个训练音频片段的模型中得到的高级音频特征,n∈[1,n]。
[0069]
马氏距离来测量检测到的声音的音频特征表示与每个属性组中心cm之间的相似度:
[0070][0071]
其中,a表示异常分数,σ-1
是协方差矩阵σ的逆矩阵,并且σ由第m个属性组相同的节段下的所有音频片段的特征获得。
[0072]
本发明提供基于层次元数据信息约束的异常声音检测方法有力解决了现有异音检测方法在域偏移下性能不足的缺陷,表1和表2展示了传统方法与应用本发明提供策略后方法异音检测性能的auc值标对比,借助于常用的异常检测评价指标auc来反映源域和目标域中整体测试性能,表3展示了传统方法与应用本发明提供策略后方法异音检测性能的部分auc(pauc)指标对比,借助pauc来说明异音检测方法在低误报率下整体测试性能,从而反映方法的实用性。
[0073]
本发明提供的基于层次元数据信息约束的异常声音检测方法远超现有传统方法的异常检测性能和低误报率下的异常检测性能,取得更为出色的多个领域auc表现和更强的pauc表现,有力地说明了本发明策略的能在域偏移下出色完成异常声音检测,带来更良
好的性能表现。
[0074]
表1
[0075][0076]
表2
[0077][0078]
表3
[0079]

技术特征:
1.一种基于层次元数据信息约束的异常声音检测方法,其特征在于,包括:将待检测声音的音频波形转换为log-mel谱频特征,然后输入至预先训练的特征提取器中,得到高级音频特征计算高级音频特征与待检测声音对应机器id的每个属性组中心c
m
的马氏距离,选取其中最小值作为异常分数a,m为对应机器id下的属性组个数,当a大于给定阈值时,判定待检测声音为异常声音;所述属性组中心c
m
为训练集音频片段经过预先训练的特征提取器得到的高级音频特征的平均值;所述特征提取器的训练过程包括:选取机器的一组正常声音片段作为训练集;将每个机器id对应的训练集音频片段中属性及属性的值均相同的音频片段划分为一个属性组,每个机器id及对应的属性组构成层次元数据信息;将训练集音频波形转换为log-mel谱频特征并送入特征提取器中,得到音频的低级特征f
l
和高级特征f
h
;将低级特征f
l
和高级特征f
h
分别送入机器id分类器c
id
和机器ag分类器c
ag
中,分别得到机器id分类器c
id
对机器id辅助标签的预测值和机器ag分类器c
ag
对机器ag辅助标签的预测值c
id
(
·
)表示机器id分类器,c
ag
(
·
)表示机器属性分类器;利用总交叉熵损失函数l
total
训练特征提取器,得到训练后的特征提取器,l
total
=λl
id
+(1-λ)l
ag
,λ是设定的权重参数,l
id
表示预测值和层次元数据信息中机器id标签l
id
之间的差异值的损失函数,l
ag
表示预测值和层次元数据信息中机器属性组标签l
ag
的差异值的损失函数。2.根据权利要求1所述的一种基于层次元数据信息约束的异常声音检测方法,其特征在于:所述特征提取器包括带有注意力机制的深度网络和二维卷积层,通过带有注意力机制的深度网络提取低级特征f
l
,然后经过二维卷积层提取得到高级特征f
h
。3.根据权利要求1所述的一种基于层次元数据信息约束的异常声音检测方法,其特征在于:所述带有注意力机制的深度网络为mobilefacenet。

技术总结
本发明公开了一种基于层次元数据信息约束的异常声音检测方法,将待检测声音的音频波形转换为Log-Mel谱频特征,然后输入至预先训练的特征提取器中,得到高级音频特征计算高级音频特征与待检测声音对应机器ID的每个属性组中心c


技术研发人员:兰海燕 关键 魏玉明 杨凯 康金敏 单俊
受保护的技术使用者:哈尔滨工程大学
技术研发日:2023.06.28
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐