一种基于卷积神经网络的鲁棒性鼾声检测方法及系统与流程
未命名
10-18
阅读:212
评论:0

1.本发明属于语音信号处理技术领域,具体涉及一种基于卷积神经网络的鲁棒性鼾声检测方法及系统。
背景技术:
2.睡觉打鼾是影响睡眠质量,导致身体疲劳、昏昏欲睡等症状,同时也会诱发高血压、心脏病、糖尿病等健康问题,而当今社会随着人们对身体健康的越发重视,对于拥有良好睡眠的需求也在逐渐增加,使得鼾声检测在智能穿戴设备、智能家居、医疗诊断等领域中拥有的较大应用需求。
3.随着人工智能的兴起,采用深度学习的方式对鼾声信号进行分析成为了研究热点,通过卷积神经网络或循环神经网络提取音频深层特征,以此达到良好检测效果;然而将模型进行嵌入式移植时,通常因为算力吃紧、内存不足的原因,可能无法有效的实时处理及分析,影响检测准确率;此外,随着市场需求增加,不同于睡眠枕头或穿戴设备,当前在部分智能家居如智能电动床的应用场景中,存在麦克风距离目标声源较远的情况,而距离过远可能导致检测准确率急剧下降;因此,需要一种轻量化和泛化性强的模型和方法去解决问题。
技术实现要素:
4.针对上述问题,本发明公开一种基于卷积神经网络的鲁棒性鼾声检测方法,以解决模型尺寸太大和稳定性不强的问题:本发明所述基于卷积神经网络的鲁棒性鼾声检测方法,包括如下步骤:s1.构建包括远场环境的鼾声数据集;s2.提取鼾声数据集中的梅尔倒谱系数特征作为训练样本;s3.以梅尔倒谱系数特征作为输入,引用ecapa-tdnn残差卷积神经网络结构提取音频深层特征;所述ecapa-tdnn残差卷积神经网络包括依次连接的一维卷积编码层、多个一维残差激励网络层、特征融合层、注意力统计池化层和线性层;其中一维卷积编码层的输出端与多个一维残差激励网络层的输入端连接,多个一维残差激励网络层的输出端均与特征融合层的输入端连接;s4.以步骤s3得到的音频深层特征输入二分类器进行判断是否为目标鼾声,以输入的音频深层特征对应的梅尔倒谱系数特征为训练目标对所述残差卷积神经网络进行迭代训练,训练过程中对所述残差卷积神经网络进行网络参数更新,达到收敛条件后停止训练并保存残差卷积神经网络,得到鼾声检测模型;s5.使用训练完成的鼾声检测模型对环境音频进行实时检测。
5.优选的,所述s1步骤具体为: 收集原始鼾声数据,全部整理为相同时长的固定音频,并随机选取房间冲击响应音频对每条固定音频进行加混响以扩充音频长度,并随机降
低原始鼾声数据中鼾声音频的音量,重新生成训练用的鼾声数据集。
6.优选的,所述s2步骤具体为,对鼾声数据集中的音频进行短时傅里叶处理得到功率谱,对功率谱使用梅尔滤波器组进行滤波,最后将滤波后的功率谱取对数后再做离散余弦变换得到所述梅尔倒谱系数特征。
7.优选的,所述s2步骤得到的梅尔倒谱系数特征保存为扩展名为“.bin”的二进制文件,对二进制文件进行标签标注,标注过程是将鼾声音频对应的特征文件标注为0,非鼾声音频特征文件标注为1。
8.优选的,所述一维卷积编码层包括依次连接的一维卷积网络、批归一化层和非线性激活函数relu层。
9.优选的,所述s5步骤具体为:s51.通过对音频进行语音活动检测判断环境是否存在声音,如果判断存在声音则执行步骤s52,否则重新执行步骤s51;s52.设置数据存储队列,使用所述鼾声检测模型对输入音频进行预测打分,若打分大于阈值则执行步骤s53,否则执行步骤s54;s53.将打分结果标记为1加入队列;s54.将打分结果标记为-1加入队列;s55.判断队列长度是否被存满,存满则执行步骤s56,若未存满则返回步骤s51;s56.计算队列中标记数字的相加总和,如果总和大于0,说明检测到鼾声,否则说明未检测到鼾声。
10.本发明还公开了一种基于卷积神经网络的鲁棒性鼾声检测系统,包括依次连接的数据生成模块、mfcc特征提取模块、残差神经网络模块、分类器模块、逻辑检测模块;所述数据生成模块用于构建包括远场环境的鼾声数据集;所述mfcc特征提取模块用于提取鼾声数据集中的梅尔倒谱系数特征;所述残差卷积神经网络模块包括依次连接的一维卷积编码层、多个一维残差激励网络层、特征融合层、注意力统计池化层和线性层;其中一维卷积编码层的输出端与多个一维残差激励网络层的输入端连接,多个一维残差激励网络层的输出端均与特征融合层的输入端连接;所述分类器模块用于判断残差卷积神经网络模块输出的音频深层特征是否对应为鼾声特征;所述逻辑检测模块用于使用残差神经网络模块对环境音频进行实时检测。
11.优选的,所述分类器模块为softmax线性层。
12.本发明公开的鼾声检测方法及系统利用轻量级残差神经网络的特征提取,构建出一种具有鲁棒性的轻量化鼾声检测模型,有效提升当前检测方法的在中远距离下的检测率。
附图说明
13.图1所示为本发明所述鼾声检测装置的整体数据流向示意图;图2所示为本发明所述鼾声检测方法的一个具体实施流程示意图;图3所示为本发明所述残差神经网络模块的一个具体实施方式示意图;
图4所示为本发明检测逻辑检测模块的一个具体工作流程示意图。
实施方式
14.为更加直观清楚地描述本发明技术方案具体细节,下面将结合具体实施例和示例附图进行详细说明。
15.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施方式及相应的附图对本发明技术方案进行清楚、完整地阐述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
16.如图1所示,本发明用于实现鼾声检测方法的鼾声检测装置的整体结构包括:数据生成模块、mfcc特征提取模块、残差神经网络模块、分类器模块、逻辑检测模块。
17.其中数据生成模块、mfcc特征提取模块、分类器模块主要用于残差神经网络的训练过程中,训练完成后,利用残差神经网络模块和逻辑检测模块对外界音频进行鼾声识别。
18.所述数据生成模块将鼾声数据通过脚本剪切整理为3秒的训练样本,通过随机加混响和降低音量大小方式进一扩充数据。
19.所述mfcc特征提取模块对信号进行短时傅里叶处得到功率谱,使用梅尔滤波器组进行滤波,最后将其取对数做离散余弦变换得到梅尔倒谱系数特征作为训练样本。
20.所述残差神经网络模块输入mfcc特征向量,经过残差神经网络处理得到输出,最终输出特征向量维度为[batch_size,192],batch_size为每批训练样本的数量。
[0021]
分类器模块由一个线性层组成,特征在线性层经过非线性变化,提取特征之间关联,最后将分类概率映射到输出空间上,以此执行二分类器职责,作为可选实例,分类概率大于0.53时则被判断为鼾声。
[0022]
所述逻辑检测模块主要用于实时鼾声检测,为进一步降低误检测和提高准确率,会将每次检测结果储存到队列当中,当队列中存储的检测结果数量达到设定值3时,则进行判断:当检测结果中判定为鼾声的数量大于判定为非鼾声数量,则认为该时间段内存在鼾声。
[0023]
为更好的说明本发明具体方案和优势,下面将结合方法的具体实施流程对本发明细节做进一步阐述,如图2所示,本发明所述鼾声检测方法包括如下步骤:s1、收集及筛选原始鼾声数据,对单个数据进行对齐至固定长度,随机加混响和降低音量,构建包含远场环境的鼾声数据集。
[0024]
包含远场环境是通过加混响操作将原本音频数据使其具备远场音频的特征,从听感上来讲音频带有混响,使模型适应中远距离鼾声检测的一个必备条件,通过使用带有远场特性的音频数据进行训练,能够使模型泛化能力更强,能够检测距离也随之提升。通过对音频加混响操作,能够使音频具备一定远场特征,并且听感上也更接近从远距离传来的鼾声,使用该数据对模型进行训练,模型就能够学习并适应远场环境音频的特性,相比只使用近场音频训练的模型能更容易检测到远距离下的鼾声。
[0025]
一个具体实施方式中,原始鼾声数据为收集的实录睡眠鼾声、从freesound网站下载鼾声音频、从youtube网站获取相关鼾声视频等,并统一为wav格式,剔除质量不好、幅值过小、鼾声特征不明显的鼾声音频,整理得到3.5小时鼾声原始数据。
[0026]
将剔除后的原始鼾声数据重新整理为一个固定时长如3秒的固定音频,并随机选取混响数据集meshrir中选择房间冲击响应音频进行加混响扩充音频长度,并可随机降低鼾声音频的音量,降低音量可提高训练样本丰富性,使模型能对即使声音较小的鼾声也能够有较好检测率,重新生成20小时数据作为训练用的鼾声数据集。
[0027]
可首先遍历每一条鼾声音频,从混响数据集中随机选取若干条房间冲击响应对鼾声音频进行加混响操作。
[0028]
通过使用不同种类的房间脉冲响应加混响和随机改变音量大小对原始鼾声数据集进行增强,模拟生成远场音频用于训练,提升模型泛化性能,增强模型鲁棒性。
[0029]
此外,该鼾声训练数据集还包括非鼾声音频,作为可选示例,选取家庭环境常见噪声作为负样本进行训练,如电视声、音乐声、人声、风扇声等作为负样本训练。
[0030]
本步骤可由所述数据生成模块完成。
[0031]
s2、提取鼾声数据集中的梅尔倒谱系数(mfcc)特征作为训练样本。
[0032]
作为可选的实施例,在训练前提取mfcc特征并保存为扩展名为“.bin”的二进制文件,对其进行标签标注,标注过程是将鼾声音频的特征文件标注为
‘0’
,非鼾声音频特征文件标注为
‘1’
,其目的是告诉二分类模型标签为
‘0’
的是鼾声音频,标签为
‘1’
的是非鼾声音频,训练输入时直接读取二进制文件进行训练,加速训练过程;设输入特征向量为f_mfcc,其维度大小是[batch_size,filters,t],其中filters表示梅尔滤波器个数,filters=60,t表示特征长度,t=200。
[0033]
mfcc特征提取的一个具体流程如下,对音频进行短时傅里叶处理得到功率谱,对功率谱使用梅尔滤波器组进行滤波,最后将滤波后的功率谱取对数后再做离散余弦变换得到梅尔倒谱系数特征(mfcc)特征,以mfcc特征作为后续步骤的训练样本。
[0034]
梅尔倒谱系数特征(mel frequency cepstrum coefficient,mfcc)作为一种经典语音信号处理特征,能在一定程度上模拟人耳对声音的感知,在语音识别、说话人识别、情感识别等领域已得到广泛应用,因此本发明利用mfcc特征所具备的良好区分能力应用于鼾声检测,引入一种残差卷积神经网络架构ecapa-tdnn作为特征提取网络,并联合二分类网络组成完整的轻量化鼾声检测模型结构,该模型作为一种轻量高效级结构,满足嵌入式设备模型部署的需求。
[0035]
本步骤可由所述mfcc特征提取模块完成。
[0036]
s3、以mfcc特征作为输入,引用ecapa-tdnn(emphasized channel attention, propagation and aggregation in tdnn based speaker verifification,基于tdnn强调通道注意力传播和聚合的说话人验证网络)残差卷积神经网络结构提取音频深层特征。
[0037]
如图3所示,所述残差卷积神经网络包括依次连接的一维卷积编码层、多个一维残差激励网络层、特征融合层、注意力统计池化层和线性层;其中一维卷积编码层的输出端与多个一维残差激励网络层的输入端连接,多个一维残差激励网络层的输出端均与特征融合层的输入端连接。
[0038]
所述一维卷积编码层包括一维卷积网络、批归一化层和非线性激活函数relu层,作为可选实例,一维卷积网络输入通道数为梅尔滤波器个数filters,输出通道数为c,c=64。
[0039]
输入特征向量f_mfcc输入进行一维卷积编码层,经过卷积网络处理,f_mfcc的特
征长度不变,通道数变为c,输出向量表示如下:f_conv=batchnorm(relu(conv_1d(f_mfcc)))其中,conv_1d表示一维卷积网络特征映射,relu表示非线性激活函数,batchnorm表示批归一化操作,f_conv表示一维卷积编码层的输出向量,其维度大小为[batch_size,c,t]。
[0040]
所述一维残差激励网络层,由残差网络和压缩激励网络构成,所述残差网络使用多尺度层级残差相连的方式,将输入特征分割为n个更小尺度的特征,并分配n-1个卷积滤波器进行加权,逐个将加权后的特征进行残差连接,最终所有小尺度特征拼接,还原为输入特征维度相同的输出特征。所述残差网络使用较小的卷积核进行滤波,但通过多尺度处理方式增大了感受野范围,在计算消耗和多尺度特征提取上取得一定平衡。
[0041]
所述压缩激励网络能够将特征的通道维度即通道数信息自动加权,增强特征中有用信息并抑制无用信息,同时参数计算小,计算复杂度低。具体的,压缩激励网络将输入特征维度[batch_size,c,t]压缩至[batch_size,c,1],相当于将视野扩展到通道维度,然后使用压缩激励网络中的线性层对压缩后特征的各个通道进行线性预测,最后使用预测得到的权重值与输入特征进行相乘,完成整个压缩激励过程。
[0042]
上述压缩激励网络属于已有技术,来自于文献“squeeze-and-excitation networks”(hu, j., shen, l., albanie, s., sun, g., & wu, e. (2017). squeeze-and-excitation networks. ieee transactions on pattern analysis and machine intelligence, 42, 2011-2023.)压缩网络激励网络将输入特征的维度先缩小得到一个关注通道维度的特征权重向量,再该特征权重向量与输入向量相乘,还原到输入的特征维度,整个过程依然是一个特征加权的过程。
[0043]
使用三个一维残差激励网络层进行堆叠并进行残差连接,最终输出三个加权激励后特征输入进特征融合层,具体表示如下:f_res1= resblock(f_conv)f_res2= resblock(f_conv+ f_res1)f_res3= resblock(f_conv+ f_res1+ f_res2)其中, resblock表示一维残差激励网络层的特征映射,f_res1、f_res2、f_res3分别表示每个一维残差激励网络层的输出向量,维度都为[batch_size,c,t]。
[0044]
特征融合层与三个残差激励网络层输出端都为跳跃连接,三个残差激励网络层的输出作为特征融合层的输入,特征融合层将三个一维残差激励网络层的输出向量按照输出向量的通道数进行拼接,即将三个维度都是[batch_size,c,t]的加权激励后特征f_res1, f_res2, f_res3拼接为一个维度为[batch_size,3c,t]的输出向量,再输入进卷积神经网络,完成特征融合,具体表示如下:f_cat=conv_1d(cat(f_res1,f_res2,f_res3))其中,cat表示按通道维度进行特征拼接操作,conv_1d表示一维卷积网络特征映射,得到特征融合层的输出向量f_cat维度为[batch_size,3c,t]。
[0045]
所述注意力统计池化层由两个卷积神经网络组成,其中两个卷积神经网络除输入通道和输出通道的配置不同以外,其余都相同,通过两个卷积神经网络去自动学习归一化
之前所需的特征信息。
[0046]
所述注意力统计池化层可引用现有技术“attentive statistics pooling for deep speaker embedding
”ꢀ
(okabe, k., koshinaka, t., & shinoda, k. (2018). attentive statistics pooling for deep speaker embedding. interspeech.),该方法具体实现过程使用了两个卷积神经网络,第一个卷积神经网络是将输入向量变换到其它维度进行加权,第二个卷积神经网络是特征维度进行还原。
[0047]
注意力统计池化层利用注意力机制计算向量之间内在联系,通过归一化操作得到池化层所需权重,对输入数据的方差及标准差进行加权操作,增加目标特征和非目标特征的区分程度,具体表示如下:f_attention=attentionpool(f_cat)其中,attentionpool表示注意力统计池化层特征映射,f_attention表示注意力统计池化层输出的注意力特征向量,维度为[batch_size,6c,t]。
[0048]
所述线性层对注意力特征向量进行线性变换,完成特征降维处理,得到最终提取的特征嵌入向量,具体表示如下:f_embedding=linear(f_attention)其中linear表示线性层特征映射,f_embedding表示线性层输出的特征嵌入向量,f_embedding即本步骤输出的所述音频深层特征,维度为[batch_size,3c,t]。
[0049]
s4、以步骤s3得到的音频深层特征输入二分类器进行判断是否为目标鼾声,以输入之前的mfcc特征为训练目标对所述残差卷积神经网络进行迭代训练,训练过程中对所述残差卷积神经网络进行网络参数更新,达到收敛条件后停止训练并保存残差卷积神经网络,得到鼾声检测模型。
[0050]
如图3所示,经过残差卷积神经网络的线性层输出的音频深层特征输入到由一个softmax线性层实现的所述二分类器,该softmax线性层输入维度为3c,输出维度为2,过程如下所示:[out1, out2] =softmax(final_layer(fembedding)其中,final_layer()表示二分类器的特征映射,out1表示属于鼾声的概率得分,out2表示属于非鼾声的概率得分,通过线性变换将高维的特征嵌入向量f_embedding转换为二维向量,再经过softmax函数处理得到目标声音概率和非目标声音概率,通过阈值判断是否属于鼾声。
[0051]
s5、使用训练完成的鼾声检测模型对环境音频进行实时检测,为提升方法鲁棒性,增加检测逻辑模块进一步判断环境中鼾声存在概率,减少误检测情况。
[0052]
进一步的,所述检测逻辑模块判断流程如图4所示:步骤s51.通过对音频流进行语音活动检测,输入鼾声音频的mfcc特征判断环境是否存在声音,如果判断存在声音则执行步骤s52,否则重新执行步骤s51 。
[0053]
步骤s52. 设置一定长度的数据存储队列,例如长度设置为10,使用鼾声检测模型对输入音频流进行预测打分,若打分大于阈值则执行步骤s53,否则执行步骤s54,。
[0054]
步骤s53.将打分结果标记为“1”加入队列,作为可选实例,队列长度设置为3,即最多添加3次打分结果。
[0055]
步骤s54.将打分结果标记为
“‑
1”加入队列。
[0056]
步骤s55.判断队列长度是否10个位置均被存满,如果存满则执行步骤s56,若未存满则返回步骤s51。
[0057]
步骤s56.计算队列中标记数字的相加总和,如果总和大于0,说明检测到鼾声,返回结果“ture”,否则说明未检测到鼾声,返回结果“false”。
[0058]
本步骤可由所述逻辑检测模块进行。
[0059]
通过上述逻辑检测模块,能够有效提升系统稳定性,并降低误检情况,具体来讲,因为需要队列长度存满才返回结果,模型则需要根据多次的检测结果再进行综合判断,比只检测一次就输出结果的系统更加稳定,同时队列长度可以根据不同需求情况进行设置,使模型满足更多用户检测需求,比如,输入一段长时间的非鼾声音频,如果检测队列长度设为1,则模型只要偶而有1次大于阈值的情况就会将其误判为鼾声;而如果检测队列长度设为3,根据检测逻辑,模型则需要在这3次检测内有2次大于阈值的情况才会误判为鼾声,极大概率上避免了模型偶尔出现1次打分失误然后返回错误结果的现象。
[0060]
为验证本发明公开的鼾声检测方法的有效性,一个具体实施例中通过移植到嵌入式设备中搭建实验环境进行测试,实际自然环境下,自动播放鼾声测试集约20分钟,分别统计本发明公开方法在0.5m、1m、2m、3m距离下鼾声检测准确率,鼾声播放声压级约55-65db,测试结果如下所示:距离/m播放时长/分钟总次数/次检测目标音次数/次准确率0.52016816095.24%12017016295.29%21915714491.72%31915513788.39%其中,在 1m以内,检测准确在95%以上,继续增加距离至2m,检测准确率在90%以上,在3m时仅有些微下降,准确率依然有88.39%,结果表面本发明所公开鼾声检测方法在近距离和中远距离下都能有较好效果,验证率了该方法的有效性及稳定性。
[0061]
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
技术特征:
1.一种基于卷积神经网络的鲁棒性鼾声检测方法,其特征在于,包括如下步骤:s1.构建包括远场环境的鼾声数据集;s2.提取鼾声数据集中的梅尔倒谱系数特征作为训练样本;s3.以梅尔倒谱系数特征作为输入,引用ecapa-tdnn残差卷积神经网络结构提取音频深层特征;所述ecapa-tdnn残差卷积神经网络包括依次连接的一维卷积编码层、多个一维残差激励网络层、特征融合层、注意力统计池化层和线性层;其中一维卷积编码层的输出端与多个一维残差激励网络层的输入端连接,多个一维残差激励网络层的输出端均与特征融合层的输入端连接;s4.以步骤s3得到的音频深层特征输入二分类器进行判断是否为目标鼾声,以输入的音频深层特征对应的梅尔倒谱系数特征为训练目标对所述残差卷积神经网络进行迭代训练,训练过程中对所述残差卷积神经网络进行网络参数更新,达到收敛条件后停止训练并保存残差卷积神经网络,得到鼾声检测模型;s5.使用训练完成的鼾声检测模型对环境音频进行实时检测。2.如权利要求1所述的基于卷积神经网络的鼾声检测方法,其特征在于,所述s1步骤具体为: 收集原始鼾声数据,全部整理为相同时长的固定音频,并随机选取房间冲击响应音频对每条固定音频进行加混响以扩充音频长度,并随机降低原始鼾声数据中鼾声音频的音量,重新生成训练用的鼾声数据集。3.如权利要求1所述的基于卷积神经网络的鼾声检测方法,其特征在于,所述s2步骤具体为,对鼾声数据集中的音频进行短时傅里叶处理得到功率谱,对功率谱使用梅尔滤波器组进行滤波,最后将滤波后的功率谱取对数后再做离散余弦变换得到所述梅尔倒谱系数特征。4.如权利要求1所述的基于卷积神经网络的鼾声检测方法,其特征在于,所述s2步骤得到的梅尔倒谱系数特征保存为扩展名为“.bin”的二进制文件,对二进制文件进行标签标注,标注过程是将鼾声音频对应的特征文件标注为0,非鼾声音频特征文件标注为1。5.如权利要求1所述的基于卷积神经网络的鼾声检测方法,其特征在于,所述一维卷积编码层包括依次连接的一维卷积网络、批归一化层和非线性激活函数relu层。6.如权利要求1所述的基于卷积神经网络的鼾声检测方法,其特征在于,所述s5步骤具体为:s51.通过对音频进行语音活动检测判断环境是否存在声音,如果判断存在声音则执行步骤s52,否则重新执行步骤s51;s52.设置数据存储队列,使用所述鼾声检测模型对输入音频进行预测打分,若打分大于阈值则执行步骤s53,否则执行步骤s54;s53.将打分结果标记为1加入队列;s54.将打分结果标记为-1加入队列;s55.判断队列长度是否被存满,存满则执行步骤s56,若未存满则返回步骤s51;s56.计算队列中标记数字的相加总和,如果总和大于0,说明检测到鼾声,否则说明未检测到鼾声。7.一种基于卷积神经网络的鲁棒性鼾声检测系统,其特征在于,包括依次连接的数据
生成模块、mfcc特征提取模块、残差神经网络模块、分类器模块、逻辑检测模块;所述数据生成模块用于构建包括远场环境的鼾声数据集;所述mfcc特征提取模块用于提取鼾声数据集中的梅尔倒谱系数特征;所述残差卷积神经网络模块包括依次连接的一维卷积编码层、多个一维残差激励网络层、特征融合层、注意力统计池化层和线性层;其中一维卷积编码层的输出端与多个一维残差激励网络层的输入端连接,多个一维残差激励网络层的输出端均与特征融合层的输入端连接;所述分类器模块用于判断残差卷积神经网络模块输出的音频深层特征是否对应为鼾声特征;所述逻辑检测模块用于使用残差神经网络模块对环境音频进行实时检测。8.如权利要求7所述的基于卷积神经网络的鲁棒性鼾声检测系统,其特征在于,所述分类器模块为softmax线性层。
技术总结
一种基于卷积神经网络的鲁棒性鼾声检测方法及系统,所述方法包括如下步骤:S1.构建包括远场环境的鼾声数据集;S2.提取鼾声数据集中的梅尔倒谱系数特征作为训练样本;S3.以梅尔倒谱系数特征作为输入,引用ECAPA-TDNN残差卷积神经网络结构提取音频深层特征;S4.以步骤S3得到的音频深层特征输入二分类器进行判断是否为目标鼾声,进行迭代训练,得到鼾声检测模型;S5.使用训练完成的鼾声检测模型对环境音频进行实时检测。本发明公开的鼾声检测方法利用轻量级残差神经网络的特征提取,构建出一种具有鲁棒性的轻量化鼾声检测模型,有效提升当前检测方法的在中远距离下的检测率。升当前检测方法的在中远距离下的检测率。升当前检测方法的在中远距离下的检测率。
技术研发人员:刘鹏
受保护的技术使用者:成都启英泰伦科技有限公司
技术研发日:2023.07.25
技术公布日:2023/10/11

版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/