一种鱼群摄食强度分类方法、系统及设备
未命名
09-03
阅读:85
评论:0

1.本发明涉及水产养殖领域,特别是涉及一种鱼群摄食强度分类方法、系统及设备。
背景技术:
2.在水产养殖中,饵料投放量一直是一个限制养殖经济收益的重要问题,合理控制饵料投喂具有重大意义。现阶段投喂决策大都是依靠养殖人员经验来设定投饵量,忽略了鱼类摄食需求和水质环境等因素的影响,常常因投喂不足或过度投喂而造成水质污染和资源浪费。因此,亟需开发一种基于鱼类的摄食需求的自动鱼群摄食强度识别方法,以实现无接触、实时摄食强度分类,这对于进一步开发自需式投喂系统至关重要。
技术实现要素:
3.本发明的目的是提供一种鱼群摄食强度分类方法、系统及设备,以解决人工投喂方式因投喂不足或过度投喂而造成水质污染和资源浪费的问题。
4.为实现上述目的,本发明提供了如下方案:
5.一种鱼群摄食强度分类方法,包括:
6.对待测音频段进行特征提取,确定基于mel频谱的鱼群摄食深度语谱特征向量、基于cqt的鱼群摄食深度语谱特征向量以及基于stft的鱼群摄食深度语谱特征向量;
7.融合所述基于mel频谱的鱼群摄食深度语谱特征向量、所述基于cqt的鱼群摄食深度语谱特征向量以及所述基于stft的鱼群摄食深度语谱特征向量,生成融合特征语谱图;
8.将所述融合特征语谱图输入至由不同类型的摄食强度对应的历史音频段构建的深度卷积神经网络模型中,确定所述待测音频段对应的摄食强度类型;所述摄食强度的类型包括“强”、“中”、“弱”以及“无”。
9.可选的,所述基于mel频谱的鱼群摄食深度语谱特征向量的提取过程,具体包括:
10.在鱼群摄食信号的频率范围内设置多个三角滤波器,形成三角频率滤波器组;所述三角频率滤波器组包括多个带通滤波器;所述带通滤波器为梅尔滤波器;所述带通滤波器的传递函数为其中,hm(k)为带通滤波器,m为梅尔滤波器的序列号,m为梅尔滤波器的数量,f(m)为第m个梅尔滤波器的中心频率;f(m+1)为第m+1个梅尔滤波器的中心频率;f(m-1)为第m-1个梅尔滤波器的中心频率;
11.利用所述三角频率滤波器组对所述待测音频段中的声音信号进行快速傅里叶变换处理,将所述声音信号从时域转换到频域,生成滤波后的声音信号;
12.根据所述滤波后的声音信号确定能谱;
13.根据所述能谱确定每个梅尔滤波器中的信号能量;
14.根据所述信号能量确定鱼群摄食声音信号的梅尔频谱图;
15.根据所述梅尔频谱图提取所述待测音频段中基于mel频谱的鱼群摄食深度语谱特征向量。
16.可选的,所述基于cqt的鱼群摄食深度语谱特征向量的提取过程,具体包括:
17.对所述待测音频段中的声音信号进行恒q变换,生成经恒q变化后的频谱参数;
18.根据所述频谱参数生成恒q变换频谱图;
19.根据所述恒q变换频谱图提取所述待测音频段中基于cqt的鱼群摄食深度语谱特征向量。
20.可选的,所述基于stft的鱼群摄食深度语谱特征向量的提取过程,具体包括:
21.对所述待测音频段中的声音信号加上一个沿着时间轴移动的短时窗函数,并由所述短时窗函数截取各个时刻的非平稳信号;短时窗内的信号为平稳信号;
22.对所述非平稳信号进行傅里叶变换,生成各个时刻的时频谱;
23.根据所述时频谱提取所述待测音频段中基于stft的鱼群摄食深度语谱特征向量。
24.可选的,所述深度卷积神经网络模型的构建过程,具体包括:
25.分别获取鱼群摄食前、摄食过程以及摄食后的历史视频片段以及历史声音信号;
26.根据所述历史视频片段划分不同类型的摄食强度,并同步裁剪所述历史声音信号确定不同类型的摄食强度对应的历史音频段;
27.根据所述历史音频段构建所述深度卷积神经网络模型。
28.一种鱼群摄食强度分类系统,包括:
29.特征提取模块,用于对待测音频段进行特征提取,确定基于mel频谱的鱼群摄食深度语谱特征向量、基于cqt的鱼群摄食深度语谱特征向量以及基于stft的鱼群摄食深度语谱特征向量;
30.特征融合模块,用于融合所述基于mel频谱的鱼群摄食深度语谱特征向量、所述基于cqt的鱼群摄食深度语谱特征向量以及所述基于stft的鱼群摄食深度语谱特征向量,生成融合特征语谱图;
31.摄食强度类型确定模块,用于将所述融合特征语谱图输入至由不同类型的摄食强度对应的历史音频段构建的深度卷积神经网络模型中,确定所述待测音频段对应的摄食强度类型;所述摄食强度的类型包括“强”、“中”、“弱”以及“无”。
32.可选的,所述基于mel频谱的鱼群摄食深度语谱特征向量的提取过程,具体包括:
33.三角频率滤波器组设置单元,用于在鱼群摄食信号的频率范围内设置多个三角滤波器,形成三角频率滤波器组;所述三角频率滤波器组包括多个带通滤波器;所述带通滤波器为梅尔滤波器;所述带通滤波器的传递函数为其中,hm(k)为带通滤波器,m为梅尔滤波器的序列号,m为梅尔滤波器的数量,f(m)为第m个梅尔滤波器的中心频率;f(m+1)为第m+1个梅尔滤波器的中心频率;f(m-1)为第m-1个梅尔
滤波器的中心频率;
34.快速傅里叶变换处理单元,用于利用所述三角频率滤波器组对所述待测音频段中的声音信号进行快速傅里叶变换处理,将所述声音信号从时域转换到频域,生成滤波后的声音信号;
35.能谱确定单元,用于根据所述滤波后的声音信号确定能谱;
36.信号能量确定单元,用于根据所述能谱确定每个梅尔滤波器中的信号能量;
37.梅尔频谱图确定单元,用于根据所述信号能量确定鱼群摄食声音信号的梅尔频谱图;
38.基于mel频谱的鱼群摄食深度语谱特征向量提取单元,用于根据所述梅尔频谱图提取所述待测音频段中基于mel频谱的鱼群摄食深度语谱特征向量。
39.可选的,所述基于cqt的鱼群摄食深度语谱特征向量的提取过程,具体包括:
40.经恒q变化后的频谱参数生成单元,用于对所述待测音频段中的声音信号进行恒q变换,生成经恒q变化后的频谱参数;
41.恒q变换频谱图生成单元,用于根据所述频谱参数生成恒q变换频谱图;
42.基于cqt的鱼群摄食深度语谱特征向量确定单元,用于根据所述恒q变换频谱图提取所述待测音频段中基于cqt的鱼群摄食深度语谱特征向量。
43.一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述所述的鱼群摄食强度分类方法。
44.一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的鱼群摄食强度分类方法。
45.根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明提供了一种鱼群摄食强度分类方法、系统及设备,将视频片段与声音信号相结合,基于梅尔频谱、恒q变换(constant-q transform,cqt)以及短时傅里叶变换(short-time fourier transform,stft)对结合后的待测音频段进行特征提取,生成不同的鱼群摄食深度语谱特征向量,融合不同的鱼群摄食深度语谱特征向量,将融合特征语谱图输入至不同类型的摄食强度对应的历史音频段构建的深度卷积神经网络模型中,确定该待测音频段对应的摄食强度类型。本发明结合视频片段以及声音信号,按照摄食强度类型根据鱼群摄食需求进行投喂,实现了自动按需投喂,避免了投喂不足或过度投喂而造成水质污染和资源浪费。
附图说明
46.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
47.图1为本发明所提供的鱼群摄食强度分类方法流程图;
48.图2为本发明所提供的基于cnn的鱼群摄食强度分类方法流程图;
49.图3为本发明所提供的实验数据获取系统结构图;
50.图4本发明所提供的鱼群摄食数据集显示不同摄食强度类型的部分样本图;
51.图5为本发明所提供的鱼群摄食强度特征图;
52.图6为本发明所提供的传统的网络结构与改进的cnn网络模型对比图。
具体实施方式
53.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
54.本发明的目的是提供一种鱼群摄食强度分类方法、系统及设备,实现了自动按需投喂,避免了投喂不足或过度投喂而造成水质污染和资源浪费。
55.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
56.声音识别是当今模式识别理论中的一个前沿话题,它涵盖了许多领域。目前,一些声音识别课题已经取得了显著的研究进展,如自动语音识别(automatic speechrecognition,asr)、音乐信息检索(music information retrieval,mir)、鸟类音频检测(bird audio detection,bad)、环境声音分类(environmental sound classification,esc)和心音异常诊断。鱼虾在进食过程中产生脉冲声波信号,可以作为进食活动的评判依据,使用被动声学的方法进行探测不会对鱼虾摄食环境以及摄食行为产生负面影响,还能为制定更有效的摄食策略提供基础,从而使摄食制度符合不同鱼类种群的摄食需求。因此,基于声学技术的鱼类摄食行为研究是量化鱼类摄食强度的重要手段。
57.特征融合是一种常见的融合方法,广泛应用于图像识别、语音识别和声场景分类等任务中。近年来,随着深度学习的迅速发展,特征融合在许多领域得到了广泛应用,并取得了良好的性能。目前,更多的学者关注图像特征的融合或声学和图像特征的组合。已有研究表明,使用卷积神经网络(cnn)模型融合梅尔频率倒谱系数(mfcc)特征,创建声学特征与视觉特征的融合可以取得不错的效果。考虑到特征融合算法的优点,本发明提出了一种基于鱼群摄食声音信号特征融合的摄食强度分类方法。该方法为进一步开发自需式投喂决策系统具有重要指导意义。
58.实施例一
59.如图1-图2所示,本发明一种鱼群摄食强度分类方法,包括:
60.步骤101:对待测音频段进行特征提取,确定基于mel频谱的鱼群摄食深度语谱特征向量、基于cqt的鱼群摄食深度语谱特征向量以及基于stft的鱼群摄食深度语谱特征向量。
61.在实际应用中,在步骤101之前,如图3所示,使用海康威视视觉相机和全向水听器分别获取鱼类摄食前,摄食过程,摄食后视频片段和声音信号。
62.根据水产养殖技术人员的经验以及现有的摄食强度划分标准,通过回看视频,将鱼的摄食强度视频分成了“强”、“中”、“弱”、“无”、4种类型,如图4所示。然后依据视频的分类强度和时间段,对同步的声音信号进行了同样的裁剪处理获得了4种摄食强度类型的音频段。
63.对于每一类摄食强度的音频段,通过随机选择音频片段,按照一定的比例创建训练集,验证集和测试集,根据训练集构建深度卷积神经网络模型。
64.在实际应用中,所述基于mel频谱的鱼群摄食深度语谱特征向量的提取过程,具体包括:
65.梅尔频率是受人耳听觉特性启发的非线性频率。式(1)中描述了声音频率与梅尔频率的对数关系,其中f
mel
为梅尔频率,f为实际频率,单位为hz。
[0066][0067]
三角频率滤波器组模仿人耳对语音信号进行滤波,在鱼类摄食信号的频率范围内设置了m个三角滤波器,形成三角频率滤波器组。
[0068]
三角频率滤波器组由64个带通滤波器hm(k)组成,该带通滤波器为梅尔滤波器,其传递函数如公式(2)所示,其中,1≤m≤m,m代表梅尔滤波器的序列号,m是梅尔滤波器的数量,f(m)为第m个梅尔滤波器的中心频率;f(m+1)为第m+1个梅尔滤波器的中心频率;f(m-1)为第m-1个梅尔滤波器的中心频率。
[0069][0070]
如公式(3)所示,f
l
和fh分别为滤波器的最低频率和最高频率,fs为采样频率,n为快速傅里叶变换(fastfouriertransform,fft)的长度,f
mel
为mel感知频率,为f
mel
的逆函数。在本发明中,fs设置为22050,f
l
≥0,fh设置为fs的一半,n设置为2048。
[0071][0072]
当三角频率滤波器组被设计出来后,对摄食信号y(n)进行fft,将时域信号转换到频域,该摄食信号即为待测音频段中的摄食声音信号。如公式(4)所示,k代表频域中的第k条谱线。
[0073][0074]
能谱e(i,k)是由fft后的x(i,k)平方得到的,其表达式计算如下:
[0075]
e(i,k)=[x(i,k)]
2 (5)
[0076]
之后,得到的能谱通过m个mel滤波器组,得到每个梅尔滤波器s(i,m)中的信号能量:
[0077][0078]
采用上述方法及步骤可得到包含信号能量大小信息的m
×
n阶矩阵,根据能量大小与颜色深浅程度一一映射的关系进行着色,即可得到鱼群摄食信号的mel频谱图(mel spectrogram)。
[0079]
在实际应用中,所述基于stft的鱼群摄食深度语谱特征向量的提取过程,具体包
括:
[0080]
在数字信号处理领域,短时傅里叶变换(short-time fourier transform,stft)是目前常用的信号处理方法之一,在时频分析领域具有重要作用。
[0081]
stft是对信号加上一个沿着时间轴移动的短时窗函数,由该短时窗截取各个时刻附近的非平稳信号,此时可将短时窗内的信号看成是平稳信号,并分别对截取结果进行傅里叶变换(fourier transform,ft),得到各时刻附近的频谱,即时频谱。
[0082]
经stft处理后的信号具有时域和频域的局部化特性,可以用于分析信号的时频特性。stft通过将非平稳信号分割成许多包含准平稳部分的帧来增加时间维度,并使用窗函数来减少频谱中的旁瓣。如等式(7)所示,s[n]表示窗口长度为l的音频信号,w[t]表示短时窗函数。在本工作中,采样率设置为22050,l设置为2048,跳数设置为512,期望输出的色阶数为12。
[0083][0084]
在实际应用中,所述基于cqt的鱼群摄食深度语谱特征向量,具体包括:
[0085]
恒q变换(constant-q transform,cqt)采用的是对数间隔的频率间隔,可以让整个频谱中的q因子恒定(q因子为中心频率与带宽比)。相比于傅里叶变换,恒q变换使频谱中的低频段有相对高的频率分辨率,使频谱中的高频段有相对高的时间分辨率;且恒q变换的窗长会随频率的变化发生改变。
[0086]
恒q变换将语音从时域转换为频域,恒q变换中两个相邻分量间的中心频率的比率不变,第k个分量的中心频率如下式所示,其中,fk表示第k个分量的中心频率,f
min
表示第1个分量的中心频率,即在整个频谱中频率最小的音,β表示每个八度中的频谱线个数。在本文中,β被设置为36,f
min
被设置为32.7hz。
[0087][0088]
第k个分量中的恒q因子为中心频率与带宽比,由于q是常量,所以适用于频谱中的所有分量。如下式所示。其中f
k+1-fk表示第k个分量的带宽,从中可以看出,q因子的值仅与β相关。
[0089][0090]
第k个频带的窗口长度nk随频率变化,且与k个滤波器中心频率f成反比,nk由下式决定,其中fs代表采样频率。在本文中,fs被设置为22050。
[0091][0092]
最后对语音信号x(m)进行恒q变换,变换后的第n帧的第k个八度的频率分量由下式决定。其中,表示窗函数,x
cqt
(k)表示经恒q变换后的频谱参数。
[0093][0094]
人的发声器官的频率范围较多地集中在低频,对信号常用的时频转换方法是
stft,stft在较低频率下会出现周期截断等问题,会导致语音的频率分辨率较低。与stft相比,mel频谱和cqt提供对数尺度上的频率分析,可以很好地解决这个问题,为低频提供更高的分辨率,更完整地反应了原有声音的特征。基于特征的多样性,我们认为提供不同的特征进行分类是可行的。图5分别显示了stft频谱图、mel频谱、cqt频谱图以及融合特征图。此外,mel频谱、cqt谱图和stft还没有作为cnn模型的一部分用于鱼群摄食强度识别。
[0095]
步骤102:融合所述基于mel频谱的鱼群摄食深度语谱特征向量、所述基于cqt的鱼群摄食深度语谱特征向量以及所述基于stft的鱼群摄食深度语谱特征向量,生成融合特征语谱图。
[0096]
步骤103:将所述融合特征语谱图输入至由不同类型的摄食强度对应的历史音频段构建的深度卷积神经网络模型中,确定所述待测音频段对应的摄食强度类型;所述摄食强度的类型包括“强”、“中”、“弱”以及“无”。
[0097]
在实际应用中,将基于mel频谱的鱼群摄食深度语谱特征向量、基于cqt的鱼群摄食深度语谱特征向量以及基于stft的鱼群摄食深度语谱特征向量进行融合,使用改进的cnn网络模型进行分类。
[0098]
在实际应用中,将变换后生成的融合特征语谱图作为预训练深度卷积神经网络模块的输入,使用改进的cnn网络完成了鱼群摄食强度分类的任务。改进方案如图6所示,将ghostnet模型中ghost-blockneck模块的se注意力机制(squeeze-and-excitation networks)模块替换为ca注意力机制(coordinate attention)模块。
[0099]
本发明采用准确率、精确率、召回率和f1值(accuracy,precision,recall andf1-score)对鱼类摄食活动强度分类进行评价(公式12-15)。其中,真阳性(tp)表示阳性类被判定为阳性类,假阳性(fp)代表阴性类被判定为阳性类,假阴性(fn)表示阳性类被判定为阴性类,而真阴性(tn)代表被正确分类的阴性样本的数量。四个评估指标定义如下:
[0100][0101][0102][0103][0104]
本发明首先通过librosa库提取了摄食语音的mel、cqt和stft特征,然后将几种不同的声学特征进行融合,融合后的摄食特征语谱图输入微调的卷积神经网络提取深度特征并进行分类,得到分类结果。该方法既对不同的摄食音频特征进行了优选融合,又改进了ghostnet模型中ghost-blockneck模块的注意力机制模块。与已有算法相比,本发明显著提高了鱼群摄食声音识别精度。
[0105]
实施例二
[0106]
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种鱼群摄食强度分类系统。
[0107]
一种鱼群摄食强度分类系统,包括:
[0108]
特征提取模块,用于对待测音频段进行特征提取,确定基于mel频谱的鱼群摄食深度语谱特征向量、基于cqt的鱼群摄食深度语谱特征向量以及基于stft的鱼群摄食深度语谱特征向量。
[0109]
特征融合模块,用于融合所述基于mel频谱的鱼群摄食深度语谱特征向量、所述基于cqt的鱼群摄食深度语谱特征向量以及所述基于stft的鱼群摄食深度语谱特征向量,生成融合特征语谱图。
[0110]
摄食强度类型确定模块,用于将所述融合特征语谱图输入至由不同类型的摄食强度对应的历史音频段构建的深度卷积神经网络模型中,确定所述待测音频段对应的摄食强度类型;所述摄食强度的类型包括“强”、“中”、“弱”以及“无”。
[0111]
在实际应用中,所述基于mel频谱的鱼群摄食深度语谱特征向量的提取过程,具体包括:
[0112]
三角频率滤波器组设置单元,用于在鱼群摄食信号的频率范围内设置多个三角滤波器,形成三角频率滤波器组;所述三角频率滤波器组包括多个带通滤波器;所述带通滤波器为梅尔滤波器;所述带通滤波器的传递函数为其中,hm(k)为带通滤波器,m为梅尔滤波器的序列号,m为梅尔滤波器的数量,f(m)为第m个梅尔滤波器的中心频率;f(m+1)为第m+1个梅尔滤波器的中心频率;f(m-1)为第m-1个梅尔滤波器的中心频率。
[0113]
快速傅里叶变换处理单元,用于利用所述三角频率滤波器组对所述待测音频段中的声音信号进行快速傅里叶变换处理,将所述声音信号从时域转换到频域,生成滤波后的声音信号。
[0114]
能谱确定单元,用于根据所述滤波后的声音信号确定能谱。
[0115]
信号能量确定单元,用于根据所述能谱确定每个梅尔滤波器中的信号能量。
[0116]
梅尔频谱图确定单元,用于根据所述信号能量确定鱼群摄食声音信号的梅尔频谱图。
[0117]
基于mel频谱的鱼群摄食深度语谱特征向量提取单元,用于根据所述梅尔频谱图提取所述待测音频段中基于mel频谱的鱼群摄食深度语谱特征向量。
[0118]
在实际应用中,所述基于cqt的鱼群摄食深度语谱特征向量的提取过程,具体包括:
[0119]
经恒q变化后的频谱参数生成单元,用于对所述待测音频段中的声音信号进行恒q变换,生成经恒q变化后的频谱参数;恒q变换频谱图生成单元,用于根据所述频谱参数生成恒q变换频谱图;基于cqt的鱼群摄食深度语谱特征向量确定单元,用于根据所述恒q变换频谱图提取所述待测音频段中基于cqt的鱼群摄食深度语谱特征向量。
[0120]
实施例三
[0121]
本发明实施例提供一种电子设备包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例一提供的鱼群摄食强度分类方
法。
[0122]
在实际应用中,上述电子设备可以是服务器。
[0123]
在实际应用中,电子设备包括:至少一个处理器(processor)、存储器(memory)、总线及通信接口(communications interface)。
[0124]
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。
[0125]
通信接口,用于与其它设备进行通信。
[0126]
处理器,用于执行程序,具体可以执行上述实施例所述的方法。
[0127]
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
[0128]
处理器可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
[0129]
存储器,用于存放程序。存储器可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
[0130]
基于以上实施例的描述,本技术实施例提供一种存储介质,其上存储有计算机程序指令,计算机程序指令可被处理器执行以实现任意实施例所述的方法
[0131]
本技术实施例提供的鱼群摄食强度分类系统以多种形式存在,包括但不限于:
[0132]
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供语音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
[0133]
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网性能。这类终端包括:pda、mid和umpc设备等,例如ipad。
[0134]
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
[0135]
(4)其他具有数据交互功能的电子设备。
[0136]
至此,已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序,以实现期望的结果。在某些实施方式中,多任务处理和并行处理可以是有利的。
[0137]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0138]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本领域内的技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘
存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0139]
本技术是参照根据本技术实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0140]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0141]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0142]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0143]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0144]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、
[0145]
数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带、磁盘存储或其他磁性存储设备
[0146]
或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0147]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0148]
本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中,程序模块可以
位于包括存储设备在内的本地和远程计算机存储介质中。
[0149]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0150]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:
1.一种鱼群摄食强度分类方法,其特征在于,包括:对待测音频段进行特征提取,确定基于mel频谱的鱼群摄食深度语谱特征向量、基于cqt的鱼群摄食深度语谱特征向量以及基于stft的鱼群摄食深度语谱特征向量;所述待测音频段包括视频片段以及声音信号;融合所述基于mel频谱的鱼群摄食深度语谱特征向量、所述基于cqt的鱼群摄食深度语谱特征向量以及所述基于stft的鱼群摄食深度语谱特征向量,生成融合特征语谱图;将所述融合特征语谱图输入至由不同类型的摄食强度对应的历史音频段构建的深度卷积神经网络模型中,确定所述待测音频段对应的摄食强度类型;所述摄食强度的类型包括“强”、“中”、“弱”以及“无”。2.根据权利要求1所述的鱼群摄食强度分类方法,其特征在于,所述基于mel频谱的鱼群摄食深度语谱特征向量的提取过程,具体包括:在鱼群摄食信号的频率范围内设置多个三角滤波器,形成三角频率滤波器组;所述三角频率滤波器组包括多个带通滤波器;所述带通滤波器为梅尔滤波器;所述带通滤波器的传递函数为其中,h
m
(k)为带通滤波器,m为梅尔滤波器的序列号,m为梅尔滤波器的数量,f(m)为第m个梅尔滤波器的中心频率;f(m+1)为第m+1个梅尔滤波器的中心频率;f(m-1)为第m-1个梅尔滤波器的中心频率;利用所述三角频率滤波器组对所述待测音频段中的声音信号进行快速傅里叶变换处理,将所述声音信号从时域转换到频域,生成滤波后的声音信号;根据所述滤波后的声音信号确定能谱;根据所述能谱确定每个梅尔滤波器中的信号能量;根据所述信号能量确定鱼群摄食声音信号的梅尔频谱图;根据所述梅尔频谱图提取所述待测音频段中基于mel频谱的鱼群摄食深度语谱特征向量。3.根据权利要求1所述的鱼群摄食强度分类方法,其特征在于,所述基于cqt的鱼群摄食深度语谱特征向量的提取过程,具体包括:对所述待测音频段中的声音信号进行恒q变换,生成经恒q变化后的频谱参数;根据所述频谱参数生成恒q变换频谱图;根据所述恒q变换频谱图提取所述待测音频段中基于cqt的鱼群摄食深度语谱特征向量。4.根据权利要求1所述的鱼群摄食强度分类方法,其特征在于,所述基于stft的鱼群摄食深度语谱特征向量的提取过程,具体包括:对所述待测音频段中的声音信号加上一个沿着时间轴移动的短时窗函数,并由所述短时窗函数截取各个时刻的非平稳信号;短时窗内的信号为平稳信号;
对所述非平稳信号进行傅里叶变换,生成各个时刻的时频谱;根据所述时频谱提取所述待测音频段中基于stft的鱼群摄食深度语谱特征向量。5.根据权利要求1所述的鱼群摄食强度分类方法,其特征在于,所述深度卷积神经网络模型的构建过程,具体包括:分别获取鱼群摄食前、摄食过程以及摄食后的历史视频片段以及历史声音信号;根据所述历史视频片段划分不同类型的摄食强度,并同步裁剪所述历史声音信号确定不同类型的摄食强度对应的历史音频段;根据所述历史音频段构建所述深度卷积神经网络模型。6.一种鱼群摄食强度分类系统,其特征在于,包括:特征提取模块,用于对待测音频段进行特征提取,确定基于mel频谱的鱼群摄食深度语谱特征向量、基于cqt的鱼群摄食深度语谱特征向量以及基于stft的鱼群摄食深度语谱特征向量;所述待测音频段包括视频片段以及声音信号;特征融合模块,用于融合所述基于mel频谱的鱼群摄食深度语谱特征向量、所述基于cqt的鱼群摄食深度语谱特征向量以及所述基于stft的鱼群摄食深度语谱特征向量,生成融合特征语谱图;摄食强度类型确定模块,用于将所述融合特征语谱图输入至由不同类型的摄食强度对应的历史音频段构建的深度卷积神经网络模型中,确定所述待测音频段对应的摄食强度类型;所述摄食强度的类型包括“强”、“中”、“弱”以及“无”。7.根据权利要求6所述的鱼群摄食强度分类系统,其特征在于,所述基于mel频谱的鱼群摄食深度语谱特征向量的提取过程,具体包括:三角频率滤波器组设置单元,用于在鱼群摄食信号的频率范围内设置多个三角滤波器,形成三角频率滤波器组;所述三角频率滤波器组包括多个带通滤波器;所述带通滤波器为梅尔滤波器;所述带通滤波器的传递函数为其中,h
m
(k)为带通滤波器,m为梅尔滤波器的序列号,m为梅尔滤波器的数量,f(m)为第m个梅尔滤波器的中心频率;f(m+1)为第m+1个梅尔滤波器的中心频率;f(m-1)为第m-1个梅尔滤波器的中心频率;快速傅里叶变换处理单元,用于利用所述三角频率滤波器组对所述待测音频段中的声音信号进行快速傅里叶变换处理,将所述声音信号从时域转换到频域,生成滤波后的声音信号;能谱确定单元,用于根据所述滤波后的声音信号确定能谱;信号能量确定单元,用于根据所述能谱确定每个梅尔滤波器中的信号能量;梅尔频谱图确定单元,用于根据所述信号能量确定鱼群摄食声音信号的梅尔频谱图;基于mel频谱的鱼群摄食深度语谱特征向量提取单元,用于根据所述梅尔频谱图提取所述待测音频段中基于mel频谱的鱼群摄食深度语谱特征向量。8.根据权利要求6所述的鱼群摄食强度分类系统,其特征在于,所述基于cqt的鱼群摄
食深度语谱特征向量的提取过程,具体包括:经恒q变化后的频谱参数生成单元,用于对所述待测音频段中的声音信号进行恒q变换,生成经恒q变化后的频谱参数;恒q变换频谱图生成单元,用于根据所述频谱参数生成恒q变换频谱图;基于cqt的鱼群摄食深度语谱特征向量确定单元,用于根据所述恒q变换频谱图提取所述待测音频段中基于cqt的鱼群摄食深度语谱特征向量。9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1-5中任一项所述的鱼群摄食强度分类方法。10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的鱼群摄食强度分类方法。
技术总结
本发明提供了一种鱼群摄食强度分类方法、系统及设备,涉及水产养殖领域。该方法包括:对待测音频段进行特征提取,确定基于Mel频谱的鱼群摄食深度语谱特征向量、基于CQT的鱼群摄食深度语谱特征向量以及基于STFT的鱼群摄食深度语谱特征向量;融合所述基于Mel频谱的鱼群摄食深度语谱特征向量、所述基于CQT的鱼群摄食深度语谱特征向量以及所述基于STFT的鱼群摄食深度语谱特征向量,生成融合特征语谱图;将所述融合特征语谱图输入至由不同类型的摄食强度对应的历史音频段构建的深度卷积神经网络模型中,确定所述待测音频段对应的摄食强度类型。本发明实现了自动按需投喂,避免了投喂不足或过度投喂而造成水质污染和资源浪费。费。费。
技术研发人员:李道亮 杜壮壮 王聪 徐先宝 白壮壮 胡洋 孙传钰 王柄雄 王帅星
受保护的技术使用者:中国农业大学
技术研发日:2023.06.06
技术公布日:2023/8/31
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/