一种声像联合的跨模态声源定位与手势识别方法

未命名 09-01 阅读:144 评论:0


1.本发明涉及一种识别方法,尤其是一种基于声像联合的跨模态声源定位与手势识别的技术,属于计算机视觉技术领域。


背景技术:

2.手势识别是计算机视觉的代表性任务之一,精准感知和识别人体手势是智能交互和人机协作的重要前提,近年已成为广为关注的研究领域,例如在行为分析、智能驾驶、医疗控制等应用领域,对肢体语言交互的研究具有重要意义。然而,对于高动态、强对抗的大尺度室外复杂环境,如战场等,目前的方法很难精准定位到指令发起者的位置并对其进行手势识别,从而执行对应指令。
3.为了应对复杂环境下的手势识别,传统的方法仅使用视觉信息,通过循环神经网络构建长期关联,可以通过使用全局上下文存储单元关注每一帧中的信息节点,获得更多的行为特征。还有一些方法旨在利用注意力机制聚合时空图像区域的特征,有效地去除噪声等影响,提高识别准确率。然而,这些方法仍然不能在复杂的环境下快速有效的定位关键区域(指令发起者的手势),这是大尺度室外复杂环境下手势识别任务的重大挑战。声像联合的跨模态声源定位与手势识别方法旨在采用多模态数据,通过音频信息对指令发起者进行精准定位,以解决复杂场景下由于背景杂乱,智能机器人无法识别有效手势的问题,再通过视觉信息对指令发起者的手势进行有效识别,从而增强高动态、强对抗室外复杂场景下手势识别的准确性。此外,传统的声源定位方法主要依赖于信号处理和数学算法,例如波束形成、交叉相关、最小二乘等方法,这些方法在一定程度上能够实现声源定位,但其精度和鲁棒性受到环境噪声等因素的影响。
4.为了解决这些问题,本发明专利申请公开了一种声像联合的跨模态声源定位与手势识别方法,该方法将声源信息与视觉信息结合起来,首先利用卷积神经网络对声音信号进行特征提取,在一定程度上提高声源定位的精度和鲁棒性,精准定位指令发起者;接着同时考虑时空关联,利用手势的关节信息通过时空图卷积神经网络识别指令发起者的手势;最终有效地实现大尺度室外复杂场景中的手势识别,提高不确定、高动态的复杂场景下手势识别的准确性,使得智能机器人有效地完成相应的指令。


技术实现要素:

5.为了解决复杂场景中机器难以确定指挥者的位置,无法对其手势指令进行精准识别的问题,本发明拟通过结合视听信息,实现手势指令的精准识别和跟踪,从声音中定位命令发起者的位置并从视觉信息中识别命令发起者的姿势,以适应不同环境和场景的需求,具有高效、可靠、鲁棒性高的优点。
6.为了在复杂环境下实现手势指令的精准识别,本发明采用的技术方案为一种声像联合的跨模态声源定位与手势识别方法,通过音频信息精准定位指令发起者的位置,然后通过视觉信息识别指令发起者的手势,从而完成相应的指令。该方法的具体实施过程如下:
7.步骤1.建立空间极坐标系;
8.以智能机器人为中心,建立空间极坐标系以此表示声源相对于智能机器人所在的位置。其中,智能机器人中心的初始位置表示为(0,0,0),表示空间极坐标系的原点;r表示声源到智能机器人中心的距离,表示声源与智能机器人中心的方向角,θ表示声源与智能机器人中心的俯仰角。
9.步骤2.将三维空间划分为不同的子空间;
10.在空间极坐标系中极径为r的范围内,三维空间被分为z个大小相等且互不相交的子空间,即每个子空间相互独立,且每个子空间都有唯一的三维坐标表示。
11.步骤3.音频信息预处理;
12.智能机器人装备有多个麦克风,将麦克风放置在同一水平面上。在收到多麦克风录制声音后,对音频信息进行预处理,将时域信号转化为频域信号,然后对频域信号进行特征提取,将提取的特征变化为适合卷积神经网络处理的形式。
13.步骤4.卷积神经网络模型;
14.在预处理后的声音信号上,使用卷积神经网络模型进行训练。卷积神经网络模型由4个卷积层和4个池化层组成,其中卷积层用于对不同的局部矩阵和输入图像的卷积核矩阵进行卷积运算,以提取图像特征;池化层用于压缩卷积层提取的特征,减小特征维数。
15.将格式变换后的三维数据作为卷积神经网络的输入,卷积神经网络的输出作为训练特征,记为f'。然后根据训练特征进行分类,确定声源所在子空间,实现声源定位。表示为:
16.gz=classify(f')
17.其中,classify(
·
)表示分类器函数,gz表示预测目标声源所在的子空间。根据子空间位置,智能机器人移动到指令发起者面前,智能机器人旋转的方向角为移动距离为r
·
cosθ。
18.步骤5.使用yolov7进行人体检测;
19.智能机器人根据音频信息得到指令发起者的位置后,移动到指令发起者身边,使用yolov7处理视觉信息,对人体目标进行检测;
20.步骤6.使用alphapose提取手势的骨骼信息;
21.通过yolov7检测到人体目标后,使用alphapose对人体进行手部关节点提取,得到指令发起者手部的关节点信息。所述关节点信息包括手指、手腕、肘部、肩膀等关键点位置和姿态,为后续手势识别提供重要的特征。
22.步骤7.使用时空图卷积网络进行手势识别;
23.使用时空图卷积网络对alphapose提取的手势关节点信息进行建模和处理,从而识别手势的类别。时空图卷积网络使用多层图卷积神经网络,并在空间和时间上进行卷积运算,提取出手势的空间和时间特征,在手势识别方面具有较高的准确率和鲁棒性。
24.进一步地,所述步骤2中,通过概率分布将三维空间声源定位进行表征,将线性回归问题转变成非线性分类问题。通过从阵列接收的声源信号提取位置特征,使用不同的分类器来决定声源属于哪个子空间。
25.进一步地,所述步骤3的具体实施方式如下:
26.(1)预加重;
27.对原始音频信号进行高通滤波,增强高频信号的能量,降低低频信号的能量;预加重的过程表示如下:
28.s'(n)=s(n)-αs(n-1)
29.其中,n表示时域信号的采样点索引,s(n)和s(n-1)为输入信号,表示时域信号在相邻两个采样点处的采样值,s'(n)表示预加重后的信号,α是预加重系数。
30.(2)分帧;
31.将音频信号分割为若干个帧,每个帧的长度为固定的时间窗口。分帧过程表示如下:
32.sm(n)=s'(n)
·
w(n-mr)
33.其中,sm(n)表示第m帧信号,w(n)表示窗函数,使用汉明窗函数,r表示帧偏移量,取值为帧长的一半。
34.(3)stft转换;
35.对声音信号进行stft转换,将时域信号转化为频域信号;具体地,将时域信号分段,每一段时域信号的长度为窗口长度,相邻两段时域信号之间有重叠,对每一段时域信号进行傅里叶变换得到其频域表示,即将时域信号在频域上分解为若干个频带。stft转换的过程用公式表示如下:
[0036][0037]
其中,sm(k)表示第m帧的频域表示,n表示每一帧的采样点数,k=n-mr。此外,j表示虚数单位,e表示自然常数。
[0038]
(4)特征提取;
[0039]
特征提取从频域信号中提取出具有代表性的特征,为后续的声源定位任务提供可靠的输入数据。采用mfcc方法提取出不同频率下的声音特征。
[0040]
首先,将频域信号通过mel滤波器组,得到不同频率下的系数,公式表示如下:
[0041][0042][0043]
其中,hm(k)表示mel滤波器组的第m个滤波器,h(m)表示第m个mel频率对应的频率,em表示第m帧的mel频率系数。
[0044]
对滤波后的mel频率系数进行离散余弦变换dct:对取对数后的mel频率系数进行dct变换,得到一组mfcc系数,mfcc系数表示音频信号的语音特征,表示如下:
[0045][0046]
其中,fa表示第a个mfcc系数,m表示mfcc系数的个数。将mfcc系数作为声源定位任务的特征表示。
[0047]
(5)格式转换;
[0048]
将特征提取的数据转化为适合卷积神经网络处理的形式,即将频域信号转化为图像形式,使得数据被视为二维图像数据。通过对信号进行频谱分析,在频域上对信号进行幅度谱或相位谱的提取,然后使用二维快速傅里叶变换fft将其转换为图像形式。幅度谱qm(k)和相位谱pm(k)的计算公式如下:
[0049]
qm(k)=|sm(k)|
[0050]
pm(k)=arg{sm(k)}
[0051]
其中|
·
|表示求模运算,arg{
·
}表示求幅角运算。将幅度谱或相位谱看作是二维的图像数据,通过在不同时间步上对幅度谱或相位谱进行堆叠,得到一个三维的数据集,其中第一维表示时间,第二维表示频率,第三维表示幅度或相位,作为卷积神经网络的输入数据。
[0052]
进一步地,所述步骤5的实施过程如下:
[0053]
(1)数据输入;
[0054]
获取视频数据作为输入,将视频数据分割成t帧,将图像帧输入到yolov7网络中,对图像帧进行多次卷积和池化操作,得到一系列特征图。
[0055]
(2)anchor框和特征图处理;
[0056]
yolov7使用anchor框来预测目标的位置和大小;将数据输入阶段得到的特征图输入到卷积层和池化层中进行处理,得到不同尺度的特征图。
[0057]
(3)目标预测;
[0058]
在特征图中,每个像素点对应了一个anchor框,通过对每个anchor框进行分类和回归,来预测每个框内是否存在目标物体,并估计其位置和大小。目标函数表示如下:
[0059]
l=l
cls

coord
l
coord

obj
l
obj

noobj
l
noobj
[0060]
其中,l
cls
表示分类损失,l
coord
表示位置损失,l
obj
表示存在目标物体的损失,l
noobj
表示不存在目标物体的损失。λ
coord
、λ
obj
、λ
noobj
是权重参数。具体而言,分类损失使用交叉熵损失函数进行计算,位置损失使用均方误差损失函数进行计算,存在目标物体的损失和不存在目标物体的损失分别表示为:
[0061][0062][0063]
其中,g表示特征图的大小,b表示每个像素点预测的anchor框数量,表示第i个
像素点上的第j个anchor框是否存在目标物体,表示i个像素点上的第j个anchor框是否不包含目标物体。xi、yi表示预测框的中心点坐标,表示实际目标物体中心点坐标。ci表示预测框内是否存在目标物体的置信度,表示实际目标物体存在的置信度。
[0064]
通过非极大值抑制nms剔除冗余预测框,预测结果记为γ={b1,b2,

,b
t
},其中b
t
=(x
t
,y
t
,w
t
,h
t
)表示第t帧图像中指令发起者的中心坐标(x
t
,y
t
)和宽高(w
t
,h
t
),以此确定指令发起者在每帧图像中的位置。
[0065]
进一步地,所述步骤6中,将每帧图像中的指令发起者提取出来,通过alphapose对其进行手部关节点检测。经过alphapose后,对于第t帧图像,指令发起者手部对应的关节点信息记为u
t
,其中表示第t帧图像中指令发起者手部的第d个关节点坐标。将每帧图像中指令发起者的手部关节点信息拼接起来,得到整个手势动作的关节点信息,记为u={u1,u2,

,u
t
}。
[0066]
进一步地,所述步骤7中,时空图卷积网络得到指令发起者手部的关节点信息后,将每一帧中指令发起者手部的关节点信息u
t
看作一个图,每个关节点作为一个图节点,图节点之间的边表示关节点之间的连接关系。将每个节点的坐标和时间信息拼接起来,得到一个三维张量其中t表示时间步数,d表示关键点个数,3表示每个节点的特征维度。使用时空图卷积神经网络对这个三维张量进行卷积操作,得到一个新的三维张量其中f表示特征通道数。将这个三维张量视为手势的特征表示,使用全局池化或者卷积神经网络进行分类或者回归任务。通过对所有帧中指令发起者手势的特征表示进行加权求和得到一个整体的手势表示,通过softmax函数将其转化为一个概率分布,即得到该手势属于每个类别的概率,由此得到最终的手势识别结果。
[0067]
在复杂的大规模室外场景下,由于噪声等因素的影响,现有的手势识别技术难以精准的定位并识别指令发起者的手势指令。为了解决这一问题,本发明使用音频信息进行声源定位,使用视觉信息进行手势识别,通过声像联合的方式,在复杂场景下精准定位并识别指令发起者的手势。
附图说明
[0068]
下面对照附图,通过对实施例的描述,对本发明的具体实施方式如所涉及的网络结构作进一步详细的说明,以帮助本领域的技术人员对本发明的发明构思、技术方案有更完整、准确和深入的理解。
[0069]
以下结合附图和实施例,对本发明进行较为详细的说明。
[0070]
图1为本发明一种声像联合的跨模态声源定位与手势识别方法流程示意图;
[0071]
图2为本发明音频信息预处理流程图;
[0072]
图3为本发明用于声源定位的卷积网络模型结构参数图;
[0073]
图4为本发明时空图卷积层结构图。
具体实施方式
[0074]
以下结合附图和实施例对本发明进行详细说明。
[0075]
本发明采用的技术方案为一种声像联合的跨模态声源定位与手势识别方法,首先通过音频信息精准定位指令发起者的位置,然后通过视觉信息识别指令发起者的手势,从而完成相应的指令。
[0076]
s1.建立空间极坐标系;
[0077]
以智能机器人为中心,建立空间极坐标系以此表示声源相对于智能机器人所在的位置。其中,智能机器人中心的初始位置表示为(0,0,0),表示空间极坐标系的原点;r表示声源到智能机器人中心的距离,表示声源与智能机器人中心的方向角,θ表示声源与智能机器人中心的俯仰角。
[0078]
s2.将三维空间划分为不同的子空间;
[0079]
在空间极坐标系中极径为r的范围内,三维空间被分为z个大小相等且互不相交的子空间,即每个子空间相互独立,且每个子空间都有唯一的三维坐标表示。若子空间越小,其数量就会越多,即z值越大,分类复杂度越高,同时定位的准确率也会越高。考虑到子空间足够小,可以通过概率分布来处理三维空间声源定位问题,从而把线性回归问题转变成非线性分类问题,以减少计算量。通过从阵列接收的声源信号提取位置特征,可以使用不同的分类器来决定声源属于哪个子空间。
[0080]
s3.音频信息预处理;
[0081]
本发明中智能机器人装备多麦克风,采集音频信息前需要确定麦克风的布置方式,一般情况下,麦克风阵列的布置会对声源定位的精度产生影响。将麦克风放置在同一水平面上,相邻麦克风之间的距离为10cm,以保证声音信号的采集效果和精度。
[0082]
在收到多麦克风录制声音后,对音频信息进行预处理,首先将时域信号转化为频域信号,然后对频域信号进行特征提取,最后将特征变化为适合卷积神经网络处理的形式。主要流程如下:
[0083]
(1)预加重;
[0084]
本发明对原始信号进行高通滤波,增强高频信号的能量,降低低频信号的能量;预加重的过程表示如下:
[0085]
s'(n)=s(n)-αs(n-1)
[0086]
其中,s(n)表示输入信号,s'(n)表示预加重后的信号,α是预加重系数。
[0087]
(2)分帧;
[0088]
将信号分割为若干个帧,每个帧的长度为固定的时间窗口。分帧过程表示如下:
[0089]
sm(n)=s'(n)
·
w(n-mr)
[0090]
其中,sm(n)表示第m帧信号,w(n)表示窗函数,使用汉明窗函数,r表示帧偏移量,取值为帧长的一半。
[0091]
(4)stft转换;
[0092]
经过预加重和分帧操作后,本发明对声音信号进行stft(short-time fourier transform)转换,将时域信号转化为频域信号。stft是基于傅里叶变换的一种分析方法,它将长时间的信号分割为若干个短时段,每个短时段内的信号被看作是平稳的,并进行傅里叶变换。stft转换可以将时域信号转化为频域信号,提取出不同频率下的声音特征,这是后
续特征提取和声源定位的重要基础。
[0093]
具体而言,本发明将时域信号分段,每一段的长度为窗口长度,相邻两段之间有一定的重叠,对每一段信号进行傅里叶变换得到其频域表示,即将信号在频域上分解为若干个频带。stft转换的过程用公式表示如下:
[0094][0095]
其中,sm(k)表示第m帧的频域表示,n表示每一帧的采样点数,k=n-mr。
[0096]
(4)特征提取;
[0097]
在声源定位的过程中,对频域信号进行特征提取是非常重要的一步。特征提取可以从频域信号中提取出具有代表性的特征,为后续的声源定位任务提供可靠的输入数据。本发明采用mfcc(mel frequency cepstral coefficients)方法提取出不同频率下的声音特征。
[0098]
首先,将频域信号通过mel滤波器组,得到不同频率下的系数,公式表示如下:
[0099][0100][0101]
其中,hm(k)表示mel滤波器组的第m个滤波器,h(m)表示第m个mel频率对应的频率,em表示第m帧的mel频率系数。
[0102]
接着,对滤波后的mel频率系数进行离散余弦变换(dct)。dct是一种将时域信号转换为频域信号的技术,可以将mel频率系数转换为mfcc系数。具体而言,对取对数后的mel频率系数进行dct变换,得到一组mfcc系数,这些系数可以表示音频信号的语音特征,公式表示如下:
[0103][0104]
其中,fa表示第a个mfcc系数,m表示mfcc系数的个数。本发明将mfcc系数作为声源定位任务的特征表示。
[0105]
(5)格式转换;
[0106]
将提取的特征数据转化为适合卷积神经网络处理的形式,即将频域信号转化为图像形式,使得数据可以被视为二维图像数据。本发明通过对信号进行频谱分析,在频域上对信号进行幅度谱或相位谱的提取,然后使用二维快速傅里叶变换(fft)将其转换为图像形
式。幅度谱qm(k)和相位谱pm(k)的计算公式如下:
[0107]
qm(k)=|sm(k)|
[0108]
pm(k)=arg{sm(k)}
[0109]
其中|
·
|表示求模运算,arg{
·
}表示求幅角运算。本发明将幅度谱或相位谱看作是二维的图像数据,通过在不同时间步上对幅度谱或相位谱进行堆叠,得到一个三维的数据集,其中第一维表示时间,第二维表示频率,第三维表示幅度或相位,从而可以作为卷积神经网络的输入数据。
[0110]
s4.卷积神经网络模型;
[0111]
在预处理后的声音信号上,使用卷积神经网络模型进行训练。本发明构造的卷积神经网络模型由4个卷积层和4个池化层组成,其中卷积层主要用于对不同的局部矩阵和输入图像的卷积核矩阵进行卷积运算,以提取图像特征;池化层主要用于压缩卷积层提取的特征,减小特征维数,从而减少计算量,防止过拟合,提高计算速度。
[0112]
本发明将格式变换后的三维数据作为卷积神经网络的输入,卷积神经网络的输出作为训练特征,记为f'。然后根据训练特征进行分类,确定声源所在子空间,实现声源定位。此过程表示为:
[0113]gz
=classify(f')
[0114]
其中,classify(
·
)表示分类器函数,gz表示预测目标声源所在的子空间。最后根据子空间的位置,智能机器人移动到指令发起者面前,其中,智能机器人旋转的方向角为移动距离为r
·
cosθ。
[0115]
s5.使用yolov7进行人体检测;
[0116]
yolov7是一种高效的目标检测算法,可以快速而准确地定位图像中的物体。在本发明中,我们使用yolov7对视频中的人体进行检测。yolov7可以在较短的时间内处理大量图像,并准确地定位人体。通过yolov7,我们可以获得指令发起者的位置信息,为后续手势识别做准备。其主要流程如下:
[0117]
(1)数据输入;
[0118]
获取视频数据作为输入,将视频数据分割成t帧,将图像帧输入到yolov7网络中,对图像帧进行多次卷积和池化操作,得到一系列特征图。
[0119]
(2)anchor框和特征图处理;
[0120]
为了检测不同大小和比例的目标物体,yolov7使用anchor框来预测目标的位置和大小。anchor框是一组固定大小和比例的框,覆盖了输入图像的不同区域。此外,将数据输入阶段得到的特征图输入到卷积层和池化层中进行处理,得到不同尺度的特征图。
[0121]
(3)目标预测;
[0122]
在特征图中,每个像素点对应了一个anchor框,通过对每个anchor框进行分类和回归,来预测每个框内是否存在目标物体,并估计其位置和大小。目标函数表示如下:
[0123]
l=l
cls

coord
l
coord

obj
l
obj

noobj
l
noobj
[0124]
其中,l
cls
表示分类损失,l
coord
表示位置损失,l
obj
表示存在目标物体的损失,l
noobj
表示不存在目标物体的损失。λ
coord
、λ
obj
、λ
boobj
是权重参数。具体而言,分类损失使用交叉熵损失函数进行计算,位置损失使用均方误差损失函数进行计算,存在目标物体的损失和不存在目标物体的损失分别表示为:
[0125][0126][0127]
其中,g表示特征图的大小,b表示每个像素点预测的anchor框数量,表示第i个像素点上的第j个anchor框是否存在目标物体,表示i个像素点上的第j个anchor框是否不包含目标物体。xi、yi表示预测框的中心点坐标,表示实际目标物体中心点坐标。ci表示预测框内是否存在目标物体的置信度,表示实际目标物体存在的置信度。
[0128]
此外,在预测结果中,可能存在多个预测框覆盖同一目标物体的情况。因此,我们需要通过非极大值抑制(nms)来剔除冗余的预测框,只保留最佳的预测结果。预测结果记为β={b1,b2,

,b
t
},其中b
t
=(x
t
,y
t
,w
t
,h
t
)表示第t帧图像中指令发起者的中心坐标(x
t
,y
t
)和宽高(w
t
,h
t
),以此确定指令发起者在每帧图像中的位置。
[0129]
s6.使用alphapose提取手势的骨骼信息;
[0130]
alphapose是一种人体姿态估计算法,可以快速、准确地提取人体关节点信息。在本发明中,使用alphapose对yolov7检测到的人体进行手部关节点提取,得到指令发起者手部的关节点信息。这些关节点信息包括手指、手腕、肘部、肩膀等关键点位置和姿态,为后续手势识别提供重要的特征。
[0131]
本发明将每帧图像中的指令发起者提取出来,通过alphapose对其进行手部关节点检测。经过alphapose后,对于第t帧图像,指令发起者手部对应的关节点信息记为u
t
,其中表示第t帧图像中指令发起者手部的第d个关节点坐标。我们可以将每帧图像中指令发起者的手部关节点信息拼接起来,得到整个手势动作的关节点信息,记为u={u1,u2,

,u
t
}。
[0132]
s7.使用时空图卷积网络进行手势识别;
[0133]
时空图卷积网络是一种基于图卷积神经网络的视频动作识别算法,可以有效地利用时间和空间信息,对视频进行动作分类。在本发明中,使用时空图卷积网络对alphapose提取的手势关节点信息进行建模和处理,从而识别手势的类别。时空图卷积网络使用了多层图卷积神经网络,并在空间和时间上进行卷积运算,从而提取出手势的空间和时间特征,在手势识别方面具有较高的准确率和鲁棒性。
[0134]
具体而言,得到指令发起者手部的关节点信息后,将每一帧中指令发起者手部的关节点信息u
t
看作一个图,每个关节点作为一个图节点,图节点之间的边表示关节点之间的连接关系。本发明将每个节点的坐标和时间信息拼接起来,得到一个三维张量其中t表示时间步数,d表示关键点个数,3表示每个节点的特征维度(包括xy坐标和时间信息)。本发明使用时空图卷积神经网络对这个三维张量进行卷积操作,得到一个新的三维张量其中f表示特征通道数。本发明将这个三维张量视为手势的
特征表示,使用全局池化或者卷积神经网络进行分类或者回归任务。
[0135]
最后,通过对所有帧中指令发起者手势的特征表示进行加权求和得到一个整体的手势表示,通过softmax函数将其转化为一个概率分布,即得到该手势属于每个类别的概率,由此得到最终的手势识别结果。
[0136]
实施例1流程示意图如图1所示。
[0137]
实施例2音频信息预处理流程图如图2所示。在本发明中,将音频信息输入到卷积神经网络之前需要进行音频信息预处理,将音频信息的格式转化为适合卷积神经网络输入的格式。具体流程如下:
[0138]
预加重:预加重是一种高通滤波器,可以强化高频信号,减弱低频信号,使得音频信号在后续处理中更加稳定。
[0139]
分帧:分帧是将音频信号划分为若干段,每段称为一帧,以便后续处理。在分帧时需要设置帧长和帧移参数,通常选择帧长为20-40ms,帧移为10-20ms。
[0140]
stft转换:在每一帧上进行傅里叶变换,得到该帧的频域信号。通常使用短时傅里叶变换(stft)进行计算。
[0141]
特征提取:将频域信号通过mel滤波器组进行滤波,mel滤波器组是一组对信号进行频域滤波的滤波器,可以将频域信号转换为mel频率系数。在本发明中,选择使用40个mel滤波器。对滤波后的mel频率系数进行离散余弦变换(dct),dct可以将mel频率系数转换为mfcc系数。在本发明中,我们选择使用13个mfcc系数,作为音频信息的特征。
[0142]
格式转换:将频域信号特征转换为图像形式,使得数据可以被视为二维图像数据。一般的转换方式为在频域上对信号进行幅度谱或相位谱的提取,然后使用二维快速傅里叶变换(fft)将其转换为图像形式。
[0143]
实施例3用于声源定位的卷积网络模型结构参数图如图3所示。在本发明中,kernel_size表示卷积核大小,stride表示步长,pad表示边缘扩充参数,pooling表示池化方式,dropout表示神经元失效率,iterations表示迭代次数,batch_size表示批尺寸。
[0144]
实施例4时空图卷积层结构图如图4所示。在本发明中,整个模型是以反向传播的方式从头到尾训练的。具体而言,时空图卷积分为空间图卷积和时间图卷积,其中空间图卷积是核心部分,时间图卷积包括两个bn层、一个relu激活层、一个dropout层、一个卷积层。一个空间图卷积加上一个时间卷积就是一层,一共10层,但是第一层没有残差结构。

技术特征:
1.一种声像联合的跨模态声源定位与手势识别方法,其特征在于,该方法的具体实施过程如下:步骤1.建立空间极坐标系;以智能机器人为中心,建立空间极坐标系以此表示声源相对于智能机器人所在的位置;其中,智能机器人中心的初始位置表示为(0,0,0),表示空间极坐标系的原点;r表示声源到智能机器人中心的距离,表示声源与智能机器人中心的方向角,θ表示声源与智能机器人中心的俯仰角;步骤2.将三维空间划分为不同的子空间;在空间极坐标系中极径为r的范围内,三维空间被分为z个大小相等且互不相交的子空间,即每个子空间相互独立,且每个子空间都有唯一的三维坐标表示;步骤3.音频信息预处理;智能机器人装备有多个麦克风,将麦克风放置在同一水平面上;在收到多麦克风录制声音后,对音频信息进行预处理,将时域信号转化为频域信号,然后对频域信号进行特征提取,将提取的特征变化为适合卷积神经网络处理的形式;步骤4.卷积神经网络模型;在预处理后的声音信号上,使用卷积神经网络模型进行训练;卷积神经网络模型由4个卷积层和4个池化层组成;将格式变换后的三维数据作为卷积神经网络的输入,卷积神经网络的输出作为训练特征,记为f';根据训练特征进行分类,确定声源所在子空间,实现声源定位;表示为:g
z
=classify(f

)其中,classify(
·
)表示分类器函数,g
z
表示预测目标声源所在的子空间;根据子空间位置,智能机器人移动到指令发起者面前,智能机器人旋转的方向角为移动距离为r
·
cosθ;步骤5.使用yolov7进行人体检测;智能机器人根据音频信息得到指令发起者的位置后,移动到指令发起者身边,使用yolov7处理视觉信息,对人体目标进行检测;步骤6.使用alphapose提取手势的骨骼信息;通过yolov7检测到人体目标后,使用alphapose对人体进行手部关节点提取,得到指令发起者手部的关节点信息;所述关节点信息包括手指、手腕、肘部、肩膀等关键点位置和姿态,为后续手势识别提供重要的特征;步骤7.使用时空图卷积网络进行手势识别;使用时空图卷积网络对alphapose提取的手势关节点信息进行建模和处理,从而识别手势的类别;时空图卷积网络使用多层图卷积神经网络,并在空间和时间上进行卷积运算,提取出手势的空间和时间特征。2.根据权利要求1所述的声像联合的跨模态声源定位与手势识别方法,其特征在于,所述步骤2中,通过概率分布将三维空间声源定位进行表征,将线性回归问题转变成非线性分类问题;通过从阵列接收的声源信号提取位置特征,使用不同的分类器来决定声源属于哪个子空间。3.根据权利要求1所述的声像联合的跨模态声源定位与手势识别方法,其特征在于,所
述步骤3的具体实施方式如下:(1)预加重;对原始音频信号进行高通滤波,表示如下:s

(n)=s(n)-αs(n-1)其中,n表示时域信号的采样点索引,s(n)和s(n-1)为输入信号,表示时域信号在相邻两个采样点处的采样值,s'(n)表示预加重后的信号,α是预加重系数;(2)分帧;将音频信号分割为若干个帧,每个帧的长度为固定的时间窗口;分帧过程表示如下:s
m
(n)=s

(n)
·
w(n-mr)其中,s
m
(n)表示第m帧信号,w(n)表示窗函数,使用汉明窗函数,r表示帧偏移量,取值为帧长的一半;(3)stft转换;对声音信号进行stft转换,将时域信号转化为频域信号;具体地,将时域信号分段,每一段时域信号的长度为窗口长度,相邻两段时域信号之间有重叠,对每一段时域信号进行傅里叶变换得到其频域表示,即将时域信号在频域上分解为若干个频带;stft转换的过程用公式表示如下:其中,s
m
(k)表示第m帧的频域表示,n表示每一帧的采样点数,k=n-mr;此外,j表示虚数单位,e表示自然常数;(4)特征提取;特征提取从频域信号中提取出具有代表性的特征,为后续的声源定位任务提供可靠的输入数据;采用mfcc方法提取出不同频率下的声音特征;首先,将频域信号通过mel滤波器组,得到不同频率下的系数,公式表示如下:首先,将频域信号通过mel滤波器组,得到不同频率下的系数,公式表示如下:其中,h
m
(k)表示mel滤波器组的第m个滤波器,h(m)表示第m个mel频率对应的频率,e
m
表示第m帧的mel频率系数;对滤波后的mel频率系数进行离散余弦变换dct:对取对数后的mel频率系数进行dct变换,得到一组mfcc系数,mfcc系数表示音频信号的语音特征,表示如下:
其中,f
a
表示第a个mfcc系数,m表示mfcc系数的个数;将mfcc系数作为声源定位任务的特征表示;(5)格式转换;将特征提取的数据转化为适合卷积神经网络处理的形式,即将频域信号转化为图像形式,使得数据被视为二维图像数据;通过对信号进行频谱分析,在频域上对信号进行幅度谱或相位谱的提取,然后使用二维快速傅里叶变换fft将其转换为图像形式;幅度谱q
m
(k)和相位谱p
m
(k)的计算公式如下:q
m
(k)=|s
m
(k)|p
m
(k)=arg{s
m
(k)}其中|
·
|表示求模运算,arg{
·
}表示求幅角运算;将幅度谱或相位谱看作是二维的图像数据,通过在不同时间步上对幅度谱或相位谱进行堆叠,得到一个三维的数据集,其中第一维表示时间,第二维表示频率,第三维表示幅度或相位,作为卷积神经网络的输入数据。4.根据权利要求1所述的声像联合的跨模态声源定位与手势识别方法,其特征在于,所述步骤5的实施过程如下:(1)数据输入;获取视频数据作为输入,将视频数据分割成t帧,将图像帧输入到yolov7网络中,对图像帧进行多次卷积和池化操作,得到一系列特征图;(2)anchor框和特征图处理;yolov7使用anchor框来预测目标的位置和大小;将数据输入阶段得到的特征图输入到卷积层和池化层中进行处理,得到不同尺度的特征图;(3)目标预测;在特征图中,每个像素点对应了一个anchor框,通过对每个anchor框进行分类和回归,来预测每个框内是否存在目标物体,并估计其位置和大小;目标函数表示如下:l=l
cls

coord
l
coord

obj
l
obj

noobj
l
noobj
其中,l
cls
表示分类损失,l
coord
表示位置损失,l
obj
表示存在目标物体的损失,l
noobj
表示不存在目标物体的损失;λ
coord
、λ
obj
、λ
noobj
是权重参数;分类损失使用交叉熵损失函数进行计算,位置损失使用均方误差损失函数进行计算,存在目标物体的损失和不存在目标物体的损失分别表示为:的损失分别表示为:其中,g表示特征图的大小,b表示每个像素点预测的anchor框数量,表示第i个像素
点上的第j个anchor框是否存在目标物体,表示i个像素点上的第j个anchor框是否不包含目标物体;x
i
、y
i
表示预测框的中心点坐标,表示实际目标物体中心点坐标;c
i
表示预测框内是否存在目标物体的置信度,表示实际目标物体存在的置信度;通过非极大值抑制nms剔除冗余预测框,预测结果记为β={b1,b2,

,b
t
},其中b
t
=(x
t
,y
t
,w
t
,h
t
)表示第t帧图像中指令发起者的中心坐标(x
t
,y
t
)和宽高(w
t
,h
t
),以此确定指令发起者在每帧图像中的位置。5.根据权利要求1所述的声像联合的跨模态声源定位与手势识别方法,其特征在于,所述步骤6中,将每帧图像中的指令发起者提取出来,通过alphapose对其进行手部关节点检测;经过alphapose后,对于第t帧图像,指令发起者手部对应的关节点信息记为u
t
,其中表示第t帧图像中指令发起者手部的第d个关节点坐标;将每帧图像中指令发起者的手部关节点信息拼接起来,得到整个手势动作的关节点信息,记为u={u1,u2,

,u
t
}。6.根据权利要求1所述的声像联合的跨模态声源定位与手势识别方法,其特征在于,所述步骤7中,时空图卷积网络得到指令发起者手部的关节点信息后,将每一帧中指令发起者手部的关节点信息u
t
看作一个图,每个关节点作为一个图节点,图节点之间的边表示关节点之间的连接关系;将每个节点的坐标和时间信息拼接起来,得到一个三维张量其中t表示时间步数,d表示关键点个数,3表示每个节点的特征维度;使用时空图卷积神经网络对这个三维张量进行卷积操作,得到一个新的三维张量其中f表示特征通道数;将这个三维张量视为手势的特征表示,使用全局池化或者卷积神经网络进行分类或者回归任务;通过对所有帧中指令发起者手势的特征表示进行加权求和得到一个整体的手势表示,通过softmax函数将其转化为一个概率分布,即得到该手势属于每个类别的概率,由此得到最终的手势识别结果。

技术总结
本发明公开了一种声像联合的跨模态声源定位与手势识别方法,该方法的具体实施过程如下:步骤1.建立空间极坐标系;步骤2.将三维空间划分为不同的子空间;步骤3.音频信息预处理;步骤4.卷积神经网络模型;步骤5.使用YOLOv7进行人体检测;步骤6.使用AlphaPose提取手势的骨骼信息;步骤7.使用时空图卷积网络进行手势识别;通过音频信息精准定位指令发起者的位置,然后通过视觉信息识别指令发起者的手势,从而完成相应的指令。从而完成相应的指令。从而完成相应的指令。


技术研发人员:马楠 汪成 梁晔 肖传胜
受保护的技术使用者:北京工业大学
技术研发日:2023.05.25
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐