用于人体动作识别的基于扩散模型的自监督对比学习方法
未命名
07-15
阅读:519
评论:0

1.本发明涉及基于wifi信道状态信息(csi)的动作识别技术领域,尤其涉及一种用于人体动作识别的基于扩散模型的自监督对比学习方法。
背景技术:
2.人体动作识别被认为是各种实际应用的关键因素,例如健康监测和智能家居等。在众多的识别技术中,相对于基于摄像头或可穿戴传感器的方法,基于wifi信道状态信息(csi)的方法具有无需设备、非侵入性和隐私友好等特点。相应地,许多基于wifi csi的动作识别的方法被设计出来。
3.然而大部分模型都采用监督式机器学习方法,这些方法需要大量带有标记的训练数据集来获取较好的性能,但这使得训练阶段非常耗时费力。因此,收集大量标记数据是这些方法应用于实际场景的主要障碍之一。自监督对比学习可以克服标签不足的限制,因为它可以有效地利用大量未标记的样本来训练模型,而不使用标签。自监督对比学习已经在图像处理和自然语言处理方面展现出卓越的性能。然而,将对比学习直接应用于动作识别任务面临两个额外的问题。
4.首先,对比学习中普遍采用的增强方法,如高斯模糊和色彩扭曲,几乎不会改变csi波形的形状,导致性能不佳。通用的数据增强方法特别适用于图像数据,其重点在于通过操作像素来生成增强数据。然而,wifi csi是一种时间序列数据,使用这些方法处理csi数据中的点几乎不会改变其波形。图1中给出了一个例子,表明通过高斯模糊增强的波形(橙色)与原始波形(蓝色)非常相似。然而,如果两个增强样本是相同的,那么对于提高对比学习性能方面几乎没有什么用处。因此,这些增强方法对csi数据只能提供有限的作用。
5.其次,典型的对比学习模型未考虑在模型训练过程中样本重要性的差异。在对比学习中,通常将相同的权重分配给所有正样本对进行模型训练。然而,在基于csi的动作识别中,不同的正样本对可能包含不同的线索来学习数据表示。对于某些由多个活动组成的动作,例如画x,画撇和画捺活动之间可能会有停顿。如果从csi数据中提取的正样本对包含更多的停顿数据,它们将为学习数据表示提供更少的线索,应在模型训练中发挥较小的作用,反之亦然。在图2中展示了画x的一个例子,其中红色虚线代表实际的起始点和结束点。在这个动作中,两个笔画之间有一个停顿。与正样本对(x3,x4)相比,正样本对(x1,x2)包含更多的停顿数据,应该为学习数据表示提供较小的线索。
技术实现要素:
6.本发明针对使用监督技术进行的动作识别模型面临着收集大量标记数据的困难,提出一种用于人体动作识别的基于扩散模型的自监督对比学习方法,设计了基于扩散模型的自监督对比学习框架(clar),用于使用wifi csi进行人体动作识别。基于对比学习模型,我们为csi动作识别场景设计了两个组件:基于去噪扩散概率模型(ddpm)的针对时间序列的数据增强模型和自适应权重算法。所设计的增强模型将不同用户习惯的源样本和参考样
本作为输入,生成具有它们的融合特征的新样本。这些增强数据可以有效地增加训练数据并提高泛化能力。自适应权重算法自适应地计算正样本对的权重,这些权重被施加在对比损失上以提高模型性能。
7.为了实现上述目的,本发明采用以下技术方案:
8.一种用于人体动作识别的基于扩散模型的自监督对比学习方法,包括:
9.构建基于ddpm的针对时间序列的数据增强模型,该模型将一个源样本和两个参考样本作为输入,将源样本和两个参考样本结合起来,生成两个增强样本;所述源样本和两个参考样本均为wifi csi数据;
10.将增强样本进一步通过裁剪和调整大小来构建正样本对,并结合源样本构建对比损失,在此过程中,通过自适应权重算法调整模型训练中正样本对的权重,并将所述权重并入到对比损失中;
11.完成基于扩散模型的自监督对比学习框架构建和训练,用于人体动作识别。
12.进一步地,所述基于ddpm的针对时间序列的数据增强模型用于将来自具有不同习惯的用户的两个样本结合起来生成具有两个用户特征的增强样本。
13.进一步地,所述基于ddpm的针对时间序列的数据增强模型中,将高斯噪声输入到ddpm的逆扩散过程中,通过逐渐去噪生成干净的csi数据,在去噪过程中,将源样本和参考样本作为条件,并将源样本和参考样本强加到ddpm的逆扩散过程中,生成一个具有源样本和参考样本融合特征的新样本。
14.进一步地,所述自适应权重算法首先计算一个响应图,通过响应图反映正样本对应的动作数据量,然后根据响应图计算权重,用于结合源样本构建对比损失函数。
15.进一步地,所述自适应权重算法包括:
16.为了计算响应图,首先从静止数据的csi序列中选择多个长度为h的静态模板w
t
,然后,对于每个正样本对的样本,使用滑动窗口将其分成重叠的窗口,每个窗口长度为h,滑动步长为1,对于从样本xi中提取的窗口l,采用响应分数来反映包含动作数据的数量:
[0017][0018]
其中s
l
为响应分数,反映了窗口l中的动作数据量;m是所选静态模板的数量,w
l
表示从样本xi中提取的长度为h的一个窗口,表示第k个静态模板,表示w
l
和之间的dtw距离;
[0019]
将样本xi中所有窗口的响应分数合并成响应图;
[0020]
在获取响应图后,计算样本xi的权重以进行模型训练:
[0021][0022]
其中wi表示样本xi的权重,α表示控制权重比例的幂次,nw表示从xi中提取的窗口数量,i(,)是动作数据的指示器,表示存在动作数据,并定义为:
[0023]
[0024]
其中σs是一个阈值,用于确定是否将该窗口视为存在动作的数据;
[0025]
对于一个正样本对(xi,xj),它的权重是两个样本权重的聚合:
[0026]w(i,j)
=aggregate(wi,wj),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0027]
其中w
(i,j)
为正样本对(xi,xj)的权重,表示在存在动作的情况下,包含csi数据的数量;aggregate(,)表示对两个项目进行求和;wj表示样本xj的权重。
[0028]
进一步地,还包括:
[0029]
将损失函数定义如下:
[0030][0031]
其中n是minibatch的长度,τ是温度超参数,用于缩放距离分布;和是一个正对,它们是从同一源样本派生的两个增强样本中提取出来的两个段csi数据的嵌入;而和是一个负对,它们来自不同的源样本;
[0032]
采用源样本来构建对比损失函数,以捕捉原始训练数据的特征,该损失函数定义如下:
[0033][0034]
其中,zi、zj和zk是源样本对应的嵌入;
[0035]
总体损失为:
[0036][0037]
基于总体损失对基于扩散模型的自监督对比学习框架进行训练,并利用基于扩散模型的自监督对比学习框架提取动作样本的表示。
[0038]
进一步地,还包括:
[0039]
采用线性分类器将提取的动作样本的表示划分到相应的动作类别中,实现动作识别。
[0040]
与现有技术相比,本发明具有的有益效果:
[0041]
本发明基于对比学习模型,为csi动作识别场景设计了两个组件:基于去噪扩散概率模型(ddpm)的针对时间序列的数据增强模型和自适应权重算法。所设计的增强模型将不同用户习惯的源样本和参考样本作为输入,生成具有它们的融合特征的新样本。这些增强数据可以有效地增加训练数据并提高泛化能力。自适应权重算法自适应地计算正样本对的权重,这些权重被施加在对比损失上以提高模型性能。本发明通过将基于ddpm的数据增强模型和自适应权重算法引入到基本的对比学习框架中,我们的模型可以显著提高动作识别的准确性。
[0042]
本发明设计了一种基于扩散模型的自监督对比学习框架(clar),使用wifi csi和clar进行动作识别,可以克服标记数据不足的问题。本发明还设计了一种基于ddpm的针对时间序列的数据增强模型,以产生具有新特征的增强样本,可以扩大训练数据以促进泛化能力。本发明还提出了一种自适应权重算法,可以自适应地调整对比损失中正样本对的权重,以提高模型性能。实验结果表明,clar优于最先进的方法。
附图说明
[0043]
图1为通过高斯模糊增强数据示例;
[0044]
图2为从一个动作中提取的正样本对示例;
[0045]
图3为一种用于人体动作识别的基于扩散模型的自监督对比学习方法流程示意图;
[0046]
图4为通过基于ddpm的数据增强模型生成样本的视觉示例;
[0047]
图5为clar框架示意图;
[0048]
图6为基于ddpm的数据增强模型结构示意图;红色箭头表示正向扩散,蓝色箭头表示逆向扩散,
⊕
表示连接操作;
[0049]
图7为signfi数据的动作识别性能;
[0050]
图8为deepseg数据的动作识别性能;
[0051]
图9为使用不同的signfi数据和deepseg数据设计选择的性能;
[0052]
图10为使用/不使用增强数据对signfi数据的性能表现;
[0053]
图11为使用/不使用增强数据对deepseg数据的性能表现;
[0054]
图12为在signfi数据上,使用不同大小的标记数据的性能表现;
[0055]
图13为在deepseg数据上,使用不同大小的标记数据的性能表现。
具体实施方式
[0056]
下面结合附图和具体的实施例对本发明做进一步的解释说明:
[0057]
如图3所示,一种用于人体动作识别的基于扩散模型的自监督对比学习方法,包括:
[0058]
构建基于ddpm的针对时间序列的数据增强模型,该模型将一个源样本和两个参考样本作为输入,将源样本和两个参考样本结合起来,生成两个增强样本;所述源样本和两个参考样本均为wifi csi数据;
[0059]
将增强样本进一步通过裁剪和调整大小来构建正样本对,并结合源样本构建对比损失,在此过程中,通过自适应权重算法调整模型训练中正样本对的权重,并将所述权重并入到对比损失中;
[0060]
完成基于扩散模型的自监督对比学习框架构建和训练,用于人体动作识别。
[0061]
具体来说,在基于ddpm的针对时间序列的数据增强模型中,我们将高斯噪声输入到ddpm的逆扩散过程中,通过逐渐去噪生成干净的csi数据。在这个去噪的过程中,我们将源样本和参考样本作为条件,并将它们强加到ddpm的逆扩散过程中,生成一个具有它们融合特征的新样本。这些生成的样本不仅在csi波形上与输入样本不同,而且补充了有限的训练数据,增强了模型的鲁棒性。通过结合源样本和参考样本,生成的样本具有与源样本和参考样本不同的波形。此外,对于基于csi的动作识别来说,很难收集足够的训练数据来覆盖所有的运动习惯,因为即使执行相同的动作,具有不同运动习惯的用户收集到的csi数据波形也可能不同,而不同的人具有不同的运动习惯。我们设计的增强方法可以生成具有新特征的增强数据,这可以补充有限的训练数据。生成样本的视觉示例如图4所示,其中源样本为来自于具有画小圆圈习惯的用户(实线蓝色),参考样本是来自具有画大圆圈习惯的用户(虚线蓝色)。相应地,生成的样本则是来自具有画中等圆圈习惯的用户(橙色)。
[0062]
在自适应权重算法中,我们试图调整目标函数中正样本对的权重,以捕捉样本重要性的差异并提高模型性能。对于csi数据,不同的正样本对在学习数据表示方面提供了不同的作用,即包含较少动作数据的正样本对在模型训练中应该起到较小的作用,因为它们包含较少的用于学习数据表示的线索,反之亦然。因此,对于每一对正样本,我们首先计算响应图来反映正样本中的动作数据量,然后根据响应图计算权重。这个权重构建到对比损失中,以提高模型性能。通过将基于ddpm的数据增强模型和自适应权重算法引入到基本的对比学习框架中,我们的模型可以显著提高动作识别的准确性。
[0063]
1.对比学习框架
[0064]
对比学习是一种通过最大化数据样本之间的相似性和不相似性来学习表示的技术,这些数据样本被分为相似(正样本)和不相似(负样本)示例。对比学习模型通常使用噪声对比估计(nce)目标来区分不同的实例。具体来说,nce目标旨在将同一实例的不同视图更加接近,同时将不同实例的视图推离。该框架由三个主要部分组成:(i)一个数据增强模块,它可以随机地转换任何给定的数据示例,以产生同一示例的两个相关视图。这可能涉及到随机裁剪、颜色抖动或随机翻转等技术。(ii)编码器网络f,负责从增强数据样本中提取表示向量。编码器将样本映射到d维空间中。(iii)投影头h将提取的表示映射到一个超球形(归一化)嵌入空间。然后,该嵌入空间被用于特定的辅助任务,例如一批正/负对的对比损失目标。该目标表示为:
[0065][0066]
其中,sim(,)表示余弦相似度,z表示simclr中非线性投影头的输出,τ是一个温度超参数,用于缩放距离的分布。
[0067]
2.去噪扩散概率模型
[0068]
去噪扩散概率模型(ddpm)属于一组生成模型,其在无条件生成图像方面表现出卓越的性能。它学习了一个马尔可夫链,逐步将简单分布(例如各向同性高斯分布)转化为数据分布。生成过程是ddpm正向(扩散)过程的逆向过程,其中马尔可夫链逐渐向数据中添加噪声。在这里,正向过程中的每一步都是高斯平移:
[0069][0070]
β1,...,β
t
是一个固定的方差计划,而不是学习参数。公式(1)是一个过程,通过将小的高斯噪声添加到潜在变量z
t-1
中来找到z
t
。给定干净的数据z0,z
t
的采样可以用闭合形式表示:
[0071][0072]
其中,α
t
:=1-β
t
,因此,z
t
可以表示为z0和ε的线性组合。
[0073][0074]
其中ε~n(0,i)与数据z0和潜变量z1,...,z
t
具有相同的维度。
[0075]
由于正向过程的逆向过程q(z
t-1
|z
t
)是无法处理的,ddpm学习参数化的高斯转移p
θ
(z
t-1
|z
t
)。生成(或逆向)过程与正向过程具有相同的函数形式,并且它被表达为具有学习均值和固定方差的高斯转移:
[0076][0077]
此外,通过将μ
θ
分解为z
t
和噪声逼近器ε
θ
的线性组合,生成过程被表达为:
[0078][0079]
这里的ε是一种噪声,表明每个生成步骤都是随机的。这里的ε
θ
指的是具有相同输入和输出维度的神经网络。神经网络ε
θ
在每个步骤中预测的噪声被用于公式(6)中的去噪过程。
[0080]
3.clar框架
[0081]
在这里,我们展示了基于扩散模型的自监督对比学习框架(clar)用于动作识别。首先,我们介绍了识别框架的概述。接下来,我们提出了基于ddpm的数据增强方法,该方法将生成具有源样本和参考样本特征的增强数据。最后,我们介绍了自适应权重算法,用于计算不同正样本对的对比损失权重。
[0082]
3.1.框架概述
[0083]
为解决标记数据短缺的问题,我们设计了一个新的对比学习框架clar,用于人体动作识别,其概述如图5所示。该模型将一个源样本和两个参考样本作为输入。首先,我们使用设计的基于ddpm的针对时间序列的增强方法将源样本和两个参考样本结合起来,生成两个增强样本作为正样本对。然后,通过剪裁和调整大小操作处理增强的样本,以建立对比损失。在此过程中,我们提出的自适应权重算法计算样本对的权重,并将这些权重并入到对比损失中,以提高模型的鲁棒性。
[0084]
与典型的对比学习模型(如simclr)相比,我们设计了一个基于ddpm的数据增强模型和自适应权重算法,以满足基于csi的动作识别要求并提高识别性能。由于目前主流的增强方法主要集中在图像和文本处理上,对csi数据效果不佳。此外,由于有限的训练数据无法涵盖所有的运动习惯,基于csi的动作识别的数据增强模型应该能够生成具有新运动习惯的增强数据。因此,我们设计了一个基于ddpm的针对时间序列的数据增强模型,它可以将具有不同习惯的用户的两个样本结合起来生成一个具有两个样本特征的增强样本。这种增强方法有助于提高模型的泛化能力和识别性能。
[0085]
此外,对于csi数据,不同的正样本对为学习数据表示提供了不同的线索,即具有较少动作数据的正样本对在模型训练中应该起到较小的作用,因为它们包含较少的学习数据表示的线索,反之亦然。因此,我们提出了一种自适应权重算法来调整模型训练中正样本的权重。这些权重被构建到对比损失中,以增强数据表示,并进一步提高识别性能。
[0086]
3.2.基于ddpm的数据增强模型
[0087]
为了学习数据表示,对比学习算法利用潜在空间中的对比损失来最大化同一数据示例的不同增强视图之间的相似度。因此,数据增强操作在学习数据表示方面至关重要。许多数据增强的方法(例如高斯模糊和色彩扭曲)已被设计用于提高图像处理和自然语言处理的性能。然而,现有的增强方法可能不适用于wifi csi数据。例如,典型的增强方法——高斯模糊,通常对基于wifi csi的动作识别效果有限,因为增强后的csi波形与原始波形几乎相同。
[0088]
此外,对于基于csi的动作识别,增强模型应该生成多样化的增强样本,以增强训
练数据的覆盖范围。由于用户习惯的多样性,很难收集足够的训练数据来涵盖所有类型的用户习惯。然而,有限的训练数据训练的模型不能很好地识别来自具有不同运动习惯的用户的动作。例如,当要求两个用户画一个圆圈时,一个人可能会画一个大圆圈,而另一个人可能会画一个小圆圈。基于这两个用户的数据训练的识别模型无法准确地识别倾向于画中等大小圆圈的用户的数据。因此,增强方法应该能够生成具有新特征的增强数据。
[0089]
为了实现这个目的,我们设计了一个基于ddpm的数据增强模型,可以将来自具有不同习惯的用户的两个样本结合起来生成具有两个用户特征的增强样本。具体来说,我们引入ddpm作为构建数据增强模型的基本框架。这个模型将源样本和参考样本作为输入,并通过组合两个输入样本输出一个增广样本。主要思想是将源样本和参考样本视为条件,这些条件对ddpm的逆向扩散(降噪)过程施加影响,从而生成增强样本。这样,我们设计的增强模型通过迭代地将源样本和参考样本的特征注入到生成过程中,产生增强样本。这个逐步完善的过程可以产生更加合适的数据。
[0090]
图6展示了设计的基于ddpm的数据增强模型的框架。在这个模型中,我们首先将高斯噪声输入到逆向扩散过程中,通过逐步去噪生成一个清晰的csi波形,即在这个降噪过程中,源样本和参考样本的特征z
src
和z
ref
被提取,并迭代地注入到潜在变量中。因此,生成的(增强的)数据z0包含了源样本和参考样本的特征,可以被看作是它们的一种融合。假设源样本来自倾向于画大圆圈的用户,而参考样本来自倾向于画小圆圈的用户,那么增强数据可以被视为一个来自倾向于画中等圆圈的用户。
[0091]
具体来说,基于逆向扩散过程p
θ
(z
t-1
|z
t
),我们对其施加c
src
和c
ref
条件。因此,我们将在条件c
src
和c
ref
下近似计算马尔可夫转移,具体如下:
[0092][0093]
其中,和由公式(4)进行采样得到的,f
l
(
·
)是一个低通滤波器,σ是一个聚合函数,根据扭曲路径(warping path)连接和扭曲路径是通过使用动态时间规整(dynamic time warping,简称dtw)生成的。扭曲路径可以在最小化它们之间的距离情况下映射两个数据序列的元素。我们采用扭曲路径来连接它们,而不是默认的最短路径,因为使用扭曲路径进行合并可以更恰当地保持csi数据波形的形状。
[0094]
公式(7)试图将和合并到生成的数据中,因此生成的数据将具有它们的融合特征。根据这一约束,在从z
t
到z
t-1
的每个转换中,我们提取源样本和参考样本的特征,然后注入到潜在变量中。为此,我们首先采用前向过程(公式(4))从z
src
和z
ref
分别计算和
[0095][0096]
然后,我们采用逆向过程(公式(5))来计算从z
t
到潜在变量
[0097][0098]
因此,通过将的与匹配来改善增强样本。具体做法
如下:
[0099][0100]
其中,γ1,γ2∈[0,1]是用于调整权重的超参数。公式(10)中的匹配操作确保了公式(7)中的c
src
和c
ref
条件,从而进一步实现了基于ddpm的条件生成。通过将来自具有不同习惯的用户的样本的特征注入到生成过程中的潜在变量中,生成的(增强的)数据可以具有它们的融合特性。因此,增加的数据可以被认为是从具有不同习惯的另一个用户收集的数据。增强样本和原始样本都将用于模型训练。
[0101]
3.3.自适应权重
[0102]
在对比学习中,裁剪是一种常用的方法,用于提取视图以构建正样本对。对于每个动作数据,我们也采用裁剪操作从同一动作数据中提取两个视图(样本)以形成正样本对。然而,对于csi数据,不同正对在学习数据表示方面起的作用不一样。对于某些动作,动作中间可能会停顿现象。例如,在画字母x时,第一笔和第二笔之间可能有一个停顿,而在躺下时,在坐下和躺下之间可能会发生停顿。因此,通过裁剪操作提取的一些正样本对可能包含更多的动作数据,而另一些可能包含更多的停顿数据。相应地,包含更多动作数据的正样本对应该提供更多获取数据表示的线索,反之亦然。图2展示了画字母x的一个例子,其中虚线红线表示开始和结束点,在中心附近有一段静止。其中正样本对(x3,x4)将会对模型训练产生比(x1,x2)更大的作用,因为前者包含更多的动作数据。
[0103]
为了实现这个目标,我们提出了一种自适应权重算法,通过为不同的正样本对分配不同的权重来调整模型训练中正样本对的重要性。该算法首先计算一个响应图,其可以反映正样本对应的动作数据量,然后根据响应图计算权重,用于构建对比损失函数。
[0104]
具体来说,为了计算响应图,我们首先从静止数据的csi序列中选择一个长度为h的模板w
t
,称为静态模板。为避免选择偏差,我们选择多个静态模板。然后,对于每个正样本对的样本,我们使用滑动窗口将其分成重叠的窗口,每个窗口长度为h,滑动步长为1。对于从样本xi中提取的窗口l,我们采用响应分数来反映包含动作数据的数量:
[0105][0106]
其中m是所选静态模板的数量,w
l
表示从样本xi中提取的长度为h的一个窗口,表示第k个静态模板,表示w
l
和之间的dtw距离。w
l
和之间的距离越大,意味着w
l
与静态模板的差异越大,即w
l
包含更多的动作数据。因此,响应分数s
l
反映了窗口l中的动作数据量。样本xi中,窗口的响应分数被合并成响应图。
[0107]
在获取响应图后,我们计算样本xi的权重以进行模型训练:
[0108][0109]
其中wi表示样本xi的权重,α表示控制权重比例的幂次,nw表示从xi中提取的窗口数量,i(,)是动作数据的指示器,表示存在动作数据,并定义为:
[0110][0111]
这里的σs是一个阈值,用于确定是否将该窗口视为存在动作的数据。σs可以设置为响应分数的平均值,即此外,对于一个正样本对(xi,xj),它的权重是两个样本权重的聚合:
[0112]w(i,j)
=aggregate(wi,wj),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0113]
其中aggregate(,)对两个项目进行求和。w
(i,j)
为正样本对(xi,xj)的权重,这个权重表示在存在动作的情况下,包含csi数据的数量。因此,具有更大权重的正样本包含更多线索,应在模型训练中发挥更重要的作用。
[0114]
3.4.总体模型
[0115]
考虑到增强数据和自适应权重,我们将损失函数定义如下:
[0116][0117]
其中n是minibatch的长度,τ是温度超参数,用于缩放距离分布。和是一个正对,它们是从同一源样本派生的两个增强样本中提取出来的两个段csi数据的嵌入;而和是一个负对,它们来自不同的源样本。
[0118]
此外,我们还采用原始数据,即不经过我们设计的数据增强模型处理的数据,来构建对比损失函数,以捕捉原始训练数据的特征。该损失函数定义如下:
[0119][0120]
其中,zi、zj和zk是原始样本对应的嵌入,其它参数与公式(15)相同。因此,总体损失是它们的总和:
[0121][0122]
在获得训练好的模型后,它被用于提取动作样本的表示。进一步地,我们采用线性分类器将这些动作样本的表示分到相应的动作类别中,实现动作识别。
[0123]
为验证本发明效果,进行如下实验:
[0124]
4.实验评估
[0125]
在这个部分,我们通过将提出的clar与使用不同技术的几个基线进行比较,来研究其有效性。此外,我们还检查了我们设计的组件,即增强模型和标记数据大小的作用。
[0126]
4.1.实验设置
[0127]
为了进行评估,我们在两个基于wifi csi的动作识别数据集上进行实验。signfi数据集包括1,250个csi序列,每个序列代表一种手语手势。这些动作是由4个用户执行的,每个动作重复10次。deepseg数据集[c.xiao,y.lei,y.ma,f.zhou,and z.qin,“deepseg:deep-learning-based activity segmentation framework for activity recognition using wifi,”ieee internet of things journal,vol.8,no.7,pp.5669
–
5681,2021.]由5个用户进行的1,500个具有不同形状和年龄的人体动作组成。针对这些实验,我们将全部数
据的80%用作训练集,其余部分用作测试集。此外,我们选择30%和20%的数据作为标记数据,用于在signfi和deepseg上微调分类器,因为它们可以以较低的成本获得预期的性能。对于源样本和参考样本的选择,如果它们已经被标记,我们会选择同一动作类别中的两个样本作为源样本和参考样本。如果它们没有标签,对于一个源样本,我们会从其最相似的前10个样本中随机选择一个样本作为参考样本。在这里,我们采用dtw来计算样本之间的相似度。对于基于ddpm的增强模型,我们使用1,000个扩散步骤来考虑效率和有效性。在clar的优化过程中,学习率和批量大小分别设置为0.0001和50。公式(12)中的超参数α和公式(15)中的τ在两个数据集中均设置为0.5和0.1。对于以下所有实验,准确度和f1得分被采用作为性能比较的度量标准。
[0128]
4.2.基线
[0129]
为了展示clar的有效性,我们选择利用各种技术的动作识别方法作为基线,包括基于gan的文献1[b.lecouat,c.s.foo,h.zenati,and v.r.chandrasekhar,“semi-supervised learning with gans:revisiting manifold regularization,”international conference on learning representations,2018.],文献2[c.xiao,d.han,y.ma,and z.qin,“csigan:robust channel state information-based activity recognition with gans,”ieee internet of things journal,vol.6,no.6,pp.10 191
–
10204,2019.]、基于元学习的文献3[s.ding,z.chen,t.zheng,and j.luo,“rf-net:a unified meta-learning framework for rf-enabled one-shot human activity recognition,”proceedings of the conference on embedded networked sensor systems,pp.517
–
530,2021.],文献4[y.ma,g.zhou,and s.wang,“wifi sensing with channel state information:a survey,”acm computing surveys,vol.52,no.3,pp.1
–
36,2019.]和基于自监督对比学习的文献5[a.saeed,t.ozcelebi,and j.lukkien,“multi-task self-supervised learning for human activity detection,”proceedings of the acm on interactive,mobile,wearable and ubiquitous technologies,vol.3,no.2,pp.1
–
30,2019.],文献6[t.chen,s.kornblith,m.norouzi,and g.e.hinton,“a simple framework for contrastive learning of visual representations,”in proceedings of the international conference on machine learning,2020,pp.1597
–
1607.],文献7[j.yang,x.chen,h.zou,d.wang,and l.xie,“autofi:towards automatic wifi human sensing via geometric self-supervised learning,”ieee internet of things journal,2022.]方法:
[0130]
manigan[文献1]:基于gan的半监督学习方法,结合流形正则化。该模型在图像分类任务中,相比其他使用gan的半监督方法,显示出显著的优势。
[0131]
csigan[文献2]:一种使用wifi csi的基于gan的动作识别模型。该方法提出了一种新颖的互补生成器,并改进了鉴别器的输出和目标函数,以增强动作识别性能。
[0132]
rf-net[文献3]:一种统一的元学习框架,用于rf启用的一次性动作识别。该方法具有仅使用少量标记数据就能适应新环境的能力。
[0133]
metaact[文献4]:一种基于元学习的可适应动作识别框架。该方法专门为使用wifi csi跨不同场景和类别进行动作识别而设计。
[0134]
multissl[文献5]:一种自监督学习方法,用于动作识别。multissl训练一个时间
卷积神经网络来识别应用于原始输入信号的变换,以学习加速度计的表示。
[0135]
simclr[文献6]:一种用于视觉表征对比学习的简单框架。simclr通过在潜在空间中使用对比损失,最大化相同数据样本的各种增强视图之间的一致性来学习表征。
[0136]
autofi[文献7]:一种使用wifi csi的自监督学习动作识别模型。autofi充分利用未标记的低质量csi样本来学习知识,然后将其转移到特定任务中。
[0137]
4.3.识别性能比较
[0138]
图7和图8展示了我们的模型和基线模型在signfi和deepseg这两个数据集上的结果。从这些结果中,我们得出以下观察结果。首先,我们的模型clar在这两个数据集上始终表现更好。例如,与simclr相比,clar在signfi和deepseg数据集上的表现分别提高了3%以上和2%以上的性能。clar在signfi上获得了更为显著的改进。原因在于singfi上的动作类别更多,这意味着每个类别的标记样本更少。有限的标记样本导致基线模型性能较差。然而,通过生成增强数据并利用未标记数据,我们的方法clar可以有效地解决这个问题并实现更高的性能。
[0139]
其次,基于元学习的方法rf-net和metaact超过了两个基于gan的半监督基线csigan和manigan。由于元学习方法是为少量标记样本的情况设计的,因此在标记样本有限的环境下,元学习模型可以比通常需要给定数量的标记样本才能获得期望性能的半监督模型获得更好的性能。
[0140]
第三,自监督模型的表现优于其他基线模型。特别是,针对图像处理而设计的simclr模型,与基于gan的模型相比也取得了相对较好的性能。这表明自监督技术可以有效地促进基于wifi csi的人体动作识别,尤其是对于训练数据有限的情况。然而,通过结合我们设计的增强模型和自适应权重算法,我们的clar模型明显优于这些基线模型。
[0141]
4.4.消融实验
[0142]
在这里,我们研究了clar中两个重要组成部分,即增强模型和自适应权重算法的贡献。具体来说,我们通过考虑我们模型的以下变体来研究不同组件的作用:(1)clar-base是基本的对比学习框架,去除了ddpm基于时间序列的特定增强模型和自适应权重算法。(2)clar-aug是具有基于ddpm的增强模型但不包括自适应权重算法的对比学习框架。(3)clar-weight是具有自适应权重算法但不包括ddpm基于增强模型的对比学习框架。(4)clar-full是我们提出的完全涉及这两个模块的模型。
[0143]
在图9中展示了使用signfi数据和deepseg数据的实验结果。我们总结这个图的观察结果如下。首先,clar-full表现最佳,而clar-base表现最差,这表明我们设计的主要组件可以显著提高识别结果。其次,当使用基于ddpm的数据增强模型时,clar-aug的性能优于clar-base。这可能因为我们的设计方法能够增加有限样本的数量,从而有助于提高模型的泛化能力。第三,clar-weight的表现优于clar-base。这些结果验证了我们方法背后的动机,即引入自适应权重,使模型能够捕捉更多的动作数据特征,并显著提高识别结果。
[0144]
4.5.增强模型的作用
[0145]
前一节中的分析表明,我们设计的增强模型可以有效地促进性能的提高。在这里,我们进一步观察增强数据在应用到其他动作识别模型时的性能。我们选择了四种基线方法,这些方法是专门为跨场景的基于wifi csi的动作识别而设计的:csigan、rf-net、metaact和autofi。我们使用有/无增强数据的模型性能进行评估,以进行模型训练,分别称
为one-with-aug和one-non-aug。为了检验模型的泛化能力,我们在留一场景(留一场景指将数据集的一类样本作为测试集,其余样本作为训练集,本实施例中,将一个用户的数据作为测试集,其他用户的数据作为训练集)下进行这些实验,即将一个用户的数据作为测试数据,其他用户的数据作为训练数据。
[0146]
图10和图11展示了这四个基线模型以及我们的clar模型在使用ddpm增强模型生成的增强数据和不使用增强数据时的准确性和f1值。如图10所示,对于所有的模型,使用增强数据的性能都显著优于不使用增强数据的性能,例如在signfi数据上,使用增强数据的autofi的f1值比不使用增强数据的f1值高出约3.2%。图11中的deepseg数据集也呈现出类似的趋势。这些结果表明,我们基于ddpm的增强模型可以通过结合多个样本生成有效的增强样本。生成的数据可以扩大训练数据的分布,并进一步增强泛化能力。此外,我们的增强模型可以应用于其他类似的识别模型。
[0147]
4.6.标记数据规模的作用
[0148]
为了微调分类器,我们的方法需要一定数量的标记数据。在这里,我们对标记数据大小的作用进行了调查。在这些实验中,我们将p=[40,60,80]%的示例选择为未标记数据,将q%选择为已标记数据。
[0149]
正如图12和图13所示,我们的模型在所有p值上随着标记数据的增加,对于两个数据集都表现出越来越高的准确性和f1得分。这些结果表明,标记数据的大小对我们的方法的识别性能有着至关重要的影响。当在signfi和deepseg上分别选择30%和20%的标记数据时,在两个数据集上的性能变得稳定,即它们的准确性几乎与60%时相同。这表明我们的模型可以有效地利用少量标记样本来获得期望的性能。
[0150]
此外,值得注意的是,这两个数据集的增长速度不同。在signfi上的准确率经历了急剧增长,而在deepseg上相对稳定。这种差异可以归因于两个数据集之间每个类别标记样本数量的巨大差异。具体来说,对于signfi和deepseg,每个类别的标记样本数量分别为10和30个。因此,相同的比率会导致不同数量的标记数据,从而对它们的表现产生不同的影响。这些结果强调了为我们的模型提供少量标记样本的重要性。然而,标记数据的数量可以通过人工标记轻松获取。
[0151]
受监督和半监督方法需要一定数量的标记样本才能获得可观的性能。与此同时,基于少样本学习的方法需要足够的来自源域的标记数据进行模型训练。相反,我们引入对比学习用于基于csi的动作识别,它允许使用未标记的数据,即使只有有限的标记训练样本也可以实现准确的识别。
[0152]
我们提出了一种基于扩散模型的对比学习增强方法,可以将具有不同习惯的两个用户的样本合并成具有融合特征的增强样本。与这些增强方法不同,我们的增强方法可以生成有效的样本来填补有限的训练数据之间的差距,并进一步增强模型的泛化能力。此外,我们提出了一种自适应权重算法来分配适当的权重给不同的正样本对,这在前面的方法中被忽略了。
[0153]
综上,我们提出了一种用于人体动作识别的基于扩散模型的自监督对比学习方法,其中构建了一种基于扩散模型的自监督对比学习框架,用于使用wifi csi进行人体动作识别,称为clar。在这个框架中,我们设计了一个基于ddpm的针对时间序列的数据增强模型,可以将来自具有不同运动习惯的用户的两个样本合并,生成合并特征的增强样本,以扩
充训练数据并增强泛化能力。此外,我们提出了一种自适应权重算法,可以自适应地调整正样本对的权重,以学习更好的数据表示。基于两个数据集,实验结果表明,clar显著优于现有的基线方法。
[0154]
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种用于人体动作识别的基于扩散模型的自监督对比学习方法,其特征在于,包括:构建基于ddpm的针对时间序列的数据增强模型,该模型将一个源样本和两个参考样本作为输入,将源样本和两个参考样本结合起来,生成两个增强样本;所述源样本和两个参考样本均为wifi csi数据;将增强样本进一步通过裁剪和调整大小来构建正样本对,并结合源样本构建对比损失,在此过程中,通过自适应权重算法调整模型训练中正样本对的权重,并将所述权重并入到对比损失中;完成基于扩散模型的自监督对比学习框架构建和训练,用于人体动作识别。2.根据权利要求1所述的用于人体动作识别的基于扩散模型的自监督对比学习方法,其特征在于,所述基于ddpm的针对时间序列的数据增强模型用于将来自具有不同习惯的用户的两个样本结合起来生成具有两个用户特征的增强样本。3.根据权利要求1所述的用于人体动作识别的基于扩散模型的自监督对比学习方法,其特征在于,所述基于ddpm的针对时间序列的数据增强模型中,将高斯噪声输入到ddpm的逆扩散过程中,通过逐渐去噪生成干净的csi数据,在去噪过程中,将源样本和参考样本作为条件,并将源样本和参考样本强加到ddpm的逆扩散过程中,生成一个具有源样本和参考样本融合特征的新样本。4.根据权利要求1所述的用于人体动作识别的基于扩散模型的自监督对比学习方法,其特征在于,所述自适应权重算法首先计算一个响应图,通过响应图反映正样本对应的动作数据量,然后根据响应图计算权重,用于结合源样本构建对比损失函数。5.根据权利要求1所述的用于人体动作识别的基于扩散模型的自监督对比学习方法,其特征在于,所述自适应权重算法包括:为了计算响应图,首先从静止数据的csi序列中选择多个长度为h的静态模板w
t
,然后,对于每个正样本对的样本,使用滑动窗口将其分成重叠的窗口,每个窗口长度为h,滑动步长为1,对于从样本x
i
中提取的窗口l,采用响应分数来反映包含动作数据的数量:其中s
l
为响应分数,反映了窗口l中的动作数据量;m是所选静态模板的数量,w
l
表示从样本x
i
中提取的长度为h的一个窗口,表示第k个静态模板,表示w
l
和之间的dtw距离;将样本x
i
中所有窗口的响应分数合并成响应图;在获取响应图后,计算样本x
i
的权重以进行模型训练:其中w
i
表示样本x
i
的权重,α表示控制权重比例的幂次,n
w
表示从x
i
中提取的窗口数量,i(,)是动作数据的指示器,表示存在动作数据,并定义为:
其中σ
s
是一个阈值,用于确定是否将该窗口视为存在动作的数据;对于一个正样本对(x
i
,x
j
),它的权重是两个样本权重的聚合:w
(i,j)
=aggregate(w
i
,w
j
),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)其中w
(i,j)
为正样本对(x
i
,x
j
)的权重,表示在存在动作的情况下,包含csi数据的数量;aggregate(,)表示对两个项目进行求和;w
j
表示样本x
j
的权重。6.根据权利要求5所述的用于人体动作识别的基于扩散模型的自监督对比学习方法,其特征在于,还包括:将损失函数定义如下:其中n是minibatch的长度,τ是温度超参数,用于缩放距离分布;和是一个正对,它们是从同一源样本派生的两个增强样本中提取出来的两个段csi数据的嵌入;而和是一个负对,它们来自不同的源样本;采用源样本来构建对比损失函数,以捕捉原始训练数据的特征,该损失函数定义如下:其中,z
i
、z
j
和z
k
是源样本对应的嵌入;总体损失为:基于总体损失对基于扩散模型的自监督对比学习框架进行训练,并利用基于扩散模型的自监督对比学习框架提取动作样本的表示。7.根据权利要求6所述的用于人体动作识别的基于扩散模型的自监督对比学习方法,其特征在于,还包括:采用线性分类器将提取的动作样本的表示划分到相应的动作类别中,实现动作识别。
技术总结
本发明属于基于WiFi信道状态信息(CSI)的动作识别技术领域,公开一种用于人体动作识别的基于扩散模型的自监督对比学习方法,在对比学习框架基础上,主要提出了两个组件来满足CSI动作识别场景的需求,为了有效地扩大训练数据的分布,提出了一种针对时间序列的基于去噪扩散概率模型(DDPM)的数据增强模型,可以将两个样本结合起来生成多样化的增强数据,为了高效地捕捉样本重要性的差异,提出了一种自适应权重算法,可以自适应地调整正样本对的权重,以学习更好的数据表示。实验表明,与现有最先进方法相比,本发明取得了显著的提升。本发明取得了显著的提升。本发明取得了显著的提升。
技术研发人员:肖春静 韩艳会 薛玉霞 杨帅涛 江雪 卢佳慧
受保护的技术使用者:河南大学
技术研发日:2023.04.21
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/