基于元学习与时间对齐的小样本动作识别网络、方法、设备及存储介质
未命名
07-29
阅读:121
评论:0

1.本发明属于计算机视觉(小样本动作识别)技术领域。具体涉及一种基于元学习与时间对齐的小样本动作识别网络、方法、设备及存储介质。
背景技术:
2.现有小样本动作识别依然遵循标准的模型无关元学习算法maml,目的是获取一组良好的模型初始化参数(即让模型自己学会初始化)。采用情景训练,包含元训练和元测试两个阶段,旨在从元训练期间的一组可见任务中学习模型或优化器,以便在元测试期间很好地泛化到带有少量标签的训练实例的新任务。虽然maml得到了大家的广泛认可,但仍然存在着一个基本的开放式问题,即maml算法之所以能取得巨大的成功,是因为其元初始化学到的先验知识为快速学习做足了准备,还是由于特征的重用(元初始化已经具备了高质量的特征)。这一问题也同时受到了aniruddh等人的关注,他们在图像分类任务上通过消融实验和潜在表示的分析,发现特征重用是主要因素。由此产生了anil(几乎没有内循环)算法,对maml算法进行了简化,删除了除底层神经网络(任务特定)头部之外的所有内循环。其进一步研究了网络头部和主体的精确贡献,表明测试任务的性能完全取决于学习特征的质量,甚至可以删除网络头部(nil算法)。maml与nil算法的对比具体如图1所示(嵌入模型参数,η:网络头部参数)。
3.小样本动作识别(few-shot action recognition,fsar)方法通常遵循标准的元学习训练范式maml,其可以早期追溯到(compound memory networks,cmn),其提出了一种新的复合记忆网络概念,改进了特征表示,并提出了一种新的复合记忆网络概念,其具有更强的表示能力,可以通过匹配和排序对动作进行分类。此外,最近的fsar工作侧重于基于度量的分类方法,学习一个可推广的嵌入函数来测量动作之间的实例距离。zhang等人提出一个动作关系网络(action relation network,arn),其利用c3d网络提取特征,并构建自监督时空视频模块以利用注意力捕获内在的时间分布,将视频聚合成固定长度的表示通过关系网络,求两个视频匹配度。进一步地,cao等人提出了一个时间对齐模型(temporal alignment module,tam),利用优化算法dtw(dynamic temporal warping)找到最优的匹配路径,通过时间对齐很好地利用了视频数据中的时间排序信息,大大提高了小样本学习的数据效率。与tam几乎是同一时期由mina等人提出了一个时间注意关系网络(temporal attentive relation network,tarn),也是基于序列匹配的想法进行查询集与支持集视频的匹配。最近实现sota性能的trx通过构造类原型表示,以将查询子序列(多帧组合)与所有支持集子序列进行比较,期望在支持集中找到与查询样本最接近匹配组合。
4.简而言之,上述工作都遵循了标准的元学习范式maml。许多工作(例如trx、arn)过于关注动作子序列之间的距离度量,以至于忽略了动作的长期时间关系。其它工作(例如tarn)沿着时间维度执行严格的时间对齐,忽略了不同动作的独特时间分布。
5.此外,类内时间偏移(intra-class temporal offsets),从同一类别两个样本采
样的两个帧序列可能具有某些帧的偏移,这可能导致同一类别的过度对齐的嵌入。如图2所示,两个都是喝水的动作,一个动作在视频的最后一帧将杯子放在嘴边,而另外一个动作在视频的最后一帧喝完水后已经放下杯子。这两个问题存在于大量的动作实例中,并严重降低了时间对齐的性能。
技术实现要素:
6.本发明的目的在于克服现有技术的不足之处,提供一种基于元学习与时间对齐的小样本动作识别网络,在只有少量样本数据的前提下对人体动作进行准确而高效分类。
7.本发明解决技术问题所采用的技术方案是:
8.本发明的第一方面是提供了一种基于元学习与时间对齐的小样本动作识别网络,包括:元训练单元及元测试单元,
9.所述元训练单元采用nil算法,包括:
10.第一特征提取网络,用于对视频帧时间与空间信息的提取;
11.平均池化模块,得到2n个视频级的特征序列平均池化模块,得到2n个视频级的特征序列表示原视频或增强视频的特征;
12.两个fc全连接层,分类得到原视频的标签和增强视频的标签再由交叉熵损失celoss进行模型训练,原视频与进行数据增强的视频得到的交叉熵与取平均作为最终的交叉熵损失;
13.帧循环移位模块fcsm,特征vi同时输入帧循环移位模块fcsm,产生一个帧向右或向左进行循环移位的视频序列,其与原序列共同通过映射头映射到低维空间;
14.基于注意力的时间对齐模块ata,用于进行帧对帧的时间对齐,获得视频间的帧级相似性,进行聚合获得视频的总体相似性用于时间对比学习;
15.所述元测试单元包括:
16.第二特征提取网络,将元训练阶段训练的嵌入模型参数冻结或在支持集上进行微调作为特征提取器;
17.及线性分类器,接在第二特征提取网络之后。
18.进一步地,所述元训练单元训练一个泛化性能良好的嵌入模型完成对视频帧时间与空间信息的提取,训练完成后,去除包括分类器在内的所有网络头部(f
η
),对进行参数冻结或者微调作为元测试单元的嵌入模型/特征提取器,后接一个线性分类器对模型进行评估。
19.进一步地,所述帧循环移位模块fcsm对输入的两个视频序列以及数据增强的同时将视频的t帧向左或者向右循环移动t个序列,得到两个视频序列和其中表示移位的视频序列,频序列u1与u2分别包含2n个视频;首先构建原始视频序列和循环移位视频序列之间的时间对齐,以计算帧间相似度,同时,我们保留原始s1视频和增强的s2视频之间主要的时间对齐方式,作为正则化以纠正没有
时间偏移的视频之间的对齐。
20.进一步地,所述的基于注意力的时间对齐模块ata利用交叉注意力来计算时间注意力权重,以获得其特定于对齐的特征表示用于与进行相似度计算,实现时间对齐。
21.进一步地,所述的基于注意力的时间对齐模块ata的计算方法为:
22.给定的一对特征和使用映射头将其映射到低维空间得到使用映射头将其映射到低维空间得到然后由注意力权重映射到query qi,key ki,value vi,而由注意力权重映射到query qj,key kj,value vj,为了获得动作i相对于j其特定于对齐的t帧特征获得动作i相对于j其特定于对齐的t帧特征首先使用qi和kj计算注意力权重,然后其于vj相互作用得到
[0023][0024]
使用qj和ki计算动作j相对于i其特定于对齐的t帧特征计算动作j相对于i其特定于对齐的t帧特征使用表示任一帧的特征向量,对每一帧进行l2规范化,然后进行动作间的帧级时间对齐,计算动作i与j对应的时间特征的余弦距离
[0025][0026]
其中cos表示余弦距离,计算帧与帧之间的对齐分数,然后进行聚合得到两个动作间的全局相似性。
[0027]
进一步地,网络采用交叉熵损失和时间对比损失联合进行网络模型的训练。
[0028]
进一步地,利用有监督对比学习损失进行时间对齐网络的训练,具体的时间对比损失定义如下:
[0029][0030]
其中τ表示温度系数,i∈(0,1)等于1表示条件满足,表示有着相同类标签的视频数量,对整个模型进行端到端训练,模型的整体损失定义为:
[0031]
l
total
=λ1l
ce
+λ2l
tc
[0032]
其中,λ1,λ2分别表示交叉熵损失和全局对比损失的权重,除了嵌入模型外的其它网络参数表示为η,在元训练结束后,得到参数和η:
[0033]
[0034]
在元测试阶段,网络参数η被丢弃,仅嵌入模型被保留并重新用于在元测试集上进行模型评估。
[0035]
本发明的第二方面是提供了一种基于元学习与时间对齐的小样本动作识别网络的动作识别方法,包括:元训练阶段及元测试阶段,
[0036]
在元训练阶段,采用nil算法,将所有的元学习任务融合成一个完整的元训练集首先从合并的元训练集中采样一个batch的n对视频和标签,获得视频序列并且对每个视频进行数据增强得到增强的视频序列对于输入的一个batch得到2n个视频,遵循tsn采样策略,将每个视频分成t个片段,然后在每个片段中均匀采样一帧,因此每个视频由t帧的序列表示vi,然后嵌入模型将vi的t帧分别映射成t个帧级特征序列t和nc分别表示视频帧数和每帧的通道维度,然后,我们对每个视频的t帧特征进行平均池化得到2n个视频级的特征序列得到2n个视频级的特征序列表示原视频或增强视频的特征;然后有由两个全连接层fc进行分类得到原视频的标签和增强视频的标签最后由交叉熵损失celoss进行模型训练;原视频与进行数据增强的视频得到的交叉熵与取平均作为最终的交叉熵损失;同时特征vi输入帧循环移位模块fcsm额外产生一个帧向右或向左进行循环移位的视频序列,其与原序列共同通过映射头映射到低维空间,再由基于注意力的时间对齐模块ata进行帧对帧的时间对齐,获得视频间的帧级相似性,最终进行聚合获得视频的总体相似性用于时间对比学习。
[0037]
在元测试阶段,将划分为支持集和查询集,将元训练阶段训练的嵌入模型参数冻结或在支持集上进行微调作为特征提取器,后接一个线性分类器进行分类;在查询集上进行网络模型的评估;根据设置,每一次任务的查询集n*k'个样本与支持集的n*k个样本来自相同的n个类。
[0038]
本发明的第三方面是提供了一种基于元学习与时间对齐的小样本动作识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
[0039]
本发明的第四方面是提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
[0040]
本发明的优点和积极效果是:
[0041]
1.本发明将nil这种新的元学习算法应用于小样本动作识别,证明了其训练方式对于小样本分类的有效性。
[0042]
2.本发明提出循环移位模块(fcsm),缓解了动作的类内时间偏移问题。
[0043]
3.本发明提出了基于注意力的时间对齐模块(ata),保留动作长期的时序信息,将相关的时间信息编码到学习的视觉表示,并使用对比学习进行监督提高嵌入模型的鲁棒性。
附图说明
[0044]
图1为maml与nil算法对比图;
[0045]
图2为类内时间偏移问题图像对比;
[0046]
图3为网络总体结构图;
[0047]
图4为时间循环移位模块结构图;
[0048]
图5为kinetics与ssv2数据集示意图;
[0049]
图6为各模块对视觉特征可视化对比图。
具体实施方式
[0050]
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
[0051]
针对之前工作在进行子序列间的无序匹配过程中过于追求动作间的距离度量,忽略动作长期的时间关系,缺乏动作丰富的时间上下文信息,最终可能会导致动作距离的次优度量的问题,我们提出了一种新的用于fsar的帧到帧时间对齐网络。
[0052]
与所有先前的少数镜头动作识别方法相比,我们提出的方法遵循新的元学习训练范式nil,沿时间维度执行帧到帧的时间对齐。同时,我们设计了额外的模块来解决动作的时间偏移问题,提供了额外细化的特征表示。除此之外,由于只使用交叉熵损失可能会引入为解决所见类的分类任务而定制的嵌入,会导致学到的视觉嵌入缺乏一般辨别性的视觉特征。因此,考虑到监督对比学习在图像分类中的良好表现,我们使用对比学习作为一个辅助的预训练目标来学习,使模型学习捕捉元训练集以外的有用的辨别性特征。
[0053]
网络的总体结构如图3所示,该网络由元训练单元和元测试单元组成。元训练单元主要目的是训练一个泛化性能良好的嵌入模型完成对视频帧时间与空间信息的提取,训练完成后,去除包括分类器在内的所有网络头部(f
η
),对进行参数冻结或者微调作为元测试阶段的嵌入模型/特征提取器,后接一个线性分类器对模型进行评估。具体地,本发明所提方法的整体概述如下:
[0054]
在元训练单元,不同于maml算法,我们遵循nil算法,如图1右图所示将所有的元学习任务融合成一个完整的元训练集融合成一个完整的元训练集我们首先从合并的元训练集中采样一个batch的n对视频和标签,获得视频序列并且对每个视频进行数据增强得到增强的视频序列对于输入的一个batch得到2n个视频。我们遵循tsn采样策略,将每个视频分成t个片段,然后在每个片段中均匀采样一帧,因此每个视频由t帧的序列表示vi。然后嵌入模型将vi的t帧分别映射成t个帧级特征序列t和nc分别表示视频帧数和每帧的通道维度。然后,我们对每个视频的t帧特征进行平均池化得到2n个视频级的特征序列表示原视频或增强视频的特征。然后有由两个全连接层(fc)进行分类得到原视频的标签和增强视频
的标签最后由交叉熵损失(celoss)进行模型训练。原视频与进行数据增强的视频得到的交叉熵与取平均作为最终的交叉熵损失。同时特征vi输入帧循环移位模块(frames cyclic shift module,fcsm)额外产生一个帧向右或向左进行循环移位的视频序列,其与原序列共同通过映射头映射到低维空间,再由基于注意力的时间对齐模块(attention-based temporal alignment,ata)进行帧对帧的时间对齐,最终获得视频间的帧级相似性,最终进行聚合获得视频的总体相似性用于时间对比学习。因此,最终我们的网络采用交叉熵损失和时间对比损失联合进行网络模型的训练。
[0055]
在元测试单元,与maml类似,将划分为支持集和查询集,我们将元训练阶段训练的嵌入模型参数冻结或在支持集上进行微调作为特征提取器,后接一个线性分类器进行分类。在查询集上进行网络模型的评估。根据设置,每一次任务的查询集n*k'个样本与支持集的n*k个样本来自相同的n个类。
[0056]
为了降低由于类内时间偏移引起的嵌入特征的紧凑性,我们提出了帧循环移位来进一步提高嵌入模型的泛化性能。具体来说对于输入的两个视频序列进一步提高嵌入模型的泛化性能。具体来说对于输入的两个视频序列以及数据增强的我们同时将视频的t帧向左或者向右循环移动t个序列,如图4所示,我们得到了两个视频序列和其中表示移位的视频序列,因此视频序列u1与u2分别包含2n个视频。然而,要准确地确定哪些视频受到时间偏移的影响可能是很困难的。所以我们首先构建原始视频序列和循环移位视频序列之间的时间对齐,以计算帧间相似度。同时,我们保留原始s1视频和增强的s2视频之间主要的时间对齐方式,作为正则化以纠正没有时间偏移的视频之间的对齐。因此,在移位视频序列上的进一步对齐校准了动作之间的距离度量,使得嵌入模型提供额外的细化表征。
[0057]
基于注意力的时间对齐模块(ata)将相关的时间信息编码到学习的视觉表示中在提高嵌入模型的鲁棒性以及降低其对域变化的敏感性方面发挥着关键作用。为了局部地比较一对动作特征和我们提出了基于注意力的时间对齐模块(attention-based temporal alignment,ata),沿着视频的时间维度进行帧级时间对齐,最终获得聚合视频级的相似度用于时间对比学习,保留了动作长期的时间关系。如图3中的temporal shift alignment net,我们利用交叉注意力来计算时间注意力权重,以获得其特定于对齐的特征表示用于与进行相似度计算,实现时间对齐。
[0058]
具体来说,给定的一对特征和我们使用映射头将其映射到低维空间得到然后由注意力权重映射到query qi,key ki,value vi,而由注意力权重映射到query qj,key kj,value vj。为了获得动作i相对于j其特定于对齐的t帧特征为了获得动作i相对于j其特定于对齐的t帧特征我们首先使用qi和kj计算注意力权重,然后其于vj相互作用得到
[0059][0060]
为了使两个视频之间的帧级对齐更加严格,类似地,我们使用qj和ki计算动作j相对于i其特定于对齐的t帧特征然后我们使用然后我们使用表示任一帧的特征向量,对每一帧进行l2规范化,然后进行动作间的帧级时间对齐,计算动作i与j对应的时间特征的余弦距离
[0061][0062]
其中cos表示余弦距离,计算帧与帧之间的对齐分数。然后进行聚合得到两个动作间的全局相似性。
[0063]
在元训练阶段,我们首先探索了一个极其简单的迁移学习基线,其中嵌入模型首先使用元训练集上的标准的交叉熵(ce)损失进行预训练。具体来说,对于输入的两个视频序列s1和s2,我们对每个视频的多帧执行平均池化以获取视频级特征然后我们使用全连接层来执行之后的分类,利用cross-entropy损失进行网络训练:
[0064][0065]
由于我们依然是基于是上一章探讨的nil算法,因此类似的在元训练阶段,对于输入的两个视频序列s1和s2,我们首先对每个视频的t帧执行平均池化以获取视频级特征然后我们使用全连接层来执行之后的分类,交叉熵(cross-entropy)损失进行网络训练:
[0066][0067]
此外,为了使嵌入模型学到更多的时间信息,并能够更好地适应新任务,我们提出时间对比学习,进一步利用有监督对比学习损失进行时间对齐网络的训练,具体的时间对比损失定义如下:
[0068][0069]
其中τ表示温度系数,i∈(0,1)等于1表示条件满足,表示有着相同类标签的视频数量。我们对整个模型进行端到端训练,模型的整体损失定义为:
[0070]
l
total
=λ1l
ce
+λ2l
tc
[0071]
其中,λ1,λ2分别表示交叉熵损失和全局对比损失的权重。除了嵌入模型外的其
它网络参数表示为η,在元训练结束后,可得到参数和η:
[0072][0073]
在元测试阶段,网络参数η被丢弃,仅嵌入模型被保留并重新用于在元测试集上进行模型评估。
[0074]
实验参数设置
[0075]
本发明的实验均在ubuntu 18.04操作系统下设计实现,程序设计语言采用应用广泛的高级编程语言python,本发明所提框架的验证实现基于深度学习框架pytorch。
[0076]
实验参数设置如表1所示。在实验中,对于输入视频,对每个视频片段在时间上均匀采样,采样的帧数t设置为8,每帧裁剪为224像素
×
224像素,使用设计的嵌入模型提取视频特征,输出每一帧图像的特征维度nc=d=2048,其嵌入模型权重来自于在imagenet数据集上预训练的resnet-50,最后使用全连接层来进行分类。对于映射头(projection head),我们使用具有一个隐藏层的mlp和类似于simclr的relu非线性,输出1152维特征(即d'=1152)。对于损失函数的权重设置,λ1=λ2=1。此外,对于每个batch的n个增强样本,我们采用的是对比增强(随机裁剪,颜色抖动,随机水平翻转和随机灰度转换)。
[0077]
表1实验参数设置
[0078][0079]
实验在两块geforce rtx 3090gpu上进行。模型在hmdb51和ucf101数据集上训练了40个epoch,在ssv2数据集上训练了90个epoch,在kinetics数据集上训练了60个epoch,批次大小(batchsize)为32。我们使用sgd优化器优化器来训练所有的网络,其中momentum值为0.9,weight_decay值为5e-4。学习率最初设置为0.0001,每25个epoch衰减0.5倍。我们采用tsn的均匀采样方式,对每个视频均匀采样8帧。实验结果给出了5-way 1-shot和5-way 5-shot在10000次task中的平均准确率(%)。
[0080]
1.评价指标
[0081]
在元测试阶段,我们分别在标准的5-way 1-shot和5-way 5-shot设置上评估我们的网络模型,报告了从测试集中随机选择的10000个task的平均准确度。即对于每一个task/episode,我们将测试集分为支持集(suppport set)和查询集(quary set)。对于支持集(suppport set),我们随机采样5个动作类别及其对应的类标签,每个类别包含1个或5个(1-shot/5-shot)动作样本,对于查询集(quary set)即测试样本,我们从相同的5个类别中随机采样k'个视频(k'取值不同会产生不同结果)。然后由分类器输出5*k'个测试样本分别属于该5个动作类别中具体哪一类。此外,对于元测试阶段的每个支持集视频,我们创建了其10个增强版本,以克服数据不足的问题,并对查询集视频帧使用中心裁剪(center crop)。
[0082]
2.客观评估
[0083]
为了客观公正地评估本发明所提方法的有效性,本发明在hmdb51、ucf101、ssv2和kinetics四个数据集上与多个先进的小样本动作识别高性能算法进行对比实验,对比结果见表2。实验结果给出了四个数据集上5-way1-shot(5-1)和5-way5-shot(5-5)小样本设置下的的平均准确率(%)。
[0084]
总体而言,在四个小样本动作识别领域广泛使用的数据集上,本发明提出的方法的性能超越了现有的最先进的识别算法。具体地,在5-way1-shot的实验设定下,我们提出的方法在四个数据集上普遍高于最近提出的trx方法,分别提升了5.4/9.1/1.0/9.1个百分点。在5-way5-shot的实验设定下,本方法在除ssv2的其余三个数据集上也均获得了相近的性能,表明基于nil算法的时间对齐网络能有效地适用于小样本动作识别。本发明使用时间对齐网络沿着时间维度进行视频间帧对帧的对齐,在保留完整的长期信息的同时优化了动作间的距离度量,性能相比我们的baseline进一步提升了2-3个百分点。此外,我们还利用循环移位缓解了动作的类内时间错位问题,进一步提高了嵌入模型的性能以得到更精确的视觉表示。
[0085]
表2四个数据集上的验证结果与最先进的方法的对比
[0086][0087]
对于用作小样本动作识别的kinetics-100数据集,如图5(i)所示,其更加关注于动作整体的外观信息,对于动作间存在的时间错位问题则不需要过多地考虑,所以使用帧
级时间对齐可能已经足够。对于ssv2来说,如图5(ii)所示,对于其数据集中动作的识别需要明确地捕捉动作过程中物体的形状或属性的变化。然而,在元测试阶段仅保留了嵌入模型(resnet-50),其提取的特征对于物体的变化缺乏敏感度,即使我们使用时间注意力网络弥补了这一缺陷。因此,我们只在hmdb和ucf上进行了帧循环移位。
[0088]
3.消融实验
[0089]
3.1网络头部的去留对实验结果的影响
[0090]
在关于元学习问题的定义中,我们提到过aniruddh等人提出了nil,其首先提到的是anil(几乎没有内循环)算法,他们研究了网络头部和主体的精确贡献,表明测试任务的性能完全取决于学习特征的质量,甚至可以删除网络头部,这才诞生了nil算法。换句话说,anil与nil的区别就在于网络头部的去留。而为了更加完善准确地将元学习算法应用于小样本动作识别中,我们做了关于网络头部去除和保留的对比实验,验证了网络头部在动作识别中的确可以删除。具体来说,对于nil算法,我们将元训练阶段得到的resnet-50模型去除最后的fc,然后将其参数冻结,在元测试阶段在其后再接一个新的随机初始化的fc分类器进行评估。对于anil算法,同样在元训练阶段训练视觉嵌入模型resnet-50,然后将其最后的网络头部(全连接层)保留下来并将所有的网络参数冻结,然后在元测试阶段使用冻结的网络主体头部(fc)进行分类。同时我们也做了maml算法的实验,以进行对比突出nil算法在小样本动作识别中的有效性。
[0091]
表3在hmdb51和ucf101数据集上使用不同元学习算法的准确率比较
[0092][0093]
如表3所示,通过实验我们可以看到网络头部的保留对我们的实验结果影响很小,在测试时没有内循环的nil算法表现稍微优于maml和anil,表明其学习的特征很强,并且测试时头部的重要性相对较低,网络的主体部分学习到的特征(并在测试时进行特征重用)才是元学习算法的关键所在。
[0094]
3.2不同模块的消融实验
[0095]
为了验证所提出的基于注意力的时间对齐模块(ata)、帧循环移位模块(fcsm)能够有效地提升模型对于时间信息的捕捉,并缓解不同动作其独特的时间分布问题,我们在hmdb51和ucf101两个数据集上对所提出的模块进行消融研究,如表4所示,将交叉熵(ce)损失进行训练的网络作为我们的baseline(base),加上各个模块进行比较。
[0096]
表4不同模块的消融实验
[0097][0098]
由表4可以看出,在baseline的基础上加入我们体的时间对齐网络支路后模型的性能有了明显的提升。具体来说,将我们的基于注意力的时间对齐模块ata集成到baseline中,以执行帧到帧的时间对齐,在hmdb51和ucf101数据集的实验设置上分别实现了将近1.7%和1.1%的增益精度,证明了ata模块这种聚合帧级相似性对于动作间距离度量的有效性。而在执行帧对帧的时间对齐之前,我们增添帧循环移位模块fcsm执行帧级特征的时间循环移位,在ucf101的-way1-shot和5-way5-shot设置上实现了1.4%和0.9%的进一步提升,缓解了类内的时间错位问题。总的来说,我们设计的整个时间对齐模块在baseline的基础上实现了2%~3%的提升。并且将fcsm集成到ata模块中可以产生比单个ata更好的特征嵌入,解决动作独特的时间分布造成类内时间偏移问题,实现了动作间距离的有效度量。
[0099]
4.主观评估
[0100]
为了更直观的证明所提网络的有效性,本发明对三种不同情况下视觉特征在语义空间中的聚类分布进行了可视化的展示。如图6所示,分别为未使用时间对齐网络,也就是只使用baseline(交叉熵损失)进行训练;在baseline的基础上使用基于注意力的时间对齐网络ata进行帧对帧的时间对齐;进一步加入fcsm,即我们完整的网络。通过对加入不同模块的视觉特征分布的定性可视化,进一步分析了所提方法的有效性。我们使用t-sne可视化方法对两个数据集的部分未见类的视觉特征分布进行可视化,从hmdb51数据集中分别抽取了10个不可见的类。从图6中可以观察到,在训练时加入ata模块实现帧对帧的时间对齐,实现距离的有效度量,拉大了类间差距。加入了帧循环移位模块fcsm,缓解了类间局部相似和类内时间错位问题,进一步改善了动作间的距离度量。图6的可视化结果表明,本发明所提方法能够有效地利用时间信息进行动作距离度量,提高了嵌入模型的泛化性能,得到了的视觉嵌入表示更具迁移性。
[0101]
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
技术特征:
v
i
,而由注意力权重映射到queryq
j
,keyk
j
,value v
j
,为了获得动作i相对于j其特定于对齐的t帧特征i相对于j其特定于对齐的t帧特征首先使用q
i
和k
j
计算注意力权重,然后其于v
j
相互作用得到相互作用得到使用q
j
和k
i
计算动作j相对于i其特定于对齐的t帧特征计算动作j相对于i其特定于对齐的t帧特征使用表示任一帧的特征向量,对每一帧进行l2规范化,然后进行动作间的帧级时间对齐,计算动作i与j对应的时间特征的余弦距离的余弦距离其中cos表示余弦距离,计算帧与帧之间的对齐分数,然后进行聚合得到两个动作间的全局相似性。6.根据权利要求5所述的识别网络,其特征在于,网络采用交叉熵损失和时间对比损失联合进行网络模型的训练。7.根据权利要求6所述的识别网络,其特征在于,利用有监督对比学习损失进行时间对齐网络的训练,具体的时间对比损失定义如下:其中τ表示温度系数,i∈(0,1)等于1表示条件满足,表示有着相同类标签的视频数量,对整个模型进行端到端训练,模型的整体损失定义为:l
total
=λ1l
ce
+λ2l
tc
其中,λ1,λ2分别表示交叉熵损失和全局对比损失的权重,除了嵌入模型外的其它网络参数表示为η,在元训练结束后,得到参数和η:在元测试阶段,网络参数η被丢弃,仅嵌入模型被保留并重新用于在元测试集上进行模型评估。8.根据权利要求1-7任一权利要求所述的识别网络的识别方法,其特征在于,包括:元训练阶段及元测试阶段,在元训练阶段,采用nil算法,将所有的元学习任务融合成一个完整的元训练集首先从合并的元训练集中采样一个
batch的n对视频和标签,获得视频序列并且对每个视频进行数据增强得到增强的视频序列对于输入的一个batch得到2n个视频,遵循tsn采样策略,将每个视频分成t个片段,然后在每个片段中均匀采样一帧,因此每个视频由t帧的序列表示v
i
,然后嵌入模型将v
i
的t帧分别映射成t个帧级特征序列t和n
c
分别表示视频帧数和每帧的通道维度,然后,我们对每个视频的t帧特征进行平均池化得到2n个视频级的特征序列视频级的特征序列表示原视频或增强视频的特征;然后有由两个全连接层fc进行分类得到原视频的标签和增强视频的标签最后由交叉熵损失ce loss进行模型训练;原视频与进行数据增强的视频得到的交叉熵与取平均作为最终的交叉熵损失;同时特征v
i
输入帧循环移位模块fcsm额外产生一个帧向右或向左进行循环移位的视频序列,其与原序列共同通过映射头映射到低维空间,再由基于注意力的时间对齐模块ata进行帧对帧的时间对齐,获得视频间的帧级相似性,最终进行聚合获得视频的总体相似性用于时间对比学习。9.根据权利要求8所述的方法,其特征在于,在元测试阶段,将9.根据权利要求8所述的方法,其特征在于,在元测试阶段,将划分为支持集和查询集,将元训练阶段训练的嵌入模型参数冻结或在支持集上进行微调作为特征提取器,后接一个线性分类器进行分类;在查询集上进行网络模型的评估;根据设置,每一次任务的查询集n*k
′
个样本与支持集的n*k个样本来自相同的n个类。10.一种基于元学习与时间对齐的小样本动作识别设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求8-9任一项所述方法的步骤。11.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求8-9任一项所述方法的步骤。
技术总结
本发明提供了一种基于元学习与时间对齐的小样本动作识别网络、方法、设备及存储介质。包括:元训练单元及元测试单元,所述元训练单元训练一个泛化性能良好的嵌入模型完成对视频帧时间与空间信息的提取,训练完成后,去除包括分类器在内的所有网络头部f
技术研发人员:侯永宏 于斌 郭子慧
受保护的技术使用者:天津大学
技术研发日:2023.03.15
技术公布日:2023/7/26
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/