弱监督视频时序动作检测方法、系统、设备及存储介质
未命名
08-23
阅读:198
评论:0
1.本发明涉及视频分析理解技术领域,尤其涉及一种弱监督视频时序动作检测方法、系统、设备及存储介质。
背景技术:
2.近年来,视频数据爆发式增长,视频理解的应用需求逐渐增加。时序动作检测任务作为视频理解的热门下游任务,因其广泛的实际应用,如安防监控、视频检索、体育视频片段剪辑、视频审核等,受到国内外许多研究者的关注。研究者需要针对不同应用场景的需求设计合适的时序动作检测方案,提供精确的动作定位和动作分类结果。
3.时序动作检测任务目前主要有两种学习范式:(1)提供详细帧级标注信息的全监督学习范式;(2)只提供视频级动作类别标注的弱监督学习范式。对于全监督时序动作检测来说,所有的样本视频都需要人工进行逐帧的标注,这种标注工作需要消耗巨大的人工成本,并且精度普遍不高。因此,为了解决标注难和标注误差的问题,弱监督时序动作检测应运而生。这种方法可以将网络上大量的未剪辑的视频标记一个视频级的标签,直接作为模型的训练数据。
4.虽然弱监督时序动作检测方法有诸多的好处,但是由于缺少精细的标注,检测性能要远远弱于全监督方法。现阶段弱监督时序动作检测方法大多都使用多实例学习框架,对视频中的所有片段进行分类,生成该视频对应的类激活序列,然后聚合每个类别中分数最高的k个片段进行聚合,得到视频级的分类分数,超过预先设定的类别分数阈值则表示视频中存在该种动作,根据找到的动作类别在类激活序列中找到对应的类别的激活序列,再使用预选设定的动作分数阈值生成动作预选框,最后对所有预选框使用非极大值抑制得到最终的预测结果。
5.以上介绍的是一种利用分类结果进行定位的方法,模型只能通过优化视频级的分类结果来更新网络参数。但是对于视频级的分类任务来说,模型很容易根据动作上下文信息来做动作分类任务(一般来说不同动作的场景信息差异大,容易分类),因此传统方法不可避免的会导致定位得到的预选框中大部分都是场景信息显著的片段,而这种片段未必属于动作片段。因此,模型的预测结果中会存在许多的假阳性片段,模型的定位性能普遍不佳。
6.在公开号为cn110832499a的中国发明专利申请《通过稀疏时间池化网络的弱监督动作定位》中利用稀疏关键帧注意力机制进行动作识别。在公开号为cn115439790a的中国发明专利申请《基于级联的种子区域生长模块的弱监督时序动作定位方法》中根据时序特征获取原始类激活序列,通过种子生长策略获取扩张后的类激活序列,进行对抗擦除,将原始类激活序列和擦除后的类激活序列融合,获取可信度更高的类激活序列以提升检测精度。在公开号为cn115272941a的中国发明专利申请《弱监督视频时序动作检测与分类方法及系统》中采用蒸馏协同的策略,促使单模态和跨模态框架优势互补,实现更完整且准确的时序动作检测和分类。在公开号为cn114898259a的中国发明专利申请《一种基于动作关联
注意力的弱监督视频时序动作定位方法》中,采用动作关联注意力模型来建立视频中动作片段之间的关系,利用查询机制建立弱监督的预训练,并将查询机制的输出输入到transformer(变压器)架构的解码器中用于实现查询集合的时间定位;利用transformer架构的编码器确定视频片段特征之间的关系,进而实现动作片段的定位及分类。
7.然而上述的专利申请公开的方法,都沿用了通过优化分类任务实现动作定位的方式。对于这种定位方法,其定位结果中会存在大量由动作上下文信息引起的假阳性片段,从而导致时序动作检测性能不佳。
技术实现要素:
8.本发明的目的是提供一种弱监督视频时序动作检测方法、系统、设备及存储介质,能够针对假阳性片段进行了有效抑制,提升了时序动作检测性能。
9.本发明的目的是通过以下技术方案实现的:一种弱监督视频时序动作检测方法,包括:构建弱监督视频时序动作检测模型,所述弱监督视频时序动作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征x后,编码为嵌入特征e,再经过分类获得类激活序列a,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征x获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列a与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征e使用注意力机制生成片段级前景权重,并作用于所述类激活序列a,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。
10.一种弱监督视频时序动作检测系统,包括:模型构建单元,用于构建弱监督视频时序动作检测模型,所述弱监督视频时序动作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;训练单元,用于将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征x后,编码为嵌入特征e,再经过分类获得类激活序列a,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征x获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列a与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征e使用注意力机制生成片段级前景权重,并作用于所述类激活序列a,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活
序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;检测单元,用于将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。
11.一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
12.一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
13.由上述本发明提供的技术方案可以看出,设计了一种脱离分类任务的自训练分支,该分支可以不受动作上下文信息的干扰生成综合动作序列;并且对于预测结果中的假阳性片段做了针对性的设计,通过对假阳性片段的概率进行建模,并对高概率片段进行抑制,从而大幅度减少了假阳性片段的数量;此外,还设计了前景增强分支,增强模型对前景片段的识别能力。总的来说,本发明针对假阳性片段进行了有效抑制,提升了模型的检测性能。
附图说明
14.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
15.图1为本发明实施例提供的一种弱监督视频时序动作检测方法的流程图;图2为本发明实施例提供的弱监督视频时序动作检测模型的示意图;图3为本发明实施例提供的自训练动作分支的结构示意图;图4为本发明实施例提供的一种弱监督视频时序动作检测系统的示意图;图5为本发明实施例提供的一种处理设备的示意图。
具体实施方式
16.下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
17.首先对本文中可能使用的术语进行如下说明:术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
18.下面对本发明所提供的一种弱监督视频时序动作检测方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
19.实施例一本发明实施例提供一种弱监督视频时序动作检测方法,如图1所示,其主要包括如下步骤:步骤1、构建弱监督视频时序动作检测模型。
20.本发明实施例中,针对假阳性片段过多的问题做出针对性的设计,构建了一种弱监督视频时序动作检测模型,它主要包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支。
21.步骤2、训练所述弱监督视频时序动作检测模型。
22.本发明实施例中,将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征x后,经过特征编码器得到嵌入特征e,最后通过分类器获得类激活序列a,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征x获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列a与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征e使用注意力机制生成片段级前景权重,并作用于所述类激活序列a,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型。
23.本发明实施例中,弱监督视频时序动作检测模型各部分的处理过程及相关损失函数计算方式如下:(1)所述基础框架包括:预训练的特征提取网络、一维卷积层、分类器;其中,所述预训练的特征提取网络包括:rgb特征提取网络与光流特征提取网络,rgb是指红绿蓝三个通道;通过rgb特征提取网络从训练视频数据中提取出rgb特征,通过光流特征提取网络从对应的光流数据中提取出光流特征,所述rgb特征与光流特征在通道维度上拼接得到特征x;所述特征x通过一维卷积层(相当于前文所述的特征编码器)处理,获得嵌入特征e,所述嵌入特征e经分类器分类,获得类激活序列a;在类激活序列a中聚合每个类别上分数最高的k个片段,得到视频级的分类分数,在类别维度上使用softmax函数生成类别概率,其中,每一片段包含设定数目的帧图像,k为设定的正整数;之后,结合给定的视频级标签计算基础损失。
24.(2)所述自训练动作分支通过对rgb特征与光流特征分别依次进行卷积、relu激活函数和sigmoid激活函数处理,获得对应的rgb动作序列与光流动作序列;再将rgb动作序列与光流动作序列融合为综合动作序列,并利用综合动作序列得到非动作序列。将每一种模态的动作序列作为另一种模态的动作序列的软标签,并计算出一致性损失;在综合动作序列中找到分数最高的个动作片段,将它们动作分数求和取平均,得到视频级的动作分数,通过非动作序列获得剩余片段的非动作分数,并求和取平均得到视频级的非动作分数
,然后计算动作损失;最后,结合动作损失与一致性损失计算自训练动作损失;其中,为设定的正整数。
25.(3)所述假阳性抑制模块利用所述类激活序列a与非动作序列,获得假阳性序列,在假阳性序列中聚合每个类别上分数最高的个片段,得到视频级的假阳性分数,在类别维度上使用softmax函数生成假阳性概率,其中,每一片段包含设定数目的帧图像,为设定的正整数;之后,结合设定的均匀标签计算出假阳性抑制损失。
26.(4)所述前景增强分支基于所述特征x的嵌入特征e生成片段级前景权重,并作用于所述类激活序列a,获得前景增强类激活序列,再将前景增强类激活序列与两种模态的动作序列求均值,计算获得综合类激活序列;将综合类激活序列中每个类别分数最高的k个片段的序号记为index,根据序号index,找出前景增强类激活序列的每个类别中对应的片段进行聚合得到分数,并在类别维度上使用softmax函数,生成视频级类别概率,之后,结合给定的视频级标签计算前景增强损失。
27.步骤3、将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。
28.本发明实施例中,在训练结束后,可以移除假阳性抑制模块,然后,按照前述训练中的方式由基础框架、自训练动作分支与前景增强分支协同工作,获得前景增强类激活序列以及综合类激活序列。之后,利用前景增强类激活进行动作类别预测,以及利用综合类激活序列进行动作定位预测,从而实现时序动作检测。
29.本发明实施例提供的上述方案:设计了一种脱离分类任务的自训练分支,该分支可以不受动作上下文信息的干扰生成综合动作序列;并且对于预测结果中的假阳性片段做了针对性的设计,通过对假阳性片段的概率进行建模,并对高概率片段进行抑制,从而大幅度减少了假阳性片段的数量;此外,还设计了前景增强分支,增强模型对前景片段的识别能力。总的来说,本发明针对假阳性片段进行了有效抑制,提升了模型的检测性能。
30.为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
31.一、原理概述。
32.本发明实施例中,为了解决现有弱监督视频时序动作检测框架预测结果中假阳性片段过多的问题,提供了一种基于假阳性抑制的弱监督视频时序动作检测方案,总体概述如下:(1)考虑到现有的框架会造成模型无法学习到不受动作类别信息干扰的类别无关动作属性,针对这个问题,本发明设计一种自训练的策略去学习,独立于视频分类任务,将这部分称为自训练动作分支。(2)利用自训练动作分支生成的动作序列,对假阳性片段进行建模,最后利用类别均匀标签对假阳性片段进行抑制。(3)为了增强模型对于前景的识别能力,使用注意力机制对视频中的前景片段进行特征增强。
33.二、模型框架与训练方案。
34.如图2所示展示了模型的整体框架结构,其主要包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支,图2中的符号为哈达玛积符号,表示聚合片段,表示sigmoid激活函数;下面针对各个部分做详细的介绍。
35.1、基础框架。
36.本发明实施例中,构建了传统时序动作检测的基础框架,其主要包括:预训练的特征提取网络、一维卷积层、分类器;其中,所述预训练的特征提取网络包括:rgb特征提取网络与光流特征提取网络。
37.示例性的,特征提取网络可以选择i3d网络(膨胀的3维卷积网络),并在kinetics400数据集上进行预训练。
38.本发明实施例中,可以将视频和该视频对应的光流视频以设定帧图像(rgb图像)为单位构建连续的视频片段,再输入至预训练的特征提取网络,通过rgb特征提取网络从训练视频数据中提取出rgb特征,通过光流特征提取网络从对应的光流数据中提取出光流特征,所述rgb特征与光流特征在通道维度上拼接得到特征x;所述特征x通过一维卷积层处理,获得嵌入特征e,所述嵌入特征e经分类器分类,获得类激活序列a。
39.以上处理过程可以表示为:;;其中,表示一维卷积层,表示分类器。
40.示例性的,可以以16帧图像为单位构建连续的视频片段。
41.在基础框架上,本发明与传统方法保持一致,使用多实例学习范式和交叉熵损失函数。在类激活序列a中聚合每个类别上分数最高的k个片段,得到视频级的分类分数,在类别维度上使用softmax函数生成类别概率,之后,结合给定的视频级标签与交叉熵损失函数计算基础损失,表示为:;;其中,softmax函数为归一化指数函数,表示第i个视频的分类分数,表示第i个视频的类别概率,表示第i个视频的第c个动作类别的概率值,表示第i个视频的视频级标签中对应的第c个动作的标签值,n表示视频数目,c表示动作类别数目,表示基础损失。
42.2、自训练动作分支。
43.学习高质量的动作属性,对于动作定位任务至关重要。然而,基础分支生成的类激活序列中的动作属性容易产生严重的场景依赖问题。为了解决这个问题,本发明引入了自训练动作分支,该分支独立于分类任务,通过自训练的方式学习辨别动作片段和非动作片段。
44.一般情况下,动作片段相比于非动作片段有更大的特征幅值。因此,在自训练动作分支中,将特征幅值较大的一些片段聚集为正类多实例包,再把剩下的片段聚集为负类多实例包,通过多实例学习的方式进行自训练。在大量的不同动作类别的视频片段中,它们的语义共性在于动作性与非动作性,因此,自训练动作分支,可以在没有类别信息的干扰下,学习高质量的动作属性。
45.此外,为了充分利用rgb特征和光流特征的互补性,本发明通过对rgb特征与光流特征分别依次进行卷积、relu激活函数和sigmoid激活函数处理,获得对应的rgb动作序列与光流动作序列,表示为:;;其中,表示rgb特征,表示光流特征,与均表示依次进行卷积、relu激活函数和sigmoid激活函数的模块,relu表示修正线性单元,sigmoid为s型生长曲线,表示rgb动作序列,表示光流动作序列。
46.图3展示了自训练动作分支的详细结构,其内部包含两个子分支结构,两个子分支左侧的一维卷积即为上文提及的卷积处理过程,其输出连接relu激活函数(图3中未示出)。
47.为了促进两种模态的相互学习,将每一种模态的动作序列作为另一种模态的动作序列的软标签,并计算出一致性损失,表示为:;其中,表示一致性损失,表示相似度量函数;表示rgb动作序列,表示光流动作序列,二者即为两种模态的动作序列。
48.并且,将rgb动作序列与光流动作序列融合为综合动作序列,并利用综合动作序列得到非动作序列,表示为:;;其中,s表示综合动作序列,为控制两种模态的动作序列融合比例的超参数,表示非动作序列。
49.之后,在综合动作序列中找到分数最高的个动作片段,将它们动作分数求和取平均,得到视频级的动作分数,将剩下片段的非动作分数(通过非动作序列获得)求和取平均得到视频级的非动作分数,然后计算动作损失:;其中,表示动作损失,表示第i个视频的动作分数,表示第i个视频的非动作分数,n表示视频数目。
50.结合动作损失与一致性损失计算自训练动作损失,表示为:;其中,表示自训练动作损失。
51.本领域技术人员可以理解,视频级的动作分数与非动作分数,是经过sigmoid函数处理的,也就是输出值被压缩至0到1之间,因此,此处的分数也可以视为概率。
52.3、假阳性抑制模块。
53.由于缺乏细致的标签信息,如果直接使用基础框架预测的动作序列进行定位任
务,那么定位出的预选框会存在严重的场景依赖问题,即大部分预选框中包含强烈的动作上下文信息,但是缺乏定位任务要求的特定动作。
54.针对这个问题,本发明建模假阳性序列,并对假阳性片段进行针对性地抑制,从而大幅度地减少了假阳性的数量。具体而言,利用自训练动作分支生成的非动作序列与基础框架生成的类激活序列求哈达玛积,生成的新序列命名为假阳性序列。当非动作序列中某个片段分数较高时,表明该片段可能不含动作信息。若该片段在类激活序列中的分数也偏高时,说明该片段大概率就是由场景信息引起的假阳性片段。
55.本发明实施例中,假阳性序列表示为:;其中,为哈达玛积符号,表示假阳性序列。
56.在假阳性序列中聚合每个类别上分数最高的个片段,得到视频级的假阳性分数,在类别维度上使用softmax函数生成假阳性概率,之后,结合设定的均匀标签计算出假阳性抑制损失,具体来说,使用类别均匀标签最大化假阳性概率的熵得到假阳性抑制损失,表示为:;其中,softmax函数为归一化指数函数,表示第i个视频的第c个动作类别的假阳性概率值,表示均匀标签中对应的第c个动作类别的标签值,n表示视频数目,c表示动作类别数目,表示假阳性抑制损失。
57.4、前景增强分支。
58.为了提升模型对于前景的识别能力,减少假阳性抑制分支对前景的错误抑制,本发明设计了前景增强分支。该前景增强分支利用嵌入特征e并使用注意力机制生成片段级前景权重,将前景权重作用于类激活序列,得到前景增强类激活序列,再将前景增强类激活序列与两种模态的动作序列求均值,计算获得综合类激活序列,表示为:;。
59.将综合类激活序列中每个类别分数最高的k个片段的序号记为index,根据序号index,找出前景增强类激活序列的每个类别中对应的片段进行聚合得到分数,并在类别维度上使用softmax函数,生成视频级类别概率,表示为:;其中,softmax函数为归一化指数函数,表示基于前景增强类激活序列聚
合得到的第i个视频上第c个动作类别的分数,表示基于前景增强类激活序列得到的第i个视频的第c个动作类别的概率值。
60.之后,结合给定的视频级标签计算前景增强损失,表示为:;其中,表示第i个视频的视频级标签中对应的第c个动作的标签值,n表示视频数目,c表示动作类别数目,表示前景增强损失。
61.5、总损失函数。
62.最后,将上述的四种损失结合,得到总损失函数l,如下式:;其中,为超参数;示例性的,可设置。
63.之后,可结合上述总损失函数优化模型中的参数,考虑到此部分可通过常规技术实现,故不做赘述。
64.本发明实施例中,k、与均为设定的正整数,示例性的:以thumos14数据集为例,将所有视频都采样到750个片段,此时设定:k =750//8,,,其中,符号//表示整除;同理,如果将所有视频采样到500个片段,那么需要相应调整,也即将上面的750都换成500;当然,此处仅为举例说明,在实际应用中,用户可以根据实际情况或者经验设定具体数值。
65.三、模型测试。
66.本发明实施例中,在训练结束后,可以移除假阳性抑制模块,由基础框架进行特征提取、一维卷积处理与分类,获得类激活序列a,由自训练动作分支利用基础框架提取的特征进行处理,获得rgb动作序列与光流动作序列,由前景增强分支利用基础框架一维卷积处理获得的嵌入特征生成片段级前景权重,并作用于所述类激活序列a,获得前景增强类激活序列,以及结合前景增强类激活序列与自训练动作分支获得的rgb动作序列与光流动作序列,获得综合类激活序列;之后,利用前景增强类激活进行动作类别预测,以及利用综合类激活序列进行动作定位预测。
67.为了便于理解本发明上述方案,下面提供一个具体的示例流程。
68.步骤s1、准备用于训练的视频数据集和用于测试的视频数据集。对于训练的视频数据集,需要对每个视频进行视频级的动作类别标注,即标注视频中存在何种动作。之后将训练视频数据集和测试数据集,每16帧聚合为一个片段,将下采样后的训练视频数据输入经过kinetics400数据集预训练的i3d模型,抽取视频数据的rgb特征和光流特征。
69.步骤s2、基于pytorch(一个开源的python机器学习库)深度学习框架,使用卷积网络构建基础框架,自训练动作分支,假阳性抑制模块以及前景增强分支,形成弱监督视频时序动作检测模型。
70.步骤s3、对于基础框架,输入视频数据的rgb特征和光流特征,输出的类激活序列中每个类别分数最高的k个片段进行聚合,得到视频级的分类分数,并与给定的视频级标签
使用交叉熵函数计算基础损失。
71.步骤s4、对于自训练动作分支将其生成的光流动作序列和rgb动作序列,使用均方差损失函数计算一致性损失,并把两种动作序列融合,生成综合动作序列和非动作序列,分别聚合分数较高的动作片段和非动作片段生成视频级的动作分数和视频级的非动作分数,使用二分类交叉熵计算动作损失,随后将一致性损失和动作损失相加得到自训练动作损失。
72.步骤s5、对于假阳性抑制模块,首先利用步骤s4中生成的非动作序列和步骤s3输出的类激活序列构建假阳性序列,随后聚合假阳性序列中每个类别的高分片段,生成视频级假阳性分数。使用类别均匀标签和交叉熵损失函数计算假阳性抑制损失。
73.步骤s6、对于前景增强分支,将基础分支输出的类激活序列与注意力分数加权,生成前景增强类激活序列,随后使用步骤3相同的聚合方式,最后计算前景增强损失。
74.步骤s7、综合上述步骤s3~步骤s6计算的损失,得到最终的优化目标(总损失函数),通过反向传播算法以及梯度下降策略,使得总损失函数最小化,更新模型的参数,最后保存训练好的模型参数。
75.步骤s8、将步骤s1中得到的测试数据集的rgb特征和光流特征输入训练好的模型中,进行动作类别预测与动作定位预测,结合两类预测结果进行性能评估。
76.(1)动作类别预测。
77.将前景增强分支输出的前景增强类激活序列生成视频级的动作分类概率,使用阈值法产生动作类别预测。使用阈值法产生动作类别预测结果时,可以根据实际情况设置一个阈值(例如,0.1~0.25),超过阈值的类别标记为预测的类别。
78.(2)动作定位预测
79.将前景增强类激活序列,rgb动作分数和光流动作分数相加生成综合类激活序列。根据动作类别预测结果,在综合类激活序列中取出对应类别的序列,设置多个阈值(例如:0.1~0.9,以0.1为间隔),依次使用各个阈值在序列中筛选,高于阈值的连续帧被认为是一个预测框,并计算该预测框的置信度。筛选完成后,得到大量的预测框,使用非极大值抑制的方法对预测框再次进行筛选,去除部分重合度过高的预测框,最后剩下的预测框即为动作定位预测结果。
80.(3)性能评估。
81.最后,根据动作类别预测结果与动作定位预测结果来评估动弱监督视频时序动作检测模型的检测性能。
82.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
83.实施例二本发明还提供一种弱监督视频时序动作检测系统,其主要用于实现前述实施例提供的方法,如图4所示,该系统主要包括:模型构建单元,用于构建弱监督视频时序动作检测模型,所述弱监督视频时序动
作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;训练单元,用于将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征x后,编码为嵌入特征e,再经过分类获得类激活序列a,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征x获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列a与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征e使用注意力机制生成片段级前景权重,并作用于所述类激活序列a,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;检测单元,用于将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。
84.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
85.实施例三本发明还提供一种处理设备,如图5所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
86.进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
87.本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;输出设备可以为显示终端;存储器可以为随机存取存储器(random access memory,ram),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
88.实施例四本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
89.本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是u盘、移动硬盘、只读存储器(read-only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
90.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
技术特征:
1.一种弱监督视频时序动作检测方法,其特征在于,包括:构建弱监督视频时序动作检测模型,所述弱监督视频时序动作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征x后,编码为嵌入特征e,再经过分类获得类激活序列a,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征x获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列a与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征e使用注意力机制生成片段级前景权重,并作用于所述类激活序列a,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。2.根据权利要求1所述的一种弱监督视频时序动作检测方法,其特征在于,所述通过基础框架提取获得特征x后,编码为嵌入特征e,再经过分类获得类激活序列a包括:所述基础框架包括:预训练的特征提取网络、一维卷积层、分类器;其中,所述预训练的特征提取网络包括:rgb特征提取网络与光流特征提取网络,rgb是指红绿蓝三个通道;通过rgb特征提取网络从训练视频数据中提取出rgb特征,通过光流特征提取网络从对应的光流数据中提取出光流特征,所述rgb特征与光流特征在通道维度上拼接得到特征x;所述特征x通过一维卷积层处理,获得嵌入特征e,所述嵌入特征e经分类器分类,获得类激活序列a。3.根据权利要求2所述的一种弱监督视频时序动作检测方法,其特征在于,所述结合给定的视频级标签计算基础损失包括:在类激活序列a中聚合每个类别上分数最高的k个片段,得到视频级的分类分数,在类别维度上使用softmax函数生成类别概率,其中,每一片段包含设定数目的帧图像,k为设定的正整数;之后,结合给定的视频级标签计算基础损失,表示为:;;其中,softmax函数为归一化指数函数,表示第i个视频的分类分数,表示第i个视频的类别概率,表示第i个视频的第c个动作类别的概率值,表示第i个视频的视频级标签中对应的第c个动作的标签值,n表示视频数目,c表示动作类别数目,表示基础损失。4.根据权利要求1所述的一种弱监督视频时序动作检测方法,其特征在于,所述自训练动作分支利用所述特征x获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列包括:
所述特征x由rgb特征与光流特征在通道维度上拼接得到,rgb是指红绿蓝三个通道;通过对rgb特征与光流特征分别依次进行卷积、relu激活函数和sigmoid激活函数处理,获得对应的rgb动作序列与光流动作序列,表示为:;;其中,表示rgb特征,表示光流特征,与均表示依次进行卷积、relu激活函数和sigmoid激活函数的模块,relu表示修正线性单元,sigmoid为s型生长曲线,表示rgb动作序列,表示光流动作序列;将rgb动作序列与光流动作序列融合为综合动作序列,并利用综合动作序列得到非动作序列,表示为:;;其中,s表示综合动作序列,为控制两种模态的动作序列融合比例的超参数,表示非动作序列。5.根据权利要求1或4所述的一种弱监督视频时序动作检测方法,其特征在于,所述基于两种模态的动作序列以及综合动作序列与非动作序列计算自训练动作损失包括:将每一种模态的动作序列作为另一种模态的动作序列的软标签,并计算出一致性损失,表示为:;其中,表示一致性损失,表示相似度量函数;表示rgb动作序列,表示光流动作序列,二者即为两种模态的动作序列,rgb是指红绿蓝三个通道;在综合动作序列中找到分数最高的个动作片段,将它们动作分数求和取平均,得到视频级的动作分数,通过非动作序列获得剩余片段的非动作分数,并求和取平均得到视频级的非动作分数,为设定的正整数,然后计算动作损失:;其中,表示动作损失,表示第i个视频的动作分数,表示第i个视频的非动作分数,n表示视频数目;结合动作损失与一致性损失计算自训练动作损失,表示为:;其中,表示自训练动作损失。6.根据权利要求1所述的一种弱监督视频时序动作检测方法,其特征在于,所述假阳性抑制模块利用所述类激活序列a与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失包括:利用所述类激活序列a与非动作序列,获得假阳性序列,表示为:
;其中,为哈达玛积符号,表示假阳性序列;在假阳性序列中聚合每个类别上分数最高的个片段,得到视频级的假阳性分数,在类别维度上使用softmax函数生成假阳性概率,其中,每一片段包含设定数目的帧图像,为设定的正整数;之后,结合设定的均匀标签计算出假阳性抑制损失,表示为:;其中,softmax函数为归一化指数函数,表示第i个视频的第c个动作类别的假阳性概率值,表示均匀标签中对应的第c个动作类别的标签值,n表示视频数目,c表示动作类别数目,表示假阳性抑制损失。7.根据权利要求1所述的一种弱监督视频时序动作检测方法,其特征在于,所述获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失包括:将前景增强类激活序列与两种模态的动作序列求均值,计算获得综合类激活序列;将综合类激活序列中每个类别分数最高的k个片段的序号记为index,根据序号index,找出前景增强类激活序列的每个类别中对应的片段进行聚合得到分数,并在类别维度上使用softmax函数,生成视频级类别概率,表示为:;其中,softmax函数为归一化指数函数,表示基于前景增强类激活序列聚合得到的第i个视频上第c个动作类别的分数,表示基于前景增强类激活序列得到的第i个视频的第c个动作类别的概率值;之后,结合给定的视频级标签计算前景增强损失,表示为:;其中,表示第i个视频的视频级标签中对应的第c个动作的标签值,n表示视频数目,c表示动作类别数目,表示前景增强损失。8.一种弱监督视频时序动作检测系统,其特征在于,包括:模型构建单元,用于构建弱监督视频时序动作检测模型,所述弱监督视频时序动作检测模型包括:基础框架、自训练动作分支、假阳性抑制模块与前景增强分支;训练单元,用于将训练视频数据与对应的光流数据输入至弱监督视频时序动作检测模型,通过基础框架提取获得特征x后,编码为嵌入特征e,再经过分类获得类激活序列a,并结合给定的视频级标签计算基础损失;所述自训练动作分支利用所述特征x获得两种模态的动作序列,并融合后获得综合动作序列与非动作序列,基于两种模态的动作序列以及综合
动作序列与非动作序列计算自训练动作损失;所述假阳性抑制模块利用所述类激活序列a与非动作序列,获得假阳性序列,并结合设定的均匀标签计算出假阳性抑制损失;所述前景增强分支基于所述嵌入特征e使用注意力机制生成片段级前景权重,并作用于所述类激活序列a,获得前景增强类激活序列,再结合所述两种模态的动作序列,获得综合类激活序列,并结合给定的视频级标签计算出前景增强损失;结合所有损失训练所述弱监督视频时序动作检测模型;检测单元,用于将待检测视频数据与对应光流数据输入至训练后的弱监督视频时序动作检测模型,利用前景增强分支获得的前景增强类激活序列以及综合类激活序列实现时序动作检测。9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
技术总结
本发明公开了一种弱监督视频时序动作检测方法、系统、设备及存储介质,它们是一一对应的方案,方案中:设计了一种脱离分类任务的自训练分支,该分支可以不受动作上下文信息的干扰生成综合动作序列;并且对于预测结果中的假阳性片段做了针对性的设计,通过对假阳性片段的概率进行建模,并对高概率片段进行抑制,从而大幅度减少了假阳性片段的数量;此外,还设计了前景增强分支,增强模型对前景片段的识别能力。总的来说,本发明针对假阳性片段进行了有效抑制,提升了模型的检测性能。提升了模型的检测性能。提升了模型的检测性能。
技术研发人员:王子磊 李志林
受保护的技术使用者:中国科学技术大学
技术研发日:2023.07.20
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
