一种基于改进的Slowfast的行为识别方法与系统
未命名
10-09
阅读:174
评论:0

一种基于改进的slowfast的行为识别方法与系统
技术领域
1.本发明属于计算机视觉领域,具体的,涉及一种基于改进的slowfast的视频行为识别方法和系统。
背景技术:
2.行为识别是计算机视觉和模式识别课题的一个重要研究领域,它涉及从视觉数据(如视频或图像序列)中自动识别和分类人类的行动或行为。行为识别的目标是使机器或计算机系统能够理解和解释人类行为,从而在安防行业、交通监控、医疗信息等领域产生各种作用。行动可以表现出不同程度的空间和时间动态,而且它们会受到诸如姿势变化、环境条件和类间相似性等因素的影响。因此,开发有效的行为识别技术和算法是非常重要的。
3.传统上,行为识别算法需要手工标记的特征和机器学习的相关算法,所以,就需要对特征合理的选取,以获取区分不同行为的相关信息。选取的机器学习方法同样需要精心设计。然而,这些方法的性能要忍受视频中人体行为的复杂性和多变性的影响。
4.随着机器学习进一步发展,深度学习开始出现。深度学习算法有能力从原始视觉数据中自动学习不同尺度的空间特征,使其能够捕捉行为中具有时间依赖性的复杂模式。近年来,基于注意力机制的架构在行为识别的任务中获得了显著的成功,这些架构可以有效的在视频或连续的数据中捕获时空信息。
5.时空性、运动模式是视频动作识别任务的重要组成部分。目前在这一领域内的工作采用的主流方法主要是基于2d和3d框架的卷积神经网络模型来进行的。基于双流法的two-stream网络从光流中提取运动信息,能够更好的处理时空信息的分析与处理,也是较早的提出分离通道结构的算法。但是特征的提取速度却受限于光流。传统的slowfast模型改进于two-stream网络,它以不同的提取步幅提取视频帧,达到了对时间和空间信息的分离提取。然而,不同种类的运动节奏各有快慢,传统的slowfast模型无法自适应的感知运动速度,对节奏较快的动作识别精度较低。
技术实现要素:
6.有鉴于此,本发明的目的是提供一种基于改进的slowfast的视频行为识别方法和系统。
7.本发明的目的是通过以下技术方案实现的:
8.一种基于改进的slowfast的行为识别方法,包括:
9.获取待识别的视频;
10.将所述待识别的视频输入训练好的行为识别模型中,生成行为识别的预测结果,
11.其中,所述行为识别模型包含slow支路、fast支路以及bfe模块,slow支路和fast支路的每个阶段均通过bfe模块进行信息融合,
12.slow支路以第一时间步幅对输入的视频进行采样;
13.fast支路以第二帧时间步幅对输入的视频进行采样,其中,第二帧采样步幅小于
第一帧采样步幅;
14.bfe模块用于聚合slow支路和fast支路的空间信息从而确定时间注意力权重,从而加强fast支路的特征信息,并将fast支路的信息向slow支路进行融合。
15.进一步地,bfe模块执行如下操作:
16.获取输入序列x={x1,x2,...,xn}和y={y1,y2,...y
t
},其中,x和y分别为fast支路和slow支路的输入,xn表示慢通道的输入序列,其大小为cs×
ts×h×
w,y
t
表示快通道的输入序列,其大小为cf×
tf×h×
w,n表示慢通道输入序列的编号,t表示快通道的输入序列的编号,cs表示慢通道当前特征的通道数量,cf表示快通道当前特征的通道数量,ts表示慢通道的采样次数,tf表示快通道的采样次数,h表示图像高度,w表示图像宽度;
17.通过对x和y分别进行全局平均池化,生成池化结果和大小为cs×1×1×
1,大小为cf×1×1×
1;
18.将池化结果和分别进行卷积并进行差运算生成两个支路的运动特征差异f,用公式表示为:
[0019][0020]
其中,conv1和conv2表示卷积操作,通过设置快通道缩放比和慢通道缩放比并经过卷积操作之后,快通道和慢通道的通道数变为相同的值,rs表示慢通道通道缩放比,rf表示快通道缩放比,rs与rf的作用是将快通道与慢通道的通道数修正为相同的值,w
θ
和w
ζ
分别表示conv1和conv2中可学习的卷积参数;
[0021]
对运动特征差异f进行卷积并采用sigmoid激活函数进行运算生成特征权重用公式表示为:
[0022][0023]
其中,conv3表示卷积操作,w
φ
表示conv3中的可学习的卷积参数;
[0024]
对特征权重和xn进行点乘操作,生成增强的特征图f,用公式表示为:
[0025][0026]
进一步地,该方法还包括将增强的特征图f作为横向链接的输入以融合到slow支路中,并利用融合之后的特征信息进行行为识别预测。
[0027]
进一步地,所述融合的方式为采用3d卷积操作以进行维度匹配。
[0028]
进一步地,所述方法还包括:
[0029]
利用目标检测算法对待识别的视频中的目标进行检测,生成检测框信息;
[0030]
将检测框信息和待识别的视频输入行为识别模型中以进行行为识别。
[0031]
进一步地,所述目标检测算法为faster-rcnn。
[0032]
进一步地,对于行为识别模型的训练包括:
[0033]
获取训练视频、验证视频和测试视频以及对应的行为类别标签数据,所述训练视频、验证视频和测试视频中的每一帧中均包含一个或多个精确的时空标注以用于目标检测,且所述训练视频、验证视频和测试视频中均包含了动作变化较快的视频;
[0034]
构建行为识别模型;
[0035]
利用训练视频进行模型训练,并通过验证视频和测试视频优化模型参数,从而确
定优化的行为识别模型。
[0036]
本技术还提出了一种基于改进的slowfast的行为识别系统,包括:
[0037]
视频获取模块,用于获取待识别的视频以及训练视频、验证视频和测试视频;
[0038]
模型训练模块,用于根据训练视频、验证视频和测试视频训练行为识别模型;
[0039]
行为识别模块,用于根据行为识别模型进行视频行为识别,
[0040]
其中,所述行为识别模型包含slow支路、fast支路以及bfe模块,slow支路和fast支路的每个阶段均通过bfe模块进行信息融合,
[0041]
slow支路以第一时间步幅对输入的视频进行采样;
[0042]
fast支路以第二帧时间步幅对输入的视频进行采样,其中,第二帧采样步幅小于第一帧采样步幅;
[0043]
bfe模块用于聚合slow支路和fast支路的空间信息从而确定时间注意力权重,从而加强fast支路的特征信息,并将fast支路的信息向slow支路进行融合。
[0044]
本发明的有益效果是:
[0045]
1、本发明在传统的slowfast网络结构的基础上,增加了bfe模块,该模块增强了对详细动作的注意力,有助于提取更详细的动作信息,从而提高模型性能,由于本发明基于了slowfast网络双通道的结构以及融合的特点,并没有产生冗余的结构模块,本发明在动作发生较快的情况能够有较好的识别精度;
[0046]
2、本发明采用分离的特征提取结构有利于在时间和空间之间的关系较为复杂的场景中提取特征;
[0047]
3、本发明在前期特征提取的卷积模块中均采用2d的滤波器,后期采用3d的滤波器,这种方式可以提高模型精度,减少训练的复杂性。
[0048]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0049]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
[0050]
图1是根据本技术的一个实施例所示的改进的slowfast网络架构示意图;
[0051]
图2是传统slowfast网络结构图;
[0052]
图3是根据本技术的一个实施例所示的bfe模块的结构示意图;
[0053]
图4a-4b是初步实验结果对比图;
[0054]
图5是slowfast-bfe模型与slowfast模型在相同的条件下进行测试结果对比。
具体实施方式
[0055]
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
[0056]
图2是传统slowfast网络结构图。如图2所示,传统的slowfast模型可以分为两个
支路,即slow支路和fast支路。其中,slow支路的以第一时间步幅(较大的时间步幅,即低帧速率)对输入的视频进行采样,得到该支路的输入图像帧序列。fast支路以第二帧时间步幅(较小的时间步幅,即高帧速率)对输入的视频进行采样,得到该支路的输入图像帧序列,其中,第二帧采样步幅小于第一帧采样步幅。slow支路和fast支路的每个阶段均采用了单项横向连接的方式,直接将fast支路的特征信息融合的slow支路中,从而利用融合后的信息进行预测。但是,由于slowfast模型无法自适应的感知运动速度,对节奏较快的动作识别精度较低。
[0057]
另外,由于两条路径的时间维度不同,将两条路径的不同信息进行融合的过程中,可能会忽略掉重要的细节,尤其是在视频动作较快的情况下,而注意力机制有助于聚合不同的信息。基于这样的想法,本技术构建了特征增强模块,以运动趋势获取注意力权重,从而加强快速通道的运动特征,并将快速通道的信息向慢通道进行融合。
[0058]
因此,本技术提出了一种基于改进的slowfast视频行为识别方法和系统。图1是改进的slowfast的网络架构模型。如图1所示,该改进的slowfast模型可以包括slow支路(也可称为慢通道)、fast支路(也可称为快通道)以及连接slow支路和fast支路的一个或多个特征增强模块(即behavioral feature enhancement模块,简称bfe模块)。该bfe模块可以存在于slow支路和fast支路的每个阶段。图1中快通道和慢通道之间的长方体即表示bfe模块。由于bfe模块的存在,本发明提出的改进的slowfast模型也可称为slowfast-bfe模型。
[0059]
所述bfe模块可以以运动趋势获取注意力权重,从而加强快速通道(即fast支路)的运动特性,并将快速通道的信息向慢通道(即slow支路)。如图1中箭头所示的“e”表示特征增强,“l”表示特征融合。从图1中的箭头方向可知,特征增强的方向是从慢通道向快通道,这也就是说bfe模块可以利用慢通道的信息对快通道的特征进行增强;特征融合的方向是从快通道到满通道,这也就是说bfe模块可以将快通道的特征(增强后的特征)融合到慢通道中。因此,可以知道,bfe模块可以更好的融合slow支路和fast支路的信息,从而提高后续的预测的准确性。
[0060]
基于改进的slowfast视频行为识别方法可以包括:
[0061]
获取待识别的视频;
[0062]
将所述待识别的视频输入训练好的行为识别模型(即slowfast-bfe模型)中,生成行为识别的预测结果,
[0063]
其中,所述行为识别模型包含slow支路、fast支路以及bfe模块,slow支路和fast支路的每个阶段均通过bfe模块进行信息融合,
[0064]
slow支路以第一时间步幅对输入的视频进行采样;
[0065]
fast支路以第二帧时间步幅对输入的视频进行采样,其中,第二帧采样步幅小于第一帧采样步幅;
[0066]
bfe模块用于聚合slow支路和fast支路的空间信息从而确定时间注意力权重,从而加强fast支路的特征信息,并将fast支路的信息向slow支路进行融合。
[0067]
图3是根据本技术的一个实施例所示的bfe模块的结构示意图。而且在图3中也展示了获取注意力权重的流程。
[0068]
该bfe模块将rgb帧视频序列帧作为输入,慢通道以较慢的提取步幅提取空间特征信息;快通道以较快的提取步幅提取时间特征信息。这些信息会通过bfe模块进行多次进行
信息融合。bfe模块首先聚合空间信息从而获得时间注意力权重,用于增强快通道的特征信息。具体地,如图3所示,bfe模块可以执行如下操作:
[0069]
获取输入序列x={x1,x2,...,xn}和y={y1,y2,...y
t
},其中,x和y分别为fast支路和slow支路的输入,xn表示慢通道的输入序列,其大小为cs×
ts×h×
w,y
t
表示快通道的输入序列,其大小为cf×
tf×h×
w,n表示慢通道输入序列的编号,t表示快通道的输入序列的编号,cs表示慢通道当前特征的通道数量,cf表示快通道当前特征的通道数量,ts表示慢通道的采样次数,tf表示快通道的采样次数,h表示图像高度,w表示图像宽度;
[0070]
通过对x和y分别进行全局平均池化,生成池化结果和大小为cs×1×1×
1,大小为cf×1×1×
1;
[0071]
接着,将池化结果和分别进行卷积并进行差运算生成两个支路的运动特征差异f,用公式表示为:
[0072][0073]
其中,conv1和conv2表示卷积操作,通过设置快通道缩放比和慢通道缩放比并经过卷积操作之后,快通道和慢通道的通道数变为相同的值。如图3所示,rs表示慢通道通道缩放比,rf表示快通道缩放比,rs与rf的作用是将快通道与慢通道的通道数修正为相同的值即w
θ
和w
ζ
分别表示conv1和conv2中可学习的卷积参数。
[0074]
接着,对运动特征差异f进行卷积并采用sigmoid激活函数进行运算生成特征权重用公式表示为:
[0075][0076]
其中,conv3表示卷积操作,w
φ
表示conv3中的可学习的卷积参数。通过该步的操作之后,通道数重新变为cs。
[0077]
接着,对特征权重和xn进行点乘操作(即图3中圆形符号中的“·”),生成增强的特征图f,用公式表示为:
[0078][0079]
在确定了增强的特征图f之后,还可以将增强的特征图f作为横向链接的输入以融合到slow支路中,并利用融合之后的特征信息进行行为识别预测。信息融合的方式可以是任意的。
[0080]
由于slow支路和fast支路输入的视频帧数目不容,产生的特征维度也是不同的,因此,在进行两支路连接时,需要对fast支路的特征图进行尺度变换以变换到与slow支路的特征维度相同。在本技术的一个实施例中,所述融合的方式为采用3d卷积操作以进行维度匹配,其中,卷积步幅为η,输出通道数为2γ。
[0081]
在进行特征融合之后,可以将融合的特征输入到全连接层进一步提取特征,并将左后的特征输入回归层进行回归,从而得到最终的预测值。根据该预测值即可得到对于待识别视频的行为识别预测结果。
[0082]
在一些实施例中,所述方法还包括:利用目标检测算法对待识别的视频中的目标进行检测,生成检测框信息;将检测框信息和待识别的视频输入行为识别模型中以进行行
为识别。所述目标检测算法可以是任意的目标检测算法,如rcnn、faster-rcnn等。
[0083]
对于行为识别模型的训练可以包括:
[0084]
获取训练视频、验证视频和测试视频以及对应的行为类别标签数据,所述训练视频、验证视频和测试视频中的每一帧中均包含一个或多个精确的时空标注以用于目标检测,且所述训练视频、验证视频和测试视频中均包含了动作变化较快的视频;
[0085]
构建行为识别模型;
[0086]
利用训练视频进行模型训练,并通过验证视频和测试视频优化模型参数,从而确定优化的行为识别模型。
[0087]
本技术还提出了一种基于改进的slowfast的行为识别系统,包括:
[0088]
视频获取模块,用于获取待识别的视频以及训练视频、验证视频和测试视频;
[0089]
模型训练模块,用于根据训练视频、验证视频和测试视频训练行为识别模型;
[0090]
行为识别模块,用于根据行为识别模型进行视频行为识别,
[0091]
其中,所述行为识别模型包含slow支路、fast支路以及bfe模块,slow支路和fast支路的每个阶段均通过bfe模块进行信息融合,
[0092]
slow支路以第一时间步幅对输入的视频进行采样;
[0093]
fast支路以第二帧时间步幅对输入的视频进行采样,其中,第二帧采样步幅小于第一帧采样步幅;
[0094]
bfe模块用于聚合slow支路和fast支路的空间信息从而确定时间注意力权重,从而加强fast支路的特征信息,并将fast支路的信息向slow支路进行融合。
[0095]
本发明的特征提取结构采用了分离特征提取的方式,以连续的视频帧作为输入,分别以不同的帧采样步幅提取时间和空间的特征信息。由于视频与2d图像的主要区别在于视频具有时间特征,也可以理解为上下文之间的联系。因此分离的特征提取结构有利于在时间和空间之间的关系较为复杂的场景中提取特征。
[0096]
在一些实施例中,快速通道相对于慢速通道的通道比率为γ,其一般取值为1/8。在本技术的一个实施例中,两个通道的主干网络使用resnet-50网络。在前期特征提取的卷积模块中均采用2d的滤波器,后期采用3d的滤波器,这种方式可以提高模型精度,减少训练的复杂性。另外,由于本发明基于了slowfast网络双通道的结构以及融合的特点,并没有产生冗余的结构模块。
[0097]
图4a-4b是初步实验结果对比图,其中,图4a是没有添加bfe模块在resnet-50网络网络的初步实验结果,图4b是添加了bfe模块在resnet-50网络网络的初步实验结果。从图4a和4b中的对比可以看出,增加了bfe模块之后,提取的特征显著增强了。
[0098]
现在以ava数据集进行行为识别实验。ava数据集中的视频均为15分钟的电影片段其中包括235个训练视频、65个验证视频和131个测试视频,并注释了80个种类的动作标签。其中每一帧上包含一个或多个精确的时空标注。通过boundingbox定位一个人和它的行为。并且,为了证明slowfast-bfe模型的识别效率,通过人的视觉感官选取了动作变化较快的60个视频用于训练,30个视频用于验证,并且在20个实例中测试了我们的模型,评估指标采用framelevelaverageprecision(frame-ap)。
[0099]
将快通道与慢通道之间的通道数之比设置为γ,将同一时间内输入帧数之比设置为η。在t帧内抽取视频帧的步幅设置为s从整条视频中抽取一个随机片段(t
×
s),快通道和
慢通道之间的输入分别为ηt帧和t帧。选择3dresnet作为主干,并从视频或其水平翻转中随机裁剪224
×
224个像素,其中较短的一侧随机采样[256,320]个像素。检测结构采用detectron2的检测模型,并选用该框架内主干为resnet-101的faster r-cnn。从kinetics-400、kinetics-600分类模型中初始化网络权重,特征融合的部分采用时间步幅卷积的方式以2γ
×
通融合通道的大小设置为7
×
7并以η的步幅从快通道向慢通道进行结合。在该实施了中使用逐步学习率的方式,在验证误差饱和的条件下会下调学习率十倍。在该实施了中使用10-7
的权重衰减,最后采取softmax分数的平均值用于预测,并在特殊处理后的子数据集进行了68次的迭代。
[0100]
表1展示了本发明的方法(即slowfast-bfe)与其他方法的性能对比结果。
[0101]
表1各模型性能对比
[0102][0103]
从表1可以看出,slowfast-bfe模型在某些输入样本和主干的准确性和推理速度方面优于slowfast模型。首先在kinetics-400预训练模型上展示推理成本,我们的slowfast-bfe模型在准确率上优于参数相同的slowfast模型,从14.2map提高到了14.9map。与现有的模型中已经可以观察到一些轻微的改进,其中i3d为+3.7map,acrn为+1.6map。本发明提出的slowfast-bfe模型工作在更大的kinetics-600上进行了预训练时达到了更好的效果,它实现了15.6的单裁剪测试集精度,并通过使用以iou》0.9与地面真值框重叠的预测建议,除了地面真值框之外,我们还实现了15.8map的单裁剪验证集精度。最后挑选了一组采样帧率相同的slowfast-bfe模型与slowfast模型在相同的条件下进行测试,选取一组测试结果如图5所示,图5中左图表示slowfast-bfe模型的预测结果,右图表示slowfast模型的预测结果,从图5可以看出在评估相同的动作时slowfast-bfe模型获得了明显的改进(识别概率提高)。另外,从表1中可以看出,在inputsampling为16
×
8的条件下,可以观察到slowfast-bfe的准确率增加到了16.5map,与相同参数的slowfast这一数据提高了0.4map。在slowfast-bfe,32
×
2的模型中,模型的准确率达到了19.1map,相对于初始模型有了3.4map的提高。与相同参数的slowfast模型相比提高了1.7map。最后使用resnset-100作为backbone进行测试,将准确率提高到了20.1。相比于相同参数的slowfast模型则上升了2.0map。
[0104]
本技术还提供了在ava数据集上的消融实验,从而探究模型的各因素对精度的影响。
[0105]
快通道因较低的通道容量而十分的轻量,因此,在这里探究通道容量大小对快通
道捕捉运动能力的影响。由于加入了特征融合的变量,快速路径的通道容量能够影响它捕捉特征的能力。表2是快速通道与慢速通道的信道容量比β取不同值是的结果对比。结果如表2所示,这里的采样步幅和采用帧数t
×
τ以32
×
2的slowfast-bfe模型为例。和slowfast类似的是,表现最好的γ值为1/8,其次是1/6。我们在实验中也将slow-only模型加入了比较,得到了同样的结果。该模型中即使是效果最不理想的值,即γ=1/32的时候,相比较于slow-only也带来了1.1的提高。
[0106]
表2不同信道容量比结果对比
[0107][0108]
在本技术中还探究快通道与慢通道传输帧的速率比η,对slowfast-bfe的影响,其结果如表3所示。我们仍然以采样步幅和采用帧数t
×
τ为32
×
2的slowfast-bfe模型为例。表3展示了我们的实验结果,表现最好的是η的值设置为8,它的top5精度达到了96.3。通过实验结果显示,两通道之间传输帧的速率比如果过小,对行为发生变化速度较快的视频的识别能力减弱,如这个值取2时,top5精度仅达到了92.1;而这个值过高时的精度仍然会降低,如η的值为16时,top5精度仅达到了92.3。可知行为变化太快,会影响特征增强的效果。
[0109]
表3不同速率比结果对比
[0110][0111]
通过以上实验可知,本发明通过改进slowfast模型,即加入了bfe模块,可以更好的提取运动特征,从而使得预测的准确率得到提高。
[0112]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
技术特征:
1.一种基于改进的slowfast的行为识别方法,其特征在于,包括:获取待识别的视频;将所述待识别的视频输入训练好的行为识别模型中,生成行为识别的预测结果,其中,所述行为识别模型包含slow支路、fast支路以及bfe模块,slow支路和fast支路的每个阶段均通过bfe模块进行信息融合,slow支路以第一时间步幅对输入的视频进行采样;fast支路以第二帧时间步幅对输入的视频进行采样,其中,第二帧采样步幅小于第一帧采样步幅;bfe模块用于聚合slow支路和fast支路的空间信息从而确定时间注意力权重,从而加强fast支路的特征信息,并将fast支路的信息向slow支路进行融合。2.根据权利要求1所述的基于改进的slowfast的行为识别方法,其特征在于,bfe模块执行如下操作:获取输入序列x={x1,x2,...,x
n
}和y={y1,y2,...y
t
},其中,x和y分别为fast支路和slow支路的输入,x
n
表示慢通道的输入序列,其大小为c
s
×
t
s
×
h
×
w,y
t
表示快通道的输入序列,其大小为c
f
×
t
f
×
h
×
w,n表示慢通道输入序列的编号,t表示快通道的输入序列的编号,c
s
表示慢通道当前特征的通道数量,c
f
表示快通道当前特征的通道数量,t
s
表示慢通道的采样次数,t
f
表示快通道的采样次数,h表示图像高度,w表示图像宽度;通过对x和y分别进行全局平均池化,生成池化结果和和大小为c
s
×1×1×
1,大小为c
f
×1×1×
1;将池化结果和分别进行卷积并进行差运算生成两个支路的运动特征差异f,用公式表示为:其中,conv1和conv2表示卷积操作,通过设置快通道缩放比和慢通道缩放比并经过卷积操作之后,快通道和慢通道的通道数变为相同的值,r
s
表示慢通道通道缩放比,r
f
表示快通道缩放比,r
s
与r
f
的作用是将快通道与慢通道的通道数修正为相同的值,w
θ
和w
ζ
分别表示conv1和conv2中可学习的卷积参数;对运动特征差异f进行卷积并采用sigmoid激活函数进行运算生成特征权重用公式表示为:其中,conv3表示卷积操作,w
φ
表示conv3中的可学习的卷积参数;对特征权重和x
n
进行点乘操作,生成增强的特征图f,用公式表示为:3.根据权利要求2所述的基于改进的slowfast的行为识别方法,其特征在于,还包括将增强的特征图f作为横向链接的输入以融合到slow支路中,并利用融合之后的特征信息进行行为识别预测。4.根据权利要求1所述的基于改进的slowfast的行为识别方法,其特征在于,所述融合的方式为采用3d卷积操作以进行维度匹配。
5.根据权利要求1所述的基于改进的slowfast的行为识别方法,其特征在于,所述方法还包括:利用目标检测算法对待识别的视频中的目标进行检测,生成检测框信息;将检测框信息和待识别的视频输入行为识别模型中以进行行为识别。6.根据权利要求5所述的基于改进的slowfast的行为识别方法,其特征在于,所述目标检测算法为faster-r cnn。7.根据权利要求6所述的基于改进的slowfast的行为识别方法,其特征在于,对于行为识别模型的训练包括:获取训练视频、验证视频和测试视频以及对应的行为类别标签数据,所述训练视频、验证视频和测试视频中的每一帧中均包含一个或多个精确的时空标注以用于目标检测,且所述训练视频、验证视频和测试视频中均包含了动作变化较快的视频;构建行为识别模型;利用训练视频进行模型训练,并通过验证视频和测试视频优化模型参数,从而确定优化的行为识别模型。8.一种基于改进的slowfast的行为识别系统,其特征在于,包括:视频获取模块,用于获取待识别的视频以及训练视频、验证视频和测试视频;模型训练模块,用于根据训练视频、验证视频和测试视频训练行为识别模型;行为识别模块,用于根据行为识别模型进行视频行为识别,其中,所述行为识别模型包含slow支路、fast支路以及bfe模块,slow支路和fast支路的每个阶段均通过bfe模块进行信息融合,slow支路以第一时间步幅对输入的视频进行采样;fast支路以第二帧时间步幅对输入的视频进行采样,其中,第二帧采样步幅小于第一帧采样步幅;bfe模块用于聚合slow支路和fast支路的空间信息从而确定时间注意力权重,从而加强fast支路的特征信息,并将fast支路的信息向slow支路进行融合。9.根据权利要求8所述的基于改进的slowfast的行为识别系统,其特征在于,bfe模块执行如下操作:获取输入序列x={x1,x2,...,x
n
}和y={y1,y2,...y
t
},其中,x和y分别为fast支路和slow支路的输入,x
n
表示慢通道的输入序列,其大小为c
s
×
t
s
×
h
×
w,y
t
表示快通道的输入序列,其大小为c
f
×
t
f
×
h
×
w,n表示慢通道输入序列的编号,t表示快通道的输入序列的编号,c
s
表示慢通道当前特征的通道数量,c
f
表示快通道当前特征的通道数量,t
s
表示慢通道的采样次数,t
f
表示快通道的采样次数,h表示图像高度,w表示图像宽度;通过对x和y分别进行全局平均池化,生成池化结果和和大小为c
s
×1×1×
1,大小为c
f
×1×1×
1;将池化结果和分别进行卷积并进行差运算生成两个支路的运动特征差异f,用公式表示为:其中,conv1和conv2表示卷积操作,通过设置快通道缩放比和慢通道缩放比并经过卷
积操作之后,快通道和慢通道的通道数变为相同的值,r
s
表示慢通道通道缩放比,r
f
表示快通道缩放比,r
s
与r
f
的作用是将快通道与慢通道的通道数修正为相同的值,w
θ
和w
ζ
分别表示conv1和conv2中可学习的卷积参数;对运动特征差异f进行卷积并采用sigmoid激活函数进行运算生成特征权重用公式表示为:其中,conv3表示卷积操作,w
φ
表示conv3中的可学习的卷积参数;对特征权重和x
n
进行点乘操作,生成增强的特征图f,用公式表示为:10.根据权利要求9所述的基于改进的slowfast的行为识别系统,其特征在于,还包括将增强的特征图f作为横向链接的输入以融合到slow支路中,并利用融合之后的特征信息进行行为识别预测。
技术总结
本发明公开了一种基于改进的Slowfast的行为识别方法和系统,该方法包括:获取待识别的视频;将所述待识别的视频输入训练好的行为识别模型中,生成行为识别的预测结果,其中,所述行为识别模型包含slow支路、fast支路以及BFE模块,Slow支路和fast支路的每个阶段均通过BFE模块进行信息融合,slow支路以第一时间步幅对输入的视频进行采样;fast支路以第二帧时间步幅对输入的视频进行采样,其中,第二帧采样步幅小于第一帧采样步幅;BFE模块用于聚合slow支路和fast支路的空间信息从而确定时间注意力权重,从而加强fast支路的特征信息,并将fast支路的信息向slow支路进行融合。本发明可以提高在快速运动情况下的识别精度。明可以提高在快速运动情况下的识别精度。明可以提高在快速运动情况下的识别精度。
技术研发人员:吴雪刚 祝嘉卫 吴照国 何颖 杨柳
受保护的技术使用者:重庆理工大学
技术研发日:2023.07.13
技术公布日:2023/10/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/