一种基于视听模态融合的视频事件识别方法

未命名 09-23 阅读:101 评论:0


1.本发明属于视频时间识别技术领域,具体涉及一种基于视听模态融合的视频事件识别方法。


背景技术:

2.在当今信息爆炸增长的时代,各种事件的数据经常以多种模态的形式呈现,例如新闻事件可以以文字、图片、视频等进行描述,所有的事件都对应有相应的类别,如何从事件中去挖掘最为核心的信息并加以组合来判断该事件所属的性质或类别,是事件识别领域一直关注的问题,其中视频事件识别目前是机器学习领域的一个非常大的挑战,它的应用也是非常广泛,具体的研究已经涵盖了舆情监控、行为分析、汽车驾驶以及社会热点追踪等,近些年来有部分研究者针对视频中的图像类型的数据进行整理后来进行事件分类模型的训练并取得了很好的效果,但是很多的处理手段都是基于单一的模态信息,针对于多模态数据的分类目前仍然还有许多困难需要克服,例如庞大的存储资源、复杂的计算量、高性能的实验环境要求等等。
3.但是对于视频来说单单从基于视觉的角度考虑事件分类有很多不足,比如在视觉信息匮乏的情况下分类性能会受到很大的影响。视频的数据通常都是由视觉和音频两种模态定位数据构成,因此考虑视觉和听觉两个模态的数据进行特征提取可以做到信息互补,得益于从两种不同的角度来描述整体的视频信息,往大的方面说,从两个或者多个来源收集同一种事物的不同模态数据可以更加完全地获得该事物的更多信息,这也是当前多模态数据融合技术成为非常火热的研究状态的原因之一。
4.目前人们对视频事件识别研究的注意力已经放在了多种模态信息的提取与利用,但是在视听模态数据的学习过程中,由于数据的格式、特征、路径等都各不相同;若要将两种模态的数据结合起来共同训练来达到最理想的训练效果,则需要考虑两个模态数据训练模型所花费的时间、训练批次、训练次数、学习率等之间的差异,因此若将两种类型信息在一起训练,则会造成相同的时间段内不同模态数据的训练效果不尽人意,其次,并不是所有提取到的信息都是有用的,如何聚焦对相关任务最为有效的信息区域也是非常有挑战性的。
5.综上所述,目前的视频事件识别的试听模态融合技术还面临巨大的挑战,需要一种能合理的对视听模态信息进行融合处理来进行视频事件识别的方法。


技术实现要素:

6.针对现有技术存在的不足,本发明提出了一种基于视听模态融合的视频事件识别方法,该方法包括:
7.s 1:获取待识别的视频并对其进行划分,得到视觉信息和音频信息;
8.s2:对视觉信息和音频信息分别进行特征提取,得到视频特征和音频特征;
9.s3:根据视觉特征和音频特征采用音频调节视觉信息注意模块对视觉特征进行增
强,得到增强的视觉特征;
10.s4:将音频特征和增强后的视觉特征输入到时间注意力模块中进行处理,得到时间权重;
11.s5:将音频特征和增强后的视觉特征输入到通道注意力模块中进行处理,得到通道权重;
12.s6:采用融合注意力模块对时间权重和通道权重进行处理,得到视频事件识别结果。
13.优选的,对视觉信息和音频信息分别进行特征提取的过程包括:采用resnet网络和自注意力机制对视觉信息进行特征提取,得到视觉信息;采用vggish模型和自注意力机制对音频信息进行特征提取,得到音频信息。
14.优选的,音频调节视觉信息注意模块对视觉特征进行增强的过程包括:将视觉特征和音频特征投射到同一维度;逐元素融合投射到同一维度的视觉特征和音频特征;采用非线性层对融合后的特征进行处理,得到增强的视觉特征。
15.优选的,时间注意力模块对音频特征和增强后的视觉特征进行处理的过程包括:分别计算音频特征的时间权重和增强后的视觉特征的时间权重;对音频特征的时间权重和增强后的视觉特征的时间权重进行加权求和,得到最终的时间权重。
16.进一步的,计算音频特征的时间权重的公式为:
[0017][0018][0019]
其中,z
t
表示中间时间注意力权重,表示第一时间学习参数,x
t
表示t时刻音频特征,b表示第二时间学习参数,relu()表示激活函数,s
t
表示t时刻音频特征的时间权重,t表示将视频分割的时间片段总数。
[0020]
优选的,通道注意力模块对音频特征和增强后的视觉特征进行处理的过程包括:分别计算音频特征的通道权重和增强后的视觉特征的通道权重;对音频特征的通道权重和增强后的视觉特征的通道权重进行加权求和,得到最终的通道权重。
[0021]
进一步的,计算音频特征的通道权重的公式为
[0022][0023][0024]
其中,zk表示中间通道注意力权重,表示第一通道学习参数,xk表示第k个通道的音频特征,b

表示第二通道学习参数,relu()表示激活函数,表示音频特征的第k个通道权重,k表示通道数量。
[0025]
优选的,采用融合注意力模块对时间权重和通道权重进行处理的过程包括:根据时间权重和通道权重计算综合权重;根据综合权重对视频事件进行分类,得到视频事件识
别结果。
[0026]
进一步的,计算综合权重的公式为:
[0027][0028][0029]
其中,表示中间融合注意力权重,表示在第一融合学习参数,表示输入到融合注意力模块的第k通道第t时刻的数据,b

表示第二融合学习参数,表示综合权重。
[0030]
本发明的有益效果为:本发明提出了针对视觉和听觉两种模态信息的融合网络架构,该网络可以动态自适应地提取每个时间段相应模态的数据,利用两种模态信息的交互来达到更好的视频事件的分类效果;同时,本发明提出基于时间和通道的注意模块,充分利用通道内和通道间的关系,做到对视频分类最为有效的信息的捕获;本发明可以更好的在音视频双模态的情况下进行事件的识别,从而提高了视频事件识别的准确性。
附图说明
[0031]
图1为本发明中基于视听模态融合的视频事件识别模型结构示意图;
[0032]
图2为本发明中音频调节视觉信息增强过程示意图;
[0033]
图3为本发明中融合注意力模块结构示意图。
具体实施方式
[0034]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0035]
本发明提出一种基于视听模态融合的视频事件识别方法,如图1所示,所述方法包括以下内容:
[0036]
本发明设计一种基于视听模态融合的视频事件识别模型,其输入是一个视频片段s,其中包含了视觉信息v和音频信息a,在将视频进行相应的分割后形成v
t
和a
t
,整体表达为经过模型处理后所得到的最终输出为:
[0037][0038]
其中,e代表的整体类别的数量,最终输出的标签y代表了对当前视频的分类预测。
[0039]
本发明实现视频事件识别的过程具体如下:
[0040]
s1:获取待识别的视频并对其进行划分,得到视觉信息和音频信息。
[0041]
获取待识别的视频,首先对视频进行划分操作,将视频划分为t个不重合的片段
其中v
t
和a
t
分别代表第t个时刻的视觉信息以及相对应的音频信息,视觉信息定义为听觉信息为听觉信息为表示第t时刻视觉信息,hv、wv和dv分别表示视觉特征图的高度和宽度和维度,表示第t时刻音频信息,ha、wa和da分别表示音频特征图的高度和宽度和维度。
[0042]
s2:对视觉信息和音频信息分别进行特征提取,得到视频特征和音频特征。
[0043]
提取来自视频和音频两个模态(u=2)的数据,对于每一个输入的片段,采用特征提取模块对视觉信息和音频信息分别进行特征提取;具体的:利用卷积神经网络提取相应的特征,在提取视觉特征的过程中,采用resnet模型来进行视觉信息特征的提取,该网络是由来自microsoft research的4位学者提出的卷积神经网络,利用残差机制,在不影响特征提取准确度的情况下,极大地节省了时间和空间代价,得益于强大的特征提取能力,目前在图像特征提取方面得到了广泛的应用,听觉特征提取采用vggish模型来进行提取,该模型是google在包含大型音频的数据集audioset上面预训练形成的模型,该模型的设计在场景类的声音事件中应用最佳。在提取相关的特征后,考虑到相应分割的不同片段之间的关联,在提取的特征上使用了自我注意机制,该方法利用同一通道内的分段之间的关系来改进提取的特征,之后得到新的视觉特征和音频特征,原理如下列公式所表示:
[0044]
q,k,v=(wqx,wkx,wvx)
[0045][0046]
其中,q、k、v分别代表输入向量x所变换生成的查询、键和值,wq、wk、wv是输入x的变化矩阵,d是q和k的维度,sa(x)是自我注意函数,函数的输出是加权平均向量v

;将视频特征和音频特征带入到该函数,随后添加dense层进行处理,其目的是为了使得每个通道都具有相同的维度,得到输出的视频特征以及音频特征
[0047]
s3:根据视觉特征和音频特征采用音频调节视觉信息注意模块对视觉特征进行增强,得到增强的视觉特征。
[0048]
在进行两种模态数据的提取后,接着利用模态之间的关系,来实现音频信息对视觉信息进行建模,这个过程称之为模态调节,模态调节最为常用的方法为注意机制,本发明同样将该方法运用到视频识别过程中,通过音频的特征来对视觉信息进行指导,以此可以达到对视觉特征质量的提升,该模块主要过程是利用音频信息在通道维度上来对视觉信息进行引导,这样可以获得增强的视觉特征即更加突出的对视频分类最为有效的信息特征,从而为之后的分类工作提供更好的信息输入。
[0049]
在特征提取模块提取过特征后,此时定义视觉特征输入为在特征提取模块提取过特征后,此时定义视觉特征输入为音频特征输入为h和w分别是特征图的高度和宽度;音频
调节视觉信息注意模块对视觉特征进行增强的过程包括:
[0050]
如图2所示,在音频信息的引领下,首先将视觉和音频的特征投射到一个相同的维度中产生音频引导特征图以及视觉特征图,之后通过逐元素乘法融合视觉特征,实施的过程如下:
[0051]
首先对输入的音频和视觉特征进行级联操作,之后用relu函数进行激活,得到f
a,v
,f
a,v
学习到进行级联后的特征表示,最终生成增强的视觉特征,表示为:
[0052][0053][0054]
其中,f
a,v
表示将视觉和音频信息进行级联操作后得到的特征,表示增强的视觉特征,δa表示进行平均池化,w表示可学习的参数。
[0055]
s4:将音频特征和增强后的视觉特征输入到时间注意力模块中进行处理,得到时间权重。
[0056]
时间注意模块的主要目的是为每一个时间窗口去分配相应的权重,每个该权重代表了相关片段为分类所做出的贡献度,也可以理解为该片段对于整个视频来说所包含针对分类信息的信息量的大小程度;分别计算音频特征的时间权重和增强后的视觉特征的时间权重,输出的时间权重表示为s={s1,s2,

,s
t
},计算音频特征的时间权重的公式为:
[0057][0058][0059]zt
表示中间时间注意力权重即通过时间注意力模块后所获得的中间注意力权重,表示第一时间学习参数即通过时间注意力模型所学习到的各个时间段的参数,x
t
表示t时刻音频特征,b表示第二时间学习参数,x
t
表示t时刻音频特征即通过时间注意力模型所学习到的参数,用于对结果进行微调,relu()表示激活函数,s
t
表示t时刻音频特征的时间权重即将中间注意力权重进行归一化后的权重,t表示将视频分割的时间片段总数。
[0060]
计算增强后的视频特征的时间权重的公式与计算音频特征的时间权重的公式相同,此处不再赘述。
[0061]
对音频特征的时间权重和增强后的视觉特征的时间权重进行加权求和,得到最终的时间权重。
[0062][0063]
其中,o
temp
表示根据视觉特征和音频特征的时间权重进行加权求和后的时间注意力特征,表示相应时间内视觉信息的信息权重,表示相应时间内视觉信息的信息权重,代表输入时间注意模块的t时刻增强后的视觉特征,代表输入时间注意模块的t
时刻音频特征。
[0064]
s5:将音频特征和增强后的视觉特征输入到通道注意力模块中进行处理,得到通道权重。
[0065]
通道注意模块同样也是计算相应的时间片段的特征对总体事件识别的贡献度,通道注意力机制将特征进行压缩,每一个通道用数值来表示,通过对压缩后的特征进行重要性预测来学习不同通道的重要程度,该模块同样计算出每个通道的权重来作为相关片段对于整个视频来说所包含针对分类信息的信息量的大小程度;同样的,分别计算音频特征的通道权重和增强后的视觉特征的通道权重,计算音频特征的通道权重的公式:
[0066][0067][0068]
其中,zk表示中间通道注意力权重即通过通道注意力模块后所获得的中间注意力权重,表示第一通道学习参数即通过通道注意力模型所学习到的各个通道的参数,xk表示第k个通道的音频特征,b

表示第二通道学习参数即通过通道注意力模型所学习到的参数,用于对结果进行微调,relu()表示激活函数,表示音频特征的第k个通道权重即将中间注意力权重进行归一化后的权重,k表示通道数量。
[0069]
计算增强后的视频特征的通道权重的公式与计算音频特征的通道权重的公式相同,此处不再赘述。
[0070]
对音频特征的通道权重和增强后的视觉特征的通道权重进行加权求和,得到最终的通道权重。
[0071][0072]
其中,o
mod
表示根据视觉特征和音频特征的通道权重值进行加权求和后的通道注意力特征,x
’1代表输入通道注意模块的增强后的视觉特征,x
’2代表输入通道注意模块的音频特征。
[0073]
s6:采用融合注意力模块对时间权重和通道权重进行处理,得到视频事件识别结果。
[0074]
将上述两个注意力模块计算得到的相应权重进行融合处理是该模块的主要作用;在视频时间识别时有时视觉信息会拥有更多的分类关键信息,而有时是听觉信息包含关键信息更多;得益于两个注意力模块的共同作用,可以使得对于相应片段的权重分配更加合理。
[0075]
如图3所示,采用融合注意力模块对时间权重和通道权重进行处理的过程包括:根据时间权重和通道权重计算综合权重;具体的:将时间权重和通道权重进行加权求和,得到融合注意力模块的输入,表示为:
[0076][0077]
其中,x

表示输入的特征向量,表示输入到融合注意力模块的第k通道t时刻的权重参数。
[0078]
计算综合权重的公式为:
[0079][0080][0081]
其中,表示中间融合注意力权重即通过融合注意力模块后所获得的中间注意力权重,表示第一融合学习参数即在融合注意力模块所学习到的各个通道的参数,表示输入到融合注意力模块的第k通道第t时刻的数据,b

表示示第二融合学习参数即通过融合注意力模型所学习到的参数,表示综合权重即将中间注意力权重进行归一化后的权重。
[0082][0083]
其中,o表示通过将视觉特征和音频特征进行级联操作后的综合权重值,concat()表示级联操作。
[0084]
根据综合权重对视频事件进行分类,最终输出的权重代表了对每个事件的预测概率值,若是与之对应的事件的权重最大,则预测正确,得到视频事件识别结果。
[0085]
综上所述,本发明在进行不同模态信息的融合时应当注意两种不同模态信息之间的关系和交互,通过音频信息为来获得增强版的视觉信息特征,从而做到对视频分类的关键视觉特征的突出注意,做到关注视觉中与视频事件分类最为相关的区域;提出了时间和通道注意力模块,该模块在每一个相应的时间窗口内给予视觉和音频两种信息相应的权重,并以此权重大小来作为视频分类的依据,因此本发明可以更好的在音视频双模态的情况下进行事件的识别。
[0086]
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于视听模态融合的视频事件识别方法,其特征在于,包括:s1:获取待识别的视频并对其进行划分,得到视觉信息和音频信息;s2:对视觉信息和音频信息分别进行特征提取,得到视频特征和音频特征;s3:根据视觉特征和音频特征采用音频调节视觉信息注意模块对视觉特征进行增强,得到增强的视觉特征;s4:将音频特征和增强后的视觉特征输入到时间注意力模块中进行处理,得到时间权重;s5:将音频特征和增强后的视觉特征输入到通道注意力模块中进行处理,得到通道权重;s6:采用融合注意力模块对时间权重和通道权重进行处理,得到视频事件识别结果。2.根据权利要求1所述的一种基于视听模态融合的视频事件识别方法,其特征在于,对视觉信息和音频信息分别进行特征提取的过程包括:采用resnet网络和自注意力机制对视觉信息进行特征提取,得到视觉信息;采用vggish模型和自注意力机制对音频信息进行特征提取,得到音频信息。3.根据权利要求1所述的一种基于视听模态融合的视频事件识别方法,其特征在于,音频调节视觉信息注意模块对视觉特征进行增强的过程包括:将视觉特征和音频特征投射到同一维度;逐元素融合投射到同一维度的视觉特征和音频特征;采用非线性层对融合后的特征进行处理,得到增强的视觉特征。4.根据权利要求1所述的一种基于视听模态融合的视频事件识别方法,其特征在于,时间注意力模块对音频特征和增强后的视觉特征进行处理的过程包括:分别计算音频特征的时间权重和增强后的视觉特征的时间权重;对音频特征的时间权重和增强后的视觉特征的时间权重进行加权求和,得到最终的时间权重。5.根据权利要求4所述的一种基于视听模态融合的视频事件识别方法,其特征在于,计算音频特征的时间权重的公式为:算音频特征的时间权重的公式为:其中,z
t
表示中间时间注意力权重,表示第一时间学习参数,x
t
表示t时刻音频特征,b表示第二时间学习参数,relu()表示激活函数,s
t
表示t时刻音频特征的时间权重,t表示将视频分割的时间片段总数。6.根据权利要求1所述的一种基于视听模态融合的视频事件识别方法,其特征在于,通道注意力模块对音频特征和增强后的视觉特征进行处理的过程包括:分别计算音频特征的通道权重和增强后的视觉特征的通道权重;对音频特征的通道权重和增强后的视觉特征的通道权重进行加权求和,得到最终的通道权重。7.根据权利要求6所述的一种基于视听模态融合的视频事件识别方法,其特征在于,计算音频特征的通道权重的公式为
其中,z
k
表示中间通道注意力权重,表示第一通道学习参数,x
k
表示第k个通道的音频特征,b

表示第二通道学习参数,relu()表示激活函数,表示音频特征的第k个通道权重,k表示通道数量。8.根据权利要求1所述的一种基于视听模态融合的视频事件识别方法,其特征在于,采用融合注意力模块对时间权重和通道权重进行处理的过程包括:根据时间权重和通道权重计算综合权重;根据综合权重对视频事件进行分类,得到视频事件识别结果。9.根据权利要求8所述的一种基于视听模态融合的视频事件识别方法,其特征在于,计算综合权重的公式为:算综合权重的公式为:其中,表示中间融合注意力权重,表示在第一融合学习参数,表示输入到融合注意力模块的第k通道第t时刻的数据,b

表示第二融合学习参数,表示综合权重。

技术总结
本发明属于视频时间识别技术领域,具体涉及一种基于视听模态融合的视频事件识别方法;该方法包括:获取待识别的视频并对其进行划分,得到视觉信息和音频信息;对视觉信息和音频信息分别进行特征提取,得到视频特征和音频特征;根据视觉特征和音频特征采用音频调节视觉信息注意模块对视觉特征进行增强,得到增强的视觉特征;将音频特征和增强后的视觉特征输入到时间注意力模块中进行处理,得到时间权重;将音频特征和增强后的视觉特征输入到通道注意力模块中进行处理,得到通道权重;采用融合注意力模块对时间权重和通道权重进行处理,得到视频事件识别结果本发明可以更好的在音视频双模态的情况下进行事件的识别。视频双模态的情况下进行事件的识别。视频双模态的情况下进行事件的识别。


技术研发人员:徐光侠 刘超刚 黄海辉 田志宏 张鹏 杨虹 张帆 马创 刘俊 周娜琴 乔成
受保护的技术使用者:重庆邮电大学
技术研发日:2023.06.28
技术公布日:2023/9/22
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐