一种基于级联注意力U-Net的视频异常事件检测方法
未命名
09-10
阅读:80
评论:0

一种基于级联注意力u-net的视频异常事件检测方法
技术领域
1.本发明涉及视频处理技术领域,特别涉及一种基于级联注意力u-net的视频异常事件检测方法。
背景技术:
2.为保证社会公共安全,提升智慧城市的管理能力,视频监控技术被广泛应用在校园、大型商场、机场和火车站等人流密集的公共场所。视频异常事件检测技术主要利用图像处理技术对视频中发生的异常行为自动地进行分析与识别,从海量监控视频数据中及时检测出与大多数正常事件不一致的少量异常事件。通常情况下,采用人工对海量视频进行监控,会消耗大量人力物力。而且,长时间的人为监控会导致监控人员的视觉疲劳,进而导致对视频中异常事件的漏检。因此,研究对海量视频进行智能化处理,自动地检测与识别视频中异常事件具有重要意义。
3.视频异常事件检测方法可以分为:基于机器学习的异常事件检测方法和基于深度学习的异常事件检测方法。基于机器学习的异常事件检测方法首先从原始高维视频序列数据中提取运动目标的轮廓特征、rgb纹理信息、梯度等特征,再利用隐马尔可夫模型、马尔可夫随机场以及高斯混合模型等概率模型进行模型构建,进而完成异常事件的识别。但在特征提取过程中,易受到图像噪声、光照变化和遮挡等影响,这会进一步影响概率模型对异常事件的判断。
4.由于深度神经网络具有强大的特征提取能力和表征能力,基于深度学习的视频异常事件检测方法被广泛应用。深度神经网络通过大量的实验数据进行训练,无须手工设计特征,将特征提取和模型构建整合在一起,实现端到端的异常事件检测方法。本发明提出了基于级联注意力u-net的视频异常事件检测方法,在第一个注意力u-net块中结合时间迁移模块作为帧预测模型,第二个和第三个注意力u-net级联模块作为帧重构模块,最后结合预测帧和重构帧计算异常分数完成异常事件识别,进一步提升检测性能。
技术实现要素:
5.本发明目的就在于为了解决上述的问题,而提供一种基于级联注意力u-net的视频异常事件检测方法。
6.为实现上述目的,本发明采取的技术方案为:一种基于级联注意力u-net的视频异常事件检测方法,包含以下步骤:
7.s1:构建u-net下采样模块。
8.s2:构建时间迁移模块;
9.s3:构建基于注意力门的u-net上采样模块,利用连续的上采样模块进行特征感知;
10.s4:构建视频帧预测模块,视频帧预测模块由时间迁移模块和注意力u-net网络构成;
11.s5:构建级联视频帧重构模块,视频帧重构模块由级联的两个注意力u-net网络构成;
12.s6:再将重构模块中的第一个注意力u-net网络的输出作为重构模块中的第二个注意力u-net网络的输入,依次进行步骤(1-1)和步骤(1-3),获得重构视频帧。
13.s7:构建多元损失函数,训练级联注意力u-net网络;
14.s8:结合预测帧和重构帧计算异常检测分数,实现视频异常事件检测
15.进一步地,u-net下采样模块具体包括由连续的下采样模块进行感知,每层的下采样模块的输出zi可以表示为:
16.zi=maxpooling(σ(w
i2
*σ(w
i1
*xi)))
ꢀꢀꢀ
(1)
17.其中,i表示第i个下采样模块,xi表示第i个下采样模块的输入,w
i1
、w
i2
表示第i个下采样模块中两个连续卷积层学习的权重矩阵,*表示卷积操作,σ表示relu非线性激活函数,maxpooling表示池化层,通过下采样模块操作,逐步提取抽象的高维特征,第i个下采样模块的输出特征zi的大小为hi×
wi×ci
,其中ci表示第i个下采用块输出的通道个数。
18.进一步地,时间迁移模块具体包括将最后一层帧预测下采样模块的输出作为时间迁移模块的输入,首先利用两个连续的卷积层提升通道数量,再利用时间迁移模块,对提取的特征进行通道信息迁移,实现不同时间通道的信息交互,在不同时间维度上关注异常行为的变化,其输出特征可表示为:
[0019][0020]
其中,z
shift
表示时间迁移模块的输出,z
last
表示最后一个帧预测下采样模块的输出,为时间迁移模块中两个连续卷积层学习的权重矩阵,σ表示relu非线性激活函数,时间迁移模块的输出的大小为h
shift
×wshift
×cshift
。
[0021]
进一步地,基于注意力门的u-net上采样模块具体包括注意力门可以逐渐抑制不相关背景区域的特征响应,增强对感兴趣区域的显着特征,旨在关注不同形状和大小的区域,可以提高模型灵敏度和预测准确性,从而实现更准确和稳健的异常事件识别性能。注意门可以表示为:
[0022][0023][0024][0025][0026]
其中,l表示第l个上采样模块,(i,j)表示索引值,x
l
表示需要进行上采样的特征,ψ
l
为对x
l
完成卷积操作的特征,g
l
表示下采用模块中与x
l
相对应的特征,为对g
l
完成卷积操作的特征,m
l
表示由公式(5)得到的注意力系数,w
1l
、w
l
、b
l
为卷积操作中学习的权重矩阵,σ表示relu非线性激活函数,δ表示sigmoid非线性激活函数,为注意力门
得到的输出。
[0027]
最后,利用注意力门得到的特征计算上采样模块的输出:
[0028][0029]
其中,concentrate表示特征聚合,为卷积操作中学习的参数矩阵,σ表示relu非线性激活函数,upsampling表示上采样操作,y
l
表示上采样模块的输出特征,大小可表示为h
l
×wl
×cl
。
[0030]
进一步地,视频帧预测模块具体包括连续帧的rgb图像作为预测帧模块的输入,首先利用s1获得不同尺度的下采样特征;再对最后一层下采样模块的特征进行步骤s2,对提取的特征完成通道信息迁移,获得时间交互信息;最后,利用步骤s1和步骤s2获得的特征,结合步骤s3完成视频帧预测,对连续多个视频帧进行下一未来视频帧的预测。
[0031]
进一步地,将步骤s4获得的预测视频帧,作为级联注意力u-net网络的输入,重构模块中的第一个注意力u-net网络依次进行步骤s1和步骤s3,再将重构模块中的第一个注意力u-net网络的输出作为重构模块中的第二个注意力u-net网络的输入,依次进行步骤s1和步骤s3,获得重构视频帧。
[0032]
进一步地,步骤s1至s5完成了级联的帧预测和帧重构的网络模型构建,为了最小化预测重构帧和真实帧之间的差距,充分考虑预测重构帧和真实帧在外观和运动上的相似性,多元损失函数由强度损失、梯度损失和结构相似性损失组成。
[0033]
其中,强度损失可以表示为:
[0034][0035]
其中,i表示真实的视频帧,表示级联的帧预测和帧重构的网络模型得到的预测重构帧,(i,j)表示索引值。
[0036]
在水平和垂直方向上的梯度可以计算为:
[0037][0038][0039]
结合公式(9)、(10),梯度损失可表示为:
[0040][0041]
结合公式(8)、(11),损失函数可表示为:
[0042][0043]
其中,表示结构相似性损失,α、β和γ表示损失函数的权重。
[0044]
进一步地,s7中的具体操作包括进行步骤s1至s6,可以得到最优的级联帧预测和帧重构网络模型,根据预测重构帧与其对应真实帧之间的差异进行异常检测;
[0045]
首先计算峰值信噪比(psnr)进行图像质量的评估,可表示为:
[0046][0047]
其中,表示预测视频帧或者重构视频帧,i表示真实视频帧,n表示视频帧的数量。psnr的值越高,表示模型得到的输出视频帧的质量越好。为了进一步提升模型的检测性能,基于psnr值计算了结合预测视频帧和重构视频帧的异常检测分数;
[0048]
第一个注意力u-net模型得到的预测视频帧的异常分数可以表示为:
[0049][0050]
其中,表示预测视频帧,i表示真实视频帧;
[0051]
级联的两个注意力u-net模型得到的重构视频帧的异常分数可以表示为:
[0052][0053]
其中,表示预测视频帧,i表示真实视频帧;
[0054]
最终的异常分数可以表示为:
[0055][0056]
其中,α表示异常分数的权重,根据此异常分数可以计算当前视频帧是否发生了异常事件。
[0057]
与现有技术相比,本发明具有如下有益效果:
[0058]
本发明借鉴人类视觉感知的整体特性,利用级联的视频帧预测网络和视频帧重构网络,有效放大异常事件的重构误差,缩小正常事件的重构误差,提高基于视频的异常事件检测性能。
附图说明
[0059]
图1为本发明的实施例的整体流程图;
[0060]
图2为本发明所涉及的时间迁移模块;
[0061]
图3为本发明所涉及的基于时间迁移模块和注意力u-net的预测网络模型图;
[0062]
图4为本发明所涉及的基于级联注意力u-net的重构网络模型图;
[0063]
图5为本发明所设计方法在avenue公开数据集上的测试效果图;
[0064]
图6为本发明所设计方法在ped2公开数据集上测试效果图。
具体实施方式
[0065]
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
[0066]
为建立自动识别异常事件的智能视频监控系统,本发明提出了一个基于级联注意力u-net的视频异常事件检测方法,旨在级联预测帧模型和重构帧模型进一步提升异常事
件检测的性能。为实现上述目的,本发明所采取的技术方案如下:
[0067]
(1-1)构建u-net下采样模块。由连续的下采样模块进行感知,每层的下采样模块的输出zi可以表示为:
[0068]
zi=maxpooling(σ(w
i2
*σ(w
i1
*xi)))
ꢀꢀꢀ
(1)
[0069]
其中,i表示第i个下采样模块,xi表示第i个下采样模块的输入,w
i1
、w
i2
表示第i个下采样模块中两个连续卷积层学习的权重矩阵,*表示卷积操作,σ表示relu非线性激活函数,maxpooling表示池化层,通过下采样模块操作,逐步提取抽象的高维特征,第i个下采样模块的输出特征zi的大小为hi×
wi×ci
,其中ci表示第i个下采用块输出的通道个数。
[0070]
(1-2)构建时间迁移模块。将最后一层帧预测下采样模块的输出作为时间迁移模块的输入,首先利用两个连续的卷积层提升通道数量,再利用时间迁移模块,对提取的特征进行通道信息迁移,实现不同时间通道的信息交互,在不同时间维度上关注异常行为的变化,其输出特征可表示为:
[0071][0072]
其中,z
shift
表示时间迁移模块的输出,z
last
表示最后一个帧预测下采样模块的输出,为时间迁移模块中两个连续卷积层学习的权重矩阵,σ表示relu非线性激活函数,时间迁移模块的输出的大小为h
shift
×wshift
×cshift
。
[0073]
(1-3)构建基于注意力门的u-net上采样模块,利用连续的上采样模块进行特征感知。注意力门可以逐渐抑制不相关背景区域的特征响应,增强对感兴趣区域的显着特征,旨在关注不同形状和大小的区域,可以提高模型灵敏度和预测准确性,从而实现更准确和稳健的异常事件识别性能。注意门可以表示为:
[0074][0075][0076][0077][0078]
其中,l表示第l个上采样模块,(i,j)表示索引值,x
l
表示需要进行上采样的特征,ψ
l
为对x
l
完成卷积操作的特征,g
l
表示下采用模块中与x
l
相对应的特征,为对g
l
完成卷积操作的特征,m
l
表示由公式(5)得到的注意力系数,w
1l
、w
l
、b
l
为卷积操作中学习的权重矩阵,σ表示relu非线性激活函数,δ表示sigmoid非线性激活函数,为注意力门得到的输出。最后,利用注意力门得到的特征计算上采样模块的输出:
[0079][0080]
其中,concentrate表示特征聚合,为卷积操作中学习的参数矩阵,σ表示
relu非线性激活函数,upsampling表示上采样操作,y
l
表示上采样模块的输出特征,大小可表示为h
l
×wl
×cl
。
[0081]
(1-4)构建视频帧预测模块,视频帧预测模块由时间迁移模块和注意力u-net网络构成。在t时刻,连续t帧的h
×
w的rgb图像作为预测帧模块的输入,首先利用步骤(1-1)获得不同尺度的下采样特征;再对最后一层下采样模块的特征进行步骤(1-2),对提取的特征完成通道信息迁移,获得时间交互信息;最后,利用步骤(1-1)和步骤(1-2)获得的特征,结合步骤(1-3)完成视频帧预测,对连续多个视频帧进行下一未来视频帧的预测。视频帧预测模块能够扩大异常样本的重构差异,有助于模型对异常事件完成识别。
[0082]
(1-5)构建级联视频帧重构模块,视频帧重构模块由级联的两个注意力u-net网络构成。具体地,将步骤(1-4)获得的预测视频帧作为级联注意力u-net网络的输入,重构模块中的第一个注意力u-net网络依次进行步骤(1-1)和步骤(1-3),再将重构模块中的第一个注意力u-net网络的输出作为重构模块中的第二个注意力u-net网络的输入,依次进行步骤(1-1)和步骤(1-3),获得重构视频帧重构视频帧可以降低正常视频帧的重构误差,进而扩大与异常行为重构误差的差距,有助于模型对异常事件完成识别。
[0083]
(1-6)构建多元损失函数,训练级联注意力u-net网络。步骤(1-1)至(1-5)完成了级联的帧预测和帧重构的网络模型构建。为了最小化预测重构帧和真实帧之间的差距,充分考虑预测重构帧和真实帧在外观和运动上的相似性,多元损失函数由强度损失、梯度损失和结构相似性损失组成。强度损失可以表示为:
[0084][0085]
其中,i表示真实的视频帧,表示级联的帧预测和帧重构的网络模型得到的预测重构帧,(i,j)表示索引值。
[0086]
在水平和垂直方向上的梯度可以计算为:
[0087][0088][0089]
结合公式(9)、(10),梯度损失可表示为:
[0090][0091]
结合公式(8)、(11),损失函数可表示为:
[0092][0093]
其中,表示结构相似性损失,α、β和γ表示损失函数的权重,训练过程中通过最小化损失函数,反向传播调整网络参数。为了得到最优的异常事件检测模型,只有正常数据用于训练。在这种情况下,模型中的历史信息有利于正常行为帧,这将导致预测重构帧和真实帧之间的误差更小。相比之下,异常视频帧无法准确预测,异常行为的预测重构帧与真实帧的误差会更大。
[0094]
(1-7)结合预测帧和重构帧计算异常检测分数,实现视频异常事件检测。进行步骤(1-1)至(1-6),可以得到最优的级联帧预测和帧重构网络模型,根据预测重构帧与其对应真实帧之间的差异进行异常检测。首先计算峰值信噪比(psnr)进行图像质量的评估,可表示为:
[0095][0096]
其中,表示预测视频帧或者重构视频帧,i表示真实视频帧,n表示视频帧的数量。psnr的值越高,表示模型得到的输出视频帧的质量越好。为了进一步提升模型的检测性能,基于psnr值计算了结合预测视频帧和重构视频帧的异常检测分数。第一个注意力u-net模型得到的预测视频帧的异常分数可以表示为:
[0097][0098]
其中,表示预测视频帧,i表示真实视频帧。级联的两个注意力u-net模型得到的重构视频帧的异常分数可以表示为:
[0099][0100]
其中,表示预测视频帧,i表示真实视频帧。最终的异常分数可以表示为:
[0101][0102]
其中,α表示异常分数的权重,根据此异常分数可以计算当前视频帧是否发生了异常事件。
[0103]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0104]
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
技术特征:
1.一种基于级联注意力u-net的视频异常事件检测方法,其特征在于,具体步骤为:s1:构建u-net下采样模块;s2:构建时间迁移模块;s3:构建基于注意力门的u-net上采样模块,利用连续的上采样模块进行特征感知;s4:构建视频帧预测模块,视频帧预测模块由时间迁移模块和注意力u-net网络构成;s5:构建级联视频帧重构模块,视频帧重构模块由级联的两个注意力u-net网络构成;s6:再将重构模块中的第一个注意力u-net网络的输出作为重构模块中的第二个注意力u-net网络的输入,依次进行步骤(1-1)和步骤(1-3),获得重构视频帧;s7:构建多元损失函数,训练级联注意力u-net网络;s8:结合预测帧和重构帧计算异常检测分数,实现视频异常事件检测。2.根据权利要求1所述的一种基于级联注意力u-net的视频异常事件检测方法,其特征在于,u-net下采样模块具体包括由连续的下采样模块进行感知,每层的下采样模块的输出z
i
可以表示为:z
i
=maxpooling(σ(w
i2
*σ(w
i1
*x
i
)))
ꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,i表示第i个下采样模块,x
i
表示第i个下采样模块的输入,w
i1
、w
i2
表示第i个下采样模块中两个连续卷积层学习的权重矩阵,*表示卷积操作,σ表示relu非线性激活函数,maxpooling表示池化层,通过下采样模块操作,逐步提取抽象的高维特征,第i个下采样模块的输出特征z
i
的大小为h
i
×
w
i
×
c
i
,其中c
i
表示第i个下采用块输出的通道个数。3.根据权利要求1所述的一种基于级联注意力u-net的视频异常事件检测方法,其特征在于,时间迁移模块具体包括将最后一层帧预测下采样模块的输出作为时间迁移模块的输入,首先利用两个连续的卷积层提升通道数量,再利用时间迁移模块,对提取的特征进行通道信息迁移,实现不同时间通道的信息交互,在不同时间维度上关注异常行为的变化,其输出特征可表示为:其中,z
shift
表示时间迁移模块的输出,z
last
表示最后一个帧预测下采样模块的输出,为时间迁移模块中两个连续卷积层学习的权重矩阵,σ表示relu非线性激活函数,时间迁移模块的输出的大小为h
shift
×
w
shift
×
c
shift
。4.根据权利要求1所述的一种基于级联注意力u-net的视频异常事件检测方法,其特征在于,基于注意力门的u-net上采样模块具体包括注意力门可以逐渐抑制不相关背景区域的特征响应,增强对感兴趣区域的显着特征,旨在关注不同形状和大小的区域,可以提高模型灵敏度和预测准确性,从而实现更准确和稳健的异常事件识别性能。注意门可以表示为:注意门可以表示为:
其中,l表示第l个上采样模块,(i,j)表示索引值,x
l
表示需要进行上采样的特征,ψ
l
为对x
l
完成卷积操作的特征,g
l
表示下采用模块中与x
l
相对应的特征,为对g
l
完成卷积操作的特征,m
l
表示由公式(5)得到的注意力系数,w
1l
、w
l
、b
l
为卷积操作中学习的权重矩阵,σ表示relu非线性激活函数,δ表示sigmoid非线性激活函数,为注意力门得到的输出;最后,利用注意力门得到的特征计算上采样模块的输出:其中,concentrate表示特征聚合,为卷积操作中学习的参数矩阵,σ表示relu非线性激活函数,upsampling表示上采样操作,y
l
表示上采样模块的输出特征,大小可表示为h
l
×
w
l
×
c
l
。5.根据权利要求1所述的一种基于级联注意力u-net的视频异常事件检测方法,其特征在于,视频帧预测模块具体包括连续帧的rgb图像作为预测帧模块的输入,首先利用s1获得不同尺度的下采样特征;再对最后一层下采样模块的特征进行步骤s2,对提取的特征完成通道信息迁移,获得时间交互信息;最后,利用步骤s1和步骤s2获得的特征,结合步骤s3完成视频帧预测,对连续多个视频帧进行下一未来视频帧的预测。6.根据权利要求1所述的一种基于级联注意力u-net的视频异常事件检测方法,其特征在于,将步骤s4获得的预测视频帧,作为级联注意力u-net网络的输入,重构模块中的第一个注意力u-net网络依次进行步骤s1和步骤s3,再将重构模块中的第一个注意力u-net网络的输出作为重构模块中的第二个注意力u-net网络的输入,依次进行步骤s1和步骤s3,获得重构视频帧。7.根据权利要求1所述的一种基于级联注意力u-net的视频异常事件检测方法,其特征在于,步骤s1至s5完成了级联的帧预测和帧重构的网络模型构建,为了最小化预测重构帧和真实帧之间的差距,充分考虑预测重构帧和真实帧在外观和运动上的相似性,多元损失函数由强度损失、梯度损失和结构相似性损失组成;其中,强度损失可以表示为:其中,i表示真实的视频帧,表示级联的帧预测和帧重构的网络模型得到的预测重构帧,(i,j)表示索引值;在水平和垂直方向上的梯度可以计算为:在水平和垂直方向上的梯度可以计算为:
结合公式(9)、(10),梯度损失可表示为:结合公式(8)、(11),损失函数可表示为:其中,表示结构相似性损失,α、β和γ表示损失函数的权重。8.根据权利要求1所述的一种基于级联注意力u-net的视频异常事件检测方法,其特征在于,s7中的具体操作包括进行步骤s1至s6,可以得到最优的级联帧预测和帧重构网络模型,根据预测重构帧与其对应真实帧之间的差异进行异常检测;首先计算峰值信噪比(psnr)进行图像质量的评估,可表示为:其中,表示预测视频帧或者重构视频帧,i表示真实视频帧,n表示视频帧的数量。psnr的值越高,表示模型得到的输出视频帧的质量越好。为了进一步提升模型的检测性能,基于psnr值计算了结合预测视频帧和重构视频帧的异常检测分数;第一个注意力u-net模型得到的预测视频帧的异常分数可以表示为:其中,表示预测视频帧,i表示真实视频帧;级联的两个注意力u-net模型得到的重构视频帧的异常分数可以表示为:其中,表示预测视频帧,i表示真实视频帧;最终的异常分数可以表示为:其中,α表示异常分数的权重,根据此异常分数可以计算当前视频帧是否发生了异常事件。
技术总结
本发明公开了一种基于级联注意力U-Net的视频异常事件检测方法,属于视频处理技术领域,由于深度神经网络具有强大的特征提取能力和表征能力,基于深度学习的视频异常事件检测方法被广泛应用。深度神经网络通过大量的实验数据进行训练,无须手工设计特征,将特征提取和模型构建整合在一起,实现端到端的异常事件检测方法。本发明提出了基于级联注意力U-Net的视频异常事件检测方法,在第一个注意力U-Net块中结合时间迁移模块作为帧预测模型,第二个和第三个注意力U-Net级联模块作为帧重构模块,最后结合预测帧和重构帧计算异常分数完成异常事件识别,进一步提升检测性能。进一步提升检测性能。进一步提升检测性能。
技术研发人员:李溯源 宋昕 张宇琪 祁浩洋 徐思阳 赵众从 王潇锜
受保护的技术使用者:东北大学秦皇岛分校
技术研发日:2023.06.27
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种用于生成冲击波的装置的制作方法 下一篇:基于视听多模态融合的土家语语音识别方法