一种基于姿态识别的BRT车站逃票事件检测方法与流程

未命名 07-23 阅读:110 评论:0

一种基于姿态识别的brt车站逃票事件检测方法
技术领域
1.本技术涉及一种基于姿态识别的brt车站逃票事件检测方法,属于人工智能检测技术领域。


背景技术:

2.逃票行为损害了运营企业的利益,干扰了正常的交通秩序和公共秩序,存在较大的安全隐患,针对brt站台逃票行为较为频繁,但公交企业目前对这一现象的管理和处置还存在空白。
3.随着计算机视觉领域的发展,越来越多的任务可以交由机器解决。机器智能在人们的生产生活中扮演了越来越重要的角色。近年来,随着图形计算能力的快速增长,计算机视觉领域高速发展,在一系列基础视觉任务上取得了巨大成功,因此,基于姿态识别进行brt车站逃票事件的检测得以有可能实现。


技术实现要素:

4.本技术要解决的技术问题是如何利用人工智能通过姿态识别对brt车站逃票事件进行自动检测。
5.为了解决上述技术问题,本技术的技术方案是提供了一种基于姿态识别的brt车站逃票事件检测方法,包括以下步骤:
6.步骤一、制作逃票行为数据集;
7.步骤二、采用yolov5目标检测算法对数据集进行人体检测;
8.步骤三、人体姿态提取,在数据集的rgb图像或视频中描绘出人体的形状;
9.步骤四、生成关键点或骨架热图堆叠;
10.步骤五、使用3d-cnn进行骨骼行为识别;
11.步骤六:使用训练得到的模型对逃票动作进行识别得到检测结果。
12.其中,所述步骤一中,采集真实逃票行为视频和模拟逃票行为视频,对视频进行剪辑只保留逃票相关动作的视频序列。
13.其中,所述步骤二中,yolov5模型网络结构包括输入端、backbone、neck和预测层;采用yolov5目标检测算法对数据集进行人体检测具体包括:
14.步骤2.1输入端:使用mosaic数据增强,从数据集中随机获取四张图片,随机大小和分布,进行堆叠获得新的图片;通过聚类设定anchor大小,在训练过程中,每次训练时计算不同训练集中的anchor值,在预测时使用了自适应图片大小的缩放模式;
15.步骤2.2backbone:采用focus结构,将原始图像416*416*3接入focus结构中,通过切片操作,变为208*208*12的特征图,再进行一次32个卷积核操作,变为208*208*32的特征图;
16.步骤2.3neck:在neck上采用了fpn结构和pan结构,fpn是自上而下的对信息进行传递融合,获得预测的特征图,pan采用自底向上的特征金字塔模式;
17.步骤2.4预测层:使用giou_loss作为损失函数,在目标检测预测结果处理阶段,针对出现的众多目标框的筛选,采用加权nms操作,获得最优目标框。
18.其中,所述步骤三中,使用以hrnet为主干网络的top-down姿态估计模型作为姿态提取器,将每个2d关键点存储为坐标(x,y,score),其中score为预测的置信度,以坐标的格式来存储提取出的2d姿态。
19.其中,所述步骤四中,基于提取好的2d姿态,堆叠t张形状为k
×h×
w的二维关键点热图以生成形状为k
×
t
×h×
w的3d热图堆叠。
20.其中,所述步骤五中,基于骨骼模态和骨骼+rgb模态,分别设计两种3d-cnn:pose-slowonly与rgbpose-slowfast,pose-slowonly仅以骨骼模态作为输入,rgbpose-slowfast包含两个分支,分别处理rgb和骨骼两个模态,rgb分支具有低帧率以及更大的网络宽度,骨骼分支具有高帧率和更小的网络宽度,两分支间存在双向连接,以促进模态间的特征融合
21.本技术利用计算机视觉中的姿态识别技术,使用pose3d算法实现基于人体姿态估计及行为识别的逃票检测功能。
附图说明
22.图1为在neck上采用了fpn结构和pan结构信息传递融合示意图;
23.图2-1为基于yolov5的行人检测结果示意图一;
24.图2-2为基于yolov5的行人检测结果示意图二;
25.图3为模拟逃票动作人体姿态提出示意图;
26.图4为在骨骼行为识别中采用均匀采样示意图;
27.图5-1为翻越式逃票行为检测结果示意图;
28.图5-2为侧身式逃票行为检测结果示意图;
29.图5-3为下钻式逃票行为检测结果示意图。
具体实施方式
30.为使本技术更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
31.本实施例提供的是基于姿态识别的brt车站逃票事件检测方法。在实践中,常见的逃票动作主要包括:翻越式、下钻式、侧身式及跟过式。本技术分别对这几种常见的逃票动作进行数据集的收集与模拟,并进行相应格式的数据集制作。然后基于pose3d动作识别算法对制作收集的数据集进行训练,构建逃票事件检测模型。
32.基于pose3d的逃票行为检测方法主要分为数据集制作、人体检测、人体姿态提取、生成关键点(或骨架)热图堆叠、基于3d-cnn的动作识别几个步骤。
33.步骤1:逃票行为数据集的制作
34.将采集到的真实逃票行为视频及模拟逃票行为视频进行剪辑,只保留逃票相关动作的视频序列。具体的,将光学摄像机对准乘客刷卡闸机区域,持续录制视频并人工从中挑选出真实逃票行为的视频片段;此外,采用模拟的方式,通过人进行逃票行为模拟并视频录制,获取模拟逃票行为的视频片段从而扩充用于训练的样本数量。对真实逃票行为的视频片段以及模拟逃票行为的视频片段进行剪辑,只保留逃票相关动作的视频序列。
35.通过对逃票相关动作的视频序列中所有帧执行人物检测和姿态估计来提取每个
视频帧的骨架序列,由于pose3d接受两种格式的骨架数据:.npy和.json,根据其建议,将提取得到的每个视频帧的骨架序列输出为格式为.json的数据集文件,使用该数据集来进行pose3d模型的训练。
36.步骤2:人体检测
37.人体检测即对行人的检测,是接下来进行人体姿态提取的重要前提。由于逃票行为包含人体检测、人体姿态估计、动作识别三方面,势必会造成算法运行的时间较长,无法做到实时的检测,因此需要在各个阶段尽量解决算法的运行效率问题。本技术采用yolov5目标检测算法,其图像推理速度最快达0.007s,即每秒可处理140帧,满足视频图像实时检测需求,同时结构更为小巧,yolov5模型网络结构分为输入端(input)、backbone、neck和预测层。
38.步骤2.1输入端:使用mosaic数据增强,mosaic数据增强是指从数据集中随机获取四张图片,随机大小和分布,进行堆叠获得一张新的图片,这样丰富了数据,增加了很多小目标,提升小物体的识别能力,同时计算4张图片,相当于增加了mini-batch大小(mini-batch是指样本数量),减少了gpu内存的消耗。
39.yolov5首先也可以通过聚类设定anchor大小(anchor是指一定尺寸的参考框),然后还可以在训练过程中,在每次训练时,计算不同训练集中的anchor值(参考框的大小)。然后在预测时使用了自适应图片大小的缩放模式,通过减少黑边,提高了预测速度。
40.步骤2.2backbone:在backbone上主要采用focus结构,cspnet结构。focus结构不存在于yolov3和v4版本中,其关键步骤为切片操作。将原始图像416*416*3接入focus结构中,通过切片操作,变为208*208*12的特征图,再进行一次32个卷积核操作,变为208*208*32的特征图。
41.步骤2.3neck:在neck上采用了fpn结构和pan结构。fpn是自上而下的,利用上采样的方式对信息进行传递融合,获得预测的特征图,如图1中(a)所示。pan采用自底向上的特征金字塔模式,如图1中(b)所示。
42.步骤2.4预测层:预测层损失函数,使用giou_loss。预测包括bounding box损失函数和非极大值抑制(nms)。yolov5中使用giou_loss作为损失函数,有效解决了边界框不重合时问题。在目标检测预测结果处理阶段,针对出现的众多目标框的筛选,采用加权nms操作,获得最优目标框。giou的计算方式如下所示。
43.44.基于yolov5的行人检测结果如图2-1、图2-2所示。
45.步骤3:人体姿态提取
46.人体姿态提取的目标是在rgb图像或视频中描绘出人体的形状,考虑到二维人体姿态具备更高的质量,选择以二维人体姿态而非三维作为输入。在实验中,考虑到其在coco关键点识别任务上的良好性能,使用以hrnet为主干网络的top-down姿态估计模型作为姿态提取器。模型的直接输出为关键点热图。在实践中,直接存储关键点热图会消耗大量磁盘空间。为提升效率,将每个2d关键点存储为坐标(x,y,score),其中score为预测的置信度。在使用高质量特征提取器的情况下,使用坐标作为输入,动作识别的精度仅有少量下降(0.4%)。因此在后续工作中,以坐标的格式来存储提取出的2d姿态。所提取的人体姿态如图3所示。
47.步骤4:生成关键点(或骨架)热图堆叠
48.基于提取好的2d姿态,需要堆叠t张形状为k
×h×
w的二维关键点热图以生成形状为k
×
t
×h×
w的3d热图堆叠作为输入。若事先将2d姿态存储成坐标形式,则需要先借助生成以(xi,yi)为中心,ci为最大值的高斯分布,将其重新转换为热图形式。这一过程对于单人或多人场景均适用。
49.在实践中,使用了两种方法来尽可能减少3d热图堆叠中的冗余,使其更紧凑。首先根据视频中人的位置,寻找一个最紧的框以包含所有帧中的所有人。在此之后,根据找到的框对每帧的热图进行裁剪,并将裁剪后的热图重新缩放至特定大小。借助这一方式,在空间上降低了冗余,在一个相对小的h
×
w大小下包含了更多的信息。同时利用均匀采样以减少3d热图堆叠在时间维度上的冗余。由于整个视频长度过长,难以处理,通常选取一个仅包含部分帧的子集构成一个片段,作为3d-cnn的输入。基于rgb模态的方法,通常只在一个较短的时间窗内采帧构成3d-cnn的输入(如slowfast在一个长仅为64帧的时间窗内采帧)。由于这种采帧方式难以捕捉整个动作,因此在骨骼行为识别中,采用了均匀采样的方式:需要采n帧时,先将整个视频均分为长度相同的n段,并在每段中随机选取一帧。如图4所示。
50.步骤5:使用3d-cnn的骨骼行为识别
51.基于骨骼模态和骨骼+rgb模态,分别设计了两种3d-cnn:pose-slowonly与rgbpose-slowfast。pose-slowonly仅以骨骼模态作为输入,下表中posepathway展示了它具体的结构。在实验中,pose-slowonly在多个数据集上的精度超越了当前基于gcn的sota。由于使用了3d-cnn作为模型架构,pose-slowonly可与其他模态在前期就能进行特征的融合。基于这一点,设计了rgbpose-slowfast,它包含两个分支,分别处理rgb和骨骼两个模态。rgb分支具有低帧率以及更大的网络宽度,骨骼分支具有高帧率和更小的网络宽度。两分支间存在双向连接,以促进模态间的特征融合。我们将两分支的预测结果融合,作为最终的预测。在训练时,用两个单独的损失函数分别训练两个分支,以避免过拟合。
52.步骤6:实验结果验证
53.本发明使用模拟及收集的逃票行为数据集在pose3d动作识别算法上进行了训练,并使用训练得到的模型对实际逃票动作及模拟逃票动作分别进行了测试。测试实验结果如图5-1、图5-2、图5-3所示,各类逃票动作均成功通过训练得到的模型识别出来。

技术特征:
1.一种基于姿态识别的brt车站逃票事件检测方法,其特征在于,包括以下步骤:步骤一、制作逃票行为数据集;步骤二、采用yolov5目标检测算法对数据集进行人体检测;步骤三、人体姿态提取,在数据集的rgb图像或视频中描绘出人体的形状;步骤四、生成关键点或骨架热图堆叠;步骤五、使用3d-cnn进行骨骼行为识别;步骤六:使用训练得到的模型对逃票动作进行识别得到检测结果。2.如权利要求1所述的一种基于姿态识别的brt车站逃票事件检测方法,其特征在于,所述步骤一中,采集真实逃票行为视频和模拟逃票行为视频,对视频进行剪辑只保留逃票相关动作的视频序列。3.如权利要求1所述的一种基于姿态识别的brt车站逃票事件检测方法,其特征在于,所述步骤二中,yolov5模型网络结构包括输入端、backbone、neck和预测层;采用yolov5目标检测算法对数据集进行人体检测具体包括:步骤2.1输入端:使用mosaic数据增强,从数据集中随机获取四张图片,随机大小和分布,进行堆叠获得新的图片;通过聚类设定anchor大小,在训练过程中,每次训练时计算不同训练集中的anchor值,在预测时使用了自适应图片大小的缩放模式;步骤2.2backbone:采用focus结构,将原始图像416*416*3接入focus结构中,通过切片操作,变为208*208*12的特征图,再进行一次32个卷积核操作,变为208*208*32的特征图;步骤2.3neck:在neck上采用了fpn结构和pan结构,fpn是自上而下的对信息进行传递融合,获得预测的特征图,pan采用自底向上的特征金字塔模式;步骤2.4预测层:使用giou_loss作为损失函数,在目标检测预测结果处理阶段,针对出现的众多目标框的筛选,采用加权nms操作,获得最优目标框。4.如权利要求1所述的一种基于姿态识别的brt车站逃票事件检测方法,其特征在于,所述步骤三中,使用以hrnet为主干网络的top-down姿态估计模型作为姿态提取器,将每个2d关键点存储为坐标(x,y,score),其中score为预测的置信度,以坐标的格式来存储提取出的2d姿态。5.如权利要求1所述的一种基于姿态识别的brt车站逃票事件检测方法,其特征在于,所述步骤四中,基于提取好的2d姿态,堆叠t张形状为k
×
h
×
w的二维关键点热图以生成形状为k
×
t
×
h
×
w的3d热图堆叠。6.如权利要求1所述的一种基于姿态识别的brt车站逃票事件检测方法,其特征在于,所述步骤五中,基于骨骼模态和骨骼+rgb模态,分别设计两种3d-cnn:pose-slowonly与rgbpose-slowfast,pose-slowonly仅以骨骼模态作为输入,rgbpose-slowfast包含两个分支,分别处理rgb和骨骼两个模态,rgb分支具有低帧率以及更大的网络宽度,骨骼分支具有高帧率和更小的网络宽度,两分支间存在双向连接,以促进模态间的特征融合。

技术总结
本申请公开了一种基于姿态识别的BRT车站逃票事件检测方法,包括以下步骤:步骤一、制作逃票行为数据集;步骤二、采用YoloV5目标检测算法对数据集进行人体检测;步骤三、人体姿态提取,在数据集的RGB图像或视频中描绘出人体的形状;步骤四、生成关键点或骨架热图堆叠;步骤五、使用3D-CNN进行骨骼行为识别;步骤六:使用训练得到的模型对逃票动作进行识别得到检测结果。本申请利用计算机视觉中的姿态识别技术,使用Pose3D算法实现基于人体姿态估计及行为识别的逃票检测功能。为识别的逃票检测功能。


技术研发人员:周天乐 贾越平 胡静洁 杨宇伟 陈童
受保护的技术使用者:上海电科智能系统股份有限公司
技术研发日:2023.01.17
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐