基于改进RetinaNet的口罩规范佩戴检测方法

未命名 08-15 阅读:45 评论:0

基于改进retinanet的口罩规范佩戴检测方法
技术领域
1.本发明属于目标检测技术领域,尤其涉及基于改进retinanet的口罩规范佩戴检测方法。


背景技术:

2.流行病影响着人们的日常生活,威胁人类的生命安全,尤其是对老年人以及婴幼儿。故日常生活中做好防护工作尤为重要,而规范佩戴口罩可以很好地降低流行病的传染性。但是如果在车站、机场等公共场合通过人工检查口罩佩戴情况,不仅效率低下还浪费了大量的人力资源。因此,对于口罩规范佩戴检测技术的研究有着非常重要的现实意义。现有技术中提出了srcnet,一个由图像超分辨率网络(sr)和分类网络两部分组成的口罩佩戴检测算法。以及通过现有的目标检测模型,比如yolov5等,直接应用在规范佩戴口罩检测之上。但现有方法存在着许多缺陷:1)将现有算法直接应用在公共场所场景下检测口罩规范佩戴时,由于口罩是否规范佩戴目标以及差异性都较小,导致检测难度较大;2)人面部占图像像素比例较小,针对口罩这种小尺度的目标,在公共场所这种目标稠密场景下会导致漏检过多。因此,申请人提出一种基于改进retinanet的口罩规范佩戴检测方法。


技术实现要素:

3.本发明的目的是为了解决在使用神经网络进行口罩规范佩戴检测时,由于口罩状态的差异性较小,口罩目标尺度较小容易出现漏检的技术问题,使得能够实现对公共场所中人员口罩佩戴状态的自动检测,提高检测精度。
4.为实现上述目的,基于改进retinanet的口罩规范佩戴检测方法,它包括以下步骤:
5.收集人群佩戴口罩的图像数据,基于所述图像数据构建数据集;
6.基于改进的retinanet网络构建口罩规范佩戴检测网络模型,利用所述数据集训练所述口罩规范佩戴检测网络模型,获取训练后的所述口罩规范佩戴检测网络模型;
7.利用训练后的所述口罩规范佩戴检测网络模型,对口罩佩戴状态进行识别检测。
8.可选的,构建数据集后还包括对所述数据集进行预处理,所述预处理包括:对所述数据集进行格式转换、命名和分类标注。
9.可选的,所述改进的retinanet网络包括主干提取网络resnet50、改进的特征金字塔fpn、cbam注意力模块和预测器;
10.所述主干提取网络resnet50,用于对待检测的规范佩戴口罩图像进行特征提取,获取特征图;
11.所述改进的特征金字塔fpn,用于对所述主干提取网络resnet50提取的特征进行融合,获取融合后的特征图;
12.所述cbam注意力模块,用于对融合的所述特征图进行特征加强处理,获取最终特征图;
13.所述预测器,用于基于所述最终特征图获取所述口罩佩戴状态的检测结果。
14.可选的,通过所述改进的特征金字塔fpn对提取的所述特征进行融合包括:
15.获取所述主干提取网络resnet中卷积层的输出结果,所述输出结果包括第一卷积层、第二卷积层、第三卷积层和第四卷积层,选取所述第一卷积层、第二卷积层、第三卷层和第四卷积层的最后一层特征为输出特征图,记为输出1、输出2、输出3和输出4;
16.基于所述主干提取网络resnet中卷积层的输出结果,所述改进的特征金字塔fpn将所述输出1加入特征金字塔fpn的构造中,采用自上而下的上采样方式,将顶层的小特征图放大到与上一个所述输出特征图一样大小,然后在横向链接部分将上采样后得到的高级语义特征与所述输出特征图的浅层细节特征通过相加的方式进行融合,获取浅层特征,然后再次进行一次自下而上的上采样方式,将所述浅层特征融入进高层特征中,进行两次特征融合后,获取融合后的所述特征图。
17.可选的,所述预测器包括:分类子网络和边框回归子网络;
18.所述分类子网络与所述边框回归子网络为并行的全连接网络。
19.可选的,所述注意力模块cbam包括通道注意力模块cam以及空间注意力模块sam。
20.可选的,所述通道注意力模块cam包括最大池化层maxpool、平均池化层avgpool和共享全连接层shared mlp,所述通道注意力模块cam用于对所述特征图进行处理,获取通道特征图;所述空间注意力模块sam包括最大池化层maxpool、平均池化层avgpool,所述空间注意力模块sam用于对所述通道特征图和融合后的所述特征图的内积进行空间注意力处理,获得最终特征图。
21.可选的,所述改进的retinanet网络还包括利用confluence方法对非极大值抑制nms方法进行改进,删除冗余的检测框,获取检测结果。
22.可选的,利用训练好的所述口罩规范佩戴检测网络模型,对口罩佩戴状态进行识别检测包括:
23.若所述口罩规范佩戴检测网络模型检测到口罩特征的同时,检测到鼻子特征或嘴巴特征的其中之一,则所述口罩佩戴状态不规范;
24.若所述口罩规范佩戴检测网络模型检测到所述口罩特征,未检测到所述鼻子特征或嘴巴特征,则所述口罩佩戴状态规范。
25.本发明技术效果:(1)本发明采用retinanet来进行规范佩戴口罩检测任务。结合cbam注意力机制对特征图进行进一步处理,加强对有用特征的提取,并且还强化了网络对于小目标的检测。
26.(2)对于原始retinanet网络的特征金字塔fpn部分进行了改进。将输出1加入计算中,并且在自上而下上采样方式后再通过自下而上的上采样方式将上一层特征信息融合到下一层特征信息中,使网络在学习特征时接触到浅层特征中更加细节的信息,信息利用更加充分,从而增强网络的检测性能,增强了对于远小目标提取特征的能力。
27.(3)最后对于原网络非极大值抑制nms方法进行改进。使用confluence方法改进原始网络的非极大值抑制nms方法来对输出进行后处理,该方法去除冗余的检测框,从而获得正确的检测结果。原始网络使用的nms方法当最高得分的边界框与另一个较低得分的边界框相比不是最优的情况下,nms方法返回的是次优边界框,当应用在稠密场景下时会出现大量的漏检。而confluence方法不依赖于置信度得分来选择最佳边界框,也不依赖iou来消除
误检,很好解决了非极大值抑制nms方法存在的问题,提升了检测的准确度。
附图说明
28.构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
29.图1为本发明实施例基于改进retinanet的口罩规范佩戴检测方法的流程示意图;
30.图2为本发明实施例原始retinanet网络模型结构图;
31.图3为本发明实施例cbam注意力模块的结构图;
32.图4为本发明实施例改进后的retinanet网络模型结构示意图。
具体实施方式
33.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
34.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
35.实施例1
36.如图1所示,本实施例中提供一种基于改进retinanet的口罩规范佩戴检测方法,包括:
37.步骤1:通过从公开的口罩遮挡人脸数据集、拍摄、网络爬取等方法获得符合公共场所下密集人群的图片;
38.步骤2:对数据集按照pascal voc数据集的格式进行格式转换和命名,通过lablimg标注工具对数据集进行分类标记,按照比例将数据集分为(训练集+验证集):测试集=9:1,训练集:验证集=9:1,再将数据集导入模型的数据集路径中。
39.步骤3:构建口罩规范佩戴检测网络模型;
40.步骤4:使用构造的口罩规范佩戴数据集对构建的口罩规范佩戴检测网络模型进行训练;
41.步骤5:使用口罩规范佩戴数据集中的测试集对训练得到的模型进行测试,得到检测结果。
42.在步骤3中,用于口罩规范佩戴检测的网络模型为改进后retinanet网络模型,如图4所示它的结构为:
43.输入层

第一卷积层

第二卷积层

第三卷积层

第四卷积层

输出四层

m5特征层

m5特征层与输出3相加作为m4特征层

输出2与m4特征层相加作为m3特征层

输出1与m3特征层相加层作为m2特征

p2特征层

p2特征层经过上采样与m3特征层相加得到p3’特征层

p3’特征层经过上采样与m4相加得到p4’特征层

p4’特征层经过上采样与m5相加得到p5’特征层

输出4

p6特征层

p7特征层;
44.p2特征层

第一个cbam注意力模块

class分类子网络和box回归子网络;
45.p3’特征层

第二个cbam注意力模块

class分类子网络和box回归子网络;
46.p4’特征层

第三个cbam注意力模块

class分类子网络和box回归子网络;
47.p5’特征层

第四个cbam注意力模块

class分类子网络和box回归子网络。
48.第一个cban模块、第二个cbam注意力模块、第三个cbam注意力模块、第四个cbam模块的结构为:
49.输入特征图

通道注意力模块

第一个乘法器

空间注意模块

第二个乘法器

输出特征图;
50.输入特征图

第一个乘法器

第二个乘法器

输出特征图。
51.构造改进的retinanet网络模型包括以下子步骤:
52.步骤1)将构建的口罩规范佩戴数据集导入改进的retinanet网络模型。图像输入到backbone中,进行特征提取;backbone采用的是resnet50+fpn的结构。将规范佩戴口罩图像输入到resnet50中,训练图像尺寸设置为600x600,训练集图像输入到网络中后,网络会自动将图像尺寸修改为600x600。在input steam部分,首先通过一个卷积核大小为7x7的卷积操作,该操作将输入图像的特征提取出来,通过将步长设置为2将图像的尺寸缩小为原来的一半,此时图像大小变为300x300,然后再经过一个步长为2的maxpool层,将图像的分辨率进一步降低,此时输出特征图的长宽均变为了150。resnet50中stage1,stage2,stage3,stage4部分,分别包含3,4,6,3个残差块,输入设为x,输入通道为256,将有参网络层设为h,该层卷积核尺寸大小分别为:1x1,3x3和1x1的三层卷积操作的残差学习,故此网络层的输出为h(x),当其进行第一次卷积操作后,输入通道将会减少到150,然后进行第二次卷积操作,此时通道数不变,进行最后一层卷积操作时通道数将会增大为原来的256。resnet50中残差单元中右侧支路则是将输入x通道直接传到输出的短路连接部分,故如果输入输出的维度相同,那么残差单元的输出为h(x)+x,如果输入输出的维度不同,则残差单元的输出为h(x)+wx,w是将通道数调整为相同维度的卷积操作。然后每个stage都要进行相对应个数的残差学习单元操作,最后对stage4的输出经过平均池化后链接全连接层输出分类结果。经过残差单元的处理后,此时输出特征图大小分别为:150*150*256、75*75*512、38*38*1024、19*19*2048。将以上输出结果进行特征金字塔fpn的构造。
53.步骤2)融合提取到的特征;用自上而下的上采样方式,将顶层的小特征图放大到与上一个输出特征图一样大小,然后在横向链接部分将上采样后得到的高级语义特征与输出特征图的浅层细节特征通过相加的方式进行融合,获取浅层特征,然后再次进行一次自下而上的上采样方式,将浅层特征融入进高层特征中,进行两次特征融合后,获取融合后的特征图。
54.具体方式包括经过残差单元的处理后,再经过特征金字塔fpn对其输出进行进一步的处理,得到输入图像的特征图金字塔。如图4所示,特征金字塔fpn部分通过自下而上、横向链接、自上而下以及自下而上的路径构成,图中虚线框(1)为自下而上路径,(2)为横向链接部分,(3)为自上而下部分,(4)为自下而上部分。resnet50中每个stage中的最后一层的输出构成了自下而上路径,横向连接部分通过大小为1x1,步长为1的卷积核,修正特征图的通道数,将上采样的结果与当前层分辨率一致的特征图通过相加的方法进行融合,自上而下过程中,m5由输出4经过1x1的卷积核后卷积得到,m5经过2倍上采样后与输出3通过1x1卷积核后卷积得到的结果进行加和操作得到m4,即为上边所述的横向链接的操作,m4经过2倍上采样后与输出2通过1x1卷积核后卷积得到的结果进行加和操作得到m3,原始模型中并未使用到输出1的特征,由于在规范佩戴口罩数据集,另一方面待检测目标比较远小,这样
会导致提取特征时比较困难,故对原始模型进行改进,首先将输出1加入到计算过程中,然后将特征金字塔自上而下部分后再以自下而上这样的上采样方式将上一层特征信息融合进下一层特征信息中,对特征进行再一次融合。由输出1特征层经过卷积核为1的卷积结果与m3进行2倍采样后得到的结果进行相加后得到m2特征层后经过3x3卷积核的卷积操作得到p2特征层。p2特征层经过0.5倍上采样操作后将特征图放大两倍与m2特征层中的特征图大小相同,然后对两个特征图进行add操作得到新的p3’特征层,p3’特征层通过0.5倍上采样操作后将特征图放大两倍与m4特征层中的特征图大小相同,然后对两个特征图进行add操作得到新的p4’特征层,p4’特征层通过0.5倍上采样操作后将特征图放大两倍与m5特征层中的特征图大小相同,然后对两个特征图进行add操作得到新的p5’特征层。输出4经过3x3卷积核卷积得到p6特征层,p6通过relu操作以及大小为3*3,步长为2的卷积核卷积后得到p7特征层。最后得到输出特征层为:p2、p3’、p4’p5’、p6、p7,大小分别为:150*150*256、75*75*256、38*38*256、19*19*256、10*10*256、5*5*256。为了使网络更加关注图像中的目标信息,提高网络对有用特征的提取能力,在p2、p3’、p4’、p5’特征层后添加cbam注意力模块,使网络更加关注于感兴趣的有用特征,降低目标周围的特征对目标的干扰,提高对于小目标特征的提取能力。cbam注意力模块如图3所示。
55.步骤3)预测器处理;在p2、p3’、p4’、p5’特征层经过四个cbam注意力模块处理后得到的特征图以及p6、p7特征图会分别经过一个预测器进行预测,如原始retinanet网络模型图2所示。该预测器是基于卷积操作的,分为两个分支,为并行的分类子网络以及回归子网络分类子网络。输出特征图经过分类子网络时,首先进行经过4个大小为3*3*256的卷积核对输出特征图进行处理,在经过四次卷积后都要经过一次relu激活函数,再进行一次3*3的卷积,卷积核的数量为ka,然后通过一个sigmoid激活函数处理后,可以得到最终输出,大小为h*w*k。回归子网络与分类子网络是并行的,并且都是采用的全连接网络。特征图经过回归子网络时,经过4个大小为3*3*256的卷积核对输出特征图进行处理后,然后经过relu激活函数处理卷积层的输出后,通过一个3*3*4的卷积核以及一个sigmoid激活函数后可以得到网络最后的输出。
56.通过此预测器即可得到最终的检测结果。
57.步骤2)中,cbam注意力模块在使用时包括以下子步骤:
58.步骤2-1)cbam模块包含通道注意力模块cam以及空间注意力模块sam这两个子模块。输入特征图首先需要经过通道注意力模块cam的处理,先将特征金字塔fpn得到的特征图经过两个并行的最大池化层maxpool和平均池化层avgpool,特征图大小从c*h*w变为c*1*1,,然后经过两层共享全连接层shared mlp,此处首先将通道数进行压缩至原来的1/r倍,然后再进行扩张至原通道数,然后对两个输出再进行elementwise逐元素相加操作,随后经过sigmoid激活函数激活后,可以得到最终的通道注意力模块的特征图。
59.步骤2-2)然后将该输出特征图与原特征图相乘,得到大小变为c*h*w的特征图。
60.步骤2-3)将步骤2-2)中得到的特征图再经过空间注意力模块sam处理。空间注意力模块sam处理特征图时,首先将通道注意力模块输出的特征图做为输入,通过最大池化层maxpool和平均池化层avgpool处理后,得到两个大小为1*h*w的特征图,然后对其进行concat操作将两个特征图拼接起来,然后再进行一次7*7卷积后,将特征图降为1通道,随后经过sigmoid激活函数激活后即可获得空间注意力模块输出的特征图。
61.步骤2-4)将步骤2-3)得到的特征图与原特征图相乘,得到最终特征图。
62.步骤3)中使用confluence方法对非极大值抑制nms方法进行改进:confluence方法通过曼哈顿距离,在一个簇内选取与其他框距离都最近的那个框,然后删除附近高度重合的框,该方法保留了最优边界框。原非极大值抑制nms方法仅仅只考虑物体的置信度得分,但是当应用场景在公共场所这种人员稠密的地方下,当两个目标距离比较接近且存在部分高度重叠时,如果仅依赖置信度得分,那么置信度较小的目标很可能会被漏检,而confluence方法可以很好解决非极大值抑制nms的问题。
63.点和之间的曼哈顿距离是这两个点之间垂直和水平距离的总和,如下式所示:
[0064][0065]
任意两个边界框bi=(ui,vi)和bj=(uj,vj)之间的接近度度量p(bi,bj)如下式所示,用左上角之间的曼哈顿距离和右下角之间的曼哈顿距离和右下角之间的曼哈顿距离之和表示。p值越小表示两个框的交汇程度越高,反之p值越大则表示两个框表示的不是同一个物体,选择一个簇内p最小的框作为最佳的检测框。
[0066][0067]
在实际使用过程中,由于框的大小尺寸不一,故需要对框进行归一化处理,所有的坐标经过归一化处理到0~1后,两个相交的框之间的接近度量会小于2,p值小于2,即属于同一个簇,根据设置的阈值即可在簇内找到最优的框,与最优框的接近度小于此阈值的所有框都会被删除,对所有的框均重复此操作。
[0068]
归一化算法变换框bi和bj的每个坐标如下所示,该方法通过直接比较大边界框和小边界框之间的关系来区分目标内和目标间边界框。
[0069][0070][0071][0072][0073][0074]
以上,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。

技术特征:
1.基于改进retinanet的口罩规范佩戴检测方法,其特征在于,包括:收集人群佩戴口罩的图像数据,基于所述图像数据构建数据集;基于改进的retinanet网络构建口罩规范佩戴检测网络模型,利用所述数据集训练所述口罩规范佩戴检测网络模型,获取训练后的所述口罩规范佩戴检测网络模型;利用训练后的所述口罩规范佩戴检测网络模型,对口罩佩戴状态进行识别检测。2.如权利要求1所述的基于改进retinanet的口罩规范佩戴检测方法,其特征在于,构建数据集后还包括对所述数据集进行预处理,所述预处理包括:对所述数据集进行格式转换、命名和分类标注。3.如权利要求1所述的基于改进retinanet的口罩规范佩戴检测方法,其特征在于,所述改进的retinanet网络包括主干提取网络resnet50、改进的特征金字塔fpn、cbam注意力模块和预测器;所述主干提取网络resnet50,用于对待检测的规范佩戴口罩图像进行特征提取,获取特征图;所述改进的特征金字塔fpn,用于对所述主干提取网络resnet50提取的特征进行融合,获取融合后的特征图;所述cbam注意力模块,用于对融合的所述特征图进行特征加强处理,获取最终特征图;所述预测器,用于基于所述最终特征图获取所述口罩佩戴状态的检测结果。4.如权利要求3所述的基于改进retinanet的口罩规范佩戴检测方法,其特征在于,通过所述改进的特征金字塔fpn对提取的所述特征进行融合包括:获取所述主干提取网络resnet中卷积层的输出结果,所述输出结果包括第一卷积层、第二卷积层、第三卷积层和第四卷积层,选取所述第一卷积层、第二卷积层、第三卷层和第四卷积层的最后一层特征为输出特征图,记为输出1、输出2、输出3和输出4;基于所述主干提取网络resnet中卷积层的输出结果,所述改进的特征金字塔fpn将所述输出1加入特征金字塔fpn的构造中,采用自上而下的上采样方式,将顶层的小特征图放大到与上一个所述输出特征图一样大小,然后在横向链接部分将上采样后得到的高级语义特征与所述输出特征图的浅层细节特征通过相加的方式进行融合,获取浅层特征,然后再次进行一次自下而上的上采样方式,将所述浅层特征融入进高层特征中,进行两次特征融合后,获取融合后的所述特征图。5.如权利要求3所述的基于改进retinanet的口罩规范佩戴检测方法,其特征在于,所述预测器包括:分类子网络和边框回归子网络;所述分类子网络与所述边框回归子网络为并行的全连接网络。6.如权利要求3所述的基于改进retinanet的口罩规范佩戴检测方法,其特征在于,所述注意力模块cbam包括通道注意力模块cam以及空间注意力模块sam。7.如权利要求6所述的基于改进retinanet的口罩规范佩戴检测方法,其特征在于,所述通道注意力模块cam包括最大池化层maxpool、平均池化层avgpool和共享全连接层shared mlp,所述通道注意力模块cam用于对所述特征图进行处理,获取通道特征图;所述空间注意力模块sam包括最大池化层maxpool、平均池化层avgpool,所述空间注意力模块sam用于对所述通道特征图和融合后的所述特征图的内积进行空间注意力处理,获得最终特征图。
8.如权利要求1所述的基于改进retinanet的口罩规范佩戴检测方法,其特征在于,所述改进的retinanet网络还包括利用confluence方法对非极大值抑制nms方法进行改进,删除冗余的检测框,获取检测结果。9.如权利要求5所述的基于改进retinanet的口罩规范佩戴检测方法,其特征在于,利用训练好的所述口罩规范佩戴检测网络模型,对口罩佩戴状态进行识别检测包括:若所述口罩规范佩戴检测网络模型检测到口罩特征的同时,检测到鼻子特征或嘴巴特征的其中之一,则所述口罩佩戴状态不规范;若所述口罩规范佩戴检测网络模型检测到所述口罩特征,未检测到所述鼻子特征或嘴巴特征,则所述口罩佩戴状态规范。

技术总结
本发明公开了基于改进RetinaNet的口罩规范佩戴检测方法,包括:收集人群佩戴口罩的图像数据,基于所述图像数据构建数据集;基于改进的RetinaNet网络构建口罩规范佩戴检测网络模型,利用所述数据集训练所述口罩规范佩戴检测网络模型,获取训练后的所述口罩规范佩戴检测网络模型;利用训练好的所述口罩规范佩戴检测网络模型,对口罩佩戴状态进行识别检测。本发明能够实现对公共场所中人员口罩佩戴状态的自动检测,提高检测精度。提高检测精度。提高检测精度。


技术研发人员:刘军清 张思甜 康维 张威威 王鹏
受保护的技术使用者:三峡大学
技术研发日:2023.04.14
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐