一种基于坐标注意力和软池化的行人重识别方法

未命名 08-26 阅读:81 评论:0


1.本发明涉及计算机视觉图像处理技术领域,尤其涉及一种基于坐标注意力和软池化的行人重识别方法。


背景技术:

2.目标识别是智慧城市建设和国防建设不可或缺的关键技术,属于计算机图像识别领域的一部分。众所周知。行人是各种活动的主体,因此对行人的准确识别一直是目标识别领域的一项难题。行人重识别,也称为行人再识别,主要目的是解决不同场景中行人的匹配问题。简单来说,就是将出现在某个摄像头中的行人与出现在其他摄像头中的相同行人进行匹配。行人重识别技术的出现弥补了行人身份识别的缺陷,由于在监控场景下缺乏人脸信息,难以辨认行人的身份,在智能视频监控、智能安保、法医部门取证以及无人超市运营等领域具有重要的应用价值。但是行人重识别目前还未应用到实际的场景中去。主要是存在以下的问题:
3.1.由于不同摄像头的参数不同,监控环境的多变,行人图像容易受到照明、视角、模糊和遮挡等因素的影响,并且同一行人可能在不同的相机中显示出不同的行人特征,这使行人重识别领域面临着巨大的挑战。
4.2.目前行人重识别的数据集虽然已有几个主流公开的数据集,如market1501、dukemtmc-reid、cuhk03数据集等,但是相对于其他图像识别领域,行人重识别数据集依然较少。同时,获取行人重识别数据集面临着跨气候、跨场景等问题,因此收集行人重识别的数据集也具有挑战性。
5.注意力机制常常用于深度学习的任务中,在图像识别领域也被广泛使用。它用于给定一组输入行人图像和一个查询图像,可以自动地计算出输入行人图像和查询行人图像的部分。在计算注意力权重时,通常会考虑输入中每个元素的重要性,并为每个元素分配一个权重,进而反映出它在整个输入过程中的相对重要性。因此,在行人重识别领域,注意力模块通常被融入到卷积神经网络中,可以帮助网络提取到更具有判别力的行人特征。
6.近年来,注意力机制由于其良好的效果被广泛应用在行人重识别领域。已有学者提出的和谐注意力、通道注意力以及通道注意力和空间注意力相结合的方法,但是单一的通道注意力网络模型比较简单,有可能会造成空间信息的缺失,难以提取行人图像中显著性、判别力不强的特征,因此出现多重注意力网络,可以捕获空间和通道维度中的全局特征依赖关系,进而提升模型的性能,但也会增加模型的计算量。


技术实现要素:

7.针对上述问题,本发明提出一种基于坐标注意力和软池化的行人重识别方法,本发明提出一种改进的坐标注意力模块,并融入软池化层,将上述的两个模块嵌入到resnet50网络中,进而提取更具有判断力的行人特征,提高网络的泛化能力和识别能力。
8.本发明提出一种改进的坐标注意力机制,与通道注意力不同的是,坐标注意力机
制通过计算输入的行人特征和查询行人特征的距离,并在计算注意力权重时将这些距离考虑在内,从而确定哪些特征在给定的查询行人图像中更重要,这使得坐标注意力机制可以更好地处理具有明确结构和局部相关性的输入,进而使网络捕捉到更感兴趣的行人特征。而本发明在基于坐标注意力的基础上进行改进,以坐标注意力机制为基础添加了空间注意力模块,空间注意力模块主要是通过压缩通道维度保持空间维度不变,目的是更加关注空间上的位置信息。
9.一种基于坐标注意力和软池化的行人重识别方法,步骤如下:
10.步骤一:构建含有改进的坐标注意力模块的行人重识别网络,其中将resnet50网络作为特征提取的主干网络,其中包括全局分支、改进的坐标注意力模块以及软池化层。
11.步骤二:利用公开数据集中的train数据集对含有改进的坐标注意力模块的resnet50网络进行训练,本发明使用难样本三元组损失函数和交叉熵损失函数。
12.步骤三:将步骤二训练后的权重文件用于公开数据集中的test数据集进行测试,其中评价指标采用平均准确率map(mean average precision)和rank-1,其中rank-1表示查询结果中第一张图像与搜索图像属于同一行人的概率。
13.步骤四:将公开的gallery数据集输入到由步骤二得到的模型,保存模型提取到的行人特征,最后得到一个行人图像特征数据库,每个特征都对应唯一的行人id。
14.步骤五:输入查询行人图像得到特征,通过检索行人图像特征数据库计算出相似度,相似度最高的行人图片所对应的的行人id即为所查询行人图像的id。
15.本发明具有如下效益:
16.1.提出了一种改进的坐标注意力模块,以坐标注意力模块为基础添加空间注意力模块,实现在空间和通道上对输入的行人图像的关键信息进行加权关注,将改进的坐标注意力模块嵌入到resnet50网络中不同的卷积层中,以增强显著性区域并且抑制无关区域,使网络可以关注到更感兴趣的区域,进而提取到更具有判别力的行人特征。
17.2.融入了软池化层,软池化层可以在下采样激活映射中保留更多的信息,可以提高卷积神经网络的分类精度。
18.3.本发明采用难样本三元组损失和交叉熵损失联合训练网络,可以更好地优化模型。
附图说明:
19.图1为本发明的基于坐标注意力机制和软池化的行人重识别网络结构图
20.图2为本发明的改进的坐标注意力的结构示意图
21.图3为本发明的软池化层的结构示意图
具体实施方式:
22.现将结合附图以及使用公开的数据集market1501和dukemtmc-reid对本发明具体实施方式进行详细地说明。
23.图1为本发明的整体网络结构图,首先输入图片大小为256
×
128,图片输入到主干网络中,经过第一个卷积层(resnet50_conv1)并经过软池化层(softpool),同时将第一个卷积层的relu层去除,提取到浅层的行人特征,其中软池化层是一种快速有效的指数加权
激活下采样的方法,软池化层可以在减少的激活映射中保留更多的特征信息,同时可以提高神经网络的分类精度。然后通过网络中第二个卷积层(resnet50_conv2),从第二层卷积层开始提取到更深层的行人特征。局部分支分别为需要嵌入resnet_conv2,resnet_conv3以及resnet_conv4后的改进的坐标注意力模块(ca-sa),其中改进的坐标注意力模块由坐标注意力模块和空间注意力模块组成。坐标注意力为了减轻由2维全局池化引起的位置信息损失。将通道注意力分解成两个并行的1维特征编码过程,有效地整合空间坐标信息再转换成生成的注意力图。更具体地说,主要是利用了一对一维的全局池化,将沿垂直和水平方向的输入特征分别聚合到两个单独的方向特征图中,然后将这两个具有嵌入方向特定信息的特征图分别编码为两个注意力图,每个注意力图捕获输入特征图沿一个空间方向的长距离依赖性。因此,可以将位置信息保存在所生成的注意力图,然后通过乘法将两个注意力图用于输入的特征图。而空间注意力模块以坐标注意力为基础进行加权关注,进而捕获全局的位置信息,提高了模型的准确率。在全局分支中,将所得到的特征图输入到全局平均池化层(gap),所得到的特征计算难样本三元组损失,然后继续将特征输入到全连接层,计算交叉熵损失。计算过程为:
24.step1:对于给定的中间特征图输入为x∈rc×h×w,中间特征图通过改进的坐标注意力模块,在通过坐标注意力模块生成的注意力权重系数为w
ca
∈rc×h×w,通过空间坐标注意力模块的权重系数为w
sa
∈rc×h×w。
25.step2:使用残差学习的方案,对最后获得的权重进行点乘,得到更具判别力的行人特征。
26.(1)
27.(2)
28.(3)
29.step3:本发明使用难样本三元组损失和交叉熵损失联合训练网络,交叉熵损失一般应用于大多数的分类任务中,用来作为预测值和真实标签值得距离度量。将行人重识别任务设置为分类任务。假定网络分类的预测特征为f,交叉熵损失函数定义为:
[0030][0031]
式中,n表示分类的个数,wi表示全连接层中第i个类的权重向量,y表示真实标签。另外针对行人重识别任务数据集规模较小容易产生过拟合的问题,本发明采用标签平滑策略,其中qi的计算如下:
[0032][0033]
其中ε为标签平滑参数,设置为0.1。
[0034]
step4:采用难样本三元组损失,就是在每个训练的样本中随机选出p个不同的行人,从每个行人类别选出k张图像,若某个行人类别小于k张时,可以重复选择,共构成p
×k个样本,难样本三元组损失函数为:
[0035][0036]
其中指标签为i的行人样本a的特征向量,和分别表示标签为i的相同样本的特征向量以及标签为j不同样本的特征向量。β表示根据实际需要设置的阈值参数,设置为0.5,[
·
]
+
=max(
·
,0)。
[0037]
step5:最终的损失函数公式为:
[0038]
l
total
=l
ce
+γl
trihard
[0039]
其中,γ表示难样本损失函数的权重系数,设置为1。
[0040]
图2为本发明改进的坐标注意力模块的结构示意图,计算流程如下:
[0041]
step1:给定的输入x,使用两个大小为(h,1)和(1,w)的池化内核分别沿着水平坐标和垂直坐标对每一个通道进行编码,所以高为h的第c个通道的输出公式为:
[0042][0043]
同理,宽为w的第c个通道的输出公式为:
[0044][0045]
step2:对上述等式进行级联操作,然后将它们发送到共享的1
×
1卷积变换函数f1,公式为:
[0046]
f=δ(f1([zh,zw]))
[0047]
其中,[
·
,
·
]表示沿空间维度的级联操作,δ表示非线性激活函数。
[0048]
step3:将f沿着空间维度拆分成两个独立的张量,分别是fh∈r
c/r
×h、fw∈r
c/r
×w,然后再利用两个1
×
1卷积fh和fw将特征图fh和fw分别变换成和输入x具有相同通道数的张量,公式如下:
[0049]gh
=σ(fh(fh))
[0050]gw
=σ(fw(fw))
[0051]
其中σ是sigmoid函数;
[0052]
step4:将输出的gh和gw展开用作注意力的权重,最终坐标注意力模块y的输出为:
[0053][0054]
step5:空间注意力模块使用两个池化操作聚合特征图的通道信息,生成两个特征图f
avg
∈1
×h×
w、f
max
∈1
×h×
w,分别表示生成的平均池化特征和最大池化特征,然后将两个特征图进行拼接,通过卷积层,公式为:
[0055]f′
=f7([f
avg
,f
max
])
[0056]
其中[
·
,
·
]表示沿空间维度的级联操作,f7为7
×
7的卷积操作,
[0057]
step6:再经过一个激活函数得到空间注意力的特征图,然后与上一部分坐标注意力得到的y相乘,得到最终的注意力模块z输出为:
[0058]
zc(i,j)=σ(f

)
×
yc(i,j)
[0059]
其中σ是sigmoid函数。
[0060]
图3为本发明的软池化层的结构示意图,软池化层可以在减少的激活映射中保留更多的信息。计算过程如下:
[0061]
step1:softpool是基于自然指数(e)来计算的,主要利用内核区域r内激活的平滑最大近似值,每个激活ai对应的权重为wi,其中权重wi被计算为该激活的自然指数与邻域r内的所有激活的自然指数的和的比值,公式为:
[0062][0063]
step2:softpool的输出是通过内核邻域r内所有加权激活的标准求和产生的:
[0064][0065]
图3中,前向传播使用每个激活的指数softmax值作为权重,并计算r所在区域的加权和,这些权重也用于反向传播的梯度
[0066]
为了验证本发明的有效性和准确性,本发明在公开的主流数据集market1501和dukemtmc-reid上,并使用平均准确率(mean average precision,map)和rank-1作为评价指标,rank-1表示查询结果中第一张图像与搜索图像属于同一个行人的概率,map指的是平均精度的均值。本发明与近年来的一系列先进的行人重识别方法在两个主流的数据集上进行比较,具体实验结果如表1所示。
[0067]
表1
[0068][0069]
表2
[0070][0071]
本发明方法在market-1501的map和rank-1分别为85.8%、95.6%,在dukemtmc-reid上map和rank-1分别为75.4%、86.4%。
[0072]
以上所述的具体实施方式,对本发明的目的、原理和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

技术特征:
1.一种基于坐标注意力和软池化行人重识别方法,步骤如下:步骤一:构建含有改进的坐标注意力模块的行人重识别网络,其中将resnet50网络作为特征提取的主干网络,其中包括全局分支、改进的坐标注意力模块以及软池化层。步骤二:利用公开数据集中的train数据集对含有改进的坐标注意力模块的resnet50网络进行训练,本发明使用难样本三元组损失函数和交叉熵损失函数。步骤三:将步骤二训练后的权重文件用于公开数据集中的test数据集进行测试,其中评价指标采用平均准确率map(mean average precision)和rank-1,其中rank-1表示查询结果中第一张图像与搜索图像属于同一行人的概率。步骤四:将公开的gallery数据集输入到由步骤二得到的模型,保存模型提取到的行人特征,最后得到一个行人图像特征数据库,每个特征都对应唯一的行人id。步骤五:输入查询行人图像得到特征,通过检索行人图像特征数据库计算出相似度,相似度最高的行人图片所对应的的行人id即为所查询行人图像的id。2.根据权利要求1所述的一种基于坐标注意力机制和软池化的行人重识别方法,其特征在于,步骤一中构建坐标注意力和软池化的行人重识别方法具体步骤如下:1.1本发明使用在imagenet预训练过得resnet50网络作为主干网络,经过第一个卷积层(resnet50_conv1)并经过软池化层(softpool),同时将第一个卷积层的relu层去除,提取到浅层的行人特征,其中软池化层是一种快速有效的指数加权激活下采样的方法,软池化层可以在减少的激活映射中保留更多的特征信息,同时可以提高神经网络的分类精度。然后通过网络中第二个卷积层(resnet50_conv2),从第二层卷积层开始提取到更深层的行人特征。局部分支分别为需要嵌入resnet_conv2,resnet_conv3以及resnet_conv4后的改进的坐标注意力模块(ca-sa),其中改进的坐标注意力模块由坐标注意力模块和空间注意力模块组成。1.2坐标注意力为减轻由2维全局池化引起的位置信息损失。将通道注意力分解成两个并行的1维特征编码过程,有效地整合空间坐标信息再转换成生成的注意力图。更具体地说,主要是利用一对一维的全局池化,将沿垂直和水平方向的输入特征分别聚合到两个单独的方向特征图中,然后将这两个具有嵌入方向特定信息的特征图分别编码为两个注意力图,每个注意力图捕获输入特征图沿一个空间方向的长距离依赖性。因此,可以将位置信息保存在所生成的注意力图,然后通过乘法将两个注意力图用于输入的特征图。而空间注意力模块在坐标注意力基础上进行加权关注,进而捕获全局的位置信息,提高了模型的准确率。1.3在全局分支中,将所得到的特征图输入到全局平均池化层(gap),所得到的特征计算难样本三元组损失,然后继续将特征输入到全连接层,计算交叉熵损失。3.根据权利要求2所述的一种基于坐标注意力机制和软池化的行人重识别方法,其特征在于,所述的改进的坐标注意力模块的计算流程为:step1:给定的输入x,使用两个大小为(h,1)和(1,w)的池化内核分别沿着水平坐标和垂直坐标对每一个通道进行编码。所以高为h的第c个通道的输出公式为:同理,宽为w的第c个通道的输出公式为:
step2:对上述等式进行级联操作,然后将它们发送到共享的1
×
1卷积变换函数f1,公式为:f=δ(f1([z
h
,z
w
]))其中,[
·
,
·
]表示沿空间维度的级联操作,δ表示非线性激活函数。step3:将f沿着空间维度拆分成两个独立的张量,分别是f
h
∈r
c/r
×
h
、f
w
∈r
c/r
×
w
,然后再利用两个1
×
1卷积f
h
和f
w
将特征图f
h
和f
w
分别变换成和输入x具有相同通道数的张量,公式如下:g
h
=σ(f
h
(f
h
))g
w
=σ(f
w
(f
w
))其中σ是sigmoid函数;step4:将输出的g
h
和g
w
展开用作注意力的权重,最终坐标注意力模块y的输出为:step5:空间注意力模块使用两个池化操作聚合特征图的通道信息,生成两个特征图f
avg
∈1
×
h
×
w、f
max
∈1
×
h
×
w,分别表示生成的平均池化特征和最大池化特征,然后将两个特征图进行拼接,通过卷积层,公式为:f

=f7([f
avg
,f
max
])其中[
·
,
·
]表示沿空间维度的级联操作,f7为7
×
7的卷积操作,step6:再经过一个激活函数得到空间注意力的特征图,然后与上一部分坐标注意力得到的y相乘,得到最终的注意力模块z输出为:z
c
(i,j)=σ(f

)
×
y
c
(i,j)其中σ是sigmoid函数。4.根据权利要求2所述的一种基于坐标注意力机制和软池化的行人重识别方法,其特征在于,所述的改进的软池化层的计算流程为:step1:softpool是基于自然指数(e)来计算的,主要利用内核区域r内激活的平滑最大近似值,每个激活a
i
对应的权重为w
i
,其中权重w
i
被计算为该激活的自然指数与邻域r内的所有激活的自然指数的和的比值,公式为:step2:softpool的输出是通过内核邻域r内所有加权激活的标准求和产生的:5.根据权利要求2所述的一种基于坐标注意力机制和软池化的行人重识别方法,其特征在于,所述的损失函数的计算流程为:step1:本发明使用难样本三元组损失和交叉熵损失联合训练网络,交叉熵损失一般应用于大多数的分类任务中,用来作为预测值和真实标签值得距离度量。将行人重识别任务设置为分类任务。假定网络分类的预测特征为f,交叉熵损失函数定义为:
式中,n表示分类的个数,w
i
表示全连接层中第i个类的权重向量,y表示真实标签。另外针对行人重识别任务数据集规模较小容易产生过拟合的问题,采用标签平滑策略,其中q
i
的计算如下:其中ε为标签平滑参数,设置为0.1。step2:采用难样本三元组损失,就是在每个训练的样本中随机选出p个不同的行人,从每个行人类别选出k张图像,若某个行人类别小于k张时,可以重复选择,共构成p
×
k个样本,难样本三元组损失函数为:其中指标签为i的行人样本a的特征向量,和分别表示标签为i的相同样本的特征向量以及标签为j不同样本的特征向量。β表示根据实际需要设置的阈值参数,设置为0.5,[
·
]
+
=max(
·
,0)。step3:最终的损失函数公式为:l
total
=l
ce
+γl
trihard
其中,γ表示难样本损失函数的权重系数,设置为1。

技术总结
本发明公开了一种基于坐标注意力和软池化的行人重识别方法,包括S1:在ResNet50网络中融入改进的坐标注意力模块和软池化层,构建坐标注意力机制和软池化层行人重识别网络;S2:使用数据集中的训练集对坐标注意力机制和软池化层行人重识别网络进行训练,并采用难样本三元组损失和交叉熵损失联合训练网络;S3:将S2训练得到的坐标注意力和软池化的行人重识别网络使用数据集中的测试集进行测试,进而评估网络的识别效果,提高模型的识别能力。S4:输入查询行人图像得到行人特征,使用欧氏距离计算行人图像和数据集中的行人图像之间的相似度,并按照相似度大小进行排列,得到识别的结果。本发明所设计的改进的坐标注意力模块,可以在空间和通道上对输入的行人图像进行加权关注,帮助模型提取到更具有判别力的行人特征,提高模型的泛化能力,并与现有主流的行人重识别方法进行比较,并在两个主流的数据集Market1501,DukeMTMC-reID上证明本发明方法的有效性。的有效性。


技术研发人员:杨楠 崔鹏 周舟
受保护的技术使用者:哈尔滨理工大学
技术研发日:2023.06.01
技术公布日:2023/8/24
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐