基于困难类别感知机制的夜间街景语义分割方法
未命名
10-21
阅读:139
评论:0

1.本发明属于图像处理以及计算机视觉技术领域,具体涉及一种基于困难类别感知机制的夜间街景语义分割方法。
背景技术:
2.当今社会,人工智能作为先进的科技代表,在各个方面都影响着人们生活与社会的发展。图像处理技术的准确性、时效性在人工智能领域越来越重要。由于自动驾驶、智慧城市等在全球范围内受到了更多人的认可。在无人驾驶方面,鉴于无人驾驶这一技术对于安全性的较高要求,驾驶系统需要在不断变化的外界环境中进行车辆的行驶过程中的路线规划以及对障碍物如其他车辆、建筑物等的检测,这就要求很高的精确度来完成这项精准的任务,通过语义分割可以实时判断道路上的各个标记。在这些领域,理解周围环境的语义信息对于躲避障碍物、减少车与车或车与人之间的碰撞具有非常重要的现实意义。语义分割的主要任务是为图像中的像素点标记类别信息。具体来说,与分类任务相似,使用分类网络加上分割头对图像中的像素点进行分类。
3.在无人驾驶中,夜间图像的语义分割与白天图像的语义分割具有同等重要的作用。但由于夜间图像存在较大的复杂的退化现象,在夜间微弱的自然光照条件下,图像中的边缘信息,纹理信息以及图像色彩中的一些语义信息都会发生急剧的改变,这使得图像中的部分语义信息可能因为图像质量过低或者人造光源的干扰而完全丢失。并且夜间图像的标注更为困难,所以夜间图像的语义分割更具挑战性。现如今大多数的主流语义分割方法并不适用于夜间。这是因为大多数模型和框架都是在白天的条件下训练的,这会产生巨大的域偏差,这导致了某些传统模型能在白天图像上取得令人满意的性能,然而夜间图像的效果并不是很理想。因此,夜间街景语义分割在现实中则具有很高的应用价值,可以辅助智能汽车对夜间场景进行理解,在夜间检测障碍物和行人,从而预防交通事故。总的来说,夜间街景语义分割,由于夜间街景图像具有许多复杂的语义退化现象,常规传统的语义分割模型并不能获得较好的分割处理结果,所以夜间街景语义分割现如今是一项十分具有难度和意义的课题。
技术实现要素:
4.针对现有技术存在的缺陷和不足,本发明的目的在于提供一种基于困难类别感知机制的夜间街景语义分割方法。该方法能利用曝光纹理图,通过梯度反向传播,使得编码器隐式的学习图像中的曝光特征和纹理特征,同时使用困难类别感知模块加强困难类别语义分割网络对困难类别的识别和定位能力,有效地提高了夜间街景语义分割算法的性能。
5.主要包括以下步骤:
6.步骤s1:将夜间街景数据集划分为训练集和测试集,对数据集中的夜间城市景观图像和对应标签进行数据预处理,包括数据增强、归一化处理等;步骤s2:在主体语义分割网络的基础上,构建隐式感知曝光纹理的辅助分支,通过梯度反向传播,使得网络中的编码
器隐式地学习图像中的曝光特征和纹理特征;步骤s3:构建困难类别语义分割网络和困难类别感知模块,其中困难类别感知模块利用主体语义分割网络的特征来加强困难类别语义分割网络编码器对困难类别的识别和定位能力,最后将两个网络的分割结果融合;步骤s4:构建基于困难类别感知机制的夜间街景语义分割的训练管道,使用该管道和训练集图像训练基于困难类别感知机制的夜间街景语义分割模型;步骤s5:将夜间街景的测试图像输入到训练好的基于困难类别感知机制的夜间街景语义分割模型中,输出对应的语义分割掩码图。
7.本发明解决其技术问题具体采用的技术方案是:
8.一种基于困难类别感知机制的夜间街景语义分割方法,通过基于困难类别感知机制的夜间街景语义分割模型输出的语义分割掩码图进行夜间街景语义分割,包括以下步骤:
9.步骤s1:将夜间街景数据集划分为训练集和测试集,对数据集中的夜间城市景观图像和对应标签进行数据预处理;
10.步骤s2:在主体语义分割网络的基础上,构建隐式感知曝光纹理的辅助分支,通过梯度反向传播,使得网络中的编码器隐式地学习图像中的曝光特征和纹理特征;
11.步骤s3:构建困难类别语义分割网络和困难类别感知模块,其中困难类别感知模块利用主体语义分割网络的特征以加强困难类别语义分割网络编码器对困难类别的识别和定位能力,最后将两个网络的分割结果融合;
12.步骤s4:构建基于困难类别感知机制的夜间街景语义分割的训练管道,使用该管道和训练集图像训练基于困难类别感知机制的夜间街景语义分割模型;
13.步骤s5:将夜间街景的测试图像输入到训练好的基于困难类别感知机制的夜间街景语义分割模型中,输出对应的语义分割掩码图。
14.进一步地,步骤s1具体包括以下步骤:
15.步骤s11:按照一定比例将数据集划分为训练集和测试集;
16.步骤s12:对训练集中的图像进行数据增强以增加数据集中的样本数量;
17.步骤s13:对步骤s12数据增强后的图像进行预处理,转化为夜间街景语义分割网络的输入图像:首先对图像进行随机裁剪,进而对裁剪后大小统一的图像进行归一化操作,将图像数据转化为标准正态分布;为了保证标签中分割区域的大小及位置同夜间城市景观图像相对应,在每一步对图像数据增强和图像预处理的同时也对标签进行相同操作。
18.进一步地,步骤s2具体包括以下步骤:
19.步骤s21:将夜景图像输入到主体语义分割网络的编码器中得到维度大小分别为步骤s21:将夜景图像输入到主体语义分割网络的编码器中得到维度大小分别为的四层特征图{f1,f2,f3,f4},并将四层特征图输入解码器中得到主体语义分割图,其中h、w和c分别代表特征图的高度、宽度和通道数,具体表达式为:
20.s=clsseg(f1,f2,f3,f4)
21.其中,clsseg(
·
)表示对特征进行语义分割,得到夜间街景语义分割掩码图;
22.步骤s22:将从步骤s21中得到的{f1,f2,f3,f4}作为曝光纹理辅助分支的输入,其中特征图{f1,f2,f3}分别输入到1
×
1的卷积层中,调整其对应特征的通道数,具体的表达式
为:
23.fi′
=wi(fi)+bi,τ=1,2,3
24.其中,wi,bi是1
×
1卷积层的权重和偏置;通过1
×
1卷积层,{f1′
,f2′
,f3′
}的维度被调整为
25.步骤s23:将具有最高语义的特征图f4送入空间金字塔池化模块,在原始特征图上使用不同尺度的池化,得到多个不同尺寸的特征图,再在通道维度上拼接这些特征图,最终输出一个融合了多种尺度的复合特征图,从而达到兼顾全局语义信息与局部细节信息的加强特征f4′
,最后f4′
的维度通过3
×
3卷积层被调整为具体的表达式为:
26.pi=adaptiveavgpool(f4,ε),i=1,2,3,4
27.pi′
=wi(pi)+bi,i=1,2,3,4
28.f4′
=concat(p1′
,p2′
,p3′
,p4′
)
29.其中,adaptiveavgpool(
·
)表示自适应平均池化操作,ε是池化大小,wi,bi是1
×
1卷积层的权重和偏置,concat(
·
)表示特征在新的维度上进行拼接;
30.步骤s24:将s22步骤和s23步骤中得到的四个具有相同通道数的特征图{f1′
,f2′
,f3′
,f4′
}在相邻层次进行融合,其操作是将更抽象和语义更强的高层特征图进行上采样,然后与相邻层次的特征图进行融合,以进一步增强语义信息和位置信息;具体的表达式为:
31.f4″
=f4′
32.ui=upsample(f
i+1
′
)+fi′
,i=1,2,3
33.ui=wi(ui)+bi,i=1,2,3
34.fi″
=upsample(ui′
),i=1,2,3
35.e=concat(f1″
,f2″
,f3″
,f4″
)
36.其中,upsample(
·
)表示上采样操作,ui′
表示经过第i个深度卷积层的输出特征,wi,bi是第i个深度卷积层的权重和偏置,concat(
·
)表示特征在维度上进行拼接;
37.步骤s25:将s24步骤中得到的曝光纹理特征e送入曝光纹理解码器中,得到曝光纹理图,通过梯度反向传播,使得编码器隐式地学习图像中的曝光特征和纹理特征,具体表达式如下:
38.e
′
=w(e)+b
39.i=trgb(e
′
)
40.其中,w,b是3
×
3卷积层的权重和偏置,trgb(
·
)表示将特征转换为3通道图像,得到曝光纹理图。
41.进一步地,步骤s3具体包括以下步骤:
42.步骤s31:将主体语义分割网络的编码器中的四层特征图与来自困难类别语义分割网络的编码器中的四层特征图作为困难类别感知模块的输入,分别为主体语义分割网络与困难类别语义分割网络第i层编码器提取的特征;
43.步骤s32:在困难类别语义分割网络的每层编码器前加入困难类别感知模块,对第
i层的特征计算亲和力矩阵以增强对困难类别的识别和定位,模块的输出为增强感知困难类别的特征具体表达式如下:
[0044][0045][0046]
其中
⊙
表示矩阵逐元素乘法,si表示第i层特征计算的亲和力矩阵。
[0047]
进一步地,步骤s4具体包括以下步骤:
[0048]
步骤s41:以swintransformer-upernet语义分割网络作为基础,分别构建主体语义分割网络和困难类别语义分割网络:对于主体语义分割分支,以swintransformer作为编码器,以对步骤s1预处理之后的夜间街景图像进行特征提取,得到四个尺度不同、通道数不同的特征图{f1,f2,f3,f4};将四个特征作为输入送入upernet解码器中,将特征解码为语义分割掩码图,并将s2步骤中构建的曝光纹理辅助分支插入到网络的编码器之后,以得到曝光纹理图,使编码器隐式地学习图像中的曝光特征和纹理特征;网络的输入为夜间街景图像i以及对应的标签l
all
,网络的输出为两张图像:夜间街景语义分割掩码图p
all
和曝光纹理分割图i;
[0049]
步骤s42:记步骤s41中构建的网络为m,为了进一步加强模型对困难类别的语义分割能力,增加困难类别语义分割网络h,网络h的网络结构在网络m的基础上,为了增强对困难类别的感知能力,增加s3步骤中构建的困难类别感知模块,困难样本语义分割网络h的输入为夜间街景图像i以及对应的标签l
hard
,其中l
hard
代表标签中仅含有困难类别,非困难类别均被设置为背景类别;困难类别语义分割网络h的输出为夜间街景语义分割困难类别掩码图p
hard
;
[0050]
步骤s43:将经过步骤s1的训练集中的某个批次的图像和对应的标签先输入至s41步骤的网络中进行训练,预测得到夜间街景语义分割掩码图和曝光纹理图,接着冻结住s41步骤的网络参数联合训练s42步骤中的网络,得到夜间街景困难类别语义分割掩码图;
[0051]
步骤s44:根据主体语义分割网络m的损失函数,利用反向传播方法计算网络中各参数的梯度,并利用随机梯度下降方法更新参数;网络的损失函数l
main
如下:
[0052]
l
main
=loss
ce
+loss
aux
[0053][0054]
loss
aux
=loss
exp
+loss
spa
+loss
sem
[0055][0056]
[0057][0058]
其中,l
main
为网络m的损失函数,loss
ce
代表交叉熵损失函数;loss
aux
代表曝光纹理辅助损失函数,由曝光损失loss
exp
、空间一致性损失loss
spa
、语义亮度一致性损失loss
sem
组成;对于曝光损失loss
exp
,m表示非重叠局部区域的数量,yk表示曝光纹理分割图中局部区域的平均强度值,e为假定的良好曝光水平的平均强度值;对于空间一致性损失loss
spa
,k是局部区域的数量,ω(i)是以区域i为中心的上、下、左、右四个相邻区域,y、i分别表示为增强图像和普通图像中局部区域的平均强度值;对于语义亮度一致性损失loss
sem
,s表示语义预测的类别数,θs表示为属于类别s的像素索引集合,表示曝光纹理分割图像ih在像素点i的强度水平,bs表示类别s的平均强度水平;
[0059]
步骤s45:根据困难类别语义分割网络h的损失函数,利用反向传播方法计算网络中各参数的梯度,并利用随机梯度下降方法更新参数;网络的损失函数l如下:
[0060]
l
hard
=loss
ce
[0061]
步骤s46:以批次为单位重复步骤s43至步骤s45,直至步骤s35中计算得到的损失值收敛并趋于稳定,保存网络参数,完成困难类别感知机制的夜间街景语义分割网络的训练过程。
[0062]
进一步地,在步骤s42中,构建困难类别语义分割网络h时,为了节省内存,删去曝光纹理辅助头分支。
[0063]
进一步地,步骤s5具体包括以下步骤:
[0064]
步骤s51:将测试集中的夜间街景图像分别输入到训练好的主体语义分割网络和困难类别语义分割网络,分别输出对应的夜间街景语义分割掩码图p
all
、夜间街景语义分割困难类别掩码图p
hard
。
[0065]
进一步地,步骤s5还包括以下步骤:
[0066]
步骤s52:根据步骤s51得到的p
all
、p
hard
,为了提升对困难类别的语义分割效果,通过置信度大小选取p
hard
中的“高置信区域”对p
all
中相同位置的置信度进行替换,从而提升模型对困难类别的识别能力,“高置信区域”的定义为困难类别语义分割网络比主体语义分割网络在困难类别上预测更好的区域,替换的计算公式如下:
[0067][0068]
其中,i代表当前语义类别,c
easy
表示除去困难类别的简单类别,c
hard
表示困难类别。
[0069]
以及,一种基于困难类别感知机制的夜间街景语义分割系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上所述的方法。
[0070]
一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上所述的方法。
[0071]
与现有技术相比,本发明及其优选方案利用曝光纹理图,通过梯度反向传播,使得编码器隐式的学习图像中的曝光特征和纹理特征,同时使用困难类别感知模块加强困难类别语义分割网络对困难类别的识别和定位能力,有效地提高了夜间街景语义分割算法的性能。
附图说明
[0072]
下面结合附图和具体实施方式对本发明进一步详细的说明:
[0073]
图1是本发明实施例方法的实现流程图。
[0074]
图2是本发明实施例中网络模型结构图。
具体实施方式
[0075]
为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
[0076]
应该指出,以下详细说明都是例示性的,旨在对本技术提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
[0077]
本发明实施例提供一种基于困难类别感知机制的夜间街景语义分割方法,如图1、图2所示,其核心在于基于困难类别感知机制的夜间街景语义分割模型的构建,包括以下步骤:
[0078]
步骤s1:将夜间街景数据集划分为训练集和测试集,对数据集中的夜间城市景观图像和对应标签进行数据预处理,包括数据增强、归一化处理等;
[0079]
步骤s2:在主体语义分割网络的基础上,构建隐式感知曝光纹理的辅助分支,通过梯度反向传播,使得网络中的编码器隐式地学习图像中的曝光特征和纹理特征;
[0080]
步骤s3:构建困难类别语义分割网络和困难类别感知模块,其中困难类别感知模块利用主体语义分割网络的特征来加强困难类别语义分割网络编码器对困难类别的识别和定位能力,最后将两个网络的分割结果融合;
[0081]
步骤s4:构建基于困难类别感知机制的夜间街景语义分割的训练管道,使用该管道和训练集图像训练基于困难类别感知机制的夜间街景语义分割模型;
[0082]
步骤s5:将夜间街景的测试图像输入到训练好的基于困难类别感知机制的夜间街景语义分割模型中,输出对应的语义分割掩码图。
[0083]
在本实施例中,步骤s1具体包括以下步骤:
[0084]
步骤s11:采用夜间城市景观数据集nightcity,对于数据集中的图像,按照一定比例将数据集划分为训练集和测试集,训练集包括2998张图片,测试集包括1299张图片;;
[0085]
步骤s12:对训练集中的图像进行数据增强来增加数据集中的样本数量,包括随机翻转图像,随机裁剪图像,光度失真等;
[0086]
步骤s13:对步骤s12数据增强后的图像进行预处理,转化为夜间街景语义分割网络的输入图像。首先将图像的大小裁剪至512
×
512像素,进而对裁剪后大小统一的图像进行归一化操作,将图像数据转化为标准正态分布;为了保证标签中分割区域的大小及位置同夜间城市景观图像相对应,在每一步对图像数据增强和图像预处理的同时也对标签进行同样的操作。
[0087]
在本实施例中,步骤s2具体包括以下步骤:
[0088]
取c=128,h=512,w=512。
[0089]
步骤s21:将夜景图像输入到主体语义分割网络的编码器中得到维度大小分别为步骤s21:将夜景图像输入到主体语义分割网络的编码器中得到维度大小分别为的四层特征图{f1,f2,f3,f4},并将四层特征图输入解码器中得到主体语义分割图,其中h、w和c别代表特征图的高度、宽度和通道数,具体表达式为:
[0090]
s=clsseg(f1,f2,f3,f4)
[0091]
其中,clsseg(
·
)表示对特征进行语义分割,得到夜间街景语义分割掩码图;
[0092]
步骤s22:将从步骤s21中得到的{f1,f2,f3,f4}作为曝光纹理辅助分支的输入,其中特征图{f1,f2,f3}分别输入到1
×
1的卷积层中,调整其对应特征的通道数,具体的表达式为:
[0093]fi
′
=wi(fi)+bi,i=1,2,3
[0094]
其中,wi,bi是1
×
1卷积层的权重和偏置。通过1
×
1卷积层,{f1′
,f2′
,f3′
}的维度被调整为
[0095]
步骤s23:将具有最高语义的特征图f4送入空间金字塔池化模块,即在原始特征图上使用不同尺度的池化,得到多个不同尺寸的特征图,再在通道维度上拼接这些特征图,最终输出一个融合了多种尺度的复合特征图,从而达到兼顾全局语义信息与局部细节信息的加强特征f4′
,最后f4′
的维度通过3
×
3卷积层被调整为具体的表达式为:
[0096]
pi=adaptiveavgpool(f4,ε),i=1,2,3,4
[0097]
pi′
=wi(pi)+bi,i=1,2,3,4
[0098]
f4′
=concat(p1′
,p2′
,p3′
,p4′
)
[0099]
其中,adaptiveavgpool(
·
)表示自适应平均池化操作,ε是池化大小,wi,bi是1
×
1卷积层的权重和偏置,concat(
·
)表示特征在新的维度上进行拼接;
[0100]
步骤s24:将s22步骤和s23步骤中得到的四个具有相同通道数的特征图{f1′
,f2′
,f3′
,f4′
}在相邻层次进行融合,其操作是将更抽象和语义更强的高层特征图进行上采样,然后与相邻层次的特征图进行融合,进一步增强了语义信息和位置信息。具体的表达式为:
[0101]
f4″
=f4′
[0102]
ui=upsample(f
i+1
′
)+fi′
,i=1,2,3
[0103]
ui′
=wi(ui)+bi,i=1,2,3
[0104]fi
″
=upsample(ui′
),i=1,2,3
[0105]
e=concat(f1″
,f2″
,f3″
,f4″
)
[0106]
其中,upsample(
·
)表示上采样操作,ui′
表示经过第i个深度卷积层的输出特征,wi,bi是第i个深度卷积层的权重和偏置,concat(
·
)表示特征在维度上进行拼接;
[0107]
步骤s25:将s24步骤中得到的曝光纹理特征e送入曝光纹理解码器中,得到曝光纹理图,通过梯度反向传播,使得编码器隐式地学习图像中的曝光特征和纹理特征,具体表达式如下:
[0108]e′
=w(e)+b
[0109]
i=trgb(e
′
)
[0110]
其中,w,b是3
×
3卷积层的权重和偏置,trgb(
·
)表示将特征转换为3通道图像,得到曝光纹理图。
[0111]
在本实施例中,步骤s3具体包括以下步骤:
[0112]
步骤s31:将主体语义分割网络的编码器中的四层特征图与来自困难类别语义分割网络的编码器中的四层特征图作为困难类别感知模块的输入,分别为主体语义分割网络与困难类别语义分割网络第i层编码器提取的特征;
[0113]
步骤s32:在困难类别语义分割网络的每层编码器前加入困难类别感知模块,对第i层的特征计算亲和力矩阵来增强对困难类别的识别和定位,模块的输出为增强感知困难类别的特征具体表达式如下:
[0114][0115][0116]
其中
⊙
表示矩阵逐元素乘法,si表示第i层特征计算的亲和力矩阵。
[0117]
在本实施例中,步骤s4具体包括以下步骤:
[0118]
步骤s41:以swintransformer-upernet语义分割网络作为基础,分别构建主体语义分割网络和困难类别语义分割网络。对于主体语义分割分支,以swintransformer作为编码器,使用其对步骤s1预处理之后的夜间街景图像进行特征提取,得到四个尺度不同、通道数不同的特征图{f1,f2,f3,f4}。将四个特征作为输入送入upernet解码器中,将特征解码为语义分割掩码图,同时将s2步骤中构建的曝光纹理辅助分支插入到网络的编码器之后,通过该分支得到曝光纹理图,使得编码器可以隐式地学习图像中的曝光特征和纹理特征。即网络的输入为夜间街景图像i以及对应的标签l
all
,网络的输出为两张图像:夜间街景语义分割掩码图p
all
和曝光纹理分割图i;
[0119]
步骤s42:记步骤s41中的网络为m,为了进一步加强模型对困难类别的语义分割能力,增加困难类别语义分割网络h,h的网络结构与m类似,为了增强对困难类别的感知能力,增加了在s3步骤中构建的困难类别感知模块,为了节省内存,删去了曝光纹理辅助头分支。困难样本语义分割网络h的输入改为夜间街景图像i以及对应的标签l
hard
,其中l
hard
代表标签中仅含有困难类别,非困难类别均被设置为背景类别。困难类别语义分割网络h的输出为夜间街景语义分割困难类别掩码图p
hard
;
[0120]
步骤s43:将经过步骤s1的训练集中的某个批次的图像和对应的标签先输入至s41步骤的网络中进行训练,预测得到夜间街景语义分割掩码图和曝光纹理图,训练90000个iteration后保存网络参数。接着冻结住s41步骤的网络参数联合训练s42步骤中的网络,预测得到夜间街景语义分割困难类别掩码图,训练90000个iteration后保存网络参数;
[0121]
步骤s44:根据主体语义分割网络m的损失函数,利用反向传播方法计算网络中各参数的梯度,并利用随机梯度下降方法更新参数。网络的损失函数l
main
如下:
[0122]
l
main
=loss
ce
+loss
aux
[0123][0124]
loss
aux
=loss
exp
+loss
spa
+loss
sem
[0125][0126][0127][0128]
其中,l
main
为网络m的损失函数,loss
ce
代表交叉熵损失函数。loss
aux
代表曝光纹理辅助损失函数,它由曝光损失loss
exp
、空间一致性损失loss
spa
、语义亮度一致性损失loss
sem
组成。对于曝光损失loss
exp
,m表示大小为16
×
16的非重叠局部区域的数量,yk表示曝光纹理恢复图中局部区域的平均强度值,e为假定的良好曝光水平的平均强度值,这里设置为0.6;对于空间一致性损失loss
spa
,k是局部区域的数量,k的大小为4
×
4,ω(i)是以区域i为中心的四个相邻区域(上、下、左、右),y、i分别表示为增强图像和普通图像中局部区域的平均强度值;对于语义亮度一致性损失loss
sem
,s表示语义预测的类别数,这里设置为19,θs表示为属于类别s的像素索引集合,表示曝光纹理恢复图像ih在像素点i的强度水平,bs表示类别s的平均强度水平。
[0129]
步骤s45:根据困难类别语义分割网络h的损失函数,利用反向传播方法计算网络中各参数的梯度,并利用随机梯度下降方法更新参数。网络的损失函数l如下:
[0130]
l
hard
=loss
ce
[0131]
步骤s46:以批次为单位重复上述步骤s43至步骤s45,直至步骤s35中计算得到的损失值收敛并趋于稳定,保存网络参数,完成困难类别感知机制的夜间街景语义分割网络的训练过程。
[0132]
在本实施例中,步骤s5具体包括以下步骤:
[0133]
步骤s51:将测试集中的夜间街景图像分别输入到训练好的主体语义分割网络和困难类别语义分割网络,分别输出对应的夜间街景语义分割掩码图p
all
、夜间街景语义分割困难类别掩码图p
hard
;
[0134]
步骤s52:根据步骤s51得到的p
all
、p
hard
,为了提升对困难类别的语义分割效果,通过置信度大小选取p
hard
中的“高置信区域”对p
all
中相同位置的置信度进行替换,从而提升模型对困难类别的识别能力,“高置信区域”的定义为困难类别语义分割网络比主体语义分割网络在困难类别上预测更好的区域,替换的计算公式如下:
[0135][0136]
其中,i代表当前语义类别,c
easy
表示除去困难类别的简单类别,c
hard
表示困难类别,在一优选实例中设置的困难类别为:杆、交通灯、地带、骑手、摩托车和自行车。
[0137]
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0138]
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程、以及流程图中的流程结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
[0139]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程图中指定的功能。
[0140]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程中指定的功能的步骤。
[0141]
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
[0142]
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于困难类别感知机制的夜间街景语义分割方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。
技术特征:
1.一种基于困难类别感知机制的夜间街景语义分割方法,其特征在于,通过基于困难类别感知机制的夜间街景语义分割模型输出的语义分割掩码图进行夜间街景语义分割,包括以下步骤:步骤s1:将夜间街景数据集划分为训练集和测试集,对数据集中的夜间城市景观图像和对应标签进行数据预处理;步骤s2:在主体语义分割网络的基础上,构建隐式感知曝光纹理的辅助分支,通过梯度反向传播,使得网络中的编码器隐式地学习图像中的曝光特征和纹理特征;步骤s3:构建困难类别语义分割网络和困难类别感知模块,其中困难类别感知模块利用主体语义分割网络的特征以加强困难类别语义分割网络编码器对困难类别的识别和定位能力,最后将两个网络的分割结果融合;步骤s4:构建基于困难类别感知机制的夜间街景语义分割的训练管道,使用该管道和训练集图像训练基于困难类别感知机制的夜间街景语义分割模型;步骤s5:将夜间街景的测试图像输入到训练好的基于困难类别感知机制的夜间街景语义分割模型中,输出对应的语义分割掩码图。2.根据权利要求1所述的基于困难类别感知机制的夜间街景语义分割方法,其特征在于:步骤s1具体包括以下步骤:步骤s11:按照一定比例将数据集划分为训练集和测试集;步骤s12:对训练集中的图像进行数据增强以增加数据集中的样本数量;步骤s13:对步骤s12数据增强后的图像进行预处理,转化为夜间街景语义分割网络的输入图像:首先对图像进行随机裁剪,进而对裁剪后大小统一的图像进行归一化操作,将图像数据转化为标准正态分布;为了保证标签中分割区域的大小及位置同夜间城市景观图像相对应,在每一步对图像数据增强和图像预处理的同时也对标签进行相同操作。3.根据权利要求1所述的基于困难类别感知机制的夜间街景语义分割方法,其特征在于:步骤s2具体包括以下步骤:步骤s21:将夜景图像输入到主体语义分割网络的编码器中得到维度大小分别为步骤s21:将夜景图像输入到主体语义分割网络的编码器中得到维度大小分别为的四层特征图{f1,f2,f3,f4},并将四层特征图输入解码器中得到主体语义分割图,其中h、w和c分别代表特征图的高度、宽度和通道数,具体表达式为:s=clsseg(f1,f2,f3,f4)其中,clsseg(
·
)表示对特征进行语义分割,得到夜间街景语义分割掩码图;步骤s22:将从步骤s21中得到的{f1,f2,f3,f4}作为曝光纹理辅助分支的输入,其中特征图{f1,f2,f3}分别输入到1
×
1的卷积层中,调整其对应特征的通道数,具体的表达式为:f
i
′
=w
i
(f
i
)+b
i
,i=1,2,3其中,w
i
,b
i
是1
×
1卷积层的权重和偏置;通过1
×
1卷积层,{f1',f2',f3'}的维度被调整为步骤s23:将具有最高语义的特征图f4送入空间金字塔池化模块,在原始特征图上使用
不同尺度的池化,得到多个不同尺寸的特征图,再在通道维度上拼接这些特征图,最终输出一个融合了多种尺度的复合特征图,从而达到兼顾全局语义信息与局部细节信息的加强特征f4',最后f4'的维度通过3
×
3卷积层被调整为具体的表达式为:p
i
=adaptiveavgpool(f4,ε),i=1,2,3,4p
i
′
=w
i
(p
i
)+b
i
,i=1,2,3,4f4′
=concat(p1′
,p2′
,p3′
,p4′
)其中,adaptiveavgpool(
·
)表示自适应平均池化操作,ε是池化大小,w
i
,b
i
是1
×
1卷积层的权重和偏置,concat(
·
)表示特征在新的维度上进行拼接;步骤s24:将s22步骤和s23步骤中得到的四个具有相同通道数的特征图{f1',f2',f3',f4'}在相邻层次进行融合,其操作是将更抽象和语义更强的高层特征图进行上采样,然后与相邻层次的特征图进行融合,以进一步增强语义信息和位置信息;具体的表达式为:f4″
=f4′
u
i
=upsample(f
i+1
′
)+f
i
′
,i=1,2,3u
i
′
=w
i
(u
i
)+b
i
,i=1,2,3f
i
″
=upsample(u
i
′
),i=1,2,3e=concat(f1″
,f2″
,f3″
,f4″
)其中,upsample(
·
)表示上采样操作,u
i
'表示经过第i个深度卷积层的输出特征,w
i
,b
i
是第i个深度卷积层的权重和偏置,concat(
·
)表示特征在维度上进行拼接;步骤s25:将s24步骤中得到的曝光纹理特征e送入曝光纹理解码器中,得到曝光纹理图,通过梯度反向传播,使得编码器隐式地学习图像中的曝光特征和纹理特征,具体表达式如下:e
′
=w(e)+bi=trgb(e')其中,w,b是3
×
3卷积层的权重和偏置,trgb(
·
)表示将特征转换为3通道图像,得到曝光纹理图。4.根据权利要求3所述的基于困难类别感知机制的夜间街景语义分割方法,其特征在于:步骤s3具体包括以下步骤:步骤s31:将主体语义分割网络的编码器中的四层特征图与来自困难类别语义分割网络的编码器中的四层特征图作为困难类别感知模块的输入,分别为主体语义分割网络与困难类别语义分割网络第i层编码器提取的特征;步骤s32:在困难类别语义分割网络的每层编码器前加入困难类别感知模块,对第i层的特征计算亲和力矩阵以增强对困难类别的识别和定位,模块的输出为增强感知困难类别的特征具体表达式如下:
其中
⊙
表示矩阵逐元素乘法,s
i
表示第i层特征计算的亲和力矩阵。5.根据权利要求4所述的基于困难类别感知机制的夜间街景语义分割方法,其特征在于:步骤s4具体包括以下步骤:步骤s41:以swintransformer-upernet语义分割网络作为基础,分别构建主体语义分割网络和困难类别语义分割网络:对于主体语义分割分支,以swintransformer作为编码器,以对步骤s1预处理之后的夜间街景图像进行特征提取,得到四个尺度不同、通道数不同的特征图{f1,f2,f3,f4};将四个特征作为输入送入upernet解码器中,将特征解码为语义分割掩码图,并将s2步骤中构建的曝光纹理辅助分支插入到网络的编码器之后,以得到曝光纹理图,使编码器隐式地学习图像中的曝光特征和纹理特征;网络的输入为夜间街景图像i以及对应的标签l
all
,网络的输出为两张图像:夜间街景语义分割掩码图p
all
和曝光纹理分割图i;步骤s42:记步骤s41中构建的网络为m,为了进一步加强模型对困难类别的语义分割能力,增加困难类别语义分割网络h,网络h的网络结构在网络m的基础上,为了增强对困难类别的感知能力,增加s3步骤中构建的困难类别感知模块,困难样本语义分割网络h的输入为夜间街景图像i以及对应的标签l
hard
,其中l
hard
代表标签中仅含有困难类别,非困难类别均被设置为背景类别;困难类别语义分割网络h的输出为夜间街景语义分割困难类别掩码图p
hard
;步骤s43:将经过步骤s1的训练集中的某个批次的图像和对应的标签先输入至s41步骤的网络中进行训练,预测得到夜间街景语义分割掩码图和曝光纹理图,接着冻结住s41步骤的网络参数联合训练s42步骤中的网络,得到夜间街景困难类别语义分割掩码图;步骤s44:根据主体语义分割网络m的损失函数,利用反向传播方法计算网络中各参数的梯度,并利用随机梯度下降方法更新参数;网络的损失函数l
main
如下:l
main
=loss
ce
+loss
aux
loss
aux
=loss
exp
+loss
spa
+loss
semsemsem
其中,l
main
为网络m的损失函数,loss
ce
代表交叉熵损失函数;loss
aux
代表曝光纹理辅助损失函数,由曝光损失loss
exp
、空间一致性损失loss
spa
、语义亮度一致性损失loss
sem
组成;对于曝光损失loss
exp
,m表示非重叠局部区域的数量,y
k
表示曝光纹理分割图中局部区域的
平均强度值,e为假定的良好曝光水平的平均强度值;对于空间一致性损失loss
spa
,k是局部区域的数量,ω(i)是以区域i为中心的上、下、左、右四个相邻区域,y、i分别表示为增强图像和普通图像中局部区域的平均强度值;对于语义亮度一致性损失loss
sem
,s表示语义预测的类别数,θ
s
表示为属于类别s的像素索引集合,表示曝光纹理分割图像i
h
在像素点i的强度水平,b
s
表示类别s的平均强度水平;步骤s45:根据困难类别语义分割网络h的损失函数,利用反向传播方法计算网络中各参数的梯度,并利用随机梯度下降方法更新参数;网络的损失函数l如下:l
hard
=loss
ce
步骤s46:以批次为单位重复步骤s43至步骤s45,直至步骤s35中计算得到的损失值收敛并趋于稳定,保存网络参数,完成困难类别感知机制的夜间街景语义分割网络的训练过程。6.根据权利要求5所述的基于困难类别感知机制的夜间街景语义分割方法,其特征在于:在步骤s42中,构建困难类别语义分割网络h时,为了节省内存,删去曝光纹理辅助头分支。7.根据权利要求5所述的基于困难类别感知机制的夜间街景语义分割方法,其特征在于:步骤s5具体包括以下步骤:步骤s51:将测试集中的夜间街景图像分别输入到训练好的主体语义分割网络和困难类别语义分割网络,分别输出对应的夜间街景语义分割掩码图p
all
、夜间街景语义分割困难类别掩码图p
hard
。8.根据权利要求7所述的基于困难类别感知机制的夜间街景语义分割方法,其特征在于:步骤s5还包括以下步骤:步骤s52:根据步骤s51得到的p
all
、p
hard
,为了提升对困难类别的语义分割效果,通过置信度大小选取p
hard
中的“高置信区域”对p
all
中相同位置的置信度进行替换,从而提升模型对困难类别的识别能力,“高置信区域”的定义为困难类别语义分割网络比主体语义分割网络在困难类别上预测更好的区域,替换的计算公式如下:其中,i代表当前语义类别,c
easy
表示除去困难类别的简单类别,c
hard
表示困难类别。9.一种基于困难类别感知机制的夜间街景语义分割系统,其特征在于,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8其中任一所述的方法。10.一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如权利要求1-8其中任一所述的方法。
技术总结
本发明的目的是提出基于困难类别感知机制的夜间街景语义分割方法。利用曝光纹理图,通过梯度反向传播,使得编码器隐式的学习图像中的曝光特征和纹理特征,同时使用困难类别感知模块加强困难类别语义分割网络对困难类别的识别和定位能力,有效地提高了夜间街景语义分割算法的性能。分割算法的性能。分割算法的性能。
技术研发人员:刘文犀 蔡家鑫 李琦 林心代 于元隆
受保护的技术使用者:福州大学
技术研发日:2023.08.01
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/