一种基于语义引导与注意力融合的水下图像增强方法

未命名 08-17 阅读:165 评论:0


1.本发明属于计算机视觉和机器学习技术领域,具体涉及一种基于语义引导与注意力融合的水下图像增强方法。


背景技术:

2.水下图像增强是计算机视觉领域中一个重要问题。水下图像增强技术是一种能够修复水下图像存在的色彩偏移、低对比度与模糊等水下退化问题,还原水下图像的真实色彩,重现水下真实场景。目前,水下图像在海洋环境监测、水下机器人技术、水下工程检测、搜救与救援领域有着广泛的应用,推动对海洋环境的认知以及海洋资源的勘探。但是受限于成像设备、水质、光照条件等因素,现有成像设备得到的水下图像往往呈现模糊、对比度低、颜色失真、细节缺失等问题,这增大了从水下图像中获取有效信息的难度。因此水下图像增强方法有着较大的现实意义与实用价值。
3.现有的基于深度学习的水下图像增强网络所使用的数据集大多可以分为水下合成数据集与真实场景水下数据集。对于第一种技术方案,水下合成数据集的图像质量与真实水下场景有较大差异,导致使用水下合成数据集下训练的水下图像增强网络在真实水下场景上的性能表现会有大幅度的降低。对于第二种技术方案,手工标注的方式费时费力,并且其挑选的ground truth也并不真实,一些数据集中标注的参考图像仍然存在偏色、模糊情况。
4.基于以上分析,建立更有效的学习机制对于挖掘可靠的监督信息和提升模型的泛化能力十分重要。现有技术在低级视觉任务中通过联合训练语义分割网络与增强网络的形式虽然能获得更准确的语义线索,但是联合训练的方式,会使模型的参数量过于庞大并且难以收敛,并不适合水下图像增强的场景。由于水下图像退化种类复杂,存在偏色,低照度,模糊等多种退化类型,现有技术的低照度增强算法中使用的亮度一致性损失函数不足以约束水下图像增强模型获得高质量增强图像。


技术实现要素:

5.本发明的目的是克服上述现有技术的缺陷,提供一种基于语义引导与注意力融合的水下图像增强方法。
6.本发明所提出的技术问题是这样解决的:
7.一种基于语义引导与注意力融合的水下图像增强方法,具体过程为:
8.构建水下图像增强网络,包括生成器、语义分割网络、语义融合模块和鉴别器;生成器包括编码器和解码器,编码器和解码器都包括n层,n为正整数;
9.语义分割网络用于实现对输入图像的语义图的获取;
10.编码器用于对输入图像进行特征提取,编码器第(n+1-i)层输出的编码特征分别输入至编码器下一层及解码器第i层,1≤i≤n;解码器第i层对解码器上一层的输出通过转置卷积进行上采样,得到解码器当前层的解码特征,再将编码器第(n+1-i)层输出的编码特
征及解码器当前层的解码特征进行拼接,得到解码器第i层对应的拼接特征
11.解码器每层都对应有语义融合模块,语义融合模块用于将语义图与拼接特征进行语义融合,得到语义融合特征并输出至解码器对应层;语义融合模块包括依次连接的卷积层、下采样层和特征注意力模块;语义图输入至依次连接的卷积层和下采样层,得到语义感知特征;语义感知特征和解码器第i层对应的拼接特征输入至特征注意力模块,得到语义融合特征并输入至解码器第i层;
12.解码器用于利用语义融合特征生成重建图像;
13.在图像增强网络后级联鉴别器,鉴别器采用patchgan鉴别器;对水下图像增强网络进行训练与验证;
14.水下图像增强网络的损失函数l
total
为:
15.l
total
=λ1l
pix
+λ2l
per
+λ3l
adv
(g)
16.其中,l
pix
为重建损失函数,l
per
为感知损失函数,l
adv
(g)为生成器的对抗损失函数,λ1、λ2和λ3分别为l
pix
、l
per
和l
adv
(g)的权重;
17.将实时水下图像作为输入图像,输入至训练与验证完成的水下图像增强网络,得到增强图像。
18.进一步的,特征注意力模块包括初始特征融合模块、通道注意力机制与空间注意力机制和sigmoid函数;
19.初始特征融合模块,用于对解码器第i层对应的语义感知特征fi和拼接特征ri的进行特征相加,输出初始融合特征oi;初始融合特征oi分别输入至通道注意力机制与空间注意力机制;
20.通道注意力机制包括全局平均池化层、全局最大池化层、卷积核1
×
1为的第一卷积层、第一relu函数和卷积核1
×
1为的第二卷积层;全局平均池化层和全局最大池化层分别对初始融合特征oi进行全局平均池化和全局最大池化,对池化结果进行特征相加,输入至依次级联的第一卷积层、第一relu函数和第二卷积层,得到通道注意力权重矩阵wc(oi);
21.空间注意力机制包括依次级联的卷积核1
×
1为的第三卷积层、第二relu函数和卷积核1
×
1为的第四卷积层,得到空间注意力权重矩阵ws(oi);
22.通道注意力机制和空间注意力机制的输出进行特征相加后,输入至sigmoid函数得到语义感知特征fi的注意力权重矩阵w(oi);
23.利用注意力权重矩阵w(oi)对语义感知特征fi和拼接特征ri进行加权融合,得到语义融合特征hi。
24.进一步的,通道注意力权重矩阵的计算公式如下:
[0025][0026]
其中,gap表示全局平均池化操作,gmp表示全局最大池化操作,conv1和conv2分别表示第一卷积层和第二卷积层,δ表示第一relu函数,表示特征相加;
[0027]
空间注意力权重矩阵的计算公式如下:
[0028]ws
(oi)=conv4(δ'(conv3(oi)))
[0029]
其中,conv3和conv4分别表示第三卷积层和第四卷积层,δ'表示第二relu函数;
[0030]
注意力权重矩阵w(oi)表示为:
[0031][0032]
其中,σ表示sigmoid函数;
[0033]
语义融合特征hi表示为:
[0034][0035]
其中,ih表示全1矩阵,表示元素乘法。
[0036]
进一步的,重建损失函数l
pix
使用l2损失函数,表示为:
[0037][0038]
其中,i表示生成器输出的重建图像,i
gt
表示参考图像,(x,y)表示像素位置索引,1≤x≤h,1≤y≤w,h和w表示图像尺寸;
[0039]
感知损失函数l
per
的计算公式为:
[0040][0041]
其中,φ(im)表示生成器输出的重建图像输入至vgg网络第m层的中间层特征,表示参考图像输入至vgg网络第m层的中间层特征,表示距离函数,1≤m≤m,m为vgg网络的层数;
[0042]
对抗损失函数使用lsgan函数。
[0043]
进一步的,语义分割网络采用suim-net。
[0044]
本发明的有益效果是:
[0045]
(1)本发明所述方法在水下图像增强任务中利用语义线索以提升网络对语义相同区域的增强效果一致性,改善图像边缘模糊,在一些图像退化类型上罕见但在语义上相关的场景,语义信息为网络提供先验知识,改善模型表现,提升模型泛化能力。
[0046]
(2)本发明所述方法引入特征注意力融合机制,避免了跨域信息直接融合导致的上下文信息丢失,更好地组合语义信息与重建特征,最大程度发挥语义信息的引导作用。考虑到水下图像存在不均匀退化,通过空间注意力与通道注意力的结合使用,网络能够为退化严重区域分配更合理的权重,提升图像的增强效果。
附图说明
[0047]
图1为本发明所述方法中水下图像增强网络的结构示意图;
[0048]
图2为本发明所述方法中语义融合过程示意图;
[0049]
图3为本发明所述方法中特征注意力模块的结构示意图;
[0050]
图4为本发明所述方法与现有技术的水下图像增强效果对比示意图。
具体实施方式
[0051]
下面结合附图和实施例对本发明进行进一步的说明。
[0052]
本实施例提供一种基于语义引导与注意力融合的水下图像增强方法,具体过程为:
[0053]
构建水下图像增强网络,如图1所示,水下图像增强网络包括生成器、语义分割网
络和语义融合模块;
[0054]
生成器的整体架构为类u-net结构,包括编码器和解码器;编码器用于对输入图像进行特征提取,深层网络拥有更大的感受野,但其中下采样的过程不免会丢失一些边缘特征,这对图像修复是不利的;解码器用于对编码器提取的图像特征进行重建生成高质量图像,但是编码过程中下采样丢失的特征是永久的,无法通过上采样恢复,在u-net结构中,通过对编码特征与解码特征进行特征拼接,实现边缘特征的找回;本实施例所述方法在特征拼接后引入语义信息,此时用于重建的特征包含更多纹理特征,引入对应语义信息从而引导解码器的图像重建过程。
[0055]
语义分割网络用于实现对输入图像的语义图的获取,采用suim-net。
[0056]
sk表示第k个实例类别的语义图信息,1≤k≤k,k为实例类别总数目,将所有实例类别的语义图信息在通道上相连,得到整体语义图s。
[0057]
语义融合模块用于将语义图与拼接特征进行语义融合,得到语义融合特征并输出至解码器;语义融合模块包括依次连接的卷积层、下采样层和特征注意力模块;语义融合的过程示意图如图2所示。
[0058]
语义图输入至卷积层得到语义特征,下采样层对语义特征进行下采样以适应多尺度的重建特征,得到语义感知特征fi,表示为;
[0059]fi
=down(conv(s))
[0060]
其中,fi表示解码器第i层对应的语义感知特征,1≤i≤n,conv表示卷积操作,down表示下采样操作;
[0061]
语义感知特征fi和解码器第i层对应的拼接特征ri输入至特征注意力模块中,得到语义融合特征hi并输入至解码器第i层,实现跨域信息融合。
[0062]
通过使用常用的运算符例如串联、加法或点乘能够直接进行特征融合。然而,这些算子往往体现了一种隐含的假设,即融合特征来自于相同的域或相同的源。如果对跨域的信息直接采用上述方式,可能会忽视一些重要上下文信息。因此,本实施例所述方案构建一种新的融合机制,创建特征注意力模块,以充分利用各种特性。
[0063]
特征注意力模块包含通道注意力与空间注意力的混合注意力机制,从而在通道与空间维度获取更为重要的信息,实现基于混合注意力机制的特征融合,以充分利用跨域特征;
[0064]
特征通道内与水下图像退化相关的特征分布并不均匀,使用通道注意力机制发现与图像增强相关的特征,为各个通道分配不同的关注权重。此外,随着水源深度、拍摄距离、微生物分布等因素变化,图像的退化程度在空间上分布是不均匀的,通过引入空间注意力机制,识别图像退化更加严重的区域,为其分配更加合理的权重。
[0065]
如图3所示,特征注意力模块包括初始特征融合模块、通道注意力机制与空间注意力机制和sigmoid函数;
[0066]
初始特征融合模块,用于对语义感知特征fi和拼接特征ri的特征相加,输出初始融合特征oi;初始融合特征oi分别输入至通道注意力机制与空间注意力机制;
[0067]
通道注意力机制包括全局平均池化层、全局最大池化层、卷积核1
×
1为的第一卷积层、第一relu函数和卷积核1
×
1为的第二卷积层;全局平均池化层和全局最大池化层分别对初始融合特征oi进行全局平均池化和全局最大池化,对池化结果进行特征相加,输入
至依次级联的第一卷积层、第一relu函数和第二卷积层,得到通道注意力权重矩阵wc(oi),实现空间信息的聚合;
[0068]
通道注意力权重矩阵的计算公式如下:
[0069][0070]
其中,gap表示全局平均池化操作,gmp表示全局最大池化操作,conv1和conv2分别表示第一卷积层和第二卷积层,δ表示第一relu函数,表示特征相加。
[0071]
空间注意力机制包括依次级联的卷积核1
×
1为的第三卷积层、第二relu函数和卷积核1
×
1为的第四卷积层,得到空间注意力权重矩阵ws(oi);
[0072]
空间注意力权重矩阵的计算公式如下:
[0073]ws
(oi)=conv4(δ'(conv3(oi)))
[0074]
其中,conv3和conv4分别表示第三卷积层和第四卷积层,δ'表示第二relu函数。
[0075]
通道注意力机制和空间注意力机制的输出进行特征相加后,输入至sigmoid函数得到语义感知特征fi的注意力权重矩阵w(oi):
[0076][0077]
其中,σ表示sigmoid函数;
[0078]
利用注意力权重矩阵w(oi)对语义感知特征fi和拼接特征ri进行加权融合,得到语义融合特征hi:
[0079][0080]
其中,ih表示全1矩阵,表示元素乘法。
[0081]
对水下图像增强网络进行训练与验证;
[0082]
在图像增强网络后级联鉴别器,鉴别器采用patchgan鉴别器,patchgan鉴别器输出的是一个二元矩阵,每个元素代表着输入图像中的局部区域,鉴别器需要根据多个局部区域真伪来判断最终的真伪结果,适用于更关注纹理细节的水下图像增强任务。
[0083]
水下图像增强网络的损失函数由重建损失函数、感知损失函数以及对抗损失函数构成;
[0084]
使用l2损失函数作为重建损失函数来最小化像素级误差,重建损失函数l
pix
的计算公式为:
[0085][0086]
其中,i表示生成器输出的重建图像,i
gt
表示参考图像,(x,y)表示像素位置索引,1≤x≤h,1≤y≤w,h和w表示图像尺寸。
[0087]
相较于像素级别的重建损失函数更注重像素间的相似程度,感知损失函数则更注重语义上相似性。感知损失函数l
per
的计算公式为:
[0088][0089]
其中,φ(im)表示生成器输出的重建图像输入至vgg网络第m层的中间层特征,表示参考图像输入至vgg网络第m层的中间层特征,表示距离函数,1≤m≤m,m为vgg网
络的层数。
[0090]
使用lsgan函数作为对抗损失函数。
[0091]
水下图像增强网络的损失函数l
total
为:
[0092]
l
total
=λ1l
pix
+λ2l
per
+λ3l
adv
(g)
[0093]
其中,l
adv
(g)为生成器的对抗损失函数,λ1、λ2和λ3分别为l
pix
、l
per
和l
adv
(g)的权重。
[0094]
将实时水下图像作为输入图像,输入至训练验证完成的水下图像增强网络,得到增强图像。
[0095]
本实施例所述方法在经典的水下成对数据集suim、uieb数据集上进行训练与验证,使用全参考度量psnr、ssim结合非参考度量uiqm、uciqe对水下图像增强网络的修复质量进行评价。全参考度量通过比较水下图像增强网络输出的增强图像与参考图像之间的差异,分析水下图像增强网络输出图像的失真程度,从而得到网络增强效果的质量评估。非参考度量根据人类视觉系统特性,结合色度、饱和度、对比度定量评估增强图像的不均匀色差、模糊以及低对比度。
[0096]
表1与表2分别展示了不同方法在suim数据集与uieb数据集上的定量评价指标结果。综合多种评价指标可以得到,本实施例所述方法总体上取得了更好的结果。从全参考度量评价指标上来看,本实施例所述方法在suim数据集与uieb数据集上均取得了最好的效果,psnr指标在两个数据集上相较于第二名分别提升了13.1%与9.1%,在结构相似指数ssim上取得的分数也证明了本实施例所述水下图像增强网络在细节纹理上修复效果的优越性。从非参考度量评价指标上来看,本实施例所述方法在基于深度学习的模型中也取得了良好的效果,与cluie-net的分数相近。现有的水下图像增强方法在修复过程中包含白平衡、提升图像对比度与色彩饱和度的操作,这迎合了uiqm与uciqe对图像的评价过程,因此现有方法在非参考度量上取得了更好的分数,但是更高的uiqm和uciqe分数并不会带来更好的主观视觉感受。
[0097]
表1与现有的水下图像增强算法在suim数据集进行定量比较
[0098][0099]
表2与现有的水下图像增强算法在uieb数据集进行定量比较
[0100][0101]
图4为本实施例所述方法与不同的现有的水下图像增强方法在suim、uieb数据集上的视觉效果对比图,其中,第一列为原图,第二列为使用cbf算法生成的图像,第三列为使用ulap算法生成的图像,第四列为使用water-net生成的图像,第五列为ucolor算法生成的图像,第六列为使用cluie-net生成的图像,第七列为本实施例所述方法生成的图像,第八列为参考图像。不基于深度学习的cbf算法与ulap算法的视觉表现较差,cbf算法在复杂场景会引入一些不存在颜色,色彩表现不够真实。ulap算法由于引入了过多红色分量,其修复图像存在一定的红色偏现象。这说明了水下环境较为复杂,随着环境的变更,泛化能力与鲁棒性较弱,图像修复效果较差。基于深度学习的方法在视觉效果上表现普遍较好,但是water-net得到修复图像整体色调偏暗,ucolor的色彩表现较好,但是不能很好地改善低对比度与模糊问题。而cluie-net存在修复性能不够稳定的问题,部分照片的色彩表现失真,整体色调偏红或偏暗。与此对比,本实施例所述方法在水下色彩偏差严重的图像上能够提供稳定的颜色矫正,并且不会引入额外的色彩偏差,同时能够提高图像的对比度,改善水下光照不足引起的图像偏暗现象。

技术特征:
1.一种基于语义引导与注意力融合的水下图像增强方法,其特征在于,具体过程为:构建水下图像增强网络,包括生成器、语义分割网络、语义融合模块和鉴别器;生成器包括编码器和解码器,编码器和解码器都包括n层,n为正整数;语义分割网络用于实现对输入图像的语义图的获取;编码器用于对输入图像进行特征提取,编码器第(n+1-i)层输出的编码特征分别输入至编码器下一层及解码器第i层,1≤i≤n;解码器第i层对解码器上一层的输出进行上采样,得到解码器当前层的解码特征,再将编码器第(n+1-i)层输出的编码特征及解码器当前层的解码特征进行拼接,得到解码器第i层对应的拼接特征;解码器每层都对应有语义融合模块,语义融合模块用于将语义图与拼接特征进行语义融合,得到语义融合特征并输出至解码器对应层;语义融合模块包括依次连接的卷积层、下采样层和特征注意力模块;语义图输入至依次连接的卷积层和下采样层,得到语义感知特征;语义感知特征和解码器第i层对应的拼接特征输入至特征注意力模块,得到语义融合特征并输入至解码器第i层;解码器用于利用语义融合特征生成重建图像;在图像增强网络后级联鉴别器,鉴别器采用patchgan鉴别器;对水下图像增强网络进行训练与验证;水下图像增强网络的损失函数l
total
为:l
total
=λ1l
pix
+λ2l
per
+λ3l
adv
(g)其中,l
pix
为重建损失函数,l
per
为感知损失函数,l
adv
(g)为生成器的对抗损失函数,λ1、λ2和λ3分别为l
pix
、l
per
和l
adv
(g)的权重;将实时水下图像作为输入图像,输入至训练与验证完成的水下图像增强网络,得到增强图像。2.根据权利要求1所述的基于语义引导与注意力融合的水下图像增强方法,其特征在于,特征注意力模块包括初始特征融合模块、通道注意力机制与空间注意力机制和sigmoid函数;初始特征融合模块,用于对解码器第i层对应的语义感知特征f
i
和拼接特征r
i
的进行特征相加,输出初始融合特征o
i
;初始融合特征o
i
分别输入至通道注意力机制与空间注意力机制;通道注意力机制包括全局平均池化层、全局最大池化层、卷积核1
×
1为的第一卷积层、第一relu函数和卷积核1
×
1为的第二卷积层;全局平均池化层和全局最大池化层分别对初始融合特征o
i
进行全局平均池化和全局最大池化,对池化结果进行特征相加,输入至依次级联的第一卷积层、第一relu函数和第二卷积层,得到通道注意力权重矩阵w
c
(o
i
);空间注意力机制包括依次级联的卷积核1
×
1为的第三卷积层、第二relu函数和卷积核1
×
1为的第四卷积层,得到空间注意力权重矩阵w
s
(o
i
);通道注意力机制和空间注意力机制的输出进行特征相加后,输入至sigmoid函数得到语义感知特征f
i
的注意力权重矩阵w(o
i
);利用注意力权重矩阵w(o
i
)对语义感知特征f
i
和拼接特征r
i
进行加权融合,得到语义融合特征h
i
。3.根据权利要求2所述的基于语义引导与注意力融合的水下图像增强方法,其特征在
于,通道注意力权重矩阵的计算公式如下:其中,gap表示全局平均池化操作,gmp表示全局最大池化操作,conv1和conv2分别表示第一卷积层和第二卷积层,δ表示第一relu函数,表示特征相加;空间注意力权重矩阵的计算公式如下:w
s
(o
i
)=conv4(δ'(conv3(o
i
)))其中,conv3和conv4分别表示第三卷积层和第四卷积层,δ'表示第二relu函数;注意力权重矩阵w(o
i
)表示为:其中,σ表示sigmoid函数;语义融合特征h
i
表示为:其中,i
h
表示全1矩阵,表示元素乘法。4.根据权利要求1所述的基于语义引导与注意力融合的水下图像增强方法,其特征在于,重建损失函数l
pix
使用l2损失函数,表示为:其中,i表示生成器输出的重建图像,i
gt
表示参考图像,(x,y)表示像素位置索引,1≤x≤h,1≤y≤w,h和w表示图像尺寸;感知损失函数l
per
的计算公式为:其中,φ(i
m
)表示生成器输出的重建图像输入至vgg网络第m层的中间层特征,表示参考图像输入至vgg网络第m层的中间层特征,表示距离函数,1≤m≤m,m为vgg网络的层数;对抗损失函数使用lsgan函数。5.根据权利要求1所述的基于语义引导与注意力融合的水下图像增强方法,其特征在于,语义分割网络采用suim-net。

技术总结
本发明所述方法公开了一种基于语义引导与注意力融合的水下图像增强方法,本发明属于计算机视觉和机器学习技术领域。本发明所述方法在水下图像增强任务中利用语义线索以提升网络对语义相同区域的增强效果一致性,改善图像边缘模糊,在一些图像退化类型上罕见但在语义上相关的场景,语义信息为网络提供先验知识,改善模型表现,提升模型泛化能力;引入特征注意力融合机制,避免了跨域信息直接融合导致的上下文信息丢失,更好地组合语义信息与重建特征,最大程度发挥语义信息的引导作用;通过空间注意力与通道注意力的结合使用,能够为退化严重区域分配更合理的权重,提升图像的增强效果。效果。效果。


技术研发人员:于力 刘紫薇 刘骁 彭超 何建
受保护的技术使用者:宜宾电子科技大学研究院
技术研发日:2023.05.29
技术公布日:2023/8/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐