一种水下图像增强方法、系统、电子设备及存储介质
未命名
09-01
阅读:135
评论:0

1.本发明属于图像增强领域,具体涉及一种水下图像增强方法、系统、电子设备及存储介质。
背景技术:
2.近年来,水下图像增强在水下资源勘探、水生机器人检测和水下考古中发挥着重要作用。尽管从水下拍摄的图像对海洋资源开发有好处,但仍有一些亟待解决的问题,如由光吸收引起的图像失真,以及由散射(包括前向散射和后向散射)引起的图像模糊。此外,水下光的衰减也引起了一些水下图像问题,如低对比度、色斑、低能见度和模糊的细节。这些问题大大降低了海洋资源开发的效率。因此,提高水下图像的视觉质量、对比度和色彩特性以准确挖掘水下世界是至关重要的。
技术实现要素:
3.本发明的目的是提供一种水下图像增强方法方法、系统、电子设备及存储介质,能够增强水下图像的视觉质量、对比度和色彩特性。
4.为实现上述目的,本发明提供了一种水下图像增强方法,包括:
5.获取目标水下图像;
6.根据所述目标水下图像和图像增强网络确定水下增强图像;所述水下增强图像的饱和度和亮度高于所述目标水下图像;
7.所述图像增强网络是根据门控融合框架构建的;所述门控融合框架包括依次连接的信心图生成器和图像精炼器;所述信心图生成模块是根据选择性内核卷积和空间注意模块构建的;
8.所述信心图生成器用于生成预测的信心图;
9.所述图像精炼器用于进行所述目标水下图像的预处理。
10.进一步的,所述图像增强网络的确定方法为:
11.获取训练数据;所述训练数据包括训练水下图像及对应的水下增强图像;
12.构建门控融合框架网络;
13.将所述训练数据输入所述门控融合框架网络,并根据损失函数进行训练,将训练好的门控融合框架网络确定为图像增强网络。
14.进一步的,根据所述目标水下图像和图像增强网络确定水下增强图像,具体包括:
15.对所述目标水下图像进行伽马校正、白平衡和直方图均衡算法来得到精炼图像;
16.将精炼图像与信心图相乘得到水下增强图像。
17.进一步的,所述损失函数为ms-ssim损失、感知损失、mae损失;
18.所述ms-ssim损失和mae损失用于保持高频区域、颜色和亮度信息;所述感知损失衡量的是与人类视觉系统匹配的图像的相似性。
19.进一步的,所述图像精炼器由由选择性核卷积和二维卷积层组成,用于进行所述
目标水下图像的预处理。
20.本发明还提供了一种水下图像增强系统,包括:
21.获取模块,用于获取训练数据;
22.生成模块,用于生成增强后的图像
23.本发明还提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据上述的水下图像增强方法。
24.本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述的水下图像增强方法。
25.本发明的技术效果:
26.本发明的解决了现有技术中存在的水下图像存在的颜色偏差、背景模糊、对比度和能见度低等问题。
附图说明
27.附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所发明的实施例进行说明。在适当的时候,在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
28.图1示出了本发明的选择性内核卷积示意图;
29.图2示出了本发明的空间注意模块示意图;
30.图3示出了本发明的scauie-net的网络结构示意图;
31.图4示出了本发明的图像精炼器的结构示意图;
32.图5示出了本发明的选择性内核块示意图。
具体实施方式
33.需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
34.本发明提出了基于cnn的水下图像增强模型,所述模型使用空间和通道注意力,称为scauie-net。首先,本发明介绍了uieb数据集中的水下图像的输入生成情况。然后描述了包括选择性核块和空间注意模块的网络结构。最后介绍了scauie-net中使用的损失函数。
35.输入生成
36.为了满足训练数据所需的照明条件和复杂的水下场景,本发明通过多种预处理操作来获得输入。本发明通过分别应用白平衡、直方图均衡和伽玛校正算法来生成三个输入。然后使用混合颜色特征的融合策略来获得结果。本发明直接应用中提出的白平衡技术,使整个场景的色差效应最小化。本发明在lab色彩空间上采用直方图均衡化,以提高对比度和淡化黑暗区域。在伽玛校正算法中,本发明将伽玛值设置为0.7。
37.选择性内核卷积
38.感受野的大小在图像色彩感知中起着重要作用。对于水下图像,增强效果可以从自适应调整感受野的大小中获益。因此,本发明在具有不同内核大小的多个内核中使用了
一种自动选择操作,即"选择性内核卷积"。具体来说,通过三个运算符实现sk卷积
‑‑
split、fuse和select,如图2所示,其中显示了一个双分支的情况。因此,在这个例子中,只有两个具有不同内核大小的内核,但它很容易扩展到多分支的情况。
39.split。对于任何给定的特征图x∈rh′×w′×c′
,在默认情况下,本发明首先进行两次转换和分别用内核大小为3和5。这两个和都是由高效的分组/深度卷积、批量归一化和relu功能依次组成。为了进一步提高效率,传统的带核卷积5
×
5核的传统卷积被扩展卷积所取代。3
×
3核和扩张大小为2的扩张卷积。
40.fuse。本发明的目标是使神经元能够根据刺激内容自适应地调整其感受野的大小。其基本思想是用门来控制携带不同规模信息的多个分支进入下一层的神经元。为了实现这一目标,闸门需要整合来自所有分支的信息。本发明首先通过元素相加的方式融合多个分支的结果。
[0041][0042]
然后,本发明通过简单地使用全局平均集合来生成信道范围内的统计数据来嵌入全局信息,如s∈rc.具体来说,s的第1个元素是通过空间维度缩小u来计算的。c-s的第1个元素是通过空间维度缩减u来计算的。
[0043]h×
w:
[0044][0045]
此外,一个紧凑的功能z∈rd×1创建一个紧凑的特征,以便为精确和适应性选择提供指导。这是通过一个简单的全连接(fc)层实现的,同时降低了维度以提高效率。
[0046][0047]
其中δ是relu函数。表示批量归一化。w∈rd×c.为了研究d对模型效率的影响,本发明用一个减少率r来控制其数值。
[0048]
d=max(c/r,l),
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0049]
其中l表示的是d(l=32是本发明实验中的一个典型设置)。
[0050]
select。一个跨通道的软注意力(soft attention)被用来自适应地选择不同空间尺度的信息,这是由紧凑的特征描述符引导的。具体来说,在通道间的数字上应用一个softmax算子。
[0051][0052]
其中a,b∈rc×d和a,b表明对以下情况的软注意向量和分别表示。请注意,ac∈r1×d是c的第1行a和ac是c的第1个元素,同样地bc和bc.在有两个分支的情况下,矩阵b是多余的,因为ac+bc=1,最终的特征图v是通过各种内核上的注意权重得到的。
[0053][0054]
其中v=[v1,v2,
…
,vc],vc∈rh×w。请注意,这里本发明提供的是一个双分支情况的公式,通过扩展等式(1),(5),(6)可以很容易地推导出有更多分支的情况。
[0055]
空间注意模块
[0056]
本发明通过利用特征的空间关系来生成空间注意图。与通道注意不同的是,空间注意关注的是"哪里"是一个信息部分,它是对通道注意的补充。为了计算空间注意力,本发明首先沿通道轴应用平均池化和最大池化操作,并将其串联起来,生成一个有效的特征描述符。沿着通道轴应用集合操作被证明在突出信息区域方面是有效的。在串联的特征描述符上,本发明应用选择性核卷积层来生成空间注意图ms(f)∈rh×w编码,以强调或压制。
[0057]
本发明通过使用两个池化操作来聚合特征图的通道信息,生成两个二维特征图。和.每个表示平均池化特征和整个通道的最大池化特征。然后,这些地图被连接起来,并由一个标准的卷积层进行卷积,产生本发明的二维空间注意力地图。简而言之,空间注意力的计算方法是:
[0058][0059]
其中σ表示sigmoid函数和f7×7表示选择性核卷积操作,滤波器大小为7
×
7。
[0060]
网络结构
[0061]
1)整体结构。scauie-net如图所示。它是一个门控融合网络,学习三个信心图,分别表示输入的最重要特征。然后,输入与信心图融合,得到融合后的图像。融合后的图像之和就是增强的结果。
[0062]
拟议的scauie-net的结构由两部分组成。图像精炼器和信心图生成器。scauie-net中使用的组件是选择块和空间注意模块。图像精炼器是一个普通的完全cnn。信心图生成器使用u-net作为骨干。为了减少白平衡、直方图均衡化和伽玛校正算法带来的色差和伪影,本发明增加了三个图像精炼器,并将三个衍生输入和原始输入送入图像精炼器。然后,本发明分别将精炼后的输入送入信心图生成器,以预测信心图。最后,精炼的三个输入与三个学习到的信心图相乘,达到最终的增强结果。
[0063]ien
=r
wb
⊙cwb
+r
he
⊙che
+rc⊙cgc
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0064]
其中i
en
是增强的结果。
⊙
表示矩阵的逐元生成。r
wb
,r
he and r
gc
分别为白平衡、直方图均衡化和伽玛校正算法处理后的输入精炼结果。c
wb
,c
he
和c
gc
是学习到的信心图。
[0065]
2)image refiner。image refiner是一个浅层cnn。它由选择性核卷积和二维卷积层组成,每层后面都有一个relu。在第一层,1x1卷积被用来将特征通道的数量增加到32。然后,选择性核卷积被应用两次,以集中处理通道信息。第二个选择性核卷积层将使特征通道的数量增加一倍。在最后一层,1x1卷积被用来降低维度,将64个特征通道映射为3个通道的精炼图像。
[0066]
3)信心图生成器(confidence generator)。信心图生成器的骨干是u-net,它在图像处理中表现良好。与u-net类似,信心图生成器由一个收缩路径和一个扩展路径组成。收缩路径包括重复应用两个3x3卷积,每个卷积后都有一个relu,一个2x2的maxpooling操作,跨度为2的下采样,一个选择性核块,这是一个基本的残差块,由选择性核卷积构建,一个空间注意模块,用于提取空间注意权重。在每个下采样步骤中,本发明将特征通道的数量增加一倍。扩张路径包括对特征图的上采样,然后是2x2卷积、选择性内核块和空间注意力模块。选择性核块和空间注意力模块的使用与收缩步骤类似。在每个扩展步骤中,本发明将特征
通道的数量减半。
[0067]
网络损失功能
[0068]
scauie-net的端到端训练是由三个损失组件监督的,它们包括和
[0069]
1)ssim损失:为了从亮度、对比度和结构的角度增强水下图像,由感知驱动的ssim的误差函数是有效的。像素的ssim(p)被定义为:
[0070][0071]
其中x,y表示像素的位置p;μ
x
,μy和σ
x
,σy分别表示像素的平均值和标准偏差p;σ
xy
代表x,y的协方差。c1,c2为小常数,用于保持x、y的稳定性。l(p),c(p)和s(p).因此,ssim的损失函数可以写成ε(p)=1-ssim(p):
[0072][0073]
2)ms-ssim损失:在实践中,由于不同图像的因素不同,对特定图像的主观评价也不同。多尺度方法便于纳入不同分辨率的图像细节。本发明建议使用多尺度版本的ssim,ms-ssim,而不是微调设置。给定一个由多个层次组成的二维金字塔m层,ms-ssim被定义为
[0074][0075]
其中lm和csj是本发明在选择4.5.1中定义的术语,在尺度上m and j分别是为方便起见,本发明设定α=βj=1,为j={1,...,m}.与公式(10)类似,ms-ssim的损失函数可以写成如下。
[0076][0077]
3)感知损失:感知损失可以产生视觉上的愉悦和现实的结果。本发明根据预训练的19层vgg网络的relu激活层来定义感知损失。由于深层可以很好地代表语义信息,并能充分保留图像内容和整体空间结构,本发明从vgg19中选择第5_4层,使其对语义敏感。感知上的损失表示为增强的水下图像的特征表示与参考水下图像之间的距离i
en
和参考水下图像之间的距离。i
gt
:
[0078][0079]
其中φj(x)表示j表示在imagenet数据集上预训练的vgg19网络的第3个卷积层(激活后)。n是训练过程中每个批次的数量。c
jhj
wj代表vgg19网络中第3个卷积层的特征图的维度。j表示vgg19网络中第6个卷积层的特征图的尺寸。cj,hj、和wj为特征图的数量、高度和宽度。
[0080]
4)mae损失。由于l2损失函数会造成伪影。l1被应用于l1而不是l2.损失函数l1简单定义如下。
[0081][0082]
其中p是像素的索引,而p是patch。x(p)和y(p)分别是处理后的patch中的像素值
和ground truth。反传播的导数也很简单,因为truth。反传播的导数也很简单,因为因此,对于每个像素p在p中:
[0083][0084]
的导数没有定义在0处。因此,使用惯例,即sign(0)=0。在以下情况下,网络将不会更新权重
[0085]
5)损失项权重。ms-ssim保留了高频率区域的对比度。l1保留颜色和亮度,而perceptual loss保留语义信息。为了捕捉这些函数的最佳特征,本发明建议将它们结合起来,每个损失项都有一个权重超参数:α,β,γ。
[0086][0087]
其中,根据经验设定α=2,β=0.000025andγ=0.0025.
[0088]
实验
[0089]
本发明首先介绍scauie-net的训练细节。然后用uieb数据集训练模型。此外,本发明与传统的、基于物理的和最近的基于深度学习的方法进行了定性和定量的比较,以评估本发明提出的网络。这些方法包括直方图均衡化、gdcp、udcp、uggan、water-net、ucolor、ucolor。最后,本发明进行消融研究以证明scauie-net中每个组件的有效性。
[0090]
实施细节
[0091]
对于训练,本发明网络的输入是真实世界的水下图像。从uieb数据集中提取的800对真实世界图像的随机集合被用来训练本发明的网络。由于本发明的内存有限,本发明将输入图像的大小调整为112
×
112,翻转和旋转被用来获得原始训练数据的7个增强版本。对于测试,其余真实世界的图像被视为测试集。
[0092]
本发明在ubuntu20上用pytorch和nvidia 2080ti gpu实现了拟议的scauie-net。在训练过程中,本发明采用了批处理模式的学习方法,批处理量为16,历时设置为300。每层的过滤器权重由标准的高斯分布初始化。偏置被初始化为一个常数。本发明使用adam训练本发明的模型,并将学习率设置为0.0001。本发明使用reducelronplateau作为学习率衰减策略。当损失在10个epochs内停止下降时,学习率下降了0.50倍。
[0093]
在uieb数据集上进行的实验
[0094]
本发明首先从uieb中选择水下图像,然后将这些图像分为五类:偏绿和偏蓝的图像、偏黄的图像、低背向散射场景(相机和场景之间的距离很短)和高背向散射场景(相机和场景之间的距离很长)。然后用不同的方法增强不同类别的图像。此外,本发明对不同方法的增强结果进行了定性比较。
[0095]
由于红光、绿光和蓝光的衰减比不同,水下拍摄的照片总是显示色斑。此外,悬浮在水下的颗粒会吸收蓝光,导致偏黄的色斑。随着光线在水下传播的距离越远,偏黄的颜色会加深。
[0096]
此外,由于来自大气的光被悬浮颗粒反射,背向散射将导致水下图像的雾状遮挡。直方图均衡化有效地改善了图像的对比度,然而,直方图均衡化会导致明显的过度饱和。gdcp使水下图像变亮。udcp可以明显地使水下图像脱色,但加剧了色差。uwgan提高了水下图像的亮度和对比度,但增强后的图像偏蓝。water-net可以有效地减少伪影,但有局部过饱和现象。
[0097]
ucolor有较少的色差,本发明提出的方法提高了适当的对比度和饱和度,使前景更加自然,但仍然存在明显的色差。总之,大多数方法可以有效地去除雾霾并提高水下图像的质量。然而,对于基于深度学习的方法来说,引入伪影、过度增强和色斑仍然是需要克服的问题。为了定量评估不同方法的性能,本发明选择了三个常用的全参考指标(即mse、psnr和ssim)来评估uieb数据集上的增强结果。较高的psnr或较低的mse分数意味着增强后的图像在图像内容方面更接近参考图像。较高的ssim表示增强后的图像在图像结构上与参考图像更相似。同时,本发明选择水下彩色图像质量评价(uciqe)和水下图像质量测量(uiqm)作为非参考图像质量指标。uciqe通过色彩密度、饱和度和对比度来评价水下质量。uiqm通过水下色彩度、水下图像清晰度和水下图像对比度来衡量水下图像质量。
[0098]
表1中报告了不同方法在uieb数据集上的完全参考结果。另外,不同方法在uieb数据集上的非参考结果也在表2中报告。更高的uciqe或uiqm分数表示更好的人类视觉感知。如表1所示,本发明提出的scauie-net在所有指标上都表现出色,ucolor在完全参考指标上表现第二好。scauie-net获得的最高分表明本发明的方法可以更好地处理细节。uciqe和uiqm的分数显示在表2中。在表2中,直方图均衡化(he)在uciqe中表现最好,gdcp在uciqe中表现第二好;uggan在uiqm中排名最好,ucolor在uiqm中取得第二好。从scauie-net生成的不良非参考指标表明,水下非参考指标不能很好地衡量人眼的感知。
[0099]
表1在uieb数据集上以mse、psnr和ssim进行的全参考图像质量评估
[0100][0101][0102]
表2以uciqe和uiqm对uieb数据集进行的非参考图像质量评估
[0103][0104]
消融研究
[0105]
为了证明空间注意模块和选择性内核块在本发明网络中的作用,本发明用了没有空间注意模块和没有选择性内核块的scauie-net作为消融研究。如表3所示,空间注意模块可以显著提高整个模型的性能,尽管它降低了uiqm的性能;选择性内核块提高了uiqm的性能,尽管其改进没有空间注意模块那么明显。
[0106]
空间注意模块和选择性内核注意能有效地去除背景偏色,使图像更加真实。尽管这些组件可以有效地处理偏色,但它们在保留图像细节和边缘轮廓信息方面表现不佳。空间注意模块对图像的局部颜色不敏感,背景颜色相对单调。与空间注意力模块相比,选择性内核块可以获得合理的水下图像,尽管空间注意力模块可以获得更多的视觉上的愉悦的图像。
[0107]
表3无空间注意模块和选择性核块的图像质量评估
[0108][0109]
本发明中本发明构建了一个名为scauie-net的水下图像增强方法,同时使用空间注意机制和通道注意机制。本发明试图在uieb数据集上使用门控融合策略和注意机制。与water-net相比,本发明使用了u-net结构作为骨干,扩大了网络的深度和宽度。此外,该网络的空间注意模块和选择块可以感知水下图像在不同颜色通道和空间区域的颜色差异。结合多种图像质量损失函数,输出图像的对比度和饱和度得到进一步改善。从全参考指标来
看,scauie-net的psnr比water-net高3.8156,而scauie-net的ssim比water-net高0.1289。在实验部分,本发明通过与其他水下图像增强方法的定性比较和定量比较,验证了该模型的有效性。此外,本发明还进行了消融研究,以证明scauie-net中每个组件的有效性。
[0110]
以上所述,仅为本发明优选的具体实施方式,但本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种水下图像增强方法,其特征在于,包括以下步骤:获取目标水下图像;根据所述目标水下图像和图像增强网络确定水下增强图像;所述水下增强图像的饱和度和亮度高于所述目标水下图像;所述图像增强网络是根据门控融合框架构建的;所述门控融合框架包括依次连接的信心图生成器和图像精炼器;所述信心图生成模块是根据选择性内核卷积和空间注意模块构建的;所述信心图生成器用于生成预测的信心图。2.根据权利要求1所述的水下图像增强方法,其特征在于,所述图像增强网络的确定方法为:获取训练数据;所述训练数据包括训练水下图像及对应的水下增强图像;构建门控融合框架网络;将所述训练数据输入所述门控融合框架网络,并根据损失函数进行训练,将训练好的门控融合框架网络确定为图像增强网络。3.根据权利要求1所述的水下图像增强方法,其特征在于,根据所述目标水下图像和图像增强网络确定水下增强图像,具体包括:对所述目标水下图像进行伽马校正、白平衡和直方图均衡算法来得到精炼图像;将精炼图像与信心图相乘得到水下增强图像。4.根据权利要求2所述的水下图像增强方法,其特征在于,所述损失函数为ms-ssim损失、感知损失、mae损失。5.根据权利要求3所述的水下图像增强方法,其特征在于,所述图像精炼器由由选择性核卷积和二维卷积层组成,用于进行所述目标水下图像的预处理。6.一种水下图像增强系统,其特征在于,包括:获取模块,用于获取训练数据;生成模块,用于生成增强后的图像。7.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至5中任一项所述的水下图像增强方法。8.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的水下图像增强方法。
技术总结
本发明提供一种水下图像增强方法、系统、电子设备及存储介质,包括以下步骤:获取目标水下图像;根据所述目标水下图像和图像增强网络确定水下增强图像;所述水下增强图像的饱和度和亮度高于所述目标水下图像;所述图像增强网络是根据门控融合框架构建的;所述门控融合框架包括依次连接的信心图生成器和图像精炼器;所述信心图生成模块是根据选择性内核卷积和空间注意模块构建的;所述信心图生成器用于生成预测的信心图。本发明解决了现有技术中存在的水下图像存在的颜色偏差、背景模糊、对比度和能见度低等问题。度和能见度低等问题。度和能见度低等问题。
技术研发人员:王骥 钟远昊 罗圳
受保护的技术使用者:广东海洋大学
技术研发日:2023.05.23
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/