基于空洞卷积的多尺度特征融合双目视差估计算法
未命名
08-22
阅读:111
评论:0
基于空洞卷积的多尺度特征融合双目视差估计算法
(一)技术领域
1.本发明涉及的是一种基于空洞卷积的多尺度特征融合双目视差估计算法,可用于三维空间的立体重建,属于计算机视觉、图像处理技术领域。
(二)
背景技术:
2.计算机视觉是一门研究使用计算机来模拟人的视觉系统的学科,人类对于图像中的信息感知效率远超文字等其他媒介,人类获取的信息总量中更是有高达80%依靠视觉系统。双目视差估计是计算机视觉领域的重要分支,它通过模拟人的视觉系统来处理现实世界。随着社会的科技进步,双目视差估计技术的发展日新月异,随着匹配算法精度与速度的提高,其应用场景进一步扩大。在此背景下,研究双目视差估计变的意义非凡。双目视差估计作为三维重建、立体导航、非接触测距等技术的关键步骤,通过匹配两幅或者多幅图像来获取深度信息。并且广泛应用于工业生产自动化、流水线控制、无人驾驶汽车(测距,导航)、安防监控、图像分析、机器人智能控制等方面。虽然双目视差估计应用广泛但是还有很多尚未解决的难题因此该技术成为了近年来计算机视觉领域广泛关注的难点和热点。
3.双目视差估计是立体视觉研究中的关键部分,其基本原理是使用两个固定的平行摄像机获取同一场景不同视角下的两张图片,称为左视图与右视图,利用立体匹配算法求出对应匹配点的视差,进而得到深度信息,实现三维空间立体重建。
4.近年来,卷积神经网络表现出较强的特征理解能力。lecun首先将卷积神经网络(cnn)应用于双目视差估计,计算匹配代价。cnn从图像中提取特征,并计算像素块之间的相似度得分。匹配代价体由基于交叉的成本汇总模块和半全局匹配模块进行处理。由于cnn可以显著提升双目视差估计任务的效果,许多基于神经网络的算法被提出,但大多数算法只是利用cnn来解决相似度计算问题。
5.最近的研究表明基于深度学习的端到端深度估计算法极大地提高了估计的精度和速度。dispnet将传统算法思想引入到端到端的双目视差估计网络中,对匹配特征进行编码。gc-net将3d-cnn引入到双目视差估计网络中,以聚合代价体。gc-net利用3d-cnn构建了一种堆叠的编解码结构,以更好地利用上下文信息。psmnet使用空间金字塔池模块来提取上下文信息。尽管基于cnn的算法在对双目视差估计任务的性能有了很大的提高,但由于网络并不能捕获充分的上下文信息和多尺度信息,在复杂场景中像素的视差估计中仍然存在一些困难。
6.本发明公开了一种基于空洞卷积的多尺度特征融合双目视差估计算法,可用于计算机视觉、场景理解、图像和视频增强、自动驾驶、以及三维重建等领域。它利用空洞卷积的优势,在不增加计算量的同时丰富内部数据和空间层级化的信息,通过扩大接收感受野,提高对小物体及薄结构区域特征提取的准确性。与在先技术相比,融合不同尺度的特征也是捕获上下文信息,弥补深层网络造成的底层结构信息损失,也进一步提高了弱纹理及薄区域的准确度。
(三)
技术实现要素:
7.本发明的目的在于提供一种基于空洞卷积的多尺度特征融合双目视差估计算法。
8.本发明的目的是这样实现的:
9.提出模型利用cnn网络提取图像的浅层特征信息,引入空洞卷积方法提取不同范围的特征,将图像的多尺度特征进行融合得到稠密的特征图,然后通过拼接级联代价体与分组相关代价体的方式构建4d联合代价体,并采用3d卷积的编-解码结构对代价体进行聚合,最后采用视差回归的方式生成输出视差图。
10.s1:对输入的图像进行特征提取。传统的方法难以有效地提取图像的语义信息,而cnn网络在这方面表现更优秀。为了获取更高级别的语义特征,通常会采用更深的网络架构。然而,使用深层次的神经网络能够获取更多抽象的语义信息,但这也伴随着巨大的计算量和内存需求,同时并不能带来明显的精度提升。因此,本发明采用轻量的cnn网络来提取图像的浅层特征信息,这些信息主要包括颜色、边缘等基础特征。。
11.整个模块之间的所有权值是共享的。为了提高神经网络的性能和训练速度,我们在所有的卷积层后加入了bn层和relu层。bn层通过规范化神经网络中每层的输入,使得输入值在可激活的范围内,避免了饱和的情况,减少了梯度消失的风险,同时使得网络更容易收敛,提高了学习速率。relu层则增强了特征的非线性表达能力,使得网络能够更好地区分不同的物体特征,从而提高了其分类性能。
12.s2:对不同尺度特征进行融合。视差估计需要考虑不同物体之间的空间对应关系,但是同一个物体在不同图像中可能存在不同的尺度,而不同物体在同一个图像中也可能存在不同的尺度。如果只采用单一的卷积尺度可能会导致匹配误差。因此,需要利用上下文信息和多尺度感受野来充分考虑不同尺度下的物体对应关系,从而提高匹配精度。
13.针对以上问题,在dense aspp的基础上进行改进,可以提供更大的感受野和更小的计算量。利用空洞卷积在不损失特征信息的情况下增大感受野,每个卷积输出包含比普通卷积更大范围的特征信息,利于获取图像中物体特征的全局信息。
14.s2中对输入的特征图首先采用一个3
×
3的常规卷积提取稠密的特征信息,后续使用不同的扩张率的3
×
3空洞卷积获取不同感受野的特征信息,每一个空洞卷积层卷积前与其输入及其所有前层的输出进行相加操作,对所有层的分支进行级联操作,最后对全局特征做平均池化,让更多的像素点参与计算。
15.s3:联合代价体构建。采用级联的方式,将特征提取单元输出的特征在每个视差级别上连接左特征图和对应的右特征图形成一个4d代价体(height
×
width
×
disparity
×
featuresize),用组相关的形式,计算左侧特征和右侧特征对应每组之间的相关映射,获得多个匹配成本代价,然后将这些匹配成本代价压缩成一个成本量与上述基于级联的代价体共同构成联合代价体。
16.s4:匹配代价体聚合。它由编码器和解码器两部分构成,其中编码器将代价体不断缩小,提取出代价体的高级特征,解码器则将这些特征逐步还原成原始大小的代价体。其中包括三个编-解码器,其中每个编码器包含两个两层的残差卷积模块,每个解码器包含两个卷积层和一个全连接层,每个编码器与解码器互相连通,编码器的输入连接至对应解码器的输出,网络尾部包含两个全连接层和一个卷积层。
17.s5:视差回归。使用视差回归的方式来估算连续的视差图。代价聚合单元输出的特
征图大小为(h,w,d+1),d表示最大视差。使用softmax操作ε(
·
),我们可以从预测的成本cd中计算出每个视差d的概率。视差回归定义如下:
[0018][0019]
使用每个视差d的概率加权和来计算预测视差。
(四)附图说明
[0020]
图1是基于空洞卷积的多尺度特征融合双目视差估计算法的流程示意图;
[0021]
图2是初始特征提取模块结构示意图;
[0022]
图3是多尺度特征融合模块结构示意图;
[0023]
图4是联合代价体构建结构图;
[0024]
图5是基于空洞卷积的多尺度特征融合双目视差估计算法的实施流程图。
(五)具体实施方式
[0025]
下面结合具体的实施例来进一步阐述本发明。
[0026]
图5给出了基于空洞卷积的多尺度特征融合双目视差估计算法的实施例。系统是由特征提取单元、多尺度特征融合单元、匹配代价计算单元、匹配代价聚合单元、视差回归单元组成。所述系统中输入的左图像和右图像经过特征提取单元对图像中的特征点进行提取,将提取的不同尺度的特征点信息进行融合生成稠密的特征图,特征图经由匹配代价计算单元对提取的特征点按照组相关的形式进行相关性映射获得多个匹配成本代价,将这些匹配代价成本压缩成一个成本量,与提取的每个视差级别上的特征级联形成的代价体共同构成匹配代价体,使用了堆叠的具有编-解码器结构的3d沙漏网络聚合代价体,最后使用视差回归的方式来估算连续的视差图。
[0027]
在双目视觉的视差估计中,一个关键问题是寻找在左右图像中的匹配点,以得到两幅图像中对应像素的水平位置差,也称之为视差,从而进一步可以计算出该像素点的深度。
[0028]
特征提取单元。采用轻量的cnn网络,它的结构包含两个卷积层,将一个批量归一化层和一个relu激活函数放置在每一个卷积层之后,初始特征提取模块结构如图2所示。bn层通过规范化神经网络中每层的输入,使得输入值在可激活的范围内,避免了饱和的情况,减少了梯度消失的风险,同时使得网络更容易收敛,提高了学习速率。relu层则增强了特征的非线性表达能力,使得网络能够更好地区分不同的物体特征,从而提高了其分类性能。
[0029]
该模块的输入为大小为h
×w×
3的rgb彩色图像,图像首先经过一个步长为2、卷积核数为32的3
×
3的2d卷积进行下采样得到大小为h/2
×
w/2
×
32的特征图,其后经过第一个bn层和第一个relu层,之后经过第二个步长为2、卷积核数为32的3
×
3的2d卷积和第二个bn层和relu层。输出为大小为h/4
×
w/4
×
32的左右图像浅层特征图。
[0030]
多尺度特征融合单元。对不同尺度的特征图进行融合可以提高网络对多尺度信息的利用效率,从而进一步提升网络的性能。而采用相加操作对特征图进行融合可以避免出现信息丢失的情况,同时可以降低网络参数量,减少过拟合的风险。多尺度特征融合模块结构如图3所示。
[0031]
空洞卷积向卷积层引入了一个“扩张率(dilationrate,dr)”的新参数,该参数定义了卷积核处理数据时各值的间距。设置不同扩张率时,感受野会不同,从而能够获取图像多尺度特征信息。实验中,根据图像的原始尺寸来相应设定深度神经网络中空洞卷积所提取的特征图的大小,进而设定空洞卷积扩张率。本文设定扩张率参数分别为rate=4,8,12,16,20,通过不同扩张率的卷积获取多个尺度的物体特征信息,卷积内剩余点的权重均为0。
[0032]
利用深度神经网络提取特征时,池化和其下采样会导致物体边缘信息丢失现象。多尺度特征融合单元对不同分辨率的特征图进行级联,而不同尺度的上下文信息有助于获得完整的物体边界信息。空洞卷积可以通过使用不同的扩张率实现多尺度感受野,进而融合不同尺度的特征信息。而单尺度空洞卷积可能会导致特征稀疏的问题,因此使用不同扩张率的空洞卷积可以避免这一问题,同时提高网络对全局信息的关联性。
[0033]
该模块输入为大小为h/4
×
w/4
×
32浅层特征图,对输入的特征图首先采用一个3
×
3的常规卷积提取稠密的特征信息,后续使用不同的扩张率的3
×
3空洞卷积获取不同感受野的特征信息,每一个空洞卷积层卷积前与其输入及其所有前层的输出进行相加操作,对所有层的分支进行级联操作,最后对全局特征做平均池化,让更多的像素点参与计算,生成大小为h/4
×
w/4
×
256的特征图。
[0034]
联合代价体构建。代价体是指为了找到匹配点而在两张图像上的每个像素位置计算出的一组代价值,代价体的构建方式是决定双目视差估计算法性能的关键之一。
[0035]
采用左右特征取内积的方式进行构建的方式在每个视差级别下计算单通道的相关性,计算开销很小但回丢失很多信息。通过级联所有视差级别的左右特征图构建4d代价体的方式包含了丰富的内容信息,但其忽略了左右特征信息的相关性,需要额外的卷积来学习,这就增加了网络参数,增大了计算开销。本实施例在代价体构建部分由级联的匹配代价体和分组相关的代价体联合组成,这种方式结合了两者的优点,弥补了各自的不足,生成的代价体更具鲁棒性。
[0036]
级联的匹配代价体输入为左特征图f
l
和右特征图fr,视差d=0时,将左右特征图进行级联,得到视差d=0时的匹配代价视差d=1时,将右图像向左移动一列,形成对应的特征子图,再将左特征图与该特征子图进行级联,生成视差d=1时的匹配代价以此类推,在视差为d(d=0,1,2,
…
,d
max
/4-1)时,将右图像向左移动移动d列,形成对应的特征子图,再将左特征图与该特征子图进行级联,生成视差为d时的匹配代价数学表达式为:
[0037][0038]
其中,f
l
表示左特征图;fr表示右特征图;concat表示级联操作,沿特征通道维度合并;l(
·
)表示向左移位操作;d表示移位值,即视差等级。
[0039]
再对左特征图的其他通道均进行此操作,对应级联,最终生成4d匹配代价体。其表达式为:
[0040][0041]
其中,cd表示生成的4d匹配代价体,其大小为d
max
/4
×
h/4
×
w/4
×
512。将生成的代价体依次经过两个步长为1的1
×
1卷积层,卷积核数分别为256和32,最终将生成的代价体压缩成大小为d
max
/4
×
h/4
×
w/4
×
32的级联代价体。
[0042]
分组相关的代价体的思想是将特征分组,每组特征只与另一组特征进行相关性计算,从而减少计算量。在分组相关中,特征向量通常按照通道维度进行分组,即将所有通道均分为若干组,每个特征组包含相同数量的特征通道。分组相关代价数学表达式为:
[0043][0044]
其中,《
·
》表示向量的内积,nc表示特征的通道维数,ng表示组数,f
lg
为左特征图第g组的特征图,为右特征图第g组的特征图。对于所有的视差d,在左特征组和对应右特征组之间进行相关性计算,并将计算结果进行级联生成大小为d
max
/4
×
h/4
×
w/4
×
ng匹配代价体。
[0045]
本实施例将左特征图和右特征图在通道维度上分为32组即ng=32,特征通道总维数为512即nc=512,每组包含16个特征图通道。首先将特征图的对应分组进行相关性计算,然后将每个分组的计算结果级联起来,最后得到视差为0时的分组相关代价体其数学表达式为:
[0046][0047]
当视差d不为0时,需要将右特征图在水平方向上向右移动d个像素,使得左右特征图的对应像素在代价计算中一一对应,以保证计算的准确性。接着,对于每个视差值,将左特征图和右特征图在水平方向上分别移动相应像素数,然后分组,计算代价体的过程与视差为0时一致。最终,得到所有视差值下的代价体,并将它们级联起来得到大小为d
max
/4
×
h/4
×
w/4
×
32的分组相关代价体cg,其数学表达式为:
[0048][0049]
联合代价体构建部分如图4所示。将级联代价体与分组相关代价体进行级联,得到大小为d
max
/4
×
h/4
×
w/4
×
64的联合代价体。联合代价体结合了级联的代价匹配和组相关代价体的优点,既能够提供更丰富的特征信息,又能够反映特征图之间的联系,更具鲁棒性。
[0050]
匹配代价体聚合。它由编码器和解码器两部分构成,其中编码器将代价体不断缩小,提取出代价体的高级特征,解码器则将这些特征逐步还原成原始大小的代价体。在这个过程中,编解码沙漏结构使用了3d卷积来对代价体进行操作,以便同时考虑到不同视角之间的空间信息和视差方向的信息。
[0051]
具体地,编码器和解码器由多层卷积和池化操作组成。
[0052]
在编码器中,首先对输入的代价体进行卷积操作,然后再进行池化操作来减小特征图的尺寸,同时增加特征的感受野。池化操作之后,再进行一次卷积操作,进一步提取特征。这样逐层地进行卷积和池化操作,最终得到一组不同尺度的特征图。
[0053]
在解码器中,首先对编码器输出的最后一层特征图进行反卷积操作,将特征图的尺寸放大。然后将放大后的特征图与编码器中对应的特征图进行拼接,得到更加丰富的特征信息。接着再进行一次卷积操作,进一步提取特征,最终得到高分辨率的特征图,即代价体。
[0054]
在这个过程中,编-解码沙漏结构使用了跳跃连接(skip connection)来将编码器
中的高级特征与解码器中的低级特征相结合,以便同时考虑到局部和全局的信息,从而提高深度估计的准确度。
[0055]
代价体聚合单元包括三个编-解码器,其中每个编码器包含两个两层的残差卷积模块,每个解码器包含两个卷积层和一个全连接层,每个编码器与解码器互相连通,编码器的输入连接至对应解码器的输出,网络尾部包含两个全连接层和一个卷积层。
[0056]
视差回归。使用视差回归的方式来估算连续的视差图。代价聚合单元输出的特征图大小为(h,w,d+1),d表示最大视差。使用softmax操作ε(
·
),我们可以从预测的成本cd中计算出每个视差d的概率。视差回归定义如下:
[0057][0058]
使用每个视差d的概率加权和来计算预测视差。
[0059]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0060]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制。本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
[0061]
以上本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
技术特征:
1.一种基于空洞卷积的多尺度特征融合双目视差估计算法,用于匹配输入的左右图像,生成输出的视差图。该算法包括以下构成装置:s1.特征提取单元,用于从输入的左右图像中提取特征;s2.多尺度特征融合单元,用于将左右图像的不同尺度特征信息进行融合,生成稠密的特征信息;s3.联合代价体构建单元,用于将左右图像的特征构建成代价体;s4.代价体聚合单元,用于通过3d卷积的编-解码结构对代价体进行聚合;s5.视差回归单元,用于生成输出的视差图。2.根据权利要求1所述的方法,其中s1特征提取单元采用采用轻量的cnn网络来提取图像的浅层特征信息。其中,轻量的cnn网络包含两个卷积层,将一个批量归一化层和一个relu激活函数放置在每一个卷积层之后。3.根据权利要求1所述的方法,其中s2多尺度特征融合单元通过将不同尺度的特征进行融合来提升匹配精度。具体来说,首先,采用一个3
×
3的常规卷积提取稠密的特征信息,后续使用不同的扩张率的3
×
3空洞卷积获取不同感受野的特征信息,每一个空洞卷积层卷积前与其输入及其所有前层的输出进行相加操作,对所有层的分支进行级联操作,最后对全局特征做平均池化。4.根据权利要求1所述的方法,其中s4代价体聚合单元采用由3d卷积构成的编-解码沙漏结构对代价体进行聚合。特别地,该代价体聚合单元包括三个编-解码器,其中每个编码器包含两个两层的残差卷积模块,每个解码器包含两个卷积层和一个全连接层,每个编码器与解码器互相连通,编码器的输入连接至对应解码器的输出,网络尾部包含两个全连接层和一个卷积层。
技术总结
本发明提供的是一种基于空洞卷积的多尺度特征融合双目视差估计算法。模型利用CNN网络提取图像的浅层特征信息,引入空洞卷积方法提取不同范围的特征,将图像的多尺度特征进行融合得到稠密的特征图,然后通过拼接级联代价体与分组相关代价体的方式构建4D联合代价体,并采用3D卷积的编-解码结构对代价体进行聚合,最后采用视差回归的方式生成输出视差图。本发明可用于提升双目立体匹配方法的匹配精度,形成更高精度的视差图,特别是在遮挡区域和边缘的获得较精确的视差,可广泛用于三维重建、视觉SLAM等领域。视觉SLAM等领域。视觉SLAM等领域。
技术研发人员:郑明德 王自亮 熊显名 杜浩 玉光等
受保护的技术使用者:桂林电子科技大学
技术研发日:2023.05.08
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
