基于深度学习的时空域增强虚拟视点合成方法及系统
未命名
09-21
阅读:151
评论:0

1.本发明属于图像处理技术领域,尤其涉及一种基于深度学习的时空域增强虚拟视点合成方法及系统。
背景技术:
2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
3.dibr(即基于深度图像的虚拟视点绘制)是虚拟视点合成技术的一个重要发展方向。该技术利用三维映射方程将参考视图中的像素映射到虚拟视点图像平面。三维映射主要分为两步:
4.(1)根据参考视点的相机参数和深度图将参考视图的像素映射到三维空间,计算出像素的三维坐标。
5.(2)据虚拟视点的相机参数和深度图将三维空间的像素映射到虚拟视点平面。
6.整个映射过程从二维平面到三维空间最后再到二维平面,从而建立起参考视点像素和虚拟视点像素之间的对应关系,该过程涉及了三种坐标系及其转换,包括图像坐标系、相机坐标系和世界坐标系。
7.发明人发现,现有方法的三维映射过程中,由于图像的离散型,前向映射中,小数位置像素被四舍五入(反向映射则为插值)到整数位置,从而会产生几何误差,这种几何误差会严重降低虚拟视图的质量,类似于长期存在的图像超分辨率问题;同时,现有方法中通常考虑的是如何尽可能消除这种几何误差,而并未考虑如何对几何误差进行有效利用。
技术实现要素:
8.为克服上述现有技术的不足,本发明提供了一种基于深度学习的时空域增强虚拟视点合成方法及系统,所述方案通过预先构建的几何误差感知对齐模块将图像的偏移像素对齐到正确位置,有效解决了几何误差带来的几何失真问题;同时,所述方案通过基于注意力机制的视点融合模块,充分考虑了几何误差在一定程度上反映了映射后图像的像素质量,通过将几何误差引入视点融合中,有效提高了视点融合的质量;同时,所述方案基于多帧融合图像进行融合图像的时域多帧增强,进一步提高了融合图像的质量。
9.根据本发明实施例的第一个方面,提供了一种基于深度学习的时空域增强虚拟视点合成方法,包括:
10.获取待处理的左右视点的三帧连续图像及其对应的深度图;
11.基于左右视点的图像及深度图,利用基于深度图的图像绘制技术,获得虚拟视点的图像及对应的几何误差;
12.基于虚拟视点的图像及其对应的几何误差,通过建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置;
13.将对齐后的不同视点下的图像进行视点融合,获得融合图像;其中,在视点融合中
基于注意力机制引入不同视点图像对应的几何误差;
14.将获得的融合图像进行空域的空洞填补和增强后,基于中间帧融合图像与其前一帧和后一帧融合图像之间的偏移量预测结果,将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,并将三帧图像进行融合获得增强后的融合图像。
15.进一步的,所述建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置,具体为:基于传统卷积及若干几何误差感知可变形卷积构建几何误差感知对齐模块,将虚拟视点的图像经传统卷积生成高维特征,然后将特征和几何偏差拼接输入到可变形卷积中,逐步将偏移像素对齐至正确的位置。
16.进一步的,所述几何误差感知可变形卷积包括偏移量预测分支和可变形卷积分支,所述偏移量预测分支采用两层卷积生成相应的可变形采样偏移量;所述可变形卷积分支采用可变形卷积。
17.进一步的,将对齐后的不同视点下的图像进行视点融合,具体为:将待融合的图像分别进行最大池化和平均池化操作后,进行拼接得到四个通道的特征;所述特征经卷积处理后分别与不同视点下的几何误差进行拼接和卷积操作,然后经归一化操作处理后获得置信度将矩阵;将所述置信度矩阵与其对应的待融合图像进行点乘后,对待融合图像进行加权求和,获得融合后的图像。
18.进一步的,所述将获得的融合图像进行空域的空洞填补和增强,具体采用将普通卷积替换为部分卷积的u-net网络。
19.进一步的,将获得的融合图像进行空域的空洞填补和增强后,基于不同帧的融合图像进行融合图像的时域多帧增强处理,在所述时域多帧增强处理中,融合图像间的偏移量预测采用u-net网络进行预测。
20.进一步的,所述将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,具体采用可变形卷积进行对齐。
21.根据本发明实施例的第二个方面,提供了一种基于深度学习的时空域增强虚拟视点合成系统,包括:
22.数据获取单元,其用于获取待处理的左右视点的三帧连续图像及其对应的深度图;
23.图像绘制单元,其用于基于左右视点的图像及深度图,利用基于深度图的图像绘制技术,获得虚拟视点的图像及对应的几何误差;
24.对齐单元,其用于基于虚拟视点的图像及其对应的几何误差,通过建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置;
25.初步融合单元,其用于将对齐后的不同视点下的图像进行视点融合,获得融合图像;其中,在视点融合中基于注意力机制引入不同视点图像对应的几何误差;
26.增强及融合单元,其用于将获得的融合图像进行空域的空洞填补和增强后,基于中间帧融合图像与其前一帧和后一帧融合图像之间的偏移量预测结果,将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,并将三帧图像进行融合获得增强后的融合图像。
27.根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于深度学
习的时空域增强虚拟视点合成方法。
28.根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于深度学习的时空域增强虚拟视点合成方法。
29.以上一个或多个技术方案存在以下有益效果:
30.(1)本发明提供了一种基于深度学习的时空域增强虚拟视点合成方法及系统,所述方案通过预先构建的几何误差感知对齐模块将图像的偏移像素对齐到正确位置,有效解决了几何误差带来的几何失真问题。
31.(2)本发明所述方案通过基于注意力机制的视点融合模块,充分考虑了几何误差在一定程度上反映了映射后图像的像素质量,通过将几何误差引入视点融合中,有效提高了视点融合的质量。
32.(3)本发明所述方案基于多帧融合图像进行融合图像的时域多帧增强,进一步提高了融合图像的质量。
33.本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
34.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
35.图1为本公开实施例中所述的三维映射过程示意图;
36.图2为本公开实施例中所述的几何误差生成示意图;
37.图3为本公开实施例中所述的一种基于深度学习的时空域增强虚拟视点合成方法所采用的整体网络架构示意图;
38.图4为本公开实施例中所述的几何误差感知可变形卷积结构示意图;
39.图5为本公开实施例中所述的几何误差感知对齐模块结构示意图;
40.图6为本公开实施例中所述的基于注意力机制的视点融合网络结构示意图;
41.图7为本公开实施例中所述的基于部分卷积的空域空洞填补与细化模块的网络结构示意图;
42.图8为本公开实施例中所述的时域多频增强网络示意图;
43.图9为本公开实施例中所述的偏移量生成网络示意图。
具体实施方式
44.应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
45.需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
46.在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
47.实施例一
48.本实施例提供了一种基于深度学习的时空域增强虚拟视点合成方法。
49.一种基于深度学习的时空域增强虚拟视点合成方法,包括:
50.获取待处理的左右视点的三帧连续图像及其对应的深度图;
51.基于左右视点的图像及深度图,利用基于深度图的图像绘制技术,获得虚拟视点的图像及对应的几何误差;
52.基于虚拟视点的图像及其对应的几何误差,通过建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置;
53.将对齐后的不同视点下的图像进行视点融合,获得融合图像;其中,在视点融合中基于注意力机制引入不同视点图像对应的几何误差;
54.将获得的融合图像进行空域的空洞填补和增强后,基于中间帧融合图像与其前一帧和后一帧融合图像之间的偏移量预测结果,将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,并将三帧图像进行融合获得增强后的融合图像。
55.在具体实施中,所述建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置,具体为:基于传统卷积及若干几何误差感知可变形卷积构建几何误差感知对齐模块,将虚拟视点的图像经传统卷积生成高维特征,然后将特征和几何偏差拼接输入到可变形卷积中,逐步将偏移像素对齐至正确的位置。
56.在具体实施中,所述几何误差感知可变形卷积包括偏移量预测分支和可变形卷积分支,所述偏移量预测分支采用两层卷积生成相应的可变形采样偏移量;所述可变形卷积分支采用可变形卷积。
57.在具体实施中,将对齐后的不同视点下的图像进行视点融合,具体为:将待融合的图像分别进行最大池化和平均池化操作后,进行拼接得到四个通道的特征;所述特征经卷积处理后分别与不同视点下的几何误差进行拼接和卷积操作,然后经归一化操作处理后获得置信度将矩阵;将所述置信度矩阵与其对应的待融合图像进行点乘后,对待融合图像进行加权求和,获得融合后的图像。
58.在具体实施中,将获得的融合图像进行空域的空洞填补和增强后,基于不同帧的融合图像进行融合图像的时域多帧增强处理,在所述时域多帧增强处理中,融合图像间的偏移量预测采用u-net网络进行预测。
59.在具体实施中,所述将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,具体采用可变形卷积进行对齐。
60.具体的,为了便于理解,以下结合附图对本实施例所述方案进行详细说明:
61.首先给出如下术语解释:
[0062][0063][0064]
dibr技术(即基于深度图像的虚拟视点绘制技术)是虚拟视点合成技术的一个重要发展方向。该技术利用三维映射方程将参考视图中的像素映射到虚拟视点图像平面。三维映射主要分为两步:
[0065]
(3)根据参考视点的相机参数和深度图将参考视图的像素映射到三维空间,计算出像素的三维坐标。
[0066]
(4)据虚拟视点的相机参数和深度图将三维空间的像素映射到虚拟视点平面。
[0067]
整个映射过程从二维平面到三维空间最后再到二维平面,从而建立起参考视点像
素和虚拟视点像素之间的对应关系,该过程涉及了三种坐标系及其转换,包括图像坐标系、相机坐标系和世界坐标系。
[0068]
如图1所示,三维映射通过世界坐标系,相机坐标系和图像坐标系之间的转换来获取参考视图和虚拟视图中像素的对应关系。世界坐标系是固定的,与使用的摄像机无关。相机坐标系是一个光学中心处于原点的三维坐标系,通过平移和旋转可以转化为世界坐标系。图像坐标系是在图像平面内的二维坐标系,通过三角形相似关系可以转化为相机坐标系。齐次坐标是在普通笛卡尔坐标下增加一个额外的维度,是在更高维空间下表示低维度概念,在计算机图形学中经常被用来说明几何体的平移,旋转和投影变换关系,因此使用了齐次坐标来说明三种坐标系之间的转化。
[0069]
如图1所示,假设三维空间中的点q对应到图像平面的投影点为p。q在相机坐标系下的坐标为(xc,yc,zc),在世界坐标系下的坐标为(x,y,c);p在图像平面的坐标为(u,v)。
[0070]
(1)相机坐标系与世界坐标系的转化
[0071]
相机坐标系到世界坐标系通过旋转与平移即可以转化,其矩阵形式的转化表示如下:
[0072][0073]
其中,r是3
×
3的旋转矩阵,t为3
×
1的平移矩阵。将上述公式写成齐次坐标形式:
[0074][0075]
(2)图像坐标系与相机坐标系的转化
[0076]
相机坐标系和图像坐标系的转换由相似三角形关系得出:
[0077][0078]
其中,f表示以毫米为单位的相机焦距。
[0079]
将(u,v)写成齐次坐标的形式(u,v,1,1),上述坐标转化为齐次坐标矩阵形式表示如下:
[0080][0081]
(3)图像坐标系与世界坐标系的转化
[0082]
将公式(2)和公式(4)消去中间变量,可以得到图像坐标系与世界坐标系的转换关系,齐次坐标的矩阵形式描述如下:
[0083][0084]
设p为4
×
4的投影矩阵,其大小为相机内参乘以相机外参,表示如下:
[0085][0086]
其中,c表示为4
×
4的相机的外参矩阵;k表示4
×
4的相机内参矩阵。
[0087]
三维映射:
[0088]
三维映射是基于三种坐标系的转换来获取参考视图和虚拟视图像素之间的对应关系。首先将参考视点的图像坐标系映射到世界坐标系中,然后将世界坐标系中的点映射到虚拟视图的图像坐标系中。设pr,zr分别为参考视点相机投影矩阵和深度,p
t
,z
t
分别为虚拟视点的相机投影矩阵和深度。由公式(7)可得从参考视点图像坐标系到世界坐标的转化关系为:
[0089][0090]
从虚拟视点图像坐标系到世界坐标系的转化关系为:
[0091][0092]
消去公式(7)和公式(8)的中间变量,可得dibr原理公式:
[0093][0094]
从上式可得像素间的对应关系,给定参考视图的坐标点(u1,v1),可以求出相应的虚拟视图的采样坐标点(u2,v2)。同时,由参考视点的深度图可以求得虚拟视点的深度值。可以将dibr映射过程可以描述为:
[0095]i(r
→
t)
=ir<proj(pr,zr,p
t
)>
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(10)
[0096]
其中,zr,ir,pr分别是位于参考视点的深度图,彩色图和相机投影矩阵;p
t
是虚拟视点的相机投影矩阵;ir→
t
表示生成的虚拟视点图像;proj()函数表示从公式11得到的采样点;《》表示采样操作。
[0097]
几何误差的生成:
[0098]
前向映射和反向映射均可用于dibr,本实施例的实验分析采用前向映射来说明映射过程,同样的分析可以应用在反向映射中。如图2所示,在三维映射过程中,由于图像的离散性,小数位置像素被四舍五入(反向映射为插值)到整数位置,从而产生几何误差。这种几
何误差会严重降低虚拟视图的质量,类似于长期存在的图像超分辨率问题。发明人发现,几何误差在一定程度上反映了映射后图像的像素质量,不仅可以帮助改善映射过程,还有助于后续的视点融合过程。如图2所示,在三维映射过程中,几何误差的计算如下:
[0099]ei
=[ui,vi]-[|ui|,|vi|]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(11)
[0100]
其中,[ui,vi]是三维映射过程中计算得到的位置索引矩阵;|
·
|表示取整操作(四舍五入或双线性插值)。
[0101]
空洞掩膜的生成:
[0102]
空洞掩膜是一个0-1二值矩阵,空洞区域的像素点取值为0,非空洞区域的像素点取值为1。dibr映射过程如公式(11)所示,在全为1的矩阵中采样可以生成图像的空洞掩膜,公式如下:
[0103][0104][0105]
其中,hole
l
→
t
和holer→
t
分别表示从左、右视点映射到虚拟视点过程中产生的空洞掩膜;表示全为1的矩阵;proj()表示三维映射过程得到的采样点;《》表示采样操作;dr为右视点的深度图,d
l
为左视点的深度图。最终的空洞掩膜为来自左右视点空洞掩膜进行按位或运算,计算公式如下:
[0106]
hole=hole
(r
→
t)
|hole
(l
→
t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0107]
其中,|表示矩阵的按位或运算,其作用是将矩阵的的每个位置进行或操作,即若两个数的某一位都为0,则结果对应位也为0,否则为1。具体可用opencv中的bitwise_or函数实现。
[0108]
虚拟视图的生成:
[0109]
三维映射后,由于几何误差问题和“去遮挡”问题,生成的图像会出现小裂缝和空洞。在图像处理领域中,中值滤波是一种非线性滤波器,对于孤立的噪声像素,例如:椒盐噪声、脉冲噪声,有着良好的滤波效果。它能够保持图像边缘特性,不易产生显著的模糊,有利于消除虚拟视图中的小空洞。在形态学图像处理中,闭运算被定义为先膨胀后腐蚀,能够在总的前景位置和形状不变的情况下填平前景物体中的小裂缝。因此为了减少虚拟视图中的裂缝和空洞,首先用其他视图的可用像素进行填充,然后用中值滤波和形态学闭运算进行处理,处理后的图像被用作后续对齐模块的输入。处理过程可以表示为以下式子:
[0110][0111]
其中,
⊙
表示矩阵点乘;i
l
→
t
,hole
l
→
t
分别表示从左视点映射到虚拟视点的彩色图和空洞掩膜;ir→
t
,holer→
t
分别表示从右视点映射到虚拟视点的彩色图和空洞掩膜;fill()表示中值滤波操作和闭运算操作。
[0112]
如图3所示,本实施例提供了一种基于深度学习的时空域增强虚拟视点合成方法,其整体技术构思为:将左视点和右视点的连续三帧彩色图和相应的深度图输入到dibr模块,得到虚拟视点的连续三帧彩色图和相应的几何误差,然后输入到几何误差感知对齐模块(geometric warping error aware alignment module),再经过基于注意力机制的视点融合模块(attention based view blending module)融合后输入到基于部分卷积的空域
空洞填补与细化模块(partial convolution based hole filling and refinement module)进行空域的空洞填补和增强,最后再输入到时域多帧增强模块(temporal multi-frame enhancement module)进行时域的质量增强,挖掘相邻两帧的信息辅助目标帧,得到最终的结果图。以下对所述各个模块进行详细说明:
[0113]
图3中的相关参数含义如下:
[0114]
其中,i
l
、ir分别为左右视点的相邻三帧彩色图;d
l
、dr分别为左右视点的相邻三帧深度图;p
l
、pr、p
t
分别为左右视点和虚拟视点的相机投影矩阵;为由公式(15)得到的虚拟视点相邻三帧彩色图,e0、ed1为相应的由公式(11)得到的几何误差矩阵;gwea-dc表示几何误差感知可变形卷积;pconv表示部分卷积;attvb表示基于注意力机制的视点融合模块;tme表示时域多帧增强网络;hole表示空洞掩膜。
[0115]
(一)几何误差感知对齐模块
[0116]
为了减少几何误差的影响,提高三维映射后的图像质量,可以将这个问题视为像素对齐问题,即将偏移像素对齐到正确的位置。因此,本实施例提出了几何误差感知对齐模块,该模块能够感知几何误差,从而建模几何误差和像素偏移的关系,以实现像素对齐。与传统卷积相比,可变形卷积通过预测出额外的偏移量,使得采样网格可以任意变形,提高了网络对几何变换的建模能力,非常适合解决像素对齐问题。因此,该模块基于可变形卷积网络,通过从几何误差中学习偏移量,以实现像素对齐。
[0117]
本实施例提出的对齐模块如图5所示,由四个可变形卷积组成,每个可变形卷积的具体设计如图4所示。首先,映射后的图像通过传统卷积生成高维特征,然后将特征和几何误差矩阵拼接输入到可变形卷积中,逐步将偏移像素对齐到正确的位置。在偏移量预测分支中,将输入特征ft和几何误差矩阵ei拼接作为输入,然后使用两层卷积生成相应的可变形采样偏移量δp。由于此处属于在局部位置像素预测偏移量,因此没有使用复杂的网络(例如u-net)来预测,而是使用了简单的两层卷积。偏移量预测过程可以表示为:
[0118]
δp=f([ei,f
t
])
ꢀꢀꢀꢀꢀꢀꢀꢀ
(16)
[0119]
其中,[]表示拼接(concat)操作。f()指两层卷积,卷积核大小均为3
×
3,使用64个神经元。
[0120]
对于可变形卷积分支,可变形卷积过程可以描述为:
[0121][0122]
其中,wn为卷积核权重,p0和pn分别表示采样网格的中心点和偏移,n为卷积核大小,δpn表示可变形卷积的偏移量。
[0123]
根据上述公式(16)和(17),本实施例提出的几何误差感知对齐模块可以根据几何误差矩阵自适应选择特征的采样位置,从而建模几何误差和物体或像素偏移的关系,并将其对齐到正确的位置。通过级联四个可变形卷积网络,虚拟视图中的偏移像素逐渐被修正。几何误差矩阵在输入到每个可变形卷积时保持不变,为对齐提供参考。
[0124]
几何误差感知对齐网络作用是校正几何误差带来的物体或像素偏移,因此对可变形卷积操作的offset施加偏移可以使得网络更容易训练。具体而言,借鉴xia等人的做法,将生成offset的网络加激活函数tanh,并按照缩放因子s进行缩放,防止偏移量过大,即:
[0125]
δp
←
stanh(δp)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(18)
normalization),防止梯度消失,使得网络更容易收敛,提高网络的鲁棒性和泛化性。此外,网络中存在残差短连接,将输入图像使用短连接直接添加到输出图像中,模块只需要学习生成残差图像而不是整个图像,有助于缓解梯度消失问题,使得网络更容易收敛,加快训练。本实施例提出的空洞填补与细化模块能不受空洞区域无效像素或噪音的干扰,更好的挖掘非空洞区域的信息,从而实现高质量的空洞填补。
[0137]
(四)时域多帧增强模块
[0138]
如图8所示,展示了时域多帧增强模块,其中,dcn表示可变形卷积;i
(t-1)
、i
t
、i
(t+1)
表示相邻三帧的图像,i
t
为目标帧,i
(t-1)
和i
(t+1)
为辅助帧。
[0139]
挖掘时间信息常见的时间融合方案是估计光流进行运动补偿。如果采用光流估计方案进行时域增强,就需要在质量不好、存在空洞的图像中进行密集光流估计,估计的光流往往不准确不可靠,从而导致质量增强无效,而且连续帧的光流估计往往计算量大且效率低下,增加了计算成本。
[0140]
可变形卷积最初是为了适应物体的几何变化而提出的,在对齐视频多帧任务中也发挥出优越的性能。chan等人将基于可变形卷积的对齐称为隐式对齐,并研究了显示对齐和隐式对齐之间的关系,他们提出并证明特征级的隐式对齐比图像的显示对齐能够产生更好的对齐特征。然而,很少有研究将特征级的隐式对齐应用在视图合成任务中。本实施例在时域多帧图像中引入隐式特征对齐,实现目标帧的质量增强。
[0141]
本实施例提出了一种基于可变形卷积的时域多帧增强网络来挖掘时域多帧信息,避免繁杂的显示光流估计。主要思想是对不同帧卷积的采样位置进行自适应变形,用以捕获辅助帧最相关的图像纹理特征,然后对目标帧进行质量增强。本实施例采用基于u-net网络的偏移量生成网络(如图9所示)来建模参考帧和目标帧之间的关系,回归得到采样位置,由于相邻两帧之间的信息是高度相关的,因此使用相邻两帧图像预测能更有效地利用时间信息,同时避免信息冗余。
[0142]
本实施例提出的时域多帧增强网络如图8所示。具体来说,将i
t-1
和i
t
拼接后的特征输入到偏移量预测网络,预测出两帧之间的偏移,然后用可变形卷积将i
t-1
对齐到i
t
;i
t+1
使用相同的方法对齐到i
t
,最后与来自i
t
的特征拼接后输入到卷积网络中,最后输出增强后的图像。
[0143]
(1)偏移量预测网络
[0144]
偏移量预测网络如图8所示,采用基于u-net的网络进行偏移量预测。由于在此处的偏移量预测需要在相邻帧的全局范围内捕获最相关的纹理特征,预测难度较大,因此采用了较为复杂的u-net网络。具体来说,分别使用stride为2的卷积层和反卷积层进行下采样和上采样,对于stride为1的卷积层,padding设置为1,使得特征大小不变。除了最后一层,采用relu激活函数,在网络中不使用任何归一化层。最后一层输出通道数为27,其中前18个通道作为预测的offset,不经过激活函数;后9个通道经过sigmod函数归一化到[0,1]作为可变形卷积的mask。由于学习到的偏移量可能是小数类型,遵循dai等人的做法应用双线性插值获得整数位置。
[0145]
(2)融合增强网络
[0146]
在使用可变形卷积对辅助帧的特征进行对齐后,将组合的三帧特征输入到融合增强网络生成最终的图像。融合增强网络由六个卷积层组成,卷积的stride和padding都是1
保证特征大小不变。卷积之间存在短连接,除了最后一层卷积不使用任何激活函数,卷积之间使用relu激活函数。
[0147]
进一步的,为了证明本实施例所述方案的有效性,以下进行了相关实验验证:
[0148]
本实验使用了多种多视角视频和深度视频序列,包括ballet,akko和kayo,rena,shark用于评估本实施例提出的模型。本实施例的算法模型部署在pytorch平台上,在nvidia geforce rtx 3090 gpu上完成模型的训练与测试,模型参数为15.01m,可以对网络进行端到端的训练。选用adam作为优化器,批大小(batch size)设置为4,在每个数据集上训练的轮数为300轮。初始学习率为10-4
,当验证集上的性能不再增加时学习率衰减为0.5倍。损失函数采用均方误差(mean-square error,mse),描述如下:
[0149][0150]
其中,i为真值,为网络生成的图片。所有实验都是从视频中提取的128
×
128的图像块进行训练,使用整幅图像进行测试。采用psnr(peak signal noise ratio,psnr)和ssim(structural similarity,ssim)作为图像评价质量指标。对每个场景训练出单独的网络进行测试,其中80%的视点用于训练,其余20%用于测试。值得注意的是,由于不存在可变形卷积偏移量的真值,因此时域多帧增强模块中的偏移预测网络完全是无监督的,完全由最终损失驱动。
[0151]
实验结果对比与分析:
[0152]
本实施例在不同数据集上与其他现有的相关方法进行了对比实验,结果如表1所示。选择yu等人的方法,zheng等人的方法,yu等人的方法,liu等人,和riegler等人的方法与本实施例所述算法在shark,rena,ballet,akko and kayo数据集进行比较,其中,riegler等人的方法是基于cnn的虚拟视点合成方法。
[0153]
为了保证公平比较,将来自两个视点的参考图像进行三维映射后,对两张带有空洞的图像进行初步融合,然后作为本实施例的模型与其他模型的输入。从结果可以看出,本实施例提出的基于时空相关性的虚拟视点合成算法客观图像质量超过了其他对比算法,本实施例提出的算法在各个数据集均能有不同程度的提升,证明了其有效性。值得注意的是,riegler等人的方法是一种完全基于cnn的虚拟视点合成方法,需要比较大数据集进行训练,在小数据集上效果不佳,尤其是akko和kayo等图片数量较少的数据集,因此它的实验客观质量不高。
[0154]
表1所提方法与现有方法在psnr和ssim方面进行的比较
[0155][0156]
实施例二
[0157]
本实施例提供了一种基于深度学习的时空域增强虚拟视点合成系统。
[0158]
一种基于深度学习的时空域增强虚拟视点合成系统,包括:
[0159]
数据获取单元,其用于获取待处理的左右视点的三帧连续图像及其对应的深度图;
[0160]
图像绘制单元,其用于基于左右视点的图像及深度图,利用基于深度图的图像绘制技术,获得虚拟视点的图像及对应的几何误差;
[0161]
对齐单元,其用于基于虚拟视点的图像及其对应的几何误差,通过建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置;
[0162]
初步融合单元,其用于将对齐后的不同视点下的图像进行视点融合,获得融合图像;其中,在视点融合中基于注意力机制引入不同视点图像对应的几何误差;
[0163]
增强及融合单元,其用于将获得的融合图像进行空域的空洞填补和增强后,基于中间帧融合图像与其前一帧和后一帧融合图像之间的偏移量预测结果,将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,并将三帧图像进行融合获得增强后的融合图像。
[0164]
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
[0165]
在更多实施例中,还提供:
[0166]
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
[0167]
应理解,本实施例中,处理器可以是中央处理单元cpu,处理器还可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0168]
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
[0169]
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
[0170]
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0171]
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
[0172]
上述实施例提供的一种基于深度学习的时空域增强虚拟视点合成方法及系统可以实现,具有广阔的应用前景。
[0173]
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
技术特征:
1.一种基于深度学习的时空域增强虚拟视点合成方法,其特征在于,包括:获取待处理的左右视点的三帧连续图像及其对应的深度图;基于左右视点的图像及深度图,利用基于深度图的图像绘制技术,获得虚拟视点的图像及对应的几何误差;基于虚拟视点的图像及其对应的几何误差,通过建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置;将对齐后的不同视点下的图像进行视点融合,获得融合图像;其中,在视点融合中基于注意力机制引入不同视点图像对应的几何误差;将获得的融合图像进行空域的空洞填补和增强后,基于中间帧融合图像与其前一帧和后一帧融合图像之间的偏移量预测结果,将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,并将三帧图像进行融合获得增强后的融合图像。2.如权利要求1所述的一种基于深度学习的时空域增强虚拟视点合成方法,其特征在于,所述建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置,具体为:基于传统卷积及若干几何误差感知可变形卷积构建几何误差感知对齐模块,将虚拟视点的图像经传统卷积生成高维特征,然后将特征和几何偏差拼接输入到可变形卷积中,逐步将偏移像素对齐至正确的位置。3.如权利要求2所述的一种基于深度学习的时空域增强虚拟视点合成方法,其特征在于,所述几何误差感知可变形卷积包括偏移量预测分支和可变形卷积分支,所述偏移量预测分支采用两层卷积生成相应的可变形采样偏移量;所述可变形卷积分支采用可变形卷积。4.如权利要求1所述的一种基于深度学习的时空域增强虚拟视点合成方法,其特征在于,将对齐后的不同视点下的图像进行视点融合,具体为:将待融合的图像分别进行最大池化和平均池化操作后,进行拼接得到四个通道的特征;所述特征经卷积处理后分别与不同视点下的几何误差进行拼接和卷积操作,然后经归一化操作处理后获得置信度将矩阵;将所述置信度矩阵与其对应的待融合图像进行点乘后,对待融合图像进行加权求和,获得融合后的图像。5.如权利要求1所述的一种基于深度学习的时空域增强虚拟视点合成方法,其特征在于,所述将获得的融合图像进行空域的空洞填补和增强,具体采用将普通卷积替换为部分卷积的u-net网络。6.如权利要求1所述的一种基于深度学习的时空域增强虚拟视点合成方法,其特征在于,将获得的融合图像进行空域的空洞填补和增强后,基于不同帧的融合图像进行融合图像的时域多帧增强处理,在所述时域多帧增强处理中,融合图像间的偏移量预测采用u-net网络进行预测。7.如权利要求1所述的一种基于深度学习的时空域增强虚拟视点合成方法,其特征在于,所述将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,具体采用可变形卷积进行对齐。8.一种基于深度学习的时空域增强虚拟视点合成系统,其特征在于,包括:数据获取单元,其用于获取待处理的左右视点的三帧连续图像及其对应的深度图;图像绘制单元,其用于基于左右视点的图像及深度图,利用基于深度图的图像绘制技
术,获得虚拟视点的图像及对应的几何误差;对齐单元,其用于基于虚拟视点的图像及其对应的几何误差,通过建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置;初步融合单元,其用于将对齐后的不同视点下的图像进行视点融合,获得融合图像;其中,在视点融合中基于注意力机制引入不同视点图像对应的几何误差;增强及融合单元,其用于将获得的融合图像进行空域的空洞填补和增强后,基于中间帧融合图像与其前一帧和后一帧融合图像之间的偏移量预测结果,将前一帧融合图像和后一帧融合图像对齐至中间帧融合图像,并将三帧图像进行融合获得增强后的融合图像。9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于深度学习的时空域增强虚拟视点合成方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于深度学习的时空域增强虚拟视点合成方法。
技术总结
本发明提供了一种基于深度学习的时空域增强虚拟视点合成方法及系统,包括:获取待处理的左右视点的三帧连续图像及其对应的深度图;基于左右视点的图像及深度图,利用基于深度图的图像绘制技术,获得虚拟视点的图像及对应的几何误差;基于虚拟视点的图像及其对应的几何误差,通过建模几何误差和像素偏移之间的关系,将偏移像素对齐到正确的位置;将对齐后的不同视点下的图像进行视点融合,获得融合图像;其中,在视点融合中基于注意力机制引入不同视点图像对应的几何误差;将获得的融合图像进行空域的空洞填补和增强后,基于中间帧融合图像与其前一帧和后一帧融合图像之间的偏移量预测结果,进行融合图像的时域多帧增强处理。理。理。
技术研发人员:李帅 王开心 高艳博 元辉 蔡珣
受保护的技术使用者:山东大学
技术研发日:2023.05.29
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/