一种深度视频智能帧间编码方法

未命名 09-10 阅读:122 评论:0


1.本发明涉及深度学习、视频编码领域,尤其涉及一种深度视频智能帧间编码方法。


背景技术:

2.沉浸式视频能够在一定范围内展示从不同位置和视角方向观察到的场景内容,为观看者提供更加沉浸的视觉体验。近年来,沉浸式视频在实时体育赛事直播、娱乐、沉浸式教育等领域得到了广泛的研究和应用。为了高效编码沉浸式视频,国际标准化组织mpeg-i推出了mpeg沉浸式视频(mpeg immersive video,miv)标准。miv标准能够有效压缩从多个视点捕获的3d场景表示,其中每个视点都包含彩色视频和对应的深度视频。不同于具有复杂纹理的彩色视频,深度视频包含更加平滑的内容。深度视频帧间相似的平滑内容存在大量的时域冗余,需要研究高效的深度视频帧间编码方法,以进一步提高编码效率。
3.作为视频编码框架中重要的组成部分,帧间预测技术致力于利用和减少视频中的时域冗余。为了获得更加准确的帧间预测,通常采用分层b帧预测结构,将低时间层的已编码视频帧作为当前待编码视频帧的时域参考。由于低时间层视频帧的重建质量会影响高时间层视频帧的帧间预测,因此通常采用更低的量化参数编码较低时间层的视频帧,以确保较高的参考质量。然而,高时间层的视频帧对视频编码过程影响较少,却仍然采用与低时间层的帧一致的编码方法,这阻碍了编码效率的提升。考虑到深度视频帧中包含大量的平滑内容,这些平滑内容可以很容易地使用时域参考帧进行预测。此外,深度视频帧在沉浸式视频系统中不用于直接显示,深度视频的平滑内容可以接受一定程度的失真。
4.近年来,受益于深度学习技术强大的特征提取能力,基于深度学习的彩色视频编码技术得到了广泛研究并取得了显著的成功。受此启发,学者们着眼于探索基于深度学习的深度视频编码技术,以提升深度视频的编码效率。其中,li等人提出了深度视频的多分辨率编码方法,通过编码低分辨率深度编码块来降低编码码率消耗,并使用卷积神经网络将编码的低分辨率编码块上采样至原分辨率。zhang等人提出利用卷积神经网络生成更准确的深度视频帧内预测结果。这些方法能够有效地减少深度视频的空域冗余并生成高质量的重建。然而,目前基于深度学习的深度视频编码技术仍处于起步阶段,仍然缺乏基于深度学习的编码方法来减少深度视频的时域冗余,深度视频编码效率仍有较大的提升空间。


技术实现要素:

5.由于深度视频包含大量平滑内容,因此可以直接基于时域参考帧生成质量可接受的深度视频帧,提高编码效率,本发明提供了一种深度视频智能帧间编码方法,通过在编码端跳过深度视频非关键帧编码以降低比特消耗,并设计一个边缘感知的非关键帧生成网络在解码端重建高质量的非关键帧,详见下文描述:
6.一种深度视频智能帧间编码方法,所述方法包括:
7.对深度视频帧进行关键帧与非关键帧划分,以判断深度视频帧的类别,即深度关键帧或深度非关键帧;
8.对于深度关键帧,使用视频编解码器进行编码和解码,得到重建的深度关键帧;对于深度非关键帧,在编码端直接跳过深度非关键帧的编码过程,在解码端,根据时域相邻的重建深度关键帧,通过非关键帧生成网络生成高质量的深度非关键帧;
9.构建边缘一致性损失,通过最小化重建边缘图的失真,优化深度帧的边缘;将训练好的边缘感知的非关键帧生成网络模型集成到miv编码平台,以生成重建深度非关键帧。
10.其中,所述深度非关键帧为最高时间层的深度帧;将其余时间层的深度帧划分为深度关键帧。
11.进一步地,所述非关键帧生成网络由一个基于扭曲的生成模块和一个边缘感知的精细化模块组成;
12.基于扭曲的生成模块,利用深度关键帧和深度非关键帧之间的时域相关性生成粗糙的深度非关键帧设计边缘感知的精细化模块来精细化粗糙的深度非关键帧,使深度非关键帧的边缘清晰。
13.其中,所述边缘感知的精细化模块为:
14.通过一个基于u-net的残差生成器从级联的和中生成和原始深度非关键帧d1之间的残差r1,以获得中缺失的边缘细节;
15.利用r1补偿的边缘细节,获得最终的高质量重建帧表达如下:
[0016][0017]
其中,rg(
·
)表示基于u-net的残差生成器。
[0018]
进一步地,所述边缘一致性损失为:
[0019]
使用边缘提取单元从中提取重建的边缘图使用经典的边缘检测滤波器sobel从d1中计算得到边缘图真值b1,使用平均绝对误差计算边缘一致性损失lb。
[0020]
本发明提供的技术方案的有益效果是:
[0021]
1、本发明设计了一种深度视频智能帧间编码方法,通过有效去除时域冗余提升编码效率;
[0022]
2、本发明设计了一个边缘感知的非关键帧生成网络,以直接生成高质量的深度非关键帧,所设计的网络利用时域相关性生成视频帧,并精细化重建帧的物体边界以减少合成视点失真;
[0023]
3、本发明将所提出的关键帧编码方法集成到miv参考软件t miv10.0中,与miv参考软件tmiv10.0相比,所提出的方法能够有效提升编码效率。
附图说明
[0024]
图1为一种深度视频智能帧间编码方法的流程图。图2为基于u-net的流估计单元的结构示意图;图3为边缘提取单元的结构示意图。
具体实施方式
[0025]
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步
地详细描述。
[0026]
为克服现有技术的不足,本发明实施例提供了一种深度视频智能帧间编码方法,参见图1,该方法包括以下步骤:
[0027]
一、深度视频帧的关键帧与非关键帧划分
[0028]
设计深度视频帧的关键帧与非关键帧划分方法,用于判断深度视频帧的类别,即深度关键帧或深度非关键帧。
[0029]
在分层b帧结构中,低层的重建深度帧做为更高层深度帧预测的参考,而最高时间层的重建深度帧不会用于其余深度帧的预测。基于此,由于最高时间层深度帧的重建质量通常不会影响其余时间层深度帧的帧间预测,本发明实施例将最高时间层的深度帧划分为深度非关键帧。此外,将其余时间层的深度帧划分为深度关键帧,因为这些深度帧的失真会影响帧间预测。公式表达如下:
[0030][0031]
其中,ci为第i时刻深度帧的类别,li表示第i时刻深度帧所在的时间层,l
max
表示最高时间层,key表示关键帧,non key表示非关键帧。
[0032]
二、深度关键帧与深度非关键帧编码
[0033]
在得到深度视频帧的类别后,根据深度视频帧的类别,使用不同的编码方法压缩深度视频帧。
[0034]
对于深度关键帧,使用传统的视频编解码器进行编码和解码,得到重建的深度关键帧。对于深度非关键帧,在编码端直接跳过深度非关键帧的编码过程,从而无需编码深度非关键帧的运动矢量和残差,有效节省了编码所需的码率。在解码端,根据时域相邻的重建深度关键帧,通过非关键帧生成网络直接生成高质量的深度非关键帧。
[0035]
三、构建非关键帧生成网络
[0036]
构建的非关键帧生成网络输入为时域最相邻的前向重建深度关键帧和后向重建深度关键帧输出为重建的深度非关键帧构建的非关键帧生成网络由一个基于扭曲的生成模块和一个边缘感知的精细化模块组成。
[0037]
具体来说,首先使用基于扭曲的生成模块,通过利用深度关键帧和深度非关键帧之间的时域相关性生成粗糙的深度非关键帧随后,设计了一个边缘感知的精细化模块来精细化粗糙的深度非关键帧,从而使深度非关键帧的边缘更加清晰。
[0038]
在基于扭曲的生成模块中,首先通过一个基于u-net的流估计单元估计光流f={f0,f2},以建模重建深度关键帧和当前深度非关键帧之间的时域相关性。其中,f0表示从前向重建深度关键帧到当前深度非关键帧的光流,f2表示从后向重建深度关键帧到当前深度非关键帧的光流。此外,流估计单元同时输出权重图v,表示根据光流扭曲后的前向重建深度关键帧的像素值在中的占比。之后,根据估计到的光流和权重图,对网络输入的重建深度关键帧进行扭曲,以获得公式表达如下:
[0039][0040]
[0041]
其中,[
·
]表示级联操作,fe为基于u-net的流估计单元,warping(
·
)表示使用流自适应协作(adaptive collaboration of flows,adacof)实现的扭曲操作。如图2所示,基于u-net的流估计单元由9个堆叠的基础块(按照从左至右的顺序分别为第一个基础块,第二个基础块
……
至第九个基础块)和一个输出头组成。其中,基础块包括堆叠的3个卷积层,输出头包括3个子块,每个子块由堆叠的4个卷积层和1个上采样层组成。为了加快网络收敛速度,第五个基础块的输出特征与上采样的第六个基础块输出相加,第四个基础块的输出与上采样的第七个基础块输出相加,第三个基础块的输出与上采样的第八个基础块输出相加,第二个基础块的输出与上采样的第九个基础块输出相加。
[0042]
随后,通过设计的边缘感知的精细化模块对进行精细化,从而进一步提高深度非关键帧在边缘区域的质量。具体来说,首先通过一个基于u-net的残差生成器从级联的net的残差生成器从级联的和中生成和原始深度非关键帧d1之间的残差r1,以获得中缺失的边缘细节。其中,基于u-net的残差生成器的基本组成成分为门控卷积块,该门控卷积块由堆叠的三个门控卷积层构成。残差生成器由堆叠的七个门控卷积块组成(按照从左至右的顺序分别为第一个门控卷积块,第二个门控卷积块
……
至第七个门控卷积块)。为了生成更准确的边缘细节,第二个门控卷积块输出的特征与第四个门控卷积块输出特征相加,第一个门控卷积块输出的特征与第五个门控卷积块输出特征相加。之后,利用r1补偿的边缘细节,获得最终的高质量重建帧公式表达如下:
[0043][0044]
其中,rg(
·
)表示基于u-net的残差生成器。
[0045]
四、构建边缘一致性损失
[0046]
构建一个边缘一致性损失,通过最小化重建边缘图的失真,优化深度帧的边缘。首先,使用一个边缘提取单元从中提取重建的边缘图其中,如图3所示,边缘提取单元为u-net结构,包含10个堆叠的卷积层和一个sigmoid层。为了更好的提取边缘图,第四个卷积层输出特征与上采样的第五个卷积层输出特征级联,第三个卷积层输出特征与上采样的第六个卷积层输出特征级联,第二个卷积层输出特征与上采样的第七个卷积层输出特征级联,第一个卷积层输出特征与上采样的第七个卷积层输出特征级联。
[0047]
随后,使用经典的边缘检测滤波器sobel从d1中计算得到边缘图真值b1。然后,使用平均绝对误差计算边缘一致性损失lb,公式表达如下:
[0048][0049]
此外,本发明实施例也使用重建损失lb约束重建深度非关键帧的质量,公式表达如下:
[0050][0051]
最终,联合重建损失和边缘一致性损失的总损失l的表示如下:
[0052]
l=lr+αlb[0053]
其中,α表示边缘一致性损失的权重,表示重建的边缘图,表示重建的深度非关键帧。
[0054]
五、训练边缘感知的非关键帧生成网络
[0055]
本发明实施例使用重建损失和边缘一致性损失训练非关键帧生成网络,得到边缘感知的非关键帧生成网络模型。
[0056]
首先,使用重建损失函数训练基于扭曲的生成模块。在基于扭曲的生成模块收敛后,固定基于扭曲的生成模块的参数,并将权重α设置为1,使用重建损失和边缘一致性损失训练边缘感知精细化模块和边缘提取单元。
[0057]
六、集成至miv编码平台
[0058]
将训练好的边缘感知的非关键帧生成网络模型集成到miv编码平台tmiv 10.0中,以生成重建深度非关键帧。
[0059]
在编码端,使用帧分类标志位表示当前深度编码帧的类别,即深度关键帧或深度非关键帧。此外,由于在miv标准中基础视点视频沿垂直方向打包到图集中,因此编码的图集高度与原始基本视点高度不同。基于此,本发明实施例将基础视点的原始高度值编码到比特流中,从而在解码端能够根据基础视点的高和宽,从图集中获取单一基础视点的重建深度关键帧。
[0060]
在解码端,使用传统解码器解码深度关键帧,得到重建的深度关键帧。之后,使用边缘感知的非关键帧生成网络模型,逐视点地分别生成所有基础视点的重建深度非关键帧。
[0061]
为了提供高质量的时域参考,选择时间上与目标深度非关键帧最接近的前向和后向重建深度关键帧作为边缘感知的非关键帧生成网络模型的输入。
[0062]
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0063]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种深度视频智能帧间编码方法,其特征在于,所述方法包括:对深度视频帧进行关键帧与非关键帧划分,以判断深度视频帧的类别,即深度关键帧或深度非关键帧;对于深度关键帧,使用视频编解码器进行编码和解码,得到重建的深度关键帧;对于深度非关键帧,在编码端直接跳过深度非关键帧的编码过程,在解码端,根据时域相邻的重建深度关键帧,通过非关键帧生成网络生成高质量的深度非关键帧;构建边缘一致性损失,通过最小化重建边缘图的失真,优化深度帧的边缘;将训练好的边缘感知的非关键帧生成网络模型集成到miv编码平台,以生成重建深度非关键帧。2.根据权利要求1所述的一种深度视频智能帧间编码方法,其特征在于,所述深度非关键帧为最高时间层的深度帧;将其余时间层的深度帧划分为深度关键帧。3.根据权利要求1所述的一种深度视频智能帧间编码方法,其特征在于,所述非关键帧生成网络由一个基于扭曲的生成模块和一个边缘感知的精细化模块组成;基于扭曲的生成模块,利用深度关键帧和深度非关键帧之间的时域相关性生成粗糙的深度非关键帧设计边缘感知的精细化模块来精细化粗糙的深度非关键帧,使深度非关键帧的边缘清晰。4.根据权利要求1所述的一种深度视频智能帧间编码方法,其特征在于,所述边缘感知的精细化模块为:通过一个基于u-net的残差生成器从级联的和中生成和原始深度非关键帧d1之间的残差r1,以获得中缺失的边缘细节;利用r1补偿的边缘细节,获得最终的高质量重建帧表达如下:其中,rg(
·
)表示基于u-net的残差生成器。5.根据权利要求1所述的一种深度视频智能帧间编码方法,其特征在于,所述边缘一致性损失为:使用边缘提取单元从中提取重建的边缘图使用经典的边缘检测滤波器sobel从d1中计算得到边缘图真值b1,使用平均绝对误差计算边缘一致性损失l
b


技术总结
本发明公开了一种深度视频智能帧间编码方法,方法包括:对深度视频帧进行关键帧与非关键帧划分,以判断深度视频帧的类别,即深度关键帧或深度非关键帧;对深度关键帧,使用视频编解码器进行编码和解码,得到重建的深度关键帧;对于深度非关键帧,在编码端直接跳过深度非关键帧的编码过程,在解码端,根据时域相邻的重建深度关键帧,通过非关键帧生成网络生成高质量的深度非关键帧;构建边缘一致性损失,通过最小化重建边缘图的失真,优化深度帧的边缘;将训练好的边缘感知的非关键帧生成网络模型集成到MIV编码平台,以生成重建深度非关键帧。关键帧。关键帧。


技术研发人员:雷建军 李戈 彭勃 潘兆庆 靳登朝
受保护的技术使用者:天津大学
技术研发日:2023.06.20
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐