特征域光流确定方法及相关设备与流程
未命名
09-16
阅读:64
评论:0

1.本技术涉及视频图像领域,尤其涉及一种特征域光流确定方法及相关设备。
背景技术:
2.在视频编解码领域,会采用类似视频压缩(deep video compression,dvc)架构和fvc架构,在图像域或者特征域进行编解码。基于dvc架构的视频编解码流程包括:编码端提取当前帧和参考帧之间的图像域光流;对图像域光流进行编解码得到解码光流;利用参考帧和解码光流进行预测得到当前帧的预测值;基于当前帧的预测值和当前帧确定残差;对残差进行编码,得到残差码流;解码端对残差码流进行解码,得到解码残差,基于解码残差和当前帧的预测值得到当前帧的重构图像。但是由于获取两帧之间的图像域光流存在一定的误差,而在利用图像域的光流对当前帧的预测,对图像域的光流精度非常敏感;图像域光流的细微变化会严重影响预测值。
3.基于dvc架构的视频编解码流程包括:编码端分别提取当前帧特征和参考帧特征;基于参考帧特征和当前帧特征估计特征域光流;对特征域光流进行编解码得到解码特征域光流;根据参考帧特征和解码特征域光流进行预测得到当前帧的预测特征;根据当前帧特征和当前帧的预测特征得到特征域残差;对特征域残差进行编码得到特征域残差码流;解码端对特征域残差码流进行解码,得到解码特征域残差;基于解码特征域残差和当前帧的预测特征得到当前帧的重建特征;基于当前帧的重建特征得到当前帧的重建图像。但是基于当前帧的特征和参考帧特征确定特征域光流,缺乏有效监督,难以得到精度较高的特征域光流,影响压缩性能。
技术实现要素:
4.本技术提供一种特征域光流确定方法及相关设备,采用本技术的方案可以得到精度较高的特征域光流,进而可以提高图像压缩的质量,并节省了码率。
5.具体实施例在所附独立权利要求中概述,其它实施例在从属权利要求中概述。
6.根据第一方面,本技术涉及特征域光流确定方法。该方法可以由终端设备执行。该方法包括:
7.获取当前帧和参考帧之间的图像域光流;对参考帧进行多尺度特征提取,以得到m个参考帧特征图;m为大于或等于1的整数;根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流。当前帧和参考帧可以为视频中的两帧。
8.可选的,当前帧和参考帧之间的图像域光流可以是当前帧到参考帧之间的图像域光流,也可以是参考帧到当前帧之间的图像域光流。
9.其中,图像域光流表示的是两帧图像中每个像素点的运动速度和运动方向。
10.通过基于图像光流得到的特征域光流更加准确,更加稳定,从而提高帧间预测的准确性。
11.结合第一方面的方法,在一个可行的实施例中,在m=1时,m个参考帧特征图为目标特征图,根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:
12.根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;根据当前帧特征图和目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流,其中,第二特征域光流的精度高于第一特征域光流的精度;其中,m个特征域光流为第二特征域光流。
13.结合第一方面的方法,在一个可行的实施例中,m=1时,m个参考帧特征图为目标特征图,根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:
14.根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;
15.根据当前帧特征图、目标特征图及第一特征域光流进行至少一次迭代处理,以得到第三特征域光流,m个特征域光流为第三特征域光流;
16.其中,在进行第j次迭代处理时,对目标特征图和特征域光流进行特征对齐处理,以得到当前帧的预测特征图j为大于0的整数;j=1时,特征域光流为第一特征域光流;根据目标特征图、当前帧特征图及当前帧的预测特征图进行微调处理,以得到微调特征域光流对微调特征域光流和特征域光流进行融合,以得到特征域光流j=1时,特征域光流为第一特征域光流;根据特征域光流确定特征域光流
17.其中,若特征域光流为最后一次迭代处理得到的,则特征域光流为第三特征域光流。
18.其中,特征域光流的精度高于特征域光流的精度;第三特征域光流的精度高于第一特征域光流的精度。通过得到的特征域光流进行微调处理,可以进一步提高特征域光流的精度。
19.结合第一方面的方法,在一个可行的实施例中,m=1时,m个参考帧特征图为目标特征图,根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:
20.根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;根据当前帧特征图和目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流;
21.根据当前帧特征图、目标特征图及第二特征域光流进行至少一次迭代处理,以得到第三特征域光流,m个特征域光流为第三特征域光流;
22.其中,在进行第j次迭代处理时:
23.对目标特征图和特征域光流进行特征对齐处理,以得到当前帧的预测特征图j为大于0的整数,当j=1时,特征域光流为第二特征域光流;根据目标特征图、当前
帧特征图及当前帧的预测特征图进行微调处理,以得到微调特征域光流对微调特征域光流和特征域光流进行融合,以得到特征域光流当j=1时,特征域光流为第一特征域光流;根据特征域光流确定特征域光流其中,若特征域光流为最后一次迭代处理得到的,则特征域光流为第三特征域光流;
24.其中,特征域光流的精度高于特征域光流的精度;第三特征域光流的精度高于第二特征域光流的精度。通过得到的特征域光流进行微调处理,可以进一步提高特征域光流的精度。
25.结合第一方面的方法,在一个可行的实施例中,根据特征域光流确定特征域光流包括:
26.将特征域光流确定为特征域光流
27.或者,
28.根据当前帧特征图和目标特征图对特征域光流进行自适应处理,以得到特征域光流其中,特征域光流的精度高于特征域光流的精度。
29.通过得到的特征域光流进行进一步的自适应处理,可以进一步提高特征域光流的精度。
30.结合第一方面的方法,在一个可行的实施例中,本技术的方法还包括:
31.对m个特征域光流进行编解码处理,以得到第四特征域光流;对第四特征域光流和目标特征图进行特征对齐处理,以得到当前帧的第一预测特征图;根据当前帧的特征图和第一预测特征图得到特征域残差图;对特征域残差图进行编码,以得到特征域残差码流。
32.将得到的特征域光流应用于视频压缩领域,既能够节省码率,又保证了质量。
33.结合第一方面的方法,在一个可行的实施例中,本技术的方法还包括:
34.对m个特征域光流和目标特征图进行特征对齐处理,以得到当前帧的第二预测特征图;第四特征域光流为第一特征域光流、第二特征域光流或者第三特征域光流;根据当前帧的特征图和第二预测特征图进行特征融合,以得到当前帧的增强特征图;对增强特征图进行图像重构,以得到当前帧的重构图像。
35.将得到的特征域光流应用于视频增强领域,可以提高视频增强效果,提升视频质量。
36.结合第一方面的方法,在一个可行的实施例中,在m大于1时,m个参考帧特征图为m个不同尺度的参考帧特征图,本技术的方法还包括:
37.根据m个当前帧的预测特征图进行m次特征重构处理,以得到当前帧的重构图像,其中,处理后的视频包括当前帧的重构图像;m个当前帧的预测特征图是根据m个特征域光流和m个不同尺度的参考帧特征图分别进行特征对齐处理得到的。
38.结合第一方面的方法,在一个可行的实施例中,根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:
39.在进行第i次特征域光流估计时,根据图像域光流特征图进行光流估计,以
得到图像域光流特征图i为大于0且不大于m的整数;当i=1时,图像域光流特征为当前帧和参考帧之间的图像域光流;根据参考帧特征图图像域光流特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图其中,参考帧特征图是对参考帧特征图进行特征提取得到的;参考帧特征图和参考帧特征图分别为m个参考帧特征图中的两个;当i=m时,当前帧的预测特征为常数;其中,m个特征域光流包括特征域光流特征图当前帧的预测特征是对参考帧特征图和特征域光流特征进行特征对齐处理得到的。
40.通过在多个尺度上对特征域光流进行监督,提高了在多个尺度上得到的特征域光流的准确性。
41.根据第二方面,本技术涉及终端设备,有益效果可以参见第一方面的描述此处不再赘述。所述终端设备具有实现上述第一方面的方法实例中行为的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
42.其中,终端设备包括:
43.获取单元,用于获取当前帧和参考帧之间的图像域光流,当前帧和参考帧为视频中的两帧;
44.特征提取单元,用于对参考帧进行多尺度特征提取,以得到m个参考帧特征图;m为大于或等于1的整数;
45.光流估计单元,用于根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流。
46.结合第一方面的方法,在一个可行的实施例中,在m=1时,m个参考帧特征图为目标特征图,光流估计单元具体用于:
47.根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;根据当前帧特征图和目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流,其中,第二特征域光流的精度高于第一特征域光流的精度;其中,m个特征域光流为第二特征域光流。
48.结合第一方面的方法,在一个可行的实施例中,m=1时,m个参考帧特征图为目标特征图,光流估计单元具体用于:
49.根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;
50.根据当前帧特征图、目标特征图及第一特征域光流进行至少一次迭代处理,以得到第三特征域光流,m个特征域光流为第三特征域光流;
51.其中,在进行第j次迭代处理时,对目标特征图和特征域光流进行特征对齐处理,以得到当前帧的预测特征图j为大于0的整数;j=1时,特征域光流为第一特征域光流;根据目标特征图、当前帧特征图及当前帧的预测特征图进行微调处理,以得到微调特征域光流对微调特征域光流和特征域光流进行融合,以得到特征域光流
j=1时,特征域光流为第一特征域光流;根据特征域光流确定特征域光流
52.其中,若特征域光流为最后一次迭代处理得到的,则特征域光流为第三特征域光流。
53.结合第一方面的方法,在一个可行的实施例中,m=1时,m个参考帧特征图为目标特征图,光流估计单元具体用于:
54.根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;根据当前帧特征图和目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流;
55.根据当前帧特征图、目标特征图及第二特征域光流进行至少一次迭代处理,以得到第三特征域光流,m个特征域光流为第三特征域光流;
56.其中,在进行第j次迭代处理时:
57.对目标特征图和特征域光流进行特征对齐处理,以得到当前帧的预测特征图j为大于0的整数,当j=1时,特征域光流为第二特征域光流;根据目标特征图、当前帧特征图及当前帧的预测特征图进行微调处理,以得到微调特征域光流对微调特征域光流和特征域光流进行融合,以得到特征域光流当j=1时,特征域光流为第一特征域光流;根据特征域光流确定特征域光流其中,若特征域光流为最后一次迭代处理得到的,则特征域光流为第三特征域光流。
58.结合第一方面的方法,在一个可行的实施例中,在根据特征域光流确定特征域光流的方面,光流估计单元具体用于:
59.将特征域光流确定为特征域光流
60.或者,
61.根据当前帧特征图和目标特征图对特征域光流进行自适应处理,以得到特征域光流其中,特征域光流的精度高于特征域光流的精度。
62.结合第一方面的方法,在一个可行的实施例中,终端设备还包括:
63.后处理单元,用于对m个特征域光流进行编解码处理,以得到第四特征域光流;对第四特征域光流和目标特征图进行特征对齐处理,以得到当前帧的第一预测特征图;根据当前帧的特征图和第一预测特征图得到特征域残差图;对特征域残差图进行编码,以得到特征域残差码流。
64.结合第一方面的方法,在一个可行的实施例中,终端设备还包括:
65.后处理单元,用于对m个特征域光流和目标特征图进行特征对齐处理,以得到当前帧的第二预测特征图;第四特征域光流为第一特征域光流、第二特征域光流或者第三特征域光流;根据当前帧的特征图和第二预测特征图进行特征融合,以得到当前帧的增强特征图;对增强特征图进行图像重构,以得到当前帧的重构图像。
66.结合第一方面的方法,在一个可行的实施例中,在m大于1时,m个参考帧特征图为m个不同尺度的参考帧特征图,终端设备还包括:
67.后处理单元,用于根据m个当前帧的预测特征图进行m次特征重构处理,以得到当前帧的重构图像,其中,处理后的视频包括当前帧的重构图像;m个当前帧的预测特征图是根据m个特征域光流和m个不同尺度的参考帧特征图分别进行特征对齐处理得到的。
68.结合第一方面的方法,在一个可行的实施例中,光流估计单元具体用于:
69.在进行第i次特征域光流估计时,根据图像域光流特征图进行光流估计,以得到图像域光流特征图i为大于0且不大于m的整数;当i=1时,图像域光流特征为所述当前帧和参考帧之间的图像域光流;根据参考帧特征图图像域光流特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图其中,参考帧特征图是对参考帧特征图进行特征提取得到的;参考帧特征图和参考帧特征图分别为m个参考帧特征图中的两个;当i=m时,当前帧的预测特征为常数;其中,m个特征域光流包括特征域光流特征图当前帧的预测特征是对参考帧特征图和特征域光流特征进行特征对齐处理得到的。
70.本技术第一方面所述的方法可由本技术第二方面所述的装置执行。本技术第一方面所述的方法的其它特征和实现方式直接取决于本技术第二方面所述的装置的功能性和实现方式。
71.根据第三方面,本技术涉及电子设备,包含处理器和存储器。所述存储器存储指令,所述指令使得所述处理器执行第一方面所述的方法。
72.根据第四方面,提供一种计算机可读存储介质,其上储存有指令,当所述指令执行时,使得一个或多个处理器编码视频数据。所述指令使得所述一个或多个处理器执行第一方面中任一种可能的实施例中的方法。
73.根据第五方面,本技术涉及包括程序代码的计算机程序产品,所述程序代码在运行时执行第一方面中任意一种可能的实施例中的方法。
74.根据第六方面,本技术涉及编码器,用于执行第一方面中任一种可能的实施例中的方法。
75.附图及以下说明中将详细描述一个或多个实施例。其它特征、目的和优点在说明、附图以及权利要求中是显而易见的。
附图说明
76.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以基于这些附图获得其他的附图。
77.图1为用于实现本技术实施例的视频译码系统示例的框图;
78.图2为用于实现本技术实施例的视频译码系统另一示例的框图;
79.图3为用于实现本技术实施例的视频译码装置的示意性框图;
80.图4为用于实现本技术实施例的视频译码装置的示意性框图;
81.图5a为本技术实施例提供的一种视频编解码架构示意图;
82.图5b为本技术实施例提供的一种视频存储应用架构示意图;
83.图5c为本技术实施例提供的一种直播架构示意图;
84.图5d为本技术实施例提供的一种视频增强架构示意图;
85.图6为本技术实施例提供的一种特征域光流确定方法的流程示意图;
86.图7为本技术实施例提供的一种光流估计网络的架构示意图;
87.图8为本技术实施例提供的一种特征域光流估计的架构示意图;
88.图9为本技术实施例提供的一种视频压缩过程示意图;
89.图10为本技术实施例提供的一种特征提取网络、特征重构和残差块的架构示意图;
90.图11为本技术实施例提供的一种编码网络、解码网络和残差块的架构示意图;
91.图12a为本技术实施例提供的一种视频增强过程示意图;
92.图12b为本技术实施例提供的一种视频增强效果示意图;
93.图13为本技术实施例提供的一种多尺度特征域光流确定过程示意图;
94.图14为本技术实施例提供的一种特征域光流估计的过程示意图;
95.图15为本技术实施例提供的一种自适应网络的结构示意图;
96.图16为本技术实施例提供的一种终端设备的结构示意图。
具体实施方式
97.本技术实施例提供一种基于ai的视频图像压缩技术,尤其是提供一种基于神经网络的视频压缩技术,具体提供一种基于概率分布和采样的解码方法,以改进传统的混合视频编解码系统。
98.视频编解码通常是指处理形成视频或视频序列的图像序列。在视频编解码领域,术语“图像(picture)”、“帧(frame)”或“图片(image)”可以用作同义词。视频编解码(或通常称为编码)包括视频编码和视频解码两部分。视频编码在源侧执行,通常包括处理(例如,压缩)原始视频图像以减少表示该视频图像所需的数据量(从而更高效存储和/或传输)。视频解码在目的地侧执行,通常包括相对于编码器作逆处理,以重建视频图像。实施例涉及的视频图像(或通常称为图像)的“编码”应理解为视频图像或视频序列的“编码”或“解码”。编码部分和解码部分也合称为编解码(编码和解码,codec)。
99.在无损视频编码情况下,可以重建原始视频图像,即重建的视频图像与原始视频图像具有相同的质量(假设存储或传输期间没有传输损耗或其它数据丢失)。在有损视频编码情况下,通过量化等执行进一步压缩,来减少表示视频图像所需的数据量,而解码器侧无法完全重建视频图像,即重建的视频图像的质量比原始视频图像的质量较低或较差。
100.由于本技术实施例涉及神经网络的应用,为了便于理解,下面先对本技术实施例所使用到的一些名词或术语进行解释说明,该名词或术语也作为发明内容的一部分。
101.(1)神经网络
102.神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
[0103][0104]
其中,s=1、2、
……
n,n为大于1的自然数,ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
[0105]
(2)深度神经网络
[0106]
深度神经网络(deep neural network,dnn),也称多层神经网络,可以理解为具有多层隐含层的神经网络。按照不同层的位置对dnn进行划分,dnn内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
[0107]
虽然dnn看起来很复杂,但是就每一层的工作来说,其实并不复杂,简单来说就是如下线性关系表达式:其中,是输入向量,是输出向量,是偏移向量,w是权重矩阵(也称系数),a()是激活函数。每一层仅仅是对输入向量经过如此简单的操作得到输出向量由于dnn层数多,系数w和偏移向量的数量也比较多。这些参数在dnn中的定义如下所述:以系数w为例:假设在一个三层的dnn中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为上标3代表系数w所在的层数,而下标对应的是输出的第三层索引2和输入的第二层索引4。
[0108]
综上,第l-1层的第k个神经元到第l层的第j个神经元的系数定义为
[0109]
需要注意的是,输入层是没有w参数的。在深度神经网络中,更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多的模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程,其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量w形成的权重矩阵)。
[0110]
(3)卷积神经网络
[0111]
卷积神经网络(convolutional neuron network,cnn)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器,该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式初始化,在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
[0112]
(4)循环神经网络(recurrent neural networks,rnn)是用来处理序列数据的。在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题,但是却仍然对很多问题无能无力。例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。rnn之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐含层本层之间的节点不再无连接而是有连接的,并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上,rnn能够对任何长度的序列数据进行处理。对于rnn的训练和对传统的cnn或dnn的训练一样。rnn旨在让机器像人一样拥有记忆的能力。因此,rnn的输出就需要依赖当前的输入信息和历史的记忆信息。
[0113]
(5)损失函数
[0114]
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再基于两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
[0115]
(6)反向传播算法
[0116]
神经网络可以采用误差反向传播(back propagation,bp)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
[0117]
在以下译码系统10的实施例中,编码器20和解码器30根据图1至图3进行描述。
[0118]
图1为示例性译码系统10的示意性框图,例如可以利用本技术技术的视频译码系统10(或简称为译码系统10)。视频译码系统10中的视频编码器20(或简称为编码器20)和视频解码器30(或简称为解码器30)代表可用于根据本技术中描述的各种示例执行各技术的设备等。
[0119]
如图1所示,译码系统10包括源设备12,源设备12用于将编码图像等编码图像数据21提供给用于对编码图像数据21进行解码的目的设备14。
[0120]
源设备12包括编码器20,另外即可选地,可包括图像源16、图像预处理器等预处理器(或预处理单元)18、通信接口(或通信单元)22。
[0121]
图像源16可包括或可以为任意类型的用于捕获现实世界图像等的图像捕获设备,和/或任意类型的图像生成设备,例如用于生成计算机动画图像的计算机图形处理器或任意类型的用于获取和/或提供现实世界图像、计算机生成图像(例如,屏幕内容、虚拟现实
(virtual reality,vr)图像和/或其任意组合(例如增强现实(augmented reality,ar)图像)的设备。所述图像源可以为存储上述图像中的任意图像的任意类型的内存或存储器。
[0122]
为了区分预处理器(或预处理单元)18执行的处理,图像(或图像数据)17也可称为原始图像(或原始图像数据)17。
[0123]
预处理器18用于接收(原始)图像数据17,并对图像数据17进行预处理,得到预处理图像(或预处理图像数据)19。例如,预处理器18执行的预处理可包括修剪、颜色格式转换(例如从rgb转换为ycbcr)、调色或去噪。可以理解的是,预处理单元18可以为可选组件。
[0124]
视频编码器(或编码器)20用于接收预处理图像数据19并提供编码图像数据21(下面将根据图2等进一步描述)。
[0125]
源设备12中的通信接口22可用于:接收编码图像数据21并通过通信信道13向目的设备14等另一设备或任何其它设备发送编码图像数据21(或其它任意处理后的版本),以便存储或直接重建。
[0126]
目的设备14包括解码器30,另外即可选地,可包括通信接口(或通信单元)28、后处理器(或后处理单元)32和显示设备34。
[0127]
目的设备14中的通信接口28用于直接从源设备12或从存储设备等任意其它源设备接收编码图像数据21(或其它任意处理后的版本),例如,存储设备为编码图像数据存储设备,并将编码图像数据21提供给解码器30。
[0128]
通信接口22和通信接口28可用于通过源设备12与目的设备14之间的直连通信链路,例如直接有线或无线连接等,或者通过任意类型的网络,例如有线网络、无线网络或其任意组合、任意类型的私网和公网或其任意类型的组合,发送或接收编码图像数据(或编码数据)21。
[0129]
例如,通信接口22可用于将编码图像数据21封装为报文等合适的格式,和/或使用任意类型的传输编码或处理来处理所述编码后的图像数据,以便在通信链路或通信网络上进行传输。
[0130]
通信接口28与通信接口22对应,例如,可用于接收传输数据,并使用任意类型的对应传输解码或处理和/或解封装对传输数据进行处理,得到编码图像数据21。
[0131]
通信接口22和通信接口28均可配置为如图1中从源设备12指向目的设备14的对应通信信道13的箭头所指示的单向通信接口,或双向通信接口,并且可用于发送和接收消息等,以建立连接,确认并交换与通信链路和/或例如编码后的图像数据传输等数据传输相关的任何其它信息,等等。
[0132]
视频解码器(或解码器)30用于接收编码图像数据21并提供解码图像数据(或解码图像数据)31(下面将根据图3等进一步描述)。
[0133]
后处理器32用于对解码后的图像等解码图像数据31(也称为重建后的图像数据)进行后处理,得到后处理后的图像等后处理图像数据33。后处理单元32执行的后处理可以包括例如颜色格式转换(例如从ycbcr转换为rgb)、调色、修剪或重采样,或者用于产生供显示设备34等显示的解码图像数据31等任何其它处理。
[0134]
显示设备34用于接收后处理图像数据33,以向用户或观看者等显示图像。显示设备34可以为或包括任意类型的用于表示重建后图像的显示器,例如,集成或外部显示屏或显示器。例如,显示屏可包括液晶显示器(liquid crystal display,lcd)、有机发光二极管
(organic light emitting diode,oled)显示器、等离子显示器、投影仪、微型led显示器、硅基液晶显示器(liquid crystal on silicon,lcos)、数字光处理器(digital light processor,dlp)或任意类型的其它显示屏。
[0135]
译码系统10还包括训练引擎25,训练引擎25所实现的具体训练过程详见后续描述,在此不再叙述。
[0136]
尽管图1示出了源设备12和目的设备14作为独立的设备,但设备实施例也可以同时包括源设备12和目的设备14或同时包括源设备12和目的设备14的功能,即同时包括源设备12或对应功能和目的设备14或对应功能。在这些实施例中,源设备12或对应功能和目的设备14或对应功能可以使用相同硬件和/或软件或通过单独的硬件和/或软件或其任意组合来实现。
[0137]
根据描述,图1所示的源设备12和/或目的设备14中的不同单元或功能的存在和(准确)划分可能根据实际设备和应用而有所不同,这对技术人员来说是显而易见的。
[0138]
编码器20(例如视频编码器20)或解码器30(例如视频解码器30)或两者都可通过如图2所示的处理电路实现,例如一个或多个微处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application-specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)、离散逻辑、硬件、视频编码专用处理器或其任意组合。编码器20可以通过处理电路46实现,以包含参照图2编码器20论述的各种模块和/或本文描述的任何其它编码器系统或子系统。解码器30可以通过处理电路46实现,以包含参照图3解码器30论述的各种模块和/或本文描述的任何其它解码器系统或子系统。所述处理电路46可用于执行下文论述的各种操作。如图4所示,如果部分技术在软件中实施,则设备可以将软件的指令存储在合适的非瞬时性计算机可读存储介质中,并且使用一个或多个处理器在硬件中执行指令,从而执行本技术技术。视频编码器20和视频解码器30中的其中一个可作为组合编解码器(encoder/decoder,codec)的一部分集成在单个设备中,如图2所示。
[0139]
源设备12和目的设备14可包括各种设备中的任一种,包括任意类型的手持设备或固定设备,例如,笔记本电脑或膝上型电脑、手机、智能手机、平板或平板电脑、相机、台式计算机、机顶盒、电视机、显示设备、数字媒体播放器、视频游戏控制台、视频流设备(例如,内容业务服务器或内容分发服务器)、广播接收设备、广播发射设备,等等,并可以不使用或使用任意类型的操作系统。在一些情况下,源设备12和目的设备14可配备用于无线通信的组件。因此,源设备12和目的设备14可以是无线通信设备。
[0140]
在一些情况下,图1所示的视频译码系统10仅仅是示例性的,本技术提供的技术可适用于视频编码设置(例如,视频编码或视频解码),这些设置不一定包括编码设备与解码设备之间的任何数据通信。在其它示例中,数据从本地存储器中检索,通过网络发送,等等。视频编码设备可以对数据进行编码并将数据存储到存储器中,和/或视频解码设备可以从存储器中检索数据并对数据进行解码。在一些示例中,编码和解码由相互不通信而只是编码数据到存储器和/或从存储器中检索并解码数据的设备来执行。
[0141]
图2是根据一示例性实施例的包含图2的视频编码器20和/或图3的视频解码器30的视频译码系统40的实例的说明图。视频译码系统40可以包含成像设备41、视频编码器20、视频解码器30(和/或藉由处理电路46实施的视频编/解码器)、天线42、一个或多个处理器
coding,hevc)描述本技术实施例。本领域普通技术人员理解本技术实施例不限于hevc或vvc。
[0149]
图3为本技术实施例提供的视频译码设备300的示意图。视频译码设备300适用于实现本文描述的公开实施例。在一个实施例中,视频译码设备300可以是解码器,例如图1中的视频解码器30,也可以是编码器,例如图1中的视频编码器20。
[0150]
视频译码设备300包括:用于接收数据的入端口310(或输入端口310)和接收单元(receiver unit,rx)320;用于处理数据的处理器、逻辑单元或中央处理器(central processing unit,cpu)330;例如,这里的处理器330可以是神经网络处理器330;用于传输数据的发送单元(transmitter unit,tx)340和出端口350(或输出端口350);用于存储数据的存储器360。视频译码设备300还可包括耦合到入端口310、接收单元320、发送单元340和出端口350的光电(optical-to-electrical,oe)组件和电光(electrical-to-optical,eo)组件,用于光信号或电信号的出口或入口。
[0151]
处理器330通过硬件和软件实现。处理器330可实现为一个或多个处理器芯片、核(例如,多核处理器)、fpga、asic和dsp。处理器330与入端口310、接收单元320、发送单元340、出端口350和存储器360通信。处理器330包括译码模块370(例如,基于神经网络nn的译码模块370)。译码模块370实施上文所公开的实施例。例如,译码模块370执行、处理、准备或提供各种编码操作。因此,通过译码模块370为视频译码设备300的功能提供了实质性的改进,并且影响了视频译码设备300到不同状态的切换。或者,以存储在存储器360中并由处理器330执行的指令来实现译码模块370。
[0152]
存储器360包括一个或多个磁盘、磁带机和固态硬盘,可以用作溢出数据存储设备,用于在选择执行程序时存储此类程序,并且存储在程序执行过程中读取的指令和数据。存储器360可以是易失性和/或非易失性的,可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、三态内容寻址存储器(ternary content-addressable memory,tcam)和/或静态随机存取存储器(static random-access memory,sram)。
[0153]
图4为示例性实施例提供的装置400的简化框图,装置400可用作图1中的源设备12和目的设备14中的任一个或两个。
[0154]
装置400中的处理器402可以是中央处理器。或者,处理器402可以是现有的或今后将研发出的能够操控或处理信息的任何其它类型设备或多个设备。虽然可以使用如图所示的处理器402等单个处理器来实施已公开的实现方式,但使用一个以上的处理器速度更快和效率更高。
[0155]
在一种实现方式中,装置400中的存储器404可以是只读存储器(rom)设备或随机存取存储器(ram)设备。任何其它合适类型的存储设备都可以用作存储器404。存储器404可以包括处理器402通过总线412访问的代码和数据406。存储器404还可包括操作系统408和应用程序410,应用程序410包括允许处理器402执行本文所述方法的至少一个程序。例如,应用程序410可以包括应用1至n,还包括执行本文所述方法的视频译码应用。
[0156]
装置400还可以包括一个或多个输出设备,例如显示器418。在一个示例中,显示器418可以是将显示器与可用于感测触摸输入的触敏元件组合的触敏显示器。显示器418可以通过总线412耦合到处理器402。
[0157]
虽然装置400中的总线412在本文中描述为单个总线,但是总线412可以包括多个总线。此外,辅助储存器可以直接耦合到装置400的其它组件或通过网络访问,并且可以包括存储卡等单个集成单元或多个存储卡等多个单元。因此,装置400可以具有各种各样的配置。
[0158]
首先介绍本技术的应用场景,本技术方案的应用场景包括但不限于华为云、视频监控、视频相册、直播、终端录像、存储和传输等。本技术的方法可以用在视频压缩、视频预测、视频插帧、视频增强、视频分析等所有需要视频帧间特征融合/对齐的领域。
[0159]
参见图5a,图5a为本发明实施例提供的一种视频编解码架构示意图。如图5a所示,该架构包括编码设备501、存储/传输模块502及解码设备503。
[0160]
其中,编码设备501对获取的视频进行编码,以得到码流;存储/传输模块502存储该码流或者将该码流传输至解码设备503。解码设备503对码流进行解码,以得到重建的视频。其中,以图5b为例,编码设备501包括ai编码单元504和熵编码单元505;解码设备503包括ai解码单元509和熵解码单元508。ai编码单元504、熵编码单元505、ai解码单元509和熵解码单元508功能的具体描述参见下面相关描述。
[0161]
比如若针对的场景是终端录屏或者视频监控,则存储/传输模块502存储上述码流;若针对的场景是华为云或直播,则存储/传输模块502传输上述码流至对应的设备。
[0162]
参见图5b,图5b为本技术实施例提供的一种视频存储应用架构示意图。如图5b所示,该架构包括ai编码单元504、熵编码单元505、存储单元506、加载单元507、熵解码单元508和ai解码单元509;
[0163]
其中,ai编码单元504基于本技术的方法获取当前帧与参考帧之间的特征域光流;将特征域光流进行编码得到特征域光流的编码特征;对特征域光流的编码特征解码得到解码特征域光流;根据参考帧的特征图及解码特征域光流得到当前帧的预测特征;根据当前帧的特征和当前帧的预测特征得到当前帧特征域残差;将当前帧特征残差进行编码得到特征域残差特征。当前帧和参考帧可以为视频中的两帧。
[0164]
熵编码单元505对特征域光流进行无损编码得到特征域光流码流;对特征域残差特征进行无损压缩得到特征域残差码流。其中,得到的特征域光流码流和特征域残差码流可以看成压缩后的文件,即图5b中所示的文件。
[0165]
存储单元506将上述压缩后的文件进行存储。
[0166]
加载单元507从存储上述文件的设备中加载上述码流。
[0167]
熵解码单元508对特征域光流码流进行解码得到特征域光流编码特征;对特征域残差码流进行解码得到特征域残差特征。
[0168]
ai解码单元509对特征域光流编码特征解码得到解码特征域光流;对特征域残差特征进行解码得到解码特征域残差;根据参考帧的特征图及解码特征域光流得到当前帧的预测特征;根据当前帧的预测特征和解码特征域残差得到当前帧解码特征;通过对当前帧的解码特征进行重构得到当前帧解码图像,也是当前帧的重建图像。
[0169]
参见图5c,图5c为本技术实施例提供的一种直播架构示意图。如图5b所示,该架构包括ai编码单元504、熵编码单元505、服务端集群510、熵解码单元508和ai解码单元509。
[0170]
其中,ai编码单元504基于本技术的方法获取当前帧与参考帧之间的特征域光流;将特征域光流进行编码得到特征域光流的编码特征;对特征域光流的编码特征解码得到解
码特征域光流;根据参考帧的特征图及解码特征域光流得到当前帧的预测特征;根据当前帧的特征和当前帧的预测特征得到当前帧特征域残差;将当前帧特征残差进行编码得到特征域残差特征。当前帧和参考帧可以为视频中的两帧。
[0171]
熵编码单元505对特征域光流进行无损编码得到特征域光流码流;对特征域残差特征进行无损压缩得到特征域残差码流。
[0172]
服务端集群510收集上述特征域光流码流和特征域残差码流,并将收集到的码流分发至用户设备。
[0173]
用户设备的熵解码单元508对特征域光流码流进行解码得到特征域光流编码特征;对特征域残差码流进行解码得到特征域残差特征。用户设备的ai解码单元509对特征域光流编码特征解码得到解码特征域光流;对特征域残差特征进行解码得到解码特征域残差;根据参考帧的特征图及解码特征域光流得到当前帧的预测特征;根据当前帧的预测特征和解码特征域残差得到当前帧解码特征;通过对当前帧的解码特征进行重构得到当前帧解码图像,也是当前帧的重建图像。
[0174]
其中,上述ai编码单元504和ai解码单元509的功能是由npu实现的,存储单元506、加载单元507、熵编码单元505和熵解码单元508的功能是由cpu实现的。
[0175]
参见图5d,图5d为本技术实施例提供一种视频增强架构示意图。如图5d所示,该视频增加架构主要包括视频增强单元511;
[0176]
其中,视频增强单元511基于本技术的方法获取当前帧与参考帧之间的特征域光流;根据参考帧的特征图及特征域光流得到当前帧的预测特征;根据当前帧的特征图及当前帧的特征进行特征融合和特征重构得到当前帧的增强图像。
[0177]
上述视频增强单元511的功能是由npu实现的。
[0178]
下面具体介绍特征域光流确定方法的具体过程。
[0179]
参见图6,图6为本技术实施例提供的一种特征域光流确定方法的流程示意图。如图6所示,该方法包括:
[0180]
s601、获取当前帧和参考帧之间的图像域光流。
[0181]
其中,当前帧和参考帧可以为视频中的两帧。
[0182]
可选的,获取当前帧和参考帧之间的图像域光流的方式可以是基于深度学习的光流算法,比如循环所有对场变换(recurrent all-pairs field transforms,raft);也可以使用基于传统方法的光流算法。
[0183]
其中,光流表示的是相邻两帧图像中每个像素的运动速度和运动方向。光流在时间维度上有两个方向,分别是前一帧到后一帧的光流和后一帧到前一帧的光流。一个方向上的光流通常进行数字化表示,它一般使用一个三维的数组(2,h,w)表示,第一通道表示图像在x方向的偏移方向和大小;第二通道表示图像在y方向的偏移方向和大小,其中h,w分别表示图像的高宽。在x方向上,正值表示物体向左移动,而负值表示物体向右移动;在y方向上,正值表示物体向上移动,而负值表示物体向下移动。
[0184]
可选的,当前帧与参考帧之间的图像域光流可以是当前帧到参考帧之间的光流,也可以是参考帧到当前帧的光流。
[0185]
s602、对参考帧进行多尺度特征提取,以得到m个参考帧特征图;m为大于或等于1的整数。
[0186]
具体的,当m大于1时,m个参考帧特征图为m个不同尺度的参考帧特征图,对参考帧x
t-1
进行特征提取,得到参考帧特征图对参考帧特征图进行特征提取,得到参考帧特征图
……
;对参考帧特征图进行特征提取,得到参考帧特征图按照该方式进行多尺度特征提取,以得到m个不同尺度的参考帧特征图;当m=1时,对参考帧图像进行一次特征提取,即m个参考帧特征图为参考帧特征图该参考帧特征图可以称为目标特征图。
[0187]
在此需要指出的是,对于本技术中一些符号的下标t表示这些符号对应的数据与当前帧相关,比如f
t
表示当前帧特征图,表示当前帧的预测特征;一些符号的下标t-1表示这些符号对应的数据与参考帧相关,比如f
t-1
表示参考帧特征图。其中,本技术中一些符号的下标为t1和t2,下标为t1和t2的符号表示不同的数据。
[0188]
s603、根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流。
[0189]
在一个可行的实施例中,当m=1时,m个参考帧特征图为目标特征图;根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:
[0190]
根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;根据当前帧特征图和目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流,其中,第二特征域光流的精度高于第一特征域光流的精度;其中,m个特征域光流为第二特征域光流。
[0191]
具体的,根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流可以是基于光流估计网络实现,光流估计网络是基于神经网络实现的。在一个示例中,图7示意出了一种光流估计网络。如图7所示,该光流估计网络由两个卷积层和一个rule激活层穿插级联构成,每个卷积层的卷积核大小为3x3,输出特征图的通道为n,第一个卷积层在输入的当前帧和参考帧之间的图像域光流的高宽上进行2倍的下采样。假设当前帧和参考帧之间的图像域光流的尺寸为[n,h,w],则光流估计网络输出的特征域光流特征图的尺寸为[n,h/2,w/2],也就是第一特征域光流。对于光流估计网络,输入是当前帧与参考帧之前的图像域光流,输出为第一特征域光流。第一特征域光流的尺寸与当前帧的尺寸一致。
[0192]
在此需要指出的是,光流估计网络的架构在此不做限定,比如卷积核大小、特征图通道数、下采样位置、卷积层数、网络激活层均可调整,或者使用更加复杂的网络结构,不限于图7所示的架构。
[0193]
根据当前帧特征图和目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流是通过第一自适应网络实现的,第一自适应网络是基于神经网络实现的。在一个示例中,第一自适应网络基于一个卷积核大小为3x3的卷积层实现的,该卷积层输出的特征图的通道数为n。对于第一自适应网络,输入的是当前帧特征图、参考帧特征图及上述第一特征域光流,输出为当前帧特征图与参考帧特征图之间的特征域光流。
[0194]
在此需要指出的是,对于第一自适应网络的架构在此不做限定,例如卷积核大小、
特征图通道数和卷积层数均可调整,或者使用更加复杂的网络结构。
[0195]
通过对第一特征域光流进行自适应处理,得到的第二特征域光流的精度高于第一特征域光流的精度。
[0196]
在一个可行的实施例中,当m=1时,m个参考帧特征图为目标特征图;根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:
[0197]
根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;根据当前帧特征图和目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流;
[0198]
根据当前帧特征图、目标特征图及第二特征域光流进行至少一次迭代处理,以得到第三特征域光流,m个特征域光流为第三特征域光流;第三特征域光流的精度高于第二特征域光流的精度;
[0199]
其中,进行第j次迭代处理时,对目标特征图和特征域光流进行特征对齐处理,以得到当前帧的预测特征图当j=1时,特征域光流为第二特征域光流,根据目标特征图、所述当前帧特征图及所述当前帧的预测特征图进行微调处理,以得到微调特征域光流对微调特征域光流和特征域光流进行融合,以得到特征域光流当j=1时,特征域光流为第一特征域光流;根据特征域光流确定特征域光流
[0200]
其中,若特征域光流为最后一次迭代处理得到的,则特征域光流为第三特征域光流;所述特征域光流的精度高于特征域光流的精度。
[0201]
在一个具体的示例中,根据当前帧特征图f
t
、目标特征图f
t-1
及第二特征域光流进行至少一次迭代处理,以得到第三特征域光流,第三特征域光流的精度高于第二特征域光流的精度;
[0202]
当只进行一次迭代处理时,在得到第二特征域光流后,根据目标特征图f
t-1
及第二特征域光流进行特征对齐处理,以得到当前帧的预测特征;根据当前帧特征图f
t
、目标特征图f
t-1
和当前帧的预测特征进行微调处理,以得到微调特征域光流;根据微调特征域光流和第一特征域光流进行融合,以得到特征域光流在一个示例中,该特征域光流为上述第三特征域光流。可选的,在得到特征域光流后,根据当前帧特征图f
t
和目标特征图ft
t-1
对特征域光流进行自适应处理,得到的特征域光流即为第三特征域光流。
[0203]
当进行多次迭代时,如图8所示,在得到第二特征域光流后,根据目标特征图ft
t-1
及第二特征域光流进行特征对齐处理,以得到当前帧的预测特征根据当前帧特征图ft
t
、目标特征图f
t-1
和当前帧的预测特征进行微调处理,以得到微调特征域光流根据微调特征域光流和第一特征域光流进行融合,以得到特征域光流在一个示例中,该特征域光流为特征域光流可选的,在得到特征域光流后,根据当前帧特征图f
t
和目标特征图f
t-1
对特征域光流进行自适应处理,得到的特征域光流即为特征域
光流根据目标特征图f
t-1
及特征域光流进行特征对齐处理,以得到当前帧的预测特征根据当前帧特征图f
t
、目标特征图f
t-1
和当前帧的预测特征进行微调处理,以得到微调特征域光流根据微调特征域光流和特征域光流进行融合,以得到特征域光流在一个示例中,该特征域光流为特征域光流可选的,在得到特征域光流后,根据当前帧特征图f
t
和目标特征图f
t-1
对特征域光流进行自适应处理,得到的特征域光流即为特征域光流至此进行两次迭代处理;在进行第j次迭代处理时,根据目标特征图f
t-1
及特征域光流进行特征对齐处理,以得到当前帧的预测特征根据当前帧特征图f
t
、目标特征图f
t-1
和当前帧的预测特征进行微调处理,以得到微调特征域光流根据微调特征域光流和特征域光流进行融合,以得到特征域光流在一个示例中,该特征域光流为特征域光流可选的,在得到特征域光流后,根据当前帧特征图f
t
和目标特征图f
t-1
对特征域光流进行自适应处理,得到的特征域光流即为特征域光流按照上述方式,可以得到第三特征域光流。
[0204]
在一个可行的实施例中,在一个可行的实施例中,当m=1时,m个参考帧特征图为目标特征图;根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:
[0205]
根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;
[0206]
根据当前帧特征图、目标特征图及第一特征域光流进行至少一次迭代处理,以得到第三特征域光流,第三特征域光流的精度高于第一特征域光流的精度;m个特征域光流为第三特征域光流;
[0207]
其中,进行第j次迭代处理时,对目标特征图和特征域光流进行特征对齐处理,以得到当前帧的预测特征图j=1时,特征域光流为第一特征域光流;根据目标特征图、当前帧特征图及所述当前帧的预测特征图进行微调处理,以得到微调特征域光流对微调特征域光流和特征域光流进行融合,以得到特征域光流当j=1时,特征域光流为第一特征域光流;根据特征域光流确定特征域光流
[0208]
其中,若特征域光流为最后一次迭代处理得到的,则特征域光流为第三特征域光流;所述特征域光流的精度高于特征域光流的精度。
[0209]
在此需要说明的是,基于图8所示的架构,可以将第二特征域光流替换为第一特征域光流,其他处理流程不变的。
[0210]
其中,上述迭代处理的停止条件是迭代次数达到预设次数,或者某一次迭代处理得到的特征域光流的精度达到预设精度。
[0211]
在此需要指出的是,上述特征对齐处理的具体实现方式包括但不限于warping和可变形卷积网络(deformableconvolutionalnetworks,dcn),当然还可以是其他可以实现
特征对齐处理的方式。
[0212]
在一个示例中,上述根据当前帧特征图f
t
、目标特征图f
t-1
和当前帧的预测特征进行微调处理,以得到微调特征域光流可以通过微调网络实现,该微调网络是基于神经网络实现的。在一个示例中,微调网络由两个卷积层和一个relu激活层穿插级联构成;每个卷积层的卷积核大小为3x3,该微调网络输出特征域光流的通道数为n。假设输入的当前帧特征图f
t
、目标特征图f
t-1
和当前帧的预测特征的尺寸为[n,h/s,w/s],输出的特征域光流的尺寸为[n,h/s,w/s]。在此需要指出的是,对于微调网络的架构不做限定,例如卷积核大小、特征图通道数、上下采样倍数、上下采样次数、卷积层数、网络激活层均可调整,或者使用更加复杂的网络结构。
[0213]
对于根据当前帧特征图f
t
和目标特征图f
t-1
对特征域光流进行自适应处理,具体可通过第二自适应网络实现,第二自适应网络是基于神经网络实现的。可选的,第二自适应网络的架构与第一自适应网络的架构相同,也可以不相同,比如卷积核大小、卷积层的层数及rule激活层不相同。
[0214]
在一个可行的实施例中,本技术的方法还包括:
[0215]
对m个特征域光流进行编解码处理,以得到第四特征域光流;对第四特征域光流和目标特征图进行特征对齐处理,以得到当前帧的第一预测特征图;根据当前帧的特征图和第一预测特征图得到特征域残差图;对特征域残差图进行编码,以得到特征域残差码流。
[0216]
可选的,m个特征域光流可以为第一特征域光流、第二特征域光流或者第三特征域光流。
[0217]
具体的,如图9所示,对当前帧和参考帧分别进行特征提取,以得到当前帧特征f
t
和参考帧特征f
t-1
;获取当前帧和参考帧之间的图像域光流;根据当前帧特征图、参考帧特征图及当前帧和参考帧之间的图像域光流按照上述方式可以得到的第一特征域光流、第二特征域光流或第三特征域光流。其中,第二特征域光流的精度高于第一特征域光流的精度;第三特征域光流的精度高于第二特征域光流的精度。对m个特征域光流进行编码,以得到特征域光流码流;m个特征域光流可以第一特征域光流,第二特征域光流或者第三特征域光流。对特征域光流码流进行解码,得到第四特征域光流;根据参考帧特征图f
t-1
和第四特征域光流进行特征对齐处理,以得到当前帧的第一预测特征图;其中,特征对齐处理可以采用warping或者dcn方式,当然还可以是其他可以实现特征对齐的方式,在此不做限定;根据所述当前帧特征图f
t
及当前帧的第一预测特征图得到特征域残差图,该特征域残差图为当前帧特征图f
t
及当前帧的第一预测特征图之间的残差;对特征域残差图进行编码,以得到特征域残差码流。按照上述方式,可以完成对视频的压缩或者编码。对于视频压缩,视频压缩后的文件包括上述得到的特征域光流码流和特征域残差码流。
[0218]
可选的,m个特征域光流可以为第一特征域光流、第二特征域光流或者第三特征域光流。
[0219]
对视频压缩或者编码得到的码流进行解码过程如下:
[0220]
对参考帧进行特征提取,以得到参考帧特征图。对特征域光流码流进行解码,以得到第五特征域光流;根据参考帧特征图f
t-1
和第五特征域光流进行特征对齐处理,以得到当前帧的第一预测特征;根据对特征域残差码流进行解码,以得到特征域残差图;根据当前帧的第一预测特征和特征域残差图得到当前帧的第三预测特征图;根据当前帧的第三预测特
征图进行图像重构,以得到当前帧的重构图像。
[0221]
其中,对当前帧和参考帧进行特征提取可以采用如图10中a图所示的特征提取网络实现,该特征提取网络是基于神经网络实现的。该特征提取网络由一个卷积层和三个残差块实现。根据当前帧的第三预测特征图进行图像重构可以采用如图10中的b图所示的重构网络实现。该重构网络是基于神经网络实现的,该重构网络由三个残差块和一个反卷积层实现。图10中的a图和b图中所示的残差块的结构如图10中的c图所示,该残差块由两个卷积层和一个激活层relu实现。
[0222]
上述对m个特征域光流的编码和对特征域残差图的编码可以采用如图11中a图所示的编码网络实现,该编码网络是基于神经网络实现的。该编码网络由3个卷积层和9个残差块构成。对特征域光流码流和特征域残差码流进行解码可以采用如图11中的b图所示的解码网络实现,该解码网络是基于神经网络实现的。该解码网络由3个反卷积层和9个残差块构成。图11中的a图和b图中所示的残差块的结构如图11中的c图所示,该残差块由两个卷积层和一个激活层relu实现。
[0223]
在此需要指出的是,图10和图11所示的网络只是一个示例,不是对本技术的限定。图10和图11所示的网络中卷积核大小、特征图通道数、下上下采样倍数、上下采样次数、卷积层数、网络激活层均可调整。上述特征提取网络、重构网络、编码网络和解码网络当然还可以是其他形式网络结构。
[0224]
通过在视频压缩或者视频编解码过程中使用本技术方式确定的光流,既能够节省码率,又保证了质量。
[0225]
在另一个可行的实施例中,本技术的方法还包括:
[0226]
对m个特征域光流和目标特征图进行特征对齐处理,以得到当前帧的第二预测特征图;可选的,m个特征域光流为第一特征域光流、第二特征域光流或者第三特征域光流;根据当前帧的特征图和第二预测特征图进行特征融合,以得到当前帧的增强特征图;对增强特征图进行图像重构,以得到当前帧的重构图像。
[0227]
具体介绍按照本技术方法确定的光流在视频增强领域的应用。具体的,如图12a所示,对当前帧和参考帧分别进行特征提取,以得到当前帧特征f
t
和参考帧特征f
t-1
。其中,特征提取方式可以参见上述相关描述。获取当前帧和参考帧之间的图像域光流;根据当前帧特征图、参考帧特征图及当前帧和参考帧之间的图像域光流按照上述方式可以得到的第一特征域光流、第二特征域光流或第三特征域光流。其中,第二特征域光流的精度高于第一特征域光流的精度;第三特征域光流的精度高于第二特征域光流的精度。对m个特征域光流和参考帧特征图f
t-1
进行特征对齐处理,以得到当前帧的第二预测特征图;其中,特征对齐处理可以采用warping或者dcn方式,当然还可以是其他可以实现特征对齐的方式,在此不做限定;根据当前帧的特征图和第二预测特征图进行特征融合,以得到当前帧的增强特征图;对增强特征图进行图像重构,以得到当前帧的重构图像。
[0228]
其中,对增强特征图进行图像重构,可以采用如图11中的b图所示的重构网络,当然还可以是采用其他网络。比如在如图11中的b图所示的重构网络的基础上,对卷积核大小、特征图通道数、上采样倍数、上采样次数、卷积层数、网络激活层均中的至少一项进行调整得到的网络。
[0229]
对于采用本技术的方法进行视频压缩的有益效果,可以通过以下一个实验知晓:
[0230]
测试集采用hevc标准测试集中的三类视频,分别为分辨率1080p的hevc_b,分辨率832x480为hevc_c,分辨率416x240为hevc_d,每一类视频约4-5个视频,帧率范围诶24-60fps,每个视频测试前100帧。
[0231]
对比方法:采用本技术的方法和不采用本技术的方法。
[0232]
实验结果如图12b所示,有两条折线,其中,深色线条表示采用本技术的方法,浅色线条表示未采用本技术的方法;如图12b,从峰值信噪比(peak signal to noise ratio,psnr)和像素深度(bits per pixel,bpp)两个维度说明本实验的结论:在相同的像素深度的情况下,采用本技术的方法的视频的峰值信噪比高于未采用本技术的方法的视频的峰值信噪比,也就是采用本技术的方法的视频的质量高于未采用本技术的方法的视频的质量;在相同的峰值信噪比的情况下,采用本技术的方法的视频的像素深度低于未采用本技术的方法的视频的像素深度,也就是在进行视频压缩时,采用本技术的方法比未采用本技术的方法节省码率。
[0233]
本实施例将基于本技术方式确定的特征域光流应用到视频增强中,可用在压缩视频的后处理。通过图像域光流监督特征域光流增强特征预测准确性,提升了视频增强效果,提高视频质量。
[0234]
在一个可行的实施例中,m个参考帧特征图为m个不同尺度的参考帧特征图,所述方法还包括:
[0235]
根据m个当前帧的预测特征图进行m次特征重构处理,以得到当前帧的重构图像,其中,处理后的视频包括当前帧的重构图像;m个当前帧的预测特征图所根据所述m个特征域光流和m个参考帧特征图分别进行特征对齐处理得到的。
[0236]
在一个可行的实施例中,根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:
[0237]
在进行第i次特征域光流估计时,根据图像域光流特征图进行光流估计,以得到图像域光流特征图i为大于0且不大于m的整数;当i=1时,图像域光流特征为当前帧和参考帧之间的图像域光流;根据所述参考帧特征图图像域光流特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图其中,参考帧特征图是对参考帧特征图进行特征提取得到的;参考帧特征图和参考帧特征图分别为m个参考帧特征图中的两个;当i=m时,当前帧的预测特征为常数;
[0238]
其中,m个特征域光流包括特征域光流特征图当前帧的预测特征图是对参考帧特征图和特征域光流特征进行特征对齐处理得到的。
[0239]
具体的,如图13所示,对参考帧进行特征提取,以得到参考帧特征图对参考帧特征图进行特征提取,以得到参考帧特征图按照该方式,可以得到多尺度的参考帧特征图,即m个参考帧特征图;图13中所示的特征域光流估计是基于图14所示的网络结构是实现的。在进行第1次特征域光流估计时,根据当前帧与参考帧之间的图像域光流进行光流估计,以得到图像域光流特征图根据参考帧特征图和图像域光流特征图进行特征对齐处理,以得到当前帧的预测特征图可选的,在进行特征对齐处理之前,根
据图像域光流特征图参考帧特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图再根据参考帧特征图和特征域光流特征图进行特征对齐处理,以得到当前帧的预测特征图
[0240]
在进行第2次特征域光流估计时,根据图像域光流特征图进行光流估计,以得到图像域光流特征图根据参考帧特征图和图像域光流特征图进行特征对齐处理,以得到当前帧的预测特征图可选的,在进行特征对齐处理之前,根据图像域光流特征图参考帧特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图再根据参考帧特征图和特征域光流特征图进行特征对齐处理,以得到当前帧的预测特征图
[0241]
在进行第3次特征域光流估计时,根据图像域光流特征图进行光流估计,以得到图像域光流特征图根据参考帧特征图和图像域光流特征图进行特征对齐处理,以得到当前帧的预测特征图可选的,在进行特征对齐处理之前,根据图像域光流特征图参考帧特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图再根据参考帧特征图和特征域光流特征图进行特征对齐处理,以得到当前帧的预测特征图
[0242]
在进行第m次特征域光流估计时,根据图像域光流特征图进行光流估计,以得到图像域光流特征图根据参考帧特征图和图像域光流特征图进行特征对齐处理,以得到当前帧的预测特征图可选的,在进行特征对齐处理之前,根据图像域光流特征图参考帧特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图再根据参考帧特征图和特征域光流特征图进行特征对齐处理,以得到当前帧的预测特征图其中,当前帧的预测特征图为常数或者不存在,也就是在第m次特征域光流估计,不使用当前帧的预测特征图
[0243]
按照上述方式,可以得到m个当前帧的预测特征图。在得到m个当前帧的预测特征图后,对当前帧的预测特征图进行特征重构,以得到当前帧的重构特征图对当前帧的重构特征图和当前帧的预测特征图进行特征重构,以得到当前帧的重构特征图
……
;对当前帧的重构特征图和当前帧的预测特征图进行特征重构,以得到当前帧的重构特征图对当前帧的重构特征图和当前帧的预测特征图进行特征重构,以得到当前帧的重构图像。
[0244]
在此需要说明的是,在得到当前帧的预测特征图利用到了当前帧的预测特征图这个并不矛盾,因为当前帧的预测特征图是在当前帧的预测特征图之前得到的。
[0245]
下面从另一个角度描述上述过程;在获取当前帧和参考帧之间的图像域光流,对当前帧和参考帧之间的图像域光流进行光流估计,以得到图像域光流特征图根据图像域光流特征图进行光流估计,以得到图像域光流特征图根据图像域光流特征图进行光流估计,以得到图像域光流特征图
……
;根据图像域光流特征图进行光流估计,以得到图像域光流特征图根据图像域光流特征图参考帧特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图再根据参考帧特征图和特征域光流特征图进行特征对齐处理,以得到当前帧的预测特征图其中,当前帧的预测特征图为常数或者不存在。根据图像域光流特征图参考帧特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图再根据参考帧特征图和特征域光流特征图进行特征对齐处理,以得到当前帧的预测特征图
……
;根据图像域光流特征图参考帧特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图再根据参考帧特征图和特征域光流特征图进行特征对齐处理,以得到当前帧的预测特征图由此可以看出,在得到当前帧的预测特征图利用到了当前帧的预测特征图并不矛盾。
[0246]
在一个示例中,根据所述参考帧特征图图像域光流特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图的具体实现过程可通过图15所示的自适应网络实现。如图15所示,该自适应网络由一个反卷积层、两个卷积层和一个激活层relu构成。在此需要说明的是,图15所示的自适应网络只是一个示例,不是对本技术的限定。
[0247]
在此需要指出的是,上述特征提取、光流估计、特征对齐及特征重构的具体实现过程可参见前述实施例的相关描述,在此不再叙述。
[0248]
参见图16,图16为本技术实施例提供的一种终端设备的结构示意图。如图16所示,终端设备1600,包括:
[0249]
获取单元1601,用于获取当前帧和参考帧之间的图像域光流,当前帧和所述参考帧为视频中的两帧;
[0250]
特征提取单元1602,用于对参考帧进行多尺度特征提取,以得到m个参考帧特征图;m为大于或等于1的整数;
[0251]
光流估计单元1603,用于根据m个参考帧特征图及当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流。
[0252]
结合第一方面的方法,在一个可行的实施例中,在m=1时,m个参考帧特征图为目标特征图,光流估计单元1603具体用于:
[0253]
根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;根据当前帧特征图和所述目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流,其中,第二特征域光流的精度高于第一特征域光流的精度;其中,m个特征域光流为第二特征域光流。
[0254]
结合第一方面的方法,在一个可行的实施例中,m=1时,m个参考帧特征图为目标特征图,光流估计单元1603具体用于:
[0255]
根据所述当前帧和参考帧之间的图像域光流和所述目标特征图进行特征域光流估计,以得到第一特征域光流;
[0256]
根据当前帧特征图、目标特征图及第一特征域光流进行至少一次迭代处理,以得到第三特征域光流,m个特征域光流为第三特征域光流;
[0257]
其中,在进行第j次迭代处理时,对目标特征图和特征域光流进行特征对齐处理,以得到当前帧的预测特征图j为大于0的整数;j=1时,特征域光流为第一特征域光流;根据目标特征图、当前帧特征图及当前帧的预测特征图进行微调处理,以得到微调特征域光流对微调特征域光流和特征域光流进行融合,以得到特征域光流j=1时,特征域光流为第一特征域光流;根据特征域光流确定特征域光流
[0258]
其中,若特征域光流为最后一次迭代处理得到的,则特征域光流为第三特征域光流。
[0259]
结合第一方面的方法,在一个可行的实施例中,m=1时,m个参考帧特征图为目标特征图,光流估计单元1603具体用于:
[0260]
根据当前帧和参考帧之间的图像域光流和目标特征图进行特征域光流估计,以得到第一特征域光流;根据当前帧特征图和目标特征图对第一特征域光流进行自适应处理,以得到第二特征域光流;
[0261]
根据当前帧特征图、目标特征图及第二特征域光流进行至少一次迭代处理,以得到第三特征域光流,m个特征域光流为第三特征域光流;
[0262]
其中,在进行第j次迭代处理时:
[0263]
对目标特征图和特征域光流进行特征对齐处理,以得到当前帧的预测特征图j为大于0的整数,当j=1时,特征域光流为所述第二特征域光流;根据目标特征图、当前帧特征图及当前帧的预测特征图进行微调处理,以得到微调特征域光流对微调特征域光流和特征域光流进行融合,以得到特征域光流当j=1时,特征域光流为所述第一特征域光流;根据特征域光流确定特征域光流其中,若特征域光流为最后一次迭代处理得到的,则特征域光流为第三特征域光流。
[0264]
结合第一方面的方法,在一个可行的实施例中,在根据特征域光流确定特征域光流的方面,光流估计单元1603具体用于:
[0265]
将特征域光流确定为所述特征域光流
[0266]
或者,
[0267]
根据当前帧特征图和目标特征图对特征域光流进行自适应处理,以得到特征
域光流其中,特征域光流的精度高于特征域光流的精度。
[0268]
结合第一方面的方法,在一个可行的实施例中,终端设备1600还包括:
[0269]
后处理单元1604,用于对m个特征域光流进行编解码处理,以得到第四特征域光流;对第四特征域光流和目标特征图进行特征对齐处理,以得到当前帧的第一预测特征图;根据当前帧的特征图和第一预测特征图得到特征域残差图;对特征域残差图进行编码,以得到特征域残差码流。
[0270]
结合第一方面的方法,在一个可行的实施例中,终端设备1600还包括:
[0271]
后处理单元1604,用于对m个特征域光流和目标特征图进行特征对齐处理,以得到当前帧的第二预测特征图;第四特征域光流为第一特征域光流、第二特征域光流或者第三特征域光流;根据当前帧的特征图和第二预测特征图进行特征融合,以得到当前帧的增强特征图;对增强特征图进行图像重构,以得到当前帧的重构图像。
[0272]
结合第一方面的方法,在一个可行的实施例中,在m大于1时,m个参考帧特征图为m个不同尺度的参考帧特征图,终端设备1600还包括:
[0273]
后处理单元1604,用于根据m个当前帧的预测特征图进行m次特征重构处理,以得到当前帧的重构图像,其中,处理后的视频包括当前帧的重构图像;m个当前帧的预测特征图是根据m个特征域光流和m个不同尺度的参考帧特征图分别进行特征对齐处理得到的。
[0274]
结合第一方面的方法,在一个可行的实施例中,光流估计单元1603具体用于:
[0275]
在进行第i次特征域光流估计时,根据图像域光流特征图进行光流估计,以得到图像域光流特征图i为大于0且不大于m的整数;当i=1时,图像域光流特征为所述当前帧和参考帧之间的图像域光流;根据参考帧特征图图像域光流特征图和当前帧的预测特征图进行自适应处理,以得到特征域光流特征图其中,参考帧特征图是对参考帧特征图进行特征提取得到的;参考帧特征图和参考帧特征图分别为m个参考帧特征图中的两个;当i=m时,当前帧的预测特征为常数;其中,m个特征域光流包括特征域光流特征图当前帧的预测特征是对参考帧特征图和特征域光流特征进行特征对齐处理得到的。
[0276]
需要说明的是,上述各单元(获取单元1601、特征提取单元1602、光流估计单元1603和后处理单元1604)用于执行上述方法的相关步骤,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。比如获取单元1601用于执行s601的相关内容,特征提取单元1602用于执行s602的相关内容,光流估计单元1603和后处理单元1604用于执行s603的相关内容。
[0277]
本领域技术人员能够领会,结合本文公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施,那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包括任何促进将计算机程序从一处传送到另一处的媒体(例如,根据通信协议)的通信媒体。以此方式,计算机可读媒体大体上可对应于
(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本技术中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
[0278]
作为实例而非限制,此类计算机可读存储媒体可包括ram、rom、eeprom、cd-rom或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储指令或数据结构的形式的所要程序代码并且可由计算机存取的任何其它媒体。并且,任何连接被恰当地称作计算机可读媒体。举例来说,如果使用同轴缆线、光纤缆线、双绞线、数字订户线(dsl)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输指令,那么同轴缆线、光纤缆线、双绞线、dsl或例如红外线、无线电和微波等无线技术包含在媒体的定义中。但是,应理解,所述计算机可读存储媒体和数据存储媒体并不包括连接、载波、信号或其它暂时媒体,而是实际上针对于非暂时性有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(cd)、激光光盘、光学光盘、数字多功能光盘(dvd)和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。
[0279]
可通过例如一或多个数字信号处理器(dsp)、通用微处理器、专用集成电路(asic)、现场可编程逻辑阵列(fpga)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的各种说明性逻辑框、模块、和步骤所描述的功能可以提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
[0280]
本技术的技术可在各种各样的装置或设备中实施,包含无线手持机、集成电路(ic)或一组ic(例如,芯片组)。本技术中描述各种组件、模块或单元是为了强调用于执行所揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件和/或固件组合在编码解码器硬件单元中,或者通过互操作硬件单元(包含如上文所描述的一或多个处理器)来提供。
[0281]
以上所述,仅为本技术示例性的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。
技术特征:
1.一种特征域光流确定方法,其特征在于,包括:获取当前帧和参考帧之间的图像域光流;对所述参考帧进行多尺度特征提取,以得到m个参考帧特征图;所述m为大于或等于1的整数;根据所述m个参考帧特征图及所述当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流。2.根据权利要求1所述的方法,其特征在于,所述m=1时,所述m个参考帧特征图为目标特征图,所述根据所述m个参考帧特征图及所述当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:根据所述当前帧和参考帧之间的图像域光流和所述目标特征图进行特征域光流估计,以得到第一特征域光流;根据所述当前帧特征图和所述目标特征图对所述第一特征域光流进行自适应处理,以得到第二特征域光流,其中,所述第二特征域光流的精度高于所述第一特征域光流的精度;其中,所述m个特征域光流为所述第二特征域光流。3.根据权利要求1所述的方法,其特征在于,所述m=1时,所述m个参考帧特征图为目标特征图,所述根据所述m个参考帧特征图及所述当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:根据所述当前帧和参考帧之间的图像域光流和所述目标特征图进行特征域光流估计,以得到第一特征域光流;根据所述当前帧特征图、所述目标特征图及所述第一特征域光流进行至少一次迭代处理,以得到第三特征域光流,所述第三特征域光流的精度高于所述第一特征域光流的精度,所述m个特征域光流为所述第三特征域光流;其中,在进行第j次迭代处理时:对所述目标特征图和特征域光流进行特征对齐处理,以得到所述当前帧的预测特征图所述j为大于0的整数,当j=1时,所述特征域光流为所述第一特征域光流;根据所述目标特征图、所述当前帧特征图及所述当前帧的预测特征图进行微调处理,以得到微调特征域光流对所述微调特征域光流和所述特征域光流进行融合,以得到特征域光流当j=1时,所述特征域光流为所述第一特征域光流;根据所述特征域光流确定特征域光流其中,若所述特征域光流为最后一次迭代处理得到的,则所述特征域光流为所述第三特征域光流。4.根据权利要求1所述的方法,其特征在于,所述m=1时,所述m个参考帧特征图为目标特征图,所述根据所述m个参考帧特征图及所述当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:根据所述当前帧和参考帧之间的图像域光流和所述目标特征图进行特征域光流估计,
以得到第一特征域光流;根据所述当前帧特征图和所述目标特征图对所述第一特征域光流进行自适应处理,以得到第二特征域光流;根据所述当前帧特征图、所述目标特征图及所述第二特征域光流进行至少一次迭代处理,以得到第三特征域光流,所述第三特征域光流的精度高于所述第二特征域光流的精度,所述m个特征域光流为所述第三特征域光流;其中,在进行第j次迭代处理时:对所述目标特征图和特征域光流进行特征对齐处理,以得到所述当前帧的预测特征图所述j为大于0的整数,当j=1时,所述特征域光流为所述第二特征域光流;根据所述目标特征图、所述当前帧特征图及所述当前帧的预测特征图进行微调处理,以得到微调特征域光流对所述微调特征域光流和所述特征域光流进行融合,以得到特征域光流当j=1时,所述特征域光流为所述第一特征域光流;根据所述特征域光流确定特征域光流其中,若所述特征域光流为最后一次迭代处理得到的,则所述特征域光流为所述第三特征域光流。5.根据权利要求3或4所述的方法,其特征在于,所述根据所述特征域光流确定特征域光流包括:将所述特征域光流确定为所述特征域光流或者,根据所述当前帧特征图和所述目标特征图对所述特征域光流进行自适应处理,以得到特征域光流其中,所述特征域光流的精度高于所述特征域光流的精度。6.根据权利要求2-5任一项所述的方法,其特征在于,所述方法还包括:对所述m个特征域光流进行编解码处理,以得到第四特征域光流;对所述第四特征域光流和所述目标特征图进行特征对齐处理,以得到所述当前帧的第一预测特征图;根据所述当前帧的特征图和所述第一预测特征图得到特征域残差图;对所述特征域残差图进行编码,以得到特征域残差码流。7.根据权利要求2-5任一项所述的方法,其特征在于,所述方法还包括:对所述m个特征域光流和所述目标特征图进行特征对齐处理,以得到所述当前帧的第二预测特征图;根据所述当前帧的特征图和所述第二预测特征图进行特征融合,以得到所述当前帧的增强特征图;
对所述增强特征图进行图像重构,以得到所述当前帧的重构图像。8.根据权利要求1所述的方法,其特征在于,所述m大于1,所述m个参考帧特征图为m个不同尺度的参考帧特征图,所述方法还包括:根据m个当前帧的预测特征图进行m次特征重构处理,以得到所述当前帧的重构图像,其中,处理后的视频包括所述当前帧的重构图像;所述m个当前帧的预测特征图为根据所述m个特征域光流和所述m个不同尺度的参考帧特征图分别进行特征对齐处理得到的。9.根据权利要求8所述的方法,其特征在于,所述根据所述m个参考帧特征图及所述当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流,包括:在进行第i次特征域光流估计时,根据图像域光流特征图进行光流估计,以得到图像域光流特征图所述i为大于0且不大于m的整数,当i=1时,图像域光流特征为所述当前帧和参考帧之间的图像域光流;根据所述参考帧特征图所述图像域光流特征图和所述当前帧的预测特征图进行自适应处理,以得到特征域光流特征图其中,所述参考帧特征图是对参考帧特征图进行特征提取得到的;所述参考帧特征图和所述参考帧特征图分别为所述m个参考帧特征图中的两个;当i=m时,所述当前帧的预测特征为常数;其中,所述m个特征域光流包括特征域光流特征图所述当前帧的预测特征是对所述参考帧特征图和特征域光流特征进行特征对齐处理得到的。10.一种终端设备,其特征在于,包括:获取单元,用于获取当前帧和参考帧之间的图像域光流;特征提取单元,用于对所述参考帧进行多尺度特征提取,以得到m个参考帧特征图;所述m为大于或等于1的整数;光流估计单元,用于根据所述m个参考帧特征图及所述当前帧和参考帧之间的图像域光流进行m次特征域光流估计,以得到m个特征域光流。11.根据权利要求10所述的终端设备,其特征在于,所述m=1时,所述m个参考帧特征图为目标特征图,所述光流估计单元具体用于:根据所述当前帧和参考帧之间的图像域光流和所述目标特征图进行特征域光流估计,以得到第一特征域光流;根据所述当前帧特征图和所述目标特征图对所述第一特征域光流进行自适应处理,以得到第二特征域光流,其中,所述第二特征域光流的精度高于所述第一特征域光流的精度;其中,所述m个特征域光流为所述第二特征域光流。12.根据权利要求10所述的终端设备,其特征在于,所述m=1时,所述m个参考帧特征图为目标特征图,所述光流估计单元具体用于:根据所述当前帧和参考帧之间的图像域光流和所述目标特征图进行特征域光流估计,以得到第一特征域光流;根据所述当前帧特征图、所述目标特征图及所述第一特征域光流进行至少一次迭代处理,以得到第三特征域光流,所述第三特征域光流的精度高于所述第一特征域光流的精度,所述m个特征域光流为所述第三特征域光流;
其中,在进行第j次迭代处理时:对所述目标特征图和特征域光流进行特征对齐处理,以得到所述当前帧的预测特征图所述j为大于0的整数,当j=1时,所述特征域光流为所述第一特征域光流;根据所述目标特征图、所述当前帧特征图及所述当前帧的预测特征图进行微调处理,以得到微调特征域光流对所述微调特征域光流和所述特征域光流进行融合,以得到特征域光流当j=1时,所述特征域光流为所述第一特征域光流;根据所述特征域光流确定特征域光流其中,若所述特征域光流为最后一次迭代处理得到的,则所述特征域光流为所述第三特征域光流。13.根据权利要求10所述的终端设备,其特征在于,所述m=1时,所述m个参考帧特征图为目标特征图,所述光流估计单元具体用于:根据所述当前帧和参考帧之间的图像域光流和所述目标特征图进行特征域光流估计,以得到第一特征域光流;根据所述当前帧特征图和所述目标特征图对所述第一特征域光流进行自适应处理,以得到第二特征域光流;根据所述当前帧特征图、所述目标特征图及所述第二特征域光流进行至少一次迭代处理,以得到第三特征域光流,所述第三特征域光流的精度高于所述第二特征域光流的精度,所述m个特征域光流为所述第三特征域光流;其中,在进行第j次迭代处理时:对所述目标特征图和特征域光流进行特征对齐处理,以得到所述当前帧的预测特征图所述j为大于0的整数,当j=1时,所述特征域光流为所述第二特征域光流;根据所述目标特征图、所述当前帧特征图及所述当前帧的预测特征图进行微调处理,以得到微调特征域光流对所述微调特征域光流和所述特征域光流进行融合,以得到特征域光流当j=1时,所述特征域光流为所述第一特征域光流;根据所述特征域光流确定特征域光流其中,若所述特征域光流为最后一次迭代处理得到的,则所述特征域光流为所述第三特征域光流。14.根据权利要求12或13所述的终端设备,其特征在于,在所述根据所述特征域光流确定特征域光流的方面,所述光流估计单元具体用于:将所述特征域光流确定为所述特征域光流
或者,根据所述当前帧特征图和所述目标特征图对所述特征域光流进行自适应处理,以得到特征域光流其中,所述特征域光流的精度高于所述特征域光流的精度。15.根据权利要求11-14任一项所述的终端设备,其特征在于,所述终端设备还包括:后处理单元,用于对所述m个特征域光流进行编解码处理,以得到第四特征域光流;对所述第四特征域光流和所述目标特征图进行特征对齐处理,以得到所述当前帧的第一预测特征图;根据所述当前帧的特征图和所述第一预测特征图得到特征域残差图;对所述特征域残差图进行编码,以得到特征域残差码流。16.根据权利要求11-14任一项所述的终端设备,其特征在于,所述终端设备还包括:后处理单元,用于对所述m个特征域光流和所述目标特征图进行特征对齐处理,以得到所述当前帧的第二预测特征图;根据所述当前帧的特征图和所述第二预测特征图进行特征融合,以得到所述当前帧的增强特征图;对所述增强特征图进行图像重构,以得到所述当前帧的重构图像。17.根据权利要求10所述的终端设备,其特征在于,所述m大于1,所述m个参考帧特征图为m个不同尺度的参考帧特征图,所述终端设备还包括:后处理单元,用于根据m个当前帧的预测特征图进行m次特征重构处理,以得到所述当前帧的重构图像,其中,处理后的视频包括所述当前帧的重构图像;所述m个当前帧的预测特征图为根据所述m个特征域光流和所述m个不同尺度的参考帧特征图分别进行特征对齐处理得到的。18.根据权利要求17所述的终端设备,其特征在于,所述光流估计单元具体用于:在进行第i次特征域光流估计时,根据图像域光流特征图进行光流估计,以得到图像域光流特征图所述i为大于0且不大于m的整数,当i=1时,图像域光流特征为所述当前帧和参考帧之间的图像域光流;根据所述参考帧特征图所述图像域光流特征图和所述当前帧的预测特征图进行自适应处理,以得到特征域光流特征图其中,所述参考帧特征图是对参考帧特征图进行特征提取得到的;所述参考帧特征图和所述参考帧特征图分别为所述m个参考帧特征图中的两个;当i=m时,所述当前帧的预测特征为常数;其中,所述m个特征域光流包括特征域光流特征图所述当前帧的预测特征是对所述参考帧特征图和特征域光流特征进行特征对齐处理得到的。19.一种编码器,其特征在于,包括处理电路,用于执行如权利要求1-9任一项所述的方法。20.一种计算机程序产品,其特征在于,包括程序代码,当其在计算机或处理器上执行时,用于执行如权利要求1-9任一项所述的方法。21.一种电子设备,其特征在于,包括:一个或多个处理器;
非瞬时性计算机可读存储介质,耦合到所述处理器,存储有所述处理器执行的程序,其中,所述程序在由所述处理器执行时,使得所述电子设备执行如权利要求1-9任一项所述的方法。22.一种非瞬时性计算机可读存储介质,其特征在于,包括程序代码,当其由计算机设备执行时,用于执行基于权利要求1-9任一项所述的方法。
技术总结
本申请提供了特征域光流确定方法及相关设备。涉及基于人工智能(AI)的视频或图像压缩技术领域,具体涉及获取当前帧和参考帧之间的图像域光流;对参考帧进行多尺度特征提取,以得到M个参考帧特征图;M为大于或等于1的整数;根据M个参考帧特征图及当前帧和参考帧之间的图像域光流进行M次特征域光流估计,以得到M个特征域光流。采用本申请的方案得到的特征域光流更加准确,更加稳定,从而可以提高帧间预测的准确性。的准确性。的准确性。
技术研发人员:葛运英 王晶 师一博
受保护的技术使用者:华为技术有限公司
技术研发日:2022.03.04
技术公布日:2023/9/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:多功能壁材的制作方法 下一篇:一种微分方程的求解方法、装置、介质及电子装置与流程