视频重建模型的训练方法、视频重建方法、装置及设备与流程

未命名 09-18 阅读:89 评论:0


1.本技术实施例涉及计算机视觉技术领域,特别涉及一种视频重建模型的训练方法、视频重建方法、装置及设备。


背景技术:

2.随着计算机视觉技术的发展,医学影像、影视制作等领域对视频分辨率的要求越来越高。通常情况下,由于视频采集设备、视频制作设备等的限制,使得视频分辨率较低,导致画面不够清晰真实。这种情况下,可以对分辨率较低的视频进行重建,得到分辨率较高的视频,而如何对视频进行重建成为一个亟需解决的问题。


技术实现要素:

3.本技术提供了一种视频重建模型的训练方法、视频重建方法、装置及设备,可以训练得到准确性较高的视频重建模型,提高重建视频的质量,所述技术方案包括如下内容。
4.第一方面,提供了一种视频重建模型的训练方法,所述方法包括:获取内容相同的第一视频和第二视频,所述第二视频的分辨率高于所述第一视频;对于所述第一视频中的任一帧第一图像,通过神经网络模型对所述任一帧第一图像进行加噪处理,得到预测噪声信息,对所述预测噪声信息进行去噪处理,得到所述任一帧第一图像对应的重建图像,所述任一帧第一图像对应的重建图像与所述第二视频中所述任一帧第一图像对应的第二图像的分辨率相同;基于各帧第一图像对应的第二图像和重建图像,对所述神经网络模型进行训练,得到视频重建模型,所述视频重建模型用于对待重建视频进行重建得到目标视频,所述目标视频的分辨率高于所述待重建视频的分辨率。
5.第二方面,提供了一种视频重建方法,所述方法包括:获取待重建视频;通过视频重建模型对所述待重建视频进行加噪处理,得到参考噪声信息,对所述参考噪声信息进行去噪处理,得到目标视频;其中,所述视频重建模型是按照第一方面所述的方法训练得到的,所述目标视频和所述待重建视频的内容相同,所述目标视频的分辨率高于所述待重建视频。
6.第三方面,提供了一种视频重建模型的训练装置,所述装置包括:获取模块,用于获取内容相同的第一视频和第二视频,所述第二视频的分辨率高于所述第一视频;加噪去噪模块,用于对于所述第一视频中的任一帧第一图像,通过神经网络模型对所述任一帧第一图像进行加噪处理,得到预测噪声信息,对所述预测噪声信息进行去噪处理,得到所述任一帧第一图像对应的重建图像,所述任一帧第一图像对应的重建图像与所述第二视频中所述任一帧第一图像对应的第二图像的分辨率相同;训练模块,用于基于各帧第一图像对应的第二图像和重建图像,对所述神经网络模型进行训练,得到视频重建模型,所述视频重建模型用于对待重建视频进行重建得到目标视频,所述目标视频的分辨率高于所述待重建视频的分辨率。
7.在一种可能的实现方式中,所述加噪去噪模块,用于通过神经网络模型从所述第
一视频中确定所述任一帧第一图像的参考图像;通过所述神经网络模型根据所述参考图像和所述任一帧第一图像,确定所述任一帧第一图像的图像特征;通过所述神经网络模型对所述任一帧第一图像的图像特征进行加噪处理,得到预测噪声信息。
8.在一种可能的实现方式中,所述加噪去噪模块,用于通过所述神经网络模型基于所述参考图像和所述任一帧第一图像,确定图像变化特征,所述图像变化特征用于表征将所述参考图像变成所述任一帧第一图像所进行的变化;通过所述神经网络模型对所述参考图像进行特征提取,得到所述参考图像的图像特征;通过所述神经网络模型基于所述参考图像的图像特征和所述图像变化特征,确定所述任一帧第一图像的图像特征。
9.在一种可能的实现方式中,所述加噪去噪模块,用于通过所述神经网络模型对所述任一帧第一图像进行特征提取,得到所述任一帧第一图像的第一特征;通过所述神经网络模型基于所述图像变化特征对所述参考图像的图像特征进行变化处理,得到所述任一帧第一图像的第二特征;通过所述神经网络模型对所述任一帧第一图像的第一特征和第二特征进行融合,得到所述任一帧第一图像的图像特征。
10.在一种可能的实现方式中,所述加噪处理的次数为多次;所述加噪去噪模块,用于通过神经网络模型确定所述任一帧第一图像的图像特征;通过所述神经网络模型对所述任一帧第一图像的图像特征进行第一次加噪处理,得到所述任一帧第一图像在第一次加噪处理后得到的特征;对于除所述第一次加噪处理之外的任一次加噪处理,通过所述神经网络模型对所述任一帧第一图像在所述任一次加噪处理的上一次加噪处理后得到的特征进行所述任一次加噪处理,得到所述任一帧第一图像在所述任一次加噪处理后得到的特征,所述任一帧第一图像在最后一次加噪处理后得到的特征为所述预测噪声信息。
11.在一种可能的实现方式中,所述去噪处理的次数为多次;所述加噪去噪模块,用于通过所述神经网络模型对所述预测噪声信息进行第一次去噪处理,得到所述任一帧第一图像在第一次去噪处理后得到的特征;对于除所述第一次去噪处理之外的任一次去噪处理,通过所述神经网络模型对所述任一帧第一图像在所述任一次去噪处理的上一次去噪处理后得到的特征进行所述任一次去噪处理,得到所述任一帧第一图像在所述任一次去噪处理后得到的特征;通过所述神经网络模型基于所述任一帧第一图像在最后一次去噪处理后得到的特征,确定所述任一帧第一图像对应的重建图像。
12.在一种可能的实现方式中,所述加噪去噪模块,用于获取所述任一帧第一图像的描述信息;基于所述任一帧第一图像的描述信息,对所述预测噪声信息进行去噪处理,得到所述任一帧第一图像对应的重建图像。
13.在一种可能的实现方式中,所述训练模块,用于对于任一帧第一图像,基于所述任一帧第一图像对应的第二图像和重建图像之间的误差,确定所述任一帧第一图像对应的图像损失;基于各帧第一图像对应的图像损失,对所述神经网络模型进行训练,得到视频重建模型。
14.在一种可能的实现方式中,所述训练模块,用于获取各帧第一图像的标注加噪数据,任一帧第一图像的标注加噪数据表征将所述任一帧第一图像加噪成标注噪声信息的过程中添加的噪声;获取各帧第二图像的标注去噪数据,任一帧第二图像的标注去噪数据表征将所述标注噪声信息去噪成所述任一帧第二图像的过程中去除的噪声;对于所述任一帧第一图像,获取在通过神经网络模型对所述任一帧第一图像进行加噪处理得到预测噪声信
息的过程中添加的预测加噪数据,并获取在通过所述神经网络模型对所述预测噪声信息进行去噪处理得到重建图像的过程中去除的预测去噪数据;基于所述各帧第二图像的标注去噪数据、所述各帧第一图像的标注加噪数据、预测加噪数据和预测去噪数据,确定第一损失;基于所述第一损失、所述各帧第一图像对应的第二图像和重建图像,对所述神经网络模型进行训练,得到视频重建模型。
15.在一种可能的实现方式中,所述训练模块,用于基于所述各帧第二图像的标注去噪数据和所述各帧第一图像对应的预测去噪数据,确定去噪数据损失;基于所述各帧第一图像的标注加噪数据和所述各帧第一图像对应的预测加噪数据,确定加噪数据损失;基于所述去噪数据损失和所述加噪数据损失,确定所述第一损失。
16.第四方面,提供了一种视频重建装置,所述装置包括:获取模块,用于获取待重建视频;加噪去噪模块,用于通过视频重建模型对所述待重建视频进行加噪处理,得到参考噪声信息,对所述参考噪声信息进行去噪处理,得到目标视频;其中,所述视频重建模型是按照第一方面所述的方法训练得到的,所述目标视频和所述待重建视频的内容相同,所述目标视频的分辨率高于所述待重建视频。
17.在一种可能的实现方式中,所述加噪去噪模块,用于对于所述待重建视频中的任一帧待重建图像,通过视频重建模型从所述待重建视频中确定所述任一帧待重建图像的基准图像;通过所述视频重建模型根据所述基准图像和所述任一帧待重建图像,确定所述任一帧待重建图像的图像特征;通过所述视频重建模型对所述任一帧待重建图像的图像特征进行加噪处理,得到参考噪声信息。
18.在一种可能的实现方式中,所述加噪去噪模块,用于对于所述待重建视频中的任一帧待重建图像,获取所述任一帧待重建图像的描述信息;基于所述任一帧待重建图像的描述信息,对所述参考噪声信息进行去噪处理,得到所述任一帧待重建图像对应的目标图像。
19.第五方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述电子设备实现上述第一方面所述的视频重建模型的训练方法或者实现上述第二方面所述的视频重建方法。
20.第六方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使电子设备实现上述第一方面所述的视频重建模型的训练方法或者实现上述第二方面所述的视频重建方法。
21.第七方面,还提供了一种计算机程序,所述计算机程序为至少一条,至少一条计算机程序由处理器加载并执行,以使电子设备实现上述第一方面所述的视频重建模型的训练方法或者实现上述第二方面所述的视频重建方法。
22.第八方面,还提供了一种计算机程序产品,所述计算机程序产品中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使电子设备实现上述第一方面所述的视频重建模型的训练方法或者实现上述第二方面所述的视频重建方法。
23.本技术提供的技术方案至少带来如下有益效果。
24.本技术提供的技术方案中,通过神经网络模型对第一视频中的各帧第一图像进行
加噪处理得到预测噪声信息,并对预测噪声信息进行去噪处理得到各帧第一图像对应的重建图像,实现了对分辨率较低的第一视频进行重建得到分辨率较高的视频。由于是通过对预测噪声信息进行去噪处理得到的重建图像,因此,重建图像不受第一图像的类型、尺寸、分辨率等的影响,通过去噪处理保留了图像中的细节信息,使得重建图像的清晰度较高。在此基础上,通过第二视频和各帧重建图像对神经网络模型进行训练,可以使神经网络模型朝着使重建视频趋近于第二视频的方向进行优化,提高神经网络模型的准确性、通用性和稳定性,使得训练得到的视频重建模型可以重建出分辨率较高的视频,且该视频的清晰度和质量较高。
附图说明
25.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
26.图1是本技术实施例提供的一种视频重建模型的训练方法或者视频重建方法的实施环境示意图。
27.图2是本技术实施例提供的一种视频重建模型的训练方法的流程图。
28.图3是本技术实施例提供的一种u网络结构的示意图。
29.图4是本技术实施例提供的一种图像特征的处理示意图。
30.图5是本技术实施例提供的一种加噪处理和去噪处理的示意图。
31.图6是本技术实施例提供的一种对图像特征进行加噪和去噪的示意图。
32.图7是本技术实施例提供的一种视频重建方法的流程图。
33.图8是本技术实施例提供的一种图像重建流程的示意图。
34.图9是本技术实施例提供的一种视频重建模型的训练装置的结构示意图。
35.图10是本技术实施例提供的一种视频重建装置的结构示意图。
36.图11是本技术实施例提供的一种终端设备的结构示意图。
37.图12是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
38.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
39.图1是本技术实施例提供的一种视频重建模型的训练方法或者视频重建方法的实施环境示意图,如图1所示,该实施环境包括终端设备101和服务器102。其中,本技术实施例中的视频重建模型的训练方法或者视频重建方法可以由终端设备101执行,也可以由服务器102执行,或者由终端设备101和服务器102共同执行。
40.终端设备101可以是智能手机、游戏主机、台式计算机、平板电脑、膝上型便携计算机、智能电视、智能车载设备、智能语音交互设备、智能家电等。服务器102可以为一台服务器,或者为多台服务器组成的服务器集群,或者为云计算平台和虚拟化中心中的任意一种,本技术实施例对此不加以限定。服务器102可以与终端设备101通过有线网络或无线网络进
行通信连接。服务器102可以具有数据处理、数据存储以及数据收发等功能,在本技术实施例中不加以限定。终端设备101和服务器102的数量不受限制,可以是一个或多个。
41.本技术各可选实施例适用于人工智能(artificial intelligence,ai)技术领域。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
42.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
43.随着计算机视觉技术的发展,医学影像、影视制作等领域对视频分辨率的要求越来越高。通常情况下,由于视频采集设备、视频制作设备等的限制,使得视频分辨率较低,导致画面不够清晰真实。这种情况下,可以对分辨率较低的视频进行重建,得到分辨率较高的视频,而如何对视频进行重建成为一个亟需解决的问题。
44.本技术实施例提供了一种视频重建模型的训练方法,该方法可应用于上述实施环境中,可以训练得到准确性较高的视频重建模型,提高重建视频的质量。以图2所示的本技术实施例提供的一种视频重建模型的训练方法的流程图为例,为便于描述,将执行本技术实施例中的视频重建模型的训练方法的终端设备101或者服务器102称为电子设备,该方法可以由电子设备来执行。如图2所示,该方法包括如下步骤。
45.步骤201,获取内容相同的第一视频和第二视频,第二视频的分辨率高于第一视频。
46.本技术实施例中,电子设备可以获取第一视频和第二视频,第一视频的内容和第二视频的内容相同,但第一视频的分辨率小于第二视频的分辨率。为了便于描述,将第一视频的分辨率称为第一分辨率,将第二视频的分辨率称为第二分辨率。
47.本技术实施例不对第一视频和第二视频的获取方式做限定。示例性地,可以采用第一分辨率的视频采集设备对被摄物体进行拍摄得到第一视频,并使用第二分辨率的视频采集设备替换第一分辨率的视频采集设备,采用第二分辨率的视频采集设备对被摄物体进行拍摄得到第二视频。由于是对同一个被摄物体进行拍摄,因此,第一视频的内容和第二视频的内容相同,第一视频的分辨率是拍摄得到第一视频的视频采集设备的分辨率即第一分辨率,第二视频的分辨率是拍摄得到第二视频的视频采集设备的分辨率即第二分辨率。或者,采用第二分辨率的视频采集设备对被摄物体进行拍摄得到第二视频,通过对第二视频进行压缩,以降低第二视频的分辨率,得到第一视频。由于第一视频是对第二视频进行压缩得到的,因此,第一视频的内容和第二视频的内容相同,且第一视频的分辨率低于第二视频的分辨率。
48.第一视频包括多帧第一图像,第二视频包括多帧第二图像。由于第一视频的内容
和第二视频的内容相同,因此,对于第一视频中的任一帧第一图像,在第二视频中存在与该第一图像的内容相同且分辨率高于该第一图像的第二图像,将该第二图像称为该第一图像对应的第二图像。
49.可以理解的是,任两帧第一图像可以相同,也可以不同。例如,第一视频包括10帧第一图像,第1帧第一图像和第10帧第一图像相同,第2至9帧中的任两帧第一图像不同,且第1帧第一图像和第2至9帧中的任一帧第一图像不同。第一视频中任一帧第一图像的分辨率为第一分辨率,第二视频中任一帧第二图像的分辨率为第二分辨率。图像的分辨率可以指示图像在长度上的像素点数量和图像在宽度上的像素点数量,例如,图像的分辨率为1600
×
1200=1920000≈200万,表征图像在长度上有1600个像素点,图像在宽度上有1200个像素点,近似地,该图像的分辨率为200万像素。
50.步骤202,对于第一视频中的任一帧第一图像,通过神经网络模型对任一帧第一图像进行加噪处理,得到预测噪声信息,对预测噪声信息进行去噪处理,得到任一帧第一图像对应的重建图像,任一帧第一图像对应的重建图像与第二视频中任一帧第一图像对应的第二图像的分辨率相同。
51.本技术实施例中,电子设备可以获取神经网络模型。本技术实施例不对神经网络模型的结构、大小、参数等做限定,示例性地,神经网络模型包括加噪网络和去噪网络,去噪网络串联在加噪网络之后。或者,神经网络模型包括编码器、加噪网络、去噪网络和解码器,编码器的数量为至少一个,可以理解的是,编码器的数量不同,神经网络模型的结构也存在差异。可选地,编码器为一个时,可以将该编码器串联在加噪网络之前;编码器为两个时,可以将一个编码器串联在加噪网络之前,将另一个编码器串联在去噪网络之前。此外,解码器串联在去噪网络之后。
52.需要说明的是,上述提及的编码器、加噪网络、去噪网络和解码器等模块的结构、功能等,在下文有对应描述,在此暂不赘述。
53.本技术实施例中,通过加噪网络对任一帧第一图像进行加噪处理,得到预测噪声信息。通过去噪网络对预测噪声信息进行去噪处理,得到任一帧第一图像对应的重建图像。下面依次介绍加噪处理的过程和去噪处理的过程。
54.首先,介绍通过加噪网络对任一帧第一图像进行加噪处理的过程。
55.本技术实施例不对加噪网络的结构、大小、参数等做限定。示例性地,加噪网络包括多个串联的第一网络块,一个第一网络块包括卷积层、反卷积层、注意力层、池化层、归一化层、激活层等至少一种网络层。
56.可选地,一个第一网络块为u网络(u-net)结构。请参见图3,图3是本技术实施例提供的一种u网络结构的示意图,u网络结构包括下采样部分和串联在下采样部分之后的上采样部分。
57.下采样部分包括多个串联的注意力层。u网络结构的输入是下采样部分的输入,也是下采样部分中第一个注意力层的输入。下采样部分中除第一个注意力层之外的任一个注意力层的输入包括下采样部分中该注意力层的上一个注意力层的输出。简单来说,下采样部分包括m(m为正整数)个串联的注意力层,下采样部分中第m(m是大于1且小于或等于m中的任意正整数)个注意力层的输入包括下采样部分中第m-1个注意力层的输出。下采样部分的输出包括下采样部分中各个注意力层的输出。下采样部分中任一个注意力层用于基于注
意力机制对该注意力层的输入进行下采样处理,注意力层的输入是特征,通过下采样处理,降低特征维度,使特征专注于表达有效信息,从而提高特征的表达能力。
58.上采样部分包括多个串联的注意力层,且上采样部分包括的注意力层的数量和下采样部分包括的注意力层的数量相同。上采样部分的输入包括下采样部分的输出。上采样部分中第一个注意力层的输入包括下采样部分中最后一个注意力层的输出。上采样部分中除第一个注意力层之外的任一个注意力层的输入包括上采样部分中该注意力层的上一个注意力层的输出和下采样部分中对应注意力层的输出。简单来说,上采样部分和下采样部分均包括m(m为正整数)个串联的注意力层,上采样部分中第m(m是大于1且小于或等于m中的任意正整数)个注意力层的输入包括上采样部分中第m-1个注意力层的输出和下采样部分中第m+1-m个注意力层的输出。上采样部分的输出是u网络结构的输出,包括上采样部分中最后一个注意力层的输出。上采样部分中任一个注意力层用于基于注意力机制对该注意力层的输入进行上采样处理,注意力层的输入是特征,通过上采样处理,增加特征维度,放大特征的有效信息,从而提高特征的表达能力。
59.可以理解的是,上述u网络结构仅为示意性地,可以根据应用场景进行灵活调整。例如,可以将下采样部分的注意力层替换为卷积层,将上采样部分中的注意力层替换为反卷积层。或者,可以将下采样部分中的注意力层和上采样部分中的注意力层替换为自注意力层、多头注意力层、空洞卷积层等。
60.本技术实施例中,可以通过加噪网络对任一帧第一图像进行加噪处理,得到预测噪声信息。可以理解的是,加噪网络的结构不同,加噪处理的方式也存在差异。
61.例如,加噪网络包括特征映射网络和串联在特征映射网络之后的第一网络块。特征映射网络包括池化层、卷积层、激活层、全连接层等至少一种网络层,可以通过特征映射网络对任一帧第一图像进行特征提取,得到该帧第一图像的图像特征。第一网络块可以确定加噪数据,通过对加噪数据和第一图像的图像特征进行卷积处理,实现对第一图像进行加噪处理,得到预测噪声信息。
62.又如,加噪网络之前串联有编码器,可以按照下文提及的步骤a1至步骤a2的实现方式,通过编码器确定任一帧第一图像的图像特征。之后,按照下文提及的步骤b2至b3的实现方式,通过加噪网络对第一图像的图像特征进行加噪处理,得到预测噪声信息。其中,步骤a1至步骤a2的实现方式、步骤b2至b3的实现方式在下文有对应描述,在此暂不赘述。
63.在可能的实现方式a中,步骤202中“通过神经网络模型对任一帧第一图像进行加噪处理,得到预测噪声信息”,包括步骤a1至步骤a3(图中未示出)。为了便于描述,下面以任一帧第一图像是第i帧第一图像为例,阐述各步骤的实现方式。
64.步骤a1,通过神经网络模型从第一视频中确定任一帧第一图像的参考图像。
65.本技术实施例中,可以通过神经网络模型从第一视频中确定除第i帧第一图像之外的至少一帧第一图像,将确定出的各帧第一图像作为第i帧第一图像的各帧参考图像。
66.本技术实施例不对第i帧第一图像的任一帧参考图像做限定。示例性地,可以将第一视频中指定帧第一图像(例如第一帧第一图像、最后一帧第一图像等)作为第i帧第一图像的参考图像。或者,可以将第一视频中与第i帧第一图像相邻的至少一帧第一图像(例如,第i-3至第i-1帧第一图像,和/或,第i+1至第i+3帧第一图像)作为第i帧第一图像的参考图像。
67.步骤a2,通过神经网络模型根据参考图像和任一帧第一图像,确定任一帧第一图像的图像特征。
68.本技术实施例中,神经网络模型包括串联在加噪网络之前的编码器。其中,编码器的结构、大小、参数等在本技术实施例不做限定,示例性地,编码器可以为自动编码器(auto-encoder,ae)或者变分自动编码器(variational auto-encoder,vae)等。可以通过编码器根据第i帧第一图像的各个参考图像,对第i帧第一图像进行编码处理,得到第i帧第一图像的图像特征。
69.可以理解的是,编码器的结构不同,编码器对第一图像进行编码处理的方式也存在差异,本技术实施例不对编码处理的方式做限定。
70.示例性地,编码器包括特征映射网络。一方面,通过特征映射网络将各个参考图像映射为对应的特征,得到各个参考图像的图像特征,该过程可以见下文有关步骤a22的描述,在此不再赘述。另一方面,通过特征映射网络将第i帧第一图像映射为对应的特征,得到第i帧第一图像的第一特征,该过程可以见下文有关步骤a23的描述,在此不再赘述。接着,对各个参考图像的图像特征和第i帧第一图像的第一特征进行加权计算,得到第i帧第一图像的图像特征。可选地,第i帧第一图像的第一特征的权重大于各个参考图像的图像特征的权重之和,通过这种方式,保证第i帧第一图像的图像特征侧重于描述第i帧第一图像。
71.或者,通过编码器基于注意力机制对各个参考图像的图像特征进行特征提取,通过特征提取,使得提取出的特征侧重于描述各个参考图像共有的信息,而各个参考图像共有的信息可以反映第一视频的主题内容。之后,通过编码器将提取出的特征和第i帧第一图像的第一特征进行融合,得到第i帧第一图像的图像特征,使得第i帧第一图像的图像特征可以表征第一视频的主题内容和第i帧第一图像的图像内容,提高特征表征能力。
72.或者,可以按照下文所示的步骤a21至步骤a23,确定第i帧第一图像的图像特征,在此暂不赘述。
73.一般情况下,第一视频中各帧第一图像之间存在关联关系。比如,对被摄物体进行拍摄得到第一视频,则第一视频中各帧第一图像的内容均是被摄物体。又如,第一视频是跳舞视频,则可以通过连续的多帧第一图像来反映肢体运动。根据第i帧第一图像的各个参考图像,对第i帧第一图像进行编码处理,不仅使第i帧第一图像的图像特征能够反映出第i帧第一图像的图像内容,还可以使第i帧第一图像的图像特征反映出各个参考图像和第i帧第一图像之间的关联关系,提高第i帧第一图像的图像特征的表征能力,在后续基于第i帧第一图像的图像特征重构得到第i帧第一图像对应的高分辨率图像时,可以使高分辨率图像更清晰真实,使得高分辨率图像的质量较高。
74.可选地,步骤a2包括步骤a21至步骤a23(图中未示出)。
75.步骤a21,通过神经网络模型基于参考图像和任一帧第一图像,确定图像变化特征,图像变化特征用于表征将参考图像变成任一帧第一图像所进行的变化。
76.本技术实施例中,编码器包括第一编码网络,第一编码网络可以包括卷积层、前馈层、归一化层等网络层。对于任一帧第一图像和该第一图像的任一个参考图像,可以通过第一编码网络先将该第一图像映射为第一图像的特征,将参考图像映射为参考图像对应的特征,接着,对该第一图像的特征和该参考图像的特征进行光流计算,得到第一图像和参考图像之间的光流场。光流是三维空间中的运动物体在成像平面上的像素运动的瞬时速度,用
于描述视频中像素的移动情况。光流可以提供两帧之间的像素位移向量,从而定量描述视频中物体的运动和变化,而光流场用于描述光流的变化信息。
77.简单来说,参考图像中存在被摄物体的任一点对应的像素点,第一图像中也存在被摄物体的这一点对应的像素点,由于这两个像素点对应被摄物体的同一点,因此,这两个像素点对应。第一图像和参考图像之间的光流场用于描述参考图像上各个像素点运动至第一图像上对应像素点的瞬时速度的变化信息,也就是说,该光流场可以描述将参考图像变成第一图像所需要进行的变化。第一图像和参考图像之间的光流场为图像变化特征。
78.本技术实施例不对光流计算的方式做限定。示例性地,第一编码网络可以基于第一图像的特征和参考图像的特征确定堆叠特征,通过堆叠特征表征将第一图像堆叠在参考图像之上形成的三维图像,通过对堆叠特征进行卷积处理,得到第一图像和参考图像之间的光流场。或者,第一编码器可以基于第一图像的特征确定第一图像中各个像素点的特征,基于参考图像的特征确定参考图像中各个像素点的特征。计算第一图像中任一个像素点的特征和参考图像中任一个像素点的特征之间的相似度,如果相似度大于阈值,基于这两个像素点的特征确定这两个像素点之间的光流场。按照这种方式,确定第一图像中的多个像素点和参考图像中的多个像素点之间的光流场,得到第一图像和参考图像之间的光流场。
79.步骤a22,通过神经网络模型对参考图像进行特征提取,得到参考图像的图像特征。
80.本技术实施例中,编码器还包括第二编码网络。本技术实施例不对第二编码网络的结构、大小、参数等做限定,示例性地,第二编码网络可以为特征映射网络,通过特征映射网络将任一个参考图像映射为参考图像的图像特征。或者,第二编码网络可以为自编码器或者变分自编码器等,自编码器或者变分自编码器可以包括卷积层,通过第二编码网络对参考图像进行卷积处理,得到参考图像的图像特征。其中,参考图像的图像特征可以描述参考图像的纹理、颜色、内容、风格等信息。
81.步骤a23,通过神经网络模型基于参考图像的图像特征和图像变化特征,确定任一帧第一图像的图像特征。
82.本技术实施例中,参考图像的图像特征用于描述参考图像,而图像变化特征用于描述将参考图像变成任一帧第一图像所进行的变化。因此,通过编码器对图像变化特征和参考图像的图像特征进行处理,可以实现根据图像变化特征对参考图像的图像特征进行变化处理,得到变化处理后的特征,并基于变化处理后的特征确定第一图像的图像特征。
83.可选地,可以将变化处理后的特征作为第一图像的图像特征。或者,步骤a23包括:通过神经网络模型对任一帧第一图像进行特征提取,得到任一帧第一图像的第一特征;通过神经网络模型基于图像变化特征对参考图像的图像特征进行变化处理,得到任一帧第一图像的第二特征。通过神经网络模型对任一帧第一图像的第一特征和任一帧第一图像的第二特征进行融合,得到任一帧第一图像的图像特征。
84.本技术实施例中,一方面,可以按照步骤a22的实现原理,对任一帧第一图像进行特征提取,得到任一帧第一图像的第一特征,在此不再赘述。另一方面,通过编码器对图像变化特征和参考图像的图像特征进行处理,实现根据图像变化特征对参考图像的图像特征进行变化处理,得到变化处理后的特征。之后,将第一图像的第一特征和第一图像的第二特征进行叉乘计算、加权求和计算、加权求平均计算等任一种计算,得到的计算结果作为第一
图像的图像特征。通过这种方式,提高了图像特征的表征能力。
85.可以理解的是,第一图像对应至少一帧参考图像。对于任一帧参考图像,可以根据第一图像和该帧参考图像之间的图像变化特征,对该帧参考图像的图像特征进行变化处理,得到变化处理后的特征。将第一图像的第一特征和各帧参考图像对应的变化处理后的特征进行融合,得到第一图像的图像特征。
86.请参见图4,图4是本技术实施例提供的一种图像特征的处理示意图。本技术实施例中,一方面,通过第一编码网络对第一图像进行特征提取,得到第一图像的第一特征。另一方面,通过第一编码网络基于第一图像和参考图像,确定图像变化特征。再一方面,通过第二编码网络对参考图像进行特征提取,得到参考图像的图像特征。接着,基于图像变化特征对参考图像的图像特征进行扭曲(warp)变化,得到第一图像的第二特征。之后,将第一图像的第一特征和第一图像的第二特征进行叉乘计算,得到第一图像的图像特征。
87.其中,第一图像的图像特征用于描述第一图像的纹理、颜色、内容、风格等信息。可以通过解码网络对第一图像的图像特征进行解码处理,还原出第一图像。
88.通过计算第一图像与参考图像之间的光流场,实现了确定将参考图像变成第一图像所需要进行的变化,从而实现对以参考图像为起始帧、以第一图像为结束帧的视频段进行运动补偿,相当于对参考图像和第一图像进行分析和编辑,生成视频段,提高了该视频段的稳定性,降低该视频段的抖动现象。基于光流场确定第一图像的图像特征,使得第一图像的图像特征可以描述视频段的信息,提高第一图像的图像特征的表征能力。在后续基于第一图像的图像特征确定第一图像对应的高分辨率图像时,可以使高分辨率图像含有视频段的信息,从而增强了高分辨率视频的稳定性,降低高分辨率视频的抖动现象,使得高分辨率视频能够更平滑的播放。即,高分辨率视频的质量较高,且动态播放效果好。
89.步骤a3,通过神经网络模型对任一帧第一图像的图像特征进行加噪处理,得到预测噪声信息。
90.本技术实施例中,步骤a3的实现方式,可以见下文有关步骤b2至步骤b3的描述,在此暂不赘述。通过编码器确定任一帧第一图像的图像特征,并通过加噪网络对该帧第一图像的图像特征进行多次加噪处理,得到预测噪声信息。这种先提取图像特征再进行加噪处理的方式,可以实现通过编码器将不同尺寸的图像编码成相同维度的图像特征,使得神经网络模型不受图像尺寸的限制,扩大了应用场景。
91.在可能的实现方式b中,加噪处理的次数为多次。步骤202中“通过神经网络模型对任一帧第一图像进行加噪处理,得到预测噪声信息”,包括步骤b1至步骤b3(图中未示出)。为便于描述,下面以任一帧第一图像为第i帧第一图像为例介绍各步骤的实现方式。
92.步骤b1,通过神经网络模型确定任一帧第一图像的图像特征。
93.本技术实施例中,步骤b1的实现方式可以见上文有关步骤a1至步骤a2的描述,在此不再赘述。
94.步骤b2,通过神经网络模型对任一帧第一图像的图像特征进行第一次加噪处理,得到任一帧第一图像在第一次加噪处理后得到的特征。
95.本技术实施例中,加噪网络包括多个第一网络块,加噪网络的输入包括第i帧第一图像的图像特征。可以将第i帧第一图像的图像特征输入第一个第一网络块,通过第一个第一网络块对第i帧第一图像的图像特征进行第一次加噪处理,得到第i帧第一图像在第一次
加噪处理后得到的特征。
96.步骤b3,对于除第一次加噪处理之外的任一次加噪处理,通过神经网络模型对任一帧第一图像在任一次加噪处理的上一次加噪处理后得到的特征进行任一次加噪处理,得到任一帧第一图像在任一次加噪处理后得到的特征,任一帧第一图像在最后一次加噪处理后得到的特征为预测噪声信息。
97.本技术实施例中,通过第二个第一网络块对第i帧第一图像在第一次加噪处理后得到的特征进行第二次加噪处理,得到第i帧第一图像在第二次加噪处理后得到的特征。之后,通过第三个第一网络块对第i帧第一图像在第二次加噪处理后得到的特征进行第三次加噪处理,得到第i帧第一图像在第三次加噪处理后得到的特征。以此类推,直至得到第i帧第一图像在最后一次加噪处理后得到的特征,第i帧第一图像在最后一次加噪处理后得到的特征为预测噪声信息。
98.步骤b2至步骤b3所示的加噪处理的过程如图5所示。可以将第一图像的图像特征记为x0,通过对x0依次进行t次加噪处理,得到特征x1至x
t
。其中,x
t
表征第一图像在第t次加噪处理后得到的特征。x
t
表征预测噪声信息,该预测噪声信息是一个用于表征高斯噪声或椒盐噪声或泊松噪声等任意噪声的噪声特征。
99.可选地,加噪网络包括m(m为正整数)个串联的第一网络块,第i(i为正整数)帧第一图像的图像特征可以称为第i帧第一图像在第0次加噪处理后得到的特征。对于第m(m是大于或等于1且小于或等于m的正整数)个第一网络块,第m个第一网络块的输入为第i帧第一图像在第m-1次加噪处理后得到的特征,通过第m个第一网络块对第i帧第一图像在第m-1次加噪处理后得到的特征进行第m次加噪处理,得到第i帧第一图像在第m次加噪处理后得到的特征。其中,第i帧第一图像在第m次加噪处理后得到的特征为预测噪声信息。
100.可选地,通过加噪网络对第一图像的图像特征进行多次加噪处理的过程,可以表示为如下所示的公式(1)。
101.ꢀꢀꢀꢀꢀꢀꢀ
公式(1)。
102.其中,表征第一图像在第0次加噪处理后得到的特征,即表征第一图像的图像特征,表征第一图像在第t次加噪处理后得到的特征,表征第一图像在第t-1次加噪处理后得到的特征,表征第一图像在第1次至第t次加噪处理后得到的特征。表征加噪处理函数的函数符号,x为变量。表征累乘符号。
103.表征对第一图像的图像特征进行t次加噪处理后,依次得到第一图像在第1次至第t次加噪处理后得到的特征。表征对第一图像在第t-1次加噪处理后得到的特征进行第t次加噪处理后,得到第一图像在第t次加噪处理后得到的特征。
104.可选地,第一图像在第t次加噪处理后得到的特征满足如下所示的公式(2)。
105.ꢀꢀꢀꢀꢀ
公式(2)。
106.其中,表征正态分布函数的函数符号。一般情况下,正态分布函数为(0,),i为正态分布函数的参数。是固定的方差参数,是第t个方差参数。可选地,第t个方差参数满足:。在本技术实施例中,公式(2)表征第一图像在第t次加噪处理后得到的特征符合正态分布函数。
107.可以理解的是,不同次数的加噪处理对应的方差参数不同,可以通过方差参数控制在该次加噪处理的过程中向特征中添加噪声的幅度。
108.在示例性实施例中,不同的第一网络块对应的加噪处理的次数不同。因此,可以将任一次加噪处理的次数和任一帧第一图像在任一次加噪处理的上一次加噪处理后得到的特征进行拼接,得到拼接信息,通过任一次加噪处理对应的第一网络块对该拼接信息进行任一次加噪处理,得到任一帧第一图像在任一次加噪处理后得到的特征。
109.也就是说,将加噪处理的次数m和第i帧第一图像在第m-1次加噪处理后得到的特征进行拼接,得到拼接信息,通过第m个第一网络块对拼接信息进行第m次加噪处理,得到第i帧第一图像在第m次加噪处理后得到的特征。
110.通过步骤b1至步骤b3的方式,可以确定出预测噪声信息。之后通过去噪网络对预测噪声信息进行去噪处理,得到第一图像对应的重建图像。
111.接下来,介绍通过去噪网络对预测噪声信息进行去噪处理的内容。
112.本技术实施例不对去噪网络的结构、大小、参数等做限定,示例性地,去噪网络包括多个串联的第二网络块,一个第二网络块包括卷积层、反卷积层、注意力层、池化层、归一化层、激活层等至少一种网络层。可选地,一个第二网络块为u网络结构,u网络结构如图3所示,在此不再赘述。
113.本技术实施例中,可以通过去噪网络对预测噪声信息进行去噪处理,得到任一帧第一图像对应的重建图像。可以理解的是,去噪网络的结构不同,去噪处理的方式也存在差异。
114.例如,去噪网络包括第二网络块和串联在第二网络块之后的特征映射网络。第二网络块可以确定去噪数据,通过对去噪数据和预测噪声信息进行卷积处理,实现对预测噪声信息进行去噪处理,得到重建图像的图像特征。通过特征映射网络将重建图像的图像特征映射为重建图像。
115.又如,去噪网络之前串联有编码器,去噪网络之后串联有解码器,可以按照下文提及的步骤c1至步骤c2的实现方式,通过编码器确定任一帧第一图像的描述特征。接着,按照下文提及的步骤d1至d2的实现方式,通过去噪网络对预测噪声信息进行去噪处理,得到重建图像的图像特征。之后,按照下文提及的步骤d3的实现方式,通过解码器将重建图像的图像特征解码成重建图像。其中,步骤c1至步骤c2的实现方式、步骤d1至d3的实现方式在下文有对应描述,在此暂不赘述。
116.在可能的实现方式c中,步骤202中“对预测噪声信息进行去噪处理,得到任一帧第一图像对应的重建图像”,包括步骤c1至步骤c2(图中未示出)。
117.步骤c1,获取任一帧第一图像的描述信息。
118.本技术实施例中,第一图像的描述信息包括第一图像中的文本(即图像文本)、用于描述第一图像所表征语义的语义文本、用于描述第一图像的图像类别的类别文本、用于描述第一图像的图像内容的内容文本、用于描述第一图像的图像风格的风格文本等至少一项。其中,图像文本可以包括弹幕文本、台词文本以及被摄物体本身包含的文本等。可以理解的是,由于第一图像可以描述其本身,因此,第一图像的描述信息可以包括第一图像或者对第一图像进行裁剪、压缩等图像处理后得到的图像。
119.本技术实施例不对第一图像的描述信息的获取方式做限定。示例性地,电子设备
可以获取输入的第一图像的描述信息,或者,电子设备可以调用工具、程序、软件、模型等,对第一图像进行分析,得到第一图像的描述信息。
120.步骤c2,基于描述信息对预测噪声信息进行去噪处理,得到任一帧第一图像对应的重建图像。
121.本技术实施例中,可以通过编码器对第一图像的描述信息进行编码处理,得到第一图像的描述特征。本技术实施例不对编码器的结构、大小、参数等做限定,示例性地,编码器可以为特征映射网络,通过特征映射网络将描述信息映射为描述特征。或者,第二编码网络可以为自编码器或者变分自编码器等,自编码器或者变分自编码器可以包括卷积层,通过编码器对描述信息进行卷积处理,得到描述特征。
122.接下来,基于第一图像的描述特征对预测噪声信息进行多次去噪处理,得到任一帧第一图像对应的重建图像。其中,多次去噪处理的方式可以实现方式d的描述,在此不再赘述。通过第一图像的描述特征来指导去噪处理,可以使得去噪处理后得到的特征能够表征第一图像的内容,以实现对第一图像进行重建。
123.在可能的实现方式d中,去噪处理的次数为多次。步骤202中“对预测噪声信息进行去噪处理,得到任一帧第一图像对应的重建图像”,包括步骤d1至步骤d3(图中未示出)。为便于描述,下面以任一帧第一图像为第i帧第一图像为例介绍各步骤的实现方式。
124.步骤d1,通过神经网络模型对预测噪声信息进行第一次去噪处理,得到任一帧第一图像在第一次去噪处理后得到的特征。
125.本技术实施例中,去噪网络包括多个串联的第二网络块。可以将预测噪声信息输入第一个第二网络块,通过第一个第二网络块对该预测噪声信息进行第一次去噪处理,得到第i帧第一图像在第一次去噪处理后得到的特征。
126.步骤d2,对于除第一次去噪处理之外的任一次去噪处理,通过神经网络模型对任一帧第一图像在任一次去噪处理的上一次去噪处理后得到的特征进行任一次去噪处理,得到任一帧第一图像在任一次去噪处理后得到的特征。
127.本技术实施例中,通过第二个第二网络块对第i帧第一图像在第一次去噪处理后得到的特征进行第二次去噪处理,得到第i帧第一图像在第二次去噪处理后得到的特征。之后,通过第三个第二网络块对第i帧第一图像在第二次去噪处理后得到的特征进行第三次去噪处理,得到第i帧第一图像在第三次去噪处理后得到的特征。以此类推,直至得到第i帧第一图像在最后一次去噪处理后得到的特征。其中,第i帧第一图像在最后一次去噪处理后得到的特征为第i帧第一图像对应的重建图像的图像特征。
128.步骤d1至步骤d2所示的去噪处理的过程如图5所示。可以将预测噪声信息记为x
t
,通过对x
t
依次进行t次去噪处理,得到特征x
t-1
至x0。其中,x
t
表征第一图像在第t-t次去噪处理后得到的特征。
129.可选地,去噪网络包括m(m为正整数)个串联的第二网络块,预测噪声信息可以称为第i帧第一图像在第0次去噪处理后得到的特征。对于第m(m是大于或等于1且小于或等于m的正整数)个第二网络块,第m个第二网络块的输入为第i帧第一图像在第m-1次去噪处理后得到的特征,通过第m个第二网络块对第i帧第一图像在第m-1次去噪处理后得到的特征进行第m次去噪处理,得到第i帧第一图像在第m次去噪处理后得到的特征。其中,第i帧第一图像在第m次去噪处理后得到的特征为第i帧第一图像对应的重建图像的图像特征。
130.可选地,通过去噪网络对预测噪声信息进行多次去噪处理的过程,可以表示为如下所示的公式(3)。
131.ꢀꢀꢀꢀ
公式(3)。
132.其中,表征第一图像在第t次去噪处理后得到的特征,也是第一图像对应的重建图像的图像特征,表征第一图像在第t-t次去噪处理后得到的特征,表征第一图像在第t-(t-1)次去噪处理后得到的特征,表征第一图像在第t次至第0次去噪处理后得到的特征。表征去噪处理函数的函数符号,为变量。表征累乘符号。表征预测噪声信息。
133.表征对预测噪声信息进行t次去噪处理后,依次得到第一图像在第1次至第t次去噪处理后得到的特征至。表征对第一图像在第t-t次去噪处理后得到的特征进行第t-t+1次去噪处理,得到第一图像在第t-t+1次去噪处理后得到的特征。表征对预测噪声信息进行去噪处理。
134.可选地,第一图像在第t-(t-1)次去噪处理后得到的特征满足如下所示的公式(4)。
135.ꢀꢀꢀꢀ
公式(4)。
136.其中,表征正态分布函数的函数符号。一般情况下,正态分布函数为(0,),i为正态分布函数的参数。为符合分布的平均值,是符合分布的方差值,可以为任意设定的数据。在本技术实施例中,公式(4)表征符合正态分布函数。
137.本技术实施例中,对于任一次去噪处理,去噪网络可以确定该次去噪处理对应的去噪数据,基于该噪声数据对第i帧第一图像在上一次去噪处理后得到的特征进行去噪处理。可以理解的是,不同次数的去噪处理对应不同的去噪数据。
138.可选地,。其中,是去噪网络确定的第t-t+1次去噪处理对应的去噪数据。当t》1时,z满足正态分布函数,即(0,),当t≤1时,z等于0,即z=0。满足正态分布函数,即(0,)。t=t,

,1。剩余各参数的含义在本文有对应描述,在此不再赘述。
139.示例性地,去噪过程的代码如下所示。
140.1:2:for t=t,

,1 do3:(0,) if t》1,else z=0
4:5:end for6:return 在示例性实施例中,不同的第二网络块对应的去噪处理的次数不同。因此,可以将任一次去噪处理的次数和任一帧第一图像在任一次去噪处理的上一次去噪处理后得到的特征进行拼接,得到拼接信息,通过任一次去噪处理对应的第二网络块对该拼接信息进行任一次去噪处理,得到任一帧第一图像在任一次去噪处理后得到的特征。
141.也就是说,将去噪处理的次数m和第i帧第一图像在第m-1次去噪处理后得到的特征进行拼接,得到拼接信息,通过第m个第一网络块对拼接信息进行第m次去噪处理,得到第i帧第一图像在第m次去噪处理后得到的特征。
142.上文已提及,可以基于第一图像的描述特征对预测噪声信息进行多次去噪处理。本技术实施例中,可选地,将预测噪声信息和第一图像的描述特征进行拼接,得到拼接特征。首先,通过神经网络模型对拼接特征进行第一次去噪处理,得到任一帧第一图像在第一次去噪处理后得到的特征。之后,对于除第一次去噪处理之外的任一次去噪处理,通过神经网络模型对任一帧第一图像在任一次去噪处理的上一次去噪处理后得到的特征进行任一次去噪处理,得到任一帧第一图像在任一次去噪处理后得到的特征。
143.或者,将预测噪声信息和第一图像的描述特征进行拼接,得到第一拼接特征。首先,通过神经网络模型对第一拼接特征进行第一次去噪处理,得到任一帧第一图像在第一次去噪处理后得到的特征。之后,对于除第一次去噪处理之外的任一次去噪处理,将第一图像的描述特征和任一帧第一图像在任一次去噪处理的上一次去噪处理后得到的特征进行拼接,得到第二拼接特征,通过神经网络模型对第二拼接特征进行任一次去噪处理,得到任一帧第一图像在任一次去噪处理后得到的特征。
144.步骤d3,通过神经网络模型基于任一帧第一图像在最后一次去噪处理后得到的特征,确定任一帧第一图像对应的重建图像。
145.本技术实施例中,第i帧第一图像在最后一次去噪处理后得到的特征为第i帧第一图像对应的重建图像的图像特征,通过重建图像的图像特征描述重建图像的内容、颜色、纹理、风格等信息。因此,可以通过解码器对第i帧第一图像对应的重建图像的图像特征进行解码,得到第i帧第一图像对应的重建图像。本技术实施例不对解码器的结构、大小、参数等做限定,不同的解码器对应不同的解码方式,在此不再赘述。
146.总的来说,本技术实施例如图6所示。通过加噪网络对低分辨率图像的图像特征进行加噪处理,得到噪声信息,通过去噪网络对噪声信息进行去噪处理,得到高分辨率图像的图像特征。其中,低分辨率图像的图像特征对应上文提及的第一图像的图像特征,噪声信息对应上文提及的预测噪声信息,高分辨率图像的图像特征对应上文提及的第一图像对应的重建图像的图像特征。
147.步骤203,基于各帧第一图像对应的第二图像和重建图像,对神经网络模型进行训练,得到视频重建模型,视频重建模型用于对待重建视频进行重建得到目标视频,目标视频
的分辨率高于待重建视频的分辨率。
148.本技术实施例中,可以基于各帧第一图像对应的第二图像和各帧第一图像对应的重建图像,确定神经网络模型的损失。通过神经网络模型的损失对神经网络模型进行训练,得到训练后的神经网络模型。并基于训练后的神经网络模型确定视频重建模型。
149.可选地,如果训练后的神经网络模型满足训练结束条件,则将训练后的神经网络模型作为视频重建模型。如果训练后的神经网络模型不满足训练结束条件,则将训练后的神经网络模型作为下一次训练的神经网络模型,并按照步骤202至步骤203的方式,对该神经网络模型进行下一次训练,直至训练后的神经网络模型满足训练结束条件,将训练后的神经网络模型作为视频重建模型为止。
150.本技术实施例不对训练后的神经网络模型满足训练结束条件做限定。示例性地,训练后的神经网络模型满足训练结束条件包括但不限于以下至少一项:训练后的神经网络模型对应的训练次数达到次数阈值;训练后的神经网络模型的模型参数在设定范围内;训练后的神经网络模型的模型参数和训练前的神经网络模型的模型参数之间的差值或比值或差值的指数或比值的对数等在设定范围内。
151.在一种可能的实现方式中,步骤203包括步骤2031至步骤2032(图中未示出)。
152.步骤2031,对于任一帧第一图像,基于任一帧第一图像对应的第二图像和重建图像之间的误差,确定任一帧第一图像对应的图像损失。
153.本技术实施例中,任一帧第一图像对应的重建图像是对该第一图像进行重建得到的,因此,任一帧第一图像对应的重建图像和该第一图像的内容相同。由于任一帧第一图像对应的第二图像和该第一图像的内容相同,因此,任一帧第一图像对应的重建图像和任一帧第一图像对应的第二图像的内容相同。基于此,可以计算任一帧第一图像对应的第二图像和该第一图像对应的重建图像之间的误差,通过该误差来衡量神经网络模型的准确性。本技术实施例不对第二图像和重建图像之间的误差的确定方式做限定。
154.可选地,任一帧第一图像对应的重建图像和任一帧第一图像对应的第二图像的分辨率相同,因此,重建图像中存在第二图像中的任一个像素点对应的像素点。简单来说,重建图像中第i行第j列的像素点对应第二图像中第i行第j列的像素点。本技术实施例中,可以计算第二图像中的任一个像素点和该像素点对应的重建图像中的像素点之间的像素值之差或像素值之比等,得到该像素点的对比信息。通过计算各个像素点的对比信息的和值或平均值或方差等,得到第二图像和重建图像之间的误差。
155.或者,可以获取重建图像的图像特征和第二图像的图像特征。其中,上文已描述了重建图像的图像特征的确定方式,而第二图像的图像特征可以按照参考图像的图像特征或者第一图像的图像特征的确定方式来确定,在此不再赘述。接着,按照欧氏距离或余弦距离或曼哈顿距离等距离计算公式,计算重建图像的图像特征和第二图像的图像特征之间的特征距离,将该特征距离作为第二图像和重建图像之间的误差。
156.接下来,将任一帧第一图像对应的第二图像和重建图像之间的误差作为该帧第一图像对应的图像损失。或者,计算第一图像对应的第二图像和重建图像之间的误差的平方或对数或指数等,得到该帧第一图像对应的图像损失。
157.步骤2032,基于各帧第一图像对应的图像损失,对神经网络模型进行训练,得到视频重建模型。
158.本技术实施例中,按照步骤2031的方式,可以计算出各帧第一图像对应的图像损失。然后,基于各帧第一图像对应的图像损失确定第二损失,可选地,将各帧第一图像对应的图像损失之和或平均值等作为第二损失。将第二损失作为神经网络模型的损失,或者,根据第二损失和下文提及的第一损失,确定神经网络模型的损失。之后,通过神经网络模型的损失对神经网络模型进行训练,得到视频重建模型,其中,上文已描述通过神经网络模型的损失对神经网络模型进行训练的内容,在此不再赘述。
159.在另一种可能的实现方式中,步骤203包括步骤2033至步骤2037(图中未示出)。
160.步骤2033,获取各帧第一图像的标注加噪数据,任一帧第一图像的标注加噪数据表征将任一帧第一图像加噪成标注噪声信息的过程中添加的噪声。
161.本技术实施例中,可以对任一帧第一图像的图像特征进行加噪处理得到标注噪声信息,且该标注噪声信息为噪声特征。其中,加噪处理为多次。下面以任一帧第一图像为第i帧第一图像,任一次加噪处理为第m次加噪处理为例,阐述加噪过程。
162.可以将第i帧第一图像的图像特征作为第i帧第一图像在第0次加噪处理后得到的特征。对于第m次加噪处理,获取第m次加噪处理对应的标注加噪数据,基于该标注加噪数据对第i帧第一图像在第m-1次加噪处理后得到的特征进行第m次加噪处理,得到第i帧第一图像在第m次加噪处理后得到的特征。
163.其中,第m次加噪处理对应的标注加噪数据是基于统计分布函数进行采样得到的,基于此,该标注加噪数据满足统计分布函数对应的统计分布。任两次加噪处理对应的统计分布函数可以相同或者不同。可选地,统计分布函数为正态分布n(μ,σ2),μ为均值,σ2为方差。电子设备可以获取第m次加噪处理对应的均值和方差(例如,均值为1,方差为0),以确定第m次加噪处理对应的统计分布函数,并基于第m次加噪处理对应的统计分布函数随机地或者等间距地采样得到第m次加噪处理对应的标注加噪数据。
164.可以理解的是,由于是对任一帧第一图像的图像特征进行多次加噪处理,因此,任一帧第一图像的标注加噪数据包括该帧第一图像在各次加噪处理对应的标注加噪数据。
165.步骤2034,获取各帧第二图像的标注去噪数据,任一帧第二图像的标注去噪数据表征将标注噪声信息去噪成任一帧第二图像的过程中去除的噪声。
166.本技术实施例中,可以对标注噪声信息进行去噪处理,得到任一帧第二图像的图像特征。其中,去噪处理为多次。下面以任一帧第二图像为第i帧第二图像,任一次去噪处理为第m次去噪处理为例,阐述去噪过程。
167.可以将标注噪声信息作为第i帧第二图像在第0次去噪处理后得到的特征。对于第m次去噪处理,获取第m次去噪处理对应的标注去噪数据,基于该标注去噪数据对第i帧第二图像在第m-1次去噪处理后得到的特征进行第m次去噪处理,得到第i帧第二图像在第m次去噪处理后得到的特征。
168.其中,第m次去噪处理对应的标注去噪数据是基于统计分布函数进行采样得到的,基于此,该标注去噪数据满足统计分布函数对应的统计分布。任两次去噪处理对应的统计分布函数可以相同或者不同。可选地,统计分布函数为正态分布n(μ,σ2)。电子设备可以获取第m次去噪处理对应的均值和方差,以确定第m次去噪处理对应的统计分布函数,并基于第m次去噪处理对应的统计分布函数随机地或者等间距地采样得到第m次去噪处理对应的标注去噪数据。
169.可以理解的是,由于是对标注噪声信息进行多次去噪处理,因此,任一帧第二图像的标注去噪数据包括该帧第二图像在各次去噪处理对应的标注去噪数据。
170.步骤2035,对于任一帧第一图像,获取在通过神经网络模型对任一帧第一图像进行加噪处理得到预测噪声信息的过程中添加的预测加噪数据,并获取在通过神经网络模型对预测噪声信息进行去噪处理得到重建图像的过程中去除的预测去噪数据。
171.上文已提及,神经网络模型的加噪网络可以基于第i帧第一图像在第m-1次加噪处理后得到的特征以及加噪处理的次数m,确定第m次加噪处理的预测加噪数据。基于此,电子设备可以获取任一帧第一图像在各次加噪处理对应的预测加噪数据。
172.基于同样的原理,神经网络模型的去噪网络可以基于第i帧第一图像在第m-1次去噪处理后得到的特征以及去噪处理的次数m,确定第m次去噪处理的预测去噪数据。基于此,电子设备可以获取任一帧第一图像在各次去噪处理对应的预测去噪数据。
173.步骤2036,基于各帧第二图像的标注去噪数据、各帧第一图像的标注加噪数据、预测加噪数据和预测去噪数据,确定第一损失。
174.本技术实施例中,对于任一帧第一图像,可以基于该帧第一图像的标注加噪数据、该帧第一图像的预测加噪数据、该帧第一图像的预测去噪数据和该帧第一图像对应的第二图像的标注去噪数据,确定该帧第一图像的噪声损失。将各帧第一图像的噪声损失之和或平均值等,作为第一损失。
175.可选地,步骤2036包括:基于各帧第一图像的标注加噪数据和各帧第一图像对应的预测加噪数据,确定加噪数据损失;基于各帧第二图像的标注去噪数据和各帧第一图像对应的预测去噪数据,确定去噪数据损失;基于去噪数据损失和加噪数据损失,确定第一损失。
176.首先,对于任一帧第一图像,可以基于该帧第一图像的标注加噪数据和该帧第一图像的预测加噪数据,确定该帧第一图像的加噪损失。可选地,第一图像的标注加噪数据包括第一图像在各次加噪处理对应的标注加噪数据,第一图像的预测加噪数据包括第一图像在各次加噪处理对应的预测加噪数据。可以按照如下所示的公式(5),将第i帧第一图像在第t次加噪处理的标注加噪数据减去第i帧第一图像在第t次加噪处理的预测加噪数据,得到差值,将该差值的范数的平方作为第i帧第一图像在第t次加噪处理的加噪损失。
177.ꢀꢀ
公式(5)。
178.其中,表征第i帧第一图像在第t次加噪处理的加噪损失。表征第i帧第一图像在第t次加噪处理的标注加噪数据。表征第i帧第一图像在第t次加噪处理的预测加噪数据,表征神经网络模型的模型参数。表征变量的范数的平方。表征第i帧第一图像的图像特征,的确定方式在上文有描述,在此不再赘述。
179.在计算出任一帧第一图像在任一次加噪处理的加噪损失之后,可以将任一帧第一图像在各次加噪处理的加噪损失之和或者平均值等,作为该帧第一图像的加噪损失。
180.接着,对于任一帧第一图像,可以该帧第一图像对应的预测去噪数据和该帧第一
图像对应的第二图像的标注去噪数据,确定该帧第一图像的去噪损失。可选地,第一图像对应的预测去噪数据包括第一图像在各次去噪处理对应的预测去噪数据,第二图像的标注去噪数据包括第二图像在各次去噪处理对应的标注去噪数据,可以按照上文所示的公式(5)的计算原理,确定第一图像在任一次去噪处理的去噪损失。之后,将任一帧第一图像在各次去噪处理的去噪损失之和或者平均值等,作为该帧第一图像的去噪损失。
181.接下来,对于任一帧第一图像,对该帧第一图像的加噪损失和该帧第一图像的去噪损失进行加权求平均计算或者加权求和计算,得到该帧第一图像的噪声损失。之后,将各帧第一图像的噪声损失之和或平均值等,作为第一损失。
182.步骤2037,基于第一损失、各帧第一图像对应的第二图像和重建图像,对神经网络模型进行训练,得到视频重建模型。
183.本技术实施例中,可以按照步骤2031至步骤2032的方式,基于各帧第一图像对应的第二图像和重建图像,确定第二损失。接着,将第一损失和第二损失进行加权求和计算或者加权求平均计算,得到的计算结果作为神经网络模型的损失。之后,通过神经网络模型的损失对神经网络模型进行训练,得到视频重建模型,其中,上文已描述通过神经网络模型的损失对神经网络模型进行训练的内容,在此不再赘述。
184.可以理解的是,通过第一损失和第二损失训练神经网络模型,相当于将各帧第一图像的加噪损失和去噪损失、第二图像和重建图像之间的损失在神经网络模型上进行梯度回传(gradientbackpropagation),优化神经网络模型的模型参数。下面的代码主要描述了通过加噪损失优化模型参数,该方式与通过去噪损失优化模型参数、通过第二图像和重建图像之间的损失优化模型参数的方式相类似,在此不再赘述。
185.1:repeat2:()//视为第一图像在第0次加噪处理后得到的特征3:t({1,

,t})//t取值1至t4://标注加噪数据符合正态分布函数5:takegradientdescentstepon//加噪损失在神经网络模型上进行梯度回传,优化模型参数6:untilconverged//直至模型收敛需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。例如,本技术中涉及到的第一视频、第二视频等都是在充分授权的情况下获取的。
186.上述方法中,通过神经网络模型对第一视频中的各帧第一图像进行加噪处理得到预测噪声信息,并对预测噪声信息进行去噪处理得到各帧第一图像对应的重建图像,实现了对分辨率较低的第一视频进行重建得到分辨率较高的视频。由于是通过对预测噪声信息进行去噪处理得到的重建图像,因此,重建图像不受第一图像的类型、尺寸、分辨率等的影
响,通过去噪处理保留了图像中的细节信息,使得重建图像的清晰度较高。在此基础上,通过第二视频和各帧重建图像对神经网络模型进行训练,可以使神经网络模型朝着使重建视频趋近于第二视频的方向进行优化,提高神经网络模型的准确性、通用性和稳定性,使得训练得到的视频重建模型可以重建出分辨率较高的视频,且该视频的清晰度和质量较高。
187.本技术实施例提供了一种视频重建方法,该方法可应用于上述实施环境中,可以得到质量较高的高分辨率视频。以图7所示的本技术实施例提供的一种视频重建方法的流程图为例,为便于描述,将执行本技术实施例中的视频重建方法的终端设备101或者服务器102称为电子设备,该方法可以由电子设备来执行。如图7所示,该方法包括如下步骤。
188.步骤701,获取待重建视频。
189.本技术实施例不对待重建视频的获取方式做限定,示例性地,电子设备可以获取输入的待重建视频,或者,电子设备可以从存储设备中读取待重建视频,或者,电子设备可以从网络上查找得到待重建视频,或者,电子设备具有视频采集设备的功能,通过对被摄物体进行拍摄,得到待重建视频。
190.待重建视频包括多帧待重建图像,任一帧待重建图像的分辨率可以低于或等于或高于第一分辨率,且待重建图像的分辨率低于第二分辨率。
191.可以理解的是,步骤701的实现方式和步骤201的实现方式相类似,可以见步骤201的描述,在此不再赘述。
192.步骤702,通过视频重建模型对待重建视频进行加噪处理,得到参考噪声信息,对参考噪声信息进行去噪处理,得到目标视频。
193.其中,视频重建模型是按照与图2相关的视频重建模型的训练方法训练得到的,目标视频和待重建视频的内容相同,目标视频的分辨率高于待重建视频。也就是说,目标视频包括各帧待重建图像对应的目标图像,任一帧待重建图像对应的目标图像与任一帧待重建图像的内容相同且分辨率高于任一帧待重建图像。
194.本技术实施例中,视频重建模型是对神经网络模型进行训练得到的,因此,视频重建模型的结构、功能等和神经网络模型的结构、功能等相类似,但视频重建模型的参数和神经网络模型的参数不同。有关视频重建模型的内容可以见上文有关神经网络模型的描述,在此不再赘述。
195.与神经网络模型的结构相类似地,视频重建模型也包括加噪网络和去噪网络。本技术实施例中,可以通过加噪网络对任一帧待重建图像进行加噪处理,得到参考噪声信息,并通过去噪网络对参考噪声信息进行去噪处理,得到该帧待重建图像对应的目标图像。其中,通过加噪网络进行加噪处理的实现方式和通过去噪网络进行去噪处理的实现方式,可以见步骤202的描述,二者实现原理相类似,在此不再赘述。
196.在一种可能的实现方式中,步骤702中“通过视频重建模型对各帧待重建图像进行加噪处理,得到参考噪声信息”,包括:对于待重建视频中的任一帧待重建图像,通过视频重建模型从待重建视频中确定任一帧待重建图像的基准图像;通过视频重建模型根据基准图像和任一帧待重建图像,确定任一帧待重建图像的图像特征;通过视频重建模型对任一帧待重建图像的图像特征进行加噪处理,得到参考噪声信息。
197.本技术实施例中,可以通过视频重建模型从待重建视频中确定除第i帧待重建图像之外的至少一帧待重建图像,将确定出的各帧待重建图像作为第i帧待重建图像的各帧
基准图像。这部分内容的实现方式可以见步骤a1的描述,二者实现原理相类似,在此不再赘述。
198.与神经网络模型的结构相类似地,视频重建模型还包括编码器,该编码器串联在加噪网络之前。可以通过编码器根据第i帧待重建图像的各个基准图像,对第i帧待重建图像进行编码处理,得到第i帧待重建图像的图像特征。这部分内容的实现方式可以见步骤a2的描述,二者实现原理相类似,在此不再赘述。
199.接下来,通过加噪网络对第i帧待重建图像的图像特征进行多次加噪处理,得到参考噪声信息。其中,参考噪声信息的确定方式可以见预测噪声信息的相关描述,二者实现原理相类似,在此不再赘述。
200.在一种可能的实现方式中,步骤702中“对参考噪声信息进行去噪处理,得到目标视频”,包括:对于待重建视频中的任一帧待重建图像,获取任一帧待重建图像的描述信息,任一帧待重建图像的描述信息用于表征任一帧待重建图像中的文本、任一帧待重建图像的描述信息、任一帧待重建图像的图像内容和任一帧待重建图像表达的语义等中的至少一项;基于任一帧待重建图像的描述信息,对参考噪声信息进行去噪处理,得到任一帧待重建图像对应的目标图像。
201.本技术实施例中,电子设备可以获取第i帧待重建图像的描述信息,并通过去噪网络根据第i帧待重建图像的描述信息,对参考噪声信息进行多次去噪处理,得到第i帧待重建图像对应的目标图像。其中,待重建图像的描述信息的获取方式和第一图像的描述信息的获取方式相类似,目标图像的确定方式和重建图像的确定方式相类似,可以见步骤c1至步骤c2的描述,在此不再赘述。
202.需要说明的是,本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。例如,本技术中涉及到的待重建视频、基准图像等都是在充分授权的情况下获取的。
203.上述方法中,通过视频重建模型对待重建视频中的各帧待重建图像进行加噪处理得到参考噪声信息,并对参考噪声信息进行去噪处理得到各帧待重建图像对应的目标图像,实现了对分辨率较低的待重建视频进行重建得到分辨率较高的目标视频。由于是通过对参考噪声信息进行去噪处理得到的目标图像,因此,目标图像不受待重建图像的类型、尺寸、分辨率等的影响,通过去噪处理保留了图像中的细节信息,使得目标图像的清晰度较高,从而提高了目标视频的质量。
204.上述从方法步骤的角度阐述了本技术实施例的视频重建模型的训练方法和视频重建方法,下面结合场景进行详细描述。本技术实施例可以适用于自动驾驶场景、医学场景、遥感卫星场景、虚拟现实场景等任意可以采集到视频的场景,也适用于在线和离线视频播放、直播和点播、老片修复、实时音视频(real-time communication,rtc)等场景。在这些场景中,一些情况下,受视频采集设备等的硬件限制,采集得到的视频的分辨率较低,可以按照本技术实施例的方法训练得到视频重建模型,通过视频重建模型对分辨率较低的视频进行重建,得到分辨率较高的视频。其中,在视频重建的过程中,可以通过视频重建模型对分辨率较低的视频中的任一帧图像进行重建,得到与该帧图像内容相同且分辨率高于该帧
图像的重建图像。
205.为了便于描述,下面将分辨率较低的视频中的任一帧图像称为低分辨率图像,将重建得到的分辨率较高的视频中的任一帧图像称为高分辨率图像。可以理解的是,低分辨率图像对应于上文提及的第一图像和待重建图像等,而高分辨率图像对应于上文提及的第二图像、重建图像和目标图像等。
206.请参见图8,图8是本技术实施例提供的一种图像重建流程的示意图。本技术实施例中,可以按照与图2相关的内容训练得到视频重建模型,并通过视频重建模型对低分辨率图像进行重建得到高分辨率图像。其中,视频重建模型包括编码器(encoder,e)、解码器(dncoder,e)、加噪网络和去噪网络(图中未示出),去噪网络包括多个u网络结构。可以理解的是,图8示出了两个u网络结构,在实际应用时,可以根据应用场景,灵活设置u网络结构的数量。
207.首先,将低分辨率图像输入编码器,通过编码器对低分辨率图像进行编码处理,得到低分辨率图像特征,其中,可以按照上文提及的第一图像的图像特征的确定方式来确定低分辨率图像特征,二者的实现原理相类似,在此不再赘述。
208.接着,通过加噪网络对低分辨率图像特征进行多次加噪处理,得到噪声信息。其中,可以按照上文提及的预测噪声信息的确定方式来确定噪声信息,二者的实现原理相类似,在此不再赘述。
209.本技术实施例中,去噪网络的输入包括噪声信息。此外,去噪网络的输入还包括低分辨率图像的描述信息。可选地,描述信息包括低分辨率图像中的文本(即图像文本)、用于描述低分辨率图像所表征语义的文本(即语义文本)和用于描述低分辨率图像的图像内容的文本(即内容文本)。此外,由于低分辨率图像是本身的描述信息,因此,描述信息还可以包括低分辨率图像。
210.可选地,将描述信息输入编码器,通过编码器对描述信息进行编码处理,得到描述特征,去噪网络的输入包括描述特征。需要说明的是,用于对描述信息进行编码处理的编码器和用于对低分辨率图像进行编码处理的编码器可以为同一个编码器,也可以为不同的编码器,在此不做限定。
211.去噪网络包括多个u网络结构,任两个u网络结构的功能、结构、组成等相同,且任两个u网络结构的参数可以相同或不同。任一个u网络结构如图3所示,包括下采样部分和上采样部分,下采样部分包括多个注意力层,上采样部分包括和下采样部分数量相同的注意力层。下面以去噪网络包括两个u网络结构,一个u网络结构的下采样部分和上采样部分均包括两个注意力层为例进行阐述。
212.本技术实施例中,可以将噪声信息和描述特征输入去噪网络的第一个u网络结构,通过第一个u网络结构输出去噪特征。可以理解的是,去噪特征对应于上文提及的第一图像在任一次去噪处理后得到的特征。可以按照如下所示的方式1或方式2确定去噪特征。其中,图8示出的开关是一个形象化表示选择方式1或者方式2的模块,该模块可以存在于或不存在于实际模型中。
213.方式1:将噪声信息和描述特征进行拼接,得到拼接特征。首先,通过第一个u网络结构的下采样部分中的第一个注意力层,按照注意力机制对拼接特征进行第一次下采样处理,得到第一次下采样处理后得到的特征。接着,通过第一个u网络结构的下采样部分中的
第二个注意力层,按照注意力机制对第一次下采样处理后得到的特征进行第二次下采样处理,得到第二次下采样处理后得到的特征。然后,通过第一个u网络结构的上采样部分中的第一个注意力层,按照注意力机制对第二次下采样处理后得到的特征进行第一次上采样处理,得到第一次上采样处理后得到的特征。之后,通过第一个u网络结构的上采样部分中的第二个注意力层,按照注意力机制对第一次上采样处理后得到的特征和第一次下采样处理后得到的特征拼接后的特征进行第二次上采样处理,得到第二次上采样处理后得到的特征,该第二次上采样处理后得到的特征即为去噪特征。
214.方式2:首先,通过第一个u网络结构的下采样部分中的第一个注意力层,按照注意力机制对噪声信息和描述特征拼接后的特征进行第一次下采样处理,得到第一次下采样处理后得到的特征。接着,通过第一个u网络结构的下采样部分中的第二个注意力层,按照注意力机制对第一次下采样处理后得到的特征和描述特征拼接后的特征进行第二次下采样处理,得到第二次下采样处理后得到的特征。然后,通过第一个u网络结构的上采样部分中的第一个注意力层,按照注意力机制对第二次下采样处理后得到的特征和描述特征拼接后的特征进行第一次上采样处理,得到第一次上采样处理后得到的特征。之后,通过第一个u网络结构的上采样部分中的第二个注意力层,按照注意力机制对第一次上采样处理后得到的特征、描述特征和第一次下采样处理后得到的特征拼接后的特征进行第二次上采样处理,得到第二次上采样处理后得到的特征,该第二次上采样处理后得到的特征即为去噪特征。
215.接着,将去噪特征和描述特征输入去噪网络的第二个u网络结构,通过第二个u网络结构输出高分辨率图像特征。可以理解的是,高分辨率图像特征对应于上文提及的第一图像在最后一次去噪处理后得到的特征。第二个u网络结构确定高分辨率图像特征的方式和第一个u网络结构确定去噪特征的方式相类似,在此不再赘述。
216.之后,通过解码器对高分辨率图像特征进行解码处理,得到高分辨率图像。其中,可以按照上文提及的重建图像的确定方式来确定高分辨率图像,二者的实现原理相类似,在此不再赘述。
217.上述对低分辨率图像进行重构得到高分辨率图像的过程,相当于一种潜在扩散(latent diffusion)模型。潜在扩散模型是一种基于扩散原理的生成模型,可以对文本、图像、音频、视频等高维数据进行重建。潜在扩散模型与传统的生成模型不同,不需要计算生成数据的概率密度函数,而是通过对潜在变量进行多步扩散来生成数据。也就是说,通过编码器将图像空间编码到特征空间(也叫潜在空间),在特征空间进行多步扩散(即多次加噪处理和多次去噪处理),之后再通过解码器将特征空间还原到图像空间,得到高分辨率图像。其中,低分辨率图像和高分辨率图像可以为灰度图像、彩色图像、红绿蓝(red-green-blue,rgb)图像等。
218.本技术实施例中,一方面,需要图像采集设备获取低分辨率图像,或者,需要视频采集设备获取低分辨率视频。另一方面,需要具备中央处理器(central processing unit,cpu)或者图形处理器(graphics processing unit)的电子设备,基于本技术实施例的方法,来对低分辨率图像进行重建得到高分辨率图像,从而得到高分辨率视频。可选地,该电子设备具备支持高分辨率的显示器,通过该显示器显示高分辨率视频和低分辨率视频。再一方面,还需要存储资源,用于存储低分辨率视频、高分辨率视频和重建过程中得到的各数
据。上述硬件设备的配置可以是常见配置,无需特别定制,降低了硬件成本。
219.在实际应用中,为了提高实时性,可以基于cpu并行计算的方式,或者使用轻量级的模型,基于本技术实施例的方法对视频进行重建。为了提高视频重建效果,可以将本技术实施例的方法与超分辨率重建技术、多帧超分辨率重建技术等结合进行视频重建。为了降低复杂度,可以将本技术实施例的方法与低秩分解、压缩感知等技术结合进行视频重建。在此不再赘述。
220.图9所示为本技术实施例提供的一种视频重建模型的训练装置的结构示意图,如图9所示,该装置包括获取模块901、加噪去噪模块902和训练模块903。
221.获取模块901,用于获取内容相同的第一视频和第二视频,第二视频的分辨率高于第一视频。
222.加噪去噪模块902,用于对于任一帧第一图像,通过神经网络模型对任一帧第一图像进行加噪处理,得到预测噪声信息,对预测噪声信息进行去噪处理,得到任一帧第一图像对应的重建图像,任一帧第一图像对应的重建图像与第二视频中任一帧第一图像对应的第二图像的分辨率相同。
223.训练模块903,用于基于各帧第一图像对应的第二图像和重建图像,对神经网络模型进行训练,得到视频重建模型,视频重建模型用于对待重建视频进行重建得到目标视频,目标视频的分辨率高于待重建视频的分辨率。
224.在一种可能的实现方式中,加噪去噪模块902,用于通过神经网络模型从第一视频中确定任一帧第一图像的参考图像;通过神经网络模型根据参考图像和任一帧第一图像,确定任一帧第一图像的图像特征;通过神经网络模型对任一帧第一图像的图像特征进行加噪处理,得到预测噪声信息。
225.在一种可能的实现方式中,加噪去噪模块902,用于通过神经网络模型基于参考图像和任一帧第一图像,确定图像变化特征,图像变化特征用于表征将参考图像变成任一帧第一图像所进行的变化;通过神经网络模型对参考图像进行特征提取,得到参考图像的图像特征;通过神经网络模型基于参考图像的图像特征和图像变化特征,确定任一帧第一图像的图像特征。
226.在一种可能的实现方式中,加噪去噪模块902,用于通过神经网络模型对任一帧第一图像进行特征提取,得到任一帧第一图像的第一特征;通过神经网络模型基于图像变化特征对参考图像的图像特征进行变化处理,得到任一帧第一图像的第二特征;通过神经网络模型对任一帧第一图像的第一特征和第二特征进行融合,得到任一帧第一图像的图像特征。
227.在一种可能的实现方式中,加噪处理的次数为多次;加噪去噪模块902,用于通过神经网络模型确定任一帧第一图像的图像特征;通过神经网络模型对任一帧第一图像的图像特征进行第一次加噪处理,得到任一帧第一图像在第一次加噪处理后得到的特征;对于除第一次加噪处理之外的任一次加噪处理,通过神经网络模型对任一帧第一图像在任一次加噪处理的上一次加噪处理后得到的特征进行任一次加噪处理,得到任一帧第一图像在任一次加噪处理后得到的特征,任一帧第一图像在最后一次加噪处理后得到的特征为预测噪声信息。
228.在一种可能的实现方式中,去噪处理的次数为多次;加噪去噪模块902,用于通过
神经网络模型对预测噪声信息进行第一次去噪处理,得到任一帧第一图像在第一次去噪处理后得到的特征;对于除第一次去噪处理之外的任一次去噪处理,通过神经网络模型对任一帧第一图像在任一次去噪处理的上一次去噪处理后得到的特征进行任一次去噪处理,得到任一帧第一图像在任一次去噪处理后得到的特征;通过神经网络模型基于任一帧第一图像在最后一次去噪处理后得到的特征,确定任一帧第一图像对应的重建图像。
229.在一种可能的实现方式中,加噪去噪模块902,用于获取任一帧第一图像的描述信息;基于任一帧第一图像的描述信息,对预测噪声信息进行去噪处理,得到任一帧第一图像对应的重建图像。
230.在一种可能的实现方式中,训练模块903,用于对于任一帧第一图像,基于任一帧第一图像对应的第二图像和重建图像之间的误差,确定任一帧第一图像对应的图像损失;基于各帧第一图像对应的图像损失,对神经网络模型进行训练,得到视频重建模型。
231.在一种可能的实现方式中,训练模块903,用于获取各帧第一图像的标注加噪数据,任一帧第一图像的标注加噪数据表征将任一帧第一图像加噪成标注噪声信息的过程中添加的噪声;获取各帧第二图像的标注去噪数据,任一帧第二图像的标注去噪数据表征将标注噪声信息去噪成任一帧第二图像的过程中去除的噪声;对于任一帧第一图像,获取在通过神经网络模型对任一帧第一图像进行加噪处理得到预测噪声信息的过程中添加的预测加噪数据,并获取在通过神经网络模型对预测噪声信息进行去噪处理得到重建图像的过程中去除的预测去噪数据;基于各帧第二图像的标注去噪数据、各帧第一图像的标注加噪数据、预测加噪数据和预测去噪数据,确定第一损失;基于第一损失、各帧第一图像对应的第二图像和重建图像,对神经网络模型进行训练,得到视频重建模型。
232.在一种可能的实现方式中,训练模块903,用于基于各帧第二图像的标注去噪数据和各帧第一图像对应的预测去噪数据,确定去噪数据损失;基于各帧第一图像的标注加噪数据和各帧第一图像对应的预测加噪数据,确定加噪数据损失;基于去噪数据损失和加噪数据损失,确定第一损失。
233.上述装置中,通过神经网络模型对第一视频中的各帧第一图像进行加噪处理得到预测噪声信息,并对预测噪声信息进行去噪处理得到各帧第一图像对应的重建图像,实现了对分辨率较低的第一视频进行重建得到分辨率较高的视频。由于是通过对预测噪声信息进行去噪处理得到的重建图像,因此,重建图像不受第一图像的类型、尺寸、分辨率等的影响,通过去噪处理保留了图像中的细节信息,使得重建图像的清晰度较高。在此基础上,通过第二视频和各帧重建图像对神经网络模型进行训练,可以使神经网络模型朝着使重建视频趋近于第二视频的方向进行优化,提高神经网络模型的准确性、通用性和稳定性,使得训练得到的视频重建模型可以重建出分辨率较高的视频,且该视频的清晰度和质量较高。
234.应理解的是,上述图9提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
235.图10所示为本技术实施例提供的一种视频重建装置的结构示意图,如图10所示,该装置包括获取模块1001和加噪去噪模块1002。
236.获取模块1001,用于获取待重建视频。
237.加噪去噪模块1002,用于通过视频重建模型对待重建视频进行加噪处理,得到参考噪声信息,对参考噪声信息进行去噪处理,得到目标视频。
238.其中,视频重建模型是按照与图2相关的视频重建模型的训练方法训练得到的,目标视频和待重建视频的内容相同,目标视频的分辨率高于待重建视频。
239.在一种可能的实现方式中,加噪去噪模块1002,用于对于待重建视频中的任一帧待重建图像,通过视频重建模型从待重建视频中确定任一帧待重建图像的基准图像;通过视频重建模型根据基准图像和任一帧待重建图像,确定任一帧待重建图像的图像特征;通过视频重建模型对任一帧待重建图像的图像特征进行加噪处理,得到参考噪声信息。
240.在一种可能的实现方式中,加噪去噪模块1002,用于对于待重建视频中的任一帧待重建图像,获取任一帧待重建图像的描述信息;基于任一帧待重建图像的描述信息,对参考噪声信息进行去噪处理,得到任一帧待重建图像对应的目标图像。
241.上述装置中,通过视频重建模型对待重建视频中的各帧待重建图像进行加噪处理得到参考噪声信息,并对参考噪声信息进行去噪处理得到各帧待重建图像对应的目标图像,实现了对分辨率较低的待重建视频进行重建得到分辨率较高的目标视频。由于是通过对参考噪声信息进行去噪处理得到的目标图像,因此,目标图像不受待重建图像的类型、尺寸、分辨率等的影响,通过去噪处理保留了图像中的细节信息,使得目标图像的清晰度较高,从而提高了目标视频的质量。
242.应理解的是,上述图10提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
243.图11示出了本技术一个示例性实施例提供的终端设备1100的结构框图。该终端设备1100包括有:处理器1101和存储器1102。
244.处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用dsp(digital signal processing,数字信号处理)、fpga(field-programmable gate array,现场可编程门阵列)、pla(programmable logic array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称cpu(central processing unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以集成有gpu(graphics processing unit,图像处理器),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括ai(artificial intelligence,人工智能)处理器,该ai处理器用于处理有关机器学习的计算操作。
245.存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1101所执
行以实现本技术中方法实施例提供的视频重建模型的训练方法或者视频重建方法。
246.在一些实施例中,终端设备1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107和电源1108中的至少一种。
247.外围设备接口1103可被用于将i/o(input/output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
248.射频电路1104用于接收和发射rf(radio frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1104包括:天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity,无线保真)网络。在一些实施例中,射频电路1104还可以包括nfc(near field communication,近距离无线通信)有关的电路,本技术对此不加以限定。
249.显示屏1105用于显示ui(user interface,用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1105可以为一个,设置在终端设备1100的前面板;在另一些实施例中,显示屏1105可以为至少两个,分别设置在终端设备1100的不同表面或呈折叠设计;在另一些实施例中,显示屏1105可以是柔性显示屏,设置在终端设备1100的弯曲表面上或折叠面上。甚至,显示屏1105还可以设置成非矩形的不规则图形,也即异形屏。显示屏1105可以采用lcd(liquid crystal display,液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
250.摄像头组件1106用于采集图像或视频。可选地,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
251.音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通
信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端设备1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1107还可以包括耳机插孔。
252.电源1108用于为终端设备1100中的各个组件进行供电。电源1108可以是交流电、直流电、一次性电池或可充电电池。当电源1108包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
253.在一些实施例中,终端设备1100还包括有一个或多个传感器1109。该一个或多个传感器1109包括但不限于:加速度传感器1111、陀螺仪传感器1112、压力传感器1113、光学传感器1114以及接近传感器1115。
254.加速度传感器1111可以检测以终端设备1100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号,控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。
255.陀螺仪传感器1112可以检测终端设备1100的机体方向及转动角度,陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端设备1100的3d动作。处理器1101根据陀螺仪传感器1112采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变ui)、拍摄时的图像稳定、游戏控制以及惯性导航。
256.压力传感器1113可以设置在终端设备1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端设备1100的侧边框时,可以检测用户对终端设备1100的握持信号,由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对ui界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
257.光学传感器1114用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1114采集的环境光强度,控制显示屏1105的显示亮度。具体地,当环境光强度较高时,调高显示屏1105的显示亮度;当环境光强度较低时,调低显示屏1105的显示亮度。在另一个实施例中,处理器1101还可以根据光学传感器1114采集的环境光强度,动态调整摄像头组件1106的拍摄参数。
258.接近传感器1115,也称距离传感器,通常设置在终端设备1100的前面板。接近传感器1115用于采集用户与终端设备1100的正面之间的距离。在一个实施例中,当接近传感器1115检测到用户与终端设备1100的正面之间的距离逐渐变小时,由处理器1101控制显示屏1105从亮屏状态切换为息屏状态;当接近传感器1115检测到用户与终端设备1100的正面之间的距离逐渐变大时,由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。
259.本领域技术人员可以理解,图11中示出的结构并不构成对终端设备1100的限定,
可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
260.图12为本技术实施例提供的服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器1201和一个或多个的存储器1202,其中,该一个或多个存储器1202中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器1201加载并执行以实现上述各个方法实施例提供的视频重建模型的训练方法或者视频重建方法,示例性的,处理器1201为cpu。当然,该服务器1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1200还可以包括其他用于实现设备功能的部件,在此不做赘述。
261.在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以使电子设备实现上述任一种视频重建模型的训练方法或者视频重建方法。
262.可选地,上述计算机可读存储介质可以是只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、只读光盘(compact disc read-only memory,cd-rom)、磁带、软盘和光数据存储设备等。
263.在示例性实施例中,还提供了一种计算机程序,该计算机程序为至少一条,该至少一条计算机程序由处理器加载并执行,以使电子设备实现上述任一种视频重建模型的训练方法或者视频重建方法。
264.在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品中存储有至少一条计算机程序,该至少一条计算机程序由处理器加载并执行,以使电子设备实现上述任一种视频重建模型的训练方法或者视频重建方法。
265.应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
266.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
267.以上所述仅为本技术的示例性实施例,并不用以限制本技术,凡在本技术的原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种视频重建模型的训练方法,其特征在于,所述方法包括:获取内容相同的第一视频和第二视频,所述第二视频的分辨率高于所述第一视频;对于所述第一视频中的任一帧第一图像,通过神经网络模型对所述任一帧第一图像进行加噪处理,得到预测噪声信息,对所述预测噪声信息进行去噪处理,得到所述任一帧第一图像对应的重建图像,所述任一帧第一图像对应的重建图像与所述第二视频中所述任一帧第一图像对应的第二图像的分辨率相同;基于各帧第一图像对应的第二图像和重建图像,对所述神经网络模型进行训练,得到视频重建模型,所述视频重建模型用于对待重建视频进行重建得到目标视频,所述目标视频的分辨率高于所述待重建视频的分辨率。2.根据权利要求1所述的方法,其特征在于,所述通过神经网络模型对所述任一帧第一图像进行加噪处理,得到预测噪声信息,包括:通过神经网络模型从所述第一视频中确定所述任一帧第一图像的参考图像;通过所述神经网络模型根据所述参考图像和所述任一帧第一图像,确定所述任一帧第一图像的图像特征;通过所述神经网络模型对所述任一帧第一图像的图像特征进行加噪处理,得到预测噪声信息。3.根据权利要求2所述的方法,其特征在于,所述通过所述神经网络模型根据所述参考图像对所述任一帧第一图像,确定所述任一帧第一图像的图像特征,包括:通过所述神经网络模型基于所述参考图像和所述任一帧第一图像,确定图像变化特征,所述图像变化特征用于表征将所述参考图像变成所述任一帧第一图像所进行的变化;通过所述神经网络模型对所述参考图像进行特征提取,得到所述参考图像的图像特征;通过所述神经网络模型基于所述参考图像的图像特征和所述图像变化特征,确定所述任一帧第一图像的图像特征。4.根据权利要求3所述的方法,其特征在于,所述通过所述神经网络模型基于所述参考图像的图像特征和所述图像变化特征,确定所述任一帧第一图像的图像特征,包括:通过所述神经网络模型对所述任一帧第一图像进行特征提取,得到所述任一帧第一图像的第一特征;通过所述神经网络模型基于所述图像变化特征对所述参考图像的图像特征进行变化处理,得到所述任一帧第一图像的第二特征;通过所述神经网络模型对所述任一帧第一图像的第一特征和第二特征进行融合,得到所述任一帧第一图像的图像特征。5.根据权利要求1所述的方法,其特征在于,所述加噪处理的次数为多次;所述通过神经网络模型对所述任一帧第一图像进行加噪处理,得到预测噪声信息,包括:通过神经网络模型确定所述任一帧第一图像的图像特征;通过所述神经网络模型对所述任一帧第一图像的图像特征进行第一次加噪处理,得到所述任一帧第一图像在第一次加噪处理后得到的特征;对于除所述第一次加噪处理之外的任一次加噪处理,通过所述神经网络模型对所述任
一帧第一图像在所述任一次加噪处理的上一次加噪处理后得到的特征进行所述任一次加噪处理,得到所述任一帧第一图像在所述任一次加噪处理后得到的特征,所述任一帧第一图像在最后一次加噪处理后得到的特征为所述预测噪声信息。6.根据权利要求1所述的方法,其特征在于,所述去噪处理的次数为多次;所述对所述预测噪声信息进行去噪处理,得到所述任一帧第一图像对应的重建图像,包括:通过所述神经网络模型对所述预测噪声信息进行第一次去噪处理,得到所述任一帧第一图像在第一次去噪处理后得到的特征;对于除所述第一次去噪处理之外的任一次去噪处理,通过所述神经网络模型对所述任一帧第一图像在所述任一次去噪处理的上一次去噪处理后得到的特征进行所述任一次去噪处理,得到所述任一帧第一图像在所述任一次去噪处理后得到的特征;通过所述神经网络模型基于所述任一帧第一图像在最后一次去噪处理后得到的特征,确定所述任一帧第一图像对应的重建图像。7.根据权利要求1所述的方法,其特征在于,所述对所述预测噪声信息进行去噪处理,得到所述任一帧第一图像对应的重建图像,包括:获取所述任一帧第一图像的描述信息;基于所述任一帧第一图像的描述信息,对所述预测噪声信息进行去噪处理,得到所述任一帧第一图像对应的重建图像。8.根据权利要求1至7任一项所述的方法,其特征在于,所述基于各帧第一图像对应的第二图像和重建图像,对所述神经网络模型进行训练,得到视频重建模型,包括:对于任一帧第一图像,基于所述任一帧第一图像对应的第二图像和重建图像之间的误差,确定所述任一帧第一图像对应的图像损失;基于各帧第一图像对应的图像损失,对所述神经网络模型进行训练,得到视频重建模型。9.根据权利要求1至7任一项所述的方法,其特征在于,所述基于各帧第一图像对应的第二图像和重建图像,对所述神经网络模型进行训练,得到视频重建模型,包括:获取各帧第一图像的标注加噪数据,任一帧第一图像的标注加噪数据表征将所述任一帧第一图像加噪成标注噪声信息的过程中添加的噪声;获取各帧第二图像的标注去噪数据,任一帧第二图像的标注去噪数据表征将所述标注噪声信息去噪成所述任一帧第二图像的过程中去除的噪声;对于所述任一帧第一图像,获取在通过神经网络模型对所述任一帧第一图像进行加噪处理得到预测噪声信息的过程中添加的预测加噪数据,并获取在通过所述神经网络模型对所述预测噪声信息进行去噪处理得到重建图像的过程中去除的预测去噪数据;基于所述各帧第二图像的标注去噪数据、所述各帧第一图像的标注加噪数据、预测加噪数据和预测去噪数据,确定第一损失;基于所述第一损失、所述各帧第一图像对应的第二图像和重建图像,对所述神经网络模型进行训练,得到视频重建模型。10.根据权利要求9所述的方法,其特征在于,所述基于所述各帧第二图像的标注去噪数据、所述各帧第一图像的标注加噪数据、预测加噪数据和预测去噪数据,确定第一损失,
包括:基于所述各帧第二图像的标注去噪数据和所述各帧第一图像对应的预测去噪数据,确定去噪数据损失;基于所述各帧第一图像的标注加噪数据和所述各帧第一图像对应的预测加噪数据,确定加噪数据损失;基于所述去噪数据损失和所述加噪数据损失,确定所述第一损失。11.一种视频重建方法,其特征在于,所述方法包括:获取待重建视频;通过视频重建模型对所述待重建视频进行加噪处理,得到参考噪声信息,对所述参考噪声信息进行去噪处理,得到目标视频;其中,所述视频重建模型是按照权利要求1至10任一项所述的方法训练得到的,所述目标视频和所述待重建视频的内容相同,所述目标视频的分辨率高于所述待重建视频。12.根据权利要求11所述的方法,其特征在于,所述通过视频重建模型对所述待重建视频进行加噪处理,得到参考噪声信息,包括:对于所述待重建视频中的任一帧待重建图像,通过视频重建模型从所述待重建视频中确定所述任一帧待重建图像的基准图像;通过所述视频重建模型根据所述基准图像和所述任一帧待重建图像,确定所述任一帧待重建图像的图像特征;通过所述视频重建模型对所述任一帧待重建图像的图像特征进行加噪处理,得到参考噪声信息。13.根据权利要求11所述的方法,其特征在于,所述对所述参考噪声信息进行去噪处理,得到目标视频,包括:对于所述待重建视频中的任一帧待重建图像,获取所述任一帧待重建图像的描述信息;基于所述任一帧待重建图像的描述信息,对所述参考噪声信息进行去噪处理,得到所述任一帧待重建图像对应的目标图像。14.一种视频重建模型的训练装置,其特征在于,所述装置包括:获取模块,用于获取内容相同的第一视频和第二视频,所述第二视频的分辨率高于所述第一视频;加噪去噪模块,用于对于所述第一视频中的任一帧第一图像,通过神经网络模型对所述任一帧第一图像进行加噪处理,得到预测噪声信息,对所述预测噪声信息进行去噪处理,得到所述任一帧第一图像对应的重建图像,所述任一帧第一图像对应的重建图像与所述第二视频中所述任一帧第一图像对应的第二图像的分辨率相同;训练模块,用于基于各帧第一图像对应的第二图像和重建图像,对所述神经网络模型进行训练,得到视频重建模型,所述视频重建模型用于对待重建视频进行重建得到目标视频,所述目标视频的分辨率高于所述待重建视频的分辨率。15.一种视频重建装置,其特征在于,所述装置包括:获取模块,用于获取待重建视频;加噪去噪模块,用于通过视频重建模型对所述待重建视频进行加噪处理,得到参考噪
声信息,对所述参考噪声信息进行去噪处理,得到目标视频;其中,所述视频重建模型是按照权利要求1至10任一项所述的方法训练得到的,所述目标视频和所述待重建视频的内容相同,所述目标视频的分辨率高于所述待重建视频。16.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述电子设备实现如权利要求1至10任一所述的视频重建模型的训练方法或者实现如权利要求11至13任一所述的视频重建方法。17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使电子设备实现如权利要求1至10任一所述的视频重建模型的训练方法或者实现如权利要求11至13任一所述的视频重建方法。

技术总结
本申请公开了一种视频重建模型的训练方法、视频重建方法、装置及设备,属于计算机视觉技术领域。方法包括:获取内容相同的第一视频和第二视频,第二视频的分辨率高于第一视频;通过神经网络模型对第一视频中的任一帧第一图像进行加噪处理得到预测噪声信息,对预测噪声信息进行去噪处理得到任一帧第一图像对应的重建图像,第一图像对应的重建图像与第二视频中第一图像对应的第二图像的分辨率相同;基于各帧第一图像对应的第二图像和重建图像,对神经网络模型进行训练得到视频重建模型。通过去噪处理,可以保留图像中的细节信息,提高重建图像的清晰度,从而提高模型的准确度。从而提高模型的准确度。从而提高模型的准确度。


技术研发人员:蔡德
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2023.08.18
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐