图像修复方法及装置与流程

未命名 08-06 阅读:85 评论:0


1.本公开在一些实施方式中涉及图像修复方法和图像修复装置。


背景技术:

2.本部分中的陈述仅提供与本公开相关的背景信息,并且不一定构成现有技术。
3.各种字幕被添加至视频以帮助观看者理解视频或制作更有趣的视频。例如,当针对国内观众导入时,外国视频会将表演者的语音等翻译并添加为字幕。另外,字幕有助于即使在嘈杂的环境中也能传达内容。
4.然而,在一些情况下,字幕转变为对观看视频的阻碍。例如,观看视频以学习外语的观看者可能发现字幕干扰他们的学习。另外,过度的字幕可能遮挡屏幕的多个部分,从而使得难以专注于视频。此外,如果添加了外语字幕并且观看者不理解它,则没有字幕可能更好。
5.当字幕和视频作为单独的信道存在时,编辑或移除字幕不是困难的。然而,当字幕与视频集成并且添加字幕之前的原始视频不可用时,出现困难。在这种情况下,视频通常被改变以隐藏字幕(例如,通过模糊字幕区域、在加字幕的区域上添加半透明和/或不透明的带或者在一些严重的情况下,从视频中切除整个字幕区域)。
6.因此,越来越需要在不破坏视频的情况下对被字幕遮挡的区域进行修复的技术。
7.现有的图像修复技术包括通过参考要移除的区域的邻近像素信息对被遮挡区域进行修复的基于扩散的方法以及将屏幕划分成多个区域并且然后选择合适的区域来替换被遮挡区域的基于补丁(patch)的方法。


技术实现要素:

8.技术问题
9.在一些实施方式中,本公开试图提供一种图像修复方法和图像修复装置,其通过以下操作生成具有高质量的修复图像:从输入图像选择要从其移除字幕的目标帧和用于获得关于被字幕遮挡的区域的信息的参考帧,从而执行基于帧间相关性的图像修复和/或基于帧内相关性的图像修复。
10.技术方案
11.本公开的至少一个方面提供了一种修复被包括在图像中的对象遮挡的图像区域的方法,所述方法包括以下步骤:从所述图像的帧当中选择包括要移除的所述对象的目标帧和包括关于位于所述目标帧内并被所述对象遮挡的修复区域的信息的参考帧;以及通过根据被选为所述参考帧的帧的数量执行帧间修复或帧内修复中的至少一者来修复所述目标帧。
12.本公开的另一方面提供了一种用于修复被包括在图像中的对象遮挡的图像区域的装置,所述装置包括帧选择单元和修复单元。所述帧选择单元被配置为选择包括要移除的所述对象的目标帧和包括关于位于所述目标帧内并被所述对象遮挡的修复区域的信息
的参考帧。所述修复单元被配置为根据所述参考帧的数量执行帧间修复或帧内修复中的至少一者,以生成修复帧。
13.有益效果
14.如上所述,根据至少一个实施方式的本公开可以通过以下操作生成高质量的修复图像:从输入图像选择要从其移除字幕的目标帧和用于获得关于被字幕遮挡的区域的信息的参考帧,从而执行基于帧间相关性的图像修复和/或基于帧内相关性的图像修复。
15.此外,根据实施方式的本公开可以从具有字幕编辑的完成图像获得编辑之前的原始图像,从而实现购买原始图像、存储原始图像以及执行图像处理方面的成本降低。
附图说明
16.图1是根据本公开的至少一个实施方式的图像修复装置的示意性框图。
17.图2至图4c例示了根据本公开的第一实施方式的帧选择单元。
18.图5例示了根据本公开的第二实施方式的帧选择单元。
19.图6是根据本公开的第二实施方式的帧选择过程的流程图。
20.图7是用于例示根据本公开的至少一个实施方式的帧间修复单元的网络的图。
21.图8a和图8b是用于例示根据本公开的至少一个实施方式的目标帧与参考帧之间的相似度计算的图。
22.图9是用于例示根据本公开的至少一个实施方式的用于注意力匹配的参考帧的特征索引的图。
23.图10是用于例示根据本公开的至少一个实施方式的具有非对称输入-输出结构的自动编码器网络的图。
24.图11是用于例示根据本公开的至少一个实施方式的帧内修复单元的图。
25.图12是用于例示根据本公开的至少一个实施方式的粗略预测单元的图。
26.图13是用于例示根据本公开的至少一个实施方式的细化处理单元的图。
27.图14是用于例示根据本公开的至少一个实施方式的合并网络训练的图。
具体实施方式
28.在下文中,将参照附图详细描述本公开的一些实施方式。在以下描述中,尽管在不同的附图中示出了元件,但是相同的附图标记表示相同的元件。此外,在以下对一些实施方式的描述中,为了清楚和简洁起见,在被认为使本公开的主题模糊时将省略相关的已知组件和功能的详细描述。
29.另外,诸如第一、第二、a、b、(a)、(b)等的各种用语仅用于将一个组件与另一组件区分开,而不隐含或暗示部件的实质、次序或顺序。在整个说明书中,当部件“包括”或“包含”组件时,该部件还意指包括其它组件,除非特别相反说明,否则不排除该其它组价。诸如“单元”、“模块”等的术语是指用于处理至少一个功能或操作的一个或更多个单元,其可以由硬件、软件或其组合来实现。
30.下面的描述通过将字幕作为要被图像修复装置移除的示例目标对象来呈现本公开的各种实施方式。然而,这仅仅是为了说明的目的,并且不将本公开限制于这样的实施方式。例如,根据本公开的至少一个实施方式的图像修复装置可以修复被诸如特定商标和/或
标志的对象遮挡的图像区域。
31.图1是根据本公开的至少一个实施方式的图像修复装置的示意性框图。
32.如图1所示,根据至少一个实施方式的图像修复装置10包括输入帧数据库(db)100、帧元数据db 110、掩码生成单元120、帧选择单元130、修复单元140、帧合并单元150和输出帧db 160中的全部或一些。并非图1中所示的所有框都是必要的组件,并且在其它实施方式中,可以添加、改变或删除包括在图像修复装置10中的框中的一些框。例如,如果仅对目标帧选择并执行帧间修复和帧内修复中的一者,则图像修复装置可以不包括帧合并单元150。图像修复装置10的每个组件可以以硬件或软件或硬件和软件的组合来实现。另外,每个组件可以具有以软件实现的功能,并且一个或更多个处理器可以被实现为执行与每个组件相对应的软件功能。
33.输入帧db 100逐帧地从包含要移除的对象(例如,字幕)的输入图像生成帧,并且存储帧。
34.帧元数据db 110从输入图像提取场景转换信息、字幕位置信息、字幕中使用的文本信息和/或字幕中使用的字体信息,并存储所提取的信息。
35.掩码生成单元120基于字幕中使用的文本和字体生成表示字幕区域的掩码图像。
36.帧选择单元130基于帧元数据和/或掩码图像从输入帧当中选择包括要移除的对象的目标帧和包括关于被对象遮挡的目标帧内的修复区域的信息的参考帧。在一些实施方式中,帧选择单元130可以使用目标帧内检测到对象的区域的邻近像素来计算目标帧和与目标帧相邻的帧之间的相似度,以选择相似度高于预定阈值相似度的帧作为参考帧,并且生成关于参考帧内具有最高相似度的相似区域的信息。
37.将参照图2至图6b描述帧选择单元130的具体描述。
38.修复单元140基于目标帧、参考帧和掩码图像从目标帧中移除字幕,并修复被字幕遮挡的区域。在本公开中,“修复”用于表示通过参考其它帧中的像素和/或其它输入帧中的其它位置处的像素来重构被字幕202遮挡的区域中的像素。修复单元包括帧间修复单元142和帧内修复单元144。帧间修复单元142基于帧间相关性执行目标帧的修复,而帧内修复单元144基于帧内相关性执行目标帧的修复。在下文中,基于帧间相关性的修复称为帧间修复,并且基于帧内相关性的修复称为帧内修复。
39.根据本公开的至少一个实施方式的修复单元140基于关于由帧选择单元130选择的目标帧和参考帧的信息来执行帧间修复或帧内修复中的至少一者。根据实施方式,修复单元140可以基于被选为参考帧的帧的数量执行帧间修复或帧内修复中的至少一者以修复目标帧。根据实施方式,修复单元140可以通过从帧选择单元130接收关于目标帧、参考帧和相似区域的信息来修复目标帧。
40.将参照图7至图13呈现帧间修复单元142和帧内修复单元144的更详细的描述。
41.帧合并单元150对帧间修复单元142的输出和帧内修复单元144的输出进行合成,或者选择帧间修复单元142的输出和帧内修复单元144的输出中的一者以用作修复帧。将参照图14更详细地描述帧合并单元150。
42.输出帧db 160存储从中移除了字幕的输出图像的帧。
43.下面参照图2至图4c描述根据本公开的第一实施方式的帧选择单元。
44.图2至图4c例示了根据本公开的第一实施方式的帧选择单元。
45.如图2所示,根据本公开的至少一个实施方式的帧选择单元130从时间上位于目标帧之前的先前帧和/或时间上位于目标帧之后的后续帧选择与目标帧具有高相似度的前向参考帧和后向参考帧,并且提取参考帧的相似区域信息。这里,前向参考帧是指先前帧当中的与目标帧具有高相似度的帧,并且后向参考帧是指后续帧当中的与目标帧具有高相似度的帧。
46.帧选择单元130将目标帧、参考帧和参考帧的相似区域信息作为输入提供给在修复单元140中提供的深度神经网络。
47.在下文中,在描述根据本公开的至少一个实施方式的帧选择单元130如何提取相似区域信息之前,将参照图3a和图3b解释本公开中使用的术语。
48.如图3a所示,检测区域302表示帧内的区域或检测到(字幕)的帧的特定区域300。根据本公开的至少一个实施方式,帧选择单元130可以使用光学字符识别(ocr)来检测字幕,但不限于这样的示例。邻近区域304表示距检测区域302特定距离的区域和/或包括检测区域302的矩形区域。
49.如图3b所示,可以基于检测区域302和字幕将帧或帧的特定区域300划分为外部区域300a、内部区域300b和字幕区域300c。外部区域300a是指未检测到字幕的区域(即,检测区域302的外部区域)。内部区域300b是指检测区域302内的不对应于字幕的区域。字幕区域300c是指检测区域302内的对应于字幕的区域,其是执行字幕移除和修复的区域。
50.基于以上术语,现在将参照图4a至图4c来描述根据本公开的至少一个实施方式的帧选择单元130如何提取相似区域信息。虽然以下描述了从两个先前帧中提取相似区域信息的方法,但这仅是出于例示性目的,并且该方法可以同样适用于一个或更多个先前帧和/或一个或更多个后续帧。
51.图4a例示了圆形形状随时间推移移动至帧的右下角的示例。图4a描绘了要在时间t移除字幕的目标帧(f
t
)420以及时间上位于目标帧之前的先前帧(f
t-2
)400和(f
t-1
)410。虽然图4a例示了先前帧400和410被加字幕(即,在先前帧400和410内包括检测区域402和412)的示例,但是这仅仅是为了例示的目的,并且先前帧400和410可以不被加字幕,或者可以被加具有与目标帧420不同的内容的字幕。
52.如图4b所示,根据本公开的至少一个实施方式的帧选择单元130通过使用目标帧420的邻近区域424来执行模板匹配以从先前帧400和410找到与目标帧420具有最高相似度的相似区域430和440。
53.虽然图4b例示了使用检测区域422的所有邻近像素执行模板匹配的示例,但是可以通过将检测区域422的邻近像素划分成块来执行模板匹配。此外,执行模板匹配的方法包括本领域普通技术人员可以容易地采用的任何方法,并且不限于任何特定方法。
54.根据本公开的至少一个实施方式的帧选择单元130可以通过使用绝对差之和(sad)和/或均方差(msd)来计算特定区域之间的相似度,但不限于这些示例,并且本领域普通技术人员可以使用其它方法来计算特定区域之间的相似度。帧选择单元130不计算目标帧420与先前帧400和410的内部区域的相似度。
55.根据本公开的至少一个实施方式的帧选择单元130选择检测到了相似度高于预定阈值相似度的相似区域430和440的先前帧400和410作为后向参考帧。换句话说,如果先前帧430和440中不存在相似度高于预定阈值相似度的区域,则这些先前帧不被选为后向参考
帧。
56.根据本公开的至少一个实施方式的帧选择单元130针对被选为后向参考帧的先前帧400和410提取相似区域信息和关于目标帧与先前帧之间的距离的信息。
57.相似区域信息可以包括相似度、相似区域的位置信息和/或关于从相似区域细分的一个或更多个区域的信息。
58.根据本公开的至少一个实施方式的帧选择单元130可以基于字幕在参考帧内的位置将相似区域划分成至少一个或更多个区域,并且将不同的索引和/或权重指派给划分的区域。例如,如图4c所示,帧选择单元130将相似区域430和440划分成外部区域430a和440a、内部区域430b和440b以及字幕区域440c,并且向每个区域指派不同的索引和/或权重。例如,外部区域430a和440a可以被指派值“2”,内部区域430b和440b可以被指派值“1”,并且字幕区域440c可以被指派值“0”。使用所指派的索引和/或权重,帧选择单元130可以将相似区域430和440划分成有效、重要、值得注意等的区域以用于修复。
59.另一方面,根据本公开的另一实施方式的帧选择单元130可以通过使用视频编解码器的运动向量而不是模板匹配来选择参考帧,并且提取关于相似区域的信息和关于目标帧与参考帧之间的距离的信息。
60.现在参照图5和图6,将描述根据本公开的第二实施方式的帧选择单元。
61.图5例示了根据本公开的第二实施方式的帧选择单元。
62.如图5所示,根据本公开的至少一个实施方式的帧选择单元130包括流控制单元500、后向参考帧队列510、目标帧列表520和前向参考帧队列530中的全部或一些。并非图5中所示的所有块都是必要的组件,并且在其它实施方式中,可以添加、改变或删除包括在帧选择单元130中的块中的一些块。
63.流控制单元500基于帧元数据从输入帧确定目标帧、后向参考帧和前向参考帧。在这种情况下,参考帧是指时间上与目标帧相邻并且具有可以替换目标帧的字幕的高度相关像素值的帧。此外,后向参考帧意指时间上位于目标帧之前的参考帧,并且前向参考帧意指时间上位于目标帧之后的参考帧。
64.根据本公开的至少一个实施方式,在选择参考帧时,流控制单元500可以从完成修复处理的处理帧当中选择参考帧,而且可以选择具有与目标帧中的修复区域不交叠的修复区域的处理帧作为参考帧。例如,参考帧可以不包括字幕,或者即使其的确具有字幕,也是具有不与目标帧的字幕区域交叠的字幕区域。
65.根据本公开的至少一个实施方式,流控制单元500按时间顺序依次检查输入帧以确定目标帧,并且允许时间上最接近所确定的目标帧的后向参考帧和/或前向参考帧被加载到后向参考帧队列510和/或前向参考帧队列530中。
66.根据本公开的至少一个实施方式,流控制单元500可以按时间顺序依次检查输入帧以选择不包含字幕的帧作为后向参考帧和确实包含字幕的帧作为目标帧。流控制单元500可以按时间顺序检查时间上在所选目标帧之后的一个或更多个帧,并且选择不包括字幕的帧作为前向参考帧。
67.根据本公开的至少一个实施方式,流控制单元500基于由帧元数据db 110提供的场景转换信息逐场景地确定目标帧和参考帧。也就是说,流控制单元500基于从图像提取的场景转换信息从同一场景内的输入帧当中选择目标帧和参考帧。具体地,当发生场景转换
时,流控制单元500初始化后向参考帧队列510和前向参考帧队列530,从而防止与目标帧具有低相关性的帧用作参考帧。
68.根据本公开的至少一个实施方式,流控制单元500将n(n=自然数)个帧组织成帧处理的一个单元,并且当目标帧(t)的数量、后向参考帧(b)的数量和前向参考帧(f)的数量之和变为n个帧时,向帧间修复单元142或帧内修复单元144中的至少一者提供目标帧和/或参考帧。
69.具体地,如果在n个帧处理单元内没有参考帧(b+f=0),则流控制单元500向帧内修复单元144提供目标帧列表520中的t个目标帧中的m(m=自然数)个目标帧,并且将m个修复帧添加至后向参考帧队列510以用作参考帧。另一方面,如果在n个帧处理单元内存在参考帧(b+f>0),则流控制单元500向帧间修复单元142提供t个目标帧、b个后向参考帧和f个前向参考帧。此时,流控制单元500还可以向帧内修复单元144提供t个目标帧。
70.换句话说,当没有帧被选为参考帧时,修复单元140可以执行帧内修复,并且当存在被选为参考帧的帧时,修复单元140可以执行帧间修复。根据实施方式,当目标帧的数量和参考帧的数量之和大于帧处理单元的预设单元时,修复单元140可以执行帧间修复或帧内修复中的至少一者。根据实施方式,当没有帧被选为参考帧时,修复单元140可以对目标帧中的一些执行帧内修复以生成修复帧,并且可以使用修复帧作为参考帧来对目标帧当中的剩余帧执行帧间修复。
71.将参照图6a和图6b呈现确定目标帧和参考帧的流控制单元500的具体描述。
72.后向参考帧队列510存储由流控制单元500确定的后向参考帧。前向参考帧队列530存储由流控制单元500确定的前向参考帧。参考帧队列510和530各自基于帧的预设最大数量插入新的参考帧和/或移除最旧的参考帧以允许时间上最接近目标帧的后向参考帧和/或前向参考帧被加载到后向参考帧队列510和/或前向参考帧队列530。参考帧队列510和530各自在流控制单元500的控制下向帧间修复单元142提供至少一个后向参考帧和/或至少一个前向参考帧。
73.目标帧列表520存储由流控制单元500确定的目标帧。目标帧列表520在流控制单元500的控制下将至少一个目标帧提供给帧间修复单元142或帧内修复单元144中的至少一者。
74.图6是根据本公开的第二实施方式的帧选择过程的流程图。
75.流控制单元500检查输入帧当中的第n(n=自然数)帧是否具有要移除的字幕(s600)。当第n帧不具有要移除的字幕时,流控制单元500将第n帧添加至后向参考帧队列510(s602),将n增加1,并且从开始重复帧选择过程(s604)。换句话说,流控制单元500按时间顺序并且依次检查输入帧以确定帧是否具有要移除的字幕。
76.当第n帧具有要移除的字幕时,流控制单元500检查后向参考帧队列510中是否存在后向参考帧(s610)。
77.当不存在后向参考帧时,流控制单元500检测完成了字幕移除过程的帧当中的后向参考帧,并将检测到的后向参考帧添加至后向参考帧队列510(s612)。具体地,流控制单元500在经历了字幕移除的已处理帧当中检测具有与第n帧的字幕区域不交叠的字幕区域的帧作为后向参考帧,并将检测到的帧添加至后向参考帧队列510。
78.流控制单元500检测位于第n帧之后的后续帧当中的前向参考帧,并将检测到的前
向参考帧添加至前向参考帧队列530(s620)。具体地,流控制单元500依次检查从第(n+1)帧到发生下一场景转换之前的时间点处的帧是否存在字幕,并将不具有要移除的字幕的帧添加至前向参考帧队列530。换句话说,流控制单元500将以时间上接近于第n帧的帧开始的前向参考帧添加至前向参考帧队列530,并且将预设最大数量或更少的前向参考帧添加至前向参考帧队列530。
79.流控制单元500将第n帧添加至目标帧列表520(s630)。
80.流控制单元500确定存储在目标帧列表520中的目标帧的数量与存储在后向参考帧队列510和前向参考帧队列530中的参考帧的数量之和(t+b+f)是否大于n(n是帧处理的单元)(s640)。
81.当目标帧的数量与参考帧的数量之和小于帧处理单元n时,流控制单元500确定第n帧是否为最后帧(s642)。这里,最后帧是指所有输入帧当中的最后帧或发生下一场景转换之前的最后帧。
82.当第n帧不是最后帧时,流控制单元500将n增加1并且从开始重复帧选择过程(s604)。换句话说,流控制单元500基于帧处理单元和场景转换时间点来调整要修复的帧的数量。
83.当目标帧的数量与参考帧的数量之和大于帧处理单元n时,或者当第n帧为最后帧时,流控制单元500检查参考帧的数量是否为零。
84.当参考帧的数量为零时,流控制单元500将存储在目标帧列表520中的目标帧的m(m=自然数)个帧提供给帧内修复单元144,并且从目标帧列表520移除那些m个帧(s652)。因此,帧内修复单元144针对m个目标帧执行帧内修复。
85.流控制单元500将由帧内修复单元144修复的m个帧添加至后向参考帧队列510以用作参考帧(s654)。
86.当作为步骤s650的检查的结果,参考帧的数量不为零时,或者在步骤s654将参考帧添加至后向参考帧队列510之后,流控制单元500检查目标帧的数量是否为零(s660)。
87.当目标帧的数量不为零时,流控制单元500向帧间修复单元142提供存储在目标帧列表520中的目标帧和存储在后向参考帧队列510和前向参考帧队列530中的参考帧,并初始化目标帧列表520(s662)。因此,帧间修复单元142对存储在目标帧列表520中的所有目标帧执行帧内修复。另一方面,根据本公开的另一实施方式的流控制单元500可以在初始化目标帧列表520之前将存储在目标帧列表520中的目标帧提供至帧内修复单元144。
88.流控制单元500检查第n帧是否是最后帧(s670)。这里,最后帧是指所有输入帧当中的最后帧或发生下一场景转换之前的最后帧。
89.当第n帧不是最后帧时,流控制单元500将n增加1并且从开始重复帧选择过程(s604)。也就是说,流控制单元500从时间上位于第n帧之后的帧当中选择要移除字幕一个或更多个目标帧并且选择与目标帧高度相关的帧作为参考帧。
90.当第n帧不是最后帧时,流控制单元500终止帧选择过程。另一方面,当第n帧是发生下一场景转换之前的最后帧时,流控制单元500可以初始化后向参考帧队列510和前向参考帧队列530,并从开始重复帧选择过程。
91.现在参照图7至图10,将描述根据本公开的至少一个实施方式的帧间修复单元。
92.帧间修复单元142利用目标帧与参考帧之间的相似度从与目标帧高度相关的参考
帧获得新的像素值以替换要从目标帧移除的字幕的位置处的像素的值,并合成所获得的像素值以执行局部图像修复。
93.图7是用于例示根据本公开的至少一个实施方式的帧间修复单元的网络的图。
94.如图7所示,帧间修复单元142使用由基于神经网络的自动编码器训练的编码器网络700至706提取作为目标帧和参考帧的特征的值特征、关键特征和查询特征。
95.帧间修复单元142使用注意力匹配单元710对目标帧中与字幕区域相邻的邻近区域的查询特征与参考帧的关键特征进行注意力匹配,并计算注意力分数。基于注意力分数,帧间修复单元142在参考帧中找到与目标帧中的检测区域具有高相似度的相似区域。下面将利用图8a至图9描述根据本公开的至少一个实施方式的注意力匹配单元710。
96.帧间修复单元142可以基于所计算的相似度生成修复帧。帧间修复单元142可以生成补偿值特征以填充目标帧的字幕区域,并将所生成的补偿值特征输入至解码器网络720以生成最终修复像素。
97.现在参照图8a至图9,将描述根据本公开的至少一个实施方式的注意力匹配单元710。
98.下面首先描述根据本公开的至少一个实施方式的注意力匹配单元710通过使用修改的三维卷积计算目标帧与参考帧之间的相似度的方法。
99.图8a和图8b是用于例示根据本公开的至少一个实施方式的目标帧与参考帧之间的相似度计算的图。
100.图8a例示了根据本公开的至少一个实施方式的使用修复区域的特征信息的相似度计算方法。
101.常规的注意力匹配单元使用矩阵乘法来获得关键特征向量与查询特征向量之间的相似度(即,向量之间的相似度)。然而,由于这些方法仅计算已经通过神经网络的单个点(即,小区域)的相关性,所以无法使用要修复的周围像素来计算大区域之间的相似度。然而,根据本公开的至少一个实施方式的注意力匹配单元710使用卷积来计算关键特征矩阵与查询特征矩阵之间的相似度(即,矩阵之间的相似度)。
102.如图8a所示,根据本公开的至少一个实施方式的编码器接收作为输入的具有(w,h)大小的目标帧和参考帧,并生成具有(w’,h’,f)大小的三维矩阵。例如,编码器可以从目标帧生成查询特征矩阵并且从参考帧生成关键特征矩阵。在这种情况下,w’和h’是由编码器缩放的帧大小,并且f是由编码器提取的特征的数量。类似地,如果包含在目标帧中的修复区域具有(iw,ih)大小,则由编码器缩放的修复区域具有(iw’,ih’)大小。因此,通过从目标帧的三维矩阵中仅提取要修复的区域的三维矩阵而获得的查询特征矩阵具有(iw’,ih’,f)大小。此外,关键特征矩阵是针对参考帧的三维矩阵,并且具有(w’,h’,f)大小。
103.根据本公开的至少一个实施方式的注意力匹配单元710通过使用查询特征矩阵与关键特征矩阵之间的修改的3d卷积来计算相似度矩阵。修改的三维卷积的数学表示在式1中示出。
104.[式1]
[0105]
[0106]
这里,s为相似度矩阵,q为查询特征矩阵,并且k为关键特征矩阵。相似度矩阵的每个分量可以表示查询特征矩阵与包括关键特征矩阵的至少一部分的矩阵之间的相似度。
[0107]
根据本公开的至少一个实施方式的注意力匹配单元710将softmax或sparsemax函数应用于相似度矩阵以将相似度矩阵变换为概率信息。
[0108]
如上所述,常规的注意力匹配单元通过首先将三维矩阵转换为二维矩阵然后使用二维矩阵之间的矩阵乘积来计算目标帧和参考帧中的特定点之间的相似度,但是根据本公开的至少一个实施方式的注意力匹配单元710可以通过使用三维矩阵之间的卷积来计算目标帧和参考帧中的特定区域之间的相似度。
[0109]
图8b例示了根据本公开的至少一个实施方式的使用邻近区域的特征信息的相似度计算方法。
[0110]
如图8a所描述的,根据本公开的至少一个实施方式的注意力匹配单元710通过提取要修复的修复区域的特征来计算相似度。另一方面,参照图8b,根据本公开的另一实施方式的注意力匹配单元710提取修复区域的邻近区域而不是修复区域的特征,并生成查询特征矩阵。
[0111]
换句话说,根据实施方式,可以从修复区域或修复区域的邻近区域生成查询特征矩阵。
[0112]
下面描述根据本公开的至少一个实施方式的注意力匹配单元710基于目标帧与参考帧之间的估计量自适应地执行特征索引的方法。
[0113]
图9是用于例示根据本公开的至少一个实施方式的用于注意力匹配的参考帧的特征索引的图。
[0114]
为了利用目标帧的修复区域的特征进行注意力匹配,常规的注意力匹配单元710索引和使用参考帧的所有可用(有效)特征。然而,因为在统计上在图像序列上的相邻帧之间发生的移动量小,所以当使用从与目标帧的修复区域相邻的位置提取的特征来计算参考帧的所有有效特征时,将很可能获得高注意力分数。换句话说,将参考帧的特征索引到整个帧在计算上是昂贵的,并且可能由于不正确的注意力匹配而导致不期望的质量劣化。
[0115]
根据本公开的至少一个实施方式的注意力匹配单元710通过估计目标帧与参考帧的移动量来可变地执行参考帧的特征索引。
[0116]
在生成关键特征矩阵时,根据本公开的至少一个实施方式的注意力匹配单元710可以基于目标帧与参考帧之间的移动量来针对至少一个或更多个参考帧中的每一个执行特征索引。
[0117]
根据本公开的至少一个实施方式的注意力匹配单元710可以在每个参考帧中相对于每个参考帧中具有与目标帧的修复区域相同大小和位置的区域基于目标帧与每个参考帧之间的移动量来确定进行特征索引的有效区域。换句话说,注意力匹配单元710对包括在有效区域914、924和934中的特征执行特征索引。例如,参照图9,注意力匹配单元710可以在参考帧内在与目标帧的修复区域902相同的位置处围绕区域912、922和932扩展有效区域914、924和934。
[0118]
根据本公开的至少一个实施方式的注意力匹配单元710估计目标帧与参考帧之间的移动量,并且基于估计移动量来确定有效区域的扩展程度。换句话说,注意力匹配单元710基于目标帧与参考帧之间的估计移动量自适应地调整有效区域914、924和934的大小。
例如,当目标帧与参考帧之间的估计移动量小时,注意力匹配单元710减小有效区域的大小,并且当目标帧与参考帧之间的估计移动量大时,注意力匹配单元710增大有效区域的大小。
[0119]
如图9所示,第一参考帧特征图910表示从具有小的估计移动量的参考帧提取的特征图,第二参考帧特征图920表示从具有中等的估计移动量的参考帧提取的特征图,并且第三参考帧特征图930表示从具有大的估计移动量的参考帧提取的特征图。因此,如图9所示,第一参考帧特征图910的有效区域914被确定为大小最小,并且第三参考帧特征图930的有效区域934被确定为最大。
[0120]
根据本公开的至少一个实施方式的注意力匹配单元710可以基于目标帧与参考帧之间的时间距离来估计移动量。例如,注意力匹配单元710可以估计目标帧与参考帧之间的时间距离越大,移动量就越大。根据本公开的其它实施方式,注意力匹配单元710可以基于与目标帧中的修复区域相邻的区域中的像素已经从参考帧移位多少来估计移动量。注意力匹配单元710的估计移动量的方法不限于前述示例,并且本领域普通技术人员可以利用其它方法来估计帧之间的移动量。
[0121]
现在参照图10,将描述根据本公开的至少一个实施方式的具有非对称输入-输出结构的自动编码器网络。
[0122]
图10是例示了根据本公开的至少一个实施方式的具有非对称输入-输出结构的自动编码器网络的图。
[0123]
常规的自动编码器网络被设计成具有输入图像的分辨率与输出图像的分辨率相同的对称结构。因此,输入图像的分辨率越大,网络的计算和存储器用量越多,为了解决该缺陷,通过下采样器、自动编码器、上采样器和合成单元的结构修复图像的过程分为四个步骤。
[0124]
这里,下采样器将包括修复区域的(w,h)大小的输入图像下采样成(w’,h’)大小,并将经下采样的输入图像输入至自动编码器网络。自动编码器网络可以对包括在输入图像中的修复区域执行修复,并且可以对应于如参照图7的部分中描述的帧间修复单元142的网络。上采样器对自动编码器网络的具有(w’,h’)大小的输出进行上采样以将输出图像修复至原始分辨率和(w,h)大小。合成单元通过对输出图像的修复区域与输入图像的未修复区域进行合成来生成最终修复图像。
[0125]
如图10所示,根据本公开的至少一个实施方式的自动编码器网络1000具有输入图像的分辨率与输出图像的分辨率不同的非对称输入-输出结构。根据本公开的至少一个实施方式的解码器网络1010的输出端具有上采样网络层1020,其使得能够输出分辨率与输入图像的在该输入图像被下采样之前的原始分辨率相同的图像。换句话说,根据本公开的至少一个实施方式,对输出图像进行上采样以将其修复到原始分辨率的过程不在单独的上采样器中结合自动编码器网络1000执行,而是在与自动编码器网络1000内的解码器网络1010融合的上采样网络层1020中执行。这允许自动编码器网络一起学习图像修复和上采样,从而导致比诸如双三次(bicubic)的典型上采样方法更高的分辨率。
[0126]
换句话说,根据本公开的至少一个实施方式,可以使用在输出端处具有上采样网络层1020的解码器网络1010来生成修复帧,并且解码器网络1010可以输出分辨率等于目标帧的原始分辨率的修复帧。
[0127]
现在参照图11至图13,将描述根据本公开的至少一个实施方式的帧内修复单元。
[0128]
图11是例示了根据本公开的至少一个实施方式的帧内修复单元的图。
[0129]
根据本公开的至少一个实施方式的帧内修复单元144利用目标帧的相似度来从目标帧中的其它位置获得新的像素值以替换要从目标帧移除的字幕的位置处的像素值,并且合成所获得的像素值以执行局部图像修复。
[0130]
如图11所示,根据本公开的至少一个实施方式的帧内修复单元144包括粗略预测单元1100和细化处理单元1110。粗略预测单元1100最初基于目标帧和掩码图像生成粗略预测帧。细化处理单元1110接收粗略预测帧作为输入,并最终生成修复帧。
[0131]
图12是例示了根据本公开的至少一个实施方式的粗略预测单元的图。
[0132]
根据本公开的至少一个实施方式的粗略预测单元1100分析目标帧的图像特性,以近似新的像素值来替换去字幕区域。
[0133]
如图12所示,根据本公开的至少一个实施方式的粗略预测单元1100包括利用基于神经网络的自动编码器训练的编码器网络1200和解码器网络1210。粗略预测单元1100接收目标帧和掩码图像作为输入,并且生成去字幕区域被新的像素值替换的粗略预测帧。
[0134]
图13是例示了根据本公开的至少一个实施方式的细化处理单元的图。
[0135]
如图13所示,根据本公开的至少一个实施方式的细化处理单元1110使用由基于神经网络的自动编码器训练的编码器网络1300至1308来提取作为目标帧的特征的值特征、关键特征和查询特征。
[0136]
细化处理单元1110使用注意力匹配单元1310对去字幕区域的查询特征与目标帧中的其它区域的关键特征进行注意力匹配,并计算注意力分数。基于注意力分数,细化处理单元1110在目标帧中找到与字幕区域具有高相似度的相似区域。根据本公开的至少一个实施方式的注意力匹配单元1310可以以与参照图8a至图9的部分中描述的帧间修复单元142的注意力匹配单元710相同的方式执行注意力匹配。
[0137]
细化处理单元1110生成补偿特征向量以填充目标帧的字幕区域,并将补偿特征向量输入至解码器网络1320以生成最终修复像素。
[0138]
现在参照图14,将描述根据本公开的至少一个实施方式的帧合并单元。
[0139]
根据本公开的至少一个实施方式的帧合并单元150对帧间修复单元142的输出和帧内修复单元144的输出进行合成或者选择帧间修复单元142的输出或帧内修复单元144的输出中的任一者以用作最终输出帧。
[0140]
根据本公开的至少一个实施方式的帧合并单元150可以使用注意力分数来合成两个修复帧或从两个修复帧选择一个修复帧。具体地,帧合并单元150可以选择由修复单元输出的修复帧作为最终输出帧,该修复单元计算了帧间修复单元142与帧内修复单元144之间的更高的注意力分数。另选地,帧合并单元150可以通过合成分别与由帧间修复单元142和帧内修复单元144计算的注意力分数成比例的两个修复帧来生成最终输出帧。
[0141]
例如,如果帧间修复单元142的注意力分数为80,并且帧内修复单元144的注意力分数为30,则帧合并单元150可以选择由帧间修复单元142输出的修复帧作为最终输出帧,或者可以按照80:30的比率合成由帧间修复单元142输出的修复帧和由帧内修复单元144输出的修复帧以生成最终修复帧。
[0142]
根据本公开的其它实施方式,帧合并单元150可以使用预训练的模型来合成两个
rom、磁带、软盘、存储卡、硬盘、光盘/磁盘、存储装置等)。计算机可读记录介质还包括诸如数据传输介质的暂时性介质。此外,计算机可读记录介质可以分布在经由网络连接的计算机系统中,其中,计算机可读代码可以以分布式模式存储和执行。
[0151]
本文描述的系统和技术的各种实现方式可以由可编程计算机实现。这里,计算机包括可编程处理器、数据存储系统(包括易失性存储器、非易失性存储器或任何其它类型的存储系统或其组合)和至少一个通信接口。例如,可编程计算机可以是服务器、网络设备、机顶盒、嵌入式装置、计算机扩展模块、个人计算机、膝上型计算机、个人数字助理(pda)、云计算系统或移动装置中的一者。
[0152]
尽管已经出于例示性目的描述了本公开的示例性实施方式,但是本领域技术人员将理解,在不脱离所要求保护的发明的构思和范围的情况下,各种修改、添加和替换是可能的。因此,为了简洁和清楚起见,已经描述了本公开的示例性实施方式。本公开的实施方式的技术构思的范围不受例示的限制。因此,普通技术人员将理解,所要求保护的发明的范围不受以上明确描述的实施方式的限制,而是由权利要求及其等同物限制。
[0153]
附图标记
[0154]
10:图像修复装置100:输入帧db
[0155]
110:帧元数据db 120:掩码生成单元
[0156]
130:帧选择单元140:修复单元
[0157]
142:帧间修复单元144:帧内修复单元
[0158]
150:帧合并单元160:输出帧db
[0159]
相关申请的交叉引用
[0160]
本技术要求于2020年10月8日提交的韩国专利申请no.10-2020-0129912和于2020年6月25日提交的韩国专利申请no.10-2021-0083112的优先权,该韩国专利申请的公开内容通过引用整体并入本文。

技术特征:
1.一种修复被包括在图像中的对象遮挡的图像区域的方法,所述方法包括以下步骤:从所述图像的帧当中选择包括要移除的所述对象的目标帧和包括关于所述目标帧内并被所述对象遮挡的修复区域的信息的参考帧;以及通过根据被选为所述参考帧的帧的数量执行帧间修复或帧内修复中的至少一者来修复所述目标帧。2.根据权利要求1所述的方法,其中,选择所述一个或更多个帧的步骤包括:通过使用位于所述目标帧中并且检测到所述对象的区域的邻近像素来计算所述目标帧和与所述目标帧相邻的帧之间的相似度;以及选择所述相似度高于预定阈值相似度的帧作为所述参考帧,并且生成关于所述参考帧内的具有最高相似度的相似区域的信息,并且其中,修复的步骤包括:接收关于所述目标帧的信息、关于所述参考帧的信息以及关于所述相似区域的信息以修复所述目标帧。3.根据权利要求2所述的方法,其中,生成关于所述相似区域的信息的步骤包括:根据所述对象在所述参考帧中的位置,将所述相似区域划分为至少一个划分区域;以及向每个划分区域指派不同的权重。4.根据权利要求1所述的方法,其中,选择所述一个或更多个帧的步骤包括:第一选择过程,所述第一选择过程包括:通过按时间顺序检查所述图像的帧来选择不包括所述对象的帧作为后向参考帧,并且选择包括所述对象的帧作为所述目标帧;以及第二选择过程,所述第二选择过程包括:通过按时间顺序检查在时间上位于所述目标帧之后的一个或更多个帧来选择不包括所述对象的帧作为前向参考帧。5.根据权利要求1所述的方法,其中,选择所述一个或更多个帧的步骤包括:从完成修复的已处理帧当中选择所述参考帧,其中,选择所述参考帧的步骤包括:选择具有与所述目标帧中的修复区域不交叠的修复区域的处理帧作为所述参考帧。6.根据权利要求1所述的方法,其中,选择所述一个或更多个帧的步骤包括:基于从所述图像提取的场景转换信息,从同一场景内的帧当中选择所述目标帧和所述参考帧。7.根据权利要求1所述的方法,其中,修复所述目标帧的步骤包括:当目标帧的数量与参考帧的数量之和超过帧处理的预设单元时,执行所述帧间修复或所述帧内修复中的至少一者。8.根据权利要求1所述的方法,其中,修复所述目标帧的步骤包括:当没有帧被选为所述参考帧时,执行所述帧内修复,并且当存在被选为所述参考帧的帧时,执行所述帧间修复。9.根据权利要求1所述的方法,其中,修复所述目标帧的步骤包括:当没有帧被选为所述参考帧时,对所述目标帧中的一些执行所述帧内修复以生成修复
帧;以及通过使用所述修复帧作为参考帧来对剩余目标帧执行所述帧间修复。10.根据权利要求1所述的方法,其中,修复所述目标帧的步骤包括:从所述目标帧生成查询特征矩阵;从所述参考帧生成关键特征矩阵;计算所述查询特征矩阵与所述关键特征矩阵之间的相似度;以及基于所述相似度生成修复帧。11.根据权利要求10所述的方法,其中,所述查询特征矩阵和所述关键特征矩阵各自是三维矩阵,并且其中,所述查询特征矩阵是从所述修复区域或所述修复区域的邻近区域生成的。12.根据权利要求10所述的方法,其中,计算所述相似度的步骤包括:计算所述目标帧内的区域与所述参考帧内的区域之间的相似度。13.根据权利要求10所述的方法,其中,计算所述相似度的步骤包括:通过使用所述查询特征矩阵和所述关键特征矩阵来计算相似度矩阵,其中,所述相似度矩阵的每个分量表示所述查询特征矩阵与包括所述关键特征矩阵的至少一些的矩阵之间的相似度。14.根据权利要求10所述的方法,其中,生成所述关键特征矩阵的步骤包括:基于所述目标帧与所述参考帧之间的移动量来对一个或更多个参考帧中的每一个执行特征索引。15.根据权利要求14所述的方法,其中,执行所述特征索引的步骤包括:估计所述目标帧与所述参考帧之间的所述移动量;以及在所述参考帧中,相对于与所述目标帧的所述修复区域大小和位置相等的参考帧区域,基于所述移动量来确定要经历特征索引的有效区域。16.根据权利要求15所述的方法,其中,估计所述移动量的步骤包括:基于所述目标帧与所述参考帧之间的时间距离来估计所述移动量。17.根据权利要求15所述的方法,其中,估计所述移动量的步骤包括:基于与所述修复区域相邻的区域中的像素的运动量来估计所述移动量。18.根据权利要求10所述的方法,其中,生成所述修复帧的步骤包括:通过使用输出端处设置有上采样网络层的解码器网络来生成所述修复帧,其中,所述解码器网络被配置为输出分辨率等于所述目标帧的原始分辨率的修复帧。19.一种用于修复被包括在图像中的对象遮挡的图像区域的设备,所述设备包括:帧选择单元,所述帧选择单元被配置为选择包括要移除的所述对象的目标帧和包括关于位于所述目标帧内并被所述对象遮挡的修复区域的信息的参考帧;以及修复单元,所述修复单元被配置为根据所述参考帧的数量执行帧间修复或帧内修复中的至少一者以生成修复帧。20.一种存储在计算机可读记录介质上的计算机程序,所述计算机程序用于执行根据权利要求1所述的修复图像区域的方法中包括的步骤中的每一个。

技术总结
公开了图像修复方法及装置。提供了图像修复方法。根据本公开的一方面,一种修复隐藏在包括在图像中的对象之后的区域的方法包括以下步骤:从图像的帧中选择要从其移除对象的目标帧和包括于隐藏在对象之后的目标帧内部的修复区域相关的信息的参考帧;以及通过根据被选为参考帧的帧的数量执行帧间修复和/或帧内修复来修复目标帧。修复来修复目标帧。修复来修复目标帧。


技术研发人员:尹钟吉 金东元 林晶娟 许宰豪
受保护的技术使用者:SK电信有限公司
技术研发日:2021.10.07
技术公布日:2023/8/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐