内容知悉式分叉放大的制作方法
未命名
10-14
阅读:66
评论:0

内容知悉式分叉放大
1.相关申请的交叉引用
2.本技术要求于2020年12月3日提交的、题为“content-aware bifurcated upscaling(内容知悉式分叉放大)”并被转让给本技术受让人的pct申请s/n.pct/cn2020/133510的优先权,其内容通过援引全部纳入于此。
3.引言
4.本公开的各方面涉及用于放大计算机生成的内容的系统和方法,尤其涉及执行对图像内容的内容知悉式分叉放大。
5.超分辨率(sr)通常是对图像内的细节进行放大的处理,并且在一些情形中还会改进图像内的细节。例如,低分辨率图像可被用作模型的输入,该模型以更高的分辨率输出同一图像的经放大版本。模型可被训练以生成高分辨率输出中的附加细节,并且通常可被称为放大模型或sr模型。
6.虽然sr模型通常可训练以将输入图像数据从较低分辨率放大到较高分辨率,但是并非图像数据内获取的所有图像内容都同等地适合于放大。例如,使用sr模型来放大文本内容(诸如数字、字符、符号等)在放大后可能会导致伪影、模糊、失真或其他明显的不规则现象,这些不规则现象很容易被人类观看者识别。在最差场景中,经放大文本内容可能看起来根本不是文本内容。在许多其他场景中,经放大文本内容可能包括不正确的字符或其他错误,这些错误虽然可被识别为文本内容,但可能是无意义的,或以其他方式包括排版错误。因此,在对包括文本元素的图像数据进行放大时,许多sr模型未能产生可接受的输出。这个问题在移动设备领域尤为严重;移动设备可能具有能够显示高分辨率图像数据的高分辨率屏幕,但也有显著功率使用和数据传输的考量,并由此可能需要更多地利用放大处理以减少这些设备接收的数据量并且由此减少功率密集型组件(诸如射频(rf)组件、天线、基带处理器等)活跃的时间量。
7.相应地,所需要的是用于执行内容知悉式放大的系统和方法,其同样地改进文本图像内容和非文本图像内容的质量。
8.简要概述
9.某些方面提供了一种方法,该方法包括:以第一分辨率接收输入图像数据,其中该输入图像数据包括文本数据和图形数据;基于第一分辨率的该图形数据和第一缩放因子来生成第二分辨率的经缩放图形数据,其中第二分辨率基于第一分辨率和第一缩放因子;基于该文本数据和第二缩放因子来生成经缩放文本数据;以及基于该经缩放文本数据和该经缩放图形数据来以第二分辨率生成输出图像数据。
10.其他方面提供了:处理系统,其被配置成执行前述方法以及本文中所描述的那些方法;非瞬态计算机可读介质,其包括在由处理系统的一个或多个处理器执行时使该处理系统执行前述方法以及本文中所描述的那些方法的指令;计算机程序产品,其被实施在计算机可读存储介质上,该计算机可读存储介质包括用于执行前述方法以及本文中进一步描述的那些方法的代码;以及处理系统,其包括用于执行前述方法以及本文中进一步描述的那些方法的装置。
11.以下描述和相关附图详细阐述了一个或多个实施例的某些解说性特征。
12.附图简述
13.附图描绘了该一个或多个实施例的某些方面,并且因此不被认为限制本公开的范围。
14.图1a和1b描绘了经放大图像数据的示例。
15.图2描绘了用于执行内容知悉式分叉放大的方法的各方面。
16.图3描绘了文本内容处理的示例实现。
17.图4描绘了用于使用内容知悉式分叉放大来生成经放大场景的示例方法。
18.图5描绘了可被配置成执行本文所描述的方法的示例处理系统。
19.为了促成理解,在可能之处使用了相同的附图标记来指定各附图共有的相同要素。构想一个实施例的要素和特征可有益地纳入其他实施例而无需进一步引述。
20.详细描述
21.本公开的各方面提供了用于执行对图像数据的内容知悉式分叉放大的装置、方法、处理系统和计算机可读介质。
22.图像数据(诸如由许多类型的基于计算机的应用所生成的图像数据)可包括各种类型的内容(包括表示各种对象的形状、结构、图案、背景、布景等)以及文本内容(诸如数字、字符、符号、符号字符、词符等)。
23.常规的基于模型的放大(包括从低分辨率输入图像恢复高分辨率图像的超分辨率(sr)方法)在放大期间同等地对待图像数据中的所有内容(例如,图像中的所有像素)。然而,此类常规的内容不知悉式放大处理可能会导致混合的结果,因为相较于非文本内容,观看者可能对文本内容的放大伪影(诸如模糊、失真或其他明显的不规则现象)更敏感。因此,许多放大模型在放大包括文本内容的图像数据时未能产生可接受的输出。例如,这些放大模型可能产生不能被识别为文本内容的内容,或者可能在经放大图像数据中产生包括错误字符的内容。
24.为了克服常规放大方法的缺陷,本公开的各方面将底层图像数据内不同内容类型的处理分叉。更具体地,本公开的各方面可从输入图像数据接收和/或提取文本内容,并使用无损或较低损耗放大处理来将所接收到和/或所提取出的文本内容与输入图像数据分开处理。输入图像数据中的其余非文本内容随后可使用基于模型的放大或超分辨率模型来处理。分叉处理的结果随后可被重新组合,以形成相较于常规方法而言维持文本内容的更高保真度的经放大输出图像数据。由此,本公开的各方面实现了内容知悉式放大处理。
25.在一些情形中,文本内容可以直接接收自创建图像数据或嵌入式文本内容的底层处理或应用(例如,游戏引擎)。例如,应用的用户界面层或组件可生成用于嵌入在输出数据流中的文本内容,并且该ui层或组件可被配置成将文本数据直接提供给文本内容处理组件以进行放大。
26.在其他情形中,可诸如通过使用光学字符识别(ocr)或其他检测方法来在应用所生成的图像数据内标识文本内容。一旦检测到文本内容,就可随后提取该文本内容并将其与图像数据中的非文本内容分开处理。
27.无论文本内容是直接接收的(例如,接收自应用)还是提取的(例如,提取自应用图像数据输出),文本内容都可被转换和/或存储为向量格式并以使得它随后可以被整合回到
经放大非文本图像数据中的无损(或较低损耗)方式进行放大。一般而言,向量格式可将图形数据表示为用数学术语描述图形数据中线或形状的放置的一组语句。因为向量格式中的图形数据是用数学术语描述的,所以向量格式中的图形数据可以在图形保真度损失最小或没有图形保真度损失的情况下被加大尺寸或缩小尺寸。这与以栅格格式(其以网格上的像素的形式描述图形数据,并且对于其而言,重设尺寸通常需要对源图像中的每个像素进行一定程度的内插(或估计))接收的文本内容形成对比。因为对栅格图形重设尺寸可能会涉及某种程度的内插或估计,所以对栅格图形重设尺寸可导致将伪影(诸如可能将文本内容变换成不可被识别为文本内容的内容或将排版错误引入到经重设尺寸文本内容中的伪影)引入到经重设尺寸图形数据中。
28.用于放大非文本图像数据的一种技术可包括使用经训练神经网络模型来从源图像数据生成经放大图像数据。例如,深度神经网络(诸如生成对抗网络(gan)、残差(或递归)神经网络(rnn)、卷积神经网络(cnn)等)可被训练以获取低分辨率图像作为输入并且输出更高分辨率的(例如,经放大的)图像,并由此执行超分辨率处理。
29.经放大的文本或非文本内容随后可被重新组合成相比于常规方法而言具有更高总保真度的最终放大结果(例如,图像)。例如,最终放大结果中的文本内容可以能被识别为文本内容,并且可包括与由应用生成的源图像数据中的文本内容相同的字符。此外,使用基于神经网络的放大模型对非文本内容进行放大可以为底层的较低分辨率图像数据提供显著的处理优势,这可以在不牺牲经放大输出的保真度的情况下加速对底层图像数据的应用处理。例如,通过以较低分辨率(并由此以较低的计算复杂性)处理底层图像数据并且随后将输出放大为更高分辨率的图像以供用户观看,游戏引擎可以有益地以更高的速率生成帧(例如,每秒提供更多帧的图像数据)。
30.在利用内容知悉式放大的情况下的示例保真度损失
31.图1a描绘了包括文本内容和非文本内容的经放大图像100a的示例。例如,非文本内容(其通常可称为图形内容或场景内容)包括背景布景、场景中的对象等。在该示例中,文本内容包括数字、字母和词符。
32.在所描绘的示例中,图像100a已使用非文本知悉式放大处理(诸如应用于全体图像数据的超分辨率模型)进行了放大。值得注意的是,文本内容102a(在该示例中为词符)被示出在虚线框中,以展示相较于关于图1b示出的真值文本内容102b,图像100a的放大已如何对文本内容的保真度产生负面影响。相比之下,经放大图像100a的其他非文本方面(诸如背景、对象等)具有显著更佳的保真度,并且与图1b的真值图像100b更紧密地匹配。
33.内容知悉式分叉放大
34.如所讨论的,为了允许对图像数据进行放大而同时维持特定内容(诸如文本内容)的保真度,本公开的各方面可基于存在于输入图像数据的不同部分中的内容对放大进行分叉。可将适合于使用深度神经网络来加大尺寸的非文本图像数据或其他图像数据与输入图像数据中可能不适合于使用这些深度神经网络来加大尺寸的文本数据或其他数据分开放大。为了维持图像中文本数据或其他数据的保真度,这种数据可使用无损或近无损技术来加大尺寸,以使得输入图像数据和尺寸加大的图像数据中所包括的文本数据或其他数据是不同分辨率的相同内容。
35.图2描绘了用于执行内容知悉式分叉放大的方法200的各方面。如所讨论的,内容
知悉式分叉放大可以允许使用与用于放大对加大尺寸处理中生成的伪影更敏感的内容的技术不同的技术来放大对加大尺寸处理中生成的伪影较不敏感的内容。以此方式,文本内容(或对伪影敏感的其他内容)可以使用允许将该文本内容的保真度维持在输入图像数据被放大到的任何分辨率的技术来加大尺寸。
36.方法200开始于低分辨率处理202。低分辨率处理202可包括例如以第一较低分辨率处理图像数据(例如,游戏布景)以提高处理速度(例如,以生成更高帧率的输出图像数据)的游戏引擎。作为另一示例,低分辨率处理202可包括数据传输步骤,其中接收到第一较高分辨率的图像数据,并且生成用于传输的第二较低分辨率的图像数据以节省带宽。这些仅仅是几个示例,并且存在许多其他示例。一般而言,低分辨率处理202可指其中底层数据可以按相比于预期的最终输出数据而言更低的分辨率进行处理以增强处理速度、减少由设备传送或在设备处接收的数据量等等的任何处理场景。
37.低分辨率处理202向图像内容处理204输出图像数据;在各个方面,该图像内容处理204可包括被配置成以第一较低分辨率获取输入图像数据并且以第二较高分辨率输出图像数据的模型。在一些情形中,较高输出分辨率与较低输入分辨率之比可被视为缩放因子。值得注意的是,在该示例中,“低”和“高”是相对术语,它们可以指任何相对较低和相对较高的分辨率。
38.在一些方面,图像内容处理204包括神经网络模型,诸如深度神经网络模型。在一些情形中,神经网络模型可包括生成对抗网络(gan)、残差(或递归)神经网络(rnn)、卷积神经网络(cnn)等。在一些方面,图像内容处理204可包括被配置成执行超分辨率的神经网络模型。
39.注意,图像内容处理204可接收包括文本内容的低分辨率输入数据(诸如在应用输出嵌入有文本和非文本方面的图像数据的情况下)。然而,如上文所描述的,图像内容处理204可以不被配置成专门处理文本内容以使得该文本内容在放大之后维持高保真度。
40.图像内容处理204向嵌入处理208输出经放大图像内容。经放大图像内容可包括静态图像、形成视频的一部分的移动图像或顺序图像等等。
41.在一些情形中,图像内容处理204接收的低分辨率输入数据可包括多层图像数据。在一些方面,可以逐层对这样的数据进行顺序处理。替换地,在图像内容处理204由能够进行多层处理的模型(诸如神经网络模型)实现的情况下,多层输入数据可以并行处理。
42.低分辨率处理202进一步将包括文本内容的图像数据输出给文本内容处理206,或者将文本内容直接输出给文本内容处理206。如下文关于图3进一步详细地描述的,文本内容处理206接收或提取文本内容,并执行对文本内容的无损放大或以其他方式的高保真度放大。例如,文本内容可被接收或提取,并被转换为使得可以执行高保真度放大的向量格式。
43.在一些方面,文本内容处理206被配置成基于图像内容处理204所应用的缩放因子(诸如2x或3x缩放因子)来放大文本数据。这些缩放因子仅仅是示例,并且任何数值的缩放因子是可能的。
44.图像内容处理206向嵌入处理208输出经放大文本内容。
45.嵌入处理208从图像内容处理204接收经放大图像内容并且从文本内容处理206接收经放大文本内容,并将这些输入嵌入(或组合)以生成高分辨率输出(例如,高分辨率图像
数据输出)。
46.在一些情形中,在文本内容处理206接收与图像内容处理204相同的图像数据并从图像数据中提取文本内容的情况下(如下文关于图3进一步描述的),所提取文本内容的位置被存储以使得嵌入处理208可以在正确位置嵌入经放大文本内容。这可包括基于较低和较高分辨率的位置转译。此外,在一些情形中,这可包括盖写经由图像内容处理204放大了的较低保真度文本内容(因为它是相同底层图像数据的部分)。相应地,在一些方面,嵌入过程208可包括经训练模型,以修复来自文本内容处理206的较高保真度文本内容对来自图像内容处理204的较低保真度文本内容的盖写的任何伪影。
47.嵌入式高分辨率输出随后被提供给高分辨率处理210。在一个示例中,高分辨率处理210是图形渲染组件,其获取高分辨率输出并将它显示在用户的显示器设备上。例如,高分辨率处理210可以获取高分辨率游戏图像数据并将它显示在移动设备(诸如智能电话、平板计算机、智能可穿戴设备等)的显示器设备上。值得注意的是,这些仅是一些示例,并且许多其他示例是可能的。
48.在一些方面,用于图像内容处理204和文本内容处理206的缩放因子可基于终端使用设备的分辨率能力(例如,移动设备的屏幕分辨率),并且可基于在其上实现图像内容处理204和文本内容处理206的设备来被动态地设置。以此方式,低分辨率处理202、图像内容处理204和文本内容处理206可以模块化到不同的设备和平台,并且可基于设备类型和能力来被动态地配置用于高分辨率处理210。在一些情形中,低分辨率处理202可被配置成以许多常见显示器分辨率的现成倍数的分辨率处理数据。
49.在一些方面,图像内容和文本内容可以按不同的缩放因子进行缩放。例如,在其上显示嵌入式高分辨率输出的显示器的像素密度可被用来确定用于图像内容的缩放因子。随着显示器的像素密度增大,用于文本内容的缩放因子也可增大,使得文本以对于显示器可接受的尺寸在高分辨率输出中被渲染。值得注意的是,这仅仅是示例,并且许多其他考虑可被用来确定用于放大图像内容和文本内容的缩放因子。
50.由此,图2展示了分叉型内容知悉式放大方法,其中图像内容处理与文本内容处理分叉,并且结果所得的经放大数据被重新组合以形成高保真度的经放大输出。通过基于内容被放大对图像数据的放大进行分叉,本公开的各方面(诸如图2中解说的各方面)通常允许由时间敏感型应用(例如,游戏引擎或旨在尽可能快地生成数据的其他计算处理)生成少量数据或将少量数据传送给接收方设备,并允许恢复更大量数据。此外,在恢复这些更大量数据时,这些更大量数据中所包括的内容的质量可得到维持,以使得通常不适合于使用超分辨率模型进行放大的内容使用保留此类数据的保真度的其他技术来加大尺寸。由此,本公开的各方面可以允许内容的放大(其保留此类内容的保真度),同时允许功率密集型处理(诸如数据生成或数据接收)计算复杂度更低、花费更少的执行时间并且消耗更少的功率。
51.多模型文本内容处理
52.图3描绘了文本内容处理206(诸如关于图2所描述的)的示例实现。
53.在所描绘的示例中,文本内容处理206开始于在302,确定输入数据类型(诸如可接收自图2中的低分辨率处理202)。
54.为了灵活实现,文本内容处理206可被配置成处置多种输入数据类型(例如,以执行多模型文本内容处理)。例如,在步骤302,文本内容处理206可确定输入是如可由应用的
内容组件(例如,应用的用户界面组件)提供的直接文本内容(例如,以文本格式提供的数字、字符、字母等)还是包括文本内容的图像数据。在一些情形中,在输入数据类型是图像数据的情况下,它可以是提供给图像内容处理204的相同图像数据。
55.文本内容处理206随后基于输入数据类型(例如,文本数据或包括文本数据的图像数据)来确定在步骤304处文本提取是否是必需的。
56.如果在步骤304,确定文本内容提取是必需的,则文本内容处理206移至提取文本内容的步骤306。例如,在一个方面,可对输入图像数据执行ocr处理,以标识和提取文本内容。在其他方面,可诸如通过其他类型的经训练模型来执行其他类型的文本识别和提取。在提取文本内容之后,文本内容处理206移至步骤308。
57.如果在步骤304,确定文本内容提取不是必需的(诸如当文本直接提供自低分辨率处理202时),则文本内容处理206直接移至步骤308。
58.在步骤308,随后文本内容处理206将文本内容转换成无损或低损的可缩放格式。例如,文本内容可被转换成可以被无损缩放的向量格式。
59.在步骤310,文本内容处理206放大该文本内容。例如,放大可基于缩放因子来执行,诸如上文所描述的。
60.最后,随后文本内容处理206将经放大文本数据提供给嵌入(或组合)处理,诸如关于图2所描述的嵌入处理208。
61.用于使用内容知悉式分叉放大来生成经放大场景的示例方法
62.图4描绘了用于使用内容知悉式分叉放大(诸如关于图2和3所描述的)来生成经放大场景的示例方法400。
63.方法400开始于在步骤402,以第一分辨率接收输入图像数据,其中该输入图像数据包括文本数据和图形数据。例如,如关于图1a和1b所描述的,文本数据可包括数字、字母、词符等,并且图形数据可包括场景内容,诸如背景布景、场景中的对象等。
64.方法400随后行进至步骤404,其中基于第一分辨率的图形数据和第一缩放因子来生成第二分辨率的经缩放图形数据。第二分辨率可基于第一分辨率和第一缩放因子。例如,第二分辨率可以是第一分辨率和第一缩放因子的乘积,以使得第二分辨率基本上与要在其上显示输入图像数据的经放大版本的设备的分辨率相匹配。在一些方面,经缩放图形数据可经由模型(诸如上文关于图2的图像内容处理204所描述的)来生成。
65.方法400随后行进至步骤406,其中基于(作为输入图像数据的部分接收的)文本数据和第二缩放因子来生成经缩放文本数据。
66.在方法400的一些方面,第二缩放因子由第二分辨率与第一分辨率之比确定。在一些方面,第一分辨率低于第二分辨率。
67.方法400随后行进至步骤408,其中基于经缩放文本数据和经缩放图形数据来以第二分辨率生成输出图像数据(例如,经放大输出图像数据),如上文关于图2所描述的。
68.方法400随后行进至步骤410,其中在设备上显示输出图像数据。在一些方面,设备可以是移动设备,诸如智能电话、平板计算机、智能可穿戴设备。在一些方面,设备可以是包括显示屏的另一类型的电子设备。
69.在一些方面,方法400进一步包括从输入图像数据中提取文本数据。例如,可如上文关于图3中的步骤306所描述地提取文本数据。在一些方面,从输入图像数据中提取文本
数据包括对输入图像数据执行光学字符识别。
70.在方法400的一些方面,从输入图像数据中提取文本数据包括:在对输入图像数据执行光学字符识别之前,使用文本标识模型来标识文本数据。例如,模型可确定文本提取是否是必要的,诸如上文关于图3中的步骤304所描述的。
71.在方法400的一些方面,从输入图像数据中提取文本数据包括:从场景生成引擎接收文本数据,该场景生成引擎被配置成将文本数据嵌入在输入图像数据中。
72.在方法400的一些方面,所提取的文本数据以向量数据格式被存储。如上文所描述的,向量数据格式有益地使得能够在没有失真的情况下任意缩放文本数据。
73.在方法400的一些方面,基于经缩放文本数据和经缩放图形数据来生成输出图像数据包括:将经缩放文本数据嵌入到经缩放图形数据中。例如,可如上文关于图2中的嵌入处理208所描述地对经缩放文本数据和经缩放图形数据进行嵌入。
74.在方法400的一些方面,基于第一分辨率的图形数据来生成第二分辨率的经缩放图形数据包括:用深度神经网络模型或生成对抗网络模型处理第一分辨率的图形数据,以生成第二分辨率的经缩放图形数据。
75.在方法400的一些方面,输入图像数据包括多层图像。在其他方面,图像数据包括栅格图像。如所讨论的,栅格图像通常是其中图像数据被表示为像素网格(每个像素被指派一颜色值)的图像。一般而言,栅格图像可使用在重设尺寸处理中内插数据的各种技术来重设尺寸,这与向量图像(向量图像由于以数学关系的形式描述图像数据而可以在没有数据内插的情况下被无限重设大小)相反。
76.示例处理系统
77.图5描绘了用于执行本文中所描述的各个方面(诸如关于图2-4所描述的方法)的示例处理系统500。
78.处理系统500包括中央处理单元(cpu)502,其在一些示例中可以是多核cpu。在cpu 502处执行的指令可例如从与cpu 502相关联的程序存储器加载,或者可从存储器524加载。
79.处理系统500还包括附加处理组件,诸如图形处理单元(gpu)504、数字信号处理器(dsp)506、神经处理单元(npu)508、多媒体处理单元510和无线连通性组件512。值得注意的是,这些仅仅是一些示例,并且其他示例是可能的。
80.npu(诸如508)一般是被配置成用于实现用于执行机器学习操作(诸如用于处理人工神经网络(ann)、深度神经网络(dnn)、随机森林(rf)等的操作)的所有必要的控制和算术逻辑的专用电路。npu有时可替换地被称为神经信号处理器(nsp)、张量处理单元(tpu)、神经网络处理器(nnp)、智能处理单元(ipu)、视觉处理单元(vpu)、或图形处理单元。
81.npu(诸如508)被配置成加速常见机器学习任务(诸如图像分类、机器翻译、对象检测以及各种其他任务)的执行。在一些示例中,多个npu可在单个芯片(诸如片上系统(soc))上实例化,而在其他示例中,多个npu可以是专用神经网络加速器的一部分。
82.npu可被优化用于训练或推断,或者在一些情形中被配置成平衡两者之间的性能。对于能够执行训练和推断两者的npu,这两个任务一般仍可独立地执行。
83.被设计成加速训练的npu一般被配置成加速新模型的优化,这是涉及输入现有数据集(通常是被标记的或含标签的)、在数据集上进行迭代、并且随后调整模型参数(诸如权重和偏置)以便提高模型性能的高度计算密集的操作。一般而言,基于错误预测进行优化涉
及往回传递通过模型的各层并确定梯度以减少预测误差。
84.被设计成加速推断的npu一般被配置成在完整模型上操作。此类npu由此可被配置成:输入新的数据片段并通过已经训练的模型对其快速处理以生成模型输出(例如,推断)。
85.在一种实现中,npu 508可被集成为cpu 502、gpu 504和/或dsp 506中的一者或多者的一部分。
86.在一些示例中,无线连通性组件512可包括例如用于第三代(3g)连通性、第四代(4g)连通性(例如,4g lte)、第五代连通性(例如,5g或nr)、wi-fi连通性、蓝牙连通性、以及其他无线数据传输标准的子组件。无线连通性处理组件512进一步连接到一个或多个天线514。
87.处理系统500还可包括与任何方式的传感器相关联的一个或多个传感器处理单元516、与任何方式的图像传感器相关联的一个或多个图像信号处理器(isp)518、和/或导航处理器520,该导航处理器520可包括基于卫星的定位系统组件(例如,gps或glonass)以及惯性定位系统组件。
88.处理系统500还可包括一个或多个输入和/或输出设备522,诸如屏幕、触敏表面(包括触敏显示器)、物理按钮、扬声器、话筒等等。
89.在一些示例中,处理系统500的一个或多个处理器可基于arm或risc-v指令集。
90.处理系统500还包括存储器524,该存储器524表示一个或多个静态和/或动态存储器,诸如动态随机存取存储器(dram)、基于闪存的静态存储器等。在该示例中,存储器524包括各种计算机可执行组件,其可由处理系统500的前述处理器中的一个或多个处理器执行。
91.具体而言,在该示例中,存储器524包括低分辨率处理组件524a、图像内容处理组件524b、文本内容处理组件524c、嵌入组件524d、高分辨率处理组件524e、模型参数524f、文本识别组件524g、以及渲染和显示组件524h。所描绘的组件以及其他未描绘的组件可被配置成执行本文所描述的方法的各个方面。
92.一般而言,处理系统500和/或其组件可被配置成执行本文所描述的方法。
93.示例条款
94.条款1:一种方法,包括:以第一分辨率接收输入图像数据,其中该输入图像数据包括文本数据和图形数据;基于第一分辨率的该图形数据和第一缩放因子来生成第二分辨率的经缩放图形数据,其中第二分辨率基于第一分辨率和第一缩放因子;基于该文本数据和第二缩放因子来生成经缩放文本数据;以及基于该经缩放文本数据和该经缩放图形数据来以第二分辨率生成输出图像数据。
95.条款2:如条款1的方法,进一步包括从该输入图像数据中提取该文本数据。
96.条款3:如条款2的方法,其中从该输入图像数据中提取该文本数据包括:对该输入图像数据执行光学字符识别。
97.条款4:在条款3的方法,其中从该输入图像数据中提取该文本数据包括:在对该输入图像数据执行光学字符识别之前,使用文本标识模型来标识该文本数据。
98.条款5:如条款2至4中任一项的方法,其中从该输入图像数据中提取该文本数据包括:从场景生成引擎接收该文本数据,该场景生成引擎被配置成将该文本数据嵌入在该输入图像数据中。
99.条款6:如条款2至5中任一项的方法,其中所提取的文本数据被存储为向量数据。
100.条款7:如条款1至6中任一项的方法,其中该第二缩放因子由该第二分辨率与该第一分辨率之比确定。
101.条款8:如条款1至7中任一项的方法,其中该第一分辨率小于该第二分辨率。
102.条款9:如条款1至8中任一项的方法,其中基于该经缩放文本数据和该经缩放图形数据来生成经缩放图像数据包括:将该经缩放文本数据嵌入到该经缩放图形数据中。
103.条款10:如条款1至9中任一项的方法,其中基于该第一分辨率的该图形数据和该第一缩放因子来生成该第二分辨率的经缩放图形数据包括:用深度神经网络模型处理该第一分辨率的该图形数据,以生成该第二分辨率的该经缩放图形数据。
104.条款11:如条款1至10中任一项的方法,其中基于该第一分辨率的该图形数据和该第一缩放因子来生成该第二分辨率的经缩放图形数据包括:用生成对抗网络模型处理该第一分辨率的该图形数据,以生成该第二分辨率的该经缩放图形数据。
105.条款12:如条款1至11中任一项的方法,其中该输入图像数据包括多层图像。
106.条款13:如条款1至12中任一项的方法,其中该输入图像数据包括栅格图像。
107.条款14:如条款1至13中任一项的方法,进一步包括:将该经缩放图像数据显示在移动设备上。
108.条款15:一种处理系统,包括:包括计算机可执行指令的存储器;以及处理器,该处理器被配置成执行计算机可执行指令并使该处理系统执行根据条款1至14中任一项的方法。
109.条款16:一种包括计算机可执行指令的非瞬态计算机可读介质,这些计算机可执行指令在由处理系统的处理器执行时使该处理系统执行根据条款1至14中任一项的方法。
110.条款17:一种实施在计算机可读存储介质上的计算机程序产品,包括用于执行根据条款1至14中任一项的方法的代码。
111.条款18:一种处理系统,包括用于执行根据条款1至14中任一项的方法的装置。
112.附加考虑
113.提供先前描述是为了使本领域任何技术人员均能够实践本文中所描述的各个实施例。本文所讨论的示例并非是对权利要求中阐述的范围、适用性或者实施例的限定。对这些实施例的各种修改将容易为本领域技术人员所明白,并且在本文中所定义的普适原理可被应用于其他实施例。例如,可以对所讨论的要素的功能和布置作出改变而不会脱离本公开的范围。各种示例可恰适地省略、替代、或添加各种规程或组件。例如,可以按与所描述的次序不同的次序来执行所描述的方法,并且可以添加、省略、或组合各种步骤。而且,参照一些示例所描述的特征可在一些其他示例中被组合。例如,可使用本文中所阐述的任何数目的方面来实现装置或实践方法。另外,本公开的范围旨在覆盖使用作为本文中所阐述的本公开的各个方面的补充或者不同于本文中所阐述的本公开的各个方面的其他结构、功能性、或者结构及功能性来实践的此类装置或方法。应当理解,本文中所披露的本公开的任何方面可由权利要求的一个或多个元素来实施。
114.如本文中所使用的,引述一列项目“中的至少一者”的短语是指这些项目的任何组合,包括单个成员。作为示例,“a、b或c中的至少一者”旨在涵盖:a、b、c、a-b、a-c、b-c、和a-b-c,以及具有多重相同元素的任何组合(例如,a-a、a-a-a、a-a-b、a-a-c、a-b-b、a-c-c、b-b、b-b-b、b-b-c、c-c、和c-c-c,或者a、b和c的任何其他排序)。
115.如本文所使用的,术语“确定”涵盖各种各样的动作。例如,“确定”可包括演算、计算、处理、推导、研究、查找(例如,在表、数据库或另一数据结构中查找)、查明及诸如此类。而且,“确定”可以包括接收(例如,接收信息)、访问(例如,访问存储器中的数据)及诸如此类。而且,“确定”可包括解析、选择、选取、建立及诸如此类。
116.本文中所公开的各方法包括用于实现方法的一个或多个步骤或动作。这些方法步骤和/或动作可以彼此互换而不会脱离权利要求的范围。换言之,除非指定了步骤或动作的特定次序,否则具体步骤和/或动作的次序和/或使用可以改动而不会脱离权利要求的范围。此外,上述方法的各种操作可由能够执行相应功能的任何合适的装置来执行。这些装置可包括各种硬件和/或软件组件和/或模块,包括但不限于电路、专用集成电路(asic)、或处理器。一般地,在存在附图中解说的操作的场合,这些操作可具有带相似编号的相应配对装置加功能组件。
117.以下权利要求并非旨在被限定于本文中示出的实施例,而是应被授予与权利要求的语言相一致的全部范围。在权利要求内,对单数元素的引用不旨在意指“有且只有一个”(除非专门如此声明),而是“一个或多个”。除非特别另外声明,否则术语“一些/某个”指的是一个或多个。权利要求的任何要素都不应当在35u.s.c.
§
112(f)的规定下来解释,除非该要素是使用短语用于搮的装置厰来明确叙述的或者在方法权利要求情形中该要素是使用短语用于搮的步骤厰来叙述的。本公开通篇描述的各个方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此,且旨在被权利要求所涵盖。此外,本文所公开的任何内容都不旨在捐献于公众,无论此类公开内容是否明确记载在权利要求书中。
技术特征:
1.一种方法,包括:以第一分辨率接收输入图像数据,其中所述输入图像数据包括文本数据和图形数据;基于所述第一分辨率的所述图形数据和第一缩放因子来生成第二分辨率的经缩放图形数据,其中所述第二分辨率基于所述第一分辨率和所述第一缩放因子;基于所述文本数据和第二缩放因子来生成经缩放文本数据;以及基于所述经缩放文本数据和所述经缩放图形数据来以所述第二分辨率生成输出图像数据。2.如权利要求1所述的方法,进一步包括从所述输入图像数据中提取所述文本数据。3.如权利要求2所述的方法,其中从所述输入图像数据中提取所述文本数据包括:对所述输入图像数据执行光学字符识别。4.在权利要求3所述的方法,其中从所述输入图像数据中提取所述文本数据包括:在对所述输入图像数据执行光学字符识别之前,使用文本标识模型来标识所述文本数据。5.如权利要求2所述的方法,其中从所述输入图像数据中提取所述文本数据包括:从场景生成引擎接收所述文本数据,所述场景生成引擎被配置成将所述文本数据嵌入在所述输入图像数据中。6.如权利要求2所述的方法,其中所提取的文本数据被存储为向量数据。7.如权利要求1所述的方法,其中所述第二缩放因子由所述第二分辨率与所述第一分辨率之比确定。8.如权利要求1所述的方法,其中所述第一分辨率小于所述第二分辨率。9.如权利要求1所述的方法,其中基于所述经缩放文本数据和所述经缩放图形数据来生成经缩放图像数据包括:将所述经缩放文本数据嵌入到所述经缩放图形数据中。10.如权利要求1所述的方法,其中基于所述第一分辨率的所述图形数据和所述第一缩放因子来生成所述第二分辨率的经缩放图形数据包括:用深度神经网络模型处理所述第一分辨率的所述图形数据,以生成所述第二分辨率的所述经缩放图形数据。11.如权利要求1所述的方法,其中基于所述第一分辨率的所述图形数据和所述第一缩放因子来生成所述第二分辨率的经缩放图形数据包括:用生成对抗网络模型处理所述第一分辨率的所述图形数据,以生成所述第二分辨率的所述经缩放图形数据。12.如权利要求1所述的方法,其中所述输入图像数据包括多层图像。13.如权利要求1所述的方法,其中所述输入图像数据包括栅格图像。14.如权利要求1所述的方法,进一步包括:将所述输出图像数据显示在移动设备上。15.一种处理系统,包括:包括计算机可执行指令的存储器;以及处理器,所述处理器被配置成执行所述计算机可执行指令并使所述处理系统:以第一分辨率接收输入图像数据,其中所述输入图像数据包括文本数据和图形数据;基于所述第一分辨率的所述图形数据和第一缩放因子来生成第二分辨率的经缩放图形数据,其中所述第二分辨率基于所述第一分辨率和所述第一缩放因子;基于所述文本数据和第二缩放因子来生成经缩放文本数据;以及基于所述经缩放文本数据和所述经缩放图形数据来以所述第二分辨率生成输出图像数据。
16.如权利要求15所述的处理系统,其中所述处理器被进一步配置成从所述输入图像数据中提取所述文本数据。17.如权利要求16所述的处理系统,其中为了从所述输入图像数据中提取所述文本数据,所述处理器被配置成对所述输入图像数据执行光学字符识别。18.在权利要求17所述的处理系统,其中为了从所述输入图像数据中提取所述文本数据,所述处理器被配置成:在对所述输入图像数据执行光学字符识别之前,使用文本标识模型来标识所述文本数据。19.在权利要求16所述的处理系统,其中为了从所述输入图像数据中提取所述文本数据,所述处理器被配置成:从场景生成引擎接收所述文本数据,所述场景生成引擎被配置成将所述文本数据嵌入在所述输入图像数据中。20.如权利要求16所述的处理系统,其中所提取的文本数据被存储为向量数据。21.如权利要求15所述的处理系统,其中所述第二缩放因子由所述第二分辨率与所述第一分辨率之比确定。22.如权利要求15所述的处理系统,其中所述第一分辨率小于所述第二分辨率。23.如权利要求15所述的处理系统,其中为了基于所述经缩放文本数据和所述经缩放图形数据来生成经缩放图像数据,所述处理器被配置成将所述经缩放文本数据嵌入到所述经缩放图形数据中。24.如权利要求15所述的处理系统,其中为了基于所述第一分辨率的所述图形数据和所述第一缩放因子来生成所述第二分辨率的经缩放图形数据,所述处理器被配置成:用深度神经网络模型处理所述第一分辨率的所述图形数据,以生成所述第二分辨率的所述经缩放图形数据。25.如权利要求15所述的处理系统,其中为了基于所述第一分辨率的所述图形数据和所述第一缩放因子来生成所述第二分辨率的经缩放图形数据,所述处理器被配置成:用生成对抗模型处理所述第一分辨率的所述图形数据,以生成所述第二分辨率的所述经缩放图形数据。26.如权利要求15所述的处理系统,其中所述输入图像数据包括多层图像。27.如权利要求15所述的处理系统,其中所述输入图像数据包括栅格图像。28.如权利要求15所述的处理系统,其中所述处理器被进一步配置成将所述输出图像数据显示在移动设备上。29.一种处理系统,包括:用于以第一分辨率接收输入图像数据的装置,其中所述输入图像数据包括文本数据和图形数据;用于基于所述第一分辨率的所述图形数据和第一缩放因子来生成第二分辨率的经缩放图形数据的装置,其中所述第二分辨率基于所述第一分辨率和所述第一缩放因子;用于基于所述文本数据和第二缩放因子来生成经缩放文本数据的装置;以及用于基于所述经缩放文本数据和所述经缩放图形数据来以所述第二分辨率生成输出图像数据的装置。30.一种包括计算机可执行指令的非瞬态计算机可读介质,所述计算机可执行指令在由处理系统的处理器执行时使所述处理系统:
以第一分辨率接收输入图像数据,其中所述输入图像数据包括文本数据和图形数据;基于所述第一分辨率的所述图形数据和第一缩放因子来生成第二分辨率的经缩放图形数据,其中所述第二分辨率基于所述第一分辨率和所述第一缩放因子;基于所述文本数据和第二缩放因子来生成经缩放文本数据;以及基于所述经缩放文本数据和所述经缩放图形数据来以所述第二分辨率生成输出图像数据。
技术总结
本公开的某些方面提供了一种方法,该方法包括:以第一分辨率接收输入图像数据,其中该输入图像数据包括文本数据和图形数据;基于第一分辨率的该图形数据和第一缩放因子来生成第二分辨率的经缩放图形数据,其中第二分辨率基于第一分辨率和第一缩放因子;基于该文本数据和第二缩放因子来生成经缩放文本数据;以及基于该经缩放文本数据和该经缩放图形数据来以第二分辨率生成输出图像数据。以第二分辨率生成输出图像数据。以第二分辨率生成输出图像数据。
技术研发人员:盖晴晴 张浩 X
受保护的技术使用者:高通股份有限公司
技术研发日:2021.12.03
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/