图像生成方法及装置与流程
未命名
10-19
阅读:96
评论:0

技术领域:
:,特别涉及一种图像生成方法。
背景技术:
::2.随着计算机技术的不断发展,用户对于图像生成的需求越来越多。目前,为了提升图像生成的效率,通常对图像生成模型进行训练,进而将图像描述文本输入图像生成模型,获得文本对应的图像。3.然而,目前的图像生成方法所生成的图像,会存在结构不合理的情况,如,人物有三条手臂、有六根手指等;因此,需要更可靠的方案来实现图像的生成。技术实现要素:4.有鉴于此,本说明书实施例提供了一种图像生成方法。本说明书一个或者多个实施例同时涉及一种图像生成装置,一种图像生成模型的训练方法,一种人物图像生成方法,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。5.根据本说明书实施例的第一方面,提供了一种图像生成方法,包括:6.获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;7.将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。8.根据本说明书实施例的第二方面,提供了一种图像生成装置,包括:9.获取模块,被配置为获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;10.输入模块,被配置为将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。11.根据本说明书实施例的第三方面,提供了另一种图像生成方法,应用于服务器,包括:12.接收客户端发送的目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;13.将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成;14.将所述目标图像返回至所述客户端。15.根据本说明书实施例的第四方面,提供了一种图像生成模型的训练方法,包括:16.在样本图像集中获取目标样本对,其中,所述目标样本对携带有至少一种类型的图像生成条件,所述目标样本对由目标样本文本和目标样本图像组成;17.将所述目标样本文本和各图像生成条件输入至图像生成模型,获得所述图像生成模型输出的预测图像;18.基于所述预测图像和所述目标样本图像计算模型损失值;19.根据所述模型损失值对所述图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。20.根据本说明书实施例的第五方面,提供了一种人物图像生成方法,包括:21.获取人物描述文本,并基于所述人物描述文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述人物描述文本对应的目标图像;22.将所述人物描述文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述人物描述文本对应的人物图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。23.根据本说明书实施例的第六方面,提供了一种计算设备,包括:24.存储器和处理器;25.所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像生成方法的步骤。26.根据本说明书实施例的第七方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述图像生成方法的步骤。27.根据本说明书实施例的第八方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像生成方法的步骤。28.本说明书一个实施例实现了获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。29.通过基于目标文本确定至少一种类型的图像生成条件,以便基于图像生成条件生成图像;将目标文本和至少一种类型的图像生成条件输入图像生成方法,从而丰富了目标图像的生成方式,并且基于至少一种类型的图像生成条件生成目标图像,提升了目标图像的准确度。附图说明30.图1是本说明书一个实施例提供的一种图像生成方法的场景示意图;31.图2是本说明书一个实施例提供的一种图像生成方法的流程图;32.图3是本说明书一个实施例提供的一种图像生成模型的训练方法的流程图;33.图4是本说明书一个实施例提供的另一种图像生成方法的流程图;34.图5是本说明书一个实施例提供的一种图像生成方法的处理过程流程图;35.图6是本说明书一个实施例提供的一种图像生成装置的结构示意图;36.图7是本说明书一个实施例提供的一种计算设备的结构框图。具体实施方式37.在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。38.在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。39.应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。40.此外,需要说明的是,本说明书一个或多个实施例所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。41.针对本说明书一个或多个实施例中的大模型,具体是指具有大规模模型参数的深度学习模型,通常包含上亿、上百亿、甚至上千亿的模型参数。大模型又可以称为基石模型/基础模型(foundationmodel),通过大规模无标注的语料进行大模型的预训练,产出亿级以上参数的预训练模型,这种模型能适应广泛的下游任务,模型具有较好的泛化能力,例如大规模语言模型(largelanguagemodel,llm)、多模态预训练模型(multi-modalpre-trainingmodel)等。42.大模型在实际应用时,仅需少量样本对预训练模型进行微调即可应用于不同的任务中,大模型可以广泛应用于自然语言处理(naturallanguageprocessing,简称nlp)、计算机视觉等领域,具体可以应用于如视觉问答(visualquestionanswering,简称vqa)、图像描述(imagecaption,简称ic)、图像生成等计算机视觉领域任务,以及基于文本的情感分类、文本摘要生成、机器翻译等自然语言处理领域任务,大模型主要的应用场景包括数字助理、智能机器人、搜索、在线教育、办公软件、电子商务、智能设计等。43.首先,对本说明书一个或多个实施例涉及的名词术语进行解释。44.生成模型:可建模数据分布,并通过采样产生图像的方法。45.扩散模型:stable-diffusion,一种数据生成模型,通过迭代去噪的方式,从纯噪声中生成指定分布的数据。46.链式生成:chain-of-generation,按照一定的元素顺序,以逐步细化的方式生成图像。47.dalle-2:是openai文本生成图像系统。48.imagen:imagen是一种文本到图像的扩散模型,具有深层次的语言理解能力,可以通过输入文本创建图像49.composer:将图像分解为具有代表性的因子,然后以这些因子为条件训练扩散模型,对输入进行重组的文生图大模型。50.马尔可夫链:马尔可夫链(markovchain,mc)是概率论和数理统计中具有马尔可夫性质(markovproperty)且存在于离散的指数集(indexset)和状态空间(statespace)内的随机过程(stochasticprocess)。51.目前,图像生成模型取得了快速进展,当前的aigc(aigeneratedcontent)方法可以根据输入文本生成多样化的图像。但现有图像生成方法经常会出现扭曲的细节、不合理的结构等现象,例如六根手指、多条手臂、前景背景不明确、光照阴影不合理等等。本说明书的图像生成方法,将图像生成过程分解为一个个子步骤,模拟人类设计师的从构图、线稿、配色、光影到最终成稿的制作过程,每个子步骤难度都较低,但最终却能更严格地保证生成图像的结构合理性。52.本说明书的图像生成方法,为文生图大模型提供更多的条件信息,除了可以增强图片的可控性外,还可以显著的提升图片的质量。例如stable-diffusion,如果增加文本描述的详细程度,即增加文本描述中包含的控制信息,可以显著的提升生成图片的质量。对于composer,仅提供文本描述的生成质量明显不如提供了sketch,深度图等其他信息后生成图片的质量。53.然而,在实际生成过程中,很难获取互相匹配的多条件。例如,用户提供一段文本描述,无法获得相应的草图,更无法借此得到深度图,灰度图等信息。如果要获得匹配的草图,深度图,灰度图等条件,只能找到一张符合条件的图分别提取,但这张图是无法获取的,否则就不需要生成了。为了得到符合条件且相互匹配的多条件,本说明书的方法,通过链式生成的方式来序列化的生成多条件。具体来说,会以文本条件出发,生成某一个条件,例如草图。再利用生成的条件,与文本条件一起预测下一个条件,例如深度图。这样相当于将复杂的文本到图片的生成拆解成多个相对简单的子任务,每一个任务的成功率就提高了。在获得了所有需要的条件后,再将条件汇入最后的预训练的图像生成模型中,完成图像的生成。通过链式地从条件到条件去生成,最终基于所有条件生成图像,更好地保证了最终生成图像的合理性。54.在本说明书中,提供了一种图像生成方法,本说明书同时涉及一种图像生成装置,一种图像生成模型的训练方法,一种人物图像生成方法,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。55.参见图1,图1示出了根据本说明书一个实施例提供的一种图像生成方法的场景示意图,具体包括:56.获取用户输入的文本,该文本用于生成对应的图像;基于文本确定预设图像生成链,在生成链中包含图像生成条件生成模型,各图像生成条件生成模型;基于文本可生成掩码(mask),将文本输入第一个图像生成条件生成模型,可获得用于生成图像的草图(sketch);将文本以及掩码输入至第二个图像生成条件生成模型,得到该模型输出的实例掩码(instancemask);将文本、草图以及实例掩码输入至第三个图像生成条件生成模型,得到该模型输出的深度图(depth);将文本、草图、实例掩码和深度图输入至第四个图像生成条件生成模型,得到边缘图(clip);将文本、草图、实例掩码、深度图和边缘图输入至第五个图像生成模型,得到灰度图(grayscaleimage);将文本、草图、实例掩码、深度图、边缘图和灰度图输入至第六个图像生成模型,得到图像颜色(color);将获取到的不同类型的图像生成条件:草图、实例掩码、深度图、边缘图、灰度图、图像颜色以及文本,均输入至图像生成模型中,由图像生成模型输出基于图像生成条件和文本生成的图像,从而实现了基于文本和图像生成条件生成图像。57.本说明书的图像生成方法,通过基于文本确定至少一种类型的图像生成条件,以便基于图像生成条件生成图像;将文本和至少一种类型的图像生成条件输入图像生成模型,从而丰富了目标图像的生成方式,并且基于至少一种类型的图像生成条件生成目标图像,提升了目标图像的准确度。58.参见图2,图2示出了根据本说明书一个实施例提供的一种图像生成方法的流程图,具体包括以下步骤。59.步骤202:获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像。60.其中,目标文本是指用于生成对应图像的文本,例如,目标文本为用户输入的“一只戴墨镜的狗”;实际应用中,目标文本可以由用户输入、在文本库查询、在文档中提取等等,本说明书对于目标文本不做具体的限定;图像生成条件是指用于生成目标图像的条件,即用于构成目标图像的要素,即图像生成条件可以包含如下条件中的至少一个:掩码条件、草图条件、实例条件、深度图条件、边缘条件、灰度图条件、颜色条件;草图条件、灰度图条件等为图像不同组成的图像生成条件可以划分为不同的类型,即草图条件可以是一种图像生成条件的类型、灰度图条件可以是一种图像生成条件的类型等;目标图像是指基于目标文本生成的图像。61.具体的,获取用于生成目标图像的目标文本;根据目标文本和预先设置的图像生成条件获取规则,获取目标文本对应的至少一种类型的图像生成条件;预先设置的图像生成条件获取规则可以是:基于目标文本在数据库中查找图像生成条件、将目标文本输入预先训练完成的图像生成跳江生成模型中,输出图像生成条件等获取规则,本技术不做具体的限定。62.在本说明书一具体实施方式中,获取用户输入的文本“一只戴墨镜的狗”;根据文本“一只戴墨镜的狗”和预先设置的图像生成条件获取规则,获取文本“一只戴墨镜的狗”对应的草图、灰度图、颜色,作为文本对应的不同类型的图像生成条件。63.通过获取目标文本,进而基于目标文本确定至少一种类型的图像生成条件,进而后续可以基于目标文本和至少一种类型的图像生成条件,生成目标图像。64.进一步地,基于所述目标文本确定至少一种类型的图像生成条件的方法可以包括:65.确定至少一个图像生成条件生成模型,其中,所述图像生成条件生成模型用于根据输入的文本,输出目标类型的图像生成条件;66.基于所述目标文本和所述至少一个图像生成条件生成模型,获得各类型的图像生成条件。67.其中,图像生成条件生成模型是指可基于文本输出对应的图像生成条件的模型;不同的图像生成条件生成模型,可以输出不同类型的图像生成条件;至少一个图像生成条件生成模型是指可以获取一个或多个图像生成条件生成模型,从而可以输出一种类型或多种不同类型的图像生成条件。68.具体的,确定用于生成图像生成条件的一个或多个图像生成条件生成模型;将目标文本输入至各图像生成条件生成模型,或将目标文本和目标文本对应的当前图像生成条件,输入图像生成条件生成模型,获得各图像生成条件生成模型输出的各类型的图像生成条件;当前图像生成条件是指已预先生成的图像生成条件,该当前图像生成条件的类型与要输入的图像生成条件生成模型,所输出的图像生成条件的类型不同,例如,可以将目标文本和目标文本对应的草图条件输入图像生成条件生成模型,得到目标文本的灰度图条件。69.在实际应用中,图像生成条件生成模型可以是扩散模型。扩散模型分为两个阶段,前向过程和反向过程。前向过程是构造一个马尔可夫链,将图片信号逐步加噪变成噪声信号。具体来说,首先构造一个离散的马尔可夫链{x0,x1,…,xn},其中,xn表示加噪的图片,n表示不同的加噪程度,x0表示原始图片;输入为加噪图像xt和加噪强度t,前向转移概率可以表示为{β0,β1,…,βn}是一个预先设计的噪声序列表,决定了{x0,x1,…,xn}的加噪程度。具体来说,先由{β0,β1,…,βn}确定对应的{α0,α1,…,αn}序列,对应关系为对应关系为xn的加噪方式为其中,∈是从标准高斯分布中随机采的噪声。在这样的设计下,前向到t步的时候,其分布和标准正态分布十分接近,反向生成过程可以直接从一个高斯分布采样。使用这样的加噪策略(或者说前向过程),可以保证xt中原始图片的成分很少,而噪声成分很多,与∈近似,因此可以认为近似服从标准高斯分布。去噪扩散概率模型的反向过程可以建模成如下的转移概率程可以建模成如下的转移概率其中,∈θ(xt,t)是神经网络,其目标是预测加在图片上的噪声∈。转移概率的含义是:给定xt,假设xt-1服从一个高斯分布,其中均值是方差的设置通常有两种版本,和方差设置的不同会直接影响采样的质量。获得的数据分布可以表示为pθ(x0)=∫pθ(x0:t)dx1:t,其中,网络∈θ(xt,t)可以用如下的损失函数来训练的损失函数来训练损失函数中,θ指模型的可训练参数。训练目标是一个期望,可以理解成均值。具体来说,训练时首先从数据集中采一些训练图片,数据集的分布表示为q(x0);接下来采相应的加噪强度t,t服从均匀分布然后采样加在图片上的噪声,噪声服从标准高斯分布最后对训练图片加噪,经过网络运算,计算平均的损失函数。70.在本说明书一具体实施方式中,确定图像生成条件生成模型1和2,图像生成条件生成模型1和2可输出不同类型的图像生成条件;将目标文本输入至图像生成条件生成模型1,得到草稿条件,将目标文本上输入至图像生成条件生成模型2,得到深度图条件,从而得到文本对应的不同类型的图像生成条件。71.通过目标文本和至少一个图像生成条件生成模型,获得各类型的图像生成条件,从而提升图像生成条件的获取效率。72.进一步地,上述描述了将目标文本输入各图像生成条件生成模型的处理方式,实际应用中,还可以将目标文本以及目标文本对应的当前图像生成条件输入图像生成条件生成模型,具体的,基于所述目标文本确定至少一种类型的图像生成条件的方法可以包括:73.基于第一图像生成条件生成模型和所述目标文本,确定第一类型图像生成条件;74.根据所述第一类型图像生成条件在预设图像生成链中确定第二类型图像生成条件;75.根据所述目标文本、所述第一类型图像生成条件和所述第二图像生成条件生成模型,获得第二类型图像生成条件;76.将所述第一类型图像生成条件和所述第二类型图像生成条件,作为所述目标文本的图像生成条件。77.其中,第一图像生成条件生成模型是指可以基于输入的目标文本,输出第一类型图像生成条件的模型;第二图像生成条件生成模型是指可以基于输入的目标文本和第一类型图像生成条件,输出第二类型图像生成条件的模型;第一类型图像生成条件是指与第二类型图像生成条件类型不同,并由第一图像生成条件生成模型输出的图像生成条件;第二类型图像生成条件是指与第一类型图像生成条件类型不同,并由第二图像生成条件生成模型输出的图像生成条件。78.预设图像生成链是指由一个或多个图像生成条件生成模型组成的条件处理链,图像生成条件生成模型在预设图像生成链中的排序基于图像处理需求确定;例如,可以将图像生成条件生成模型{1、2、3}按照图像生成条件生成模型1、图像生成条件生成模型2、图像生成条件生成模型3的顺序进行排序,其中,图像生成条件生成模型1可基于文本生成草图,图像生成条件生成模型2可基于文本和草图生成深度图,图像生成条件生成模型3可以基于文本、草图和深度图生成灰度图。实际应用中,图像生成链可以基于需求灵活生成,每个链上的处理节点,即图像生成条件生成模型可以交换,并且每个处理节点可以处理多个图像生成条件;在有新增条件的情况下,还可以在图像生成链的末端添加,从而无需对已训练完成的处理节点重复训练。79.具体的,将目标文本输入第一图像生成条件生成模型或将目标文本和目标文本对应的一个或多个类型的图像生成条件输入第一类型图像生成条件生成模型,得到由第一类型图像生成条件生成模型输出的第一类型图像生成条件;将目标文本和第一类型图像生成条件,或将目标文本、目标文本对应的一个或多个类型的图像生成条件以及第一类型图像生成条件输入至第二图像生成条件生成模型,获得第二类型图像生成条件;将第一类型图像生成条件和第二类型图像生成条件,均作为目标文本的图像生成条件,以便后续用于生成目标文本对应的目标图像。80.在本说明书一具体实施方式中,将目标文本“一只戴墨镜的狗”输入预设图像生成链中的图像生成条件生成模型a,得到该图像生成条件生成模型输出的掩码条件;进一步,基于预设图像生成链,确定排序位于图像生成条件生成模型a之后的图像生成条件生成模型b;将目标文本和掩码条件输入图像生成条件生成模型b,得到草图条件;将目标文本、掩码条件和草图条件用于后续生成目标图像。81.在本说明书另一具体实施方式中,将目标文本“一只戴墨镜的狗”和目标文本对应的掩码条件和草图条件输入预设图像生成链的图像生成条件生成模型a,得到由图像生成条件生成模型a输出的实例条件;进一步,基于预设图像生成链,确定排序位于图像生成条件生成模型a之后的图像生成条件生成模型b;将目标文本、掩码条件、草图条件和实例条件输入图像生成条件生成模型b,得到深度图条件;将目标文本、掩码条件、草图条件、实例条件和深度图条件用于后续生成目标图像。82.通过一个或多个图像生成条件生成模型,生成目标文本对应的各类型的图像生成条件,从而丰富了生成目标图像的处理方式,进而可以提升后续基于目标文本和各类型的图像生成条件,生成目标图像的准确度。83.在实际应用中,对图像生成条件生成模型进行使用前,需要对其进行训练,具体的,确定至少一个图像生成条件生成模型之前,还可以包括:84.获取样本文本集中的目标待处理文本,其中,所述样本文本集中包含携带有目标类型的图像生成条件的待处理文本;85.将所述目标待处理文本输入图像生成条件生成模型,获得预测图像生成条件;86.根据所述预设图像生成条件和所述目标类型的图像生成条件计算目标损失值;87.基于所述目标损失值对所述图像生成条件生成模型的模型参数进行调整,直至得到训练完成的图像生成条件生成模型。88.其中,样本文本集是指由至少一个待处理文本组成的集合,集合中的各待处理文本携带有目标类型的图像生成条件;实际应用中,各待处理文本可以携带有多个不同类型的图像生成条件;目标待处理文本是指样本文本集合中的任意一个待处理文本;预测图像生成条件是指图像生成条件生成模型基于目标待处理文本输出的图像生成条件;目标损失值是指基于预设图像生成条件和目标类型的图像生成条件计算得到的损失值,例如,通过计算预设图像生成条件和目标类型的图像生成条件的相似度,确定目标损失值。89.具体的,在样本文本集中获取目标待处理文本;将目标待处理文本输入图像生成条件生成模型;获取图像生成条件生成模型输出的预测图像生成条件;基于预设损失值计算方式、预设图像生成条件和目标类型的图像生成条件计算目标损失值;进一步基于目标损失值对图像生成条件生成模型的模型参数进行调整;判断调整模型参数后的图像生成条件生成模型,是否符合训练完成条件,若否,则在样本文本集中确定新的待处理文本,进一步对图像生成条件生成模型,循环上述步骤,直至得到训练完成的图像生成条件生成模型。90.在本说明书一具体实施方式中,在样本文本集中获取文本a;将文本a输入图像生成条件生成模型;获取图像生成条件生成模型输出的预测图像生成条件;基于预设损失值计算方式、预设图像生成条件和目标类型的图像生成条件计算目标损失值;进一步,基于目标损失值对图像生成条件生成模型的模型参数进行调整;直至得到训练完成的图像生成条件生成模型,从而可以将训练完成的图像生成条件生成模型用于生成文本a对应的图像生成条件。91.通过基于样本文本集对图像生成条件生成模型进行训练,从而可以提升图像生成条件生成模型输出图像生成条件的准确度。92.步骤204:将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。93.在获得目标文本以及对应的至少一种类型的图像生成条件后,可以基于目标文本和至少一种类型的图像生成条件生成目标图像;本说明书的图像生成方法,将目标文本和至少一种类型的图像生成条件输入预先训练完成的图像生成模型,进行目标图像的生成,从而提升生成目标图像的效率。94.实际应用中,图像生成模型可以是文生图大模型;文生图大模型是一种特殊的条件扩散模型,它建模的数据分布可以表达为pθ(x0|c)=∫pθ(x0:t|c)dx1:t,其中,描述了扩散模型的反向过程,其中而pθ(xt-1|xt)是单步的转移概率;c是输入的条件,可以是文本,类别标签,分割图,等等,在文生图大模型中特指文本。采样的时候,从标准高斯分布里采样得到xt,然后通过学到的转移概率pθ(xt-1|xt)预测得到xt-1,接着依次得到xt-2,…x0,x0就是最终生成的图片。文生图大模型可以根据输入文本,生成匹配的图像。文生图大模型通常在海量的数据集上训练,生成能力强。文生图大模型包括dalle-2,imagen,stable-diffusion等。虽然文生图大模型的生成能力很强,但是文本对于最后生成图像的控制能力相对较弱,一句文本往往能对应很多图像。因此,为了加强对最终生成图像的控制,可以在大模型基础上增加条件控制的功能,例如controlnet。也有大模型具备多条件控制的能力,例如composer。95.在实际应用中,将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像的方法可以包括:96.将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型的特征处理模块,获得图像特征向量;97.基于各图像特征向量生成所述目标文本对应的目标图像。98.其中,特征处理模块是指可以将输入的内容转换为对应的特征向量的模块。99.具体的,将确定的目标文本以及目标文本对应的至少一种类型的图像生成条件输入图像生成模型的特征处理模块;特征处理模块将目标文本和各类型的图像生成条件转换为各图像特征向量;进而基于各图像特征向量生成目标文本对应的目标图像,从而实现图像的生成。100.在实际应用中,在对图像生成模型进行应用前,需要对图像生成模型进行训练,来保证图像生成模型的生成准确度,所述图像生成模型可以基于如下步骤训练获得:101.在样本图像集中获取目标样本对,其中,所述目标样本对携带有至少一种类型的图像生成条件,所述目标样本对由目标样本文本和目标样本图像组成;102.将所述目标样本文本和各图像生成条件输入至图像生成模型,获得所述图像生成模型输出的预测图像;103.基于所述预测图像和所述目标样本图像计算模型损失值;104.根据所述模型损失值对所述图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。105.其中,样本图像集是指由样本对组成的集合,集合中的各样本对携带有至少一种类型的图像生成条件,各样本对由样本文本和样本图像组成;目标样本对是指样本图像集合中任一样本对;目标样本文本是指目标样本对中包含的样本文本;目标样本图像是指目标样本对中包含的样本图像;预测图像是指图像生成模型根据目标样本对输出的图像;模型损失值是指用于对图像生成模型的模型参数进行调整的损失值。106.在实际应用中,样本对可携带一种或多种类型的图像生成条件,从而训练图像生成模型可以基于目标文本、一种或多种图像生成条件,生成目标文本对应的目标图像。107.具体的,获取样本图像集;在样本图像集中任意确定一个样本对,作为目标样本对;解析目标样本对,确定目标样本文本、目标样本图像以及各图像生成条件;将目标样本文本和各图像生成条件输入图像生成模型;获取由图像生成模型输出的预测图像;根据预设图像和目标样本图像计算模型损失值,进而基于模型损失值对图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。108.在本说明书一具体实施方式中,在样本图像集中确定样本对g;解析样本对g,获得样本文本、样本图像和样本对g携带的草图条件和深度图条件;将样本文本、草图条件和深度图条件输入图像生成模型,获得预测图像;基于样本图像和预测图像计算模型损失值;基于模型损失值对图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。109.通过预先对图像生成模型进行训练,使图像生成模型具备基于图像生成条件生成图像的能力,以便后续基于图像生成模型获得目标图像。110.进一步地,在样本图像集中获取目标样本对之前,还包括:111.获取至少一个样本图像和各样本图像对应的样本文本;112.确定各样本图像对应的至少一种类型的图像生成条件;113.基于各样本图像和各样本图像对应的样本文本生成样本对,并为各样本对添加所述至少一种类型的图像生成条件;114.根据各携带有所述至少一种类型的图像生成条件的样本对,生成样本图像集。115.具体的,由于样本图像可直接获取,故可以先获取至少一个样本图像,进而确定每个样本图像对应的样本文本,例如,可以由用户对样本图像已文本的形式描述,得到样本文本,或将样本图像输入预先训练完成的文本生成模型,获得由文本生成模型基于样本图像输出的样本文本等等;进一步地,获取各样本图像对应的至少一个类型的图像生成条件,具体可在数据库中获取预先为样本图像设置的图像生成条件,或将样本图像输入至图像识别模型,从而得到图像识别模型输出的图像生成条件等;组合对应的样本图像和样本文本,得到样本对,并为该样本对添加样本图像对应的至少一种类型的图像生成条件。116.通过生成样本图像集,以便基于包含图像生成条件的样本图像集对图像生成模型进行训练。117.在实际应用中,确定各样本图像对应的至少一种类型的图像生成条件的方法可以包括:118.获取至少一个图像识别模型,其中,所述图像识别模型用于根据输入的图像,输出目标类型的图像生成条件;119.将所述样本图像输入至各图像识别模型,获得所述样本图像对应的至少一种类型的图像生成条件。120.其中,图像识别模型是指可基于输入的图像输出图像生成条件的模型;不同的图像识别模型可以识别出图像中不同类型的图像生成条件。121.具体的,可以获取至少一个图像识别模型,由各图像识别模型对样本图像的不同类型的图像生成条件进行识别;还可以预先训练对多种类型的图像生成条件进行识别的图像识别模型,将样本图像输入该图像识别模型中,可直接获取到由图形识别模型输出的多种类型的图像生成条件。122.在本说明书一具体实施方式中,获取图像识别模型a和图像识别模型b;将风景图像分别输入至图像识别模型a和b,得到由图像识别模型a输出的草图条件和图像识别模型b输出的深度图条件;从而得到样本图像对应的不同类型的图像生成条件。123.通过图像识别模型确定样本图像对应的至少一种类型的图像生成条件,从而可以提升获取到图像生成条件效率。124.本说明书的图像生成方法,获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。125.通过基于目标文本确定至少一种类型的图像生成条件,以便基于图像生成条件生成图像;将目标文本和至少一种类型的图像生成条件输入图像生成方法,从而丰富了目标图像的生成方式,并且基于至少一种类型的图像生成条件生成目标图像,提升了目标图像的准确度。126.参见图3,图3示出了根据本说明书一个实施例提供的一种图像生成模型的训练方法的流程图,应用于服务器,具体包括以下步骤:127.步骤302:在样本图像集中获取目标样本对,其中,所述目标样本对携带有至少一种类型的图像生成条件,所述目标样本对由目标样本文本和目标样本图像组成。128.步骤304:将所述目标样本文本和各图像生成条件输入至图像生成模型,获得所述图像生成模型输出的预测图像。129.步骤306:基于所述预测图像和所述目标样本图像计算模型损失值。130.步骤308:根据所述模型损失值对所述图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。131.本说明书的图像生成模型的训练方法,在样本图像集中获取目标样本对,其中,所述目标样本对携带有至少一种类型的图像生成条件,所述目标样本对由目标样本文本和目标样本图像组成;将所述目标样本文本和各图像生成条件输入至图像生成模型,获得所述图像生成模型输出的预测图像;基于所述预测图像和所述目标样本图像计算模型损失值;根据所述模型损失值对所述图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。132.通过包含至少一种类型的图像生成条件的样本图像集,对图像生成模型进行训练,从而使得图像生成模型具备基于文本和图像生成条件生成图像的功能,进而提升图像生成模型输出图像的准确度。133.参见图4,图4示出了根据本说明书一个实施例提供的另一种图像生成方法的流程图,应用于服务器,具体包括:134.步骤402:接收客户端发送的目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像。135.步骤404:将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。136.步骤406:将所述目标图像返回至所述客户端。137.本说明书应用于服务器的图像生成方法,接收客户端发送的目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成;将所述目标图像返回至所述客户端。138.通过接收客户端发送的目标文本,进而由服务器基于目标文本生成目标图像,再将目标图像返回至客户端,避免在客户端进行目标图像的生成,导致占用客户端计算资源的问题,进而提升生成目标图像的效率。139.下述结合附图5,以本说明书提供的图像生成方法在人物图像的应用为例,对所述图像生成方法进行进一步说明。其中,图5示出了本说明书一个实施例提供的一种图像生成方法的处理过程流程图,具体包括以下步骤。140.步骤502:获取人物描述文本,并基于所述人物描述文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述人物描述文本对应的目标图像。141.步骤504:将所述人物描述文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述人物描述文本对应的人物图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。142.本说明书人物图像生成方法,获取人物描述文本,并基于所述人物描述文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述人物描述文本对应的目标图像;将所述人物描述文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述人物描述文本对应的人物图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。143.通过基于人物描述文本确定至少一种类型的图像生成条件,以便基于图像生成条件生成图像;将人物描述文本和至少一种类型的图像生成条件输入图像生成方法,从而丰富了目标图像的生成方式,并且基于至少一种类型的图像生成条件生成目标图像,提升了人物图像的准确度。144.与上述方法实施例相对应,本说明书还提供了图像生成装置实施例,图6示出了本说明书一个实施例提供的一种图像生成装置的结构示意图。如图6所示,该装置包括:145.获取模块602,被配置为获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;146.输入模块604,被配置为将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。147.可选地,所述装置还包括第一训练模块,被配置为:148.在样本图像集中获取目标样本对,其中,所述目标样本对携带有至少一种类型的图像生成条件,所述目标样本对由目标样本文本和目标样本图像组成;149.将所述目标样本文本和各图像生成条件输入至图像生成模型,获得所述图像生成模型输出的预测图像;150.基于所述预测图像和所述目标样本图像计算模型损失值;151.根据所述模型损失值对所述图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。152.可选地,所述装置还包括生成模块,被配置为:153.获取至少一个样本图像和各样本图像对应的样本文本;154.确定各样本图像对应的至少一种类型的图像生成条件;155.基于各样本图像和各样本图像对应的样本文本生成样本对,并为各样本对添加所述至少一种类型的图像生成条件;156.根据各携带有所述至少一种类型的图像生成条件的样本对,生成样本图像集。157.可选地,所述生成模块,进一步被配置为:158.获取至少一个图像识别模型,其中,所述图像识别模型用于根据输入的图像,输出目标类型的图像生成条件;159.将所述样本图像输入至各图像识别模型,获得所述样本图像对应的至少一种类型的图像生成条件。160.可选地,所述获取模块602,进一步被配置为:161.确定至少一个图像生成条件生成模型,其中,所述图像生成条件生成模型用于根据输入的文本,输出目标类型的图像生成条件;162.基于所述目标文本和所述至少一个图像生成条件生成模型,获得各类型的图像生成条件。163.可选地,所述装置还包括第二训练模块,被配置为:164.获取样本文本集中的目标待处理文本,其中,所述样本文本集中包含携带有目标类型的图像生成条件的待处理文本;165.将所述目标待处理文本输入图像生成条件生成模型,获得预测图像生成条件;166.根据所述预设图像生成条件和所述目标类型的图像生成条件计算目标损失值;167.基于所述目标损失值对所述图像生成条件生成模型的模型参数进行调整,直至得到训练完成的图像生成条件生成模型。168.可选地,所述获取模块602,进一步被配置为:169.基于第一图像生成条件生成模型和所述目标文本,确定第一类型图像生成条件;170.根据所述第一类型图像生成条件在预设图像生成链中确定第二类型图像生成条件;171.根据所述目标文本、所述第一类型图像生成条件和所述第二图像生成条件生成模型,获得第二类型图像生成条件;172.将所述第一类型图像生成条件和所述第二类型图像生成条件,作为所述目标文本的图像生成条件。173.可选地,所述输入模块604,进一步被配置为:174.将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型的特征处理模块,获得图像特征向量;175.基于各图像特征向量生成所述目标文本对应的目标图像。176.可选地,所述图像生成条件包含如下条件中的至少一个:掩码条件、草图条件、实例条件、深度图条件、边缘条件、灰度图条件、颜色条件。177.本说明书的图像生成装置,获取模块,获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;输入模块,将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。178.通过基于目标文本确定至少一种类型的图像生成条件,以便基于图像生成条件生成图像;将目标文本和至少一种类型的图像生成条件输入图像生成方法,从而丰富了目标图像的生成方式,并且基于至少一种类型的图像生成条件生成目标图像,提升了目标图像的准确度。179.上述为本实施例的一种图像生成装置的示意性方案。需要说明的是,该图像生成装置的技术方案与上述的图像生成方法的技术方案属于同一构思,图像生成装置的技术方案未详细描述的细节内容,均可以参见上述图像生成方法的技术方案的描述。180.图7示出了根据本说明书一个实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。181.计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(pstn,publicswitchedtelephonenetwork)、局域网(lan,localareanetwork)、广域网(wan,wideareanetwork)、个域网(pan,personalareanetwork)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic,networkinterfacecontroller))中的一个或多个,诸如ieee802.11无线局域网(wlan,wirelesslocalareanetwork)无线接口、全球微波互联接入(wi-max,worldwideinteroperabilityformicrowaveaccess)接口、以太网接口、通用串行总线(usb,universalserialbus)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc,nearfieldcommunication)。182.在本说明书的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。183.计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(pc,personalcomputer)的静止计算设备。计算设备700还可以是移动式或静止式的服务器。184.其中,处理器720用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像生成方法的步骤。185.上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图像生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图像生成方法的技术方案的描述。186.本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像生成方法的步骤。187.上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像生成方法的技术方案的描述。188.本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像生成方法的步骤。189.上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的图像生成方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述图像生成方法的技术方案的描述。190.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。191.所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据专利实践的要求进行适当的增减,例如在某些地区,根据专利实践,计算机可读介质不包括电载波信号和电信信号。192.需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。193.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。194.以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属
技术领域:
:技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。当前第1页12当前第1页12
技术特征:
1.一种图像生成方法,包括:获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。2.如权利要求1所述的方法,所述图像生成模型基于如下步骤训练获得:在样本图像集中获取目标样本对,其中,所述目标样本对携带有至少一种类型的图像生成条件,所述目标样本对由目标样本文本和目标样本图像组成;将所述目标样本文本和各图像生成条件输入至图像生成模型,获得所述图像生成模型输出的预测图像;基于所述预测图像和所述目标样本图像计算模型损失值;根据所述模型损失值对所述图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。3.如权利要求2所述的方法,在样本图像集中获取目标样本对之前,还包括:获取至少一个样本图像和各样本图像对应的样本文本;确定各样本图像对应的至少一种类型的图像生成条件;基于各样本图像和各样本图像对应的样本文本生成样本对,并为各样本对添加所述至少一种类型的图像生成条件;根据各携带有所述至少一种类型的图像生成条件的样本对,生成样本图像集。4.如权利要求3所述的方法,确定各样本图像对应的至少一种类型的图像生成条件,包括:获取至少一个图像识别模型,其中,所述图像识别模型用于根据输入的图像,输出目标类型的图像生成条件;将所述样本图像输入至各图像识别模型,获得所述样本图像对应的至少一种类型的图像生成条件。5.如权利要求1所述的方法,基于所述目标文本确定至少一种类型的图像生成条件,包括:确定至少一个图像生成条件生成模型,其中,所述图像生成条件生成模型用于根据输入的文本,输出目标类型的图像生成条件;基于所述目标文本和所述至少一个图像生成条件生成模型,获得各类型的图像生成条件。6.如权利要求5所述的方法,确定至少一个图像生成条件生成模型之前,还包括:获取样本文本集中的目标待处理文本,其中,所述样本文本集中包含携带有目标类型的图像生成条件的待处理文本;将所述目标待处理文本输入图像生成条件生成模型,获得预测图像生成条件;根据所述预设图像生成条件和所述目标类型的图像生成条件计算目标损失值;基于所述目标损失值对所述图像生成条件生成模型的模型参数进行调整,直至得到训
练完成的图像生成条件生成模型。7.如权利要求1所述的方法,基于所述目标文本确定至少一种类型的图像生成条件,包括:基于第一图像生成条件生成模型和所述目标文本,确定第一类型图像生成条件;根据所述第一类型图像生成条件在预设图像生成链中确定第二类型图像生成条件;根据所述目标文本、所述第一类型图像生成条件和所述第二图像生成条件生成模型,获得第二类型图像生成条件;将所述第一类型图像生成条件和所述第二类型图像生成条件,作为所述目标文本的图像生成条件。8.如权利要求1所述的方法,将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,包括:将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型的特征处理模块,获得图像特征向量;基于各图像特征向量生成所述目标文本对应的目标图像。9.如权利要求1所述的方法,所述图像生成条件包含如下条件中的至少一个:掩码条件、草图条件、实例条件、深度图条件、边缘条件、灰度图条件、颜色条件。10.一种图像生成模型的训练方法,应用于服务器,包括:在样本图像集中获取目标样本对,其中,所述目标样本对携带有至少一种类型的图像生成条件,所述目标样本对由目标样本文本和目标样本图像组成;将所述目标样本文本和各图像生成条件输入至图像生成模型,获得所述图像生成模型输出的预测图像;基于所述预测图像和所述目标样本图像计算模型损失值;根据所述模型损失值对所述图像生成模型的模型参数进行调整,直至得到训练完成的图像生成模型。11.一种图像生成方法,应用于服务器,包括:接收客户端发送的目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成;将所述目标图像返回至所述客户端。12.一种图像生成装置,包括:获取模块,被配置为获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;输入模块,被配置为将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。
13.一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。
技术总结
本说明书实施例提供图像生成方法及装置,其中所述图像生成方法包括:获取目标文本,并基于所述目标文本确定至少一种类型的图像生成条件,其中,所述图像生成条件用于生成所述目标文本对应的目标图像;将所述目标文本和所述至少一种类型的图像生成条件输入图像生成模型,获得所述目标文本对应的目标图像,其中,所述图像生成模型基于样本图像集训练获得,所述样本图像集中包含样本对和样本对对应的至少一种类型的图像生成条件,所述样本对由样本文本和样本图像组成。将目标文本和至少一种类型的图像生成条件输入图像生成方法,从而丰富了目标图像的生成方式,并且基于至少一种类型的图像生成条件生成目标图像,提升了目标图像的准确度。的准确度。的准确度。
技术研发人员:阳展韬 颜科宇 黄梁华 陈狄 刘宇 赵德丽
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:2023.06.12
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/