一种基于语义引导信息的条件式图像生成方法及相关装置

未命名 08-07 阅读:91 评论:0


1.本技术涉及计算机图形学技术领域,特别涉及一种基于语义引导信息的条件式图像生成方法及相关装置。


背景技术:

2.随着人工智能生成内容技术的快速兴起,人们对具有特定含义图像的需求急剧增加。相应的,各种图像生成方法应时而生,以满足人们对具有特定含义图像的需求。其中,比较常用的图像生成技术是通过在庞大的数据集上训练超大规模的模型,然后采用训练得到的模型来生成具有特定含义图像。然而,该图像生成技术一方面需要大量标注的文本-图像/图像-图像的成对数据,另一方面需要付出大量人工或计算资源,这就增加了图像生成技术的人工成本和资源成本。
3.因而现有技术还有待改进和提高。


技术实现要素:

4.本技术要解决的技术问题在于,针对现有技术的不足,提供一种基于语义引导信息的条件式图像生成方法及相关装置。
5.为了解决上述技术问题,本技术实施例第一方面提供了一种基于语义引导信息的条件式图像生成方法,所述方法包括:获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量;将所述语义特征信息和所述噪声向量输入经过训练的条件流模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入;将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像;其中,所述条件流模型包括若干尺度变换模块、条件单步流单元以及拼接模块,若干尺度变换模块依次级联,位于最后的尺度变换模块与条件单步流单元相连接,除位于最后的尺度变换模块外的各尺度变换模块均与拼接模块相连接,条件单步流单元与拼接模块相连接;其中,所述尺度变换模块包括依次级联的条件单步流单元和维度分割单元,所述条件单步流单元包括若干依次级联的条件单步流块,所述条件单步流块包括依次级联的激活标准化层、可逆卷积层和条件耦合层。
6.所述的基于语义引导信息的条件式图像生成方法,其中,所述维度分割单元用于将位于最后的条件单步流块输出的特征向量划分为第一特征向量和第二特征向量,并将第一特征向量输入拼接模块,将第二特征向量与条件向量拼接后输入位于其后的尺度变换模块。
7.所述的基于语义引导信息的条件式图像生成方法,其中,所述条件流模型的训练过程具体包括:获取训练数据集,其中,所述训练数据集包括若干训练数据对,若干训练数据对中
的每个训练数据对均包括训练图像嵌入和基于所述训练图像嵌入生成的训练图像;提取训练图像对中的训练图像的训练语义特征信息,并将所述训练语义特征信息和训练图像对中的训练图像嵌入输入待训练条件流模型;通过所述条件流模型确定训练图像嵌入对应的预测隐向量;基于所述预测隐向量和所述训练图像嵌入对应的隐向量对所述待训练条件流模型进行训练,以得到经过训练的条件流模型。
8.所述的基于语义引导信息的条件式图像生成方法,其中,所述待训练条件流模型的目标函数为:;其中,表示先验,表示雅克比矩阵,表示先验的高斯分布,表示待训练条件流模型的转换函数,表示图像嵌入,表示训练数据集。
9.所述的基于语义引导信息的条件式图像生成方法,其中,所述获取训练数据集具体包括:从高斯分布中采样随机噪声向量;将所述随机噪声向量输入预训练的生成对抗网络中的映射网络,通过所述映射网络生成训练图像嵌入,其中,所述随机噪声向量为所述训练图像嵌入的隐向量;将所述训练图像嵌入输入预训练的生成对抗网络中的生成器,通过所述生成器生成训练图像以得到训练数据对,其中,预训练的生成对抗网络中的生成器为用于确定生成图像的预训练的生成器;重复从高斯分布中采样随机噪声向量的步骤直至训练数据对的数量达到预设数量,以得到训练数据集。
10.所述的基于语义引导信息的条件式图像生成方法,其中,所述获取训练数据集之后,所述方法还包括:采用向训练数据对中的训练图像嵌入内添加随机扰动方式对所述训练数据集进行噪声正则化,并将噪声正则化后的训练数据集作为训练数据集。
11.所述的基于语义引导信息的条件式图像生成方法,其中,所述获取初始语义数据的语义特征信息具体包括:将初始语义数据输入预训练的clip编码器,其中,所述初始语义数据为文本数据或图像数据;通过所述clip编码器提取所述初始语义数据对应的语义特征信息。
12.本技术实施例第二方面提供了一种基于语义引导信息的条件式图像生成装置,所述装置包括:获取模块,用于获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量;生成模块,用于将所述语义特征信息和所述噪声向量输入经过训练的条件流模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入;
确定模块,用于将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像;其中,所述条件流模型包括若干尺度变换模块、条件单步流单元以及拼接模块,若干尺度变换模块依次级联,位于最后的尺度变换模块与条件单步流单元相连接,除位于最后的尺度变换模块外的各尺度变换模块均与拼接模块相连接,条件单步流单元与拼接模块相连接;其中,所述尺度变换模块包括依次级联的条件单步流单元和维度分割单元,条件单步流单元包括若干依次级联的条件单步流块,所述条件单步流块包括依次级联的激活标准化层、可逆卷积层和条件耦合层。
13.本技术实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的基于语义引导信息的条件式图像生成方法中的步骤。
14.本技术实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述通信总线实现处理器和存储器之间的连接通信;所述处理器执行所述计算机可读程序时实现如上任一所述的基于语义引导信息的条件式图像生成方法中的步骤。
15.有益效果:与现有技术相比,本技术提供了一种基于语义引导信息的条件式图像生成方法及相关装置,所述方法包括获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量;将所述语义特征信息和所述噪声向量输入经过训练的条件流模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入;将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像。本技术利用语义特征信息作为条件引导,通过条件流模型将语义特征信息映射至生成器所需的图像嵌入,使得条件流模型均仅需要学习语义特征信息对应的低维隐空间到生成器的低维隐空间的映射,降低了条件流模型的训练难度,从而可以降低图像生成所需要的人力资源成本和计算资源成本。
附图说明
16.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
17.图1为本技术提供的基于语义引导信息的条件式图像生成方法的流程图。
18.图2为本技术提供的基于语义引导信息的条件式图像生成方法的一示例流程图。
19.图3为条件流模型的模型结构示意图。
20.图4为条件流模型中的多尺度示意图。
21.图5为条件耦合层的示意图。
22.图6为“haff”策略的示意图。
23.图7为“odd”策略的示意图。
24.图8为训练过程的流程示意图。
25.图9为本技术提供的基于语义引导信息的条件式图像生成装置的结构原理图。
26.图10为本技术提供的终端设备的结构原理图。
具体实施方式
27.本技术提供一种基于语义引导信息的条件式图像生成方法及相关装置,为使本技术的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本技术进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
28.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
29.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
30.应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
31.经过研究发现,随着人工智能生成内容技术的快速兴起,人们对具有特定含义图像的需求急剧增加。相应的,各种图像生成方法应时而生,以满足人们对具有特定含义图像的需求。其中,比较常用的图像生成技术是通过在庞大的数据集上训练超大规模的模型,然后采用训练得到的模型来生成具有特定含义图像。然而,该图像生成技术一方面需要大量标注的文本-图像/图像-图像的成对数据,另一方面需要付出大量人工或计算资源,这就增加了图像生成技术的人工成本和资源成本。
32.为了解决上述问题,在本技术实施例中,获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量;将所述语义特征信息和所述噪声向量输入经过训练的条件流模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入;将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像。本技术利用语义特征信息作为条件引导,通过条件流模型将语义特征信息映射至生成器所需的图像嵌入,使得条件流模型均仅需要学习语义特征信息对应的低维隐空间到生成器的低维隐空间的映射,降低了条件流模型的训练难度,从而可以降低图像生成所需要的人力资源成本和计算资源成本。
33.下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
34.本实施例提供了一种基于语义引导信息的条件式图像生成方法,所述方法可以应用经过训练的图像生成模型,记为clip-flow模型,其中,clip-flow模型包括预训练的编码器、条件流模型和预训练的生成器,编码器与条件流模型相连接,条件流模型与生成器相连接,编码器用于提取语义特征信息,条件流模型用于以语义特征信息为引导信息,基于噪声
向量生成图像嵌入,生成器用于基于图像嵌入来确定生成图像。所述clip-flow模型通过条件流模型将编码器的隐空间中的语义特征向量映射在生成器的隐空间中的图像嵌入,然后通过生成器和图像嵌入来确定生成图像,这样可以通过条件流模型和生成器将通过编码器获取到的语义特征信息转换为与其相匹配的生成图像,仅需要学习低维度的语义隐空间之间的映射关系,不需要庞大的数据集和计算资源来训练条件流模型,从而可以降低生成图像所需的人工成本和计算成本。
35.在一个实现方式中,可以将利用视觉语言预训练模型clip作为编码器,将预训练的stylegan中的生成器作为生成器,并用条件流模型作为连接二者的桥梁以形成clip-flow模型,这样可以通过clip来充当自动编码器,将初始语义数据嵌入到clip的隐空间中,以此作为条件信息来指导条件流模型确定图像嵌入,然后通过stylegan的生成器将图像嵌入转化为生成图像,实现了图像到图像的生成和文本到图像的生成。这样可以仅训练条件流模型而绕过了生成器的需要,降低了clip-flow模型的训练难度,这是由于图像是一种低级表示,需要付出很多努力才能生成准确的视觉细节。此外,通过采用stylegan的生成器作为生成器,既可以利用stylegan出色的图像生成能力和较低维度的隐空间,又可以避免花费大量精力去生成准确的图像细节,从而更专注于任务本身。当然,在实际应用中,编码器和生成器还可以采用其他结构,并且也可以将编码器、生成器以及条件流模型进行同步训练等。
36.如图1所示,本实施例提供的基于语义引导信息的条件式图像生成方法具体包括:s10、获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量。
37.具体地,初始语义数据可以为图像数据,也可以为文件数据,语义特征信息为对初始语义数据进行特征提取得到的。也就是说,语义特征信息可以为图像语义,也可以是文本语义,即本技术可以将图像语义作为引导信息来确定生成图像,也可以将文本语义作为引导信息来确定生成图像。其中,当初始语义数据为文本数据时,可以先基于文本数据生成文本语义特征,然后将文本语义特征转换为图像语义特征,再将于图像语义特征作为引导信息来确定生成图像。基于此,后续以初始语义数据是图像数据为例对生成图像的生成过程进行说明。
38.在一个实现方式中,将利用视觉语言预训练模型cpli作为编码器,通过clip可以将文本和图像嵌入到相似的隐空间,以便图像和文本可以互相转换使用。相应的,如图2所示,所述获取初始语义数据的语义特征信息具体包括:将初始语义数据输入预训练的clip编码器,其中,所述初始语义数据为文本数据或图像数据;通过所述clip编码器提取所述初始语义数据对应的语义特征信息。
39.具体地,clip包括图像编码器和文本编码器,当初始语义数据为图像数据时,通过clip图像编码器提取图像语义特征信息,当初始语义数据为文本数据时,通过clip文本编码器提取文本语义特征信息。其中,clip在预训练时首先将图像通过图像编码器转换为图像向量,将文本通过文本编码器转换为文本向量,然后将图像向量和文本向量投影到同一向量空间中,使得相似的图像和文本在向量空间中距离更近。接下来,clip使用余弦相似度来评估给定文本和图像之间的语义对应程度,使用对比损失函数最小化相同类别的图像和文本对之间的距离,并最大化不同类别的图像和文本对之间的距离。这种预训练方法使得
clip能够理解和表达多模态内容,并具有很强的零样本迁移能力,即在没有任何新样本的情况下,可以利用先前学习的知识完成新任务,这极大地提高了模型的实用性。因此,本实施例采用clip作为编码器,利用clip可以将文本和图像的特征映射到共享的隐空间中,以及clip的隐空间因具有非常强的语义能力而能够提供对图像和文本内容的高级语义理解的特性,可以实现图像-图像的生成任务和文本-图像的生成任务。
40.s20、将所述语义特征信息和所述噪声向量输入经过训练的条件流模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入。
41.具体地,条件流模型用于以语义特征信息为引导信息将语义特征信息映射为生成器的隐空间中的图像嵌入,以便于生成器可以基于图像嵌入来确定生成图像。可以理解的是,条件流模型用于将语义特征信息的隐空间转换到生成器的隐空间,例如,将clip的隐空间转换到stylegan的隐空间,以达到条件式图像生成的目的,即得到以语义特征信息为引导条件的生成图像。
42.如图3所示,条件流模型包括l-1个尺度变换模块、条件单步流单元以及拼接模块,若干尺度变换模块依次级联,位于最后的尺度变换模块与条件单步流单元相连接,除位于最后的尺度变换模块外的各尺度变换模块均与拼接模块相连接,条件单步流单元与拼接模块相连接;其中,所述尺度变换模块包括依次级联的条件单步流单元和维度分割单元。
43.本实施例所采用的条件流模型为以可逆方式度分布进行建模的,通过若干尺度变换模块可以解决高维度数据所带来的维度浪费问题,可以有效减少模型中的维度冗余,提高模型的效率和性能,并且可以精确地计算生成图像的概率分布,从而可以生成高质量的生成图像。而对于gan等方法,由于其目标函数是非凸的,训练很容易陷入局部最优解,导致生成的图像质量不稳定。其次,流模型是一种可解释性强的模型,可以精确地描述生成样本与条件之间的关系。而对于其他方法,比如vae,由于其目标是最大化一个下界,生成的样本与条件之间的关系不够直观和可解释。另外,流模型的表现力和灵活性也非常强,它可以适应多种不同的数据类型和任务。特别是对于高维数据,流模型可以很好地学习到其复杂的概率分布,并且可以有效地处理这些数据。
44.进一步,所述尺度变换模块中的维度分割单元用于进行维度分割,如图4所示,维度分割单元用于将尺度变换模块中的条件单步流单元输出的特征向量分割第一特征向量和第二特征向量,并将第一特征向量输入拼接模块,将第二特征向量与条件向量拼接后输入位于其后的尺度变换模块,以使得拼接模块获取到多个第一特征向量,并将多个第一特征向量进行拼接以得到预测隐向量。本实施例通过使用多尺度的条件流模型可以提高对齐的精度和鲁棒性,原因在于多尺度的条件流模型能够建模更复杂、更细节的隐空间结构,因此可以更好地捕捉到clip和stylegan隐空间之间的映射关系。与单尺度的条件流模型相比,多尺度的条件流模型可以在不同的尺度下学习图像的隐空间表示,并捕捉到不同尺度下的结构信息。这种多尺度的建模方式可以使条件流模型更加全面地掌握隐空间的结构信息,从而提高对齐的精度和鲁棒性。此外,多尺度的条件流模型还可以缓解梯度消失的问题,使训练过程更加稳定。
45.进一步,如图3所示,条件单步流单元包括k个级联的条件单步流块,并每个条件单步流块均包括依次级联的激活标准化层、可逆卷积层和条件耦合层。其中,激活标准化层是
第一层,用于归一化神经网络中的激活值,以提高训练速度和模型的准确性。激活标准化层通过在每个神经元的输出上进行归一化,使得网络在训练过程中更加稳定。其中,激活标准化对每个样本单独计算其均值和方差,因此在训练小批量样本较少的情况下也能表现良好。此外,激活标准化层的作用不仅可以使得每层网络的输入归一化,还可以缓解基于梯度的方法训练带有标度参数的条件分布时经常遇到的不稳定性问题。同时,使用该激活标准化层在条件单步流单元中使得条件单步流单元可以使用更深的耦合层堆叠进行训练。此外,由于条件流模型普遍包括许多复杂的非线性层组成,它们的输出分布往往不是标准的高斯分布,而是具有不同的均值和方差,从而通过将激活标准化层作为第一次,可以在每个条件单步流单元中消除非高斯性,提高条件流模型的稳定性。
46.可逆卷积层可以采用可逆1
×
1卷积层,通过可逆1
×
1卷积层使用卷积操作来对通道进行反转,可以保证条件流模型的可逆性,其中,可逆1
×
1卷积的权重矩阵被初始化为随机旋转矩阵。与传统的卷积操作不同,1
×
1卷积操作具有相等数量的输入和输出通道,因此可以看作是置换运算的一种推广形式。通过矩阵乘法执行卷积操作,可以有效简化整体的计算量,从而提高生成模型的效率。
47.如图5所示,条件耦合层用于将条件向量的融合到条件流模型中,即条件耦合层用将条件向量与当前尺度块的特征向量在通道维度上进行拼接,具体表示为:;;其中,通常为数值的一半,表示通道的维度;表示图像编码器;和分别表示乘性耦合层的缩放和平移函数。
48.进一步,条件耦合层是将通道拼接后的向量分为两部分,其中,一部分经过仿射变换,和分别表示乘性耦合层的缩放和平移函数,另一部分则是直接复制。其中,条件耦合层的分割策略可以为,“half”策略和“odd”策略。如图6所示,“half”策略为维度分割的前半段为1,后半段为0。如图7所示,“odd”策略为当空间坐标位置为奇数时,掩码的值为1,否则为0,并且掩码在每一层之后都是反向的,即1变为0,0变为1。
49.将两部分结果拼接可得,经过条件耦合层中的加性耦合层结构,可以将雅可比行列式转化为下三角行列式,用分块矩阵表示为:。
50.由于直接复制给,且与没有联系,所以表示单位矩阵,右上角为0,在计算时就不用考虑左下角的值具体,最终计算的结果为一个可逆且计算简单的表达式:

51.在获知条件流模型的模型结构后,下面对条件流模型的训练过程进行说明。在条件流模型的训练过程中,以图像数据为例对训练过程进行说明。如图8所示,clip-flow的训练有两个阶段,即条件流模型的训练有两个阶段,其中,阶段一为构建训练数据集合,阶段二为训练条件流模型。基于此,所述条件流模型的训练过程具体包括:h10、获取训练数据集;h11、提取训练图像对中的训练图像的训练语义特征信息,并将所述训练语义特征信息和训练图像对中的训练图像嵌入输入待训练条件流模型;h12、通过所述条件流模型确定训练图像嵌入对应的预测隐向量;h13、基于所述预测隐向量和所述训练图像嵌入对应的隐向量对所述待训练条件流模型进行训练,以得到经过训练的条件流模型。
52.具体地,所述训练数据集包括若干训练数据对,若干训练数据对中的每个训练数据对均包括训练图像嵌入和基于所述训练图像嵌入生成的训练图像,也就是说,训练图像嵌入为预训练的生成器隐空间的嵌入表示,为使用预训练的生成器生成的生成图像,训练图像嵌入与训练图像相互对应。
53.在一个实现方式中,如图8所示,所述获取训练数据集具体包括:h11、从高斯分布中采样随机噪声向量;h12、将所述随机噪声向量输入预训练的生成对抗网络中的映射网络,通过所述映射网络生成训练图像嵌入,其中,所述随机噪声向量为所述训练图像嵌入的隐向量;h13、将所述训练图像嵌入输入预训练的生成对抗网络中的生成器,通过所述生成器生成训练图像,以得到训练数据对,其中,预训练的生成对抗网络中的生成器为用于确定生成图像的预训练的生成器;h14、重复从高斯分布中采样随机噪声向量的步骤直至训练数据对的数量达到预设数量,以得到训练数据集。
54.具体地,映射网络为预训练的生成对抗网络中的映射网络,该预训练的生成对抗网络与预训练的生成器所属的生成对抗网络相同,也就是说,预训练的生成对抗网络包括映射网络和生成器,其中,映射网络用于生成训练图像嵌入,生成器网络用于基于训练图像嵌入生成训练图像,并且用于确定训练图像的生成器与用于确定生成图像的生成器相同。
55.映射网络用于将来隐向量映射为图像嵌入,其中,隐向量是从高斯分布中随机采样得到的,隐向量可以组成隐空间,隐空间服从高斯分布的约束,隐空间通过映射网络映射为隐空间,隐空间为具表现力和可控性的隐空间。映射网络可以包括若干全连接层组成,每个全连接层觉配置有权重和偏置项,权重和偏置项可以通过反向传播算法来学习。在权重和偏执型的学习过程使映射网络能够从语义数据中学习出如何
将隐向量映射到隐空间中,即,表示映射网络。在一个典型实现方式中,所述预训练的生成对抗网络为stylegan,即映射网络为stylegan所包括的映射网络,相应的,预训练的生成器为stylegan所包括的生成器。
56.在一个具体实现方式中,从高斯分布中采样的随机噪声向量,把随机噪声向量输入到stylegan的映射网络,通过映射网络得到隐向量,将输入到stylegan的生成器,stylegan的生成器采用渐进式的方式,从4
×
4分辨率开始,最终生成1024
×
1024的高分辨率的训练图像。本实施例通过高斯分布中采样随机噪声向量,然后通过预训练的stylegan来构建训练数据集,这样不需要任何外部的训练数据,降低了训练数据集的构建成本。具体来说,在高斯分布中可以采集到大量的随机噪声向量,这样可以保证训练数据集中的训练数据对的数量,然后使用stylegan中的映射网络和生成器可以快速地生成高质量的训练图像,并且训练图像与映射网络生成的训练图像嵌入相匹配,这样可以快速生成训练数据集,并且stylegan为被预选训练过程,不需要再次训练来生成训练数据对,同时用于构建训练数据对的随机噪声向量可以从高斯分布中采样,因而可以减少了训练数据集的构建成本。
57.进一步,在获取到训练数据集后,为了提高训练得到的条件流模型的表达能力,可以在训练图像对中的训练图像嵌入中添加随机扰动以进行噪声正则化。基于此,所述获取训练数据集之后,所述方法还包括:采用向训练数据对中的训练图像嵌入内添加随机扰动方式对所述训练数据集进行噪声正则化,并将噪声正则化后的训练数据集作为训练数据集。
58.具体地,噪声正则化为在训练数据集中的训练嵌入中添加随机扰动,可以表示为:;
59.其中,表示映射网络,表示一个高斯噪声向量,表示随机噪声向量,表示训练图像嵌入。
60.由于条件流模型旨在从数据中学习完整的条件概率密度,以捕捉条件对输入的随机依赖性,从而通过对条件概率密度进行建模,可以更好地理解和描述输入和条件之间的关系。然而,在对条件概率密度进行建模时,通常使用对数似然目标函数优化,而在使用对数似然目标函数优化时,可能会出现过拟合现象。因此,本实施例通过在对数似然目标优化过程中对隐向量添加随机扰动进行噪声正则化,可以避免使用条件流模型采用对数似然目标函数优化时可能出现的过拟合现象。此外,通过在对数似然目标优化过程中对隐向量添加随机扰动进行噪声正则化也可以对训练数据集进行扩充,而噪声向量在理论上是无限的,从而可以通过采样噪声向量来生成任意大的增强数据集合,然后将增强数据集作为训练数据集,就可以获取到任意大的训练数据集。
61.进一步,在获取到训练数据集后,可以通过训练数据集对条件流模型进行训练,具
体地说,使用训练图像嵌入和其对应的训练图像来训练条件流模型,将的分布转化为高斯分布。在此过程中,对训练图像进行编码得到条件向量,在条件耦合层中将与特征向量进行拼接。然后使用密度估计损失对图像的特征向量和条件进行训练,其目标是最小化目标函数。本实施例中采用负对数似然函数作为目标函数,使得本实施例采用负似然函数作为损失项,不使用语义特征信息及其他损失项来约束指导网络的训练,降低了条件流模型的训练难度,提高了条件流模型的训练速度。
62.在一个实现方式中,所述目标函数可以表示为:;其中,表示先验,表示雅克比矩阵,表示先验的高斯分布,表示待训练条件流模型的转换函数,表示图像嵌入,表示训练数据集s30、将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像。
63.具体地,生成器用于基于图像嵌入确定生成图像,其中,生成器与条件流模型的训练过程中所采用的生成器相同。
64.综上所述,本实施例提供了一种述基于语义引导信息的条件式图像生成方法,方法首先将输入的初始语义数据转换为条件向量。条件向量捕捉了图像的语义特征信息,并用于指导图像的生成过程。同时,从高斯分布中采样得到的噪声向量引入了随机性和多样性。通过多次从高斯分布中采样并进行逆推理过程,可以生成多个与给定初始语义数据相似但在细节和样式方面略有差异的图像。这种随机性提供了一定的探索空间,在生成图像时探索不同的样式、细节和外观,生成多样化的图像结果。当获取到了条件向量以及从高斯分布中采样得到的噪声向量,接下来使用条件流模型的逆向推理的过程,以获得生成器的隐空间中的图像嵌入,最终,生成的图像嵌入被输入到生成器中,通过生成器将其转换为生成图像。本技术利用语义特征信息作为条件引导,通过条件流模型将语义特征信息映射至生成器所需的图像嵌入,使得条件流模型均仅需要学习语义特征信息对应的低维隐空间到生成器的低维隐空间的映射,降低了条件流模型的训练难度,从而可以降低图像生成所需要的人力资源成本和计算资源成本。
65.基于上述基于语义引导信息的条件式图像生成方法,本实施例提供了一种基于语义引导信息的条件式图像生成装置,如图9所示,所述装置包括:获取模块100,用于获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量;生成模块200,用于将所述语义特征信息和所述噪声向量输入经过训练的条件流
模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入;确定模块300,用于将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像;其中,所述条件流模型包括若干尺度变换模块、条件单步流单元以及拼接模块,若干尺度变换模块依次级联,位于最后的尺度变换模块与条件单步流单元相连接,除位于最后的尺度变换模块外的各尺度变换模块均与拼接模块相连接,条件单步流单元与拼接模块相连接;其中,所述尺度变换模块包括依次级联的条件单步流单元和维度分割单元,条件单步流单元包括若干依次级联的条件单步流块,所述条件单步流块包括依次级联的激活标准化层、可逆卷积层和条件耦合层。
66.基于上述基于语义引导信息的条件式图像生成方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的基于语义引导信息的条件式图像生成方法中的步骤。
67.基于上述基于语义引导信息的条件式图像生成方法,本技术还提供了一种终端设备,如图10所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(communications interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
68.此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
69.存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
70.存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
71.此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
72.最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

技术特征:
1.一种基于语义引导信息的条件式图像生成方法,其特征在于,所述方法包括:获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量;将所述语义特征信息和所述噪声向量输入经过训练的条件流模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入;将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像;其中,所述条件流模型包括若干尺度变换模块、条件单步流单元以及拼接模块,若干尺度变换模块依次级联,位于最后的尺度变换模块与条件单步流单元相连接,除位于最后的尺度变换模块外的各尺度变换模块均与拼接模块相连接,条件单步流单元与拼接模块相连接;其中,所述尺度变换模块包括依次级联的条件单步流单元和维度分割单元,所述条件单步流单元包括若干依次级联的条件单步流块,所述条件单步流块包括依次级联的激活标准化层、可逆卷积层和条件耦合层。2.根据权利要求1所述的基于语义引导信息的条件式图像生成方法,其特征在于,所述维度分割单元用于将位于最后的条件单步流块输出的特征向量划分为第一特征向量和第二特征向量,并将第一特征向量输入拼接模块,将第二特征向量与条件向量拼接后输入位于其后的尺度变换模块。3.根据权利要求1所述的基于语义引导信息的条件式图像生成方法,其特征在于,所述条件流模型的训练过程具体包括:获取训练数据集,其中,所述训练数据集包括若干训练数据对,若干训练数据对中的每个训练数据对均包括训练图像嵌入和基于所述训练图像嵌入生成的训练图像;提取训练图像对中的训练图像的训练语义特征信息,并将所述训练语义特征信息和训练图像对中的训练图像嵌入输入待训练条件流模型;通过所述条件流模型确定训练图像嵌入对应的预测隐向量;基于所述预测隐向量和所述训练图像嵌入对应的隐向量对所述待训练条件流模型进行训练,以得到经过训练的条件流模型。4.根据权利要求3所述的基于语义引导信息的条件式图像生成方法,其特征在于,所述待训练条件流模型的目标函数为:;其中,表示先验,表示雅克比矩阵,表示先验的高斯分布,表示待训练条件流模型的转换函数,表示图像嵌入,表示训练数据集。5.根据权利要求3所述的基于语义引导信息的条件式图像生成方法,其特征在于,所述获取训练数据集具体包括:从高斯分布中采样随机噪声向量;将所述随机噪声向量输入预训练的生成对抗网络中的映射网络,通过所述映射网络生成训练图像嵌入,其中,所述随机噪声向量为所述训练图像嵌入的隐向量;将所述训练图像嵌入输入预训练的生成对抗网络中的生成器,通过所述生成器生成训练图像以得到训练数据对,其中,预训练的生成对抗网络中的生成器为用于确定生成图像
的预训练的生成器;重复从高斯分布中采样随机噪声向量的步骤直至训练数据对的数量达到预设数量,以得到训练数据集。6.根据权利要求5所述的基于语义引导信息的条件式图像生成方法,其特征在于,所述获取训练数据集之后,所述方法还包括:采用向训练数据对中的训练图像嵌入内添加随机扰动方式对所述训练数据集进行噪声正则化,并将噪声正则化后的训练数据集作为训练数据集。7.根据权利要求1所述的基于语义引导信息的条件式图像生成方法,其特征在于,所述获取初始语义数据的语义特征信息具体包括:将初始语义数据输入预训练的clip编码器,其中,所述初始语义数据为文本数据或图像数据;通过所述clip编码器提取所述初始语义数据对应的语义特征信息。8.一种基于语义引导信息的条件式图像生成装置,其特征在于,所述装置包括:获取模块,用于获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量;生成模块,用于将所述语义特征信息和所述噪声向量输入经过训练的条件流模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入;确定模块,用于将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像;其中,所述条件流模型包括若干尺度变换模块、条件单步流单元以及拼接模块,若干尺度变换模块依次级联,位于最后的尺度变换模块与条件单步流单元相连接,除位于最后的尺度变换模块外的各尺度变换模块均与拼接模块相连接,条件单步流单元与拼接模块相连接;其中,所述尺度变换模块包括依次级联的条件单步流单元和维度分割单元,条件单步流单元包括若干依次级联的条件单步流块,所述条件单步流块包括依次级联的激活标准化层、可逆卷积层和条件耦合层。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-7任意一项所述的基于语义引导信息的条件式图像生成方法中的步骤。10.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述通信总线实现处理器和存储器之间的连接通信;所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的基于语义引导信息的条件式图像生成方法中的步骤。

技术总结
本申请公开了一种基于语义引导信息的条件式图像生成方法及相关装置,方法包括获取初始语义数据的语义特征信息,并从高斯分布中采样噪声向量;将所述语义特征信息和所述噪声向量输入经过训练的条件流模型,通过所述条件流模型生成预训练的生成器的隐空间中的图像嵌入;将所述图像嵌入输入所述预训练的生成器,通过所述预训练的生成器确定生成图像。本申请利用语义特征信息作为条件引导,通过条件流模型将语义特征信息映射至生成器所需的图像嵌入,使得条件流模型均仅需要学习语义特征信息对应的低维隐空间到生成器的低维隐空间的映射,降低了条件流模型的训练难度,从而可以降低图像生成所需要的人力资源成本和计算资源成本。成本。成本。


技术研发人员:黄惠 李明
受保护的技术使用者:深圳大学
技术研发日:2023.07.04
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐