一种基于文本交互的实例感知图像着色方法

未命名 09-22 阅读:95 评论:0


1.本发明涉及互联网技术领域,尤其涉及一种基于文本交互的实例感知图像着色技术。


背景技术:

2.图像上色旨在预测给定灰度图像中缺失的彩色通道,已被广泛用于黑白图像恢复、艺术创作和图像压缩。在过去,黑白照片是人们记录历史和回忆的主要方式。现在,随着科技的发展,人们希望将这些黑白照片转化为彩色照片以更好地还原历史场景和生活中的记忆。与此同时,图像上色还具有非常广泛的应用领域,例如在历史文化、艺术等领域中对于黑白图像的修复和还原,以及在医学影像领域中对于黑白图像的颜色增强和医学分析,在游戏领域帮助游戏开发者更快地创建游戏元素等。
3.图像上色的主要思路是从黑白图像中恢复缺失的颜色信息。这一过程需要通过深度学习等方法进行图像分析和色彩还原。现代的图像上色技术已经能够在一定程度上实现准确的颜色还原。图像上色可以帮助人们快速地创建彩色图像,节省时间和精力,帮助人们用于自动化生产,自动着色黑白图片或为产品设计提供快速的彩色样例,从而提高效率和准确性。
4.图像上色的主要方法可以分为两类:传统方法和深度学习方法。传统方法主要基于图像处理技术,其主要思路是根据黑白图像中的灰度值信息和已知的颜色信息进行颜色还原。深度学习方法则是通过建立深度神经网络模型,将黑白图像作为输入,输出对应的彩色图像。深度学习方法的优势在于能够自动学习图像特征,能够对黑白图像中的内容进行理解,从而实现更为准确的颜色还原。应用深度学习方法可以适应更加复杂的场景和任务,并且其准确性和稳定性更高。并且,深度学习方法能够利用大量的数据进行训练,并且可以通过不断迭代优化模型来得到更好的结果。图像上色的实现方法主要有以下几种:首先是图像自动上色,使用计算机算法自动将灰度图像转换为彩色图像;其次是基于语言的上色,允许用户通过自然语言描述指导图像的上色;最后是交互式上色,允许用户在实时或者近实时的环境下参与图像上色的过程。
5.基于语言的上色旨在在用户提供的文本的指导下产生视觉效果和描述一致的结果。其主要目的是让计算机根据自然语言描述自动为黑白图片上色,使其具有更好的视觉效果和表现力。此任务最关键的阶段是建立语言描述中的集合与图像中的区域之间的对应关系,将自然语言描述中的颜色信息与颜色库中的颜色进行匹配,以便将自然语言描述转换为颜色值。
6.如图1所示,现有技术之一的“基于颜色对象分离条件(color-object decoupled conditions)的文本指导图像着色技术”文章中,引入了一种对象颜色对应矩阵预测器(occm)和一种新的注意力转移模块(atm):
7.首先,为了解决颜色对象耦合问题,采用双仿射机制来预测对象颜色对应矩阵(occm),其次,通过提出一个新的注意力转移模块(atm),帮助对象颜色对应矩阵(occm)将
视觉区域和名词之间的对应关系转换为区域和形容词之间的对应,最后,采用了软门控注入模块(sim)来确保颜色不会应用于描述中没有提到颜色的对象,通过解耦颜色和对象,将指定的颜色词正确应用于对象。
8.如图2所示,现有技术之二的“基于颜色对象解耦的transformer(color-object decoupling transformer)的文本指导图像着色技术”文章统一了图像和语言的模态,并进一步随着图像特征以从粗到细的方式进行上色,
9.首先,利用解耦的令牌编码器,将图像和语言编码为令牌,以便将图像和文本统一在同一个模态中,有助于弥合模态之间的巨大差距。给定灰度图,并将其整形成n个图像块,分辨率为(p,p),并将其放入标准的vit中。使用bert作为语言编码器,由于基于bert构建字典,这样模型就包含了大量的词汇,即使从未出现在训练数据集中的孤立单词也将被分配一个预训练的嵌入向量。
10.其次,在对图像和语言进行编码后,我们对语言条件进行解耦,采用多层感知器(mlp)将图像标记映射到潜在空间,另外两个多层感知器(mlp)将语言标记分别转换到对象空间和颜色空间。通过颜色对象解耦转换器,解耦的语言标记的语义随着图像特征从粗到细的演变,避免了不准确的语言表示问题。
11.最后,利用解耦注意力以确保解耦语言标记和图像标记之间的交互。对于自注意力头,每个模态的表征计算与自身的相似性,以提取高级全局特征;而对于交叉注意力头,标记从其他模态标记中提示语义。并且使用预测的对象颜色对应矩阵(occm)以将正确的颜色应用于相应的对象位置。
12.发明人在研究的过程中发现:对于“基于颜色对象分离条件
13.(color-object decoupled conditions)的文本指导图像着色技术”、“基于颜色对象解耦的transformer(color-object decoupling transformer)的文本指导图像着色技术”现有技术中:
14.1、针对图像上色任务,对目标数据集的要求较严格,需要进行物体和颜色的对应;
15.2、仅考虑了物体和颜色的对应关系,没有进一步的对同一类别的不同物体实例进行建模;
16.由于上述技术问题导致于现有技术中存在以下缺点:
17.1、需要标注文本中的颜色和物体的对应关系,需要花费较大的时间和人力成本,应用场景收到限制;
18.2、缺乏实例感知的能力,尤其是对于同一类别的不同实例的区分能力较差,导致在文本指导的实例级着色场景下性能较差。


技术实现要素:

19.为了解决上述技术问题,本发明提供了一种基于文本交互的实例感知图像着色方法,引入可学习的分组令牌将颜色相近的图像块分组作为实例表示,提出了亮度通道增强方法和颜色对比损失来增强模型的鲁棒性并优化图像块的聚合结果,同时,设计了一种分组transformer,通过内循环和外循环的方式实现分组令牌、图像块特征、文本特征的跨模态特征交互,提升了基于文本交互的图像着色方法的性能。
20.本发明提供了一种基于文本交互的实例感知图像着色方法,在模型训练时,该方
法包括:
21.步骤一、将rgb图像利用色彩空间变换映射到hsv颜色空间,对色调角度进行随机旋转操作,再将其变换到lab空间,分离出亮度通道并做伽马变换,得到的即为与颜色具有弱统计相关性的增强灰度图。
22.步骤二、将原始描述文本中描述实例的颜色词随机替换,得到反例文本,原始的描述语句作为正例文本。
23.步骤三、随机初始化若干个可学习的高维向量,作为分组令牌,用以表征实例。
24.步骤四、将灰度图划分为若干个大小相等的图像块并作序列化,输入到预训练视觉模型vit,得到图像块序列的高维向量表示,作为图像块令牌。
25.步骤五、将正例文本利用词典进行词元化切分,使用预训练语言模型bert将文本词元序列映射为向量表示,作为正例文本词令牌。
26.步骤六、将图像块令牌、正例文本词令牌、分组令牌拼接为一个序列,并给三种不同模态的令牌分别加上模态类型编码,得到基于正例的跨模态令牌序列;
27.步骤七、将基于正例跨模态令牌序列输入到用于特征融合的分组transformer中,对跨模态序列的特征进行融合,得到基于正例的特征融合跨模态序列;
28.步骤八、将基于正例的特征融合跨模态序列拆分,把其中的分组令牌与图像块令牌输入到分组网络中,通过注意力机制,得到图像块令牌与分组令牌的对应关系矩阵,并把分组令牌与对应的图像块令牌相加,得到基于正例的实例表征。
29.步骤九、将步骤五中的正例文本替换为负例文本,重复步骤六、步骤七和步骤八,得到基于负例的实例表征和词令牌,计算颜色对比损失函数。
30.步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征,并利用反卷积上采样网络将图像特征上采样到原始图像分辨率,预测颜色通道值,计算颜色回归损失函数。
31.步骤十一、将颜色对比损失函数和颜色回归损失函数进行加权求和,得到整体损失函数,使用反向传播算法(back propagation,bp)计算梯度,并使用adam优化器优化整体损失函数更新模型各层权重。
32.进一步的,非训练情况下,进行文本交互的图像着色时,将步骤二、步骤九、步骤十一除去,并将步骤一、步骤三、步骤十予以替换,替换如下:
33.步骤一、将待上色的灰度图作为输入;
34.步骤三、用优化后的作为分组令牌表征实例。
35.步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征,并利用卷积上采样网络将图像特征上采样到原始图像分辨率,预测颜色通道值,将亮度通道和颜色通道拼接并转化为rgb图像。
36.进一步的,所述步骤一中,色调角度的随机旋转变换如下:
[0037][0038]
其中,f
rotate
是角度旋转操作,λ是旋转角度,是原始图像的在hsv空间中的色调值、饱和度值、亮度值,ir是色调变换的结果;
[0039]
其中,伽马变换的计算如下:
[0040][0041]
其中,a是缩放系数,γ为伽马因子,ig是伽马变换前的灰度图,是伽马变换后的结果。
[0042]
进一步的,所述步骤六中,不同的令牌需要加上模态编码的以便模型区分,计算过程如下:
[0043]
t

img
=t
img
+e
img
[0044]
t

lag
=t
lag
+e
lag
[0045]
t

grp
=t
grp
+e
grp
[0046]
其中t
img
、t
lag
、t
grp
分别为图像块令牌、词令牌、分组令牌,e
img
、e
lag
、e
grp
分别为图像模态编码、语言模态编码、分组模态编码。
[0047]
进一步的,所述步骤七中,分组transformer中的包含若干个计算单元,每个计算单元计算过程如下:
[0048][0049][0050]
其中,ln为层归一化,ga为分组注意力,mlp为多层感知机,z
l
为在第l个计算单元输入的跨模态令牌序列,为中间结果,z
l+1
为第l个计算单元输出的跨模态令牌序列,也是第l+1个计算单元的输入。
[0051]
其中,跨模态令牌的交互融合通过ga中的内循环和外循环完成,将内循环和外循环得到的同模态令牌特征拼接,即得到通过ga得结果,计算过程如下:
[0052][0053][0054][0055]
内循环旨在获得更深层次的图像和语言的语义特征,通过多头的自注意力实现计算过程如下:
[0056][0057][0058]
其中,in表示内循环计算,img表示图像块令牌,lag表示词令牌,qry表示注意力计算中的query,key表示注意力计算中的key,val表示注意力计算中的value,dk表示特征的维度。
[0059]
其中,外循环该将分组令牌视为在图像令牌和词令牌之间双向流动的语义信息媒介,计算过程如下:
[0060][0061][0062][0063][0064]
其中,out表示外循环计算,img表示图像块令牌,lag表示词令牌,grp表示分组令牌,qry表示注意力计算中的query,key表示注意力计算中的key,val表示注意力计算中的value,dk表示特征的维度。
[0065]
进一步的,所述步骤八中,图像块令牌与分组令牌的对应关系矩阵需要使用硬编码机制获得,计算过程如下:
[0066][0067]
其中,为图像块令牌和分组令牌的相似度矩阵,f
argmax
为最大值one-hot编码操作,即将相似度矩阵每列的最大值设置为1,非最大值设置为0,f
sg
为不计算梯度操作;
[0068]
其中,使用分组令牌获得实例表征的计算过程如下:
[0069][0070]
其中,wv为映射权重矩阵,ni为图像块令牌的个数,i和j分别表示图像块令牌与分组令牌的对应关系矩阵的第i行和第j列。
[0071]
进一步的,所述步骤九中,颜色对比损失函数的计算过程如下:
[0072][0073]
其中,r
lag
,r
grp
是被投影到公共语义空间中的基于正例的词令牌和实例表征,r

lag
,r

grp
是基于反例的词令牌和实例表征,其中f
sim
为余弦相似度计算。
[0074]
进一步的,所述步骤十中,颜色回归损失函数使用smooth-l1实现,计算过程如下:
[0075][0076]
其中,n
p
为图像的像素数,i
ab
为真实的颜色通道值,为预测的颜色通道值。
[0077]
本发明提供的一种基于文本交互的实例感知图像着色方法,使用可学习的分组令牌,将颜色相近的图像块聚合作为实例表征,赋予了模型实例感知的能力,提高了文本控制下对图像中指定实例的着色效果;通过使用亮度通道增强的算法,干扰了图像在lab颜色空间中亮度值和颜色值的统计相关性,使模型更高效地利用文本条件,增强了文本交互的效率;通过使用颜色对比损失函数,增强了图像块分组的准确性,提高了实例感知的效率。
附图说明
[0078]
图1为“基于颜色对象分离条件(color-object decoupled conditions)的文本指导图像着色技术”的示意图;
[0079]
图2为“基于颜色对象解耦的transformer(color-object decoupling transformer)的文本指导图像着色技术”的示意图;
[0080]
图3为实施例一的流程图;
[0081]
图4为本发明提供的一种基于文本交互的实例感知图像着色方法的流程图。
具体实施方式
[0082]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。其中,本实施例中出现的缩略语和关键术语定义如下:
[0083]
bp:back propagation反向传播;
[0084]
vit:vision transformer 2020年google团队提出的将transformer应用在图像分类的模型;
[0085]
relu:rectified linear unit线性整流函数,是一种激活函数;
[0086]
bert:bidirectional encoder representation from transformers基于transformer的双向编码器表示,是一种预训练模型;
[0087]
imagenet ilsvrc:imagenet large scale visual recognition challenge大规模视觉识别挑战赛;
[0088]
occm:object-color corresponding matrix对象颜色对应矩阵;
[0089]
sim:soft-gated injection module软门控注入模块;
[0090]
adam:a method for stochastic optimizaiton一种随机梯度下降方法。
[0091]
实施例一
[0092]
参照图3、4所示,图3,4示出了本发明提供的一种基于实体级跨模态交互的多模态命名实体识别方法,具体的,在模型训练时,该方法包括:
[0093]
步骤一、将rgb图像利用色彩空间变换映射到hsv颜色空间,对色调角度进行随机旋转操作,再将其变换到lab空间,分离出亮度通道并做伽马变换,得到的即为与颜色具有弱统计相关性的增强灰度图。
[0094]
进一步的,本实施例中应用扩展的coco-stuff数据集和多实例数据集,数据集中去除了没有任何颜色描述的样本,并且手动注释颜色词和对象词之间的对应关系。
[0095]
其中,本实施例中色调角度的随机旋转变换如下:
[0096][0097]
其中,f
rotate
是角度旋转操作,λ是旋转角度,是原始图像的在hsv空间中的色调值、饱和度值、亮度值,ir是色调变换的结果;
[0098]
其中,伽马变换的计算如下:
[0099][0100]
其中,a是缩放系数,γ为伽马因子,ig是伽马变换前的灰度图,是伽马变换后的结果。
[0101]
步骤二、将原始描述文本中描述实例的颜色词随机替换,得到反例文本,原始的描述语句作为正例文本。
[0102]
步骤三、随机初始化若干个可学习的高维向量,作为分组令牌,用以表征实例。
[0103]
步骤四、将灰度图划分为若干个大小相等的图像块并作序列化,输入到预训练视觉模型vit,得到图像块序列的高维向量表示,作为图像块令牌。
[0104]
步骤五、将正例文本利用词典进行词元化切分,使用预训练语言模型bert将文本词元序列映射为向量表示,作为正例文本词令牌。
[0105]
步骤六、将图像块令牌、正例文本词令牌、分组令牌拼接为一个序列,并给三种不同模态的令牌分别加上模态类型编码,得到基于正例的跨模态令牌序列;
[0106]
进一步的,不同的令牌需要加上模态编码的以便模型区分,计算过程如下:
[0107]
t

img
=t
img
+e
img
[0108]
t

lag
=t
lag
+e
lag
[0109]
t

grp
=t
grp
+e
grp
[0110]
其中t
img
、t
lag
、t
grp
分别为图像块令牌、词令牌、分组令牌,e
img
、e
lag
、e
grp
分别为图像模态编码、语言模态编码、分组模态编码。
[0111]
步骤七、将基于正例跨模态令牌序列输入到用于特征融合的分组transformer中,对跨模态序列的特征进行融合,得到基于正例的特征融合跨模态序列;
[0112]
进一步的,分组transformer中的包含若干个计算单元,每个计算单元计算过程如下:
[0113]
[0114][0115]
其中,ln为层归一化,ga为分组注意力,mlp为多层感知机,z
l
为在第l个计算单元输入的跨模态令牌序列,为中间结果,z
l+1
为第l个计算单元输出的跨模态令牌序列,也是第l+1个计算单元的输入。
[0116]
其中,跨模态令牌的交互融合通过ga中的内循环和外循环完成,将内循环和外循环得到的同模态令牌特征拼接,即得到通过ga得结果,计算过程如下:
[0117][0118][0119][0120]
内循环旨在获得更深层次的图像和语言的语义特征,通过多头的自注意力实现计算过程如下:
[0121][0122][0123]
其中,in表示内循环计算,img表示图像块令牌,lag表示词令牌,qry表示注意力计算中的query,key表示注意力计算中的key,val表示注意力计算中的value,dk表示特征的维度。
[0124]
其中,外循环该将分组令牌视为在图像令牌和词令牌之间双向流动的语义信息媒介,计算过程如下:
[0125][0126][0127]
[0128][0129]
其中,out表示外循环计算,img表示图像块令牌,lag表示词令牌,grp表示分组令牌,qry表示注意力计算中的query,key表示注意力计算中的key,val表示注意力计算中的value,dk表示特征的维度。
[0130]
步骤八、将基于正例的特征融合跨模态序列拆分,把其中的分组令牌与图像块令牌输入到分组网络中,通过注意力机制,得到图像块令牌与分组令牌的对应关系矩阵,并把分组令牌与对应的图像块令牌相加,得到基于正例的实例表征。
[0131]
进一步的,图像块令牌与分组令牌的对应关系矩阵需要使用硬编码机制获得,计算过程如下:
[0132][0133]
其中,为图像块令牌和分组令牌的相似度矩阵,f
argmax
为最大值one-hot编码操作,即将相似度矩阵每列的最大值设置为1,非最大值设置为0,f
sg
为不计算梯度操作;
[0134]
其中,使用分组令牌获得实例表征的计算过程如下:
[0135][0136]
其中,wv为映射权重矩阵,ni为图像块令牌的个数,i和j分别表示图像块令牌与分组令牌的对应关系矩阵的第i行和第j列。
[0137]
步骤九、将步骤五中的正例文本替换为负例文本,重复步骤六、步骤七和步骤八,得到基于负例的实例表征和词令牌,计算颜色对比损失函数。
[0138]
进一步的,颜色对比损失函数的计算过程如下:
[0139][0140]
其中,r
lag
,r
grp
是被投影到公共语义空间中的基于正例的词令牌和实例表征,r

lag
,r

grp
是基于反例的词令牌和实例表征,其中f
sim
为余弦相似度计算。
[0141]
步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征,并利用反卷积上采样网络将图像特征上采样到原始图像分辨率,预测颜色通道值,计算颜色回归损失函数。
[0142]
进一步的,颜色回归损失函数使用smooth-l1实现,计算过程如下:
[0143][0144]
其中,n
p
为图像的像素数,i
ab
为真实的颜色通道值,为预测的颜色通道值。
[0145]
步骤十一、将颜色对比损失函数和颜色回归损失函数进行加权求和,得到整体损失函数,使用反向传播算法(back propagation,bp)计算梯度,并使用adam优化器优化整体损失函数更新模型各层权重。进一步的,非训练情况下,进行多模态命名实体识别时,将步骤十除去,并将步骤三、步骤九予以替换,替换如下:
[0146]
步骤三、将文本编码矩阵输入到第二个transformer层,获得实体范围检测子任务的特定词元特征,将其输入条件随机场,使用维特比译码解码得到实体范围检测结果;
[0147]
步骤九、将多模态词元特征输入条件随机场中,使用维特比译码解码得到多模态命名实体识别结果。
[0148]
一优选实施例,如图3所示,首先将rgb图像色调进行随机旋转操作,再将其变换到lab空间,分离亮度通道并做伽马变换;将描述文本进行随机替换,得到正例文本和反例文本;其次,将灰度图划分图像块并序列化,输入到vit中,得到图像块令牌,正反例文本输入到bert中,分别得到正例文本令牌和反例文本令牌。将图像块令牌,正例文本令牌或反例文本令牌,分组令牌共同输入到用于特征融合的分组transformer中,得到基于正例的实例表征和基于反例的实例表征;最后将序列化的图像块令牌重新转化为分布在二维空间中的图像特征,并利用反卷积上采样网络将图像特征上采样到原始图像分辨率,预测颜色通道值,计算颜色回归损失函数,并由bp算法更新参数;在非训练情况下,不再需要将描述文本进行随机替换,得到反例。直接通过输入的文本预测颜色通道值,并且不需要计算颜色回归损失函数。
[0149]
本发明实施例一引入了可学习的分组令牌将颜色相近的图像块分组作为实例表示,提出了亮度通道增强方法和颜色对比损失来增强模型的鲁棒性并优化图像块的聚合结果同时,设计了一种分组transformer,通过内循环和外循环的方式实现分组令牌、图像块特征、文本特征的跨模态特征交互,能够更灵活地为实例分配颜色,即使在训练过程中从未发生对应关系,提升了基于文本交互的图像着色方法的性能。
[0150]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0151]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种基于文本交互的实例感知图像着色方法,其特征在于,训练中使用可学习的分组令牌,将颜色相近的图像块聚合作为实例表征,并使用亮度通道增强的算法,该方法包括:步骤一、将rgb图像利用色彩空间变换映射到hsv颜色空间,对色调角度进行随机旋转操作,再将其变换到lab空间,分离出亮度通道并做伽马变换,得到的即为与颜色具有弱统计相关性的增强灰度图。步骤二、将原始描述文本中描述实例的颜色词随机替换,得到反例文本,原始的描述语句作为正例文本。步骤三、随机初始化若干个可学习的高维向量,作为分组令牌,用以表征实例。步骤四、将灰度图划分为若干个大小相等的图像块并作序列化,输入到预训练视觉模型vit,得到图像块序列的高维向量表示,作为图像块令牌。步骤五、将正例文本利用词典进行词元化切分,使用预训练语言模型bert将文本词元序列映射为向量表示,作为正例文本词令牌。步骤六、将图像块令牌、正例文本词令牌、分组令牌拼接为一个序列,并给三种不同模态的令牌分别加上模态类型编码,得到基于正例的跨模态令牌序列;步骤七、将基于正例跨模态令牌序列输入到用于特征融合的分组transformer中,对跨模态序列的特征进行融合,得到基于正例的特征融合跨模态序列;步骤八、将基于正例的特征融合跨模态序列拆分,把其中的分组令牌与图像块令牌输入到分组网络中,通过注意力机制,得到图像块令牌与分组令牌的对应关系矩阵,并把分组令牌与对应的图像块令牌相加,得到基于正例的实例表征。步骤九、将步骤五中的正例文本替换为负例文本,重复步骤六、步骤七和步骤八,得到基于负例的实例表征和词令牌,计算颜色对比损失函数。步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征,并利用反卷积上采样网络将图像特征上采样到原始图像分辨率,预测颜色通道值,计算颜色回归损失函数。步骤十一、将颜色对比损失函数和颜色回归损失函数进行加权求和,得到整体损失函数,使用反向传播算法(back propagation,bp)计算梯度,并使用adam优化器优化整体损失函数更新模型各层权重。2.如权利要求1所述的方法,其特征在于,非训练情况下,进行文本交互的图像着色时,将步骤二、步骤九、步骤十一除去,并将步骤一、步骤三、步骤十予以替换,替换如下:步骤一、将待上色的灰度图作为输入;步骤三、用优化后的作为分组令牌表征实例。步骤十、将序列化的图像块令牌重新转化为分布在二维空间中的图像特征,并利用卷积上采样网络将图像特征上采样到原始图像分辨率,预测颜色通道值,将亮度通道和颜色通道拼接并转化为rgb图像。3.如权利要求1所述的方法,其特征在于,所述步骤一中,色调角度的随机旋转变换如下:
其中,f
rotate
是角度旋转操作,λ是旋转角度,是原始图像的在hsv空间中的色调值、饱和度值、亮度值,i
r
是色调变换的结果;其中,伽马变换的计算如下:其中,a是缩放系数,γ为伽马因子,i
g
是伽马变换前的灰度图,是伽马变换后的结果。4.如权利要求1所述的方法,其特征在于,所述步骤六中,不同的令牌需要加上模态编码的以便模型区分,计算过程如下:t

img
=t
img
+e
img
t

lag
=t
lag
+e
lag
t

grp
=t
grp
+e
grp
其中t
img
、t
lag
、t
grp
分别为图像块令牌、词令牌、分组令牌,e
img
、e
lag
、e
grp
分别为图像模态编码、语言模态编码、分组模态编码。5.如权利要求1所述的方法,其特征在于,所述步骤七中,分组transformer中的包含若干个计算单元,每个计算单元计算过程如下:干个计算单元,每个计算单元计算过程如下:其中,ln为层归一化,ga为分组注意力,mlp为多层感知机,z
l
为在第l个计算单元输入的跨模态令牌序列,为中间结果,z
l+1
为第l个计算单元输出的跨模态令牌序列,也是第l+1个计算单元的输入。其中,跨模态令牌的交互融合通过ga中的内循环和外循环完成,将内循环和外循环得到的同模态令牌特征拼接,即得到通过ga得结果,计算过程如下:到的同模态令牌特征拼接,即得到通过ga得结果,计算过程如下:到的同模态令牌特征拼接,即得到通过ga得结果,计算过程如下:内循环旨在获得更深层次的图像和语言的语义特征,通过多头的自注意力实现计算过程如下:程如下:
其中,in表示内循环计算,img表示图像块令牌,lag表示词令牌,qry表示注意力计算中的query,key表示注意力计算中的key,val表示注意力计算中的value,d
k
表示特征的维度。其中,外循环该将分组令牌视为在图像令牌和词令牌之间双向流动的语义信息媒介,计算过程如下:计算过程如下:计算过程如下:计算过程如下:其中,out表示外循环计算,img表示图像块令牌,lag表示词令牌,grp表示分组令牌,qry表示注意力计算中的query,key表示注意力计算中的key,val表示注意力计算中的value,d
k
表示特征的维度。6.如权利要求1所述的方法,其特征在于,所述步骤八中,图像块令牌与分组令牌的对应关系矩阵需要使用硬编码机制获得,计算过程如下:其中,为图像块令牌和分组令牌的相似度矩阵,f
argmax
为最大值one-hot编码操作,即将相似度矩阵每列的最大值设置为1,非最大值设置为0,f
sg
为不计算梯度操作;其中,使用分组令牌获得实例表征的计算过程如下:其中,w
v
为映射权重矩阵,n
i
为图像块令牌的个数,i和j分别表示图像块令牌与分组令牌的对应关系矩阵的第i行和第j列。进一步的,所述步骤九中,颜色对比损失函数的计算过程如下:
其中,r
lag
,r
grp
是被投影到公共语义空间中的基于正例的词令牌和实例表征,r

lag
,r

grp
是基于反例的词令牌和实例表征,其中f
sim
为余弦相似度计算。7.如权利要求1所述的方法,其特征在于,所述步骤十中,颜色回归损失函数使用smooth-l1实现,计算过程如下:其中,n
p
为图像的像素数,i
ab
为真实的颜色通道值,为预测的颜色通道值。

技术总结
本发明提供的一种基于文本交互的实例感知图像上色方法,使用可学习的分组令牌,将颜色相近的图像块聚合作为实例表征,赋予了模型实例感知的能力,提高了文本控制下对图像中指定实例的着色效果;通过使用亮度通道增强的算法,干扰了图像在LAB颜色空间中亮度值和颜色值的统计相关性,使模型更高效地利用文本条件,增强了文本交互的效率;通过使用颜色对比损失函数,增强了图像块分组的准确性,提高了实例感知的效率,更加有效的完成基于文本交互的实例感知图像上色任务。的实例感知图像上色任务。的实例感知图像上色任务。


技术研发人员:李思 施柏鑫 常征 翁书晨 张沛瑄
受保护的技术使用者:北京邮电大学
技术研发日:2023.04.28
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐