图像描述生成方法及装置与流程

未命名 09-13 阅读:184 评论:0


1.本发明涉及人工智能技术领域,尤其涉及一种图像描述生成方法及装置。


背景技术:

2.本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.近些年来,随着互联网的发展和存储介质性能的提升,多媒体(如图像、音频、视频、文本等)迎来了蓬勃发展的时期,不同形式的媒体数据也被称为不同的模态,其中结合图像和文本的跨媒体的方案引起自然语言处理和机器视觉领域学者的关注,主流的任务之一就是图像描述生成,即“看图说话”,用一句话或者一段文字描述图像中的语义信息,实现从图像到自然语言的转换。对于图像到文本的自动生成这一任务,人类可以轻易地理解图像内容,并根据具体要求以不同形式的自然语言表述出来,然而对于计算机而言,则需要综合运用计算机视觉和自然语言处理两大深度学习热门领域的成果。因此,计算机如果能够对图像进行高层复杂语义的标注,是十分有意义的工作,这能够进一步提高图像语义标注的完整性,比单纯关键词和标签的标注含有更加丰富的信息。
4.针对银行网点的应用场景,可根据监控获取到的视频进行逐帧图像分析,通过本专利可实现对监控图像进行文字标注,例如描述图像中的特定人物的身份、穿着、动作、状态,环境中客观物体,如现金、存折、银行卡、金条等,形成人物、物品、场景之间的关系描述,从而达到客户潜在业务办理场景的分流或识别关键客户的目的。
5.在过去二十年中,自然语言处理和计算机视觉领域在生成文本以及理解图像和视频方面取得了巨大的进步,两领域在历史上是分开发展的,结合自然语言处理和计算机视觉的技术形成新的算法和模型,并应用在图像描述生成逐步成为工业应用中的热点。
6.从计算机视觉的观点来看,文本不仅局限于图像的主要实体,涉及到场景的特征,或者场景中的人物和物体如何相互作用,更具难度的是文本描述甚至可以涉及推理信息,直接从图像提供高级语义信息。简而言之,好的图像描述需要全面的图像理解,因此文字描述生成对于计算机视觉领域来说比一般的目标检测更全面。
7.从自然语言处理的角度来看,生成描述是一个自然语言生成问题,该任务是将非语言表示转化为人类可读的文本。在图像描述中,输入是图像,自然语言生成模型必须将其变成单词、句子、甚至是文段描述。因此该任务不单需要识别图像中的实体,还需要有文字逻辑,将不同性质的单词组织成可理解的文段描述。
8.目前的图像描述生成方案考虑的信息不够充分,使得生产的图像描述并不准确。


技术实现要素:

9.本发明实施例提供一种图像描述生成方法,考虑了多模态多颗粒度特征融合,可生成准确的图像描述,该方法包括:
10.提取测试图像中不同模态的数据;
11.分别对每种模态的数据进行多层级颗粒度划分;
12.对每种模态的每个层次颗粒度下的数据进行特征提取;
13.将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;
14.将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。
15.本发明实施例还提供一种图像描述生成装置,考虑了多模态多颗粒度特征融合,可生成准确的图像描述,该装置包括:
16.模态数据提取模块,用于提取测试图像中不同模态的数据;
17.多层级颗粒度划分模块,用于分别对每种模态的数据进行多层级颗粒度划分;
18.特征提取模块,用于对每种模态的每个层次颗粒度下的数据进行特征提取;
19.概率特征计算模块,用于将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;
20.文本描述数据生成模块,用于将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。
21.本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述图像描述生成方法。
22.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像描述生成方法。
23.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述图像描述生成方法。
24.本发明实施例中,提取测试图像中不同模态的数据;分别对每种模态的数据进行多层级颗粒度划分;对每种模态的每个层次颗粒度下的数据进行特征提取;将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。在上述过程中,充分考虑了多个模态的数据,并进行了多层次颗粒度划分,即利用多层次信息的互补性,弥补以往方法不同颗粒度信息缺失的缺陷;上述过程创新地提出了多模态联合嵌入语义空间模型,该模型强调数据间重点关联的信息,弥合多模态数据异构鸿沟,生成的图像的文本描述数据更加准确,且在输入的测试图像为不同层次颗粒度的图像时,可对应生成不同层次颗粒度的文本描述数据。
附图说明
25.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
26.图1为本发明实施例中图像描述生成方法的流程图;
27.图2为本发明实施例中对每种模态的数据进行多层级颗粒度划分且进行特征提取的示例;
28.图3为本发明实施例中多模态联合嵌入语义空间模型的原理图;
29.图4为本发明实施例中训练多模态联合嵌入语义空间模型的原理图;
30.图5为本发明实施例中图像对应的文档和边界框对应的单词;
31.图6为本发明实施例中图像描述生成装置的示意图;
32.图7为本发明实施例中计算机设备的示意图。
具体实施方式
33.为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
34.图1为本发明实施例中图像描述生成方法的流程图,包括:
35.步骤101,提取测试图像中不同模态的数据;
36.步骤102,分别对每种模态的数据进行多层级颗粒度划分;
37.步骤103,对每种模态的每个层次颗粒度下的数据进行特征提取;
38.步骤104,将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;
39.步骤105,将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。
40.本发明实施例充分考虑了多个模态的数据,并进行了多层次颗粒度划分,即利用多层次信息的互补性,弥补以往方法不同颗粒度信息缺失的缺陷;上述过程创新地提出了多模态联合嵌入语义空间模型,该模型强调数据间重点关联的信息,弥合多模态数据异构鸿沟,生成的图像的文本描述数据更加准确。
41.下面对每个步骤进行详细介绍。
42.在步骤101,提取测试图像中不同模态的数据;所述模态包括图像模态和/或文本模态,图像模态的数据可称为图像数据,文本模态的数据可称为文本数据。
43.在步骤102,分别对每种模态的数据进行多层级颗粒度划分;图像模态的多层次颗粒度包括图像、图像块、边界框中的其中一种或任意组合;文本模态的多层次颗粒度包括文档、句子、单词中的其中一种或任意组合。进行多层级颗粒度划分以便更好地挖掘高层语义信息,使两个模态相同层次颗粒度的数据在认知上有合理的对应关系;便于更加充分的获取单一模态信息。
44.在一实施例中,分别对每种模态的数据进行多层级颗粒度划分,包括:
45.将所有图像模态的数据作为图像;
46.对图像模态的数据进行分块操作,获得图像块,
47.对图像模态的数据进行边界框标注,获得边界框;
48.将所有文本模态的数据作为文档;
49.对文本模态的数据进行分句操作,获得句子;
50.对所有句子进行分词操作,获得单词。
51.在步骤103,对每种模态的每个层次颗粒度下的数据进行特征提取;在一实施例中,对每种模态的每个层次颗粒度下的数据进行特征提取,包括:
52.使用神经网络vgg16进行图像和图像块的特征提取;
53.使用faster-rcnn进行边界框的特征提取;
54.使用bert进行文档和句子的特征提取;
55.使用动态词向量提取方法进行单词的特征提取。
56.图2为本发明实施例中对每种模态的数据进行多层级颗粒度划分且进行特征提取的示例,可以明确地看到边界框、图像块、图像、文档、句子、单词的含义。
57.在步骤104,将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;在一实施例中,所述多模态联合嵌入语义空间模型包括:顺序连接的文本语义空间、第一联合嵌入层、相似度融合层、第二联合嵌入层、图像语义空间。
58.在一实施例中,所述文本语义空间包括顺序连接的全连接层、双向gru层和softmax层;
59.所述图像语义空间包括顺序连接的全连接层、双向gru层和softmax层。
60.图3为本发明实施例中多模态联合嵌入语义空间模型的原理图,多模态联合嵌入语义空间模型选用了恰当的深度神经网络模型作为文本语义空间和图像语义空间的基础,这样既可以保留单层次颗粒度内部的位置关系或者序列关系,又可以将不同层次颗粒度的数据有效融合;其次,在此基础上,构建独立的图像语义空间和文本语义空间;最后,通过该模型建立的语义空间进行跨模态数据嵌入,为图像语义描述自动生成奠定基础。
61.参见图3,本发明实施例中,基于注意力机制的多模态数据联合嵌入进行相似度计算。其原理是,首先,将文本模态的多层颗粒度的数据映射至图像语义空间,将图像模态的多层颗粒度的数据映射至文本语义空间,通过数据互映射完成跨模态的联合嵌入;其次,将注意力机制应用于联合嵌入,从而快速获取该语义空间需要重点关注的数据并优化该联合嵌入;最后,在两个语义空间联合嵌入的基础上,将其按多颗粒度分别进行自适应融合并计算异构数据之间的相似度。
62.在本发明实施例中,联合嵌入是指将不同模态的数据映射至同一空间。
63.图4为本发明实施例中训练多模态联合嵌入语义空间模型的原理图,第一联合嵌入层和第二联合嵌入层均是基于注意力机制的联合嵌入,图4中相似度融合层示例了两个相似度融合,分别为图像-文档相似度的自适应的相似度融合,以及边界框-单词的自适应相似度融合
64.在一实施例中,所述多模态联合嵌入语义空间模型的训练步骤如下:
65.将文本模态的每个层次颗粒度下的特征输入文本语义空间,获得文本模态对应的概率特征;
66.将文本模态对应的概率特征和图像模态的每个层次颗粒度下的特征输入第一联合嵌入层,获得图像模态的每个特征对应的联合嵌入值;
67.将图像模态的每个层次颗粒度下的特征输入图像语义空间,获得图像模态对应的概率特征;
68.将图像模态对应的概率特征和文本模态的每个层次颗粒度下的特征输入第二联合嵌入层,获得文本模态的每个特征对应的联合嵌入值;
69.分别将图像模态的每个特征对应的联合嵌入值和文本模态的每个特征对应的联合嵌入值输入至相似度融合层,获得图像相似度融合矩阵和文本相似度融合矩阵;
70.若图像相似度融合矩阵的特征值未达到第一阈值,或文本相似度融合矩阵的特征值未达到第二阈值,将文本模态对应的概率特征作为文本模态的每个层次颗粒度下的特征,将图像模态对应的概率特征作为图像模态的每个层次颗粒度下的特征,重复执行以上步骤,直至图像相似度融合矩阵的特征值达到第一阈值,且文本相似度融合矩阵的特征值达到第二阈值,输出训练好的多模态联合嵌入语义空间模型。
71.在一实施例中,第一联合嵌入层和第二联合嵌入层基于注意力机制;
72.所述第一联合嵌入层包括第一内积层和第一求和层,所述第一内积层用于对每个图像模态的每个层次颗粒度下的特征,将该特征与文本模态的每个层次颗粒度下的特征依次进行内积计算,获得该特征对应的多个内积值;第一求和层用于对每个图像模态的每个层次颗粒度下的特征,计算该特征所有的内积值,获得该特征的联合嵌入值;
73.所述第二联合嵌入层包括第二内积层和第二求和层,所述第二内积层用于对每个文本模态的每个层次颗粒度下的特征,将该特征与图像模态的每个层次颗粒度下的特征依次进行内积计算,获得该特征对应的多个内积值;第二求和层用于对每个文本模态的每个层次颗粒度下的特征,计算该特征所有的内积值,获得该特征的联合嵌入值。
74.图4中,输入至第一联合嵌入层的图像模态的每个层次颗粒度下的特征有两个,这两个只是举例,正常情况下,需要将所有的图像模态的每个层次颗粒度下的特征输入,第二联合嵌入层同理,另外,softmax层输出的概率特征为经过softmax计算的特征与经过softmax计算的概率进行按位相乘得到的,若文本模态的每个层次颗粒度下的特征有8个,那么经过文本语义空间,输出8个概率特征,然后,进入第一联合嵌入层后,第一内积层将每个图像模态的每个层次颗粒度下的特征分别与每个层次颗粒度下的特征依次进行内积计算,获得每个图像模态的每个层次颗粒度下的特征对应的多个内积值,这里是8个内积值,第一求和层对每个图像模态的每个层次颗粒度下的特征,计算该特征所有的内积值(这里是8个),获得该特征的联合嵌入值,也就是一个图像模态的每个层次颗粒度下的特征有一个联合嵌入值,那么8个图像模态对应的特征有8个联合嵌入值。同理,8个文本模态对应的特征有8个联合嵌入值,那么图像相似度融合矩阵和文本相似度融合矩阵均为8
×
8矩阵,只是行和列正好相反。
75.在一实施例中,将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征,包括:
76.将文本模态的每个层次颗粒度下的特征输入文本语义空间,获得文本模态对应的概率特征;
77.将图像模态的每个层次颗粒度下的特征输入图像语义空间,获得图像模态对应的概率特征。
78.在步骤105,将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。
79.具体实施时,预定义的多组文本描述数据为开源的训练集,可直接应用,进行相似度计算后,将相似度由高至低排序,返回相似度最高的前几组文本作为生成的文本描述输出,输出给用户,实现由图像自动生成文本描述。
80.另外,本发明实施例中也可以输入细颗粒的图像块或边界框,获得概率特征后与训练集中句子或单词进行相似度计算,将相似度进行排序,可以获得多个层次化的文本描
述数据。
81.图5为本发明实施例中图像对应的文档和边界框对应的单词,即实现了多个层次化的文本描述数据。
82.综上所述,在本发明实施例提出的方法具有以下有益效果:
83.第一,设计多模态多层次颗粒度的数据划分策略,使用前沿的自然语言处理和计算机视觉颗粒度分割和特征提取技术(包括神经网络vgg16、faster-rcnn、bert、动态词向量提取方法),融合多模态联合嵌入语义空间模型做特征提取微调,利用多层次颗粒度数据的互补性,弥补以往方法不同颗粒度数据缺失的缺陷,既保留全局信息又能抓住局部细节,从而将全局特征和局部特征有效融合,并有效提升图像语义描述的准确性。
84.第二,利用注意力机制进行跨模态的联合嵌入以及自适应融合的度量学习,在得到联合嵌入空间的基础上进行跨语义空间动态权重的相似度融合,强调数据间重点关联的信息,弥合多模态数据异构鸿沟。
85.第三,实现“看图说话”应用,可根据需要形成多层次的文本描述,如为完整图片生成段落文字描述,为特定图像区域生成人物和物品动作关系的句子描述,为图像块生成文字标签等,提升模型的广泛适用性。
86.本发明实施例中还提供了一种图像描述生成装置,如下面的实施例所述。由于该装置解决问题的原理与图像描述生成方法相似,因此该装置的实施可以参见图像描述生成方法的实施,重复之处不再赘述。
87.图6为本发明实施例中图像描述生成装置的示意图,包括:
88.模态数据提取模块601,用于提取测试图像中不同模态的数据;
89.多层级颗粒度划分模块602,用于分别对每种模态的数据进行多层级颗粒度划分;
90.特征提取模块603,用于对每种模态的每个层次颗粒度下的数据进行特征提取;
91.概率特征计算模块604,用于将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;
92.文本描述数据生成模块605,用于将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。
93.在一实施例中,所述模态包括图像模态和/或文本模态;
94.图像模态的多层次颗粒度包括图像、图像块、边界框中的其中一种或任意组合;
95.文本模态的多层次颗粒度包括文档、句子、单词中的其中一种或任意组合。
96.在一实施例中,多层级颗粒度划分模块具体用于:
97.将所有图像模态的数据作为图像;
98.对图像模态的数据进行分块操作,获得图像块,
99.对图像模态的数据进行边界框标注,获得边界框;
100.将所有文本模态的数据作为文档;
101.对文本模态的数据进行分句操作,获得句子;
102.对所有句子进行分词操作,获得单词。
103.在一实施例中,特征提取模块具体用于:
104.使用神经网络vgg16进行图像和图像块的特征提取;
105.使用faster-rcnn进行边界框的特征提取;
106.使用bert进行文档和句子的特征提取;
107.使用动态词向量提取方法进行单词的特征提取。
108.在一实施例中,所述多模态联合嵌入语义空间模型包括:顺序连接的文本语义空间、第一联合嵌入层、相似度融合层、第二联合嵌入层、图像语义空间。
109.在一实施例中,所述文本语义空间包括顺序连接的全连接层、双向gru层和softmax层;
110.所述图像语义空间包括顺序连接的全连接层、双向gru层和softmax层。
111.在一实施例中,所述多模态联合嵌入语义空间模型的训练步骤如下:
112.将文本模态的每个层次颗粒度下的特征输入文本语义空间,获得文本模态对应的概率特征;
113.将文本模态对应的概率特征和图像模态的每个层次颗粒度下的特征输入第一联合嵌入层,获得图像模态的每个特征对应的联合嵌入值;
114.将图像模态的每个层次颗粒度下的特征输入图像语义空间,获得图像模态对应的概率特征;
115.将图像模态对应的概率特征和文本模态的每个层次颗粒度下的特征输入第二联合嵌入层,获得文本模态的每个特征对应的联合嵌入值;
116.分别将图像模态的每个特征对应的联合嵌入值和文本模态的每个特征对应的联合嵌入值输入至相似度融合层,获得图像相似度融合矩阵和文本相似度融合矩阵;
117.若图像相似度融合矩阵的特征值未达到第一阈值,或文本相似度融合矩阵的特征值未达到第二阈值,将文本模态对应的概率特征作为文本模态的每个层次颗粒度下的特征,将图像模态对应的概率特征作为图像模态的每个层次颗粒度下的特征,重复执行以上步骤,直至图像相似度融合矩阵的特征值达到第一阈值,且文本相似度融合矩阵的特征值达到第二阈值,输出训练好的多模态联合嵌入语义空间模型。
118.在一实施例中,第一联合嵌入层和第二联合嵌入层基于注意力机制;
119.所述第一联合嵌入层包括第一内积层和第一求和层,所述第一内积层用于对每个图像模态的每个层次颗粒度下的特征,将该特征与文本模态的每个层次颗粒度下的特征依次进行内积计算,获得该特征对应的多个内积值;第一求和层用于对每个图像模态的每个层次颗粒度下的特征,计算该特征所有的内积值,获得该特征的联合嵌入值;
120.所述第二联合嵌入层包括第二内积层和第二求和层,所述第二内积层用于对每个文本模态的每个层次颗粒度下的特征,将该特征与图像模态的每个层次颗粒度下的特征依次进行内积计算,获得该特征对应的多个内积值;第二求和层用于对每个文本模态的每个层次颗粒度下的特征,计算该特征所有的内积值,获得该特征的联合嵌入值。
121.在一实施例中,概率特征计算模块具体用于:
122.将文本模态的每个层次颗粒度下的特征输入文本语义空间,获得文本模态对应的概率特征;
123.将图像模态的每个层次颗粒度下的特征输入图像语义空间,获得图像模态对应的概率特征。
124.综上所述,本发明实施例提出的装置具有以下有益效果:
125.第一,设计多模态多层次颗粒度的数据划分策略,使用前沿的自然语言处理和计
算机视觉颗粒度分割和特征提取技术(包括神经网络vgg16、faster-rcnn、bert、动态词向量提取方法),融合多模态联合嵌入语义空间模型做特征提取微调,利用多层次颗粒度数据的互补性,弥补以往方法不同颗粒度数据缺失的缺陷,既保留全局信息又能抓住局部细节,从而将全局特征和局部特征有效融合,并有效提升图像语义描述的准确性。
126.第二,利用注意力机制进行跨模态的联合嵌入以及自适应融合的度量学习,在得到联合嵌入空间的基础上进行跨语义空间动态权重的相似度融合,强调数据间重点关联的信息,弥合多模态数据异构鸿沟。
127.第三,实现“看图说话”应用,可根据需要形成多层次的文本描述,如为完整图片生成段落文字描述,为特定图像区域生成人物和物品动作关系的句子描述,为图像块生成文字标签等,提升模型的广泛适用性。
128.本发明实施例还提供一种计算机设备,图7为本发明实施例中计算机设备的示意图,所述计算机设备700包括存储器710、处理器720及存储在存储器710上并可在处理器720上运行的计算机程序730,所述处理器720执行所述计算机程序730时实现上述图像描述生成方法。
129.本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述图像描述生成方法。
130.本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述图像描述生成方法。
131.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
132.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
133.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
134.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
135.以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保
护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种图像描述生成方法,其特征在于,包括:提取测试图像中不同模态的数据;分别对每种模态的数据进行多层级颗粒度划分;对每种模态的每个层次颗粒度下的数据进行特征提取;将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。2.如权利要求1所述的方法,其特征在于,所述模态包括图像模态和/或文本模态;图像模态的多层次颗粒度包括图像、图像块、边界框中的其中一种或任意组合;文本模态的多层次颗粒度包括文档、句子、单词中的其中一种或任意组合。3.如权利要求2所述的方法,其特征在于,分别对每种模态的数据进行多层级颗粒度划分,包括:将所有图像模态的数据作为图像;对图像模态的数据进行分块操作,获得图像块,对图像模态的数据进行边界框标注,获得边界框;将所有文本模态的数据作为文档;对文本模态的数据进行分句操作,获得句子;对所有句子进行分词操作,获得单词。4.如权利要求2所述的方法,其特征在于,对每种模态的每个层次颗粒度下的数据进行特征提取,包括:使用神经网络vgg16进行图像和图像块的特征提取;使用faster-rcnn进行边界框的特征提取;使用bert进行文档和句子的特征提取;使用动态词向量提取方法进行单词的特征提取。5.如权利要求1所述的方法,其特征在于,所述多模态联合嵌入语义空间模型包括:顺序连接的文本语义空间、第一联合嵌入层、相似度融合层、第二联合嵌入层、图像语义空间。6.如权利要求5所述的方法,其特征在于,所述文本语义空间包括顺序连接的全连接层、双向gru层和softmax层;所述图像语义空间包括顺序连接的全连接层、双向gru层和softmax层。7.如权利要求5所述的方法,其特征在于,所述多模态联合嵌入语义空间模型的训练步骤如下:将文本模态的每个层次颗粒度下的特征输入文本语义空间,获得文本模态对应的概率特征;将文本模态对应的概率特征和图像模态的每个层次颗粒度下的特征输入第一联合嵌入层,获得图像模态的每个特征对应的联合嵌入值;将图像模态的每个层次颗粒度下的特征输入图像语义空间,获得图像模态对应的概率特征;将图像模态对应的概率特征和文本模态的每个层次颗粒度下的特征输入第二联合嵌入层,获得文本模态的每个特征对应的联合嵌入值;
分别将图像模态的每个特征对应的联合嵌入值和文本模态的每个特征对应的联合嵌入值输入至相似度融合层,获得图像相似度融合矩阵和文本相似度融合矩阵;若图像相似度融合矩阵的特征值未达到第一阈值,或文本相似度融合矩阵的特征值未达到第二阈值,将文本模态对应的概率特征作为文本模态的每个层次颗粒度下的特征,将图像模态对应的概率特征作为图像模态的每个层次颗粒度下的特征,重复执行以上步骤,直至图像相似度融合矩阵的特征值达到第一阈值,且文本相似度融合矩阵的特征值达到第二阈值,输出训练好的多模态联合嵌入语义空间模型。8.如权利要求7所述的方法,其特征在于,第一联合嵌入层和第二联合嵌入层基于注意力机制;所述第一联合嵌入层包括第一内积层和第一求和层,所述第一内积层用于对每个图像模态的每个层次颗粒度下的特征,将该特征与文本模态的每个层次颗粒度下的特征依次进行内积计算,获得该特征对应的多个内积值;第一求和层用于对每个图像模态的每个层次颗粒度下的特征,计算该特征所有的内积值,获得该特征的联合嵌入值;所述第二联合嵌入层包括第二内积层和第二求和层,所述第二内积层用于对每个文本模态的每个层次颗粒度下的特征,将该特征与图像模态的每个层次颗粒度下的特征依次进行内积计算,获得该特征对应的多个内积值;第二求和层用于对每个文本模态的每个层次颗粒度下的特征,计算该特征所有的内积值,获得该特征的联合嵌入值。9.如权利要求8所述的方法,其特征在于,将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征,包括:将文本模态的每个层次颗粒度下的特征输入文本语义空间,获得文本模态对应的概率特征;将图像模态的每个层次颗粒度下的特征输入图像语义空间,获得图像模态对应的概率特征。10.一种图像描述生成装置,其特征在于,包括:模态数据提取模块,用于提取测试图像中不同模态的数据;多层级颗粒度划分模块,用于分别对每种模态的数据进行多层级颗粒度划分;特征提取模块,用于对每种模态的每个层次颗粒度下的数据进行特征提取;概率特征计算模块,用于将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;文本描述数据生成模块,用于将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一所述方法。12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至9任一所述方法。13.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至9任一所述方法。

技术总结
本发明公开了一种图像描述生成方法及装置,涉及人工智能技术领域,该方法包括:提取测试图像中不同模态的数据;分别对每种模态的数据进行多层级颗粒度划分;对每种模态的每个层次颗粒度下的数据进行特征提取;将提取的特征输入至多模态联合嵌入语义空间模型,获得多个概率特征;将所述概率特征与预定义的多组文本描述数据进行相似度计算,输出相似度最高的预设数量的文本描述数据至用户。本发明考虑了多模态多颗粒度特征融合,可生成准确的图像描述。述。述。


技术研发人员:袁韶璟 李露 井潇 杨一鸣
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.06.07
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐