一种基于场景图的多模态社交媒体命名实体识别方法
未命名
07-12
阅读:94
评论:0

1.本发明属于知识挖掘和知识管理技术领域,具体涉及一种基于场景图的多模态社交媒体命名实体识别方法。
背景技术:
2.随着互联网的快速发展,社交媒体已经成为新闻聚合、民意调查和自然灾害报道等应用的重要途径。针对这些极具价值的社交媒体数据,通过构建知识图谱可以对其进行有效整合利用及挖掘。知识图谱(knowledge graph)使用一种结构化的形式来陈述客观世界中实体(entity)及实体之间不同的关系(relation),将海量信息表达成更接近人类认知世界的形式,提供了一种更好的组织、管理和理解信息的方法。
3.命名实体识别(named entity recognition,ner)是构建知识图谱的一项关键任务,通常被视为序列标注问题,即句子中的每个词被标注为k个bio-标签;例如标签为o,代表不是命名实体的一部分;b-per和i-per表示人名的开始词和继续词;b-loc和i-loc表示地方的开始词和继续词;b-misc和i-misc表示其他类别命名实体的开始词和继续词;其主要思想是使用降维技术,将高维的文本信息提取成密集的向量嵌入,这些向量嵌入可以反馈给下游任务进行实体的分类。但曾经以文本为中心的社交媒体平台正变得越来越多模态,且社交媒体中存在文本不足的情况,例如,文本较短且存在语法错误、文本中包含一些缩写及文本中存在拼写错误等问题,这些问题导致命名实体识别任务变得越来越具有挑战性。
4.多模态命名实体识别旨在利用文本和图像之间的丰富交互来捕获文本和图像之间的复杂关联。通过将{文本,图像}对作为输入,显著扩展了基于文本的命名实体识别,提高了识别模型的准确性和效率。现有的典型方法是使用目标检测从图像中捕捉局部图像特征来弥补语义信息。但这种方法也有一定缺陷,例如,命名实体的结果是具体的,是一般实体的实例,而图像处理模型所提供的信息过于笼统;其次,当添加的图像信息过于抽象或不是说明文本中的内容时,反而会降低识别模型的准确性。
5.虽然目前多模态命名实体工作已经有很多令人瞩目的成果,但也存在以下问题:
6.首先,图像信息的引入并不总是能够提升识别模型的准确性。图像中可能不包含任何有用的信息或包含了有用的信息但无法准确进行提取。并且现有的大多数方法仅使用目标检测器来提取图像中所包含的实体,通过这种方式得到的仅仅是图像中实体的分类结果。但不同的实体在不同的语义环境中所表达的含义不同,例如:“我吃了一个苹果”与“我买了一个苹果手机”,这两句中的“苹果”含义显然是不同的,但可以根据谓语动词的不同对“苹果”的特征向量进行修正从而获得表示水果的“苹果”特征表示及表示手机的“苹果”特征表示,因此命名实体的分类需要结合图像或文本的上下文。
7.并且,文本和图像信息处于两个不同的语义空间中,对两个不同模态的信息进行处理需要先将其映射至一个统一的空间中再进行建模,但映射的同时也会导致信息的损失。而文本信息处于主导地位,图像信息作为对文本信息的补充,如何在尽可能不损失文本
信息的同时最大限度发挥图像信息的优点也极其具有挑战性。现有的方法是通过使用预先训练好的目标检测器来识别图像中区域性的视觉信息,后续将两种模态的数据进行融合从而进行文本和图像的交互。但由于文本和图像都是在各自的模态数据上进行训练的,这导致后续很难将两个不同模态的信息进行统一建模。并且图片和文本之间存在弱相关性,即图像中的内容与文本无关或图像所表达的是一种隐含的语义信息。因此如何对实体的特征向量进行表示以能够区分不同实体也是多模态命名实体识别任务的挑战之一。
技术实现要素:
8.针对现有技术的不足,本发明提供一种基于场景图的多模态社交媒体命名实体识别方法;首先使用目标检测器提取图像中所包含的实体,并预测实体对之间的关系用于生成图像场景图;其次使用图卷积神经网络对图像场景图中的实体节点及关系再次进行编码,从而引入上下文信息;然后使用图池化对整张图像场景图进行编码,并使用解码器为图像生成文本描述;最后将文本数据与图像的文本描述输入到预训练模型bert继续更新每个单词的特征表示,最终使用crf预测实体类型;本发明旨在利用场景图来描述图像中实体及实体之间的关系,并将图像信息从图像语义空间映射至文本语义空间用于后续的信息融合,以减少两种模态数据在语义上的差距,从而提升多模态命名实体识别模型的准确性。
9.一种基于场景图的多模态社交媒体命名实体识别方法,具体包括以下步骤:
10.步骤1:获取公开多模态社交媒体数据集,所述数据集中包括文本信息s及图像信息i,并将图像信息生成图像场景图;
11.所述图像场景图g=(o,e)是一个有向图,一条边必须从一个主语名词开始以一个宾语名词结束,其中o∈o表示实体即名词的集合,e∈e为成对实体之间关系即谓语的集合;
12.图像生成图像场景图需要包含以下内容:
13.一组候选框p={p1,
…
,pn},pi∈p;
14.实体集合o={o1,
…
,on},并对每一个pi分配类标签oi;
15.关系集合e={e1,
…
,en}用于表示实体之间的关系,每一个ei∈e是由一个开始节点(pi,oi)∈p
×
o、结束节点(pj,oj)∈p
×
o和一个关系标签xi→j构成的三元组;
16.步骤1.1:使用faster r-cnn作为底层检测器,对于输入图像,检测器预测一组区域候选框p={p1,
…
,pn};对于每一个候选框pi∈p,输出该区域候选框所含实体的特征向量ai以及实体类别概率分布向量ci;
17.步骤1.2:将p中的元素组织成线性序列[(p1,a1,c1),
…
,(pn,an,cn)],默认按照中心的x坐标从左到右来对候选区域进行排序;所述中心的x坐标为区域候选框的中心点在x轴上的位置;
[0018]
步骤1.3:使用双向长短期记忆网络bi-lstm对候选框中包含的实体特征向量ai再次进行编码,生成具有上下文信息的实体特征向量ki;
[0019]
k=bilstm([ai;w0ci]
i=1,...,n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0020]
w0为可学习的参数矩阵;
[0021]
步骤1.4:采用长短期记忆网络lstm,对k=[k1,
…
,kn]中的每个包含上下文信息的实体特征向量ki进行解码,获得每个实体的类别oi;
[0022]hi
=lstm([ki;o
i-1
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0023]
oi=argmax(w1hi)∈r
|k|
(one-hot)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0024]
其中w1为可学习的参数矩阵;
[0025]
丢弃该lstm的隐藏层状态hi,使用实体类别oi继续进行实体对之间的关系预测;oi与ci的不同之处在于,ci的编码没有考虑实体的上下文信息,因此预测的label可能不准确;
[0026]
步骤1.5:实体对之间关系预测和实体类别预测使用的模型一般是相同的,但实体类别对实体间关系的预测也有影响,所以进行实体对关系预测时不仅要考虑全局的上下文信息还要考虑实体的类别;
[0027]
使用与步骤1.3参数不同的bi-lstm构造候选区域p和实体o的上下文表示t:
[0028]
t=bilstm([ki;w2oi]
i=1,...,n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0029]
w2是一个可学习的参数矩阵;
[0030]
步骤1.6:对于实体oi和oj之间每一条可能的边,使用t=[t1,
…
,tn]及实体oi和oj所在的候选框区域pi,pj的并集所对应的特征a
ij
,计算边具有关系标签xi→j的概率;并选择概率最大的作为两实体之间的关系;
[0031][0032]
p(xi→j|p,o)=softmax(w5a
i,j
+w
oi,oj
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0033]
w3和w4为参数矩阵,w
oi,oj
是不同实体对之间的偏置向量;
[0034]
步骤2:使用图神经网络对步骤1中生成的图像场景图g中的节点o及边e利用上下文信息进行增强,并添加图池化操作将整张图信息使用一个特征向量y来进行表示;
[0035]
步骤2.1:更新节点信息;节点o的更新规则为:
[0036][0037]
其中,w
pz
,w
pb
为连接谓语与主语及连接谓语与宾语的可学习参数;d
pz
,d
pb
∈r
|e|
×
|o|
分别是谓词与主语之间、谓词与宾语之间的归一化邻接矩阵;例如,d
pz
中的一个非零元素表明场景图g中的谓词与主语之间存在联系;
[0038]
步骤2.2:更新边缘信息,边e的更新规则为:
[0039][0040]
其中,w
zp
,w
bp
为连接主语与谓语及连接宾语与谓语的可学习参数,d
zp
,d
bp
∈r
|o|
×
|e|
分别是主语与谓词之间、宾语与谓词之间的归一化邻接矩阵;
[0041]
步骤2.3:对步骤2.2中经过多轮迭代的所有节点进行一次性的聚合操作,从而输出图神经网络的全局表示y:
[0042][0043]
其中,r为sum操作;
[0044]
步骤3:为步骤2得到的特征向量y生成文本描述s
′i;
[0045]
步骤3.1:将步骤2中经过图池化生成的特征向量y作为lstm模型的初始隐状态,用于生成一段包含图像信息的文本s
′i;
[0046]
步骤3.2:模型中每一个时间步的输出作为下一个时间步的输入;
[0047]
步骤3.3:初始输入为特殊符号《sos》,即start of sentence;
[0048]
步骤3.4:经过单词表和词嵌入层获得该特殊符号对应的词向量;
[0049]
步骤3.5:通过线性层分类以及softmax层进行归一化后,得到下一个单词的概率
分布,从这个分布中随机抽样得到一个单词,并将该单词作为下一个时间步的输入;
[0050]
步骤3.6:重复上述步骤,直到预测到特殊符号《eos》,即end of sentence结束,得到图像的文本描述s
′i;
[0051]
步骤4:使用预训练模型bert对两种模态信息进行融合,输出文本信息重新编码后的词向量表示所述两种模态信息为文本信息si与图像文本描述s
′i;
[0052]
步骤4.1:将文本信息si与图像文本描述s
′i进行拼接;其中文本信息si以特殊字符《cls》开始,以特殊字符《sep》结尾,第二段为图像的文本描述s
′i并以特殊字符《sep》结尾;并且为了统一句子的长度,给每个长度不足的句子末尾使用0来进行填充;
[0053]
步骤4.2:预训练模型bert的输入为文本信息si和图像的文本描述s
′i的词嵌入;词嵌入由三部分构成,分别是文本的嵌入word embedding、片段的嵌入segmental embedding以及单词位置的嵌入position embedding;
[0054]
步骤4.2.1:使用bert中的分词器对文本信息si及图像的文本描述s
′i进行分词处理并将分词后两个句子中的单词转换成语料库中对应的索引;
[0055]
步骤4.2.2:将索引作为文本嵌入层的输入,文本嵌入层将索引映射到语料库中得到对应的文本嵌入;
[0056]
步骤4.2.3:使用ea来表示该文字为文本信息,使用eb来表示该文字为图像的文本描述;
[0057]
步骤4.2.4:记录每一个分词后的单词在句子中的位置,从《cls》开始并以e0来表示位置嵌入,直到第二个句子的《sep》结束;
[0058]
步骤4.3:将拼接后的两个句子的文本嵌入、片段嵌入以及位置嵌入相加构成最终的词嵌入输入到预训练模型bert中,模型最终的输出即为文本信息重新编码后的词向量表示;
[0059]
步骤5:使用条件随机场conditional random field,crf对进行命名实体的分类;基于步骤4和步骤5完成多模态命名实体识别模型的构建,输出分类结果;
[0060]
由于同时将文本信息si及图像的文本描述s
′i输入到bert中,bert中的自注意力机制会参考图像中的信息对文本信息的词向量进行修改增强,因此最终输出的词向量不仅包含了文本中的上下文信息,还包含了图像的上下文信息;
[0061]
最后使用crf对文本信息中的每一个词向量对应的标签进行预测;crf的目标是构建条件模型定义如下:
[0062][0063]
其中为文本信息的词向量序列;b={b1,
…
,bn}为每个词向量对应的标签;w是训练求得的参数;fw(s)为归一化因子。
[0064]
本发明有益技术效果:
[0065]
本发明设计一种基于场景图的多模态社交媒体命名实体识别方法,首先使用目标检测器提取图像中所包含的实体,并预测实体对之间的关系用于生成图像场景图。使用图卷积神经网络对图像场景图中的实体节点及关系再次进行编码,从而引入上下文信息;使用图池化对整张图像场景图进行编码,并使用解码器为图像生成文本描述;将文本数据与
图像的文本描述输入到预训练模型bert继续更新每个单词的特征表示,最终使用crf预测实体类型。本发明为检测到的图像实体信息构建场景图并根据上下文信息对实体节点信息进行增强,以此捕获相邻节点之间的关系,且融合过程中最大程度保留文本信息;应用在多模态社交文本中可以更好地利用图像信息弥补文本信息的不足,提升多模态命名实体识别模型识别的准确率。
附图说明
[0066]
图1为本发明实施例中一种基于场景图的多模态社交媒体命名实体识别方法流程图;
[0067]
图2为本发明实施例中使用公开数据集中的图像信息构建场景图的流程图。
具体实施方式
[0068]
下面结合附图和实施例对本发明做进一步说明;
[0069]
一种基于场景图的多模态社交媒体命名实体识别方法,如附图1所示,具体包括以下步骤:
[0070]
步骤1:获取公开多模态社交媒体数据集,所述数据集中包括文本信息s及图像信息i,并将图像信息生成图像场景图,如附图2所示;所述多模态社交数据集在网络下载得到,例如twitter-2015、twitter-2017和snapchat数据集;
[0071]
所述图像场景图g=(o,e)是一个有向图,一条边必须从一个主语名词开始以一个宾语名词结束,其中o∈o表示实体即名词的集合,e∈e为成对实体之间关系即谓语的集合;
[0072]
图像生成图像场景图需要包含以下内容:
[0073]
一组候选框p={p1,
…
,pn},pi∈p;
[0074]
实体集合o={o1,
…
,on},并对每一个pi分配类标签oi;
[0075]
关系集合e={e1,
…
,en}用于表示实体之间的关系,每一个ei∈e是由一个开始节点(pi,oi)∈p
×
o、结束节点(pj,oj)∈p
×
o和一个关系标签xi→j构成的三元组;
[0076]
步骤1.1:使用faster r-cnn作为底层检测器,对于输入图像,检测器预测一组区域候选框p={p1,
…
,pn};对于每一个候选框pi∈p,输出该区域候选框所含实体的特征向量ai以及实体类别概率分布向量ci;
[0077]
步骤1.2:将p中的元素组织成线性序列[(p1,a1,c1),
…
,(pn,an,cn)],默认按照中心的x坐标从左到右来对候选区域进行排序;所述中心的x坐标为区域候选框的中心点在x轴上的位置;
[0078]
步骤1.3:使用双向长短期记忆网络bi-lstm对候选框中包含的实体特征向量ai再次进行编码,生成具有上下文信息的实体特征向量ki;
[0079]
k=bilstm([ai;w0ci]
i=1,...,n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0080]
w0为可学习的参数矩阵;
[0081]
步骤1.4:采用长短期记忆网络lstm,对k=[k1,
…
,kn]中的每个包含上下文信息的实体特征向量ki进行解码,获得每个实体的类别oi;
[0082]hi
=lstm([ki;o
i-1
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0083]
oi=argmax(w1hi)∈r
|k|
(one-hot)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0084]
其中w1为可学习的参数矩阵;
[0085]
丢弃该lstm的隐藏层状态hi,使用实体类别oi继续进行实体对之间的关系预测;oi与ci的不同之处在于,ci的编码没有考虑实体的上下文信息,因此预测的label可能不准确;
[0086]
步骤1.5:实体对之间关系预测和实体类别预测使用的模型一般是相同的,但实体类别对实体间关系的预测也有影响,所以进行实体对关系预测时不仅要考虑全局的上下文信息还要考虑实体的类别;
[0087]
使用与步骤1.3参数不同的bi-lstm构造候选区域p和实体o的上下文表示t:
[0088]
t=bilstm([ki;w2oi]
i=1,...,n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0089]
w2是一个可学习的参数矩阵;
[0090]
步骤1.6:对于实体oi和oj之间每一条可能的边,使用t=[t1,
…
,tn]及实体oi和oj所在的候选框区域pi,pj的并集所对应的特征a
ij
,计算边具有关系标签xi→j的概率;并选择概率最大的作为两实体之间的关系;
[0091][0092]
p(xi→j|p,o)=softmax(w5a
i,j
+w
oi,oj
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0093]
w3和w4为参数矩阵,w
oi,oj
是不同实体对之间的偏置向量;
[0094]
步骤2:使用图神经网络对步骤1中生成的图像场景图g中的节点o及边e利用上下文信息进行增强,并添加图池化操作将整张图信息使用一个特征向量y来进行表示;
[0095]
步骤2.1:更新节点信息;节点o的更新规则为:
[0096][0097]
其中,w
pz
,w
pb
为连接谓语与主语及连接谓语与宾语的可学习参数;d
pz
,d
pb
∈r
|e|
×
|o|
分别是谓词与主语之间、谓词与宾语之间的归一化邻接矩阵;例如,d
pz
中的一个非零元素表明场景图g中的谓词与主语之间存在联系;
[0098]
步骤2.2:更新边缘信息,边e的更新规则为:
[0099][0100]
其中,w
zp
,w
bp
为连接主语与谓语及连接宾语与谓语的可学习参数,d
zp
,d
bp
∈r
|o|
×
|e|
分别是主语与谓词之间、宾语与谓词之间的归一化邻接矩阵;
[0101]
步骤2.3:对步骤2.2中经过多轮迭代的所有节点进行一次性的聚合操作,从而输出图神经网络的全局表示y:
[0102][0103]
其中,r为sum操作;
[0104]
步骤3:为步骤2得到的特征向量y生成文本描述s
′i;
[0105]
步骤3.1:将步骤2中经过图池化生成的特征向量y作为lstm模型的初始隐状态,用于生成一段包含图像信息的文本s
′i;
[0106]
步骤3.2:模型中每一个时间步的输出作为下一个时间步的输入;
[0107]
步骤3.3:初始输入为特殊符号《sos》,即start of sentence;
[0108]
步骤3.4:经过单词表和词嵌入层获得该特殊符号对应的词向量;
[0109]
步骤3.5:通过线性层分类以及softmax层进行归一化后,得到下一个单词的概率分布,从这个分布中随机抽样得到一个单词,并将该单词作为下一个时间步的输入;
[0110]
步骤3.6:重复上述步骤,直到预测到特殊符号《eos》,即end of sentence结束,得到图像的文本描述s
′i;
[0111]
步骤4:使用预训练模型bert对两种模态信息进行融合,输出文本信息重新编码后的词向量表示所述两种模态信息为文本信息si与图像文本描述s
′i;
[0112]
步骤4.1:将文本信息si与图像文本描述s
′i进行拼接;其中文本信息si以特殊字符《cls》开始,以特殊字符《sep》结尾,第二段为图像的文本描述s
′i并以特殊字符《sep》结尾;并且为了统一句子的长度,给每个长度不足的句子末尾使用0来进行填充;
[0113]
步骤4.2:预训练模型bert的输入为文本信息si和图像的文本描述s
′i的词嵌入;词嵌入由三部分构成,分别是文本的嵌入word embedding、片段的嵌入segmental embedding以及单词位置的嵌入position embedding;
[0114]
步骤4.2.1:使用bert中的分词器对文本信息si及图像的文本描述s
′i进行分词处理并将分词后两个句子中的单词转换成语料库中对应的索引;
[0115]
步骤4.2.2:将索引作为文本嵌入层的输入,文本嵌入层将索引映射到语料库中得到对应的文本嵌入;
[0116]
步骤4.2.3:使用ea来表示该文字为文本信息,使用eb来表示该文字为图像的文本描述;
[0117]
步骤4.2.4:记录每一个分词后的单词在句子中的位置,从《cls》开始并以e0来表示位置嵌入,直到第二个句子的《sep》结束;
[0118]
步骤4.3:将拼接后的两个句子的文本嵌入、片段嵌入以及位置嵌入相加构成最终的词嵌入输入到预训练模型bert中,模型最终的输出即为文本信息重新编码后的词向量表示;
[0119]
步骤5:使用条件随机场conditional random field,crf对进行命名实体的分类;基于步骤4和步骤5完成多模态命名实体识别模型的构建,输出分类结果;
[0120]
由于同时将文本信息si及图像的文本描述s
′i输入到bert中,bert中的自注意力机制会参考图像中的信息对文本信息的词向量进行修改增强,因此最终输出的词向量不仅包含了文本中的上下文信息,还包含了图像的上下文信息;
[0121]
最后使用crf对文本信息中的每一个词向量对应的标签进行预测;crf的目标是构建条件模型定义如下:
[0122][0123]
其中为文本信息的词向量序列;b={b1,
…
,bn}为每个词向量对应的标签;w是训练求得的参数;fw(s)为归一化因子。
[0124]
为了正确地识别出图像中的实体,本发明为图像生成场景图,使用场景图来展现图像中的实体以及实体与实体之间的关系。并使用图卷积神经网络对实体的特征向量再次进行编码,为实体特征向量引入上下文信息。
[0125]
其次,如何在尽量不损失信息的同时为两个不同语义空间的信息进行统一建模也是多模态命名实体识别任务的一大难点。为此,本发明将图像场景图生成对其的文本描述,将图像信息由图像空间映射至文本空间,最大程度上保留处于主导地位的文本信息。
技术特征:
1.一种基于场景图的多模态社交媒体命名实体识别方法,其特征在于,具体包括以下步骤:步骤1:获取公开多模态社交媒体数据集,所述数据集中包括文本信息s及图像信息i,并将图像信息生成图像场景图g=(o,e);步骤2:使用图神经网络对步骤1中生成的图像场景图g中的节点o及边e利用上下文信息进行增强,并添加图池化操作将整张图信息使用一个特征向量y来进行表示;步骤3:为步骤2得到的特征向量y生成文本描述s
′
i
;步骤4:使用预训练模型bert对两种模态信息进行融合,输出文本信息重新编码后的词向量表示所述两种模态信息为文本信息s
i
与图像文本描述s
′
i
;步骤5:使用条件随机场crf对进行命名实体的分类;基于步骤4和步骤5完成多模态命名实体识别模型的构建,输出分类结果。2.根据权利要求1所述的一种基于场景图的多模态社交媒体命名实体识别方法,其特征在于,步骤1所述图像场景图g=(o,e)是一个有向图,一条边必须从一个主语名词开始以一个宾语名词结束,其中o∈o表示实体即名词的集合,e∈e为成对实体之间关系即谓语的集合;图像生成图像场景图需要包含以下内容:一组候选框p={p1,
…
,p
n
},p
i
∈p;实体集合o={o1,
…
,o
n
},并对每一个p
i
分配类标签o
i
;关系集合e={e1,
…
,e
n
}用于表示实体之间的关系,每一个e
i
∈e是由一个开始节点(p
i
,o
i
)∈p
×
o、结束节点(p
j
,o
j
)∈p
×
o和一个关系标签x
i
→
j
构成的三元组。3.根据权利要求1所述的一种基于场景图的多模态社交媒体命名实体识别方法,其特征在于,步骤1具体为:步骤1.1:使用faster r-cnn作为底层检测器,对于输入图像,检测器预测一组区域候选框p={p1,
…
,p
n
};对于每一个候选框p
i
∈p,输出该区域候选框所含实体的特征向量a
i
以及实体类别概率分布向量c
i
;步骤1.2:将p中的元素组织成线性序列[(p1,a1,c1),
…
,(p
n
,a
n
,c
n
)],默认按照中心的x坐标从左到右来对候选区域进行排序;所述中心的x坐标为区域候选框的中心点在x轴上的位置;步骤1.3:使用双向长短期记忆网络bi-lstm对候选框中包含的实体特征向量a
i
再次进行编码,生成具有上下文信息的实体特征向量k
i
;k=bilstm([a
i
;w0c
i
]
i=1,...,n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)w0为可学习的参数矩阵;步骤1.4:采用长短期记忆网络lstm,对k=[k1,
…
,k
n
]中的每个包含上下文信息的实体特征向量k
i
进行解码,获得每个实体的类别o
i
;h
i
=lstm([k
i
;o
i-1
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)o
i
=argmax(w1h
i
)∈r
|k|
(one-hot)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中w1为可学习的参数矩阵;丢弃该lstm的隐藏层状态h
i
,使用实体类别o
i
继续进行实体对之间的关系预测;
步骤1.5:进行实体对关系预测时不仅要考虑全局的上下文信息还要考虑实体的类别;使用与步骤1.3参数不同的bi-lstm构造候选区域p和实体o的上下文表示t:t=bilstm([k
i
;w2o
i
]
i=1,...,n
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)w2是一个可学习的参数矩阵;步骤1.6:对于实体o
i
和o
j
之间每一条可能的边,使用t=[t1,
…
,t
n
]及实体o
i
和o
j
所在的候选框区域p
i
,p
j
的并集所对应的特征a
ij
,计算边具有关系标签x
i
→
j
的概率;并选择概率最大的作为两实体之间的关系;p(x
i
→
j
|p,o)=softmax(w5a
i,j
+w
oi,oj
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)w3和w4为参数矩阵,w
oi,oj
是不同实体对之间的偏置向量。4.根据权利要求1所述的一种基于场景图的多模态社交媒体命名实体识别方法,其特征在于,步骤2具体为:步骤2.1:更新节点信息;节点o的更新规则为:其中,w
pz
,w
pb
为连接谓语与主语及连接谓语与宾语的可学习参数;d
pz
,d
pb
∈r
|e|
×
|o|
分别是谓词与主语之间、谓词与宾语之间的归一化邻接矩阵;例如,d
pz
中的一个非零元素表明场景图g中的谓词与主语之间存在联系;步骤2.2:更新边缘信息,边e的更新规则为:其中,w
zp
,w
bp
为连接主语与谓语及连接宾语与谓语的可学习参数,d
zp
,d
bp
∈r
|o|
×
|e|
分别是主语与谓词之间、宾语与谓词之间的归一化邻接矩阵;步骤2.3:对步骤2.2中经过多轮迭代的所有节点进行一次性的聚合操作,从而输出图神经网络的全局表示y:其中,r为sum操作。5.根据权利要求1所述的一种基于场景图的多模态社交媒体命名实体识别方法,其特征在于,步骤3具体为:步骤3.1:将步骤2中经过图池化生成的特征向量y作为lstm模型的初始隐状态,用于生成一段包含图像信息的文本s
′
i
;步骤3.2:模型中每一个时间步的输出作为下一个时间步的输入;步骤3.3:初始输入为特殊符号<sos>,即start of sentence;步骤3.4:经过单词表和词嵌入层获得该特殊符号对应的词向量;步骤3.5:通过线性层分类以及softmax层进行归一化后,得到下一个单词的概率分布,从这个分布中随机抽样得到一个单词,并将该单词作为下一个时间步的输入;步骤3.6:重复上述步骤,直到预测到特殊符号<eos>,即end of sentence结束,得到图像的文本描述s
′
i
。6.根据权利要求1所述的一种基于场景图的多模态社交媒体命名实体识别方法,其特
征在于,步骤4具体为:步骤4.1:将文本信息s
i
与图像文本描述s
′
i
进行拼接;其中文本信息s
i
以特殊字符<cls>开始,以特殊字符<sep>结尾,第二段为图像的文本描述s
′
i
并以特殊字符<sep>结尾;并且为了统一句子的长度,给每个长度不足的句子末尾使用0来进行填充;步骤4.2:预训练模型bert的输入为文本信息s
i
和图像的文本描述s
′
i
的词嵌入;词嵌入由三部分构成,分别是文本的嵌入word embedding、片段的嵌入segmental embedding以及单词位置的嵌入position embedding;步骤4.3:将拼接后的两个句子的文本嵌入、片段嵌入以及位置嵌入相加构成最终的词嵌入输入到预训练模型bert中,模型最终的输出即为文本信息重新编码后的词向量表示。7.根据权利要求6所述的一种基于场景图的多模态社交媒体命名实体识别方法,其特征在于,步骤4.2具体为:步骤4.2.1:使用bert中的分词器对文本信息s
i
及图像的文本描述s
′
i
进行分词处理并将分词后两个句子中的单词转换成语料库中对应的索引;步骤4.2.2:将索引作为文本嵌入层的输入,文本嵌入层将索引映射到语料库中得到对应的文本嵌入;步骤4.2.3:使用ea来表示该文字为文本信息,使用eb来表示该文字为图像的文本描述;步骤4.2.4:记录每一个分词后的单词在句子中的位置,从<cls>开始并以e0来表示位置嵌入,直到第二个句子的<sep>结束。8.根据权利要求1所述的一种基于场景图的多模态社交媒体命名实体识别方法,其特征在于,步骤5使用条件随机场crf对进行命名实体的分类具体为:最后使用crf对文本信息中的每一个词向量对应的标签进行预测;crf的目标是构建条件模型定义如下:其中为文本信息的词向量序列;b={b1,
…
,b
n
}为每个词向量对应的标签;w是训练求得的参数;f
w
(s)为归一化因子。
技术总结
本发明设计一种基于场景图的多模态社交媒体命名实体识别方法;首先使用目标检测器提取图像中所包含的实体,并预测实体对之间的关系,用于生成图像场景图;其次使用图卷积神经网络对图像场景图中的实体节点及关系再次进行编码,从而引入上下文信息;然后使用图池化对整张图像场景图进行编码,并使用解码器为图像生成文本描述;最后将文本数据与图像的文本描述输入到预训练模型BERT继续更新每个单词的特征表示,使用CRF预测实体类型;本发明利用场景图来描述图像中实体及实体之间的关系,并将图像信息从图像语义空间映射至文本语义空间用于后续的信息融合,以减少两种模态数据在语义上的差距,从而提升识别的准确性。从而提升识别的准确性。
技术研发人员:马连博 贺美蕊
受保护的技术使用者:东北大学
技术研发日:2023.04.19
技术公布日:2023/7/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/