跨域小样本关系抽取方法、装置及电子设备
未命名
10-18
阅读:221
评论:0
1.本发明属于信息技术领域,具体是涉及到一种跨域小样本关系抽取方法、装置及电子设备。
背景技术:
2.关系抽取(relation extraction,re)的目标是预测给定上下文中两个实体之间的关系。例如,给定一个句子“london is the capital of the uk”,capital of代表关系标签,london代表头实体,the uk代表尾实体。关系抽取模型能够识别london和uk之间的关系是capital of。关系抽取是自然语言处理任务的基石,为智能检索、语义分析以及自动问答等下游任务提供了基础支持。
3.传统基于核函数、基于特征向量以及基于神经网络的关系抽取方法需要大量的标注数据进行训练,很难推广到现实应用场景。此外,不断增加的新关系和实体很容易也使关系抽取模型面临着数据稀缺的难题。基于以上问题,提出利用元学习(metadata learning,ml)来引导模型利用过去所学知识快速学习新概念。具体来说,ml模型首先构造了一系列具有丰富标注的元任务,然后通过学习相似性度量函数或较好的参数以泛化到数据稀缺的测试任务。
4.然而,传统的基于ml的关系抽取模型致力于解决同一领域的小样本问题,即训练和测试关系类别都来自同一领域。不幸的是,在一些专业领域,例如生物医学领域,数据注释需要极高的专业知识和时间,无法为元学习方法收集到足够的标注数据。因此,如何将元知识从数据丰富的原领域迁移到到数据极度稀缺的目标领域是关系抽取面临的一个实际挑战。跨域小样本(cross domain few-shot,crossfew)关系抽取(relation extraction,re)任务可以在领域泛化(domain generalization,dg)和领域适应(domain adaptation,da)两种情景下应用。在领域泛化情景下,关系抽取模型在训练阶段无法获得任何目标域的数据,在领域适应情境下,关系抽取模型在训练阶段可以获得来自目标域的无标签样本或者少量有标签样本。以往通过直接采用对抗训练的方法或者单纯的使用元学习方法解决跨域的问题。然而这些方法不能很好地解决跨域小样本关系抽取任务,将每个任务视为来自同一领域的相同数据分布,未能将其泛化到看不见的领域。现有的关系抽取模型粗暴地将源域和目标域的关系标签组成一个大的关系标签集,随后在标签级元任务的数据设置方式下训练,忽略了来自不同领域的数据之间的分布差异。另外,都是直接更新全部的大规模参数以达到全局最优。然而这种参数更新策略并不适用于跨域小样本关系抽取任务,因为该策略使关系模型收敛到数据量较多的源域最优点,导致与目标域的优化差距。
技术实现要素:
5.本发明提供一种跨域小样本关系抽取方法、装置及电子设备,解决现有的跨域小样本关系抽取将每个任务视为来自同一领域的相同数据分布,未能将其泛化到看不见的领域的问题。
6.基于上述目的,本发明提出一种跨域小样本关系抽取方法,包括:对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域;应用全局参数更新策略更新所述伪可见域的元知识;根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识;根据所述元知识和所述更新的可迁移知识预测目标域的关系标签。
7.可选的,所述对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域,包括:对多个源域进行域采样,并从中随机选择两个候选域;对两个所述候选域进行域采样,分别划分出一个伪可见域和一个伪不可见域。
8.可选的,所述应用全局参数更新策略更新所述伪可见域的元知识,包括:对所述伪可见域和所述伪不可见域进行标签级元任务采样,构建标签级元任务,所述标签级元任务包括伪可见元任务和伪不可见元任务;根据所述伪可见元任务应用关系抽取模型对所述伪可见域的元知识进行更新。
9.可选的,所述伪可见元任务包括支持集和查询集,所述根据所述伪可见元任务应用关系抽取模型对所述伪不可见域的元知识进行更新,包括:应用所述关系抽取模型中的编码器将所述伪可见元任务中的支持集实例和查询集实例映射到低维向量空间;应用所述关系抽取模型中的度量函数获取所述伪可见元任务中的支持集实例和查询集实例在低维向量空间的表示,预测所述伪可见元任务中的查询集实例的关系标签;根据预测的所述查询集实例的关系标签计算所述关系抽取模型的交叉熵损失函数;根据所述交叉熵损失函数对所述元知识进行更新。
10.可选的,所述伪不可见元任务包括支持集和查询集,所述根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识,包括:根据更新后的所述元知识分为权重参数和偏差参数;基于前馈神经网络对所述权重参数和所述偏差参数进行迁移学习操作,获取伪不可见域的可迁移知识;根据更新后的所述元知识以及所述伪不可见域的可迁移知识计算关系抽取模型在伪不可见元任务上的泛化能力;根据所述泛化能力对所述可迁移知识进行更新。
11.可选的,所述基于前馈神经网络对所述权重参数和所述偏差参数进行迁移学习操作,获取伪不可见域的可迁移知识,包括:根据所述权重参数和所述偏差参数应用以下关系式计算伪不可见域的可迁移知识θ
pu
;
[0012][0013]
其中,f
trans
(
·
)表示迁移元学习操作,
⊙
表示向量乘法,表示缩放参数,表示迁移参数。
[0014]
可选的,所述根据所述元知识和所述更新的可迁移知识预测目标域的关系标签,包括:根据所述元知识和所述更新的可迁移知识预测目标域的查询集实例对应的关系标签,满足以下关系式:
[0015][0016]
其中,y
pred
是预测的关系标签,和分别表示测试元任务的支持实例和查询实例,表示对应的关系标签。
等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0029]
本发明实施例实施了一种跨域小样本关系抽取方法,如图1所示,跨域小样本关系抽取方法包括:
[0030]
步骤s11:对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域。
[0031]
关系抽取的目的是识别给定句子中实体之间的关系。大多数传统的关系抽取模型在有监督的设置下提取关系,其大致可以分为三类:基于特征向量的方法、基于核函数的方法和基于神经网络的方法。基于特征向量的方法通常侧重于为关系分类器生成一系列特征,如词特征、句法特征、语义特征等。基于特征向量抽取的方法是显式地构造特征向量的形式,而基于核函数的方法则是隐式地计算两个关系实例之间的相似度。这些核函数包括语法序列内核、树内核、依赖树内核、依赖图路径内核和复合内核。与基于特征向量或基于核函数的人工参与方法不同,基于神经网络的模型往往聚焦于利用神经网络提取关系特征,如卷积神经网络(cnn)、图卷积网络、循环神经网络,进行端到端的训练。通常情况下,上述方法可以借助大规模标注数据取得良好的分类效果。然而,在一些特殊领域收集大规模数据是费时费力甚至无法实现的。本发明实施例致力于解决数据极度稀缺情景下的关系抽取。
[0032]
本发明实施例应用泛化元学习框架(geml)进行跨域小样本关系抽取任务,结构如图2所示,将传统的标签级元任务扩展为域级元任务;该域级元任务包含从两个可见源域分别抽取的两个子任务,即伪可见任务和伪不可见任务,在训练过程中模拟跨域的过程,并通过显示地学习从源域到目标域迁移的过程,使关系抽取模型可以适应源域和目标域的分布差异。然后利用伪可见任务更新大规模元学习参数,然后通过迁移元学习操作将元学习参数迁移到伪不可见任务,避免模型仅收敛到数据量较大的源域从而忽略了目标域。
[0033]
在本发明实施例中,关系抽取可以表达成一个分类任务,根据给定句子中的实体,从预定义的关系标签集r中识别出对应关系标签。给出一个标明头尾实体的句子x={w1,
…
,e
head
,
…
,e
tail
,
…
,wn},一个关系抽取模型可以抽取一个关系三元{e
head
,e
tail
,y},即
[0034]
数据处理遵守以下条件。其中训练、验证和测试集数据(x
trian
,x
val
和x
test
)对应的关系标签r
trian
,r
val
和r
test
分别由来自同一领域的关系标签集合构建:
[0035][0036]
p(
·
)表示输入数据的特征分布。由上述公式(1)可以看出,传统关系抽取任务中训练、验证和测试集数据来源于相同的关系标签,且数据特征分布相同。
[0037]
除了公式(1)中的条件外,元学习方法还需要满足更严格的条件:
[0038][0039]
即使训练、验证和测试数据集对应的关系标签集是两两不相交的。此外数据以元任务的形式呈现,即每个元任务t包含一个支持集s和一个查询集q。支持集s包含n类关系标签,每类有k个实例(n-way k-shot),具体如下:
[0040]
s={xs,ys}={(x
i,j
,yi)},i=1,
…
,n,j=1,
…
,k
ꢀꢀꢀꢀꢀ
(3)
[0041]
查询集q={xq,yq}与支持集s的构建方式相同。值得注意的是,q和s的特征分布仍然遵守公式(1)中的条件,称这种元任务为标签级的元任务。
[0042]
一般来说,跨域小样本关系抽取主要可以分为领域泛化(dg)和领域自适应(da)两种类型。与传统的关系抽取和小样本关系抽取不同,在跨域情景下,x
trian
,x
val
和x
test
来自不同的领域。
[0043]
在领域泛化(dg)情境下,除了公式(2)外,模型在训练和验证过程中无法接触到任何目标域数据,而且数据分布遵守下述公式:
[0044][0045]
在跨域条件,x
train
可能由多个源域数据组成,即x
train
={d1,
…
dv}。
[0046]
在领域自适应(da)情境下,模型在训练过程中可以接触到一些来自目标域的无标签数据或者少量的标注数据,因此,式(4)中的条件可以放宽为
[0047]
p(x
trian
)∩p(x
test
),p(x
val
)∩p(x
test
)=p(x
aux
),
ꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0048]
p(x
aux
)表示来自目标域无标签或者有标签的辅助数据。总的来说,本发明实施例的泛化元学习框架主要提高模型在领域泛化情境下泛化到不可见目标域的能力。此外,也在领域自适应情景下评估泛化元学习框架的性能,验证其鲁棒性。
[0049]
在步骤s11中,可选的,首先对多个源域进行域采样,并从中随机选择两个候选域。具体给定v个源域{d1,
…
,dv},使用域采样器从中随机选择两个候选域和
[0050][0051]
然后对两个所述候选域进行域采样,分别划分出一个伪可见域和一个伪不可见域。使用另一个域采样器将候选域和划分为一个伪可见域d
ps
和一个伪不可见域d
pu
,即
[0052][0053]
如此可以使泛化元学习框架显式地模拟从可见域迁移到不可见目标域的过程。其中,伪可见域d
ps
和伪不可见域d
pu
的数据分布应该满足公式(4),即
[0054]
步骤s12:应用全局参数更新策略更新所述伪可见域的元知识。
[0055]
在本发明实施例中,首先对所述伪可见域和所述伪不可见域进行标签级元任务采样,构建标签级元任务,所述标签级元任务包括伪可见元任务和伪不可见元任务。具体使用标签级元任务采样器构建标签级元任务:
[0056][0057]
标签级元任务采样器首先从d
ps
中抽取出n类关系标签,随后从每类关系标签数据中选择k个实例构建s
ps
。q
ps
的构建方式和s
ps
相同。根据伪可见域d
ps
和伪不可见域d
pu
可以构建一个域级元任务构建一个域级元任务由两个标签级的元任务:伪可见元任务t
ps
={s
ps
,q
ps
}和伪不可见元任务t
pu
={s
pu
,q
pu
}组成。
[0058]
然后根据所述伪可见元任务应用关系抽取模型对所述伪可见域的元知识进行更
新。跨域小样本关系抽取模型在伪可见域和伪不可见域的参数更新不能被同等对待。因此引入元知识θ
meta
和可迁移知识θ
trans
分别表示伪可见域和伪不可见域的变化。其中为了获得通用的元知识,θ
meta
通过大型预训练语言模型bert
base
初始化。
[0059]
在本发明实施例中,应用所述关系抽取模型中的编码器将所述伪可见元任务中的支持集实例和查询集实例映射到低维向量空间;应用所述关系抽取模型中的度量函数获取所述伪可见元任务中的支持集实例和查询集实例在低维向量空间的表示,预测所述伪可见元任务中的查询集实例的关系标签;根据预测的所述查询集实例的关系标签计算所述关系抽取模型的交叉熵损失函数;根据所述交叉熵损失函数对所述元知识进行更新。
[0060]
元知识θ
meta
仅来源于伪可见元任务t
ps
,没有考虑跨域问题。因此关系抽取模型在伪可见域t
ps
的模型训练可以看做传统的小样本关系抽取任务,并采用如图3所示的全局参数更新策略更新参数θ
meta
,其中w、b为权重参数,d为维度。具体而言,关系抽取模型由编码器e和度量函数m组成,编码器e首先将t
ps
中的支持集实例和查询集实例映射到低维向量空间,度量函数利用支持集实例和查询集实例在低维向量空间的表示预测查询集实例的关系标签:
[0061][0062]
表示属于关系标签的概率。交叉熵损失函数l
ps
被用于评估查询集中的分类
[0063]
错误:
[0064][0065]
至此,元知识θ
meta
的更新可表述为
[0066][0067]
α表示元知识梯度更新的学习率,表示元知识在t
th
步的参数值。
[0068]
步骤s13:根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识。
[0069]
理论上,更新后的元知识以及全局参数更新策略可以直接用于伪不可见域d
pu
。然而,伪可见域和伪不可见域在梯度分布上的差距较大,这种全局更新策略不能保证关系抽取模型收敛于伪不可见域d
pu
。因此引入可迁移知识θ
trans
去表示域迁移。
[0070]
伪不可见元任务包括支持集和查询集。在步骤s13中,可选的,首先根据更新后的所述元知识分为权重参数和偏差参数并基于前馈神经网络对所述权重参数和所述偏差参数进行迁移学习操作,获取伪不可见域的可迁移知识。由于参数θ
meta
可以分为两大类:权重和偏差因此,迁移元学习操作也分为两步:通过缩放、迁移参数θ
meta
使其适应伪不可见域的参数分布。如此,根据所述权重参数和所述偏差参数应用以下关系式计算伪不可见域的可迁移知识θ
pu
:
[0071]
[0072]ftrans
(
·
)表示迁移元学习操作,
⊙
表示向量乘法,表示缩放参数,表示迁移参数。利用θ
meta
和θ
trans
生成伪不可见元任务t
pu
的参数θ
pu
;和是分别对和执行缩放操作和迁移操作的参数。具体以关系抽取模型的一个前馈神经网络层为例,给定前一层的输出h
in
∈rc×d,则前向传播的过程可以描述为:
[0073]hout
=(w
⊙
s1)h
in
+(b+s2),(13)
[0074]hout
∈pc×d表示该层前馈神经网络的输出,w∈rd×d和b∈rd分别表示该层的权重和偏差,s1∈pd和s2∈pd分别表示该层的缩放和迁移参数。
[0075]
然后根据更新后的所述元知识以及所述伪不可见域的可迁移知识计算关系抽取模型在伪不可见元任务上的泛化能力。
[0076]
通过参数和可以评估关系抽取模型在伪不可见元任务上的泛化能力:
[0077][0078]
和分别表示伪不可见元任务t
pu
的支持集和查询集,和分别表示其对应的关系标签。
[0079]
最后根据所述泛化能力对所述可迁移知识进行更新。损失函数l
pu
反映了迁移元学习操作的效果,因此通过下述公式优化参数:
[0080][0081]
β表示学习率。值得注意的是,本次反向传播并不会更新参数
[0082]
图3示出了不同的参数更新过程,在伪可见元任务t
ps
上采用全局参数更新策略更新元知识;在伪不可见元任务t
pu
上,为了避免欠拟合和灾难性遗忘的问题,可以冻结元知识,采用局部更新的策略更新迁移学习操作的参数。以图3为例,相比于全局参数更新需要学习3*d*(d+1)的参数,本发明实施例的阶段更新可以使参数量减少到6*d。
[0083]
步骤s14:根据所述元知识和所述更新的可迁移知识预测目标域的关系标签。
[0084]
训练阶段结束后,获得了优化后的元知识θ
meta
和可迁移知识θ
trans
,元知识θ
meta
捕获了关系抽取模型中泛化的语义信息,可迁移知识θ
trans
表达了通用的迁移方向。可以用公式(12)将两种参数转换成针对测试目标域数据的参数θ
test
。
[0085]
在测试阶段,测试数据通过公式(8)生成:t
t
={s
t
,q
t
}=z3(d
t
)。
[0086]
基于参数θ
test
,根据所述元知识和所述更新的可迁移知识预测目标域的查询集实例对应的关系标签,满足以下关系式:
[0087][0088]
其中,y
pred
是预测的关系标签,和分别表示测试元任务的支持实例和查询实例,表示对应的关系标签。
[0089]
本发明实施例的跨域小样本关系抽取方法采用泛化元学习框架(geml)来解决跨域少镜头关系提取任务,包括域级任务生成和阶段更新,通过域级任务生成模拟域移位过
程,以提高对未见目标域的泛化能力;阶段更新采用轻量级的转移元操作,使模型能够快速收敛到目标域。在典型关系提取元任务上的大量实验表明,泛化元学习框架(geml)可以显著提高跨域少镜头正则任务对应模型的性能。
[0090]
以下对本发明实施例的跨域小样本关系抽取方法进行检验。为了探索跨域小样本关系抽取方法的性能和跨域小样本关系抽取(crossfew re)任务的基线,数据集从多域语料库中提取。选择了公共可用的正则基准数据集,即fewrel 2.0,由nyt、wiki、semeval和pubmed四个域名组成。在表1中报告了fewrel 2.0的数据统计。#关系(relation)、#句子(sentence)和词汇(vocabulary)分别描述了对应域中关系标签、句子和单词的数量。平均长度是指每个域的平均句子长度。pubmed检验的部分统计数据未被fewrel 2.0公开,如表1所示。具体来说,在dg场景中,wiki和nyt作为初始源域数据,而semeval作为验证数据。在da场景中,由于re模型可以访问辅助标记数据pubmed
aux
,我们的建议将pubmed
aux
分为两部分,分别是伪不可见域数据和验证数据,并使用wiki和nyt作为伪可见域数据。
[0091]
表1数据集
[0092][0093]
首先分析基线。表2表示了各模型在域泛化(dg)场景下的性能,其中在每一列中,最佳基线和最佳表现的结果分别用下划线和粗体表示。在这些基线中,对于5-way 1-shot、5-way5-shot、10-way 1-shot、10-way 5-shot这四个典型的元任务,传统的迁移学习方法fine-tune表现最差,这表明传统的迁移学习策略不适用于数据稀疏场景。对于元学习(ml)方法,如snail、proto、mtb和pair,它们的性能一般都比较中等。值得注意的是,pair在10个方向的1次元任务中表现最好。这可能是因为pair可以通过将每个查询句与所有支持句配对,有效地缓解跨域小样本关系抽取(crossfew re)任务的少射问题。对于crossfew方法hcrp,除10路1次元任务外,它在所有元任务中表现最好。这可以归因于hcrp在最具挑战性的10路1次元任务中存在欠拟合风险。
[0094]
表2在dg场景的性能
[0095][0096]
接下来,将建议的结果与基线进行比较。整合geml后,snail、proto、mtb和pair的准确率分数持续上升。即snail
geml
、proto
geml
、mtb
geml
和pair
geml
都击败了相应的初始模型,即snai、proto、mtb和pair。以5-way 1-shot元任务为例,snail
geml
、proto
geml
、mtb
geml
和pair
geml
对snail、proto、mtb和pair的准确率分别提高了5.75%、16.71%、4.06%、12.09%。这表明本发明实施例的geml框架确实可以提高相应ml方法的泛化能力。
[0097]
此外,pair
geml
在所有比较模型中表现最好。具体而言,在5-way 1-shot、5-way 5-shot、10-way 1-shot和10-way 5-shot meta任务中,pair
geml
的准确率分别比最佳基线提高了11.68%、5.85%、12.35%和3.67%。这表明,本发明实施例的geml框架通过显式学习域移位,可以更好地泛化到未见目标域中的新关系标签,而不是这些跨域的少镜头方法。值得注意的是,本发明实施例的geml框架使pair
geml
在最具挑战性的10路1次元任务中获得了最大的改进(即12.35%)。这意味着geml集成到基于元学习的方法后,可以很好地处理数据有限的问题。
[0098]
表3表示了各模型在域适应(da)场景下的性能,其中在每一列中,最佳基线和最佳表现的结果分别用下划线和粗体表示。
[0099]
表3在域适应(da)场景下的性能
[0100]
[0101][0102]
如表3所示,da场景下的结果与dg场景下的结果大致相似。对于基线,hcrp在四个元任务中始终表现出最佳结果。这表明适当的目标域数据量可以缓解欠拟合问题。总体而言,da场景下各模型的性能均优于dg场景下各自对应的模型。例如,pair
geml
的准确率提高了14.06%,即从dg场景的68.34%提高到da场景的82.40%。此外,pair的准确率评分提高了9.06%,即从dg场景的56.25%提高到da场景的65.31%。这意味着geml框架可以帮助相应的基于元学习的模型更好地利用目标领域数据。
[0103]
综上所述,本发明实施例的跨域小样本关系抽取方法通过对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域;应用全局参数更新策略更新所述伪可见域的元知识;根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识;根据所述元知识和所述更新的可迁移知识预测目标域的关系标签,能够适应源域和目标域的分布差异,提高提高对未见目标域的泛化能力。
[0104]
上述对本发明特定实施例进行了描述。在一些情况下,在本发明实施例中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0105]
本发明实施例还提供了一种跨域小样本关系抽取装置,如图4所示,跨域小样本关系抽取装置包括:域采样单元、伪可见域更新单元、伪不可见域更新单元和标签预测单元。其中,
[0106]
域采样单元,用于对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域;
[0107]
伪可见域更新单元,用于应用全局参数更新策略更新所述伪可见域的元知识;
[0108]
伪不可见域更新单元,用于根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识;
[0109]
标签预测单元,用于根据所述元知识和所述更新的可迁移知识预测目标域的关系标签。
[0110]
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0111]
上述实施例的装置应用于前述实施例中相应的方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0112]
基于同一发明构思,本发明实施例还提供了一种电子设备,该电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的方法。
[0113]
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行如上任意一实施例中所述的方法。
[0114]
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器501、存储器502、输入/输出接口503、通信接口504和总线505。其中处理器501、存储器502、输入/输出接口503和通信接口504通过总线505实现彼此之间在设备内部的通信连接。
[0115]
处理器501可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明方法实施例所提供的技术方案。
[0116]
存储器502可以采用rom(read only memory,只读存储器)、ram(random accessmemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器502可以存储操作系统和其他应用程序,在通过软件或者固件来实现本发明方法实施例所提供的技术方案时,相关的程序代码保存在存储器502中,并由处理器501来调用执行。
[0117]
输入/输出接口503用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0118]
通信接口504用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0119]
总线505包括一通路,在设备的各个组件(例如处理器501、存储器502、输入/输出接口503和通信接口504)之间传输信息。
[0120]
需要说明的是,尽管上述设备仅示出了处理器501、存储器502、输入/输出接口503、通信接口504以及总线505,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本发明实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0121]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0122]
本发明实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
技术特征:
1.一种跨域小样本关系抽取方法,其特征是,所述跨域小样本关系抽取方法包括:对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域;应用全局参数更新策略更新所述伪可见域的元知识;根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识;根据所述元知识和所述更新的可迁移知识预测目标域的关系标签。2.如权利要求1所述的跨域小样本关系抽取方法,其特征是,所述对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域,包括:对多个源域进行域采样,并从中随机选择两个候选域;对两个所述候选域进行域采样,分别划分出一个伪可见域和一个伪不可见域。3.如权利要求1所述的跨域小样本关系抽取方法,其特征是,所述应用全局参数更新策略更新所述伪可见域的元知识,包括:对所述伪可见域和所述伪不可见域进行标签级元任务采样,构建标签级元任务,所述标签级元任务包括伪可见元任务和伪不可见元任务;根据所述伪可见元任务应用关系抽取模型对所述伪可见域的元知识进行更新。4.如权利要求3所述的跨域小样本关系抽取方法,其特征是,所述伪可见元任务包括支持集和查询集,所述根据所述伪可见元任务应用关系抽取模型对所述伪不可见域的元知识进行更新,包括:应用所述关系抽取模型中的编码器将所述伪可见元任务中的支持集实例和查询集实例映射到低维向量空间;应用所述关系抽取模型中的度量函数获取所述伪可见元任务中的支持集实例和查询集实例在低维向量空间的表示,预测所述伪可见元任务中的查询集实例的关系标签;根据预测的所述查询集实例的关系标签计算所述关系抽取模型的交叉熵损失函数;根据所述交叉熵损失函数对所述元知识进行更新。5.如权利要求1所述的跨域小样本关系抽取方法,其特征是,所述伪不可见元任务包括支持集和查询集,所述根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识,包括:根据更新后的所述元知识分为权重参数和偏差参数;基于前馈神经网络对所述权重参数和所述偏差参数进行迁移学习操作,获取伪不可见域的可迁移知识;根据更新后的所述元知识以及所述伪不可见域的可迁移知识计算关系抽取模型在伪不可见元任务上的泛化能力;根据所述泛化能力对所述可迁移知识进行更新。6.如权利要求5所述的跨域小样本关系抽取方法,其特征是,所述基于前馈神经网络对所述权重参数和所述偏差参数进行迁移学习操作,获取伪不可见域的可迁移知识,包括:根据所述权重参数和所述偏差参数应用以下关系式计算伪不可见域的可迁移知识θ
pu
;
其中,f
trans
(
·
)表示迁移元学习操作,
⊙
表示向量乘法,表示缩放参数,表示迁移参数。7.如权利要求1所述的跨域小样本关系抽取方法,其特征是,所述根据所述元知识和所述更新的可迁移知识预测目标域的关系标签,包括:根据所述元知识和所述更新的可迁移知识预测目标域的查询集实例对应的关系标签,满足以下关系式:其中,y
pred
是预测的关系标签,和分别表示测试元任务的支持实例和查询实例,表示对应的关系标签。8.一种跨域小样本关系抽取装置,其特征是,所述跨域小样本关系抽取装置包括:域采样单元,用于对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域;伪可见域更新单元,用于应用全局参数更新策略更新所述伪可见域的元知识;伪不可见域更新单元,用于根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识;标签预测单元,用于根据所述元知识和所述更新的可迁移知识预测目标域的关系标签。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
技术总结
本发明提供了一种跨域小样本关系抽取方法、装置及电子设备,方法包括:对多个源域进行域采样,分别划分出一个伪可见域和一个伪不可见域;应用全局参数更新策略更新所述伪可见域的元知识;根据所述伪不可见域和更新后的所述元知识进行迁移学习操作,获取更新的可迁移知识;根据所述元知识和所述更新的可迁移知识预测目标域的关系标签。通过以上方式,本发明能够适应源域和目标域的分布差异,提高提高对未见目标域的泛化能力。见目标域的泛化能力。见目标域的泛化能力。
技术研发人员:陈洪辉 王梦如 蔡飞 郑建明 张梦溪 郭昱普 邵太华 江苗 王祎童
受保护的技术使用者:中国人民解放军国防科技大学
技术研发日:2023.07.11
技术公布日:2023/10/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
