事件提取方法、装置、电子设备和存储介质
未命名
10-09
阅读:107
评论:0

1.本技术涉及数据处理技术领域,尤其涉及一种事件提取方法、装置、电子设备和存储介质。
背景技术:
2.目前,大多数现有的事件抽取工作需要人工预定义的事件模式作为前置信息,但是人工模板存在以下问题:费时费力,领域专家人工定义的事件模式数量和覆盖度有限,存在遗漏的事件和论元;迁移难,当事件抽取的领域和数据集变化时,需要重新人工定义模式。
3.基于此,采用自由事件提取(liberal event extraction,lee)解决上述问题,自动发现事件模式并同时提取事件。然而,自由事件提取存在以下问题缺点:严重依赖于语义分析工具和外部知识库,并需要手动规则消除噪声并构建多语言资源之间的对齐映射;只考虑内部事件参数对事件类型的影响,而不考虑触发器对参数的影响以及事件与事件连接的交互;模型中的模块以管道的形式连接,不同模块之间不存在反向信息传输,以共同更新训练过程中的参数。
4.因此,现有事件抽取方法存在事件抽取效率低的问题。
技术实现要素:
5.本技术提供一种事件提取方法、装置、电子设备和存储介质,用以解决事件抽取效率低的问题,通过基于提示学习直接生成事件的触发词和论元,无须外部知识库和人工规则,同时通过构建事件异构图强化事件内部和事件之间的信息交互,在不使用使用预定义事件模板的情况下,可以自动生成事件模式,提高了事件抽取的准确性和效率。
6.本技术提供一种事件提取方法,包括:
7.基于提示学习,确定候选触发词集合和论元集合;
8.基于所述候选触发词集合和所述论元集合,构建事件异构图;
9.对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;
10.基于所述事件模式进行事件抽取。
11.在一个实施例中,所述基于所述候选触发词集合和所述论元集合,构建事件异构图,包括:
12.将所述候选触发词集合中的各候选触发词和所述论元集合中的各论元,作为所述事件异构图的节点;
13.确定各节点的语义嵌入,以构建所述事件异构图。
14.在一个实施例中,所述确定各节点的语义嵌入,以构建所述事件异构图,包括:
15.确定所述各节点与其邻居节点的注意力系数;
16.对所述注意力系数进行归一化处理,以基于归一化处理后的注意力系数,确定所
述各节点的第一语义嵌入;
17.基于多头注意力和所述各节点的第一语义嵌入,确定所述各节点的第二语义嵌入;
18.基于所述各节点的第二语义嵌入,构建所述事件异构图。
19.在一个实施例中,所述基于提示学习,确定候选触发词集合和论元集合,包括:
20.基于所述提示学习,将原始输入文本转换为提示模板;
21.将所述提示模板输入预设的语言模型,获取所述预设的语言模型输出的候选触发词和候选论元,所述预设的语言模型是采用样本提示模板进行训练得到的;
22.基于所述候选触发词构建所述候选触发词集合,以及基于所述候选论元构建所述候选论元集合。
23.在一个实施例中,所述对所述事件异构图中的节点进行聚类,包括:
24.随机选取所述事件异构图中k个节点作为初始的聚类中心;
25.计算每个节点与各聚类中心之间的距离,将每个节点分配至与其距离最近的所述聚类中心,得到至少一个事件类型簇和至少一个论元类型簇。
26.在一个实施例中,所述对聚类后的聚类簇进行标签命名,包括:
27.若所述聚类簇为事件类型簇,则确定与所述事件类型簇距离最近的目标节点,将所述目标节点的节点文本作为所述事件类型簇的标签名;
28.若所述聚类簇为论元类型簇,则基于设定的标签名确定所述论元类型簇的标签名。
29.在一个实施例中,所述基于所述事件模式进行事件抽取,包括:
30.确定待抽取文本与所述事件模式的匹配结果;
31.基于所述匹配结果对所述待抽取文本进行事件抽取。
32.本技术还提出一种事件提取装置,包括:
33.集合确定模块,用于基于提示学习,确定候选触发词集合和论元集合;
34.事件异构图构建模块,用于基于所述候选触发词集合和所述论元集合,构建事件异构图;
35.事件模式生成模块,用于对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;
36.事件抽取模块,用于基于所述事件模式进行事件抽取。
37.本技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述事件提取方法。
38.本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述事件提取方法。
39.本技术提供的事件提取方法、装置、电子设备和存储介质,通过基于提示学习,确定候选触发词集合和论元集合;基于所述候选触发词集合和所述论元集合,构建事件异构图;对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;基于所述事件模式进行事件抽取。本技术基于提示学习直接生成事件的触发词和论元,无须外部知识库和人工规则,同时通过构建事件异构图强化事件内部和事件之间的信
息交互,在不使用使用预定义事件模板的情况下,可以自动生成事件模式,提高了事件抽取的准确性和效率。
附图说明
40.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本技术提供的事件提取方法的流程示意图之一;
42.图2是本技术提供的事件提取方法的流程示意图之二;
43.图3是本技术提供的事件提取装置的结构示意图;
44.图4是本技术提供的电子设备的结构示意图。
具体实施方式
45.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术中的附图,对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
46.下面结合图1-图4描述本技术的事件提取方法、装置、电子设备和存储介质。
47.具体地,本技术提供了一种事件提取方法,参照图1,图1是本技术提供的事件提取方法的流程示意图之一。
48.本技术实施例提供的事件提取方法,包括:
49.步骤100,基于提示学习,确定候选触发词集合和论元集合;
50.需要说明的是,事件是言语和文本的重要组成部分,描述了实体状态的变化;事件提取旨在识别和分类事件,并根据事件模式找到其参与者。
51.组成事件的元素包括事件触发词、事件类型、事件论元及论元角色,其中,事件触发词是事件中最具代表性的词语或短语,通常为动词或名词,事件与事件触发词之间是一一对应的;事件类型是发生事件的类别,描述事件的性质;事件论元是事件的参与者,主要由实体、值、时间组成,其中,值是一种非实体的事件参与者;论元角色是事件论元在事件中充当的角色。
52.由于依赖语义解析工具和额外的知识库(需要人工制定)多种的规则来对齐语义分析的结果和知识库中的资源,非常繁琐的同时很难迁移到新的领域,
53.本技术实施例采用提示学习方法直接从目标句子中生成输出结果,无须使用额外的知识库。具体地,基于提示学习方法,将原始输入文本转换为提示模板,该提示模板包含初始输入、提示标识token和未填充的插槽,然后将提示模板输入至预设的语言模型,通过预设的语言模型填充提示模板中未填充的插槽,以获得最终字符串,最后输出候选触发词和候选论元,基于输出的候选触发词构建候选触发词集合,以及基于输出的候选论元构建候选论元集合。
54.预设的语言模型是采用样本提示模板进行训练得到的,其中,提示模板是文本字
符串,包括未填充的插槽,训练语言模型的目的是为插槽填充数据。
55.可选地,提示模板是预先构建的,例如,假设输入句子为x,使用提示前缀的方式构建的提示模板为:
56.prompt(x)是x相关的语义提示,y是生成的结果。如表1中的例子,该句子存在触发词“启程”触发的运输事件,该事件包含事件论元“熊猫”、“动物园”等。将该句子中的名词和动词(因为事件触发多为名词和动词)和实体(因为事件论元都是实体)添加到提示prompt(x)中,生成由候选触发词和论元组成的半结构化文本y。另外,为增强提示模板的效果,在提示模板中添加20个虚拟标记soft token,其中,该虚拟标记与实际单词具有相同的维度。
57.表1
58.x(输入)熊猫启程离开动物园提示(x)启程、熊猫、动物园、soft token*20y“启程”事件包含熊猫、动物园
59.步骤200,基于所述候选触发词集合和所述论元集合,构建事件异构图;
60.需要说明的是,事件异构图用于表示学习获取事件和论元的语义嵌入,同时,通过事件异构图可以增强事件内部和外部事件之间的信息交互。
61.参考图2,对于每个输入句子x,通过提示学习方法生成两个集合:候选触发词集合trigs={t1,t2,...,tn}和候选论元集合args={a1,a2,...,am},然后利用候选触发词集合和候选论元集合,构建事件异构图g_event,其中,事件异构图中包括两种节点:候选触发词节点(图2中的黑点)和论元节点(图2中的白点);同时事件异构图中包括两种关系边:事件内部的触发词-论元边(图2中的实线)和事件外部的事件-事件边(图2中的虚线),即候选触发词节点之间的边。
62.步骤300,对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;
63.采用聚类算法对事件异构图中的节点进行聚类,得到不同类型的聚类簇,然后对每个聚类簇进行标签命名,从而生成事件模式。例如,对各应用领域中出现的高频词组、关键名词进行聚类处理,根据聚类结果对距离相近的近似词进行标签命名,并参考相关领域知识定义的事件,生成事件模式。
64.可选地,事件模式包括事件类型和论元,例如,对于购买类型的事件,包含的论元有“买方”、“卖方”、“金额”、“时间”、“地点”等,该事件对应的事件模式为:《购买事件,“买方”、“卖方”、“金额”、“时间”、“地点》。
65.步骤400,基于所述事件模式进行事件抽取。
66.事件抽取是一种面向非结构化文本或半结构化数据的信息抽取任务,是指从自然语言文本中抽取指定类型的事件以及相关实体信息,并形成结构化数据输出的文本处理技术。
67.事件抽取可应用于各种应用领域,例如,在安全领域,对全球危机进行实时新闻事件提取;在智能交通领域,利用社交媒体提取实时驾驶信息的系统,为驾驶员提供交通拥堵、天气预报等重要事件;在法律领域,从法院判决中提取事件可以通过代表主要的法律事件,以及相关的时间信息,提供整个案件发生的可视化概述。
68.事件抽取可分解为4个子任务:触发词识别、事件类型分类、论元识别和角色分类
任务,其中,触发词识别和事件类型分类可合并成事件识别任务,事件识别任务用于判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务;论元识别和角色分类可合并成论元角色分类任务,角色分类任务用于判断句子中任意一对触发词和实体之间的角色关系,是一个基于词对的多分类任务。
69.在进行事件抽取时,首先确定待抽取文本与事件模式的匹配结果,然后基于匹配结果对待抽取文本进行事件抽取。例如,从事件模式中获取事件类型和事件论元,然后将事件类型和事件论元与待抽取文本进行匹配,若匹配成功,则进行事件提取。
70.本技术实施例提供的事件提取方法,通过基于提示学习,确定候选触发词集合和论元集合;基于候选触发词集合和论元集合,构建事件异构图;对事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;基于事件模式进行事件抽取。本技术基于提示学习直接生成事件的触发词和论元,无须外部知识库和人工规则,同时通过构建事件异构图强化事件内部和事件之间的信息交互,在不使用使用预定义事件模板的情况下,可以自动生成事件模式,提高了事件抽取的准确性和效率。
71.在一个实施例中,所述基于所述候选触发词集合和所述论元集合,构建事件异构图,包括:
72.步骤210,将所述候选触发词集合中的各候选触发词和所述论元集合中的各论元,作为所述事件异构图的节点;
73.步骤220,确定各节点的语义嵌入,以构建所述事件异构图。
74.在确定候选触发词集合和论元集合后,将候选触发词集合中的各候选触发词和论元集合中的各论元,作为事件异构图的节点,如候选触发词节点和论元节点;然后确定各节点的语义嵌入,以构建事件异构图。具体地,确定各节点与其邻居节点的注意力系数;对注意力系数进行归一化处理,以基于归一化处理后的注意力系数,确定各节点的第一语义嵌入;基于多头注意力和各节点的第一语义嵌入,确定各节点的第二语义嵌入;基于各节点的第二语义嵌入,构建事件异构图。
75.例如,使用图形注意力网络(graph attention network,gat)方式,计算候选触发词和论元的语义嵌入,并获取事件内部和事件之间的特征交互。若事件异构图中的节点i存在邻居节点j,首先将节点i和节点j的词嵌入进行特征变换,然后计算两者之间的注意力系数e
ij
:
76.e
ij
=<w
ihi
,w
jhj
>,j∈ni[0077][0078]
wi∈wd,wj∈wd[0079]
其中,wi表示节点i对应类型的变换参数矩阵,wj表示节点j对应类型的变换参数矩阵,hi表示节点i的原始词嵌入向量,即初始语义嵌入,hj表示节点j的原始词嵌入向量,<
·
,
·
>表示向量的内积,ni表示节点i的邻居节点的集合,wd表示变换参数矩阵,w
trig
表示事件触发词的变换参数矩阵,w
arg
表示论元的变换参数矩阵,d表示邻居节点。
[0080]
进一步,使用softmax激活函数对节点i与其所有邻居节点的注意力系数进行归一化处理,得到:
[0081][0082]
其中,α
ij
表示归一化处理后的注意力系数,leakyrelu()表示激活函数,e
ij
表示节点i与邻居节点j的注意力系数,e
ik
表示节点i与邻居节点k的注意力系数,ni表示节点i的邻居节点的集合。
[0083]
通过使用leakyrelu()激活函数添加非线性特征,进行归一化处理,得到节点i与其所有邻居节点之间的注意力系数。
[0084]
进一步,将每个节点的邻居节点特征加权求和,得到该节点的新语义嵌入。
[0085][0086]
其中,hi'表示节点i的新语义嵌入,σ表示激活函数leakyrelu(),ni表示节点i的邻居节点的集合,α
ij
表示归一化处理后的注意力系数,w
lj
表示第l
th
个头的变换参数矩阵,hj表示节点j的原始词嵌入向量。
[0087]
进一步,通过多头注意力(multihead attention)扩展节点i的新语义嵌hi',将生成的多个新特征进行平均,通过事件异构图上的图注意力,可以获得引入特征交互的候选触发词和候选论元的语义嵌入。
[0088][0089]
其中,hi'表示对hi'进行优化后的语义嵌入,k表示注意力头的数量,σ表示激活函数leakyrelu(),ni表示节点i的邻居节点的集合,α
ij
表示归一化处理后的注意力系数,w
lj
表示第l
th
个头的变换参数矩阵,hj表示节点j的原始词嵌入向量。
[0090]
在确定各节点的语义嵌入后,基于各节点的语义嵌入确定节点之间的连接关系,然后基于该连接关系构建事件异构图。例如,假设节点i与其邻居节点j可进行语义嵌入,则连接节点i和节点j。
[0091]
本技术实施例通过以候选触发词集合中的各候选触发词节点和论元集合中的各论元节点,构建事件异构图,以表示学习获取事件和论元的语义嵌入,同时,通过事件异构图可以增强事件内部和外部事件之间的信息交互,从而提高事件提取的效率和准确性。
[0092]
在一个实施例中,所述对所述事件异构图中的节点进行聚类,包括:
[0093]
步骤310,随机选取所述事件异构图中k个节点作为初始的聚类中心;
[0094]
步骤320,计算每个节点与各聚类中心之间的距离,将每个节点分配至与其距离最近的所述聚类中心,得到至少一个事件类型簇和至少一个论元类型簇。
[0095]
本技术实施例采用k均值聚类算法对事件异构图中的节点进行聚类,可选地,还可以采用其他聚类算法,如k-mediods算法和clarans算法。
[0096]
具体地,将事件异构图中所有节点分为k组,随机选取k个节点作为初始的聚类中心,然后计算每个节点与各个聚类中心之间的距离,将每个节点分配至与其距离最近的聚类中心,其中,分配给聚类中心的节点以及聚类中心代表一个聚类,每分配一个样本节点,聚类的聚类中心会根据聚类中现有的节点被重新计算,上述过程将不断重复直到满足终止条件,最后聚类得到k
trig
个事件类型簇和k
arg
个论元类型簇。可选地,终止条件可以是没有(或最小数目)节点被重新分配给不同的聚类,或者没有(或最小数目)聚类中心再发生变
化,误差平方和局部最小。
[0097]
例如,对于节点i(假设i是候选触发词),基于节点i到每个簇的距离计算节点i属于各聚类的概率。
[0098][0099]
其中,dist()表示欧式距离,cj表示第j个簇的中心,c
t
表示第t个簇的中心,k
trig
表示事件类型簇。
[0100]
可选地,在选取k
trig
值和k
arg
值时,有两种方式:选取和公开数据集中相同的标签数量;自由探索事件类型的数量和论元的数量。其中,第一种方式旨在计算的方法有监督训练的情况,将聚类后的结果映射到已有标签,而第二种方式旨在发现更多的事件类型和论元类型,通过轮廓系数(silhouette coefficient)确定最优的选择。
[0101]
本技术实施例通过k均值聚类算法对事件异构图中的节点进行聚类,得到不同的事件类型簇和论元类型簇,基于此,便于生成事件模式,提高事件抽取的效率。
[0102]
在一个实施例中,所述对聚类后的聚类簇进行标签命名,包括:
[0103]
步骤330,若所述聚类簇为事件类型簇,则确定与所述事件类型簇距离最近的目标节点,将所述目标节点的节点文本作为所述事件类型簇的标签名;
[0104]
步骤340,若所述聚类簇为论元类型簇,则基于设定的标签名确定所述论元类型簇的标签名。
[0105]
对于候选触发词的聚类结果,即如果聚类簇为事件类型簇,则选择最靠近事件类型簇中目标节点的节点文本作为该事件类型簇的标签名。对于候选论元的聚类结果,即聚类簇为论元类型簇,由于实体文本多样性较大,因此基于设定的标签名确定论元类型簇的标签名,例如,使用人工方法进行标签命名。
[0106]
对于每个事件类型,寻找在事件图中与其存在边的所有论元类型。如果两者的注意力系数大于阈值θ,将其加入到的事件模式中。
[0107]
本技术实施例通过不同的聚类簇,采用不同的标签命名方式,如此,提高标签命名的准确性。
[0108]
为了进一步对本技术提出的事件提取方法进行解析说明,参考图2,本技术实施例提出了一种基于提示学习的联合自由事件提取与事件模式归纳的图模型方法(prompt-based graph model for liberal event extraction,pglee),以实现端到端的自由事件抽取。
[0109]
例如,输入句子,使用基于提示学习方法生成候选触发词和候选论元,而不需要外部知识库;然后基于候选触发词和候选论元,构建事件异构图以增强事件内部和外部事件之间的信息交互,并通过图表示学习算法,获取事件内部和外部事件之间的语义嵌入;最后使用聚类算法和标签命名生成事件模式并执行事件提取。基于提示的图模型通过联合训练过程同步更新模型中的参数,实现了反向信息传递。
[0110]
例如,参考表2自由事件抽取的过程中引入了新的事件模式s。
[0111]
表2
[0112][0113]
本技术实施例提出了一种端到端的自由事件抽取模型,使用提示生成模型直接生成事件的触发词和论元,无须外部知识库和人工规则;通过构建事件异构图强化事件内部和事件之间的信息交互,并通过图表示学习算法,获取事件内部和外部事件之间的语义嵌入,最后使用聚类算法和标签命名生成事件模式并执行事件提取,基于此,在不使用使用预定义事件模板的情况下,自动生成事件模式,减少了人工成本,简化了事件抽取操作,从而提高了事件抽取的效率和准确性。
[0114]
图3是本技术提供的事件提取装置的结构示意图,参照图3,本技术的实施例提供了一种事件提取装置,包括集合确定模块301,事件异构图构建模块302、事件模式生成模块303和事件抽取模块304。
[0115]
集合确定模块301,用于基于提示学习,确定候选触发词集合和论元集合;
[0116]
事件异构图构建模块302,用于基于所述候选触发词集合和所述论元集合,构建事件异构图;
[0117]
事件模式生成模块303,用于对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;
[0118]
事件抽取模块304,用于基于所述事件模式进行事件抽取。
[0119]
本技术实施例提供的事件提取装置,通过基于提示学习,确定候选触发词集合和论元集合;基于候选触发词集合和论元集合,构建事件异构图;对事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;基于事件模式进行事件抽取。本技术基于提示学习直接生成事件的触发词和论元,无须外部知识库和人工规则,同时通过构建事件异构图强化事件内部和事件之间的信息交互,在不使用使用预定义事件模板的情况下,可以自动生成事件模式,提高了事件抽取的准确性和效率。
[0120]
在一个实施例中,事件异构图构建模块302,具体用于:
[0121]
将所述候选触发词集合中的各候选触发词和所述论元集合中的各论元,作为所述事件异构图的节点;
[0122]
确定各节点的语义嵌入,以构建所述事件异构图。
[0123]
在一个实施例中,事件异构图构建模块302,具体用于:
[0124]
确定所述各节点与其邻居节点的注意力系数;
[0125]
对所述注意力系数进行归一化处理,以基于归一化处理后的注意力系数,确定所述各节点的第一语义嵌入;
[0126]
基于多头注意力和所述各节点的第一语义嵌入,确定所述各节点的第二语义嵌入;
[0127]
基于所述各节点的第二语义嵌入,构建所述事件异构图。
[0128]
在一个实施例中,集合确定模块301,具体用于:
[0129]
基于所述提示学习,将原始输入文本转换为提示模板;
[0130]
将所述提示模板输入预设的语言模型,获取所述预设的语言模型输出的候选触发词和候选论元,所述预设的语言模型是采用样本提示模板进行训练得到的;
[0131]
基于所述候选触发词构建所述候选触发词集合,以及基于所述候选论元构建所述候选论元集合。
[0132]
在一个实施例中,事件模式生成模块303,具体用于:
[0133]
随机选取所述事件异构图中k个节点作为初始的聚类中心;
[0134]
计算每个节点与各聚类中心之间的距离,将每个节点分配至与其距离最近的所述聚类中心,得到至少一个事件类型簇和至少一个论元类型簇。
[0135]
在一个实施例中,事件模式生成模块303,具体用于:
[0136]
若所述聚类簇为事件类型簇,则确定与所述事件类型簇距离最近的目标节点,将所述目标节点的节点文本作为所述事件类型簇的标签名;
[0137]
若所述聚类簇为论元类型簇,则基于设定的标签名确定所述论元类型簇的标签名。
[0138]
在一个实施例中,事件抽取模块304,具体用于:
[0139]
确定待抽取文本与所述事件模式的匹配结果;
[0140]
基于所述匹配结果对所述待抽取文本进行事件抽取。
[0141]
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(communicationsinterface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行事件提取方法,该方法包括:
[0142]
基于提示学习,确定候选触发词集合和论元集合;
[0143]
基于所述候选触发词集合和所述论元集合,构建事件异构图;
[0144]
对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;
[0145]
基于所述事件模式进行事件抽取。
[0146]
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0147]
另一方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的事件提取方法,该方法包括:
[0148]
基于提示学习,确定候选触发词集合和论元集合;
[0149]
基于所述候选触发词集合和所述论元集合,构建事件异构图;
[0150]
对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生
成事件模式;
[0151]
基于所述事件模式进行事件抽取。
[0152]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0153]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0154]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:
1.一种事件提取方法,其特征在于,包括:基于提示学习,确定候选触发词集合和论元集合;基于所述候选触发词集合和所述论元集合,构建事件异构图;对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;基于所述事件模式进行事件抽取。2.根据权利要求1所述的事件提取方法,其特征在于,所述基于所述候选触发词集合和所述论元集合,构建事件异构图,包括:将所述候选触发词集合中的各候选触发词和所述论元集合中的各论元,作为所述事件异构图的节点;确定各节点的语义嵌入,以构建所述事件异构图。3.根据权利要求2所述的事件提取方法,其特征在于,所述确定各节点的语义嵌入,以构建所述事件异构图,包括:确定所述各节点与其邻居节点的注意力系数;对所述注意力系数进行归一化处理,以基于归一化处理后的注意力系数,确定所述各节点的第一语义嵌入;基于多头注意力和所述各节点的第一语义嵌入,确定所述各节点的第二语义嵌入;基于所述各节点的第二语义嵌入,构建所述事件异构图。4.根据权利要求1所述的事件提取方法,其特征在于,所述基于提示学习,确定候选触发词集合和论元集合,包括:基于所述提示学习,将原始输入文本转换为提示模板;将所述提示模板输入预设的语言模型,获取所述预设的语言模型输出的候选触发词和候选论元,所述预设的语言模型是采用样本提示模板进行训练得到的;基于所述候选触发词构建所述候选触发词集合,以及基于所述候选论元构建所述候选论元集合。5.根据权利要求1所述的事件提取方法,其特征在于,所述对所述事件异构图中的节点进行聚类,包括:随机选取所述事件异构图中k个节点作为初始的聚类中心;计算每个节点与各聚类中心之间的距离,将每个节点分配至与其距离最近的所述聚类中心,得到至少一个事件类型簇和至少一个论元类型簇。6.根据权利要求5所述的事件提取方法,其特征在于,所述对聚类后的聚类簇进行标签命名,包括:若所述聚类簇为事件类型簇,则确定与所述事件类型簇距离最近的目标节点,将所述目标节点的节点文本作为所述事件类型簇的标签名;若所述聚类簇为论元类型簇,则基于设定的标签名确定所述论元类型簇的标签名。7.根据权利要求1所述的事件提取方法,其特征在于,所述基于所述事件模式进行事件抽取,包括:确定待抽取文本与所述事件模式的匹配结果;基于所述匹配结果对所述待抽取文本进行事件抽取。
8.一种事件提取装置,其特征在于,包括:集合确定模块,用于基于提示学习,确定候选触发词集合和论元集合;事件异构图构建模块,用于基于所述候选触发词集合和所述论元集合,构建事件异构图;事件模式生成模块,用于对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;事件抽取模块,用于基于所述事件模式进行事件抽取。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述事件提取方法。10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述事件提取方法。
技术总结
本申请涉及数据处理技术领域,提供一种事件提取方法、装置、电子设备和存储介质,该方法包括:基于提示学习,确定候选触发词集合和论元集合;基于所述候选触发词集合和所述论元集合,构建事件异构图;对所述事件异构图中的节点进行聚类,并对聚类后的聚类簇进行标签命名,以生成事件模式;基于所述事件模式进行事件抽取。本申请基于提示学习直接生成事件的触发词和论元,无须外部知识库和人工规则,同时通过构建事件异构图强化事件内部和事件之间的信息交互,在不使用使用预定义事件模板的情况下,可以自动生成事件模式,提高了事件抽取的准确性和效率。的准确性和效率。的准确性和效率。
技术研发人员:赵文 李皓辰 王宇 温立强
受保护的技术使用者:北京大学
技术研发日:2023.05.29
技术公布日:2023/10/8

版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种风力发电机塔筒视觉检测机构的制作方法 下一篇:一种辅助红外测温装置的制作方法