网络信息的关系抽取方法、关系抽取装置及介质与流程

未命名 08-13 阅读:67 评论:0


1.本技术涉及网络安全技术领域,尤其涉及一种网络信息的关系抽取方法、关系抽取装置及介质。


背景技术:

2.网络信息是由实体和关系构成的非结构化数据,一般通过深度学习方法进行分析,但是对网络信息进行关系抽取存在数据量匮乏,标注成本高等特点。实际应用场景下,在数据匮乏的环境下训练出来的模型往往达不到预期的标准。
3.相关技术下,采用远程监督的方法来自动获得大量带标签的训练数据,可以为有监督的关系抽取模型提供大量的训练语料,提高模型的分类准确率,但是远程监督获取的样本数据通常存在类型分布不均的问题,即关系类型分布的频率通常服从长尾分布,并且存在许多标注错误的样本,这些都会使模型抽取性能下降。这些都影响了网络安全人员对网络信息的分析。


技术实现要素:

4.本技术实施例提供了一种网络信息的关系抽取方法、关系抽取装置及介质,提升了在网络信息的小样本场景下的关系抽取性能。
5.第一方面,本技术实施例提供了一种网络信息的关系抽取方法,包括:获取网络信息的样本实例,所述网络信息的每个所述样本实例被标注出实体和所述实体对应的实体关系;按照所述实体关系的类别对所述样本实例进行小样本抽取,得到n个支持集和n个查询集,所述支持集中包括k个所述样本实例,所述查询集包括q个所述样本实例,所述n、k和q均为正整数;通过所述支持集和所述查询集对关系抽取模型进行训练;利用经过训练的关系抽取模型对网络信息的数据进行关系抽取;其中,所述关系抽取模型包括特征抽取模块和标签预测模块;所述特征抽取模块用于对输入的所述样本实例和关系描述文本进行预训练,通过特征级注意力机制对所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量计算注意力权重,然后通过实例级注意力机制调整所述注意力权重;所述标签预测模块用于计算通过特征级注意力机制输出的局部特征向量和所述关系描述文本的全局特征向量的第一实例级原型点,以及计算通过实例级注意力机制调整后输出的特征向量的第二实例级原型点,还用于拼接所述第一实例级原型点和所述第二实例级原型点得到混合原型网络,所述混合原型网络用于根据所述查询集的所述样本实例计算到各个原型点的距离,以得到预测的关系分类结果。
6.在一些实施例中,所述按照所述实体关系的类别对所述样本实例进行小样本抽取,得到n个支持集和n个查询集,包括:
创建关于所述实体关系的类别的元任务;随机选择n个所述实体关系的类别,并从每个类别中随机选取k个所述样本实例分别构建所述元任务的支持集,再从每个类别中随机选取q个所述样本实例分别构建所述元任务的查询集。
7.在一些实施例中,所述预训练包括:根据预设字向量表将输入的所述样本实例和关系描述文本进行转换,得到对应的字向量;根据所述样本实例和关系描述文本生成文本向量和位置向量;按照所述样本实例和关系描述文本的对应关系,将所述字向量、所述文本向量和所述位置向量进行加和,并将加和结果作为输入向量;将所述输入向量输入到bert模型进行预训练。
8.在一些实施例中,所述将所述输入向量输入到bert模型进行预训练,包括:通过自注意力机制对所述输入向量中每个单词进行注意力计算,得到每个单词与上下文中其他单词之间的相关性,并输出所述输入向量中每个单词的向量表征。
9.在一些实施例中,所述通过特征级注意力机制对所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量计算注意力权重,包括:通过预训练确定所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量;将所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量输入到特征级注意力模块,得到局部特征向量表示;其中,所述特征级注意力模块的注意力激活函数为softmax函数。
10.在一些实施例中,所述通过实例级注意力机制调整所述注意力权重,包括:将所述局部特征向量表示和所述支持集的样本实例的全局特征向量输入到实例级注意力模块,得到注意力权重调整后的局部特征向量表示;其中,所述实例级注意力模块的注意力激活函数为tanh函数。
11.在一些实施例中,所述第一实例级原型点和所述第二实例级原型点通过以下公式计算得到:其中,表示实例级原型点,表示维度为d的特征向量,表示实体关系对应的关系描述文本,i为正整数,表示第i个所述样本实例。
12.在一些实施例中,所述获取网络信息的样本实例,包括:获取网络信息的原始数据;对所述原始数据进行文本预处理后,通过预设的标注工具标注出实体、实体关系和对应的关系描述文本,和/或,通过预设的实体类型定义表和关系类型定义表标注出实体、实体关系和对应的关系描述文本;其中,所述实体类型定义表存储有实体名词与实体类型的对应关系,所述关系类型定义表存储有关系名词与关系类型、关系描述文本的对应关系。
13.第二方面,本技术实施例提供了一种网络信息的关系抽取装置,包括至少一个处理器和用于与所述至少一个处理器通信连接的存储器;所述存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的关系抽取方法。
14.第三方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如第一方面所述的关系抽取方法。
15.本技术实施例提供的网络信息的关系抽取方法、关系抽取装置及介质,至少具有如下有益效果:将网络信息的样本实例按照小样本方式进行抽取,得到n个支持集和n个查询集,在训练过程中加入关系描述文本,利用预训练语言模型和多层注意力机制在特征提取模块获得更加丰富的语义信息,通过混合原型网络对数据进行标签预测,其中多层注意力机制采用特征级注意力机制和实例级注意力机制结合,在混合原型网络中,利用关系描述文本获得查询集的第一实例级原型点和支持集的第二实例级原型点,通过拼接获得最终的混合原型网络,即在传统原型网络的基础上引入两个维度的特征信息和关系描述语义提高模型的分类性能和泛化能力,最后得到训练后的关系抽取模型,该模型将关系描述文本和查询集的实体特征加入支持集的训练过程中,突出语句中的重要的语义特征,增强模型的准确性和鲁棒性。
附图说明
16.图1是本技术一个实施例提供的网络信息的关系抽取方法的整体流程图;图2是图1中步骤s102的具体方法流程图;图3是本技术一个实施例提供的预训练方法的整体流程图;图4是图3中步骤s304的具体方法流程图;图5是本技术另一个实施例提供的网络信息的关系抽取方法的整体流程图;图6是本技术另一个实施例提供的网络信息的关系抽取方法的整体流程图;图7是图1中步骤s101的具体方法流程图;图8是本技术一个示例提供的关系抽取模型的整体框架图;图9是本技术一个示例提供的多层注意力模块的示意图;图10是本技术一个实施例提供的网络信息的关系抽取装置的结构示意图。
具体实施方式
17.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
18.近年来,随着互联网应用规模不断扩大,漏洞数量呈爆发式增长。以高级持续性攻击(advanced persistent threat,apt)为代表的新型威胁不断涌现,网络攻击方式越来越复杂、具有针对性,攻击成本不断下降,攻击手段也日益精进,关键的信息资产面临日益严峻的网络攻击。网络靶场作为支撑网络攻防演练、网络安全技术评测、网络安全人培养和网络新技术验证重大基础设施,受到高度重视。在这种背景下,对网络信息的分析利用变得越
来越普及。通过大数据从各种来源收集、分析和处理的有关网络威胁的信息,这些信息旨在帮助网络安全人员了解威胁的本质、来源、目标和方法,并提供针对这些威胁的预警、应对和缓解措施。然而,机器往往无法对这类非结构化的文本数据进行很好的分析以获得有用的信息。并且随着现代网络安全防护对网络信息需求提高,依靠传统的提取方式已经无法满足这种需求。因此,如何从非结构化数据中获取结构化信息已成为当前研究的重点。
19.但是现有的深度学习方法需要大规模的监督训练数据,而网络信息进行关系抽取任务的训练数据存在数据量匮乏,标注成本高等特点。实际应用场景下,在数据匮乏的环境下训练出来的模型往往达不到预期的标准,为了解决数据匮乏的问题,研究人员开始采用远程监督的方法来自动获得大量带标签的训练数据。通过远程监督的手段可以为有监督的关系抽取模型提供大量的训练语料,提高模型的分类准确率,但是远程监督获取的样本数据通常存在类型分布不均的问题,并且存在许多标注错误的样本,这些都会使模型抽取性能下降。因为在实际应用环境中,关系类型分布的频率通常服从长尾分布,所以不可避免的会存在样本不足的类别。
20.由于缺乏大量标注的语料数据集,且人工标记的成本高,如何在小样本的场景下提高关系抽取任务模型的性能,是当前领域一个备受关注的问题。
21.为了解决上述问题,本实施例提供了一种网络信息的关系抽取方法、关系抽取装置及介质,将网络信息的样本实例按照小样本方式进行抽取,得到n个支持集和n个查询集,在训练过程中加入关系描述文本,利用预训练语言模型和多层注意力机制在特征提取模块获得更加丰富的语义信息,通过混合原型网络对数据进行标签预测,其中多层注意力机制采用特征级注意力机制和实例级注意力机制结合,在混合原型网络中,利用关系描述文本获得查询集的第一实例级原型点和支持集的第二实例级原型点,通过拼接获得最终的混合原型网络,即在传统原型网络的基础上引入两个维度的特征信息和关系描述语义提高模型的分类性能和泛化能力,最后得到训练后的关系抽取模型,该模型将关系描述文本和查询集的实体特征加入支持集的训练过程中,突出语句中的重要的语义特征,增强模型的准确性和鲁棒性。
22.参照图1,图1是本技术实施例提供的一种关系抽取方法,该网络信息的关系抽取方法包括但不限于以下步骤s101至步骤s104。
23.步骤s101,获取网络信息的样本实例;需要说明的是,网络信息的每个样本实例被标注出实体和实体对应的实体关系。
24.在一些实施例中,获取网络信息的样本实例,其中,网络信息中的样本实例均被标注出实体和实体对应的实体关系,便于后续模型的训练。
25.步骤s102,按照实体关系的类别对样本实例进行小样本抽取,得到n个支持集和n个查询集;需要说明的是,支持集中包括k个样本实例,查询集包括q个样本实例,n、k和q均为正整数。
26.在一些实施例中,由于命名实体识别数据集匮乏,难以获取较为合适的训练数据。为了更好的模拟实际应用场景,本实施例通过n-way k-shot方法对样本实例进行小样本抽取,按照实体关系的类别对样本跟实例进行采样,得到n个支持集和n个查询集,从而便于后续对支持集和查询集的预测,提高模型的分类性能和泛化能力。
27.步骤s103,通过支持集和查询集对关系抽取模型进行训练;在一些实施例中,在模型测试阶段,通过支持集和查询集对关系抽取模型进行训练,训练过程需要关系抽取模型从n
×
k个数据中学习这n个类别样本的关系辨别,从而实现对支持集和查询集的实体关系的抽取,提高关系抽取模型的泛化能力和分类能力。
28.步骤s104,利用经过训练的关系抽取模型对网络信息的数据进行关系抽取。
29.在一些实施例中,利用经过训练的关系抽取模型对网络信息的数据进行关系抽取,从而实现对网络信息中实体以及实体关系的准确提取,提高关系抽取模型对网络信息的数据的关系抽取能力。
30.需要说明的是,关系抽取模型包括特征抽取模块和标签预测模块;特征抽取模块用于对输入的样本实例和关系描述文本进行预训练,通过特征级注意力机制对支持集的样本实例的局部特征向量和关系描述文本的局部特征向量计算注意力权重,然后通过实例级注意力机制调整所述注意力权重;标签预测模块用于计算通过特征级注意力机制输出的局部特征向量和关系描述文本的全局特征向量的第一实例级原型点,以及计算通过实例级注意力机制调整后输出的特征向量的第二实例级原型点,还用于拼接第一实例级原型点和第二实例级原型点得到混合原型网络,混合原型网络用于根据查询集的样本实例计算到各个原型点的距离,以得到预测的关系分类结果。
31.在一些实施例中,本实施例采用混合原型网络来代替传统的原型网络基线,过去的原型网络模型中,并不会充分利用关系文本进行训练,在生成类原型时仅仅考虑支持集数据,而本实施例的模型将在训练过程中加入关系文本特征,用于提升模型的性能。
32.参照图2,图2是图1中步骤s102的具体方法流程图,是对步骤s102的进一步说明,步骤s102包括但不限于步骤s201至步骤s202。
33.步骤s201,创建关于实体关系的类别的元任务;步骤s202,随机选择n个实体关系的类别,并从每个类别中随机选取k个样本实例分别构建元任务的支持集,再从每个类别中随机选取q个样本实例分别构建元任务的查询集。
34.在一些实施例中,在通过n-way k-shot方法对样本实例进行小样本抽取的过程中,需要将训练过程分解为若干个元任务,创建关于实体关系的类别的元任务,其中,每个元任务代表小样本采样的片段,之后,随机选择n个实体关系类别,并从每个类别中随机选取k个样本实例分别创建元任务的支持集,再从每个类别中随机选取q个样本实例分别构建元任务的查询集,从而便于后续对支持集和查询集的预测,提高模型的分类性能和泛化能力。
35.需要说明的是,在每个元任务t中,模型利用随机采样的方式在样本实例中随机选择n个类别,并在每个类别中随机采用k+q个样本实例。其中,n
×
k个样本组成了支持集s,而剩余n
×
q个样本组成查询集y。对于小样本关系抽取任务,n一般选取5或10,而k一般不大于5。在一个n-way k-shot子任务中,模型利用支持集s训练学习关系类别特征,然后预测查询样例y的类别标签。模型测试阶段采用相同的方法,在测试集中构建相同的子任务进行测试。
36.参照图3,图3是本技术实施例提供的预训练的方法流程图,该预训练方法包括但
不限于以下步骤s301至步骤s304。
37.步骤s301,根据预设字向量表将输入的样本实例和关系描述文本进行转换,得到对应的字向量;在一些实施例中,根据预设字向量表将输入的样本实例和关系描述文本进行转换,将样本实例和关系描述文本中的每个字转换为一维向量,得到对应的字向量,从而降低计算的复杂程度。
38.步骤s302,根据样本实例和关系描述文本生成文本向量和位置向量;在一些实施例中,对样本实例和关系描述文本进行分词操作,得到多个单词序列,之后对每个单词序列在预设的字典中查找对应的单词向量,得到与样本实例和关系描述文本对应位置向量,其中,位置向量用于表征样本实例和关系描述文本在句子中的位置编码向量,用于区分不同位置上的相同单词,再将所有单词向量拼接起来形成样本实例和关系描述文本整个句子的向量表示,生成文本向量,从而能够精准地捕捉到单词在句子中的位置信息,更好地处理自然语言中存在的歧义和多义性问题。
39.步骤s303,按照样本实例和关系描述文本的对应关系,将字向量、文本向量和位置向量进行加和,并将加和结果作为输入向量;在一些实施例中,按照样本实例和关系描述文本的对应关系,将字向量、文本向量和位置向量进行加和,并将加和结果作为输入向量,可以学习到样本实例和关系描述文本的上下文信息,并将这些信息编码为固定长度的向量表示。这些向量表示具有很强的泛化能力,可以在不同的自然语言处理任务中进行微调,从而大大提高了模型的性能。
40.需要说明的是,步骤s301至步骤s303的具体向量转换过程可以在bert(bidirectional encoder representation from transformers)模型中进行转换,也可以在预设的向量转换模块中进行转换,本实施例不做具体限制。
41.步骤s304,将输入向量输入到bert模型进行预训练。
42.在一些实施例中,为了让输出的特征向量适应当前任务特点,需要将输入向量输入到bert模型进行预训练,以提高bert模型的语言理解能力,实现对文本和实例的精准预测。
43.需要说明的是,位置向量对于关系抽取任务来说十分重要,同一对实体单词在不同的语句位置的场景下所蕴含的关系信息也不一致。位置信息pe计算公式如下所示:同的语句位置的场景下所蕴含的关系信息也不一致。位置信息pe计算公式如下所示:其中,表示位置,代表向量维度。bert在训练过程中采用的损失函数为负对数似然函数,具体的计算公式如下:其中,为输入,为输出,为模型参数。
44.参照图4,图4是图3中步骤s304的具体方法流程图,是对步骤s304的进一步说明,步骤s304包括但不限于步骤s401。
45.需要说明的是,在进行预训练的过程中采用了transform的编码器结构。
46.步骤s401,通过自注意力机制对输入向量中每个单词进行注意力计算,得到每个单词与上下文中其他单词之间的相关性,并输出输入向量中每个单词的向量表征。
47.在一些实施例中,通过自注意力机制对输入向量中每个单词进行注意力计算,以得到每个单词与上下文中其他单词之间的注意力权重,并输出输入向量中每个单词的向量表征,从而能够准确地表示单词之间的语义关联的重要性,避免了传统的循环神经网络中存在的梯度消失和爆炸问题。
48.需要说明的是,利用自注意力机制对输入向量中每个单词进行注意力计算,让模型获得每个单词与上下文中其他单词之间的注意力权重,来表示彼此之间语义关联的重要性。这种注意力权重的计算是通过将输入向量中每个单词向量进行线性变换得到的,然后通过softmax函数将这些向量相互关联。自注意力机制允许bert捕捉序列中的长距离依赖关系,同时避免了传统的循环神经网络中存在的梯度消失和爆炸问题。注意力计算公式如下所示:其中,,,均是输入字向量矩阵,为输入向量维度,为相似度计算方法,一般为矩阵乘积。自注意力机制会对序列中的每个词,计算其与句中其他词的相关性,并利用这些关系来调整每个词对于所需信息的重要性权重,而后对它们的向量表征求和。
49.值得注意的是,注意力机制(attention mechanism)模仿了人眼视觉聚焦的过程,人的眼睛在观察场景时视线会集中聚焦于重要信息,而忽略其他无用信息,并且本实施例设置了特征级与实例级的注意力模块结合自注意力机制,通过计算注意力权重,将特征向量的特征信息聚焦于关键语义信息上。
50.参照图5,图5是本技术另一实施例提供的一种关系抽取方法,该网络信息的关系抽取方法包括但不限于以下步骤s501至步骤s502。
51.步骤s501,通过预训练确定支持集的样本实例的局部特征向量和关系描述文本的局部特征向量;步骤s502,将支持集的样本实例的局部特征向量和关系描述文本的局部特征向量输入到特征级注意力模块,得到局部特征向量表示。
52.需要说明的是,特征级注意力模块的注意力激活函数为softmax函数。
53.在一些实施例中,由于关系抽取任务的特殊性,关系抽取模型需要充分利用现有数据中的关键特征进行训练。因此,本实施例首先通过预训练确定支持集的样本实例的局部特征向量和关系描述文本的局部特征向量,之后再将支持集的样本实例的局部特征向量和关系描述文本的局部特征向量输入到特征级注意力模块,得到局部特征向量表示,其中,特征级注意力机制其作用是对样本实例的局部特征向量和关系描述的局部特征向量通过注意力的计算,使生成的原型更具代表性。
54.需要说明的是,对于输入的样本实例和关系描述文本,取其经过预训练获得的长度为l(最大长度)的向量和,分别计算其每一个局部特征向量的注意力权重。计算公式如下:下:其中,为局部特征向量的注意力分数,为注意力分数经过softmax之后变为注
意力权重。
55.在一些实施例中,根据获得的注意力权重,来计算支持集实例的最终特征向量表示,通过特征级注意力机制,可以使得用于计算类原型的支持集实例的特征向量更多的考虑与关系描述文本具有关联性影响的特征,根据不同的实例与关系描述之间的局部特征向量的相似度来为它们分配权重,并取加权和来形成最终的局部特征向量表示。局部特征与关系描述的特征向量越相近获得的权重就越高,表明在该实例的局部特征向量中用于表示该关系的重要语义信息越多,该特征在生成类原型时也占有更大的比重,对于某一关系的支持集实例的特征向量由每个局部特征的注意力权重计算得到,计算方式如下公式所示:参照图6,图6是本技术另一实施例提供的一种关系抽取方法,该网络信息的关系抽取方法包括但不限于以下步骤s601。
56.步骤s601,将局部特征向量表示和支持集的样本实例的全局特征向量输入到实例级注意力模块,得到注意力权重调整后的局部特征向量表示。
57.需要说明的是,实例级注意力模块的注意力激活函数为tanh函数。
58.在一些实施例中,并非所有的支持集的样本实例在生成类原型时都应该占据同样的比重,一般的原型网络模型仅通过均值简单地计算类原型,这样无法突出数据中的有效特征。同时考虑网络信息数据集的特点,通过人工标注的数据很有可能会存在噪音的影响,而当数据噪音较大时会在生成类原型时会引起较大的偏差,对模型的训练结果产生巨大影响。因此,本实施例将局部特征向量表示和支持集的样本实例的全局特征向量输入到实例级注意力模块,通过注意力机制来获取支持集中与查询实例更加接近的句子,并在生成类原型时获得更高的权重,减少噪声对模型的影响,进一步提升模型的性能,实例级注意力权重的计算公式如下:重的计算公式如下:其中,为支持实例的全局特征。
59.需要说明的是,对于实例级注意力机制,选择tanh函数来代替softmax函数作为注意力的激活函数,tanh函数可以获得(-1,1)之间的激活值,让注意力的权重得到更好的发挥,为了减轻标注错误的支持集实例对模型的影响,tanh 函数可以通过给这些句子赋予负的权重来降低它们的重要性。
60.在一些实施例中,第一实例级原型点和第二实例级原型点通过以下公式计算得到:其中,表示实例级原型点(第一实例级原型点表示为和第二实例级原型点表示为),表示维度为d的特征向量,实体关系对应的实体s表示为,表示实体关系对应的关系描述文本。
61.在一些实施例中,本实施例采用标准欧式距离来获得查询实例的关系预测概率。而考虑到前文多层注意力机制对局部特征的提取,在训练的过程中,本实施例还会计算局部特征级的类原型,对于局部特征的编码,选择将bert编码器对句子编码的结果全部拼接起来,再通过注意力模块的计算获得最终支持集实例的所有局部特征向量表示和关系文本的局部特征向量表示,然后用同样的公式计算实例级的原型网络,通过拼接获得最终的混合原型网络。之后,通过分类结果和损失函数来更新参数和原型,最后,对于查询集的样本只需计算到各个原型中心的距离,即可做出分类结果的预测。原型网络模型的损失函数设计为如下公式所示:参照图7,图7是图1中步骤s101的具体方法流程图,是对步骤s101的进一步说明,步骤s101包括但不限于步骤s701至步骤s702。
62.步骤s701,获取网络信息的原始数据;步骤s702,对原始数据进行文本预处理后,通过预设的标注工具标注出实体、实体关系和对应的关系描述文本,和/或,通过预设的实体类型定义表和关系类型定义表标注出实体、实体关系和对应的关系描述文本;需要说明的是,实体类型定义表存储有实体名词与实体类型的对应关系,关系类型定义表存储有关系名词与关系类型、关系描述文本的对应关系。
63.在一些实施例中,在获取网络信息的样本实例的过程中,首先获取网络信息的原始数据,之后对原始数据进行文本预处理操作,从而降低数据噪声,加快模型训练和预测速度,在经过文本预处理之后,通过预设的标注工具标注出实体和对应的关系描述文本或者通过预设的实体类型定义表和关系类型定义表标注出实体、实体关系和对应的关系描述文本,从而便于后续提高模型的性能。
64.可以理解的是,预设的标注工具可以为doccano工具、label studio工具、annotate工具等等,通过标注工具标注的实体、实体关系以及关系描述文本的标注精度高,适用于训练小样本模型;通过实体类型定义表和关系类型定义表标注出来的实体数量多,这类数据用于后续提升模型的性能。
65.需要说明的是,对原始数据的文本预处理操作包括但不限于包括分词、词干提取、去除标点等等操作,从而减少数据中的噪声,并将文本转换为数值表示后可以更好地配合各种算法进行计算。
66.为了更加清楚地说明上述的网络信息的关系抽取方法,下面以具体示例进行说明。
67.示例一:参考图8,图8是本技术一个示例提供的关系抽取模型的整体框架图。
68.针对网络信息标签语料匮乏,模型特征学习不充分的问题,本示例提出了一种新的小样本网络信息关系抽取模型(frti)。该关系抽取模型基于元学习的框架,关系抽取模型分为编码层和原型网络层,融合了bert预训练语言模型和原型网络的技术,快速学习关系分类任务的度量空间,在特征提取的过程中,采用多层注意力机制,从特征级和实例级两个方面为原型网络模型计算注意力权重,通过计算查询实例和支持实例,以及关系描述与
支持实例之间的注意力关联,使模型学习更加丰富的语义特征并凸显关键语义特征,在特征提取之后,通过计算混合原型网络,在传统原型网络的基础上引入两个维度的特征信息和关系描述语义提高模型的分类性能和泛化能力。
69.参考图8,frti模型分为两个功能模块,特征提取模块和标签预测模块,特征提取采用bert预训练语言模型提取蕴含上下文语义信息的特征向量,通过多层注意力机制计算注意力关联权重,凸显特征向量中的关键语义,然后通过原型网络计算样本与关系原型的距离度量,获得样本的预测标签。
70.frti通过n-way k-shot方法对训练数据进行采样,将训练过程分解为若干个元任务 t,每个元任务代表小样本采样的片段。具体地,n-way k-shot表示每一个片段随机采样n个类别,每个类别采样k个标注样本。
71.在每个元任务t中,模型利用随机采样的方式在训练数据集中随机选择n个类别,并在每个类别中随机采用k + q个样本实例。其中,n
×
k个样本组成了支持集s,而剩余n
×
q个样本组成查询集。对于小样本关系抽取任务,n一般选取5或10,而k一般不大于5。在一个n-way k-shot子任务中,模型利用支持集s训练学习关系类别特征,然后预测查询样例y的类别标签。模型测试阶段采用相同的方法,在测试集中构建相同的子任务进行测试。
72.针对本发明的关系抽取任务而言具体的实施步骤为:步骤1:首先构建小样本学习n-way k-shot的元学习任务,在训练阶段,首先需要构建一个关系分类的元任务,随机选择训练集中的n个类别,并从每个类别中随机选取k个样本实例构建元任务的支持集;然后从抽取的n个类别中剩余的数据中随机采样q个样本实例构建模型的查询集,用于检验元任务中模型的分类能力。在模型测试阶段,以同样的方式从不包含在训练集中的新的关系类别中构建相同的元任务,以检测模型在新类别中的泛化能力,该任务构建方式要求模型从n
×
k个数据中学习这n个类别样本的关系辨别。
73.步骤2:将一句英文句子输入bert中,bert通过查询字向量表将文本中的每个字转换为一维向量,另外,融合文本向量和位置向量,将三者的加和作为模型的输入。为了让输出的特征向量适应当前任务特点,需要对输入进行编码训练。在编码训练过程中采用了transform的编码器结构,利用自注意力机制对输入句子中每个单词进行注意力计算,让模型获得每个单词与上下文中其他单词之间的注意力权重,来表示彼此之间语义关联的重要性。这种注意力权重的计算是通过将输入序列中每个单词向量进行线性变换得到的,然后通过softmax函数将这些向量相互关联。自注意力机制允许bert捕捉序列中的长距离依赖关系,同时避免了传统的循环神经网络中存在的梯度消失和爆炸问题。
74.需要说明的是,bert模型的具体计算过程如上步骤s301至步骤s304以及步骤s401所示,本示例在此不再赘述。
75.参考图9,图9是本技术一个示例提供的多层注意力模块的示意图。
76.步骤3:注意力机制(attention mechanism)模仿了人眼视觉聚焦的过程,人的眼睛在观察场景时视线会集中聚焦于重要信息,而忽略其他无用信息。本实施例设计了特征级与实例级的注意力模块结合自注意力机制,通过计算注意力权重,将特征向量的特征信息聚焦于关键语义信息上。多层注意力模块的设计如图9所示。图中fatt为特征级注意力、iatt为实例级注意力,黑色和白色长方形分别表示局部特征向量和全局特征向量,是向量的临时表示,参与计算特征级注意力与实例级注意力。
77.步骤3.1:计算特征级注意力attention(fatt),由于信息关系抽取任务的特殊性,由于数据量不足,关系抽取模型需要充分利用现有数据中的关键特征进行训练。特征级注意力机制其作用是对样本实例的局部特征向量和关系描述的局部特征向量通过注意力的计算,使生成的原型更具代表性,对于输入的实例文本和关系文本,取其经过编码模块获得的长度为 l(最大长度)的向量,分别计算每一个局部特征的注意力权重;步骤3.2:根据获得的注意力权重,来计算支持集实例的最终特征向量表示,通过特征级注意力机制,可以使得用于计算类原型的支持集实例的特征向量更多的考虑与关系描述文本具有关联性影响的特征,根据不同的实例与关系描述之间的局部特征向量的相似度来为它们分配权重,并取加权和来形成最终的局部特征向量表示。局部特征与关系描述的特征向量越相近获得的权重就越高,表明在该实例的局部特征向量中用于表示该关系的重要语义信息越多,该特征在生成类原型时也占有更大的比重,对于某一关系的支持集实例的特征向量由每个局部特征的注意力权重计算得到;需要说明的是,具体计算特征级注意力的过程如上步骤s501至步骤s502所示,本示例在此不再赘述。
78.步骤3.3:计算实例级注意力attention(iatt),有研究表明并非所有的支持集实例在生成类原型时都应该占据同样的比重,一般的原型网络模型仅通过均值简单地计算类原型,这样无法突出数据中的有效特征。同时考虑网络信息领域数据集的特点,通过人工标注的数据很有可能会存在噪音的影响,而当数据噪音较大时会在生成类原型时会引起较大的偏差,对模型的训练结果产生巨大影响。本实施例设计了实例级注意力模块,通过注意力机制来获取支持集中与查询实例更加接近的句子,并在生成类原型时获得更高的权重,减少噪声对模型的影响,进一步提升模型的性能;需要说明的是,具体计算实例级注意力的过程如上步骤s601所示,本示例在此不再赘述。
79.步骤4:本实施例采用混合原型网络来代替传统的原型网络基线,过去的原型网络模型中,并不会充分利用关系文本进行训练,在生成类原型时仅仅考虑支持集数据,而本文的模型将在训练过程中加入关系文本特征,用于提升模型的性能。根据以往的研究表明,对于关系文本来说,其有效特征通过bert编码后会集中于句子开头对应的输出处[cls]处,在关系分类任务中,句子实例集中每个句子样例s由向量组成,实体关系对应的实体s表示为,其中,表示维度为d的特征向量;步骤4.1:采用标准欧式距离来获得查询实例的关系预测概率。而考虑到前文多层注意力机制对局部特征的提取,在训练的过程中,本实施例还会计算局部特征级的类原型,对于局部特征的编码,选择将bert编码器对句子编码的结果全部拼接起来,再通过注意力模块的计算获得最终支持集实例的所有局部特征向量表示和关系文本的局部特征向量表示,然后用同样的公式计算实例级的原型网络,通过拼接获得最终的混合原型网络。之后,通过分类结果和损失函数来更新参数和原型,最后,对于查询集的样本只需计算到各个原型中心的距离,即可做出分类结果的预测。
[0080]
在一些实施例中,网络信息领域的关系抽取任务面临数据量匮乏、标注成本高等问题。在实际应用场景中,使用少量网络信息训练数据训练的模型无法达到预期标准。针对
此问题,本示例提出了frti模型,该模型基于元学习架构进行n-way-k-shot任务训练,利用预训练语言模型和多层注意力机制在特征提取模块获得更加丰富的语义信息,通过混合原型网络对数据进行标签预测,在小样本场景下提升关系抽取能力。
[0081]
示例二:示例二为构建网络信息的样本实例的具体流程图,具体包括如下步骤:由于网络信息领域命名实体识别数据集匮乏,难以获取较为合适的训练数据。为了更好的模拟实际应用场景,本实施例构建了网络信息的样本实例。
[0082]
步骤5:采用开源的网络信息规范数据信息对apt攻击和涉及恶意软件和漏洞的数据源的关系抽取。相比于其他的标准,本示例定义的实体关系类型相对丰富,能涵盖网络;步骤6:数据集的构建由于网络信息领域数据小样本的特性,本示例对网络上的网络信息数据的处理分为两类,一类是经过文本预处理之后,通过标注工具doccano标注出实体和关系标签的少量训练数据,这类数据要求标注精度高,用于训练小样本模型,第二类为进行预处理后,通过人工标注和命名实体识别的方式识别出实体的大量非精确数据,这类数据用于后续提升模型的性能。
[0083]
其中,本文的网络信息实体类型定义如下表1和表2所示:表1 网络信息实体类型定义表(一)表2 网络信息关系类型定义表(二)
本技术实施例的还提供了一种网络信息的关系抽取装置,包括至少一个处理器和用于与至少一个处理器通信连接的存储器;存储器存储有能够被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前述的关系抽取方法。
[0084]
参照图10,以网络信息的关系抽取装置1000中的控制处理器1001和存储器1002可以通过总线连接为例。存储器1002作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器1002可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器1002可选包括相对于控制处理器1001远程设置的存储器,这些远程存储器可以通过网络连接至网络信息的关系抽取装置1000。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0085]
本领域技术人员可以理解,图10中示出的装置结构并不构成对网络信息的关系抽取装置1000的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0086]
本技术实施例的还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,被图10中的一个控制处理器1001执行,可使得上述一个或多个控制处理器执行上述方法实施例中的关系抽取方法。
[0087]
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0088]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或
者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

技术特征:
1.一种网络信息的关系抽取方法,其特征在于,包括:获取网络信息的样本实例,所述网络信息的每个所述样本实例被标注出实体和所述实体对应的实体关系;按照所述实体关系的类别对所述样本实例进行小样本抽取,得到n个支持集和n个查询集,所述支持集中包括k个所述样本实例,所述查询集包括q个所述样本实例,所述n、k和q均为正整数;通过所述支持集和所述查询集对关系抽取模型进行训练;利用经过训练的关系抽取模型对网络信息的数据进行关系抽取;其中,所述关系抽取模型包括特征抽取模块和标签预测模块;所述特征抽取模块用于对输入的所述样本实例和关系描述文本进行预训练,通过特征级注意力机制对所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量计算注意力权重,然后通过实例级注意力机制调整所述注意力权重;所述标签预测模块用于计算通过特征级注意力机制输出的局部特征向量和所述关系描述文本的全局特征向量的第一实例级原型点,以及计算通过实例级注意力机制调整后输出的特征向量的第二实例级原型点,还用于拼接所述第一实例级原型点和所述第二实例级原型点得到混合原型网络,所述混合原型网络用于根据所述查询集的所述样本实例计算到各个原型点的距离,以得到预测的关系分类结果。2.根据权利要求1所述的关系抽取方法,其特征在于,所述按照所述实体关系的类别对所述样本实例进行小样本抽取,得到n个支持集和n个查询集,包括:创建关于所述实体关系的类别的元任务;随机选择n个所述实体关系的类别,并从每个类别中随机选取k个所述样本实例分别构建所述元任务的支持集,再从每个类别中随机选取q个所述样本实例分别构建所述元任务的查询集。3.根据权利要求1所述的关系抽取方法,其特征在于,所述预训练包括:根据预设字向量表将输入的所述样本实例和关系描述文本进行转换,得到对应的字向量;根据所述样本实例和关系描述文本生成文本向量和位置向量;按照所述样本实例和关系描述文本的对应关系,将所述字向量、所述文本向量和所述位置向量进行加和,并将加和结果作为输入向量;将所述输入向量输入到bert模型进行预训练。4.根据权利要求3所述的关系抽取方法,其特征在于,所述将所述输入向量输入到bert模型进行预训练,包括:通过自注意力机制对所述输入向量中每个单词进行注意力计算,得到每个单词与上下文中其他单词之间的相关性,并输出所述输入向量中每个单词的向量表征。5.根据权利要求1所述的关系抽取方法,其特征在于,所述通过特征级注意力机制对所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量计算注意力权重,包括:通过预训练确定所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量;
将所述支持集的样本实例的局部特征向量和所述关系描述文本的局部特征向量输入到特征级注意力模块,得到局部特征向量表示;其中,所述特征级注意力模块的注意力激活函数为softmax函数。6.根据权利要求5所述的关系抽取方法,其特征在于,所述通过实例级注意力机制调整所述注意力权重,包括:将所述局部特征向量表示和所述支持集的样本实例的全局特征向量输入到实例级注意力模块,得到注意力权重调整后的局部特征向量表示;其中,所述实例级注意力模块的注意力激活函数为tanh函数。7.根据权利要求1所述的关系抽取方法,其特征在于,所述第一实例级原型点和所述第二实例级原型点通过以下公式计算得到:其中,表示实例级原型点,表示维度为d的特征向量,表示实体关系对应的关系描述文本,i为正整数,表示第i个所述样本实例。8.根据权利要求1所述的关系抽取方法,其特征在于,所述获取网络信息的样本实例,包括:获取网络信息的原始数据;对所述原始数据进行文本预处理后,通过预设的标注工具标注出实体、实体关系和对应的关系描述文本,和/或,通过预设的实体类型定义表和关系类型定义表标注出实体、实体关系和对应的关系描述文本;其中,所述实体类型定义表存储有实体名词与实体类型的对应关系,所述关系类型定义表存储有关系名词与关系类型、关系描述文本的对应关系。9.一种网络信息的关系抽取装置,其特征在于,包括至少一个处理器和用于与所述至少一个处理器通信连接的存储器;所述存储器存储有能够被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任意一项所述的关系抽取方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至8中任意一项所述的关系抽取方法。

技术总结
本申请公开了网络信息的关系抽取方法、关系抽取装置及介质,关系抽取方法包括:获取网络信息的样本实例,网络信息的每个样本实例被标注出实体和实体对应的实体关系;按照实体关系的类别对样本实例进行小样本抽取,得到N个支持集和N个查询集,支持集中包括K个样本实例,查询集包括Q个样本实例,N、K和Q均为正整数;通过支持集和查询集对关系抽取模型进行训练;利用经过训练的关系抽取模型对网络信息的数据进行关系抽取。在本申请实施例中,在传统原型网络的基础上引入两个维度的特征信息和关系描述语义提高模型的分类性能和泛化能力,突出语句中的重要的语义特征,增强模型的准确性和鲁棒性。性和鲁棒性。性和鲁棒性。


技术研发人员:王海燕 鲍俊池 罗翠 杨伟民 向夏雨 李仕铸 胡宇翔 顾钊铨
受保护的技术使用者:鹏城实验室
技术研发日:2023.06.30
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐