基于自监督双粒度多图学习的文本分类方法
未命名
07-12
阅读:104
评论:0

1.本发明涉及文本分类技术领域,尤其涉及一种基于自监督双粒度多图学习的文本分类方法。
背景技术:
2.随着互联网的不断发展,网络上的文本数据日益增多,如果能对这些数据进行有效分类,那么更有利于从中挖掘出有价值的信息。因此,文本数据的管理和整合显得十分重要。文本分类是指用电脑对文本集(或其他实体或物体)按照一定的分类体系或标准,进行自动分类标注。
3.文本分类问题的关键在于从文本数据中提取能够尽可能表达文本信息的特征表示。传统的文本分类方法主要分为两种,即基于机器学习的文本分类方法和基于深度学习的文本分类方法。常见的基于机器学习的文本分类方法其思路是利用特征工程进行文本表示,再通过支持向量机(support vector machine,svm)、朴素贝叶斯(naive bayes,nb)、k近邻算法(k-nearest neighbor,knn)等分类器进行分类。相较于基于机器学习的文本分类方法,基于深度学习的文本分类方法通常利用自身的网络结构自动学习数据的特征表示,无需通过特征工程手动获取文本特征。常见的基于深度学习的文本分类模型有卷积神经网络(convolutional neural networks,cnns)模型、循环神经网络(recurrent neural networks,rnns)模型等。例如,textcnn模型将句子视为由多个词向量构成的特征矩阵,利用不同大小的卷积核对其进行卷积,然后通过池化层对卷积后的结果进行特征提取。liu等人在文本分类任务中采用rnn模型进行分类,将文本看成一段时间序列,结合上下文信息学习文本的特征表示。yang等人采用rnn模型和注意力机制相结合的方式,将文本表示为“单词-句子-文本”的层次化结构,并基于不同的注意力权重进行学习。
4.近年来,图神经网络受到了广泛的关注,涌现出一些采用图神经网络进行文本分类的方法。例如,textgcn模型首次将图卷积网络应用于文本分类任务,将单词和文本均视为节点,构建一个无向加权图,学习文本嵌入和词嵌入。huang等人提出text-level gcn模型,将每一个文本构建为一个有向图,利用全局共享节点特征矩阵和边权矩阵进行学习,并采用消息传递机制进行更新。yuan等人采用g-att模型,利用注意力机制进行文本情感分析,为每个句子构建一个无向依赖树,用于描述单词和语法的依赖关系,并通过记忆网络进行融合。
5.传统的基于机器学习的文本分类方法和基于深度学习的文本分类方法通常采用单示例或多示例学习框架,即假设每个文本数据都可以通过特征工程或特征学习的方式被表示为一个或者多个特征向量(示例)的形式,并假设这一个或多个特征向量(示例)可以包含文本的关键信息,且这一关键信息足以与其他类别的文本数据进行区分。然而,文本数据往往具有复杂的语义特征,仅以特征向量这种欧几里得空间的数据进行表示,无法准确表达文本数据的结构信息和上下文之间的结构关系,会造成信息损失。此外,传统的基于机器学习的模型和基于深度学习的模型例如cnn等,通常需要利用欧几里得空间的平移不变性
以有效的获取数据的特征信息,这对于文本数据这种非欧几里得数据而言,往往会限制神经网络的表达能力,无法表达复杂的语义信息。
6.近年来,所提出的基于图神经网络的文本分类方法,采用单图学习框架,是单示例学习框架的一个扩展,以单个图代替单个示例(特征向量)进行表示。即假设每个文本数据都可以被表示为一个图结构的数据。然而,单图学习框架将每个文本表示为一个单图的形式,每个部分被表示为一个节点,以特征向量的形式表示,这种方式仅能表示文本各部分之间的全局结构关系,而无法表示各部分文本的内在结构关系,无法捕捉细粒度的结构信息。以文本情感分类任务为例,单图学习框架通常将一篇文本表示为单图的形式,每一句话(一段话)作为一个节点,用一个特征向量进行表示,这种表示形式往往忽略了每一句话(一段话)的内在结构关系,仅能捕获整段话(整篇文章)的全局结构关系。
7.此外,现有的文本分类任务中,由于细粒度(例如文章中的每一段内容)的文本标注信息具有模糊性,大多数分类方法仅能进行粗粒度(例如整篇文章)的文本标注,而无法进行细粒度的文本标注。这是由于在文本分类任务中,大多数数据集中仅能包含每篇文章的标注信息而不包含文章内部每个自然段的标注信息。因此,现有的文本分类方法大多仅能对整篇文章的标注信息进行预测,而文章内部每个自然段的标注信息具有模糊性,无法进行预测。然而,在现实生活中,一篇文章中不同自然段的标注信息也十分重要,例如在文本情感分类任务中,不同的自然段可能表达着不同的情感,对文章中每个自然段的情感进行预测有利于心理健康评估和人机交互等任务。因此,对于文本分类任务,如何基于粗粒度的标注信息同时进行粗粒度和细粒度的标签预测十分重要。
技术实现要素:
8.本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于自监督双粒度多图学习的文本分类方法,实现对文本的自动分类。
9.为解决上述技术问题,本发明所采取的技术方案是:基于自监督双粒度多图学习的文本分类方法,包括以下步骤:
10.步骤1:获得原始文本数据集与对应的标签集;
11.步骤2:对原始文本数据集进行数据预处理,得到原始文本数据集对应的多图数据结构即图包,形成多图数据集;
12.提取文本中关键词之间的关联性;然后以每篇文本的关键词作为节点,关键词之间的关联性作为边的权重值来构建一个图,并基于阈值移除小于给定阈值的边,将大于等于给定阈值的边权重值均设置为1,构成无向图;将原始文本数据集中每篇文本都表示为多图结构,构成图包b={g1,g2,...,gn},其中,g1,g2,...,gn表示所选文本构成的多个图;
13.步骤3:利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示;
14.对多图数据集中所有的图数据采用增强编码器进行两次数据增强操作,由于图包中的每个图都进行了两次数据增强,会分别得到两组增强后的多图包;对图数据进行数据增强的增强编码器如下公式所示:
15.f
aug
(g)={v,ε;∈}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
16.其中,f
aug
表示增强编码器,g=(v,ε)表示图,v是顶点集,v
p
∈v,包含每个节点的
属性信息;ε是边集,(v
p
,vq)∈ε,p≠q;∈是增强方法;被增强后的图表示为图包表示为:
[0017][0018]
其中,表示增加后的图包;
[0019]
为了有效的保留多图数据集中图数据的结构信息,采用图编码器学习增强后的图表示,如下公式所示:
[0020][0021]
其中,是图编码器所生成的图表示,是一个向量的形式,包含了增强图中所有的节点属性信息和内在结构关系;h
l
表示增强后的图中所有节点在神经网络第l层中的节点表示,每一层的节点表示通过函数f
genc
基于上一层的节点表示进行更新,初始时h0是增强图中所有节点的属性集,λ是需要学习的神经网络层数;f
genc
是一个可学习的函数,用于更新每一层的节点表示,其中,w
l
是可学习的权重矩阵,表示添加了自连接之后的邻接矩阵,a是邻接矩阵,i是单位阵,是由得到的度矩阵;f
p
是池化函数,用于通过学习到的节点表示求均值得到图表示;
[0022]
步骤4:将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,包含上下文信息的图表示基于相似性进行连接,生成包级图,并利用包编码器通过包级图学习包表示;
[0023]
将多头自注意力机制作用于包中各个增强后的图表示,得到包含上下文信息的图表示;多头自注意力机制的公式如下公式所示:
[0024][0025]
其中,w
′
是可学习的参数,headm表示第m个自注意力头的结果,m表示所定义的自注意力头的个数;headm表示为:
[0026][0027]
其中,表示第m个头中可学习的参数,dk是隐藏层维度;由图包中的图表示拼接而成,表示经过多头自注意力机制后学习到的包含上下文信息的包,由多个经过多头自注意力机制后包含上下文信息的图表示拼接而成,表示拼接,n表示图包中图的个数;
[0028]
采用图生成的方式,以图包中每个图作为节点,图之间的包含上下文信息的图表示之间的相关性作为边的权重,每个图的图表示为节点属性值,基于阈值构成图包的包级图,则包级图的生成方法如下公式所示:
[0029][0030]
其中,i[
·
]是指示函数,当i[
·
]中的内容大于0时结果为1,否则为0;μ是阈值,用
于去掉图之间相关性较低的边,是余弦相似度,用于衡量图包中任意两个图之间的相似性,是基于阈值和余弦相似度所生成的图i和图j之间的权重值,作为包级图的邻接矩阵;所生成的包级图,以图包中每个图为节点,以图表示为节点属性,为邻接矩阵构成,即生成的包级图
[0031]
为了基于所生成的包级图获得包含包中图之间全局结构关系的多图包的向量表示,设置了包编码器,如下公式所示:
[0032][0033]
其中,是经过包编码器所生成的包表示,f
norm
是正则化函数,用于对数据进行正则化;f
benc
是一个可学习的函数,使用图卷积算子来更新每一层的节点表示,f
benc
表示为其中,w
l
是可学习的权重矩阵,σ是激活函数,初始时h0是包级图中所有节点的属性集;
[0034]
步骤5:通过图-图的学习机制同时学习图表示和包表示,并有效保留图包中图之间的上下文信息和全局结构关系;
[0035]
利用包编码器和图编码器同时学习包表示和图表示,即包级图及包级图中的节点同时被学习,形成图-图的学习机制,这种学习机能够有效学习包表示和图表示,同时保留包中各个图之间的上下文信息和全局结构关系,有利于多图学习问题的粗粒度和细粒度分类任务;
[0036]
步骤6:设计包级对比损失和图级对比损失作为损失函数,在保证包级不变性和图级不变性的前提下,自监督地学习包表示和图表示;
[0037]
为了采用对比学习的机制,自监督地学习包表示和图表示,需要保证包级不变性和图级不变性;为此,设计了包级对比损失和图级对比损失作为损失函数,如下公式所示:
[0038][0039][0040]
其中,ig={1...2n},n表示数据集中图的个数,ib={1...2n},n表示数据集中包的个数;ag(i)=ig\{i},ab(i)=ib\{i};是用于保证图级不变性的图对比损失函数,是用于保证包级不变性的包对比损失函数;sim(
·
)和simb(
·
)是用于衡量两个表示之间相似性的函数,可以分别表示为sim(z1,z2)=exp(z1·
z1/τ),simb(z1,z2)=exp(cos(z1,z2)/τ),其中,τ是一个温度参数,cos(z1,z2)是一个余弦函数,f
proj
是一个投影网络f
proj
(x)=σ(f
norm
(ω
x
+b));
[0041]
则基于自监督双粒度多图学习的文本分类方法的损失函数表示为
[0042]
步骤7:对待分类的文本分类任务利用步骤6中学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本分类。
[0043]
采用上述技术方案所产生的有益效果在于:本发明提供的基于自监督双粒度多图学习的文本分类方法,将文本分类问题建模为多图学习问题,采用多图学习框架,可以有效保留文本数据中的各部分的内在结构关系和各部分间的全局结构给关系,更易于文本信息的表达,有效保留粗粒度的文本信息和细粒度的文本信息。同时采用自监督的学习范式,训练过程基于对比学习通过自监督的方式进行,不需要额外的标注信息。此外,基于自监督对比表示学习,提出一种图-图的学习机制,可以在每次迭代中同时自监督地学习图表示(细粒度)和包表示(粗粒度),以便下游任务可以仅使用少量的包标签(粗粒度标签)在粗粒度和细粒度上同时进行标签分类。
附图说明
[0044]
图1为本发明实施例提供的基于自监督双粒度多图学习的文本分类方法的流程图;
[0045]
图2为本发明实施例提供的文本数据集转为多图数据集的示意图;
[0046]
图3为本发明实施例提供的图-图学习机制的示意图;
[0047]
图4为本发明实施例提供的科技论文文本分类图,其中,(a)为原始科技论文文本,(b)为科技论文的参考文献,(c)为标注的科技论文文本,(d)为标注的参考文献。
具体实施方式
[0048]
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
[0049]
本实施例中,基于自监督双粒度多图学习的文本分类方法,如图1所示,包括以下步骤:
[0050]
步骤1:获得原始文本数据集与对应的标签集;
[0051]
本实施例以来自dblp数据库的计算机科学领域的书目数据为例。其中,每条记录都包含摘要、作者、年份、标题和参考文献等信息。选择人工智能(ai)、计算机视觉(cv)和数据挖掘(db)三个领域所发表的论文数据构成原始文本数据集,基于每篇论文的文本信息,预测该论文所属的科研领域。
[0052]
步骤2:对原始文本数据集进行数据预处理,得到原始文本数据集对应的多图数据结构即图包,形成多图数据集;
[0053]
图2为本实施例所提供的dblp数据集转为多图数据集的示意图。将所选择的dblp数据集转化为多图数据集的方式如图2所示,具体可以描述为:首先从所构成的dblp文本文献数据集中选取一篇论文,该论文通常包含摘要、摘要关键词、正文、参考文献、作者等信息;由于在一篇科技论文中,能够对这篇论文的内容、所属领域进行准确描述的通常是该论文摘要中的关键词;同时,参考文献中所引用的其他论文对于这篇科技论文的所属领域也具有一定的描述能力;因此,我们以每篇论文及其参考文献摘要中的关键词为节点,关键词之间的关联关系为边构建无向图;这样,不仅可以对关键词本身的信息进行建模还可以建模摘要中不同关键词之间的结构关系,可以更好的表达文本文献的领域信息。
[0054]
具体的,使用e-fcm算法提取每篇摘要中关键词之间的关联性;然后以每篇摘要的关键词作为节点,关键词之间的关联性作为边的权重值来构建一个图,并基于阈值移除小
于给定阈值的边,将大于等于给定阈值的边权重值均设置为1,构成无向图;文献及其参考文献的每篇摘要可以被转化为一个图,则一篇文献被表示为多图结构,构成图包。因此,基于dblp数据库所构建的文本文献数据集可以被建模为多图数据集,即每篇论文可以被表示为一个图包b={g1,g2,...,gn},其中,g1表示所选论文的摘要构成的图,g2...gn表示所选论文的参考文献的摘要构成图。
[0055]
步骤3:利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示;
[0056]
为了尽可能在不使用标签信息的情况下从所建模的多图数据集中更好地学习文本文献数据的特征表示。采用对比学习的思想,将每个论文对应的多图包视为一个单独的类别,学习能够尽可能的区分所有多图包的表示信息。此外,为了进行细粒度的文本分类任务(即预测每篇论文所构成的多图包中论文及其参考文献分别属于哪个类别),也需要将每个图(摘要)视为一个单独的类别,学习能够尽可能的区分所有图的表示信息。因此,如图3所示,对多图数据集中所有的图数据采用增强编码器进行两次数据增强操作,由于图包中的每个图都进行了两次数据增强,会分别得到两组增强后的多图包;对图数据进行数据增强的增强编码器如下公式所示:
[0057]faug
(g)=[v,ε;∈}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0058]
其中,f
aug
表示增强编码器,g=(v,ε)表示图,v是顶点集,v
p
∈v,包含每个节点的属性信息;ε是边集,(v
p
,vq)∈ε,p≠q;∈是增强方法,包括删除部分节点,删除部分边,屏蔽部分节点或边的属性等;被增强后的图表示为图包表示为:
[0059][0060]
其中,表示增加后的图包;
[0061]
为了有效的保留多图数据集中图数据的结构信息,采用图编码器学习增强后的图表示,如下公式所示:
[0062][0063]
其中,是图编码器所生成的图表示,是一个向量的形式,包含了增强图中所有的节点属性信息和内在结构关系;h
l
表示增强后的图中所有节点在神经网络第l层中的节点表示,每一层的节点表示通过函数f
genc
基于上一层的节点表示进行更新,初始时h0是增强图中所有节点的属性集,λ是需要学习的神经网络层数;f
genc
是一个可学习的函数,用于更新每一层的节点表示,其中,w
l
是可学习的权重矩阵,表示添加了自连接之后的邻接矩阵,a是邻接矩阵,i是单位阵,是由得到的度矩阵;f
p
是池化函数,用于通过学习到的节点表示求均值得到图表示;
[0064]
即公式(3)中的学习过程可以描述为,通过函数f
genc
对摘要中各个关键词的信息进行λ次的迭代学习,得到每一个关键词的向量表示。然后通过池化函数f
p
,基于所学习到的关键词的向量表示和各个关键词之间的结构信息得到这篇摘要的向量表示
[0065]
步骤4:将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,包含上下文信息的图表示基于相似性进行连接,生成包级图,并利用包编码器通过包级图学习包表示;
[0066]
由于论文及其参考文献之间存在着一定的联系,这种联系有助于学习论文的包表示。因此,为了有效的保留论文及其参考文献之间的关系,将多头自注意力机制作用于包中各个增强后的图表示,得到包含上下文信息的图表示;多头自注意力机制的公式如下公式所示:
[0067][0068]
其中,w
′
是可学习的参数,headm表示第m个自注意力头的结果,m表示所定义的自注意力头的个数,不同的自注意力头可以从不同的角度对论文及其参考文献之间的关系进行描述。headm表示为:
[0069][0070]
其中,表示第m个头中可学习的参数,dk是隐藏层维度;由图包中的图表示拼接而成,则也可以表示为表示经过多头自注意力机制后学习到的包含上下文信息的包,由多个经过多头自注意力机制后包含上下文信息的图表示拼接而成,表示拼接,n表示图包中图的个数;
[0071]
由于向量的表示形式,无法有效保留论文及其参考文献之间所存在的全局结构关系。因此,采用图生成的方式,以论文包中每篇摘要为节点,摘要之间的包含上下文信息的图表示之间的相关性为边的权重,每篇论文的向量表示为节点属性值,基于阈值构成论文的包级图,则论文包级图的生成方法如下公式所示:
[0072][0073]
其中,i[
·
]是指示函数,当[
·
]中的内容大于0时结果为1,否则为0;μ是阈值,用于去掉摘要之间相关性较低的边,是余弦相似度,用于衡量论文包中任意两篇摘要之间的相似性,是基于阈值和余弦相似度所生成的摘要i和摘要j之间的权重值,作为包级图的邻接矩阵;所生成的包级图,以论文包中每篇摘要为节点,以摘要的图表示为节点属性,为邻接矩阵构成,即生成的包级图
[0074]
为了基于所生成的包级图获得包含摘要之间全局结构关系的论文包的向量表示,设置了包编码器,如下公式所示:
[0075][0076]
其中,是经过包编码器所生成的包表示,f
norm
是正则化函数,用于对数据进行正则化;f
benc
是一个可学习的函数,使用图卷积算子来更新每一层的节点表示,f
benc
表示为其中,w
l
是可学习的权重矩阵,σ是激活函数,初始时h0是包级图中所有节点的属性集;
[0077]
步骤5:通过如图3所示的图-图的学习机制同时学习图表示和包表示,并有效保留图包中图之间的上下文信息和全局结构关系;
[0078]
如步骤3和步骤4所述,包级图以图包中的图为节点,图之间包含上下文信息的全局结构关系为边,即图包被表示为包级图的形式,其节点本身也是图;利用包编码器和图编码器同时学习包表示和图表示,即包级图及包级图中的节点(包中的图)同时被学习,形成图-图的学习机制,这种学习机能够有效学习包表示和图表示,同时保留包中各个图之间的上下文信息和全局结构关系,有利于多图学习问题的粗粒度(包级)和细粒度(图级)分类任务;
[0079]
由增强编码器所生成的两个增强后的图表示,分别采用结构相同,但是参数不同的图编码器、多头自注意力机制、图生成机制、包编码器进行训练,生成图(摘要)表示和包(论文)表示。由于利用图生成机制所生成的包级图是一个以论文包中每篇摘要为节点,摘要之间包含上下文信息的全局结构关系为边的图结构的数据,而论文中的每篇摘要又被表示为以关键词为节点,关键词之间的局部结构关系为边的图结构的数据,即图内的节点本身也是图的图-图的结构。在每次迭代中,同时学习图表示(摘要)和包表示(论文),形成一种图-图的学习机制,这种学习机制可以有效学习图表示和包表示,同时有效保留摘要内各个关键词之间的内在结构关系和论文内各个摘要之间的全局结构关系,有利于所建模的基于多图学习的文本分类任务的粗粒度和细粒度级分类任务。
[0080]
步骤6:设计包级对比损失和图级对比损失作为损失函数,在保证包级不变性和图级不变性的前提下,自监督地学习包表示和图表示;
[0081]
为了采用对比学习的机制,自监督地学习包表示和图表示,需要保证包级不变性和图级不变性;为此,设计了包级对比损失和图级对比损失作为损失函数,如下公式所示:
[0082][0083][0084]
其中,ig={1...2n},n表示数据集中图的个数,ib={1...2n},n表示数据集中包的个数;ag(i)=ig\{i},ab(i)=ib\{i};是用于保证图级不变性的图对比损失函数,是用于保证包级不变性的包对比损失函数;sim(
·
)和simb(
·
)是用于衡量两个表示之间相似性的函数,可以分别表示为sim(z1,z2)=exp(z1·
z1/τ),simb(z1,z2)=exp(cos(z1,z2)/τ),其中,τ是一个温度参数,cos(z1,z2)是一个余弦函数,f
proj
是一个投影网络f
proj
(x)=σ(f
norm
(ωx+b));
[0085]
则基于自监督双粒度多图学习的文本分类方法的损失函数表示为
[0086]
步骤7:对待分类的文本分类任务利用步骤6中学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本的分类。
[0087]
步骤1-6所述过程均为自监督学习任务的训练阶段,用于自监督地学习图表示和包表示;然后,可以利用学习到的图表示和包表示通过使用svm、knn、多层感知机等模型作为分类器,仅使用少量的包标签数据(10%~20%),利用包表示和图表示同时在包级和图级进行标签预测。
[0088]
本实施例对如图4(a)和图4(b)所示的科技论文及其参考文献采用本发明的方法
进行标注,该论文被表示为由摘要及参考文献摘要所转化的图构成的多图包;图4(c)和图4(d)是经过本发明方法分类后的科技论文;其中,科技论文包被标注为人工智能(ai)和计算机视觉(cv)两个标签,而包中的图(论文摘要及参考文献摘要)也分别被标注为人工智能(ai)和计算机视觉(cv)两个标签。
[0089]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
技术特征:
1.一种基于自监督双粒度多图学习的文本分类方法,其特征在于:包括以下步骤:步骤1:获得原始文本数据集与对应的标签集;步骤2:对原始文本数据集进行数据预处理,得到原始文本数据集对应的多图数据结构即图包,形成多图数据集;步骤3:利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示;步骤4:将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,包含上下文信息的图表示基于相似性进行连接,生成包级图,并利用包编码器通过包级图学习包表示;步骤5:通过图-图的学习机制同时学习图表示和包表示,并有效保留图包中图之间的上下文信息和全局结构关系;步骤6:设计包级对比损失和图级对比损失作为损失函数,在保证包级不变性和图级不变性的前提下,自监督地学习包表示和图表示;步骤7:对待分类的文本分类任务利用步骤6中学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本分类。2.根据权利要求1所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:所述步骤2的具体方法为:提取文本中关键词之间的关联性;然后以每篇文本的关键词作为节点,关键词之间的关联性作为边的权重值来构建一个图,并基于阈值移除小于给定阈值的边,将大于等于给定阈值的边权重值均设置为1,构成无向图;将原始文本数据集中每篇文本都表示为多图结构,构成图包b={g1,g2,...,g
n
},其中,g1,g2,...,g
n
表示所选文本构成的多个图。3.根据权利要求2所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:所述步骤3的具体方法为:对多图数据集中所有的图数据采用增强编码器进行两次数据增强操作,由于图包中的每个图都进行了两次数据增强,会分别得到两组增强后的多图包;对图数据进行数据增强的增强编码器如下公式所示:f
aug
(g)={v,ε;∈}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,f
aug
表示增强编码器,g=(v,ε)表示图,v是顶点集,v
p
∈v,包含每个节点的属性信息;ε是边集,(v
p
,v
q
)∈ε,p≠q;∈是增强方法;被增强后的图表示为图包表示为:其中,表示增加后的图包;为了有效的保留多图数据集中图数据的结构信息,采用图编码器学习增强后的图表示,如下公式所示:其中,是图编码器所生成的图表示,是一个向量的形式,包含了增强图中所有的节点属性信息和内在结构关系;h
l
表示增强后的图中所有节点在神经网络第l层中的节点表示,每一层的节点表示通过函数f
genc
基于上一层的节点表示进行更新,初始时h0是增强图中所有节点的属性集,λ是需要学习的神经网络层数;f
genc
是一个可学习的函数,用于更新每
一层的节点表示,其中,w
l
是可学习的权重矩阵,表示添加了自连接之后的邻接矩阵,a是邻接矩阵,i是单位阵,是由得到的度矩阵;f
p
是池化函数,用于通过学习到的节点表示求均值得到图表示。4.根据权利要求3所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:所述步骤4的具体方法为:将多头自注意力机制作用于包中各个增强后的图表示,得到包含上下文信息的图表示;多头自注意力机制的公式如下公式所示:其中,w
′
是可学习的参数,head
m
表示第m个自注意力头的结果,m表示所定义的自注意力头的个数;head
m
表示为:其中,表示第m个头中可学习的参数,d
k
是隐藏层维度;由图包中的图表示拼接而成,表示经过多头自注意力机制后学习到的包含上下文信息的包,由多个经过多头自注意力机制后包含上下文信息的图表示拼接而成,表示拼接,n表示图包中图的个数;采用图生成的方式,以图包中每个图作为节点,图之间的包含上下文信息的图表示之间的相关性作为边的权重,每个图的图表示为节点属性值,基于阈值构成图包的包级图,则包级图的生成方法如下公式所示:其中,i[
·
]是指示函数,当[
·
]中的内容大于0时结果为1,否则为0;μ是阈值,用于去掉图之间相关性较低的边,是余弦相似度,用于衡量图包中任意两个图之间的相似性,是基于阈值和余弦相似度所生成的图i和图j之间的权重值,作为包级图的邻接矩阵;所生成的包级图,以图包中每个图为节点,以图表示为节点属性,为邻接矩阵构成,即生成的包级图为了基于所生成的包级图获得包含包中图之间全局结构关系的多图包的向量表示,设置了包编码器,如下公式所示:其中,是经过包编码器所生成的包表示,f
norm
是正则化函数,用于对数据进行正则化;f
benc
是一个可学习的函数,使用图卷积算子来更新每一层的节点表示,f
benc
表示为其中,w
l
是可学习的权重矩阵,σ是激活函数,初始时h0是包级图中所有节点的属性集。5.根据权利要求4所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:所述步骤5利用包编码器和图编码器同时学习包表示和图表示,即包级图及包级图中的节点同时被学习,形成图-图的学习机制,这种学习机能够有效学习包表示和图表示,同时保留
包中各个图之间的上下文信息和全局结构关系,有利于多图学习问题的粗粒度和细粒度分类任务。6.根据权利要求5所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:步骤6所述包级对比损失和图级对比损失,如下公式所示:骤6所述包级对比损失和图级对比损失,如下公式所示:其中,i
g
={1...2n},n表示数据集中图的个数,i
b
={1...2n},n表示数据集中包的个数;a
g
(i)=i
g
\{i},a
b
(i)=i
b
\{i};是用于保证图级不变性的图对比损失函数,是用于保证包级不变性的包对比损失函数;sim(
·
)和simb(
·
)是用于衡量两个表示之间相似性的函数,可以分别表示为sim(z1,z2)=exp(z1·
z1/τ),simb(z1,z2)=exp(cos(z1,z2)/τ),其中,τ是一个温度参数,cos(z1,z2)是一个余弦函数,f
proj
是一个投影网络f
proj
(x)=σ(f
norm
(ωx+b));则基于自监督双粒度多图学习的文本分类方法的损失函数表示为7.根据权利要求2所述的基于自监督双粒度多图学习的文本分类方法,其特征在于:所述步骤2使用e-fcm算法提取文本中关键词之间的关联性。
技术总结
本发明提供一种基于自监督双粒度多图学习的文本分类方法,涉及文本分类技术领域。该方法首先获得原始文本数据集与对应的标签集,并对原始文本数据集进行数据预处理,得到多图数据集;再利用增强编码器对图数据进行增强,并使用图编码器学习增强后的图表示;然后将多头自注意力机制作用于图表示,学习图包中各个图之间的上下文信息,生成包级图,并利用包编码器通过包级图学习包表示;再通过图-图的学习机制同时学习图表示和包表示,并设计包级对比损失和图级对比损失作为损失函数,自监督地学习包表示和图表示;最后对待分类的文本分类任务利用学习到的包表示和图表示,在粗粒度和细粒度上对待分类的文本同时进行标签预测,实现文本分类。现文本分类。现文本分类。
技术研发人员:赵宇海 王梅霞 王业江 印莹
受保护的技术使用者:东北大学
技术研发日:2023.01.13
技术公布日:2023/7/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:半导体装置的制作方法 下一篇:一种无源码场景下的漏洞补丁存在性检测方法及系统与流程