一种多任务引文意图分类系统、构建方法及应用
未命名
07-14
阅读:89
评论:0

1.本发明涉及引文意图分类领域,具体涉及一种多任务引文意图分类系统、构建方法及应用。
2.背景介绍
3.引文意图是指作者引用文献时的内在心理活动,反映了引用文献的原因和目的,由于引文在科学文献和研究者的评价中起着重要的作用,因此引文分析对理解学术文献至关重要。引文意图分类研究的目的是研究如何将作者的引文目的划分为一个特定的类别,它有助于对引文意图的深度系统分析,此外,对引文意图分类的深入研究有助于其他文献计量学分析任务,如引文重要性分析、学术影响评估、潜在学者关系发现等。传统的引文意图分类研究主要依靠对小样本数据的人工定性分析,但人工定性方法难以应对公开获取的全文文献的快速增长,此外,在考虑泛化和可伸缩性时,人工分析不能处理大数据的复杂引文意图分析。随着自然语言处理技术的发展,从大型文献文本中自动提取语义信息用于引文意图分析成为可能,早期关于引文意图自动分类的研究主要基于特征工程,传统的引文意图特征包括内容、位置、句子、句法、结构特征等,但基于特征工程的方法是根据一组预定义的特征来分析引文上下文的,难以提取足够的信息来表示引文上下文中的语义。
4.在最近的引文分析进展中,深度学习是一个值得进一步关注的方向,深度学习技术采用词向量表示引文文本,使用预先训练好的语言模型捕获上下文中的语义信息,预训练词向量技术节省了特征工程的成本,性能也优于机器学习引文意图分析方法。但在由于引文意图分析任务的训练样本不足,一些深度学习模型可能无法有效地学习相关特征,因此,可以研究出一种通过探索引文分析语料库相关任务标注信息中与意图有关的信息,来提高小数据集的引文意图分析任务的性能的系统和方法是十分必要的。
技术实现要素:
5.本发明为解决现有引文意图分析系统需要大量样本训练进行学习和训练,且引文意图分类不准确的问题,提出了一种多任务引文意图分类系统、构建方法及应用,考虑到引文意图、引文位置与引文价值分类任务之间的相关性,构建了具有软参数共享约束的多任务引文分类框架,并为多任务构建了独立模型,以提高引文意图分类的性能。
6.本发明提供了一种多任务引文意图分类系统构建方法,包括如下步骤:
7.s1.获得主任务的主任务语料和多个辅助任务的辅助任务语料,将所述主任务语料输入scibert预训练语言模型中,获得所述主任务语料的scibert预训练语言模型表示;将多个所述辅助任务语料分别输入scibert预训练语言模型中,获得多个所述辅助任务语料的scibert预训练语言模型表示;
8.s2.提取主任务语料的异构特征集,将提取到的异构特征集与步骤s1中获得的所述主任务语料的scibert预训练语言模型表示进行融合,得到input
intent
;将步骤s1中获得的所述辅助任务语料的scibert预训练语言模型表示作为input
auxiliary
;
9.s3.通过软参数共享约束和bilstm学习步骤s2得到的input
intent
中的隐含特征;通
过bilstm学习步骤s2得到input
auxiliary
中的隐含特征;
10.s4.步骤s3中所述主任务隐含特征和辅助任务隐含特征学习完成后,所述主任务使用多头注意力机制计算主任务隐含特征权重,所述辅助任务使用自注意力机制计算辅助任务隐含特征权重;
11.s5.使用多任务联合学习,使用稀疏分类交叉熵作为损失函数,将所述主任务和辅助任务进行正则化约束,获得所述主任务和辅助任务的权重调整因子,得到引文意图分类系统。
12.更进一步的,所述步骤s1中,所述主任务为引文意图分类任务,所述主任务语料为引文意图分类任务语料;所述辅助任务包括引文位置分类任务和引文价值分类任务,所述引文位置分类任务用于分类引文所在段落的标题,所述引文价值分类任务用于分类一个句子是否包括引用,所述辅助任务语料包括引文位置分类任务语料和引文价值分类任务语料,所述引文位置分类任务语料与引文价值分类任务语料不包含引文意图分类标注。
13.更进一步的,所述步骤s2中,所述input
intent
如公式(1)所示,
14.input
intent
=(scibert(s),feature
ij
(s))
ꢀꢀ
(1)
15.其中,input
intent
为主任务引文意图分类任务的输入,scibert(s)为主任务语料的scibert预训练语言模型表示,i为句子数,j为句子中的单词数,feature
ij
(s)为主任务语料异构特征集;
16.feature
ij
如公式(2)所示,
17.feature
ij
=cat([onehotj(posj,pos_list),patternj,tfidf
ij
,sentij])
ꢀꢀ
(2)
[0018]
其中,onehotj(posj,pos_list)为用独热向量表示的词性标注特征,patternj为句法结构特征,tfidf
ij
表示单词j在句子i中的tf-idf值,sentij是域情感词向量乘以tf-idf向量的加权嵌入表示,
[0019]
patternj包括以下六种句法结构:
[0020]
i)引用+动词+动词[过去/现在/第三人称/过去/过去分词];
[0021]
ii)动词[过去/动名词/第三人称]+动词[动名词/过去分词];
[0022]
iii)动词[所有形式]+(副词[比较级/最高级])+动词+(副词[比较级/最高级])+过去分词;
[0023]
iv)情态动词+(副词[比较级/最高级])+动词+(副词[比较级/最高级])+过去分词;
[0024]
v)(副词[比较级/最高级])+人称代词+(副词[比较级/最高级])+动词[所有形式];
[0025]
vi)动名词+(专有名词+并置连接词+专有名词),
[0026]
tfidf
ij
的计算如(3)所示,
[0027][0028]
其中,d是引文语料库中的一个实例,f
j,d
是实例d中词j的频率,n是引文语料库中的实例数量,nj是包含词j的实例数量。
[0029]
更进一步的,所述步骤s2中,所述辅助任务的引文位置分类任务的输入如公式(4)所示,input
section
=scibert(s
section
')(4)
[0030]
其中,input
section
为引文位置分类任务的输入,scibert(s
section
')为引文位置分类任务的scibert预训练语言模型表示;
[0031]
所述辅助任务的引文位置分类任务的输入如公式(5)所示,
[0032]
input
worth
=scibert(s
worth
')(5)
[0033]
其中,input
worth
为引文价值分类任务的输入,scibert(s
worth
')为引文价值分类任务的scibert预训练语言模型表示。
[0034]
更进一步的,所述步骤s4中,所述主任务在注意权值计算过程中将输入划分为多个子空间,通过多个子空间查询向量、子空间关键信息和子空间单词嵌入向量的权重参数矩阵计算子空间权重,并在这些多个子空间中共享训练参数,得到主任务权重;所述辅助任务在注意权值计算过程中将输入映射到辅助任务查询向量、辅助任务关键信息和辅助任务单词嵌入向量,由辅助任务查询向量和辅助任务关键信息的点积生成辅助任务注意权重图,然后由辅助任务注意权重图和辅助任务单词嵌入向量的点积生成注意加权特征,通过平滑softmax函数的调节因子调整点积,得到辅助任务权重。
[0035]
更进一步的,所述步骤s5中,所述引用价值分类任务使用sigmoid函数作为多任务联合学习的激活函数,所述引文意图分类任务和引文位置分类任务使用softmax函数作为多任务联合学习的激活函数。
[0036]
更进一步的,所述步骤s5中,使用稀疏分类交叉熵作为损失函数,并进行正则化约束,如公式(6)所示,
[0037][0038]
其中,pi是实例属于类别i的概率,是实例不属于类别i的概率,wi是全连接多任务学习层的参数权重矩阵,
[0039]
联合损失函数l(w)如式(7)所示,
[0040][0041]
其中,jj(w)为任务j的损失函数,λi是各项任务的权重调整因子。
[0042]
本发明还提供了一种多任务引文意图分类系统,采用上述多任务引文意图分类系统构建方法得到,包括输入模块、表示模块、上下文特征学习模块、注意力模块、多任务联合学习模块和引文意图输出模块;
[0043]
所述输入模块用于输入数据集并将所述数据集传输给所述表示模块,所述输入模块包括主任务输入模块和辅助任务输入模块,所述主任务输入模块用于输入主任务数据集,所述辅助任务输入模块用于输入辅助任务数据集;
[0044]
所述表示模块用于表示输入的数据集得到输入数据并将所述输入数据传输给所述上下文特征学习模块,所述表示模块包括主任务表示模块和辅助任务表示模块,所述主任务表示模块通过融合异构特征集与scibert预训练语言模型获得主任务输入数据,所述辅助任务表示模块通过scibert预训练语言模型获得辅助任务输入数据;
[0045]
所述上下文特征学习模块用于学习所述输入向量得到隐含特征并将所述隐含特征传输给所述注意力模块,所述上下文特征学习模块包括主任务上下文特征学习模块和辅助任务上下文特征学习模块,所述主任务上下文特征学习模块通过软参数共享约束和
bilstm学习主任务隐含特征,所述辅助任务上下文特征学习模块通过bilstm学习辅助任务隐含特征;
[0046]
所述注意力模块用于根据所述隐含特征计算任务权重并将计算出的所述任务权重传输给所述多任务联合学习模块,所述注意力模块包括主任务注意力模块和辅助任务注意力模块,所述主任务注意力模块通过多头注意力机制计算主任务权重,所述辅助任务注意力模块通过自注意力机制计算辅助任务权重;
[0047]
所述多任务联合学习模块用于使用稀疏分类交叉熵作为损失函数,将所述主任务和辅助任务进行正则化约束,获得所述主任务和辅助任务的权重调整因子,并将所述权重调整因子传输给所述引文意图输出模块;
[0048]
所述引文意图输出模块基于所述权重调整因子输出引文意图分类。
[0049]
本发明还提供了一种多任务引文意图分类系统在引文意图分类中的应用,将待进行引文意图分类的数据集输入到所述多任务引文意图分类系统中,得到引文意图分类数据。
[0050]
本发明提出的一种多任务引文意图分类系统、构建方法及应用,提取异构特征集并与预训练语言模型进行融合,异构特征为引文意图预测提供了有益的信息,基于软参数共享约束和bilstm学习隐含特征,使用多头注意力机制计算主任务权重,使用自注意力机制计算辅助任务权重,可以提取特征空间中有利于引文意图分类的隐含信息,此外,通过设置辅助任务和提取异构特征提高了对实例少的类别的引文意图识别性能,且本发明的系统和方法能够更加精确地对引文意图进行分类,另外,不用通过大量数据进行学习,仅通过学习小数据集,就能够提高引文意图分类任务的精确率和召回率。
附图说明
[0051]
图1本发明实施例1一种多任务引文意图分类系统构建方法流程示意图;
[0052]
图2本发明实施例1一种多任务引文意图分类系统结构示意图;
[0053]
图3本发明实施例2多任务引文意图分类系统的混淆矩阵图;
[0054]
图4本发明实施例2多任务引文意图分类系统移除异构特征集的混淆矩阵图;
[0055]
图5本发明实施例2多任务引文意图分类系统移除两个辅助任务的混淆矩阵图;
[0056]
图6本发明实施例2多任务引文意图分类系统注意力权重可视化图。
具体实施方式
[0057]
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
[0058]
实施例1
[0059]
一种多任务引文意图分类系统构建方法,如图1所示,包括如下步骤:
[0060]
s1.获得主任务的主任务语料和多个辅助任务的辅助任务语料,将所述主任务语料输入scibert预训练语言模型中,获得所述主任务语料的scibert预训练语言模型表示;将多个所述辅助任务语料分别输入scibert预训练语言模型中,获得多个所述辅助任务语料的scibert预训练语言模型表示;
[0061]
在步骤s1中,主任务为引文意图分类任务,主任务语料为引文意图分类任务语料,
作为本实施例的优选方案,辅助任务包括引文位置分类任务和引文价值分类任务,引文位置分类任务用于分类引文所在段落的标题,引文价值分类任务用于分类一个句子是否包括引用,辅助任务语料包括引文位置分类任务语料和引文价值分类任务语料,引文位置分类任务语料与引文价值分类任务语料不包含引文意图分类标注。
[0062]
引文意图分类任务:给定引用句子,判断其引用的意图,引用意图被标注为以下六种类别之一:背景(background),延伸(extentsion),使用(use),赋予动机(motivation),对比(compare)或者后续工作(future work/future)等。引文位置分类任务:科技文献一般遵循一定的结构,比如:先介绍问题,再描述方法、讨论发现的结果,最后对整篇论文进行总结。由于引文意图和引文所在的段落相关,所以该任务就是分类引文所在段落的标题,为多分类任务,将引文分为摘要(introduction),相关工作(related work),方法(method),实验(experiments),结论(conclusion)这五个类别之一。引文价值分类任务:在科技文献中,含有引用的句子和一般句子之间在语言特征上存在很大区别,该任务是判断一个句子是否包括引用,是一个二分类任务,例如:正例(true)为包含引用的句子,负例(false)是不包含引用的句子。对于科技文献,文章的结构和引文意图之间有着一定联系。因此,本实施例中提出了两个和论文结构相关的辅助任务来帮助提升主任务引文意图分类任务系统的表现。
[0063]
s2.提取主任务语料的异构特征集,将提取到的异构特征集与步骤s1中获得的主任务语料的scibert预训练语言模型表示进行融合,得到input
intent
,主任务语料的scibert预训练语言模型表示包括来自scibert的一般语义和科学领域信息,异构特征集包括来自语法、统计和情感特征的异构引文信息;将步骤s1中获得的辅助任务语料的scibert预训练语言模型表示作为input
auxiliary
,同样的,辅助任务语料的scibert预训练语言模型表示包括来自scibert的一般语义和科学领域信息;
[0064]
作为本实施例的优选方案,步骤s2中,input
intent
如公式(1)所示,
[0065]
input
intent
=(scibert(s),feature
ij
(s))
ꢀꢀ
(1)
[0066]
其中,input
intent
为主任务引文意图分类任务的输入,scibert(s)为主任务语料的scibert预训练语言模型表示,i为句子数,j为句子中的单词数,feature
ij
(s)为主任务语料异构特征集;
[0067]
feature
ij
如公式(2)所示,
[0068]
feature
ij
=cat([onehotj(posj,pos_list),patternj,tfidf
ij
,sentij])
ꢀꢀ
(2)
[0069]
其中,onehotj(posj,pos_list)为用独热向量表示的词性标注特征,patternj为句法结构特征,tfidf
ij
表示单词j在句子i中的tf-idf值,sentij是域情感词向量乘以tf-idf向量的加权嵌入表示,
[0070]
patternj包括以下六种句法结构:
[0071]
i)引用+动词+动词[过去/现在/第三人称/过去/过去分词];
[0072]
ii)动词[过去/动名词/第三人称]+动词[动名词/过去分词];
[0073]
iii)动词[所有形式]+(副词[比较级/最高级])+动词+(副词[比较级/最高级])+过去分词;
[0074]
iv)情态动词+(副词[比较级/最高级])+动词+(副词[比较级/最高级])+过去分词;
[0075]
v)(副词[比较级/最高级])+人称代词+(副词[比较级/最高级])+动词[所有形
式];
[0076]
vi)动名词+(专有名词+并置连接词+专有名词),
[0077]
tfidf
ij
的计算如(3)所示,
[0078][0079]
其中,d是引文语料库中的一个实例,f
j,d
是实例d中词j的频率,n是引文语料库中的实例数量,nj是包含词j的实例数量。
[0080]
步骤s2中,辅助任务的引文位置分类任务的输入如公式(4)所示,
[0081]
input
section
=scibert(s
section
')
ꢀꢀ
(4)
[0082]
其中,input
section
为引文位置分类任务的输入,scibert(s
section
')为引文位置分类任务的scibert预训练语言模型表示;
[0083]
辅助任务的引文位置分类任务的输入向量如公式(5)所示,
[0084]
input
worth
=scibert(s
worth
')
ꢀꢀ
(5)
[0085]
其中,input
worth
为引文价值分类任务的输入,scibert(s
worth
')为引文价值分类任务的scibert预训练语言模型表示。
[0086]
s3.通过软参数共享约束和bilstm学习步骤s2得到的input
intent
中的隐含特征;通过bilstm学习步骤s2得到input
auxiliary
中的隐含特征;
[0087]
s4.步骤s3中主任务隐含特征和辅助任务隐含特征学习完成后,主任务使用多头注意力机制计算主任务隐含特征权重,多头注意力机制除了可以提高训练效率外,多头注意力机制在注意权值计算过程中将输入向量划分为多个子空间,并在这些多个子空间中共享训练参数,进一步优化了整体训练性能,辅助任务使用自注意力机制计算辅助任务隐含特征权重;
[0088]
作为本实施例的优选,步骤s4中,主任务在注意权值计算过程中将输入划分为多个子空间,通过多个子空间查询向量、子空间关键信息和子空间单词嵌入向量的权重参数矩阵计算子空间权重,并在这些多个子空间中共享训练参数,得到主任务隐含特征权重;辅助任务在注意权值计算过程中将输入映射到辅助任务查询向量、辅助任务关键信息和辅助任务单词嵌入向量,由辅助任务查询向量和辅助任务关键信息的点积生成辅助任务注意权重图,然后由辅助任务注意权重图和辅助任务单词嵌入向量的点积生成注意加权特征,通过平滑softmax函数的调节因子调整点积,得到辅助任务隐含特征权重。
[0089]
s5.使用多任务联合学习,使用稀疏分类交叉熵作为损失函数,将所述主任务和辅助任务进行正则化约束,获得所述主任务和辅助任务的权重调整因子,得到引文意图分类系统。
[0090]
作为本实施例的优选,步骤s5中,引用价值分类任务使用sigmoid函数作为多任务联合学习的激活函数,引文意图分类任务和引文位置分类任务使用softmax函数作为多任务联合学习的激活函数。
[0091]
步骤s5中,使用稀疏分类交叉熵作为损失函数,并进行正则化约束,如公式(6)所示,
[0092]
[0093]
其中,pi是实例属于类别i的概率,是实例不属于类别i的概率,wi是全连接多任务学习层的参数权重矩阵,
[0094]
联合损失函数l(w)如式(7)所示,
[0095][0096]
其中,jj(w)为任务j的损失函数,λi是各项任务的权重调整因子。
[0097]
本发明还提供了一种多任务引文意图分类系统,采用上述多任务引文意图分类系统构建方法得到,如图2所示,包括输入模块、表示模块、上下文特征学习模块、注意力模块、多任务联合学习模块和引文意图输出模块;
[0098]
输入模块用于输入数据集并将数据集传输给表示模块,输入模块包括主任务输入模块和辅助任务输入模块,主任务输入模块用于输入主任务数据集,辅助任务输入模块用于输入辅助任务数据集;
[0099]
表示模块用于表示输入的数据集得到输入数据并将输入数据传输给上下文特征学习模块,表示模块包括主任务表示模块和辅助任务表示模块,主任务表示模块通过融合异构特征集与scibert预训练语言模型获得主任务输入数据,辅助任务表示模块通过scibert预训练语言模型获得辅助任务输入数据;
[0100]
上下文特征学习模块用于学习输入向量得到隐含特征并将隐含特征传输给注意力模块,上下文特征学习模块包括主任务上下文特征学习模块和辅助任务上下文特征学习模块,主任务上下文特征学习模块通过软参数共享约束和bilstm学习主任务隐含特征,辅助任务上下文特征学习模块通过bilstm学习辅助任务隐含特征;
[0101]
注意力模块用于根据隐含特征计算任务权重并将计算出的任务权重传输给多任务联合学习模块,注意力模块包括主任务注意力模块和辅助任务注意力模块,主任务注意力模块通过多头注意力机制计算主任务权重,辅助任务注意力模块通过自注意力机制计算辅助任务权重;
[0102]
多任务联合学习模块用于使用稀疏分类交叉熵作为损失函数,将主任务和辅助任务进行正则化约束,获得主任务和辅助任务的权重调整因子,并将权重调整因子传输给引文意图输出模块;
[0103]
引文意图输出模块基于权重调整因子输出引文意图分类。
[0104]
本发明还提供了一种多任务引文意图分类系统在引文意图分类中的应用,将待进行引文意图分类的数据集输入到多任务引文意图分类系统中,得到引文意图分类数据。
[0105]
实施例2
[0106]
本实施例使用公开的引文分析数据集acl-arc作为基准数据集,来比较本发明提出的系统的性能。在acl-arc数据集中,由领域专家在自然语言处理领域人工标注了三个任务,分别是引文意图分类任务、引文价值分类任务和引文位置分类任务。该语料库中各个任务的语料标注数据不同,其中,引文意图分类任务语料子数据集包括1941个实例,根据act注释系统分为6类,包括:背景(background),延伸(extentsion),使用(use),赋予动机(motivation),对比(compare/contrast)和后续工作(future work/future)。引文价值分类任务语料子数据集包含5万个实例,分为两个类别:正例(true)为包含引用的句子,负例(false)是不包含引用的句子,其中只有14%属于“true”正例即“有价值”类别,属于不平衡
数据集。引文位置子数据集有47,757个实例,分为五个类别:摘要(introduction),相关工作(related work),方法(method),实验(experiments)和结论(conclusion),其中45%属于5个类别中的“introduction”摘要类别。表1详细显示了acl-arc数据集的数据分布情况。
[0107]
表1acl-arc数据集的分布
[0108][0109]
实验中将acl-arc数据集分为三组,其中85%的数据用于训练,剩下的15%被平均分为验证集和测试集。深度学习的超参数epoch设置为20,批量大小batch size设置为32,学习率learning rate设置为0.001。各任务的权重调整因子λi通过网格搜索进行优化,以0.01为步长进行搜索,以获得多任务在验证集上的最佳性能。主任务引文意图分类任务的权重调整因子λ0设置为1,引文价值分类任务的权重调整因子λ1设置为0.1,引文位置分类任务的权重调整因子λ2设置为0.08。为了避免结果的偶然性,实验重复了20次并记录平均值作为最终结果。
[0110]
为了评估本研究提出的多任务引文意图分类系统(mtcic),与acl-arc数据集上的主要基线和消融模型进行比较,对照实验方法如下:
[0111]
实验方法1:jurgens等人的random forest。该实验方法使用随机森林算法,特征集包括基于模式的特征、主题建模特征、引文图特征、章节标题和章节位置特征。
[0112]
实验方法2:cohan等人的bilstm-attn-elmo。该实验方法使用elmo和glove词向量作为具有注意机制的bilstm网络的输入,只使用引文意图分类主任务的损失函数对网络进行优化。
[0113]
实验方法3:cohan等人的structural-scaffold。该实验方法采用基于硬约束的structural-scaffold多任务结构,使用elmo和glove词向量作为输入,利用多任务损失函数对网络进行优化。
[0114]
实验方法4:beltagy等人的scibert finetune。该基线使用微调后的scibert预训练模型作为引文意图分类任务的全连接层的输入。
[0115]
实验方法5:多任务引文意图分类系统(mtcic)。本发明提出的系统,以scibert和异构特征作为输入,同时处理引文意图分类任务、引文价值分类任务和引文位置分类任务等多分类任务,输出记录引文意图分类的结果。
[0116]
实验方法6:多任务引文意图分类系统移除异构特征集(mtcic without features),只有scibert作为输入。仅以scibert作为输入,同时处理引文意图分类任务、引
文价值分类任务和引文位置分类任务等多分类任务,输出记录引文意图分类的结果。
[0117]
实验方法7:多任务引文意图分类系统移除引文位置分类任务(mtcic without section-task)。以scibert和异构特征作为输入,同时处理引文意图分类任务和引文价值分类任务的多分类任务,输出记录引文意图分类的结果。
[0118]
实验方法8:多任务引文意图分类系统移除引文价值分类任务(mtcic without worthiness-task)。以scibert和异构特征作为输入,同时处理引文意图分类任务和引文位置分类任务的多分类任务,输出记录引文意图分类的结果。
[0119]
实验方法9:多任务引文意图分类系统移除两个辅助任务(mtcic without any auxiliary task)。以scibert和异构特征作为输入,仅处理引文意图分类任务,输出记录引文意图分类的结果。
[0120]
实验方法10:多任务引文意图分类系统移除多头注意力机制(mtcic without multi-head)。以scibert和异构特征作为输入,同时处理引文意图分类任务、引文价值分类任务和引文位置分类任务等多分类任务,去掉了多头注意力的多任务引文意图分类系统(mtcic),输出记录引文意图分类的结果。
[0121]
以上实验在acl-arc数据集上的实验结果如表2所示,每个指标的最高值,表示为粗体。
[0122]
表2引文意图分类结果与基线分类结果的比较
[0123][0124][0125]
首先,观察到本发明提出的多任务引文意图分类系统(mtcic)在引文意图分类任务上比现有的方法取得了明显的改进。总体而言多任务引文意图分类系统(mtcic)显著提高了关键指标的分类性能,与实验方法1中jurgens等人的random forest相比,多任务引文意图分类系统(mtcic)的marco-f1提高21.18%,召回率(macro recal)提高22.9%,精确率(marco precision)提高17.17%。与实验方法3中cohan等人的structural-scaffold相比,多任务引文意图分类系统(mtcic)的marco-f1提高7.88%,召回率(macro recal)提高10.3%,精确率(marco precision)提高0.77%。这一结果表明,与基于词向量表示和硬约束多任务框架的structural-scaffold相比,本发明提出的具有正则化约束的联合异构引文表示模型和多任务框架为引文意图分类提供了有益的信息。
[0126]
此外,与实验方法2中cohan等人的bilstm-attn-elmo的scibert微调模型相比,多任务引文意图分类系统(mtcic)的marco-f1的优势明显,证明了引文意图分类性能的改进
主要来自异构特征和正则化约束多任务框架,而不是来自scibert预训练语言模型。
[0127]
在表2的消融实验结果中,实验方法6多任务引文意图分类系统移除异构特征集(mtcic without features)中,当移除异构特征集后,marco-f1从75.78%下降到73.21%,表明异构特征为引文意图预测提供了有益的信息。实验方法10多任务引文意图分类系统移除多头注意力机制(mtcic without multi-head)中,当移除多头注意力机制后,marco-f1从75.78%下降至74.43%,表明多头注意力机制有助于提取特征空间中有利于引文意图分类的隐含信息。在任务消融实验中,实验方法7多任务引文意图分类系统移除引文位置分类任务(mtcic without section-task)中,移除引文位置分类任务后,marco-f1从75.78%下降到73.27%;实验方法8多任务引文意图分类系统移除引文价值分类任务(mtcic without worthiness-task)中,移除引文价值分类任务后,marco-f1从75.78%下降至73.07%;实验方法9多任务引文意图分类系统移除两个辅助任务(mtcic without any auxiliary task)中,当两个辅助任务都被移除后,marco-f1从75.78%下降到72.75%。这表明,引文位置分类任务和引文价值分类任务这两种辅助任务分别为引文意图分类任务提供了有益的补充信息。
[0128]
由于acl-arc数据集中6个引文意图类别的分布明显不平衡,如表1所示,在实验结果中,micro f1、精确率和召回率受实例多的类别影响很大。为了观察mtcic在各个类别上的性能,本实施例中记录了在acl-arc数据集中所有引文意图类别实例上的分类结果,如表3所示,其中,各个类别上最高的两个micro f1分数以粗体显示。可以观察到,与基线模型相比,本实施例提出的多任务引文意图分类系统在大多数类别中获得了更高的marco f1值,包括“背景(background)”类别和一些实例少的类别,如“延伸(extentsion)”、“后续工作(future work/future)”、“赋予动机(motivation)”和“使用(use)”。而大多数基线模型,如cohan等人的structural-scaffold,在“背景(background)”类别中获得了更高的f1,但在实例少的类别,如如“延伸(extentsion)”、“后续工作(future work/future)”、“赋予动机(motivation)”和“使用(use)”等的marco-f1明显较低。
[0129]
表3各个类别上的实验结果
[0130][0131]
最高的两个micro f1分数以粗体显示,p:精确率,r:召回率,f1:micro f1。
[0132]
在消融模型中,当多任务引文意图分类系统移除异构特征集(mtcic without features)时,“延伸(extentsion)”、“后续工作(future work/future)”和“使用(use)”类别的marco-f1显著降低,证明异构特征有助于引文意图识别。当多任务引文意图分类系统移除引文价值分类任务(mtcic without worthiness-task)时,实例少的类别marco-f1显著降低。当多任务引文意图分类系统移除引文位置分类任务(mtcic without section-task)时,“后续工作(future work/future)”、“赋予动机(motivation)”和“使用(use)”类
别的marco-f1得分显著降低。当多任务引文意图分类系统移除多头注意力机制(mtcic without multi-head)时,“延伸(extentsion)”、“后续工作(future work/future)”和“使用(use)”类别的marco-f1显著降低,这表明,多头注意力机制提高了对实例少的引文意图类别的识别能力。
[0133]
为观察多任务引文意图分类系统在处理不平衡数据集时的性能,选择多任务引文意图分类系统(mtcic)、多任务引文意图分类系统移除异构特征集(mtcic without features)和多任务引文意图分类系统移除两个辅助任务(mtcic without any auxiliary task)的混淆矩阵,如图3-5所示。从图3-5可以看出,仍然有一些“背景(background)”和“对比(compare)”实例被错误地分类。“背景(background)”、“对比(compare)”和“后续工作(future work/future)”的几个实例被错误分类为“使用(use)”,而“赋予动机(motivation)”的错误实例主要被错误分类为“对比(compare)”或“背景(background)”。当多任务引文意图分类系统移除异构特征集(mtcic without features)时,“背景(background)”更容易与“延伸(extentsion)”、“后续工作(future work/future)”或“赋予动机(motivation)”相混淆;“对比(compare)”和“背景(background)”之间的混淆更多。“后续工作(future work/future)”的实例更有可能被误分类为“背景(background)”;“使用(use)”的实例更多被错误分类为“背景(background)”、“对比(compare)”或“后续工作(future work/future)”。当多任务引文意图分类系统移除两个辅助任务(mtcic without any auxiliary task)时,“背景(background)”、“对比(compare)”和“使用(use)”的真阳性率(true positive rate)较低,并且“使用(use)”被错误地归类为“延伸(extentsion)”或“后续工作(future work/future)”。但是,mtcic的单任务模型在“延伸(extentsion)”类别上表现得更好,可能是因为来自两个辅助任务的信息对“延伸(extentsion)”类别的判断有轻微干扰。
[0134]
为了更深入地了解多任务的机制如何帮助多任务引文意图分类系统(mtcic)改进引文意图分类,检查了输入实例每个词获得的注意力权重,对实例“we will examine the worst-case complexity of interpretation as well as generation to shed some light on the hypothesis that vague descriptions are more difficult to process than others because they involve a comparison between objects(beun and cremers 1998,krahmer and theune 2002)”进行研究,这个实例的真实标签是“background”。
[0135]
图6显示了多任务的多任务引文意图分类系统(mtcic)与多任务引文意图分类系统移除两个辅助任务(mtcic without any auxiliary task)中,输入实例的注意力权重热力图。从图4可以看出,多任务的多任务引文意图分类系统(mtcic)更重视“generation to shed”和“comparison between objects”周围的单词,并为这个实例预测出真实的标签,这是合理的。而多任务引文意图分类系统移除两个辅助任务(mtcic without any auxiliary task)最关注“examine the worst-case”,因此错误地被预测为“compare”标签。由于这两个模型之间的唯一区别是是否包含辅助任务,这说明了辅助任务为引文意图分类主任务提供了有用的信息。
[0136]
本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选
择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
技术特征:
1.一种多任务引文意图分类系统构建方法,其特征在于,包括如下步骤:s1.获得主任务的主任务语料和多个辅助任务的辅助任务语料,将所述主任务语料输入scibert预训练语言模型中,获得所述主任务语料的scibert预训练语言模型表示;将多个所述辅助任务语料分别输入scibert预训练语言模型中,获得多个所述辅助任务语料的scibert预训练语言模型表示;s2.提取主任务语料的异构特征集,将提取到的异构特征集与步骤s1中获得的所述主任务语料的scibert预训练语言模型表示进行融合,得到inputintent;将步骤s1中获得的所述辅助任务语料的scibert预训练语言模型表示作为input
auxiliary
;s3.通过软参数共享约束和bilstm学习步骤s2得到的inputintent中的隐含特征;通过bilstm学习步骤s2得到input
auxiliary
中的隐含特征;s4.步骤s3中所述主任务隐含特征和辅助任务隐含特征学习完成后,所述主任务使用多头注意力机制计算主任务隐含特征权重,所述辅助任务使用自注意力机制计算辅助任务隐含特征权重;s5.多任务联合学习,使用稀疏分类交叉熵作为损失函数,将所述主任务和辅助任务进行正则化约束,获得所述主任务和辅助任务的权重调整因子,得到引文意图分类系统。2.根据权利要求1所述的一种多任务引文意图分类系统构建方法,其特征在于,所述步骤s1中,所述主任务为引文意图分类任务,所述主任务语料为引文意图分类任务语料;所述辅助任务包括引文位置分类任务和引文价值分类任务,所述引文位置分类任务用于分类引文所在段落的标题,所述引文价值分类任务用于分类一个句子是否包括引用,所述辅助任务语料包括引文位置分类任务语料和引文价值分类任务语料,所述引文位置分类任务语料与引文价值分类任务语料不包含引文意图分类标注。3.根据权利要求2所述的一种多任务引文意图分类系统构建方法,其特征在于,所述步骤s2中,所述input
intent
如公式(1)所示,inputi
ntent
=(scibert(s),feature
ij
(s))(1)其中,input
intent
为主任务引文意图分类任务的输入,scibert(s)为主任务语料的scibert预训练语言模型表示,i为句子数,j为句子中的单词数,feature
ij
(s)为主任务语料异构特征集;feature
ij
如公式(2)所示,feature
ij
=cat([onehot
j
(pos
j
,pos_list),pattern
j
,tfidf
ij
,senti
j
]) (2)其中,onehot
j
(pos
j
,pos_list)为用独热向量表示的词性标注特征,pattern
j
为句法结构特征,tfidf
ij
表示单词j在句子i中的tf-idf值,senti
j
是域情感词向量乘以tf-idf向量的加权嵌入表示,pattern
j
包括以下六种句法结构:i)引用+动词+动词[过去/现在/第三人称/过去/过去分词];ii)动词[过去/动名词/第三人称]+动词[动名词/过去分词];iii)动词[所有形式]+(副词[比较级/最高级])+动词+(副词[比较级/最高级])+过去分词;iv)情态动词+(副词[比较级/最高级])+动词+(副词[比较级/最高级])+过去分词;v)(副词[比较级/最高级])+人称代词+(副词[比较级/最高级])+动词[所有形式];
vi)动名词+(专有名词+并置连接词+专有名词),tfidf
ij
的计算如(3)所示,其中,d是引文语料库中的一个实例,f
j,d
是实例d中词j的频率,n是引文语料库中的实例数量,n
j
是包含词j的实例数量。4.根据权利要求2所述的一种多任务引文意图分类系统构建方法,其特征在于,所述步骤s2中,所述辅助任务的引文位置分类任务的输入如公式(4)所示,input
section
=scibert(s
section
')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,input
section
为引文位置分类任务的输入,scibert(s
section
')为引文位置分类任务的scibert预训练语言模型表示;所述辅助任务的引文位置分类任务的输入如公式(5)所示,input
worth
=scibert(s
worth
')
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)其中,input
worth
为引文价值分类任务的输入,scibert(s
worth
')为引文价值分类任务的scibert预训练语言模型表示。5.根据权利要求2所述的一种多任务引文意图分类系统构建方法,其特征在于,所述步骤s4中,所述主任务在注意权值计算过程中将输入划分为多个子空间,通过多个子空间查询向量、子空间关键信息和子空间单词嵌入向量的权重参数矩阵计算子空间权重,并在这些多个子空间中共享训练参数,得到主任务隐含特征权重;所述辅助任务在注意权值计算过程中将输入映射到辅助任务查询向量、辅助任务关键信息和辅助任务单词嵌入向量,由辅助任务查询向量和辅助任务关键信息的点积生成辅助任务注意权重图,然后由辅助任务注意权重图和辅助任务单词嵌入向量的点积生成注意加权特征,通过平滑softmax函数的调节因子调整点积,得到辅助任务隐含特征权重。6.根据权利要求2所述的一种多任务引文意图分类系统构建方法,其特征在于,所述步骤s5中,所述引用价值分类任务使用sigmoid函数作为多任务联合学习的激活函数,所述引文意图分类任务和引文位置分类任务使用softmax函数作为多任务联合学习的激活函数。7.根据权利要求2所述的一种多任务引文意图分类系统构建方法,其特征在于,所述步骤s5中,使用稀疏分类交叉熵作为损失函数,并进行正则化约束,如公式(6)所示,其中,p
i
是实例属于类别i的概率,是实例不属于类别i的概率,w
i
是全连接多任务学习层的参数权重矩阵,联合损失函数l(w)如式(7)所示,其中,j
j
(w)为任务j的损失函数,λ
i
是各项任务的权重调整因子。8.一种多任务引文意图分类系统,其特征在于,采用权利要求1-7任一项所述的多任务引文意图分类系统构建方法得到,包括输入模块、表示模块、上下文特征学习模块、注意力模块、多任务联合学习模块和引文意图输出模块;
所述输入模块用于输入数据集并将所述数据集传输给所述表示模块,所述输入模块包括主任务输入模块和辅助任务输入模块,所述主任务输入模块用于输入主任务数据集,所述辅助任务输入模块用于输入辅助任务数据集;所述表示模块用于表示输入的数据集得到输入数据并将所述输入数据传输给所述上下文特征学习模块,所述表示模块包括主任务表示模块和辅助任务表示模块,所述主任务表示模块通过融合异构特征集与scibert预训练语言模型获得主任务输入数据,所述辅助任务表示模块通过scibert预训练语言模型获得辅助任务输入数据;所述上下文特征学习模块用于学习所述输入向量得到隐含特征并将所述隐含特征传输给所述注意力模块,所述上下文特征学习模块包括主任务上下文特征学习模块和辅助任务上下文特征学习模块,所述主任务上下文特征学习模块通过软参数共享约束和bilstm学习主任务隐含特征,所述辅助任务上下文特征学习模块通过bilstm学习辅助任务隐含特征;所述注意力模块用于根据所述隐含特征计算任务权重并将计算出的所述任务权重传输给所述多任务联合学习模块,所述注意力模块包括主任务注意力模块和辅助任务注意力模块,所述主任务注意力模块通过多头注意力机制计算主任务权重,所述辅助任务注意力模块通过自注意力机制计算辅助任务权重;所述多任务联合学习模块用于使用稀疏分类交叉熵作为损失函数,将所述主任务和辅助任务进行正则化约束,获得所述主任务和辅助任务的权重调整因子,并将所述权重调整因子传输给所述引文意图输出模块;所述引文意图输出模块基于所述权重调整因子输出引文意图分类。9.一种如权利要求8所述的系统在引文意图分类中的应用,其特征在于,将待进行引文意图分类的数据集输入到所述多任务引文意图分类系统中,得到引文意图分类数据。
技术总结
本发明提出一种多任务引文意图分类系统构建方法,包括:获得任务语料和多个辅助任务语料,将主任务语料输入SciBERT预训练语言模型中,获得主任务语料的SciBERT预训练语言模型表示;将多个辅助任务语料分别输入SciBERT预训练语言模型中,获得多个辅助任务语料的SciBERT预训练语言模型表示;提取主任务语料的异构特征集,将提取到的异构特征集与主任务语料的SciBERT预训练语言模型表示进行融合,得到Input
技术研发人员:祁瑞华 刘鑫 陈恒 郭旭
受保护的技术使用者:大连外国语大学
技术研发日:2023.04.13
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种液压摆动缸 下一篇:一种超声波检测定位装置和方法与流程