一种多标签文本分类方法、系统及设备

未命名 09-15 阅读:112 评论:0


1.本发明涉及文本分类领域,特别是涉及一种多标签文本分类方法、系统及设备。


背景技术:

2.当前,大学课程思政和伦理教育方兴未艾。大学迫切需要培养负责任的公民,以对社会做出道德承诺。《华盛顿协议》作为国际工程师互认系统最权威的协议之一,其中12项毕业生属性有7项涉及帮助培养学术和职业能力的价值观和态度,如道德意识、工程伦理、批判性思维、沟通、协作、创造力和信心等。然而,这些毕业生属性由于其抽象特征而难以评估,阻碍了工程教育持续改进的实施。
3.近年来,随着智能技术的快速发展以及计算机和手机的便携性日益增强,在线教学平台已席卷全球。这些平台允许教师在课程中列出一些价值观主题或发送相关问卷,并邀请学生参与讨论。这些反馈的评论文本或答案反映了学生对某一价值观的情绪或态度,并成为评估其价值观的重要资源。然而,一方面,手动文本阅读和分析耗时费力,且无法覆盖大量学生在线课程的大量文本;另一方面,教师的人工评价存在主观性问题。
4.使用人工智能技术和自然语言处理技术基于文本分类方法解决学生价值观等观点评价问题还未有人涉足。
5.传统的基于机器学习的文本分类方法从文本中提取手工制作的特征然后将这些特征输入机器学习模型,如贝叶斯模型、支持向量机、隐马尔可夫模型或随机树等,用于文本分类。然而,这些方法需要繁琐的特征工程和分析以获得良好的性能,并且对新任务的推广是有限的。随着人工神经网络技术的巨大进步,许多深度学习模型已被应用于文本分类。例如,递归神经网络、卷积神经网络、图形神经网络和基于变换器的模型。由于这些深度学习模型能够从文本中提取丰富的局部或全局语义信息,因此在文本分类方面取得了良好的效果。特别是当transformer或bert模型出现时,由于引入了注意机制,因此能够捕获非连续短语和长距离单词依赖语义,因此在许多自然语言处理任务上比其他方法获得了更好的性能增益。
6.然而,现有的深度学习方法在中文观点文本分类和评价中也存在局限性。一方面,学生通常使用各种形式的自由文本来表达他们对同一问题的观点,其中观点文本可能在句子结构、语言风格和文本长度方面存在显著差异。此外,真实的中文文本对价值观或态度的看法往往具有相对较长的文本、复杂的语义信息、复杂的词性和较强的上下文信息相关性。因此,从学生的文本观点中获得更深入的语义理解仍然具有挑战性。另一方面,深度学习方法是一种完全有监督的机器学习,它依赖于大量干净的训练数据。因此,有必要准确地注释训练语料库中的每个文本观点样本。然而,这是非常耗时的,因为大多数文本观点都是自由表达的。因此,用于训练语料库的可用数据的大小将很小(可能只有几百而不是传统深度学习任务中的数万),并且由于手工标注中存在不完整或错误的标签,因此数据集存在较大噪声。


技术实现要素:

7.本发明的目的是提供一种多标签文本分类方法、系统及设备,能够提高对认知观点文本分类的准确性和效率。
8.为实现上述目的,本发明提供了如下方案:
9.一种多标签文本分类方法,包括:
10.获取学生对可持续发展的认知观点文本数据集;认知观点文本数据集中每一认知观点文本样本对应多个标签;
11.对每一认知观点文本样本进行预处理,得到相应的文本token序列;
12.利用预处理后的认知观点文本数据集,训练由bert模型与coteaching模型结合得到的bert-ct多标签文本分类模型,得到训练好的bert-ct多标签文本分类模型;
13.利用训练好的bert-ct多标签文本分类模型对待分类的认知观点文本进行分类。
14.可选地,所述对每一认知观点文本样本进行预处理,得到相应的文本token序列,具体包括:
15.利用bert分词器中的wordpiece对认知观点文本样本的每个词和标点进行分字;每个字作为一个token;
16.在分字后的文本的开头和结尾分别加入token标记符;
17.加载google开源的vocab.txt文件作为字典;
18.根据字典将添加标记符后的文本转换成文本token序列。
19.可选地,所述文本token序列的长度为500个字;当文本token序列的长度小于500个字时,用0进行填充。
20.可选地,所述bert-ct多标签文本分类模型的训练过程为:
21.设置学习参数;所述学习参数包括:学习率、噪声率、轮次、迭代次数、隐藏单元、层数、自注意力机制的头数、小批量数据集样例数以及分类层权重;
22.获取两个训练好的bert模型,并得到相应的权重参数;
23.从预处理后的认知观点文本数据集中获取训练数据集,结合coteaching模型,并基于两个训练好的bert模型进行分类,得到更新后的权重参数。
24.一种多标签文本分类系统,包括:
25.数据集获取模块,用于获取学生对可持续发展的认知观点文本数据集;认知观点文本数据集中每一认知观点文本样本对应多个标签;
26.预处理模块,用于对每一认知观点文本样本进行预处理,得到相应的文本token序列;
27.模型训练模块,用于利用预处理后的认知观点文本数据集,训练由bert模型与coteaching模型结合得到的bert-ct多标签文本分类模型,得到训练好的bert-ct多标签文本分类模型;
28.分类模块,用于利用训练好的bert-ct多标签文本分类模型对待分类的认知观点文本进行分类。
29.一种多标签文本分类设备,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现所述的方法。
30.可选地,所述存储器为计算机可读存储介质。
31.根据本发明提供的具体实施例,本发明公开了以下技术效果:
32.本发明所提供的一种多标签文本分类方法、系统及设备,建立学生对可持续发展的认知观点文本数据集,并通过训练bert-ct多标签文本分类模型将bert模型扩展到多标签文本分类中,并引入coteaching模型解决数据集标签噪声问题。本发明能够有效地用于文本数据集上的多标签分类,能够提高对认知观点文本分类的准确性和效率。
附图说明
33.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1为本发明所提供的一种多标签文本分类方法流程示意图;
35.图2为数据预处理流程示意图;
36.图3为bert-ct模型与bert模型对比示意图;
37.图4为bert-ct模型的准确度与epoch的关系示意图;
38.图5为bert-ct模型的精确率与epoch的关系示意图;
39.图6为bert-ct模型的召回率与epoch的关系示意图
40.图7为bert-ct模型的f1值与epoch的关系示意图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.本发明的目的是提供一种多标签文本分类方法、系统及设备,能够提高对认知观点文本分类的准确性和效率。
43.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
44.如图1所示,本发明所提供的一种多标签文本分类方法,包括:
45.s101,获取学生对可持续发展的认知观点文本数据集;认知观点文本数据集中每一认知观点文本样本对应多个标签;
46.通过主观题问卷调查方式构建学生对可持续发展的认知观点文本数据集。数据集中包含样例共763个,最长样例长度为484个字,最短文本的长度为141个字,样本长度中位数为262,所有样本的平均长度为260个字。每个样例涉及如下5个方面的部分或全部:(a)工程在解决人类生存和提高生活质量方面的应用(b)工程对经济和社会发展的影响(c)工程与资源消耗之间的关系,环境污染和生态破坏(d)工程创新与可持续发展之间的关系(e)工程在解决经济发展和社会繁荣的不均衡分布方面的作用。将这5方面设置为类标签。每个文本样本可分配0-5个类标签。表1显示了一个正确分类的样本。表2显示了一个错误分类的样
本。
47.其中,表1显示了一个正确分类的样本。表2显示了一个错误分类的样本。表1正确分类的样本示例:“a.工程在人类生存与提升生活质量等方面的应用”;“b.工程对经济、社会发展的作用”;“c.工程对资源消耗、环境污染和生态破坏的关系”;“d.工程创新与可持续发展的关系”;“e.工程在解决经济发展和社会繁荣分布不均衡方面的作用”。表1如下:
48.表1
[0049][0050][0051]
表2为错误分类的样本示例:该样本被人工标注为[1,1,1,1,1],表示文本中含有有四个观点a、b、c、d,但实际上只包含三个观点a、b、c。表2如下:
[0052]
表2
[0053][0054]
s102,对每一认知观点文本样本进行预处理,得到相应的文本token序列;预处理的流程如图2所示。
[0055]
s102具体包括:
[0056]
利用bert分词器中的wordpiece对认知观点文本样本的每个词和标点进行分字;每个字作为一个token;
[0057]
在分字后的文本的开头和结尾分别加入token标记符[cls]和[sep];
[0058]
加载google开源的vocab.txt文件作为字典;
[0059]
根据字典将添加标记符后的文本转换成文本token序列。文本token序列的长度为500个字;当文本token序列的长度小于500个字时,用0进行填充。
[0060]
预处理后的认知观点文本数据集包含c类n个样本,表示为d={(t1,l1),(t2,l2),...,(ti,li),...,(tn,ln)},其中ti(i=1,2,...,n)表示一个学生的观点文本,li=(l
i1
,l
i2
,...,l
ij
,...,l
ic
)(i=1,2,...,n)(j=1,2,...,c)是文本ti对应的标签向量。li中的每个元素l
ij
取值为1或0,表示某个标签是否属于第j类。观点文本ti被表示为token序列,记做其中xk是文本ti的第i个标记,mi是第i个文本的长度。为新的测试文本t分配类标签l∈rc。
[0061]
s103,利用预处理后的认知观点文本数据集,训练由bert模型与coteaching模型结合得到的bert ct多标签文本分类模型,得到训练好的bert ct多标签文本分类模型;
[0062]
s103所述bert ct多标签文本分类模型的训练过程为:
[0063]
设置学习参数;所述学习参数包括:学习率、噪声率、轮次、迭代次数、隐藏单元、层数、自注意力机制的头数、小批量数据集样例数以及分类层权重;
[0064]
获取两个训练好的bert模型,并得到相应的权重参数;
[0065]
从预处理后的认知观点文本数据集中获取训练数据集,结合coteaching模型,并基于两个训练好的bert模型进行分类,得到更新后的权重参数。
[0066]
以下通过具体的实施例进行说明:
[0067]
[0068][0069]
d表示一个小批量数据集,样例数为b表示一个随机初始化的bert模型,表示基于模型b在小批量数据集上选择的“干净”样例数据集,样例数为l(
·
)表示损失函数,使用bce损失函数,r表示要选出的“干净”样例数与小批量数据集中样例数nd的比值,即t

为调整比值r更新速度的参数。
[0070]
s104,利用训练好的bert ct多标签文本分类模型对待分类的认知观点文本进行分类。
[0071]
所有实验都是在windows计算机上进行的,计算机硬件为英特尔酷睿i7-4790 cpu@3.6ghz,16gb ram,为了使模型更快的训练,使用nvidia gpu进行加速。实验代码是基于pytorch 1.7框架的深度学习和python 3.7实验语言构建的。噪声率是通过具有噪声标签的样本数量与具有的真实标签的样本的数量之比计算的。实验中选用的主干网络为bert网络,运行资源为titan rtx,采用adam优化器,初始学习率为0.001,最大epoch为200。
[0072]
文本多标签分类的效果通常通过准确度(acc)、精确率(p)、召回率(r)、f1值(f1)和汉明损失hl来衡量。acc表示为正确分类的样本占全部样本的比例。p表示那些被预测为真的样本中实际为真的概率。r表示那些实际为真的样本中被预测为真的概率。精确率和召
回率结合在一起的综合指标被称为f1值。该值是精度和召回率的平均值,数值越大,系统的性能越好。汉明损失表示为错误分类标签的平均百分比。汉明损失值越小,所测试的模型越有效。所有指标的数学形式如下:
[0073][0074][0075][0076][0077][0078]
其中,n表示样本总数;i={1,...,n};和yi分别表示预测标签和真实标签;c表示标签总数。
[0079]

bert和bert-ct的比较
[0080]
从图3中可以看出,损失值先是逐渐降低,然后趋于平缓。并且bert-ct的loss值明显低于bert的loss值,即bert-ct的性能明显优于bert模型。
[0081]
图4-图7分别显示了验证集的准确率、精确率、召回率和f1值随epoch的变化曲线。可见,召回率和f1的值首先先达到很高的水平,然后逐渐平稳,并且bert-ct的各项指标都比bert模型更为优异。实验结果表明,bert-ct在噪声率为20%的情况下,分类效果显著优于bert。
[0082]
本发明首先通过问卷调查从大学生中收集的关于“可持续发展”的观点文本数据。然后,将bert模型扩展到多标签中文文本分类中。为了解决噪声标签的问题,因为深度网络将倾向于先学习“干净的”“简单的”的模式,将bert模型与coteaching模型相结合,使用两个bert模型通过数据集中的每一个小批量数据相互学习,有效地处理了有噪声标签问题。实验表明,提出的方法可以有效地用于文本数据集上的多标签分类,可称为学生的价值观和态度评价有力的工具。
[0083]
作为另一个具体的实施例,本发明所提供的一种多标签文本分类系统,包括:
[0084]
数据集获取模块,用于获取学生对可持续发展的认知观点文本数据集;认知观点文本数据集中每一认知观点文本样本对应多个标签;
[0085]
预处理模块,用于对每一认知观点文本样本进行预处理,得到相应的文本token序列;
[0086]
模型训练模块,用于利用预处理后的认知观点文本数据集,训练由bert模型与coteaching模型结合得到的bert-ct多标签文本分类模型,得到训练好的bert-ct多标签文本分类模型;
[0087]
分类模块,用于利用训练好的bert-ct多标签文本分类模型对待分类的认知观点文本进行分类。
[0088]
为了执行上述的方法,以实现相应的功能和技术效果,本发明还提供一种多标签文本分类设备,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现所述的方法。
[0089]
所述存储器为计算机可读存储介质。
[0090]
基于上述描述,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的计算机存储介质包括:u盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
[0091]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0092]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种多标签文本分类方法,其特征在于,包括:获取学生对可持续发展的认知观点文本数据集;认知观点文本数据集中每一认知观点文本样本对应多个标签;对每一认知观点文本样本进行预处理,得到相应的文本token序列;利用预处理后的认知观点文本数据集,训练由bert模型与coteaching模型结合得到的bert-ct多标签文本分类模型,得到训练好的bert-ct多标签文本分类模型;利用训练好的bert-ct多标签文本分类模型对待分类的认知观点文本进行分类。2.根据权利要求1所述的一种多标签文本分类方法,其特征在于,所述对每一认知观点文本样本进行预处理,得到相应的文本token序列,具体包括:利用bert分词器中的wordpiece对认知观点文本样本的每个词和标点进行分字;每个字作为一个token;在分字后的文本的开头和结尾分别加入token标记符;加载google开源的vocab.txt文件作为字典;根据字典将添加标记符后的文本转换成文本token序列。3.根据权利要求2所述的一种多标签文本分类方法,其特征在于,所述文本token序列的长度为500个字;当文本token序列的长度小于500个字时,用0进行填充。4.根据权利要求1所述的一种多标签文本分类方法,其特征在于,所述bert-ct多标签文本分类模型的训练过程为:设置学习参数;所述学习参数包括:学习率、噪声率、轮次、迭代次数、隐藏单元、层数、自注意力机制的头数、小批量数据集样例数以及分类层权重;获取两个训练好的bert模型,并得到相应的权重参数;从预处理后的认知观点文本数据集中获取训练数据集,结合coteaching模型,并基于两个训练好的bert模型进行分类,得到更新后的权重参数。5.一种多标签文本分类系统,其特征在于,包括:数据集获取模块,用于获取学生对可持续发展的认知观点文本数据集;认知观点文本数据集中每一认知观点文本样本对应多个标签;预处理模块,用于对每一认知观点文本样本进行预处理,得到相应的文本token序列;模型训练模块,用于利用预处理后的认知观点文本数据集,训练由bert模型与coteaching模型结合得到的bert-ct多标签文本分类模型,得到训练好的bert-ct多标签文本分类模型;分类模块,用于利用训练好的bert-ct多标签文本分类模型对待分类的认知观点文本进行分类。6.一种多标签文本分类设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-4中任一项所述的方法。7.根据权利要求6所述的一种多标签文本分类设备,其特征在于,所述存储器为计算机可读存储介质。

技术总结
本发明公开一种多标签文本分类方法、系统及设备,涉及文本分类领域,该方法包括获取学生对可持续发展的认知观点文本数据集;认知观点文本数据集中每一认知观点文本样本对应多个标签;对每一认知观点文本样本进行预处理,得到相应的文本token序列;利用预处理后的认知观点文本数据集,训练由BERT模型与coteaching模型结合得到的BERT-CT多标签文本分类模型,得到训练好的BERT-CT多标签文本分类模型;利用训练好的BERT-CT多标签文本分类模型对待分类的认知观点文本进行分类。能够提高对认知观点文本分类的准确性和效率。高对认知观点文本分类的准确性和效率。高对认知观点文本分类的准确性和效率。


技术研发人员:臧淼 邢志强 庞枫骞 牛思懿
受保护的技术使用者:北方工业大学
技术研发日:2023.06.16
技术公布日:2023/9/13
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐