文档的情感识别方法、装置、电子设备及存储介质与流程
未命名
09-08
阅读:96
评论:0

1.本发明属于文本分析技术领域,具体涉及文档的情感识别方法、文档的情感识别装置、电子设备及存储介质。
背景技术:
2.当前的文本情感识别方案基本上是采用文本分类的模型,对一段文本进行情绪分类。而行业的研究报告,是各行业的专业人士,对一些行业现象或政策,进行的深度分析。其情绪倾向,反映了行业人员对某个对象的乐观或悲观估计,有着强烈的指导意义。因而,研报的情感判断具有极大的价值。现有的分类方式,虽然可以用于绝大部分分类的场景,但是在研报中,有些独有的表达结构,如果直接使用全文进行情感判断,往往指导意义不大,且容易判断错误。研报中,每个段落会描述不同的核心观点。因而,不同的核心观点极有可能包含不同的情感趋势。在计算研报的整体情感时,简单地将核心观点进行文本合并,然后通过分类模型,会忽略掉不同观点的情绪差异。
技术实现要素:
3.本发明所要解决的技术问题在于,提供一种文档的情感识别方法、文档的情感识别装置、电子设备及存储介质,以解决文档的情感识别仅对核心观点进行简单分类,未能够充分考虑各核心观点之间的相互影响,导致文档的情感识别无法准确反映真实情感的情况。
4.为了解决或者一定程度上改善上述技术问题,根据本发明一方面,提供一种文档的情感识别方法,包括:
5.抽取所述文档中的至少一组相互对应的观点对象和观点描述;
6.选取出至少一组所述观点对象和所述观点描述中的至少一个目标观点,所述目标观点包括相互对应的目标观点对象和目标观点描述;
7.基于至少一个所述目标观点的文本内容,分别赋予至少一个所述目标观点对应的观点分值;
8.通过预先训练的概率图模型确定至少一个所述目标观点对应的权重,根据至少一个所述观点分值和至少一个所述权重计算所述文档的情感分值。
9.在一些实施方式中,至少一组所述观点对象和所述观点描述的抽取基于观点抽取模型,所述观点抽取模型包括:第一阅读理解模块和第二阅读理解模块;
10.所述抽取所述文档中的至少一组相互对应的观点对象和观点描述的步骤,包括:
11.将所述文档的文本内容分别输入所述第一阅读理解模块和所述第二阅读理解模块内;
12.基于所述第一阅读理解模块内的观点对象模板抽取出所述文档内的至少一个所述观点对象;
13.将至少一个所述观点对象和所述观点对象的文本内容输入所述第二阅读理解模
块内,结合所述第二阅读理解模块内的观点描述模板,抽取出至少一个所述观点对象对应的至少一个所述观点描述。
14.在一些实施方式中,所述观点抽取模型还包括第一多注意力模块和第二多注意力模块;
15.所述选取出至少一组所述观点对象和所述观点描述中的至少一个目标观点的步骤,包括:
16.将至少一个所述观点对象输入所述第一多注意力模块,基于所述第一多注意力模块内的目标观点矩阵选取出至少一个所述观点对象中的至少一个所述目标观点对象和所述目标观点对象的文本位置;
17.将至少一个所述目标观点对象、所述文本位置和所述至少一个所述观点描述输入所述第二多注意力模块,基于所述文本位置确定出至少一个所述观点描述中,与至少一个所述目标观点对象对应的至少一个所述目标观点描述。
18.在一些实施方式中,所述观点抽取模型的训练损失为观点对象的训练损失和观点描述的训练损失之和。
19.在一些实施方式中,所述基于至少一个所述目标观点的文本内容,分别赋予至少一个所述目标观点对应的观点分值的步骤,包括:
20.将至少一个所述目标观点的文本内容输入到预先训练的文本分类模型,以对至少一个所述目标观点进行分类;
21.基于预先设置的类别与分值的对应关系,根据至少一个所述目标观点的类别,分别赋予对应的所述观点分值。
22.在一些实施方式中,所述概率图模型的预先训练的步骤,包括:
23.基于多个文档中每个文档的至少一个目标观点创建概率图,其中所述目标观点包括相互对应的目标观点对象和目标观点描述,所述概率图中的每个节点为一个目标观点和观点分值;
24.当多个节点的目标观点和观点分值相同时,则将所述多个节点进行合并;
25.分别赋予每个所述文档对应的情感分值,并通过节点对出现的次数、每个文档的所述情感分值及每个目标观点的观点分值计算出节点的边的权重,所述节点对为有边连接的两个节点。
26.在一些实施方式中,所述通过预先训练的概率图模型确定至少一个所述目标观点分别对应的权重,根据至少一个所述观点分值和至少一个所述权重计算所述文档的情感分值的步骤,包括:
27.将至少一个所述目标观点输入预先训练的概率图模型,确定出至少一个所述目标观点对应的节点;
28.分别将至少一个所述目标观点的所述观点分值与所述对应的节点的边的权重相乘后求和,计算出所述文档的所述情感分值。
29.根据本发明的另一方面,提供一种文档的情感识别装置,包括:
30.抽取模块,配置为抽取所述文档中的至少一组相互对应的观点对象和观点描述;
31.选取模块,配置为选取出至少一组所述观点对象和所述观点描述中的至少一个目标观点,所述目标观点包括相互对应的目标观点对象和目标观点描述;
32.赋值模块,配置为基于至少一个所述目标观点的文本内容,分别赋予至少一个所述目标观点对应的观点分值;
33.计算模块,配置为通过预先训练的概率图模型确定至少一个所述目标观点分别对应的权重,根据至少一个所述观点分值和至少一个所述权重计算所述文档的情感分值。
34.在一些实施方式中,至少一组所述观点对象和所述观点描述的抽取基于观点抽取模型,所述观点抽取模型包括:第一阅读理解模块和第二阅读理解模块;
35.所述抽取模块具体配置为:
36.将所述文档的文本内容分别输入所述第一阅读理解模块和所述第二阅读理解模块内;
37.基于所述第一阅读理解模块内的观点对象模板抽取出所述文档内的至少一个所述观点对象;
38.将至少一个所述观点对象和所述观点对象的文本内容输入所述第二阅读理解模块内,结合所述第二阅读理解模块内的观点描述模板,抽取出至少一个所述观点对象对应的至少一个所述观点描述。
39.在一些实施方式中,所述观点抽取模型还包括第一多注意力模块和第二多注意力模块;
40.所述选取模块具体配置为:
41.将至少一个所述观点对象输入所述第一多注意力模块,基于所述第一多注意力模块内的目标观点矩阵选取出至少一个所述观点对象中的至少一个所述目标观点对象和所述目标观点对象的文本位置;
42.将至少一个所述目标观点对象、所述文本位置和所述至少一个所述观点描述输入所述第二多注意力模块,基于所述文本位置确定出至少一个所述观点描述中,与至少一个所述目标观点对象对应的至少一个所述目标观点描述。
43.在一些实施方式中,所述观点抽取模型的训练损失为观点对象的训练损失和观点描述的训练损失之和。
44.在一些实施方式中,所述赋值模块具体配置为:
45.将至少一个所述目标观点的文本内容输入到预先训练的文本分类模型,以对至少一个所述目标观点进行分类;
46.基于预先设置的类别与分值的对应关系,根据至少一个所述目标观点的类别,分别赋予对应的所述观点分值。
47.在一些实施方式中,所述概率图模型的预先训练的步骤,包括:
48.基于多个文档中每个文档的至少一个目标观点创建概率图,其中所述目标观点包括相互对应的目标观点对象和目标观点描述,所述概率图中的每个节点为一个目标观点和观点分值;
49.当多个节点的目标观点和观点分值相同时,则将所述多个节点进行合并;
50.分别赋予每个所述文档对应的情感分值,并通过节点对出现的次数、每个文档的所述情感分值及每个目标观点的观点分值计算出节点的边的权重,所述节点对为有边连接的两个节点。
51.在一些实施方式中,所述计算模块具体配置为:
52.将至少一个所述目标观点输入预先训练的概率图模型,确定出至少一个所述目标观点对应的节点;
53.分别将至少一个所述目标观点的所述观点分值与所述对应的节点的边的权重相乘后求和,计算出所述文档的所述情感分值。
54.根据本发明的再一方面,提供一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
55.所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据上述任一实施方式所述的文档的情感识别方法对应的操作。
56.根据本发明的又一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现根据上述任一实施方式所述的文档的情感识别方法对应的操作。
57.本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明的文档的情感识别方法、文档的情感识别装置、电子设备和计算机可读存储介质可以达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
58.本发明首先对选取出的目标观点进行赋值,而后确定出各目标观点在文档的情感识别中所占的权重,最终通过目标观点的赋值和其对应的权重来计算出文档的情感分值。实现了文档中具备不同情感的不同目标观点融合,同时能够捕获不同目标观点之间的相互影响,确保识别出的文档的情感能够准确地反映文档的真实情感,进而提升文档情感识别的参考价值。
59.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
60.图1为本发明一实施例的文档的情感识别方法的流程示意图;
61.图2为本发明一实施例的观点抽取模型的示意框图;
62.图3为本发明一实施例的概率图模型的示意图;
63.图4为本发明一实施例的文档的情感识别装置的示意框图;
64.图5为本发明一实施例的电子设备的示意框图。
具体实施方式
65.为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的文档的情感识别方法、文档的情感识别装置、电子设备及存储介质的具体实施方式及其功效,详细说明如后。
66.图1示出了根据本发明一个实施例的文档的情感识别方法,该方法应用于电子设备中。所述电子设备包括安装有计算机程序的智能终端设备、计算机设备和/或云,所述智能终端设备包括但不限于智能手机、pad;所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集;所述云由基于云计算(cloud computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,
由一群松散耦合的计算机集组成的一个虚拟超级计算机。
67.本发明首先抽取文档的目标观点,该目标观点包括目标观点对象和目标观点描述,然后通过分类模型识别每个目标观点的情感类别,并根据目标观点对象对目标观点描述进行聚类,最后通过概率图模型将一个文档内的不同的目标观点的情感进行融合,最终获得文档的情感分值。
68.具体地,参见图1所示,根据本发明的实施例,提供一种文档的情感识别方法,包括:
69.步骤s10,抽取文档中的至少一组相互对应的观点对象和观点描述。
70.在文档观点的抽取中,通常会采用关键词匹配或者粗体语句识别等方式,此种方式对文档中的观点的覆盖度较低。基于此,本发明提出了一种基于prompt learning+阅读理解的多任务抽取模型,来抽取出文本的观点对象和观点描述。
71.其中,观点对象为文档中观点的描述对象,观点描述为对观点中的对象的描述词。例如,“组件降价将全面释放积压需求”中,观点对象为“组件降价”,而观点描述为“释放积压需求”,用来描述观点对象的影响。当然此处采用单句仅仅是为了举例说明观点对象和观点描述,并非是本发明仅针对单句的观点的提取。本发明的观点的抽取是针对文档的部分段落或者是文档的全部内容。
72.以金融研究报告为例,通常情况下金融研报的摘要或者是前部分内容会表述研报的核心内容,针对此情况,金融研报的情感识别则仅需对金融研报的摘要或者前部分的内容进行观点抽取。
73.在一实施例中,文档的观点对象和观点描述的抽取是基于预先构建的观点抽取模型来完成的,该观点抽取模型包括有第一阅读理解模块和第二阅读理解模块。本发明的阅读理解模块,可以用bert系列,比如roberta等。考虑到观点抽取模型包括两个阅读理解模块,为了减小参数量,可以用相对小一些的模型,如6层的roberta等。
74.在一实施例中,步骤s10具体包括:
75.步骤100,将文档的文本内容分别输入第一阅读理解模块和第二阅读理解模块内。
76.如图2所示,本发明的观点提取模型中设置有两个阅读理解模块,其是为了将观点对象和观点描述分别通过不同的阅读理解模块来提取,使得各阅读理解模块能够专注抽取对应内容,避免在抽取过程中出现相互干扰的情况。
77.步骤102,基于第一阅读理解模块内的观点对象模板抽取出文档内的至少一个观点对象。
78.如图2所示的观点对象模板是预先构建的。举例来说,该观点对象模板可以包括“观点对象是什么”、“该文讲的观点对象是?”、“文中的观点对象在哪里”等。当然,上述仅是举例说明,具体可以根据实际情况进行补充。
79.需要说明的是,观点对象模板可以预先存储在第一阅读理解模块中,也可以与文档一同输入到第一阅读理解模块中,本发明并不以观点对象模板的存储时机为限。
80.在该步骤中,将观点对象模板作为问题,第一阅读理解模块基于该观点对象模板,抽取出文档中与观点对象模板中的问题所对应的内容,即可以得到文档的至少一个观点对象。
81.步骤104,将至少一个观点对象和观点对象的文本内容输入第二阅读理解模块内,
结合第二阅读理解模块内的观点描述模板,抽取出至少一个观点对象对应的至少一个观点描述。
82.如图2所示的观点描述模板是预先构建的。举例来说,该观点描述模板可以包括“观点描述是什么”、“对观点有哪些结论”等。当然,上述仅是举例说明,具体可以根据实际情况进行补充。
83.需要说明的是,观点描述模板可以预先存储在第二阅读理解模块中,也可以与文档一同输入到第二阅读理解模块中,本发明并不以观点描述模板的存储时机为限。
84.在该步骤中,将基于第一阅读理解模块抽取出的观点对象和观点对象的文本内容输入到第二阅读理解模块中,在抽取出文档中与观点描述模板中的问题对应的内容后,即可得到至少一个观点描述。而后可以根据观点对象的文本内容所在文档中的位置,将抽取出的观点描述与观点对象进行对应,得到至少一组相互对应的观点对象和观点描述。
85.可知的是,文档中的观点描述是对观点对象的描述,因此,观点对象与对应的观点描述之间的距离不会太远,因此,基于观点对象的文本内容在文档中的位置即可将观点对象与观点描述进行对应。
86.步骤s20,选取出至少一组观点对象和观点描述中的至少一个目标观点,目标观点包括相互对应的目标观点对象和目标观点描述。
87.在一个文档中,会存在着较多的观点对象,相应的包括较多的观点描述,需要在多个观点对象和观点描述中选取出需要关注的观点对象和观点描述,作为目标观点对象和目标观点描述,组成目标观点。
88.在一实施例中,如图2所示,观点抽取模型还包括有第一多注意力模块和第二多注意力模块。通过该第一多注意力模块和第二多注意力模块分别选取出步骤s10中抽取出的至少一组观点对象和观点描述中的至少一个目标观点。该目标观点包括目标观点对象和目标观点描述。
89.在该实施例中,步骤s20具体包括:
90.步骤200,将至少一个观点对象输入第一多注意力模块,基于第一多注意力模块内的目标观点矩阵选取出至少一个观点对象中的至少一个目标观点对象和目标观点对象的文本位置。
91.在该步骤中,目标观点矩阵是通过大量的文档总结出的多个目标观点构成的阵列,多个目标观点中包括有正向的观点和反向的观点,其中正向的观点例如是“消费回暖”、“业绩超预期”、“研发费用增加”等,反向的观点例如是“净利润减少”、“成本增加”等。
92.需要说明的是,目标观点矩阵可以预先存储在第一多注意力模块中,也可以与至少一个观点对象一同输入到第一多注意力模块中,本发明并不以目标观点矩阵的存储时机为限。
93.在选取目标观点对象时,将步骤s10中抽取的至少一个观点对象输入到第一多注意力模块中,将至少一个观点对象与目标观点矩阵进行多注意力交互,选取出至少一个观点对象中与目标观点矩阵中的目标观点表达最接近的部分观点对象作为目标观点对象。同时确定出目标观点对象在文档中的文本位置。
94.本发明通过目标观点矩阵的设置,能够有效提高目标观点对象的选取的准确率,进而提升文档的情感识别的有效性。
95.步骤202,将至少一个目标观点对象、文本位置和至少一个观点描述输入第二多注意力模块,基于文本位置确定出至少一个观点描述中,与至少一个目标观点对象对应的至少一个目标观点描述。
96.在该步骤中,将通过步骤200选取出的至少一个目标观点对象和其对应的文本位置以及至少一个观点描述输入到第二多注意力模块中。可知的是,与目标观点对象对应的目标观点描述在文档中距离,通常是相互靠近的,进而可以通过对应的观点对象与观点描述之间的位置关系来选取出目标观点对象对应的目标观点描述,进而将每组对应的目标观点对象和目标观点描述作为一个目标观点。
97.在一实施例中,观点抽取模型在训练过程中的训练损失为观点对象和观点描述的损失之和。也就是说,在观点抽取模型的训练时,其训练损失需要同时考虑观点对象和观点描述的损失,进而通过训练后的观点抽取模型在对观点对象和观点描述进行抽取时,能够保证其抽取的准确性。
98.步骤s30,基于至少一个目标观点的文本内容,分别赋予至少一个目标观点对应的观点分值。
99.目标观点的分类可以基于文本分类模型来进行,该文本分类模型可以采用textcnn,或者深层神经网络模型等。
100.在一实施例中,步骤s30具体包括:
101.步骤300,将至少一个目标观点的文本内容输入到预先训练的文本分类模型,以对至少一个目标观点进行分类。
102.在该步骤中,将目标观点对应的文本内容,即目标观点对象和目标观点描述的文本内容输入到文本分类模型中,通过该文本分类模型对目标观点进行分类,确定出各目标观点分别对应的类别。
103.举例来说,目标观点的类别可以包括强烈正面、一般正面、中性和负面。
104.步骤302,基于预先设置的类别与分值的对应关系,根据至少一个目标观点的类别,分别赋予对应的观点分值。
105.在该步骤中,预先设置了目标观点类别与分值的对应关系,例如强烈正面的分值为2、一般正面的分值为1、中性的分值为0、负面的分值为-2。在设置了类别与分值的对应关系后,即可根据该对应关系赋予不同类别的目标观点不同的观点分值。
106.步骤s40,通过预先训练的概率图模型确定至少一个目标观点分别对应的权重,根据至少一个观点分值和至少一个权重计算文档的情感分值。
107.概率图模型训练,首先需要基于多个文档中的每个文档的至少一个目标观点来创建概率图。如图3所示,概率图模型中的每个节点(图中的圆形)包括一个目标观点和其对应的观点分值。目标观点的选取和观点分值的赋予均可通过上述方法来完成,此处不再进行赘述。
108.该概率图模型中,横向表示每个文档中的目标观点,纵向则表示多篇文档。当两个文档中的一个或多个目标观点和其对应的观点分值均相同时,则将相同的目标观点对应的节点进行合并。
109.在概率图模型中,一个文档中的连续出现的两个节点(即目标观点和观点分值)进行连接,该连接的线段则为边。因为,概率图模型中包括有合并后的节点,所以该合并后的
节点会存在有多个边,进而包括合并后的节点的节点对的数量也会存在多个。节点对为相邻节点之间有边连接的两个节点。
110.通过上述可知,节点对的数量的多少取决于节点合并的次数,也就证明该节点对应的目标观点在文档中所占的权重的大小。基于该原理,通过节点对出现的次数就可以确定出节点所对应的边的数量,该节点的边的数量则决定着节点的权重。
111.另外,在创建概率图模型时,通过人工分别赋予多个文档对应的情感分值。进而,通过文档中的各目标观点的观点分值、节点对出现的次数(决定着节点对应的边的数量)和文档的情感分值,来确定出节点对应的每条边权重,进而就可以根据节点对应的边的数量来确定出节点的权重。
112.举例来说,一个文档中包括四个目标观点(aspect_1、aspect_2、aspect_3、aspect_4),目标观点的分值分别为(senti_1、senti_2、senti_3、senti_4),文档的情感分值为senti_i。假设四个目标观点对应分节点分别对应的边的数量为1、2、3、4,每个边的权重为w。则可得出公式为:
113.senti_1
×
w+senti_2
×
2w+senti_3
×
3w+senti_4
×
4w=senti_i;
114.通过目标观点的观点分值和文档的情感分值均为已知数值时,通过上述公式即可计算出每个边的权重w的值。
115.步骤s40具体包括:
116.步骤400,将至少一个目标观点输入预先训练的概率图模型,确定出至少一个目标观点对应的节点。
117.在该步骤中,将选取出的至少一个目标观点输入预先训练的概率图模型中,选取出至少一个目标观点分别对应的概率图模型中的节点。
118.步骤402,分别将至少一个目标观点的观点分值与对应的节点的边的权重相乘后求和,计算出文档的情感分值。
119.在该步骤中,在确定出目标观点对应的节点后,根据节点的边的权重确定出各目标观点的权重,进而根据目标观点的观点分值和目标观点的权重计算出文档的情感分值。
120.具体地,各目标观点的观点分值与其对应的权重相乘,而后将乘积进行相加,即可得到文档的情感分值。
121.本发明通过对不同的目标观点赋予不同的权重,以融合不同目标观点的不同情感,同时能够真实反映各目标观点之间的相互影响,进而获得更加贴近事实的文档的情感得分。
122.根据本发明的另一实施例,提供一种文档的情感识别装置,如图4所示,包括:抽取模块10、选取模块20、赋值模块30和计算模块40。
123.其中,抽取模块10配置为抽取文档中的至少一组相互对应的观点对象和观点描述。
124.在文档观点的抽取中,通常会采用关键词匹配或者粗体语句识别等方式,此种方式对文档中的观点的覆盖度较低。基于此,本发明提出了一种基于prompt learning+阅读理解的多任务抽取模型,来抽取出文本的观点对象和观点描述。
125.其中,观点对象为文档中观点的描述对象,观点描述为对观点中的对象的描述词。例如,“组件降价将全面释放积压需求”中,观点对象为“组件降价”,而观点描述为“释放积
压需求”,用来描述观点对象的影响。当然此处采用单句仅仅是为了举例说明观点对象和观点描述,并非是本发明仅针对单句的观点的提取。本发明的观点的抽取是针对文档的部分段落或者是文档的全部内容。
126.以金融研究报告为例,通常情况下金融研报的摘要或者是前部分内容会表述研报的核心内容,针对此情况,金融研报的情感识别则仅需对金融研报的摘要或者前部分的内容进行观点提取。
127.在一实施例中,文档的观点对象和观点描述的抽取是基于预先构建的观点抽取模型来完成的,该观点抽取模型包括有第一阅读理解模块和第二阅读理解模块。本发明的阅读理解模块,可以用bert系列的,比如roberta等。考虑到观点抽取模型包括两个阅读理解模块,为了减小参数量,可以用相对小一些的模型,如6层的roberta等。
128.在该实施例中,抽取模块10具体配置为:将文档的文本内容分别输入第一阅读理解模块和第二阅读理解模块内;基于第一阅读理解模块内的观点对象模板抽取出文档内的至少一个所述观点对象;将至少一个观点对象和观点对象的文本内容输入第二阅读理解模块内,结合第二阅读理解模块内的观点描述模板,抽取出至少一个观点对象对应的至少一个观点描述。
129.在一实施例中,如图2所示,本发明的观点提取模型中设置有两个阅读理解模块,其是为了将观点对象和观点描述分别通过不同的阅读理解模块来提取,使得各阅读理解模块能够专注抽取对应内容,避免在抽取过程中出现相互干扰的情况。
130.如图2所示的观点对象模板是预先构建的。举例来说,该观点对象模板可以包括“观点对象是什么”、“该文讲的观点对象是?”、“文中的观点对象在哪里”等。当然,上述仅是举例说明,具体可以根据实际情况进行补充。
131.需要说明的是,观点对象模板可以预先存储在第一阅读理解模块中,也可以与文档一同输入到第一阅读理解模块中,本发明并不以观点对象模板的存储时机为限。
132.在该实施例中,将观点对象模板作为问题,第一阅读理解模块基于该观点对象模板,抽取出文档中与观点对象模板中的问题所对应的内容,即可以得到文档的至少一个观点对象。
133.如图2所示的观点描述模板是预先构建的。举例来说,该观点描述模板可以包括“观点描述是什么”、“对观点有哪些结论”等。当然,上述仅是举例说明,具体可以根据实际情况进行补充。
134.需要说明的是,观点描述模板可以预先存储在第二阅读理解模块中,也可以与文档一同输入到第二阅读理解模块中,本发明并不以观点描述模板的存储时机为限。
135.将基于第一阅读理解模块抽取出的观点对象和观点对象的文本内容输入到第二阅读理解模块中,在抽取出文档中与观点描述模板中的问题对应的内容后,即可得到至少一个观点描述。而后可以根据观点对象的文本内容所在文档中的位置,将抽取出的观点描述与观点对象进行对应,得到至少一组相互对应的观点对象和观点描述。
136.可知的是,文档中的观点描述是对观点对象的描述,因此,观点对象与对应的观点描述之间的距离不会太远,因此,基于观点对象的文本内容在文档中的位置即可将观点对象与观点描述进行对应。
137.选取模块20配置为选取出至少一组观点对象和观点描述中的至少一个目标观点,
目标观点包括相互对应的目标观点对象和目标观点描述。
138.在一个文档中,会存在着较多的观点对象,相应的包括较多的观点描述,需要在多个观点对象和观点描述中选取出需要关注的观点对象和观点描述,作为目标观点对象和目标观点描述,组成目标观点。
139.在一实施例中,如图2所示,观点抽取模型还包括有第一多注意力模块和第二多注意力模块。通过该第一多注意力模块和第二多注意力模块分别选取出抽取模块10抽取出的至少一组观点对象和观点描述中的至少一个目标观点。该目标观点包括目标观点对象和目标观点描述。
140.在该实施例中,选取模块20具体配置为:将至少一个观点对象输入第一多注意力模块,基于第一多注意力模块内的目标观点矩阵选取出至少一个观点对象中的至少一个目标观点对象和目标观点对象的文本位置;将至少一个目标观点对象、文本位置和至少一个观点描述输入第二多注意力模块,基于文本位置确定出至少一个观点描述中,与至少一个目标观点对象对应的至少一个目标观点描述。
141.在该实施例中,目标观点矩阵是通过大量的文档总结出的多个目标观点构成的阵列,多个目标观点中包括有正向的观点和反向的观点,其中正向的观点例如是“消费回暖”、“业绩超预期”、“研发费用增加”等,反向的观点例如是“净利润减少”、“成本增加”等。
142.需要说明的是,目标观点矩阵可以预先存储在第一多注意力模块中,也可以与至少一个观点对象一同输入到第一多注意力模块中,本发明并不以目标观点矩阵的存储时机为限。
143.在选取目标观点对象时,将抽取模块10抽取的至少一个观点对象输入到第一多注意力模块中,将至少一个观点对象与目标观点矩阵进行多注意力交互,选取出至少一个观点对象中与目标观点矩阵中的目标观点表达最接近的部分观点对象作为目标观点对象。同时确定出目标观点对象在文档中的文本位置。
144.本发明通过目标观点矩阵的设置,能够有效提高目标观点对象的选取的准确率,进而提升文档的情感识别的有效性。
145.在该实施例中,将选取出的至少一个目标观点对象和其对应的文本位置以及至少一个观点描述输入到第二多注意力模块中。可知的是,与目标观点对象对应的目标观点描述在文档中距离,通常是相互靠近的,进而可以通过对应的观点对象与观点描述之间的位置关系来选取出目标观点对象对应的目标观点描述,进而将每组对应的目标观点对象和目标观点描述作为一个目标观点。
146.在一实施例中,观点抽取模型在训练过程中的训练损失为观点对象和观点描述的损失之和。也就是说,在观点抽取模型的训练时,其训练损失需要同时考虑观点对象和观点描述的损失,进而通过训练后的观点抽取模型在对观点对象和观点描述进行抽取时,能够保证其抽取的准确性。
147.赋值模块30配置为基于至少一个目标观点的文本内容,分别赋予至少一个目标观点对应的观点分值。
148.目标观点的分类可以基于文本分类模型来进行,该文本分类模型可以采用textcnn,或者深层神经网络模型等。
149.在一实施例中,赋值模块30具体配置为:将至少一个目标观点的文本内容输入到
预先训练的文本分类模型,以对至少一个目标观点进行分类;基于预先设置的类别与分值的对应关系,根据至少一个目标观点的类别,分别赋予对应的观点分值。
150.在该实施例中,将目标观点对应的文本内容,即目标观点对象和目标观点描述的文本内容输入到文本分类模型中,通过该文本分类模型对目标观点进行分类,确定出各目标观点分别对应的类别。
151.举例来说,目标观点的类别可以包括强烈正面、一般正面、中性和负面。
152.预先设置目标观点类别与分值的对应关系,例如强烈正面的分值为2、一般正面的分值为1、中性的分值为0、负面的分值为-2。在设置类别与分值的对应关系后,即可根据该对应关系赋予不同类别的目标观点不同的观点分值。
153.计算模块40配置为通过预先训练的概率图模型确定至少一个目标观点分别对应的权重,根据至少一个观点分值和至少一个权重计算文档的情感分值。
154.概率图模型训练,首先需要基于多个文档中的每个文档的至少一个目标观点来创建概率图。如图3所示,概率图模型中的每个节点(图中的圆形)包括一个目标观点和其对应的观点分值。目标观点的选取和观点分值的赋予均可通过上述方法来完成,此处不再进行赘述。
155.该概率图模型中,横向表示每个文档中的目标观点,纵向则表示多个文档。当两个文档中的一个或多个目标观点和其对应的观点分值均相同时,则将相同的目标观点对应的节点进行合并。
156.在概率图模型中,一个文档中的连续出现的两个节点(即目标观点和观点分值)进行连接,该连接的线段则为边。因为,概率图模型中包括有合并后的节点,所以该合并后的节点会存在有多个边,进而包括合并后的节点的节点对的数量也会存在多个。节点对为相邻节点之间有边连接的两个节点。
157.通过上述可知,节点对的数量的多少取决于节点合并的次数,也就证明该节点对应的目标观点在文档中所占的权重的大小。基于该原理,通过节点对出现的次数就可以确定出节点所对应的边的数量,该节点的边的数量则决定着节点的权重。
158.另外,在创建概率图模型时,通过人工分别赋予多个文档对应的情感分值。进而,通过文档中的各目标观点的观点分值、节点对出现的次数(决定着节点对应的边的数量)和文档的情感分值,来确定出节点对应的每条边权重,进而就可以根据节点对应的边的数量来确定出节点的权重。
159.举例来说,一个文档中包括四个目标观点(aspect_1、aspect_2、aspect_3、aspect_4),目标观点的分值分别为(senti_1、senti_2、senti_3、senti_4),文档的情感分值为senti_i。假设四个目标观点对应分节点分别对应的边的数量为1、2、3、4,每个边的权重为w。则可得出公式为:
160.senti_1
×
w+senti_2
×
2w+senti_3
×
3w+senti_4
×
4w=senti_i;
161.目标观点的观点分值和文档的情感分值均为已知数值时,通过上述公式即可计算出每个边的权重w的值。
162.在一实施例中,计算模块40具体配置为:将至少一个目标观点输入预先训练的概率图模型,确定出至少一个目标观点对应的节点的边的权重;分别将至少一个目标观点的观点分值与对应的节点的边的权重相乘后求和,计算出文档的所述情感分值。
163.将选取出的至少一个目标观点输入预先训练的概率图模型中,选取出至少一个目标观点分别对应的概率图模型中的节点。
164.在确定出目标观点对应的节点后,根据节点的边的权重确定出各目标观点的权重,进而根据目标观点的观点分值和目标观点的权重计算出文档的情感分值。
165.具体地,各目标观点的观点分值与其对应的权重相乘,而后将乘积进行相加,即可得到文档的情感分值。
166.本发明通过对不同的目标观点赋予不同的权重,以融合不同目标观点的不同情感,同时能够真实反映各目标观点之间的相互影响,进而获得更加贴近事实的文档的情感得分。
167.需要说明的是:
168.在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
169.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
170.类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
171.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
172.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
173.本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用
微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的文档检索装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
174.本发明实施例提供了一种非易失性计算机可读存储介质,所述计算机可读存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文档检索方法。
175.图5示出了本发明电子设备实施例的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
176.如图5所示,该电子设备可以包括:处理器(processor)1002、通信接口(communications interface)1004、存储器(memory)1006、以及通信总线1008。
177.其中:处理器1002、通信接口1004、以及存储器1006通过通信总线1008完成相互间的通信。通信接口1004,用于与其它设备比如客户端或其它服务器等的网元通信。处理器1002,用于执行程序1010,具体可以执行上述用于电子设备的上述文档检索实施例中的相关步骤。
178.具体地,程序1010可以包括程序代码,该程序代码包括计算机操作指令。
179.处理器1002可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
180.存储器1006,用于存放程序1010。存储器1006可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
181.程序1010具体可以用于使得处理器1002执行上述文档检索实施例对应的操作。
182.应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
技术特征:
1.一种文档的情感识别方法,其特征在于,包括:抽取所述文档中的至少一组相互对应的观点对象和观点描述;选取出至少一组所述观点对象和所述观点描述中的至少一个目标观点,所述目标观点包括相互对应的目标观点对象和目标观点描述;基于至少一个所述目标观点的文本内容,分别赋予至少一个所述目标观点对应的观点分值;通过预先训练的概率图模型确定至少一个所述目标观点对应的权重,根据至少一个所述观点分值和至少一个所述权重计算所述文档的情感分值。2.根据权利要求1所述的文档的情感识别方法,其特征在于,至少一组所述观点对象和所述观点描述的抽取基于观点抽取模型,所述观点抽取模型包括:第一阅读理解模块和第二阅读理解模块;所述抽取所述文档中的至少一组相互对应的观点对象和观点描述的步骤,包括:将所述文档的文本内容分别输入所述第一阅读理解模块和所述第二阅读理解模块内;基于所述第一阅读理解模块内的观点对象模板抽取出所述文档内的至少一个所述观点对象;将至少一个所述观点对象和所述观点对象的文本内容输入所述第二阅读理解模块内,结合所述第二阅读理解模块内的观点描述模板,抽取出至少一个所述观点对象对应的至少一个所述观点描述。3.根据权利要求2所述的文档的情感识别方法,其特征在于,所述观点抽取模型还包括第一多注意力模块和第二多注意力模块;所述选取出至少一组所述观点对象和所述观点描述中的至少一个目标观点的步骤,包括:将至少一个所述观点对象输入所述第一多注意力模块,基于所述第一多注意力模块内的目标观点矩阵选取出至少一个所述观点对象中的至少一个所述目标观点对象和所述目标观点对象的文本位置;将至少一个所述目标观点对象、所述文本位置和所述至少一个所述观点描述输入所述第二多注意力模块,基于所述文本位置确定出至少一个所述观点描述中,与至少一个所述目标观点对象对应的至少一个所述目标观点描述。4.根据权利要求3所述的文档的情感识别方法,其特征在于,所述观点抽取模型的训练损失为观点对象的训练损失和观点描述的训练损失之和。5.根据权利要求1-4中任一项所述的文档的情感识别方法,其特征在于,所述基于至少一个所述目标观点的文本内容,分别赋予至少一个所述目标观点对应的观点分值的步骤,包括:将至少一个所述目标观点的文本内容输入到预先训练的文本分类模型,以对至少一个所述目标观点进行分类;基于预先设置的类别与分值的对应关系,根据至少一个所述目标观点的类别,分别赋予对应的所述观点分值。6.根据权利要求1所述的文档的情感识别方法,其特征在于,所述概率图模型的预先训练的步骤,包括:
基于多个文档中每个文档的至少一个目标观点创建概率图,其中所述目标观点包括相互对应的目标观点对象和目标观点描述,所述概率图中的每个节点为一个目标观点和观点分值;当多个节点的目标观点和观点分值相同时,则将所述多个节点进行合并;分别赋予每个所述文档对应的情感分值,并通过节点对出现的次数、每个文档的所述情感分值及每个目标观点的观点分值计算出节点的边的权重,所述节点对为有边连接的两个节点。7.根据权利要求6所述的文档的情感识别方法,其特征在于,所述通过预先训练的概率图模型确定至少一个所述目标观点分别对应的权重,根据至少一个所述观点分值和至少一个所述权重计算所述文档的情感分值的步骤,包括:将至少一个所述目标观点输入预先训练的概率图模型,确定出至少一个所述目标观点对应的节点;分别将至少一个所述目标观点的所述观点分值与所述对应的节点的边的权重相乘后求和,计算出所述文档的所述情感分值。8.一种文档的情感识别装置,其特征在于,包括:抽取模块,配置为抽取所述文档中的至少一组相互对应的观点对象和观点描述;选取模块,配置为选取出至少一组所述观点对象和所述观点描述中的至少一个目标观点,所述目标观点包括相互对应的目标观点对象和目标观点描述;赋值模块,配置为基于至少一个所述目标观点的文本内容,分别赋予至少一个所述目标观点对应的观点分值;计算模块,配置为通过预先训练的概率图模型确定至少一个所述目标观点分别对应的权重,根据至少一个所述观点分值和至少一个所述权重计算所述文档的情感分值。9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行根据权利要求1-7中任一项所述的文档的情感识别方法对应的操作。10.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现根据权利要求1-7中任一项所述的文档的情感识别方法对应的操作。
技术总结
本发明提供一种文档的情感识别方法、装置、电子设备及存储介质,其中该方法包括:抽取文档中的至少一组相互对应的观点对象和观点描述;选取出至少一组观点对象和观点描述中的至少一个目标观点,目标观点包括相互对应的目标观点对象和目标观点描述;基于至少一个目标观点的文本内容,分别赋予至少一个目标观点对应的观点分值;通过预先训练的概率图模型确定至少一个目标观点对应的权重,根据至少一个观点分值和至少一个权重计算文档的情感分值。本发明解决了文档的情感识别仅对核心观点进行简单分类,未能够充分考虑各核心观点之间的相互影响,导致文档的情感识别无法准确反映真实情感的情况。情感的情况。情感的情况。
技术研发人员:李伟 张恒
受保护的技术使用者:通联数据股份公司
技术研发日:2023.06.05
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:真空除胶自动撕膜机的制作方法 下一篇:一种苗木移栽车的制作方法