关键词识别方法、装置、电子设备和计算机可读存储介质与流程
未命名
10-08
阅读:73
评论:0

1.本发明涉及通信技术领域,具体涉及一种关键词识别方法、装置、电子设备和计算机可读存储介质。
背景技术:
2.近年来,随着互联网技术的飞速发展,通过网络进行各种信息交互也变得日益频繁,比如,针对特定对象或物品的投诉等反馈信息。为了利用这些反馈信息维护网络安全环境,就需要在这些反馈信息中识别出关键词。现有的关键词识别方法往往都是通过人工审核的方式进行识别。
3.在对现有技术的研究和实践过程中,本发明的发明人发现由于反馈信息的文本数据量较大,而且数据结构也非一般结构化数据,不同的审核人员审核的结果往往也存在差异,因此,导致关键词识别的准确率较低。
技术实现要素:
4.本发明实施例提供一种关键词识别方法、装置、电子设备和计算机可读存储介质,可以提高关键词识别的准确率。
5.一种关键词识别方法,包括:
6.获取针对至少一个对象的反馈信息,并在所述反馈信息中提取出待识别文本;
7.对所述待识别文本进行特征提取,得到所述待识别文本的文本特征;
8.根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,所述反馈类型用于指示所述反馈信息的类型,所述反馈参数用于指示所述待识别文本在所述反馈类型中的重要程度;
9.基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛选出至少一个目标文本;
10.对所述目标文本进行分词,并根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词,所述词属性信息用于指示所述文本词在所述目标文本中的重要程度。
11.相应的,本发明实施例提供一种关键词识别装置,包括:
12.获取单元,用于获取针对至少一个对象的反馈信息,并在所述反馈信息中提取出待识别文本;
13.提取单元,用于对所述待识别文本进行特征提取,得到所述待识别文本的文本特征;
14.确定单元,用于根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,所述反馈类型用于指示所述反馈信息的类型,所述反馈参数用于指示所述待识别文本在所述反馈类型中的重要程度;
15.筛选单元,用于基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛
选出至少一个目标文本;
16.识别单元,用于对所述目标文本进行分词,并根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词。
17.可选的,在一些实施例中,所述筛选单元,具体可以用于根据所述反馈类型,对所述待识别文本进行分类,得到每一反馈类型对应的待识别文本集合;基于所述反馈参数,对所述待识别文件集合中的待识别文本进行排序;根据排序信息,对所述待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本。
18.可选的,在一些实施例中,所述筛选单元,具体可以用于
19.根据排序信息,在所述待识别文件集合中筛选出排序位置未超过预设排序位置阈值的待识别文本,得到至少一个无效待识别文本;在所述待识别文本集合中对所述无效待识别文本进行过滤,得到至少一个目标文本。
20.可选的,在一些实施例中,所述识别单元,具体可以用于统计所述目标文本的文本数量,得到第一文本数量;根据所述第一文本数量,确定分词后的每一文本词的词属性信息;基于所述词属性信息和所述反馈类型,在所述文本词中筛选出至少一个关键词。
21.可选的,在一些实施例中,所述识别单元,具体可以用于在所述目标文本中统计出包含所述文本词的文本数量,得到第二文本数量;根据所述第一文本数量和第二文本数量,计算每一所述文本词的词频和逆文档频率;将所述词频和逆文档频率进行融合,得到所述文本词的词属性信息。
22.可选的,在一些实施例中,所述识别单元,具体可以用于在所述目标文本中筛选出每一反馈类型对应的反馈文本,并统计所述反馈文本的文本数量,得到第三文本数量;在所述文本词中识别出文本字符,并根据所述第三文本数量和文本字符,计算每一所述文本词的后验概率,所述后验概率用于指示所述文本词出现特定反馈类型的目标文本中的概率;根据所述词属性信息和后验概率,在所述文本词中筛选出至少一个关键词。
23.可选的,在一些实施例中,所述识别单元,具体可以用于根据所述第三文本数量,计算所述每一文本词的分布概率,得到词分布概率;基于所述文本字符、第一文本数量和第三文本数量,计算所述文本字符的分布概率,得到字符分布概率;将所述词分布概率和字符分布概率进行融合,得到所述文本词的后验概率。
24.可选的,在一些实施例中,所述识别单元,具体可以用于根据所述后验概率,对所述文本词进行过滤,得到过滤后文本词;基于所述词属性信息,对所述过滤后文本词进行排序;根据排序信息,在所述过滤后文本词中筛选出至少一个关键词。
25.可选的,在一些实施例中,所述确定单元,具体可以用于采用训练后文本处理模型在所述文本特征中提取出反馈类型特征;根据所述反馈类型特征,确定所述待识别文本对应的反馈类型;采用所述训练后文本处理模型将所述文本特征转换为所述待识别文本的反馈有效性特征,以得到反馈参数。
26.可选的,在一些实施例中,所述关键词识别装置还可以训练单元,所述训练单元,具体可以用于获取至少一个样本对象的反馈文本样本集合,所述反馈文本样本集合包括至少一个标注对象类型和标注反馈类型的反馈文本样本;采用预设文本处理模型预测所述反馈文本样本的反馈类型,得到预测反馈类型;根据所述反馈文本样本,采用所述预设文本处理模型预测所述样本对象的对象类型,得到预测对象类型;根据所述标注对象类型、标注反
馈类型、预测反馈类型和预测对象类型,对所述预设文本处理模型进行收敛,得到训练后文本处理模型。
27.可选的,在一些实施例中,所述训练单元,具体可以用于采用所述预设文本处理模型对所述反馈文本样本进行特征提取,并将提取出的样本文本特征转换为样本反馈有效性特征;根据所述样本反馈有效性特征,确定所述反馈文本样本的样本反馈参数,并基于所述样本反馈参数,计算每一所述反馈文本样本的反馈权重;基于所述反馈权重,对所述样本文本特征进行融合,并基于融合后样本文本特征,确定所述样本对象的对象类型,得到预测对象类型。
28.可选的,在一些实施例中,所述训练单元,具体可以用于根据所述标注对象类型和预测对象类型,确定所述反馈文本样本的对象损失信息;基于所述标注反馈类型和预测反馈类型,确定所述反馈文本样本的反馈损失信息;获取所述反馈损失信息的融合参数,并基于所述融合参数,将所述反馈损失信息和对象损失信息进行融合;基于融合后损失信息对所述预设文本处理模型进行收敛,得到训练后文本处理模型。
29.可选的,在一些实施例中,所述训练单元,具体可以用于获取至少一个样本对象的原始反馈文本样本集合;当所述原始反馈文本样本集合中的反馈文本样本数量超过预设数量阈值时,根据所述反馈文本样本的时间信息,在所述原始反馈文本样本集合中采样出预设数量的基础反馈文本样本,得到剩余反馈文本样本;根据所述预设数量阈值和预设数量,确定反馈文本样本的剩余采样数量;在所述剩余反馈文本样本中随机采样出所述剩余采样数量对应的目标反馈文本样本;将所述基础返利文本样本和目标反馈文本样本进行融合,得到所述样本对象的反馈文本样本集合。
30.可选的,在一些实施例中,所述获取单元,具体可以用于在所述反馈信息中提取出原始文本,并在所述原始文本中筛选出目标字符;根据所述目标字符的字符类型,在预设替换字符集合中筛选出所述目标字符对应的替换字符;在所述原始文本中将所述目标字符替换为所述替换字符,得到待识别文本。
31.此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的关键词识别方法。
32.此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种关键词识别方法中的步骤。
33.本发明实施例在获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本后,对待识别文本进行特征提取,得到待识别文本的文本特征,然后,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,然后,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词;由于该方案在提取出反馈信息的待识别文本之后,通过文本特征可以确定出待识别文本对应的反馈类型和反馈参数,将反馈类型和反馈参数作为先验知识,就可以准确的在待识别文本中筛选出目标文本,从而在目标文本识别出关键词,因此,可以提升关键词识别的准确率。
附图说明
34.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
35.图1是本发明实施例提供的关键词识别方法的场景示意图;
36.图2是本发明实施例提供的关键词识别方法的流程示意图;
37.图3是本发明实施例提供的预设文本处理模型的网络结构示意图;
38.图4是本发明实施例提供的关键词识别方法的另一流程示意图;
39.图5是本发明实施例提供的关键词识别装置的结构示意图;
40.图6是本发明实施例提供的关键词识别装置的另一结构示意图;
41.图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
42.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
43.本发明实施例提供一种关键词识别方法、装置、电子设备和计算机可读存储介质。其中,该关键词识别装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
44.其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。本发明实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
45.例如,参见图1,以关键词识别装置集成在电子设备中为例,电子设备在获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本后,对待识别文本进行特征提取,得到待识别文本的文本特征,然后,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,然后,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词,进而提升关键词识别的准确率。
46.其中,本技术实施例提供的关键词识别方法涉及到人工智能领域的自然语言处理技术,即在本技术中可以利用人工智能的自然语言处理技术对待识别文本进行文本特征提取,以及对对文本词进行分词,并在分词后的文本词中识别出至少一个关键词。
47.其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的
理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
48.其中,自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
49.以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
50.本实施例将从关键词识别装置的角度进行描述,该关键词识别成装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(pc,personal computer)、可穿戴设备、虚拟现实设备或其他可以进行关键词识别的智能设备等设备。
51.一种关键词识别方法,包括:
52.获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本,对待识别文本进行特征提取,得到待识别文本的文本特征,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,该反馈类型用于指示所述反馈信息的类型,该反馈参数用于指示待识别文本在反馈类型中的重要性,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词,该词属性信息用于指示所述文本词在所述目标文本中的重要程度。
53.如图2所示,该关键词识别方法的具体流程如下:
54.101、获取至少一个对象的反馈信息,并在反馈信息中提取出待识别文本。
55.其中,反馈信息可以为在交互过程中对该对象或该对象的物品进行反馈的信息,所谓反馈可以理解为对对象或对象的物品进行评价或投诉等,反馈信息的类型可以有多种,比如,可以包括文本、图像、语音或视频等等内容信息。
56.其中,获取至少一个对象的反馈信息的方式可以有多种,具体可以如下:
57.例如,可以直接获取终端发送的针对至少一个对象的反馈信息,或者,可以从交互平台的数据库中获取针对至少一个对象的反馈信息,或者,还可以在针对至少一个对象的审核平台获取该对象的审核信息,在审核信息中筛选出至少一个反馈信息,或者,当反馈信息的数量较多或者反馈信息的内存较大时,还可以接收信息处理请求,该信息处理请求中携带反馈信息的存储地址,基于该存储地址,获取针对至少一个对象的反馈信息。
58.在获取针对至少一个对象的反馈信息之后,便可以在反馈信息中提取出待识别文本,提取待识别文本的方式可以有多种,比如,可以在反馈信息中提取出原始文本,并在原始文本中筛选出目标字符,根据目标字符的字符类型,在预设替换字符集合中筛选出目标
字符对应的替换字符,在原始文本中将目标字符替换为替换字符,得到待识别文本。
59.其中,在反馈信息中提取出原始文本的方式可以有多种,比如,可以获取反馈信息的信息类型,根据信息类型,在反馈信息中提取出原始文本。
60.其中,根据信息类型,在反馈信息中提取出原始文本的方式可以有多种,比如,当信息类型为文本时,将反馈信息作为待识别文本,当信息类型为非文本时,就可以将反馈信息转换为文本信息,从而得到原始文本,当信息类型为非文本和文本时,在反馈文本信息中提取出非文本的反馈信息,将非文本的反馈信息转换为文本信息,并将转换后的文本和文本类型的反馈信息作为原始文本,或者,当信息类型为非文本和文本时,还可以直接提取出文本类型的反馈信息,从而得到原始文本。
61.其中,当信息类型为非文本时,将反馈信息转换为文本信息的方式可以有多种,比如,当信息类型为图像时,在反馈图像中提取出文本信息,当信息类型为视频是,在反馈视频中提取字幕信息,将字幕信息作为文本信息,当信息类型为音频时,对反馈音频进行文本转换,从而得到文本信息。
62.在反馈信息中提取出原始文本之后,便可以在原始字符筛选出目标字符,筛选目标字符的方式可以有多种,比如,可以在原始字符中筛选出预设字符类型的字符,从而得到目标字符,或者,还可以在原始字符中筛选出预设字符,从而得到目标字符。
63.在筛选出目标字符的字符类型之后,便可以根据目标字符的字符类型,在预设替换字符集合中筛选出目标字符对应的替换字符,筛选出替换字符的方式可以有多种,比如,当字符类型为数字时,就可以在预设替换字符集合中筛选出数字对应的替换字符,当字符类型字母是,就可以在预设替换字符集合中筛选出字母对应的替换字符。
64.其中,对原始文本中的目标字符进行替换主要是为了对文本数据进行清洗,将原始文本中的非文本字符替换为统一的字符,以非文本字符为大写数字和小写数字为例,就可以对原始文本中的大写数字和小写数字分别用于单一文字或符合进行替换,并且合并数字。以其中一条反馈信息的原始文本为“不知道什么情况,10月1日自动扣款648元”为例,若分别使用“捌”和“8”替换上面的文本信息并合并数字,则待识别文本就可以为“不知道什么情况,8月8日自动扣款8元”。这样就可以避免一些非文本字符对待识别文本中的文本词的干扰,从而提升关键词的识别准确率。
65.102、对待识别文本进行特征提取,得到待识别文本的文本特征。
66.例如,可以采用训练后文本处理模型的文本特征提取网络对待识别文本进行多维的语义特征提取,得到每一维度的初始文本特征,将初始文本特征进行融合,从而得到待识别文本的文本特征。
67.其中,文本特征提取网络的网络结构可以有多种,比如,可以为bert(一种预训练的语言表征网络)网络、卷积网络、残差网络或者各种可以进行文本特征提取的网络。以文本特征提取网络为bert网络为例,bert网络使用前六层,待识别文本通过bert网络之后,使用bert网络的最后一层768维的cls向量作为该待识别文本的向量表示,将该向量表示作为待识别文本的文本特征。
68.103、根据文本特征,确定待识别文本对应的反馈类型和反馈参数。
69.其中,反馈类型可以用于指示反馈信息的类型,反馈信息的类型也可以理解为待识别文本中针对对象或者对象的物品进行反馈的类型,反馈类型可以为预设设定的反馈类
型中任意一种或多种,比如,以反馈为投诉为例,则反馈类型就可以理解为投诉信息的投诉类型,即在投诉信息中针对对象或对象物品进行投诉的类型。
70.其中,反馈参数用于指示待识别文本在反馈类型中的重要程度,从而决定该待识别文本在该反馈类型对应的反馈信息中的重要程度,进而可以判断该待识别文本对应的反馈信息是否为有效反馈信息。
71.其中,根据文本特征,确定待识别文本对应的反馈类型和反馈参数的方式可以有多种,比如,可以采用训练后文本处理模型在文本特征中提取出反馈类型特征,根据反馈类型特征,确定待识别文本对应的反馈类型,采用训练后文本处理模型将文本特征转换为待识别文本的反馈有效性特征,以得到反馈参数。
72.其中,采用训练后文本处理模型在文本特征中提取出反馈类型特征的方式可以有多种,比如,可以采用训练后文本处理模型的多层感知机网络(mlp)在文本特征中提取出反馈类型特征,或者,还可以采用其他网络在文本特征中提取出反馈类型特征。
73.在提取出反馈类型特征之后,便可以根据反馈类型特征,确定待识别文本对应的反馈类型,确定反馈类型的方式可以有多种,比如,可以通过分类网络(softmax网络)将反馈类型特征转换为待识别文本的反馈类型概率分布信息,基于反馈类型概率分布信息,在预设反馈类型中筛选出待识别文本的反馈概率,从而确定待识别文本对应的反馈类型,具体可以如公式(1)所示:
[0074][0075]
其中,t
′
ij
为待识别文本的反馈类型,mlpc(bert(c
ij
))为反馈类型特征,bert)c
ij
)为待识别文本的文本特征,c
ij
为对象i的第j个反馈信息中的待识别文本。
[0076]
其中,反馈有效性特征用于指示待识别文本在反馈信息中绝对/相对有效性的特征信息。
[0077]
采用训练后文本处理模型将文本特征转换为待识别文本的反馈有效性特征,从而得到反馈参数的方式可以有多种,比如,可以采用训练后文本处理模型的多层感知机网络(mlp)将文本特征转换为反馈有效性特征,根据反馈有效性特征,确定待识别文本的反馈参数,具体可以如公式(2)所示:
[0078]vij
=mlp
at
(bert(c
ij
))
ꢀꢀ
(2)
[0079]
其中,v
ij
为第i个对象的第j个反馈信息中的待识别文本的反馈参数,bert(c
ij
)为待识别文本的文本特征,c
ij
为对象i的第j个反馈信息中的待识别文本。
[0080]
可选的,该训练后文本处理模型可以根据实际应用进行设置,另外,需要说明的是,该训练后文本处理模型可以由维护人员预先设置,也可以由关键词识别装置自行进行训练,即步骤“采用训练后文本处理模型分别在所述文本特征中提取出反馈类型特征和反馈有效性特征”之前,该关键词识别方法还可以包括:
[0081]
获取至少一个样本对象的反馈文本样本集合,该反馈文本样本集合包括至少一个标注对象类型和标注反馈类型的反馈文本样本,采用预设文本处理模型预测反馈文本样本的反馈类型,得到预测反馈类型,根据反馈文本样本,采用预设文本处理模型预测样本对象的对象类型,得到预测对象类型,根据标注对象类型、标注反馈类型、预测反馈类型和预测对象类型,对预设文本处理模型进行收敛,得到训练后文本处理模型,具体可以如下:
[0082]
(1)获取至少一个样本对象的反馈文本样本集合。
[0083]
其中,反馈文本样本基本包括至少一个标注对象类型和标注反馈类型的反馈文本样本。
[0084]
其中,获取至少一个样本对象的反馈文本样本集合的方式可以有多种,具体可以如下:
[0085]
例如,获取至少一个样本对象的原始反馈文本样本集合,当原始反馈样本集合中的反馈文本样本数量超过预设数量阈值时,根据反馈文本样本的时间信息,在原始反馈文本样本集合中采样出预设数量的基础反馈文本样本,得到剩余反馈文本样本,根据预设数量阈值和预设数量,确定反馈文本样本的剩余采样数量,在剩余反馈文本样本中随机采样出剩余采样数量对应的目标反馈文本样本,将基础反馈文本样本和目标反馈文本样本进行融合,得到样本对象的反馈文本样本集合。
[0086]
其中,获取原始反馈文本样本集合的方式可以有多种,比如,获取交互平台中对象集合,根据预设对象信息,对对象集合中候选对象进行清洗,得到至少一个样本对象,获取每一样本对象的反馈信息、审核信息和评级信息,根据样本对象的审核信息和评级信息,确定样本对象的对象类型,在样本对象的反馈信息中提取出反馈文本和反馈类型,在反馈文本中标注对象类型和反馈类型,从而得到反馈文本样本,将每一样本对象的反馈文本样本进行融合,从而得到该样本对象的原始反馈文本样本集合。
[0087]
其中,根据预设对象信息,对对象集合中候选对象进行清洗的方式可以有多种,比如,可以获取预设对象信息,在对象集合中的候选对象中删除预设对象信息包括的对象名单中的候选对象,从而得到至少一个样本对象。对对象集合进行清洗的主要目的在于在实际情况,针对预设对象信息包括的对象名单中的候选对象的反馈信息往往存在误差,从而影响对预设文本处理模型的训练效果。以反馈信息为投诉信息,对象为商户为例,根据实际情况,在候选商户中需要删除重点商户,因为这些商户本身经营的业务不存在任何问题,但是由于体量较大和其他种种原因会被黑产利用,从而出现较为严重的投诉,影像模型效果。
[0088]
其中,以样本对象为商户为例,审核信息就可以为商户的处罚记录等信息,根据商户的处罚记录和评级信息等,对商户进行黑白打标,比如,对处罚措施较为严重的商户,如限制出资,关闭支付等,且最新状态仍未解除这些限制的商户标为黑商户,其余则标记为白商户,从而得到每一样本对象的对象类型。
[0089]
其中,在原始反馈文本样本集合中采样出反馈文本样本集合的方式主要是为了保证训练是显存不溢出,因此,每次加载的反馈文本样本的数量不能太多,如果只是简单采样就等同于舍弃一部分数据。为了能在有限的硬件资源下充分利用数据,需要在训练过程中对反馈文本样本进行采样,以预设数量阈值为50条,预设数量为10条为例,当每一次迭代时选取的样本对象的原始反馈文本样本集合中的反馈文本样本数量超过50条时,则先在原始反馈文本样本集合中取出最近的10条反馈文本样本,然后,在剩下的反馈文本样本中随机抽样出40条,最后将这50条反馈文本样本组成样本对象的反馈文本样本集合。
[0090]
(2)采用预设文本处理模型预测反馈文本样本的反馈类型,得到预测反馈类型。
[0091]
例如,采用预设文本处理模型预测所述反馈文本样本的反馈类型,得到预测反馈类型的方式跟确定待识别文本的反馈类型的方式相同,详见上文,在此就不再一一赘述。
[0092]
(3)根据反馈文本样本,采用预设文本处理模型预测样本对象的对象类型,得到预
测对象类型。
[0093]
例如,可以采用预设文本处理模型对反馈文本样本进行特征提取,并将提取出的样本文本特征转换为样本反馈有效性特征,根据反馈有效性特征,确定反馈文本样本的样本反馈参数,并基于样本反馈参数,计算每一反馈文本样本的反馈权重,基于反馈权重,对样本文本特征进行融合,并基于融合后样本文本特征,确定样本对象的对象类型,得到预测对象类型。
[0094]
其中,基于样本反馈参数,计算每一反馈文本样本的反馈权重的方式可以有多种,比如,在每一反馈文本样本的反馈参数中提取出反馈参数值,将每一反馈文本样本反馈参数值进行融合,然后,计算每一反馈文本样本的样本反馈参数值与融合后样本反馈参数值的比值,从而得到每一反馈文本样本的反馈权重,具体可以如公式(3)所示:
[0095][0096]
其中,attention
ij
为第i个样本对象的第j个反馈文本样本的反馈权重,mlp
at
(bert(c
ij
)为第i个样本对象的第j个反馈文本样本的反馈参数。
[0097]
其中,基于融合后样本文本特征,确定样本对象的对象类型的方式可以有多种,比如,可以通过mlp网络将融合后样本文本特征映射到一个标量,通过sigmoid函数即可得到该样本对象的预测概率yi′
,进而确定出样本对象的预测对象类型,具体可以如公式(4)所示:
[0098][0099]
其中,y
′i为样本对象的预测对象类型的预测概率,attention
ij
为反馈权重,bert(c
ij
)为文本特征。
[0100]
(4)根据标注对象类型、标注反馈类型、预测反馈类型和预测对象类型,对预设文本处理模型进行收敛,从而得到训练后文本处理模型。
[0101]
例如,根据标注对象类型和预测对象类型,确定反馈文本样本的对象损失信息,基于标注反馈类型和预测反馈类型,确定反馈文本样本的反馈损失信息,获取反馈损失信息的融合参数,并基于融合参数,将反馈损失信息和对象损失信息进行融合,基于融合后损失信息对预设文本处理模型进行收敛,得到训练后文本处理模型。
[0102]
其中,根据标注对象类型和预测对象类型,确定反馈文本样本的对象损失信息的方式可以有多种,比如,可以根据标注对象类型和预测对象类型的预测概率,采用交叉熵损失信息计算每一反馈文本样本的基础对象损失信息,将基础对象损失信息进行融合,得到反馈文本样本的对象损失信息,具体可以如公式(5)所示:
[0103][0104]
其中,merchantloss为对象损失信息,yi为预测概率,yi′
为标注对象类型对应的概率值。
[0105]
其中,根据标注反馈类型和预测反馈类型,确定反馈文本样本的反馈损失信息的方式以有多种,比如,可以根据标注反馈类型和预测反馈类型,采用交叉熵损失函数计算每
一反馈文本样本的基础反馈损失信息,具体可以如公式(6)所示:
[0106][0107]
其中,loss
ij
为第i个样本对象的第j个反馈文本样本的基础反馈损失信息,t’ij
为标注反馈类型,t
ij
为预测反馈类型。
[0108]
将基础反馈损失信息进行融合,从而得到反馈文本样本的对象损失信息,具体可以如公式(7)所示:
[0109][0110]
其中,complaintloss为对象损失信息,loss
ij
为第i个样本对象的第j个反馈文本样本的基础反馈损失信息。对象损失信息仅计算被标注的反馈文本样本,即j∈j
l
,j
l
表示反馈文本样本集合。
[0111]
在确定对象损失信息和反馈损失信息之后,便可以基于获取到的反馈损失信息的融合参数,将反馈损失信息和对象损失信息进行融合,融合的方式可以有多种,比如,可以将融合参数与反馈损失信息进行融合,得到融合后反馈损失信息,将融合后反馈损失信息和对象损失信息进行融合,得到融合后损失信息,具体可以如公式(8)所示:
[0112]
loss=merchantloss+αcomplaintloss
ꢀꢀ
(8)
[0113]
其中,loss为融合后损失信息,merchantloss为对象损失信息,α为融合参数,complaintloss为反馈损失信息。
[0114]
其中,预设文本处理模型是一个多任务模型,即同时进行两个任务,且两个任务共享一部分网络结构。融合参数α为超参数,需要手动设定,对于融合参数α的选取,在训练初期可以随意设置一个较大的数值,随着训练的进行,对象算信息会先进行收敛,同时预设文本处理模型对每条反馈文本样本预测的效果也会趋于平稳。此时适当调低融合参数α,使得对象损失信息和样本对象的预测效果均接近平稳,即完成预设文本处理模型的训练。
[0115]
其中,需要说明的是,以反馈信息为投诉信息为例,预设文本处理模型的网络结构可以如图3所示,获取投诉数据,该投诉数据中包括商品类目、投诉文本以及投诉文本的投诉类型,对投诉文本进行语义信息抽取,输出投诉文本的文本特征(gls),根据该文本特征输出该投诉文本的预测投诉类型和该投诉文本的投诉有效性特征,并基于该投诉有效性特征确定投诉文本的相对/绝对有效性,最后进行投诉权重分配,基于分配后的投诉权重通过对象类型识别网络输出预测商户类型,基于标注投诉类型、商户标签、预测投诉类型和预测商户类型对预设文本处理模型进行收敛,得到训练后文本处理模型,采用训练后文本处理模型根据对象的若干条反馈信息判断对象类型、以及输出每条反馈信息中的待识别文本的重要性和反馈类型。
[0116]
104、基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本。
[0117]
例如,可以根据反馈类型,对待识别文本进行分类,得到每一反馈类型对应的待识别文本集合,基于反馈参数,对待识别文本集合中的待识别文本进行排序,根据排序信息,对待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本。
[0118]
其中,有效性过滤可以理解为对待识别文本集合中的无效待识别文本进行过滤,
从而过滤出有效待识别文本,所谓有效待识别文本可以理解为在待识别文本集合中的待识别文本的重要程度处于预设排序区间的待识别文本,也就是排序位置超过预设排序位置阈值的待识别文本,与之相对应的无效待识别文本就可以为排序位置未超过预设排序阈值的待识别文本。基于排序信息,对待识别文本集合中的待识别文本进行有效性过滤的方式可以有多种,比如,根据排序信息,在待识别文本集合中筛选出排序位置未超过预设排序位置阈值的待识别文本,得到至少一个无效待识别文本,在待识别文本集合中对无效待识别文本进行过滤,得到至少一个目标文本。
[0119]
其中,预设排序位置阈值可以根据实际应用进行设定,比如,可以为50%或者其他阈值,以预设排序位置阈值为50%为例,就可以在待识别文本集合中筛选出排序位置在后50%的待识别文本作为无效待识别文本,譬如,以待识别文本集合中的待识别文本数量为10个为例,也就是在待识别文本集合中排序位置为6-10的待识别文本就可以为无效待识别文本。
[0120]
105、对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词。
[0121]
其中,对目标文本进行分词的方式可以有多种,具体可以如下:
[0122]
例如,可以采用分词工具对目标文本进行分词,得到目标文本对应的至少一个文本词,或者,还可以将目标文本发送至分词服务器,以便分词服务器对目标文本进行分词,并接收分词服务器返回的目标文本对应的至少一个文本词。
[0123]
在对目标文本进行分词之后,便可以根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词,识别关键词的方式可以有多种,比如,统计目标文本的文本数量,得到第一文本数量,根据第一文本数量,确定分词后的每一文本词的词属性信息,基于词属性信息和反馈类型,在文本词中筛选出至少一个关键词。
[0124]
其中,词属性信息可以为tf-idf算法的tf-idf值,用于指示文本词在目标文本中的重要程度。根据第一文本数量,确定分词后的每一文本词的词属性信息的方式可以有多种,比如,在目标文本中统计出包含文本词的文本数量,得到第二文本数量,根据第一文本数量和第二文本数量,计算每一文本词的词频和逆文档频率,将词频和逆文档频率进行融合,得到文本词的词属性信息。
[0125]
其中,根据第一文本数量和第二文本数量,计算每一文本词的词频和逆文档频率的方式可以有多种,比如,计算第一文本数量和第二文本数量的比值,基于该数量比值,得到每一文本词的逆为文档频率,具体可以如公式(9)所示:
[0126][0127]
其中,idf为每一文本词的逆文档频率。
[0128]
在目标文本中统计出每一反馈类型的目标文本包含文本词的文本数量,得到每一文本词的词频tf。
[0129]
在计算出每一文本词的词频和逆文档频率之后,便可以将词频tf和逆文档频率idf进行融合,融合的方式可以有多种,比如,可以直接将词频tf和逆文档频率idf相乘,从而就可以得到每一文本词的词属性信息。
[0130]
在确定出分词后的每一文本词的词属性信息之后,便可以基于词属性信息和反馈
类型,在文本词中筛选出至少一个关键词,筛选出关键词的方式可以有多种,比如,可以在目标文本中筛选出每一反馈类型对应的反馈文本,并统计反馈文本的文本数量,得到第三文本数量,在文本词中识别出文本字符,并根据第三文本数量和文本字符,计算每一文本词的后验概率,根据词属性信息和后验概率,在文本词中筛选出至少一个关键词。
[0131]
其中,后验概率用于指示文本词出现特定反馈类型的目标文本中的概率,根据第三文本数量和文本字符,计算每一文本词的后验概率的方式可以有多种,比如,根据第三文本数量,计算每一文本词的分布概率,得到词分布概率,基于文本字符、第一文本数量和第三文本数量,计算文本字符的分布概率,得到字符分布概率,将词分布概率和字符分布概率进行融合,得到文本词的后验概率。
[0132]
其中,根据第三文本数量,计算每一文本词的分布概率的方式可以有多种,比如,可以在反馈文本中统计出包含文本词的文本数量,得到第四文本数量,计算第四文本数量和第三文本数量的比值,得到文本词的词分布概率,该文本词分布概率用于指示任意文本词x出现某一反馈类型t的任意一条反馈文本中的概率。
[0133]
其中,基于文本字符、第一文本数量和第三文本数量,计算文本字符的分布概率的方式可以有多种,比如,可以在目标文本中统计出包含文本字符的文本数量,得到第五文本数量,基于第五文本数量和第一文本数据,计算文本词的全量字符分布概率,在反馈文本中统计出包含文本字符的文本数量,得到第六文本数量,基于第六文本数量和第三文本数量,计算文本词的反馈字符分布概率,将全量字符分布概率和反馈字符分布概率作为文本词的字符分布概率。
[0134]
其中,基于第五文本数量和第一文本数据,计算文本词的全量字符分布概率的方式可以有多种,比如,计算第五文本数量与第一文本数量的比值,得到文本词的每一文本字符对应的初始全量字符分布概率,将初始全量字符分布概率进行融合,得到全量字符分布概率,该全量字符分布概率可以为指定文本词中的一个字符xi出现在目标文本中任意一条文本的概率,
[0135]
其中,基于第六文本数量和第三文本数量,计算文本词的反馈字符分布概率的方式可以有多种,比如,计算第六文本数量和第三文本数量的比值,得到文本词的每一文本字符对于的初始反馈字符分布概率,将初始反馈字符分布概率进行融合,得到反馈字符分布概率,该反馈字符分布概率用于指示特定反馈类型的任意一条反馈文本出现该文本词中任意个字符xi的概率。
[0136]
在计算出词分布概率和字符分布概率之后,便可以将词分布概率和字符分布概率进行融合,融合的方式可以有多种,比如,将词分布概率与反馈字符分布概率进行融合,得到融合后分布概率,计算融合后分布概率与全量字符分布概率的概率比值,从而得到该文本词的后验概率,具体可以如公式(10)所示:
[0137][0138]
其中,p为后验概率,用于指示指定文本词出现在指定反馈类型的一条反馈文本中的概率,∏jp2为反馈字符分布概率,用于指示该反馈类型的任意一条反馈文本中出现文本词中的一个字符的概率,∏jp3为全量字符分布概率,用于指示文本词中的一个文本字符出现在目标文本中的任意一条文本的概率。
[0139]
在计算出每一文本词的后验概率之后,便可以根据词属性信息和后验概率,在文本词中筛选出至少一个关键词,筛选关键词的方式可以有多种,比如,根据后验概率,对文本词进行过滤,得到过滤后文本词,根据词属性信息,对过滤后文本词进行排序,根据排序信息,在过滤后文本词中筛选出至少一个关键词。
[0140]
其中,根据后验概率,对文本词进行过滤的方式可以有多种,比如,可以在文本词中筛选出后验概率超过预设概率阈值的文本词,从而得到过滤后文本词。预设概率阈值可以根据实际应用进行设定,比如,可以为80%或者其他概率值。
[0141]
其中,根据排序信息,在过滤后文本词中筛选出至少一个关键词的方式可以有多种,比如,可以在过滤后文本词中筛选出topn的目标文本词,将该目标文本词作为关键词,或者,还可以在过滤后文本词中筛选出topn的文本词,得到候选文本词,对候选文本词的词属性信息进行加权,并在加权后的候选文本词中筛选出至少一个关键词。
[0142]
其中,以反馈信息为投诉信息为例,采用本方案对某一特定投诉类型的投诉文本进行关键词识别,识别的结果可以如表1所示:
[0143]
表1
[0144][0145]
其中,关键词1-4为根据tiidf排序和后验概率过滤之后得到关键词,可以看到仅凭tfidf不足以过滤常见词,但是经过后验概率的过滤,则可以达到很好的效果。验证了整个方案能足够准确且基本无人工干预地对特定类型的透视进行高危关键词筛选。
[0146]
可选的,在一实施例中,该关键词识别装置还包括将识别出的至少一个关键词存储至区块链上。
[0147]
由以上可知,本技术实施例在获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本后,对待识别文本进行特征提取,得到待识别文本的文本特征,然后,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,然后,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词;由于该方案在提取出反馈信息的待识别文本之后,通过文本特征可以确定出待识别文本的反馈类型和反馈参数,将反馈类型和反馈参数作为先验知识,就可以准确的在待识别文本中筛选出目标文本,从而在目标文本识别出关键词,因此,可以提升关键词识别的准确率。
[0148]
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
[0149]
在本实施例中,将以该关键词识别装置具体集成在电子设备,电子设备为服务器,对象为商户,反馈信息为投诉信息、反馈类型为投诉类型,反馈参数为投诉参数为例进行说明。
[0150]
如图4所示,一种关键词识别方法,具体流程如下:
[0151]
201、服务器获取至少一个商户的投诉信息。
[0152]
例如,服务器可以直接获取终端发送的针对至少一个商户的投诉信息,或者,可以从交互平台的数据库中获取针对至少一个商户的投诉信息,或者,还可以在针对至少一个商户的审核平台获取该商户的审核信息,在审核信息中筛选出至少一个投诉信息,或者,当投诉信息的数量较多或者投诉信息的内存较大时,还可以接收信息处理请求,该信息处理请求中携带投诉信息的存储地址,基于该存储地址,获取针对至少一个商户的投诉信息。
[0153]
202、服务器在投诉信息中提取出待识别文本。
[0154]
例如,服务器可以获取投诉信息的信息类型,当信息类型为文本时,将投诉信息作为待识别文本,当信息类型为非文本时,就可以将投诉信息转换为文本信息,从而得到原始文本,当信息类型为非文本和文本时,在投诉文本信息中提取出非文本的投诉信息,将非文本的投诉信息转换为文本信息,并将转换后的文本和文本类型的投诉信息作为原始文本,或者,当信息类型为非文本和文本时,还可以直接提取出文本类型的投诉信息,从而得到原始文本。在原始文本中筛选出目标字符,根据目标字符的字符类型,在预设替换字符集合中筛选出目标字符对应的替换字符,在原始文本中将目标字符替换为替换字符,得到待识别文本。
[0155]
203、服务器对待识别文本进行特征提取,得到待识别文本的文本特征。
[0156]
例如,服务器可以通过bert网络对待识别文本进行特征提取,并将bert网络最后一层生成768维的cls向量作为该待识别文本的向量表示,将该向量表示作为待识别文本的文本特征。
[0157]
204、服务器根据文本特征,确定待识别文本对应的投诉类型和投诉参数。
[0158]
例如,服务器可以采用训练后文本处理模型的多层感知机网络(mlp)在文本特征中提取出投诉类型特征,或者,还可以采用其他网络在文本特征中提取出投诉类型特征。通过softmax网络将投诉类型特征转换为待识别文本的投诉类型概率分布信息,基于投诉类型概率分布信息,在预设投诉类型中筛选出待识别文本的投诉概率,从而确定待识别文本的投诉类型,具体可以如公式(1)所示。
[0159]
服务器采用训练后文本处理模型的多层感知机网络(mlp)将文本特征转换为投诉有效性特征,根据投诉有效性特征,确定待识别文本的投诉参数,具体可以如公式(2)所示。
[0160]
可选的,服务器采用训练后文本处理模型分别在所述文本特征中提取出投诉类型特征和投诉有效性特征之前,还可以对预设文本处理模型进行训练,从而得到训练后文本处理模型,具体可以如下:
[0161]
(1)服务器获取至少一个样本商户的投诉文本样本集合。
[0162]
例如,服务器获取交互平台中商户集合和预设商户信息,在商户集合中的候选商户中删除预设商户信息包括的商户名单中的候选商户,从而得到至少一个样本商户。获取每一样本商户的投诉信息、审核信息和评级信息,根据样本商户的审核信息和评级信息,确定样本商户的商户类型,在样本商户的投诉信息中提取出投诉文本和投诉类型,在投诉文
本中标注商户类型和投诉类型,从而得到投诉文本样本,将每一样本商户的投诉文本样本进行融合,从而得到该样本商户的原始投诉文本样本集合。
[0163]
当原始投诉样本集合中的投诉文本样本数量超过预设数量阈值时,服务器根据投诉文本样本的时间信息,在原始投诉文本样本集合中采样出预设数量的基础投诉文本样本,得到剩余投诉文本样本,根据预设数量阈值和预设数量,确定投诉文本样本的剩余采样数量,在剩余投诉文本样本中随机采样出剩余采样数量对应的目标投诉文本样本,将基础投诉文本样本和目标投诉文本样本进行融合,得到样本商户的投诉文本样本集合。
[0164]
(2)服务器采用预设文本处理模型预测投诉文本样本的投诉类型,得到预测投诉类型。
[0165]
例如,服务器采用预设文本处理模型预测所述投诉文本样本的投诉类型,得到预测投诉类型的方式跟确定待识别文本的投诉类型的方式相同,详见上文,在此就不再一一赘述。
[0166]
(3)服务器根据投诉文本样本,采用预设文本处理模型预测样本商户的商户类型,得到预测商户类型。
[0167]
例如,服务器可以采用预设文本处理模型对投诉文本样本进行特征提取,并将提取出的样本文本特征转换为样本投诉有效性特征,根据投诉有效性特征,确定投诉文本样本的样本投诉参数。
[0168]
服务器在每一投诉文本样本的投诉参数中提取出投诉参数值,将每一投诉文本样本投诉参数值进行融合,然后,计算每一投诉文本样本的样本投诉参数值与融合后样本投诉参数值的比值,从而得到每一投诉文本样本的投诉权重,具体可以如公式(3)所示。
[0169]
服务器基于投诉权重,对样本文本特征进行融合,得到融合后样本文本特征,通过mlp网络将融合后样本文本特征映射到一个标量,通过sigmoid函数即可得到该样本商户的预测概率yi′
,进而确定出样本商户的预测商户类型,具体可以如公式(4)所示。
[0170]
(4)服务器根据标注商户类型、标注投诉类型、预测投诉类型和预测商户类型,对预设文本处理模型进行收敛,从而得到训练后文本处理模型。
[0171]
例如,服务器可以根据标注商户类型和预测商户类型的预测概率,采用交叉熵损失信息计算每一投诉文本样本的基础商户损失信息,将基础商户损失信息进行融合,得到投诉文本样本的商户损失信息,具体可以如公式(5)所示。服务器可以根据标注投诉类型和预测投诉类型,采用交叉熵损失函数计算每一投诉文本样本的基础投诉损失信息,具体可以如公式(6)所示。将基础投诉损失信息进行融合,从而得到投诉文本样本的商户损失信息,具体可以如公式(7)所示。
[0172]
服务器获取投诉损失信息的融合参数,并将融合参数与投诉损失信息进行融合,得到融合后投诉损失信息,将融合后投诉损失信息和商户损失信息进行融合,得到融合后损失信息,具体可以如公式(8)所示。基于融合后损失信息对预设文本处理模型进行收敛,得到训练后文本处理模型。
[0173]
205、服务器基于投诉类型和投诉参数,对待识别文本进行排序,以筛选出至少一个目标文本。
[0174]
例如,服务器可以根据投诉类型,对待识别文本进行分类,得到每一投诉类型对应的待识别文本集合,根据投诉参数,对待识别文本集合中的待识别文本进行排序,基于排序
信息,在待识别文本集合中筛选出未超过前50%或者其他区间阈值的待识别文本作为无效待识别文本,在待识别文本集合中对无效待识别文本进行过滤,得到至少一个目标文本。
[0175]
206、服务器对目标文本进行分词。
[0176]
例如,服务器可以采用分词工具对目标文本进行分词,得到目标文本对应的至少一个文本词,或者,还可以将目标文本发送至分词服务器,以便分词服务器对目标文本进行分词,并接收分词服务器返回的目标文本对应的至少一个文本词。
[0177]
207、服务器根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词。
[0178]
例如,服务器统计目标文本的文本数量,得到第一文本数量,在目标文本中统计出包含文本词的文本数量,得到第二文本数量,计算第一文本数量和第二文本数量的比值,基于该数量比值,得到每一文本词的逆为文档频率,具体可以如公式(9)所示。在目标文本中统计出每一投诉类型的目标文本包含文本词的文本数量,得到每一文本词的词频tf。将词频tf和逆文档频率idf相乘,从而就可以得到每一文本词的词属性信息。
[0179]
服务器可以在目标文本中筛选出每一投诉类型对应的投诉文本,并统计投诉文本的文本数量,得到第三文本数量,在文本词中识别出文本字符。在投诉文本中统计出包含文本词的文本数量,得到第四文本数量,计算第四文本数量和第三文本数量的比值,得到文本词的词分布概率。
[0180]
服务器在目标文本中统计出包含文本字符的文本数量,得到第五文本数量,计算第五文本数量与第一文本数量的比值,得到文本词的每一文本字符对应的初始全量字符分布概率,将初始全量字符分布概率进行融合,得到全量字符分布概率。在投诉文本中统计出包含文本字符的文本数量,得到第六文本数量,计算第六文本数量和第三文本数量的比值,得到文本词的每一文本字符对于的初始投诉字符分布概率,将初始投诉字符分布概率进行融合,得到投诉字符分布概率,将全量字符分布概率和投诉字符分布概率作为文本词的字符分布概率。
[0181]
服务器将词分布概率与投诉字符分布概率进行融合,得到融合后分布概率,计算融合后分布概率与全量字符分布概率的概率比值,从而得到该文本词的后验概率,具体可以如公式(10)所示。
[0182]
服务器可以在文本词中筛选出后验概率超过预设概率阈值的文本词,从而得到过滤后文本词。根据词属性信息,对过滤后文本词进行排序,在过滤后文本词中筛选出topn的目标文本词,将该目标文本词作为关键词,或者,还可以在过滤后文本词中筛选出topn的文本词,得到候选文本词,对候选文本词的词属性信息进行加权,并在加权后的候选文本词中筛选出至少一个关键词。
[0183]
由以上可知,本实施例服务器在获取针对至少一个商户的投诉信息,并在投诉信息中提取出待识别文本后,对待识别文本进行特征提取,得到待识别文本的文本特征,然后,根据文本特征,确定待识别文本对应的投诉类型和投诉参数,基于投诉类型和投诉参数,对待识别文本进行排序,以筛选出至少一个目标文本,然后,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词;由于该方案在提取出投诉信息的待识别文本之后,通过文本特征可以确定出待识别文本的投诉类型和投诉参数,将投诉类型和投诉参数作为先验知识,就可以准确的在待识别文本中筛选出目标文本,
从而在目标文本识别出关键词,因此,可以提升关键词识别的准确率。
[0184]
为了更好地实施以上方法,本发明实施例还提供一种关键词识别装置,该关键词识别装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
[0185]
例如,如图5所示,该关键词识别装置可以包括获取单元301、提取单元302、确定单元303、筛选单元304和识别单元305,如下:
[0186]
(1)获取单元301;
[0187]
获取单元301,用于获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本。
[0188]
例如,获取单元301,具体可以用于获取至少一个对象的反馈信息,在反馈信息中提取出原始文本,并在原始文本中筛选出目标字符,根据目标字符的字符类型,在预设替换字符集合中筛选出目标字符对应的替换字符,在原始文本中将目标字符替换为替换字符,得到待识别文本。
[0189]
(2)提取单元302;
[0190]
提取单元302,用于对待识别文本进行特征提取,得到待识别文本的文本特征。
[0191]
例如,提取单元302,具体可以用于采用训练后文本处理模型的文本特征提取网络对待识别文本进行多维的语义特征提取,得到每一维度的初始文本特征,将初始文本特征进行融合,从而得到待识别文本的文本特征。
[0192]
(3)确定单元303;
[0193]
确定单元303,用于根据文本特征,确定待识别文本对应的反馈类型和反馈参数,该反馈类型用于指示所述反馈信息的类型,该反馈参数用于指示待识别文本在反馈类型中的重要程度。
[0194]
例如,确定单元303,具体可以用于采用训练后文本处理模型在文本特征中提取出反馈类型特征,根据反馈类型特征,确定待识别文本对应的反馈类型,采用训练后文本处理模型将文本特征转换为待识别文本的反馈有效性特征,以得到反馈参数。
[0195]
(4)筛选单元304;
[0196]
筛选单元304,用于基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本。
[0197]
例如,筛选单元304,具体可以用于根据反馈类型,对待识别文本进行分类,得到每一反馈类型对应的待识别文本集合,基于反馈参数,对待识别文本集合中的待识别文本进行排序,根据排序信息,对待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本。
[0198]
(5)识别单元305;
[0199]
识别单元305,用于对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词。
[0200]
例如,识别单元305,具体可以用于对目标文本进行分词,统计目标文本的文本数量,得到第一文本数量,根据第一文本数量,确定分词后的每一文本词的词属性信息,基于词属性信息和反馈类型,在文本词中筛选出至少一个关键词。
[0201]
可选的,关键词识别装置还可以包括训练单元306,如图6所示,具体可以如下:
[0202]
训练单元306,用于对预设文本处理模型进行训练,得到训练后文本处理模型。
[0203]
例如,训练单元306,具体可以用于获取至少一个样本对象的反馈文本样本集合,该反馈文本样本集合包括至少一个标注对象类型和标注反馈类型的反馈文本样本,采用预设文本处理模型预测反馈文本样本的反馈类型,得到预测反馈类型,根据反馈文本样本,采用预设文本处理模型预测样本对象的对象类型,得到预测对象类型,根据标注对象类型、标注反馈类型、预测反馈类型和预测对象类型,对预设文本处理模型进行收敛,得到训练后文本处理模型。
[0204]
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
[0205]
由以上可知,本实施例在获取单元301获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本后,提取单元302对待识别文本进行特征提取,得到待识别文本的文本特征,然后,确定单元303根据文本特征,确定待识别文本对应的反馈类型和反馈参数,筛选单元304基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,然后,识别单元305对目标文本进行分词,并根据分词后的文本词的词属性信息,并在文本词中识别出至少一个关键词;由于该方案在提取出反馈信息的待识别文本之后,通过文本特征可以确定出待识别文本的反馈类型和反馈参数,将反馈类型和反馈参数作为先验知识,就可以准确的在待识别文本中筛选出目标文本,从而在目标文本识别出关键词,因此,可以提升关键词识别的准确率。
[0206]
本发明实施例还提供一种电子设备,如图7所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
[0207]
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
[0208]
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
[0209]
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
[0210]
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理
系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0211]
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0212]
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
[0213]
获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本,对待识别文本进行特征提取,得到待识别文本的文本特征,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,该反馈类型用于指示所述反馈信息的类型,该反馈参数用于指示待识别文本在反馈类型中的重要程度,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词,该词属性信息用于指示所述文本词在所述目标文本中的重要程度。
[0214]
例如,电子设备获取至少一个对象的反馈信息,在反馈信息中提取出原始文本,并在原始文本中筛选出目标字符,根据目标字符的字符类型,在预设替换字符集合中筛选出目标字符对应的替换字符,在原始文本中将目标字符替换为替换字符,得到待识别文本。采用训练后文本处理模型的文本特征提取网络对待识别文本进行多维的语义特征提取,得到每一维度的初始文本特征,将初始文本特征进行融合,从而得到待识别文本的文本特征。采用训练后文本处理模型在文本特征中提取出反馈类型特征,根据反馈类型特征,确定待识别文本对应的反馈类型,采用训练后文本处理模型将文本特征转换为待识别文本的反馈有效性特征,以得到反馈参数。根据反馈类型,对待识别文本进行分类,得到每一反馈类型对应的待识别文本集合,基于反馈参数,对待识别文本集合中的待识别文本进行排序,根据排序信息,对待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本。对目标文本进行分词,统计目标文本的文本数量,得到第一文本数量,根据第一文本数量,确定分词后的每一文本词的词属性信息,基于词属性信息和反馈类型,在文本词中筛选出至少一个关键词。
[0215]
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
[0216]
由以上可知,本发明实施例在获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本后,对待识别文本进行特征提取,得到待识别文本的文本特征,然后,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,然后,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词;由于该方案在提取出反馈信息的待识别文本之后,通过文本特征可以确定出待识别文本的反馈类型和反馈参数,将反馈类型和反馈参数作为先验知识,就可以准确的在待识别文本中筛选出目标文本,从而在目标文本识别出关键词,因此,可以提升关键词识别的准确率。
[0217]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0218]
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种关键词识别方法中的步骤。例如,该指令可以执行如下步骤:
[0219]
获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本,对待识别文本进行特征提取,得到待识别文本的文本特征,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,该反馈类型用于指示所述反馈信息的类型,该反馈参数用于指示待识别文本在反馈类型中的重要程度,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词,该词属性信息用于指示所述文本词在所述目标文本中的重要程度。
[0220]
例如,获取至少一个对象的反馈信息,在反馈信息中提取出原始文本,并在原始文本中筛选出目标字符,根据目标字符的字符类型,在预设替换字符集合中筛选出目标字符对应的替换字符,在原始文本中将目标字符替换为替换字符,得到待识别文本。采用训练后文本处理模型的文本特征提取网络对待识别文本进行多维的语义特征提取,得到每一维度的初始文本特征,将初始文本特征进行融合,从而得到待识别文本的文本特征。采用训练后文本处理模型在文本特征中提取出反馈类型特征,根据反馈类型特征,确定待识别文本对应的反馈类型,采用训练后文本处理模型将文本特征转换为待识别文本的反馈有效性特征,以得到反馈参数。根据反馈类型,对待识别文本进行分类,得到每一反馈类型对应的待识别文本集合,基于反馈参数,对待识别文本集合中的待识别文本进行排序,根据排序信息,对待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本。对目标文本进行分词,统计目标文本的文本数量,得到第一文本数量,根据第一文本数量,确定分词后的每一文本词的词属性信息,基于词属性信息和反馈类型,在文本词中筛选出至少一个关键词。
[0221]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0222]
其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、磁盘或光盘等。
[0223]
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种关键词识别方法中的步骤,因此,可以实现本发明实施例所提供的任一种关键词识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0224]
其中,根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述关键词识别方面或者投诉信息中的高危词识别方面的各种可选实现方式中提供的方法。
[0225]
以上对本发明实施例所提供的一种关键词识别方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐
述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:
1.一种关键词识别方法,其特征在于,包括:获取针对至少一个对象的反馈信息,并在所述反馈信息中提取出待识别文本;对所述待识别文本进行特征提取,得到所述待识别文本的文本特征;根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,所述反馈类型用于指示所述反馈信息的类型,所述反馈参数用于指示所述待识别文本在所述反馈类型中的重要程度;基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛选出至少一个目标文本;对所述目标文本进行分词,并根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词,所述词属性信息用于指示所述文本词在所述目标文本中的重要程度。2.根据权利要求1所述的关键词识别方法,其特征在于,所述基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛选出至少一个目标文本,包括:根据所述反馈类型,对所述待识别文本进行分类,得到每一反馈类型对应的待识别文本集合;基于所述反馈参数,对所述待识别文件集合中的待识别文本进行排序;根据排序信息,对所述待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本。3.根据权利要求2所述的关键词识别方法,其特征在于,所述根据排序信息,对所述待识别文本集合中的待识别文本进行有效性过滤,得到至少一个目标文本,包括:根据排序信息,在所述待识别文件集合中筛选出排序位置未超过预设排序位置阈值的待识别文本,得到至少一个无效待识别文本;在所述待识别文本集合中对所述无效待识别文本进行过滤,得到至少一个目标文本。4.根据权利要求1至3任一项所述的关键词识别方法,其特征在于,所述根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词,包括:统计所述目标文本的文本数量,得到第一文本数量;根据所述第一文本数量,确定分词后的每一文本词的词属性信息;基于所述词属性信息和所述反馈类型,在所述文本词中筛选出至少一个关键词。5.根据权利要求4所述的关键词识别方法,其特征在于,所述根据所述第一文本数量,确定分词后的每一文本词的词属性信息,包括:在所述目标文本中统计出包含所述文本词的文本数量,得到第二文本数量;根据所述第一文本数量和第二文本数量,计算每一所述文本词的词频和逆文档频率;将所述词频和逆文档频率进行融合,得到所述文本词的词属性信息。6.根据权利要求4所述的关键词识别方法,其特征在于,所述基于所述词属性信息和所述反馈类型,在所述文本词中筛选出至少一个关键词,包括:在所述目标文本中筛选出每一反馈类型对应的反馈文本,并统计所述反馈文本的文本数量,得到第三文本数量;在所述文本词中识别出文本字符,并根据所述第三文本数量和文本字符,计算每一所述文本词的后验概率,所述后验概率用于指示所述文本词出现特定反馈类型的目标文本中
的概率;根据所述词属性信息和后验概率,在所述文本词中筛选出至少一个关键词。7.根据权利要求6所述的关键词识别方法,其特征在于,所述根据所述第三文本数量和文本字符,计算每一所述文本词的后验概率,包括:根据所述第三文本数量,计算所述每一文本词的分布概率,得到词分布概率;基于所述文本字符、第一文本数量和第三文本数量,计算所述文本字符的分布概率,得到字符分布概率;将所述词分布概率和字符分布概率进行融合,得到所述文本词的后验概率。8.根据权利要求6所述的关键词识别方法,其特征在于,所述根据所述词属性信息和后验概率,在所述文本词中筛选出至少一个关键词,包括:根据所述后验概率,对所述文本词进行过滤,得到过滤后文本词;基于所述词属性信息,对所述过滤后文本词进行排序;根据排序信息,在所述过滤后文本词中筛选出至少一个关键词。9.根据权利要求1至3任一项所述的关键词识别方法,其特征在于,所述根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,包括:采用训练后文本处理模型在所述文本特征中提取出反馈类型特征;根据所述反馈类型特征,确定所述待识别文本对应的反馈类型;采用所述训练后文本处理模型将所述文本特征转换为所述待识别文本的反馈有效性特征,以得到反馈参数。10.根据权利要求9所述的关键词识别方法,其特征在于,所述采用训练后文本处理模型分别在所述文本特征中提取出反馈类型特征和反馈有效性特征之前,还包括:获取至少一个样本对象的反馈文本样本集合,所述反馈文本样本集合包括至少一个标注对象类型和标注反馈类型的反馈文本样本;采用预设文本处理模型预测所述反馈文本样本的反馈类型,得到预测反馈类型;根据所述反馈文本样本,采用所述预设文本处理模型预测所述样本对象的对象类型,得到预测对象类型;根据所述标注对象类型、标注反馈类型、预测反馈类型和预测对象类型,对所述预设文本处理模型进行收敛,得到训练后文本处理模型。11.根据权利要求10所述的关键词识别方法,其特征在于,所述根据所述反馈文本样本,采用所述预设文本处理模型预测所述样本对象的对象类型,得到预测对象类型,包括:采用所述预设文本处理模型对所述反馈文本样本进行特征提取,并将提取出的样本文本特征转换为样本反馈有效性特征;根据所述样本反馈有效性特征,确定所述反馈文本样本的样本反馈参数,并基于所述样本反馈参数,计算每一所述反馈文本样本的反馈权重;基于所述反馈权重,对所述样本文本特征进行融合,并基于融合后样本文本特征,确定所述样本对象的对象类型,得到预测对象类型。12.根据权利要求10所述的关键词识别方法,其特征在于,所述根据所述标注对象类型、标注反馈类型、预测反馈类型和预测对象类型,对所述预设文本处理模型进行收敛,得到训练后文本处理模型,包括:
根据所述标注对象类型和预测对象类型,确定所述反馈文本样本的对象损失信息;基于所述标注反馈类型和预测反馈类型,确定所述反馈文本样本的反馈损失信息;获取所述反馈损失信息的融合参数,并基于所述融合参数,将所述反馈损失信息和对象损失信息进行融合;基于融合后损失信息对所述预设文本处理模型进行收敛,得到训练后文本处理模型。13.根据权利要求10所述的关键词识别方法,其特征在于,所述获取至少一个样本对象的反馈文本样本集合,包括:获取至少一个样本对象的原始反馈文本样本集合;当所述原始反馈文本样本集合中的反馈文本样本数量超过预设数量阈值时,根据所述反馈文本样本的时间信息,在所述原始反馈文本样本集合中采样出预设数量的基础反馈文本样本,得到剩余反馈文本样本;根据所述预设数量阈值和预设数量,确定反馈文本样本的剩余采样数量;在所述剩余反馈文本样本中随机采样出所述剩余采样数量对应的目标反馈文本样本;将所述基础返利文本样本和目标反馈文本样本进行融合,得到所述样本对象的反馈文本样本集合。14.根据权利要求1至3任一项所述的关键词识别方法,其特征在于,所述在所述反馈信息中提取出待识别文本,包括:在所述反馈信息中提取出原始文本,并在所述原始文本中筛选出目标字符;根据所述目标字符的字符类型,在预设替换字符集合中筛选出所述目标字符对应的替换字符;在所述原始文本中将所述目标字符替换为所述替换字符,得到待识别文本。15.一种关键词识别装置,其特征在于,包括:获取单元,用于获取针对至少一个对象的反馈信息,并在所述反馈信息中提取出待识别文本;提取单元,用于对所述待识别文本进行特征提取,得到所述待识别文本的文本特征;确定单元,用于根据所述文本特征,确定所述待识别文本对应的反馈类型和反馈参数,所述反馈类型用于指示所述反馈信息的类型,所述反馈参数用于指示所述待识别文本在所述反馈类型中的重要程度;筛选单元,用于基于所述反馈类型和反馈参数,对所述待识别文本进行排序,以筛选出至少一个目标文本;识别单元,用于对所述目标文本进行分词,并根据分词后的文本词的词属性信息,在所述文本词中识别出至少一个关键词,所述词属性信息用于指示所述文本词在所述目标文本中的重要程度。16.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至14任一项所述的关键词识别方法中的步骤。17.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至14任一项所述关键词识别方法中的步骤。18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指
令,所述指令适于处理器进行加载,以执行权利要求1至14任一项所述的关键词识别方法中的步骤。
技术总结
本发明实施例公开了一种关键词识别方法、装置、电子设备和计算机可读存储介质;本发明实施例在获取针对至少一个对象的反馈信息,并在反馈信息中提取出待识别文本后,对待识别文本进行特征提取,得到待识别文本的文本特征,然后,根据文本特征,确定待识别文本对应的反馈类型和反馈参数,基于反馈类型和反馈参数,对待识别文本进行排序,以筛选出至少一个目标文本,然后,对目标文本进行分词,并根据分词后的文本词的词属性信息,在文本词中识别出至少一个关键词;该方案可以提升关键词识别的准确率,本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。辅助驾驶等各种场景。辅助驾驶等各种场景。
技术研发人员:刘全赟
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.03.23
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/