一种热点事件挖掘方法、系统、装置与存储介质与流程

未命名 08-22 阅读:111 评论:0


1.本技术涉及数据处理技术领域,尤其是一种热点事件挖掘方法、系统、装置与存储介质。


背景技术:

2.近年来,随着政务服务工作转到线上,政务数据库会形成大量的政务工单,并以自然语言文本的形式保存下来。这些政务工单中包含了大量的热点事件相关的信息,因此对其进行分析和挖掘可以发现当前热点的各类事件。
3.相关技术中,热点事件挖掘的主流方法是基于聚类算法,即基于预训练语言模型以及基于政务工单文本的语义相似度对其进行聚类处理,并从聚类结果中筛选热点事件。但是该方法的预训练的语言模型是面向开放领域的,其无法有效表征政务领域中的一些专业概念和词汇以及难以标注政务工单,导致其无法利用下游任务来优化预训练语言模型,最终使热点事件挖掘准确度降低,导致该方法不能很好地适应政务专业领域的需求。因此,相关技术中仍存在技术问题亟需解决。


技术实现要素:

4.本技术的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
5.为此,本技术实施例的一个目的在于提供一种热点事件挖掘方法、系统、装置与存储介质,该方法、系统、装置与存储介质可以提高热点事件挖掘的准确度。
6.为了达到上述技术目的,本技术实施例所采取的技术方案包括:获取待挖掘事件的政务工单集,所述政务工单集中包括若干子政务工单;根据所述政务工单集,确定每个所述子政务工单的第一工单摘要;根据所述第一工单摘要以及句子编码模型,确定第一语义相似度;所述第一语义相似度用于表征所述第一工单摘要对应的任意两个子政务工单的语义相似度;根据所述政务工单集,确定第一实体相似度;所述第一实体相似度用于表征任意两个子政务工单所对应的政务实体的实体相似度;根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度;根据所述目标相似度,对所述政务工单集中的所有所述子政务工单进行聚类处理,确定热点事件。
7.另外,根据本发明中上述实施例的一种热点事件挖掘的方法,还可以有以下附加的技术特征:
8.进一步地,本技术实施例中,所述根据所述政务工单集,确定每个所述子政务工单的第一工单摘要这一步骤,具体包括:构建子政务工单的句子关联图;根据所述句子关联图,确定每个句子对应节点的第一节点权重;将所述第一节点权重的排序在前若干个的节点对应的句子确定为第一工单摘要。
9.进一步地,本技术实施例中,所述根据所述第一工单摘要以及句子编码模型,确定第一语义相似度这一步骤,具体包括:根据所述第一工单摘要以及所述句子编码模型,确定若干个句子向量;根据所述若干个句子向量中任意两个句子向量,确定第一语义相似度。
10.进一步地,本技术实施例中,所述根据所述政务工单集,确定第一实体相似度这一步骤,具体包括:提取所述政务工单集的每个子政务工单中所有句子包含的政务实体,确定每个子政务工单所对应的政务实体列表,根据任意两个所述政务实体列表以及相似度计算公式,确定任意两个子政务工单的实体相似度;其中所述相似度计算公式包括:
[0011][0012]
其中,eli和elj分别为任意两个子政务工单所对应的政务实体列表;∩为交集运算,∪为并集运算,esim(i,j)为第一实体相似度。
[0013]
进一步地,本技术实施例中,所述根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度这一步骤,具体包括:根据所述第一语义相似度、所述第一实体相似度以及融合公式,确定目标相似度;其中所述融合公式包括:
[0014]
fsim(i,j)=λ
×
ssim(i,j)+(1-λ)
×
esim(i,j)
[0015]
其中,ssim(i,j)为第一语义相似度,esim(i,j)为第一实体相似度,fsim(i,j)为目标相似度,0<λ<1。
[0016]
进一步地,本技术实施例中,所述构建子政务工单的句子关联图这一步骤,具体包括:将所述政务工单按句子进行拆分并根据字数进行过滤,确定句子列表;根据所述句子编码模型以及所述句子列表,确定任意两个句子的句子向量,将所述任意两个句子向量的余弦相似度作为任意两个句子的第一关联度;根据所述句子列表确定政务实体数量;根据所述第一关联度以及所述政务实体数量,确定政务工单的句子关联图。
[0017]
进一步地,本技术实施例中,所述根据所述若干个句子向量中任意两个句子向量,确定第一语义相似度这一步骤,具体包括:提取任意两个句子的句子向量分别作为第一向量以及第二向量;根据所述第一向量、所述第二向量以及相似度计算公式,确定第一语义相似度,所述相似度计算公式包括:
[0018][0019]
其中ssim(i,j)为第一语义相似度,h
ia
为第一向量,h
jb
为第二向量,sim(,)为相似度运算符,为取最大值运算。
[0020]
另一方面,本技术实施例还提供一种热点事件挖掘系统,包括:获取单元,用于获取待挖掘事件的政务工单集,所述政务工单集中包括若干子政务工单;第一处理单元,用于根据所述政务工单集,确定每个所述子政务工单的第一工单摘要;第二处理单元,用于根据所述第一工单摘要以及句子编码模型,确定第一语义相似度;所述第一语义相似度用于表征所述第一工单摘要对应的任意两个子政务工单的语义相似度;第三处理单元,用于根据所述政务工单集,确定第一实体相似度;所述第一实体相似度用于表征任意两个子政务工单所对应的政务实体的实体相似度;第四处理单元,用于根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度第五处理单元,用于根据所述目标相似度,对所述政务工单集中的所有所述子政务工单进行聚类处理,确定热点事件。
[0021]
另一方面,本技术还提供一种热点事件挖掘装置,包括:
[0022]
至少一个处理器;
[0023]
至少一个存储器,用于存储至少一个程序;
[0024]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如发明内容中任一项所述一种热点事件挖掘方法。
[0025]
此外,本技术还提供一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行如上述任一项所述一种热点事件挖掘方法。
[0026]
本技术的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到:
[0027]
本技术可以根据政务工单集确定任意两个政务工单的政务实体相似度以及确定政务工单的工单摘要中任意两个子政务工单的语义相似度,根据语义相似度以及实体相似度确定热点事件。该方法结合了语义相似度以及政务实体相似度,通过政务实体增强对政务工单的摘要的进行聚类的能力,可以提高模型对政务领域的适配能力,可以提高热点事件挖掘的准确度。
附图说明
[0028]
图1为本发明中一种具体实施例中一种热点事件挖掘方法的步骤示意图;
[0029]
图2为本发明中一种具体实施例中根据所述政务工单集,确定每个所述子政务工单的第一工单摘要这一步骤的步骤示意图;
[0030]
图3为本发明中一种具体实施例中根据所述第一工单摘要以及句子编码模型,确定第一语义相似度的步骤示意图;
[0031]
图4为本发明中一种具体实施例中根据所述政务工单集,确定第一实体相似度的步骤示意图;
[0032]
图5为本发明中一种具体实施例中构建子政务工单的句子关联图这一步骤的步骤示意图;
[0033]
图6为本发明中一种具体实施例中基于政务实体的正负相关句子样本对标注示例图;
[0034]
图7为本发明中一种具体实施例中热点事件挖掘方法的流程图;
[0035]
图8为本发明中一种具体实施例中句子编码模型训练的流程图;
[0036]
图9为本发明中一种具体实施例中一种热点事件挖掘系统的结构示意图;
[0037]
图10为本发明中一种具体实施例中一种热点事件挖掘装置的结构示意图。
具体实施方式
[0038]
下面结合附图详细描述本发明的实施例对本发明实施例中的热点事件挖掘方法、系统、装置和存储介质的原理和过程作以下说明。
[0039]
参照图1,本发明一种热点事件挖掘方法,包括以下步骤:
[0040]
s1、获取待挖掘事件的政务工单集。
[0041]
在本步骤中,政务工单集可以包括多个子政务工单,这些子政务工单可以包括大量的热点事件相关的信息。在具体应用中,政务工单集可以存储在数据库中,数据处理器可以与设置有数据库的设备建立可以实现数据传输的连接,该连接可以是有线连接或者是无线连接。有线连接方式可以包括移动设备与上位机之间的连接,还可以包括上位机与上位
机之间的连接以及其他现在已知或将来开发的设备与上位机的有线连接;而上述无线连接方式可以包括但不限于3g/4g/5g连接、wifi连接、蓝牙连接、wimax连接、zigbee连接、uwb(u ltra wide band)连接以及其他现在已知或将来开发的无线连接方式。
[0042]
s2、根据所述政务工单集,确定每个所述子政务工单的第一工单摘要。
[0043]
在本步骤中,第一工单摘要可以包括子政务工单中句子排序在前若干位的句子组成的摘要。而对于句子的排序,处理器可以按照子政务工单的句子节点的权重进行排序,也可以是按照其他的方式进行排序,如按照子政务工单的句子的关键字的频率进行排序或者是子政务工单句子的数量进行排序等。示例性地,本实施例以子政务工单的句子节点的权重对政务工单集中所有的子政务工单进行排序,处理器可以通过将每个子政务工单对应生成一个句子关联图,并采用特定的算法对每个句子关联图进行处理,得到每个句子关联图中所有句子对应节点的最终权重。需要说明的是,在本技术的一些实施例中,第一工单摘要可以包括一个子政务工单中的排序在前8个的句子,也可以是一个子政务工单中的排序在前5个的句子,还可以是包括排序前3的句子,具体的句子个数在此不作限制。
[0044]
s3、根据所述第一工单摘要以及句子编码模型,确定第一语义相似度。
[0045]
在本步骤中,第一语义相似度可以表征第一工单摘要对应的任意两个子政务工单的语义相似度,而句子编码模型为已经完成训练的人工智能模型。处理器可以通过将第一工单摘要输入训练好的句子编码模型可以得到任意两个子政务工单的工单摘要所对应的句子向量,然后根据两个句子向量可以确定任意两个子政务工单对应的语义相似度。
[0046]
s4、根据所述政务工单集,确定第一实体相似度。
[0047]
在本步骤中,第一实体相似度可以用于表征任意两个子政务工单所对应的政务实体的实体相似度。处理器从政务工单集中抽取出每个政务工单中所有句子包含的政务实体,可以确定每个政务工单所对应的政务实体列表,并根据任意两个政务工单所对应的政务实体列表通过计算公式计算出任意两个政务工单的实体相似度。
[0048]
s5、根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度。在本步骤中,目标相似度可以是第一语义相似度与第一实体相似度进行融合后的相似度。处理器可以通过公式对对任意两个政务工单的语义相似度和实体相似度进行融合,可以得到最终的目标相似度。
[0049]
s6、根据所述目标相似度,对所述政务工单集中的所有所述子政务工单进行聚类处理,确定热点事件。
[0050]
在本步骤中,可以根据所有子政务工单所计算出的最终相似度对所有子政务工单进行聚类处理,并将包含子政务工单数量超过设定阈值的聚类作为热点事件。需要说明的是,在实施例中,预设阈值可以是10,也可以是100也可以是其他的数值,具体的数量在此不作限制。而聚类算法可以使用k-means、dbscan或其他现有的聚类算法。
[0051]
进一步地,参照图2,在本技术的一些实施例中,根据所述政务工单集,确定每个所述子政务工单的第一工单摘要这一步骤,具体可以包括:
[0052]
s201、构建子政务工单的句子关联图;
[0053]
s202、根据所述句子关联图,确定每个句子对应节点的第一节点权重;
[0054]
s203、将所述第一节点权重的排序在前若干个的节点对应的句子确定为第一工单摘要。
[0055]
在本实施例中,每个子政务工单可以对应生成一个句子关联图,本实施例可以采用textrank算法对每个句子关联图进行处理,得到每个句子关联图中所有节点的节点权重。其中,句子关联图可以是以每个句子为一个节点,而且两个节点之间如果句子的关联度大于指定阈值,则创建边。对于任一个政务工单,将该政务工单的句子关联图中所有节点的最终权重按照从大到小进行排序,并获取前若干个权重的节点所代表的句子,作为当前政务工单的摘要;其中若干个权重为正整数个权重。
[0056]
进一步地,参照图3,在本技术的一些实施例中,根据所述第一工单摘要以及句子编码模型,确定第一语义相似度这一步骤,具体可以包括:
[0057]
s301、根据所述第一工单摘要以及所述句子编码模型,确定若干个句子向量;
[0058]
s302、根据所述若干个句子向量中任意两个句子向量,确定第一语义相似度。
[0059]
在本实施例中,本实施例可以将第一工单摘要输入训练好的句子编码模型中可以得到与第一工单摘要的句子数量相同的句子向量,从与第一工单摘要的句子数量相同的句子向量中提取任意两个句子向量可以得到第一工单摘要对应的任意两个子政务工单的语义相似度。而对于句子编码模型的训练,本实施例可以先构建政务文本语料库和政务实体知识库;并使用政务文本语料库对构建的句子编码模型进行训练,得到训练完成后的句子编码模型;然后使用政务实体知识库和政务文本语料库对训练完成后的句子编码模型进行优化,得到优化后的句子编码模型,其中优化后的句子编码模型为训练好的句子编码模型。
[0060]
进一步地,对于句子编码模型的训练,本实施例可以从政务文本语料库中挑选一个目标句子样本,并从政务文本语料库中随机抽取另外若干个个句子样本与目标句子样本组成一个样本批次;将目标句子样本送入一个带有随机dropout机制的句子编码模型中两次,得到两个不同的编码向量;将样本批次中其他句子样本送入到带有随机dropout机制的句子编码模型。分别得到每个句子所对应的编码向量;根据两个不同的编码向量、以及每个句子所对应的编码向量计算出损失函数;计算公式为:
[0061][0062]
其中,为损失函数,hk、h
k(*)
分别为不同编码向量,sim()为余弦相似度函数,τ为超参数,xa为样本批次中的第a个句子,ha为xa所对应的编码向量;使用上述损失函数对句子编码模型进行反向传播,更新句子编码模型中的参数;重复从政务文本语料库中挑选一个目标句子样本,并从中随机抽取另外若干个个句子样本与目标句子样本组成一个样本批次,直到政务文本语料库中的每个句子样本都被处理过一次,最终得到优化后的句子编码模型。需要说明的是,本实施例的句子编码模型可以选用bert模型。
[0063]
进一步地,政务实体知识库的构建方式可以包括以下步骤,综合参考已有政务词条库、部门清单、当前热点事件和/或政策清单,通过人工审核构建政务实体知识库;其中每一个政务实体都表示为一个别名关键词列表。
[0064]
进一步地,对于句子编码模型的训练,本实施例还可以对政务文本语料库中的每一个句子样本,使用别名匹配并抽取每一个句子样本中包含的政务实体列表,并将包含t个及以上相同政务实体的句子样本对标注为正相关;t为正整数;从政务文本语料库中挑选一个目标句子样本,首先从政务文本语料库中随机挑选至多n/2-1个与目标句子样本正相关
的句子样本,记为正相关样本集;然后从政务文本语料库中随机挑选n-|p(k)|个与目标句子样本非正相关的句子样本,并将挑选出的非正相关句子样本与目标句子样本和正相关样本集共同组成一个样本批次;将样本批次中的每个句子样本送入训练完成的句子编码模型中,得到每个句子所对应的句子向量;然后计算训练损失,计算公式为:
[0065][0066]
其中,为训练损失值,x
p
为正相关样本集p(k)中的第p个句子样本;h
p
为x
p
所对应的句子向量;hk为目标句子样本所对应的句子向量;xa为样本批次中的第a个句子样本;ha为xa所对应的句子向量,x
p
、xa为两个不同的目标句子样本;使用训练损失对训练完成后的句子编码模型进行反向传播,更新训练完成后的句子编码模型中的参数;重复对政务文本语料库中的每一个句子样本,使用别名匹配并抽取句子样本中包含的政务实体列表,并将包含t个及以上相同政务实体的句子样本对标注为正相关;t为正整数,直到政务文本语料库中的每个句子样本都被处理过一次,最终得到优化后的句子编码模型。
[0067]
进一步地,参照图4,在本技术的一些实施例中,根据所述政务工单集,确定第一实体相似度这一步骤,具体可以包括:
[0068]
s401、提取所述政务工单集的每个子政务工单中所有句子包含的政务实体,确定每个子政务工单所对应的政务实体列表;
[0069]
s402、根据任意两个所述政务实体列表以及相似度计算公式,确定任意两个子政务工单的实体相似度;其中所述相似度计算公式包括:
[0070][0071]
其中,eli和elj分别为任意两个子政务工单所对应的政务实体列表;∩为交集运算,∪为并集运算,esim(i,j)为第一实体相似度。
[0072]
在本实施例中,本实施例可以提取政务工单集中的每个子政务工单中所有句子包含的政务实体,确定每个子政务工单所对应的政务实体列表,政务实体列表可以包括多个政务实体。根据每个子政务工单所对应的政务实体列表中的任意两个政务实体列表以及相似度计算公式,可以确定任意两个子政务工单的实体相似度;其中相似度计算公式可以包括:
[0073][0074]
其中,eli和elj分别为任意两个子政务工单所对应的政务实体列表;∩为交集运算,∪为并集运算,esim(i,j)为第一实体相似度。
[0075]
进一步地,在本技术的一些实施例中,根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度这一步骤,具体可以包括:
[0076]
根据所述第一语义相似度、所述第一实体相似度以及融合公式,确定目标相似度;其中所述融合公式包括:
[0077]
fsim(i,j)=λ
×
ssim(i,j)+(1-λ)
×
esim(i,j)
[0078]
其中,ssim(i,j)为第一语义相似度,esim(i,j)为第一实体相似度,fsim(i,j)为目标相似度,0<λ<1。
[0079]
在本实施例中,通过上述实施例得到第一语义相似度以及第一实体相似度后,可以将第一语义相似度以及第一实体相似度通过融合公式进行融合,其中融合公式包括:
[0080]
fsim(i,j)=λ
×
ssim(i,j)+(1-λ)
×
esim(i,j)
[0081]
其中,ssim(i,j)为第一语义相似度,esim(i,j)为第一实体相似度,fsim(i,j)为目标相似度,0<λ<1。
[0082]
进一步地,参照图5,在本技术的一些实施例中,构建子政务工单的句子关联图这一步骤,具体可以包括:
[0083]
s601、将政务工单按句子进行拆分并根据字数进行过滤,确定句子列表;
[0084]
s602、根据所述句子编码模型以及所述句子列表,确定任意两个句子的句子向量,将所述任意两个句子向量的余弦相似度作为任意两个句子的第一关联度;
[0085]
s603、根据所述句子列表确定政务实体数量;
[0086]
s604、根据所述第一关联度以及所述政务实体数量,确定政务工单的句子关联图;
[0087]
在本实施例中,本实施例可以将政务工单按句子进行拆分并将字数小于预设阈值的句子进行过滤,得到一个句子列表,将得到的句子列表输入训练好的句子编码模型,可以确定任意两个句子的句子向量;得到的任意两个句子向量对应的余弦相似度可以作为任意两个句子的第一关联度;而句子列表还可以确定政务实体数量,最后,本实施例可以根据第一关联度以及政务实体数量,最终的确定政务工单的句子关联图。需要说明的是本实施例的预设阈值可以是一个或者是多个,具体的数量不做限制。而训练好的句子编码模型可以是与上述确定第一语义相似度过程中所用的句子编码模型同相,也可以是其他现有的人工智能模型。
[0088]
进一步地,在本技术的一些实施例中,根据所述若干个句子向量中任意两个句子向量,确定第一语义相似度这一步骤,具体可以包括:
[0089]
s701、提取任意两个句子的句子向量分别作为第一向量以及第二向量;
[0090]
s702、根据所述第一向量、所述第二向量以及相似度计算公式,确定第一语义相似度,所述相似度计算公式包括:
[0091][0092]
其中ssim(i,j)为第一语义相似度,h
ia
为第一向量,h
jb
为第二向量,sim(,)为相似度运算符,为取最大值运算。
[0093]
在本实施例中,本实施例可以提取任意两个句子的句子向量分别作为第一向量以及第二向量。将第一向量以及第二向量输入相似度计算公式,可以确定第一语义相似度,相似度计算公式包括:
[0094][0095]
其中,在相似度计算公式中,ssim(i,j)为第一语义相似度,h
ia
为第一向量,h
jb
为第二向量,sim(,)为相似度运算符,为取最大值运算。
[0096]
下面结合图6以及图7,对本技术的热点事件挖掘方法进行进一步说明。
[0097]
在本实施例中,句子编码模型为bert模型,权重排序为前3排序;
[0098]
首先,可以构建政务实体知识库es以及句子编码模型。其中构建政务实体知识库es可以根据已有政务词条库、部门清单、当前热点事件和/或政策清单,通过人工审核构建政务实体知识库es。其中每一个政务实体都表示为一个别名关键词列表;例如,政务实体1:{证书办理,结婚证}、政务实体2:{税务处理,税率}、政务实体3:{生活费用,水费},等等。
[0099]
其次,对构建后的句子编码模型进行训练和优化。可以使用政务文本语料库tc对bert模型进行训练,得到训练完成后的句子编码模型;参照图7,句子编码模型的具体训练步骤为:
[0100]
步骤一、对政务文本语料库tc中每一个句子样本xi,基于别名匹配抽取xi中包含的政务实体列表。图6所示的示例中,句子样本(1)中包含的政务实体为{广州,税率},句子样本(2)中包含的政务实体为{广州,个人所得税},句子样本(3)中包含的政务实体为{公积金,购房贷款}。其中,“税率”与“个人所得税”为同一政务实体的别名;
[0101]
步骤二、给定一对句子样本xi和xj,如果xi和xj包含1个以上相同的政务实体,则将xi和xj标注为正相关。如果xi和xj不包含任何相同的政务实体,则将xi和xj标注为负相关。图3所示的示例中,句子样本(1)和句子样本(2)包含2个相同的政务实体,因此被标注为正相关。
[0102]
步骤三、参照图8,从政务文本语料库tc中挑选一个目标句子样本xk,首先从政务文本语料库tc中随机挑选至多n/2-1个与xk正相关的句子样本(记为p(k));然后从政务文本语料库tc中随机挑选n-|p(k)|个与xk负相关的句子样本p(-k),p(-k)与句子样本xk和正相关的句子样本p(k)共同组成一个样本批次bs(k)。
[0103]
步骤四、将样本批次bs(k)中每个句子样本xi送入到带有随机dropout机制的句子编码模型enc中两次,得到目标句子样本xk对应的编码向量hk、正相关的句子样本对应的编码向量h
p
以及样本批次bs(k)的句子样本对应的编码向量ha;根据编码向量hk、h
p
以及样本批次bs(k)的句子样本对应的编码向量ha计算出损失函数;计算公式为:
[0104][0105]
其中,sim()为余弦相似度函数,τ为超参数,xa为bu(k)中的第a个句子,ha为所对应的编码向量,hk为目标句子样本xk对应的编码向量、h
p
为正相关的句子样本对应的编码向量;
[0106]
步骤五、使用损失函数对句子编码模型进行反向传播,更新句子编码模型enc中的参数;
[0107]
步骤六、返回至步骤一,直到政务文本语料库tc中的每个句子样本都被处理过一次,最终得到优化后的句子编码模型;本实施例中通过正相关和非正相关的句子样本共同组成样本批次,而对训练完成后的句子编码模型进行优化,因此该方法为有监督对比学习;
[0108]
然后,完成模型训练后,可以根据待挖掘热点事件的时间和空间范围,从数据库中检索得到满足条件的所有政务工单;上述的空间范围可以为待挖掘热点事件发生的位置范围或其他待约束的范围;将从数据库中检索得到满足条件的每个政务工单对应生成一个句
子关联图,并采用textrank算法对每个句子关联图进行处理,得到每个句子关联图中所有节点的最终权重;其中,句子关联图中是以每个句子为一个节点,且两节点之间如果句子的关联度大于指定阈值,则创建边;任意一个政务工单ok对应生成句子关联图的具体步骤为:
[0109]
步骤1-1、将政务工单ok按句子进行拆分,并过滤掉字数小于预设阈值的句子,得到一个句子列表olk。
[0110]
步骤1-2、对olk中的任意两个句子xi和xj,使用步骤3中优化后的句子编码模型将xi和xj分别转化为句子向量hi和hj,计算hi和hj的余弦相似度,并将其作为句子xi和xj之间的关联度。
[0111]
步骤1-3、对olk中每个句子xi,根据别名匹配计算xi中包含的政务实体的个数,记为num(i)。
[0112]
步骤1-4、为政务工单ok构建句子关联图gk,gk中的每个节点vi代表一个句子;如果句子xi和xj的关联度大于指定阈值,则节点vi和vj之间存在边e
ij

[0113]
步骤1-5、对gk中的每个节点vi,如果num(i)》0,则将vi的初始权重wi设置为num(i),否则统一设置为固定值c;并且边e
ij
的权重w
ij
设置为句子xi和xj的关联度。
[0114]
此外,完成句子关联图后,对于任一个政务工单,将该政务工单的句子关联图中所有节点的最终权重按照从大到小进行排序,并获取前3个权重的节点所代表的句子,作为当前政务工单的摘要。得到3个当前政务工单的摘要后、使用优化后的句子编码模型将步骤6中每个政务工单的摘要所对应的3个句子转化为3个句子向量,并根据任意两个政务工单所对应的句子向量计算出任意两个政务工单的语义相似度;本实施例中,语义相似度的计算公式为:
[0115][0116]
其中ssim(i,j)为语义相似度,h
ia
为第一向量,h
jb
为第二向量,sim(,)为相似度运算符,为取最大值运算。
[0117]
此外、完成语义相似度的计算后,可以抽取出从数据库中检索得到满足条件的所有政务工单中每个政务工单中所有句子包含的政务实体,形成每个政务工单所对应的政务实体列表,并根据任意两个政务工单所对应的政务实体列表计算出任意两个政务工单的实体相似度。
[0118]
本实施例中,实体相似度为计算和之间的jaccard系数,计算公式为:
[0119][0120]
其中,eli和elj分别为任意两个子政务工单所对应的政务实体列表;∩为交集运算,∪为并集运算,esim(i,j)为第一实体相似度。
[0121]
得到语义相似度以及实体相似度后,可以对任意两个政务工单的语义相似度和实体相似度进行融合,得到最终相似度。本实施例中,最终的相似度的计算公式为:
[0122]
fsim(i,j)=λ
×
ssim(i,j)+(1-λ)
×
esim(i,j)
[0123]
其中,ssim(i,j)为第一语义相似度,esim(i,j)为第一实体相似度,fsim(i,j)为目标相似度,0<λ<1。
[0124]
最后,根据所有政务工单所计算出的最终相似度使用k-means算法对所有政务工单进行聚类处理,并将包含政务工单数量超过设定阈值的聚类作为热点事件。
[0125]
综上所述,本实施例利用政务实体来辅助对比学习模型标注正相关样本对,从而实现无需人工标注的有监督对比学习;本实施例利用政务实体知识库增强对政务工单的摘要和聚类的能力,提高了模型对政务领域的适配能力。
[0126]
此外、参照图9,与图1的方法相对应,本技术的实施例中还提供一种热点事件挖掘系统,包括:获取单元101,用于获取待挖掘事件的政务工单集;第一处理单元102,用于根据所述政务工单集,确定每个所述子政务工单的第一工单摘要;第二处理单元103,用于根据所述第一工单摘要以及句子编码模型,确定第一语义相似度;所述第一语义相似度用于表征所述第一工单摘要对应的任意两个子政务工单的语义相似度;第三处理单元104,用于根据所述政务工单集,确定第一实体相似度;所述第一实体相似度用于表征任意两个子政务工单所对应的政务实体的实体相似度;第四处理单元105,用于根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度;第五处理单元106,用于根据所述目标相似度,对所述政务工单集中的所有所述子政务工单进行聚类处理,确定热点事件。
[0127]
在本技术的一些实施例中,获取模块101、第一处理单元102、第二处理单元103、第三处理单元104、第四处理单元105以及第五处理单元106均可以设置于同一个上位机中,通过上位机内部的模块获取数据库中的待挖掘事件的政务工单集,然后通过上位机后续的处理器对获取得到的数据进行处理。在本技术的另外一些实施例中,获取模块101也可以是与上位机连接的任意的模块,通过与上位机的有线或者无线连接,将获取数据传输至上位机,通过上位机内部的模块进行数据的处理。此外,在一些实施例中,第一处理单元102、第二处理单元103、第三处理单元104、第四处理单元105以及第五处理单元106也是同理,具体的装置连接方式和装置的设置不作限制。
[0128]
需要理解的是,上述的热点事件挖掘方法实施例中的内容均适用于本热点事件挖掘系统实施例中,本热点事件挖掘系统实施例所具体实现的功能与上述的热点事件挖掘方法实施例相同,并且达到的有益效果与上述的热点事件挖掘方法实施例所达到的有益效果也相同。
[0129]
与图1的方法相对应,本技术实施例还提供了一种热点事件挖掘装置,其具体结构可参照图10,包括:
[0130]
至少一个处理器1001;
[0131]
至少一个存储器1002,用于存储至少一个程序;
[0132]
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现所述的热点事件挖掘方法。
[0133]
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
[0134]
与图1的方法相对应,本技术实施例还提供了一种存储介质,其中存储有处理器可执行的指令,所述处理器可执行的指令在由处理器执行时用于执行所述的热点事件挖掘方法。
[0135]
上述的热点事件挖掘方法实施例中的内容均适用于本存储介质实施例中,本存储
介质实施例所具体实现的功能与上述的热点事件挖掘方法实施例相同,并且达到的有益效果与上述的热点事件挖掘方法实施例所达到的有益效果也相同。
[0136]
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本技术的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
[0137]
此外,虽然在功能性模块的背景下描述了本技术,但应当理解的是,除非另有相反说明,功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本技术是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本技术。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本技术的范围,本技术的范围由所附权利要求书及其等同方案的全部范围来决定。
[0138]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干程序用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-on ly memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0139]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行程序的定序列表,可以具体实现在任何计算机可读介质中,以供程序执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从程序执行系统、装置或设备取程序并执行程序的系统)使用,或结合这些程序执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供程序执行系统、装置或设备或结合这些程序执行系统、装置或设备而使用的装置。
[0140]
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
[0141]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的程序执行系统执行的软件
或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0142]
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
[0143]
尽管已经示出和描述了本技术的实施方式,本领域的普通技术人员可以理解:在不脱离本技术的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本技术的范围由权利要求及其等同物限定。
[0144]
以上是对本技术的较佳实施进行了具体说明,但本技术并不限于所述实施例,熟悉本领域的技术人员在不违背本技术精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

技术特征:
1.一种热点事件挖掘方法,其特征在于,包括以下步骤:获取待挖掘事件的政务工单集;所述政务工单集中包括若干子政务工单;根据所述政务工单集,确定每个所述子政务工单的第一工单摘要;根据所述第一工单摘要以及句子编码模型,确定第一语义相似度;所述第一语义相似度用于表征所述第一工单摘要对应的任意两个子政务工单的语义相似度;根据所述政务工单集,确定第一实体相似度;所述第一实体相似度用于表征任意两个子政务工单所对应的政务实体的实体相似度;根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度;根据所述目标相似度,对所述政务工单集中的所有所述子政务工单进行聚类处理,确定热点事件。2.根据权利要求1所述一种热点事件挖掘方法,其特征在于,所述根据所述政务工单集,确定每个所述子政务工单的第一工单摘要这一步骤,具体包括:构建所述子政务工单的句子关联图;根据所述句子关联图,确定每个句子对应节点的第一节点权重;将所述第一节点权重的排序在前若干个的节点对应的句子确定为第一工单摘要。3.根据权利要求1所述一种热点事件挖掘方法,其特征在于,所述根据所述第一工单摘要以及句子编码模型,确定第一语义相似度这一步骤,具体包括:根据所述第一工单摘要以及所述句子编码模型,确定若干个句子向量;根据所述若干个句子向量中任意两个句子向量,确定第一语义相似度。4.根据权利要求1所述一种热点事件挖掘方法,其特征在于,所述根据所述政务工单集,确定第一实体相似度这一步骤,具体包括:提取所述政务工单集的每个子政务工单中所有句子包含的政务实体,确定每个子政务工单所对应的政务实体列表;根据任意两个所述政务实体列表以及相似度计算公式,确定任意两个子政务工单的实体相似度;其中所述相似度计算公式包括:其中,el
i
和el
j
分别为任意两个子政务工单所对应的政务实体列表;∩为交集运算,∪为并集运算,esim(i,j)为第一实体相似度。5.根据权利要求1所述一种热点事件挖掘方法,其特征在于,所述根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度这一步骤,具体包括:根据所述第一语义相似度、所述第一实体相似度以及融合公式,确定目标相似度;其中所述融合公式包括:fsim(i,j)=λ
×
ssim(i,j)+(1-λ)
×
esim(i,j)其中,ssim(i,j)为第一语义相似度,esim(i,j)为第一实体相似度,fsim(i,j)为目标相似度,0<λ<1。6.根据权利要求2所述一种热点事件挖掘方法,其特征在于,所述构建所述子政务工单的句子关联图这一步骤,具体包括:
将所述政务工单按句子进行拆分并根据字数进行过滤,确定句子列表;根据所述句子编码模型以及所述句子列表,确定任意两个句子的句子向量,将所述任意两个句子向量的余弦相似度作为任意两个句子的第一关联度;根据所述句子列表确定政务实体数量;根据所述第一关联度以及所述政务实体数量,确定政务工单的句子关联图。7.根据权利要求3所述一种热点事件挖掘方法,其特征在于,所述根据所述若干个句子向量中任意两个句子向量,确定第一语义相似度这一步骤,具体包括:提取任意两个句子的句子向量分别作为第一向量以及第二向量;根据所述第一向量、所述第二向量以及相似度计算公式,确定第一语义相似度,所述相似度计算公式包括:其中ssim(i,j)为第一语义相似度,h
ia
为第一向量,h
jb
为第二向量,sim(,)为相似度运算符,为取最大值运算。8.一种热点事件挖掘系统,其特征在于,包括:获取单元,用于获取待挖掘事件的政务工单集,所述政务工单集中包括若干子政务工单;第一处理单元,用于根据所述政务工单集,确定每个所述子政务工单的第一工单摘要;第二处理单元,用于根据所述第一工单摘要以及句子编码模型,确定第一语义相似度;所述第一语义相似度用于表征所述第一工单摘要对应的任意两个子政务工单的语义相似度;第三处理单元,用于根据所述政务工单集,确定第一实体相似度;所述第一实体相似度用于表征任意两个子政务工单所对应的政务实体的实体相似度;第四处理单元,用于根据所述第一语义相似度以及所述第一实体相似度,确定目标相似度;第五处理单元,用于根据所述目标相似度,对所述政务工单集中的所有所述子政务工单进行聚类处理,确定热点事件。9.一种热点事件挖掘装置,其特征在于,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述一种热点事件挖掘方法。10.一种计算机可读存储介质,其中存储有处理器可执行的指令,其特征在于,所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-7任一项所述一种热点事件挖掘方法。

技术总结
本申请公开了一种热点事件挖掘方法、系统、装置和存储介质,其中方法包括以下步骤:获取待挖掘事件的政务工单集;根据政务工单集,确定每个子政务工单的第一工单摘要;根据第一工单摘要以及句子编码模型,确定第一语义相似度;第一语义相似度用于表征第一工单摘要对应的任意两个子政务工单的语义相似度;根据政务工单集,确定第一实体相似度;第一实体相似度用于表征任意两个子政务工单所对应的政务实体的实体相似度;根据第一语义相似度以及第一实体相似度,确定目标相似度;根据目标相似度,对政务工单集中的所有子政务工单进行聚类处理,确定热点事件。本方法可以提高热点事件挖掘的准确度。本申请可广泛应用于数据处理技术领域内。领域内。领域内。


技术研发人员:童海 孙礼红
受保护的技术使用者:中国电信股份有限公司
技术研发日:2023.05.19
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐