一种辅助公文分办的方法及系统与流程

未命名 09-09 阅读:117 评论:0


1.本发明涉及数据处理的技术领域,特别是涉及一种辅助公文分办的方法及系统。


背景技术:

2.基于目前大数据的背景下,每天办文人员需要移交的公文数不胜数;在实际应用中,公文的介质不仅包括图像,还包括文字。因此,公文移交的工作量就非常大,而在办文人员不了解业务的情况下,基于人工对公文进行分发,不仅资源耗费成本比较大,且派发时间也较长,且容易将公文和目标业务处室搞错,导致出现派发错误等现象,这样不仅浪费政务人员的时间,而且很大程度会造成正确派发的延误。
3.目前,为避免派发时间也较长,派发错误等现象,主要采用公文自动分发技术对公文进行分发;公文自动分发技术是一种利用计算机技术和自动化流程实现公文自动分发和处理的技术,它可以实现公文的电子传递和自动化处理。
4.但现有的公分自动分发技术在进行公文自动分发时还需要依靠人工干预和一些简单的规则来判断文件是否适合分发,这样难以保证分发的准确性,也可能会出现文件损坏、丢失或不匹配等问题。


技术实现要素:

5.本发明要解决的技术问题是:提供一种辅助公文分办的方法及系统,提高公文自动分发的准确性和分发效率。
6.为了解决上述技术问题,本发明提供了一种辅助公文分办的方法及系统,包括:获取历史公文的历史公文图像,对所述历史公文图像进行图像分割处理,得到历史公文标题图像和历史公文内容图像;以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型;基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值,获取所述历史公文对应的公文目标业务处室,根据所述第一公文类型、所述第一哈希值和所述公文目标业务处室,构建第一三元组;获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像;将所述待分发公文标题图像输入到所述公文类型分类模型中,以使所述公文类型分类模型输出待分发公文类型,基于所述待分发公文内容图像,提取所述待分发公文的待分发公文文本数据,并计算所述待分发公文的第二哈希值;对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,基于所述最优第一三元组,确定所述待分发公文的最优公文目标业务处室。
7.在一种可能的实现公式中,基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值,具体包括:
对所述历史公文内容图像进行图像增强处理,得到预处理历史公文内容图像;基于像素级文本识别算法对所述预处理历史公文内容图像进行文本识别,得到历史公文文本数据,并对所述历史公文文本数据进行数据清洗和标注化处理,得到第一公文文本数据;将所述第一公文文本数据转换为第一二进制数据,对所述第一二进制进行位运算,得到位运算结果,并对所述位运算结果进行哈希运算,得到第一哈希值。
8.在一种可能的实现公式中,在所述获取待分发公文的待分发公文图像之前,还包括:获取历史公文图像,分别对所述历史公文图像中对应的历史公文标题图像区域和历史公文内容图像区域进行标注处理,生成历史公文标题图像数据集和历史公文内容图像数据集;将所述历史公文标题图像数据集输入到第一分割模型中进行训练,得到公文标题图像分割模型,并将历史公文内容图像数据集输入到第二分割模型中进行训练,得到公文内容图像分割模型;所述获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像,具体包括:获取待分发公文的待分发公文图像,将所述待分发公文图像输入到所述公文标题图像分割模型中,以使所述公文标题图像分割模型输出待分发公文标题图像,将所述待分发公文图像输入到所述公文内容图像分割模型中,以使所述公文内容图像分割模型输出待分发公文内容图像。
9.在一种可能的实现公式中,以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型,具体包括:基于ocr算法对所述历史公文标题图像进行文本识别,得到历史公文标题文本数据;获取所述历史公文的第一公文类型,基于所述历史公文标题文本数据与所述第一公文类型,构建公文类型分类样本数据集;将所述公文类型样本数据集划分为分类样本训练数据集和分类样本测试数据集,并基于所述分类样本训练数据集对预设的第一分类模型进行训练,基于所述分类样本测试数据集对所述第一分类模型进行准确性评估,直至模型收敛,得到公文类型分类模型。
10.在一种可能的实现公式中,对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,具体包括:计算所述待分发公文类型与所有第一三元组的第一匹配度,以及计算所述第二哈希值与所有第一三元组的第二匹配度;对每个第一三元组对应的所述第一匹配度和所述第二匹配度进行平均加权处理,得到所有第一三元组的第三匹配度;并基于所述第三匹配度,对所有第一三元组进行排序,选取匹配度最高的第一三元组作为最优第一三元组。
11.在一种可能的实现公式中,计算所述待分发公文类型与所有第一三元组的第一匹
配度,具体包括:获取所有第一三元组中的所有第一公文类型,生成公文类型集合;将所述待分发公文类型和所述公文类型集合中每个第一公文类型转换为向量形式,得到待分发公文类型向量和第一公文类型向量;分别计算所述待分发公文类型向量和每个第一公文类型向量之间的欧几里得距离,并基于欧几里得距离生成相似度列表;根据相似度列表,得到所述待分发公文类型与所有第一三元组的第一匹配度。
12.在一种可能的实现公式中,计算所述第二哈希值与所有第一三元组的第二匹配度,具体包括:获取所有第一三元组中的所有第一哈希值,生成第一哈希值集合;分别计算所述第二哈希值和所述第一哈希值集合中每个第一哈希值之间的余弦相似度;将所述余弦相似度代入到预设的相似度计算公式中,计算所述第二哈希值与每个第一哈希值的相似度,得到所述第二哈希值与所有第一三元组的第二匹配度;其中,所述预设的相似度计算公式如下所示:;式中,为相似度,为余弦相似度,为最大余弦相似度。
13.本发明还提供了一种辅助公文分办的系统,包括:历史公文图像处理模块、公文类型分类模型训练模块、第一三元组构建模块、待分发公文图像处理模块、待分发公文数据获取模块和最优第一三元组匹配模块;其中,所述历史公文图像处理模块,用于获取历史公文的历史公文图像,对所述历史公文图像进行图像分割处理,得到历史公文标题图像和历史公文内容图像;所述公文类型分类模型训练模块,用于以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型;所述第一三元组构建模块,用于基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值;获取所述历史公文对应的公文目标业务处室,根据所述第一公文类型、所述第一哈希值和所述公文目标业务处室,构建第一三元组;所述待分发公文图像处理模块,用于获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像;所述待分发公文数据获取模块,用于将所述待分发公文标题图像输入到所述公文类型分类模型中,以使所述公文类型分类模型输出待分发公文类型,基于所述待分发公文内容图像,提取所述待分发公文的待分发公文文本数据,并计算所述待分发公文的第二哈希值;所述最优第一三元组匹配模块,用于对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,基于所述最优第一三元组,确定所述待分发公文的最优公文目标业务处室。
14.在一种可能的实现公式中,所述第一三元组构建模块,用于基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值,具体包括:对所述历史公文内容图像进行图像增强处理,得到预处理历史公文内容图像;基于像素级文本识别算法对所述预处理历史公文内容图像进行文本识别,得到历史公文文本数据,并对所述历史公文文本数据进行数据清洗和标注化处理,得到第一公文文本数据;将所述第一公文文本数据转换为第一二进制数据,对所述第一二进制进行位运算,得到位运算结果,并对所述位运算结果进行哈希运算,得到第一哈希值。
15.在一种可能的实现公式中,所述待分发公文图像处理模块,用于在所述获取待分发公文的待分发公文图像之前,还包括:获取历史公文图像,分别对所述历史公文图像中对应的历史公文标题图像区域和历史公文内容图像区域进行标注处理,生成历史公文标题图像数据集和历史公文内容图像数据集;将所述历史公文标题图像数据集输入到第一分割模型中进行训练,得到公文标题图像分割模型,并将历史公文内容图像数据集输入到第二分割模型中进行训练,得到公文内容图像分割模型;所述待分发公文图像处理模块,用于获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像,具体包括:获取待分发公文的待分发公文图像,将所述待分发公文图像输入到所述公文标题图像分割模型中,以使所述公文标题图像分割模型输出待分发公文标题图像,将所述待分发公文图像输入到所述公文内容图像分割模型中,以使所述公文内容图像分割模型输出待分发公文内容图像。
16.在一种可能的实现公式中,所述公文类型分类模型训练模块,用于以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型,具体包括:基于ocr算法对所述历史公文标题图像进行文本识别,得到历史公文标题文本数据;获取所述历史公文的第一公文类型,基于所述历史公文标题文本数据与所述第一公文类型,构建公文类型分类样本数据集;将所述公文类型样本数据集划分为分类样本训练数据集和分类样本测试数据集,并基于所述分类样本训练数据集对预设的第一分类模型进行训练,基于所述分类样本测试数据集对所述第一分类模型进行准确性评估,直至模型收敛,得到公文类型分类模型。
17.在一种可能的实现公式中,所述最优第一三元组匹配模块,用于对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,具体包括:计算所述待分发公文类型与所有第一三元组的第一匹配度,以及计算所述第二哈希值与所有第一三元组的第二匹配度;对每个第一三元组对应的所述第一匹配度和所述第二匹配度进行平均加权处理,
得到所有第一三元组的第三匹配度;并基于所述第三匹配度,对所有第一三元组进行排序,选取匹配度最高的第一三元组作为最优第一三元组。
18.在一种可能的实现公式中,所述最优第一三元组匹配模块,用于计算所述待分发公文类型与所有第一三元组的第一匹配度,具体包括:获取所有第一三元组中的所有第一公文类型,生成公文类型集合;将所述待分发公文类型和所述公文类型集合中每个第一公文类型转换为向量形式,得到待分发公文类型向量和第一公文类型向量;分别计算所述待分发公文类型向量和每个第一公文类型向量之间的欧几里得距离,并基于欧几里得距离生成相似度列表;根据相似度列表,得到所述待分发公文类型与所有第一三元组的第一匹配度。
19.在一种可能的实现公式中,所述最优第一三元组匹配模块,用于计算所述第二哈希值与所有第一三元组的第二匹配度,具体包括:获取所有第一三元组中的所有第一哈希值,生成第一哈希值集合;分别计算所述第二哈希值和所述第一哈希值集合中每个第一哈希值之间的余弦相似度;将所述余弦相似度代入到预设的相似度计算公式中,计算所述第二哈希值与每个第一哈希值的相似度,得到所述第二哈希值与所有第一三元组的第二匹配度;其中,所述预设的相似度计算公式如下所示:;式中,为相似度,为余弦相似度,为最大余弦相似度。
20.本发明还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的辅助公文分办的方法。
21.本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任意一项所述的辅助公文分办的方法。
22.本发明实施例一种辅助公文分办的方法及系统,与现有技术相比,具有如下有益效果:通过获取的历史公文图像训练第一分类模型,得到公文类型分类模型;计算历史公文的第一哈希值,获取历史公文对应的公文目标业务处室,根据第一公文类型、第一哈希值和公文目标业务处室,构建第一三元组;将待分发公文的待分发公文标题图像输入到公文类型分类模型中,以使公文类型分类模型输出待分发公文类型,基于待分发公文内容图像,提取待分发公文的待分发公文文本数据,并计算待分发公文的第二哈希值,对待分发公文类型和第二哈希值匹配最优第一三元组,基于最优第一三元组,确定待分发公文的最优公文目标业务处室;与现有技术相比,本发明的技术方案通过将公文目标业务处室与公文类型和哈希值进行关联,并基于公文类型和哈希值两个方面,对待分发公文匹配最优公文目标业务处室,能提高公文自动分发的准确性,且通过将待分发公文文本数据转换为哈希
值,相比于现有的待分发公文文本数据转换为文本向量,能减少数据处理时间和计算资源的浪费,进一步提高公文分发的分发效率。
附图说明
23.图1是本发明提供的一种辅助公文分办的方法的一种实施例的流程示意图;图2是本发明提供的一种辅助公文分办的系统的一种实施例的结构示意图。
具体实施方式
24.下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.实施例1,参见图1,图1是本发明提供的一种辅助公文分办的方法的一种实施例的流程示意图,如图1所示,该方法包括步骤101-步骤104,具体如下:步骤101:获取历史公文的历史公文图像,对所述历史公文图像进行图像分割处理,得到历史公文标题图像和历史公文内容图像。
26.一实施例中,获取大量的历史公文的历史公文图像,得到历史公文图像数据集。
27.一实施例中,对所述历史公文图像数据集中的每个历史公文图像进行分割处理,得到每个历史公文图像对应的历史公文标题图像和历史公文内容图像。
28.步骤102:以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型。
29.一实施例中,基于ocr算法对所述历史公文标题图像进行文本识别,得到历史公文标题文本数据。
30.具体的,对所述历史公文标题图像进行图像预处理,其中,所述图像预处理包括图像去噪、灰度化、二值化等操作,以提高图像质量,方便后续文本识别。
31.具体的,基于卷积神经网络模型cnn对预处理后的历史公文标题图像性特征提取,以使所述卷积神经网络模型输出所述历史公文标题图像的特征向量,通过使用大量的历史公文标题图像作为数据集进行训练,能提高卷积神经网络模型的准确率。
32.具体的,基于训练好的卷积神经网络模型对所述历史公文标题图像进行文本识别,得到历史公文标题的文本数据。
33.一实施例中,设置公文类型包括决议、决定、命令(令)、公报、公告、通告、意见、通知、通报、报告、请示、批复、议案、函和纪要。可以理解的是,公文包括图像数据和文字数据,本步骤不作限定,凡是属于公文范畴的应用均属于本方案的范围之内。
34.一实施例中,获取所述历史公文的第一公文类型,基于所述历史公文标题文本数据与所述第一公文类型,构建公文类型分类样本数据集;并将所述公文类型样本数据集划分为分类样本训练数据集和分类样本测试数据集,并基于所述分类样本训练数据集对预设的第一分类模型进行训练,基于所述分类样本测试数据集对所述第一分类模型进行准确性评估,直至模型收敛,得到公文类型分类模型。
35.一实施例中,基于所述分类样本训练数据集对预设的第一分类模型进行训练时,
设置所述第第一分类模型的初始学习率,学习衰减方式和训练轮数的参数;具体的,初始学习率为0.02,学习率衰减方式为指数衰减,训练轮数为170 epoch。
36.步骤103:基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值,获取所述历史公文对应的公文目标业务处室,根据所述第一公文类型、所述第一哈希值和所述公文目标业务处室,构建第一三元组。
37.一实施例中,对所述历史公文内容图像进行图像增强处理,得到预处理历史公文内容图像。
38.优选的,图像增强处理包括对比度增强、色彩平衡、随机裁剪、旋转和翻转等操作。
39.一实施例中,基于像素级文本识别算法对所述预处理历史公文内容图像进行文本识别,得到历史公文文本数据,并对所述历史公文文本数据进行数据清洗和标注化处理,得到第一公文文本数据。
40.优选的,对所述历史公文文本数据进行数据清洗包括去除 html 标签、特殊字符和无用的噪声文本。
41.一实施例中,将所述第一公文文本数据转换为第一二进制数据,对所述第一二进制进行位运算,得到位运算结果,并对所述位运算结果进行哈希运算,得到第一哈希值。
42.步骤104:获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像。
43.一实施例中,获取历史公文图像,分别对所述历史公文图像中对应的历史公文标题图像区域和历史公文内容图像区域进行标注处理,生成历史公文标题图像数据集和历史公文内容图像数据集。
44.一实施例中,将所述历史公文标题图像数据集输入到第一分割模型中进行训练,得到公文标题图像分割模型,并将历史公文内容图像数据集输入到第二分割模型中进行训练,得到公文内容图像分割模型。
45.一实施例中,获取待分发公文的待分发公文图像,将所述待分发公文图像输入到所述公文标题图像分割模型中,以使所述公文标题图像分割模型输出待分发公文标题图像,将所述待分发公文图像输入到所述公文内容图像分割模型中,以使所述公文内容图像分割模型输出待分发公文内容图像。
46.步骤105:将所述待分发公文标题图像输入到所述公文类型分类模型中,以使所述公文类型分类模型输出待分发公文类型,基于所述待分发公文内容图像,提取所述待分发公文的第二公文文本数据,并计算所述待分发公文的第二哈希值。
47.一实施例中,对所述待分发公文内容图像进行图像增强处理,得到预处理待分发公文内容图像;基于像素级文本识别算法对所述预处理待分发公文内容图像进行文本识别,得到第二公文文本数据,并对所述第二公文文本数据进行数据清洗和标注化处理,得到待分发公文文本数据。
48.一实施例中,将所述待分发公文文本数据转换为第二二进制数据,对所述第二二进制进行位运算,得到位运算结果,并对所述位运算结果进行哈希运算,得到第二哈希值。
49.步骤106:对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,基于所述最优第一三元组,确定所述待分发公文的最优公文目标业务处室。
50.一实施例中,计算所述待分发公文类型与所有第一三元组的第一匹配度,以及计
算所述第二哈希值与所有第一三元组的第二匹配度。
51.具体的,对于计算所述待分发公文类型与所有第一三元组的第一匹配度,通过获取所有第一三元组中的所有第一公文类型,生成公文类型集合;将所述待分发公文类型和所述公文类型集合中每个第一公文类型转换为向量形式,得到待分发公文类型向量和第一公文类型向量;分别计算所述待分发公文类型向量和每个第一公文类型向量之间的欧几里得距离,并基于欧几里得距离生成相似度列表;根据相似度列表,得到所述待分发公文类型与所有第一三元组的第一匹配度。
52.具体的,对于计算所述第二哈希值与所有第一三元组的第二匹配度,通过获取所有第一三元组中的所有第一哈希值,生成第一哈希值集合;分别计算所述第二哈希值和所述第一哈希值集合中每个第一哈希值之间的余弦相似度;将所述余弦相似度代入到预设的相似度计算公式中,计算所述第二哈希值与每个第一哈希值的相似度,得到所述第二哈希值与所有第一三元组的第二匹配度;其中,所述预设的相似度计算公式如下所示:;式中,为相似度,为余弦相似度,为最大余弦相似度。
53.具体的,计算所述第二哈希值和所述第一哈希值集合中每个第一哈希值之间的余弦相似度时,将所述第一哈希值集合中的每个第一哈希值映射到对应的第一实体,创建一个包含每个第一哈希值和其对应的第一实体的哈希表,基于哈希表算法,计算出第二哈希值对应的第二实体,基于第一实体和第二实体,计算所述第一实体和所述第二实体的第一余弦相似度,并将所述第一余弦相似度作为所述第二哈希值和所述第一哈希值集合中每个第一哈希值之间的余弦相似度。
54.优选的,在计算所述第二哈希值与每个第一哈希值的相似度后,基于每个第一哈希值对应的第一三元组,将所述相似度作为所述第二哈希值与所有第一三元组的第二匹配度。
55.一实施例中,对每个第一三元组对应的所述第一匹配度和所述第二匹配度进行平均加权处理,得到所有第一三元组的第三匹配度。
56.具体的,将所述每个第一三元组对应的所述第一匹配度和所述第二匹配度输入到预设的匹配度计算公式中,得到所有第一三元组的第三匹配度,其中,所述预设的匹配度计算公式如下所示:;式中,为第x个第一三元组对应的第三匹配度,为第x个第一三元组对应的第一匹配度,为第x个第一三元组对应的第二匹配度,和为权重常值。
57.一实施例中,并基于所述第三匹配度,对所有第一三元组进行排序,选取匹配度最高的第一三元组作为最优第一三元组。
58.一实施例中,由于哈希值是将文件内容压缩成小整数的映射,因此计算哈希值的速度非常快,可以在短时间内完成大量公文的比较,因此,本实施例中基于哈希值对待分发公文进行匹配处理,相比现有中使用多标签二分类向量需要对公文进行标注,更加快速和
高效;且现有技术中使用多标签二分类向量需要对公文进行标注,然后将其映射到一个向量空间中,这需要耗费大量时间和计算资源,使得后续公分分发效率低下。
59.一实施例中,基于所述最优第一三元组,确定所述待分发公文的最优公文目标业务处室后,还包括,对公文业务处室与公文接收人员信息设置映射关系,得到公文接收映射对;基于最优公文业务处室,从所述公文接收映射对中获取最优公文接收人员信息。
60.一实施例中,还对所述第二哈希值进行乱序处理,得到乱序第二哈希值;并基于最优公文接收人员信息将所述乱序第二哈希值和待分发公文发送给最优公文接收人员,以使所述最优公文接收人员在接收到所述乱序第二哈希值和所述待分发公文后,计算所述待分发公文的第三哈希值,并对所述乱序第二哈希值进行正序处理,得到第四哈希值,判断所述第四哈希值和所述第三哈希值是否相同,若相同,则认为待分发公文在传输过程中没有被篡改或损坏,否则,则认为所述待分发公文在传输过程中没有被篡改或损坏。
61.本实施例中,在向最优公文接收人员发送待分发公文后,还基于哈希值技术对待分发公文进行验证,可以有效地确保公文的分发正确性和完整性,减少公文传输中的错误和篡改。
62.实施例2,参见图2,图2是本发明提供的一种辅助公文分办的系统的一种实施例的结构示意图,如图2所示,该系统包括历史公文图像处理模块201、公文类型分类模型训练模块202、第一三元组构建模块203、待分发公文图像处理模块204、待分发公文数据获取模块205和最优第一三元组匹配模块206,具体如下:所述历史公文图像处理模块201,用于获取历史公文的历史公文图像,对所述历史公文图像进行图像分割处理,得到历史公文标题图像和历史公文内容图像。
63.所述公文类型分类模型训练模块202,用于以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型。
64.所述第一三元组构建模块203,用于基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值;获取所述历史公文对应的公文目标业务处室,根据所述第一公文类型、所述第一哈希值和所述公文目标业务处室,构建第一三元组。
65.所述待分发公文图像处理模块204,用于获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像。
66.所述待分发公文数据获取模块205,用于将所述待分发公文标题图像输入到所述公文类型分类模型中,以使所述公文类型分类模型输出待分发公文类型,基于所述待分发公文内容图像,提取所述待分发公文的待分发公文文本数据,并计算所述待分发公文的第二哈希值。
67.所述最优第一三元组匹配模块206,用于对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,基于所述最优第一三元组,确定所述待分发公文的最优公文目标业务处室。
68.一实施例中,所述第一三元组构建模块203,用于基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值,具体的,对所述历史公文内容图像进行图像增强处理,得到预处理历史公文内容图像;基于像素级文本识
别算法对所述预处理历史公文内容图像进行文本识别,得到历史公文文本数据,并对所述历史公文文本数据进行数据清洗和标注化处理,得到第一公文文本数据;将所述第一公文文本数据转换为第一二进制数据,对所述第一二进制进行位运算,得到位运算结果,并对所述位运算结果进行哈希运算,得到第一哈希值。
69.一实施例中,所述待分发公文图像处理模块204,用于在所述获取待分发公文的待分发公文图像之前,还包括: 获取历史公文图像,分别对所述历史公文图像中对应的历史公文标题图像区域和历史公文内容图像区域进行标注处理,生成历史公文标题图像数据集和历史公文内容图像数据集;将所述历史公文标题图像数据集输入到第一分割模型中进行训练,得到公文标题图像分割模型,并将历史公文内容图像数据集输入到第二分割模型中进行训练,得到公文内容图像分割模型。
70.一实施例中,所述待分发公文图像处理模块204,用于获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像,具体包括:获取待分发公文的待分发公文图像,将所述待分发公文图像输入到所述公文标题图像分割模型中,以使所述公文标题图像分割模型输出待分发公文标题图像,将所述待分发公文图像输入到所述公文内容图像分割模型中,以使所述公文内容图像分割模型输出待分发公文内容图像。
71.一实施例中,所述公文类型分类模型训练模块202,用于以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型,具体包括:基于ocr算法对所述历史公文标题图像进行文本识别,得到历史公文标题文本数据;获取所述历史公文的第一公文类型,基于所述历史公文标题文本数据与所述第一公文类型,构建公文类型分类样本数据集;将所述公文类型样本数据集划分为分类样本训练数据集和分类样本测试数据集,并基于所述分类样本训练数据集对预设的第一分类模型进行训练,基于所述分类样本测试数据集对所述第一分类模型进行准确性评估,直至模型收敛,得到公文类型分类模型。
72.一实施例中,所述最优第一三元组匹配模块206,用于对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,具体包括:计算所述待分发公文类型与所有第一三元组的第一匹配度,以及计算所述第二哈希值与所有第一三元组的第二匹配度;对每个第一三元组对应的所述第一匹配度和所述第二匹配度进行平均加权处理,得到所有第一三元组的第三匹配度;并基于所述第三匹配度,对所有第一三元组进行排序,选取匹配度最高的第一三元组作为最优第一三元组。
73.一实施例中,所述最优第一三元组匹配模块206,用于计算所述待分发公文类型与所有第一三元组的第一匹配度,具体包括:获取所有第一三元组中的所有第一公文类型,生成公文类型集合;将所述待分发公文类型和所述公文类型集合中每个第一公文类型转换为向量形式,得到待分发公文类型向量和第一公文类型向量;分别计算所述待分发公文类型向量和每个第一公文类型向量之间的欧几里得距离,并基于欧几里得距离生成相似度列表;根据相似度列表,得到所述待分发公文类型与所有第一三元组的第一匹配度。
74.一实施例中,所述最优第一三元组匹配模块206,用于计算所述第二哈希值与所有第一三元组的第二匹配度,具体包括:获取所有第一三元组中的所有第一哈希值,生成第一
哈希值集合;分别计算所述第二哈希值和所述第一哈希值集合中每个第一哈希值之间的余弦相似度; 将所述余弦相似度代入到预设的相似度计算公式中,计算所述第二哈希值与每个第一哈希值的相似度,得到所述第二哈希值与所有第一三元组的第二匹配度;其中,所述预设的相似度计算公式如下所示:;式中,为相似度,为余弦相似度,为最大余弦相似度。
75.所属领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不在赘述。
76.需要说明的是,上述辅助公文分办的系统的实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
77.在上述的辅助公文分办的方法的实施例的基础上,本发明另一实施例提供了一种辅助公文分办的终端设备,该辅助公文分办的终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现本发明任意一实施例的辅助公文分办的方法。
78.示例性的,在这一实施例中所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述辅助公文分办的终端设备中的执行过程。
79.所述辅助公文分办的终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述辅助公文分办的终端设备可包括,但不仅限于,处理器、存储器。
80.所称处理器可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器 (digital signal processor,dsp)、专用集成电路 (application specific integrated circuit,asic)、现成可编程门阵列 (field-programmable gate array,fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述辅助公文分办的终端设备的控制中心,利用各种接口和线路连接整个辅助公文分办的终端设备的各个部分。
81.所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述辅助公文分办的终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card, smc),安全数字(secure digital, sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
82.在上述辅助公文分办的方法的实施例的基础上,本发明另一实施例提供了一种存
储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时,控制所述存储介质所在的设备执行本发明任意一实施例的辅助公文分办的方法。
83.在这一实施例中,上述存储介质为计算机可读存储介质,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
84.综上,本发明提供的一种辅助公文分办的方法及系统,通过获取的历史公文图像训练第一分类模型,得到公文类型分类模型;计算历史公文的第一哈希值,获取历史公文对应的公文目标业务处室,根据第一公文类型、第一哈希值和公文目标业务处室,构建第一三元组;将待分发公文的待分发公文标题图像输入到公文类型分类模型中,以使公文类型分类模型输出待分发公文类型,基于待分发公文内容图像,提取待分发公文的待分发公文文本数据,并计算待分发公文的第二哈希值,对待分发公文类型和第二哈希值匹配最优第一三元组,基于最优第一三元组,确定待分发公文的最优公文目标业务处室;与现有技术相比,本发明的技术方案能提高公文自动分发的准确性和分发效率。
85.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

技术特征:
1.一种辅助公文分办的方法,其特征在于,包括:获取历史公文的历史公文图像,对所述历史公文图像进行图像分割处理,得到历史公文标题图像和历史公文内容图像;以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型;基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值,获取所述历史公文对应的公文目标业务处室,根据所述第一公文类型、所述第一哈希值和所述公文目标业务处室,构建第一三元组;获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像;将所述待分发公文标题图像输入到所述公文类型分类模型中,以使所述公文类型分类模型输出待分发公文类型,基于所述待分发公文内容图像,提取所述待分发公文的待分发公文文本数据,并计算所述待分发公文的第二哈希值;对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,基于所述最优第一三元组,确定所述待分发公文的最优公文目标业务处室。2.如权利要求1所述的一种辅助公文分办的方法,其特征在于,基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值,具体包括:对所述历史公文内容图像进行图像增强处理,得到预处理历史公文内容图像;基于像素级文本识别算法对所述预处理历史公文内容图像进行文本识别,得到历史公文文本数据,并对所述历史公文文本数据进行数据清洗和标注化处理,得到第一公文文本数据;将所述第一公文文本数据转换为第一二进制数据,对所述第一二进制进行位运算,得到位运算结果,并对所述位运算结果进行哈希运算,得到第一哈希值。3.如权利要求1所述的一种辅助公文分办的方法,其特征在于,在所述获取待分发公文的待分发公文图像之前,还包括:获取历史公文图像,分别对所述历史公文图像中对应的历史公文标题图像区域和历史公文内容图像区域进行标注处理,生成历史公文标题图像数据集和历史公文内容图像数据集;将所述历史公文标题图像数据集输入到第一分割模型中进行训练,得到公文标题图像分割模型,并将历史公文内容图像数据集输入到第二分割模型中进行训练,得到公文内容图像分割模型;所述获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像,具体包括:获取待分发公文的待分发公文图像,将所述待分发公文图像输入到所述公文标题图像分割模型中,以使所述公文标题图像分割模型输出待分发公文标题图像,将所述待分发公文图像输入到所述公文内容图像分割模型中,以使所述公文内容图像分割模型输出待分发公文内容图像。4.如权利要求1所述的一种辅助公文分办的方法,其特征在于,以所述历史公文标题图
像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型,具体包括:基于ocr算法对所述历史公文标题图像进行文本识别,得到历史公文标题文本数据;获取所述历史公文的第一公文类型,基于所述历史公文标题文本数据与所述第一公文类型,构建公文类型分类样本数据集;将所述公文类型样本数据集划分为分类样本训练数据集和分类样本测试数据集,并基于所述分类样本训练数据集对预设的第一分类模型进行训练,基于所述分类样本测试数据集对所述第一分类模型进行准确性评估,直至模型收敛,得到公文类型分类模型。5.如权利要求1所述的一种辅助公文分办的方法,其特征在于,对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,具体包括:计算所述待分发公文类型与所有第一三元组的第一匹配度,以及计算所述第二哈希值与所有第一三元组的第二匹配度;对每个第一三元组对应的所述第一匹配度和所述第二匹配度进行平均加权处理,得到所有第一三元组的第三匹配度;并基于所述第三匹配度,对所有第一三元组进行排序,选取匹配度最高的第一三元组作为最优第一三元组。6.如权利要求5所述的一种辅助公文分办的方法,其特征在于,计算所述待分发公文类型与所有第一三元组的第一匹配度,具体包括:获取所有第一三元组中的所有第一公文类型,生成公文类型集合;将所述待分发公文类型和所述公文类型集合中每个第一公文类型转换为向量形式,得到待分发公文类型向量和第一公文类型向量;分别计算所述待分发公文类型向量和每个第一公文类型向量之间的欧几里得距离,并基于欧几里得距离生成相似度列表;根据相似度列表,得到所述待分发公文类型与所有第一三元组的第一匹配度。7.如权利要求5所述的一种辅助公文分办的方法,其特征在于,计算所述第二哈希值与所有第一三元组的第二匹配度,具体包括:获取所有第一三元组中的所有第一哈希值,生成第一哈希值集合;分别计算所述第二哈希值和所述第一哈希值集合中每个第一哈希值之间的余弦相似度;将所述余弦相似度代入到预设的相似度计算公式中,计算所述第二哈希值与每个第一哈希值的相似度,得到所述第二哈希值与所有第一三元组的第二匹配度;其中,所述预设的相似度计算公式如下所示:;式中,为相似度,为余弦相似度,为最大余弦相似度。8.一种辅助公文分办的系统,其特征在于,包括:历史公文图像处理模块、公文类型分类模型训练模块、第一三元组构建模块、待分发公文图像处理模块、待分发公文数据获取模块和最优第一三元组匹配模块;其中,所述历史公文图像处理模块,用于获取历史公文的历史公文图像,对所述历史公
文图像进行图像分割处理,得到历史公文标题图像和历史公文内容图像;所述公文类型分类模型训练模块,用于以所述历史公文标题图像为输入,以所述历史公文的第一公文类型为输出,对预设的第一分类模型进行训练,直至模型收敛,得到公文类型分类模型;所述第一三元组构建模块,用于基于所述历史公文内容图像,提取所述历史公文的第一公文文本数据,并计算所述历史公文的第一哈希值;获取所述历史公文对应的公文目标业务处室,根据所述第一公文类型、所述第一哈希值和所述公文目标业务处室,构建第一三元组;所述待分发公文图像处理模块,用于获取待分发公文的待分发公文图像,对所述待分发公文图像进行图像分割处理,得到待分发公文标题图像和待分发公文内容图像;所述待分发公文数据获取模块,用于将所述待分发公文标题图像输入到所述公文类型分类模型中,以使所述公文类型分类模型输出待分发公文类型,基于所述待分发公文内容图像,提取所述待分发公文的待分发公文文本数据,并计算所述待分发公文的第二哈希值;所述最优第一三元组匹配模块,用于对所述待分发公文类型和所述第二哈希值匹配最优第一三元组,基于所述最优第一三元组,确定所述待分发公文的最优公文目标业务处室。9.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的辅助公文分办的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的辅助公文分办的方法。

技术总结
本发明公开了一种辅助公文分办的方法及系统,通过获取的历史公文图像训练第一分类模型,得到公文类型分类模型;计算历史公文的第一哈希值,获取历史公文对应的公文目标业务处室,根据第一公文类型、第一哈希值和公文目标业务处室,构建第一三元组;将待分发公文的待分发公文标题图像输入到公文类型分类模型中,以使公文类型分类模型输出待分发公文类型,基于待分发公文内容图像,提取待分发公文的待分发公文文本数据,并计算待分发公文的第二哈希值,对待分发公文类型和第二哈希值匹配最优第一三元组,基于最优第一三元组,确定待分发公文的最优公文目标业务处室;与现有技术相比,本发明的技术方案能提高公文自动分发的准确性和分发效率。性和分发效率。性和分发效率。


技术研发人员:池沐霖 苗苏望 蓝建敏 李观春 徐泳坚
受保护的技术使用者:京华信息科技股份有限公司
技术研发日:2023.08.02
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐