一种用于档案的智能分拣与归档管理方法与系统与流程

未命名 09-09 阅读:68 评论:0


1.本发明属于档案管理技术领域,尤其涉及一种用于档案的智能分拣与归档管理方法与系统。


背景技术:

2.为了实现对电子档案的分拣以及自动归档操作,在cn115455266b《一种电子档案自动采集归档方法及系统》中根据电子档案的特征数据与数据归档属性进行匹配,确定档案归档位置,根据档案归档位置对所述电子档案进行归档,但是却存在以下技术问题:1、在需要进行待存档处理的电子档案较多时,未考虑结合待存档处理的电子档案与已存档的电子档案的相似度以及待存档处理的电子档案的分档难度进行待存档处理的电子档案的处理顺序的确定,具体的,当待存档处理的电子档案与已存档的电子档案的相似度过高或者疑似相似度较高的已存档的电子档案的数量较多时,或者待存档处理的电子档案的分档难度较大时,此时若不能结合上述因素,则会导致存档处理的效率变差。
3.2、在进行分档处理之前,未考虑待存档处理的电子档案之间的相似情况进行分拣处理,具体的,若存在多个疑似类似的待存档处理的电子档案时,若不能进行差异化的分拣及分类,则同样会使得存档处理的效率变差。
4.针对上述技术问题,本发明提供了一种用于档案的智能分拣与归档管理方法与系统。


技术实现要素:

5.为实现本发明目的,本发明采用如下技术方案:根据本发明的一个方面,提供了一种用于档案的智能分拣与归档管理方法。
6.一种用于档案的智能分拣与归档管理方法,其特征在于,具体包括:s11将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值,并通过所述相似度处理优先值进行筛选档案的确定,将不属于筛选档案的待处理档案的处理优先级设置为第三处理优先级;s12至少根据所述筛选档案的标题和页数确定与已存档档案的初始相似度以及已存档类似方案,并通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,并通过所述存档处理优先值进行二次筛选档案的确定,将不属于二次筛选档案的筛选档案的处理优先级设置为第二处理优先级;s13至少根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,将不属于优先处理档案的二次筛选档案的处理优先级设置为第一处理优先级;s14根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理
档案的存档优先度以及存档处理顺序。
7.进一步的技术方案在于,在进行所述待处理档案之间的相似度的评估之前,还需要对所述待处理档案的档案质量进行评估,并将所述档案质量不满足要求的待处理档案的处理优先级设置为第四处理优先级,将所述档案质量不满足要求的待处理档案排除后再进行所述待处理档案之间的相似度的评估。
8.进一步的技术方案在于,所述第一处理优先级大于第二处理优先级,所述第二处理优先级大于第三处理优先级,所述第三处理优先级大于第四处理优先级。
9.进一步的技术方案在于,所述存档处理顺序的确定的方法为:当所述优先处理档案的存档优先度大于优先度设定值时,则通过所述优先处理档案的存档优先度进行所述优先处理档案的存档处理顺序的确定;当所述优先处理档案的存档优先度不大于优先度设定值时,则通过所述优先处理档案的存档复杂度进行所述优先处理档案的存档处理顺序的确定。
10.第二方面,本发明提供了一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种用于档案的智能分拣与归档管理方法。
11.第三方面,本技术实施例中提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种用于档案的智能分拣与归档管理方法。
12.本发明的有益效果在于:通过待处理档案之间的相似度的评估,实现待处理档案与其它的待处理档案之间的相似度的确定,从而保证了相似度较大的类似档案的数量较多的待处理档案的确定,考虑到类似档案过多,需要首先确定不同的类似档案之间的相似情况,其处理难度较大,因此需要将存档处理顺序延后,保证存档处理的效率。
13.通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,从而实现了待处理档案与已存档档案的相似情况实现了对重复可能性较高的待处理档案的确定,避免了由于与已存档档案的重复可能性较高导致的存档处理效率较低的技术问题,并且保证了存档处理的效率。
14.根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,实现了从二次筛选档案的存档的复杂程度实现了对档案的区分管理,进一步保证了档案的存档处理的效率。
15.根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序,从而实现了从多个角度对优先处理档案的存档优先度以及处理顺序的确定,既保证了存档处理的效率,同时也实现了对不同的档案的差异化分类和处理。
16.其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
17.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
18.通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显;图1是一种用于档案的智能分拣与归档管理方法的流程图;图2是待处理档案的档案质量的评估的方法的流程图;图3是相似度的评估的方法的流程图;图4是相似度处理优先值的确定的方法的流程图;图5是存档处理优先值的确定的方法的流程图;图6是存档复杂度的确定的方法的流程图;图7是一种计算机系统的框架图。
具体实施方式
19.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
20.为解决上述问题,根据本发明的一个方面,如图1所示,提供了根据本发明的一个方面,提供了一种用于档案的智能分拣与归档管理方法,其特征在于,具体包括:s11将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值,并通过所述相似度处理优先值进行筛选档案的确定,将不属于筛选档案的待处理档案的处理优先级设置为第三处理优先级;在本实施例中,通过待处理档案之间的相似度的评估,实现待处理档案与其它的待处理档案之间的相似度的确定,从而保证了相似度较大的类似档案的数量较多的待处理档案的确定,考虑到类似档案过多,需要首先确定不同的类似档案之间的相似情况,其处理难度较大,因此需要将存档处理顺序延后,保证存档处理的效率。
21.需要说明的是,在进行所述待处理档案之间的相似度的评估之前,还需要对所述待处理档案的档案质量进行评估,并将所述档案质量不满足要求的待处理档案的处理优先级设置为第四处理优先级,将所述档案质量不满足要求的待处理档案排除后再进行所述待处理档案之间的相似度的评估。
22.可以理解的是,对于待处理档案存在空白页或者存在空白部分的页面的数量较多的档案,由于存在质量不佳的可能性,因此也必须进行进一步的评估,需要将其存档处理的顺序延后。
23.可以理解的是,所述第一处理优先级大于第二处理优先级,所述第二处理优先级大于第三处理优先级,所述第三处理优先级大于第四处理优先级。
24.具体的举例说明,如图2所示,所述待处理档案的档案质量的评估的方法为:s21根据所述待处理档案的存储空间对所述待处理档案进行筛选得到存储异常的
待处理档案,并判断所述待处理档案是否属于存储异常的待处理档案,若是,则进入下一步骤,若否,则进入步骤s23;当档案的存储空间明显较小时,此时有可能属于空白档案,因此必须对空白档案类似的异常质量档案进行筛选,从而提升档案处理的效率。
25.s22根据所述待处理档案的字符数量进行空白档案的识别,并判断所述待处理档案是否属于空白档案,若是,则确定所述待处理档案的档案质量不满足要求,若否,则进入下一步骤;s23根据所述待处理档案的字符数量以及页数进行异常待处理档案的识别,并判断所述待处理档案是否属于异常待处理档案,若是,则进入步骤s24,若否,则确定所述代理档案的档案质量满足要求;当待处理档案的字符数量较少,但是页数较多时,此时存在空白页的可能性大大增加,因此通过该步骤的识别,提升了档案的识别和处理效率。
26.s24对所述异常待处理档案中的空白页进行识别得到所述异常待处理档案中的空白页的数量以及所述空白页的数量与所述异常待处理档案的页数的比例,并结合所述异常待处理档案的页面中的空白比例大于预设比例的页面数量进行所述异常待处理档案的档案质量的确定。
27.具体的举例说明,如图3所示,所述相似度的评估的方法为:根据所述待处理档案的标题进行分词处理得到所述待处理档案的题目关键词,并根据所述题目关键词确定所述待处理档案与所述其它的待处理档案的题目相似度;根据所述待处理档案的页数与所述其它的待处理档案的页数的偏差量进行所述待处理档案与所述其它的待处理档案的页面相似度;根据所述待处理档案与所述其它的待处理档案的题目相似度和页面相似度进行所述待处理档案之间的相似度的评估。
28.可以理解的是,所述相似档案的确定,具体包括:当所述其它的待处理档案与所述待处理档案的相似度大于相似度预设值时,则确定所述其它的待处理档案为相似档案。
29.需要说明的是,当其它的待处理档案与所述待处理档案的相似度大于0.7及以上时,则确定所述其它的待处理档案为相似档案。
30.具体的举例说明,如图4所示,所述相似度处理优先值的确定的方法为:s31获取所述待处理档案的类似档案的相似度,并根据所述类似档案的相似度确定是否存在疑似重复档案,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;当相似度特别高时,则将相似度特别高的类似档案作为疑似重复档案,对于存在疑似重复档案的待处理档案处理优先级设置为第三处理优先级。
31.s32获取所述待处理档案的类似档案的数量,并根据所述待处理档案的类似档案的数量确定是否需要将所述待处理档案的处理优先级设置为第三处理优先级,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;当类似档案的数量较多时,此时存在重复档案的可能性也比较大,因此需要将待
处理档案的处理优先级设置为第三处理优先级。
32.s33根据所述类似档案的相似度的最大值以及所述类似档案的数量,并结合所述类似档案的相似度的均值进行所述类似档案的相似度评估量的确定,并根据所述类似档案的相似度评估量确定是否需要将所述待处理档案的处理优先级设置为第三处理优先级,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;相似度评估量反应的是类似档案与待处理档案的综合的相似度,实现了对重复档案的存在概率的准确评估。
33.s34 根据所述类似档案与所述待处理档案的字符数量进行所述类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、相似度进行所述类似档案的综合相似度的确定,通过所述类似档案的综合相似度、数量以及所述类似档案的综合相似度的最大值进行所述待处理档案的相似度处理优先值的确定。
34.需要说明的是,通过所述相似度处理优先值进行筛选档案的确定,具体包括:当所述待处理档案的相似度处理优先值大于预设优先处理量时,则将所述待处理档案作为筛选档案。
35.在本实施例中,通过根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值进行相似度处理优先值的确定,从而实现了从待处理档案中的类似档案的情况实现了对重复可能性较高的待处理档案的确定,避免了由于重复可能性较高导致的存档处理效率较低的技术问题的出现。
36.s12至少根据所述筛选档案的标题和页数确定与已存档档案的初始相似度以及已存档类似方案,并通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,并通过所述存档处理优先值进行二次筛选档案的确定,将不属于二次筛选档案的筛选档案的处理优先级设置为第二处理优先级;具体的举例说明,如图5所示,所述存档处理优先值的确定的方法为:s41获取所述待处理档案的已存档类似档案的相似度,并根据所述已存档类似档案的初始相似度确定是否存在疑似重复档案,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第二处理优先级,若否,则进入下一步骤;s42获取所述待处理档案的已存档类似档案的数量,并根据所述待处理档案的已存档类似档案的数量确定是否需要将所述待处理档案的处理优先级设置为第二处理优先级,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第二处理优先级,若否,则进入下一步骤;s43根据所述已存档类似档案的初始相似度的最大值以及所述已存档类似档案的数量,并结合所述已存档类似档案的初始相似度的均值进行所述类似档案的存档相似度评估量的确定,并根据所述已存档类似档案的存档相似度评估量确定是否需要将所述待处理档案的处理优先级设置为第二处理优先级,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;s44 根据所述已存档类似档案与所述待处理档案的字符数量进行所述已存档类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、初始相似度进行
所述已存档类似档案的综合相似度的确定,通过所述已存档类似档案的综合相似度、数量以及所述已存档类似档案的综合相似度的最大值进行所述待处理档案的存档处理优先值的确定。
37.在本实施例中,通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,从而实现了待处理档案与已存档档案的相似情况实现了对重复可能性较高的待处理档案的确定,避免了由于与已存档档案的重复可能性较高导致的存档处理效率较低的技术问题,并且保证了存档处理的效率。
[0038] s13至少根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,将不属于优先处理档案的二次筛选档案的处理优先级设置为第一处理优先级;具体的,如图6所示,所述存档复杂度的确定的方法为:s51根据所述二次筛选档案与所述已存档档案的初始相似度确定是否存在已存档类似档案,若是,则进入步骤s52,若否,则将所述二次筛选档案的存档复杂度设置为0;s52通过所述二次筛选档案的页数、字符数量以及图片数量进行所述二次筛选档案的相似度评估难度的确定,并根据所述相似度评估难度进行所述二次筛选档案的存档基础复杂度的确定;s53根据所述二次筛选档案的单页的字符数量进行所述二次筛选档案的单页的字符相似度评估复杂度的确定,并根据所述字符相似度评估复杂度进行复杂页面的确定,根据所述复杂页面的数量、比例、所述二次筛选档案的页数以及字符相似度评估复杂度的平均值进行所述二次筛选档案的字符评估复杂度的确定,并通过所述二次筛选档案的字符评估复杂度确定所述存档基础复杂度是否准确,若是,则进入下一步骤,若否,则进入步骤s55;s54通过所述二次筛选档案的单页的图片数量进行复杂图片页面的确定,并根据所述复杂图片页面的数量以及比例、存在图片的页面的数量以及比例进行所述二次筛选档案的图片评估复杂度的评估,并根据所述二次筛选档案的图片评估复杂度确定所述存档基础复杂度是否准确,若是,则通过所述存档基础复杂度进行所述二次筛选档案的存档复杂度的确定,若否,则进入步骤s55;s55根据所述二次筛选档案的存档基础复杂度、字符评估复杂度、图片评估复杂度进行所述二次筛选档案的存档复杂度的确定。
[0039]
在本实施例中,根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,实现了从二次筛选档案的存档的复杂程度实现了对档案的区分管理,进一步保证了档案的存档处理的效率。
[0040]
s14根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。
[0041]
具体的,所述存档处理顺序的确定的方法为:当所述优先处理档案的存档优先度大于优先度设定值时,则通过所述优先处理档案的存档优先度进行所述优先处理档案的存档处理顺序的确定;当所述优先处理档案的存档优先度不大于优先度设定值时,则通过所述优先处理档案的存档复杂度进行所述优先处理档案的存档处理顺序的确定。
[0042]
在本实施例中,根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序,从而实现了从多个角度对优先处理档案的存档优先度以及处理顺序的确定,既保证了存档处理的效率,同时也实现了对不同的档案的差异化分类和处理。
[0043]
另一方面,如图7所示,本发明提供了一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行上述的一种用于档案的智能分拣与归档管理方法。
[0044]
其中上述的一种用于档案的智能分拣与归档管理方法,具体包括:将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值;获取所述待处理档案的已存档类似档案的数量,根据所述已存档类似档案的初始相似度的最大值以及所述已存档类似档案的数量,并结合所述已存档类似档案的初始相似度的均值进行所述类似档案的存档相似度评估量的确定;根据所述已存档类似档案与所述待处理档案的字符数量进行所述已存档类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、初始相似度进行所述已存档类似档案的综合相似度的确定,通过所述已存档类似档案的综合相似度、数量以及所述已存档类似档案的综合相似度的最大值进行所述待处理档案的存档处理优先值的确定;根据所述二次筛选档案与所述已存档档案的初始相似度确定存在已存档类似档案时,进入下一步骤;通过所述二次筛选档案的页数、字符数量以及图片数量进行所述二次筛选档案的相似度评估难度的确定,并根据所述相似度评估难度进行所述二次筛选档案的存档基础复杂度的确定;根据所述二次筛选档案的单页的字符数量进行所述二次筛选档案的单页的字符相似度评估复杂度的确定,并根据所述字符相似度评估复杂度进行复杂页面的确定,根据所述复杂页面的数量、比例、所述二次筛选档案的页数以及字符相似度评估复杂度的平均值进行所述二次筛选档案的字符评估复杂度的确定;通过所述二次筛选档案的单页的图片数量进行复杂图片页面的确定,并根据所述复杂图片页面的数量以及比例、存在图片的页面的数量以及比例进行所述二次筛选档案的图片评估复杂度的评估;根据所述二次筛选档案的存档基础复杂度、字符评估复杂度、图片评估复杂度进行所述二次筛选档案的存档复杂度的确定,根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。
[0045]
另一方面,本技术实施例中提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的一种用于档案的智能分拣与归档管理方法。
[0046]
其中上述的一种用于档案的智能分拣与归档管理方法,具体包括:将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档
案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值;获取所述待处理档案的已存档类似档案的相似度,并根据所述已存档类似档案的初始相似度确定不存在疑似重复档案时,则进入下一步骤;获取所述待处理档案的已存档类似档案的数量,根据所述已存档类似档案的初始相似度的最大值以及所述已存档类似档案的数量,并结合所述已存档类似档案的初始相似度的均值进行所述类似档案的存档相似度评估量的确定,并根据所述已存档类似档案的存档相似度评估量确定不需要将所述待处理档案的处理优先级设置为第二处理优先级时,进入下一步骤;根据所述已存档类似档案与所述待处理档案的字符数量进行所述已存档类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、初始相似度进行所述已存档类似档案的综合相似度的确定,通过所述已存档类似档案的综合相似度、数量以及所述已存档类似档案的综合相似度的最大值进行所述待处理档案的存档处理优先值的确定;根据所述二次筛选档案与所述已存档档案的初始相似度确定存在已存档类似档案时,进入下一步骤;通过所述二次筛选档案的页数、字符数量以及图片数量进行所述二次筛选档案的相似度评估难度的确定,并根据所述相似度评估难度进行所述二次筛选档案的存档基础复杂度的确定;根据所述二次筛选档案的单页的字符数量进行所述二次筛选档案的单页的字符相似度评估复杂度的确定,并根据所述字符相似度评估复杂度进行复杂页面的确定,根据所述复杂页面的数量、比例、所述二次筛选档案的页数以及字符相似度评估复杂度的平均值进行所述二次筛选档案的字符评估复杂度的确定;通过所述二次筛选档案的单页的图片数量进行复杂图片页面的确定,并根据所述复杂图片页面的数量以及比例、存在图片的页面的数量以及比例进行所述二次筛选档案的图片评估复杂度的评估;根据所述二次筛选档案的存档基础复杂度、字符评估复杂度、图片评估复杂度进行所述二次筛选档案的存档复杂度的确定,根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。
[0047]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0048]
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0049]
以上所述仅为本说明书的一个或多个实施例而已,并不用于限制本说明书。对于
本领域技术人员来说,本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

技术特征:
1.一种用于档案的智能分拣与归档管理方法,其特征在于,具体包括:将待存档处理的电子档案作为待处理档案,并至少根据标题、页数进行待处理档案与其它的待处理档案之间的相似度以及类似档案的确定,并根据所述待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值,并通过所述相似度处理优先值进行筛选档案的确定,将不属于筛选档案的待处理档案的处理优先级设置为第三处理优先级;至少根据所述筛选档案的标题和页数确定与已存档档案的初始相似度以及已存档类似方案,并通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,并通过所述存档处理优先值进行二次筛选档案的确定,将不属于二次筛选档案的筛选档案的处理优先级设置为第二处理优先级;至少根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,并通过所述存档复杂度进行优先处理档案的确定,将不属于优先处理档案的二次筛选档案的处理优先级设置为第一处理优先级;根据所述存档复杂度、存储处理优先值、相似度处理优先值确定所述优先处理档案的存档优先度以及存档处理顺序。2.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,在进行所述待处理档案之间的相似度的评估之前,还需要对所述待处理档案的档案质量进行评估,并将所述档案质量不满足要求的待处理档案的处理优先级设置为第四处理优先级,将所述档案质量不满足要求的待处理档案排除后再进行所述待处理档案之间的相似度的评估。3.如权利要求2所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述第一处理优先级大于第二处理优先级,所述第二处理优先级大于第三处理优先级,所述第三处理优先级大于第四处理优先级。4.如权利要求2所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述待处理档案的档案质量的评估的方法为:s21根据所述待处理档案的存储空间对所述待处理档案进行筛选得到存储异常的待处理档案,并判断所述待处理档案是否属于存储异常的待处理档案,若是,则进入下一步骤,若否,则进入步骤s23;s22根据所述待处理档案的字符数量进行空白档案的识别,并判断所述待处理档案是否属于空白档案,若是,则确定所述待处理档案的档案质量不满足要求,若否,则进入下一步骤;s23根据所述待处理档案的字符数量以及页数进行异常待处理档案的识别,并判断所述待处理档案是否属于异常待处理档案,若是,则进入步骤s24,若否,则确定所述代理档案的档案质量满足要求;s24对所述异常待处理档案中的空白页进行识别得到所述异常待处理档案中的空白页的数量以及所述空白页的数量与所述异常待处理档案的页数的比例,并结合所述异常待处理档案的页面中的空白比例大于预设比例的页面数量进行所述异常待处理档案的档案质量的确定。5.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述相
似度的评估的方法为:根据所述待处理档案的标题进行分词处理得到所述待处理档案的题目关键词,并根据所述题目关键词确定所述待处理档案与所述其它的待处理档案的题目相似度;根据所述待处理档案的页数与所述其它的待处理档案的页数的偏差量进行所述待处理档案与所述其它的待处理档案的页面相似度;根据所述待处理档案与所述其它的待处理档案的题目相似度和页面相似度进行所述待处理档案之间的相似度的评估。6.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述相似档案的确定,具体包括:当所述其它的待处理档案与所述待处理档案的相似度大于相似度预设值时,则确定所述其它的待处理档案为相似档案。7.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述相似度处理优先值的确定的方法为:获取所述待处理档案的类似档案的相似度,并根据所述类似档案的相似度确定是否存在疑似重复档案,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;获取所述待处理档案的类似档案的数量,并根据所述待处理档案的类似档案的数量确定是否需要将所述待处理档案的处理优先级设置为第三处理优先级,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;根据所述类似档案的相似度的最大值以及所述类似档案的数量,并结合所述类似档案的相似度的均值进行所述类似档案的相似度评估量的确定,并根据所述类似档案的相似度评估量确定是否需要将所述待处理档案的处理优先级设置为第三处理优先级,若是,则确定所述待处理档案不属于筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;根据所述类似档案与所述待处理档案的字符数量进行所述类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、相似度进行所述类似档案的综合相似度的确定,通过所述类似档案的综合相似度、数量以及所述类似档案的综合相似度的最大值进行所述待处理档案的相似度处理优先值的确定。8.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,通过所述相似度处理优先值进行筛选档案的确定,具体包括:当所述待处理档案的相似度处理优先值大于预设优先处理量时,则将所述待处理档案作为筛选档案。9.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述存档处理优先值的确定的方法为:获取所述待处理档案的已存档类似档案的相似度,并根据所述已存档类似档案的初始相似度确定是否存在疑似重复档案,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第二处理优先级,若否,则进入下一步骤;获取所述待处理档案的已存档类似档案的数量,并根据所述待处理档案的已存档类似
档案的数量确定是否需要将所述待处理档案的处理优先级设置为第二处理优先级,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第二处理优先级,若否,则进入下一步骤;根据所述已存档类似档案的初始相似度的最大值以及所述已存档类似档案的数量,并结合所述已存档类似档案的初始相似度的均值进行所述类似档案的存档相似度评估量的确定,并根据所述已存档类似档案的存档相似度评估量确定是否需要将所述待处理档案的处理优先级设置为第二处理优先级,若是,则确定所述待处理档案不属于二次筛选档案,并将所述待处理档案的处理优先级设置为第三处理优先级,若否,则进入下一步骤;根据所述已存档类似档案与所述待处理档案的字符数量进行所述已存档类似档案与所述待处理档案的字符相似度的确定,并根据所述字符相似度、初始相似度进行所述已存档类似档案的综合相似度的确定,通过所述已存档类似档案的综合相似度、数量以及所述已存档类似档案的综合相似度的最大值进行所述待处理档案的存档处理优先值的确定。10.如权利要求1所述的一种用于档案的智能分拣与归档管理方法,其特征在于,所述存档处理顺序的确定的方法为:当所述优先处理档案的存档优先度大于优先度设定值时,则通过所述优先处理档案的存档优先度进行所述优先处理档案的存档处理顺序的确定;当所述优先处理档案的存档优先度不大于优先度设定值时,则通过所述优先处理档案的存档复杂度进行所述优先处理档案的存档处理顺序的确定。11.一种计算机系统,包括:通信连接的存储器和处理器,以及存储在所述存储器上并能够在所述处理器上运行的计算机程序,其特征在于:所述处理器运行所述计算机程序时执行权利要求1-10任一项所述的一种用于档案的智能分拣与归档管理方法。12.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10任一项所述的一种用于档案的智能分拣与归档管理方法。

技术总结
本发明提供一种用于档案的智能分拣与归档管理方法与系统,属于档案管理技术领域,具体包括:将待存档处理的电子档案作为待处理档案,根据待处理档案的类似档案的相似度、数量以及类似档案的相似度的最大值确定相似度处理优先值,通过已存档类似档案的数量、初始相似度以及已存档类似档案的初始相似度的最大值确定存档处理优先值,根据所述二次筛选档案的存档处理优先值、页数、字符数量确定存档复杂度,根据存档复杂度、存储处理优先值、相似度处理优先值确定优先处理档案的存档优先度以及存档处理顺序,从而提升了档案的自动智能分检和差异化归档管理。检和差异化归档管理。检和差异化归档管理。


技术研发人员:梁尔真 郑望献 吴存锋 王园 楼新园 曹军 留巍 张嘉琳
受保护的技术使用者:浙江星汉信息技术股份有限公司
技术研发日:2023.08.07
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐