基于图像识别和图计算的风险群体识别方法和系统与流程

未命名 08-22 阅读:113 评论:0


1.本公开主要涉及风险控制技术领域,尤其涉及基于图像识别和图计算的风险群体识别方法和系统。


背景技术:

2.保险理赔、信贷业务申请延期、展期等操作中均会要求用户提供凭证材料作为佐证。然而,凭证材料种类繁杂并且来源于不同区域与机构,凭借人工识别难度极大。在信贷逾期以及通过非法方式骗取保险等场景中,往往出现凭证材料篡改/伪造的情况。识别异常材料的常规方式主要依赖人工专家审核、图片篡改识别、图片相似度判断等方式。随着对抗升级以及群体性行为方式的发生,人工经验逐渐失效。需要一种更有效的识别手段,该手段能够通过结合图像识别能力和图算法来实现快速异常发现与精准风险群体识别。
3.由此,期望提供一种改进的基于图像识别和图计算的风险群体识别方案。


技术实现要素:

4.以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在标识出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是以简化形式给出一个或多个方面的一些概念以作为稍后给出的更详细描述之序言。
5.本公开提出了一种基于图像识别和图计算的风险群体识别方法,包括:获取待检测材料的图像;从该图像中提取该待检测材料的出具方和模版;获取提取到的出具方的历史材料;确定该待检测材料的模版与该历史材料的模版是否相似;如果该待检测材料的模版与该历史材料的模版不相似,则构建该待检测材料的用户的关系图;以及对该关系图进行聚类以识别出风险群体。
6.在本公开的一实施例中,该方法还包括:在提取该待检测材料的出具方和模版之前,对该待检测材料进行初始分类。
7.在本公开的一实施例中,从该图像中提取该待检测材料的出具方和模版是通过光学字符识别(ocr)来执行的。
8.在本公开的一实施例中,获取提取到的出具方的历史材料包括以下至少一者:获取提取到的出具方的所有历史材料;或获取提取到的出具方在预定时间段内的历史材料。
9.在本公开的一实施例中,确定该待检测材料的模版与该历史材料的模版是否相似进一步包括:确定该待检测材料的模版与该历史材料的模版的相似度;如果该相似度满足预设阈值,则该待检测材料的模版与该历史材料的模版相似;以及如果该相似度不满足该预设阈值,则该待检测材料的模版与该历史材料的模版不相似。
10.在本公开的一实施例中,确定该待检测材料的模版与该历史材料的模版是否相似是基于深度学习来执行的。
11.在本公开的一实施例中,该方法进一步包括:对识别出的风险群体进行交叉审核。
12.在本公开的一实施例中,该模版包括该待检测材料的主体内容、公章、版式。
13.本公开还提出了一种基于图像识别和图计算的风险群体识别系统,包括:图像获取模块,获取待检测材料的图像;提取模块,从该图像中提取该待检测材料的出具方和模版;历史材料获取模块,获取提取到的出具方的历史材料;模版相似确定模块,确定该待检测材料的模版与该历史材料的模版是否相似;关系图构建模块,其被配置成:如果该待检测材料的模版与该历史材料的模版不相似,则构建该待检测材料的用户的关系图;以及风险群体识别模块,对该关系图进行聚类以识别出风险群体。
14.在本公开的一实施例中,该系统还包括初始分类模块,其被配置成:在提取该待检测材料的出具方和模版之前,对该待检测材料进行初始分类。
15.在本公开的一实施例中,该模版相似确定模块还被配置成:确定该待检测材料的模版与该历史材料的模版的相似度;如果该相似度满足预设阈值,则该待检测材料的模版与该历史材料的模版相似;以及如果该相似度不满足该预设阈值,则该待检测材料的模版与该历史材料的模版不相似。
16.在本公开的一实施例中,该系统还包括交叉审核模块,其被配置成对识别出的风险群体进行交叉审核。
17.本公开还提出了一种计算机可读存储介质,其存储计算机程序,该计算机程序能被处理器执行以执行前述基于图像识别和图计算的风险群体识别方法。
18.本公开的技术方案在风险控制场景中结合了基于深度学习的图像异常识别能力与图计算能力,大幅减少了识别风险群体的关系网规模,提高了计算效率并大幅减少存储与算力成本。同时,通过后置专家审核,同时发挥了机器学习的自动化识别能力与人工的交叉对比分析能力,进一步提高了风险群体的识别准确性。
附图说明
19.结合附图理解下面阐述的详细描述时,本公开的特征、本质和优点将变得更加明显。在附图中,相同附图标记始终作相应标识。要注意,所描述的附图只是示意性的并且是非限制性的。在附图中,一些部件的尺寸可放大并且出于解说性的目的不按比例绘制。
20.图1示出了本公开一实施例的基于图像识别和图计算的风险群体识别的系统示意图。
21.图2示出了本公开一实施例的基于图像识别和图计算的风险群体识别方法的示例性流程图。
22.图3示出了本公开一实施例的判断模版相似性的示例性过程。
23.图4示出了本公开一实施例的基于图像识别和图计算的风险群体识别架构。
24.图5示出了本公开一实施例的基于图像识别和图计算的风险群体识别系统的框图。
25.图6示出了本公开一实施例的包括基于图像识别和图计算的风险群体识别系统的设备框图。
具体实施方式
26.为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照
附图对本公开进一步详细说明。在以下详细描述中,阐述了许多具体细节以提供对所描述的示例性实施例的透彻理解。然而,对于本领域技术人员显而易见的是,可以在没有这些具体细节中的一些或全部的情况下实践所描述的实施例。在其它示例性实施例中,没有详细描述公知的结构,以避免不必要地模糊本公开的概念。应当理解,本文所描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。同时,在不冲突的情况下,实施例所描述的各个方面可以任意组合。
27.目前信贷、保险理赔等业务中对异常材料的识别方案主要分为三种:人工审核、基于图像信息的篡改识别、以及图像相似度判断。
28.对于人工审核,审核专家在审核过程中主要关注以下几类异常:(1)模版造假,用户通过ps或者网上下载模版修改后填写,而审核专家因为历史审核经验对材料模版非常熟悉,能够准确识别出图像模版不符合或者文字与正确字体不符合等风险;(2)关键诊断错误描述,审核专家熟悉各类医疗诊断及证明材料的描述方式,可识别出异常描述的材料;(3)公章识别,具有法律效应的公章具有特定的版式,审核专家可识别公章版式是否一致,并且在盖印过程中印章对文字的覆盖、印泥的模糊等都可作为异常特征被审核专家捕获。人工审核方式的缺点是完全依赖于审核专家的个人经验,而单个专家熟悉的模版库或公章等版式有限,精心处理过的图片往往无法被识别。
29.对于基于图像信息的篡改识别,exif(exchangeable image file format)是专门为数码相机照片设定的记录数码照片的属性信息和拍摄数据的信息。可以将exif附加于jpeg、tiff、riff等文件中,为其增加有关数码相机拍摄信息的内容和索引图或图像处理软件的版本信息。通过机器提取exif信息可以准确判断是否同一张图片或者是否经过图像处理软件修改。exif信息识别的缺点是该信息可被人工删除,稍有对抗性的场景下该识别方式就会失效。
30.对于图像相似度判断,通常使用卷积神经网络等深度学习方法判断图像是否存在拼接、移除、复制情况,或者使用传统图像对比方法来判断图像之间的交叉相似性。这种方式的识别自动化程度高,缺点是图像识别算法的机器成本大,并且需要大量预打标样本作为训练集。而材料造假作为一个小样本场景,往往不具备足够的负向样本用于训练。
31.本公开的技术方案结合了基于深度学习的图像异常识别能力与图计算能力,提高了计算效率并大幅减少存储与算力成本。
32.图1示出了本公开一实施例的基于图像识别和图计算的风险群体识别的系统示意图100。
33.如图所示,在开始风险群体识别之后,可以首先进行图像分类。
34.在本公开的一实施例中,系统可以接收用户提交的待检测材料,并基于用户交互界面的结构化信息对用户提交的材料进行分类。例如,待检测材料可以被分类为医疗凭证(出院小结、诊断证明)、贫困证明、伤残鉴定书等等。在具体实现中,还可以根据实际情况设置其他材料类别。
35.随后,可以对经分类的材料进行光学字符识别(ocr)。具体而言,可以通过噪声去除、倾斜矫正、版面分析、字符识别等动作来对材料进行文字信息处理。通过ocr识别,可以提取出材料信息,主要包括材料的出具方(例如,诊断证明的就诊医院)、主要描述内容、公章、版式等等。
36.在提取出材料信息之后,可以按材料出具方获取同一出具方的历史材料。在一些实现中,可以获取(例如,通过检索数据库)同一出具方出具的所有相同类别的历史材料。在其他实现中,可以获取同一出具方在特定时间段内出具的相同类别的历史材料。举例而言,可以获取同一就诊医院在过去一个月内出具的所有诊断证明。
37.如果根据模版相似性判断确认待检测材料与历史材料的模版差异性较大,则可以将该材料视为异常材料。随后可以以异常材料的提交用户为节点,以该提交用户与其他用户的关系为边构建关系图。
38.关于异常材料识别,传统的方式是通过有监督学习进行识别,通过人工标注材料中正确的模版来识别出偏差度较大的材料。这种方式需要人工预打标,而业务实际操作中并不知晓材料的正确模版是什么样的,从而无法进行预打标。由此,本公开的异常材料识别方式有效克服了现有技术的缺陷。
39.由于材料造假成本高,理赔、展期等申请的单笔金额相对较低,较高金额的理赔或者展期会触发线下查勘,因此现实中会出现不同身份的多案件、同模版多材料的情况。而材料提交者往往存在多种类型的关联关系。将与大部分材料模版相似度偏差较大的材料挑选出来,以异常材料的提交者为种子节点来寻找同场景下的关联用户,并以用户间的关系为边构建关系图,这种操作流程逆向还原了现实世界中的群体行为模式,极大提高了识别准确性。
40.在构建关系图之后,可以使用无监督学习聚类算法从关系图中寻找风险群体。
41.传统的基于关系聚类的方法在进行群体识别时,由于客观上有大量正常用户存在关联,因此很难直接识别出风险群体。而本公开的技术方案大大缩小了关系网络规模,合理控制了计算资源并提高了效率。
42.最后,还可以将识别出的风险群体交付人工审核专家进行交叉审核,必要时使用线下勘查鉴别真伪。
43.将人工专家审核后置到机器审核判断之后,能够充分利用人工专家交叉对比分析的专业能力,从而进一步提高识别准确性。
44.图2示出了本公开一实施例的基于图像识别和图计算的风险群体识别方法200的示例性流程图。
45.方法200开始于步骤202。在步骤202,获取待检测材料的图像。
46.在一些实现中,可以通过图像捕捉设备(诸如相机、摄像头等等)获取待检测材料的图像。例如,可以提示待检测材料的提交者将待检测材料置于特定位置或范围内,以供图像捕捉设备获取图像。
47.在另外一些实现中,可以通过交互界面提示用户上传待检测材料的图像。同时,可以要求用户上传的图像符合一定要求,比如关于图像大小、清晰度等的要求。在一些实施例中,还可以对用户上传的材料进行图像预处理,例如裁剪、缩放、亮度校正等等。
48.在医疗凭证场景中,待检测的材料例如可以包括出院小结、诊断证明等等。
49.在步骤204,从该图像中提取该待检测材料的出具方和模版。
50.例如,诊断证明的出具方可以是特定的医院,模版可以是该医院的诊断证明所使用的版式、医院公章、以及诊断证明的主要描述内容等等。应注意,不同的材料出具方可以使用不同的模版。例如,不同医院开具的诊断证明可以使用不同的版式和不同的描述内容,
并且盖有不同的公章。
51.可任选地,在步骤204之前,可以对待检测材料进行初始分类。例如,待检测材料可以被分类为医疗凭证、贫困证明、伤残鉴定书等等。例如,可以根据材料提交者给出的分类提示来进行初始分类。替换地,也可以根据待检测材料的内容来进行初始分类。举例而言,在步骤204之前可以将待检测材料初始分类为医疗凭证。而在通过步骤204提取出材料的出具方和模版之后,可以通过模版中的信息(例如,主要描述内容)获知材料的具体分类为医疗凭证中的诊断证明。
52.在步骤206,获取提取到的出具方的历史材料。
53.在确定待检测材料的出具方之后,可以找出与该待检测材料具有同一出具方的历史材料。
54.例如,在确定开具诊断证明的医院之后,可以找出该医院开具的历史诊断证明。
55.在本公开的实施例中,获取提取到的出具方的历史材料包括以下至少一者:获取提取到的出具方的所有历史材料;或获取提取到的出具方在预定时间段内的历史材料。例如,可以获取开具待检测诊断证明的医院的所有历史诊断证明,或者可以获取开具待检测诊断证明的医院在特定时间段内的所有历史诊断证明。在一些情况下,如果医院使用的诊断证明模版曾经有过改动,则可以获取与待检测诊断证明具有相同模版的历史诊断证明。
56.在步骤208,确定该待检测材料的模版与该历史材料的模版是否相似。
57.在本公开的一实施例中,确定该待检测材料的模版与该历史材料的模版是否相似进一步包括:确定该待检测材料的模版与该历史材料的模版的相似度;如果该相似度满足预设阈值,则该待检测材料的模版与该历史材料的模版相似;以及如果该相似度不满足该预设阈值,则该待检测材料的模版与该历史材料的模版不相似。
58.关于模版相似性判断的详细过程将在下文结合图3进行进一步描述。
59.在步骤210,如果该待检测材料的模版与该历史材料的模版不相似,则构建该待检测材料的用户的关系图。
60.如果待检测材料的模版与历史材料的模版不相似,则说明待检测材料与大部分历史材料的偏差较大,由此可以将待检测材料视为异常材料(即,很可能是经过篡改或伪造的材料)。对于异常材料,可以找到提交该材料的用户,并基于该用户的关系网来构建关系图。构建关系图实质上是在逆向还原现实世界中的群体行为模式。而群体中的各个用户之间往往存在多种类型的关联关系(例如,资金往来关系、劳务关系、亲属关系等等)。
61.最后,在步骤212,对该关系图进行聚类以识别出风险群体。
62.聚类(clustering)是指按照某个特定标准(例如,距离)将一个数据集分割成不同的类或簇,使得同一簇内的数据的相似性尽可能大,而不同簇中的数据的差异性也尽可能大。常见的聚类算法包括k均值聚类、均值漂移聚类、dbscan聚类、层次聚类等等。关于聚类算法在机器学习领域是众所周知的,在此不再赘述。
63.需要注意的是,传统的基于关系聚类的算法在进行群体识别时,由于客观上有大量正常用户(即,提交正常材料的用户)存在关联,因此很难直接识别出风险群体。相比之下,本公开的技术方案大大缩小了关系网规模,节约了计算资源。
64.可任选地,在识别出风险群体之后,可以对识别出的风险群体进行交叉审核(例如,人工审核)。通过将人工专家审核后置到机器审核判断之后,可以充分利用人工专家交
叉对比分析的专业能力,进一步提高风险群体识别的准确性和可靠性。
65.图3示出了本公开一实施例的判断模版相似性的示例性过程300。
66.如图3所示,在确定待检测材料的出具方之后,可以找出该出具方的历史材料。由此,可以获得待检测材料的模版和历史材料的模版。
67.在获得待检测材料的模版和历史材料的模版之后,可以对两者进行模版相似性判断。
68.在具体实现中,可以采用各种不同方式来判断模版相似性。为了便于解说,图3中示出了两种判断模版相似性的方式。
69.在第一种方式中,首先确定待检测材料的模版和历史材料的模版的相似度(例如,距离相似度、余弦相似度等等)。之后将所确定的相似度与预设的相似度阈值进行比较。如果所确定的相似度小于相似度阈值,则说明待检测材料与历史材料的相似程度较低,此时可以认为两者的模版不相似。反之,如果所确定的相似度大于或等于相似度阈值,则说明待检测材料与历史材料的相似程度较高,此时可以认为两者的模版相似。
70.在第二种方式中,首先确定待检测材料的模版和历史材料的模版的偏离度。之后将所确定的偏离度与预设的偏离度阈值进行比较。如果所确定的偏离度小于偏离度阈值,则说明待检测材料与历史材料的偏差程度较低,此时可以认为两者的模版相似。反之,如果所确定的偏离度大于或等于偏离度阈值,则说明待检测材料与历史材料的偏差程度较高,此时可以认为两者的模版不相似。
71.最后,可以输出判断结果。
72.应注意,虽然图3中示出了判断模版相似性的两种方式,但本公开不限于此。在实际实现中,本领域技术人员可以根据实际需求采用不同的方式来判断模版相似性。
73.图4示出了本公开一实施例的基于图像识别和图计算的风险群体识别架构400。
74.如图4所示,本公开的风险群体识别架构400包括图像获取阶段、信息提取阶段、历史材料获取阶段、模版相似确定阶段、关系图构建阶段、以及群体识别阶段。
75.在图像获取阶段,可以获取待检测材料的图像。
76.例如,用户可以提交待检测材料。随后可以基于所提交的材料获取该材料的图像。如上文所述,可以由图像捕捉设备捕捉材料图像,也可以由用户通过交互界面上传材料图像。
77.在信息提取阶段,可以从图像中提取待检测材料的出具方和模版。
78.具体而言,可以通过光学字符识别(optical character recognition,ocr)来提取图像中的信息。
79.ocr是指对文本资料的图像进行分析识别处理、获取文字及版面信息的过程。常规的ocr技术包括图像预处理、文字检测、文本识别等步骤。图像预处理通常是针对图像的成像问题进行修正。常见的预处理几何变换、畸变校正、去除模糊、图像增强和光线校正等。文字检测主要检测文本的所在位置和范围及其布局,通常也包括版面分析和文字行检测等。文字检测主要解决的问题是哪里有文字,文字的范围有多大。文本识别是在文本检测的基础上对文本内容进行识别,并转化为文本信息。识别出的文本通常需要再次核对以保证其正确性。
80.关于ocr技术在机器学习领域是众所周知的,在此不再赘述。
81.可任选地,在提取待检测材料的出具方和模版之前,还可以对待检测材料进行初始分类(图中未示出)。
82.随后,在历史材料获取阶段,可以获取提取到的材料出具方的历史材料。
83.接着,在模版相似确定阶段,可以判断待检测材料与历史材料的模版相似性。
84.如果待检测材料与历史材料的模版相似,则说明待检测材料是正常材料(即,未经篡改或伪造的材料)。
85.如果待检测材料与历史材料的模版不相似,则说明待检测材料是异常材料(即,很可能是经过篡改或伪造的材料)。此时可以进入关系图构建阶段,在该阶段中,可以基于提交异常材料的用户以及该用户与其他用户的关系来构建关系图。
86.之后,在群体识别阶段,可以对关系图进行聚类以识别出风险群体。
87.可任选地,在识别出风险群体之后,还可以将该风险群体交付人工审核专家进行交叉审核(图中未示出),由此可以进一步提高风险群体识别的准确性。
88.最后可以输出风险群体识别结果。
89.虽然图4示出了风险群体识别架构的特定阶段,但应注意,该阶段划分仅是示例性的而非限制性的。
90.图5示出了本公开一实施例的基于图像识别和图计算的风险群体识别系统500的框图。
91.参见图5,系统500可以包括图像获取模块502、提取模块504、历史材料获取模块506、模版相似确定模块508、关系图构建模块510、以及风险群体识别模块512。这些模块中的每一者可在一条或多条总线514上直接或间接地彼此连接或通信。
92.图像获取模块502可以获取待检测材料的图像。
93.提取模块504可以从图像中提取待检测材料的出具方和模版。
94.在本公开的一实施例中,从图像中提取待检测材料的出具方和模版是通过光学字符识别(ocr)来执行的。
95.在本公开的一实施例中,模版包括待检测材料的主体内容、公章、版式。
96.历史材料获取模块506可以获取提取到的出具方的历史材料。
97.在本公开的一实施例中,获取提取到的出具方的历史材料包括以下至少一者:获取提取到的出具方的所有历史材料;或获取提取到的出具方在预定时间段内的历史材料。
98.模版相似确定模块508可以确定待检测材料的模版与历史材料的模版是否相似。
99.在本公开的一实施例中,模版相似确定模块508还可以被配置成:确定待检测材料的模版与历史材料的模版的相似度;如果相似度满足预设阈值,则待检测材料的模版与历史材料的模版相似;以及如果相似度不满足预设阈值,则待检测材料的模版与历史材料的模版不相似。
100.关系图构建模块510可以被配置成:如果待检测材料的模版与历史材料的模版不相似,则构建待检测材料的用户的关系图。
101.风险群体识别模块512可以对关系图进行聚类以识别出风险群体。
102.虽然图5中示出了系统500的特定模块,但应理解,这些模块仅是示例性的而非限制性的。在不同的实现中,可以组合、拆分、移除这些模块中的一个或多个模块,或者添加另外的模块。例如,在一些实现中,图像获取模块502和提取模块504可以被合并成单个模块。
在一些实现中,系统500还可以包括附加的模块。例如,系统500还可以包括初始分类模块(未示出),其被配置成:在提取待检测材料的出具方和模版之前,对该待检测材料进行初始分类。在又一些实现中,系统500还可以包括交叉审核模块,其被配置成对识别出的风险群体进行交叉审核。
103.图6示出了本公开一实施例的包括基于图像识别和图计算的风险群体识别系统的设备600的框图。
104.该设备示出了一般硬件环境,可在其中根据本公开的示例性实施例应用本公开。
105.现在将参照图6描述设备600,其是可以应用于本公开的各方面的硬件设备的示例性实施例。设备600可以是被配置为执行处理和/或计算的任何机器,可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理(pda)、智能电话、或其任何组合。
106.设备600可包括可以经由一个或多个接口与总线612连接或与总线612通信的组件。例如,设备600可包括总线612、处理器602、存储器604、输入设备608、以及输出设备610等等。
107.处理器602可以是任何类型的处理器,并且可包括但不限于通用处理器和/或专用处理器(例如特殊处理芯片)、智能硬件设备(例如,通用处理器、dsp、cpu、微控制器、asic、fpga、可编程逻辑器件、分立的门或晶体管逻辑组件、分立的硬件组件、或其任何组合)。在一些情形中,处理器602可被配置成使用存储器控制器来操作存储器阵列。在其它情形中,存储器控制器(未示出)可被集成到处理器602中。处理器602可以负责管理总线和一般性处理,包括执行存储在存储器上的软件。处理器602还可以被配置成执行本文中所描述的与基于图像识别和图计算的风险群体识别相关的各种功能。例如,处理器602可被配置成:获取待检测材料的图像;从该图像中提取该待检测材料的出具方和模版;获取提取到的出具方的历史材料;确定该待检测材料的模版与该历史材料的模版是否相似;如果该待检测材料的模版与该历史材料的模版不相似,则构建该待检测材料的用户的关系图;以及对该关系图进行聚类以识别出风险群体。
108.存储器604可以是可实现数据存储的任何存储设备。存储器604可包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、软盘、硬盘、磁带或任何其它磁介质、光盘或任何其它光学介质、rom(只读存储器)、ram(随机存取存储器)、高速缓冲存储器和/或任何其它存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其它介质。存储器604可存储包括计算机可读指令的计算机可执行软件606,这些指令在被执行时使得处理器执行本文中所描述的与基于图像识别和图计算的风险群体识别相关的各种功能。
109.输入设备608可以是可以用于输入信息的任何类型的设备。
110.输出设备610可以是用于输出信息的任何类型的设备。在一种情形中,输出设备610可以是可显示信息的任何类型的输出设备。
111.本公开的技术方案以材料异常识别为起点,叠加用户行为和关系结构的挖掘,能够完整还原风险群体的行为模式,很好地组合了图像深度学习的异常挖掘能力与关系结构的行为刻画能力。同时,技术方案具有较强的鲁棒性,因为方案兼顾图像异常判断及关系判断能力,并且以群体性质予以处置,使得风险群体无法单点感知防控策略,故能够减少风控对抗性。此外,本公开的技术方案能够大幅缩减关系网规模以及图计算的存储和算力成本。
112.以上结合附图阐述的详细说明描述了示例而不代表可被实现或者落在权利要求的范围内的所有示例。术语“示例”和“示例性”在本说明书中使用时意指“用作示例、实例或解说”,并不意指“优于或胜过其它示例”。
113.贯穿本说明书引述的“一个实施例”或“一实施例”意指结合该实施例描述的特定特征、结构或特性是包含在本公开的至少一个实施例中的。因此,这些短语的使用可以不仅仅指代一个实施例。此外,所描述的特征,结构或特性可以在一个或多个实施例中以任何合适的方式组合。
114.提供之前的描述是为了使本领域任何技术人员均能够实践本文中所描述的各种方面。对这些方面的各种修改将容易为本领域技术人员所明白,并且在本文中所定义的普适原理可被应用于其它方面。因此,权利要求并非旨在被限定于本文中所示的方面,而是应被授予与语言上的权利要求相一致的全部范围,其中对要素的单数形式的引述除非特别声明,否则并非旨在表示“有且仅有一个”,而是“一个或多个”。除非特别另外声明,否则术语“一些”指的是一个或多个。本公开通篇描述的各个方面的要素为本领域普通技术人员当前或今后所知的所有结构上和功能上的等效方案通过引述被明确纳入于此,且旨在被权利要求所涵盖。
115.还应注意,这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程,但是这些操作中有许多操作能够并行或并发地执行。另外,这些操作的次序可被重新安排。
116.虽然已经说明和描述了各种实施例,但是应该理解,实施例不限于上述精确配置和组件。可以在本文公开的设备的布置、操作和细节上作出对本领域技术人员显而易见的各种修改、替换和改进而不脱离权利要求的范围。

技术特征:
1.一种基于图像识别和图计算的风险群体识别方法,包括:获取待检测材料的图像;从所述图像中提取所述待检测材料的出具方和模版;获取提取到的出具方的历史材料;确定所述待检测材料的模版与所述历史材料的模版是否相似;如果所述待检测材料的模版与所述历史材料的模版不相似,则构建所述待检测材料的用户的关系图;以及对所述关系图进行聚类以识别出风险群体。2.如权利要求1所述的方法,还包括:在提取所述待检测材料的出具方和模版之前,对所述待检测材料进行初始分类。3.如权利要求1所述的方法,从所述图像中提取所述待检测材料的出具方和模版是通过光学字符识别(ocr)来执行的。4.如权利要求1所述的方法,获取提取到的出具方的历史材料包括以下至少一者:获取提取到的出具方的所有历史材料;或获取提取到的出具方在预定时间段内的历史材料。5.如权利要求1所述的方法,确定所述待检测材料的模版与所述历史材料的模版是否相似进一步包括:确定所述待检测材料的模版与所述历史材料的模版的相似度;如果所述相似度满足预设阈值,则所述待检测材料的模版与所述历史材料的模版相似;以及如果所述相似度不满足所述预设阈值,则所述待检测材料的模版与所述历史材料的模版不相似。6.如权利要求1所述的方法,确定所述待检测材料的模版与所述历史材料的模版是否相似是基于深度学习来执行的。7.如权利要求1所述的方法,进一步包括:对识别出的风险群体进行交叉审核。8.如权利要求1所述的方法,所述模版包括所述待检测材料的主体内容、公章、版式。9.一种基于图像识别和图计算的风险群体识别系统,包括:图像获取模块,获取待检测材料的图像;提取模块,从所述图像中提取所述待检测材料的出具方和模版;历史材料获取模块,获取提取到的出具方的历史材料;模版相似确定模块,确定所述待检测材料的模版与所述历史材料的模版是否相似;关系图构建模块,其被配置成:如果所述待检测材料的模版与所述历史材料的模版不相似,则构建所述待检测材料的用户的关系图;以及风险群体识别模块,对所述关系图进行聚类以识别出风险群体。10.如权利要求9所述的系统,还包括初始分类模块,其被配置成:在提取所述待检测材料的出具方和模版之前,对所述待检测材料进行初始分类。11.如权利要求9所述的系统,所述模版相似确定模块还被配置成:确定所述待检测材料的模版与所述历史材料的模版的相似度;如果所述相似度满足预设阈值,则所述待检测材料的模版与所述历史材料的模版相
似;以及如果所述相似度不满足所述预设阈值,则所述待检测材料的模版与所述历史材料的模版不相似。12.如权利要求9所述的系统,进一步包括交叉审核模块,其被配置成对识别出的风险群体进行交叉审核。13.一种计算机可读存储介质,其存储计算机程序,所述计算机程序能被处理器执行以执行如权利要求1-8中任一项所述的方法。

技术总结
公开了一种基于图像识别和图计算的风险群体识别方法,该方法包括:获取待检测材料的图像;从该图像中提取该待检测材料的出具方和模版;获取提取到的出具方的历史材料;确定该待检测材料的模版与该历史材料的模版是否相似;如果该待检测材料的模版与该历史材料的模版不相似,则构建该待检测材料的用户的关系图;以及对该关系图进行聚类以识别出风险群体。还公开了基于图像识别和图计算的风险群体识别系统和计算机可读存储介质。识别系统和计算机可读存储介质。识别系统和计算机可读存储介质。


技术研发人员:杜用
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.06.06
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐