一种基于OCR识别的印章真伪鉴别方法及系统
未命名
09-22
阅读:55
评论:0

一种基于ocr识别的印章真伪鉴别方法及系统
技术领域
1.本发明涉及图像处理及印章识别技术领域,具体涉及一种基于ocr识别的印章真伪鉴别方法及系统。
背景技术:
2.印章又被称为图章,是用作印于文件上表示鉴定或签署的证明。一般印章都会先沾上颜料再印上,如果不沾颜料、印上平面后呈现凹凸的称为钢印。在合同文件、奖状、授权文书等含有印章的文件中,印章鉴别是其中一项重要的鉴别手段,通过对印章真伪的鉴别进一步判断材料的真实性,一旦鉴别失误则会造成较大的损失。
3.现有的印章鉴别方式由于缺乏先进的数字工具,其图像识别与印章鉴定技术靠的是一种眼学,一般是权威专家凭借经验、以及特定的审核员通过肉眼进行鉴别,依据肉眼所能观测到的细节(如图像光照与透视状况、边缘过渡痕迹、图像吻合程度等)进行分析判别。这种方法有着较强的主观性,甚至鉴别者、审核员的情绪波动都可能对鉴别结果产生影响。而且既然是人工鉴别,就难免会出现鉴别失误的情况。因此,单纯的人工鉴别方法存在效率低和准确率低等问题。
4.随着篡改伪造技术的发展,其所用的工具科技含量越来越高,因此印章真伪差异也越发细微,使得传统图像识别技术无力以对。为此,现有技术中有方案根据印章的轮廓特征进行识别,利用矩特征或链码对印章进行描述。但在实际情况中,印章轮廓往往存在缺损、显示不完全等情况,导致基于全局轮廓描述的识别算法效果不佳,进而导致印章鉴别的准确性偏低。此外,现今还有方案利用神经网络来识别印章,但神经网络样本依赖性强、训练过程费时费力且难以保证识别准确性,这导致印章鉴别的实用性不好。因此,如何设计一种能够提高印章鉴别准确性和实用性的方法是亟需解决的技术问题。
技术实现要素:
5.针对现有技术的上述不足,本发明所要解决的技术问题是:如何提供一种基于ocr识别的印章真伪鉴别方法,通过印章图像的图案特征和文字特征准确匹配印章参照图像,并通过计算与印章参照图像的图像相似度来有效判断目标印章图像的真实性,从而提高印章鉴别的准确性和实用性,进而为印章真伪鉴别提供一种新的思路。
6.为了解决上述技术问题,本发明采用了如下的技术方案:
7.一种基于ocr识别的印章真伪鉴别方法,包括:
8.s1:获取待鉴别的目标印章图像;
9.s2:定位目标印章图像的印章图案,通过特征提取算法提取对应的印章图案特征;
10.s3:对目标印章图像进行ocr预处理,通过ocr识别提取对应的印章文字特征;
11.s4:根据目标印章图像的印章图案特征和印章文字特征匹配对应的印章参照图像;
12.s5:计算目标印章图像与印章参照图像的图像相似度,进而根据图像相似度判断
目标印章图像的真实性,以实现印章真伪鉴别。
13.优选的,通过如下步骤定位目标印章图像的印章图案:
14.s201:将目标印章图像转换为his格式的his印章图像;
15.s202:对his印章图像进行颜色处理,以增强his印章图像的印章颜色分量;
16.s203:将颜色处理后的his印章图像转换成rgb格式的rgb印章图像;
17.s204:定位rgb印章图像中的印章颜色分量,以实现印章图案的定位。
18.优选的,通过基于zernike矩的特征提取算法提取目标印章图像的印章图案特征。
19.优选的,ocr预处理包括二值化处理和降噪处理。
20.优选的,通过如下步骤提取印章文字特征:
21.s301:对ocr预处理后的目标印章图像进行文字区域检测,提取对应的文字区域;
22.s302:对文字区域进行文字校正处理,进而提取每个文字区域的感兴趣区域;
23.s303:根据文字区域的感兴趣区域对其进行特征提取,得到文字区域特征;然后对文字区域特征进行识别,得到对应的印章文字结果;
24.s304:对印章文字结果进行特征提取,得到对应的印章文字特征。
25.优选的,文字校正处理包括:首先对文字区域进行倾斜旋转、投影裁剪和透视变换的文字校正,然后对文字校正后的文字区域进行形变、裂缝、笔画断裂的文字修复。
26.优选的,通过如下步骤匹配印章参照图像:
27.s401:将目标印章图像的印章图案特征和印章文字特征作为印章关键特征;
28.s402:对预设的印章模板图像进行特征提取,得到与印章关键特征相对应的模板对比特征;
29.s403:计算每个印章模板图像的模板对比特征和目标印章图像的印章关键特征的特征相似度,并得到特征相似度最高的印章目标图像;
30.s404:将特征相似度最高的印章目标图像作为目标印章图像的印章参照图像。
31.优选的,通过如下公式计算特征相似度:
[0032][0033]
式中:cosθ表示特征相似度,xi和yi分别表示模板对比特征和印章关键特征,n表示模板对比特征和印章关键特征的特征向量长度。
[0034]
优选的,通过如下公式计算图像相似度:
[0035][0036]
式中:ncc(x,y)表示图像相似度;y表示印章参照图;i表示目标印章图像;(x,y)表示目标印章图像i中的位置;h和w分别为印章参照图的高度和宽度;t(i,j)和i(x+i-1,y+j-1)分别表示印章参照图和目标印章图像的像素值;和分别表示印章参照图和目标印章图像的平均像素值。
[0037]
本发明还公开了一种基于ocr识别的印章真伪鉴别系统,基于本发明的印章真伪鉴别方法实施,包括:
[0038]
印章数据库模块,用于存储印章模板图像;
[0039]
图像采集模块,用于采集待鉴别的目标印章图像;
[0040]
特征提取模块,用于定位目标印章图像的印章图案,并提取对应的印章图案特征;
[0041]
ocr识别模块,用于对目标印章图像进行ocr预处理,并提取对应的印章文字特征;
[0042]
印章查询模块,用于根据目标印章图像的印章图案特征和印章文字特征匹配对应的印章参照图像;
[0043]
印章对比模块,用于计算目标印章图像与印章参照图像的图像相似度;
[0044]
真伪鉴别模块,用于根据图像相似度判断目标印章图像的真实性,以实现印章真伪鉴别。
[0045]
本发明中基于ocr识别的印章真伪鉴别方法及系统与现有技术相比,具有如下有益效果:
[0046]
本发明首先提取目标印章图像的印章图案特征和印章文字特征,然后根据图案特征和文字特征匹配对应的印章参照图像,最后根据目标印章图像和印章参照图像的图像相似度来判断印章图像中印章的真实性,以实现印章真伪鉴别。
[0047]
一方面,本发明通过目标印章图像的印章图案特征和印章文字特征来匹配印章参照图像,其中印章图案特征和印章文字特征能够分别从印章整体形状和印章文字内容两个方面反映印章的特点,能够有效保证印章参照图像匹配的精度,有利于后续更好地判断目标印章图像的真实性(即实现真伪鉴别),从而提高印章真伪鉴别的准确性。另一方面,本发明在准确匹配印章参照图像的基础上,通过计算目标印章图像与印章参照图像的图像相似度来判断目标印章图像的真实性,其中图像相似度能够准确、高效地反映目标印章图像与印章参照图像(印章模板)的相似性,进而有利于更好地判断目标印章图像的真实性(即实现真伪鉴别),从而提高印章真伪鉴别的实用性。
[0048]
本发明在提取印章图案特征之前,先定位目标印章图像的印章图案,通过定位印章图案能够保证后续印章图案特征提取的准确性,缩短特征提取和后续图像处理的时间,从而提高特征提取和印章真伪鉴别的效率和精度。同时,本发明在提取印章文字特征之前,先对目标印章图像进行ocr预处理,通过ocr预处理能够保证后续印章文字特征提取的准确性,降低目标印章图像的数据量和复杂度,进而缩短ocr识别的时间,从而能够进一步提高印章真伪鉴别的效率和精度。本发明采用ocr识别提取印章文字特征,其中ocr识别技术具备较高的准确性和精度,可以识别出印章中不同字体、大小、颜色和排列方式的文字,并将其精确提取出来,从而保证印章文字特征提取的准确性。
附图说明
[0049]
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
[0050]
图1为基于ocr识别的印章真伪鉴别方法的逻辑框图;
[0051]
图2为基于ocr识别的印章真伪鉴别系统的系统框架图。
具体实施方式
[0052]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是
本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件能够以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
[0053]
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。例如“水平”仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0054]
下面通过具体实施方式进一步详细的说明:
[0055]
实施例一:
[0056]
本实施例中公开了一种基于ocr识别的印章真伪鉴别方法。
[0057]
如图1所示,基于ocr识别的印章真伪鉴别方法,包括:
[0058]
s1:获取待鉴别的目标印章图像;
[0059]
本实施例中,目标印章图像是指含有印章图案的图像。
[0060]
s2:定位目标印章图像的印章图案,通过特征提取算法提取对应的印章图案特征;
[0061]
s3:对目标印章图像进行ocr预处理,通过ocr识别提取对应的印章文字特征;
[0062]
本实施例中,所述的ocr(optical character recognition,光学字符识别)技术是一种将图像中的文本内容转换为可编辑和可搜索的字符文本的技术。它通过对图像进行分析和处理来将其中的文字信息提取出来,并转换为计算机可识别和处理的文本形式。
[0063]
s4:根据目标印章图像的印章图案特征和印章文字特征匹配对应的印章参照图像;
[0064]
本实施例中,预先通过印章数据库存储有所需所有的印章模板图像。实际应用时,从印章数据库中匹配对应的印章模板图像来作为目标印章图像的印章参照图像。
[0065]
s5:计算目标印章图像与印章参照图像的图像相似度,进而根据图像相似度判断目标印章图像的真实性,以实现印章真伪鉴别。
[0066]
本实施例中,将图像相似度的阈值设置为95%,即:图像相似度小于90%,则目标印章图像为不可信,即不真实;图像相似度大于或等于90%且小于95%,则目标印章图像为基本可信;图像相似度大于95%,则目标印章图像为绝对可信,即真实。在测试时,印章识别
的准确度在90%-95%之间波动时的测试结果良好,准确率较高。表1显示了ocr印章对比识别的准确度。
[0067]
表1ocr印章对比识别的准确度
[0068][0069]
本发明首先提取目标印章图像的印章图案特征和印章文字特征,然后根据图案特征和文字特征匹配对应的印章参照图像,最后根据目标印章图像和印章参照图像的图像相似度来判断印章图像中印章的真实性,以实现印章真伪鉴别。一方面,本发明通过目标印章图像的印章图案特征和印章文字特征来匹配印章参照图像,其中印章图案特征和印章文字特征能够分别从印章整体形状和印章文字内容两个方面反映印章的特点,能够有效保证印章参照图像匹配的精度,有利于后续更好地判断目标印章图像的真实性(即实现真伪鉴别),从而提高印章真伪鉴别的准确性。另一方面,本发明在准确匹配印章参照图像的基础上,通过计算目标印章图像与印章参照图像的图像相似度来判断目标印章图像的真实性,其中图像相似度能够准确、高效地反映目标印章图像与印章参照图像(印章模板)的相似性,进而有利于更好地判断目标印章图像的真实性(即实现真伪鉴别),从而提高印章真伪鉴别的实用性,进而为印章真伪鉴别提供一种新的思路。
[0070]
本发明在提取印章图案特征之前,先定位目标印章图像的印章图案,通过定位印章图案能够保证后续印章图案特征提取的准确性,缩短特征提取和后续图像处理的时间,从而提高特征提取和印章真伪鉴别的效率和精度。同时,本发明在提取印章文字特征之前,先对目标印章图像进行ocr预处理,通过ocr预处理能够保证后续印章文字特征提取的准确性,降低目标印章图像的数据量和复杂度,进而缩短ocr识别的时间,从而能够进一步提高印章真伪鉴别的效率和精度。本发明采用ocr识别提取印章文字特征,其中ocr识别技术具备较高的准确性和精度,可以识别出印章中不同字体、大小、颜色和排列方式的文字,并将其精确提取出来,从而保证印章文字特征提取的准确性。
[0071]
具体实施过程中,通过hsi(huesatrationntenst)模型定位目标印章图像的印章图案。
[0072]
如今图像检测定位常用的色彩空间模型主要是rgb和hsi等色彩空间模型。对于印章图像的检测定位,根据印章大多数为红色这一特点进行检测,采用hsi色彩空间模型进行检测。hsi模型是指色相、饱和度和强度模型,也称作hsb(色相、饱和度和亮度)模型。它是一种基于颜色感知的颜色表示方法,通常用于图像处理和计算机视觉领域。hsi模型将颜色分解为三个独立的通道:色相(hue)、饱和度(saturation)和强度(intensity)。色相表示颜色的种类,饱和度表示颜色的纯度或浓淡程度,强度则表示颜色的亮度。在该hsi模型中,每个通道的值都在0到1之间。本发明主要是把图像从rgb三色空间转变到hsi空间再进行图像增强。
[0073]
具体的,通过如下步骤定位目标印章图像的印章图案:
[0074]
s201:将(rgb格式的)目标印章图像转换为his格式的his印章图像;
[0075]
本实施例中,目标印章图像为rgb图像。rgb模型向hsi模型的转换是由基于笛卡尔直角坐标系的单位立体向基于圆柱极坐标的双锥体的转换,转换模型和公式表述为:
[0076][0077][0078][0079]
s202:对his印章图像进行颜色处理,以增强his印章图像的印章颜色(红色)分量;
[0080]
本实施例中,可以使用hsi模型来调整图像的颜色平衡、增强图像的对比度等。
[0081]
s203:将颜色处理后的his印章图像转换成rgb格式的rgb印章图像;
[0082]
本实施例中,采用与步骤s201中相反的转换公式。
[0083]
s204:定位rgb印章图像中的印章颜色(红色)分量,以实现印章图案的定位。通过hsi模型定位印章图案后,可能存在一些噪音以及部分文字不完整的情况,通过图像形态学处理去除目标印章图像中的噪声并恢复原有字迹。图像形态学处理是一种现有成熟手段,其用于消除噪声,并在图像中连接彼此相邻的元素。
[0084]
本实施例中,印章颜色分量为红色分量。为了更好地提取出红色分量,需要将色调的阈值设定为3π/2~2π,将饱和度阈值设定为0.15~0.85。
[0085]
本发明采用hsi模型进行印章定位,通过定位印章图案能够保证后续印章图案特征提取的准确性,缩短特征提取和后续图像处理的时间,从而提高特征提取和印章真伪鉴别的效率和精度。同时,hsi模型更接近人类的颜色感知机制,在该模型上进行颜色处理比在rgb模型上更为准确和直观。对于彩色的目标印章图像,在印章图像增强的过程中容易因为颜色偏移产生失真现象,因此通过rgb空间到hsi的空间转换可以很好地避开三色的缺陷,更好地分离出印章图像亮度和红色分量,而对红色分量地增强操作也不会影响印章的信息,从而很好地避开了提取时印章红色的失真问题,能够保证印章真伪鉴别的精度。
[0086]
具体实施过程中,通过基于zernike矩的特征提取算法提取目标印章图像的印章图案特征。基于zernike矩的特征提取算法是一种常用的图像特征提取方法,它通过计算图像的zernike矩来描述图像的形状、纹理等特征。具体而言,zernike矩是一种基于正交多项式的图像描述符,可以用来表示图像的几何形状和轮廓。它具有旋转、尺度和平移不变性,因此在图像匹配、分类和识别任务中具有广泛的应用。
[0087]
具体的,通过如下步骤提取印章图案特征:
[0088]
s211:对目标印章图像进行图像预处理,并转换为对应的二值化图像;
[0089]
s212:计算二值化图像的归一化中心距;
[0090]
公式描述为:
[0091][0092]
式中:μ
pq
表示二值化图像的归一化中心距,xc和yc表示二值化图像的重心坐标,n
00
表示二值化图像的零阶矩,p和q是非负整数,满足p+q\leqn,n表示矩阶数;
[0093]
s213:根据归一化中心距计算二值化图像的zernike矩;
[0094]
本实施例中,归一化zernike矩是一种归一化的傅里叶描述符,由图像的各个像素点的灰度值加权求和得到。
[0095]
公式描述为:
[0096][0097]
式中:z
nm
表示二值化图像的zernike矩,μ
pq
表示二值化图像的归一化中心距,n和m是非负整数,满足n-m为偶数,且n\leqn,m\leqn,n表示矩阶数;
[0098]
s214:根据特征需求选取zernike矩来组成对应的特征向量作为印章图案特征;
[0099]
本实施例中,根据需要选择一些感兴趣的zernike矩作为特征向量。常用的选择方式是根据zernike矩的排列顺序和系数大小。
[0100]
公式描述为:
[0101]
f=(z
00
,z
11
,z
1,-1
,z
20
,z
2,-2
,z
2,-1
,z
2,1
,z
2,2
,
…
,z
n0
,
…
,z
nn
);
[0102]
式中:f表示一个印章图案特征。
[0103]
这里只列出了zernike矩的前n+1阶,实际上可以根据需要选择任意阶数。
[0104]
本发明基于zernike矩的特征提取算法可以有效的应用于印章图像的形状分析、纹理分析、图像匹配等任务,能够保证印章图像特征提取和后续印章真伪鉴别的有效性。同时,本发明通过提取图像的zernike矩作为特征,可以有效地描述图像的形状和纹理信息,从而实现印章图像的识别、分类和检索,更有利于后续的印章参照图像匹配。
[0105]
具体实施过程中,ocr预处理包括二值化处理和降噪处理。
[0106]
本实施例中,对印章图像进行二值化处理和降噪处理采用现有成熟手段实现。
[0107]
1、二值化处理
[0108]
对印章图像进行二值化处理是指,将图片中像素点的灰度值设为255或0,即让图片转化为黑白两种颜色,使重要信息的形态更突出,从而减少图片的背景信息、颜色信息的数据量。为更好地区分图片灰度分布,本发明采用otsu算法作为二值化方法,用以加强图像中前景与背景的区分。
[0109]
otsu算法可根据图像的灰度特征将图像中的主体和背景进行区分,二者间的类间方差值越大,证明正确分类的概率也越大,此时最佳阈值即为类间方差的最大值。
[0110]
具体的,假设有一张背景亮度较低的图片,大小为m
×
n,其中像素灰度值低于设定阈值t的像素有n0个,高于t的像素有n1个,则有:
[0111]
μ=ω0*μ0+ω1*μ1;
ꢀꢀ
(1)
[0112]
g0=ω0(μ
0-μ)2+ω1(μ
1-μ)2;
ꢀꢀ
(2)
[0113]
式中:μ表示图片总灰度值;g表示类间方差;ω0和ω1表示背景像素点在整个图片中的占比;μ0和μ1分别表示前景灰度和背景灰度的均值。
[0114]
将(1)式代入(2)式中,得到如(3)式的等价公式:
[0115]
g0=ω0ω1(μ
0-μ1)2;
ꢀꢀ
(3)
[0116]
根据上述otsu算法遍历可得到类间方差g0,数值的变化范围为0~m。遍历时类间方差值最大的灰度级值即为最佳分割阈值,也以此作为算法遍历的终止条件。
[0117]
2、降噪处理
[0118]
印章图像在上传、处理的过程中会受噪声影响导致图像质量下降,增加了识别难度。为剔除图中冗余信息,提高印章识别准确度,提出对印章图像进行降噪处理,降噪会使图像呈象清晰。
[0119]
本实施例中采用中值滤波算法和高斯滤波算法实现降噪处理。
[0120]
1)中值滤波具有非线性优势,其可以将数字图像中某点的值替换为该点领域中各点的中值,从而实现消除孤立噪声点的目的,其数学原理如式(4)所示:
[0121]
g(x,y)=medianf(x-m/2,y-n/2)
…
f(x+m/2,y+n/2);
ꢀꢀ
(4)
[0122]
2)通常将概率密度函数符合高斯分布的噪声称为高斯噪声,也是图像翻译过程中常见的噪声类型。其概率密度函数如(5)式所示:
[0123][0124]
高斯噪声通常采用高斯滤波算法进行处理,其基本原理为对图像中的各个像素点进行加权平均处理,从而得到各个像素点的取值。混合噪声即将椒盐噪声和高斯噪声相融合,通过融合降噪方法减小噪声对图像识别的影响。
[0125]
本发明通过对目标印章图像进行二值化处理和降噪处理,能够带来以下效果:1)减少干扰:通过二值化处理和降噪处理可以将印章图像中不相关的细节和噪声去除,从而减少干扰并有利于更加清晰地提取印章特征信息。2)增强对比度:二值化处理可以将印章图像中的灰度信息转换为黑白信息,使图像的对比度更加明显,方便后续的处理。3)提高处理速度:二值化处理可以降低印章图像的复杂度,减少处理时间和计算资源。4)方便后续处理:通过二值化处理可以将印章图像转换为易于处理的二值图像,方便后续的特征提取、匹配和识别等处理。
[0126]
本发明采用otsu算法实现二值化处理,能够带来以下效果:1)简单,易实现:otsu算法不需要太多的预处理,只需要计算像素灰度直方图并找到阈值,即可完成图像二值化;2)自动确定阈值:otsu算法可以自动确定二值化的阈值,避免了手动调整阈值的繁琐过程;
[0127]
3)适用范围广:otsu算法适用于任何具有双峰直方图的图像,可以很好地处理各类图像;
[0128]
4)二值化效果好:otsu算法可以根据图像自动确定最佳阈值,能够获得较好的二值化效果;5)计算量小:otsu算法的计算量较小,能够快速地完成图像的二值化处理;6)不容易受噪声影响:otsu算法不受噪声的影响,能够处理噪声比较大的图像。总的来说,otsu算法是一种简单、有效、自动确定阈值的二值化算法,能够很好地处理各种类型的图像,并且计算量较小,不受噪声影响,具有很好的应用前景。
[0129]
具体实施过程中,通过ocr识别技术对印章图像进行文字识别提取文字的特征信息。
[0130]
ocr识别技术主要包括以下几个步骤:
[0131]
1)图像预处理:对输入的图像进行预处理,包括灰度化、二值化、降噪、增强对比度等操作,以便于后续的文字检测和识别。
[0132]
2)文字检测:通过边缘检测、连通区域分析等技术,检测出图像中的文字区域。这一步骤可以排除非文字元素,如背景图片、图形等。
[0133]
3)字符分割:将文字区域中的字符进行分割,将每个字符独立提取出来,为后续的字符识别做准备。
[0134]
4)字符识别:对每个字符进行识别和分类。通常通过利用机器学习算法(如神经网络、支持向量机等)对已有数据集进行培训,以建立字符模型。再利用这个模型对待识别的字符进行分类。
[0135]
5)后处理:对识别结果进行后处理,包括错误校正、字典匹配、语义分析等,以提高识别结果的准确性和可读性。
[0136]
最终,ocr识别技术会将图像中的文字信息转换为可编辑和可搜索的字符文本,方便后续的数据处理、分析和管理。它在文档数字化、文字识别、图像文字提取等领域具有广泛的应用。
[0137]
本发明中,具体通过如下步骤提取印章文字特征:
[0138]
s301:通过文字检测算法(如基于文本行检测器、边缘检测、连通区域分析等)对ocr预处理后的目标印章图像进行文字区域检测,提取对应的文字区域;
[0139]
本实施例中,需要先对目标印章图像进行预处理,包括图像灰度化、二值化、去噪等。这些处理有助于提高文字区域的可分辨性。
[0140]
s302:对文字区域进行文字校正处理,进而根据文字区域检测结果提取(框出)每个文字区域的感兴趣区域(roi);
[0141]
s303:根据文字区域的感兴趣区域对其进行特征提取,得到文字区域特征;然后(使用训练好的ocr模型)对文字区域特征进行识别,得到对应的印章文字结果;
[0142]
本实施例中,可以使用基于形态学、边缘检测和特征描述算法(如sift、hog等)来提取文字的特征。同时,深度学习方法(如卷积神经网络)在ocr领域也取得了显著的成果,可以尝试使用预训练的ocr模型,例如tesseract、crnn等,直接提取文字特征。
[0143]
使用训练好的ocr模型对文字区域的特征进行识别,将其转化为文字结果。具体的,可基于深度学习的ocr模型可以通过前向传播和后向传播训练得到,还可以使用分类器或模板匹配等技术来进行识别。
[0144]
同时对识别结果进行后处理,包括字母大小写转换、文本校正、错误纠正等操作,以提高识别准确性。
[0145]
s304:(根据需要)对印章文字结果进行特征提取,得到对应的印章文字特征。
[0146]
本实施例中,印章文字特征可包括字符的形状、轮廓、笔画数目、间距等。
[0147]
本发明通过ocr识别技术提取印章文字特征,具有以下优势:1)高度准确性:ocr识别技术经过多年的发展和优化,具备较高的准确性和精度。它可以识别不同字体、大小、颜色和排列方式的文字,并将其精确提取出来。2)大规模处理能力:ocr识别技术可以批量处理大量文档,并快速而准确地提取其中的文字特征。它能够应对大规模数据量的处理需求,提升处理效率。3)多语言支持:ocr识别技术可以支持多种语言文字的识别,无论是英文、中文还是其他语言,都可以有效地进行文字特征提取。4)数据结构化:ocr识别技术可以将文档中的文字提取出来并进行结构化处理,形成可编辑的文本格式。这使得提取出来的文字特征更易于后续的数据处理、分析、搜索和管理。5)自动化处理:ocr识别技术可以实现自动化的文字特征提取过程,减少人工干预。它可以从图像或扫描件中直接提取出文本,省去了手动输入和校对的麻烦。6)文档保留和备份:通过ocr识别技术提取的文字特征可以方便地
存储、备份和共享。这样可以减少纸质文档的占用空间和损坏风险,并增强文档的安全性。综上,通过ocr识别技术提取印章文字特征具有高度准确性、大规模处理能力、多语言支持、数据结构化、自动化处理和文档保留和备份的优势。
[0148]
具体实施过程中,还可提取目标印章图像的印章轮廓特征,进而根据目标印章图像的印章图案特征、印章文字特征和印章轮廓特征中两个以上的特征匹配对应的印章参照图像。
[0149]
通过如下步骤提取目标印章图案的印章轮廓特征:
[0150]
首先对待匹配的印章图像进行ocr预处理得到二值化印章图案,以确定待匹配的印章图像的闭合边缘;然后采用8-邻域链码跟踪算法找到闭合边缘的点进行连接,从而构成印章图像的轮廓;最后提取出形状信息:8-邻域链码跟踪算法从上倒下,从左到右的顺序搜索,找到非零的点,根据该点临近的八个方向顺序来确定下一个边缘点。
[0151]
得到印章图像的轮廓后,取任意相邻的三点得到两个向量,通过余弦公式求得夹角若夹角小于某个阈值则将其排除。为了减少计算量对余弦公式进行了优化,该余弦公式如下:
[0152][0153]
再重复上述操作,排除所有相关点后,确定都满足条件统计点个数,若小于3则失败。若等于3,说明印章形状为三角形。若等于4,说明印章形状为矩形。若大于4,则说明形状为椭圆形或圆形。
[0154]
本发明通过印章轮廓特征能够更好地反映印章整体形状,使得能够有效保证印章参照图像匹配的精度,有利于后续更好地判断目标印章图像的真实性(即真伪鉴别),从而提高印章真伪鉴别的准确性。
[0155]
具体实施过程中,印章图像中的文字图像结构较为复杂,且有许多相似的字形不容易区分,在进行印章图像的文字进行提取的时候,很容易会提取出错误的文字内容,因此需要在印章中对图像进行文字校正处理。
[0156]
本实施例中,对印章图像中的文字进行文字校正处理的主要目标是将文字调整为水平或垂直对齐修复可能存在的形变、扭曲等问题。文字校正处理包括:首先对文字区域进行倾斜旋转、投影裁剪和透视变换的文字校正,然后对文字校正后的文字区域进行形变、裂缝、笔画断裂的文字修复。具体步骤如下:
[0157]
1)文字检测:首先需要检测图像中的文字区域。可以使用文字检测算法(如基于文本行检测器、边缘检测、连通区域分析等)来找到印章图像中的文字位置。
[0158]
2)文字定位:根据文字检测的结果,提取出每个文字区域的roi(感兴趣区域)。
[0159]
3)文字校正:对每个文字区域进行校正处理。常用的校正方法包括:基于hough变换的旋转矫正:使用hough变换找到文字区域的倾斜角度,并将文字旋转回水平或垂直方向。
[0160]
4)投影剪裁:通过计算文字区域的水平或垂直投影,确定文字的边界位置,并将文字调整为等宽或等高,进而实现校正。
[0161]
5)透视变换:针对存在透视畸变的情况,可以使用透视变换矫正文字,通过探测文
字区域的四个角点,将其变换为矩形区域。
[0162]
6)文字修复:校正后的文字可能会出现形变、裂缝、笔画断裂等问题,可以借助ocr(光学字符识别)技术或图像处理方法对文字进行修复,如基于形态学操作的孔洞填充、连通区域分析与合并等方法。
[0163]
由于文字校正处理的效果受到图像质量、文字形变程度、光照条件等因素的影响,因此针对不同的印章图像,可能需要根据实际情况调整校正处理的参数和方法。
[0164]
本发明通过上述步骤对印章图像的文字区域(图像)进行文字校正,能够提高后续印章文字特征的准确性,并且文字校正速度比现有方法快得多,从而能够提高印章真伪鉴别的精度和效率。
[0165]
具体实施过程中,可通过模板匹配算匹配印章参照图像。模板匹配算法是一种基于像素级别的图像匹配技术,用于在给定图像中寻找与给定模板图像最相似的区域。该算法的基本思想是从待匹配图像中的每个位置开始,将模板图像与待匹配图像的对应位置进行比较,并计算它们之间的相似度或差异度来确定匹配程度。相似度度量可以采用各种测度方法,如均方差、相关性、归一化交叉相关等。
[0166]
一般来说,模板匹配算法包括以下步骤:1)获取待匹配图像和模板图像:从图像库中或者通过其他方式获取待匹配图像和模板图像。2)确定相似度度量方法:选择适当的相似度度量方法,如均方差、相关性等。3)确定搜索区域:确定在待匹配图像中搜索的区域,一般根据实际情况进行设定。4)计算相似度:将模板图像的每个像素与待匹配图像的对应位置像素进行比较,根据相似度度量方法计算它们之间的相似度或差异度。5)确定最佳匹配位置:确定在待匹配图像中相似度最高的位置,即最佳匹配位置。6)输出匹配结果:将最佳匹配位置及相似度作为输出,用于后续的图像分析、处理或决策。
[0167]
模板匹配算法具有以下优势:1)简单直观:模板匹配算法的原理简单直观,易于理解和实现。2)实时性:模板匹配算法速度较快,可以实时进行图像匹配和检测。3)适应性强:模板匹配算法可以适应各种图像类型和场景,并能够识别多个目标。4)灵活性:模板匹配算法可以适应不同尺寸和比例的模板图像,并且可以进行模糊、旋转等变换的匹配。5)易于调整和优化:模板匹配算法可以根据具体应用场景进行参数调整和优化,以获得更好地匹配效果。6)低计算成本:相对于其他复杂的图像处理算法,模板匹配算法的计算成本较低,适用于资源有限的环境。本发明通过模板匹配算法能够准确匹配印章参照图像,从而能够提高印章真伪鉴别的准确性。
[0168]
本实施例中,通过如下步骤匹配印章参照图像:
[0169]
s401:将目标印章图像的印章图案特征和印章文字特征作为印章关键特征;
[0170]
s402:对预设的印章模板图像进行特征提取,得到与印章关键特征相对应的模板对比特征;
[0171]
s403:通过余弦相似度公式计算每个印章模板图像的模板对比特征和目标印章图像的印章关键特征的特征相似度,并得到特征相似度最高的印章目标图像;
[0172]
通过如下公式计算特征相似度:
[0173][0174]
式中:cosθ表示特征相似度(余弦相似度),xi和yi分别表示模板对比特征和印章关
键特征,n表示模板对比特征和印章关键特征的特征向量长度。
[0175]
s404:将特征相似度最高的印章目标图像作为目标印章图像的印章参照图像。
[0176]
若印章参照图像的特征相似度小于预设的阈值,则目标印章图像不存在印章参照图像。
[0177]
本发明通过余弦相似度作为特征相似度来匹配印章参照图像,具有如下优势:1)不受图像缩放的影响:余弦相似度是基于图像的向量表示进行计算的,而对于图像的缩放操作,其向量表示不会发生变化,因此可以在不考虑缩放的情况下进行准确的匹配。2)对亮度和对比度的鲁棒性:余弦相似度只考虑图像的方向性信息,而不考虑亮度和对比度的差异,使得其对于光照变化、对比度调整等因素的影响具有一定的鲁棒性。3)快速计算:余弦相似度的计算简单高效,在大规模图像匹配任务中具有较快的速度,计算余弦相似度只需要对向量进行内积和模长运算,这些运算在大多数计算机硬件上都有高效的实现。4)能够捕捉图像的结构相似性:余弦相似度对于图像中结构相似的部分具有较高的匹配度,使得其在图像检索、图像分类和相似性匹配等任务中表现较好,能够保证印章参照图像匹配的准确性。
[0178]
具体实施过程中,通过如下公式计算的图像相似度:
[0179][0180]
式中:ncc(x,y)表示图像相似度;t表示印章参照图;i表示目标印章图像;(x,y)表示目标印章图像i中的位置;h和w分别为印章参照图的高度和宽度;t(i,j)和i(x+i-1,y+j-1)分别表示印章参照图和目标印章图像的像素值;和分别表示印章参照图和目标印章图像的平均像素值。
[0181]
该公式计算的是两个图像的归一化互相关值,可以用来评估两个图像的图像相似度,值越大表示相似度越高。
[0182]
本发明采用上述的归一化互相关值公式计算目标印章图像和印章参照图像的图像对比相似度,具有如下优势:1)不受亮度和对比度的影响:采用归一化互相关值算法可以消除图像中的亮度和对比度变化的影响,从而提高印章匹配的准确性。2)具有很高的鲁棒性:归一化互相关值算法对噪声和图像畸变有很高的鲁棒性,能够很好地处理图像的变形和畸变,使匹配结果更加准确可靠。3)简单易实现:归一化互相关值算法的计算方法简单,易于实现,可以有效提高印章匹配的效率和准确性。
[0183]
实施例二:
[0184]
本实施例中公开了一种基于ocr识别的印章真伪鉴别系统,其基于实施例一中的印章真伪鉴别方法实施。
[0185]
如图2所示,基于ocr识别的印章真伪鉴别系统,包括:
[0186]
1)印章数据库模块,用于存储印章模板图像;
[0187]
2)图像采集模块,用于采集待鉴别的目标印章图像;
[0188]
3)特征提取模块,用于定位目标印章图像的印章图案,并提取对应的印章图案特征;
[0189]
4)ocr识别模块,用于对目标印章图像进行ocr预处理,并提取对应的印章文字特
征;
[0190]
5)印章查询模块,用于根据目标印章图像的印章图案特征和印章文字特征匹配对应的印章参照图像;
[0191]
6)印章对比模块,用于计算目标印章图像与印章参照图像的图像相似度;
[0192]
7)真伪鉴别模块,用于根据图像相似度判断目标印章图像的真实性,以实现印章真伪鉴别。
[0193]
本发明通过目标印章图像的印章图案特征和印章文字特征来匹配印章参照图像,其中印章图案特征和印章文字特征能够分别从印章整体形状和印章文字内容两个方面反映印章的特点,能够有效保证印章参照图像匹配的精度,有利于后续更好地判断目标印章图像的真实性(即实现真伪鉴别),从而提高印章真伪鉴别的准确性。
[0194]
本发明在准确匹配印章参照图像的基础上,通过计算目标印章图像与印章参照图像的图像相似度来判断目标印章图像的真实性。其中,图像相似度能够准确、高效地反映目标印章图像与印章参照图像(印章模板)的相似性,进而有利于更好地判断目标印章图像的真实性(即实现真伪鉴别),从而提高印章真伪鉴别的实用性。
[0195]
最后,需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。
技术特征:
1.一种基于ocr识别的印章真伪鉴别方法,其特征在于,包括:s1:获取待鉴别的目标印章图像;s2:定位目标印章图像的印章图案,通过特征提取算法提取对应的印章图案特征;s3:对目标印章图像进行ocr预处理,通过ocr识别提取对应的印章文字特征;s4:根据目标印章图像的印章图案特征和印章文字特征匹配对应的印章参照图像;s5:计算目标印章图像与印章参照图像的图像相似度,进而根据图像相似度判断目标印章图像的真实性,以实现印章真伪鉴别。2.如权利要求1所述的基于ocr识别的印章真伪鉴别方法,其特征在于,步骤s2中,通过如下步骤定位目标印章图像的印章图案:s201:将目标印章图像转换为his格式的his印章图像;s202:对his印章图像进行颜色处理,以增强his印章图像的印章颜色分量;s203:将颜色处理后的his印章图像转换成rgb格式的rgb印章图像;s204:定位rgb印章图像中的印章颜色分量,以实现印章图案的定位。3.如权利要求1所述的基于ocr识别的印章真伪鉴别方法,其特征在于,步骤s2中,通过基于zernike矩的特征提取算法提取目标印章图像的印章图案特征。4.如权利要求1所述的基于ocr识别的印章真伪鉴别方法,其特征在于,步骤s3中,ocr预处理包括二值化处理和降噪处理。5.如权利要求1所述的基于ocr识别的印章真伪鉴别方法,其特征在于,通过如下步骤提取印章文字特征:s301:对ocr预处理后的目标印章图像进行文字区域检测,提取对应的文字区域;s302:对文字区域进行文字校正处理,进而提取每个文字区域的感兴趣区域;s303:根据文字区域的感兴趣区域对其进行特征提取,得到文字区域特征;然后对文字区域特征进行识别,得到对应的印章文字结果;s304:对印章文字结果进行特征提取,得到对应的印章文字特征。6.如权利要求5所述的基于ocr识别的印章真伪鉴别方法,其特征在于:步骤s302中,文字校正处理包括:首先对文字区域进行倾斜旋转、投影裁剪和透视变换的文字校正,然后对文字校正后的文字区域进行形变、裂缝、笔画断裂的文字修复。7.如权利要求1所述的基于ocr识别的印章真伪鉴别方法,其特征在于,步骤s4中,通过如下步骤匹配印章参照图像:s401:将目标印章图像的印章图案特征和印章文字特征作为印章关键特征;s402:对预设的印章模板图像进行特征提取,得到与印章关键特征相对应的模板对比特征;s403:计算每个印章模板图像的模板对比特征和目标印章图像的印章关键特征的特征相似度,并得到特征相似度最高的印章目标图像;s404:将特征相似度最高的印章目标图像作为目标印章图像的印章参照图像。8.如权利要求7所述的基于ocr识别的印章真伪鉴别方法,其特征在于,步骤s403中,通过如下公式计算特征相似度:
式中:cosθ表示特征相似度,x
i
和y
i
分别表示模板对比特征和印章关键特征,n表示模板对比特征和印章关键特征的特征向量长度。9.如权利要求1所述的基于ocr识别的印章真伪鉴别方法,其特征在于,步骤s5中,通过如下公式计算图像相似度:式中:ncc(x,y)表示图像相似度;t表示印章参照图;i表示目标印章图像;(x,y)表示目标印章图像i中的位置;h和w分别为印章参照图的高度和宽度;t(i,j)和i(x+i-1,y+j-1)分别表示印章参照图和目标印章图像的像素值;和分别表示印章参照图和目标印章图像的平均像素值。10.一种基于ocr识别的印章真伪鉴别系统,其特征在于:基于权利要求1所述的印章真伪鉴别方法实施,包括:印章数据库模块,用于存储印章模板图像;图像采集模块,用于采集待鉴别的目标印章图像;特征提取模块,用于定位目标印章图像的印章图案,并提取对应的印章图案特征;ocr识别模块,用于对目标印章图像进行ocr预处理,并提取对应的印章文字特征;印章查询模块,用于根据目标印章图像的印章图案特征和印章文字特征匹配对应的印章参照图像;印章对比模块,用于计算目标印章图像与印章参照图像的图像相似度;真伪鉴别模块,用于根据图像相似度判断目标印章图像的真实性,以实现印章真伪鉴别。
技术总结
本发明涉及图像处理及印章识别技术领域,具体涉及一种基于OCR识别的印章真伪鉴别方法及系统。方法包括:获取待鉴别的目标印章图像;定位目标印章图像的印章图案,通过特征提取算法提取对应的印章图案特征;对目标印章图像进行OCR预处理,通过OCR识别提取对应的印章文字特征;根据目标印章图像的印章图案特征和印章文字特征匹配对应的印章参照图像;计算目标印章图像与印章参照图像的图像相似度,进而根据图像相似度判断目标印章图像的真实性,以实现印章真伪鉴别。本发明通过印章图像的图案特征和文字特征准确匹配印章参照图像,并且通过计算与印章参照图像的图像相似度来有效判断目标印章图像的真实性,从而提高印章鉴别的准确性和实用性。性和实用性。性和实用性。
技术研发人员:张杨 高洪涛 徐传运 刘飞洋 张海山 黄佳灵 郑茂琳 杨雨露 袁兴海
受保护的技术使用者:重庆师范大学
技术研发日:2023.07.21
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/