一种用于证照识别的文本纠错方法、装置、设备及介质与流程
未命名
09-20
阅读:86
评论:0

1.本发明涉及证照识别领域,特别涉及一种用于证照识别的文本纠错方法、装置、设备及介质。
背景技术:
2.随着深度学习相关技术不断发展,神经网络模型在很多行业和场景得到广泛应用,尤其是在类似证照文字识别的通用领域,神经网络模型由于可以训练的数据量大,模型更加复杂,往往取得更好的结果,深度学习模型已经在证照识别领域成为主流,识别准确率较高。但是,在实际应用场景中,由于数据质量参差不齐,很难保证识别结果完全准确。因此,需要进行文本纠错,作为一种后处理方法,可以有效缓解证照识别准确率无法保证的问题。目前,主流的文本纠错有基于混淆集的文本纠错和基于语言模型的文本纠错。在证照识别领域由于容易出现误纠,较少使用基于语言模型的文本纠错。而基于混淆集的文本纠错能力有限,定制化程度偏低。因此,如何对文本识别进行精准的纠错是亟待解决的问题。
技术实现要素:
3.有鉴于此,本发明的目的在于提供一种用于证照识别的文本纠错方法、装置、设备及介质,能够实现文本识别纠错的精准可控,降低误纠错的概率。其具体方案如下:
4.第一方面,本技术公开了一种用于证照识别的文本纠错方法,包括:
5.利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;
6.对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;
7.基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;
8.利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,并对所述纠错后子文本进行合并操作,以得到纠错后字符文本。
9.可选的,所述利用预设模型以及所述目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度,包括:
10.利用基于光学字符识别模型对所述目标证照对应的图片数据进行识别与检测,以确定所述目标证照的字符文本和各个字符的所述字符置信度。
11.可选的,所述对所述字符文本进行文本切分,获取若干个子文本,包括:
12.利用特殊字符对所述字符文本进行文本切分,获取所述若干个子文本;所述特殊字符包括标点符号和数字字符。
13.可选的,所述基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子
文本,包括:
14.将所述若干个子文本中所述字符长度大于或等于预设长度阈值的子文本,确定为所述待纠错子文本。
15.可选的,所述基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,包括:
16.判断所述待纠错子文本是否存在于基于预先构建的与证照相关的所述关键词库中;
17.若是,则判定不需要对所述待纠错子文本进行所述纠错操作,直接对所述待纠错子文本进行所述合并操作,得到目标文本;
18.若否,则判定需要对所述待纠错子文本进行所述纠错操作。
19.可选的,所述利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词,包括:
20.将所述字符置信度小于预设置信度阈值的字符确定为所述待纠错子文本中的错字,并统计所述待纠错子文本中的错字数量;
21.确定所述错字与所述关键词库中的关键词之间的编辑距离,将所述关键词库中的所述编辑距离小于或等于所述错字数量的所述关键词确定为所述候选关键词。
22.可选的,所述利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,包括:
23.判断所述候选关键词的数量与所述错字数量是否均为1;
24.若所述候选关键词的数量与所述错字数量均为1,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;否则,判断所述候选关键词的数量是否为1;
25.若所述候选关键词的数量不为1,则不进行所述纠错操作;
26.若所述候选关键词的数量为1,则判断所述错字与所述候选关键词中对应字的笔画相似程度是否大于预设笔画相似度阈值;
27.若所述笔画相似程度大于所述预设笔画相似度阈值,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;
28.若所述笔画相似程度小于或等于所述预设笔画相似度阈值,则不进行所述纠错操作。
29.第二方面,本技术公开了一种用于证照识别的文本纠错装置,包括:
30.文本和置信度确定模块,用于利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;
31.待纠错子文本确定模块,用于对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;
32.候选关键词确定模块,用于基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;
33.纠错模块,用于利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错
操作,以得到纠错后子文本;
34.子文本合并模块,用于对所述纠错后子文本进行合并操作,以得到纠错后字符文本。
35.第三方面,本技术公开了一种电子设备,包括:
36.存储器,用于保存计算机程序;
37.处理器,用于执行所述计算机程序,以实现前述公开的所述的用于证照识别的文本纠错方法的步骤。
38.第四方面,本技术公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的所述的用于证照识别的文本纠错方法的步骤。
39.由上可知,本技术在进行文本纠错时,利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,并对所述纠错后子文本进行合并操作,以得到纠错后字符文本。可见,本技术通过使用编辑距离、笔画相似度等方法进行纠错,结合文本切分方法,文本纠错成功率较高,而通过一系列限制,误纠错的概率很低。这样一来,可以实现文本识别纠错的精准可控,适用于证照识别等文本识别场景,具有较高的实用价值和创新价值。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
41.图1为本技术公开的一种用于证照识别的文本纠错方法流程图;
42.图2为本技术公开的一种具体的用于证照识别的文本纠错方法流程图;
43.图3为本技术提供的一种用于证照识别的文本纠错装置结构示意图;
44.图4为本技术提供的一种电子设备结构图。
具体实施方式
45.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.目前,主流的文本纠错有基于混淆集的文本纠错和基于语言模型的文本纠错。在证照识别领域由于容易出现误纠,较少使用基于语言模型的文本纠错。而基于混淆集的文
本纠错能力有限,定制化程度偏低。为了解决上述技术问题,本技术提供了一种用于证照识别的文本纠错方法,能够实现文本识别纠错的精准可控,降低误会纠错的概率。
47.参见图1所示,本发明实施例公开了一种用于证照识别的文本纠错方法,包括:
48.步骤s11、利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度。
49.本实施例中,首先要利用基于光学字符识别模型对所述目标证照对应的图片数据进行识别与检测,以确定所述目标证照的字符文本和各个字符的所述字符置信度。就是使用ocr(optical character recognition,光学字符识别)检测和识别模型对图片数据推理,得到初步推理结果,包括字符文本以及各字符的置信度。
50.步骤s12、对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本。
51.本实施例中,首先利用特殊字符对所述字符文本进行文本切分,获取所述若干个子文本;所述特殊字符包括标点符号和数字字符。需要指出的是,特殊字符集包括但不限于标点符号、数字字符等,是由特定证照的可能字符确定的。之后,将所述若干个子文本中所述字符长度大于或等于预设长度阈值的子文本,确定为所述待纠错子文本。就是说,需要对若干个子文本的字符长度进行判断,如果长度小于2,则不进行纠错。如果长度大于或等于2,则表明需要对子文本进行纠错,也就是将若干个子文本中字符长度大于或等于2的子文本确定为待纠错子文本。
52.步骤s13、基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词。
53.本实施例中,基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,就是首先需要判断所述待纠错子文本是否存在于基于预先构建的与证照相关的所述关键词库中;若是,则判定不需要对所述待纠错子文本进行所述纠错操作,直接对所述待纠错子文本进行所述合并操作,得到目标文本;若否,则判定需要对所述待纠错子文本进行所述纠错操作。之后,利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词,就是将所述字符置信度小于预设置信度阈值的字符确定为所述待纠错子文本中的错字,并统计所述待纠错子文本中的错字数量;确定所述错字与所述关键词库中的关键词之间的编辑距离,将所述关键词库中的所述编辑距离小于或等于所述错字数量的所述关键词确定为所述候选关键词。需要指出的是,根据基于所述字符置信度确定的所述待纠错子文本中的错字,就是,根据待纠错子文本中每个字的置信度进行判断,如果置信度小于阈值,则该位置需要纠错。这样,便可以确定出子文本中需要纠错的位置,进而确定出待纠错子文本中的错字。且可以理解的是,确定待纠错子文本中的错字的步骤,可以在基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作之前进行,也可以在基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作之后进行。因为,如果直接基于预先构建的与证照相关的关键词库判断出不需要对所述待纠错子文本进行所述纠错操作,那么可以不用确定出待纠错子文本中的错
字,进而节省纠错判断的时间与效率。其中,所述关键词库是指证照中可能出现的关键词的集合,该集合是有限的,如营业执照的经营范围。
54.步骤s14、利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,并对所述纠错后子文本进行合并操作,以得到纠错后字符文本。
55.本实施例中,利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,首先需要判断所述候选关键词的数量与所述错字数量是否均为1;若所述候选关键词的数量与所述错字数量均为1,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;否则,判断所述候选关键词的数量是否为1;若所述候选关键词的数量不为1,则不进行所述纠错操作;若所述候选关键词的数量为1,则判断所述错字与所述候选关键词中对应字的笔画相似程度是否大于预设笔画相似度阈值;若所述笔画相似程度大于所述预设笔画相似度阈值,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;若所述笔画相似程度小于或等于所述预设笔画相似度阈值,则不进行所述纠错操作。最后,对所述纠错后子文本进行合并操作,以得到纠错后字符文本。这样一来,通过使用编辑距离、笔画相似度等方法进行纠错,结合文本切分方法,令文本纠错成功率提高。
56.由上可知,本技术在进行文本纠错时,利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,并对所述纠错后子文本进行合并操作,以得到纠错后字符文本。可见,本技术通过使用编辑距离、笔画相似度等方法进行纠错,结合文本切分方法,文本纠错成功率较高,而通过一系列限制,误纠错的概率很低。这样一来,可以实现文本识别纠错的精准可控,适用于证照识别等文本识别场景,具有较高的实用价值和创新价值。
57.参见图2所示,本发明实施例公开了一种具体的用于证照识别的文本纠错方法,包括:
58.本实施例中,在开始进行文本纠错方法之前,首先构建证照的关键词库。待识别证照的关键词库是指待识别证照可能出现的关键词的集合,该集合是有限的,如营业执照的经营范围。其次,使用ocr检测和识别模型对图片数据推理,得到初步推理结果,包括字符文本以及各字符的置信度。之后,使用特殊字符集对每条字符文本切分,将每条文本切分成一个子文本序列。特殊字符集包括但不限于标点符号、数字字符等,由待识别证照的可能字符确定。之后,需要进行纠错预处理,判断需要纠错的子文本的长度,如果长度小于2,则不进行纠错,直接结束纠错,进行子文本拼接。再确定纠错位置,就是对于需要纠错的子文本的每个字的置信度,如果置信度小于阈值,则该位置需要纠错。对于需要纠错的子文本,判断该子文本是否在关键词库中,如果是,则跳过该子文本纠错,就是直接结束纠错,进行子文本拼接。否则,需要继续纠错。
59.之后,计算需要纠错子文本和每个关键词的编辑距离,选择编辑距离小于等于错
字个数的关键词,作为候选关键词。如果关键词个数为1,且错字个数为1,则直接接受纠错,之后,对纠错后子文本进行拼接,否则继续纠错;就是计算错字和候选关键词中对应字的笔画相似度,如果相似度小于预设的笔画相似度阈值,则接受纠错,将纠错后的子文本,重新拼接会一个文本,作为纠错后的文本,则完成了一条文本的纠错。针对文档中所有文本,重复上述步骤,完成整个文档的纠错,否则不接受纠错。
60.可见,本技术提出了一种用于证照识别的文本纠错方法。通过使用编辑距离、笔画相似度等方法进行纠错,结合文本切分方法,文本纠错成功率较高,而通过一系列限制,误纠错的概率很低。这样可以实现文本识别纠错的精准可控,适用于证照识别等文本识别场景,具有较高的实用价值和创新价值。
61.参见图3所示,本发明实施例公开了一种用于证照识别的文本纠错装置,包括:
62.文本和置信度确定模块11,用于利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;
63.待纠错子文本确定模块12,用于对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;
64.候选关键词确定模块13,用于基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;
65.纠错模块14,用于利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本;
66.子文本合并模块15,用于对所述纠错后子文本进行合并操作,以得到纠错后字符文本。
67.由上可知,本技术在进行文本纠错时,利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,并对所述纠错后子文本进行合并操作,以得到纠错后字符文本。可见,本技术通过使用编辑距离、笔画相似度等方法进行纠错,结合文本切分方法,文本纠错成功率较高,而通过一系列限制,误纠错的概率很低。这样一来,可以实现文本识别纠错的精准可控,适用于证照识别等文本识别场景,具有较高的实用价值和创新价值。
68.在一些具体的实施例中,所述文本和置信度确定模块11,具体可以包括:
69.文本和置信度确定单元,用于利用基于光学字符识别模型对所述目标证照对应的图片数据进行识别与检测,以确定所述目标证照的字符文本和各个字符的所述字符置信度。
70.在一些具体的实施例中,所述待纠错子文本确定模块12,具体可以包括:
71.文本切分单元,用于利用特殊字符对所述字符文本进行文本切分,获取所述若干
个子文本;所述特殊字符包括标点符号和数字字符。
72.在一些具体的实施例中,所述待纠错子文本确定模块12,具体可以包括:
73.待纠错子文本确定单元,用于将所述若干个子文本中所述字符长度大于或等于预设长度阈值的子文本,确定为所述待纠错子文本。
74.在一些具体的实施例中,所述候选关键词确定模块13,具体可以包括:
75.第一判断单元,用于判断所述待纠错子文本是否存在于基于预先构建的与证照相关的所述关键词库中;
76.子文本合并单元,用于若是,则判定不需要对所述待纠错子文本进行所述纠错操作,直接对所述待纠错子文本进行所述合并操作,得到目标文本;
77.纠错判定单元,用于若否,则判定需要对所述待纠错子文本进行所述纠错操作。
78.在一些具体的实施例中,所述候选关键词确定模块13,具体可以包括:
79.错字确定单元,用于将所述字符置信度小于预设置信度阈值的字符确定为所述待纠错子文本中的错字,并统计所述待纠错子文本中的错字数量;
80.候选关键词确定单元,用于确定所述错字与所述关键词库中的关键词之间的编辑距离,将所述关键词库中的所述编辑距离小于或等于所述错字数量的所述关键词确定为所述候选关键词。
81.在一些具体的实施例中,所述纠错模块14,具体可以包括:
82.第二判断单元,用于判断所述候选关键词的数量与所述错字数量是否均为1;
83.第一错字替换单元,用于若所述候选关键词的数量与所述错字数量均为1,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;否则,判断所述候选关键词的数量是否为1;
84.第一不纠错判定单元,用于若所述候选关键词的数量不为1,则不进行所述纠错操作;
85.第三判断单元,用于若所述候选关键词的数量为1,则判断所述错字与所述候选关键词中对应字的笔画相似程度是否大于预设笔画相似度阈值;
86.第二错字替换单元,用于若所述笔画相似程度大于所述预设笔画相似度阈值,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;
87.第二不纠错判定单元,用于若所述笔画相似程度小于或等于所述预设笔画相似度阈值,则不进行所述纠错操作。
88.进一步的,本技术实施例还公开了一种电子设备,图4是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
89.图4为本技术实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的用于证照识别的文本纠错方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
90.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获
取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
91.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
92.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的用于证照识别的文本纠错方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
93.进一步的,本技术还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的用于证照识别的文本纠错方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
94.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
95.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
96.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
97.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
98.以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种用于证照识别的文本纠错方法,其特征在于,包括:利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,并对所述纠错后子文本进行合并操作,以得到纠错后字符文本。2.根据权利要求1所述的用于证照识别的文本纠错方法,其特征在于,所述利用预设模型以及所述目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度,包括:利用基于光学字符识别模型对所述目标证照对应的图片数据进行识别与检测,以确定所述目标证照的字符文本和各个字符的所述字符置信度。3.根据权利要求1所述的用于证照识别的文本纠错方法,其特征在于,所述对所述字符文本进行文本切分,获取若干个子文本,包括:利用特殊字符对所述字符文本进行文本切分,获取所述若干个子文本;所述特殊字符包括标点符号和数字字符。4.根据权利要求1所述的用于证照识别的文本纠错方法,其特征在于,所述基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本,包括:将所述若干个子文本中所述字符长度大于或等于预设长度阈值的子文本,确定为所述待纠错子文本。5.根据权利要求1所述的用于证照识别的文本纠错方法,其特征在于,所述基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,包括:判断所述待纠错子文本是否存在于基于预先构建的与证照相关的所述关键词库中;若是,则判定不需要对所述待纠错子文本进行所述纠错操作,直接对所述待纠错子文本进行所述合并操作,得到目标文本;若否,则判定需要对所述待纠错子文本进行所述纠错操作。6.根据权利要求1至5任一项所述的用于证照识别的文本纠错方法,其特征在于,所述利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词,包括:将所述字符置信度小于预设置信度阈值的字符确定为所述待纠错子文本中的错字,并统计所述待纠错子文本中的错字数量;确定所述错字与所述关键词库中的关键词之间的编辑距离,将所述关键词库中的所述编辑距离小于或等于所述错字数量的所述关键词确定为所述候选关键词。7.根据权利要求6所述的用于证照识别的文本纠错方法,其特征在于,所述利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本,包括:
判断所述候选关键词的数量与所述错字数量是否均为1;若所述候选关键词的数量与所述错字数量均为1,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;否则,判断所述候选关键词的数量是否为1;若所述候选关键词的数量不为1,则不进行所述纠错操作;若所述候选关键词的数量为1,则判断所述错字与所述候选关键词中对应字的笔画相似程度是否大于预设笔画相似度阈值;若所述笔画相似程度大于所述预设笔画相似度阈值,则将所述待纠错子文本中的所述错字替换为所述候选关键词,以得到所述纠错后子文本;若所述笔画相似程度小于或等于所述预设笔画相似度阈值,则不进行所述纠错操作。8.一种用于证照识别的文本纠错装置,其特征在于,包括:文本和置信度确定模块,用于利用预设模型以及目标证照对应的图片数据确定所述目标证照的字符文本和各个字符的字符置信度;待纠错子文本确定模块,用于对所述字符文本进行文本切分,获取若干个子文本,并基于所述子文本中的字符长度从所述若干个子文本中确定待纠错子文本;候选关键词确定模块,用于基于预先构建的与证照相关的关键词库判断是否需要对所述待纠错子文本进行所述纠错操作,若需要进行所述纠错操作,则利用基于所述字符置信度确定的所述待纠错子文本中的错字与所述关键词库中的关键词之间的编辑距离,从所述关键词库中确定出候选关键词;纠错模块,用于利用所述候选关键词对所述待纠错子文本中的错字进行所述纠错操作,以得到纠错后子文本;子文本合并模块,用于对所述纠错后子文本进行合并操作,以得到纠错后字符文本。9.一种电子设备,其特征在于,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的用于证照识别的文本纠错方法的步骤。10.一种计算机可读存储介质,其特征在于,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的用于证照识别的文本纠错方法的步骤。
技术总结
本申请公开了一种用于证照识别的文本纠错方法、装置、设备及介质,涉及证照识别领域,包括:利用预设模型以及目标证照确定目标证照的字符文本和字符置信度;对字符文本进行文本切分,获取若干个子文本,基于子文本中的字符长度确定待纠错子文本;基于预先构建的与证照相关的关键词库判断是否需要对待纠错子文本进行纠错操作,若需要,利用基于字符置信度确定的待纠错子文本中的错字与关键词库中的关键词之间的编辑距离,从关键词库中确定候选关键词;利用候选关键词对待纠错子文本中的错字进行纠错操作,以得到纠错后子文本,对纠错后子文本进行合并操作,以得到纠错后字符文本。由此,本申请能够实现文本识别纠错的精准可控,降低误纠错的概率。降低误纠错的概率。降低误纠错的概率。
技术研发人员:陈其宾 段强 姜凯 李锐
受保护的技术使用者:山东浪潮科学研究院有限公司
技术研发日:2023.07.03
技术公布日:2023/9/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:电机声音异常的检测装置的制作方法 下一篇:一种简易无杆气缸滑块导向结构的制作方法