基于关系网络的字符识别方法、装置、设备及介质

未命名 08-05 阅读:116 评论:0


1.本发明涉及计算机领域的字符图像识别技术,具体涉及一种基于关系网络的字符识别方法、装置、设备及介质。


背景技术:

2.目前字符识别技术(ocr, optical character recognition)在许多领域都有应用,可以在很多场合替代键盘高速高效的完成字符录入任务。
3.手写字符受每个人的用笔方式,书写习惯,文化背景等因素的影响,书写的字符差异较大,较难识别。
4.相关技术中,通常采用深度学习神经网络基于大量的标注数据学习图像与文本之间的映射关系,从而实现对图像中的字符的识别,然而大量的标签内容和数据的迭代,严重限制了对于新类别的可扩展性。并且在一些特殊领域中,需要对文书进行手写批示,而上述模型对手写批示中批示字符的识别准确率不足,难以适应该场景下的字符识别。


技术实现要素:

5.为克服上述现有技术的不足,本发明提供一种基于关系网络的字符识别方法、装置、设备及介质,用以解决上述至少一个技术问题。
6.根据本发明说明书的一方面,提供一种基于关系网络的字符识别方法,包括:获取手写字符的图像并进行预处理,得到预处理的图像数据集;将所述预处理的图像数据集作为预先训练的关系网络的输入,获取所述关系网络的输出;根据所述关系网络的输出,利用语言模型进行识别后处理,将满足概率要求的字符识别结果作为目标字符输出,将不满足概率要求的字符识别结果返回关系网络重新进行识别;其中,所述关系网络的训练包括:通过嵌入函数分别提取支持集和查询集的特征图,所述查询集为预处理的图像数据集,所述支持集为标准图像数据集;对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,得到各样本对应的字符识别结果;将各样本的字符识别结果组成一个句子作为关系网络的输出。
7.上述技术方案利用关系网络在小样本任务中的简单、灵活和通用的框架,对手写文本或办公文件的手写批注进行识别,相对于深度学习方法可以减少大量学习标签和数据迭代,便于对新类别的扩展;此外,对关系网络的识别结果,还基于语言模型进行识别后处理,进一步提高手写文本的字符识别精度。
8.上述技术方案针对单个字符识别技术,利用基于关系网络的嵌入映射和相关性计算进行字符识别,将字符识别结果和神经网络语言模型gpt-3相互配合,计算字符出现在一
个有一定语义的句子中的某个位置的概率,将符合概率要求的字符识别结果作为目标字符输出,保证了输出结果的精度。
9.作为进一步的技术方案,对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,还包括:将查询集中一个样本特征图与支持集中所有样本特征图进行拼接,得到拼接的特征图,并对所述拼接的特征图进行相关性得分计算,输出得分最高的字符作为当前样本对应的字符识别结果。
10.进一步地,所述查询集中有多个预处理的图像数据,将这些图像数据逐个送入关系网络进行识别,每个预处理的图像数据可视为一个图像样本,即待识别样本。对于单个待识别样本而言,将待识别样本提取出一个特征图,同时将支持集中所有样本分别提取出特征图,再将待识别样本的特征图与支持集中所有样本的特征图一一对应级联,得到拼接的特征图;接着,对所述拼接的特征图逐一进行相关性得分计算,即分别计算待识别样本与支持集中所有样本的相关性得分,并输出得分最高的样本作为待识别样本的字符识别结果。
11.作为进一步的技术方案,所述预处理包括:依次对图像进行灰度化、降噪、二值化、字符切分及归一化处理。
12.作为进一步的技术方案,在预处理后,还包括:将预处理后的字符图像进行水平模糊,形成连通区域;基于所述连通区域进行垂直投影,得到投影曲线;基于所述投影曲线计算倾斜字符的角度,对倾斜字符的像素坐标进行空间旋转变换,完成倾斜字体的矫正。
13.优选地,对完成矫正后的字符图像,采用双线性插值法进行校正,并对校正后的字符图像进行平滑处理。
14.作为进一步的技术方案,所述关系网络包括嵌入模块和相关性模块;所述嵌入模块包括四个卷积块,用于对输入的支持集和查询集的图像分别提取支持集和查询集的特征图;所述相关性模块包括两个卷积块和两个全连接层,两个卷积块用于将所述查询集的特征图和支持集中各个图像样本所对应的特征图两两串联起来,两个全连接层用于将卷积输出的二维特征图转化为一维的向量,然后基于所述一维向量利用sigmoid函数计算相关性得分。
15.上述技术方案充分利用了关系网络在小样本任务中的简单、灵活和通用的框架,其是一个端到端的网络,一旦训练完成后,就可以在不进行任何更新的情况下对一个来自新的类的样本进行分类,解决了现有基于深度学习神经网络的字符识别方式严重限制新类别扩展的问题。
16.作为进一步的技术方案,将所述关系网络输出的识别语句输入gpt-3语言模型来预测一个句子在语言中出现的概率,在预测的概率低于设定的阈值时,返回所述关系网络重新进行识别,否则输出目标字符。
17.进一步地,所述设定的阈值可根据容许误差来确定。所述容许误差依赖于对识别精度的需求。
18.根据本发明说明书的一方面,提供一种基于关系网络的字符识别装置,包括:获取模块,用于获取手写字符的图像并进行预处理,得到预处理的图像数据集;关系网络识别模块,用于将所述预处理的图像数据集作为预先训练的关系网络的输入,获取所述关系网络的输出;
语言模型识别后处理模块,用于根据所述关系网络的输出,利用语言模型进行识别后处理,将满足概率要求的字符识别结果作为目标字符输出,将不满足概率要求的字符识别结果返回关系网络重新进行识别;其中,所述关系网络的训练包括:通过嵌入函数分别提取支持集和查询集的特征图,所述查询集为预处理的图像数据集,所述支持集为标准图像数据集;对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,得到各样本对应的字符识别结果;将各样本的字符识别结果组成一个句子作为关系网络的输出。
19.上述技术方案在经由获取模块得到预处理的图像数据集后,依次经关系网络识别模块进行识别处理、语言模型识别后处理模块进行识别后处理,且对于识别后处理中不符合概率要求的字符返回关系网络识别模块进行重新识别,保证了字符识别精度;同时,该技术方案可以在不进行任何更新的情况下对一个来自新的类的样本进行分类,不受数据迭代计算的限制,实现了对新的类别的可扩展性。
20.根据本发明说明书的一方面,提供一种电子设备,所述电子设备包括处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现所述的基于关系网络的字符识别方法的步骤。
21.根据本发明说明书的一方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现所述的基于关系网络的字符识别方法的步骤。
22.与现有技术相比,本发明的有益效果在于:本发明提供一种方法,该方法利用关系网络在小样本任务中的简单、灵活和通用的框架,对手写文本或办公文件的手写批注进行识别,相对于深度学习方法可以减少大量学习标签和数据迭代,便于对新类别的扩展;此外,对关系网络的识别结果,还基于语言模型进行识别后处理,进一步提高手写文本的字符识别精度。
23.本发明提供一种装置,该装置在经由获取模块得到预处理的图像数据集后,依次经关系网络识别模块进行识别处理、语言模型识别后处理模块进行识别后处理,且对于识别后处理中不符合概率要求的字符返回关系网络识别模块进行重新识别,保证了字符识别精度;同时,该技术方案可以在不进行任何更新的情况下对一个来自新的类的样本进行分类,不受数据迭代计算的限制,实现了对新的类别的可扩展性。
附图说明
24.图1为根据本发明实施例的基于关系网络的字符识别方法的流程示意图。
25.图2为根据本发明实施例的倾斜字符矫正流程示意图。
26.图3为根据本发明实施例的关系网络训练流程示意图。
27.图4为根据本发明实施例的关系网络的网络结构示意图。
28.图5为根据本发明实施例的基于关系网络的字符识别装置的示意图。
具体实施方式
29.以下将结合附图对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
30.本发明实施例提供了一种基于关系网络的字符识别方法,如图1所示,包括:步骤1,获取文书手写图像数据集。
31.具体地,可在办公室环境下用摄取图像的工具拍摄采集字符图像,为获取识别率高的图片,人工拍摄时应尽可能保证图像的清晰度。
32.可选地,也可通过扫描或其他方式获取待识别字符的图像。
33.步骤2,对获取的图像数据集进行预处理。
34.在办公场景中的文件多是批注形式,故大多数图片会以彩色形式出现,因此在获取到待识别的字符图像后,需进行图像预处理。具体来说,首先可以采用matlab预设的函数对图片进行灰度化处理;接着利用matlab自带小波去噪阈值方法对图片进行降噪处理;然后利用基于opencv的算法threshold对图像进行二值化处理;之后对图像进行字符切分和归一化,方便后续利用统一的算法。
35.可选地,对预处理后的图像数据集还可进行倾斜字符的矫正处理,如图2所示。这里基于opencv字符倾斜矫正算法,进一步保证关系网络的字符识别准确率。
36.基于opencv字符倾斜矫正算法可采用如下方式进行:将经过预处理的字符图像进行水平模糊,形成一个较大的连通区域,然后垂直投影后得到投影曲线,基于所述投影曲线计算倾斜字体的角度,对倾斜字体的像素坐标进行空间旋转变换,完成倾斜字体的矫正。
37.因为经过变换后所获得的结果必须进行取整操作,因此不可避免的造成图像失真,在这里用双线性插值的办法来减少取整所带来的失真,并对校正后的二值图像进行平滑处理,以消除插值带来的毛刺点。
38.步骤3,对预处理后的图像数据集进行特征提取。
39.关系网络识别步骤包括两个部分:特征提取和相关性得分计算。所述关系网络是一个端到端的网络,一旦训练完成后,该关系网络就可以在不进行任何更新的情况下对一个来自新的类的样本进行分类。
40.所述关系网络运用了元学习方法,关系网络的核心思想是学习一个嵌入函数,将输入空间(本发明中为字符图片)映射到一个新的嵌入空间,在这个新的嵌入空间中有一个相似性度量来区分不同类。
41.在国标中多达3500个常用字符中,训练一个基于关系网络图像字符识别的模型将会比训练一个基于深度学习的字符识别模型在训练内容上简便许多,特别是大量的标签内容和数据的大量迭代,严重限制了对于新类别的可扩展性,在关系网络中可以很好的避免。
42.如图3和图4所示,rn包含两个模块:由四个卷积块构成的嵌入模块;由两个卷积块和两个全连接层构成的相关性模块。其中,所述卷积块采用3
×
3的小卷积核和64个滤波器构成。两个全连接层中,一个用于将卷积输出的二维特征图转化成一维的一个向量,另一个用于利用sigmoid函数得到相关性得分。
43.在特征提取步骤,由于关系网络本身的特殊性,可以将样本集随机抽取样本和查询集一起输入到嵌入模块,通过嵌入函数处理得到特征图,随后将查询集的一个样本特征图和支持集所有样本特征图一一借助连接函数拼接起来,得到拼接的特征图。需要说明的是,所述支持集是带有标签的字符图像数据集(即标准图像数据集),以供训练关系网络;而所述查询集是待检测的经过预处理的字符图像数据集。
44.步骤4,将特征输入关系网络模型中进行相关性得分计算。
45.在相关性得分计算步骤,将拼接起来的特征图输入到相关性模块利用相关性计算函数来计算相关性得分,最后输出一个one-shot向量,表示查询集中图像和支持集图像相似程度最高的那一类。
46.在这里说明,关系网络是一种元学习模型,属于度量学习,关系网络在小样本甚至零样本问题上都能有良好的表现,具有良好的前景,其最大的特点就是,关系网络不仅学习了一种嵌入函数,还自主学习了一个度量。对于之前的手动人为预先定义的度量方法,关系网络进一步学习了一个可迁移的度量来比较图片之间的关系。
47.作为示例说明,来自于查询集,而来自于支持集;先用嵌入模块进行映射,得到图像特征和,然后用一个连接算子直接将两个向量串联起来;将得到的结果送到相关性模块中计算相关性得分,最后会产生一个0到1的相关性得分来表明与的相似度,共有n个得分,。
48.进一步来说,所述关系网络识别一个字符时,会和每一个支持集进行对比来获得相关性得分,一次对比为一个项,然后比较这些相关性得分,取最大值。输出一个最大项是1,其余是0的一维向量。最后看1对应的那个支持集,即为识别结果。
49.特别地,与常见分类任务采用交叉熵损失函数不同,关系网络采用均方误差对相似程度得分进行监督,优化目标函数如下:。
50.优化目标函数中,表示相关性得分,表示支持集中第i个图样样本,表示查询集中第j个图样样本,m表示支持集中图像样本的数量,n表示查询集中图像样本的数量,表示嵌入函数参数,表示相关性计算函数的参数。
51.需要说明的是,这种分类问题一般使用交叉熵,但是由于最后得分是一个0到1的关系得分,也可以看出是一个回归问题,因此使用了均方误差(mse,mean square error)作为损失函数。
52.步骤5,使用神经网络语言模型对识别的文字进行后处理。
53.在得到关系网络识别结果后,利用语言模型执行识别后处理。这里利用神经网络语言模型gpt-3。gpt-3主要的焦点是更为通用的自然语言处理模型,用更少的领域数据、且不经过精调步骤去解决问题,对字符识别的准确率提供了强大的帮助。
54.具体来说,将识别得到的字符输入到神经网络语言模型中,利用gpt-3来预测一个
句子在语言中出现的概率;在概率过低的情况下可以认为字符的识别结果是可能有误差的,因此需要返回关系网络重新识别处理,否则可以直接输出目标字符。
55.针对某个被输出的句子,其是由一段特定序列排序的词组成,gpt-3根据词语存在位置的合理性计算其概率,根据概率来评估关系网络字符识别的情况。需要说明的是,合理性是通过语言模型gpt-3的概率来量化的,在关系网络识别多个文字并组合在一起成为一句话时,例如“草是绿色的”和“草是活泼的”,按照合理性,第一种的概率很大,第二种的概率很小,则概率小的第二件即可被视为不合理。
56.如图5所示,本发明还提供一种基于关系网络的字符识别装置,包括:获取模块,用于获取手写字符的图像并进行预处理,得到预处理的图像数据集;关系网络识别模块,用于将所述预处理的图像数据集作为预先训练的关系网络的输入,获取所述关系网络的输出;语言模型识别后处理模块,用于根据所述关系网络的输出,利用语言模型进行识别后处理,将满足概率要求的字符识别结果作为目标字符输出,将不满足概率要求的字符识别结果返回关系网络重新进行识别;其中,所述关系网络的训练包括:通过嵌入函数分别提取支持集和查询集的特征图,所述查询集为预处理的图像数据集,所述支持集为标准图像数据集;对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,得到各样本对应的字符识别结果;将各样本的字符识别结果组成一个句子作为关系网络的输出。
57.所述获取模块,还用于采用matlab预设的函数对图片进行灰度化处理;接着利用matlab自带小波去噪阈值方法对图片进行降噪处理;然后利用基于opencv的算法threshold对图像进行二值化处理;之后对图像进行字符切分和归一化,方便后续利用统一的算法。
58.所述获取模块,还用于对预处理后的图像数据集还可进行倾斜字符的矫正处理。基于opencv字符倾斜矫正算法可采用如下方式进行:将经过预处理的字符图像进行水平模糊,形成一个较大的连通区域,然后垂直投影后得到投影曲线,基于所述投影曲线计算倾斜字体的角度,对倾斜字体的像素坐标进行空间旋转变换,完成倾斜字体的矫正。因为经过变换后所获得的结果必须进行取整操作,因此不可避免的造成图像失真,在这里用双线性插值的办法来减少取整所带来的失真,并对校正后的二值图像进行平滑处理,以消除插值带来的毛刺点。
59.所述关系网络识别模块,还用于在特征提取步骤,将样本集随机抽取样本和查询集一起输入到嵌入模块,通过嵌入函数处理得到特征图,随后将查询集的一个样本特征图和支持集所有样本特征图一一借助连接函数拼接起来,得到拼接的特征图。
60.所述关系网络识别模块,还用于在相关性得分计算步骤,将拼接起来的特征图输入到相关性模块利用相关性计算函数来计算相关性得分,最后输出一个one-shot向量,表示查询集中图像和支持集图像相似程度最高的那一类。
61.所述语言模型识别后处理模块,还用于将识别得到的字符输入到神经网络语言模型中,利用gpt-3来预测一个句子在语言中出现的概率;在概率过低的情况下可以认为字符
的识别结果是可能有误差的,因此需要返回关系网络重新识别处理,否则可以直接输出目标字符。
62.本发明还提供一种电子设备,该电子设备可以为工控机、服务器或计算机终端。
63.所述电子设备包括处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现所述的基于关系网络的字符识别方法的步骤。
64.该电子设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于关系网络的字符识别方法。
65.处理器用于提供计算和控制能力,支撑整个电子设备的运行。内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种基于关系网络的字符识别方法。
66.该网络接口用于进行网络通信,如发送分配的任务等。应当理解的是,处理器可以是中央处理单元(centralprocessingunit, cpu),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor, dsp)、专用集成电路(applicationspecificintegratedcircuit, asic)、现场可编程门阵列(field-programmablegatearray, fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
67.其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:获取手写字符的图像并进行预处理,得到预处理的图像数据集;将所述预处理的图像数据集作为预先训练的关系网络的输入,获取所述关系网络的输出;根据所述关系网络的输出,利用语言模型进行识别后处理,将满足概率要求的字符识别结果作为目标字符输出,将不满足概率要求的字符识别结果返回关系网络重新进行识别;其中,所述关系网络的训练包括:通过嵌入函数分别提取支持集和查询集的特征图,所述查询集为预处理的图像数据集,所述支持集为标准图像数据集;对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,得到各样本对应的字符识别结果;将各样本的字符识别结果组成一个句子作为关系网络的输出。
68.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
69.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
70.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
71.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
72.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现所述的基于关系网络的字符识别方法的步骤。
73.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案。

技术特征:
1.基于关系网络的字符识别方法,其特征在于,包括:获取手写字符的图像并进行预处理,得到预处理的图像数据集;将所述预处理的图像数据集作为预先训练的关系网络的输入,获取所述关系网络的输出;根据所述关系网络的输出,利用语言模型进行识别后处理,将满足概率要求的字符识别结果作为目标字符输出,将不满足概率要求的字符识别结果返回关系网络重新进行识别;其中,所述关系网络的训练包括:通过嵌入函数分别提取支持集和查询集的特征图,所述查询集为预处理的图像数据集,所述支持集为标准图像数据集;对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,得到各样本对应的字符识别结果;将各样本的字符识别结果组成一个句子作为关系网络的输出。2.根据权利要求1所述基于关系网络的字符识别方法,其特征在于,对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,还包括:将查询集中一个样本特征图与支持集中所有样本特征图进行拼接,得到拼接的特征图,并对所述拼接的特征图进行相关性得分计算,输出得分最高的字符作为当前样本对应的字符识别结果。3.根据权利要求1所述基于关系网络的字符识别方法,其特征在于,所述预处理包括:依次对图像进行灰度化、降噪、二值化、字符切分及归一化处理。4.根据权利要求3所述基于关系网络的字符识别方法,其特征在于,在预处理后,还包括:将预处理后的字符图像进行水平模糊,形成连通区域;基于所述连通区域进行垂直投影,得到投影曲线;基于所述投影曲线计算倾斜字符的角度,对倾斜字符的像素坐标进行空间旋转变换,完成倾斜字体的矫正。5.根据权利要求1所述基于关系网络的字符识别方法,其特征在于,所述关系网络包括嵌入模块和相关性模块;所述嵌入模块包括四个卷积块,用于对输入的支持集和查询集的图像分别提取支持集和查询集的特征图;所述相关性模块包括两个卷积块和两个全连接层,两个卷积块用于将所述查询集的特征图和支持集中各个图像样本所对应的特征图两两串联起来,两个全连接层用于将卷积输出的二维特征图转化为一维的向量,然后基于所述一维向量利用sigmoid函数计算相关性得分。6.根据权利要求1所述基于关系网络的字符识别方法,其特征在于,将所述关系网络输出的识别语句输入gpt-3语言模型来预测一个句子在语言中出现的概率,在预测的概率低于设定的阈值时,返回所述关系网络重新进行识别,否则输出目标字符。7.基于关系网络的字符识别装置,其特征在于,包括:获取模块,用于获取手写字符的图像并进行预处理,得到预处理的图像数据集;关系网络识别模块,用于将所述预处理的图像数据集作为预先训练的关系网络的输入,获取所述关系网络的输出;语言模型识别后处理模块,用于根据所述关系网络的输出,利用语言模型进行识别后
处理,将满足概率要求的字符识别结果作为目标字符输出,将不满足概率要求的字符识别结果返回关系网络重新进行识别;其中,所述关系网络的训练包括:通过嵌入函数分别提取支持集和查询集的特征图,所述查询集为预处理的图像数据集,所述支持集为标准图像数据集;对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,得到各样本对应的字符识别结果;将各样本的字符识别结果组成一个句子作为关系网络的输出。8.一种电子设备,其特征在于,所述电子设备包括处理器、存储器,以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至6中任一项所述的基于关系网络的字符识别方法的步骤。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的基于关系网络的字符识别方法的步骤。

技术总结
本发明公开一种基于关系网络的字符识别方法、装置、设备及介质,方法包括:获取手写字符的图像并进行预处理,得到预处理的图像数据集;将预处理的图像数据集作为预先训练的关系网络的输入,获取关系网络的输出;根据关系网络的输出,利用语言模型进行识别后处理,将满足概率要求的字符识别结果作为目标字符输出,将不满足概率要求的字符识别结果返回关系网络重新识别;关系网络的训练包括:通过嵌入函数分别提取支持集和查询集的特征图;对查询集的每一样本特征图分别进行特征图拼接及相关性得分计算,得到各样本对应的字符识别结果;将各样本的字符识别结果组成一个句子作为关系网络的输出。系网络的输出。系网络的输出。


技术研发人员:肖剑波 俞翔 谢海燕 张乔斌 楼京俊 黎恒智 张振海 胡世峰
受保护的技术使用者:中国人民解放军海军工程大学
技术研发日:2023.03.13
技术公布日:2023/8/4
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐