一种数据信息的识别方法、装置及设备与流程

未命名 08-07 阅读:71 评论:0


1.本发明涉及文字识别领域,特别是一种数据信息的识别方法、装置及设备。


背景技术:

2.目前针对企业发票中的文字识别常用ocr(optical character recognition,光学字符识别)技术,ocr领域中,各种数据信息识别技术不断涌现,性能良好的识别技术大多都是基于深度学习算法。
3.但是,当待识别的数据信息需要从还有其他无关信息和干扰信息的纸质文档信息中提取时,由于文档图像内存在非字符数据信息、采图设备参差、字体多变以及排布丰富等的原因,传统的ocr技术识别效果较差,数据信息识别技术达不到良好的效果。


技术实现要素:

4.本发明要解决的技术问题是提供一种数据信息的识别方法、装置及设备,解决了无关信息和干扰信息对发票图像中数据信息识别的影响,克服了字体多变与设备参差所导致的发票识别效率低的问题。
5.为解决上述技术问题,本发明的技术方案如下:
6.一种数据信息的识别方法,包括:
7.获取待提取的第一发票图像;
8.对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;
9.将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;
10.将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的。
11.可选的,对所述第一发票图像进行预处理,得到第二发票图像,包括:
12.对所述第一发票图像进行缩放处理,得到目标尺寸的第二发票图像。
13.可选的,所述预设位置网络模型通过以下过程训练得到:
14.获取训练图像集;所述训练图像集包括至少一张训练图像;
15.将所述训练图像的标签信息输入至少两层预设网络层进行处理,得到第一训练结果;所述预设网络层包括卷积层、批标准化层以及激活函数层;
16.将所述第一训练结果输入至少三层残差块层进行处理,得到第二训练结果;
17.将所述第二训练结果输入至少一层预设网络层进行处理,得到第三训练结果;
18.通过所述卷积层对所述第三训练结果进行处理,得到标注了至少一个预测框的标注图像。
19.可选的,数据信息的识别方法,还包括:
20.根据所述标注图像中标注的至少一个预测框,计算坐标损失值、置信度损失以及
分类损失值;
21.通过所述坐标损失值、置信度损失以及分类损失值,确定所述预设位置网络模型的损失值。
22.可选的,将所述第一训练结果输入至少三层残差块层进行处理,得到第二训练结果,包括:
23.将所述第一训练结果依次输入第一预设网络层、第二预设网络层以及第三预设网络层进行处理,分别得到第一处理结果、第二处理结果以及第三处理结果;
24.根据所述第二处理结果与第三处理结果进行拼接处理,得到第四处理结果;
25.将所述第四处理结果输入第四预设网络层进行处理,得到第五处理结果;
26.根据所述第一处理结果与第五处理结果进行拼接处理,得到第六处理结果;
27.将所述第六处理结果输入最大池化层,得到第二训练结果。
28.可选的,所述预设识别网络模型通过以下过程训练得到:
29.将标注了至少一个预测框的所述标注图像输入卷积网络层进行提取处理,得到至少一个数据信息特征;
30.将至少一个所述数据信息特征经过特征序列转换层进入循环网络层,得到预测数据信息;
31.将所述预测数据信息输入转录层,得到输出结果。
32.可选的,所述循环网络层包括至少两层的隐藏神经元数量为预设数目的长短期记忆递归神经网络。
33.本发明还提供一种数据信息的识别装置,包括:
34.获取模块,用于获取待提取的第一发票图像;
35.处理模块,用于对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的。
36.本发明还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上述的方法。
37.本发明还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上述的方法。
38.本发明的上述方案至少包括以下有益效果:
39.本发明的上述方案,通过获取待提取的第一发票图像;对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的;解决了无关信息和干扰信息对发票图像中数据信息识别的影响,克服了字体多变与设备参差所导致的发票识别效率低的问题,识别效果较好,准确率高。
附图说明
40.图1是本发明实施例的数据信息的识别方法的流程示意图;
41.图2是本发明提供的具体实施例中预设位置网络模型的模型架构示意图;
42.图3是本发明实施例的预设网络层的架构示意图;
43.图4是本发明实施例的残差块层的架构示意图;
44.图5是本发明实施例的预设识别网络模型的架构示意图;
45.图6是本发明实施例的训练预设识别网络模型的流程示意图;
46.图7是本发明提供的具体实施例中数据信息的识别方法的流程架构示意图;
47.图8是本发明实施例的数据信息的识别装置的结构示意图。
具体实施方式
48.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
49.如图1所示,本发明的实施例提出一种数据信息的识别方法,包括:
50.步骤11,获取待提取的第一发票图像;
51.步骤12,对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;
52.步骤13,将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;
53.步骤14,将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的。
54.该实施例中,通过获取第一发票图像,该第一发票图像中存在待提取的数据信息,对该第一发票图像进行预处理,得到目标尺寸的第二发票图像,这里的预处理优选与预设位置网络模型训练过程中的预处理过程相同,加载训练完成的预设位置网络模型和预设识别网络模型,将目标尺寸的第二发票图像作为预测样本输入至预设位置网络模型,确定该第二发票图像中至少一项数据信息所在的区域图像,即根据该预设位置网络模型确定第二发票图像中数据信息对应的位置信息,将该位置信息对应的区域图像输入至预设识别网络模型进行识别处理,训练好的预设识别网络模型会对区域图像的数据信息进行识别和预测,得到数据信息;本发明的实施例的方案解决了无关信息和干扰信息对发票图像中数据信息识别的影响,克服了字体多变与设备参差所导致的发票识别效率低的问题,识别效果较好,准确率高。
55.需要说明的是,第一发票图像优选为待提取的企业发票的图像,可以是对实体的发票进行至少一次的拍摄得到的,也可以是通过对的实体的发票进行扫描得到的,本技术不以此为限制,通过上述训练好的预设位置网络模型和预设识别网络模型对第一发票图像的识别,可以适应各种复杂环境下得到的图像,大大提高了图像中数据信息识别的准确率。
56.本发明一可选的实施例中,步骤12,包括:
57.步骤121,对所述第一发票图像进行缩放处理,得到目标尺寸的第二发票图像。
58.本发明的实施例中,对第一发票图像的预处理可以包括对第一发票图像进行缩放处理,得到目标尺寸的第二发票图像,还可以包括对第一发票图像进行筛选、摩尔纹去除处理、图像倾斜校正处理、图像增强处理等,可根据实际需求选择图像的预处理方式,本技术不以此为限制;
59.另外,这里的目标尺寸优选为与预设位置网络模型的输入尺寸一致,如,预设位置网络模型的输入图像的尺寸可以为640
×
480,则对第一发票图像进行缩放处理后得到的第二发票图像优选为640
×
480的三通道图像;通过对输入预设位置网络模型的图像尺寸进行统一,可以提高了预设位置网络模型的位置信息识别效果。
60.本发明一可选的实施例中,步骤13中所述预设位置网络模型通过以下过程训练得到:
61.步骤131,获取训练图像集;所述训练图像集包括至少一张训练图像;
62.步骤132,将所述训练图像的标签信息输入至少两层预设网络层进行处理,得到第一训练结果;所述预设网络层包括卷积层、批标准化层以及激活函数层;
63.步骤133,将所述第一训练结果输入至少三层残差块层进行处理,得到第二训练结果;
64.步骤134,将所述第二训练结果输入至少一层预设网络层进行处理,得到第三训练结果;
65.步骤135,通过所述卷积层对所述第三训练结果进行处理,得到标注了至少一个预测框的标注图像。
66.本发明的实施例中,通过获取训练图像集,该训练图像集中包括多张训练图像,对该训练图像进行预处理,得到均为目标尺寸的训练图像,对训练图像的位置进行标注,这里,将经过预处理的训练图像集可记作d,待识别的训练图像的数据类型的数量可记作c;预设位置网络模型用于预测数据信息在训练图像中的至少一个预测框的坐标;
67.如图2所示,具体的,将训练图像的标签信息依次输入第一层预设网络层和第二层预设网络层进行处理,得到第一训练结果;这里的标签信息包括数据信息在图像中的位置坐标和数据信息的数据类型;
68.将第一训练结果依次输入第一层残差块层、第二层残差块层以及第三层残差块层进行处理,得到第二训练结果;值得说明的是,目标尺寸的训练图像通过第一层预设网络层、第二层预设网络层、第一层残差块层、第二层残差块层以及第三层残差块层,其尺寸会减小,经过每一层均会减小一半;
69.将第二训练结果输入第三层预设网络层进行处理,得到第三训练结果;通过卷积层对第三训练结果进行处理,得到标注了至少一个预测框的训练图像,通过上述网络训练完成后,可得到预设位置网络模型的所有神经元的权重,进而确定权重模型,该训练好的预设位置网络模型会被保存并用于后续预设识别网络模型的训练和预测,该训练好的预设位置网络模型可被记为θ;这里的预测框的数量与该预设位置网络模型中先验框的数量以及数据类型的数量相关;
70.这里对预设网络层进行说明:
71.如图3所示,每层预设网络层由卷积层(convolutional layer)、批标准化层(batch normalization)以及激活函数层(leakyrelu)连接而成;
72.其中,卷积层用于对输入图像采用多个不同的卷积核进行处理,得到不同的响应特征图;
73.批标准化层用于对所有的批处理数据求均值与方差,之后像素值与均值求差之后除以方差进行规范化,同时加入偏移因子与尺度变化因子控制归一化后的值,该偏移因子与尺度变化因子的值由神经网络在训练中学习得到的;其中,卷积层得到的特征图个数为m,特征图大小为w*h(即图像像素点个数),批标准化层的数据量为m*w*h;
74.激活函数层优选为leaky relu函数,是线性整流函数(rectified linear unit, relu)的变体,是基于relu函数的负半区间引入一个泄露(leaky)值,该函数输出对负值输入有较小的坡度,由于导数总不为零,能减少静默神经元的出现,允许基于梯度的学习,解决了relu函数进入负区间后,导致神经元不学习的问题。
75.如图2所示,一个具体的实施例中,以数据类型的数量c=1为例展示训练图像中数据的流向以及维度变化,对于预设位置网络模型,训练的标签信息包括数据信息在图像中的位置坐标和数据信息的数据类型;当预设位置网络模型训练好后,为了对企业发票中的数据信息所在的区域图像进行提取,通过摄像设备拍摄企业发票,得到第一图像;
76.对拍摄得到的第一图像进行缩放处理,得到640
×
480
×
3的第二图像,其中,640和480分别为第二图像的高和宽,3为第二图像的先验框的数量;将640
×
480
×
3的第二图像输入至预设位置网络模型,依次通过第一层的预设网络层以及第二层的预设网络层对第二图像进行处理,得到320
×
240
×
32的第三图像和160
×
120
×
64的第四图像;
77.进一步依次通过三层的残差块层进行处理,分别得到80
×
60
×
128的第五图像、40
×
30
×
256的第六图像以及20
×
15
×
512的第七图像;
78.将第七图像输入第三层的预设网络层进行处理,得到20
×
15
×
512的第八图像,通过卷积层对第八图像进行处理,得到标注了18个预测框的20
×
15
×
18的训练图像;
79.其中,一共使用3个先验框,先验框用于提前设置好目标数据信息的宽和高,先验框的宽和高的数据由聚类k-means算法得到,h
×w×
a的第一至第八图像中,h
×
w表示该图像的尺寸,a表示预测结果的数量,预测结果的数量通过公式a=x
×
(4+1+c)得到,其中,x=3表示先验框的个数,4表示预测框的目标边界的偏移量,包括横轴x、纵轴y、宽w以及高h,即预测框的目标边界框的坐标、宽度以及高度,1表示置信度,c表示数据类型的数量;如图2所示,图2中的预设位置网络模型的数据类型的数量c=1,通过a=x
×
(4+1+c)=18的计算,可以得到的预测结果有18个值,即标注了18个预测框的20
×
15
×
18的训练图像。
80.本发明一可选的实施例中,步骤13中所述预设位置网络模型的过程训练还包括:
81.步骤136,根据所述标注图像中标注的至少一个预测框,计算坐标损失值、置信度损失以及分类损失值;
82.步骤137,通过所述坐标损失值、置信度损失以及分类损失值,确定所述预设位置网络模型的损失值。
83.本发明的实施例中,根据训练好的图像中标注的至少一个预测框,可以分别计算得到坐标损失值、置信度损失以及分类损失值;
84.坐标损失值为,其中,μ
coord
为正样本权重系数(优选μ
coord
=1),wj为第j个预测框中心点的宽,hj为第j个预测框中心点的高,为第一判断参数,该第一判断参数用于表示该预测框是否为正样本,当且仅当生成的预测框与标签信息的iou值大于0.5却为最大时,,其他情况下;其中,iou(intersection over union,重叠度)值是一种测量在数据集中检测相应物体准确度的一个标准;ciou为位置损失函数,l为预测框的第一尺寸值,m为预测框的第二尺寸值,n为预测框的个数,通常与先验框个数相同;其中,该坐标损失值为正样本的坐标损失,(2-wj×hj
)为惩罚项;
85.置信度损失为,其中,为第j个样本值,aj为第j个预测值,μ
noobj
为负样本权重系数, 为第二判断参数,该第二判断参数用于表示该预测框是否不存在正样本,存在为0,不存在则为1;这里使用交叉熵计算正样本和负样本的置信度损失;
86.分类损失值为,其中, 为属于该数据类型的真实概率,pj(c)为预测概率;这里使用交叉熵计算正样本的分类损失;
87.根据上述坐标损失值loss(θ)1、置信度损失loss(θ)2以及分类损失值loss(θ)3,通过公式loss(θ)= loss(θ)1‑ꢀ
loss(θ)2‑ꢀ
loss(θ)3,确定预设位置网络模型的损失值 loss(θ);
88.在预设位置网络模型的训练过程中采用mini-batch(小批量)梯度下降法,并使用adam优化器来减小损失,其中,通过mini-batch(小批量)梯度下降法可以随机选取数据中一定量的数据(预测框)进行训练,然后计算损失函数更新梯度,这样既降低了计算量,又提高了训练速度。
89.本发明一可选的实施例中,步骤133包括:
90.步骤1331,将所述第一训练结果依次输入第一预设网络层、第二预设网络层以及第三预设网络层进行处理,分别得到第一处理结果、第二处理结果以及第三处理结果;
91.步骤1332,根据所述第二处理结果与第三处理结果进行拼接处理,得到第四处理结果;
92.步骤1333,将所述第四处理结果输入第四预设网络层进行处理,得到第五处理结果;
93.步骤1334,根据所述第一处理结果与第五处理结果进行拼接处理,得到第六处理结果;
94.步骤1335,将所述第六处理结果输入最大池化层,得到第二训练结果。
95.如图4所示,本发明的实施例中,残差块层由由4层卷积块层与1层最大池化层构成,将卷积块层按顺序记为cbli,i=1,2,3,4,其中,对第一训练结果依次通过第一预设网络
层、第二预设网络层以及第三预设网络层进行处理,第一预设网络层cbl1的输出与第四预设网络层cbl4的输出拼接,得到第四处理结果,将第四处理结果输入第四预设网络层进行处理,得到第五处理结果,第二预设网络层cbl2的输出与第三预设网络层cbl3的输出拼接,得到第六处理结果,最后经过最大池化层,得到第二训练结果;
96.其中,最大池化层作用为:一,对卷积层所提取的信息做更一步降维,减少计算量;二,加强图像特征的不变性,使之增加图像的偏移、旋转等方面的鲁棒性。
97.本发明一可选的实施例中,步骤14中所述预设识别网络模型通过以下过程训练得到:
98.步骤141,将标注了至少一个预测框的预测图像输入卷积网络层进行提取处理,得到至少一个数据信息特征;
99.步骤142,将至少一个所述数据信息特征经过特征序列转换层进入循环网络层,得到预测数据信息;
100.步骤143,将所述预测数据信息输入转录层,得到输出结果。
101.其中,所述循环网络层包括至少两层的隐藏神经元数量为预设数目的长短期记忆递归神经网络。
102.本发明的实施例中,预设识别网络模型用于预测区域图像中实际的数据信息,该模型可记作φ,该预设识别网络模型是基于已训练好的预设位置网络模型输出的预测图像进行训练得到的,即预设识别网络模型的训练数据由预设位置网络模型得到,对标注了至少一个预测框的预测图像进行手工标注,可得到用于预设识别网络模型输入训练的待处理图像;其中,步骤141之前优选还包括将预测图像进行灰度处理,得到l
×
32的灰度图;
103.如图5所示,预设识别网络模型包括卷积网络层、循环网络层以及转录层,预设识别网络模型的数据流向为由卷积网络层至转录层;
104.其中,卷积网络层包括7层卷积层、4层最大池化层以及3层批标准化层,卷积网络层用于提取数据信息特征;提取的至少一个数据信息特征可经过特征序列转换层进入循环网络层,每个特征的长度为卷积网络层输出的数据信息特征的通道数,时间序列的长度为卷积网络层输出的数据信息特征的宽度,循环网络层能够有效地提高数据信息识别的准确率;循环网络层包括至少两层的隐藏神经元数量为预设数目的长短期记忆递归神经网络(lstm);循环网络层的输出在转录层被转换为标签序列;
105.转录层优选为ctc(connectionist temporal classification,连接时序分类)模型,可以解决该预设识别网络模型输出的数据信息长度和标签序列的长度不一致的问题,通过ctc模型计算得到损失后可进行反向传播与梯度下降处理,该预设识别网络模型的训练同样使用mini-batch梯度下降法和adam优化器来减小损失;
106.通过上述网络训练完成后,可得到预设识别网络模型的所有神经元的权重,进而确定预设识别网络模型的权重模型,该训练好的预设识别网络模型会被保存并用于预测数据信息,该训练好的预设识别网络模型可被记为φ。
107.如图5和6所示,又一具体的实施例中,基于已确定了至少一个区域图像的第二发票图像,该第二发票图像中的区域图像经过灰度处理,得到100
×
32
×
1的灰度图,将该100
×
32的灰度图输入预设识别网络模型,通过卷积网络层,由于在每个最大池化层的处理之后图像的数据尺寸均会发生改变,经卷积网络层处理,可得到25
×1×
512的数据信息特征;
108.通过特征序列转换层将25
×1×
512的图像处理成序列长度t=25的序列数据,且每个数据信息特征的长度l
x
=512,经过两层隐藏神经元数量为512的双向lstm(长短期记忆递归神经)网络,得到预测数据信息;通过循环网络层后,在转录层将循环网络层的输出进行转换,得到输出结果(数据信息);
109.训练好的预设位置网络模型和预设识别网络模型可适用于各种恶劣环境下得到的发票图像,识别的准确率高。
110.如图7所示,再一具体的实施例中,数据信息的识别方法包括预设位置网络模型和预设识别网络模型的训练过程以及第一发票图像的预测过程;
111.其中,先训练预设位置网络模型,获取训练样本集,该训练样本集包括多个训练样本,对每个训练样本进行图像预处理,处理后的图像输入预设位置网络模型进行网络训练,得到训练好的预设位置网络模型,该预设位置网络模型的网络训练过程如图2-4所示;
112.基于训练好的预设位置网络模型输出的数据信息位置对应的区域图像,对预设识别网络模型进行网络训练,得到训练好的预设识别网络模型,该预设位置网络模型的网络训练过程如图5、6所示;
113.对待提取的第一发票图像进行图像预处理,得到处理后的第二发票图像,将第二发票图像输入训练好的预设位置网络模型,确定第二发票图像中的多个数据信息的位置对应的区域图像,将区域图像作为输入值,输入值训练好的预设识别网络模型进行识别,得到数据信息,该数据信息即为发票图像中的待提取的文字信息,该文件信息包括不同字体的文本信息,解决了无关信息和干扰信息对发票图像中数据信息识别的影响,预设识别网络模型解决了字体多变与设备参差的问题,实现了较好的识别效果,为后续的对发票图像中的数据信息的进一步处理奠定了良好基础。
114.本发明的实施例通过获取待提取的第一发票图像;对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的,从而解决了无关信息和干扰信息对发票图像中数据信息识别的影响,克服了字体多变与设备参差所导致的发票识别效率低的问题,识别效果较好,准确率高。
115.如图8所示,本发明的实施例还提供一种数据信息的识别装置80,包括:
116.获取模块81,用于获取待提取的第一发票图像;
117.处理模块82,用于对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的。
118.可选的,对所述第一发票图像进行预处理,得到第二发票图像,包括:
119.对所述第一发票图像进行缩放处理,得到目标尺寸的第二发票图像。
120.可选的,所述预设位置网络模型通过以下过程训练得到:
121.获取训练图像集;所述训练图像集包括至少一张训练图像;
122.将所述训练图像的标签信息输入至少两层预设网络层进行处理,得到第一训练结果;所述预设网络层包括卷积层、批标准化层以及激活函数层;
123.将所述第一训练结果输入至少三层残差块层进行处理,得到第二训练结果;
124.将所述第二训练结果输入至少一层预设网络层进行处理,得到第三训练结果;
125.通过所述卷积层对所述第三训练结果进行处理,得到标注了至少一个预测框的标注图像。
126.可选的,处理模块82还包括:
127.根据所述标注图像中标注的至少一个预测框,计算坐标损失值、置信度损失以及分类损失值;
128.通过所述坐标损失值、置信度损失以及分类损失值,确定所述预设位置网络模型的损失值。
129.可选的,将所述第一训练结果输入至少三层残差块层进行处理,得到第二训练结果,包括:
130.将所述第一训练结果依次输入第一预设网络层、第二预设网络层以及第三预设网络层进行处理,分别得到第一处理结果、第二处理结果以及第三处理结果;
131.根据所述第二处理结果与第三处理结果进行拼接处理,得到第四处理结果;
132.将所述第四处理结果输入第四预设网络层进行处理,得到第五处理结果;
133.根据所述第一处理结果与第五处理结果进行拼接处理,得到第六处理结果;
134.将所述第六处理结果输入最大池化层,得到第二训练结果。
135.可选的,所述预设识别网络模型通过以下过程训练得到:
136.将标注了至少一个预测框的所述标注图像输入卷积网络层进行提取处理,得到至少一个数据信息特征;
137.将至少一个所述数据信息特征经过特征序列转换层进入循环网络层,得到预测数据信息;
138.将所述预测数据信息输入转录层,得到输出结果。
139.可选的,所述循环网络层包括至少两层的隐藏神经元数量为预设数目的长短期记忆递归神经网络。
140.需要说明的是,该装置是与上述方法对应的装置,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
141.本发明的实施例还提供一种计算设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
142.本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
143.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出
本发明的范围。
144.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
145.在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
146.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
147.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
148.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
149.此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
150.因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
151.以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员
来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种数据信息的识别方法,其特征在于,包括:获取待提取的第一发票图像;对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的。2.根据权利要求1所述的数据信息的识别方法,其特征在于,对所述第一发票图像进行预处理,得到第二发票图像,包括:对所述第一发票图像进行缩放处理,得到目标尺寸的第二发票图像。3.根据权利要求1所述的数据信息的识别方法,其特征在于,所述预设位置网络模型通过以下过程训练得到:获取训练图像集;所述训练图像集包括至少一张训练图像;将所述训练图像的标签信息输入至少两层预设网络层进行处理,得到第一训练结果;所述预设网络层包括卷积层、批标准化层以及激活函数层;将所述第一训练结果输入至少三层残差块层进行处理,得到第二训练结果;将所述第二训练结果输入至少一层预设网络层进行处理,得到第三训练结果;通过所述卷积层对所述第三训练结果进行处理,得到标注了至少一个预测框的标注图像。4.根据权利要求3所述的数据信息的识别方法,其特征在于,还包括:根据所述标注图像中标注的至少一个预测框,计算坐标损失值、置信度损失以及分类损失值;通过所述坐标损失值、置信度损失以及分类损失值,确定所述预设位置网络模型的损失值。5.根据权利要求3所述的数据信息的识别方法,其特征在于,将所述第一训练结果输入至少三层残差块层进行处理,得到第二训练结果,包括:将所述第一训练结果依次输入第一预设网络层、第二预设网络层以及第三预设网络层进行处理,分别得到第一处理结果、第二处理结果以及第三处理结果;根据所述第二处理结果与第三处理结果进行拼接处理,得到第四处理结果;将所述第四处理结果输入第四预设网络层进行处理,得到第五处理结果;根据所述第一处理结果与第五处理结果进行拼接处理,得到第六处理结果;将所述第六处理结果输入最大池化层,得到第二训练结果。6.根据权利要求3所述的数据信息的识别方法,其特征在于,所述预设识别网络模型通过以下过程训练得到:将标注了至少一个预测框的所述标注图像输入卷积网络层进行提取处理,得到至少一个数据信息特征;将至少一个所述数据信息特征经过特征序列转换层进入循环网络层,得到预测数据信息;
将所述预测数据信息输入转录层,得到输出结果。7.根据权利要求6所述的数据信息的识别方法,其特征在于,所述循环网络层包括至少两层的隐藏神经元数量为预设数目的长短期记忆递归神经网络。8.一种数据信息的识别装置,其特征在于,包括:获取模块,用于获取待提取的第一发票图像;处理模块,用于对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的。9.一种计算设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。

技术总结
本发明提供一种数据信息的识别方法、装置及设备,所述方法包括:获取待提取的第一发票图像;对所述第一发票图像进行预处理,得到目标尺寸的第二发票图像;将所述第二发票图像输入预设位置网络模型,得到所述第二发票图像中数据信息所在的区域图像;所述预设位置网络模型包括至少一层预设网络层、至少一层残差块层以及卷积层;将所述区域图像输入预设识别网络模型进行识别,确定所述区域图像中的数据信息;所述预设识别网络模型是根据所述预设位置网络模型训练得到的;本发明的方案识别效果较好,准确率高。准确率高。准确率高。


技术研发人员:万源星 马军跃
受保护的技术使用者:杭州雪晴科技有限责任公司
技术研发日:2023.03.02
技术公布日:2023/8/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐