航空计划通知单信息提取方法、装置、设备及存储介质与流程

未命名 08-07 阅读:163 评论:0


1.本技术涉及信息提取的技术领域,尤其是涉及一种航空计划通知单信息提取方法、装置、设备及存储介质。


背景技术:

2.航班计划通知单是一种包含序号、航班日期、航班号、性质、机号等信息的航班计划表。但是,由于安全保密等原因,航班计划通知单无法通过互联网进行传输,而只能通过传统的传真方式进行传输,因此,当需要将航班计划通知单中的信息进行结构化时就需要借助ocr技术来进行。
3.不过,航班计划通知单与普通表格存在不同之处,有些航班计划通知单的单页信息稠密,单页中无表格线,而且由于拍照环境的影响,图片存在倾斜、畸变、阴影等识别干扰因素,从而使得在使用普通表格识别方法进行航空通知单信息时识别精度差。


技术实现要素:

4.为了提升对文字稠密且无表格线的航空计划通知单的识别精度,本技术提供一种航空计划通知单信息提取方法、装置、设备及存储介质。
5.第一方面,本技术提供一种航空计划通知单信息提取方法,采用如下的技术方案:一种航空计划通知单信息提取方法,包括:获取训练样本集和预训练模型,基于所述训练样本集对所述预训练模型进行迁移学习,生成训练好的信息提取模型;获取待提取通知单图像,将所述待提取通知单图像进行预处理,生成第一数据,其中,所述预处理包括行线提取;将所述第一数据输入至所述信息提取模型,生成第二数据;对所述第二数据进行后处理,生成提取信息,其中,所述后处理包括动态表格版面恢复。
6.通过采用上述技术方案,使用训练样本集对预训练模型进行迁移学习训练,生成用于进行信息提取的信息提取模型,信息提取模型的识别精度更加准确,并且信息提取模型根据待提取通知单图像进行训练,更加符合对待提取通知单图像类型内容提取的提取需求,将需要进行信息提取的待提取通知单图像进行预处理,将待提取通知单图像处理成为便于信息提取模型进行信息提取的第一数据,把第一数据输入到信息提成模型中进行信息提取识别,得到第二数据,在得到第二数据后对第二数据进行后处理,即对识别后的第二数据再次校准纠错,减少错误的产生,从而提升了对文字稠密且无表格线的航空计划通知单的识别精度。
7.可选的,所述预训练模型包括第一预处理模型和第二预处理模型,所述信息提取模型包括第一信息提取模型和第二信息提取模型;所述基于所述训练样本集对所述预训练模型进行迁移学习,生成训练好的信息提取模型训练样本集包括:
将所述训练样本集输入至所述第一预训练模型,生成问题数据集;获取目标需求,基于所述目标需求对所述问题数据集进行标注修正,生成标注数据集;基于所述标注数据集对所述第一预训练模型进行迁移学习生成第一信息提取模型;对所述训练样本集就行形变处理生成形变样本集;获取文字识别基础字典,基于预设修改需求对所述文字识别基础字典进行修改,生成目标字典;基于所述形变样本集和所述目标字典所述第二预训练模型进行迁移学习生成第二信息提取模型。
8.通过采用上述技术方案,首先通过训练训练样本集和第一预训练模型得到问题数据集,将问题数据集与目标需求对比,可以获得需要进行修改和训练的数据,将上述数据进行总和生成标注数据集,使用标注数据集对第一预训练模型进行迁移学习得到第一信息提取模型,能够减少问题数据集中问题数据的产生,使得识别更加准确,形变样本集中的训练样本数据更加贴合实际的待提取通知单图像,得到的第二信息提取模型的识别精度也越高,从而使得最后的识别结果更加准确。
9.可选的,所述预处理还包括边缘裁剪、图像去噪和图像旋转;所述对所述待提取通知单图像进行预处理还包括:基于轮廓检测法去除所述待提取通知单图像中文字四周的空白部分,生成边缘裁剪图像;去除所述边缘裁剪图像中的噪点生成去躁图像;对所述去噪图像的文字方向进行估计,基于文字方向估计结果对所述处理去噪图像进行旋转,生成旋转图像。
10.可选的,所述对所述去噪图像的文字方向进行估计,基于文字方向估计结果对所述处理去噪图像进行旋转,生成旋转图像包括:获取预设进步角度值和取值范围,基于所述预设进步角度值和所述取值范围确定步进值的步进范围;获取所述去躁图像的行像素值,基于所述行像素值、所述步进范围和所述预设计算公式计算旋转分数;选取所述旋转分数中的最大值,将所述最大值对应的角度值作为文字方向估计结果;基于所述文字方向估计结果对所述去燥图像进行旋转,生成旋转图像。
11.可选的,所述预处理还包括图像切割;在所述对所述去噪图像的文字方向进行估计,基于文字方向估计结果对所述去噪图像进行旋转,生成旋转图像之后,还包括:获取判断阈值,基于所述判断阈值和所述行像素值进行行线提取,生成目标行线;获取目标分割数量,基于所述目标分割数量和所述目标行线对所述旋转图像进行图像切割,生成第一数据。
12.可选的,所述第二数据包括文本框位置坐标,所述动态表格版面恢复包括确定所述文本框所在行和所述文本框所在列;所述对所述第二数据进行后处理,生成提取信息包括:基于所述文本框位置坐标确定文本框的高度和宽度;
基于所述高度确定所述文本框所在行;获取文本框中文本的文本特征和所述待提取航空计划通知单中每一列的信息特征;基于所述文本特征、所述信息特征和所述宽度确定所述文本框所在列;获取所述文本框中的文本数据,对所述文本数据进行纠错处理生成目标数据;基于所述文本框所在行、所述文本框所在列和所述目标数据生成提取信息。
13.可选的,所述后处理还包括信息文本纠错;所述对所述文本数据进行纠错处理生成目标数据包括:获取机场信息,基于所述机场信息创建文本纠错字典;获取所述文本纠错字典中所述机场信息的出现频率;基于所述出现频率和所述文本纠错字典对所述文本数据进行文本纠错处理生成目标数据。
14.第二方面,本技术提供一种航空计划通知单信息提取装置,采用如下的技术方案:一种航空计划通知单信息提取装置,包括:提取模型训练模块,用于获取训练样本集和预训练模型,基于所述训练样本集对所述预训练模型进行迁移学习,生成训练好的信息提取模型;第一数据生成模块,用于获取待提取通知单图像,将所述待提取通知单图像进行预处理,生成第一数据,其中,所述预处理包括行线提取;第二数据生成模块,用于将所述第一数据输入至所述信息提取模型,生成第二数据;提取信息生成模块,用于对所述第二数据进行后处理,生成提取信息,其中,所述后处理包括动态表格版面恢复。
15.通过采用上述技术方案,使用训练样本集对预训练模型进行迁移学习训练,生成用于进行信息提取的信息提取模型,信息提取模型的识别精度更加准确,并且信息提取模型根据待提取通知单图像进行训练,更加符合对待提取通知单图像类型内容提取的提取需求,将需要进行信息提取的待提取通知单图像进行预处理,将待提取通知单图像处理成为便于信息提取模型进行信息提取的第一数据,把第一数据输入到信息提成模型中进行信息提取识别,得到第二数据,在得到第二数据后对第二数据进行后处理,即对识别后的第二数据再次校准纠错,减少错误的产生,从而提升了对文字稠密且无表格线的航空计划通知单的识别精度。
16.第三方面,本技术提供一种电子设备,采用如下的技术方案:一种电子设备,包括处理器,所述处理器与存储器耦合;所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行第一方面任一项所述的航空计划通知单信息提取方法的计算机程序。
17.第四方面,本技术提供一种计算机可读存储介质,采用如下的技术方案:一种计算机可读存储介质,存储有能够被处理器加载并执行第一方面任一项所述的航空计划通知单信息提取方法的计算机程序。
附图说明
18.图1是本技术实施例提供的一种航空计划通知单信息提取方法的流程示意图。
19.图2是本技术实施例提供的一种航空计划通知单信息提取装置的结构框图。
20.图3是本技术实施例提供的电子设备的结构框图。
具体实施方式
21.以下结合附图对本技术作进一步详细说明。
22.本技术实施例提供一种航空计划通知单信息提取方法,该航空计划通知单信息提取方法可由电子设备执行,该电子设备可以为服务器也可以为终端设备,其中该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云让算服务的云服务器。终端设备可以是智能手机、平板电脑、台式计算机等,但并不局限于此。
23.图1为本技术实施例提供的一种航空计划通知单信息提取方法的流程示意图。
24.如图1所示,该方法主要流程描述如下(步骤s101~s104):步骤s101,获取训练样本集和预训练模型,基于训练样本集对预训练模型进行迁移学习,生成训练好的信息提取模型。
25.针对步骤s101,将训练样本集输入至第一预训练模型,生成问题数据集;获取目标需求,基于目标需求对问题数据集进行标注修正,生成标注数据集;基于标注数据集对第一预训练模型进行迁移学习生成第一信息提取模型;对训练样本集就行形变处理生成形变样本集;获取文字识别基础字典,基于预设修改需求对文字识别基础字典进行修改,生成目标字典;基于形变样本集和目标字典第二预训练模型进行迁移学习生成第二信息提取模型。
26.在本实施例中,预训练模型包括第一预处理模型和第二预处理模型,信息提取模型包括第一信息提取模型和第二信息提取模型;其中,第一预处理模型为文字检测用模型,主要用于检测是否存在文字和文字的所在位置,第二预处理模型为文字识别用模型,主要用于识别文字的具体内容,在进行对文字稠密且无表格线的航空计划通知单的信息提取时采用两种模型同时配合使用的方式进行信息提取,由于传统的提取方式多应用于正常的具有实线的表格文件,在使用传统的文字检测模型提取文字稠密且无表格线的航空计划通知单时,难以精准的进行提取,从而导致数据连贯性的问题,存在将序号与航班号划分到一个文本框中,或者将日期中的年月日与具体的时间点划分为两个文本框的问题数据,但实际的目标需求为序号为一个文本框、航班号为一个文本框、由年月日和具体时间组成的整体日期为一个文本框,因此,需要根据目标需求对全部问题数据组成的问题数据集进行标注修正,生成标注数据集,使用标准数据集对用于文件检测用的第一预训练模型进行迁移学习,即进行迁移训练得到训练好的第一信息提取模型。
27.在文字识别方面,为了提高文字识别的精准度,需要使用更加贴近实际情况的训练样本集,但是由于可用数据的数量可能不能满足训练的需求,因此,将普通的训练样本集中的文件样本就行形变处理生成形变样本集,其中,形变处理处理包括但不限于光照处理、畸变处理和添加黑线处理,除了对训练样本集进行形变处理之外,还对文字识别使用的基础字典进行了修改,根据航空通知计划通知单的具体内容可知,其内容并未使用汉字和小写英文,从而将汉字和小写英文作为预设修改需求,使用预设需改需求对文字识别基础字
典进行修改,去掉文字识别基础字典中的汉字和小写英文,得到目标字典,使用形变样本集和目标字典对文字识别用的第二预训练模型进行迁移学习,生成第二信息提取模型。
28.在得到第一信息提取模型和第二信息提取模型之后,为了提高文字提取的速度和效率,需要根据实际的航空计划通知单信息提取需求对第一信息提取模型和第二信息提取模型进行部署,部署成为多个模型实例,需要说明的是,第一信息提取模型和第二信息提取模型为配合使用的模型,从而,在部署时需要保证第一信息提取模型和第二信息提取模型的部署数量相同,具体的部署数量在此不作具体限定。
29.步骤s102,获取待提取通知单图像,将待提取通知单图像进行预处理,生成第一数据,其中,预处理包括行线提取。
30.针对步骤s102,由于待提取通知单图像中的文字稠密而导致行间距很小,再加上部分畸变,普通的切割方法无法满足待提取通知单图像的切割需求,所以对待提取通知单图像进行预处理,即使用像素统计的方法提取行线,将提取出来的行线作为目标行线,然后再从目标行线中选择合适的行线作为分割线,而进行行线提取的前提是文字方向要尽量偏正,同时减少一些噪点的干扰,所以在进行图像分割之前需要做图像。
31.因此,预处理还图像预处理,包括边缘裁剪、图像去噪和图像旋转;基于轮廓检测法去除待提取通知单图像中文字四周的空白部分,生成边缘裁剪图像;去除边缘裁剪图像中的噪点生成去躁图像;对去噪图像的文字方向进行估计,基于文字方向估计结果对处理去噪图像进行旋转,生成旋转图像。
32.边缘裁剪和图像去噪的具体操作为首先通过轮廓检测的方式,检测到文字周围的空白部分,将检测到的空白部分进行裁剪去除,得到边缘裁剪图像,然后对边缘裁剪图像进行图像去燥处理,即对边缘裁剪图像进行灰度化和图像二值化处理,并且通过连通域计算方法来去除连通域较小的噪点,从而完成图像去躁处理生成去躁图像。在得到去躁图像之后,根据去躁图像中的文字方向对去躁图像进行旋转处理。
33.进一步的,获取预设进步角度值和取值范围,基于预设进步角度值和取值范围确定步进值的步进范围;获取去躁图像的行像素值,基于行像素值、步进范围和预设计算公式计算旋转分数;选取旋转分数中的最大值,将最大值对应的角度值作为文字方向估计结果;基于文字方向估计结果对去燥图像进行旋转,生成旋转图像。
34.在文字方形估计方面,为了减少计算量,根据实际的拍摄条件,规定只是处理正负10度的旋转角度,这样就可以采用较为简单的处理方法进行文字方向估计,即步进角度计分法。步进角度计分法就是设置一个步进角度值delta_angle,然后逐渐将图像旋转-10+i*delta_angle度,然后计算当前的分数,从中选择分数最高的角度作为最终的角度,计算分数则采用行像素差平方的和来实现。
35.其中,i为根据预设进步角度值和取值范围计算得到的步进范围,并i为正数,取值范围是[0,10/delta_angle],例如,预设进步角度值即delta_angle是0.5,则i的取值范围是[0,20],然后根据预设计算公式计算旋转分数。
[0036]
预设计算公式为其中,i为上述的进步范围,rows为去躁图像中每行的像素值的和即行像素值,score为某角度下的文字方向像素值即旋转分数,m为待提取通知单图像中文字的行,n为待提取通知单图像的列。在将全部的i都计算完成之后得到多个旋转分数,从全部的旋转分数中选取最大值对应的角度
值作为文字方向估计结果,其对应的方向即为去躁图像要旋转的方向,之后即可对去躁图像进行旋转,生成旋转图像,在生成旋转图像之后即可进行下一步的行线提取和动态图像切割。
[0037]
在本实施例中,获取判断阈值,基于判断阈值和行像素值进行行线提取,生成目标行线;获取目标分割数量,基于目标分割数量和目标行线对旋转图像进行图像切割,生成第一数据。
[0038]
动态图像切割的过程是先尽量获取行线,然后根据指定的目标切割数量尽量去切割,如果中间出现无法切割到想要切割的数量,会减少切割数,一直到获取切割位置为止。
[0039]
提取行线是根据行间距来找不会覆盖文字的线,而且两行之间最多只有一条行线,具体采用的是像素统计的方法来获行线,即统计旋转图像中每行像素的平局值即行像素值的平均值,然后根据设置的判断阈值来判断是否为行线,假设判断阈值thread=10,则判断是否为行线的依据是当前行的像素值平均值avgi和下一行的像素平均值avgi+1存在关系:avgi《thread《avgi+1,则判断为行线为目标行线。得到目标行线之后就可以进行切割处理,获取分割线即根据目标分割数量,从目标行线中选取合适的行线作为分割线。例如,假设指定要分割成3块,就需要有2条分割线,而且这2条分割线要尽量靠近旋转图像的1/3高处和2/3高处,如果找不到合适的行线就将要分割块数改为2,然后尽量找靠近1/2高的行线,直到获取切割位置为止,切割完成返回的是切割后的图像和实际的切割的数量,将切割后的图像作为第一数据。
[0040]
步骤s103,将第一数据输入至信息提取模型,生成第二数据。
[0041]
在本实施例中,将第一数据输入至部署之后的信息提取模型中,得到第二数据,第一数据的数量需要小于等于部署的信息提取模型的数量。信息提取模型对第一数据进行处理计算,得到的第二数据包括预测出的文本和文本框的位置,以及每条文本中每个文字的位置,结果为json格式。
[0042]
其中,文本数组中包括所有的识别的文本,每条文本包括文本内容、文本框左上角和右下角的坐标(x1,y1,x2,y2)以及文本框中文字的信息数组,每个文字信息包括文字、文字框左上角和右下角的坐标(x1,y1,x2,y2)。
[0043]
步骤s104,对第二数据进行后处理,生成提取信息,其中,后处理包括动态表格版面恢复。
[0044]
针对步骤s104,第二数据包括文本框位置坐标,动态表格版面恢复包括确定文本框所在行和文本框所在列;基于文本框位置坐标确定文本框的高度和宽度;基于高度确定文本框所在行;获取文本框中文本的文本特征和待提取航空计划通知单中每一列的信息特征;基于文本特征、信息特征和宽度确定文本框所在列;文本框中的文本数据,对文本数据进行纠错处理生成目标数据;基于文本框所在行、文本框所在列和目标数据生成提取信息。
[0045]
进一步的,后处理还包括信息文本纠错;获取机场信息,基于机场信息创建文本纠错字典;获取文本纠错字典中机场信息的出现频率;基于出现频率和文本纠错字典对文本数据进行文本纠错处理生成目标数据。
[0046]
在本实施例中,由于无法通过画线来按照普通表格识别来进行提取,从而将表格的版面恢复放到了数据的后处理部分,整体思路为通过识别结果中文字的位置、具体的格式类型来判断文字所处的行和列,从而还原真实的排版信息。在排版恢复的过程中,由于行
列间距较小、畸变等问题,仅仅靠一轮分析并不能完成整个版面的恢复,而需要分为几个阶段,同时需要在排版的过程中进行动态的调整,所以这整个版面恢复的也叫做动态表格版面恢复。动态表格版面恢复包括确定文本框所在行和确定文本框所在列,其中,都需要先根据文本框位置坐标确定文本框的高度和宽度。
[0047]
确定文本框所在行采用提取行数据的方式,提取行数据为通过找相邻文本边框的高度的重叠度最高的归为同一行,首先要计算高度重叠度,一种简单的方法是两个文本边框的高度差除以其中一个文本边框的高度,但是有个问题是识别出来的文本边框可能差距较大,从而导致计算出来的重叠度会偏大或偏小。从而使用公式来计算平均框高,其中,avg_box_high为平均框高,n为所有的文本框的个数,h为文本框的高度。
[0048]
基于重叠度计算,将第1个文本框作为单独1行,从第2个文本框开始遍历,和已经确定行的文本框进行重叠计算,找重叠度大于0.5的所有的文本框,如果没有找到重叠度大于0.5的,则将该文本框做为新的一行,如果有多个重叠度大于0.5的文本框,则根据平均重叠度来确定该文本框的所属行。
[0049]
例如,现在已经确定的行有两行,第1行有2个文本框,第2行有3个文本框,则目前需要计算重叠度的是第6个文本框跟已经确定所在行的3+2=5个文本框。假设计算出的第1行的2个重叠度为7.2和7.5,和第2行的3个文本框的重叠度分别为5.2、5.4和3.4,则和第1行的平均重叠度为(7.2+7.4)/2=7.3,第2行的平均重叠度为(5.2+5.4)/2=5.3。由于第1行的平均重叠度大于第2行,所以该文本框属于第1行。
[0050]
在确定所在行之后,根据文本框的左上角的横坐标来确定文本框的插入位置。
[0051]
调整完行数据之后需要对列进行对齐,即确定文本框所在列,由于并不是所有的数据项都会有值,还有些数据由于识别问题,文本框可能会不合理。例如,序号和航班号连起来成为一个文本框,日期中的年月日与与具体时间断开成为两个文本框,所以需要对列进行数据调整。
[0052]
采用基于文本特征的文本框和坐标的方式进行列调整。首先找到每一类信息的信息特征,如第1列“序号”应该是数字,而且不同行的序列号有累加关系,第2列航班号应该是字母+数字;第3列和第4列是主要是数字,而且每一列不小于10个数字。因此,基于不同列的信息特征和文本框中文本的文本特征,就可以做矫正处理。例如针对序号和航班号连起来的问题,首先可以获取到文本框和每个文字的文字框的位置,根据文字框的间隔可以知道序号和航班号之间是有间隔的,这样就可以拆分文本框。
[0053]
当调整完文本框根据文本框的横坐标来调整框的位置,整个过程也是从左到右,从上到下的调整过程。其过程为和之前已经确定位置的所有的文本框做对比,计算宽度重叠度,计算方式与高度重叠度计算方法一致,如果重叠度高则选择为同一列,如果重叠度过低,则新建一列。
[0054]
信息文本纠错主要包括创建字典和对照纠错两个部分。因为计划通知单中的文字主要是数字和字母,而有些字母和数字相近,例如i和1,再加上这些数据项都比较短,例如zshc,如果错识别成z5hc,如果用普通的文字匹配算法,可能匹配成zshc或zzhc,导致无法纠错。因此采用合并信息纠错方式,即把机场代码、航线代码、机场机号机型信息进行合并,由于上述三者之间存在相互约束的关系,组成“机场代码-航线代码-机场机号机型”信息
组,从而使得纠错的成功率得到提升。并且根据实际的机场信息,以信息组的方式进行拼接组合创建文本纠错字典。
[0055]
文字匹配方面采用动态频率文本编辑距离法,即在一般的文本编辑距离的方法基础上加文本纠错字典中机场信息的出现频率值,而且频率会进行周期性调整,从而使得不同的机场对应的机场信息的出现频率不同,进而提高纠错的成功率。
[0056]
图2为申请实施例提供的一种航空计划通知单信息提取装置200的结构框图。
[0057]
如图2所示,航空计划通知单信息提取装置200主要包括:提取模型训练模块201,用于获取训练样本集和预训练模型,基于训练样本集对预训练模型进行迁移学习,生成训练好的信息提取模型;第一数据生成模块202,用于获取待提取通知单图像,将待提取通知单图像进行预处理,生成第一数据,其中,预处理包括行线提取;第二数据生成模块203,用于将第一数据输入至信息提取模型,生成第二数据;提取信息生成模块204,用于对第二数据进行后处理,生成提取信息,其中,后处理包括动态表格版面恢复。
[0058]
作为本实施例的一种可选实施方式,提取模型训练模块201具体用于将训练样本集输入至第一预训练模型,生成问题数据集;获取目标需求,基于目标需求对问题数据集进行标注修正,生成标注数据集;基于标注数据集对第一预训练模型进行迁移学习生成第一信息提取模型;对训练样本集就行形变处理生成形变样本集;获取文字识别基础字典,基于预设修改需求对文字识别基础字典进行修改,生成目标字典;基于形变样本集和目标字典第二预训练模型进行迁移学习生成第二信息提取模型。
[0059]
作为本实施例的一种可选实施方式,第一数据生成模块202包括:裁剪图像生成模块,用于基于轮廓检测法去除待提取通知单图像中文字四周的空白部分,生成边缘裁剪图像;去躁图像生成模块,用于去除边缘裁剪图像中的噪点生成去躁图像;旋转图像生成模块,用于对去噪图像的文字方向进行估计,基于文字方向估计结果对处理去噪图像进行旋转,生成旋转图像。
[0060]
在本可选实施例中,旋转图像生成模块具体用于获取预设进步角度值和取值范围,基于预设进步角度值和取值范围确定步进值的步进范围;获取去躁图像的行像素值,基于行像素值、步进范围和预设计算公式计算旋转分数;选取旋转分数中的最大值,将最大值对应的角度值作为文字方向估计结果;基于文字方向估计结果对去燥图像进行旋转,生成旋转图像。
[0061]
作为本实施例的一种可选实施方式,第一数据生成模块202还包括:行线提取模块,用于获取判断阈值,基于判断阈值和行像素值进行行线提取,生成目标行线;数据生成模块,用于获取目标分割数量,基于目标分割数量和目标行线对旋转图像进行图像切割,生成第一数据。
[0062]
作为本实施例的一种可选实施方式,提取信息生成模块204包括:高度宽度获取模块,用于基于文本框位置坐标确定文本框的高度和宽度;文本行位确定模块,用于基于高度确定文本框所在行;信息特征获取模块,用于获取文本框中文本的文本特征和待提取航空计划通知单
中每一列的信息特征;文本列位确定模块,用于基于文本特征、信息特征和宽度确定文本框所在列;目标数据生成模块,用于获取文本框中的文本数据,对文本数据进行纠错处理生成目标数据;最终信息生成模块,用于基于文本框所在行、文本框所在列和目标数据生成提取信息。
[0063]
在本可选实施例中,目标数据生成模块具体用于获取机场信息,基于机场信息创建文本纠错字典;获取文本纠错字典中机场信息的出现频率;基于出现频率和文本纠错字典对文本数据进行文本纠错处理生成目标数据。
[0064]
在一个例子中,以上任一装置中的模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个专用集成电路(application specific integratedcircuit,asic),或,一个或多个数字信号处理器(digital signal processor,dsp),或,一个或者多个现场可编程门阵列(field programmable gate array,fpga),或这些集成电路形式中至少两种的组合。
[0065]
再如,当装置中的模块可以通过处理元件调度程序的形式实现时,该处理元件可以是通用处理器,例如中央处理器(central processing unit,cpu)或其它可以调用程序的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,soc)的形式实现。
[0066]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0067]
图3为本技术实施例提供的电子设备300的结构框图。
[0068]
如图3所示,电子设备300包括处理器301和存储器302,还可以进一步包括信息输入/信息输出(i/o)接口303、通信组件304中的一种或多种以及通信总线305。
[0069]
其中,处理器301用于控制电子设备300的整体操作,以完成上述的航空计划通知单信息提取方法的全部或部分步骤;存储器302用于存储各种类型的数据以支持在电子设备300的操作,这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令,以及应用程序相关的数据。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(static random access memory,sram)、电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、可擦除可编程只读存储器(erasable programmable read-only memory,eprom)、可编程只读存储器(programmable read-only memory,prom)、只读存储器(read-only memory,rom)、磁存储器、快闪存储器、磁盘或光盘中的一种或多种。
[0070]
i/o接口303为处理器301和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件304用于电子设备300与其他设备之间进行有线或无线通信。无线通信,例如wi-fi,蓝牙,近场通信(near field communication,简称nfc),2g、3g或4g,或它们中的一种或几种的组合,因此相应的该通信组件104可以包括:wi-fi部件,蓝牙部件,nfc部件。
[0071]
电子设备300可以被一个或多个应用专用集成电路(application specific integrated circuit,简称asic)、数字信号处理器(digital signal processor,简称dsp)、数字信号处理设备(digital signal processing device,简称dspd)、可编程逻辑器
件(programmable logic device,简称pld)、现场可编程门阵列(field programmable gate array,简称fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述实施例给出的航空计划通知单信息提取方法。
[0072]
通信总线305可包括一通路,在上述组件之间传送信息。通信总线305可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。通信总线305可以分为地址总线、数据总线、控制总线等。
[0073]
电子设备300可以包括但不限于移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字tv、台式计算机等等的固定终端,还可以为服务器等。
[0074]
本技术还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的航空计划通知单信息提取方法的步骤。
[0075]
该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(r ead-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0076]
术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0077]
以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

技术特征:
1.一种航空计划通知单信息提取方法,其特征在于,包括:获取训练样本集和预训练模型,基于所述训练样本集对所述预训练模型进行迁移学习,生成训练好的信息提取模型;获取待提取通知单图像,将所述待提取通知单图像进行预处理,生成第一数据,其中,所述预处理包括行线提取;将所述第一数据输入至所述信息提取模型,生成第二数据;对所述第二数据进行后处理,生成提取信息,其中,所述后处理包括动态表格版面恢复。2.根据权利要求1所述的方法,其特征在于,所述预训练模型包括第一预处理模型和第二预处理模型,所述信息提取模型包括第一信息提取模型和第二信息提取模型;所述基于所述训练样本集对所述预训练模型进行迁移学习,生成训练好的信息提取模型训练样本集包括:将所述训练样本集输入至所述第一预训练模型,生成问题数据集;获取目标需求,基于所述目标需求对所述问题数据集进行标注修正,生成标注数据集;基于所述标注数据集对所述第一预训练模型进行迁移学习生成第一信息提取模型;对所述训练样本集就行形变处理生成形变样本集;获取文字识别基础字典,基于预设修改需求对所述文字识别基础字典进行修改,生成目标字典;基于所述形变样本集和所述目标字典所述第二预训练模型进行迁移学习生成第二信息提取模型。3.根据权利要求1所述的方法,其特征在于,所述预处理还包括边缘裁剪、图像去噪和图像旋转;所述对所述待提取通知单图像进行预处理还包括:基于轮廓检测法去除所述待提取通知单图像中文字四周的空白部分,生成边缘裁剪图像;去除所述边缘裁剪图像中的噪点生成去躁图像;对所述去噪图像的文字方向进行估计,基于文字方向估计结果对所述处理去噪图像进行旋转,生成旋转图像。4.根据权利要求3所述的方法,其特征在于,所述对所述去噪图像的文字方向进行估计,基于文字方向估计结果对所述处理去噪图像进行旋转,生成旋转图像包括:获取预设进步角度值和取值范围,基于所述预设进步角度值和所述取值范围确定步进值的步进范围;获取所述去躁图像的行像素值,基于所述行像素值、所述步进范围和所述预设计算公式计算旋转分数;选取所述旋转分数中的最大值,将所述最大值对应的角度值作为文字方向估计结果;基于所述文字方向估计结果对所述去燥图像进行旋转,生成旋转图像。5.根据权利要求4所述的方法,其特征在于,所述预处理还包括图像切割;在所述对所述去噪图像的文字方向进行估计,基于文字方向估计结果对所述去噪图像进行旋转,生成旋转图像之后,还包括:获取判断阈值,基于所述判断阈值和所述行像素值进行行线提取,生成目标行线;
获取目标分割数量,基于所述目标分割数量和所述目标行线对所述旋转图像进行图像切割,生成第一数据。6.根据权利要求1所述的方法,其特征在于,所述第二数据包括文本框位置坐标,所述动态表格版面恢复包括确定所述文本框所在行和所述文本框所在列;所述对所述第二数据进行后处理,生成提取信息包括:基于所述文本框位置坐标确定文本框的高度和宽度;基于所述高度确定所述文本框所在行;获取文本框中文本的文本特征和所述待提取航空计划通知单中每一列的信息特征;基于所述文本特征、所述信息特征和所述宽度确定所述文本框所在列;获取所述文本框中的文本数据,对所述文本数据进行纠错处理生成目标数据;基于所述文本框所在行、所述文本框所在列和所述目标数据生成提取信息。7.根据权利要求6所述的方法,其特征在于,所述后处理还包括信息文本纠错;所述对所述文本数据进行纠错处理生成目标数据包括:获取机场信息,基于所述机场信息创建文本纠错字典;获取所述文本纠错字典中所述机场信息的出现频率;基于所述出现频率和所述文本纠错字典对所述文本数据进行文本纠错处理生成目标数据。8.一种航空计划通知单信息提取装置,其特征在于,包括:提取模型训练模块,用于获取训练样本集和预训练模型,基于所述训练样本集对所述预训练模型进行迁移学习,生成训练好的信息提取模型;第一数据生成模块,用于获取待提取通知单图像,将所述待提取通知单图像进行预处理,生成第一数据,其中,所述预处理包括行线提取;第二数据生成模块,用于将所述第一数据输入至所述信息提取模型,生成第二数据;提取信息生成模块,用于对所述第二数据进行后处理,生成提取信息,其中,所述后处理包括动态表格版面恢复。9.一种电子设备,其特征在于,包括处理器,所述处理器与存储器耦合;所述处理器用于执行所述存储器中存储的计算机程序,以使得所述电子设备执行如权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,包括计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的方法。

技术总结
本申请涉及一种航空计划通知单信息提取方法、装置、设备及存储介质,应用于信息提取技术领域,其方法包括:获取训练样本集和预训练模型,基于所述训练样本集对所述预训练模型进行迁移学习,生成训练好的信息提取模型;获取待提取通知单图像,将所述待提取通知单图像进行预处理,生成第一数据,其中,所述预处理包括行线提取;将所述第一数据输入至所述信息提取模型,生成第二数据;对所述第二数据进行后处理,生成提取信息,其中,所述后处理包括动态表格版面恢复。本申请具有提升对文字稠密且无表格线的航空计划通知单的识别精度的效果。格线的航空计划通知单的识别精度的效果。格线的航空计划通知单的识别精度的效果。


技术研发人员:王志鹏 秦星达 齐宝东 李俊 李泽轮
受保护的技术使用者:北京合众思壮时空物联科技有限公司
技术研发日:2023.05.12
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐