一种人手井编号识别方法、装置、计算机设备和存储介质与流程

未命名 09-21 阅读:66 评论:0


1.本技术涉及计算机技术领域,特别是涉及一种人手井编号识别方法、装置、计算机设备和存储介质。


背景技术:

2.随着ocr技术的不断发展,目前主要存在两种方式:两阶段算法和端到端的算法。两阶段ocr算法一般分为两个部分,文本检测和识别算法,文本检测算法从图像中得到文本行的检测框,然后识别算法识别文本框中的内容。端对端ocr算法使用一个模型同时完成文字检测和文字识别,其基本思想是共享同一个backbone网络,并设计不同的检测模块和识别模块,可以同时训练文本检测和文本识别。由于一个模型即可完成文字识别,因此端对端模型更小,速度更快。但是端到端精度一般比较低,所以主流的还是两阶段文本识别。
3.目前对于人手井编号的识别,还是采用两步走的算法,主要是采用目标检测和crnn技术,目前这些技术存在一些问题,目标检测在复杂的自然场景下人手井号文字区域识别存在比较大的精度误差,crnn在识别人手井编号的时候遇到自然场景下复杂文本的时候也存在精度下降的问题,主要表现在识别错误高,识别速度慢,泛化能力差等问题。
4.因此,亟需提供一种技术方案解决上述技术问题。


技术实现要素:

5.基于此,有必要针对上述技术问题,提供一种能够提高人手井编号识别能力的人手井编号识别方法、装置、计算机设备和存储介质。
6.一种人手井编号识别方法,所述方法包括:
7.步骤a:基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型;其中,所述改进后的深度学习模型包括:依次连接设置的目标dbnet模型、目标mobilenetv3模型和目标crnn模型;其中,所述目标dbnet模型包括:具有注意力机制的残差网络;所述目标dbnet模型用于对图像的文本框进行检测,所述目标mobilenetv3模型用于对特征图进行角度校准,所述目标crnn模型用于对特征图进行文本识别;
8.步骤b:将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。
9.在其中一个实施例中,将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。
10.在其中一个实施例中,所述基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型的步骤,包括:
11.将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
12.将每个第一特征图分别输入至所述目标mobilenetv3模型进行角度校准处理,得
到每个第一特征图对应的第二特征图;
13.将每个第二特征图分别输入至经过自监督预训练后的所述目标crnn模型进行文本识别,得到每个目标训练样本对应的目标损失值;
14.根据所有的目标损失值对所述改进后的深度学习模型的参数进行优化,得到优化后的深度学习模型,将所述优化后的深度学习模型作为所述改进后的深度学习模型并返回执行所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测的步骤,直至达到最大迭代次数时,将所述优化后的深度学习模型确定为所述目标识别模型。
15.在其中一个实施例中,所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图的步骤,包括:
16.基于多个学生模型相互学习的蒸馏方式,将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
17.在其中一个实施例中,所述目标dbnet模型还包括:改进的fpn网络;所述改进的fpn网络的构建过程为:增大原始fpn网络中的每个经过上采样且融合后的特征图所连接的卷积核,以增大所述原始fpn网络的感受野。
18.在其中一个实施例中,还包括:
19.基于过滤器剪枝法,对原始mobilenetv3模型进行压缩,得到所述目标mobilenetv3模型。
20.在其中一个实施例中,还包括:
21.将原始crnn模型中的rnn网络替换为swin-transformer网络,得到所述目标crnn模型;其中,所述原始crnn模型包括:依次连接设置的cnn网络、所述rnn网络和ctc loss网络。
22.在其中一个实施例中,还包括:
23.获取多个包含人手井编号的原始训练样本,并对每个原始训练样本分别进行数据增强处理,得到多个第一训练样本;
24.对每个第一训练样本分别进行分辨率增强处理,得到多个目标训练样本。
25.一种人手井编号识别装置,所述装置包括:
26.训练模块,基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型;其中,所述改进后的深度学习模型包括:依次连接设置的目标dbnet模型、目标mobilenetv3模型和目标crnn模型;其中,所述目标dbnet模型包括:具有注意力机制的残差网络;所述目标dbnet模型用于对图像的文本框进行检测,所述目标mobilenetv3模型用于对特征图进行角度校准,所述目标crnn模型用于对特征图进行文本识别;
27.识别模块,将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。
28.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的人手井编号识别方法的步骤。
29.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中的人手井编号识别方法的步骤。
30.上述人手井编号识别方法、装置、计算机设备和存储介质,通过对原有的深度学习
模型进行改进,提高了人手井编号识别的准确率,以此减少了人员的投入。
附图说明
31.图1为一个实施例中的人手井编号识别方法的流程示意图;
32.图2为一个实施例中的人手井编号识别方法中的人手井编号的图像类型的示意图;
33.图3为一个实施例中的人手井编号识别方法中步骤110的流程示意图;
34.图4为一个实施例中的人手井编号识别方法中的模型蒸馏学习方式的结构示意图;
35.图5为一个实施例中的人手井编号识别方法中的过滤器剪枝法的原理示意图;
36.图6为一个实施例中的人手井编号识别方法中的自监督预训练的流程示意图;
37.图7为一个实施例中的人手井编号识别方法中的原始dbnet模型的结构示意图;
38.图8为一个实施例中的人手井编号识别方法中的目标dbnet模型的结构示意图;
39.图9为一个实施例中的人手井编号识别方法中的残差网络的结构示意图;
40.图10为一个实施例中的人手井编号识别方法中的原始crnn模型的结构示意图;
41.图11为一个实施例中的人手井编号识别方法中的目标crnn模型的结构示意图;
42.图12为一个实施例中的人手井编号识别方法中的swin-transformer网络的结构示意图;
43.图13为一个实施例中的人手井编号识别装置的结构示意图;
44.图14为一个实施例中计算机设备的内部结构图。
具体实施方式
45.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
46.图1示出了本发明提供的人手井编号识别方法的实施例的流程图。如图1所示,包括以下步骤:
47.步骤110:基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型。
48.其中,

改进后的深度学习模型包括:依次连接设置的目标dbnet模型、目标mobilenetv3模型和目标crnn模型。

目标dbnet模型为:对原始dbnet模型进行改进后所得到的模型,原始dbnet模型包括:依次连接设置的主干网络(resnet18网络)、neck网络(fpn网络)、head网络。目标dbet模型的改进点为:在neck网络和head网络之间设置具有注意力机制的残差网络;其作用为:充分融合特征信息并且获取局部有效信息。

目标dbnet模型用于对图像的文本框进行检测,目标mobilenetv3模型用于对特征图进行角度校准,目标crnn模型用于对特征图进行文本识别。

目标训练样本为:包含任意一种图像类型的人手井编号的图像。人手井编号对应的图像类型包括但不限于:1)带铭牌的人手井编号(图2(a)和图2(b))、2)井内墙壁喷漆编号(图2(c))、3)井内环圈喷漆编号(图2(d))、4)井盖喷漆编号(图2(e)和图2(f))。

目标训练样本可以是经过数据增强后的图像样本,也可以是未经
任何处理的原始图像样本,在此不设限制;目标训练样本可以是人手井编号经过任意角度旋转后的样本、人手井编号存在弯曲的样本,人手井编号拍摄时存在倾斜的样本等,在此不设限制。

目标识别模型为:经过多个目标训练样本进行训练后,所得到的用于人手井编号识别的深度学习模型。
49.具体地,将多个包含人手井编号的目标训练样本输入至改进的深度学习模型中进行迭代训练,直至满足达到最大迭代次数时,得到用于人手井编号识别的目标识别模型。
50.步骤120:将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。
51.其中,

待测人手井图像为:包含人手井编号且需要进行人手井编号识别检测的图像。

识别结果为:包含待测人手井图像中的人手井编号的识别文本。
52.具体地,将待测人手井图像输入至目标识别模型中进行人手井编号识别,得到目标识别模型输出的包含待测人手井图像中的人手井编号的识别文本。
53.上述人手井编码识别方法中,通过对原有的深度学习模型进行改进,提高了人手井编号识别的准确率,以此减少了人员的投入。
54.较优地,如图3所示,步骤110包括:
55.步骤111:将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
56.具体地,基于多个学生模型相互学习的蒸馏方式,将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
57.其中,

多个学生模型相互学习的蒸馏方式为:选用一个resnet50网络作为teacher模型,采用resnet18网络(resnet18网络为目标dbnet模型中的一部分)作为student模型。由于resnet50网络具有更深的网络层数和更加复杂的网络结构,所以在选用resnet50网络作为基础网络后,resnet50-dbnet(简称r50)网络的准确率是要高于resnnet18-dbnet网络(简称r18),所以采用r50作为教师模型,r18作为学生模型。采用如图4所示的方式,即采用两个学生模型分为一组采用学生互学习策略dml,引入dml提高样本识别的准确率。

目标dbnet模型用于:获取每个目标训练样本的预测文本框。

第一特征图为:目标dbnet模型所输出的目标训练样本的预测文本框。
58.步骤112:将每个第一特征图分别输入至所述目标mobilenetv3模型进行角度校准处理,得到每个第一特征图对应的第二特征图。
59.其中,

mobilenetv3模型具有体积小,计算量低,模型准确度高等特点。

第二特征图为:第一特征图经过目标mobilenetv3模型进行角度校准处理后所得到的特征图(正常文本框)。

第一特征图(预测文本框)的类别包括:正常文本框、90文本框、180度文本框、270度文本框。
60.步骤113:将每个第二特征图分别输入至经过自监督预训练后的所述目标crnn模型进行文本识别,得到每个目标训练样本对应的目标损失值。
61.其中,

对模型进行自监督预训练的过程能够使得主干网络能够识别文本的角度信息,加快模型收敛,提升模型的泛化能力;自监督预训练的过程如图5所示。

目标损失值为:结合改进的深度学习模型的损失函数、目标训练样本的文本预测值(目标crnn模型所输出的文本识别信息)和文本真实值(目标训练样本对应的文本标注信息)所计算得到的该目
score提升了2%左右,对于复杂场景下的人手井编号的检测提升了5%。
70.较优地,还包括:
71.基于过滤器剪枝法,对原始mobilenetv3模型进行压缩,得到所述目标mobilenetv3模型。
72.需要说明的是,如图9所示,过滤器剪枝法的过程包括:第一个循环是epoch,该过程其实就是普通的迭代训练,在每训完一个epoch后开始执行剪枝操作。在第二层循环中,通过计算卷积核的几何中位数,选中n
i+1
*pi个几何中位数附近的卷积核进行剪枝,剪枝方式仍然是参数置0的过程。
73.较优地,还包括:
74.将原始crnn模型中的rnn网络替换为swin-transformer网络,得到所述目标crnn模型。
75.其中,

原始crnn模型包括:依次连接设置的cnn网络、rnn网络和ctc loss网络。

目标crnn模型包括:依次连接设置的cnn网络、swin-transformer网络和ctc loss网络。

原始crnn模型的缺点在于:(1)识别准确率相对较低,在包含大量中文字符集情况下,会比rare类型的attention模型低不少,英文字符集的情况下会低更多。(2)对于艺术字等有较大形变的短文本,或自然场景下的变化较大的文本,crnn识别准确率较低。现场的人手井编号属于自然场景下的文本,同时文本变化较大,噪音较大;在使用原始crnn模型训练后的识别模型,在一些图片中存在识别错误,通过各种手段进行优化效果甚微。

如图11所示,目标crnn模型是对原始crnn模型的rnn网络进行了改进,将rnn网络替换为swin-transformer网络。

swin-transformer网络中的transformer存在自注意力机制,能有效获得全局文字信息,并且多头可以将其映射到多个空间,使模型表达能力变强;transformer具有很好的模态融合能力,对于图像,可把对图像通过conv或直接对像素操作得到的初始embeddings馈入transformer中,而无需始终保持h
×w×
c的feature map结构。类似于position embedding,只要能编码的信息,都能够非常轻松地利用进来。swin-transformer网络的结构如图12所示。图12中的每两个连续block块有四小步。在第一个block中:首先特征图经过layernorm层,经过w-msa,然后进行跳跃连接;第一次连接后的特征图再次经过layer norm层,经过全连接层mlp,然后进行跳跃连接,得到第二次连接后的特征图。在第二个block中:首先将第一个block中的第二次连接后的特征图经过经过layernorm层,再经过sw-msa,然后进行跳跃连接,得到第三次连接后的特征图;第三次连接后的特征图再次经过layernorm层,经过全连接层mlp,然后进行跳跃连接,得到第四次连接后的特征图并输出至下一部分。
76.较优地,还包括:
77.获取多个包含人手井编号的原始训练样本,并对每个原始训练样本分别进行数据增强处理,得到多个第一训练样本。
78.其中,

原始训练样本为:未经任何处理且包含人手井编号的训练样本。

第一训练样本为:经过数据增强处理且包含人手井编号的训练样本。

数据增强处理的过程包括但不限于:改变亮度,改变色差,改变饱和度,图像裁剪,马赛克,浮雕,透明度锐化等。

原始训练样本的获取方式包括但不限于:现场采集等。
79.具体地,通过现场采集的方式获取多个包含人手井编号的原始训练样本,并对任
一原始训练样本进行数据增强处理,得到该原始训练样本对应的至少一个第一训练样本,重复上述方式,直至得到每个原始训练样本对应的至少一个第一训练样本(即多个第一训练样本)。
80.对每个第一训练样本分别进行分辨率增强处理,得到多个目标训练样本。
81.其中,目标训练样本为:第一训练样本经过分辨率增强处理后的训练样本。
82.具体地,对任一第一训练样本进行分辨率增强处理,得到该第一训练样本对应的目标训练样本,重复上述方式,直至得到每个第一训练样本对应的目标训练样本。
83.需要说明的是,除数据增强和分辨率增强外,还可以通过样本扩充方式,得到多个目标训练样本。对于包含人手井编号的图像而言,目前收集的样本字体标准字体占70%左右,喷漆字体占30%,而标准字体是比较容易识别的,最难的在于喷漆字体。目前由于开源模型都是基于标准字体和手写体的,对于喷漆字识别目前还没有相应的样本,并且文字识别在训练样本上要求数量在十万级别以上,所以只能通过人工合成的方式增加样本,人工合成步骤如下所示:

字体选定:选定喷漆字体。

字符生成:得到对应的ttf字体文件后,需要自动生成带标签的训练样本,人手井编号的生成策略包括但不限于:1)生成1-15位的纯数字人手井编号、2)生成数字+字母的人手井编号、3)生成纯汉字的人手井编号、4)生成汉字+数字的人手井编号、5)生成汉字+数字+字母的人手井编号、6)生成竖排人手井编号、7)生成横排人手井编号。

字符拼接:喷漆字体生成后,解决了前景字符的问题,背景图片需要自动生成,在原有的图片中随机裁剪多个区域进行拼接,生成原始训练样本数据。
84.上述较优的技术方案中,进一步通过对训练样本进行数据增强、分辨率增强以及样本扩充,保证了训练样本的数量,减少了训练过程中数据不平和问题,提高了模型的精度。
85.此外,还可以包括:
86.基于人手井信息数据库,对所述待测人手井图像的识别结果进行验证,若验证成功,则输出所述待测人手井图像识别成功,否则,输出所述待测人手井图像验证失败的提示信息。
87.其中,

人手井信息数据库包括:预先存储的多个人手井的位置信息、编号信息等。

提示信息包括但不限于:“当前编号存在错误”、“需要维修”等。
88.具体地,从人手井信息数据中,获取待测人手井图像对应的人手井的编号信息,将待测人手井图像的识别结果中包含的人手井编号与该人手井的编号信息进行比对验证,若验证成功,则输出待测人手井图像识别成功,无需进行勘误;若验证失败,则输出待测人手井图像识别失败,向相应的终端发送提示信息,通知相关人员进行处理。
89.通过将识别结果与人手井信息数据库进行比对验证,以根据验证结果进行推送,提高了人手井的运维效率。
90.应该理解的是,虽然图1和图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者
交替地执行。
91.图13示出了本发明提供的人手井编号识别装置的实施例的结构图。如图13所示,所述装置200包括:训练模块210和识别模块220。
92.训练模块210,基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型;其中,所述改进后的深度学习模型包括:依次连接设置的目标dbnet模型、目标mobilenetv3模型和目标crnn模型;其中,所述目标dbnet模型包括:具有注意力机制的残差网络;所述目标dbnet模型用于对图像的文本框进行检测,所述目标mobilenetv3模型用于对特征图进行角度校准,所述目标crnn模型用于对特征图进行文本识别;
93.识别模块220,将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。
94.上述人手井编码识别方法中,通过对原有的深度学习模型进行改进,提高了人手井编号识别的准确率,以此减少了人员的投入。
95.较优地,所述训练模块210包括:第一训练模块211、第二训练模块212、第三训练模块213和迭代训练模块214;
96.所述第一训练模块211,将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图;
97.所述第二训练模块212,用于将每个第一特征图分别输入至所述目标mobilenetv3模型进行角度校准处理,得到每个第一特征图对应的第二特征图;
98.所述第三训练模块213,用于将每个第二特征图分别输入至经过自监督预训练后的所述目标crnn模型进行文本识别,得到每个目标训练样本对应的目标损失值;
99.所述迭代训练模块214,用于根据所有的目标损失值对所述改进后的深度学习模型的参数进行优化,得到优化后的深度学习模型,将所述优化后的深度学习模型作为所述改进后的深度学习模型并返回调用所述第一训练模块,直至达到最大迭代次数时,将所述优化后的深度学习模型确定为所述目标识别模型。
100.上述较优的技术方案中,所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图的步骤,包括:
101.基于多个学生模型相互学习的蒸馏方式,将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
102.上述较优的技术方案中,所述目标dbnet模型还包括:改进的fpn网络;所述改进的fpn网络的构建过程为:增大原始fpn网络中的每个经过上采样且融合后的特征图所连接的卷积核,以增大所述原始fpn网络的感受野。
103.上述较优的技术方案中,还包括:
104.基于过滤器剪枝法,对原始mobilenetv3模型进行压缩,得到所述目标mobilenetv3模型。
105.上述较优的技术方案中,还包括:
106.将原始crnn模型中的rnn网络替换为swin-transformer网络,得到所述目标crnn模型;其中,所述原始crnn模型包括:依次连接设置的cnn网络、所述rnn网络和ctc loss网络。
107.上述较优的技术方案中,还包括:
108.获取多个包含人手井编号的原始训练样本,并对每个原始训练样本分别进行数据增强处理,得到多个第一训练样本;
109.对每个第一训练样本分别进行分辨率增强处理,得到多个目标训练样本。
110.上述较优的技术方案中,进一步通过对训练样本进行数据增强、分辨率增强以及样本扩充,保证了训练样本的数量,减少了训练过程中数据不平和问题,提高了模型的精度。
111.关于人手井编号识别装置的具体限定可以参见上文中对于人手井编号识别方法的限定,在此不再赘述。上述人手井编号识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
112.如图14所示,在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
113.基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型;其中,所述改进后的深度学习模型包括:依次连接设置的目标dbnet模型、目标mobilenetv3模型和目标crnn模型;其中,所述目标dbnet模型包括:具有注意力机制的残差网络;所述目标dbnet模型用于对图像的文本框进行检测,所述目标mobilenetv3模型用于对特征图进行角度校准,所述目标crnn模型用于对特征图进行文本识别;
114.将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。
115.在一个实施例中,所述基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型的步骤,包括:
116.将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
117.将每个第一特征图分别输入至所述目标mobilenetv3模型进行角度校准处理,得到每个第一特征图对应的第二特征图;
118.将每个第二特征图分别输入至经过自监督预训练后的所述目标crnn模型进行文本识别,得到每个目标训练样本对应的目标损失值;
119.根据所有的目标损失值对所述改进后的深度学习模型的参数进行优化,得到优化后的深度学习模型,将所述优化后的深度学习模型作为所述改进后的深度学习模型并返回执行所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测的步骤,直至达到最大迭代次数时,将所述优化后的深度学习模型确定为所述目标识别模型。
120.在一个实施例中,所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图的步骤,包括:
121.基于多个学生模型相互学习的蒸馏方式,将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
122.在一个实施例中,所述目标dbnet模型还包括:改进的fpn网络;所述改进的fpn网
络的构建过程为:增大原始fpn网络中的每个经过上采样且融合后的特征图所连接的卷积核,以增大所述原始fpn网络的感受野。
123.在一个实施例中,还包括:
124.基于过滤器剪枝法,对原始mobilenetv3模型进行压缩,得到所述目标mobilenetv3模型。
125.在一个实施例中,还包括:
126.将原始crnn模型中的rnn网络替换为swin-transformer网络,得到所述目标crnn模型;其中,所述原始crnn模型包括:依次连接设置的cnn网络、所述rnn网络和ctc loss网络。
127.在一个实施例中,还包括:
128.获取多个包含人手井编号的原始训练样本,并对每个原始训练样本分别进行数据增强处理,得到多个第一训练样本;
129.对每个第一训练样本分别进行分辨率增强处理,得到多个目标训练样本。
130.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
131.基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型;其中,所述改进后的深度学习模型包括:依次连接设置的目标dbnet模型、目标mobilenetv3模型和目标crnn模型;其中,所述目标dbnet模型包括:具有注意力机制的残差网络;所述目标dbnet模型用于对图像的文本框进行检测,所述目标mobilenetv3模型用于对特征图进行角度校准,所述目标crnn模型用于对特征图进行文本识别;
132.将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。
133.在一个实施例中,所述基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型的步骤,包括:
134.将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
135.将每个第一特征图分别输入至所述目标mobilenetv3模型进行角度校准处理,得到每个第一特征图对应的第二特征图;
136.将每个第二特征图分别输入至经过自监督预训练后的所述目标crnn模型进行文本识别,得到每个目标训练样本对应的目标损失值;
137.根据所有的目标损失值对所述改进后的深度学习模型的参数进行优化,得到优化后的深度学习模型,将所述优化后的深度学习模型作为所述改进后的深度学习模型并返回执行所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测的步骤,直至达到最大迭代次数时,将所述优化后的深度学习模型确定为所述目标识别模型。
138.在一个实施例中,所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图的步骤,包括:
139.基于多个学生模型相互学习的蒸馏方式,将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。
140.在一个实施例中,所述目标dbnet模型还包括:改进的fpn网络;所述改进的fpn网络的构建过程为:增大原始fpn网络中的每个经过上采样且融合后的特征图所连接的卷积核,以增大所述原始fpn网络的感受野。
141.在一个实施例中,还包括:
142.基于过滤器剪枝法,对原始mobilenetv3模型进行压缩,得到所述目标mobilenetv3模型。
143.在一个实施例中,还包括:
144.将原始crnn模型中的rnn网络替换为swin-transformer网络,得到所述目标crnn模型;其中,所述原始crnn模型包括:依次连接设置的cnn网络、所述rnn网络和ctc loss网络。
145.在一个实施例中,还包括:
146.获取多个包含人手井编号的原始训练样本,并对每个原始训练样本分别进行数据增强处理,得到多个第一训练样本;
147.对每个第一训练样本分别进行分辨率增强处理,得到多个目标训练样本。
148.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
149.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
150.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:
1.一种人手井编号识别方法,其特征在于,所述方法包括:基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型;其中,所述改进后的深度学习模型包括:依次连接设置的目标dbnet模型、目标mobilenetv3模型和目标crnn模型;其中,所述目标dbnet模型包括:具有注意力机制的残差网络;所述目标dbnet模型用于对图像的文本框进行检测,所述目标mobilenetv3模型用于对特征图进行角度校准,所述目标crnn模型用于对特征图进行文本识别;将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。2.根据权利要求1所述的方法,其特征在于,所述基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型的步骤,包括:将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。将每个第一特征图分别输入至所述目标mobilenetv3模型进行角度校准处理,得到每个第一特征图对应的第二特征图;将每个第二特征图分别输入至经过自监督预训练后的所述目标crnn模型进行文本识别,得到每个目标训练样本对应的目标损失值;根据所有的目标损失值对所述改进后的深度学习模型的参数进行优化,得到优化后的深度学习模型,将所述优化后的深度学习模型作为所述改进后的深度学习模型并返回执行所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测的步骤,直至达到最大迭代次数时,将所述优化后的深度学习模型确定为所述目标识别模型。3.根据权利要求2所述的方法,其特征在于,所述将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图的步骤,包括:基于多个学生模型相互学习的蒸馏方式,将每个目标训练样本分别输入至所述目标dbnet模型进行文本框检测,得到每个目标训练样本对应的第一特征图。4.根据权利要求1至3任一项所述的方法,其特征在于,所述目标dbnet模型还包括:改进的fpn网络;所述改进的fpn网络的构建过程为:增大原始fpn网络中的每个经过上采样且融合后的特征图所连接的卷积核,以增大所述原始fpn网络的感受野。5.根据权利要求1所述的方法,其特征在于,还包括:基于过滤器剪枝法,对原始mobilenetv3模型进行压缩,得到所述目标mobilenetv3模型。6.根据权利要求1所述的方法,其特征在于,还包括:将原始crnn模型中的rnn网络替换为swin-transformer网络,得到所述目标crnn模型;其中,所述原始crnn模型包括:依次连接设置的cnn网络、所述rnn网络和ctc loss网络。7.根据权利要求1所述的方法,其特征在于,还包括:获取多个包含人手井编号的原始训练样本,并对每个原始训练样本分别进行数据增强处理,得到多个第一训练样本;对每个第一训练样本分别进行分辨率增强处理,得到多个目标训练样本。8.一种人手井编号识别装置,其特征在于,所述装置包括:
训练模块,基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型;其中,所述改进后的深度学习模型包括:依次连接设置的目标dbnet模型、目标mobilenetv3模型和目标crnn模型;其中,所述目标dbnet模型包括:具有注意力机制的残差网络;所述目标dbnet模型用于对图像的文本框进行检测,所述目标mobilenetv3模型用于对特征图进行角度校准,所述目标crnn模型用于对特征图进行文本识别;识别模块,将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种人手井编号识别方法、装置、计算机设备和存储介质。所述方法包括:基于多个包含人手井编号的目标训练样本,对改进后的深度学习模型进行训练,得到用于人手井编号识别的目标识别模型;其中,所述改进的深度学习模型包括:依次连接设置的目标DBnet模型、目标Mobilenetv3模型和目标CRNN模型;所述目标DBnet模型包括:具有注意力机制的残差网络;将待测人手井图像输入至所述目标识别模型,得到所述待测人手井图像的识别结果。采用本方法能够提高了人手井编号识别的准确率,以此减少了人员的投入。人员的投入。人员的投入。


技术研发人员:冯超 刘忠江 王广善
受保护的技术使用者:北京东土拓明科技有限公司
技术研发日:2022.12.29
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐