基于CTPN算法的无人机巡检照片杆塔号牌文字识别方法
未命名
08-22
阅读:122
评论:0
基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法
技术领域
1.本发明涉及了图像处理领域的一种无人机巡检照片杆塔号牌文字识别方法,尤其涉及一种基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法。
背景技术:
2.在输电线路运行检修中无人机的智能巡检方式应用范围日益增大的背景下,目前我国电网系统内尚无一款平台或软件基于人工智能理论和技术,能够实现对无特定飞行轨迹的巡检照片进行自动归类命名和质量分析。无人机巡检对输电线路现场巡视效率提升作用明显,精细化巡检涉及庞大的照片数据获取与归类命名工作。然而,现有的巡检作业中,巡检人员在通过无人机获取巡检图像数据后,仍要通过人工手动的方式把巡检照片关联到其所属的塔及其拍摄位置,进而实现大量巡检照片的归类和命名,需要耗费大量的精力和时间,且无法保证作业结果的准确性。
3.传统的场景文本检测中有三种方法,一是通过纹理对文字进行识别,与模式识别较为相似,但需要对像素进行枚举,计算量过大且需要通过提前规定形式对特定情况进行识别,因此泛化能力较差。二是以swt为例的以联通组件为基础的文本识别方法,能够更快速的找到文字所在的区域,但是由于场景中存在图片的仿射变换以及文字的断连情况等因素,导致该方法的鲁棒性不高。再就是融合两种方法的文本检测方法,其先通过联通组件找到文字所在区域,再加以纹理方法辅助识别文字,但只能检测水平排列的文字。现有的场景文字识别通过深度学习的方法对文字信息进行学习。
4.本次发明需要对无人机拍摄的高像素照片进行场景文本识别,并且在此图片中号牌的尺寸较小,可以视作小目标检测。高像素图片直接输入网络会导致模型参数量过大,对硬件要求过高,大部分的深度学习模型会将输入图片先调整到一定尺寸,但这一尺寸不符合高像素图片下的小目标检测的需求,原因在于调整后的图片像素丢失过多,小目标特征不明显。本次研究将会通过改进现有场景文本识别模型以适用于高像素图片中的小目标检测。
技术实现要素:
5.为了实现上述目的,本发明提供了一种基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法,通过改进ctpn算法,对机巡检照片中的文字位置进行定位,再将获取位置后的文字输入crnn算法中对文字内容进行识别,进而获得杆塔的线号名称和塔号数字,获取线路的名字,最后通过对塔号的分析补全丢失的数据。
6.本发明采用的技术方案是:
7.步骤1:利用无人机定点拍摄杆塔号牌的巡检照片;
8.步骤2:对所获取的杆塔号牌数据集进行标注,构建杆塔号牌数据集;
9.步骤3:训练改进的ctpn网络以获得文字的位置信息;
10.步骤4:训练卷积循环神经网络以达到对文字内容的识别;
11.步骤5:对待处理线路的号牌进行文字识别。
12.所述步骤2主要是首先对巡检照片进行筛选,对图片中号牌文字丢失以及拍摄曝光严重或是欠曝光的图片筛出,利用开源方法ppocrlabel对巡检照片进行标注,利用矩形框标注出巡检照片文字的并输出矩形框四角点的坐标以及其中杆塔号牌的中文字含义,并将输出的结果通过脚本改成文档分析与识别领域国际会议的格式用于后续的训练,所述格式的构成主要包括四个点的坐标、文字所用语言和文字内容。
13.所述步骤3中训练改进的ctpn网络以获得文字的位置信息具体为:
14.采用大小为684
×
384的滑动窗口对巡检照片进行切割,横向移动时以180像素点的重叠率向下一个位置移动,纵向移动时同样以180个像素点向下一个位置进行移动,最终切割出多个大小为684
×
382大小的图片,在切割时将移动到该点时的左上角坐标位置存储作为命名,同时计算存储的矩形框各个点的坐标是否在真实框的内部以及此张切割的图片内部是否有真实框,对于切割后的图片内不存在真实框的图片和存在一部分真实框的图片作为负样本输入至网络中,对于切割后的内部存在真实框的图片作为正样本输入网络学习。
15.改进ctpn网络将预处理的图片输入到vgg16网络中提取图像特征,再用3
×
3的滑动窗口对特征图做卷积得到特征向量,将得到的特征向量输入到双向的长短记忆人工神经网络学习每一行的特征,最后将输出的特征值通过全连接层,其中再预测框的时候引入了锚点机制,其宽度不变为16,高度预设为十个分别为11、16、22、32、46、65、93、134、191、273,以保证覆盖不同的高度文本,输出2k个垂直坐标以及2k个预测分数和k个边框调整参数。
16.其中,垂直坐标由两个部分组成,分别是中心位置的高和矩形框的高度。
[0017][0018]
其中,和ha分别是锚点的y坐标中心和高度,cy和h分别是预测出来的y坐标中心和高度,k个边框调整参数,用来精修文本行的两个端点,表示每个建议框的水平平移量;
[0019][0020]
其中,x
side
预测出来的距离锚点水平坐标最近的坐标,是锚点的x坐标中心,wa是锚点的宽度。
[0021]
对于输出的结果通过之前报错的左上角图片坐标将切割图片拼回完整原图,在原图中进行真实边界框anchor box整合,沿正方向寻找候选框水平距离小于50的候选锚点,并保留与候选框重叠率大于0.5的锚点,再选出其中通过激活函数得到的值最大的候选框值,相同的方法沿反方向再进行一次查找,最后将符合要求的候选框拼接得到大预测框,作为最后的输出结果。
[0022]
训练时需要通过损失函数对训练的结果进行评估,该损失函数有三个部分组成,三个分支对应三部分的损失函数。第一部分是逻辑回归损失用于监督学习锚点中是否包含
文本,第二部分是边界框的回归,第三部分是用于监督学习包含文本的锚点边界框回归的偏移量。
[0023]
所述步骤4具体如下:首先将杆塔号牌数据集经过卷积神经网络的第一个卷积层提取输入图像的特征图,所述卷积神经网络中共有七层卷积,四个最大池化层用以特征的提取,两个归一化操作用以加速模型收敛,缩短训练过程。
[0024]
在特征图上按列从左到右生成,每一列包含512维特征,这意味着第i个特征向量是所有的特征图第i列像素的连接,这些特征向量就构成一个序列的特征向量序列,将输出的向量输入到序列循环神经网络,这是一个双向的长短记忆人工神经网络,在卷积特征的基础上继续提取文字序列特征,并输出预测标签。最后通过连接时序分类损失,把从循环层获取的一系列标签分布转换成最终的标签序列。
[0025]
所述步骤5具体为:读取整条待处理线路按文件夹分好的杆塔号牌照片,对每个号牌进行识别匹配到线路名称和塔号名称,按顺序存入数组中,线路名称通过找到出现次数最多的数确定其为线路名称,对塔号进行排序,找到差值不为一的部分补充该塔号。
[0026]
综上所述,本技术实施例提供的基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法,通过对ctpn算法的改进与优化以适应无人机拍摄出的高像素图片,实现对杆塔号牌位置信息的获取,再将获取位置信息的图片输入至卷积循环神经网络+ctc(连接时序分类)网络以达到对杆塔号牌照片的内容信息的读取,最后利用先验知识对识别后的结果补全和矫正。
[0027]
本发明的有益效果是:
[0028]
现有技术对于输入图片会经过图片大小调整的步骤,会先将图片大小调整至448
×
448的大小,经过调整后的图片会丢失较多像素点,杆塔号牌照片的图片中文字是小目标且原始图像的像素较大,因此经过图片调整大小后像素点的丢失会导致文字内容难以检测,而使用原始图片进行训练会导致模型较大,并在训练和测试过程中对硬件显存要求过高。
[0029]
本发明在不丢失像素点的前提下对原始图片进行有重叠的切割,在保证切割时较大程度的保留图片内容的完整性并用以对小目标的文字内容以及位置进行检测,同时模型大小相较于原始图片输入训练出的模型小,更有优势。
附图说明
[0030]
图1为本发明流程示意图;
[0031]
图2为本发明中改进ctpn算法的流程图。
[0032]
图3为本发明中实施例的识别情况示意图。
具体实施方式
[0033]
下面结合附图及具体实施例对本发明作进一步详细说明。
[0034]
如图1所示,本方法主要包括以下步骤:
[0035]
步骤1:利用无人机定点拍摄杆塔号牌巡检照片;
[0036]
步骤2:对所获取的杆塔号牌数据集进行标注,构建出杆塔号牌数据集;
[0037]
步骤3:训练改进的ctpn网络以获得文字的位置信息;
[0038]
步骤4:训练crnn网络以达到对文字内容的识别;
[0039]
步骤5:对待测线路的号牌进行文字识别;
[0040]
进一步地,步骤1中的利用无人机定点拍摄杆塔各部位巡检照片,构建低质照片数据集具体方法如下:
[0041]
在良好的环境下通过无人机自带的摄像头对整条线路的杆塔号牌进行拍摄,并将无人机中的sd存储卡取出,提取拍摄得到的杆塔照片。
[0042]
再一步,所属步骤2中对所获取的杆塔号牌数据集进行标注,构建出杆塔号牌数据集,其具体方法如下:
[0043]
首先对巡检照片进行筛选,对巡检照片中号牌文字丢失以及拍摄曝光严重或是欠曝光的图片筛出,再用开源方法ppocrlabel对筛选过后的巡检照片进行标注,标注出其四个点的坐标以及其中文字含义,并将输出的结果通过脚本改成至icdar2017的格式用以后续训练模型,格式的构成是四个点的坐标,文字所用语言,文字内容。
[0044]
如图2所示,步骤3中训练改进ctpn网络,用以获得杆塔号牌图片中文字的位置信息,其具体方法如下:
[0045]
原图大小为5472
×
3078,用大小为684
×
384的滑动窗口对图片进行切割,横向移动时以180像素点的重叠率向下一个位置移动,纵向移动时同样以180个像素点向下一个位置进行移动,最终会切割出多个大小为684
×
382大小的图片,在切割时将移动到该点时的左上角坐标位置存储作为命名,同时计算各个点的坐标是否在真实框的内部以及此张切割的图片内部是否有真实框,对于切割后的图片内不存在真实框的图片和存在一部分真是框的图片作为负样本输入至网络中,对于切割后的内部存在真实框的图片作为正样本输入网络学习。上述方法是训练部分,预测部分则是对每张图进行预测。
[0046]
改进ctpn网络将预处理的图片输入到vgg16网络中提取图像特征,再用3
×
3的滑动窗口对特征图再做卷积得到特征向量,将得到的特征向量输入到双向的lstm网络学习每一行的特征,最后将输出的特征值通过全连接层,其中再预测框的时候引入了anchor机制,其宽度不变为16,高度预设为十个分别为11、16、22、32、46、65、93、134、191和273,以保证覆盖不同的高度文本,输出2k个垂直坐标以及2k个预测分数和k个边框调整参数。
[0047]
垂直坐标有两个部分组成,一个是中心位置的高和矩形框的高度。
[0048][0049]
和ha分别是anchor的y坐标中心和高度,cy和h分别是预测出来的y坐标中心和高度;k个边框调整参数,用来精修文本行的两个端点,表示每个建议框的水平平移量。
[0050][0051]
其中,x
side
预测出来的距离anchor水平坐标最近的坐标,是anchor的x坐标中心,wa是anchor的宽度。
[0052]
对于输出的结果通过之前报错的左上角图片坐标将切割图片拼回完整原图,在原图中进行anchor box整合,沿正方向寻找box水平距离小于50的候选anchor,并保留与box
重叠率大于0.5的anchor,再选出其中softmax值最大的box值,相同的方法沿反方向再进行一次查找,最后将符合要求的box拼接得到大预测框,作为最后的输出结果。
[0053]
训练时需要通过损失函数对训练的结果进行评估,该损失函数有三个部分组成,三个分支对应三部分的损失函数。
[0054]
第一部分是softmax loss用于监督学习anchor中是否包含文本,第二部分是边界框的回归,第三部分是用于监督学习包含文本的anchor边界框回归的偏移量。
[0055]
再进一步,步骤4中训练crnn网络,用以获得杆塔号牌图片中文字的具体内容,其具体方法如下:
[0056]
crnn网络可以分位三个部分,首先是将打标好的杆塔号牌数据集经过第一个cnn网络的卷积层,用以提取输入图像的特征图,然后通过四个最大池化层用以特征的提取,最后通过两个归一化操作用以加速模型收敛,缩短训练过程。
[0057]
在特征图上按列从左到右生成,每一列包含512维特征,这意味着第i个特征向量是所有的特征图第i列像素的连接,这些特征向量就构成一个序列的特征向量序列,将输出的向量序列rnn循环神经网络,这是一个双向的lstm网络,在卷积特征的基础上继续提取文字序列特征,并输出预测标签。
[0058]
最后通过ctc损失,把从循环层获取的一系列标签分布转换成最终的标签序列。
[0059]
步骤5中对整条线路的号牌进行文字识别进行一定程度的补全,其具体方案如下:读取整条线路按文件夹分好的无人机拍摄的杆塔号牌照片,对每个号牌进行识别匹配到线路名称和塔号名称,按顺序存入数组中,线路名称通过找到出现次数最多的数确定其为线路名称,对塔号进行排序,找到差值不为一的部分补充该塔号。
[0060]
综上所述,本技术实施例提供的基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法,通过对ctpn算法的改进与优化以适应无人机拍摄出的高像素图片,实现对杆塔号牌位置信息的获取,再将获取位置信息的图片输入至crnn+ctc网络以达到对杆塔号牌照片的内容信息的读取,最后利用先验知识对识别后的结果补全和矫正。
[0061]
通过本发明解决了巡检照片杆塔号牌文字的识别,现有模型会导致图片像素丢失失真而识别不到文字内容及位置,通过切割的方法解决了在高分辨率且是小目标的情况下对文字的位置的定位和内容的识别。
技术特征:
1.一种基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法,其特征在于,所述方法包括如下步骤:步骤1:利用无人机定点拍摄杆塔号牌的巡检照片;步骤2:对所获取的杆塔号牌数据集进行标注,构建杆塔号牌数据集;步骤3:训练改进的ctpn网络以获得文字的位置信息;步骤4:训练卷积循环神经网络以达到对文字内容的识别;步骤5:对待处理线路的号牌进行文字识别。2.根据权利要求1所述的一种基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法,其特征在于:所述步骤2主要是利用开源方法ppocrlabel对巡检照片进行标注,利用矩形框标注出巡检照片文字的并输出矩形框四角点的坐标以及其中杆塔号牌的中文字含义,并将输出的结果通过脚本改成文档分析与识别领域国际会议的格式用于后续的训练,所述格式的构成主要包括四个点的坐标、文字所用语言和文字内容。3.根据权利要求1所述的一种基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法,其特征在于:所述步骤3中训练改进的ctpn网络以获得文字的位置信息具体为:采用大小为684
×
384的滑动窗口对巡检照片进行切割,横向移动时以180像素点的重叠率向下一个位置移动,纵向移动时同样以180个像素点向下一个位置进行移动,最终切割出多个大小为684
×
382大小的图片,在切割时将移动到该点时的左上角坐标位置存储作为命名,同时计算存储的矩形框各个点的坐标是否在真实框的内部以及此张切割的图片内部是否有真实框,对于切割后的图片内不存在真实框的图片和存在一部分真实框的图片作为负样本输入至网络中,对于切割后的内部存在真实框的图片作为正样本输入网络学习。4.根据权利要求1所述的一种基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法,其特征在于,所述步骤4具体如下:首先将杆塔号牌数据集经过卷积神经网络的第一个卷积层提取输入图像的特征图,所述卷积神经网络中共有七层卷积,四个最大池化层用以特征的提取,两个归一化操作用以加速模型收敛,缩短训练过程。5.根据权利要求1所述的一种基于ctpn算法的无人机巡检照片杆塔号牌文字识别方法,其特征在于:所述步骤5具体为:读取整条待处理线路按文件夹分好的杆塔号牌照片,对每个号牌进行识别匹配到线路名称和塔号名称,按顺序存入数组中,线路名称通过找到出现次数最多的数确定其为线路名称,对塔号进行排序,找到差值不为一的部分补充塔号。
技术总结
本发明公开了一种基于CTPN算法的杆塔号牌文字识别方法。步骤包括利用无人机拍摄多条线路的杆塔号牌照片,对所有数据号牌的文字部位进行标注用于后续训练,改进CTPN算法对打标后的数据集进行训练获取文字的位置信息,利用公开数据集对CRNN网络进行训练用以文字内容识别,对待处理线路的号牌图片进行识别并输出的文字信息进行筛选补全。本发明通过对CTPN网络的改进和优化以实现对巡检照片中杆塔号牌的文字位置的确定,并再通过CRNN网络对文字内容进行识别,实现对小目标号牌信息的识别。实现对小目标号牌信息的识别。实现对小目标号牌信息的识别。
技术研发人员:林龙旭 郑恩辉
受保护的技术使用者:中国计量大学
技术研发日:2022.12.12
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
