一种基于多尺度卷积的极端长宽比文本检测方法及系统与流程

未命名 09-15 阅读:213 评论:0


1.本发明涉及文本检测技术领域,具体而言,涉及一种基于多尺度卷积的极端长宽比文本检测方法及系统。


背景技术:

2.目前场景文字检测已被广泛应用到门牌检测、地图导航等场景中。但目前的场景文字检测仍存在一定的缺陷,例如:
3.dbnet是一种具有代表性的单级场景文本检测器,但是它在检测具有极端长宽比的文本实例时表现不佳。dbnet图片信息对网络的卷积感受野相对有限,无法充分地利用极端长宽比的文本框进行预测,会出现文本框被分段检测或检测不到的情况。此外,dbnet为了区分出紧密文本的标注,通过等式1来计算每个标注框向内收缩的偏移量。具体而言,如图2所示,阴影部分为文本,阴影部分外的边框为原始标注框,阴影部分内的边框为向内搜索进行的标注框,原始标注框和向内搜索框之间的距离则为d。
[0004][0005]
其中,l是原始标注框的周长,a是标注的面积,r是预设的缩放因子,例如可设为0.4。
[0006]
在dbnet的标注框中,当出现极端长宽比时,会出现标注为1的向内搜索框相对较窄的情况。如图3所示,纵向来看,间隔点位置在搜索框内的像素相对较少,这意味着此纵向位置的少数像素点预测概率值较低时,极容易受到后处理中人为设置的阈值的影响,出现极端长宽比文本断开的情况,而被预测为两个分开的文本。


技术实现要素:

[0007]
本发明的目的在于提供一种基于多尺度卷积的极端长宽比文本检测方法及系统,其能够扩大dbnet网络的感受野,提升其在极端长宽比文本上的检测性能。
[0008]
本发明的实施例是这样实现的:
[0009]
第一方面,本技术实施例提供一种基于多尺度卷积的极端长宽比文本检测方法,其包括:
[0010]
将图像输入resnet主干网络中,并利用fpn金字塔网络进行多尺度特征提取,得到多尺度特征图;
[0011]
分别对各个多尺度特征图进行上采样,并拼接得到特征图;
[0012]
利用预设的基于注意力机制的多尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图;
[0013]
基于融合特征图计算生成预测概率图,并利用改进的框生成算法确定出文字区域。
[0014]
基于第一方面,在本发明的一些实施例中,上述利用预设的基于注意力机制的多
尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图的步骤包括:
[0015]
对特征图进行多尺度卷积操作,并计算得到每个卷积层各个通道的注意力;
[0016]
在通道维度上,利用softmax函数将通道注意力限定在0-1之间;
[0017]
将限定后的通道注意力与对应卷积层的特征图相乘,并进行融合拼接,得到融合特征图。
[0018]
基于第一方面,在本发明的一些实施例中,上述利用改进的框生成算法确定出文字区域时,采用如下公式进行文本框收缩:
[0019][0020]
其中,d表示文本框收缩距离,l表示原始标注框的周长,a表示标注的面积,r表示预设的缩放因子,rate表示文本框的短边与长边的比值。
[0021]
基于第一方面,在本发明的一些实施例中,还包括:在训练过程中对图像进行随机缩放、旋转、裁剪的预处理操作。
[0022]
第二方面,本技术实施例提供一种基于多尺度卷积的极端长宽比文本检测系统,其包括:
[0023]
特征提取模块,用于将图像输入resnet主干网络中,并利用fpn金字塔网络进行多尺度特征提取,得到多尺度特征图;
[0024]
上采样模块,用于分别对各个多尺度特征图进行上采样,并拼接得到特征图;
[0025]
通道注意力融合模块,用于利用预设的基于注意力机制的多尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图;
[0026]
文本框确定模块,用于基于融合特征图计算生成预测概率图,并利用改进的框生成算法确定出文字区域。
[0027]
第三方面,本技术实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当上述一个或多个程序被上述处理器执行时,实现如上述第一方面中任一项上述的方法。
[0028]
第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项上述的方法。
[0029]
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
[0030]
本技术实施例提供一种基于多尺度卷积的极端长宽比文本检测方法及系统,首先,将图像输入resnet主干网络中,并利用fpn金字塔网络进行多尺度特征提取,得到多尺度特征图。然后,分别对各个多尺度特征图进行上采样,并拼接得到特征图。之后,利用预设的基于注意力机制的多尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图。最后,基于融合特征图计算生成预测概率图,并利用改进的框生成算法确定出文字区域。整体而言,本技术一方面在场景文本极端长宽比文本的检测问题上,通过改进的框生成算法修改了文本收缩距离,使得收缩距离可根据不同的长宽比进行收缩。从而扩大标注框面积,从数据角度降低极端长宽比对阈值的敏感度以及易于被检测为两段的概率。另一方面,通过在dbnet网络的基础上,添加基于注意力机制的多尺度卷积融合模块,从通
道层面考虑了每个尺度卷积的重要性。模型可在训练过程中,自适应的根据数据集调整在每个通道的重要性,提升模型在极端长宽比文本上的检测性能。
附图说明
[0031]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0032]
图1为本发明提供的一种基于多尺度卷积的极端长宽比文本检测方法一实施例的步骤框图;
[0033]
图2为本发明提供的一种基于多尺度卷积的极端长宽比文本检测方法一实施例中dbnet的标注框示意图;
[0034]
图3为本发明提供的一种基于多尺度卷积的极端长宽比文本检测方法一实施例中不考虑文本长宽比的标注示意图;
[0035]
图4为本发明提供的一种基于多尺度卷积的极端长宽比文本检测方法一实施例中考虑文本长宽比的标注示意图;
[0036]
图5为本发明提供的一种基于多尺度卷积的极端长宽比文本检测方法一实施例中改进后的dbnet网络架构;
[0037]
图6为本发明提供的一种基于多尺度卷积的极端长宽比文本检测方法一实施例中基于注意力机制的多尺度卷积融合模块的网络结构示意图;
[0038]
图7为本发明提供的一种基于多尺度卷积的极端长宽比文本检测系统的结构框图;
[0039]
图8为本发明实施例提供的一种电子设备的结构框图。
[0040]
图标:1、存储器;2、处理器;3、通信接口;11、特征提取模块;12、上采样模块;13、通道注意力融合模块;14、文本框确定模块。
具体实施方式
[0041]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
[0042]
因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0043]
实施例
[0044]
下面结合附图,对本技术的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
[0045]
dbnet是一种具有代表性的单级场景文本检测器,但是它在检测具有极端长宽比
的文本实例时表现不佳。dbnet图片信息对网络的卷积感受野相对有限,无法充分地利用极端长宽比的文本框进行预测,会出现文本框被分段检测或检测不到的情况。此外,dbnet为了区分出紧密文本的标注,通过等式1来计算每个标注框向内收缩的偏移量。具体而言,如图2所示,阴影部分为文本,阴影部分外的边框为原始标注框,阴影部分内的边框为向内搜索进行的标注框,原始标注框和向内搜索框之间的距离则为d。
[0046][0047]
其中,l是原始标注框的周长,a是标注的面积,r是预设的缩放因子,例如可设为0.4。
[0048]
在dbnet的标注框中,当出现极端长宽比时,会出现标注为1的向内搜索框相对较窄的情况。如图3所示,纵向来看,间隔点位置在搜索框内的像素相对较少,这意味着此纵向位置的少数像素点预测概率值较低时,极容易受到后处理中人为设置的阈值的影响,出现极端长宽比文本断开的情况,而被预测为两个分开的文本。
[0049]
鉴于此,请参照图1,图1所示为本技术实施例提供的一种基于多尺度卷积的极端长宽比文本检测方法的流程图,该方法包括以下步骤:
[0050]
步骤s1:将图像输入resnet主干网络中,并利用fpn金字塔网络进行多尺度特征提取,得到多尺度特征图。
[0051]
步骤s2:分别对各个多尺度特征图进行上采样,并拼接得到特征图。
[0052]
上述步骤中,由于特征图不同层次特征的表达能力不同,浅层特征主要反映明暗、边缘等细节,深层特征则反映更丰富的整体结构。单独使用浅层特征是无法包含整体结构信息的,会减弱特征的表达能力。所以通过对图像进行自底向上的卷积操作与自顶向下的上采样操作,以获取多尺度的特征。再把深层特征融合到浅层特征中,以兼顾细节和整体,融合后的特征会具有更为丰富的表达能力。
[0053]
示例性的,先构建dbnet网络模型,其主干网络采用resnet50(残差网络),并采用fpn(特征金字塔网络)进行特征提取,以获得较强的语义特征。具体的,先对图像进行3x3的卷积操作,并按照卷积公式分别获取原图大小比例的1/2、1/4、1/8、1/16、1/32的特征图。然后自顶向下进行上采样x2,并与自底向上生成的相同大小的特征图融合。融合之后再采用3x3的卷积消除上采样的混叠效应。最后对每层输出结果进行上采样,并统一为1/4大小的特征图。
[0054]
步骤s3:利用预设的基于注意力机制的多尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图。
[0055]
上述步骤中,为进一步提高dbnet网络在极端长文本上的检测性能,本技术在dbnet的基础上,添加了基于注意力机制的多尺度卷积融合模块,如图5所示。主要在resnet50+fpn的输出后面添加了基于注意力机制的多尺度卷积模型。具体的,在图6中展示了基于注意力机制的多尺度卷积模型,其主要包括以下步骤:
[0056]
步骤s3-1:对特征图进行多尺度卷积操作,并计算得到每个卷积层各个通道的注意力。
[0057]
上述步骤中,首先对特征图采用3x3、5x5、7x7以及9x9的卷积进行计算,随后通过通道注意力模块,得到每个卷积层每个通道的注意力,大小为(1,1,256)。其中,设3x3卷积
得到的注意力输出为5x5卷积得到的注意力输出为7x7卷积得到的注意力输出为9x9卷积得到的注意力输出为随后对四个卷积层的注意力进行拼接,如等式2所示:
[0058][0059]
步骤s3-2:在通道维度上,利用softmax函数将通道注意力限定在0-1之间。
[0060]
上述步骤中,在通道维度上进行softmax,经过softmax后,原本的注意力将会被限定在0-1之间,如等式3所示:
[0061][0062]
其中,n表示第几个通道,n=(1,2,

,256)。
[0063]
步骤s3-3:将限定后的通道注意力与对应卷积层的特征图相乘,并进行融合拼接,得到融合特征图。
[0064]
上述步骤中,得到每个卷积层每个通道上的注意力后,再与原本的特征图进行相乘,最后拼接在一起得到特征输出。
[0065]
此步骤中,通过在dbnet网络结构的基础上添加基于注意力机制的多尺度卷积融合模块,从通道层面考虑了每个尺度卷积的重要性,扩大了dbnet网络的感受野。模型可在训练过程中,自适应的根据数据集调整在每个通道的重要性,提升模型在极端长宽比文本上的检测性能。
[0066]
步骤s4:基于融合特征图计算生成预测概率图,并利用改进的框生成算法确定出文字区域。
[0067]
上述步骤中,普通的dbnet网络在生成收缩的标注框时,相对较窄。当像素点预测概率值较低时,易造成文本容易受到后处理时人为设置的阈值的影响,出现极端长宽比文本断开或文本检测不全的情况。针对于此,本技术对上述等式1的文本收缩公式进行了改
进,加入了长宽比因素,使文本的收缩距离能够根据长宽比进行一定的调整。
[0068]
具体的,采用如下公式进行文本框收缩:
[0069][0070]
其中,d表示文本框收缩距离,l表示原始标注框的周长,a表示标注的面积,r表示预设的缩放因子(例如可设为0.4),rate表示文本框的短边与长边的比值。当rate越小时,log()越小,即d的值越小,达到了缩小原本收缩距离的效果。其次由于log(1+rate)的导数为当rate越小时,越大,即log(1+rate)减小得更快。因此,当文本的极端长宽比越小时,log(1+rate)能减小得更快,从而扩大了标注框面积,从数据角度降低了极端长宽比对阈值的敏感度以及易于被检测为两段的概率。如图4所示,当采用等式4来计算收缩距离d时,可扩宽原本标注框在短边的长度。此外,利用dbnet网络计算生成预测概率图属于现有技术,此处不再赘述。
[0071]
基于第一方面,在本发明的一些实施例中,还包括:在训练过程中对图像进行随机缩放、旋转、裁剪的预处理操作。
[0072]
上述步骤中,在对网络模型进行训练优化的过程中,可以先对训练样本图片进行随机缩放、旋转、裁剪等预处理操作,以增强图像数据特征,提高模型的泛化能力。示例性的,训练过程中,可以采用adam作为优化器,并设置网络训练的相关参数如下:epoch=1200,lr=0.002。其中,epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。lr指线性回归模型的参数,用于计算某样本特征下事件发生的概率。
[0073]
基于同样的发明构思,本发明还提出一种基于多尺度卷积的极端长宽比文本检测系统,请参照图7,图7为本技术实施例提供的一种基于多尺度卷积的极端长宽比文本检测系统的结构框图。该系统包括:
[0074]
特征提取模块11,用于将图像输入resnet主干网络中,并利用fpn金字塔网络进行多尺度特征提取,得到多尺度特征图;
[0075]
上采样模块12,用于分别对各个多尺度特征图进行上采样,并拼接得到特征图;
[0076]
通道注意力融合模块13,用于利用预设的基于注意力机制的多尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图;
[0077]
文本框确定模块14,用于基于融合特征图计算生成预测概率图,并利用改进的框生成算法确定出文字区域。
[0078]
请参照图8,图8为本技术实施例提供的一种电子设备的结构框图。该电子设备包括存储器1、处理器2和通信接口3,该存储器1、处理器2和通信接口3相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器1可用于存储软件程序及模块,如本技术实施例所提供的一种基于多尺度卷积的极端长宽比文本检测系统对应的程序指令/模块,处理器2通过执行存储在存储器1内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口3可用于与其他节点设备进行信令或数据的通信。
[0079]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技
术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
[0080]
对于本领域技术人员而言,显然本技术不限于上述示范性实施例的细节,而且在不背离本技术的精神或基本特征的情况下,能够以其它的具体形式实现本技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

技术特征:
1.一种基于多尺度卷积的极端长宽比文本检测方法,其特征在于,包括:将图像输入resnet主干网络中,并利用fpn金字塔网络进行多尺度特征提取,得到多尺度特征图;分别对各个多尺度特征图进行上采样,并拼接得到特征图;利用预设的基于注意力机制的多尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图;基于融合特征图计算生成预测概率图,并利用改进的框生成算法确定出文字区域。2.如权利要求1所述的一种基于多尺度卷积的极端长宽比文本检测方法,其特征在于,所述利用预设的基于注意力机制的多尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图的步骤包括:对特征图进行多尺度卷积操作,并计算得到每个卷积层各个通道的注意力;在通道维度上,利用softmax函数将通道注意力限定在0-1之间;将限定后的通道注意力与对应卷积层的特征图相乘,并进行融合拼接,得到融合特征图。3.如权利要求1所述的一种基于多尺度卷积的极端长宽比文本检测方法,其特征在于,利用改进的框生成算法确定出文字区域时,采用如下公式进行文本框收缩:其中,d表示文本框收缩距离,l表示原始标注框的周长,a表示标注的面积,r表示预设的缩放因子,rate表示文本框的短边与长边的比值。4.如权利要求1所述的一种基于多尺度卷积的极端长宽比文本检测方法,其特征在于,还包括:在训练过程中对图像进行随机缩放、旋转、裁剪的预处理操作。5.一种基于多尺度卷积的极端长宽比文本检测系统,其特征在于,包括:特征提取模块,用于将图像输入resnet主干网络中,并利用fpn金字塔网络进行多尺度特征提取,得到多尺度特征图;上采样模块,用于分别对各个多尺度特征图进行上采样,并拼接得到特征图;通道注意力融合模块,用于利用预设的基于注意力机制的多尺度卷积融合模块计算特征图的各卷积通道的注意力并融合,得到融合特征图;文本框确定模块,用于基于融合特征图计算生成预测概率图,并利用改进的框生成算法确定出文字区域。6.一种电子设备,其特征在于,包括:存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现如权利要求1-4中任一项所述的方法。7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。

技术总结
本发明提出了一种基于多尺度卷积的极端长宽比文本检测方法及系统,涉及文本检测技术领域。本申请一方面在场景文本极端长宽比文本的检测问题上,通过改进的框生成算法修改了文本收缩距离,使得收缩距离可根据不同的长宽比进行收缩。从而扩大标注框面积,从数据角度降低极端长宽比对阈值的敏感度以及易于被检测为两段的概率。另一方面,通过在DBNet网络的基础上,添加基于注意力机制的多尺度卷积融合模块,从通道层面考虑了每个尺度卷积的重要性。模型可在训练过程中,自适应的根据数据集调整在每个通道的重要性,提升模型在极端长宽比文本上的检测性能。本上的检测性能。本上的检测性能。


技术研发人员:李慧 方徐伟 徐小龙 周松
受保护的技术使用者:天翼电子商务有限公司
技术研发日:2023.05.25
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐