文档图像的版面理解方法、装置、电子设备与流程
未命名
09-16
阅读:61
评论:0

1.本技术涉及图像处理技术领域,特别是涉及文档图像的版面理解方法、装置、电子设备,以及计算机可读存储介质。
背景技术:
2.文档作为信息记录、传递和存储的重要载体,在日常生活中占有非常重要的地位。但海量的文档存在不易存储和信息获取困难等问题,将纸质文档通过拍照、扫描等手段进行数字化处理,并通过文档图像理解技术对文档信息提取、分类和存储,可有效的解决以上问题。
3.文档图像理解可以分为版面理解和内容理解两部分,其中,版面理解主要是对文档版面中包含的各种版面元素进行定位、分类,其中,版面元素包括:粗粒度版面元素(如表格、图像、公式、文本块等)和细粒度元素(如文本行、词和字符等)。现有技术中,基于深度学习的文档图像的版面理解的方案主要:自顶向下和自底向上的两种版面理解方案。自顶向下的版面理解方案一般是先对粗粒度的版面元素进行定位分类,然后再对文本区域细粒度元素文本行或词进行检测;自底向上的版面理解方案一般是先对文本行或词进行检测,然后通过聚类实现文本块的检测。
4.现有技术中,自顶向下的版面理解方案,一般需要多个模型,分别负责粗粒度版面元素的检测和细粒度元素的检测,训练成本高、资源占用大、推理时间长、模型集成复杂。自底向上的版面理解方案,一般采用端到端的模型,缺点是模型适应性较差,只能适用于纯文本图像。
5.可见,现有技术中的文档图像的版面理解方法还需要改进。
技术实现要素:
6.本技术实施例提供一种文档图像的版面理解方法及装置、电子设备,用于解决版面理解模型训练成本高、推理时间长、模型结构复杂,以及,适应性较差的缺陷。
7.第一方面,本技术实施例提供了一种文档图像的版面理解方法,包括:
8.通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;
9.通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;
10.根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。
11.第二方面,本技术实施例提供了一种文档图像的版面理解装置,包括:
12.图像特征获取模块,用于通过预先训练的版面理解模型的主干网络对待处理文档
图像进行特征提取,获取图像特征;
13.检测结果获取模块,用于通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;
14.版面理解结果获取模块,用于根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。
[0015][0016]
第三方面,本技术实施例还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本技术实施例所述的文档图像的版面理解方法。
[0017]
第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本技术实施例公开的文档图像的版面理解方法的步骤。
[0018]
本技术实施例公开的文档图像的版面理解方法,通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。本技术实施例公开的文档图像的版面理解方法,通过采用一个多分支网络模型,同时定位分类出粗细粒度版面元素,降低了模型训练成本,模型结构简单。进一步的,通过针对粗、细粒度版面元素的特点,设计不同的网络分支,在降低计算量的同时兼顾版面元素检测的鲁棒性和泛化性,不仅可以缩短推理时间,还可以提升文档图像的版面理解适应能力,可以对多种类型版面元素进行检测分类。
[0019]
上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
[0020]
为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0021]
图1是本技术实施例的文档图像的版面理解方法流程图之一;
[0022]
图2是本技术实施例中的版面理解模型结构示意图;
[0023]
图3是本技术实施例中的第一检测结果和第二检测结果示意图之一;
[0024]
图4是本技术实施例中的第一检测结果和第二检测结果示意图之二;
[0025]
图5是图3中的第一检测结果和第二检测结果的优化结果示意图之一;
[0026]
图6是图3中的第一检测结果和第二检测结果的优化结果示意图之二;
[0027]
图7本技术实施例的文档图像的版面理解方法流程图之二;
[0028]
图8是本技术一个实施例中文档图像的版面理解装置结构示意图之一;
[0029]
图9是本技术一个实施例中文档图像的版面理解装置结构示意图之二;
[0030]
图10示意性地示出了用于执行根据本技术的方法的电子设备的框图;以及
[0031]
图11示意性地示出了用于保持或者携带实现根据本技术的方法的程序代码的存储单元
。
具体实施方式
[0032]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0033]
本技术实施例公开的一种文档图像的版面理解方法,如图1所示,所述方法包括:步骤120至步骤140。
[0034]
步骤120,通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征。
[0035]
本技术的一些实施例中,如图2所示,所述版面理解模型包括:主干网络210、第一分支网络220和第二分支网络230。其中,所述主干网络210用于对输入文档图像进行特征提取,所述第一分支网络220用于基于所述主干网络210输出的特征进行粗粒度版面元素的检测,所述第二分支网络230用于基于所述主干网络210输出的特征进行细粒度版面元素的检测。所述主干网络210、第一分支网络220和第二分支网络230作为所述版面理解模型的组成部分,整体进行训练。
[0036]
本技术的一些实施例中,如图2所示,所述主干网络210进一步包括:基于目标检测的特征提取网络2101和特征金字塔网络2102。
[0037]
可选的,所述通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征,包括:子步骤1201和子步骤1202。
[0038]
子步骤1201,通过所述特征提取网络对待处理文档图像进行由下至上的特征提取,得到第一预设数量不同深度的特征图。
[0039]
本技术的一些实施例中,输入至主干网络210的待处理文档图像为经过灰度化和归一化处理后的文档图像。
[0040]
其中,所述第一预设数量根据所述特征提取网络2101的网络结构确定。
[0041]
可选的,所述特征提取网络2101可以采用经典的分类网络,包括但不限于:vgg(visualgeometrygroup提出的神经网络)、resnet(残差网络)及其改进网络,还可以采用transformer结构搭建特征提取网络2101。主干网络210需要在保证网络精度的同时尽可能减少计算参数。本技术的实施例中,采用cspdarknet网络结构搭建特征提取网络2101。
[0042]
csp结构的主要思想是将卷积层输出的特征图分为两个部分,一部分继续进行卷积操作,另一部分与上一部分进行卷积操作之后的特征图进行融合,经过csp模块能够将输出的特征图进行快速降维。
[0043]
本技术的一些实施例中,所述特征提取网络2101包括经过特征提取网络2101对待
处理文档图像逐层进行特征提取后,由下至上的特征提取层分别得到一张特征图像。以采用cspdarknet网络结构搭建特征提取网络2101包括5个csp模块为例,所述特征提取网络2101将输出5张大小分别为原图1/2、1/4、1/8、1/16、1/32的特征图。每张特征图为对待处理文档图像进行不同深度特征提取得到的。
[0044]
cspdarknet网络的网络结构和特征提取方法参见现有技术,本技术实施例中不再赘述。
[0045]
子步骤1202,通过所述特征金字塔网络对所述特征图进行由上至下融合,得到第二预设数量不同深度的增强特征图,作为所述待处理文档图像的图像特征。
[0046]
本技术的实施例中,特征金字塔网络2102采用现有技术中的特征金字塔网络(feature pyramid network,fpn)。特征金字塔网络2102可以生成多层特征映射(多尺度特征映射),可以对输入的特征进行增强,由上至下融合从待处理文档图像中提取的特征图不同层次的信息,使得到的特征图包含更多的信息。
[0047]
本技术的一些实施例中,特征金字塔网络2102可以将所述特征提取网络2101最上面第一层为原图1/32的特征图通过最邻近插值的方法上采样为原图的1/16,与第二层特征图像相加得到为原图1/16的融合特征图像;同样的方法,将第二层为原图1/16的特征图上采样与第三层图像(即为原图1/8的特征图)相加得到大小为原图1/8的融合特征图像;同理,得到大小为原图1/4的融合特征图像。经过特征金字塔网络2102对特征提取网络2101将输出5张大小分别为原图1/2、1/4、1/8、1/16、1/32的特征图及性能逐层融合,最终由上至下得到3张大小分别为待处理文档图像的1/16、1/8和1/4的特征融合图像,即增强特征图,作为所述待处理文档图像的图像特征。
[0048]
本技术的实施例中,所述第二预设数量与所述特征提取网络2101和所述特征金字塔网络2102的网络结构匹配。
[0049]
经过主干网络210对待处理文档图像进行特征提取,可以得到待处理文档图像的多组不同深度的图像特征。
[0050]
步骤130,通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果。
[0051]
本技术的一些实施例中,在通过主干网络210提取得到待处理文档图像的多组不同深度的图像特征之后,将提取的图像特征分别输入至所述版面理解模型的两个不同分支网络,每个分支网络将进一步基于输入的图像特征进行不同的处理操作,以各自得到相应版面元素的检测结果。
[0052]
本技术的一些实施例中,所述粗粒度版面元素包括:表格、图像、公式、文本块等。
[0053]
如图2所示,本技术的一些实施例中,所述第一分支网络220包括:路径聚合网络2201、全连接层2202和输出层2203。其中,所述路径聚合网络2201用于特征提取,全连接层2202用于将所述路径聚合网络2201提取的特征映射到标签空间,所述标签空间是指分类结果和定位结果空间,所述输出层2203用于根据所述全连接层2202映射得到的结果,生成第一分支网络220检测到的各粗粒度版面元素的类型和检测框位置。
[0054]
本技术的一些实施例中,所述通过所述版面理解模型的第一分支网络对所述图像
特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,包括:通过所述路径聚合网络对第二预设数量的不同深度的所述增强特征图,进行由下至上融合,得到融合特征图;通过所述全连接层对所述融合特征图进行分类映射,得到标签空间的多维张量;通过所述输出层对所述多维张量进行转换,获取所述待处理文档图像中包括的各粗粒度版面元素的类型和检测框位置。
[0055]
如前文所述,所述图像特征包括:第二预设数量的不同深度的增强特征图。所述路径聚合网络(path aggregat ion network,panet)2201在主干网络210中的特征金字塔网络2102的基础上进行逐层特征融合。特征金字塔网络2102为由上至下的融合图像特征,panet为由下至上的融合图像特征,两者结合可以更好的融合各层次图像特征。
[0056]
本技术的一些实施例中,所述路径聚合网络2201的最下层特征图与特征金字塔网络2102的最下层特征图相同;在所述路径聚合网络2201的中间层,将特征金字塔网络2102的最下层大小为待处理文档图像1/4的特征图像下采样为待处理文档图像1/8的特征图像,并与中间层大小为待处理文档图像1/8的特征图像相加;在所述路径聚合网络2201的最上层,将特征金字塔网络2102的中间层下采样为待处理文档图像的1/16,并与最上层大小为待处理文档图像1/16的特征图像相加。这样,所述路径聚合网络2201将可以得到大小为待处理文档图像1/16、1/8、1/4的3张融合特征图。
[0057]
本技术的一些实施例中,为了解决粗粒度版面元素大小差异大的问题,例如码元素和表格元素大小差异大的问题,可以对所述路径聚合网络2201提取的每张融合特征图分别进行粗粒度版面元素分类和位置预测。其中,最下层特征图较大,有利于尺寸较小的粗粒度版面元素的检测,其中,最下层特征图例如为大小为待处理文档图像1/4的融合特征图;最上层特征图则有利于尺寸较大的粗粒度版面元素的检测,其中,最上层特征图例如为大小为待处理文档图像1/16的融合特征图。
[0058]
例如,所述路径聚合网络2201将提取得到3张融合特征图,分别输入至全连接层2202,通过所述全连接层2202对所述融合特征图进行分类映射,得到不同尺度的融合特征图对应的标签空间的多维张量。
[0059]
其中,所述多维张量用于指示所述待处理文档图像中包括的各粗粒度版面元素匹配的预设类型的概率,以及,各粗粒度版面元素的检测框的检测框位置。本技术的一些实施例中,所述检测框位置可以通过检测框的四个顶点的坐标表示。例如,多维张量可以表示为形如:
[0060]“x1,y1,x2,y2,x3,y3,x4,y4,class”,其中,“x1,y1,x2,y2,x3,y3,x4,y4”表示粗粒度版面元素的检测框的位置,“class”表示粗粒度版面元素的类型。
[0061]
如图3所示,对待处理文档图像300进行处理后得到的第一检测结果包括:粗粒度版面元素310、350和360的类型和检测框位置。
[0062]
本技术的一些实施例中,所述细粒度版面元素包括:文本行、词和字符等。
[0063]
本技术的一些实施例中,所述第二分支网络230用于细粒度版面元素的检测。以细粒度版面元素为文本行元素为例,所述第二分支网络230将输出文本行区域的四个顶点的像素坐标。
[0064]
本技术的另一些实施例中,所述第二分支网络230用于细粒度版面元素的检测和分类。以细粒度版面元素为文本行元素为例,所述第二分支网络230将输出文本行区域的四
个顶点的像素坐标和对应文本行的类型,其中对应文本行的类型可以为印刷、手写、中文或英文等。
[0065]
如图2所示,本技术的一些实施例中,所述第二分支网络230包括:特征融合拼接层2301、第一子分支网络2302和第二子分支网络2303。其中,特征融合拼接层2301用于特征融合和特征拼接,所述第一子分支网络2302和第二子分支网络2303用于分别对特征融合拼接层2301输出的拼接特征进行不同的特征映射和处理,输出细粒度版面元素的不同检测结果。
[0066]
本技术的一些实施例中,所述通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果,包括:通过所述特征融合拼接层对所述不同深度的第二预设数量增强特征图进行上采样,得到大小相同的所述第二预设数量的采样图像,并将所述采样图像进行通道拼接,得到拼接特征图;通过所述第一子分支网络对所述拼接特征图进行特征映射处理,得到所述待处理文档图像中包括的细粒度版面元素的类型和检测框位置;通过所述第二子分支网络对所述拼接特征图进行上采样,得到上采样特征图,并对所述上采样特征图进行像素级二分类检测,得到所述待处理文档图像中包括的细粒度版面元素在所述检测框位置对应的检测框内的分割位置。
[0067]
如前文所述,主干网络210中的特征金字塔网络2102输出的所述图像特征包括:不同深度的第二预设数量增强特征图。第二分支网络230在获取到特征金字塔网络2102输出的多张增强特征图(如前述3张增强特征图)之后,对由上至下的第一张增强特征图上采样4倍、第二张增强特征图上采样2倍,对第三张增强特征图上采样1倍,即保留第三张增强特征图,得到3张大小为待处理文档图像1/4的采样图像。之后,将得到的3张大小为待处理文档图像1/4的采样图像进行通道拼接,得到1张通道数为原来3倍的拼接特征图。
[0068]
接下来,将拼接特征图分别输入至第二分支网络230的两个子分支网络,即第一子分支网络2302和第二子分支网络2303,通过上述两个子分支网络分别对拼接特征图执行不同的特征处理方法,以分别得到细粒度版面元素的检测结果。
[0069]
本技术的一些实施例中,如图2所示,第一子分支网络2302可以包括:全连接层和输出层。其中,全连接层用于对拼接特征图及性能进行分类映射,映射到标签空间,得到与细粒度版面元素的类别数和检测框对应的多维度张量。所述多维张量用于指示待处理文档图像中包括的细粒度版面元素匹配各类型的概率,以及,相应细粒度版面元素的检测框的位置。之后,第一子分支网络2302中的输出层,对全连接层输出的与细粒度版面元素的类别数和检测框对应的多维度张量进一步进行转换,得到待处理文档图像中包括的细粒度版面元素的类型和检测框位置。
[0070]
如图3所示,对待处理文档图像300进行处理后得到的第二检测结果包括:细粒度版面元素310、320、330、340、370和380。
[0071]
本技术的一些实施例中,如图2所示,第二子分支网络2303可以包括:上采样层和输出层。所述上采样层对所述拼接特征图进行两次上采样,得到大小和待处理文档图像一致的上采样特征图,之后,基于上采样特征图进行像素级细粒度版面元素(如文本行)和背景区域的二分类,确定细粒度版面元素在第一子分支网络2302确定的检测框内的具体位置。
[0072]
本技术的实施例中,通过第一子分支网络2302完成细粒度版面元素(如文本行)的分类和定位,可以解决文本行间距近使像素无法有效分割的问题。进一步的,通过第二子分支网络2303进行细粒度版面元素检测,可以解决图像形变的问题,从而得到精确的文本行位置信息。如图4所示,通过第一子分支网络2302得到文本行410的检测框420的位置之后,通过第二子分支网络2303可以进一步得到文本行410像素级别的mask图。
[0073]
步骤140,根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。
[0074]
本技术的实施例中,在得到待处理文档图像中粗粒度版面元素和细粒度版面元素的检测结果之后,进一步的,基于粗粒度版面元素和细粒度版面元素各自的检测结果,对整个待处理文档图像中版面元素的检测结果进行优化。
[0075]
一方面,可以基于粗粒度版面元素的检测结果优化细粒度版面元素(如文本行)检测结果。例如,在期刊、文献、试卷等文档中,存在分栏版面样式,文本行检测时容易将分属不同栏的两行文本检测为一行。
[0076]
另一方面,基于细粒度版面元素的检测结果优化粗粒度版面元素的检测结果。例如,当文本区域为单一文本行或区域面积较小时,可能存在漏检的问题。
[0077]
如前文所述,所述第一检测结果包括:所述粗粒度版面元素的类型和检测框位置,所述第二检测结果包括:所述细粒度版面元素的类型和检测框位置。本技术的一些实施例中,所述根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果,包括:根据所述细粒度版面元素的所述检测框位置和每个所述粗粒度版面元素的所述检测框位置,获取所述细粒度版面元素分别与每个所述粗粒度版面元素的检测框重叠面积;响应于所述检测框重叠面积均小于或等于预设面积阈值,根据所述细粒度版面元素的所述检测框位置,对所述第一检测结果进行补充,得到优化后的第一检测结果;响应于所述检测框重叠面积大于所述预设面积阈值,根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,得到优化后的第二检测结果,其中,所述细粒度版面元素的所述检测框根据所述细粒度版面元素的所述检测框位置确定;根据优化后的第一检测结果和优化后的第二检测结果,生成所述待处理文档图像的版面理解结果。
[0078]
本技术的一些实施例中,所述预设面积阈值可以为0。
[0079]
以图3中所示的待处理文档图像为例,对通过所述版面理解模型检测得到的每个细粒度版面元素310、320、330、340、370和380,分别以每个细粒度版面元素作为当前细粒度版面元素,根据当前细粒度版面元素的检测框位置分别与各粗粒度版面元素310、350和360的检测框重叠面积,以及,相应粗粒度版面元素的类型,对粗粒度版面元素的检测结果进行优化,以及,对当前细粒度版面元素的检测结果进行优化。
[0080]
以细粒度版面元素380为例,首先根据细粒度版面元素380的检测框位置和粗粒度版面元素310、350和360的检测框位置,计算细粒度版面元素380与粗粒度版面元素310、350和360的检测框重叠面积。由图3所示的检测框位置可知,细粒度版面元素380与粗粒度版面元素310、350和360的检测框重叠面积均为0。以所述预设面积阈值等于0为例,则可以认为细粒度版面元素380为进行粗粒度版面元素检测时漏检的版面元素。基于此,根据细粒度版
面元素380的检测框位置,生成一条粗粒度版面元素的检测结果,补充到第一检测结果中。执行此优化后,第一检测结果中包括:粗粒度版面元素310、350、360和380的类型和检测框位置。
[0081]
而细粒度版面元素310、320、330、340、370与粗粒度版面元素310、350和360的检测框重叠面积均大于0,则需要进一步根据所述检测框重叠面积与相应细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化。
[0082]
本技术的一些实施例中,所述根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,包括以下任意一种:响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配非文本类型,保持所述第二检测结果不变;响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积相等,保持所述第二检测结果不变;响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积不等,根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果。
[0083]
本技术的实施例中,如果细粒度版面元素与非文本类的粗粒度版面元素重叠,则不对细粒度版面元素的检测结果进行处理。例如,文本行370表格360重叠,此时,文本行可能为表格中的文本,则不对文本行的检测结果进行处理。
[0084]
如果细粒度版面元素与文本类的粗粒度版面元素重叠,则需要根据重叠部分的面积,进一步判断如何执行优化处理。例如,当文本行与文本块或文本段重叠时,则需要根据重叠部分的面积,进一步判断如何执行优化处理。例如,图3中的细粒度版面元素320、330和340与粗粒度版面元素350重叠,且粗粒度版面元素350为文本块,此时需要根据重叠部分的面积,进一步判断如何执行优化处理。
[0085]
细粒度版面元素340与粗粒度版面元素350的检测框重叠面积与所述细粒度版面元素340的检测框的面积相等,保持所述第二检测结果不变。
[0086]
细粒度版面元素320与粗粒度版面元素350的检测框重叠面积与所述细粒度版面元素320的检测框的面积不等,细粒度版面元素330与粗粒度版面元素350的检测框重叠面积与所述细粒度版面元素330的检测框的面积不等,需要进一步根据所述粗粒度版面元素350的检测框沿文本行方向对所述细粒度版面元素320和330的所述检测框的分割结果,优化所述第二检测结果。
[0087]
本技术的一些实施例中,所述根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果,包括:根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框的重叠部分构成的第一候选检测框的检测框位置,以及,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框未重叠的每个部分分别构成的第二候选检测框的检测框位置;根据所述细粒度版面元素的检测框位置和每个所述第二候选检测框的检测框位置,计算每个所述第二候选检测框与所述细粒度版面元素的所述检测框的面积比值;将所述第一
候选检测框作为拆分得到的第一细粒度版面元素的检测框,将所述第一细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;响应于所述面积比值大于或等于预设比值阈值,将所述第二候选检测框作为拆分得到的第二细粒度版面元素的检测框,将所述第二细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;删除所述第二检测结果中所述细粒度版面元素的所述类型和所述检测框位置,得到优化后的第二检测结果。
[0088]
如图5所示,细粒度版面元素320为例,粗粒度版面元素350的检测框沿文本行方向对细粒度版面元素320的所述检测框进行分割,得到细粒度版面元素320的检测框与粗粒度版面元素350的检测框的重叠部分构成的第一候选检测框3201的检测框位置,以及,得到细粒度版面元素320的检测框与粗粒度版面元素350的检测框未重叠的部分构成的第二候选检测框3202的检测框位置。同理,细粒度版面元素320的检测框被粗粒度版面元素350的检测框沿文本行方向进行分割,得到第一候选检测框3301和第二候选检测框3302。
[0089]
之后,以细粒度版面元素320为例,根据第二候选检测框3202的检测框位置,计算每个第二候选检测框3202与细粒度版面元素320的检测框的面积比值。同样方法,根据细粒度版面元素330的第二候选检测框3302的检测框位置,计算每个第二候选检测框3302与细粒度版面元素330的检测框的面积比值。
[0090]
接下来,根据面积比值与预设比值阈值的比较结果,确定如何进行检测结果优化。本技术的实施例中,所述预设比值阈值根据版面理解精度确定。例如,预设比值阈值可以设置为1/10。
[0091]
以细粒度版面元素320为例,计算得到的面积比值小于预设比值阈值(如1/10),即细粒度版面元素320被粗粒度版面元素截断后,剩余部分面积很小,则可以将第二候选检测框3202作为噪音舍弃,而将第一候选检测框3201作为拆分得到的第一细粒度版面元素的检测框,将所述第一细粒度版面元素的类型和检测框位置增加到所述第二检测结果中。同时,删除第二检测结果中细粒度版面元素320的所述类型和所述检测框位置,得到优化后的第二检测结果。如图6所示,优化后得到的第二检测结果中,细粒度版面元素320优化为细粒度版面元素3201。
[0092]
以细粒度版面元素330为例,计算得到的面积比值大于预设比值阈值(如1/10),即细粒度版面元素330被粗粒度版面元素截断后,剩余部分面积很大,则可以认为细粒度版面元素330可能为跨栏的文本行。将细粒度版面元素330拆分为两个细粒度版面元素,即第二候选检测框3302对应的第二细粒度版面元素,以及,第一候选检测框3301对应的第一细粒度版面元素。之后,通过第二候选检测框3302对应的第二细粒度版面元素,以及,第一候选检测框3301对应的第一细粒度版面元素,替换第二检测结果中的细粒度版面元素330,得到优化后的第二检测结果。如图6所示,优化后得到的第二检测结果中,细粒度版面元素330优化为细粒度版面元素3301和细粒度版面元素3302。
[0093]
按照前述方法,完成第一检测结果和第二检测结果的联合优化,得到待处理文档图像的优化检测结果。
[0094]
本技术的实施例中,所述版面理解模型是预先训练的。如图7所示,通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征之前,所述方法还包括:步骤100和步骤110。
[0095]
步骤100,获取若干训练样本。
[0096]
其中,所述训练样本的样本图像为文档图像,样本标签为相应文档图像中包括的所述粗粒度版面元素的类型真实值和检测框位置真实值,和/或,细粒度版面元素的类型真实值、检测框位置真实值和分割位置真实值。
[0097]
其中,样本标签可以为对文档图像中的粗粒度版面元素的类型和检测框的位置,以及,对文档图像中的细粒度版面元素的类型和检测框的位置进行标注后得到的多维张量。例如,某个版面元素的类型真实值和检测框位置的真实值可以表示为形如:“x1,y1,x2,y2,x3,y3,x4,y4,class,mask”的标签数据,其中,“x1,y1,x2,y2,x3,y3,x4,y4”表示版面元素的检测框的位置,“class”表示版面元素的类型,“mask”表示细粒度版面元素的分割掩码图。
[0098]
步骤110,基于所述训练样本,训练所述版面理解模型。
[0099]
其中,训练过程包括以下步骤:针对每条所述训练样本,通过所述主干网络对样本图像进行特征提取,获取样本图像特征;通过所述第一分支网络对所述样本图像特征进行处理,获取所述样本图像中包括的粗粒度版面元素的第一样本检测结果,以及,通过所述第二分支网络对所述样本图像特征进行处理,获取所述样本图像中包括的细粒度版面元素的第二样本检测结果;根据所述第一样本检测结果、所述第二样本检测结果,以及所述样本标签,计算模型损失;通过优化所述模型损失,迭代训练所述版面理解模型。
[0100]
通过所述主干网络对样本图像进行特征提取,获取样本图像特征的具体方法,参见版面理解阶段,通过主干网络对待处理文档图像进行特征提取,获取图像特征的具体方法,此处不再赘述。
[0101]
通过所述第一分支网络对所述样本图像特征进行处理,获取所述样本图像中包括的粗粒度版面元素的第一样本检测结果的具体实施方式,参见版面理解阶段,获取待处理文档图像中包括的粗粒度版面元素的第一检测结果的的具体方法,此处不再赘述。
[0102]
通过所述第二分支网络对所述样本图像特征进行处理,获取所述样本图像中包括的细粒度版面元素的第二样本检测结果的具体实施方式,参见版面理解阶段,获取待处理文档图像中包括的细粒度版面元素的第二检测结果的的具体方法,此处不再赘述。
[0103]
之后,对于每个训练样本,根据该训练样本对应的所述第一样本检测结果、所述第二样本检测结果,以及该训练样本对应的样本标签,计算该训练样本的版面元素类型和检测框位置的检测损失,并根据所有训练样本对应的检测损失计算模型损失。然后,通过优化主干网络、第一分支网络和第二分支网络的模型参数,实现优化所述模型损失,迭代训练所述版面理解模型。
[0104]
本技术实施例公开的文档图像的版面理解方法,通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。本技术实施例公开的文档图像的版面理解方法,通过采用一个多分支网络模型,同时定位分类出粗细粒度版面元素,降低了模型训练成本,模型结构简单。进一步的,通过针对粗、细粒度版面元素的特点,设计不同的网络分支,在降低计算量的同时兼顾版面元素检测
的鲁棒性和泛化性,不仅可以缩短推理时间,还可以提升文档图像的版面理解适应能力,可以对多种类型版面元素进行检测分类。
[0105]
进一步的,通过对粗、细粒度版面元素的检测结果进行联合优化,进一步提升了文档图像版面理解的准确度。
[0106]
本技术实施例还公开了一种文档图像的版面理解装置,如图8所示,所述装置包括:
[0107]
图像特征获取模块820,用于通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;
[0108]
检测结果获取模块830,用于通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;
[0109]
版面理解结果获取模块840,用于根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。
[0110]
可选的,所述第一检测结果包括:所述粗粒度版面元素的类型和检测框位置,所述第二检测结果包括:所述细粒度版面元素的类型和检测框位置,所述版面理解结果获取模块840进一步用于:
[0111]
根据所述细粒度版面元素的所述检测框位置和每个所述粗粒度版面元素的所述检测框位置,获取所述细粒度版面元素分别与每个所述粗粒度版面元素的检测框重叠面积;
[0112]
响应于所述检测框重叠面积均小于或等于预设面积阈值,根据所述细粒度版面元素的所述检测框位置,对所述第一检测结果进行补充,得到优化后的第一检测结果;
[0113]
响应于所述检测框重叠面积大于所述预设面积阈值,根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,得到优化后的第二检测结果,其中,所述细粒度版面元素的所述检测框根据所述细粒度版面元素的所述检测框位置确定;
[0114]
根据优化后的第一检测结果和优化后的第二检测结果,生成所述待处理文档图像的版面理解结果。
[0115]
可选的,所述根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,包括:
[0116]
响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配非文本类型,保持所述第二检测结果不变;或,
[0117]
响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积相等,保持所述第二检测结果不变;或,
[0118]
响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积不等,根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所
述第二检测结果。
[0119]
可选的,所述根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果,包括:
[0120]
根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框的重叠部分构成的第一候选检测框的检测框位置,以及,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框未重叠的每个部分分别构成的第二候选检测框的检测框位置;
[0121]
根据所述细粒度版面元素的检测框位置和每个所述第二候选检测框的检测框位置,计算每个所述第二候选检测框与所述细粒度版面元素的所述检测框的面积比值;
[0122]
将所述第一候选检测框作为拆分得到的第一细粒度版面元素的检测框,将所述第一细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;
[0123]
响应于所述面积比值大于或等于预设比值阈值,将所述第二候选检测框作为拆分得到的第二细粒度版面元素的检测框,将所述第二细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;
[0124]
删除所述第二检测结果中所述细粒度版面元素的所述类型和所述检测框位置,得到优化后的第二检测结果。
[0125]
可选的,所述图像特征包括:不同深度的第二预设数量增强特征图,所述第二分支网络包括:特征融合拼接层、第一子分支网络和第二子分支网络,所述通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果,包括:
[0126]
通过所述特征融合拼接层对所述不同深度的第二预设数量增强特征图进行上采样,得到大小相同的所述第二预设数量的采样图像,并将所述采样图像进行通道拼接,得到拼接特征图;
[0127]
通过所述第一子分支网络对所述拼接特征图进行特征映射处理,得到所述待处理文档图像中包括的细粒度版面元素的类型和检测框位置;
[0128]
通过所述第二子分支网络对所述拼接特征图进行上采样,得到上采样特征图,并对所述上采样特征图进行像素级二分类检测,得到所述待处理文档图像中包括的细粒度版面元素在所述检测框位置对应的检测框内的分割位置。
[0129]
可选的,如图9所示,所述装置还包括:
[0130]
训练样本获取模块800,用于获取若干训练样本,其中,所述训练样本的样本图像为文档图像,样本标签为相应文档图像中包括的所述粗粒度版面元素的类型真实值和检测框位置真实值,和/或,细粒度版面元素的类型真实值、检测框位置真实值和分割位置真实值;
[0131]
模型训练模块810,用于基于所述训练样本,训练所述版面理解模型,其中,训练过程包括以下步骤:
[0132]
针对每条所述训练样本,通过所述主干网络对样本图像进行特征提取,获取样本图像特征;
[0133]
通过所述第一分支网络对所述样本图像特征进行处理,获取所述样本图像中包括
的粗粒度版面元素的第一样本检测结果,以及,通过所述第二分支网络对所述样本图像特征进行处理,获取所述样本图像中包括的细粒度版面元素的第二样本检测结果;
[0134]
根据所述第一样本检测结果、所述第二样本检测结果,以及所述样本标签,计算模型损失;
[0135]
通过优化所述模型损失,迭代训练所述版面理解模型。
[0136]
本技术实施例公开的文档图像的版面理解装置,用于实现本技术实施例中所述的文档图像的版面理解方法,装置的各模块的具体实施方式不再赘述,可参见方法实施例相应步骤的具体实施方式。
[0137]
本技术实施例公开的文档图像的版面理解装置,通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。本技术实施例公开的文档图像的版面理解装置,通过采用一个多分支网络模型,同时定位分类出粗细粒度版面元素,降低了模型训练成本,模型结构简单。进一步的,通过针对粗、细粒度版面元素的特点,设计不同的网络分支,在降低计算量的同时兼顾版面元素检测的鲁棒性和泛化性,不仅可以缩短推理时间,还可以提升文档图像的版面理解适应能力,可以对多种类型版面元素进行检测分类。
[0138]
进一步的,通过对粗、细粒度版面元素的检测结果进行联合优化,进一步提升了文档图像版面理解的准确度。
[0139]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0140]
以上对本技术提供的一种文档图像的版面理解方法及装置进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其一种核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
[0141]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0142]
本技术的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本技术实施例的电子设备中的一些或者全部部件的一些或者全部功能。本技术还可以实现为用于执行这里所描述的方法的一部分或
者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本技术的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
[0143]
例如,图10示出了可以实现根据本技术的方法的电子设备。所述电子设备可以为pc机、移动终端、个人数字助理、平板电脑等。该电子设备传统上包括处理器1010和存储器1020及存储在所述存储器1020上并可在处理器1010上运行的程序代码1030,所述处理器1010执行所述程序代码1030时实现上述实施例中所述的方法。所述存储器1020可以为计算机程序产品或者计算机可读介质。存储器1020可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。存储器1020具有用于执行上述方法中的任何方法步骤的计算机程序的程序代码1030的存储空间10201。例如,用于程序代码1030的存储空间10201可以包括分别用于实现上面的方法中的各种步骤的各个计算机程序。所述程序代码1030为计算机可读代码。这些计算机程序可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(cd)、存储卡或者软盘之类的程序代码载体。所述计算机程序包括计算机可读代码,当所述计算机可读代码在电子设备上运行时,导致所述电子设备执行根据上述实施例的方法。
[0144]
本技术实施例还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本技术实施例所述的文档图像的版面理解方法的步骤。
[0145]
这样的计算机程序产品可以为计算机可读存储介质,该计算机可读存储介质可以具有与图10所示的电子设备中的存储器1020类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩存储在所述计算机可读存储介质中。所述计算机可读存储介质通常为如参考图11所述的便携式或者固定存储单元。通常,存储单元包括计算机可读代码1030’,所述计算机可读代码1030’为由处理器读取的代码,这些代码被处理器执行时,实现上面所描述的方法中的各个步骤。
[0146]
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本技术的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
[0147]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本技术的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0148]
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0149]
最后应说明的是:以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;
而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
技术特征:
1.一种文档图像的版面理解方法,其特征在于,包括:通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。2.根据权利要求1所述的方法,其特征在于,所述第一检测结果包括:所述粗粒度版面元素的类型和检测框位置,所述第二检测结果包括:所述细粒度版面元素的类型和检测框位置,所述根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果,包括:根据所述细粒度版面元素的所述检测框位置和每个所述粗粒度版面元素的所述检测框位置,获取所述细粒度版面元素分别与每个所述粗粒度版面元素的检测框重叠面积;响应于所述检测框重叠面积均小于或等于预设面积阈值,根据所述细粒度版面元素的所述检测框位置,对所述第一检测结果进行补充,得到优化后的第一检测结果;响应于所述检测框重叠面积大于所述预设面积阈值,根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,得到优化后的第二检测结果,其中,所述细粒度版面元素的所述检测框根据所述细粒度版面元素的所述检测框位置确定;根据优化后的第一检测结果和优化后的第二检测结果,生成所述待处理文档图像的版面理解结果。3.根据权利要求2所述的方法,其特征在于,所述根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,包括:响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配非文本类型,保持所述第二检测结果不变;或,响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积相等,保持所述第二检测结果不变;或,响应于所述检测框重叠面积对应的所述粗粒度版面元素的所述类型匹配文本类型,且所述检测框重叠面积与所述细粒度版面元素的检测框的面积不等,根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测框的分割结果,优化所述第二检测结果,包括:根据所述粗粒度版面元素的检测框沿文本行方向对所述细粒度版面元素的所述检测
框的分割结果,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框的重叠部分构成的第一候选检测框的检测框位置,以及,得到所述细粒度版面元素的所述检测框与所述粗粒度版面元素的所述检测框未重叠的每个部分分别构成的第二候选检测框的检测框位置;根据所述细粒度版面元素的检测框位置和每个所述第二候选检测框的检测框位置,计算每个所述第二候选检测框与所述细粒度版面元素的所述检测框的面积比值;将所述第一候选检测框作为拆分得到的第一细粒度版面元素的检测框,将所述第一细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;响应于所述面积比值大于或等于预设比值阈值,将所述第二候选检测框作为拆分得到的第二细粒度版面元素的检测框,将所述第二细粒度版面元素的类型和检测框位置增加到所述第二检测结果中;删除所述第二检测结果中所述细粒度版面元素的所述类型和所述检测框位置,得到优化后的第二检测结果。5.根据权利要求1至4任一项所述的方法,其特征在于,所述图像特征包括:不同深度的第二预设数量增强特征图,所述第二分支网络包括:特征融合拼接层、第一子分支网络和第二子分支网络,所述通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果,包括:通过所述特征融合拼接层对所述不同深度的第二预设数量增强特征图进行上采样,得到大小相同的所述第二预设数量的采样图像,并将所述采样图像进行通道拼接,得到拼接特征图;通过所述第一子分支网络对所述拼接特征图进行特征映射处理,得到所述待处理文档图像中包括的细粒度版面元素的类型和检测框位置;通过所述第二子分支网络对所述拼接特征图进行上采样,得到上采样特征图,并对所述上采样特征图进行像素级二分类检测,得到所述待处理文档图像中包括的细粒度版面元素在所述检测框位置对应的检测框内的分割位置。6.根据权利要求1至4任一项所述的方法,其特征在于,所述通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征之前,还包括:获取若干训练样本,其中,所述训练样本的样本图像为文档图像,样本标签为相应文档图像中包括的所述粗粒度版面元素的类型真实值和检测框位置真实值,和/或,细粒度版面元素的类型真实值、检测框位置真实值和分割位置真实值;基于所述训练样本,训练所述版面理解模型,其中,训练过程包括以下步骤:针对每条所述训练样本,通过所述主干网络对样本图像进行特征提取,获取样本图像特征;通过所述第一分支网络对所述样本图像特征进行处理,获取所述样本图像中包括的粗粒度版面元素的第一样本检测结果,以及,通过所述第二分支网络对所述样本图像特征进行处理,获取所述样本图像中包括的细粒度版面元素的第二样本检测结果;根据所述第一样本检测结果、所述第二样本检测结果,以及所述样本标签,计算模型损失;通过优化所述模型损失,迭代训练所述版面理解模型。
7.一种文档图像的版面理解装置,其特征在于,包括:图像特征获取模块,用于通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;检测结果获取模块,用于通过所述版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;版面理解结果获取模块,用于根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。8.根据权利要求7所述的装置,其特征在于,所述第一检测结果包括:所述粗粒度版面元素的类型和检测框位置,所述第二检测结果包括:所述细粒度版面元素的类型和检测框位置,所述版面理解结果获取模块进一步用于:根据所述细粒度版面元素的所述检测框位置和每个所述粗粒度版面元素的所述检测框位置,获取所述细粒度版面元素分别与每个所述粗粒度版面元素的检测框重叠面积;响应于所述检测框重叠面积均小于或等于预设面积阈值,根据所述细粒度版面元素的所述检测框位置,对所述第一检测结果进行补充,得到优化后的第一检测结果;响应于所述检测框重叠面积大于所述预设面积阈值,根据所述检测框重叠面积与所述细粒度版面元素的检测框的面积大小关系,以及所述检测框重叠面积对应的所述粗粒度版面元素的所述类型,对所述第二检测结果进行优化,得到优化后的第二检测结果,其中,所述细粒度版面元素的所述检测框根据所述细粒度版面元素的所述检测框位置确定;根据优化后的第一检测结果和优化后的第二检测结果,生成所述待处理文档图像的版面理解结果。9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的程序代码,其特征在于,所述处理器执行所述程序代码时实现权利要求1至6任意一项所述的文档图像的版面理解方法。10.一种计算机可读存储介质,其上存储有程序代码,其特征在于,该程序代码被处理器执行时实现权利要求1至6任意一项所述的文档图像的版面理解方法的步骤。
技术总结
本申请公开了一种文档图像版面理解方法、装置,属于图像处理技术领域。所述方法包括:通过预先训练的版面理解模型的主干网络对待处理文档图像进行特征提取,获取图像特征;通过版面理解模型的第一分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的粗粒度版面元素的第一检测结果,以及,通过所述版面理解模型的第二分支网络对所述图像特征进行处理,获取所述待处理文档图像中包括的细粒度版面元素的第二检测结果;根据所述第一检测结果和所述第二检测结果,执行检测结果联合优化操作,得到所述待处理文档图像的版面理解结果。本方法采用一个多分支网络模型,同时定位分类出粗细粒度版面元素,降低了模型训练成本,模型结构简单。模型结构简单。模型结构简单。
技术研发人员:王亚萌 刘正珍
受保护的技术使用者:汉王科技股份有限公司
技术研发日:2023.03.03
技术公布日:2023/9/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:燃料加注设备的制作方法 下一篇:电子装置及其操作方法和包括其的系统与流程