一种基于边卷积交互的表格结构识别方法
未命名
07-27
阅读:100
评论:0

1.本发明属于表格结构的识别领域,涉及一种基于边卷积交互的表格结构识别方法。
背景技术:
2.文本中的表格提供了一种直观、自然的方式,以便于人类理解的格式呈现数据。表格结构,是单元格之间的行列分布和逻辑关系,包括标题、表头、行和列等。表格结构识别能够更好地得到表中单元格之间的关系,便于实现表格文本描述生成、表格问答等任务。表格结构识别是文档处理中的一项基本任务,结合了物理和逻辑布局识别,还包括分析或识别复杂的表格,旨在提取表格中的数据与结构信息,得到行列线条的分布和单元格之间的逻辑结构。基于其重要性和难度,表格结构识别已经吸引了大量的研究人员在这一领域做出贡献。
3.近年来,随着深度学习技术的发展,受到表格识别相关比赛和公开数据集的影响,深度学习方法也越来越多地被应用到表格结构识别任务上来。现有基于深度神经网络的方法主要可以分为两大类:一是基于对象检测的方法,如曼海姆应用科学大学和德国凯泽斯劳滕工业大学等研究团队提出将表格结构识别作为目标检测问题,引入可变形卷积,适应不同大小形状的区域检测;二是基于分割的方法,如巴基斯坦伊斯兰堡国立科技大学提出针对单元格在行列上具有重复序列的特点,提出使用循环卷积网路识别表格结构,方法采用两个独立模型来进行行列分割,以行列分割区域中心线作为分割结果。
4.尽管这些方法在表格结构识别任务上取得了一定的性能提升,但也都无法准确的判断单元格之间的联系。基于对象检测的方法当表格图片倾斜、图片背景复杂或者识别少线条表格,无法准确判断单元格位置,从而降低表格结构识别准确性。而基于分割的方法局限于处理的表格对象所在单元格的形式,表格的结构形式是复杂多样的,人们为了展示效果的简洁、美观,在设计表格时会灵活运用表格线,因此存在各种各样的跨越单元格情况,会限制模型的表示能力。
技术实现要素:
5.本发明实施例的目的在于提供一种基于边卷积交互的表格结构识别方法,以解决现有的表格结构识别方法无法准确判断表格的单元格之间的关系的问题。
6.本发明实施例所采用的技术方案是:一种基于边卷积交互的表格结构识别方法,包括以下步骤:
7.首先,构建基于边卷积交互的表格结构识别模型:
8.步骤1:输入表格图像、表格的特征图、表格中的文本行内容信息和位置信息,文本行内容信息指文本内容,文本行位置信息指文本行的坐标,根据文本行内容信息和位置信息得到文本中心位置,并在特征图上与文本中心位置对应处采样,将采样得到的图像特征和文本行位置信息拼接,得到包含文本位置的图像特征;
9.步骤2:以表格中的文本行作为顶点、文本行间的关系作为连边,将表格用网络图的形式表示出来;
10.步骤3:基于边卷积计算每个顶点与距离其最近的m个顶点的边特征,再将顶点和m个边特征进行交互聚合操作;
11.步骤4:基于每个顶点的交互聚合后的特征向量,采用分类网络对顶点间的关系进行分类操作,得到顶点间的关系类别即为表格中各文本行的关系;
12.然后,对基于边卷积交互的表格结构识别模型进行训练;
13.最后,将待识别的表格图像、表格图像的特征图、表格图像中的文本行内容信息和位置信息输入训练后的基于边卷积交互的表格结构识别模型,进行表格结构识别。
14.进一步的,步骤2中,文本行间的关系分为无关系、同单元格、同行、同列四类;通过下式,将表格用网络图的形式表示:
[0015][0016]
其中,v是网络图的顶点的集合,e是网络图的连边的集合,顶点间的关系用大小为v
×
v的邻接矩阵来表示,邻接矩阵的每个元素表示对应的两顶点间的关系类别;
[0017]
步骤4中,基于每个顶点的交互聚合后的特征向量,采用分类网络对顶点间的关系进行分类操作,即是计算更新邻接矩阵,对于邻接矩阵的每个元素,得分概率最大的关系类别即为预测的两顶点间的关系类别。
[0018]
进一步的,步骤3的具体实现过程如下:
[0019]
步骤31:采用图嵌入方法将网络图中每个顶点的包含文本位置的图像特征映射到欧式空间:
[0020]
设文本行数量即网络图中顶点数量为n,采样得到的特征图维度为d,文本行位置信息数量为p,经拼接后,网络图中每个顶点的特征即包含文本位置的图像特征的维度f为特征图维度d和文本框位置特征数量p的线性和,网络图中顶点的特征向量组表示如下式:
[0021][0022]
其中,xi表示欧式空间中第i个点xi的特征向量;
[0023]
步骤32:基于边卷积计算每个顶点和与其相连的距离其最近的m个点的边特征:
[0024]
在欧式空间内,对每个点xi,通过knn算法找到m个距离点xi最近的点x
ij
,将m个点x
ij
按照距离升序排列,得到点x
ij1
,x
ij2
,...,x
ijm
;
[0025]
对点xi的特征向量xi和与点xi相连的距离其最近的m个点x
ij
的特征向量xj进行边卷积运算,得到点xi和x
ijm
的边特征e
ijm
,m∈[1,m];
[0026]
步骤33:将边特征e
ijm
和点xi的特征向量xi进行交互聚合,运算过程如下式所示:
[0027][0028]
其中,表示点xi的边卷积交互后的特征向量,
⊙
代表hadamard积,w
ij
是可学习向量,ui是可学习标量;
[0029]
步骤34:利用点xi形成目标点集合,从网络图的顶点集合v中依次选取与目标点集合中任意目标点最近的点作为新的目标点,若选择的点曾成为目标点,则放弃这个点,再选取除此点外距离目标点集合中任意目标点最近的点作为新的目标点,将新的目标点加入目
标点集合,并返回步骤32,对新的目标点进行边卷积交互,得到新的目标点的边卷积交互后的特征向量,直至遍历顶点集合v,输出每个顶点的边卷积交互后的特征向量将其作为每个顶点的交互聚合后的特征向量输入步骤4。
[0030]
进一步的,步骤3还包括:
[0031]
步骤35:将每个顶点的边卷积交互后的特征向量输入第一全连接层,第一全连接层将学习到的特征表示映射到样本的标记空间,通过relu函数输出;
[0032]
步骤36:以前一次步骤s35输出的新的特征向量作为后一次循环时对应顶点的特征向量xi,循环步骤32~35二次后再循环一次步骤32~34,依次得到每个顶点的边卷积交互后的特征向量再将特征向量输入第二全连接层,按照如下公式拼接组合,并通过relu函数输出:
[0033][0034]
其中,x
′i为点xi的多次边卷积交互后的特征向量,wg为可学习的权重矩阵;
[0035]
将点xi的多次边卷积交互后的特征向量x
′i作为每个顶点的交互聚合后的特征向量输入步骤4。
[0036]
进一步的,步骤32的边卷积计算如下式所示:
[0037]eijm
=relu(θm·
(x
j-xi)+φm·
xi);
[0038]
其中,φm和θm为可学习向量;xi=(k
i1
,...,k
id
,x
i1
,y
i1
,x
i2
,y
i2
),(x
i1
,y
i1
,x
i2
,y
i2
)为点xi的角点坐标即第i个文本行的坐标,其中,(x
i1
,y
i1
)为第i个文本行的左上角坐标,(x
i2
,y
i2
)为第i个文本行的右下角坐标,k
i1
为点xi的第1维特征向量,k
id
为点xi的第d维特征向量;relu为激活函数。
[0039]
进一步的,n为文本行数量。
[0040]
进一步的,对基于边卷积交互的表格结构识别模型进行训练时,在采用分类网络对顶点间的关系进行分类前,基于蒙特卡洛法对邻接矩阵进行下采样,统计邻接矩阵的标签中各类别数量,平均类别数量得到概率分布矩阵,由概率分布图采样生成符合的位置索引,最后根据位置索引对表格的特征图切片,压缩邻接矩阵,均衡类别数量并完成批训练。
[0041]
进一步的,构建基于边卷积交互的表格结构识别模型时,还包括:
[0042]
步骤5:根据表格中各文本行的关系,恢复表格结构。
[0043]
本发明实施例的有益效果是:本实施例在多层卷积神经网络构成的骨干网络提取表格图像的特征图,根据表格图像中的文本行内容信息和位置信息生成文本中心位置,并在特征图上与文本中心位置对应处采样,得到包含文本位置的图像特征;将表格用网络图的形式表示出来,图中每个顶点代表一个文本行;然后,基于边卷积计算与顶点相连的最近的m个点的边特征,再将顶点和与其连接的最近的m个点之间的边特征进行交互聚合操作;最后使用多层感知机分类判断,得到表格中各文本行的邻接关系,更加准确的捕获每个文本行之间的关系,根据文本行间的邻接关系恢复出表格结构,解决了现有的表格结构识别方法无法准确判断表格的单元格之间的关系的问题,识别得到的表格结构更加准确。
附图说明
[0044]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1是本发明实施例的基于边卷积交互的表格结构识别方法的流程图。
[0046]
图2是本发明实施例的顶点间边运算形成边特征e
ijm
的示意图。
[0047]
图3是本发明实施例的边卷积交互的流程图。
具体实施方式
[0048]
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0049]
实施例1
[0050]
本实施例提供了一种基于边卷积交互的表格结构识别方法,具体包括以下步骤:
[0051]
首先,构建基于边卷积交互的表格结构识别模型,具体操作如下:
[0052]
步骤1:输入表格图像、表格的特征图、表格中的文本行内容信息和位置信息,文本行指文字检测识别的一行信息,一个单元格识别到至少一个文本行,文本行内容信息指文本行的文本内容,文本行位置信息指文本行的坐标,根据文本行内容信息和位置信息得到文本中心位置,并在特征图上与文本中心位置对应处采样,以更加关注到识别文本行处的特征,将采样得到的图像特征和文本行位置信息拼接,得到包含文本位置的图像特征;
[0053]
步骤2:以表格中的文本行作为顶点、文本行间的关系作为连边,将表格用网络图的形式表示出来,文本行间的关系分为无关系、同单元格、同行、同列四类,如下式所示:
[0054][0055]
其中,v是网络图的顶点的集合,e是网络图的连边的集合,顶点间的关系用大小为v
×
v的邻接矩阵来表示,邻接矩阵的每个元素表示对应的两顶点间的关系类别;
[0056]
步骤3:基于边卷积计算每个顶点与距离其最近的m个顶点的边特征,边卷积交互的流程如图3所示,再将顶点和m个边特征进行交互聚合操作,具体实现过程如下:
[0057]
步骤31:采用图嵌入方法将网络图中每个顶点的包含文本位置的图像特征映射到欧式空间,聚合位置的局部信息和邻域信息:
[0058]
设文本行数量即网络图中顶点数量为n,采样得到的特征图维度为d,文本行位置信息数量为p,经拼接后,网络图中每个顶点的特征即包含文本位置的图像特征的维度f为特征图维度d和文本框位置特征数量p的线性和,网络图中顶点的特征向量组表示如下式:
[0059][0060]
其中,xi表示欧式空间中第i个点xi的特征向量;
[0061]
步骤32:基于边卷积计算每个顶点和与其相连的距离其最近的m个点的边特征:
[0062]
在欧式空间内,对每个点xi,通过knn算法找到m个距离点xi最近的点x
ij
,其中,
m由文本行数量n决定,将m个点x
ij
按照距离升序排列,得到点x
ij1
,x
ij2
,....,x
ijm
;
[0063]
对点xi的特征向量xi和与点xi相连的距离其最近的m个点x
ij
的特征向量xj进行边卷积运算,如图2所示,边卷积计算如下式所示:
[0064]eijm
=relu(θm·
(x
j-xi)+φm·
xi);
[0065]
其中,e
ijm
为点xi和x
ijm
的边特征,φm和θm为可学习参数(向量),m∈[1,m];xi=(k
i1
,...,k
id
,x
i1
,y
i1
,x
i2
,y
i2
),(x
i1
,y
i1
,x
i2
,y
i2
)为点xi的角点坐标即第i个文本行的坐标,其中,(x
i1
,y
i1
)为第i个文本行的左上角坐标,(x
i2
,y
i2
)为第i个文本行的右下角坐标,k
i1
为点xi的第1维特征向量,k
id
为点xi的第d维特征向量;relu为激活函数;
[0066]
步骤33:将边特征e
ijm
和点xi的特征向量xi进行交互聚合,操作流程如图3所示,运算过程如下式所示:
[0067][0068]
其中,表示点xi的边卷积交互后的特征向量,
⊙
代表hadamard积,w
ij
是可学习参数(向量),ui是可学习标量;
[0069]
步骤34:利用点xi形成目标点集合,从网络图的顶点集合v中依次选取与目标点集合中任意目标点最近的点作为新的目标点,若选择的点曾成为目标点,则放弃这个点,再选取除此点外距离目标点集合中任意目标点最近的点作为新的目标点,将新的目标点加入目标点集合,并返回步骤32,对新的目标点进行边卷积交互,得到新的目标点的边卷积交互后的特征向量,直至遍历顶点集合v,输出每个顶点的边卷积交互后的特征向量
[0070]
步骤35:将每个顶点的边卷积交互后的特征向量输入第一全连接层,第一全连接层将学习到的特征表示映射到样本的标记空间,通过relu函数输出;
[0071]
步骤36:以前一次步骤s35输出的新的特征向量作为后一次循环时对应顶点的特征向量xi,循环步骤32~35三次后再循环一次步骤32~34,依次得到每个顶点的边卷积交互后的特征向量即计算时以作为步骤32的特征向量xi,计算时以作为步骤32的特征向量xi,计算时以作为步骤32的特征向量xi,再将特征向量输入第二全连接层,按照如下公式拼接组合,并通过relu函数输出:
[0072][0073]
其中,x
′i为点xi的多次边卷积交互后的特征向量,wg为可学习的权重矩阵;
[0074]
步骤4:基于每个顶点的多次边卷积交互后的特征向量x
′i,采用分类网络对顶点间的关系进行分类操作,即计算更新表示网络图中任意两顶点间的关系类别的邻接矩阵,得到顶点间的关系类别即为表格中各文本行的关系,具体地,对于邻接矩阵的每个元素,得分概率最大的关系类别即为预测的两顶点间的关系类别,分类网络由批量规范化层和多层感知机组成,转化特征维度;
[0075]
步骤5:根据表格中各文本行的关系,恢复表格结构。
[0076]
然后,对基于边卷积交互的表格结构识别模型进行训练:
[0077]
训练时,由于内存限制,若对文本行的邻接矩阵的每个位置分类即求解每个元素值,则无法进行批训练,因此训练时要压缩计算量,此外,文本行的邻接矩阵中元素的关系类别极不平衡,其中绝大部分是无关系。所以,对基于边卷积交互的表格结构识别模型进行
训练时,在采用分类网络对顶点间的关系进行分类前,基于蒙特卡洛法对邻接矩阵进行下采样,统计邻接矩阵的标签中各类别数量,平均类别数量得到概率分布矩阵,由概率分布图采样生成符合的位置索引,最后根据位置索引对表格的特征图切片,压缩邻接矩阵,均衡类别数量并完成批训练。
[0078]
最后,将待识别的表格图像、表格图像的特征图、表格图像中的文本行内容信息和位置信息输入训练后的基于边卷积交互的表格结构识别模型,进行表格结构识别。
[0079]
本实施例在多层卷积神经网络构成的骨干网络提取表格图像的特征图,文字检测结果(表格图像中的文本行内容信息和位置信息)生成文本中心位置,并在特征图上与文本中心位置对应处采样,得到包含文本位置的图像特征;将表格用网络图的形式表示出来,图中每个顶点代表一个文本行;然后,基于边卷积计算与顶点相连的最近的m个点的边特征,再将顶点和与其连接的最近的m个点之间的边特征进行交互聚合操作;最后使用多层感知机分类判断,得到表格中各文本行的邻接关系,更加准确的捕获每个文本行之间的关系,根据文本行间的邻接关系恢复出表格结构,识别结果更加准确。
[0080]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
技术特征:
1.一种基于边卷积交互的表格结构识别方法,其特征在于,包括以下步骤:首先,构建基于边卷积交互的表格结构识别模型:步骤1:输入表格图像、表格的特征图、表格中的文本行内容信息和位置信息,文本行内容信息指文本内容,文本行位置信息指文本行的坐标,根据文本行内容信息和位置信息得到文本中心位置,并在特征图上与文本中心位置对应处采样,将采样得到的图像特征和文本行位置信息拼接,得到包含文本位置的图像特征;步骤2:以表格中的文本行作为顶点、文本行间的关系作为连边,将表格用网络图的形式表示出来;步骤3:基于边卷积计算每个顶点与距离其最近的m个顶点的边特征,再将顶点和m个边特征进行交互聚合操作;步骤4:基于每个顶点的交互聚合后的特征向量,采用分类网络对顶点间的关系进行分类操作,得到顶点间的关系类别即为表格中各文本行的关系;然后,对基于边卷积交互的表格结构识别模型进行训练;最后,将待识别的表格图像、表格图像的特征图、表格图像中的文本行内容信息和位置信息输入训练后的基于边卷积交互的表格结构识别模型,进行表格结构识别。2.根据权利要求1所述的一种基于边卷积交互的表格结构识别方法,其特征在于,步骤2中,文本行间的关系分为无关系、同单元格、同行、同列四类;通过下式,将表格用网络图的形式表示:其中,v是网络图的顶点的集合,e是网络图的连边的集合,顶点间的关系用大小为v
×
v的邻接矩阵来表示,邻接矩阵的每个元素表示对应的两顶点间的关系类别;步骤4中,基于每个顶点的交互聚合后的特征向量,采用分类网络对顶点间的关系进行分类操作,即是计算更新邻接矩阵,对于邻接矩阵的每个元素,得分概率最大的关系类别即为预测的两顶点间的关系类别。3.根据权利要求1所述的一种基于边卷积交互的表格结构识别方法,其特征在于,步骤3的具体实现过程如下:步骤31:采用图嵌入方法将网络图中每个顶点的包含文本位置的图像特征映射到欧式空间:设文本行数量即网络图中顶点数量为n,采样得到的特征图维度为d,文本行位置信息数量为p,经拼接后,网络图中每个顶点的特征即包含文本位置的图像特征的维度f为特征图维度d和文本框位置特征数量p的线性和,网络图中顶点的特征向量组表示如下式:其中,x
i
表示欧式空间中第i个点x
i
的特征向量;步骤32:基于边卷积计算每个顶点和与其相连的距离其最近的m个点的边特征:在欧式空间内,对每个点x
i
,通过knn算法找到m个距离点x
i
最近的点x
ij
,将m个点x
ij
按照距离升序排列,得到点x
ij1
,x
ij2
,...,x
ijm
;对点x
i
的特征向量x
i
和与点x
i
相连的距离其最近的m个点x
ij
的特征向量x
j
进行边卷积运算,得到点x
i
和x
ijm
的边特征e
ijm
,m∈[1,m];
步骤33:将边特征e
ijm
和点x
i
的特征向量x
i
进行交互聚合,运算过程如下式所示:其中,表示点x
i
的边卷积交互后的特征向量,
⊙
代表hadamard积,w
ij
是可学习向量,u
i
是可学习标量;步骤34:利用点x
i
形成目标点集合,从网络图的顶点集合v中依次选取与目标点集合中任意目标点最近的点作为新的目标点,若选择的点曾成为目标点,则放弃这个点,再选取除此点外距离目标点集合中任意目标点最近的点作为新的目标点,将新的目标点加入目标点集合,并返回步骤32,对新的目标点进行边卷积交互,得到新的目标点的边卷积交互后的特征向量,直至遍历顶点集合v,输出每个顶点的边卷积交互后的特征向量将其作为每个顶点的交互聚合后的特征向量输入步骤4。4.根据权利要求3所述的一种基于边卷积交互的表格结构识别方法,其特征在于,步骤3还包括:步骤35:将每个顶点的边卷积交互后的特征向量输入第一全连接层,第一全连接层将学习到的特征表示映射到样本的标记空间,通过relu函数输出;步骤36:以前一次步骤s35输出的新的特征向量作为后一次循环时对应顶点的特征向量x
i
,循环步骤32~35二次后再循环一次步骤32~34,依次得到每个顶点的边卷积交互后的特征向量再将特征向量输入第二全连接层,按照如下公式拼接组合,并通过relu函数输出:其中,x
′
i
为点x
i
的多次边卷积交互后的特征向量,w
g
为可学习的权重矩阵;将点x
i
的多次边卷积交互后的特征向量x
′
i
作为每个顶点的交互聚合后的特征向量输入步骤4。5.根据权利要求3或4所述的一种基于边卷积交互的表格结构识别方法,其特征在于,步骤32的边卷积计算如下式所示:e
ijm
=relu(θ
m
·
(x
j-x
i
)+φ
m
·
x
i
);其中,φ
m
和θ
m
为可学习向量;x
i
=(k
i1
,...,k
id
,x
i1
,y
i1
,x
i2
,y
i2
),(x
i1
,y
i1
,x
i2
,y
i2
)为点x
i
的角点坐标即第i个文本行的坐标,其中,(x
i1
,y
i1
)为第i个文本行的左上角坐标,(x
i2
,y
i2
)为第i个文本行的右下角坐标,k
i1
为点x
i
的第1维特征向量,k
id
为点x
i
的第d维特征向量;relu为激活函数。6.据权利要求3或4所述的一种基于边卷积交互的表格结构识别方法,其特征在于,n为文本行数量。7.根据权利要求1~5任一项所述的一种基于边卷积交互的表格结构识别方法,其特征在于,对基于边卷积交互的表格结构识别模型进行训练时,在采用分类网络对顶点间的关系进行分类前,基于蒙特卡洛法对邻接矩阵进行下采样,统计邻接矩阵的标签中各类别数量,平均类别数量得到概率分布矩阵,由概率分布图采样生成符合的位置索引,最后根据位置索引对表格的特征图切片,压缩邻接矩阵,均衡类别数量并完成批训练。8.根据权利要求1~5任一项所述的一种基于边卷积交互的表格结构识别方法,其特征
在于,构建基于边卷积交互的表格结构识别模型时,还包括:步骤5:根据表格中各文本行的关系,恢复表格结构。
技术总结
本发明公开了一种基于边卷积交互的表格结构识别方法,构建基于边卷积交互的表格结构识别模型:输入表格图像、表格的特征图、表格中的文本行内容信息和位置信息,得到文本中心位置并在特征图上对应处采样,将采样的图像特征和文本行位置信息拼接,得到包含文本位置的图像特征;以文本行作为顶点、文本行间的关系作为连边,将表格用网络图表示出来;基于边卷积计算每个顶点和与其距离最近的M个点的边特征,再将顶点和M个边特征进行交互聚合;基于每个顶点交互聚合后的特征向量,对顶点间的关系进行分类,得到表格中各文本行的关系;对基于边卷积交互的表格结构识别模型训练后,采用基于边卷积交互的表格结构识别模型进行表格结构的准确识别。构的准确识别。构的准确识别。
技术研发人员:王炜华 刘迪 飞龙 高光来
受保护的技术使用者:内蒙古大学
技术研发日:2023.04.13
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/