训练样本的生成方法、装置、电子设备及存储介质与流程

未命名 10-18 阅读:109 评论:0
1.本技术涉及人工智能
技术领域
:,尤其涉及一种训练样本的生成方法、装置、电子设备及存储介质。
背景技术
::2.ocr(opticalcharacterrecognition,光学字符识别)识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。3.使用ocr技术并结合深度学习方法,可以实现从pdf(portabledocumentformat,可携带文件格式或可移植文档文件格式)文件或图像文件中提取文本并进行结构化的功能。比如,可以采用表格文本提取模型从pdf文件或图像文件中提取文本,得到结构化信息。4.为了提升表格文本提取模型的预测效果和预测精度,需要采用大量的训练样本对模型进行预先训练。然而,生成大量的训练样本,需要投入大量的人力进行数据标注,即,目前是通过众包方式,由人工对训练样本进行标注的,该样本的生成方式,不仅人力成本较高,且样本的生成效率较低。技术实现要素:5.本技术的目的旨在至少在一定程度上解决上述技术问题之一。6.为此,本技术提出了一种训练样本的生成方法、装置、电子设备及存储介质,以实现利用第一文档文件对文档表格的单元格进行划分,并输出划分得到的与单元格相对应的文本块的能力,代替人工对单元格的识别完成单元格的标注,得到训练样本,即,可以实现根据第一文档文件输出的各个文本块的属性信息,对第一文档文件中的文本块进行自动标注,可以解决人工对训练样本进行标注存在效率低、成本高的问题,达到提升训练样本的生成效率,降低人工成本的效果。7.本技术第一方面实施例提出了一种训练样本的生成方法,包括:8.获取包含表格的第一文档文件;其中,所述第一文档文件包括至少一个文本块,以及所述文本块的属性信息,所述文本块与所述表格的单元格相对应;所述属性信息包括位置信息;9.提取所述第一文档文件中的至少一个目标文本块,以及所述目标文本块对应的目标属性信息;10.根据所述目标属性信息,对所述目标文本块进行标注,以得到训练样本;其中,所述训练样本用于对表格文本提取模型进行训练。11.本技术第二方面实施例提出了一种训练样本的生成装置,包括:12.获取模块,用于获取包含表格的第一文档文件;其中,所述第一文档文件包括至少一个文本块,以及所述文本块的属性信息,所述文本块与所述表格的单元格相对应;所述属性信息包括位置信息;13.提取模块,用于提取所述第一文档文件中的至少一个目标文本块,以及所述目标文本块对应的目标属性信息;14.标注模块,用于根据所述目标属性信息,对所述目标文本块进行标注,以得到训练样本;其中,所述训练样本用于对表格文本提取模型进行训练。15.本技术第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的训练样本的生成方法。16.本技术第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的训练样本的生成方法。17.本技术第五方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本技术上述第一方面所述的训练样本的生成方法。18.本技术的实施例提供的技术方案至少带来以下有益效果:19.通过获取包含表格的第一文档文件;其中,第一文档文件包括至少一个文本块,以及文本块的属性信息,文本块与表格的单元格相对应,属性信息包括位置信息;提取第一文档文件中的至少一个目标文本块,以及目标文本块对应的目标属性信息;根据目标属性信息,对目标文本块进行标注,以得到训练样本;其中,训练样本用于对表格文本提取模型进行训练。由此,可以实现利用第一文档文件对文档表格的单元格进行划分,并输出划分得到的与单元格相对应的文本块的能力,代替人工对单元格的识别完成单元格的标注,得到训练样本,即,可以实现根据第一文档文件输出的各个文本块的属性信息,对第一文档文件中的文本块进行自动标注,可以解决人工对训练样本进行标注存在效率低、成本高的问题,达到提升训练样本的生成效率,降低人工成本的效果。20.本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。附图说明21.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:22.图1为本技术实施例提供的一种训练样本的生成方法的流程示意图;23.图2为本技术实施例提供的另一种训练样本的生成方法的流程示意图;24.图3为本技术实施例提供的另一种训练样本的生成方法的流程示意图;25.图4为本技术实施例提供的另一种训练样本的生成方法的流程示意图;26.图5为本技术实施例提供的另一种训练样本的生成方法的流程示意图;27.图6为本技术实施例提供的另一种训练样本的生成方法的流程示意图;28.图7为本技术实施例提供的一种对表格文本提取模型进行训练的方法的流程示意图;29.图8为本技术实施例提供的一种表格文本提取模型的应用方法的流程示意图;30.图9为本技术实施例所提供的训练样本的生成流程示意图;31.图10为本技术实施例所提供的word文件中的表格内容示意图;32.图11为本技术实施例所提供的修改后的word文件示意图;33.图12为本技术实施例所提供的标注后的文本块样例示意图;34.图13为根据本技术一个实施例的训练样本的生成装置的结构示意图;35.图14为根据本技术一个实施例的电子设备的结构示意图。具体实施方式36.下面详细描述本技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本技术,而不能理解为对本技术的限制。37.本技术实施例提出一种训练样本的生成方法、装置及电子设备。在具体描述本技术实施例之前,为了便于理解,首先对常用技术词进行介绍:38.pdf文件,是文件格式为pdf格式的文档文件。39.一些场景下,pdf文件中的文字是文本型嵌入的,比如,将word格式的文档文件(简称为word文件)转换为pdf文件时,word文件中的文字会以这种形式嵌入pdf文件。40.另一些场景下,pdf文件中的文字是以图片形式嵌入的,比如,当使用扫描仪扫描纸质文件,生成pdf文件时,文字是图片形式的pdf文件中的一部分。41.通常情况下,pdf文件中的文字大多是以图片形式嵌入的,从这种pdf文件中提取文本的难度较大。此外,pdf文件中还可以嵌入表格,表格中文本的提取难度也较大。42.表格文本结构化,是将pdf文件中的表格中的文本内容提取出来,尤其是针对图片形式嵌入的表格,整理并存储到关系型数据表中,称之为表格文本结构化。43.下面结合图1,对本技术提供的训练样本的生成方法进行详细说明。44.图1为本技术实施例提供的一种训练样本的生成方法的流程示意图。45.本技术实施例的训练样本的生成方法可以由本技术实施例提供的训练样本的生成装置执行。本技术中的训练样本的生成装置可应用于电子设备中,以执行训练样本的生成功能。或者,该训练样本的生成装置可以配置在电子设备的应用中,以使该应用可以执行训练样本的生成功能。46.其中,电子设备可以为任一具有计算能力的设备,该设备或者该设备中的应用能够执行训练样本的生成功能。其中,具有计算能力的设备例如可以为个人电脑、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。47.如图1所示,该训练样本的生成方法包括以下步骤:48.步骤s101,获取包含表格的第一文档文件;其中,第一文档文件包括至少一个文本块,以及文本块的属性信息,文本块与表格的单元格相对应;属性信息包括位置信息。49.在本技术实施例中,属性信息可以包括但不限于文本块的位置信息(例如文本块的左上角的顶点坐标和右下角的顶点坐标),还可以包括除位置信息之外的其他属性,比如,属性信息还可以包括文本块的标识信息(如编号)、左上角的顶点编号、右下角的顶点编号等,本技术对此并不作限制。50.在本技术实施例中,对第一文档文件的文件格式不作限制,比如,第一文档文件的文件格式可以为pdf格式、osd(operationalsupportdocument)格式等。51.在本技术实施例中,第一文档文件中可以包括至少一个文本块,其中,文本块与第一文档文件中的表格的单元格相对应,即,文本块是根据表格中的单元格划分得到的。并且,第一文档文件中还可以包括各个文本块的属性信息。52.步骤s102,提取第一文档文件中的至少一个目标文本块,以及目标文本块对应的目标属性信息。53.其中,目标文本块可以为第一文档文件中需要被识别的任意文本块。比如,目标文本块可以为各文本块中面积相对较大的文本块,或者,目标文本块可以为各文本块中置信度(可由人工设置,或由模型预测得到)相对较大的文本块,等等,本技术对此并不做限制。54.在本技术实施例中,可以从第一文档文件中提取至少一个目标文本块,以及提取目标文本块的属性信息(本技术中记为目标属性信息)。55.步骤s103,根据目标属性信息,对目标文本块进行标注,以得到训练样本;其中,训练样本用于对表格文本提取模型进行训练。56.在本技术实施例中,可以根据目标文本块的目标属性信息,对第一文档文件中的目标文本块进行标注,以得到训练样本,其中,训练样本用于对表格文本提取模型进行训练。57.比如,可以根据目标属性信息,在第一文档文件中添加标注框,以得到训练样本,其中,每个标注框内包含一个目标文本块。58.本技术实施例的训练样本的生成方法,通过获取包含表格的第一文档文件;其中,第一文档文件包括至少一个文本块,以及文本块的属性信息,文本块与表格的单元格相对应,属性信息包括位置信息;提取第一文档文件中的至少一个目标文本块,以及目标文本块对应的目标属性信息;根据目标属性信息,对目标文本块进行标注,以得到训练样本;其中,训练样本用于对表格文本提取模型进行训练。由此,可以实现利用第一文档文件对文档表格的单元格进行划分,并输出划分得到的与单元格相对应的文本块的能力,代替人工对单元格的识别完成单元格的标注,得到训练样本,即,可以实现根据第一文档文件输出的各个文本块的属性信息,对第一文档文件中的文本块进行自动标注,可以解决人工对训练样本进行标注存在效率低、成本高的问题,达到提升训练样本的生成效率,降低人工成本的效果。59.为了清楚说明本技术上述实施例中的步骤s101是如何获取包含表格的第一文档文件的,本技术还提出一种训练样本的生成方法。60.图2为本技术实施例提供的另一种训练样本的生成方法的流程示意图。61.如图2所示,在图1所示实施例的基础上,步骤s101可以包括以下步骤:62.步骤s201,获取包含表格的可编辑的第二文档文件。63.在本技术实施例中,对第二文档文件的文件格式不作限制,比如,第二文档文件的文件格式可以为word格式、excel格式等可编辑,且可绘图或绘制表格的文件格式。64.在本技术实施例中,对第二文档文件的获取方式不作限制,比如,第二文档文件可以为相关人员人工提供的文档文件,或者,第二文档文件可以为在线采集的文档文件,或者,第二文档文件可以为其他人员发送的文档文件,或者,第二文档文件可以为在实际的业务场景中获取或采集的文档文件,等等,本技术对此并不做限制。65.步骤s202,对第二文档文件中的文本内容进行随机修改,以得到至少一个第三文档文件。66.在本技术实施例中,可以采用随机修改算法,对第二文档文件中的表格中的至少一个单元格中的文本内容进行随机修改,以得到至少一个第三文档文件。比如,可以采用rand()、floor()等函数,对第二文档文件中的文本内容进行随机修改,得到至少一个第三文档文件。67.在本技术的任意一个实施例之中,不仅可以支持对第二文档文件中的文本内容进行修改,还可以支持对第二文档中字体样式、字号等进行修改,比如,当第二文档中的字体样式为楷体时,可以将第二文档中的至少部分单元格中的字体样式从楷体修改为宋体、手写体等,以增强训练样本的多样性。68.步骤s203,将至少一个第三文档文件转换为至少一个第一文档文件。69.在本技术实施例中,可以将每个第三文档文件转换为一个第一文档文件。70.本技术实施例的训练样本的生成方法,可以实现根据一个可编辑的第二文档文件生成多个第一文档文件,从而可以对多个第一文档文件进行自动标注,得到多个训练样本,即,可以实现训练样本的批量生成,以提升训练样本的丰富性,从而提升表格文本提取模型的训练效果。并且,对文档文件进行随机修改,可以提升表格文本提取模型的泛化能力。71.为了清楚说明本技术上述实施例中步骤s203是如何对第二文档文件中的文本内容进行随机修改,以得到至少一个第三文档文件的,本技术还提出一种训练样本的生成方法。72.图3为本技术实施例提供的另一种训练样本的生成方法的流程示意图。73.如图3所示,在图2所示实施例的基础上,步骤s203可以包括以下步骤:74.步骤s301,获取至少一组第一更新信息;其中,每组第一更新信息包括目标位置信息和目标内容格式,目标位置信息用于指示表格中的待更新单元格,目标内容格式为待更新单元格的内容格式。75.在本技术实施例中,每一组第一更新信息中可以包括目标位置信息和目标内容格式,其中,目标位置信息用于指示第一文档文件的表格中待更新单元格,目标内容格式为待更新单元格的内容格式。76.其中,目标位置信息可以为随机选定的,或者,也可以由相关人员人工指定,比如,针对排版格式固定的表格,地址、电话等均位于固定的位置,此时,可以由相关人员指定待更新单元格的目标位置信息,或者,也可以随机选定待更新单元格的目标位置信息。77.其中,目标内容格式为待更新单元格内文本内容对应的内容类型,目标内容格式可以包括但不限于:文本、数字、数值、日期等格式。78.需要说明的是,每组第一更新信息,用于对第二文档文件进行更新,得到一个第三文档文件,其中,每组第一更新信息中的目标位置信息的数量可以为一个,或者也可以为多个,本技术对此并不做限制,当目标位置信息的数量为多个(即待更新单元格的数量为多个)时,目标内容格式也可为多个。79.步骤s302,针对任意第一更新信息,根据对应目标内容格式,生成与对应目标内容格式匹配的目标文本内容。80.在本技术实施例中,针对任意一组第一更新信息,可以根据该第一更新信息中的目标内容格式,生成与该目标内容格式匹配的目标文本内容。比如,当目标内容格式为日期时,生成的目标文本内容可以为xxxx年yy月zz日(或xxxx-yy-zz、xxxx/yy/zz),再比如,当目标内容格式为数字时,生成的目标文本内容是由至少一个数字组合得到的。81.步骤s303,从第二文档文件中表格中的各单元格中,确定与任意第一更新信息中的目标位置信息匹配的待更新单元格。82.在本技术实施例中,可以根据该第一更新信息中的目标位置信息,从第二文档文件中的表格的各单元格中,确定位置信息与该目标位置信息匹配的待更新单元格。83.步骤s304,根据目标文本内容,对第二文档文件中的待更新单元格内的文本内容进行更新,以得到第三文档文件。84.在本技术实施例中,可以根据目标文本内容,对第二文档文件中的待更新单元格内的文本内容进行更新,以得到一个第三文档文件。85.在本技术的任意一个实施例之中,不仅可以对第二文档文件中待更新单元格内的文本内容进行修改,还可以对待更新单元格中的字体样式、字号大小等进行修改,比如,当待更新单元格中的字体样式为楷体时,可以将待更新单元格中的字体样式从楷体修改为宋体、手写体等,以增强训练样本的多样性。86.本技术实施例的训练样本的生成方法,可以实现基于待更新单元格的位置信息和内容格式,对文档文件中的待更新单元格内的文本内容进行有效更新,使得更新后的文档文件中的各单元格的文本内容与对应的内容格式匹配,提升文档文件的更新效果或修改效果。87.为了清楚说明本技术上述实施例中步骤s203是如何对第二文档文件中的文本内容进行随机修改,以得到至少一个第三文档文件的,本技术还提出一种训练样本的生成方法。88.图4为本技术实施例提供的另一种训练样本的生成方法的流程示意图。89.如图4所示,在图2所示实施例的基础上,步骤s203可以包括以下步骤:90.步骤s401,获取至少一组第二更新信息;其中,每组第二更新信息中包括至少一个待更新的目标属性字段。91.其中,目标属性字段(key)可以包括但不限于:地址(或联系地址、家庭住址、工作地址等)、电话(或联系方式)、工作单位(或实习单位)、性别、年龄、学历等等。92.在本技术实施例中,每一组第二更新信息中可以包括至少一个待更新的目标属性字段,其中,目标属性字段可以为随机选定的,或者,也可以由相关人员人工指定,比如,针对排版格式不固定的表格,地址、电话等均位于非固定的位置,因此,可以由相关人员指定待更新的目标属性字段,或者,也可以随机选定待更新的目标属性字段。93.步骤s402,针对任意第二更新信息,生成与任意第二更新信息中的各目标属性字段对应的目标属性值;其中,目标属性值的内容格式与目标属性字段匹配。94.在本技术实施例中,针对任意一组第二更新信息,可以生成与该第二更新信息中的各目标属性字段对应的目标属性值,其中,目标属性值的内容格式与目标属性字段匹配。95.比如,当目标属性字段为电话时,目标属性值可以为:183xxxx1234(或12345678),再比如,当目标属性字段为日期时,目标属性值可以为xxxx年yy月zz日(或xxxx-yy-zz、xxxx/yy/zz),再比如,当目标属性字段为年龄时,目标属性值可以为29,等等,在此不一一列举。96.步骤s403,针对任意第二更新信息中的任意目标属性字段,从第二文档文件中的表格中确定目标单元格;其中,目标单元格的内容格式与任意目标属性字段匹配。97.在本技术实施例中,针对上述第二更新信息中的任意的一个目标属性字段,可以从第二文档文件中的表格的各单元格中确定目标单元格,其中,目标单元格的内容格式与该目标属性字段匹配。98.比如,当目标属性字段为日期时,某个单元格内的文本内容为xxxx年yy月zz日,则可以确定该单元格的内容格式与目标属性字段匹配,因此,可以将该单元格作为目标单元格。99.再比如,当目标属性字段为电话时,某个单元格内的文本内容为183xxxx1234,则可以确定该单元格的内容格式与目标属性字段匹配,因此,可以将该单元格作为目标单元格。100.步骤s404,根据任意目标属性字段对应的目标属性值,对目标单元格中的文本内容进行更新,以得到第三文档文件。101.在本技术实施例中,可以根据上述目标属性字段对应的目标属性值,对第二文档文件中的目标单元格中的文本内容进行更新,以得到第三文档文件。102.在本技术的任意一个实施例之中,不仅可以对第二文档文件中目标单元格内的文本内容进行修改,还可以对目标单元格中的字体样式、字号大小等进行修改,比如,当目标单元格中的字体样式为楷体时,可以将目标单元格中的字体样式从楷体修改为宋体、手写体等,以增强训练样本的多样性。103.本技术实施例的训练样本的生成方法,可以实现基于待更新的目标属性字段,对文档文件中内容格式与该目标属性字段匹配目标单元格内的文本内容进行有效更新,使得更新后的文档文件中的各单元格的文本内容与对应的内容格式匹配,提升文档文件的更新效果或修改效果。104.为了清楚说明本技术上述实施例中步骤s103是如何根据目标属性信息,对目标文本块进行标注,以得到训练样本的,本技术还提出一种训练样本的生成方法。105.图5为本技术实施例提供的另一种训练样本的生成方法的流程示意图。106.如图5所示,在上述任一实施例的基础上,步骤s103可以包括以下步骤:107.步骤s501,从各目标文本块中识别异常文本块。108.在本技术实施例中,可以提取第一文档文件中各文本块的内容信息(或称为文本信息、字符信息、文本内容),基于各目标文本块的目标属性信息和/或内容信息,从各目标文本块中识别存在异常的异常文本块。109.在本技术实施例的一种可能的实现方式中,异常文本块的识别方式,例如可以包括以下至少一项:110.第一项,表格可以包括至少一条线条,相应的,第一文档文件中还可以包括表格中的至少一条线条的位置信息,本技术中,可以提取第一文档文件中的至少一条线条的位置信息,并根据任意一个目标文本块的位置信息和至少一条线条的位置信息,判断至少一条线条中是否存在目标线条,其中,目标线条位于该目标文本块中,或者,目标线条与该目标文本块相交,在至少一条线条中存在目标线条的情形下,可以将该目标文本块作为存在异常的异常文本块。111.其中,目标线条的数量可以为一条,或者也可以为多条,本技术实施例对此并不作限制。112.也就是说,文本块是根据表格中的单元格划分得到的,每个文本块中只包含一个单元格中的文本内容,在文本块中包含线条的情况下,表明该文本块可能包含至少两个单元格中的文本内容,因此,可以将该文本块作为存在异常的异常文本块。113.第二项,可以从各目标文本块中确定包括多个文本片段(或称为文本段、自然段)的候选文本块,并基于自然语言处理技术,确定候选文本块中多个文本片段的语义,之后,可以根据多个文本片段的语义,判断多个文本片段之间是否具有语义关联关系,在确定多个文本片段中任意两个相邻的文本片段之间不具有语义关联关系的情形下,可以将该候选文本块作为异常文本块。114.也就是说,同一个单元格或同一个文本块中的各文本片段之间的语义关联性较强,在确定某个文本块中的各文本片段之间的语义关联性较弱的情形下,可以将该文本块作为存在异常的异常文本块。115.第三项,根据各目标文本块的内容信息,确定各目标文本块的语义,并根据各目标文本块的语义,判断各目标文本块中是否存在具有语义关联关系的至少两个目标文本块,其中,语义关联关系还可以称为语义上下文关联关系,即判断各目标文本块之间是否语义上下文关联;在各目标文本块中存在具有语义关联关系的至少两个目标文本块的情形下,即,至少两个目标文本块之间语义上下文关联,则可以将该至少两个目标文本块作为存在异常的异常文本块。116.也就是说,一般情况下,不同单元格或不同文本块中的文本内容之间的语义关联性较弱,比如,证件号码与联系方式、地址之间的语义关联性较弱,在确定多个文本块之间的语义关联性较强的情形下,则表明同一单元格中的文本内容可能被划分为多个文本块,此时,可以将上述多个文本块作为存在异常的异常文本块。117.由此,可以实现基于多种方式,从各目标文本块中识别出存在异常的异常文本块,提升该方法的灵活性和适用性。118.步骤s502,对异常文本块进行清洗和/或修正。119.在本技术实施例中,可以对异常文本块进行自动清洗和/或修正。120.在本技术实施例的一种可能的实现方式中,异常文本块的自动清洗和/或修正方式,例如可以包括以下至少一项:121.第一项,对异常文本块进行清洗或删除。122.第二项,在异常文本块中包括目标线条,或者异常文本块与目标线条相交的情形下,可以根据目标线条的位置信息,对异常文本块进行划分;其中,划分得到的至少两个文本块中不存在目标线条,和/或,划分得到的至少两个文本块与目标线条不相交。123.第三项,在异常文本块中的任意两个相邻的文本片段之间不具有语义关联关系,或者,异常文本块中的至少两个相邻的文本片段之间不具有语义关联关系的情形下,可以对异常文本块中不具有语义关联关系的任意两个(或至少两个)相邻的文本片段进行划分;其中,划分得到的文本块中仅包括任意两个(或至少两个)相邻的文本片段中的一个文本片段。124.第四项:在至少两个异常文本块之间具有语义关联关系的情形下,可以将具有语义关联关系的至少两个异常文本块进行合并。125.由此,可以实现基于多种方式,对各目标文本块中的异常文本块进行自动清洗和/或修正,提升该方法的灵活性和适用性,以及,提升文本块的更新效果,从而提升训练样本的标注效果。126.步骤s503,根据清洗和/或修正后的异常文本块进行标注,以得到训练样本。127.在本技术实施例中,可以根据清洗和/或修正后的异常文本块,对第一文档文件进行标注,以得到训练样本。128.作为一种示例,在对异常文本块进行清洗的情况下,针对各目标文本块中除异常文本块之外的其他文本块,可以根据其他文本块的目标属性信息,在第一文档文件中添加标注框,其中,每个标注框内仅包含一个文本块。129.作为另一种示例,在对异常文本块进行修正的情况下,可以根据修正后的异常文本块的属性信息,在第一文档文件中添加标注框,并且,针对各目标文本块中除异常文本块之外的其他文本块,可以根据其他文本块的目标属性信息,在第一文档文件中添加标注框,以得到训练样本,其中,每个标注框内仅包含一个修正后的异常文本块或其他文本块。130.作为又一种示例,在对一部分异常文本块进行清洗,对另一部分异常文本块进行修正的情况下,可以根据上述另一部分修正后的异常文本块的属性信息,在第一文档文件中添加标注框,并且,针对各目标文本块中除异常文本块之外的其他文本块,可以根据其他文本块的目标属性信息,在第一文档文件中添加标注框,以得到训练样本,其中,每个标注框内仅包含一个修正后的异常文本块或其他文本块。131.在本技术实施例的一种可能的实现方式中,为了提升训练样本标注结果的准确性和可靠性,还可以由人工对清洗和/或修正后的异常文本块进行更新。132.作为一种示例,可以输出清洗和/或修正后的异常文本块,并获取相关人员人工触发的修正请求,响应于该修正请求,对清洗和/或修正后的异常文本块进行更新。比如,可以对清洗和/或修正后的异常文本块的位置信息进行调整,或者,删除清洗和/或修正后的异常文本块。133.由此,可以实现对清洗和/或修正后的异常文本块进行更新,以提升训练样本标注的准确性,进而提升表格文本提取模型的训练效果。134.本技术实施例的训练样本的生成方法,可以识别出第一文档文件中存在异常的异常文本块,并对异常文本块进行清洗和/或修正,从而根据清洗和/或修正后的异常文本块对第一文档文件进行标注,可以提升标注结果的准确性和可靠性。135.为了清楚说明本技术上述实施例中步骤s103中是如何根据目标属性信息,对目标文本块进行标注的,本技术还提出一种训练样本的生成方法。136.图6为本技术实施例提供的另一种训练样本的生成方法的流程示意图。137.如图6所示,在上述任一实施例的基础上,步骤s103可以包括以下步骤:138.步骤s601,根据目标属性信息,在第一文档文件中添加标注框,其中,标注框内包含一个目标文本块。139.在本技术实施例中,可以根据各目标文本块的目标属性信息,在第一文档文件中添加标注框,其中,每个标注框内仅包含一个目标文本块。140.步骤s602,根据各标注框的位置信息,从各标注框中确定至少两个标注框。141.在本技术实施例中,可以根据各标注框的位置信息,从各标注框中确定至少两个标注框。比如,至少两个标注框可以为相邻或邻接的标注框,或者,至少两个标注框可以为距离小于阈值的标注框,等等。142.步骤s603,获取至少两个标注框之间的关联关系,其中,关联关系是根据至少两个标注框内的目标文本块的内容信息确定的。143.在本技术实施例中,关联关系包括但不限于:键值关系、组合关系等。144.比如,标注框1内的目标文本块的内容信息为:电话,标注框2内的目标文本块的内容信息为:183xxxx1234,则可以确定标注框1和标注框2之间的关联关系为:键值关系。145.再比如,标注框3内的目标文本块的内容信息为:电话,标注框4内的目标文本块的内容信息为:生日,则可以确定标注框3和标注框4之间的关联关系为:组合关系。146.在本技术实施例中,基于自然语言处理技术,根据至少两个标注框内的目标文本块的内容信息,确定至少两个标注框之间的关联关系,或者,也可以由相关人员人工指定至少两个标注框之间的关联关系,本技术实施例对此并不做限制。147.步骤s604,根据关联关系,对至少两个标注框进行关系标注,以得到训练样本。148.在本技术实施例中,还可以根据至少两个标注框之间的关联关系,对第一文档文件中的至少两个标注框进行关系标注,以得到训练样本。149.本技术实施例的训练样本的生成方法,可以实现在训练样本上标注各个标注框(box)之间的位置信息,还可以实现在训练样本上标注各个标注框之间的关联关系,以便于表格文本提取模型区分文档文件中各单元格中的文本内容是键值关系还是组合关系等,从而可以基于该关联关系,生成关系型数据表,以满足实际业务场景的使用需求。150.上述各个实施例涉及训练样本的生成场景,本技术还提出一种训练样本的应用场景,即,可以采用训练样本对表格文本提取模型进行训练。151.图7为本技术实施例提供的一种对表格文本提取模型进行训练的方法的流程示意图。152.如图7所示,在上述任一实施例的基础上,对表格文本提取模型进行训练的方法,可以包括以下步骤:153.步骤s701,将训练样本输入表格文本提取模型进行文本提取,以得到至少一个预测框的位置信息和预测框内的内容信息。154.在本技术实施例中,可以将训练样本输入至表格文本提取模型进行文本提取,以得到至少一个预测框的位置信息和各预测框内的内容信息(或称为文本信息、字符信息、文本内容)。155.作为一种示例,可以采用表格文本提取模型中的第一预测分支对训练样本中的各标注框的位置信息进行预测,以得到至少一个预测框的位置信息。并且,可以采用表格文本提取模型中的第二预测分支根据各预测框的位置信息,对训练样本中各预测框内的文本信息进行预测或文字识别,得到各预测框内的内容信息。156.步骤s702,根据训练样本上标注框的位置信息和预测框的位置信息之间的差异,生成第一损失值。157.在本技术实施例中,可以根据训练样本上标注框的位置信息和预测框的位置信息之间的差异,生成第一损失值。其中,第一损失值与上述差异呈正相关关系,即差异越小,第一损失值越小,反之,差异越大,第一损失值越大。158.步骤s703,根据标注框内的内容信息和预测框内的内容信息之间的差异,生成第二损失值。159.在本技术实施例中,可以根据训练样本中标注框内的目标文本块的内容信息和预测框内的内容信息之间的差异,生成第二损失值。其中,第二损失值与上述差异呈正相关关系,即差异越小,第二损失值越小,反之,差异越大,第二损失值越大。160.步骤s704,根据第一损失值和第二损失值,对表格文本提取模型进行训练。161.在本技术实施例中,可以根据第一损失值和第二损失值,对表格文本提取模型进行训练。162.作为一种示例,可以根据第一损失值和第二损失值,生成目标损失值,并根据目标损失值,对表格文本提取模型进行训练,以使目标损失值最小化。163.其中,目标损失值可以为第一损失值和第二损失值的均值、和值、加权求和值等等,本技术对此并不做限制。164.需要说明的是,上述仅以模型训练的终止条件为目标损失值最小化进行示例,实际应用时,也可以设置其他的终止条件,比如,终止条件还可以包括训练时长达到设定时长、训练次数达到设定次数,等等,本技术实施例对此并不作限制。165.本技术实施例的对表格文本提取模型进行训练的方法,可以实现基于训练样本对表格文本提取模型进行训练,以提升模型预测结果的准确性和可靠性。166.上述实施例为表格文本提取模型的训练方法所对应的实施例,本技术还提出一种表格文本提取模型的应用方法。167.图8为本技术实施例提供的一种表格文本提取模型的应用方法的流程示意图。168.如图8所示,在上述任一实施例的基础上,训练样本的生成方法还可以包括以下步骤(或,表格文本提取模型的应用方法可以包括以下步骤):169.步骤s801,获取包含表格的非可编辑的第四文档文件。170.在本技术实施例中,对第四文档文件的文件格式不作限制,比如,第二文档文件的文件格式可以为pdf格式、图片格式等。171.在本技术实施例中,对第四文档文件的获取方式不作限制,比如,第四文档文件可以为相关人员人工提供的文档文件,或者,第四文档文件可以为在线采集的文档文件,或者,第四文档文件可以为其他人员发送的文档文件,或者,第四文档文件可以为在实际的业务场景中获取或采集的文档文件,等等,本技术对此并不做限制。172.步骤s802,将第四文档文件输入经过训练的表格文本提取模型进行文本提取,以得到经过训练的表格文本提取模型输出的至少一个输出框的位置信息和输出框内的内容信息。173.在本技术实施例中,可以将第四文档文件输入至经过训练的表格文本提取模型进行文本提取,以得到经过训练的表格文本提取模型输出的至少一个输出框的位置信息以及各输出框内的内容信息(或称为文本信息、字符信息、文本内容)。174.在本技术的任意一个实施例之中,在训练样本上标注有至少两个标注框之间的关联关系的情形下,经过训练的表格文本提取模型还可以输出有至少一个输出框之间的关联关系(键值关系、组合关系等),本技术中,还可以根据至少一个输出框之间的关联关系和至少一个输出框的位置信息,对至少一个输出框内的内容信息进行整合,以得到关系型数据表。175.由此,可以实现根据表格文本提取模型的输出,生成关系型数据表,以满足实际业务场景的使用需求。176.本技术实施例的表格文本提取模型的应用方法,采用经过训练的表格文本提取模型,从非可编辑的第四文档文件中提取文本内容,可以提升提取结果的准确性。177.在本技术的任意一个实施例之中,本技术所提供的训练样本的生成方法主要用于解决表格文本提取模型的训练样本获取的成本较高的问题,通过自动化方式,快速形成大量的基础样本集,再结合简单的人工核查,完成高质量的表格文本结构化数据集的构造,从而为表格文本提取模型的训练提供良好的基础。178.以第一文档文件为pdf文件,第二文档文件为word文件进行示例性说明,训练样本的生成流程可以如图9所示,主要可以包括以下步骤:179.1、确定待提取表格的word文件。可以对待识别的包含表格的pdf文件进行提炼分析,得到待结构化表格的大致格式,并结合该表格格式或表格样式在word文件中,构造出对应的模板文件。180.作为一种示例,word文件中的表格内容可以如图10所示。181.2、使用程序对word文件中的表格内容进行随机修改,并保存为一个新的word文件。182.2.1、针对表格中不同单元格的内容格式要求,对表格中的文本内容进行针对性地修改,以实现随机修改方案,比如,生成一段数字文本、地址文本、电话号码、证件号码、人名文本、公司文本、时间或时间段文本、常规段落文本等。183.2.2、通过随机生成并修改表格中的文本内容,可以使得生成的训练样本具有非常高的随机性,可以有效提升最终的表格文本提取模型的泛化能力。184.作为一种示例,修改后的word文件可以如图11所示。185.3、使用程序将修改后的word文件转换为pdf文件。186.4、pdf文件中存放了该文件中的各文本块、文本块的位置信息和内容信息、线条的位置信息,可以使用python等编程语言通过pdf访问接口,读取pdf文件中的文本块信息和线条信息,得到各文本块的位置信息和内容信息、线条的位置信息。187.5、在读取文本块的位置信息和内容信息、线条的位置信息后,可以根据文本块的长度和高度、文本块的内容信息、线条的位置信息,从各文本块中确定可能存在异常的异常文本块,并对异常文本块进行清洗和/或修正。188.6、将修正后的文本块信息导入数据标注平台进行人工核查修正。尽管前面的步骤做了一定的清洗和修正处理,但是仍然可能无法保证文本块的完全准确和边框的精确性,因此,可以结合人工核查修正。189.作为一种示例,对图11中的文本块进行标注,标注后的文本块样例可以如图12所示。190.7、根据实际应用需求,补充完成结构化标注信息。即,在标注出标注框(或文本框)的基础上,进一步标出各标注框之间的关联关系(如键值关系、组合关系等),从而使得数据可以对应保存到关系型数据表。191.8、得到表格结构化的训练样本。上述流程可以批量生成或进行循环迭代,从而快速得到大量高质量的训练样本。192.综上,可以实现表格文本结构化的训练样本的自动化生成,可以有效降低训练样本的获取成本,大幅提升场景化表格文本提取模型的开发效率。可以实现将1000个训练样本的生成时间从10天/人降低到1天/人以下。193.与上述几种实施例提供的训练样本的生成方法相对应,本技术的一种实施例还提供一种训练样本的生成装置。由于本技术实施例提供的训练样本的生成装置与上述几种实施例提供的训练样本的生成方法相对应,因此在训练样本的生成方法的实施方式也适用于本实施例提供的训练样本的生成装置,在本实施例中不再详细描述。194.图13为根据本技术一个实施例的训练样本的生成装置的结构示意图。195.如图13所示,该训练样本的生成装置1300,可以包括:获取模块1301、提取模块1302以及标注模块1303。196.其中,获取模块1301,用于获取包含表格的第一文档文件;其中,第一文档文件包括至少一个文本块,以及文本块的属性信息,文本块与表格的单元格相对应;属性信息包括位置信息。197.提取模块1302,用于提取第一文档文件中的至少一个目标文本块,以及目标文本块对应的目标属性信息。198.标注模块1303,用于根据目标属性信息,对目标文本块进行标注,以得到训练样本;其中,训练样本用于对表格文本提取模型进行训练。199.作为本技术实施例的一种可能的实现方式,获取模块1301,具体用于:获取包含表格的可编辑的第二文档文件;对第二文档文件中的文本内容进行随机修改,以得到至少一个第三文档文件;将至少一个第三文档文件转换为至少一个第一文档文件。200.作为本技术实施例的一种可能的实现方式,获取模块1301,具体用于:获取至少一组第一更新信息;其中,每组第一更新信息包括目标位置信息和目标内容格式,目标位置信息用于指示表格中的待更新单元格,目标内容格式为待更新单元格的内容格式;针对任意第一更新信息,根据对应目标内容格式,生成与对应目标内容格式匹配的目标文本内容;从第二文档文件中表格中的各单元格中,确定与任意第一更新信息中的目标位置信息匹配的待更新单元格;根据目标文本内容,对第二文档文件中的待更新单元格内的文本内容进行更新,以得到第三文档文件。201.作为本技术实施例的一种可能的实现方式,获取模块1301,具体用于:获取至少一组第二更新信息;其中,每组第二更新信息中包括至少一个待更新的目标属性字段;针对任意第二更新信息,生成与任意第二更新信息中的各目标属性字段对应的目标属性值;其中,目标属性值的内容格式与目标属性字段匹配;针对任意第二更新信息中的任意目标属性字段,从第二文档文件中的表格中确定目标单元格;其中,目标单元格的内容格式与任意目标属性字段匹配;根据任意目标属性字段对应的目标属性值,对目标单元格中的文本内容进行更新,以得到第三文档文件。202.作为本技术实施例的一种可能的实现方式,标注模块1303,具体用于:从各目标文本块中识别异常文本块;对异常文本块进行清洗和/或修正;根据清洗和/或修正后的异常文本块进行标注,以得到训练样本。203.作为本技术实施例的一种可能的实现方式,标注模块1303,具体用于执行以下至少一项:204.提取第一文档文件中的至少一条线条的位置信息,并在根据任意目标文本块的位置信息和至少一条线条的位置信息,确定至少一条线条中存在目标线条的情形下,将任意目标文本块作为异常文本块;其中,目标线条位于任意目标文本块中,或与任意目标文本块相交;205.从各目标文本块中确定包括多个文本片段的候选文本块,并根据多个文本片段的语义,确定多个文本片段中任意两个相邻的文本片段之间不具有语义关联关系的情形下,将候选文本块作为异常文本块;206.根据各目标文本块的内容信息,从各目标文本块中确定具有语义关联关系的至少两个目标文本块,将至少两个目标文本块作为异常文本块。207.作为本技术实施例的一种可能的实现方式,标注模块1303,具体用于执行以下至少一项:208.对异常文本块进行清洗;209.根据目标线条的位置信息,对异常文本块进行划分;其中,划分得到的至少两个文本块中不存在目标线条,和/或,划分得到的至少两个文本块与目标线条不相交;210.对异常文本块中不具有语义关联关系的任意两个相邻的文本片段进行划分;其中,划分得到的文本块中包括任意两个相邻的文本片段中的一个文本片段;211.将具有语义关联关系的至少两个异常文本块进行合并。212.作为本技术实施例的一种可能的实现方式,标注模块1303,还用于:输出清洗和/或修正后的异常文本块;获取修正请求;响应于修正请求,对清洗和/或修正后的异常文本块进行更新。213.作为本技术实施例的一种可能的实现方式,标注模块1303,具体用于:根据目标属性信息,在第一文档文件中添加标注框,其中,标注框内包含一个目标文本块;根据各标注框的位置信息,从各标注框中确定至少两个标注框;获取至少两个标注框之间的关联关系,其中,关联关系是根据至少两个标注框内的目标文本块的内容信息确定的;根据关联关系,对至少两个标注框进行关系标注,以得到训练样本。214.作为本技术实施例的一种可能的实现方式,该训练样本的生成装置1300还可以包括:215.训练模块,用于采用训练样本对表格文本提取模型进行训练,其中,对表格文本提取模型进行训练的方式包括:将训练样本输入表格文本提取模型进行文本提取,以得到至少一个预测框的位置信息和预测框内的内容信息;根据训练样本上标注框的位置信息和预测框的位置信息之间的差异,生成第一损失值;根据标注框内的内容信息和预测框内的内容信息之间的差异,生成第二损失值;根据第一损失值和第二损失值,对表格文本提取模型进行训练。216.作为本技术实施例的一种可能的实现方式,获取模块1301,还用于:获取包含表格的非可编辑的第四文档文件。217.该训练样本的生成装置1300还可以包括:218.提取模块,用于将第四文档文件输入经过训练的表格文本提取模型进行文本提取,以得到经过训练的表格文本提取模型输出的至少一个输出框的位置信息和输出框内的内容信息。219.作为本技术实施例的一种可能的实现方式,在训练样本上标注有至少两个标注框之间的关联关系的情形下,经过训练的表格文本提取模型还输出有至少一个输出框之间的关联关系;该训练样本的生成装置1300还可以包括:220.整合模块,用于根据至少一个输出框之间的关联关系和至少一个输出框的位置信息,对至少一个输出框内的内容信息进行整合,以得到关系型数据表。221.本技术实施例中的训练样本的生成装置,通过获取包含表格的第一文档文件;其中,第一文档文件包括至少一个文本块,以及文本块的属性信息,文本块与表格的单元格相对应,属性信息包括位置信息;提取第一文档文件中的至少一个目标文本块,以及目标文本块对应的目标属性信息;根据目标属性信息,对目标文本块进行标注,以得到训练样本;其中,训练样本用于对表格文本提取模型进行训练。由此,可以实现利用第一文档文件对文档表格的单元格进行划分,并输出划分得到的与单元格相对应的文本块的能力,代替人工对单元格的识别完成单元格的标注,得到训练样本,即,可以实现根据第一文档文件输出的各个文本块的属性信息,对第一文档文件中的文本块进行自动标注,可以解决人工对训练样本进行标注存在效率低、成本高的问题,达到提升训练样本的生成效率,降低人工成本的效果。222.为了实现上述实施例,本技术还提出一种电子设备,图14为本技术实施例提供的一种电子设备的结构示意图。该电子设备包括:223.存储器1401、处理器1402及存储在存储器1401上并可在处理器1402上运行的计算机程序。224.处理器1402执行所述程序时实现上述任一实施例中提供的训练样本的生成方法。225.进一步地,电子设备还包括:226.通信接口1403,用于存储器1401和处理器1402之间的通信。227.存储器1401,用于存放可在处理器1402上运行的计算机程序。228.存储器1401可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。229.处理器1402,用于执行所述程序时实现上述任一实施例所述的训练样本的生成方法。230.如果存储器1401、处理器1402和通信接口1403独立实现,则通信接口1403、存储器1401和处理器1402可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(industrystandardarchitecture,简称为isa)总线、外部设备互连(peripheralcomponent,简称为pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,简称为eisa)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。231.可选的,在具体实现上,如果存储器1401、处理器1402及通信接口1403,集成在一块芯片上实现,则存储器1401、处理器1402及通信接口1403可以通过内部接口完成相互间的通信。232.处理器1402可能是一个中央处理器(centralprocessingunit,简称为cpu),或者是特定集成电路(applicationspecificintegratedcircuit,简称为asic),或者是被配置成实施本技术实施例的一个或多个集成电路。233.为了实现上述实施例,本技术实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例中提供的训练样本的生成方法。234.为了实现上述实施例,本技术实施例还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现上述任一实施例中提供的训练样本的生成方法。235.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。236.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。237.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属
技术领域
:的技术人员所理解。238.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。239.应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。240.本
技术领域
:的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。241.此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。242.上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。当前第1页12当前第1页12
技术特征:
1.一种训练样本的生成方法,其特征在于,所述方法包括:获取包含表格的第一文档文件;其中,所述第一文档文件包括至少一个文本块,以及所述文本块的属性信息,所述文本块与所述表格的单元格相对应;所述属性信息包括位置信息;提取所述第一文档文件中的至少一个目标文本块,以及所述目标文本块对应的目标属性信息;根据所述目标属性信息,对所述目标文本块进行标注,以得到训练样本;其中,所述训练样本用于对表格文本提取模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述获取包含表格的第一文档文件,包括:获取包含表格的可编辑的第二文档文件;对所述第二文档文件中的文本内容进行随机修改,以得到至少一个第三文档文件;将所述至少一个第三文档文件转换为至少一个所述第一文档文件。3.根据权利要求2所述的方法,其特征在于,所述对所述第二文档文件中的文本内容进行随机修改,以得到至少一个第三文档文件,包括:获取至少一组第一更新信息;其中,每组所述第一更新信息包括目标位置信息和目标内容格式,所述目标位置信息用于指示所述表格中的待更新单元格,所述目标内容格式为所述待更新单元格的内容格式;针对任意第一更新信息,根据对应目标内容格式,生成与所述对应目标内容格式匹配的目标文本内容;从所述第二文档文件中所述表格中的各所述单元格中,确定与所述任意第一更新信息中的目标位置信息匹配的待更新单元格;根据所述目标文本内容,对所述第二文档文件中的所述待更新单元格内的文本内容进行更新,以得到所述第三文档文件。4.根据权利要求2所述的方法,其特征在于,所述对所述第二文档文件中的文本内容进行随机修改,以得到至少一个第三文档文件,包括:获取至少一组第二更新信息;其中,每组所述第二更新信息中包括至少一个待更新的目标属性字段;针对任意第二更新信息,生成与所述任意第二更新信息中的各所述目标属性字段对应的目标属性值;其中,所述目标属性值的内容格式与所述目标属性字段匹配;针对所述任意第二更新信息中的任意目标属性字段,从所述第二文档文件中的所述表格中确定目标单元格;其中,所述目标单元格的内容格式与所述任意目标属性字段匹配;根据所述任意目标属性字段对应的目标属性值,对所述目标单元格中的文本内容进行更新,以得到所述第三文档文件。5.根据权利要求1所述的方法,其特征在于,所述根据所述目标属性信息,对所述目标文本块进行标注,以得到训练样本,包括:从各所述目标文本块中识别异常文本块;对所述异常文本块进行清洗和/或修正;根据清洗和/或修正后的异常文本块进行标注,以得到所述训练样本。6.根据权利要求5所述的方法,其特征在于,所述从所述目标文本块中识别异常文本
块,包括以下至少一项:提取所述第一文档文件中的至少一条线条的位置信息,并在根据任意目标文本块的位置信息和所述至少一条线条的位置信息,确定所述至少一条线条中存在目标线条的情形下,将所述任意目标文本块作为所述异常文本块;其中,所述目标线条位于所述任意目标文本块中,或与所述任意目标文本块相交;从各所述目标文本块中确定包括多个文本片段的候选文本块,并根据所述多个文本片段的语义,确定所述多个文本片段中任意两个相邻的文本片段之间不具有语义关联关系的情形下,将所述候选文本块作为所述异常文本块;根据各所述目标文本块的内容信息,从各所述目标文本块中确定具有语义关联关系的至少两个目标文本块,将所述至少两个目标文本块作为所述异常文本块。7.根据权利要求6所述的方法,其特征在于,所述对所述异常文本块进行清洗和修正,包括以下至少一项:对所述异常文本块进行清洗;根据目标线条的位置信息,对所述异常文本块进行划分;其中,划分得到的至少两个文本块中不存在所述目标线条,和/或,划分得到的至少两个文本块与所述目标线条不相交;对所述异常文本块中不具有语义关联关系的任意两个相邻的文本片段进行划分;其中,划分得到的文本块中包括所述任意两个相邻的文本片段中的一个文本片段;将具有语义关联关系的至少两个所述异常文本块进行合并。8.根据权利要求5-7中任一项所述的方法,其特征在于,所述根据清洗和/或修正后的异常文本块进行标注之前,所述方法还包括:输出所述清洗和/或修正后的异常文本块;获取修正请求;响应于修正请求,对所述清洗和/或修正后的异常文本块进行更新。9.根据权利要求1-7中任一项所述的方法,其特征在于,所述根据所述目标属性信息,对所述目标文本块进行标注,以得到训练样本,包括:根据所述目标属性信息,在所述第一文档文件中添加标注框,其中,所述标注框内包含一个目标文本块;根据各所述标注框的位置信息,从各所述标注框中确定至少两个标注框;获取所述至少两个标注框之间的关联关系,其中,所述关联关系是根据所述至少两个标注框内的目标文本块的内容信息确定的;根据所述关联关系,对所述至少两个标注框进行关系标注,以得到所述训练样本。10.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:采用所述训练样本对所述表格文本提取模型进行训练,其中,对所述表格文本提取模型进行训练的方法包括:将所述训练样本输入所述表格文本提取模型进行文本提取,以得到至少一个预测框的位置信息和所述预测框内的内容信息;根据所述训练样本上标注框的位置信息和所述预测框的位置信息之间的差异,生成第一损失值;根据所述标注框内的内容信息和所述预测框内的内容信息之间的差异,生成第二损失
值;根据所述第一损失值和所述第二损失值,对所述表格文本提取模型进行训练。11.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:获取包含表格的非可编辑的第四文档文件;将所述第四文档文件输入经过训练的表格文本提取模型进行文本提取,以得到所述经过训练的表格文本提取模型输出的至少一个输出框的位置信息和所述输出框内的内容信息。12.根据权利要求11所述的方法,其特征在于,在所述训练样本上标注有至少两个标注框之间的关联关系的情形下,所述经过训练的表格文本提取模型还输出有所述至少一个输出框之间的关联关系,所述方法还包括:根据所述至少一个输出框之间的关联关系和所述至少一个输出框的位置信息,对所述至少一个输出框内的内容信息进行整合,以得到关系型数据表。13.一种训练样本的生成装置,其特征在于,所述装置包括:获取模块,用于获取包含表格的第一文档文件;其中,所述第一文档文件包括至少一个文本块,以及所述文本块的属性信息,所述文本块与所述表格的单元格相对应;所述属性信息包括位置信息;提取模块,用于提取所述第一文档文件中的至少一个目标文本块,以及所述目标文本块对应的目标属性信息;标注模块,用于根据所述目标属性信息,对所述目标文本块进行标注,以得到训练样本;其中,所述训练样本用于对表格文本提取模型进行训练。14.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-12中任一项所述的训练样本的生成方法。15.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12中任一项所述的训练样本的生成方法。

技术总结
本申请提出了一种训练样本的生成方法、装置、电子设备及存储介质,涉及人工智能领域,方法包括:获取包含表格的第一文档文件;第一文档文件包括至少一个文本块,以及文本块的属性信息,文本块与表格的单元格相对应,属性信息包括位置信息;提取第一文档文件中的至少一个目标文本块,以及目标文本块对应的目标属性信息;根据目标属性信息,对目标文本块进行标注,以得到训练样本;训练样本用于对表格文本提取模型进行训练。由此,可以实现利用第一文档文件对文档表格的单元格进行划分,并输出划分得到的与单元格相对应的文本块的能力,代替人工对单元格的识别完成单元格的标注,得到训练样本,可达到提升训练样本的生成效率,降低人工成本的效果。成本的效果。成本的效果。


技术研发人员:徐鹏飞
受保护的技术使用者:杭州数梦工场科技有限公司
技术研发日:2023.06.21
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐