一种合同要素抽取方法与流程
未命名
07-12
阅读:109
评论:0

1.本发明涉及文档机器识别技术领域,尤其是一种合同要素抽取方法。
背景技术:
2.近年来,作为机器学习最重要的一个分支,自然语言理解近年来发展迅猛,在国内外都引起了广泛的关注。以往,可能需要人工一页页,一行行进行浏览,从而才能获取到合同相关的要素,这需要耗费极大的人力成本,还容易出错,整个体验感大打折扣。
技术实现要素:
3.针对上述问题中存在的不足之处,本发明提供一种在合同领域场景中,精准识别文档中的合同要素。
4.为实现上述目的,本发明提供一种合同类文档的解析方法,包括以下步骤:
5.步骤1、获取待处理的文档
6.步骤2、预处理服务,对文档并进行切图
7.步骤3、调用ocr服务
8.步骤4、调用句子分类服务
9.步骤5、调用命名实体服务
10.步骤6、调用后处理服务
11.上述的一种合同要素抽取方法,其中,在步骤1中,用户上传待处理的pdf文档后会生成对应的文件id,可以根据文件id在文件服务系统中获取对应的上传文件路径,供给后续流程使用;
12.上述的一种合同要素抽取方法,在步骤2中,遍历某一个文档,把每一页转换成图片,将所有图片统一保存在某个文件夹,供给后续流程使用。
13.上述的一种合同要素抽取方法,在步骤3中,对步骤2中的文件夹路径一一遍历,分别调用文字检测模型和文字识别模型,返回对应的文本内容和坐标信息。依次保存到统一的文件文件夹路径中。
14.上述的一种合同要素抽取方法,在步骤4中,利用步骤3中获取的文字检测模型和文字识别模型生成的文本文件夹路径,利用bilstm-softmax模型,自动建模文本句子的nlp表征,学习到句子对应的特征,剔除掉其中无关文本。
15.上述的一种合同要素抽取方法,在步骤5中,主要通过利用bilstm、crf模型、bert+flat模型,自动建模学习到合同要素对应的特征。
16.上述的一种合同要素抽取方法,经过步骤5中实体识别抽取后,对字段进行定制化清洗。
17.本发明具有以下优点:
18.本发明利用自然语言理解有效解决了人工审阅时重复性、流程性的摘取合同要素,并利用ocr检测和识别最新的研究成果提升文字识别效果。
附图说明
19.图1为本发明合同要素抽取方法的流程图。
具体实施方式
20.如图1所示,本发明提供一种合同要素抽取方法,其中,合同是指有关各方之间在进行某种商务合作时,为了确定各自的权利和义务,而正式依法订立的、并且经过公证的、必须共同遵守的协议条文。合同要素为需要从合同中提取出来的文本,例如,合同名称(代表这份合同归属于哪种类型,例如建设工程合同,运输合同等),合同要素特征为提取同类要素有什么共同点(例如合同名称通常最后都会带着xx合同),数据库在合同要素抽取过程中主要扮演数据存储,存储每个步骤生成的中间文件和记录各个服务的执行状态信息,方便后面排查抽取流程中,各个服务是否有问题。
21.本发明包括以下步骤:
22.在步骤1中,用户上传待处理的pdf文档到数据库后会生成对应的文件id,可以根据文件id在文件服务系统中获取对应的上传文件路径,供给后续流程使用;
23.在步骤2中,会获取步骤1的文档,再以此遍历某一个文档,把每一页转换成图片,将所有图片统一保存在某个文件夹,供给后续流程使用;
24.在步骤3中,对步骤2中的文件夹路径一一遍历,分别调用ocr文字检测和识别模型,返回对应的文本内容和坐标信息。将每页图片的文本内容和坐标信息保存到某一文件夹中,供给后续流程使用。
25.相关的ocr模型介绍如下:
26.1)ocr文字检测模型:使用可微二值化网络(dbnet)模型,模型中创新地加入可微二值化(differentiable binarization),使得能够对待识别的图片中每一个像素点进行自适应二值化,而二值化阈值由网络学习得到,彻底将二值化步骤加入网络中一起训练,这样最终输出图对于阈值会有极高的鲁棒性。
27.2)ocr文字识别模型:使用crnn模型和ctc模型,通过cnn backbone提取图像的特征,然后通过rnn网络提取图像文本序列的特征。而ctc提出一种对不需要对齐的损失函数计算方法,用于训练网络,被广泛应用于文本行识别和语音识别中。
28.在步骤4中,先对收集的文本语料进行打标签(标明哪些是步骤5需要的好文本,和不需要的坏文本),生成训练集和测试集,利用bilstm-softmax模型,自动建模文本句子的nlp表征,学习到好坏文本对应的特征。其次遍历文本文件夹路径,调用提前训练好的bilstm-softmax模型,依次提取出好文本,保存到相应的文件夹中,供给后续流程使用。
29.在步骤5中,先对收集到的文本语料进行打标签(标明哪些是最终需要的合同要素),生成训练集和测试集,然后利用bilstm、crf模型、bert+flat模型,自动建模学习到合同要素对应的特征。其次遍历步骤4中的文本文件夹路径,调用提前训练好的模型,依次提取出合同要素。
30.模型相关介绍如下:
31.1)lstm来源于深度学习经典模型rnn(循环神经网络)。在阅读时,人类能够基于对先前所见到的词语的理解来推断当前词的真实含义,rnn正是模仿了这一点,在处理序列数据时,可以将先前的信息连接到当前任务上,允许信息持久化,特别是对于处理文本序列问
题上有独特优势。lstm(长短记忆网络)是rnn模型的优秀变体,它的关键之处是解决了rnn过度依赖最近的输入序列,而无法有效学习远距离信息的问题,拥有学习长期依赖信息的能力。
32.2)条件随机场(conditionalrandom field,crf)是序列标注目前的主流模型。它的目标函数不仅考虑输入的状态特征函数,而且还包含了标签转移特征函数。在训练时可以使用sgd学习模型参数。在已知模型时,给输入序列求预测输出序列即求使目标函数最大化的最优序列,是一个动态规划问题,可以使用viterbi算法解码来得到最优标签序列。crf的优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息。
33.3)flat模型相比于之前引入词汇信息的中文ner工作,flat主要创新点在于:
34.基于transformer设计了一种巧妙position encoding来融合lattice结构,可以无损的引入词汇信息;
35.基于transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。
36.在步骤6中,经过步骤5中实体识别抽取后,部分抽取的字段不满足现实要求,例如提取出来的甲方公司为“xx公司有几个”,出现了“有几个”特殊字眼,需要添加一些定制化的清洗,将不符合某个实体的字眼剔除掉。同理,针对其他字段可能也会出现相同的字眼,也需要一一剔除。另外,客户需要做字段的映射,也统一在这里做转换,例如,提取出来的字段命名和合同名称,可是客户需要合同名称英文名contractname。
37.本发明的技术效果:借助于自然语言理解,可以通过文本数据的智能解析和理解,将非结构化文本转化为结构化数据;可自动抽取借贷合同字段信息,如合同名称、借贷双方、贷款种类、具体用途、期限、结息方式、担保等合同关键字段。拿其中的合同名称抽取举例子,通过对文本语料中合同名称做标签,然后,将语料划分成训练集和测试集,接着将训练集交给模型去自主学习,训练成功后,最后拿测试集做校验。本发明从设计上采用高内聚,低耦合,上述流程中各个服务彼此之间是相互独立的,同时利用编程框架,数据库等搭建一套完善的抽取流程。本发明具有高可重用性、极强的移植性、高扩展性等特点。
技术特征:
1.一种合同要素抽取方法,包括以下步骤:步骤1、获取待处理的文档;步骤2、预处理服务,对文档进行切图;步骤3、调用ocr服务;步骤4、调用句子分类服务;步骤5、调用命名实体服务;步骤6、调用后处理服务。2.根据权利要求1所述的一种合同要素抽取方法,其特征在于,在步骤1中,用户上传待处理的文档后会生成对应的文件id,根据文件id在文件服务系统中获取对应的上传文件路径,供给后续流程使用。3.根据权利要求2所述的一种合同要素抽取方法,其特征在于,在步骤2中,遍历某一个文档,把每一页转换成图片,将所有图片统一保存在某个文件夹,供给后续流程使用。4.根据权利要求3所述的一种合同要素抽取方法,其特征在于,在步骤3中,对步骤2中的文件夹路径一一遍历,分别调用文字检测模型和文字识别模型,返回对应的文本内容和坐标信息依次保存到统一的文件文件夹路径中。5.根据权利要求4中所述的一种合同要素抽取方法,其特征在于,利用步骤3中获取的文字检测模型和文字识别模型生成的文本文件夹路径,依次将文本输入进bilstm-softmax模型,自动筛选出需要的好文本,将好文本生成放在统一的文件夹,供后续流程使用。6.根据权利要求5中所述的一种合同要素抽取方法,其特征在于,从步骤5中获取到的好文本,通过利用bilstm、crf模型、bert+flat模型,自动抽取出来合同要素。7.根据权利要求6中所述的一种合同要素抽取的方法,其特征在于,经过步骤5中实体识别抽取后,对字段进行定制化清洗。
技术总结
本发明公开了一种合同要素抽取方法,本发明主要包括:1)获取待处理文档;2)预处理服务,对文档进行切图;3)调用OCR服务;4)调用句子分类服务;5)调用命名实体服务;6)调用后处理服务。本发明从设计上采用高内聚,低耦合,上述流程中各个服务彼此之间是相互独立的,同时利用编程框架,数据库等搭建一套完善的抽取流程。本发明具有高可重用性、极强的移植性、高扩展性等特点。性等特点。性等特点。
技术研发人员:金鑫 李鹏辉
受保护的技术使用者:上海犀语科技有限公司
技术研发日:2022.08.01
技术公布日:2023/7/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:调整卡盘形变的系统及装置的制作方法 下一篇:多节串联电池芯的均衡保护电路的制作方法