票据类型识别方法、装置、设备及存储介质与流程

未命名 09-27 阅读:102 评论:0


1.本技术涉及计算机技术领域,尤其涉及一种票据类型识别方法、装置、设备及存储介质。


背景技术:

2.相关技术中,人工审核财务票据耗时耗力,算法识别的分类方案里如果票据类型有新增或删除,则需要重新训练算法模型以及重新部署系统,匹配方案里存在对于易混淆票据类型和复杂票据场景识别准确率不佳的缺点。
3.因此,有必要提供一种票据类型识别方法、装置、设备及存储介质,通过准确提取待识别票据的类型特征,实现票据类型的自动识别,且识别效率、准确率高,降低了票据审核的成本。


技术实现要素:

4.本技术提供了一种票据类型识别方法、装置、设备及存储介质,可以实现票据类型的自动识别,且识别效率、准确率高,降低了票据审核的成本。
5.一方面,本技术提供了一种票据类型识别方法,所述方法包括:
6.获取待识别票据文本和至少两个不同类型的候选票据文本;
7.根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集;
8.根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;
9.基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;
10.将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本。
11.另一方面提供了一种票据类型识别装置,所述装置包括:
12.票据文本获取模块,用于获取待识别票据文本和至少两个不同类型的候选票据文本;
13.待识别类型特征提取模块,用于根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集;
14.候选类型特征提取模块,用于根据所述特征提取模型对所述至少两个不同类型的
候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;
15.目标候选类型特征确定模块,用于基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;
16.类型确定模块,用于将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本。
17.另一方面提供了一种票据类型识别设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的票据类型识别方法。
18.另一方面提供了一种计算机存储介质,所述计算机存储介质存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的票据类型识别方法。
19.另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行以实现如上所述的票据类型识别方法。
20.本技术提供的票据类型识别方法、装置、设备及存储介质,具有如下技术效果:
21.本技术获取待识别票据文本和至少两个不同类型的候选票据文本;根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集;根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本;本技术基于对比学习训练得到票据文本的特征提取模型,再根据特征提取模型分别提取待识别票据文本和已知票据类型的候选票据文本的类型特征,基于两者类型特征的比对,确定待识别票据文本的类型;实现了票据类型的自动识别,且识别效率、准确率高,降低了票据审核的成本。
附图说明
22.为了更清楚地说明本技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
23.图1是本技术实施例提供的一种票据类型识别系统的示意图;
24.图2是本技术实施例提供的一种票据类型识别方法的流程示意图;
25.图3是本技术实施例提供的一种特征提取模型的训练方法的流程示意图;
26.图4是本技术实施例提供的一种确定每个候选票据文本对应的候选类型特征的方
法的流程示意图;
27.图5是本技术实施例提供的确定每个第一候选特征集的候选中心特征的方法的流程示意图;
28.图6是本技术实施例提供的确定每个候选票据文本对应的候选类型特征的方法的流程示意图;
29.图7是本技术实施例提供的确定与所述待识别类型特征匹配的目标候选类型特征的方法的流程示意图;
30.图8是本技术实施例提供的另一种票据类型识别方法的流程示意图;
31.图9是本技术实施例提供的一种票据类型识别装置的结构示意图;
32.图10是本技术实施例提供的一种服务器的结构示意图。
具体实施方式
33.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
34.本技术实施例提供一种票据类型识别方法、装置、设备和存储介质。具体地,本技术实施例的票据类型识别方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。本技术实施例可应用于数据安全、云技术、人工智能、智慧交通等各种场景。
35.首先,在对本技术实施例进行描述的过程中出现的部分名词或者术语作如下解释:
36.智慧交通是在整个交通运输领域充分利用物联网、空间感知、云计算、移动互联网等新一代信息技术,综合运用交通科学、系统方法、人工智能、知识挖掘等理论与工具,以全面感知、深度融合、主动服务、科学决策为目标,通过建设实时的动态信息服务体系,深度挖掘交通运输相关数据,形成问题分析模型,实现行业资源配置优化能力、公共决策能力、行业管理能力、公众服务能力的提升,推动交通运输更安全、更高效、更便捷、更经济、更环保、更舒适的运行和发展,带动交通运输相关产业转型、升级。
37.云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
38.云技术(cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
39.大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关
注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
40.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。
41.机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
42.深度学习(deep learning,dl):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习样本对象特征数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
43.财务票据:一般指用于财务报销的相关票据,包含增值税发票、汽车票、火车票、二手车交易发票等。
44.ocr(optical character recognition):光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
45.文本匹配:通过源文本和目标文本进行匹配,计算得分来评估两者间的相关程度,也可以用来匹配知识库中的类型。
46.对比学习:一种自监督学习方法,目标是学习一个编码器,对同类型正例数据进行相似的编码,而不同类型的负例数据编码结果尽可能的不同。
47.表征编码器(encoder):学习从高维观察到低维表征空间的映射,将不定长的输入序列变换成一个定长上下文变量,从而编码了整个输入序列信息,与之相对应的概念叫解码器(decoder)。
48.tf-idf(term frequency

inverse document frequency):是一种用于信息检索与数据挖掘的常用加权技术。tf是词频,idf是逆文本频率指数,tf-idf是综合了tf和idf评估的一种算法,可用于做关键词提取。
49.lda(latent dirichlet allocation):lda算法是一种无监督的机器学习模型,用来推测文档的主题分布,它可以将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题分布后,便可以根据主题分布进行主题聚类或主题关键词提取等。
50.预训练模型:预训练模型是自然语言处理领域学习分布式表征的重要途径之一,通过大规模语料以自监督学习目标进行训练能够学习到通用的语言表征,应用于下游任务具有较好的泛化能力。
51.相关技术中,如果票据类型有新增或删除,根据票据类型识别算法,需要重新训练票据类型识别模型,耗时且影响票据的识别速度;本技术通过特征提取模型快速提取类型特征,并根据新增票据的类型特征对待识别票据进行类型识别,从而避免了模型的重新训练所耗费的资源和时间,提高了待识别票据的识别效率。
52.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
53.请参阅图1,图1是本技术实施例提供的一种票据类型识别系统的示意图,如图1所示,该票据类型识别系统可以至少包括服务器01和客户端02。
54.具体的,本技术实施例中,所述服务器01可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器01可以用于获取待识别票据文本和至少两个不同类型的候选票据文本;根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;以及将目标候选票据文本对应的类型确定为所述待识别票据文本的类型。
55.具体的,本技术实施例中,所述客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、智能音箱、车载终端、智能电视等类型的实体设备,也可以包括运行于实体设备中的软体,例如一些服务商提供给用户的网页页面,也可以为该些服务商提供给用户的应用。具体的,所述客户端02可以用于在线查询待识别票据文本的类型。
56.以下介绍本技术的一种票据类型识别方法,图2是本技术实施例提供的一种票据类型识别方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
57.s201:获取待识别票据文本和至少两个不同类型的候选票据文本。
58.在本技术实施例中,所述获取待识别票据文本和至少两个不同类型的候选票据文本之前,所述方法还可以包括:
59.获取待识别票据图像和至少两个不同类型的候选票据图像。
60.具体的,在本技术实施例中,可以对待识别票据图像进行文本检测,得到待识别票据文本;对每个候选票据图像进行文本检测,得到候选票据文本。其中,对票据图像进行文本检测时,可以使用光学字符识别(optical character recognition,ocr)技术进行检测。票据图像可以包括但不限于电子设备拍摄图、扫描件、截图等。
61.s203:根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集。
62.在本技术实施例中,特征提取模型可以为票据文本的表征编码器,通过表征编码器得到的类型特征可以为类型向量。待识别类型特征可以用于确定待识别票据的类型。
63.在本技术实施例中,除了对比学习的目标外,可以增加其他自监督学习目标,票据样本正例的构造方式,也可以采用其他数据增强方法,如输入词组(token)词序扰乱、嵌入(embedding)矩阵元素随机置零、dropout机制等。dropout可以作为训练深度神经网络的一种调参术(trick)供选择。在每个训练批次中,通过忽略一半的特征检测器(让一半的隐层节点值为0),可以明显地减少过拟合现象。这种方式可以减少特征检测器(隐层节点)间的相互作用,检测器相互作用是指某些检测器依赖其他检测器才能发挥作用。在前向传播的时候,让某个神经元的激活值以一定的概率停止工作,这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。这样可以进一步提高特征提取模型的准确率,使模型的鲁棒性更好,防止过拟合。
64.在一些实施例中,所述根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征,可以包括:
65.根据特征提取模型对待识别票据文本集中每个待识别票据文本进行类型特征提取,得到每个待识别票据文本的待识别特征;
66.在本技术实施例中,待识别票据文本集中可以包括至少两个待识别票据文本,这两个待识别票据文本可以为一个待识别票据图像对应的两个文本,例如;可以将待识别票据图像解析成多个待识别票据文本;也可以根据同一待识别票据对应的多个待识别票据图像,检测出对应的多个待识别票据文本。
67.根据聚类算法对待识别票据文本集中各个待识别票据文本进行聚类处理,确定所述待识别票据文本集的待识别中心特征;
68.在本技术实施例中,聚类算法可以包括但不限于k-means(k均值)聚类算法、均值漂移聚类算法、基于密度的聚类方法(dbscan)、用高斯混合模型(gmm)的最大期望(em)聚类算法、凝聚层次聚类、图团体检测(graph community detection)算法等。
69.将所述待识别中心特征作为所述待识别类型特征。
70.在本技术实施例中,待识别中心特征可以更准确地表征待识别票据文本集,从而可以提高确定待识别票据文本集的类型的准确率。
71.在一些实施例中,所述根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征,可以包括:
72.将所述待识别票据文本输入特征提取模型进行类型特征提取,得到第一待识别特
征;
73.确定所述待识别票据文本对应的待识别目标数据,所述待识别目标数据包括所述待识别票据文本对应的标题、关键词中的至少一个;
74.在本技术实施例中,可以通过人工构建待识别票据文本对应的待识别目标数据,或者基于tf-idf、lda主题模型等关键词提取算法,提取所述待识别票据文本对应的待识别目标数据;待识别目标数据可以为一个或多个关键词。
75.在本技术实施例中,对于火车票票据,其对应的关键词可以包括:二等座、硬座等;对于汽车票票据,其对应的关键词可以包括:客运、汽车等。
76.将所述待识别目标数据输入特征提取模型进行类型特征提取,得到第二待识别特征;
77.在本技术实施例中,若待识别目标数据为多个,则将待识别目标数据构成的集合输入特征提取模型中进行类型特征提取,得到第二待识别特征。
78.在本技术实施例中,若待识别票据文本为多个,且每个待识别票据文本对应一个待识别目标数据集,则可以将每个待识别目标数据集输入特征提取模型,得到每个待识别目标数据集对应的第二待识别特征,构成第二待识别特征集;再通过聚类算法确定第二待识别特征集的待识别中心特征;得到的待识别中心特征能够更准确地表征第二待识别特征集的类型,从而提高待识别票据的票据类型识别准确率。
79.根据所述第一待识别特征以及所述第二待识别特征,确定所述待识别类型特征。
80.在本技术实施例中,所述根据所述第一待识别特征以及所述第二待识别特征,确定所述待识别类型特征可以包括:
81.根据所述待识别中心特征以及所述第二待识别特征,确定所述待识别类型特征。
82.在本技术实施例中,所述根据所述第一待识别特征以及所述第二待识别特征,确定所述待识别类型特征可以包括:
83.根据第一待识别特征集对应的待识别中心特征以及所述第二待识别特征对应的待识别中心特征,确定所述待识别类型特征。
84.在本技术实施例中,可以将两种待识别中心特征进行加权求平均得到待识别类型特征;通过确定的待识别中心特征来确定待识别类型特征,从而提高待识别类型特征的表征准确率,提高待识别票据文本的识别准确率。
85.在一些实施例中,在确定出待识别中心特征之后,还可以根据该特征确定特征集中的离群点,再将离群点从特征集中筛除,得到更新的特征集,从而再次确定出更新的待识别中心特征,根据更新的待识别中心特征,可以得到更准确的待识别类型特征。
86.在一些实施例中,所述方法还包括:
87.根据所述待识别票据文本集的待识别中心特征,确定所述待识别票据文本集的离群点;
88.在本技术实施例中,离群点可以包括通过模糊待识别票据图像识别出的错误待识别票据文本以及与待识别中心特征差距较大的票据文本。这些文本会引起较大的误差,因此需要将其从文本集中剔除,从而能够提高更新的待识别类型特征的准确率。
89.从所述待识别票据文本集中删除所述离群点,得到更新的待识别票据文本集;
90.确定所述更新的待识别票据文本集的更新待识别中心特征。
91.在一些实施例中,还可以根据类似的方法更新待识别目标数据集的待识别中心特征。
92.在一些实施例中,所述根据所述待识别中心特征以及所述第二待识别特征,确定所述待识别类型特征可以包括:
93.根据所述更新待识别中心特征以及所述第二待识别特征,确定所述待识别类型特征。
94.在本技术实施例中,如图3所示,所述特征提取模型的训练方法包括:
95.s301:获取样本票据文本集,所述样本票据文本集包括所述正样本票据文本集和所述负样本票据文本集;所述样本票据文本集中每个样本票据文本均标注了类型特征标签;
96.s303:基于所述正样本票据文本集和所述负样本票据文本集,对所述预训练模型进行类型特征提取的对比学习训练;以调整所述预训练模型的模型参数,至所述预训练模型输出的每个样本票据文本的类型特征标签与标注的类型特征标签相匹配;
97.在本技术实施例中,通过对比学习训练,可以使正样本票据文本集中正样本票据文本之间的特征更相似、使负样本票据文本集中负样本票据文本之间的特征更相似,同时使正样本票据文本与负样本票据文本之间的特征差距更大;从而保证训练得到的特征提取模型的准确率更高。
98.在本技术实施例中,预训练模型可以包括但不限于bert、roberta、albert等。bert的全称为bidirectional encoder representation from transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(mlm),以致能生成深度的双向语言表征。roberta(a robustly optimized bert pretraining approach)主要是在bert基础上做了几点调整:1)训练时间更长,批尺寸(batch size)更大,训练数据更多;2)取消nsp(next sentence predict)任务;3)训练序列更长;4)动态调整掩码(masking)机制。相比于bert,albert(a lite bert for self-supervised learning of language representations)增大了隐藏尺寸(hidden size),即每一层嵌入(embeddings)的特征数。
99.在本技术实施例中,模型的目标函数可以为:
[0100][0101]
其中,sim是指相似度函数,通常采用余弦相似度,hi+是指hi样本的正例,hj-是指hj样本的负例,参数τ是温度超参,用来控制负例难度的影响,将模型更新重点聚焦在有难度的负例,τ超参的取值需要从鼓励统一性(uniformity)和容忍潜在正例误判为负例之间寻找一个平衡点。该目标函数的学习目的是为了使表征编码器能够将编码后的正例样本距离比较近,负例样本距离比较远。
[0102]
s305:将输出的每个样本票据文本的类型特征标签与标注的类型特征标签相匹配时的模型参数所对应的预训练模型,作为所述特征提取模型。
[0103]
在本技术实施例中,训练得到的特征提取模型为一种表征编码器,可以用于将票
据文本转化成表征类型特征的向量。
[0104]
s205:根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征。
[0105]
在本技术实施例中,如图4所示,所述根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征,包括:
[0106]
s2051:将所述至少两个不同类型的候选票据文本输入所述特征提取模型,得到每个候选票据文本对应的第一候选特征;
[0107]
在本技术实施例中,候选票据文本为已知票据类型的文本,票据类型可以包括但不限于火车票、汽车票、餐饮发票、住宿发票等。可以预先获取各种不同类型的候选票据文本,每种类型可以对应一个候选票据文本;再通过特征提取模型提取每个候选票据文本对应的第一候选特征。
[0108]
在本技术实施例中,如图5所示,每种类型的候选票据文本为至少两个,所述将所述至少两个不同类型的候选票据文本输入所述特征提取模型,得到每个候选票据文本对应的第一候选特征,包括:
[0109]
s205101:基于同一类型的至少两个候选票据文本,构建候选票据文本集;
[0110]
在一些实施例中,可以获取同一类型的多个候选票据文本,从而得到多种类型的候选票据文本集,每个候选票据文本集中候选票据文本对应同一类型;从而可以根据各个候选票据文本集确定各种候选类型特征。
[0111]
s205103:将每个候选票据文本集输入所述特征提取模型,得到每个候选票据文本集对应的第一候选特征集;
[0112]
在本技术实施例中,可以将候选票据文本集中每个候选票据文本分别输入特征提取模型,得到每个候选票据文本的候选特征,从而构建候选票据文本集对应的第一候选特征集。
[0113]
s205105:根据聚类算法,确定每个第一候选特征集的候选中心特征。
[0114]
在本技术实施例中,可以直接将每个第一候选特征集的候选中心特征作为每个第一候选特征集的候选类型特征;也可以根据每个第一候选特征集的候选中心特征进一步确定出每个第一候选特征集的候选类型特征。聚类算法可以包括但不限于k-means(k均值)聚类算法、均值漂移聚类算法、基于密度的聚类方法(dbscan)、用高斯混合模型(gmm)的最大期望(em)聚类算法、凝聚层次聚类、图团体检测(graph community detection)算法等。
[0115]
在一些实施例中,还可以根据每个第一候选特征集的候选中心特征,确定出每个第一候选特征集的离群点,从而进行特征筛选,提高候选类型特征的准确率。
[0116]
在本技术实施例中,所述根据聚类算法,确定每个第一候选特征集的候选中心特征之后,所述方法还包括:
[0117]
根据每个第一候选特征集的候选中心特征,筛选出每个第一候选特征集中的离群点;
[0118]
在本技术实施例中,第一候选特征集中的离群点为与第一候选特征集的候选中心特征距离较远的特征。
[0119]
从每个第一候选特征集中删除所述每个第一候选特征集对应的离群点,得到所述
每个第一候选特征集的第一更新候选特征集;
[0120]
确定每个第一更新候选特征集对应的更新候选中心特征。
[0121]
在本技术实施例中,通过删除第一候选特征集中的离群点,可以提高更新候选中心特征的准确率,从而提高待识别票据文本的票据类型识别准确率。
[0122]
在一些实施例中,还可以通过类似方法确定并更新第二候选特征集的候选中心特征。
[0123]
s2053:确定每个候选票据文本对应的候选目标数据;所述候选目标数据包括所述候选票据文本对应的标题、关键词中的至少一个;
[0124]
在本技术实施例中,每个候选票据文本对应的候选目标数据可以为一个或多个。
[0125]
s2055:将每个候选目标数据输入所述特征提取模型,得到每个候选票据文本对应的第二候选特征;
[0126]
在本技术实施例中,可以通过特征提取模型得到每个候选票据文本对应的标题特征向量或关键词特征向量。
[0127]
s2057:根据每个候选票据文本对应的第一候选特征以及第二候选特征,确定每个候选票据文本对应的候选类型特征。
[0128]
在本技术实施例中,如图6所示,所述根据每个候选票据文本对应的第一候选特征以及第二候选特征,确定每个候选票据文本对应的候选类型特征,包括:
[0129]
s20571:确定所述第一候选特征的第一权重以及所述第二候选特征的第二权重;
[0130]
在本技术实施例中,可以根据实际情况设置第一权重、第二权重的数值。
[0131]
s20573:计算每个第一候选特征与所述第一权重的乘积,得到第一类型特征;
[0132]
s20575:计算每个第二候选特征与所述第二权重的乘积,得到第二类型特征;
[0133]
s20577:将每个候选票据文本对应的第一类型特征与第二类型特征的平均值,作为每个候选票据文本对应的候选类型特征。
[0134]
在本技术实施例中,可以将每个候选票据文本对应的第一候选特征与第二候选特征的加权平均结果作为每个候选票据文本对应的候选类型特征,从而提高候选类型特征的准确率。
[0135]
在本技术实施例中,在确定出每个候选票据文本集对应的候选中心特征之后,所述根据每个候选票据文本对应的第一候选特征以及第二候选特征,确定每个候选票据文本对应的候选类型特征,包括:
[0136]
根据每个候选票据文本集对应的候选中心特征以及第二候选特征,确定每个候选票据文本集对应的候选类型特征。
[0137]
在本技术实施例中,在确定出每个候选票据文本集对应的更新候选中心特征之后,所述根据每个候选票据文本集对应的候选中心特征以及第二候选特征,确定每个候选票据文本集对应的候选类型特征,包括:
[0138]
根据每个候选票据文本集对应的更新候选中心特征以及第二候选特征,确定每个候选票据文本集对应的候选类型特征。
[0139]
s207:基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征。
[0140]
在本技术实施例中,可以通过计算待识别类型特征与每个候选类型特征之间的相
似度或距离,来确定目标候选类型特征。
[0141]
在本技术实施例中,如图7所示,所述基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征,包括:
[0142]
s2071:计算所述待识别类型特征与每个候选类型特征之间的相似度,得到每个候选类型特征对应的相似度结果;
[0143]
在本技术实施例中,可以计算待识别类型特征与每个候选类型特征之间的余弦相似度,得到每个候选类型特征对应的相似度结果。
[0144]
s2073:根据所述每个候选类型特征对应的相似度结果,对各个候选类型特征进行排序;
[0145]
在本技术实施例中,可以根据相似度结果由大到小或由小到大对各个候选类型特征进行排序。
[0146]
s2075:根据排序结果,确定与所述待识别类型特征匹配的目标候选类型特征。
[0147]
在本技术实施例中,可以将相似度最大的候选类型特征作为目标候选类型特征。
[0148]
在本技术实施例中,可以通过大数据获取候选票据图像,从而进一步确定候选票据文本,得到候选类型,并计算待识别类型特征与候选类型特征之间的相似度。
[0149]
s209:将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本。
[0150]
在本技术实施例中,在确定出目标候选类型特征之后,可以确定目标候选类型特征对应的候选票据文本,由于候选票据文本为已知类型,因此可以将候选票据文本对应的类型确定为待识别票据文本的类型。
[0151]
在一个具体的实施例中,如图8所示,图8为一种票据类型识别方法的流程示意图,包括:
[0152]
s801:基于对比学习训练得到票据匹配模型;
[0153]
s803:根据票据样本生成每类票据的向量中心;
[0154]
s805:通过人工构造、tf-idf或lda等方法构造类型关键词集合;
[0155]
s807:根据去除离群点以及关键词向量做微调,得到优化的票据向量中心,并确定票据类型向量;
[0156]
s809:获取待识别票据图片;
[0157]
s8011:根据待识别票据图片,识别ocr文本;
[0158]
s8013:根据ocr文本,生成待识别票据文本向量;
[0159]
s8015:将待识别票据文本向量与多个票据类型向量进行匹配,预测待识别票据图片的票据类型。
[0160]
本实施例可根据财务票据图片自动识别财务票据的类型,既可对于易混淆票据类型、复杂票据场景(如票据样式、文本多样化)也有很好的识别准确率,同时因为采用匹配方案线上部署后对于票据类型的新增或删除无需重新训练部署。因为采用了对比学习训练,且对匹配的类型向量中心采用了去除离群点和结合类型关键词两种策略优化匹配效果,相比于传统基于交互或表示的匹配方案,往往拥有更好的匹配效果,可以高效便捷的服务于财务票据审核场景,也可以服务于财务票据的信息抽取场景,能够有效降低人工审核成本,提升审核效率,实现财务办公智能化。如果票据类型有新增或删除,根据相关的票据类型识
别算法,需要重新训练票据类型识别模型,耗时且影响票据的识别速度;本技术通过特征提取模型快速提取类型特征,并根据新增票据的类型特征对待识别票据进行类型识别,从而避免了模型的重新训练所耗费的资源,提高了待识别票据的识别效率。
[0161]
由以上本技术实施例提供的技术方案可见,本技术实施例获取待识别票据文本和至少两个不同类型的候选票据文本;根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集;根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本;本技术基于对比学习训练得到票据文本的特征提取模型,再根据特征提取模型分别提取待识别票据文本和已知票据类型的候选票据文本的类型特征,基于两者类型特征的比对,确定待识别票据文本的类型;实现了票据类型的自动识别,且识别效率、准确率高,降低了人工审核票据的成本。
[0162]
本技术实施例还提供了一种票据类型识别装置,如图9所示,所述装置包括:
[0163]
票据文本获取模块910,用于获取待识别票据文本和至少两个不同类型的候选票据文本;
[0164]
待识别类型特征提取模块920,用于根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集;
[0165]
候选类型特征提取模块930,用于根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;
[0166]
目标候选类型特征确定模块940,用于基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;
[0167]
类型确定模块950,用于将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本。
[0168]
在一些实施例中,所述候选类型特征提取模块可以包括:
[0169]
第一候选特征确定子模块,用于将所述至少两个不同类型的候选票据文本输入所述特征提取模型,得到每个候选票据文本对应的第一候选特征;
[0170]
候选目标数据确定子模块,用于确定每个候选票据文本对应的候选目标数据;所述候选目标数据包括所述候选票据文本对应的标题、关键词中的至少一个;
[0171]
第二候选特征确定子模块,用于将每个候选目标数据输入所述特征提取模型,得到每个候选票据文本对应的第二候选特征;
[0172]
候选类型特征确定子模块,用于根据每个候选票据文本对应的第一候选特征以及第二候选特征,确定每个候选票据文本对应的候选类型特征。
[0173]
在一些实施例中,所述候选类型特征确定子模块可以包括:
[0174]
权重确定单元,用于确定所述第一候选特征的第一权重以及所述第二候选特征的第二权重;
[0175]
第一类型特征确定单元,用于计算每个第一候选特征与所述第一权重的乘积,得到第一类型特征;
[0176]
第二类型特征确定单元,用于计算每个第二候选特征与所述第二权重的乘积,得到第二类型特征;
[0177]
候选类型特征确定单元,用于将每个候选票据文本对应的第一类型特征与第二类型特征的平均值,作为每个候选票据文本对应的候选类型特征。
[0178]
在一些实施例中,每种类型的候选票据文本为至少两个,所述第一候选特征确定子模块可以包括:
[0179]
候选票据文本集构建单元,用于基于同一类型的至少两个候选票据文本,构建候选票据文本集;
[0180]
第一候选特征集确定单元,用于将每个候选票据文本集输入所述特征提取模型,得到每个候选票据文本集对应的第一候选特征集;
[0181]
候选中心特征确定单元,用于根据聚类算法,确定每个第一候选特征集的候选中心特征。
[0182]
在一些实施例中,所述候选类型特征确定子模块包括:
[0183]
候选类型特征确定单元,用于根据每个候选票据文本集对应的候选中心特征以及第二候选特征,确定每个候选票据文本集对应的候选类型特征。
[0184]
在一些实施例中,所述候选中心特征确定单元可以包括:
[0185]
离群点筛选子单元,用于根据每个第一候选特征集的候选中心特征,筛选出每个第一候选特征集中的离群点;
[0186]
第一更新候选特征集确定子单元,用于从每个第一候选特征集中删除所述每个第一候选特征集对应的离群点,得到所述每个第一候选特征集的第一更新候选特征集;
[0187]
更新候选中心特征确定子单元,用于确定每个第一更新候选特征集对应的更新候选中心特征;
[0188]
在一些实施例中,所述候选类型特征确定单元可以包括:
[0189]
候选类型特征确定子单元,用于根据每个候选票据文本集对应的更新候选中心特征以及第二候选特征,确定每个候选票据文本集对应的候选类型特征。
[0190]
在一些实施例中,所述装置还可以包括:
[0191]
样本票据文本集获取模块,用于获取样本票据文本集,所述样本票据文本集包括所述正样本票据文本集和所述负样本票据文本集;所述样本票据文本集中每个样本票据文本均标注了类型特征标签;
[0192]
训练模块,用于基于所述正样本票据文本集和所述负样本票据文本集,对所述预训练模型进行类型特征提取的对比学习训练;以调整所述预训练模型的模型参数,至所述预训练模型输出的每个样本票据文本的类型特征标签与标注的类型特征标签相匹配;
[0193]
特征提取模型确定模块,用于将输出的每个样本票据文本的类型特征标签与标注的类型特征标签相匹配时的模型参数所对应的预训练模型,作为所述特征提取模型。
[0194]
在一些实施例中,所述目标候选类型特征确定模块可以包括:
[0195]
相似度计算子模块,用于计算所述待识别类型特征与每个候选类型特征之间的相似度,得到每个候选类型特征对应的相似度结果;
[0196]
排序子模块,用于根据所述每个候选类型特征对应的相似度结果,对各个候选类型特征进行排序;
[0197]
目标候选类型特征确定子模块,用于根据排序结果,确定与所述待识别类型特征匹配的目标候选类型特征。
[0198]
所述的装置实施例中的装置与方法实施例基于同样地发明构思。
[0199]
本技术实施例提供了一种票据类型识别设备,该设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的票据类型识别方法。
[0200]
本技术的实施例还提供了一种计算机存储介质,所述存储介质可设置于终端之中以保存用于实现方法实施例中一种票据类型识别方法相关的至少一条指令或至少一段程序,该至少一条指令或至少一段程序由该处理器加载并执行以实现上述方法实施例提供的票据类型识别方法。
[0201]
本技术的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行以实现上述方法实施例提供的票据类型识别方法。
[0202]
可选地,在本技术实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0203]
本技术实施例所述存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
[0204]
本技术实施例所提供的票据类型识别方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图10是本技术实施例提供的一种票据类型识别方法的服务器的硬件结构框图。如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,cpu)1010(中央处理器1010可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器
1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如windows servertm,mac os xtm,unixtm,linuxtm,freebsdtm等等。
[0205]
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
[0206]
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
[0207]
由上述本技术提供的票据类型识别方法、装置、设备或存储介质的实施例可见,本技术获取待识别票据文本和至少两个不同类型的候选票据文本;根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集;根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本;本技术基于对比学习训练得到票据文本的特征提取模型,再根据特征提取模型分别提取待识别票据文本和已知票据类型的候选票据文本的类型特征,基于两者类型特征的比对,确定待识别票据文本的类型;实现了票据类型的自动识别,且识别效率、准确率高,降低了人工审核票据的成本。
[0208]
需要说明的是:上述本技术实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0209]
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0210]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0211]
以上所述仅为本技术的较佳实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种票据类型识别方法,其特征在于,所述方法包括:获取待识别票据文本和至少两个不同类型的候选票据文本;根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集;根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本。2.根据权利要求1所述的方法,其特征在于,所述根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征,包括:将所述至少两个不同类型的候选票据文本输入所述特征提取模型,得到每个候选票据文本对应的第一候选特征;确定每个候选票据文本对应的候选目标数据;所述候选目标数据包括所述候选票据文本对应的标题、关键词中的至少一个;将每个候选目标数据输入所述特征提取模型,得到每个候选票据文本对应的第二候选特征;根据每个候选票据文本对应的第一候选特征以及第二候选特征,确定每个候选票据文本对应的候选类型特征。3.根据权利要求2所述的方法,其特征在于,所述根据每个候选票据文本对应的第一候选特征以及第二候选特征,确定每个候选票据文本对应的候选类型特征,包括:确定所述第一候选特征的第一权重以及所述第二候选特征的第二权重;计算每个第一候选特征与所述第一权重的乘积,得到第一类型特征;计算每个第二候选特征与所述第二权重的乘积,得到第二类型特征;将每个候选票据文本对应的第一类型特征与第二类型特征的平均值,作为每个候选票据文本对应的候选类型特征。4.根据权利要求2所述的方法,其特征在于,每种类型的候选票据文本为至少两个,所述将所述至少两个不同类型的候选票据文本输入所述特征提取模型,得到每个候选票据文本对应的第一候选特征,包括:基于同一类型的至少两个候选票据文本,构建候选票据文本集;将每个候选票据文本集输入所述特征提取模型,得到每个候选票据文本集对应的第一候选特征集;根据聚类算法,确定每个第一候选特征集的候选中心特征;所述根据每个候选票据文本对应的第一候选特征以及第二候选特征,确定每个候选票据文本对应的候选类型特征,包括:
根据每个候选票据文本集对应的候选中心特征以及第二候选特征,确定每个候选票据文本集对应的候选类型特征。5.根据权利要求4所述的方法,其特征在于,所述根据聚类算法,确定每个第一候选特征集的候选中心特征之后,所述方法还包括:根据每个第一候选特征集的候选中心特征,筛选出每个第一候选特征集中的离群点;从每个第一候选特征集中删除所述每个第一候选特征集对应的离群点,得到所述每个第一候选特征集的第一更新候选特征集;确定每个第一更新候选特征集对应的更新候选中心特征;所述根据每个候选票据文本集对应的候选中心特征以及第二候选特征,确定每个候选票据文本集对应的候选类型特征,包括:根据每个候选票据文本集对应的更新候选中心特征以及第二候选特征,确定每个候选票据文本集对应的候选类型特征。6.根据权利要求1-5任一所述的方法,其特征在于,所述特征提取模型的训练方法包括:获取样本票据文本集,所述样本票据文本集包括所述正样本票据文本集和所述负样本票据文本集;所述样本票据文本集中每个样本票据文本均标注了类型特征标签;基于所述正样本票据文本集和所述负样本票据文本集,对所述预训练模型进行类型特征提取的对比学习训练;以调整所述预训练模型的模型参数,至所述预训练模型输出的每个样本票据文本的类型特征标签与标注的类型特征标签相匹配;将输出的每个样本票据文本的类型特征标签与标注的类型特征标签相匹配时的模型参数所对应的预训练模型,作为所述特征提取模型。7.根据权利要求1-5任一所述的方法,其特征在于,所述基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征,包括:计算所述待识别类型特征与每个候选类型特征之间的相似度,得到每个候选类型特征对应的相似度结果;根据所述每个候选类型特征对应的相似度结果,对各个候选类型特征进行排序;根据排序结果,确定与所述待识别类型特征匹配的目标候选类型特征。8.一种票据类型识别装置,其特征在于,所述装置包括:票据文本获取模块,用于获取待识别票据文本和至少两个不同类型的候选票据文本;待识别类型特征提取模块,用于根据特征提取模型对所述待识别票据文本进行类型特征提取,得到待识别类型特征;所述特征提取模型基于正样本票据文本集以及负样本票据文本集对预训练模型进行对比学习训练得到;所述正样本票据文本集中正样本票据文本对应同一类型特征标签;所述负样本票据文本集中负样本票据文本的类型特征标签不同于所述正样本票据文本集;候选类型特征提取模块,用于根据所述特征提取模型对所述至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;目标候选类型特征确定模块,用于基于所述待识别类型特征与每个候选类型特征之间的比对结果,确定与所述待识别类型特征匹配的目标候选类型特征;
类型确定模块,用于将目标候选票据文本对应的类型确定为所述待识别票据文本的类型,所述目标候选票据文本为所述目标候选类型特征对应的候选票据文本。9.一种票据类型识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7任一所述的票据类型识别方法。10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的票据类型识别方法。11.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1-7任一所述的票据类型识别方法。

技术总结
本申请公开了一种票据类型识别方法、装置、设备及存储介质,可以应用于云技术、人工智能、智慧交通、车联网等各种场景,该方法包括:获取待识别票据文本和至少两个不同类型的候选票据文本;根据特征提取模型对待识别票据文本进行类型特征提取,得到待识别类型特征;根据特征提取模型对至少两个不同类型的候选票据文本进行类型特征提取,得到每个候选票据文本对应的候选类型特征;基于待识别类型特征与每个候选类型特征之间的比对结果,确定与待识别类型特征匹配的目标候选类型特征;将目标候选票据文本对应的类型确定为待识别票据文本的类型。本申请实现了票据类型的自动识别,且识别效率、准确率高,降低了人工审核票据的成本。本。本。


技术研发人员:蔡捷 苏晨
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.03.10
技术公布日:2023/9/23
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐