一种基于多模型融合的可疑电子票据预测方法与流程
未命名
09-15
阅读:77
评论:0

1.本发明涉及数据处理技术领域,具体为一种基于多模型融合的可疑电子票据预测方法。
背景技术:
2.在现有的财政系统中,只能通过设置固定规则来扫描可疑的电子票据,比如规则:行政事业单位往来资金结算票据的备注中包含“捐赠”、“会费”、“非税”等关键词,这种方式有以下几个不足:规则设置的工作量较大,设置的合理性受限于操作员的经验,可能出现设置错误;规则的覆盖率、命中率可能不足,导致很多可疑数据未被扫描发现;规则的准确率可能较低,导致出现大量的可疑数据,加大了财政用户复核的工作量,违背了智能核销的初衷;规则的表达是机械式的、确定性的,无法表达备注信息中相同的语义,而智能模型可以对相近的语义进行模型匹配。
3.在现有技术cn111695908a一种票据业务风险的预测方法及装置中,公开了一种通过待预测企业的票据业务风险预测数据获取票据业务风险特征,再通过风险特征训练预测模型来预测票据业务风险;在公开的方法中,未对待预测企业的票据业务风险预测数据进行预处理,可能存在错误或者重复的数据信息,且使用单一的简单预测模型对预测结果的判断不够准确。
技术实现要素:
4.为了解决上述现有技术中存在的问题,本发明提出了一种基于多模型融合的可疑电子票据预测方法。
5.本发明的技术方案如下:
6.一方面,本发明提出一种基于多模型融合的可疑电子票据预测方法,具体步骤包括:
7.采集有效的电子票据生成有效的电子票据数据集,并根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集;
8.通过数据增强方法增加可疑电子票据数据集的数据量;再使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词,并通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量;
9.获取若干个特征参数,每个特征参数为有效的电子票据备注信息词向量,并对各个特征参数添加可疑票据或非疑票据标签,形成训练样本集;
10.搭建多模型融合的可疑电子票据预测模型,所述多模型融合包括若干子预测模型,将有效的电子票据备注信息词向量作为可疑电子票据预测模型的输入,分别输入到各子预测模型中,输出预测结果,以预测结果和输入的有效的电子票据标签之间的区别最小为目标分别进行子预测模型的迭代训练,结束迭代输出多个最佳预测结果,遵循少数服从多数的原则选择数量较多的预测结果作为最终的预测结果,完成可疑电子票据预测模型搭
建。
11.作为优选实施方式,所述有效的电子票据为含有备注信息且备注信息长度大于等于预设范围的电子票据。
12.作为优选实施方式,所述步骤根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集的具体方法包括:
13.将票据项目出现篡改的电子票据标记为可疑电子票据;
14.将电子票据的备注信息中使用违规关键词的电子票据标记可疑电子票据;
15.将人工审核存在异常的电子票据标记为可疑电子票据;
16.将除可疑电子票据以外的剩余电子票据全部标记为非疑电子票据;
17.所有的可疑电子票据构成可疑电子票据数据集,所有的非疑电子票据构成非疑电子票据数据集。
18.作为优选实施方式,所述扩充方法包括回译、近义词代替和笛卡尔集。
19.作为优选实施方式,所述使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词步骤的具体方法为:
20.使用结巴中文分词将备注信息的短剧划分成单词列表,剔除单词列表中的停用词,完成分词;其中,所述停用词包括语气助词、副词、介词、连接词、标点符号和地区名称;所述地区名称采集于各省财政系统设置的全省区划信息。
21.作为优选实施方式,所述步骤通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量的具体方法为:
22.统计所有电子票据的备注信息中各单词出现的次数;
23.计算各单词的词频tf,具体公式如下:
24.词频tf=选定单词在电子票据备注中出现的次数/电子票据备注总词数;
25.计算各单词逆文档频率idf,具体公式如下:
26.逆文档频率idf=log(电子票据备注总条数/(包含选定单词的电子票据备注条数+1));
27.计算各单词的词向量tf-idf,具体公式如下:
28.词向量tf-idf=词频tf
×
逆文档频率idf。
29.作为优选实施方式,所述若干个子预测模型包括支持向量机模型、梯度提升树模型、随机森林模型、线性回归模型和岭回归模型。
30.另一方面,本发明提出一种基于多模型融合的可疑电子票据预测系统,包括:
31.数据采集分类模块,采集有效的电子票据生成有效的电子票据数据集,并根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集;
32.数据分析处理模块,通过数据增强方法增加可疑电子票据数据集的数据量;再使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词,并通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量;
33.特征参数获取模块,获取若干个特征参数,每个特征参数为有效的电子票据备注信息词向量,并对各个特征参数添加可疑票据或非疑票据标签,形成训练样本集;
34.可疑电子票据预测模块,搭建若干子模型融合的可疑电子票据预测模型,将有效的电子票据备注信息词向量作为可疑电子票据预测模型的输入,分别输入到各子预测模型
中,输出预测结果,以预测结果和输入的有效的电子票据标签之间的区别最小为目标分别进行子预测模型的迭代训练,结束迭代输出多个最佳预测结果,遵循少数服从多数的原则选择数量较多的预测结果作为最终的预测结果,完成可疑电子票据预测模型搭建。
35.另一方面,本发明提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明任一实施例所述的一种基于多模型融合的可疑电子票据预测方法。
36.另一方面,本发明提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任一实施例所述的一种基于多模型融合的可疑电子票据预测方法。
37.本发明具有如下有益效果:
38.1、本发明从所有的电子票据中采集出含有备注信息的有效电子票据,减少了整个模型的训练和调试时间。
39.2、本发明通过对可疑电子票据数据集做数据增强,使得可疑电子票据与非疑电子票据的数量接近,提升了整个模型的鲁棒性和泛化能力。
40.3、本发明通过结巴中文分词和if-idf算法对数据进行预处理,提高了后续模型训练与调试的质量。
41.4、本发明通过内置的多个预测模型对电子票据的备注信息进行预判,并通过投票的方式选择出得票数最高的预测结果,提高了模型的准确率和最终的预测能力。
42.5、通过本发明可以辅助财政系统提高电子票据中的可疑票据的识辨率,提高电子票据的智能核销业务水平。
附图说明
43.图1为本发明的流程图;
44.图2为可疑电子票据预测模型系统结构图。
具体实施方式
45.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
46.应当理解,文中所使用的步骤编号仅是为了方便描述,不对作为对步骤执行先后顺序的限定。
47.应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
48.术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
49.术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
50.实施例一:
51.参见图1,一种基于多模型融合的可疑电子票据预测方法,具体步骤包括:
52.采集有效的电子票据生成有效的电子票据数据集,并根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集;
53.具体实施时,采集含有备注信息且备注信息长度一般大于等于两个汉字的电子票据作为有效票据,通过实际采集,提取到的有效票据占票据总数的48%,且提取到的票据包含以下种类:
54.非税收入统一票据(简称:非税票);
55.行政事业单位资金往来结算票据(简称:往来票);
56.公益事业捐赠统一票据(简称:捐赠票);
57.社会团体会费统一票据(简称:社团票)。
58.通过数据增强方法增加可疑电子票据数据集的数据量;再使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词,并通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量;
59.具体实施时,各扩充方法具体为:
60.回译:将中文备注信息通过工具多次翻译为其他语种文字,再将其他语种文字翻译回中文,从而获得语句的相近表述,并扩充了数据集样本数。
61.近义词替代:将备注信息中某些关键词用近义词替代,形成新的样本;关键词如:捐赠、赞助、集资等。
62.笛卡尔集:对于票据项目篡用的可疑数据集,让某种的票据项目与可疑备注做笛卡尔集,形成新的可疑样本;例如:针对非税票,在这样操作后,票据项目仍为非税票允许开具项目,但是备注仍然包含其他票据种类的项目名称,所以依然符合“票据项目篡用”的情况。
63.获取若干个特征参数,每个特征参数为有效的电子票据备注信息词向量,并对各个特征参数添加可疑票据或非疑票据标签,形成训练样本集;
64.具体实施时,采集时每个有效的电子票据自成一个特征参数,可从有效的电子票据数据集中直接采集,同时,还可从有效的电子票据数据集再采集一批数据作为模型的测试集。
65.搭建多模型融合的可疑电子票据预测模型,所述多模型融合包括若干子预测模型,将有效的电子票据备注信息词向量作为可疑电子票据预测模型的输入,分别输入到各子预测模型中,输出预测结果,以预测结果和输入的有效的电子票据标签之间的区别最小为目标分别进行子预测模型的迭代训练,结束迭代输出多个最佳预测结果,遵循少数服从多数的原则选择数量较多的预测结果作为最终的预测结果,完成可疑电子票据预测模型搭建。
66.具体实施时,可疑电子票据预测模型的系统结构图如图2的虚线框内部结构所示,将备注信息的词向量分别输入五个判断模型中分别进行电子票据的判断,并分别输出判断结果,再将五个判断结果一起输入到投票网络中,遵从少数服从多数的原则输出数量较多的预测结果,并设定可疑电子票据显示为1,非疑电子票据显示为0。
67.通过五个判断模型分别判断结果,即使其中一个判断模型发生故障,也可以通过
另外四个正常模型进行纠错,减少误差。
68.作为本实施例的优选实施方式,所述有效的电子票据为含有备注信息且备注信息长度大于等于预设范围的电子票据。
69.具体实施时,可以根据实际需要自由选择所需的备注信息长度,本实验选择两个汉字的长度作为预设范围。
70.作为本实施例的优选实施方式,所述步骤根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集的具体方法包括:
71.将票据项目出现篡改的电子票据标记为可疑电子票据;
72.具体实施时,票据项目篡用即某种票据种类的电子票据的备注信息中出现了其它票据种类所使用的项目名称。
73.例如,非税票所开具的项目有:国库存款利息收入、国有股权、红利、股息、国有资产出租、出借、国有资产的出售收入、土地出让其他费、土地出让成本、土地增值收益、土地租金收入、土地补偿费等等,其他票据种类的项目有:出差伙食费、出差地交通费、单位划拨专项经费、单位划拨业务经费、垫付医保局工伤保险、垫付医保局白内障补助、垫付民政局补助、垫付社保局城乡居民合作医疗补助、工程建设履约保证金、幼儿园代收伙食费等等,如果在非税票的备注中出现这些名称,则视为可疑。
74.将电子票据的备注信息中使用违规关键词的电子票据标记可疑电子票据;
75.具体实施时,依据财政相关文件规定确认的违规使用票据情况,备注中出现了相对应的关键词,例如:
76.捐赠票备注信息出现“活动款项”、“集资”、“赞助”、“筹资”等关键词。
77.往来票备注信息出现“非税”、“捐赠”、“会费”、“工作经费”等关键词。
78.非税票备注信息出现“会费”、“往来”、“捐赠”等关键词。
79.社团票备注信息出现“赞助费”、“会议费”、“工本费”等关键词。
80.将人工审核存在异常的电子票据标记为可疑电子票据;
81.具体实施时,除上述两类可疑电子票据外,还有些电子票据的异常需要依托于人工经验来发现,需要人工再次查验进行标记。
82.将除可疑电子票据以外的剩余电子票据全部标记为非疑电子票据。
83.所有的可疑电子票据构成可疑电子票据数据集,所有的非疑电子票据构成非疑电子票据数据集。
84.作为本实施例的优选实施方式,所述扩充方法包括回译、近义词代替和笛卡尔集。
85.具体实施时,各扩充方法具体为:
86.回译:将中文备注信息通过工具多次翻译为其他语种文字,再将其他语种文字翻译回中文,从而获得语句的相近表述,并扩充了数据集样本数。
87.近义词替代:将备注信息中某些关键词用近义词替代,形成新的样本;关键词如:捐赠、赞助、集资等。
88.笛卡尔集:对于票据项目篡用的可疑数据集,让某种的票据项目与可疑备注做笛卡尔集,形成新的可疑样本;例如:针对非税票,在这样操作后,票据项目仍为非税票允许开具项目,但是备注仍然包含其他票据种类的项目名称,所以依然符合“票据项目篡用”的情况。
89.作为本实施例的优选实施方式,所述使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词步骤的具体方法为:
90.使用结巴中文分词将备注信息的短剧划分成单词列表,剔除单词列表中的停用词,完成分词;其中,所述停用词包括语气助词、副词、介词、连接词、标点符号和地区名称;所述地区名称采集于各省财政系统设置的全省区划信息。
91.具体实施时,在本预测模型中有个特殊的地方,将地区名称加入到停用词中,使得备注信息在语义上不特化某个地区,而能更普适于全国各地,达到提升最终模型泛化能力的目的,地区名称来源于各省财政系统设置的全省区划信息,在生产上可直接连接使用。
92.作为本实施例的优选实施方式,所述步骤通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量的具体方法为:
93.统计所有电子票据的备注信息中各单词出现的次数;
94.计算各单词的词频tf,具体公式如下:
95.词频tf=选定单词在电子票据备注中出现的次数/电子票据备注总词数;
96.计算各单词逆文档频率idf,具体公式如下:
97.逆文档频率idf=log(电子票据备注总条数/(包含选定单词的电子票据备注条数+1));
98.计算各单词的词向量tf-idf,具体公式如下:
99.词向量tf-idf=词频tf
×
逆文档频率idf。
100.具体实施时,词分量是预测模型输入所需的数据类型,通过tf-idf算法可以较为简单快速的将现有分词转化为词分量进行使用,减少模型的训练时间。
101.实施例二:
102.一种基于多模型融合的可疑电子票据预测系统,包括:
103.数据采集分类模块,采集有效的电子票据生成有效的电子票据数据集,并根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集;
104.数据分析处理模块,通过数据增强方法增加可疑电子票据数据集的数据量;再使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词,并通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量;
105.特征参数获取模块,获取若干个特征参数,每个特征参数为有效的电子票据备注信息词向量,并对各个特征参数添加可疑票据或非疑票据标签,形成训练样本集;
106.可疑电子票据预测模块,搭建若干子模型融合的可疑电子票据预测模型,将有效的电子票据备注信息词向量作为可疑电子票据预测模型的输入,分别输入到各子预测模型中,输出预测结果,以预测结果和输入的有效的电子票据标签之间的区别最小为目标分别进行子预测模型的迭代训练,结束迭代输出多个最佳预测结果,遵循少数服从多数的原则选择数量较多的预测结果作为最终的预测结果,完成可疑电子票据预测模型搭建。
107.实施例三:
108.本实施例一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明任一实施例所述的一种基于多模型融合的可疑电子票据预测方法。
109.实施例四:
110.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任一实施例所述的一种基于多模型融合的可疑电子票据预测方法。
111.以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
技术特征:
1.一种基于多模型融合的可疑电子票据预测方法,其特征在于,具体步骤包括:采集有效的电子票据生成有效的电子票据数据集,并根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集;通过数据增强方法增加可疑电子票据数据集的数据量;再使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词,并通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量;获取若干个特征参数,每个特征参数为有效的电子票据备注信息词向量,并对各个特征参数添加可疑票据或非疑票据标签,形成训练样本集;搭建多模型融合的可疑电子票据预测模型,所述多模型融合包括若干子预测模型,将有效的电子票据备注信息词向量作为可疑电子票据预测模型的输入,分别输入到各子预测模型中,输出预测结果,以预测结果和输入的有效的电子票据标签之间的区别最小为目标分别进行子预测模型的迭代训练,结束迭代输出多个最佳预测结果,遵循少数服从多数的原则选择数量较多的预测结果作为最终的预测结果,完成可疑电子票据预测模型搭建。2.根据权利要求1所述的一种基于多模型融合的可疑电子票据预测方法,其特征在于,所述有效的电子票据为含有备注信息且备注信息长度大于等于预设范围的电子票据。3.根据权利要求1所述的一种基于多模型融合的可疑电子票据预测方法,其特征在于,所述步骤根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集的具体方法包括:将票据项目出现篡改的电子票据标记为可疑电子票据;将电子票据的备注信息中使用违规关键词的电子票据标记可疑电子票据;将人工审核存在异常的电子票据标记为可疑电子票据;将除可疑电子票据以外的剩余电子票据全部标记为非疑电子票据;所有的可疑电子票据构成可疑电子票据数据集,所有的非疑电子票据构成非疑电子票据数据集。4.根据权利要求1所述的一种基于多模型融合的可疑电子票据预测方法,其特征在于,所述扩充方法包括回译、近义词代替和笛卡尔集。5.根据权利要求1所述的一种基于多模型融合的可疑电子票据预测方法,其特征在于,所述使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词步骤的具体方法为:使用结巴中文分词将备注信息的短剧划分成单词列表,剔除单词列表中的停用词,完成分词;其中,所述停用词包括语气助词、副词、介词、连接词、标点符号和地区名称;所述地区名称采集于各省财政系统设置的全省区划信息。6.根据权利要求1所述的一种基于多模型融合的可疑电子票据预测方法,其特征在于,所述步骤通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量的具体方法为:统计所有电子票据的备注信息中各单词出现的次数;计算各单词的词频tf,具体公式如下:词频tf=选定单词在电子票据备注中出现的次数/电子票据备注总词数;计算各单词逆文档频率idf,具体公式如下:
逆文档频率idf=log(电子票据备注总条数/(包含选定单词的电子票据备注条数+1));计算各单词的词向量tf-idf,具体公式如下:词向量tf-idf=词频tf
×
逆文档频率idf。7.根据权利要求1所述的一种基于多模型融合的可疑电子票据预测方法,其特征在于,所述若干个子预测模型包括支持向量机模型、梯度提升树模型、随机森林模型、线性回归模型和岭回归模型。8.一种基于多模型融合的可疑电子票据预测系统,其特征在于,包括:数据采集分类模块,采集有效的电子票据生成有效的电子票据数据集,并根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集;数据分析处理模块,通过数据增强方法增加可疑电子票据数据集的数据量;再使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词,并通过tf-idf算法将所述有效的电子票据数据集的备注信息分词转化为词向量;特征参数获取模块,获取若干个特征参数,每个特征参数为有效的电子票据备注信息词向量,并对各个特征参数添加可疑票据或非疑票据标签,形成训练样本集;可疑电子票据预测模块,搭建若干子模型融合的可疑电子票据预测模型,将有效的电子票据备注信息词向量作为可疑电子票据预测模型的输入,分别输入到各子预测模型中,输出预测结果,以预测结果和输入的有效的电子票据标签之间的区别最小为目标分别进行子预测模型的迭代训练,结束迭代输出多个最佳预测结果,遵循少数服从多数的原则选择数量较多的预测结果作为最终的预测结果,完成可疑电子票据预测模型搭建。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一权利要求所述的一种基于多模型融合的可疑电子票据预测方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任一权利要求所述的一种基于多模型融合的可疑电子票据预测方法。
技术总结
本发明涉及一种基于多模型融合的可疑电子票据预测方法,具体步骤包括采集有效的电子票据生成有效的电子票据数据集,并根据选择规则将有效的电子票据数据集分为可疑电子票据数据集和非疑电子票据数据集;通过数据增强增加可疑电子票据数据集的数据量;再使用结巴中文分词将有效的电子票据数据集的备注信息转化成分词,并通过TF-IDF算法将所述有效的电子票据数据集的备注信息分词转化为词向量;获取若干个特征参数,每个特征参数为有效的电子票据备注信息词向量,并对各个特征参数添加可疑票据或非疑票据标签,形成训练样本集;搭建多模型融合的可疑电子票据预测模型并进行迭代训练,输出最优的可疑电子票据预测模型。输出最优的可疑电子票据预测模型。输出最优的可疑电子票据预测模型。
技术研发人员:陈庸凯 马作玲 池文倩 王伙明
受保护的技术使用者:福建博思软件股份有限公司
技术研发日:2023.06.26
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/