异常交易识别模型的构建方法、异常交易识别方法及装置与流程
未命名
08-22
阅读:112
评论:0
1.本技术涉及人工智能技术领域,特别是涉及一种异常交易识别模型的构建方法、异常交易识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
2.随着机器学习技术的兴起以及其表现出的良好性能,对异常交易的检测开始广泛地采用和推广机器学习技术。目前,采用机器学习技术进行异常交易检测常用的方法是:根据历史交易数据,先训练出机器学习模型。然后,使用训练出的机器学习模型对需要检测的交易进行预测,根据预测结果中交易异常的概率确定是否阻止此交易。
3.但是,由于历史交易数据集的分布并不均匀,一般情况下,正常的交易数据在数量上远远多于异常交易数据,呈现高度不平衡性,通常这种不平衡的数据分布会使机器学习模型被多数类数据(即正常交易)淹没,并且会无法预测少数类数据(即异常交易),从而失去预测功能。因此,现有的异常交易的检测方法的预测准确性有待提高。
技术实现要素:
4.基于此,有必要针对上述异常交易的检测方法的预测准确性较低的技术问题,提供一种异常交易识别模型的构建方法、异常交易识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种异常交易识别模型的构建方法。所述方法包括:
6.获取初始样本交易数据,所述初始样本交易数据包括正常交易数据和异常交易数据;
7.对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据;所述目标样本交易数据中的正常交易数据和异常交易数据的数量相同;
8.获取所述目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征;
9.根据所述多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于所述多个目标交易特征中的至少一个目标交易特征构建得到;
10.通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。
11.在其中一个实施例中,所述基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征,包括:
12.基于所述第一相关系数,从所述多个初始交易特征中筛选出多个候选交易特征;所述候选交易特征对应的第一相关系数大于阈值;
13.获取所述多个候选交易特征中两两候选交易特征之间的第二相关系数;
14.基于所述第二相关系数,从所述多个候选交易特征中筛选出多个目标交易特征。
15.在其中一个实施例中,所述基于所述第二相关系数,从所述多个候选交易特征中筛选出多个目标交易特征,包括:
16.针对每个候选交易特征,确定所述每个候选交易特征对应的所有第二相关系数的第一均值;
17.获取各个候选交易特征对应的第一均值的均值,作为第二均值;
18.从所述多个候选交易特征中,筛选出第一均值大于所述第二均值的特征,得到多个目标交易特征。
19.在其中一个实施例中,所述基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征之后,还包括:
20.对所述多个目标交易特征进行降维处理,得到多个新的目标交易特征;
21.根据所述多个新的目标交易特征构建多个决策树,形成随机森林模型。
22.在其中一个实施例中,所述对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据,包括:
23.采用自助法对所述异常交易数据进行采样,以及对所述正常交易数据进行欠采样,得到所述目标样本交易数据。
24.在其中一个实施例中,所述根据所述多个目标交易特征构建多个决策树,形成随机森林模型,包括:
25.对所述多个目标交易特征进行多次随机采样,得到多个目标交易特征组合;
26.确定每个目标交易特征组合中各个目标交易特征的权重;所述权重用于评估目标交易特征之间的关联度;
27.根据每个交易特征组合及所述每个目标交易特征组合中各个目标交易特征的权重,构建多个决策树,形成所述随机森林模型。
28.在其中一个实施例中,所述通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,包括:
29.按照异常交易数据的误分惩罚项大于正常交易数据的误分惩罚项的条件,确定异常交易数据的误分惩罚项和正常交易数据的误分惩罚项;
30.通过所述目标样本数据集、所述异常交易数据的误分惩罚项和所述正常交易数据的误分惩罚项,对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型。
31.第二方面,本技术还提供了一种异常交易识别方法。所述方法包括:
32.获取待识别交易的交易特征;
33.将所述交易特征输入异常交易识别模型,得到所述异常交易识别模型中各个决策树输出的待识别交易的初始交易类型;所述异常交易识别模型通过权利要求1至7任一项所述的方法训练得到;
34.通过投票法对所述各个决策树输出的初始交易类型进行处理,得到所述待识别交易的目标交易类型。
35.第三方面,本技术还提供了一种异常交易识别模型的构建装置。所述装置包括:
36.获取模块,用于获取初始样本交易数据,所述初始样本交易数据包括正常交易数据和异常交易数据;
37.抽样模块,用于对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据;所述目标样本交易数据中的正常交易数据和异常交易数据的数量相同;
38.筛选模块,用于获取所述目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征;
39.构建模块,用于根据所述多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于所述多个目标交易特征中的至少一个目标交易特征构建得到;
40.训练模块,用于通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。
41.第四方面,本技术还提供了一种异常交易识别装置。所述装置包括:
42.获取模块,用于获取待识别交易的交易特征;
43.识别模块,用于将所述交易特征输入异常交易识别模型,得到所述异常交易识别模型中各个决策树输出的待识别交易的初始交易类型;所述异常交易识别模型通过上述实施例所述的异常交易识别模型的构建方法训练得到;
44.确定模块,用于通过投票法对所述各个决策树输出的初始交易类型进行处理,得到所述待识别交易的目标交易类型。
45.第五方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
46.获取初始样本交易数据,所述初始样本交易数据包括正常交易数据和异常交易数据;
47.对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据;所述目标样本交易数据中的正常交易数据和异常交易数据的数量相同;
48.获取所述目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征;
49.根据所述多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于所述多个目标交易特征中的至少一个目标交易特征构建得到;
50.通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。
51.第六方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
52.获取初始样本交易数据,所述初始样本交易数据包括正常交易数据和异常交易数据;
53.对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据;所述目标样本交易数据中的正常交易数据和异常交易数据的数量相同;
54.获取所述目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征;
55.根据所述多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于所述多个目标交易特征中的至少一个目标交易特征构建得到;
56.通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。
57.第七方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
58.获取初始样本交易数据,所述初始样本交易数据包括正常交易数据和异常交易数据;
59.对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据;所述目标样本交易数据中的正常交易数据和异常交易数据的数量相同;
60.获取所述目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征;
61.根据所述多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于所述多个目标交易特征中的至少一个目标交易特征构建得到;
62.通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。
63.上述异常交易识别模型的构建方法、异常交易识别方法、装置、计算机设备、存储介质和计算机程序产品,在异常交易识别模型的构建上,从类别不平衡和特征选择两个方面进行了改进,在类别不平衡问题上,通过对初始样本交易数据中的正常交易数据和异常交易数据进行分层重抽样,得到正常交易数据和异常交易数据数量相同的目标样本交易数据,解决类别不平衡问题,保证了后续构建的随机森林模型的准确性;在特征选择问题上,以目标样本交易数据的各个初始交易特征与交易异常判定之间的第一相关系数为依据,从多个初始交易特征中筛选出多个目标交易特征,由此完成特征选择,进而将选择的多个目标交易特征引入随机森林算法中,构建多个决策树,形成随机森林模型,进一步提高了随机森林模型进行分类的效率。
附图说明
64.图1为一个实施例中异常交易识别模型的构建方法的流程示意图;
65.图2为一个实施例中目标交易特征筛选步骤的流程示意图;
66.图3为一个实施例中各初始交易特征与交易异常判定之间的mic相关系数图;
67.图4为一个实施例中各个候选交易特征之间的mic相关系数图;
68.图5为一个实施例中各个候选交易特征与其他候选交易特征之间的相关系数均值图;
69.图6为一个实施例中异常交易识别模型的构建装置的结构框图;
70.图7为一个实施例中异常交易识别模型的构建装置的结构框图;
71.图8为一个实施例中计算机设备的内部结构图。
具体实施方式
72.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
73.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
74.在一个实施例中,如图1所示,提供了一种异常交易识别模型的构建方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。本实施例中,该方法包括以下步骤:
75.步骤s110,获取初始样本交易数据,初始样本交易数据包括正常交易数据和异常交易数据。
76.可以理解的是,为了使得后续训练的随机模型可以学习到正常交易数据的特征,以及异常交易数据的特征,因此,在获取初始样本交易数据时,可获取包括正常交易数据和异常交易数据的初始样本交易数据。
77.具体实现中,可从历史交易数据中选出与用户信用相关的交易数据,并对选出的历史交易数据进行预处理,将预处理后的交易数据作为初始样本交易数据,初始样本交易数据可以为同一用户的历史交易数据,也可以为不同用户的历史交易数据。
78.更具体地,对选出的历史交易数据进行预处理的方式可以为:先对历史交易数据进行标准化和归一化处理,具体可以初始交易特征为维度进行标准化和归一化处理,得到处理后的交易数据,其中,通过标准化可剔除信用数据量纲的影响,通过归一化可剔除数量级的影响;进一步剔除处理后的交易数据中,特征值全为零或特征值均相同的初始交易特征对应的数据,得到初始样本交易数据。
79.步骤s120,对初始样本交易数据中的正常交易数据和异常交易数据进行分层重抽样,得到目标样本交易数据;目标样本交易数据中的正常交易数据和异常交易数据的数量相同。
80.可以理解的是,在历史交易数据中,正常情况下一般为正常交易的数据远多于异常交易的数量,因此,初始样本交易数据中的正常交易数据和异常交易数据在数量上将存在不平衡的问题。因此,为解决该问题,本实施例提出了对正常交易数据和异常交易数据进行分层重抽样的方法,以使正常交易数据和异常交易数据的数量相同。
81.具体实现中,对正常交易数据和异常交易数据进行分层重抽样的方式,即在正常交易数据和异常交易数据中都进行取样,具体可以为在数量较少的异常交易数据中进行自助法采样,在数量较多的正常交易数据中进行欠采样,以得到数量相同的正常交易数据和异常交易数据。
82.步骤s130,获取目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从多个初始交易特征中筛选出多个目标交易特征。
83.其中,初始交易特征可包括多种数据类型,每种特征类型下有多种子特征。具体地,数据类型可以有定类变量、定序变量、连续变量和目标变量等。
84.其中,第一相关系数可表示初始交易特征对确定交易是否异常的影响程度。并且,第一相关系数与影响程度成正相关关系,即一个初始交易特征对应的第一相关系数越大,表明该初始交易特征对交易异常判定的影响程度越大,则该初始交易特征越重要。
85.具体实现中,由于交易异常判定领域的初始交易特征的数目较多,因此,为提高识别效率,可通过计算各个初始交易特征与交易异常判定之间的第一相关系数,根据第一相关系数对多个初始交易特征中进行筛选,从中筛选出第一相关系数大于阈值的初始交易特征,作为目标交易特征。
86.步骤s140,根据多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于多个目标交易特征中的至少一个目标交易特征构建得到。
87.具体实现中,可将多个新的目标交易特征分为多个特征组,每个特征组包括至少一个目标交易特征,根据每个特征组构建一个决策树,由此得到多个决策树,这多个决策树聚合可得到随机森林模型。
88.随机森林中,各颗决策树之间的差异性越大,特征的强度就越大。本技术的随机森林方法先生成一个候选特征集,再从中提取特征建树,中间有两次随机选择的过程,增加了每次生成的决策树的多样性。由此,森林中各颗决策树的差异性就更加明显。决策树差异性越大,特征强度越大,分类器的性能越好。
89.步骤s150,通过目标样本交易数据对随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。
90.具体实现中,可对目标样本交易数据中进行自助采样,具体可有放回地从样本交易数据中进行多次随机采样,每次选出多个目标样本交易数据,构成多个训练集;训练集的数目与构建的决策树的数目相同;之后按照每个训练集训练一个决策树的方式,对随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型。
91.上述异常交易识别模型的构建方法中,在异常交易识别模型的构建上,从类别不平衡和特征选择两个方面进行了改进,在类别不平衡问题上,通过对初始样本交易数据中的正常交易数据和异常交易数据进行分层重抽样,得到正常交易数据和异常交易数据数量相同的目标样本交易数据,解决类别不平衡问题,保证了后续构建的随机森林模型的准确性;在特征选择问题上,以目标样本交易数据的各个初始交易特征与交易异常判定之间的第一相关系数为依据,从多个初始交易特征中筛选出多个目标交易特征,由此完成特征选择,进而将选择的多个目标交易特征引入随机森林算法中,构建多个决策树,形成随机森林模型,进一步提高了随机森林模型进行分类的效率。
92.在一示例性实施例中,如图2所示,上述步骤s130中基于各个初始交易特征与交易异常判定之间的第一相关系数,从多个初始交易特征中筛选出多个目标交易特征,具体可以通过以下步骤实现:
93.步骤s131,基于第一相关系数,从多个初始交易特征中筛选出多个候选交易特征;候选交易特征对应的第一相关系数大于阈值。
94.其中,阈值可以预先设定,也可以通过计算各个初始交易特征对应的第一相关系数的均值,将该均值作为阈值。
95.具体地,由于第一相关系数与其所表征的初始交易特征对确定交易是否异常的影响程度成正相关关系,而所选择的特征应为对异常交易的判定影响最大的特征,因此,基于第一相关系数进行特征选择时,可从多个初始交易特征中筛选出第一相关系数大于阈值的特征,作为候选交易特征。
96.步骤s132,获取多个候选交易特征中两两候选交易特征之间的第二相关系数。
97.其中,第二相关系数表示两两候选交易特征之间的关联程度。
98.具体地,在确定出候选交易特征后,为了解决不同的候选交易特征之间的多重共线性影响,可进一步计算多个候选交易特征中两两候选交易特征之间的第二相关系数。
99.步骤s133,基于第二相关系数,从多个候选交易特征中筛选出多个目标交易特征。
100.具体地,第一相关系数和第二相关系数可以为最大信息系数(maximal information coefficient,mic),mic将两个用户的信用变量样本离散在二维空间中,并且使用散点图来表示,将当前二维空间在x、y方向分别划分为一定的区间数,然后查看当前的散点在各个方格中落入的情况,计算交易特征的联合概率,其计算公式为:
[0101][0102]
其中,a,b为是在x、y方向上的划分格子的个数,本质上是网格分布,b为变量,b的大小设置可以为数据量的0.6次方左右。
[0103]
mic计算分为三个步骤:(1)给定i、j,对x、y构成的散点图进行i列j行网格化,并求出最大的互信息值;(2)对最大的互信息值进行归一化;(3)选择不同尺度下互信息的最大值作为mic值。
[0104]
本实施例中,先基于第一相关系数,从多个初始交易特征中筛选出第一相关系数大于阈值的多个候选交易特征,从而可以挖掘出最能表征用户信用的特征,进一步基于两两候选交易特征之间的第二相关系数对多个候选交易特征进行进一步筛选,得到多个目标交易特征,可以解决候选交易特征之间的多重共线性影响。
[0105]
进一步地,在一示例性实施例中,步骤s133中基于第二相关系数,从多个候选交易特征中筛选出多个目标交易特征,包括:
[0106]
步骤s133a,针对每个候选交易特征,确定每个候选交易特征对应的所有第二相关系数的第一均值;
[0107]
步骤s133b,获取各个候选交易特征对应的第一均值的均值,作为第二均值;
[0108]
步骤s133c,从多个候选交易特征中,筛选出第一均值大于第二均值的特征,得到多个目标交易特征。
[0109]
具体实现中,每个候选交易特征,都会与其他所有候选交易特征进行第二相关系数的计算,设候选交易特征的总数目为n,则每个候选交易特征对应的第二相关系数将有n-1个。对每个候选交易特征,计算其对应的n-1各第二相关系数的均值mean1,作为第一均值,将得到n个第一均值mean1。进一步计算各个选交易特征对应的第一均值的均值,即计算n个第一均值的平均值,作为第二均值,将第二均值作为筛选的阈值,从多个候选交易特征中,筛选出第一均值大于第二均值的特征,由此得到多个目标交易特征。
[0110]
本实施例中,通过先计算每个候选交易特征对应的所有第二相关系数的第一均值,然后计算第一均值的均值,作为第二均值,将第二均值作为对候选交易特征进行筛选的阈值,这种确定阈值的方法更合理,不局限于固定阈值,适用范围更广,灵活性更高。
[0111]
在一示例性实施例中,上述步骤s130,基于各个初始交易特征与交易异常判定之间的第一相关系数,从多个初始交易特征中筛选出多个目标交易特征之后,还包括:对多个目标交易特征进行降维处理,得到多个新的目标交易特征;根据多个新的目标交易特征构建多个决策树,形成随机森林模型。
[0112]
具体实现中,由于筛选出的目标交易特征的特征值并非完全线性分布,因此,为了提高对非线性分布的目标交易特征的降维效果,因此,本实施例采用核主成分分析法对多个目标交易特征进行降维处理。
[0113]
更具体地,可根据各个目标交易特征之间的关系,引入多项式核函数,通过非线性核方程将各个目标交易特征映射到一个高维空间,然后在高维空间中使用主成分分析将其映射到低维空间,从而得到各个目标交易特征的低维表达,由此得到多个新的目标交易特征。
[0114]
本步骤中,通过引入非线性映射函数,将原空间中的目标交易特征映射到高维空间,在这个高维空间中线性不可分的样本变得线性可分,接着便可再运用pca思想,由此可解决目标交易特征非线性的问题。
[0115]
在一示例性实施例中,上述步骤s120中对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据,包括:采用自助法对异常交易数据进行采样,以及对正常交易数据进行欠采样,得到目标样本交易数据。
[0116]
具体地,随机森林一般都是通过自助法(bootstrap)来进行集成学习的,但是在不平衡分类问题上存在缺陷,使用自助法很少甚至不会考虑少数类,因此,这会导致生成的决策树在预测少数类上效果不太理想。为了改进这一问题,本技术采用分层bootstrap重抽样方法,即在多数类和少数类两个类别中都进行取样。该方法包括三个步骤。第一步,先在数量较少的那一类别(即异常交易数据)中采取自助方法采样,然后对多数类(即正常交易数据)进行欠采样,得到一样多的样本;第二步,由于随机森林不需要剪枝,决策树开始建立,一直达到完全分裂程度。在分裂过程中,寻找最佳分裂的特征时,从候选特征集合中筛选;第三步,重复n次上述步骤,集成前面的每次结果,以组合投票的形式得到最终的预测结果。
[0117]
本实施例中,通过分层重抽样的方法对异常交易数据和正常交易数据都进行采样,以得到数量相同的正常交易样本和异常交易样本,从而可减少类别不平衡导致的预测算法精度低的问题。
[0118]
在一示例性实施例中,上述步骤s140中根据多个目标交易特征构建多个决策树,形成随机森林模型,具体可以通过以下步骤实现:
[0119]
步骤s141,对多个目标交易特征进行多次随机采样,得到多个目标交易特征组合;
[0120]
步骤s142,确定每个目标交易特征组合中各个目标交易特征的权重;权重用于评估目标交易特征之间的关联度;
[0121]
步骤s143,根据每个交易特征组合及每个目标交易特征组合中各个目标交易特征的权重,构建多个决策树,形成随机森林模型。
[0122]
具体地,随机森林包含了许多棵决策树,分裂时,在每棵决策树中的每个节点上筛
选最优的特征,根据这些特征进行分裂,从而生成新的叶子节点。在决策树的生成阶段,一般程序是计算不纯度的减少量,这个减少量就是指每个特征的对应的信息熵,信息增益是针对每个特征的信息熵计算出的差值。
[0123]
随机森林中,各颗决策树之间的差异性越大,特征的强度就越大。随机森林方法先生成一个候选特征集,再从中提取特征建树,中间有两次随机选择的过程,增加了每次生产决策树的多样性。由此森林中各颗决策树的差异性就更加明显。决策树差异性越大,特征强度越大,分类器的性能越好。
[0124]
但是,关联性和特征强度之间呈正相关关系,也就是说在增加特征强度的同时,决策树中特征的关联性也会增加。那些关联性很强的冗余特征会模型的泛化能力造成影响,如果一棵树中的冗余特征数量较多,那么它的预测能力也会下降。为此,需要设计和改进解决方案,以平衡特征强度和关联度之间的关系。本实施例中,在构建每个决策树时,会对构建决策树的各个目标交易特征赋予[-1,1]之间的权重,这个权重能评估特征之间的关联度,从而调整该特征在目标交易特征组合中的影响因子,以弱化该特征。
[0125]
本实施例中,通过为每个目标交易特征赋予[-1,1]之间的权重,使用一个较小的不重要特征的影响因子从而达到弱化该目标交易特征的目的,在使特征强度增加的同时,可适当地减少特征的关联性,以保证模型的预测能力。
[0126]
在一示例性实施例中,上述步骤s150中通过目标样本交易数据对随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,具体可以通过以下步骤实现:
[0127]
步骤s151,按照异常交易数据的误分惩罚项大于正常交易数据的误分惩罚项的条件,确定异常交易数据的误分惩罚项和正常交易数据的误分惩罚项;
[0128]
步骤s152,通过目标样本数据集、异常交易数据的误分惩罚项和正常交易数据的误分惩罚项,对随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型。
[0129]
具体实现中,为了使构建的随机森林更加适应不平衡分类问题严重的数据,本实施例还引入了代价敏感学习的理论,采用加权随机森林的方法进行模型改进。具体为针对不同的类别设置不同的误分惩罚项,并且为了避免随机森林分类器对多数的那一类的偏向问题,多数类的误分惩罚项要更大。即设置权重时,类的权重的应用分为两个部分,对少数类(即异常交易数据)配置更大的权重,对多数类(即正常交易数据)配置较小的权重,从而使分类器更重视少数类。之后在生成决策树的阶段,使用加权后的多数投票来决定决策树的每个节点对类的预测。
[0130]
本实施例中,通过引入代价敏感学习的理论,通过设置惩罚项,对少数类配置更大的权重,对多数类配置较小的权重,来指导随机森林模型的学习,最终可得到精准率最高的模型和模型中最优的参数。并且在不平衡分类问题上,从平衡随机森林和加权随机森林两个优化角度来进行相关改进,既能够解决重采样造成的数据冗余,又使随机森林模型选到了少数类的数据样本,保证了模型具有一定的准确性和差异性。
[0131]
在一示例性实施例中,本技术还提供了一种异常交易识别方法,包括:获取待识别交易的交易特征;将交易特征输入异常交易识别模型,得到异常交易识别模型中各个决策树输出的待识别交易的初始交易类型;通过投票法对各个决策树输出的初始交易类型进行处理,得到待识别交易的目标交易类型。
[0132]
具体实现中,在训练得到异常交易识别模型后,可通过该异常交易识别模型对任
意交易进行智能的异常识别,具体方法为:提取待识别交易的交易特征,将该交易特征输入异常交易识别模型中,具体为输入异常交易识别模型中的各个决策树这种,由各个决策树分别进行分类处理,得到各个决策树输出的初始交易类型,之后通过投票法确定待识别交易的目标交易类型。
[0133]
本实施例中,采用的异常交易识别模型为从平衡随机森林和加权随机森林两个优化角度改进得到的随机森林,从而能够保证预测得到的待识别交易的目标交易类型的准确性。
[0134]
在一示例性实施例中,在步骤s150通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型之后,还可对异常交易识别模型进行评估。
[0135]
具体地,一般情况下,模型的效果与精确度成正比。但是,精确度忽略了不平衡样本带来的影响以及反映的仅仅是数据集的总体预测精度。机器学习中,尤其是统计分类中,混淆矩阵(confusion matrix),也被称为错误矩阵(error matrix)能够很好的评估出模型的效果。其中,矩阵的每一列是分类器的预测结果,矩阵的每一行是样本的真实结果,如下表1所示。
[0136]
表1混淆矩阵
[0137][0138]
准确率(acc):准确率指的是正确预测正类与负类占总预测样本的比例。
[0139][0140]
召回率(recall):召回率是覆盖面的度量,正类被正确预测为正类的比例。
[0141][0142]
精度率(precision):被正确预测为正类的样本占预测为正类的样本的比例。
[0143][0144]
综合评价指标(f-measure);仅看召回率和精确率核能会出现矛盾的情况,因此需要综合考虑这两个指标,最常见的方法是f-measure(f-score)。
[0145][0146]
当参数a=1时,就是最常见的f1,当f1较高时,模型较好。
[0147]
在一个实施例中,为了便于本领域技术人员理解本技术实施例,以下将结合一个具体实例进行说明。
[0148]
1.数据准备
[0149]
设获取的样本数据集有21维衡量信用大小的特征(详见表2),包含28万笔交易,异
常交易行为490笔,仅占所有交易的0.172%,呈现高度不平衡。本技术将该数据集的70%作为训练集,分别对训练集进行欠采样、过采样,然后采用主成分分析方法降维,并训练随机森林分类器。
[0150]
表2衡量信用大小的特征
[0151][0152][0153]
由实际意义,信用卡交易分类中,不同类别分类错误的代价是不同的,把异常交易分类为正常交易产生的后果要远远大于把正常交易分类为异常交易,若信用卡数据集的二分类代价矩阵如表3所示:
[0154]
表3二分类错误矩阵
[0155][0156]
2.特征提取
[0157]
由于信用卡欺诈研究领域特征的个数较多,本技术采用最大信息相关系数准则(mic)来挑选出与交易异常判定相关的目标交易特征。具体如下:首先计算各个初始交易特
征(与用户信用特征相关的21个特征)与交易是否异常的mic相关系数,并将各个mic值大于均值的交易特征挑选出来,得到候选交易特征,结果如图3所示,图3为各初始交易特征与交易异常判定之间的mic相关系数图。从图中可知,大于均值的初始交易特征其编号分别为:2,3,4,7,8,9,11,12,13,14,15,17,20,21。
[0158]
对于挑选出的候选交易特征,观察其两两候选交易特征之间的mic值,来解决特征的多重共线性影响,结果如图4所示,图4为各个候选交易特征之间的mic相关系数图。具体计算过程包括:计算各个候选交易特征与其他候选交易特征之间的相关系数均值mean1,之后计算所有mean1的均值mean2,将mean1大于等于mean2对应的候选交易特征挑选出来,作为目标交易特征,结果如图5所示,图5为各个候选交易特征与其他候选交易特征之间的相关系数均值图,最终挑选的9维特征的编号分别为4,7,8,11,12,13,15,20,21。
[0159]
本技术的研究内容和成果总结为以下三点:(1)对随机森林算法从特征选择和类别不平衡两个方面进行了改进,并将其应用到异常交易的检测领域中。(2)在特征选择问题上,以最大信息相关系数筛选变量为基础,计算特征之间的相关性,并进一步运用核主成分分析进行变量的降维,由此完成特征选择。将选择的特征引入随机森林算法中,在使特征强度增加的同时,适当地减少特征的关联性。(3)在不平衡分类问题上,从平衡随机森林和加权随机森林两个优化角度来进行相关改进,既能够解决重采样造成的数据冗余,又使模型选到了少数类的数据样本,保证了模型具有一定准确性和差异性,最后通过实验证明了本技术的改进对模型的准确率有提升作用。
[0160]
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
[0161]
基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的异常交易识别模型的构建方法的异常交易识别模型的构建装置,以及用于实现上述所涉及的异常交易识别方法的异常交易识别装置。这两个装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个装置实施例中的具体限定可以参见上文中对应方法的限定,在此不再赘述。
[0162]
在一个实施例中,如图6所示,提供了一种异常交易识别模型的构建装置,包括:获取模块610、抽样模块620、筛选模块630、构建模块640和训练模块650,其中:
[0163]
获取模块610,用于获取初始样本交易数据,初始样本交易数据包括正常交易数据和异常交易数据;
[0164]
抽样模块620,用于对初始样本交易数据中的正常交易数据和异常交易数据进行分层重抽样,得到目标样本交易数据;目标样本交易数据中的正常交易数据和异常交易数据的数量相同;
[0165]
筛选模块630,用于获取目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从多个初始交易特征中筛选出多个目标交易
特征;
[0166]
构建模块640,用于根据多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于多个目标交易特征中的至少一个目标交易特征构建得到;
[0167]
训练模块650,用于通过目标样本交易数据对随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。
[0168]
在其中一个实施例中,筛选模块630,还用于基于第一相关系数,从多个初始交易特征中筛选出多个候选交易特征;候选交易特征对应的第一相关系数大于阈值;获取多个候选交易特征中两两候选交易特征之间的第二相关系数;基于第二相关系数,从多个候选交易特征中筛选出多个目标交易特征。
[0169]
在其中一个实施例中,筛选模块630,还用于针对每个候选交易特征,确定每个候选交易特征对应的所有第二相关系数的第一均值;获取各个候选交易特征对应的第一均值的均值,作为第二均值;从多个候选交易特征中,筛选出第一均值大于第二均值的特征,得到多个目标交易特征。
[0170]
在其中一个实施例中,所述装置还包括降维模块,用于对多个目标交易特征进行降维处理,得到多个新的目标交易特征;根据多个新的目标交易特征构建多个决策树,形成随机森林模型。
[0171]
在其中一个实施例中,抽样模块620,还用于采用自助法对异常交易数据进行采样,以及对正常交易数据进行欠采样,得到目标样本交易数据。
[0172]
在其中一个实施例中,构建模块640,还用于对多个目标交易特征进行多次随机采样,得到多个目标交易特征组合;确定每个目标交易特征组合中各个目标交易特征的权重;权重用于评估目标交易特征之间的关联度;根据每个交易特征组合及每个目标交易特征组合中各个目标交易特征的权重,构建多个决策树,形成随机森林模型。
[0173]
在其中一个实施例中,训练模块650,还用于按照异常交易数据的误分惩罚项大于正常交易数据的误分惩罚项的条件,确定异常交易数据的误分惩罚项和正常交易数据的误分惩罚项;通过目标样本数据集、异常交易数据的误分惩罚项和正常交易数据的误分惩罚项,对随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型。
[0174]
在其中一个实施例中,所述装置还包括识别模块,用于获取待识别交易的交易特征;将交易特征输入异常交易识别模型,得到异常交易识别模型中各个决策树输出的待识别交易的初始交易类型;通过投票法对各个决策树输出的初始交易类型进行处理,得到待识别交易的目标交易类型。
[0175]
在一个实施例中,如图7所示,提供了一种异常交易识别装置,包括:
[0176]
获取模块,用于获取待识别交易的交易特征;
[0177]
识别模块,用于将交易特征输入异常交易识别模型,得到异常交易识别模型中各个决策树输出的待识别交易的初始交易类型;异常交易识别模型通过上述任一实施例的异常交易识别模型的构建方法训练得到;
[0178]
确定模块,用于通过投票法对各个决策树输出的初始交易类型进行处理,得到待识别交易的目标交易类型。
[0179]
上述异常交易识别模型的构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可
以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0180]
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种异常交易识别模型的构建方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
[0181]
本领域技术人员可以理解,图8中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0182]
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
[0183]
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0184]
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
[0185]
需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0186]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形
处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
[0187]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0188]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
技术特征:
1.一种异常交易识别模型的构建方法,其特征在于,所述方法包括:获取初始样本交易数据,所述初始样本交易数据包括正常交易数据和异常交易数据;对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据;所述目标样本交易数据中的正常交易数据和异常交易数据的数量相同;获取所述目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征;根据所述多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于所述多个目标交易特征中的至少一个目标交易特征构建得到;通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。2.根据权利要求1所述的方法,其特征在于,所述基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征,包括:基于所述第一相关系数,从所述多个初始交易特征中筛选出多个候选交易特征;所述候选交易特征对应的第一相关系数大于阈值;获取所述多个候选交易特征中两两候选交易特征之间的第二相关系数;基于所述第二相关系数,从所述多个候选交易特征中筛选出多个目标交易特征。3.根据权利要求2所述的方法,其特征在于,所述基于所述第二相关系数,从所述多个候选交易特征中筛选出多个目标交易特征,包括:针对每个候选交易特征,确定所述每个候选交易特征对应的所有第二相关系数的第一均值;获取各个候选交易特征对应的第一均值的均值,作为第二均值;从所述多个候选交易特征中,筛选出第一均值大于所述第二均值的特征,得到多个目标交易特征。4.根据权利要求1所述的方法,其特征在于,所述基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征之后,还包括:对所述多个目标交易特征进行降维处理,得到多个新的目标交易特征;根据所述多个新的目标交易特征构建多个决策树,形成随机森林模型。5.根据权利要求1所述的方法,其特征在于,所述对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据,包括:采用自助法对所述异常交易数据进行采样,以及对所述正常交易数据进行欠采样,得到所述目标样本交易数据。6.根据权利要求1所述的方法,其特征在于,所述根据所述多个目标交易特征构建多个决策树,形成随机森林模型,包括:对所述多个目标交易特征进行多次随机采样,得到多个目标交易特征组合;确定每个目标交易特征组合中各个目标交易特征的权重;所述权重用于评估目标交易特征之间的关联度;根据每个交易特征组合及所述每个目标交易特征组合中各个目标交易特征的权重,构
建多个决策树,形成所述随机森林模型。7.根据权利要求1所述的方法,其特征在于,所述通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,包括:按照异常交易数据的误分惩罚项大于正常交易数据的误分惩罚项的条件,确定异常交易数据的误分惩罚项和正常交易数据的误分惩罚项;通过所述目标样本数据集、所述异常交易数据的误分惩罚项和所述正常交易数据的误分惩罚项,对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型。8.一种异常交易识别方法,其特征在于,所述方法包括:获取待识别交易的交易特征;将所述交易特征输入异常交易识别模型,得到所述异常交易识别模型中各个决策树输出的待识别交易的初始交易类型;所述异常交易识别模型通过权利要求1至7任一项所述的方法训练得到;通过投票法对所述各个决策树输出的初始交易类型进行处理,得到所述待识别交易的目标交易类型。9.一种异常交易识别模型的构建装置,其特征在于,所述装置包括:获取模块,用于获取初始样本交易数据,所述初始样本交易数据包括正常交易数据和异常交易数据;抽样模块,用于对所述初始样本交易数据中的所述正常交易数据和所述异常交易数据进行分层重抽样,得到目标样本交易数据;所述目标样本交易数据中的正常交易数据和异常交易数据的数量相同;筛选模块,用于获取所述目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从所述多个初始交易特征中筛选出多个目标交易特征;构建模块,用于根据所述多个目标交易特征构建多个决策树,形成随机森林模型;每个决策树基于所述多个目标交易特征中的至少一个目标交易特征构建得到;训练模块,用于通过所述目标样本交易数据对所述随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。10.一种异常交易识别装置,其特征在于,所述装置包括:获取模块,用于获取待识别交易的交易特征;识别模块,用于将所述交易特征输入异常交易识别模型,得到所述异常交易识别模型中各个决策树输出的待识别交易的初始交易类型;所述异常交易识别模型通过权利要求1至7任一项所述的方法训练得到;确定模块,用于通过投票法对所述各个决策树输出的初始交易类型进行处理,得到所述待识别交易的目标交易类型。11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的异常交易识别模型的构建方法或权利要求8所述的异常交易识别方法的步骤。12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的异常交易识别模型的构建方法或权利
要求8所述的异常交易识别方法的步骤。13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的异常交易识别模型的构建方法或权利要求8所述的异常交易识别方法的步骤。
技术总结
本申请涉及一种异常交易识别模型的构建方法、异常交易识别方法及装置,应用于人工智能技术领域,包括:获取初始样本交易数据,对初始样本交易数据中的正常交易数据和异常交易数据进行分层重抽样,得到目标样本交易数据;获取目标样本交易数据的多个初始交易特征,基于各个初始交易特征与交易异常判定之间的第一相关系数,从多个初始交易特征中筛选出多个目标交易特征;根据多个目标交易特征构建多个决策树,形成随机森林模型;通过目标样本交易数据对随机森林模型中的每个决策树进行训练,得到训练完成的随机森林模型,作为异常交易识别模型。采用本方法能够提高随机森林模型的预测准确性。测准确性。测准确性。
技术研发人员:孙婷 吴延生 李娟 向永香
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2023.04.03
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
