基于新型特征优化算法的车险诈骗识别方法、装置及设备与流程

未命名 08-20 阅读:107 评论:0


1.本发明涉及人工智能技术领域,尤其涉及一种基于新型特征优化算法的车险诈骗识别方法、装置及设备。


背景技术:

2.现有的基于人工智能构建保险反欺诈模型主要设计思路是:基于保险欺诈的特征数据集,使用机器学习或深度学习方法训练分类模型,使用训练好的分类模型对是否会存在保险欺诈的行为进行预测。目前,研究者大多使用贝叶斯网络、支持向量机、随机森林、高斯异常检测、聚类等机器学习算法,使模型的风险识别率达到80%。
3.虽然现有的基于机器学习的保险欺诈检测模型能够避免人工检查骗保行为耗时耗力的缺点,但仍存在着如下缺点:
4.1、基于监督型的机器学习算法在处理不平衡的保险欺诈样本数据会发生分类偏倚问题。
5.分类偏倚指的是样本数据集中的正负样本分布不均。在实际场景中,存在欺诈行为的负样本数量是远远少于正常的车险理赔样本,这在训练完后,模型虽然能高效识别正常样本,却难以正确识别负类样本。
6.2、现有的基于特征工程训练的检测模型未进一步对特征进行优化以提升模型检测效果。
7.在现实应用中,研究者会尽可能收集较多的特征用于训练以提高检测效果。这些特征集合中可能含有冗余特征,即对模型的分类效果影响较小或者降低模型效果的特征。且特征维度越大,计算的复杂度越高。
8.3、传统的嵌入式特征选择算法忽视了强关联性特征,选择了弱关联特征,可能会导致模型对未来数据的预测效果不佳。


技术实现要素:

9.本发明提供了一种基于新型特征优化算法的车险诈骗识别方法、装置及设备,解决了上述问题。
10.一种基于新型特征优化算法的车险诈骗识别方法,包括:
11.获取车险理赔欺诈的待测数据集;
12.基于分类模型对所述待测数据集进行分类处理,得到分类结果;
13.其中,所述分类模型通过训练集完成训练,所述训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;所述分类结果用于反映是否存在车险理赔欺诈行为。
14.在本发明的一种实施例中,在通过特征选择算法efs_br优化训练集的过程中,所述方法还包括:获取平衡处理后的训练集数据矩阵x,所述训练集数据矩阵x包括n个样本和d个特征;通过嵌入式特征选择算法从所述训练集数据矩阵x中的所有特征中选择s个特征,
根据选择的s个特征确定被选择的特征数据矩阵fs;根据未被选择的d-s个特征确定未被选择的特征数据矩阵ufs。
15.在本发明的一种实施例中,在通过特征选择算法efs_br优化训练集的过程中,所述方法还包括:通过过滤式特征选择算法确定所述被选择的特征数据矩阵fs和未被选择的特征数据矩阵ufs中每个特征和标签的关联度;根据所述关联度从所述被选择的s个特征中筛选出关联度较高的k个特征,并生成关于所述k个特征的第一矩阵;根据所述关联度从所述未被选择的d-s个特征中筛选出关联度较高的t个特征,并生成关于所述t个特征的第二矩阵;将所述第一矩阵和所述第二矩阵进行合并,得到合并矩阵w,以剔除fs中关联度未达到关联度阈值的特征;根据所述合并矩阵w训练基模型,所述基模型采用逻辑回归分类算法;计算所述基模型的分类损失值,根据所述分类损失值确定最终输出的合并矩阵w*,作为优化后的训练集。
16.在本发明的一种实施例中,在通过特征选择算法efs_br优化训练集的过程中,所述方法还包括:在确定被选择的特征数据矩阵fs和未被选择的特征数据矩阵ufs后,进入外层循环;其中,根据被选择的特征个数s确定外层循环次数为s;从被选择的特征数据矩阵fs中筛选出前k个关联度较高的特征生成第一矩阵,所述k与所述外层循环的当前循环次序相等;进入内层循环,根据所述第一矩阵得到合并矩阵w,根据所述合并矩阵w训练基模型,所述基模型采用逻辑回归分类算法;根据测试集及其分类标签数据计算得到所述基模型的分类损失值,确定当前循环内所述分类损失值最小时对应的合并矩阵;其中,所述测试集中的特征类别与合并矩阵的特征类别相同;内层循环结束后继续外层循环,外层循环结束后返回分类损失值最小时对应的合并矩阵w*,根据所述合并矩阵w*得到优化后的训练集。
17.在本发明的一种实施例中,所述根据所述第一矩阵得到合并矩阵,具体包括:从所述未被选择的特征数据矩阵中筛选出前t个关联度较高的特征生成第二矩阵,所述t与所述内层循环的当前循环次序相等;将第一矩阵和所述第二矩阵进行合并,得到合并矩阵。
18.在本发明的一种实施例中,所述确定当前循环内所述分类损失值最小时对应的合并矩阵,具体包括:将所述基模型的分类损失值和预设的初始分类损失值进行比较;若计算得到的分类损失值小于所述初始分类损失值,则将计算得到的分类损失值作为初始分类损失值,并将所述合并矩阵作为分类损失值最小时对应的特征数据矩阵。
19.在本发明的一种实施例中,通过综合采样算法对训练集数据进行平衡处理,包括:对于训练集中的样本,通过smote算法从样本少的类别中随机抽样,再将抽样后处理得到的新样本添加到训练集中,得到初步平衡的训练集;通过enn算法剔除初步平衡的训练集中的重叠样本,得到最终平衡后的训练集。
20.在本发明的一种实施例中,通过训练集完成分类模型的训练,包括:根据通过特征选择算法efs_br优化后的数据集对分类模型进行训练,得到分类模型;其中,所述分类模型采用逻辑回归分类算法lr。
21.在本发明的一种实施例中,所述获取车险理赔欺诈的待测数据集,具体包括:获取车险理赔欺诈检测的初始数据集;根据efs_br算法的优化结果从所述初始数据集中筛选出相应特征,得到特征筛选后的待测数据集。
22.一种基于新型特征优化算法的车险诈骗识别装置,包括:
23.数据采集模块,用于获取车险理赔欺诈检测的初始数据集;
24.模型预测模块,用于基于分类模型对所述待测数据集进行分类处理,得到分类结果;其中,所述分类模型通过训练集完成训练,所述训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;所述分类结果用于反映是否存在车险理赔欺诈行为。
25.一种基于新型特征优化算法的车险诈骗识别设备,包括:
26.至少一个处理器;以及,
27.与所述至少一个处理器通过总线通信连接的存储器;其中,
28.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被执行,以实现:
29.获取车险理赔欺诈的待测数据集;
30.基于分类模型对所述待测数据集进行分类处理,得到分类结果;
31.其中,所述分类模型通过训练集完成训练,所述训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;所述分类结果用于反映是否存在车险理赔欺诈行为。
32.一种非易失性存储介质,存储有计算机可执行指令,所述计算机可执行指令由处理器执行,以实现下述步骤:
33.获取车险理赔欺诈的待测数据集;
34.基于分类模型对所述待测数据集进行分类处理,得到分类结果;
35.其中,所述分类模型通过训练集完成训练,所述训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;所述分类结果用于反映是否存在车险理赔欺诈行为。
36.本发明提供了一种基于新型特征优化算法的车险诈骗识别方法、装置及设备,至少包括以下有益效果:通过使用综合采样算法smoteen对搜集的训练样本进行平衡化处理,能够提高模型对异常样本的准确识别率;通过对采集的特征样本做特征优化,能够剔除冗余特征,降低模型的计算复杂度,最终进一步优化模型的分类效果。
附图说明
37.此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
38.图1为本发明实施例提供的使用训练集训练反欺诈模型的流程示意图;
39.图2为本发明实施例提供的efs_br算法逻辑示意图;
40.图3为本发明实施例提供的一种基于新型特征优化算法的车险诈骗识别方法步骤示意图;
41.图4为本发明实施例提供的一种使用训练好的反欺诈模型对待测数据集进行预测的流程示意图;
42.图5为本发明实施例提供的一种基于新型特征优化算法的车险诈骗识别装置示意图;
43.图6为本发明实施例提供的一种基于新型特征优化算法的车险诈骗识别设备示意图。
具体实施方式
44.为了使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例对本发明进行清楚、完整的描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
45.需要说明的是,本领域普通技术人员显式地和隐式地理解的是,本发明所描述的实施例在不冲突的情况下,可以与其它实施例相结合。除非另作定义,本发明所涉及的技术术语或者科学术语应当为本发明所属技术领域内具有一般技能的人士所理解的通常意义。本发明所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本发明所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;本发明所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
46.本发明提出了一种基于新型特征优化算法的车险诈骗识别方法、装置及设备。使用机器学习算法处理实际场景中不平衡的保险欺诈数据问题;使用改进后的嵌入式特征寻优算法efs_br(embedded feature selection based on boosting relevance,efs_br)剔除无用特征、降低模型计算复杂度和提高模型识别效果。下面进行具体说明。
47.在通过模型预测模块对待测数据进行识别前,需要对模型预测模块中的分类模型进行训练。分类模型中的分类算法使用逻辑回归(logistic regression,lr)算法,使用lr算法对优化后的特征样本数据进行训练,训练完成后产生的分类模型(反欺诈模型)用于预测待测数据的类别,以判断是否存在车险理赔欺诈行为。在训练分类模型时,需要使用特征优化后的训练集对模型进行训练。如图1所示为本发明一种实施例提供的使用训练集训练反欺诈模型的流程示意图。
48.在进行特征优化前,需要对训练集进行平衡处理。对于基于监督型的机器学习算法在处理不平衡的保险欺诈样本数据会发生分类偏倚问题。在实际场景中,存在欺诈行为的负样本数量是远远少于正常的车险理赔样本,若不对训练集进行平衡,那么在训练完后,模型虽然能高效识别正常样本,却难以正确识别负类样本。所以,本发明通过使用smoteen算法解决了第一个技术问题,即如何使用机器学习算法处理不平衡的保险欺诈样本的问题,以提高分类模型对负类样本的准确识别率。
49.在本发明的一种实施例中,通过综合采样算法对训练集数据进行平衡处理,包括:对于训练集中的样本,通过smote算法从样本少的类别中随机抽样,再将抽样后处理得到的新样本添加到训练集中,得到初步平衡的训练集;通过enn算法剔除初步平衡的训练集中的重叠样本,得到最终平衡后的训练集。
50.具体地,smote算法和enn算法组成smoteen算法。smote算法是机器学习领域中常用于处理不平衡数据的随机过采样方法。它的过程是从样本少的类别中随机抽样,再通过抽样后处理得到的新样本添加到数据集中,从而扩充少类样本,达到平衡数据样本的目的。本发明中,具有车险理赔欺诈行为的数据样本较少,通过smote算法从具有车险理赔欺诈行为的数据中随机抽样,再通过抽样后处理得到的新样本添加到训练集中,从而扩充了具有车险理赔欺诈行为的数据。
51.但该算法存在的缺点是如果生成的新样本分布在多数类样本周围时,则会加重两
类的重叠,所以需要使用编辑近邻降采样(edited nearest neighbours,enn)算法来清洗重叠样本。enn算法使用聚类的思想,若属于多数类的一个样本,它的k个近邻点有超过一半都不属于多数类,则这个样本会被剔除,剩下的样本即为最终的扩充样本。本发明中,若不具有车险理赔欺诈行为的数据样本与其k个近邻点之间的类标签有超过一半都不相同,则剔除该样本,剩余样本即组成最终平衡后的数据集。
52.在现实应用中,研究者会尽可能收集较多的特征用于训练以提高检测识别效果。这些特征集合中可能含有冗余特征,即对模型的分类效果影响较小或者降低模型效果的特征。且特征维度越大,计算的复杂度越高。所以,本发明要解决的第二个问题是如何使用机器学习算法对采集的特征样本做进一步筛选,以达到剔除冗余特征,降低模型的计算复杂度,最终进一步优化模型的分类效果。
53.当前的特征优化算法分为3类:
54.(1)过滤法(filter)。按照特征与标签的发散性或者相关性对各个特征进行排名,选择前k个特征。衡量特征和标签关联性的常用指标有相关系数、卡方检验、互信息等。
55.(2)包裹法(wrapper)。根据目标函数选择分类损失最小的特征子集。常用的包裹式特征选择算法包括rfe、lvw等。
56.(3)嵌入法(embedded)。使用某些机器学习算法作为基模型进行训练,得到每个特征的权值系数,权值系数代表了特征对于模型的重要性,根据设定的阈值选择权值系数大于阈值的特征。常用的基模型有惩罚项和树模型。
57.它们各自的优缺点如表1所示:
[0058][0059]
表1不同特征寻优算法对比
[0060]
传统的嵌入式特征选择算法忽视了强关联性特征,选择了弱关联特征,可能会导致模型对未来数据的预测效果不佳。因此,本发明要解决的第三个问题是在使用嵌入式特征选择算法的基础上如何尽量选择与标签较强关联的特征。
[0061]
本发明提出一种新型的嵌入式特征选择算法efs_br,综合上述特征寻优算法的优点,避免了上述特征寻优算法的缺点,对训练集进行特征优化。
[0062]
在本发明的一种实施例中,在通过特征选择算法efs_br优化训练集的过程中,包括:获取平衡处理后的训练集数据矩阵x,训练集数据矩阵x包括n个样本和d个特征;通过嵌
入式特征选择算法从训练集数据矩阵x中的所有特征中选择s个特征,根据选择的s个特征确定被选择的特征数据矩阵fs;根据未被选择的d-s个特征确定未被选择的特征数据矩阵ufs。
[0063]
具体地,本发明提出的特征选择算法efs_br的具体思路如图2中的算法1所示。现假设训练集总共有d个特征,n个样本,训练集数据设为矩阵训练集的标签数据为矩阵使用传统嵌入式特征选择算法后选择的特征个数为s个,则未被选择的特征有d-s个,则被选择的特征数据矩阵为未被选择的特征数据矩阵
[0064]
在本发明的一种实施例中,在通过特征选择算法efs_br优化训练集的过程中,包括:通过过滤式特征选择算法确定被选择的特征数据矩阵fs和未被选择的特征数据矩阵ufs中每个特征和标签的关联度;根据关联度从被选择的s个特征中筛选出关联度较高的k个特征,并生成关于k个特征的第一矩阵;根据关联度从未被选择的d-s个特征中筛选出关联度较高的t个特征,并生成关于t个特征的第二矩阵;将第一矩阵和第二矩阵进行合并,得到合并矩阵w,以剔除fs中关联度未达到关联度阈值的特征;根据合并矩阵w训练基模型,基模型采用逻辑回归分类算法;计算基模型的分类损失值,根据分类损失值确定最终输出的合并矩阵w*,作为优化后的训练集。
[0065]
进一步地,在通过特征选择算法efs_br优化训练集的过程中,包括:在确定被选择的特征数据矩阵fs和未被选择的特征数据矩阵ufs后,进入外层循环;其中,根据被选择的特征个数s确定外层循环次数为s;从被选择的特征数据矩阵fs中筛选出前k个关联度较高的特征生成第一矩阵,k与外层循环的当前循环次序相等;进入内层循环,根据第一矩阵得到合并矩阵w,根据合并矩阵w训练基模型,基模型采用逻辑回归分类算法;根据测试集及其分类标签数据计算得到基模型的分类损失值,确定当前循环内分类损失值最小时对应的合并矩阵;其中,测试集中的特征类别与合并矩阵的特征类别相同;内层循环结束后继续外层循环,外层循环结束后返回分类损失值最小时对应的合并矩阵w*,根据合并矩阵w*得到优化后的训练集。
[0066]
进一步地,根据第一矩阵得到合并矩阵,具体包括:从未被选择的特征数据矩阵中筛选出前t个关联度较高的特征生成第二矩阵,t与内层循环的当前循环次序相等;将第一矩阵和第二矩阵进行合并,得到合并矩阵。
[0067]
具体地,经过efs_br处理后得到的最终特征训练数据矩阵w*,对应特征组成的测试集为x
test
,测试集的标签数据为y
test

[0068]
如算法1所示实施例,本发明使用基于卡方分数的过滤式特征选择算法从fs的特征集中筛选出关联度较高的特征子集得到fs’。同时,使用基于卡方分数的过滤式特征选择算法从ufs的特征集中筛选出关联度较高的特征子集,得到ufs’,通过有限次的循环将fs’和ufs’进行合并,即使用未被选择的ufs中的特征集关联度较高的特征替换掉被选择的fs的特征集中关联度较低的特征子集,从而提高fs中特征与标签的关联度。
[0069]
进一步地,确定当前循环内分类损失值最小时对应的合并矩阵,具体包括:将基模型的分类损失值和预设的初始分类损失值进行比较;若计算得到的分类损失值小于初始分类损失值,则将计算得到的分类损失值作为初始分类损失值,并将合并矩阵作为分类损失
值最小时对应的特征数据矩阵。
[0070]
具体地,在将两个矩阵合并后,根据该合并矩阵w对采用逻辑回归算法的基模型进行训练,并根据与合并矩阵具有相同特征的测试集的矩阵及该测试集的标签矩阵计算得到的基模型的分类损失值,将该分类损失值与初始分类损失值进行比较,若小于初始分类损失值,则将该分类损失值赋值为初始分类损失值,并将该合并矩阵作为分类损失值最小时对应的特征数据矩阵。
[0071]
在efs_br算法中的循环执行完毕后,输出分类损失值最小时对应的特征数据矩阵w*,该矩阵对应的数据即作为特征优化后的带有标签的训练集。
[0072]
通过使用未被选择的ufs特征集中关联度较高的特征替换掉被选择的fs特征集中关联度较低的特征子集,从而提高训练集中特征与标签的关联度,并在传统的嵌入式特征选择算法的基础上选择与标签较强关联的特征,得到新型的嵌入式特征寻优算法efs_br,能够进一步提高模型识别效果。
[0073]
在本发明的一种实施例中,通过训练集完成分类模型的训练,包括:根据通过特征选择算法efs_br优化后的数据集对分类模型进行训练,得到分类模型;其中,分类模型采用逻辑回归分类算法lr。
[0074]
具体地,分类算法使用逻辑回归算法(logistic regression,lr)。使用lr算法对优化后的特征样本数据进行训练,训练完成后产生的分类模型用于预测待测数据的类别。
[0075]
图3为本发明实施例提供的一种基于新型特征优化算法的车险诈骗识别方法的步骤示意图,可以包括以下步骤:
[0076]
s310:获取车险理赔欺诈的待测数据集。
[0077]
在本发明的一种实施例中,获取车险理赔欺诈的待测数据集,具体包括:获取车险理赔欺诈检测的初始数据集;根据efs_br算法的优化结果从初始数据集中筛选出相应特征,得到特征筛选后的待测数据集。
[0078]
具体地,如图4所示,通过数据采集模块搜集车险理赔欺诈检测的特征,构建车险理赔欺诈的初始数据集,本发明使用的特征集合中涉及的特征主要包括车主个人信息、汽车信息、事故信息、理赔信息等。个人信息包括驾驶员年龄、性别、是否结婚、个人收入、学历等。汽车信息包括安全系数、汽车重量、颜色、使用年龄等。事故信息包括事故发生地点和事故现场是否有人见证等。理赔信息包括过去索赔次数、报案渠道、赔付额等。
[0079]
在得到初始数据集后,根据在模型训练过程中得到的efs_br算法的特征优化结果对数据采集模块中的获取的全部特征进行特征筛选,达到剔除冗余特征,降低模型计算复杂度,进一步优化模型分类效果的目的。在进行特征筛选后得到的数据即为待测数据集。
[0080]
s320:基于分类模型对待测数据集进行分类处理,得到分类结果;其中,分类模型通过训练集完成训练,训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;分类结果用于反映是否存在车险理赔欺诈行为。
[0081]
具体地,通过模型预测模块对待测数据集进行分类,判断是否存在车险理赔欺诈行为。分类算法使用逻辑回归(logistic regression,lr),使用lr算法对特征优化后的数据进行训练,训练完成后产生的分类模型用于预测样本数据的类别。
[0082]
在本发明的一种实施例中,为了验证本发明的实际效果,本文使用公开的数据集进行验证。该数据集共含带标签样本17995条,带欺诈标签的样本与正常样本的比例约为1:
5,训练集和测试集的划分比例为8:2。在数据不平衡的分类任务中,不能使用准确率作为模型性能的评价指标,因此本发明使用精确度(precision)对模型效果进行评价。
[0083]
优化后的模型效果如表2所示:
[0084][0085]
表2模型分类效果
[0086]
从表2可以看出:当只使用lr进行分类时,由于两类样本分布不均,导致模型识别效果欠佳,其模型精确度只达到了0.846。使用smote算法对样本进行均衡化处理后,其识别精确度提升了6.1%,达到90.7%。后对重叠样本进行提出,降低样本的噪声后,精确度又提升了3.2%。在使用传统嵌入式特征选择算法后,模型的识别精确度又提升了0.1%,达到94%,而在使用本发明提出的特征选择算法efs_br后,模型的识别精确度又提升了0.3%,达到94.3%。通过上述模型的对比,验证了本发明提出的反欺诈模型通过不平衡数据处理和特征优化能有效提高其识别精确度。其次,改进后的特征选择算法efs_br的效果优于传统嵌入式特征选择算法,且最终的模型效果优于当前的大部分研究成果。
[0087]
以上为本发明实施例提供的一种基于新型特征优化算法的车险诈骗识别方法,基于同样的发明思路,本发明实施例还提供了相应的一种基于新型特征优化算法的车险诈骗识别装置,如图5所示。
[0088]
数据采集模块502,用于获取车险理赔欺诈检测的待测数据集;
[0089]
模型预测模块504,用于基于分类模型对待测数据集进行分类处理,得到分类结果;其中,分类模型通过训练集完成训练,训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;分类结果用于反映是否存在车险理赔欺诈行为。
[0090]
本发明实施例还提供了相应的一种基于新型特征优化算法的车险诈骗识别设备,如图6所示,包括:
[0091]
至少一个处理器602(processor)、通信接口604(communications interface)、存储器606(memory)和通信总线608;其中,处理器602,通信接口604,存储器606通过通信总线608完成相互间的通信;处理器602可以调用存储器606中存储的逻辑指令,以使至少一个处理器602执行:
[0092]
获取车险理赔欺诈的待测数据集;基于分类模型对待测数据集进行分类处理,得到分类结果;其中,分类模型通过训练集完成训练,训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;分类结果用于反映是否存在车险理赔欺诈行为。
[0093]
基于同样的思路,本发明的一些实施例还提供了上述方法对应的介质。
[0094]
本发明的一些实施例提供的一种存储介质,存储有计算机可执行指令,计算机可执行指令由处理器执行,以实现下述步骤:
[0095]
获取车险理赔欺诈的待测数据集;基于分类模型对待测数据集进行分类处理,得到分类结果;其中,分类模型通过训练集完成训练,训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;分类结果用于反映是否存在车险理赔欺诈行为。
[0096]
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0097]
本发明实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
[0098]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程方法商品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程方法商品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程方法商品或者方法中还存在另外的相同要素。
[0099]
以上仅为本发明的实施例而已,并不用于限制本发明。虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

技术特征:
1.一种基于新型特征优化算法的车险诈骗识别方法,其特征在于,包括:获取车险理赔欺诈的待测数据集;基于分类模型对所述待测数据集进行分类处理,得到分类结果;其中,所述分类模型通过训练集完成训练,所述训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;所述分类结果用于反映是否存在车险理赔欺诈行为。2.根据权利要求1所述的方法,其特征在于,在通过特征选择算法efs_br优化训练集的过程中,所述方法还包括:获取平衡处理后的训练集数据矩阵x,所述训练集数据矩阵x包括n个样本和d个特征;通过嵌入式特征选择算法从所述训练集数据矩阵x中的所有特征中选择s个特征,根据选择的s个特征确定被选择的特征数据矩阵fs;根据未被选择的d-s个特征确定未被选择的特征数据矩阵ufs。3.根据权利要求2所述的方法,其特征在于,在通过特征选择算法efs_br优化训练集的过程中,所述方法还包括:通过过滤式特征选择算法确定所述被选择的特征数据矩阵fs和未被选择的特征数据矩阵ufs中每个特征和标签的关联度;根据所述关联度从所述被选择的s个特征中筛选出关联度较高的k个特征,并生成关于所述k个特征的第一矩阵;根据所述关联度从所述未被选择的d-s个特征中筛选出关联度较高的t个特征,并生成关于所述t个特征的第二矩阵;将所述第一矩阵和所述第二矩阵进行合并,得到合并矩阵w,以剔除fs中关联度未达到关联度阈值的特征;根据所述合并矩阵w训练基模型,所述基模型采用逻辑回归分类算法;计算所述基模型的分类损失值,根据所述分类损失值确定最终输出的合并矩阵w*,作为优化后的训练集。4.根据权利要求2所述的方法,其特征在于,在通过特征选择算法efs_br优化训练集的过程中,所述方法还包括:在确定被选择的特征数据矩阵fs和未被选择的特征数据矩阵ufs后,进入外层循环;其中,根据被选择的特征个数s确定外层循环次数为s;从被选择的特征数据矩阵fs中筛选出前k个关联度较高的特征生成第一矩阵,所述k与所述外层循环的当前循环次序相等;进入内层循环,根据所述第一矩阵得到合并矩阵w,根据所述合并矩阵w训练基模型,所述基模型采用逻辑回归分类算法;根据测试集及其分类标签数据计算得到所述基模型的分类损失值,确定当前循环内所述分类损失值最小时对应的合并矩阵;其中,所述测试集中的特征类别与合并矩阵的特征类别相同;内层循环结束后继续外层循环,外层循环结束后返回分类损失值最小时对应的合并矩阵w*,根据所述合并矩阵w*得到优化后的训练集。5.根据权利要求4所述的方法,其特征在于,所述根据所述第一矩阵得到合并矩阵,具
体包括:从所述未被选择的特征数据矩阵中筛选出前t个关联度较高的特征生成第二矩阵,所述t与所述内层循环的当前循环次序相等;将第一矩阵和所述第二矩阵进行合并,得到合并矩阵。6.根据权利要求4所述的方法,其特征在于,所述确定当前循环内所述分类损失值最小时对应的合并矩阵,具体包括:将所述基模型的分类损失值和预设的初始分类损失值进行比较;若计算得到的分类损失值小于所述初始分类损失值,则将计算得到的分类损失值作为初始分类损失值,并将所述合并矩阵作为分类损失值最小时对应的特征数据矩阵。7.根据权利要求1所述的方法,其特征在于,通过综合采样算法对训练集数据进行平衡处理,包括:对于训练集中的样本,通过smote算法从样本少的类别中随机抽样,再将抽样后处理得到的新样本添加到训练集中,得到初步平衡的训练集;通过enn算法剔除初步平衡的训练集中的重叠样本,得到最终平衡后的训练集。8.根据权利要求1所述的方法,其特征在于,通过训练集完成分类模型的训练,包括:根据通过特征选择算法efs_br优化后的数据集对分类模型进行训练,得到分类模型;其中,所述分类模型采用逻辑回归分类算法lr。9.根据权利要求1所述的方法,其特征在于,所述获取车险理赔欺诈的待测数据集,具体包括:获取车险理赔欺诈检测的初始数据集;根据efs_br算法的优化结果从所述初始数据集中筛选出相应特征,得到特征筛选后的待测数据集。10.一种基于新型特征优化算法的车筛选骗识别装置,其特征在于,包括:数据采集模块,用于获取车险理赔欺诈检测的待测数据集;模型预测模块,用于基于分类模型对所述待测数据集进行分类处理,得到分类结果;其中,所述分类模型通过训练集完成训练,所述训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;所述分类结果用于反映是否存在车险理赔欺诈行为。11.一种基于新型特征优化算法的车险诈骗识别设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通过总线通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被执行,以实现:获取车险理赔欺诈的待测数据集;基于分类模型对所述待测数据集进行分类处理,得到分类结果;其中,所述分类模型通过训练集完成训练,所述训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;所述分类结果用于反映是否存在车险理赔欺诈行为。12.一种非易失性存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令由处理器执行,以实现下述步骤:
获取车险理赔欺诈的待测数据集;基于分类模型对所述待测数据集进行分类处理,得到分类结果;其中,所述分类模型通过训练集完成训练,所述训练集为通过综合采样算法进行平衡处理以及通过特征选择算法efs_br优化后的数据集;所述分类结果用于反映是否存在车险理赔欺诈行为。

技术总结
本发明公开了一种基于新型特征优化算法的车险诈骗识别方法、装置及设备,该方法包括:获取车险理赔欺诈的待测数据集;基于分类模型对待测数据集进行分类处理,得到分类结果;其中,分类模型通过训练集完成训练,训练集为通过综合采样算法SMOTEEN进行平衡处理以及通过本发明提出的特征选择算法EFS_BR优化后的数据集;分类结果用于反映是否存在车险理赔欺诈行为。本发明能够达到剔除无用特征、降低模型计算复杂度和提高模型识别率的效果。计算复杂度和提高模型识别率的效果。计算复杂度和提高模型识别率的效果。


技术研发人员:何晓霞 颜巍 文艺 张铎 易显龙
受保护的技术使用者:中国人民财产保险股份有限公司
技术研发日:2023.04.07
技术公布日:2023/8/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐