基于大数据建立电商风险评级的方法及电子设备与流程
未命名
10-09
阅读:62
评论:0

1.本技术涉及机器学习及商业大数据技术领域,具体而言,涉及一种基于大数据建立电商风险评级的方法及电子设备、计算机可读介质。
背景技术:
2.随着电子商务特别是跨境电商的发展,越来越多的跨境电商开始出现融资需求。金融机构开展跨境电商融资业务时,信用风险的评级依赖线下尽调,时间和人力成本相对较高。这就导致对跨境电商的纯信用融资如无根之水,抵押贷款占据主导地位,使得许多运营良好需要融资但缺乏抵押的电商的发展被限制。
3.随着网络计算技术的发展,电子商务活动中产生了大量的商业大数据。因此,考虑开发一种基于大数据进行风险评级的方法,从而解决金融机构对企业提供融资等服务时的风险评级问题。
4.在所述背景技术部分公开的上述信息仅用于加强对本技术的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
5.本技术旨在提供一种基于大数据建立电商风险评级的方法,利用大数据解决金融机构对企业提供融资等服务时的风险评级问题。
6.本技术的其该用户特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
7.根据本技术的一方面,提供一种基于大数据建立电商风险评级的方法,包括:
8.获取接口数据;
9.获取初始标记样本;
10.训练得到第一模型;
11.利用第一模型进行样本标签化;
12.选择多个风险指标;
13.利用标签化样本训练随机森林模型,从而得到风险评级模型;
14.将目标用户的样本和风险指标放入训练得到的随机森林模型,将随机森林模型输出的平均值作为所述目标用户的总体风险预测值。
15.根据一些实施例,所述训练随机森林模型还包括:将平均oob得分作为评测标准,对随机森林模型的参数进行优化。
16.根据一些实施例,所述训练得到第一模型,包括:利用决策树模型进行训练得到所述第一模型。
17.根据一些实施例,所述利用第一模型进行样本标签化,包括:
18.将之前未标记的样本放入所述第一模型中得到对未标记样本的预测标记概率并排序,并按比例将得到的排序样本中的头部样本和尾部样本分别标记为正样本和负样本,
放入已有标记样本的样本空间中。
19.根据一些实施例,所述选择多个风险指标包括:对指标空间应用ks检验排序,保留重要性排名在前的n个风险指标。
20.根据一些实施例,所述方法用于金融机构对电商进行风险评级。
21.根据本技术的另一方面,提供一种电子设备,包括:一个或多个处理单元;存储单元,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现前述的方法。
22.根据本技术的另一方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现前述的方法。
23.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
24.通过参照附图详细描述其示例实施例,本技术的上述和其它目标、特征及优点将变得更加显而易见。
25.图1示出根据本技术示例实施例的基于大数据建立电商风险评级预测的方法。
26.图2a示出根据本技术实施例示出的风险评级示例。
27.图2b示出根据本技术实施例示出预警信息的示例。
28.图3示出根据示例实施例生成风险样本的方法的示意图。
29.图4示出根据本技术示例实施例的电子设备的框图。
具体实施方式
30.现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本技术将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
31.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
32.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
33.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
34.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图
在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
35.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其它实施例相结合。
36.金融机构为企业提供融资等金融服务时,一般通过建立风险评分卡的方式进行风险评级预测。首先,结合样本标签对风险指标进行卡方分箱(基于逻辑回归算法),就是将连续型的数据离散化,比如年龄这个变量可以分箱为0-18,18-30,30-45,45-60等。
37.接着,计算不同指标不同区间的风险得分。
38.最后,将目标用户的风险指标匹配对应区间的风险得分并加总得到总风险评分。
39.风险评分卡无法进行用户风险画像,风险评分卡也很难处理数据不平衡的问题。例如,对于一个正负样本非常不平衡的问题比如正负样本比10000:1,把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器,它对正负样本的区分能力不会很好。
40.此外,风险评分卡处理非线性数据较麻烦,也无法筛选风险指标。
41.跨境电商在其价值链上会产生海量可获取的原始数据,将这些原始商业大数据从数据资产转化为被金融机构接受的信用资产,可以帮助跨境电商从金融机构更加高效和低成本地获得融资。
42.为此,本技术提出一种基于大数据进行风险评级的方法,通过机器学习,对企业风险评级进行预测,从而为金融机构提供可信赖的融资依据。根据一些实施例,通过训练随机森林模型获得风险评级预测模型,以用于对用户的风险评级进行预测。根据另一些实施例,采用梯度提升决策树算法或xgboost算法获得风险评级预测模型。
43.随机森林模型构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果。随机体现在两个方面,一个是随机取特征,另一个是随机取样本,让森林中的每棵树既有相似性又有差异性。森林中每棵树按照如下方式生长:如果过训练样本中有n个样本,那么从这n个样本中有放回的抽样n次,将得到的样本用于建树。设m为输入样本的特征数,对于每个节点分裂时,先从这m个特征中选择m(m《《m)个特征,然后再在这m个特征中选择最佳的分裂点进行分裂。每棵树都尽可能的生长,没有剪枝。
44.下面参照实施例对本技术的技术方案进行详细说明。
45.图1示出根据本技术示例实施例的建立风险评级预测的方法。
46.参加图1,在s101,进行样本标签化处理。
47.根据示例实施例,可以通过半监督学习的方式进行样本标签化过程,通过数据生成标签,从而确定训练样本,如后面所详细描述的。
48.在s103,选择多个风险指标。
49.根据一些实施例,可以使用简单的逻辑回归模型,使用回归系数作为筛选标准。此外,也可以使用正则化l1,l2筛选。
50.根据一些实施例,可以对指标空间应用ks检验排序,保留重要性排名在前的n个风
险指标。
51.ks检验(kolmogorov-smirnov检验)用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。在风控中,ks检验常用于评估风险指标区分度。区分度越大,说明风险指标的风险排序能力(ranking ability)越强。ks统计量是基于经验累积分布函数(empirical cumulative distribution function,ecdf)建立的。检验统计量为:
52.b(x),指特定指标小于等于x的样本中,坏样本的占比。
53.g(x),指特定指标小于等于x的样本中,好样本的占比。
54.检验过程如下:
55.(1)提出假设h0:b(x)=g(x)。
56.(2)计算特定指标好样本累计频率与坏样本累计频率的绝对差,令最大的绝对差为d,d=max{|b(x)-g(x)|}
57.(3)使用d作为特定指标的ks分值并排序。
58.通过对风险指标进行特征筛选,可以得到准确率更高的风险评级得分,并可大大减轻模型的运算任务。
59.在s105,利用标签化样本训练随机森林模型,从而得到风险评级模型。
60.根据示例实施例,利用训练样本训练随机森林模型。
61.训练得到随机森林模型之后,将目标用户的样本和风险指标放入训练得到的随机森林模型,将随机森林模型输出的平均值作为所述目标用户的总体风险预测值,如图2a所示。
62.根据一些实施例,还可将平均oob得分作为评测标准,对随机森林模型的参数进行优化,从而得到优化后的模型。
63.根据本技术的示例实施例,使用随机森林替代逻辑回归作为底层算法。在使用随机森林算法生成子决策树时,以特定数量的子树选取特定风险维度的风险指标。
64.根据一些实施例,通过无监督迁移学习,将对用户未来风险逾期概率的预测迁移为对用户未来运营状况的预测。这是因为,特征空间中的部分特征是领域独享的,而另一部分特征是领域共享且可泛化的,即领域运营状况与领域逾期概率具有大量共享特征。迁移学习是一种思想,而不是一种方法。具体而言,是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。无监督迁移学习即目标领域没有标注数据的迁移学习任务。通过学习新的特征表示φ(x),使得领域间共享特性增强而独享特性减弱。
65.根据一些实施例,在获取风险指标后,可通过与以前获得的风险指标比对,获得异常变化信息,从而发出预警。例如,同比销售下降超过80%同行业竞争者,或者冗余库存比超过80%同行业竞争者,或者日销售高于近30天日销售平均值3个标准差以上时,可发出预警信息,从而可将风险控制在最小范围内,如图2b所示。
66.图3示出根据示例实施例进行样本标签化处理的示意图。
67.图3所示方法可用于对商业大数据进行标签化处理。根据示例实施例,用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类。
68.参见图3,在s301,获取接口数据。
69.根据一些实施例,通过与电商生态中的主要参与者(包括电商平台、第三方支付、物流商、仓储服务商等)进行以接口等形式的数据对接,获取用户多个维度的原始数据。
70.可结合行业经验、商业模型、财务模型以及统计模型等,将原始数据快速(t+0)输出为风险指标(例如,销售同比环比,库存周转率,流量转化率,侵权投诉数,回款率,等等)。然后,可对样本进行标准化,例如进行z-score标准化处理。
71.在s303,获取初始标记样本。
72.初始标记样本可以是人工标记的部分样本数据,也可以是自动或半自动标记的部分样本。
73.在s305,训练得到第一模型。
74.将标记得到的初始标记样本切割为训练集与测试集,并放入简单的例如决策树模型进行训练得到第一模型。
75.在s307,利用第一模型进行样本标签化。
76.将之前未标记的样本放入第一模型中得到对未标记样本的预测标记概率并排序,并以一定的比例将得到的排序样本中的头部样本和尾部样本挑选出来分别标记为正样本和负样本,放入已有标记样本的样本空间中,作为第一标记样本。
77.这样,通过上述样本标签化过程,可以通过数据生成标签,节省了人力。
78.图4示出根据本技术示例实施例的电子设备的框图。
79.下面参照图4来描述根据本技术的这种实施方式的电子设备200。图4显示的电子设备200仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
80.如图4所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
81.存储单元220存储有程序代码,程序代码可以被处理单元210执行,使得处理单元210执行本说明书描述的根据本技术各实施例的方法。
82.存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(rom)2203。
83.存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
84.总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
85.电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
86.本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
87.本技术实施例还提供一种计算机程序产品,该计算机程序可操作来使计算机执行如上述方法实施例中记载的部分或全部步骤。
88.本领域的技术人员可以清楚地了解到本技术的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列(field-programmable gate array,fpga)、集成电路(integrated circuit,ic)等。
89.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。
90.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
91.以上对本技术实施例进行了详细描述和解释。应清楚地理解,本技术描述了如何形成和使用特定示例,但本技术不限于这些示例的任何细节。相反,基于本技术公开的内容的教导,这些原理能够应用于许多其它实施例。
92.通过对示例实施例的描述,本领域技术人员易于理解,根据本技术实施例的风险评级预测方法至少具有以下优点中的一个或多个。
93.根据本技术实施例,将电商运营中产生的大数据转化为风险评级模型。
94.根据一些实施例,金融机构可基于商业大数据进行风险准入评级,节省尽调的时间和人力。
95.此外,金融机构也可以在贷中和贷后实时获取风险指标的异常变化信息,将风险控制在最小范围内。
96.以上具体地示出和描述了本技术的示例性实施例。应可理解的是,本技术不限于这里描述的详细结构、设置方式或实现方法;相反,本技术意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。
技术特征:
1.一种基于大数据建立电商风险评级的方法,其特征在于,包括:获取接口数据;获取初始标记样本;训练得到第一模型;利用第一模型进行样本标签化;选择多个风险指标;利用标签化样本训练随机森林模型,从而得到风险评级模型;将目标用户的样本和风险指标放入训练得到的随机森林模型,将随机森林模型输出的平均值作为所述目标用户的总体风险预测值。2.如权利要求1所述的方法,其特征在于,所述训练随机森林模型还包括:将平均oob得分作为评测标准,对随机森林模型的参数进行优化。3.如权利要求1所述的方法,其特征在于,所述训练得到第一模型,包括:利用决策树模型进行训练得到所述第一模型。4.如权利要求1所述的方法,其特征在于,所述利用第一模型进行样本标签化,包括:将之前未标记的样本放入所述第一模型中得到对未标记样本的预测标记概率并排序,并按比例将得到的排序样本中的头部样本和尾部样本分别标记为正样本和负样本,放入已有标记样本的样本空间中。5.如权利要求1所述的方法,其特征在于,所述选择多个风险指标包括:对指标空间应用ks检验排序,保留重要性排名在前的n个风险指标。6.如权利要求1-5中任一项所述的方法,其特征在于,所述方法用于金融机构对电商进行风险评级。7.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理单元;存储单元,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据权利要求1-5中任一所述的方法。8.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1-5中任一所述的方法。
技术总结
本申请提供一种基于大数据建立电商风险评级的方法及电子设备。电子设备可包括:一个或多个处理单元;存储单元,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现根据本申请实施例的风险评级方法。根据本申请实施例的风险评级方法。根据本申请实施例的风险评级方法。
技术研发人员:李霞 靳佳为 李洪世
受保护的技术使用者:深圳市致格数智科技有限公司
技术研发日:2022.03.22
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/