基于图结构增强与图卷积特征的信贷风险识别方法和装置与流程

未命名 09-20 阅读:148 评论:0


1.本发明涉及信贷风控领域,具体涉及一种基于图结构增强与图卷积特征的信贷风险识别方法和装置。


背景技术:

2.随着金融信贷的迅猛发展,反欺诈风控在整个金融市场充当愈发重要的角色。信贷风控模型是金融反欺诈风控领域必不可少的一部分,可以帮助机构管理人员准确高效地识别客户是否具有偿还贷款的能力,在一定程度上可以减轻贷款审批人员的工作压力,同时降低违约率,减少违约带来的经济成本增加和用户征信受损。因此,建立高质量的信贷风控模型具有很大的现实意义。
3.传统的信贷风险识别方法大致可以分为两步:第一步是抽取特征,第二步是根据特征来判断模式应属于哪一类,通常把用户的个人信息作为特征建模,选定该建模样本,构建衍生变量,通过逻辑回归、树模型、集成学习等方式构建信用风险模型,得到客户违约概率的排序。
4.传统识别方法对用户特征与欺诈标签相关性强的情景效果优秀,但是却忽略了用户与用户之间的相关性,对于存在团伙欺诈贷款的识别能力较差。此外,现有的图卷积算法主要基于深度神经网络,通常神经网络的训练需要大量的数据,在某些数据样本较小的信贷风控场景下耦合度过高,识别效果差。


技术实现要素:

5.本发明旨在一定程度上解决相关技术中的技术问题之一。为此,本发明提供了一种基于图结构增强与图卷积特征的信贷风险识别方法和装备,本发明可以为分类器模型提供优秀的特征,并有效识别出信贷欺诈的发生。
6.为了达到上述目的,本发明采用如下技术方案:
7.一种基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,该方法包括:s1:在信贷风险识别场景中提取用户关系数据,构建关系图;所述用户关系数据包括用户数据以及用户间的交互事件;所述关系图包括多个节点,以及节点间的连接边,所述节点用于表示用户,所述连接边用于表示所述用户间的交互事件;对于各个所述节点,获取节点第一特征,对于各个所述连接边,获取边特征;s2:对所述关系图做图结构增强处理,至少获得两种用于用户图卷积分类模型训练的图结构,所述图结构包括一阶图结构;s3:对节点第一特征进行预处理获得节点第二特征;s4:进行图卷积特征处理,包括:基于节点第二特征分别构建节点在关系图和各个图结构下的节点聚合特征;构建节点在一阶图结构下的边聚合特征;s5:以节点为粒度合并节点第二特征、节点聚合特征和边聚合特征,得到节点第三特征;将节点第三特征输入到所述用户图卷积分类模型中进行训练,得到每个用户对应的风险度数据。
8.本发明通过增强图的结构充分挖掘节点之间的关联,对节点原特征进行预处理后
使用图卷积有效聚合邻居节点与邻居边的特征信息,为用户图卷积分类器模型提供优秀的特征,降低模型高耦合度、提升图卷积模型的泛化能力,有效识别出信贷欺诈的发生。
9.通过增强图的结构充分挖掘节点之间的关联、使用图卷积处理有效聚合邻居节点与邻居边的特征信息,从而在信贷领域等小样本场景中可以为分类器模型提供优秀的特征,可以有效识别出信贷欺诈的发生。
10.可选的,所述节点为源节点或目标节点,所述连接边包括有向边和无向边,所述有向边为从源节点指向目标节点的连接边;所述图结构还包括二阶图结构;所述对所述关系图做图结构增强处理包括:s21:所述关系图的有向边转置方向,得到一个一阶图结构;s22:所述关系图中的有向边转换成无向边,得到一个一阶图结构;s23:所述关系图中每个节点顺着有向边的方向完成两跳,连接该节点与两跳到达的节点,得到一个二阶图结构;s24:所述关系图每个节点逆着有向边的方向完成两跳,连接该节点与两跳到达的节点,得到一个二阶图结构;s25:所述关系图中指向同一节点的节点互相连接,并将有向边转换成无向边,得到一个二阶图结构;s26:所述关系图中被同一节点指向的节点互相连接,并将有向边转换成无向边,得到一个二阶图结构;s27:所述关系图中的有向边转换成无向边,每个节点按照连接边完成两跳,连接该节点和两跳后到达的节点,得到一个二阶图结构。
11.可选的,所述对节点第一特征进行预处理获得节点第二特征包括:获取每个节点第一特征的0值数量和缺失值数量;分别对所述节点第一特征、0值数量和缺失值数量做分箱处理获取各个分箱区间,计算各分箱区间的标签概率,得到分箱概率;获取每个节点第一特征的缺失状态和节点类型独热编码,将所述0值数量、缺失值数量、缺失状态、节点类型独热编码和所述节点第一特征拼接得到节点第二特征。
12.可选的,所述基于节点第二特征构建节点分别在关系图和各个图结构下的节点聚合特征包括:基于节点第二特征获取节点与邻居节点的相似度特征、邻居节点的特征均值和邻居节点的特征最大值后,进行拼接处理,得到节点聚合特征。
13.可选的,所述边特征包括边类型、边时间戳,所述边聚合特征包括边聚合第一特征,所述构建边特征在一阶图结构下的边聚合特征包括:获取节点邻居边属于各边类型的数量、节点邻居边的边时间戳数量、节点时间戳差值和时间戳差值频率后进行拼接处理,得到边聚合第一特征;其中,所述邻居边为节点与邻居节点间的连接边,所述节点时间戳差值为节点的最晚邻居边时间戳与最早邻居边时间戳的差值,所述时间戳差值频率为所述节点第一时间戳差值与所述节点邻居边的边时间戳数量之比,从关系图信息中充分利用时序信息作为特征。
14.可选的,所述边聚合特征还包括边时间戳特征,所述构建节点在一阶图结构下的边聚合特征还包括:获取源节点、目标节点的概率特征和类型特征后进行拼接处理,得到边时间戳特征;其中,源节点、目标节点的概率特征分别为每个边时间戳的邻居边中源节点属于各节点类型的概率、目标节点属于各类型的概率,源节点、目标节点的类型特征分别为每个边时间戳的邻居边中源节点概率最高的节点类型、目标节点概率最高的节点类型。
15.可选的,所述边聚合特征还包括特殊边特征,所述构建节点在一阶图结构下的边聚合特征还包括:基于边时间戳特征得到节点的4种特殊边,拼接4种特殊边的边特征、特殊边中节点与邻居节点的节点类型以及邻居节点的节点第二特征,得到特殊边特征;其中,所述特殊边为节点的最晚出边、最晚入边、最早出边和最早入边,从而充分利用节点的特殊边
信息作为特征。
16.可选的,所述边聚合特征还包括节点时间戳差值特征,所述构建节点在一阶图结构下的边聚合特征还包括:拼接节点特殊边间的边时间戳差值,得到节点时间戳差值特征;其中,所述节点特殊边间的边时间戳差值包括最晚出边与最晚入边间的边时间戳差值、最晚出边与最早出边间的边时间戳差值、最晚出边与最早入边间的边时间戳差值、最晚入边与最早出边间的边时间戳差值、最晚入边与最早入边间的边时间戳差值和最早出边与最早入边间的边时间戳差值。
17.可选的,所述节点第一特征包括用户id、年龄、负债比率、月收入和信用贷款笔数。
18.此外,本发明还提供了一种基于图结构增强与图卷积特征的信贷风险识别的装置,包括:图构建单元,配置为在信贷风险识别场景中提取数据,构建关系图;所述用户关系数据包括用户数据以及用户间的交互事件;所述关系图包括多个节点,以及节点间的连接边;所述节点用于表示用户,所述连接边用于表示所述用户间的交互事件;对于各个所述节点,获取节点第一特征,对于各个所述连接边,获取边特征;图增强单元,配置为对所述关系图做图结构增强处理,至少获得两种用于用户图卷积分类模型训练的图结构,所述图结构包括一阶图结构;节点第一特征预处理单元,配置为对节点第一特征进行预处理获得节点第二特征;图卷积特征单元,配置为基于节点第二特征分别构建节点在关系图和各个图结构下的节点聚合特征,构建节点在一阶图结构下的边聚合特征;分类模型训练单元,配置为以节点为粒度合并节点第二特征、节点聚合特征和边聚合,得到节点第三特征;将节点第三特征输入到所述用户图卷积分类模型中训练,得到每个用户对应的风险度数据。
19.并且,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权上述的基于图结构增强与图卷积特征的信贷风险识别方法。
20.同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于图结构增强与图卷积特征的信贷风险识别方法。
21.本发明的这些特点和优点将会在下面的具体实施方式以及附图中进行详细的揭露。本发明最佳的实施方式或手段将结合附图来详尽表现,但并非是对本发明技术方案的限制。另外,在每个下文和附图中出现的这些特征、要素和组件是具有多个,并且为了表示方便而标记了不同的符号或数字,但均表示相同或相似构造或功能的部件。
附图说明
22.下面结合附图对本发明作进一步说明:
23.图1为本发明一实施例中基于图结构增强与图卷积特征的信贷风险识别方法的流程示意图;
24.图2为本发明上述实施例中图结构增强处理方式示意图;
25.图3为本发明上述实施例中分箱处理的示意图;
26.图4为本发明上述实施例中图卷积特征处理的示意图;
27.图5为本发明一实施例的基于图结构增强与图卷积特征的信贷风险识别装置的示意图。
具体实施方式
28.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。基于实施方式中的实施例,旨在用于解释本发明,而不能理解为对本发明的限制。
29.在本说明书中引用的“一个实施例”或“实例”或“例子”意指结合实施例本身描述的特定特征、结构或特性可被包括在本专利公开的至少一个实施例中。短语“在一个实施例中”在说明书中的各位置的出现不必都是指同一个实施例。
30.实施例:
31.参照图1,本实施例基于图结构增强与图卷积特征的信贷风险识别方法的流程包括提取用户关系数据、构建关系图及获取节点特征和边特征、图结构增强处理、节点特征预处理、图卷积特征工程和分类模型训练及预测。
32.具体的,流程图中提取用户关系数据为以下步骤:在信贷风险识别场景中提取用户关系数据,构建关系图;其中用户关系数据包括与用户数据以及用户间的交互事件。关系图包括多个节点,以及节点间的连接边,节点用于表示用户,连接边用于表示用户间的交互事件。节点为源节点或目标节点;对于各个节点,获取节点第一特征,对于各个连接边,获取边特征。
33.参照表1-2,节点第一特征包括用户id、年龄、负债比率、月收入和信用贷款笔数等,边特征包括源节点编号、目标节点编号、边时间戳和边类型。
34.表1.节点特征表
35.用户id年龄负债比率月收入信用贷款笔数321088035340.2120003321046542200.549002
……………
321347654750.322754
36.表2.边特征表
37.源节点编号目标节点编号边时间戳边类型010342021042307452154392021042312169
…………
64323472023042916346
38.流程图中图结构增强处理包括对构建的关系图做图结构增强,获得7张图结构gk(k=1

8),包括一阶图结构gk(k=1

3)和二阶图结构gk(k=4

8)。一阶图结构和二阶图结构均用于用户图卷积分类模型训练。参照图2,图中圆圈代表节点,节点表示用户,圆圈之间的连接线代表节点间的连接边,节点包括源节点和目标节点,连接边包括有向边和无向边,有向边为从源节点指向目标节点的连接边,1-hop指每个节点只跳一步,2-hop指每个节点跳两步,图g1为关系图。图结构增强包括以下方式:基于g1图进行边方向转置得到图g2,边方向转置即对源节点和目标节点间的有向边进行方向转换;基于图g1,将其中的有向边转换为无向边,得到g3;基于图g1,每个节点顺着有向边的方向完成两跳,连接该节点与两跳到达的节点得到图g4;基于图g1,每个节点逆着有向边的方向完成两跳,连接该节点与两
跳到达的节点得到图g5;基于图g1,指向同一节点的节点互相连接,并转无向图后得到图g6;基于图g1,被同一节点指向的节点互相连接,并转无向图后得到图g7;基于图g1,将其中的有向边转换为无向边后,每个节点按照连接边完成两跳,连接该节点和两跳后到达的节点得到g8。
39.流程图中节点特征预处理包括:参照图3,假设节点第一特征为x,先统计每个节点第一特征的0值数量,缺失数量,分别对节点第一特征、0值数量、缺失值数量做分箱获取分箱区间,再计算各分箱区间的标签概率,得到分箱概率。获取每个节点第一特征的缺失状态和节点类型onehot编码(即节点类型独热编码),将节点第一特征的0值数量、缺失值数量、缺失状态、节点类型独热编码和节点第一特征拼接得到节点第二特征。
40.流程图中图卷积特征处理包括节点特征聚合和边特征聚合。其中节点特征聚合包括以下步骤:
41.基于节点第二特征构建节点在图gk,(k=1...8)进行卷积操作,具体为:
42.参照图4,其中,假设节点第二特征为xi,节点i的邻居节点为节点j,xj为节点j的第二特征,使用的图为gk,(k=1...8),节点i在图gk中的出度为可以进行以下图卷积特征工程。
43.节点i与节点j的相似度由公式(1)计算得出:
[0044][0045]
节点i的节点j的特征均值由公式(2)计算得出:
[0046][0047]
节点i的邻居节点j的特征最大值由公式(3)计算得出:
[0048]
maxk(i)=max(xj),j∈neighbourk(i)(3)
[0049]
对上述节点i与节点j的相似度、特征均值和节点j的特征最大值进行拼接,构建出节点i在图gk,(k=1...8)下的节点聚合特征如公式(4)所示:
[0050][0051]
对于图gk(k=1,2,3),构建节点i在图gk(k=1,2,3)下的边聚合第一特征,具体为:
[0052]
假设节点i在图gk(k=1,2,3)的出度为即节点i有条邻居边。邻居边的边特征为其中,为邻居边的边类型,为邻居边的边时间戳。
[0053]
节点i的邻居边各类型数量由公式(5)计算得出:
[0054][0055]
节点i的邻居边时间戳统计量由公式(6)计算得出:
[0056]
[0057]
计算得到节点i的最晚邻居边时间戳与最早邻居边时间戳的差值,如公式(7)所示:
[0058][0059]
计算得到时间戳差频率,如公式(8)所示,其中时间戳差值频率为节点第一时间戳差值与节点邻居边的边时间戳数量之比。
[0060][0061]
拼接上述节点邻居边属于各边类型的数量、节点邻居边的边时间戳数量、节点时间戳差值和时间戳差值频率后,构建出节点i在图gk(k=1,2,3)下的边聚合特征,从关系图信息中充分利用时序信息作为特征,如公式(9)所示:
[0062][0063]
对于图gk(k=1,2),构建节点i在图gk(k=1,2)下的边时间戳特征,具体为:
[0064]
假设节点的邻居边的边时间戳为j∈neighbouredgek(i),根据边时间戳统计出每个时间戳的边中源节点属于各节点类型的概率、目标节点属于各类型的概率、源节点概率最高的类型和目标节点概率最高的类型。这些统计量拼接后作为边时间戳特征后续处理中以边时间戳作为主键将边时间戳特征加入到节点第二特征中。
[0065]
对于图g1,构建节点i在图g1下的特殊边特征,具体为:
[0066]
从边时间戳特征中统计节点i的4种特殊边:最晚的出边最晚的入边最早的出边最早的入边假设节点i的每一种特殊边所连接的另一节点为j,拼接4种特殊边的边特征、特殊边中节点与邻居节点的节点类型以及邻居节点的节点第二特征,得到特殊边特征从而充分利用节点的特殊边信息作为特征。
[0067]
对于图g1,构建节点i在图g1下的边时间差戳特征,具体为:
[0068]
假设节点i在图g1,邻居边特征中的边的时间戳特征j∈neighbouredge1(i)。从边时间戳特征中统计节点i最晚出边的时间戳最晚入边的时间戳最早出边的时间戳最早入边的时间戳计算最晚出边与最晚入边间的边时间戳差值、最晚出边与最早出边间的边时间戳差值、最晚出边与最早入边间的边时间戳差值、最晚入边与最早出边间的边时间戳差值、最晚入边与最早入边间的边时间戳差值和最早出边与最早入边间的边时间戳差值,如公式(10-15)所示。
[0069][0070][0071][0072]
[0073][0074][0075]
拼接上述边时间戳差值得到节点时间戳差值特征如公式(16)所示:
[0076][0077]
流程图中分类模型训练及预测包括:参照图4,f0=x0,表示原特征。对于图g1,从节点特征聚合过程获得特征x1,边聚合获得特征e1,e_ts1,e_ts_gap1,e_sp1,拼接得到特征f1=concat[x1,e1,e_ts1,e_ts_gap1,e_sp1];对于图g2,从节点特征聚合过程获得特征x2,边聚合获得特征e1、e_ts1,拼接得到特征f2=concat[x3,e3,e_ts2];对于图g3,从节点特征聚合过程获得特征x3,边聚合获得的特征e3拼接得到特征f3=concat[x3,e3];对于图gk,(k=4...8),将从节点特征聚合过程获得的特征xi作为特征,fi=xi。拼接以上特征得到节点第三特征f=concat[f0...f8],将节点第三特征f输入到用户图卷积分类模型中进行训练,以auc作为模型衡量标准,最终模型输出每个用户对应的风险度数据。
[0078]
此外,参照图5,本实施例还提供了一种基于图结构增强与图卷积特征的信贷风险识别的装置,配置为包括:图构建单元11,配置为在信贷风险识别场景中提取数据,构建关系图;所述用户关系数据包括用户数据以及用户间的交互事件;所述关系图包括多个节点,以及节点间的连接边;所述节点用于表示用户,所述连接边用于表示所述用户间的交互事件;对于各个所述节点,获取节点第一特征,对于各个所述连接边,获取边特征;图增强单元12,配置为对所述关系图做图结构增强处理,至少获得两种用于用户图卷积分类模型训练的图结构,所述图结构包括一阶图结构;节点第一特征预处理单元13,配置为对节点第一特征进行预处理获得节点第二特征;图卷积特征单元14,配置为基于节点第二特征分别构建节点在关系图和各个图结构下的节点聚合特征,构建节点在一阶图结构下的边聚合特征;分类模型训练单元15,配置为以节点为粒度合并节点第二特征、节点聚合特征和边聚合特征,得到节点第三特征;将节点第三特征输入到所述用户图卷积分类模型中训练,得到每个用户对应的风险度数据。
[0079]
与此同时,本实施例还提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述基于图结构增强与图卷积特征的信贷风险识别的步骤。此处基于图结构增强与图卷积特征的信贷风险识别方法的步骤可以是上述各个实施例的内存分析方法中的步骤。
[0080]
另外,本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述基于图结构增强与图卷积特征的信贷风险识别方法。
[0081]
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。据此,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可实现上述任意一项实施例的方法。
其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)以及存储器总线动态ram(rdram)等。
[0082]
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,熟悉该本领域的技术人员应该明白本发明包括但不限于附图和上面具体实施方式中描述的内容。任何不偏离本发明的功能和结构原理的修改都将包括在权利要求书的范围中。

技术特征:
1.一种基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,该方法包括:s1:在信贷风险识别场景中提取用户关系数据,构建关系图;所述用户关系数据包括用户数据以及用户间的交互事件;所述关系图包括多个节点,以及节点间的连接边,所述节点用于表示用户,所述连接边用于表示所述用户间的交互事件;对于各个所述节点,获取节点第一特征,对于各个所述连接边,获取边特征;s2:对所述关系图做图结构增强处理,至少获得两种用于用户图卷积分类模型训练的图结构,所述图结构包括一阶图结构;s3:对节点第一特征进行预处理获得节点第二特征;s4:进行图卷积特征处理,包括:基于节点第二特征分别构建节点在关系图和各个图结构下的节点聚合特征;构建节点在一阶图结构下的边聚合特征;s5:进行分类训练,包括:以节点为粒度合并节点第二特征、节点聚合特征和边聚合特征,得到节点第三特征;将节点第三特征输入到所述用户图卷积分类模型中进行训练,得到每个用户对应的风险度数据。2.根据权利要求1所述的基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,所述节点为源节点或目标节点,所述连接边包括有向边和无向边,所述有向边为从源节点指向目标节点的连接边;所述图结构还包括二阶图结构;所述对所述关系图做图结构增强处理包括:s21:所述关系图的有向边转置方向,得到一个一阶图结构;s22:所述关系图中的有向边转换成无向边,得到一个一阶图结构;s23:所述关系图中每个节点顺着有向边的方向完成两跳,连接该节点与两跳到达的节点,得到一个二阶图结构;s24:所述关系图每个节点逆着有向边的方向完成两跳,连接该节点与两跳到达的节点,得到一个二阶图结构;s25:所述关系图中指向同一节点的节点互相连接,并将有向边转换成无向边,得到一个二阶图结构;s26:所述关系图中被同一节点指向的节点互相连接,并将有向边转换成无向边,得到一个二阶图结构;s27:所述关系图中的有向边转换成无向边,每个节点按照连接边完成两跳,连接该节点和两跳后到达的节点,得到一个二阶图结构。3.根据权利要求1所述的基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,所述对节点第一特征进行预处理获得节点第二特征包括:获取每个节点第一特征的0值数量和缺失值数量;分别对所述节点第一特征、0值数量和缺失值数量做分箱处理获取各个分箱区间,计算各分箱区间的标签概率,得到分箱概率;获取每个节点第一特征的缺失状态和节点类型独热编码,将所述0值数量、缺失值数量、缺失状态、节点类型独热编码和所述节点第一特征拼接得到节点第二特征。4.根据权利要求3所述的基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,所述基于节点第二特征构建节点分别在关系图和各个图结构下的节点聚合特征包括:基于节点第二特征获取节点与邻居节点的相似度、邻居节点的特征均值和邻居节点的特征最大值后,进行拼接处理,得到节点聚合特征。
5.根据权利要求2所述的基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,所述边特征包括边类型、边时间戳,所述边聚合特征包括边聚合第一特征,所述构建边特征在一阶图结构下的边聚合特征包括:获取节点邻居边属于各边类型的数量、节点邻居边的边时间戳数量、节点时间戳差值和时间戳差值频率后进行拼接处理,得到边聚合第一特征;其中,所述邻居边为节点与邻居节点间的连接边,所述节点时间戳差值为节点的最晚邻居边时间戳与最早邻居边时间戳的差值,所述时间戳差值频率为所述节点第一时间戳差值与所述节点邻居边的边时间戳数量之比。6.根据权利要求5所述的基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,所述边聚合特征还包括边时间戳特征,所述构建节点在一阶图结构下的边聚合特征还包括:获取源节点、目标节点的概率特征和类型特征后进行拼接处理,得到边时间戳特征;其中,源节点、目标节点的概率特征分别为每个边时间戳的邻居边中源节点属于各节点类型的概率、目标节点属于各类型的概率,源节点、目标节点的类型特征分别为每个边时间戳的邻居边中源节点概率最高的节点类型、目标节点概率最高的节点类型。7.根据权利要求6所述的基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,所述边聚合特征还包括特殊边特征,所述构建节点在一阶图结构下的边聚合特征还包括:基于边时间戳特征得到节点的4种特殊边,拼接4种特殊边的边特征、特殊边中节点与邻居节点的节点类型以及邻居节点的节点第二特征,得到特殊边特征;其中,所述特殊边为节点的最晚出边、最晚入边、最早出边和最早入边。8.根据权利要求7所述的基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,所述边聚合特征还包括节点时间戳差值特征,所述构建节点在一阶图结构下的边聚合特征还包括:拼接节点特殊边间的边时间戳差值,得到节点时间戳差值特征;其中,所述节点特殊边间的边时间戳差值包括最晚出边与最晚入边间的边时间戳差值、最晚出边与最早出边间的边时间戳差值、最晚出边与最早入边间的边时间戳差值、最晚入边与最早出边间的边时间戳差值、最晚入边与最早入边间的边时间戳差值和最早出边与最早入边间的边时间戳差值。9.根据权利要求1所述的基于图结构增强与图卷积特征的信贷风险识别方法,其特征在于,所述节点第一特征包括用户id、年龄、负债比率、月收入和信用贷款笔数。10.一种基于图结构增强与图卷积特征的信贷风险识别的装置,包括:图构建单元,配置为在信贷风险识别场景中提取数据,构建关系图;所述用户关系数据包括用户数据以及用户间的交互事件;所述关系图包括多个节点,以及节点间的连接边;所述节点用于表示用户,所述连接边用于表示所述用户间的交互事件;对于各个所述节点,获取节点第一特征,对于各个所述连接边,获取边特征;图增强单元,配置为对所述关系图做图结构增强处理,至少获得两种用于用户图卷积分类模型训练的图结构,所述图结构包括一阶图结构;节点第一特征预处理单元,配置为对节点第一特征进行预处理获得节点第二特征;图卷积特征单元,配置为基于节点第二特征分别构建节点在关系图和各个图结构下的节点聚合特征,构建节点在一阶图结构下的边聚合特征;分类模型训练单元,配置为以节点为粒度合并节点第二特征、节点聚合特征和边聚合特征,得到节点第三特征;将节点第三特征输入到所述用户图卷积分类模型中训练,得到每
个用户对应的风险度数据。11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述的基于图结构增强与图卷积特征的信贷风险识别方法。12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的基于图结构增强与图卷积特征的信贷风险识别方法。

技术总结
本发明公开了一种基于图结构增强与图卷积特征的信贷风险识别方法和装置,涉及信贷风控领域,该方法包括:S1:在信贷风险识别场景中提取用户数据,构建关系图;关系图包括多个节点以及节点间的连接边;对于节点获取节点第一特征,对于连接边获取边特征;S2:对关系图做图结构增强处理,获得至少两种图结构;S3:对节点第一特征进行预处理获得节点第二特征;S4:分别构建节点在关系图和各个图结构下的节点聚合特征;构建节点的边聚合特征;S5:合并节点第二特征、节点聚合特征和边聚合特征得到节点第三特征并输入到用户图卷积分类模型中进行训练,得到每个用户对应的风险度数据。本发明在信贷领域等小样本场景中可以为分类器模型提供优秀的特征。供优秀的特征。供优秀的特征。


技术研发人员:王雷 任立新 段明江 王新宇 鲁萍
受保护的技术使用者:浙江邦盛科技股份有限公司
技术研发日:2023.06.26
技术公布日:2023/9/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐