一种异常商户分类方法及装置与流程

未命名 10-09 阅读:79 评论:0


1.本技术涉及图神经网络领域,尤其涉及一种异常商户分类方法及装置。


背景技术:

2.由于现有的图神经网络的目的是完成节点的类别的预测,其认为边的信息和节点的信息并没有直接的关联,所以并没有特定的将边信息转换为点信息的方法,于是边的信息很难被利用。现有的通过图神经网络对商户进行分类的方式中,主要也是利用边的结构信息,即将边作为一种用来传递信息的介质,没有充分利用边的内容信息。但实际上,边的内容信息可能反应了节点之间的紧密程度,而节点之间的紧密程度也会对最终的预测结果造成影响。因此,现有的通过图神经网络对商户进行分类的预测结果不够准确。


技术实现要素:

3.本技术提供一种异常商户分类方法及装置,用以充分利用图神经网络中边的内容信息,从而提高商户分类的准确性。
4.第一方面,本技术提供一种异常商户分类方法,该方法包括:接收图结构数据;所述图结构数据中的节点包括表征商户实体信息的商户节点和表征用户实体信息的用户节点,所述图结构数据中的边用于表征用户实体与商户实体间的交易信息;通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度;其中,任一元路径为通过同一用户节点在两个商户节点间的边构建的;两条边之间的相似程度表征两个交易信息之间的相似程度,相似程度越高强度值越高;针对任一商户节点,基于所述商户节点与其它商户节点间的各元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况。
5.上述技术方案中,根据用户实体与商户实体间的交易信息确定商户节点间的各元路径的强度,将图结构数据中边的内容信息作为判断边的关系强弱的度量,有效地利用了利用的边的内容信息,并将内容信息优化为结构信息的一种。进而在基于商户节点间的各元路径的强度和商户实体的初始异常值确定商户实体的异常情况时,可以提高商户实体异常情况分类的准确性。在一种可能的设计中,元路径按照强度分为强元路径、中元路径及弱元路径三种;基于所述商户节点与其它商户节点间的元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况之前,还包括:确定所述商户节点与其它商户节点间的所有元路径中至少包括一个强元路径或至少一个中元路径。
6.上述技术方案中,在实际应用中,商户实体间绝大部分的元路径都是弱元路径,通过弱元路径连接的商户实体的异常情况不会传播。因此,通过对元路径的分类,在确定商户实体的异常情况之前,将商户实体间的弱元路径舍弃,或者说不考虑弱元路径,只考虑实体的异常情况在中元路径和强元路径上的传递,可以减少大量的计算,极大地提升了算法的运算效率,节约了计算资源。
7.在一种可能的设计中,基于所述商户节点与其它商户节点间的元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况,包括:根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对所述商户实体的初始异常值进行修正,得到所述商户实体的异常情况。
8.上述技术方案中,由于正负样本的影响力是不同的,因此与正常商户实体相比,异常商户实体的异常行为对与其存在关联的其它商户实体的影响更大、更有决定性。因此,根据商户实体的异常行为可传递至元路径上其它商户实体的原则,对所述商户实体的初始异常值进行修正,可以提高商户实体异常情况判断的准确性。在一种可能的设计中,所述根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对所述商户实体的初始异常值进行修正,包括:若第一商户实体与第二商户实体之间存在强元路径,且所述第二商户实体的初始异常值为异常,则将所述第一商户实体的初始异常值修正为异常;若第三商户实体与各第四商户实体之间不存在强元路径但存在至少一条中元路径,则根据所述第三商户实体的初始异常值及所述各第四商户实体的初始异常值,确定所述第三商户实体修正后的异常值。
9.上述技术方案中,强元路径的商户实体可将异常行为传递给强元路径上的其他商户实体,中元路径的商户实体可将部分异常行为传递给中元路径上的其他商户实体。根据不同强度的元路径的消息传递强度不同,对商户实体的初始异常值进行修正,可以提高商户实体异常情况判断的准确性。
10.在一种可能的设计中,所述方法包括:通过如下公式确定所述第三商户实体修正后的异常值:
[0011][0012]
t

(x)为三商户实体修正后的异常值,t(x)为第三商户实体的初始异常值,∑t(n)为各第四商户实体的初始异常值的和,n为第四商户实体的数目,μ1、μ2为训练参数,μ1+μ2=1。
[0013]
在一种可能的设计中,所述对所述商户实体的初始异常值进行修正之前,还包括:针对任一其他商户节点,确定所述商户节点与所述其它商户节点间的相似元路径数目;确定所述商户节点与所述其他商户节点之间的相似元路径数目小于设定阈值;其中,相似元路径为具有相同的商户实体但不同的用户实体的元路径。
[0014]
上述技术方案中,若两个商户实体间存在过多的相似元路径,则可能这两个商户实体为某一类具有共同性的正常商户实体。因此,可以通过两个商户实体间相似元路径的数目来防止误杀。通过商户实体间相似元路径的数目辅助判断两个商户的关联关系,可以提高商户实体异常情况判断的准确性。
[0015]
在一种可能的设计中,所述设定阈值根据所述图结构数据中各商户实体间的相似元路径数目,及设定的相似元路径的分位数确定。
[0016]
在一种可能的设计中,所述交易信息包括交易时间和交易金额;所述通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度,包括:针对所述图结构数据中的任一元路径,根据所述元路径的两条交易信息中交易时间的相似程度,及交易
金额的相似程度,确定所述元路径的强度值;其中,若交易时间越接近且交易金额越接近,则元路径的强度值越强;根据所述元路径的强度值及各个强度元路径的强度值范围,确定所述元路径的强度。
[0017]
在一种可能的设计中,所述方法包括:通过如下公式确定元路径的强度值:
[0018][0019][0020][0021]
其中,i为两个商户实体之间元路径的强度值;a1、a2为两条交易的交易金额;t1、t2为两条交易的交易时间;m、f
t1
、f
t2
、θ1为参数。
[0022]
第二方面,本技术实施例提供一种异常商户分类装置,该装置包括:
[0023]
接收模块,用于接收图结构数据;所述图结构数据中的节点包括表征商户实体信息的商户节点和表征用户实体信息的用户节点,所述图结构数据中的边用于表征用户实体与商户实体间的交易信息;
[0024]
处理模块,用于通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度;其中,任一元路径为通过同一用户节点在两个商户节点间的边构建的;两条边之间的相似程度表征两个交易信息之间的相似程度,相似程度越高强度值越高;
[0025]
所述处理模块,还用于针对任一商户节点,基于所述商户节点与其它商户节点间的各元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况。
[0026]
在一种可能的设计中,元路径按照强度分为强元路径、中元路径及弱元路径三种;基于所述商户节点与其它商户节点间的元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况之前,所述处理模块,还用于确定所述商户节点与其它商户节点间的所有元路径中至少包括一个强元路径或至少一个中元路径。
[0027]
在一种可能的设计中,所述处理模块,在基于所述商户节点与其它商户节点间的元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况时,还用于根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对所述商户实体的初始异常值进行修正,得到所述商户实体的异常情况。
[0028]
在一种可能的设计中,所述处理模块,在根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对所述商户实体的初始异常值进行修正时,还用于若第一商户实体与第二商户实体之间存在强元路径,且所述第二商户实体的初始异常值为异常,则将所述第一商户实体的初始异常值修正为异
常;若第三商户实体与各第四商户实体之间不存在强元路径但存在至少一条中元路径,则根据所述第三商户实体的初始异常值及所述各第四商户实体的初始异常值,确定所述第三商户实体修正后的异常值。
[0029]
在一种可能的设计中,所述处理模块,还用于通过如下公式确定所述第三商户实体修正后的异常值:
[0030][0031]
t

(x)为三商户实体修正后的异常值,t(x)为第三商户实体的初始异常值,∑t(n)为各第四商户实体的初始异常值的和,n为第四商户实体的数目,μ1、μ2为训练参数,μ1+μ2=1。
[0032]
在一种可能的设计中,所述处理模块,在对所述商户实体的初始异常值进行修正之前,还用于针对任一其他商户节点,确定所述商户节点与所述其它商户节点间的相似元路径数目;确定所述商户节点与所述其他商户节点之间的相似元路径数目小于设定阈值;其中,相似元路径为具有相同的商户实体但不同的用户实体的元路径。
[0033]
在一种可能的设计中,所述设定阈值根据所述图结构数据中各商户实体间的相似元路径数目,及设定的相似元路径的分位数确定。
[0034]
在一种可能的设计中,所述交易信息包括交易时间和交易金额;所述处理模块,在通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度时,还用于针对所述图结构数据中的任一元路径,根据所述元路径的两条交易信息中交易时间的相似程度,及交易金额的相似程度,确定所述元路径的强度值;其中,若交易时间越接近且交易金额越接近,则元路径的强度值越强;根据所述元路径的强度值及各个强度元路径的强度值范围,确定所述元路径的强度。
[0035]
在一种可能的设计中,所述处理模块,还用于通过如下公式确定元路径的强度值:
[0036][0037][0038][0039]
其中,i为两个商户实体之间元路径的强度值;a1、a2为两条交易的交易金额;t1、t2为两条交易的交易时间;m、f
t1
、f
t2
、θ1为参数。
[0040]
第三方面,本技术实施例还提供一种计算设备,包括:
[0041]
存储器,用于存储程序指令;
[0042]
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如第一方面的任一种可能的设计中所述的方法。
[0043]
第四方面,本技术实施例还提供一种计算机可读存储介质,其中存储有计算机可
读指令,当计算机读取并执行所述计算机可读指令时,使得上述第一方面的任一种可能的设计中所述的方法实现。
附图说明
[0044]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0045]
图1为本技术实施例提供的一种异常商户分类方法的流程示意图;
[0046]
图2为本技术实施例提供的一种确定元路径的强度的流程示意图;
[0047]
图3为本技术实施例提供的一种异常商户分类装置的结构示意图;
[0048]
图4为本技术实施例提供的一种计算设备的结构示意图。
具体实施方式
[0049]
为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
[0050]
在本技术的实施例中,多个是指两个或两个以上。“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或暗示相对重要性,也不能理解为指示或暗示顺序。
[0051]
现有的图神经网络,例如heterogenous graph attention networks(hgan模型),用注意力机制来进行节点级别聚合和语义级别的聚合该模型的核心思想是,通过定义元路径将异质的图变成了首尾均为同质的“新图”,从而转化为同质图神经网络。例如,在用户-中间介质-用户这样的元路径中,首尾的用户为同质,从而转换为同质的图神经网络,以进行消息传递,实现后续的对象分类。即在异质图神经网络中,只考虑与预测节点同质的节点的性质来传播信息。
[0052]
上述图神经网络初步解决了在异构图情况下的消息传播问题,即如何在有多种类型的节点的情况下,在节点之间传播消息。但是,在对象分类过程中,存在如下问题:
[0053]
1、现有的图神经网络在实际计算时消耗资源巨大,主要是由于其每次迭代都需要在全部的点和边上更新及学习。尤其是在实际的工业应用中,由于点和边的数量过大,加剧了资源消耗大、速度慢(要花几天的时间才能完成一次embedding)的问题,甚至经常出现oom的情况(占用内存过大导致无法得出结果)。所以现有图神经网络在工业界的可行性不强,即使通过添加海量资源的方式来解决oom的问题,其性价比也很低。
[0054]
2、没有充分利用边的内容信息,主要是将边作为一种用来传递信息的介质(利用了边的结构信息)。例如,a节点和b节点在一天内有过联系(有一个人同时去过这两个节点交易),就形成了一条边;a和b在一年内有过联系,也形成了一条边。一天、一年就是边的内容信息,a和b有关系就是结构信息。hgan模型主要利用了边的结构信息,即a和b有联系,证明a和b有一些相关之处,会把a的一些信息聚合在b上。但实际上,边的内容信息也很重要,a和b是很近的时间内有联系,还是很久才有联系,表示了a和b的关系的紧密程度,目前这部
分信息还没有被hgan模型利用。没有利用边的内容信息的原因主要是:图神经网络的目的是完成点的类别的预测,边的信息和点的信息并没有直接的关联,所以并没有特定的“将边信息转换为点信息的方法”,于是边的信息很难被利用。
[0055]
3、神经网络在消息传递时,对正负样本没有做特别的区分(只是单纯的将信息通过某种固定的方式聚合),但实际上正负样本的影响力是不同的,即正负样本的聚合能力是不一样的。传统的图神经网络并没有如此处理,是因为其作用更多的是消息传播,而非预测结果,因此更多关注于消息传播全面性,而非样本分类有效性。在一个以判断异常节点为主要目标的神经网络中,更应该注意这一点。例如,如果a是正常节点,且a和b有联系,其实不太能说明b节点也是正常的。但如果a是异常节点,且a和b有联系,那b是a同伙的概率显然更大。即,正常节点和异常节点的影响力是不同的。
[0056]
基于上述图神经网络在对象分类过程中存在的问题,本技术提出一种用于对异常商户进行分类的方法。图1示例性地示出了本技术实施例提供的一种异常商户分类方法的流程示意图,如图1所示,该方法包括以下步骤:
[0057]
步骤101、接收图结构数据。
[0058]
本技术实施例中,图结构数据中的节点包括表征商户实体信息的商户节点和表征用户实体信息的用户节点,图结构数据中的边用于表征用户实体与商户实体间的交易信息。
[0059]
示例性地,商户节点可以用s
id
表示,这里的id为商户的id,商户实体信息包括商户的多种特征,例如商户创立时间、商户类型、交易人数等特征,商户实体信息可以用s
id
(f1,f2......fn)表示,其中,fn为商户的特征。用户节点可以用u
id
表示,这里的id为用户的id,用户实体信息可以用u
id
(f1,f2......fn)表示,其中,fn为用户的特征。用户实体与商户实体间的边(交易信息)可以用t(u
id
,s
id
,t,a)表示,其中,t为交易时间,可以用时间戳格式表示;a为交易金额,交易金额的数据类型可以为double数据类型。例如,小明用户在a商户于17868675时间戳消费100元,可以表示为t(小明,a商户,17868675,100.00)。
[0060]
步骤102、通过图结构数据的元路径中两条边之间的相似程度,确定元路径的强度。
[0061]
本技术实施例中,元路径是一条连接了多个节点的交易链路,任一元路径为通过同一用户节点在两个商户节点间的边构建的。也就是说,同一用户有过两个商户的交易记录,那么这两个商户节点、用户节点以及用户分别在两个商户的交易信息即组成了元路径。例如,小明用户在a商户有过一笔交易记录t1,在b商户有过一笔交易记录t2,那么(a商户-小明-b商户)就是一条元路径,该元路径由边t1和边t2组成。
[0062]
需要说明的是,如果同一用户节点分别与两个商户节点之间存在多条边,那么这两个商户节点通过该用户节点连接的元路径为多条边的排列组合。也就是说,同一用户分别在两个商户有过多笔交易记录,那么这两个商户通过该用户连接的元路径为多笔交易的排列组合。例如,小明用户在a商户有过2笔交易t1、t3,在b商户有过3笔交易t2、t4、t5,那么a商户与b商户之间的元路径有2
×
3=6条,分别为t
1-t2、t
1-t4、t
1-t5、t
3-t2、t
3-t4、t
3-t5。
[0063]
在一种可能的实施方式中,交易信息可以包括交易时间和交易金额。例如,小明用户在a商户于17868675时间戳消费100元,在b商户于17098765时间戳消费1元,那么(a商户-小明-b商户)就是一条元路径,该元路径由边t1(小明,a商户,17868675,100.00)和边t2(小
明,b商户,17098765,1.00)组成。
[0064]
元路径两条边之间的相似程度表征两个交易信息之间的相似程度,相似程度越高元路径的强度值越高。具体地,可以通过如图2所示的方式通过图结构数据的元路径中两条边之间的相似程度,确定元路径的强度:
[0065]
步骤201、针对图结构数据中的任一元路径,根据元路径的两条交易信息中交易时间的相似程度,及交易金额的相似程度,确定元路径的强度值。
[0066]
本技术实施例中,若两条交易信息中交易时间越接近且交易金额越接近,则两条交易信息构成的元路径的强度值越强。
[0067]
示例性地,可以通过如下公式一至公式三确定元路径的强度值:
[0068][0069][0070][0071]
其中,i为两个商户实体之间元路径的强度值;a1、a2为两条交易的交易金额;t1、t2为两条交易的交易时间;m、f
t1
、f
t2
、θ1为参数。
[0072]
需要说明的是,上述公式一的目的是识别短时间内极端相似或极端相异的两笔交易,是一个同时考虑了交易时间和交易金额的函数。公式二表达的含义是,如果两个交易的交易时间相距很短,即δt很小,那么f(δt)取值非常小;如果两个交易发生的时间相距很长,即δt很大,那么f(δt)取值也非常大。f
t1
、f
t2
是表示时间点的参数,可以根据实际情况进行设定。公式三表达的含义是,如果两个交易的交易金额非常接近,即θ的取值趋近于1,或者两个交易的交易金额相差悬殊,即θ的取值较大时,g(θ)的取值也非常大。例如,假设两个交易的交易金额分别为100元和101元,那么两笔交易的交易金额的比值接近1,则g(θ)

∞。又例如,假设两个交易的交易金额分别为100元和1元,那么两笔交易的交易金额的比值则g(θ)

∞。
[0073]
步骤202、根据元路径的强度值及各个强度元路径的强度值范围,确定元路径的强度。
[0074]
元路径按照强度可以分为强元路径、中元路径及弱元路径三种,具体地,参见公式四,可以根据上述i的取值确定元路径的强度。
[0075][0076]
其中,i为两个商户实体之间元路径的强度值,i0、i1为参数,可以根据实际情况进行设定。r(i)为1表示该元路径为弱元路径,2表示该元路径为中元路径,3表示该元路径为
强元路径。
[0077]
举个例子,假设3笔交易信息为t1(小明,a商户,17868675,100.00)、t2(小明,b商户,17868676,1.00)、t3(小明,c商户,17868615,200.00),且设定f
t1
=10,f
t2
=300,i0=10,i1=10000,θ1=3,m=1。那么,对应r(i)=3,即交易t1,t2形成了强元路径。形成了强元路径。对应r(i)=1,即交易t1,t3形成了弱元路径。
[0078]
步骤103、针对任一商户节点,基于商户节点与其它商户节点间的各元路径的强度及商户节点对应的商户实体的初始异常值,确定商户节点对应的商户实体的异常情况。
[0079]
本技术实施例中,可以用t(s)来表示商户实体的初始异常值,其中,
[0080][0081]
具体地,可以通过将商户实体的特征带入机器学习模型,通过学习得到商户实体的初始异常值。或者,也可以通过多种方式得到异常的商户节点,包括:将符合设定规则的商户实体确定为异常节点,其中,设定规则可以是用户投诉商户等等。例如,用户投诉被骗且涉案商户为a商户,则认为a商户实体为异常节点,t(a)=1。
[0082]
由于弱元路径表示通过此路径连接的商户实体之间的联系较弱,商户实体的异常情况不会通过弱元路径传播。因此,本技术实施例在基于商户节点与其它商户节点间的元路径的强度及商户节点对应的商户实体的初始异常值,确定商户节点对应的商户实体的异常情况之前,可以先确定商户节点与其它商户节点间的所有元路径中至少包括一个强元路径或至少一个中元路径。
[0083]
在实际应用中,商户实体间绝大部分的元路径都是弱元路径,通过弱元路径连接的商户实体的异常情况不会传播。因此,通过对元路径的分类,在确定商户实体的异常情况之前,将商户实体间的弱元路径舍弃,或者说不考虑弱元路径,只考虑实体的异常情况在中元路径和强元路径上的传递,可以减少大量的计算,极大地提升了算法的运算效率,节约了计算资源。
[0084]
在一种可能的实施方式中,基于商户节点与其它商户节点间的元路径的强度及商户节点对应的商户实体的初始异常值,确定商户节点对应的商户实体的异常情况,包括:根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对商户实体的初始异常值进行修正,得到商户实体的异常情况。
[0085]
根据商户实体的异常行为可传递至元路径上其它商户实体的原则包括,强元路径的商户实体可将异常行为传递给强元路径上的其他商户实体,以及中元路径的商户实体可将异常行为部分传递给强元路径上的其他商户实体。具体地,可以通过如下方式,根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,对商户实体的初始异常值进行修正:若第一商户实体与第二商户实体之间存在强元路径,且第二商户实体的初始异常值为异常,则将第一商户实体的初始异常值修正为
异常。若第三商户实体与各第四商户实体之间不存在强元路径但存在至少一条中元路径,则根据第三商户实体的初始异常值及各第四商户实体的初始异常值,确定第三商户实体修正后的异常值。
[0086]
强元路径属于高可信的消息传递机制,因此,强元路径的商户实体可将异常行为传递给强元路径上的其他商户实体。举例来说,若a商户实体的初始异常值t(a)=1、b商户实体的初始异常值t(b)=0,且a商户实体与b商户实体为通过强元路径连接的两个商户,那么,a商户实体的异常行为可以通过传递给b商户实体,b商户实体及经过修正后的异常值变为t(b)=1。需要说明的是,此后在使用b商户实体的异常值进行计算时,均使用修正后的异常值进行计算。
[0087]
中元路径属于较为可信的消息传递机制,因此异常商户实体可以将部分异常行为传递给中元路径上的其他商户实体。若第三商户实体与各第四商户实体之间不存在强元路径但存在至少一条中元路径,则可以通过如下公式五根据第三商户实体的初始异常值及各第四商户实体的初始异常值,确定第三商户实体修正后的异常值。
[0088][0089]
其中,t

(x)为第三商户实体修正后的异常值,t(x)为第三商户实体的初始异常值,∑t(n)为各第四商户实体的初始异常值的和,n为第四商户实体的数目,μ1、μ2为训练参数,μ1+μ2=1。
[0090]
需要说明的是,通过公式五计算来第三商户实体修正后的异常值,第三商户实体需要满足与各第四商户实体之间不存在强元路径但存在至少一条中元路径。举例来说,x商户实体与y商户实体为通过中元路径连接的两个商户实体,且x商户实体与y商户实体之间不存在强元路径。同样的,x商户实体与z商户实体也通过中元路径连接,且x商户实体与z商户实体之间不存在强元路径。那么,可以通过公式五确定x商户实体修正后的异常值。
[0091]
公式五的含义是:第三商户实体修正后的异常值t

(x)是根据第三商户实体的初始异常值t(x)和与第三商户实体相邻的第四商户实体的初始异常值的平均值按照不同的权重系数μ1、μ2得到的。
[0092]
进一步地,由μ1+μ2=1。可以得到,
[0093][0094]
其中,μ1的取值可以采取极大似然估计的方式确定,即,给定x的取值,寻找μ1的不同取值,使得t

(x)的取值接近其真实值,即下文中用x来表示t

(x),通过概率来阐述,即使得t

接近真实值的概率最大。此处,我们要寻找的是所有x取值下的最优参数,因此,将不同的x取值下的概率相乘,得到:
[0095][0096]
对上式取对数,得到:
[0097]
ln(l(μ1))=ln(f(x1,x2,......,xn;μ1))
[0098]
想要得到的是使得函数取最大值是的μ1的取值,因此对于上式求导,得到:
[0099]
d(ln(l(μ1))/d(μ1)=0
[0100]
此时计算得到的满足上式的μ1的取值即为最优参数。
[0101]
例如,通过实际数据观测,我们发现x的分布符合:
[0102][0103]
概率相乘,得到:
[0104][0105]
取对数函数,得到:
[0106][0107]
对参数求导,得到,
[0108][0109]
化简,得到:
[0110][0111]
最终得到:
[0112][0113]
结论是所以,x的平均值就是μ1的取值。
[0114]
例如,假设x的取值为0.3,0.7,0.5,0.5,根据上面描述的训练方法,得到μ1=μ2=0.5。
[0115]
假设c商户为正常商户实体(其初始异常值t(c)=0),与商户c存在中元路径的商户有三个,分别是商户o、商户p和商户q,假设商户o为异常商户节点,初始异常值t(o)=1,商户q和商户p为正常商户节点,初始异常值t(q)=0、t(p)=0,那么
[0116]
需要说明的是,上述是以x符合正态分布为例得到的μ1的取值为x的平均值,如果x符合其他分布,则得到的μ1的取值可能会不同。此外,也可以通过其他方式得到μ1的取值,例如可以使用网格搜索进行参数的调整进而得到最优的μ1值。
[0117]
上述在确定商户实体的异常情况时考虑了商户实体间元路径的强度,根据元路径强度的差异,对商户实体的异常行为进行不同强度上的传播,提高了后续商户分类的准确率。此外,商户实体间相似元路径的数目也应该被考虑。例如,虽然商户a和商户b间的元路径都为中元路径,但有多个用户都在这两个商户实体产生过类似的交易,则说明商户a和商户b可能存在某种异常联系。
[0118]
因此,对商户实体的初始异常值进行修正之前,还可以包括:针对任一其他商户节
点,确定商户节点与其它商户节点间的相似元路径数目;确定商户节点与其他商户节点之间的相似元路径数目小于设定阈值。
[0119]
其中,相似元路径为具有相同的商户实体但不同的用户实体的元路径。也就是说,相同的两个商户实体ss和sd通过不同的用户实体u连接起来,就形成了相似元路径。例如,a商户实体和b商户实体通过3个不同的用户实体用户1、用户2和用户3连接,那么a商户实体和b商户实体之间具有3条相似元路径a商户-用户1-b商户、a商户-用户2-b商户和a商户-用户3-b商户。
[0120]
相似元路径可以辅助判断两个商户实体的关联关系,若两个商户实体间存在大于1个的相似元路径,与没有相似元路径的商户实体相比,其之间的关系更紧密,可能存在异常联系。但是,若两个商户实体间存在过多的相似元路径,则可能这两个商户实体为某一类具有共同性的正常商户实体。例如,饭店和旁边的小卖铺间会存在非常多的相似元路径,但饭店和小卖铺均为正常商户实体。因此,可以通过两个商户实体间相似元路径的数目来防止误杀。即如果两个商户节点之间的相似元路径数目大于等于设定阈值,则认为这两个商户实体为某一类有共同性的正常商户。其中,设定阈值根据图结构数据中各商户实体间的相似元路径数目,及设定的相似元路径的分位数确定。设定阈值可以根据实际情况进行设定,例如可以设定为图中所有相似元路径数目的最大的95%的数值。
[0121]
假设n为商户实体间相似元路径的数目,函数q(x,β)表示变量x的β分位数,将商户实体间相似元路径的数目案从小到大或从大到小的顺序排列,则q(n,5)为相似元路径数目的最小的5%的数值,则q(n,95)为相似元路径数目的最大的95%的数值。例如一个图中有3个商户实体,a、b、c三个商户实体中,a商户实体和b商户实体之间有2条相似元路径,b商户实体和c商户实体之间有1条相似元路径,a商户实体和c商户实体之间没有相似元路径,那在这个图中相似元路径的数目n的枚举记为(2,1,0),则q(n,95)=2,q(n,5)=0。
[0122]
那么在考虑商户实体间相似元路径的数目后,若第一商户实体与第二商户实体之间存在强元路径,第二商户实体的初始异常值为异常,且第一商户实体与第二商户实体之间的相似元路径数目小于设定阈值,则将第一商户实体的初始异常值修正为异常。若第三商户实体与各第四商户实体之间不存在强元路径但存在至少一条中元路径,且第三商户实体与第四商户实体之间的相似元路径数目小于设定阈值,则根据第三商户实体的初始异常值及各第四商户实体的初始异常值,确定第三商户实体修正后的异常值。
[0123]
举例来说,若a商户实体的初始异常值t(a)=1、b商户实体的初始异常值t(b)=0,a商户实体与b商户实体为通过强元路径连接的两个商户,且a商户实体和b商户实体间没有过多的相似元路径(n(a,b)≤q(n,95))那么,a商户实体的异常行为可以通过传递给b商户实体,b商户实体及经过修正后的异常值变为t(b)=1。
[0124]
假设x商户实体与y商户实体为通过中元路径连接的两个商户实体,x商户实体与y商户实体之间不存在强元路径,且x商户实体和y商户实体间没有过多的相似元路径(n(x,y)≤q(n,95))。同样的,x商户实体与z商户实体也通过中元路径连接,x商户实体与z商户实体之间不存在强元路径,且x商户实体和y商户实体间没有过多的相似元路径(n(x,y)≤q(n,95)),则可以根据上述公式五确定x商户实体修正后的异常值。
[0125]
在一种可能的实施方式中,在得到商户实体修正后的异常值后,将商户实体修正后的异常值与商户实体的异常阈值进行比较,如果大于商户实体的异常阈值,则认为该商
户实体为异常商户;否则,认为该商户实体为正常商户。其中,商户实体的异常阈值可以根据实际情况进行设定,例如将商户实体的异常阈值设定为0.5,t

(c)=0.166<0.5,则c商户实体为正常商户。
[0126]
本技术实施例中,异常商户分类方法算法的输入可以来自于系统记录的数据,包括节点信息(商户实体信息和用户节点)和边信息(用户实体与商户实体间的交易信息)。在模型的训练过程中,通过在训练集上不断调整参数来不断优化模型的效果,直到得到准确率最高的模型,即为最终的模型。该模型最终可以实现,输入点和边的数据,即可得到商户实体是否异常的结果。相比与现有的商户分类方法,可以实现对商户异常情况更高效更准确的识别,从而避免用户资金损失。本技术实施例提供的一种异常商户分类方法,将边关系的内容信息有效利用于图神经网络,充分利用了图中的更多信息,使得预测效果更准确,从而提高对异常商户实体识别的准确性。并且提出了消息传播机制,使得商户实体的异常行为在图神经网络中的传递更准确,可以进一步提高对异常商户实体识别的准确性。
[0127]
基于相同的技术构思,图3例性地示出了本技术实施例提供的一种异常商户分类装置的结构示意图,如图3所示,该装置300包括:
[0128]
接收模块301,用于接收图结构数据;所述图结构数据中的节点包括表征商户实体信息的商户节点和表征用户实体信息的用户节点,所述图结构数据中的边用于表征用户实体与商户实体间的交易信息;
[0129]
处理模块302,用于通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度;其中,任一元路径为通过同一用户节点在两个商户节点间的边构建的;两条边之间的相似程度表征两个交易信息之间的相似程度,相似程度越高强度值越高;
[0130]
所述处理模块302,还用于针对任一商户节点,基于所述商户节点与其它商户节点间的各元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况。
[0131]
在一种可能的设计中,元路径按照强度分为强元路径、中元路径及弱元路径三种;基于所述商户节点与其它商户节点间的元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况之前,所述处理模块,还用于确定所述商户节点与其它商户节点间的所有元路径中至少包括一个强元路径或至少一个中元路径。
[0132]
在一种可能的设计中,所述处理模块,在基于所述商户节点与其它商户节点间的元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况时,还用于根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对所述商户实体的初始异常值进行修正,得到所述商户实体的异常情况。
[0133]
在一种可能的设计中,所述处理模块,在根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对所述商户实体的初始异常值进行修正时,还用于若第一商户实体与第二商户实体之间存在强元路径,且所述第二商户实体的初始异常值为异常,则将所述第一商户实体的初始异常值修正为异常;若第三商户实体与各第四商户实体之间不存在强元路径但存在至少一条中元路径,则根据所述第三商户实体的初始异常值及所述各第四商户实体的初始异常值,确定所述第三
商户实体修正后的异常值。
[0134]
在一种可能的设计中,所述处理模块,还用于通过如下公式确定所述第三商户实体修正后的异常值:
[0135][0136]
t

(x)为三商户实体修正后的异常值,t(x)为第三商户实体的初始异常值,∑t(n)为各第四商户实体的初始异常值的和,n为第四商户实体的数目,μ1、μ2为训练参数,μ1+μ2=1。
[0137]
在一种可能的设计中,所述处理模块,在对所述商户实体的初始异常值进行修正之前,还用于针对任一其他商户节点,确定所述商户节点与所述其它商户节点间的相似元路径数目;确定所述商户节点与所述其他商户节点之间的相似元路径数目小于设定阈值;其中,相似元路径为具有相同的商户实体但不同的用户实体的元路径。
[0138]
在一种可能的设计中,所述设定阈值根据所述图结构数据中各商户实体间的相似元路径数目,及设定的相似元路径的分位数确定。
[0139]
在一种可能的设计中,所述交易信息包括交易时间和交易金额;所述处理模块,在通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度时,还用于针对所述图结构数据中的任一元路径,根据所述元路径的两条交易信息中交易时间的相似程度,及交易金额的相似程度,确定所述元路径的强度值;其中,若交易时间越接近且交易金额越接近,则元路径的强度值越强;根据所述元路径的强度值及各个强度元路径的强度值范围,确定所述元路径的强度。
[0140]
在一种可能的设计中,所述处理模块,还用于通过如下公式确定元路径的强度值:
[0141][0142][0143][0144]
其中,i为两个商户实体之间元路径的强度值;a1、a2为两条交易的交易金额;t1、t2为两条交易的交易时间;m、f
t1
、f
t2
、θ1为参数。
[0145]
基于相同的技术构思,本技术实施例提供了一种计算设备,如图4所示,包括至少一个处理器401,以及与至少一个处理器连接的存储器402,本技术实施例中不限定处理器401与存储器402之间的具体连接介质,图4中处理器401和存储器402之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。
[0146]
在本技术实施例中,存储器402存储有可被至少一个处理器401执行的指令,至少一个处理器401通过执行存储器402存储的指令,可以执行上述异常商户分类方法。
[0147]
其中,处理器401是计算设备的控制中心,可以利用各种接口和线路连接计算机设
备的各个部分,通过运行或执行存储在存储器402内的指令以及调用存储在存储器402内的数据,从而进行资源设置。
[0148]
可选地,处理器401可包括一个或多个处理单元,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。在一些实施例中,处理器401和存储器402可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
[0149]
处理器401可以是通用处理器,例如中央处理器(cpu)、数字信号处理器、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0150]
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器402可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(random access memory,ram)、静态随机访问存储器(static random access memory,sram)、可编程只读存储器(programmable read only memory,prom)、只读存储器(read only memory,rom)、带电可擦除可编程只读存储器(electrically erasable programmable read-only memory,eeprom)、磁性存储器、磁盘、光盘等等。存储器402是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
[0151]
基于相同的技术构思,本技术实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行程序,计算机可执行程序用于使计算机执行上述任一方式所列的异常商户分类方法。
[0152]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0153]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0154]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指
令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0155]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0156]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0157]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。

技术特征:
1.一种异常商户分类方法,其特征在于,所述方法包括:接收图结构数据;所述图结构数据中的节点包括表征商户实体信息的商户节点和表征用户实体信息的用户节点,所述图结构数据中的边用于表征用户实体与商户实体间的交易信息;通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度;其中,任一元路径为通过同一用户节点在两个商户节点间的边构建的;两条边之间的相似程度表征两个交易信息之间的相似程度,相似程度越高强度值越高;针对任一商户节点,基于所述商户节点与其它商户节点间的各元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况。2.根据权利要求1所述的方法,其特征在于,元路径按照强度分为强元路径、中元路径及弱元路径三种;基于所述商户节点与其它商户节点间的元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况之前,还包括:确定所述商户节点与其它商户节点间的所有元路径中至少包括一个强元路径或至少一个中元路径。3.根据权利要求1所述的方法,其特征在于,基于所述商户节点与其它商户节点间的元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况,包括:根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对所述商户实体的初始异常值进行修正,得到所述商户实体的异常情况。4.根据权利要求3所述的方法,其特征在于,所述根据商户实体的异常行为可传递至元路径上其它商户实体的原则,若任一其它商户节点的初始异常值为异常,则对所述商户实体的初始异常值进行修正,包括:若第一商户实体与第二商户实体之间存在强元路径,且所述第二商户实体的初始异常值为异常,则将所述第一商户实体的初始异常值修正为异常;若第三商户实体与各第四商户实体之间不存在强元路径但存在至少一条中元路径,则根据所述第三商户实体的初始异常值及所述各第四商户实体的初始异常值,确定所述第三商户实体修正后的异常值。5.根据权利要求4所述的方法,其特征在于,所述方法包括:通过如下公式确定所述第三商户实体修正后的异常值:t

(x)为三商户实体修正后的异常值,t(x)为第三商户实体的初始异常值,∑t(n)为各第四商户实体的初始异常值的和,n为第四商户实体的数目,μ1、μ2为训练参数,μ1+μ2=1。6.根据权利要求3所述的方法,其特征在于,所述对所述商户实体的初始异常值进行修正之前,还包括:针对任一其他商户节点,确定所述商户节点与所述其它商户节点间的相似元路径数
目;确定所述商户节点与所述其他商户节点之间的相似元路径数目小于设定阈值;其中,相似元路径为具有相同的商户实体但不同的用户实体的元路径。7.根据权利要求6所述的方法,其特征在于,所述设定阈值根据所述图结构数据中各商户实体间的相似元路径数目,及设定的相似元路径的分位数确定。8.根据权利要求1至7任一项所述的方法,其特征在于,所述交易信息包括交易时间和交易金额;所述通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度,包括:针对所述图结构数据中的任一元路径,根据所述元路径的两条交易信息中交易时间的相似程度,及交易金额的相似程度,确定所述元路径的强度值;其中,若交易时间越接近且交易金额越接近,则元路径的强度值越强;根据所述元路径的强度值及各个强度元路径的强度值范围,确定所述元路径的强度。9.根据权利要求8所述的方法,其特征在于,所述方法包括:通过如下公式确定元路径的强度值:的强度值:的强度值:其中,i为两个商户实体之间元路径的强度值;a1、a2为两条交易的交易金额;t1、t2为两条交易的交易时间;m、f
t1
、f
t2
、θ1为参数。10.一种异常商户分类装置,其特征在于,所述装置包括:接收模块,用于接收图结构数据;所述图结构数据中的节点包括表征商户实体信息的商户节点和表征用户实体信息的用户节点,所述图结构数据中的边用于表征用户实体与商户实体间的交易信息;处理模块,用于通过所述图结构数据的元路径中两条边之间的相似程度,确定所述元路径的强度;其中,任一元路径为通过同一用户节点在两个商户节点间的边构建的;两条边之间的相似程度表征两个交易信息之间的相似程度,相似程度越高强度值越高;所述处理模块,还用于针对任一商户节点,基于所述商户节点与其它商户节点间的各元路径的强度及所述商户节点对应的商户实体的初始异常值,确定所述商户节点对应的商户实体的异常情况。11.一种计算设备,其特征在于,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行如权利要求1至9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得如权利要求1至9中任一项所述的方法实现。

技术总结
一种异常商户分类方法及装置,可以充分利用图神经网络中边的内容信息,从而提高商户分类的准确性,该方法包括:接收图结构数据;图结构数据中的节点包括表征商户实体信息的商户节点和表征用户实体信息的用户节点,图结构数据中的边用于表征用户实体与商户实体间的交易信息;通过图结构数据的元路径中两条边之间的相似程度,确定元路径的强度;其中,任一元路径为通过同一用户节点在两个商户节点间的边构建的;两条边之间的相似程度表征两个交易信息之间的相似程度,相似程度越高强度值越高;针对任一商户节点,基于商户节点与其它商户节点间的各元路径的强度及商户节点对应的商户实体的初始异常值,确定商户节点对应的商户实体的异常情况。体的异常情况。体的异常情况。


技术研发人员:梁雅婷
受保护的技术使用者:深圳前海微众银行股份有限公司
技术研发日:2023.06.30
技术公布日:2023/10/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐