一种账户类型的确定方法、装置、电子设备及存储介质与流程
未命名
09-01
阅读:116
评论:0

1.本公开涉及人工智能技术领域,尤其涉及一种账户类型的确定方法、装置、电子设备及存储介质。
背景技术:
2.随着计算机技术和互联网技术的不断发展,越来越多的异常交易行为也逐渐渗入到互联网中,每年异常交易案件环比增长约30%-40%。但现阶段的异常交易识别系统的识别准确率不高,为了避免异常账号的漏报,很多正常的账号会被误判为异常账户。异常交易识别系统在输出异常账户的“异常案件”之后,还将这些“异常案件”还需随机分配到审核人员,再由审核人员从中审核出真正有异常交易行为的账户。这种审核方式不仅无法根据审核人员的资历和最佳工作时间进行合理分配,而且识别异常案件的异常特征信息还需要依赖人工总结,因此影响了异常账户的上报效率,以及审核流程信息的可管理性、可追溯性。
技术实现要素:
3.本公开提供了一种账户类型的确定方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
4.根据本公开的第一方面,提供了一种账户类型的确定方法,所述方法包括:获取账户集;所述账户集中包括账户的数据表,所述账户包括至少一个待识别账户和多个样本账户,所述样本账户的类型至少包括正常和异常;根据所述数据表构建对应账户的多维度特征集合,并根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合;根据所有样本账户的多维度特征集合训练得到目标分类器;将所述待识别账户的多维度特征集合输入所述目标分类器进行分类预测,得到所述待识别账户的第一异常值;当所述第一异常值大于等于预设阈值时,根据所述待识别账户的多维度特征集合和所述异常中心节点的多维度特征集合,确定所述待识别账户与所述异常中心节点的相似度,得到所述待识别账户的第二异常值;根据所述第一异常值和第二异常值确定待识别账户的类型。
5.在一可实施方式中,所述账户的数据表包括:案件信息表、用户信息表和交易流水表;相应的,所述根据所述数据表构建对应账户的多维度特征集合,包括:从所述案件信息表提取多个维度的特征值构建案件特征集合;所述案件信息表记录了所述账户对应的异常交易行为的信息;从所述用户信息表提取多个维度的特征值构建用户特征集合;所述用户信息表记录了所述账户对应的用户个人信息;从所述交易流水表提取多个维度的特征值构建交易特征集合;所述交易流水表记
录了所述账户的交易流水数据;将所述案件特征集合、用户特征集合和交易特征集合进行拼接,得到所述账户的多维度特征集合。
6.在一可实施方式中,所述根据所有样本账户的多维度特征集合训练得到目标分类器,包括:根据所有样本账户的类型标签值构建一个初始分类器,并设置所述初始分类器的预测异常值;将所述样本账户的多维度特征集合输入所述初始分类器进行分类预测,得到所述样本账户的实际异常值;确定所有样本账户的实际异常值与所述预测异常值的残差平均值;根据所述残差平均值对所述初始分类器进行优化;将所述样本账户的多维度特征集合输入优化的初始分类器重新进行分类预测,直至得到的残差平均值满足预设条件时,将该残差平均值对应的优化的初始分类器作为目标分类器。
7.在一可实施方式中,所述设置所述初始分类器的预测值,包括:将所有样本账户的类型标签值的平均值设置为所述初始分类器的预测异常值。
8.在一可实施方式中,所述根据所述残差平均值对所述初始分类器进行优化,包括:根据所述残差平均值构建中间分类器,以使所述残差平均值拟合;将所述初始分类器与中间分类器进行加权组合,得到优化的初始分类器;相应地,该方法还包括:为所述优化的初始分类器设置对应的预测异常值。
9.在一可实施方式中,所述根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合,包括:确定所有异常样本账户的多维度特征集合的平均值,得到所述异常中心节点。
10.在一可实施方式中,所述确定所述待识别账户与所述异常中心节点的相似度,得到所述待识别账户的第二异常值,包括:根据所述待识别账户的多维度特征集合与所述异常中心节点的多维度特征集合中对应的特征值的差值,确定所述第二异常值。
11.根据本公开的第二方面,提供了一种账户类型的确定装置,所述装置包括:获取单元,用于获取账户集;所述账户集中包括账户的数据表,所述账户包括至少一个待识别账户和多个样本账户,所述样本账户的类型至少包括正常和异常;构建单元,用于根据所述数据表构建对应账户的多维度特征集合,并根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合;训练单元,用于根据所有样本账户的多维度特征集合训练得到目标分类器;预测单元,用于将所述待识别账户的多维度特征集合输入所述目标分类器进行分类预测,得到所述待识别账户的第一异常值;确定单元,用于当所述第一异常值大于等于预设阈值时,根据确定所述待识别账户的多维度特征集合和所述异常中心节点的多维度特征集合,确定所述待识别账户与所述异常中心节点的相似度,得到所述待识别账户的第二异常值;
所述确定单元,还用于根据所述第一异常值和第二异常值确定待识别账户的类型。
12.根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
13.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
14.本公开的一种账户类型的确定方法、装置、电子设备及存储介质,通过获取待识别账户和多个样本账户的账户集,并根据账户集中的数据表构建对应账户的多维度特征集合,其中样本账户的类型至少包括正常和异常;然后根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合,并利用所有样本账户的多维度特征集合训练目标分类器。如此,通过训练好的目标分类器对待识别账户进行分类预测,得到待识别账户的第一异常值,跟将第一异常值与预测阈值进行比较实现对待识别账户的初次筛选,将筛选结果为异常程度较高的待识别账户与异常中心节点进行相似度的计算,得到待识别账户的第二异常值,根据第一异常值和第二异常值确定得到待识别账户的类型。由于每一个待识别账户的类型反映了其最终的异常程度,因此,通过结合审核人员的资历与最佳工作时间,将待识别账户合理分配至对应的审核人员进行更深入的调查与审核,如此,不仅提高了异常账户的上报效率,同时还实现了审核流程信息的可管理性以及可追溯性。
15.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
16.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:在附图中,相同或对应的标号表示相同或对应的部分。
17.图1示出了本公开一实施例账户类型的确定方法的实现流程示意图;图2示出了本公开一实施例多维度特征集合的构建方法的实现流程示意图;图3示出了本公开一实施例目标分类器的训练方法的实现流程示意图;图4示出了本公开一实施例目标分类器的优化方法的实现流程示意图;图5示出了本公开一实施例账户类型的确定装置的示意图一;图6示出了本公开另一实施例账户类型的确定装置的示意图二;图7示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
18.为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅
仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
19.本公开的实施例提供了一种账户类型的确定方法,如图1所示,该方法包括:步骤s101:获取账户集;账户集中包括账户的数据表,账户包括至少一个待识别账户和多个样本账户,样本账户的类型至少包括正常和异常。
20.在本示例中,通过将账户的原始交易数据输入至预检测系统中,以使预检测系统生成账户的数据表,形成账户集。同时,通过预检测系统中预设的规则和人工审核流程获得账户的类型,其中,能获取类型的账户为样本账户,样本账户的类型至少包括正常和异常,进一步地,还可以对样本账户的类型进行细化,例如将样本账户分为正常、较为正常、较为异常、异常等类型;而未能获得类型的账户为所述待识别账户。
21.步骤s102:根据数据表构建对应账户的多维度特征集合,并根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合。
22.在本示例中,根据从预检测系统获取待识别账户对应的数据表,构建该账户的多维度特征集合,多个维度包括案件维度、用户维度和交易维度等。在构建完所有异常样本账户的多维度特征集合后,根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合。账户的多维度特征集合的构建过程以及异常中心节点的确定过程将在后续的实施例中具体说明。
23.步骤s103:根据所有样本账户的多维度特征集合训练得到目标分类器。
24.在本示例中,在完成所有样本账户的多维度特征集合的构建之后,利用正常样本账户和异常样本账户的多维度特征集合进行分类器的训练和优化,最终得到目标分类器。对于目标分类器的训练和优化过程,将在后续的实施例中具体说明。
25.步骤s104:将待识别账户的多维度特征集合输入目标分类器进行分类预测,得到待识别账户的第一异常值。
26.在本示例中,完成训练的目标分类器能够对待识别账户的多维度特征集合进行分类预测,判断该待识别账户的异常程度,并得到表征该待识别账户异常程度的第一异常值。通常地,第一异常值的取值范围为[0,1],目标分类器输出的第一异常值越大,则表示该待识别账户的异常程度越高。通过目标分类器对待识别账户进行第一异常值的识别,实现待识别账户的异常程度的初次判断。
[0027]
步骤s105:当第一异常值大于等于预设阈值时,根据待识别账户的多维度特征集合和异常中心节点的多维度特征集合,确定待识别账户与异常中心节点的相似度,得到待识别账户的第二异常值。
[0028]
在本示例中,将待识别账户的第一异常值与预设阈值进行比较,通过预设阈值与待识别账户的第一异常值进行比较,以对待识别账户进行初步筛选。
[0029]
当第一异常值小于预设阈值时,意味着该待识别账户的异常程度较低,因此,可确定该待识别账户的类型为正常或较为正常。当第一异常值大于等于预设阈值时,则意味着该待识别账户的异常程度较高。通常的,预设阈值优选设置为0.5,也可以根据实际需求进行调整本公开对此不做限制。
[0030]
由于在本领域中,更关注于有异常交易行为的账户的类型识别,因此,针对于初次筛选结果为异常程度较高的待识别账户,需要进一步的判断与识别。具体的,根据该待识别
账户的多维度特征集合和上述异常中心节点的多维度特征集合,确定该待识别账户与异常中心节点之间的相似度,得到该待识别账户的第二异常值。
[0031]
在基于待识别账户的第一异常值进行初步筛选并判断为异常程度较高之后,将该待识别账户的多维度特征集合与异常中心节点的多维度特征集合进行相似度的计算,以实现对待识别账户的异常程度的二次判断。
[0032]
步骤s106:根据第一异常值和第二异常值确定待识别账户的类型。
[0033]
在本示例中,在经过上述两次异常程度的判断之后,根据待识别账户的第一异常值和第二异常值确定待识别账户的异常分值,根据异常分值的大小确定待识别账户的类型。
[0034]
具体的,通过以下公式计算待识别账户的异常分值:其中,其中表示待识别账户的异常分值;表示待识别账户的第一异常值;表示待识别账户的第二异常值;为取值范围在[0,1]之间的超参数,通过控制的大小来决定异常分值的结果中哪一个异常值的权重更大。
[0035]
在得到所有待识别账户的异常分值之后,根据所有待识别账户的异常分值由大到小进行排序,将预设比例范围之内的待识别账户的类型确定为异常,将其他的待识别账户的类型确定为较为异常。在确定完所有的待识别账户的类型之后,基于待识别账户的类型和分值,并结合审核人员的资历与最佳工作时间,再将这些待识别账户分配给对应的审核人员做进一步的调查和判断。
[0036]
举例说明,通过上述公式确定了100个待识别账户的异常分值后并按照由大到小的顺序进行排序,将前50%的待识别账户的类型确定为异常,剩余的50%的待识别账户的类型确定为较为异常。因此,可将前50%的待识别账户分配至经验较少的审核人员进行审核,将后50%的待识别账户分配至经验较多的审核人员进行审核。
[0037]
需要注意的是,本公开中对于异常程度较高的待识别账户,其账户的类型不受限于上述的较为异常和异常这两种,可以根据实际需求进一步的细化,并且可以通过灵活调整每个异常类型的比例,结合审核人员的审核能力和工作时间,实现对待识别账户的精准分配。
[0038]
本公开提供的一种账户类型的确定方法,通过获取待识别账户和多个样本账户的账户集,并根据账户集中的数据表构建对应账户的多维度特征集合,其中样本账户的类型至少包括正常和异常;然后根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合,并利用所有样本账户的多维度特征集合训练目标分类器。如此,通过训练好的目标分类器对待识别账户进行分类预测,得到待识别账户的第一异常值,跟将第一异常值与预测阈值进行比较实现对待识别账户的初次筛选,将筛选结果为异常程度较高的待识别账户与异常中心节点进行相似度的计算,得到待识别账户的第二异常值,根据第一异常值和第二异常值确定得到待识别账户的类型。由于每一个待识别账户的类型均反映了其最终的异常程度,因此,通过结合审核人员的资历与最佳工作时间,将待识别账户合理分配至对应的审核人员进行更深入的调查与审核,如此,不仅提高了异常账户的上报效率,同时还实现了审核流程信息的可管理性以及可追溯性。
[0039]
在一个示例中,账户的数据表包括:案件信息表、用户信息表和交易流水表;相应的,根据数据表构建对应账户的多维度特征集合的实现过程,如图2所示,包括:步骤s201:从案件信息表提取多个维度的特征值构建案件特征集合;案件信息表记录了账户对应的异常交易行为的信息。
[0040]
在本公开对于账户的异常交易行为有以下定义:账户在某一交易时间段中的交易行为触发了预检测系统中的规则模型,则该账户的该交易行为即为异常交易行为。通常的,一个异常交易行为对应一个账户,一个账户可对应多个异常交易行为。
[0041]
在本示例中,通过案件信息表记录了账户的异常交易行为的信息,进一步的,可以从案件信息表提取多个维度的特征值构建案件特征集合。
[0042]
从案件信息表中提取特征的维度可以包括:异常交易行为触发的规则模型和模型数量;异常交易行为发生的时间,以及相邻异常交易行为之间的时间间隔;异常交易行为涉及的转入金额、转出金额,转入总金额、转出总金额,转入平均金额、转出平均金额,交易最小(近)的时间、交易最大(远)的时间;异常交易行为的交易笔数、风险等级、交易金额是多少;异常交易行为涉及的公私标识、货币类型、客户数量以及现转标志等等。本公开对于案件信息表中提取特征的维度不做限制,可以根据实际情况进行调整。
[0043]
通过对上述多个维度的特征值进行统计,构建账户的案件特征集合,举例说明,构建得到的案件特征集合可以为[1,2,3,4,5,6,7,8]。
[0044]
需要注意的是,账户类型为正常的样本账户即便没有触发预检测系统中的规则模型,也可以构建对应的案件特征集合,只不过正常样本账户的案件特征集合中的特征值为0或初始值。
[0045]
步骤s202:从用户信息表提取多个维度的特征值构建用户特征集合;用户信息表记录了账户对应的用户个人信息。
[0046]
在本示例中,用户信息表记录了账户对应的用户个人信息,可以从用户信息表提取多个维度的特征值构建用户特征集合。从用户信息表中提取特征的维度可以是:出生日期、所在地、所属国家、职业、所属机构、年龄和开卡数量等等。本公开对于用户信息表中提取特征的维度不做限制,可以根据实际情况进行调整。
[0047]
通过对上述多个维度的特征值进行统计,构建账户的用户特征集合,举例说明,构建得到的用户特征集合可以为[9,10,11,12,13,14,15,16]。
[0048]
步骤s203:从交易流水表提取多个维度的特征值构建交易特征集合;交易流水表记录了账户的交易流水数据。
[0049]
在本示例中,交易流水表记录了账户的交易流水数据,交易流水数据具体为发生异常交易行为的时间段内该账户对应的所有交易流水。从预检测系统中获取的交易流水数据为初始交易数据,其中通常还包含一些不利于或不涉及账户类型确定的交易数据,例如:交易金额、账户余额为负值、交易账户为空不存在的错误数据;批量代收、批量代交、资金归集、有权机关特殊扣款、存息、公积金发放等涉及内部账户的流水数据;通过第三方软件进行购物或小额度交易的数据等等。通过清洗初始交易数据中的上述数据,得到便于分析的高质量交易流水数据,有利于提高账户类型确定的效率和准确率。
[0050]
从数据清洗后的交易流水表中进行多个维度特征提取,构建账户的交易维度特征,特征的维度可以包括:银行卡所属行,近一年内交易频率,近一年内交易金额,近一年使
用卡数,近一年开卡数,近一年的凌晨转账次数,近一年的转出平均金额,近一年的转入平均金额,近一年的转出笔数,近一年的转入笔数,近一年的转出总金额,近一年的转入总金额,近一年的小额转账次数,近一年的对公交易次数,近一年的对私交易次数,近一年的对公交易金额,近一年的对私交易金额等等。本公开对于交易流水表中提取特征的维度不做限制,可以根据实际情况进行调整。
[0051]
通过对上述多个维度的特征值进行统计,构建账户的交易特征集合,举例说明,构建得到的交易特征集合可以为[17,18,19,20,21,22,23,24]。
[0052]
步骤s204:将案件特征集合、用户特征集合和交易特征集合进行拼接,得到账户的多维度特征集合。
[0053]
在本示例中,通过将上述构建好的案件特征集合、用户特征集合和交易特征集合进行首尾拼接,得到账户对应的多维度特征集合。
[0054]
举例说明,将前三个示例中的案件特征集合、用户特征集合和交易特征集合进行首尾拼接,得到账户的多维度特征集合为[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24]。
[0055]
需要注意的是,本公开中所有特征集合中的特征值仅为示例,可实际情况进行调整。
[0056]
在一个示例中,根据所有样本账户的多维度特征集合训练得到目标分类器的实现过程,如图3所示,包括:步骤s301:根据所有样本账户的类型标签值构建一个初始分类器,并设置初始分类器的预测异常值。
[0057]
在本示例中,根据所有样本账户的类型标签值构建一个初始分类器,其中样本账户的类型标签值是根据预检测系统中获取的账户类型确定,例如正常样本账户的类型标签值为0,异常样本账户的类型标签值为1。同时,将所有样本账户的类型标签值的平均值设置为初始分类器的预测异常值步骤s302:将样本账户的多维度特征集合输入初始分类器进行分类预测,得到样本账户的实际异常值。
[0058]
在本示例中,通过初始分类器对样本账户的多维度特征集合进行分类预测,得到该样本账户对应的实际异常值。实际异常值的取值范围在[0,1],越接近1表示该样本账户的异常程度越高,越接近0则表示该账户的异常程度越低。
[0059]
步骤s303:确定所有样本账户的实际异常值与预测异常值的残差平均值。
[0060]
在本示例中,所有样本账户的实际异常值与预测异常值之间的残差平均值是通过分类器模型的目标函数()进行计算和优化得到的。目标函数的公式如下:其中,yi表示第i个样本账户的实际异常值;y表示预测异常值;表示损失函数,这里表征的是第i个样本账户的实际异常值与预测异常值之间的残差,选择合适的损失函数取决于具体的任务和数据,优选的损失函数有平方损失函数(square loss)和
逻辑损失函数(logistic loss)等;n表示样本账户的数量。是正则化参数,用于控制分类器的复杂度,避免过拟合。regularization表示正则化项,用于约束分类器的权重大小,常用的正则化项包括l1正则化(l1 regularization,也称为lasso正则化)和l2正则化(l2 regularization,也称为ridge正则化),其中,l1正则化倾向于产生稀疏权重,即使得部分权重为零,可以用于特征选择;l2正则化则通过惩罚较大的权重值来避免过拟合。
[0061]
根据损失函数关于预测异常值的梯度对目标函数进行优化,具体的,对于确定的损失函数,通过求解损失函数的一阶导数和二阶导数来获得损失函数关于预测异常值的梯度。在完成目标函数的优化后,目标函数中的值,即所有样本账户的实际异常值与预测异常值的残差平均值。
[0062]
步骤s304:根据残差平均值对初始分类器进行优化。
[0063]
在本示例中,根据上述所有的样本账户的实际异常值与预测异常值之间的残差平均值,对初始分类器进行优化。对于初始分类器的优化过程将在后续实施例中具体说明。
[0064]
步骤s305:将所有样本账户的多维度特征集合输入优化的初始分类器重新进行分类预测,直至得到的残差平均值满足预设条件时,将该残差平均值对应的优化的初始分类器作为目标分类器。
[0065]
在本示例中,将所有样本账户的多维度特征集合输入到优化后的初始分类器重新进行分类预测得到对应的实际异常值,并再次计算所有样本账户的实际异常值于预测异常值之间的残差平均值。当残差平均值满足预设条件时,例如计算残差平均值的次数达到了预设次数或者残差平均值达到预设范围时,将此时的残差平均值对应的优化的初始分类器作为目标分类器。基于训练好的目标分类器,对待识别账户的多维度特征集合进行分类预测,得到待识别账户的第一异常值。
[0066]
在一个示例中,根据残差平均值对初始分类器进行优化的实现过程,如图4所示,包括:步骤s401:根据残差平均值构建中间分类器,以使残差平均值拟合。
[0067]
在本示例中,根据样本账户的实际异常值与预测异常值之间的残差平均值构建中间分类器,并通过引入样本权重、列抽样和近似算法等方法对中间分类器进行优化,使得中间分类器输出的所有样本账户的实际异常值与预测异常值之间的残差平均值拟合,以提高分类器的预测效率和准确性。
[0068]
步骤s402:将初始分类器与中间分类器进行加权组合,得到优化的初始分类器。
[0069]
在本示例中,将初始分类器和中间分类器进行加权组合,得到优化后的初始分类器。基于优化后的初始分类器,重新计算所有样本账户的实际异常值于预测异常值之间的残差平均值。而当残差平均值满足预设条件时,此时的残差平均值对应的优化的初始分类器即为目标分类器。
[0070]
每当完成一次初始分类器的优化之后,还需要更新初始分类器的预测异常值,因此,该方法还包括:步骤s403:为优化的初始分类器设置对应的预测异常值。
[0071]
在本示例中,通过调节样本账户的类型标签值并重新获得所有样本账户的类型标签值的平均值,将该平均值设置为优化后的初始分类器对应的预测异常值。
[0072]
在一个示例中,根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合,包括:确定所有异常样本账户的多维度特征集合的平均值,得到异常中心节点。
[0073]
在本示例中,通过求取所有异常样本账户的多维度特征集合平均值,即可得到异常样本账户的异常中心节点的多维度特征集合。举例说明,例如异常样本账户a、b和c的多维度特征集合分别为[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1],[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24]和[28,27,26,25,24,23,22,21,20,19,18,17,16,15,14,13,12,11,10,9,8,7,6,5],因此可以计算得到这三个异常样本账户的异常中心节点的多维度特征集合为[10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10]。
[0074]
在一个示例中,确定待识别账户与异常中心节点的相似度,得到待识别账户的第二异常值,包括:根据待识别账户的多维度特征集合与异常中心节点的多维度特征集合中对应的特征值的差值,确定第二异常值。
[0075]
在本示例中,每一个待识别账户的第二异常值由该待识别账户的多维度特征集合与异常中心节点的多维度特征集合中对应的特征值的差值确定,具体的,通过以下公式确定:其中,表示待识别账户的多维度特征集合中的第k个特征值;表示异常中心节点的多维度特征集合中的第k的特征值;n表示多维度特征集合中特征值的数量。
[0076]
举例说明,若一待识别账户的多维度特征集合为[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1],其第一异常值大于预设阈值,异常中心节点的多维度特征集合为[10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10,10],根据上述第二异常值的计算公式,可得出该待识别账户的第二异常值为1944。
[0077]
在完成所有待识别账户的第二异常值计算之后,将所有的第二异常值进行归一化处理,使得所有的第二异常值的大小均缩放至[0,1]之间。基于归一化处理后的第二异常值,再与待识别账户的第一异常值进行异常分数的计算。
[0078]
本公开还提供了一种账户类型的确定装置,如图5所示,该装置包括:获取单元501,用于获取账户集;账户集中包括账户的数据表,账户包括至少一个待识别账户和多个样本账户,样本账户的类型至少包括正常和异常;构建单元502,用于根据数据表构建对应账户的多维度特征集合;确定单元503,用于根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合;训练单元504,用于根据所有样本账户的多维度特征集合训练得到目标分类器;预测单元505,用于将待识别账户的多维度特征集合输入目标分类器进行分类预测,得到待识别账户的第一异常值;确定单元503,用于当第一异常值大于等于预设阈值时,根据确定待识别账户的多
维度特征集合和异常中心节点的多维度特征集合,确定待识别账户与异常中心节点的相似度,得到待识别账户的第二异常值;确定单元503,还用于根据第一异常值和第二异常值确定待识别账户的类型。
[0079]
在一个示例中,账户的数据表包括:案件信息表、用户信息表和交易流水表;相应的,构建单元502具体用于:从案件信息表提取多个维度的特征值构建案件特征集合;案件信息表记录了账户对应的异常交易行为的信息;从用户信息表提取多个维度的特征值构建用户特征集合;用户信息表记录了账户对应的用户个人信息;从交易流水表提取多个维度的特征值构建交易特征集合;交易流水表记录了账户交易流水数据;将案件特征集合、用户特征集合和交易特征集合进行拼接,得到账户的多维度特征集合。
[0080]
在一个示例中,如图6所示,上述训练单元504包括:构建子单元5041,用于根据所有样本账户的类型标签值构建一个初始分类器,并设置初始分类器的预测异常值;预测子单元5042,用于将样本账户的多维度特征集合输入初始分类器进行分类预测,得到样本账户的实际异常值;确定子单元5043,用于确定所有样本账户的实际异常值与预测异常值的残差平均值;优化单元5044,用于根据残差平均值对初始分类器进行优化;预测子单元5042,还用于将样本账户的多维度特征集合输入优化的初始分类器重新进行分类预测,直至得到的残差平均值满足预设条件时,将该残差平均值对应的优化的初始分类器作为目标分类器。
[0081]
在一个示例中,上述构建子单元5041在设置初始分类器的预测值时,用于将所有样本账户的类型标签值的平均值设置为初始分类器的预测异常值。
[0082]
在一个示例中,优化单元5044具体用于根据残差平均值构建中间分类器,以使残差平均值拟合;将初始分类器与中间分类器进行加权组合,得到优化的初始分类器;在优化初始分类器之后,构建子单元5041为优化的初始分类器设置对应的预测异常值。
[0083]
在一个示例中,确定单元503在确定异常中心节点的多维度特征集合时,具体用于确定所有异常样本账户的多维度特征集合的平均值,得到异常中心节点。
[0084]
在一个示例中,确定单元503在确定待识别账户的第二异常值,具体用于根据待识别账户的多维度特征集合与异常中心节点的多维度特征集合中对应的特征值的差值,确定第二异常值。
[0085]
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
[0086]
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种
形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0087]
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram 703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
[0088]
设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0089]
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如账户类型的确定方法。例如,在一些实施例中,账户类型的确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的账户类型的确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行账户类型的确定方法。
[0090]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0091]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0092]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合
适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0093]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0094]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0095]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0096]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0097]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0098]
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。
技术特征:
1.一种账户类型的确定方法,其特征在于,所述方法包括:获取账户集;所述账户集中包括账户的数据表,所述账户包括至少一个待识别账户和多个样本账户,所述样本账户的类型至少包括正常和异常;根据所述数据表构建对应账户的多维度特征集合,并根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合;根据所有样本账户的多维度特征集合训练得到目标分类器;将所述待识别账户的多维度特征集合输入所述目标分类器进行分类预测,得到所述待识别账户的第一异常值;当所述第一异常值大于等于预设阈值时,根据所述待识别账户的多维度特征集合和所述异常中心节点的多维度特征集合,确定所述待识别账户与所述异常中心节点的相似度,得到所述待识别账户的第二异常值;根据所述第一异常值和第二异常值确定待识别账户的类型。2.根据权利要求1所述的方法,其特征在于,所述账户的数据表包括:案件信息表、用户信息表和交易流水表;相应的,所述根据所述数据表构建对应账户的多维度特征集合,包括:从所述案件信息表提取多个维度的 特征值构建案件特征集合;所述案件信息表记录了所述账户对应的异常交易行为的信息;从所述用户信息表提取多个维度的特征值构建用户特征集合;所述用户信息表记录了所述账户对应的用户个人信息;从所述交易流水表提取多个维度的特征值构建交易特征集合;所述交易流水表记录了所述账户的交易流水数据;将所述案件特征集合、用户特征集合和交易特征集合进行拼接,得到所述账户的多维度特征集合。3.根据权利要求1所述的方法,其特征在于,所述根据所有样本账户的多维度特征集合训练得到目标分类器,包括:根据所有样本账户的类型标签值构建一个初始分类器,并设置所述初始分类器的预测异常值;将所述样本账户的多维度特征集合输入所述初始分类器进行分类预测,得到所述样本账户的实际异常值;确定所有样本账户的实际异常值与所述预测异常值的残差平均值;根据所述残差平均值对所述初始分类器进行优化;将所述样本账户的多维度特征集合输入优化的初始分类器重新进行分类预测,直至得到的残差平均值满足预设条件时,将该残差平均值对应的优化的初始分类器作为目标分类器。4.根据权利要求3所述的方法,其特征在于,所述设置所述初始分类器的预测值,包括:将所有样本账户的类型标签值的平均值设置为所述初始分类器的预测异常值。5.根据权利要求3所述的方法,其特征在于,所述根据所述残差平均值对所述初始分类器进行优化,包括:根据所述残差平均值构建中间分类器,以使所述残差平均值拟合;
将所述初始分类器与中间分类器进行加权组合,得到优化的初始分类器;相应地,该方法还包括:为所述优化的初始分类器设置对应的预测异常值。6.根据权利要求1所述的方法,其特征在于,所述根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合,包括:确定所有异常样本账户的多维度特征集合的平均值,得到所述异常中心节点。7.根据权利要求1所述的方法,其特征在于,所述确定所述待识别账户与所述异常中心节点的相似度,得到所述待识别账户的第二异常值,包括:根据所述待识别账户的多维度特征集合与所述异常中心节点的多维度特征集合中对应的特征值的差值,确定所述第二异常值。8.一种账户类型的确定装置,其特征在于,所述装置包括:获取单元,用于获取账户集;所述账户集中包括账户的数据表,所述账户包括至少一个待识别账户和多个样本账户,所述样本账户的类型至少包括正常和异常;构建单元,用于根据所述数据表构建对应账户的多维度特征集合,并根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合;训练单元,用于根据所有样本账户的多维度特征集合训练得到目标分类器;预测单元,用于将所述待识别账户的多维度特征集合输入所述目标分类器进行分类预测,得到所述待识别账户的第一异常值;确定单元,用于当所述第一异常值大于等于预设阈值时,根据确定所述待识别账户的多维度特征集合和所述异常中心节点的多维度特征集合,确定所述待识别账户与所述异常中心节点的相似度,得到所述待识别账户的第二异常值;所述确定单元,还用于根据所述第一异常值和第二异常值确定待识别账户的类型。9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
技术总结
本公开提供了一种账户类型的确定方法、装置、电子设备及存储介质,一种方法,方法包括:获取账户集;账户集中包括账户的数据表,账户包括至少一个待识别账户和多个样本账户;根据数据表构建账户的多维度特征集合,根据所有异常样本账户的多维度特征集合确定异常中心节点的多维度特征集合;根据所有样本账户的多维度特征集合训练得到目标分类器,目标分类器对待识别账户的多维度特征集合进行分类预测,得到待识别账户的第一异常值;当第一异常值大于等于预设阈值时,根据待识别账户和异常中心节点的多维度特征集合,确定待识别账户与异常中心节点的相似度,得到待识别账户的第二异常值;根据第一异常值和第二异常值确定待识别账户的类型。户的类型。户的类型。
技术研发人员:刘登涛 孙悦 蔡准
受保护的技术使用者:北京芯盾时代科技有限公司
技术研发日:2023.07.24
技术公布日:2023/8/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/