数据分析方法、装置、计算机设备及可读存储介质与流程
未命名
07-13
阅读:98
评论:0

1.本发明涉及大数据处理技术领域,具体而言,涉及一种数据分析方法、装置、计算机设备及可读存储介质。
背景技术:
2.在各个领域中,随着业务种类的日益丰富以及数据交互环境的日趋复杂,对数据质量的要求也越来越高。例如,在金融领域中,需要定期去校验数据质量、核验客户信息准确性、一旦发现异常的数据即启动安全管理措施以弥补安全漏洞。
3.在现有技术中,为了提高对异常数据监测的时效性和准确性,需要专业的开发人员按照特定的数据分析编写sql语句,系统执行sql语句后可以确定符合业务逻辑的异常数据。
4.然而,上述采用sql的数据分析方式需要多次执行才能确定异常数据,对数据库资源消耗比较多,而且,这种方式需要依赖专业开发人员进行编写,人为介入过多,导致整个数据分析流程效率较低,无法满足用户的时效性需求。
技术实现要素:
5.本发明的目的之一在于提供一种数据分析方法、装置、计算机设备及可读存储介质,用以提高提升预警分析的交付效率和执行效率,同时减少数据库的负担和压力。
6.第一方面,本发明提供一种数据分析方法,所述方法包括:获取数据分析对象对应的多个数据特征;从多个所述数据特征中确定出待分析指标关联的多个目标数据特征,基于所述目标数据特征生成多条数据分析规则,并基于全部所述数据分析规则,构建所述待分析指标对应的数据分析模型;所述数据分析模型用于表征预警触发条件;获取所述数据分析对象对应的待分析数据,并基于所述业务数据确定每种所述目标数据特征的特征值;将所述目标数据特征的特征值输入所述数据分析模型进行分析,得到所述待分析指标的分析结果。
7.第二方面,本发明提供一种数据分析装置,包括获取模块、构建模块、采集模块和分析模块;所述获取模块,用于获取数据分析对象对应的多个数据特征;所述构建模块,用于从多个所述数据特征中确定出待分析指标关联的多个目标数据特征,基于所述目标数据特征生成多条数据分析规则,并基于全部所述数据分析规则,构建所述待分析指标对应的数据分析模型;所述数据分析模型用于表征预警触发条件;所述采集模块,用于获取所述数据分析对象对应的待分析数据,并基于所述业务数据确定每种所述目标数据特征的特征值;所述分析模块,用于将所述目标数据特征的特征值输入所述数据分析模型进行分析,得到所述待分析指标的分析结果。
8.第三方面,本发明提供一种计算机设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现第一方面所述的数据分析方法。
9.第四方面,本发明提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数据分析方法。
10.本发明提供的一种数据分析方法、装置、计算机设备及可读存储介质,方法包括:服务器先获取数据分析对象的数据特征,对待分析指标,确定其对应的目标数据特征,然后由目标数据特征生成多条数据分析规则,并基于全部数据分析规则构建待分析指标的数据分析模型,在利用数据分析模型进行数据分析的过程中,由服务器获取数据分析对象对应的待分析数据,并基于待分析数据确定每种目标数据特征的特征值,然后将目标数据特征的特征值输入数据分析模型进行一次性分析,得到待分析指标的分析结果,减少数据库压力,同时,由于该方案是由服务器先自动生成数据分析模型,然后利用待分析数据执行数据分析模型,数据分析过程无需专业人员过多的人为介入,对业务人员要求低,整个数据分析过程被拆解成执行多条数据分析规则,能够在很大程度上提升数据分析效率。
附图说明
11.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
12.图1为本技术实施例提供的数据分析方法的场景示意图;
13.图2为本发明实施例提供的数据分析方法的示意性流程图;
14.图3为本发明实施例提供的步骤s202的其中一种示意性流程图;
15.图4为本发明实施例提供的其中一种数据分析模型包含的数据分析规则的示例图;
16.图5为本发明实施例提供的一种可视化终端界面;
17.图6为本技术实施例提供的步骤s202的另一种实施方式的示意性流程图;
18.图7为本发明实施例提供的评分卡示例图;
19.图8为本发明实施例提供的数据分析装置的功能模块图;
20.图9为本发明实施例提供的计算机设备的结构框图。
具体实施方式
21.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
22.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
24.在本发明的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
25.此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
26.需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
27.在现有技术中,数据分析方式通常为:由专业开发人员按照特定的业务逻辑编写sql语句,然后由数据分析系统执行sql语句,确定出存在异常的数据,并将异常数据供本系统或者第三方系统去做专项工作流处理。然而这种数据分析方式存在以下缺陷:
28.1、业务逻辑是通过sql动态拼接生成的,未经调优,需要多次执行才能确定出异常数据,对数据库资源消耗比较多。
29.2、采用sql的方式对专业开发人员的依赖性比较强,人为介入过多,而且如有新的需求或出现需求变更,需要依赖专业开发人员对已经编写好的业务逻辑进行更改,门槛较高,导致整个数据分析流程效率较低。
30.为了解决上述技术缺陷,本发明实施例提供了一种数据分析方法,用于提高整个数据分析流程效率,满足用户的时效性需求,同时减少数据库的负担和压力。
31.首先请参见图1,图1为本技术实施例提供的数据分析方法的场景示意图,如图1所示,该场景包括客户端102和服务器104,服务器104可以为服务器集群或者云服务器形式。
32.客户端102可以在用户的操作下向服务器104发送待分析数据,待分析数据包括但不限于登录数据、注册数据、支付数据、交易数据等。比如,客户端102根据用户的登录操作,向服务器104发送用户的登录数据,又如,客户端102根据用户的交易操作,向服务器104发送用户的交易数据。服务器104可以先构建待分析指标的数据分析模型,然后服务器104根据客户端102发送的待分析数据,确定待分析指标对应的数据特征的特征值,然后将特征值输入数据分析模型中,来确定待分析指标是否存在异常,如果是则预警,从而快速确定存在异常的数据。比如,服务器104对登录数据进行分析,确定用户客户身份资料真实性或者有效性。
33.下面以服务器104为执行主体,介绍本发明实施例提供的数据分析方法,如图2所示,图2为本发明实施例提供的数据分析方法的示意性流程图,可以包括如下步骤:
34.s201,获取数据分析对象对应的多个数据特征。
35.本技术实施例中,数据分析对象可以但不局限包括如下任意一种及其组合:客户、证券、公司等。比如,单一客户,单一证券,单一客户单一证券等,数据特征指的是对数据分析对象在业务层面呈现出的特性的抽象表示,例如,以单一客户为例,数据特征可以但不限于包括:单一客户融资规模、单一客户融券规模、单一客户融资余额、单一客户融券余额等。
36.一个数据特征的属性信息包括:id、名称、数据分析对象、业务来源表、数据类型、数值单位、字典编号和字段默认值等等。其中,数据类型包含数值类型和字典类型,数据特征的属性信息能够为后续生成数据分析规则提供依据。
37.在实际场景中,数据特征有两类:属性数据特征和聚合数据特征。属性数据特征是业务表中维度列对应的普通字段,即数据分析对象固有的属性,还可以是一个或者多个普
通字段派生出来的字段(简称派生字段),即根据数据分析对象固有的属性计算出来的新的属性,在业务表中,除了数据分析对象列以外的列为维度列。
38.例如,参见表1,表1为本发明实施例提供的一种维护客户信息的业务表,业务表即上游业务系统存储业务实体信息的表和存储业务动作的表就叫做业务表,业务表中存储有数据分析对象对应的各个维度下的业务数据。
39.表1
[0040][0041]
例如,该业务表中,客户是数据分析对象,客户姓名列即为数据分析对象列,其余列为维度列,每个维度列对应一个普通字段,比如营业部编号、客户编号等,所以营业部编号和客户编号是客户对应的属性数据特征。
[0042]
另外,属性数据特征还可以是普通字段派生出来的字段,意即对多个普通字段进行计算得到一个新的字段即为派生字段,例如,以客户为例,业务表中还可能包括身份证号,相应地,根据身份证号和性别可以派生出其他能够表征客户特征的字段,比如身份证号是否合法、身份证号的性别位与登记性别是否相符等等派生字段。这些派生字段虽然没有直接展示在业务表中,仍然是本发明实施例中需要考虑的属性数据特征。
[0043]
可以看出,在数据结构层面,业务表信息中包含用于标识数据分析对象的字段以及用来衡量数据分析对象属性特征的字段,在实际实施过程中,服务器可以基于获得的业务表进行字段分析,提取普通字段,对提取的特征字段进行计算,得到派生字段,将普通字段和派生字段作为数据分析对象的数据特征。
[0044]
聚合数据特征是对业务表中数据分析对象字段或者普通字段进行聚合汇总后的新字段值。例如,“当日单客户累计成交金额”是基于证券实时成交表内客户字段进行汇总得到的聚合数据特征;再例如,“客户联系地址一致的客户数”是基于客户联系地址字段进行汇总得到的聚合数据特征,客户信息表的数据分析对象为客户,客户联系地址为普通字段。在这种情况下,数据分析对象需要基于普通字段去关联得到聚合数据特征,因此普通字段必须是属性数据特征。
[0045]
因此在实施过程中,在获取数据特征的过程中,服务器可以获取若干张具有数据分析对象的业务表,针对每张业务表,服务器可以执行如下实施方式:提取目标普通字段作为数据特征;将目标普通字段和数据分析对象字段进行汇总计算得到数据特征;将至少两个目标普通字段进行联合计算得到数据特征;还可以联合多张业务表中的普通字段得到数据特征,目标普通字段可以用相关人员指定或者由服务器基于数据分析需求确定,此处不作限定。
[0046]
s202,从多个数据特征中确定出待分析指标关联的多个目标数据特征,基于目标数据特征生成多条数据分析规则,并基于全部数据分析规则,构建待分析指标对应的数据分析模型。
[0047]
本发明实施例中,待分析指标由用户根据实际分析需求进行设置或者服务器根据
数据分析任务随机选取,例如,待分析指标是单一客户融资融券规模占净资本比例、客户信息质量。服务器可以响应用户设置操作,预先建立指标与至少一个数据特征之间的对应关系,然后响应用户选择操作,确定待分析指标,基于预先建立的对应关系,提取待分析指标对应的目标数据特征。
[0048]
本发明实施例中,数据分析规则是判断异常数据的逻辑表达式,意即当输入值满足该逻辑表达式,则表明输入值存在异常,比如,数据分析规则形如:单一客户的客户风险等级是否在预设风险等级集合,预设风险等级集合即为异常等级,当客户等级在预设风险等级集合,则表明存在异常;再例如,单一客户融资规模与单一客户融券规模之和与公司净资本的商值是否大于或等于预设比较阈值,预设比较阈值是一个异常阈值,当当输入值大于或等于预设比较阈值,则表明存在异常。数据分析模型是基于全部数据分析规则之间的逻辑运算构建的,表征待分析指标存在异常时的预警触发条件。
[0049]
s203,获取数据分析对象对应的待分析数据,并基于待分析数据确定每种目标数据特征的特征值。
[0050]
本发明实施例中,服务器可以从上游业务系统中获取数据分析对应业务表,并从业务表中采集业务数据至服务器的数据库中,以便后续基于采集的业务数据进行数据分析。
[0051]
s204,将目标数据特征的特征值输入数据分析模型进行分析,得到待分析指标的分析结果。
[0052]
本发明实施例中,数据分析模型是基于待分析指标的目标数据特征构建的,获得目标数据特征的特征值之后,直接将特征值输入到数据分析模型中进行数据分析,具体地,服务器获得特征值之后,依次执行数据分析模型中的每条数据分析规则,得到每条分析结果对应的分析结果,然后全部分析结果执行逻辑运算,逻辑运算的结果为布尔值,如果布尔值为真,表明至少存在一条数据分析规则所输入的特征值存在异常,此时可以确定待分析指标存在异常,否则表明待分析指标正常。
[0053]
在上述数据分析方法中,服务器先获取数据分析对象的数据特征,对待分析指标,确定其对应的目标数据特征,然后由目标数据特征生成多条数据分析规则,并基于全部数据分析规则构建待分析指标的数据分析模型,在利用数据分析模型进行数据分析的过程中,由服务器获取数据分析对象对应的待分析数据,并基于待分析数据确定每种目标数据特征的特征值,然后将目标数据特征的特征值输入数据分析模型进行一次性分析,得到待分析指标的分析结果,减少数据库压力,同时,由于该方案是由服务器先自动生成数据分析模型,然后利用待分析数据执行数据分析模型,数据分析过程无需专业人员过多的人为介入,对业务人员要求低,整个数据分析过程被拆解成执行多条数据分析规则,能够在很大程度上提升数据分析效率。
[0054]
在其中一种可选的实施方式中,本发明实施例中构建的数据分析模型是由多个数据分析规则之间的逻辑关系组成,所以在构建数据分析模型的过程中,服务器基于数据特征类型建立不同类型的数据分析规则,包括利用单独每条第一类目标数据特征建立每条数据分析规则以及利用至少两条第二类目标数据特征建立每条数据分析规则,最后对全部数据分析规则进行逻辑拼接得到数据分析模型,因此,上述步骤s202的实施方式如图3所示,图3为本发明实施例提供的步骤s202的其中一种示意性流程图,可以包括如下步骤:
[0055]
s202-1a:确定第一类目标数据特征对应的集合运算符以及预设阈值集合,得到每个第一类目标数据特征对应的数据分析规则;
[0056]
本发明实施例中,第一类目标数据特征的特征值数值类型为字典类型;集合运算符包括“in”和“not in”这两种,集合运算符用来确定第一类目标数据特征的特征值是否在预设阈值集合内,以确定第一目标数据特征是否存在异常,预设阈值集合是用户设置的第一目标数据特征的异常值集合。
[0057]
比如:第一类目标数据特征为单一客户的客户风险等级,关系运算符为in,预设阈值集合为{中风险、高风险},若服务器确定客户风险等级的特征值为低风险,并判断出特征值不在预设阈值集合中,表明客户风险等级正常,该条数据分析规则的结果为假;若为高风险,在预设阈值集合中,则该条数据分析规则的结果为真。
[0058]
s202-2a:确定至少两个第二类目标数据特征之间的操作关系以生成预警发生条件表达式,并确定预警发生条件表达式对应的比较运算符和预设比较阈值,得到数据分析规则,和/或,确定一个第二类目标数据特征对应的比较运算符和预设比较阈值,得到第二类目标数据特征对应的数据分析规则。
[0059]
本发明实施例中,第二类目标数据特征的特征值数值类型为数值类型,当一条数据分析规则包括多个第二类目标数据特征时,该数据分析规则还包括关系运算符、操作符和预设比较阈值。当一条数据分析规则仅含一个目标数据特征时,可以不包括操作符。
[0060]
其中,操作符可以用来确定第二类目标数据特征对应之间的操作关系以生成预警发生条件表达式,操作符可以但不限于包含加、减、乘、除运算符,比较运算符包括大于、等于、大于等于、小于、小于等于和不等于,比较运算符用来确定预警发生条件表达式的结果是否与预设比较阈值匹配,预设比较阈值是根据实际业务场景设置的数值。
[0061]
比如,第二类目标数据特征有单一客户融资规模、单一客户融券规模和公司净资本,通过操作符生成三者对应的预警发生条件表达式为:(单一客户融资规模+单一客户融券规模)/公司净资本,比较运算符可以设置为大于或等于,比较阈值为0.3,那么当预警发生表达式对应的结果大于或等于0.3,则该条数据分析规则的结果为真,否则该条数据分析规则的结果为假。
[0062]
因此,在实施过程中,服务器从每个目标数据特征的属性信息提取数值类型,并基于数值类型确定出第一类目标特征数据和第二类目标特征数据,响应用户针对第一类目标数据特征的确认操作以及对集合运算符以及预设阈值集合的选择操作,生成第一类目标数据特征对应的数据分析规则;响应用户针对至少一个第二类目标数据特征的确认操作以及对预设比较阈值、比较运算符和/或至少一个操作符的选择操作,生成第二类目标数据特征对应的数据分析规则。
[0063]
可选地,用户还可以为每一个数据分析规则绑定预警标签,即标识数据分析对象拥有绑定的预警标签特征,方便后续对数据分析对象进行画像分析。
[0064]
s202-3a:建立全部数据分析规则之间的逻辑关系,得到数据分析模型。
[0065]
本发明实施例中,针对每种待分析指标,可以生成多条数据分析规则,然后将全部数据分析规则进行逻辑运算,就可以得到每个待分析指标对应的一个数据分析模型。其中,逻辑运算可以为逻辑或运算或者逻辑与运算,由用户基于实际需求进行设置,此处不作限定。意即,服务器生成多条数据分析规则之后,响应用户针对逻辑运算符的选择操作,基于
被选择的逻辑运算符对全部数据分析规则进行逻辑拼接,得到数据分析模型。
[0066]
为了方便理解上述数据分析模型,请参见图4,图4为本发明实施例提供的其中一种数据分析模型包含的数据分析规则的示例图,如图4所示,以单一客户融资融券规模占公司净资本比例这个指标为例,通过上述实施方式确定的数据分析规则有两条,一条是(单一客户融资规模+单一客户融券规模)/公司净资本大于或等于0.3(简称为表达式一)、另一条是单一客户的客户风险等级在{中风险,高风险}这个集合内(简称为表达式二),那么最终得到的单一客户融资融券规模占公司净资本比例这个指标的数据分析模型为:表达式一或表达式二,也就是说,当表达式一和表达式二中其中一个值为真,则表明单一客户融资融券规模占公司净资本比例这个指标存在异常。
[0067]
在实际实施场景中,为了生成数据分析模型,本发明实施例还提供一种可视化终端界面,如图5所示,图5为本发明实施例提供的一种可视化终端界面,包括:数据特征选择区域、规则选择区域、指标设置区域、数据分析规则生成区域和数据分析模型生成区域。
[0068]
用户选择数据分析对象后,在数据特征选择区域展示与该数据分析对象相关的数据特征。例如选择数据分析对象的单一客户,则展示单一客户的所有数据特征。用户填写预警风控指标模型名称和描述备注信息。
[0069]
用户可以在预警指标设置区域设置待分析指标的名称、所属模块、指标类型以及指标说明信息,计算机设备根据预定规则生成该待分析指标的id。
[0070]
在数据分析规则生成区域内,用户可以从数据特征选择区域内选择至少一个数据特征并拖拽到数据分析规则编辑区域,然后从规则选择区域内选择操作符生成被选中的数据特征之间的表达式,将各个表达式拖拽到数据分析模型生成区域中,然后在规则选择区域内选择逻辑运算符,生成每个预警发生条件表达式之间的逻辑关系,最终得到数据分析模型。
[0071]
那么,基于上述数据分析模型,本发明实施例给出了一种基于数据分析模型确定待分析指标的分析结果的实施方式,即上述步骤s204的其中一种实施方式可以是:
[0072]
将目标数据特征的特征值输入数据分析模型中,确定每个数据分析规则的布尔值,并对全部布尔值进行逻辑与运算或者逻辑或运算,若布尔值为真,则输出待分析指标存在异常的分析结果;否则,则输出待分析指标正常的分析结果。
[0073]
例如,继续参图4,假设(单一客户融资规模+单一客户融券规模)/公司净资本(简称规则一)的特征值为0.4,满足大于或等于0.3,那么规则一的布尔值为真,单一客户的客户风险等级(简称规则二)的特征值为低风险,不在阈值集合内,那么规则二的布尔值为假,假设规则一和规则二的逻辑运算关系为逻辑或,那么最终输出的布尔值为真,则表明单一客户融资融券规模占公司净资本比例存在异常。
[0074]
在实际实施过程种,当接受到数据分析任务,可以获取数据分析任务下的所有数据分析模型,将数据分析模型所依赖的数据特征所对应的数据分析结果汇总分析取数至内存当中;当一条包含数据分析对象和该风控指标模型所依赖的所有数据特征的数据进入内存时,可以使用谷歌的avaitor表达式引擎计算风控指标模型中所有数据分析规则的布尔值,并对所有数据分析规则的布尔值进行逻辑运算得到一个布尔值,如该布尔值为真,则产生分析结果推送至预警存储模块;如果该布尔值为假,则进行下一条数据的计算,直至所有数据遍历完毕,最后接收风控分析结果,并将分析结果持久化存储到分析结果表里面去。
[0075]
在另一种可选的实施方式中,本发明实施例中的数据分析模型可以是评分卡。一张评分卡可以包含多个数据特征,一个数据特征可以包含多行记录,多行记录各自的取值范围之间不存在交集。评分卡的表头主要包含:数据分析对象名称、数据特征名称、以及每个数据特征对应的描述信息、至少一个预警值区间和权重、每个预警值区间对应的分值。在构建评分卡的过程中,由服务器确定每种目标数据特征对应的权重、多个预警值区间以及每个预警值区间对应的关系运算符和分值,基于权重、各个预警值区间的关系运算符和分值构建评分卡,作为数据分析模型。
[0076]
因此,针对上述步骤s202,请参见图6,图6为本技术实施例提供的步骤s202的另一种实施方式的示意性流程图,可以包括如下步骤:
[0077]
s202-1b:为每种目标数据特征划分多个预警值区间,并为每个预警值区间配置关系运算符和分值以及为目标数据特征配置权重;
[0078]
s202-2b:针对每种目标数据特征,基于多个预警值区间以及每个预警值区间对应的关系运算符和分值,创建每种目标数据特征对应的多条数据分析规则;
[0079]
s202-3b:基于每种目标数据特征对应的多条数据分析规则和权重,构建评分卡,将评分卡作为数据分析模型。
[0080]
本发明实施例中,用户可以新建一张评分卡,每种目标数据特征所对应的关系运算符由其数据类型决定,其中,数值类型和金额类型为比较运算符和数值区间运算符,比较运算符包含大于、等于、大于等于、小于、小于等于和不等于;数值区间运算符包含左开右闭,左闭又开,左开右开,左闭右闭。字典类型为in和not in运算符。
[0081]
为了方便理解,请参见图7,图7为本发明实施例提供的评分卡示例图,目标数据特征包括:评估期末客户数量占比、评估期末客户资产规模占比和评估期内通过非面对面渠道新建立业务关系的客户数占比,描述信息用于描述每种目标数据特征的特征值计算方式,每种目标数据特征包含多行记录,多行记录的取值范围之间不存在交集,每行记录记为一个数据分析规则。
[0082]
那么,基于图7所示的评分卡,本发明实施例给出了另一种基于数据分析模型分析待分析指标的分析结果的实施方式,即上述步骤s204的其中一种实施方式可以是:
[0083]
步骤1:将目标数据特征的特征值输入数据分析模型中,确定目标数据特征的特征值落入的目标预警区间,基于目标预警区间对应的分值和目标数据特征对应的权重,得到目标数据特征的得分;
[0084]
步骤2:若确定全部目标数据特征的得分总和大于或等于预设得分阈值,则输出待分析指标存在异常的分析结果。
[0085]
比如,继续参见图7,假设评估期末客户数量占比的特征值为0.4,落入到预警值区间[0.3,0.5)内,所以评估期末客户数量占比的得分最终为2*2%=0.04,假设预设得分阈值为80分,那么当全部目标数据特征对应的得分总和大于或等于80,则表明存在异常。
[0086]
在实际实施过程中,当接收一个数据分析任务,获取到数据分析任务下挂载的数据特征列表。将评分卡所依赖的数据特征对应的数据分析结果取数至内存当中;当一条包含数据分析对象和评分卡模型所依赖的数据特征的分析数据进入内存后,初始化一个总分数x,并为x赋值为0,会依次遍历评分卡中的所有行,每一行会基于数据特征因子的值进行逻辑判断,如该行记录对应的布尔值为真,则总分数x加上该行的权重*分值得到新的总分
数;直至所有行遍历完毕,得到的总分数会同预警分数阈值进行比较,如果大于等于预警分数分值,则该条记录预警,并推送至分析结果存储模块,并进行预警持久化存储。
[0087]
也就是说,当数据分析模型为评分卡时,将每种目标数据特征的特征值输入评分卡中得到全部目标数据特征的得分总和,当确定得分总和大于或等于预设得分阈值时则确定待分析指标存在异常;当数据分析模型是由多个数据分析规则逻辑拼接而成,将每种目标数据特征的特征值输入数据分析模型中计算每条数据分析规则的布尔值,当全部布尔值的逻辑运算结果为真,则确定待分析指标存在异常。
[0088]
在可选的实施方式中,本发明实施例还可以设置数据分析任务触发频率,比如一天一次、5分钟一次、一天两次等,因此,若上一次预警分析时间与当前系统时间的时间差满足预设触发频率,则触发预警分析任务,并获取触发预警分析任务下的数据分析模型列表,针对数据分析模型列表中的每个数据分析模型,返回执行获取数据分析对象对应的待分析数据,并基于待分析数据确定每种目标数据特征的特征值的步骤,直到获得每个数据分析模型对应的分析结果。
[0089]
综上,本发明实施例提供的数据分析方法,抽象出了数据分析模型,发生条件,数据特征,触发条件等元素,强调单一指标内部多个条件之间的与和或关系、基于一个或多个数据特征、逻辑符、运算符和阈值来拼接生成数据分析规则的过程,且数据分析规则之间可组成逻辑判断关系,能够用于赋能业务人员,方便业务人员通过可视化拖拽组合生成数据分析模型,并基于数据分析模型实现风控预警分析,提升预警分析的交付效率和执行效率,同时减少数据库的负担和压力。
[0090]
基于相同的发明构思,本技术实施例还提供一种数据分析装置,该数据分析装置如图8所示,图8为本发明实施例提供的数据分析装置的功能模块图,该数据分析装置300可包括:获取模块310、构建模块320、采集模块330和分析模块340;
[0091]
获取模块310,用于获取数据分析对象对应的多个数据特征;
[0092]
构建模块320,用于从多个数据特征中确定出待分析指标关联的多个目标数据特征,基于目标数据特征生成多条数据分析规则,并基于全部数据分析规则,构建待分析指标对应的数据分析模型;数据分析模型用于表征预警触发条件;
[0093]
采集模块330,用于获取数据分析对象对应的待分析数据,并基于待分析数据确定每种目标数据特征的特征值;
[0094]
分析模块340,用于将目标数据特征的特征值输入数据分析模型进行分析,得到待分析指标的分析结果。
[0095]
可以理解的是,获取模块310、构建模块320、采集模块330和分析模块340可以协同的执行图2中的各个步骤以实现相应的技术效果。
[0096]
在可选的实施方式中,构建模块320可以用于:确定第一类目标数据特征对应的集合运算符以及预设阈值集合,得到每个第一类目标数据特征对应的数据分析规则;其中,第一类目标数据特征的特征值数值类型为字典类型;确定至少两个第二类目标数据特征之间的操作关系以生成预警发生条件表达式,并确定预警发生条件表达式对应的比较运算符和预设比较阈值,得到数据分析规则;第二类目标数据特征的特征值数值类型为数值类型;建立全部数据分析规则之间的逻辑关系,得到数据分析模型。
[0097]
在可选的实施方式中,构建模块320还可以用于:为每种目标数据特征划分多个预
interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0106]
在本技术实施例中,处理器402可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储器401中,处理器402读取存储器401中的程序指令,结合其硬件完成上述方法的步骤。
[0107]
在本技术实施例中,存储器401可以是非易失性存储器,比如硬盘(hard diskdrive,hdd)或固态硬盘(solid-state drive,ssd)等,还可以是易失性存储器(volatilememory),例如ram。存储器还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本技术实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储指令和/或数据。
[0108]
存储器401可用于存储软件程序及模块,如本发明实施例提供的数据分析装置300的指令/模块,可以软件或固件(firmware)的形式存储于存储器401中或固化在计算机设备400的操作系统(operating system,os)中,处理器402通过执行存储在存储器401内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口403可用于与其他节点设备进行信令或数据的通信。
[0109]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0110]
可以理解,图9所示的结构仅为示意,计算机设备400还可以包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。图9所示的各组件可以采用硬件、软件或其组合实现。
[0111]
基于以上实施例,本技术还提供了一种存储介质,存储介质中存储有计算机程序,计算机程序被计算机执行时,使得计算机执行以上实施例提供的数据分析方法。
[0112]
基于以上实施例,本技术实施例还提供了一种计算机程序,当计算机程序在计算机上运行时,使得计算机执行以上实施例提供的数据分析方法。
[0113]
基于以上实施例,本技术实施例还提供了一种芯片,芯片用于读取存储器中存储的计算机程序,用于执行以上实施例提供的数据分析方法。
[0114]
本技术实施例中还提供一种计算机程序产品,包括指令,当其在计算机上运行时,使得计算机执行以上实施例提供的数据分析方法。
[0115]
本技术实施例是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0116]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0117]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0118]
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:
1.一种数据分析方法,其特征在于,所述方法包括:获取数据分析对象对应的多个数据特征;从多个所述数据特征中确定出待分析指标关联的多个目标数据特征,基于所述目标数据特征生成多条数据分析规则,并基于全部所述数据分析规则,构建所述待分析指标对应的数据分析模型;所述数据分析模型用于表征预警触发条件;获取所述数据分析对象对应的待分析数据,并基于所述待分析数据确定每种所述目标数据特征的特征值;将所述目标数据特征的特征值输入所述数据分析模型进行分析,得到所述待分析指标的分析结果。2.根据权利要求1所述的数据分析方法,其特征在于,从多个所述数据特征中确定出待分析指标关联的多个目标数据特征,基于所述目标数据特征生成多条数据分析规则,并基于全部所述数据分析规则,构建所述待分析指标对应的数据分析模型,包括:确定第一类目标数据特征对应的集合运算符以及预设阈值集合,得到每个所述第一类目标数据特征对应的数据分析规则;其中,所述第一类目标数据特征的特征值数值类型为字典类型;确定至少两个第二类目标数据特征之间的操作关系以及预警发生条件表达式,并确定预警发生条件表达式对应的比较运算符和预设比较阈值,得到数据分析规则;和/或,确定一个所述第二类目标数据特征对应的所述比较运算符和所述预设比较阈值,得到所述第二类目标数据特征对应的数据分析规则;其中,所述第二类目标数据特征的特征值数值类型为数值类型;建立全部所述数据分析规则之间的逻辑关系,得到所述数据分析模型。3.根据权利要求1所述的数据分析方法,其特征在于,基于所述目标数据特征生成多条数据分析规则,并基于全部所述数据分析规则,构建所述待分析指标对应的数据分析模型,包括:为每种所述目标数据特征划分多个预警值区间,并为每个所述预警值区间配置关系运算符和分值以及为所述目标数据特征配置权重;针对每种所述目标数据特征,基于多个所述预警值区间以及每个所述预警值区间对应的所述关系运算符和所述分值,创建每种所述目标数据特征对应的多条数据分析规则;基于每种所述目标数据特征对应的所述多条数据分析规则和所述权重,构建评分卡,将评分卡作为所述数据分析模型。4.根据权利要求3所述的数据分析方法,其特征在于,将所述目标数据特征的特征值输入所述数据分析模型进行逻辑运算,直到输出所述待分析指标的分析结果,包括:将所述目标数据特征的特征值输入所述数据分析模型中,确定所述目标数据特征的特征值落入的目标预警区间,基于所述目标预警区间对应的所述分值和所述目标数据特征对应的所述权重,得到所述目标数据特征的得分;若确定全部所述目标数据特征的得分总和大于或等于预设得分阈值,则输出所述待分析指标存在异常的分析结果。
5.根据权利要求2所述的数据分析方法,其特征在于,将所述目标数据特征的特征值输入所述数据分析模型进行逻辑运算,直到输出所述待分析指标的分析结果,包括:将所述目标数据特征的特征值输入所述数据分析模型中,确定每个所述数据分析规则的布尔值,并对全部所述布尔值进行逻辑运算,若布尔值为真,则输出所述待分析指标存在异常的分析结果。6.根据权利要求1所述的数据分析方法,其特征在于,所述方法还包括:若上一次分析时间与当前系统时间的时间差满足预设触发频率,则触发数据分析任务,并获取所述数据分析任务下的数据分析模型列表;针对所述数据分析模型列表中的每个所述数据分析模型,返回执行获取所述数据分析对象对应的待分析数据,并基于所述待分析数据确定每种所述目标数据特征的特征值的步骤,直到获得每个所述数据分析模型对应的所述分析结果。7.根据权利要求1所述的数据分析方法,其特征在于,获取数据分析对象对应的多个数据特征,包括:获取若干张具有所述数据分析对象的业务表;对若干张所述业务表进行特征分析,得到多个所述数据特征。8.一种数据分析装置,其特征在于,包括:获取模块、构建模块、采集模块和分析模块;所述获取模块,用于获取数据分析对象对应的多个数据特征;所述构建模块,用于从多个所述数据特征中确定出待分析指标关联的多个目标数据特征,基于所述目标数据特征生成多条数据分析规则,并基于全部所述数据分析规则,构建所述待分析指标对应的数据分析模型;所述数据分析模型用于表征预警触发条件;所述采集模块,用于获取所述数据分析对象对应的待分析数据,并基于所述待分析数据确定每种所述目标数据特征的特征值;所述分析模块,用于将所述目标数据特征的特征值输入所述数据分析模型进行分析,得到所述待分析指标的分析结果。9.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机程序,所述处理器可执行所述计算机程序以实现权利要求1至7任一项所述的数据分析方法。10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据分析方法。
技术总结
本发明提供的数据分析方法、装置、计算机设备及可读存储介质,包括:获取数据分析对象对应的多个数据特征;从多个数据特征中确定出待分析指标关联的多个目标数据特征,基于目标数据特征生成多条数据分析规则,并基于全部数据分析规则,构建待分析指标对应的数据分析模型;数据分析模型用于表征预警触发条件;获取数据分析对象对应的待分析数据,并基于待分析数据确定每种目标数据特征的特征值;将目标数据特征的特征值输入数据分析模型进行分析,得到待分析指标的分析结果。整个分析过程利用数据分析模型一次性完成数据分析,减少数据库压力,逻辑简单,无需专业人员过多的人为介入,能够在很大程度上提升数据分析效率。够在很大程度上提升数据分析效率。够在很大程度上提升数据分析效率。
技术研发人员:李鹏宇 应果 张福明 张媛 叶向萌 李召雷 王辉 钟小华
受保护的技术使用者:恒生电子股份有限公司
技术研发日:2023.02.15
技术公布日:2023/7/12
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种汽车前保险杠的制作方法 下一篇:一种密码解锁件的制作方法