一种数据处理方法、装置、设备及存储介质与流程

未命名 08-12 阅读:65 评论:0


1.本公开涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。


背景技术:

2.在大数据时代,各行各业都会产生海量数据,为了从这些数据中提取出更有效的信息,经常需要对这些数据进行分类处理,以根据数据的类别对数据进行管理、分析或存储等操作,例如,在电商领域,将订单信息分为好评订单和差评订单;在物流领域,将运单信息分为正常运单和风险运单;在互联网领域,将用户信息分为普通用户和广告用户等。
3.在现有技术中,通常由人工对数据进行分类处理,但对于海量数据来说,这种方式处理周期长,会浪费大量人力,而且可能会存在由于数据处理人员经验不够等原因,导致数据处理结果不准确的问题,另外,若数据处理人员的处理标准不同,可能会导致数据处理结果不具有统一性。


技术实现要素:

4.本公开提供了一种数据处理方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。
5.根据本公开的第一方面,提供了一种数据处理方法,该方法包括:获取待处理数据,所述待处理数据包括历史对象的历史关联数据和目标对象的当前业务数据;根据所述历史关联数据,计算所述历史对象中正常历史对象的加权比例;根据所述历史关联数据和所述当前业务数据,计算所述目标对象的影响属性的特征值;根据分类模型、所述加权比例和所述特征值,对所述目标对象进行分类处理,得到数据处理结果。
6.在一可实施方式中,所述根据所述历史关联数据,计算所述历史对象中正常历史对象的加权比例,包括:根据所述历史关联数据,计算不同历史阶段中正常历史对象数占历史对象总数的第一比例,以及计算失败历史对象数占异常历史对象数的第二比例;根据所述第一比例和所述第二比例,计算所述历史对象中正常历史对象的加权比例;根据如下公式计算所述历史对象中正常历史对象的加权比例:其中,x为所述加权比例,a1、a2和an分别表示不同历史阶段中的历史对象总数,b1、b2和bm分别表示不同历史阶段中的正常历史对象数,α、β和γ分别表示不同历史阶段的加权系数,c表示历史对象中的异常历史对象数,d表示历史对象中的失败历史对象数。
7.在一可实施方式中,所述影响属性包括路径属性,所述根据所述历史关联数据和所述当前业务数据,计算所述目标对象的影响属性的特征值,包括:根据所述历史关联数据,计算所述路径属性对应的正常历史对象数占历史对象总数的第三比例;根据所述当前业务数据,计算所述路径属性的起点指标值和终点指标值的平均值;根据所述目标对象的
行进方式指标值、所述第三比例和所述平均值,计算所述目标对象的路径属性的第一特征值;根据如下公式计算所述目标对象的路径属性的第一特征值:其中,y为所述第一特征值,e为路径属性对应的历史对象总数,f为路径属性对应的正常历史对象数,g1为路径属性的起点指标值,g2为路径属性的终点指标值,h为行进方式指标值,δ、ε和∈分别为加权系数。
8.在一可实施方式中,所述影响属性包括环境属性,所述根据所述历史关联数据和所述当前业务数据,计算所述目标对象的影响属性的特征值,包括:根据所述当前业务数据,计算所述环境属性的持续时间与所述目标对象的预设行进时间的比值;根据所述比值、所述环境属性对应的环境指标值和所述环境属性对应的程度参数,计算所述目标对象的环境属性的第二特征值;根据如下公式计算所述目标对象的环境属性的第二特征值:z=m
×
t
×u×
100,其中,z为所述第二特征值,m为所述环境指标值,t为所述比值,u为所述程度参数。
9.在一可实施方式中,所述根据分类模型、所述加权比例和所述特征值,对所述目标对象进行分类处理,得到数据处理结果,包括:根据所述加权比例、所述第一特征值和所述第二特征值,计算所述目标对象的整体指标值;根据所述分类模型和所述整体指标值,对所述目标对象进行分类处理,得到所述数据处理结果;根据如下公式计算所述目标对象的整体指标值:q=ax+by-cz,其中,q为所述整体指标值,x为所述加权比例,y为所述第一特征值,z为所述第二特征值,a、b、c分别为权重参数。
10.在一可实施方式中,所述分类模型为支持向量机模型,所述根据所述分类模型和所述整体指标值,对所述目标对象进行分类处理,得到所述数据处理结果,包括:将所述整体指标值和所述目标对象对应的消耗指标值确定为目标向量点;根据所述支持向量机模型,对所述目标向量点进行分类处理,得到所述数据处理结果。
11.在一可实施方式中,所述方法还包括:根据所述加权比例、所述第一特征值和所述第二特征值,对所述权重参数进行调整,得到调整后权重参数。
12.根据本公开的第二方面,提供了一种数据处理装置,该装置包括:获取模块,用于获取待处理数据,所述待处理数据包括历史对象的历史关联数据和目标对象的当前业务数据;第一计算模块,用于根据所述历史关联数据,计算所述历史对象中正常历史对象的加权比例;第二计算模块,用于根据所述历史关联数据和所述当前业务数据,计算所述目标对象的影响属性的特征值;分类处理模块,用于根据分类模型、所述加权比例和所述特征值,对所述目标对象进行分类处理,得到数据处理结果。
13.根据本公开的第三方面,提供了一种电子设备,包括:
14.至少一个处理器;以及
15.与所述至少一个处理器通信连接的存储器;其中,
16.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开所述的方法。
17.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开所述的方法。
18.本公开的一种数据处理方法、装置、设备及存储介质,首先获取待处理数据,待处
理数据包括历史对象的历史关联数据和目标对象的当前业务数据,然后根据历史关联数据,计算历史对象中正常历史对象的加权比例,并根据历史关联数据和当前业务数据,计算目标对象的影响属性的特征值,最后根据分类模型、加权比例和特征值,对目标对象进行分类处理,得到数据处理结果。由此,提取与目标对象关联的历史对象中正常历史对象的加权比例,以及目标对象的影响属性的特征值,加权比例和特征值可以准确表征目标对象的特征,最后根据分类模型结合加权比例和特征值,实现对目标对象的自动分类,从而减少人力消耗,提高数据处理结果的准确性,且不会存在因为数据处理人员的数据处理标准不同,导致数据处理结果不具有统一性的问题。
19.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
20.通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
21.在附图中,相同或对应的标号表示相同或对应的部分。
22.图1示出了本公开第一实施例一种数据处理方法的流程示意图;
23.图2示出了本公开第三实施例一种数据处理方法的流程示意图;
24.图3示出了本公开第五实施例一种数据处理方法的流程示意图;
25.图4示出了本公开第八实施例一种数据处理装置的结构示意图;
26.图5示出了本公开实施例一种电子设备的组成结构示意图。
具体实施方式
27.为使本公开的目的、特征、优点能够更加的明显和易懂,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而非全部实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
28.图1示出了本公开第一实施例一种数据处理方法的流程示意图,如图1所示,该方法主要包括:
29.步骤s101,获取待处理数据,待处理数据包括历史对象的历史关联数据和目标对象的当前业务数据。
30.在本实施例中,首先需要获取待处理数据,待处理数据包括历史对象的历史关联数据和目标对象的当前业务数据,其中,目标对象为需要进行分类处理的对象,历史对象为与目标对象关联的、已完成其业务处理事项的对象,当前业务数据为与目标对象的当前业务相关的数据,历史关联数据为与历史对象的业务事项相关的数据。
31.在一可实施方式中,待处理数据的来源可以丰富多样,例如,在物流领域,目标对象可以为需要进行分类处理的目标运单,历史对象可以为与目标运单关联的、已完成运送任务的历史运单,当前业务数据可以为目标运单的运送路径所经过的城市、目标运单的运送方式和目标运单运送日期的天气情况等,历史关联数据可以为历史运单总数、历史运单
是否准点、历史运单是否延期和历史运单是否因为延期退单等,其中,若历史运单与目标运单属于同一物流公司,则可认为历史运单与目标运单关联,或,若历史运单与目标运单运送的货物种类相同,则可认为历史运单与目标运单关联等,目标运单的运送方式可以为空运、高铁运送、公路运送和海运等;在航空领域,目标对象可以为需要进行分类处理的目标航班,历史对象可以为与目标航班关联的、已完成飞行任务的历史航班,当前业务数据可以为目标航班的飞行路径所经过的城市、目标航班的飞行时间和目标航班飞行时间的天气情况等,历史关联数据可以为历史航班总数、历史航班是否准点、历史航班是否晚点和历史航班是否因为晚点取消等,其中,若历史航班与目标航班属于同一航空公司,则可认为历史航班与目标航班关联,或,若历史航班与目标航班的起飞机场相同,则可认为历史航班与目标航班关联等。需要强调的是,待处理数据的来源不仅以上所列,可以更加丰富多样。
32.步骤s102,根据历史关联数据,计算历史对象中正常历史对象的加权比例。
33.在本实施例中,需要根据历史关联数据,计算历史对象中正常历史对象的加权比例,其中,正常历史对象为正常完成业务处理事项的历史对象;根据历史对象的业务处理事项完成的时间,可以将历史对象归入不同的历史阶段,并为每个历史阶段添加对应的权重系数,即加权系数,则基于加权系数,所有历史阶段的正常历史对象占该历史阶段中历史对象的比例之和即为加权比例。
34.在一可实施方式中,以物流领域为例,若历史阶段包括当前年度、当前季度和当前月度,正常历史对象为准点运单,则可以根据如下公式(一)计算历史运单中准点运单的加权比例x
log

35.x
log

×ryear
+
×rquarter
+
×rmonth
,公式(一)
36.其中,r
year
为当前年度的准点运单数占当前年度的历史运单总数的比例;r
quarter
为当前季度的准点运单数占当前季度的历史运单总数的比例;r
month
为当前月度的准点运单数占当前月度的历史运单总数的比例;α、β和γ分别为当前年度、当前季度和当前月度对应的加权系数,α、β和γ可以根据实际情况自行设定。
37.在一可实施方式中,以航空领域为例,若历史阶段包括当前季度、当前月度和当前周,正常历史对象为准点航班,则可以根据如下公式(二)计算历史航班中准点航班的加权比例x
fli

38.x
fli

×rquarter
+
×rmonth
+
×rweek
,公式(二)
39.其中,r
quarter
为当前季度的准点航班数占当前季度的历史航班总数的比例;r
month
为当前月度的准点航班数占当前月度的历史航班总数的比例;r
week
为当前周的准点航班数占当前周的历史航班总数的比例;α、β和γ分别为当前季度、当前月度和当前周对应的加权系数,α、β和γ可以根据实际情况自行设定。
40.步骤s103,根据历史关联数据和当前业务数据,计算目标对象的影响属性的特征值。
41.在本实施例中,还需要根据历史关联数据和当前业务数据,计算目标对象的影响属性的特征值,其中,影响属性为会影响目标对象的分类结果的属性,即会影响目标对象对应的数据处理结果的属性,影响属性的特征值用于表征影响属性对目标对象的数据处理结果的影响程度。以物流领域为例,若目标运单属于尚未进行其运送业务的运单,且数据处理结果表征目标运单是否为正常运单,则影响属性可以为目标运单的运送路径和目标运单运
送日期的天气情况等;以航空领域为例,若目标航班属于尚未进行其飞行业务的航班,且数据处理结果表征目标航班是否为准点航班,则影响属性可以为目标航班的飞行路径所经过的城市和目标航班飞行时间的天气情况等。
42.在一可实施方式中,以物流领域为例,若影响属性为目标运单的运送路径,且运送路径的起点城市为j、终点城市为k,则可以根据如下公式(三)计算目标对象的影响属性的特征值y
log

[0043][0044]
其中,ε为影响属性的加权系数,ε可以根据实际情况自行设定;gj为起点城市j的指标值;gk为终点城市k的指标值,gj和gk可以根据实际情况自行设定,优选地,设定规则可以为一线城市、二线城市、三线城市、四线城市、乡镇的指标值依次减小。
[0045]
在一可实施方式中,以航空领域为例,若影响属性为目标航班飞行时间内的天气情况,且该天气情况为雨,则可以根据如下公式(四)计算目标对象的影响属性的特征值z
fli

[0046]zfli

×mrain
,公式(四)
[0047]
其中,t为雨的持续时长与目标航班的预计飞行时长的比值,m
rain
为雨对应的指标值,m
rain
可以根据实际情况自行设定,优选地,天气情况指标值的设定规则可以为天气情况越利于航班飞行,则其对应的指标值越小。
[0048]
步骤s104,根据分类模型、加权比例和特征值,对目标对象进行分类处理,得到数据处理结果。
[0049]
在本实施例中,将计算得到的加权比例和特征值输入至分类模型,由分类模型对目标对象进行分类处理,得到数据处理结果,由于加权比例和特征值可以准确表征目标对象的特征,因此,可以提高最终得到的数据处理结果的准确率。
[0050]
在一可实施方式中,分类模型可以为决策树(dt,decision tree)模型、支持向量机(svm,support vector machine)模型、随机森林(rf,random forest)模型和梯度提升树(gbdt,gradient boosting decision tree)模型等。
[0051]
在本公开第一实施例中,提取与目标对象关联的历史对象中正常历史对象的加权比例,以及目标对象的影响属性的特征值,加权比例和特征值可以准确表征目标对象的特征,最后根据分类模型结合加权比例和特征值,实现对目标对象的自动分类,从而减少人力消耗,提高数据处理结果的准确性,且不会存在因为数据处理人员的数据处理标准不同,导致数据处理结果不具有统一性的问题。
[0052]
在本公开第二实施例中,步骤s102主要包括:
[0053]
根据历史关联数据,计算不同历史阶段中正常历史对象数占历史对象总数的第一比例,以及计算失败历史对象数占异常历史对象数的第二比例;根据第一比例和第二比例,计算历史对象中正常历史对象的加权比例。
[0054]
在本实施例中,首先根据历史关联数据,计算不同历史阶段中正常历史对象数占历史对象总数的第一比例,并计算失败历史对象数占异常历史对象数的第二比例,然后根据第一比例和第二比例,计算历史对象中正常历史对象的加权比例。具体地,正常历史对象为正常完成业务处理事项的历史对象;失败历史对象为最终未完成业务处理事项的历史对
象;异常历史对象为已完成业务处理事项,但并不符合该业务处理事项要求的历史对象。
[0055]
在一可实施方式中,可以根据如下公式(五)计算历史对象中正常历史对象的加权比例:
[0056][0057]
其中,x为加权比例,a1、a2和an分别表示不同历史阶段中的历史对象总数,b1、b2和bn分别表示不同历史阶段中的正常历史对象数,α、β和γ分别表示不同历史阶段的加权系数,α、β和γ可以根据实际情况自行设定,c表示历史对象中的异常历史对象数,d表示历史对象中的失败历史对象数。具体地,公式(五)中的即为第一历史阶段中正常历史对象数占第一历史阶段中历史对象总数的第一比例;即为第二历史阶段中正常历史对象数占第二历史阶段中历史对象总数的第一比例;即为第n历史阶段中正常历史对象数占第n历史阶段中历史对象总数的第一比例;即为待处理数据中所有失败历史对象数占待处理数据中所有异常历史对象数的第二比例。
[0058]
在一可实施方式中,以物流领域为例,若正常历史对象为正常完成业务处理事项的正常运单;失败历史对象为因为延期而退单的失败运单;异常历史对象为延期运达的延期运单,且待处理数据中所有历史对象分为三个历史阶段,分别为所有历史对象对应的整体历史阶段、当前季度和当前月度,则公式(五)中的即为待处理数据中所有正常运单数占待处理数据中所有历史运单的第一比例;即为当前季度中正常运单数占当前季度中历史运单总数的第一比例;即为当前月度中正常运单数占当前月度中历史运单总数的第一比例;即为待处理数据中所有失败运单数占待处理数据中所有延期运单数的第二比例,优选地,公式(五)中的α、β和γ可以分别为15%、25%和60%。
[0059]
在一可实施方式中,以航空领域为例,若正常历史对象为正常完成业务处理事项的正常航班;失败历史对象为因为晚点而取消的失败航班;异常历史对象为晚点到达的晚点航班,且待处理数据中所有历史对象分为三个历史阶段,分别为当前季度、当前月度和当前周,则公式(五)中的即为当前季度中正常航班数占当前季度中历史航班总数的第一比例;即为当前月度中正常航班数占当前月度中历史航班总数的第一比例;即为当前周中正常航班数占当前周中历史航班总数的第一比例;即为待处理数据中所有失败航班数占待处理数据中所有晚点航班数的第二比例,优选地,公式(五)中的α、β和γ可以分别为15%、25%和60%。
[0060]
在本公开第二实施例中,计算历史对象中正常历史对象的加权比例时,结合不同历史阶段中正常历史对象数占历史对象总数的第一比例,以及失败历史对象数占异常历史
对象数的第二比例,不仅考虑了正常历史对象的比例,还考虑了失败历史对象数与异常历史对象数,保证最终得到的加权比例能够全面、准确地体现出历史对象的业务处理事项的完成情况,从而进一步提高数据处理结果的准确性。
[0061]
图2示出了本公开第三实施例一种数据处理方法的流程示意图,如图2所示,影响属性包括路径属性,步骤s103主要包括:
[0062]
步骤s201,根据历史关联数据,计算路径属性对应的正常历史对象数占历史对象总数的第三比例。
[0063]
在本实施例中,首先根据历史关联数据,计算路径属性对应的正常历史对象数占该路径属性对应的历史对象总数的第三比例,其中,路径属性为目标对象完成其对应的业务处理事项需要经过的路径,以物流领域为例,路径属性可以为目标运单需要经过的路线,例如,一个目标运单的路径属性可以为北京-广东,则第三比例为所有路径属性为北京-广东的正常历史运单数占所有路径属性为北京-广东的历史运单总数的比例;以航空领域为例,路径属性可以为目标航班需要经过的航线,例如,一个目标航班的路径属性可以为上海-天津,则第三比例为所有路径属性为上海-天津的正常历史航班数占所有路径属性为上海-天津的历史航班总数的比例。
[0064]
步骤s202,根据当前业务数据,计算路径属性的起点指标值和终点指标值的平均值。
[0065]
在本实施例中,还需要根据当前业务数据,计算路径属性的起点指标值和终点指标值的平均值,以物流领域为例,起点指标值可以为目标运单路线中起点城市的指标值;终点指标值可以为目标运单路线中终点城市的指标值;以航空领域为例,起点指标值可以为目标航班航线中起飞机场的指标值,终点指标值可以为目标航班航线中降落机场的指标值。
[0066]
在一可实施方式中,在物流领域为中,城市的指标值可以如下表一所示:
[0067]
表一
[0068]
一线城市二线城市三线城市四线城市乡镇10090807060
[0069]
在航空领域中,机场的指标值也可以根据实际情况自行设定,设定规则可以为若该机场对应的正常航班占该机场对应的所有历史航班的比例越大,则该机场的指标值越大。
[0070]
步骤s203,根据目标对象的行进方式指标值、第三比例和平均值,计算目标对象的路径属性的第一特征值。
[0071]
在本实施例中,根据目标对象的行进方式指标值、路径属性对应的正常历史对象数占历史对象总数的第三比例和路径属性的起点指标值和终点指标值的平均值,计算目标对象的路径属性的第一特征值,其中,目标对象的行进方式为目标对象从路径起点至路径终点的方式,以物流领域为例,目标对象的行进方式可以为航运、高铁运输、公路运输和海运等;以航空领域为例,目标对象的行进方式可以为直达和经停等。
[0072]
在一可实施方式中,在物流领域中,目标对象的行进方式指标值可以如下表二所示:
[0073]
表二
[0074]
航运高铁运输公路运输海运100908070
[0075]
在航空领域中,目标对象的行进方式指标值可以根据实际情况自行设定,设定规则可以为直达的指标值大于经停的指标值。
[0076]
在一可实施方式中,根据如下公式(六)计算目标对象的路径属性的第一特征值:
[0077][0078]
其中,y为第一特征值,e为路径属性对应的历史对象总数,f为路径属性对应的正常历史对象数,即为路径属性对应的正常历史对象数占历史对象总数的第三比例;g1为路径属性的起点指标值,g2为路径属性的终点指标值,即为路径属性的起点指标值和终点指标值的平均值;h为行进方式指标值,δ、σ和∈分别为加权系数,优选地,δ、ε和∈可以分别为40%、40%和20%。
[0079]
在本公开第三实施例中,将路径属性作为影响属性,并根据历史关联数据和当前业务数据,计算目标对象的路径属性的第一特征值,第一特征值表征路径属性对目标对象的数据处理结果的影响程度,后续根据第一特征值,对目标对象进行分类,可以提高数据处理结果的准确度。
[0080]
在本公开第四实施例中,影响属性包括环境属性,步骤s103还包括:
[0081]
根据当前业务数据,计算环境属性的持续时间与目标对象的预设行进时间的比值;根据比值、环境属性对应的环境指标值和环境属性对应的程度参数,计算目标对象的环境属性的第二特征值。
[0082]
在本实施例中,首先根据当前业务数据,计算环境属性的持续时间与目标对象的预设行进时间的比值,然后根据比值、环境属性对应的环境指标值和环境属性对应的程度参数,计算目标对象的环境属性的第二特征值。具体地,环境属性为目标对象进行其对应的业务处理事项当天的天气情况,环境属性可以为晴、雨、雪和雾等,环境属性的持续时间为该天气情况的持续时长;目标对象的预设行进时间为目标对象完成其业务处理事项所需的时长;环境属性对应的环境指标值为环境属性对应的指标值;环境属性对应的程度参数表征环境属性的程度大小对应的参数,例如,若目标对象进行其对应的业务处理事项当天的天气情况为大雨,则环境属性为雨,环境属性的程度参数为“大”对应的参数。
[0083]
在一可实施方式中,在物流领域和航空领域中,环境属性对应的环境指标值都可以如下表三所示:
[0084]
表三
[0085]
晴雨雪雾06080100
[0086]
环境属性的程度参数都可以如下表四所示:
[0087]
表四
[0088]
小中大20%40%60%
[0089]
在一可实施方式中,可以根据如下公式(七)计算目标对象的环境属性的第二特征值:
[0090]
z=m
×
t
×u×
100,公式(七)
[0091]
其中,z为第二特征值,m为环境指标值,t为比值,u为程度参数。需要强调的是,若目标对象的路径属性经过多个城市,则可以分别计算多个城市的环境属性对应的多个特征值,然后将多个特征值的平均值作为第二特征值。
[0092]
在本公开第四实施例中,将环境属性作为影响属性,并根据当前业务数据,计算目标对象的环境属性的第二特征值,第二特征值表征环境属性对目标对象的数据处理结果的影响程度,后续根据第二特征值,对目标对象进行分类,可以提高数据处理结果的准确度。
[0093]
图3示出了本公开第五实施例一种数据处理方法的流程示意图,如图3所示,步骤s104主要包括:
[0094]
步骤s301,根据加权比例、第一特征值和第二特征值,计算目标对象的整体指标值。
[0095]
在本实施例中,首先根据加权比例、第一特征值和第二特征值,计算目标对象的整体指标值,整体指标值用于表征目标对象的整体特征。
[0096]
在一可实施方式中,可以根据如下公式(八)计算目标对象的整体指标值:
[0097]
q=ax+by-cz,公式(八)
[0098]
其中,q为整体指标值,x为加权比例,y为第一特征值,z为第二特征值,a、b、c分别为权重参数,a、b、c可以根据实际情况自行设定,优选地,a、b、c分别可以为0.4、0.6和1。
[0099]
步骤s302,根据分类模型和整体指标值,对目标对象进行分类处理,得到数据处理结果。
[0100]
在本实施例中,将整体指标值输入至分类模型,由分类模型根据整体指标值对目标对象进行分类处理,从而得到数据处理结果。
[0101]
在本公开第六实施例中,分类模型为支持向量机模型,步骤s302主要包括:
[0102]
将整体指标值和目标对象对应的消耗指标值确定为目标向量点;根据支持向量机模型,对目标向量点进行分类处理,得到数据处理结果。
[0103]
在本实施例中,首先需要将整体指标值和目标对象对应的消耗指标值确定为目标向量点,消耗指标值为目标对象完成其业务处理事项所需的物资消耗对应的指标值,以物流领域为例,消耗指标值可以目标运单的运费;以航空领域为例,消耗指标值可以为目标航班的机票费,然后可以根据支持向量机模型,对目标向量点进行分类处理,得到数据处理结果。
[0104]
在一可实施方式中,可以根据如下方式对支持向量机模型进行训练:首先获取训练数据,训练数据可以为x={x1,x2,
……
,xn},其中,x1为第一个历史对象的整体指标值q1和其消耗指标值p1组成的向量点,x1可以用(q1,p1)表示,x2为第二个历史对象的整体指标值q2和其消耗指标值p2组成的向量点,x2可以用(q2,p2)表示,以此类推,且可以根据实际情况将训练数据标注为两类,如正常历史对象和异常历史对象等;然后将训练数据输入至支持向量机模型中进行训练,得到支持向量机对训练数据进行划分的最佳线性方程ω
t
xi+=0,其中,ω为法向量,xi为不同历史对象对应的向量点,b为位移,从而确定训练好的支持向量机模型。
[0105]
在一可实施方式中,将训练数据输入至支持向量机模型中进行训练的过程为:由训练数据x中的所有向量点组成的直线可以使用公式ω
t
xi+来表示,而该公式的值用y={y1,y2,
……
,yn}表示,假设存在一条直线(超平面),使得ω
t
xi+=0,根据该直线和公式(九)将所有向量点进行分类:
[0106][0107]
其中,yi为xi对应的取值,然后在所有可正确分类所有向量点的超平面中,寻找满足最大间隔的面间隔宽度m:并对每个约束引入拉格朗日乘子
∝i,得到如下公式(十):
[0108][0109]
其中,l表示拉格朗日函数,根据公式(十)可以计算得到ω,由所有
∝i不为0的xi组成支持向量集合,由支持向量集合中的任意一个元素(xk,yk)即可计算得到b的取值,从而得到支持向量机对训练数据进行划分的最佳线性方程,其中,xk为支持向量,yk为该支持向量对应的取值,在训练过程中,决策边界可以为yi(ω
t
xi+)≥1。
[0110]
在一可实施方式中,以物流领域为例,若目标运单属于尚未进行其运送业务的运单,且数据处理结果表征目标运单是否为正常运单,则根据历史运单的完成情况,将训练数据标注为正常运单和异常运单,正常运单可用1表示,异常运单可用-1表示,最终根据支持向量机模型,对目标运单的目标向量点进行分类处理,得到的数据处理结果即可表征目标运单是否为正常运单,则业务人员后续可以根据数据处理结果对目标运单进行管理,例如分析是否应该接收目标运单的运送业务,或分析是否应该对目标运单进行融资等。需要强调的是,本公开的一种数据处理方法应用在物流领域时,其可以作为一种运单风险评估方法。
[0111]
在一可实施方式中,以航空领域为例,若目标航班属于尚未进行其飞行业务的航班,且数据处理结果表征目标航班是否为晚点航班,则根据历史航班的完成情况,将训练数据标注为准点航班和晚点航班,准点航班可用1表示,晚点航班可用-1表示,最终根据支持向量机模型,对目标航班的目标向量点进行分类处理,得到的数据处理结果即可表征目标航班是否为晚点航班,则业务人员后续可以根据数据处理结果对目标航班进行管理,例如分析是否应该选择目标航班出行等。需要强调的是,本公开的一种数据处理方法应用在航空领域时,其可以作为一种航班风险评估方法。
[0112]
在本公开第五和第六实施例中,首先根据加权比例、第一特征值和第二特征值,计算目标对象的整体指标值,然后根据支持向量机模型、整体指标值和目标对象对应的消耗指标值,对目标对象进行分类,得到数据处理结果,可以保证数据处理结果可视化,并能够提高数据处理结果的准确性。
[0113]
在本公开第七实施例中,一种数据处理方法还包括:
[0114]
根据加权比例、第一特征值和第二特征值,对权重参数进行调整,得到调整后权重参数。
[0115]
在本实施例中,根据加权比例、第一特征值和第二特征值,对权重参数进行调整,即可以根据加权比例、第一特征值和第二特征值,对公式(八)中的a、b、c进行调整,得到调整后权重参数,后续可以根据调整后权重参数计算目标对象的整体指标值。
[0116]
在一可实施方式中,对权重参数进行调整的调整规则可以为:若加权比例大于第一预设阈值,则减小权重参数a的取值;若第一特征值大于第二预设阈值,则减小权重参数b的取值;若在实际情况中,第二特征值对应的环境属性中非晴天的天气情况较多,则减小权重参数c的取值。由此,可以适当削弱加权比例、路径因素和环境因素等对数据处理结果的影响,提高数据处理结果的准确性。
[0117]
在本公开第七实施例中,根据加权比例、第一特征值和第二特征值,对权重参数进行调整,得到调整后权重参数,后续根据调整后权重参数计算目标对象的整体指标值,可以提高整体指标值的准确性,从而进一步提高数据处理结果的准确性。
[0118]
图4示出了本公开第八实施例一种数据处理装置的结构示意图,如图4所示,该装置主要包括:
[0119]
获取模块10,用于获取待处理数据,待处理数据包括历史对象的历史关联数据和目标对象的当前业务数据;第一计算模块11,用于根据历史关联数据,计算历史对象中正常历史对象的加权比例;第二计算模块12,用于根据历史关联数据和当前业务数据,计算目标对象的影响属性的特征值;分类处理模块13,用于根据分类模型、加权比例和特征值,对目标对象进行分类处理,得到数据处理结果。
[0120]
在一可实施方式中,第一计算模块11包括:第一计算子模块,用于根据历史关联数据,计算不同历史阶段中正常历史对象数占历史对象总数的第一比例,以及计算失败历史对象数占异常历史对象数的第二比例;第二计算子模块,用于根据第一比例和第二比例,计算历史对象中正常历史对象的加权比例;第二计算子模块还用于根据如下公式计算历史对象中正常历史对象的加权比例:其中,x为加权比例,a1、a2和an分别表示不同历史阶段中的历史对象总数,b1、b2和bn分别表示不同历史阶段中的正常历史对象数,α、β和γ分别表示不同历史阶段的加权系数,c表示历史对象中的异常历史对象数,d表示历史对象中的失败历史对象数。
[0121]
在一可实施方式中,影响属性包括路径属性,第二计算模块12包括:第三计算子模块,用于根据历史关联数据,计算路径属性对应的正常历史对象数占历史对象总数的第三比例;第四计算子模块,用于根据当前业务数据,计算路径属性的起点指标值和终点指标值的平均值;第五计算子模块,用于根据目标对象的行进方式指标值、第三比例和平均值,计算目标对象的路径属性的第一特征值;第五计算子模块还用于根据如下公式计算目标对象的路径属性的第一特征值:其中,y为第一特征值,e为路径属性对应的历史对象总数,f为路径属性对应的正常历史对象数,g1为路径属性的起点指标值,g2为路径属性的终点指标值,h为行进方式指标值,δ、ε和∈分别为加权系数。
[0122]
在一可实施方式中,影响属性包括环境属性,第二计算模块12包括:第六计算子模块,用于根据当前业务数据,计算环境属性的持续时间与目标对象的预设行进时间的比值;
第七计算子模块,用于根据比值、环境属性对应的环境指标值和环境属性对应的程度参数,计算目标对象的环境属性的第二特征值;第七计算子模块还用于根据如下公式计算目标对象的环境属性的第二特征值:z=m
×
t
×u×
100,其中,z为第二特征值,m为环境指标值,t为比值,u为程度参数。
[0123]
在一可实施方式中,分类处理模块13包括:第八计算子模块,用于根据加权比例、第一特征值和第二特征值,计算目标对象的整体指标值;分类处理子模块,用于根据分类模型和整体指标值,对目标对象进行分类处理,得到数据处理结果;第八计算子模块还用于根据如下公式计算目标对象的整体指标值:q=ax+by-cz,其中,q为整体指标值,x为加权比例,y为第一特征值,z为第二特征值,a、b、c分别为权重参数。
[0124]
在一可实施方式中,分类模型为支持向量机模型,分类处理子模块包括:确定单元,用于将整体指标值和目标对象对应的消耗指标值确定为目标向量点;分类单元,用于根据支持向量机模型,对目标向量点进行分类处理,得到数据处理结果。
[0125]
在一可实施方式中,一种数据处理装置还包括:调整模块,用于根据加权比例、第一特征值和第二特征值,对权重参数进行调整,得到调整后权重参数。
[0126]
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
[0127]
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0128]
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(rom)502中的计算机程序或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序,来执行各种适当的动作和处理。在ram 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、rom 502以及ram 503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
[0129]
设备500中的多个部件连接至i/o接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0130]
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如一种数据处理方法。例如,在一些实施例中,一种数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到ram 503并由计算单元501执行时,可以执行上文描述的一种数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式
(例如,借助于固件)而被配置为执行一种数据处理方法。
[0131]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0132]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0133]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0134]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0135]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0136]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0137]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0138]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0139]
以上所述,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:获取待处理数据,所述待处理数据包括历史对象的历史关联数据和目标对象的当前业务数据;根据所述历史关联数据,计算所述历史对象中正常历史对象的加权比例;根据所述历史关联数据和所述当前业务数据,计算所述目标对象的影响属性的特征值;根据分类模型、所述加权比例和所述特征值,对所述目标对象进行分类处理,得到数据处理结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述历史关联数据,计算所述历史对象中正常历史对象的加权比例,包括:根据所述历史关联数据,计算不同历史阶段中正常历史对象数占历史对象总数的第一比例,以及计算失败历史对象数占异常历史对象数的第二比例;根据所述第一比例和所述第二比例,计算所述历史对象中正常历史对象的加权比例;根据如下公式计算所述历史对象中正常历史对象的加权比例:其中,x为所述加权比例,a1、a2和an分别表示不同历史阶段中的历史对象总数,b1、b2和bn分别表示不同历史阶段中的正常历史对象数,α、β和γ分别表示不同历史阶段的加权系数,c表示历史对象中的异常历史对象数,d表示历史对象中的失败历史对象数。3.根据权利要求1所述的方法,其特征在于,所述影响属性包括路径属性,所述根据所述历史关联数据和所述当前业务数据,计算所述目标对象的影响属性的特征值,包括:根据所述历史关联数据,计算所述路径属性对应的正常历史对象数占历史对象总数的第三比例;根据所述当前业务数据,计算所述路径属性的起点指标值和终点指标值的平均值;根据所述目标对象的行进方式指标值、所述第三比例和所述平均值,计算所述目标对象的路径属性的第一特征值;根据如下公式计算所述目标对象的路径属性的第一特征值:其中,y为所述第一特征值,e为路径属性对应的历史对象总数,f为路径属性对应的正常历史对象数,g1为路径属性的起点指标值,g2为路径属性的终点指标值,h为行进方式指标值,δ、ε和∈分别为加权系数。4.根据权利要求3所述的方法,其特征在于,所述影响属性包括环境属性,所述根据所述历史关联数据和所述当前业务数据,计算所述目标对象的影响属性的特征值,包括:根据所述当前业务数据,计算所述环境属性的持续时间与所述目标对象的预设行进时间的比值;根据所述比值、所述环境属性对应的环境指标值和所述环境属性对应的程度参数,计算所述目标对象的环境属性的第二特征值;根据如下公式计算所述目标对象的环境属性的第二特征值:
z=m
×
t
×
u
×
100,其中,z为所述第二特征值,m为所述环境指标值,t为所述比值,u为所述程度参数。5.根据权利要求4所述的方法,其特征在于,所述根据分类模型、所述加权比例和所述特征值,对所述目标对象进行分类处理,得到数据处理结果,包括:根据所述加权比例、所述第一特征值和所述第二特征值,计算所述目标对象的整体指标值;根据所述分类模型和所述整体指标值,对所述目标对象进行分类处理,得到所述数据处理结果;根据如下公式计算所述目标对象的整体指标值:q=ax+by-cz,其中,q为所述整体指标值,x为所述加权比例,y为所述第一特征值,z为所述第二特征值,a、b、c分别为权重参数。6.根据权利要求5所述的方法,其特征在于,所述分类模型为支持向量机模型,所述根据所述分类模型和所述整体指标值,对所述目标对象进行分类处理,得到所述数据处理结果,包括:将所述整体指标值和所述目标对象对应的消耗指标值确定为目标向量点;根据所述支持向量机模型,对所述目标向量点进行分类处理,得到所述数据处理结果。7.根据权利要求5所述的方法,其特征在于,所述方法还包括:根据所述加权比例、所述第一特征值和所述第二特征值,对所述权重参数进行调整,得到调整后权重参数。8.一种数据处理装置,其特征在于,所述装置包括:获取模块,用于获取待处理数据,所述待处理数据包括历史对象的历史关联数据和目标对象的当前业务数据;第一计算模块,用于根据所述历史关联数据,计算所述历史对象中正常历史对象的加权比例;第二计算模块,用于根据所述历史关联数据和所述当前业务数据,计算所述目标对象的影响属性的特征值;分类处理模块,用于根据分类模型、所述加权比例和所述特征值,对所述目标对象进行分类处理,得到数据处理结果。9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-7中任一项所述的方法。

技术总结
本公开提供了一种数据处理方法、装置、设备及存储介质,涉及计算机技术领域。方法主要包括:获取待处理数据,待处理数据包括历史对象的历史关联数据和目标对象的当前业务数据;根据历史关联数据,计算历史对象中正常历史对象的加权比例;根据历史关联数据和当前业务数据,计算目标对象的影响属性的特征值;根据分类模型、加权比例和特征值,对目标对象进行分类处理,得到数据处理结果。得到数据处理结果。得到数据处理结果。


技术研发人员:王诗淳
受保护的技术使用者:北京联想科技服务有限公司
技术研发日:2023.05.26
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐