异常恢复预测模型的生成方法、预测方法、装置及设备与流程
未命名
07-29
阅读:108
评论:0
1.本技术涉及计算机技术领域,尤其涉及一种异常恢复预测模型的生成方法、预测方法、装置及设备。
背景技术:
2.随着科技的迅速发展,企业逐渐开始部署无人值守系统去对业务运行过程进行管理,从而降低人工操作所带来的弊端及工作量,提高企业运作效率以及自动化管理水平。目前,针对业务运行过程中发生的业务异常情况的后续恢复情况进行预测是无人值守方案中的重点和难点,通常需要投入大量的人力资源对相关业务数据进行分析处理,以根据人工经验设置相应的规则策略,从而利用这些规则策略去校验当前产生的业务异常后续能否得以恢复。
3.基于此,如何针对业务异常的恢复情况进行高效、便捷且准确的预测,成为了亟待解决的技术问题。
技术实现要素:
4.本说明书实施例提供的异常恢复预测模型的生成方法、预测方法、装置及设备,可以自动生成准确性较好的异常恢复预测模型,从而在利用该异常恢复预测模型去针对业务异常的恢复情况进行预测时,可以提升异常恢复预测的高效性、便捷性及准确性。
5.为解决上述技术问题,本说明书实施例是这样实现的:
6.本说明书实施例提供的一种异常恢复预测模型的生成方法,包括:
7.获取目标业务处的多个异常时间序列数据样本;
8.利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合;
9.根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据;
10.利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。
11.本说明书实施例提供的一种异常恢复预测方法,包括:
12.获取目标业务处的异常时间序列数据;
13.利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用上述异常恢复预测模型的生成方法生成的。
14.本说明书实施例提供的一种异常恢复预测模型的生成装置,包括:
15.第一获取模块,用于获取目标业务处的多个异常时间序列数据样本;
16.第一去噪模块,用于利用基于密度的聚类算法对多个所述异常时间序列数据样本
进行去噪处理,得到去噪样本集合;
17.第一训练样本生成模块,用于根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据;
18.第一训练模块,用于利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。
19.本说明书实施例提供的一种异常恢复预测装置,包括:
20.第一获取模块,用于获取目标业务处的异常时间序列数据;
21.预测模块,用于利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用上述异常恢复预测模型的生成方法生成的。
22.本说明书实施例提供的一种异常恢复预测模型的生成设备,包括:
23.至少一个处理器;以及,
24.与所述至少一个处理器通信连接的存储器;其中,
25.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
26.获取目标业务处的多个异常时间序列数据样本;
27.利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合;
28.根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据;
29.利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。
30.本说明书实施例提供的一种异常恢复预测设备,包括:
31.至少一个处理器;以及,
32.与所述至少一个处理器通信连接的存储器;其中,
33.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
34.获取目标业务处的异常时间序列数据;
35.利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用上述异常恢复预测模型的生成方法生成的。
36.本说明书中提供的至少一个实施例能够实现以下有益效果:
37.通过对目标业务处的多个异常时间序列数据样本自动进行去噪处理,以得到去噪后的目标异常时间序列数据样本,并基于变点检测自动生成用于反映去噪后的目标异常时间序列数据样本对应的业务异常是否能够恢复的样本标签数据,从而能够根据去噪后的目标异常时间序列数据样本以及样本标签数据自动生成准确性较好的训练样本,通过利用准确性较好的训练样本对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,即
可利用自动生成的准确性较好的异常恢复预测模型针对业务异常进行后续恢复情况的预测。由于无需依赖人工经验设置大量的规则策略去校验业务异常的后续恢复情况,从而有利于提升针对业务异常的恢复情况进行预测时的高效性、便捷性及准确性。
附图说明
38.为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
39.图1为本说明书实施例提供的一种异常恢复预测模型的生成方法的流程示意图;
40.图2为本说明书实施例提供的一种异常恢复预测模型的结构示意图;
41.图3为本说明书实施例提供的一种异常恢复预测方法的流程示意图;
42.图4为本说明书实施例提供的对应于图1及图3中的方法的泳道流程示意图;
43.图5为本说明书实施例提供的对应于图1的异常恢复预测模型的生成装置的结构示意图;
44.图6为本说明书实施例提供的对应于图3的异常恢复预测装置的结构示意图;
45.图7为本说明书实施例提供的对应于图1的异常恢复预测模型的生成设备的结构示意图;
46.图8为本说明书实施例提供的对应于图3的异常恢复预测设备的结构示意图。
具体实施方式
47.为使本说明书一个或多个实施例的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书一个或多个实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书一个或多个实施例保护的范围。
48.以下结合附图,详细说明本说明书各实施例提供的技术方案。
49.现有技术中,由于业务场景数量众多,并且业务运行过程也可能会频繁地发生变化,但由于人工设置的规则策略不具备动态更新的能力,从而既需要消耗大量人力维护规则策略,也容易导致利用规则策略生成的针对业务异常的恢复情况预测结果的准确性较差。
50.目前,也有部分企业开始利用有监督机器学习技术去训练机器学习模型,以代替人工规则校验业务异常的后续恢复情况。但是,由于模型训练过程中往往需要使用大量地人力资源去标注样本数据,从而也需要耗费大量人力物力,同时,由于模型训练过程对于数据噪音也较为敏感,从而也容易影响机器学习模型对于业务异常的后续恢复情况的预测准确性。
51.为了解决现有技术中的缺陷,本方案给出了以下实施例:
52.图1为本说明书实施例提供的一种异常恢复预测模型的生成方法的流程示意图。从程序角度而言,该流程的执行主体可以为业务提供商的设备,或者,业务提供商的设备处
搭载的应用程序。如图1所示,该流程可以包括以下步骤:
53.步骤102:获取目标业务处的多个异常时间序列数据样本。
54.本说明书实施例中,时间序列数据(timeseriesdata)可以是在不同时间上收集到的数据,并且能够用于描述现象随时间变化的情况;即可以指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。这类数据往往可以反映某一事物、现象等随时间的变化状态或程度。基于此,目标业务处的异常时间序列数据样本通常可以为针对目标业务处的预设业务指标已采集到的时间序列数据,并且在异常时间序列数据样本中的时间序列数据采集过程中,该预设业务指标通常存在异常情况,即目标业务通常存在业务异常。
55.其中,目标业务及预设业务指标可以根据实际需求设置,对此不作具体限定。为便于理解,对此进行举例说明。例如,目标业务可以为电子交易业务,而预设业务指标可以为电子交易业务中涉及的商户的交易成功率、用户浏览量、用户响应耗时等。或者,目标业务可以为资源推送业务,而预设业务指标可以为资源推送方对于资源的发送量、用户对于资源的领取量等。
56.步骤104:利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合。
57.本说明书实施例中,基于密度的聚类算法通常会根据样本分布的紧密程度决定样本的聚类结果。具体的,通过将紧密相连的样本划为一类,这样就可以得到一个聚类簇。通过将各组紧密相连的样本划为各个不同的类别,以得到各个聚类簇,从而作为最终的聚类结果。由于基于密度的聚类算法可以将具有足够密度的区域划分为簇,并且无需依赖于预先设置的聚类数量,使得其可以在具有噪声的空间数据库中发现任意形状的簇,且能够保障生成的聚类结果没有偏倚,从而可以有效处理噪声点。
58.基于此,可以利用基于密度的聚类算法,自动的对初步获取到的多个异常时间序列数据样本中存在的噪声样本进行过滤,以降低生成的去噪样本集合的噪声,进而保障基于去噪样本集合训练得到的异常恢复预测模型的准确性。在实际应用中,基于密度的聚类算法的种类可以有多种,例如,dbscan算法(density-basedspatialclusteringofapplications withnoise)、optics算法(orderingpointstoidentifytheclusteringstructure)、denclue算法(densitybasedclustering)等,对此不作具体限定。
59.步骤106:根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据。
60.本说明书实施例中,变点检测可以用于检测随机过程中数据分布或者趋势发生改变的时刻,即用于在时间序列数据中找到突变位置的方法或过程。在实际应用中,已经具有多种能够用于进行变点检测的算法,例如,kliep算法、贝叶斯在线变点检测算法(bayesian onlinechangepointdetection)、recursivemeandifferencemaximization算法等,对此不作具体限定。
61.本说明书实施例中,由于需要利用异常恢复预测模型预测业务异常后续能否恢复,因此,需要确定各个训练样本的用于反映其对应的业务异常能否恢复的样本标签数据。具体的,可以将去噪样本集合中的包含的异常时间序列数据样本作为目标异常时间序列数据样本,并且去噪样本集合中的每个目标异常时间序列数据样本可以作为一个训练样本,
通过利用变点检测去自动生成反映各个目标异常时间序列数据样本对应的业务异常能否恢复的样本标签数据,以根据目标异常时间序列数据样本及其对应的样本标签数据自动生成训练样本集合中的训练样本。
62.步骤108:利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。
63.本说明书实施例中,递归神经网络可以为旨在按时间顺序处理数据的人工神经网络(artificialneuralnetwork,ann),它是深度学习(deeplearning)算法之一。由于递归神经网络能够捕获时间序列数据中存在的某些连接作为随时间共享的参数,并且可以将随时间共享的这些参数与当前的输入进行组合后以预测时间序列数据中的下一个值,从而能够有效地处理长期依赖关系,适用于处理和预测时间序列中间隔和延迟较长的事件。基于此,可以利用递归神经网络模型搭建异常恢复预测模型,以利用训练后的异常恢复预测模型去准确预测异常时间序列数据对应的业务异常后续能否恢复。在实际应用中,递归神经网络的种类可以有多种,例如,长短期记忆网络(lstm,longshort-termmemory)模型或gru(gaterecurrentunit)模型等,对此不作具体限定。
64.图1中的方法,通过对目标业务处的多个异常时间序列数据样本自动进行去噪处理,以得到去噪后的目标异常时间序列数据样本,并基于变点检测自动生成用于反映去噪后的目标异常时间序列数据样本对应的业务异常是否能够恢复的样本标签数据,从而能够根据去噪后的目标异常时间序列数据样本以及样本标签数据自动生成准确性较好的训练样本,以便于利用准确性较好的训练样本对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,自动生成准确性较好的异常恢复预测模型。由于无需依赖于人工经验挑选准确性较好的训练样本,也无需依赖于人工经验设置准确性较好的样本标签数据,从而有利于提升针对异常恢复预测模型的训练过程的高效性、便捷性及准确性,进而有利于提升针对业务异常的恢复情况进行预测时的高效性、便捷性及准确性。
65.基于图1中的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
66.本说明书实施例中,在目标业务的运行过程中,通常能够识别出目标业务处的历史异常时间序列数据,从而可以从预先已经识别出的目标业务处的历史异常时间序列数据中,初步提取出多个异常时间序列数据样本,方便快捷。
67.基于此,步骤102:获取目标业务处的多个异常时间序列数据样本,具体可以包括:
68.从针对所述目标业务处的预设业务指标采集到的历史异常时间序列数据中,确定出所述异常时间序列数据样本;所述异常时间序列数据样本的数据采集时间范围内包含所述预设业务指标的异常发生时刻,且所述数据采集时间范围的终止时刻与所述异常发生时刻之间的时间间隔大于预设时长。
69.本说明书实施例中,针对目标业务处的预设业务指标采集到的历史异常时间序列数据通常可以指:在该预设业务指标发生了异常的情况下采集到的历史时间序列数据。具体的,所述历史异常时间序列数据可以为按数据采集时间的先后顺序排列而成的预设业务指标的数列。除此之外,所述历史异常时间序列数据中还可以包含各个预设业务指标的数据采集时间,对此不作具体限定。
70.在实际应用中,针对目标业务处的预设业务指标采集到的历史异常时间序列数据
通常可以是在目标业务运行过程中自动识别出的数据,例如,可以基于预设规则/策略自动识别出该历史异常时间序列数据,或者,也可以基于预设机器学习模型或算法等自动识别出该历史异常时间序列数据,或者,也可以采用其它方式识别出该历史异常时间序列数据,以节省人力,对此不作具体限定。
71.本说明书实施例中,由于通常需要预测在发生业务异常后的预设时长内,该业务异常能否恢复,因此,需要令获取的异常时间序列数据样本中至少包含自业务异常的异常发生时刻至后续达到预设时长的这一时间范围内针对预设业务指标采集到的各个时间序列数据。即异常时间序列数据样本的数据采集时间范围内应包含预设业务指标的异常发生时刻,并且所述数据采集时间范围的终止时刻与所述异常发生时刻之间的时间间隔需要大于预设时长,后续,则可以根据这一要求,从针对目标业务处的预设业务指标采集到的历史异常时间序列数据中,确定出所需使用的异常时间序列数据样本。在实际应用中,提取出的各个异常时间序列数据样本的数据采集时间范围的时长通常应保持一致,从而有利于保障训练样本的一致性,当然,也可以存在一定差异,对此不作具体限定。
72.为便于理解,对此进行举例说明。假定,当前具有两条针对目标业务处的预设业务指标采集到的历史异常时间序列数据,其中,第一条历史异常时间序列数据对应的业务异常的异常发生时刻与其数据采集时间范围的终止时刻之间的时间间隔为35分钟,第二条历史异常时间序列数据对应的业务异常的异常发生时刻与其数据采集时间范围的终止时刻之间的时间间隔为15分钟。若预设时长为20分钟,则仅能够根据第一条历史异常时间序列数据生成一个异常时间序列数据样本。若预设时长为10分钟,则可以分别根据上述两条历史异常时间序列数据各生成一个异常时间序列数据样本。此时,若需要令各个异常时间序列数据样本的数据采集时间范围的时长一致,例如,可以均为60分钟/36小时等,则可以提取各条历史异常时间序列数据中的自数据采集范围的终止时刻之前60分钟/36小时至该终止时刻之间的时间序列数据作为各个异常时间序列数据样本。
73.由于在现有技术中,大多数的异常恢复检测通常仅根据当前时间下的业务数据进行决策,从而对长时间尺度的恢复判断不敏感,容易影响恢复预测结果的准确性。基于此,本说明书实施例中,可以去训练得到各个适用于不同的时间尺度的异常恢复预测的异常恢复预测模型,以综合根据各个异常恢复预测模型生成的恢复预测结果去生成准确性较好的综合恢复预测结果。
74.基于此,所述预设时长的种类可以有多种;所述异常恢复预测模型的种类数量与所述预设时长的种类数量可以相同,即不同的异常恢复预测模型可以用于预测业务异常发生后的不同预设时长内是否能够恢复的情况。在实际应用中,各个预设时长可以根据实际情况设置,对此不作具体限定,例如,预设时长可以为10分钟、30分钟、60分钟等。
75.对应的,步骤104:利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合,具体可以包括:
76.针对任意一种所述预设时长,利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理,得到目标去噪样本集合。
77.步骤106:根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合,具体可以包括:
78.根据所述目标去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成目标训练样本集合。
79.步骤108:利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型,具体可以包括:
80.利用所述目标训练样本集合,对一个基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到用于预测业务异常在所述任意一种所述预设时长内是否能够恢复的异常恢复预测模型。
81.本说明书实施例中,在训练各个适用于不同的时间尺度的异常恢复预测模型时所需使用的训练样本通常存在差异,因此,需要分别生成各个异常恢复预测模型所需使用的训练样本集合。上面的实施例中,给出了生成任意一种异常恢复预测模型所需使用的训练样本集合的实现方式。
82.具体的,针对任意一种所述预设时长(即针对任意一种时间尺度),可以先从步骤102中提及的多个异常时间序列数据样本中挑选出所述时间间隔大于所述任意一种所述预设时长的异常时间序列数据样本,从而可以针对这部分异常时间序列数据样本进行去噪处理,以得到目标去噪样本集合。以及,确定出该目标去噪样本集合中的各个样本的样本标签数据,从而生成目标训练样本集合。利用目标训练样本集合对一个初始异常恢复预测模型进行训练,即可得到用于预测业务异常在所述任意一种所述预设时长内是否能够恢复的异常恢复预测模型,方便快捷且准确性好。
83.在实际应用中,也可以直接针对步骤102中提及的多个异常时间序列数据样本一同进行去噪处理,然后再提取所述时间间隔大于所述任意一种所述预设时长的样本,以得到目标去噪样本集合,进而基于该目标去噪样本集合生成目标训练样本集合。利用该目标训练样本集合对一个初始异常恢复预测模型进行训练,即可得到用于预测业务异常在所述任意一种所述预设时长内是否能够恢复的异常恢复预测模型,效率更高,对此不作具体限定。
84.为便于理解利用基于密度的聚类算法进行去噪处理的原理,对此进行解释说明。
85.本说明书实施例中,所述利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理,得到目标去噪样本集合,具体可以包括:
86.利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行聚类处理,得到聚类结果。
87.根据所述聚类结果,从各个聚类簇中随机选取出不大于预设数量的所述异常时间序列数据样本,得到所述目标去噪样本集合;其中,预设数量大于等于1;和/或,
88.根据所述聚类结果,确定各个聚类簇中的至少部分核心点对应的所述异常时间序列数据样本,得到所述目标去噪样本集合。
89.本说明书实施例中,利用基于密度的聚类算法生成的聚类结果中可以包括各个聚类簇,每个聚类簇中可以包含一个种类的异常时间序列数据样本。为了避免训练样本过于单一、存在偏斜,可以从各个聚类簇中随机选取出一些异常时间序列数据样本,作为目标去噪样本集合中的样本。或者,为了保障训练样本的准确性,也可以将各个聚类簇中的部分核心点对应的异常时间序列数据样本,作为目标去噪样本集合中的样本。其中,核心点可以指
数据集中密度大于指定阈值的样本点,从而更具有代表性。
90.在实际应用中,也可以采用与上述去噪过程相同的原理,直接针对步骤102中提及的多个异常时间序列数据样本一同进行去噪处理,然后再提取所述时间间隔大于所述任意一种所述预设时长的样本,以得到目标去噪样本集合,对此不作赘述。
91.本说明书实施例中,当业务异常发生后很快就得以恢复正常时,异常时间序列数据样本中通常既包含存在业务异常时采集到的时间序列数据,又包含业务异常恢复正常后采集到的时间序列数据。因此,为防止数据产生时间穿越,需要删除业务异常发生后所采集到的部分时间序列数据,以令截取出的样本中尽量不要包含业务异常恢复正常后采集到的时间序列数据。
92.具体的,实施方式一,可以先从异常时间序列数据样本中截取出所需使用的样本,再对截取出的样本进行去噪。
93.基于此,所述利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理之前,还可以包括:
94.从所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本中,提取在预设时间段内采集到的时间序列数据,得到第一样本;其中,所述预设时间段的起始时刻为所述数据采集时间范围的起始时刻,所述预设时间段的终止时刻为比所述数据采集时间范围的终止时刻早所述任意一种所述预设时长的时刻。
95.对应的,利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理,具体可以包括:
96.利用基于密度的聚类算法,对所述第一样本进行去噪处理。
97.实施方式二,可以先对异常时间序列数据样本进行去噪,再从去噪后的样本中截取出所需使用的样本。
98.基于此,所述根据所述目标去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成目标训练样本集合,具体可以包括:
99.从所述目标去噪样本集合中的目标异常时间序列数据样本中,提取在预设时间段内采集到的时间序列数据,得到第二样本;其中,所述预设时间段的起始时刻为所述数据采集时间范围的起始时刻,所述预设时间段的终止时刻为比所述数据采集时间范围的终止时刻早所述任意一种所述预设时长的时刻。
100.生成携带有所述样本标签数据的所述第二样本,得到所述目标训练样本集合中的训练样本。
101.本说明书实施例中,上述两种实施方案中,在进行样本截取时,均需要删除比所述数据采集时间范围的终止时刻早所述任意一种所述预设时长的时刻至所述终止时刻之间的时间序列数据,从而得到进行模型训练所需使用的样本数据。因此,上述两种实施方案采用的原理实质是相同的,只是进行样本截取的时机不同,所需处理的待截取样本不同。
102.为便于理解,对于样本截取过程进行举例说明。假定,待截取样本(即所述异常时间序列数据样本或者所述目标异常时间序列数据样本)的数据采集时间范围的时长为60分钟,若预设时长为20分钟,则可以删除待截取样本的数据采集范围的终止时刻之前20分钟至该终止时刻之间所采集到的时间序列数据,从而提取得到待截取样本的自数据采集范围的起始时刻至终止时刻之前20分钟内的时间序列数据,作为第一样本/第二样本。
103.在实际应用中,采用上述实施方式生成的部分第一样本及第二样本中也可能会包含业务异常恢复正常后采集到的时间序列数据,此时,由于实施方式一中,在生成第一样本后才进行去噪处理,从而能够滤除这部分存在数据穿越风险的第一样本,有利于保障训练样本的准确性。而实施方式二只需针对去噪后的样本进行截取,因此,所需进行数据截取的样本数量更少,从而能够提升训练样本生成效率。在实际应用中,可以根据实际需求自行选择所需执行的样本截取方案,对此不作具体限定。
104.本说明书实施例中,为便于理解,还给出了基于变点检测生成样本标签数据的具体实施方式。
105.具体的,步骤106:根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合之前,还可以包括:
106.对所述异常时间序列数据样本进行变点检测,得到所述异常时间序列数据样本中的数据突变点。
107.根据所述异常时间序列数据样本中的所述数据突变点之前的时间序列数据以及所述数据突变点之后的时间序列数据,生成用于反映所述异常时间序列数据样本对应的业务异常是否能够恢复的标签数据。
108.对应的,步骤106:根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合,具体可以包括:
109.根据所述目标异常时间序列数据样本以及与所述目标异常时间序列数据样本对应的所述标签数据,生成所述训练样本集合中的训练样本。
110.本说明书实施例中,由于异常时间序列数据样本通常未经过数据截取,因此,若业务异常在发生后的预设时长内得以恢复,则异常时间序列数据样本中通常会包含业务异常发生前、业务异常发生后以及业务异常恢复后等阶段分别采集到的时间序列数据,此时,对异常时间序列数据样本进行变点检测,通常可以得到该业务异常的异常发生时刻对应的数据突变点,以及,该业务异常恢复正常的时刻对应的数据突变点;而若业务异常在发生后的预设时长内未能得以恢复,则异常时间序列数据样本中通常会包含业务异常发生前与业务异常发生后分别采集到的时间序列数据,此时,对异常时间序列数据样本进行变点检测,通常可以得到该业务异常的异常发生时刻对应的数据突变点。
111.在实际应用中,数据突变点通常仅能反映该数据突变点前后所采集到的时间序列数据差异较大,但无法表明该数据突变点具体对应于业务异常发生时刻还是业务异常恢复时刻,因此,需要对该数据突变点前后所采集到的时间序列数据进行统计分析,甚至也有可能需要与预设的正常状态下的业务指标数据进行比对,以准确确定出异常时间序列数据样本对应的业务异常是否能够恢复,从而保证生成的标签数据的准确性。
112.为便于理解,对此进行举例说明。假定,某一异常时间序列数据样本包含3个数据突变点,若第一个数据突变点之前的时刻序列数据对应的预设业务指标的平均值为102,第一个数据突变点至第二个数据突变点之间的时刻序列数据对应的预设业务指标的平均值为20,第二个数据突变点至第三个数据突变点之间的时刻序列数据对应的预设业务指标的平均值为60,第三个数据突变点之后的时刻序列数据对应的预设业务指标的平均值为98。若预设的正常状态下的业务指标数据为102,并且业务指标数据的合理波动范围为
±
10,则可以确定该异常时间序列数据样本对应的数据标签应该表示其对应的业务异常能够恢复。
而若该异常时间序列数据样本不包含第三个数据突变点,则该异常时间序列数据样本对应的数据标签应该表示其对应的业务异常不能够恢复。
113.结合前面的样本截取的实施例中的内容,可知,若先进行样本截取再进行样本去噪,则去噪样本集合中的目标异常时间序列数据样本已经属于经过样本截取处理后得到的样本了,此时,由于目标异常时间序列数据样本中通常并不会包含业务异常恢复后采集到的时间序列数据,因此,若直接对目标异常时间序列数据样本进行变点分析得到的样本标签数据通常均表示其对应的业务异常不会恢复,从而影响样本标签数据的准确性。基于此,需要将与目标异常时间序列数据样本对应的未经过样本截取的异常时间序列数据样本的标签数据,作为该目标异常时间序列数据样本的样本标签数据。
114.而若先进行样本去噪再进行样本截取,则去噪样本集合中的目标异常时间序列数据样本还未经过样本截取处理,此时,目标异常时间序列数据样本就是未经过样本截取的异常时间序列数据样本,因此,可以直接对目标异常时间序列数据样本进行变点检测以得到准确性好的样本标签数据,对此不作赘述。
115.本说明书实施例中,除了可以利用时间序列数据及样本标签数据进行模型训练以外,还可以结合一些辅助特征去进行模型训练,从而有利于提升训练得到的异常恢复预测模型的准确性。
116.基于此,步骤108:利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练之前,还可以包括:
117.获取所述训练样本集合中的训练样本对应的业务特征数据。
118.获取所述训练样本集合中的训练样本对应的时间序列特征数据。
119.根据所述业务特征数据及所述时间序列特征数据,生成各个所述训练样本对应的辅助特征数据,得到辅助特征数据集合。
120.对应的,步骤108:利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,具体可以包括:
121.利用所述训练样本集合以及所述辅助特征数据集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练。
122.本说明书实施例中,若先进行样本截取再进行样本去噪,或者,若无需进行样本截取处理,则训练样本集合中的训练样本可以为携带有样本标签数据的目标异常时间序列数据样本。而若先进行样本去噪再进行样本截取,则训练样本集合中的训练样本可以为携带有样本标签数据的第二样本,该第二样本可以为从目标异常时间序列数据样本中提取到的在预设时间段内采集到的时间序列数据。
123.本说明书实施例中,由于训练样本中包含的是目标业务处的预设业务指标,而不同业务及不同业务指标通常具有不同的特性,因此,可以提取训练样本对应的业务特征数据作为辅助特征数据。在实际应用中,训练样本对应的业务特征数据可以反映训练样本所属的目标业务的业务种类以及对应的预设业务指标的指标种类。例如,业务特征数据中的一个数据维度可以对应于一个业务种类或者一个指标种类,并且可以使用特征值1表示训练样本所属的目标业务以及对应的预设业务指标,并使用特征值0表示其他业务及其它预设业务指标,方便快捷。
124.为便于理解,对此进行举例说明,假定,当前共有第一业务及第二业务这两种业
务,并且当前共有第一业务指标与第二业务指标这两种业务指标。则业务特征数据的各个数据维度可以依序对应于第一业务、第二业务、第一业务指标与第二业务指标。若训练样本所属的目标业务为第一业务,训练样本对应的预设业务指标为第二业务指标,则训练样本对应的业务特征数据可以表示为1001。
125.当然,也可以根据目标业务的预设业务指标的其他相关信息(例如,正常状态下的预设业务指标的平均值,或者,业务异常持续时长的平均值、业务异常恢复正常的平均耗时等)生成训练样本的业务特征数据,对此不作具体限定。
126.可知,异常恢复预测模型可以利用各种业务处的各个业务指标对应的异常时间序列数据样本进行训练,使得训练得到的异常恢复预测模型能够适用于多种业务处的多种业务指标的异常恢复预测,通用性好。
127.本说明书实施例中,由于根据客观事物发展的连续规律性,运用过去的历史数据,通过统计分析,能够进一步推测未来的发展趋势,因此,可以提取训练样本对应的时间序列特征数据作为辅助特征数据。其中,所述时间序列特征数据可以包括统计特征、周期特征、增长率特征等。在实际应用中,所述时间序列特征数据具体可以包括基于统计域的时序特征(例如,最大值、最小值、均值、中位数、均方根、标准差、方差等)、基于谱域的时序特征(例如,谱距离、频谱基频、频谱最大频率、频谱最大峰值等)、基于时域的时序特征(例如,质心、波峰与波谷距离、最大峰值个数等),当然,所述时间序列特征数据还可以包括其他类型的基于训练样本中的时间序列数据提取到的特征,对此不作具体限定。
128.在实际应用中,还可以将上述针对同一训练样本提取到所述业务特征数据及所述时间序列特征数据进行拼接处理,以生成这一训练样本对应的辅助特征数据,从而后续可以结合训练样本以及其对应的辅助特征数据,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,以提升训练得到的异常恢复预测模型的准确性。
129.本说明书实施例中,还提供了初始异常恢复预测模型的模型结构,以便于理解异常恢复预测模型的运行过程。
130.具体的,所述初始异常恢复预测模型可以包括:递归神经网络子模型、辅助特征数据输入层、第一全连接层及输出层。
131.其中,所述递归神经网络子模型可以用于接收所述训练样本集合中的训练样本。
132.所述辅助特征数据输入层可以用于接收所述训练样本对应的所述辅助特征数据。
133.所述第一全连接层可以用于根据所述递归神经网络子模型的输出特征及所述辅助特征数据输入层输出的辅助特征生成拼接特征。
134.所述输出层可以用于根据所述拼接特征,输出用于反映所述训练样本对应的业务异常是否能够恢复的预测结果。
135.可知,递归神经网络子模型以及辅助特征数据输入层可以分别与第一全连接层连接,而第一全连接层可以与输出层连接,以使得异常恢复预测模型能够接收训练样本以及其对应的辅助特征数据,并输出反映训练样本对应的业务异常是否能够恢复的预测结果。
136.本说明书实施例中,所述辅助特征数据输入层可以直接采用全连接层实现,方便快捷。或者,所述辅助特征数据输入层也可以由依次连接的第二全连接层、batchnorm层、激活层及dropout层实现;其中,所述第二全连接层可以用于接收所述辅助特征数据;而所述dropout层可以与所述第一全连接层连接,从而向所述第一全连接层传递由该辅助特征数
据输入层对辅助特征数据处理后得到的辅助特征。
137.由于batchnorm层可以改变方差大小和均值位置,使数据更加符合真实数据的分布,从而能够保证模型的非线性表达能力;激活层可以通过非线性映射,将特征映射到高维的非线性区间,增强网络的表达能力;而dropout层可以防止模型过拟合。因此,当利用依次连接的第二全连接层、batchnorm层、激活层及dropout层搭建辅助特征数据输入层时,有利于提升训练得到的异常恢复预测模型的准确性。
138.在实际应用中,所述激活层可以基于阶跃函数、sigmoid、relu或其他激活函数实现,对此不作具体限定。并且,所述辅助特征数据输入层也可以不包含batchnorm层和/或dropout层,以及,所述辅助特征数据输入层中包含的各个种类的网络层的数量可以为1个也可以为多个,对此均不作具体限定。
139.本实际应用中,为保障异常恢复预测模型的准确性,通常需要令异常恢复预测模型具有一定的深度,基于此,还可以在异常恢复预测模型中部署一些隐藏层。
140.具体的,所述初始异常恢复预测模型处的所述第一全连接层与所述输出层之间还可以包括:依次连接的预设数量的隐藏层;每个所述隐藏层可以包括:依次连接的第三全连接层、batchnorm层、激活层及dropout层。其中,隐藏层的预设数量可以大于等于1。
141.对应的,所述预设数量的隐藏层可以用于接收所述拼接特征,并输出处理后拼接特征。
142.而所述输出层具体可以用于根据所述处理后拼接特征,输出所述预测结果。
143.为便于理解,图2为本说明书实施例提供的一种异常恢复预测模型的结构示意图。如图2所示,该异常恢复预测模型中可以包含3个依次连接的隐藏层。在实际应用中,部分隐藏层中也可以不包含batchnorm层和/或dropout层,并且隐藏层中包含的各个种类的网络层的数量可以为1个也可以为多个,对此均不作具体限定。
144.本说明书实施例中,在业务运行过程中,可以不断地采用与图1中方案相同的原理,对异常恢复预测模型进行多次训练,并且总是将最新训练得到的异常恢复预测模型投入使用,以保障异常恢复预测模型的准确性。
145.基于此,步骤108:利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型之后,还可以包括:
146.若预设模型更新条件被满足,则获取所述目标业务处的多个更新后异常时间序列数据样本。
147.利用基于密度的聚类算法对多个所述更新后异常时间序列数据样本进行去噪处理,得到更新后去噪样本集合。
148.根据所述更新后去噪样本集合中的去噪样本及目标标签数据,生成更新后训练样本集合;其中,所述目标标签数据是基于变点检测生成的用于反映所述去噪样本对应的业务异常是否能够恢复的数据。
149.利用所述更新后训练样本集合,对所述异常恢复预测模型进行训练。
150.本说明书实施例中,预设模型更新条件可以有多种,例如,达到预设的模型更新周期,或者,目标业务处的预设业务指标的新增异常时间序列数据的数据量达到阈值等,对此不作具体限定。其中,预设的模型更新周期可以根据实际情况设置,例如,可以设置为n天或者n个小时,对此不作具体限定。
151.本说明书实施例中,更新后异常时间序列数据样本的生成原理与步骤102中提及的异常时间序列数据样本的生成原理可以是一致的,不过,通常需要优先采用最新采集到的历史异常时间序列数据,去生成更新后异常时间序列数据样本,以保障更新后异常时间序列数据样本的实时性及准确性。
152.本说明书实施例中,更新后去噪样本集合与更新后训练样本集合的生成原理与步骤104及106中提及的去噪样本集合和训练样本集合的生成原理也可以是一致的,对此不作赘述。当利用所述更新后训练样本集合对所述异常恢复预测模型进行训练得到更新后异常恢复预测模型后,就可以利用更新后异常恢复预测模型去替换上述异常恢复预测模型,从而使得可以利用更新后异常恢复预测模型进行业务异常的恢复情况的预测,以保障预测结果的准确性。
153.根据上述实施例的内容,可知,图1及其实施例中提供的异常恢复预测模型的生成方法,可以实现自动化的无标签样本获取、样本自打标、多时间尺度模型训练和实时模型集成推断等功能,从而可以在无人工介入的情况下快速产出异常恢复预测模型;并且通过自动对训练样本进行打标以及降噪,而无需耗费大量人工去设置训练样本及标签数据,也就对标签噪音及样本噪声不敏感,以低成本获取到高质量样本数据进行模型训练,有利于提升异常恢复预测模型的时效性与准确率。
154.基于与图1中所示的方案同样的思路,本说明书实施例还提供了一种异常恢复预测方法。图3为本说明书实施例提供的一种异常恢复预测方法的流程示意图。该流程的执行主体可以为部署有异常恢复预测模型的设备,或者,部署有异常恢复预测模型的设备处的应用程序。如图3所示,该流程可以包括:
155.步骤302:获取目标业务处的异常时间序列数据。
156.本说明书实施例中,若在目标业务的实时运行过程中识别到目标业务发生了业务异常,则可以将早于业务异常的异常发生时刻指定时长的时刻至当前时刻这一时间范围内,针对该目标业务采集到的时间序列数据作为所述异常时间序列数据。其中,所述指定时长可以根据实际需求设置,例如,数个小时、数分钟等,对此不作具体限定。
157.在实际应用中,由于目标业务处通常具有多种预设业务指标,并且需要预测预设业务指标发生异常后能否恢复,基于此,所述异常时间序列数据可以为针对目标业务处的发生了业务异常的预设业务指标采集到的时间序列数据,对此不作赘述。
158.步骤304:利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用图1及其实施例中提供的异常恢复预测模型的生成方法生成的。
159.本说明书实施例中,可以采用图1及其实施例中提供的异常恢复预测模型的生成方法生成步骤304中所需使用的异常恢复预测模型,对此不作赘述。
160.图3中的方法,由于可以利用自动生成的准确性较好的异常恢复预测模型针对业务异常进行后续恢复情况的预测,而无需依赖人工经验设置大量的规则策略去校验业务异常的后续恢复情况,从而有利于提升针对业务异常的恢复情况进行预测时的高效性、便捷性及准确性。
161.基于图3中的方法,本说明书实施例还提供了该方法的一些具体实施方案,下面进行说明。
162.本说明书实施例中,由于还可以结合训练样本对应的辅助特征数据去训练异常恢复预测模型,因此,当利用异常恢复预测模型对所述异常时间序列数据对应的业务异常是否能够恢复的情况进行预测时,还需要提取所述异常时间序列数据对应的辅助特征数据。
163.基于此,图3中的方法,步骤304:利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果之前,还可以包括:
164.获取所述异常时间序列数据对应的业务特征数据。
165.获取所述异常时间序列数据对应的时间序列特征数据。
166.根据所述业务特征数据及所述时间序列特征数据,生成所述异常时间序列数据对应的辅助特征数据。
167.对应的,步骤304:利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果,具体可以包括:
168.利用异常恢复预测模型对所述异常时间序列数据以及所述辅助特征数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果。
169.本说明书实施例中,所述异常时间序列数据对应的业务特征数据及时间序列特征数据的种类,与训练样本对应的业务特征数据及时间序列特征数据的种类可以是一致的。并且所述异常时间序列数据对应的辅助特征数据与训练样本对应的辅助特征数据的生成原理也可以是一致的,对此不作赘述。
170.本说明书实施例中,所述异常恢复预测模型的种类可以有多种;任意一种所述异常恢复预测模型是基于数据采集时间范围的终止时刻与异常发生时刻之间的时间间隔大于同一预设时长的异常时间序列数据样本生成的,且所述异常发生时刻位于所述数据采集时间范围内。从而一种异常恢复预测模型能够用于预测业务异常在一种预设时长内能否得以恢复。
171.所述利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果之后,还可以包括:
172.根据各个所述异常恢复预测模型生成的各个所述预测结果,生成用于反映所述异常时间序列数据对应的业务异常是否能够恢复的综合预测结果。
173.在实际应用中,所述预测结果可以为用于反映所述异常时间序列数据对应的业务异常能够恢复的第一预测结果,或者,所述预测结果可以为用于反映所述异常时间序列数据对应的业务异常不能够恢复的第二预测结果。
174.对应的,根据各个所述异常恢复预测模型生成的各个所述预测结果,生成用于反映所述异常时间序列数据对应的业务异常是否能够恢复的综合预测结果,具体可以包括:
175.判断所述第一预测结果的数量是否大于所述第二预测结果的数量,得到判断结果。
176.若所述判断结果表示所述第一预测结果的数量大于所述第二预测结果的数量,则生成用于反映所述异常时间序列数据对应的业务异常能够恢复的综合预测结果。
177.若所述判断结果表示所述第一预测结果的数量小于所述第二预测结果的数量,则生成用于反映所述异常时间序列数据对应的业务异常不能够恢复的综合预测结果。
178.为便于理解,对此进行举例说明,例如,假定,当前具有3个异常恢复预测模型,分别用于预测业务异常在10分钟、30分钟及60分钟内能否得以恢复,若3个异常恢复预测模型输出的预测结果分别为:异常时间序列数据对应的业务异常在10分钟内不能够恢复,异常时间序列数据对应的业务异常在30分钟内能够恢复,异常时间序列数据对应的业务异常在60分钟内能够恢复,可知,此时,具有的第一预测结果的数量(2个)大于第二预测结果的数量(1个),因此,可以生成用于反映异常时间序列数据对应的业务异常能够恢复的综合预测结果。
179.在实际应用中,也可以针对各个异常恢复预测模型的预测结果设置预设权重,从而结合预设权重以及各个异常恢复预测模型的预测结果生成综合预测结果。例如,接上例,假定,3个异常恢复预测模型输出的各个预测结果的预设权重可以分别为0.7、0.2及0.1,若第一预测结果表示为1,第二预测结果表示为-1,则可以计算各个预测结果对应的加权和,若加权和为正数,则可以生成表示异常时间序列数据对应的业务异常能够恢复的综合预测结果,否则,可以生成表示异常时间序列数据对应的业务异常不能够恢复的综合预测结果。基于此,可以先计算得到各个预测结果对应的加权和,即0.7*1+0.2*(-1)+0.1*(-1)=0.4,由于各个预测结果对应的加权和为正数,因此,可以生成表示异常时间序列数据对应的业务异常能够恢复的综合预测结果。
180.图4为本说明书实施例提供的对应于图1及2中的方法的泳道流程示意图。如图4所示,该异常恢复预测流程可以涉及模型训练设备以及异常恢复预测设备等执行主体。在实际应用中,模型训练设备以及异常恢复预测设备既可以是同一设备,也可以是不同设备,对此不作具体限定。
181.在模型训练阶段,模型训练设备可以从针对目标业务处的预设业务指标采集到的历史异常时间序列数据中,确定出数据采集时间范围的终止时刻与异常发生时刻之间的时间间隔大于预设时长的异常时间序列数据样本。由于预设时长的种类可以有多种,因此,需要训练多种异常恢复预测模型,以针对业务异常在各种预设时长内能否恢复的情况进行预测。
182.具体的,可以从所述时间间隔大于某种预设时长的异常时间序列数据样本中,提取自数据采集时间范围的起始时刻至终止时刻之前达到该预设时长的时刻之间的时间序列数据,得到该种预设时长对应的第一样本。利用基于密度的聚类算法,对该种预设时长对应的第一样本进行聚类处理,得到聚类结果。根据聚类结果,从各个聚类簇中随机选取出不大于预设数量的异常时间序列数据样本,和/或,确定各个聚类簇中的至少部分核心点对应的异常时间序列数据样本,得到该种预设时长对应的目标去噪样本集合。根据目标去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成该种预设时长对应的目标训练样本集合;其中,样本标签数据可以是基于变点检测生成的用于反映目标异常时间序列数据样本对应的业务异常是否能够恢复的数据。后续则能够利用该目标训练样本集合,对一个基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到用于预测业务异常在该种预设时长内是否能够恢复的异常恢复预测模型。
183.基于同样的训练样本生成原理以及模型训练原理,即可训练得到各个预设时长分别对应的各个异常恢复预测模型。
184.在异常恢复预测阶段,异常恢复预测设备可以获取训练得到的用于预测业务异常
在各种预设时长内是否能够恢复的各个异常恢复预测模型。从而在实时获取到目标业务处的需要进行异常恢复预测的异常时间序列数据后,可以利用各个异常恢复预测模型对异常时间序列数据进行处理,得到各个用于反映异常时间序列数据对应的业务异常是否能够恢复的预测结果。以根据各个预测结果,生成用于反映异常时间序列数据对应的业务异常是否能够恢复的综合预测结果。
185.基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图5为本说明书实施例提供的对应于图1的异常恢复预测模型的生成装置的结构示意图。如图5所示,该装置可以包括:
186.第一获取模块502,用于获取目标业务处的多个异常时间序列数据样本。
187.第一去噪模块504,用于利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合。
188.第一训练样本生成模块506,用于根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据。
189.第一训练模块508,用于利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。
190.基于图5的装置,本说明书实施例还提供了该装置的一些具体实施方案,下面进行说明。
191.可选的,所述第一获取模块502,具体可以用于:
192.从针对所述目标业务处的预设业务指标采集到的历史异常时间序列数据中,确定出所述异常时间序列数据样本;所述异常时间序列数据样本的数据采集时间范围内包含所述预设业务指标的异常发生时刻,且所述数据采集时间范围的终止时刻与所述异常发生时刻之间的时间间隔大于预设时长;其中,所述预设时长的种类有多种;所述异常恢复预测模型的种类数量与所述预设时长的种类数量相同。
193.所述第一去噪模块504,具体可以用于:
194.针对任意一种所述预设时长,利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理,得到目标去噪样本集合。
195.所述第一训练样本生成模块506,具体可以用于:
196.根据所述目标去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成目标训练样本集合。
197.所述第一训练模块508,具体可以用于:
198.利用所述目标训练样本集合,对一个基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到用于预测业务异常在所述任意一种所述预设时长内是否能够恢复的异常恢复预测模型。
199.可选的,所述第一去噪模块504,具体可以用于:
200.利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行聚类处理,得到聚类结果。
201.根据所述聚类结果,从各个聚类簇中随机选取出不大于预设数量的所述异常时间
序列数据样本,得到所述目标去噪样本集合;和/或,
202.根据所述聚类结果,确定各个聚类簇中的至少部分核心点对应的所述异常时间序列数据样本,得到所述目标去噪样本集合。
203.可选的,图5中的装置,还可以包括:
204.第一样本生成模块,用于从所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本中,提取在预设时间段内采集到的时间序列数据,得到第一样本;其中,所述预设时间段的起始时刻为所述数据采集时间范围的起始时刻,所述预设时间段的终止时刻为比所述数据采集时间范围的终止时刻早所述任意一种所述预设时长的时刻。
205.所述第一去噪模块504,具体可以用于:利用基于密度的聚类算法,对所述第一样本进行去噪处理。
206.可选的,所述第一训练样本生成模块506,具体可以用于:
207.从所述目标去噪样本集合中的目标异常时间序列数据样本中,提取在预设时间段内采集到的时间序列数据,得到第二样本;其中,所述预设时间段的起始时刻为所述数据采集时间范围的起始时刻,所述预设时间段的终止时刻为比所述数据采集时间范围的终止时刻早所述任意一种所述预设时长的时刻。
208.生成携带有所述样本标签数据的所述第二样本,得到所述目标训练样本集合中的训练样本。
209.可选的,图5中的装置还可以包括:
210.变点检测模块,用于对所述异常时间序列数据样本进行变点检测,得到所述异常时间序列数据样本中的数据突变点。
211.标签数据生成模块,用于根据所述异常时间序列数据样本中的所述数据突变点之前的时间序列数据以及所述数据突变点之后的时间序列数据,生成用于反映所述异常时间序列数据样本对应的业务异常是否能够恢复的标签数据。
212.所述第一训练样本生成模块506,具体可以用于:
213.根据所述目标异常时间序列数据样本以及与所述目标异常时间序列数据样本对应的所述标签数据,生成所述训练样本集合中的训练样本。
214.可选的,图5中的装置,还可以包括:
215.第二获取模块,用于获取所述训练样本集合中的训练样本对应的业务特征数据。
216.第三获取模块,用于获取所述训练样本集合中的训练样本对应的时间序列特征数据。
217.辅助特征数据生成模块,用于根据所述业务特征数据及所述时间序列特征数据,生成各个所述训练样本对应的辅助特征数据,得到辅助特征数据集合。
218.所述第一训练模块508,具体可以用于:
219.利用所述训练样本集合以及所述辅助特征数据集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练。
220.其中,所述初始异常恢复预测模型可以包括:递归神经网络子模型、辅助特征数据输入层、第一全连接层及输出层。
221.所述递归神经网络子模型用于接收所述训练样本集合中的训练样本。
222.所述辅助特征数据输入层用于接收所述训练样本对应的所述辅助特征数据。
223.所述第一全连接层用于根据所述递归神经网络子模型的输出特征及所述辅助特征数据输入层输出的辅助特征生成拼接特征。
224.所述输出层用于根据所述拼接特征,输出用于反映所述训练样本对应的业务异常是否能够恢复的预测结果。
225.可选的,所述辅助特征数据输入层可以包括:依次连接的第二全连接层、batchnorm层、激活层及dropout层;其中,所述第二全连接层用于接收所述辅助特征数据;所述dropout层与所述第一全连接层连接。
226.可选的,所述初始异常恢复预测模型处的所述第一全连接层与所述输出层之间还可以包括:依次连接的预设数量的隐藏层;每个所述隐藏层包括:依次连接的第三全连接层、batchnorm层、激活层及dropout层。
227.所述预设数量的隐藏层可以用于接收所述拼接特征,并输出处理后拼接特征。
228.所述输出层具体可以用于根据所述处理后拼接特征,输出所述预测结果。
229.可选的,图5中的装置,还可以包括:
230.第四获取模块,用于若预设模型更新条件被满足,则获取所述目标业务处的多个更新后异常时间序列数据样本。
231.第二去噪模块,用于利用基于密度的聚类算法对多个所述更新后异常时间序列数据样本进行去噪处理,得到更新后去噪样本集合。
232.第二训练样本生成模块,用于根据所述更新后去噪样本集合中的去噪样本及目标标签数据,生成更新后训练样本集合;其中,所述目标标签数据是基于变点检测生成的用于反映所述去噪样本对应的业务异常是否能够恢复的数据。
233.第二训练模块,用于利用所述更新后训练样本集合,对所述异常恢复预测模型进行训练。
234.基于同样的思路,本说明书实施例还提供了上述方法对应的装置。图6为本说明书实施例提供的对应于图3的异常恢复预测装置的结构示意图。如图6所示,该装置可以包括:
235.第一获取模块602,用于获取目标业务处的异常时间序列数据。
236.预测模块604,用于利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用如图1及其实施例所述的异常恢复预测模型的生成方法生成的。
237.基于图6的装置,本说明书实施例还提供了该装置的一些具体实施方案,下面进行说明。
238.可选的,图6中的装置,还可以包括:
239.第二获取模块,用于获取所述异常时间序列数据对应的业务特征数据。
240.第三获取模块,用于获取所述异常时间序列数据对应的时间序列特征数据。
241.辅助特征数据生成模块,用于根据所述业务特征数据及所述时间序列特征数据,生成所述异常时间序列数据对应的辅助特征数据。
242.所述预测模块604,具体可以用于:
243.利用异常恢复预测模型对所述异常时间序列数据以及所述辅助特征数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果。
244.可选的,所述异常恢复预测模型的种类可以有多种;任意一种所述异常恢复预测
模型是基于数据采集时间范围的终止时刻与异常发生时刻之间的时间间隔大于同一预设时长的异常时间序列数据样本生成的,且所述异常发生时刻位于所述数据采集时间范围内。
245.图6中的装置还可以包括:
246.综合预测结果生成模块,用于根据各个所述异常恢复预测模型生成的各个所述预测结果,生成用于反映所述异常时间序列数据对应的业务异常是否能够恢复的综合预测结果。或者,
247.判断模块,用于判断所述第一预测结果的数量是否大于所述第二预测结果的数量,得到判断结果;其中,所述第一预测结果为用于反映所述异常时间序列数据对应的业务异常能够恢复的所述预测结果,所述第二预测结果为用于反映所述异常时间序列数据对应的业务异常不能够恢复的所述预测结果。
248.第一综合预测结果生成模块,用于若所述判断结果表示所述第一预测结果的数量大于所述第二预测结果的数量,则生成用于反映所述异常时间序列数据对应的业务异常能够恢复的综合预测结果。
249.第二综合预测结果生成模块,用于若所述判断结果表示所述第一预测结果的数量小于所述第二预测结果的数量,则生成用于反映所述异常时间序列数据对应的业务异常不能够恢复的综合预测结果。
250.基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
251.图7为本说明书实施例提供的对应于图1的异常恢复预测模型的生成设备的结构示意图。如图7所示,设备700可以包括:
252.至少一个处理器710;以及,
253.与所述至少一个处理器通信连接的存储器730;其中,
254.所述存储器730存储有可被所述至少一个处理器710执行的指令720,所述指令被所述至少一个处理器710执行,以使所述至少一个处理器710能够:
255.获取目标业务处的多个异常时间序列数据样本。
256.利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合。
257.根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据。
258.利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。
259.基于同样的思路,本说明书实施例还提供了上述方法对应的设备。
260.图8为本说明书实施例提供的对应于图3的异常恢复预测设备的结构示意图。如图8所示,设备800可以包括:
261.至少一个处理器810;以及,
262.与所述至少一个处理器通信连接的存储器830;其中,
263.所述存储器830存储有可被所述至少一个处理器810执行的指令820,所述指令被所述至少一个处理器810执行,以使所述至少一个处理器810能够:
264.获取目标业务处的异常时间序列数据。
265.利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用如图1及其实施例所述的异常恢复预测模型的生成方法生成的。
266.本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于图7及图8所示的设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
267.在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegate array,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescription language)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(ruby hardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegrated circuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
268.控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc 625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
269.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,
或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
270.为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
271.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
272.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
273.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
274.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
275.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
276.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。
277.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
278.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的
包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
279.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
280.本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
281.以上所述仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:
1.一种异常恢复预测模型的生成方法,包括:获取目标业务处的多个异常时间序列数据样本;利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合;根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据;利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。2.如权利要求1所述的方法,所述获取目标业务处的多个异常时间序列数据样本,具体包括:从针对所述目标业务处的预设业务指标采集到的历史异常时间序列数据中,确定出所述异常时间序列数据样本;所述异常时间序列数据样本的数据采集时间范围内包含所述预设业务指标的异常发生时刻,且所述数据采集时间范围的终止时刻与所述异常发生时刻之间的时间间隔大于预设时长。3.如权利要求2所述的方法,所述预设时长的种类有多种;所述异常恢复预测模型的种类数量与所述预设时长的种类数量相同;所述利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合,具体包括:针对任意一种所述预设时长,利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理,得到目标去噪样本集合;所述根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合,具体包括:根据所述目标去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成目标训练样本集合;所述利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型,具体包括:利用所述目标训练样本集合,对一个基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到用于预测业务异常在所述任意一种所述预设时长内是否能够恢复的异常恢复预测模型。4.如权利要求3所述的方法,所述利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理,得到目标去噪样本集合,具体包括:利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行聚类处理,得到聚类结果;根据所述聚类结果,从各个聚类簇中随机选取出不大于预设数量的所述异常时间序列数据样本,得到所述目标去噪样本集合;和/或,根据所述聚类结果,确定各个聚类簇中的至少部分核心点对应的所述异常时间序列数
据样本,得到所述目标去噪样本集合。5.如权利要求3所述的方法,所述利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理之前,还包括:从所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本中,提取在预设时间段内采集到的时间序列数据,得到第一样本;其中,所述预设时间段的起始时刻为所述数据采集时间范围的起始时刻,所述预设时间段的终止时刻为比所述数据采集时间范围的终止时刻早所述任意一种所述预设时长的时刻;所述利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理,具体包括:利用基于密度的聚类算法,对所述第一样本进行去噪处理。6.如权利要求3所述的方法,所述根据所述目标去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成目标训练样本集合,具体包括:从所述目标去噪样本集合中的目标异常时间序列数据样本中,提取在预设时间段内采集到的时间序列数据,得到第二样本;其中,所述预设时间段的起始时刻为所述数据采集时间范围的起始时刻,所述预设时间段的终止时刻为比所述数据采集时间范围的终止时刻早所述任意一种所述预设时长的时刻;生成携带有所述样本标签数据的所述第二样本,得到所述目标训练样本集合中的训练样本。7.如权利要求1所述的方法,所述根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合之前,还包括:对所述异常时间序列数据样本进行变点检测,得到所述异常时间序列数据样本中的数据突变点;根据所述异常时间序列数据样本中的所述数据突变点之前的时间序列数据以及所述数据突变点之后的时间序列数据,生成用于反映所述异常时间序列数据样本对应的业务异常是否能够恢复的标签数据;所述根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合,具体包括:根据所述目标异常时间序列数据样本以及与所述目标异常时间序列数据样本对应的所述标签数据,生成所述训练样本集合中的训练样本。8.如权利要求1所述的方法,所述利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练之前,还包括:获取所述训练样本集合中的训练样本对应的业务特征数据;获取所述训练样本集合中的训练样本对应的时间序列特征数据;根据所述业务特征数据及所述时间序列特征数据,生成各个所述训练样本对应的辅助特征数据,得到辅助特征数据集合;所述利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,具体包括:利用所述训练样本集合以及所述辅助特征数据集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练。9.如权利要求8所述的方法,所述初始异常恢复预测模型包括:递归神经网络子模型、
辅助特征数据输入层、第一全连接层及输出层;其中,所述递归神经网络子模型用于接收所述训练样本集合中的训练样本;所述辅助特征数据输入层用于接收所述训练样本对应的所述辅助特征数据;所述第一全连接层用于根据所述递归神经网络子模型的输出特征及所述辅助特征数据输入层输出的辅助特征生成拼接特征;所述输出层用于根据所述拼接特征,输出用于反映所述训练样本对应的业务异常是否能够恢复的预测结果。10.如权利要求9所述的方法,所述辅助特征数据输入层包括:依次连接的第二全连接层、batchnorm层、激活层及dropout层;其中,所述第二全连接层用于接收所述辅助特征数据;所述dropout层与所述第一全连接层连接。11.如权利要求9所述的方法,所述初始异常恢复预测模型处的所述第一全连接层与所述输出层之间还包括:依次连接的预设数量的隐藏层;每个所述隐藏层包括:依次连接的第三全连接层、batchnorm层、激活层及dropout层;所述预设数量的隐藏层用于接收所述拼接特征,并输出处理后拼接特征;所述输出层具体用于根据所述处理后拼接特征,输出所述预测结果。12.如权利要求1所述的方法,所述利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型之后,还包括:若预设模型更新条件被满足,则获取所述目标业务处的多个更新后异常时间序列数据样本;利用基于密度的聚类算法对多个所述更新后异常时间序列数据样本进行去噪处理,得到更新后去噪样本集合;根据所述更新后去噪样本集合中的去噪样本及目标标签数据,生成更新后训练样本集合;其中,所述目标标签数据是基于变点检测生成的用于反映所述去噪样本对应的业务异常是否能够恢复的数据;利用所述更新后训练样本集合,对所述异常恢复预测模型进行训练。13.一种异常恢复预测方法,包括:获取目标业务处的异常时间序列数据;利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用如权利要求1-12中任意一项所述的异常恢复预测模型的生成方法生成的。14.如权利要求13所述的方法,所述利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果之前,还包括:获取所述异常时间序列数据对应的业务特征数据;获取所述异常时间序列数据对应的时间序列特征数据;根据所述业务特征数据及所述时间序列特征数据,生成所述异常时间序列数据对应的辅助特征数据;所述利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异
常时间序列数据对应的业务异常是否能够恢复的预测结果,具体包括:利用异常恢复预测模型对所述异常时间序列数据以及所述辅助特征数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果。15.如权利要求13所述的方法,所述异常恢复预测模型的种类有多种;任意一种所述异常恢复预测模型是基于数据采集时间范围的终止时刻与异常发生时刻之间的时间间隔大于同一预设时长的异常时间序列数据样本生成的,且所述异常发生时刻位于所述数据采集时间范围内;所述利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果之后,还包括:根据各个所述异常恢复预测模型生成的各个所述预测结果,生成用于反映所述异常时间序列数据对应的业务异常是否能够恢复的综合预测结果。16.如权利要求15所述的方法,所述预测结果为用于反映所述异常时间序列数据对应的业务异常能够恢复的第一预测结果,或者,所述预测结果为用于反映所述异常时间序列数据对应的业务异常不能够恢复的第二预测结果;所述根据各个所述异常恢复预测模型生成的各个所述预测结果,生成用于反映所述异常时间序列数据对应的业务异常是否能够恢复的综合预测结果,具体包括:判断所述第一预测结果的数量是否大于所述第二预测结果的数量,得到判断结果;若所述判断结果表示所述第一预测结果的数量大于所述第二预测结果的数量,则生成用于反映所述异常时间序列数据对应的业务异常能够恢复的综合预测结果;若所述判断结果表示所述第一预测结果的数量小于所述第二预测结果的数量,则生成用于反映所述异常时间序列数据对应的业务异常不能够恢复的综合预测结果。17.一种异常恢复预测模型的生成装置,包括:第一获取模块,用于获取目标业务处的多个异常时间序列数据样本;第一去噪模块,用于利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合;第一训练样本生成模块,用于根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据;第一训练模块,用于利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。18.如权利要求17所述的装置,所述第一获取模块,具体用于:从针对所述目标业务处的预设业务指标采集到的历史异常时间序列数据中,确定出所述异常时间序列数据样本;所述异常时间序列数据样本的数据采集时间范围内包含所述预设业务指标的异常发生时刻,且所述数据采集时间范围的终止时刻与所述异常发生时刻之间的时间间隔大于预设时长;其中,所述预设时长的种类有多种;所述异常恢复预测模型的种类数量与所述预设时长的种类数量相同;所述第一去噪模块,具体用于:针对任意一种所述预设时长,利用基于密度的聚类算法,对所述时间间隔大于所述任意一种所述预设时长的所述异常时间序列数据样本进行去噪处理,得到目标去噪样本集
合;所述第一训练样本生成模块,具体用于:根据所述目标去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成目标训练样本集合;所述第一训练模块,具体用于:利用所述目标训练样本集合,对一个基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到用于预测业务异常在所述任意一种所述预设时长内是否能够恢复的异常恢复预测模型。19.如权利要求17所述的装置,还包括:第二获取模块,用于获取所述训练样本集合中的训练样本对应的业务特征数据;第三获取模块,用于获取所述训练样本集合中的训练样本对应的时间序列特征数据;辅助特征数据生成模块,用于根据所述业务特征数据及所述时间序列特征数据,生成各个所述训练样本对应的辅助特征数据,得到辅助特征数据集合;所述第一训练模块,具体用于:利用所述训练样本集合以及所述辅助特征数据集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练;其中,所述初始异常恢复预测模型包括:递归神经网络子模型、辅助特征数据输入层、第一全连接层及输出层;所述递归神经网络子模型用于接收所述训练样本集合中的训练样本;所述辅助特征数据输入层用于接收所述训练样本对应的所述辅助特征数据;所述第一全连接层用于根据所述递归神经网络子模型的输出特征及所述辅助特征数据输入层输出的辅助特征生成拼接特征;所述输出层用于根据所述拼接特征,输出用于反映所述训练样本对应的业务异常是否能够恢复的预测结果。20.如权利要求17所述的装置,还包括:第四获取模块,用于若预设模型更新条件被满足,则获取所述目标业务处的多个更新后异常时间序列数据样本;第二去噪模块,用于利用基于密度的聚类算法对多个所述更新后异常时间序列数据样本进行去噪处理,得到更新后去噪样本集合;第二训练样本生成模块,用于根据所述更新后去噪样本集合中的去噪样本及目标标签数据,生成更新后训练样本集合;其中,所述目标标签数据是基于变点检测生成的用于反映所述去噪样本对应的业务异常是否能够恢复的数据;第二训练模块,用于利用所述更新后训练样本集合,对所述异常恢复预测模型进行训练。21.一种异常恢复预测装置,包括:第一获取模块,用于获取目标业务处的异常时间序列数据;预测模块,用于利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用如权利要求1-12中任意一项所述的异常恢复预测模型的生成方法生成
的。22.如权利要求21所述的装置,还包括:第二获取模块,用于获取所述异常时间序列数据对应的业务特征数据;第三获取模块,用于获取所述异常时间序列数据对应的时间序列特征数据;辅助特征数据生成模块,用于根据所述业务特征数据及所述时间序列特征数据,生成所述异常时间序列数据对应的辅助特征数据;所述预测模块,具体用于:利用异常恢复预测模型对所述异常时间序列数据以及所述辅助特征数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果。23.如权利要求21所述的装置,所述异常恢复预测模型的种类有多种;任意一种所述异常恢复预测模型是基于数据采集时间范围的终止时刻与异常发生时刻之间的时间间隔大于同一预设时长的异常时间序列数据样本生成的,且所述异常发生时刻位于所述数据采集时间范围内;所述装置还包括:判断模块,用于判断所述第一预测结果的数量是否大于所述第二预测结果的数量,得到判断结果;其中,所述第一预测结果为用于反映所述异常时间序列数据对应的业务异常能够恢复的所述预测结果,所述第二预测结果为用于反映所述异常时间序列数据对应的业务异常不能够恢复的所述预测结果;第一综合预测结果生成模块,用于若所述判断结果表示所述第一预测结果的数量大于所述第二预测结果的数量,则生成用于反映所述异常时间序列数据对应的业务异常能够恢复的综合预测结果;第二综合预测结果生成模块,用于若所述判断结果表示所述第一预测结果的数量小于所述第二预测结果的数量,则生成用于反映所述异常时间序列数据对应的业务异常不能够恢复的综合预测结果。24.一种异常恢复预测模型的生成设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取目标业务处的多个异常时间序列数据样本;利用基于密度的聚类算法对多个所述异常时间序列数据样本进行去噪处理,得到去噪样本集合;根据所述去噪样本集合中的目标异常时间序列数据样本以及样本标签数据,生成训练样本集合;其中,所述样本标签数据是基于变点检测生成的用于反映所述目标异常时间序列数据样本对应的业务异常是否能够恢复的数据;利用所述训练样本集合,对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,得到异常恢复预测模型。25.一种异常恢复预测设备,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:获取目标业务处的异常时间序列数据;利用异常恢复预测模型对所述异常时间序列数据进行处理,得到用于反映所述异常时间序列数据对应的业务异常是否能够恢复的预测结果;其中,所述异常恢复预测模型是采用如权利要求1-12中任意一项所述的异常恢复预测模型的生成方法生成的。
技术总结
本说明书实施例中公开了异常恢复预测模型的生成方法、预测方法、装置及设备。该方案可以包括:通过对目标业务处的多个异常时间序列数据样本自动进行去噪处理,以得到去噪后的目标异常时间序列数据样本,并基于变点检测自动生成用于反映去噪后的目标异常时间序列数据样本对应的业务异常是否能够恢复的样本标签数据,从而能够根据去噪后的目标异常时间序列数据样本以及样本标签数据自动生成准确性较好的训练样本,通过利用准确性较好的训练样本对基于递归神经网络模型搭建的初始异常恢复预测模型进行训练,即可利用自动生成的准确性较好的异常恢复预测模型针对业务异常进行后续恢复情况的预测。续恢复情况的预测。续恢复情况的预测。
技术研发人员:杨洪鑫 范晓宁 郑岩
受保护的技术使用者:支付宝实验室(新加坡)有限公司
技术研发日:2023.04.03
技术公布日:2023/7/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
