异常检测算法确定方法、装置、电子设备及存储介质与流程
未命名
09-18
阅读:92
评论:0

1.本技术涉及数据处理领域及数字医疗领域,特别是涉及一种异常检测算法确定方法、装置、电子设备及存储介质。
背景技术:
2.在医疗领域中,异常数据的监控具有重要的作用,具体地,异常数据可能是疾病的早期指示,医疗健康记录的异常数据、实验室检测结果异常值等,通过及时发现和处理这些异常数据,可以帮助医生和其他医疗专业人员更加准确的诊断和指令患者,提高医疗质量和安全性。现有技术中,通常采用同一异常检测算法对不同业务场景下的业务数据进行异常数据监控,单一的异常检测算法无法适用不同数据分布下的业务数据,导致数据异常检测结果的准确性较低。
技术实现要素:
3.有鉴于此,本技术提供了一种异常检测算法确定方法、装置、电子设备及存储介质,主要目的在于解决现有技术中对于不同业务下不同数据分布的业务数据,通常采用同一异常检测算法进行数据监控,会导致数据异常检测结果的准确性较低的技术问题。
4.依据本技术第一方面,提供了一种异常检测算法确定方法,该方法包括:
5.响应于异常检测算法的选择请求,获取选择请求中包括的多个异常检测算法和实际数据集;
6.根据实际数据集,生成理论数据集;
7.根据多个异常检测算法、实际数据集和理论数据集,生成多个第一拟合度和多个第二拟合度;
8.根据多个第一拟合度和多个第二拟合度,在多个异常检测算法中,确定目标异常检测算法。
9.可选地,实际数据集包括多个正常数据和多个异常数据,根据实际数据集,生成理论数据集的步骤,具体包括:
10.根据多个正常数据,确定多个理论异常数据;
11.根据多个正常数据和多个理论异常数据,生成理论数据集。
12.可选地,根据多个正常数据,确定多个理论异常数据的步骤,具体包括:
13.获取多个正常数据的多个距离和预设异常数据量;
14.根据多个距离和预设异常数据量,生成多个理论异常数据。
15.可选地,根据多个异常检测算法、多实际数据集和理论数据集,生成多个第一拟合度和多个第二拟合度的步骤,具体包括:
16.依次将实际数据集输入多个异常检测算法,生成多个第一拟合度;
17.依次将理论数据集输入多个异常检测算法,生成多个第二拟合度。
18.可选地,根据多个第一拟合度和多个第二拟合度,在多个检测模型中,确定目标异
常检测算法的步骤,具体包括:
19.将多个第一拟合度按照从大到小的顺序进行排序;
20.将多个第二拟合度按照从大到小的顺序进行排序;
21.根据排序后的多个第一拟合度和第二拟合度,在多个异常检测算法中,确定第一拟合度最高,且第二拟合度最高的目标异常检测算法。
22.可选地,该方法还包括:
23.根据待检测数据,确定多个历史数据;
24.对多个历史数据进行数据清洗,剔除错误数据;
25.对清洗后的多个历史数据进行分类,生成多个正常数据和多个异常数据;
26.根据多个正常数据和多个异常数据,生成实际数据集。
27.可选地,多个异常检测算法包括以下至少一个:稳健协方差算法、单分类支持向量机算法、孤立森林算法和局部异常因子算法。
28.依据本技术第二方面,提供了一种异常检测算法确定装置,该装置包括:
29.获取模块,用于响应于异常检测算法的选择请求,获取选择请求中包括的多个异常检测算法和实际数据集;
30.第一生成模块,用于根据实际数据集,生成理论数据集;
31.第二生成模块,用于根据多个异常检测算法、实际数据集和理论数据集,生成多个第一拟合度和多个第二拟合度;
32.确定模块,用于根据多个第一拟合度和多个第二拟合度,在多个异常检测算法中,确定目标异常检测算法。
33.可选地,实际数据集包括多个正常数据和多个异常数据,第一生成模块,具体用于:
34.根据多个正常数据,确定多个理论异常数据;
35.根据多个正常数据和多个理论异常数据,生成理论数据集。
36.可选地,获取模块,具体还用于获取多个正常数据的多个距离和预设异常数据量。
37.可选地,该装置还包括:
38.第三生成模块,用于根据多个距离和预设异常数据量,生成多个理论异常数据。
39.可选地,第二生成模块,具体用于:
40.依次将实际数据集输入多个异常检测算法,生成多个第一拟合度;
41.依次将理论数据集输入多个异常检测算法,生成多个第二拟合度。
42.可选地,确定模块,具体用于:
43.将多个第一拟合度按照从大到小的顺序进行排序;
44.将多个第二拟合度按照从大到小的顺序进行排序;
45.根据排序后的多个第一拟合度和第二拟合度,在多个异常检测算法中,确定第一拟合度最高,且第二拟合度最高的目标异常检测算法。
46.可选地,确定模块,具体还用于根据待检测数据,确定多个历史数据。
47.可选地,该装置还包括:
48.清洗模块,用于对多个历史数据进行数据清洗,剔除错误数据;
49.第四生成模块,用于对清洗后的多个历史数据进行分类,生成多个正常数据和多
个异常数据;
50.第五生成模块,用于根据多个正常数据和多个异常数据,生成实际数据集。
51.可选地,多个异常检测算法包括以下至少一个:稳健协方差算法、单分类支持向量机算法、孤立森林算法和局部异常因子算法。
52.依据本技术第三方面,提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述方法的步骤。
53.依据本技术第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
54.借由上述技术方案,本技术提供的一种异常检测算法确定方法、装置、电子设备及存储介质,获取与待监控数据相同数据分布的实际数据集,基于实际数据集生成包含理论异常数据的理论数据集,进而分别将实际数据集和理论数据集输入至每个异常检测算法,得出每个异常检测算法检测实际数据集中异常数据的第一拟合度和检测理论数据集中异常数据的第二拟合度。最终,基于多个第一拟合度和多个第二拟合度的排序结果对多个异常检测算法进行评估,以确定最佳异常检测算法。相较于现有技术中,采用同一异常检测算法进行数据监控,单一的异常检测算法无法适用不同数据分布下的业务数据,导致数据异常检测结果的准确性较低的技术问题,本技术基于待监控数据的数据分布特征对多个异常检测算法进行评估,选择准确率较高的算法作为最终异常检测算法,使得最终异常检测算法与待监控数据的适配度最高,以提高异常检测算法检测异常数据的准确性。
55.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
56.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
57.图1示出了本技术实施例提供的一种异常检测算法确定方法流程示意图;
58.图2示出了本技术实施例提供的另一种异常检测算法确定方法流程示意图;
59.图3示出了本技术实施例提供的一种异常检测算法确定装置的结构示意图。
具体实施方式
60.下面将参照附图更详细地描述本技术的示例性实施例。虽然附图中显示了本技术的示例性实施例,然而应当理解,可以以各种形式实现本技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本技术,并且能够将本技术的范围完整的传达给本领域的技术人员。
61.本技术实施例提供了一种异常检测算法确定方法,如图1所示,该方法包括:
62.s101、响应于异常检测算法的选择请求,获取选择请求中包括的多个异常检测算法和实际数据集。
63.本技术实施例提供的异常检测算法确定方法的执行主体可以为服务器设备,存在数据异常检测的后端管理系统。具体地,异常检测算法用于检测某些显著偏离全体数据实例的异常实例。其中,全体数据指按时间顺序记录的数据序列,点击数据、转化数据、浏览数据和交易数据等都可以列入监控的数据序列。该数据序列中的数据点反映了特定现象、指标、事物等随时间变化的状态或程序。一般来说,这些数据都有固定的波动周期,每个周期的数据变化应该是趋于稳定的,如果某月某周某天的数据不再符合预期的稳定变化,则确定为数据异常。准确的异常检测可以持续地监视、识别并确认数据异常,以针对潜在的事件及时地发出警告。例如医疗服务行业可以通过异常检测算法检测异常数据来实现监视其应用和服务。现有技术中,已实现多种异常检测算法来实现异常检测的功能,然而,这些算法都是基于单一数据分布实现,不同算法在不同的数据集中表现各有优劣,在符合该数据分布的情况下表现良好,而在其他分布下表现较差。为了提高对异常数据监控的准确性,在监控数据之前,预先对多个异常检测算法进行分析,以确定出适配性最高的异常检测算法。
64.具体地,服务器在接收到异常检测算法的选择请求后,获得请求中包括的多个异常检测算法以及实际数据集。具体地,多个异常检测算法可以为目前互联网业务中常用的异常检测算法。实际数据集用于对多个异常检测算法进行检测的数据集,具体地,实际数据集中的数据为与后续异常监控数据的数据类型相同的历史数据,实际数据集中包含了多个正常数据和多个异常数据。
65.s102、根据实际数据集,生成理论数据集。
66.在该步骤中,实际数据集中的数据均与待监控数据同一业务下的历史业务数据,使得后续待监控数据与筛选算法所采用的数据集中数据分布相同,来分析该分布下不同算法检测异常数据的准确性。进一步地,若直接采用实际数据集对多个异常检测算法进行比较,实际数据集中的异常数据可能存在数据量较少等问题,可能导致最终比较结果不够准确,具有较高的异常误判风险。为了提高多个异常检测算法比较结果的准确性。本技术提出了基于实际数据集来构建理论数据集。其中,理论数据集中包含了多个正常数据,以及基于多个正常数据虚拟出多个异常数据,进而将实际数据集与构建的理论数据集项相结合来对多个异常检测算法进行比较。
67.s103、根据多个异常检测算法、实际数据集和理论数据集,生成多个第一拟合度和多个第二拟合度。
68.在该步骤中,拟合度检验是指对于一个训练好的算法,通过一定的统计方法来验证算法的拟合程度,以确定算法能否能够准确地描述数据的变化规律。只有通过校验算法的拟合度,才能够确定算法的可靠性和适用性。具体地,分别将实际数据集和理论数据集作为输入项,依次输入每个异常检测算法,异常检测算法根据输入的实际数据集输出检测实际数据集中异常数据的第一拟合度,同时,根据输入的理论数据集输出检测理论数据集中异常数据的第二拟合度。进而将多个第一拟合度和多个第二拟合度相结合作为最优异常检测算法的依据。
69.通过上述方式,得到不同异常检测算法对于实际数据集与理论数据集的异常点的预测准确度,进而提高异常检测算法评估结果的稳健性。
70.s104、根据多个第一拟合度和多个第二拟合度,在多个异常检测算法中,确定目标异常检测算法。
71.在该步骤中,由于实际数据集与理论数据集中的数据分布与后续待监控数据的数据分布相同,因此,将多个第一拟合度和多个第二拟合度进行比较,进而在多个异常检测算法中,选出第一拟合度和第二拟合度均较高的异常检测算法,作为最终的目标异常检测算法。使得选中的目标异常检测算法与待监控数据的数据分布适配度最高,能够保证后续数据监控的准确性。
72.可选地,多个异常检测算法包括以下至少一个:稳健协方差算法、单分类支持向量机算法、孤立森林算法和局部异常因子算法。具体地,稳健协方差算法将远离高斯分布的数据点判定为异常点,具体地,给出中心位置和协方差矩阵估计后,通过异常点到中心位置的马氏距离决定异常概率。然而,利用稳健协方差算法的合群数据需要证明符合高斯分布,否则可能出现欠拟合。进一步地,对于高维度,可能存在多个合群聚集,且无法对合群数据分布做出高斯分布假设的数据,因此,在多个合群聚集情况下,单分类支持向量机算法比稳健协方差算法有优势。此外,对于较为复杂的合群点边界,孤立森林的拟合能力强于稳健协方差算法和单分类支持向量机算法。通过上述内容可知,对于不同业务下不同数据分布的业务数据来说,采用不同异常检测算法对于最终异常数据的检测结果各不相同,因此,可以基于待监控数据的数据分布特征对多个异常检测算法进行评估,选择准确率较高的算法作为最终异常检测算法。进一步地,还可以根据业务需求添加其他异常检测算法,提高异常检测算法评估的实用性和灵活性,提高最终确定的目标异常检测算法与待监控数据的匹配度。
73.本技术实施例提供的异常检测算法确定方法,获取与待监控数据相同数据分布的实际数据集,基于实际数据集生成包含理论异常数据的理论数据集,进而分别将实际数据集和理论数据集输入至每个异常检测算法,得出每个异常检测算法检测实际数据集中异常数据的第一拟合度和检测理论数据集中异常数据的第二拟合度。最终,基于多个第一拟合度和多个第二拟合度的排序结果对多个异常检测算法进行评估,以确定最佳异常检测算法。相较于现有技术中,采用同一异常检测算法进行数据监控,单一的异常检测算法无法适用不同数据分布下的业务数据,导致数据异常检测结果的准确性较低的技术问题,本技术基于待监控数据的数据分布特征对多个异常检测算法进行评估,选择准确率较高的算法作为最终异常检测算法,使得最终异常检测算法与待监控数据的适配度最高,以提高异常检测算法检测异常数据的准确性。
74.进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,本技术实施例提供了另一种异常检测算法确定方法,如图2所示,该方法包括:
75.s201、根据待检测数据,确定多个历史数据。
76.在该步骤找那个,待检测数据为后续利用异常检测算法所要监控的数据,根据待检测数据,确定与待检测数据相同数据分布的大量历史数据。具体地,多个历史数据为已经异常检测过的业务数据。由于待检测数据与多个历史数据的数据分布相同,使得最终选择的异常检测算法与后续监控数据的数据分布的适配度最高,确保后续异常数据监控的准确性。
77.在实际应用中,待检测数据可以为医疗数据,具体地,对医疗数据的异常检测可以是医疗数据审核流程中的一个或多个流程节点,可由流程节点的流转自动触发医疗数据的异常检测程序。待检测医疗数据即异常检测请求指向的、请求检测的医疗数据。医疗数据包
括但不限于:当次就诊类型、诊疗项目标识、就诊时间、诊断结果、用药情况、诊疗金额、用药金额等。具体地,有些慢性病人的就诊类型、诊疗项目标识、就诊时间、用药时间、金额等医疗数据具有一定规律,且轻易不会打破这种规律,这种规律与病种相关,也与病人的具体情况相关,若这种规律被打破,极有可能出现了医保卡异常使用的情况。在对医疗服务系统的医疗数据进行异常检测之前,收集医疗服务系统中三个月内的一万条历史访问数据,进而根据这一万条历史数据生成评估异常检测算法的实际数据集。
78.s202、对多个历史数据进行数据清洗,剔除错误数据。
79.在该步骤中,实际数据集内数据质量的高低,决定了异常检测算法评估结果的准确性。因此,在收集多个历史数据后,对多个历史数据进行数据降噪、清洗以及筛选等一系列操作,来剔除多个历史数据中的错误数据,避免后续异常检测算法运算过程中出现过拟合等问题。
80.在实际应用中,历史数据可以为患者在医院治疗疾病过程中产生的未经处理的数据,包括参保人信息,诊断信息,药品信息,手术信息,费用结算信息,医生和医院信息等。具体地,服务器从各个医院获取到目标时间段的历史医疗数据,该目标时间段可以是一个月、一个季度和一年内等。对该历史医疗数据中不完整、不一致或者重复的数据进行处理,即补充不完整的数据,将不一致的数据进行一致性处理,将重复的数据进行删除。然后处理的历史医疗数据进行数据标准化处理或者归一化处理。
81.s203、对清洗后的多个历史数据进行分类,生成多个正常数据和多个异常数据。
82.s204、根据多个正常数据和多个异常数据,生成实际数据集。
83.在步骤s203和s204中,对多个历史数据进行数据清洗剔除错误数据后,多个历史数据为已经检测后的数据,多个历史数据中包含了正常数据和异常数据,进而对多个历史数据中的所有正常数据和所有异常数据进行识别、分类,最终对多个正常数据和多个异常数据进行汇总生成实际数据集。
84.s205、响应于异常检测算法的选择请求,获取选择请求中包括的多个异常检测算法和实际数据集。
85.在该步骤中,异常检测算法用于检测某些显著偏离全体数据实例的异常实例。其中,全体数据指按时间顺序记录的数据序列,点击数据、转化数据、浏览数据和交易数据等都可以列入监控的数据序列。该数据序列中的数据点反映了特定现象、指标、事物等随时间变化的状态或程序。一般来说,这些数据都有固定的波动周期,每个周期的数据变化应该是趋于稳定的,如果某月某周某天的数据不再符合预期的稳定变化,则确定为数据异常。准确的异常检测可以持续地监视、识别并确认数据异常,以针对潜在的事件及时地发出警告。例如医疗服务行业可以通过异常检测算法检测异常数据来实现监视其应用和服务。现有技术中,已实现多种异常检测算法来实现异常检测的功能,然而,这些算法都是基于单一数据分布实现,不同算法在不同的数据集中表现各有优劣,在符合该数据分布的情况下表现良好,而在其他分布下表现较差。为了提高对异常数据监控的准确性,在监控数据之前,预先对多个异常检测算法进行分析,以确定出适配性最高的异常检测算法。
86.具体地,服务器在接收到异常检测算法的选择请求后,获得请求中包括的多个异常检测算法以及实际数据集。具体地,多个异常检测算法可以为目前互联网业务中常用的异常检测算法。实际数据集用于对多个异常检测算法进行检测的数据集,具体地,实际数据
集中的数据为与后续异常监控数据的数据类型相同的历史数据,实际数据集中包含了多个正常数据和多个异常数据。
87.可选地,多个异常检测算法包括以下至少一个:稳健协方差算法、单分类支持向量机算法、孤立森林算法和局部异常因子算法。具体地,稳健协方差算法将远离高斯分布的数据点判定为异常点,具体地,给出中心位置和协方差矩阵估计后,通过异常点到中心位置的马氏距离决定异常概率。然而,利用稳健协方差算法的合群数据需要证明符合高斯分布,否则可能出现欠拟合。进一步地,对于高维度,可能存在多个合群聚集,且无法对合群数据分布做出高斯分布假设的数据,因此,在多个合群聚集情况下,单分类支持向量机算法比稳健协方差算法有优势。此外,对于较为复杂的合群点边界,孤立森林的拟合能力强于稳健协方差算法和单分类支持向量机算法。通过上述内容可知,对于不同业务下不同数据分布的业务数据来说,采用不同异常检测算法对于最终异常数据的检测结果各不相同,因此,可以基于待监控数据的数据分布特征对多个异常检测算法进行评估,选择准确率较高的算法作为最终异常检测算法。进一步地,还可以根据业务需求添加其他异常检测算法,提高异常检测算法评估的实用性和灵活性,提高最终确定的目标异常检测算法与待监控数据的匹配度。
88.s206、根据多个正常数据,确定多个理论异常数据。
89.s207、根据多个正常数据和多个理论异常数据,生成理论数据集。
90.在步骤s206和s207中,实际数据集中包含了大量的正常数据,以及检测出的异常数据,然而,历史数据中的多个异常数据的数据量或多或少,若异常数据的数据量过少,使得实际数据集中异常数据样本较少,进而使得异常检测算法可能无法准确地识别出异常数据,导致异常检测算法对于异常数据的检测结果不够稳定。为了提高异常检测算法的检测结果的稳定性,本技术提出了根据历史数据中的正常数据,设定多个虚拟的异常数据,而这些虚拟出的异常数据为理论上的异常数据,进而根据多个正常数据和设定的多个理论异常数据,构建理论数据集。进而基于实际数据集和理论数据集共同对异常检测算法进行评估。
91.在本技术实施例中,可选地,根据多个正常数据,确定多个理论异常数据的步骤,具体包括:获取多个正常数据的多个距离和预设异常数据量;根据多个距离和预设异常数据数量,生成多个理论异常数据。
92.在该实施例中,获取多个正常数据之间的数据距离,以及预设异常数据量,其中,预设异常数据量为预先根据正常数据的数据量确定的理论异常数据的数据量。进而通过正常数据之间的数据距离以及预先设定的异常数据量,虚拟出多个理论异常数据,避免出现异常数据的数据质量较差、数据较少导致的后续异常检测过程中产生过拟合或梯度消失等问题,有效提高了异常检测算法评估结果的准确性。
93.s208、依次将实际数据集输入多个异常检测算法,生成多个第一拟合度。
94.s209、依次将理论数据集输入多个异常检测算法,生成多个第二拟合度。
95.在步骤s208和s209中,拟合度检验是指对于一个训练好的算法,通过一定的统计方法来验证算法的拟合程度,以确定算法能否能够准确地描述数据的变化规律。只有通过校验算法的拟合度,才能够确定算法的可靠性和适用性。
96.具体地,分别将实际数据集和理论数据集作为输入项,依次输入每个异常检测算法,异常检测算法根据输入的实际数据集输出检测实际数据集中异常数据的第一拟合度,同时,根据输入的理论数据集输出检测理论数据集中异常数据的第二拟合度。进而将多个
第一拟合度和多个第二拟合度相结合作为最优异常检测算法的依据。
97.通过上述方式,得到不同异常检测算法对于实际数据集与理论数据集的异常点的预测准确度,使得异常检测算法选择结果更加准确、可靠。
98.s210、将多个第一拟合度按照从大到小的顺序进行排序。
99.s211、将多个第二拟合度按照从大到小的顺序进行排序。
100.s212、根据排序后的多个第一拟合度和第二拟合度,在多个异常检测算法中,确定第一拟合度最高,且第二拟合度最高的目标异常检测算法。
101.在步骤s210至s212中,将多个异常检测算法检测实际异常数据的多个第一拟合度按照从大到小的顺序进行排序,同时,将多个异常检测算法检测理论异常数据的多个第二拟合度按照从大到小的顺序进行排序。进而在排序后的多个第一拟合度和多个第二拟合度中,确定最高拟合度对应的异常检测算法,将作为最终确定的目标异常检测算法。
102.可选地,若排序后的最高第一拟合度与最高第二拟合度对应的异常检测算法均为同一算法,则直接将该算法作为目标异常检测算法即可。若最高第一拟合度的异常检测算法与最高第二拟合度对应的异常检测算法不同,可生成提示信息发送至运维人员的客户端,以供运维人员基于提示信息评估、选择最佳异常检测算法。同时,运维人员可根据提示信息,对理论异常数据进行修改,或者重新选取多个历史数据,以确保评估数据的质量。
103.进一步地,作为图1所述方法的具体实现,本技术实施例提供了一种异常检测算法确定装置300,如图3所示,该装置包括:
104.获取模块301,用于响应于异常检测算法的选择请求,获取选择请求中包括的多个异常检测算法和实际数据集;
105.第一生成模块302,用于根据实际数据集,生成理论数据集;
106.第二生成模块303,用于根据多个异常检测算法、实际数据集和理论数据集,生成多个第一拟合度和多个第二拟合度;
107.确定模块304,用于根据多个第一拟合度和多个第二拟合度,在多个异常检测算法中,确定目标异常检测算法。
108.可选地,实际数据集包括多个正常数据和多个异常数据,第一生成模块302,具体用于:
109.根据多个正常数据,确定多个理论异常数据;
110.根据多个正常数据和多个理论异常数据,生成理论数据集。
111.可选地,获取模块301,具体还用于获取多个正常数据的多个距离和预设异常数据量。
112.可选地,该装置还包括:
113.第三生成模块305,用于根据多个距离和预设异常数据量,生成多个理论异常数据。
114.可选地,第二生成模块303,具体用于:
115.依次将实际数据集输入多个异常检测算法,生成多个第一拟合度;
116.依次将理论数据集输入多个异常检测算法,生成多个第二拟合度。
117.可选地,确定模块304,具体用于:
118.将多个第一拟合度按照从大到小的顺序进行排序;
119.将多个第二拟合度按照从大到小的顺序进行排序;
120.根据排序后的多个第一拟合度和第二拟合度,在多个异常检测算法中,确定第一拟合度最高,且第二拟合度最高的目标异常检测算法。
121.可选地,确定模块304,具体还用于根据待检测数据,确定多个历史数据。
122.可选地,该装置还包括:
123.清洗模块306,用于对多个历史数据进行数据清洗,剔除错误数据;
124.第四生成模块307,用于对清洗后的多个历史数据进行分类,生成多个正常数据和多个异常数据;
125.第五生成模块308,用于根据多个正常数据和多个异常数据,生成实际数据集。
126.可选地,多个异常检测算法包括以下至少一个:稳健协方差算法、单分类支持向量机算法、孤立森林算法和局部异常因子算法。
127.本技术实施例提供的异常检测算法确定装置300,获取与待监控数据相同数据分布的实际数据集,基于实际数据集生成包含理论异常数据的理论数据集,进而分别将实际数据集和理论数据集输入至每个异常检测算法,得出每个异常检测算法检测实际数据集中异常数据的第一拟合度和检测理论数据集中异常数据的第二拟合度。最终,基于多个第一拟合度和多个第二拟合度的排序结果对多个异常检测算法进行评估,以确定最佳异常检测算法。相较于现有技术中,采用同一异常检测算法进行数据监控,单一的异常检测算法无法适用不同数据分布下的业务数据,导致数据异常检测结果的准确性较低的技术问题,本技术基于待监控数据的数据分布特征对多个异常检测算法进行评估,选择准确率较高的算法作为最终异常检测算法,使得最终异常检测算法与待监控数据的适配度最高,以提高异常检测算法检测异常数据的准确性。
128.在示例性实施例中,本技术还提供了一种电子设备,包括存储器和处理器。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的异常检测算法确定方法。
129.在示例性实施例中,本技术还提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的异常检测算法确定方法的步骤。
130.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本技术可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施场景所述的方法。
131.本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。
132.本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
133.上述本技术序号仅仅为了描述,不代表实施场景的优劣。
134.以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。
技术特征:
1.一种异常检测算法确定方法,其特征在于,包括:响应于异常检测算法的选择请求,获取所述选择请求中包括的多个异常检测算法和实际数据集;根据所述实际数据集,生成理论数据集;根据所述多个异常检测算法、所述实际数据集和所述理论数据集,生成多个第一拟合度和多个第二拟合度;根据所述多个第一拟合度和所述多个第二拟合度,在多个异常检测算法中,确定目标异常检测算法。2.根据权利要求1所述的方法,其特征在于,所述实际数据集包括多个正常数据和多个异常数据,所述根据所述实际数据集,生成理论数据集的步骤,具体包括:根据所述多个正常数据,确定多个理论异常数据;根据所述多个正常数据和所述多个理论异常数据,生成所述理论数据集。3.根据权利要求2所述的方法,其特征在于,所述根据所述多个正常数据,确定多个理论异常数据的步骤,具体包括:获取多个正常数据的多个距离和预设异常数据量;根据所述多个距离和所述预设异常数据量,生成所述多个理论异常数据。4.根据权利要求1所述的方法,其特征在于,所述根据所述多个异常检测算法、所述多实际数据集和所述理论数据集,生成多个第一拟合度和多个第二拟合度的步骤,具体包括:依次将所述实际数据集输入所述多个异常检测算法,生成所述多个第一拟合度;依次将所述理论数据集输入所述多个异常检测算法,生成所述多个第二拟合度。5.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一拟合度和所述多个第二拟合度,在多个检测模型中,确定目标异常检测算法的步骤,具体包括:将所述多个第一拟合度按照从大到小的顺序进行排序;将所述多个第二拟合度按照从大到小的顺序进行排序;根据排序后的所述多个第一拟合度和所述第二拟合度,在所述多个异常检测算法中,确定第一拟合度最高,且第二拟合度最高的目标异常检测算法。6.根据权利要求1所述的方法,其特征在于,还包括:根据待检测数据,确定多个历史数据;对所述多个历史数据进行数据清洗,剔除错误数据;对清洗后的多个历史数据进行分类,生成多个正常数据和多个异常数据;根据所述多个正常数据和所述多个异常数据,生成实际数据集。7.根据权利要求1至6中任一项所述的方法,其特征在于,多个异常检测算法包括以下至少一个:稳健协方差算法、单分类支持向量机算法、孤立森林算法和局部异常因子算法。8.一种异常检测算法确定装置,其特征在于,包括:获取模块,用于响应于异常检测算法的选择请求,获取所述选择请求中包括的多个异常检测算法和实际数据集;第一生成模块,用于根据所述实际数据集,生成理论数据集;第二生成模块,用于根据所述多个异常检测算法、所述实际数据集和所述理论数据集,
生成多个第一拟合度和多个第二拟合度;确定模块,用于根据所述多个第一拟合度和所述多个第二拟合度,在多个异常检测算法中,确定目标异常检测算法。9.一种电子设备,包括存储器和处理器,存储器存储有计算机程序,其特征在于,处理器执行计算机程序时实现权利要求1至7中任一项方法的步骤。10.一种可读存储介质,其上存储有计算机程序,其特征在于,计算机程序被处理器执行时实现权利要求1至7中任一项方法的步骤。
技术总结
本申请公开了一种异常检测算法确定方法、装置、电子设备及存储介质,涉及数据处理领域及数字医疗领域,其中,方法包括:响应于异常检测算法的选择请求,获取选择请求中包括的多个异常检测算法和实际数据集;根据实际数据集,生成理论数据集;根据多个异常检测算法、实际数据集和理论数据集,生成多个第一拟合度和多个第二拟合度;根据多个第一拟合度和多个第二拟合度,在多个异常检测算法中,确定目标异常检测算法。基于待监控数据的数据分布特征对多个异常检测算法进行评估,选择准确率较高的算法作为最终异常检测算法,使得最终异常检测算法与待监控数据的适配度最高,以提高异常检测算法检测异常数据的准确性。算法检测异常数据的准确性。算法检测异常数据的准确性。
技术研发人员:孙奉海
受保护的技术使用者:康键信息技术(深圳)有限公司
技术研发日:2023.07.04
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/