一种基于定制化清单的告警事件数据处理方法及系统与流程

未命名 08-05 阅读:63 评论:0


1.本发明涉及应用拓扑关联分析和系统运维数据处理技术领域,尤其涉及一种基于定制化清单的告警事件数据处理方法及系统。


背景技术:

2.随着多种监控系统和策略的覆盖,当一个问题发生时,往往同一时间产生多种不同的告警,这些告警大多不是问题的根本原因需要进一步人工分析,同时大量相关性告警会产生重复的分析工作量,直接影响告警分析和处理过程。如果完全依赖具有经验的专人依据其掌握的知识进行人工处理,对于大量告警的处理必然消耗大量人力物力,且工作效率低、准确性难以保证。因此,需要对告警进行分类汇聚、自动分析,提供更加有价值的告警分析结果信息,协助提升告警分析速度。
3.现有技术针对这一问题,提出了多种监控告警系统,例如apm、splunk、premetheus、鹰眼等,以及通过应用配置管理平台cmdb管理和跟踪it基础设施中的各种配置项,从而更好地管理和维护it系统。
4.但是,现有技术在实际使用中,仍然存在以下不足:
5.1)同一时间因同一问题产生较多相关性告警时,容易产生较多重复分析工作量,影响工作效率;
6.2)无法对告警进行多维度汇聚收敛并提供按类型汇总展示告警概况;
7.3)无法基于告警数据进行分析以及定位根因告警或服务模块;
8.4)无法对告警进行跨平台数据分析,或提供关联性数据支持。
9.由于以上不足,当时现有技术时会对告警分析过程带来过多重复性工作,影响告警定位的速度和效率。


技术实现要素:

10.为解决现有技术的不足,本发明提出一种基于定制化清单的告警事件数据处理方法及系统,实现了对告警事件的多维度分类和多场景分析任务定制与执行,提供了操作关联性分析、告警关联性分析和跨服务分析等功能,从而减少告警分析人员人工查询操作,提供辅助分析信息,提升告警分析速度。同时,该技术还能够帮助管理人员更好地了解告警状态以及了解系统运行状况,实现告警信息的可视化展示,从而更加有效地管理告警事件,提高系统的可靠性和稳定性。此外,该技术还能够自动化减少告警通知流程,减少人工干预,提高处理效率,降低错误率,能够有效地提高业务系统的运维效率和管理水平。
11.为实现以上目的,本发明所采用的技术方案包括:
12.一种基于定制化清单的告警事件数据处理方法,其特征在于,包括:
13.s1、接收告警信息,对告警信息执行预设的数据预处理生成对应的告警事件;
14.s2、依据告警事件,提取告警对象和告警源,依据告警对象和告警源执行第一类型划分操作,并依据第一类型划分操作结果对告警事件添加第一类型标签,所述第一类型标
签包括服务异常、中间件异常和业务异常;
15.s3、依据告警源获取告警事件对应的原始告警数据,依据原始告警数据执行第二类型划分操作,并依据第二类型划分操作结果对告警事件添加第二类型标签,所述第二类型标签包括状态异常、请求异常和内部异常;
16.s4、依据告警对象识别与告警事件相关的有关服务,依据有关服务执行操作影响分析,并依据操作影响分析对告警事件添加关联性标签;
17.s5、使用第一类型标签、第二类型标签和关联性标签生成任务清单,所述任务清单包括具备相同第一类型标签的告警事件分析组合和具备相同第二类型标签的告警事件分析组合,以及具有相同关联性标签的告警事件关联组合;
18.s6、依据任务清单调用告警信息分析任务,依据告警信息分析任务生成结果调整任务清单;
19.s7、依据调整后的任务清单执行告警信息分析操作。
20.进一步地,所述步骤s6包括:
21.依据第一类型标签的告警事件分析组合,分别调用操作影响分析任务;
22.依据第二类型标签的告警事件分析组合,分别调用异常调用链分析任务;
23.依据告警事件关联组合,分别调用关联告警分析任务。
24.进一步地,所述操作影响分析包括变更对象分析、变更状态分析和变更时间分析中的任意一种或多种组合。
25.进一步地,所述异常调用链分析包括异常请求分析和关键服务异常调用分析。
26.进一步地,所述关联告警分析包括告警日志关键信息分析和动态告警关联分析。
27.进一步地,所述方法还包括:
28.依据告警信息分析的输出结果,修订任务清单。
29.本发明还涉及一种基于定制化清单的告警事件数据处理系统,其特征在于,包括:
30.信息预处理模块,用于对告警信息执行预设的数据预处理生成对应的告警事件;
31.第一类型划分模块,用于依据告警事件,提取告警对象和告警源,依据告警对象和告警源执行第一类型划分操作,并依据第一类型划分操作结果对告警事件添加第一类型标签;
32.第二类型划分模块,用于依据告警源获取告警事件对应的原始告警数据,依据原始告警数据执行第二类型划分操作,并依据第二类型划分操作结果对告警事件添加第二类型标签;
33.关联性分析模块,用于依据告警对象识别与告警事件相关的有关服务,依据有关服务执行操作影响分析,并依据操作影响分析对告警事件添加关联性标签;
34.清单生成模块,用于使用第一类型标签、第二类型标签和关联性标签生成任务清单;
35.清单调整模块,用于依据任务清单调用告警信息分析任务,依据告警信息分析任务生成结果调整任务清单;
36.分析执行模块,用于依据调整后的任务清单执行告警信息分析操作。
37.本发明还涉及一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法。
38.本发明还涉及一种电子设备,其特征在于,包括处理器和存储器;
39.所述存储器,用于存储告警信息、告警事件和任务清单;
40.所述处理器,用于通过调用告警信息、告警事件和任务清单,执行上述的方法。
41.本发明还涉及一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现上述方法的步骤。
42.本发明的有益效果为:
43.采用本发明所述基于定制化清单的告警事件数据处理方法及系统,实现了对告警事件的多维度分类和多场景分析任务定制与执行,并基于告警类型实现多场景分析任务的定制与执行,为告警分析人员提供实际分析数据支持,提供了关联性分析、告警关联性分析和跨服务分析等功能,从而减少告警分析人员人工查询操作,提供辅助分析信息,提升告警分析速度。同时,通过关联其依赖的中间件服务相关告警,增加相关性告警的联系,减少告警分析时间,还能够帮助管理人员更好地了解告警状态以及了解系统运行状况,实现告警信息的可视化展示,实现跨服务告警分析,从服务整体角度分析告警,避免告警服务信息孤岛,从而更加有效地管理告警事件,提高系统的可靠性和稳定性。此外,该技术还能够自动化告警处理流程,减少人工干预,提高处理效率,降低错误率,能够有效地提高业务系统的运维效率和管理水平。
附图说明
44.图1为本发明基于定制化清单的告警事件数据处理方法流程示意图。
45.图2为本发明基于定制化清单的告警事件数据处理系统结构示意图。
具体实施方式
46.为了更清楚的理解本发明的内容,将结合附图和实施例详细说明。
47.本发明第一方面涉及一种步骤流程如图1所示的基于定制化清单的告警事件数据处理方法,包括:
48.s1、接收告警信息,对告警信息执行预设的数据预处理生成对应的告警事件。
49.例如,接收各告警源发送的各种类型的告警,进行数据与格式统一处理,作为告警事件。针对告警事件,进行告警对象匹配、告警源数据提取以及类型分析。其中告警对象匹配规则基于固定的告警来源以及上报对象信息与cmdb数据进行匹配,主要围绕于具体服务的部署单元作为核心,用以向上关联产品和业务,向下关联其依赖的中间件和基础设备。在将所有数据转换为相同的格式或结构后,需要对其进行聚合。这意味着将来自不同告警源的数据汇总到一起,并且根据特定的规则进行分组和分类。
50.s2、依据告警事件,提取告警对象和告警源,依据告警对象和告警源执行第一类型划分操作,并依据第一类型划分操作结果对告警事件添加第一类型标签,所述第一类型标签依据告警来源和告警信息进行初步划分,包括服务异常、中间件异常和业务异常。
51.具体的,对于告警对象,在接收到各种类型的告警后,首先需要确定这些告警属于哪个具体的设备或系统,通常情况下,在系统中会维护一个设备清单和对应关系表来帮助实现自动化匹配。
52.对于告警源,在确定了告警对象后,需要从告警源中提取有关该设备的相关数据。
这些数据通常包括设备名称、ip地址、端口号等信息。优选的,可以通过相应的程序来解析各种不同类型的告警,并从中提取所需信息。
53.s3、依据告警源获取告警事件对应的原始告警数据,依据原始告警数据执行第二类型划分操作,并依据第二类型划分操作结果对告警事件添加第二类型标签,所述第二类型标签包括状态异常、请求异常和内部异常。
54.其中,优先根据告警源头提炼原始告警数据,第二类型标签中,状态异常通常来自于zabbix,prometheus等系统,可以附加对其进行关联性分析;请求异常主要来自于交易监控或请求监控,主要对其分析相关请求调用链;内部异常较为复杂,如日志报错监控,需要对其进行二次提炼获得关键报错尝试将其划分到明确的状态异常或请求异常中再行分析。
55.s4、依据告警对象识别与告警事件相关的有关服务,依据有关服务执行操作影响分析,并依据操作影响分析对告警事件添加关联性标签。特别是,根据告警类型,执行基于应用拓扑的关联影响性分析并辅助进行跨服务的异常调用链分析。
56.s5、使用第一类型标签、第二类型标签和关联性标签生成任务清单,所述任务清单包括具备相同第一类型标签的告警事件分析组合和具备相同第二类型标签的告警事件分析组合,以及具有相同关联性标签的告警事件关联组合。
57.s6、依据任务清单调用告警信息分析任务,依据告警信息分析任务生成结果调整任务清单。具体的,可以依序或以需要异步的执行下列操作:依据第一类型标签的告警事件分析组合,分别调用操作影响分析任务,包括变更对象分析、变更状态分析和变更时间分析中的任意一种或多种组合;依据第二类型标签的告警事件分析组合,分别调用异常调用链分析任务,包括异常请求分析和关键服务异常调用分析;依据告警事件关联组合,分别调用关联告警分析任务,包括告警日志关键信息分析和动态告警关联分析。
58.优选的,用户可以选择对于信息分析的输出结果进行检查,并根据检查结果修订任务清单,从而获得效率更高、更加准确的告警信息分析过程。
59.优选的,分析工作可以通过任务执行引擎进行处理,该任务执行引擎,可以依据任务清单,执行任务,并根据前一个任务的执行结果,判断是否执行后续任务或者会对同类型的分析任务进行替换,最终汇总整合所有分析数据,展示给告警分析。
60.s7、依据调整后的任务清单执行告警信息分析操作。
61.具体的,对于异常请求分析,通过交易流水号,前往apm应用性能系统,查询并获取到有问题的交易调用链,分析调用链的异常节点(请求失败、请求耗时较大),然后根据算法规则进行汇总培训,推荐出优选的异常节点,将该信息推荐给告警分析人;对于关键服务异常调用分析,基于交易监控系统,以及基于交易系统生成的服务上下游关键调用链路。当告警需要分析时,我们根据告警对象所在服务,查到其对应的关键上下游,分别检查其之间的交易调用是否存在异常,判断规则为通过服务的请求成功率、交易耗时、调用量等指标对比其最近一段时间的平均数值作为动态阈值,找到异常服务节点。将该分析结果推送告警分析人。对于告警日志关键信息分析,当日志告警产生时,系统会根据告警规则,关联日志系统获取到具体的报错内容,然后对告警内容进行数据分析,提炼关键告警报错信息,以及后续分析可能会需要的内容(如报错码、业务码、交易流水号等),对比关键报错信息,与已经维护好的匹配规则,可以将大部分告警进一步划分到状态异常或者请求异常,为下一步分析提供前期数据支持;对于动态告警关联分析,需要依据其告警对象以及告警级别进行告
警标记,当新告警需要分析时,系统会根据cmdb的对象关联关系,排查告警对象依赖的cmdb对象是否有阻断性的告警,如果有则将其依赖关系以及该阻断性的告警推送告警分析人。
62.以一种告警根因综合分析为例,上述方法的具体执行可以包括如下步骤:
63.1)告警数据统一处理以及分类汇总收集。首先收到原始告警,对告警内容进行分类。提炼告警对象信息syscode、appname、hostname,告警源信息checker,告警级别alermlevel,告警分类:classname。将需要分析的告警信息推送到告警分析任务队列。
64.2)告警类型二次分析,生成定制化任务分析清单。本系统从消息队列中,获取到分析任务。基于告警源和告警内容,提取到原始告警数据,对告警数据进行二次分析,分析得到明确的告警类型。并根据以上信息,生成详细分析任务。分析举例:日志类告警在该步骤提炼到关键报错信息,确认告警类型为请求异常,并提炼获取到了交易流水号。则该告警分析任务初步为:1.查询告警服务是否涉及变更2.查询告警服务依赖的基础服务是否有阻断级告警3.根据提炼到的交易流水号,查询异常调用链
65.3)执行分析任务,并动态调整任务清单。从消息队列中获取到具体的分析任务和告警内容,执行分析任务。单个任务执行完成后,将分析结果数据保存入库后,推动给任务引擎。任务引擎,根据之前的分析结果,判断是否继续执行后续任务或者替换同类型其他分析任务。分析举例:在根据交易流水号任务执行完成后,分析结果未匹配到有效的异常调用链;任务引擎判断该分析任务无效,需要执行替代性分析任务,因此执行基于上下游的关键服务的异常调用分析。
66.本发明另一方面还涉及一种基于定制化清单的告警事件数据处理系统,其结构如图2所示,包括:
67.第一类型划分模块,用于依据告警事件,提取告警对象和告警源,依据告警对象和告警源执行第一类型划分操作,并依据第一类型划分操作结果对告警事件添加第一类型标签;
68.第二类型划分模块,用于依据告警源获取告警事件对应的原始告警数据,依据原始告警数据执行第二类型划分操作,并依据第二类型划分操作结果对告警事件添加第二类型标签;
69.关联性分析模块,用于依据告警对象识别与告警事件相关的有关服务,依据有关服务执行操作影响分析,并依据操作影响分析对告警事件添加关联性标签;
70.清单生成模块,用于使用第一类型标签、第二类型标签和关联性标签生成任务清单;
71.清单调整模块,用于依据任务清单调用告警信息分析任务,依据告警信息分析任务生成结果调整任务清单;
72.分析执行模块,用于依据调整后的任务清单执行告警信息分析操作。
73.通过使用该系统,能够执行上述的运算处理方法并实现对应的技术效果。
74.本发明的实施例还提供能够实现上述实施例中的方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的方法的全部步骤。
75.本发明的实施例还提供一种用于执行上述方法的电子设备,作为该方法的实现装置,所述电子设备至少具备有处理器和存储器,特别是该存储器上存储有执行方法所需的
数据和相关的计算机程序,例如告警信息、告警事件和任务清单等,并通过由处理器调用存储器中的数据、程序执行实现方法的全部步骤,并获得对应的技术效果。
76.优选的,该电子设备可以包含有总线架构,总线可以包括任意数量的互联的总线和桥,总线将包括由一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和接收器和发送器之间提供接口。接收器和发送器可以是同一个元件,即收发机,提供用于在传输介质上与各种其他系统通信的单元。处理器负责管理总线和通常的处理,而存储器可以被用于存储处理器在执行操作时所使用的数据。
77.额外的,所述电子设备还可以进一步包括通信模块、输入单元、音频处理器、显示器、电源等部件。其所采用的处理器(或称为控制器、操作控件)可以包括微处理器或其他处理器装置和/或逻辑装置,该处理器接收输入并控制电子设备的各个部件的操作;存储器可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种,可储存上述有关的数据信息,此外还可存储执行有关信息的程序,并且处理器可执行该存储器存储的该程序,以实现信息存储或处理等;输入单元用于向处理器提供输入,例如可以为按键或触摸输入装置;电源用于向电子设备提供电力;显示器用于进行图像和文字等显示对象的显示,例如可为lcd显示器。通信模块即为经由天线发送和接收信号的发送机/接收机。通信模块(发送机/接收机)耦合到处理器,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)还经由音频处理器耦合到扬声器和麦克风,以经由扬声器提供音频输出,并接收来自麦克风的音频输入,从而实现通常的电信功能。音频处理器可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器还耦合到中央处理器,从而使得可以通过麦克风能够在本机上录音,且使得可以通过扬声器来播放本机上存储的声音。
78.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
79.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
80.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
81.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
82.以上所述仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

技术特征:
1.一种基于定制化清单的告警事件数据处理方法,其特征在于,包括:s1、接收告警信息,对告警信息执行预设的数据预处理生成对应的告警事件;s2、依据告警事件,提取告警对象和告警源,依据告警对象和告警源执行第一类型划分操作,并依据第一类型划分操作结果对告警事件添加第一类型标签,所述第一类型标签包括服务异常、中间件异常和业务异常;s3、依据告警源获取告警事件对应的原始告警数据,依据原始告警数据执行第二类型划分操作,并依据第二类型划分操作结果对告警事件添加第二类型标签,所述第二类型标签包括状态异常、请求异常和内部异常;s4、依据告警对象识别与告警事件相关的有关服务,依据有关服务执行操作影响分析,并依据操作影响分析对告警事件添加关联性标签;s5、使用第一类型标签、第二类型标签和关联性标签生成任务清单,所述任务清单包括具备相同第一类型标签的告警事件分析组合和具备相同第二类型标签的告警事件分析组合,以及具有相同关联性标签的告警事件关联组合;s6、依据任务清单调用告警信息分析任务,依据告警信息分析任务生成结果调整任务清单;s7、依据调整后的任务清单执行告警信息分析操作。2.如权利要求1所述的方法,其特征在于,所述步骤s6包括:依据第一类型标签的告警事件分析组合,分别调用操作影响分析任务;依据第二类型标签的告警事件分析组合,分别调用异常调用链分析任务;依据告警事件关联组合,分别调用关联告警分析任务。3.如权利要求2所述的方法,其特征在于,所述操作影响分析包括变更对象分析、变更状态分析和变更时间分析中的任意一种或多种组合。4.如权利要求2所述的方法,其特征在于,所述异常调用链分析包括异常请求分析和关键服务异常调用分析。5.如权利要求2所述的方法,其特征在于,所述关联告警分析包括告警日志关键信息分析和动态告警关联分析。6.如权利要求1所述的方法,其特征在于,所述方法还包括:依据告警信息分析的输出结果,修订任务清单。7.一种基于定制化清单的告警事件数据处理系统,其特征在于,包括:信息预处理模块,用于对告警信息执行预设的数据预处理生成对应的告警事件;第一类型划分模块,用于依据告警事件,提取告警对象和告警源,依据告警对象和告警源执行第一类型划分操作,并依据第一类型划分操作结果对告警事件添加第一类型标签;第二类型划分模块,用于依据告警源获取告警事件对应的原始告警数据,依据原始告警数据执行第二类型划分操作,并依据第二类型划分操作结果对告警事件添加第二类型标签;关联性分析模块,用于依据告警对象识别与告警事件相关的有关服务,依据有关服务执行操作影响分析,并依据操作影响分析对告警事件添加关联性标签;清单生成模块,用于使用第一类型标签、第二类型标签和关联性标签生成任务清单;清单调整模块,用于依据任务清单调用告警信息分析任务,依据告警信息分析任务生
成结果调整任务清单;分析执行模块,用于依据调整后的任务清单执行告警信息分析操作。8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。9.一种电子设备,其特征在于,包括处理器和存储器;所述存储器,用于存储告警信息、告警事件和任务清单;所述处理器,用于通过调用告警信息、告警事件和任务清单,执行权利要求1至6中任一项所述的方法。10.一种计算机程序产品,包括计算机程序和/或指令,其特征在于,该计算机程序和/或指令被处理器执行时实现权利要求1至6中任一项所述方法的步骤。

技术总结
本发明涉及一种基于定制化清单的告警事件数据处理方法及系统,通过对告警信息特性分析生成任务清单,实现了对告警事件的多维度分类和多场景分析任务定制与执行,提供了操作关联性分析、告警关联性分析和跨服务分析等功能,从而减少告警分析人员人工查询操作,提供辅助分析信息,提升告警分析速度。同时,该技术还能够帮助管理人员更好地了解告警状态以及了解系统运行状况,实现告警信息的可视化展示,从而更加有效地管理告警事件,提高系统的可靠性和稳定性。此外,该技术还能够自动化减少告警通知流程,减少人工干预,提高处理效率,降低错误率,能够有效地提高业务系统的运维效率和管理水平。率和管理水平。率和管理水平。


技术研发人员:许城
受保护的技术使用者:中信百信银行股份有限公司
技术研发日:2023.05.10
技术公布日:2023/8/4
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐