异常日志检测方法、装置、电子设备和可读存储介质与流程

未命名 10-08 阅读:85 评论:0


1.本技术涉及数据处理技术领域,具体而言,本技术涉及一种异常日志检测方法、装置、电子设备和可读存储介质。


背景技术:

2.现代网络系统在运行过程中会产生海量的日志数据,日志数据记录着系统运行期间的详细事件信息。日志文件在监控网络情况、检查硬件故障、保护软件安全等方面起着重要作用,被用作系统异常检测的主要数据源。
3.异常日志关键信息指仅在异常日志中出现的词或短语,对判断日志是否异常起着重要的作用。现有的异常日志关键信息提取的主流方法有tf-idf(term frequency-inverse document frequency,词频-逆文本频率指数)和专家经验构建关键词库两类。这两类方法均存在关键词错标漏标的问题,影响异常日志检测准确性。因此,亟需提供一种提高异常日志检测准确率的异常日志检测方案。


技术实现要素:

4.本技术的目的旨在至少能解决上述的技术缺陷之一,本技术实施例所提供的技术方案如下:
5.第一方面,本技术实施例提供了一种异常日志检测方法,包括:
6.将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;其中,异常候选日志集包括待检测日志集中匹配失败的日志,第二正常日志集包括第一正常日志集中的正常日志和待检测日志集中匹配成功的日志;
7.对异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据异常候选日志词集和正常日志词集的差集,确定关键词集;
8.将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志。
9.在本技术的一种可选实施例中,根据异常候选日志词集和正常日志词集的差集,确定关键词集,具体包括:
10.过滤异常候选日志词集和正常日志词集的差集中的非目标语言词,确定目标语言差集;
11.获取目标语言差集中各词的词向量,并根据各词向量的空间分布密度对各词进行聚类处理,得到至少一个词聚类簇;
12.删除各词聚类簇中特定词对应的词聚类簇,根据剩余的词聚类簇获取关键词集。
13.在本技术的一种可选实施例中,将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,具体包括:
14.分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库;
15.对于待检测日志模板库中每一待检测日志模板,将待检测日志模板与正常日志模板库比对,若正常日志模板库存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配成功,若正常日志模板库不存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配失败。
16.在本技术的一种可选实施例中,分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库,具体包括:
17.对于第一正常日志集和待检测日志集中的任一日志集,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,预处理包括过滤处理和/或替换处理;
18.根据各预处理后的日志文本构建任一日志集对应的初始日志模板库,并对初始日志模板迭代执行以下操作,直至初始日志模板库中各日志文本对对应的相似度都小于对应的预设阈值,得到任一日志集对应的日志模板集:
19.获取初始日志模板库中各日志文本对对应的相似度;
20.将各日志文本对中对应的相似度不小于预设阈值的日志文本对进行合并,得到合并日志文本,并利用合并日志文本替换初始日志模板库中合并日志文本对应的文本对;
21.其中,不同日志文本对所包含的日志文本不同。
22.在本技术的一种可选实施例中,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,具体包括:
23.删除日志文本中词频小于第一预设词频的词,并将日志文本中词频不小于第一预设词频且小于第二预设词频的词替换为预设字符;
24.其中,第一预设词频阈值小于第二词频阈值。
25.在本技术的一种可选实施例中,将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志,具体包括:
26.对于异常候选日志集中每一异常候选日志,将异常候选日志与关键词集中的各关键词进行匹配,若异常候选日志中包含有关键词集中的任一词,则确定异常候选日志为异常日志。
27.在本技术的一种可选实施例中,在将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志的步骤之后,还包括:
28.每间隔预设时间周期统计异常日志出现的频次;
29.将出现频次大于预设频次阈值且并未被运维人员处理的异常日志,划归为目标正常日志;
30.将目标正常日志对应的模板数据由异常日志模板库移至正常日志模板库中,并将目标正常日志在关键词集中对应的关键词移除;其中,异常日志模板库根据异常日志对应的模板建立。
31.第二方面,本技术实施例提供了一种异常日志检测装置,包括:
32.日志匹配分类模块,用于将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;其中,异常候选日志集包括待
检测日志集中匹配失败的日志,第二正常日志集包括第一正常日志集中的正常日志和待检测日志集中匹配成功的日志;
33.关键词集确定模块,用于对异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据异常候选日志词集和正常日志词集的差集,确定关键词集;
34.异常日志检测模块,用于将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志。
35.在本技术的一种可选实施例中,关键词集确定模块具体用于:
36.过滤异常候选日志词集和正常日志词集的差集中的非目标语言词,确定目标语言差集;
37.获取目标语言差集中各词的词向量,并根据各词向量的空间分布密度对各词进行聚类处理,得到至少一个词聚类簇;
38.删除各词聚类簇中特定词对应的词聚类簇,根据剩余的词聚类簇获取关键词集。
39.在本技术的一种可选实施例中,日志匹配分类模块具体用于:
40.分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库;
41.对于待检测日志模板库中每一待检测日志模板,将待检测日志模板与正常日志模板库比对,若正常日志模板库存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配成功,若正常日志模板库不存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配失败。
42.在本技术的一种可选实施例中,日志匹配分类模块具体用于:
43.对于第一正常日志集和待检测日志集中的任一日志集,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,预处理包括过滤处理和/或替换处理;
44.根据各预处理后的日志文本构建任一日志集对应的初始日志模板库,并对初始日志模板迭代执行以下操作,直至初始日志模板库中各日志文本对对应的相似度都小于对应的预设阈值,得到任一日志集对应的日志模板集:
45.获取初始日志模板库中各日志文本对对应的相似度;
46.将各日志文本对中对应的相似度不小于预设阈值的日志文本对进行合并,得到合并日志文本,并利用合并日志文本替换初始日志模板库中合并日志文本对应的文本对;
47.其中,不同日志文本对所包含的日志文本不同。
48.在本技术的一种可选实施例中,日志匹配分类模块具体用于:
49.删除日志文本中词频小于第一预设词频的词,并将日志文本中词频不小于第一预设词频且小于第二预设词频的词替换为预设字符;
50.其中,第一预设词频阈值小于第二词频阈值。
51.在本技术的一种可选实施例中,异常日志检测模块具体用于:
52.对于异常候选日志集中每一异常候选日志,将异常候选日志与关键词集中的各关键词进行匹配,若异常候选日志中包含有关键词集中的任一词,则确定异常候选日志为异常日志。
53.在本技术的一种可选实施例中,异常日志检测装置还包括数据迭代更新模块;数据迭代更新模块具体用于:
54.每间隔预设时间周期统计异常日志出现的频次;
55.将出现频次大于预设频次阈值且并未被运维人员处理的异常日志,划归为目标正常日志;
56.将目标正常日志对应的模板数据由异常日志模板库移至正常日志模板库中,并将目标正常日志在关键词集中对应的关键词移除;其中,异常日志模板库根据异常日志对应的模板建立。
57.第三方面,本技术实施例提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述任一实施例所提供的异常日志检测方法的步骤。
58.第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例所提供的异常日志检测方法。
59.本技术实施例提供的技术方案带来的有益效果是:
60.通过对待检测日志集和正常日志集的比对,对异常候选日志和正常日志进行初步区分,进而降低后续异常日志检测时所需处理的数据复杂程度,有效提高检测的效率,并提高检测准确性。对异常候选日志和正常日志进行分词,分别确定异常候选日志词集和正常日志词集,并考虑关键信息在异常日志中的唯一性,计算异常候选日志词集和正常日志词集的差集,确定候选关键词集,解决现有技术关键词错标漏标的问题。根据异常候选日志和关键词集是否能够匹配,确定目标异常日志,能够有效提高异常日志检测的准确性。
附图说明
61.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
62.图1为本技术实施例提供的一种异常日志检测方法的流程示意图;
63.图2为本技术实施例一个示例中的关键词集确定方法流程示意图;
64.图3为本技术实施例一个示例中的日志模板提取方法示意图;
65.图4为本技术实施例一个示例中的日志异常检测方法示意图;
66.图5为本技术实施例一个示例中的异常日志检测业务流程示意图;
67.图6为本技术实施例提供的一种异常日志检测装置的结构示意图;
68.图7为本技术实施例提供的一种异常日志检测的电子设备的结构示意图。
具体实施方式
69.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
70.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件
和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”可以实现为“a”,或者实现为“b”,或者实现为“a和b”。
71.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
72.日志异常检测的一般框架主要包括四个步骤:日志收集、日志解析、特征提取和异常检测。其中,日志解析和异常检测方法是关键技术。
73.1、日志解析
74.日志文本一般是非结构化的自由格式的文本。日志解析旨在从无结构的日志中提取事件模板,对原始日志进行结构化。更具体地说,可以将每条日志消息解析为带有特定参数(变量部分)的事件模板(常量部分)。例如,类似“2021-11-0920:21:35received block blk_321ofsize 67108864from/10.251.126.5”的日志可以解析出事件模板“received block*ofsize*from*”。
75.spell(a structured streaming parser for event logs using an lcs(longest common subsequence),基于lcs的在线流处理日志解析方法)和drain(a structured streaming parser for event logs using an lcs(longest common subsequence),基于固定深度树的在线日志解析方法)是两种广泛应用的日志解析方法,是目前日志模板提取的主流方法。
76.spell利用最长的公共子序列算法(lcs)以流方式解析日志,首次解决了日志模板的在线提取问题。spell算法使用前缀树划分日志集群,在计算文本相似度和事件生成时使用最长公共子序列算法(lcs),但没有限制前缀树的深度,lcs容易导致过度分区,在事件较多的日志集中也存在准确度不高的情况,计算效率偏慢。
77.drain是一种基于固定深度树的在线日志解析器,该方法通过对专门设计的解析规则进行编码,对预处理后的日志寻找一个日志组的叶子节点,遵循树的内部节点中编码的规则,确定所属分组。drain算法使用结合日志长度的固定深度树来表示日志消息,然而没有考虑细粒度日志的存在,在事件等长占比率低、事件数较多的日志集中存在解析准确度不高的情况。
78.此外,spell和drain两者对于小数据量(比如单条日志里的低频词、ip及数字等)处理效果不佳,无法有效提取模板。
79.2、异常检测
80.异常检测算法根据是否有带标注的训练数据分为有监督异常检测和无监督异常检测。常见的监督方法有逻辑回归、决策树和支持向量机(support vector machine,svm)等。无监督的异常检测方法包括各种聚类方法、关联规则挖掘和主成分分析(principalcomponents analysis,pca)等。例如,logcluster(基于密度的事件日志数据聚类算法)方法通过聚类日志来识别在线异常;deeplog使用基于长短时记忆网络(long short-term memory,lstm)的深度学习模型对系统日志进行建模并进行异常检测。
81.异常日志关键信息提取,是判断日志是否异常的关键步骤。现有的异常关键信息提取方法主要有tf-idf和专家经验两类。
82.tf-idf是信息检索领域常用的一种加权方法,用于评估一个词对一组文件中的某一份文件的重要程度。它的基本思想是一个词对于一份文件的重要程度与其在此文件中出现的次数成正比,同时与这个词在所有文件中出现的次数成反比。tf-idf该方法需要对每个词语进行词频统计,严重影响提取效率。此外,该方法可能将低频词错选为关键词而影响提取准确率,且提取的关键词,在正常日志及异常日志中都有可能出现,无法作为判别日志是否异常的依据。
83.专家经验则是依靠运维专家多年的经验和知识构建异常关键词库进行异常检测,由于是基于人为的规则匹配,受限于需要大量的专业知识,对开发人员的经验和知识具有很强的依赖性,对普通的运维人员并不友好,不仅难以适用于通用的日志异常检测系统,而且受限于专家经验及系统日志类型,还存在漏标错标的问题。
84.上述两类方法均存在关键词错标漏标的问题,影响异常日志检测准确性,并且灵活性差,不具备扩展性。
85.针对相关技术中所存在的上述至少一个技术问题或需要改善的地方,本技术提出一种异常日志检测方法方案。
86.下面通过对几个示例性实施方式的描述,对本技术实施例的技术方案以及本技术的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
87.图1为本技术实施例提供的一种异常日志检测方法的流程示意图,如图1所示,本技术实施例中提供了一种异常日志检测方法,包括:
88.步骤s101,将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;其中,异常候选日志集包括待检测日志集中匹配失败的日志,第二正常日志集包括第一正常日志集中的正常日志和待检测日志集中匹配成功的日志。
89.其中,第一正常日志集可通过网络系统在运行过程中产生的历史日志数据中的正常日志数据获取。
90.具体的,采取将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配的方式,对待检测日志进行初步区分,进而减少后续异常日志检测时所需处理的数据量,提高检测速率。
91.匹配完成后,将待检测日志集中与正常日志匹配失败的日志组成异常候选日志集。将待检测日志集中与正常日志匹配成功的日志,以及第一正常日志集中原本包含的正常日志,共同组成第二正常日志集。
92.可以理解的是,本实施例中将待检测日志和正常日志进行匹配可以通过日志模板的提取和比对实现,例如采用基于聚类的日志模式解析算法、基于频繁项挖掘的日志模式解析算法和基于启发的日志模式解析算法等算法实现日志模板的提取,根据模板间的相似性或者日志模板是否在日志文本中出现等方式实现比对。具体的匹配方法可根据实际需求进行设置,本发明对此不做限定。
93.步骤s102,对异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据异常候选日志词集和正常日志词集的差集,确定关键词集。
94.具体的,图2为本技术实施例一个示例中的关键词集确定方法流程示意图,如图2所示,在初步划分得到异常候选日志集和第二正常日志集后,分别对其中的异常候选日志和正常日志进行分词处理。例如,将日志文本根据分词符(如!=;等)切分成多个关键词,类似“10002345987;write;error;code=400;topic does not exist;”的日志文本分词后可以得到“10002345987”,“write”,“error”,“code”,“400”和“topic does not exist”六个单词。
95.将异常候选日志集中每一异常候选日志进行分词处理得到的词存为异常候选日志词集s
abnormal
,将第二正常日志集中每一正常日志进行分词处理得到的词存为正常日志词集s
normal
。并求取异常候选日志词集s
abnormal
与正常日志词集s
normal
的差集s
diff
,即可获得仅存在于异常候选日志集中的词组成的关键词集s
key

96.步骤s103,将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志。
97.具体的,考虑到关键信息在异常日志中的唯一性,关键词集s
key
中的词仅会出现在异常日志中,将异常候选日志集中的异常候选日志与关键词集s
key
中的关键词进行匹配,确定日志文本中存在关键词集s
key
中任一关键词的异常候选日志为异常日志。反之,若日志文本中不存在关键词集s
key
中任一关键词,则确定该异常候选日志为正常日志。
98.本技术实施例提供的技术方案,通过对待检测日志集和正常日志集的比对,对异常候选日志和正常日志进行初步区分,进而降低后续异常日志检测时所需处理的数据复杂程度,有效提高检测的效率,并提高检测准确性。对异常候选日志和正常日志进行分词,分别确定异常候选日志词集和正常日志词集,并考虑关键信息在异常日志中的唯一性,计算异常候选日志词集和正常日志词集的差集,确定候选关键词集,解决现有技术关键词错标漏标的问题。根据异常候选日志和关键词集是否能够匹配,确定目标异常日志,能够有效提高异常日志检测的准确性。
99.在本技术的一种可选实施例中,根据异常候选日志词集和正常日志词集的差集,确定关键词集,具体包括:
100.过滤异常候选日志词集和正常日志词集的差集中的非目标语言词,确定目标语言差集;
101.获取目标语言差集中各词的词向量,并根据各词向量的空间分布密度对各词进行聚类处理,得到至少一个词聚类簇;
102.删除各词聚类簇中特定词对应的词聚类簇,根据剩余的词聚类簇获取关键词集。
103.具体的,如图2所示,确定异常候选日志词集s
abnormal
与正常日志词集s
normal
的差集s
diff
后,还需要对差集s
diff
进行自然语言处理(natural language processing,nlp)得到关键词集s
key
。在本实施例中可以采取非目标语言词过滤和词聚类簇过滤两个步骤处理差集s
diff

104.其中,非目标语言词过滤是使用自然语言处理工具(如基于python的自然语言处理工具包nltk(natural language toolkit)和jieba(结巴)以及基于java自实现的自然语
言处理工具包hanlp等)过滤差集s
diff
中的非目标语言,余下目标语言差集s
en

105.可以理解的是,目标语言是分析日志文本时需要使用的语言。进行非目标语言过滤时,目标语言文字的类型可根据实际需求设置,如设置目标语言文字为中文、英文等,也可以设置为多种语言混合,本实施例对此不作限定。以目标语言文字为英文为例,使用自然语言处理工具nltk过滤非英文字符串,余下英文单词集即为目标语言差集s
en

106.其中,词聚类簇过滤是获取目标语言差集s
en
中的词的词向量,并根据各词向量的空间分布密度对各词进行聚类处理,获取至少一个词聚类簇。例如,使用word2vec(word to vector)模型将目标语言差集s
en
中的词表征为词向量,并通过具有噪声的基于密度的聚类方法(density-based spatial clustering of applications with noise,dbscan)根据词向量的空间密度分布,将具有足够密度的区域划分为簇,确定词聚类簇。通过dbscan算法无需输入类别数,可发现任意形状的聚类簇并且在进行聚类的同时还可以找出异常点(游离在簇外的噪音点)。
107.可以理解的是,在本发明实际应用时,还可以采用glove(global vectors)模型、elmo(embedding from language models)模型和fasttext模型等获取词向量,根据词向量获取词聚类簇时,还可以采用optics(ordering points to identify the clustering structure,点排序识别聚类结构)算法、curd(clustering using references and density,基于参考点和密度的聚类)算法和sdbdc(scalable density-based distributed clustering,基于密度的分布式聚类)算法等基于密度的空间聚类算法,本发明对此不做限定。
108.考虑在目标语言差集s
en
中并非所有的词都能够表征异常日志的特征,确定词聚类簇后,进一步对词聚类簇中的词进行筛选,删除各词聚类簇中特定词对应的词聚类簇,根据剩余的词聚类簇获取关键词集。
109.例如,筛选出各词聚类簇中所有的实词和虚词对应的词聚类簇,将所有的虚词和实词中的无效词作为特定词,删除特定词对应的词聚类簇,由剩余的词聚类簇组成关键词集。其中,实词中的无效词,可以由专家凭借经验直接筛选剔除,或是分析词在日志文本中的含义建立无效词库,根据无效词库进行无效词的自动过滤。在本发明实际应用时,对删除特定词对应的聚类簇的具体实现方式不作限定。
110.本技术实施例提供的技术方案,通过自然语言处理角度对异常日志关键信息提取和筛选,既考虑到关键信息的自然语言属性,又考虑到关键信息在异常日志中的唯一性。有效解决现有技术中根据专家经验对系统日志标注关键词库,以及使用tf-idf等统计技术提取关键词两类方法,忽略关键信息判别异常日志的关键作用,无法有效识别仅存在于异常候选日志文本中的关键信息,导致异常日志文本检测准确性不高的问题。实现关键信息即关键词集的自动提取,方案灵活性高且可拓展性强,能够应对未出现过的异常日志,提高日志异常检测的准确率,并且降低了对专家经验的依赖,使得普通的运维人员也能做好日志异常检测的任务,有效降低运维成本。
111.在本技术的一种可选实施例中,将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,具体包括:
112.分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库;
113.对于待检测日志模板库中每一待检测日志模板,将待检测日志模板与正常日志模板库比对,若正常日志模板库存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配成功,若正常日志模板库不存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配失败。
114.其中,日志模板是指由同一类系统日志文本归类出的描述系统运行事件的静态常量,可以表征一类系统事件。
115.日志文本一般是非结构化的自由格式的文本。日志解析旨在从无结构的日志中提取事件模板,对原始日志进行结构化。更具体地说,可以将每条日志消息解析为带有特定参数(变量部分)的事件模板(常量部分)。例如,类似“2021-11-0920:21:35received block blk_321ofsize 67108864from/10.251.126.5”的日志可以解析出事件模板“received block*ofsize*from*”。
116.具体的,图3为本技术实施例一个示例中的日志模板提取方法示意图,如图3所示,对第一正常日志集中的正常日志进行模板提取,得到对应的正常日志模板库。对待检测日志集中的待检测日志(包含正常、异常日志)进行提取,得到对应的待检测日志模板库。
117.将待检测日志模板库中的每一待检测日志模板与正常日志模板库进行模板匹配,判断正常日志模板库中是否存在与该待检测日志模板匹配的正常日志模板。
118.对于每一待检测日志模板,若正常日志模板库中存在正常日志模板与该待检测日志模板匹配,则该待检测日志模板对应的日志匹配成功,则说明该待检测日志模板实际为正常日志模板,与该待检测日志模板对应的待检测日志为正常日志。若正常日志模板库中不存在该正常日志模板与该待检测日志模板匹配,则该待检测日志模板为异常候选模板,对应的日志匹配失败为异常候选日志。
119.可以理解的是,对模板之间进行匹配时需计算模板之间的相似度,当模板之间的相似度大于预设阈值时,则认为两个模板匹配。具体的模板相似度计算方式,可以采用局部敏感哈希(locality-sensetive hashing,lsh)算法将文本映射成向量(如采用simhash算法将文本映射为一维向量),计算向量之间的汉明距离(hamming distance)或者最小编辑距离(minimum edit distance,med)作为相似度;或者是将模板文本转换为多维向量,计算两模板多维向量之间的欧氏距离(euclid distance)、余弦距离(cosine distance)或马氏距离(mahalanobis distance)等作为相似度;或者将文本看作是词的集合计算两模板词集合的杰卡德(jacard)相似度。具体的相似度计算方法以及相似度阈值的设置可根据实际需求设置,本发明对此不做限定。
120.本技术实施例提供的技术方案,通过分别对待检测日志集和正常日志集进行模板提取确定对应的待检测日志模板库和正常日志模板库,采取将正常日志模板与待检测日志模板进行匹配的方式,对异常候选日志和正常日志进行初步区分,进而降低后续异常日志检测时所需处理的数据复杂程度,有效节约计算资源,提高检测的效率。
121.在本技术的一种可选实施例中,分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库,具体包括:
122.对于第一正常日志集和待检测日志集中的任一日志集,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,预处理包括过滤处理和/或替换处理;
123.根据各预处理后的日志文本构建任一日志集对应的初始日志模板库,并对初始日志模板迭代执行以下操作,直至初始日志模板库中各日志文本对对应的相似度都小于对应的预设阈值,得到任一日志集对应的日志模板集:
124.获取初始日志模板库中各日志文本对对应的相似度;
125.将各日志文本对中对应的相似度不小于预设阈值的日志文本对进行合并,得到合并日志文本,并利用合并日志文本替换初始日志模板库中合并日志文本对应的文本对;
126.其中,不同日志文本对所包含的日志文本不同。
127.具体的,为了提升模板提取的效果,在提取日志模板前,对第一正常日志集和待测日志集中的每一日志进行分词处理,确定任一日志集中每一日志文本中各词的词频,并根据各词的词频对各词进行预处理,过滤删除部分词,或使用预设字符替换部分词。
128.可以理解的是,根据词频进行预处理,如何确定需要进行预处理的词,以及实现部分词的过滤和替换的具体方式,均可根据实际需求设置,本实施例对此不作限定。
129.在对日志文本进行预处理后,根据预处理后的正常日志文本,构建第一正常日志集对应的初始正常日志模板库;根据预处理后的待测日志集对应的初始待测日志模板库。
130.由于初始日志模板库(初始正常日志模板库或初始待测日志模板库)中的初始日志模板是基于对日志文本进行预处理后得到的日志文本获得的。需要进一步对获取的初始日志模板库中的日志模板进行合并,得到更具有通用性和代表性的日志模板。
131.以在初始日志模板库中选择任意两初始日志模板,以两初始日志模板中的日志文本作为日志文本对为例,对本实施例中日志模板合并步骤进行说明:
132.计算该日志文本对之间的相似度,比较相似度和预设阈值之间的大小关系。若相似度不小于预设阈值,对该日志文本对进行合并。由于不同日志文本对所包含的日志文本不同,提取出该日志文本对中两日志文本相同的部分作为新的日志模板文本,替换初始日志文本库中合并日志文本对应的文本对。
133.对于初始日志模板中任一文本对,重复执行上述日志模板合并步骤,直至初始日志模板库中各日志文本对对应的相似度都小于对应的预设阈值,得到任一日志集对应的日志模板集。
134.可以理解的是,考虑到初始正常日志模板库中仅存在正常日志模板,而初始待测日志模板库中可能包含正常日志模板和异常日志模板,正常日志模板和异常日志模板的相似性更小,在设置比较相似度的预设阈值时,可针对初始正常日志模板库和初始待测日志模板库设置不同的预设阈值。一般而言,对初始正常日志模板库设置的预设阈值应小于对初始待测日志模板库设置的预设阈值。
135.另外,计算日志文本对之间相似度的具体方法可参考上述实施例中计算模板之间的相似度的方法,在此不再赘述。
136.本技术实施例提供的技术方案,通过在日志解析阶段对日志文本中的词频进行统计,对日志文本中的词进行过滤和/或替换的预处理,降低日志模板提取时的数据的复杂性,节约计算资源,有效提高模板提取时的提取速度和提取效果。进一步迭代重复根据日志文本对之间的相似性和设置的预设阈值,对日志文本对进行合并的步骤,提取日志模板,获得更具有通用性和代表性的日志模板,进而提高后续根据日志模板筛选异常候选日志的准确性。
137.在本技术的一种可选实施例中,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,具体包括:
138.删除日志文本中词频小于第一预设词频的词,并将日志文本中词频不小于第一预设词频且小于第二预设词频的词替换为预设字符;
139.其中,第一预设词频阈值小于第二词频阈值。
140.具体的,根据词频对日志文本中各词进行预处理的具体方法为,设置第一词频阈值和大于第一词频阈值的第二词频阈值。将各词频与第一词频阈值和第二词频阈值比较。
141.删除日志文本中词频小于第一预设词频的词,并将日志文本中词频不小于第一预设词频且小于第二预设词频的词替换为预设字符(如*)。
142.可以理解的是,第一词频阈值和第二词频阈值的具体值,以及预设字符的具体类型可根据实际需求设置,本实施例对此不做限定。
143.本技术实施例提供的技术方案,通过在日志解析阶段对日志文本中的词频进行统计,设置第一词频阈值和第二词频阈值,对日志文本中的低频词进行删除和替换,使得低频日志文本(如新出现的待检测日志文本)也可以抽取到日志模板。解决了现有技术中日志文本抽取模板时,忽略对低频日志文本处理,导致日志模板提取不准确,以及将低频词错标为关键词,进而使异常日志检测不佳的问题。实现日志文本的自动解析,提高解析结果的可读性并降低日志模板提取时的数据的复杂性,节约计算资源,有效提高模板提取时的提取速度和提取效果。
144.在本技术的一种可选实施例中,将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志,具体包括:
145.对于异常候选日志集中每一异常候选日志,将异常候选日志与关键词集中的各关键词进行匹配,若异常候选日志中包含有关键词集中的任一词,则确定异常候选日志为异常日志。
146.具体的,图4为本技术实施例一个示例中的日志异常检测方法示意图,如图4所示,在进行日志异常检测时,将异常候选日志集中的每一异常候选日志与关键词集s
key
中的各关键词进行匹配,判断异常候选日志中是否包含有关键词集中的任一关键词。
147.关键词匹配时可采用正则匹配法,根据关键词集s
key
构建正则表达式,利用构建的正则表达式匹配异常候选日志集中的每一异常候选日志,遍历异常候选日志文办,判断异常候选日志中是否出现关键词集中的任一词。
148.除此之外,还可以采用其他的关键词搜索方式,如关键词遍历、contains()字符串处理函数和dfa(deterministic finite automation,确定性的有穷状态自动机)算法等,本实施例对此不做限定。
149.在确定异常候选日志中包含有关键词集中的任一词,则确定异常候选日志为异常日志,并将该异常日志对应的日志模板存入异常日志模板库中。反之,若确定异常候选日志中没有包含有关键词集中的任一词,则确定异常候选日志为正常日志,将该正常日志对应的日志模板存入正常日志模板库中。
150.本技术实施例提供的技术方案,采用双层异常检测的方式,通过待检测日志确定异常候选日志,对异常日志进行初步筛选,减少候选关键词匹配时需要处理的数据量,有效提高检测速度。由于用于提取正常日志模板的正常日志数量有限,无法穷尽正常日志模板,
在异常日志初步筛选时,异常候选日志中可能包含无法与正常日志模板匹配的正常日志,考虑到关键信息在异常日志中的唯一性,再根据异常候选日志与关键词集的关键词匹配进行异常日志的二次筛选,确定异常日志,实现异常日志的准确检测。
151.在本技术的一种可选实施例中,在将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志的步骤之后,还包括:
152.每间隔预设时间周期统计异常日志出现的频次;
153.将出现频次大于预设频次阈值且并未被运维人员处理的异常日志,划归为目标正常日志;
154.将目标正常日志对应的模板数据由异常日志模板库移至正常日志模板库中,并将目标正常日志在关键词集中对应的关键词移除;其中,异常日志模板库根据异常日志对应的模板建立。
155.具体的,图5为本技术实施例一个示例中的异常日志检测业务流程示意图,如图5所示,根据异常日志检测的业务流程,可将异常日志检测分为日志模板提取、关键词集提取、日志异常检测和自动迭代四个步骤。
156.由于本实施例中的关键词集提取时并不依赖于专家经验,致使检测获得的异常日志出现伪异常的情况。为了进一步完善正常日志模板库、异常日志模板库和关键词库,提高异常日志检测的准确性,在异常日志检测完成之后,自动迭代更新正常日志模板库、异常日志模板库和关键词库。
157.考虑到异常日志告警后,运维人员会对部分告警进行处理,每间隔预设时间周期统计异常日志出现的频次,根据异常日志出现的频次,对异常日志进行排序,将出现频次大于预设频次阈值且并未被运维人员处理的异常日志,重新划归为目标正常日志,并将其对应的日志模板由异常日志模板库移至正常日志模板库中,并将目标正常日志在关键词集中对应的关键词移除。
158.可以理解的是,预设时间周期可以根据实际需求设置,如1月或10天等,预设频次阈值的数值可根据实际情况设置,实施例对此不作限定。
159.另外,对正常日志模板库、异常日志模板库和关键词集进行更新后,可在下一次进行待检测日志的异常检测时,省略根据第一正常日志集提取正常日志模板库的步骤,直接采用更新后的正常日志模板库与待检测日志提取的待检测日志模板库匹配。或者在本实施例的基础上,多次迭代异常日志检测模板库和关键词集使其完善后,直接采用异常日志检测模板库和/或关键词集匹配待检测日志集,实现待检测日志的快速异常检测。具体的实现步骤,本实施例不做限定。
160.本技术实施例提供的技术方案,从产品迭代角度,考虑到异常日志告警后,部分会得到运维人员的处理,此过程中,对异常日志出现的频次做排序,将出现频次大于预设频次阈值但并未被处理的异常日志划归为正常日志,并对应地更新正常日志模板库、异常日志模板库和关键词集。通过不断的迭代,挖掘未知的异常信息,无需依赖专家经验自动实现正常日志模板库、异常日志模板库和关键词集的完善,进一步使异常日志检测效果的逐步提升,提高本发明的应用价值。
161.下面再通过一个具体示例对本技术实施例方案的具体应用进行详细说明:
162.基于运营商网络系统日志数据,获取其中的正常日志数据构建第一正常日志集。
并获取网络系统新产生的日志数据构建待检测日志集。
163.对第一正常日志集和异常候选日志集中的日志进行分词处理,并对其中的低频词进行过滤或替换处理,分别对处理后的第一正常日志集和异常候选日志集进行模板提取,并根据日志模板之间的相似性对日志模板进行合并,获取对应的正常日志模板库和待检测日志模板库。
164.将待检测日志模板库中的每一待检测日志模板与正常日志模板库进行匹配,若确定正常日志模板库中存在正常模板与待检测日志模板之间的相似度大于预设相似度阈值,则认为匹配成功,将该待检测日志模板划归为正常日志模板,并将该待检测日志模板对应的待检测日志划归为正常日志。反之,若确定正常日志模板库中不存在正常模板与待检测日志模板之间的相似度大于预设相似度阈值,则认为匹配失败,将该待检测日志模板划归为异常候选日志模板,并将该待检测日志模板对应的待检测日志划归为异常候选日志。
165.以待检测日志集中匹配成功的正常日志和第一正常日志集中的正常日志,组建第二正常日志集。以待检测日志集中匹配失败的异常候选日志,组建异常候选日志集。对第二正常日志集和异常候选日志集中的日志进行分词处理,得到对应的正常日志词集和异常候选日志词集,取异常候选日志词集和正常日志词集的差集,对该差集进行非目标语言过滤,获取模板语言差集。
166.将目标语言差集中的词映射为词向量,并根据词向量的空间分布密度对目标语言差集中的词进行聚类,得到至少一个词聚类簇,将词聚类簇中对应的虚词聚类簇剔除并根据经验筛选剔除部分实词聚类簇,根据剩余的词聚类簇获取关键词集。
167.将此前确定的异常候选日志与关键词集进行匹配,判断异常候选日志中是否出现关键词集中的任一关键词。若确定异常候选日志中出现关键词集中的任一关键词,则确定该异常候选日志为异常日志,反之则为正常日志。并将确定的异常日志对应的日志模板移入异常日志模板库,将确定的正常日志对应的日志模板移入正常日志模板库。
168.本技术实施例提供的异常日志检测方法,在某些日志格式下,取得了100%的f1(f1 score)得分。在其他的日志格式下,相比于常规机器学习日志异常检测及专家经验规则方法的日志异常检测,整体也有5%-10%的提升。
169.图6为本技术实施例提供的一种异常日志检测装置的结构示意图,如图6所示,该装置60可以包括:日志匹配分类模块601、关键词集确定模块602和异常日志检测模块603;
170.日志匹配分类模块601用于将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;其中,异常候选日志集包括待检测日志集中匹配失败的日志,第二正常日志集包括第一正常日志集中的正常日志和待检测日志集中匹配成功的日志;
171.关键词集确定模块602用于对异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据异常候选日志词集和正常日志词集的差集,确定关键词集;
172.异常日志检测模块603用于将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志。
173.本技术提供的方案,通过对待检测日志集和正常日志集的比对,对异常候选日志和正常日志进行初步区分,进而降低后续异常日志检测时所需处理的数据复杂程度,有效
提高检测的效率,并提高检测准确性。对异常候选日志和正常日志进行分词,分别确定异常候选日志词集和正常日志词集,并考虑关键信息在异常日志中的唯一性,计算异常候选日志词集和正常日志词集的差集,确定候选关键词集,解决现有技术关键词错标漏标的问题。根据异常候选日志和关键词集是否能够匹配,确定目标异常日志,能够有效提高异常日志检测的准确性。
174.本技术实施例的装置可执行本技术实施例所提供的方法,其实现原理相类似,本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
175.在本技术的一种可选实施例中,关键词集确定模块具体用于:
176.过滤异常候选日志词集和正常日志词集的差集中的非目标语言词,确定目标语言差集;
177.获取目标语言差集中各词的词向量,并根据各词向量的空间分布密度对各词进行聚类处理,得到至少一个词聚类簇;
178.删除各词聚类簇中特定词对应的词聚类簇,根据剩余的词聚类簇获取关键词集。
179.在本技术的一种可选实施例中,日志匹配分类模块具体用于:
180.分别对第一正常日志集中的日志和待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库;
181.对于待检测日志模板库中每一待检测日志模板,将待检测日志模板与正常日志模板库比对,若正常日志模板库存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配成功,若正常日志模板库不存在正常日志模板与待检测日志模板匹配,则待检测日志模板对应的日志匹配失败。
182.在本技术的一种可选实施例中,日志匹配分类模块具体用于:
183.对于第一正常日志集和待检测日志集中的任一日志集,根据任一日志集的每一日志文本中各词的词频,对日志文本中各词进行预处理,预处理包括过滤处理和/或替换处理;
184.根据各预处理后的日志文本构建任一日志集对应的初始日志模板库,并对初始日志模板迭代执行以下操作,直至初始日志模板库中各日志文本对对应的相似度都小于对应的预设阈值,得到任一日志集对应的日志模板集:
185.获取初始日志模板库中各日志文本对对应的相似度;
186.将各日志文本对中对应的相似度不小于预设阈值的日志文本对进行合并,得到合并日志文本,并利用合并日志文本替换初始日志模板库中合并日志文本对应的文本对;
187.其中,不同日志文本对所包含的日志文本不同。
188.在本技术的一种可选实施例中,日志匹配分类模块具体用于:
189.删除日志文本中词频小于第一预设词频的词,并将日志文本中词频不小于第一预设词频且小于第二预设词频的词替换为预设字符;
190.其中,第一预设词频阈值小于第二词频阈值。
191.在本技术的一种可选实施例中,异常日志检测模块具体用于:
192.对于异常候选日志集中每一异常候选日志,将异常候选日志与关键词集中的各关
programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
202.存储器703用于存储执行本技术实施例的计算机程序,并由处理器701来控制执行。处理器701用于执行存储器703中存储的计算机程序,以实现前述方法实施例所示的步骤。
203.本技术实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴设备等等的移动终端以及诸如数字tv、台式计算机等等的固定终端。
204.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
205.需要说明的是,本技术上述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
206.在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
207.可以以一种或多种程序设计语言或其组合来编写用于执行本技术的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
208.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能
够以除图示或文字描述以外的顺序实施。
209.应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
210.以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。

技术特征:
1.一种异常日志检测方法,其特征在于,包括:将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;其中,所述异常候选日志集包括待检测日志集中匹配失败的日志,所述第二正常日志集包括第一正常日志集中的正常日志和待检测日志集中匹配成功的日志;对所述异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对所述第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据所述异常候选日志词集和所述正常日志词集的差集,确定关键词集;将所述异常候选日志集中的异常候选日志与所述关键词集中的关键词进行匹配,确定异常日志。2.根据权利要求1所述的异常日志检测方法,其特征在于,所述根据所述异常候选日志词集和所述正常日志词集的差集,确定关键词集,具体包括:过滤所述异常候选日志词集和所述正常日志词集的差集中的非目标语言词,确定目标语言差集;获取所述目标语言差集中各词的词向量,并根据各词向量的空间分布密度对各词进行聚类处理,得到至少一个词聚类簇;删除各词聚类簇中特定词对应的词聚类簇,根据剩余的词聚类簇获取所述关键词集。3.根据权利要求1-2任一项所述的异常日志检测方法,其特征在于,所述将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,具体包括:分别对所述第一正常日志集中的日志和所述待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库;对于所述待检测日志模板库中每一待检测日志模板,将所述待检测日志模板与所述正常日志模板库比对,若所述正常日志模板库存在正常日志模板与所述待检测日志模板匹配,则所述待检测日志模板对应的日志匹配成功,若所述正常日志模板库不存在正常日志模板与所述待检测日志模板匹配,则所述待检测日志模板对应的日志匹配失败。4.根据权利要求3所述的异常日志检测方法,其特征在于,所述分别对所述第一正常日志集中的日志和所述待检测日志集中的日志进行模板提取,得到对应的正常日志模板库和待检测日志模板库,具体包括:对于所述第一正常日志集和所述待检测日志集中的任一日志集,根据所述任一日志集的每一日志文本中各词的词频,对所述日志文本中各词进行预处理,所述预处理包括过滤处理和/或替换处理;根据各预处理后的日志文本构建所述任一日志集对应的初始日志模板库,并对所述初始日志模板迭代执行以下操作,直至所述初始日志模板库中各日志文本对对应的相似度都小于对应的预设阈值,得到所述任一日志集对应的所述日志模板集:获取所述初始日志模板库中各日志文本对对应的相似度;将各日志文本对中对应的相似度不小于预设阈值的日志文本对进行合并,得到合并日志文本,并利用所述合并日志文本替换所述初始日志模板库中所述合并日志文本对应的文本对;其中,不同日志文本对所包含的日志文本不同。
5.根据权利要求4所述的异常日志检测方法,其特征在于,所述根据所述任一日志集的每一日志文本中各词的词频,对所述日志文本中各词进行预处理,具体包括:删除所述日志文本中词频小于第一预设词频的词,并将所述日志文本中词频不小于所述第一预设词频且小于第二预设词频的词替换为预设字符;其中,所述第一预设词频阈值小于所述第二词频阈值。6.根据权利要求3所述的异常日志检测方法,其特征在于,所述将所述异常候选日志集中的异常候选日志与所述关键词集中的关键词进行匹配,确定异常日志,具体包括:对于所述异常候选日志集中每一异常候选日志,将所述异常候选日志与所述关键词集中的各关键词进行匹配,若所述异常候选日志中包含有所述关键词集中的任一词,则确定所述异常候选日志为异常日志。7.根据权利要求6所述的异常日志检测方法,其特征在于,在所述将所述异常候选日志集中的异常候选日志与所述关键词集中的关键词进行匹配,确定异常日志的步骤之后,还包括:每间隔预设时间周期统计异常日志出现的频次;将出现频次大于预设频次阈值且并未被运维人员处理的异常日志,划归为目标正常日志;将所述目标正常日志对应的模板数据由异常日志模板库移至正常日志模板库中,并将所述目标正常日志在所述关键词集中对应的关键词移除;其中,所述异常日志模板库根据异常日志对应的模板建立。8.一种异常日志检测装置,其特征在于,包括:日志匹配分类模块,用于将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;其中,所述异常候选日志集包括待检测日志集中匹配失败的日志,所述第二正常日志集包括第一正常日志集中的正常日志和待检测日志集中匹配成功的日志;关键词集确定模块,用于对所述异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对所述第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据所述异常候选日志词集和所述正常日志词集的差集,确定关键词集;异常日志检测模块,用于将所述异常候选日志集中的异常候选日志与所述关键词集中的关键词进行匹配,确定异常日志。9.一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-7任一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。

技术总结
本申请实施例提供了一种异常日志检测方法、装置、电子设备和可读存储介质,涉及数据处理领域。该方法包括:将待检测日志集中的待检测日志与第一正常日志集中的正常日志进行匹配,得到异常候选日志集和第二正常日志集;对异常候选日志集中每一异常候选日志进行分词处理得到对应的异常候选日志词集,对第二正常日志集中的每一正常日志进行分词处理得到对应的正常日志词集,并根据异常候选日志词集和正常日志词集的差集,确定关键词集;将异常候选日志集中的异常候选日志与关键词集中的关键词进行匹配,确定异常日志。该方案通过关键词集的提取和与日志的匹配,能够准确解决现有技术中关键词错标漏标的问题,有效提高异常日志检测的准确性。志检测的准确性。志检测的准确性。


技术研发人员:宋勇 秦玉坤 严志伟 叶晓舟 欧阳晔
受保护的技术使用者:广州亚信技术有限公司
技术研发日:2023.05.09
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐