一种日志解析方法与装置与流程
未命名
08-06
阅读:88
评论:0

1.本发明属于网络及信息安全技术领域,尤其是涉及一种对异构化日志进行解析的方法与装置。
背景技术:
2.任何系统、任何程序都有可能输出日志,例如操作系统内核、各种应用服务器等等,而日志的格式内容,规模和用处也大相径庭,很难一概而论。一般日志主要满足以下几个方面的需求:如记录用户操作的审计日志,快速定位问题的根源,追踪程序执行的过程,数据统计和性能分析,采集运行环境数据等。
3.日志对于安全产品,尤其是日志分析类产品中更是举足轻重的,而日志解析的质量和程度直接或间接影响着日志分析的有效性。传统的日志解析方法需要借助脚本语言、插件或者正则表达式来完成,要求管理人员具备一定的专业知识技能,不仅不易调试,一旦日志解析过程出错还不易排查问题所在,同时编写正则表达式会耗费较多的人力和时间。特别是现代软件系统中的日志代码更新频繁,导致定期修改这些手工编写的解析规则的不可避免的成本。
技术实现要素:
4.有鉴于此,本发明旨在提出一种日志解析方法及装置,对日志拆分、解析,最后达到实现对于日志中部分关键信息的分析提取或反向生成可解析该日志的解析规则的目的。具体的技术方案如下所述:首先,提出一种日志解析方法,包括:将采集的原始日志输入日志解析引擎,调用当前生效的规则集进行解析,将解析完成的日志存入已解析日志库,将无法解析的日志存入第一未解析日志库;读取所述第一未解析日志库,通过日志分类模型判断日志类型,并根据类型查询对应的全部解析规则,与所述未解析日志进行匹配,若匹配成功则将对应的解析规则添加到当前规则集,否则将日志存入第二未解析日志库;若无法确定日志类型则将日志存入第二未解析日志库;对所述第二未解析日志库进行聚类分析,判断日志是已知分类或未知分类;若为已知分类,则查询该分类下预设的解析规则模型,组合对应的正则表达式生成新的解析规则并添加到当前规则集;若为未知分类,则使用通用模型进行分析,生成新的解析规则并添加到当前规则集。
5.较佳的,上述的解析规则对日志进行解析,包括将日志信息与解析规则中的正则进行模式匹配,提取出日志中的直接信息与间接信息,确定日志指向的具体事件;所述无法解析的日志包括与规则库的所有解析规则均匹配失败的日志。
6.进一步,上述的通过日志分类模型判断日志类型之前,包括使用cnn 模型对日志进行预分类,标记日志类型并维护日志类型与解析规则的对应关系。
7.以及,上述对第二未解析日志库进行聚类分析,具体包括:读取未解析日志,对日志数据进行分类处理,将无法分类的数据存入数据聚类表,定时调度日志聚类任务对数据聚类表中的数据进行无监督训练,将训练后确定的分类更新至所述数据聚类表。所述无监督训练,包括:使用文本向量化的方式预处理数据,得到向量化数据;使用pca无监督降维算法进行降维处理后利用kmeans算法进行聚类分析。
8.较佳的,该方法还包括对所述第一未解析日志库进行人工解析,具体为:根据日志中的每部分使用语义判断,将日志内容转化为对应的标的信息传输至日志解析端,日志解析端根据标的的顺序选择对应的解析正则,拼装完成该日志的解析规则;所述标的信息包括时间、级别、信息、键值对。
9.第二方面,提出一种日志解析装置,包括:采集模块,采集设备产生的原始日志,并发送至解析模块;解析模块,调用当前生效的规则集对日志数据进行解析;若解析成功则存入已解析日志库;若无法解析则通过日志分类模型判断日志类型,并根据类型查询对应的全部解析规则进行解析。
10.分类模块,若解析模块无法确定日志类型则进行聚类分析,并判断日志是已知分类或未知分类;若为已知分类,则查询该分类下预设的解析规则模型,组合对应给的正则表达式生成新的解析规则并添加到当前规则集;若为未知分类,则使用通用模型进行分析,生成新的解析规则并添加到当前规则集。
11.较佳的,所述解析模块解析日志,包括将日志信息与解析规则中的正则进行模式匹配,提取出日志中的直接信息与间接信息,确定日志指向的具体事件。
12.并且,解析模块通过日志分类模型判断日志类型之前,分类模块使用cnn 模型对日志进行预分类,标记日志类型并维护日志类型与解析规则的对应关系;若无法分类则将无法分类的数据存入数据聚类表,定时调度日志聚类任务对数据聚类表中的数据进行无监督训练以确定分类。无监督训练,包括:使用文本向量化的方式预处理数据,得到向量化数据;使用pca无监督降维算法进行降维处理后利用kmeans算法进行聚类分析。
13.采用以上技术方案,本发明与现有技术相比至少具有以下有益效果:首先通过预设规则集的正则与待解析日志进行模式匹配,当无法解析时根据分类模型确定的日志类型查询对应的解析规则进行解析,当仍无法解析时通过无监督训练对日志进行聚类分析以确定新的解析规则;同时还提出通过人工解析利用语义分隔方式拼装出新的解析规则;并且将新生成的解析规则更新到规则集。实现解析异构化日志的部分流程脱离传统的人工编写正则的方式,不仅降低了人工的主观出错率,同时增强了对第三方异构化日志解析的良好扩展性。
附图说明
14.图1为本发明的日志解析方法实施例,工作流程示意图;图2为本发明的日志解析装置实施例,模块组成示意图。
具体实施方式
15.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例
中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
16.如图1所示,一种日志解析方法,包括:首先,将采集的原始日志输入日志解析引擎,调用当前生效的规则集进行解析,将解析完成的日志存入已解析日志库,将无法解析的日志存入第一未解析日志库。
17.上述的解析规则对日志进行解析,包括将日志信息与解析规则中的正则进行模式匹配,提取出日志中的直接信息与间接信息,确定日志指向的具体事件;所述无法解析的日志包括与规则库的所有解析规则均匹配失败的日志。
18.其次,读取所述第一未解析日志库,通过日志分类模型判断日志类型,并根据类型查询对应的全部解析规则,与所述未解析日志进行匹配,若匹配成功则将对应的解析规则添加到当前规则集,否则将日志存入第二未解析日志库;若无法确定日志类型则将日志存入第二未解析日志库;通过日志分类模型判断日志类型之前,包括使用cnn 模型对日志进行预分类,标记日志类型并维护日志类型与解析规则的对应关系。
19.最后,对所述第二未解析日志库进行聚类分析,判断日志是已知分类或未知分类;若为已知分类,则查询该分类下预设的解析规则模型,组合对应给的正则表达式生成新的解析规则并添加到当前规则集;若为未知分类,则使用通用模型进行分析,生成新的解析规则并添加到当前规则集。上述对第二未解析日志库进行聚类分析,具体包括:读取未解析日志,对日志数据进行分类处理,将无法分类的数据存入数据聚类表,定时调度日志聚类任务对数据聚类表中的数据进行无监督训练,将训练后确定的分类更新至所述数据聚类表。所述无监督训练,包括:使用文本向量化的方式预处理数据,得到向量化数据;使用pca无监督降维算法进行降维处理后利用kmeans算法进行聚类分析。
20.另外,作为一个较佳的实施方式,该方法还包括对所述第一未解析日志库进行人工解析,具体为:根据日志中的每部分使用语义判断,将日志内容转化为对应的标的信息传输至日志解析端,日志解析端根据标的的顺序选择对应的解析正则,拼装完成该日志的解析规则;所述标的信息包括时间、级别、信息、键值对。
21.如图2所示,一种日志解析装置,包括:采集模块,采集设备产生的原始日志,并发送至解析模块;解析模块,调用当前生效的规则集对日志数据进行解析;若解析成功则存入已解析日志库;若无法解析则通过日志分类模型判断日志类型,并根据类型查询对应的全部解析规则进行解析。
22.分类模块,若解析模块无法确定日志类型则进行聚类分析,并判断日志是已知分类或未知分类;若为已知分类,则查询该分类下预设的解析规则模型,组合对应给的正则表达式生成新的解析规则并添加到当前规则集;若为未知分类,则使用通用模型进行分析,生成新的解析规则并添加到当前规则集。
23.较佳的,所述解析模块解析日志,包括将日志信息与解析规则中的正则进行模式匹配,提取出日志中的直接信息与间接信息,确定日志指向的具体事件。
24.并且,解析模块通过日志分类模型判断日志类型之前,分类模块使用cnn 模型对日志进行预分类,标记日志类型并维护日志类型与解析规则的对应关系;若无法分类则将无法分类的数据存入数据聚类表,定时调度日志聚类任务对数据聚类表中的数据进行无监督训练以确定分类。无监督训练,包括:使用文本向量化的方式预处理数据,得到向量化数
据;使用pca无监督降维算法进行降维处理后利用kmeans算法进行聚类分析。
25.首先通过预设规则集的正则与待解析日志进行模式匹配,当无法解析时根据分类模型确定的日志类型查询对应的解析规则进行解析,当仍无法解析时通过无监督训练对日志进行聚类分析以确定新的解析规则;同时还提出通过人工解析利用语义分隔方式拼装出新的解析规则;并且将新生成的解析规则更新到规则集。实现解析异构化日志的部分流程脱离传统的人工编写正则的方式,不仅降低了人工的主观出错率,同时增强了对第三方异构化日志解析的良好扩展性。
26.需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
27.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如:rom/ram、磁碟、光盘等。
28.以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种日志解析方法,其特征在于,包括:将采集的原始日志输入日志解析引擎,调用当前生效的规则集进行解析,将解析完成的日志存入已解析日志库,将无法解析的日志存入第一未解析日志库;读取所述第一未解析日志库,通过日志分类模型判断日志类型,并根据类型查询对应的全部解析规则,与所述未解析日志进行匹配,若匹配成功则将对应的解析规则添加到当前规则集,否则将日志存入第二未解析日志库;若无法确定日志类型则将日志存入第二未解析日志库;对所述第二未解析日志库进行聚类分析,判断日志是已知分类或未知分类;若为已知分类,则查询该分类下预设的解析规则模型,组合对应给的正则表达式生成新的解析规则并添加到当前规则集;若为未知分类,则使用通用模型进行分析,生成新的解析规则并添加到当前规则集。2.根据权利要求1所述的日志解析方法,其特征在于,所述解析规则解析日志,包括将日志信息与解析规则中的正则进行模式匹配,提取出日志中的直接信息与间接信息,确定日志指向的具体事件;所述无法解析的日志包括与规则库的所有解析规则均匹配失败的日志。3.根据权利要求1所述的日志解析方法,其特征在于,所述通过日志分类模型判断日志类型之前,包括使用cnn 模型对日志进行预分类,标记日志类型并维护日志类型与解析规则的对应关系。4.根据权利要求1所述的日志解析方法,其特征在于,所述对第二未解析日志库进行聚类分析,具体包括:读取未解析日志,对日志数据进行分类处理,将无法分类的数据存入数据聚类表,定时调度日志聚类任务对数据聚类表中的数据进行无监督训练,将训练后确定的分类更新至所述数据聚类表。5.根据权利要求4所述的日志解析方法,其特征在于,所述无监督训练,包括:使用文本向量化的方式预处理数据,得到向量化数据;使用pca无监督降维算法进行降维处理后利用kmeans算法进行聚类分析。6.根据权利要求1所述的日志解析方法,其特征在于,还包括对所述第一未解析日志库进行人工解析,具体为:根据日志中的每部分使用语义判断,将日志内容转化为对应的标的信息传输至日志解析端,日志解析端根据标的的顺序选择对应的解析正则,拼装完成该日志的解析规则;所述标的信息包括时间、级别、信息、键值对。7.一种日志解析装置,其特征在于,包括:采集模块,采集设备产生的原始日志,并发送至解析模块;解析模块,调用当前生效的规则集对日志数据进行解析;若解析成功则存入已解析日志库;若无法解析则通过日志分类模型判断日志类型,并根据类型查询对应的全部解析规则进行解析;分类模块,若解析模块无法确定日志类型则进行聚类分析,并判断日志是已知分类或未知分类;若为已知分类,则查询该分类下预设的解析规则模型,组合对应给的正则表达式生成新的解析规则并添加到当前规则集;若为未知分类,则使用通用模型进行分析,生成新的解析规则并添加到当前规则集。8.根据权利要求7所述的日志解析装置,其特征在于,所述解析模块:
解析日志,包括将日志信息与解析规则中的正则进行模式匹配,提取出日志中的直接信息与间接信息,确定日志指向的具体事件。9.根据权利要求7所述的日志解析装置,其特征在于,解析模块通过日志分类模型判断日志类型之前,分类模块使用cnn 模型对日志进行预分类,标记日志类型并维护日志类型与解析规则的对应关系;若无法分类则将无法分类的数据存入数据聚类表,定时调度日志聚类任务对数据聚类表中的数据进行无监督训练以确定分类。10.根据权利要求9所述的日志解析装置,其特征在于,所述无监督训练,包括:使用文本向量化的方式预处理数据,得到向量化数据;使用pca无监督降维算法进行降维处理后利用kmeans算法进行聚类分析。
技术总结
本发明公开一种日志解析方法及装置,首先通过预设规则集的正则与待解析日志进行模式匹配,当无法解析时根据分类模型确定的日志类型查询对应的解析规则进行解析,当仍无法解析时通过无监督训练对日志进行聚类分析以确定新的解析规则;同时还提出通过人工解析利用语义分隔方式拼装出新的解析规则;并且将新生成的解析规则更新到规则集。实现解析异构化日志的部分流程脱离传统的人工编写正则的方式,不仅降低了人工的主观出错率,同时增强了对第三方异构化日志解析的良好扩展性。方异构化日志解析的良好扩展性。
技术研发人员:王平 田少华 朔宁夫 胡同铠 何建锋
受保护的技术使用者:西安交大捷普网络科技有限公司
技术研发日:2022.01.24
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/