数据处理方法、装置、电子设备、存储介质及程序产品与流程
未命名
08-26
阅读:93
评论:0

1.本技术涉及计算机技术领域,尤其涉及一种数据处理方法、装置、电子设备、存储介质及程序产品。
背景技术:
2.相关技术中,在修复游戏漏洞时,需要定位到造成游戏漏洞的负责人员,进而对游戏漏洞进行对应的修复工作。通常是通过游戏的版本管理工具的blame功能(也可称为追责功能)依赖报错日志,从而定位到游戏漏洞所对应的代码的开发人员。
3.但是,除了代码的开发人员以外,还可能存在其他并未对代码进行开发的工作人员的操作导致了游戏漏洞的出现,且报错日志中可能并未记录该游戏漏洞,则会造成游戏漏洞的追责不准确的问题。
技术实现要素:
4.有鉴于此,本技术的目的在于提出一种数据处理方法、装置、电子设备、存储介质及程序产品。
5.基于上述目的,在第一方面,本技术提供了一种数据处理方法,所述方法包括:
6.根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系;
7.根据预设编码算法对所述第一描述信息编码以确定文本特征;
8.根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基于所述样本数据集训练预构建的决策树模型以得到数据预测模型;
9.根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者;
10.根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集;
11.将所述目标数据集输入所述数据预测模型以确定与所述第二描述信息之间相关度最高的目标日志提交者。
12.在第二方面,本技术提供了一种数据处理装置,所述装置包括:
13.第一确定模块,被配置为根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系;
14.编码模块,被配置为根据预设编码算法对所述第一描述信息编码以确定文本特征;
15.训练模块,被配置为根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基于所述样本数据集训练预构建的决策树模型以得到数据预测模型;
16.第二确定模块,被配置为根据所述映射关系确定与预先获取到的当前漏洞数据中
的第二描述信息对应的候选日志提交者;
17.第三确定模块,被配置为根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集;
18.第四确定模块,被配置为将所述目标数据集输入所述数据预测模型以确定与所述第二描述信息之间相关度最高的目标日志提交者。
19.在第三方面,本技术提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的数据处理方法。
20.在第四方面,本技术提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如第一方面所述的数据处理方法。
21.第五方面,本技术提供了一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如第一方面所述的数据处理方法。
22.从上面所述可以看出,本技术提供的一种数据处理方法、装置、电子设备、存储介质及程序产品,根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系;根据预设编码算法对所述第一描述信息编码以确定文本特征;根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基于所述样本数据集训练预构建的决策树模型以得到数据预测模型;根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者;根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集;将所述目标数据集输入所述数据预测模型以确定与所述第二描述信息之间相关度最高的目标日志提交者。通过对每个日志提交者以及其所提交的描述信息确定二者之间的映射关系,并利用根据描述信息确定的文本特征以及每个日志提交者的个人特征训练得到数据预测模型,保证每个提交过日志的提交者都能够被追责,在一定程度上增加了漏洞数据的追责准确性。进一步地,利用数据预测模型对出现的漏洞数据进行预测,以确定与该漏洞数据相关度最高的日志提交者,作为被追责的目标日志提交者,由于漏洞数据的追责准确性的提高,使得漏洞数据的修复速度能够得到进一步地提高且提高了数据的开发效率。
附图说明
23.为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1示出了本技术实施例所提供的一种数据处理方法的示例性流程示意图。
25.图2示出了根据本技术的实施例中的确定映射关系的示例性流程示意图。
26.图3示出了根据本技术的实施例中的数据预测模型训练过程的示例性示意图。
27.图4示出了根据本技术的实施例中的候选日志提交者的确定过程的示例性示意图。
28.图5示出了根据本技术的实施例中的目标日志提交者的确定过程的示例性示意图。
29.图6示出了本技术实施例所提供的一种数据处理装置的示例性结构示意图。
30.图7示出了本技术实施例所提供的一种电子设备的示例性结构示意图。
具体实施方式
31.为使本技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本技术进一步详细说明。
32.需要说明的是,除非另外定义,本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
33.如背景技术部分所述,相关技术中,在修复游戏漏洞时,需要定位到造成游戏漏洞的负责人员,进而对游戏漏洞进行对应的修复工作。通常是通过游戏的版本管理工具的blame功能(也可称为追责功能)依赖报错日志,从而定位到游戏漏洞所对应的代码的开发人员。
34.申请人在研究过程中发现,以游戏开发场景为例,在游戏开发过程中,游戏漏洞(software bug)难以避免。对需求理解的偏差、不合理的开发过程、抑或开发人员的疏忽,均有可能在项目内引入漏洞(bug)。这些含有漏洞的游戏产品在部署后,可能会产生无法预测的行为或结果,导致海量的经济损失甚至会直接终结游戏产品。因此修复bug的速度,对游戏产品有着十分重要的影响。修复bug的首要任务,就是如何将bug准确分配到责任人。游戏产品的开发周期会涉及到不同职能例如策划、程序、美术等的协同合作,每个职能又包括大量开发人员,开发周期中人员的流动,这些因素导致很难准确将bug定位到开发人员。
35.而相关技术中通常先收集线上报错的日志,进而找出日志中记录的报错文件以及代码行,再通过版本管理工具中的blame功能,找出最近一次的提交人,将其作为责任人。
36.申请人发现通过版本管理工具的blame功能查找责任人,1.只能找到代码开发人员,对于游戏而言,还会有策划配表以及美术资源的问题导致bug,因此不能覆盖全面。并且,由于blame功能极度依赖报错日志,无法根据功能bug描述来查找责任人,而在开发期的bug,往往都是没有报错日志的bug,因此无法找到责任人。再者,通过blame功能只能找到最近一次提交人,但最近一次提交人不一定就是功能负责人,到造成误报的错误。
37.因此,相关技术存在着游戏漏洞的追责不准确的问题。
38.正因如此,本技术提供了一种数据处理方法、装置、电子设备、存储介质及程序产品,根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系;根据预设编码算法对所述第一描述信息编码以确定文本特征;根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基
于所述样本数据集训练预构建的决策树模型以得到数据预测模型;根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者;根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集;将所述目标数据集输入所述数据预测模型以确定与所述第二描述信息之间相关度最高的目标日志提交者。通过对每个日志提交者以及其所提交的描述信息确定二者之间的映射关系,并利用根据描述信息确定的文本特征以及每个日志提交者的个人特征训练得到数据预测模型,保证每个提交过日志的提交者都能够被追责,在一定程度上增加了漏洞数据的追责准确性。进一步地,利用数据预测模型对出现的漏洞数据进行预测,以确定与该漏洞数据相关度最高的日志提交者,作为被追责的目标日志提交者,由于漏洞数据的追责准确性的提高,使得漏洞数据的修复速度能够得到进一步地提高且提高了数据的开发效率。
39.在一些具体的应用场景中,本技术的数据处理方法可以应用于各种涉及数据处理的系统中,该系统可以通过pc端来运行,也可以通过手机或者平板电脑等移动端来运行。
40.在一些具体的应用场景中,本技术的数据处理方法可以直接应用在本地运行,也可以在云端服务器中运行。当在云端服务器运行时,将获取的待处理数据通过网络发送到云端服务器,由服务器对待处理数据通过本技术的数据处理方法进行处理,并将处理结果通过网络发送到本地。
41.下面结合具体的应用场景,来描述根据本技术示例性实施方式的数据处理方法。需要注意的是,上述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式在此方面不受任何限制。相反,本技术的实施方式可以应用于适用的任何场景。
42.下面通过具体的实施例来对本技术实施例所提供的数据处理方法进行具体说明。
43.图1示出了本技术实施例所提供的一种数据处理方法的示例性流程示意图。
44.参考图1,本技术实施例所提供的一种数据处理方法,具体包括以下步骤:
45.s102:根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系。
46.s104:根据预设编码算法对所述第一描述信息编码以确定文本特征。
47.s106:根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基于所述样本数据集训练预构建的决策树模型以得到数据预测模型。
48.s108:根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者。
49.s110:根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集。
50.s112:将所述目标数据集输入所述数据预测模型以确定与所述第二描述信息之间相关度最高的目标日志提交者。
51.在一些实施例中,项目开发过程中,版本控制软件必不可少,svn(subversion,实质为开放源代码的版本控制系统)和git(实质是一个开源的分布式版本控制系统)是如今最流行的版本控制软件,代码的开发者会在每一次迭代时,上传提交日志。因此,在获取历史日志数据时,可以获取预设时间内的历史日志数据,例如收集svn上的近半年的提交日
志,共13000多条提交记录。
52.进一步地,可以对获取到的历史日志数据进行处理,可以根据历史日志数据查看到每一条提交记录(或者每一个历史日志)所对应的日志提交者(也即提交人),以及每一条提交记录(或者每一个历史日志)的日志提交者在提交该日志的时候所作出的日志提交描述,也即第一描述信息。
53.图2示出了根据本技术的实施例中的确定映射关系的示例性流程示意图。
54.再进一步地,可以通过jieba分词对第一描述信息进行分词处理,进而确定第一关键词和第一功能文本描述信息。参考图2,例如【杰克】、【角色制作】以及移动功能开发,其中,【杰克】、【角色制作】为第一关键词,“移动功能开发”为第一功能文本描述信息,用来表征与第一描述信息对应的这个历史日志的功能,可以确定该历史日志是用来开发移动功能的。
55.进而可以构建日志提交者与第一关键词之间相对应的字典,例如日志提交者为开发者a,第一关键词为【杰克】、【角色制作】,则字典中则记录有开发者a—【杰克】以及开发者a—【角色制作】的对应关系,根据该字典,可以确定日志提交者和第一描述信息之间的映射关系。
56.为了使该映射关系能够更加准确,可以获取预先构建的补充映射关系,具体地,该补充映射关系可以为预先制作的模块负责人表格,包括有预设日志提交者与第一描述信息之间的第一预设映射关系,以及日志提交者与预设描述信息之间的第二预设映射关系。进而根据字典以及该补充映射关系,二者的内容可以互补,从而形成完整的日志提交者和第一描述信息之间的映射关系。
57.在一些实施例中,将提交日志的文字描述分词后,得到提交日志的第一关键词和提交的第一功能文本描述信息,例如【杰克】、【角色制作】、移动功能开发,就会提取出杰克和角色制作两个第一关键词,“移动功能开发”的第一功能文本描述信息。进一步地,对第一功能文本描述信息进行分词并且和第一关键词组合,然后一起根据预设编码算法对其编码,从而确定文本特征。具体地,可以通过jieba分词进行分词和tf-idf算法对第一描述信息进行编码,其中,tf-idf是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
58.对于本技术的方法而言,可以对第一关键词以及第一功能文本描述信息进行jieba分词确定出多个第一分词,例如“杰克”,“角色制作”,“移动”,“功能”,“开发”。进一步地分别确定包含每个第一分词的多个第一目标历史日志,例如包含“杰克”这个分词的历史日志1、包含“角色制作”和“移动”这两个分词的历史日志2,以及包含“功能”和“开发”这两个分词的历史日志3。对于每个第一分词来说,可以确定该第一分词在第一目标历史日志中的出现次数,也即第一出现次数,例如历史日志数据包括多个历史日志,其中历史日志1包含了“杰克”这个分词,则可以确定“杰克”这个分词在历史日志1中的出现次数,作为“杰克”这个第一分词的第一出现次数。以此类推,可以统计各个第一分词在对应的历史日志中出现的次数。接着,可以确定第一目标历史日志中所有分词的第一分词总数,从而根据第一出现次数和第一文字总数确定第一分词相对于历史日志数据的第一词频,具体地算法如下:
59.tf(t1)=(第一出现次数)/(第一文字总数)
60.其中,t1表示第一分词。例如,当存在“杰克”,“角色制作”,“移动”,“功能”,“开发”这五个第一分词时,则分别计算每个第一分词的第一词频,分别为tf1(t1)、tf2(t1)、tf3(t1)、tf4(t1)以及tf5(t1)。
61.进一步地,可以确定历史日志的总数量,以及第一目标历史日志的第一数量,例如同时存在历史日志1和历史日志2中都包含有“移动”,“功能”,“开发”,则第一数量为2。进而,可以根据历史日志的总数量和第一数量确定第一分词相对于历史日志数据的第一逆向文件频率,具体算法如下:
62.idf(t1)=loge(历史日志的总数量/第一数量)
63.需要说明的是,依然对应每个第一分词分别确定每个第一分词的第一逆向文件频率,分别为idf1(t1)、idf2(t1)、idf3(t1)、idf4(t1)以及idf5(t1)。
64.再进一步地,可以根据第一词频和第一逆向文件频率基于tf-idf算法对第一分词进行编码,从而确定第一文本特征,具体算法如下:
65.tf-idf(t1)=tf(t1)*idf(t1)
66.需要说明的是,对应每个第一分词可以分别确定每个第一分词的第一文本特征,分别为tf-idf1(t1)、tf-idf2(t1)、tf-idf3(t1)、tf-idf4(t1)以及tf-idf5(t1)。根据多个第一文本特征可以确定文本特征。
67.通过上述步骤可以计算得到各个分词的tf-idf权重。假设所有提交历史中组成的词库总共含有10000个单词,其中“杰克”,“角色制作”,“移动”,“功能”,“开发”这、五个第一分词分别对应1,2,3,4,5的编号,则“【杰克】、【角色制作】、移动功能开发”这个文本描述信息就可以转化为1*10000的向量,其中第1,2,3,4,5列的值为各个分词的tf-idf权重,其他列都为0。
68.需要说明的是根据tf-idf算法生成的文本特征过于稀疏,文本特征的维度等于词库的大小,可以采用pca算法将其降维至300维,得到降维后的文本特征。
69.在一些实施例中,可以将文本特征与每个日志提交者对应的第一个人特征进行拼接,从而得到能够用来训练预构建的决策树模型的样本数据集。参考图2,第一个人特征可以包括每个日志提交者在以往工作中的bug率、日志提交总次数、最近一次提交日志的时间、负责的模块以及职能,例如对于开发者a这个日志提交者而言,第一个人特征可以包括“bug率:10%”以及“最近一次提交时间:一天前”,对于开发者b而言,第一个人特征可以包括“bug率:10%”以及“最近一次提交时间:一天前”。
70.图3示出了根据本技术的实施例中的数据预测模型训练过程的示例性示意图。
71.进一步地,参考图3,对于每一条文本特征而言,都可以分别与每个第一个人特征进行拼接,从而得到多个第一样本数据,并根据多个第一样本数据确定第一样本数据集。例如,对于文本特征1而言,如果仅存在开发者a,且开发者a的第一个人特征“bug率:10%”以及“最近一次提交时间:一天前”,则将文本特征1分别与“bug率:10%”以及“最近一次提交时间:一天前”拼接,得到文本特征1
‑“
bug率:10%”以及文本特征1一“最近一次提交时间:一天前”这两个第一样本数据,从而根据这两个第一样本数据确定第一样本数据集。进而得到每一条文本特征对应的第一样本数据集,根据全部第一样本数据集确定样本数据集,将其作为预构建的决策树模型的输入。其中,预构建的决策树模型可以选择lightgbm模型。
72.再进一步地,可以根据预设比例将样本数据集划分为用于训练预构建的决策树模
型的训练集以及用于测试数据预测模型的测试集,例如按照4:1的比例划分训练集和测试集。将训练集输入预构建的决策树模型以确定用于表征第一描述信息与日志提交者之间相关度的训练结果,当训练结果达到预设训练结果,或者达到预设训练轮次时,可以根据测试集对预构建的决策树模型进行调整,输入测试集,根据得到的输出结果调整预构建的决策树模型的模型参数,进而得到数据预测模型。
73.再进一步地,为了保证数据预测模型能够更加准确地预测第一描述信息与日志提交者之间相关度,可以对样本数据集中的每一条数据设置标签。具体地,可以确定训练集中的第一个人特征对应的第一日志提交者和与该第一个人特征相拼接的文本特征所对应的第二日志提交者是否相同,如果第一日志提交者和第二日志提交者相同,则对相拼接的第一个人特征和文本特征设置第一标签。例如,第一个人特征为“bug率:10%”,且其对应的第一日志提交者为开发者a,并且与第一个人特征“bug率:10%”进行拼接的文本特征1,在进行编码前为第一功能文本描述信息“移动功能开发”,且“移动功能开发”对应的第二日志提交者也为开发者a,则证明该条拼接后的样本数据为正样本,则可以为其设置第一标签,例如1。
74.需要说明的是,如果第一日志提交者和第二日志提交者不同,则对相拼接的第一个人特征和文本特征设置第二标签。例如,第一个人特征为“bug率:10%”,且其对应的第一日志提交者为开发者a,并且与第一个人特征“bug率:10%”进行拼接的文本特征2,在进行编码前为第一功能文本描述信息“技能功能开发”,且“技能功能开发”对应的第二日志提交者为开发者b,则证明该条拼接后的样本数据为负样本,则可以为其设置第二标签,例如0。从而根据样本数据集和标签对lightgbm模型进行回归训练,训练第一功能文本描述信息和日志提交者之间的相关性。
75.图4示出了根据本技术的实施例中的候选日志提交者的确定过程的示例性示意图。
76.在一些实施例中,参考图4,采用基于功能的过滤来召回一系列有相关功能提交的开发者,也即在获取到当前的漏洞数据后,确定应该对该漏洞数据负责的候选日志提交者。具体地,可以对预先获取到的当前漏洞数据中的第二描述信息进行分词,从而确定第二关键词,例如得到的第二关键词为【杰克】【角色制作】,进一步地,可以根据前述实施例中确定的映射关系,确定日志提交者与第一关键词之间相对应的字典,确定该字典中是否存在与第二关键词相同的第一关键词,如果该字典中存在与第二关键词相同的第一关键词,则可以将与第一关键词对应的日志提交者作为与第二描述信息对应的候选日志提交者,进而找出所有与当前漏洞数据相关的日志提交者,得到候选日志提交者集合(也即图4中的候选人集合)。
77.图5示出了根据本技术的实施例中的目标日志提交者的确定过程的示例性示意图。
78.在一些实施例中,可以利用训练好的数据预测模型从候选日志提交者中确定最终的为当前漏洞数据负责的目标日志提交者,因此可以根据第二描述信息确定能够用于输入至数据预测模型的模型输入值。具体地,可以对第二关键词以及第二功能文本描述信息进行jieba分词确定出多个第一分词,例如“移动”,“功能”,“开发”。进一步地分别确定包含每个第二分词的多个第二目标历史日志,例如包含“移动”这个分词的历史日志5,以及包含“功能”和“开发”这两个分词的历史日志6。对于每个第二分词来说,可以确定该第二分词在第二目标历史日志中的出现次数,也即第二出现次数,例如历史日志数据包括多个历史日志,其中历史日志5包含了“移动”这个分词,则可以确定“移动”这个分词在历史日志5中的出现次数,作为“移动”这个第二分词的第二出现次数。以此类推,可以统计各个第二分词在对应的历史日志中出现的次数。接着,可以确定第二目标历史日志中所有分词的第二分词总数,从而根据第二出现次数和第二文字总数确定第二分词相对于历史日志数据的第二词频,具体地算法如下:
79.tf(t2)=(第二出现次数)/(第二文字总数)
80.其中,t2表示第二分词。例如,当存在“移动”,“功能”,“开发”这三个第二分词时,则分别计算每个第二分词的第二词频,分别为tf1(t2)、tf2(t2)以及tf3(t2)。
81.进一步地,可以确定历史日志的总数量,以及第二目标历史日志的第二数量,例如同时存在历史日志1和历史日志2中都包含有“移动”,“功能”,“开发”,则第二数量为2。进而,可以根据历史日志的总数量和第二数量确定第二分词相对于历史日志数据的第二逆向文件频率,具体算法如下:
82.idf(t2)=loge(历史日志的总数量/第二数量)
83.需要说明的是,依然对应每个第二分词分别确定每个第二分词的第二逆向文件频率,分别为idf1(t2)、idf2(t2)以及idf3(t2)。
84.再进一步地,可以根据第二词频和第二逆向文件频率基于tf-idf算法对第二分词进行编码,从而确定第二文本特征,具体算法如下:
85.tf-idf(t2)=tf(t2)*idf(t2)
86.需要说明的是,对应每个第二分词可以分别确定每个第二分词的第二文本特征,分别为tf-idf1(t2)、tf-idf2(t2)以及tf-idf3(t2)。根据多个第二文本特征可以确定目标文本特征。
87.再进一步地,可以将得到的目标文本特征分别与每个候选日志提交者对应的第二个人特征进行拼接,进而确定目标数据集,其中第二个人特征同样可以包括每个日志提交者在以往工作中的bug率、日志提交总次数、最近一次提交日志的时间、负责的模块以及职能,例如对于开发者a这个日志提交者而言,第一个人特征可以包括“bug率:10%”以及“最近一次提交时间:一天前”,对于开发者b而言,第一个人特征可以包括“bug率:10%”以及“最近一次提交时间:一天前”。
88.将目标数据集输入至数据预测模型中,从而确定每个候选日志提交者与目标文本特征之间的相关度,从而根据该相关度确定每个候选日志提交者与当前漏洞数据的第二描述信息之间的目标相关度。进而可以根据目标相关度从高到低排序,选择目标相关度最高的候选日志提交者作为为当前漏洞数据负责的目标日志提交者。或者可以根据目标相关度从高到低确定目标数量的目标日志提交者,例如将目标相关度最高的前三个候选日志提交者作为为当前漏洞数据负责的目标日志提交者,结合全部目标日志提交者对当前漏洞数据进行修复。
89.从上面所述可以看出,本技术提供的一种数据处理方法、装置、电子设备、存储介质及程序产品,根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系;根据预设编码算法对所述第一描述信息编码以确定文本
特征;根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基于所述样本数据集训练预构建的决策树模型以得到数据预测模型;根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者;根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集;将所述目标数据集输入所述数据预测模型以确定与所述第二描述信息之间相关度最高的目标日志提交者。通过对每个日志提交者以及其所提交的描述信息确定二者之间的映射关系,并利用根据描述信息确定的文本特征以及每个日志提交者的个人特征训练得到数据预测模型,保证每个提交过日志的提交者都能够被追责,在一定程度上增加了漏洞数据的追责准确性。进一步地,利用数据预测模型对出现的漏洞数据进行预测,以确定与该漏洞数据相关度最高的日志提交者,作为被追责的目标日志提交者,由于漏洞数据的追责准确性的提高,使得漏洞数据的修复速度能够得到进一步地提高且提高了数据的开发效率。
90.需要说明的是,本技术实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
91.需要说明的是,上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
92.图6示出了本技术实施例所提供的一种数据处理装置的示例性结构示意图。
93.基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种数据处理装置。
94.参考图6,所述数据处理装置包括:第一确定模块、编码模块、训练模块、第二确定模块、第三确定模块以及第四确定模块模块;其中,
95.第一确定模块,被配置为根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系;
96.编码模块,被配置为根据预设编码算法对所述第一描述信息编码以确定文本特征;
97.训练模块,被配置为根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基于所述样本数据集训练预构建的决策树模型以得到数据预测模型;
98.第二确定模块,被配置为根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者;
99.第三确定模块,被配置为根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集;
100.第四确定模块,被配置为将所述目标数据集输入所述数据预测模型以确定与所述
第二描述信息之间相关度最高的目标日志提交者。
101.在一种可能的实现方式中,所述第一描述信息,包括:第一关键词和第一功能文本描述信息;
102.所述第一确定模块进一步被配置为:
103.获取预设时间内的历史日志数据,并根据所述历史日志数据确定所述日志提交者以及所述日志提交者所提交的第一描述信息;
104.对所述第一描述信息进行分词以确定所述第一关键词和所述第一功能文本描述信息;
105.构建所述日志提交者与所述第一关键词之间相对应的字典,并根据所述字典确定所述日志提交者和所述第一描述信息之间的映射关系。
106.在一种可能的实现方式中,所述第一确定模块进一步被配置为:
107.构建所述日志提交者与所述第一关键词之间相对应的字典;
108.获取预先构建的补充映射关系;其中,所述补充映射关系,包括:预设日志提交者与所述第一描述信息之间的第一预设映射关系,以及所述日志提交者与预设描述信息之间的第二预设映射关系;
109.根据所述字典和所述补充映射关系确定所述日志提交者和所述第一描述信息之间的映射关系。
110.在一种可能的实现方式中,所述历史日志数据,包括:多个历史日志;
111.所述编码模块进一步被配置为:
112.对所述第一关键词和第一功能文本描述信息进行分词以确定多个第一分词,并分别确定包含每个所述第一分词的多个第一目标历史日志;
113.对于每个第一分词,
114.确定所述第一分词在对应的所述第一目标历史日志中的第一出现次数,以及所述第一目标历史日志中所有分词的第一分词总数,
115.根据所述第一出现次数和所述第一分词总数确定所述第一分词相对于所述历史日志数据的第一词频,
116.确定所述历史日志的总数量以及所述第一目标历史日志的第一数量,
117.根据所述历史日志的总数量和所述第一数量确定所述第一分词相对于所述历史日志数据的第一逆向文件频率,
118.根据所述第一词频和所述第一逆向文件频率基于所述预设编码算法对所述第一分词编码以确定第一文本特征;
119.根据多个所述第一文本特征确定所述文本特征。
120.在一种可能的实现方式中,所述训练模块进一步被配置为:
121.针对每条文本特征,
122.分别与每个第一个人特征进行拼接以得到多个第一样本数据,并根据所述多个第一样本数据确定第一样本数据集;
123.根据多个所述第一样本数据集以确定所述样本数据集。
124.在一种可能的实现方式中,所述训练模块进一步被配置为:
125.根据预设比例将所述样本数据集划分为用于训练所述预构建的决策树模型的训
练集以及用于测试所述数据预测模型的测试集;
126.将所述训练集输入所述预构建的决策树模型以确定用于表征所述第一描述信息与所述日志提交者之间相关度的训练结果;
127.响应于所述训练结果达到预设训练结果,则根据所述测试集调整所述预构建的决策树模型以得到所述数据预测模型。
128.在一种可能的实现方式中,所述训练模块进一步被配置为:
129.确定所述训练集中的第一个人特征对应的第一日志提交者和与所述第一个人特征相拼接的文本特征所对应的第二日志提交者是否相同;
130.响应于所述第一日志提交者和所述第二日志提交者相同,则对相拼接的第一个人特征和所述文本特征设置第一标签;
131.将所述训练集和所述第一标签输入所述预构建的决策树模型以确定所述训练结果。
132.在一种可能的实现方式中,所述训练模块进一步被配置为:
133.响应于所述第一日志提交者和所述第二日志提交者不同,则对相拼接的第一个人特征和所述文本特征设置第二标签;
134.将所述训练集和所述第二标签输入所述预构建的决策树模型以确定所述训练结果。
135.在一种可能的实现方式中,所述第二描述信息,包括:第二关键词;
136.所述第二确定模块进一步还被配置为:
137.对预先获取到的当前漏洞数据中的所述第二描述信息进行分词以确定所述第二关键词;
138.根据所述映射关系确定所述日志提交者与所述第一关键词之间相对应的字典,并确定是否存在与所述第一关键词相同的第二关键词;
139.响应于存在与所述第一关键词相同的第二关键词,则将与所述第一关键词对应的日志提交者作为与所述第二描述信息对应的候选日志提交者。
140.在一种可能的实现方式中,所述历史日志数据,包括:多个历史日志;所述第二描述信息,还包括:第二关键词和第二功能文本描述信息;
141.所述第三确定模块被配置为:
142.对所述第二关键词和第二功能文本描述信息进行分词以确定多个第二分词,并分别确定包含每个所述第二分词的多个第二目标历史日志;
143.对于每个第二分词,
144.确定所述第二分词在对应的所述第二目标历史日志中的第二出现次数,以及所述第二目标历史日志中所有分词的第二分词总数,
145.根据所述第二出现次数和所述第二分词总数确定所述第二分词相对于所述历史日志数据的第二词频,
146.确定所述历史日志的总数量以及所述第二目标历史日志的第二数量,根据所述历史日志的总数量和所述第二数量确定所述第二分词相对于所述历史日志数据的第二逆向文件频率,
147.根据所述第二词频和所述第二逆向文件频率基于所述预设编码算法对所述第二
分词编码以确定第二文本特征;
148.根据多个所述第二文本特征确定所述目标文本特征。
149.在一种可能的实现方式中,所述第三确定模块进一步被配置为:
150.将所述目标文本特征分别与每个候选日志提交者对应的第二个人特征进行拼接以确定所述目标数据集。
151.在一种可能的实现方式中,所述第四确定模块进一步被配置为:
152.将所述目标数据集输入所述数据预测模型以确定每个所述候选日志提交者与所述目标文本特征之间的相关度以确定每个所述候选日志提交者与所述第二描述信息之间的目标相关度;
153.根据所述目标相关度从高到低确定目标数量的目标日志提交者。
154.为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
155.上述实施例的装置用于实现前述任一实施例中相应的数据处理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
156.图7示出了本技术实施例所提供的一种电子设备的示例性结构示意图。
157.基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的数据处理方法。图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器710、存储器720、输入/输出接口730、通信接口740和总线750。其中处理器710、存储器720、输入/输出接口730和通信接口740通过总线750实现彼此之间在设备内部的通信连接。
158.处理器710可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
159.存储器720可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器720可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器720中,并由处理器710来调用执行。
160.输入/输出接口730用于连接输入/输出模块,以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
161.通信接口740用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
162.总线750包括一通路,在设备的各个组件(例如处理器710、存储器720、输入/输出接口730和通信接口740)之间传输信息。
163.需要说明的是,尽管上述设备仅示出了处理器710、存储器720、输入/输出接口730、通信接口740以及总线750,但是在具体实施过程中,该设备还可以包括实现正常运行
所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
164.上述实施例的电子设备用于实现前述任一实施例中相应的数据处理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
165.基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的数据处理方法。
166.本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
167.上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的数据处理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
168.基于同一发明构思,与上述任意实施例所述的数据处理方法相对应的,本公开还提供了一种计算机程序产品,其包括计算机程序指令。在一些实施例中,所述计算机程序指令可以由计算机的一个或多个处理器执行以使得所述计算机和/或所述处理器执行所述的数据处理方法。对应于所述的数据处理方法各实施例中各步骤对应的执行主体,执行相应步骤的处理器可以是属于相应执行主体的。
169.上述实施例的计算机程序产品用于使所述计算机和/或所述处理器执行如上任一实施例所述的数据处理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
170.所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
171.另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
172.尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
173.本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修
改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:
1.一种数据处理方法,其特征在于,所述方法包括:根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系;根据预设编码算法对所述第一描述信息编码以确定文本特征;根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基于所述样本数据集训练预构建的决策树模型以得到数据预测模型;根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者;根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集;将所述目标数据集输入所述数据预测模型以确定与所述第二描述信息之间相关度最高的目标日志提交者。2.根据权利要求1所述的方法,其特征在于,所述第一描述信息,包括:第一关键词和第一功能文本描述信息;所述根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系,包括:获取预设时间内的历史日志数据,并根据所述历史日志数据确定所述日志提交者以及所述日志提交者所提交的第一描述信息;对所述第一描述信息进行分词以确定所述第一关键词和所述第一功能文本描述信息;构建所述日志提交者与所述第一关键词之间相对应的字典,并根据所述字典确定所述日志提交者和所述第一描述信息之间的映射关系。3.根据权利要求2所述的方法,其特征在于,所述构建所述日志提交者与所述第一关键词之间相对应的字典,并根据所述字典确定所述日志提交者和所述第一描述信息之间的映射关系,包括:构建所述日志提交者与所述第一关键词之间相对应的字典;获取预先构建的补充映射关系;其中,所述补充映射关系,包括:预设日志提交者与所述第一描述信息之间的第一预设映射关系,以及所述日志提交者与预设描述信息之间的第二预设映射关系;根据所述字典和所述补充映射关系确定所述日志提交者和所述第一描述信息之间的映射关系。4.根据权利要求2所述的方法,其特征在于,所述历史日志数据,包括:多个历史日志;所述根据预设编码算法对所述第一描述信息编码以确定文本特征,包括:对所述第一关键词和第一功能文本描述信息进行分词以确定多个第一分词,并分别确定包含每个所述第一分词的多个第一目标历史日志;对于每个第一分词,确定所述第一分词在对应的所述第一目标历史日志中的第一出现次数,以及所述第一目标历史日志中所有分词的第一分词总数,根据所述第一出现次数和所述第一分词总数确定所述第一分词相对于所述历史日志数据的第一词频,
确定所述历史日志的总数量以及所述第一目标历史日志的第一数量,根据所述历史日志的总数量和所述第一数量确定所述第一分词相对于所述历史日志数据的第一逆向文件频率,根据所述第一词频和所述第一逆向文件频率基于所述预设编码算法对所述第一分词编码以确定第一文本特征;根据多个所述第一文本特征确定所述文本特征。5.根据权利要求1所述的方法,其特征在于,所述根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,包括:针对每条文本特征,分别与每个第一个人特征进行拼接以得到多个第一样本数据,并根据所述多个第一样本数据确定第一样本数据集;根据多个所述第一样本数据集以确定所述样本数据集。6.根据权利要求5所述的方法,其特征在于,所述基于所述样本数据集训练预构建的决策树模型以得到数据预测模型的训练过程,包括:根据预设比例将所述样本数据集划分为用于训练所述预构建的决策树模型的训练集以及用于测试所述数据预测模型的测试集;将所述训练集输入所述预构建的决策树模型以确定用于表征所述第一描述信息与所述日志提交者之间相关度的训练结果;响应于所述训练结果达到预设训练结果,则根据所述测试集调整所述预构建的决策树模型以得到所述数据预测模型。7.根据权利要求6所述的方法,其特征在于,所述将所述训练集输入所述预构建的决策树模型以确定用于表征所述第一描述信息与所述日志提交者之间相关度的训练结果,包括:确定所述训练集中的第一个人特征对应的第一日志提交者和与所述第一个人特征相拼接的文本特征所对应的第二日志提交者是否相同;响应于所述第一日志提交者和所述第二日志提交者相同,则对相拼接的第一个人特征和所述文本特征设置第一标签;将所述训练集和所述第一标签输入所述预构建的决策树模型以确定所述训练结果。8.根据权利要求7所述的方法,其特征在于,所述确定所述训练集中的第一个人特征对应的第一日志提交者和与所述第一个人特征相拼接的文本特征所对应的第二日志提交者是否相同之后,还包括:响应于所述第一日志提交者和所述第二日志提交者不同,则对相拼接的第一个人特征和所述文本特征设置第二标签;将所述训练集和所述第二标签输入所述预构建的决策树模型以确定所述训练结果。9.根据权利要求2所述的方法,其特征在于,所述第二描述信息,包括:第二关键词;所述根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者,包括:对预先获取到的当前漏洞数据中的所述第二描述信息进行分词以确定所述第二关键词;
根据所述映射关系确定所述日志提交者与所述第一关键词之间相对应的字典,并确定是否存在与所述第一关键词相同的第二关键词;响应于存在与所述第一关键词相同的第二关键词,则将与所述第一关键词对应的日志提交者作为与所述第二描述信息对应的候选日志提交者。10.根据权利要求1所述的方法,其特征在于,所述历史日志数据,包括:多个历史日志;所述第二描述信息,还包括:第二关键词和第二功能文本描述信息;所述根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,包括:对所述第二关键词和第二功能文本描述信息进行分词以确定多个第二分词,并分别确定包含每个所述第二分词的多个第二目标历史日志;对于每个第二分词,确定所述第二分词在对应的所述第二目标历史日志中的第二出现次数,以及所述第二目标历史日志中所有分词的第二分词总数,根据所述第二出现次数和所述第二分词总数确定所述第二分词相对于所述历史日志数据的第二词频,确定所述历史日志的总数量以及所述第二目标历史日志的第二数量,根据所述历史日志的总数量和所述第二数量确定所述第二分词相对于所述历史日志数据的第二逆向文件频率,根据所述第二词频和所述第二逆向文件频率基于所述预设编码算法对所述第二分词编码以确定第二文本特征;根据多个所述第二文本特征确定所述目标文本特征。11.根据权利要求1所述的方法,其特征在于,将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集,包括:将所述目标文本特征分别与每个候选日志提交者对应的第二个人特征进行拼接以确定所述目标数据集。12.根据权利要求1所述的方法,其特征在于,所述将所述目标数据集输入所述数据预测模型以确定与所述第二文本信息之间相关度最高的目标日志提交者,包括:将所述目标数据集输入所述数据预测模型以确定每个所述候选日志提交者与所述目标文本特征之间的相关度以确定每个所述候选日志提交者与所述第二描述信息之间的目标相关度;根据所述目标相关度从高到低确定目标数量的目标日志提交者。13.一种数据处理装置,其特征在于,所述装置包括:第一确定模块,被配置为根据预先获取到的历史日志数据确定日志提交者和所述日志提交者所提交的第一描述信息之间的映射关系;编码模块,被配置为根据预设编码算法对所述第一描述信息编码以确定文本特征;训练模块,被配置为根据与所述日志提交者对应的第一个人特征和所述文本特征进行拼接以得到样本数据集,并基于所述样本数据集训练预构建的决策树模型以得到数据预测模型;第二确定模块,被配置为根据所述映射关系确定与预先获取到的当前漏洞数据中的第二描述信息对应的候选日志提交者;
第三确定模块,被配置为根据所述预设编码算法对所述第二描述信息编码以确定目标文本特征,并将与所述候选日志提交者对应的第二个人特征和所述目标文本特征进行拼接以确定目标数据集;第四确定模块,被配置为将所述目标数据集输入所述数据预测模型以确定与所述第二描述信息之间相关度最高的目标日志提交者。14.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至12任意一项所述的方法。15.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使所述计算机实现权利要求1至12任一项所述的方法。16.一种计算机程序产品,包括计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的方法。
技术总结
本申请提供一种数据处理方法、装置、电子设备、存储介质及程序产品。该方法包括:根据历史日志数据确定日志提交者和日志提交者的第一描述信息之间的映射关系;根据预设编码算法对第一描述信息编码以确定文本特征;根据第一个人特征和文本特征进行拼接以得到样本数据集,并基于样本数据集训练预构建的决策树模型以得到数据预测模型;根据映射关系确定与当前漏洞数据中的第二描述信息对应的候选日志提交者;根据预设编码算法对第二描述信息编码以确定目标文本特征,并将与候选日志提交者对应的第二个人特征和目标文本特征进行拼接以确定目标数据集;将目标数据集输入数据预测模型以确定与第二描述信息之间相关度最高的目标日志提交者。日志提交者。日志提交者。
技术研发人员:泮求亮 李宫
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2023.06.07
技术公布日:2023/8/23
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/