一种面向不平衡网络的恶意软件检测方法
未命名
07-27
阅读:71
评论:0

1.本发明属于网络与信息安全技术领域,具体涉及一种面向不平衡网络的恶意软件检测方法。
背景技术:
2.随着恶意软件的数量急剧增加,给计算机和移动设备的安全造成了严重的破坏和威胁。近几十年来,恶意软件检测一直受到恶意软件行业和研究人员的关注,尤其是对于安卓平台迫切的需要一种能够保护移动用户免受威胁的防御技术。
3.近年来,深度学习已被提出用于恶意软件检测,以克服特征工程的阻碍,并有望复制深度学习在图像分类和文本分类中的成功。使用深度学习的好处是:基于深度学习模型的分层结构增强了抽象和高度非线性模式的学习,这有助于捕捉复杂数据的内在特征;深度神经网络结构允许自动学习特征,并且具有多个抽象级别,将安全专家从劳动密集型和可能容易出错的特征工程任务中解脱出来;具体而言,深度学习方法通常比传统机器学习方法更适合捕获软件应用中的语义知识,特别是当存在足够的数据来学习有意义的语义嵌入时。
4.目前对于恶意样本的提取存在重重困难,一个是良性样本是远多于恶意样本的,第二是对于恶意样本的提取存在危险性和复杂性,存在安全隐患。所以大多的恶意软件数据集是存在不平衡的数量的问题,数据的不平衡性会导致深度学习中的嵌入表示会更加对多数类样本倾斜,使得分类效果不佳。
技术实现要素:
5.为解决以上现有技术存在的问题,本发明提出了一种面向不平衡网络的恶意软件检测方法,该方法包括:构建不平衡网络的恶意检测模型,获取待检测软件的应用数据,将待检测软件的应用数据输入到恶意软件检测模型中,得到检测结果;
6.采用恶意软件检测模型对待检测的应用数据进行处理的过程包括:
7.s1:根据待检测软件的应用数据构建图结构网络;
8.s2:采用de-gan算法对图结构网络进行平衡性增强补全处理,得到平衡数据;
9.s3:采用不同元路径对平衡数据进行特征提取,根据提取的特征构建异质网络模型;
10.s4:采用ho2vec算法提取异质网络模型中实体节点的隐性特征,对隐性特征进行残差连接和恒等映射,得到节点的单条元路径嵌入表示;
11.s5:采用自注意力机制对不同的元路径的嵌入表示进行语义级别的融合,得到最终嵌入表示;
12.s6:采用分类器对最终嵌入表示进行分类,得到待测软件检测结果。
13.优选的,采用de-gan算法对待检测软件的应用数据中的不平衡节点进行数据补全的过程包括:
14.s11:采用图结构生成器对图结构网络中的少数类节点进行数据补全;
15.s12:采用两层gcn的辨别器对图结构生成器生成的数据进行判别,若生成的数据为假,则重复生成数据,若生成的数据为真,则输出的图结构生成器补全的数据;
16.s13:重复步骤s11和步骤s12,直到数据平衡,得到补全后的平衡数据,该平衡数据包含数据之间的平衡拓扑链接关系。
17.进一步的,采用图结构生成器对少数类节点进行数据补全的过程包括:生成器网络的结构包括三层全连接层,其中最后一层使用tanh激活函数;计算少数类节点中不平衡类别数量之间差值,并将该差值作为生成器的最后输出的维度;计算生成器的损失函数,该损失函数为交叉熵损失函数,当损失函数收敛时输出生成器生成的数据。
18.优选的,采用不同元路径对平衡数据节点进行特征提取的过程包括:平衡数据节点数据包括反编译获取各类特征和配置文件;提取平衡数据节点数据的关键特征,关键特征包括api、权限、活动、服务以及意图;根据关键特征构建异质图,并采用多个元路径将异质图转化为多个同质图,所有的同质图构成异质网络模型。
19.进一步的,采用多个元路径将异质图转化为多个同质图的过程包括:
20.步骤1:获取待检测软件的数据信息,该数据信息包括代码文件、配置文件以及签名信息;
21.步骤2:提取数据信息中的五类实体作为软件的关键特征,五类实体包括api、权限、活动、服务以及意图;
22.步骤3:根据五类实体以及app实体构建异质图网络;
23.步骤4:根据待检测软件的五类实体构建不同的元结构,获取各个元结构的邻接矩阵;
24.步骤5:对各个元路径下的邻接矩阵进行点乘,得到基于该元路径的同质图。
25.优选的,采用ho2vec算法提取异质网络模型中实体节点的隐性特征的过程包括:
26.步骤1:获取异质网络模型中的图结构数据表示,并将图结构数据表示作为ho2vec模型的输入特征矩阵,该矩阵包含关于图中节点和边的信息;创建一个邻接矩阵,该邻接矩阵表示图中节点之间的连通性;
27.步骤2:采用单层神经网络构成的映射函数将图结构数据表示中的不同元路径中初始节点的信息投影到想同维度的语义空间,得到节点的初始特征;
28.步骤3:采用改进的ho2vec模型对节点的初始特征进行深层特征提取,并采用随机梯度下降算法对模型中的参数进行优化,得到节点的单条元路径嵌入表示。
29.优选的,改进的ho2vec模型包括:在ho2vec模型的第一层和输出层之间设置初始残差映射模块;在ho2vec模型的每一层输出特征进行恒等映射,将恒等映射结果作为下一层的输入;在ho2vec模型中加入多个gcn层,每个gcn层使用邻接矩阵对输入特征矩阵进行线性变换;在gcn层后采用池化层降低输出特征矩阵的维度。
30.优选的,采用自注意力机制对不同的元路径的嵌入表示进行语义级别的融合的过程包括:获取每个元结构的学习权重,并构建为权重矩阵;根据自注意力机制通过权重矩阵计算每个元结构的重要性;根据后的每个元结构的重要性对不同元结构的高阶特征进行融合,得到融合后的节点嵌入向量表示。
31.本发明的有益效果:
32.本发明针对真实andriod恶意软件数据集的不平衡性,采用生成器来模拟少数类节点的分布并生成一组少数类节点从而使得原始网络中的类别平衡;本发明为了学习更具代表性的软件节点嵌入,利用多种元路径进行语义探索,最后在语义融合阶段中使用了注意力机制,可以学习不同元路径对当前节点的重要性,从而对节点的内容特征的表达更加全面和准确;本发明为了解决因模型堆叠而使得指数级增长的高阶邻居带来的过平滑影响,在节点的特征融合阶段,先对领居节点进行一个k采样操作,加入初始残差和恒等映射(即在每一层,初始残差从输入层构造一个跳跃连接,而恒等映射将单位矩阵添加到权重矩阵)。这种三种操作可以有效防止过平滑,使得在深层图神经网络能够捕捉到每个节点的特征,并通过更深层次的神经网络结构来学习可区分的节点嵌入。
附图说明
33.图1为本发明实施例中一种恶意软件的检测方法的示意图;
34.图2为本发明优选实施例中的一种恶意软件的检测方法的流程图;
35.图3为本发明实施例中所采用de-gan模型示意图;
36.图4为本发明实施例中采用的元结构示意图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
38.针对现有的恶意软件检测方法中数据样本不平衡以及对信息挖掘不全面的问题,本发明提出了一种面向不平衡网络的恶意软件检测方法,该方法包括:构建不平衡网络的恶意检测模型,获取待检测软件的应用数据,将待检测软件的应用数据输入到恶意软件检测模型中,得到检测结果。
39.在本实施例中,不平衡网络的恶意检测模型,首先,利用生成对抗网络对数据节点增强的特点,将数据集中的不平衡节点进行数据补全。同时,考虑到异质信息网络对网络中挖掘隐藏信息和语义结构的优势,采用异质信息网络进行构建模型。最后,在深层的模型加入采样、初始残差和恒等映射的操作,获取节点的高阶属性来增强原始节点嵌入,从而缓解过平滑问题。基于此方法,不仅能更好的挖掘软件节点间的语义关系,并且还可以提升了未知恶意软件的检测速度。
40.如图2所示,采用恶意软件检测模型对待检测软件的应用数据进行处理的过程包括:
41.s1、利用de-gan算法对数据集进行数据增强操作,将数据集中的不平衡节点(恶意软件节点)进行数据补全;
42.s2、采用不同的元路径对输入的平衡数据节点进行特征提取,根据提取的特征构建异质网络模型;
43.s3、采用ho2vec算法对异质网络中的实体节点提取隐性特征,利用残差连接和恒等映射的手段获取高阶信息,得到节点的单条元路径的嵌入表示;
44.s4、采用自注意力机制对不同的元路径的嵌入表示进行语义级别的融合,得到最终嵌入表示,使用分类器进行分类,得到待测软件检测结果。
45.一种面向不平衡网络的恶意软件检测方法的具体实施方式,如图1所示,所述恶意软件的检测方法首先需要将数据输入到de-gan中进行数据增强操作;再利用不同的元路径提取出恶意软件的同质图特征空间,在这个特征空间中,使用ho2vec算法提取软件节点的高阶特征;使用每条元结构上添加自注意力机制,获取经过元结构融合后的节点嵌入向量表示,最后将向量输入到分类器中,得的二分类结果。
46.一种恶意软件的快速检测方法的具体实施方式,包括:对不平衡节点的数据增强;恶意软件的特征提取;根据所获取的软件节点行为数据提取软件节点的高阶特征属性;采用自注意力机制融合不同元结构的嵌入向量表示。
47.在本实施例中,如图3所示,为了使得模型不因为节点不平衡而导致数据分布倾斜,采用de-gan算法进行数据增强操作,该过程包括:设计图结构生成器,本方法中的图结构生成器与传统的gan处理数据不同,传统gan网络需要学习数据的特征分布。而对于图结构数据,本发明的生成器主要目标是学习网络拓扑结构分布(例如,节点链接关系)。本发明提出了一种新的图数据生成器,该生成器能够生成合成少数类节点与真实类的少数节点之间的节点链接关系,合成少数类的节点特征通过对链接的真实少数类节点的特征进行平均得到。
48.图结构生成器g
graph
:z
→f×
t一个全连接的神经网络,其中z是具有dz维的噪声空间,f、t分别是网络特征空间和网络结构空间。具体来说,对于一个不平衡的网络g
im
=(v,e,a,x,c),令n
maj
和n
min
分别以n=n
maj
+n
min
代表多数节点数和少数节点数。令ng=n
maj-n
min
代表平衡网络类分布需要生成的节点数。因此,输入层的维数为dz,输出层的维数为d0=ng×nmin
。为了更好地理解,转换输出向量成矩阵形式然后应用softmax(oi)函数将o中的每一行归一化为等式:
[0049][0050]
其中,oi表示每个生成的少数节点到所有真实少数节点之间的链接关系;每个元素t
ij
表示生成节点ui∈u与原始少数节点vj∈v之间的链接归一化权重,其中u是生成的少数节点的集合;t表示生成的少数节点和原始少数节点之间的网络拓扑结构信息。
[0051]
为了生成少数类节点的节点属性特征将每个生成的少数节点的邻居节点属性特征聚合为式:
[0052]
xg=tx
min
[0053]
其中,原始不平衡网络g
im
的真实少数类节点的特征矩阵。并且f是原始少数节点特征的维度。
[0054]
本发明利用两层gcn作为判别器,gcn的输入是新的网络g
bal
=(v
′
,e
′
,a
′
,x
′
,c
′
),由图结构生成器生成的少数类节点合并到的不平衡网络g
im
,此时网络中具有平衡类别分布,其中v
′
表示由g
im
中的节点和图结构生成器生成的少数节点组成的新节点集,e
′
表示由g
im
中的所有边和由图结构生成器产生的边组成的新边集,a
′
和x
′
分别是与v相关联的新邻接矩阵和特征矩阵。c={(real,minority)),(real,majority),(fake,minority)}代表设
置的节点标签。值得注意的是,图结构生成器不生成多数节点,因此标签(fake,majoriit)不包含到c中。
[0055]
鉴别器的目标是区分节点是否由生成器生成(即假),以及节点是否为少数类。因此,利用gcn作为节点多类分类分类器,gcn的输出y计算如下:
[0056][0057][0058]
其中ω0和ω1是输入到隐藏和隐藏到输出的权重分别为矩阵,表示图的邻接矩阵,x
′
表示的度数矩阵,in表示是单位矩阵,d
ij
=∑
jaij
。
[0059]
对图结构生成器和辨别起进行优化迭代,图结构生成器的损失函数的表达式为:
[0060][0061]
其中,l
rf
和l
mi
表示生成的少数类数据上的混淆判别器损失,其中qi∈c
′
,,和y分别表示鉴别器的真实标签和输出,表示节点的嵌入向量表示,l
di
表示生成的少数类和真实少数类的损失,l
re
表示正则化因子,ng表示表示平衡网络等级分布所需生成的节点数,qi表示当前节点,pr表示预测概率,real表示真实节点,minority表示少数类节点,,n
min
表示少数类节点集合,α表示正则化系数,θ表示训练权值集合。
[0062]
辨别器的损失函数表达式为:
[0063][0064]
其中,l
fa
表示用以区分节点是由原网络的生成元生成的还是由原网络的真实节点生成的交叉熵损失,l
cl
表示用于区分节点是少数类还是多数类的交叉熵损失。,l
mm
表示第三项lmm旨在使不同类节点的嵌入彼此远离的损失函数,l
ree
表示正则化因子,ω是正则化系数为β的判别器的训练权值集合。
[0065]
de-gan的对抗性训练目标函数为式为:
[0066][0067]
[0068]
图结构生成器的目标是生成假的少数节点来模拟真实的少数节点分布,以混淆鉴别器。鉴别器的目标是在真实训练节点和从图结构生成器生成的假节点之间以及少数节点和多数节点之间正确分类。
[0069]
在本实施例中,恶意软件特征提取的过程包括:为了将经过数据增强后的平衡节点网络输入到后续算法中,需要将由各种实体组成的异构图转换为仅包含app节点的同构图,其关键操作是将app实体和其他实体之间的关系合并到app之间的组合连接中。具体来说,给定一个元结构,可以异构图转换为一个独占的同构图,其中每个节点都有特定于元结构的邻居节点。事实上,元路径通过把语义上有语义关系一对的节点连接起来。
[0070]
在本实施例中为进一步丰富元结构,将元图纳入元路径中,元图可用作扩展模板,以捕获一对节点之间现有任意语义关系的组合。实际上,元结构可作为异构图转换为同构图的语义桥梁,其中所有节点都满足特定的复杂语义。可以说,根据不同的元结构,节点将在不同的图中具有不同的结构关系。在某种程度上,每个图都可以被视为在特定视图下整体的子图——每个子图都满足元结构给出的语义约束。
[0071]
采用一系列矩阵运算计算图中节点的邻接度,对于给定的元路径mp(a1,...,an),邻接矩阵可以通过以下公式计算:
[0072][0073]
其中,是实体aj和a
j+1
之间的关系矩阵(例如,在元路径pid1中:a-api-a下的图的邻接矩阵ψ
ij
>0表示appi和appj相互关联,即它们是基于元路径pid1的邻居。具体而言,该值表示节点i和j之间的元路径实例的计数,即路径的数量。
[0074]
本实施例提供了一种根据所获取的软件节点行为数据提取软件节点的高阶特征属性的方法,包括:在原始gcn中通过堆叠k层gcn模型后,会导致过度平滑现象,即最后嵌入的节点会变得不可区分极为相似,使得下游分类器无法进行正常分类。本方法为了能获取节点的高阶属性且不导致过平滑现象,通过两种简单的技术来实现:初始残差连接和恒等映射。形式上,本方法将gcnii的第l-th层定义为
[0075][0076]
其中α
l
和β
l
是后面要讨论的两个超参数。是具有重归一化技巧的图卷积矩阵。与原始gcn模型相比,本发明通过将平滑表示与到第一层h
(0)
的初始残差连接相结合;在第l个权重矩阵w
(l)
中添加一个恒等映射in,从而提高了节点的高阶特征准确率。
[0077]
在本实施例中,采用ho2vec算法提取异质网络模型中实体节点的隐性特征的过程包括:
[0078]
步骤1:将图结构数据表示为输入特征矩阵,该矩阵包含关于图中节点和边的信息,并用作ho2vec模型的输入;再创建一个邻接矩阵,表示图中节点之间的连通性。该矩阵用于加权输入特征并计算ho2vec模型的输出;
[0079]
步骤2:采用单层神经网络构成的映射函数将不同元路径中初始节点的信息投影到想同维度的语义空间,得到节点的初始特征;
[0080]
步骤3:在ho2vec模型中加入多个gcn层,每个gcn层使用邻接矩阵对输入特征矩阵进行线性变换。然后,每一层的输出通过诸如relu的非线性激活函数;
[0081]
步骤4:将初始残差映射应用于ho2vec模型第一层的输入特征矩阵和输出之间,这通过提供信息从输入流到输出的直接路径,帮助模型更快、更容易地学习;
[0082]
步骤5:恒等映射应用于每一层的输出和下一层的输入之间。这有助于在ho2vec模型的各个层中保存重要信息;
[0083]
步骤6:在几个gcn层之后,应用池化层来降低输出特征矩阵的维数。这样做是为了防止过度拟合并提高模型的效率;
[0084]
步骤7:ho2vec模型的最后一层是一个全连接层,它将前一层的输出映射到节点的单条元路径嵌入表示。使用损失函数和诸如随机梯度下降的优化算法来训练该层。
[0085]
具体的,对ho2vec模型进行改进的过程包括:
[0086]
1)初始残差连接
[0087]
本实施例为了模拟resnet中的跳跃连接提出了将平滑表示与z
(l)
相结合的残差连接。但是,这种残差连接仅部分缓解了过度平滑问题;随着堆叠更多的层,模型的性能仍然会下降。残差连接不是来承载来自前一层的信息,而是构建到初始表示z
(0)
的连接。初始残余连接确保即使堆叠许多层,每个节点的最终表示也至少保留来自输入层的α
l
的一部分。在实践中,简单地设置α
l
=0.1或0.2,以便每个节点的最终表示至少由输入特征的一部分组成。在这里,z
(0)
不一定必须是特征矩阵x。如果特征维数d很大,可以在x上应用全连接的神经网络,以获得前向传播之前的低维初始表示z
(0)
。
[0088]
本实例和模型appnp在个性化网页排名的上下文中采用与初始残余连接类似的方法。然而,学者也表明对特征矩阵执行多次非线性操作将导致过拟合,从而导致性能下降。因此,appnp在不同层之间应用线性组合,因此仍然是一个浅的模型。这表明初始残差的概念本身不足以将gcn扩展到深层模型。
[0089]
2)恒等映射
[0090]
为了修正appnp的不足,本方法借用了resnet的身份映射思想,即在第l-th层的权重矩阵w
(l)
中加入一个单位矩阵in。恒等映射确保深度ho2vec模型至少实现与其浅版本相同的性能。理论上,k层gcn的节点特征会收敛到一个子空间而导致信息损失。特别地,收敛速率取决于sk,其中s是权重矩阵w
(l)
的最大奇异值l=0,...,k-1。通过用1-β
lin
+β
lw(l)
替换w
(l)
并对w
(l)
施加正则化,使得w
(l)
的范数变小。因此,1-β
lin
+β
lw(l)
的奇异值将接近1,最大奇异值s也将接近1,这意味着sk大,并且减轻了深层的gcn信息传导时的损失,有效减弱了深层模型的过平滑现象。
[0091]
3)语义融合
[0092]
给定元路径集φ0,φ1,...,φ
p
,在将节点特征输入节点级注意力后,得到p组语义特定的节点嵌入,表示为
[0093]
本实施例中公开了采用自注意力机制融合不同元路径的嵌入向量表示的方法,包括:异构图中的每个节点都包含多种类型的语义信息,特定语义的节点嵌入只能从一个方面反映节点。为了学习更全面的节点嵌入,本发明通过融合多种元结构的方式揭示的多种语义。为了解决异构图中元路径选择和语义融合的挑战,采用自注意力机制用于自动学习不同元结构的重要性,并将它们融合到特定任务中。以从节点级聚合中学习到的k组语义特
定节点嵌入为输入,每个元结构的学习权重如下所示:
[0094][0095]
其中,att
sem
表示加入自注意力机制的语义级深层神经网络。为了了解每个元路径的重要性,首先通过非线性变换(例如,一层mlp)转换为的语义嵌入,采用语义层次的注意向量q来衡量语义特定嵌入的重要性,即转换后的嵌入的相似性。在平均所有语义特定节点嵌入的重要性时,可以解释为每个元路径的重要性;每个元路径的重要性的公式为:
[0096][0097]
其中w是权重矩阵,b是偏差向量,q是语义层面的注意力向量。注意,上述所有参数在所有元结构和特定语义嵌入都是共享的。在获得每个元结构的重要性后,通过softmax函数对它们进行归一化。元路径φi的权重表示为可通过使用softmax函数对所有元结构的上述重要性进行归一化来获得:
[0098][0099]
根据上述公式可以知越高,元路径φi越重要;对于不同的任务,元路径φi可能具有不同的权重。使用学习的权重作为系数,对语义特定嵌入进行融合,以获得最终嵌入z,其表达式为:
[0100][0101]
为了更好地理解语义层的聚合过程,如图4所示,最终的嵌入表示由所有特定语义的嵌入聚合而成。根据最终嵌入应用于特定任务,并设计不同的损失函数。对于半监督节点分类,可以最小化地面真实值和预测之间所有标记节点的交叉熵:
[0102][0103]
其中c是分类器的参数,y
l
是具有标签的节点索引集,y
l
和z
l
是标签节点的标签和嵌入。在标记数据的指导下,可以通过反向传播优化所提出的模型,并学习节点的嵌入情况。
[0104]
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种面向不平衡网络的恶意软件检测方法,其特征在于,包括:构建不平衡网络的恶意检测模型,获取待检测软件的应用数据,将待检测软件的应用数据输入到恶意软件检测模型中,得到检测结果;采用恶意软件检测模型对待检测的应用数据进行处理的过程包括:s1:根据待检测软件的应用数据构建图结构网络;s2:采用de-gan算法对图结构网络进行平衡性增强补全处理,得到平衡数据;s3:采用不同元路径对平衡数据进行特征提取,根据提取的特征构建异质网络模型;s4:采用ho2vec算法提取异质网络模型中实体节点的隐性特征,对隐性特征进行残差连接和恒等映射,得到节点的单条元路径嵌入表示;s5:采用自注意力机制对不同的元路径的嵌入表示进行语义级别的融合,得到最终嵌入表示;s6:采用分类器对最终嵌入表示进行分类,得到待测软件检测结果。2.根据权利要求1所述的一种面向不平衡网络的恶意软件检测方法,其特征在于,采用de-gan算法对待检测软件的应用数据中的不平衡节点进行数据补全的过程包括:s11:采用图结构生成器对图结构网络中的少数类节点进行数据补全;s12:采用两层gcn的辨别器对图结构生成器生成的数据进行判别,若生成的数据为假,则重复生成数据,若生成的数据为真,则输出的图结构生成器补全的数据;s13:重复步骤s11和步骤s12,直到数据平衡,得到补全后的平衡数据,该平衡数据包含数据之间的平衡拓扑链接关系。3.根据权利要求2所述的一种面向不平衡网络的恶意软件检测方法,其特征在于,采用图结构生成器对少数类节点进行数据补全的过程包括:生成器网络的结构包括三层全连接层,其中最后一层使用tanh激活函数;计算少数类节点中不平衡类别数量之间差值,并将该差值作为生成器的最后输出的维度;计算生成器的损失函数,该损失函数为交叉熵损失函数,当损失函数收敛时输出生成器生成的数据。4.根据权利要求1所述的一种面向不平衡网络的恶意软件检测方法,其特征在于,采用不同元路径对平衡数据节点进行特征提取的过程包括:平衡数据节点数据包括反编译获取各类特征和配置文件;提取平衡数据节点数据的关键特征,关键特征包括api、权限、活动、服务以及意图;根据关键特征构建异质图,并采用多个元路径将异质图转化为多个同质图,所有的同质图构成异质网络模型。5.根据权利要求4所述的一种面向不平衡网络的恶意软件检测方法,其特征在于,采用多个元路径将异质图转化为多个同质图的过程包括:步骤1:获取待检测软件的数据信息,该数据信息包括代码文件、配置文件以及签名信息;步骤2:提取数据信息中的五类实体作为软件的关键特征,五类实体包括api、权限、活动、服务以及意图;步骤3:根据五类实体以及app实体构建异质图网络;步骤4:根据待检测软件的五类实体构建不同的元结构,获取各个元结构的邻接矩阵;步骤5:对各个元路径下的邻接矩阵进行点乘,得到基于该元路径的同质图。6.根据权利要求1所述的一种面向不平衡网络的恶意软件检测方法,其特征在于,采用
ho2vec算法提取异质网络模型中实体节点的隐性特征的过程包括:步骤1:获取异质网络模型中的图结构数据表示,并将图结构数据表示作为ho2vec模型的输入特征矩阵,该矩阵包含关于图中节点和边的信息;创建一个邻接矩阵,该邻接矩阵表示图中节点之间的连通性;步骤2:采用单层神经网络构成的映射函数将图结构数据表示中的不同元路径中初始节点的信息投影到想同维度的语义空间,得到节点的初始特征;步骤3:采用改进的ho2vec模型对节点的初始特征进行深层特征提取,并采用随机梯度下降算法对模型中的参数进行优化,得到节点的单条元路径嵌入表示。7.根据权利要求6所述的一种面向不平衡网络的恶意软件检测方法,其特征在于,采用单层神经网络将不同元路径中初始节点的信息投影到想同维度的语义空间的过程包括:将双层感知机作为单层神经网络的投影函数;将初始节点的维度输入到投影函数中进行处理,输出维度为128的特征;采用relu激活函数对输出特征进行处理,得到节点的初始特征。8.根据权利要求6所述的一种面向不平衡网络的恶意软件检测方法,其特征在于,改进的ho2vec模型包括:在ho2vec模型的第一层和输出层之间设置初始残差映射模块;在ho2vec模型的每一层输出特征进行恒等映射,将恒等映射结果作为下一层的输入;在ho2vec模型中加入多个gcn层,每个gcn层使用邻接矩阵对输入特征矩阵进行线性变换;在gcn层后采用池化层降低输出特征矩阵的维度。9.根据权利要求1所述的一种面向不平衡网络的恶意软件检测方法,其特征在于,采用自注意力机制对不同的元路径的嵌入表示进行语义级别的融合的过程包括:获取每个元结构的学习权重,并构建为权重矩阵;根据自注意力机制通过权重矩阵计算每个元结构的重要性;根据后的每个元结构的重要性对不同元结构的高阶特征进行融合,得到融合后的节点嵌入向量表示。
技术总结
本发明属于网络与信息安全技术领域,具体涉及一种面向不平衡网络的恶意软件检测方法,包括:使用对抗生成网络对原始不平衡数据集进行数据增强,从而使得良性与恶意样本数量达到平衡;选取不同元路径构建异质网络挖掘各类实体信息;采用残差连接和恒等映射的方法提取节点的高阶隐藏信息,避免过平滑现象;基于自注意力机制对个元路径进行自适应加权聚合,获得最终嵌入表示,使用分类器进行分类操作;本发明考虑在现实生活中各类恶意软件的样本量少、难获取的问题,采用对抗生成网络进行数据增强操作,随后对其进行异质网络建模,利用高阶模型获取节点隐藏关系,再利用注意力机制进行元路径聚合,能够有效的对不平衡的软件数据集进行准确检测。行准确检测。行准确检测。
技术研发人员:李暾 马可心 万鑫 金洺如 刘红 李茜 庞育才 贾朝龙 王蓉 肖云鹏 王国胤
受保护的技术使用者:重庆邮电大学
技术研发日:2023.03.21
技术公布日:2023/7/25
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种海带卷自动化生产设备的制作方法 下一篇:一种陶瓷表面处理方法与流程