基于注意力机制的DRSN和LSTM的网络入侵检测方法

未命名 09-07 阅读:113 评论:0

基于注意力机制的drsn和lstm的网络入侵检测方法
技术领域
1.本发明属于网络安全技术领域,特别涉及一种基于注意力机制的drsn和lstm的网络入侵检测方法。


背景技术:

2.随着互联网规模的增长和各类网络应用的不断出现,网络已经成为人类生活的必需品。目前,互联网上存在着海量的网络流量数据信息,各类网络攻击给网络空间安全带来严重的威胁。入侵检测系统作为一种有效的网络防护手段,是保护人类网络财产安全的重要工具。
3.目前的网络入侵检测技术,大多采用特征检测的方式,涉及的检测范围较为有限。具体而言,侧重于特征检测的入侵检测技术,仅适用于计算机网络开展相对简单的入侵行为检测和基本的防御管理,面对复杂的网络环境而言,基于特征检测的入侵检测依赖于已知攻击标志的数据库,将事件和流量与已知标志数据库匹配,从而判断是否存在攻击,但无法检测未知攻击。另一部分入侵检测采用异常检测,试图学习正常行为规律并将其他一切识别为异常或入侵,但是由于数据量庞大,特征过多,且有噪声数据和冗余数据,存在着准确率低和误报率高的问题。


技术实现要素:

4.为了克服上述现有技术的缺点,本发明的目的在于提供一种基于注意力机制(attention mechanism,am)的drsn(deep residual shrinkage networks,drsn)和长短期记忆网络(long short-term memory,lstm)的网络入侵检测方法,由于特征的重要程度存在差异,首先使用am进行数据特征加权,使得重要特征变得突出,不重要特征被弱化,进而减少参与计算的特征维数,加快训练速度。采用drsn,来提取特征中的空间特性,其在残差网络的基础上,添加了注意力机制和软阈值化,使模型能更好的关注重要特征,并尽可能抑制噪声对结果的影响,能显著提高模型特征提取的能力。drsn具有提取数据空间特征的能力,lstm具有提取数据中时序特征的能力,将drsn和lstm的优势结合起来,利用drsn提取空间特征,并消除噪声数据,利用lstm提取时序特征,充分学习数据时空特征,提高模型训练速度和入侵检测的准确率。
5.为了实现上述目的,本发明采用的技术方案是:
6.一种基于注意力机制的drsn和lstm的网络入侵检测方法,包括如下步骤:
7.步骤1,对入侵检测数据集进行预处理,得到数据集x;
8.所述入侵检测数据集包含网络流量数据与类识别标签label,所述网络流量数据包括数值数据和标签数据,所述类识别标签label用于标识入侵类别;所述预处理,将入侵类别编码为不同数字;将所述标签数据编码转化为数值数据,并通过一组二进制数表示一位特征值不同的状态,之后将所有数值数据进行归一化操作缩放到量纲[0,1];
[0009]
步骤2,使用卷积模块和注意力机制模块提取输入的流量特征,得到带有通道和空
间注意力机制的特征矩阵ms;
[0010]
步骤3,调整特征矩阵ms为特征矩阵x3,使其能作为深度残差收缩网络的输入;
[0011]
步骤4,利用深度残差收缩网络提取特征矩阵x3的空间特征;
[0012]
步骤5,将所述空间特征输入到lstm中进行训练,提取数据中的时序特征,通过不断更新权重参数,得到优化的drsn-lstm入侵检测模型。
[0013]
步骤6,利用优化的drsn-lstm入侵检测模型,以网络流量为输入,以是否为入侵行为为输出,进行网络入侵检测。
[0014]
在一个实施例中,所述入侵检测数据集为nsl-kdd数据集,并使用其每个连接记录中的41类网络流量数据和一个类识别标签label;所述入侵类别包含normal、dos、proboing、r2l和u2r,分别代表未受到入侵、拒绝服务入侵、监视和其他探测获得、远程机器非法访问和普通用户对本地超级用户特权的非法访问;所述41类网络流量数据中的协议类型protocl_type、服务类型service和标志flag构成标签数据,所述标签数据采用one-hot编码。
[0015]
在一个实施例中,对于二分类问题,将normal编码为1,dos、proboing、r2l和u2r均编码为2;对于多分类问题,将normal、dos、proboing、r2l和u2r依次编码为1、2、3、4、5。
[0016]
在一个实施例中,将步骤1中的一维矢量数据转换为二维矩阵格式,即将入侵检测数据转化为灰度图,转换过程如下:从数据集x中选择一个样本x,使用随机正太分布函数扩充x,使x从n’列拓展成n’+m’列,将x重构成p*q的矩阵,其中,p*q=n’+m’,重复直至遍历x中所有样本,其中n’为样本的初始列数,m’为扩充的列数。
[0017]
在一个实施例中,所述卷积模块,对所述二维矩阵做一次卷积操作,即对局部图像和卷积核矩阵做内积,公式如下:
[0018][0019]
其中,w是卷积核的矩阵,s为经过卷积后的矩阵,s
(i,j)
表示在第i行,第j列经过卷积后得到卷积数值,卷积操作局部图像的大小必须和卷积核一致,x
(i+m,j+m)
为样本x的第i行,第j列,长度和宽度分别为m,n的局部图像信息;w
(m,n)
为长度m,宽度n的卷积核。
[0020]
在一个实施例中,所述注意力机制模块采取通道注意力机制与空间注意力机制串联的方式;所述卷积模块输出的特征矩阵先经过通道注意力机制,输出带有通道注意力权重的特征矩阵mc;mc作为空间注意力机制的输入特征,生成带有通道和空间注意力机制的特征矩阵ms。
[0021]
在一个实施例中,所述通道注意力机制,宽度为w,高度为h,通道数为c的维度特征经过基于宽和高的平均池化和全局最大池化分别降维成2个1
×1×
c的特征向量,然后经过共享的多层感知机mlp,并相加通过sigmoid函数转换成1
×1×
c的权重特征向量,最后通过与输入特征相乘得到mc,公式如下:
[0022]
mc(x)=σ(mlp(maxpool(x))+mlp(avgpool(x)))
[0023]
式中:σ为非线性激活函数sigmoid,maxpool为最大池化,avgpool为平均池化;
[0024]
所述空间注意力机制,分别在通道维度对mc进行基于通道的全局平均池化和全局最大池化,将形成的特征图通道数堆叠后通过卷积层并经过sigmoid变换得到ms,公式如
下:
[0025]
ms(x)=σ(f[avgpool(mc(x));maxpool(mc(x))])
[0026]
式中:f为卷积降维操作。
[0027]
在一个实施例中,所述步骤3,调整特征矩阵ms是对其进行两次卷积操作,再进行批归一化和relu激活函数激活,得到特征矩阵x3。
[0028]
在一个实施例中,所述步骤4,深度残差收缩网络中,残差收缩模块首先对特征矩阵x3进行一次卷积运算,之后再次进行归一化和relu激活函数得到特征矩阵x4;将特征矩阵x4中的每个元素r进行软阈值化,得到一组新的特征矩阵,记为特征矩阵x5,将特征矩阵x5矩阵再次进行卷积,然后通过全局平均池化(global average pooling,gap)对提取出的抽象高维特征降维。
[0029]
在一个实施例中,所述软阈值化的公式如下:
[0030][0031]
其中,r为软阈值化前特征,τ为阈值,y为软阈值化后的元素特征;阈值τ的获取方法如下:对特征矩阵x4进行求平均值,然后经过全局平均值池化,获得一个特征矩阵a;将特征矩阵a输入残差收缩模块的全连接网络,以sigmoid函数作为最后一层,将输出归一化到0和1之间,获得一个权重系数α;α与特征矩阵a的每个通道的特征分别相乘,得到最终的阈值α
×
a,记为τ。
[0032]
与现有技术相比,本发明的有益效果是:
[0033]
首次将drsn应用于入侵检测领域,为入侵检测提供了一种新的方法。通过drsn的残差模块可以叠加更深层次的网络结构,挖掘更深入的空间特征信息,且通过软阈值化,进行噪声的去除。本技术首次将drsn和lstm结合起来用于入侵检测领域,创造性的提出了drsn-lstm入侵检测模型,将drsn提取空间特征的优势与lstm提取时序特征的优势结合起来,并且基于drsn的去噪能力,能够有效的提升入侵检测的准确率并且降低入侵检测误报率,并且加强模型的泛化能力。
附图说明
[0034]
图1为入侵检测流程图。
[0035]
图2为注意力机制流程图。
[0036]
图3为残差收缩模块模型图。
[0037]
图4为lstm结构图。
具体实施方式
[0038]
下面结合附图和实施例对本发明做进一步详细说明。
[0039]
如图1所示,本发明为一种基于注意力机制的drsn和lstm的网络入侵检测方法,包括如下步骤:
[0040]
步骤1,对入侵检测数据集进行预处理,得到数据集x。
[0041]
本发明所使用的入侵检测数据集包含网络流量数据与类识别标签label,类识别
标签label用于标识入侵类别,网络流量数据包括数值数据和标签数据。
[0042]
本发明的预处理,是将入侵类别编码为不同数字,以进行区分;并将标签数据编码转化为数值数据,以通过一组二进制数表示一位特征值不同的状态,之后将所有数值数据进行归一化操作缩放到量纲[0,1]。
[0043]
在本发明的具体实施例中,入侵数据集的具体类型不做限制,实施者可以根据实际需要在darpa98、darpa99、darpa00、darpa2000、kdd99、nsl-kdd和ids2018中任选一种或多种。本实例选择nsl-kdd数据集。在nsl-kdd数据集中,每个连接记录包含41类网络流量数据、一个类识别标签和一个难度等级标签。41类网络流量数据中,具有9类tcp连接基本特征、13类tcp连接内容特征、9类关于时间的网络流量数据和10类关于主机的网络流量数据,由此可得到41类特征属性。难度等级标签主要用于正确标注给定记录的学习者的数量,与本发明的训练无关,给予舍弃。
[0044]
本发明使用该41类网络流量数据和类识别标签label,其中入侵类别包含normal、dos、proboing、r2l和u2r五种,分别代表未受到入侵、拒绝服务入侵、监视和其他探测获得、远程机器非法访问和普通用户对本地超级用户特权的非法访问;在41类网络流量数据中,协议类型protocl_type、服务类型service和标志flag为字符型特征,构成了本发明所述的标签数据。
[0045]
对类识别标签label,能够区分最终训练结果和label属性是否一致即可,并不参与训练,因此只需要按照表1的转化规则将类别转换为常规数字。
[0046]
表1
[0047][0048]
即,对于二分类问题,将normal编码为1,dos、proboing、r2l和u2r均编码为2;对于多分类问题,将normal、dos、proboing、r2l和u2r依次编码为1、2、3、4、5。
[0049]
将标签数据即协议类型protocl_type、服务类型service和标志flag构成了本发明所述的标签数据采用独立热编码(one-hot),目的是让一组二进制数来表示一位特征值不同的状态。
[0050]
对于独热编码,可以将离散特征的某个取值就对应n维空间的某个点,将离散型特征使用独立编码能够使特征之间距离的计算更加合理。例如protocol_type属性表示的是tcp、udp、icmp3种网络协议,则可以分别使用100表示tcp协议,010表示udp协议,001表示icmp协议,剩下的特征也可以如此表示。
[0051]
本实施划分训练集和数据集不做限制,实施者可以根据自己的实际需要划分,本实施优选的做法为划分80%作为训练集,20%作为测试集。
[0052]
对数值进行归一化操作可以消除不同维度的数据之间的差异,为了保证训练结果
的可靠性,拟采用最小-最大(min-max)归一化方法将这些特征归一化到[0,1]范围内。公式如下:
[0053][0054]
其中,x为原始数据特征值,x
min
为特征最小值,x
max
为特征最大值,x
norm
为归一化后的值。
[0055]
步骤2:将步骤1中的一维矢量数据转换为模型需要的二维矩阵格式,即将入侵检测数据转化为灰度图。
[0056]
基于数据填充的方式,对数据样本做特征拓展,将拓展后的数据转换成二维矩阵格式,转换过程如下:从数据集x中选择一个样本x,使用随机正太分布函数扩充x,使x从n’列拓展成n’+m’列,重构x结构,将x重构成p*q的矩阵,其中,p*q=n’+m’,重复以上步骤,直至遍历x中所有样本,其中n’为样本的初始列数,m’为扩充的列数。
[0057]
步骤3:使用卷积模块和注意力机制模块提取输入的流量特征,得到带有通道和空间注意力机制的特征矩阵ms。
[0058]
如图2,注意力机制借鉴了人类的注意力思维方式,能够选择性地关注所有信息的一部分,同时忽略其他可见的信息。注意力机制采取通道注意力机制与空间注意力机制串联的方式。
[0059]
本步骤中,利用卷积模块对所述二维矩阵做一次卷积操作,即对局部图像和卷积核矩阵做内积,公式如下:
[0060][0061]
其中,w是卷积核的矩阵,s为经过卷积后的矩阵,s
(i,j)
表示在第i行,第j列经过卷积后得到卷积数值,卷积操作局部图像的大小必须和卷积核一致,x
(i+m,j+m)
为样本x的第i行,第j列,长度和宽度分别为m,n的局部图像信息;w
(m,n)
为长度m,宽度n的卷积核。
[0062]
卷积操作可以进行多次,本实施优选做一次,以节约运算时间。由于输入的图像是入侵检测数据集转化为二维的灰度图,所以在此优选的设置卷积的深度为1,卷积核的宽度为3,可根据所选的不同数据集进行相应的调整。
[0063]
本发明的注意力机制模块采取通道注意力机制与空间注意力机制串联的方式;卷积模块输出的特征矩阵先经过通道注意力机制,输出带有通道注意力权重的特征矩阵mc;mc作为空间注意力机制的输入特征,生成带有通道和空间注意力机制的特征矩阵ms。
[0064]
本发明的通道注意力机制,以卷积模块卷积操作后的特征矩阵为输入,宽度为w,高度为h,通道数为c的维度特征经过基于宽和高的平均池化和全局最大池化分别降维成2个1
×1×
c的特征向量。然后经过共享的多层感知机mlp,然后经过共享的多层感知机mlp,并相加通过sigmoid函数转换成1
×1×
c的权重特征向量,最后通过与输入特征相乘得到通道注意力机制的输出特征矩阵mc,公式如下。
[0065]
mc(x)=σ(mlp(maxpool(x))+mlp(avgpool(x)))
[0066]
式中:σ为非线性激活函数sigmoid,maxpool为最大池化,avgpool为平均池化。
[0067]
然后,将特征矩阵mc作为空间注意力机制的输入,分别在通道维度对mc进行基于
通道的全局平均池化和全局最大池化。将形成的特征图通道数堆叠(concat)后通过卷积层并经过sigmoid变换,最后生成空间注意力模块的输出特征矩阵ms,公式如下:
[0068]
ms(x)=σ(f[avgpool(mc(x));maxpool(mc(x))])
[0069]
式中:f为卷积降维操作。
[0070]
将am应用于入侵检测模型,可以放大有用的特征信息,消除无用的特征信息,对数据进行降维,减少数据量,从而增加检测的效率和准确性。
[0071]
步骤4,调整特征矩阵ms为特征矩阵x3,使其能作为深度残差收缩网络的输入。
[0072]
将特征矩阵ms表示为特征矩阵x1,进行两次卷积操作,得到变换后的特征矩阵x2,将特征矩阵x2进行批归一化(batch normalization,bn)和relu激活函数激活,得到特征矩阵x3。relu激活函数公式为:f(x)=max(0,x)。
[0073]
对于特征矩阵x1的处理,可以根据自己的实际情况,进行多次卷积操作得到x2,但次数不宜超过4次,以防止过拟合,影响最终效果。
[0074]
步骤5,利用深度残差收缩网络提取特征矩阵x3的空间特征。
[0075]
深度残差收缩网络通过引入残差收缩模块,旨在加强深度神经网络从含有噪声和冗余的样本中提取有用特征的能力,用于剔除冗余特征,提升神经网络模型的分类准确率,并且通过残差网络的恒等映射,是反向传播更为方便,降低神经网络训练的难度并防止梯度爆炸。
[0076]
本步骤中,将特征矩阵x3通过归-化层(batch normalization,bn)后进一步通过3个残差收缩模块,自适应对每张特征图进行噪声的消除并进一步提取有效特征,然后通过全局平均池化层(global average pooling,gap)对提取出的抽象高维特征进行降维,大量缩小训练参数,避免过拟合,通过全连接输入分类结果。
[0077]
残差收缩网络跟传统的深度卷积网络一样,都包括:卷积层、池化层、偏差项、激活函数、交叉熵损失函数。在卷积核与特征图之间需要加上一个偏差项,偏差项表达形式如下:
[0078][0079]
其中xi表示第i个通道的输入特征图,yj是第j个通道的输出特征图,k是卷积核,mj是计算输出第j个特征图的通道集合。
[0080]
本步骤深度残差收缩网络通过引入残差收缩模块,旨在加强深度神经网络从含有噪声和冗余的样本中提取有用特征的能力,用于剔除冗余特征,提升神经网络模型的分类准确率,并且通过残差网络的恒等映射,是反向传播更为方便,降低神经网络训练的难度并防止梯度爆炸。剔除冗余特征依赖于软阈值化,它是降噪算法的关键步骤,将绝对值小于某个阈值的特征删除掉,将绝对值大于该阈值的特征朝着零的方向进行收缩。
[0081]
残差收缩模块如图3所示,二维卷积是利用滤波器在二维图像上滑动,对应的位置相乘求和,提取出图像的特征。将其作为第一层,所以需要给出输入图像尺寸。卷积效果主要由卷积核的数量、宽度、深度、步长这几个参数决定。由于输入的图像是入侵检测数据集转化而来的灰度图,所以设置卷积的深度为1。考虑到模型的通用性,设定卷积核的宽度为3,以减少模型参数,即在本步骤的残差收缩模块中,其卷积为二维卷积,卷积深度为1,卷积
核宽度为3。将提取出来的图像特征,进行软阈值化处理,这由drsn的核心——残差收缩模块完成。与普通的残差模块不同,残差收缩模块嵌入了一个子网络来自适应生成阈值。
[0082]
残差收缩模块的具体执行步骤如下:
[0083]
步骤5-1:残差收缩模块首先会将传入的特征矩阵x3再进行一次卷积运算。之后再次进行归一化和relu激活函数得到新的特征矩阵x4。
[0084]
步骤5-2:将特征矩阵x4中的每个元素r进行软阈值化,得到一组新的特征矩阵,记为特征矩阵x5。具体方法为:
[0085]
对特征矩阵x4进行求平均值,然后经过全局平均值池化,获得一个特征矩阵a;将特征矩阵a输入残差收缩模块的全连接网络,该全连接网络以sigmoid函数作为最后一层,将输出归一化到0和1之间,获得一个权重系数α;α与特征矩阵a的每个通道的特征分别相乘,得到最终的阈值α
×
a,记为τ。
[0086]
阈值是一个0和1之间的数字
×
特征图的绝对值的平均,这种方式不仅保证了阈值为正,而且不会太大。而且不同的样本就有了不同的阈值。根据不同的阈值,可以使模型注意到与当前任务无关的特征,通过软阈值化,将其置为零;同时也能注意到与当前任务有关的特征,将它们保留下来。
[0087]
将特征矩阵x4中的每个元素r进行如下软阈值化,得到特征矩阵x5。软阈值化公式如下:
[0088][0089]
其中,r为软阈值化前特征,τ为阈值,y为软阈值化后的元素特征。
[0090]
软阈值化后的输出对于输入的导数为:
[0091][0092]
上述公式表明,软阈值化的导数要么是1,要么是0,能够减小深度学习算法遭遇梯度消失和梯度爆炸的风险。
[0093]
步骤5-3:将特征矩阵x5矩阵再次进行卷积,然后通过全局平均池化(global average pooling,gap)对提取出的抽象高维特征降维,大量缩小训练参数,避免过拟合。
[0094]
进一步地,可将x5传入后面的两个残差收缩模块,进行与第一个残差模块相同的操作。最终得到经过软阈值化和空间提取后的特征x6。
[0095]
步骤6:将drsn提取的空间特征转化为一维特征,输入至lstm模型中进行训练,提取数据中的时序特征,通过不断更新权重参数,得到优化的drsn-lstm入侵检测模型。
[0096]
lstm是为了解决循环神经网络(recurrent neural network,rnn)存在梯度消失和梯度爆炸的问题而提出的。lstm结构如图4,和rnn相比,lstm在隐藏层中使用了记忆单元,记忆单元主要由遗忘门、输入门、输出门和自连接的记忆细胞组成。lstm遗忘门、输入门、输出门和记忆细胞的公式如下:
[0097]
遗忘门:f
t
=σ(wf·
[h
t-1
,x
t
]+bf)
[0098]
输入门:i
t
=σ(wi·
[h
t-1
,x
t
]+bi)
[0099]
候选记忆细胞:
[0100]
记忆细胞:
[0101]
输出门:o
t
=σ(wo·
[h
t-1
,x
t
]+bo)
[0102]
输出:h
t
=o
t
*tanh(c
t
)
[0103]
式中,f、i、o和c分别代表遗忘门、输入门、输出门和记忆细胞的输出,wf、wi、wc、wo是权重矩阵,bf、bi、bc、bo是偏置向量,σ是sigmoid函数。
[0104]
本步骤中,训练过程如下:
[0105]
步骤6-1:通过lstm中的输入门获取输入的特征向量,然后通过遗忘门确定是否将数据遗忘。
[0106]
步骤6-2:通过训练集分类结果计算每一层误差,并将误差向上一层传播。
[0107]
步骤6-3:根据计算得到的误差项计算每个权重的梯度。
[0108]
步骤6-4:根据梯度来更新各层的权重。并在迭代中优化筛选出drsn-lstm入侵检测模型的参数组合,找到最优参数。
[0109]
可根据电脑配置和实际需要,选择不同的迭代次数,在本实施例中,一共迭代100次,在迭代中优化筛选出drsn-lstm入侵检测模型的参数组合,找到最优参数。
[0110]
步骤7:将训练过的drsn-lstm入侵检测模型在测试集上进行入侵检测测试,得出分类结果并评估模型性能。最终,可以利用优化的drsn-lstm入侵检测模型,以网络流量为输入,以是否为入侵行为为输出,进行网络入侵检测。
[0111]
将训练过的drsn-lstm入侵检测模型在测试集上进行入侵检测测试。本实施使用的评价指标为准确率,精确率,召回率,f1值。
[0112]
召回率(recall):异常样本中被正确识别为异常的样本数占异常样本总数的比例,也称为真正例率(true positive rate)或灵敏度(sensitivity)。公式为:
[0113][0114]
精确率(precision):分类器正确识别为异常的样本数占所有被分类器预测为异常的样本数的比例。公式为:
[0115][0116]
准确率(accuracy):分类器正确分类的样本数占总样本数的比例,即分类器预测结果与实际结果一致的样本数占总样本数的比例。公式为:
[0117][0118]
f1分数(f1 score):综合考虑召回率和精确率的综合指标,是召回率和精确率的调和平均值,用于衡量分类器的整体性能。公式为:
[0119][0120]
其中:tp是真阳性数据,即预测为攻击数据,实际也是真实攻击数据;
[0121]
tn是真阴性数据,即预测为正常数据,实际也是真实正常数据;fp是假阳性数据,即预测为攻击数据,实际是正常数据;fn是假阴性数据,即预测为正常数据,实际是攻击数据。本实施准确率达到97.56%,精确率也能达到74.68%,召回率达到99.65%,f1值达到
85.43%。
[0122]
结果表明,相比于现有技术,本发明将注意力机制、drsn和lstm模型进行合理、高效地结合,提高了检测准确度和模型的泛化能力。
[0123]
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,包括如下步骤:步骤1,对入侵检测数据集进行预处理,得到数据集x;所述入侵检测数据集包含网络流量数据与类识别标签label,所述网络流量数据包括数值数据和标签数据,所述类识别标签label用于标识入侵类别;所述预处理,将入侵类别编码为不同数字;将所述标签数据编码转化为数值数据,并通过一组二进制数表示一位特征值不同的状态,之后将所有数值数据进行归一化操作缩放到量纲[0,1];步骤2,使用卷积模块和注意力机制模块提取输入的流量特征,得到带有通道和空间注意力机制的特征矩阵ms;步骤3,调整特征矩阵ms为特征矩阵x3,使其能作为深度残差收缩网络的输入;步骤4,利用深度残差收缩网络提取特征矩阵x3的空间特征;步骤5,将所述空间特征输入到lstm中进行训练,提取数据中的时序特征,通过不断更新权重参数,得到优化的drsn-lstm入侵检测模型;步骤6,利用优化的drsn-lstm入侵检测模型,以网络流量为输入,以是否为入侵行为为输出,进行网络入侵检测。2.根据权利要求1所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,所述入侵检测数据集为nsl-kdd数据集,并使用其每个连接记录中的41类网络流量数据和一个类识别标签label;所述入侵类别包含normal、dos、proboing、r2l和u2r,分别代表未受到入侵、拒绝服务入侵、监视和其他探测获得、远程机器非法访问和普通用户对本地超级用户特权的非法访问;所述41类网络流量数据中的协议类型protocl_type、服务类型service和标志flag构成标签数据,所述标签数据采用one-hot编码。3.根据权利要求2所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,对于二分类问题,将normal编码为1,dos、proboing、r2l和u2r均编码为2;对于多分类问题,将normal、dos、proboing、r2l和u2r依次编码为1、2、3、4、5。4.根据权利要求1所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,将步骤1中的一维矢量数据转换为二维矩阵格式,即将入侵检测数据转化为灰度图,转换过程如下:从数据集x中选择一个样本x,使用随机正太分布函数扩充x,使x从n’列拓展成n’+m’列,将x重构成p*q的矩阵,其中,p*q=n’+m’,重复直至遍历x中所有样本,其中n’为样本的初始列数,m’为扩充的列数。5.根据权利要求1所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,所述卷积模块,对所述二维矩阵做一次卷积操作,即对局部图像和卷积核矩阵做内积,公式如下:其中,w是卷积核的矩阵,s为经过卷积后的矩阵,s
(i,j)
表示在第i行,第j列经过卷积后得到卷积数值,卷积操作局部图像的大小必须和卷积核一致,x
(i+m,j+m)
为样本x的第i行,第j列,长度和宽度分别为m,n的局部图像信息;w
(m,n)
为长度m,宽度n的卷积核。6.根据权利要求1所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在
于,所述注意力机制模块采取通道注意力机制与空间注意力机制串联的方式;所述卷积模块输出的特征矩阵先经过通道注意力机制,输出带有通道注意力权重的特征矩阵mc;mc作为空间注意力机制的输入特征,生成带有通道和空间注意力机制的特征矩阵ms。7.根据权利要求6所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,所述通道注意力机制,宽度为w,高度为h,通道数为c的维度特征经过基于宽和高的平均池化和全局最大池化分别降维成2个1
×1×
c的特征向量,然后经过共享的多层感知机mlp,并相加通过sigmoid函数转换成1
×1×
c的权重特征向量,最后通过与输入特征相乘得到mc,公式如下:mc(x)=σ(mlp(maxpool(x))+mlp(avgpool(x)))式中:σ为非线性激活函数sigmoid,maxpool为最大池化,avgpool为平均池化;所述空间注意力机制,分别在通道维度对mc进行基于通道的全局平均池化和全局最大池化,将形成的特征图通道数堆叠后通过卷积层并经过sigmoid变换得到ms,公式如下:ms(x)=σ(f[avgpool(mc(x));maxpool(mc(x))])式中:f为卷积降维操作。8.根据权利要求1所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,所述步骤3,调整特征矩阵ms是对其进行两次卷积操作,再进行批归一化和relu激活函数激活,得到特征矩阵x3。9.根据权利要求1或8所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,所述步骤4,深度残差收缩网络中,残差收缩模块首先对特征矩阵x3进行一次卷积运算,之后再次进行归一化和relu激活函数得到特征矩阵x4;将特征矩阵x4中的每个元素r进行软阈值化,得到一组新的特征矩阵,记为特征矩阵x5,将特征矩阵x5矩阵再次进行卷积,然后通过全局平均池化(global average pooling,gap)对提取出的抽象高维特征降维。10.根据权利要求9所述基于注意力机制的drsn和lstm的网络入侵检测方法,其特征在于,所述软阈值化的公式如下:其中,r为软阈值化前特征,τ为阈值,y为软阈值化后的元素特征;阈值τ的获取方法如下:对特征矩阵x4进行求平均值,然后经过全局平均值池化,获得一个特征矩阵a;将特征矩阵a输入残差收缩模块的全连接网络,以sigmoid函数作为最后一层,将输出归一化到0和1之间,获得一个权重系数α;α与特征矩阵a的每个通道的特征分别相乘,得到最终的阈值α
×
a,记为τ。

技术总结
一种基于注意力机制的DRSN和LSTM的网络入侵检测方法,对入侵检测数据集进行预处理,使用卷积模块和注意力机制模块提取输入的流量特征,得到带有通道和空间注意力机制的特征矩阵,利用DRSN提取空间特征;可以叠加更深层次的网络结构,挖掘更深入的空间特征信息,且通过软阈值化,进行噪声的去除。将空间特征输入到LSTM中进行训练,提取数据中的时序特征,通过不断更新权重参数,得到优化的DRSN-LSTM入侵检测模型,将DRSN提取空间特征的优势与LSTM提取时序特征的优势结合起来,并且基于DRSN的去噪能力,能够有效的提升入侵检测的准确率并且降低入侵检测误报率,并且加强模型的泛化能力。泛化能力。泛化能力。


技术研发人员:王海凤 王凯江 白倩 杜辉 贾颜妃 郑承蔚 刘瑞
受保护的技术使用者:内蒙古工业大学
技术研发日:2023.06.05
技术公布日:2023/9/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐