一种基于特征融合的电网信息系统网络攻击检测方法
未命名
09-17
阅读:90
评论:0

1.本发明涉及电力信息安全技术领域,具体为一种基于特征融合的电网信息系统网络攻击检测方法。
背景技术:
2.随着电力数据化建设的不断推进,信息技术的引入在给电力系统带来便捷的同时,也带了大量的问题,其显著缺点之一是网络安全问题。电力网络信息安全目标是必须采取预防措施来保护电网的机密性、完整性和可用性的信息。机密性是指只有经过授权的人员才能访问电力信息系统信息。如果网络攻击者随意得到这部分信息,其可以滥用这些信息作出不可挽回的破坏。完整性是为防止数据受到未经授权的更改和破坏,维护和确保保障电力系统数据的真实完整。可用性是保护信息系统免受故障,信息必须在需要时及时提供给电网中的授权方,而不会影响安全性。智能电网应用程序中的典型网络攻击主要针对机密性、完整性和可用性信息中的一个或多个。因此,准确识别电网中的漏洞和网络安全威胁,有效制定策略保护电网的机密性、完整性和可用性的信息,对于保障电网系统的平稳运行具有重大的意义。
3.然而,现有的配电网信息系统入侵检测方法,仍然存在一些问题:算法开销时间大,存在一定的局限性。神经网络所需的计算能力在很大程度上取决于数据的大小,也取决与网络的深度和复杂程度,相比之下,融合神经网络的配电网信息系统入侵检测模型的处理速度较慢,算法开销过大,计算代价高昂。现有的入侵检测模型的超参数配置主要是通过手动搜索来完成的,而手动搜索要求使用者具有专业的背景只是和实践经验,这使得调整超参数的过程不易重现。与此同时,随着超参数的数量和值的范围增加,由于大多数人不善于处理高维数据并且容易误解或错过超参数的趋势和关系,所以该过程变得难以管理。
技术实现要素:
4.(一)解决的技术问题
5.针对现有技术的不足,本发明提供了一种基于特征融合的电网信息系统网络攻击检测方法。
6.(二)技术方案
7.为实现上述目的,本发明提供如下技术方案:一种基于特征融合的电网信息系统网络攻击检测方法,包括以下步骤:
8.s1:获取配电网信息系统全景数据,对配电网信息系统全景数据进行预处理,并将所述配电网信息系统全景数据划分为训练集、验证集和测试集;
9.s2:基于特征融合网络攻击检测方法包括参考值生成层、网络攻击缓解层、协调虚假数据注入层以及网络物理-信息层;
10.s3:对样本url数据进行数据预处理,包括去除重复样本、数据修剪、格式化,数据修剪去除指定条件的符号和字符,格式化将数据分为两列,修剪后的url放置在第一列中,
url的标签放置在第二列中,其中标签标记了url是否恶意;
11.s4:基于预处理后的url数据,提取包括词汇特征和统计特征在内的文本特征,构建文本特征向量,利用双线性因子分解机学习文本特征向量之间的潜在交互关系;
12.s5:基于预处理后的url数据,执行token提取以从url中获取tokens,通过word2vec学习urltokens的向量表示,利用时间卷积网络学习urltokens向量之间的距离依赖关系,距离依赖关系称为结构特征;
13.s6:建立随机森林入侵检测模型,并根据训练集、验证集和测试集,为随机森林入侵检测模型寻找最佳超参数组;
14.s7:根据最佳超参数组确定配电网信息系统是否存在网络攻击;
15.s8:再利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络,在整体模型训练好之后,利用训练好的模型对待检测的url数据进行识别,基于特征融合的识别结果完成恶意url的检测,所述自定进度学习策略通过逐渐加入学习数据来减少熵值,训练出潜在的权重参数,并通过在损失函数中引入权重变量来表示样本是否被选择。
16.在本发明实施例中,所述全景数据包括配电网网架拓扑、开关状态、设备参数、客户负荷、运行状态和设备历史运行数据。
17.在本发明实施例中,搭建由所述配电网信息系统全景数据构成的配电网信息系统全景数据库;所述对所述配电网信息系统全景数据进行预处理,具体包括:对所述配电网信息系统全景数据进行混合采样和归一化处理。
18.在本发明实施例中,对于提取文本特征的数据修剪,针对url数据集,首先将字符选为最小的数据处理单元,接着进行字符频率统计,删除频率低于指定数量的特殊字符,并对url长度进行标准化操作,所述标准化操作包括将url长度与指定长度阈值比较,比指定阈值长的部分被截断,短部分用零填充。
19.在本发明实施例中,对电网信息系统全景数据进行预处理,具体包括:对电网信息系统全景数据中的边界样本进行分类,并根据所述边界样本的分布状态,对电网信息系统全景数据中的边界少数样本进行合成;根据新合成数据集中的两个样本点之间的距离,判断所述两个样本点能否形成tomeklinks对,若能形成,则确定所述两个样本点中的一个样本为噪声,并删除所述样本;若不能形成,则确定所述两个样本点为安全样本。
20.在本发明实施例中,所述利用双线性因子分解机学习文本特征向量之间的潜在交互关系包括:
[0021][0022]
其中ω0是模型偏差;ωi∈r是对特征变量xi的权重建模;表征变量xi和xj之间的成对交互,k表示隐向量长度;n代表样本的特征数量;vi,f表示xi的辅助向量,表示向量xi在对应域fj的辅助向量,为向量xj在对应域fi的辅助向量。
[0023]
在本发明实施例中,所述按/的位置将url分成四个块:协议、域、路径和文件,第一个/之前的块作为协议部分;第二个/之前的字符串定义为域部分;最后一个/之后的字符串被视为文件部分;其余字符串被视为路径部分,利用对齐策略将tokens定位在带有不同类
型括号的不同卡盘上,其中协议部分的每个token都放在大括号{}中,域部分中的每个标记都放在括号()中,路径部分中的标记放在尖括号《》中,文件部分中的标记用方括号[]。
[0024]
在本发明实施例中,所述利用时间卷积网络学习urltokens向量之间的距离依赖关系包括:时间卷积网络输入层将token向量化的数据作为模型的输入,时间卷积网络由多个残差模块堆叠而成,负责提取对应的序列的时序特征,每个残差模块有一个输入,称为x,两个输出,均为高维张量,一个表示该模块所提取出的特征h
t
,一个表示该模块输出的残差r
t
,每个残差模块由4个一维卷积层conv0、conv1、conv2、conv3组成:第一个卷积层conv对输入做初步处理,输出为c0;第二个卷积层conv1的输入为c0,输出经过dropout后选择使用sigmoid函数激活,称之c1,第三个卷积层的输入为c0,输出经过dropout后选择使用tanh函数激活,称之为c2,c1和c2的输入需要考虑tcn的扩张卷积参数d,并在逐元素相乘后输入conv3,其输出即为h
t
,h
t
与模块输入x相加后即得到另一个输出r
t
。
[0025]
(三)有益效果
[0026]
与现有技术相比,本发明提供了一种基于特征融合的电网信息系统网络攻击检测方法,具备以下有益效果:
[0027]
该一种基于特征融合的电网信息系统网络攻击检测方法,通过综合考虑url的文本特征和结构特征,针对文本特征通过双线性因子分解机(ffm)算法有效来学习文本特征之间的潜在交互;对于深层结构特征,考虑恶意url中不同位置的标记具有不同的功能,引入位置嵌入进行标记向量化,以减少url标记的歧义,同时,利用时间卷积网络(tcn)来学习url标记之间的长距离依赖关系,有效完善了特征完整性。在提取文本特征和结构特征后,通过自定进度学习策略有效地协同训练两个分支,确保模型适用于简单和多样化的样本,最后基于融合特征有效完成恶意url的检测。
具体实施方式
[0028]
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029]
一种基于特征融合的电网信息系统网络攻击检测方法,包括以下步骤:
[0030]
s1:获取配电网信息系统全景数据,对配电网信息系统全景数据进行预处理,并将配电网信息系统全景数据划分为训练集、验证集和测试集;
[0031]
s2:基于特征融合网络攻击检测方法包括参考值生成层、网络攻击缓解层、协调虚假数据注入层以及网络物理-信息层;
[0032]
s3:对样本url数据进行数据预处理,包括去除重复样本、数据修剪、格式化,数据修剪去除指定条件的符号和字符,格式化将数据分为两列,修剪后的url放置在第一列中,url的标签放置在第二列中,其中标签标记了url是否恶意;
[0033]
s4:基于预处理后的url数据,提取包括词汇特征和统计特征在内的文本特征,构建文本特征向量,利用双线性因子分解机学习文本特征向量之间的潜在交互关系;
[0034]
s5:基于预处理后的url数据,执行token提取以从url中获取tokens,通过word2vec学习urltokens的向量表示,利用时间卷积网络学习urltokens向量之间的距离依
赖关系,距离依赖关系称为结构特征;
[0035]
s6:建立随机森林入侵检测模型,并根据训练集、验证集和测试集,为随机森林入侵检测模型寻找最佳超参数组;
[0036]
s7:根据最佳超参数组确定配电网信息系统是否存在网络攻击;
[0037]
具体的,在网络物理-信息层中,直流微电网采用协作控制方法。一般网络物理模型由m个单元组成,每个单元都是一个直流电源,通过一个直流变换器连接到直流微电网,所有的变换器的额定功率相等。每个变换器的工作是按照参考电压来恢复电压,参考电压是由本地一级和二级控制器准备的,参考值生成层采用前馈神经网络来估计用于将分布式能源接入直流微电网的变换器的输出直流电流。对于前馈神经网络的实现,需要考虑两个步骤:在第一步中,神经网络被离线训练以准备一个微调的神经网络,在第二步中,训练有素的前馈神经网络被用于监测和估计变换的输出直流电流,进一步地,将最后,将网络攻击缓解层的输出作为协调虚假数据注入层的输入信号,判断第参考值生成层的输出作为网络攻击缓解层的输入。在网络攻击缓解层中,通过比例积分控制器对每个变换器的输出直流电流的参考值跟踪以减轻虚假数据个单元中是否存在的攻击。如果第i个单元受到虚假数据注入攻击,虚假注入的数据的值将会得到确认,并通过将比例积分控制器的输出注入系统,该攻击将被缓解。
[0038]
s8:再利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络,在整体模型训练好之后,利用训练好的模型对待检测的url数据进行识别,基于特征融合的识别结果完成恶意url的检测,自定进度学习策略通过逐渐加入学习数据来减少熵值,训练出潜在的权重参数,并通过在损失函数中引入权重变量来表示样本是否被选择。
[0039]
在本发明实施例中,全景数据包括配电网网架拓扑、开关状态、设备参数、客户负荷、运行状态和设备历史运行数据。
[0040]
在本发明实施例中,搭建由配电网信息系统全景数据构成的配电网信息系统全景数据库;对配电网信息系统全景数据进行预处理,具体包括:对配电网信息系统全景数据进行混合采样和归一化处理。
[0041]
进一步的,可以对配电网信息系统全景数据中的边界样本进行分类,并根据边界样本的分布状态,对配电网信息系统全景数据中的边界少数样本进行合成;根据新合成数据集中的两个样本点之间的距离,判断两个样本点能否形成tomeklinks对,若能形成,则确定两个样本点中的一个样本为噪声,并删除样本;若不能形成,则确定两个样本点为安全样本。
[0042]
在本发明实施例中,对于提取文本特征的数据修剪,针对url数据集,首先将字符选为最小的数据处理单元,接着进行字符频率统计,删除频率低于指定数量的特殊字符,并对url长度进行标准化操作,标准化操作包括将url长度与指定长度阈值比较,比指定阈值长的部分被截断,短部分用零填充。
[0043]
在本发明实施例中,对电网信息系统全景数据进行预处理,具体包括:对电网信息系统全景数据中的边界样本进行分类,并根据边界样本的分布状态,对电网信息系统全景数据中的边界少数样本进行合成;根据新合成数据集中的两个样本点之间的距离,判断两个样本点能否形成tomeklinks对,若能形成,则确定两个样本点中的一个样本为噪声,并删除样本;若不能形成,则确定两个样本点为安全样本。
[0044]
在本发明实施例中,利用双线性因子分解机学习文本特征向量之间的潜在交互关系包括:
[0045][0046]
其中ω0是模型偏差;ωi∈r是对特征变量xi的权重建模;表征变量xi和xj之间的成对交互,k表示隐向量长度;n代表样本的特征数量;vi,f表示xi的辅助向量,表示向量xi在对应域fj的辅助向量,为向量xj在对应域fi的辅助向量。
[0047]
在本发明实施例中,按/的位置将url分成四个块:协议、域、路径和文件,第一个/之前的块作为协议部分;第二个/之前的字符串定义为域部分;最后一个/之后的字符串被视为文件部分;其余字符串被视为路径部分,利用对齐策略将tokens定位在带有不同类型括号的不同卡盘上,其中协议部分的每个token都放在大括号{}中,域部分中的每个标记都放在括号()中,路径部分中的标记放在尖括号《》中,文件部分中的标记用方括号[]。
[0048]
在本发明实施例中,利用时间卷积网络学习urltokens向量之间的距离依赖关系包括:时间卷积网络输入层将token向量化的数据作为模型的输入,时间卷积网络由多个残差模块堆叠而成,负责提取对应的序列的时序特征,每个残差模块有一个输入,称为x,两个输出,均为高维张量,一个表示该模块所提取出的特征h
t
,一个表示该模块输出的残差r
t
,每个残差模块由4个一维卷积层conv0、conv1、conv2、conv3组成:第一个卷积层conv对输入做初步处理,输出为c0;第二个卷积层conv1的输入为c0,输出经过dropout后选择使用sigmoid函数激活,称之c1,第三个卷积层的输入为c0,输出经过dropout后选择使用tanh函数激活,称之为c2,c1和c2的输入需要考虑tcn的扩张卷积参数d,并在逐元素相乘后输入conv3,其输出即为h
t
,h
t
与模块输入x相加后即得到另一个输出r
t
。
[0049]
进一步的,自定进度学习策略包括:给定数据集d={(x1,y1),...,(xn,yn)},其中xi∈rm表示d中第i个url的特征,yi是第i个url的对应类,由文本分量引起的基本事实yi和估计标签之间的损失用表示,结构分量的损失用表示,其中是指第i个样本的深度分量的预测结果。
[0050]
自定进度学习策略共同训练双线性因子分解机模型和时间卷积网络模型模型的参数w并通过最小化如下等式来学习潜在的权重变量v=[v1,....,vn]:
[0051][0052]
其中参数λ控制学习率,lw是指用逻辑损失量化的文本部分的损失;ld表示由交叉熵损失测量的深层结构损失。
[0053]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于,包括以下步骤:s1:获取配电网信息系统全景数据,对配电网信息系统全景数据进行预处理,并将所述配电网信息系统全景数据划分为训练集、验证集和测试集;s2:基于特征融合网络攻击检测方法包括参考值生成层、网络攻击缓解层、协调虚假数据注入层以及网络物理-信息层;s3:对样本url数据进行数据预处理,包括去除重复样本、数据修剪、格式化,数据修剪去除指定条件的符号和字符,格式化将数据分为两列,修剪后的url放置在第一列中,url的标签放置在第二列中,其中标签标记了url是否恶意;s4:基于预处理后的url数据,提取包括词汇特征和统计特征在内的文本特征,构建文本特征向量,利用双线性因子分解机学习文本特征向量之间的潜在交互关系;s5:基于预处理后的url数据,执行token提取以从url中获取tokens,通过word2vec学习urltokens的向量表示,利用时间卷积网络学习urltokens向量之间的距离依赖关系,距离依赖关系称为结构特征;s6:建立随机森林入侵检测模型,并根据训练集、验证集和测试集,为随机森林入侵检测模型寻找最佳超参数组;s7:根据最佳超参数组确定配电网信息系统是否存在网络攻击;s8:再利用自定进度学习策略协同训练双线性因子分解机和时间卷积网络,在整体模型训练好之后,利用训练好的模型对待检测的url数据进行识别,基于特征融合的识别结果完成恶意url的检测,所述自定进度学习策略通过逐渐加入学习数据来减少熵值,训练出潜在的权重参数,并通过在损失函数中引入权重变量来表示样本是否被选择。2.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:所述全景数据包括配电网网架拓扑、开关状态、设备参数、客户负荷、运行状态和设备历史运行数据。3.根据权利要求2所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:搭建由所述配电网信息系统全景数据构成的配电网信息系统全景数据库;所述对所述配电网信息系统全景数据进行预处理,具体包括:对所述配电网信息系统全景数据进行混合采样和归一化处理。4.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:对于提取文本特征的数据修剪,针对url数据集,首先将字符选为最小的数据处理单元,接着进行字符频率统计,删除频率低于指定数量的特殊字符,并对url长度进行标准化操作,所述标准化操作包括将url长度与指定长度阈值比较,比指定阈值长的部分被截断,短部分用零填充。5.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:对电网信息系统全景数据进行预处理,具体包括:对电网信息系统全景数据中的边界样本进行分类,并根据所述边界样本的分布状态,对电网信息系统全景数据中的边界少数样本进行合成;根据新合成数据集中的两个样本点之间的距离,判断所述两个样本点能否形成tomeklinks对,若能形成,则确定所述两个样本点中的一个样本为噪声,并删除所述样本;若不能形成,则确定所述两个样本点为安全样本。6.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特
征在于:所述利用双线性因子分解机学习文本特征向量之间的潜在交互关系包括:其中ω0是模型偏差;ω
i
∈r是对特征变量x
i
的权重建模;表征变量x
i
和x
j
之间的成对交互,k表示隐向量长度;n代表样本的特征数量;v
i
,f表示x
i
的辅助向量,表示向量x
i
在对应域f
j
的辅助向量,为向量x
j
在对应域f
i
的辅助向量。7.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:所述按/的位置将url分成四个块:协议、域、路径和文件,第一个/之前的块作为协议部分;第二个/之前的字符串定义为域部分;最后一个/之后的字符串被视为文件部分;其余字符串被视为路径部分,利用对齐策略将tokens定位在带有不同类型括号的不同卡盘上,其中协议部分的每个token都放在大括号{}中,域部分中的每个标记都放在括号()中,路径部分中的标记放在尖括号<>中,文件部分中的标记用方括号[]。8.根据权利要求1所述的一种基于特征融合的电网信息系统网络攻击检测方法,其特征在于:所述利用时间卷积网络学习urltokens向量之间的距离依赖关系包括:时间卷积网络输入层将token向量化的数据作为模型的输入,时间卷积网络由多个残差模块堆叠而成,负责提取对应的序列的时序特征,每个残差模块有一个输入,称为x,两个输出,均为高维张量,一个表示该模块所提取出的特征h
t
,一个表示该模块输出的残差r
t
,每个残差模块由4个一维卷积层conv0、conv1、conv2、conv3组成:第一个卷积层conv对输入做初步处理,输出为c0;第二个卷积层conv1的输入为c0,输出经过dropout后选择使用sigmoid函数激活,称之c1,第三个卷积层的输入为c0,输出经过dropout后选择使用tanh函数激活,称之为c2,c1和c2的输入需要考虑tcn的扩张卷积参数d,并在逐元素相乘后输入conv3,其输出即为h
t
,h
t
与模块输入x相加后即得到另一个输出r
t
。
技术总结
本发明公开了一种基于特征融合的电网信息系统网络攻击检测方法,包括以下步骤:S1:获取配电网信息系统全景数据,对配电网信息系统全景数据进行预处理,并将所述配电网信息系统全景数据划分为训练集、验证集和测试集。该一种基于特征融合的电网信息系统网络攻击检测方法,通过综合考虑URL的文本特征和结构特征,针对文本特征通过双线性因子分解机(FFM)算法有效来学习文本特征之间的潜在交互;对于深层结构特征,考虑恶意URL中不同位置的标记具有不同的功能,引入位置嵌入进行标记向量化,以减少URL标记的歧义。减少URL标记的歧义。
技术研发人员:杨艺 杨军 张争坤 姚雪莲 高颂 王俊 付主木 陶发展
受保护的技术使用者:江苏理工学院
技术研发日:2023.06.19
技术公布日:2023/9/16
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:拔叉轴工装夹具的制作方法 下一篇:一种检测仪用固定架的制作方法