一种基于攻防博弈模型的智能化决策系统及方法与流程
未命名
10-08
阅读:67
评论:0

1.本发明属于网络安全技术领域,具体涉及一种基于攻防博弈模型的智能化决策系统及方法。
背景技术:
2.随着信息化战争的不断演化变革,网络对抗作为一种新型的作战力量在现代战场中发挥着越来越大的作用,由于网络战场环境的复杂性,传统的依靠人为决策越来越无法支撑作战需求,必须借助智能化辅助决策这一手段来保证决策的正确性和时效性。
3.在网络攻防对抗中,攻防双方总是利用有限的资源做出合理的决策,以最小的代价取得最大的收益,因此网络攻防对抗的本质可被抽象为攻防双方之间的博弈。也就是说,网络攻防的决策问题适合运用博弈论来进行研究。然而,传统博弈理论以复制动态学习机制为基础,决策者通过学习调整自身策略,使自身收益达到最大,但并未考虑博弈过程中存在的各类随机因素的干扰问题。在实际攻防过程中,攻击手段的选择、系统运行环境的改变及其他外来因素的干扰等均具有一定的随机性,忽略对随机因素的考虑会降低模型和方法的有效性和准确性。
技术实现要素:
4.(一)要解决的技术问题
5.本发明要解决的技术问题是:面向常见的网络攻防对抗时策略智能选取问题,提供一种基于攻防博弈模型的智能化决策系统及方法,提高网络攻防博弈模型的合理性和准确性。
6.(二)技术方案
7.为了解决上述技术问题,本发明提供了一种基于攻防博弈模型的智能化决策系统,包括:包括态势分析模块、攻防博弈模型框架构建模块、攻防博弈模型训练优化模块、第三方效能评估模块和决策模块;其中:
8.所述态势分析模块用于对双方攻防态势进行分析,提取出双方环境状态要素和策略动作要素,以及双方效能评估指标要素,所述策略动作要素包括策略要素和动作要素;
9.所述攻防博弈模型框架构建模块用于基于双方环境状态要素和策略动作要素将敌我双方攻防对抗问题抽象为网络攻防博弈模型;
10.所述攻防博弈模型训练优化模块用于基于遗传算法改进深度q网络去逼近动作状态值函数,从而实现对网络攻防博弈模型的训练优化;
11.所述第三方效能评估模块用于基于双方效能评估指标要素实现对网络攻防博弈模型进行检验;
12.所述决策模块用于在经过训练优化,并通过第三方检验的网络攻防博弈模型中,输入当前状态,求解得到当前最优策略。
13.本发明还提供了一种利用所述的智能化决策系统实现的智能化决策方法,包括以
下步骤:
14.(1)态势分析模块对当前双方态势信息进行分析,通过威胁特征库、攻击特征库,利用多维数据分析方法、关联分析方法提取出双方环境状态要素和策略动作要素,并传递给攻防博弈模型框架构建模块,提取出双方效能评估指标要素,并传递给第三方效能评估模块;
15.(2)攻防博弈模型框架构建模块基于环境状态要素和策略动作要素,通过马尔可夫博弈模型将敌我双方攻防对抗问题抽象为网络攻防博弈模型;
16.(3)攻防博弈模型训练优化模块训练优化网络攻防博弈模型:利用深度q网络逼近动作状态值函数q(s,a,b),且在逼近的过程中基于遗传算法改进深度q网络,即采用结合梯度下降算法的混合遗传算法对神经网络的权重参数θ进行优化和训练,直至损失函数达到预先设定的误差极小值;
17.(4)第三方效能评估模块基于双方效能评估指标要素构建第三方效能评估模型,并利用第三方效能评估模型对训练优化后的网络攻防博弈模型进行检验,若通过检验,则选取训练优化后的网络攻防博弈模型为最终模型;若不通过检验,那么重新选取训练样本,选取上一轮训练优化后的网络攻防博弈模型的权重参数θ作为初始权重继续训练网络攻防博弈模型,直至训练优化后的网络攻防博弈模型通过第三方效能评估模型检验;
18.(5)决策模块在经过训练优化,并通过第三方检验的网络攻防博弈模型中,输入当前状态s,求解使得动作状态值函数q(s,a,b)最优的解(a,b)即为当前最优策略选择。
19.优选地,步骤(1)中态势信息包括基础环境信息、攻击行为信息、防御行为信息,其中,基础环境信息包括开放服务信息、开放端口、内存、cpu,攻击行为信息包括攻击者ip、攻击设备指纹信息、攻击行为、攻击特征、攻击策略、攻击结果,防御行为信息包括防护策略、安全功能信息、拦截信息、告警信息。
20.优选地,步骤(2)中,通过马尔可夫博弈模型来构建网络攻防博弈模型,设敌方代表攻击方,我方代表防御方,确定元组《n,s,a1,....,an,t,γ,r1,....rn》代表网络攻防博弈模型,其中:
21.个数n:代表攻防博弈中的参与者数量,n=2,分别为攻击方和防御方;
22.状态s:代表状态空间,是所有状态s的集合,在攻防双方选取策略做出动作后,状态会发生改变;状态空间包含态势分析模块中提取出来的所有环境状态要素;
23.动作a:代表动作空间,是对攻击方和防御方策略动作的描述;a1代表防御方的动作集合,a2代表攻击方的动作集合;动作空间包含态势分析模块中提取出来的所有策略动作要素;
24.转移函数t:是从当前状态s在我方根据策略选择动作a与敌方根据策略选择动作b的联合行为策略(a,b)的影响下,转移到下一状态s
′
的概率;
25.折扣因子γ:是对未来奖励的衰减,γ∈[0,1];
[0026]
回报函数r:是攻防双方在状态s采取联合行为(a1,a2)后在状态s’处取得的回报,r1代表防御方的回报函数,r2代表攻击方的回报函数,攻防双方具有相反的回报函数,即r1=-r2;以动作状态值函数q(s,a,b)表示从状态s开始选择联合行为策略(a,b)的预期奖励。
[0027]
优选地,步骤(3)中,攻防博弈模型训练优化模块的实现方法包括:
[0028]
设马尔可夫博弈状态s下,最优值函数为其中,πa表示策略,即选择动作a的概率,pd(a)表示动作的离散概率分布;q(s,a,b)表示动作状态值函数,第t轮迭代的动作状态值函数为q
t
(s,a,b)=(1-α)*q
t-1
(s,a,b)+α*(r+γv(s
′
)),其中,q
t-1
(s,a,b)第t-1轮迭代的动作状态值函数,α代表学习效率,r代表当前获得的奖励;
[0029]
步骤(3)具体如下:
[0030]
构建神经网络,即找到一组参数θ,表示神经网络中每层网络的权重,更新动作状态值函数的过程就是不断训练更新参数θ;神经网络包含输入层、隐藏层和输出层,输入层为状态特征,输出层为博弈双方可选动作对应的q(s,a,b);
[0031]
收集k(k≥1000)组训练样本(s,a,b,r,s
′
)开始训练,训练时需打乱样本顺序,从中随机抽取样本进行训练;
[0032]
定义损失函数,采用与梯度下降算法结合的混合遗传算法优化网络攻防博弈模型:首先,给出遗传算法的初始参数以及梯度下降算法的初始点;然后,用遗传算法产生的最优解与梯度下降算法产生的最优解相比较,选取两者中最优的一组解作为梯度下降算法的下一轮起始点;其次,把由梯度下降算法每一步迭代产生的解作为优势个体替代遗传算法中的最劣势个体;不断循环,直至损失函数达到预先设定的误差极小值,停止训练;最终得出最优的一组参数θ,从而逼近动作状态值函数q(s,a,b)。
[0033]
优选地,定义损失函数loss=(target_q-q)2,其中,target_q代表目标q值,即通过与环境交互和学习更新后的目标值,q为原来的q值,整个训练过程就是q值(q)向目标q值(target_q)逼近的过程。
[0034]
优选地,步骤(4)中,第三方效能评估模块构建网络对抗效能评估模型作为第三方效能评估模型:通过态势分析模块提取出的双方效能评估指标要素梳理出网络对抗效能指标体系框架,将网络对抗效能指标体系框架转换为神经网络模型,利用群体智能算法对神经网络的权重参数进行优化和训练,最终得出网络对抗效能评估模型,并利用网络对抗效能评估模型对训练优化后的网络攻防博弈模型进行检验。
[0035]
优选地,步骤(4)中构建网络对抗效能评估模型的方法具体包括:
[0036]
(1)构建网络对抗效能指标体系框架:将态势分析模块提取出的双方效能评估指标要素,梳理成网络对抗效能指标体系框架;
[0037]
(2)将网络对抗效能指标体系框架转化为神经网络模型,输入层为指标要素,输出层为对抗效能,神经网络模型的权重参数为
[0038]
(3)输入训练样本,利用群体智能算法对神经网络的权重参数进行训练,最终获取最优的一组参数从而得到最终的网络对抗效能评估模型作为第三方效能评估模型。
[0039]
优选地,步骤(4)中利用网络对抗效能评估模型对训练优化后的网络攻防博弈模型进行检验的具体方法如下:
[0040]
利用第三方效能评估模型对当前的网络攻防博弈模型进行检验:网络攻防博弈模型中在一状态下进行动作选择后得到的动作状态值,与下一状态下的网络对抗效能存在正比例关系;输入当前状态选取使得动作状态值q函数值最优的前m组解(a1,b1),(a2,b2),...,(am,bm),分别计算在状态下采取联合行为策略(a1,b1),(a2,b2),...,(am,bm)后的
状态s
′1,s
′2,...,s
′m;然后,通过第三方效能评估模型计算在状态s
′1,s
′2,...,s
′m下的网络对抗效能e
′1,e
′2,...,e
′m;若网络对抗效能的大小排序与最优解排序一致,那么通过检验;若网络对抗效能的大小排序与最优解排序不一致,那么重新选取k
′
(k
′
≥1000)组训练样本,选取上一轮网络攻防博弈模型的权重参数θ作为初始权重继续训练模型;直至训练优化后的网络攻防博弈模型通过第三方效能评估模型检验。
[0041]
本发明还提供了一种利用所述方法实现的网络攻防对抗方法。
[0042]
(三)有益效果
[0043]
(1)在更新马尔可夫博弈状态下的动作状态值q函数时,为了解决状态空间连续多维、无法用简单q表计算的问题,提出基于遗传算法改进深度q网络——即在构建神经网络去逼近q函数时,利用结合梯度下降算法的混合遗传算法对模型进行训练和优化,避免陷入局部最优,使得攻防博弈模型的构建具备更高的准确性和效率性。
[0044]
(2)引入第三方效能评估机制,利用第三方效能评估模型对攻防博弈模型进行检验,只有通过检验的攻防博弈模型,才能作为最终攻防博弈模型,从而选取当前状态下的最优动作,提高策略选择的准确性和有效性。
附图说明
[0045]
图1为本发明基于攻防博弈模型的智能化决策系统的总体架构及方法实现原理图。
具体实施方式
[0046]
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
[0047]
本发明的基于攻防博弈模型的智能化决策系统及方法以敌我双方网络对抗为背景,考虑到网络对抗环境的复杂性,将问题抽象为零和博弈对抗问题,通过构建网络博弈模型,并且引入第三方效能评估机制对攻防博弈模型进行检验,帮助我方决策者更加直观的、智能化的选取最优对抗策略。为了提高网络攻防博弈模型的合理性和准确性,本发明在构建网络攻防博弈模型时,基于遗传算法改进深度q网络去逼近动作状态值函数,解决了状态空间连续多维问题;同时通过第三方效能评估机制对攻防博弈模型进行检验,使得攻防博弈模型更具准确性,从而为决策者提供决策支撑。
[0048]
如图1所示,本发明提供了一种基于攻防博弈模型的智能化决策系统,包括态势分析模块、攻防博弈模型框架构建模块、攻防博弈模型训练优化模块、第三方效能评估模块、决策模块。态势分析模块用于对双方攻防态势进行分析,提取出双方环境状态要素和策略动作要素,以及双方效能评估指标要素,策略动作要素包括策略要素和动作要素;攻防博弈模型框架构建模块用于基于双方环境状态要素和策略动作要素将敌我双方攻防对抗问题抽象为网络攻防博弈模型;攻防博弈模型训练优化模块用于基于遗传算法改进深度q网络去逼近动作状态值函数,从而实现对网络攻防博弈模型的训练优化;第三方效能评估模块用于基于双方效能评估指标要素实现对网络攻防博弈模型进行检验;决策模块用于在经过训练优化,并通过第三方检验的网络攻防博弈模型中,输入当前状态,求解得到当前最优策略选择。
[0049]
利用该系统实现的智能化决策方法的具体流程为:
[0050]
(1)态势分析模块对当前态势信息进行分析,通过威胁特征库、攻击特征库等,利用多维数据分析、关联分析等手段提取出双方环境状态要素和策略动作要素,并传递给攻防博弈模型框架构建模块,提取出双方效能评估指标要素,并传递给第三方效能评估模块;
[0051]
(2)攻防博弈模型框架构建模块基于环境状态要素和策略动作要素,通过马尔可夫博弈模型将敌我双方攻防对抗问题抽象为网络攻防博弈模型;
[0052]
(3)攻防博弈模型训练优化模块训练优化网络攻防博弈模型:利用深度q网络逼近动作状态值函数q(s,a,b),且在逼近的过程中基于遗传算法改进深度q网络,即采用结合梯度下降算法的混合遗传算法对神经网络的权重参数θ进行优化和训练,直至损失函数达到预先设定的误差极小值,使得算法能更快全局收敛;
[0053]
(4)第三方效能评估模块基于双方效能评估指标要素构建第三方效能评估模型,并利用第三方效能评估模型对训练优化后的网络攻防博弈模型进行检验,若通过检验,则选取训练优化后的网络攻防博弈模型为最终模型;若不通过检验,那么重新选取训练样本,选取上一轮训练优化后的网络攻防博弈模型的权重参数θ作为初始权重继续训练网络攻防博弈模型,直至训练优化后的网络攻防博弈模型通过第三方效能评估模型检验;
[0054]
(5)决策模块在经过训练优化,并通过第三方检验的网络攻防博弈模型中,输入当前状态s,求解使得动作状态值函数q(s,a,b)最优的解(a,b)即为当前最优策略选择。
[0055]
步骤(1)中,态势分析模块对双方攻防态势进行分析,态势信息包括基础环境信息、攻击行为信息、防御行为信息。其中,基础环境信息包括开放服务信息、开放端口、内存、cpu等,攻击行为信息包括攻击者ip、攻击设备指纹信息、攻击行为、攻击特征、攻击策略、攻击结果等,防御行为信息包括防护策略、安全功能信息、拦截信息、告警信息等。同时,从以上态势信息中通过多维数据分析、关联分析等手段提取出双方的环境状态要素、策略动作要素、效能评估指标要素传递给攻防博弈模型框架构建模块;提取出双方效能评估指标要素传递给第三方效能评估模块。
[0056]
步骤(2)中,攻防博弈模型框架构建模块的实现方法包括:
[0057]
由于攻防双方其中有一方收益增加,则另一方收益必然减少,因此攻防双方对抗本质上为零和博弈。通过马尔可夫博弈模型来构建网络攻防博弈模型,以敌方代表攻击方,我方代表防御方为例,确定元组《n,s,a1,....,an,t,γ,r1,....rn》代表网络攻防博弈模型,其中:
[0058]
(1)个数n:代表攻防博弈中的参与者数量,n=2,分别为攻击方和防御方。
[0059]
(2)状态s:代表状态空间,是所有状态s的集合,在攻防双方选取策略做出动作后,状态会发生改变。状态空间包含态势分析模块中提取出来的所有环境状态要素。
[0060]
(3)动作a:代表动作空间,对攻击方和防御方策略动作的描述。a1代表防御方的动作集合,a2代表攻击方的动作集合。动作空间包含态势分析模块中提取出来的所有策略动作要素。
[0061]
(4)转移函数t:从当前状态s在我方根据策略选择动作a与敌方根据策略选择动作b的联合行为策略(a,b)的影响下,转移到下一状态s
′
的概率。
[0062]
(5)折扣因子γ:折扣因子是对未来奖励的衰减,γ∈[0,1]。
[0063]
(6)回报函数r:攻防双方在状态s采取联合行为(a1,a2)后在状态s’处取得的回报。
r1代表防御方的回报函数,r2代表攻击方的回报函数,攻防双方具有相反的回报函数,即r1=-r2。以动作状态值函数q(s,a,b)表示从状态s开始选择联合行为策略(a,b)的预期奖励。
[0064]
步骤(3)中,攻防博弈模型训练优化模块的实现方法包括:
[0065]
马尔可夫博弈状态s下,最优值函数为其中,πa表示策略,即选择动作a的概率,pd(a)表示动作的离散概率分布;q(s,a,b)表示动作状态值函数,第t轮(本轮)迭代的动作状态值函数为q
t
(s,a,b)=(1-α)*q
t-1
(s,a,b)+α*(r+γv(s
′
)),其中,q
t-1
(s,a,b)第t-1轮(上一)迭代的动作状态值函数,α代表学习效率,r代表当前获得的奖励,γ∈[0,1]。
[0066]
由于攻防博弈态势复杂多变,状态空间连续多维,动作状态值函数q函数无法用简单的q表计算得出。因此,本发明提出利用深度q网络逼近动作状态值函数q(s,a,b),同时基于遗传算法改进深度q网络,使得算法能更快全局收敛。具体如下:
[0067]
(1)构建神经网络逼近动作状态值函数q(s,a,b)。即找到一组参数θ,表示神经网络中每层网络的权重,更新动作状态值函数的过程就是不断训练更新参数θ。神经网络包含输入层、隐藏层和输出层,输入层为状态特征,输出层为博弈双方可选动作对应的q(s,a,b)。
[0068]
(2)收集k(k≥1000)组训练样本(s,a,b,r,s
′
)开始训练,训练时需打乱样本顺序,从中随机抽取样本进行训练,从而打破样本之间关联性,使算法更容易收敛。
[0069]
(3)定义损失函数loss=(target_q-q)2,其中,target_q代表目标q值,即通过与环境交互和学习更新后的目标值,q为原来的q值,采用与梯度下降算法结合的混合遗传算法,替代传统的梯度下降算法进行优化:首先,给出遗传算法的初始参数以及梯度下降算法的初始点;然后,用遗传算法产生的最优解与梯度下降算法产生的最优解相比较,选取两者中最优的一组解作为梯度下降算法的下一轮起始点;其次,把由梯度下降算法每一步迭代产生的解作为优势个体替代遗传算法中的最劣势个体;不断循环,直至损失函数达到预先设定的误差极小值,停止训练;最终得出最优的一组参数θ,从而逼近动作状态值函数q(s,a,b)。整个训练过程其实就是q值(q)向目标q值(target_q)逼近的过程。
[0070]
步骤(4)中,第三方效能评估模块构建网络对抗效能评估模型作为第三方效能评估模型。通过态势分析模块提取出的双方效能评估指标要素梳理出网络对抗效能指标体系框架,将网络对抗效能指标体系框架转换为神经网络模型,利用群体智能算法(例如遗传算法、粒子群算法、蚁群算法、布谷鸟算法等)对神经网络的权重参数进行优化和训练,最终得出网络对抗效能评估模型,并利用网络对抗效能评估模型对训练优化后的网络攻防博弈模型进行检验。
[0071]
具体地,第三方效能评估模块的实现方法包括:
[0072]
首先,构建网络对抗效能评估模型。具体方法如下:
[0073]
(1)构建网络对抗效能指标体系框架:将态势分析模块提取出的双方效能评估指标要素,梳理成网络对抗效能指标体系框架。
[0074]
(2)将网络对抗效能指标体系框架转化为神经网络模型,输入层为指标要素,输出层为对抗效能,神经网络模型的权重参数为
[0075]
(3)输入训练样本,利用群体智能算法(例如,遗传算法、粒子群算法、蚁群算法、布
谷鸟算法等)代替传统的梯度下降算法对神经网络的权重参数进行训练,从而避免陷入局部最优。最终获取最优的一组参数从而得到最终的网络对抗效能评估模型作为第三方效能评估模型。
[0076]
其次,利用网络对抗效能评估模型对训练优化后的网络攻防博弈模型进行检验,具体方法如下:
[0077]
利用第三方效能评估模型对当前的网络攻防博弈模型进行检验。网络攻防博弈模型中在某一状态下进行动作选择后得到的动作状态值,应当与下一状态下的网络对抗效能存在正比例关系。输入当前状态选取使得动作状态值q函数值最优的前m组解(a1,b1),(a2,b2),...,(am,bm),分别计算在状态下采取联合行为策略(a1,b1),(a2,b2),...,(am,bm)后的状态s
′1,s
′2,...,s
′m。然后,通过第三方效能评估模型计算在状态s
′1,s
′2,...,s
′m下的网络对抗效能e
′1,e
′2,...,e
′m。若网络对抗效能的大小排序与最优解排序一致,那么通过检验;若网络对抗效能的大小排序与最优解排序不一致,那么重新选取k
′
(k
′
≥1000)组训练样本,选取上一轮网络攻防博弈模型的权重参数θ作为初始权重继续训练模型。直至训练优化后的网络攻防博弈模型通过第三方效能评估模型检验。
[0078]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
技术特征:
1.一种基于攻防博弈模型的智能化决策系统,其特征在于,包括:包括态势分析模块、攻防博弈模型框架构建模块、攻防博弈模型训练优化模块、第三方效能评估模块和决策模块;其中:所述态势分析模块用于对双方攻防态势进行分析,提取出双方环境状态要素和策略动作要素,以及双方效能评估指标要素,所述策略动作要素包括策略要素和动作要素;所述攻防博弈模型框架构建模块用于基于双方环境状态要素和策略动作要素将敌我双方攻防对抗问题抽象为网络攻防博弈模型;所述攻防博弈模型训练优化模块用于基于遗传算法改进深度q网络去逼近动作状态值函数,从而实现对网络攻防博弈模型的训练优化;所述第三方效能评估模块用于基于双方效能评估指标要素实现对网络攻防博弈模型进行检验;所述决策模块用于在经过训练优化,并通过第三方检验的网络攻防博弈模型中,输入当前状态,求解得到当前最优策略。2.一种利用如权利要求1所述的智能化决策系统实现的智能化决策方法,其特征在于,包括以下步骤:(1)态势分析模块对当前双方态势信息进行分析,通过威胁特征库、攻击特征库,利用多维数据分析方法、关联分析方法提取出双方环境状态要素和策略动作要素,并传递给攻防博弈模型框架构建模块,提取出双方效能评估指标要素,并传递给第三方效能评估模块;(2)攻防博弈模型框架构建模块基于环境状态要素和策略动作要素,通过马尔可夫博弈模型将敌我双方攻防对抗问题抽象为网络攻防博弈模型;(3)攻防博弈模型训练优化模块训练优化网络攻防博弈模型:利用深度q网络逼近动作状态值函数q(s,a,b),且在逼近的过程中基于遗传算法改进深度q网络,即采用结合梯度下降算法的混合遗传算法对神经网络的权重参数θ进行优化和训练,直至损失函数达到预先设定的误差极小值;(4)第三方效能评估模块基于双方效能评估指标要素构建第三方效能评估模型,并利用第三方效能评估模型对训练优化后的网络攻防博弈模型进行检验,若通过检验,则选取训练优化后的网络攻防博弈模型为最终模型;若不通过检验,那么重新选取训练样本,选取上一轮训练优化后的网络攻防博弈模型的权重参数θ作为初始权重继续训练网络攻防博弈模型,直至训练优化后的网络攻防博弈模型通过第三方效能评估模型检验;(5)决策模块在经过训练优化,并通过第三方检验的网络攻防博弈模型中,输入当前状态s,求解使得动作状态值函数q(s,a,b)最优的解(a,b)即为当前最优策略选择。3.如权利要求2所述的方法,其特征在于,步骤(1)中态势信息包括基础环境信息、攻击行为信息、防御行为信息,其中,基础环境信息包括开放服务信息、开放端口、内存、cpu,攻击行为信息包括攻击者ip、攻击设备指纹信息、攻击行为、攻击特征、攻击策略、攻击结果,防御行为信息包括防护策略、安全功能信息、拦截信息、告警信息。4.如权利要求2所述的方法,其特征在于,步骤(2)中,通过马尔可夫博弈模型来构建网络攻防博弈模型,设敌方代表攻击方,我方代表防御方,确定元组<n,s,a1,....,a
n
,t,γ,r1,....r
n
>代表网络攻防博弈模型,其中:个数n:代表攻防博弈中的参与者数量,n=2,分别为攻击方和防御方;
状态s:代表状态空间,是所有状态s的集合,在攻防双方选取策略做出动作后,状态会发生改变;状态空间包含态势分析模块中提取出来的所有环境状态要素;动作a:代表动作空间,是对攻击方和防御方策略动作的描述;a1代表防御方的动作集合,a2代表攻击方的动作集合;动作空间包含态势分析模块中提取出来的所有策略动作要素;转移函数t:是从当前状态s在我方根据策略选择动作a与敌方根据策略选择动作b的联合行为策略(a,b)的影响下,转移到下一状态s
′
的概率;折扣因子γ:是对未来奖励的衰减,γ∈[0,1];回报函数r:是攻防双方在状态s采取联合行为(a1,a2)后在状态s’处取得的回报,r1代表防御方的回报函数,r2代表攻击方的回报函数,攻防双方具有相反的回报函数,即r1=-r2;以动作状态值函数q(s,a,b)表示从状态s开始选择联合行为策略(a,b)的预期奖励。5.如权利要求4所述的方法,其特征在于,步骤(3)中,攻防博弈模型训练优化模块的实现方法包括:设马尔可夫博弈状态s下,最优值函数为其中,π
a
表示策略,即选择动作a的概率,pd(a)表示动作的离散概率分布;q(s,a,b)表示动作状态值函数,第t轮迭代的动作状态值函数为q
t
(s,a,b)=(1-α)*q
t-1
(s,a,b)+α*(r+γv(s
′
)),其中,q
t-1
(s,a,b)第t-1轮迭代的动作状态值函数,α代表学习效率,r代表当前获得的奖励;步骤(3)具体如下:构建神经网络逼近动作状态值函数q(s,a,b),即找到一组参数θ,表示神经网络中每层网络的权重,更新动作状态值函数的过程就是不断训练更新参数θ;神经网络包含输入层、隐藏层和输出层,输入层为状态特征,输出层为博弈双方可选动作对应的q(s,a,b);收集k组训练样本(s,a,b,r,s
′
)开始训练,训练时需打乱样本顺序,从中随机抽取样本进行训练;定义损失函数,采用与梯度下降算法结合的混合遗传算法优化网络攻防博弈模型:首先,给出遗传算法的初始参数以及梯度下降算法的初始点;然后,用遗传算法产生的最优解与梯度下降算法产生的最优解相比较,选取两者中最优的一组解作为梯度下降算法的下一轮起始点;其次,把由梯度下降算法每一步迭代产生的解作为优势个体替代遗传算法中的最劣势个体;不断循环,直至损失函数达到预先设定的误差极小值,停止训练;最终得出最优的一组参数θ,从而逼近动作状态值函数q(s,a,b)。6.如权利要求5所述的方法,其特征在于,定义损失函数loss=(target_q-q)2,其中,target_q代表目标q值,即通过与环境交互和学习更新后的目标值,q为原来的q值,整个训练过程就是q值(q)向目标q值(target_q)逼近的过程。7.如权利要求5所述的方法,其特征在于,步骤(4)中,第三方效能评估模块构建网络对抗效能评估模型作为第三方效能评估模型:通过态势分析模块提取出的双方效能评估指标要素梳理出网络对抗效能指标体系框架,将网络对抗效能指标体系框架转换为神经网络模型,利用群体智能算法对神经网络的权重参数进行优化和训练,最终得出网络对抗效能评估模型,并利用网络对抗效能评估模型对训练优化后的网络攻防博弈模型进行检验。8.如权利要求7所述的方法,其特征在于,步骤(4)中构建网络对抗效能评估模型的方
法具体包括:(1)构建网络对抗效能指标体系框架:将态势分析模块提取出的双方效能评估指标要素,梳理成网络对抗效能指标体系框架;(2)将网络对抗效能指标体系框架转化为神经网络模型,输入层为指标要素,输出层为对抗效能,神经网络模型的权重参数为(3)输入训练样本,利用群体智能算法对神经网络的权重参数进行训练,最终获取最优的一组参数从而得到最终的网络对抗效能评估模型作为第三方效能评估模型。9.如权利要求8所述的方法,其特征在于,步骤(4)中利用网络对抗效能评估模型对训练优化后的网络攻防博弈模型进行检验的具体方法如下:利用第三方效能评估模型对当前的网络攻防博弈模型进行检验:网络攻防博弈模型中在一状态下进行动作选择后得到的动作状态值,与下一状态下的网络对抗效能存在正比例关系;输入当前状态选取使得动作状态值q函数值最优的前m组解(a1,b1),(a2,b2),...,(a
m
,b
m
),分别计算在状态下采取联合行为策略(a1,b1),(a2,b2),...,(a
m
,b
m
)后的状态s
′1,s
′2,...,s
′
m
;然后,通过第三方效能评估模型计算在状态s
′1,s
′2,...,s
′
m
下的网络对抗效能e
′1,e
′2,...,e
′
m
;若网络对抗效能的大小排序与最优解排序一致,那么通过检验;若网络对抗效能的大小排序与最优解排序不一致,那么重新选取k
′
(k
′
≥1000)组训练样本,选取上一轮网络攻防博弈模型的权重参数θ作为初始权重继续训练模型;直至训练优化后的网络攻防博弈模型通过第三方效能评估模型检验。10.一种利用权利要求2至9中任一项所述方法实现的网络攻防对抗方法。
技术总结
本发明涉及一种基于攻防博弈模型的智能化决策系统及方法,属于网络安全技术领域。本发明的基于攻防博弈模型的智能化决策系统及方法以敌我双方网络对抗为背景,考虑到网络对抗环境的复杂性,将问题抽象为零和博弈对抗问题,通过构建网络博弈模型,并且引入第三方效能评估机制对攻防博弈模型进行检验,帮助我方决策者更加直观的、智能化的选取最优对抗策略。为了提高网络攻防博弈模型的合理性和准确性,本发明在构建网络攻防博弈模型时,基于遗传算法改进深度Q网络去逼近动作状态值函数,解决了状态空间连续多维问题;同时通过第三方效能评估机制对攻防博弈模型进行检验,使得攻防博弈模型更具准确性,从而为决策者提供决策支撑。支撑。支撑。
技术研发人员:张茜 王斌 王晓菲 温泉 尚颖 马晓军 王芳鸣 王亚洲 王基策 闫子淇 曾颖明 战海心 海然 杨华
受保护的技术使用者:北京计算机技术及应用研究所
技术研发日:2023.05.25
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/