基于自博弈的蓝军智能体模型构建方法和装置与流程
未命名
10-08
阅读:329
评论:0
1.本发明涉及无人机技术领域,具体涉及一种基于自博弈的蓝军智能体模型构建方法和装置。
背景技术:
2.现有的蓝军智能体模型通常基于固定的规则和手工设计的策略,无法适应复杂对抗环境中的动态变化,导致蓝军智能体模型在面对不同的对手策略时缺乏灵活性和适应性;对抗性智能体的策略具有高度的不确定性,这使得蓝军智能体模型很难准确预测对手的行为和应对其策略,从而影响了蓝军智能体模型的性能和稳定性。另外,现有蓝军智能体模型往往缺乏实时学习和优化的能力,无法根据实际对抗情况来调整自身的策略,从而导致蓝军智能体模型无法在对抗环境中持续适应和提升自身的防御能力。对手的策略往往会随着时间的推移和对抗过程中的学习而不断演化和改变,现有蓝军智能体模型难以及时捕捉到对手策略的变化,并相应地调整蓝军智能体模型的防御策略,从而导致防御能力的降低,由于缺乏有效的自适应机制和动态策略调整使得蓝军智能体模型容易受到对手的攻击或绕过。
技术实现要素:
3.鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于自博弈的蓝军智能体模型构建方法和装置。
4.依据本发明的一个方面,提供了一种基于自博弈的蓝军智能体模型构建方法,所述方法包括:设计对抗环境,所述环境包括多个蓝军智能体、对抗对手及其交互信息,并确定环境的状态空间、动作空间和策略的表达方式,形成蓝军智能体模型框架;模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间;分析对抗过程中对手的不同策略和动作,根据当前和历史对抗经验并按照决策程序生成应对的策略,并形成对抗数据;基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略。
5.在一些实施方式中,所述蓝军智能体包括传感器、决策程序和执行器,则模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间包括:利用所述传感器对环境进行感知,根据获得的环境状态和任务目标,按照决策程序进行动作选择,并通过执行器作用于环境;通过感知获得环境的反馈信息,并基于所述反馈信息更新优化所述状态和动作空间。
6.在一些实施方式中,根据当前和历史对抗经验并按照决策程序生成应对的策略包括:根据对抗双方的成本和损失,构建状态、动作和奖励值之间的对应关系;根据当前状态选择不同的动作,并确定不同动作作用到环境后的奖励值;评估不同动作的奖励值大小或得失,并结合历史对抗经验,确定当前状态下的动作策略。
7.在一些实施方式中,基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略包括:对传感器获得的数据进行检测和感知,确定对抗中的状态信息;对所述状态信息进行判断,并基于深度强化学习模型形成决策;根据所述决策产生对抗行动,并评估所述对抗行动的影响;根据所述对抗行动及其影响,利用所述环境形成更新后的对抗态势或博弈行动反馈,以供所述传感器感知。
8.在一些实施方式中,所述方法还包括:在对蓝军智能体模型的参数和策略进行优化调整后,分析对手应对调整的策略变化和演化趋势;根据对手的策略变化,进一步通过自博弈算法调整优化所述蓝军智能体模型的防御策略。
9.在一些实施方式中,所述方法还包括:通过收集对手在对抗中的信息,在蓝军智能体模型中建立对手模型;根据对手模型预判对手的攻击方式;对所述攻击方式及其安全威胁等级进行实时分析学习,并适应性地调整优化防御策略。
10.在一些实施方式中,所述方法还包括:通过再次对抗或者与其他蓝军智能体模型进行分析对比,评估所述蓝军智能体模型的性能和执行效果。
11.依据本发明的另一个方面,提供了一种基于自博弈的蓝军智能体模型构建装置,所述装置包括:模块设计模块,适于设计对抗环境,所述环境包括多个蓝军智能体、对抗对手及其交互信息,并确定环境的状态空间、动作空间和策略的表达方式,形成蓝军智能体模型框架;模拟对抗模块,适于模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间;策略生成模块,适于分析对抗过程中对手的不同策略和动作,根据当前和历史对抗经验并按照决策程序生成应对的策略,并形成对抗数据;策略更新模块,适于基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略。
12.依据本发明的又一方面,提供了一种电子设备,其特征在于,包括:处理器以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根
据上述实施方式中任一项所述的基于自博弈的蓝军智能体模型构建方法。
13.依据本发明的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现根据上述中任一项基于自博弈的蓝军智能体模型构建方法。
14.由上述可知,根据本发明公开的上述技术方案通过自博弈算法自我对弈,实现学习和优化对战策略,具有灵活性、适应性和实时性,能够更好地应对对抗环境中的不确定性和对手策略的变化,从而让蓝军智能体模型从模拟对抗中不断学习和优化自身的防御能力,提高安全性并减少对手的攻击风险。
15.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
16.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本发明一个实施例的基于自博弈的蓝军智能体模型构建方法的流程示意图;图2示出了根据本发明一个实施例的蓝军智能体与环境交互的结构示意图;图3示出了根据本发明一个实施例的蓝军智能体策略生成的流程示意图;图4示出了根据本发明一个实施例的自博弈算法优化模型的流程示意图;图5示出了根据本发明一个实施例的基于自博弈的蓝军智能体模型构建装置的结构示意图;图6示出了根据本发明一个实施例的电子设备的结构示意图。
具体实施方式
17.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
18.术语解释:自博弈(self-play)是指在人工智能领域中一种训练和优化算法的方法,特别是在强化学习(reinforcement learning)中广泛应用。在自博弈中,计算机程序或智能体通过与自己进行对弈来逐步学习和提高自己的性能,而不是仅仅依赖于人类专家提供的数据或先验知识。
19.智能体(agent)是以云为基础,以ai为核心,构建的立体感知、全域协同、精准判断、持续进化、开放的智能系统。智能体驻留在某一环境下,能持续自主地发挥作用,具备驻留性、反应性、社会性、主动性等特征的计算实体。比如无人机、战斗机器人等一般为智能体。
20.蓝军是指在部队模拟对抗演习中,专门扮演假想敌的部队。可以模仿世界上任何一支军队的作战特征与代表正面部队或代表假想敌部队的蓝军进行针对性的训练。
21.深度强化学习是将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。比如,可以通过蒙特卡洛树搜索(monte carlo tree search,mcts)结合神经网络模型实现。
22.图1示出了根据本发明一个实施例的基于自博弈的蓝军智能体模型构建方法的流程示意图,该方法可通过电子设备实现,所述电子设备包括蓝军智能体本身、计算机、笔记本等,所述蓝军智能体包括无人机、战斗机器人等。所述方法包括如下的步骤:步骤s110,设计对抗环境,所述环境包括多个蓝军智能体、对抗对手及其交互信息,并确定环境的状态空间、动作空间和策略的表达方式,形成蓝军智能体模型框架。
23.步骤s120,模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间。
24.其中,模拟蓝军智能体与对手的对抗可以通过自我对弈实现,此时,对抗的对手即蓝军智能体自身。
25.步骤s130,分析对抗过程中对手的不同策略和动作,根据当前和历史对抗经验并按照决策程序生成应对的策略,并形成对抗数据。
26.步骤s140,基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略。
27.自博弈算法在博弈类问题中展现了强大的能力,该步骤实现了通过自我对弈来学习和优化策略。可选的,可以采用的深度强化学习方法包括蒙特卡洛树搜索(monte carlo tree search,mcts)结合神经网络模型。
28.具体的,可设计蓝军智能体模型与自身进行多轮自我对弈,通过模拟对手的不同策略和行为来收集数据,使用自博弈算法,使蓝军智能体模型能够通过与对手对抗的过程中不断学习和优化自身的策略,并且,还可以设计蓝军智能体模型的策略生成算法,基于当前状态和历史对抗经验生成决策。在进行数据处理阶段,需要进行数据分析和模式识别,探索对手的策略和行为模式,实时学习和优化监测对手的行为并获取对抗环境中的实时反馈,然后根据对手的行为和反馈信息,使用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略。
29.该实施例通过自博弈算法实现自我对弈来学习和优化策略,具有灵活性、适应性和实时性,能够更好地应对对抗环境中的不确定性和对手策略的变化,从而让蓝军智能体模型从模拟对抗中不断学习和优化自身的防御能力,提高安全性并减少对手的攻击风险。
30.在一些实施例中,参见图2所示,所述蓝军智能体包括传感器、决策程序和执行器,则步骤s120中模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间包括:利用所述传感器对环境进行感知,根据获得的环境状态和任务目标,按照决策程序进行动作选择,并通过执行器作用于环境;通过感知获得环境的反馈信息,并基于所述反馈信息更新优化所述状态和动作空
间。
31.在一些实施例中,结合图3所示,步骤s130中根据当前和历史对抗经验并按照决策程序生成应对的策略包括:根据对抗双方的成本和损失,构建状态、动作和奖励值之间的对应关系;根据当前状态选择不同的动作,并确定不同动作作用到环境后的奖励值;评估不同动作的奖励值大小或得失,并结合历史对抗经验,确定当前状态下的动作策略。
32.在一些实施例中,结合图4所示,步骤s140中基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略包括:对传感器获得的数据进行检测和感知,确定对抗中的状态信息;对所述状态信息进行判断,并基于深度强化学习模型形成决策;根据所述决策产生对抗行动,并评估所述对抗行动的影响;根据所述对抗行动及其影响,利用自博弈任务对应的环境形成更新后的对抗态势或博弈行动反馈,以供所述传感器感知。
33.在一些实施例中,所述方法还包括:在对蓝军智能体模型的参数和策略进行优化调整后,分析对手应对调整的策略变化和演化趋势;根据对手的策略变化,进一步通过自博弈算法调整优化所述蓝军智能体模型的防御策略。
34.在一些实施例中,所述方法还包括:通过收集对手在对抗中的信息,在蓝军智能体模型中建立对手模型;根据对手模型预判对手的攻击方式;对所述攻击方式及其安全威胁等级进行实时分析学习,并适应性地调整优化防御策略。
35.在一些具体的实施方式中,可基于对手的策略和行为模式,使用自适应学习算法对蓝军智能体模型的参数和策略进行优化调整,然后调整分析对手的策略变化和演化趋势。根据对手策略的变化,通过自博弈算法调整蓝军模型的防御策略,以适应不断变化的对抗环境。
36.在一些实施例中,所述方法还包括:通过多次的对抗或者与其他蓝军智能体模型进行分析对比,评估所述蓝军智能体模型的性能和执行效果。
37.具体的,可基于对手的策略和行为模式,使用自适应学习算法对蓝军智能体模型的参数和策略进行优化调整,然后分析模拟对手的策略变化和演化趋势,根据对手策略的变化,通过自博弈算法调整蓝军智能体模型的防御策略,以适应不断变化的对抗环境。
38.综上,本发明上述实施例能够达到如下的技术效果:1. 自我对弈生成数据:通过让蓝军智能体模型与自身进行对弈,生成一系列对弈数据。在每一轮对弈中,蓝军智能体模型作为蓝军一方,根据当前策略进行行动,同时模拟对手一方采取行动。这样可以生成一系列对弈状态和对应的行动序列。
39.2. 策略评估与更新:基于自我对弈生成的数据,使用强化学习算法进行策略评估
和更新。通过不断迭代、优化策略和价值网络,蓝军智能体模型可以逐渐学习到更好的防御策略。
40.3. 对手建模与预测:通过观察对手在自我对弈中的行动,蓝军智能体模型可以建立对手模型并进行预测。可以使用深度学习模型对对手的行为进行建模,预测对手的策略和可能的行动。这样,蓝军智能体模型可以根据对手的预期行为来调整自身的防御策略,提高应对能力。
41.4. 实时学习与适应:蓝军智能体模型可以在实际对抗环境中进行实时学习和适应。通过与对手对抗,不断获取新的对弈数据,并更新策略和对手模型。这种实时学习和适应能力使得蓝军智能体模型能够应对对手策略的变化和演化,并不断提升自身的防御能力。
42.5. 安全威胁识别与应对:蓝军智能体模型通过自博弈算法可以更好地识别和应对安全威胁。通过与对手进行对弈,蓝军智能体模型能够观察到对手的攻击行为,并进行安全威胁识别。在识别到威胁时,蓝军智能体模型可以根据实时学习和适应的能力,及时调整防御策略,增强自身的安全性。
43.依据本发明的另一个方面,参见图5所示,提供了一种基于自博弈的蓝军智能体模型构建装置,所述装置500包括:模块设计模块510,适于设计对抗环境,所述环境包括多个蓝军智能体、对抗对手及其交互信息,并确定环境的状态空间、动作空间和策略的表达方式,形成蓝军智能体模型框架;模拟对抗模块520,适于模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间;策略生成模块530,适于分析对抗过程中对手的不同策略和动作,根据当前和历史对抗经验并按照决策程序生成应对的策略,并形成对抗数据;策略更新模块540,适于基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略。
44.在一些实施例中,所述蓝军智能体包括传感器、决策程序和执行器,则模拟对抗模块520还适于:利用所述传感器对环境进行感知,根据获得的环境状态和任务目标,按照决策程序进行动作选择,并通过执行器作用于环境;通过感知获得环境的反馈信息,并基于所述反馈信息更新优化所述状态和动作空间。
45.在一些实施例中,策略生成模块530还适于:根据对抗双方的成本和损失,构建状态、动作和奖励值之间的对应关系;根据当前状态选择不同的动作,并确定不同动作作用到环境后的奖励值;评估不同动作的奖励值大小或得失,并结合历史对抗经验,确定当前状态下的动作策略。
46.在一些实施例中,策略更新模块540还适于:对传感器获得的数据进行检测和感知,确定对抗中的状态信息;对所述状态信息进行判断,并基于深度强化学习模型形成决策;
根据所述决策产生对抗行动,并评估所述对抗行动的影响;根据所述对抗行动及其影响,利用所述环境形成更新后的对抗态势或博弈行动反馈,以供所述传感器感知。
47.在一些实施例中,所述装置500还适于:在对蓝军智能体模型的参数和策略进行优化调整后,分析对手应对调整的策略变化和演化趋势;根据对手的策略变化,进一步通过自博弈算法调整优化所述蓝军智能体模型的防御策略。
48.在一些实施例中,所述装置500还适于:通过收集对手在对抗中的信息,在蓝军智能体模型中建立对手模型;根据对手模型预判对手的攻击方式;对所述攻击方式及其安全威胁等级进行实时分析学习,并适应性地调整优化防御策略。
49.在一些实施例中,所述装置500还适于:通过再次对抗或者与其他蓝军智能体模型进行分析对比,评估所述蓝军智能体模型的性能和执行效果。
50.需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
51.需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
52.在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
53.类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
54.本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
55.此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
56.本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的基于自博弈的蓝军智能体模型构建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
57.本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的上述基于自博弈的蓝军智能体模型构建方法。
58.图6示出了本发明电子设备实施例的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
59.如图6所示,该电子设备可以包括:处理器(processor)602、通信接口(communications interface)604、存储器(memory)606、以及通信总线608。
60.其中:处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。处理器602,用于执行程序610,具体可以执行上述用于电子设备的上述基于自博弈的蓝军智能体模型构建方法实施例中的相关步骤。
61.具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
62.处理器602可能是中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
63.存储器606,用于存放程序610。存储器606可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
64.程序610具体可以用于使得处理器602执行上述基于自博弈的蓝军智能体模型构建方法实施例对应的操作。
65.应该注意的是上述实施例对本技术进行说明而不是对本技术进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本技术可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
技术特征:
1.一种基于自博弈的蓝军智能体模型构建方法,所述方法包括:设计对抗环境,所述环境包括多个蓝军智能体、对抗对手及其交互信息,并确定环境的状态空间、动作空间和策略的表达方式,形成蓝军智能体模型框架;模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间;分析对抗过程中对手的不同策略和动作,根据当前和历史对抗经验并按照决策程序生成应对的策略,并形成对抗数据;基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略。2.根据权利要求1所述的方法,其特征在于,所述蓝军智能体包括传感器、决策程序和执行器,则模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间包括:利用所述传感器对环境进行感知,根据获得的环境状态和任务目标,按照决策程序进行动作选择,并通过执行器作用于环境;通过感知获得环境的反馈信息,并基于所述反馈信息更新优化所述状态和动作空间。3.根据权利要求1所述的方法,其特征在于,根据当前和历史对抗经验并按照决策程序生成应对的策略包括:根据对抗双方的成本和损失,构建状态、动作和奖励值之间的对应关系;根据当前状态选择不同的动作,并确定不同动作作用到环境后的奖励值;评估不同动作的奖励值大小或得失,并结合历史对抗经验,确定当前状态下的动作策略。4.根据权利要求2所述的方法,其特征在于,基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略包括:对传感器获得的数据进行检测和感知,确定对抗中的状态信息;对所述状态信息进行判断,并基于深度强化学习模型形成决策;根据所述决策产生对抗行动,并评估所述对抗行动的影响;根据所述对抗行动及其影响,利用所述环境形成更新后的对抗态势或博弈行动反馈,以供所述传感器感知。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:在对蓝军智能体模型的参数和策略进行优化调整后,分析对手应对调整的策略变化和演化趋势;根据对手的策略变化,进一步通过自博弈算法调整优化所述蓝军智能体模型的防御策略。6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:通过收集对手在对抗中的信息,在蓝军智能体模型中建立对手模型;根据对手模型预判对手的攻击方式;对所述攻击方式及其安全威胁等级进行实时分析学习,并适应性地调整优化防御策略。7.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
通过再次对抗或者与其他蓝军智能体模型进行分析对比,评估所述蓝军智能体模型的性能和执行效果。8.一种基于自博弈的蓝军智能体模型构建装置,所述装置包括:模块设计模块,适于设计对抗环境,所述环境包括多个蓝军智能体、对抗对手及其交互信息,并确定环境的状态空间、动作空间和策略的表达方式,形成蓝军智能体模型框架;模拟对抗模块,适于模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用所述状态或动作信息优化所述环境的状态空间和动作空间;策略生成模块,适于分析对抗过程中对手的不同策略和动作,根据当前和历史对抗经验并按照决策程序生成应对的策略,并形成对抗数据;策略更新模块,适于基于所述对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略。9.一种电子设备,其特征在于,包括处理器以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1-7中任一项所述的基于自博弈的蓝军智能体模型构建方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现根据权利要求1-7中任一项所述的基于自博弈的蓝军智能体模型构建方法。
技术总结
本发明公开了一种基于自博弈的蓝军智能体模型构建方法和装置,所述方法包括:设计对抗环境,包括多个蓝军智能体、对抗对手及其交互信息,并确定环境的状态空间、动作空间和策略的表达方式,形成蓝军智能体模型框架;模拟蓝军智能体与对手的对抗,获取并分析产生的状态或动作信息,并利用状态或动作信息优化环境的状态空间和动作空间;分析对抗过程中对手的不同策略和动作,根据当前和历史对抗经验并按照决策程序生成应对的策略,形成对抗数据;基于对抗数据,利用自博弈算法进行实时学习和优化,更新蓝军智能体模型的策略。上述方案通过对抗来学习和优化策略,具有灵活性、适应性和实时性,能够更好地应对对抗环境中的不确定性和对手策略的变化。和对手策略的变化。和对手策略的变化。
技术研发人员:任雪峰 陶添文
受保护的技术使用者:北京卓翼智能科技有限公司
技术研发日:2023.08.30
技术公布日:2023/10/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
