用于目标环境的信念图构建以及智能体训练的方法和装置

未命名 08-07 阅读:74 评论:0


1.本公开涉及人工智能技术领域,尤其涉及用于目标环境的信念图构建以及智能体训练的方法、装置、电子设备和计算机可读存储介质。


背景技术:

2.随着技术发展,现代作战正逐渐趋向于电子化、信息化。如何获得精确完整的作战环境信息变得尤其重要。对此,环境建模成为重点研究工作之一。对可移动单位分布情况进行高效表示是环境建模的重要环节。传统的环境建模方法通常以向量化的表征为主,从观测方的角度而言,向量化的表征方式丢失了环境的空间信息。
3.在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。


技术实现要素:

4.本公开提供了用于目标环境的信念图构建以及智能体训练的方法、装置、电子设备和计算机可读存储介质。
5.根据本公开的一方面,提供了一种目标环境的信念图构建方法,包括:对于目标环境下的智能体集合中的每个智能体,获取目标环境下的可移动单位集合的状态信息,状态信息包括智能体视角下的可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;针对目标环境的每个栅格,根据可移动单位集合的状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,以得到第一多个第一影响度;获取智能体集合的特征信息,特征信息包括智能体集合中每个智能体的当前位置和探测参数;针对目标环境的每个栅格,根据智能体集合的特征信息确定表示每个智能体对栅格的影响的第二影响度,以得到第二多个第二影响度;根据目标环境的每个栅格的第一多个第一影响度和第二多个第二影响度,确定指示栅格内存在可移动单位的可能性的信念值,以得到目标环境的信念值集合;以及根据信念值集合构建目标环境的信念图,信念图包括分别与目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与色块的颜色之间具有对应性。
6.根据本公开的另一方面,提供了一种智能体训练方法,包括:在样本采集阶段,执行以下操作:针对当前时间步和下一时间步,根据本公开的方法构建目标环境的相应信念图;将相应信念图输入多层卷积神经网络,得到多层卷积神经网络输出的相应多个子采样特征向量;利用注意力机制,根据相应多个子采样特征向量确定相应融合特征向量作为目标环境的当前状态和下一状态;在当前时间步使目标强化学习模型的选定策略与目标环境进行交互,获得智能体集合在当前状态下要采取的动作,动作使智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;将当前状态、智能体集合在当前状态下要采取的动作、智能体集合在当前状态下采取动作所获得的奖励以及下一状
态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及响应于经验池中新存入的四元组训练样本的数量达到第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;或者响应于经验池中新存入的四元组训练样本的数量未达到第一样本数量的预设倍数,继续上述操作,在模型训练阶段,执行以下操作:利用从经验池中选择的一批次四元组训练样本更新强化学习模型的策略;将经更新的强化学习模型的策略作为强化学习模型在当前模型训练阶段训练得到的策略;以及将当前模型训练阶段训练得到的策略与先前模型训练阶段训练得到的一个或多个策略进行比较,确定目标强化学习模型在下一样本采集阶段的选定策略。
7.根据本公开的另一方面,提供了一种目标环境的信念图构建装置,包括:第一获取模块,配置为对于目标环境下的智能体集合中的每个智能体,获取目标环境下的可移动单位集合的状态信息,状态信息包括智能体视角下的可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;第一确定模块,配置为针对目标环境的每个栅格,根据可移动单位集合的状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,以得到第一多个第一影响度;第二获取模块,配置为获取智能体集合的特征信息,特征信息包括智能体集合中每个智能体的当前位置和探测参数;第二确定模块,配置为针对目标环境的每个栅格,根据智能体集合的特征信息确定表示每个智能体对栅格的影响的第二影响度,以得到第二多个第二影响度;第三确定模块,配置为根据目标环境的每个栅格的第一多个第一影响度和第二多个第二影响度,确定指示栅格内存在可移动单位的可能性的信念值,以得到目标环境的信念值集合;以及构建模块,配置为根据信念值集合构建目标环境的信念图,信念图包括分别与目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与色块的颜色之间具有对应性。
8.根据本公开的另一方面,提供了一种智能体训练装置,包括:样本采集模块,包括:第一单元,用于针对当前时间步和下一时间步,根据权利要求1至4中任一项的方法构建目标环境的相应信念图;第二单元,用于将相应信念图输入多层卷积神经网络,得到多层卷积神经网络输出的相应多个子采样特征向量;第三单元,用于利用注意力机制,根据相应多个子采样特征向量确定相应融合特征向量作为目标环境的当前状态和下一状态;第四单元,用于在当前时间步使目标强化学习模型的选定策略与目标环境进行交互,获得智能体集合在当前状态下要采取的动作,动作使智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;第五单元,用于将当前状态、智能体集合在当前状态下要采取的动作、智能体集合在当前状态下采取动作所获得的奖励以及下一状态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及第六单元,用于响应于经验池中新存入的四元组训练样本的数量达到第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;以及第七单元,用于响应于经验池中新存入的四元组训练样本的数量未达到第一样本数量的预设倍数,继续上述操作,模型训练模块,包括:第八单元,用于利用从经验池中选择的一批次四元组训练样本更新强化学习模型的策略;第九单元,用于将经更新的强化学习模型的策略作为强化学习模型在当前模型训练阶段训练得到的策略;以及第十单元,用于将当前模型训练阶段训练得到的策略与先前模型训练阶段训练得到的一个或多个策略进行比较,确定目标强化学习模型在下一样本采集阶段的选定策略。
9.根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与该至少一个处理器通信连接的存储器;其中该存储器存储有计算机程序,该计算机程序在被该至少一个处理器执行时实现上述方法。
10.根据本公开的又一方面,提供了一种存储有计算机程序的非瞬时计算机可读存储介质,其中,该计算机程序在被处理器执行时实现上述方法。
11.根据本公开的再一方面,提供了一种计算机程序产品,包括计算机程序,其中,该计算机程序在被处理器执行时实现上述方法。
12.根据本公开的一个或多个实施例,通过获取目标环境下可移动单位集合的状态信息和智能体集合的特征信息,确定个体可移动单位及个体智能体对目标环境的每个栅格的影响程度,从而能够获得有效表征每个栅格中可移动单位的存在概率的信念值,信念值聚集了作为被观测对象的可移动单位集合和作为观测方的智能体集合两者的有效信息载荷,极大程度保留了目标环境的空间信息;与此同时,在信念图的构建过程中,智能体集合中的每个智能体的信息都被融合到所确定的信念值中,使得智能体之间能够借助于根据信念值所构建的信念图进行作战协作,提高了对目标环境的探索效率。
13.根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
14.在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
15.图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
16.图2是图示出根据示例性实施例的目标环境的信念图构建方法的流程图;
17.图3是图示出根据示例性实施例的描绘可移动单位、栅格和智能体三者之间的示例关系的示意图;
18.图4是图示出根据示例性实施例的确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度的过程的流程图;
19.图5是图示出根据示例性实施例的确定表示每个智能体对栅格的影响的第二影响度的过程的流程图;
20.图6是图示出根据示例性实施例的得到目标环境的信念值集合的过程的流程图;
21.图7是图示出根据示例性实施例的智能体训练方法的流程图;
22.图8是图示出根据示例性实施例的目标环境的信念图构建装置的示意性框图;
23.图9是图示出根据示例性实施例的智能体训练装置的示意性框图;
24.图10是图示出根据示例性实施例的目标环境下智能体对可移动单位进行追踪的仿真实例示图;
25.图11是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
26.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种
细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
27.在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
28.在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
29.随着技术发展,现代作战正逐渐趋向于电子化、信息化。如何获得精确完整的作战环境信息变得尤其重要。对此,环境建模成为重点研究工作之一。对可移动单位分布情况进行高效表示是环境建模的重要环节。传统的环境建模方法通常以向量化的表征为主,从观测方的角度而言,向量化的表征方式丢失了环境的空间信息。作为对比,栅格化的表征则可以保留环境的空间信息,但是如何使栅格准确高效地反映出可移动单位分布情况且进一步促成协同作战成为亟待解决的问题。
30.基于此,本公开提出一种目标环境的信念图构建方法,通过获取目标环境下可移动单位集合的状态信息和智能体集合的特征信息,确定个体可移动单位及个体智能体对目标环境的每个栅格的影响程度,从而能够获得有效表征每个栅格中可移动单位的存在概率的信念值,信念值聚集了作为被观测对象的可移动单位集合和作为观测方的智能体集合两者的有效信息载荷,极大程度保留了目标环境的空间信息;与此同时,在信念图的构建过程中,智能体集合中的每个智能体的信息都被融合到所确定的信念值中,使得智能体之间能够借助于根据信念值所构建的信念图进行作战协作,提高了对目标环境的探索效率。
31.下面结合附图详细描述本公开的示例性实施例。
32.图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
33.参考图1,该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。
34.客户端设备110包括显示器114和可经由显示器114显示的客户端应用(app)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(liteapp)。在客户端应用112为运行前需要下载和安装的应用程序的情况下,客户端应用112可以被预先安装在客户端设备110上并被激活。在客户端应用112为小程序的情况下,用户102可以通过在宿主应用中搜索客户端应用112(例如,通过客户端应用112的名称等)或扫描客户端应用112的图形码(例如,条形码、二维码等)等方式,在客户端设备110上直接运行客户端应用112,而无需安装客户端应用112。在一些实施例中,客户端设备110可以是任何类型的移动计算机设备,包括移动计算机、移动电话、可穿戴式计算机设备(例如智能手表、头戴式设备,包括智能眼镜,等)或其他类型的移动设备。在一些实施例中,客户端设备110可以替换地是固定式计算机设备,例如台式机、服务器计算机或其他类型的固定式计
算机设备。
35.服务器120典型地为由互联网服务提供商(isp)或互联网内容提供商(icp)部署的服务器。服务器120可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务(诸如云数据库、云计算、云存储、云通信)的云服务器。将理解的是,虽然图1中示出服务器120与仅一个客户端设备110通信,但是服务器120可以同时为多个客户端设备提供后台服务。
36.网络130的示例包括局域网(lan)、广域网(wan)、个域网(pan)、和/或诸如互联网之类的通信网络的组合。网络130可以是有线或无线网络。在一些实施例中,使用包括超文本标记语言(html)、可扩展标记语言(xml)等的技术和/或格式来处理通过网络130交换的数据。此外,还可以使用诸如安全套接字层(ssl)、传输层安全(tls)、虚拟专用网络(vpn)、网际协议安全(ipsec)等加密技术来加密所有或者一些链路。在一些实施例中,还可以使用定制和/或专用数据通信技术来取代或者补充上述数据通信技术。
37.为了本公开实施例的目的,在图1的示例中,客户端应用112可以为仿真作战实验设计程序,该仿真作战实验设计程序可以提供用于目标环境的信念图构建和/或智能体训练的各种功能,例如,目标环境设定、可移动单位集合设定、智能体集合设定、和/或机器学习模型配置等等。与此相应,服务器120可以是与仿真作战实验设计程序一起使用的服务器。该服务器120可以向客户端设备110中运行的客户端应用112提供与目标环境的信念图构建和/或智能体训练相关的服务。替换地,也可以由客户端设备110中运行的客户端应用112提供本地化服务。作为非限制性的示例,下文描述的方法可以由图1的系统100执行。
38.图2是图示出根据示例性实施例的目标环境的信念图构建方法200的流程图。方法200可以在客户端设备(例如,图1中所示的客户端设备110)处执行,也即,方法200的各个步骤的执行主体可以是图1中所示的客户端设备110。在一些实施例中,方法200可以在服务器(例如,图1中所示的服务器120)处执行。在一些实施例中,方法200可以由客户端设备(例如,客户端设备110)和服务器(例如,服务器120)相组合地执行。
39.参考图2,目标环境的信念图构建方法200包括如下步骤。
40.步骤s210,对于目标环境下的智能体集合中的每个智能体,获取目标环境下的可移动单位集合的状态信息,状态信息包括智能体视角下的可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;
41.步骤s220,针对目标环境的每个栅格,根据可移动单位集合的状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,以得到第一多个第一影响度;
42.步骤s230,获取智能体集合的特征信息,特征信息包括智能体集合中每个智能体的当前位置和探测参数;
43.步骤s240,针对目标环境的每个栅格,根据智能体集合的特征信息确定表示每个智能体对栅格的影响的第二影响度,以得到第二多个第二影响度;
44.步骤s250,根据目标环境的每个栅格的第一多个第一影响度和第二多个第二影响度,确定指示栅格内存在可移动单位的可能性的信念值,以得到目标环境的信念值集合;以及
45.步骤s260,根据信念值集合构建目标环境的信念图,信念图包括分别与目标环境
的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与色块的颜色之间具有对应性。
46.下面详细描述方法200的各个步骤。
47.在步骤s210中,目标环境可以是真实环境(例如,真实作战环境)、仿真环境(例如,虚拟作战环境)或混合环境(例如,包括真实作战环境和虚拟作战环境两者作为组成部分)等等。如本文所使用的,术语可移动单位是指能够在目标环境内移动(例如,以随机方式移动、以编队方式移动等等)的目标。在一些实施例中,可移动单位集合可以包括一个或多个可移动单位。在一些实施例中,可移动单位集合中的一个或多个可移动单位在目标环境内的移动无法被部分或所有观测方持续观测到。在一些实施例中,个体可移动单位可以具有其自己的状态信息。在一些实施例中,可移动单位集合中的一些可移动单位可以具有基本相同的状态信息,这意味着这些可移动单位可能彼此紧邻且以编队方式移动等等。
48.通常,对于个体作战方而言,环境是部分可观测的。为了能够指导作战方的行动,需要对环境进行状态估计,而在主动目标追踪问题中,目标(例如,可移动单位)的状态影响着其所处的环境的状态且因而需要进行估计。因此,获取目标的状态估计和相关联的不确定性具有重要意义。在本文中,作战方可以是如下文所描述的智能体。
49.在一些实施例中,个体可移动单位的状态信息可以包括当前状态估计和相关联的不确定性,不确定性指的是由于不可控因素(例如由于观测方本身导致或在观测过程期间引入等等)的存在而对状态估计结果不能肯定的程度,表征被估计的状态可能出现的范围。此处需要注意的是,作为状态信息的一部分,不确定性对于在下文阐述的确定第一影响度以及智能体训练等而言是有必要的。如上所述,本公开中的可移动单位可能无法被观测方持续地观测到,因此就观测方而言,其对可移动单位的状态的估计并非是确定的,而不确定性则可以有利地用于表征由于例如观测方本身导致(例如,观测方的观测能力受限)或在观测过程期间引入(例如,传感器噪声)的不可控因素的存在而对可移动单位的当前状态估计不能肯定的程度。
50.在步骤s220中,对于目标环境的每个栅格,给定智能体视角下的每个可移动单位对该栅格的造成的影响的第一影响度可以根据该可移动单位的状态信息来确定。因此,对于每个栅格而言,给定智能体视角下的可移动单位集合对该栅格的第一影响度可以包括该可移动单位集合中的每个可移动单位对该栅格的第一影响度。如本文所使用的,术语第一影响度是指给定智能体视角下的可移动单位对栅格的影响程度,尤其是指可移动单位对下文阐述的目标环境的信念图中每个栅格所对应的信念值数值的影响程度,可移动单位对栅格的这种影响是通过可移动单位本身的物理属性与栅格两者在目标环境内所具有的关系得到的,这种关系是基于给定智能体的观测而得出的。因此,可以理解的是,不同智能体视角下的相同可移动单位对相同栅格的影响程度可以是不同的,这取决于智能体与栅格之间的空间关系、智能体与可移动单位之间的空间关系、智能体本身的探测能力、或上述的组合等等。下文将参考图3来解说给定智能体视角下的可移动单位与栅格之间在目标环境内所具有的示例关系。
51.在一些实施例中,对于每个栅格,可以确定给定智能体视角下的每个可移动单位对该栅格的第一影响度,从而获得第一多个第一影响度。具体而言,假设目标环境下的智能体集合包含m个智能体,可移动单位集合包含n个可移动单位。对于任一栅格c和任一智能体
m,可以首先确定该智能体m视角下的每个可移动单位对该栅格c的总计n个第一影响度,并因此可以进一步确定每个智能体视角下的每个可移动单位对该栅格c的总计m组第一影响度,其中,每一组第一影响度包括n个第一影响度。即,在上述示例中,第一多个第一影响度的数目可以是m
×
n个。需要注意的是,上述示例仅仅是示意性的,并非旨在限定本公开的范围。
52.如本文所使用的,当提到术语智能体时,其可以具有多重含义。首先,智能体是人工智能领域中一个很重要的概念,任何独立的能够思考并可以同环境交互的实体都可以抽象为智能体。根据相关定义,智能体是驻留于环境中的实体,它可以解释从环境中获得的反映环境中所发生事件的数据,并执行对环境产生影响的行动。在这个定义中,智能体被看作是一种在环境中“生存”的实体。其次,在军事相关或探测相关领域,智能体可以指搭载有各种传感器以便能够对所处环境进行探测的实体或传感器设备本身,此类智能体可以充当作战环境中相对于可移动单位的观测方或作战方,能够对作战环境中的目标进行追踪。因此,如本文所使用的术语智能体可以不单单是人工智能领域中的软件要素,也可以是具有实体的硬件(如传感器设备、具有探测能力的作战实体等)或者软件和硬件的组合等等。
53.在步骤s230中,可以获取智能体集合的特征信息,例如,从仿真作战实验设计程序中的智能体集合设定信息获取特征信息。在一些实施例中,智能体集合可以包括一个或多个智能体。在一些实施例中,个体智能体可以具有其自己的特征信息。在一些实施例中,智能体集合中的一些智能体可以具有基本相同的特征信息,这意味着这些智能体关于目标环境的物理属性可能基本相同(例如,智能体的视场角、视距等等)。
54.在一些实施例中,个体智能体的特征信息可以包括智能体的当前位置和探测参数,探测参数可以表示智能体对目标环境的探测能力,例如,视场角、视距等等。此处需要注意的是,个体智能体对目标环境的探测能力可能取决于多个因素,并且智能体的探测能力相对于这些因素中的任一因素可能并非成比例地变化。例如,当目标环境的某个栅格处于智能体的最大视距之外时,无论栅格与智能体之间的距离怎样改变,智能体都无法对栅格做出有效探测。
55.在步骤s240中,对于目标环境的每个栅格,每个智能体对该栅格的造成的影响的第二影响度可以根据该智能体的特征信息来确定。因此,对于每个栅格而言,智能体集合对该栅格的第二影响度可以包括该智能体集合中的每个智能体对该栅格的第二影响度。如本文所使用的,术语第二影响度是指智能体对栅格的影响程度,尤其是指智能体对下文阐述的目标环境的信念图中每个栅格所对应的信念值数值的影响程度,智能体对栅格的这种影响是通过智能体与栅格两者在目标环境内所具有的关系得到的。下文也将参考图3来解说智能体与栅格之间在目标环境内所具有的示例关系。
56.如上所述,可移动单位的状态影响着其所处的目标环境的状态,也就是说,可移动单位的状态对目标环境的每个栅格有所影响。同样地,作为观测方的智能体也对目标环境的每个栅格有所影响。具体而言,假设给定栅格内事实上存在可移动单位,并且目标环境内存在两个智能体,这两个智能体分别与该栅格相距不同距离(即,一个离栅格近,而另一个离栅格远)但都具有相同的特征信息。可以理解的是,在栅格均位于两个智能体的视场内的情况下,离栅格较近的智能体对栅格的探测结果可能具有相对较高的可信度,而离栅格较远的智能体对栅格的探测结果可能具有相对较低的可信度。可以看出,不同智能体对目标
环境中的相同栅格的“影响”显然是不同的。当然,上述示例可以进一步假设这两个智能体分别具有不同的特征信息。例如,离栅格近的智能体具有相对较好的探测能力,而离栅格远的智能体具有相对较差的探测能力,那么离栅格较近的智能体对栅格的探测结果可以被赋予更高的可信度,等等。因此,在这个意义上,第二影响度可以表示作为观测方的智能体对目标环境的栅格造成的影响程度,从而便于反映智能体集合中的各个个体智能体对栅格产生的影响方面的差异性。
57.在一些实施例中,对于每个栅格,可以确定每个智能体对该栅格的第二影响度,从而获得第二多个第二影响度。具体而言,假设目标环境下的智能体集合包含m个智能体。对于任一栅格c和任一智能体m,可以首先确定该智能体m对该栅格c的第二影响度,并因此可以进一步确定每个智能体对该栅格c的总计m个第二影响度。即,在上述示例中,第二多个第二影响度的数目可以是m个。需要注意的是,上述示例仅仅是示意性的,并非旨在限定本公开的范围。
58.在步骤s250中,对于一个栅格而言,该栅格所对应的信念值可以指示该栅格内存在可移动单位(例如,一个或多个可移动单位)的可能性。在一些实施例中,每个栅格所对应的信念值可以是一个数值。在其他实施例中,每个栅格所对应的信念值可以是多个数值(例如,表示为向量或数组等),每个数值分别起因于不同智能体对目标环境的探测。在每个栅格所对应的信念值是一个数值的第一种情形中,所得到的目标环境的信念图可以采用与目标环境的栅格的空间位置相对应的矩阵色块形式,并且获得的是针对多个智能体分别对目标环境进行探测所得的局部信念图进行融合得到的全局信念图。在每个栅格所对应的信念值是多个数值的第二种情形中,所得到的目标环境的信念图可以是多个智能体分别对目标环境进行探测所得的多个局部信念图,这些局部信念图经过融合后可以获得全局信念图。
59.在步骤s260中,所获得的信念图可以被视觉地表示为包括分别与目标环境的每个栅格相关联的色块。在一些实施例中,色块所关联的栅格的信念值与所述色块的颜色之间可以具有对应性,以便于视觉地表示不同栅格内存在可移动单位的可能性。例如,色块的信念值越高,则该色块的颜色越深等等。作为结果,随后可以利用图像处理技术对所构建的关于目标环境的信念图进行图像处理以便获得能够对目标环境进行高效表征的特征向量,以供进一步处理。
60.根据本公开的实施例,通过获取目标环境下可移动单位集合的状态信息和智能体集合的特征信息,确定个体可移动单位及个体智能体对目标环境的每个栅格的影响程度,从而能够获得有效表征每个栅格中可移动单位的存在概率的信念值,信念值聚集了作为被观测对象的可移动单位集合和作为观测方的智能体集合两者的有效信息载荷,极大程度保留了目标环境的空间信息;与此同时,在信念图的构建过程中,智能体集合中的每个智能体的信息都被融合到所确定的信念值中,使得智能体之间能够借助于根据信念值所构建的信念图进行作战协作,提高了对目标环境的探索效率。
61.图3是图示出根据示例性实施例的描绘可移动单位、栅格和智能体三者之间的示例关系的示意图。如图3所示,目标环境300可包括可移动单位(target)301和智能体(agent)302。出于解说目的,仅示出一个可移动单位301和一个智能体302,但是应当理解,目标环境300内可以存在任何数目的可移动单位301和/或任何合适数目的智能体302,并且可移动单位301的数目与智能体302的数目不必相等。本公开对此不进行任何限制。在一些
实施例中,目标环境300是栅格化的环境。如图所示,示出了目标环境300的多个栅格中的一个栅格(cell)305。尽管图3以棋盘布局示出了目标环境300所包括的多个栅格,但是应当理解,可以按任何其他合适的方式对目标环境300进行栅格化,例如,蜂窝状布局、菱形栅格布局、三角形栅格局部等等。本公开对此不进行任何限制。
62.如图所示,作为示例而非限制,可移动单位301可以具有第一坐标系(例如,笛卡尔坐标系)下的状态估计(例如,位置估计)和第二坐标系(例如,极坐标系)下的对应状态估计其中,可以表示从可移动单位301指向栅格305的向量。此外,与可移动单位301相关联的物理属性还可以包括和其中,可以表示可移动单位301的速度向量,而可以表示从周角减去向量与向量所成角后所得的角度。
63.在示例中,可以表示与可移动单位301在第二坐标系下的状态估计相关联的不确定性。作为结果,可以获得第二坐标系下的以为均值且以为协方差的正态分布,其概率密度函数可以记为相应地,可移动单位301可以具有在第一坐标系下的概率密度函数,其分布的均值和协方差将在下文描述。
64.在示例中,还可以构建可移动单位301与栅格305之间的相似度函数,以用于充当可移动单位301对栅格305的第一影响度的组成部分。作为示例而非限制,相似度函数可以被表示为如下:
[0065][0066]
其中,表示对可移动单位301在第一坐标系下的状态估计的导数或差分,v
max
表示可移动单位301的最大速度,其可以在仿真作战实验设计程序中进行配置和设定,或者可以基于可移动单位的属性和/或历史数据来确定。在示例中,的绝对值与v
max
的绝对值的比值可以具有0到1的范围。sim
cos
表示余弦相似度,是通过计算两个向量的夹角的余弦值得到的,即,两个向量的数量积与两个向量的模的乘积之比,取值范围为-1到1。于是,上式(1)中的的取值范围可以从e-2
到1。
[0067]
应当理解,上式(1)仅仅是示意性的,并非旨在限定本公开的范围。可以基于可移动单位的状态估计和相关联的不确定性以及可移动单位所关联的其他物理属性来构建任何其他合适的相似度函数,以表征可移动单位与栅格之间在某种意义上的相似度,使得相似度的取值范围可以是区间0到1上的任何子集。
[0068]
作为示例而非限制,可以获得如下表示的第一影响度q:
[0069][0070]
其中,此处第一影响度q被表示为q(i,j,c),以表示在第i个智能体的观测/视角下,可移动单位j对栅格c的影响程度。在示例中,第一影响度可以被表示为概率密度函数与相似度函数的乘积。需要注意的是,在本公开中,每个智能体都可
以对目标环境下的所有可移动单位进行状态估计。可以理解的是,上式(2)仅仅是示意性的,并非旨在限定本公开的范围。
[0071]
图4是图示出根据示例性实施例的确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度的过程400的流程图。
[0072]
如图4所示,过程400包括:
[0073]
步骤s2201,对于每个智能体,根据每个可移动单位的当前状态估计和相关联的不确定性确定可移动单位的第一概率密度,以得到多个第一概率密度;
[0074]
步骤s2202,将多个第一概率密度进行坐标转换,得到多个第二概率密度;
[0075]
步骤s2203,根据状态信息确定每个可移动单位相对于栅格的空间相似性度量,得到多个空间相似性度量;
[0076]
步骤s2204,根据每个可移动单位的第二概率密度和空间相似性度量确定表示可移动单位对栅格的影响的第一影响度,获得每个智能体视角下的栅格的多个第一影响度,以得到第一多个第一影响度。
[0077]
在步骤s2202中,对第一坐标系下的第一概率密度进行坐标转换,得到第二坐标系下的第二概率密度是为了便于表征可移动单位本身的物理属性与栅格在目标环境内所具有的关系。
[0078]
在一些实施例中,可以通过滤波方式获取可移动单位的当前状态估计和相关联的不确定性。在示例中,可以基于卡尔曼滤波方式获取可移动单位在第一坐标系(例如,笛卡尔坐标系)下的当前状态估计和相关联的不确定性。当然,本公开并不限于卡尔曼滤波,本领域技术人员可根据需要选择任何其他合适的滤波方式获取可移动单位集合的状态信息。在卡尔曼滤波方式中,状态估计分为两步,即预测和更新。在每一时间步,预测的公式如下:
[0079][0080][0081]
上式(3)估计了第n个可移动单位的状态,其中,an表示可移动单位的状态转移矩阵,bn表示可移动单位的控制矩阵,表示输入控制量,和表示可移动单位在t和t-1时刻的状态估计。上式(4)估计了可移动单位的不确定性,其中p
t-1
和是可移动单位在t和t-1时刻的协方差矩阵,qn是过程噪声的协方差矩阵。在示例中,控制矩阵bn的最简形式可以是单位矩阵。在示例中,输入控制量可以用作预先设定的可移动单位的动力学方程的控制变量,以控制可移动单位的移动行为,这在针对目标环境下智能体主动追踪可移动单位进行仿真的用例中尤其有用。
[0082]
在每一时刻,都需要对可移动单位进行状态预测。之后,对于每个可移动单位,若智能体们获得了可移动单位的观测,那么该可移动单位就会进入更新步,若未获得相应观测,则不会进入更新步,更新步的公式如下:
[0083][0084][0085][0086]
上式(5)估计了卡尔曼增益,其中hn表示测量矩阵,rn表示测量噪声的协方差矩阵。
上式(6)利用卡尔曼增益和目标的观测值对可移动单位状态进行修正。上式(7)则是对可移动单位的不确定性进行修正。可以理解的是,可以采取除滤波方式以外的其他手段来获取可移动单位集合的状态信息,诸如使用数据驱动、序列神经网络、不确定性量化(uncertainty quantification)、lstm(长短期记忆网络)、gru(门控循环单元)中的一者或多者等来分别获得可移动单位的当前状态估计和相关联的不确定性,不公开对此不进行任何限制。
[0087]
返回参考图3,作为示例而非限制,智能体302的特征信息可以包括最大探测距离(即,智能体的视距)和最大探测视场半角(即,最大探测视场角的一半)。如本文所使用的,术语最大探测视场角对应于智能体的视场边界所围成的最大空间角,而最大探测视场半角则对应于该最大空间角的一半。如图所示,对于智能体i而言,其特征信息可以包括最大探测距离(被示为)和最大探测视场半角(被示为)。此外,最大探测视场角的角平分线(面)被示为且具有方向性。需要注意的是,智能体i的特征信息和最大探测视场角的角平分线(面)被描述为因变于时间t,但这并不一定表示相关参量会随时间改变。例如,智能体的最大探测视场半角可保持不随时间t而改变,但随着每一时间步智能体i的位置发生改变,的指向性也会发生改变,因而该角平分线(面)记为因变于时间t的参量。如图所示,智能体302与栅格305之间的距离(连线)被示为并且该连线与所成角度被示为
[0088]
作为示例而非限制,可以获得如下表示的第二影响度p:
[0089][0090]
其中,此处第二影响度p被表示为p(i,c),以表示第i个智能体对栅格c的影响程度,σ(
·
)为sigmoid函数(s形函数)。由此,当根据智能体的当前位置和探测参数确定栅格位于智能体的探测范围内时,可以将第二影响度设置为确定值(例如1),而当确定栅格位于智能体的探测范围外时,可以利用特殊函数的性质来量化当栅格位于智能体探测范围外时该智能体对栅格造成的影响程度。当然,上式(8)仅仅是示意性的,并非旨在限定本公开的范围。本公开不限于sigmoid函数,本领域技术人员可根据需要选择任何其他合适的函数或其变体来用作上式(8)分段函数的替换。
[0091]
图5是图示出根据示例性实施例的确定表示每个智能体对栅格的影响的第二影响度的过程500的流程图。
[0092]
如图5所示,过程500包括,针对智能体集合中的每个智能体:
[0093]
步骤s2401,根据智能体的当前位置和探测参数确定栅格是否位于智能体的探测范围内;
[0094]
步骤s2402a,响应于确定栅格位于智能体的探测范围内,将第二影响度设置为确定值;
[0095]
步骤s2402b,响应于确定栅格位于智能体的探测范围外,获取智能体相对于栅格的空间相对位置信息,并将空间相对位置信息和智能体的探测参数一起输入目标激活函
数,得到目标激活函数输出的函数值作为第二影响度,其中,目标激活函数输出的最大函数值与确定值相等。
[0096]
返回参考图3,在基于可移动单位301与栅格305之间的关系获得栅格305的第一多个第一影响度之后,并且在基于智能体302与栅格305之间的关系获得栅格305的第二多个第二影响度之后,可以确定栅格305的信念值,以反映栅格305内存在可移动单位的可能性。
[0097]
作为示例而非限制,可以获得如下表示的栅格的信念值bc:
[0098][0099]
需要注意的是,上式(9)是针对任一栅格c而言的,其中,根据上文,首先确定给定智能体i的视角下的每个可移动单位对栅格的影响的第一影响度(即,q(i,j,c),j=1,

,n),将这些第一影响度分别与给定智能体i对栅格的影响的第二影响度(即,p(i,c))相乘,得到给定智能体i视角下的栅格的多个整合影响度。
[0100]
如本文所使用的,术语整合影响度指的是给定智能体i视角下的可移动单位对栅格的影响程度与给定智能体i本身对栅格的影响程度经过整合之后得到的表示智能体和可移动单位两者对栅格造成的影响的影响度。
[0101]
然后,将各个智能体i(i=1,

,m)视角下的栅格的多个整合影响度进行平均(例如,算术平均、加权平均等等),从而得到栅格的平均影响度。具体而言,对于智能体i,先确定表达式p(i,c)
·
∑jq(i,j,c)(j=1,

,n)),然后再遍历确定所有智能体的前述表达式,对其进行求和以得到∑i(p(i,c)
·
∑jq(i,j,c))(i=1,

,m;j=1,

,n),最后进行平均以使得信念值bc落在0到1的区间内。可以理解的是,上式(9)仅仅是示意性的,并非旨在限定本公开的范围。本领域技术人员可以根据需要采取任何其他合适的平均算法。
[0102]
图6是图示出根据示例性实施例的得到目标环境的信念值集合的过程600的流程图。
[0103]
如图6所示,过程600包括:
[0104]
步骤s2501,对于每个智能体,对智能体视角下的栅格的多个第一影响度与智能体对栅格的影响的第二影响度进行整合,得到智能体视角下的栅格的多个整合影响度;
[0105]
步骤s2502,对每个智能体视角下的栅格的多个整合影响度进行平均,得到栅格的平均影响度;
[0106]
步骤s2503,根据每个栅格的平均影响度确定每个栅格的信念值,得到目标环境的信念值集合。
[0107]
在步骤s2503中,可以将每个栅格的平均影响度确定为每个栅格的信念值。然而,在每个栅格所对应的信念值为多个数值(例如,表示为向量或数组等),可以对这多个数值求平均(例如,算术平均、或加权平均(比如与探测能力强的智能体对目标环境进行探测相关联的数值可被赋予较大权重)等等)以得到栅格的信念值。
[0108]
图7是图示出根据示例性实施例的智能体训练方法700的流程图。方法700可以在客户端设备(例如,图1中所示的客户端设备110)处执行,也即,方法700的各个步骤的执行主体可以是图1中所示的客户端设备110。在一些实施例中,方法700可以在服务器(例如,图1中所示的服务器120)处执行。在一些实施例中,方法700可以由客户端设备(例如,客户端设备110)和服务器(例如,服务器120)相组合地执行。
[0109]
参考图7,智能体训练方法700包括如下步骤。
[0110]
在样本采集阶段s71,执行以下操作:
[0111]
步骤s711,针对当前时间步和下一时间步,根据上述方法中的任一方法构建目标环境的相应信念图;
[0112]
步骤s712,将相应信念图输入多层卷积神经网络,得到多层卷积神经网络输出的相应多个子采样特征向量;
[0113]
步骤s713,利用注意力机制,根据相应多个子采样特征向量确定相应融合特征向量作为目标环境的当前状态和下一状态;
[0114]
步骤s714,在当前时间步使目标强化学习模型的选定策略与目标环境进行交互,获得智能体集合在当前状态下要采取的动作,动作使智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;
[0115]
步骤s715,将当前状态、智能体集合在当前状态下要采取的动作、智能体集合在当前状态下采取动作所获得的奖励以及下一状态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及
[0116]
步骤s716,响应于经验池中新存入的四元组训练样本的数量达到第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;或者
[0117]
步骤s717,响应于经验池中新存入的四元组训练样本的数量未达到第一样本数量的预设倍数,继续上述操作,
[0118]
在模型训练阶段s72,执行以下操作:
[0119]
步骤s721,利用从经验池中选择的一批次四元组训练样本更新强化学习模型的策略;
[0120]
步骤s722,将经更新的强化学习模型的策略作为强化学习模型在当前模型训练阶段训练得到的策略;以及
[0121]
步骤s723,将当前模型训练阶段训练得到的策略与先前模型训练阶段训练得到的一个或多个策略进行比较,确定目标强化学习模型在下一样本采集阶段的选定策略。
[0122]
上述方法700将所构建的信念图通过卷积神经网络,利用卷积神经网络提取出不同感受野的特征图,而后再利用注意力机制将特征进行融合,获得多感受野环境特征。由此,通过利用不同感受野下的信念图,提高了智能体对环境的理解程度。
[0123]
由于强化学习模型的训练是不稳定的,因此每到一个更新频率处(即,每达到一个回合训练所需的第一样本数量的预设倍数),强化学习模型的策略π便会得到更新,从而生成新的强化学习模型。可以将当前模型训练阶段得到的目标函数的优化结果(例如,经梯度下降后的函数值)与先前模型训练阶段得到的目标函数优化结果进行比较,从而确定截至当前模型训练阶段较优的强化学习模型策略,由此可见,方法700的两阶段(即,样本采集阶段和模型训练阶段)并行的智能体训练方法可供用户灵活地选取合适的强化模型策略,而不必经受目标函数优化陷入局部极值或较长回合次数迭代的限制。
[0124]
在一些实施例中,智能体集合在当前状态下采取动作所获得的奖励可以表示为:
[0125][0126]
其中,det(
·
)表示取方阵(例如,协方差矩阵)对应的行列式的值。
[0127]
在一些实施例中,可以在奖励函数的基础上构造return函数,例如,基于时间先后的平均,即,将时间上稍早的奖励赋予较低权重,并将时间上新近的奖励赋予较高权重。然后,可以基于return函数来构造用于强化学习模型训练的目标函数。
[0128]
在一些实施例中,经验池可以被热启动,即,经验池中的初始训练样本也通过方法700的关于样本采集阶段所描述的步骤获得。
[0129]
在一些实施例中,在每个回合开始之际,目标环境下的可移动单位集合中的可移动单位数量和/或智能体集合中的智能体数量可以被改变。由此,能够期望训练得到的强化学习模型适用于其中包括任何数目的可移动单位和/或智能体的目标环境下的主动追踪任务。
[0130]
图8是图示出根据示例性实施例的目标环境的信念图构建装置800的示意性框图。如图8所示,装置800包括:第一获取模块810,配置为对于目标环境下的智能体集合中的每个智能体,获取目标环境下的可移动单位集合的状态信息,状态信息包括智能体视角下的可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;第一确定模块820,配置为针对目标环境的每个栅格,根据可移动单位集合的状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,以得到第一多个第一影响度;第二获取模块830,配置为获取智能体集合的特征信息,特征信息包括智能体集合中每个智能体的当前位置和探测参数;第二确定模块840,配置为针对目标环境的每个栅格,根据智能体集合的特征信息确定表示每个智能体对栅格的影响的第二影响度,以得到第二多个第二影响度;第三确定模块850,配置为根据目标环境的每个栅格的第一多个第一影响度和第二多个第二影响度,确定指示栅格内存在可移动单位的可能性的信念值,以得到目标环境的信念值集合;以及构建模块860,配置为根据信念值集合构建目标环境的信念图,信念图包括分别与目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与色块的颜色之间具有对应性。
[0131]
应当理解,图8中所示装置800的各个模块可以与参考图2描述的方法200中的各个步骤相对应。由此,上面针对方法200描述的操作、特征和优点同样适用于装置800及其包括的模块。为了简洁起见,某些操作、特征和优点在此不再赘述。
[0132]
图9是图示出根据示例性实施例的智能体训练装置900的示意性框图。如图9所示,装置900包括:样本采集模块91,包括:第一单元911,用于针对当前时间步和下一时间步,根据上述方法中的任一方法构建目标环境的相应信念图;第二单元912,用于将相应信念图输入多层卷积神经网络,得到多层卷积神经网络输出的相应多个子采样特征向量;第三单元913,用于利用注意力机制,根据相应多个子采样特征向量确定相应融合特征向量作为目标环境的当前状态和下一状态;第四单元914,用于在当前时间步使目标强化学习模型的选定策略与目标环境进行交互,获得智能体集合在当前状态下要采取的动作,动作使智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;第五单元915,用于将当前状态、智能体集合在当前状态下要采取的动作、智能体集合在当前状态下采取动作所获得的奖励以及下一状态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及第六单元916,用于响应于经验池中新存入的四元组训练样本的数量达到第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;以及第七单元917,用于响应于经验池中新存入的四元组训练样本的
数量未达到第一样本数量的预设倍数,继续上述操作,模型训练模块92,包括:第八单元921,用于利用从经验池中选择的一批次四元组训练样本更新强化学习模型的策略;第九单元922,用于将经更新的强化学习模型的策略作为强化学习模型在当前模型训练阶段训练得到的策略;以及第十单元923,用于将当前模型训练阶段训练得到的策略与先前模型训练阶段训练得到的一个或多个策略进行比较,确定目标强化学习模型在下一样本采集阶段的选定策略。
[0133]
应当理解,图9中所示装置900的各个模块/单元可以与参考图7描述的方法700中的各个步骤相对应。由此,上面针对方法700描述的操作、特征和优点同样适用于装置900及其包括的模块。为了简洁起见,某些操作、特征和优点在此不再赘述。
[0134]
虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作,或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此,执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。
[0135]
还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图8-9描述的各个模块和/或单元可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些模块和/或单元可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些模块和/或单元可以被实现为硬件逻辑/电路。模块和/或单元中的一个或多个可以一起被实现在片上系统(system on chip,soc)中。soc可以包括集成电路芯片(其包括处理器(例如,中央处理单元(central processing unit,cpu)、微控制器、微处理器、数字信号处理器(digital signal processor,dsp)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
[0136]
图10是图示出根据示例性实施例的目标环境下智能体对可移动单位进行追踪的仿真实例1000的示图。
[0137]
实验设定对立的双方,其中,蓝方使用多个可移动传感器(即,智能体)进行环境探测,每个可移动传感器独立决策;红方有多个可移动单位在环境中随机移动或编队移动。在仿真模拟中,可以设定红方可移动单位随机运动,蓝方通过控制策略控制可移动传感器的动作。如示图(a)和(b)所示,其中,示图(a)的实例在时间上早于示图(b)的实例,当存在双单元编队时,智能体趋向于追踪高价值目标(即,可移动单位数目较多的双单位编队)。而当双单位编队解散后,如示图(c)所示,智能体们在更新的策略的指导下转为分头追踪各个离散的目标。示图(a)至(c)中可移动单位的行进轨迹以稠密且连续的粗离散点示出,而智能体的追踪轨迹则以相对稀疏的细离散点示出。由此可见,借助于本公开的目标环境的信念图构建方法,智能体之间能够借助于根据信念值所构建的信念图进行作战协作,从而提高对目标环境的探索效率。
[0138]
根据本公开的一方面,提供了一种计算机设备,其包括存储器、处理器以及存储在存储器上的计算机程序。该处理器被配置为执行计算机程序以实现上文描述的任一方法实
施例的步骤。
[0139]
根据本公开的一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上文描述的任一方法实施例的步骤。
[0140]
根据本公开的一方面,提供了一种计算机程序产品,其包括计算机程序,该计算机程序被处理器执行时实现上文描述的任一方法实施例的步骤。
[0141]
在下文中,结合图11描述这样的计算机设备、非暂态计算机可读存储介质和计算机程序产品的说明性示例。
[0142]
图11示出了可以被用来实施本文所描述的方法的计算机设备1100的示例配置。举例来说,图1中所示的服务器120和/或客户端设备110可以包括类似于计算机设备1100的架构。上述装置800、900也可以全部或至少部分地由计算机设备1100或类似设备或系统实现。
[0143]
计算机设备1100可以是各种不同类型的设备。计算机设备1100的示例包括但不限于:台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备(例如,平板电脑、蜂窝或其他无线电话(例如,智能电话)、记事本计算机、移动台)、可穿戴设备(例如,眼镜、手表)、娱乐设备(例如,娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。
[0144]
计算机设备1100可以包括能够诸如通过系统总线1114或其他适当的连接彼此通信的至少一个处理器1102、存储器1104、(多个)通信接口1106、显示设备1108、其他输入/输出(i/o)设备1110以及一个或更多大容量存储设备1112。
[0145]
处理器1102可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器1102可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器1102可以被配置成获取并且执行存储在存储器1104、大容量存储设备1112或者其他计算机可读介质中的计算机可读指令,诸如操作系统1116的程序代码、应用程序1118的程序代码、其他程序1120的程序代码等。
[0146]
存储器1104和大容量存储设备1112是用于存储指令的计算机可读存储介质的示例,指令由处理器1102执行来实施前面所描述的各种功能。举例来说,存储器1104一般可以包括易失性存储器和非易失性存储器二者(例如ram、rom等等)。此外,大容量存储设备1112一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如cd、dvd)、存储阵列、网络附属存储、存储区域网等等。存储器1104和大容量存储设备1112在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质,计算机程序代码可以由处理器1102作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。多个程序可以存储在大容量存储设备1112上。这些程序包括操作系统1116、一个或多个应用程序1118、其他程序1120和程序数据1122,并且它们可以被加载到存储器1104以供执行。
[0147]
虽然在图11中被图示成存储在计算机设备1100的存储器1104中,但是框1116、1118、1120和1122或者其部分可以使用可由计算机设备1100访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机可读存储介质和通信介质。
[0148]
计算机可读存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机可读存储介质包括而不限于ram、rom、eeprom、闪存或其他存储器技术,cd-rom、数字通用盘(dvd)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。与此相对,通信介质可以在诸如载波或其他传送机制之类的已调制数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机可读存储介质不包括通信介质。
[0149]
一个或更多通信接口1106用于诸如通过网络、直接连接等等与其他设备交换数据。这样的通信接口可以是以下各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(nic))、有线或无线(诸如ieee 802.11无线lan(wlan))无线接口、全球微波接入互操作(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、bluetooth
tm
接口、近场通信(nfc)接口等。通信接口1106可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如lan、电缆等等)和无线网络(例如wlan、蜂窝、卫星等等)、因特网等等。通信接口1106还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
[0150]
在一些示例中,可以包括诸如监视器之类的显示设备1108,以用于向用户显示信息和图像。其他i/o设备1110可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
[0151]
本文描述的技术可以由计算机设备1100的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。例如,该功能还可以通过使用分布式系统在“云”上全部或部分地实现。云包括和/或代表用于资源的平台。平台抽象云的硬件(例如,服务器)和软件资源的底层功能。资源可以包括在远离计算机设备1100的服务器上执行计算处理时可以使用的应用和/或数据。资源还可以包括通过因特网和/或通过诸如蜂窝或wi-fi网络的订户网络提供的服务。平台可以抽象资源和功能以将计算机设备1100与其他计算机设备连接。因此,本文描述的功能的实现可以分布在整个云内。例如,功能可以部分地在计算机设备1100上以及部分地通过抽象云的功能的平台来实现。
[0152]
虽然在附图和前面的描述中已经详细地说明和描述了本公开,但是这样的说明和描述应当被认为是说明性的和示意性的,而非限制性的;本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除未列出的其他元件或步骤,不定冠词“一”或“一个”不排除多个,术语“多个”是指两个或两个以上,并且术语“基于”应解释为“至少部分地基于”。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。

技术特征:
1.一种目标环境的信念图构建方法,包括:对于所述目标环境下的智能体集合中的每个智能体,获取所述目标环境下的可移动单位集合的状态信息,所述状态信息包括所述智能体视角下的所述可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;针对所述目标环境的每个栅格,根据所述可移动单位集合的状态信息确定表示所述智能体视角下的每个可移动单位对所述栅格的影响的第一影响度,以得到第一多个第一影响度;获取所述智能体集合的特征信息,所述特征信息包括所述智能体集合中每个智能体的当前位置和探测参数;针对所述目标环境的每个栅格,根据所述智能体集合的特征信息确定表示每个智能体对所述栅格的影响的第二影响度,以得到第二多个第二影响度;根据所述目标环境的每个栅格的所述第一多个第一影响度和所述第二多个第二影响度,确定指示所述栅格内存在所述可移动单位的可能性的信念值,以得到所述目标环境的信念值集合;以及根据所述信念值集合构建所述目标环境的信念图,所述信念图包括分别与所述目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与所述色块的颜色之间具有对应性。2.根据权利要求1所述的方法,其中,所述确定表示所述智能体视角下的每个可移动单位对所述栅格的影响的第一影响度以得到第一多个第一影响度包括:对于每个智能体,根据每个可移动单位的所述当前状态估计和相关联的不确定性确定所述可移动单位的第一概率密度,以得到多个第一概率密度;将所述多个第一概率密度进行坐标转换,得到多个第二概率密度;根据所述状态信息确定每个可移动单位相对于所述栅格的空间相似性度量,得到多个空间相似性度量;根据每个可移动单位的所述第二概率密度和所述空间相似性度量确定表示所述可移动单位对所述栅格的影响的所述第一影响度,获得每个智能体视角下的所述栅格的多个所述第一影响度,以得到所述第一多个第一影响度。3.根据权利要求1所述的方法,其中,所述确定表示每个智能体对所述栅格的影响的第二影响度以得到第二多个第二影响度包括:针对所述智能体集合中的每个智能体,根据所述智能体的所述当前位置和探测参数确定所述栅格是否位于所述智能体的探测范围内;响应于确定所述栅格位于所述智能体的探测范围内,将所述第二影响度设置为确定值;响应于确定所述栅格位于所述智能体的探测范围外,获取所述智能体相对于所述栅格的空间相对位置信息,并将所述空间相对位置信息和所述智能体的探测参数一起输入目标激活函数,得到所述目标激活函数输出的函数值作为所述第二影响度,其中,所述目标激活函数输出的最大函数值与所述确定值相等。4.根据权利要求1至3中任一项所述的方法,其中,所述得到所述目标环境的信念值集
合包括:对于每个智能体,对所述智能体视角下的所述栅格的多个第一影响度与所述智能体对所述栅格的影响的第二影响度进行整合,得到所述智能体视角下的所述栅格的多个整合影响度;对每个智能体视角下的所述栅格的多个整合影响度进行平均,得到所述栅格的平均影响度;根据每个栅格的平均影响度确定每个栅格的信念值,得到所述目标环境的所述信念值集合。5.一种智能体训练方法,包括:在样本采集阶段,执行以下操作:针对当前时间步和下一时间步,根据权利要求1至4中任一项所述的方法构建所述目标环境的相应信念图;将所述相应信念图输入多层卷积神经网络,得到所述多层卷积神经网络输出的相应多个子采样特征向量;利用注意力机制,根据所述相应多个子采样特征向量确定相应融合特征向量作为所述目标环境的当前状态和下一状态;在当前时间步使目标强化学习模型的选定策略与所述目标环境进行交互,获得所述智能体集合在所述当前状态下要采取的动作,所述动作使所述智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;将所述当前状态、所述智能体集合在所述当前状态下要采取的所述动作、所述智能体集合在所述当前状态下采取所述动作所获得的奖励以及所述下一状态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及响应于所述经验池中新存入的四元组训练样本的数量达到所述第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;或者响应于所述经验池中新存入的四元组训练样本的数量未达到所述第一样本数量的预设倍数,继续上述操作,在模型训练阶段,执行以下操作:利用从所述经验池中选择的一批次四元组训练样本更新所述强化学习模型的策略;将经更新的所述强化学习模型的策略作为所述强化学习模型在当前模型训练阶段训练得到的策略;以及将所述当前模型训练阶段训练得到的策略与先前模型训练阶段训练得到的一个或多个策略进行比较,确定所述目标强化学习模型在下一样本采集阶段的选定策略。6.根据权利要求5所述的方法,其中,在每个回合开始之际,所述目标环境下的所述可移动单位集合中的可移动单位数量和/或所述智能体集合中的智能体数量能够被改变。7.一种目标环境的信念图构建装置,包括:第一获取模块,配置为对于所述目标环境下的智能体集合中的每个智能体,获取所述目标环境下的可移动单位集合的状态信息,所述状态信息包括所述智能体视角下的所述可移动单位集合中每个可移动单位的当前状态估计和相关联的不确定性;第一确定模块,配置为针对所述目标环境的每个栅格,根据所述可移动单位集合的状
态信息确定表示所述智能体视角下的每个可移动单位对所述栅格的影响的第一影响度,以得到第一多个第一影响度;第二获取模块,配置为获取所述智能体集合的特征信息,所述特征信息包括所述智能体集合中每个智能体的当前位置和探测参数;第二确定模块,配置为针对所述目标环境的每个栅格,根据所述智能体集合的特征信息确定表示每个智能体对所述栅格的影响的第二影响度,以得到第二多个第二影响度;第三确定模块,配置为根据所述目标环境的每个栅格的所述第一多个第一影响度和所述第二多个第二影响度,确定指示所述栅格内存在所述可移动单位的可能性的信念值,以得到所述目标环境的信念值集合;以及构建模块,配置为根据所述信念值集合构建所述目标环境的信念图,所述信念图包括分别与所述目标环境的各个栅格相关联的色块,其中,色块所关联的栅格的信念值与所述色块的颜色之间具有对应性。8.一种智能体训练装置,包括:样本采集模块,包括:第一单元,用于针对当前时间步和下一时间步,根据权利要求1至4中任一项所述的方法构建所述目标环境的相应信念图;第二单元,用于将所述相应信念图输入多层卷积神经网络,得到所述多层卷积神经网络输出的相应多个子采样特征向量;第三单元,用于利用注意力机制,根据所述相应多个子采样特征向量确定相应融合特征向量作为所述目标环境的当前状态和下一状态;第四单元,用于在当前时间步使目标强化学习模型的选定策略与所述目标环境进行交互,获得所述智能体集合在所述当前状态下要采取的动作,所述动作使所述智能体集合中的每个智能体从当前时间步的相应当前位置移动至下一时间步的相应位置;第五单元,用于将所述当前状态、所述智能体集合在所述当前状态下要采取的所述动作、所述智能体集合在所述当前状态下采取所述动作所获得的奖励以及所述下一状态作为四元组训练样本存入经验池,其中,一个回合所需的四元组训练样本数量记为第一样本数量;以及第六单元,用于响应于所述经验池中新存入的四元组训练样本的数量达到所述第一样本数量的预设倍数,中断当前样本采集阶段的操作并进入模型训练阶段;以及第七单元,用于响应于所述经验池中新存入的四元组训练样本的数量未达到所述第一样本数量的预设倍数,继续上述操作,模型训练模块,包括:第八单元,用于利用从所述经验池中选择的一批次四元组训练样本更新所述强化学习模型的策略;第九单元,用于将经更新的所述强化学习模型的策略作为所述强化学习模型在当前模型训练阶段训练得到的策略;以及第十单元,用于将所述当前模型训练阶段训练得到的策略与先前模型训练阶段训练得到的一个或多个策略进行比较,确定所述目标强化学习模型在下一样本采集阶段的选定策略。
9.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中所述存储器存储有计算机程序,所述计算机程序在被所述至少一个处理器执行时实现根据权利要求1-6中任一项所述的方法。10.一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

技术总结
一种目标环境的信念图构建方法,包括:对于智能体集合中的每个智能体,获取可移动单位集合的状态信息,包括智能体视角下的每个可移动单位的当前状态估计及不确定性;针对目标环境的每个栅格,根据状态信息确定表示智能体视角下的每个可移动单位对栅格的影响的第一影响度,得到第一多个第一影响度;获取智能体集合的特征信息,包括每个智能体的当前位置和探测参数;针对每个栅格,根据特征信息确定表示每个智能体对栅格的影响的第二影响度,得到第二多个第二影响度;根据每个栅格的第一多个第一影响度和第二多个第二影响度,确定指示栅格内存在可移动单位的可能性的信念值,得到目标环境的信念值集合;根据信念值集合构建目标环境的信念图。境的信念图。境的信念图。


技术研发人员:肖刚 叶丰 林金 王彬彬
受保护的技术使用者:军事科学院系统工程研究院系统总体研究所
技术研发日:2023.04.28
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐