一种基于改进好奇心的移动机器人自主认知导航方法

未命名 09-17 阅读:86 评论:0


1.本发明属于人工智能与机器人和仿生导航领域,具体涉及一种基于改进好奇心的移动机器人自主认知导航方法。


背景技术:

2.智能移动机器人能够在感知周围环境的同时,完成相应的自主导航任务。而在完成相应的路径规划问题之前,首先要对任务环境有所了解,也就是对未知环境的认知过程。将仿生学的知识应用于自主移动机器人的环境认知问题是当前研究的重中之重。
3.内在动机理论是从生理学和心理学的角度出发,解决了生物内心深处如何产生做某事的动机的问题。与外在动机不同,内在动机并不以环境提供的明确奖励作为目标,而是受到外在环境和自身的共同影响。
4.目前大多数基于内在动机的机器人导航方法,使用了好奇心作为内在动机的表现形式,但由于其会产生盲目好奇心问题,即机器人会放弃那些有可能到达最终点的状态动作,也有可能使机器人盲目相信一个根本无法到达最终点的状态动作。所以传统的基于好奇心的方法很容易产生盲目好奇心,从而导致导航结果陷入局部最优之中。
5.现有的应对盲目好奇心问题的解决方案主要依赖于动作预测和状态预测,例如引入反向模型,根据相邻的两个状态,推断智能体选择的动作,从而形成反向预测误差。再根据反向预测误差对编码器进行训练,从而减少盲目好奇心所带来的内在奖励。这类方法是从减少盲目奖励的角度来阻止问题的发生,然而忽略了和任务相关性之间的联系,虽然能够减小陷入局部最优的情况发生,但是会造成任务总体效率的下降。
6.鉴于外在奖励和内在动机之间存在隐式的联系,通过外在动机对内在动机提供指导,才能在保证任务效率的情况下,避免盲目好奇心问题的产生。可以认为内在动机受到外在的显式奖励影响,智能体逐步产生与任务相关的好奇心。这样设计可以显著提高智能体完成任务的成功率,减少训练所需要的时间以及保证整体系统的健壮性。
7.相关的专利如申请号为201510628233.0的发明专利,基于发育自动机和内在动机理论,提出了具有脑认知机理的发育自动机及其学习方法。申请号为202011419778.8的发明专利,基于纹状体结构的机器人行为学习系统及学习方法,使用纹状小体接收由海马体位置细胞产生的定位信息由黑质致密部和腹侧被盖区产生的多巴胺信息,同时根据操作条件反射机制更新机器人的取向性信息。申请号为cn202111455606.0的发明专利,基于内在动机和人工势场理论,提出了基于内在动机的多智能体稀疏奖励环境协作探索方法。申请号为201811343603.6的发明专利,提出了一种具有发育机制的感知行动认知学习方法,该系统采用状态访问计数作为内在动机的表现形式,能够有效地节省学习和计算的成本,提高系统的学习速度以及稳定性。但是,以上专利并没有涉及将基于状态访问计数和基于状态动作访问计数相结合,对内在动机进行定义的形式;同时,也没有涉及任务相关性好奇心的概念。


技术实现要素:

8.本发明改进了基于好奇心形式的内在动机,将基于状态访问计数和状态动作访问计数相结合,并添加了任务相关性约束。该方法使用操作条件反射作为基础,和基于好奇心形式的内在动机相结合。首先,对地图中的智能体的位置进行确定(可以使用gps或是信标),得到智能体在地图中的横坐标x以及纵坐标y。其次,通过地图的取向函数计算该位置的智能体取向性(描述智能体趋利避害特性的设置,使智能体根据当前环境),再次,根据智能体当前位置坐标,计算该位置的任务相关性。综上,根据当前位置的状态访问次数、状态动作访问次数以及上述计算的任务相关性,计算该位置的访问计数好奇心。接下来,通过好奇心和地图取向函数的指导,结合智能体的动作选择策略,完成智能体在地图中的训练过程(对智能体的取向性矩阵进行逐步更新)。最后,根据训练得到的取向性指导智能体完成导航任务。本发明显著降低了因智能体好奇心导致的局部最优现象,同时提升了系统整体的训练速度,能够在更早的回合训练出较为成熟的策略,用于完成导航任务,更加适用于紧急救援等需要快速训练并完成任务的场合。同时,能够有效应对动态场景下的实时避障,平衡了系统的鲁棒性、快速性和准确性。
9.为了解决上述技术问题,本发明提供一种基于改进好奇心的移动机器人自主认知导航方法,如图1所示,包括定位模块、外部奖励计算模块、取向性更新模块、内部奖励计算模块、动作选择模块以及移动模块。其中,机器人通过定位模块对坐标进行计算,而后根据计算得出的位置坐标,进行取向函数值计算(也就是外在奖励计算),随后,通过好奇心函数对内部奖励值进行计算。其次,根据好奇心函数值和取向函数值对智能体的取向性进行更新。最后,根据智能体在该状态下的取向性和好奇心对动作进行选择。
10.具体地,包括:
11.在地图准备阶段,根据障碍物和目标位置的信标,计算并生成取向函数;
12.在定位阶段,根据信标确定智能体的横纵坐标;
13.在模型训练阶段,构建基于操作条件反射的任务相关好奇心框架。在好奇心框架的学习模块中,构建基于操作条件反射的取向性更新网络,通过对智能体相邻位置的取向性进行判断,对取向性进行更新;在好奇心框架的内在动机模块中,结合任务导向好奇心的内在动机方法,根据当前智能体位置和任务之间的相关性,计算该当前智能体位置好奇心的大小。在好奇心框架的外部奖励模块中,根据地图的取向性,计算对应的外部奖励。在好奇心框架的动作选择模块中,结合智能体在该位置的取向性矩阵以及好奇心函数值,对动作集中的动作进行判断选择。
14.在应用阶段,根据智能体训练好的取向性矩阵,依照概率进行动作选择,完成智能体的导航任务。
15.前述步骤中的地图准备阶段为环境中的每个状态生成对应的取向函数值,以便为智能体提供外部奖励;定位阶段为智能体提供在环境地图中的横纵坐标;模型训练阶段则实时使用定位阶段计算智能体的坐标,同时根据地图准备阶段中的取向函数,计算智能体在各个状态的取向性值。另外,训练阶段根据定义的好奇心函数,计算机器人在任务环境中的内在奖励。
16.本发明基于操作条件反射的任务相关好奇心方法的步骤如下几个阶段:
17.(1)所述地图准备阶段包括:通过障碍物信标以及目标点信标生成地图的取向函
数。
18.(2)所述智能体定位阶段包括:使用公式1描述两轮移动机器人的运动学模型。通过智能体携带的信标和障碍物信标及目标点信标进行交互计算,得出其在地图中的横纵坐标。
[0019][0020]
其中,δθ代表该时间步内,机器人所转动的角度;θs和θe分别代表该时间步前后的机器人角度;xs和xe则代表该时间步前后的机器人横坐标,ys和ye代表该时间步前后机器人的纵坐标;v代表机器人的移动线速度,δt代表该时间步的时间长度。
[0021]
(3)所述模型训练阶段包括:
[0022]
3.1)构建基于操作条件反射的取向性更新网络。
[0023]
智能体在网络中不断驱使自己适应环境。从取向性函数的层面来看,推动自己不断地向更好的状态移动,同时避免陷入较差的状态之中。取向性更新如公式2至4所示:
[0024]
当v(t+1)》v(t)时:
[0025][0026]
当v(t+1)《v(t)时:
[0027][0028]
当v(t+1)=v(t)时:
[0029][0030]
式中,o
ij
代表机器人的取向性,用来判断其所处状态的好坏。v为环境的取向函数,μ为取向性比例系数。
[0031]
3.2)内在动机模块设计
[0032]
内在动机模块由基于状态访问计数和状态动作访问计数的好奇心和任务相关性好奇心共同构建。基于状态访问计数的好奇心,统计每个状态(一个坐标对应一个状态)的访问次数,每当智能体经过这个状态,那么该状态的访问计数加一,对应的好奇心如公式5所示。
[0033][0034]
其中,γ1为状态访问计数权重,ni为机器人的状态访问计数。
[0035]
基于状态动作访问计数的好奇心,统计每个状态下,智能体采用动作空间下的某个动作的次数,每当智能体经过这个状态,并且在这个状态下选择了一个动作,那么该状态下的该动作对应的状态动作访问计数加一,对应的好奇心如公式6所示。
[0036][0037]
其中,γ2为状态动作访问计数权重,n
ij
为机器人的状态动作访问计数。
[0038]
基于任务相关性的好奇心,通过计算智能体在相邻时刻下的取向函数变化,将好奇心约束在任务限度之内,如公式7所示。
[0039]
∈=[v(t+1)-v(t)]
×cꢀꢀ
(7)
[0040]
其中,c为任务相关性系数。
[0041]
最终,结合学习率模拟退火的思想,完成好奇心函数的设计,如公式8所示。
[0042][0043]
其中,α为模拟退火学习的学习率。
[0044]
3.3)动作选择模块设计
[0045]
动作选择模块基于内在动机模块和取向性更新网络进行设计。在智能体完成自主导航任务的过程中,在每个状态下,都可以对动作空间中的动作进行选择,因此需要制定一种动作选择策略。此模块中,智能体受到取向性和好奇心的共同作用,在二者的共同指导之下完成动作选择。如公式(9)所示:
[0046][0047]
在所述模型应用阶段包括:使用(3)中训练出的智能体取向性矩阵,指导智能体完成认知导航任务。
[0048]
本发明结合了操作条件反射和内在动机理论,改进了好奇心所带来的盲目探索问题。相较于已有的导航技术而言,本发明更具有生物合理性,同时能够显著地降低导航的训练速度。同时,与传统的导航需要建图、自主认知和路径规划三个部分相比,本发明通过机器人的取向性对环境进行认知的同时,学习导航任务所需知识,将自主认知和路径规划两个阶段合并,更加清晰明了。
附图说明
[0049]
图1为本发明方法的系统步骤图。
[0050]
图2为本发明方法的系统流程图。
[0051]
图3为本发明中双轮移动机器人(智能体)和环境的交互示意图。
[0052]
图4为本发明训练及应用阶段的环境地图。
[0053]
图5为本发明在图4中进行训练的过程图。
[0054]
图6为本发明在图4中进行应用的结果图。
[0055]
图7为本发明在复杂地图环境中的导航结果
具体实施方式
[0056]
将结合说明附图并举实施例,对本发明进行详细描述。
[0057]
图1为本发明方法的系统步骤图,图2为本发明的系统流程图。参见上述两图,为充分的判断一个位置中基于计数的好奇心,本发明将基于状态计数的好奇心和基于状态动作计数的好奇心相结合,应用在智能体的自主导航问题中;为解决基于计数好奇心模型中的盲目好奇心问题,本发明提出了好奇心任务相关项,添加至好奇心计算模块之中。
[0058]
本发明的机器人对象为一个圆形的双轮式移动机器人,其半径为r=0.2m,通过两侧的驱动轮w
l
和wr进行移动,同时通过两轮之间的速度差,提供机器人的转向。其运动学模型如公式1所示。在机器人周围分别设置12个红外线测距装置,通过其中接收二极管识别到的红外返回信号的强度来判断周围环境的变化,用以检测机器人和周围障碍物之间的距离。其有效测距为0m~5m。图3展示了机器人在环境中和障碍物之间的交互作用以及机器人的物理结构。
[0059]
图2所示的本发明的流程图,其中包含地图准备阶段、定位阶段、模型训练阶段以及应用阶段。
[0060]
(1)地图准备阶段
[0061]
在地图准备阶段,采用如图4所示的5m
×
5m的正方形仿真环境。其中圆点代表机器人的起始位置,星形代表自主导航任务的目标位置,方框代表环境中分布的障碍物位置。图4显示了在表1所示参数条件下的取向性函数值。
[0062]
表1取向性函数参数设置表
[0063]
取向性函数参数数值v
1-0.2v
2-1v
3-10
[0064]
(2)智能体定位阶段
[0065]
在智能体定位阶段,本发明支持基于信标定位的方法或是基于gps定位的方法,细节不在此处给出。
[0066]
(3)模型训练阶段
[0067]
3.1)本发明在训练的初期,没有任何的先验知识。因此将智能体的取向性矩阵设定为状态访问集合设定为状态动作访问集合设定为其余参数设置如表2所示。同时,训练为保证算法有限性的基础下,更加充分地完成导航任务,规定每回合的学习步数为4000步。为清晰地演示机智能体在完成导
航任务时的轨迹,训练将以回合制的方式进行展示,共计进行20轮次的训练。
[0068]
表2训练参数设置表
[0069]
训练参数数值μ0.99c0.3α2γ
1-0.1γ
2-0.1
[0070]
3.2.1)首回合中,使智能体在环境中做自由探索,以便其能够更加充分的对环境进行了解,如图5所示。可以看出,由于智能体在首回合没有来自环境的先验知识,所以整个运动的轨迹呈现出一种类似布朗运动的随机运动。
[0071]
3.2.2)图5分别显示了在该环境下的智能体在第二回合、第五回合和第二十回合的训练结果。可以看出,由于环境中的外部奖励逐渐转化为内在奖励,整体的运动轨迹开始向目标点聚集。随着智能体不断深入地学习,目标点周围地轨迹越来越多,其他位置的轨迹越来越少,说明智能体开始更注重利用已学习到的知识而并非继续进行探索。值得一提的是,在第五回合时,智能体的轨迹曲线已逐渐趋于收敛,说明外在奖励已经逐步转化成好奇心形式的内在动机,这对提升认知导航的快速性是十分奏效的。当学习进入到第二十回合时,智能体快速地向目标位置进行靠拢,同时路径也与理论最优路径更为接近。可以看出,智能体对环境的认知是循序渐进的,在进行导航任务之前,已对任务环境有了一定程度的了解,符合生物的认知导航过程。
[0072]
3.3)鲁棒性是验证模型对抗复杂环境性能的重要指标之一。为验证本模型的鲁棒性,将本发明放入多种存在更多障碍物的复杂环境中进行训练,通过在其中的适应能力来对模型的整体鲁棒性进行评估。如图7所示。可以看出,虽然应用场景中的障碍物增加了,但是本文模型仍然能够完成复杂环境下的导航任务,因此本模型具有较强的鲁棒性能。
[0073]
(4)模型应用阶段
[0074]
当机器人完成了二十个回合的训练后,其对环境已经有了较为充足的认识。在此基础上,对机器人的学习成果进行检验。图6分别展示了步数为31和步数为33的两次导航结果。
[0075]
综上所述,本发明实施例提出的基于改进好奇心的移动机器人自主认知导航方法通过结合两种基于计数的好奇心内在动机方法,以及提出的基于任务相关性好奇心的内在动机方法,实现了移动机器人在环境内的自主导航任务。本发明适用于大多数机器人导航任务的应用场景。
[0076]
以上所述仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改,等同替换以及改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于改进好奇心的移动机器人自主认知导航方法,实现该方法的系统包括定位模块、外部奖励计算模块、取向性更新模块、内部奖励计算模块、动作选择模块以及移动模块;其特征在于,机器人通过定位模块对坐标进行计算,而后根据计算得出的位置坐标,进行取向函数值计算,通过好奇心函数对内部奖励值进行计算;根据好奇心函数值和取向函数值对智能体的取向性进行更新;根据智能体在该状态下的取向性和好奇心对动作进行选择;具体地,包括:在地图准备阶段,根据障碍物和目标位置的信标,计算并生成取向函数;在定位阶段,根据信标确定智能体的横纵坐标;在模型训练阶段,构建基于操作条件反射的任务相关好奇心框架;在好奇心框架的学习模块中,构建基于操作条件反射的取向性更新网络,通过对智能体相邻位置的取向性进行判断,对取向性进行更新;在好奇心框架的内在动机模块中,结合任务导向好奇心的内在动机方法,根据当前智能体位置和任务之间的相关性,计算该当前智能体位置好奇心的大小;在好奇心框架的外部奖励模块中,根据地图的取向性,计算对应的外部奖励;在好奇心框架的动作选择模块中,结合智能体在该位置的取向性矩阵以及好奇心函数值,对动作集中的动作进行判断选择;在应用阶段,根据智能体训练好的取向性矩阵,依照概率进行动作选择,完成智能体的导航任务;前述步骤中的地图准备阶段为环境中的每个状态生成对应的取向函数值,以便为智能体提供外部奖励;定位阶段为智能体提供在环境地图中的横纵坐标;模型训练阶段则实时使用定位阶段计算智能体的坐标,同时根据地图准备阶段中的取向函数,计算智能体在各个状态的取向性值;另外,训练阶段根据定义的好奇心函数,计算机器人在任务环境中的内在奖励。2.根据权利要求1所述的基于改进好奇心的移动机器人自主认知导航方法,其特征在于,基于操作条件反射的任务相关好奇心方法的步骤如下几个阶段:(1)所述地图准备阶段包括:通过障碍物信标以及目标点信标生成地图的取向函数;(2)所述智能体定位阶段包括:使用公式1描述两轮移动机器人的运动学模型;通过智能体携带的信标和障碍物信标及目标点信标进行交互计算,得出其在地图中的横纵坐标;其中,δθ代表该时间步内,机器人所转动的角度;θ
s
和θ
e
分别代表该时间步前后的机器人角度;x
s
和x
e
则代表该时间步前后的机器人横坐标,y
s
和y
e
代表该时间步前后机器人的纵坐标;v代表机器人的移动线速度,δt代表该时间步的时间长度;(3)所述模型训练阶段包括:3.1)构建基于操作条件反射的取向性更新网络;智能体在网络中不断驱使自己适应环境;从取向性函数的层面来看,推动自己不断地向更好的状态移动,同时避免陷入较差的状态之中;取向性更新如公式2至4所示:当v(t+1)>v(t)时:
当v(t+1)<v(t)时:当v(t+1)=v(t)时:式中,o
ij
代表机器人的取向性,用来判断其所处状态的好坏;v为环境的取向函数,μ为取向性比例系数;3.2)内在动机模块设计内在动机模块由基于状态访问计数和状态动作访问计数的好奇心和任务相关性好奇心共同构建;基于状态访问计数的好奇心,统计每个状态的访问次数,每当智能体经过这个状态,那么该状态的访问计数加一,对应的好奇心如公式5所示;其中,γ1为状态访问计数权重,n
i
为机器人的状态访问计数;基于状态动作访问计数的好奇心,统计每个状态下,智能体采用动作空间下的某个动作的次数,每当智能体经过这个状态,并且在这个状态下选择一个动作,那么该状态下的该动作对应的状态动作访问计数加一,对应的好奇心如公式6所示;其中,γ2为状态动作访问计数权重,n
ij
为机器人的状态动作访问计数;基于任务相关性的好奇心,通过计算智能体在相邻时刻下的取向函数变化,将好奇心约束在任务限度之内,如公式7所示;∈=[v(t+1)-v(t)]
×
c(7)
其中,c为任务相关性系数;最终,结合学习率模拟退火的思想,完成好奇心函数的设计,如公式8所示;其中,α为模拟退火学习的学习率;3.3)动作选择模块设计动作选择模块基于内在动机模块和取向性更新网络进行设计;智能体受到取向性和好奇心的共同作用,在二者的共同指导之下完成动作选择;如公式(9)所示:在所述模型应用阶段包括:使用(3)中训练出的智能体取向性矩阵,指导智能体完成认知导航任务。

技术总结
本发明公开了一种基于改进好奇心的移动机器人自主认知导航方法,在奖励环境稀疏的条件下,完成智能体的自主导航任务,同时还能对环境中产生的动态障碍物进行实时避障。以状态访问计数形式的好奇心对内在动机进行定义,并结合操作条件反射模型进行设计。首先在地图准备阶段,根据障碍物和目标位置的信标,计算并生成取向函数;其次,在定位阶段,使用支持的GPS或信标定位方法,对机器人进行定位;在模型训练阶段,构建了基于操作条件反射的任务相关好奇心框架;最后,在应用阶段,使用智能体训练号的取向性矩阵,依照概率对动作进行选择,完成导航任务。实验结果证明,本发明适用于多数机器人导航场景,在保证任务完成的情况下,提升任务效率。升任务效率。升任务效率。


技术研发人员:黄静 李宇凡 张子恒 阮晓钢
受保护的技术使用者:北京工业大学
技术研发日:2023.02.15
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐