应用于服务机器人的路径规划方法、装置及服务机器人与流程
未命名
09-11
阅读:67
评论:0

1.本技术涉及服务机器人领域,特别是涉及一种应用于服务机器人的路径规划方法、装置及服务机器人。
背景技术:
2.服务机器人作为一种能够帮助用户在复杂环境中安全导航的智能服务机器人,已经成为人机交互领域的研究热点。然而,现有的服务机器人在行为规划方面存在一些挑战。传统的规则或基于路径规划的方法只能考虑服务机器人自身的行动,而忽略了用户的运动和行为。这导致服务机器人的引导效果受限,难以满足用户的个性化需求。
技术实现要素:
3.基于此,有必要针对上述技术问题,提供一种应用于服务机器人的路径规划方法、装置、服务机器人和存储介质。
4.第一方面,本发明实施例提出一种应用于服务机器人的路径规划方法,所述方法包括:
5.获取目标对象所处的环境信息以及目标对象的第一状态信息;
6.基于所述环境信息以及所述第一状态信息,利用训练完成的马尔可夫决策过程模型,得到所述目标对象的第一运动趋势预测结果;及基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果;融合所述第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果;
7.基于所述第三运动趋势预测结果,确定最优规划路径,并执行相应的引导指令。
8.在一实施例中,所述马尔可夫决策过程模型基于对象在不同环境和指引下的历史状态信息作为训练样本,利用机器学习算法训练得到。
9.在一实施例中,所述马尔可夫决策过程模型的训练过程具体如下:
10.定义状态转移概率和即时奖励函数;所述状态转移概率表示在给定当前环境和指引的情况下,下一个第一状态信息的概率分布;所述即时奖励函数表示在给定当前环境和指引的情况下,所获得的即时奖励;
11.基于所述训练样本及所述状态转移概率,利用机器学习算法训练得到所述马尔可夫决策过程模型,并配置有所述即时奖励函数。
12.在一实施例中,所述基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果包括:
13.基于所述环境信息以及所述第一状态信息,确定服务机器人与服务机器人之间的斥力、服务机器人与目标对象之间的引力;
14.基于所述斥力和引力,得到总力;
15.所述社会力模型基于所述总力,得到所述目标对象的第二运动趋势预测结果。
16.在一实施例中,所述总力f
total
的计算函数如下:
17.f
total
=f
rr
(d
rr
)+f
rr
(d
rh
);
18.f
rr
(d
rr
)=frac{k
rr
}d
rrn
;
19.f
rh
(d
rh
)=frac{k
rh
}d
rhm
;
20.其中,f
rr
(d
rr
)表示斥力;d
rr
表示服务机器人与服务机器人之间的距离;k
rr
表示斥力系数;n表示斥力的指数;f
rh
(d
rh
)表示引力;d
rh
表示服务机器人与目标对象之间的距离;k
rh
表示引力系数,m表示引力的指数。
21.在一实施例中,所述基于所述第三运动趋势预测结果,确定最优规划路径包括:
22.构建初始搜索树,其中根节点表示所述第一状态信息,各节点包含累积回报、访问计数;
23.从根节点开始,根据策略选择子节点进行扩展;
24.在扩展的子节点上执行随机模拟,基于所述第三运动趋势预测结果以评估该子节点的质量;
25.将随机模拟得到的累积回报执行回溯更新,以反向传播到每个经过的节点,并更新该节点的访问计数和累积回报;
26.重复进行随机模拟和回溯更新过程,直到达到预先设定的停止条件;
27.根据根节点的子节点的访问计数,选择具有最高访问计数的子节点作为最优规划路径。
28.在一实施例中,所述方法还包括:
29.利用复合回报函数评估所述最优规划路径,并对所述马尔可夫决策过程模型进行优化。
30.第二方面,本发明实施例提出一种应用于服务机器人的路径规划装置,所述装置包括:
31.传感器模块,用于获取目标对象所处的环境信息以及目标对象的第一状态信息;
32.运动预测模块,用于基于所述环境信息以及所述第一状态信息,利用训练完成的马尔可夫决策过程模型,得到所述目标对象的第一运动趋势预测结果;及基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果;融合所述第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果;
33.路径规划模块,用于基于所述第三运动趋势预测结果,确定最优规划路径,并执行相应的引导指令。
34.第三方面,本发明实施例提出一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行第一方面所述的步骤。
35.第四方面,本发明实施例提出一种计算机可读存储介质,其上存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的步骤。
36.相比于现有技术,上述方法、装置、服务机器人和存储介质,通过获取目标对象所处的环境信息以及目标对象的第一状态信息,基于所述环境信息以及所述第一状态信息,利用训练完成的马尔可夫决策过程模型,得到所述目标对象的第一运动趋势预测结果,及基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果,融合所述第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果,基于所述第三运动趋势预测结果,确定最优规划路径,并执行相应的引导
指令。本发明结合了马尔可夫决策过程模型和社会力模型,能够准确预测目标对象的运动趋势。服务机器人可以根据用户的意图和需求,选择最优规划路径,并提供准确的导航指引。
附图说明
37.图1为一实施例中服务机器人的结构示意图;
38.图2为一实施例中应用于服务机器人的路径规划方法的流程示意图;
39.图3为一实施例中马尔可夫决策过程模型的训练方法的流程示意图;
40.图4为一实施例中第二运动趋势预测结果获取方法的流程示意图;
41.图5为一实施例中最优规划路径确定方法的流程示意图;
42.图6为一实施例中应用于服务机器人的路径规划装置的模块连接示意图。
具体实施方式
43.为了更清楚地说明本发明的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本发明应用于其他类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
44.如本发明和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
45.虽然本发明对根据本发明的实施例的装置中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在计算设备和/或处理器上。模块仅是说明性的,并且装置和方法的不同方面可以使用不同模块。
46.应当理解的是,当单元或模块被描述为“连接”、“耦接”其它单元、模块或块时,其可以指直接连接或耦接,或者与其它单元、模块或块通信,或者可以存在中间的单元、模块或块,除非上下文明确指明其它方式。本文所使用的术语“和/或”可包括一个或多个相关列出项目的任意与所有组合。
47.本技术提供的应用于服务机器人的路径规划方法,可以应用于如图1所示的服务机器人中。服务机器人可以包括一个或两个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置。上述服务机器人还可以包括用于通信功能的传输设备106以及输入输出设备108。输入输出设备108可以是各种传感器。本领域普通技术人员可以理解,图2所示的结构仅为示意,其并不对上述服务机器人的结构造成限制。例如,服务机器人还可包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
48.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的应用于服务机器人的路径规划方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方
法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务机器人。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
49.传输设备106用于经由一个网络接收或者发送数据。上述的网络包括服务机器人的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(networkinterfacecontroller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radiofrequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
50.如图2所示,本发明实施例提供了一种应用于服务机器人的路径规划方法,以该方法应用于图1中的服务机器人为例进行说明,包括以下步骤:
51.s202:获取目标对象所处的环境信息以及目标对象的第一状态信息。
52.服务机器人通过各种传感器(如摄像头、激光雷达等)感知环境信息以及目标对象的第一状态信息,并实时更新自身的状态信息,包括机器人的位置、朝向和速度等。
53.其中的目标对象可以是用户。
54.s204:基于所述环境信息以及所述第一状态信息,利用训练完成的马尔可夫决策过程模型,得到所述目标对象的第一运动趋势预测结果;及基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果;融合所述第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果。
55.通过马尔可夫决策过程模型,计算出第一运动趋势预测结果。同时,社会力模型描述了对象之间相互作用的力量,预测用户的第二运动趋势预测结果。结合这两种模型,机器人可以准确预测用户的运动趋势,从而更好地理解目标对象的意图和需求。
56.示例性的,配置第一运动趋势预测结果及第二运动趋势预测结果不同的权重,根据权重计算得到第三运动趋势预测结果。
57.s206:基于所述第三运动趋势预测结果,确定最优规划路径,并执行相应的引导指令。
58.根据目标对象的第一状态信息以及目的地可以生成多条规划路径,再根据三运动趋势预测结果可以从中选择得到最优规划路径。
59.在得到最优规划路径之后服务机器人执行相应的引导指令,包括语音指令、手势指令、面部表情指令和身体动作指令等。
60.基于步骤s202-s206,通过获取目标对象所处的环境信息以及目标对象的第一状态信息,基于所述环境信息以及所述第一状态信息,利用训练完成的马尔可夫决策过程模型,得到所述目标对象的第一运动趋势预测结果,及基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果,融合所述第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果,基于所述第三运动趋势预测结果,确定最优规划路径,并执行相应的引导指令。本发明结合了马尔可夫决策过程模型和社会力模型,能够准确预测目标对象的运动趋势。服务机器人可以根据用户的意图和需求,选择最优规划路径,并提供准确的导航指引。
61.本发明考虑了不同对象的习惯和偏好,通过运动趋势预测,服务机器人能够提供
个性化的导航服务。根据目标对象的运动模式和行为特征,机器人可以调整导航策略,适应目标对象的个人喜好,提供更符合用户需求的导航体验。
62.在一实施例中,所述马尔可夫决策过程模型基于对象在不同环境和指引下的历史状态信息作为训练样本,利用机器学习算法训练得到。
63.在一实施例中,如图3所示,所述马尔可夫决策过程模型的训练过程具体如下:
64.s302:定义状态转移概率和即时奖励函数;
65.所述状态转移概率表示在给定当前环境和指引的情况下,下一个第一状态信息的概率分布;所述即时奖励函数表示在给定当前环境和指引的情况下,所获得的即时奖励。
66.s304:基于所述训练样本及所述状态转移概率,利用机器学习算法训练得到所述马尔可夫决策过程模型,并配置有所述即时奖励函数。
67.考虑用户的位置、朝向和速度等关键参数作为第一状态信息,用符号s
t
表示用户在时间步骤t的第一状态信息。第一状态信息可以表示为s
t
=(x
t
,y
t
,theta
t
,v
t
),其中(x
t
,y
t
)是目标对象在平面坐标系中的位置坐标,theta
t
是目标对象的朝向角度,v
t
是目标对象的速度。
68.在服务机器人的应用中,目标对象需要根据环境信息和指引来选择合适的行动。将行动定义为a
t
,表示目标对象在时间步骤t选择的行动。行动可以包括前进、左转、右转等。
69.为了建立目标对象的马尔可夫决策过程模型,需要定义状态转移概率p(s
t+1
|s
t
,a
t
)和即时奖励函数r(s
t
,a
t
)。状态转移概率表示在给定当前第一状态信息和行动的情况下,下一个第一状态信息的概率分布。即时奖励函数表示在给定当前第一状态信息和行动的情况下,系统获得的即时奖励。上述定义可以根据历史数据和机器学习算法进行估计和学习。
70.例如,可以通过历史数据中目标对象的移动轨迹和指引来估计状态转移概率。通过分析大量的数据样本,可以计算在给定当前第一状态信息和行动的情况下,用户下一个第一状态信息的概率分布,可以用公式表示为p(s
t+1
|s
t
,a
t
)。
71.同样地,可以定义即时奖励函数r(s
t
,a
t
)来评估在给定当前第一状态信息和行动的情况下的奖励值。该奖励值可以表示为指引的有效性、避免障碍物的程度、到达目的地的效率等因素的综合评估。
72.在一实施例中,如图4所示,所述基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果包括:
73.s402:基于所述环境信息以及所述第一状态信息,确定服务机器人与服务机器人之间的斥力、服务机器人与目标对象之间的引力;
74.s404:基于所述斥力和引力,得到总力;
75.s406:所述社会力模型基于所述总力,得到所述目标对象的第二运动趋势预测结果。
76.社会力模型基于以下假设:人类和机器人都受到周围环境和其他个体施加的力量的影响,他们的运动受到这些力量的相互作用决定。社会力模型使用力的概念来描述这种相互作用。
77.社会力模型中的力量可以分为两个部分:机器人与机器人之间的力量和机器人与
目标对象之间的力量。机器人与机器人之间的力量可以建模为斥力,以避免机器人之间的碰撞。它可以使用斥力函数来表示:
78.f
rr
(d
rr
)=frac{k
rr
}d
rrn
;
79.其中,f
rr
(d
rr
)表示斥力;d
rr
表示服务机器人与服务机器人之间的距离;k
rr
表示斥力系数;n表示斥力的指数。
80.机器人与用户之间的力量可以建模为引力,以吸引用户朝着机器人的导引方向移动。它可以使用引力函数来表示:
81.f
rh
(d
rh
)=frac{k
rh
}d
rhm
;
82.其中,f
rh
(d
rh
)表示引力;d
rh
表示服务机器人与目标对象之间的距离;k
rh
表示引力系数,m表示引力的指数。综合考虑机器人与机器人之间的斥力和机器人与用户之间的引力,可以得到总力f
total
,如下所示:
83.f
total
=f
rr
(d
rr
)+f
rr
(d
rh
);
84.通过使用社会力模型,服务机器人可以预测用户在服务机器人引导下的运动趋势。服务机器人的引导行为会影响目标对象的运动轨迹,并最终实现更有效的导引效果。
85.在一实施例中,通过基于蒙特卡罗树搜索的多行为规划算法,用于选择最优规划路径。该算法能够在大规模状态空间中进行搜索,并找到具有最高累积回报的最优规划路径。
86.如图5所示,所述基于所述第三运动趋势预测结果,确定最优规划路径包括:
87.s502:构建初始搜索树,其中根节点表示所述第一状态信息,各节点包含累积回报、访问计数;
88.s504:从根节点开始,根据策略选择子节点进行扩展;
89.上述策略例如为上限置信界算法。在每一步选择时,根据节点的访问计数和累积回报等信息进行权衡,以平衡探索和利用。
90.s506:在扩展的子节点上执行随机模拟,基于所述第三运动趋势预测结果以评估该子节点的质量;
91.s508:将随机模拟得到的累积回报执行回溯更新,以反向传播到每个经过的节点,并更新该节点的访问计数和累积回报;
92.s510:重复进行随机模拟和回溯更新过程,直到达到预先设定的停止条件;
93.停止条件例如为时间限制或搜索次数限制。
94.s512:根据根节点的子节点的访问计数,选择具有最高访问计数的子节点作为最优规划路径。
95.通过使用基于蒙特卡罗树搜索的多行为规划算法,服务机器人能够在大规模状态空间中进行搜索,并选择最优规划路径进行个性化导引。该算法考虑了长期累积回报,并通过模拟和评估不同规划路径的效果,得到最优规划路。
96.基于蒙特卡罗树搜索的多行为规划算法,使服务机器人能够适应各种复杂导航环境。无论是人流拥挤、路径复杂还是环境变化,服务机器人能够在大规模状态空间中进行搜索,并选择最优规划路。这使得服务机器人能够应对各种复杂导航场景,提供稳定、可靠的导航服务。
97.在一实施例中,所述方法还包括:
98.利用复合回报函数评估所述最优规划路径,并对所述马尔可夫决策过程模型进行优化。
99.该函数综合考虑引导行为的可读性和到达目的地的效率。引导行为的可读性鼓励服务机器人选择能够被目标对象充分理解的导引行为,以确保引导的准确性和可读性。到达目的地的效率鼓励服务机器人选择合适的路径,并尽快到达目的地,提高导航的效率和舒适性。
100.应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
101.在一实施例中,如图6所示,本发明提供了一种应用于服务机器人的路径规划装置,所述装置包括:
102.传感器模块602,用于获取目标对象所处的环境信息以及目标对象的第一状态信息;
103.运动预测模块604,用于基于所述环境信息以及所述第一状态信息,利用训练完成的马尔可夫决策过程模型,得到所述目标对象的第一运动趋势预测结果;及基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果;融合所述第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果;
104.路径规划模块606,用于基于所述第三运动趋势预测结果,确定最优规划路径,并执行相应的引导指令。
105.本路径规划装置具有提高服务效果、个性化导航服务、提高用户体验和应对复杂环境的有益效果。
106.在一实施例中,所述马尔可夫决策过程模型基于对象在不同环境和指引下的历史状态信息作为训练样本,利用机器学习算法训练得到。
107.在一实施例中,所述马尔可夫决策过程模型的训练过程具体如下:
108.定义状态转移概率和即时奖励函数;所述状态转移概率表示在给定当前环境和指引的情况下,下一个第一状态信息的概率分布;所述即时奖励函数表示在给定当前环境和指引的情况下,所获得的即时奖励;
109.基于所述训练样本及所述状态转移概率,利用机器学习算法训练得到所述马尔可夫决策过程模型,并配置有所述即时奖励函数。
110.在一实施例中,所述基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果包括:
111.基于所述环境信息以及所述第一状态信息,确定服务机器人与服务机器人之间的斥力、服务机器人与目标对象之间的引力;
112.基于所述斥力和引力,得到总力;
113.所述社会力模型基于所述总力,得到所述目标对象的第二运动趋势预测结果。
114.在一实施例中,所述总力f
total
的计算函数如下:
115.f
total
=f
rr
(d
rr
)+f
rr
(d
rh
);
116.f
rr
(d
rr
)=frac{k
rr
}d
rrn
;
117.f
rh
(d
rh
)=frac{k
rh
}d
rhm
;
118.其中,f
rr
(d
rr
)表示斥力;d
rr
表示服务机器人与服务机器人之间的距离;k
rr
表示斥力系数;n表示斥力的指数;f
rh
(d
rh
)表示引力;d
rh
表示服务机器人与目标对象之间的距离;k
rh
表示引力系数,m表示引力的指数。
119.在一实施例中,所述路径规划模块包括:
120.构建初始搜索树,其中根节点表示所述第一状态信息,各节点包含累积回报、访问计数;
121.从根节点开始,根据策略选择子节点进行扩展;
122.在扩展的子节点上执行随机模拟,基于所述第三运动趋势预测结果以评估该子节点的质量;
123.将随机模拟得到的累积回报执行回溯更新,以反向传播到每个经过的节点,并更新该节点的访问计数和累积回报;
124.重复进行随机模拟和回溯更新过程,直到达到预先设定的停止条件;
125.根据根节点的子节点的访问计数,选择具有最高访问计数的子节点作为最优规划路径。
126.在一实施例中,还包括:
127.模型优化模块,用于利用复合回报函数评估所述最优规划路径,并对所述马尔可夫决策过程模型进行优化。
128.关于应用于服务机器人的路径规划装置的具体限定可以参见上文中对于路径规划方法的限定,在此不再赘述。上述应用于服务机器人的路径规划装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
129.在一个实施例中,本发明实施例提供了一种服务机器人,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现服务机器人的路径规划方法实施例中的步骤。
130.在一实施例中,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一项应用于服务机器人的路径规划方法实施例中的步骤。
131.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种
形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
132.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
133.以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。
技术特征:
1.一种应用于服务机器人的路径规划方法,其特征在于,所述方法包括:获取目标对象所处的环境信息以及目标对象的第一状态信息;基于所述环境信息以及所述第一状态信息,利用训练完成的马尔可夫决策过程模型,得到所述目标对象的第一运动趋势预测结果;及基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果;融合所述第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果;基于所述第三运动趋势预测结果,确定最优规划路径,并执行相应的引导指令。2.根据权利要求1所述的方法,其特征在于,所述马尔可夫决策过程模型基于对象在不同环境和指引下的历史状态信息作为训练样本,利用机器学习算法训练得到。3.根据权利要求2所述的方法,其特征在于,所述马尔可夫决策过程模型的训练过程具体如下:定义状态转移概率和即时奖励函数;所述状态转移概率表示在给定当前环境和指引的情况下,下一个第一状态信息的概率分布;所述即时奖励函数表示在给定当前环境和指引的情况下,所获得的即时奖励;基于所述训练样本及所述状态转移概率,利用机器学习算法训练得到所述马尔可夫决策过程模型,并配置有所述即时奖励函数。4.根据权利要求2所述的方法,其特征在于,所述基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果包括:基于所述环境信息以及所述第一状态信息,确定服务机器人与服务机器人之间的斥力、服务机器人与目标对象之间的引力;基于所述斥力和引力,得到总力;所述社会力模型基于所述总力,得到所述目标对象的第二运动趋势预测结果。5.根据权利要求4所述的方法,其特征在于,所述总力f
total
的计算函数如下:f
total
=f
rr
(d
rr
)+f
rr
(d
rh
);f
rr
(d
rr
)=frac{k
rr
}d
rrn
;f
rh
(d
rh
)=frac{k
rh
}d
rhm
;其中,f
rr
(d
rr
)表示斥力;d
rr
表示服务机器人与服务机器人之间的距离;k
rr
表示斥力系数;n表示斥力的指数;f
rh
(d
rh
)表示引力;d
rh
表示服务机器人与目标对象之间的距离;k
rh
表示引力系数,m表示引力的指数。6.根据权利要求1所述的方法,其特征在于,所述基于所述第三运动趋势预测结果,确定最优规划路径包括:构建初始搜索树,其中根节点表示所述第一状态信息,各节点包含累积回报、访问计数;从根节点开始,根据策略选择子节点进行扩展;在扩展的子节点上执行随机模拟,基于所述第三运动趋势预测结果以评估该子节点的质量;将随机模拟得到的累积回报执行回溯更新,以反向传播到每个经过的节点,并更新该节点的访问计数和累积回报;重复进行随机模拟和回溯更新过程,直到达到预先设定的停止条件;
根据根节点的子节点的访问计数,选择具有最高访问计数的子节点作为最优规划路径。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用复合回报函数评估所述最优规划路径,并对所述马尔可夫决策过程模型进行优化。8.一种应用于服务机器人的路径规划装置,其特征在于,所述装置包括:传感器模块,用于获取目标对象所处的环境信息以及目标对象的第一状态信息;运动预测模块,用于基于所述环境信息以及所述第一状态信息,利用训练完成的马尔可夫决策过程模型,得到所述目标对象的第一运动趋势预测结果;及基于所述环境信息以及所述第一状态信息,利用社会力模型,得到所述目标对象的第二运动趋势预测结果;融合所述第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果;路径规划模块,用于基于所述第三运动趋势预测结果,确定最优规划路径,并执行相应的引导指令。9.一种服务机器人,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至权利要求7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至权利要求7中任一项所述的方法的步骤。
技术总结
本申请涉及服务机器人领域,特别是涉及一种应用于服务机器人的路径规划方法、装置、服务机器人及存储介质。所述方法包括:获取目标对象所处的环境信息以及目标对象的第一状态信息;基于环境信息以及第一状态信息,利用训练完成的马尔可夫决策过程模型,得到目标对象的第一运动趋势预测结果;及基于环境信息以及第一状态信息,利用社会力模型,得到目标对象的第二运动趋势预测结果;融合第一运动趋势预测结果及第二运动趋势预测结果,得到第三运动趋势预测结果;基于第三运动趋势预测结果,确定最优规划路径,并执行相应的引导指令。本发明具有提高服务效果、个性化导航服务、提高用户体验和应对复杂环境的有益效果。户体验和应对复杂环境的有益效果。户体验和应对复杂环境的有益效果。
技术研发人员:宋伟 穆宗昊 方伟 周元海 袭向明 朱世强
受保护的技术使用者:之江实验室
技术研发日:2023.07.20
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/