自动驾驶车辆控制方法、装置、设备以及存储介质与流程

未命名 07-11 阅读:64 评论:0


1.本公开涉及人工智能技术领域,尤其涉及智慧交通、自动驾驶、强化学习等领域。


背景技术:

2.互联网技术、人工智能以及高精地图的快速发展和应用,极大地促进了自动驾驶车辆的发展。自动驾驶车辆具有提高行驶安全性和提高道路利用率的潜力,在未来的交通系统中具有很大的应用前景。
3.由于道路交通环境复杂多变,自动驾驶车辆的状态信息难以获取以及动力学非线性特性和不确定性,传感器信息和车辆各模块信息融合复杂,使得确定自动驾驶车辆合理的行为信息充满挑战。


技术实现要素:

4.本公开提供了自动驾驶车辆控制方法、装置、设备以及存储介质。
5.根据本公开的一方面,提供了一种自动驾驶车辆控制方法,包括:
6.根据车辆的状态值,确定车辆的目标状态信息;
7.确定多个行动信息中各个行动信息对应的条件概率,条件概率包括在车辆的状态满足目标状态信息的条件下,车辆的行动满足行动信息的概率;
8.利用各个行动信息对应的条件概率,从多个行动信息中确定满足车辆运动学条件的第一目标行动信息;
9.利用第一目标行动信息控制车辆。
10.根据本公开的另一方面,提供了一种自动驾驶车辆控制装置,包括:
11.第一确定模块,用于根据车辆的状态值,确定车辆的目标状态信息;
12.第二确定模块,用于确定多个行动信息中各个行动信息对应的条件概率,条件概率包括在车辆的状态满足目标状态信息的条件下,车辆的行动满足行动信息的概率;
13.第三确定模块,用于利用各个行动信息对应的条件概率,从多个行动信息中确定满足车辆运动学条件的第一目标行动信息;
14.控制模块,用于利用第一目标行动信息控制车辆。
15.根据本公开的另一方面,提供了一种电子设备,包括:
16.至少一个处理器;以及
17.与该至少一个处理器通信连接的存储器;其中,
18.该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
19.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
20.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
21.本公开通过车辆的状态值,确定车辆当前的状态信息以及与该信息对应的第一目标行动信息。采用该第一目标行动信息对车辆进行控制,能够降低车辆实际行驶轨迹与参考行驶轨迹之间的误差,使车辆能够始终按照合适的行动信息进行行驶。
22.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案,不构成对本公开的限定。其中:
24.图1是本公开实施例的应用场景示意图;
25.图2是根据本公开实施例的自动驾驶车辆控制方法的实现流程图;
26.图3a是根据本公开实施例的自动驾驶车辆控制方法的整体流程图;
27.图3b是根据本公开实施例的贝叶斯网络的结构示意图;
28.图3c是根据本公开实施例的确定第二目标行动信息的实现流程图;
29.图3d是根据本公开实施例的确定第一目标行动信息的实现流程图;
30.图4是根据本公开一实施例的自动驾驶车辆控制装置400的结构示意图;
31.图5是根据本公开一实施例的自动驾驶车辆控制装置500的结构示意图;
32.图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。
具体实施方式
33.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
34.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在本文中术语“和/或”表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
35.自动驾驶技术是汽车产业与人工智能、物联网、高性能计算等新一代信息技术深度融合的产物,是当前全球汽车与交通出行领域智能化和网联化发展的主要方向。环境感知、路径规划与路径跟踪控制是自动驾驶车辆的三大核心技术,三大技术相辅相成才能实现自动驾驶车辆的安全、舒适、节能和高效。车辆的路径跟踪控制是自动驾驶车辆中的重要组成部分。目前,在保证车辆稳定性、安全性和舒适性的前提下,车辆的路径跟踪控制方法可以通过确定合理的行为信息对自动驾驶车辆进行控制,以减小车辆实际行驶轨迹和参考行驶轨迹之间的误差。
36.但是,由于目前道路交通环境的复杂多变,自动驾驶车辆状态信息的难以获取,以及车辆的行驶的不确定性,使得现有的确定车辆行动信息的方法,还不够准确。也正因如
此,目前现有的确定车辆行动信息的方法还无法实现减小车辆实际行驶轨迹和参考行驶轨迹之间误差的目的,不仅如此,目前现有的确定车辆行动信息的方法具有不成熟性,这一点也有可能会导致车辆安全事故的发生。
37.为解决上述问题,本公开提供了一种自动驾驶车辆控制方法,可以根据车辆当前的状态信息,预测用于控制车辆的行动信息。由于车辆的状态信息是根据该车辆的行驶环境确定的,因此能够避免由于道路交通环境的复杂多变,而造成确定出的行动信息鲁棒性较差的问题。
38.图1是本公开实施例的应用场景示意图,本公开涉及的车辆可以包括自动驾驶车辆。自动驾驶车辆又称为无人驾驶汽车、电脑驾驶汽车、或轮式移动机器人,是一种通过电脑系统实现无人驾驶的智能车。该车辆包括智能控制系统110和传感器120。具体地,该传感器120与智能控制系统110相连接,用于向该智能控制系统110发送车辆的行驶环境;该智能控制系统110用于根据车辆的行驶环境,确定车辆的状态信息,并基于该状态信息预测车辆的行动信息;以及利用该行动信息对该车辆进行路径规划和决策,从而控制该车辆尽可能地沿着参考行驶轨迹行驶。其中,该行动信息可以包括车辆的方向盘转向角度和/或车辆的加速度。在一些实施方式中,智能控制系统110可以包括软件系统、硬件系统或者软硬件结合的系统。例如,智能控制系统110可以包括运行在操作系统上的软件系统和支持操作系统运行的硬件系统;传感器120可以包括照相机、激光探测及测距系统(light detectionand ranging,lidar)和雷达,其中,该照相机可以通过千兆多媒体串行链路(gigabit multimediaserial links,gmsl)、低振幅差分信号技术(low voltage differential signaling,lvds)总线的方式与智能控制系统110相连接,lidar通过车载以太网的方式,雷达通过控制器局域网络(controller area network,can)总线的方式与该智能控制系统110相连接。在一些实施方式中,该车辆还可以包括导航系统,用于提供该车辆的参考行驶轨迹。
39.本公开实施例还提出一种车辆控制方法,图2是根据本公开实施例的自动驾驶车辆控制方法的实现流程图,包括:
40.s210、根据车辆的状态值,确定车辆的目标状态信息;
41.s220、确定多个行动信息中各个行动信息对应的条件概率,条件概率包括在车辆的状态满足目标状态信息的条件下,车辆的行动满足行动信息的概率;
42.s230、利用各个行动信息对应的条件概率,从多个行动信息中确定满足车辆运动学条件的第一目标行动信息;
43.s240、利用第一目标行动信息控制车辆。
44.本公开实施例提出的车辆可以包括自动驾驶车辆。
45.其中,该行动信息可以包括车辆的方向盘转向角度和/或车辆的加速度。
46.本公开实施例能够根据目标状态信息,确定出准确的行动信息,并根据行动信息控制车辆在下一时刻的行动,能够降低自动驾驶车辆实际行驶轨迹和参考行驶轨迹之间的误差,同时能够保障车辆行驶的安全性。
47.图3a是根据本公开实施例的自动驾驶车辆控制方法的整体流程图。如图3a,本公开实施例提出的自动驾驶车辆控制方法,可以包括以下步骤:
48.步骤一、确定贝叶斯网络模型的节点变量:确定对车辆控制影响较大的因素,并将
该因素确定为贝叶斯网络模型的节点变量。
49.步骤二、确定样本数据集:车辆根据强化学习策略与环境交互,并根据交互结果建立样本数据集,该样本数据集可以用于对贝叶斯网络模型的各个节点对应的概率进行估计。
50.步骤三、贝叶斯网络模型的估计:利用贝叶斯网络模型的节点变量,建立贝叶斯网络模型,并利用样本数据集估计该贝叶斯网络模型中各个节点所对应的概率。
51.步骤四、车辆控制:根据贝叶斯网络模型中各个节点对应的概率对车辆的后续行驶进行控制。
52.本公开实施例的后续内容将依次对以上四个步骤进行详细的说明:
53.步骤一、确定贝叶斯网络模型的节点变量。
54.贝叶斯网络模型是包含节点和边界的定向非循环图(directed acyclic graph,dag)。在一些实施方式中,贝叶斯网络模型中的节点可以表示随机变量,该随机变量可以包括离散值和/或连续值。贝叶斯网络中的边界可以表示各个节点(即变量)之间的依存关系。具体地,在贝叶斯网络模型中,没有父节点的节点是根节点。根节点的概率分布不受贝叶斯网络中任意其他节点的限制;具有一个或多个父节点的非根节点对应的概率受其父节点概率的影响。
55.由于贝叶斯网络模型可以通过指定根节点的概率和非根节点的概率,表示各个节点所对应的变量的概率,因此本公开实施例可以采用贝叶斯网络模型,计算对车辆影响较大的各个变量所对应的概率,该概率可以用于表示各个根节点所对应的变量的发生概率,或者,在各个非根节点所对应的变量满足其对应的根节点的条件下,各个非根节点所对应的变量的发生概率。
56.在一些实施方式中,本公开实施例首先需要确定对车辆控制影响较大的因素,并根据该因素建立符合车辆实际运行情况的贝叶斯网络模型,该贝叶斯网络模型如图3b所示。
57.其中,该对车辆控制影响较大的因素可以包括两个:行动信息和状态信息。
58.具体地,该行动信息可以包括车辆的方向盘转向角度(如图3b中的δ)和/或车辆的加速度(如图3b中的ω)。
59.该方向盘转向角度的单位可以包括度(
°
);该车辆的加速度的单位可以包括米/每二次方秒(m/s2)。
60.本公开实施例提出的行动信息能够对车辆的实际行驶轨迹控制,该行动信息能够避免车辆因为车辆方向盘转向角度过大或者车辆加速度过大而产生的碰撞事故。
61.该状态信息可以包括以下至少之一:
62.车辆的行驶速度(如图3b中的v);
63.车辆前方道路的曲率(如图3b中的ρ);
64.车辆参考行驶轨迹上的预瞄点与该车辆实际行驶轨迹的航向角偏差(如图3b中的θ)。
65.其中,车辆的行驶速度可以采用v表示,单位包括米/秒(m/s);车辆前方道路的曲率可以采用ρ表示,单位包括米的负一次方(m-1
);车辆参考行驶轨迹上的预瞄点与该车辆实际行驶轨迹的航向角偏差可以采用θ表示,单位包括度(
°
)。此外,该预瞄点表示车辆与参考
行驶轨迹距离为ld的点,其中,ld被称为预瞄距离。
66.本公开实施例提出的状态信息能够通过车辆行驶过程中的多角度信息,直观地反映出车辆当前的行驶状况,从而实现了车辆行驶状态的可视化,保障了确定出的车辆的行动信息的准确度。
67.由于车辆的行动信息可以用于主动控制车辆的行驶,车辆的状态信息可以在行动信息的影响下,对车辆的行驶产生影响。因此,如图3b所示,本公开实施例可以将该行动信息作为根节点,也就是该行动信息的概率分布不受贝叶斯网络中任意其他节点(即变量)的限制;将该状态信息作为非根节点,也就该状态信息的概率分布受贝叶斯网络中任意其他节点(即变量)的限制。
68.步骤二、确定样本数据集。
69.为了能够对上述已构建的贝叶斯网络模型中的各个节点对应的概率进行估计,本公开还需要收集车辆与环境的交互结果,并根据该交互结果建立样本数据集。该样本数据集可以用于对贝叶斯网络模型中的各个节点所对应的概率进行估计。
70.因此,本公开实施例提出了一种确定样本数据集的方式。具体地,如图3c所示,可以根据该车辆在连续多个时间序列的行驶数据,确定该样本数据集。
71.其中,该确定样本数据集的方式,包括:
72.针对连续多个时间序列中的各个时间序列,依次执行以下步骤:
73.根据该车辆在时间序列的行驶数据,计算多个状态信息对应的状态值;
74.在车辆在目标时刻的状态满足任一状态信息的情况下,根据任一状态信息的状态值,计算多个行动信息中各个行动信息的收益值,利用各个行动信息的收益值,从多个行动信息中确定满足车辆运动学条件的第二目标行动信息;该时间序列包括该目标时刻之前的多个时刻;
75.在该目标时刻,利用该第二目标行动信息对该车辆进行控制,并收集该车辆在该时间序列的下一时间序列的行驶数据。
76.其中,任一行动信息的收益值可以用于表示车辆在该行动信息下,对后续样本数据收集过程中产生的影响。一般情况下,如果该收益值越高,那么车辆在该行动信息下,后续收集到的样本数据越符合预期;反之,如果该收益值越低,那么车辆在该行动信息下,后续收集到的样本数据越偏离预期。
77.举例说明,该时间序列可以包括(t-l,t)时间段内的多个时刻,如包括时刻t-l、t-l+1、t-l+2、

、t-1;该下一时间序列可以包括(t,t+h)时间段内的多个时刻,如包括时刻t、t+1、

、t+h-1。
78.根据目标时刻对应的第二目标行动信息,对车辆进行控制,并收集车辆在下一时间序列的行驶数据,能够使得收集到的样本数据集更加准确,有利于后续确定第一目标行动信息。
79.此外,为了能够确保收益值最大的行动信息的合理性,还需要确定该收益值最大的行动信息是否满足车辆运动学条件。即,采用式(1)确定收益最大的行动信息是否满足车辆运动学条件:
[0080][0081]
其中,表示车辆横向位置的导数;表示车辆纵向位置的导数;表示车辆加速度的导数;l表示车辆的轴距。
[0082]
具体的,如果该收益值最大的行动信息满足车辆运动学条件,则其为第二目标行动信息。仍以如图3c所示,如果该收益值最大的行动信息不满足车辆运动学条件,则本公开实施例提出的利用各个行动信息的收益值,从多个行动信息中确定满足车辆运动学条件的第二目标行动信息,还包括:
[0083]
在收益值最大的行动信息不满足车辆运动学条件的情况下,从多个行动信息中排除该收益值最大的行动信息,以得到剩余的行动信息;
[0084]
从该剩余的行动信息中确定收益值最大的行动信息;
[0085]
针对确定的收益值最大的行动信息,返回执行在收益值最大的行动信息满足车辆运动学条件的情况下,确定该第二目标行动信息的过程。
[0086]
本公开不仅能够确定车辆的收益值最大的行动信息,还能够利用车辆运动学条件对收益值最大的行动信息进行二次筛选,从而使得车辆在满足安全性、舒适性和车辆自身属性的情况下,能够按照最优的行动信息进行行驶。
[0087]
在本公开实施例中,上述各个时刻的行驶数据可以包括行动信息、状态信息和回报值。其中,该任一时刻的回报值可以用于控制车辆在下一时刻的行动信息。
[0088]
在一些实施方式中,本公开实施例提出的回报值可以与以下至少之一相关:
[0089]
车辆的实际行驶轨迹与参考行驶轨迹之间的误差;其中,该误差与该车辆的状态信息相关;
[0090]
车辆与前方车辆之间的最小距离;
[0091]
车辆与后方车辆之间的最小距离;
[0092]
车辆当前行驶车道的限速;
[0093]
车辆当前行驶车道的车流速度。
[0094]
即,可以采用式(2-1)计算回报值:
[0095]
r=wdrd+w
srs
+w
vrv
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(2-1)
[0096]
其中,r用于表示回报值;rd用于表示车辆实际行驶轨迹与参考行驶轨迹距离之间的距离,wd用于表示rd对应的权重;rs用于表示车辆实际行驶的安全性,ws用于表示rs对应的权重;rv用于表示车辆实际行驶的通行效率;wv用于rv表示对应的权重。
[0097]
需要说明的是,rd与回报值呈负相关关系,例如,rd越大,回报值越小;rd越小,回报值越大。
[0098]
此外,本公开实施例提出的rs与回报值正相关关系,例如,rs越大,回报值越大;rs越小,回报值越小,具体地,可以采用式(2-2)计算rs:
[0099]rs
=min(min(tf,tb)/th,1)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(2-2)
[0100]
其中,tf为当前车辆与前方车辆之间的最小距离,tb为该车辆与后方最近车辆之间最小距离,th=5s为车头时距阈值;min(a,b)用于表示选取a和b中较小的数据。
[0101]
进一步地,本公开实施例提出的rv与回报值呈正相关关系。例如,rv越大,回报值越大;rv越小,回报值越小,具体地,可以采用式(2-3)计算rv:
[0102]rv
=(v
s-vf)/(v
l-vf)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(2-3)
[0103]
其中,vs为该车辆的行驶速度,v
l
为车辆当前行驶车道的限速,vf为车辆当前行驶车道的车流速度。
[0104]
本公开实施例提出的获取回报值的方式,综合考虑车辆行驶过程中的多维度信息,不仅能够确定车辆行驶的安全性,还能够保障车辆的通行效率,有利于提高后续确定出的第一目标信息的准确率。
[0105]
基于上述内容,本公开实施例在确定样本数据集的过程中,在该车辆在目标时刻的状态满足任一状态信息的情况下,不可避免地需要计算多个行动信息中收益值最大的行动信息,以达到对后续时间序列中的行动信息进行更新的目的。
[0106]
因此,在一些实施方式中,本公开实施例可以采用式(3)从多个行动信息中,确定该收益值最大行动信息:
[0107]
π(s)=argmaxa∑
s',r
p(s',r|s,a)[r+γq(s')]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(3)
[0108]
其中,a用于表示目标时刻所对应的行动信息;r用于表示目标时刻的下一时刻所对应的回报值;s用于表示目标时刻所对应的状态信息;s'用于表示目标时刻的下一时刻所对应的状态信息;p(s',r|s,a)用于表示在目标时刻的状态信息为s、以及动作信息为a的情况下,目标时刻的下一时刻状态信息为s'且回报值为r的概率;q(s')表示在目标时刻的下一时刻所对应的状态信息为s'的条件下,目标时刻的下一时刻所对应的状态值;∑
s',r
p(s',r|s,a)[r+γq(s')]表示在目标时刻的状态信息为s,行动信息a,以及目标时刻的下一时刻状态为s'且回报值为r的条件下,目标时刻所对应的收益值;γ表示衰减系数,且γ∈(0,1)。
[0109]
相比于传统的确定车辆行动信息的方式,采用收益值确定行动信息的方式,能够综合考虑车辆当前的状态、行动和回报,使得车辆在后续的行驶过程中,能够按照收益值最大的行动来行驶。
[0110]
在一些实施方式中,由于根据式(3)可以得知,在车辆的状态满足任一状态信息的前提下,确定该收益值最大的行动信息时,不可避免地需要利用到任一状态信息对应的状态值。
[0111]
因此,本公开实施例还提出了一种能够计算任一状态信息的状态值的方法。该方法具体包括:
[0112]
根据车辆在第一时间序列的行驶数据,获取任一状态信息、以及任一状态信息对应的多个回报值;
[0113]
根据任一状态信息、任一状态信息对应的多个回报值、以及衰减系数,确定任一状态信息的状态值。
[0114]
即,可以采用式(4)得到任一状态信息对应的单次状态值。
[0115][0116]
其中,表示状态信息s对应的单次状态值;ri表示在状态信息s发生后的第i个时刻的回报值;γ表示衰减系数,且γ∈(0,1)。需要说明的是,一般情况下,由于车辆在当
前时刻的状态信息会对车辆的实际行驶过程造成更大的影响,因此在状态信息s发生后t时刻对应的回报值比t+1时刻对应的回报值更重要,也正因如此,衰减系数γ的指数随着时间的增加在不断地变大,例如,如果t时刻衰减系数为1,那么t+1时刻的衰减系数可以增加1,即t+1时刻的衰减率指数系数可以为2。当然,以上对衰减系数的说明仅为举例,本公开并不限制衰减系数的具体变化程度。
[0117]
需要说明的是,该仅能表示状态信息s对应的单次状态值,但是如果仅采用任一状态信息对应的单次状态值,作为该状态信息的状态值会造成该状态信息对应的状态值准确度不够高的问题。
[0118]
因此,为了提高状态值的准确度,本公开还提出了一种确定状态值的方式,具体包括:根据任一状态信息在样本数据集中发生的次数,以及该任一状态信息对应的多个单次状态值(即)确定该任一状态信息的状态值。例如,可以将多个的平均值,确定为该任一状态信息的状态值。
[0119]
即,可以采用式(5)得到任一状态信息对应的状态值:
[0120][0121]
其中,q(s)表示状态信息s所对应的状态值;n(s)表示状态信息s出现的次数;q(s)
n(s)-1
表示前n(s)-1次状态s对应的状态值的平均值;表示状态信息s在第n(s)次的状态值,该n(s)的初始值为0。
[0122]
由于本公开实施例提出的状态信息对应的状态值是根据状态信息s对应的多个状态值确定的,因此能够降低单次状态值的误差,提高得到的状态值的准确度。
[0123]
由于车辆在行驶的过程中,无法精确地对各个离散的行动信息进行收集,因此为了便于样本数据的收集,样本数据集中可以包括取值为连续值的行动信息。
[0124]
因此,该第二目标行动信息为连续值;可见,在目标时刻,利用该第二目标行动信息对该车辆进行控制,包括:
[0125]
确定车辆在第二历史时刻的第二历史行动信息和该第二目标行动信息中多个离散的行动信息;该第二历史行动信息为离散值;
[0126]
根据该第二目标行动信息中各个离散的行动信息和该第二历史行动信息之间的行动变化量,确定第二最优行动信息;该第二历史时刻在该目标时刻之前;
[0127]
利用该第二最优行动信息控制该车辆。
[0128]
即,采用式(6)确定第二最优行动信息:
[0129]
min j=δω+δδ
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(6)
[0130]
其中,δω表示车辆加速度变化量,即第二目标行动信息中各个离散的行动信息和该第二历史行动信息之间的加速度变化量;δδ车辆方向盘转角变化量,即第二目标行动信息中各个离散的行动信息和该第二历史行动信息之间的方向盘转角变化量。
[0131]
通过行动信息(即车辆加速度和车辆方向盘转角)的变化量,确定第二最优行动信息的方式,能够在保障车辆行驶安全性和舒适性的前提下,降低车辆实际行驶轨迹与参考行驶轨迹的误差。
[0132]
之后,本公开实施例还可以利用该第二最优信息控制该车辆,并收集车辆在下一时刻的行驶数据。
[0133]
需要说明的是,本公开实施例提出的样本数据集可以包括车辆在连续多个时间序列的行驶数据。例如,如表1所示,本公开实施例提出的样本数据集可以包括连续2个时间序列中的行驶数据。需要说明的是,样本数据集包含连续2个时间序列中的行驶数据仅为举例,本公开对样本数据集具体包含的连续时间序列并不做具体限制,例如,样本数据集还可以包括连续5个时间序列中的行驶数据。
[0134]
表1样本数据集
[0135]
时间序列行驶数据(t-l,t)s
t-l
,a
t-l
,r
t-l
……st-1
,a
t-1
,r
t
,s
t
,a
t
,r
t+1
(t,t+h)s
t
,a
t
,r
t+1
……st+h-1
,a
t+h-1
,r
t+h
,s
t+h
,a
t+h
,r
t+h+1
[0136]
步骤三、贝叶斯网络模型的估计。
[0137]
在本公开实施例中,可以利用贝叶斯网络模型的节点变量,建立贝叶斯网络模型,并利用样本数据集估计该贝叶斯网络模型中各个节点的概率,从而达到对车辆后续的行驶进行控制的目标。
[0138]
在本公开实施例中,贝叶斯网络模型估计的概率可以包括:
[0139]
目标状态信息对应的状态转移概率、任一行动信息对应的第一概率、以及该目标状态信息对应的第二概率。
[0140]
以下将对获取目标状态信息对应的状态转移概率、任一行动信息对应的第一概率、以及该目标状态信息对应的第二概率分别进行介绍。
[0141]
(一)任一行动信息对应的第一概率和该目标状态信息对应的第二概率。
[0142]
在一些实施方式中,本公开实施例可以根据预先获取的样本数据集,确定任一行动信息对应的第一概率和该目标状态信息对应的第二概率。具体包括:
[0143]
获取样本数据集;该样本数据集包括所该车辆在至少2个时刻的行驶数据,该行驶数据包括状态信息、行动信息和回报值;该样本数据集中的状态信息包括该目标状态信息;
[0144]
计算任一行动信息在该样本数据集中所占的第一比重,以得到任一行动信息对应的第一概率;以及,计算该目标状态信息在该样本数据集中所占的第二比重,以得到该目标状态信息对应的第二概率。
[0145]
其中,该回报值能够用于反映车辆发生碰撞事故的可能性,一般情况下,如果该车辆对应的回报值比较高,则表示车辆更不容易发生碰撞事故。
[0146]
通过结合车辆与行驶环境交互的实际数据,确定任一行动信息对应的第一概率和该目标状态信息对应的第二概率对目标的目标车辆,可以有效地提高确定出的第二目标信息的准确性。
[0147]
(二)获取目标状态信息对应的状态转移概率。
[0148]
具体地,该获取目标状态信息对应的状态转移概率,包括:
[0149]
在样本数据集中,根据任一行动信息对应的总数量和目标数量,计算该目标状态信息对应的状态转移概率;
[0150]
其中,该目标数量包括在样本数据集中,该行动信息对应的状态信息为该目标状态信息的条件下,任一行动信息对应的数量。
[0151]
一示例中,该目标状态信息对应的状态转移概率可以根据贝叶斯网络对应的参数确定。因此,可以采用式(7)计算贝叶斯网络中的任一状态信息对应的状态转移概率:
[0152]
p(θi,ρi,vi|δi,ωi)=p(θi|δi,ωi)
×
p(ρi|δi,ωi)
×
p(vi|δi,ωi)
ꢀꢀꢀꢀꢀꢀ
式(7)
[0153]
其中,(θi,ρi,vi)表示任一状态信息;(δi,ωi)表示任一行动信息;p(θi,ρi,vi|δi,ωi)表示在车辆的行动满足行动信息(δi,ωi)的情况下,任一状态信息(θi,ρi,vi)所对应的状态转移概率;p(vi|δi,ωi)表示在车辆的行动满足行动信息(δi,ωi)的情况下,车辆的速度满足任一状态信息(即vi)的概率;p(ρi|δi,ωi)表示在车辆的行动满足行动信息(δi,ωi)的情况下,车辆前方道路的曲率满足任一状态信息(即ρi)的转移概率;p(θi|δi,ωi)表示在车辆的行动满足行动信息(δi,ωi)的情况下,车辆在参考轨迹上的预瞄点与当前车辆的航向角偏差满足任一状态信息(即θi)的转移概率。
[0154]
在一些实施方式中,式(7)中p(θi|δi,ωi)、p(ρi|δi,ωi)和p(vi|δi,ωi)可以采用似然函数计算得到。具体计算流程如下:
[0155]
首先,车辆在任一时刻的行动满足行动信息(δi,ωi)的情况下,车辆在该时刻满足任一车速(即v)的概率,可以采用式(8)计算得到:
[0156][0157]
其中,m[vi,δi,ωi]可以用于表示在样本数据集中,车辆的行动满足行动信息(δi,ωi)、以及车辆状态满足状态信息vi的样本数量,该vi可以包括车辆任一状态信息(即vi可以包括vo和vm中的任意一个)。
[0158]
接着,可以通过最大化似然函数(即最大化式(8)),得到在车辆的行动满足任一行动信息(δi,ωi)情况下,车辆的状态满足任一状态信息(即车辆的速度满足vi)的概率。即,可以采用式(9)计算得到:
[0159][0160]
其中,m[δi,ωi]为在样本数据集中,车辆的行动信息满足(δi,ωi)的情况下的样本数量。
[0161]
因此,为了能够确定车辆的转移概率,本公开实施例还需要预先计算样本数据集中,车辆的状态满足任一状态信息和/或车辆的行动满足任一行动信息的样本数量。
[0162]
以下以m[vi,δi,ωi]为例,对如何计算样本数据集中,车辆的状态满足任一状态信息和/或车辆的行动满足任一行动信息的样本数量进行介绍。
[0163]
方式一、直接统计法
[0164]
具体地,直接统计法可以直接统计样本数据集中在车辆的状态满足状态信息vi的情况下,车辆的行动满足行动信息(δi,ωi)(即车辆的状态信息和行动信息为(vi,δi,ωi))的样本数量,并根据将该样本数量确定m[vi,δi,ωi]。
[0165]
但是采用直接统计法不仅需要较大的计算量,而且可能会遗漏部分样本数据。因此,在这种情况下,本公开实施例还提出以一种确定m[vi,δi,ωi]的方式,即概率计算法。
[0166]
方式二、概率计算法
[0167]
具体地,可以采分别计算样本数据集中vi、δ和ω的出现概率,并利用该概率计算m[vi,δi,ωi]。
[0168]
需要说明的是,本公开实施例提出的状态信息和行动信息的取值可以为连续值,因此为了简化计算,便于计算车辆的状态满足任一状态信息和/或车辆的行动满足任一行动信息对应的概率值,可以将各个变量的取值进行离散化处理,即每个变量对应的概率值可为所其处区间的统计量除以样本数据集总数而得到的概率值。
[0169]
如表2所示,以车辆的行动信息δ为例,如果在样本数据集中δ的取值范围为[-900,+900],那么可以根据该取值范围对δ进行分段处理,具体可以将其分为[-900,-800),[-800,-700),
……
,[700,800),[800,900]。之后,可以根据样本数据集中,确定车辆的行动分别满足上述各个区间内行动信息(即δ)的个数(即车辆的行动信息δ分别为上述各个区间的个数),并计算车辆的行动分别满足上述各个区间内行动信息的概率(即车辆的行动信息δ分别为上述各个区间的概率)。
[0170]
举例说明,以共有10000个样本数据为例,如果车辆的行动信息δ的取值在[-900,-800)之间的样本数量为1000个,则其对应的概率值为车辆的行动信息δ的取值在[-800,-700)之间的样本数量为500个,则其对应的概率值为车辆的行动信息δ的取值在[700,800)之间的样本数量为400个,则其对应的概率值为车辆的行动信息δ的取值在[800,900)之间的样本数量为500个,则其对应的概率值为
[0171]
对于车辆的行动信息δ在各个区间对应的样本数量的概率值,可以根据其取值范围将其映射到如表2所示的对应区间的概率值。
[0172]
表2
[0173][0174]
如表2所示,如果此时δ的取值为705,那么则此时δ对应的概括为
[0175]
在一些实施方式中,可以分别采用以上方式计算vi、δi和ωi的概率,并通过该vi、δi和ωi的概率计算得到m[vi,δi,ωi]。
[0176]
本公开实施例采用贝叶斯网络的参数计算目标状态信息对应的状态转移概率的方式,不仅能够降低确定状态转移概率所需的计算量,而且能够提高计算出的状态转移概率的准确度。
[0177]
具体地,可以基于上述方法计算得到vi、δi和ωi各自对应的概率,并将vi、δi和ωi各自对应的概率相乘,以得到车辆的状态信息和行动信息满足(vi,δi,ωi)的情况下所对应的概率;接着,可以将车辆的状态信息和行动信息满足(vi,δi,ωi)的情况下所对应的概率和样本数据集的总数量相乘,以得到的m[vi,δi,ωi],即样本数据集中满足状态信息和行动信息(vi,δi,ωi)的样本数量。
[0178]
步骤四、车辆控制。
[0179]
在一些实施方式中,本公开实施例提出的状态信息会对车辆的实际行驶轨迹造成
不可避免的影响。例如,如果该车辆的状态信息与车辆的实际行驶状况不匹配,则有可能会导致车辆与其他障碍物产生碰撞事故,或者车辆的实际行驶轨迹完全偏离车辆的参考行驶轨迹;或者,状态信息中车辆参考行驶轨迹上的预瞄点与该车辆实际行驶轨迹的航向角偏差过大,则会造成车辆实际行驶轨迹和参考行驶轨迹误差过大;再或者,如果目标状态信息中该车辆的行驶速度过大,会对车辆行驶的安全性造成影响。
[0180]
正因如此,本公开实施例提出了状态值。在一些实施方法中,任一状态信息所对应的状态值可以用于表示车辆在该状态信息下的行驶安全性、与参考行驶轨迹之间的误差以及该车辆的行驶效率。具体地,可以通过状态信息对应的状态值,确定该状态信息对车辆实际行驶轨迹的影响,例如,如果车辆状态信息对应的状态值越大,则该车辆在该状态信息下的行驶安全性越高、与参考行驶估计之间的误差越小以及行驶效率越高。
[0181]
因此,为了能够保障车辆获取合适的状态信息(即目标状态信息),以达到尽可能减小车辆实际行驶轨迹与参考行驶轨迹之间的误差、以及车辆安全行驶的目标,本公开实施还提出了根据车辆的状态值,确定该车辆的目标状态信息,即将车辆的最大状态值对应的状态信息确定为车辆的目标状态信息。
[0182]
具体地,根据车辆的状态值,确定该车辆的目标状态信息的方法,该方法具体包括:
[0183]
根据车辆的行驶环境,确定该车辆对应的多个状态值;
[0184]
从该车辆对应的多个状态值中,选取最大状态值;
[0185]
确定该最大状态值对应的状态信息,并将该最大状态值对应的状态信息确定为该车辆的目标状态信息。
[0186]
即,采用式(10)确定该车辆的目标状态信息:
[0187]
q(s)
max
=q(θ,ρ,v)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
式(10)
[0188]
其中,q(s)用于表示车辆的状态值;q(s)
max
用于表示车辆的最大状态值;(θ,ρ,v)用于表示车辆的目标状态信息。
[0189]
此外,该车辆的行驶环境可以包括车辆行驶道路的路面状况、交通设施、障碍物、行人和障碍车辆。
[0190]
在一些实施方式中,可以将确定出的多个状态值按照预定顺序进行排序,以得到状态值序列;并根据该状态值序列,从该车辆对应的多个状态值中,选取最大状态值。
[0191]
其中,该预定顺序可以是从大到小、或从小到大的顺序,也就是说可以采用从大到小、或从小到大的顺序对多个状态值进行排序,以得到状态值序列。当然本公开对预定顺序并不做限制,以上仅为举例。
[0192]
通过车辆对应的最大状态值,确定车辆状态信息的方法,能够探索出车辆对应的极限状态信息,确保了车辆可以准确地与多变的行驶环境进行交互,保障了车辆的行驶安全性。
[0193]
当然,在确定了车辆对应的目标状态信息之后,还需要根据该目标状态信息确定多个信息中各个行动信息的条件概率,从而得到最适宜车辆实际行驶状况的行动信息。需要说明的是,该条件概率包括在车辆的状态满足目标状态信息的条件下,该车辆的行动满足该行动信息的概率。
[0194]
具体地,确定任一行动信息对应的条件概率,包括:
[0195]
根据目标状态信息对应的状态转移概率、任一行动信息对应的第一概率、以及该目标状态信息对应的第二概率,确定任一行动信息对应的条件概率;
[0196]
其中,该目标状态信息对应的状态转移概率用于表征在该车辆的行动满足任一行动信息的条件下,该车辆的状态满足该目标状态信息的概率;
[0197]
任一行动信息对应的第一概率用于表征该车辆的行动满足任一行动信息的概率;
[0198]
该目标状态信息对应的第二概率用于表征该车辆的状态满足该目标状态信息的概率。
[0199]
即,采用式(11)确定任一行动信息对应的条件概率:
[0200][0201]
其中,(θ0,ρ0,v0)用于表示车辆的目标状态信息,(δi,ωi)用于表示任一行动信息;p(θ0,ρ0,v0|δi,ωi)用于表示该目标状态信息对应的状态转移概率;p(θ0,ρ0,v0)用于表示该目标状态信息对应的第二概率;p(δi,ωi)用于表示任一行动信息对应的条件概率。其中,该任一行动信息对应的第一概率、目标状态信息对应的第二概率和目标状态信息对应的状态转移概率可以通过步骤三中,贝叶斯网络模型估计的过程中确定。
[0202]
本公开实施例提出的任一行动信息对应的条件概率,能够用于预测在该目前状态信息的条件下,各个行动信息的发生概率(即任一行动信息对应的第一概率),并根据各个行动信息对应的发生概率适应性的快速对车辆进行控制,从而保证了车辆实际行驶过程中的稳定性和流畅性。
[0203]
在确定多个行动信息中各个行动信息对应的条件概率之后,还需要在保证车辆正常行驶的前提下,确定最合适车辆的行动信息。
[0204]
因此,如图3d所示,本公开实施例还提出了利用各个行动信息对应的条件概率,从多个行动信息中确定满足车辆运动学条件的第一目标行动信息,具体包括:
[0205]
从多个行动信息中,确定条件概率最大的行动信息;
[0206]
在该条件概率最大的行动信息满足车辆运动学条件的情况下,确定第一目标行动信息,该第一目标行动信息为该条件概率最大的行动信息。
[0207]
本公开实施例能够实时确定满足车辆运动学条件的第一目标行动信息,该确定第一目标行动信息的方法能够使得车辆在实际的行驶场景中针对不同的情况和趋向性来做出调整,具有较高的自适应能力,实现车辆行驶过程中针对不确定的行驶环境进行实时的控制。
[0208]
为了能够确保条件概率最大的行动信息的合理性,还需要在该条件概率最大的行动信息不满足车辆运动学条件时,重新确定第一目标行动信息。
[0209]
具体的,仍如图3d所示,如果该条件概率最大的行动信息不满足车辆运动学条件,则本公开实施例提出的利用各个行动信息对应的条件概率,从多个行动信息中确定满足车辆运动学条件的第一目标行动信息,还包括:
[0210]
在条件概率最大的行动信息不满足车辆运动学条件的情况下,从多个行动信息中排除该条件概率最大行动信息,以得到剩余的行动信息;
[0211]
从剩余的行动信息中确定该条件概率最大的行动信息;
[0212]
针对确定的条件概率最大的行动信息,返回执行在条件概率最大的行动信息满足车辆运动学条件的情况下,确定该第一目标行动信息的过程。
[0213]
举例说明,以行动信息包括(δ0,ω0)至(δ9,ω9),共10个行动信息为例,则该10个行动信息,在目标状态信息为(θ0,ρ0,v0)的情况下,对应的条件概率分别为p(δ0,ω0|θ0,ρ0,v0)至p(δ9,ω9|θ0,ρ0,v0)。此时对该10个条件概率进行排序,此时,如果行动信息(δ0,ω0)对应的条件概率(即p(δ0,ω0|θ0,ρ0,v0))最大,那么对该行动信息(δ0,ω0)进行判断,如果该行动信息(δ0,ω0)满足车辆运动学条件,则将该行动信息(δ0,ω0)作为第一目标行动信息;反之,如果该行动信息(δ0,ω0)不满足车辆运动学条件,则从剩余的行动信息即(δ1,ω1)至(δ9,ω9),共9个行动信息中,选择条件概率最大的行动信息。
[0214]
本公开实施例通过车辆运动学条件对车辆的第一目标行动信息进行二次筛选,保障了车辆能够在满足安全性、舒适性和车辆自身属性的前提下,按照最优的行动信息行驶。
[0215]
本公开实施例在进行样本数据收集的过程中,由于无法精确地对各个离散的行动信息和状态信息进行收集,因此样本数据集中可以包括取值为连续值的行动信息。由于本公开实施例可以以样本数据集为基础,对任一行动信息对应的条件概率进行计算,并获取第一目标行动信息,因此本公开实施例提出的第一目标行动信息为连续值;
[0216]
也正因如此,该利用第一目标行动信息控制该车辆,包括:
[0217]
确定车辆在第一历史时刻的第一历史行动信息和第一目标行动信息中多个离散的行动信息;该第一历史行动信息为离散值;
[0218]
根据第一目标行动信息中各个离散的行动信息和第一历史行动信息之间的行动变化量,确定第一最优行动信息;
[0219]
利用该第一最优行动信息控制该车辆。
[0220]
通过行动信息(即车辆加速度和车辆方向盘转角)的变化量,确定第一最优行动信息的方式,能够在保障车辆行驶安全性和舒适性的前提下,降低车辆实际行驶轨迹与参考行驶轨迹的误差。
[0221]
本公开实施例还提出一种自动驾驶车辆控制装置,图4是根据本公开一实施例的自动驾驶车辆控制装置400的结构示意图,包括:
[0222]
第一确定模块410,用于根据车辆的状态值,确定车辆的目标状态信息;
[0223]
第二确定模块420,用于确定多个行动信息中各个行动信息对应的条件概率,条件概率包括在车辆的状态满足目标状态信息的条件下,车辆的行动满足行动信息的概率;
[0224]
第三确定模块430,用于利用各个行动信息对应的条件概率,从多个行动信息中确定满足车辆运动学条件的第一目标行动信息;
[0225]
控制模块440,用于利用第一目标行动信息控制车辆。
[0226]
在一些实施方式中,该第三确定模块430,用于:
[0227]
从多个行动信息中,确定该条件概率最大的行动信息;
[0228]
在该条件概率最大的行动信息满足该车辆运动学条件的情况下,确定第一目标行动信息,该第一目标行动信息为该条件概率最大的行动信息。
[0229]
在一些实施方式中,该第三确定模块430,还用于:
[0230]
在该条件概率最大的行动信息不满足该车辆运动学条件的情况下,从多个行动信息中排除该条件概率最大行动信息,以得到剩余的行动信息;
[0231]
从该剩余的行动信息中确定该条件概率最大的行动信息;
[0232]
针对确定的条件概率最大的行动信息,返回执行在该条件概率最大的行动信息满足该车辆运动学条件的情况下,确定该第一目标行动信息的过程。
[0233]
在一些实施方式中,该第一确定模块410,用于:
[0234]
根据该车辆的行驶环境,确定该车辆对应的多个状态值;
[0235]
从该车辆对应的多个状态值中,选取最大状态值;
[0236]
确定该最大状态值对应的状态信息,并将该最大状态值对应的状态信息确定为该车辆的目标状态信息。
[0237]
在一些实施方式中,第二确定模块420,用于:
[0238]
根据该目标状态信息对应的状态转移概率、任一行动信息对应的第一概率、以及该目标状态信息对应的第二概率,确定该任一行动信息对应的条件概率;
[0239]
其中,该目标状态信息对应的状态转移概率用于表征在该车辆的行动满足任一行动信息的条件下,该车辆的状态满足该目标状态信息的概率;
[0240]
该任一行动信息对应的第一概率用于表征该车辆的行动满足任一行动信息的概率;
[0241]
该目标状态信息对应的第二概率用于表征该车辆的状态满足该目标状态信息的概率。
[0242]
在一些实施方式中,该第一目标行动信息为连续值;
[0243]
该控制模块440,用于:
[0244]
确定该车辆在第一历史时刻的第一历史行动信息和该第一目标行动信息中多个离散的行动信息;该第一历史行动信息为离散值;
[0245]
根据该第一目标行动信息中各个离散的行动信息和该第一历史行动信息之间的行动变化量,确定第一最优行动信息;
[0246]
利用该第一最优行动信息控制该车辆。
[0247]
图5是根据本公开一实施例的自动驾驶车辆控制装置500的结构示意图,如图5所示,在一些实施方式中,还包括:
[0248]
获取模块550,用于获取样本数据集;该样本数据集包括该车辆在至少2个时刻的行驶数据,该行驶数据包括状态信息、行动信息和回报值;该样本数据集中的状态信息包括该目标状态信息;
[0249]
第一计算模块560,用于计算任一行动信息在该样本数据集中所占的第一比重,以得到任一行动信息对应的第一概率;以及,计算该目标状态信息在该样本数据集中所占的第二比重,以得到该目标状态信息对应的第二概率。
[0250]
在一些实施方式中,还包括:
[0251]
第二计算模块570,用于在该样本数据集中,根据任一行动信息对应的总数量和目标数量,计算该目标状态信息对应的状态转移概率;
[0252]
其中,该目标数量包括在该样本数据集中,该行动信息对应的状态信息为该目标状态信息的条件下,任一行动信息对应的数量。
[0253]
在一些实施方式中,还包括:
[0254]
第四确定模块580,用于根据该车辆在连续多个时间序列的行驶数据,确定该样本
数据集;
[0255]
该第四确定模块580,用于针对连续多个时间序列中的各个时间序列,依次执行以下步骤:
[0256]
根据该车辆在该时间序列的行驶数据,计算多个状态信息对应的状态值;
[0257]
在该车辆在目标时刻的状态满足任一状态信息的情况下,根据该任一状态信息的状态值,计算多个行动信息中各个行动信息的收益值,利用各个行动信息的收益值,从多个行动信息中确定满足车辆运动学条件的第二目标行动信息;该时间序列包括该目标时刻之前的多个时刻;
[0258]
在该目标时刻,利用该第二目标行动信息对该车辆进行控制,并收集该车辆在该时间序列的下一时间序列的行驶数据。
[0259]
在一些实施方式中,该第四确定模块580,用于:
[0260]
从多个行动信息中,确定该收益值最大行动信息;
[0261]
在该收益值最大的行动信息满足该车辆运动学条件的情况下,确定该第二目标行动信息,该第二目标行动信息为收益值最大的行动信息。
[0262]
在一些实施方式中,该第四确定模块580,还用于:
[0263]
在该收益值最大的行动信息不满足该车辆运动学条件的情况下,从多个行动信息中排除收益值最大的行动信息,以得到剩余的行动信息;
[0264]
从剩余的行动信息中确定收益值最大的行动信息;
[0265]
针对确定的收益值最大的行动信息,返回执行在该收益值最大的行动信息满足该车辆运动学条件的情况下,确定该第二目标行动信息的过程。
[0266]
在一些实施方式中,第四确定模块580,用于:
[0267]
根据该车辆在第一时间序列的行驶数据,获取任一状态信息、以及任一状态信息对应的多个回报值;
[0268]
根据任一状态信息、该任一状态信息对应的多个回报值、以及衰减系数,确定该任一状态信息的状态值。
[0269]
在一些实施方式中,该第二目标行动信息为连续值;
[0270]
该第四确定模块580,用于:
[0271]
确定该车辆在第二历史时刻的第二历史行动信息和该第二目标行动信息中多个离散的行动信息;该第二历史行动信息为离散值;
[0272]
根据该第二目标行动信息中各个离散的行动信息和该第二历史行动信息之间的行动变化量,确定第二最优行动信息;该第二历史时刻在该目标时刻之前;
[0273]
利用该第二最优行动信息控制该车辆。
[0274]
在一些实施方式中,该回报值与以下至少之一相关:
[0275]
该车辆的实际行驶轨迹与参考行驶轨迹之间的误差;其中,该误差与该车辆的状态信息相关;
[0276]
该车辆与前方车辆之间的最小距离;
[0277]
该车辆与后方车辆之间的最小距离;
[0278]
该车辆当前行驶车道的限速;
[0279]
该车辆当前行驶车道的车流速度。
[0280]
在一些实施方式中,该状态信息包括以下至少之一:
[0281]
该车辆的行驶速度;
[0282]
该车辆前方道路的曲率;
[0283]
该车辆参考行驶轨迹上的预瞄点与该车辆实际行驶轨迹的航向角偏差。在一些实施方式中,该行动信息包括该车辆的方向盘转向角度和/或该车辆的加速度。
[0284]
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
[0285]
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0286]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0287]
根据本公开的实施例,本公开还提供了一种自动驾驶车辆,包括上述电子设备。在实际应用中,可以根据自动驾驶车辆的状态值,确定该自动驾驶车辆的目标状态信息,并根据该目标状态信息,确定用于控制自动驾驶车辆后续行动的第一目标行动信息,从而提高后续自动驾驶车辆行驶过程的舒适性和安全性。
[0288]
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0289]
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(rom)602中的计算机程序或者从存储单元608加载到随机访问存储器(ram)603中的计算机程序,来执行各种适当的动作和处理。在ram 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、rom 602以及ram 603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0290]
设备600中的多个部件连接至i/o接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0291]
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如车辆控制方法。例如,在一些实施例中,车辆控制方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram 603并由计算单元601执行时,可以执行上文描述的车辆控制方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助
于固件)而被配置为执行车辆控制方法。
[0292]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0293]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0294]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0295]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
[0296]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0297]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0298]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0299]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:
1.一种自动驾驶车辆控制方法,包括:根据车辆的状态值,确定所述车辆的目标状态信息;确定多个行动信息中各个行动信息对应的条件概率,所述条件概率包括在所述车辆的状态满足所述目标状态信息的条件下,所述车辆的行动满足所述行动信息的概率;利用所述各个行动信息对应的条件概率,从所述多个行动信息中确定满足车辆运动学条件的第一目标行动信息;利用所述第一目标行动信息控制所述车辆。2.根据权利要求1所述的方法,其中,所述利用所述各个行动信息对应的条件概率,从所述多个行动信息中确定满足车辆运动学条件的第一目标行动信息,包括:从所述多个行动信息中,确定所述条件概率最大的行动信息;在所述条件概率最大的行动信息满足所述车辆运动学条件的情况下,确定所述第一目标行动信息,所述第一目标行动信息为所述条件概率最大的行动信息。3.根据权利要求2所述的方法,其中,所述利用所述各个行动信息对应的条件概率,从所述多个行动信息中确定满足车辆运动学条件的第一目标行动信息,还包括:在所述条件概率最大的行动信息不满足所述车辆运动学条件的情况下,从所述多个行动信息中排除所述条件概率最大行动信息,以得到剩余的行动信息;从所述剩余的行动信息中确定所述条件概率最大的行动信息;针对确定的条件概率最大的行动信息,返回执行所述在所述条件概率最大的行动信息满足所述车辆运动学条件的情况下,确定所述第一目标行动信息的过程。4.根据权利要求1-3中任一所述的方法,其中,所述根据车辆的状态值,确定所述车辆对应的目标状态信息,包括:根据所述车辆的行驶环境,确定所述车辆对应的多个状态值;从所述车辆对应的多个状态值中,选取最大状态值;确定所述最大状态值对应的状态信息,并将所述最大状态值对应的状态信息确定为所述车辆的目标状态信息。5.根据权利要求1-4中任一所述的方法,其中,确定任一所述行动信息对应的条件概率,包括:根据所述目标状态信息对应的状态转移概率、任一行动信息对应的第一概率、以及所述目标状态信息对应的第二概率,确定所述任一行动信息对应的条件概率;其中,所述目标状态信息对应的状态转移概率用于表征在所述车辆的行动满足所述任一行动信息的条件下,所述车辆的状态满足所述目标状态信息的概率;所述任一行动信息对应的第一概率用于表征所述车辆的行动满足所述任一行动信息的概率;所述目标状态信息对应的第二概率用于表征所述车辆的状态满足所述目标状态信息的概率。6.根据权利要求1-5中任一所述的方法,其中,所述第一目标行动信息为连续值;所述利用所述第一目标行动信息控制所述车辆,包括:确定所述车辆在第一历史时刻的第一历史行动信息和所述第一目标行动信息中多个离散的行动信息;所述第一历史行动信息为离散值;
根据所述第一目标行动信息中各个离散的行动信息和所述第一历史行动信息之间的行动变化量,确定第一最优行动信息;利用所述第一最优行动信息控制所述车辆。7.根据权利要求5或6所述的方法,还包括:获取样本数据集;所述样本数据集包括所述车辆在至少2个时刻的行驶数据,所述行驶数据包括状态信息、行动信息和回报值;所述样本数据集中的状态信息包括所述目标状态信息;计算所述任一行动信息在所述样本数据集中所占的第一比重,以得到所述任一行动信息对应的第一概率;以及,计算所述目标状态信息在所述样本数据集中所占的第二比重,以得到所述目标状态信息对应的第二概率。8.根据权利要求7所述的方法,还包括:在所述样本数据集中,根据所述任一行动信息对应的总数量和目标数量,计算所述目标状态信息对应的状态转移概率;其中,所述目标数量包括在所述样本数据集中,所述行动信息对应的状态信息为所述目标状态信息的条件下,所述任一行动信息对应的数量。9.根据权利要求8所述的方法,还包括:根据所述车辆在连续多个时间序列的行驶数据,确定所述样本数据集;所述确定样本数据集的方式,包括,针对所述连续多个时间序列中的各个时间序列,依次执行以下步骤:根据所述车辆在所述时间序列的行驶数据,计算多个状态信息对应的状态值;在所述车辆在目标时刻的状态满足任一状态信息的情况下,根据所述任一状态信息的状态值,计算所述多个行动信息中各个行动信息的收益值,利用所述各个行动信息的收益值,从所述多个行动信息中确定满足车辆运动学条件的第二目标行动信息;所述时间序列包括所述目标时刻之前的多个时刻;在所述目标时刻,利用所述第二目标行动信息对所述车辆进行控制,并收集所述车辆在所述时间序列的下一时间序列的行驶数据。10.根据权利要求9所述的方法,其中,所述利用所述各个行动信息的收益值,从所述多个行动信息中确定满足车辆运动学条件的第二目标行动信息,包括:从所述多个行动信息中,确定所述收益值最大行动信息;在所述收益值最大的行动信息满足所述车辆运动学条件的情况下,确定所述第二目标行动信息,所述第二目标行动信息为所述收益值最大的行动信息。11.根据权利要求10所述的方法,其中,所述利用所述各个行动信息的收益值,从所述多个行动信息中确定满足车辆运动学条件的第二目标行动信息,还包括:在所述收益值最大的行动信息不满足所述车辆运动学条件的情况下,从所述多个行动信息中排除所述收益值最大的行动信息,以得到剩余的行动信息;从所述剩余的行动信息中确定收益值最大的行动信息;针对确定的收益值最大的行动信息,返回执行所述在所述收益值最大的行动信息满足所述车辆运动学条件的情况下,确定所述第二目标行动信息的过程。12.根据权利要求9-11中任一所述的方法,其中,计算任一所述状态信息的状态值,包
括:根据所述车辆在第一时间序列的行驶数据,获取任一状态信息、以及所述任一状态信息对应的多个回报值;根据所述任一状态信息、所述任一状态信息对应的多个回报值、以及衰减系数,确定所述任一状态信息的状态值。13.根据权利要求9-12中任一所述的方法,其中,所述第二目标行动信息为连续值;所述在所述目标时刻,利用所述第二目标行动信息对所述车辆进行控制,包括:确定所述车辆在第二历史时刻的第二历史行动信息和所述第二目标行动信息中多个离散的行动信息;所述第二历史行动信息为离散值;根据所述第二目标行动信息中各个离散的行动信息和所述第二历史行动信息之间的行动变化量,确定第二最优行动信息;所述第二历史时刻在所述目标时刻之前;利用所述第二最优行动信息控制所述车辆。14.根据权利要求7-13中任一所述的方法,其中,所述回报值与以下至少之一相关:所述车辆的实际行驶轨迹与参考行驶轨迹之间的误差;其中,所述误差与所述车辆的状态信息相关;所述车辆与前方车辆之间的最小距离;所述车辆与后方车辆之间的最小距离;所述车辆当前行驶车道的限速;所述车辆当前行驶车道的车流速度。15.根据权利要求1-14中任一所述的方法,其中,所述状态信息包括以下至少之一:所述车辆的行驶速度;所述车辆前方道路的曲率;所述车辆参考行驶轨迹上的预瞄点与所述车辆实际行驶轨迹的航向角偏差。16.根据权利要求1-15中任一所述的方法,其中,所述行动信息包括所述车辆的方向盘转向角度和/或所述车辆的加速度。17.一种自动驾驶车辆控制装置,包括:第一确定模块,用于根据车辆的状态值,确定所述车辆的目标状态信息;第二确定模块,用于确定多个行动信息中各个行动信息对应的条件概率,所述条件概率包括在所述车辆的状态满足所述目标状态信息的条件下,所述车辆的行动满足所述行动信息的概率;第三确定模块,用于利用所述各个行动信息对应的条件概率,从所述多个行动信息中确定满足车辆运动学条件的第一目标行动信息;控制模块,用于利用所述第一目标行动信息控制所述车辆。18.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-16中任一项所述的方法。19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于
使所述计算机执行根据权利要求1-16中任一项所述的方法。20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-16中任一项所述的方法。21.一种自动驾驶车辆,包括如权利要求18所述的电子设备。

技术总结
本公开提供了自动驾驶车辆控制方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及智慧交通、自动驾驶、强化学习等领域。具体实现方案为:根据车辆的状态值,确定车辆的目标状态信息;确定多个行动信息中各个行动信息对应的条件概率,条件概率包括在车辆的状态满足目标状态信息的条件下,车辆的行动满足行动信息的概率;利用各个行动信息对应的条件概率,从多个行动信息中确定满足车辆运动学条件的第一目标行动信息,第一目标行动信息用于控制车辆。本公开能够控制自动驾驶车辆按照最优的行动信息进行行驶。优的行动信息进行行驶。优的行动信息进行行驶。


技术研发人员:王天宇 杨坤
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2023.04.17
技术公布日:2023/7/3
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐