一种基于多智能体强化学习的自动驾驶车辆控制方法
未命名
07-12
阅读:119
评论:0

1.本发明涉及一种自动驾驶车辆的控制方法,具体涉及一种基于多智能体深度强化学习的自动驾驶车辆自主行为控制方法,属于人工智能和自动驾驶技术领域。
背景技术:
2.自动驾驶车辆(avs)是一种集先进的通信、计算机、网络和控制技术于一体,对车辆实现实时、连续控制的智能化系统。自动驾驶系统具备车辆自动唤醒启动和休眠、自动出入停车场、自动清洗、自动行驶、自动停车、自动开关车门、故障自动恢复等多种功能,并具有常规运行、降级运行、运行中断等多种运行模式。自动驾驶技术是车辆“电动化,智能化,网联化”三大技术发展趋势的必然要求和结果。当自动驾驶到达高级阶段后,将极大地解放人类驾驶,特别是长途驾驶对自身精力、体力、经验、智力的严重依赖。
3.近年来,自动驾驶在智能交通、智慧城镇和智慧高速等场景中得到广泛研究和应用。尤其是高速路,因其场景简单,已成为自动驾驶决策与控制领域的研究热点。高速路场景具有高复杂度、高动态等特性,因此,如何实现自动驾驶车辆安全、舒适、高效的在高速路中行驶,成为该领域的研究重点。
4.为了实现完全自主驾驶功能,车辆应制定安全、可控和稳健的驾驶策略,该策略可能涉及对特定驾驶操作(例如加速、减速和转向)的低水平控制,或更高水平的战略决策(例如变道、超车和转弯)。考虑自动驾驶车辆(avs)的终极目标是在未来完全取代人类驾驶汽车在高速中行驶,如何使所有avs融入当前人类驾驶所在的交通生态,并将avs的驾驶效率、驾驶风险降到最小化,是自动驾驶领域最值得探索的问题。由于乘客的驾驶特性(礼貌、粗鲁、平和)和目的地的不同导致对avs有不同的需求,因此,avs如何自适应的为不同乘客提供个性化需求是另一个值得探索的问题。
5.目前,多智能体深度强化学习方法主要分为四种:
6.1.对涌现行为的分析方法,即在多智能体场景中评估单智能体drl算法;
7.2.通信学习方法,即智能体学习通信协议以解决合作任务;
8.3.合作学习方法,即智能体只是用行动和(局部)观察来学习合作;
9.4.智能体建模智能体,即对对手智能体进行建模推断来完成任务。
10.然而,上述方法主要应用于如atari游戏、社会困境、3d竞技游戏等场景中。在自动驾驶领域中,大多是直接套用其中的某一种方法,没有根据实际自动驾驶应用场景进行深入分析和应用。
技术实现要素:
11.本发明的目的是为了解决如何使自动驾驶车辆(简称avs)融入当前交通体系,实现更安全、更舒适、更高效的行驶控制,以及如何自适应的为不同乘客提供个性化需求,实现更加智能的自动驾驶控制等技术问题,创造性地提出一种基于多智能体强化学习的自动驾驶车辆控制方法。
12.本发明的创新点在于:针对一个完全用于自动驾驶车辆的高速场景(即,该场景中不考虑人类驾驶车辆),本方法提出了一个用于avs的多智能体自适应决策框架。首先,考虑乘客的个性化需求,为avs制定不同的驾驶风格(礼貌、粗鲁、平和),用于后续决策建模过程中。利用联盟博弈和v2v通信,以每个网联自动驾驶车辆(connected automated vehicle,cav)为中心划分多智能体系统,从而构建合作决策区域。然后,基于模型预测控制中的滚动时域,构建了一个深度强化学习决策框架,以实现cav在合作区域里的运动决策。
13.本发明采用以下技术方案实现。
14.在机器学习中,强化学习用于描述和解决智能体在与环境的交互过程中通过学习策略达到回报最大化或实现特定目标的目的。强化学习通常被建模为马尔科夫决策过程(mdp),其中,一个元组(s,a,p,r,γ)具有可测量状态s、动作空间a、未知奖励函数r和未知动力学p,被用于解决mdp。强化学习的目标是最大化未来折扣回报其中,r
t+k
是t+k时刻的奖励,γ表示折扣率,r
t
表示t时刻反馈的奖励。
15.在强化学习框架下,动作值函数v
π
表示为:
[0016][0017]
其中,s0=s,a
t
~π(a
t
|s
t
),s
t+1
~p(s
t+1
|s
t
,a
t
),π表示策略函数,p表示状态转移概率分布,代表求解期望。
[0018]
状态值函数q
π
表示为:
[0019][0020]
其中,s
′
表示下一个时刻的状态。
[0021]
最终,最优动作值函数q
*
=maxq
π
(s)满足贝尔曼最优方程,其表达式为:
[0022][0023]
一种基于多智能体强化学习的自动驾驶车辆控制方法,包括以下步骤:
[0024]
步骤1:设定cavs的合作与联盟方式。cavs是指进行网联的自动驾驶车辆。
[0025]
高速匝道区域的车辆行驶区域分为两种,一个是主干道上的行驶车辆,一个是匝道汇入处的行驶车辆。
[0026]
如图1所示,车辆位于不同道路的不同位置行驶,考虑人类驾驶员也会受到视野限制的影响,观察区域仅在设定区域内,图1中利用黑色虚线框作为自动驾驶的视野区域,令设定区域大小为l*n,l表示区域的长度,n表示区域的宽度,且设定该区域大于人类驾驶员的视野大小。此外,人类驾驶员在一定情况下,如与前车距离较近且无法超车,会默认选择跟车。因此,对于图1中黑色椭圆框所示,设两辆车的距离小于阈值δr0,vi、vi分别表示第i和第j辆车,这时将二者联盟,即二者拥有相同的控制策略。
[0027]
步骤2:构造cavs多智能体子系统。
[0028]
如图1所示,为一个多智能体系统,则定义经过步骤1联盟后的方框区域为构建的
多智能体子系统。
[0029]
与其他多智能体深度强化学习方法不同,该多智能体子系统,其应用的方法是以其中一个智能体(图2a椭圆框中的v4)或者当多个智能体通过步骤1实现联盟决策时的多个智能体(图2c椭圆框中的v7与v8)作为多智能体强化学习的研究对象。方框中的其他智能体则是基于v2v无线通信技术为研究对象提供实时观测信息。
[0030]
步骤3:设计cavs多智能体深度强化学习决策算法。
[0031]
对于人类驾驶员来说,通常会采取三种不同的决策:加速超车、减速避让、跟车。同时,还需要对车辆的行为进行决策,如左转、右转或直行。考虑人类驾驶员通常只需要利用视野内的观测值,便能得到最优的决策,而深度强化学习正是将深度学习的感知能力和强化学习的决策能力相结合,对于自动驾驶多智能体场景来说,所有智能体均能够直接根据观测值,返回加速度(加速或减速)、转向角以及行为策略(超车、避让或跟随)来进行控制,是一种更接近人类思维方式的人工智能方法。
[0032]
多智能体深度强化学习的cav决策算法架构如图3所示,它是一种端到端决策架构,主要由四部分组成:输入层,神经网络层,输出层以及与环境交互层。
[0033]
其中,输入层由cavs当前时刻的感知信息以及上一时刻采取的策略和回报组成。神经网络结构包括卷积神经网络(cnn)、长短期记忆人工神经网络(long short-term memory,lstm)以及全连接网络(fcn)组成。lstm是一种时间循环神经网络,其表现通常比时间递归神经网络及隐马尔科夫模型(hmm)更好。
[0034]
整个神经网络架构具体细节见图3。输出层为t时刻车辆vi最终采取的动作环境交互层的作用是:t时刻智能体采取动作后,通过与环境交互进入下一时刻的状态,智能体接收新的状态后,进入下一个决策循环。
[0035]
步骤4:构造cavs的状态空间、动作空间、奖励函数。
[0036]
状态空间构造通过v2v无线通信技术,cavs之间能够交换速度、加速度、位置、航向等观测信息。
[0037]
设定通过步骤2中得到的一个多智能体子系统的研究对象为智能体n,该智能体的状态空间表达式为则系统的观测空间表示为:o=on,...,ok,rn,其中,ok表示多智能体子系统中的其他智能体,但不包括智能体n,rn表示智能体n的回报奖励。也就是说,对于智能体n的观测状态中包含该多智能体子系统中其他所有智能体的状态信息,同时为步骤3中神经网络的输入提供了丰富的特征信息,从而提高决策精度。
[0038]
动作空间包含三部分:x方向的加速度变化,其值为正表示加速,反之减速;航向角的变化,其值为正表示航向角增加,反之减小;是否转向,如左转、右转或直行。智能体n最终执行的策略,即最优策略为:
[0039]
安全性、舒适性和高效性,是自动驾驶领域里最重要的三个性能考量指标。因此,奖励函数以上述三个指标构造而成,具体表示为:其中,代表智能体vi的安全激励,代表智能体vi的舒适度激励,代表智能体vi的效率激励,且和为各自的权重因子。
[0040]
步骤5:基于多智能体强化学习的cavs控制,实现车辆安全、舒适、高效行驶。
[0041]
将多智能体深度强化学习决策算法得到的最优策略作为自动驾驶车辆的控制输入,实现车辆安全、舒适、高效地行驶。
[0042]
有益效果
[0043]
本发明方法,对现有技术,具有以下优点:
[0044]
1.本发明采用类人的思想,将cavs多智能体进行合作与联盟,提出了一种新的多智能体系统构建方法。通过利用v2v通信技术划定cav学习区域,提高了观测空间的质量,同时大大缩短了资源利用率。
[0045]
2.本方法在所构建的多智能体子系统中,提出了一种cavs多智能体深度强化学习的决策方法。在t时刻,其他智能体通过v2v通信传输速度、加速度、位置和航向角信息,与本智能体的状态信息进行融合,并结合t-1时刻的回报以及动作作为输入,通过具有历史记忆功能的lstm神经网络,最终得到更精准的决策。
[0046]
在完全自动驾驶车辆的场景下,本发明不仅能够保证在高速主干车道上的安全性和效率,而且对于匝道合流区域的安全性、舒适度和效率也能得以保障。因此,所提出的方法对于自动驾驶领域更具有普适性。
附图说明
[0047]
图1是带有cavs合作决策的高速匝道区域示意图。
[0048]
图2是本发明所提出的四种cav在高速上行驶过程中的合作决策方式。
[0049]
图3是本发明所提出的基于滚动时域的cav决策算法架构图。
[0050]
图4是本发明提出一种新的多智能体与环境交互学习方式。
[0051]
图5是本发明所设定场景中cavs的行驶方向x和车道垂直方向y示意图。
[0052]
图6是本发明所采用的单轨车辆动力学模型及所用符号表示示意图。
具体实施方式
[0053]
下面结合附图并举实施例,对本发明进行详细描述。
[0054]
实施例
[0055]
如图1所示,以多辆自动驾驶汽车在带岔道的高速场景中通过合作方式自主决策与控制为例,对本发明方法进行说明。
[0056]
步骤1:设定cavs的合作与联盟方式。
[0057]
如图2所示,为4种cav在高速上行驶过程中的合作决策情况。
[0058]
其中,图2(a)、图2(c)中,v4和v8均代表所有行驶在lane 3上的cavs与周围车合作决策系统,此外,图2(c)中的椭圆框代表v7与v8进行联盟决策,v7的决策将跟随v8;图2(b)中,v6代表所有行驶在lane 2上的cavs与周围车合作决策系统;(d)v8代表所有行驶在lane 2上的cavs与周围车合作决策系统,图2(d)中的方框同图2(c)原理一致。上述决策同时会受到驾驶员特性(礼貌、粗鲁、平和)的影响。
[0059]
合作与联盟方式的流程如下所示:
[0060]
设联盟集合为设定一个阈值δr0,在多智能体子系统中,判断是否小于
δr0,如果是,则否则vj不加入联盟集合最终得到联盟集合为
[0061]
步骤2:cavs多智能体子系统构造。
[0062]
考虑人类驾驶员驾驶过程中存在视野限制,基于v2v通信和视野阈值,划分多智能体子系统区域。接着通过步骤1合作与联盟后得到联盟体,对于图1设定场景中,每个智能体均可构建一个以自己为研究对象的多智能体子系统,因此,实际上有多少个智能体,便有多少个多智能体子系统,这样便于每辆自动驾驶车实现自主决策与控制。基于步骤1,建立多智能体子系统算法流程如下所示:
[0063]
设子系统集合为:设定一个集合设定一个阈值δd,在多智能体子系统中,判断小于δd,则和v
η+1
,否则在将v
η
和v
η+1
从中剔除,接着将ci添加到中,最终得到子系统
[0064]
步骤3:cavs多智能体深度强化学习决策算法设计。
[0065]
多智能体深度强化学习决策算法的输入信息包含两部分:第i辆自动驾驶汽车vi,在t=0时刻的输入机动信息为以及第j辆自动驾驶汽车vj的机动信息为此外,vj为以vi为中心的多智能体子系统中的周围车辆,多智能体子系统的构建见步骤2,则流程如下所示:
[0066]
多智能体子系统表示为:系统参数初始化为则t时刻智能体的状态、动作、回报分别为接着通过神经网络优化器对价值函数进行优化。然后,智能体vi从动作开始往后模拟(实际不执行)m次得到并通过神经网络预测p次下一时刻的动作将会得到p个动作决策最终选择第一个动作作为最优策略对智能体进行控制。
[0067]
步骤4:构造cavs的状态空间、动作空间、奖励函数。
[0068]
如图4所示,对于智能体1来说,其观测空间为o1,...,oi,r1,主要由本身的状态空间和奖励函数,以及该子系统中的其他智能体状态空间融合而成。动作空间则表示为
[0069]
对于奖励函数主要分为三部分。
[0070]
首先,cav在行驶过程中必须保证绝对的安全,对应于多智能体系统中则是,智能体在学习过程中需要跟前方车辆保持在安全距离范围内,并且不能发生碰撞或者驶出边界。具体激励函数如下所示:
[0071][0072][0073]
[0074][0075][0076][0077][0078][0079][0080][0081]
其中,σ为一个极小值,用于防止分母为0。
[0082]
cavs的舒适度通过加速度的导数j来定义,具体表达式如下所示:
[0083][0084]
cavs的效率函数是通过初始时刻与车辆安全到达终止时刻的差值的倒数平方来定义,具体表达式如下所示:
[0085][0086]
两个时刻的差值越大,说明自动驾驶车辆行驶效率越低。
[0087]
步骤5:基于多智能体强化学习,实现cavs控制。
[0088]
通常情况下,车辆使用2-dof自行车模型和1-dof纵向模型代替四轮车辆模型来设计控制器。该模型在高速和小角度转弯的驾驶条件下是足够的。图6为车辆动力学模型示意图。通过车辆动力学公式,可以推导出控制量u=[a
x
,δf]
t
与状态变量s直接相关。
[0089]
在快速路场景中,车辆前轮的转角θ通常设定为很小,即sinθ≈0。
[0090]
如图6所示,描述了单轨车辆动力学模型及所用符号表示,则车辆纵向、横向和偏航角动力学方程表示为:
[0091]
ma
x
=f
xf
cosδf+f
xr
[0092]
may=f
yf
+f
yr
[0093][0094]
其中,表示在y轴方向车辆质心处的惯性加速度;f
yf
和f
yr
分别表示车辆的前轮和后轮的轮胎侧向力。影响ay的因素包括沿y轴的运动加速度向心加速度因此,车辆侧向平移运动的方程为:
[0095][0096]
当侧偏角较小时,轮胎的侧向力与侧偏角成正比。θ
vf
和θ
vr
分别为前、后轮速度角,δ为前轮转向角,则前后轮侧偏角表示为:
[0097]
αf=δ-θ
vf
,αr=-θ
vr
[0098]
则车辆的前后轮侧向力表示为:
[0099]fyf
=c
af
(δ-θ
vf
),f
yr
=c
ar
(-θ
vr
)
[0100]
其中,c
αf
和c
αr
分别为前后轮的侧偏刚度。车辆前、后轮的速度角θ
vf
、θ
vr
利用小角度近似法:
[0101]
技术特征:
1.一种基于多智能体强化学习的自动驾驶车辆控制方法,其特征在于,包括以下步骤:步骤1:设定cavs的合作与联盟方式,其中cavs指进行网联的自动驾驶车辆;车辆位于不同道路的不同位置行驶,将观察区域在设定区域内,令设定区域大小为l*n,l表示区域的长度,n表示区域的宽度,且设定该区域大于人类驾驶员的视野大小;设两辆车的距离小于阈值δr0,v
i
、v
i
分别表示第i和第j辆车,这时将二者联盟,二者拥有相同的控制策略;设联盟集合为并设定一个阈值δr0,在多智能体子系统中,判断是否小于δr0,如果是,则否则v
j
不加入联盟集合最终得到联盟集合为步骤2:构造cavs多智能体子系统;基于v2v通信和视野阈值,划分多智能体子系统区域;步骤3:设计cavs多智能体深度强化学习决策算法;多智能体深度强化学习的cav决策算法为一种端到端决策架构,包括输入层、神经网络层、输出层和环境交互层;其中,输入层由cavs当前时刻的感知信息以及上一时刻采取的策略和回报组成,神经网络结构包括卷积神经网络cnn、长短期记忆人工神经网络lstm以及全连接网络fcn;神经网络架构的输出层为t时刻车辆v
i
最终采取的动作环境交互层的作用是:t时刻智能体采取动作后,通过与环境交互进入下一时刻的状态,智能体接收新的状态后,进入下一个决策循环;步骤4:构造cavs的状态空间、动作空间、奖励函数;设经步骤2中得到的一个多智能体子系统的研究对象为智能体n,该智能体的状态空间表达式为则系统的观测空间表示为:o=o
n
,...o
k
,r
n
,其中,o
k
表示多智能体子系统中的其他智能体,但不包括智能体n,r
n
表示智能体n的回报奖励,对于智能体n的观测状态中包含该多智能体子系统中其他所有智能体的状态信息,同时为步骤3中神经网络的输入提供了丰富的特征信息;动作空间包括:x方向的加速度变化,其值为正表示加速,反之减速;航向角的变化,其值为正表示航向角增加,反之减小;是否转向,如左转、右转或直行;智能体n最终执行的策略,即最优策略为:奖励函数以安全性、舒适性和高效性这三个指标构造而成,表示为:其中,代表智能体v
i
的安全激励,代表智能体v
i
的舒适度激励,代表智能体v
i
的效率激励,且和为各自的权重因子;步骤5:将多智能体深度强化学习决策算法得到的最优策略,作为自动驾驶车辆的控制输入。2.如权利要求1所述的一种基于多智能体强化学习的自动驾驶车辆控制方法,其特征在于,步骤2中,设子系统集合为:设定一个集合设定一个阈值δd,在多
智能体子系统中,判断是否小于δd,如果是,则有和v
η+1
,否则将v
η
和v
η+1
从中剔除,然后将添加到中,最终得到子系统
技术总结
本发明涉及一种基于多智能体强化学习的自动驾驶车辆控制方法,属于人工智能和自动驾驶技术领域。针对自动驾驶车辆场景,本方法提出了一个用于AVs的多智能体自适应决策框架。首先考虑乘客的个性化需求,为AVs制定不同的驾驶风格,用于后续决策建模过程中。利用联盟博弈和V2V通信,以每个网联自动驾驶车辆CAV为中心划分多智能体系统,从而构建合作决策区域。然后,基于模型预测控制中的滚动时域,构建了一个深度强化学习决策框架,以实现CAV在合作区域里的运动决策。在完全自动驾驶车辆的场景下,本发明不仅能够保证在高速主干车道上的安全性和效率,而且对于匝道合流区域的安全性、舒适度和效率也能够得到保障。舒适度和效率也能够得到保障。舒适度和效率也能够得到保障。
技术研发人员:马宏宾 刘萍 金英 麻景翔 张华卿
受保护的技术使用者:北京理工大学
技术研发日:2022.12.05
技术公布日:2023/7/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/