一种基于混联式分层强化学习的自动驾驶集中决策方法

未命名 08-02 阅读:92 评论:0


1.本发明属于车联网和自动驾驶技术领域,尤其涉及一种基于混联式分层强化学习的自动驾驶集中决策方法。


背景技术:

2.无人驾驶决策系统需要考虑多个因素,如道路状况、交通规则、乘客需求等,以做出最佳的决策。无人驾驶决策系统不仅可以提高交通效率、减少交通堵塞和排放量,还可以为人类提供更加舒适、安全和便利的出行体验。因此,无人驾驶决策的研究与开发是未来交通领域的一个重要发展方向。
3.深度强化学习(drl)可以通过模拟环境、采取行动和获得奖励的方式来学习最佳策略。在无人驾驶决策中,深度强化学习可以基于车辆的传感器数据和地图信息,学习判断各种不同交通场景下的最佳行驶策略,如加速、转弯、变道和停车等。此外,深度强化学习还可以学习主动避让其他车辆、行人或障碍物,优化路线规划和控制车速,从而实现更加安全和高效的驾驶体验。
4.在无人驾驶决策中,状态空间通常非常庞大,包含多个因素,如车辆速度、道路状况、交通情况等。这样的状态空间直接应用传统的强化学习算法计算最优解的效率和准确性都会受到很大挑战。分层强化学习提供了一种有效的方法来解决这个问题。分层强化学习可以将无人驾驶决策分解成多个子任务,并针对每个子任务训练一个子策略网络来完成相应的任务。例如,一个子任务可以是加速、刹车或转向等单一操作,而另一个子任务可能涉及到复杂的路径规划和避让障碍物等操作。这种分解使得状态空间变得更小,使得强化学习的搜索更加高效。因此,分层强化学习在无人驾驶决策的应用具有很重要的意义,它可以提高车辆的智能化和自主化程度,为安全、高效、便捷的出行提供更加可靠和智能化的解决方案。


技术实现要素:

5.现有的深度强化学习强行拟合人脑决策的函数,但由于神经网络的误差传播、维度爆炸等存在,无法满足决策系统实际应用的需求。本技术针对此问题,以人类大脑的决策层次为基础提出了一种基于混联式分层强化学习的自动驾驶集中决策方法。
6.为实现所述目的,本发明提供了如下方案:一种基于混联式分层强化学习的自动驾驶集中决策方法,包括:
7.构建深度强化学习网络并对所述深度强化学习网络进行混联式网络分层,获得上层网络和下层网络;
8.对所述上层网络进行横向划分,获得横向全局策略网络和纵向全局策略网络;通过离散drl算法进行训练,所述横向全局策略网络输出变道指令,所述纵向全局策略网络输出纵向控制策略;
9.将所述下层网络划分为纵向下层网络和横向下层控制网络,通过连续drl算法进
行训练,所述纵向下层网络根据所述纵向全局策略的网络输出,选择激活对应的子策略网络并输出连续的加速度;所述横向下层控制网络基于最优控制规则进行变道,完成自动驾驶的集中决策。
10.优选地,通过离散drl算法进行训练,所述横向全局策略网络输出变道指令,所述纵向全局策略网络输出纵向控制策略的过程包括,
11.定义环境中n辆车中的m辆无人车通过与环境交互,集中决策层从环境中获取状态信息矩阵s
tm
×f,f为车辆总特征数量;
12.根据不同神经网络的功能目设计状态空间,分别将所述横向全局策略网络与纵向全局策略网络输入设计的横向全局状态空间与纵向全局状态空间fh与fl分别为对应网络所设计的特征数量;
13.所述横向全局策略网络与纵向全局策略网络获取各自信息矩阵与通过图卷积神经网络与多层全连接层,采纳贪婪策略分别输出变道集中决策动作其中-1代表激活左变道规则,0代表激活维持车道规则,1代表激活右变道规则;输出纵向集中决策动作其中-1代表此无人车采用减速子策略网络的输出,0代表此无人车采用调整子策略网络的输出,1代表此无人车采用加速子策略网络的输出,其中,所述横向全局策略网络与纵向全局策略网络每z个时间步进行一次输出,并更新。
14.优选地,所述横向全局状态空间包括节点特征矩阵n
th
和邻接矩阵a
th
,将所述节点特征矩阵n
th
与邻接矩阵a
th
输入到横向全局策略网络,利用图卷积神经网络提取场景内车辆的拓扑结构特征;
15.所述节点特征矩阵n
th
包括自身车辆速度vi、自身车辆横向位置xi、自身车辆纵向位置yi、无人车相邻车道前后车辆标准安全距离系数κ
ij
,j=1,3,4,6,分别为无人车右前、左前、右后、左后车辆的系数,自身车辆所处路段ri、自身车辆所处车道li、自身车辆所属类别ii;
16.所述节点特征矩阵n
th
的表达式为:
[0017][0018]
所述邻接矩阵a
th
用于将车辆之间的相互作用表示为车辆之间的信息共享,表达式为:
[0019][0020]
优选地,所述横向全局策略网络的奖励函数被定义为基于变道后安全、建议车道、变道舒适性的函数:
[0021]
其中,e规定了惩罚的上限并且可视为发生碰撞;
[0022][0023]
如果在规定时间内进行频繁变道
[0024]
将每个时间步存储到经验回放区,并用离散drl算法进行训练。
[0025]
优选地,所述纵向全局状态空间包括节点特征矩阵n
tl
与邻接矩阵a
tl
,所述邻接矩阵a
tl
同邻接矩阵a
th
;将节点特征矩阵n
tl
与邻接矩阵a
tl
输入到纵向全局策略网络,利用图卷积神经网络提取场景内车辆的拓扑结构特征;
[0026]
所述节点特征矩阵n
tl
包括自身车辆速度vi、自身车辆横向位置xi、自身车辆纵向位置yi、无人车当前车道前后车辆标准安全距离系数κ
ij
,j=2,5,分别为无人车前、后车辆的系数,自身车辆所处路段ri、自身车辆所处车道li、自身车辆所属类别ii;
[0027]
所述节点特征矩阵n
tl
的表达式为:
[0028][0029]
优选地,所述纵向全局策略网络的奖励函数被定义为基于前后车安全、对应车道建议速度函数:
[0030]
其中,e规定了惩罚的上限并且可视为发生碰撞;
[0031][0032]
将每个时间步存储到经验回放区,并用离散drl算法进行训练。
[0033]
优选地,通过连续drl算法进行训练完成自动驾驶的集中决策的过程包括,
[0034]
分别将纵向下层网络的加速子策略网络、调整子策略网络与减速子策略网络输入设计的纵向局部状态空间fl为子网络所设计的特征数量;
[0035]
所述加速子策略网络、调整子策略网络与减速子策略网络通过共享的纵向局部状态空间,通过多层全连接层分别输出态空间,通过多层全连接层分别输出的具体加速度值,其中,所述加速子策略网络、调整子策略网络与减速子策略网络每个时间步都进行输出并更新。
[0036]
优选地,所述纵向下层网络的加速子策略网络、调整子策略网络与减速子策略网络共享同一局部状态空间包括无人车特征矩阵并将所述无人车特征矩阵n
tl
输入到纵向子策略网络;
[0037]
所述无人车特征矩阵n
tl
包括自身车辆速度vi、自身车辆横向位置xi、自身车辆纵向位置yi、前车相对速度δv
1f
、前车纵向相对位移δy
1f
、后车相对速度δv
1r
、后车纵向相对位移δy
1r
、无人车当前车道前后车辆标准安全距离系数κ
ij
,j=2,5,分别为无人车前、后车辆的系数,自身车辆所处路段ri、自身车辆所处车道li、
[0038]
所述无人车特征矩阵n
tl
的表达式为:
[0039][0040]
优选地,所述纵向下层网络的奖励函数被定义为基于前后车安全、对应车道建议速度函数以及舒适性:
[0041]
特别地,所述纵向下层网络的加速子策略网络、调整子策略网络与减速子策略网络的奖励函数计算基于在纵向全局策略网络决策后,未来z个时间步长采用对应子网络的无人车进行计算;
[0042]
其中,e

规定了惩罚的上限并且可视为发生碰撞,e

的值要小于纵向全局策略网络的e;
[0043][0044][0045]
energy为每个时间步长当前子网络控制的无人车总消耗能量;
[0046]
在每个时间步长都将加速子策略网络、调整子策略网络与减速子策略网络的回放经验存储到经验回放区,并用连续drl算法进行训练输出连续的加速度;
[0047]
其中,分别代表加速子策略网络、调整子策略网络与减速子策略网络的经验。
[0048]
与现有技术相比,本发明具有如下优点和技术效果:
[0049]
本发明的一种基于混联式分层强化学习的自动驾驶决策方法,以z个时间步长训练全局策略网络输出变道、加减速的离散高级决策,单个时间步长训练子策略网络输出具体的加速度。使得决策的层次类人脑决策,提高了无人车决策计算的内部透明度,通过长期目标与单位执行动作促进各层次之间的协作,增加了无人车决策落地的可能性。
[0050]
本发明对于不同的策略网络设计针对性的状态空间以及奖励函数。向全局策略网络输入交通环境中的全局车辆信息,向子策略网络输入局部车辆信息。此外,对两个全局策略网络的状态空间与奖励函数也进行了针对性优化设计。多个全局、局部网络通过分析不同层次的数据和信息,可以更全面地了解决策问题的各个方面,从而做出更准确、更全面和更有效的决策。
[0051]
本发明的上下层网络采取不同的神经网络结构。两个全局策略网络采取了图卷积网络,目的是通过图卷积网络将交互的车辆特征信息汇聚,提高整体模型的学习能力。局部状态空间下,下层网络采取多层全连接层即可达到训练效果,输出最终的加速度。将无人驾驶决策问题分解成横纵向长期目标控制下的局部较小问题,使得复杂的驾驶决策问题变得更加可管理和易于处理。
附图说明
[0052]
构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0053]
图1为本发明实施例的自动驾驶决策方法的框架图;
[0054]
图2为本发明实施例的高速路进出场景示意图;
[0055]
图3为本发明实施例的横/纵向全局策略网络图;
[0056]
图4为本发明实施例的纵向全局策略网络下与关于不同车道的奖励图;
[0057]
图5为本发明实施例的纵向子策略网络下与关于不同车道的奖励图;
[0058]
图6为本发明实施例的子纵向策略网络结构图。
具体实施方式
[0059]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0060]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0061]
如图1所示,本发明所提供的一种基于混联式分层强化学习的自动驾驶集中决策方法,包括,
[0062]
构建深度强化学习网络并对深度强化学习网络进行混联式网络分层,获得上层网络和下层网络;上层网络在横向上被分为横向全局策略网络与纵向全局策略网络,采用离散drl算法训练。横向全局策略网络输出变道指令,纵向全局策略网络输出纵向控制策略。纵向下层网络分为三个纵向子策略网络,采用连续drl算法训练,根据纵向全局策略网络输出,选择激活对应的子策略网络并输出连续的加速度。横向下层控制包括由最优控制与基于规则生成的左变道模块、右变道模块以及维持不变。
[0063]
进一步地优化方案,环境中的n辆车中的m辆无人车通过与环境交互,集中决策层从环境中获取状态信息矩阵s
tm
×f,f为车辆总特征数量。根据不同神经网络功能目的对其状态空间进行分别设计,横向全局策略网络与纵向全局策略网络输入所设计的横向全局状态空间与纵向全局状态空间fh与fl分别为对应网络所设计的特征数量。加速子策略网络、调整子策略网络与减速子策略网络输入所设计的纵向局部状态空间fl为子网络所设计的特征数量。
[0064]
横向全局策略网络与纵向全局策略网络获取各自信息矩阵与通过图卷积神经网络与多层全连接层,采纳贪婪策略分别输出变道集中决策动作其中-1代表激活左变道规则,0代表激活维持车道规则,1代表激活右变道规则;此外再输出纵向集中决策动作其中-1代表此无人车采用减速子策略网络的输出,0代表此无人车采用调整子策略网络的输出,1代表此无人车采用加速子策略网络的输出;三个子策略网络通过共享的纵向局部状态空间,通过多层全连接层分别输出的具体加速度值。
[0065]
两个全局策略网络每z个时间步进行一次输出,并更新。三个子策略网络每个时间步都进行输出并更新。
[0066]
进一步地,横向全局策略网络全局状态空间包括节点特征矩阵n
th
与邻接矩阵a
th
。节点特征矩阵n
th
包括自身车辆速度vi,自身车辆横向位置xi,自身车辆纵向位置yi,无人车相邻车道前后车辆标准安全距离系数κ
ij
,j=1,3,4,6,其分别为无人车右前、左前、右后、左后车辆的系数,自身车辆所处路段ri,自身车辆所处车道li,自身车辆所属
类别ii,具体表达式为:
[0067][0068]
标准安全距离系数κ被定义为两车标准安全距离ds与两车纵向位移之差d之比,标准安全距离被定义为当前车辆速度ve、前方车辆速度vf、最大制动速度a、通信与机械延迟时间t0、车辆长度与车辆间隔长度之和d0。若车辆为背景车,κ被规定为1。
[0069]
邻接矩阵a
th
将车辆之间的相互作用表示为车辆之间的信息共享。其计算基于五个假设:a)规定范围内的所有无人车之间都可以在构造的场景中共享信息,例如第i辆无人车与100m内的第j辆车共享信息表示为a
ij
=1;b)信息不能在背景车辆之间共享;c)所有无人车都可以在其感知范围内共享背景车辆的信息;d)车辆可以与自己共享信息,表示为a
ii
=1,并表示为
[0070][0071]
将节点特征矩阵n
th
与邻接矩阵a
th
输入到横向全局策略网络,其中包含:全连接层、图卷积层、聚合层与激活层。其中利用图卷积神经网络提取场景内车辆的拓扑结构特征。
[0072]
横向全局策略网络的奖励函数被定义为基于变道后安全、建议车道、变道舒适性的函数:
[0073]
e规定了惩罚的上限并且可视为发生碰撞
[0074][0075]
如果在规定时间内进行频繁变道
[0076]
基于以上设计,将每个时间步存储到经验回放区,并用离散drl算法进行训练。
[0077]
进一步地,纵向全局策略网络全局状态空间包括节点特征矩阵n
tl
与邻接矩阵a
tl
,邻接矩阵a
tl
同a
th
。节点特征矩阵n
tl
包括自身车辆速度vi,自身车辆横向位置xi,自身车辆纵向位置yi,无人车当前车道前后车辆标准安全距离系数κ
ij
,j=2,5,其分别为无人车前、后车辆的系数,自身车辆所处路段ri,自身车辆所处车道li,自身车辆所属类别ii,无人车当前时刻采取的变道行为ci具体表达式为:
[0078][0079]
将节点特征矩阵n
tl
与邻接矩阵a
tl
输入到纵向全局策略网络,其中包含:全连接层、图卷积层、聚合层与激活层。其中利用图卷积神经网络提取场景内车辆的拓扑结构特征。
[0080]
纵向全局策略网络的奖励函数被定义为基于前后车安全、对应车道建议速度函数:
[0081]
e规定了惩罚的上限并且可视为发生碰撞
[0082][0083]
基于以上设计,将每个时间步存储到经验回放区,并用离散drl算法进行训练。
[0084]
进一步地,纵向子策略网络共享同一局部状态空间包括无人车特征矩阵n
tl
。无人车特征矩阵n
tl
包括自身车辆速度vi,自身车辆横向位置xi,自身车辆纵向位置yi,前车相对速度δv
1f
,前车纵向相对位移δy
1f
,后车相对速度δv
1r
,后车纵向相对位移δy
1r
,无人车当前车道前后车辆标准安全距离系数κ
ij
,j=2,5,其分别为无人车前、后车辆的系数,自身车辆所处路段ri,自身车辆所处车道li,无人车当前时刻采取的变道行为ci具体表达式为:
[0085][0086]
将无人车特征矩阵n
tl
输入到纵向子策略网络,其中包含:全连接层与激活层。
[0087]
纵向子策略网络的奖励函数被定义为基于前后车安全、对应车道建议速度函数以及舒适性:特别地,各子网络的奖励函数计算是基于在纵向全局策略网络决策后,未来z个时间步长采用对应子网络的无人车进行计算的。例如:第i个无人车在之后z个时间步长采用减速子策略网络,那么其产生的奖励函数在此时间段内只反馈给检索子策略网络。
[0088]e′
规定了惩罚的上限并且可视为发生碰撞。e

的值要小于纵向全局策略网络的e,此处设计为碰撞的主要原因为全局策略网络判断的因素为安全,其决策在安全层面的占比更大。
[0089][0090][0091]
energy为每个时间步长当前子网络控制的无人车总消耗能量。
[0092]
基于以上设计,在每个时间步长都将三个网络的回放经验分别代表减速、调整、加速子策略网络的经验,存储到经验回放区,并用连续drl算法进行训练输出连续的加速度。
[0093]
实施例一
[0094]
如图2所示,为本技术在高速路进出口的实施例。环境中的n辆车中的5辆无人车通过与环境交互,集中决策层从环境中获取状态信息矩阵s
tm
×f,f为车辆总特征数量。根据不同神经网络功能目的对其状态空间进行分别设计,横向全局策略网络与纵向全局策略网络输入所设计的横向全局状态空间与纵向全局状态空间加速子策略网络、调整子策略网络与减速子策略网络输入所设计的纵向局部状态空间
fl为子网络所设计的特征数量。
[0095]
横向全局策略网络与纵向全局策略网络获取各自信息矩阵与通过图卷积神经网络与多层全连接层,采纳贪婪策略分别输出变道集中决策动作其中-1代表激活左变道规则,0代表激活维持车道规则,1代表激活右变道规则;此外再输出纵向集中决策动作其中-1代表此无人车采用减速子策略网络的输出,0代表此无人车采用调整子策略网络的输出,1代表此无人车采用加速子策略网络的输出;三个子策略网络通过共享的纵向局部状态空间,通过多层全连接层分别输出的具体加速度值。
[0096]
两个全局策略网络每5个时间步进行一次输出,并更新。三个子策略网络每个时间步都进行输出并更新。每个时间步长被定义为0.1s。
[0097]
横向全局策略网络全局状态空间包括节点特征矩阵n
th
与邻接矩阵a
th
。节点特征矩阵n
th
包括自身车辆速度vi,自身车辆横向位置xi,自身车辆纵向位置yi,无人车相邻车道前后车辆标准安全距离系数κ
ij
,j=1,3,4,6,其分别为无人车右前、左前、右后、左后车辆的系数,自身车辆所处路段ri=路段编号,自身车辆所处车道li=0,1,2,自身车辆所属类别ii=0,1分别代表无人车与背景车辆,具体表达式为:
[0098][0099]
标准安全距离系数κ被定义为两车标准安全距离ds与两车纵向位移之差d之比,标准安全距离被定义为当前车辆速度ve、前方车辆速度vf、最大制动速度a=-6m
·
s-2
、通信与机械延迟时间t0=0.5s、车辆长度与车辆间隔长度之和d0=5m的函数。若车辆为背景车,κ被规定为1。
[0100]
邻接矩阵a
th
将车辆之间的相互作用表示为车辆之间的信息共享。其计算基于五个假设:a)规定范围内的所有无人车之间都可以在构造的场景中共享信息,例如第i辆无人车与100m内的第j辆车共享信息表示为a
ij
=1;b)信息不能在背景车辆之间共享;c)所有无人车都可以在其感知范围内共享背景车辆的信息;d)车辆可以与自己共享信息,表示为a
ii
=1,并表示为
[0101][0102]
将节点特征矩阵n
th
与邻接矩阵a
th
输入到横向全局策略网络,其中包含:全连接层、图卷积层、聚合层与激活层。其中利用图卷积神经网络提取场景内车辆的拓扑结构特征。其网络结构与横向全局策略网络结构一致,如图3所示。
[0103]
横向全局策略网络的奖励函数被定义为基于变道后安全、建议车道、变道舒适性的函数:
[0104]
规定了惩罚的上限并且可视为发生碰撞
[0105][0106]
如果在5s内变道次数m≥2
[0107]
基于以上设计,将每个时间步存储到经验回放区,并用d3qn算法进行训练。
[0108]
进一步地,纵向全局策略网络全局状态空间包括节点特征矩阵n
tl
与邻接矩阵a
tl
,邻接矩阵a
tl
同a
th
。节点特征矩阵n
tl
包括自身车辆速度vi,自身车辆横向位置xi,自身车辆纵向位置yi,无人车当前车道前后车辆标准安全距离系数κ
ij
,j=2,5,其分别为无人车前、后车辆的系数,自身车辆所处路段ri=路段编号,自身车辆所处车道li=0,1,2,自身车辆所属类别ii=0,1分别代表无人车与背景车辆,无人车当前时刻采取的变道行为ci=-1,0,1,分别代表左变道、不变道与右变道。具体表达式为:
[0109][0110]
将节点特征矩阵n
tl
与邻接矩阵a
tl
输入到纵向全局策略网络,其中包含:全连接层、图卷积层、聚合层与激活层。其中利用图卷积神经网络提取场景内车辆的拓扑结构特
征。
[0111]
纵向全局策略网络的奖励函数被定义为基于前后车安全、对应车道建议速度函数:如图4所示。
[0112]
e规定了惩罚的上限并且可视为发生碰撞
[0113]
基于以上设计,将每个时间步存储到经验回放区,并用d3qn算法进行训练。
[0114]
进一步地,如图6所示,纵向子策略网络共享同一局部状态空间包括无人车特征矩阵n
tl
。无人车特征矩阵n
tl
包括自身车辆速度vi,自身车辆横向位置xi,自身车辆纵向位置yi,前车相对速度δv
1f
,前车纵向相对位移δy
1f
,后车相对速度δv
1r
,后车纵向相对位移δy
1r
,无人车当前车道前后车辆标准安全距离系数κ
ij
,j=2,5,其分别为无人车前、后车辆的系数,自身车辆所处路段ri=路段编号,自身车辆所处车道li=0,1,2,自身车辆所属类别ii=0,1分别代表无人车与背景车辆,无人车当前时刻采取的变道行为ci=-1,0,1,分别代表左变道、不变道与右变道。具体表达式为:
[0115][0116]
将无人车特征矩阵n
tl
输入到纵向子策略网络,其中包含:全连接层与激活层。
[0117]
纵向子策略网络的奖励函数被定义为基于前后车安全、对应车道建议速度函数以及舒适性:特别地,各子网络的奖励函数计算是基于在纵向全局策略网络决策后,未来5个时间步长采用对应子网络的无人车进行计算的。例如:第i个无人车在之后5个时间步长采用减速子策略网络,那么其产生的奖励函数在此时间段内只反馈给检索子策略网络。
[0118]
e规定了惩罚的上限并且可视为发生碰撞
[0119]
设计如图5所示,子网络的速度奖励函数比全局网络在正向奖励的梯度更大,以便于无人车更快的学习到适合的速度。
[0120]
[0121][0122]
基于以上设计,在每个时间步长都将三个网络的回放经验分别代表减速、调整、加速子策略网络的经验,存储到经验回放区,并用td3算法进行训练输出连续的加速度。
[0123]
以上,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应该以权利要求的保护范围为准。

技术特征:
1.一种基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,包括:构建深度强化学习网络并对所述深度强化学习网络进行混联式网络分层,获得上层网络和下层网络;对所述上层网络进行横向划分,获得横向全局策略网络和纵向全局策略网络;通过离散drl算法进行训练,所述横向全局策略网络输出变道指令,所述纵向全局策略网络输出纵向控制策略;将所述下层网络划分为纵向下层网络和横向下层控制网络,通过连续drl算法进行训练,所述纵向下层网络根据所述纵向全局策略的网络输出,选择激活对应的子策略网络并输出连续的加速度;所述横向下层控制网络基于最优控制规则进行变道,完成自动驾驶的集中决策。2.根据权利要求1所述的基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,通过离散drl算法进行训练,所述横向全局策略网络输出变道指令,所述纵向全局策略网络输出纵向控制策略的过程包括,定义环境中n辆车中的m辆无人车通过与环境交互,集中决策层从环境中获取状态信息矩阵s
tm
×
f
,f为车辆总特征数量;根据不同神经网络的功能目设计状态空间,分别将所述横向全局策略网络与纵向全局策略网络输入设计的横向全局状态空间与纵向全局状态空间fh与fl分别为对应网络所设计的特征数量;所述横向全局策略网络与纵向全局策略网络获取各自信息矩阵与通过图卷积神经网络与多层全连接层,采纳贪婪策略分别输出变道集中决策动作其中-1代表激活左变道规则,0代表激活维持车道规则,1代表激活右变道规则;输出纵向集中决策动作其中-1代表此无人车采用减速子策略网络的输出,0代表此无人车采用调整子策略网络的输出,1代表此无人车采用加速子策略网络的输出,其中,所述横向全局策略网络与纵向全局策略网络每z个时间步进行一次输出,并更新。3.根据权利要求2所述的基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,所述横向全局状态空间包括节点特征矩阵n
th
和邻接矩阵a
th
,将所述节点特征矩阵n
th
与邻接矩阵a
th
输入到横向全局策略网络,利用图卷积神经网络提取场景内车辆的拓扑结构特征;所述节点特征矩阵n
th
包括自身车辆速度v
i
、自身车辆横向位置x
i
、自身车辆纵向位置y
i
、无人车相邻车道前后车辆标准安全距离系数κ
ij
,j=1,3,4,6,分别为无人车右前、左前、右后、左后车辆的系数,自身车辆所处路段r
i
、自身车辆所处车道l
i
、自身车辆所属类别i
i
;所述节点特征矩阵n
th
的表达式为:
所述邻接矩阵a
th
用于将车辆之间的相互作用表示为车辆之间的信息共享,表达式为:4.根据权利要求2所述的基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,所述横向全局策略网络的奖励函数被定义为基于变道后安全、建议车道、变道舒适性的函数:其中,e规定了惩罚的上限并且可视为发生碰撞;e规定了惩罚的上限并且可视为发生碰撞;如果在规定时间内进行频繁变道将每个时间步存储到经验回放区,并用离散drl算法进行训练。5.根据权利要求2所述的基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,所述纵向全局状态空间包括节点特征矩阵n
tl
与邻接矩阵a
tl
,所述邻接矩阵a
tl
同邻接矩阵a
th
;将节点特征矩阵n
tl
与邻接矩阵a
tl
输入到纵向全局策略网络,利用图卷积神经网络提取场景内车辆的拓扑结构特征;所述节点特征矩阵n
tl
包括自身车辆速度v
i
、自身车辆横向位置x
i
、自身车辆纵向位置y
i
、无人车当前车道前后车辆标准安全距离系数κ
ij
,j=2,5,分别为无人车前、后车辆的系数,自身车辆所处路段r
i
、自身车辆所处车道l
i
、自身车辆所属类别ii;所述节点特征矩阵n
tl
的表达式为:
6.根据权利要求2所述的基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,所述纵向全局策略网络的奖励函数被定义为基于前后车安全、对应车道建议速度函数:其中,e规定了惩罚的上限并且可视为发生碰撞;将每个时间步存储到经验回放区,并用离散drl算法进行训练。7.根据权利要求1所述的基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,通过连续drl算法进行训练完成自动驾驶的集中决策的过程包括,分别将纵向下层网络的加速子策略网络、调整子策略网络与减速子策略网络输入设计的纵向局部状态空间fl为子网络所设计的特征数量;所述加速子策略网络、调整子策略网络与减速子策略网络通过共享的纵向局部状态空间,通过多层全连接层分别输出间,通过多层全连接层分别输出的具体加速度值,其中,所述加速子策略网络、调整子策略网络与减速子策略网络每个时间步都进行输出并更新。8.根据权利要求7所述的基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,所述纵向下层网络的加速子策略网络、调整子策略网络与减速子策略网络共享同一局部状态空间包括无人车特征矩阵n
tl
,并将所述无人车特征矩阵n
tl
输入到纵向子策略网络;所述无人车特征矩阵n
tl
包括自身车辆速度v
i
、自身车辆横向位置x
i
、自身车辆纵向位置y
i
、前车相对速度δv
1f
、前车纵向相对位移δy
1f
、后车相对速度δv
1r
、后车纵向相对位移δy
1r
、无人车当前车道前后车辆标准安全距离系数κ
ij
,j=2,5,分别为无人车前、后车辆的系数,自身车辆所处路段r
i
、自身车辆所处车道l
i

所述无人车特征矩阵n
tl
的表达式为:9.根据权利要求7所述的基于混联式分层强化学习的自动驾驶集中决策方法,其特征在于,所述纵向下层网络的奖励函数被定义为基于前后车安全、对应车道建议速度函数以及舒适性:特别地,所述纵向下层网络的加速子策略网络、调整子策略网络与减速子策略网络的奖励函数计算基于在纵向全局策略网络决策后,未来z个时间步长采用对应子网络的无人车进行计算;其中,e

规定了惩罚的上限并且可视为发生碰撞,e

的值要小于纵向全局策略网络的e;于纵向全局策略网络的e;于纵向全局策略网络的e;energy为每个时间步长当前子网络控制的无人车总消耗能量;在每个时间步长都将加速子策略网络、调整子策略网络与减速子策略网络的回放经验存储到经验回放区,并用连续drl算法进行训练输出连续的加速度;其中,分别代表加速子策略网络、调整子策略网络与减速子策略网络的经验。

技术总结
本发明公开了一种基于混联式分层强化学习的自动驾驶集中决策方法,包括,构建深度强化学习网络并对深度强化学习网络进行混联式网络分层,获得上层网络和下层网络;对上层网络进行横向划分,获得横向全局策略网络和纵向全局策略网络;通过离散DRL算法进行训练,横向全局策略网络输出变道指令,纵向全局策略网络输出纵向控制策略;将下层网络划分为纵向下层网络和横向下层控制网络,通过连续DRL算法进行训练,纵向下层网络根据纵向全局策略的网络输出,选择激活对应的子策略网络并输出连续的加速度;横向下层控制网络基于最优控制规则进行变道,完成自动驾驶的集中决策。本发明进一步提高了决策的准确性、全面性和有效性。全面性和有效性。全面性和有效性。


技术研发人员:李雪原 高鑫 刘琦 孟小强 杨帆 李子睿 栾天
受保护的技术使用者:北京理工大学
技术研发日:2023.04.28
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐