一种基于离线强化学习的交叉口车辆轨迹优化方法、系统
未命名
08-15
阅读:75
评论:0

1.本发明属于车路协同智能交通道路控制技术领域,尤其涉及基于离线强化学习的交叉口车辆轨迹优化方法、系统。
背景技术:
2.随着城市交通需求逐年增长,城市道路正在承受严重的交通拥堵,而拥堵又加重了能源消耗和环境恶化。交叉口是城市道路交通网络管控的瓶颈所在,改善主干道交叉口处的车辆管控对交通系统的效率有重要的作用。
3.传统的交通控制策略包括定时信号控制、自适应信号控制以及车辆驱动控制等。定时信号控制使用历史交通数据标定预先设施的信号灯参数,包括相位序列、周期长度和绿灯时长。车辆驱动和自适应信号控制将基础设施中的探测设备应用于实时交通数据收集并且根据时变的交通需求调整信号灯时长。
4.随着网联cav(connected and autonomous vehicle,自动驾驶车)技术的发展,v2v(vehicle-to-vehicle,车车)通信与v2i(vehicle-to-infrastructure,车路)通信为交通管控提供了全新的数据集。这种双边通信实现了将交通信息实时传递给车辆并优化轨迹,同时可以收集精确的车辆轨迹数据。实时数据通信可以通过将轨迹数据传输给信号灯,实现信号相位和配时的优化;也可以假定信号相位与配时固定,通过控制车辆速度或加速度将信号灯数据用于车辆行驶轨迹的优化,从而减少能源消耗,车辆排放和延误,提升车辆的安全性。通常优化控制问题将车辆位置与速度视作状态变量,将加速度视作控制变量。但是在复杂的约束条件与多目标状况下,优化控制方法的计算复杂度较高。一种方法是将时间和状态空间离散化,将问题转化为多阶段决策问题,另一种方法是将车辆轨迹划分为具有连续加速的不同的部分,从而缓解计算压力。
5.与此同时,基于drl(deep reinforcement learning,深度强化学习)的交叉口控制方法也提供了解决上述困境的新思路。将车辆或信号灯作为强化学习的智能体,智能体根据自身动作和交叉口状态变化不断更新策略,选择回报最高的动作,从而优化交叉口的节能控制。但在在线强化学习中,智能体在训练过程中需要不断与环境进行交互,根据最新的反馈数据更新策略并选择动作。由于在线学习过程中,智能体尚未成熟时可能会选择危险动作导致交通事故,同时,实时策略的更新对计算复杂度与速度要求较高,可能导致策略更新不及时。因此,考虑离线强化学习方法,将已有的交叉口车辆轨迹数据用于智能体训练,车辆智能体只需根据当前状态从形成的策略空间中选择最优的策略控制交叉口车辆。该方法压缩了计算复杂度,优化车辆轨迹,实现节能减排,安全性与效率的提升。
技术实现要素:
6.本发明所要解决的技术问题是:一种基于离线强化学习的交叉口车辆轨迹优化方法,在智能网联环境下收集交叉口车辆通行轨迹数据与信号相位数据,构建用于训练车辆控制策略的静态数据集;在信号灯与网联车辆的通信范围内,车辆智能体采用由构建的数
据集训练的交叉口通行策略提供的最优通行轨迹,优化交叉口车辆控制。
7.本发明为解决上述技术问题采用以下技术方案:
8.本发明提出的一种基于离线强化学习的交叉口车辆轨迹优化方法,包括如下步骤:
9.s1、搭建智能网联环境下交叉口信号灯与网联车辆的通信场景,根据交叉口之间的距离,设定车辆与信号灯的通信距离阈值,一般为100到300米范围,当车辆进入信号灯的控制范围时,双方可进行信息交互。
10.s2、收集信号交叉口网联车辆的运行数据和信号灯的spat(signal phase and timing,相位与配时)信息,构建静态数据集。
11.s3、将车辆在交叉口的行驶过程模拟成马尔科夫决策过程,在步骤s2构建的静态数据集中以离线状态通过强化学习方法训练车辆智能体,得到适用的交叉口通行策略。
12.s4、将训练后的策略应用于交叉口的车辆控制,根据观察到的环境状态数据选定最合适的加速度,通过控制车辆加速度使车辆按照最优化的轨迹运行。
13.进一步,步骤s1中,搭建智能网联环境下交叉口信号灯与网联车辆的通信场景的具体过程为:在智能网联交通环境下,基于v2i通信,道路设施与网联车辆通过通信设备交换车辆运行轨迹和信号灯spat信息;比较在不同通信距离阈值下的车辆运行结果,选出合适的通信距离阈值rc,当信号灯与车辆距离小于rc时,车辆位于通信区域内,能够根据网联交叉口系统提供的策略行进,此时的通信范围是以信号交叉口为圆心,以rc为半径的圆形区域;否则,车辆将按照自身的跟驰行为行进。
14.进一步,步骤s2的具体过程如下:根据步骤s1中搭建的信号交叉口通信场景,收集的车辆运行数据,包括车辆到交叉口停止线的距离、速度、加速度、绿灯剩余时间的信息。
15.进一步,步骤s3中,将车辆运行行为抽象为具有马尔科夫性质的决策过程,则某一时刻的交叉口车辆状态只取决于上一时刻的状态与车辆行为,且该决策过程是随时间不断行进的,将车辆作为智能体,在智能体与环境状态之间存在一个不断交互的过程。离线强化学习实现在智能体不与环境进行交互的前提下,仅根据收集的数据集,通过强化学习算法得到适用的策略。离线强化学习可以避免智能体与环境交互过程中产生的危险或是统计智能体回报导致的延误。具体步骤如下:
16.s301、将车辆通过交叉口的行驶过程模拟成马尔科夫决策过程,马尔科夫决策具体过程用五元组(s,a,r,p,γ)来描述,其中:s和a为环境状态和智能体动作的集合;r为奖励函数,奖励可以取决于环境状态和智能体动作或只取决于状态;p是状态转移函数,表示在某状态下执行某动作后到达另一状态的概率;γ是折扣因子,用于衡量当前奖励与未来长期回报的相对重要性。
17.s302、将网联车辆作为智能体,通过四维向量定义状态s,具体公式为:
18.s
t
=[dr(t),vr(t),φ(t),g(t)]
t
;
[0019]
其中,dr(t)代表车辆所处的位置;vr(t)代表车辆速度,由网联车辆提供;φ(t)代表绿灯剩余时间,若车辆行进方向处于红灯状态,φ(t)值为0;g(t)为红灯剩余时间,由v2i通信传输的spat信息提供。
[0020]
s303、智能体动作a表示为车辆的加速度控制,即加速度限值a
t
∈[dm,um范围内的连续动作空间;其中dm为加速度的下限值,um为加速度的上限值。除了加速度限值外,加速度
还满足车辆的安全性要求,即避免追尾或超出限速值范围。
[0021]
s304、定义奖励函数r,为了提高车辆的安全性能,需控制车辆在交叉口行动轨迹,改善车辆在交叉口处的拥挤和停车-启动行为,进而提升通行效率,降低车辆能耗。因此考虑车辆通过交叉口的时长、车辆通过交叉口的能量消耗以及ttc(time-to-collision,碰撞时间)作为奖励函数的指标。ttc表示前车与后车保持当前速度差时,后车追上前车发生碰撞需要的时间:
[0022][0023]
其中,ttci(t)表示第i辆车在第t秒的碰撞时间,xi表示第i辆车的位置,vi表示第i辆车的速度,l表示i车前车的车身长度;考虑集计的车辆旅行时长难以将奖励分配到每个时间步从而为瞬时的车辆动作进行决策,因此定义奖励函数:
[0024]rt
=ω1(x(t)-x(t-1))+ω2f(t)+ω3ttci(t)
[0025]
其中,x(t)-x(t-1)表示单个时间步内车辆的运动距离,f(t)表示车辆的瞬时油耗,ω1表示单个时间步内通行距离的权重,ω2表示车辆油耗的权重,ω3表示ttc在奖励函数中的权重。
[0026]
s305、由于信号交叉口场景的复杂性,环境的状态转移概率难以求出,因此基于无模型的强化学习方法定义状态转移函数p;为实现对车辆的最优控制,车辆通过对静态数据集进行学习得到最佳策略π
*
,实现期望回报最大化:
[0027][0028]
其中,θ表示策略空间;根据前述的环境状态、智能体动作与奖励定义,通过车辆的轨迹数据与信号灯历史数据计算得到。
[0029]
s306、折扣因子γ用于衡量当前奖励与未来长期回报的相对重要性,取值范围为[0,1),接近1的γ更关注长期的累积奖励,接近0的γ更重视短期奖励。从时刻到终止状态时,所有奖励的衰减总和为回报:
[0030][0031]
s307、使用cql(conservative q-learning,保守q-learning)离线强化学习算法消除部分外推误差q值为给定策略π下的状态价值函数:
[0032][0033]
s308、为了避免q值的过高估计,cql对某些状态上的高q值进行惩罚,在训练次数范围内,每一步都需更新熵正则系数α,具体公式为:
[0034][0035]
s309、更新函数q,具体公式为:
[0036][0037]
其中,为实际计算时策略π的贝尔曼算子。
[0038]
s310、更新策略π
φ
,得到最终适用该交叉口车辆控制的策略,具体公式为:
[0039][0040]
进一步,步骤s4中,使车辆按照最优化的轨迹运行的具体过程为:将网联车辆作为智能体部署到交叉口环境,在每个离散步内,车辆根据步骤s3中提出的策略从动作空间中选择相应的动作,通过控制车辆的加速度使车辆按照策略提供的最优化轨迹运行,从而减少车辆能耗,提高车辆通行效率和安全性能。
[0041]
进一步,本发明还提出一种基于离线强化学习的交叉口车辆轨迹优化系统,包括:
[0042]
智能网联下的通信场景模块,用于在交叉口处当车辆进入信号灯的控制范围时,车辆与信号灯可进行信息交互。
[0043]
数据集模块,用于构建车辆运行轨迹和信号灯spat信息的数据集,包括车辆到交叉口停止线的距离、速度、加速度、绿灯剩余时间的信息。
[0044]
马尔科夫决策模块,用于将车辆在交叉口的行驶过程模拟成马尔科夫决策过程。
[0045]
交叉口通行策略模块,用于在离线状态下通过强化学习方法训练车辆智能体,得到适用的交叉口通行策略。
[0046]
车辆控制模块,用于通过控制车辆加速度使车辆按照最优化的轨迹运行。
[0047]
进一步,本发明还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前文所述的基于离线强化学习的交叉口车辆轨迹优化方法的步骤。
[0048]
进一步,本发明还提出一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,所述计算机程序被处理器运行时执行前文所述的基于离线强化学习的交叉口车辆轨迹优化方法的步骤。
[0049]
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
[0050]
1、本发明采用的离线强化学习方法将已有的交叉口车辆轨迹数据用于智能体训练,车辆智能体只需根据当前状态从形成的策略空间中选择最优的策略控制交叉口车辆,避免车辆智能体在初始训练阶段横冲直撞可能造成的事故,提升了安全性能。
[0051]
2、本发明利用离线强化学习方法训练车辆智能体,计算复杂度较低,避免了智能体与环境的数据交互造成时间消耗导致的策略更新不及时,提升了车路协同系统向车辆提供控制策略的效率。
[0052]
3、本发明提供的离线强化学习方法,将车辆旅行时间、车辆能耗、ttc作为奖励函数的参数,联合优化了车辆的经济性和安全性能,可以缓解城市交叉口由于拥堵导致的交通延误和碳排放,实现了城市交叉口系统运行效率的提升和节能减排。
附图说明
[0053]
图1是本发明的整体流程图。
[0054]
图2是本发明搭建的网联信号交叉口场景。
[0055]
图3是本发明实施例中收集的某车辆的单车状态轨迹。
[0056]
图4是本发明马尔科夫决策过程流程图。
[0057]
图5是本发明实施例中适用于马尔科夫决策过程的静态数据集。
[0058]
图6是本发明实施例中某车辆根据最佳策略得到的车辆行驶轨迹。
[0059]
图7是本发明实施例中根据cql算法每回合后奖励总和的变化趋势。
[0060]
图8是本发明离线强化学习方法实施过程流程图。
[0061]
图9是本发明实施例中优化后的车辆轨迹、速度轨迹以及能耗与原始车辆跟驰模型的对比。
具体实施方式
[0062]
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0063]
本发明提供一种智能网联环境下基于离线强化学习的交叉口车辆轨迹优化方法,搭建智能网联环境下交叉口信号灯与网联车辆的通信场景。图1为本发明的整体流程图,具体步骤如下:
[0064]
s1、以位于佛罗里达州奥兰多市的中佛罗里达大学的入口处的交叉口为背景,搭建智能网联环境下交叉口信号灯与网联车辆的通信场景,如图2所示,进口道长度为57米。基于v2i通信,道路设施与网联车辆通过通信设备交换车辆运行轨迹和信号灯spat信息。根据交叉口之间的距离,设定车辆与信号灯的通信距离阈值,在本实施例中,通信距离阈值rc为300米,当信号灯与车辆距离小于rc时,车辆位于通信区域内,能够根据网联交叉口系统提供的策略行进,此时的通信范围是以信号交叉口为圆心,以rc为半径的圆形区域;否则,车辆将按照自身的跟驰行为行进。
[0065]
s2、收集信号交叉口网联车辆的运行数据和信号灯的spat信息,构建车辆运行轨迹和信号灯spat信息的静态数据集,其中,收集的车辆运行数据包括车辆到交叉口停止线的距离、速度、加速度、绿灯剩余时间、距离下次绿灯时长,绿灯状态信息。在本实施例中对此车辆以0.5秒为时间间隔,收集轨迹信息,具体内容如图3所示。图3描述了某车辆从进入交叉口观测范围到进入交叉口内部过程中,以0.5秒为时间间隔记录的车辆行驶信息与环境状态信息。由图3可得到车辆智能体在行驶过程中的环境和状态信息,为后续转化为马尔科夫数据集形成基础。
[0066]
s3、将车辆在交叉口的行驶过程模拟成马尔科夫决策过程,在步骤s2构建的静态数据集中以离线状态通过强化学习方法训练车辆智能体,得到适用的交叉口通行策略。
[0067]
所述马尔科夫决策过程,是指某一时刻的交叉口车辆状态只取决于上一时刻的状态与车辆行为,且该决策过程是随时间不断行进的,将车辆作为智能体,在智能体与环境状态之间存在一个不断交互的过程。如图4所示,该交互过程为:当车辆进入网联交叉口环境后,车辆智能体根据感知到的环境状态信息进行动作选择,环境根据车辆选择的动作向智能体进行状态与奖励数据的反馈,智能体继续进行动作选择,依次进行直至车辆进入交叉口内部。具体步骤如下:
[0068]
s301、将车辆通过交叉口的行驶过程模拟成马尔科夫决策过程,马尔科夫决策具体过程用五元组(s,a,r,p,γ)来描述,其中:s和a为环境状态和智能体动作的集合;r为奖励函数,奖励可以取决于环境状态和智能体动作或只取决于状态;p是状态转移函数,表示在某状态下执行某动作后到达另一状态的概率;γ是折扣因子,用于衡量当前奖励与未来长期回报的相对重要性。
[0069]
s302、将网联车辆作为智能体,通过四维向量定义状态s,具体公式为:
[0070]st
=[dr(t),vr(t),φ(t),g(t)]
t
;
[0071]
其中,dr(t)代表车辆所处的位置;vr(t)代表车辆速度,由网联车辆提供;φ(t)代表绿灯剩余时间,若车辆行进方向处于红灯状态,φ(t)值为0;g(t)为红灯剩余时间,由v2i通信传输的spat信息提供。
[0072]
s303、智能体动作a表示为车辆的加速度控制,即加速度限值a
t
∈[-4.5,2.6]范围内的连续动作空间。除了加速度限值外,加速度还满足车辆的安全性要求,即避免追尾或超出限速值范围。
[0073]
s304、定义奖励函数r,为了提高车辆的安全性能,需控制车辆在交叉口行动轨迹,改善车辆在交叉口处的拥挤和停车-启动行为,进而提升通行效率,降低车辆能耗。因此考虑车辆通过交叉口的时长、车辆通过交叉口的能量消耗作为奖励函数的指标。定义奖励函数:
[0074]rt
=ω1(x(t)-x(t-1))+ω2f(t)+ω3ttci(t)
[0075]
其中,x(t)-x(t-1)表示单个时间步内车辆的运动距离,在图3中为
‘
dist to stop line’列中每行的差值;f(t)表示车辆的瞬时油耗,即图5中
‘
fuels’列每行数值;ω1表示单个时间步内通行距离的权重,为1;ω2表示车辆油耗的权重,为2;ω3表示ttc在奖励函数中的权重。
[0076]
s305、由于信号交叉口场景的复杂性,环境的状态转移概率难以求出,因此基于无模型的强化学习方法定义状态转移函数p;为实现对车辆的最优控制,车辆通过对静态数据集进行学习得到最佳策略π
*
,实现期望回报最大化。本实施例中车辆轨迹转化为静态数据集如图5所示。图5描述了通过收集的车辆轨迹数据以及spat数据整合而成的可用于智能体学习的马尔科夫决策数据集。其中
‘
observations’列代表状态数据s
t
,
‘
actions’列表示智能体动作数据a
t
,
‘
tdists’和
‘
fuels’可整合为奖励r
t
。静态数据集以0.5秒为时间间隔,车辆智能体通过学习1000条不同车辆的马尔科夫数据集最终得到通过交叉口的最优策略。根据最佳策略得到的车辆轨迹如图6,车辆智能体学习所有轨迹数据后根据形成的策略π
*
为到达交叉口的车辆提供的最优通过策略,图6描述了在以0.5秒为时间间隔时,根据最优策略通过车辆的距离、速度、加速度以及能耗数据:
[0077][0078]
其中,θ表示策略空间;根据前述的环境状态、智能体动作与奖励定义,通过车辆的轨迹数据与信号灯历史数据计算得到。
[0079]
s306、折扣因子γ用于衡量当前奖励与未来长期回报的相对重要性,取值范围为[0,1),接近1的γ更关注长期的累积奖励,接近0的γ更重视短期奖励。在本实施例中,γ=0.99。从t时刻到终止状态时,所有奖励的衰减总和为回报,图7展示根据cql算法每回合后奖励总和的变化趋势,训练共进行100回合,每一回合的奖励总和总体呈上升趋势。由此可得,智能体经过多轮学习后,得到了更优化的通行策略,即更高效、节能的交叉口通行策略:
[0080][0081]
离线强化学习实现在智能体不与环境进行交互的前提下,仅根据收集的数据集,通过强化学习算法得到适用的策略。离线强化学习可以避免智能体与环境交互过程中产生的危险或是统计智能体回报导致的延误。如图8所示,具体步骤如下:
[0082]
s307、使用cql离线强化学习算法消除部分外推误差q值为给定策略π下的状态价值函数:
[0083][0084]
其中,cql算法的各项参数为:策略网络、目标q网络学习率为0.001,q网络学习率为0.003。训练使用批量大小为256,目标q网络同步系数0.005。
[0085]
s308、为了避免q值的过高估计,cql对某些状态上的高q值进行惩罚。初始化q网络q
θ
、目标q网络q
θ
′
和策略π
φ
,熵正则系数α=1,在训练次数范围内,每一步都需更新熵正则系数,具体公式为:
[0086][0087]
s309、更新函数q,具体公式为:
[0088][0089]
其中,为实际计算时策略π的贝尔曼算子。
[0090]
s310、更新策略π
φ
,得到最终适用该交叉口车辆控制的策略,具体公式为:
[0091][0092]
s4、将训练后的策略应用于交叉口的车辆控制,根据观察到的环境状态数据选定最合适的加速度,通过控制车辆加速度使车辆按照最优化的轨迹运行。优化后的车辆轨迹、速度轨迹以及能耗与原始车辆跟驰模型的对比如图9所示。其中idm代表在普通跟驰状态下车辆的轨迹,cql则表示根据离线强化学习算法优化后的车辆行驶轨迹。图9的左侧图描述了车辆在普通跟驰模型下与在离线强化学习算法优化后的策略下通过红绿灯的轨迹,优化后的轨迹在以较缓速度在绿灯时间通过了交叉口,未优化的轨迹则是在以较高速度到达交叉口后停止等待。图9的中间图描述了在此过程中两种不同策略下通过车辆的速度变化,图9的右侧图描述了在此过程中车辆的能耗变化。由此可得,经过cql离线强化学习优化后的车辆以更平稳的速度、更低的车辆能耗通过了交叉口。具体过程为:将网联车辆作为智能体部署到交叉口环境,在每个离散步内,车辆根据步骤s3中提出的策略从动作空间中选择相应的动作,通过控制车辆的加速度使车辆按照策略提供的最优化轨迹运行,从而减少车辆能耗,提高车辆通行效率和安全性能。
[0093]
本发明实施例还提出一种基于离线强化学习的交叉口车辆轨迹优化系统,包括智能网联下的通信场景模块、数据集模块、马尔科夫决策模块、交叉口通行策略模块、车辆控制模块及可在处理器上运行的计算机程序。需要说明的是,上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
[0094]
本发明实施例还提出一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。需要说明的是,上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
[0095]
本发明实施例还提出一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序。需要说明的是,上述系统中的各个模块对应本发明实施例所提供的方法的具体步骤,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
[0096]
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
技术特征:
1.一种基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,包括如下步骤:s1、搭建智能网联环境下交叉口信号灯与网联车辆的通信场景,设定车辆与信号灯的通信距离阈值,当车辆进入信号灯的控制范围时,双方可进行信息交互;s2、收集信号交叉口网联车辆的运行数据和信号灯的spat信息,构建静态数据集;s3、将车辆在交叉口的行驶过程模拟成马尔科夫决策过程,在步骤s2的静态数据集中在离线状态下通过强化学习方法训练车辆智能体,得到交叉口通行策略;s4、将训练后的策略应用于交叉口的车辆控制,通过控制车辆加速度使车辆按照最优化的轨迹运行。2.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤s1中,搭建通信场景的具体过程为:在智能网联交通环境下,基于v2i通信,道路设施与网联车辆通过通信设备交换车辆运行轨迹和信号灯spat信息;定义通信距离阈值r
c
,当信号灯与车辆距离小于r
c
时,车辆位于通信区域内,能根据网联交叉口系统提供的策略行进,此时的通信范围是以信号交叉口为圆心,以r
c
为半径的圆形区域;否则,车辆将按照自身的跟驰行为行进。3.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤s2中收集的车辆运行数据,包括车辆到交叉口停止线的距离、速度、加速度、绿灯剩余时间的信息。4.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤s3中,得到交叉口通行策略的具体步骤如下:s301、将车辆通过交叉口的行驶过程模拟成马尔科夫决策过程,马尔科夫决策过程用五元组(s,a,r,p,γ)来描述,其中:s和a为环境状态和智能体动作的集合;r为奖励函数;p是状态转移函数;γ是折扣因子;s302、将网联车辆作为智能体,通过四维向量定义状态s,具体公式为:s
t
=[d
r
(t),v
r
(t),φ(t),g(t)]
t
;其中,d
r
(t)代表车辆所处的位置;v
r
(t)代表车辆速度;φ(t)代表绿灯剩余时间,若车辆行进方向处于红灯状态,φ(t)值为0;g(t)为红灯剩余时间;s303、智能体动作a表示车辆的加速度控制,即加速度限值a
t
∈[d
m
,u
m
]范围内的连续动作空间;其中d
m
为加速度的下限值,u
m
为加速度的上限值;s304、将车辆通过交叉口的时长、车辆通过交叉口的能量消耗以及ttc作为奖励函数r的指标,ttc表示前车与后车保持当前速度差时,后车追上前车发生碰撞需要的时间:其中,ttc
i
(t)表示第i辆车在第t秒的碰撞时间,x
i
表示第i辆车的位置,v
i
表示第i辆车的速度,l表示i车前车的车身长度;定义奖励函数:r
t
=ω1(x(t)-x(t-1))+ω2f(t)+ω3ttc
i
(t);其中,x(t)-x(t-1)表示单个时间步内车辆的运动距离,f(t)表示车辆的瞬时油耗,ω1表示单个时间步内通行距离的权重,ω2表示车辆油耗的权重,ω3表示ttc在奖励函数中的
权重;s305、基于无模型的强化学习方法定义状态转移函数p,车辆通过对静态数据集进行学习得到最佳策略π
*
,具体公式为:其中,θ表示策略空间;根据前述的环境状态、智能体动作与奖励定义,通过车辆的轨迹数据与信号灯历史数据计算得到;s306、折扣因子γ的取值范围为[0,1),从t时刻到终止状态时,所有奖励的衰减总和为回报:s307、使用cql离线强化学习算法消除部分外推误差q值为给定策略π下的状态价值函数:s308、cql对某些状态上的高q值进行惩罚,在训练次数范围内,每一步都需更新熵正则系数α,具体公式为:s309、更新函数q,具体公式为:其中,为实际计算时策略π的贝尔曼算子;s310、更新策略π
φ
,得到交叉口车辆控制的策略,具体公式为:5.根据权利要求1所述的基于离线强化学习的交叉口车辆轨迹优化方法,其特征在于,步骤s4中,使车辆按照最优化的轨迹运行的具体过程为:将网联车辆作为智能体部署到交叉口环境,在每个离散步内,车辆根据步骤s3中提出的策略从动作空间中选择相应的动作,通过控制车辆的加速度使车辆按照策略提供的最优化轨迹运行。6.一种基于离线强化学习的交叉口车辆轨迹优化系统,其特征在于,包括:智能网联下的通信场景模块,用于在交叉口处当车辆进入信号灯的控制范围时,车辆与信号灯可进行信息交互;数据集模块,用于构建车辆运行轨迹和信号灯spat信息的数据集,包括车辆到交叉口停止线的距离、速度、加速度、绿灯剩余时间的信息;马尔科夫决策模块,用于将车辆在交叉口的行驶过程模拟成马尔科夫决策过程;交叉口通行策略模块,用于在离线状态下通过强化学习方法训练车辆智能体,得到交叉口通行策略;车辆控制模块,用于通过控制车辆加速度使车辆按照最优化的轨迹运行。7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算
机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。8.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至5中任一项所述的方法。
技术总结
本发明公开了一种基于离线强化学习的交叉口车辆轨迹优化方法、系统,具体步骤如下:搭建智能网联环境下交叉口信号灯与网联车辆的通信场景,设定场景内车辆与信号灯的通信距离阈值,当车辆行驶至信号灯的控制区域时,双方可进行信息交互。收集信号交叉口网联车辆的运行轨迹和信号相位配时数据,将车辆在交叉口的行驶过程抽象为马尔科夫决策过程,将车辆旅行时间、车辆能耗、碰撞时间等作为马尔科夫决策奖励函数的参数,构建适用的数据集,在离线状态下通过强化学习方法训练车辆智能体得到适用的交叉口通行策略。本发明可应用于交叉口的车辆控制,通过控制车辆加速度使车辆按照最优轨迹行驶,实现车辆的节能减排和安全性能提升。升。升。
技术研发人员:张健 史晓宇 姜夏 张海燕 王博 钱品政
受保护的技术使用者:东南大学
技术研发日:2023.05.12
技术公布日:2023/8/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/