基于部分可观环境有轨电车优先策略方法及系统
未命名
09-12
阅读:88
评论:0

1.本发明涉及有轨电车运营规划技术领域,具体涉及一种基于部分可观环境有轨电车优先策略方法及系统。
背景技术:
2.随着城市的发展,有轨电车这样低成本、建设周期短的轨道交通已经成为建设小型城市、中大型城市市郊联线的首选。有轨电车除了类地铁运营还有大量的类公交运营模式,虽然有轨电车与快速公交(brt)十分相似,但是与之相比,现代有轨电车具有更大的载客量、更舒适的乘车环境,更加贴合站台的车底,尤其照顾了残障人士的乘车需求等等的诸多优势。然而,在实践的过程中,有轨电车通行效率还在较低水平。在类公交模式中,有轨电车大多都选择半独立路权,即在信号交叉路口与社会车辆共享一个信号相位,这是导致有轨电车车速无法提高的重要原因。
3.使用信号优先(tsp)可以大幅提高有轨电车的运行效率。信号优先控制主要分为被动优先和主动优先两大类。被动优先解决静态数据,采用离线策略对信号的周期长度、绿波带宽调整,提出了混合整数规划方法,用于修改有轨电车的驻站时间或者延长旅行时间来降低有轨电车信号优先对汽车交通的负面影响;主动优先则对信号进行在线控制,一般采用“绿灯延长”,“红灯缩短”或“相位插入”这三种手段。该类方法研究了有轨电车在道路平面交叉口的优先信号控制系统及模型。提出的优先信号控制系统包括四部分:有轨电车检测装置、有轨电车行程时间预测模式、有轨电车优先申请生成器、信号控制机。该控制方法可为有轨电车提供最优绿波带宽,目标函数为最小化有轨电车交叉口延误同时减小对背景车流的影响。
4.传统的自适应信号优先对于静态网络已显示有良好表现,但是其在类公交运营模式中仍存在以下确定:当存在不可预测实时随机变化时(驾驶员的随机性,交通突发情况等),模型预测会发生较大的偏差;非线性优化模型能够直接利用的交通信息非常受限,无法从更抽象的数据提取相关优化目标的特征;对数据的依赖程度高,要求传感器数据准确性。
技术实现要素:
5.本发明的目的在于提供一种基于部分可观环境有轨电车优先策略方法及系统,以解决上述背景技术中存在的至少一项技术问题。该技术方案中,基于双重的drqn深度学习架构并命名为ddrqn,将其运用于有轨电车环境,提高其应对实时变化的环境的能力,为应用于pomdp的tsp设计了一种奖励函数评估了平交道口总吞吐量,提高深度学习模型的适配能力,对有轨电车环境进行pomdp设计,测验现在已有模型与本文提出的drdqn模型在这种环境下各自的学习效果,验证了ddrqn的优越性,改善了其对传感器数据的依赖。
6.为了实现上述目的,本发明采取了如下技术方案:
7.一方面,本发明提供一种基于部分可观环境有轨电车优先策略方法,包括:
8.结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;
9.基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;
10.基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;
11.将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。
12.可选的,基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵作为隐马尔可夫模型的输入值,结合长短时记忆模型,将长短时记忆模型的输出与实际下一个观察值进行比较,计算误差反向传递并更新长短时记忆模型的权重,直到误差达到收敛。
13.可选的,利用深度递归神经网络搭建q函数方程,为每个状态行动对分配一个初始q值;在采样更新网络环节,对完整的情节进行抽样,然后从一个随机的时间点作为第一状态来更新网络;按照双重q学习算法,从经验回放池中随机获取一批样本进行双重深度循环递归q网络模型训练,利用drqn算法进行训练,并更新q网络参数;最后输出全连接层的四维动作空间给环境的主体,根据输出对环境进行改变获得下一季的观察。
14.可选的,信念值矩阵和速度矩阵输入到双重深度循环递归q网络当中,以有轨电车平交道口部分可观察的马尔可夫过程中的有轨电车环境的主体与环境和深度学习网络模型进行交互,每一步得到动作空间和奖励值,输入进主体下一时间步的奖励值,进行下一时间步的动作输出的q值判断依据。
15.可选的,奖励函数利用了上一个时间步的总队列长度的变化,当队列长度为减少则为奖励,否则变为惩罚;当与有轨电车冲突的南北进口排列长度小于3时,额外给出奖励;其中,φ1与φ2分别为两部分的权重参数,φ1,φ2≥0并且φ1+φ2=1;q
i,t-1
与q
i,t
分别表示车道i在当前离散决策时刻t与前一个离散决策时刻t-1的社会车辆排队长度;ki是离散权重参数,用于在实时奖励计算中对不同的拥堵等级区别对待;
[0016][0017]
每个不同排队车辆的权重值:
[0018][0019]
当电车停一次,就会受到大量的惩罚,但相应的直接通过就会得到奖励:
[0020][0021]
可选的,输入时会将观测矩阵与概率矩阵的哈达玛积,得到每一个位置的信念值b(s)来作为输入特征;这一时刻的信念值只与上一个信念值相关,实时的动作和获得观察矩阵更新函数如下:
[0022][0023]
其中,pr(o
t
∣b
t-1
,a
t-1
)是归一化因子,表明在信念值为b
t-1
的时候采取动作a
t-1
得到观察o
t
的概率;
[0024]
如果传感器为损坏则直接输出为相反的位置值:
[0025][0026]
信念状态到动作a的映射:π(b)
→ac
,策略π的长期奖励函数为:
[0027][0028]
则通过贝尔曼迭代方程找到最优的策略π*;
[0029]qt+1
(b,a)是当在信念值为b时选择动作a的动作a的q值:
[0030][0031][0032]
则对应的最优策略为:
[0033][0034]
可选的,通过样本池和目标q网络来提高训练效率并减少波动;样本池用于保存交互中产生的样本,定义估计状态-动作值函数的神经网络为主q网络;在训练主q网络时,随机从样本池中取出一定数量的样本进行梯度下降计算;设置目标q网络,每一次迭代学习的目标值由目标q网络计算得到;
[0035]
在第i步,迭代学习的目标值表示为:
[0036][0037]
状态-动作值函数迭代逼近形式为:
[0038][0039]
其中,α∈[0,1)为学习因子,为第i步迭代的目标值,主q网络中的参数每隔n步便能更新至目标q网络。
[0040]
可选的,在当前q网络中找到最大q值对应的动作,最终得到状态
→
动作值函数的最优估计参数以及交通信号最优控制策略为:
[0041][0042]
其中,s
t
为t时刻采集得到的真实交通状态,a
t
为t时刻计算得出的最优信号相位。
[0043]
然后根据最大的动作值带入q网络中,计算对应动作的目标q值:
[0044][0045]
可选的,更新网络方法是对完整的情节进行抽样,然后从一个随机的时间点作为第一状态来更新网络;随机更新更符合的随机抽样策略,并通过使用两个drqn网络,其中一个用于选择行动,另一个用于评估所选行动;然后,使用第一个网络的选定行动和第二个网络的q值来计算q值。
[0046]
第二方面,本发明提供一种基于部分可观环境有轨电车优先策略系统,包括:
[0047]
建立模块,用于结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;
[0048]
提取模块,用于基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;
[0049]
处理模块,拥有将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。
[0050]
第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的基于部分可观环境有轨电车优先策略方法。
[0051]
第四方面,本发明提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的基于部分可观环境有轨电车优先策略方法。
[0052]
第五方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的基于部分可观环境有轨电车优先策略方法的指令。
[0053]
本发明有益效果:在数据不完全环境下具有较好的抗干扰能力,能减少有轨电车平交道口的路口总车辆的平均延误时间,提高有轨电车和社会车辆在交叉口的通行效率;解决了深度学习中的q值过估计的问题,引入双重q学习网络模型构成双重深度循环递归q网络模型,解决了在pomdp下的有轨电车平交道口信号优先策略问题;具有更强的环境适应能力和鲁棒性,在不稳定环境下,能提高有轨电车在路口的通行效率同时最小程度影响冲突相位的社会车辆的延时。
[0054]
本发明附加方面的优点,将在下述的描述部分中更加明显的给出,或通过本发明的实践了解到。
附图说明
[0055]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本
领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0056]
图1为本发明实施例所述的基于pomdp的有轨电车信号优先策略深度强化学习模型流程图。
[0057]
图2为本发明实施例所述的三车道加有轨电车车道状态矩阵模拟图。
[0058]
图3为本发明实施例所述的三车道加有轨电车车道位置矩阵模拟图。
[0059]
图4为本发明实施例所述的三车道加有轨电车车道速度矩阵模拟图。
[0060]
图5为本发明实施例所述的平交道口真实场景示意图。
[0061]
图6为本发明实施例所述的信号配时图。
[0062]
图7为本发明实施例所述的hmm与环境和drl主体交互流程图。
[0063]
图8为本发明实施例所述的lstm处理hmm信息流程图。
[0064]
图9为本发明实施例所述的ddrqn数据处理流程图。
[0065]
图10为本发明实施例所述的基于部分可观察的马尔可夫过程的有轨电车信号优先策略深度强化学习方法实施流程图。
[0066]
图11为本发明实施例所述的ddrqn数据处理结构图。
[0067]
图12为本发明实施例所述的三种网络1500轮奖励值(a)有轨电车停车次数(b)折线图。
[0068]
图13为本发明实施例所述的不同概率下的三种神经网络奖励值对比图。
具体实施方式
[0069]
下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0070]
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
[0071]
还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
[0072]
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
[0073]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0074]
为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且
具体实施例并不构成对本发明实施例的限定。
[0075]
本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
[0076]
实施例1
[0077]
本实施例1中,首先提供了一种基于部分可观环境有轨电车优先策略系统,包括:
[0078]
建立模块,用于结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;
[0079]
提取模块,用于基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;
[0080]
处理模块,拥有将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。
[0081]
本实施例1中,利用上述的系统实现了基于部分可观环境有轨电车优先策略方法,包括:
[0082]
结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;
[0083]
基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;
[0084]
基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;
[0085]
将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。
[0086]
其中,基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵作为隐马尔可夫模型的输入值,结合长短时记忆模型,将长短时记忆模型的输出与实际下一个观察值进行比较,计算误差反向传递并更新长短时记忆模型的权重,直到误差达到收敛。
[0087]
利用深度递归神经网络搭建q函数方程,为每个状态行动对分配一个初始q值;在采样更新网络环节,对完整的情节进行抽样,然后从一个随机的时间点作为第一状态来更新网络;按照双重q学习算法,从经验回放池中随机获取一批样本进行双重深度循环递归q网络模型训练,利用drqn算法进行训练,并更新q网络参数;最后输出全连接层的四维动作空间给环境的主体,根据输出对环境进行改变获得下一季的观察。
[0088]
信念值矩阵和速度矩阵输入到双重深度循环递归q网络当中,以有轨电车平交道口部分可观察的马尔可夫过程中的有轨电车环境的主体与环境和深度学习网络模型进行交互,每一步得到动作空间和奖励值,输入进主体下一时间步的奖励值,进行下一时间步的动作输出的q值判断依据。
[0089]
奖励函数利用了上一个时间步的总队列长度的变化,当队列长度为减少则为奖
励,否则变为惩罚;当与有轨电车冲突的南北进口排列长度小于3时,额外给出奖励;其中,φ1与φ2分别为两部分的权重参数,φ1,φ2≥0并且φ1+φ2=1;q
i,t-1
与q
i,t
分别表示车道i在当前离散决策时刻t与前一个离散决策时刻t-1的社会车辆排队长度;ki是离散权重参数,用于在实时奖励计算中对不同的拥堵等级区别对待;
[0090][0091]
每个不同排队车辆的权重值:
[0092][0093]
当电车停一次,就会受到大量的惩罚,但相应的直接通过就会得到奖励:
[0094][0095]
输入时会将观测矩阵与概率矩阵的哈达玛积,得到每一个位置的信念值b(s)来作为输入特征;这一时刻的信念值只与上一个信念值相关,实时的动作和获得观察矩阵更新函数如下:
[0096][0097]
其中,pr(o
t
∣b
t-1
,a
t-1
)是归一化因子,表明在信念值为b
t-1
的时候采取动作a
t-1
得到观察o
t
的概率;
[0098]
如果传感器为损坏则直接输出为相反的位置值:
[0099][0100]
信念状态到动作a的映射:π(b)
→ac
,策略π的长期奖励函数为:
[0101][0102]
则通过贝尔曼迭代方程找到最优的策略π*;
[0103]qt+1
(b,a)是当在信念值为b时选择动作a的动作a的q值:
[0104][0105][0106]
则对应的最优策略为:
[0107]
[0108]
通过样本池和目标q网络来提高训练效率并减少波动;样本池用于保存交互中产生的样本,定义估计状态-动作值函数的神经网络为主q网络;在训练主q网络时,随机从样本池中取出一定数量的样本进行梯度下降计算;设置目标q网络,每一次迭代学习的目标值由目标q网络计算得到;
[0109]
在第i步,迭代学习的目标值表示为:
[0110][0111]
状态-动作值函数迭代逼近形式为:
[0112][0113]
其中,α∈[0,1)为学习因子,为第i步迭代的目标值,主q网络中的参数每隔n步便能更新至目标q网络。
[0114]
在当前q网络中找到最大q值对应的动作,最终得到状态
→
动作值函数的最优估计参数以及交通信号最优控制策略为:
[0115][0116]
其中,s
t
为t时刻采集得到的真实交通状态,a
t
为t时刻计算得出的最优信号相位。
[0117]
然后根据最大的动作值带入q网络中,计算对应动作的目标q值:
[0118][0119]
更新网络方法是对完整的情节进行抽样,然后从一个随机的时间点作为第一状态来更新网络;随机更新更符合的随机抽样策略,并通过使用两个drqn网络,其中一个用于选择行动,另一个用于评估所选行动;然后,使用第一个网络的选定行动和第二个网络的q值来计算q值。
[0120]
实施例2
[0121]
本实施例2中,提供了一种基于部分可观察的马尔可夫过程(pomdp)的有轨电车信号优先策略深度强化学习模型。该模型在数据不完全环境下具有较好的抗干扰能力,能减少有轨电车平交道口的路口总车辆的平均延误时间,提高有轨电车和社会车辆在交叉口的通行效率。该方法首先将有轨电车平交道口进行特征提取,将四相位道口来车的位置和速度都抽象为状态矩阵;将路口信号灯的下一时间步的相位显示作为控制对象;以有轨电车的停车次数和路口排队车辆数的减少作为控制目标,三部分结合为有轨电车特有的马尔可夫过程(mdp);第二利用部分可观察的马尔可夫过程特点,将随机个数和位置的状态矩阵进行遮盖,以不同的概率给予状态矩阵错误的位置信息来模拟观察矩阵,每一个位置的错误观察概率设置为概率矩阵,以观察矩阵和概率矩阵哈达玛积为信念值函数,将有轨电车平交道口环境的mdp转换为pomdp;第三,利用pomdp的特点,也就是其中的隐马尔可夫模型(hmm),与也含有隐藏单元的长短时记忆模型(lstm)进行结合,加入到深度学习模型(dqn),并且为了解决深度学习中的q值过估计的问题,引入双重q学习网络模型(ddqn),构成双重深度循环递归q网络模型(ddrqn)解决在pomdp下的有轨电车平交道口信号优先策略问题。与其他的单一深度学习模型和单一环境的有轨电车信号优先策略相比,具有更强的环境适应能力和鲁棒性,在不稳定环境下,能提高有轨电车在路口的通行效率同时最小程度影响冲突相位的社会车辆的延时。
[0122]
本实施例中提供的基于pomdp的有轨电车平交道口信号优先的深度学习模型,将双重q学习算法与drqn结合改进为ddrqn,特别适应了pomdp中的hmm输入的问题,以及dqn网络的q值过估计的问题。
[0123]
ddrqn网络模型包括:
[0124]
s1:有轨电车平交道口pomdp建立及特征矩阵的提取模块;
[0125]
s2:pomdp的观测矩阵和观测概率的信念值矩阵输入模块;
[0126]
s3:基于lstm的ddrqn模型输出模块;
[0127]
所述步骤s1中的有轨电车平交道口pomdp建立及特征矩阵的提取模块,具体采用如下步骤:
[0128]
s1:基于部分可观察的马尔可夫过程的有轨电车平交道口状态特征提取:
[0129]
pomdp是传统马尔可夫过程和隐马尔可夫模型(hmm)的组合,它以概率方式将不可观测的系统状态与观测结果联系起来,hmm与环境和drl代理之间的交互图如图1所示。一个离散时间的pomdp可以被正式描述为一个7元组。s={s1,s2,
…
,sn}是一组部分可观测状态,a={a1,a2,...,am}是一组动作,t是一组状态转移矩阵,t(s
′
∣s,a)是在动作a之后转移状态的状态矩阵,ω={o1,o2,...,ok}是一组观察,o是一组观察概率矩阵,o(o∣s
′
,a)是达到状态采取动作a的概率,r是一组奖励,r
(s,a)
代表在状态s采取动作a得到的奖励,γ∈[0,1]是折扣因子。
[0130]
s1.1观测矩阵:
[0131]
在平交道口环境中,在东、西、北、南四个方向设有左转、右转、直行车道;在东、西入口处设有有轨电车。根据《城市道路交叉口设计cjj-152-2010》,主干道的设置范围在70-90米之间,平均车长为4.8米,汽车的等待距离通常为2米,所以状态矩阵的单元长度为7米。为了使输入信息最大化,矩阵尺寸设置14米。具体矩阵如图2、3所示,其中b为整个车道的长度,l为单元长度,c=b/l为间隔数。位置矩阵的表示为,当车辆在划分的区域内,此位置的矩阵设置为1,无车辆区域设置为0。
[0132]
为了更方便地描述速度状态矩阵,用min-max方法对速度进行归一化处理,并将速度转化为[0,1]之间的无量纲数据,然后填入14
×
14状态矩阵。具体矩阵如图4所示。
[0133]
设置观测矩阵时,在社会车辆车道上,14-50个不确定数量的位置矩阵元素是不可完全观测的,以模拟传感器的损坏情况,同时设置一个观测概率矩阵,其形式与位置矩阵相同,尺寸为14
×
14,每个元素代表位置元素的可观测概率。其中设置一个0-1的随机数,当随机数小于可观测概率时,位置矩阵为-1,代表传感器的损坏,最后得到的矩阵为观察在矩阵。
[0134]
s1.2动作空间
[0135]
在行动时间步中,输出行动空间有四个维度,是四个方向的交通相位的独热码。然而,本发明在输出相位后并不立即改变相位,而是首先判断它是否与上次的相位相同。如果是,它将继续。如果不是,则需要三秒时间等待黄灯,如果上次的相位是全红相位之前的相位,则需要三秒时间等待黄灯并增加一个全红相位。整体流程算法表1所示。
[0136]
表1
[0137][0138]
s1.3奖励函数
[0139]
奖励函数利用了上一个时间步的总队列长度的变化,当队列长度为减少则为奖励,否则变为惩罚,具体的参数设计根据本实施例中车辆的分布情况,做出调整;同时,当与有轨电车冲突的南北进口排列长度小于3时,额外给出奖励。其中,φ1与φ2分别为两部分的权重参数,φ1,φ2≥0并且φ1+φ2=1。q
i,t-1
与q
i,t
分别表示车道i在当前离散决策时刻t与前一个离散决策时刻t-1的社会车辆排队长度(即排队车辆数)。ki是离散权重参数,用于在实时奖励计算中对不同的拥堵等级区别对待,φ1,φ2均设为0.5。
[0140][0141]
每个不同排队车辆的权重值如式(2)所示。
[0142][0143]
当电车停一次,就会受到大量的惩罚,但相应的直接通过就会得到奖励。具体的设计如以下公式(3):
[0144][0145]
s2.1有轨电车平交道口真实环境模拟
[0146]
如图5所示,本实施例中设置了300
×
300米的十字路口,路口有四相信号灯,每个方向都有左转和右转车道。传感器设置在从电车道到十字路口75米的距离。数据是广某市黄某区有轨电车1号线香雪大道与香雪8路交叉口在早高峰时段的各个方向的交通流量。电车从东、西两个方向进入路口,每9分钟发车一次。有轨电车运行参数见表2,原信号相位周期设置如图6所示。
[0147]
表2:有轨电车运行参数
[0148][0149]
当有轨电车进入检测区域时,检测器e0或e1将传递信息,drl代理接收观察到的环境,做出行动选择,在有轨电车离开检测区域的最后一个时间步骤更新环境,并将其存储在样本池。
[0150]
本实施例中考虑随机变化的交通环境,在每次训练开始随机设置系统初始状态初始信号相位以及相位剩余时间均为随机选择;各车道社会车辆初始排队长度为离散整数值;有轨电车初始速度为连续值,在30-70km/h中随机选择。在有轨电车接近路口过程中,其速度存在随机波动,范围为30-70km/h。
[0151]
s2.2:pomdp的观测矩阵和观测概率的信念值矩阵输入模块
[0152]
在pomdp中,因为drl代理只能从环境中观察,而不能获得确切的状态值,所以它只能根据一组过去的动作和观察的状态{a0,o1,a1,o2,a2,o3,
…
,a
t-1
,z
t
}来对下一个动作进行判断。将原始的问题映射到信念空间中,可以将pomdp问题转化成mdp问题进行解决。
[0153]
本实施例中输入时会将观测与观测矩阵的哈达玛积,得到每一个位置的信念值b(s)来作为ddrqn的一部分输入特征。这一时刻的信念值只与上一个信念值相关,实时的动作和获得观察矩阵更新函数如下:
[0154][0155]
pr(o
t
∣b
t-1
,a
t-1
)是归一化因子,表明在信念值为b
t-1
的时候采取动作a
t-1
得到观察o
t
的概率。在此技术情况中为位置矩阵传感器的损坏概率,设置为0-1的随机值,如果传感器为损坏则直接输出为相反的位置值。
[0156][0157]
pomdp的策略是信念状态到动作a的映射:π(b)
→ac
,策略π的长期奖励函数如公式:
[0158][0159]
因此,pomdp的任务就是通过贝尔曼迭代方程找到最优的策略π*。q
t+1
(b,a)是当在信念值为b时选择动作a的动作a的q值,如公式7,8:
[0160][0161][0162]
对应的最优策略如公式(9):
[0163][0164]
最终hmm与环境和drl主体的交互流程如图7。
[0165]
s3:基于hmm的ddrqn模型输出模块;
[0166]
s3.1 hmm与lstm结合神经网络输入层
[0167]
如图8所示,在pomdp中,一般设置hmm来模拟底层的状态序列,因为lstm中的隐藏神经元贴合hmm中的隐马尔科夫链,所以用lstm来模拟与每个状态相关的输出概率。以下是该过程的一般概要:
[0168]
·
hmm在输入序列上进行训练,通过隐藏序列进行建模。
[0169]
·
计算每个状态在每个时间步长的概率。
[0170]
·
训练lstm来模拟与每个状态相关的概率。
[0171]
·
将hmm的状态概率与lstm的输出概率相乘。
[0172]
s3.2建造ddrqn网络结构并输出
[0173]
ddrqn通过样本池和目标q网络来提高训练效率并减少波动。样本池用于保存交互中产生的样本使得控制器可以从过往行动经验中进行学习。定义估计状态-动作值函数的神经网络为主q网络。在训练主q网络时,随机从样本池中取出一定数量的样本进行梯度下降计算,以消除样本数据间的关联性,提高学习效率。设置目标q网络,每一次迭代学习的目标值由目标q网络计算得到,以此降低训练中因为策略未收敛而产生的波动。在第i步,迭代学习的目标值表示为:
[0174][0175]
状态-动作值函数迭代逼近形式为:
[0176][0177]
其中,α∈[0,1)为学习因子,为第i步迭代的目标值,主q网络中的参数每隔n步便能更新至目标q网络(θ
→
θ-)。
[0178]
ddrqn不再是直接在目标q网络里面找各个动作中的最大q值,而是在当前q网络中找到最大q值对应的动作,最终得到状态
→
动作值函数的最优估计参数以及交通信号最优控制策略为:
[0179][0180]
其中,s
t
为t时刻采集得到的真实交通状态。a
t
为t时刻计算得出的最优信号相位。然后根据这个最大的动作值带入q网络中,去计算对应动作的目标q值,如式(13):
[0181][0182]
在drqn得到其输出后,更新网络方法是对完整的情节进行抽样,然后从一个随机的时间点作为第一状态来更新网络。随机更新更符合dqn的随机抽样策略,并通过使用两个drqn网络,其中一个用于选择行动,另一个用于评估所选行动。然后,使用第一个网络的选定行动和第二个网络的q值来计算q值。这有助于减少对q值的高估,同时仍能捕捉到连续数据的时间依赖性。如图9为ddrqn的结构示意图,ddrqn一共有三层神经网络,第一层为lstm,共有128个隐藏神经元,确保输入为hmm模型,第二、三层为线性单元,夫人你别有20个神经
元输出和4个神经元输出。第三层神经网络为全连接层,输出为4维动作空间。模型参数如下表3所示。
[0183]
表3:drl模型参数
[0184][0185]
综上,如图10所示,本实施例所述的基于部分可观察的马尔可夫过程的有轨电车信号优先策略深度强化学习方法实施流程,包括如下步骤:
[0186]
步骤s1.1:有轨电车平交道口pomdp建立及特征矩阵的提取状态模块。
[0187]
通过对四相位三个车道的车辆和东西进口的有轨电车抽象为速度和位置矩阵,并将随机个数的位置矩阵进行按照可观测概率失效,得到位置矩阵的观察矩阵,将其中的速度进行min-max处理为(0-1)之间的无量纲数。
[0188]
步骤s1.2:有轨电车平交道口pomdp建立及特征矩阵的提取动作模块;
[0189]
根据上一个时间步的信号相位和总信号配时作为判断条件,输出下一时间步的信号灯相位。
[0190]
步骤s1.3:有轨电车平交道口pomdp建立及特征矩阵的提取奖励模块;
[0191]
根据每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件,通过灰色关联度分析出不同奖惩因素的权重关系。
[0192]
步骤s2:pomdp的观测矩阵和观测概率的信念值矩阵输入模块;
[0193]
得到s1.1生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,最后将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵,作为hmm的输入值。
[0194]
步骤s3.1:hmm与lstm结合神经网络输入层
[0195]
将信念值输入给lstm模型,模型有128个隐藏神经元,初始权重和偏移用正态分布随机取值。将lstm模型的输出与实际下一个观察值进行比较,以计算误差反向传递并更新lstm权重,不断重复前两个步骤直到误差达到收敛。
[0196]
步骤s3.2:建造ddrqn网络结构并输出
[0197]
如图11所示,初始化q网络参数:利用深度递归神经网络(drqn)搭建q函数方程,为每个状态行动对分配一个初始q值。在采样更新网络环节,对完整的情节进行抽样,然后从一个随机的时间点作为第一状态来更新网络。按照双重q学习算法,从经验回放池中随机获取一批样本进行训练,利用drqn算法进行训练,并更新q网络参数。最后输出全连接层的四维动作空间给环境的主体,让他根据输出对环境进行改变获得下一季的观察。
[0198]
最后将s2.1的信念值矩阵和s1.1的速度矩阵输入到ddrqn网络当中,以pomdp的有轨电车环境的主体与环境和深度学习网络模型进行交互,每一步得到4
×
1的动作空间和奖励值,输入进主体下一时间步的奖励值,进行下一时间步的动作输出的q值判断依据。后一百集奖励平均值如表4所示。训练了1500轮ddrqn的结果和其他两种网络的输出值进行对比,可以从表中看到ddrqn比其他两种网络在0.9概率区间内高了44%,23%。如图12、图13所示,并且在每一个观察概率的前提下,ddrqn的表现效果都比dqn与ddqn强,表明此方法适
合处理pomdp情况下的有轨电车信号优先策略的问题。
[0199]
表4后一百集奖励平均值
[0200][0201]
综上,本实施例所提方法的研究的重难点主要集中在对有轨电车平交道口环境的pomdp状态的转化过程,如何确定车道划分个数、如何表示车辆位置和速度,如何表示有轨电车的位置和速度,以及环境体交互的时候奖励函数的确定,既保证减少有轨电车停车次数又不会影响社会车辆的行驶;如何将hmm对状态矩阵进行转化,并且作为信念值矩阵输入到lstm模型中,如何将双重dqn算法与drqn结构结合,减少dqn过估计的问题。
[0202]
实施例3
[0203]
本实施例3提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现基于部分可观环境有轨电车优先策略方法,该方法包括:
[0204]
结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;
[0205]
基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;
[0206]
基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;
[0207]
将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。
[0208]
实施例4
[0209]
本实施例4提供一种计算机程序产品,包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现基于部分可观环境有轨电车优先策略方法,该方法包括:
[0210]
结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;
[0211]
基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;
[0212]
基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;
[0213]
将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。
[0214]
实施例5
[0215]
本实施例5提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述
存储器存储的计算机程序,以使电子设备执行实现基于部分可观环境有轨电车优先策略方法的指令,该方法包括:
[0216]
结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;
[0217]
基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;
[0218]
基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;
[0219]
将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。
[0220]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0221]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0222]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0223]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0224]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种基于部分可观环境有轨电车优先策略方法,其特征在于,包括:结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。2.根据权利要求1所述的基于部分可观环境有轨电车优先策略方法,其特征在于,基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵作为隐马尔可夫模型的输入值,结合长短时记忆模型,将长短时记忆模型的输出与实际下一个观察值进行比较,计算误差反向传递并更新长短时记忆模型的权重,直到误差达到收敛。3.根据权利要求2所述的基于部分可观环境有轨电车优先策略方法,其特征在于,利用深度递归神经网络搭建q函数方程,为每个状态行动对分配一个初始q值;在采样更新网络环节,对完整的情节进行抽样,然后从一个随机的时间点作为第一状态来更新网络;按照双重q学习算法,从经验回放池中随机获取一批样本进行双重深度循环递归q网络模型训练,利用drqn算法进行训练,并更新q网络参数;最后输出全连接层的四维动作空间给环境的主体,根据输出对环境进行改变获得下一季的观察。4.根据权利要求3所述的基于部分可观环境有轨电车优先策略方法,其特征在于,信念值矩阵和速度矩阵输入到双重深度循环递归q网络当中,以有轨电车平交道口部分可观察的马尔可夫过程中的有轨电车环境的主体与环境和深度学习网络模型进行交互,每一步得到动作空间和奖励值,输入进主体下一时间步的奖励值,进行下一时间步的动作输出的q值判断依据。5.根据权利要求2所述的基于部分可观环境有轨电车优先策略方法,其特征在于,奖励函数利用了上一个时间步的总队列长度的变化,当队列长度为减少则为奖励,否则变为惩罚;当与有轨电车冲突的南北进口排列长度小于3时,额外给出奖励;其中,φ1与φ2分别为两部分的权重参数,φ1,φ2≥0并且φ1+φ2=1;q
i,t-1
与q
i,t
分别表示车道i在当前离散决策时刻t与前一个离散决策时刻t-1的社会车辆排队长度;k
i
是离散权重参数,用于在实时奖励计算中对不同的拥堵等级区别对待;每个不同排队车辆的权重值:
当电车停一次,就会受到大量的惩罚,但相应的直接通过就会得到奖励:6.根据权利要求5所述的基于部分可观环境有轨电车优先策略方法,其特征在于,输入时会将观测矩阵与概率矩阵的哈达玛积,得到每一个位置的信念值b(s)来作为输入特征;这一时刻的信念值只与上一个信念值相关,实时的动作和获得观察矩阵更新函数如下:其中,p
r
(o
t
∣b
t-1
,a
t-1
)是归一化因子,表明在信念值为b
t-1
的时候采取动作a
t-1
得到观察o
t
的概率;如果传感器为损坏则直接输出为相反的位置值:信念状态到动作a的映射:π(b)
→
a
c
,策略π的长期奖励函数为:则通过贝尔曼迭代方程找到最优的策略π*;q
t+1
(b,a)是当在信念值为b时选择动作a的动作a的q值:(b,a)是当在信念值为b时选择动作a的动作a的q值:则对应的最优策略为:7.根据权利要求6所述的基于部分可观环境有轨电车优先策略方法,其特征在于,通过样本池和目标q网络来提高训练效率并减少波动;样本池用于保存交互中产生的样本,定义估计状态-动作值函数的神经网络为主q网络;在训练主q网络时,随机从样本池中取出一定数量的样本进行梯度下降计算;设置目标q网络,每一次迭代学习的目标值由目标q网络计算得到;在第i步,迭代学习的目标值表示为:状态-动作值函数迭代逼近形式为:
其中,α∈[0,1)为学习因子,为第i步迭代的目标值,主q网络中的参数每隔n步便能更新至目标q网络。8.根据权利要求7所述的基于部分可观环境有轨电车优先策略方法,其特征在于,在当前q网络中找到最大q值对应的动作,最终得到状态
→
动作值函数的最优估计参数以及交通信号最优控制策略为:其中,s
t
为t时刻采集得到的真实交通状态,a
t
为t时刻计算得出的最优信号相位。然后根据最大的动作值带入q网络中,计算对应动作的目标q值:9.根据权利要求8所述的基于部分可观环境有轨电车优先策略方法,其特征在于,更新网络方法是对完整的情节进行抽样,然后从一个随机的时间点作为第一状态来更新网络;随机更新更符合的随机抽样策略,并通过使用两个drqn网络,其中一个用于选择行动,另一个用于评估所选行动;然后,使用第一个网络的选定行动和第二个网络的q值来计算q值。10.一种基于部分可观环境有轨电车优先策略系统,其特征在于,包括:建立模块,用于结合马尔可夫过程和隐马尔可夫模型,以概率方式将不可观测的系统状态与观测结果联系起来,建立有轨电车平交道口部分可观察的马尔可夫过程;提取模块,用于基于建立的有轨电车平交道口部分可观察的马尔可夫过程,提取观测矩阵、信号灯动作矩阵以及每个车道的排队车辆数和有轨电车通过道口的停车次数作为奖惩条件的奖惩矩阵,观测矩阵包括有轨电车车道的状态矩阵、位置矩阵以及速度矩阵;基于生成的观测矩阵,将每个单元格的可观测概率写入概率矩阵,将观测矩阵和概率矩阵的哈达玛积作为信念值矩阵;处理模块,拥有将观测矩阵、信号灯动作矩阵、奖惩矩阵以及信念值矩阵输入训练好的双重深度循环递归q网络模型进行处理,得到有轨电车信号控制策略。
技术总结
本发明提供一种基于部分可观环境有轨电车优先策略方法及系统,属于有轨电车运营规划技术领域,将有轨电车平交道口进行特征提取,将来车的位置和速度都抽象为状态矩阵;将路口信号灯的下一时间步的相位显示作为控制对象;以有轨电车的停车次数和路口排队车辆数的减少作为控制目标,三部分结合为有轨电车特有的马尔可夫过程;引入双重Q学习网络模型,构成双重深度循环递归Q网络模型解决在POMDP下的有轨电车平交道口信号优先策略问题。本发明具有更强的环境适应能力和鲁棒性,在不稳定环境下,能提高有轨电车在路口的通行效率同时最小程度影响冲突相位的社会车辆的延时。程度影响冲突相位的社会车辆的延时。程度影响冲突相位的社会车辆的延时。
技术研发人员:唐骞雪 郑伟 张玉梅
受保护的技术使用者:北京交通大学
技术研发日:2023.06.12
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:塑料生产供料系统的制作方法 下一篇:一种矩形强制偏流喷管变结构试验台