多路口交通信号灯控制方法、系统、设备及存储介质
未命名
07-17
阅读:171
评论:0

1.本发明涉及多路口交通信号灯控制技术领域,尤其涉及一种多路口交通信号灯控制方法、系统、设备及存储介质。
背景技术:
2.为了解决传统信号灯控制方法依赖专家知识和对道路交通情况的假设来人为设定信号灯相位切换规则,对动态变化的交通情况缺乏良好的适应性的问题,近年来基于强化学习的自适应交通信号灯控制方法发展迅速,取得了比传统交通信号灯控制方法更优秀的性能表现。根据控制交通信号灯的数量多少,可以分为单路口交通信号灯控制方法和多路口交通信号灯控制方法。
3.对单路口交通信号灯控制情景,目标是尽可能减少车辆通过该路口的平均行驶时间,从而改善单个路口车辆拥堵情况。一般会针对这个路口设计状态和奖励函数,基于强化学习算法进行优化,来减少路口的车辆排队时间。
4.对多路口交通信号灯控制情景,目标是尽可能减少整体路网中所有车辆通行的平均行驶时间,从而改善整体路网中车辆拥堵情况。一般会建模不同路口之间的影响,进而设计合适的状态和奖励函数,基于多智能体强化学习方法优化对每个路口信号灯的控制策略,实现多路口的协作调控,从而减少整体路网中的车辆通行时间。但是,目前基于强化学习的多路口交通信号灯控制技术仍然存在如下问题:
5.1)对多路口交通信号灯控制问题的建模不够真实,没有考虑实际情况中信号灯可能因为停电、故障、检修等因素崩溃进而无法正常使用,被使用固定时间规则控制的临时信号灯接管的情景。
6.2)在上述情况下,崩溃信号灯所在路口的交通信号灯相位无法被强化学习策略控制,与相邻信号灯的协作关系被破坏,现有方法对这种情况的鲁棒性不足,性能会显著下降。
技术实现要素:
7.本发明的目的是提供一种多路口交通信号灯控制方法、系统、设备及存储介质,可以适应所有信号灯正常工作的情景和某个信号灯无法正常工作被基于固定时间规则的临时信号灯代替的情景,从而更为有效的改善整体路网中车辆拥堵情况。
8.本发明的目的是通过以下技术方案实现的:
9.一种多路口交通信号灯控制方法,包括:
10.每一局仿真时,将各信号灯所在路口的状态输入至强化模型中,由所述强化模型输出相应的动作,也即各信号灯相位;其中,每一局仿真的场景为正常场景或非正常场景,根据每一局是否为正常场景,将每一局中各信号灯所在路口的状态与强化模型输出的相应信号灯相位作为样本存入对应的缓存中,并且,在非正常场景,选出崩溃信号灯,通过信号灯所在路口的状态进行标记;
11.从对应的缓存中采样样本,训练所述强化模型;
12.利用训练后的强化模型进行多路口交通信号灯控制。
13.一种多路口交通信号灯控制系统,包括:
14.系统仿真与数据收集单元,用于每一局仿真时,将各信号灯所在路口的状态输入至强化模型中,由所述强化模型输出相应的动作,也即各信号灯相位;其中,每一局仿真的场景为正常场景或非正常场景,根据每一局是否为正常场景,将每一局中各信号灯所在路口的状态与强化模型输出的相应信号灯相位作为样本存入对应的缓存中,并且,在非正常场景,选出崩溃信号灯,通过信号灯所在路口的状态进行标记;
15.训练单元,用于从对应的缓存中采样样本,训练所述强化模型;
16.控制单元,用于利用训练后的强化模型进行多路口交通信号灯控制。
17.一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
18.其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
19.一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
20.由上述本发明提供的技术方案可以看出,将信号灯可能崩溃无法正常使用的情况引入问题建模中,使之更加贴近实际,并且在信号灯所在路口的状态设计中引入信号灯是否正常信息,在训练阶段使强化模型经历路网中信号灯正常的情景和某个信号灯崩溃被临时信号灯代替的情景,既可以保证在正常情景下具有良好性能,也可以应对各种信号灯崩溃情景,从而更为有效的减少整体路网中所有车辆通行的平均行驶时间,进而改善整体路网中车辆拥堵情况。
附图说明
21.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
22.图1为本发明实施例提供的一种多路口交通信号灯控制方法的流程图;
23.图2为本发明实施例提供的一种多路口交通信号灯控制方法的框架图;
24.图3为本发明实施例提供的一种多路口交通信号灯控制系统的示意图;
25.图4为本发明实施例提供的一种处理设备的示意图。
具体实施方式
26.下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
27.首先对本文中可能使用的术语进行如下说明:
28.术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它
性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
29.下面对本发明所提供的一种多路口交通信号灯控制方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
30.实施例一
31.本发明实施例提供一种多路口交通信号灯控制方法,包括:
32.1、每一局仿真时,将各信号灯所在路口的状态输入至强化模型中,由所述强化模型输出相应的动作,也即各信号灯相位;其中,每一局仿真的场景为正常场景或非正常场景,根据每一局是否为正常场景,将每一局中各信号灯所在路口的状态与强化模型输出的相应信号灯相位作为样本存入对应的缓存中,并且,在非正常场景,选出崩溃信号灯,通过信号灯所在路口的状态进行标记。
33.2、从对应的缓存中采样样本,训练所述强化模型。
34.3、利用训练后的强化模型进行多路口交通信号灯控制,此时的控制方式与前述仿真过程类似,即输入各信号灯所在路口的状态,输出各信号灯相位,实现多路口交通信号灯控制。
35.本发明实施例提供的上述方法是一种新的多路口交通信号灯控制技术,在保证在正常路网情景的性能前提下,提高对存在信号灯崩溃情景的适应性,该方法中引入了新的路口的状态来表征信号灯是否崩溃,设计了新的多路口交通信号灯控制强化学习框架,在训练过程中不仅经历路网信号灯正常的情景,还会经历某个信号灯崩溃被临时信号灯代替的情景。如图2所示,整个框架包括如下部分:1)正常情景选择模块,在一局仿真开始选择这局是否存在一个信号灯出现崩溃;2)崩溃信号灯位置选择模块,在这局仿真存在崩溃信号灯的前提下,根据不同信号灯重要性选择一个路口信号灯被固定时间规则的临时信号灯代替;3)强化模型,根据每个路口的状态选择各自的信号灯相位;4)数据存储模块,根据这局是否存在崩溃信号灯分别存储数据。完成训练的强化模型可以应用于多路口交通信号灯控制。
36.为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
37.一、正常情景选择模块。
38.正常情景选择模块用于决定每一局仿真时路网状态设置为所有信号灯都为正常的概率,也就是说,每一局仿真的场景为正常场景或非正常场景是根据正常概率进行选择的。
39.本发明的目的是保证正常路网情景下具有良好的性能,同时提高对存在信号灯故障的情况的适应性。因此,需要在训练开始阶段,提升正常概率的数值,即设置较高的正常路网概率以让强化模型见到足够多的正常情况下的样本;训练指定次数后,降低正常概率的数值,也就是在训练后半段选择相对低的正常概率,使强化模型可以应对不同的信号灯崩溃情况。
40.本发明实施例中,根据仿真局数大小逐渐降低正常概率,第m局的正常概率p
normal
(m)以如下方式退火下降:
[0041][0042]
其中,p
start
为初始正常概率,p
end
为最终正常概率,e为退火的局数。
[0043]
本发明实施例中,可以根据实际情况或者经验设定p
start
与p
end
的大小,退火的局数e是指p
normal
(m)从初始概率降低到最终概率经历的仿真的局数。
[0044]
二、崩溃信号灯位置选择模块。
[0045]
对于一个有n个路口的路网,每一路口设有一个信号灯,当某个路口的信号灯崩溃时,总共存在n种不同的可能。由于不同路口的车流情况不同,因此当某个路口的信号灯崩溃并被临时信号灯代替时,此时整体路网中所有车辆的平均行驶时间彼此不同。有的路口信号灯造成的影响较大,而有的路口信号灯造成影响相对小。
[0046]
为了使本发明的方法能较好应对不同的信号灯崩溃情况,并在训练过程中强化对比较重要的情况的适应性,根据信号灯所在路口中车辆的平均行驶时间计算信号灯的重要性,表示为:
[0047][0048]
其中,e为自然常数;α为放缩系数,是为了防止计算重要性时候出现极端值;ti为第i个信号灯崩溃后,所在路口被临时信号灯接管下路网中车辆的平均行驶时间,tj为第j个信号灯崩溃后,所在路口被临时信号灯接管下路网中车辆的平均行驶时间。
[0049]
在存在某个信号灯崩溃的条件下,崩溃信号灯位置选择模块会依据重要性选择出现崩溃信号灯的路口位置(即选择一个信号灯作为崩溃信号灯),此过程中,此时每个路口的信号灯都有可能被选中,但是重要性越大被选中的可能性越高。
[0050]
此外,为了在训练过程中适应强化策略的演进,每隔c
re
局重新计算各信号灯的重要性,c
re
为设定的正整数,例如,c
re
=20。
[0051]
三、强化模型。
[0052]
本发明实施例中,强化模型根据每个信号灯所在路口的状态oi选择动作也即信号灯相位ai。路口的状态使用多维向量表示,包括如下三类信息:汇入车道车辆数信息、当前获取的信号灯相位信息,以及信号灯是否为崩溃信号灯的标记信息。
[0053]
示例性的,可以使用21维向量,包含12维的汇入车道车辆数信息、8维信号灯相位信息和1维信号灯是否崩溃信息,每个路口的动作空间大小为4,包含东西向直行、东西向左转、南北向直行和南北向左转4个信号灯相位。
[0054]
本领域技术人员可以理解,路口的车道可以分为汇入车道和汇出车道两类,其中汇入车道是指车流进入路口的车道,包括东南西北各个方向进入路口的车道。以前述12维的汇入车道车辆数信息为例,东西南北四个方向中,每个方向的又分为左转、直行、右转,因此共12维。前述8维信号灯相位信息是以右转车流不受相位限制的交通规则为例,8维信号灯相位信息对应4个方向的左转和直行,每一维用1或0代表当前相位下对应的车流能或者不能进入路口。
[0055]
本发明实施例中,强化模型包括:特征提取器、多层图注意力网络以及全连接网
络;其中:所述特征提取器,用于从各信号灯所在路口的状态中提取特征信息;所述多层图注意力网络,用于对提取的特征信息进行聚合;所述全连接网络,用于根据聚合的特征信息进行q值估计,并根据估计的q值选择相应动作。
[0056]
本发明实施例中,q值估计指的是全连接网络输出每个路口信号灯当前状态下各动作的q值,q值是强化学习里的专业术语,用于指示当前状态下选择某个动作的好坏。在训练过程中,以∈的概率随机从所有动作中选择一个,以1-∈的概率选择q值最大的动作,∈的大小可根据实际情况或者经验进行设定。
[0057]
示例性的,可以选择使用2层每层32个神经元的全连接网络从路口状态中提取特征信息,每层的激活函数选择为线性整流函数。再经过2层图注意力网络聚合邻接路口的状态信息,其中每层的输入通道数和输入通道数都设置为32,注意力机制使用的头数量为5,不同头的输出选择加和,激活函数选择为线性整流函数。最后经过1层包含4个神经元(对应4个动作)并且不使用非线性激活函数的全连接网络估计q值来选择动作。为了降低训练难度,可以让每个路口共享网络参数。
[0058]
四、数据存储模块。
[0059]
本发明实施例中,训练时候会经历信号灯都正常和某个信号灯崩溃这两大类情景。为了避免这两类情景中收集的数据互相干扰,本发明使用两个缓存。当前为正常情景时,收集的数据会存入正常情景缓存,反之数据会被存入崩溃情景缓存。设定缓存单位大小b,对有n个信号灯(即n个路口)的路网,我们设定正常情景缓存大小为b,崩溃情景缓存大小为nb。训练时候会分别从两个缓存中采样数据,以时序差分损失作为约束进行参数优化。
[0060]
本发明实施例中,采用强化学习中常用训练方式。每一局仿真时,强化模型与模拟器环境的交互过程中,会把当前步的状态(即前文所述的路口的状态)、根据状态选择的动作、环境给予的奖励,以及采取动作后模拟器环境下一步的状态作为一组数据存入缓存中,每一组数据中的当前步的状态是指当前步中所有路口状态形成的集合,同样的,根据状态选择的动作也是指所有路口的信号灯相位形成的集合,环境给予的奖励可以使用模拟器计算得到,下一步的状态也是指下一步中所有路口状态形成的集合。当缓存中存入了足够多组数据(可根据实际情况设定)后,开始训练:从缓存中采样多组数据,使用前文提到的存入的那些数据计算时序差分损失函数,进而更新参数。考虑到此部分可参照常规技术实现,故不再赘述。
[0061]
本发明实施例提供的基于强化学习的针对存在信号灯崩溃情况的多路口交通信号灯控制技术方案中,将信号灯可能崩溃无法正常使用的情况引入问题建模中,使之更加贴近实际,本发明提出的技术框架在路口状态设计中引入信号灯是否正常信息,同时在训练阶段使强化模型经历路网中信号灯正常的情景和某个信号灯崩溃被临时信号灯代替的情景,并可以自适应协调两者比例,从而既可以保证在正常情景下具有良好性能,也可以应对各种信号灯崩溃情景。
[0062]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
[0063]
实施例二
[0064]
本发明还提供一种多路口交通信号灯控制系统,其主要基于前述实施例提供的方法实现,如图3所示,该系统主要包括:
[0065]
系统仿真与数据收集单元,用于每一局仿真时,将各个信号灯所在路口的状态输入至强化模型中,由所述强化模型输出相应的动作,也即各信号灯相位;其中,每一局仿真的场景为正常场景或非正常场景,根据每一局是否为正常场景,将每一局中各个信号灯所在路口的状态与强化模型输出的相应信号灯相位作为样本存入对应的缓存中,并且,在非正常场景,选出崩溃信号灯,通过信号灯所在路口的状态进行标记;
[0066]
训练单元,用于从对应的缓存中采样样本,训练所述强化模型;
[0067]
控制单元,用于利用训练后的强化模型进行多路口交通信号灯控制。
[0068]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
[0069]
实施例三
[0070]
本发明还提供一种处理设备,如图4所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
[0071]
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
[0072]
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
[0073]
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
[0074]
输出设备可以为显示终端;
[0075]
存储器可以为随机存取存储器(random access memory,ram),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
[0076]
实施例四
[0077]
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
[0078]
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是u盘、移动硬盘、只读存储器(read-only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
[0079]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
技术特征:
1.一种多路口交通信号灯控制方法,其特征在于,包括:每一局仿真时,将各信号灯所在路口的状态输入至强化模型中,由所述强化模型输出相应的动作,也即各信号灯相位;其中,每一局仿真的场景为正常场景或非正常场景,根据每一局是否为正常场景,将每一局中各信号灯所在路口的状态与强化模型输出的相应信号灯相位作为样本存入对应的缓存中,并且,在非正常场景,选出崩溃信号灯,通过信号灯所在路口的状态进行标记;从对应的缓存中采样样本,训练所述强化模型;利用训练后的强化模型进行多路口交通信号灯控制。2.根据权利要求1所述的一种多路口交通信号灯控制方法,其特征在于,所述每一局仿真的场景为正常场景或非正常场景是根据正常概率进行选择的,根据仿真局数大小逐渐降低正常概率。3.根据权利要求1所述的一种多路口交通信号灯控制方法,其特征在于,所述根据仿真局数大小逐渐降低正常概率包括:第m局的正常概率p
normal
(m)以如下方式退火下降:其中,p
start
为初始正常概率,p
end
为最终正常概率,e为退火的局数。4.根据权利要求1所述的一种多路口交通信号灯控制方法,其特征在于,所述在非正常场景,选出崩溃信号灯包括:计算各路口的信号灯的重要性,根据信号灯的重要性选出一个路口的信号灯作为崩溃信号灯,其中,信号灯的重要性越大被选中的可能性越高;并且,每隔c
re
局重新计算各路口的信号灯的重要性,c
re
为设定的正整数。5.根据权利要求4所述的一种多路口交通信号灯控制方法,其特征在于,计算各路口的信号灯的重要性包括:根据信号灯所在路口中车辆的平均行驶时间计算信号灯的重要性,表示为:其中,e为自然常数,α为放缩系数,t
i
为第i个信号灯崩溃后,所在路口被临时信号灯接管下路网中车辆的平均行驶时间,t
j
为第j个信号灯崩溃后,所在路口被临时信号灯接管下路网中车辆的平均行驶时间。6.根据权利要求1所述的一种多路口交通信号灯控制方法,其特征在于,所述各信号灯所在路口的状态使用多维向量表示,包括如下三类信息:汇入车道车辆数信息、当前获取的信号灯相位信息,以及信号灯是否为崩溃信号灯的标记信息。7.根据权利要求1所述的一种多路口交通信号灯控制方法,其特征在于,所述强化模型包括:特征提取器、多层图注意力网络以及全连接网络;其中:所述特征提取器,用于从各信号灯所在路口的状态中提取特征信息;所述多层图注意力网络,用于对提取的特征信息进行聚合;所述全连接网络,用于根据聚合的特征信息进行q值估计,并根据估计的q值选择相应
动作。8.一种多路口交通信号灯控制系统,其特征在于,基于权利要求1~7任一项所述的方法实现,该系统包括:系统仿真与数据收集单元,用于每一局仿真时,将各信号灯所在路口的状态输入至强化模型中,由所述强化模型输出相应的动作,也即各信号灯相位;其中,每一局仿真的场景为正常场景或非正常场景,根据每一局是否为正常场景,将每一局中各信号灯所在路口的状态与强化模型输出的相应信号灯相位作为样本存入对应的缓存中,并且,在非正常场景,选出崩溃信号灯,通过信号灯所在路口的状态进行标记;训练单元,用于从对应的缓存中采样样本,训练所述强化模型;控制单元,用于利用训练后的强化模型进行多路口交通信号灯控制。9.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。10.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。
技术总结
本发明公开了一种多路口交通信号灯控制方法、系统、设备及存储介质,将信号灯可能崩溃无法正常使用的情况引入问题建模中,使之更加贴近实际,并且在在信号灯所在路口的状态设计中引入信号灯是否正常信息,在训练阶段使强化模型经历路网中信号灯正常的情景和某个信号灯崩溃被临时信号灯代替的情景,既可以保证在正常情景下具有良好性能,也可以应对各种信号灯崩溃情景。灯崩溃情景。灯崩溃情景。
技术研发人员:李厚强 周文罡 束维德 王敏
受保护的技术使用者:中国科学技术大学
技术研发日:2023.02.20
技术公布日:2023/6/27
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/