列车时刻表确定方法、装置、设备及介质与流程

未命名 07-03 阅读:79 评论:0


1.本发明涉及轨道交通技术领域,尤其涉及一种列车时刻表确定方法、装置、设备及介质。


背景技术:

2.在城市轨道交通的运营过程中,列车时间表的优劣关系到企业运营成本和乘客等待成本的高低,发车时间间隔过大会增加乘客等待成本进而降低乘客满意度,而发车时间间隔过小会增加企业运营成本。


技术实现要素:

3.本发明提供一种列车时刻表确定方法、装置、设备及介质,用以解决现有技术无法优化发车时间间隔,无法合理平衡企业运营成本和乘客等待成本的技术问题,提供了一种基于强化学习的大小交路模式下交通列车时刻表的优化方案。
4.第一方面,本发明提供了一种列车时刻表确定方法,包括:
5.重复执行以下步骤,直至满足预设条件:
6.输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;
7.输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;
8.根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的;
9.在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔;
10.根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表;
11.所述状态组为大交路状态组或者小交路状态组中的任一状态组;
12.所述时间步为预设时长的时间片段。
13.根据本发明提供的列车时刻表确定方法,在输入下一时间步的状态组至第二策略网络模型之前,还包括:
14.根据当前时间步的初始发车时刻以及当前时间步发车间隔确定下一时间步的初始发车时刻;
15.在所述预设时长小于所述当前时间步发车间隔的情况下,将当前时间步对应车次的状态组确定为下一时间步的状态组;
16.在所述预设时长大于或等于所述当前时间步发车间隔的情况下,将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组。
17.根据本发明提供的列车时刻表确定方法,所述根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新,包括:
18.根据第一学习参数、当前时间步发车间隔的影响梯度以及第一评价值的影响梯度确定第一更新值;
19.根据所述第一策略网络模型所对应的第一策略网络参数以及所述第一更新值确定更新后第一策略网络参数,以根据所述更新后第一策略网络参数对所述第一策略网络模型进行更新。
20.根据本发明提供的列车时刻表确定方法,所述根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新,包括:
21.根据乘客等待成本以及企业运营成本确定当前时间步的奖励函数;
22.根据奖励函数以及所述第二评价值确定奖励目标;
23.根据所述第一评价值以及所述奖励目标确定奖励误差;
24.根据第二学习参数、所述奖励误差、所述第一评价值的影响梯度确定第二更新值;
25.根据所述第一价值网络模型所对应的价值网络参数以及所述第二更新值确定更新后价值网络参数,以根据所述更新后价值网络参数对所述第一价值网络模型进行更新;
26.所述乘客等待成本是根据当前时间步中所有车站中乘客所花费的总等待时间而确定的。
27.根据本发明提供的列车时刻表确定方法,所述预设条件为如下条件中的任一种:
28.在大交路车站与小交路车站所共有的车站中,小交路列车在所共有的车站中的任一车站的发车时间处于大交路的约束时间区间内;
29.列车发车时间超过交通运营时间;
30.所有车站中遗留人数为0;
31.列车发车时间超过交通运营时间,且在所有车站中没有遗留人数;
32.其中,所述大交路的约束时间区间是根据约束最小值以及约束最大值确定的,所述约束最小值是根据大交路列车在所共有的车站中的所述车站的发车时间与预设约束间隔的差值确定的,所述约束最大值是根据大交路列车在所共有的车站中的所述车站的发车时间与预设约束间隔的和值确定的。
33.根据本发明提供的列车时刻表确定方法,所述根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表,包括:
34.根据目标时间步对应车次的初始发车时刻、所述目标发车间隔、各车站间的运行时间、各车站的停留时间确定车次沿线的所有车站中每一车站的出发时刻,以根据所有车站的出发时刻确定所述目标时间步的列车时刻表。
35.根据本发明提供的列车时刻表确定方法,在输入当前时间步的状态组至第一策略网络模型之前,还包括:
36.在所述状态组为大交路状态组的情况下,根据大交路状态组所在的时间步相对应
的车次的初始发车时刻,以及在所述大交路状态组所在的时间步相对应的车次沿线的所有大交路车站中,无法乘坐所述大交路状态组对应的车次列车的总遗留人数确定所述大交路状态组;
37.在所述状态组为小交路状态组的情况下,根据小交路状态组所在的时间步相对应的车次的初始发车时刻以及在所述小交路状态组所在的时间步相对应的车次沿线的所有共有车站中,无法乘坐所述小交路状态组对应的车次列车的总遗留人数确定所述小交路状态组;
38.所述共有车站为大交路沿线的所有车站与小交路沿线的所有车站中相重叠部分的车站。
39.根据本发明提供的列车时刻表确定方法,在所述状态组为大交路状态组的情况下,所述将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组,包括:
40.根据大交路车站中的每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数,以及从每一车站出发前往指定车站的新进乘客人数确定每一车站等待乘坐下一车次列车的总人数;
41.根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数;
42.根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数,以确定在大交路车站中无法乘坐下一车次列车的总遗留人数;
43.根据大交路车站中无法乘坐下一车次列车的总遗留人数以及共有车站中无法乘坐下一车次列车的总遗留人数确定所有车站中无法乘坐下一车次列车的总遗留人数,以根据下一时间步的初始发车时刻以及在所有车站中无法乘坐下一车次列车的总遗留人数确定所述下一时间步的状态组;
44.所述大交路车站为大交路沿线的所有车站中,不包括小交路沿线车站的剩余车站。
45.根据本发明提供的列车时刻表确定方法,在所述状态组为小交路状态组的情况下,所述将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组,包括:
46.根据共有车站中的每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数、从共有车站中的任一车站出发前往共有车站中的指定车站的新进乘客人数以及从共有车站中的任一车站出发前往大交路车站的新进乘客人数确定共有车站中每一车站等待乘坐下一车次列车的总人数;
47.根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数;
48.根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数,以确定在共有车站的每一车站中无法乘坐下一车次列车的总遗留人数;
49.根据在共有车站的每一车站中无法乘坐下一车次列车的总遗留人数确定共有车站的所有车站中无法乘坐下一车次列车的总遗留人数,以根据下一时间步的初始发车时刻以及共有车站的所有车站中无法乘坐下一车次列车的总遗留人数确定下一时间步的状态
组。
50.第二方面,本发明提供了一种列车时刻表确定装置,包括:
51.执行单元:用于重复执行以下步骤,直至满足预设条件:
52.输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;
53.输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;
54.根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的;
55.获取单元:用于在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔;
56.确定单元:用于根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表;
57.所述状态组为大交路状态组或者小交路状态组中的任一状态组;
58.所述时间步为预设时长的时间片段。
59.第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述列车时刻表确定方法。
60.第四方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述列车时刻表确定方法。
61.本发明提供了一种列车时刻表确定方法、装置、设备及介质,以时间步作为状态组的确定基础,通过策略网络模型以及当前时间步所对应的状态组确定当前发车间隔,并输入当前时间步所对应的状态组以及当前发车间隔确定下一时间步的状态组,根据另一策略网络模型确定下一发车间隔,从而实现了时间步所对应的状态组与发车间隔的不断交互迭代,同时引入价值网络模型,以奖励误差作为价值引导不断迭代更新策略网络模型以及价值网络模型,从而确定出优化后的策略网络模型,最终根据优化后的策略网络模型确定出列车时刻表。本发明根据客流信息和列车动力学特征构建虚拟运营环境,采用强化学习算法在构建的环境上进行学习和优化,模拟列车运行情况,进而得到列车时刻表,本发明为了使模型稳定,预测数据精确,引入了两个策略网络模型以及两个价值网络模型,可操作性强,鲁棒性高,可以极大地提高大小交路模式下列车时刻表优化效率,并有效的降低地铁运营成本和乘客等待成本。
附图说明
62.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术
描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
63.图1是本发明提供的列车时刻表确定方法的流程示意图之一;
64.图2是本发明提供的列车时刻表确定方法的流程示意图之二;
65.图3是本发明提供的对第一策略网络模型进行更新的流程示意图;
66.图4是本发明提供的对第一价值网络模型进行更新的流程示意图;
67.图5是本发明提供的列车时刻表确定方法的流程示意图之三;
68.图6是本发明提供的确定下一时间步的状态组的流程示意图之一;
69.图7是本发明提供的确定下一时间步的状态组的流程示意图之二;
70.图8是本发明提供的大小交路中交通运营场景示意图;
71.图9是本发明提供的列车时刻表确定方法的流程示意图之四;
72.图10是本发明提供的列车时刻表确定装置的结构示意图;
73.图11是本发明提供的电子设备的结构示意图。
具体实施方式
74.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
75.传统优化列车时刻表的方法可以分为两大类,第一大类是整数规划或混合整数规划方法,该类方法计算复杂度高,计算量大,收敛速度慢;第二大类是启发式方法,如粒子群算法、遗传算法、差分进化算法,该类方法依赖专家经验,性能不稳定,容易陷入局部最优解。
76.本发明摒弃上述传统优化算法,采用强化学习算法中的无模型强化学习,直接与环境进行实时交互学习最优策略,对于复杂的应用场景来说具备很好的通用性。
77.图1是本发明提供的列车时刻表确定方法的流程示意图之一,本发明公开了一种列车时刻表确定方法,包括:
78.重复执行以下步骤,直至满足预设条件:
79.输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;
80.输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;
81.根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模
型是根据所述预设参数对第一价值网络模型进行更新而确定的;
82.在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔;
83.根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表;
84.所述状态组为大交路状态组或者小交路状态组中的任一状态组;
85.所述时间步为预设时长的时间片段。
86.在步骤101中,所述时间步为预设时长的时间片段,在一个时间步内,可能会因为预设时长与时间间隔的大小不同关系,产生四种情况,例如,在一个时间步内,若预设时长大于发车时间间隔,则下一时间步的情况下,还是停留在当前车次,而当预设时长小于发车时间间隔,则在下一时间步的情况下,进入到下一车次,本发明为了横向对比大交路以及小交路的发车情况,预设时间步的概念,从而实现在同一维度下,确定每一时间步内大交路、小交路的状态组,以不同时间步内大交路、小交路的状态组作为策略网络模型的输入,不断迭代。
87.在本发明中,输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔,本发明采用了两个作为一组的策略网络模型,将当前时间步的状态组以及下一时间步的状态组的输入作为一组输入,分别输出至不同的策略网络模型,而在下下一时间步以及下下时间步的又一时间步的输入中,再次将这两个策略网络模型作为输入,进而实现模型输出。
88.所述第一策略网络模型与所述第二策略网络模型的策略网络模型参数可以相同,也可以不同,但在后续不断的迭代过程中,两个策略网络模型的参数处于不断变化更新的状态。
89.本发明首先初始化训练环境,根据初始策略网络参数训练所述第一策略网络模型与所述第二策略网络模型,以使得所述第一策略网络模型以及所述第二策略网络模型能够根据所述状态组,输出发车间隔,本领域技术人员理解,在构建完设计环境之后,本发明采用确定性策略强化学习算法,策略网络控制指示做运动,基于状态做出动作,价值网络模型基于状态给动作进行评价,从而指导策略网络做出改进。在本发明中,所述状态即为所述状态组,所述动作即为发车间隔,进而根据状态组以及发车间隔确定下一状态组,输入下一状态组至第二策略网络模型中,获取所述第二策略网络模型输出的发车间隔。
90.所述状态组分为大交路状态以及小交路状态组,状态组是根据状态组对应的初始发车时刻以及车次沿线的所有车站中无法乘坐列车的总遗留人数而确定的,在本发明中由于存在大交路状态组以及小交路状态组,不同状态组的确定方法将各有不同。
91.具体地,根据第一初始策略网络参数构建所述第一策略网络模型,根据第二初始策略网络参数构建所述第二策略网络模型,初始策略网络参数为无模型强学学习中的用于构建所述策略网络模型的参数,本发明在进行构建虚拟运营环境之前,需要假定大小交路模式,列车充足且编组固定、列车在各自交路上采用站站停的停站模式,禁止越行,大小交路列车在相同车站的的停站时间相同,列车在车站之间的运行时间、车站的停车时间以及终点站折返时间已知,列车时刻表仅与列车从车辆段或停车线出发的时间有关。
92.进一步地,预设乘客出行的数量矩阵,所述数量矩阵由三维组成,第一维是时间,第二维是出发车站,第三维是目的车站,例如:
[0093][0094]
在式(1)中,数量矩阵表示在t-1时刻到t时刻内,从车站i出发到达车站j的乘客数量为δ。
[0095]
本领域技术人员理解,在多智能体算法中,单个智能体很难观测到完整状态,即单个智能体的观测只是部分状态,在大小交路模式下,列车的状态由每个交路的部分观测表示。在时间步δ,其状态s
δ
可以表示为{o
δ,1
,o
δ,2
}。
[0096]
其中,对于大交路观测:其中,表示在大交路中第k1(δ)次列车从车辆段发车的时间,表示在大交路中,由于列车容量限制,在车站i中,因无法乘坐上一次列车而剩下的乘客数量。对于小交路观测:其中表示在小交路中第k2(δ)次列车从停车线发车的时间,表示在小交路中,由于列车容量限制,在车站i中,因无法乘坐上一次列车而剩下的乘客数量。上述中的k1(δ)(或k2(δ))表示在第δ时间步的大交路(或小交路)列车车次。
[0097]
在本发明中,每个智能体都有自己的动作空间,全局动作空间a
δ
可以表示为其中,表示大交路k1(δ)+1次列车与k1(δ)次列车之间的发车时间间隔,表示小交路k2(δ)+1次列车与k2(δ)次列车之间的发车时间间隔。
[0098]
本领域技术人员理解,大小交路的列车发车的时间间隔有一个限制区间和为了保证列车行车安全和服务质量,和分别被限制在和范围内。由于智能体一般采用神经网络实现,为了保证强化学习算法的稳定,可以将神经网络输出值限制在[-1,1]范围内,然后通过下面公式,将其转换为相应范围内,从而得到真实的时间间隔和
[0099][0100][0101]
式(2)以及式(3)中,和分别表示大交路和小交路列车发车所允许的最大时间间隔,和分别表示大交路和小交路列车发车所允许的最小时间间隔。
[0102]
在步骤102中,输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值,所述第一价值网络模型以及所述第二价值网络模型的构建,与策略网络模型的构建相似,在本发明中,可以根据第一初始价值网络模型参数构建所述第一价值网
络模型,根据第二初始价值网络模型参数构建所述第二价值网络模型,所述第一初始价值网络模型参数可以与第二初始价值网络模型参数相同,也可以不同,由于训练开始阶段的初始价值网络参数以及初始策略网络参数均是随机无目标的参数,但会在后续的不断迭代过程中,根据奖励函数所引导的奖励误差,形成不断趋近于优化各价值网络模型与各策略网络模型的方向不断更新,故本步骤的目的是为了确定出第一评价值与第二评价值的价值评价差异性。
[0103]
在步骤103中,根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的,本发明根据所述当前时间步发车间隔以及第一评价值更新所述第一策略网络模型,获取更新后第一策略网络模型,根据所述第一评价值、所述第二评价值更新所述第一价值网络模型,获取更新后第一价值网络模型,本发明通过当前时间步所对应的发车间隔以及第一评价值计算出用于更新第一策略网络模型的更新参数,进而根据第一策略网络模型的初始策略网络参数以及更新参数计算出更新后第一策略网络参数,进而确定更新后第一策略网络模型,相应地,根据奖励误差、第一评价值计算出用于更新第一价值网络模型的更新参数,进而根据第一价值网络模型的初始价值网络参数以及相应的更新参数计算出更新后价值网络参数,进而确定出更新后第一价值网络模型。
[0104]
而促使上述第一价值网络模型更新的依据即为奖励误差,而所述奖励误差是根据所述第一评价值、所述第二评价值以及奖励函数确定的,即根据每一次迭代前后的评价值以及奖励函数实现第一价值网络模型的更新,而奖励函数中所规定的乘客等待成本与企业运营成本之间的关系,则是本发明所需要解决的,如何以乘客等待成本与企业运营成本作为根本,优化列车时刻表的关键所在。
[0105]
所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的,具体地,使用移动平均更新所有的目标网络,参考如下公式:
[0106][0107][0108]
其中,在式(4)中,为第一策略网络模型参数,为第二策略网络模型参数,式(5)中,为第一价值网络模型参数,为第二价值网络模型参数,其中,η∈(0,1),为需要手动调整的超参数,即为预设参数。
[0109]
在步骤104中,在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔。本领域技术人员理解,本发明对于不同的交路模式,各存在相对应的策略网络模型以及价值网络模型的模组,可选地,本发明的实施方案还包括:
[0110]
针对大交路模式而言,输入当前时间步的大交路状态组至第一策略网络模型,获取所述第一策略网络模型输出的大交路当前时间步发车间隔;输入下一时间步的大交路状
态组至第二策略网络模型,获取所述第二策略网络模型输出的大交路下一时间步发车间隔;输入所述当前时间步的大交路状态组以及所述大交路当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一大交路评价值;输入所述下一时间步的大交路状态组以及所述大交路下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二大交路评价值;根据所述大交路当前时间步发车间隔、所述第一大交路评价值对所述第一策略网络模型进行更新;根据所述第一大交路评价值、所述第二大交路评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据移动平均参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据移动平均参数对第二价值网络模型进行更新而确定的;在满足预设条件后,输入目标时间步的大交路状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的第一目标发车间隔。
[0111]
针对小交路模式而言,输入当前时间步的小交路状态组至第三策略网络模型,获取所述第二策略网络模型输出的小交路当前时间步发车间隔;输入下一时间步的小交路状态组至第四策略网络模型,获取所述第四策略网络模型输出的小交路下一时间步发车间隔;输入所述当前时间步的小交路状态组以及所述小交路当前时间步发车间隔至第三价值网络模型,获取所述第三价值网络模型输出的第一小交路评价值;输入所述下一时间步的小交路状态组以及所述小交路下一时间步发车间隔至第四价值网络模型,获取所述第四价值网络模型输出的第二小交路评价值;根据所述小交路当前时间步发车间隔、所述第一小交路评价值对所述第三策略网络模型进行更新;根据所述第一小交路评价值、所述第二小交路评价值对所述第三价值网络模型进行更新;所述第四策略网络模型是根据移动平均参数对第三策略网络模型进行更新而确定的,所述第四价值网络模型是根据移动平均参数对第三价值网络模型进行更新而确定的;在满足预设条件后,输入目标时间步的小交路状态组至所述第三策略网络模型,获取所述第三策略网络模型输出的第二目标发车间隔。
[0112]
可选地,在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔,本发明通过不断的将状态组输入至不断处于更新状态的第一策略网络模型以及第二策略网络模型,输入不断更新的状态组以及不断变化的发车间隔至不断更新的第一价值网络模型以及第二价值网络模型,迭代处理,直至达到预设条件后,确定最优的策略网络模型,输入目标时间步的状态组至所述策略网络模型,获取所述策略网络模型输出的目标发车间隔,并最终确定列车时刻表,在本发明中,可以通过设定迭代完成条件,例如设置迭代次数,设置迭代效果估计等等。
[0113]
可选地,所述预设条件为如下条件中的任一种:
[0114]
在大交路车站与小交路车站所共有的车站中,小交路列车在所共有的车站中的任一车站的发车时间处于大交路的约束时间区间内;
[0115]
列车发车时间超过交通运营时间;
[0116]
所有车站中遗留人数为0;
[0117]
列车发车时间超过交通运营时间,且在所有车站中没有遗留人数;
[0118]
其中,所述大交路的约束时间区间是根据约束最小值以及约束最大值确定的,所述约束最小值是根据大交路列车在所共有的车站中的所述车站的发车时间与预设约束间隔的差值确定的,所述约束最大值是根据大交路列车在所共有的车站中的所述车站的发车时间与预设约束间隔的和值确定的。
[0119]
可选地,在列车发车时间超过交通运营时间,且在所有车站中没有遗留人数的情况下,停止迭代,根据上一次迭代中所确定的策略网络参数以及最终更新值确定最终策略网络参数,以根据所述最终策略网络参数构建最终策略网络模型;所述最终更新值是根据第一学习参数、上一次迭代中发车间隔的影响梯度以及上一次迭代中第一评价值的影响梯度而确定的。
[0120]
所述交通运营时间即为列车工作时间,例如早6点至晚8点,又例如早5点至晚12点,而为了确保每个人都能够搭上列车,本发明设置在所有车站中没有遗留人数,才算迭代完成,综合上述预期,本发明实际上需要在列车发车时间超过交通运营时间,且在所有车站中没有遗留人数的情况下,停止迭代,进而根据在停止迭代前的上一次迭代中所确定的策略网络参数以及最终更新值确定最终策略网络参数,根据所述最终策略网络参数构建最终策略网络模型。
[0121]
可选地,在大小交路模式下,为保证列车正常运行,其时刻表需要满足一定的约束条件,由于单独交路上的发车时间已经满足约束,因此约束检测的问题可以被理解为只需要检测大小交路之间的时刻表是否冲突的问题,又由于列车在车站之间的运行时间、车站的停车时间以及终点站折返时间已知,因此仅需要检测在大小交路列车在车站sa和sb是满足约束即可,具体来说,大小交路列车,上行方向在sa车站(下行方向在sb车站)需要满足最小时间间隔约束。
[0122]
以上行方向大交路k1(δ)次列车为例,其在sa车站发车的时间为假设其最小时间间隔约束,即预设约束间隔为h
min
,则k1(δ)次列车在车站sa的发车安全时间区间是因此需要检测小交路列车在车站sa的发车时间是否在区间内,若落在上述区间内,则不满足约束条件,此时,环境给出一个大负数奖励并重置为初始状态,上述不满足约束条件的情况,即为预设条件中的终止情况的一种。
[0123]
在步骤105中,根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表,可选地,所述根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表,包括:
[0124]
根据目标时间步对应车次的初始发车时刻、所述目标发车间隔、各车站间的运行时间、各车站的停留时间确定车次沿线的所有车站中每一车站的出发时刻,以根据所有车站的出发时刻确定所述目标时间步的列车时刻表。
[0125]
在这样的实施例中,设存在四站,分别为第一站、第二站,第三站以及第四站,其中,8点当前车次发车,而各车站间的运行时间是确定的,即从第一站至第二站需要花费11分钟,从第二站至第三站需要花费13分钟,从第三站至第四站需要花费8分钟,在大小交路模式下,无论是大交路模式,还是小交路模式,均会有去程方向的线路时刻表,还会存在返程方向的线路时刻表,例如,从第四站至第三站需要花费8分钟,从第三站至第二站需要花费13分钟,从第二站至第一站需要花费11分钟,更为具体地,在第一站停留2分钟,在第二站停留3分钟,在第三站停留2分钟,在第四站停留5分钟,此时,在知道每次列车的发车间隔的情况下,则可以确定出所有列次的列车时刻表。
[0126]
可选地,由于各车站之间的运行时间、各车站停留时间、终点站折返时间固定,因
此可以通过以下公式推算出车站i的出发时间:
[0127][0128]
式(6)中,wi表示车站i的停留时间,z
i-1,i
表示车站i-1和i之间的运行时间,需要注意的是,在终点站的情况下,式(6)需要加上折返时间。
[0129]
与城际之间的铁路运营相比,城市轨道交通运营具有复杂的列车时间表,在城市轨道交通的运营过程中,列车时间表的优劣关系到企业运营成本和乘客等待成本的高低,发车时间间隔过大则会增加乘客等待成本进而降低乘客满意度,而发车时间间隔过小会增加企业运营成本,影响企业收益,列车时刻表是指列车在沿线各车站的到达以及出发的时刻。值得注意的是,由于车站之间距离固定,当车站之间的运行速度、停站时间以及折返时间确定,列车时刻表仅与列车从初始发车站出发的时间有关。
[0130]
结合图8,图8是本发明提供的大小交路中交通运营场景示意图,随着社会的快速发展,单一交路模式已不能满足轨道交通运营需求,合理的列车交路模式正在引起越来越多的关注,大小交路模式能够根据线路复杂的客流特征,均衡客流分布的空间差异,可以显著减少企业运营成本,满足乘客出行需求,大小交路是轨道交通基本交路模式之一,适应与区段客流不均衡的线路。
[0131]
如图8所示,共有s1到sn共n个车站,在线路起终点(s
1-sn)开行贯通全线的大交路列车,在客流较大的区段(s
a-sb)开行小交路列车,假设s1站附近有一个车辆段(图中未画出),负责发出和收回大交路列车,sa附近有停车线(图中未画出),负责发出和收回小交路列车,大交路列车从车辆段发出,从s1运行到sn,经过折返,从sn回到s1,最终回到车辆段,小交路列车从停车线发出,从sa运行到sb,经过折返,从sb回到sa,最后回到停车线。可选地,将大交路所在区段的车站集合记为p1,小交路所在区段的车站集合记为p2,显然,,显然,其中,[s1sa)和(s
b sn]为仅属于大交路的车站集合。
[0132]
可选地,列车时刻表是指列车在沿途各车站的到达以及出发的时刻。由于车站之间距离固定,当车站之间的运行速度、停站时间以及折返时间确定时,列车时刻表仅与列车从车辆段(停车线)出发的时间有关,为简化问题,假设列车从车辆段(停车线)出发的时间的确定时,该次列车在整个运行线路的列车时刻表即确定,相比于单一交路模式,在大小交路模式下,大交路列车与小交路列车在小交路区段共线运营,因此大小交路模式的列车时刻表的制定和优化与单一交路模式存在本质的区别。
[0133]
本发明采用多智能体强化学习算法解决大小交路模式下的列车时刻表优化问题,两个智能体分别负责大交路和小交路的列车时刻表优化,每个智能体只能观测到局部状态。智能体与环境的交互过程如下图所示。大交路智能体和小交路智能体分别从环境中获取局部状态,然后根据局部状态分别做出决策,将决策作用到环境,环境给出奖励和下一时间步的局部状态。每个智能体的目的是学习一个策略函数,尽可能多的从环境中获取奖励。上述的局部状态包括大交路(或小交路)列车的发车时间和车站遗留总人数。上述的动作是指大交路(或小交路)列车发车间隔。上述的奖励是指大交路(或小交路)企业运营成本和乘客等待成本的加权和的相反数。
[0134]
图9是本发明提供的列车时刻表确定方法的流程示意图之四,如图9所示,大交路观测对应于大交路策略网络,而小交路观测对应于小交路策略网络,在构建环境之后,即可应用强化学习算法,本发明不限制使用的强化学习算法,下面以多智能体强化学习算法为
例进行说明。多智能体深度确定策略梯度maddpg是一种适用于连续控制的多智能体强化学习方法。大交路和小交路智能体分别对应一个策略网络和一个价值网络,策略网络是确定性的,对于确定的观测输入,输出的动作是确定的。价值网络的输入是联合观测(状态)与所有智能体的动作,输出是一个实数,表示“基于当前状态执行某动作”的好坏程度。大交路策略网络用于控制大交路智能体,小交路策略网络用于控制小交路智能体,而大交路(或小交路)价值网络则用于评价所有智能体采取的动作,给出的分数可以指导大交路(或小交路)策略网络做出改进。
[0135]
多智能体深度确定策略梯度maddpg是异策略(off-policy),采用“中心化训练与去中心化决策”的架构,通过使用经验回放,重复利用过去的经验,本发明采用经验回放数组存储收集到的经验,每一条经验都是一个四元组(s
δ
,a
δ
,r
δ
,s
δ+1
),其中s
δ
={o
δ,1
,o
δ,2
},},s
δ+1
={o
δ+1,1
,o
δ+1,2
},rv={r
δ,1
,r
δ,2
}。
[0136]
本发明提供了一种列车时刻表确定方法、装置、设备及介质,以时间步作为状态组的确定基础,通过策略网络模型以及当前时间步所对应的状态组确定当前发车间隔,并输入当前时间步所对应的状态组以及当前发车间隔确定下一时间步的状态组,根据另一策略网络模型确定下一发车间隔,从而实现了时间步所对应的状态组与发车间隔的不断交互迭代,同时引入价值网络模型,以奖励误差作为价值引导不断迭代更新策略网络模型以及价值网络模型,从而确定出优化后的策略网络模型,最终根据优化后的策略网络模型确定出列车时刻表。本发明根据客流信息和列车动力学特征构建虚拟运营环境,采用强化学习算法在构建的环境上进行学习和优化,模拟列车运行情况,进而得到列车时刻表,本发明为了使模型稳定,预测数据精确,引入了两个策略网络模型以及两个价值网络模型,可操作性强,鲁棒性高,可以极大地提高大小交路模式下列车时刻表优化效率,并有效的降低地铁运营成本和乘客等待成本。
[0137]
图2是本发明提供的列车时刻表确定方法的流程示意图之二,在输入下一时间步的状态组至第二策略网络模型之前,还包括:
[0138]
根据当前时间步的初始发车时刻以及当前时间步发车间隔确定下一时间步的初始发车时刻;
[0139]
在所述预设时长小于所述当前时间步发车间隔的情况下,将当前时间步对应车次的状态组确定为下一时间步的状态组;
[0140]
在所述预设时长大于或等于所述当前时间步发车间隔的情况下,将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组。
[0141]
在步骤201中,根据当前时间步的初始发车时刻以及当前时间步发车间隔确定下一时间步的初始发车时刻,无论是大交路模式还是小交路模式,确定下一时间步的初始发车时刻的方式是相同的,均是根据当前时间步的初始发车时刻以及当前时间步发车间隔之和确定下一时间步的初始发车时刻。
[0142]
在步骤202中,在所述预设时长小于所述当前时间步发车间隔的情况下,将当前时间步对应车次的状态组确定为下一时间步的状态组,首先,确定当前时间步发车间隔,比较所述预设时长与所述当前时间步发车间隔,在所述预设时长小于所述当前时间步发车间隔的情况下,则认为此时虽已进入下一时间步,但并未到达下一车次的发车时间,则将当前时间步对应车次的状态组确定为下一时间步的状态组。
[0143]
在步骤203中,在所述预设时长大于或等于所述当前时间步发车间隔的情况下,将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组,此时,在所述预设时长大于或等于所述当前时间步发车间隔的情况下,则在进入到下一时间步的情况下,已经到达下一车次的发车时间,则将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组。
[0144]
基于上述判断,在同一时间步中,将可能存在四种情况,第一种,即下一时间步中大交路以及小交路均为当前车次;第二种,即下一时间步中大交路以及小交路均为下一车次;第三种,即在下一时间步中,大交路进入下一车次,而小交路还在当前车次;以及第四种,即在下一时间步中,小交路进入下一车次,而大交路还在当前车次。
[0145]
图3是本发明提供的对第一策略网络模型进行更新的流程示意图,所述根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新,包括:
[0146]
根据第一学习参数、当前时间步发车间隔的影响梯度以及第一评价值的影响梯度确定第一更新值;
[0147]
根据所述第一策略网络模型所对应的第一策略网络参数以及所述第一更新值确定更新后第一策略网络参数,以根据所述更新后第一策略网络参数对所述第一策略网络模型进行更新。
[0148]
在步骤1031中,根据第一学习参数、当前发车间隔的影响梯度以及第一评价值的影响梯度的乘积确定第一更新值。
[0149]
在步骤1032中,根据所述第一策略网络模型所对应的第一策略网络参数以及所述第一更新值确定更新后第一策略网络参数,以根据所述更新后第一策略网络参数对所述第一策略网络模型进行更新,根据所述第一策略网络模型所对应的第一策略网络参数以及所述第一更新值确定更新后第一策略网络参数,具体地,参考如下公式:
[0150][0151]
式(7)中,θ
new
为更新后策略网络参数,θ
now
为所述策略网络模型所对应的策略网络参数,β为第一学习参数,为当前发车间隔的影响梯度,为第一评价值的影响梯度,进而根据所述更新后策略网络参数构建更新后策略网络模型。
[0152]
可选地,k为大小交路模式,在k为大交路模式下,根据第一学习参数、大交路当前时间步发车间隔的影响梯度以及第一大交路评价值的影响梯度确定第一大交路更新值;根据所述第一策略网络模型所对应的第一策略网络参数以及所述第一大交路更新值确定更新后第一策略网络参数,以根据所述更新后第一策略网络参数对所述第一策略网络模型进行更新。
[0153]
在k为小交路模式下,根据第一学习参数、小交路当前时间步发车间隔的影响梯度以及小交路评价值的影响梯度确定第一小交路更新值;根据所述小交路相对应的策略网络模型所对应的策略网络参数以及所述第一小交路更新值确定更新后的小交路策略网络参数,以根据所述小交路策略网络参数对小交路相对应的策略网络模型进行更新。
[0154]
图4是本发明提供的对第一价值网络模型进行更新的流程示意图,所述根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新,包括:
[0155]
根据乘客等待成本以及企业运营成本确定当前时间步的奖励函数;
[0156]
根据奖励函数以及所述第二评价值确定奖励目标;
[0157]
根据所述第一评价值以及所述奖励目标确定奖励误差;
[0158]
根据第二学习参数、所述奖励误差、所述第一评价值的影响梯度确定第二更新值;
[0159]
根据所述第一价值网络模型所对应的价值网络参数以及所述第二更新值确定更新后价值网络参数,以根据所述更新后价值网络参数对所述第一价值网络模型进行更新;
[0160]
所述乘客等待成本是根据当前时间步中所有车站中乘客所花费的总等待时间而确定的。
[0161]
在步骤1033中,根据乘客等待成本以及企业运营成本确定当前车次的奖励函数,所述乘客等待成本是根据当前时间步中所有车站中乘客所花费的总等待时间而确定的,具体地,强化学习的核心在于通过与环境交互,尽可能的获取最多的奖励,因此奖励对于强化学习算法至关重要,奖励函数可以看做成本函数的相反数,首先计算成本函数,成本可以分成两种,第一种是乘客等待成本,第二种是企业运营成本,企业运营成本通常由车底配置成本、运行成本,折旧和维护成本等一些列复杂成本组成,由于本发明专注于列车的运行时刻的优化,而非列车运行速度的控制,因此无法精确计算运营每次列车的成本,故将每次列车运行的总成本视为相同并用co表示。
[0162]
本发明根据乘客等待时间与单位时间价值的乘积确定乘客等待成本;根据所述乘客等待成本以及第一权重值确定第一加权值;根据所述企业运营成本以及第二权重值确定第二加权值;根据所述第一加权值以及所述第二加权值确定当前车次的奖励函数;所述第一权重值与所述第二权重值之和为预设常数。
[0163]
具体地,根据乘客等待时间与单位时间价值的乘积确定乘客等待成本,所述乘客等待成本是根据当前车次中所有车站中乘客所花费的总等待时间以及单位时间价值相乘而确定的,根据所述乘客等待成本以及第一权重值的乘积确定第一加权值,根据所述企业运营成本以及第二权重值确定第二加权值,由于所述第一权重值与所述第二权重值之和为预设常数,故所述第二权重值为预设常数与所述第一权重值之差,进而根据所述企业运营成本以及第二权重值的乘积确定第二加权值。
[0164]
可选地,根据所述第一加权值以及所述第二加权值确定当前车次的奖励函数,具体地,参考如下公式:
[0165][0166]
式(8)中,α为取值为0至1的权值,以对两者进行加权求和,cpk为乘客等待成本,co为企业运营成本。
[0167]
而针对乘客等待成本,是根据乘客等待时间与单位时间价值的乘积确定的,由于单位时间价值是固定且已知的,计算乘客等待成本重点在于计算乘客等待时间。
[0168]
可选地,无论是大交路还是小交路,其计算乘客等待时间过程是相同的,以大交路上行方向为例,第k1(δ)+1次列车的乘客等待时间由各车站等待第k1(δ)+1次列车的乘客的总等待时间组成。
[0169]
对于仅属于大交路的任一车站,等待第k1(δ)+1次列车的乘客总数为因此任一车站的乘客的总等待时间为:
[0170][0171]
对于大小交路的共用的车站,等待第k1(δ)+1次列车的乘客总数为:
[0172][0173]
a部分乘客的目的地也在共有车站中,此区段的乘客可以乘坐大交路列车,也可以乘坐小交路列车,a部分的等待时间为乘坐小交路列车,a部分的等待时间为
[0174]
b部分乘客的目的地在大交路车站,此区段的乘客只能乘坐大交路列车,b部分乘客的等待时间为
[0175]
因此大小交路的共用车站i的乘客的总等待时间为:
[0176][0177]
综上,大交路上行方向第k1(δ)+1次列车的乘客总等待时间为:
[0178][0179]
大交路的下行方向可以参考上述计算方案,在此不予赘述。
[0180]
在步骤1034中,根据奖励函数以及所述第二评价值确定奖励目标,确定奖励目标可以参考如下公式:
[0181][0182]
在式(13)中,为奖励目标,r
δ,k
为奖励函数,γ为折扣因子,一般为0.99,q
δ+1,k
为第二评价值。
[0183]
在步骤1035中,根据所述第一评价值以及所述奖励目标确定奖励误差,确定奖励误差可以参考如下公式:
[0184][0185]
式(14)中,φ
δ,k
为奖励误差,q
δ,k
为第一评价值,为奖励目标。
[0186]
在步骤1036中,根据第二学习参数、所述奖励误差、所述第一评价值的影响梯度的乘积确定第二更新值。
[0187]
在步骤1037中,根据所述第一价值网络模型所对应的价值网络参数以及所述第二更新值确定更新后价值网络参数,以根据所述更新后价值网络参数对所述第一价值网络模型进行更新,可以参考如下公式:
[0188][0189]
式(15)中,即为第二更新值,为所述第一价值网络模型所对应的价值网络参数,为更新后价值网络参数。
[0190]
图5是本发明提供的列车时刻表确定方法的流程示意图之三,在输入当前时间步
的状态组至第一策略网络模型之前,还包括:
[0191]
在所述状态组为大交路状态组的情况下,根据大交路状态组所在的时间步相对应的车次的初始发车时刻,以及在所述大交路状态组所在的时间步相对应的车次沿线的所有大交路车站中,无法乘坐所述大交路状态组对应的车次列车的总遗留人数确定所述大交路状态组;
[0192]
在所述状态组为小交路状态组的情况下,根据小交路状态组所在的时间步相对应的车次的初始发车时刻以及在所述小交路状态组所在的时间步相对应的车次沿线的所有共有车站中,无法乘坐所述小交路状态组对应的车次列车的总遗留人数确定所述小交路状态组;
[0193]
所述共有车站为大交路沿线的所有车站与小交路沿线的所有车站中相重叠部分的车站。
[0194]
在步骤301中,本发明事实上针对大交路模式,存在一套第一策略网络模型、第二策略网络模型、第一价值网络模型以及第二价值网络模型的组合,用于解决在大交路中发车时间间隔最优化的预测,而针对小交路模式,存在另一套第一策略网络模型、第二策略网络模型、第一价值网络模型以及第二价值网络模型的组合,用于解决在小交路中发车时间间隔最优化的预测,然而两者之间并不是毫无关联的,两者均是在同一时间步的情况下确定大交路模式下的状态组,以及小交路模式下的状态组,而状态组究竟是采用当前车次的状态组还是下一车次的状态组可以参考图2的具体实施方式。在本发明中,大小交路列车时刻表优化问题被表述为一个马尔可夫决策过程,其中两个智能体分别调节大交路和小交路的时刻表。通过引入公共时间步协调两个智能体的决策,在每个时间步,智能体获取环境状态并做出相应的决策。
[0195]
在大交路状态组中,根据与之相对应时间步的车次所对应的初始发车时刻以及总遗留人数组成大交路状态组,在小交路状态组中,根据与之相对应时间步的车次所对应的初始发车时刻以及总遗留人数组成小交路状态组。
[0196]
在所述状态组为大交路状态组的情况下,根据大交路状态组所在的时间步相对应的车次的初始发车时刻,以及在所述大交路状态组所在的时间步相对应的车次沿线的所有大交路车站中,无法乘坐所述大交路状态组对应的车次列车的总遗留人数确定所述大交路状态组,步骤301与步骤302为同时执行的步骤,分别说明了在不同交路模式下不同状态组的构建方式,例如,在步骤301中,首先确定大交路状态组所在的时间步,确定所述时间步所对应的车次是当前车次还是下一车次,并在相对应的车次中确定出与每一车次相对应的初始发车时刻。
[0197]
进一步地,确定时间步相对应的车次沿线的所有大交路车站,确定在这些车站中,无法乘坐所述大交路状态组对应的车次列车的总遗留人数。
[0198]
在步骤302中,所述共有车站为大交路沿线的所有车站与小交路沿线的所有车站中相重叠部分的车站,首先确定小交路状态组所在的时间步,确定所述时间步所对应的车次是当前车次还是下一车次,并在相对应的车次中确定出与每一车次相对应的初始发车时刻,进一步地,确定时间步相对应的车次沿线的所有共有车站,确定在这些车站中,无法乘坐所述小交路状态组对应的车次列车的总遗留人数。
[0199]
无论是对于大交路而言,还是对于小交路而言,确定状态组所在的时间步相对应
的车次的初始发车时刻是一样的,具体地,以乘客出行矩阵的上行乘客数据为例,大交路模式与小交路模式在同一时间步δ中确定状态组,列车车次为k1(δ),大交路的状态为(δ),大交路的状态为动作为由此可以推断出列车车次k1(δ)+1的发车时间为而当时,即下一个时间步时,列车车次k1(δ)+1还未发车,则在δ+1时间步的大交路的状态为当时,即下一个时间步时,列车车次k1(δ)+1已经发车,则在δ+1时间步的大交路的状态中,状态组所在的时间步相对应的车次的初始发车时刻为:第k1(δ)+1次列车的发车时间相应地,在小交路列车中与时间步相对应的车次的初始发车时刻可以参考上述方案,在此不予赘述。
[0200]
图6是本发明提供的确定下一时间步的状态组的流程示意图之一,在所述状态组为大交路状态组的情况下,所述将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组,包括:
[0201]
根据大交路车站中的每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数,以及从每一车站出发前往指定车站的新进乘客人数确定每一车站等待乘坐下一车次列车的总人数;
[0202]
根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数;
[0203]
根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数,以确定在大交路车站中无法乘坐下一车次列车的总遗留人数;
[0204]
根据大交路车站中无法乘坐下一车次列车的总遗留人数以及共有车站中无法乘坐下一车次列车的总遗留人数确定所有车站中无法乘坐下一车次列车的总遗留人数,以根据下一时间步的初始发车时刻以及在所有车站中无法乘坐下一车次列车的总遗留人数确定所述下一时间步的状态组;
[0205]
所述大交路车站为大交路沿线的所有车站中,不包括小交路沿线车站的剩余车站。
[0206]
在步骤3011中,根据大交路车站中的每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数,以及从每一车站出发前往指定车站的新进乘客人数确定每一车站等待乘坐下一车次列车的总人数,在仅属于大交路的车站(如,[s
1 sa)和(s
b sn]),乘客仅能乘坐大交路列车。对于给定的od矩阵,可以通过以下公式计算在车站i等待乘第k1(δ)+1次列车人数
[0207][0208][0209]
其中,表示在大交路车站中的每一车站i未乘坐k1(δ)次列车被迫等待第k1(δ)+1次列车的人数,即式(16)表示在车站i等待乘坐第k1(δ)+1次列车人数等于未乘坐
第k1(δ)次列车的人数加上从第k1(δ)次列车从车站i出发到第k1(δ)+1次列车从车站i出发的时间段内来到车站i的人数。
[0210]
在步骤3012中,根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数,由于列车容量有限,当在车站i等待乘坐第k1(δ)+1次车人数大于列车剩余容量时,部分乘客将无法乘车而被迫等待第k1(δ)+2次列车,当第k1(δ)+1次列车到达车站i时,所能提供的剩余容量计算公式如下。
[0211][0212]
其中,式(18)中,γ表示列车总容量,表示列车到达车站i之前列车内乘客数量,为在车站i下车的乘客数量。
[0213]
进一步地,在大交路车站中的每一车站i实际乘坐第k1(δ)+1次列车到达车站j(指定车站)的人数计算公式如下:
[0214][0215]
式(19)的含义为:如果列车剩余空间足够在车站i等待乘坐第k1(δ)+1次列车的乘客上车,则否则列车剩余空间按照在车站i等待乘列车前往车站j的乘客人数占所有在车站i等待列车的人数的百分比分配给乘客。例如,在车站i等待乘列车前往车站j的乘客人数有5人,而所有在车站i等待列车的人数有15人,则在车站i等待乘列车前往车站j的乘客人数占所有在车站i等待列车的人数的百分比为1:3,此时,若剩余承载容量为9,则允许在车站i等待乘列车前往车站j的乘客人数中的3人上车。
[0216]
在步骤3013中,根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数,以确定在大交路车站中无法乘坐下一车次列车的总遗留人数,结合步骤3012,列车到达车站i之前列车内乘客数量为:
[0217][0218]
式(20)中,列车到达车站i之前列车内乘客数量等于列车到达车站i-1之前列车内乘客数量加上在车站i-1上车人数再减去在车站i-1下车人数。车站i下车的乘客数量为
[0219]
因此,每一车站无法乘坐下一车次列车到达指定车站的遗留人数,即在车站i无法乘坐第k1(δ)+1次列车总遗留人数为而:
[0220][0221]
在步骤3014中,根据大交路车站中无法乘坐下一车次列车的总遗留人数以及共有车站中无法乘坐下一车次列车的总遗留人数确定所有车站中无法乘坐下一车次列车的总遗留人数,以根据下一时间步的初始发车时刻以及在所有车站中无法乘坐下一车次列车的总遗留人数确定所述下一时间步的状态组,由于大交路车站是由两部分车站组成,一部分为专属于大交路的车站,另一部分为与小交路车站所共有的车站,故根据大交路车站中无
法乘坐下一车次列车的总遗留人数以及共有车站中无法乘坐下一车次列车的总遗留人数之和,确定所有车站中无法乘坐下一车次列车的总遗留人数,即所述下一时间步的状态组可以表示为下一时间步的初始发车时刻以及在所有车站中无法乘坐下一车次列车的总遗留人数的元组,而共有车站中无法乘坐下一车次列车的总遗留人数将在图7所示出的实施例中做进一步的描述。
[0222]
图7是本发明提供的确定下一时间步的状态组的流程示意图之二,在所述状态组为小交路状态组的情况下,所述将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组,包括:
[0223]
根据共有车站中的每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数、从共有车站中的任一车站出发前往共有车站中的指定车站的新进乘客人数以及从共有车站中的任一车站出发前往大交路车站的新进乘客人数确定共有车站中每一车站等待乘坐下一车次列车的总人数;
[0224]
根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数;
[0225]
根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数,以确定在共有车站的每一车站中无法乘坐下一车次列车的总遗留人数;
[0226]
根据在共有车站的每一车站中无法乘坐下一车次列车的总遗留人数确定共有车站的所有车站中无法乘坐下一车次列车的总遗留人数,以根据下一时间步的初始发车时刻以及共有车站的所有车站中无法乘坐下一车次列车的总遗留人数确定下一时间步的状态组。
[0227]
在步骤3021中,根据共有车站中的每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数、从共有车站中的任一车站出发前往共有车站中的指定车站的新进乘客人数以及从共有车站中的任一车站出发前往大交路车站的新进乘客人数确定共有车站中每一车站等待乘坐下一车次列车的总人数。
[0228]
设定大小交路共用的车站为([sa,sb]),在本发明的小交路的计算过程中,除了在车站i等待乘第k1(δ)+1次列车人数的计算方式存在不同之外,其它地方与仅属于大交路的车站(如,[s
1 sa)和(s
b sn])的计算方式类似。
[0229]
在大小交路的共用的车站([sa,sb])乘坐列车的乘客,如果乘客的目的地也在[sa,sb]区段,则乘客可以选择乘坐大交路列车或者小交路列车(假设乘客乘坐先到达的列车),如果乘客的目的地不在[sa,sb]区段,则乘客只能乘坐大交路列车。由于车站i属于大小交路的共用的车站,比第k1(δ)+1次列车先到达车站i的列车,可能是k1(δ)次列车,也有可能是小交路列车,为叙述方便,用k(δ)表示比第k1(δ)+1次列车先到达车站i的列车。
[0230]
则在车站i等待乘第k1(δ)+1次列车人数计算公式如下:
[0231][0232]
式(22)中,a表示从共有车站中的任一车站出发前往共有车站中的指定车站的新进乘客人数,乘客的目的地也在[sa,sb]区段,由于该区段的乘客可以乘坐大交路列车或者
小交路列车,因此a的计算公式为:j属于[sa,sb]。
[0233]
式(22)中,在仅考虑上行的情况下,b表示为从共有车站中的任一车站出发前往大交路车站的新进乘客人数,乘客的目的地在(sb,sn]区段,由于乘客只能乘坐大交路列车,因此b的计算公式为其中j属于(sb,sn]。值得注意的是,a和b的计算公式中,除了目的地j不同之外,其累加时间下限也不同,a的累加时间下限是b的累加时间下限是
[0234]
步骤3022为根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数;步骤3023为根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数,以确定在共有车站的每一车站中无法乘坐下一车次列车的总遗留人数,上述步骤的计算方式与计算大交路模式下的计算方式相同,可以参考步骤3012以及步骤3013,在此不予赘述。
[0235]
在步骤3024中,根据在共有车站的每一车站中无法乘坐下一车次列车的总遗留人数确定共有车站的所有车站中无法乘坐下一车次列车的总遗留人数,以根据下一时间步的初始发车时刻以及共有车站的所有车站中无法乘坐下一车次列车的总遗留人数确定下一时间步的状态组,所述下一时间步的状态组可以表示为下一时间步的初始发车时刻以及共有车站的所有车站中无法乘坐下一车次列车的总遗留人数的元组。
[0236]
图10是本发明提供的列车时刻表确定装置的结构示意图,本发明公开了一种列车时刻表确定装置,包括执行单元1:用于重复执行以下步骤,直至满足预设条件:
[0237]
输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;
[0238]
输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;
[0239]
根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的,所述执行单元1的工作原理可以参考前述步骤101,在此不予赘述。
[0240]
所述列车时刻表确定装置还包括获取单元2:用于在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔,所述获取单元2的工作原理可以参考前述步骤102,在此不予赘述。
[0241]
所述列车时刻表确定装置还包括确定单元3:用于根据目标时间步的初始发车时
刻以及所述目标发车间隔确定所述目标时间步的列车时刻表,所述确定单元3的工作原理可以参考前述步骤103,在此不予赘述。
[0242]
所述状态组为大交路状态组或者小交路状态组中的任一状态组;
[0243]
所述时间步为预设时长的时间片段。
[0244]
本发明提供了一种列车时刻表确定方法、装置、设备及介质,以时间步作为状态组的确定基础,通过策略网络模型以及当前时间步所对应的状态组确定当前发车间隔,并输入当前时间步所对应的状态组以及当前发车间隔确定下一时间步的状态组,根据另一策略网络模型确定下一发车间隔,从而实现了时间步所对应的状态组与发车间隔的不断交互迭代,同时引入价值网络模型,以奖励误差作为价值引导不断迭代更新策略网络模型以及价值网络模型,从而确定出优化后的策略网络模型,最终根据优化后的策略网络模型确定出列车时刻表。本发明根据客流信息和列车动力学特征构建虚拟运营环境,采用强化学习算法在构建的环境上进行学习和优化,模拟列车运行情况,进而得到列车时刻表,本发明为了使模型稳定,预测数据精确,引入了两个策略网络模型以及两个价值网络模型,可操作性强,鲁棒性高,可以极大地提高大小交路模式下列车时刻表优化效率,并有效的降低地铁运营成本和乘客等待成本。
[0245]
图11是本发明提供的电子设备的结构示意图。如图11所示,该电子设备可以包括:处理器(processor)110、通信接口(communications interface)120、存储器(memory)130和通信总线140,其中,处理器110,通信接口120,存储器130通过通信总线140完成相互间的通信。处理器110可以调用存储器130中的逻辑指令,以执行列车时刻表确定方法,该方法包括:重复执行以下步骤,直至满足预设条件:输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的;在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔;根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表;所述状态组为大交路状态组或者小交路状态组中的任一状态组;所述时间步为预设时长的时间片段。
[0246]
此外,上述的存储器130中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
[0247]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种列车时刻表确定方法,该方法包括:重复执行以下步骤,直至满足预设条件:输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的;在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔;根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表;所述状态组为大交路状态组或者小交路状态组中的任一状态组;所述时间步为预设时长的时间片段。
[0248]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的列车时刻表确定方法,该方法包括:重复执行以下步骤,直至满足预设条件:输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的;在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔;根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表;所述状态组为大交路状态组或者小交路状态组中的任一状态组;所述时间步为预设时长的时间片段。
[0249]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0250]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可
借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0251]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种列车时刻表确定方法,其特征在于,包括:重复执行以下步骤,直至满足预设条件:输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的;在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔;根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表;所述状态组为大交路状态组或者小交路状态组中的任一状态组;所述时间步为预设时长的时间片段。2.根据权利要求1所述的列车时刻表确定方法,其特征在于,在输入下一时间步的状态组至第二策略网络模型之前,还包括:根据当前时间步的初始发车时刻以及当前时间步发车间隔确定下一时间步的初始发车时刻;在所述预设时长小于所述当前时间步发车间隔的情况下,将当前时间步对应车次的状态组确定为下一时间步的状态组;在所述预设时长大于或等于所述当前时间步发车间隔的情况下,将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组。3.根据权利要求1所述的列车时刻表确定方法,其特征在于,所述根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新,包括:根据第一学习参数、当前时间步发车间隔的影响梯度以及第一评价值的影响梯度确定第一更新值;根据所述第一策略网络模型所对应的第一策略网络参数以及所述第一更新值确定更新后第一策略网络参数,以根据所述更新后第一策略网络参数对所述第一策略网络模型进行更新。4.根据权利要求1所述的列车时刻表确定方法,其特征在于,所述根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新,包括:根据乘客等待成本以及企业运营成本确定当前时间步的奖励函数;根据奖励函数以及所述第二评价值确定奖励目标;根据所述第一评价值以及所述奖励目标确定奖励误差;根据第二学习参数、所述奖励误差、所述第一评价值的影响梯度确定第二更新值;
根据所述第一价值网络模型所对应的价值网络参数以及所述第二更新值确定更新后价值网络参数,以根据所述更新后价值网络参数对所述第一价值网络模型进行更新;所述乘客等待成本是根据当前时间步中所有车站中乘客所花费的总等待时间而确定的。5.根据权利要求1所述的列车时刻表确定方法,其特征在于,所述预设条件为如下条件中的任一种:在大交路车站与小交路车站所共有的车站中,小交路列车在所共有的车站中的任一车站的发车时间处于大交路的约束时间区间内;列车发车时间超过交通运营时间;所有车站中遗留人数为0;列车发车时间超过交通运营时间,且在所有车站中没有遗留人数;其中,所述大交路的约束时间区间是根据约束最小值以及约束最大值确定的,所述约束最小值是根据大交路列车在所共有的车站中的所述车站的发车时间与预设约束间隔的差值确定的,所述约束最大值是根据大交路列车在所共有的车站中的所述车站的发车时间与预设约束间隔的和值确定的。6.根据权利要求1所述的列车时刻表确定方法,其特征在于,所述根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标时间步的列车时刻表,包括:根据目标时间步对应车次的初始发车时刻、所述目标发车间隔、各车站间的运行时间、各车站的停留时间确定车次沿线的所有车站中每一车站的出发时刻,以根据所有车站的出发时刻确定所述目标时间步的列车时刻表。7.根据权利要求2-6中任一项所述的列车时刻表确定方法,其特征在于,在输入当前时间步的状态组至第一策略网络模型之前,还包括:在所述状态组为大交路状态组的情况下,根据大交路状态组所在的时间步相对应的车次的初始发车时刻,以及在所述大交路状态组所在的时间步相对应的车次沿线的所有大交路车站中,无法乘坐所述大交路状态组对应的车次列车的总遗留人数确定所述大交路状态组;在所述状态组为小交路状态组的情况下,根据小交路状态组所在的时间步相对应的车次的初始发车时刻以及在所述小交路状态组所在的时间步相对应的车次沿线的所有共有车站中,无法乘坐所述小交路状态组对应的车次列车的总遗留人数确定所述小交路状态组;所述共有车站为大交路沿线的所有车站与小交路沿线的所有车站中相重叠部分的车站。8.根据权利要求7所述的列车时刻表确定方法,其特征在于,在所述状态组为大交路状态组的情况下,所述将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组,包括:根据大交路车站中的每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数,以及从每一车站出发前往指定车站的新进乘客人数确定每一车站等待乘坐下一车次列车的总人数;根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确
定每一车站到达指定车站的实际乘车人数;根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数,以确定在大交路车站中无法乘坐下一车次列车的总遗留人数;根据大交路车站中无法乘坐下一车次列车的总遗留人数以及共有车站中无法乘坐下一车次列车的总遗留人数确定所有车站中无法乘坐下一车次列车的总遗留人数,以根据下一时间步的初始发车时刻以及在所有车站中无法乘坐下一车次列车的总遗留人数确定所述下一时间步的状态组;所述大交路车站为大交路沿线的所有车站中,不包括小交路沿线车站的剩余车站。9.根据权利要求7所述的列车时刻表确定方法,其特征在于,在所述状态组为小交路状态组的情况下,所述将当前时间步对应车次的下一车次的状态组确定为下一时间步的状态组,包括:根据共有车站中的每一车站无法乘坐当前车次列车而被迫等待下一车次列车的人数、从共有车站中的任一车站出发前往共有车站中的指定车站的新进乘客人数以及从共有车站中的任一车站出发前往大交路车站的新进乘客人数确定共有车站中每一车站等待乘坐下一车次列车的总人数;根据下一车次列车的剩余承载容量以及每一车站等待乘坐下一车次列车的总人数确定每一车站到达指定车站的实际乘车人数;根据从每一车站出发前往指定车站总乘客人数以及每一车站到达指定车站的实际乘车人数确定每一车站无法乘坐下一车次列车到达指定车站的遗留人数,以确定在共有车站的每一车站中无法乘坐下一车次列车的总遗留人数;根据在共有车站的每一车站中无法乘坐下一车次列车的总遗留人数确定共有车站的所有车站中无法乘坐下一车次列车的总遗留人数,以根据下一时间步的初始发车时刻以及共有车站的所有车站中无法乘坐下一车次列车的总遗留人数确定下一时间步的状态组。10.一种列车时刻表确定装置,其特征在于,包括:执行单元:用于重复执行以下步骤,直至满足预设条件:输入当前时间步的状态组至第一策略网络模型,获取所述第一策略网络模型输出的当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取所述第二策略网络模型输出的下一时间步发车间隔;输入所述当前时间步的状态组以及所述当前时间步发车间隔至第一价值网络模型,获取所述第一价值网络模型输出的第一评价值;输入所述下一时间步的状态组以及所述下一时间步发车间隔至第二价值网络模型,获取所述第二价值网络模型输出的第二评价值;根据所述当前时间步发车间隔、所述第一评价值对所述第一策略网络模型进行更新;根据所述第一评价值、所述第二评价值对所述第一价值网络模型进行更新;所述第二策略网络模型是根据预设参数对第一策略网络模型进行更新而确定的,所述第二价值网络模型是根据所述预设参数对第一价值网络模型进行更新而确定的;获取单元:用于在满足预设条件后,输入目标时间步的状态组至所述第一策略网络模型,获取所述第一策略网络模型输出的目标发车间隔;确定单元:用于根据目标时间步的初始发车时刻以及所述目标发车间隔确定所述目标
时间步的列车时刻表;所述状态组为大交路状态组或者小交路状态组中的任一状态组;所述时间步为预设时长的时间片段。11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至9任一项所述列车时刻表确定方法。12.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述列车时刻表确定方法。

技术总结
本发明提供一种列车时刻表确定方法、装置、设备及介质,涉及轨道交通技术领域,该方法包括:输入当前时间步的状态组至第一策略网络模型,获取当前时间步发车间隔;输入下一时间步的状态组至第二策略网络模型,获取下一时间步发车间隔;输入当前时间步的状态组及当前时间步发车间隔至第一价值网络模型,获取第一评价值;输入下一时间步的状态组以及下一时间步发车间隔至第二价值网络模型,获取第二评价值;输入目标时间步的状态组至第一策略网络模型,获取目标发车间隔;根据初始发车时刻以及目标发车间隔确定列车时刻表,本发明可操作性强,鲁棒性高,极大提高长交路模式下列车时刻表优化效率,并有效的降低地铁运营成本和乘客等待成本。等待成本。等待成本。


技术研发人员:程高云 潘龙飞 刘义卿 赵兴东
受保护的技术使用者:交控科技股份有限公司
技术研发日:2022.11.22
技术公布日:2023/3/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐