一种多场景下人机混驾智能列车的控制方法

未命名 07-02 阅读：97 评论：0

1.本发明涉及交通运输技术领域，特别是一种多场景下人机混驾智能列车的控制方法。

背景技术：

2.随着智能机器与各类智能终端不断涌现，人与智能机器的交互、混合是未来社会的发展形态。然而，对于许多存在不确定性、脆弱性和开放性问题的情况下，任何智能的机器都无法完全取代人类。这将需要将人类的作用或人的认知模型引入到人工智能系统中，形成混合增强智能的形态。现有列车人机共驾的研究根据人机协同方法目前大体可分为两大类型：第一类是通过人与机切换控制，在自动驾驶系统和人驾驶两者之间相互切换，采用接管方式控制列车；第二大类是人机之间相互辅助驾驶，即人辅助机器驾驶，或者机器辅助人驾驶；第三大类是人机共享控制，列车驾驶员和驾驶自动化机器系统同时对车辆运动进行控制。其中，第三大类的控制方式，列车人机混合智能共驾通过发挥人机各自优势，是提升智能列车稳定性、安全性和舒适性的可行技术手段。
3.对于人机共享的控制方式来说，需要考虑机器档位操控和驾驶员人工档位操控的权重分配问题。然而现有技术中，通常对人机档位操控的权重进行平均分配，分配方式简单粗糙，很难满足列车对准点、能耗和乘坐舒适度三目标的要求。另一方面，不同的天气类型对驾驶员的档位操控决策有影响，此时不对人机档位操控的权重分配进行合理调整，会进一步使列车行驶的准点率降低，能耗提高，乘坐舒适度下降。
4.事实上，天气因素对机器档位操控决策也有影响，对于不同的天气类型，列车行驶路段的限速等参数是不同的，如果机器档位操控不考虑天气的影响，其输出的档位操控序列也很难满足对准点、能耗和乘坐舒适度三目标优化要。

技术实现要素：

5.针对背景技术的问题，本发明提供一种多场景下人机混驾智能列车的控制方法，以解决现有技术中人机档位操控权重分配不合理，且未考虑天气因素对驾驶员及机器档位操控决策的影响，导致人机智能混驾列车准点率低、能耗高、乘坐舒适度差的问题。
6.为实现本发明的目的，本发明提供了一种多场景下人机混驾智能列车的控制方法，其特征创新点在于：包括车载机器控制模块、车载人工控制模块、车载驾驶权重分配模块、车载驾驶主控模块、车载通信模块和地面列车控制中心；
7.所述地面列车控制中心包括地面通信模块、地面驾驶主控模块、驾驶环境监测模块、操控档位生成模块和权重分配生成模块；所述操控档位生成模块包括第一强化学习模块和第二强化学习模块；
8.所述权重分配生成模块包括人机混驾仿真系统，所述人机混驾仿真系统能模拟列车的驾驶环境，通过人机混驾仿真系统还能获取人机混合智能驾驶的仿真数据；
9.所述驾驶环境监测模块能获取列车运行路段的天气类型信息，并将天气类型信息
传输给地面驾驶主控模块；所述天气类型包括晴好天气和恶劣天气；
10.地面驾驶主控模块能从权重分配模块获取列车驾驶路段的可用人机操控权重分配序列，并将获取的可用人机操控权重分配序列发送给车载通信模块；地面驾驶主控模块能根据天气类型信息从操控档位生成模块中获取可用最优档位操控序列，并将获取的可用最优档位操控序列发送给车载通信模块；
11.所述控制方法包括：
12.设列车将从a站点行驶到b站点，将a站点与b站点之间的路段记为ab路段，所述ab路段由n个步进长度相等的步进区段组成；
13.所述第一强化学习模块根据方法一生成列车在晴好天气下的第一最优档位操控序列，所述第二强化学习模块根据方法二生成列车在恶劣天气下的第二最优档位操控序列；
14.权重分配生成模块根据方法三生成列车在ab路段行驶的人机操控权重分配序列；
15.一)当列车从a站点驶出前，车载驾驶主控模块通过车载通信模块向地面通信模块发送数据装载请求；
16.二)地面通信模块将数据装载请求传输给地面驾驶主控模块，然后地面驾驶主控模块从驾驶环境监测模块获取ab路段当前的天气类型信息；
17.三)地面驾驶主控模块根据收到的天气类型信息按方法四获取可用最优档位操控序列和可用人机操控权重分配序列；
18.四)地面驾驶主控模块将所述可用最优档位操控序列数据和可用人机操控权重分配序列数据通过地面通信模块发送给车载通信模块，然后车载通信模块将收到的可用最优档位操控序列数据和可用人机操控权重分配序列数据分别传输给车载机器控制模块和车载驾驶权重分配模块；然后车载机器控制模块对收到的可用最优档位操控序列数据进行装载，车载驾驶权重分配模块对收到的可用人机操控权重分配序列数据进行装载；
19.五)车载机器控制模块根据可用最优档位操控序列实时向车载驾驶权重分配模块传输第一操控档位指令；同时，驾驶员通过车载人工控制模块实时向车载驾驶权重分配模块传输第二操控档位指令；
20.六)车载驾驶权重分配模块每次收到第一操控档位指令和第二操控档位指令即按方法五进行处理生成当前的融合操控档位a
′i，然后车载驾驶权重分配模块根据所述a
′i生成当前的融合操控档位指令并传输给车载驾驶主控模块；
21.七)车载驾驶主控模块根据收到的融合操控档位指令控制列车运行；如果列车到达b站点程序结束，否则返回步骤五)；
22.所述方法一包括：
23.1)对ab路段列车在晴好天气条件下的历史运行数据进行收集处理，获取多个经验档位操控序列，多个经验档位操控序列组成一个经验回放池；其中，单个经验档位操控序列τ可根据公式一确定；
24.2)以从经验回访池中随机选择一个经验档位操控序列为基础，采用dqn算法进行强化学习，生成第一最优档位操控序列；
25.所述公式一为：
26.τ＝{s0,a0,r0；s1,a1,r1；si,ai,ri；
…
；s
n-1
,a
n-1
,r
n-1
；sn}
27.其中，i为0至n的整数；si表示晴好天气下列车在第i个步进区段的状态，si根据公式二确定；ai表示所述si对应的档位操控动作；所述ri为根据列车在第i个步进区段的状态和档位操控动作进行计算所获得的奖励值，所述ri根据公式三确定；
28.所述公式二为：
[0029][0030]
其中，所述di、vi、ti、ui、gi和分别为晴好天气下，列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；
[0031]
所述公式三为：
[0032]ri
＝w1×ritime
+w2×rienergy
+w3×ricomfort
[0033]
其中，所述r
itime
为准时性奖励函数，根据公式四确定；所述r
ienergy
为能耗奖励函数，根据公式五确定；所述r
icomfort
为乘坐舒适度奖励函数，根据公式六确定；所述w1、w2和w3分别为r
itime
、r
ienergy
和r
icomfort
的权重系数，w1、w2和w3为设定值，且w1+w2+w3＝1；
[0034]
所述公式四为：
[0035][0036]
其中，所述为列车在第i个步进区段行驶的实际时长；所述t
max
为列车在单个步进区段行驶的最大时长；所述tr为列车在路段ab上的实际运行时长；所述t为列车在路段ab上的计划运行时长；
[0037]
所述公式五为：
[0038][0039]
其中，所述ui为列车在第i个步进区段的加速度；所述δd为单个步进区段的长度；所述e
max
为列车在单个步进区段上行驶所需的最大能耗；
[0040]
所述公式六为：
[0041][0042]
其中，所述u
i+1
为列车在第i+1个步进区段的加速度；所述δc
max
为列车的最大运行冲击率；
[0043]
所述方法二包括：
[0044]
对ab路段列车在恶劣天气条件下的历史运行数据进行收集处理，获取多个专家档位操控序列，单个专家档位操控序列τ
′
根据公式七获取；
[0045]
a)采用强化学习的方法，使智能体与环境交互得到多个初始机器档位操控序列，单个机器档位操控序列τ
″
根据公式九获取；
[0046]
b)程序首次循环时，采用gail算法对多个专家档位操控序列数据和多个初始机器档位操控序列数据进行处理，得到多个待判档位操控序列和判别概率p；
[0047]
程序后续循环中，采用gail算法对多个专家档位操控序列数据和多个更新机器档位操控序列数据进行处理，得到多个待判档位操控序列和判别概率p；
[0048]
c)对判别概率p进行判断，如果判别概率p满足大于设定值要求为真，则将多个所述待判档位操控序列中，累计奖励值最大的待判档位操控序列作为第二最优档位操控序列，程序结束；否则进入步骤d)；
[0049]
d)采用ppo算法对多个待判档位操控序列进行处理，得到多个更新档位操控序列；返回步骤b)；
[0050]
所述公式七为：
[0051]
τ
′
＝{s
′1,a
′1；
…
；s
′i,a
′i；
…
；s
′n,a
′n}
[0052]
其中，s
′i表示专家档位操控序列中，恶劣天气下列车在第i个步进区段的状态，s
′i根据公式八确定；a
′i表示所述s
′i对应的档位操控动作；
[0053]
所述公式八为：
[0054][0055]
其中，所述d
′i、v
′i、t
′i、u
′i、g
′i和分别为恶劣天气下，专家档位操控序列中列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；
[0056]
所述公式九为：
[0057]
τ
″
＝{s
″1,a
″1；
…
；s
″i,a
″i；
…
；s
″n,a
″n}
[0058]
其中，s
″i表示机器档位操控序列中，恶劣天气下列车在第i个步进区段的状态，s
″i根据公式十确定；a
″i表示所述s
″i对应的档位动作；
[0059]
所述公式十为：
[0060][0061]
其中，所述d
″i、v
″i、t
″i、u
″i、g
″i和分别为恶劣天气下，机器档位操控序列中列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；
[0062]
所述方法三包括：
[0063]
1)强化学习环境搭建：从操控档位生成模块获取第一最优档位操控序列数据和第二最优档位操控序列数据；然后将所述第一最优档位操控序列数据和第二最优档位操控序列数据输入人机混驾仿真系统；人机混驾仿真系统利用第一最优档位操控序列数据，模拟晴好天气下车载机器控制模块在ab路段对列车的档位操控；人机混驾仿真系统利用第二最优档位操控序列数据，模拟恶劣天气下车载机器控制模块在ab路段对列车的档位操控；驾驶员通过向人机混驾仿真系统输入操控档位模拟在ab路段人工对列车的档位操控；将模拟晴好天气下车载机器控制模块和驾驶员在ab路段对列车的混合档位操控环境记为第一强化学习环境，将模拟恶劣天气下车载机器控制模块和驾驶员在ab路段对列车的混合档位操控环境记为第二强化学习环境；
[0064]
2)采用q-learning算法，使智能体与强化学习环境互动，获取ab路段中每个步进区段对应的人机操控权重对(k
i机
，k
i人
)，其中，k
i机
为第i个步进区段的机器操控权重系数，k
i人
为第i个步进区段的人工操控权重系数，k
i机
+k
i人
＝1；ab路段的全部步进区段对应的人机操控权重对的有序排列形成ab路段的人机操控权重分配序列λ＝{k
1机
，k
1人
；
…
；k
i机
，k
i人
；
…
；k
n机
，k
n人
}；其中，将利用第一强化学习环境获取的人机操控权重分配序列记为λ1，将利用第二强化学习环境获取的人机操控权重分配序列记为λ2；
[0065]
所述方法四包括：
[0066]
当天气类型为晴好天气时，地面驾驶主控模块从操控档位生成模块中提取第一最优档位操控序列作为可用最优档位操控序列；地面驾驶主控模块从权重分配生成模块中提取所述λ1作为可用人机操控权重分配序列；
[0067]
当天气类型为恶劣天气时，地面驾驶主控模块从操控档位生成模块中提取第二最优档位操控序列作为可用最优档位操控序列；地面驾驶主控模块根据以下方式获取可用人机操控权重分配序列：
[0068]ⅰ)从权重分配生成模块中提取所述λ2数据；
[0069]ⅱ)将λ2中的k
i机
更新为k
i机
+δk，将λ2中的k
i人
更新为k
i人-δk，得到λ
′2＝{k
1机
+δk，k
1人-δk；
…
；k
i机
+δk，k
i人-δk；
…
；k
n机
+δk，k
n人-δk}，其中，δk为权重调节值，δk根据模糊推理表采用模糊推理算法获取；将更新后的λ
′2作为可用人机操控权重分配序列；
[0070]
所述模糊推理表为：
[0071]
雨、雾、雪lxlxxlδksmb
[0072]
{l,xl,xxl}为天气恶劣程度的模糊论域，其中，l表示大，xl表示很大，xxl表示特别大；
[0073]
{s,m,h}为权重调节值δk的模糊论域，其中，s表示小，m表示适中，h表示大；
[0074]
所述方法五包括：
[0075]
将ab线路中第i个步进区段对应的第一操控档位记为a
i1
，将第二操控档位记为a
i2
；将可用人机操控权重分配序列中第i个步进区段对应的人机操控权重对记为(k
i1
,k
i2
)，其中k
i1
为机器操控权重系数，k
i2
为人工操控权重系数记；所述融合操控档位a
′i＝a
i1
×ki1
+a
i2
×ki2
。
[0076]
进一步地，所述q-learning算法涉及的奖励函数ri根据公式十一获取；
[0077]
所述公式十一为：
[0078]ri
＝k
i机
×ri机
+k
i人
×ri人
[0079]
其中，k
i机
＝ω
i机
+δω
i机
，k
i人
＝ω
i人
+δω
i人
；ω
i机
和ω
i人
分别表示q-learning算法随机确定的初始机器操控权重系数和初始人工操控权重系数，ω
i机
+ω
i人
＝1；δω
i机
和δω
i人
分别表示机器操控权重系数的步进值和人工操控权重系数的步进值，δω
i机
∈{0.01,-0.01,0}，δω
i人
∈{0.01,-0.01,0}，且δω
i机
+δω
i人
＝0；
[0080]
q-learning算法涉及的状态表为si＝(ω
i人
,ω
i机
)；q-learning算法涉及的动作表为ai＝(δω
i人
,δω
i机
)。
[0081]
进一步地，所述权重调节值δk的取值范围为0.1到0.9。
[0082]
本发明的原理如下：
[0083]
人机智能混驾列车的驾驶控制中，非常重要的一环就是对机器档位操控和人工档位操控的权重分配，以便输出并联融合的档位操控指令，然而，现有技术中通常采用全路段固定且平均的权重分配方式进行。事实上，随着列车的运行，其运行的位置、线路坡度、限速条件等环境都是在动态变化的，人和机器的决策也在随着环境的变化随时调整，两者对档位操控的决策判断不可能绝对一致，在这种环境下，采用人、机档位操控的权重分配各占0.5进行融合较简单、粗糙，非常不科学，采用上述分配方式得到的融合档位操控指令控制列车运行，也无法满足对准点、能耗、舒适度三目标的优化要求。另一方面列车行驶路段的
天气情况，特别是恶劣天气情况对驾驶员的视线和心理等干扰较大，会影响驾驶员的档位操控决策，而天气对机器的档位操控决策却没什么影响，如果不根据天气类型对人机档位操控权重进行动态调整，势必会进一步劣化对列车行驶的三个优化目标。
[0084]
本技术创造性地利用q-learning算法进行强化学习，使智能体分别与不同天气类型下的列车驾驶环境进行互动，以对组成列车行驶路段的各个步进区段的人机档位操控权重分配进行探索，以获取各个步进路段的人机操控权重对，路段所有步进区段的人机操控权重对的有序排列形成该路段的人机操控权重分配序列；而且，针对晴好天气和恶劣天气两种不同的列车操控环境，分别使智能体通过强化学习，得到两个于天气类型对应的人机操控权重分配序列λ1和λ2。运用到实际列车驾驶控制中时，晴好天气下可直接采用上述晴好天气环境下得到的人机操控权重分配序列λ1进行人机档位操控权重的动态分配；对于恶劣天气情况，由于驾驶员在实际操控时的人工档位操控决策受天气影响，而机器档位操控决策几乎不受影响，此时还应该适当调低人工档位操控权重系数，对于调整量，本发明采用了模糊推理的方法来获取，采用模糊推理理论，将恶劣天气(雨、雾、雪)的恶劣程度输入至模糊推理表，经模糊化转换为用人类自然描述的模糊量，而后根据模糊推理表中的模糊推理规则，经过模糊推理就能得到权重调节值δk的精确值，应用到列车实际行驶驾控中，遇到恶劣天气类型，只需要在机器档位操控权重系数上加上δk，在人工档位操控权重系数上减去δk，即可实现对人机操控权重分配的微调。
[0085]
另一方面，现有技术中，车载机器控制模块需要加载的最优档位操控序列通常是提前通过强化学习等方法获取的，虽然在列车实际驾驶过程中，车载机器控制模块不受天气影响，但是其装载的可用最优档位操控序列本身如果与天气类型不匹配，也不能实现对上述驾驶三目标的优化要求。这是因为天气类型不同，比如晴好天气(晴天、阴天等能见度较好的天气)和恶劣天气(雨、雪、雾等影响能见度的天气)天气，列车驾驶路段的限速要求是不一样的，如果智能体在强化学习过程中采用统一的环境参数进行学习，得到的最优档位操控序列并不能完全与实际列车运行环境参数匹配，将与运行环境参数不匹配的最优档位操控序列装载到车载机器控制模块中控制列车运行，势必无法满足列车对准点、能耗和舒适度的要求。事实上，如果能针对不同天气场景进行强化学习得到相匹配的机器最优档位操控序列，也为后续人机档位操控权重分配的仿真提供了更准确的环境参数，使获取的人机档位操控权重分配序列也更合理和精准。
[0086]
基于上述考虑，发明人在本技术中，使智能体分别在能见度相差明显的两大类天气环境下进行强化学习，以获取与这两大类天气相匹配的最优档位操控序列。为了提高强化学习的效率，避免智能体从零开始起步训练、探索次数过多、时间过长，本技术中从列车的真实行驶记录中提取历史数据作为经验数据，在此基础上进行强化学习，以提高学习效率。通常来说，这些历史数据中大部分为列车在晴好天气下的记录，可利用的样本数据较多，所以针对晴好天气，本发明将这些大量的样本数据进行处理，提取其中的档位操控相关参数形成多个经验档位操控序列，并将这些经验档位操控序列放入经验回访池供强化学习作为学习基础使用，本技术采用擅长利用经验数据进行强化学习的dqn(deep-q-network)算法来进行求解，从而得到晴好天气下，列车在路段上行驶的最优档位操控序列。
[0087]
然而，相对晴好天气的场景，恶劣天气下的历史数据相对较少，样本数据明显不足，就无法采用经验回访池技术来获取可用最优档位操控序列。针对恶劣天气类型，本发明
采用生成对抗模仿学习gail(generative adversarial imitation learning)和近端策略优化算法ppo(proximal policy optimization)相结合的办法来生成最优档位操控序列，具体来说：是以已有的专家档位操控序列为整体，采用生成对抗模仿学习gail来对恶劣气候下并不多的档位操控序列集进行扩充，产生更多、更为优秀的新档位操控序列数据集，对已有的档位操控序列集进行增强，该学习方式将恶劣气候下的为数不多的小样本档位操控序列作为专家数据，有利于提高学习效率。在数据增强与提高学习效率的同时，为进一步提高强化学习对档位操控序列最优解的求解质量，采用近端策略优化算法ppo来获取更优秀的档位操控序列。因此，在恶劣气候条件下，摒弃已有的经验回放池技术，将生成对抗模仿学习gail与近端策略优化算法ppo相结合进行模型训练和强化学习，将模型的训练分为引导阶段与探索阶段，在引导阶段让策略网络模仿学习专家的档位操控决策，减少前期学习中的试错，增强学习效率；在探索阶段让策略网络通过与环境的交互，在奖励的指导下，探索出更加优秀的驾驶策略。以上方法，在加强学习效率的同时，对档位操控序列数据不管从数量上，还是质量上都进行了明显提高。解决了列车在恶劣天气下运行历史数据样本少，经验回放池技术难以运用的问题。
[0088]
由此可见，本发明具有如下的有益效果：采用本发明所述的控制方法，能根据天气类型不同选取相匹配的最优档位操控序列来实现列车驾驶的机器操控，同时还能根据天气类型不同选择匹配的人机操控权重分配序列来动态调整列车行驶的全路段人机档位操控的权重分配，实现对人机智能混驾列车行驶三目标的明显优化，大大提高了人机混驾智能列车在不同天气场景下行驶的准点率，降低了能耗，明显改善了乘坐舒适度。
附图说明
[0089]
本发明的附图说明如下。
[0090]
附图1为本发明所涉及硬件的连接结构示意图。
具体实施方式
[0091]
下面结合实施例对本发明作进一步说明。
[0092]
如附图1所示的本发明所涉及的硬件连接结构示意图，包括车载机器控制模块、车载人工控制模块、车载驾驶权重分配模块、车载驾驶主控模块、车载通信模块和地面列车控制中心；
[0093]
所述地面列车控制中心包括地面通信模块、地面驾驶主控模块、驾驶环境监测模块、操控档位生成模块和权重分配生成模块；所述操控档位生成模块包括第一强化学习模块和第二强化学习模块；
[0094]
所述权重分配生成模块包括人机混驾仿真系统，所述人机混驾仿真系统能模拟列车的驾驶环境，通过人机混驾仿真系统还能获取人机混合智能驾驶的仿真数据；
[0095]
所述驾驶环境监测模块能获取列车运行路段的天气类型信息，并将天气类型信息传输给地面驾驶主控模块；所述天气类型包括晴好天气和恶劣天气；本技术所述的晴好天气包括晴天和阴天，所述恶劣天气包括雨天、雾天和雪天。
[0096]
地面驾驶主控模块能从权重分配模块获取列车驾驶路段的可用人机操控权重分配序列，并将获取的可用人机操控权重分配序列发送给车载通信模块；地面驾驶主控模块
能根据天气类型信息从操控档位生成模块中获取可用最优档位操控序列，并将获取的可用最优档位操控序列发送给车载通信模块；
[0097]
所述控制方法包括：
[0098]
设列车将从a站点行驶到b站点，将a站点与b站点之间的路段记为ab路段，所述ab路段由n个步进长度相等的步进区段组成；
[0099]
所述第一强化学习模块根据方法一生成列车在晴好天气下的第一最优档位操控序列，所述第二强化学习模块根据方法二生成列车在恶劣天气下的第二最优档位操控序列；
[0100]
权重分配生成模块根据方法三生成列车在ab路段行驶的人机操控权重分配序列；
[0101]
一)当列车从a站点驶出前，车载驾驶主控模块通过车载通信模块向地面通信模块发送数据装载请求；
[0102]
二)地面通信模块将数据装载请求传输给地面驾驶主控模块，然后地面驾驶主控模块从驾驶环境监测模块获取ab路段当前的天气类型信息；
[0103]
三)地面驾驶主控模块根据收到的天气类型信息按方法四获取可用最优档位操控序列和可用人机操控权重分配序列；
[0104]
四)地面驾驶主控模块将所述可用最优档位操控序列数据和可用人机操控权重分配序列数据通过地面通信模块发送给车载通信模块，然后车载通信模块将收到的可用最优档位操控序列数据和可用人机操控权重分配序列数据分别传输给车载机器控制模块和车载驾驶权重分配模块；然后车载机器控制模块对收到的可用最优档位操控序列数据进行装载，车载驾驶权重分配模块对收到的可用人机操控权重分配序列数据进行装载；
[0105]
五)车载机器控制模块根据可用最优档位操控序列实时向车载驾驶权重分配模块传输第一操控档位指令；同时，驾驶员通过车载人工控制模块实时向车载驾驶权重分配模块传输第二操控档位指令；
[0106]
六)车载驾驶权重分配模块每次收到第一操控档位指令和第二操控档位指令即按方法五进行处理生成当前的融合操控档位a
′i，然后车载驾驶权重分配模块根据所述a
′i生成当前的融合操控档位指令并传输给车载驾驶主控模块；
[0107]
七)车载驾驶主控模块根据收到的融合操控档位指令控制列车运行；如果列车到达b站点程序结束，否则返回步骤五)；
[0108]
所述方法一包括：
[0109]
1)对ab路段列车在晴好天气条件下的历史运行数据进行收集处理，获取多个经验档位操控序列，多个经验档位操控序列组成一个经验回放池；其中，单个经验档位操控序列τ可根据公式一确定；其中历史运行数据包括线路静态数据、列车静态数据和列车运行动态数据，其中，线路静态数据包括线路坡度、区间限速值；列车静态数据包括列车牵引、制动相关参数；列车运行动态数据包括列车当前运行位置、速度、加速度以及列车运行时间。线路数据可从设计资料或列车运行监控装置lkj中获取；列车基本参数和运行数据，可通过设计资料以及列车控制与管理系统tcms设备上获得。
[0110]
2)以从经验回访池中随机选择一个经验档位操控序列为基础，采用dqn算法进行强化学习，生成第一最优档位操控序列；dqn算法为现有技术，简单来说，智能体与环境进行交互，环境产生新的状态、奖励值以及状态值函数反馈给智能体，智能体通过值函数不断地
进行策略评估和策略改进，选择最大动作值函数，并将该最大动作值函数对应的动作反馈给列车运行强化学习环境，通过上述闭环结构来不断地更新工况值，最终选择最优的工况动作，生成第一最优档位操控序列；
[0111]
上述智能体动作值函数的更新，采用深度q学习网络dqn(deep-q-network)，更新方式用梯度下降法：
[0112][0113]
θ，θ-分别为目标网络和值函数逼近的网络参数，a，a
′
分别为当前状态和下一个状态下选取的动作，对应加速度，r为奖励值，γ为折扣因子，q即代表值函数。
[0114]
所述公式一为：
[0115]
τ＝{s0,a0,r0；s1,a1,r1；si,ai,ri；
…
；s
n-1
,a
n-1
,r
n-1
；sn}
[0116]
其中，i为0至n的整数；si表示晴好天气下列车在第i个步进区段的状态，si根据公式二确定；ai表示所述si对应的档位操控动作；所述ri为根据列车在第i个步进区段的状态和档位操控动作进行计算所获得的奖励值，所述ri根据公式三确定；
[0117]
所述公式二为：
[0118][0119]
其中，所述di、vi、ti、ui、gi和分别为晴好天气下，列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；
[0120]
所述公式三为：
[0121]ri
＝w1×ritime
+w2×rienergy
+w3×ricomfort
[0122]
其中，所述r
itime
为准时性奖励函数，根据公式四确定；所述r
ienergy
为能耗奖励函数，根据公式五确定；所述r
icomfort
为乘坐舒适度奖励函数，根据公式六确定；所述w1、w2和w3分别为r
itime
、r
ienergy
和r
icomfort
的权重系数，w1、w2和w3为设定值，且w1+w2+w3＝1；
[0123]
所述公式四为：
[0124][0125]
其中，所述为列车在第i个步进区段行驶的实际时长；所述t
max
为列车在单个步进区段行驶的最大时长；所述tr为列车在路段ab上的实际运行时长；所述t为列车在路段ab上的计划运行时长；
[0126]
所述公式五为：
[0127][0128]
其中，所述ui为列车在第i个步进区段的加速度；所述δd为单个步进区段的长度；所述e
max
为列车在单个步进区段上行驶所需的最大能耗；
[0129]
所述公式六为：
[0130]
[0131]
其中，所述u
i+1
为列车在第i+1个步进区段的加速度；所述δc
max
为列车的最大运行冲击率；
[0132]
所述方法二包括：
[0133]
对ab路段列车在恶劣天气条件下的历史运行数据进行收集处理，获取多个专家档位操控序列，单个专家档位操控序列τ
′
根据公式七获取；
[0134]
a)采用强化学习的方法，使智能体与环境交互得到多个初始机器档位操控序列，单个机器档位操控序列τ
″
根据公式九获取；
[0135]
b)程序首次循环时，采用gail算法对多个专家档位操控序列数据和多个初始机器档位操控序列数据进行处理，得到多个待判档位操控序列和判别概率p；
[0136]
程序后续循环中，采用gail算法对多个专家档位操控序列数据和多个更新机器档位操控序列数据进行处理，得到多个待判档位操控序列和判别概率p；
[0137]
c)对判别概率p进行判断，如果判别概率p满足大于设定值要求为真，则将多个所述待判档位操控序列中，累计奖励值最大的待判档位操控序列作为第二最优档位操控序列，程序结束；否则进入步骤d)；
[0138]
d)采用ppo算法对多个待判档位操控序列进行处理，得到多个更新档位操控序列；返回步骤b)；
[0139]
所述公式七为：
[0140]
τ
′
＝{s
′1,a
′1；
…
；s
′i,a
′
；
…
；s
′n,a
′n}
[0141]
其中，s
′i表示专家档位操控序列中，恶劣天气下列车在第i个步进区段的状态，s
′i根据公式八确定；a
′i表示所述s
′i对应的档位操控动作；
[0142]
所述公式八为：
[0143][0144]
其中，所述d
′i、v
′i、t
′i、u
′i、g
′i和分别为恶劣天气下，专家档位操控序列中列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；
[0145]
所述公式九为：
[0146]
τ
″
＝{s
″1,a
″1；
…
；s
″i,a
″i；
…
；s
″n,a
″n}
[0147]
其中，s
″i表示机器档位操控序列中，恶劣天气下列车在第i个步进区段的状态，s
″i根据公式十确定；a
″i表示所述s
″i对应的档位动作；
[0148]
所述公式十为：
[0149][0150]
其中，所述d
″i、v
″i、t
″i、u
″i、g
″i和分别为恶劣天气下，机器档位操控序列中列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；
[0151]
所述方法三包括：
[0152]
1)强化学习环境搭建：从操控档位生成模块获取第一最优档位操控序列数据和第二最优档位操控序列数据；然后将所述第一最优档位操控序列数据和第二最优档位操控序列数据输入人机混驾仿真系统；人机混驾仿真系统利用第一最优档位操控序列数据，模拟晴好天气下车载机器控制模块在ab路段对列车的档位操控；人机混驾仿真系统利用第二最优档位操控序列数据，模拟恶劣天气下车载机器控制模块在ab路段对列车的档位操控；驾
驶员通过向人机混驾仿真系统输入操控档位模拟在ab路段人工对列车的档位操控；将模拟晴好天气下车载机器控制模块和驾驶员在ab路段对列车的混合档位操控环境记为第一强化学习环境，将模拟恶劣天气下车载机器控制模块和驾驶员在ab路段对列车的混合档位操控环境记为第二强化学习环境；
[0153]
2)采用q-learning算法，使智能体与强化学习环境互动，获取ab路段中每个步进区段对应的人机操控权重对(k
i机
，k
i人
)，其中，k
i机
为第i个步进区段的机器操控权重系数，k
i人
为第i个步进区段的人工操控权重系数，k
i机
+k
i人
＝1；ab路段的全部步进区段对应的人机操控权重对的有序排列形成ab路段的人机操控权重分配序列λ＝{k
1机
，k
1人
；
…
；k
i机
，k
i人
；
…
；k
n机
，k
n人
}；其中，将利用第一强化学习环境获取的人机操控权重分配序列记为λ1，将利用第二强化学习环境获取的人机操控权重分配序列记为λ2；
[0154]
所述q-learning算法涉及的奖励函数ri根据公式十一获取；
[0155]
所述公式十一为：
[0156]ri
＝k
i机
×ri机
+k
i人
×ri人
[0157]
其中，k
i机
＝ω
i机
+δω
i机
，k
i人
＝ω
i人
+δω
i人
；ω
i机
和ω
i人
分别表示q-learning算法随机确定的初始机器操控权重系数和初始人工操控权重系数，ω
i机
+ω
i人
＝1；δω
i机
和δω
i人
分别表示机器操控权重系数的步进值和人工操控权重系数的步进值，δω
i机
∈{0.01,-0.01,0}，δω
i人
∈{0.01,-0.01,0}，且δω
i机
+δω
i人
＝0；
[0158]
q-learning算法涉及的状态表为si＝(ω
i人
,ω
i机
)；q-learning算法涉及的动作表为ai＝(δω
i人
,δω
i机
)；
[0159]
所述方法四包括：
[0160]
当天气类型为晴好天气时，地面驾驶主控模块从操控档位生成模块中提取第一最优档位操控序列作为可用最优档位操控序列；地面驾驶主控模块从权重分配生成模块中提取所述λ1作为可用人机操控权重分配序列；
[0161]
当天气类型为恶劣天气时，地面驾驶主控模块从操控档位生成模块中提取第二最优档位操控序列作为可用最优档位操控序列；地面驾驶主控模块根据以下方式获取可用人机操控权重分配序列：
[0162]ⅰ)从权重分配生成模块中提取所述λ2数据；
[0163]ⅱ)将λ2中的k
i机
更新为k
i机
+δk，将λ2中的k
i人
更新为k
i人-δk，得到λ
′2＝{k
1机
+δk，k
1人-δk；
…
；k
i机
+δk，k
i人-δk；
…
；k
n机
+δk，k
n人-δk}，其中，δk为权重调节值，所述δk的取值范围为0.1到0.9；δk根据模糊推理表采用模糊推理算法获取；将更新后的λ
′2作为可用人机操控权重分配序列；
[0164]
所述模糊推理表为：
[0165]
雨、雾、雪lxlxxlδksmb
[0166]
{l,xl,xxl}为天气恶劣程度的模糊论域，其中，l表示大，xl表示很大，xxl表示特别大；
[0167]
{s,m,h}为权重调节值δk的模糊论域，其中，s表示小，m表示适中，h表示大；
[0168]
所述方法五包括：
[0169]
将ab线路中第i个步进区段对应的第一操控档位记为a
i1
，将第二操控档位记为ai2
；将可用人机操控权重分配序列中第i个步进区段对应的人机操控权重对记为(k
i1
,k
i2
)，其中k
i1
为机器操控权重系数，k
i2
为人工操控权重系数记；所述融合操控档位a
′i＝a
i1
×ki1
+a
i2
×ki2
。
[0170]
本发明中应用到的强化学习、dqn算法、gail算法、ppo算法、q-learning算法和模糊推理理论均为现有技术中十分常见的处理手段或计算方法，相关的内容，本领域技术人员可从现有技术的相关文献中获取。

技术特征：
1.一种多场景下人机混驾智能列车的控制方法，其特征在于：包括车载机器控制模块、车载人工控制模块、车载驾驶权重分配模块、车载驾驶主控模块、车载通信模块和地面列车控制中心；所述地面列车控制中心包括地面通信模块、地面驾驶主控模块、驾驶环境监测模块、操控档位生成模块和权重分配生成模块；所述操控档位生成模块包括第一强化学习模块和第二强化学习模块；所述权重分配生成模块包括人机混驾仿真系统，所述人机混驾仿真系统能模拟列车的驾驶环境，通过人机混驾仿真系统还能获取人机混合智能驾驶的仿真数据；所述驾驶环境监测模块能获取列车运行路段的天气类型信息，并将天气类型信息传输给地面驾驶主控模块；所述天气类型包括晴好天气和恶劣天气；地面驾驶主控模块能从权重分配模块获取列车驾驶路段的可用人机操控权重分配序列，并将获取的可用人机操控权重分配序列发送给车载通信模块；地面驾驶主控模块能根据天气类型信息从操控档位生成模块中获取可用最优档位操控序列，并将获取的可用最优档位操控序列发送给车载通信模块；所述控制方法包括：设列车将从a站点行驶到b站点，将a站点与b站点之间的路段记为ab路段，所述ab路段由n个步进长度相等的步进区段组成；所述第一强化学习模块根据方法一生成列车在晴好天气下的第一最优档位操控序列，所述第二强化学习模块根据方法二生成列车在恶劣天气下的第二最优档位操控序列；权重分配生成模块根据方法三生成列车在ab路段行驶的人机操控权重分配序列；一)当列车从a站点驶出前，车载驾驶主控模块通过车载通信模块向地面通信模块发送数据装载请求；二)地面通信模块将数据装载请求传输给地面驾驶主控模块，然后地面驾驶主控模块从驾驶环境监测模块获取ab路段当前的天气类型信息；三)地面驾驶主控模块根据收到的天气类型信息按方法四获取可用最优档位操控序列和可用人机操控权重分配序列；四)地面驾驶主控模块将所述可用最优档位操控序列数据和可用人机操控权重分配序列数据通过地面通信模块发送给车载通信模块，然后车载通信模块将收到的可用最优档位操控序列数据和可用人机操控权重分配序列数据分别传输给车载机器控制模块和车载驾驶权重分配模块；然后车载机器控制模块对收到的可用最优档位操控序列数据进行装载，车载驾驶权重分配模块对收到的可用人机操控权重分配序列数据进行装载；五)车载机器控制模块根据可用最优档位操控序列实时向车载驾驶权重分配模块传输第一操控档位指令；同时，驾驶员通过车载人工控制模块实时向车载驾驶权重分配模块传输第二操控档位指令；六)车载驾驶权重分配模块每次收到第一操控档位指令和第二操控档位指令即按方法五进行处理生成当前的融合操控档位a
′
i
，然后车载驾驶权重分配模块根据所述a
′
i
生成当前的融合操控档位指令并传输给车载驾驶主控模块；七)车载驾驶主控模块根据收到的融合操控档位指令控制列车运行；如果列车到达b站点程序结束，否则返回步骤五)；
所述方法一包括：1)对ab路段列车在晴好天气条件下的历史运行数据进行收集处理，获取多个经验档位操控序列，多个经验档位操控序列组成一个经验回放池；其中，单个经验档位操控序列τ可根据公式一确定；2)以从经验回访池中随机选择的一个经验档位操控序列为基础，采用dqn算法进行强化学习，生成第一最优档位操控序列；所述公式一为：τ＝{s0，a0，r0；s1，a1，r1；s
i
，a
i
，r
i
；
…
；s
n-1
，a
n-1
，r
n-1
；s
n
}其中，i为0至n的整数；s
i
表示晴好天气下列车在第i个步进区段的状态，s
i
根据公式二确定；a
i
表示所述s
i
对应的档位操控动作；所述r
i
为根据列车在第i个步进区段的状态和档位操控动作进行计算所获得的奖励值，所述r
i
根据公式三确定；所述公式二为：其中，所述d
i
、v
i
、t
i
、u
i
、g
i
和分别为晴好天气下，列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；所述公式三为：其中，所述为准时性奖励函数，根据公式四确定；所述为能耗奖励函数，根据公式五确定；所述为乘坐舒适度奖励函数，根据公式六确定；所述w1、w2和w3分别为和的权重系数，w1、w2和w3为设定值，且w1+w2+w3＝1；所述公式四为：其中，所述为列车在第i个步进区段行驶的实际时长；所述t
max
为列车在单个步进区段行驶的最大时长；所述t
r
为列车在路段ab上的实际运行时长；所述t为列车在路段ab上的计划运行时长；所述公式五为：其中，所述u
i
为列车在第i个步进区段的加速度；所述δd为单个步进区段的长度；所述e
max
为列车在单个步进区段上行驶所需的最大能耗；所述公式六为：其中，所述u
i+1
为列车在第i+1个步进区段的加速度；所述δc
max
为列车的最大运行冲击率；
所述方法二包括：对ab路段列车在恶劣天气条件下的历史运行数据进行收集处理，获取多个专家档位操控序列，单个专家档位操控序列τ
′
根据公式七获取；a)采用强化学习的方法，使智能体与环境交互得到多个初始机器档位操控序列，单个机器档位操控序列τ
″
根据公式九获取；b)程序首次循环时，采用gail算法对多个专家档位操控序列数据和多个初始机器档位操控序列数据进行处理，得到多个待判档位操控序列和判别概率p；程序后续循环中，采用gail算法对多个专家档位操控序列数据和多个更新机器档位操控序列数据进行处理，得到多个待判档位操控序列和判别概率p；c)对判别概率p进行判断，如果判别概率p满足大于设定值要求为真，则将多个所述待判档位操控序列中，累计奖励值最大的待判档位操控序列作为第二最优档位操控序列，程序结束；否则进入步骤d)；d)采用ppo算法对多个待判档位操控序列进行处理，得到多个更新档位操控序列；返回步骤b)；所述公式七为：τ
′
＝{s
′1，a
′1；
…
；s
′
i
，a
′
i
；
…
；s
′
n
，a
′
n
}其中，s
′
i
表示专家档位操控序列中，恶劣天气下列车在第i个步进区段的状态，s
′
i
根据公式八确定；a
′
i
表示所述s
′
i
对应的档位操控动作；所述公式八为：其中，所述d
′
i
、v
′
i
、t
′
i
、u
′
i
、g
′
i
和分别为恶劣天气下，专家档位操控序列中列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；所述公式九为：τ
″
＝{s
″1，a
″1，
…
；s
″
i
，a
″
i
；
…
；s
″
n
，a
″
n
}其中，s
″
i
表示机器档位操控序列中，恶劣天气下列车在第i个步进区段的状态，s
″
i
根据公式十确定；a
″
i
表示所述s
″
i
对应的档位动作；所述公式十为：其中，所述d
″
i
、v
″
i
、t
″
i
、u
″
i
、g
″
i
和分别为恶劣天气下，机器档位操控序列中列车在第i个步进区段的位置、速度、时间、加速度值、线路坡度和线路限速；所述方法三包括：1)强化学习环境搭建：从操控档位生成模块获取第一最优档位操控序列数据和第二最优档位操控序列数据；然后将所述第一最优档位操控序列数据和第二最优档位操控序列数据输入人机混驾仿真系统；人机混驾仿真系统利用第一最优档位操控序列数据，模拟晴好天气下车载机器控制模块在ab路段对列车的档位操控；人机混驾仿真系统利用第二最优档位操控序列数据，模拟恶劣天气下车载机器控制模块在ab路段对列车的档位操控；驾驶员通过向人机混驾仿真系统输入操控档位模拟在ab路段人工对列车的档位操控；将模拟晴好天气下车载机器控制模块和驾驶员在ab路段对列车的混合档位操控环境记为第一强化学
习环境，将模拟恶劣天气下车载机器控制模块和驾驶员在ab路段对列车的混合档位操控环境记为第二强化学习环境；2)采用q-learning算法，使智能体与强化学习环境互动，获取ab路段中每个步进区段对应的人机操控权重对(k
i机
，k
i人
)，其中，k
i机
为第i个步进区段的机器操控权重系数，k
i人
为第i个步进区段的人工操控权重系数，k
i机
+k
i人
＝1；ab路段的全部步进区段对应的人机操控权重对的有序排列形成ab路段的人机操控权重分配序列λ＝{k
1机
，k
1人
；...；k
i机
，k
i人
；...；k
n机
，k
n人
}；其中，将利用第一强化学习环境获取的人机操控权重分配序列记为λ1，将利用第二强化学习环境获取的人机操控权重分配序列记为λ2；所述方法四包括：当天气类型为晴好天气时，地面驾驶主控模块从操控档位生成模块中提取第一最优档位操控序列作为可用最优档位操控序列；地面驾驶主控模块从权重分配生成模块中提取所述λ1作为可用人机操控权重分配序列；当天气类型为恶劣天气时，地面驾驶主控模块从操控档位生成模块中提取第二最优档位操控序列作为可用最优档位操控序列；地面驾驶主控模块根据以下方式获取可用人机操控权重分配序列：i)从权重分配生成模块中提取所述λ2数据；ii)将λ2中的k
i机
更新为k
i机
+δk，将λ2中的k
i人
更新为k
i人-δk，得到λ
′2＝{k
1机
+δk，k
1人-δk；...；k
i机
+δk，k
i人-δk；...；k
n机
+δk，k
n人-δk}，其中，δk为权重调节值，δk根据模糊推理表采用模糊推理算法获取；将所述λ
′2作为可用人机操控权重分配序列；所述模糊推理表为：雨、雾、雪lxlxxlδksmb{l，xl，xxl}为天气恶劣程度的模糊论域，其中，l表示大，xl表示很大，xxl表示特别大；{s，m，h}为权重调节值δk的模糊论域，其中，s表示小，m表示适中，h表示大；所述方法五包括：将ab线路中第i个步进区段对应的第一操控档位记为a
i1
，将第二操控档位记为a
i2
；将可用人机操控权重分配序列中第i个步进区段对应的人机操控权重对记为(k
i1
，k
i2
)，其中k
i1
为机器操控权重系数，k
i2
为人工操控权重系数记；所述融合操控档位a
′
i
＝a
i1
×
k
i1
+a
i2
×
k
i2
。2.如权利要求1所述的多场景下人机混驾智能列车的控制方法，其特征在于：所述q-learning算法涉及的奖励函数r
i
根据公式十一获取；所述公式十一为：r
i
＝k
i机
×
r
i机
+k
i人
×
r
i人
其中，k
i机
＝ω
i机
+δω
i机
，k
i人
＝ω
i人
+δω
i人
；ω
i机
和ω
i人
分别表示q-learning算法随机确定的初始机器操控权重系数和初始人工操控权重系数，ω
i机
+ω
i人
＝1；δω
i机
和δω
i人
分别表示机器操控权重系数的步进值和人工操控权重系数的步进值，δω
i机
∈{0.01，-0.01，0}，δω
i人
∈{0.01，-0.01，0}，且δω
i机
+δω
i人
＝0；q-learning算法涉及的状态表为s
i
＝(ω
i人
，ω
i机
)；q-learning算法涉及的动作表为a
i
＝(δω
i人
，δω
i机
)。
3.如权利要求1或2所述的多场景下人机混驾智能列车的控制方法，其特征在于：所述权重调节值δk的取值范围为0.1到0.9。

技术总结
本发明提供了一种多场景下人机混驾智能列车的控制方法，其特征在于：包括车载机器控制模块、车载人工控制模块、车载驾驶权重分配模块、车载驾驶主控模块、车载通信模块、和地面列车控制中心；车载机器控制模块根据天气类型装载对应的最优档位操控序列，车载驾驶权重分配模块根据天气类型装载对应的人机操控权重分配序列，车载驾驶权重分配模块根据机操控权重分配序列对机器档位操控指令和人工档位操控指令进行动态分配，生成融合操控档位指令，车载驾驶主控模块根据融合操控档位指令控制列车运行。本申请所述控制方法能明显提高人机混驾智能列车在不同天气场景下的准点率和乘坐舒适度，降低能耗。降低能耗。降低能耗。

技术研发人员：徐凯夏智超吴仕勋蓝章礼杨建喜张淼许仕壮
受保护的技术使用者：重庆交通大学
技术研发日：2023.01.03
技术公布日：2023/3/30

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：一种滚道梁托架及锁止一体式立柱的制作方法 下一篇：基于TSRS与卫星差分站直连的通信方法、设备及介质与流程

一种多场景下人机混驾智能列车的控制方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种多场景下人机混驾智能列车的控制方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表