一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法

未命名 07-11 阅读:96 评论:0


1.本发明属于道路交通领域,尤其提出一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法。


背景技术:

2.强制换道(mlc)指驾驶者由于交通政策或自身驾驶需求,必须将车辆由当前车道换道至目标车道的行为,强制换道通常发生在高速路交织区、上下匝道、交叉口进口道等路段。通常来说,相比于驾驶者为改善自身驾驶环境的自由换道行为(dlc),强制换道行为更容易引发交通震荡,会对交通效率以及交通安全产生较大的负面影响。因此,分析、建模、预测强制换道行为对于提高道路交通安全和效率具有重要意义。专利202210325865.x《一种基于复合模型的车辆换道意图的预测方法》公开了一种基于复合模型的车辆换道意图的预测方法,包括:采集本车和周围车辆的速度和位置信息,将换道车辆的轨迹信息构成训练集a;建立三个隐马尔可夫模型,分别为向左换道模型,车道保持模型,向右换道模型,将训练集a输入三个模型中进行初步预测,分别输出对应的概率;将换道车辆与周围车辆的纵向距离和模型输出概率结合形成训练集b,并输入多层感知机模型中,以换道车辆的真实换道意图作为标签,训练多层感知机模型;最终实时采集目标车辆以及周围车辆的速度和位置信息,输入训练后的模型预测车辆换道意图。
3.目前关于强制换道决策预测的方法已有较多研究成果,但现有方法的主要缺点包括:1.机器学习模型对换道决策的预测精度较高,但模型需要大量数据进行训练,容易受到数据噪声的影响,鲁棒性较低,且可解释性方面有所欠缺,无法解释驾驶者的驾驶行为随交通状态的变化而演变的机理;2.物理模型中的相关参数均具有物理含义,可解释性强,但其预先假设驾驶者的驾驶行为,模型仅包含对换道决策影响较为显著的部分因素,忽略了其余的潜在影响因素,并且没有考虑不同类型驾驶者的差异,预测准确率较低。


技术实现要素:

4.发明目的:针对这些问题,本发明提供一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法。主要解决的技术问题是:1.基于车辆轨迹数据,使用高斯混合聚类方法,将驾驶者划分为两类驾驶风格。2.建立融合演化博弈论egt(evolutionary game theory)和机器学习ml(machine learning)的多风格驾驶者强制换道模型egt-ml,模型具有较高的预测准确率和较强的鲁棒性。
5.技术方案:为了解决上述技术问题,本发明提出一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,该方法包括以下步骤:
6.s1.基于车辆轨迹数据提取表示换道车辆与周围车辆博弈状态的特征向量x及车辆换道决策观测值构建强制换道数据集
7.s2.基于s1中强制换道数据集提取车辆运行特征,输入高斯混合聚类算法,将车辆聚为两类,分别对应激进型和保守型两种驾驶风格;
8.s3.根据换道车辆和目标车道后车的不同驾驶风格,将换道博弈分为四种类型,并将s1中强制换道数据集划分为相应的四个子集;
9.s4.针对s3中的四种博弈类型,基于四个子集中的车辆轨迹数据,利用演化博弈论egt及碰撞时间ttc输出换道决策y
egt

10.s5.针对s3中的四种博弈类型,将强制换道数据集划分为划分训练集和测试集,并将与训练集中的特征向量x相对应的y
egt
加入训练集,在训练集上进行模型训练,训练得到能够根据作为输入,输出换道决策的神经网络模型;
11.s6.根据步骤s1-s4获得新的并输入步骤s5训练的模型中输出得到换道策略。
12.进一步的,所述步骤s1中的构建强制换道数据集的方法如下:
13.s1.1特征向量提取
14.ngsim的us-101数据集包含车辆每0.1s的速度、加速度、车头中心位置坐标、车头时距等车辆的轨迹数据,基于此,提取表示换道车辆与周围车辆博弈状态的特征向量x={v
sv
,a
sv
,l
sv
,δv
cf
,δv
cb
,δv
tf
,δv
tb
,g
tf
,g
tb
,ttc
tf
,ttc
tb
,vs},其中,v
sv
,a
sv
,l
sv
分别表示换道车辆sv的速度、加速度以及与换道终点的距离;δv
cf
,δv
cb
,δv
tf
,δv
tb
分别表示sv与当前车道前车cf、当前车道后车cb、目标车道前车tf及目标车道后车tb的速度差;g
tf
,g
tb
分别表示sv与tf、tb的车头间距,ttc
tf
,ttc
tb
分别表示车辆sv与tf、tb的碰撞时间ttc,表示空间平均速度;
15.s1.2换道决策确定
16.定义表示车辆换道决策的观测值,规定表示车辆换道,表示车辆不换道,定义车辆横向速度大于0.2m/s且1s内有向相邻车道靠近的运动趋势的时刻为换道开始时刻;定义车辆横向速度小于0.2m/s且1s内在目标车道上的横向位置保持稳定的时刻为车辆换道结束时刻,将车辆在换道开始时刻和结束时刻内的轨迹数据的标注为1,其余时刻的标注为0。
17.进一步的,所述步骤s2中的车辆驾驶风格划分方法如下:
18.(2.1)定义车辆速度与空间平均速度的比值为速度比r,基于车辆轨迹数据,计算车辆每0.1s的速度比r和加速度a,从而计算车辆速度比的均值e(r)和方差var(r)以及加速度的均值e(a),将这三个特征作为高斯混合聚类算法的输入,定义聚类中心数为2,将s1中观测数据集内的车辆聚为类别1和类别2;
19.(2.2)分别计算类别1和类别2聚类中心的e(r)、var(r)以及e(a)三个特征值的均值,将均值大的聚类中的车辆作为激进型驾驶风格,另外一个聚类中的车辆作为保守型驾驶风格。
20.进一步的,所述步骤s3的换道博弈类型划分方法如下:
21.sv在制定换道决策时与目标车道后车tb发生博弈,博弈参与者sv和tb的驾驶风格
集为{激进型,保守型},根据sv和tb的不同驾驶风格,将强制换道博弈分为四种类型,分别为激进型sv-激进型tb、激进型sv-保守型tb、保守型sv-激进型tb以及保守型sv-保守型tb。
22.进一步的,所述步骤s4的换道决策y
egt
的输出方法如下:
23.s4.1车辆收益计算
24.基于s3中四个子集中的车辆轨迹数据,分别计算四种换道博弈类型中车辆的速度收益、安全收益及换道需求收益,定义tb的速度收益为tb减速让行前后的速度差δv;定义安全收益为sv与tb间的ttc
tb
;定义换道需求收益为sv与换道终点的距离l
sv

25.s4.2收益矩阵建立
26.在换道博弈中,博弈参与者中sv的策略集为{换道,不换道},tb的策略集为{让行,不让行},共有四种博弈策略组合,分别为{sv换道,tb让行},{sv换道,tb不让行},{sv不换道,tb让行},{sv不换道,tb不让行},基于s4.1中的车辆收益,计算四种博弈策略组合下sv和tb的收益,在{sv换道,tb让行}策略组合下,sv和tb的收益分别为a:α1ttc
tb
+β1l
sv
和b:α2ttc
tb-β2δv;在{sv换道,tb不让行}策略组合下,sv和tb的收益分别为c:-α1ttc
tb
和d:β2δv-α2ttc
tb
;在{sv不换道,tb让行}策略组合下,sv和tb的收益分别为e:-β1l
sv
和f:-β2δv;在{sv不换道,tb不让行}策略组合下,sv和tb的收益分别为g:-β1l
sv
和h:β2δv,其中,α1,β1,α2,β2为车辆收益的收益因子,取值范围均为(0,1),且满足α1+β1=1,α2+β2=1,建立换道博弈收益矩阵为其中,a~h分别为sv和tb的收益;
27.s4.3车辆换道与让行概率计算
28.基于s4.2中的收益矩阵,建立sv的换道概率p1和tb的让行概率p2随时间演化的动态复制方程如下,据此计算每一时刻p1和p2的值;
[0029][0030]
其中,式

、式

分别为p1、p2随时间演化的的动态复制方程,sv换道期望收益为w1=ap2+c(1-p2),不换道期望收益为w2=ep2+g(1-p2),期望收益为w
sv
=w1p1+w2(1-p1),tb让行期望收益为w1=bp1+f(1-p1),不让行期望收益为w2=dp1+h(1-p1),期望收益为w
tb
=w1p2+w2(1-p2),其中,a~h分别为s4.2中收益矩阵中的收益,p1、p2的初始值分别为强制换道数据集中换道车辆数和让行车辆数与us-101数据集车辆数的比值;
[0031]
s4.4换道决策输出
[0032]
基于s3中四个子集中的车辆轨迹数据,计算sv与tf、tb间的ttc
tf
和ttc
tb
,结合s4.3中计算出的p1和p2的值,输出换道决策,规定当sv的换道概率p1和tb的让行概率p2均大于0.5,且ttc
tf
和ttc
tb
不小于保证安全的最小值时,输出y
egt
=1,即sv采取换道行为,否则,输出y
egt
=0,即sv不换道,保持原车道行驶;
[0033][0034]
其中,p1、p2分别为sv的换道概率和tb的让行概率,ttc
tf
、ttc
tb
分别是sv与tf、tb的
ttc,为保证安全的最小值。
[0035]
进一步的,步骤s5中神经网络模型的损失函数如下:
[0036][0037]
其中,为观测值,y
egt
为基于egt的输出值,p为模型输出车辆换道的概率,p>0.5时,模型输出值y=1,否则,y=0,α为衡量模型输出与y
egt
之间损失的权重。
[0038]
有益效果:与现有技术相比,本发明的技术方案具有以下有益效果:
[0039]
1.基于车辆轨迹数据,使用高斯混合聚类算法将车辆分为两种驾驶风格,考虑了车辆驾驶风格的差异;
[0040]
2.建立融合演化博弈论和机器学习的多风格驾驶者强制换道模型,相较于传统的ml模型,模型在保证预测准确率的前提下,具有较强的鲁棒性。
附图说明
[0041]
图1融合演化博弈和机器学习训练流程图;
[0042]
图2车辆换道概率及让行概率演化路径图;
[0043]
图3融合演化博弈和机器学习在测试集上的roc曲线及pr曲线图;
[0044]
图4融合演化博弈和机器学习敏感性分析图。
具体实施方式
[0045]
以下将结合附图和具体实施,对本发明的技术方案及效果进行详细说明。
[0046]
如图1所示,本发明提出一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,该方法包括以下步骤:
[0047]
s1.基于车辆轨迹数据提取表示换道车辆与周围车辆博弈状态的特征向量x及车辆换道决策观测值构建强制换道数据集
[0048]
s2.基于s1中强制换道数据集提取车辆运行特征,输入高斯混合聚类算法,将车辆聚为两类,分别对应激进型和保守型两种驾驶风格;
[0049]
s3.根据换道车辆和目标车道后车的不同驾驶风格,将换道博弈分为四种类型,并将s1中强制换道数据集划分为相应的四个子集;
[0050]
s4.针对s3中的四种博弈类型,基于四个子集中的车辆轨迹数据,利用演化博弈论egt及碰撞时间ttc输出换道决策y
egt

[0051]
s5.针对s3中的四种博弈类型,将强制换道数据集划分为划分训练集和测试集,并将与训练集中的特征向量x相对应的y
egt
加入训练集,在训练集上进行模型训练,训练得到能够根据作为输入,输出换道决策的神经网络模型;
[0052]
s6.根据步骤s1-s4获得新的并输入步骤s5训练的模型中输出得到换道策略。
[0053]
所述步骤s1中强制换道数据集的构建方法如下:
[0054]
s1.1特征向量提取
[0055]
ngsim的us-101数据集包含车辆每0.1s的速度、加速度、车头中心位置坐标、车头时距等车辆的轨迹数据,基于此,提取表示换道车辆与周围车辆博弈状态的特征向量其中,v
sv
,a
sv
,l
sv
分别表示换道车辆sv的速度、加速度以及与换道终点的距离;δv
cf
,δv
cb
,δv
tf
,δv
tb
分别表示sv与当前车道前车cf、当前车道后车cb、目标车道前车tf及目标车道后车tb的速度差;g
tf
,g
tb
分别表示sv与tf、tb的车头间距,ttc
tf
,ttc
tb
分别表示车辆sv与tf、tb的碰撞时间(time to collision,ttc),表示空间平均速度;
[0056]
s1.2换道决策确定
[0057]
定义表示车辆换道决策的观测值,规定表示车辆换道,表示车辆不换道。定义车辆横向速度大于0.2m/s且1s内有向相邻车道靠近的运动趋势的时刻为换道开始时刻,以避免车辆横向位置波动对换道意图确定造成的干扰。定义车辆横向速度小于0.2m/s且1s内在目标车道上的横向位置保持稳定的时刻为车辆换道结束时刻。将车辆在换道开始时刻和结束时刻内的轨迹数据的标注为1,其余时刻的标注为0。
[0058]
所述步骤s2中的车辆驾驶风格划分方法如下:
[0059]
(2.1)定义车辆速度与空间平均速度的比值为速度比r,基于车辆轨迹数据,计算车辆每0.1s的速度比r和加速度a,从而计算车辆速度比的均值e(r)和方差var(r)以及加速度的均值e(a),将这三个特征作为高斯混合聚类算法的输入,定义聚类中心数为2,将s1中观测数据集内的车辆聚为类别1和类别2;
[0060]
(2.2)分别计算类别1和类别2聚类中心的e(r)、var(r)以及e(a)三个特征值的均值,将均值大的聚类中的车辆作为激进型驾驶风格,另外一个聚类中的车辆作为保守型驾驶风格。
[0061]
所述步骤s3的换道博弈类型划分方法如下:
[0062]
sv在制定换道决策时与目标车道后车tb发生博弈,博弈参与者sv和tb的驾驶风格集为{激进型,保守型},根据sv和tb的不同驾驶风格,将强制换道博弈分为四种类型,分别为激进型sv-激进型tb、激进型sv-保守型tb、保守型sv-激进型tb以及保守型sv-保守型tb。
[0063]
所述步骤s4的换道决策y
egt
的输出方法如下:
[0064]
s4.1车辆收益计算
[0065]
基于s3中四个子集中的车辆轨迹数据,分别计算四种换道博弈类型中车辆的速度收益、安全收益及换道需求收益,定义tb的速度收益为tb减速让行前后的速度差δv;定义安全收益为sv与tb间的ttc
tb
;车辆越接近强制换道终点,换道需求越强烈,故定义换道需求收益为sv与换道终点的距离l
sv

[0066]
s4.2收益矩阵建立
[0067]
在换道博弈中,博弈参与者中sv的策略集为{换道,不换道},tb的策略集为{让行,不让行}。因此,共有四种博弈策略组合,分别为{sv换道,tb让行},{sv换道,tb不让行},{sv不换道,tb让行},{sv不换道,tb不让行}。基于s4.1中的车辆收益,计算四种博弈策略组合
下sv和tb的收益。在{sv换道,tb让行}策略组合下,sv和tb的收益分别为a:α1ttc
tb
+βil
sv
和b:α2ttc
tb-β2δv;在{sv换道,tb不让行}策略组合下,sv和tb的收益分别为c:-α1ttc
tb
和d:β2δv-α2ttc
tb
;在{sv不换道,tb让行}策略组合下,sv和tb的收益分别为e:-β1l
sv
和f:-β2δv;在{sv不换道,tb不让行}策略组合下,sv和tb的收益分别为g:-β1l
sv
和h:β2δv,其中,α1,β1,α2,β2为车辆收益的收益因子,取值范围均为(0,1),且满足α1+β1=1,α2+β2=1,建立换道博弈收益矩阵为其中,a~h分别为sv和tb的收益。
[0068]
s4.3车辆换道与让行概率计算
[0069]
基于s4.2中的收益矩阵,建立sv的换道概率p1和tb的让行概率p2随时间演化的动态复制方程如下,据此计算每一时刻p1和p2的值;
[0070][0071]
其中,式

、式

分别为p1、p2随时间演化的的动态复制方程,sv换道期望收益为w1=ap2+c(1-p2),不换道期望收益为w2=ep2+g(1-p2),期望收益为w
sv
=w1p1+w2(1-p1),tb让行期望收益为w1=bp1+f(1-p1),不让行期望收益为w2=dp1+h(1-p1),期望收益为w
tb
=w1p2+w2(1-p2),其中,a~h分别为s4.2中收益矩阵中的收益,p1、p2的初始值分别为强制换道数据集中换道车辆数和让行车辆数与us-101数据集车辆数的比值;
[0072]
s4.4换道决策输出
[0073]
基于s3中四个子集中的车辆轨迹数据,计算sv与tf、tb间的ttc
tf
和ttc
tb
,结合s4.3中计算出的p1和p2的值,输出换道决策,规定当sv的换道概率p1和tb的让行概率p2均大于0.5,且ttc
tf
和ttc
tb
不小于保证安全的最小值时,输出y
egt
=1,即sv采取换道行为,否则,输出y
egt
=0,即sv不换道,保持原车道行驶;
[0074][0075]
其中,p1、p2分别为sv的换道概率和tb的让行概率,ttc
tf
、ttc
tb
分别是sv与tf、tb的ttc,为保证安全的最小值。
[0076]
所述步骤s5中,针对s3中的四种博弈换道类型,分定义模型的损失函数如下,模型训练流程如图1所示,
[0077][0078]
其中,为观测值,y
egt
为基于egt的输出值,p为模型输出车辆换道的概率,p>0.5时,模型输出值y=1,否则,y=0,α为衡量模型输出与y
egt
之间损失的权重。
[0079]
二、实例结果
[0080]
1.聚类结果如下:
[0081]
表1聚类中心特征值
[0082][0083][0084]
2.egt相应结果如下:
[0085]
表2egt参数
[0086][0087]
egt参数如表2所示,四种博弈类型中sv换道概率和tb让行概率随时间的演化图如图2所示。从图2(a)和图2(c)中可以看出,在博弈开始时刻,激进型后车与换道车辆间会存在明显的竞争,因此,其让行概率会先降低后逐渐增加,当换道车辆也为激进型时,两者间的竞争强度和持续时间更明显(图2(a))。从图2(b)和图2(d)中可以看出,保守型后车在博弈中更容易屈服于换道车辆,因此后车让行的概率会直接增加,当换道车辆为激进型时,后车的屈服程度更明显(图2(b))。
[0088]
2.egt-ml相应结果如下:
[0089]
表3egt-ml的预测结果评价
[0090]
[0091]
egt-ml的预测结果评价如表3所示,在测试集上的roc曲线及pr曲线图如图3所示。从表3和图3中可以看出,egt-lightgbm在测试集上的预测效果优于其他模型。选取egt-lightgbm进行模型敏感性分析,结果如图4所示。由图4(a)可以看出,当样本数量较小时,egt-lightgbm比lightgbm的预测精度更高,表明egt-lightgbm具有更高的鲁棒性。由图4(b)可以看出,当损失函数中权重α为0.1时,egt-lightgbm的预测精度达到最高。
[0092]
本发明的发明点在于:1.基于车辆轨迹数据,使用高斯混合聚类方法,将驾驶者划分为两类驾驶风格。2.建立融合演化博弈论和机器学习的多风格驾驶者强制换道模型egt-ml,模型具有较高的预测准确率和较强的鲁棒性。
[0093]
最后应说明的是,以上实施例仅用来说明本发明的技术方案,而非对其限制。凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围内。

技术特征:
1.一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,其特征在于,该方法包括以下步骤:s1.基于车辆轨迹数据提取表示换道车辆与周围车辆博弈状态的特征向量x及车辆换道决策观测值构建强制换道数据集s2.基于s1中强制换道数据集提取车辆运行特征,输入高斯混合聚类算法,将车辆聚为两类,分别对应激进型和保守型两种驾驶风格;s3.根据换道车辆和目标车道后车的不同驾驶风格,将换道博弈分为四种类型,并将s1中强制换道数据集划分为相应的四个子集;s4.针对s3中的四种博弈类型,基于四个子集中的车辆轨迹数据,利用演化博弈论egt及碰撞时间ttc输出换道决策y
egt
;s5.针对s3中的四种博弈类型,将强制换道数据集划分为划分训练集和测试集,并将与训练集中的特征向量x相对应的y
egt
加入训练集,在训练集上进行模型训练,训练得到能够根据作为输入,输出换道决策的神经网络模型;s6.根据步骤s1-s4获得新的并输入步骤s5训练的模型中得到换道策略。2.根据权利要求1所述的一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,其特征在于,所述步骤s1中的构建强制换道数据集的方法如下:s1.1特征向量提取ngsim的us-101数据集包含车辆每0.1s的速度、加速度、车头中心位置坐标、车头时距等车辆的轨迹数据,基于此,提取表示换道车辆与周围车辆博弈状态的特征向量其中,v
sv
,a
sv
,l
sv
分别表示换道车辆sv的速度、加速度以及与换道终点的距离;δv
cf
,δv
cb
,δv
tf
,δv
tb
分别表示sv与当前车道前车cf、当前车道后车cb、目标车道前车tf及目标车道后车tb的速度差;g
tf
,g
tb
分别表示sv与tf、tb的车头间距,ttc
tf
,ttc
tb
分别表示车辆sv与tf、tb的碰撞时间ttc,表示空间平均速度;s1.2换道决策确定定义表示车辆换道决策的观测值,规定表示车辆换道,表示车辆不换道,定义车辆横向速度大于0.2m/s且1s内有向相邻车道靠近的运动趋势的时刻为换道开始时刻;定义车辆横向速度小于0.2m/s且1s内在目标车道上的横向位置保持稳定的时刻为车辆换道结束时刻,将车辆在换道开始时刻和结束时刻内的轨迹数据的标注为1,其余时刻的标注为0。3.根据权利要求1所述的一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,其特征在于,所述步骤s2中的车辆驾驶风格划分方法如下:(2.1)定义车辆速度与空间平均速度的比值为速度比r,基于车辆轨迹数据,计算车辆每0.1s的速度比r和加速度a,从而计算车辆速度比的均值e(r)和方差var(r)以及加速度的均值e(a),将这三个特征作为高斯混合聚类算法的输入,定义聚类中心数为2,将s1中观
测数据集内的车辆聚为类别1和类别2;(2.2)分别计算类别1和类别2聚类中心的e(r)、var(r)以及e(a)三个特征值的均值,将均值大的聚类中的车辆作为激进型驾驶风格,另外一个聚类中的车辆作为保守型驾驶风格。4.根据权利要求1所述的一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,其特征在于,所述步骤s3的换道博弈类型划分方法如下:sv在制定换道决策时与目标车道后车tb发生博弈,博弈参与者sv和tb的驾驶风格集为{激进型,保守型},根据sv和tb的不同驾驶风格,将强制换道博弈分为四种类型,分别为激进型sv-激进型tb、激进型sv-保守型tb、保守型sv-激进型tb以及保守型sv-保守型tb。5.根据权利要求4所述的一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,其特征在于,所述步骤s4的换道决策y
egt
的输出方法如下:s4.1车辆收益计算基于s3中四个子集中的车辆轨迹数据,分别计算四种换道博弈类型中车辆的速度收益、安全收益及换道需求收益,定义tb的速度收益为tb减速让行前后的速度差δv;定义安全收益为sv与tb间的ttc
tb
;定义换道需求收益为sv与换道终点的距离l
sv
;s4.2收益矩阵建立在换道博弈中,博弈参与者中sv的策略集为{换道,不换道},tb的策略集为{让行,不让行},共有四种博弈策略组合,分别为{sv换道,tb让行},{sv换道,tb不让行},{sv不换道,tb让行},{sv不换道,tb不让行},基于s4.1中的车辆收益,计算四种博弈策略组合下sv和tb的收益,在{sv换道,tb让行}策略组合下,sv和tb的收益分别为a:α1ttc
tb-β1l
sv
和b:α2ttc
tb-β2δv;在{sv换道,tb不让行}策略组合下,sv和tb的收益分别为c:-α1ttc
tb
和d:β2δv-α2ttc
tb
;在{sv不换道,tb让行}策略组合下,sv和tb的收益分别为e:-β1l
sv
和f:-β2δv;在{sv不换道,tb不让行}策略组合下,sv和tb的收益分别为g:-β1l
sv
和h:β2δv,其中,α1,β1,α2,β2为车辆收益的收益因子,取值范围均为(0,1),且满足α1+β1=1,α2+β2=1,建立换道博弈收益矩阵为其中,a~h分别为sv和tb的收益;s4.3车辆换道与让行概率计算基于s4.2中的收益矩阵,建立sv的换道概率p1和tb的让行概率p2随时间演化的动态复制方程如下,据此计算每一时刻p1和p2的值;其中,式

、式

分别为p1、p2随时间演化的的动态复制方程,sv换道期望收益为w1=ap2+c(1-p2),不换道期望收益为w2=ep2+g(1-p2),期望收益为w
sv
=w1p1+w2(1-p1),tb让行期望收益为w1=bp1+f(1-p1),不让行期望收益为w2=dp1+h(1-p1),期望收益为w
tb
=w1p2+w2(1-p2),其中,a~h分别为s4.2中收益矩阵中的收益,p1、p2的初始值分别为强制换道数据集中换道车辆数和让行车辆数与us-101数据集车辆数的比值;s4.4换道决策输出
基于s3中四个子集中的车辆轨迹数据,计算sv与tf、tb间的ttc
tf
和ttc
tb
,结合s4.3中计算出的p1和p2的值,输出换道决策,规定当sv的换道概率p1和tb的让行概率p2均大于0.5,且ttc
tf
和ttc
tb
不小于保证安全的最小值时,输出y
egt
=1,即sv采取换道行为,否则,输出y
egt
=0,即sv不换道,保持原车道行驶;其中,p1、p2分别为sv的换道概率和tb的让行概率,ttc
tf
、ttc
tb
分别是sv与tf、tb的ttc,为保证安全的最小值。6.根据权利要求5所述的一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,其特征在于,步骤s5中神经网络模型的损失函数如下:其中,为观测值,y
egt
为输出的换道决策值,p为模型输出车辆换道的概率,p>0.5时,模型输出值y=1,否则,y=0,α为衡量模型输出与y
egt
之间损失的权重。

技术总结
本发明提供一种融合演化博弈与机器学习的多风格驾驶者强制换道预测方法,该方法包括基于车辆轨迹数据提取表示换道车辆与周围车辆博弈状态的特征向量及车辆换道决策观测值,建立强制换道观测数据集;利用高斯混合聚类方法,将车辆分为两种驾驶风格,根据换道车辆和目标车道后车的不同驾驶风格,将换道博弈分为四类,将观测数据集划分为相对应的四个子集;根据四个子集的车辆轨迹数据,分别利用演化博弈论EGT及碰撞时间指标输出换道决策;建立融合演化博弈论和机器学习的强制换道模型EGT-ML,将基于EGT的换道决策加入训练集中,并在训练集上进行模型训练,在观测数据集上评价预测效果,结果表明模型具有较高的准确率和较强的鲁棒性。鲁棒性。鲁棒性。


技术研发人员:王晨 李梦芸 徐嗣轩 周威 施明亮
受保护的技术使用者:东南大学
技术研发日:2023.03.27
技术公布日:2023/6/27
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐