一种用于驾驶风格识别模型的训练样本预处理方法
未命名
07-22
阅读:88
评论:0

1.本发明属于驾驶风格识别技术领域,具体涉及一种用于驾驶风格识别模型的训练样本预处理方法。
背景技术:
2.驾驶风格识别在交通安全、节能减排以及驾驶个性化等领域具有重要意义。近年来,大数据与人工智能技术的飞速发展,使得基于机器学习的驾驶风格识别成为了研究热点。当前,基于机器学习的驾驶风格识别主要存在两条技术路线:基于聚类算法的驾驶风格识别;基于分类算法的驾驶风格识别。聚类算法将输入样本自动划分为多个类别,该方法脱离了样本类别标签的指导,导致识别结果争议性较大、说服力不足。因此,对模型的训练样本进行预处理是十分必要的,如:中国专利cn106485263b、cn111401483b和cn114444619b。
3.在工程实践中,基于分类算法的驾驶风格识别往往会面临以下技术难题:(1)受试驾驶员数量不足:在常规数据采集实验中,由于被试车资源有限,所能招募到的驾驶员数量往往较少,这将导致模型的训练样本不足。在这种情况下,难以训练获得性能较好的驾驶风格识别模型。(2)受试驾驶员类别不均衡:在常规数据采集实验中,所能招募到的驾驶员的驾驶风格类别往往难以均衡(运动型、普通型、谨慎型驾驶员数量分布不均)。在样本类别比例不均衡的情况下,大多数分类模型难以取得较好的训练效果。(3)驾驶事件的类别标签难以获取:虽然在常规数据采集实验中,驾驶员的驾驶风格类别可通过问卷调查直接获得,但是面对同一名驾驶员所产生的大量驾驶事件(如加速、制动、跟驰等),人工评估并记录其类别往往难以实现。综上,在构建驾驶事件级别的驾驶风格分类模型时,往往需要同时面对样本类别标签难获取以及样本类别比例不均衡问题。
技术实现要素:
4.鉴于上述分析,本发明提供了一种用于驾驶风格识别模型的训练样本预处理方法,用于解决现有技术中训练出的驾驶风格识别模型性能差、识别不准确的技术问题。
5.本发明公开的一种用于驾驶风格识别模型的训练样本预处理方法,具体步骤如下:步骤1,采集预设时间内s名驾驶员的操控数据、车辆运动状态数据、驾驶场景特征数据和驾驶员驾驶风格类别标签;将采集的所有驾驶员的操控数据、车辆运动状态数据以及驾驶场景特征数据组成训练驾驶风格识别模型的时间序列原始数据;步骤2,从时间序列原始数据中获取多个驾驶事件数据片段;从驾驶事件数据片段中提取驾驶事件特征参数;由每个驾驶事件数据片段的驾驶事件特征参数构成该驾驶事件数据片段对应的多维特征向量;集合相同类型的多个驾驶事件数据片段的多维特征向量,获得驾驶事件特征向量集;对驾驶事件特征向量集中的每个多维特征向量进行驾驶员驾驶风格类别标签标注,获得第一特征向量集;其中,第一特征向量集中的每个特征向量为带有驾驶员驾驶风格类别标签的样
本;步骤3,检查第一特征向量集中带有不同驾驶员驾驶风格类别标签的样本类别比例,若多数类样本数量与少数类样本总数量之比大于等于均衡阈值,则样本类别不均衡,进入步骤4;若多数类样本数量与少数类样本总数量之比小于均衡阈值,则样本类别均衡,进入步骤5;步骤4,采用考虑标签噪声的合成少数过采样方法对步骤3输出的第一特征向量集中的少数类样本进行过采样处理,获得第二特征向量集,进入步骤5;步骤5,确认输入特征向量集,若有步骤4输出的第二特征向量集,则将第二特征向量集作为输入特征向量集;若无步骤4输出的第二特征向量集,则将步骤2输出的第一特征向量集作为输入特征向量集;对输入特征向量集进行类别标签降噪处理,去除与原有类别标签不匹配的样本,获得第三特征向量集;判断第三特征向量集的样本类别比例是否均衡,若样本类别比例不均衡,进入步骤6;若样本类别比例均衡,进入步骤7;步骤6,对第三特征向量集中的少数类样本进行合成少数过采样,获得第四特征向量集,进入步骤7;步骤7,若有步骤6输出的第四特征向量集,则用其训练驾驶风格识别模型;若无步骤6输出的第四特征向量集,则用步骤5输出的第三特征向量集训练驾驶风格识别模型。
6.可选地,步骤1所述时间序列原始数据中,驾驶员的操控数据包括油门踏板开度、制动踏板开度和方向盘转角;车辆运动状态数据包括自车车速和自车纵向加速度;驾驶场景特征数据包括自车两侧车道线的曲率半径、自车到左侧车道线的距离与车道宽度的比值和自车与同车道前车的纵向距离;驾驶员驾驶风格类别标签包括运动型、普通型和谨慎型。
7.可选地,设置车况传感器和视觉传感器,车况传感器用于获取驾驶员操控数据与车辆运动状态数据,视觉传感器用于获取驾驶场景特征数据。
8.可选地,驾驶事件数据片段类型包括加速、制动、转向、跟驰和换道。
9.可选地,步骤2中从步骤1输出的时间序列原始数据中截取多个数据片段的方法为:从时间序列原始数据中截取任一数据片段,从该数据片段中获取车道线曲率半径、自车车速、自车与同车道前车的纵向距离、自车到左侧车道线的距离与车道宽度的比值和方向盘转角;如果该数据片段中的车道线曲率半径、自车车速、自车与同车道前车的纵向距离、自车到左侧车道线的距离与车道宽度的比值和方向盘转角满足对应的驾驶事件判断条件时,获取对应的驾驶事件数据片段;获得每个驾驶事件数据片段包含的时间序列原始数据。
10.可选地,步骤2中从驾驶事件数据片段中提取驾驶事件特征参数的方法为:提取每个驾驶事件数据片段包含的每种时间序列原始数据的平均值、最大值、最小值和标准差作为该驾驶事件数据片段的驾驶事件特征参数。
11.可选地,步骤2中对驾驶事件特征向量集中的每个多维特征向量进行驾驶员驾驶风格类别标注,获得第一特征向量集的方法为:将在步骤1中获得的某名驾驶员的驾驶风格类别标签直接作为该名驾驶员所产生的所有驾驶事件特征向量的类别标签,获得第一特征向量集。
12.可选地,步骤3中判断第一特征向量集中带有不同驾驶员驾驶风格类别标签的样
本类别比例是否均衡的方法为:设第一特征向量集中数量最多的一类驾驶员驾驶风格类别标签的样本的数量为p
majority
;数量少的几类驾驶员驾驶风格类别标签的样本的总数量为p
minority
;判断第一特征向量集是否存在样本类别比例不均衡情况的均衡阈值为ratio
theshold
;如果,则样本类别比例不均衡,进入步骤4,如果,则样本类别比例相对均衡,进入步骤5。
13.可选地,步骤4中,对第一特征向量集中的少数类样本进行过采样处理的方法为:根据近邻数k搜索出第一特征向量集中每一个少数类样本的k个近邻样本;根据对应少数类样本的k个近邻样本的类别标签分布情况,将该少数类的样本划分为大概率标签错误样本、小概率标签错误样本、高标签置信度样本和低标签置信度样本;对于大概率标签错误样本,不在其附近构造合成样本;对于小概率标签错误样本,若其在所有对应少数类样本中的占比大于等于第一判断阈值,则在其附近构造合成样本;若其在所有对应少数类样本中的占比小于第一判断阈值,则不在其附近构造合成样本;对于高标签置信度样本,在其附近构造合成样本;对于低标签置信度样本,若其在所有对应少数类样本中的占比大于等于第二判断阈值,则在其附近构造合成样本;若其在所有对应少数类样本中的占比小于第二判断阈值,则不在其附近构造合成样本;将构造的合成样本,添加到第一特征向量集中,直到第一特征向量集中的对应少数类样本数量等于多数类样本的数量为止。
14.可选地,步骤5中,对输入特征向量集进行标签降噪处理的方法为:将输入特征向量集均分为m份,将m-1份输入特征向量集作为训练集,剩下的一份作为预测集;使用m-1份训练集训练cart决策树,使用训练后的cart决策树对预测集中的带有驾驶员驾驶风格类别标签的样本的类别标签进行预测获得标签预测结果;基于标签预测结果和输入特征向量集中的每一个带有驾驶员驾驶风格类别标签的样本判断该有驾驶员驾驶风格类别标签的样本的原有类别标签与标签预测结果是否匹配;从输入特征向量集中剔除标签预测结果与带有驾驶员驾驶风格类别标签的样本的原有类别标签不匹配的样本;获得第三特征向量集。
15.与现有技术相比,本发明的有益技术效果至少包括以下之一:(1)针对常规数据采集实验中所能招募到的驾驶员数量不足问题,本发明的方法采用驾驶员在出行过程中所产生的驾驶事件作为驾驶风格识别模型的训练样本,避免了模型因样本数量不足而导致的训练效果不佳问题;(2)针对构建驾驶风格识别模型时所面临的驾驶事件类别标签难获取问题,本发明的方法首先将驾驶员驾驶风格类别标签直接作为驾驶事件类别标签,然后采用标签降噪方法检测并去除本身与标签不匹配的样本,避免了模型因缺乏准确的样本标签而导致的训练效果不佳问题。
16.(3)针对合成少数过采样过程中可能需要应对标签噪声的问题,本发明的方法设
计了一种考虑标签噪声的合成少数过采样方法,该方法仅在标签置信度较高的样本附近构造合成样本,避免了向训练样本集中引入更多的标签噪声。
17.(4)针对构建驾驶风格识别模型时,样本类别标签难获取以及样本类别比例不均衡问题同时存在的情况,本发明的方法总体设计了驾驶风格识别模型训练样本的预处理流程,保证了在最终输出的训练样本中,样本与标签的匹配情况良好,不同类别的样本比例相对均衡。
附图说明
18.附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
19.图1为本发明的训练样本预处理方法的流程图。
具体实施方式
20.下面结合附图,来具体描述本发明的优选实施例,其中,附图构成本发明的一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
21.本发明的一个具体实施例,如图1所示,公开了一种用于驾驶风格识别模型的训练样本预处理方法,具体步骤如下:步骤1,进行实车实验,采集预设时间内s名驾驶员的操控数据、车辆运动状态数据、驾驶场景特征数据和驾驶员驾驶风格类别标签;将采集的所有驾驶员的操控数据、车辆运动状态数据以及驾驶场景特征数据组成训练驾驶风格识别模型的时间序列原始数据;可选地,s≥30;驾驶员的驾驶风格类别标签通过问卷调查获得。
22.可选地,步骤1所述时间序列原始数据中,驾驶员的操控数据包括油门踏板开度、制动踏板开度和方向盘转角;车辆运动状态数据包括自车车速和自车纵向加速度;驾驶场景特征数据包括自车两侧车道线的曲率半径、自车到左侧车道线的距离与车道宽度的比值和自车与同车道前车的纵向距离;驾驶员驾驶风格类别标签包括运动型、普通型和谨慎型。
23.可选地,步骤1所述实车实验中,实验车辆包括车况传感器和视觉传感器,车况传感器用于获取驾驶员操控数据与车辆运动状态数据,视觉传感器用于获取驾驶场景特征数据。在每次实验开始前,首先准备并调试好实验车辆,确保其能够获取准确的时间序列原始数据。其次,规划好实验路线并将其录入车辆的车载导航系统。最后,要求驾驶员遵循车载导航系统的路径指示驾驶车辆行驶。
24.可选地,视觉传感器为摄像头或雷达。
25.步骤2,从步骤1输出的时间序列原始数据中获取多个驾驶事件数据片段;从驾驶事件数据片段中提取驾驶事件特征参数;由每个驾驶事件数据片段的驾驶事件特征参数构成该驾驶事件数据片段对应的多维特征向量;集合相同类型的多个驾驶事件数据片段的多维特征向量,获得对应类型的驾驶事件特征向量集;对各个类型的驾驶事件特征向量集中的每个多维特征向量进行驾驶员驾驶风格类别标签标注,获得各个类型的第一特征向量集;其中,各个类型的第一特征向量集中的每个特征向量为带有驾驶员驾驶风格类别标签的样本。
26.可选地,驾驶事件数据片段类型包括加速、制动、转向、跟驰和换道等。
27.可选地,从步骤1输出的时间序列原始数据中截取多个数据片段的方法为:首先,从时间序列原始数据中截取任一数据片段,从该数据片段中获取车道线曲率半径、自车车速、自车与同车道前车的纵向距离、自车到左侧车道线的距离与车道宽度的比值和方向盘转角;如果该数据片段中的车道线曲率半径、自车车速、自车与同车道前车的纵向距离、自车到左侧车道线的距离与车道宽度的比值和方向盘转角满足对应的驾驶事件判断条件时,获取对应的驾驶事件数据片段;以截取直道跟驰事件数据片段为例,如果提取的数据片段中的车道线曲率半径、自车车速、自车与同车道前车的纵向距离、自车到左侧车道线的距离与车道宽度的比值和方向盘转角满足式(1)所示的直道跟驰事件判断条件时,该数据片段为直道跟驰事件数据片段。
28.(1)其中,r
min
为车道线曲率半径的最小值(m);为车道线曲率半径阈值,优选地,取值范围:800~1000m;v
min
为自车车速的最小值(km/h);为自车车速阈值,优选地,取值范围:0~5km/h;d
min
为自车与同车道前车的纵向距离的最小值(m);为自车与同车道前车的纵向距离阈值,优选地,取值范围:0~3m;d
max
为自车与同车道前车的纵向距离的最大值(m);为自车与同车道前车的纵向距离阈值,优选地,推荐取值范围:120~150;
△dmax
为相邻采样时刻自车与同车道前车的纵向距离变化量的最大值(m);为相邻采样时刻自车与同车道前车的纵向距离变化量阈值,优选地,取值范围:0.5~1m;p
min
为自车到左侧车道线的距离与车道宽度的比值的最小值;为自车到左侧车道线的距离与车道宽度的比值阈值,优选地,取值范围:0.2~0.3;p
max
为自车到左侧车道线的距离与车道宽度的比值的最大值;为自车到左侧车道线的距离与车道宽度的比值阈值,优选地,取值范围:0.7~0.8;为方向盘转角的绝对值的平均值(
°
);为方向盘转角的绝对值的平均值阈值,优选地,取值范围:5~10
°
;θ为方向盘转角的绝对值(
°
);θ
threshold
为方向盘转角的绝对值阈值,优选地,取值范围:15~20
°
;t
event
为数据片段的时间跨度(s);为驾驶事件数据片段的时间跨度阈值,优选地,取值范围:1~2s。
29.然后,获得每个驾驶事件数据片段包含的时间序列原始数据;以截取直道跟驰事件数据片段为例,直道跟驰事件数据片段包含的时间序列原始数据包括油门踏板开度、制动踏板开度、自车车速、自车纵向加速度和自车与同车道前车的纵向距离。
30.可选地,从驾驶事件数据片段中提取驾驶事件特征参数,集合所有驾驶事件特征参数,获得驾驶事件特征向量集的方法为:
提取每个驾驶事件数据片段包含的每种时间序列原始数据的平均值、最大值、最小值和标准差作为该驾驶事件数据片段的驾驶事件特征参数;由每个驾驶事件数据片段的多个驾驶事件特征参数构成该驾驶事件数据片段对应的多维特征向量;集合相同类型的多个驾驶事件数据片段的多维特征向量获得该类型的驾驶事件特征向量集。
31.以直道跟驰事件数据片段为例,对于直道跟驰事件数据片段中的每一种时间序列原始数据,都提取四种常用的统计量:平均值、最大值、最小值和标准差,作为该直道跟驰事件数据片段的特征参数(如对于自车车速,提取直道跟驰事件数据片段内自车车速的平均值、最大值、最小值以及标准差,作为该直道跟驰事件数据片段的驾驶事件特征参数)。完成驾驶事件特征参数的提取后,一个直道跟驰事件数据片段对应一个多维特征向量。集合所有直道跟驰事件数据片段所对应的多维特征向量即可得到直道跟驰事件特征向量集;对直道跟驰事件特征向量集中的特征参数进行z-score标准分数化处理,使所有特征参数的量纲统一;获得直道跟驰事件特征向量集。
32.可选地,对驾驶事件特征向量集中的每个多维特征向量进行类别标注,进而获得第一特征向量集的方法为:将在步骤1中获得的各名驾驶员的驾驶风格类别标签直接作为对应驾驶员所产生的所有对应驾驶事件特征向量的类别标签,获得第一特征向量集。
33.以某名驾驶风格类别为运动型的驾驶员为例,将该名驾驶员产生的所有驾驶事件特征向量的类别标签均为运动型,如:该名运动型驾驶员产生的直道跟驰事件特征向量、制动事件特征向量的类别标签均为运动型。
34.步骤3,检查第一特征向量集中带有不同驾驶员驾驶风格类别标签的样本类别比例,若多数类样本数量与少数类样本总数量之比大于等于均衡阈值,则样本类别不均衡,进入步骤4;若多数类样本数量与少数类样本总数量之比小于均衡阈值,则样本类别均衡,进入步骤5;可以理解的是,若普通型的样本数量最多,运动型与谨慎型的样本数量较少,则普通型样本就被称为多数类样本,运动型与谨慎型样本就被称为少数类样本。
35.可选地,所述步骤3中,判断第一特征向量集中带有不同驾驶员驾驶风格类别标签的样本类别比例是否均衡的方法为:设第一特征向量集中数量最多的一类驾驶员驾驶风格类别标签的样本的数量为p
majority
;数量少的几类驾驶员驾驶风格类别标签的样本的总数量为p
minority
;判断第一特征向量集是否存在样本类别比例不均衡情况的均衡阈值为ratio
theshold
;如果,则样本类别比例不均衡,接下来进入步骤4,如果,则样本类别比例相对均衡,接下来进入步骤5;优选地,ratio
theshold
的取值范围为5~6。
36.步骤4,采用考虑标签噪声的合成少数过采样方法对步骤3输出的第一特征向量集中的少数类样本进行过采样处理,获得第二特征向量集,进入步骤5。
37.可选地,所述步骤4中,对第一特征向量集中的少数类样本进行过采样处理的方法为:
以对运动型样本进行过采样处理为例:步骤41,根据近邻数k搜索出第一特征向量集中每一个运动型样本的k个近邻样本,优选地,k的取值范围为8~10。
38.步骤42,根据对应运动型样本的k个近邻样本的类别标签分布情况,将该运动型样本划分为以下四种类型:大概率标签错误运动型样本、小概率标签错误运动型样本、高标签置信度运动型样本和低标签置信度运动型样本。
39.其中,大概率标签错误样本的k个近邻样本全为多数类样本;小概率标签错误样本的k个近邻样本不全为多数类样本,但多数类样本的占比大于k/2(若k/2不为整数则向上取整);高标签置信度运动型样本的个近邻样本全为运动型样本;低标签置信度运动型样本的k个近邻样本不全为运动型样本,但运动型样本的占比大于k/2(若k/2不为整数则向上取整)。
40.步骤43,对于步骤42中所述的大概率标签错误样本,不在其附近构造合成样本;对于小概率标签错误样本,若其在所有运动型样本中的占比大于等于第一判断阈值θ1,优选地,θ1的取值范围为0.25~0.30,则在其附近构造合成样本;若其在所有运动型样本中的占比小于第一判断阈值θ1,则不在其附近构造合成样本;对于高标签置信度运动型样本,在其附近构造合成样本;对于低标签置信度运动型样本,若其在所有运动型样本中的占比大于等于第二判断阈值θ2,优选地,θ2的推荐取值为0.25~0.30,则在其附近构造合成样本;若其在所有运动型样本中的占比小于第二判断阈值θ2,则不在其附近构造合成样本。
41.步骤44,将在步骤43中构造的合成样本,添加到第一特征向量集中,直到第一特征向量集中的运动型样本数量等于多数类样本的数量为止。
42.对于除运动型以外的另一种少数类样本(通常为谨慎型样本)也进行步骤41到步骤44的操作。完成过采样处理之后的特征向量集称为第二特征向量集。接下来进入步骤5。
43.步骤5,首先确认该步的输入特征向量集:若有步骤4输出的第二特征向量集,则将第二特征向量集作为输入特征向量集;若无步骤4输出的第二特征向量集,则将步骤2输出的第一特征向量集作为输入特征向量集;然后,对输入特征向量集进行类别标签降噪处理,去除与原有类别标签不匹配的样本,获得第三特征向量集;最后,判断第三特征向量集的样本类别比例是否均衡,若样本类别比例不均衡,则接下来进入步骤6;若样本类别比例均衡,则接下来进入步骤7。
44.所述步骤5中,对输入特征向量集进行标签降噪处理的方法为:步骤511,将输入特征向量集均分为m份,具体步骤为:每次从输入特征向量集的运动型、普通型以及谨慎型样本中各随机抽取出(100/m)%的样本合为一份,连续抽取(m-1)次;将(m-1)份输入特征向量集作为训练集,将剩下的一份样本作为预测集。
45.可选地,m=5。
46.步骤512,使用步骤511中(m-1)份训练集训练cart决策树,使用训练后的cart决策树对预测集中的带有驾驶员驾驶风格类别标签的样本的类别标签进行预测获得标签预测结果;使用步骤511中划分出的(m-1)份样本作为训练集,训练n个cart决策树分类模型,可选地,n的取值范围为10~20,并用这n个cart决策树分类模型对预测集中的样本类别进行
预测;当所有样本的类别都被预测过一遍之后,输入特征向量集中的每一个特征向量对应n个类别预测结果。优选地,该训练与预测过程连续进行5次。
47.步骤513,对于输入特征向量集中的每一个样本,设其原有类别标签为y;步骤512给出的标签预测结果为;若,则计为一次正票;若,则计为一次负票;获得单个样本的正票总数n和负票总数n
‑‑
,如果,则认为该样本与其原有类别标签不匹配,如果,则认为该样本与其原有类别标签匹配,其中,r
threshold
为判定样本与原有类别标签是否匹配的阈值;可选地,r
threshold
的取值范围为0.7~0.8。
48.步骤514,从输入特征向量集中剔除样本与原有类别标签不匹配的样本;基于上述方法对输入特征向量集进行标签降噪处理,获得特征向量集为第三特征向量集;可选地,所述步骤5中,判断第三特征向量集的样本类别比例是否均衡的方法为:设第三特征向量集中数量最多的一类驾驶员驾驶风格类别标签的样本的数量为p
majority
;数量较少的几类驾驶员驾驶风格类别标签的样本的总数量为p
minority
;判断第三特征向量集是否存在样本不均衡情况的阈值为ratio
theshold
,若有:则样本类别比例不均衡,接下来进入步骤6;若有:则样本类别比例相对均衡,接下来进入步骤7,优选地,ratio
theshold
的推荐取值为5~6。
49.步骤6,对步骤5输出的第三特征向量集中的少数类样本进行合成少数过采样,获得第四特征向量集,之后进入步骤7。
50.可选地,所述步骤6中,对第三特征向量集中的少数类样本进行合成少数过采样的方法为:对于第三特征向量集中的每一类少数类样本,采用borderlinesmote法合成新的少数类样本并将其添加到第三特征向量集中,直到第三特征向量集中每一类少数类样本的数量都等于多数类样本的数量获得第四特征向量集,接下来进入步骤7。
51.可以理解的是,例如若运动型样本有200个,谨慎型样本有300个,普通型样本有1000个,则普通型样本为多数类样本,运动型与谨慎型样本为少数类样本,此时,合成800个运动型与700个谨慎型样本添加到原样本集中,使得新的样本集中,三类样本的数量均为1000个。
52.步骤7,若有步骤6输出的第四特征向量集,则用其训练有监督学习型的驾驶风格识别模型;若无步骤6输出的第四特征向量集,则用步骤5输出的第三特征向量集训练有监督学习型的驾驶风格识别模型。
53.驾驶风格识别模型为支持向量机、随机森林或前馈全连接神经网络。
54.本发明经过多次特征向量集的处理,使得样本与标签匹配情况良好,且样本的类
别比例完全均衡。
55.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
技术特征:
1.一种用于驾驶风格识别模型的训练样本预处理方法,其特征在于,具体步骤如下:步骤1,采集预设时间内s名驾驶员的操控数据、车辆运动状态数据、驾驶场景特征数据和驾驶员驾驶风格类别标签;将采集的所有驾驶员的操控数据、车辆运动状态数据以及驾驶场景特征数据组成训练驾驶风格识别模型的时间序列原始数据;步骤2,从时间序列原始数据中获取多个驾驶事件数据片段;从驾驶事件数据片段中提取驾驶事件特征参数;由每个驾驶事件数据片段的驾驶事件特征参数构成该驾驶事件数据片段对应的多维特征向量;集合相同类型的多个驾驶事件数据片段的多维特征向量,获得驾驶事件特征向量集;对驾驶事件特征向量集中的每个多维特征向量进行驾驶员驾驶风格类别标签标注,获得第一特征向量集;其中,第一特征向量集中的每个特征向量为带有驾驶员驾驶风格类别标签的样本;步骤3,检查第一特征向量集中带有不同驾驶员驾驶风格类别标签的样本类别比例,若多数类样本数量与少数类样本总数量之比大于等于均衡阈值,则样本类别不均衡,进入步骤4;若多数类样本数量与少数类样本总数量之比小于均衡阈值,则样本类别均衡,进入步骤5;步骤4,采用考虑标签噪声的合成少数过采样方法对步骤3输出的第一特征向量集中的少数类样本进行过采样处理,获得第二特征向量集,进入步骤5;步骤5,确认输入特征向量集,若有步骤4输出的第二特征向量集,则将第二特征向量集作为输入特征向量集;若无步骤4输出的第二特征向量集,则将步骤2输出的第一特征向量集作为输入特征向量集;对输入特征向量集进行类别标签降噪处理,去除与原有类别标签不匹配的样本,获得第三特征向量集;判断第三特征向量集的样本类别比例是否均衡,若样本类别比例不均衡,进入步骤6;若样本类别比例均衡,进入步骤7;步骤6,对第三特征向量集中的少数类样本进行合成少数过采样,获得第四特征向量集,进入步骤7;步骤7,若有步骤6输出的第四特征向量集,则用其训练驾驶风格识别模型;若无步骤6输出的第四特征向量集,则用步骤5输出的第三特征向量集训练驾驶风格识别模型。2.根据权利要求1所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,步骤1所述时间序列原始数据中,驾驶员的操控数据包括油门踏板开度、制动踏板开度和方向盘转角;车辆运动状态数据包括自车车速和自车纵向加速度;驾驶场景特征数据包括自车两侧车道线的曲率半径、自车到左侧车道线的距离与车道宽度的比值和自车与同车道前车的纵向距离;驾驶员驾驶风格类别标签包括运动型、普通型和谨慎型。3.根据权利要求1所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,设置车况传感器和视觉传感器,车况传感器用于获取驾驶员操控数据与车辆运动状态数据,视觉传感器用于获取驾驶场景特征数据。4.根据权利要求1所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,驾驶事件数据片段类型包括加速、制动、转向、跟驰和换道。5.根据权利要求1所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,步骤2中从步骤1输出的时间序列原始数据中截取多个数据片段的方法为:从时间序列原始数据中截取任一数据片段,从该数据片段中获取车道线曲率半径、自车车速、自车与同车道前车的纵向距离、自车到左侧车道线的距离与车道宽度的比值和方
向盘转角;如果该数据片段中的车道线曲率半径、自车车速、自车与同车道前车的纵向距离、自车到左侧车道线的距离与车道宽度的比值和方向盘转角满足对应的驾驶事件判断条件时,获取对应的驾驶事件数据片段;获得每个驾驶事件数据片段包含的时间序列原始数据。6.根据权利要求5所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,步骤2中从驾驶事件数据片段中提取驾驶事件特征参数的方法为:提取每个驾驶事件数据片段包含的每种时间序列原始数据的平均值、最大值、最小值和标准差作为该驾驶事件数据片段的驾驶事件特征参数。7.根据权利要求6所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,步骤2中对驾驶事件特征向量集中的每个多维特征向量进行驾驶员驾驶风格类别标注,获得第一特征向量集的方法为:将在步骤1中获得的某名驾驶员的驾驶风格类别标签直接作为该名驾驶员所产生的所有驾驶事件特征向量的类别标签,获得第一特征向量集。8.根据权利要求1所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,步骤3中判断第一特征向量集中带有不同驾驶员驾驶风格类别标签的样本类别比例是否均衡的方法为:设第一特征向量集中数量最多的一类驾驶员驾驶风格类别标签的样本的数量为p
majority
;数量少的几类驾驶员驾驶风格类别标签的样本的总数量为p
minority
;判断第一特征向量集是否存在样本类别比例不均衡情况的均衡阈值为ratio
theshold
;如果,则样本类别比例不均衡,进入步骤4,如果,则样本类别比例相对均衡,进入步骤5。9.根据权利要求2所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,步骤4中,对第一特征向量集中的少数类样本进行过采样处理的方法为:根据近邻数k搜索出第一特征向量集中每一个少数类样本的k个近邻样本;根据对应少数类样本的k个近邻样本的类别标签分布情况,将该少数类的样本划分为大概率标签错误样本、小概率标签错误样本、高标签置信度样本和低标签置信度样本;对于大概率标签错误样本,不在其附近构造合成样本;对于小概率标签错误样本,若其在所有对应少数类样本中的占比大于等于第一判断阈值,则在其附近构造合成样本;若其在所有对应少数类样本中的占比小于第一判断阈值,则不在其附近构造合成样本;对于高标签置信度样本,在其附近构造合成样本;对于低标签置信度样本,若其在所有对应少数类样本中的占比大于等于第二判断阈值,则在其附近构造合成样本;若其在所有对应少数类样本中的占比小于第二判断阈值,则不在其附近构造合成样本;将构造的合成样本,添加到第一特征向量集中,直到第一特征向量集中的对应少数类样本数量等于多数类样本的数量为止。10.根据权利要求1所述的用于驾驶风格识别模型的训练样本预处理方法,其特征在于,步骤5中,对输入特征向量集进行标签降噪处理的方法为:将输入特征向量集均分为m份,将m-1份输入特征向量集作为训练集,剩下的一份作为预测集;
使用m-1份训练集训练cart决策树,使用训练后的cart决策树对预测集中的带有驾驶员驾驶风格类别标签的样本的类别标签进行预测获得标签预测结果;基于标签预测结果和输入特征向量集中的每一个带有驾驶员驾驶风格类别标签的样本判断该有驾驶员驾驶风格类别标签的样本的原有类别标签与标签预测结果是否匹配;从输入特征向量集中剔除标签预测结果与带有驾驶员驾驶风格类别标签的样本的原有类别标签不匹配的样本;获得第三特征向量集。
技术总结
本发明公开了一种用于驾驶风格识别模型的训练样本预处理方法,属于驾驶风格识别技术领域。本发明的方法采用驾驶员在出行过程中所产生的驾驶事件直接作为驾驶风格识别模型的训练样本;首先将驾驶员驾驶风格类别标签直接作为驾驶事件类别标签,然后采用标签降噪方法检测并去除本身与标签不匹配的样本。解决了现有技术中训练出的驾驶风格识别模型性能差、识别不准确的技术问题。别不准确的技术问题。别不准确的技术问题。
技术研发人员:刘艳芳 李炳贤 赵俊玮 刘学武 徐向阳 董鹏 王书翰
受保护的技术使用者:北京航空航天大学
技术研发日:2023.06.13
技术公布日:2023/7/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/