接管阈值标定方法、装置、计算机设备和存储介质与流程

未命名 09-22 阅读:89 评论:0


1.本技术涉及自动驾驶技术领域,特别是涉及一种接管阈值标定方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

2.目前的自动驾驶系统并不完全安全和可靠,自动驾驶车辆仍需驾驶员时刻监管路面和自动系统,并随时接管车辆掌握驾驶控制权。
3.现有自动驾驶系统中,通常是通过驾驶员踩刹车或者打方向盘,从而接管车辆。而驾驶员踩刹车或打方向盘的阈值,目前需要通过人工进行标定,非常的费时又消耗人力;同时,接管阈值的大小设定对驾驶安全至关重要。以刹车阈值为例,若刹车阈值设置太小,容易造成误触发,导致驾驶员频繁接管车辆,若刹车阈值设置太大,容易造成危险,尤其是在车辆速度大的情况下,容易造成追尾;此外,由于每个驾驶员的驾驶风格也不一样,也会导致刹车阈值不一样。所以针对不同的驾驶员设置一个合理的刹车阈值,让驾驶员成功接管是至关重要的。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够设置合理接管阈值、降低人工成本并提高自动驾驶安全性的接管阈值标定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种接管阈值标定方法。该方法包括:
6.获取车辆的实时驾驶状态;
7.将所述实时驾驶状态输入至训练完成的在线决策模型,得到实时预测接管动作;其中,训练完成的在线决策模型是基于所述车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对最新的在线决策模型和在线评价模型进行交互训练后得到的;
8.根据所述实时预测接管动作,标定所述车辆的实时接管阈值。
9.在其中一个实施例中,所述基于所述车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对最新的在线决策模型和在线评价模型进行交互训练,包括:
10.获取所述车辆在历史接管过程中多个时刻的样本驾驶状态和对应的样本接管动作;
11.通过最新的在线决策模型,基于每一时刻的样本驾驶状态和对应的样本接管动作,生成每一时刻的状态转移元组;
12.使用多个时刻的状态转移元组,对最新的在线决策模型和在线评价模型进行交互训练,得到训练完成的在线决策模型。
13.在其中一个实施例中,所述通过最新的在线决策模型,基于每一时刻的样本驾驶状态和对应的样本接管动作,生成每一时刻的状态转移元组,包括:
14.针对每一时刻,将该时刻的样本驾驶状态输入至最新的在线决策模型,得到该时
刻的决策接管动作;
15.根据该时刻的决策接管动作和所述样本驾驶状态对应的样本接管动作确定奖励值;
16.根据该时刻的样本驾驶状态和该时刻的决策接管动作,确定该时刻的下一时刻的预测驾驶状态;
17.用该时刻的样本驾驶状态、决策接管动作、奖励值和下一时刻的预测驾驶状态,构造该时刻的状态转移元组。
18.在其中一个实施例中,所述使用多个时刻的状态转移元组,对最新的在线决策模型和在线评价模型进行交互训练,包括:
19.基于最新的在线评价模型和在线决策模型,生成每一时刻的当前评价值和目标评价值;
20.根据所述目标评价值和当前评价值,构建第一损失函数和第二损失函数;所述第一损失函数用于最小化所述目标评价值和所述当前评价值的均方误差,所述第二损失函数用于最大化所述当前评价值的期望值;
21.使用多个时刻的状态转移元组,基于所述第一损失函数和所述第二损失函数,通过反向传播算法同步更新最新的在线评价模型和在线决策模型的模型参数;
22.当模型参数的更新次数达到预设次数,或者当所述奖励值大于预设值时,停止更新最新的在线决策模型和在线评价模型的模型参数。
23.在其中一个实施例中,所述基于所述第一损失函数和所述第二损失函数,通过反向传播算法同步更新最新的在线评价模型和在线决策模型的模型参数,包括:
24.利用梯度下降法求解所述第一损失函数相对最新的在线评价模型的模型参数的评价梯度,根据所述评价梯度更新最新的在线评价模型的模型参数;
25.利用梯度上升法求解所述第二损失函数相对最新的在线决策模型的模型参数的决策梯度,根据所述决策梯度更新最新的在线决策模型的模型参数。
26.在其中一个实施例中,所述基于最新的在线评价模型和在线决策模型,生成每一时刻的当前评价值和目标评价值,包括:
27.基于最新的在线决策模型和在线评价模型的模型参数,分别构建目标决策模型和目标评价模型;
28.当对最新的在线决策模型和在线评价模型的模型参数更新时,根据更新程度和预设更新系数对所述目标决策模型和目标评价模型的模型参数进行更新;
29.通过更新的目标决策模型和目标评价模型,生成每一时刻的当前评价值和目标评价值。
30.在其中一个实施例中,驾驶状态包括车速、与前方车辆的距离,以及与前方车辆的相对速度;
31.接管动作包括作用在车辆上的减速度或主缸制动压力。
32.第二方面,本技术还提供了一种接管阈值标定装置。所述装置包括:
33.状态获取模块,用于获取车辆的实时驾驶状态;
34.决策生成模块,用于将所述实时驾驶状态输入至训练完成的在线决策模型,得到实时预测接管动作,其中,训练完成的在线决策模型是基于所述车辆在历史接管过程中的
样本驾驶状态和对应的样本接管动作,对已有的在线决策模型和在线评价模型进行交互训练后得到的;
35.阈值标定模块,用于根据所述实时预测接管动作标定所述车辆的实时接管阈值。
36.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面的方法。
37.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的方法。
38.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面的方法。
39.上述接管阈值标定方法、装置、计算机设备、存储介质和计算机程序产品,通过获取历史接管过程中的样本驾驶状态和对应的样本接管动作,对在线决策模型和在线评价模型进行训练,可以获得训练好的在线决策模型;通过将实时车辆状态输入训练好的在线决策模型,可以得到对应时刻的合适的接管动作,将该合适的接管动作设为对应时刻的接管阈值,可以很好地避免因接管阈值过小而导致的误触发,并避免因接管阈值过大而导致的车辆追尾现象。同时,通过设置经验池,将获取多个时刻对应的状态转移元组存入经验池中,并从经验池中抽取一个或多个不同时刻的状态转移元组用于训练,可以提高训练后的模型参数的准确性,达到更好的训练效果。此外,通过设置目标决策网络和目标评价网络,可以加快收敛速度,缩短交互训练的时间。再者,通过上述方法,还可以获取不同驾驶员各自历史接管过程中的样本驾驶状态和对应的样本接管动作进行针对性训练,从而得到适合不同驾驶员的接管阈值。
附图说明
40.图1为一个实施例中接管阈值标定方法的应用环境图;
41.图2为一个实施例中接管阈值标定方法的流程示意图;
42.图3为一个实施例中训练在线决策模型的流程示意图;
43.图4为一个实施例中构造状态转移元组的流程示意图;
44.图5为一个实施例中交互训练在线决策模型和在线评价模型的流程示意图;
45.图6为另一实施例中生成当前评价值和目标评价值的流程示意图;
46.图7为另一实施例中一种接管阈值标定方法的流程示意图;
47.图8为一个实施例中一种接管阈值标定装置的结构框图;
48.图9为一个实施例中一种接管阈值标定装置的结构框图;
49.图10为一个实施例中计算机设备的内部结构图。
具体实施方式
50.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
51.本技术实施例提供的接管阈值标定方法,可以应用于如图1所示的应用环境中。其
中,传感器102与服务器104进行通信,使得服务器104可以从传感器102获取与车辆的驾驶状态和驾驶环境相关的各种数据。其中,传感器102可以包括用于探测车辆周围环境的照相机、激光雷达等,还可以包括车内的各种压力传感器、行车记录仪等。其中,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
52.在一个实施例中,如图2所示,提供了一种接管阈值标定方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
53.步骤202,获取车辆的实时驾驶状态。
54.其中,驾驶状态是指驾驶过程中车辆和周围环境所处的状态,本实施例中可以选取车辆的车速、与前方车辆的距离,以及与前方车辆的相对速度这三个参数来表征驾驶状态。
55.具体地,服务器可以从车辆上的各种传感器获取车辆的实时驾驶状态。
56.步骤204,将实时驾驶状态输入至训练完成的在线决策模型,得到实时预测接管动作。
57.其中,训练完成的在线决策模型是基于车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对最新的在线决策模型和在线评价模型进行交互训练后得到的。
58.历史接管过程可以是指车辆在自动驾驶状态下,由驾驶员接管控制车辆以进行刹车的过程,接管动作是指驾驶员针对所处的驾驶环境对车辆进行的控制动作,本实施例中以作用在车辆上的减速度或主缸制动压力来表征接管动作。从时间的维度来看,每一接管动作均可以对应接管动作发生时刻车辆的驾驶状态。“样本驾驶状态”和“样本接管动作”是相对“实时驾驶状态”和“实时接管动作”而言的,“样本驾驶状态”和“样本接管动作”的作用是帮助服务器学习驾驶员的接管动作,使服务器在学习后能够针对不同时刻的驾驶状态确定出驾驶员可能做出的接管动作。
59.在线决策模型和在线评价模型可以是采用深度学习算法构建的机器模型,在线决策模型可以用于根据输入的样本驾驶状态生成并输出决策接管动作,在线评价模型可以用于对决策接管动作和样本驾驶状态的组合进行评价。在训练过程中,可以基于车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对最新的在线决策模型和在线评价模型不断进行交互训练,以得到训练完成的在线决策模型和在线评价模型。其中,交互训练是指在线决策模型和在线评价模型交替进行模型参数的迭代更新,具体训练过程可以参考本实施例后文。此处,对于第n次交互训练而言,“最新的在线决策模型”为已完成n-1次模型参数的迭代更新的在线决策模型,“最新的在线评价模型”同理。
60.具体地,服务器可以将获取到的车辆的实时驾驶状态输入至训练完成的在线决策模型,以得到在线决策模型输出的实时预测接管动作。
61.步骤206,根据实时预测接管动作,标定车辆的实时接管阈值。
62.其中,接管阈值可以是刹车阈值,具体可以以主缸制动压力的阈值来表示。当驾驶员踩下车辆制动踏板时,车辆主缸内产生主缸制动压力,使车轮减速或停止转动。
63.具体地,服务器得到实时预测接管动作后,可以由实时预测接管动作得到一个实时接管阈值,当检测到的驾驶员的接管动作所产生的主缸制动压力,大于该实时接管阈值对应的主缸制动压力的阈值时,则可以让驾驶员成功接管车辆,否则可以判定检测到的驾驶员的接管动作属于误触发,车辆可以继续保持自动驾驶的状态。
64.值得一提的是,车辆自动驾驶过程中的每一时刻,服务器均可以执行步骤202-步骤206的处理,即每一时刻均可以标定得到一个对应的实时接管阈值,用于判断驾驶员的接管动作是否为误触发。
65.上述接管阈值标定方法中,由车辆在历史接管过程中样本驾驶状态和对应的样本接管动作训练得到在线决策模型;将车辆在自动驾驶过程中的实时驾驶状态输入训练完成的在线决策模型,可以得到对应时刻合适的接管动作,依据该合适的接管动作设为对应时刻的接管阈值,既可以很好地减少因接管阈值过小而导致驾驶员频繁接管车辆的情况,也可以降低因接管阈值过大而导致驾驶员无法及时接管的概率。进一步的,在线决策模型是根据驾驶员各自历史接管过程中的行为进行针对性训练的,从而得到适合不同驾驶员的接管阈值。
66.在一个实施例中,如图3所示,在线决策模型和在线评价模型交互训练的过程可以包括:
67.步骤302,获取车辆在历史接管过程中多个时刻的样本驾驶状态和对应的样本接管动作。
68.具体地,车辆在自动驾驶过程中,驾驶员可以根据实际情况进行车辆接管,同时,车辆的传感器可以以时刻为单位对应记录历史接管过程中车辆的驾驶状态和接管动作,并将记录内容的作为样本驾驶状态和样本接管动作进行对应存储。这样,在训练在线决策模型和在线评价模型时,可以从中获取多个时刻的样本驾驶状态和样本接管动作,以作为模型训练素材。
69.步骤304,通过最新的在线决策模型,基于每一时刻的样本驾驶状态和对应的样本接管动作,生成每一时刻的状态转移元组。
70.其中,状态转移元组可以是在线决策模型和在线评价模型训练过程中的最小训练素材单元,通过状态转移元组可以执行在线决策模型和在线评价模型的一次交互训练过程,状态转移元组的具体构成可以参见本实施例后文。
71.具体地,在获取多个时刻的样本驾驶状态和样本接管动作后,可以将其中每一时刻的样本驾驶状态和对应的样本接管动作,均作为在线决策模型的输入,从而可以结合在线决策模型的输出,生成每一时刻的状态转移元组。
72.步骤306,使用多个时刻的状态转移元组,对最新的在线决策模型和在线评价模型进行交互训练,得到训练完成的在线决策模型。
73.在一个实施例中,状态转移元组可以包括当前时刻的样本驾驶状态s(t)、决策接管动作a(t)、奖励值r(t)和当前时刻的下一时刻的预测驾驶状态s(t+1);下面,将结合图4所示,给出状态转移元组的生成过程,具体可以包括:
74.步骤3041,针对每一时刻,将该时刻的样本驾驶状态输入至最新的在线决策模型,得到该时刻的决策接管动作。
75.具体地,在线决策模型可以用于根据不同驾驶状态输出对应的决策接管动作。因此,在生成状态转移元组的过程中,可以将每一时刻的样本驾驶状态s(t)输入至最新的在线决策模型中,从而可以得到每一时刻的决策接管动作a(t)。其中,a(t)=μ(()
μ
),μ()为在线决策模型的决策策略,θ
μ
为在线决策模型的模型参数,在线决策模型的决策策略μ()由θ
μ
决定。对在线决策模型进行训练,即为对θ
μ
进行更新迭代。
76.步骤3042,根据该时刻的决策接管动作和样本驾驶状态对应的样本接管动作确定奖励值。
77.其中,奖励值可以是用于评估决策接管动作和样本接管动作的相差程度而给定的数值,当二者相差程度越低时,说明在线决策模型的决策策略更优,可以设定相应的奖励值越高,反之,当二者相差程度越高时,则可以设定奖励值越低。
78.具体地,在得到每一时刻的决策接管动作后,可以由决策接管动作对应的样本驾驶状态,来确定每个决策接管动作对应的样本接管动作,从而可以根据每一时刻的决策接管动作a(t)和样本接管动作ar(),计算奖励值r(t)。本实施例中可以设定奖励值r(t)=1-(ar()-a(t))2,这样一来,当a(t)等于ar()时,奖励值等于1且达到最大值;当两者相差越大时,奖励值越小。
79.步骤3043,根据该时刻的样本驾驶状态和该时刻的决策接管动作,确定该时刻的下一时刻的预测驾驶状态。
80.具体地,当得到车辆在每一时刻的驾驶状态和接管动作后,通过建立相应的行车模型,即可以通过场景模拟得到下一时刻的预测驾驶状态。
81.以刹车场景为例,采用车速、与前方车辆的相对速度和距离来表征驾驶状态,则可以通过以下表达式构建行车模型:
82.v(t+1)=v(t)+a(t)
×
δt;
83.δv(t+1)=v(t+1)-v(t)+δv(t);
84.δd(t+1)=δd(t)+(δv(t)+δv(t+1))/2
×
t;
85.其中,δt为相邻两个时刻的间隔时长,v(t)为当前时刻的车速,δv(t)为当前时刻车辆与前车的相对速度,δd(t)为当前时刻车辆与前车的距离,用v(t)、δv(t)和δd(t)的组合来表示车辆的当前时刻的驾驶状态s(t),a(t)可以表示在当前时刻的驾驶状态s(t)下的决策接管动作,例如减速度值。基于a(t)和s(t),通过上述行车模型即可以确定车辆下一时刻的预测驾驶状态s(t+1),其中s(t+1)可以由下一时刻的预测速度v(t+1)、下一时刻与前车的相对车速δv(t+1)和下一时刻与前车的距离δd(t+1)来表征。
86.步骤3044,用该时刻的样本驾驶状态、决策接管动作、奖励值和下一时刻的预测驾驶状态,构造该时刻的状态转移元组。
87.具体地,在得到每一时刻的样本驾驶状态、决策接管动作、奖励值和下一时刻的预测驾驶状态后,可以构造每一时刻的状态转移元组(s(t),a(t),r(t),s(t+1))。
88.本实施例中,通过在线决策模型,能够生成每一时刻对应的状态转移元组,为后续在线决策模型和在线评价模型的交互训练做好铺垫。
89.在一个实施例中,如图5所示,利用状态转移元组训练在线决策模型和在线评价模型的过程可以包括:
90.步骤3061,基于最新的在线评价模型和在线决策模型,生成每一时刻的当前评价值和目标评价值。
91.其中,在线评价模型用于对决策接管动作和样本驾驶状态的组合进行评价,该评价结果可以以评价值的形式存在,该评价值可以用来评估在当前驾驶状态下在线决策模型的决策策略所带来的价值。为了判断评价的准确性,可以引入目标评价值和当前评价值两个概念,其中,当前评价值可以是在当前的样本驾驶状态s(t)下,采取决策接管动作a(t)所
能得到的累积奖励值的估计值,可以定义为q(s(t),(t)),当前评价值可以由在线评价模型输出得到;目标评价值可以表示在当前的样本驾驶状态s(t)下,采取决策接管动作a(t)后,加上剩余的折扣回报,从下一时刻的预设驾驶状态s(t+1)开始可以获得的最大累积奖励值,可以定义为y
t
。折扣回报表示在一个时间序列中,从当前时间开始,按照当前的决策策略选择动作,所累积期望的奖励值,设r(t)表示从时间t开始的折扣回报,则有其中,r(t)为在时间t处采取某个动作所获得的奖励值,γ是折扣因子,通常取值在0到1之间,用于衡量未来奖励的重要性,不同时间点的未来奖励权重会随着时间的增加呈指数级衰减。因此,可以设定目标评价值y
t
=r(t)+γq((t+1),a(+1)),其中q((t+1),(t+1))是在预测驾驶状态s(t+1)下,继续采用相同的决策策略生成决策接管动作a(t+1)后,由在线评价模型输出的s(t+1)对应的当前评价值。
92.步骤3062,根据目标评价值和当前评价值,构建第一损失函数和第二损失函数。
93.其中,损失函数是用来指明优化的目标和方向的一个函数,可以将优化目标转换为损失函数的形式,然后使用优化算法最大程度降低损失函数值,从而进行优化。第一损失函数用于最小化目标评价值和当前评价值的均方误差,第二损失函数用于最大化当前评价值的期望值。
94.具体地,对于在线评价模型的训练,目标是在线评价模型能够准确地给出评价值,因此,在训练在线评价模型时,可以尽可能地缩小目标评价值和当前评价值间的差距。本实施例中,可以利用均方误差来定义目标评价值和当前评价值间的差距,即可以通过最小化目标评价值和当前评价值的均方误差来训练在线评价模型,相应的,可以构建用于最小化目标评价值和当前评价值的均方误差的第一损失函数,即l1=(q(s(t),a())-y
t
)2。
95.对于在线决策模型的训练,目标是在线评价模型针对采用的决策策略所给出的评价值最大,因此,在训练在线决策模型时,可以尽可能地增大当前评价值的取值。本实施例中,可以利用期望值来表征当前评价值的取值,即可以通过最大化当前评价值的期望值来训练在线决策模型,相应的,可以构建用于最大化当前评价值的期望值的第二损失函数,即
96.步骤3063,使用多个时刻的状态转移元组,基于第一损失函数和第二损失函数,通过反向传播算法同步更新最新的在线评价模型和在线决策模型的模型参数。
97.其中,反向传播算法可以是神经网络模型中将损失函数传递回模型的每一层,以进行模型参数更新,使得模型基于样本数据的输出所产生的误差逐渐减小的算法。
98.具体地,在得到第一损失函数和第二损失函数后,可以通过反向传播算法,使用多个时刻的状态转移元组,分别对在线评价模型和在线决策模型的模型参数进行更新。
99.对于在线评价模型,具体可以利用梯度下降法求解第一损失函数相对最新的在线评价模型的模型参数的评价梯度,从而可以根据评价梯度更新最新的在线评价模型的模型参数;对于在线决策模型,具体可以利用梯度上升法求解第二损失函数相对最新的在线决策模型的模型参数的决策梯度,从而可以根据决策梯度更新最新的在线决策模型的模型参数。
100.其中,梯度下降法和梯度上升法都是基于梯度的优化方法,前者用于最小化目标
函数,后者用于最大化目标函数。梯度下降法通过迭代更新参数,使得目标函数的取值不断下降;梯度上升法同理,通过不断迭代更新参数,使得目标函数的取值不断上升。
101.步骤3064,当模型参数的更新次数达到预设次数,或者当奖励值大于预设值时,停止更新最新的在线决策模型和在线评价模型的模型参数。
102.具体地,可以设定在线决策模型和在线评价模型的交互训练的终止条件,具体可以是模型参数的更新次数达到预设次数,或者最新的在线决策模型的决策策略能够得到大于预设值的奖励值。这样,当满足上述终止条件时,可以停止更新最新的在线决策模型和在线评价模型的模型参数。值得一提的是,由于在线决策模型和在线评价模型的训练过程是交互训练的,即在线决策模型和在线评价模型的模型参数是同步更新的,那么可以设定终止条件中模型参数的一次更新,是指在线决策模型和在线评价模型各完成一次模型参数的更新。
103.可以看到,由于状态转移元组中包括针对决策接管动作的奖励值r(t),且在线评价模型可以用于对在线决策模型的输入和输出的组合进行评价,基于该奖励值r(t)和评价可以为在线评价模型本身和在线决策模型提供反馈,从而更新在线评价模型,并使在线决策模型基于反馈调整决策策略,以使总奖励值最大化。
104.在一个实施例中,为了减少模型训练过程中因样本数据的噪声而产生的不稳定性,可以在在线决策模型和在线评价模型的基础上,引入目标决策模型和目标评价模型,该目标决策模型和目标评价模型主要可以用于生成当前评价值和目标评价值,因此,步骤3061的处理可以如图6所示,可以包括:
105.步骤30611,基于最新的在线决策模型和在线评价模型的模型参数,分别构建目标决策模型和目标评价模型。
106.具体的,可以复制最新的在线决策模型和在线评价模型的模型参数,来构建目标决策模型和目标评价模型,目标决策模型与在线决策模型的模型参数相互独立,即在线决策模型的模型参数发生更新时,目标决策模型的模型参数不会同步更新。目标评价模型和在线评价模型的模型参数同理。
107.步骤30612,当对最新的在线决策模型和在线评价模型的模型参数更新时,根据更新程度和预设更新系数对目标决策模型和目标评价模型的模型参数进行更新。
108.具体地,目标决策模型和目标评价模型的模型参数可以采用软更新的方式,即当最新的在线决策模型和在线评价模型的模型参数更新时,可以按照预设更新系数将本次模型参数的更新程度同步至目标决策模型和目标评价模型中。可以设定目标评价模型的模型参数θq′
、目标决策模型的模型参数θ
μ

、在线评价模型的模型参数θq、在线决策模型的模型参数θ
μ
和预设更新系数τ,则可以存在:θq′
=θq+(1-)θq′
和θ
μ

=θ
μ
+(1-)θ
μ

,,其中τ≈1e-3。
109.步骤30613,通过更新的目标决策模型和目标评价模型,生成每一时刻的当前评价值和目标评价值。
110.具体地,可以利用目标决策模型和目标评价模型来生成每一时刻的当前评价值和目标评价值。对于样本驾驶状态s(t),可以由目标决策模型得到决策接管动作a

(),之后可以将样本驾驶状态s(t)和决策接管动作a

()输入目标评价模型,从而可以得到当前评价值q’(s(t),(t)),并可以进一步得到目标评价值y

t
=r(t)+γq
‘’
((t+1),

(t+1))。这样,后续在执行步骤3062时,可以采用q’(s(t),(t))和y

t
来构建第一损失函数和第二损失
函数。
111.本实施例中,通过引入目标决策模型和目标评价模型,可以减少在线评价模型的模型参数的缺陷对在线决策模型的影响,使得训练得到的评价值更加稳定,同时可以提高在线决策模型和在线评价模型的训练效率,减少训练时间,从而可以解决算法中产生的不稳定性问题。
112.在一个实施例中,可以设立经验池以存储状态转移元组,相应的处理可以包括:
113.a)在从各时刻的样本驾驶状态和对应的样本接管动作中提取对应的状态转移元组之后,将对应的状态转移元组存储至经验池。
114.b)从经验池中抽取一个或多个不同时刻的状态转移元组。
115.c)使用一个或多个不同时刻的状态转移元组对在线决策模型和在线评价模型进行交互训练。
116.本实施例中,通过设置经验池,将提取的各时刻对应的状态转移元组存入经验池中,并从经验池中抽取一个或多个不同时刻的状态转移元组用于训练,可以提高训练后的模型参数的准确性,达到更好的训练效果。
117.在另一实施例中,如图7所示,提供了一种接管阈值标定方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
118.步骤702,获取车辆在历史接管过程中多个时刻的样本驾驶状态和对应的样本接管动作。
119.步骤704,通过最新的在线决策模型,基于每一时刻的样本驾驶状态和对应的样本接管动作,生成每一时刻的状态转移元组。
120.可选的,针对每一时刻,将该时刻的样本驾驶状态输入至最新的在线决策模型,得到该时刻的决策接管动作;根据该时刻的决策接管动作和样本驾驶状态对应的样本接管动作确定奖励值;根据该时刻的样本驾驶状态和该时刻的决策接管动作,确定该时刻的下一时刻的预测驾驶状态;用该时刻的样本驾驶状态、决策接管动作、奖励值和下一时刻的预测驾驶状态,构造该时刻的状态转移元组。
121.步骤706,基于最新的在线评价模型和在线决策模型,生成每一时刻的当前评价值和目标评价值。
122.步骤708,根据目标评价值和当前评价值,构建第一损失函数和第二损失函数。
123.步骤710,使用多个时刻的状态转移元组,基于第一损失函数和第二损失函数,通过反向传播算法同步更新最新的在线评价模型和在线决策模型的模型参数。
124.可选的,利用梯度下降法求解第一损失函数相对最新的在线评价模型的模型参数的评价梯度,根据评价梯度更新最新的在线评价模型的模型参数;利用梯度上升法求解第二损失函数相对最新的在线决策模型的模型参数的决策梯度,根据决策梯度更新最新的在线决策模型的模型参数。
125.步骤712,当模型参数的更新次数达到预设次数,或者当奖励值大于预设值时,停止更新最新的在线决策模型和在线评价模型的模型参数。
126.步骤714,获取车辆的实时驾驶状态。
127.步骤716,将实时驾驶状态输入至训练完成的在线决策模型,得到实时预测接管动作。
128.步骤718,根据实时预测接管动作,标定车辆的实时接管阈值。
129.本实施例中,通过获取历史接管过程中的样本驾驶状态和对应的样本接管动作,对在线决策模型和在线评价模型进行训练,可以获得训练好的在线决策模型;通过将实时车辆状态输入训练好的在线决策模型,可以得到对应时刻的合适的接管动作,将该合适的接管动作设为对应时刻的接管阈值,可以很好地避免因接管阈值过小而导致的误触发,并避免因接管阈值过大而导致的车辆追尾现象。同时,通过设置经验池,将获取多个时刻对应的状态转移元组存入经验池中,并从经验池中抽取一个或多个不同时刻的状态转移元组用于训练,可以提高训练后的模型参数的准确性,达到更好的训练效果。此外,通过设置目标决策网络和目标评价网络,可以加快收敛速度,缩短交互训练的时间。再者,通过上述方法,还可以获取不同驾驶员各自历史接管过程中的样本驾驶状态和对应的样本接管动作进行针对性训练,从而得到适合不同驾驶员的接管阈值。
130.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
131.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的接管阈值标定方法的接管阈值标定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个接管阈值标定装置实施例中的具体限定可以参见上文中对于接管阈值标定方法的限定,在此不再赘述。
132.在一个实施例中,如图8所示,提供了一种接管阈值标定装置1,包括:状态获取模块802、决策生成模块804和阈值标定模块806,其中:
133.状态获取模块802,用于获取车辆的实时驾驶状态;
134.决策生成模块804,用于将所述实时驾驶状态输入至训练完成的在线决策模型,得到实时预测接管动作,其中,训练完成的在线决策模型是基于所述车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对已有的在线决策模型和在线评价模型进行交互训练后得到的;
135.阈值标定模块806,用于根据所述实时预测接管动作标定所述车辆的实时接管阈值。
136.在一个实施例中,如图9所示,所述接管阈值标定装置1还包括模型训练模块808;可选的,模型训练模块808包括:
137.样本获取单元8081,用于获取所述车辆在历史接管过程中多个时刻的样本驾驶状态和对应的样本接管动作;
138.元组生成单元8082,用于通过最新的在线决策模型,基于每一时刻的样本驾驶状态和对应的样本接管动作,生成每一时刻的状态转移元组;
139.模型训练单元8083,用于使用多个时刻的状态转移元组,对最新的在线决策模型和在线评价模型进行交互训练,得到训练完成的在线决策模型。
140.在一个实施例中,所述元组生成单元8082,具体用于:
141.针对每一时刻,将该时刻的样本驾驶状态输入至最新的在线决策模型,得到该时刻的决策接管动作;
142.根据该时刻的决策接管动作和所述样本驾驶状态对应的样本接管动作确定奖励值;
143.根据该时刻的样本驾驶状态和该时刻的决策接管动作,确定该时刻的下一时刻的预测驾驶状态;
144.用该时刻的样本驾驶状态、决策接管动作、奖励值和下一时刻的预测驾驶状态,构造该时刻的状态转移元组。
145.在一个实施例中,所述模型训练单元8083,具体用于:
146.基于最新的在线评价模型和在线决策模型,生成每一时刻的当前评价值和目标评价值;
147.根据所述目标评价值和当前评价值,构建第一损失函数和第二损失函数;所述第一损失函数用于最小化所述目标评价值和所述当前评价值的均方误差,所述第二损失函数用于最大化所述当前评价值的期望值;
148.使用多个时刻的状态转移元组,基于所述第一损失函数和所述第二损失函数,通过反向传播算法同步更新最新的在线评价模型和在线决策模型的模型参数;
149.当模型参数的更新次数达到预设次数,或者当所述奖励值大于预设值时,停止更新最新的在线决策模型和在线评价模型的模型参数。
150.在一个实施例中,所述模型训练单元8083,具体用于:
151.利用梯度下降法求解所述第一损失函数相对最新的在线评价模型的模型参数的评价梯度,根据所述评价梯度更新最新的在线评价模型的模型参数;
152.利用梯度上升法求解所述第二损失函数相对最新的在线决策模型的模型参数的决策梯度,根据所述决策梯度更新最新的在线决策模型的模型参数。
153.在一个实施例中,所述模型训练单元8083,具体用于:
154.基于最新的在线决策模型和在线评价模型的模型参数,分别构建目标决策模型和目标评价模型;
155.当对最新的在线决策模型和在线评价模型的模型参数更新时,根据更新程度和预设更新系数对所述目标决策模型和目标评价模型的模型参数进行更新;
156.通过更新的目标决策模型和目标评价模型,生成每一时刻的当前评价值和目标评价值。
157.在一个实施例中,驾驶状态包括车速、与前方车辆的距离,以及与前方车辆的相对速度;
158.接管动作包括作用在车辆上的减速度或主缸制动压力。
159.上述接管阈值标定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
160.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,
简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储状态转移元组数据、实时车辆驾驶数据、中间数据等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种接管阈值标定方法。
161.本领域技术人员可以理解,图10中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
162.在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
163.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
164.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
165.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
166.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
167.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。

技术特征:
1.一种接管阈值标定方法,其特征在于,所述方法包括:获取车辆的实时驾驶状态;将所述实时驾驶状态输入至训练完成的在线决策模型,得到实时预测接管动作;其中,训练完成的在线决策模型是基于所述车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对最新的在线决策模型和在线评价模型进行交互训练后得到的;根据所述实时预测接管动作,标定所述车辆的实时接管阈值。2.根据权利要求1所述的方法,其特征在于,所述基于所述车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对最新的在线决策模型和在线评价模型进行交互训练,包括:获取所述车辆在历史接管过程中多个时刻的样本驾驶状态和对应的样本接管动作;通过最新的在线决策模型,基于每一时刻的样本驾驶状态和对应的样本接管动作,生成每一时刻的状态转移元组;使用多个时刻的状态转移元组,对最新的在线决策模型和在线评价模型进行交互训练,得到训练完成的在线决策模型。3.根据权利要求2所述的方法,其特征在于,所述通过最新的在线决策模型,基于每一时刻的样本驾驶状态和对应的样本接管动作,生成每一时刻的状态转移元组,包括:针对每一时刻,将该时刻的样本驾驶状态输入至最新的在线决策模型,得到该时刻的决策接管动作;根据该时刻的决策接管动作和所述样本驾驶状态对应的样本接管动作确定奖励值;根据该时刻的样本驾驶状态和该时刻的决策接管动作,确定该时刻的下一时刻的预测驾驶状态;用该时刻的样本驾驶状态、决策接管动作、奖励值和下一时刻的预测驾驶状态,构造该时刻的状态转移元组。4.根据权利要求3所述的方法,其特征在于,所述使用多个时刻的状态转移元组,对最新的在线决策模型和在线评价模型进行交互训练,包括:基于最新的在线评价模型和在线决策模型,生成每一时刻的当前评价值和目标评价值;根据所述目标评价值和当前评价值,构建第一损失函数和第二损失函数;所述第一损失函数用于最小化所述目标评价值和所述当前评价值的均方误差,所述第二损失函数用于最大化所述当前评价值的期望值;使用多个时刻的状态转移元组,基于所述第一损失函数和所述第二损失函数,通过反向传播算法同步更新最新的在线评价模型和在线决策模型的模型参数;当模型参数的更新次数达到预设次数,或者当所述奖励值大于预设值时,停止更新最新的在线决策模型和在线评价模型的模型参数。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一损失函数和所述第二损失函数,通过反向传播算法同步更新最新的在线评价模型和在线决策模型的模型参数,包括:利用梯度下降法求解所述第一损失函数相对最新的在线评价模型的模型参数的评价梯度,根据所述评价梯度更新最新的在线评价模型的模型参数;
利用梯度上升法求解所述第二损失函数相对最新的在线决策模型的模型参数的决策梯度,根据所述决策梯度更新最新的在线决策模型的模型参数。6.根据权利要求4所述的方法,其特征在于,所述基于最新的在线评价模型和在线决策模型,生成每一时刻的当前评价值和目标评价值,包括:基于最新的在线决策模型和在线评价模型的模型参数,分别构建目标决策模型和目标评价模型;当对最新的在线决策模型和在线评价模型的模型参数更新时,根据更新程度和预设更新系数对所述目标决策模型和目标评价模型的模型参数进行更新;通过更新的目标决策模型和目标评价模型,生成每一时刻的当前评价值和目标评价值。7.根据权利要求1-6中任一项所述的方法,其特征在于,驾驶状态包括车速、与前方车辆的距离,以及与前方车辆的相对速度;接管动作包括作用在车辆上的减速度或主缸制动压力。8.一种接管阈值标定装置,其特征在于,所述装置包括:状态获取模块,用于获取车辆的实时驾驶状态;决策生成模块,用于将所述实时驾驶状态输入至训练完成的在线决策模型,得到实时预测接管动作,其中,训练完成的在线决策模型是基于所述车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对已有的在线决策模型和在线评价模型进行交互训练后得到的;阈值标定模块,用于根据所述实时预测接管动作标定所述车辆的实时接管阈值。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本申请涉及一种接管阈值标定方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括:获取车辆的实时驾驶状态;将所述实时驾驶状态输入至训练完成的在线决策模型,得到实时预测接管动作;其中,训练完成的在线决策模型是基于所述车辆在历史接管过程中的样本驾驶状态和对应的样本接管动作,对最新的在线决策模型和在线评价模型进行交互训练后得到的;根据所述实时预测接管动作,标定所述车辆的实时接管阈值。通过该方法,可以降低车辆自动驾驶状态下,因接管阈值标定不当导致的误触发和追尾事件的发生概率。发和追尾事件的发生概率。发和追尾事件的发生概率。


技术研发人员:周光俊 侯发伟 王东科 张振林
受保护的技术使用者:中汽创智科技有限公司
技术研发日:2023.06.29
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐