车辆的行为决策方法、装置、终端设备及存储介质与流程

未命名 07-12 阅读：132 评论：0

1.本技术属于自动驾驶技术领域，尤其涉及一种车辆的行为决策方法、装置、终端设备及存储介质。

背景技术：

2.随着汽车电子化和高级辅助驾驶技术的快速发展，自动驾驶技术作为辅助驾驶的高级阶段，已经成为了未来解决交通出行的重要方式。
3.目前在交通参与者相对单一的场景下，例如换道场景或者汇入场景，自动驾驶技术的应用已经相对成熟，而对于城市道路中交通状况复杂的场景，例如交叉口，由于交通参与者较多且道路结构复杂，自动驾驶车辆无法完成安全且高效的自身行为的决策规划。

技术实现要素：

4.本技术实施例提供了车辆的行为决策方法、装置、终端设备及存储介质，可以解决自动驾驶车辆在复杂的场景下，无法完成安全且高效的自身的行为决策规划问题。
5.本技术实施例的第一方面提供了一种车辆的行为决策方法，所述车辆的行为决策方法包括：
6.获取当前时刻第一车辆和第二车辆的行驶状态信息，所述第一车辆和所述第二车辆处于同一交通场景；
7.根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定所述第一车辆的行为决策信息；
8.根据所述行为决策信息确定与当前时刻对应的执行行为，并驱使所述第一车辆于当前时刻执行所述对应的执行行为。
9.本技术实施例的第二方面提供了一种车辆的行为决策装置，所述车辆的行为决策装置包括：
10.信息获取模块，用于获取当前时刻第一车辆和第二车辆的行驶状态信息，所述第一车辆和所述第二车辆处于同一交通场景；
11.决策确定模块，用于根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定第一车辆的行为决策信息；
12.行为确定模块，用于根据所述行为决策信息确定与当前时刻对应的执行行为，并驱使所述第一车辆于当前时刻执行所述对应的执行行为。
13.本技术实施例的第三方面提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的车辆的行为决策方法。
14.本技术实施例的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的车辆的行为决策方法。
15.本技术实施例的第五方面提供了一种计算机程序产品，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述第一方面所述的车辆的行为决策方法。
16.本技术实施例与现有技术相比存在的有益效果是：本技术实施例首先获取了当前时刻第一车辆和第二车辆的行驶状态信息，且第一车辆和第二车辆处于同一交通场景中，例如交叉口；其次根据博弈模型，以及第一车辆和第二车辆的行驶状态信息，确定第一车辆的行为决策信息，其中行为决策信息中包括每一时间点对应的执行行为；最后根据行为决策信息确定与当前时刻对应的执行行为，驱使第一车辆于当前时刻执行对应的执行行为，由于第一车辆的行为决策信息是根据博弈模型得出的博弈结果，可保证该行为决策信息具有安全以及高效的行驶优点，因此根据该行为决策信息决策出的当前时刻的执行行为可以提高车辆行为决策的精度，以完成安全且高效的行为决策规划。
附图说明
17.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1是本技术实施例中交通场景的场景示意图；
19.图2是本技术实施例一提供的一种车辆的行为决策方法的流程示意图；
20.图3是本技术实施例二提供的一种车辆的行为决策方法的流程示意图；
21.图4是本技术实施例三提供的一种车辆的行为决策方法的流程示意图；
22.图5是本技术实施例四提供的一种车辆的行为决策方法的流程示意图；
23.图6是本技术实施例五提供的一种车辆的行为决策方法的流程示意图；
24.图7是加入博弈模型前后的第一车辆的行程曲线对比图；
25.图8是本技术实施例六提供的一种车辆的行为决策装置的结构示意图；
26.图9是本技术实施例七提供的一种终端设备的结构示意图。
具体实施方式
27.以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本技术实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本技术。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本技术的描述。
28.应当理解，当在本技术说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
29.还应当理解，在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
30.如在本技术说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响
应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0031]
另外，在本技术说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
[0032]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。
[0033]
车辆的行为决策规划一直是自动驾驶领域十分关键的部分，目前针对交通参与者相对单一的场景，自动驾驶过程中的车辆行为决策规划已相对成熟，而针对交通参与者较多且交通场景较为复杂的场景，由于自动驾驶车辆不具备相应的社会属性，无法根据其他交通参与者的眼神或动作等信号来推断对方的行为，因此自动驾驶车辆在交通参与者较多且交通场景较为复杂的情况下，会一味的选择减速或停车让行的行为决策，导致自动驾驶车辆在交通场景复杂的情况下无法高效的完成自身的行为决策规划。
[0034]
为了使自动驾驶车辆在交通复杂的场景下也能够高效的完成自身的行为鞠策规划，本技术提供了一种车辆的行为决策方法，首先获取了当前时刻第一车辆和第二车辆的行驶状态信息，第一车辆为自动驾驶车辆且第一车辆和第二车辆处于同一交通场景中，例如交叉口；其次根据博弈模型，以及第一车辆和第二车辆的行驶状态信息，确定第一车辆的行为决策信息，其中行为决策信息中包括每一时间点对应的执行行为；最后根据行为决策信息确定与当前时刻对应的执行行为，驱使第一车辆于当前时刻执行对应的执行行为，由于第一车辆的行为决策信息是根据博弈模型得出的博弈结果，可保证该行为决策信息具有安全以及高效的行驶优点，因此根据该行为决策信息决策出的当前时刻的执行行为可以提高车辆行为决策的精度，以完成安全且高效的行为决策规划。
[0035]
应理解，本实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本技术实施例的实施过程构成任何限定。
[0036]
为了说明本技术的技术方案，下面通过具体实施例来说明。
[0037]
参照图1，示出了本技术实施例中交通场景的场景示意图。如图1所示，在该交通场景中，第一车辆可以是指车辆a，第二车辆可以是指车辆b，其中车辆a为自主驾驶车辆，车辆b为自主驾驶车辆或者由人驾驶的车辆。
[0038]
在如图1所示的交通场景中，为了使车辆a可以完成安全且高效的行为决策规划，可以首先获取当前时刻车辆a和车辆b的行驶状态信息，其中当前时刻可以是指车辆a在该交通场景下行驶的任一当前时间点，例如车辆a行驶至一米时的当前时间点、车辆a行驶至两米时的当前时间点，其次可以根据博弈模型，以及车辆a和车辆b在当前时刻的行驶状态信息，以使车辆a和车辆b相互博弈，依据对方车辆的行驶状态信息，确定自身车辆的行为决策信息，即可以确定车辆a的行为决策信息，由于行为决策信息包括车辆从当前时刻开始，到未来一定时间段内每一时刻的执行行为，因此可以根据车辆a的行为决策信息确定车辆a在当前时刻对应的执行行为，以此驱使第一车辆于当前时刻执行对应的执行行为。
[0039]
在一种可能的实施方式中，还可以根据如图1所示的红绿灯的指示，在绿灯亮起的
时候，获取绿灯亮起时刻车辆a和车辆b的行驶状态信息，根据行驶状态信息和博弈模型进行博弈，确定车辆a的行为决策信息，并根据车辆a的行为决策信息确定车辆a在绿灯亮起时刻对应的执行行为，以驱使车辆a在绿灯亮起时刻执行对应的执行行为。
[0040]
在本技术实施例中，第一车辆与第二车辆可以通过博弈模型进行博弈，确定出第一车辆的行为决策信息，并可以确定出在该交通场景下从当前时刻开始到未来一定时间长度内每一时间点对应的执行行为，以驱使第一车辆可以根据每一时间点对应的执行行为行驶，通过上述方案可以使第一车辆完成安全且高效的行为决策规划。
[0041]
参见图2，示出了本技术实施例一提供的一种车辆的行为决策方法的流程示意图。如图2所示，该车辆的行为决策方法可以包括如下步骤：
[0042]
步骤201，获取当前时刻第一车辆和第二车辆的行驶状态信息。
[0043]
其中，第一车辆可以是指自动驾驶车辆，第二车辆可以是指自动驾驶车辆在所处的交通场景中检测到的车辆，可以是自动驾驶车辆或者人驾驶的车辆，本技术不作限定。
[0044]
在本技术实施例中，行驶状态信息包括第一车辆和第二车辆的位置信息、速度信息以及角度信息，第一车辆和第二车辆的位置信息可以是通过全球定位系统、实时动态定位、摄像头以及激光雷达等方式来完成。第一车辆和第二车辆的速度信息可以通过安装在第一车辆上的测速雷达或者传感器测得，该速度信息可以包括第一车辆和第二车辆的实时速度信息和加速度信息。第一车辆和第二车辆的角度信息可以通过全球定位系统或者实时动态定位获取，即获取第一车辆和第二车辆的航向角，其中，车辆的航向角通常指地面坐标系下，车辆质心速度与横轴的夹角，需要注意的是，本技术中在获取第一车辆和第二车辆的航向角时，第一车辆和第二车辆应位于同一地面坐标系中。
[0045]
在一个可能的实施例中，第一车辆可以是在识别到自身处于预设场景时，再获取第一车辆和第二车辆的行驶状态信息，该预设场景可以交叉路口对面绿灯亮起场景。在该预设场景下，第二车辆可以是指位于对面车道上的车辆，例如图1中的车辆b，其中第一车辆为车辆a。在车辆a对面的绿灯亮起时，此时车辆a可以左转，车辆b可以直行，则此时就存在碰撞风险，而车辆a可以通过加速、减速或者停车来消除与车辆b的碰撞风险，因此需要规划车辆a的行为决策。在现有技术中，车辆a通常选择减速让行的行为策略，导致自身的驾驶通过效率变低，本技术为了提高自动驾驶车辆在道路结构复杂的场景下的驾驶通过效率，可以在车辆a对面的绿灯亮起时(可以是获取通行指令时)，获取车辆a和车辆b的行驶状态信息，根据双方的行驶状态信息，确定车辆a的行为决策，避免了一味的让行导致的驾驶通过效率低的情况。
[0046]
步骤202，根据博弈模型，以及第一车辆和第二车辆的行驶状态信息，确定第一车辆的行为决策信息。
[0047]
在本技术实施例中，为了避免自动驾驶车辆在道路结构复杂的场景下与其他车辆交互时，一味的选择让行导致驾驶通过效率低的情况出现，本技术选择根据博弈模型，对第一车辆和第二车辆的行驶状态信息进行处理，确定出第一车辆的行为决策信息。
[0048]
在一种可能的实施方式中，根据博弈模型，以及第一车辆和第二车辆的行驶状态信息，确定第一车辆的行为决策信息可以包括：
[0049]
将行驶状态信息输入至博弈模型中，由博弈模型根据行驶状态信息以及支付函数计算第一车辆的n种行为决策信息分别对应的效用值，n为大于零的整数；
[0050]
将最高效用值对应的行为决策信息确定为第一车辆的行为决策信息。
[0051]
其中，支付函数用于表示博弈参与者从博弈中获得的效用水平，参与者是指在博弈中选择行动以最大化自身效用的决策主体，在本技术中可以是指第一车辆和第二车辆，效用值可以是指参与者在选择行动后得到的效用。
[0052]
在本技术实施例中，该支付函数可以使用损失函数或者奖励函数等。若使用损失函数，其对应的效用值为损失值，损失值用于表示在博弈中第一车辆的损失，博弈模型在根据行驶状态信息以及损失函数计算出第一车辆的n种行为决策信息后，最高效用值即对应最低损失值，即可以将最低损失值对应的行为决策信息确定为第一车辆的行为决策信息；若使用奖励函数，其对应的效用值为奖励值，奖励值用于表示在博弈中第一车辆的奖励，第一车辆的奖励可以对应于第一车辆在与第二车辆交互时的驾驶通过率，在将行驶状态信息输入至博弈模型后，由博弈模型根据行驶状态信息以及奖励函数计算第一车辆的n种行为决策信息分别对应的奖励值，对应可以将最高奖励值对应的行为决策信息确定为第一车辆的行为决策信息。
[0053]
在一种可能的实施方式中，在支付函数为第一奖励函数的情况下，效用值对应为由第一奖励函数计算得出的第一奖励值，由博弈模型根据行驶状态信息以及支付函数计算第一车辆的n种行为决策信息分别对应的效用值，包括：
[0054]
由博弈模型根据行驶状态信息以及第一奖励函数计算第一车辆在当前时刻的m种执行行为分别对应的第一分奖励值，m为大于1的整数；
[0055]
获取第一车辆在分别执行m种执行行为后在下一时间点的m种行驶状态信息以及第二车辆在下一时间点的行驶状态信息；
[0056]
迭代计算第一车辆和第二车辆从当前时刻至h时刻所有执行行为的组合，生成m的h次方条不同的轨迹，并由博弈模型根据所述第一分奖励值计算每条轨迹对应的第一奖励值，n等于m的h次方。
[0057]
在本技术实施例中，行为决策信息包括第一车辆在所有时间点的执行行为，且n等于m的h次方，h为预设时间段内所有时间点数量。
[0058]
其中，所有时间点可以是指第一车辆在一交通场景下行驶过程中的所有时间点，例如，可以设置每间隔1秒为一个时间点，假设交通场景为交叉口，第一车辆通过该交叉口的时间段为预设时间段，例如，可以设置预设时间段为40秒，那么所有时间点的数量即为40个。
[0059]
示例性地，假设第一车辆通过一交叉路口最多需要40秒，在该时间段内共有40个时间点可以进行博弈，即每1秒进行一次博弈，每1秒第一车辆的执行行为均包括加速、减速以及停止三种。因此可以首先获取第1秒时(即车辆启动时)第一车辆和第二车辆的位置信息、速度信息以及角度信息，将第一车辆和第二车辆的位置信息、速度信息以及角度信息输入至博弈模型中，计算出在第1秒时执行加速、减速以及停止分别对应的第一分奖励值，计算对应的第一分奖励值具体可以通过如下第一奖励函数：
[0060]
针对第一车辆i的第一奖励函数r定义为：
[0061]
[0062]
r(τ丨t)＝w1*danger+w2*comfort+w3*efficiency
[0063]
danger＝e-collision_risk
[0064][0065]
efficiency＝e-distance
[0066]
其中，danger为碰撞风险项，是根据第一车辆和第二车辆的参考路径中每个时间点对应的路径点判断是否发生碰撞得出的，comfort为舒适项，用于评估当前的策略是否舒适。efficiency为效率值，是根据速度信息中的实时速度信息和匀速运动模型计算得出的第一车辆到达目标位置的效率(即上述的驾驶通过率)。collision_risk为碰撞风险计算值，由第一车辆和第二车辆的轨迹点之间欧式距离计算得来。jerk指加速度的变化率，acc指加速度。w1、w2和w3分别对应为碰撞值权重、距离值权重和效率值权重，τ＝0表示为当前时刻，即第1秒，τ＝1表示为当前时刻的下一时间点，h表示所有时间点的数量。
[0067][0068]
其中，r’i
为针对第一车辆i的第二奖励函数，对应自适应level_k博弈模型。其中k为level层级数，k为定义的总层数，代表第k个层级的权重。其余参数解释与上述ri相同，本技术实施例在此不再赘述。
[0069]
在得出3个r
τ＝0
，即3个第一分奖励值之后，可以获取第一车辆在分别执行加速、减速以及停车后在第2秒对应的三种行驶状态信息，以及第二车辆在第2秒的行驶状态信息(此处第二车辆在第2秒的行驶状态信息可以按照第二车辆在第1秒实时速度信息以及匀速运动模型得出，即预测值)，将第一车辆在第2秒对应的三种行驶状态信息和第二车辆在第2秒的行驶状态信息，计算第一车辆在第3秒时分别执行加速、减速以及停车后对应的9种行驶状态信息并获取第二车辆在第3秒的行驶状态信息，循环执行上述步骤，直到到达h时刻。按照每个时间点3个执行行为的假设，共有(c
13
)n种组合方式，即3
40
种组合方法(即3
40
种行为决策信息)。每种组合方法对应于第一车辆的一条速度曲线，用博弈的方式根据事先设定好的第一奖励函数计算每种组合方法的第一奖励值，将最高第一奖励值对应的行为决策信息确定为第一车辆的行为决策信息，其中，行为决策信息包括了每一时间点对应的执行行为(即加速、减速或停车)。
[0070]
应理解，第一车辆i在t时刻的第一奖励函数考虑了t时刻之后预设时间段内的每一时间点的奖励值，可以使得出的t时刻的行为决策更加合理。
[0071]
还应理解，本技术实施例中的第一奖励函数对应为level-k博弈模型的奖励函数。
[0072]
步骤203，根据行为决策信息确定与当前时刻对应的执行行为，并驱使第一车辆于当前时刻执行对应的执行行为。
[0073]
在本技术实施例中，由于确定出的第一车辆的行为决策信息为对应效用值最高的行为决策信息，因此可以确定该行为决策信息为最优的行为决策信息，可以使第一车辆到达目标位置的效率更高，且由于行为决策信息中包括所有时间点的对应的执行行为，因此可以根据行为决策信息反推确定与当前时刻对应的执行行为，并驱使第一车辆于当前时刻
执行对应的执行行为。
[0074]
在本技术实施例中，由于第一车辆的行为决策信息是根据博弈模型得出的博弈结果，可保证该行为决策信息具有安全以及高效的行驶优点，因此根据该行为决策信息决策出的当前时刻的执行行为可以提高车辆行为决策的精度，以完成安全且高效的行为决策规划。
[0075]
参见图3，示出了本技术实施例二提供的一种车辆的行为决策方法的流程示意图。如图3所示，该车辆的行为决策方法可以包括如下步骤：
[0076]
步骤301，获取当前时刻第一车辆和第二车辆的行驶状态信息。
[0077]
本实施例步骤301与前述实施例步骤201相同，可以相互参阅，本实施例在此不再赘述。
[0078]
步骤302，根据当前时刻第二车辆在各预测推理等级分别对应的执行行为和第二车辆的实际执行行为，确定当前时刻第二车辆的实际推理等级。
[0079]
在本技术实施例中，由于第二车辆可以是自动驾驶车辆或者人驾驶的车辆，若第二车辆为自动驾驶车辆，那么针对相同的行驶状态信息，在每个推理等级，会有不同的行为决策，推理等级用于指示车辆的理性行驶水平，例如在自动驾驶车辆为零级时，行驶过程中自动驾驶车辆不会去推理其他车辆的行为，会主观的认为自己拥有路权，视其他车辆为静态障碍物。
[0080]
在本技术实施例中，由于第一车辆无法直接确定第二车辆的推理等级，因此可以根据第二车辆在在各预测推理等级分别对应的执行行为和第二车辆的实际执行行为，确定当前时刻第二车辆的实际推理等级。
[0081]
在一种可能的实施方式中，根据第二车辆在各预测推理等级分别对应的执行行为和第二车辆的实际执行行为，确定第二车辆的实际推理等级，包括：
[0082]
获取当前时刻第二车辆在各预测推理等级分别对应的执行行为；
[0083]
将各执行行为与当前时刻第二车辆的实际执行行为进行一一对比；
[0084]
确定与第二车辆的实际执行行为相同的执行行为对应的预测推理等级为第二车辆在当前时刻的实际推理等级。
[0085]
在本技术实施例中，获取当前时刻第二车辆在各预测推理等级分别对应的执行行为，可以依据预测推理等级的不同对应不同的获取方法，具体可以包括以下过程：在预测推理等级为零推理等级时，根据预测推理等级为零时对应的车辆行驶规则，确定第二车辆在预测推理等级为零对应的执行行为，预测推理等级为零时对应的车辆行驶规则为行驶过程中自动驾驶车辆不会去推理其他车辆的行为，会主观的认为自己拥有路权，视其他车辆为静态障碍物；在预测推理等级为非零推理等级时，基于博弈模型，根据第一车辆的第一预设推理等级、第二车辆的各预测推理等级以及当前时刻的行驶状态信息，可以分别计算出第二车辆在各预测推理等级对应的执行行为。
[0086]
示例性地，在第二车辆的预测推理等级为零时，可以获取第一车辆在推理等级为一时对应的第一执行行为，然后将第一执行行为和行驶状态信息输入至博弈模型中，通过最大化博弈模型的效用值，可以得出第二车辆在预测推理等级为二时对应的第二执行行为。
[0087]
应理解，依据上述方法，可以得出第二车辆在预测推理等级为非零推理等级时对
应的执行行为，而在预测推理等级为零推理等级时，可依据对应的车辆行驶规则获取对应的执行行为，因此可以得到第二车辆在各预测推理等级分别对应的执行行为。
[0088]
在本技术实施例中，得到第二车辆在各预测推理等级分别对应的执行行为之后，可以将各预测推理等级分别对应的执行行为与当前时刻第二车辆的实际执行行为进行一一对比，第二车辆的实际执行行为可以根据每个时间点的实时速度信息确定得到，若速度增加，则确定第二车辆的实际执行行为为加速，对比之后可以确定与第二车辆的实际执行行为相同的执行行为对应的预测推理等级为第二车辆在当前时刻的实际推理等级。
[0089]
根据上述方法，可以确定出第二车辆的实际推理等级。
[0090]
在一种可能的实施方式中，行为决策方法还包括：
[0091]
根据确定的第二车辆在上一时刻的实际推理等级，更新各预测推理等级的概率；
[0092]
相对应地，获取当前时刻第二车辆在各预测推理等级分别对应的执行行为，包括：
[0093]
根据各预测推理等级的概率，获取当前时刻所述第二车辆在各预测推理等级分别对应的执行行为。
[0094]
具体地，可以根据上一时刻确定出的第二车辆的实际推理等级，更新当前时刻各预测推理等级的概率，其次根据各预测推理等级的概率，依次获取当前时刻第二车辆在各预测推理等级分别对应的执行行为，若根据概率值最高的预测推理等级确定出的对应的执行行为与第二车辆的实际执行行为相同，则不再获取其他预测推理等级对应的执行行为，可以减少计算量，加快系统运行速度。
[0095]
步骤303，根据当前时刻第二车辆的实际推理等级、第一车辆的第一预设推理等级、博弈模型、以及第一车辆和第二车辆在当前时刻的行驶状态信息，确定第一车辆在当前时刻的行为决策信息。
[0096]
在本技术实施例中，可以根据第一车辆和第二车辆的行驶状态信息以及对方在当前推理等级时的动作，最大化自身的奖励函数，可以计算得到自身的执行行为，因此可以根据每一时间点第一车辆在第一预设推理等级时对应的执行行为确定第一车辆的行为决策信息。
[0097]
其中，计算任一时间点的第一车辆在第一预审推理等级时对应的执行行为的过程可以包括：将行驶状态信息和第一车辆在实际推理等级为零时对应的第一执行行为输入至博弈模型中，通过最大化博弈模型的效用值，得出第二车辆在实际推理等级为一时对应的第二执行行为；将第二执行行为和行驶状态信息输入至博弈模型中，通过最大化博弈模型的效用值，得出第一车辆在实际推理等级为二时对应的第三执行行为；将第三执行行为作为第一执行行为，循环执行将行驶状态信息和第一执行行为输入至博弈模型中以及之后的步骤，每次得出的执行行为对应的实际推理等级依次增加，直到得到第一车辆在第一预设推理等级时对应的执行行为。可以根据上述方法获取任一时间点第一车辆在第一预设推理等级时对应的执行行为。
[0098]
应理解，在第一车辆的第一预设推理等级为偶数时，可以根据第一车辆在实际推理等级为零时对应的第一执行行为开始计算；在第一车辆的第一预设推理等级为奇数时，需要根据第二车辆在实际推理等级为零时对应的执行行为开始计算，其计算方法与上述方法原理相同，均是根据第一车辆和第二车辆的行驶状态信息以及对方在当前推理等级减一等级时的动作，最大化自身的奖励函数，可以计算得到自身的执行行为。
[0099]
在一种可能的实施方式中，在第二车辆具有k个预测推理等级，支付函数为第二奖励函数的情况下，确定第一车辆在当前时刻的行为决策信息，还包括：
[0100]
由博弈模型根据所述行驶状态信息以及所述第二奖励函数，计算所述第一车辆在所述第二车辆位于不同预测推理等级时执行m种执行行为后分别对应的第二分奖励值；
[0101]
获取所述第一车辆在执行m种执行行为后在下一时间点的m个行驶状态信息；
[0102]
迭代计算所述第一车辆和所述第二车辆从所述当前时刻至h时刻所有执行行为的组合，生成m的h次方条不同的轨迹，并由所述博弈模型根据所述第二分奖励值计算每条轨迹对应的第二奖励值，n等于m的h次方；
[0103]
将最高第二奖励值对应的行为决策信息确定为第一车辆在当前时刻的行为决策信息。
[0104]
本技术实施例中，确定第一车辆当前时刻的行为决策信息的过程中，最大化第二奖励函数对应的第二奖励值，该第二奖励值包括在执行同一执行行为的不同预测推理等级分别对应的第二分奖励值，若要使第二奖励值达到最大，则需要使执行同一执行行为后的第二分奖励值达到最大。
[0105]
应理解，本技术实施例中的第二奖励函数可以对应为自适应level-k博弈模型的奖励函数。
[0106]
在本技术实施例中，上述确定第一车辆当前时刻的行为决策信息的过程与实施例一中步骤202确定第一车辆当前时刻的行为决策信息的过程相似，不同之处在于本实施例中最大化的第二奖励值包括根据所有预测推理等级得到的第二分奖励值的和值，而实施例一中最大化的第一奖励值包括根据一种推理等级得到的第一分奖励值，无需计算所有推理等级的分奖励值。除上述区别之外，其余均与实施例一种步骤202相同，可以相互参阅，本实施例在此不再赘述。
[0107]
步骤304，根据行为决策信息确定与当前时刻对应的执行行为，并驱使第一车辆于当前时刻执行对应的执行行为。
[0108]
本实施例步骤304与前述实施例步骤203相同，可以相互参阅，本实施例在此不再赘述。
[0109]
相较于实施例一，本技术实施例引入了车辆推理等级的概念，在第二车辆推理等级不同的情况下，会对博弈过程产生较大的影响，且推理等级不同，得出的第二车辆的执行行为不同，对应得到第一车辆的执行行为也不相同，根据第二车辆的实际推理等级随时变换第一车辆在每一时间点的执行行为，可以更加符合真实交通场景。
[0110]
参见图4，示出了本技术实施例三提供的一种车辆的行为决策方法的流程示意图。如图4所示，该车辆的行为决策方法可以包括如下步骤：
[0111]
步骤401，获取当前时刻第一车辆和第二车辆的行驶状态信息。
[0112]
本实施例步骤401与前述实施例步骤201相同，可以相互参阅，本实施例在此不再赘述。
[0113]
步骤402，根据初始时间点第二车辆在各预测推理等级分别对应的执行行为和第二车辆的实际执行行为，确定初始时间点第二车辆的实际推理等级。
[0114]
本技术实施例中，在当前时刻为预设时间段内的初始时间点时，可以根据初始时间点第二车辆在各预测推理等级分别对应的执行行为和第二车辆的实际执行行为，确定初
始时间点第二车辆的实际推理等级；其实现过程与步骤302相同，可以相互参阅，本技术实施例在此不再赘述。
[0115]
步骤403，根据初始时间点第二车辆的实际推理等级、第一车辆的第一预设推理等级、博弈模型、以及第一车辆和第二车辆在任一时间点的行驶状态信息，确定第一车辆在任一时间点的行为决策信息。
[0116]
在本技术实施例中，为了减少系统的计算量，以加快系统运行速度，可以将初始时间点第二车辆的实际推理等级作为整个博弈过程中第二车辆的实际推理等级，而无需对第二车辆的实际推理等级进行实时判断，可以减少系统的计算量。
[0117]
其中具体实现过程与步骤303相似，可以相互参考，将步骤303中当前时刻第二车辆的实际推理等级替换为初始时间点第二车辆的实际推理等级，可以根据初始时间点第二车辆的实际推理等级确定第一车辆在每一时间点的行为决策信息，即在确定第一车辆在每一时间点的行为决策信息时，均采用初始时间点第二车辆的实际推理等级进行博弈。
[0118]
步骤404，根据行为决策信息确定与当前时刻对应的执行行为，并驱使第一车辆于当前时刻执行对应的执行行为。
[0119]
本实施例步骤404与前述实施例步骤203相同，可以相互参阅，本实施例在此不再赘述。
[0120]
相较于实施例二，本技术实施例将初始时间点第二车辆的实际推理等级作为整个博弈过程中第二车辆的实际推理等级，而无需对第二车辆的实际推理等级进行实时判断，可以减少系统的计算量，同时由于采用的是初始时间点确定出的第二车辆的实际推理等级，且车辆的推理等级在常规情况下不常发生改变，因此可以在保证该方法准确性的情况下减少系统的计算量。
[0121]
参见图5，示出了本技术实施例四提供的一种车辆的行为决策方法的流程示意图。如图5所示，该车辆的行为决策方法可以包括如下步骤：
[0122]
步骤501，获取当前时刻第一车辆和第二车辆的行驶状态信息。
[0123]
本实施例步骤501与前述实施例步骤201相同，可以相互参阅，本实施例在此不再赘述。
[0124]
步骤502，将行驶状态信息和第一车辆在实际推理等级为零时对应的第一执行行为输入至博弈模型中，通过最大化博弈模型的效用值，得出第二车辆在实际推理等级为一时对应的第二执行行为。
[0125]
在本技术实施例中，第一车辆的实际推理等级为第一预设推理等级，第二车辆的实际推理等级为第二预设推理等级，在第一预设推理等级为偶数时，可以从第一车辆在实际推理等级为零时开始算起，第一车辆在实际推理等级为零对应的执行行为可以是通过设定得到的。根据第一车辆在实际推理等级为零对应的执行行为首先得出第二车辆在实际推理等级为一时对应的第二执行行为。
[0126]
步骤503，将第二执行行为和行驶状态信息输入至博弈模型中，通过最大化博弈模型的效用值，得出第一车辆在实际推理等级为二时对应的第三执行行为。
[0127]
在本技术实施例中，根据第一车辆和第二车辆的行驶状态信息以及对方在当前推理等级减一等级时的动作，最大化自身的奖励函数，可以计算得到自身的执行行为的原理，则根据第二车辆在实际推理等级为一时对应的第二执行行为可以得出第一车辆在实际推
理等级为二时对应的第三执行行为。
[0128]
应理解，若第一车辆的第一预设推理等级为二，则进行到此步骤就可以得到第一车辆在当前时刻对应的执行行为。若第一车辆的第一预设推理等级大于二，可以进行如下步骤504。
[0129]
步骤504，将第三执行行为作为第一执行行为，循环执行将行驶状态信息和第一执行行为输入至博弈模型中以及之后的步骤，每次得出的执行行为对应的实际推理等级依次增加，直到得到第一车辆在第一预设推理等级时对应的执行行为。
[0130]
步骤505，根据每一时间点第一车辆在第一预设推理等级时对应的执行行为，确定第一车辆的行为决策信息。
[0131]
在本技术实施例中，由于行为决策信息包括每一时间点第一车辆对应的执行行为，因此可以根据每一时间点第一车辆在第一预设推理等级时对应的执行行为，最大化博弈模型的效用值，确定第一车辆的行为决策信息。
[0132]
步骤506，根据行为决策信息确定与当前时刻对应的执行行为，并驱使第一车辆于当前时刻执行对应的执行行为。
[0133]
本实施例步骤506与前述实施例步骤203相同，可以相互参阅，本实施例在此不再赘述。
[0134]
相较于实施例一，在本技术实施例中，由于在路上行驶的车辆基本为较为理性的人驾驶的车辆，因此可以固定第二车辆的实际推理等级为第二预设推理等级，不对第二车辆的实际推理等级进行预测，可以加快系统的运行速度。
[0135]
参见图6，示出了本技术实施例五提供的一种车辆的行为决策方法的流程示意图。如图6所示，该车辆的行为决策方法可以包括如下步骤：
[0136]
步骤601，获取当前时刻第一车辆和第二车辆的行驶状态信息。
[0137]
步骤602，根据博弈模型，以及第一车辆和第二车辆的行驶状态信息，确定第一车辆的行为决策信息。
[0138]
步骤603，根据行为决策信息确定与当前时刻对应的执行行为。
[0139]
本实施例步骤601-603与前述实施例步骤201-203相同，可以相互参阅，本实施例在此不再赘述。
[0140]
步骤604，获取第一车辆的第一参考路径和第二车辆的第二参考路径，并生成第二车辆在第二参考路径上行驶的行程图。
[0141]
在本技术实施例中，可以通过全球定位系统、实时动态定位以及高精度地图获取第一参考路径和第二参考路径，具体可以表示为：根据全球定位系统或者实时动态定位获取的车辆定位和高精度地图获取的数据，判断本车是否处于预设场景内，预设场景可以是指交通结构复杂的场景，例如交叉口，无保护的左转场景等，下面均以预设场景为无保护的左转场景为例进行说明。
[0142]
示例性地，当第一车辆和第二车辆进入预设场景后，可以根据车辆定位所在的车道，确定第一参考路径和第二参考路径，例如图1中车辆a位于左转车道对应的参考路径为如图1所示的第一参考路径，车辆b位于直行车道对应的参考路径为如图1所示的第二参考路径。
[0143]
其中，在确定第一参考路径和第二参考路径后，可以根据第一参考路径和第二参
考路径，生成第二车辆在第二参考路径上行驶的行程图，其中行程图表示为第二车辆在该交通场景中行驶时间与行程之间的映射关系，例如st图；
[0144]
步骤605，获取第一车辆在第一参考路径上每一时间点分别对应的执行行为，并根据第一车辆在第一参考路径上每一时间点分别对应的执行行为，确定第一车辆在第一参考路径上行驶的速度曲线。
[0145]
在本技术实施例中，获取第一车辆在第一参考路径上每一时间点分别对应的执行行为之前，可以根据第二车辆在第二参考路径上行驶的st图，确定第一车辆的行驶速度范围，且该行驶速度范围用于保证第一车辆和第二车辆不发生碰撞。其次上述实施例中的方法获取第一车辆在第一参考路径上每一时间点分别对应的执行行为，并根据第一车辆在第一参考路径上每一时间点分别对应的执行行为，生成第一车辆在行驶速度范围内的速度曲线。
[0146]
在一种可能的实施方式中，可以使用二次规划算法对该曲线进行平滑，作为最终输出的速度规划结果，即最终的速度曲线。
[0147]
步骤606，根据速度曲线，驱使第一车辆在第一参考路径上行驶。
[0148]
在本技术实施例中，将速度曲线下发给控制模块，以驱使第一车辆在第一参考路径上按照该速度曲线行驶。
[0149]
如图7所示为加入博弈模型前后的第一车辆的行程曲线对比图。通过该对比图可以得知在原有的行为决策方法中，第一车辆在交叉口进行左转时无法有效的与第二车辆进行交互，从而选择减速让行策略，导致通行的效率大幅度降低。在加入博弈模型之后，通过求解博弈模型，按照规划出的速度曲线行驶提高了通行的效率。
[0150]
在本技术实施例中，使用基于行程图(st图)的速度规划算法，在接收到每一时间点对应的执行行为之后，根据该语义动作在st图中搜索出一条可行速度曲线，并优化该曲线；最后结合第一参考路径和该模型的速度曲线下发到控制模块中可以实现完成安全且高效的行为决策规划。
[0151]
参见图8，示出了本技术实施例六提供的一种车辆的行为决策装置的结构示意图，为了便于说明，仅示出了与本技术实施例相关的部分。
[0152]
车辆的行为决策装置具体可以包括如下模块：
[0153]
信息获取模块801，用于获取当前时刻第一车辆和第二车辆的行驶状态信息，第一车辆和第二车辆处于同一交通场景；
[0154]
决策确定模块802，用于根据博弈模型，以及第一车辆和第二车辆的行驶状态信息，确定第一车辆的行为决策信息；
[0155]
行为确定模块803，用于根据行为决策信息确定与当前时刻对应的执行行为，并驱使第一车辆于当前时刻执行对应的执行行为。
[0156]
在本技术实施例中，决策确定模块802具体可以包括如下子模块：
[0157]
计算子模块，用于将行驶状态信息输入至博弈模型中，由博弈模型根据行驶状态信息以及支付函数计算第一车辆的n种行为决策信息分别对应的效用值，n为大于零的整数；
[0158]
第一信息确定子模块，用于将最高效用值对应的行为决策信息确定为第一车辆的行为决策信息。
[0159]
在本技术实施例中，在支付函数为第一奖励函数的情况下，效用值对应为由第一奖励函数计算得出的第一奖励值，计算子模块具体可以包括如下单元：
[0160]
第一分值计算单元，用于由博弈模型根据行驶状态信息以及第一奖励函数计算第一车辆在当前时刻的m种执行行为分别对应的第一分奖励值，m为大于1的整数；
[0161]
第一获取单元，用于获取第一车辆在分别执行m种执行行为后在下一时间点的m种行驶状态信息以及第二车辆在下一时间点的行驶状态信息；
[0162]
第一迭代计算单元，用于迭代计算第一车辆和第二车辆从当前时刻至h时刻所有执行行为的组合，生成m的h次方条不同的轨迹，并由博弈模型根据第一分奖励值计算每条轨迹对应的第一奖励值，n等于m的h次方。
[0163]
在本技术实施例中，第一车辆的实际推理等级为第一预设推理等级，推理等级用于指示车辆的理性行驶水平，车辆的行为决策装置还包括：
[0164]
第一实际等级确定模块，用于根据当前时刻第二车辆在各预测推理等级分别对应的执行行为和第二车辆的实际执行行为，确定当前时刻第二车辆的实际推理等级；
[0165]
相对应地，决策确定模块802具体可以包括如下子模块：
[0166]
第一决策确定子模块，用于根据当前时刻第二车辆的实际推理等级、第一车辆的第一预设推理等级、博弈模型、以及第一车辆和第二车辆在当前时刻的行驶状态信息，确定第一车辆在当前时刻的行为决策信息。
[0167]
在本技术实施例中，实际等级确定模块具体可以包括如下子模块：
[0168]
行为获取子模块，用于获取当前时刻第二车辆在各预测推理等级分别对应的执行行为；
[0169]
对比子模块，用于将各执行行为与当前时刻第二车辆的实际执行行为进行一一对比；
[0170]
等级确定子模块，用于确定与第二车辆的实际执行行为相同的执行行为对应的预测推理等级为第二车辆在当前时刻的实际推理等级。
[0171]
在本技术实施例中，实际等级确定模块具体还可以包括如下子模块：
[0172]
等级概率更新子模块，用于根据确定的第二车辆在上一时刻的实际推理等级，更新各预测推理等级的概率；
[0173]
相对应地，行为获取子模块具体可以包括如下单元：
[0174]
当前行为获取单元，用于根据各预测推理等级的概率，获取当前时刻第二车辆在各预测推理等级分别对应的执行行为。
[0175]
在本技术实施例中，在支付函数为第二奖励函数的情况下，效用值对应为由第二奖励函数计算得出的第二奖励值，第二车辆具有k个预测推理等级，第一决策确定子模块具体可以包括如下单元：
[0176]
第二分值计算单元，用于由博弈模型根据行驶状态信息以及第二奖励函数，计算第一车辆在第二车辆位于不同预测推理等级时执行m种执行行为后对应的第二分奖励值；
[0177]
第二获取单元，用于获取第一车辆在执行m种执行行为后在下一时间点的m个行驶状态信息；
[0178]
第二迭代计算单元，用于迭代计算第一车辆和第二车辆从当前时刻至h时刻所有执行行为的组合，生成m的h次方条不同的轨迹，并由博弈模型根据第二分奖励值计算每条
轨迹对应的第二奖励值，n等于m的h次方；
[0179]
第二信息确定单元，将最高第二奖励值对应的行为决策信息确定为第一车辆在当前时刻的行为决策信息。
[0180]
在本技术实施例中，当前时刻为预设时间段内的初始时间点，第一车辆的实际推理等级为第一预设推理等级，车辆的行为决策装置具体还可以包括如下模块：
[0181]
第二实际等级确定模块，用于根据初始时间点第二车辆在各预测推理等级分别对应的执行行为和第二车辆的实际执行行为，确定初始时间点第二车辆的实际推理等级；
[0182]
相对应地，决策确定模块802具体可以包括如下子模块：
[0183]
第二决策确定子模块，用于根据初始时间点第二车辆的实际推理等级、第一车辆的第一预设推理等级、博弈模型、以及第一车辆和第二车辆在任一时间点的行驶状态信息，确定第一车辆在任一时间点的行为决策信息。
[0184]
在本技术实施例中，第一车辆的实际推理等级为第一预设推理等级，第二车辆的实际推理等级为第二预设推理等级，第一预设推理等级大于或者等于二，车辆的行为决策装置具体还可以包括如下模块：
[0185]
第一等级行为确定模块，用于将行驶状态信息和第一车辆在实际推理等级为零时对应的第一执行行为输入至博弈模型中，通过最大化博弈模型的效用值，得出第二车辆在实际推理等级为一时对应的第二执行行为；
[0186]
第二等级行为确定模块，用于将第二执行行为和行驶状态信息输入至博弈模型中，通过最大化博弈模型的效用值，得出第一车辆在实际推理等级为二时对应的第三执行行为；
[0187]
循环模块，用于将第三执行行为作为第一执行行为，循环执行将行驶状态信息和第一执行行为输入至博弈模型中以及之后的步骤，每次得出的执行行为对应的实际推理等级依次增加，直到得到第一车辆在第一预设推理等级时对应的执行行为；
[0188]
相对应地，决策确定模块802具体可以包括如下子模块：
[0189]
第三决策确定子模块，根据每一时间点第一车辆在第一预设推理等级时对应的执行行为，确定第一车辆的行为决策信息。
[0190]
在本技术实施例中，车辆的行为决策装置具体还可以包括如下模块：
[0191]
行程图获取模块，用于获取第一车辆的第一参考路径第二车辆的第二参考路径，并生成第二车辆在第二参考路径上行驶的行程图，行程图表示为第二车辆在该交通场景中行驶时间与行程之间的映射关系；
[0192]
速度曲线确定模块，用于根据第一车辆在第一参考路径上每一时间点分别对应的执行行为，确定第一车辆在第一参考路径上行驶的速度曲线；
[0193]
驱使模块，用于根据速度曲线，驱使第一车辆在第一参考路径上行驶。
[0194]
本技术实施例提供的车辆的行为决策装置可以应用在前述方法实施例中，详情参见上述方法实施例的描述，在此不再赘述。
[0195]
图9是本技术实施例四提供的终端设备的结构示意图。如图9所示，该实施例的终端设备900包括：至少一个处理器910(图9中仅示出一个)处理器、存储器920以及存储在所述存储器920中并可在所述至少一个处理器910上运行的计算机程序921，所述处理器910执行所述计算机程序921时实现上述车辆的行为决策方法实施例中的步骤。
[0196]
所述终端设备900可以是桌上型计算机、笔记本、及掌上电脑等计算设备。该终端设备可包括，但不仅限于，处理器910、存储器920。本领域技术人员可以理解，图9仅仅是终端设备900的举例，并不构成对终端设备900的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。
[0197]
所称处理器910可以是中央处理单元(central processing unit，cpu)，该处理器910还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0198]
所述存储器920在一些实施例中可以是所述终端设备900的内部存储单元，例如终端设备900的硬盘或内存。所述存储器920在另一些实施例中也可以是所述终端设备900的外部存储设备，例如所述终端设备900上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。进一步地，所述存储器920还可以既包括所述终端设备900的内部存储单元也包括外部存储设备。所述存储器920用于存储操作系统、应用程序、引导装载程序(bootloader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器920还可以用于暂时地存储已经输出或者将要输出的数据。
[0199]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0200]
在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。
[0201]
本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
[0202]
在本技术所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。
[0203]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0204]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0205]
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。
[0206]
本技术实现上述实施例方法中的全部或部分流程，也可以通过一种计算机程序产品来完成，当所述计算机程序产品在终端设备上运行时，使得所述终端设备执行时可实现上述各个方法实施例中的步骤。
[0207]
以上所述实施例仅用以说明本技术的技术方案，而非对其限制。尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围，均应包含在本技术的保护范围之内。

技术特征：
1.一种车辆的行为决策方法，其特征在于，所述行为决策方法包括：获取当前时刻第一车辆和第二车辆的行驶状态信息，所述第一车辆和所述第二车辆处于同一交通场景；根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定所述第一车辆的行为决策信息；根据所述行为决策信息确定与当前时刻对应的执行行为，并驱使所述第一车辆于当前时刻执行所述对应的执行行为。2.如权利要求1所述的行为决策方法，其特征在于，所述根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定所述第一车辆的行为决策信息，包括：将所述行驶状态信息输入至所述博弈模型中，由所述博弈模型根据所述行驶状态信息以及支付函数计算所述第一车辆的n种行为决策信息分别对应的效用值，n为大于零的整数；将最高效用值对应的行为决策信息确定为所述第一车辆的行为决策信息。3.如权利要求2所述的行为决策方法，其特征在于，在所述支付函数为第一奖励函数的情况下，所述效用值对应为由所述第一奖励函数计算得出的第一奖励值，所述由所述博弈模型根据所述行驶状态信息以及支付函数计算所述第一车辆的n种行为决策信息分别对应的效用值，包括：由所述博弈模型根据所述行驶状态信息以及所述第一奖励函数，计算所述第一车辆在所述当前时刻的m种执行行为分别对应的第一分奖励值，m为大于1的整数；获取所述第一车辆在分别执行所述m种执行行为后在下一时间点的m种行驶状态信息以及所述第二车辆在所述下一时间点的行驶状态信息；迭代计算所述第一车辆和所述第二车辆从所述当前时刻至h时刻所有执行行为的组合，生成m的h次方条不同的轨迹，并由所述博弈模型根据所述第一分奖励值计算每条轨迹对应的第一奖励值，n等于m的h次方。4.如权利要求1所述的行为决策方法，其特征在于，所述第一车辆的实际推理等级为第一预设推理等级，所述推理等级用于指示车辆的理性行驶水平，还包括：根据所述当前时刻所述第二车辆在各预测推理等级分别对应的执行行为和所述第二车辆的实际执行行为，确定所述当前时刻所述第二车辆的实际推理等级；相对应地，所述根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定所述第一车辆的行为决策信息，包括：根据所述当前时刻所述第二车辆的实际推理等级、所述第一车辆的第一预设推理等级、所述博弈模型、以及所述第一车辆和第二车辆在所述当前时刻的行驶状态信息，确定所述第一车辆在所述当前时刻的行为决策信息。5.如权利要求4所述的行为决策方法，其特征在于，所述根据所述当前时刻所述第二车辆在各预测推理等级分别对应的执行行为和所述第二车辆的实际执行行为，确定所述当前时刻所述第二车辆的实际推理等级，包括：获取所述当前时刻所述第二车辆在各预测推理等级分别对应的执行行为；将各执行行为与所述当前时刻所述第二车辆的实际执行行为进行一一对比；确定与所述第二车辆的实际执行行为相同的执行行为对应的预测推理等级为所述第
二车辆在所述当前时刻的实际推理等级。6.如权利要求4所述的行为决策方法，其特征在于，在支付函数为第二奖励函数的情况下，效用值对应为由所述第二奖励函数计算得出的第二奖励值，所述第二车辆具有k个预测推理等级，所述确定所述第一车辆在所述当前时刻的行为决策信息，还包括：由博弈模型根据所述行驶状态信息以及所述第二奖励函数，计算所述第一车辆在所述第二车辆位于不同预测推理等级时执行m种执行行为后分别对应的第二分奖励值；获取所述第一车辆在执行m种执行行为后在下一时间点的m个行驶状态信息；迭代计算所述第一车辆和所述第二车辆从所述当前时刻至h时刻所有执行行为的组合，生成m的h次方条不同的轨迹，并由所述博弈模型根据所述第二分奖励值计算每条轨迹对应的第二奖励值，n等于m的h次方；将最高第二奖励值对应的行为决策信息确定为所述第一车辆在所述当前时刻的行为决策信息。7.如权利要求1所述的行为决策方法，其特征在于，所述当前时刻为预设时间段内的初始时间点，所述第一车辆的实际推理等级为第一预设推理等级，所述行为决策方法还包括：根据所述初始时间点所述第二车辆在各预测推理等级分别对应的执行行为和所述第二车辆的实际执行行为，确定所述初始时间点所述第二车辆的实际推理等级；相对应地，根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定第一车辆的行为决策信息；根据所述初始时间点所述第二车辆的实际推理等级、所述第一车辆的所述第一预设推理等级、所述博弈模型、以及所述第一车辆和第二车辆在任一时间点的行驶状态信息，确定所述第一车辆在任一时间点的行为决策信息。8.如权利要求1所述的行为决策方法，其特征在于，所述第一车辆的实际推理等级为第一预设推理等级，所述第二车辆的实际推理等级为第二预设推理等级，所述第一预设推理等级大于或者等于二，所述行为决策方法还包括：将所述行驶状态信息和所述第一车辆在实际推理等级为零时对应的第一执行行为输入至所述博弈模型中，通过最大化所述博弈模型的效用值，得出所述第二车辆在实际推理等级为一时对应的第二执行行为；将所述第二执行行为和所述行驶状态信息输入至所述博弈模型中，通过最大化所述博弈模型的效用值，得出所述第一车辆在实际推理等级为二时对应的第三执行行为；将所述第三执行行为作为所述第一执行行为，循环执行所述将所述行驶状态信息和所述第一执行行为输入至所述博弈模型中以及之后的步骤，每次得出的执行行为对应的实际推理等级依次增加，直到得到所述第一车辆在所述第一预设推理等级时对应的执行行为；相对应地，所述根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定所述第一车辆的行为决策信息，包括：根据每一时间点所述第一车辆在所述第一预设推理等级时对应的执行行为，确定第一车辆的行为决策信息。9.如权利要求1所述的行为决策方法，其特征在于，所述行为决策方法还包括：获取所述第一车辆的第一参考路径所述第二车辆的第二参考路径，并生成所述第二车辆在所述第二参考路径上行驶的行程图，所述行程图表示为所述第二车辆在该交通场景中
行驶时间与行程之间的映射关系；根据所述第一车辆在所述第一参考路径上每一时间点分别对应的执行行为，确定所述第一车辆在所述第一参考路径上行驶的速度曲线；根据所述速度曲线，驱使所述第一车辆在所述第一参考路径上行驶。10.一种车辆的行为决策装置，其特征在于，所述行为决策装置包括：信息获取模块，用于获取当前时刻第一车辆和第二车辆的行驶状态信息，所述第一车辆和所述第二车辆处于同一交通场景；决策确定模块，用于根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定第一车辆的行为决策信息；行为确定模块，用于根据所述行为决策信息确定与当前时刻对应的执行行为，并驱使所述第一车辆于当前时刻执行所述对应的执行行为。11.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的方法。12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法。

技术总结
本申请适用于自动驾驶技术领域，提供了车辆的行为决策方法、装置、终端设备及存储介质，所述行为决策方法包括：获取当前时刻第一车辆和第二车辆的行驶状态信息，所述第一车辆和所述第二车辆处于同一交通场景；根据博弈模型，以及所述第一车辆和第二车辆的所述行驶状态信息，确定所述第一车辆的行为决策信息；根据所述行为决策信息确定与当前时刻对应的执行行为，并驱使所述第一车辆于当前时刻执行所述对应的执行行为。由于第一车辆的行为决策信息是根据博弈模型得出的博弈结果，可保证该行为决策信息具有安全和高效的行驶优点，因此根据该行为决策信息决策出的当前时刻的执行行为可以提高车辆行为决策的精度，以完成安全且高效的行为决策规划。效的行为决策规划。效的行为决策规划。

技术研发人员：艾锐欧洋佳欣唐科顾维灏
受保护的技术使用者：毫末智行科技有限公司
技术研发日：2023.05.12
技术公布日：2023/6/27

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：车用麦克风结构的制作方法 下一篇：一种厢式运输半挂车用具有防护结构的物料引导装置的制作方法

车辆的行为决策方法、装置、终端设备及存储介质与流程

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

车辆的行为决策方法、装置、终端设备及存储介质与流程

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表