一种世界模型驱动的学习型可迁移自动驾驶方法及系统

未命名 08-03 阅读:132 评论:0


1.本发明涉及自动驾驶技术领域,尤其是涉及一种世界模型驱动的学习型可迁移自动驾驶方法及系统。


背景技术:

2.如今,人工智能正在从专有人工智能向通用人工智能过渡,以chatgpt为代表的生成式大模型已经在自然语言处理领域大放异彩,成为了目前主流的自然语言处理通用人工智能模型。自动驾驶是汽车产业与人工智能、自动化控制、大数据等新一代信息技术在交通领域交叉融合的体现,高级别自动驾驶系统需要应对几乎所有的复杂交通环境,并且安全、高效的完成驾驶任务。
3.然而目前的自动驾驶模型大多使用模块化的方法,该方法需要大量的人工工程,涉及到单个模块的人工标注和跨模块之间的配置,对于新环境新任务需要重新人为设计进行算法升级,迁移性差,不能适应通用人工智能的发展和要求。
4.随着车载硬件系统、云端计算能力的持续升级,将生成式大模型进行实时应用已成为可能,未来硬件系统的逐步升级必将突破通用人工智能解决硬件瓶颈。
5.anthony hu等人在《model-based imitation learning for urban driving》中提出了一种利用世界模型建模完成一体化自动驾驶任务的方法,但是仅使用单个相机无法获得环境的全貌,进而无法保证自动驾驶的安全,并且该方法没有考虑如何将自动驾驶模型由虚拟世界训练到真实世界进行应用。


技术实现要素:

6.本发明的目的是为了提供一种世界模型驱动的学习型可迁移自动驾驶方法及系统,利用生成式大模型世界模型解决一体化自动驾驶问题,并实现自动驾驶的虚实迁移。
7.本发明的目的可以通过以下技术方案来实现:
8.一种世界模型驱动的学习型可迁移自动驾驶方法,包括以下步骤:
9.构建仿真环境,并在仿真环境中设定与真实环境相同的自动驾驶车辆配置;
10.在仿真环境中采集大批量数据,在真实环境中采集小批量数据,所述数据均包括鸟瞰图和自动驾驶车辆上前后左右四个方向的相机拍摄的相机图像,鸟瞰图为预定义的世界缩略图,鸟瞰图中的交通车辆、行人均用矩形框标出,交通灯红灯在截止线区域用线条标出;
11.构建世界模型,并利用大批量数据在仿真环境中进行世界模型训练,其中,所述世界模型以相机图像作为输入,利用生成式世界模型对环境进行建模,通过隐藏变量保存并传递历史时刻的信息,输出鸟瞰图和控制指令,所述控制指令用于对自动驾驶汽车进行控制;
12.利用训练完成的世界模型,基于小批量数据在真实环境中进行域自适应迁移训练;
13.将自适应迁移训练完成的模型部署在现实世界自动驾驶汽车中,实现虚实迁移的通用一体化自动驾驶。
14.所述自动驾驶车辆配置包括车辆参数和传感器参数。
15.历史及当前时刻的世界模型表示为:
[0016][0017]
其中,ok为k时刻的图像输入,xk为对图像输入进行多传感器图像融合与编码得到的图像特征;假设后验特征sk和先验特征zk均符合正态分布,后验特征sk通过包含历史时刻信息的隐藏特征hk,前一时刻的动作a
k-1
和图像特征xk采样生成,先验特征zk通过隐藏特征hk和前一时刻的动作a
k-1
采样生成,动作a
k-1
表示k-1时刻的横纵向加速度;下一时刻的隐藏变量h
k+1
通过循环神经网络进行编码;ak表示当前时刻的动作,bk表示当前时刻的鸟瞰图,二者均基于隐藏特征hk和后验特征sk生成。
[0018]
未来时刻的世界模型无法获得图像输入,通过想象来获得未来的动作以及鸟瞰图走势,具体的,世界模型在未来k+t时刻不生成后验特征,直接使用隐藏特征h
k+t
和先验特征z
k+t
生成动作a
k+t
和鸟瞰图b
k+t
,并且下一时刻的隐藏特征h
k+t+1
基于隐藏特征h
k+t
和先验特征z
k+t
生成,表示为:
[0019][0020]
所述利用大批量数据在仿真环境中进行世界模型训练具体为:
[0021]
将时刻tk至t
k+t-1
的数据作为历史时刻数据,将时刻t
k+t
至t
k+t+f
的数据作为未来时刻数据,将tk至t
k+t+f
的所有数据输入到世界模型进行训练,使得动作序列和鸟瞰图序列出现的联合概率最大,即p(a
k:k+t+f
,b
k:k+t+f
)最大,通过变分推断获得联合概率下限,即:
[0022][0023]
其中,d
klf
表示两个分布的相对熵,e表示期望。
[0024]
一种世界模型驱动的学习型可迁移自动驾驶系统,包括:
[0025]
环境配置模块,用于构建仿真环境,并在仿真环境中设定与真实环境相同的自动驾驶车辆配置;
[0026]
数据采集模块,用于在仿真环境中采集大批量数据,在真实环境中采集小批量数据,所述数据均包括鸟瞰图和自动驾驶车辆上前后左右四个方向的相机拍摄的相机图像,鸟瞰图为预定义的世界缩略图,鸟瞰图中的交通车辆、行人均用矩形框标出,交通灯红灯在
截止线区域用线条标出;
[0027]
世界模型构建与训练模块,用于构建世界模型,并利用大批量数据在仿真环境中进行世界模型训练,其中,所述世界模型以相机图像作为输入,利用生成式世界模型对环境进行建模,通过隐藏变量保存并传递历史时刻的信息,输出鸟瞰图和控制指令,所述控制指令用于对自动驾驶汽车进行控制;
[0028]
模型迁移模块,用于利用训练完成的世界模型,基于小批量数据在真实环境中进行域自适应迁移训练;
[0029]
模型部署模块,用于将自适应迁移训练完成的模型部署在现实世界自动驾驶汽车中,实现虚实迁移的通用一体化自动驾驶。
[0030]
所述自动驾驶车辆配置包括车辆参数和传感器参数。
[0031]
所述世界模型构建与训练模块中,历史及当前时刻的世界模型表示为:
[0032][0033]
其中,ok为k时刻的图像输入,xk为对图像输入进行多传感器图像融合与编码得到的图像特征;假设后验特征sk和先验特征zk均符合正态分布,后验特征sk通过包含历史时刻信息的隐藏特征hk,前一时刻的动作a
k-1
和图像特征xk采样生成,先验特征zk通过隐藏特征hk和前一时刻的动作a
k-1
采样生成,动作a
k-1
表示k-1时刻的横纵向加速度;下一时刻的隐藏变量h
k+1
通过循环神经网络进行编码;ak表示当前时刻的动作,bk表示当前时刻的鸟瞰图,二者均基于隐藏特征hk和后验特征sk生成。
[0034]
所述世界模型构建与训练模块中,未来时刻的世界模型无法获得图像输入,通过想象来获得未来的动作以及鸟瞰图走势,具体的,世界模型在未来k+t时刻不生成后验特征,直接使用隐藏特征h
k+t
和先验特征z
k+t
生成动作a
k+t
和鸟瞰图b
k+t
,并且下一时刻的隐藏特征h
k+t+1
基于隐藏特征h
k+t
和先验特征z
k+t
生成,表示为:
[0035][0036]
所述世界模型构建与训练模块中,利用大批量数据在仿真环境中进行世界模型训练具体为:
[0037]
将时刻tk至t
k+t-1
的数据作为历史时刻数据,将时刻t
k+t
至t
k+t+f
的数据作为未来时刻数据,将tk至t
k+t+f
的所有数据输入到世界模型进行训练,使得动作序列和鸟瞰图序列出现的联合概率最大,即p(a
k:k+t+f
,b
k:k+t+f
)最大,通过变分推断获得联合概率下限,即:
[0038][0039]
其中,d
kl
表示两个分布的相对熵,e表示期望。
[0040]
与现有技术相比,本发明具有以下有益效果:
[0041]
(1)本发明提出了将世界模型应用于自动驾驶中的虚实迁移方法,能够实现自动驾驶由虚拟世界训练到真实世界应用。
[0042]
(2)本发明提出的生成式世界模型建模方法采用前后左右四个摄像头的图像作为输入,能够让世界模型得知整体的世界环境,并采用传感器融合的方法将四个摄像头得到的图像进行融合编码后,生成后验特征,生成的后验特征考虑了整体世界环境,特征描述更为精确。
[0043]
(3)本发明的世界模型中隐藏变量的生成方面采用循环神经网络进行下一时刻隐藏变量的生成,更多的考虑前一时刻的特征。
[0044]
(4)本发明的世界模型只输出鸟瞰图和动作,不生成当前的图像输入,减小了网络结构,简化了训练步骤,将损失函数训练更多的集中在鸟瞰图生成、动作生成和先验、后验匹配上,提高了训练效率。
附图说明
[0045]
图1为本发明的方法流程图。
[0046]
图2为本发明的世界模型的架构示意图。
具体实施方式
[0047]
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0048]
实施例1
[0049]
本实施例提供一种世界模型驱动的学习型可迁移自动驾驶方法,如图1所示,包括以下步骤:
[0050]
s1:构建仿真环境,并在仿真环境中设定与真实环境相同的自动驾驶车辆配置。
[0051]
本实施例中,自动驾驶车辆配置包括车辆参数和传感器参数。
[0052]
s2:在仿真环境中采集大批量数据,在真实环境中采集小批量数据。
[0053]
本实施例中,采集的数据均包括鸟瞰图和自动驾驶车辆上前后左右四个方向的相机拍摄的相机图像。鸟瞰图如图2所示,为预定义的世界缩略图,鸟瞰图中的交通车辆、行人等均用矩形框标出,交通灯红灯在截止线区域用线条标出。
[0054]
s3:构建世界模型,并利用大批量数据在仿真环境中进行世界模型训练。
[0055]
如图2所示,本实施例中的世界模型以相机图像作为输入,利用生成式世界模型对环境进行建模,通过隐藏变量保存并传递历史时刻的信息,输出鸟瞰图提高模型的可解释性,并输出控制指令对自动驾驶汽车进行控制。
[0056]
对于历史及当前时刻的世界模型,如图2所示,将k时刻的图像输入ok进行多传感
器图像融合与编码得到图像特征xk,此过程可表示为xk=fe(ok)。假设后验特征sk和先验特征zk均符合正态分布,通过包含历史时刻信息的隐藏特征hk,前一时刻的动作a
k-1
和图像特征xk采样生成后验特征sk,可表示为q(sk)~n(μ
θ
(hk,a
k-1
,xk),σ
θ
(hk,a
k-1
,xk)),通过隐藏特征hk和前一时刻的动作a
k-1
采样生成先验特征zk,可表示为下一时刻的隐藏变量通过循环神经网络编码,可表示为h
k+1
=fv(hk,sk)。最后通过隐藏特征hk和后验特征sk生成当前时刻动作ak和鸟瞰图bk,可表示为ak=f
π1
(hk,sk),bk=f
π2
(hk,sk)。即,历史及当前时刻的世界模型表示为:
[0057][0058]
其中,动作a
k-1
表示k-1时刻的横纵向加速度,即用于控制自动驾驶车辆的控制指令。
[0059]
未来时刻的世界模型无法获得图像输入,通过想象来获得未来的动作以及鸟瞰图走势。具体的,世界模型在未来k+t时刻不会生成后验特征,而是直接使用隐藏特征h
k+t
和先验特征z
k+t
生成动作a
k+t
和鸟瞰图b
k+t
,并且下一时刻的隐藏特征h
k+t+1
基于隐藏特征h
k+t
和先验特征z
k+t
生成,h
k+t+1
=f
φ
(h
k+t
,z
k+t
)。即,未来时刻的世界模型表示为:
[0060][0061]
模型构建完成后,利用大批量数据在仿真环境中进行世界模型训练,具体为:
[0062]
将时刻tk至t
k+t-1
的数据作为历史时刻数据,将时刻t
k+t
至t
k+t+f
的数据作为未来时刻数据,将tk至t
k+t+f
的所有数据输入到世界模型进行训练,使得动作序列和鸟瞰图序列出现的联合概率最大,即p(a
k:k+t+f
,b
k:k+t+f
)最大,通过变分推断获得联合概率下限,即:
[0063][0064]
其中,d
kl
表示两个分布的相对熵,e表示期望。
[0065]
s4:利用训练完成的世界模型,基于小批量数据在真实环境中进行域自适应迁移训练。
[0066]
由于仿真数据集(大批量数据)和真实数据集(小批量数据)均采用同样的鸟瞰图格式,且仿真环境和真实环境均使用同样的整车配置,因此,迁移训练等同于预训练大模型后的参数微调。迁移训练方法属于本领域的公知常识,为了避免本技术的目的模糊,在此不再赘述。
[0067]
s5:将自适应迁移训练完成的模型部署在现实世界自动驾驶汽车中,实现虚实迁
移的通用一体化自动驾驶。
[0068]
实施例2
[0069]
本实施例提供一种世界模型驱动的学习型可迁移自动驾驶系统,用于实现如实施例1所述的方法,包括:
[0070]
(1)环境配置模块,用于构建仿真环境,并在仿真环境中设定与真实环境相同的自动驾驶车辆配置。
[0071]
(2)数据采集模块,用于在仿真环境中采集大批量数据,在真实环境中采集小批量数据。
[0072]
(3)世界模型构建与训练模块,用于构建世界模型,并利用大批量数据在仿真环境中进行世界模型训练,其中,世界模型以相机图像作为输入,利用生成式世界模型对环境进行建模,通过隐藏变量保存并传递历史时刻的信息,输出鸟瞰图和控制指令,控制指令用于对自动驾驶汽车进行控制。
[0073]
(4)模型迁移模块,用于利用训练完成的世界模型,基于小批量数据在真实环境中进行域自适应迁移训练。
[0074]
(5)模型部署模块,用于将自适应迁移训练完成的模型部署在现实世界自动驾驶汽车中,实现虚实迁移的通用一体化自动驾驶。
[0075]
系统的具体实现过程参照实施例1所示,在此不再赘述。
[0076]
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。

技术特征:
1.一种世界模型驱动的学习型可迁移自动驾驶方法,其特征在于,包括以下步骤:构建仿真环境,并在仿真环境中设定与真实环境相同的自动驾驶车辆配置;在仿真环境中采集大批量数据,在真实环境中采集小批量数据,所述数据均包括鸟瞰图和自动驾驶车辆上前后左右四个方向的相机拍摄的相机图像,鸟瞰图为预定义的世界缩略图,鸟瞰图中的交通车辆、行人均用矩形框标出,交通灯红灯在截止线区域用线条标出;构建世界模型,并利用大批量数据在仿真环境中进行世界模型训练,其中,所述世界模型以相机图像作为输入,利用生成式世界模型对环境进行建模,通过隐藏变量保存并传递历史时刻的信息,输出鸟瞰图和控制指令,所述控制指令用于对自动驾驶汽车进行控制;利用训练完成的世界模型,基于小批量数据在真实环境中进行域自适应迁移训练;将自适应迁移训练完成的模型部署在现实世界自动驾驶汽车中,实现虚实迁移的通用一体化自动驾驶。2.根据权利要求1所述的一种世界模型驱动的学习型可迁移自动驾驶方法,其特征在于,所述自动驾驶车辆配置包括车辆参数和传感器参数。3.根据权利要求1所述的一种世界模型驱动的学习型可迁移自动驾驶方法,其特征在于,历史及当前时刻的世界模型表示为:其中,o
k
为k时刻的图像输入,x
k
为对图像输入进行多传感器图像融合与编码得到的图像特征;假设后验特征s
k
和先验特征z
k
均符合正态分布,后验特征s
k
通过包含历史时刻信息的隐藏特征h
k
,前一时刻的动作a
k-1
和图像特征x
k
采样生成,先验特征z
k
通过隐藏特征h
k
和前一时刻的动作a
k-1
采样生成,动作a
k-1
表示k-1时刻的横纵向加速度;下一时刻的隐藏变量h
k+1
通过循环神经网络进行编码;a
k
表示当前时刻的动作,b
k
表示当前时刻的鸟瞰图,二者均基于隐藏特征h
k
和后验特征s
k
生成。4.根据权利要求3所述的一种世界模型驱动的学习型可迁移自动驾驶方法,其特征在于,未来时刻的世界模型无法获得图像输入,通过想象来获得未来的动作以及鸟瞰图走势,具体的,世界模型在未来k+t时刻不生成后验特征,直接使用隐藏特征h
k+t
和先验特征z
k+t
生成动作a
k+t
和鸟瞰图b
k+t
,并且下一时刻的隐藏特征h
k+t+1
基于隐藏特征h
k+t
和先验特征z
k+t
生成,表示为:。5.根据权利要求4所述的一种世界模型驱动的学习型可迁移自动驾驶方法,其特征在于,所述利用大批量数据在仿真环境中进行世界模型训练具体为:
将时刻t
k
至t
k+t-1
的数据作为历史时刻数据,将时刻t
k+t
至t
k+t+f
的数据作为未来时刻数据,将t
k
至t
k+t+f
的所有数据输入到世界模型进行训练,使得动作序列和鸟瞰图序列出现的联合概率最大,即p(a
k:k+t+f
,b
k:k+t+f
)最大,通过变分推断获得联合概率下限,即:其中,d
kl
表示两个分布的相对熵,e表示期望。6.一种世界模型驱动的学习型可迁移自动驾驶系统,其特征在于,包括:环境配置模块,用于构建仿真环境,并在仿真环境中设定与真实环境相同的自动驾驶车辆配置;数据采集模块,用于在仿真环境中采集大批量数据,在真实环境中采集小批量数据,所述数据均包括鸟瞰图和自动驾驶车辆上前后左右四个方向的相机拍摄的相机图像,鸟瞰图为预定义的世界缩略图,鸟瞰图中的交通车辆、行人均用矩形框标出,交通灯红灯在截止线区域用线条标出;世界模型构建与训练模块,用于构建世界模型,并利用大批量数据在仿真环境中进行世界模型训练,其中,所述世界模型以相机图像作为输入,利用生成式世界模型对环境进行建模,通过隐藏变量保存并传递历史时刻的信息,输出鸟瞰图和控制指令,所述控制指令用于对自动驾驶汽车进行控制;模型迁移模块,用于利用训练完成的世界模型,基于小批量数据在真实环境中进行域自适应迁移训练;模型部署模块,用于将自适应迁移训练完成的模型部署在现实世界自动驾驶汽车中,实现虚实迁移的通用一体化自动驾驶。7.根据权利要求6所述的一种世界模型驱动的学习型可迁移自动驾驶系统,其特征在于,所述自动驾驶车辆配置包括车辆参数和传感器参数。8.根据权利要求6所述的一种世界模型驱动的学习型可迁移自动驾驶系统,其特征在于,所述世界模型构建与训练模块中,历史及当前时刻的世界模型表示为:其中,o
k
为k时刻的图像输入,x
k
为对图像输入进行多传感器图像融合与编码得到的图像特征;假设后验特征s
k
和先验特征z
k
均符合正态分布,后验特征s
k
通过包含历史时刻信息的隐藏特征h
k
,前一时刻的动作a
k-1
和图像特征x
k
采样生成,先验特征z
k
通过隐藏特征h
k
和前一时刻的动作a
k-1
采样生成,动作a
k-1
表示k-1时刻的横纵向加速度;下一时刻的隐藏变量h
k+1
通过循环神经网络进行编码;a
k
表示当前时刻的动作,b
k
表示当前时刻的鸟瞰图,二者均基于隐藏特征h
k
和后验特征s
k
生成。9.根据权利要求8所述的一种世界模型驱动的学习型可迁移自动驾驶系统,其特征在
于,所述世界模型构建与训练模块中,未来时刻的世界模型无法获得图像输入,通过想象来获得未来的动作以及鸟瞰图走势,具体的,世界模型在未来k+t时刻不生成后验特征,直接使用隐藏特征h
k+t
和先验特征z
k+t
生成动作a
k+t
和鸟瞰图b
k+t
,并且下一时刻的隐藏特征h
k+t+1
基于隐藏特征h
k+t
和先验特征z
k+t
生成,表示为:。10.根据权利要求9所述的一种世界模型驱动的学习型可迁移自动驾驶系统,其特征在于,所述世界模型构建与训练模块中,利用大批量数据在仿真环境中进行世界模型训练具体为:将时刻t
k
至t
k+t-1
的数据作为历史时刻数据,将时刻t
k+t
至t
k+t+f
的数据作为未来时刻数据,将t
k
至t
k+t+f
的所有数据输入到世界模型进行训练,使得动作序列和鸟瞰图序列出现的联合概率最大,即p(a
k:k+t+f
,b
k:k+t+f
)最大,通过变分推断获得联合概率下限,即:其中,d
kl
表示两个分布的相对熵,e表示期望。

技术总结
本发明涉及一种世界模型驱动的学习型可迁移自动驾驶方法及系统,其中方法包括:构建仿真环境,并在仿真环境中设定与真实环境相同的配置;在仿真环境中采集大批量数据,在真实环境中采集小批量数据;构建世界模型,并利用大批量数据在仿真环境中进行模型训练,世界模型以相机图像作为输入,利用生成式世界模型对环境进行建模,通过隐藏变量保存并传递历史时刻的信息,输出鸟瞰图和控制指令;基于小批量数据在真实环境中进行域自适应迁移训练,并将模型部署在现实世界自动驾驶汽车中,实现虚实迁移的通用一体化自动驾驶。与现有技术相比,本发明创新了世界模型的建模方式,高效提取了环境动力学特征,实现了一体化自动驾驶,并能够实现虚实迁移。够实现虚实迁移。够实现虚实迁移。


技术研发人员:杜嘉彤 黄岩军 杨硕 白玉龙 李欣城 陈虹
受保护的技术使用者:同济大学
技术研发日:2023.05.25
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐