基于Transformer的时序点云三维目标检测
未命名
09-15
阅读:97
评论:0

基于transformer的时序点云三维目标检测
技术领域
1.本发明涉及自动驾驶与深度学习领域,具体涉及一种基于transformer的时序点云三维目标检测。
背景技术:
2.随着人工智能技术的不断发展,其渗透到包括自动驾驶、机器人等各个领域。自动驾驶对于提高道路安全,提升交通运行效率至关重要。典型的自动驾驶车辆系统架构可分为环境感知、决策规划和运动控制三大模块。感知模块主要负责采集和处理车辆及其周围的环境信息。三维目标检测作为感知中至关重要的一项任务,需要获得周围环境的车辆、行人等多类障碍物的三维信息,包括目标的中心点位置、尺寸以及朝向。
3.使用单帧数据进行检测不可避免地存在感知视角受限以及目标间的遮挡问题。由于车辆的运动和传感器的持续采集,同一场景往往会在不同时间和角度下被捕获,形成多帧时序点云序列,跨时间的多帧点云可以提供三维目标不同视角的信息。因此,将历史信息和当前帧数据相结合、探索多帧时序融合网络有助于更好地理解周围环境,意义重大。
4.最直观的融合方法是将多帧中的点云转换到统一坐标系后拼接在一起,形成一个密集的点云帧,然后基于单帧检测器完成目标检出。这类方法直接进行数据层的时序融合,也被称为叠帧。它可以帮助静态或缓慢移动的物体构建出更完整的三维轮廓,但当目标快速移动或考虑更长的时间范围时,将产生严重的拖尾问题,不利于检测框的回归,可行性将大幅度下降。而传统的循环神经网络模型如lstm、gru等,通常需要将不同的时序数据分别输入网络中,分别提取出各自的特征后再进行逐阶段的融合,时序信息在传递的过程中面临着特征削弱或丢失的问题,且无法进行并行处理。transformer结构则能在保留各帧特征的情况下,通过注意力机制直接捕捉时序帧之间的关联性并有针对性地进行融合。此外,transformer还具有并行处理时序数据的能力,从而提升融合速度。这些出色的性能表明,使用transformer进行时序融合从而提升目标检测的准确性和稳定性,具有极大的研究价值。
5.在已有的时序模型中,3dvid提出了一种关注时空变换器gru(attentive spatiotemporal transformer gru,astgru)用来聚合时空信息,通过一个关注记忆的门控机制增强了传统的convgru。但其缺陷在于在多帧时序融合中需要进行串行逐阶段的融合,无法对数据进行并行处理,融合效率较低。
6.三维目标检测经典算法centerpoint在时序处理方面则直接采用叠帧的方式,该方法(center-based 3d object detection and tracking tianwei yin xingyi zhou philipp krahenbiihl)虽然可以帮助静态或缓慢移动的物体构建出更完整的三维轮廓,但当目标快速移动或考虑更长的时间范围时,将产生严重的拖尾问题,不利于检测框的回归。
技术实现要素:
7.本发明的目的是为了弥补现有技术研究中的上述缺陷,提供一种基于
transformer的时序点云三维目标检测,利用transformer并行处理数据的优势,使多帧时序融合更加高效,旨在充分利用时序信息提升目标检测性能。
8.本发明至少通过如下技术方案之一实现。
9.基于transformer的时序点云三维目标检测,构建和训练多帧时序融合模型,包括以下步骤:
10.s1、建立k帧时序点云序列,将各帧点云转换至当前帧坐标系下的统一描述;
11.s2、对各帧点云体素化并使用3d稀疏卷积进行空间特征提取,生成鸟瞰视角下的伪2d特征图;
12.s3、使用多尺度特征融合网络对各帧的鸟瞰特征图做进一步的特征提取和多尺度特征融合,产生结合了高级语义信息以及低级空间信息的特征图;
13.s4、使用tsa中心点预测网络生成时空注意力,对多帧特征图加权融合,产生目标的中心点预测结果;
14.s5、使用transformer多帧融合网络挖掘k帧时序点云的帧间目标关联特征,实现目标的时序特征增强;
15.s6、使用回归检测头对目标特征进行提取与变换,得到目标框的各类回归参数,将目标框的回归参数与步骤s4中通过tsa网络获得的目标中心点预测结果一并解码得到最终检测结果;
16.s7、定义模型的损失函数,使用数据集对所述模型进行训练以及检测结果的评估。
17.进一步地,步骤s1中,根据自车的实时全局位姿以及传感器的实时外参,将非当前帧之外的k-1帧序列点云通过以下公式进行坐标系转换:
[0018][0019]
上式中,pi代表第i帧的点云坐标系,ci代表第i帧的自车坐标系,代表第i帧点云坐标系到自车坐标系的激光雷达外参变换矩阵;gi代表第i帧的车辆全局坐标系,代表第i帧的自车全局位姿;gk代表第k帧的车辆全局坐标系,表示第i帧与第k帧的全局坐标系变换矩阵,为单位矩阵;ck代表第k帧的自车坐标系,代表第k帧的自车全局位姿;pk代表第k帧的点云坐标系,表示第k帧自车坐标系到点云坐标系的变换矩阵,即第k帧激光雷达外参,代表第i帧到第k帧的点云坐标系变化矩阵。
[0020]
进一步地,所述的步骤s2具体过程如下:
[0021]
s21、点云体素化:将多帧点云分别进行体素化,其中,体素化的坐标范围为x∈[-54m,54m],y∈[-54m,54m],z∈[-5m,3m],体素化的分辨率为0.075m
×
0.075m
×
0.2m,从而生成尺寸为16
×
1440
×
1440
×
40的三维体素特征,其中16为特征通道数,m表示米单位;
[0022]
s22、使用3d稀疏卷积网络对体素化后的特征进行特征提取操作。
[0023]
进一步地,3d稀疏卷积网络包括六层子网络串联,使用子流形3d稀疏卷积submconv3d和空间3d稀疏卷积sparseconv3d两种3d稀疏卷积操作,submconv3d保持体素的稀疏性,sparseconv3d扩大感受野,最后将特征沿高度维度进行堆叠,生成鸟瞰视角下的伪2d特征图。
[0024]
进一步地,步骤s3使用多尺度特征融合网络对步骤s2中的鸟瞰伪2d特征进行上下采样,得到多尺度特征图并进行融合,在下采样和上采样的过程中皆串联一个通道空间注
意力机制cbam模块。
[0025]
进一步地,cbam模块为注意力模块,将cbam模块嵌入到多尺度特征融合网络,在通道和空间两个维度上分别产生注意力特征,并与原输入特征图相乘进行自适应特征修正,产生最终的特征图。
[0026]
进一步地,步骤s4的tsa中心点预测网络通过构建的时空注意力自适应地学习到序列帧不同空间位置的特征贡献程度并进行特征加权融合,用于产生表征当前帧目标中心点位置分布情况的热图其中h和w分别为热图尺寸,cls代表目标类别数。
[0027]
进一步地,步骤s5中的transformer多帧融合网络包括自注意力模块、可变形交叉注意力模块以及前馈网络;自注意力模块用于同一帧中不同目标之间的交互,可变形交叉注意力模块用于不同帧之间同一目标的特征关联,前馈网络用于提高网络的非线性能力。
[0028]
进一步地,步骤s6中,使用回归检测头获取目标框的各类回归参数,回归检测头包括共享特征提取部分和四类回归参数检测部分,经过参数编解码生成网络预测真值以及检测框的最终参数。
[0029]
进一步地,定义损失函数loss,损失函数包括分类损失l
cl
s、回归损失l
reg
、以及关键点损失l
key
:
[0030]
loss=λ1l
cls
+λ2l
reg
+λ3l
key
[0031]
其中,λ1、λ2、λ3分别为各类损失的权重;分类损失作用于tsa中心点预测网络输出的热图针对正负样本不平衡问题,使用focalloss进行分类损失的计算;回归损失作用于回归检测头的参数输出,使用l1损失计算正样本的回归参数与真实值之间的误;关键点损失作为辅助监督,关键点定义为鸟瞰图视角下目标边界框的四个中点以及目标中点,同样产生关键点热图作为训练真值,并用l2损失计算误差。
[0032]
本发明相对于现有技术具有如下的优点及有益效果:
[0033]
(1)本发明公开的一种基于transformer的时序点云三维目标检测,考虑了时空的连续性,设计了一种transformer多帧时序融合模型mtf,利用transformer的自注意力和交叉注意力挖掘时序帧之间的目标关联特征,以此增强目标的特征表达,提高三维目标检测的准确性和稳定性
[0034]
(2)本发明公开的一种基于transformer的时序点云三维目标检测,在transformer融合机制的设计上,提出一种可变形交叉注意力机制,能够自主学习对空间中的关键位置进行采样,更好地捕获帧间长距离的特征依赖关系。
[0035]
(3)本发明公开的一种基于transformer的时序点云三维目标检测,提出了一种tsa时序融合中心点预测模块,能够通过时空注意力的方式将时间特征和空间特征有机地结合起来,借助时序信息产生更为准确的中心点预测结果,并为transformer模块提供更加优质的特征输入。
[0036]
(4)本发明公开的一种基于transformer的时序点云三维目标检测,提出使用当前帧的目标中心点作为transformer解码器查询对象的初始化,这种强先验信息减小了网络的学习难度,使得仅使用一层解码器结构就可替代传统的六层解码架构,降低了网络的参数量和计算量。
附图说明
[0037]
图1为本发明实施例中动静态目标时序叠帧示意图;
[0038]
图2为本发明实施例中一种基于transformer的多帧点云时序融合三维目标检测系统结构图;
[0039]
图3为本发明实施例中多帧点云坐标系转换过程示意图;
[0040]
图4为本发明实施例中3d稀疏卷积网络结构图;
[0041]
图5为本发明实施例中submresblock子模块网络结构图;
[0042]
图6为本发明实施例中多尺度特征融合网络结构图;
[0043]
图7为本发明实施例中tsa中心点预测网络结构图;
[0044]
图8为本发明实施例中transformer多帧融合网络结构图;
[0045]
图9为本发明实施例中多头自注意力网络结构图;
[0046]
图10为本发明实施例中可变形多头交叉注意力网络结构图;
[0047]
图11为本发明实施例中前馈网络结构图;
[0048]
图12为本发明实施例中回归检测头网络结构图;
[0049]
图13为本发明实施例中mtf模型不同模式的各类误差结果图;
[0050]
图14为本发明实施例一种基于transformer的时序点云三维目标检测流程图。
具体实施方式
[0051]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0052]
图1为本发明实施例中动静态目标时序叠帧示意图,可以看出将多帧点云直接拼接的方法对于静态或缓慢移动的物体可以帮助其构建出更完整的三维轮廓,但当目标快速移动或考虑更长的时间范围时,将产生严重的拖尾问题,不利于检测框的回归,该方法的可行性将大幅度下降。因此需要设计一种有效的时序融合机制,以应对不同运动状态以及不同场景下的目标。
[0053]
如图2所示,一种基于transformer的多帧点云时序融合三维目标检测系统,包括多帧时序融合模型(mtf模型)。该模型包括3d特征提取模块、多尺度特征融合网络、tsa中心点预测网络、transformer多帧时序融合网络和回归检测头。3d特征提取模块用于点云数据的体素化和3d特征初提取。多尺度特征融合网络融合高级抽象语义特征和低级细粒度的空间特征,提高鸟瞰视角下的特征表达。tsa中心点预测网络结合时序信息,通过产生时空注意力的方式提高目标中心点的预测精度。transformer多帧时序融合网络捕获帧间长距离的特征依赖关系,利用帧间时序信息形成对检测目标更完备的特征表达。回归检测头产生检测框的最终回归参数。
[0054]
如图14所示,实现一种基于transformer的多帧点云时序融合三维目标检测系统的方法,包括构建和训练多帧时序融合模型(mtf模型),具体包括步骤如下:
[0055]
s1、对于连续多帧点云数据,设置k帧为一组时序帧序列,第一帧为起始帧,第k帧为关键帧,将所有历史点云帧根据车辆实时位姿及传感器外参进行多次空间变换。
[0056]
作为一种实施例,如图3所示,将所有历史点云帧根据车辆实时位姿及传感器外参
进行多次空间变换,转换至当前关键帧坐标系下的统一描述:
[0057][0058]
其中,pi代表第i帧的点云坐标系,ci代表第i帧的自车坐标系,代表第i帧点云坐标系到自车坐标系的激光雷达外参变换矩阵。gi代表第i帧的车辆全局坐标系,代表第i帧的自车全局位姿。gk代表第k帧的车辆全局坐标系,表示第i帧与第k帧的全局坐标系变换矩阵,为单位矩阵。ck代表第k帧的自车坐标系,代表第k帧的自车全局位姿。pk代表第k帧的点云坐标系,表示第k帧自车坐标系到点云坐标系的变换矩阵,即第k帧激光雷达外参。代表第i帧到第k帧的点云坐标系变化矩阵。
[0059]
s2、3d特征提取模块将各帧点云体素化,然后使用3d稀疏卷积进行特征提取,并将特征沿高度维度堆叠,生成鸟瞰图视角下的2d特征图;
[0060]
s21、点云体素化
[0061]
对于多帧点云,首先将其分别进行体素化,在本实施例中,体素化的范围为x∈[-54m,54m],y∈[-54m,54m],z∈[-5m,3m],体素化的分辨率为0.075m
×
0.075m
×
0.2m,m表示单位,从而生成尺寸为16
×
1440
×
1440
×
40的三维体素特征,其中16为特征通道数。
[0062]
s22、3d稀疏卷积特征提取
[0063]
使用如图4所示的3d稀疏卷积网络对体素化后的特征进行特征提取操作。3d稀疏卷积网络主要由六层子网络逐步提取特征,其中,使用子流形3d稀疏卷积submconv3d和空间3d稀疏卷积sparseconv3d两种3d稀疏卷积操作,submconv3d保持体素的稀疏性,sparseconv3d扩大感受野。网络的第一层为submconv3d紧接一个bn层以及relu激活函数,第二层为两个串联的submresblock子模块。该子模块的网络结构如图5所示,submconv3d保持体素的稀疏性,sparseconv3d扩大感受野,采用resnet的残差块思想,其中一路为紧接一个bn层以及relu激活函数的submconv3d,并再接一个仅带有bn层的submconv3d,另一路则通过跳跃连接的方式直接与一路的输出汇合,逐元素相加后通过relu激活作为输出,该模块利用残差连接的方式使网络具备高效提取特征的能力。
[0064]
特征提取模块的第三、四、五层皆为sparseblock模块,每个sparseblock模块表现为后接一个bn层以及relu激活函数的sparseconv3d与两层submresblock串联的形式,第六层为sparseconv3d后接一个bn层以及relu激活函数。最后,输入中的非空体素通过该3d稀疏卷积网络提取特征后,再次被重新整合进整张体素网格,生成尺寸为128
×
180
×
180
×
2大小的特征图,其中2代表高度维度。然后将特征沿高度维度进行堆叠,生成256
×
180
×
180大小的特征图,实现特征的降维,便于后续用2d卷积作进一步的处理。
[0065]
在整个特征提取过程中,主要使用了两种3d稀疏卷积提取三维空间特征,其中submconv3d仅在卷积核中心覆盖非空体素时,卷积输出才被计算,得到的输出体素特征与输入体素特征的稀疏性相同,保持了合理的计算量。sparseconv3d则与普通的2d卷积类似,只要整个卷积核范围内覆盖到了非空体素,输出就会被计算,能够扩大感受野,但同时会削弱体素特征的稀疏性,导致计算量上涨。因此配合使用stride=2的卷积步长,每执行一次sparseconv3d操作,特征图尺度将减半,特征通道数将增加一倍。本发明提出的3d特征提取模块将两类3d稀疏卷积组合使用,在保持体素稀疏性的同时增大感受野,以此达到高效提
取特征的目的。对于所有的输入时序帧都用该网络进行初步的空间特征提取,不同帧之间共享网络参数。
[0066]
s3、使用图6所示的多尺度特征融合网络对各帧的2d特征图进行进一步的特征提取,得到多尺度特征图并进行融合,以此融合高级抽象语义特征和低级细粒度的空间特征;
[0067]
作为一种实施例,多尺度特征融合网络首先使用一层卷积对输入尺寸为180
×
180
×
256的鸟瞰图特征做特征变换,得到相同尺寸为的特征x,其相对于原点云体素化分辨率(1440
×
1440)为8倍下采样尺寸。然后采用步长stride=2的卷积完成进一步的下采样操作,得到相对于原体素化分辨率16倍下采样尺寸的鸟瞰图下采样特征x_down,其富含了高级的语义信息。再对其作上采样处理得到与输入特征x相同尺寸的特征图,并将两者相加后经过一层卷积以充分融合两种尺度的混合特征x_mix。
[0068]
为了保证接下来中心点预测的高分辨率,对混合特征执行一倍的上采样处理,最终得到360
×
360
×
256大小的特征图x_up。在多尺度特征的下采样和上采样处理后,皆串联了一个通道空间注意力机制cbam(convolutional block attention module)模块,以此引导网络在采样生成多尺度特征的过程中学习到更应该关注的特征。
[0069]
cbam模块是一种轻量级的注意力模块,可以嵌入到任何主干网络中以提高性能,其在通道和空间两个维度上分别产生注意力特征,并与原输入特征图相乘进行自适应特征修正,产生最终的特征图。此处的加入可以引导网络在上、下采样生成多尺度特征的过程中学习到更应该关注的特征。
[0070]
s4、对于k帧点云特征图,使用tsa中心点预测网络产生时空注意力并对时间特征和空间特征进行加权融合,tsa中心点预测网络能自适应地学习到历史帧不同空间位置的特征贡献程度并进行特征加权融合,用于产生表征当前帧目标中心点位置分布情况的热图,产生目标的中心点预测结果。
[0071]
其网络结构如图7所示,对于输入的k帧时序点云特征,首先采用卷积核大小为1
×
1的卷积进行降维操作以减少参数量,得到h
×w×
1大小的特征图,各帧之间共享该层卷积参数。然后将这些特征图沿通道维度进行堆叠,得到尺寸为h
×w×
k的特征图。接着经过一层卷积以及sigmoid激活函数,得到同尺寸的注意力权重特征图,其物理含义为各帧点云在不同空间位置的特征重要程度。将该注意力权重作用于输入的k帧点云特征,得到加权后的多帧特征图。最后,经过两层卷积,并由sigmoid激活函数激活,生成表征目标中心点位置分布的热图其中cls代表目标类别数。热图中所有概率值超过阈值的位置将被视作目标的候选中心点,其相应位置的特征将被取出,作为后续transformer解码器的输入。
[0072]
s5、使用transformer多帧融合网络挖掘k帧时序点云的目标关联特征,捕获帧间长距离的特征依赖关系,从而充分利用帧间时序信息形成对检测目标更完备的特征表达,实现目标的时序特征增强。
[0073]
其网络整体架构如图8所示,transformer多帧融合网络包含自注意力、可变形交叉注意力以及前馈网络部分。自注意力模块用于同一帧中不同目标之间的交互,可变形交叉注意力模块用于不同帧之间同一目标的特征关联,前馈网络用于提高网络的非线性能力。为了将信息传递的更深,增强mtf模型的拟合能力,网络采用残差结构,并使用层归一化(ln)对每层计算后的特征进行归一化。
[0074]
作为一种优选的实施例,实现目标的时序特征增强,具体过程如下:
[0075]
s51、多头自注意力模块由h个自注意力头组成,h=6,每个注意力头的输入特征为256维,输出特征为64维,其网络结构如图9所示。首先取出top n个预测置信度较高的目标中心点p所对应的鸟瞰图特征f
in
,组成一个n
×
256的特征向量。同时使用一层输入特征维度为2(即中心点的鸟瞰图坐标维度)的线性层对中心点位置进行编码,生成输出特征为256维的位置编码向量,可表示为:
[0076]epos
=we·
p
pos
[0077]
其中,we为线性位置编码层的可学习参数,p
pos
为n
×
2的中心点位置向量,e
pos
为生成的n
×
256的位置编码向量。
[0078]
然后将中心点特征fi
in
与位置编码向量e
pos
相加后,经过ln层归一化,再经第l个注意力头的全连接层分别得到特征维度皆为64的查询矩阵q,关键字矩阵k和价值矩阵v:
[0079][0080][0081][0082]
上式中,下标i、j表示n个中心点不同的索引位置,ln(
·
)代表ln归一化操作,)代表ln归一化操作,分别为第l个注意力头的query、key、value三层全连接层的参数。为第l个注意力头的索引位置为i的查询向量,关键字向量和价值向量;为索引位置为i、j的位置编码向量;
[0083]
接着将查询项矩阵q与关键字矩阵k做相关运算,并对特征通道数dq做特征缩放,通过softmax函数实现归一化,得到一个表征目标之间关联性的注意力矩阵a,代表第l个注意力头下索引位置为i的目标对索引位置为j的目标的注意力值:
[0084][0085]
该注意力矩阵a作用于价值矩阵v,得到第l个注意力头的64维特征输出矩阵v
out_l
,表示索引位置为i的目标的特征向量
[0086][0087]
将6个注意力头的特征拼接产生384维度的特征,再经过一个全连接层变换重新得到256维度的特征,并通过残差连接将其与模块的输入特征相加,经由一个丢弃率为0.3的dropout层得到最终输出:
[0088][0089]
上式中wo为输出全连接层的参数,f
out
为自注意力模块的输出特征。
[0090]
通过以上操作,所有目标中心点的特征之间都进行了交互,这有助于目标获取全局信息并学习相互之间的位置依赖关系,得到修正后的目标中心点特征,该中心点特征将
作为后续可变形多头交叉注意力模块的输入。
[0091]
s52、可变形多头交叉注意力模块由h=6个可变形的交叉注意力头组成,其网络结构如图10所示,由查询端生成目标在k帧序列的bev特征图上的多个采样点,并仅需计算有限个采样点处的交叉注意力。网络经过训练将学习到序列帧中与当前帧查询项密切相关的重要采样点,这样不仅可以避免由于手工预设的注意力计算窗口尺寸有限而导致mtf模型无法捕获长距离目标依赖关系的缺陷,也避免了一味增大注意力计算窗口尺寸所带来的内存和计算量激增问题。
[0092]
具体地,每个注意力头将并行执行下述操作。需预先说明的是,下式变量中的字母l代表第l个注意力头,m代表序列帧中的第m帧。
[0093]
首先输入鸟瞰图特征f
in
通过ln层归一化,然后通过全连接层生成一个查询矩阵q
l
,同时经过另一个全连接层生成各序列帧鸟瞰图上的采样点偏移量p,每一个目标中心在各序列帧上都设置了15个采样点集合。将这些偏移量叠加到各目标中心位置即可得到所有采样点的鸟瞰图绝对位置。
[0094][0095][0096][0097]
上式中,代表query的全连接层参数,为生成采样点偏移量的全连接层参数,δp
l,m
为序列帧鸟瞰图采样点的偏移量,为各采样点的鸟瞰图绝对坐标。
[0098]
然后从各序列帧的鸟瞰图特征fm中取出各采样点对应的特征其中对所有非整采样点使用其邻近四个像素点的特征进行双线性插值得到其特征。接下来,经由全连接层分别生成关键字矩阵k
l,m
和价值矩阵v
l,m
。将q
l
和k
l
做点积操作并对特征通道数dq做特征缩放,然后经过softmax层进行归一化,生成一个注意力权值矩阵a
l
,其代表了各目标中心与其产生的所有采样点的特征关联程度。该注意力矩阵作用于价值矩阵v
l,m
,将所有k帧序列帧中的采样点v值进行加权求和,得到融合了时序特征的64维特征输出
[0099][0100][0101][0102][0103][0104]
上式中,分别为第l个注意力头的key、value两层全连接层的参数。
[0105]
将多个注意力头的特征拼接得到384维的特征再经过一级全连接层变换得到与输
入相同维度的256维特征输出,并将其与输入逐元素相加,经由一个丢弃率为0.3的dropout层得到模块的最终输出。
[0106][0107]
上述交叉注意力机制能根据特征的相关性自适应地寻找前后帧之间不同位置的特征关联强度,赋予高关联位置处的特征更高的权重,削弱低关联处的特征,使网络在时序帧融合中更加关注目标所在区域的特征,达到更好的融合效果。此外,相较于常规的transformer交叉注意力机制这种固定注意力计算窗口的方式,上述的可变形的交叉注意力机制能让网络学习到仅对某些关键特征的位置进行采样并加权融合。现实场景中不同尺寸、朝向以及运动状态的目标往往占据了特征空间中的不同区域,因此,提出的可变形的交叉注意力机制在应对各式各样的实际场景也是更为鲁棒的。
[0108]
s53、前馈网络由两层全连接层组成,网络结构如图11所示。两层全连接层的特征输入和输出维度皆为256维,并都使用衰减率为0.3的dropout。首层全连接层的输出由gelu激活函数激活。由于自注意力和交叉注意力基本都是线性变换,此处前馈网络的加入为网络提供了更多的非线性性,提升了mtf模型的表达能力。
[0109]
s6、使用回归检测头对目标特征进行提取与变换,得到目标框的各类回归参数,并与步骤s4中通过tsa网络获得的目标中心点预测结果一并解码得到检测框的真实参数。
[0110]
回归检测头的网络结构如图12所示,首先经过一个共享检测头进行特征的提取与变换,使用卷积核大小和步长都为1的1d卷积将256维的输入中心点特征转换为64维的中间特征,并通过一个bn层和relu激活函数激活。然后分别使用四个检测头对中心点偏移量、高度、尺寸、朝向角这四类回归参数进行预测。每类检测头都首先使用卷积核大小和步长都为1的1d卷积进行特征提取,并保持特征维度为64不变,经bn层和relu激活函数后,通过一个1d卷积得到各类回归参数。
[0111]
检测框的参数由tsa网络预测的中心点位置以及回归检测头预测的回归参数这两者共同构成。在正样本回归真值生成的过程中,并不直接回归由注释框的中心点坐标(xg,yg,zg),框的长、宽、高wg、hg、lg,框的旋转角θg构成的注释框标注参数(xg,yg,zg,wg,hg,lg,θg),而是将真实框的信息映射到特征图上的对应位置并进行编码,然后使用tsa网络以及回归检测头预测编码值其中,目标中心点所处网格位置的计算公式为:
[0112][0113]
式中,p
x
、py代表点云帧空间x轴和y轴的左边界起始值,v
x
、vy分别代表体素的长和宽,s
x
、sy分别代表特征图沿x轴和y轴的缩放比例,代表中心点落在热图上的坐标。在生成中心点热图真值y∈[0,1]
cls
×h×w时,不仅目标中心点的网格值被设置为1,以该点
为中心的高斯半径覆盖的所有区域都将被分配一个非零值。
[0114]
在回归参数编码中,为了降低回归的难度,使各回归值的值域保持在一个相对较低的方差内。对中心点的水平偏移量使用热图像素尺寸归一化成(δx,δy),中心点的竖直高度δz则直接进行回归,对目标框的长宽高采用对数函数编码为(δw,δh,δl),对朝向角则分别使用正弦和余弦函数编码为(θ
x
,θy),具体的编码公式如下:
[0115][0116]
对于检测头的输出预测参数,使用下述解码公式将预测结果还原成检测框的真实位置(x,y,z)、长宽高(w,h,l)和框的实际旋转角θ,得到检测框的实际参数:
[0117][0118]
s7、定义损失函数,使用公开数据集nuscenes对所提出的模型进行训练以及检测结果的评估。
[0119]
损失函数由分类损失l
cls
、回归损失l
reg
、以及关键点损失l
key
三者构成。分类损失作用于步骤s4预测的目标中心点预测热图,回归损失用于步骤s6中的回归检测头预测的回归参数,关键点损失则作为辅助监督项。
[0120]
loss=λ1l
cls
+λ2l
reg
+λ3l
key
[0121]
其中,λ1、λ2、λ3分别为各类损失的权重。
[0122]
作为一种优选的实施例,在本实施例中λ1、λ2、λ3分别设置为1、0.25、1。
[0123]
分类损失作用于tsa中心点预测模块输出的热图其中,h和w分别为热图尺寸,cls为目标类别数量。针对正负样本不平衡问题,使用focalloss进行分类损失的计算:
[0124][0125]
式中的代表网络对于第c个类别中心点热图上的索引位置为(i,j)处的预测结果,y
ijc
表示该位置上的高斯热图真值,n
pos
为正样本数量。γ为focalloss中控制难易分类样本的衰减系数,在本实施例中被设置为2。β指数项的引入是为了抑制高斯热图真值里中心点附近的那些像素点的损失,这些区域的y
ijc
∈[0,1],β值在本实施例中被设置为4。
[0126]
作为一种优选的实施例,γ为设置为2,β设置为4。
[0127]
回归损失作用于回归检测头的参数输出,使用l1损失计算正样本的回归参数与真实值之间的误差。损失计算公式为:
[0128][0129]
式中b代表回归量,代表网络对样本的回归预测结果,b
gt
代表样本的真实值,n
pos
为正样本的数量。另外需要说明的是,在训练阶段,为了加快mtf模型的收敛速度,本实施例并不选取中心点预测热图置信度较高的top n个目标中心点作为transformer多帧融合模块的输入,而是直接计算数据集标注框的中心点在bev特征图下的位置并取其特征作为输入,这使得后续检测头的回归目标能直接与标签目标一一对应,而无需通过执行匈牙利匹配算法进行回归目标的绑定。在预测阶段,则从生成的中心点热图中选取top n个中心点作为transformer模块的输入。
[0130]
除上述中心点热图分类损失和回归损失外,还引入了一个关键点损失作为辅助监督,以提升模型的性能。受centerpoint模型二阶段特征提取的启发,关键点定义为鸟瞰图视角下目标边界框的四个中点以及目标中点。为了实现关键点损失,需在中心点热图检测头旁增加一个关键点热图预测分支用于预测这些关键点的位置信息对于每个检测框,使用与计算中心点热图相同的方法生成目标关键点的高斯热图监督真值,并在高斯热图值真值大于零的位置使用均方误差计算得到关键点损失:
[0131][0132]
式中,代表网络对于第c个类别关键点热图上索引位置为(i,j)处的预测结果,k
ijc
代表该位置的高斯热图真值,n
pos
为正样本的数量。这种损失的引入有助于mtf模型更好地关注并挖掘目标区域的特征,提高模型对中心点预测的精度,进而提升整个三维目标检测模型的性能。
[0133]
然后将本发明所提出的方法在自动驾驶公开数据集nuscenes上进行实验验证,该数据集由两辆传感器配置相同的电动汽车进行采集,每辆汽车装备了1个32线束的激光雷达,具备360
°
的视野感知能力。数据采集地点包括波士顿和新加坡的城市、住宅区、郊区、工业区等不同场景,也涵盖了白天、黑夜、晴天、雨天、多云等不同时段不同天气状况。数据集中每个场景为20秒的序列。在目标检测任务上,每0.5秒进行一帧注释,被称作为关键帧。标注对象涵盖了小车、行人、摩托车等十类目标,且包括了动静态运动属性。数据集还为每一
帧提供各传感器和车辆的姿态估计信息。此处使用700个场景进行训练、150个场景进行验证,每个部分分别对应28130和6019个关键帧样本。
[0134]
在评估指标方面,该数据集提出了平均精度(map)和nuscenes检测分数(nds)这两个主要评价指标。其中,map指标使用0.5m、1m、2m、4m的鸟瞰中心距离匹配阈值来定义正负样本。map指标计算为公式:
[0135][0136]
其中,代表类别集合,代表距离阈值集合,ap
c,d
代表类别c、距离阈值d下的检测精度。nds则侧重于评估所有真阳性样本tp的预测精度指标。这些指标包括平均平移误差(ate)、平均尺度误差(ase)、平均方向误差(aoe)、平均速度误差(ave)和平均属性误差(aae)。nds为这五类指标的均值,被计算为:
[0137][0138]
其中,代表误差指标集合,tpc代表c类别下的误差值。
[0139]
本实施例在nuscenes数据集上的实验结果如下表1所示。主要考察map和nds以及常见八类障碍物的ap指标。表中的英文缩写分别为:行人(pedstrian,ped)交通锥筒(traffic cone,t.c.)、施工车辆(construction vehicle,c.v.),表中的符号
‘
-’表示模型文献出处缺少相应数据。实验结果表明,提出的多帧时序融合模型mtf整体指标都超越了这些经典的时序算法,且相较于叠帧情况下的3d目标检测算法centerpoint,mtf实现了5.4个map以及3.3个nds的指标提升。实验结果显示,相对于交通锥桶这类静态障碍物,mtf模型在各类车辆以及行人这些动态类别上有更大幅度的提升,这也说明了该方法在时序融合上的有效性和优越性。
[0140]
表1经典时序算法性能对比结果
[0141]
methodmodemapndscarpedbust.c.truckmotorc.v.bicycle3dvid时序45.4—79.776.547.158.833.640.718.17.9tctr时序50.5—83.274.963.752.551.554.015.622.6stgnn时序59.066.786.285.567.271.357.258.114.637.0centerpoint叠帧58.065.584.683.460.276.751.053.717.528.7mtf时序63.468.886.888.271.676.961.475.922.044.8
[0142]
为了更公平地验证mtf模型中设计的transformer时序融合方式的有效性,本实施例对该模型采用了三种不同时序数据处理方式进行实验。包括单帧、叠帧以及融合。其中,单帧是指在transformer多帧融合的交叉注意力模块中,仅输入当前帧的特征图作为被查询对象。叠帧是指将序列帧拼接形成一个稠密点云单帧后,模型对其采用与单帧相同的处理方式。融合是指交叉注意力模块中,同时输入当前帧以及历史帧的特征图作为被查询对象,也即前面介绍的处理方式。针对这三种不同的处理方式,主要分析map和nds以及目标检测中常见的三类目标(车、行人、摩托车)的ap指标。由于nuscenes数据集十分庞大,每次训练需要耗费较长时间,因此后续实验皆在由全量训练集采样出的100个场景的训练子集上进行。实验结果如表2所示,可以看出,使用叠帧的方法能提升0.54个map以及8.19个nds,使
用融合的方式相对于叠帧能进一步提升1.25个map和4.87个nds。且相较于行人,mtf模型提出的时序融合方法对于车辆这种运动速度较快的物体检测精度提升较高,这是因为叠帧的方法没有建立起点云时序的观念,对所有序列帧一视同仁,快速移动的目标产生的拖尾现象将不利于检测框的回归。而本发明提出的时序融合方法通过transformer的可变形交叉注意力机制,充分挖掘前后帧的特征关联,形成结合时序的目标强特征,有效提高最终参数回归的准确性。
[0143]
表2 mtf模型不同模式的性能对比结果
[0144][0145][0146]
为进一步分析时序融合在检测框各回归参数上的性能提升能力,分别统计单帧、叠帧、融合这三种模式下的回归性能指标以及分类指标,包括平均平移误差(ate)、平均尺度误差(ase)、平均方向误差(aoe)和平均属性误差(aae)这四项指标,结果如图13所示。可以看出,使用叠帧的方法能降低各项指标误差值,而使用mtf模型的时序融合处理方法对各项误差指标都能进一步降低,其中平均方向误差(aoe)指标最为明显,相较于单帧情况下误差值下降了46.62%。这是因为多帧融合模型能够从时序上获得目标不同视角的点云信息,挖掘目标更完备的轮廓和朝向特征,这对于目标旋转角的估计是十分重要的。
[0147]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
技术特征:
1.基于transformer的时序点云三维目标检测,其特征在于,构建和训练多帧时序融合模型,包括以下步骤:s1、建立k帧时序点云序列,将各帧点云转换至当前帧坐标系下的统一描述;s2、对各帧点云体素化并使用3d稀疏卷积进行空间特征提取,生成鸟瞰视角下的伪2d特征图;s3、使用多尺度特征融合网络对各帧的鸟瞰特征图做进一步的特征提取和多尺度特征融合,产生结合了高级语义信息以及低级空间信息的特征图;s4、使用tsa中心点预测网络生成时空注意力,对多帧特征图加权融合,产生目标的中心点预测结果;s5、使用transformer多帧融合网络挖掘k帧时序点云的帧间目标关联特征,实现目标的时序特征增强;s6、使用回归检测头对目标特征进行提取与变换,得到目标框的各类回归参数,将目标框的回归参数与步骤s4中通过tsa网络获得的目标中心点预测结果一并解码得到最终检测结果;s7、定义模型的损失函数,使用数据集对所述模型进行训练以及检测结果的评估。2.根据权利要求1所述的基于transformer的时序点云三维目标检测,其特征在于,步骤s1中,根据自车的实时全局位姿以及传感器的实时外参,将非当前帧之外的k-1帧序列点云通过以下公式进行坐标系转换:上式中,p
i
代表第i帧的点云坐标系,c
i
代表第i帧的自车坐标系,代表第i帧点云坐标系到自车坐标系的激光雷达外参变换矩阵;g
i
代表第i帧的车辆全局坐标系,代表第i帧的自车全局位姿;g
k
代表第k帧的车辆全局坐标系,表示第i帧与第k帧的全局坐标系变换矩阵,为单位矩阵;c
k
代表第k帧的自车坐标系,代表第k帧的自车全局位姿;p
k
代表第k帧的点云坐标系,表示第k帧自车坐标系到点云坐标系的变换矩阵,即第k帧激光雷达外参,代表第i帧到第k帧的点云坐标系变化矩阵。3.根据权利要求1所述的基于transformer的时序点云三维目标检测,其特征在于,所述的步骤s2具体过程如下:s21、点云体素化:将多帧点云分别进行体素化,其中,体素化的坐标范围为x∈[-54m,54m],y∈[-54m,54m],z∈[-5m,3m],体素化的分辨率为0.075m
×
0.075m
×
0.2m,从而生成尺寸为16
×
1440
×
1440
×
40的三维体素特征,其中16为特征通道数,m表示米单位;s22、使用3d稀疏卷积网络对体素化后的特征进行特征提取操作。4.根据权利要求3所述的基于transformer的时序点云三维目标检测,其特征在于,3d稀疏卷积网络包括六层子网络串联,使用子流形3d稀疏卷积submconv3d和空间3d稀疏卷积sparseconv3d两种3d稀疏卷积操作,submconv3d保持体素的稀疏性,sparseconv3d扩大感受野,最后将特征沿高度维度进行堆叠,生成鸟瞰视角下的伪2d特征图。5.根据权利要求1所述的基于transformer的时序点云三维目标检测,其特征在于,步骤s3使用多尺度特征融合网络对步骤s2中的鸟瞰伪2d特征进行上下采样,得到多尺度特征
图并进行融合,在下采样和上采样的过程中皆串联一个通道空间注意力机制cbam模块。6.根据权利要求5所述的基于transformer的时序点云三维目标检测,其特征在于,cbam模块为注意力模块,将cbam模块嵌入到多尺度特征融合网络,在通道和空间两个维度上分别产生注意力特征,并与原输入特征图相乘进行自适应特征修正,产生最终的特征图。7.根据权利要求1所述的基于transformer的时序点云三维目标检测,其特征在于,步骤s4的tsa中心点预测网络通过构建的时空注意力自适应地学习到序列帧不同空间位置的特征贡献程度并进行特征加权融合,用于产生表征当前帧目标中心点位置分布情况的热图特征贡献程度并进行特征加权融合,用于产生表征当前帧目标中心点位置分布情况的热图其中h和w分别为热图尺寸,cls代表目标类别数。8.根据权利要求1所述的基于transformer的时序点云三维目标检测,其特征在于,步骤s5中的transformer多帧融合网络包括自注意力模块、可变形交叉注意力模块以及前馈网络;自注意力模块用于同一帧中不同目标之间的交互,可变形交叉注意力模块用于不同帧之间同一目标的特征关联,前馈网络用于提高网络的非线性能力。9.根据权利要求1所述的基于transformer的时序点云三维目标检测,其特征在于,步骤s6中,使用回归检测头获取目标框的各类回归参数,回归检测头包括共享特征提取部分和四类回归参数检测部分,经过参数编解码生成网络预测真值以及检测框的最终参数。10.根据权利要求1~9任一项所述的基于transformer的时序点云三维目标检测,其特征在于,定义损失函数loss,损失函数包括分类损失l
cls
、回归损失l
reg
、以及关键点损失l
key
:loss=λ1l
cls
+λ2l
reg
+λ3l
key
其中,λ1、λ2、λ3分别为各类损失的权重;分类损失作用于tsa中心点预测网络输出的热图针对正负样本不平衡问题,使用focalloss进行分类损失的计算;回归损失作用于回归检测头的参数输出,使用l1损失计算正样本的回归参数与真实值之间的误;关键点损失作为辅助监督,关键点定义为鸟瞰图视角下目标边界框的四个中点以及目标中点,同样产生关键点热图作为训练真值,并用l2损失计算误差。
技术总结
本发明公开了基于Transformer的时序点云三维目标检测,包括以下步骤:建立K帧时序点云序列,将各帧点云转换至当前帧坐标系下的统一描述;对各帧点云体素化并使用3D稀疏卷积进行空间特征提取,生成鸟瞰视角下的伪2D特征图;对各帧的鸟瞰特征图做进一步的特征提取和多尺度特征融合产生特征图;使用TSA中心点预测网络生成时空注意力,对多帧特征图加权融合,产生目标的中心点预测结果;用Transformer多帧融合网络挖掘时序点云的帧间目标关联特征;用回归检测头对目标特征进行提取与变换,得到目标框的各类回归参数,将目标框的回归参数与中心点预测结果一并解码得到最终检测结果。中心点预测结果一并解码得到最终检测结果。中心点预测结果一并解码得到最终检测结果。
技术研发人员:胡斌杰 廖清
受保护的技术使用者:华南理工大学
技术研发日:2023.05.30
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/