一种基于无人系统的激光点云三维目标检测方法

未命名 09-17 阅读:83 评论:0


1.本发明涉及无人系统三维目标检测领域,特别涉及一种基于无人系统的激光点云三维目标检测方法。


背景技术:

2.近年来,随着自动驾驶技术的不断发展,关于对无人系统的智能化要求也在不断提高,目前自动驾驶车辆正朝着高度自动化与完全自动化方向发展。基于对车内人员安全与行驶路线的考虑,无人系统需要对外界环境进行精准感知以实现对外界障碍物的及时规避与行驶路线的精确规划,在行驶过程中若对外界车辆、行人等位置估计不准确,则会大大增加交通事故发生的可能性,严重威胁城市交通的安全性和稳定性,因此,无人系统需要对外界场景,包括车辆、行人等目标进行三维检测,对位置以及距离进行精准估计,保障城市交通系统的安全运转。
3.一般来说,无人系统中目前使用最广泛的视觉传感器是相机,通过获取环境中的颜色与位置信息来实现对外界场景的感知,然而自动驾驶车辆面临着夜晚时刻与恶劣天气条件下能见度低的难题,使用相机作为视觉传感器获取得到的图像质量差,并且缺少场景中的深度信息,严重影响无人系统对周围场景的感知效果,激光雷达能够获取场景中的深度信息且对天气条件要求较低,因此采用激光雷达获取点云信息进行三维目标检测是非常必要的。
4.近几年随着深度学习的飞速发展,逐步使用基于深度学习的激光点云目标检测网络实现对车辆、行人等的三维检测,目前具体实现过程中具有如下难点:
5.1、点云信息具有稀疏与不规则的特点,网络难以直接处理;
6.2、目前一般的点云目标检测网络仅利用点的信息,没有考虑点与点之间的拓扑关系,即边的特征;
7.3、点云信息经过堆叠的卷积层后低级几何特征质量下降,没有充分利用具有丰富空间信息的几何特征。


技术实现要素:

8.本发明提供了一种基于无人系统的激光点云三维目标检测方法,其目的是为了解决背景技术中点云信息网络难以直接处理、点云目标检测网络没有考虑点与点之间的拓扑关系、点云信息经过堆叠的卷积层后低级几何特征质量下降的技术问题。
9.为了达到上述目的,本发明提供的一种基于无人系统的激光点云三维目标检测方法,如图1所示,包括如下步骤:
10.步骤s1:获取基于无人系统的激光点云数据集,对所述激光点云数据集进行预处理,将预处理后的激光点云数据集按照预设比例1:1分为训练集和测试集;
11.步骤s2:构建基于无人系统的激光点云三维目标检测模型,所述激光点云三维目标检测模型包括点云体素化模块、动态边特征编码器、二维编码器、自适应特征融合模块、
多任务检测头预测模块;
12.所述点云体素化模块将点云数据进行规则化与密集化表示,所述动态边特征编码器用于提取体素内点云数据的边特征并进行二维伪图片表示,其中,所述点云数据包括点云的位置信息与角度信息,具体为(x,y,z,r),(x,y,z)为点云数据三维坐标,r为点云数据反射强度,所述二维编码器将二维伪图片进行空间特征与语义特征的多层次特征信息提取,所述自适应特征融合模块通过所述多层次特征信息自适应分配权重给不同层级特征进行特征融合,所述多任务检测头预测模块通过融合特征预测三维目标检测框;
13.步骤s3:将步骤s1中的所述训练集输入至步骤s2中的所述激光点云三维目标检测模型,通过所述训练集的点云检测框、所述三维目标检测框输出以及预设的损失函数对所述激光点云三维目标检测模型进行反向传播并更新模型参数,重复所述步骤s3中上述步骤,最终得到训练好的激光点云三维目标检测模型;
14.步骤s4:将步骤s1中的所述测试集输入至所述训练好的激光点云三维目标检测模型,得到三维目标检测结果。
15.优选地,步骤s2所述点云体素化模块包括以下步骤:
16.步骤s221:以激光雷达作为坐标轴中心,车辆前进方向为x轴方向,车辆向左方向为y轴方向,车辆向上方向为z轴方向,对获取后的激光点云数据集中训练集中的点云数据进行四维张量化表示,具体为(x,y,z,r),(x,y,z)为点云数据三维坐标,r为点云数据反射强度;
17.步骤s222:规定点云场景在(x,y,z)坐标轴上的范围为[(0,69.12),(-39.68,39.68),(-3,1)],每个点云体素规格为(0.16,0.16,4),整个点云场景被划分为432
×
496
×
1个规格相等的体素;
[0018]
步骤s223:每个体素内点的个数不超过32个,若少于32个则进行补零,若超过32个则进行随机采样至32个,并且将每个体素内32个点云的坐标以及反射强度作为点云体素的特征,其数学表示为(432
×
496
×
1,32,4)的张量。
[0019]
优选地,步骤s2所述动态边特征编码器主要包括最近邻采样模块、边缘卷积模块及二维伪图片生成模块,用于提取点云的边特征;
[0020]
其中,最近邻采样模块进行采样具体为:
[0021]
所述边缘卷积模块包括第一个边特征编码器及第二个边特征编码器,分别提取点云的边特征;所述第一个边特征编码器包括两个多层感知机及一个最大池化层,最近邻采样模块获得的采样依次经过两个所述多层感知机及所述最大池化层进行特征提取及编码输出;所述第二个边特征编码器包括一个最近邻采样层、一个多层感知机及一个最大池化层,所述第一个边特征编码器的输出数据通过所述最近邻采样层进行第二次最近邻采样,完成动态更新获取到更深层次的边特征,输入到所述第二个边缘卷积器的多层感知机进行特征提取,然后进行最大池化操作输出特征张量。
[0022]
优选地,步骤s2包括以下步骤:
[0023]
步骤s231:最近邻采样模块采样;具体为:
[0024]
首先输入432
×
496
×
1的点云体素化表示到所述最近邻采样模块,每个体素内包含32个点,每个点的特征为(x,y,z)坐标与反射强度的4维特征,将每个体素内32个点作为顶点,在每个体素内对每个顶点进行最近邻采样至5个点,具体为,最近邻采样模块计算每
个顶点与其余31个顶点之间的距离,获取到距离最近的5个顶点作为当前顶点的最近邻点集,重复32次以遍历每个体素内32个顶点,连接每个体素内32个顶点(xi,yi,zi)(i=0,1,2,

,32)与其最近邻采样点集中点的坐标(x
ij
,y
ij
,z
ij
)(j=0,1,

,5),构建点与点之间的边关系(x
i-x
ij
,y
i-y
ij
,z
i-z
ij
),其数学表示为(432
×
496
×
1,32
×
5,4)的张量,其中,i为每个体素内顶点的数目,合计32个,j为每个顶点最近邻采样的点的数目,合计5个;
[0025]
步骤s232:边缘卷积模块卷积获取点云的边特征,并编码输出;具体包括:
[0026]
步骤s2321:将每个顶点的坐标(xi,yi,zi)与其代表的边关系(x
i-x
ij
,y
i-y
ij
,z
i-z
ij
)作为所述边缘卷积模块的输入,具体为(432
×
496
×
1,32
×
(5+1),4)的张量,首先进入第一个边缘卷积模块利用两个多层感知机进行特征提取,由原来的4维特征变成64维特征,再经过最大池化层编码输出,输出为(432
×
496
×
1,32,64)的张量;
[0027]
步骤s2322:将所述第一个边缘卷积模块的输出进行第二次最近邻采样完成动态更新获取到更深层次的边特征,输入到第二个边缘卷积模块利用一个多层感知机进行特征提取,由64维特征变成更深层次的64维特征,然后进行最大池化操作输出为(432
×
496
×
1,1,64)的特征张量;
[0028]
步骤s233:二维伪图片生成模块生成二维伪图片;具体为:
[0029]
所述二维伪图片生成模块进行张量转变操作,将(432
×
496
×
1,1,64)的特征张量形式转变为(432,496,64)的标准二维图片张量形式,其中h=432,w=496,c=64,h为二维伪图片的高度,w为二维伪图片的宽度,c为二维伪图片的通道数量。
[0030]
优选地,步骤s2所述二维编码器主要由3个block组成,第一个block由3个3
×
3的二维卷积层构成,第二个block由5个3
×
3的二维卷积层构成,第三个block由5个3
×
3的二维卷积层构成,包括以下步骤:
[0031]
步骤s241:第一个block对输入二维伪图片进行空间特征或/和语义特征的特征提取生成216
×
248
×
64的二维特征表达;
[0032]
步骤s242:步骤s241中的二维特征表达继续输入到第二个block进行空间特征或/和语义特征的特征提取生成108
×
124
×
128的二维特征表达;
[0033]
步骤s243:步骤s242中的二维特征表达继续输入到第三个block进行空间特征或/和语义特征的特征提取生成54
×
62
×
256的二维特征表达;
[0034]
步骤s244:二维编码器输出:3个block输出的3个二维特征表达是所述二维编码器的输出。
[0035]
优选地,步骤s2所述自适应特征融合模块,包含上采样模块、全连接模块、特征融合模块三个部分,包括以下步骤:
[0036]
步骤s251:上采样模块上采样:首先分别输入到1
×
1(deconv)上采样卷积、2
×
2上采样(deconv)卷积以及4
×
4上采样(deconv)卷积共3个上采样卷积层构成的上采样模块,二维编码器的3个输出,即216
×
248
×
64的二维特征表达,108
×
124
×
128的二维特征表达及54
×
62
×
256的二维特征表达,分别经过3个上采样卷积层;
[0037]
步骤s252:全连接模块拼接输出:全连接模块包括两层依次连接的全连接层,所述步骤s251中经过上采样卷积层的输出,再输入到全连接模块,3个输入分别依次通过两层全连接层并进行拼接输出为216
×
248
×
3的特征表达;
[0038]
其中第一层所述全连接层包含3路输入及3路输出;3路输入为分别经过3个上采样
卷积层的输出,3路输出均为216
×
248
×
128的特征表达;
[0039]
第二层所述全连接层包含3路输入及3路输出;3路输入为分别经过第一层全连接层的输出,3路输出均为216
×
248
×
1的特征表达;第二层所述全连接层的3路输出经过concatenate后输出为216
×
248
×
3的1路输出;
[0040]
步骤s253:特征融合模块特征融合:所述步骤s252中的216
×
248
×
3特征表达输出继续进入到特征融合模块通过一个softmax层进行自适应权重分配,分别把自适应权重分配给所述全连接模块的第一层所述全连接层的3路输出,完成特征融合。
[0041]
优选地,所述自适应特征融合模块具体为:
[0042]
y=(w1(deconv(x)))
·
softmax(w2(w1(deconv(x))))
[0043]
其中,x为所述自适应特征融合模块的输入,y为所述自适应特征融合模块的输出,deconv为上采样卷积,w1、w2分别为两层全连接层,softmax为softmax层。
[0044]
优选地,步骤s2所述多任务检测头预测模块包含预测框的分类、预测框的回归、预测框方向的分类;预测框的分类主要包含小汽车、行人、自行车三类目标的分类;预测框的回归目的在于生成精确的三维目标检测框,主要对检测框的中心点坐标、长、宽、高、角度进行回归,其向量表示为(x,y,z,w,h,l,r),预测框方向的分类用于对预测框真实方向与真实相反方向进行分类,避免在预测框回归时角度回归损失过大,便于模型训练。
[0045]
优选地,步骤s3中预设的所述损失函数,具体为:
[0046][0047]
其中,w=1.0,μ=2.0,λ=0.2,n
pos
为正样本的数量,l
cls
为预测框分类损失,l
box
为边界框回归损失,l
dir
为方向分类损失,l为总损失。
[0048]
优选地,s3步骤还包括如下步骤:进行方法验证并评估;
[0049]
进行方法验证并评估中的评估方法包括ap平均精度、aos平均方向相似度,ap主要用于定量分析模型精度,aos主要用来衡量检测结果与地面真实检测框的方向相似度。
[0050]
优选地,ap主要包含ap
bbox
、ap
bev
、ap
3d
、ap
aos
四种评估指标,ap
bbox
表示二维检测框的准确程度,ap
bev
表示鸟瞰视图下检测框的准确程度,ap
3d
表示三维检测框的准确程度,ap
aos
表示检测框角度的准确程度;
[0051]
通过三维预测框与地面真实框之间的重合程度来定义三维检测模型预测位置与深度的准确程度,具体为:
[0052][0053]
其中,iou为交并比,用来衡量预测框与gt框的重合程度,pre为预测框,gt为真实框,s为框的面积或者体积,iou阈值为0.7;
[0054]
采用ap值评估模型精度,精确度(p)是真实正样本(tp)的数量与tp和错误正样本(fp)数量之和的比值,召回率(r)是tp的数量与tp和错误负样本(fn)数量之和的比值,给定不同阈值会有不同的精确率和召回率,ap是阈值t为不同离散数值时精确率的平均值,具体为:
[0055][0056][0057][0058]
ρ
interp
(r)=maxr′
:r

≥r
(r

)
[0059]
其中,tp为真实正样本数量,即预测为真实框且iou大于等于预设阈值,fp为错误正样本数量,即预测为真实框但iou小于预设阈值,fn为错误负样本,即预测为错误框且iou小于预设阈值,ap|r为平均精度,ρ
interp
(r)为内插函数,计算平均精度时仅仅评估目标高度大于25pixel的预测结果,将易混淆的类别视为同一类以减少假阳性率,并使用41个等间距recall上的精确值的平均值近似计算分类器的ap。
[0060]
使用平均方向相似性进行目标方向预测,具体为:
[0061][0062][0063]
其中,aos为平均方向相似性,r为目标预测的召回率,s(r)为在召回率r的条件下的方向相似性,方向相似性s∈[0,1]为所有预测样本与gt余弦距离的归一化,d(r)为在召回率r下所有预测为正样本的集合,表示目标i的预测角度与gt的差值,若检测出i已经与gt相吻合,则δi=1,否则δi=0。
[0064]
本发明提供了一种基于无人系统的激光点云三维目标检测方法,其主要由点云体素化模块进行点云规则化表示,再利用边特征提取器通过提取体素内点云的边特征提取增强点云的表征能力,使模型学习到点与点之间拓扑关系,有利于提取更丰富的点云信息,采用二维编码器作为主干网络,相比于三维编码器的稀疏卷积效率更高,利用自适应特征融合模块引入自适应融合比例分配机制,通过二维编码器不同层级输出的特征图作为参考,进行特征学习生成自适应权重分配给多层特征图进行加权融合,更加进一步完成点云信息的低层特征与高层特征的有效结合,最终通过检测头预测检测框,实现目标的高精度与高效率的三维检测。本发明主要应用于无人系统三维目标检测领域,所提出的动态边缘卷积模块与自适应特征融合网络从不同的角度对点云信息进行特征提取,增强点云信息的空间表达能力与多层次特征的结合能力,从而获得更加丰富与精细的特征表示,提高激光点云三维目标检测的精度。
附图说明
[0065]
图1为本发明的一种基于无人系统的激光点云三维目标检测方法的一较佳实施例
的实施流程图;
[0066]
图2为本发明的一种基于无人系统的激光点云三维目标检测方法的一较佳实施例的三维检测模型整体框架图;
[0067]
图3为本发明的一种基于无人系统的激光点云三维目标检测方法的一较佳实施例的边特征提取器具体模型图;
[0068]
图4为本发明的一种基于无人系统的激光点云三维目标检测方法的一较佳实施例的自适应特征融合模块具体模型图。
具体实施方式
[0069]
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
[0070]
在本发明中的“第一”、“第二”等描述,仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量或顺序。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个、三个等,除非另有明确具体的限定。
[0071]
本发明针对现有的问题,提供了一种基于无人系统的激光点云三维目标检测方法。
[0072]
参照图1,本技术实施例提供了一种基于无人系统的激光点云三维目标检测方法,包含如下步骤:
[0073]
步骤s1:获取基于无人系统的激光点云数据集,对所述激光点云数据集进行预处理,将预处理后的激光点云数据集按照预设比例1:1分为训练集和测试集。
[0074]
具体地,在自动驾驶公开数据集上进行实验验证:在kitti 3d公开数据集(由德国卡尔斯厄理工学院和丰田美国技术研究院联合创办的数据集,利用组装的设备齐全的采集车辆对实际交通场景进行数据采集获得的公开数据集)上进行方法验证并评估,kitti数据集是自动驾驶领域三维目标检测的公开数据集,主要包含对车辆、行人、自行车等类别的三维目标检测,其中包括7481个训练集样本和7518个测试集样本,在此基础上将训练集划分为3712个样本的训练集和3769个样本的验证集。
[0075]
方法验证前的数据处理为三种类型的数据增强,第一种类型是对输入点云随机左右或前后翻转。第二种类型是旋转输入点云,对于kitti数据集角度通常落入[-45
°
,45
°
]的范围,在此基础上放缩输入点云,对于kitti数据集比例通常落入[0.95,1.05]的范围。第三种类型是如果当前样本的地面真实目标比较少的情况下,从kitti数据集的全体地面真实目标库里面采样一些地面真实目标填充到当前的样本中。
[0076]
步骤s2:构建基于无人系统的激光点云三维目标检测模型,所述激光点云三维目标检测模型包括点云体素化模块、动态边特征编码器、二维编码器、自适应特征融合模块、多任务检测头预测模块。
[0077]
具体地,激光点云三维目标检测模型示意图如图2所示。
[0078]
所述点云体素化模块将点云数据进行规则化与密集化表示,所述动态边特征编码器用于提取体素内点云数据的边特征并进行二维伪图片表示,其中,所述点云数据包括点云的位置信息与角度信息,具体为(x,y,z,r),(x,y,z)为点云数据三维坐标,r为点云数据
反射强度,所述二维编码器将二维伪图片进行空间特征与语义特征的多层次特征信息提取,所述自适应特征融合模块通过所述多层次特征信息自适应分配权重给不同层级特征进行特征融合,所述多任务检测头预测模块通过融合特征预测三维目标检测框。
[0079]
步骤s3:将步骤s1中的所述训练集输入至步骤s2中的所述激光点云三维目标检测模型,通过所述训练集的点云检测框、所述三维目标检测框输出以及预设的损失函数对所述激光点云三维目标检测模型进行反向传播并更新模型参数,重复所述步骤s3中上述步骤,最终得到训练好的激光点云三维目标检测模型。
[0080]
在一个实施例中,步骤s2所述点云体素化模块包括以下步骤:
[0081]
步骤s221:以激光雷达作为坐标轴中心,车辆前进方向为x轴方向,车辆向左方向为y轴方向,车辆向上方向为z轴方向,对获取后的激光点云数据集中训练集中的点云数据进行四维张量化表示,具体为(x,y,z,r),(x,y,z)为点云数据三维坐标,r为点云数据反射强度步骤s222:规定点云场景在(x,y,z)坐标轴上的范围为[(0,69.12),(-39.68,39.68),(-3,1)],每个点云体素规格为(0.16,0.16,4),因此整个原始点云场景被划分为432
×
496
×
1个规格相等的体素;
[0082]
步骤s222:规定点云场景在(x,y,z)坐标轴上的范围为[(0,69.12),(-39.68,39.68),(-3,1)],每个点云体素规格为(0.16,0.16,4),整个点云场景被划分为432
×
496
×
1个规格相等的体素;
[0083]
步骤s223:每个体素内点的个数不超过32个,若少于32个则进行补零,若超过32个则进行随机采样至32个,并且将每个体素内32个点云的坐标以及反射强度作为点云体素的特征,其数学表示为(432
×
496
×
1,32,4)的张量。
[0084]
如图3所示,在一个实施例中,步骤s2所述动态边特征编码器主要包括最近邻采样模块、边缘卷积模块、二维伪图片生成模块,用于提取点云的边特征;
[0085]
最近邻采样模块进行采样具体为:
[0086]
所述边缘卷积模块包括第一个边特征编码器及第二个边特征编码器,分别提取点云的边特征;所述第一个边特征编码器包括两个多层感知机及一个最大池化层,最近邻采样模块获得的采样依次经过两个所述多层感知机及所述最大池化层进行特征提取及编码输出;所述第二个边特征编码器包括一个最近邻采样层、一个多层感知机及一个最大池化层,所述第一个边特征编码器的输出数据通过所述最近邻采样层进行第二次最近邻采样,完成动态更新获取到更深层次的边特征,输入到所述第二个边缘卷积器的多层感知机进行特征提取,然后进行最大池化操作输出特征张量。
[0087]
步骤s2包括以下步骤:
[0088]
步骤s231:最近邻采样模块采样;具体为:
[0089]
首先输入432
×
496
×
1的点云体素化表示到所述最近邻采样模块,每个体素内包含32个点,每个点的特征为(x,y,z)坐标与反射强度的4维特征,将每个体素内32个点作为顶点,在每个体素内对每个顶点进行最近邻采样至5个点,具体为,最近邻采样模块计算每个顶点与其余31个顶点之间的距离,获取到距离最近的5个顶点作为当前顶点的最近邻点集,重复32次以遍历每个体素内32个顶点,连接每个体素内32个顶点(xi,yi,zi)(i=0,1,2,

,32)与其最近邻采样点集中点的坐标(x
ij
,y
ij
,z
ij
)(j=0,1,

,5),构建点与点之间的边关系(x
i-x
ij
,y
i-y
ij
,z
i-z
ij
),其数学表示为(432
×
496
×
1,32
×
5,4)的张量,其中,i为每
个体素内顶点的数目,合计32个,j为每个顶点最近邻采样的点的数目,合计5个;
[0090]
这5个点侧重点在于数目,由于采用的采样算法是最近邻采样算法,所以这5个点的位置是体素内32个点通过最近邻采样算法计算出的离顶点(xi,yi,zi)(i=0,1,2,

,32)最近的5个点,其位置信息取决于顶点位置与最近邻采样算法。
[0091]
步骤s232:边缘卷积模块卷积获取点云的边特征,并编码输出;具体包括:
[0092]
步骤s2321:将每个顶点的坐标(xi,yi,zi)与其代表的边关系(x
i-x
ij
,y
i-y
ij
,z
i-z
ij
)作为所述边缘卷积模块的输入,具体为(432
×
496
×
1,32
×
(5+1),4)的张量,首先进入第一个边缘卷积模块利用两个多层感知机进行特征提取,由原来的4维特征变成64维特征,再经过最大池化层编码输出,输出为(432
×
496
×
1,32,64)的张量;
[0093]
步骤s2322:将所述第一个边缘卷积模块的输出进行第二次最近邻采样完成动态更新获取到更深层次的边特征,输入到第二个边缘卷积模块利用一个多层感知机进行特征提取,由64维特征变成更深层次的64维特征,然后进行最大池化操作输出为(432
×
496
×
1,1,64)的特征张量;
[0094]
步骤s233:二维伪图片生成模块生成二维伪图片;具体为:
[0095]
所述二维伪图片生成模块进行张量转变操作,将(432
×
496
×
1,1,64)的特征张量形式转变为(432,496,64)的标准二维图片张量形式,其中h=432,w=496,c=64,h为二维伪图片的高度,w为二维伪图片的宽度,c为二维伪图片的通道数量。
[0096]
在一个实施例中,步骤s2所述二维编码器主要由3个block组成,第一个block由3个3
×
3的二维卷积层构成,第二个block由5个3
×
3的二维卷积层构成,第三个block由5个3
×
3的二维卷积层构成,包括以下步骤:
[0097]
步骤s241:第一个block对输入二维伪图片进行空间特征或/和语义特征的特征提取生成216
×
248
×
64的二维特征表达;
[0098]
步骤s242:步骤s241中的二维特征表达继续输入到第二个block进行空间特征或/和语义特征的特征提取生成108
×
124
×
128的二维特征表达;
[0099]
步骤s243:步骤s242中的二维特征表达继续输入到第三个block进行空间特征或/和语义特征的特征提取生成54
×
62
×
256的二维特征表达;
[0100]
步骤s244:二维编码器输出:3个block输出的3个二维特征表达是所述二维编码器的输出。
[0101]
如图4所示,在一个实施例中,步骤s2所述自适应特征融合模块,包含上采样模块、全连接模块、特征融合模块三个部分,将低层几何特征与高层语义特征自适应融合,包括以下步骤:
[0102]
步骤s251:上采样模块上采样:首先分别输入到1
×
1上采样(deconv)卷积、2
×
2上采样(deconv)卷积以及4
×
4上采样(deconv)卷积共3个上采样卷积层构成的上采样模块,二维编码器的3个输出,即216
×
248
×
64的二维特征表达,108
×
124
×
128的二维特征表达及54
×
62
×
256的二维特征表达,分别经过3个上采样卷积层;
[0103]
步骤s252:全连接模块拼接输出:全连接模块包括两层依次连接的全连接层,所述步骤s251中经过上采样卷积层的输出,再输入到全连接模块,3个上采样卷积层的输出作为全连接模块的输入分别依次通过两层全连接层并进行拼接输出为216
×
248
×
3的特征表达;
[0104]
其中第一层所述全连接层包含3路输入及3路输出;3路输入为分别经过3个上采样卷积层的输出,3路输出均为216
×
248
×
128的特征表达;
[0105]
第二层所述全连接层包含3路输入及3路输出;3路输入为分别经过第一层全连接层的输出,3路输出均为216
×
248
×
1的特征表达;第二层所述全连接层的3路输出经过concatenate后输出为216
×
248
×
3的1路输出;
[0106]
步骤s253:特征融合模块特征融合:所述步骤s252中的216
×
248
×
3特征表达输出继续进入到特征融合模块通过一个softmax层进行自适应权重分配,分别把自适应权重分配给所述全连接模块的第一层所述全连接层的3路输出,完成特征融合。在一个实施例中,自适应特征融合模块具体为:
[0107]
y=(w1(deconv(x)))
·
softmax(w2(w1(deconv(x))))
[0108]
其中,x为所述自适应特征融合模块的输入,y为所述自适应特征融合模块的输出,deconv为上采样卷积,w1、w2分别为两层全连接层,softmax为softmax层。
[0109]
在一个实施例中,步骤s2所述多任务检测头预测模块包含预测框的分类、预测框的回归、预测框方向的分类。
[0110]
其中预测框的分类主要包含小汽车(car)、行人(pedestrain)、自行车(cyclist)三类目标的分类;预测框的回归目的在于生成精确的三维目标检测框,主要对检测框的中心点坐标、长、宽、高、角度进行回归,其向量表示为(x,y,z,w,h,l,r),预测框方向的分类用于对预测框真实方向与真实相反方向进行分类,避免在预测框回归时角度回归损失过大,便于模型训练。
[0111]
在一个实施例中,步骤s3中预设的所述损失函数,具体为:
[0112][0113]
其中,w=1.0,μ=2.0,λ=0.2,n
pos
为正样本的数量,l
cls
为预测框分类损失,l
box
为边界框回归损失,l
dir
为方向分类损失,l为总损失。
[0114]
进行方法验证并评估中的评估方法包括average precision(ap)平均精度、average orientation similarity(aos)平均方向相似度,ap主要用于定量分析模型精度,aos主要用来衡量检测结果与地面真实检测框的方向相似度。
[0115]
进一步地,ap主要包含ap
bbox
、ap
bev
、ap
3d
、ap
aos
四种评估指标,ap
bbox
表示二维检测框的准确程度,ap
bev
表示鸟瞰视图下检测框的准确程度,ap
3d
表示三维检测框的准确程度,ap
aos
表示检测框角度的准确程度。
[0116]
进一步地,通过三维预测框与地面真实框之间的重合程度来定义三维检测模型预测位置与深度的准确程度,具体为:
[0117][0118]
其中,iou为交并比,用来衡量预测框与gt框的重合程度,pre为预测框,gt为真实框,s为框的面积或者体积,iou阈值为0.7。
[0119]
进一步地,采用ap值评估模型精度,精确度(p)是真实正样本(tp)的数量与tp和错误正样本(fp)数量之和的比值,召回率(r)是tp的数量与tp和错误负样本(fn)数量之和的
比值,给定不同阈值会有不同的精确率和召回率,ap是阈值t为不同离散数值时精确率的平均值,具体为:
[0120][0121][0122]
ρ
interp
(r)=maxr′
:

≥r
(r

)
[0123]
其中,tp为真实正样本数量,即预测为真实框且iou大于等于预设阈值,fp为错误正样本数量,即预测为真实框但iou小于预设阈值,fn为错误负样本,即预测为错误框且iou小于预设阈值,ap|r为平均精度,ρ
interp
(r)为内插函数,计算平均精度时仅仅评估目标高度大于25pixel的预测结果,将易混淆的类别视为同一类以减少假阳性率,并使用41个等间距recall上的精确值的平均值近似计算分类器的ap。
[0124]
进一步地,使用平均方向相似性进行目标方向预测,具体为:
[0125][0126][0127]
其中,aos为平均方向相似性,r为目标预测的召回率,s(r)为在召回率r的条件下的方向相似性,方向相似性sε[0,1]为所有预测样本与gt余弦距离的归一化,d(r)为在召回率r下所有预测为正样本的集合,表示目标i的预测角度与gt的差值,若检测出i已经与gt相吻合,则δi=1,否则δi=0。
[0128]
进一步地,模型训练使用的是adam优化器,在单张3090显卡上以batchsize=2的设置进行训练,训练epoch实际为160。
[0129]
步骤s4:将步骤s1中的所述测试集输入至所述训练好的激光点云三维目标检测模型,得到三维目标检测结果。
[0130]
本发明提供了一种基于无人系统的激光点云三维目标检测方法,其主要由点云体素化模块进行点云规则化表示,再利用边特征提取器通过提取体素内点云的边特征提取增强点云的表征能力,使模型学习到点与点之间拓扑关系,有利于提取更丰富的点云信息,采用二维编码器作为主干网络,相比于三维编码器的稀疏卷积效率更高,利用自适应特征融合模块引入自适应融合比例分配机制,通过二维编码器不同层级输出的特征图作为参考,进行特征学习生成自适应权重分配给多层特征图进行加权融合,更加进一步完成点云信息的低层特征与高层特征的有效结合,最终通过检测头预测检测框,实现目标的高精度与高
效率的三维检测。本发明主要应用于无人系统三维目标检测领域,所提出的动态边缘卷积模块与自适应特征融合网络从不同的角度对点云信息进行特征提取,增强点云信息的空间表达能力与多层次特征的结合能力,从而获得更加丰富与精细的特征表示,提高激光点云三维目标检测的精度。
[0131]
本发明的有益效果:
[0132]
1、本发明所设计的点云三维检测模型避免采用三维稀疏卷积模块,在进行点云稀疏化后便使用边卷积与二维卷积方式进行特征提取,避免了繁重的运算,推理速度得到提升,更加偏向于工业化的三维检测模型;
[0133]
2、本发明所设计的动态边特征提取器在注重点云特征提取的基础上增加了对点与点之间的拓扑关系的关注,有效解决了目标遮挡所带来的点云信息不全或丢失问题,通过构造目标点云中边的关系来提高点云数据几何信息的表征能力,使检测精度得到有效提升;
[0134]
3、本发明所设计的自适应特征融合模块避免了高层语义特征和低层几何特征的刚性相加,通过一个自适应因子进行权重分配,实现高层语义特征和低层几何特征的柔性融合,有效解决了点云信息经过堆叠的卷积层后低级几何特征质量下降的问题,提高几何信息的表征能力,本发明在公共数据集kitti数据集上面汽车简单检测难度ap为88.13%,自行车简单检测难度ap为82.13%的检测结果,并且推理速度较快,属于检测效果较为优秀的高速度三维目标检测方法。
[0135]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。并且,本发明各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种基于无人系统的激光点云三维目标检测方法,其特征在于,包括如下步骤:步骤s1:获取基于无人系统的激光点云数据集,对所述激光点云数据集进行预处理,将预处理后的激光点云数据集按照预设比例1:1分为训练集和测试集;步骤s2:构建基于无人系统的激光点云三维目标检测模型,所述激光点云三维目标检测模型包括点云体素化模块、动态边特征编码器、二维编码器、自适应特征融合模块、多任务检测头预测模块;所述点云体素化模块将点云数据进行规则化与密集化表示,所述动态边特征编码器用于提取体素内点云数据的边特征并进行二维伪图片表示,其中,所述点云数据包括点云的位置信息与角度信息,具体为(x,y,z,r),(x,y,z)为点云数据三维坐标,r为点云数据反射强度,所述二维编码器将二维伪图片进行空间特征与语义特征的多层次特征信息提取,所述自适应特征融合模块通过所述多层次特征信息自适应分配权重给不同层级特征进行特征融合,所述多任务检测头预测模块通过融合特征预测三维目标检测框;步骤s3:将步骤s1中的所述训练集输入至步骤s2中的所述激光点云三维目标检测模型,通过所述训练集的点云检测框、所述三维目标检测框输出以及预设的损失函数对所述激光点云三维目标检测模型进行反向传播并更新模型参数,重复所述步骤s3中上述步骤,最终得到训练好的激光点云三维目标检测模型;步骤s4:将步骤s1中的所述测试集输入至所述训练好的激光点云三维目标检测模型,得到三维目标检测结果。2.根据权利要求1所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,步骤s2所述点云体素化模块包括以下步骤:步骤s221:以激光雷达作为坐标轴中心,车辆前进方向为x轴方向,车辆向左方向为y轴方向,车辆向上方向为z轴方向,对获取后的激光点云数据集中训练集中的点云数据进行四维张量化表示,具体为(x,y,z,r),(x,y,z)为点云数据三维坐标,r为点云数据反射强度;步骤s222:规定点云场景在(x,y,z)坐标轴上的范围为[(0,69.12),(-39.68,39.68),(-3,1)],每个点云体素规格为(0.16,0.16,4),整个点云场景被划分为432
×
496
×
1个规格相等的体素;步骤s223:每个体素内点的个数不超过32个,若少于32个则进行补零,若超过32个则进行随机采样至32个,并且将每个体素内32个点云的坐标以及反射强度作为点云体素的特征,其数学表示为(432
×
496
×
1,32,4)的张量。3.根据权利要求2所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,步骤s2所述动态边特征编码器主要包括最近邻采样模块、边缘卷积模块及二维伪图片生成模块,用于提取点云的边特征;其中,最近邻采样模块进行采样具体为:所述边缘卷积模块包括第一个边特征编码器及第二个边特征编码器,分别提取点云的边特征;所述第一个边特征编码器包括两个多层感知机及一个最大池化层,最近邻采样模块获得的采样依次经过两个所述多层感知机及所述最大池化层进行特征提取及编码输出;所述第二个边特征编码器包括一个最近邻采样层、一个多层感知机及一个最大池化层,所述第一个边特征编码器的输出数据通过所述最近邻采样层进行第二次最近邻采样,完成动态更新获取到更深层次的边特征,输入到所述第二个边缘卷积器的多层感知机进行特征提
取,然后进行最大池化操作输出特征张量。4.根据权利要求1所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,步骤s2包括以下步骤:步骤s231:最近邻采样模块采样;具体为:首先输入432
×
496
×
1的点云体素化表示到所述最近邻采样模块,每个体素内包含32个点,每个点的特征为(x,y,z)坐标与反射强度的4维特征,将每个体素内32个点作为顶点,在每个体素内对每个顶点进行最近邻采样至5个点,具体为,最近邻采样模块计算每个顶点与其余31个顶点之间的距离,获取到距离最近的5个顶点作为当前顶点的最近邻点集,重复32次以遍历每个体素内32个顶点,连接每个体素内32个顶点(x
i
,y
i
,z
i
)(i=0,1,2,

,32)与其最近邻采样点集中点的坐标(x
ij
,y
ij
,z
ij
)(j=0,1,

,5),构建点与点之间的边关系(x
i-x
ij
,y
i-y
ij
,z
i-z
ij
),其数学表示为(432
×
496
×
1,32
×
5,4)的张量,其中,i为每个体素内顶点的数目,合计32个,j为每个顶点最近邻采样的点的数目,合计5个;步骤s232:边缘卷积模块卷积获取点云的边特征,并编码输出;具体包括:步骤s2321:将每个顶点的坐标(x
i
,y
i
,z
i
)与其代表的边关系(x
i-x
ij
,y
i-y
ij
,z
i-z
ij
)作为所述边缘卷积模块的输入,具体为(432
×
496
×
1,32
×
(5+1),4)的张量,首先进入第一个边缘卷积模块利用两个多层感知机进行特征提取,由原来的4维特征变成64维特征,再经过最大池化层编码输出,输出为(432
×
496
×
1,32,64)的张量;步骤s2322:将所述第一个边缘卷积模块的输出进行第二次最近邻采样完成动态更新获取到更深层次的边特征,输入到第二个边缘卷积模块利用一个多层感知机进行特征提取,由64维特征变成更深层次的64维特征,然后进行最大池化操作输出为(432
×
496
×
1,1,64)的特征张量;步骤s233:二维伪图片生成模块生成二维伪图片;具体为:所述二维伪图片生成模块进行张量转变操作,将(432
×
496
×
1,1,64)的特征张量形式转变为(432,496,64)的标准二维图片张量形式,其中h=432,w=496,c=64,h为二维伪图片的高度,w为二维伪图片的宽度,c为二维伪图片的通道数量。5.根据权利要求1所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,步骤s2所述二维编码器主要由3个block组成,第一个block由3个3
×
3的二维卷积层构成,第二个block由5个3
×
3的二维卷积层构成,第三个block由5个3
×
3的二维卷积层构成,包括以下步骤:步骤s241:第一个block对输入二维伪图片进行空间特征或/和语义特征的特征提取生成216
×
248
×
64的二维特征表达;步骤s242:步骤s241中的二维特征表达继续输入到第二个block进行空间特征或/和语义特征的特征提取生成108
×
124
×
128的二维特征表达;步骤s243:步骤s242中的二维特征表达继续输入到第三个block进行空间特征或/和语义特征的特征提取生成54
×
62
×
256的二维特征表达;步骤s244:二维编码器输出:3个block输出的3个二维特征表达是所述二维编码器的输出。6.根据权利要求5所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,步骤s2所述自适应特征融合模块,包含上采样模块、全连接模块、特征融合模块三个部
分,包括以下步骤:步骤s251:上采样模块上采样:首先分别输入到1
×
1(deconv)上采样卷积、2
×
2上采样(deconv)卷积以及4
×
4上采样(deconv)卷积共3个上采样卷积层构成的上采样模块,二维编码器的3个输出,即216
×
248
×
64的二维特征表达,108
×
124
×
128的二维特征表达及54
×
62
×
256的二维特征表达,分别经过3个上采样卷积层;步骤s252:全连接模块拼接输出:全连接模块包括两层依次连接的全连接层,所述步骤s251中经过上采样卷积层的输出,再输入到全连接模块,3个上采样卷积层的输出作为全连接模块的输入分别依次通过两层全连接层并进行拼接输出为216
×
248
×
3的特征表达;其中第一层所述全连接层包含3路输入及3路输出;3路输入为分别经过3个上采样卷积层的输出,3路输出均为216
×
248
×
128的特征表达;第二层所述全连接层包含3路输入及3路输出;3路输入为分别经过第一层全连接层的输出,3路输出均为216
×
248
×
1的特征表达;第二层所述全连接层的3路输出经过concatenate后输出为216
×
248
×
3的1路输出;步骤s253:特征融合模块特征融合:所述步骤s252中的216
×
248
×
3特征表达输出继续进入到特征融合模块通过一个softmax层进行自适应权重分配,分别把自适应权重分配给所述全连接模块的第一层所述全连接层的3路输出,完成特征融合。7.根据权利要求5所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,所述自适应特征融合模块具体为:y=(w1(deconv(x)))
·
softmax(w2(w1(deconv(x))))其中,x为所述自适应特征融合模块的输入,y为所述自适应特征融合模块的输出,deconv为上采样卷积,w1、w2分别为两层全连接层,softmax为softmax层。8.根据权利要求1所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,步骤s2所述多任务检测头预测模块包含预测框的分类、预测框的回归、预测框方向的分类;预测框的分类主要包含小汽车、行人、自行车三类目标的分类;预测框的回归目的在于生成精确的三维目标检测框,主要对检测框的中心点坐标、长、宽、高、角度进行回归,其向量表示为(x,y,z,w,h,l,r),预测框方向的分类用于对预测框真实方向与真实相反方向进行分类,避免在预测框回归时角度回归损失过大,便于模型训练。9.根据权利要求1所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,步骤s3中预设的所述损失函数,具体为:其中,w=1.0,μ=2.0,λ=0.2,n
pos
为正样本的数量,l
cls
为预测框分类损失,l
box
为边界框回归损失,l
dir
为方向分类损失,l为总损失。10.根据权利要求1所述的一种基于无人系统的激光点云三维目标检测方法,其特征在于,s3步骤还包括如下步骤:进行方法验证并评估;进行方法验证并评估中的评估方法包括ap平均精度、aos平均方向相似度,ap主要用于定量分析模型精度,aos主要用来衡量检测结果与地面真实检测框的方向相似度。11.根据权利要求10所述的一种基于无人系统的激光点云三维目标检测方法,其特征
在于,ap主要包含ap
bbox
、ap
bev
、ap
3d
、ap
aos
四种评估指标,ap
bbox
表示二维检测框的准确程度,ap
bev
表示鸟瞰视图下检测框的准确程度,ap
3d
表示三维检测框的准确程度,ap
aos
表示检测框角度的准确程度;通过三维预测框与地面真实框之间的重合程度来定义三维检测模型预测位置与深度的准确程度,具体为:其中,iou为交并比,用来衡量预测框与gt框的重合程度,pre为预测框,gt为真实框,s为框的面积或者体积,iou阈值为0.7;采用ap值评估模型精度,精确度(p)是真实正样本(tp)的数量与tp和错误正样本(fp)数量之和的比值,召回率(r)是tp的数量与tp和错误负样本(fn)数量之和的比值,给定不同阈值会有不同的精确率和召回率,ap是阈值t为不同离散数值时精确率的平均值,具体为:阈值会有不同的精确率和召回率,ap是阈值t为不同离散数值时精确率的平均值,具体为:阈值会有不同的精确率和召回率,ap是阈值t为不同离散数值时精确率的平均值,具体为:ρ
interp
(r)=max
r

:r

≥r
(r

)其中,tp为真实正样本数量,即预测为真实框且iou大于等于预设阈值,fp为错误正样本数量,即预测为真实框但iou小于预设阈值,fn为错误负样本,即预测为错误框且iou小于预设阈值,ap|
r
为平均精度,ρ
interp
(r)为内插函数,计算平均精度时仅仅评估目标高度大于25pixel的预测结果,将易混淆的类别视为同一类以减少假阳性率,并使用41个等间距recall上的精确值的平均值近似计算分类器的ap;使用平均方向相似性进行目标方向预测,具体为:使用平均方向相似性进行目标方向预测,具体为:其中,aos为平均方向相似性,r为目标预测的召回率,s(r)为在召回率r的条件下的方向相似性,方向相似性s∈[0,1]为所有预测样本与gt余弦距离的归一化,d(r)为在召回率r下所有预测为正样本的集合,表示目标i的预测角度与gt的差值,若检测出i已经与gt相吻合,则δ
i
=1,否则δ
i
=0。

技术总结
本发明提供了一种基于无人系统的激光点云三维目标检测方法包括如下步骤:步骤S1:获取基于无人系统的激光点云数据集,对所述激光点云数据集进行预处理,将预处理后的激光点云数据集按照预设比例1:1分为训练集和测试集;步骤S2:构建基于无人系统的激光点云三维目标检测模型;步骤S3:将所述训练集输入至所述激光点云三维目标检测模型,得到训练好的激光点云三维目标检测模型;步骤S4:将所述测试集输入至所述训练好的激光点云三维目标检测模型,得到三维目标检测结果。本发明所提出的动态边缘卷积模块与自适应特征融合网络具有更加丰富与精细的特征表示,提高激光点云三维目标检测的精度。测的精度。测的精度。


技术研发人员:毛建旭 贺振宇 王耀南 张辉 陶梓铭 易俊飞 钟杭 刘彩苹 朱青 刘敏
受保护的技术使用者:湖南大学
技术研发日:2023.03.21
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐