一种基于关键点和物体高度投影的无锚框单目3D目标检测方法
未命名
09-22
阅读:78
评论:0

一种基于关键点和物体高度投影的无锚框单目3d目标检测方法
技术领域
1.本发明属于计算机视觉图像处理领域,具体的说是涉及一种基于关键点和物体高度投影的无锚框单目3d目标检测方法。
背景技术:
2.近年来,随着科技的快速发展,自动驾驶汽车作为一种新型交通工具逐渐引起了人们的关注和探讨。自动驾驶技术的不断提升使得这些车辆可以独立完成各种复杂的驾驶场景,以更高的准确性和可靠性遵守交通规则,从而大大提高交通运输的安全性和效率。
3.基于视觉的目标检测在环境感知系统中扮演着不可或缺的角色,作为图像处理和计算机视觉方向的研究热点之一,它可以帮助自动驾驶系统检测出车辆、行人、交通标志等目标物体,这是实现自主导航和提高交通安全的重要技术之一。因此,优化和改善基于视觉的目标检测技术的研究和应用具有重大意义。在当前备受关注的自动驾驶领域,基于图像的目标检测技术是其核心和最具挑战性的问题之一,有效解决这个问题将会推动整个自动驾驶技术的发展,进一步提升自动驾驶车辆在道路上的安全性和智能性。近年来,深度学习技术的快速发展为2d目标检测和3d目标检测带来了显著的进展,并且这些技术在未来的研究和应用中仍然会扮演重要的角色。然而,2d目标检测只能在二维图像上检测和定位目标,无法确定目标的距离,同时也不能很好地满足自动驾驶领域的需求,3d目标检测还需要在空间上进行定位以确定目标的距离。目前,在自动驾驶领域的目标检测方面使用的传感器主要有两种:激光雷达和单目相机。激光雷达能够快速响应、远距离探测并生成高精度的点云信息,但造价昂贵且使用寿命短;而单目相机成本低、检测算法更成熟且更容易部署,但无法提供距离信息。因此,在自动驾驶领域,利用单目相机进行3d目标检测具有重要的应用价值。单目3d目标检测是使用单个摄像头来进行目标检测,由于单目相机结构简单、部署方便、成本较低,因此是工业界迫切需要研究和发展的算法之一。
4.然而,对于单目图像来说,直接获取深度信息(目标在三维空间中的位置信息)是很难的,这一困境使得基于单目图像的3d目标检测变成了一个具有很高难度的挑战。为了提高自动驾驶汽车的可靠性,并确保在现实环境中的安全部署,有必要在这一领域进行进一步的研究。目前,基于单目图像的3d目标检测仍然存在模型预测精度低、网络检测时间长等问题。
技术实现要素:
5.为了解决上述技术问题,本发明提供了一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,先利用关键点粗略定位目标,然后利用目标高度及其在图像上投影的几何知识来估计目标的深度信息,同时为了提高远距离小目标的检测精度,定义了一种基于面积和深度信息指导的损失函数,以引导模型更加注重对远距离小目标的训练。
6.为了达到上述目的,本发明是通过以下技术方案实现的:
7.本发明是一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,具体步骤如下:
8.步骤1:准备用于单目3d目标检测的数据集,并对数据集进行预处理得到训练集和验证集。
9.步骤2:将训练集中的图片输入主干网络模块来提取图像特征;
10.步骤3:将主干网络提取的低层特征送入解码模块进行上采样以恢复图像中的空间信息;
11.步骤4:将解码之后的特征送入检测头模块,利用检测头模块来检测相应的目标参数,同时计算每一个检测头的损失,包括l1损失、focal loss、multi-bin loss、laplace损失和交叉熵损失;
12.步骤5:将各个检测头得到的目标信息输入位姿推理模块以推理目标的3d位姿,计算位姿的l2损失以及面积与距离指导损失,上述损失采用多任务损失约束模型训练;
13.步骤6:使用验证集对模型进行验证,计算3d目标检测指标。
14.本发明的进一步改进在于:步骤4检测头模块主要有8个检测头:
15.main center检测头主要是预测目标的二维检测框的中心及目标类别,采用focal loss损失函数,表示为:
[0016][0017]
其中,n为中心点个数,3表示汽车、行人和自行车这3类,h,w分别为特征图的高和宽,α为平衡因子,p为预测值,γ为调整因子,控制难易分类样本的权重,y表示点落在以真实点为中心的高斯值。
[0018]
wh检测头用来预测目标二维检测框的宽度和高度;
[0019]
keypoints coord检测头用来检测3d边界框的9个关键点即3d框的8个角点和1个中点投影到图像上的坐标,这里回归的是9个点和main center的偏移;
[0020]
dimensions检测头用来检测目标的3个维度即长、宽和高;
[0021]
上述3个检测头采用l1损失,相应的损失函数为:
[0022][0023]
其中y就是检测头的参数,为标签数据,表示(i,j)处是物体的标注处。
[0024]
orientation检测头用来检测目标的方向,采用multi-bin loss,相应的损失函数为:
[0025][0026]
其中l
conf
表示每一个bin的置信度的softmax损失,w为权重因子,l
loc
表示估计角度和真实角度之间的损失,n
θ*
是覆盖真实角度θ
*
的bin的数量,ci表示第i个bin中心的角度,δθi表示第i个bin中心的残差角度。
[0027]
h检测头和hrec检测头用来检测目标的真实高度和目标在图片上的投影高度的倒
数,两个检测头会联合采用laplace loss来优化,损失表示为:
[0028][0029]
其中h
*
和hrec
*
为真实值,h和hrec为预测值,λh和λ
hrec
为平衡不确定性的权重参数,σh和σ
hrec
为h和hrec的不确定性。
[0030]
confidence这个检测头用来预测3d检测框的置信度,采用了预测的3d边界框和地面真值框之间的3d iou作为交叉熵损失的监督因子。
[0031]
本发明的进一步改进在于:步骤5中,位姿推理模块利用检测头所预测的目标信息来推理目标的位姿,其具体方法:
[0032]
将目标的底部中心定为世界坐标系的中心,那么通过main center检测头和keypoints coord检测头可以算出9个投影点的坐标分别为通过dimensions检测头预测的目标维度为[l,w,h],则在世界坐标系下3d框的9个点的坐标为:
[0033][0034]
orientaion检测头预测的是目标观测角alpha,数据集提供的相机内参文件和9个投影点中的中点坐标,可以算出目标的方位角θ,进而可以求出目标转向角rotation_y,在进行3d目标检测时忽略绕x轴和绕z轴的旋转,就可以计算相应的旋转矩阵:
[0035][0036]
将世界坐标系下的3d框的点的坐标转换到相机坐标系下:
[0037][0038]
其中的t为目标在相机坐标系下的位置;
[0039]
然后根据相机提供的内参k可计算得到在世界坐标系下构建的3d检测框的9个点投影到像素坐标系的坐标如下所示:
[0040][0041]
为了更好的约束关键点坐标,让关键点能构成标准的3d检测框,进一步采用最小重投影误差,即构建一个目标的3d检测框让其在图像上的投影和预测的关键点误差最小。最小重投影误差公式如下:
[0042]
[0043]
将上述公式化简计算后,只有t未知、其它参数可通过检测头得知的计算公式,然后通过使用l2损失来约束t。
[0044]
用预测的目标的高度h及目标在图片上投影高度的倒数hrec这两个检测头预测的值,以及校准文件,根据透视投影算出目标的深度信息zc,再根据keypoints coord检测头预测的3d框的中点的投影坐标转换到相机坐标系下,其在相机坐标系中表示为根据dimensions检测头预测的目标维度为[l,w,h],可得3d检测框目标底部中心在相机坐标系中坐标为将此作为t计算3d检测框的9个点投影到像素坐标系中的坐标,通过选取2d边界框得出二维框的宽和高,然后通过whd loss来反向传播优化网络。
[0045]
本发明进一步改进在于:步骤5面积与距离指导损失为:
[0046][0047][0048][0049]
其中n表示目标个数,z为目标距离(深度),s为二维框的面积,wh为选取的二维框的面积,为标签,α,β,δ,σ都为平衡因子。
[0050]
本发明进一步改进在于:步骤5的多任务损失为:
[0051]
l=λ
mc
l
mc
+λ
wh
l
wh
+λ
kc
l
kc
+λdld+λolo+
[0052]
λ
hhrec
l
hhrec
+λ
pos
l
pos
+λ
whd
l
whd
+λ
conf
l
conf
[0053]
其中的λ表示各个分任务的损失函数权重,表示任务的重要程度,λ
conf
本文设置为基于训练轮数动态地改变损失函数的权重,相应的权重公式表示为权重会随训练轮数的增加先增加后减小,防止其在训练过程中占主导地位,其它任务无法充分优化。
[0054]
本发明的有益效果是:本发明将目标关键点和目标高度投影结合起来形成了一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,由直接预测不确定范围的深度转为预测范围确定的目标高度和其投影高度的倒数,预测小范围的目标高度的方法误差更小,结果更鲁棒;
[0055]
同时本发明设计了一个针对远距离小目标的面积和深度信息指导损失函数,提升了远距离小目标检测的准确率。
[0056]
本发明充分利用了纯图像中的先验信息,先基于关键点预测出粗略的3d检测框,然后利用物体高度投影来精确预估目标距离,提升了道路场景的3d目标检测精度。
附图说明
[0057]
图1是本发明实施例框架流程示意图。
[0058]
图2是本发明实施例的主干网络结构示意图。
[0059]
图3是本发明实施例的解码模块网络结构示意图。
[0060]
图4是本发明实施例的检测头模块网络结构示意图。
[0061]
图5是本发明实施例实现的3d目标检测效果图和鸟瞰图检测效果图。
具体实施方式
[0062]
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
[0063]
如图1所示,本发明提供了一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,包括如下步骤:
[0064]
步骤1:准备用于单目3d目标检测的数据集,并对数据集进行预处理得到训练集和验证集。
[0065]
准备用于单目3d目标检测的数据集,并对数据集进行预处理得到训练集和验证集。采用kitti数据集,使用左彩色图像,一共有7481张训练图片与7518张测试图片,图片大小基本都在1224
×
370像素,将训练图片中的3712张分为训练集,另外的3769张分为验证集,将图片大小调整为1280
×
384像素,同时对训练集进行随机裁剪和颜色增强的数据增强。
[0066]
步骤2:将训练集中的图片输入主干网络模块来提取图像特征。
[0067]
将训练集中的图片输入主干网络模块来提取图像特征,采用resnet18作为主干网络。如图2所示,第一层为卷积层,7
×
7大小的卷积核,通道数为64,步长为2,第二层为池化层,卷积核大小为3
×
3,采用最大池化,步长为2,后面的每两层就是一个残差块结构,卷积核大小都为3
×
3,其中不同颜色块之间虚线的短路连接表示维度不匹配,即特征图大小减半,通道数翻倍,最后网络的输出通道数为512。将一张分辨率为1280
×
384,3通道的rgb图像送入网络,由于在图像处理中一般用矩阵或张量形式表示图像,所以将图像表示为384
×
1280
×
3的形式,经过resnet18网络的五次下采样,提取图像中的纹理、颜色、轮廓等低层信息,产生具有低层语义且多尺度的特征图,分别得到的特征图尺寸依次为192
×
640
×
64、96
×
320
×
64、48
×
160
×
128、24
×
80
×
256、12
×
40
×
512,然后将得到的尺寸为12
×
40
×
512的特征图送入解码模块。
[0068]
步骤3:将主干网络提取的低层特征送入解码模块进行上采样以恢复图像中的空间信息。
[0069]
在步骤3中,将主干网络提取的低层特征送入解码模块进行上采样以恢复图像中的空间信息。通过使用三次上采样,采用反卷积将低层特征图逐层级地进行上采样处理,以逐渐恢复原始输入图像中的空间信息。反卷积对应的卷积核大小为4
×
4,通道数为256,步长为2,填充为1,输出填充为0,在每一次反卷积之后都紧跟批标准化(batch normalization,bn)以及激活函数relu,其结构如图3所示。第一个反卷积输入为主干网络的输出特征图,输入通道数为512,对应的输出特征图尺寸为24
×
80
×
256,第二个反卷积输入通道为256,对应输出特征图尺寸为48
×
160
×
256,第三个反卷积输入通道为256,对应输出特征图尺寸为96
×
320
×
256。
[0070]
步骤4:将解码之后的特征送入检测头模块,利用检测头模块来检测相应的目标参数,同时计算每一个检测头的损失,包括l1 loss、focal loss、multi-bin loss、laplace loss和交叉熵损失。
[0071]
将解码之后的特征送入检测头模块,利用检测头模块来检测相应的目标参数,同时计算每一个检测头的损失,包括l1 loss、focal loss、multi-bin loss、laplace loss和交叉熵损失。检测头采用一个卷积层后跟relu激活函数然后再接一个卷积层的结构,如图4所示。main center检测头主要是预测目标的二维检测框的中心及目标类别,卷积后得到96
×
320
×
3的特征图,这里的3表示类别数,每一类都对应一个特征图,最后跟上一个sigmoid激活函数,输出得到激活图的值范围为[0,1]。采用focal loss损失函数,表示为:
[0072][0073]
其中,n为中心点个数,3表示汽车、行人和自行车这3类,h,w分别为特征图的高和宽,α为平衡因子,p为预测值,γ为调整因子,控制难易分类样本的权重,y表示点落在以真实点为中心的高斯值。
[0074]
wh检测头用来预测目标二维检测框的宽度和高度,采用l1损失,共2个参数,卷积后得到最后的特征图尺寸为96
×
320
×
2;
[0075]
keypoints coord检测头用来检测3d边界框的9个关键点投影到图像上的坐标,9个关键点为3d框的8个角点和1个中点,这里回归的是9个点和main center的偏移,采用l1损失,共18个参数,卷积后得到最后的特征图尺寸为96
×
320
×
18;
[0076]
dimensions检测头用来检测目标的3个维度即长、宽和高,采用l1损失,3个参数,卷积后得到最后的特征图尺寸为96
×
320
×
3;
[0077]
上述3个检测头采用l1损失,相应的损失函数为:
[0078][0079]
其中y就是检测头的参数,为标签数据,表示(i,j)处是物体的标注处。
[0080]
orientation检测头用来检测目标的方向,采用multi-bin loss,划分成了8个方向,卷积后得到最后的特征图尺寸为96
×
320
×
8,相应的损失函数为:
[0081][0082]
其中l
conf
表示每一个bin的置信度的softmax损失,w为权重因子,l
loc
表示估计角度和真实角度之间的损失,n
θ*
是覆盖真实角度θ
*
的bin的数量,ci表示第i个bin中心的角度,δθi表示第i个bin中心的残差角度。
[0083]
h检测头和hrec检测头用来检测目标的真实高度和目标在图片上的投影高度的倒数,两个检测头会联合采用laplace loss来优化,都为1个参数,卷积后得到最后的特征图尺寸都为96
×
320
×
1,损失表示为:
[0084]
[0085]
其中h
*
和hrec
*
为真实值,h和hrec为预测值,λh和λ
hrec
为平衡不确定性的权重参数,σh和σ
hrec
为h和hrec的不确定性。
[0086]
confidence这个检测头用来预测3d检测框的置信度,采用了预测的3d边界框和地面真值框之间的3d iou作为交叉熵损失的监督因子,1个参数,卷积后得到最后的特征图尺寸为96
×
320
×
1。
[0087]
步骤5:将各个检测头得到的目标信息输入位姿推理模块以推理目标的3d位姿,计算位姿的l2损失以及面积与距离指导损失,上述损失采用多任务损失约束模型训练。
[0088]
在步骤5中,将各个检测头得到的目标信息输入位姿推理模块以推理目标的3d位姿,计算位姿的l2损失以及面积与距离指导损失,上述损失采用多任务损失约束模型训练。位姿推理模块利用检测头所预测的目标信息来推理目标的位姿,其具体方法:
[0089]
将目标的底部中心定为世界坐标系的中心,那么通过main center检测头和keypoints coord检测头可以算出9个投影点的坐标分别为通过dimensions检测头预测的目标维度为[l,w,h],则在世界坐标系下3d框的9个点的坐标为:
[0090][0091]
orientaion检测头预测的是目标观测角alpha,数据集提供的相机内参文件和9个投影点中的中点坐标,可以算出目标的方位角θ,进而可以求出目标转向角rotation_y,因为在进行3d目标检测时忽略绕x轴和绕z轴的旋转,就可以计算相应的旋转矩阵:
[0092][0093]
将世界坐标系下的3d框的点的坐标转换到相机坐标系下:
[0094][0095]
其中的t为目标在相机坐标系下的位置;
[0096]
然后根据相机提供的内参k可计算得到在世界坐标系下构建的3d检测框的9个点投影到像素坐标系的坐标如下所示:
[0097][0098]
为了更好的约束关键点坐标,让关键点能构成标准的3d检测框,本发明进一步采用最小重投影误差,即构建一个目标的3d检测框让其在图像上的投影和预测的关键点误差最小。最小重投影误差公式如下:
detection with geometric constraint embedding and semi-supervised training[j].ieee robotics and automation letters,2021,6(3):5565-5572.)相比,证明了本发明提升了3d目标检测的精度。
[0114]
表1
[0115][0116]
表2
[0117][0118]
实施例的3d目标检测效果图和鸟瞰图检测效果图如图5所示,每一排左边为3d目标检测图,红色为汽车检测框,蓝色为行人检测框,灰色为自行车检测框,绿色为真值框;右边为鸟瞰图,红色为检测框,绿色为真值框。
[0119]
本发明充分利用了纯图像中的先验信息,先基于关键点预测出粗略的3d检测框,然后利用物体高度投影来精确预估目标距离,提升了道路场景的3d目标检测精度。
[0120]
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
技术特征:
1.一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,其特征在于:所述检测方法包括以下步骤:步骤1、准备用于单目3d目标检测的数据集,并对数据集进行预处理得到训练集和验证集;步骤2、将训练集中的图片输入主干网络模块来提取图像特征;步骤3、将主干网络提取的低层特征送入解码模块进行上采样以恢复图像中的空间信息;步骤4、将解码之后的特征送入检测头模块,利用检测头模块来检测相应的目标参数,同时计算每一个检测头的损失,包括l1 loss、focal loss、multi-bin loss、laplace loss和交叉熵损失;步骤5、将各个检测头得到的目标信息输入位姿推理模块,推理目标的3d位姿,计算位姿的l2损失以及面积与距离指导损失,所述位姿的l2损失以及面积与距离指导损失采用多任务损失约束模型训练;步骤6:使用验证集对模型进行验证,计算3d目标检测指标。2.根据权利要求1所述的一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,其特征在于:在步骤4中,所述检测头模块主要有8个检测头:main center检测头、wh检测头、keypoints coord检测头、dimensions检测头、orientation检测头、h检测头、hrec检测头和confidence这个检测头,其中:所述main center检测头是预测目标的二维检测框的中心及目标类别,采用focal loss损失函数,表示为:其中,n为中心点个数,3表示汽车、行人和自行车这3类,h,w分别为特征图的高和宽,α为平衡因子,p为预测值,γ为调整因子,控制难易分类样本的权重,y表示点落在以真实点为中心的高斯值;所述wh检测头是预测目标二维检测框的宽度和高度;所述keypoints coord检测头用来检测3d边界框的9个关键点即3d框的8个角点和1个中点投影到图像上的坐标,这里回归的是9个点和main center的偏移;所述dimensions检测头用来检测目标的3个维度即长、宽和高;所述wh检测头、keypoints coord检测头、dimensions检测头采用l1损失,损失函数为:其中y是检测头的参数,为标签数据,表示(i,j)处是物体的标注处;所述orientation检测头用来检测目标的方向,采用multi-bin loss,相应的损失函数为:
其中l
conf
表示每一个bin的置信度的softmax损失,w为权重因子,l
loc
表示估计角度和真实角度之间的损失,n
θ*
是覆盖真实角度θ
*
的bin的数量,c
i
表示第i个bin中心的角度,δθ
i
表示第i个bin中心的残差角度;所述h检测头和hrec检测头用来检测目标的真实高度和目标在图片上的投影高度的倒数,所述h检测头和hrec检测头联合采用laplace loss来优化,损失表示为:其中h
*
和hrec
*
为真实值,h和hrec为预测值,λ
h
和λ
hrec
为平衡不确定性的权重参数,σ
h
和σ
hrec
为h和hrec的不确定性;所述confidence这个检测头用来预测3d检测框的置信度,采用了预测的3d边界框和地面真值框之间的3d iou作为交叉熵损失的监督因子。3.根据权利要求2所述的一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,其特征在于:步骤5位姿推理模块利用检测头所预测的目标信息来推理目标的3d位姿,具体包括以下步骤:步骤5-1、将目标的底部中心定为世界坐标系的中心,通过main center检测头和keypoints coord检测头算出9个投影点的坐标分别为通过dimensions检测头预测的目标维度为[l,w,h],则在世界坐标系下3d框的9个点的坐标为:orientaion检测头预测的是目标观测角alpha,数据集提供的相机内参文件和9个投影点中的中点坐标,算出目标的方位角θ,进而求出目标转向角rotation_y,在进行3d目标检测时忽略绕x轴和绕z轴的旋转,计算相应的旋转矩阵:将世界坐标系下的3d框的点的坐标转换到相机坐标系下:其中:t为目标在相机坐标系下的位置;步骤5-2、根据相机提供的内参k计算得到在世界坐标系下构建的3d检测框的9个点投影到像素坐标系的坐标如下所示:
步骤5-3、让关键点构成标准的3d检测框,采用最小重投影误差,即构建一个目标的3d检测框让其在图像上的投影和预测的关键点误差最小,最小重投影误差公式如下:将上述公式化简计算后,只有t未知、其它参数可通过检测头得知的计算公式,然后通过使用l2损失来约束t;步骤5-4、用h检测头及hrec检测头预测的值,以及校准文件,根据透视投影算出目标的深度信息z
c
,再根据keypoints coord检测头预测的3d框的中点的投影坐标转换到相机坐标系下,其在相机坐标系中表示为根据dimensions检测头预测的目标维度为[l,w,h],得3d检测框目标底部中心在相机坐标系中坐标为将此作为t计算3d检测框的9个点投影到像素坐标系中的坐标,通过选取2d边界框得出二维框的宽和高,然后通过whd loss来反向传播优化网络。4.根据权利要求1或3所述的一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,其特征在于:所述步骤5中,面积与距离指导损失为:测方法,其特征在于:所述步骤5中,面积与距离指导损失为:测方法,其特征在于:所述步骤5中,面积与距离指导损失为:其中n表示目标个数,z为目标距离即深度,s为二维框的面积,wh为选取的二维框的面积,为标签,α,β,δ,σ都为平衡因子。5.根据权利要求4所述的一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,其特征在于:步骤5中,所述多任务损失为:l=λ
mc
l
mc
+λ
wh
l
wh
+λ
kc
l
kc
+λ
d
l
d
+λ
o
l
o
+λ
hhrec
l
hhrec
+λ
pos
l
pos
+λ
whd
l
whd
+λ
conf
l
conf
其中的λ表示各个分任务的损失函数权重,表示任务的重要程度,λ
conf
基于训练轮数动态地改变损失函数的权重,相应的权重公式表示为态地改变损失函数的权重,相应的权重公式表示为权重会随训练轮数的增加先增加后减小,防止其在训练过程中占主导地位。6.根据权利要求1所述的一种基于关键点和物体高度投影的无锚框单目3d目标检测方法,其特征在于:步骤2中,采用resnet18作为主干网络,第一层为卷积层,7
×
7大小的卷积核,通道数为64,步长为2,第二层为池化层,卷积核大小为3
×
3,采用最大池化,步长为2,后面的每两层为一个残差块结构,卷积核大小均为3
×
3,最后网络的输出通道数为512。
技术总结
本发明属于计算机视觉图像处理领域,公开了一种基于关键点和物体高度投影的无锚框单目3D目标检测方法,包括:(1)准备数据集;(2)将训练集中的图片输入主干网络模块提取图像特征;(3)将主干网络提取的低层特征送入解码模块进行上采样;(4)将解码之后的特征送入检测头模块来检测相应的目标参数,计算每一个检测头的损失;(5)将检测头检测的目标信息输入位姿推理模块以推理目标的3D位姿,计算位姿的L2损失以及面积与距离指导损失;(6)使用验证集对模型进行验证,计算3D目标检测指标。本发明先基于关键点预测出粗略的3D检测框,然后利用物体高度投影来精确预估目标距离,提升了道路场景的3D目标检测精度。场景的3D目标检测精度。场景的3D目标检测精度。
技术研发人员:邵文泽 晏鹏
受保护的技术使用者:南京邮电大学
技术研发日:2023.06.26
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/