单目3D目标检测的方法、系统、电子设备和存储介质与流程

未命名 10-09 阅读:86 评论:0

单目3d目标检测的方法、系统、电子设备和存储介质
技术领域
1.本发明属于目标检测领域,尤其涉及单目3d目标检测的方法、系统、电子设备和存储介质。


背景技术:

2.3d目标检测是自动驾驶领域的关键技术,检测的好坏直接影响着辅助驾驶的决策,进而3d目标检测是必须要研究的课题。常见的3d目标检测可分为三类:1、基于雷达,2、基于双目,3、基于单目。在此基础上也可以进行多模态的融合以期进一步提升检测的精度。但是在上述方案中基于单目的3d目标检测是成本最低的,这对于推动自动驾驶成本落地是非常关键的。
3.目前常见的单目3d目标检测主要有两种方法:
4.1、基于关键点检测的一步(one-stage)方法。
5.2、基于2d框的检测方法。
6.前者是将2d和3d检测融合到一起,利用目标的关键点来回归2d和3d信息。后者则是通过先检测出的2d信息,结合几何先验知识来推断3d信息。通常来说,前者方法的速度快于后者,但是由于结合了2d和3d检测,训练出来的模型强依赖于数据集和训练相机的内参,模型不具备数据集间的泛化性。后者分离了2d检测和3d检测可以很好地在不同数据集泛化,但是这种方法精度较低且不能实时的推理运行。


技术实现要素:

7.本发明实施例的主要目的在于提供了单目3d目标检测的方法、系统、电子设备和存储介质,通过对2d目标检测模型的选择,以及对3d目标检测模型的选择、对卷积的选取以及对分支的选取,实现了2d目标检测模型和3d目标检测模型参数的减少,实现了2d目标检测模型和3d目标检测模型的轻量化和准确性。
8.第一方面,提供了单目3d目标检测的方法,所述方法包括:
9.通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像区域,所述2d图像区域包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;
10.对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。
11.在一个可能的实现方式中,所述对所述2d图像进行处理,获取所述待检测3d目标的目标参数,包括:
12.对所述2d图像进行训练和解析,获取训练后数组和解析参数,所述解析参数包括:置信度预测值、方向预测值、尺寸偏差和中心点坐标预测值;
13.通过预设的损失函数获取所述解析参数对应的损失值;
14.根据所述损失值和所述解析参数获取所述目标参数。
15.在另一个可能的实现方式中,所述目标参数包括:方向角、3d目标尺寸和3d目标中心点坐标。
16.在另一个可能的实现方式中,所述通过预设的损失函数获取所述解析参数对应的损失值,包括:
17.根据损失函数loss
3d
=l
conf
+β1*l
ori
+β2*l
dim
+β3*l
loc
获取所述损失值,其中,loss
3d
为3d目标检测的损失函数;l
conf
为置信度损失值、l
ori
为方向角预测值、l
dim
为预设目标尺寸、l
loc
为中心点坐标损失值,所述l
loc
=(p
i-p)2,其中,pi为所述中心点坐标预测值,p为所述3d目标中心点坐标,β1、β2与β3之和为1,β1、β2和β3分别为方向角预测值、预设目标尺寸和中心点坐标损失值的权重。
18.在另一个可能的实现方式中,所述根据所述损失值和所述解析参数获取所述目标参数,包括:
19.根据所述置信度预测值获取方向置信度;
20.根据所述方向置信度和所述方向角预测值获取所述方向角;
21.根据所述尺寸偏差和所述预设目标尺寸获取所述3d目标尺寸。
22.在另一个可能的实现方式中,根据所述方向角以及所述3d目标尺寸获得所述待检测3d目标中心点坐标。
23.在另一个可能的实现方式中,所述训练后数组的长度为12维,其中,所述方向置信度2维、所述方向角4维、所述3d目标尺寸和所述3d目标中心点坐标各3维。
24.第二方面,提供了单目3d目标检测的系统,所述系统包括:
25.获取模块,用于通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像区域,所述2d图像区域包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;
26.中心点坐标获取模块,用于对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。
27.第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面提供的单目3d目标检测的方法。
28.第四方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如第一方面提供的单目3d目标检测的方法。
附图说明
29.为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
30.图1为本发明一个实施例提供的单目3d目标检测的方法的流程图;
31.图2为本发明再一个实施例提供的单目3d目标检测的方法的流程图;
32.图3为本发明一个实施例提供的单目3d目标检测的系统的结构图;
33.图4为本发明再一个实施例提供的单目3d目标检测的系统的结构图;
34.图5为本发明一种电子设备的实体结构示意图;图6为本发明一个实施例提供的单目3d目标检测方法的流程示意图。
35.具体实现方式
36.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
37.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、模块和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、模块、组件和/或它们的组。应该理解,当我们称模块被“连接”或“耦接”到另一模块时,它可以直接连接或耦接到其他模块,或者也可以存在中间模块。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一模块和全部组合。
38.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实现方式作进一步地详细描述。
39.下面以具体地实施例对本发明的技术方案以及本发明的技术方案如和解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
40.如图1所示为本发明一个实施例提供的单目3d目标检测的方法的流程图,所述方法包括:
41.步骤101,通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像区域,所述2d图像区域包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;
42.步骤102,对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。
43.在本发明实施例中,对于待检测图像,首先通过包含2d目标检测模型的2d目标检测器从该待检测图像中获取包含待检测3d目标的2d图像区域,如:在交通领域,车载单目拍摄设备从拍摄的2d图像中检测出要识别的障碍物(3d目标)图像区域等。通过3d目标检测器的主干网络对该2d图像区域进行特征提取,获取特征图。通过全连接神经网络对特征图进行回归处理,获取待检测3d目标的目标参数,该目标参数包括但不限于:置信度conf、方向orient、3d目标尺寸dim、3d目标中心点坐标loc,最终通过该目标参数即可构建待检测3d目标的3d模型。
44.其中,2d目标检测模型可根据实际使用的需要进行选择,优选的,2d目标检测模型为yolov3s模型。
45.其中,为了便于后续对2d图像区域的处理,可以对输出的2d图像区域的尺寸进行统一设置,2d图像区域的尺寸可以根据实际使用的需要进行设置,优选的,2d图像区域的尺寸为:3*244*244。
46.其中,3d目标检测模型的主干网络也可以根据实际使用的需要进行选择,优选的,为了加快3d目标检测模型的推理速度,以及为了减少3d目标检测模型的参数量方便3d目标监测模型的部署,本发明的主干网络为mobilenet v3,同时,mobilenet v3去掉了最后两层,使得该mobilenet v3仅仅进行特征提取。最终提取的特征图的尺寸为527*7*7。
47.其中,所述3d目标检测模型的全连接神经网络为1*1卷积且只包含单一分支。1*1卷积可以进一步压缩3d目标检测模型的参数量,且通过1*1卷积可以减少通道融合时的通道数量。而单一分支可以在减少3d目标检测模型的参数量的同时简化计算量,使得通过单一的全连接神经网络即可推理出所有的目标参数。
48.本发明实施例,通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像区域;通过预设的3d目标检测模型的主干网络从所述2d图像区域中获取特征图;通过所述3d目标检测模型单一分支且1*1卷积的全连接神经网络对所述特征图进行处理c;根据所述目标参数构建所述待检测3d目标的3d模型。通过对2d目标检测模型的选择,以及对3d目标检测模型的选择、对卷积的选取以及对分支的选取,实现了2d目标检测模型和3d目标检测模型参数的减少,实现了2d目标检测模型和3d目标检测模型的轻量化和准确性。
49.如图2所示为本发明再一个实施例提供的单目3d目标检测的方法的流程图,所述对所述2d图像进行处理,获取所述待检测3d目标的目标参数,包括:
50.步骤201,对所述2d图像进行训练和解析,获取训练后数组和解析参数,所述解析参数包括:置信度预测值、方向预测值、尺寸偏差和中心点坐标预测值;
51.步骤202,通过预设的损失函数获取所述解析参数对应的损失值;
52.步骤203,根据所述损失值和所述解析参数获取所述目标参数。
53.在本发明实施例中,通过预设的3d目标检测模型的主干网络对获取的2d图像进行训练,从该2d图像中获取训练后数组,该训练后数组即为特征图,对该训练后数组进行解析以获取解析参数,该解析参数包括但不限于:置信度预测值、方向预测值、尺寸偏差和中心点坐标预测值,而对训练后数组进行的解析会使解析参数产生损失值,因此需要通过预设的损失函数从该解析参数中获取解析参数对应的损失值,而通过获取的损失值和解析参数则可获取最终的目标参数,该目标参数包括但不限于:方向角、3d目标尺寸以及3d目标中心点坐标。
54.其中,用于对训练后数组进行解析的为3d目标检测模型的单一分支且1*1卷积的全连接神经网络。
55.其中,特征图进行通道融合后可resize为一维数组,将该一维数组放入全连接神经网络中进行训练,得到长度为12的训练后数组,对该训练后数组进行解析,获取解析参数,同时通过预设的损失函数计算该解析参数对应的损失值,最终根据解析参数和损失值获取目标参数。
56.其中,所述通过预设的损失函数获取所述解析参数对应的损失值,包括:
57.根据损失函数loss
3d
=l
conf
+β1*l
ori
+β2*l
dim
+β3*l
loc
获取所述损失值,其中,loss
3d
为3d目标检测的损失函数、l
conf
为置信度损失值、l
ori
为方向角预测值、l
dim
为预设目标尺寸、l
loc
为中心点坐标损失值,所述l
loc
=(p
i-p)2,其中,pi为所述中心点坐标预测值,p为所述3d目标中心点坐标,β1、β2与β3之和为1,β1、β2和β3分别为方向角预测值、预设目标尺寸和中心点坐标损失值的权重。
58.其中,所述根据所述损失值和所述解析参数获取所述目标参数,包括:
59.根据所述置信度预测值获取方向置信度;
60.根据所述方向置信度和所述方向角预测值获取所述方向角;
61.根据所述尺寸偏差和所述预设目标尺寸获取所述3d目标尺寸。
62.其中,所述根据所述损失值和所述解析参数获取所述目标参数,还包括:
63.根据所述方向角以及所述3d目标尺寸获得所述待检测3d目标中心点坐标。
64.具体的,根据公式x=k[r t]xc通过最小二乘法反推获取所述3d目标中心点坐标,其中,xc为所述3d目标中心点的世界坐标,k为单目相机的内参,r为通过旋转角获取的所述单目相机的相机坐标系的旋转矩阵,t为相机坐标系到世界坐标系的平移向量,所述xc通过所述3d目标尺寸dim=[l,w,h]获取,当以所述3d目标中心点坐标为世界坐标系原点时,所述x为所述角点投影到像素坐标系下的坐标。
[0065]
该3d目标中心点坐标的获取方法,具体为:
[0066]
根据实际应用场景确定3d检测框在所述2d图像的2d框上的投影组合,例如:目标2d检测框的每一条边上都至少有一个3d框角点投影上去,则2d框的4条边结合3d框的8个角点可以得到8^4=4096种投影组合,结合一些场景先验,可以过滤掉一些组合,比如在自动驾驶场景中,目标往往是直立的,这就意味着2d框的上边只能对应3d框上表面的四个角点,2d框的下边只能对应3d框下表面的四个角点,因此投影组合数变为:8x8x4x4=1024。另外,由于自动驾驶场景中,目标的俯仰角和横滚角一般认为是0,因此当目标的航向角确定后,2d检测框的两个竖直边就分别与3d检测框的某一条竖直边的两个角点相对应,这样投影组合数就变成了:2x2x4x4=64
[0067]
将公式(1)x=k[r t]xc转换为公式(2)其中,u、v为所述2d图像的中心像素点的坐标,xw、yw、zw为所述3d目标中心点坐标,r为已知参数,需要获取未知参数xw、yw、zw,将m带入公式(2)可得到公式(3)其中,m的上标代表列数,m的下标代表行数,所述单目相机的坐标系下的选点在z方向的坐标在公式(3)中可表示为公式(4)将公式(4)带入公式(3)可得到
所述u、v的获取公式(5)将前述确定的多个投影组合中每个投影组合在2d检测框的四个坐标值:u
min
、u
max
、v
min
、v
max
分为(u
min
,v
min
)、(u
min
,v
max
)、(u
max
,v
min
)、(u
max
,v
max
)四组参数,将该四组参数分别带入公式(5)获取方程数为4个的对应所述t的超定方程组,通过最小二乘法,求解该超定方程组获取所述t。对于多个投影组合对应的多个t,通过比较投影误差,选择误差最小的投影点对应的t作为最终的平移矩阵t,也就是所述3d目标中心点坐标。
[0068]
如图3所示为本发明一个实施例提供的单目3d目标检测的系统的结构图,所述系统包括:
[0069]
2d图像区域获取模块301,用于通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像,所述2d图像包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;
[0070]
中心点坐标获取模块302,用于对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。
[0071]
在本发明实施例中,对于待检测图像,首先通过包含2d目标检测模型的2d目标检测器从该待检测图像中获取包含待检测3d目标的2d图像,如:在交通领域,车载单目拍摄设备从拍摄的2d图像中检测出要识别的障碍物(3d目标)图像区域等。通过3d目标检测器的主干网络对该2d图像进行特征提取,获取特征图。通过全连接神经网络对特征图进行回归处理,获取待检测3d目标的目标参数,该目标参数包括但不限于:置信度conf、方向orient、3d目标尺寸dim、3d目标中心点坐标loc,最终通过该目标参数即可构建待检测3d目标的3d模型。
[0072]
其中,2d目标检测模型可根据实际使用的需要进行选择,优选的,2d目标检测模型为yolov3s模型。
[0073]
其中,为了便于后续对2d图像的处理,可以对输出的2d图像的尺寸进行统一设置,2d图像的尺寸可以根据实际使用的需要进行设置,优选的,2d图像的尺寸为:3*244*244。
[0074]
其中,3d目标检测模型的主干网络也可以根据实际使用的需要进行选择,优选的,为了加快3d目标检测模型的推理速度,以及为了减少3d目标检测模型的参数量方便3d目标监测模型的部署,本发明的主干网络为mobilenet v3,同时,mobilenet v3去掉了最后两层,使得该mobilenet v3仅仅进行特征提取。最终提取的特征图的尺寸为527*7*7。
[0075]
其中,所述3d目标检测模型的全连接神经网络为1*1卷积且只包含单一分支。1*1卷积可以进一步压缩3d目标检测模型的参数量,且通过1*1卷积可以减少通道融合时的通道数量。而单一分支可以在减少3d目标检测模型的参数量的同时简化计算量,使得通过单一的全连接神经网络即可推理出所有的目标参数。
[0076]
本发明实施例,通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像,所述2d图像包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;对所述2d图像进行处理,获取所述待检测3d目标的目标
参数,从而获得所述待检测3d目标的中心点坐标。通过对2d目标检测模型的选择,以及对3d目标检测模型的选择、对卷积的选取以及对分支的选取,实现了2d目标检测模型和3d目标检测模型参数的减少,实现了2d目标检测模型和3d目标检测模型的轻量化和准确性。
[0077]
如图4所示为本发明再一个实施例提供的单目3d目标检测的系统的流程图,所述中心点坐标获取模块302,包括:
[0078]
训练后数组和解析参数获取单元401,用于对所述2d图像进行训练和解析,获取训练后数组和解析参数,所述解析参数包括:置信度预测值、方向预测值、尺寸偏差和中心点坐标预测值;
[0079]
损失值获取单元402,用于通过预设的损失函数获取所述解析参数对应的损失值;
[0080]
目标参数获取单元403,用于根据所述损失值和所述解析参数获取所述目标参数。
[0081]
在本发明实施例中,通过预设的3d目标检测模型的主干网络对获取的2d图像进行训练,从该2d图像中获取训练后数组,该训练后数组即为特征图,对该训练后数组进行解析以获取解析参数,该解析参数包括但不限于:置信度预测值、方向预测值、尺寸偏差和中心点坐标预测值,而对训练后数组进行的解析会使解析参数产生损失值,因此需要通过预设的损失函数从该解析参数中获取解析参数对应的损失值,而通过获取的损失值和解析参数则可获取最终的目标参数,该目标参数包括但不限于:方向角、3d目标尺寸以及3d目标中心点坐标。
[0082]
其中,用于对训练后数组进行解析的为3d目标检测模型的单一分支且1*1卷积的全连接神经网络。
[0083]
其中,特征图进行通道融合后可resize为一维数组,将该一维数组放入全连接神经网络中进行训练,得到长度为12的训练后数组,对该训练后数组进行解析,获取解析参数,同时通过预设的损失函数计算该解析参数对应的损失值,最终根据解析参数和损失值获取目标参数。
[0084]
其中,所述通过预设的损失函数获取所述解析参数对应的损失值,包括:
[0085]
根据损失函数loss
3d
=l
conf
+β1*l
ori
+β2*l
dim
+β3*l
loc
获取所述损失值,其中,loss
3d
为3d目标检测的损失函数、l
conf
为置信度损失值、l
ori
为方向角预测值、l
dim
为预设目标尺寸、l
loc
为中心点坐标损失值,所述l
loc
=(p
i-p)2,其中,pi为所述中心点坐标预测值,p为所述3d目标中心点坐标,β1、β2与β3之和为1,β1、β2和β3分别为方向角预测值、预设目标尺寸和中心点坐标损失值的权重。
[0086]
其中,所述根据所述损失值和所述解析参数获取所述目标参数,包括:
[0087]
根据所述置信度预测值获取方向置信度;
[0088]
根据所述方向置信度和所述方向角预测值获取所述方向角;
[0089]
根据所述尺寸偏差和所述预设目标尺寸获取所述3d目标尺寸。
[0090]
其中,所述根据所述损失值和所述解析参数获取所述目标参数,还包括:
[0091]
根据所述方向角以及所述3d目标尺寸获得所述待检测3d目标中心点坐标。
[0092]
具体的,根据公式x=k[r t]xc通过最小二乘法反推获取所述3d目标中心点坐标,其中,xc为所述3d目标中心点的世界坐标,k为单目相机的内参,r为通过旋转角获取的所述单目相机的相机坐标系的旋转矩阵,t为相机坐标系到世界坐标系的平移向量,所述xc通过所述3d目标尺寸dim=[l,w,h]获取,当以所述3d目标中心点坐标为世界坐标系原点时,所
述x为所述角点投影到像素坐标系下的坐标。
[0093]
该3d目标中心点坐标的获取方法,具体为:
[0094]
根据实际应用场景确定3d检测框在所述2d图像的2d框上的投影组合,例如:目标2d检测框的每一条边上都至少有一个3d框角点投影上去,则2d框的4条边结合3d框的8个角点可以得到8^4=4096种投影组合,结合一些场景先验,可以过滤掉一些组合,比如在自动驾驶场景中,目标往往是直立的,这就意味着2d框的上边只能对应3d框上表面的四个角点,2d框的下边只能对应3d框下表面的四个角点,因此投影组合数变为:8x8x4x4=1024。另外,由于自动驾驶场景中,目标的俯仰角和横滚角一般认为是0,因此当目标的航向角确定后,2d检测框的两个竖直边就分别与3d检测框的某一条竖直边的两个角点相对应,这样投影组合数就变成了:2x2x4x4=64。
[0095]
将公式(1)x=k[r t]xc转换为公式(2)其中,u、v为所述2d图像的中心像素点的坐标,xw、yw、zw为所述3d目标中心点坐标,r为已知参数,需要获取未知参数xw、yw、zw,将m带入公式(2)可得到公式(3)其中,m的上标代表列数,m的下标代表行数,所述单目相机的坐标系下的选点在z方向的坐标在公式(3)中可表示为公式(4)将公式(4)带入公式(3)可得到所述u、v的获取公式(5)将前述确定的多个投影组合中每个投影组合在2d检测框的四个坐标值:u
min
、u
max
、v
min
、v
max
分为(u
min
,v
min
)、(u
min
,v
max
)、(u
max
,v
min
)、(u
max
,v
max
)四组参数,将该四组参数分别带入公式(5)获取方程数为4个的对应所述t的超定方程组,通过最小二乘法,求解该超定方程组获取所述t。对于多个投影组合对应的多个t,通过比较投影误差,选择误差最小的投影点对应的t作为最终的平移矩阵t,也就是所述3d目标中心点坐标。
[0096]
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)501、通信接口(communications interface)502、存储器(memory)503和通信总线504,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信。处理器可以调用存储器中的逻辑指令,以执行单目3d目标检测的方法,该方法包括:通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像,所述2d图像包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。
[0097]
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0098]
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的单目3d目标检测的方法,该方法包括:通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像,所述2d图像包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。
[0099]
又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的单目3d目标检测的方法,该方法包括:通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像,所述2d图像包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。
[0100]
如图6所示为本发明一个实施例提供的单目3d目标检测方法的流程示意图。应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0101]
以上所述仅是本发明的部分实现方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种单目3d目标检测的方法,其特征在于,所述方法包括:通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像区域,所述2d图像区域包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。2.如权利要求1所述的方法,其特征在于,所述对所述2d图像进行处理,获取所述待检测3d目标的目标参数,包括:对所述2d图像进行训练和解析,获取训练后数组和解析参数,所述解析参数包括:置信度预测值、方向预测值、尺寸偏差和中心点坐标预测值;通过预设的损失函数获取所述解析参数对应的损失值;根据所述损失值和所述解析参数获取所述目标参数。3.如权利要求2所述的方法,其特征在于,所述目标参数包括:方向角、3d目标尺寸和3d目标中心点坐标。4.如权利要求2所述的方法,其特征在于,所述通过预设的损失函数获取所述解析参数对应的损失值,包括:根据损失函数loss
3d
=l
conf
+β1*l
ori
+β2*l
dim
+β3*l
loc
获取所述损失值,其中,loss
3d
为3d目标检测的损失函数、l
conf
为置信度损失值、l
ori
为方向角预测值、l
dim
为预设目标尺寸、l
loc
为中心点坐标损失值,所述l
loc
=(p
i-p)2,其中,p
i
为所述中心点坐标预测值,p为所述3d目标中心点坐标,β1、β2与β3之和为1,β1、β2和β3分别为方向角预测值、预设目标尺寸和中心点坐标损失值的权重。5.如权利要求2所述的方法,其特征在于,所述根据所述损失值和所述解析参数获取所述目标参数,包括:根据所述置信度预测值获取方向置信度;根据所述方向置信度和所述方向角预测值获取所述方向角;根据所述尺寸偏差和所述预设目标尺寸获取所述3d目标尺寸。6.如权利要求5所述的方法,其特征在于,根据所述方向角以及所述3d目标尺寸获得所述待检测3d目标中心点坐标。7.如权利要求2所述的方法,其特征在于,所述训练后数组的长度为12维,其中,所述方向置信度2维、所述方向角4维、所述3d目标尺寸和所述3d目标中心点坐标各3维。8.一种单目3d目标检测检测的系统,其特征在于,所述系统包括:2d图像区域获取模块,用于通过预设的2d目标检测模型从待检测图像中获取包含待检测3d目标的2d图像区域,所述2d图像区域包括所述待检测3d目标的2d图像以及所述待检测3d目标的2d框,所述2d框内为所述待检测3d目标;中心点坐标获取模块,用于对所述2d图像进行处理,获取所述待检测3d目标的目标参数,从而获得所述待检测3d目标的中心点坐标。9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的单目3d目标检测的方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的单目3d目标检测的方法。

技术总结
本发明提供了单目3D目标检测的方法、系统、电子设备和存储介质,包括:通过预设的2D目标检测模型从待检测图像中获取包含待检测3D目标的2D图像区域,所述2D图像区域包括所述待检测3D目标的2D图像以及所述待检测3D目标的2D框,所述2D框内为所述待检测3D目标;对所述2D图像进行处理,获取所述待检测3D目标的目标参数,从而获得所述待检测3D目标的中心点坐标。通过对2D目标检测模型的选择,以及对3D目标检测模型的选择、对卷积的选取以及对分支的选取,实现了2D目标检测模型和3D目标检测模型参数的减少,实现了2D目标检测模型和3D目标检测模型的轻量化和准确性。测模型的轻量化和准确性。测模型的轻量化和准确性。


技术研发人员:黄立 黄晟 胡灏东 田鹏 张龙 商长弘 王鹏
受保护的技术使用者:武汉轩辕智驾科技有限公司
技术研发日:2023.05.31
技术公布日:2023/10/8
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐