一种基于特征表示分解和鸟瞰图融合的语义场景补全方法
未命名
09-01
阅读:390
评论:0

1.本发明涉及3d视觉技术领域,具体涉及一种基于特征表示分解和鸟瞰图融合的点云语义场景补全方法。
背景技术:
2.近年来,3d场景理解作为自动驾驶中感知系统最重要的功能之一,引起了广泛的研究并取得了快速的进展。在处理大规模室外场景理解时,语义场景补全(ssc,semantic scene completion)旨在从稀疏lidar扫描中预测整个3d场景的每个体素的语义占用,包括某些区域的补全。由于能够恢复几何结构,ssc可以促进3d目标检测等进一步的应用,这些应用通常会受到lidar点云的稀疏性和不完整性的影响。然而,由于各种形状/大小和遮挡等复杂的户外场景,从部分观察中精确估计整个3d现实世界场景的语义和几何形状具有挑战性。
3.继开创性工作sscnet之后,一些现有的户外ssc方法利用单个u-net网络,例如稠密的3d卷积网络来联合预测语义和几何形状。然而,稠密的3d cnn通常涉及不必要的计算并带来额外的内存和计算开销,特别是当输入体素分辨率很大时,因为3d场景中存在大量空体素。另一方面,一些方法通过将语义完成网络与分割网络相结合,利用分割中的语义信息来辅助室外ssc,这种方法场景补全不够准确。因此现有技术中的ssc方法存在计算量大,识别精确度不高的问题。
4.为了较好的实现语义场景补全,语义场景补全方法需要满足语义场景细节恢复状况好,补全后场景更符合实际等条件,而且算法要简单、高效。
技术实现要素:
5.针对上述问题,本发明提出了一种基于特征表示分解和鸟瞰图融合的点云语义场景补全方法,为语义/几何特征表示设计单独的分支,还设计了一个bev融合网络即语义补全分支来融合来自两个分支的两种类型的特征,具有强大的特征表达能力,计算速度快,能够实时对输入的点云进行语义场景补全。
6.为了实现上述目的,本发明提供一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,包括以下步骤:
7.步骤s1:获取待补全目标点云数据,构建语义分支、补全分支和语义补全分支;
8.步骤s2:使用预训练好的语义分支提取待补全目标点云数据的语义特征;
9.步骤s3:使用预训练好的补全分支提取待补全目标点云数据的几何特征;
10.步骤s4:语义特征和几何特征分别映射到鸟瞰图视角后输入预训练好的语义补全分支进行特征融合得到语义场景补全结果。
11.优选的,步骤s4中语义补全分支包括自适应特征融合模块,自适应特征融合模块用于融合鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征。
12.优选的,步骤s2中语义分支包括n个语义特征提取模块;
13.步骤s3中补全分支包括n个几何特征提取模块;n个几何特征提取模块分别与n个语义特征提取模块相对应;
14.步骤s4中语义补全分支包括n个自适应特征融合模块;n个自适应特征融合模块分别与n个语义特征提取模块相对应;n个自适应特征融合模块分别与n个几何特征提取模块相对应;语义特征提取模块和与其对应的几何特征提取模块提取出的语义特征和几何特征分别映射到鸟瞰图视角后输入对应的自适应特征融合模块进行特征融合;
15.n个自适应特征融合模块之间以串联方式连接,每个自适应特征融合模块输出一个阶段融合特征,第一个自适应特征融合模块输出第一个阶段融合特征,然后将第一个阶段融合特征传递至与其串联的下一个自适应特征融合模块,并与下一个自适应特征融合模块中输入的鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征进行特征融合后输出下一个阶段融合特征,逐个传递直至最后一个自适应特征融合模块进行最后的特征融合。
16.优选的,步骤s2中语义分支还包括体素化层,n个语义特征提取模块包括第一稀疏编码块、第二稀疏编码块和第三稀疏编码块;具体的,语义特征提取模块为3个,每个语义特征提取模块包括1个稀疏编码块,具体为第一稀疏编码块、第二稀疏编码块和第三稀疏编码块;优选的,体素化层为1个;
17.步骤s2包括以下步骤:
18.步骤s21:将待补全目标点云数据输入体素化层进行体素化得到体素特征;
19.步骤s22:将体素特征先输入第一稀疏编码块后输出第一语义特征和第一体素特征,第一体素特征再输入第二稀疏编码块后输出第二语义特征和第二体素特征,第二体素特征最后输入第三稀疏编码块后输出第三语义特征;优选的,每个稀疏编码块由一个稀疏卷积残差块和一个稀疏几何特征提取模块组成,稀疏卷积残差块将输入的体素特征分辨率减半,稀疏几何特征提取模块利用不同尺度稀疏映射和注意力挑选机制来增强体素特征的几何特性;
20.步骤s3中补全分支还包括输入层,n个几何特征提取模块包括第一稠密残差块、第二稠密残差块和第三稠密残差块;具体的,几何特征提取模块为3个,每个几何特征提取模块包括1个稠密残差块,具体为第一稠密残差块、第二稠密残差块和第三稠密残差块;
21.步骤s3包括以下步骤:
22.步骤s31:计算待补全目标点云数据的占用体素;占用体素为0/1二进制值,由点云生成,若一个体素包含点则为1,否则为0;
23.步骤s32:将占用体素输入输入层,通过输入层处理增大感受野后再输入第一稠密残差块输出第一几何特征和第一占用体素,第一占用体素再输入第二稠密残差块后输出第二几何特征和第二占用体素,第二占用体素最后输入第三稠密残差块后输出第三几何特征。输入层为7
×7×
7的3d稠密卷积,每个稠密残差块都由3
×3×
3的3d稠密卷积组成。
24.步骤s4中语义补全分支包括第一自适应特征融合模块、第二自适应特征融合模块和第三自适应特征融合模块;
25.步骤s4包括以下步骤:
26.步骤s41:将待补全目标点云数据映射到鸟瞰图视角后得到待补全目标鸟瞰图特征;
27.步骤s42:第一语义特征和第一几何特征分别映射到鸟瞰图视角后与待补全目标
鸟瞰图特征一起输入第一自适应特征融合模块进行特征融合得到第一阶段融合特征,第二语义特征和第二几何特征分别映射到鸟瞰图视角后与第一阶段融合特征一起输入第二自适应特征融合模块进行特征融合得到第二阶段融合特征,第三语义特征和第三几何特征分别映射到鸟瞰图视角后与第二阶段融合特征一起输入第三自适应特征融合模块进行特征融合得到第三阶段融合特征;三个阶段的融合特征经过解码器后得到语义场景补全结果。
28.优选的,体素化具体步骤为:
29.用p表示待补全目标点云数据,pi=(xi,yi,zi)表示给待补全目标点云数据中的一点,它的体素索引其中s为体素化的分辨率,为向下取整操作;
[0030][0031]
表示体素索引为vm的第m个非空体素的体素特征;rf表示全连接层,用于将输入特征的维度减小为64;mlp表示多层感知机,对输入的点云特征进行编码;af是一个聚合函数,通常为平均池化函数,对属于同一体素的所有点的特征进行聚合;f
p
表示维度大小为7的点特征,包括点云的坐标(3维)、点云中每个点的坐标离所在体素中心的偏移向量(3维)和雷达点云反射强度(1维);v
p
表示点p所在的体素索引;
[0032]
优选的,步骤s4包括以下步骤:
[0033]
步骤s4a:计算所述语义特征对应的稀疏体素索引,通过所述稀疏体素索引计算生成鸟瞰图索引,使用聚合函数将语义特征映射到稀疏鸟瞰图特征,最后根据稀疏鸟瞰图特征和对应的鸟瞰图索引生成鸟瞰图视角下的语义特征;
[0034]
步骤s4b:将几何特征在高度维度上进行最大池化得到鸟瞰图视角下的几何特征;
[0035]
步骤s4c:将所述鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征输入自适应特征融合模块进行特征融合得到自适应特征融合模块输出的特征,再通过解码器对所述自适应特征融合模块输出的特征进行多次上采样操作得到语义场景补全结果,所述语义场景补全结果(l,h,w)为3d体素化空间的尺寸,c为语义类别。优选的,解码器上采样步骤具体为:解码器通过跳跃连接将来自编码器的特征逐步上采样3次,每次上采样的倍数为2。
[0036]
优选的,步骤s4中,每个自适应特征融合模块输出一个阶段融合特征,用f
prev
表示上一个自适应特征融合模块输出的阶段融合特征,并将f
prev
输入与上一个自适应特征融合模块串联的下一个自适应特征融合模块,下一个自适应特征模块中输入的映射到鸟瞰图视角后的语义特征和几何特征分别用f
sem
和f
com
表示;首先计算它们各自的通道注意力权重,然后将它们各自的通道注意力权重和其对应的特征相乘,再将它们相乘后的结果相加后经过一个1
×
1卷积得到融合后的结果。
[0037]
下一个自适应特征模块输出的阶段融合特征可表示为:
[0038]ff
=φ{σ[mlp(avgpool(f
prev
)]
·fprev
[0039]
+σ[mlp(avgpool(f
sem
)]
·fsem
[0040]
+σ[mlp(avgpool(f
com
)]
·fcom
}
[0041]ff
表示下一个自适应特征模块输出的阶段融合特征;σ为sigmoid函数,将输入映
射到范围(0,1)之间;avgpool为全局平均池化;mlp为多层感知机;φ为1
×
1卷积层;
[0042]
优选的,对步骤s2中的语义分支、步骤s3中的补全分支和步骤s4中的语义补全分支进行预训练,预训练步骤包括:
[0043]
步骤s51:利用服务器获取待补全目标点云训练数据;
[0044]
步骤s52:使用语义分支提取待补全目标点云训练数据的语义特征,并进行语义分割监督以促进语义上下文的学习,语义监督损失函数由lovasz损失和多分类交叉熵损失组成。语义分割监督具体为将轻量级的多层感知机作为辅助头,输出该阶段的预测结果并与对应尺度的标签计算损失;
[0045]
步骤s53:使用补全分支提取待补全目标点云训练数据的几何特征,并进行场景补全监督以促进几何信息的学习,几何监督损失函数由lovasz损失和二分类交叉熵损失组成。场景补全监督具体为将轻量级的多层感知机作为辅助头,输出该阶段的预测结果并与对应尺度的标签计算损失;
[0046]
步骤s54:语义特征和几何特征分别映射到鸟瞰图视角后输入语义补全分支进行特征融合得到语义场景补全结果,对语义场景补全结果进行主监督,语义补全监督损失函数由lovasz损失和多分类交叉熵损失组成。
[0047]
步骤s55:利用服务器进行网络训练,采用端到端的方式进行多任务训练;损失函数l
total
为步骤s52、步骤s53和步骤s54中的监督损失函数的加权和。
[0048]
步骤s56:利用服务器优化损失函数,获取局部最优网络参数,得到预训练好的语义分支、补全分支和语义补全分支。
[0049]
优选的,步骤s52中,语义监督损失函数可表示为:
[0050][0051]
l
lovasz,i
和l
ce,i
分别表示语义监督第i个lovasz损失和第i个多分类交叉熵损失;
[0052]
步骤s53中,几何监督损失函数可表示为:
[0053][0054]
l
lovasz,i
和l
bce,i
分别表示几何监督第i个lovasz损失和第i个二分类交叉熵损失;
[0055]
步骤s54中,语义补全监督损失函数可表示为:
[0056]
l
bev
=l
lovasz
+l
ce
[0057]
l
lovasz
和l
ce
分别表示语义补全监督的lovasz损失和多分类交叉熵损失;
[0058]
步骤s55中,损失函数l
total
可表示为:
[0059]
l
total
=3
·
l
bev
+ls+lc[0060]
优选的,步骤s52,步骤s53和步骤s54中的lovasz损失具体为:
[0061][0062]
其中,j为iou的lovasz拓展版本,e(c)为类别c的误差向量;交叉熵损失具体为:其中,yi为预测值,为真实值。
[0063]
与现有技术相比,本发明的有益效果是:
[0064]
本发明提供的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,使用预训练好的语义分支和补全分支分别提取待补全目标点云数据的语义特征和几何特征;此外使用预训练好的语义补全分支来有效融合鸟瞰图视角下的语义特征和几何特征,基于特征表示分解后再融合特征,使语义特征和几何特征相互得到补充,计算简单的同时特征表示能力强,有益于恢复语义场景细节,而且相比3d空间的稠密特征融合,鸟瞰图融合更方便高效;本发明提出的语义场景补全方法简单、高效,计算速度快,能够实现实时对输入的点云进行语义场景补全,且对实际3d环境中目标遮挡,快速移动等问题具有很好的鲁棒性,具有语义场景细节恢复状况好,补全后场景更符合实际等优点。
[0065]
语义上下文和几何结构相辅相成,对ssc任务至关重要,根据语义很容易恢复几何细节,而完整的几何形状又有助于识别语义类别,显式地分离特征表示可以促进和加速语义上下文和几何结构的学习过程,我们在语义补全分支中提出了自适应特征融合模块,能够从语义/几何特征中获得有效线索并充分融合语义上下文和几何细节,大大提升了特征表达能力。
[0066]
设计了n个语义特征提取模块和几何特征提取模块分别对语义特征和几何特征进行多次提取,并设计了等量的自适应特征融合模块对分次提取的语义特征和几何特征进行多次特征融合,进一步提升了特征表达能力,语义场景细节能力优异,与ssc-sa,js3cnet的可视化结果比较时,本发明所提出的方法在运动目标和平坦物体上都有更好的补全效果,补出的目标更清晰,完整,更符合实际。
[0067]
本发明方法的设计定位在轻量级,使用3个稀疏编码块对语义特征进行编码,并使用3个轻量级的稠密残差块来获得几何特征,使用语义补全分支(bev融合网络)来融合语义/几何特征;使本方法同时具有轻量级的设计和强大的表达能力,使用时,本方法延迟低,能够实时运行,并且具有良好的泛化性,在semantickitti测试集上实现了最先进的性能。
附图说明
[0068]
图1为本发明一种基于特征表示分解和鸟瞰图融合的语义场景补全方法的整体算法框架示意图;
[0069]
图2为本发明设计的语义分支和补全分支的具体结构示意图;
[0070]
图3为本发明设计的自适应特征融合模块具体结构示意图;
[0071]
图4为本发明所提出的方法和其他先进方法(ssc-sa,js3cnet)的可视化结果比较图;
[0072]
图5为本发明所提出的方法和其他方法在semantickitti测试集上的比较。
具体实施方式
[0073]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0074]
一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,包括以下步骤:
[0075]
步骤s1:获取待补全目标点云数据;构建语义分支、补全分支和语义补全分支;
[0076]
步骤s2:使用预训练好的语义分支提取待补全目标点云数据的语义特征;
[0077]
步骤s3:使用预训练好的补全分支提取待补全目标点云数据的几何特征;
[0078]
步骤s4:语义特征和几何特征分别映射到鸟瞰图视角(bev)后输入预训练好的语义补全分支进行特征融合得到语义场景补全结果。
[0079]
本发明提供的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,使用预训练好的语义分支和补全分支分别提取待补全目标点云数据的语义特征和几何特征,实现特征的解耦学习;此外使用预训练好的语义补全分支来有效融合鸟瞰图视角下的语义特征和几何特征,基于特征表示分解后再融合特征,使语义特征和几何特征相互得到补充,计算简单的同时特征表示能力强,有益于恢复语义场景细节,而且相比3d空间的稠密特征融合,鸟瞰图融合更方便高效;本发明提出的语义场景补全方法简单、高效,计算速度快,能够实现实时对输入的点云进行语义场景补全,且对实际3d环境中目标遮挡,快速移动等问题具有很好的鲁棒性,具有语义场景细节恢复状况好,补全后场景更符合实际等优点。
[0080]
本实施例中,步骤s4中语义补全分支包括自适应特征融合模块(arf),自适应特征融合模块用于融合鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征。所述步骤s4包括以下步骤:
[0081]
步骤s4a:计算所述语义特征对应的稀疏体素索引,通过所述稀疏体素索引计算生成鸟瞰图索引,使用聚合函数将语义特征映射到稀疏鸟瞰图特征,最后根据稀疏鸟瞰图特征和对应的鸟瞰图索引生成鸟瞰图视角下的语义特征;
[0082]
步骤s4b:将几何特征在高度维度上进行最大池化得到鸟瞰图视角下的几何特征;
[0083]
步骤s4c:将所述鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征输入自适应特征融合模块进行特征融合得到自适应特征融合模块输出的特征,再通过解码器对所述自适应特征融合模块输出的特征进行多次上采样操作得到语义场景补全结果,所述语义场景补全结果(l,h,w)为3d体素化空间的尺寸,c为语义类别。
[0084]
语义上下文和几何结构相辅相成,对ssc任务至关重要,根据语义很容易恢复几何细节,而完整的几何形状又有助于识别语义类别,显式地分离特征表示可以促进和加速语义上下文和几何结构的学习过程,我们在语义补全分支中提出了自适应特征融合模块,能够从语义/几何特征中获得有效线索并充分融合语义上下文和几何细节,大大提升了特征表示能力。
[0085]
本实施例中,步骤s2中语义分支包括n个语义特征提取模块;
[0086]
步骤s3中补全分支包括n个几何特征提取模块;n个几何特征提取模块分别与n个语义特征提取模块相对应;
[0087]
步骤s4中语义补全分支包括n个自适应特征融合模块;n个自适应特征融合模块分别与n个语义特征提取模块相对应;n个自适应特征融合模块分别与n个几何特征提取模块相对应;语义特征提取模块和与其对应的几何特征提取模块提取出的语义特征和几何特征分别映射到鸟瞰图视角后输入对应的自适应特征融合模块进行特征融合;语义特征和几何特征分别映射到鸟瞰图视角后变成2d的语义特征和几何特征。
[0088]
n个自适应特征融合模块之间以串联方式连接,每个自适应特征融合模块输出一个阶段融合特征,第一个自适应特征融合模块输出第一个阶段融合特征,然后将第一个阶
段融合特征传递至与其串联的下一个自适应特征融合模块,并与下一个自适应特征融合模块中输入的鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征进行特征融合后输出下一个阶段融合特征,逐个传递直至最后一个自适应特征融合模块进行最后的特征融合。
[0089]
每个自适应特征融合模块输出一个阶段融合特征,用f
prev
表示上一个自适应特征融合模块输出的阶段融合特征,并将f
prev
输入与上一个自适应特征融合模块串联的下一个自适应特征融合模块,下一个自适应特征模块中输入的映射到鸟瞰图视角后的语义特征和几何特征分别用f
sem
和f
com
表示;首先计算它们各自的通道注意力权重,然后将它们各自的通道注意力权重和其对应的特征相乘,再将它们相乘后的结果相加后经过一个1
×
1卷积得到融合后的结果。
[0090]
如图3所示,下一个自适应特征模块输出的阶段融合特征可表示为:
[0091]ff
=φ{σ[mlp(avgpool(f
prev
)]
·fprev
[0092]
+σ[mlp(avgpool(f
sem
)]
·fsem
[0093]
+σ[mlp(avgpool(f
com
)]
·fcom
}
[0094]ff
表示下一个自适应特征模块输出的阶段融合特征;σ为sigmoid函数,将输入映射到范围(0,1)之间;avgpool为全局平均池化;mlp为多层感知机;φ为1
×
1卷积层;
[0095]
设计了n个语义特征提取模块和几何特征提取模块分别对语义特征和几何特征进行多次提取,并设计了等量的自适应特征融合模块对分次提取的语义特征和几何特征进行多次特征融合,进一步提升了特征表达能力,语义场景细节能力优异,与ssc-sa,js3cnet的可视化结果比较时,本发明所提出的方法在运动目标和平坦物体上都有更好的补全效果,补出的目标更清晰,完整,更符合实际。
[0096]
具体的,步骤s2中语义分支还包括体素化层,语义特征提取模块为3个,每个语义特征提取模块包括1个稀疏编码块,如图2所示,具体为第一稀疏编码块、第二稀疏编码块和第三稀疏编码块;体素化层为1个;
[0097]
步骤s2包括以下步骤:
[0098]
步骤s21:将待补全目标点云数据输入体素化层进行体素化得到体素特征;
[0099]
体素化具体步骤为:
[0100]
用p表示待补全目标点云数据,pi=(xi,yi,zi)表示给待补全目标点云数据中的一点,它的体素索引其中s为体素化的分辨率,为向下取整操作;
[0101][0102]
表示体素索引为vm的第m个非空体素的体素特征;rf表示全连接层,用于将输入特征的维度减小为64;mlp表示多层感知机,对输入的点云特征进行编码;af是一个聚合函数,通常为平均池化函数,对属于同一体素的所有点的特征进行聚合;f
p
表示维度大小为7的点特征,包括点云的坐标(3维)、点云中每个点的坐标离所在体素中心的偏移向量(3维)和雷达点云反射强度(1维);v
p
表示点p所在的体素的索引;
[0103]
步骤s22:将体素特征先输入第一稀疏编码块后输出第一语义特征和第一体素特征,第一体素特征再输入第二稀疏编码块后输出第二语义特征和第二体素特征,第二体素
特征最后输入第三稀疏编码块后输出第三语义特征;在本实施例中,每个稀疏编码块由一个稀疏卷积残差块和一个稀疏几何特征提取模块组成,稀疏卷积残差块将输入的体素特征分辨率减半,稀疏几何特征提取模块利用不同尺度稀疏映射和注意力挑选机制来增强体素特征的几何特性。由于在稀疏几何特征提取模块设置了不同尺度,因此语义分支提取出的语义特征为多尺度稀疏语义特征,多尺度稀疏语义特征可表示为(f
v,fs,1,fs,2,fs,3
),fv表示体素特征,f
s,1
为第一语义特征,f
s,2
为第二语义特征,f
s,3
为第三语义特征;特征f
s,1
、f
s,2
、f
s,3
之间的尺度并不相同。
[0104]
步骤s3中补全分支还包括输入层,几何特征提取模块为3个,每个几何特征提取模块包括1个稠密残差块,如图2所示,具体为第一稠密残差块、第二稠密残差块和第三稠密残差块;
[0105]
步骤s3包括以下步骤:
[0106]
步骤s31:计算待补全目标点云数据的占用体素ov;占用体素为0/1二进制值,由点云生成,若一个体素包含点则为1,否则为0;
[0107]
步骤s32:将占用体素输入输入层,通过输入层处理增大感受野后再输入第一稠密残差块输出第一几何特征和第一占用体素,第一占用体素再输入第二稠密残差块后输出第二几何特征和第二占用体素,第二占用体素最后输入第三稠密残差块后输出第三几何特征。输入层为7
×7×
7的3d稠密卷积,每个稠密残差块都由3
×3×
3的3d稠密卷积组成。相对于多尺度稀疏语义特征,设计与其相应的多尺度稠密几何特征(o
v,fc,1,fc,2,fc,3
)用于后续特征融合,f
c,1
为第一几何特征,f
c,2
为第二几何特征,f
c,3
为第三几何特征;其中特征f
s,1
和f
c,1
具有相同尺度,f
s,2
和f
c,2
具有相同尺度,f
s,3
和f
c,3
具有相同尺度。
[0108]
多尺度稀疏语义特征和多尺度稠密几何特征的设计使语义特征和几何特征的提取精度更高,特征表达能力更强,对实际3d环境中目标遮挡,快速移动等问题具有很好的鲁棒性。
[0109]
步骤s4中语义补全分支包括第一自适应特征融合模块、第二自适应特征融合模块和第三自适应特征融合模块;本实施例中,语义补全分支是一个2d u-net网络,该网络包括一个编码器和一个解码器,编码器由自适应特征融合模块组成,编码器将2d的语义特征和几何特征进行层次化融合。
[0110]
步骤s4包括以下步骤:
[0111]
步骤s41:将待补全目标点云数据映射到鸟瞰图视角后得到待补全目标鸟瞰图特征;
[0112]
步骤s42:第一语义特征和第一几何特征分别映射到鸟瞰图视角后与待补全目标鸟瞰图特征一起输入第一自适应特征融合模块进行特征融合得到第一阶段融合特征,第二语义特征和第二几何特征分别映射到鸟瞰图视角后与第一阶段融合特征一起输入第二自适应特征融合模块进行特征融合得到第二阶段融合特征,第三语义特征和第三几何特征分别映射到鸟瞰图视角后与第二阶段融合特征一起输入第三自适应特征融合模块进行特征融合得到第三阶段融合特征;三个阶段的融合特征经过解码器后得到语义场景补全结果,如图1所示。
[0113]
本发明方法的设计定位在轻量级,使用3个稀疏编码块对语义特征进行编码,并使用3个轻量级的稠密残差块来获得几何特征,使用语义补全分支(bev融合网络)来融合语
义/几何特征;使本方法同时具有轻量级的设计和强大的表达能力,使用时,本方法延迟低,能够实时运行,并且具有良好的泛化性,在semantickitti测试集上实现了最先进的性能。
[0114]
本实施例中,对步骤s2中的语义分支、步骤s3中的补全分支和步骤s4中的语义补全分支进行预训练,预训练步骤包括:
[0115]
步骤s51:利用服务器获取待补全目标点云训练数据;
[0116]
步骤s52:使用语义分支提取待补全目标点云训练数据的语义特征,并进行语义分割监督以促进语义上下文的学习,语义监督损失函数由lovasz损失和多分类交叉熵损失组成。语义分割监督具体为将轻量级的多层感知机作为辅助头,输出该阶段的预测结果并与对应尺度的标签计算损失;
[0117]
语义监督损失函数可表示为:
[0118][0119]
l
lovasz,i
和l
ce,i
分别表示语义监督第i个语义阶段的lovasz损失和多分类交叉熵损失;
[0120]
步骤s53:使用补全分支提取待补全目标点云训练数据的几何特征,并进行场景补全监督以促进几何信息的学习,几何监督损失函数由lovasz损失和二分类交叉熵损失组成。场景补全监督具体为将轻量级的多层感知机作为辅助头,输出该阶段的预测结果并与对应尺度的标签计算损失;
[0121]
几何监督损失函数可表示为:
[0122][0123]
l
lovasz,i
和l
bce,i
分别表示几何监督第i个补全阶段的lovasz损失和二分类交叉熵损失;
[0124]
步骤s54:语义特征和几何特征分别映射到鸟瞰图视角后输入语义补全分支进行特征融合得到语义场景补全结果,对语义场景补全结果进行主监督,语义补全监督损失函数由lovasz损失和多分类交叉熵损失组成。
[0125]
语义补全监督损失函数可表示为:
[0126]
l
bev
=l
lovasz
+l
ce
[0127]
l
lovasz
和l
ce
分别表示语义补全监督的lovasz损失和多分类交叉熵损失;
[0128]
步骤s52,步骤s53和步骤s54中的lovasz损失具体为:
[0129][0130]
其中,j为iou的lovasz拓展版本,e(c)为类别c的误差向量;交叉熵损失具体为:其中,yi为预测值,为真实值。
[0131]
步骤s55:利用服务器进行网络训练,采用端到端的方式进行多任务训练;损失函数l
total
为步骤s52、步骤s53和步骤s54中的监督损失函数的加权和。
[0132]
损失函数l
total
可表示为:
[0133]
l
total
=3
·
l
bev
+ls+lc[0134]
步骤s56:利用服务器优化损失函数,获取局部最优网络参数,得到预训练好的语义分支、补全分支和语义补全分支。
[0135]
对于语义分支和补全分支这两个独立的分支,并应用层我们应用层级监督以促进表示学习过程。本发明提供的基于特征表示分解和鸟瞰图融合的点云语义场景补全方法,基于特征表示分解设计语义分支和补全分支来分别提取语义特征和几何特征来加速网络收敛和算法的特征表征能力,此外基于鸟瞰图融合设计自适应融合模块和语义补全分支来有效融合语义特征和几何特征。本发明提出的方法(ssc-rs)速度快,能够实时对输入的点云进行语义场景补全,且对实际3d环境中目标遮挡,快速移动等问题具有很好的鲁棒性,在大尺度数据集semantickitti测试集上实现了最先进的性能。
[0136]
图4为本实施例所提出的方法和其他先进方法(ssc-sa,js3cnet)的可视化结果比较图;将雷达点云输入到预训练好的语义场景补全网络(ssc-sa,js3cnet以及本发明所提出的ssc-rs)中,输出语义补全结果,并将其进行可视化;如图4所示,本发明所提出的算法在运动目标和平坦物体上都有更好的补全效果。
[0137]
图5为本实施例所提出的方法和其他先进方法在semantickitti测试集上的比较结果;将semantickitti测试集中的雷达点云输入到预训练好的语义场景补全网络(lmcnet,local-difs,js3cnet,s3cnet,udnet,ssa-sc以及本发明所提出的ssc-rs)中,输出语义补全结果,并将其结果上传到服务器计算各类语义补全指标,包括补全结果(交并比iou)和语义补全结果(各类别平均iou,miou);如图5所示,本发明所提出的算法在补全结果上具有最先进的性能,且能够实时运行(16.7fps),在已发表的工作中补全指标iou排名第一,语义补全指标miou排名第二。
[0138]
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他实施例中。
技术特征:
1.一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,包括以下步骤:步骤s1:获取待补全目标点云数据;步骤s2:使用预训练好的语义分支提取所述待补全目标点云数据的语义特征;步骤s3:使用预训练好的补全分支提取所述待补全目标点云数据的几何特征;步骤s4:所述语义特征和几何特征分别映射到鸟瞰图视角后输入预训练好的语义补全分支进行特征融合得到语义场景补全结果。2.根据权利要求1所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,其特征在于:步骤s4中所述语义补全分支包括自适应特征融合模块,所述自适应特征融合模块用于融合鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征。3.根据权利要求2所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,其特征在于:步骤s2中所述语义分支包括n个语义特征提取模块;步骤s3中所述补全分支包括n个几何特征提取模块;所述n个几何特征提取模块分别与n个语义特征提取模块相对应;步骤s4中所述语义补全分支包括n个自适应特征融合模块;所述n个自适应特征融合模块分别与n个语义特征提取模块相对应;所述n个自适应特征融合模块分别与n个几何特征提取模块相对应;所述语义特征提取模块和与其对应的几何特征提取模块提取出的语义特征和几何特征分别映射到鸟瞰图视角后输入对应的自适应特征融合模块进行特征融合;所述n个自适应特征融合模块之间以串联方式连接,每个自适应特征融合模块输出一个阶段融合特征,第一个自适应特征融合模块输出第一个阶段融合特征,然后将第一个阶段融合特征传递至与其串联的下一个自适应特征融合模块,并与下一个自适应特征融合模块中输入的鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征进行特征融合后输出下一个阶段融合特征,逐个传递直至最后一个自适应特征融合模块进行最后的特征融合。4.根据权利要求3所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,其特征在于:步骤s2中所述语义分支包括体素化层,所述n个语义特征提取模块包括第一稀疏编码块、第二稀疏编码块和第三稀疏编码块;所述步骤s2包括以下步骤:步骤s21:将所述待补全目标点云数据输入体素化层进行体素化得到体素特征;步骤s22:将所述体素特征先输入第一稀疏编码块后输出第一语义特征和第一体素特征,第一体素特征再输入第二稀疏编码块后输出第二语义特征和第二体素特征,第二体素特征最后输入第三稀疏编码块后输出第三语义特征;步骤s3中所述补全分支包括输入层,所述n个几何特征提取模块包括第一稠密残差块、第二稠密残差块和第三稠密残差块;所述步骤s3包括以下步骤:步骤s31:计算所述待补全目标点云数据的占用体素;步骤s32:将所述占用体素输入输入层,通过输入层处理增大感受野后再输入第一稠密残差块输出第一几何特征和第一占用体素,第一占用体素再输入第二稠密残差块后输出第二几何特征和第二占用体素,第二占用体素最后输入第三稠密残差块后输出第三几何特
征。步骤s4中所述所述语义补全分支包括第一自适应特征融合模块、第二自适应特征融合模块和第三自适应特征融合模块;步骤s4包括以下步骤:步骤s41:将所述待补全目标点云数据映射到鸟瞰图视角后得到待补全目标鸟瞰图特征;步骤s42:所述第一语义特征和第一几何特征分别映射到鸟瞰图视角后与待补全目标鸟瞰图特征一起输入第一自适应特征融合模块进行特征融合得到第一阶段融合特征,所述第二语义特征和第二几何特征分别映射到鸟瞰图视角后与第一阶段融合特征一起输入第二自适应特征融合模块进行特征融合得到第二阶段融合特征,所述第三语义特征和第三几何特征分别映射到鸟瞰图视角后与第二阶段融合特征一起输入第三自适应特征融合模块进行特征融合得到第三阶段融合特征;三个阶段的融合特征经过解码器后得到语义场景补全结果。5.根据权利要求4所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,其特征在于,所述体素化具体步骤为:用p表示待补全目标点云数据,p
i
=(x
i
,y
i
,z
i
)表示给待补全目标点云数据中的一点,它的体素索引其中s为体素化的分辨率,为向下取整操作;为向下取整操作;表示体素索引为v
m
的第m个非空体素的体素特征;r
f
表示全连接层;mlp表示多层感知机;a
f
是一个聚合函数;f
p
表示点特征,v
p
表示点p所在的体素索引。6.根据权利要求2所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,其特征在于:所述步骤s4包括以下步骤:步骤s4a:计算所述语义特征对应的稀疏体素索引,通过所述稀疏体素索引计算生成鸟瞰图索引,使用聚合函数将语义特征映射到稀疏鸟瞰图特征,最后根据稀疏鸟瞰图特征和对应的鸟瞰图索引生成鸟瞰图视角下的语义特征;步骤s4b:将几何特征在高度维度上进行最大池化得到鸟瞰图视角下的几何特征;步骤s4c:将所述鸟瞰图视角下的语义特征和鸟瞰图视角下的几何特征输入自适应特征融合模块进行特征融合得到自适应特征融合模块输出的特征,再通过解码器对所述自适应特征融合模块输出的特征进行多次上采样操作得到语义场景补全结果,所述语义场景补全结果(l,h,w)为3d体素化空间的尺寸,c为语义类别。7.根据权利要求3所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,其特征在于,所述步骤s4中,每个自适应特征融合模块输出一个阶段融合特征,用f
prev
表示上一个自适应特征融合模块输出的阶段融合特征,并将f
prev
输入与上一个自适应特征融合模块串联的下一个自适应特征融合模块,下一个自适应特征模块中输入的映射到鸟瞰图视角后的语义特征和几何特征分别用f
sem
和f
com
表示;下一个自适应特征模块输出的阶段融合特征可表示为:
f
f
=φ{σ,mlp(avgpool(f
prev
)]
·
f
prev
+σ,mlp(avgpool(f
sem
)]
·
f
sem
+σ[mlp(avgpool(f
com
)]
·
f
com
}f
f
表示下一个自适应特征模块输出的阶段融合特征;σ为sigmoid函数,将输入映射到范围(0,1)之间;avgpool为全局平均池化;mlp为多层感知机;φ为1
×
1卷积层。8.根据权利要求1-7任一权利要求所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,其特征在于,对步骤s2中的语义分支、步骤s3中的补全分支和步骤s4中的语义补全分支进行预训练,预训练步骤包括:步骤s51:利用服务器获取待补全目标点云训练数据;步骤s52:使用语义分支提取所述待补全目标点云训练数据的语义特征,并进行语义分割监督以促进语义上下文的学习,语义监督损失函数由lovasz损失和多分类交叉熵损失组成。步骤s53:使用补全分支提取所述待补全目标点云训练数据的几何特征,并进行场景补全监督以促进几何信息的学习,几何监督损失函数由lovasz损失和二分类交叉熵损失组成。步骤s54:语义特征和几何特征分别映射到鸟瞰图视角后输入语义补全分支进行特征融合得到语义场景补全结果,对语义场景补全结果进行主监督,语义补全监督损失函数由lovasz损失和多分类交叉熵损失组成。步骤s55:利用服务器进行网络训练,采用端到端的方式进行多任务训练;损失函数l
total
为步骤s52、步骤s53和步骤s54中的监督损失函数的加权和。步骤s56:利用服务器优化损失函数,获取局部最优网络参数,得到预训练好的语义分支、补全分支和语义补全分支。9.根据权利要求8所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,其特征在于:步骤s52中,所述语义监督损失函数可表示为:l
lovasz,i
和l
ce,i
分别表示语义监督第i个lovasz损失和第i个多分类交叉熵损失;步骤s53中,所述几何监督损失函数可表示为:l
lovasz,i
和l
bce,i
分别表示几何监督第i个lovasz损失和第i个二分类交叉熵损失;步骤s54中,所述语义补全监督损失函数可表示为:l
bev
=l
lovasz
+l
ce
l
lovasz
和l
ce
分别表示语义补全监督的lovasz损失和多分类交叉熵损失;步骤s55中,所述损失函数l
total
可表示为:l
total
=3
·
l
bev
+l
s
+l
c。
10.根据权利要求8所述的一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,
其特征在于:所述步骤s52,步骤s53和步骤s54中的lovasz损失具体为:j为iou的lovasz拓展版本,e(c)为类别c的误差向量。
技术总结
一种基于特征表示分解和鸟瞰图融合的语义场景补全方法,包括以下步骤:步骤S1:获取待补全目标点云数据;步骤S2:使用预训练好的语义分支提取待补全目标点云数据的语义特征;步骤S3:使用预训练好的补全分支提取待补全目标点云数据的几何特征;步骤S4:语义特征和几何特征分别映射到鸟瞰图视角后输入预训练好的语义补全分支进行特征融合得到语义场景补全结果;本发明方法计算速度快,能够实时对输入的点云进行语义场景补全。的点云进行语义场景补全。的点云进行语义场景补全。
技术研发人员:刘勇 梅剑标 王蒙蒙
受保护的技术使用者:浙江大学
技术研发日:2023.05.18
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:快速充电桩宽功率范围效率优化方法 下一篇:一种兼具振震双控和竖向抗拉功能的隔震支座