对象识别及对象识别模型训练方法、装置、设备及介质与流程

未命名 09-20 阅读:66 评论:0


1.本技术涉及图像数据处理技术领域,特别是涉及对象识别及对象识别模型训练方法、装置、设备及介质。


背景技术:

2.三维图像中包含的数据远远超过二维图像,在对三维图像中的对象进行识别时,由于整个三维图像数据量太大,需要将整个三维图像数据拆分为多个三维体素图(也称为体素块)去分别进行对象识别。然而针对每个三维体素图分别进行对象识别,忽略了三维体素图之间的联系,会丢失这些三维体素图的空间上下文信息;对于尺寸较大的对象,对象中的关键信息容易被拆分到多个三维体素图中,空间上下文信息的丢失会导致每个三维体素图中对象的关键信息均不完整,丢失了对象关键信息之间的关联性,对象识别的准确率较低;而对于尺寸较小的对象由于对象的像素较少,可提取的特征也就相对较少,这样容易受到噪声干扰,尤其是尺寸较小的对象被拆分到多个三维体素图中时,对象识别的准确率较低。


技术实现要素:

3.本技术实施例的目的在于提供一种对象识别及对象识别模型训练方法、装置、设备及介质,以提高三维图像中对象识别的准确率。具体技术方案如下:
4.第一方面,本技术实施例提供了一种对象识别方法,所述方法包括:
5.获取待识别三维图像,以及获取预先训练的对象识别模型,其中,所述对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;
6.将所述待识别三维图像裁剪为多个待识别三维体素图;
7.将所述待识别三维图像和多个所述待识别三维体素图输入到所述对象识别模型中,得到对象识别结果。
8.可选的,所述二维特征处理网络包括二维编/解码网络;
9.或,所述二维特征处理网络包括二维编码网络、且不包括二维解码网络。
10.可选的,所述将所述待识别三维图像和多个所述待识别三维体素图输入到所述对象识别模型中,得到对象识别结果,包括:
11.利用所述二维全局特征提取网络提取所述待识别三维图像的目标二维全局特征;
12.利用所述二维特征处理网络对所述目标二维全局特征进行特征编码,得到多个目标二维图像编码特征;
13.利用所述三维编码网络对所述待识别三维体素图进行特征编码,得到多个第二目标三维图像编码特征;
14.利用所述多维特征融合网络将所述目标二维图像编码特征与所述第二目标三维图像编码特征进行融合,得到多个目标融合特征;
15.利用所述三维解码网络对各所述目标融合特征及至少一个所述第二目标三维图像编码特征进行解码,得到所述待识别三维体素图的第二对象预测结果,其中,所述对象识别结果包括各所述待识别三维体素图的第二对象预测结果。
16.可选的,所述将所述待识别三维图像裁剪为多个待识别三维体素图,包括:
17.利用滑窗法将所述待识别三维图像裁剪为多个有重叠的待识别三维体素图,其中,相邻的所述待识别三维体素图之间存在像素区域重叠;
18.所述方法还包括:
19.将各所述待识别三维体素图的第二对象预测结果进行拼接,并利用高斯权重码对存在重叠的像素区域进行加权,得到对象识别结果。
20.可选的,所述二维全局特征提取网络包括三维卷积块层及池化层,所述利用所述二维全局特征提取网络提取所述待识别三维图像的目标二维全局特征,包括:
21.向所述二维全局特征提取网络输入所述待识别三维图像,利用所述三维卷积块层对所述待识别三维图像进行编码并映射至高维,得到高维第一目标三维图像编码特征;
22.利用所述池化层对所述高维第一目标三维图像编码特征进行池化操作,得到所述待识别三维图像的目标二维全局特征。
23.可选的,所述利用所述池化层对所述高维第一目标三维图像编码特征进行池化操作,得到所述待识别三维图像的目标二维全局特征,包括:
24.利用所述池化层使用聚合函数对所述高维第一目标三维图像编码特征进行处理,得到所述待识别三维图像的目标二维全局特征;
25.其中,所述聚合函数为i
global
为所述待识别三维图像的目标二维全局特征,
input
为所述待识别三维图像,convblock(g
input
)为所述高维第一目标三维图像编码特征,表示在轴向上进行平均池化。
26.可选的,所述二维全局特征提取网络还包括二维卷积块层,所述利用所述池化层对所述高维第一目标三维图像编码特征进行池化操作,得到所述待识别三维图像的目标二维全局特征之后,所述方法还包括:
27.利用二维卷积块层对所述待识别三维图像的目标二维全局特征进行降维。
28.可选的,所述二维编码网络包括k个二维编码层,所述三维编码网络包括k个三维编码层,所述利用多维特征融合网络将所述目标二维图像编码特征与所述第二目标三维图像编码特征进行融合,得到多个目标融合特征,包括:
29.利用多维特征融合网络将第l个二维编码层输出的目标二维图像编码特征与第l个三维编码层输出的第二目标三维图像编码特征进行融合,得到第l个目标融合特征,其中,l∈[1,k-1]。
[0030]
可选的,所述三维解码网络包括k个三维解码层及三维卷积层,利用三维解码网络对各所述目标融合特征及至少一个所述第二目标三维图像编码特征进行解码,得到所述待识别三维体素图的第二对象预测结果,包括:
[0031]
利用第一个三维解码层对第k个三维编码层输出的目标图像特征进行解码;
[0032]
利用第t个三维解码层对第t-1个三维解码层输出的目标图像特征及第k+1-t个目标融合特征进行解码,其中,t∈[2,k];
[0033]
利用三维卷积层对第k个三维解码层输出的目标图像特征进行卷积操作,得到所述待识别三维体素图对应的识别结果。
[0034]
可选的,所述利用多维特征融合网络将第l个二维编码层输出的目标二维图像编码特征与第l个三维编码层输出的第二目标三维图像编码特征进行融合,得到第l个目标融合特征,包括:
[0035]
利用多维特征融合网络对第l个二维编码层输出的目标二维图像编码特征进行特征提取,得到第l个目标二维图像转换特征,其中,第l个目标二维图像转换特征与第l个第二目标三维图像编码特征的通道数相同;
[0036]
根据当前输入的待识别三维体素图在所述待识别三维图像中的位置信息,确定当前输入的待识别三维体素图在第i个目标二维图像转换特征中所对应的特征区域,得到第l个目标二维图像区域特征;
[0037]
将第l个目标二维图像区域特征的尺寸调整为第l个第二目标三维图像编码特征的尺寸,得到尺寸调整后的第l个目标二维图像区域特征;
[0038]
尺寸调整后的第l个目标二维图像区域特征与第l个第二目标三维图像编码特征进行融合,得到第l个目标融合特征。
[0039]
可选的,所述根据当前输入的待识别三维体素图在所述待识别三维图像中的位置信息,确定当前输入的待识别三维体素图在第i个目标二维图像转换特征中所对应的特征区域,得到第l个目标二维图像区域特征,包括:
[0040]
获取当前输入的待识别三维体素图在所述待识别三维图像中的位置信息(i,j,k);
[0041]
根据如下公式确定当前输入的待识别三维体素图在第l个目标二维图像转换特征中所对应的特征区域(i
l
,j
l
):
[0042][0043][0044]
其中,二维编码层中卷积核的尺寸为(kv,kw,kh),二维编码层中池化计算的步长为s。
[0045]
第二方面,本技术实施例提供了一种对象识别模型训练方法,所述方法包括:
[0046]
获取样本三维图像、所述样本三维图像的对象标注和待训练的对象识别模型,其中,所述对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络,所述二维特征处理网络包括二维编/解码网络;
[0047]
将所述样本三维图像裁剪为多个样本三维体素图;
[0048]
将所述样本三维图像和所述样本三维体素图输入到所述对象识别模型中,得到所述样本三维图像的第一对象预测结果和所述样本三维体素图的第二预测结果,所述样本三维图像的第一对象预测结果为所述二维解码网络的输出,所述样本三维体素图的第二预测结果为所述三维解码网络的输出;
[0049]
根据所述第一对象预测结果和所述对象标注,确定二维网络损失;根据所述第二
对象预测结果和所述对象标注,确定三维网络损失;
[0050]
根据所述二维网络损失及所述三维网络损失调整二维全局特征提取网络、二维编/解码网络及三维编/解码网络的参数;
[0051]
选取其他的样本三维图像数据继续进行训练直至满足预设结束条件,得到训练后的对象识别模型。
[0052]
可选的,所述将所述样本三维图像裁剪为多个样本三维体素图,包括:
[0053]
在所述样本三维图像为正样本的情况下,将所述样本三维图像中包含对象的区域裁剪为m个样本三维体素图,将剩余的区域裁剪为n-m个样本三维体素图,所述正样本用于指示所述样本三维图像中包含对象,m≤n;
[0054]
在所述样本三维图像为负样本的情况下,将所述样本三维图像裁剪为q个样本三维体素图,所述负样本用于指示所述样本三维图像中不包含对象,q《n。
[0055]
可选的,所述将所述样本三维图像和所述样本三维体素图输入到所述对象识别模型中,得到所述样本三维图像的第一对象预测结果和所述样本三维体素图的第二预测结果,包括:
[0056]
利用二维全局特征提取网络提取所述样本三维图像的样本二维全局特征;
[0057]
利用二维编码网络对所述样本二维全局特征进行特征编码,得到多个样本二维图像编码特征;
[0058]
利用二维解码网络对各所述样本二维图像编码特征进行解码,得到所述样本三维图像的第一对象预测结果;
[0059]
利用三维编码网络对所述样本三维体素图进行特征编码,得到多个第二样本三维图像编码特征;
[0060]
利用多维特征融合网络将所述样本二维图像编码特征与所述第二样本三维图像编码特征进行融合,得到多个样本融合特征;
[0061]
利用三维解码网络对各所述样本融合特征及至少一个所述第二样本三维图像编码特征进行解码,得到所述样本三维体素图的第二对象预测结果。
[0062]
可选的,所述二维编码网络包括k个二维编码层,所述三维编码网络包括k个三维编码层,所述利用多维特征融合网络将所述样本二维图像编码特征与所述第二样本三维图像编码特征进行融合,得到多个样本融合特征,包括:
[0063]
利用多维特征融合网络将第l个二维编码层输出的样本二维图像编码特征与第l个三维编码层输出的第二样本三维图像编码特征进行融合,得到第l个样本融合特征,其中,l∈[1,k-1]。
[0064]
可选的,所述三维解码网络包括k个三维解码层及三维卷积层,所述利用三维解码网络对各所述样本融合特征及至少一个所述第二样本三维图像编码特征进行解码,得到所述样本三维体素图的第二对象预测结果,包括:
[0065]
利用第一个三维解码层对第k个三维编码层输出的样本图像特征进行解码;
[0066]
利用第t个三维解码层对第t-1个三维解码层输出的样本图像特征及第k+1-t个样本融合特征进行解码,其中,t∈[2,k];
[0067]
利用三维卷积层对第k个三维解码层输出的样本图像特征进行卷积操作,得到所述样本三维体素图的第二对象预测结果。
[0068]
第三方面,本技术实施例提供了一种对象识别装置,所述装置包括:
[0069]
第一获取模块,用于获取待识别三维图像,以及获取预先训练的对象识别模型,其中,所述对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;
[0070]
第一裁剪模块,用于将所述待识别三维图像裁剪为多个待识别三维体素图;
[0071]
识别模块,用于将所述待识别三维图像和多个所述待识别三维体素图输入到所述对象识别模型中,得到对象识别结果。
[0072]
可选的,所述二维特征处理网络包括二维编/解码网络;
[0073]
或,所述二维特征处理网络包括二维编码网络、且不包括二维解码网络。
[0074]
可选的,所述识别模块,具体用于:
[0075]
利用所述二维全局特征提取网络提取所述待识别三维图像的目标二维全局特征;
[0076]
利用所述二维特征处理网络对所述目标二维全局特征进行特征编码,得到多个目标二维图像编码特征;
[0077]
利用所述三维编码网络对所述待识别三维体素图进行特征编码,得到多个第二目标三维图像编码特征;
[0078]
利用所述多维特征融合网络将所述目标二维图像编码特征与所述第二目标三维图像编码特征进行融合,得到多个目标融合特征;
[0079]
利用所述三维解码网络对各所述目标融合特征及至少一个所述第二目标三维图像编码特征进行解码,得到所述待识别三维体素图的第二对象预测结果,其中,所述对象识别结果包括各所述待识别三维体素图的第二对象预测结果。
[0080]
可选的,所述第一裁剪模块,用于利用滑窗法将所述待识别三维图像裁剪为多个有重叠的待识别三维体素图,其中,相邻的所述待识别三维体素图之间存在像素区域重叠;
[0081]
所述装置还包括执行以下操作的模块:将各所述三维体素图的第二对象预测结果进行拼接,并利用高斯权重码对存在重叠的像素区域进行加权,得到对象识别结果。
[0082]
可选的,所述识别模块,具体用于:
[0083]
向所述二维全局特征提取网络输入所述待识别三维图像,利用所述三维卷积块层对所述待识别三维图像进行编码并映射至高维,得到高维第一目标三维图像编码特征;
[0084]
利用所述池化层对所述高维第一目标三维图像编码特征进行池化操作,得到所述待识别三维图像的目标二维全局特征。
[0085]
可选的,所述识别模块,具体用于:
[0086]
利用所述池化层使用聚合函数对所述高维第一目标三维图像编码特征进行处理,得到所述待识别三维图像的目标二维全局特征;
[0087]
其中,所述聚合函数为i
global
为所述待识别三维图像的目标二维全局特征,
input
为所述待识别三维图像,convblock(g
input
)为所述高维第一目标三维图像编码特征,表示在轴向上进行平均池化。
[0088]
可选的,所述二维全局特征提取网络还包括二维卷积块层,所述装置还包括用于执行以下操作的模块:
[0089]
利用二维卷积块层对所述待识别三维图像的目标二维全局特征进行降维。
[0090]
可选的,所述二维编码网络包括k个二维编码层,所述三维编码网络包括k个三维编码层,所述识别模块,具体用于:
[0091]
利用多维特征融合网络将第l个二维编码层输出的目标二维图像编码特征与第l个三维编码层输出的第二目标三维图像编码特征进行融合,得到第l个目标融合特征,其中,l∈[1,k-1]。
[0092]
可选的,所述三维解码网络包括k个三维解码层及三维卷积层,所述识别模块,具体用于:
[0093]
利用第一个三维解码层对第k个三维编码层输出的目标图像特征进行解码;
[0094]
利用第t个三维解码层对第t-1个三维解码层输出的目标图像特征及第k+1-t个目标融合特征进行解码,其中,t∈[2,k];
[0095]
利用三维卷积层对第k个三维解码层输出的目标图像特征进行卷积操作,得到所述待识别三维体素图对应的识别结果。
[0096]
可选的,所述识别模块,具体用于:
[0097]
利用多维特征融合网络对第l个二维编码层输出的目标二维图像编码特征进行特征提取,得到第l个目标二维图像转换特征,其中,第l个目标二维图像转换特征与第l个第二目标三维图像编码特征的通道数相同;
[0098]
根据当前输入的待识别三维体素图在所述待识别三维图像中的位置信息,确定当前输入的待识别三维体素图在第i个目标二维图像转换特征中所对应的特征区域,得到第l个目标二维图像区域特征;
[0099]
将第l个目标二维图像区域特征的尺寸调整为第l个第二目标三维图像编码特征的尺寸,得到尺寸调整后的第l个目标二维图像区域特征;
[0100]
尺寸调整后的第l个目标二维图像区域特征与第l个第二目标三维图像编码特征进行融合,得到第l个目标融合特征。
[0101]
可选的,所述识别模块,具体用于:
[0102]
获取当前输入的待识别三维体素图在所述待识别三维图像中的位置信息(i,j,k);
[0103]
根据如下公式确定当前输入的待识别三维体素图在第l个目标二维图像转换特征中所对应的特征区域(i
l
,j
l
):
[0104][0105][0106]
其中,二维编码层中卷积核的尺寸为(kv,kw,kh),二维编码层中池化计算的步长为s。
[0107]
第四方面,本技术实施例提供了一种对象识别模型训练装置,所述装置包括:
[0108]
第二获取模块,用于获取样本三维图像、所述样本三维图像的对象标注和待训练的对象识别模型,其中,所述对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络,所述二维特征处理网络包括二维编/解码网
络;
[0109]
第二裁剪模块,用于将所述样本三维图像裁剪为多个样本三维体素图;
[0110]
第一确定模块,用于将所述样本三维图像和所述样本三维体素图输入到所述对象识别模型中,得到所述样本三维图像的第一对象预测结果和所述样本三维体素图的第二预测结果,所述样本三维图像的第一对象预测结果为所述二维解码网络的输出,所述样本三维体素图的第二预测结果为所述三维解码网络的输出;
[0111]
第二确定模块,用于根据所述第一对象预测结果和所述对象标注,确定二维网络损失;根据所述第二对象预测结果和所述对象标注,确定三维网络损失;
[0112]
调整模块,用于根据所述二维网络损失及所述三维网络损失调整二维全局特征提取网络、二维编/解码网络及三维编/解码网络的参数;
[0113]
训练模块,用于选取其他的样本三维图像数据继续进行训练直至满足预设结束条件,得到训练后的对象识别模型。
[0114]
可选的,所述第二裁剪模块,具体用于:
[0115]
在所述样本三维图像为正样本的情况下,将所述样本三维图像中包含对象的区域裁剪为m个样本三维体素图,将剩余的区域裁剪为n-m个样本三维体素图,所述正样本用于指示所述样本三维图像中包含对象,m≤n;
[0116]
在所述样本三维图像为负样本的情况下,将所述样本三维图像裁剪为q个样本三维体素图,所述负样本用于指示所述样本三维图像中不包含对象,q《n。
[0117]
可选的,所述第一确定模块,具体用于:
[0118]
利用二维全局特征提取网络提取所述样本三维图像的样本二维全局特征;
[0119]
利用二维编码网络对所述样本二维全局特征进行特征编码,得到多个样本二维图像编码特征;
[0120]
利用二维解码网络对各所述样本二维图像编码特征进行解码,得到所述样本三维图像的第一对象预测结果;
[0121]
利用三维编码网络对所述样本三维体素图进行特征编码,得到多个第二样本三维图像编码特征;
[0122]
利用多维特征融合网络将所述样本二维图像编码特征与所述第二样本三维图像编码特征进行融合,得到多个样本融合特征;
[0123]
利用三维解码网络对各所述样本融合特征及至少一个所述第二样本三维图像编码特征进行解码,得到所述样本三维体素图的第二对象预测结果。
[0124]
可选的,所述二维编码网络包括k个二维编码层,所述三维编码网络包括k个三维编码层,所述第一确定模块,具体用于:
[0125]
利用多维特征融合网络将第l个二维编码层输出的样本二维图像编码特征与第l个三维编码层输出的第二样本三维图像编码特征进行融合,得到第l个样本融合特征,其中,l∈[1,k-1]。
[0126]
可选的,所述三维解码网络包括k个三维解码层及三维卷积层,所述第一确定模块,具体用于:
[0127]
利用第一个三维解码层对第k个三维编码层输出的样本图像特征进行解码;
[0128]
利用第t个三维解码层对第t-1个三维解码层输出的样本图像特征及第k+1-t个样
本融合特征进行解码,其中,t∈[2,k];
[0129]
利用三维卷积层对第k个三维解码层输出的样本图像特征进行卷积操作,得到所述样本三维体素图的第二对象预测结果。
[0130]
第五方面,本技术实施例提供了一种电子设备,包括处理器及存储器;
[0131]
所述存储器,用于存放计算机程序;
[0132]
所述处理器,用于执行所述存储器上所存放的程序时,实现本技术中所述的对象识别方法或对象识别模型训练方法。
[0133]
第六方面,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本技术中所述的对象识别方法或对象识别模型训练方法。
[0134]
本技术实施例有益效果:
[0135]
本技术实施例提供的对象识别及对象识别模型训练方法、装置、设备及介质,获取样本三维图像及其对象标注、多个样本三维体素图以及待训练的对象识别模型,该对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;将样本三维图像和样本三维体素图输入到该对象识别模型中,得到样本三维图像的第一对象预测结果和样本三维体素图的第二预测结果;根据第一对象预测结果、第二预测结果和对象标注调整对象识别模型的参数,如此,以得到训练后的对象识别模型。之后,基于训练好的对象识别模型对待识别三维图像中的对象进行识别,提高对象识别的准确率。
[0136]
当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
[0137]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
[0138]
图1为本技术实施例的对象识别模型训练方法的一种示意图;
[0139]
图2为本技术实施例的二维全局特征提取网络的一种示意图;
[0140]
图3为本技术实施例的对象识别模型的一种示意图;
[0141]
图4为本技术实施例的多维特征融合网络的一种示意图;
[0142]
图5为本技术实施例的对象识别方法的一种示意图;
[0143]
图6为本技术实施例的对象识别装置的一种示意图;
[0144]
图7为本技术实施例的对象识别模型训练装置的一种示意图;
[0145]
图8为本技术实施例的电子设备的一种示意图。
具体实施方式
[0146]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于
本技术中的实施例,本领域普通技术人员基于本技术所获得的所有其他实施例,都属于本技术保护的范围。
[0147]
首先,对本技术中的专业术语进行解释。
[0148]
卷积神经网络,(convolutional neural networks,cnn),是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,与常规神经网络不同,卷积神经网络每层中的神经元将只与前一层中的一小块区域(感受野)连接,而不是采取全连接方式。
[0149]
高斯权重码,由于网络的准确度在分块边缘处会降低,直接集合所有的块预测结果会存在明显的边缘效应,且在切分块时有所重合,因此,在集合块之前先利用高斯权重码赋予块中心及边缘结果以不同的权重,正则化后,可以消除边缘效应。
[0150]
相关技术中,将三维图像在矢状位方向的最大密度投影作为二维全局信息,和三维体素图信息融合来实现基于深度学习的对象识别。但通过最大密度投影方式获取的全局信息会损失较多特征信息,进而使得对象识别的准确率不高。
[0151]
有鉴于此,本技术实施例提供了一种对象识别模型训练方法,参见图1,该方法包括:
[0152]
s101,获取样本三维图像、样本三维图像的对象标注和待训练的对象识别模型,其中,对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络,二维特征处理网络包括二维编/解码网络。
[0153]
在一种可能的实施例中,在多个样本三维图像中,选取一个样本三维图像对对象识别模型训练;样本三维图像对应有对象标注,该对象标注表示对象在样本三维图像中的像素点集合;例如,当样本三维图像为脑mri图时,其对象标注表示肿瘤在该脑mri图中的像素点集合。样本三维图像的对象标注可以是人工标注得到的,也可以从相关的开源数据库中得到的。在一种可能的实施例中,
[0154]
对象识别模型中的编/解码网络可以为u-net网络,具体的,可以为resunet、denseunet等编码解码网络。其中,u-net网络是专门为医学图像所提出的分割网络,u-net网络主要由最大池化层、反卷积层、以及relu(linear rectification function,线性整流函数)非线性激活函数组成。
[0155]
在一种可能的实施例中,在使用样本三维图像前,可以先对样本三维图像进行预处理操作。例如,以样本三维图像为脑mri图为例,可以对脑mri图进行颅骨去除、配准或窗宽窗位调整等至少一种预处理操作,得到经过预处理的脑mri图。如此,以消除图像中无关的信息,恢复真实有用的信息,增强有关信息的可检测性和最大限度地简化数据,从而提高对象识别的可靠性。
[0156]
在一种可能的实施例中,在样本三维图像的数量较少时,可以通过数据增强的方式来增加样本三维图像的数量。可选的,可以采用旋转、缩放变换、翻转变换、平移变换等方式对样本三维图像进行数据增强,得到经过数据增强的样本三维图像。如此,可以减少网络的过拟合现象,通过对训练数据进行变换可以得到泛化能力更强的网络,更好的适应应用场景。
[0157]
s102,将样本三维图像裁剪为多个样本三维体素图。
[0158]
由于整个三维图像数据量太大,若直接使用三维图像进行对象识别模型训练会占
用大量显存。因此,在对对象识别模型进行训练时,可以将样本三维图像裁剪为多个样本三维体素图,以样本三维体素图为单位对对象识别模型进行训练。一个例子中,将样本三维图像裁剪为多个样本三维体素图,可以是按照随机大小将样本三维图像随机裁剪为多个样本三维体素图;在其它例子中,还可以为按照预设尺寸大小将样本三维图像随机裁剪为多个样本三维体素图,此处的预设尺寸大小可以根据实际情况自定义设置,例如可以为三维卷积核的大小。
[0159]
在一种可能的实施例中,利用滑窗法将样本三维图像裁剪为多个有重叠的样本三维体素图,相邻的样本三维体素图之间存在像素区域重叠。将样本三维图像有重叠的裁剪可以避免裁剪过程中信息被遗漏。
[0160]
针对为正样本的样本三维图像,可选的,将样本三维图像裁剪为多个样本三维体素图,包括:在样本三维图像为正样本的情况下,将样本三维图像中包含对象的区域裁剪为m个样本三维体素图,将剩余的区域裁剪为n-m个样本三维体素图,正样本用于指示样本三维图像中包含对象,m≤n。
[0161]
针对为负样本的样本三维图像,可选的,将样本三维图像裁剪为多个样本三维体素图,包括:在样本三维图像为负样本的情况下,将样本三维图像裁剪为q个样本三维体素图,负样本用于指示样本三维图像中不包含对象,q小于n。
[0162]
具体的,训练时,将样本三维图像随机裁剪为n个样本三维体素图,并将其保存下来用于训练,以在保证样本三维体素图的多样性的同时,增加训练样本的数目。其中,对于包含对象的样本三维图像,随机裁剪时需要保证对象所在的区域会被裁剪为m个样本三维体素图,剩下的区域则可以裁剪为n-m个样本三维体素图。对于不含对象的样本三维图像,则直接将其随机裁剪为q个样本三维体素图,其中,q与n的比例根据正负样本比例来定,一般q要小于n。例如,以样本三维图像为脑mri图为例,训练时,将脑mri图随机裁剪为n个脑mri图块,对于包含肿瘤的脑mri图,将肿瘤所在区域裁剪为m个脑mri图块,将剩下的区域裁剪为n-m个脑mri图块;对于未包含肿瘤的脑mri图,将该脑mri图裁剪为q个脑mri图块。按照上述方式获取样本三维体素图可以保证获取的样本中正负样本的比例为预设比例,避免出现由于正样本过少、负样本过多等原因导致对对象识别模型的训练不到位,进而导致对象识别的准确率较低。
[0163]
s103,将样本三维图像和样本三维体素图输入到对象识别模型中,得到样本三维图像的第一对象预测结果和样本三维体素图的第二预测结果,样本三维图像的第一对象预测结果为二维解码网络的输出,样本三维体素图的第二预测结果为三维解码网络的输出。
[0164]
示例的,以样本三维图像为脑mri图为例,基于脑mri图的预测掩码标签和真实掩码标签y
gt
确定二维网络损失l
global
;基于脑mri图块的预测掩码标签和真实掩码标签y
patch
确定三维网络损失l
patch

[0165]
s104,根据第一对象预测结果和对象标注,确定二维网络损失;根据第二对象预测结果和对象标注,确定三维网络损失。
[0166]
示例的,网络损失可以使用包括但不限于cross entropy loss、focal loss、dice loss。
[0167]
s105,根据二维网络损失及三维网络损失调整二维全局特征提取网络、二维编/解
码网络及三维编/解码网络的参数。
[0168]
在一种可能的实施例中,根据二维网络损失及三维网络损失调整二维全局特征提取网络、二维编/解码网络及三维编/解码网络的参数,包括:
[0169]
根据二维网络损失及三维网络损失,采用如下公式确定总体损失函数;
[0170]
l
total
=l
global
+μl
patch
[0171]
其中,l
total
为总体损失函数,μ是用来平衡损失的权重系数,l
global
为二维网络损失,l
patch
为三维网络损失。
[0172]
基于总体损失函数调整二维全局特征提取网络、二维编/解码网络及三维编/解码网络的参数。
[0173]
在另一种可能的实施例中,根据二维网络损失及三维网络损失调整二维全局特征提取网络、二维编/解码网络及三维编/解码网络的参数,包括:
[0174]
根据二维网络损失调整二维编/解码网络的参数;根据三维网络损失调整三维编/解码网络的参数。
[0175]
s106,选取其他的样本三维图像数据继续进行训练直至满足预设结束条件,得到训练后的对象识别模型。
[0176]
在一种可能的实施例中,预设结束条件可以根据实际情况自定义设置,例如,对象识别模型的损失(总体损失)收敛,或达到预设的训练次数等。
[0177]
一个例子中,可以将获取的多个样本三维图像中的预设比例的样本三维图像用于对象识别模型的训练。训练过程:对用于训练数据的任一样本三维图像,采用本技术实施例所提供的方式将该样本三维图像进行裁剪得到多个样本三维体素图,使用该样本三维图像和多个样本三维体素图对对象识别模型进行训练,并将确定的对象识别模型的参数进行存储。
[0178]
将除用作训练数据之外的剩余样本数据作为测试集,测试过程:对用于测试数据的任一样本三维图像,利用滑窗法块推理策略,步长为预设步长,有重合地裁剪该样本三维图像。利用训练好的对象识别模型进行推理,仅使用三维编/解码网络的输出作为识别结果,将所有的样本三维体素图拼接在一起,利用高斯权重码消除边缘效应,得到对象识别结果。
[0179]
在本技术实施例中获取样本三维图像及其对象标注、多个样本三维体素图以及待训练的对象识别模型,该对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;将样本三维图像和样本三维体素图输入到该对象识别模型中,得到样本三维图像的第一对象预测结果和样本三维体素图的第二预测结果;根据第一对象预测结果、第二预测结果和对象标注调整对象识别模型的参数,如此,以得到训练后的对象识别模型。之后,基于训练好的对象识别模型对待识别三维图像中的对象进行识别。使用该对象识别模型进行对象识别,利用二维全局特征的全局性建立了三维体素图在全局上的联系,能够减少三维体素图全局上下文信息丢失的问题,进而提高对象识别的准确率。
[0180]
在一种可能的实施例中,将样本三维图像和样本三维体素图输入到对象识别模型中,得到样本三维图像的第一对象预测结果和样本三维体素图的第二预测结果,包括:
[0181]
s1031,利用二维全局特征提取网络提取样本三维图像的样本二维全局特征。
[0182]
由于仅基于分块(将样本三维图像划分为样本三维体素图)训练的对象识别模型无法获取样本三维体素图的空间上下文信息,因此,需要获取样本三维图像的样本二维全局特征,并将其与样本三维图像对应的样本三维体素图进行融合,以补充空间上下文信息。对象识别模型包括二维全局特征提取网络,可以利用二维全局特征提取网络提取样本三维图像的样本二维全局特征。
[0183]
一个例子中,参见图2,二维全局特征提取网络包括三维卷积块层和池化层,本发明实施例以以下两种方式为例对利用二维全局特征提取网络提取样本三维图像的样本二维全局特征的过程进行说明:
[0184]
第一种方式中,向二维全局特征提取网络输入样本三维图像,利用三维卷积块层对样本三维图像进行编码并映射至高维,得到高维第一样本三维图像编码特征;利用池化层对高维第一样本三维图像编码特征进行池化操作,得到样本三维图像的样本二维全局特征。
[0185]
三维卷积块层进行卷积编码的过程就是把图像的通道维度升高(映射至高维)的过程,高维样本三维图像编码特征的维度可以根据实际情况自定义设置,例如,可以为样本三维图像维度的2倍、4倍或8倍等,从而得到高维第一样本三维图像编码特征。
[0186]
一个例子中,样本三维图像可以表示为h
×w×v×
c,其中,h表示高、w表示宽、v表示切片数量、c表示通道数,池化时,平均/最大化操作是针对切片数量维度进行的,例如,会把h
×w×v×c‘
池化成h
×w×1×c‘
,这里的1直接就可以省略成h
×w×c‘
了,从而得到样本二维全局特征。上述切片可以是矢状面、冠状面或轴向的,例如,可以选轴向,这是因为通常情况下轴向方向的待识别对象显示得更清晰,具体切片方向可以根据实际情况自定义设置。通道数一般输入的时候可以为1,即强度值或灰度值,升维的时候可以以2为倍数,每次提升2倍的维度。一个例子中,为了保证在升维阶段三维图像的长宽尺寸不变,可以直接用1
×1×
1的卷积,当然也可以根据实际情况选用其他尺寸的卷积,但是无论采用何种变换方式,均需要保证same padding(即输出尺寸=输入尺寸)。
[0187]
可以理解的是,二维全局特征提取网络中包括的三维卷积块层可以是一个,也可以是多个,该三维卷积块层由卷积、组归一化和激活函数组成。池化层用于对输入的特征进行池化操作,池化操作可以为平均池化或最大池化。
[0188]
其中,利用池化层对高维第一样本三维图像编码特征进行池化操作,得到样本三维图像的样本二维全局特征,包括:
[0189]
利用池化层使用聚合函数对高维第一样本三维图像编码特征进行处理,得到样本三维图像的样本二维全局特征;
[0190]
其中,该聚合函数可以为i
global
为样本三维图像的样本二维全局特征,
input
为样本三维图像,convblock(g
input
)为高维第一样本三维图像编码特征,表示在轴向上进行平均池化。此处仅是以轴向上的平均池化算法为例,还可以采用最大池化算法,以及在矢状面、冠状面方向上进行池化等,均在本技术的保护范围内。
[0191]
可选的,该聚合函数还可以为
global
为样本三维图像的样本二维全局特征,
inpur
为样本三维图像,convblock(g
input
)为高维第一样本三维图
像编码特征,表示在轴向上进行最大池化。
[0192]
示例的,以样本三维图像为脑mri图为例,向二维全局特征提取网络输入脑mri图,由二维全局特征提取网络中的三维卷积块对该脑mri图进行编码,并映射至高维,在高维使用聚合函数来获取脑mri图的二维全局特征。获取样本三维图像的样本二维全局特征,并将其与样本三维图像对应的样本三维体素图进行融合,以补充空间上下文信息。
[0193]
第二种方式中,向二维全局特征提取网络输入样本三维图像,利用三维卷积块层对样本三维图像进行编码,得到第一样本三维图像编码特征;利用池化层对第一样本三维图像编码特征进行池化操作,得到样本三维图像的样本二维全局特征。
[0194]
第二种方式中利用池化层对第一样本三维图像编码特征进行池化操作,得到样本三维图像的样本二维全局特征的实施方式与第一种方式中的实施方式相同,本技术实施例在此不进行赘述。
[0195]
本技术实施例中,与直接使用聚合函数对比,将编码得到的特征映射至高维可以减少特征信息损失。
[0196]
可选的,该二维全局特征提取网络还包括二维卷积块层,可以通过该二维卷积块层对样本三维图像的样本二维全局特征进行维度压缩,以节省显存,并减少计算量。例如,以样本三维图像为脑mri图为例,通过二维卷积块层对脑mri图的二维全局特征进行维度压缩,以减少二维全局特征的数据量。
[0197]
s1032,利用二维编码网络对样本二维全局特征进行特征编码,得到多个样本二维图像编码特征。
[0198]
二维编码网络包括多个编码层,用于对样本二维全局特征进行编码,每个编码层均可以输出一个样本二维图像编码特征。二维编码网络中编码层个数可以根据实际情况自定义设置,一个例子中,参见图3,对象识别模型包括二维编码网络,以样本三维图像为脑mri图为例,利用二维编码网络对脑mri图的二维全局特征进行特征编码,得到多个二维特征图。
[0199]
可选的,该二维编码网络包括k个二维编码层,例如,k可以为4,即,该二维编码网络包括第一个二维编码层、第二个二维编码层、第三个二维编码层和第四个二维编码层,利用k个二维编码层对样本二维全局特征进行编码。
[0200]
例如,利用第1个二维编码层对样本二维全局特征进行特征编码,利用第a个编码层对a-1个二维编码层输出的样本图像特征进行特征编码,得到多个样本二维图像编码特征,a∈[2,k]。采用多层编码层对样本二维全局特征进行特征编码,以便后续能够基于多个样本二维图像编码特征得到样本三维图像的第一对象预测结果,进而能够基于该样本三维图像的第一对象预测结果对对象识别模型进行训练,提高对象识别模型的识别准确度。
[0201]
s1033,利用二维解码网络对各样本二维图像编码特征进行解码,得到样本三维图像的第一对象预测结果。
[0202]
二维解码网络包括多个解码层,解码层用于对样本二维图像编码特征进行解码。二维解码网络中解码层个数可以根据实际情况自定义设置,可以与二维编码网络中编码层个数相同。一个例子中,二维解码网络的最后可以包括卷积层用于进行分类,从而得到样本三维图像的第一对象预测结果。此外,在其他的实施例中,二维解码网络后面也可以接分类器,从而对二维解码网络输出的特征进行分类,以得到样本三维图像的第一对象预测结果。
[0203]
一个例子中,参见图3,对象识别模型包括二维解码网络和二维卷积层,利用二维解码网络对各样本二维图像编码特征进行解码,得到样本三维图像的第一对象预测结果可以为:利用二维卷积层对二维解码网络输出的样本图像特征进行卷积操作得到初始预测结果;对初始预测结果进行平铺操作,即在三维空间中进行reshape(形状改变),从而样本三维图像的第一对象预测结果;一个例子中,因为二维编/解码网络使用的是二维卷积核,因此二维卷积层输出的初始预测结果可以表示为(batch,c,w,h),其中,batch表示一次迭代使用的图像数,c表示输出通道数,w表示宽度,h表示高度。将初始预测结果reshape成(batch,n_class,v,w,h),也就是平铺,从而得到样本三维图像的第一对象预测结果,其中,n_class表示每个切片的通道数,v表示切片数。若以样本三维图像为脑mri图为例,该第一对象预测结果为脑mri图的预测掩码标签
[0204]
可选的,该二维解码网络包括k个二维解码层,例如,k可以为4,即,该二维解码网络包括第一个二维解码层、第二个二维解码层、第三个二维解码层和第四个二维解码层,利用二维解码网络对各样本二维图像编码特征进行解码,得到样本三维图像的第一对象预测结果可以为:利用第t个二维解码层对第k+1-t个二维编码层输出的样本图像特征和第t-1个二维解码层输出的样本图像特征进行解码,并利用二维卷积层对第k个二维解码层输出的样本图像特征进行卷积操作和平铺操作,输出样本三维图像的第一对象预测结果。获取样本三维图像的第一对象预测结果,以便后续基于该第一对象预测结果对对象识别模型进行训练,提高对象识别模型的识别准确度。
[0205]
s1034,利用三维编码网络对样本三维体素图进行特征编码,得到多个第二样本三维图像编码特征。
[0206]
三维编码网络包括多个编码层,用于对样本三维体素图进行特征编码,每个编码层均可以输出一个第二样本三维图像编码特征。三维编码网络中编码层个数可以根据实际情况自定义设置,一个例子中,参见图3,对象识别模型包括三维编码网络,以样本三维图像为脑mri图为例,利用三维编码网络对脑mri图的脑mri图块进行特征编码,得到多个三维特征图。
[0207]
可选的,该三维编码网络包括k个三维编码层,例如,k可以为4,即,该三维编码网络包括第一个三维编码层、第二个三维编码层、第三个三维编码层和第四个三维编码层,利用k个三维编码层对样本三维体素图进行特征编码。
[0208]
一个例子中,利用第1个二维编码层对样本三维体素图进行特征编码,利用第a个编码层对a-1个三维编码层输出的样本图像特征进行编码,得到多个第二样本三维图像编码特征,a∈[2,k]。采用多层编码层对样本三维体素图进行特征编码,以便后续能够基于多个第二样本三维图像编码特征得到样本三维体素图的第二对象预测结果,进而能够基于该样本三维体素图的第二对象预测结果对对象识别模型进行训练,提高对象识别模型的识别准确度。
[0209]
s1035,利用多维特征融合网络将样本二维图像编码特征与第二样本三维图像编码特征进行融合,得到多个样本融合特征。
[0210]
此处可以采用相关特征融合技术中常见的融合方式,来实现对样本二维图像编码特征与第二样本三维图像编码特征的融合。例如,可以采用拼接、乘积、求和的方式进行特征融合。具体的,可以利用concat函数对样本二维图像编码特征与第二样本三维图像编码
特征进行拼接(融合),还可以采用加权融合的方式对样本二维图像编码特征与第二样本三维图像编码特征进行融合,从而得到融合特征。例如图4所示,利用多维特征融合网络将通过上述步骤得到的样本二维图像编码特征与第二样本三维图像编码特征进行融合,得到多个样本融合特征。
[0211]
一个例子中,可以将相同层数的编码层输出的样本二维图像编码特征与第二样本三维图像编码特征进行融合。在一种可能的实施方式中,利用多维特征融合网络将样本二维图像编码特征与第二样本三维图像编码特征进行融合,得到多个样本融合特征,包括:利用多维特征融合网络将第l个二维编码层输出的样本二维图像编码特征与第l个三维编码层输出的第二样本三维图像编码特征进行融合,得到第l个样本融合特征,其中,l∈[1,k-1]。
[0212]
将二维编码层与三维编码层中,相同层数的编码层输出的样本二维图像编码特征与第二样本三维图像编码特征进行融合,得到样本融合特征。最后一层编码层输出的特征可以直接最为第一层解码层的输入,无需进行融合。
[0213]
样本二维图像编码特征为样本三维图像的全局特征;而第二样本三维图像编码特征仅为多个样本三维体素图中的其中一个样本三维体素图的特征,即第二样本三维图像编码特征为样本三维图像的部分特征;因此在进行特征融合时,还可以将第二样本三维图像编码特征与样本二维图像编码特征进行对齐。可选的,利用多维特征融合网络将第l个二维编码层输出的样本二维图像编码特征与第l个三维编码层输出的第二样本三维图像编码特征进行融合,得到第l个样本融合特征,包括:
[0214]
步骤一,利用多维特征融合网络对第l个二维编码层输出的样本二维图像编码特征进行特征提取,得到第l个样本二维图像转换特征,其中,第l个样本二维图像转换特征与第l个第二样本三维图像编码特征的通道数相同;
[0215]
利用多维特征融合网络中的二维卷积块对样本二维图像编码特征进行进一步的特征提取,得到样本二维图像转换特征;使得第l个样本二维图像转换特征与第l个第二样本三维图像编码特征的通道数相同。
[0216]
步骤二,根据当前输入的样本三维体素图在样本三维图像中的位置信息,确定当前输入的样本三维体素图在第l个样本二维图像转换特征中所对应的特征区域,得到第l个样本二维图像区域特征;
[0217]
样本三维体素图是分别输入到三维编/解码网络中的,根据当前输入的样本三维体素图在样本三维图像中的位置信息,在二维图像转换特征中找到当前输入的样本三维体素图所对应的特征区域,得到样本二维图像区域特征。
[0218]
步骤三,将第l个样本二维图像区域特征的尺寸复制调整为第l个第二样本三维图像编码特征的尺寸,得到尺寸调整后的第l个样本二维图像区域特征;
[0219]
步骤四,将尺寸调整后的第l个样本二维图像区域特征与第l个第二样本三维图像编码特征进行融合,得到第l个样本融合特征。如此,使得三维解码网络在解码时可以同时利用全局和局部信息。
[0220]
s1036,利用三维解码网络对各样本融合特征及至少一个第二样本三维图像编码特征进行解码,得到样本三维体素图的第二对象预测结果。
[0221]
参见图3,对象识别模型包括三维解码网络和三维解码层,利用三维解码网络对各
样本融合特征及至少一个第二样本三维图像编码特征进行解码,得到样本三维体素图的第二对象预测结果,包括:利用三维卷积层对三维解码网络输出的样本图像特征进行卷积操作,得到样本三维体素图的第二对象预测结果。若以样本三维图像为脑mri图为例,该第二对象预测结果为样本三维体素图的预测掩码标签
[0222]
一个例子中,三维解码网络的最后可以包括三维卷积层用于进行分类,从而得到样本三维体素图的第二对象预测结果。可选的,该三维解码网络包括k个三维解码层,例如,k可以为4,即,该三维解码网络包括第一个三维解码层、第二个三维解码层、第三个三维解码层和第四个三维解码层,利用三维解码网络对各样本融合特征及至少一个第二样本三维图像编码特征进行解码,得到样本三维体素图的第二对象预测结果,包括:利用第一个三维解码层对第k个三维编码层输出的样本图像特征进行解码;利用第t个三维解码层对第t-1个三维解码层输出的样本图像特征及第k+1-t个样本融合特征进行解码,其中,t∈[2,k];利用三维卷积层对第k个三维解码层输出的样本图像特征进行卷积操作,得到样本三维体素图的第二对象预测结果,该第二对象预测结果可以为样本三维体素图的预测掩码标签。
[0223]
在其他例子中,也可以在三维解码网络后接一个分类器,用于对三维解码网络输出的数据进行分类,从而得到样本三维体素图的第二对象预测结果。获取样本三维体素图的第二对象预测结果,以便后续基于该第二对象预测结果对对象识别模型进行训练,提高对象识别模型的识别准确度。
[0224]
在本技术实施例中,通过二维全局特征提取网络提取三维图像的样本二维全局特征,将该样本二维全局特征输入到二维编/解码网络中,将三维图像对应的三维体素图输入到三维编/解码网络中,利用多维特征融合网络对二/三维编码网络输出的特征进行融合,对得到的融合特征进行解码以及分类,从而实现对对象识别模型的训练,利用该训练好的对象识别模型对待识别三维图像进行对象识别,提高了对象识别的准确率。
[0225]
在一种可能的实施方式中,根据当前输入的样本三维体素图在样本三维图像中的位置信息,确定当前输入的样本三维体素图在第l个样本二维图像转换特征中所对应的特征区域,得到第l个样本二维图像区域特征,包括:
[0226]
获取当前输入的样本三维体素图在样本三维图像中的位置信息(i,j,k);根据如下公式确定当前输入的样本三维体素图在第l个样本二维图像转换特征中所对应的特征区域(i
l
,j
l
):
[0227][0228][0229]
其中,二维编码层中卷积核的尺寸为(kv,kw,kh),二维编码层中池化计算的步长为s。
[0230]
示例的,多维特征融合网络包括二维卷积块层,对于第l层编码层,第i个二维编码层输出二维特征图f
gl
,第i个三维编码层输出三维特征图m
pl
,尺寸分别为b
×cg
×w×
h和b
×cp
×vp
×mp
×hp
,b代表批尺寸,cg和c
p
分别代表二维特征图f
gl
和三维特征图m
pl
的通道数,w、
h代表f
gl
的宽和高,v
p
、m
p
、h
p
代表m
pl
的深度、宽和高。使用多维特征融合网络中的二维卷积块层对二维特征图f
gl
进行卷积块降维,使得cg=cg,得到尺寸为b
×cp
×w×
h的二维特征图f
gl
。假设当前样本三维体素图在样本三维图像中的三维索引为i,j,k,经过第i个编码层编码后当前样本三维体素图在样本三维图像中的三维索引为:
[0231][0232][0233][0234]
其中,(kv,kw,kh)为卷积核尺寸,s为池化层的步长。
[0235]
利用i
l
、j
l
可以从二维特征图f
gl
中映射并裁剪出三维特征图m
pl
对应位置的尺寸为b
×cp
×wp
×hp
的二维区域特征f
pl
,将该二维区域特征f
pl
利用公式(1)剪切、复制、拼接在一起,形成与三维特征图m
pl
尺寸相同的特征图,即,尺寸为b
×cp
×vp
×wp
×hp
的三维二维特征图f
pl
,将利用公式(2)该三维二维特征图f
pl
和三维特征图m
pl
进行加权求和,得到第i个融合特征,尺寸为b
×cp
×vp
×wp
×hp
的融合特征图。
[0236][0237]
其中,f
g,3dl
为v
p
个二维区域特征f
pl
堆叠在一起形成的特征图,f
pl
为三维特征图m
pl
对应位置的二维区域特征。
[0238]fl
=ωf
g,3dl
+(1-ω)m
pl
ꢀꢀꢀꢀꢀꢀ
(2)
[0239]
其中,f
l
为第i个融合特征,ω为权重系数,f
g,3dl
为v
p
个二维区域特征f
pl
堆叠在一起形成的特征图,m
pl
为第i个三维编码层输出三维特征图。
[0240]
在其他实施例中,还可以采用拼接的方式来得到第i个融合特征:
[0241][0242]
其中,f
l
为第i个融合特征,f
g,3dl
为v
p
个二维区域特征f
pl
堆叠在一起形成的特征图,m
pl
为第i个三维编码层输出三维特征图,表示拼接。
[0243]
二维特征图f
gl
的感受野变大,每个像素都能收获到更多像素的信息,因此f
pl
虽然是从全图中裁剪得到,但也具有丰富的全局信息。且融合后的特征以跳跃连接的方式送入第i个三维解码层,使得在解码时可以同时利用全局和局部信息。
[0244]
本技术实施例还提供了一种对象识别方法,参见图5,该方法包括:
[0245]
s501,获取待识别三维图像,以及预先训练的对象识别模型,其中,对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;
[0246]
待识别三维图像为三维图像,可以为脑mri图像,也可以为其他三维图像。对象识别模型是通过上一实施例提供的方案进行训练得到的,在此不进行赘述。
[0247]
s502,将待识别三维图像裁剪为多个待识别三维体素图;
[0248]
例如,将待识别的脑mri图裁剪为多个脑mri图块,例如,利用图3中的对象识别模型对待识别三维图像进行三维体素图裁剪,得到多个待识别三维体素图。具体裁剪过程可参考训练对象识别模型时将样本三维图像裁剪为多个样本三维体素图的过程,在此不进行赘述。
[0249]
s503,将待识别三维图像和多个待识别三维体素图输入到对象识别模型中,得到对象识别结果。
[0250]
例如,将待识别的脑mri图输入到该对象识别模型中,可以识别出脑mri图像中的肿瘤。
[0251]
基于训练好的对象识别模型对待识别三维图像中的对象进行识别。如此,利用二维全局特征的全局性建立了三维体素图在全局上的联系,能够减少三维体素图全局上下文信息丢失的问题,进而提高对象识别的准确率。
[0252]
在一种可能的实施方式中,二维特征处理网络包括二维编/解码网络;或,二维特征处理网络包括二维编码网络、且不包括二维解码网络。
[0253]
在一种可能的实施例中,将各待识别三维体素图的第二对象预测结果进行拼接,并用高斯权重码对存在重叠的像素区域进行加权,得到对象识别结果。
[0254]
在对象识别模型的使用过程中,可以将三维编/解码网络分支输出的结果作为最终的对象识别结果,因此二维解码网络在实际使用过程中并未起到作用,为了降低对象识别模型的数据量,减轻计算资源的消耗,可以去掉二维解码网络。
[0255]
本技术实施例还提供了一种对象识别装置,参见图6,该装置包括:
[0256]
第一获取模块601,用于获取待识别三维图像,以及获取预先训练的对象识别模型,其中,对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;
[0257]
第一裁剪模块602,用于将待识别三维图像裁剪为多个待识别三维体素图;
[0258]
识别模块603,用于将待识别三维图像和多个待识别三维体素图输入到对象识别模型中,得到对象识别结果。
[0259]
可选的,二维特征处理网络包括二维编/解码网络;
[0260]
或,二维特征处理网络包括二维编码网络、且不包括二维解码网络。
[0261]
可选的,识别模块,具体用于:
[0262]
利用二维全局特征提取网络提取待识别三维图像的目标二维全局特征;
[0263]
利用二维特征处理网络对目标二维全局特征进行特征编码,得到多个目标二维图像编码特征;
[0264]
利用三维编码网络对待识别三维体素图进行特征编码,得到多个第二目标三维图像编码特征;
[0265]
利用多维特征融合网络将目标二维图像编码特征与第二目标三维图像编码特征进行融合,得到多个目标融合特征;
[0266]
利用三维解码网络对各目标融合特征及至少一个第二目标三维图像编码特征进行解码,得到待识别三维体素图的第二对象预测结果,其中,对象识别结果包括各待识别三维体素图的第二对象预测结果。
[0267]
可选的,第一裁剪模块,用于利用滑窗法将待识别三维图像裁剪为多个有重叠的
待识别三维体素图,其中,相邻的待识别三维体素图之间存在像素区域重叠;
[0268]
装置还包括执行以下操作的模块:将各三维体素图的第二对象预测结果进行拼接,并利用高斯权重码对存在重叠的像素区域进行加权,得到对象识别结果。
[0269]
可选的,识别模块,具体用于:
[0270]
向二维全局特征提取网络输入待识别三维图像,利用三维卷积块层对待识别三维图像进行编码并映射至高维,得到高维第一目标三维图像编码特征;
[0271]
利用池化层对高维第一目标三维图像编码特征进行池化操作,得到待识别三维图像的目标二维全局特征。
[0272]
可选的,识别模块,具体用于:
[0273]
利用池化层使用聚合函数对高维第一目标三维图像编码特征进行处理,得到待识别三维图像的目标二维全局特征;
[0274]
其中,聚合函数为i
global
为待识别三维图像的目标二维全局特征,
input
为待识别三维图像,convblock(g
input
)为高维第一目标三维图像编码特征,表示在轴向上进行平均池化。
[0275]
可选的,二维全局特征提取网络还包括二维卷积块层,装置还包括用于执行以下操作的模块:
[0276]
利用二维卷积块层对待识别三维图像的目标二维全局特征进行降维。
[0277]
可选的,二维编码网络包括k个二维编码层,三维编码网络包括k个三维编码层,识别模块,具体用于:
[0278]
利用多维特征融合网络将第l个二维编码层输出的目标二维图像编码特征与第l个三维编码层输出的第二目标三维图像编码特征进行融合,得到第l个目标融合特征,其中,l∈[1,k-1]。
[0279]
可选的,三维解码网络包括k个三维解码层及三维卷积层,识别模块,具体用于:
[0280]
利用第一个三维解码层对第k个三维编码层输出的目标图像特征进行解码;
[0281]
利用第t个三维解码层对第t-1个三维解码层输出的目标图像特征及第k+1-t个目标融合特征进行解码,其中,t∈[2,k];
[0282]
利用三维卷积层对第k个三维解码层输出的目标图像特征进行卷积操作,得到待识别三维体素图对应的识别结果。
[0283]
可选的,识别模块,具体用于:
[0284]
利用多维特征融合网络对第l个二维编码层输出的目标二维图像编码特征进行特征提取,得到第l个目标二维图像转换特征,其中,第l个目标二维图像转换特征与第l个第二目标三维图像编码特征的通道数相同;
[0285]
根据当前输入的待识别三维体素图在待识别三维图像中的位置信息,确定当前输入的待识别三维体素图在第i个目标二维图像转换特征中所对应的特征区域,得到第l个目标二维图像区域特征;
[0286]
将第l个目标二维图像区域特征的尺寸调整为第l个第二目标三维图像编码特征的尺寸,得到尺寸调整后的第l个目标二维图像区域特征;
[0287]
尺寸调整后的第l个目标二维图像区域特征与第l个第二目标三维图像编码特征
进行融合,得到第l个目标融合特征。
[0288]
可选的,识别模块,具体用于:
[0289]
获取当前输入的待识别三维体素图在待识别三维图像中的位置信息(i,j,k);
[0290]
根据如下公式确定当前输入的待识别三维体素图在第l个目标二维图像转换特征中所对应的特征区域(i
l
,j
l
):
[0291][0292][0293]
其中,二维编码层中卷积核的尺寸为(kv,kw,kh),二维编码层中池化计算的步长为s。
[0294]
本技术实施例还提供了一种对象识别装置,参见图7,该装置包括:
[0295]
第二获取模块701,用于获取样本三维图像、样本三维图像的对象标注和待训练的对象识别模型,其中,对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络,二维特征处理网络包括二维编/解码网络;
[0296]
第二裁剪模块702,用于将样本三维图像裁剪为多个样本三维体素图;
[0297]
第一确定模块703,用于将样本三维图像和样本三维体素图输入到对象识别模型中,得到样本三维图像的第一对象预测结果和样本三维体素图的第二预测结果,样本三维图像的第一对象预测结果为二维解码网络的输出,样本三维体素图的第二预测结果为三维解码网络的输出;
[0298]
第二确定模块704,用于根据第一对象预测结果和对象标注,确定二维网络损失;根据第二对象预测结果和对象标注,确定三维网络损失;
[0299]
调整模块705,用于根据二维网络损失及三维网络损失调整二维全局特征提取网络、二维编/解码网络及三维编/解码网络的参数;
[0300]
训练模块706,用于选取其他的样本三维图像数据继续进行训练直至满足预设结束条件,得到训练后的对象识别模型。
[0301]
可选的,第二裁剪模块,具体用于:
[0302]
在样本三维图像为正样本的情况下,将样本三维图像中包含对象的区域裁剪为m个样本三维体素图,将剩余的区域裁剪为n-m个样本三维体素图,正样本用于指示样本三维图像中包含对象,m≤n;
[0303]
在样本三维图像为负样本的情况下,将样本三维图像裁剪为q个样本三维体素图,负样本用于指示样本三维图像中不包含对象,q《n。
[0304]
可选的,第一确定模块,具体用于:
[0305]
利用二维全局特征提取网络提取样本三维图像的样本二维全局特征;
[0306]
利用二维编码网络对样本二维全局特征进行特征编码,得到多个样本二维图像编码特征;
[0307]
利用二维解码网络对各样本二维图像编码特征进行解码,得到样本三维图像的第一对象预测结果;
[0308]
利用三维编码网络对样本三维体素图进行特征编码,得到多个第二样本三维图像编码特征;
[0309]
利用多维特征融合网络将样本二维图像编码特征与第二样本三维图像编码特征进行融合,得到多个样本融合特征;
[0310]
利用三维解码网络对各样本融合特征及至少一个第二样本三维图像编码特征进行解码,得到样本三维体素图的第二对象预测结果。
[0311]
可选的,二维编码网络包括k个二维编码层,三维编码网络包括k个三维编码层,第一确定模块,具体用于:
[0312]
利用多维特征融合网络将第l个二维编码层输出的样本二维图像编码特征与第l个三维编码层输出的第二样本三维图像编码特征进行融合,得到第l个样本融合特征,其中,l∈[1,k-1]。
[0313]
可选的,三维解码网络包括k个三维解码层及三维卷积层,第一确定模块,具体用于:
[0314]
利用第一个三维解码层对第k个三维编码层输出的样本图像特征进行解码;
[0315]
利用第t个三维解码层对第t-1个三维解码层输出的样本图像特征及第k+1-t个样本融合特征进行解码,其中,t∈[2,k];
[0316]
利用三维卷积层对第k个三维解码层输出的样本图像特征进行卷积操作,得到样本三维体素图的第二对象预测结果。
[0317]
本技术实施例还提供了一种电子设备,如图8所示,包括:
[0318]
存储器802,用于存放计算机程序;
[0319]
处理器801,用于执行存储器802上所存放的程序时,实现如下步骤:
[0320]
获取待识别三维图像,以及获取预先训练的对象识别模型,其中,对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;
[0321]
将待识别三维图像裁剪为多个待识别三维体素图;
[0322]
将待识别三维图像和多个待识别三维体素图输入到对象识别模型中,得到对象识别结果。
[0323]
并且上述电子设备还可以包括通信总线和/或通信接口,处理器801、通信接口、存储器802通过通信总线完成相互间的通信。
[0324]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0325]
通信接口用于上述电子设备与其他设备之间的通信。
[0326]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0327]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现
场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0328]
在本技术提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一对象识别及对象识别模型训练方法的步骤。
[0329]
在本技术提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一对象识别及对象识别模型训练方法。
[0330]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0331]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0332]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0333]
以上所述仅为本技术的较佳实施例,并非用于限定本技术的保护范围。凡在本技术的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本技术的保护范围内。

技术特征:
1.一种对象识别方法,其特征在于,所述方法包括:获取待识别三维图像,以及获取预先训练的对象识别模型,其中,所述对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;将所述待识别三维图像裁剪为多个待识别三维体素图;将所述待识别三维图像和多个所述待识别三维体素图输入到所述对象识别模型中,得到对象识别结果。2.根据权利要求1所述的方法,其特征在于,所述二维特征处理网络包括二维编/解码网络;或,所述二维特征处理网络包括二维编码网络、且不包括二维解码网络。3.根据权利要求1或2所述的方法,其特征在于,所述将所述待识别三维图像和多个所述待识别三维体素图输入到所述对象识别模型中,得到对象识别结果,包括:利用所述二维全局特征提取网络提取所述待识别三维图像的目标二维全局特征;利用所述二维特征处理网络对所述目标二维全局特征进行特征编码,得到多个目标二维图像编码特征;利用所述三维编码网络对所述待识别三维体素图进行特征编码,得到多个第二目标三维图像编码特征;利用所述多维特征融合网络将所述目标二维图像编码特征与所述第二目标三维图像编码特征进行融合,得到多个目标融合特征;利用所述三维解码网络对各所述目标融合特征及至少一个所述第二目标三维图像编码特征进行解码,得到所述待识别三维体素图的第二对象预测结果,其中,所述对象识别结果包括各所述待识别三维体素图的第二对象预测结果。4.根据权利要求3所述的方法,其特征在于,所述将所述待识别三维图像裁剪为多个待识别三维体素图,包括:利用滑窗法将所述待识别三维图像裁剪为多个有重叠的待识别三维体素图,其中,相邻的所述待识别三维体素图之间存在像素区域重叠;所述方法还包括:将各所述待识别三维体素图的第二对象预测结果进行拼接,并利用高斯权重码对存在重叠的像素区域进行加权,得到对象识别结果。5.根据权利要求3所述的方法,其特征在于,所述二维全局特征提取网络包括三维卷积块层及池化层,所述利用所述二维全局特征提取网络提取所述待识别三维图像的目标二维全局特征,包括:向所述二维全局特征提取网络输入所述待识别三维图像,利用所述三维卷积块层对所述待识别三维图像进行编码并映射至高维,得到高维第一目标三维图像编码特征;利用所述池化层对所述高维第一目标三维图像编码特征进行池化操作,得到所述待识别三维图像的目标二维全局特征。6.根据权利要求5所述的方法,其特征在于,所述利用所述池化层对所述高维第一目标三维图像编码特征进行池化操作,得到所述待识别三维图像的目标二维全局特征,包括:利用所述池化层使用聚合函数对所述高维第一目标三维图像编码特征进行处理,得到所述待识别三维图像的目标二维全局特征;
其中,所述聚合函数为i
global
为所述待识别三维图像的目标二维全局特征,
input
为所述待识别三维图像,convblock(g
input
)为所述高维第一目标三维图像编码特征,表示在轴向上进行平均池化。7.根据权利要求5所述的方法,其特征在于,所述二维全局特征提取网络还包括二维卷积块层,所述利用所述池化层对所述高维第一目标三维图像编码特征进行池化操作,得到所述待识别三维图像的目标二维全局特征之后,所述方法还包括:利用二维卷积块层对所述待识别三维图像的目标二维全局特征进行降维。8.根据权利要求2所述的方法,其特征在于,所述二维编码网络包括k个二维编码层,所述三维编码网络包括k个三维编码层,所述利用多维特征融合网络将所述目标二维图像编码特征与所述第二目标三维图像编码特征进行融合,得到多个目标融合特征,包括:利用多维特征融合网络将第l个二维编码层输出的目标二维图像编码特征与第l个三维编码层输出的第二目标三维图像编码特征进行融合,得到第l个目标融合特征,其中,l∈[1,k-1]。9.根据权利要求8所述的方法,其特征在于,所述三维解码网络包括k个三维解码层及三维卷积层,利用三维解码网络对各所述目标融合特征及至少一个所述第二目标三维图像编码特征进行解码,得到所述待识别三维体素图的第二对象预测结果,包括:利用第一个三维解码层对第k个三维编码层输出的目标图像特征进行解码;利用第t个三维解码层对第t-1个三维解码层输出的目标图像特征及第k+1-t个目标融合特征进行解码,其中,t∈[2,k];利用三维卷积层对第k个三维解码层输出的目标图像特征进行卷积操作,得到所述待识别三维体素图对应的识别结果。10.根据权利要求8所述的方法,其特征在于,所述利用多维特征融合网络将第l个二维编码层输出的目标二维图像编码特征与第l个三维编码层输出的第二目标三维图像编码特征进行融合,得到第l个目标融合特征,包括:利用多维特征融合网络对第l个二维编码层输出的目标二维图像编码特征进行特征提取,得到第l个目标二维图像转换特征,其中,第l个目标二维图像转换特征与第l个第二目标三维图像编码特征的通道数相同;根据当前输入的待识别三维体素图在所述待识别三维图像中的位置信息,确定当前输入的待识别三维体素图在第i个目标二维图像转换特征中所对应的特征区域,得到第l个目标二维图像区域特征;将第l个目标二维图像区域特征的尺寸调整为第l个第二目标三维图像编码特征的尺寸,得到尺寸调整后的第l个目标二维图像区域特征;尺寸调整后的第l个目标二维图像区域特征与第l个第二目标三维图像编码特征进行融合,得到第l个目标融合特征。11.根据权利要求10所述的方法,其特征在于,所述根据当前输入的待识别三维体素图在所述待识别三维图像中的位置信息,确定当前输入的待识别三维体素图在第i个目标二维图像转换特征中所对应的特征区域,得到第l个目标二维图像区域特征,包括:获取当前输入的待识别三维体素图在所述待识别三维图像中的位置信息(i,j,k);
根据如下公式确定当前输入的待识别三维体素图在第l个目标二维图像转换特征中所对应的特征区域(i
l
,j
l
):):其中,二维编码层中卷积核的尺寸为(kv,k
w
,k
h
),二维编码层中池化计算的步长为s。12.一种对象识别模型训练方法,其特征在于,所述方法包括:获取样本三维图像、所述样本三维图像的对象标注和待训练的对象识别模型,其中,所述对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络,所述二维特征处理网络包括二维编/解码网络;将所述样本三维图像裁剪为多个样本三维体素图;将所述样本三维图像和所述样本三维体素图输入到所述对象识别模型中,得到所述样本三维图像的第一对象预测结果和所述样本三维体素图的第二预测结果,所述样本三维图像的第一对象预测结果为所述二维解码网络的输出,所述样本三维体素图的第二预测结果为所述三维解码网络的输出;根据所述第一对象预测结果和所述对象标注,确定二维网络损失;根据所述第二对象预测结果和所述对象标注,确定三维网络损失;根据所述二维网络损失及所述三维网络损失调整二维全局特征提取网络、二维编/解码网络及三维编/解码网络的参数;选取其他的样本三维图像数据继续进行训练直至满足预设结束条件,得到训练后的对象识别模型。13.根据权利要求12所述的方法,其特征在于,所述将所述样本三维图像裁剪为多个样本三维体素图,包括:在所述样本三维图像为正样本的情况下,将所述样本三维图像中包含对象的区域裁剪为m个样本三维体素图,将剩余的区域裁剪为n-m个样本三维体素图,所述正样本用于指示所述样本三维图像中包含对象,m≤n;在所述样本三维图像为负样本的情况下,将所述样本三维图像裁剪为q个样本三维体素图,所述负样本用于指示所述样本三维图像中不包含对象,q<n。14.根据权利要求12所述的方法,其特征在于,所述将所述样本三维图像和所述样本三维体素图输入到所述对象识别模型中,得到所述样本三维图像的第一对象预测结果和所述样本三维体素图的第二预测结果,包括:利用二维全局特征提取网络提取所述样本三维图像的样本二维全局特征;利用二维编码网络对所述样本二维全局特征进行特征编码,得到多个样本二维图像编码特征;利用二维解码网络对各所述样本二维图像编码特征进行解码,得到所述样本三维图像的第一对象预测结果;利用三维编码网络对所述样本三维体素图进行特征编码,得到多个第二样本三维图像
编码特征;利用多维特征融合网络将所述样本二维图像编码特征与所述第二样本三维图像编码特征进行融合,得到多个样本融合特征;利用三维解码网络对各所述样本融合特征及至少一个所述第二样本三维图像编码特征进行解码,得到所述样本三维体素图的第二对象预测结果。15.根据权利要求14所述的方法,其特征在于,所述二维编码网络包括k个二维编码层,所述三维编码网络包括k个三维编码层,所述利用多维特征融合网络将所述样本二维图像编码特征与所述第二样本三维图像编码特征进行融合,得到多个样本融合特征,包括:利用多维特征融合网络将第l个二维编码层输出的样本二维图像编码特征与第l个三维编码层输出的第二样本三维图像编码特征进行融合,得到第l个样本融合特征,其中,l∈[1,k-1]。16.根据权利要求15所述的方法,其特征在于,所述三维解码网络包括k个三维解码层及三维卷积层,所述利用三维解码网络对各所述样本融合特征及至少一个所述第二样本三维图像编码特征进行解码,得到所述样本三维体素图的第二对象预测结果,包括:利用第一个三维解码层对第k个三维编码层输出的样本图像特征进行解码;利用第t个三维解码层对第t-1个三维解码层输出的样本图像特征及第k+1-t个样本融合特征进行解码,其中,t∈[2,k];利用三维卷积层对第k个三维解码层输出的样本图像特征进行卷积操作,得到所述样本三维体素图的第二对象预测结果。17.一种对象识别装置,其特征在于,所述装置包括:第一获取模块,用于获取待识别三维图像,以及获取预先训练的对象识别模型,其中,所述对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;第一裁剪模块,用于将所述待识别三维图像裁剪为多个待识别三维体素图;识别模块,用于将所述待识别三维图像和多个所述待识别三维体素图输入到所述对象识别模型中,得到对象识别结果。18.一种对象识别模型训练装置,其特征在于,所述装置包括:第二获取模块,用于获取样本三维图像、所述样本三维图像的对象标注和待训练的对象识别模型,其中,所述对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络,所述二维特征处理网络包括二维编/解码网络;第二裁剪模块,用于将所述样本三维图像裁剪为多个样本三维体素图;第一确定模块,用于将所述样本三维图像和所述样本三维体素图输入到所述对象识别模型中,得到所述样本三维图像的第一对象预测结果和所述样本三维体素图的第二预测结果,所述样本三维图像的第一对象预测结果为所述二维解码网络的输出,所述样本三维体素图的第二预测结果为所述三维解码网络的输出;第二确定模块,用于根据所述第一对象预测结果和所述对象标注,确定二维网络损失;根据所述第二对象预测结果和所述对象标注,确定三维网络损失;调整模块,用于根据所述二维网络损失及所述三维网络损失调整二维全局特征提取网络、二维编/解码网络及三维编/解码网络的参数;
训练模块,用于选取其他的样本三维图像数据继续进行训练直至满足预设结束条件,得到训练后的对象识别模型。19.一种电子设备,其特征在于,包括处理器及存储器;所述存储器,用于存放计算机程序;所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-11或12-16任一所述的方法。20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-11或12-16任一所述的方法。

技术总结
本申请实施例提供了一种对象识别及对象识别模型训练方法、装置、设备及介质,获取样本三维图像及其对象标注、多个样本三维体素图以及待训练的对象识别模型,该对象识别模型包括二维全局特征提取网络、二维特征处理网络、三维编/解码网络以及多维特征融合网络;将样本三维图像和样本三维体素图输入到该对象识别模型中,得到样本三维图像的第一对象预测结果和样本三维体素图的第二预测结果;根据第一对象预测结果、第二预测结果和对象标注调整对象识别模型的参数,如此,以得到训练后的对象识别模型。之后,基于训练好的对象识别模型对待识别三维图像中的对象进行识别,提高对象识别的准确率。的准确率。的准确率。


技术研发人员:秦凯琳
受保护的技术使用者:京东方科技集团股份有限公司
技术研发日:2023.06.30
技术公布日:2023/9/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐