用于生成中间特征的神经网络的训练方法、装置及介质与流程

未命名 07-12 阅读:75 评论:0


1.本公开涉及驾驶技术,尤其是一种用于生成中间特征的神经网络的训练方法、装置及介质。


背景技术:

2.可视化成像和机器视觉任务是自动驾驶领域的关键技术。以机器视觉任务为目标检测任务的情况为例,为了完成目标检测任务,一般需要先利用图像信号处理(image signal processor,isp)技术,对图像传感器采集的原生图像进行处理,以得到rgb图像等可视化图像,然后对得到的可视化图像进行目标检测;其中,rgb中的r代表红色,g代表绿色,b代表蓝色。


技术实现要素:

3.为了解决从原生图像到可视化图像的isp处理过程无法保证机器视觉任务的执行效果的技术问题,提出了本公开。本公开的实施例提供了一种用于生成中间特征的神经网络的训练方法、装置及介质。
4.根据本公开实施例的一个方面,提供了一种用于生成中间特征的神经网络的训练方法,包括:
5.获取原生图像和第一可视化图像,所述原生图像和所述第一可视化图像中的一者由另一者转换得到;
6.对所述第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息;
7.基于所述原生图像,经由待训练中间特征生成网络,生成第一中间特征;
8.基于所述第一中间特征,生成第二可视化图像;
9.基于所述第一中间特征,生成所述机器视觉任务的任务执行结果;
10.基于所述第一可视化图像、所述标注信息、所述第二可视化图像和所述任务执行结果,对所述待训练中间特征生成网络进行训练;
11.响应于训练后的所述待训练中间特征生成网络满足预设训练结束条件,将训练后的所述待训练中间特征生成网络确定为已训练中间特征生成网络。
12.根据本公开实施例的另一个方面,提供了一种用于生成中间特征的神经网络的训练装置,包括:
13.获取模块,用于获取原生图像和第一可视化图像,所述原生图像和所述第一可视化图像中的一者由另一者转换得到;
14.信息标注模块,用于对所述获取模块获取的所述第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息;
15.第一生成模块,用于基于所述获取模块获取的所述原生图像,经由待训练中间特征生成网络,生成第一中间特征;
16.第二生成模块,用于基于所述第一生成模块生成的所述第一中间特征,生成第二
可视化图像;
17.第三生成模块,用于基于所述第一生成模块生成的所述第一中间特征,生成所述机器视觉任务的任务执行结果;
18.训练模块,用于基于所述获取模块获取的所述第一可视化图像、所述信息标注模块标注的所述标注信息、所述第二生成模块生成的所述第二可视化图像和所述第三生成模块生成的所述任务执行结果,对所述待训练中间特征生成网络进行训练;
19.确定模块,用于响应于所述训练模块训练后的所述待训练中间特征生成网络满足预设训练结束条件,将训练后的所述待训练中间特征生成网络确定为已训练中间特征生成网络。
20.根据本公开实施例的再一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述用于生成中间特征的神经网络的训练方法。
21.根据本公开实施例的又一个方面,提供了一种电子设备,所述电子设备包括:
22.处理器;
23.用于存储所述处理器可执行指令的存储器;
24.所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述用于生成中间特征的神经网络的训练方法。
25.根据本公开实施例的又一个方面,提供了一种计算机程序产品,当所述计算机程序产品中的指令被处理器执行时,执行上述用于生成中间特征的神经网络的训练方法。
26.基于本公开上述实施例提供的用于生成中间特征的神经网络的训练方法、装置、介质、电子设备及计算机程序产品,在神经网络训练阶段,可以获取属于训练数据的原生图像和第一可视化图像,对第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息,基于原生图像,经由待训练中间特征生成网络,生成第一中间特征,第一中间特征可以用于可视化成像和机器视觉任务,由此可以得到第二可视化图像和机器视觉任务的任务执行结果,第一可视化图像、标注信息、第二可视化图像和任务执行结果可以一并用于待训练中间特征生成网络的训练。这样,在神经网络推理阶段,只需将图像传感器采集的原生图像提供至训练好的中间特征生成网络,训练好的中间特征生成网络即可据此进行运算,以高效可靠地生成相应的中间特征,生成的中间特征可以用于得到机器视觉任务的任务执行结果。因此,本公开的实施例中,在神经网络推理阶段,机器视觉任务的执行无需依赖于可视化图像,而可以直接依赖于由原生图像得到的中间特征,这样既能够避免从原生图像到可视化图像的isp处理过程存在的信息丢弃问题,又能够避免isp处理过程主要是为保证人眼视觉质量服务,并没有考虑机器视觉性能的问题,从而有利于提升机器视觉任务的执行效果。
27.下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
28.图1是本公开一示例性实施例提供的用于生成中间特征的神经网络的训练方法的流程示意图。
29.图2是本公开另一示例性实施例提供的用于生成中间特征的神经网络的训练方法
的流程示意图。
30.图3-1是本公开一示例性实施例中原生图像的示意图。
31.图3-2是本公开一示例性实施例中通过对原生图像进行图像重排得到的多通道图像的示意图。
32.图4-1是本公开的实施例中的一种能够兼顾可视化成像和机器视觉任务的神经网络的示意图。
33.图4-2是本公开的实施例中的另一种能够兼顾可视化成像和机器视觉任务的神经网络的示意图。
34.图5是本公开再一示例性实施例提供的用于生成中间特征的神经网络的训练方法的流程示意图。
35.图6是本公开的实施例中通过像素重组,由目标切分特征得到第二可视化图像的示意图。
36.图7是本公开又一示例性实施例提供的用于生成中间特征的神经网络的训练方法的流程示意图。
37.图8是本公开又一示例性实施例提供的用于生成中间特征的神经网络的训练方法的流程示意图。
38.图9是本公开又一示例性实施例提供的用于生成中间特征的神经网络的训练方法的流程示意图。
39.图10是本公开又一示例性实施例提供的用于生成中间特征的神经网络的训练方法的流程示意图。
40.图11是本公开一示例性实施例中神经网络训练阶段和推理阶段执行的操作的示意图。
41.图12是本公开一示例性实施例提供的用于生成中间特征的神经网络的训练装置的结构示意图。
42.图13是本公开另一示例性实施例提供的用于生成中间特征的神经网络的训练装置的结构示意图。
43.图14是本公开再一示例性实施例提供的用于生成中间特征的神经网络的训练装置的结构示意图。
44.图15是本公开又一示例性实施例提供的用于生成中间特征的神经网络的训练装置的结构示意图。
45.图16是本公开又一示例性实施例提供的用于生成中间特征的神经网络的训练装置的结构示意图。
46.图17是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
47.为了解释本公开,下面将参考附图详细地描述本公开的示例实施例,显然,所描述的实施例仅是本公开的一部分实施例,而不是全部实施例,应理解,本公开不受示例性实施例的限制。
48.应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布
置、数字表达式和数值不限制本公开的范围。
49.申请概述
50.可视化成像和机器视觉任务是自动驾驶领域的关键技术。通过可视化成像得到的可视化图像包括但不限于rgb图像、yuv图像等;其中,yuv中的y代表亮度,u和v代表色度。机器视觉任务包括但不限于目标检测、目标跟踪、语义分割、轨迹预测等。
51.以机器视觉任务为目标检测任务的情况为例,为了完成目标检测任务,一般需要先利用isp技术,对图像传感器采集的原生图像进行处理,以得到可视化图像,然后对得到的可视化图像进行目标检测。图像传感器采集的原生图像也可以称为图像传感器的raw data数据,包括但不限于rggb图像、rgb-ir图像等;其中,rgb-ir中的ir代表红外。
52.类似地,对于机器视觉任务为其他任务的情况,也需要先得到可视化图像,然后对得到的可视化图像进行与其他任务相关的处理。
53.在实现本公开的过程中,发明人发现,从原生图像到可视化图像的isp处理过程存在信息丢弃,容易影响到机器视觉任务的执行效果,另外,isp处理过程主要是为保证人眼视觉质量服务,并没有考虑机器视觉性能,因此难以保证机器视觉任务的执行效果。
54.示例性方法
55.图1是本公开一示例性实施例提供的用于生成中间特征的神经网络的训练方法的流程示意图。图1所示的方法可以包括步骤110、步骤120、步骤130、步骤140、步骤150、步骤160和步骤170,下面分别对各步骤进行说明。
56.步骤110,获取原生图像和第一可视化图像,原生图像和第一可视化图像中的一者由另一者转换得到。
57.可选地,可以通过图像传感器采集真实的raw data数据,并通过isp仿真(也可通过其他仿真器或者模拟算法),将真实的raw data数据转换为可视化图像,这种情况下,真实的raw data数据可以作为步骤110中的原生图像,由真实的raw data数据转换得到的可视化图像可以作为步骤110中的第一可视化图像。
58.可选地,也可以获取真实的可视化图像(例如从图像库中获取真实的可视化图像),并通过与上述isp仿真逆向的处理方式,将真实的可视化图像转换为raw data数据,这种情况下,真实的可视化图像可以作为步骤110中的第一可视化图像,由真实的可视化图像转换得到的raw data数据可以作为步骤110中的原生图像。
59.步骤120,对第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息。
60.可选地,可以由人工针对第一可视化图像执行信息标注操作,信息标注操作包括但不限于触控输入操作、鼠标输入操作、键盘输入操作等。
61.在步骤120中,可以响应于信息标注操作,在第一可视化图像上添加与机器视觉任务关联的标注信息。如果机器视觉任务为目标检测任务,与机器视觉任务关联的标注信息可以包括:第一可视化图像中的每个目标对象(例如行人、车辆等)各自的标注框以及标注类别;如果机器视觉任务为语义分割任务,与机器视觉任务关联的标注信息可以包括:第一可视化图像中的每个像素各自的标注类别。
62.步骤130,基于原生图像,经由待训练中间特征生成网络,生成第一中间特征。
63.需要说明的是,待训练中间特征生成网络可以是待训练的中间特征生成网络,待
训练中间特征生成网络生成的中间特征可以是能够兼顾可视化成像和机器视觉任务的中间特征。
64.在步骤130中,可以将原生图像作为输入提供至待训练中间特征生成网络,待训练中间特征生成网络可以据此进行运算,以生成第一中间特征。可选地,第一中间特征可以为多维特征,例如为14维特征、18维特征、20维特征或者24维特征,当然,第一中间特征的维数并不局限于此,在此不再一一列举。
65.步骤140,基于第一中间特征,生成第二可视化图像。
66.在步骤140中,参考第一中间特征,可以通过可视化成像,生成第二可视化图像。
67.步骤150,基于第一中间特征,生成机器视觉任务的任务执行结果。
68.在步骤150中,参考第一中间特征,可以通过机器视觉任务的执行,得到机器视觉任务的任务执行结果。如果机器视觉任务为目标检测任务,机器视觉任务的任务执行结果可以包括:第一可视化图像中的每个目标对象各自的检测框以及检测类别;如果机器视觉任务为语义分割任务,机器视觉任务的任务执行结果可以包括:第一可视化图像中的每个像素各自对应于多种预测类别的多个预测概率值。
69.步骤160,基于第一可视化图像、标注信息、第二可视化图像和任务执行结果,对待训练中间特征生成网络进行训练。
70.需要说明的是,第一可视化图像和标注信息均可以认为属于神经网络训练时的真值数据,第二可视化图像和任务执行结果均可以认为属于神经网络训练时的预测数据,在步骤160中,结合真值数据和预测数据,可以对待训练中间特征生成网络的性能进行评估,依据评估结果,可以对待训练中间特征生成网络进行参数更新,以优化待训练中间特征生成网络的性能,由此实现待训练中间特征生成网络的训练。
71.步骤170,响应于训练后的待训练中间特征生成网络满足预设训练结束条件,将训练后的待训练中间特征生成网络确定为已训练中间特征生成网络。
72.需要说明的是,在进行待训练中间特征生成网络的训练时,可以利用大量的样本数据,每个样本数据中均包括一个原生图像和对应的第一可视化图像,这样,针对每个样本数据,均可以执行上述的步骤110至步骤160,针对每个样本数据执行上述的步骤110至步骤160的过程可以认为是一次迭代处理。
73.在经过若干次迭代处理后,如果在某一时刻检测到训练后的待训练中间特征生成网络收敛,则可以判定训练后的待训练中间特征生成网络符合预设训练结束条件,此时可以直接将训练后的待训练中间特征生成网络确定为已训练中间特征生成网络。
74.当然,预设训练结束条件并不局限于此,例如,也可以在迭代处理次数达到预设次数的情况下,判定训练后的已训练中间特征生成网络符合预设训练结束条件。
75.基于本公开上述实施例提供的用于生成中间特征的神经网络的训练方法,在神经网络训练阶段,可以获取属于训练数据的原生图像和第一可视化图像,对第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息,基于原生图像,经由待训练中间特征生成网络,生成第一中间特征,第一中间特征可以用于可视化成像和机器视觉任务,由此可以得到第二可视化图像和机器视觉任务的任务执行结果,第一可视化图像、标注信息、第二可视化图像和任务执行结果可以一并用于待训练中间特征生成网络的训练。这样,在神经网络推理阶段,只需将图像传感器采集的原生图像提供至训练好的中间特征生成网络,训
练好的中间特征生成网络即可据此进行运算,以高效可靠地生成相应的中间特征,生成的中间特征可以用于得到机器视觉任务的任务执行结果。因此,本公开的实施例中,在神经网络推理阶段,机器视觉任务的执行无需依赖于可视化图像,而可以直接依赖于由原生图像得到的中间特征,这样既能够避免从原生图像到可视化图像的isp处理过程存在的信息丢弃问题,又能够避免isp处理过程主要是为保证人眼视觉质量服务,并没有考虑机器视觉性能的问题,从而有利于提升机器视觉任务的执行效果。
76.在一个可选示例中,如图2所示,步骤130,包括步骤1301和步骤1303。
77.步骤1301,基于原生图像包括的多个颜色分量,对原生图像进行图像重排,得到多通道图像。
78.可选地,图像重排也可以称为image pack或者image rearrange。
79.在一种可选实施方式中,多通道图像为四通道图像,多通道图像的第一个通道包括:原生图像中位于奇数行奇数列的各个元素,多通道图像的第二个通道包括:原生图像中位于奇数行偶数列的各个元素,多通道图像的第三个通道包括:原生图像中位于偶数行奇数列的各个元素,多通道图像的第四个通道包括:原生图像中位于偶数行偶数列的各个元素。
80.如图3-1所示,原生图像可以为rggb图像(其包括三个颜色分量),这时,可以从图3-1中位于第一行第一列的元素开始,沿宽度方向和高度方向均间隔1个像素进行元素抽取,然后将抽取出的所有元素排列在多通道图像中的第一个通道,排列时可以保证任意两个元素经排列后的相对位置与这两个元素在图3-1中的相对位置一致。
81.另外,可以从图3-1中位于第一行第二列的元素开始,沿宽度方向和高度方向均间隔1个像素进行元素抽取,然后将抽取出的所有元素排列在多通道图像中的第二个通道,排列时可以保证任意两个元素经排列后的相对位置与这两个元素在图3-1中的相对位置一致。
82.按照类似的方式,可以在多通道图像中的第三个通道、第四个通道分别排列相应元素,由此可以得到图3-2所示的完整的多通道图像。
83.这种实施方式中,通过对原生图像进行图像重排,能够高效可靠地得到多通道图像,相比于原生图像,多通道图像的高度和宽度可以均缩小一半,这样,与对原生图像直接进行处理的情况相比,对多通道图像进行处理的情况能够更好地节约算力。
84.需要说明的是,在上述实施方式的基础上,多通道图像中的四个通道也可以交换位置,例如,多通道图像的第一个通道包括:原生图像中位于偶数行偶数列的各个元素,多通道图像的第二个通道包括:原生图像中位于偶数行奇数列的各个元素,多通道图像的第三个通道包括:原生图像中位于奇数行偶数列的各个元素,多通道图像的第四个通道包括:原生图像中位于奇数行奇数列的各个元素。
85.在一些实施例中,还可以通过除了图像重排之外的其他方式得到多通道图像,例如,原生图像仍为rggb图像,可以先通过对原生图像进行图像插值,得到四通道图像,然后对得到的四通道图像进行下采样,并将得到的四通道图像的下采样结果作为步骤1301中的多通道图像。
86.步骤1303,通过待训练中间特征生成网络,对多通道图像进行多尺度特征提取,得到第一中间特征。
87.在一种可选实施方式中,待训练中间特征生成网络可以包括:第一子网络、第二子网络、第三子网络和第四子网络,这样,步骤1303,可以包括:
88.通过待训练中间特征生成网络中的第一子网络,对多通道图像进行特征提取,得到高度和宽度分别与多通道图像的高度和宽度相同的第一特征图;
89.通过待训练中间特征生成网络中的第二子网络,对第一特征图进行特征提取,得到高度和宽度分别小于第一特征图的高度和宽度的第二特征图;
90.通过待训练中间特征生成网络中的第三子网络,对第二特征图进行特征提取,得到高度、宽度和通道数分别与第一特征图的高度、宽度和通道数相同的第三特征图;
91.通过待训练中间特征生成网络中的第四子网络,基于第一特征图和第三特征图进行特征提取,得到高度和宽度分别与第一特征图的高度和宽度相同的第一中间特征。
92.如图4-1、图4-2所示,第一子网络可以包括:第一卷积层(convolution,conv)、第一修正线性单元(rectified linear unit,relu)层和第二卷积层;其中,第一卷积层可以为卷积核大小为3,步长为1的2d卷积层;第二卷积层可以为卷积核大小为1,步长为1的2d卷积层。第二子网络可以包括:第三卷积层、第二修正线性单元层和第四卷积层;其中,第三卷积层可以为卷积核大小为3,步长为2的2d卷积层;第四卷积层可以为卷积核大小为1,步长为1的2d卷积层。第三子网络可以包括:第一上采样层,第一上采样层具体可以为双线性插值层。第四子网络可以包括:逐元素对应运算层、第五卷积层和第三修正线性单元层;其中,逐元素对应运算层执行的逐元素对应运算包括但不限于逐元素对应相加运算、逐元素对应相乘运算等;第五卷积层可以为卷积核大小为1,步长为1的2d卷积层。
93.在将通过图像重排得到的多通道图像提供至第一子网络之后,多通道图像会依次经过第一卷积层处的卷积、第一修正线性单元处的激活、第二卷积层处的卷积,这样可以通过不改变高度和宽度的特征提取得到第一特征图。在将第一特征图提供至第二子网络之后,第一特征图会依次经历第三卷积层处的卷积、第二修正线性单元处的激活、第四卷积层处的卷积,这样可以通过缩小高度和宽度(具体是将高度和宽度均缩小一半)的特征提取得到第二特征图。在将第二特征图提供至第三子网络之后,第二特征图会经历第一上采样层处的上采样,这样可以通过放大高度和宽度(具体是将宽度和高度均放大一倍)的特征提取得到第三特征图,第三特征图的高度、宽度和通道数可以分别与第一特征图的高度、宽度和通道数相同。由于第三特征图的高度、宽度和通道数可以分别与第一特征图的高度、宽度和通道数相同,在将第三特征图和第一特征图均提供至第四子网络之后,第三特征图和第一特征图可以经历逐元素对应运算层处的逐元素对应运算,第三特征图和第一特征图的逐元素对应运算结果会依次经历第五卷积层处的卷积和第三修正线性单元层处的激活,这样可以通过不改变高度和宽度的特征提取得到第一中间特征。
94.这种实施方式中,通过包括第一子网络至第四子网络的待训练中间特征生成网络,能够高效可靠地实现对多通道图像的多尺度特征提取,待训练中间特征生成网络的整体结构简单,训练速度快。
95.当然,步骤1303的实施方式并不局限于此,例如,待训练中间特征生成网络中的第一子网络至第四子网络均可以采用更复杂的结构,再例如,待训练中间特征生成网络可以为特征金字塔网络(feature pyramid networks,fpn),通过将多通道图像作为输入提供至fpn,fpn能够生成不同尺度的特征图并融合,不同尺度的特征图的融合结果可以作为第一
中间特征。
96.本公开的实施例中,参考原生图像包括的多个颜色分量,通过图像重排,可以高效可靠地将原生图像转换为多通道图像,再通过待训练中间特征生成网络的运用,可以高效可靠地实现对多通道图像的多尺度特征提取,通过多尺度特征提取得到的第一中间特征能够包含非常丰富的语义信息,将第一中间特征用于神经网络训练,有利于提升最终训练得到的中间特征生成网络的性能。
97.在一个可选示例中,原生图像的高度与第一中间特征的高度的比值为目标比值,原生图像的宽度与第一中间特征的宽度的比值为目标比值,第一中间特征的通道数与预设通道数的比值为:目标比值的平方结果的n倍,目标比值为大于或等于2的整数,n为大于或等于2的整数。
98.可选地,预设通道数可以为常规类型的可视化图像(例如rgb图像)的通道数,这样,预设通道数可以为3。
99.可选地,n可以为2、3、4或者大于4的整数,在此不再一一列举。
100.假设原生图像的宽度表示为w,原生图像的高度表示为h,目标比值表示为k,预设通道数表示为c,则第一中间特征的宽度可以表示为w/k,高度可以表示为h/k,通道数可以表示为n*k2。
101.如图5所示,步骤140,包括步骤1401、步骤1403和步骤1405。
102.步骤1401,将第一中间特征沿通道方向进行切分,得到n个切分特征。
103.在步骤1401中,可以将第一中间特征沿通道方向切换为n等份,以得到n个切分特征;其中,每个切分特征均可以呈特征图的形式,每个切分特征的宽度可以表示为w/k,高度可以表示为h/k,通道数可以表示为k2。
104.步骤1403,按照预设筛选规则,从n个切分特征中确定目标切分特征。
105.可选地,n个切分特征可以顺序排列,在步骤1403中,可以从顺序排列的n个切分特征中,选取第一个切分特征作为目标切分特征;或者,可以从顺序排列的n个切分特征中,选取最后一个切分特征作为目标切分特征;再或者,在n大于或等于3的情况下,可以从顺序排列的n个切分特征中,选取除了第一个切分特征和最后一个切分特征之外的某一切分特征作为目标切分特征。
106.步骤1405,对目标切分特征进行像素重组(图4-1中的pixel shuffle),生成高度和宽度分别与原生图像的高度和宽度相同,且通道数为预设通道数的第二可视化图像。
107.可以理解的是,pixel shuffle是一种可以替代插值或者反卷积(transposed convolution)的上采样方法,pixel shuffle可以通过多通道间的重组,由低分辨率的特征图得到高分辨率的特征图。
108.在一个例子中,目标切分特征如图6中左侧特征图所示,也即,目标切分特征的宽度为5,高度为5,通道数为12,通过pixel shuffle,可以得到图6中右侧所示的第二可视化图像,第二可视化图像的宽度为10,高度为10,通道数为3。由图6可知,在pixel shuffle之前,a、b、c、d、e、f、g、h、i、j、k、l位于目标切分特征的不同通道的对应位置处,即对应目标切分特征中1*1*12的区域,而在pixel shuffle之后,a、b、c、d、e、f、g、h、i、j、k、l对应第二可视化图像中左上角2*2*3的区域,通过pixel shuffle,可以实现2倍上采样,并输出一个三维特征(即第二可视化图像)。
109.本公开的实施例中,结合第一中间特征沿通道方向的切分操作,目标切分特征的筛选操作,以及目标切分特征的像素重组操作,能够高效可靠地得到尺寸满足要求的可视化图像以作为第二可视化图像。
110.在一个可选示例中,第一中间特征的高度小于原生图像的高度,第一中间特征的宽度小于原生图像的宽度,第一中间特征的通道数大于预设通道数。
111.需要说明的是,本公开的实施例中可以利用第一神经网络进行可视化图像的生成。可选地,第一神经网络可以为卷积神经网络,第一神经网络可以包括:第五子网络和第六子网络,这样,如图7所示,步骤140,可以包括步骤1407和步骤1409。
112.步骤1407,通过用于生成可视化图像的第一神经网络中的第五子网络,对第一中间特征进行特征提取,得到高度和宽度分别与第一中间特征的高度和宽度相同的第四特征图。
113.如图4-2所示,第五子网络可以包括:第六卷积层、第四修正线性单元层和第七卷积层;其中,第六卷积层可以为卷积核大小为3,步长为2的2d卷积层;第七卷积层可以为卷积核大小为1,步长为1的2d卷积层。
114.步骤1409,通过第一神经网络中的第六子网络,对第四特征图进行特征提取,得到高度和宽度分别与原生图像的高度和宽度相同,且通道数为预设通道数的第二可视化图像。
115.如图4-2所示,第六子网络可以包括:第二上采样层、第八卷积层和第五修正线性单元层;其中,第二上采样层具体可以为双线性插值层;第八卷积层可以为卷积核大小为1,步长为1的2d卷积层。
116.在将第一中间特征提供至第五子网络之后,第一中间特征会依次经历第六卷积层处的卷积、第四修正线性单元层处的激活和第七卷积层处的卷积,这样可以通过不改变高度和宽度的特征提取得到第四特征图。在将第四特征图提供至第六子网络之后,第四特征图会经历第二上采样层处的上采样,这样可以通过放大高度和宽度(具体是将宽度和高度均放大一倍)的特征提取得到第五特征图,之后,第五特征图可以依次经历第八卷积层处的卷积和第五修正线性单元层处的激活,这样可以通过不改变高度和宽度,且改变通道数的特征提取,得到高度和宽度分别与原生图像的高度和宽度相同,且通道数为预设通道数的第二可视化图像。
117.本公开的实施例中,通过包括第五子网络至第六子网络的第一神经网络,能够高效可靠地得到尺寸满足要求的可视化图像以作为第二可视化图像,第一神经网络的整体结构简单,便于训练。
118.当然,第一神经网络中的第五子网络和第六子网络也可以采用更复杂的结构,只需保证利用第一神经网络,能够由第一中间特征得到尺寸满足要求的第二可视化图像即可。
119.在一个可选示例中,如图8所示,步骤160,包括步骤1601、步骤1603、步骤1605和步骤1607。
120.步骤1601,通过比对第一可视化图像和第二可视化图像,确定第一损失值。
121.在步骤1601中,通过比对第一可视化图像和第二可视化图像,可以计算第一可视化图像和第二可视化图像的相似度,基于相似度,可以确定第一损失值。可选地,可以计算
预设数值(例如1)与相似度的差值,并将计算得到的差值作为第一损失值,当然,确定第一损失值的方式并不局限于此,只需保证相似度与第一损失值之间呈负相关即可,本公开的实施例对此不做限定。
122.步骤1603,通过比对标注信息和任务执行结果,确定第二损失值。
123.假设机器视觉任务为目标检测任务,与机器视觉任务关联的标注信息包括:第一可视化图像中的每个目标对象各自的标注框以及标注类别,机器视觉任务的任务执行结果包括:第一可视化图像中的每个目标对象各自的检测框以及检测类别,则针对每个目标对象,可以结合该目标对象对应的检测框与标注框之间的交并比,以及该目标对象对应的检测类别与标注类别是否相同,确定该目标对象的对象损失值,通过对每个目标对象各自对应的对象损失值进行求和或者求平均,可以得到第二损失值。
124.假设机器视觉任务为语义分割任务,与机器视觉任务关联的标注信息包括:第一可视化图像中的每个像素各自的标注类别,机器视觉任务的任务执行结果包括:第一可视化图像中的每个像素各自对应于多种预测类别的多个预测概率值,则针对每个像素,可以确定多种预测类别中与该像素的标注类别匹配的预测类别(该预测类别可以与该标注类别为同一类别),并从该像素对应的多个预测概率值中,选择所确定的预测类别对应的预测概率值,参考选择的预测概率值,可以确定该像素的像素损失值(像素损失值与选择的预测概率值之间可以呈负相关),通过对每个像素各自对应的像素损失值求和或者求平均,可以得到第二损失值。
125.步骤1605,基于第一损失值和第二损失值,确定模型损失值。
126.在步骤1605中,可以直接对第一损失值与第二损失值进行求和,以得到模型损失值;或者,可以对第一损失值与第二损失值求平均,以得到模型损失值;再或者,可以对第一损失值与第二损失值进行加权平均,以得到模型损失值。
127.步骤1607,利用模型损失值,对待训练中间特征生成网络进行训练。
128.在步骤1607中,参考模型损失值,可以采用梯度下降法(例如随机梯度下降法、最速梯度下降法等),对待训练中间特征生成网络进行参数更新,从而实现待训练中间特征生成网络的训练。
129.本公开的实施例中,通过比对第一可视化图像和第二可视化图像,可以确定第一损失值,第一损失值能够有效地表征将待训练中间特征生成网络用于可视化图像生成时,生成的可视化图像的可靠性,通过比对标注信息和任务执行结果,可以确定第二损失值,第二损失值能够有效地表征将待训练中间特征生成网络用于机器视觉任务时,生成的任务执行结果的可靠性,通过将基于第一损失值和第二损失值得到的模型损失值用于待训练中间特征生成网络的训练,能够通过反向传播,提升最终训练得到的中间特征生成网络的可靠性,使最终训练得到的中间特征生成网络能够有效地适配于可视化成像和机器视觉任务。
130.在一个可选示例中,如图9所示,步骤140,包括步骤1413。
131.步骤1413,基于第一中间特征,经由用于生成可视化图像的第一神经网络,生成第二可视化图像。
132.需要说明的是,第一神经网络的结构参考图7所示实施例中的相关介绍即可,在此不再赘述。在步骤1413中,只需将第一中间特征作为输入提供至第一神经网络,第一神经网络即可据此进行运算,以生成第二可视化图像。
133.步骤160,包括步骤1609。
134.步骤1609,基于第一可视化图像、标注信息、第二可视化图像和任务执行结果,对待训练中间特征生成网络和第一神经网络进行训练。
135.本公开的实施例中,结合第一可视化图像、标注信息、第二可视化图像和任务执行结果,可以得到上文中的模型损失值,模型损失值可以一并用于待训练中间特征生成网络和第一神经网络的参数调整,这样有利于保证经训练后的第一神经网络生成的可视化图像的可靠性。
136.在一个可选示例中,如图10所示,步骤150,包括步骤1501。
137.步骤1501,基于第一中间特征,经由用于执行机器视觉任务的第二神经网络,生成任务执行结果。
138.需要说明的是,如果机器视觉任务为目标检测任务,第二神经网络可以为常规的目标检测网络(也可以称为目标检测器);如果机器视觉任务为语义分割任务,第二神经网络可以为常规的语义分割网络。
139.在步骤1501中,只需将第一中间特征作为输入提供至第二神经网络,第二神经网络即可据此进行运算,以生成机器视觉任务的任务执行结果。
140.步骤160,包括步骤1611。
141.步骤1611,基于第一可视化图像、标注信息、第二可视化图像和任务执行结果,对待训练中间特征生成网络和第二神经网络进行训练。
142.本公开的实施例中,结合第一可视化图像、标注信息、第二可视化图像和任务执行结果,可以得到上文中的模型损失值,模型损失值可以一并用于待训练中间特征生成网络和第二神经网络的参数调整,这样有利于保证经训练后的第二神经网络针对机器视觉任务生成的任务执行结果可靠性。
143.在一个可选示例中,如图11所示,在神经网络训练阶段,可以通过图像传感器采集真实的raw data数据,并通过isp仿真,将真实的raw data数据转换为可视化图像(相当于上文中的第一可视化图像),转换得到的可视化图像可以认为是rgb标签,针对转换得到的可视化图像,可以进行信息标注,以得到目标检测任务的标注信息。真实的raw data数据可以提供至中间特征生成网络(其当前属于待训练的中间特征生成网络),中间特征生成网络生成的第一中间特征可以提供至目标检测网络,目标检测网络可以依据第一中间特征得到目标检测结果,目标检测结果可以与标注信息一并用于loss计算(对应上文中模型损失值的计算)。另外,中间特征生成网络生成的第一中间特征还可以用于生成可视化图像(相当于上文中的第二可视化图像),例如,第一中间特征可以为24维特征,则可以从24维特征中提取前12维特征(相当于上文中的目标切分特征),并通过对提取的前12维特征进行pixel shuffle来生成可视化图像,或者通过将提取的前12维特征输入至第一神经网络来生成可视化图像,生成的可视化图像可以与rgb标签一并用于loss计算(对应上文中模型损失值的计算)。依据loss计算得到的模型损失值,可以通过反向传播,对中间特征生成网络、第一神经网络和目标检测网络进行参数更新。
144.在神经网络推理阶段,只需将真实的raw data数据提供至中间特征生成网络(其当前属于训练好的中间特征生成网络),中间特征生成网络即可进行第二中间特征的生成,依据第二中间特征,训练好的目标检测网络可以高效可靠地输出目标检测结果,另外,依据
第二中间特征,训练好的第一神经网络可以高效可靠地生成可视化图像。
145.综上,本公开的实施例能够兼顾可视化成像和机器视觉任务,且能够保证机器视觉任务的执行效果。
146.本公开实施例提供的任一种用于生成中间特征的神经网络的训练方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种用于生成中间特征的神经网络的训练方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种用于生成中间特征的神经网络的训练方法。下文不再赘述。
147.示例性装置
148.图12是本公开一示例性实施例提供的用于生成中间特征的神经网络的训练装置的结构示意图。图12所示的装置包括获取模块1210、信息标注模块1220、第一生成模块1230、第二生成模块1240、第三生成模块1250、训练模块1260和确定模块1270。
149.获取模块1210,用于获取原生图像和第一可视化图像,原生图像和第一可视化图像中的一者由另一者转换得到;
150.信息标注模块1220,用于对获取模块1210获取的第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息;
151.第一生成模块1230,用于基于获取模块1210获取的原生图像,经由待训练中间特征生成网络,生成第一中间特征;
152.第二生成模块1240,用于基于第一生成模块1230生成的第一中间特征,生成第二可视化图像;
153.第三生成模块1250,用于基于第一生成模块1230生成的第一中间特征,生成机器视觉任务的任务执行结果;
154.训练模块1260,用于基于获取模块1210获取的第一可视化图像、信息标注模块1220标注的标注信息、第二生成模块1240生成的第二可视化图像和第三生成模块1250生成的任务执行结果,对待训练中间特征生成网络进行训练;
155.确定模块1270,用于响应于训练模块1260训练后的待训练中间特征生成网络满足预设训练结束条件,将训练后的待训练中间特征生成网络确定为已训练中间特征生成网络。
156.在一个可选示例中,如图13所示,第一生成模块1230,包括:
157.图像重排子模块12301,用于基于获取模块1210获取的原生图像包括的多个颜色分量,对获取模块1210获取的原生图像进行图像重排,得到多通道图像;
158.特征提取子模块12303,用于通过待训练中间特征生成网络,对图像重排子模块12301得到的多通道图像进行多尺度特征提取,得到第一中间特征。
159.在一个可选示例中,特征提取子模块12303,包括:
160.第一特征提取单元,用于通过待训练中间特征生成网络中的第一子网络,对图像重排子模块12301得到的多通道图像进行特征提取,得到高度和宽度分别与多通道图像的高度和宽度相同的第一特征图;
161.第二特征提取单元,用于通过待训练中间特征生成网络中的第二子网络,对第一特征提取单元得到的第一特征图进行特征提取,得到高度和宽度分别小于第一特征图的高
度和宽度的第二特征图;
162.第三特征提取单元,用于通过待训练中间特征生成网络中的第三子网络,对第二特征提取单元得到的第二特征图进行特征提取,得到高度、宽度和通道数分别与第一特征图的高度、宽度和通道数相同的第三特征图;
163.第四特征提取单元,用于通过待训练中间特征生成网络中的第四子网络,基于第一特征提取单元得到的第一特征图和第三特征提取单元得到的第三特征图进行特征提取,得到高度和宽度分别与第一特征图的高度和宽度相同的第一中间特征。
164.在一个可选示例中,多通道图像为四通道图像,多通道图像的第一个通道包括:原生图像中位于奇数行奇数列的各个元素,多通道图像的第二个通道包括:原生图像中位于奇数行偶数列的各个元素,多通道图像的第三个通道包括:原生图像中位于偶数行奇数列的各个元素,多通道图像的第四个通道包括:原生图像中位于偶数行偶数列的各个元素。
165.在一个可选示例中,原生图像的高度与第一中间特征的高度的比值为目标比值,原生图像的宽度与第一中间特征的宽度的比值为目标比值,第一中间特征的通道数与预设通道数的比值为:目标比值的平方结果的n倍,目标比值为大于或等于2的整数,n为大于或等于2的整数;
166.如图14所示,第二生成模块1240,包括:
167.切分子模块12401,用于将第一生成模块1230生成的第一中间特征沿通道方向进行切分,得到n个切分特征;
168.第一确定子模块12403,用于按照预设筛选规则,从切分子模块12401得到的n个切分特征中确定目标切分特征;
169.第一生成子模块12405,用于对第一确定子模块12403确定的目标切分特征进行像素重组,生成高度和宽度分别与原生图像的高度和宽度相同,且通道数为预设通道数的第二可视化图像。
170.在一个可选示例中,第一中间特征的高度小于原生图像的高度,第一中间特征的宽度小于原生图像的宽度,第一中间特征的通道数大于预设通道数;
171.如图15所示,第二生成模块1240,包括:
172.第一特征提取子模块12407,用于通过用于生成可视化图像的第一神经网络中的第五子网络,对第一生成模块1230生成的第一中间特征进行特征提取,得到高度和宽度分别与第一中间特征的高度和宽度相同的第四特征图;
173.第二特征提取子模块12409,用于通过第一神经网络中的第六子网络,对第一特征提取子模块12407得到的第四特征图进行特征提取,得到高度和宽度分别与原生图像的高度和宽度相同,且通道数为预设通道数的第二可视化图像。
174.在一个可选示例中,如图16所示,训练模块1260,包括:
175.第二确定子模块12601,用于通过比对获取模块1210获取的第一可视化图像和第二生成模块1240生成的第二可视化图像,确定第一损失值;
176.第三确定子模块12603,用于通过比对信息标注模块1220标注的标注信息和第三生成模块1250生成的任务执行结果,确定第二损失值;
177.第四确定子模块12605,用于基于第二确定子模块12601确定的第一损失值和第二确定子模块12601确定的第二损失值,确定模型损失值;
178.训练子模块12607,用于利用第四确定子模块12605确定的模型损失值,对待训练中间特征生成网络进行训练。
179.在一个可选示例中,第二生成模块1240,包括:
180.第五确定子模块,用于确定用于生成可视化图像的第一神经网络;
181.第二生成子模块,用于基于第一生成模块1230生成的第一中间特征,经由第五确定子模块确定的第一神经网络,生成第二可视化图像;
182.训练模块1260,用于:
183.基于获取模块1210获取的第一可视化图像、信息标注模块1220标注的标注信息、第二生成模块1240生成的第二可视化图像和第三生成模块1250生成的任务执行结果,对待训练中间特征生成网络和第五确定子模块确定的第一神经网络进行训练。
184.在一个可选示例中,第三生成模块1250,包括:
185.第六确定子模块,用于确定用于执行机器视觉任务的第二神经网络;
186.第三生成子模块,用于基于第一生成模块1230生成的第一中间特征,经由第六确定子模块确定的第二神经网络,生成任务执行结果;
187.训练模块1260,用于:
188.基于获取模块1210获取的第一可视化图像、信息标注模块1220标注的标注信息、第二生成模块1240生成的第二可视化图像和第三生成模块1250生成的任务执行结果,对待训练中间特征生成网络和第六确定子模块确定的第二神经网络进行训练。
189.在本公开的装置中,上述公开的各种可选实施例、可选实施方式和可选示例,都可以根据需要进行灵活的选择和组合,从而实现相应的功能和效果,本公开不进行一一列举。
190.本装置示例性实施例对应的有益技术效果可以参见上述示例性方法部分的相应有益技术效果,在此不再赘述。
191.示例性电子设备
192.图17图示了根据本公开实施例的电子设备的框图,电子设备1700包括一个或多个处理器1710和存储器1720。
193.处理器1710可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备1700中的其他组件以执行期望的功能。
194.存储器1720可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1710可以运行一个或多个计算机程序指令,以实现上文所述的本公开的各个实施例的方法以及/或者其他期望的功能。
195.在一个示例中,电子设备1700还可以包括:输入装置1730和输出装置1740,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
196.该输入装置1730还可以包括例如键盘、鼠标等等。
197.该输出装置1740可以向外部输出各种信息,其可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
198.当然,为了简化,图17中仅示出了该电子设备1700中与本公开有关的组件中的一
些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备1700还可以包括任何其他适当的组件。
199.示例性计算机程序产品和计算机可读存储介质
200.除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,该指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于生成中间特征的神经网络的训练方法中的步骤。
201.计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c++等,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
202.此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的用于生成中间特征的神经网络的训练方法中的步骤。
203.所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
204.以上结合具体实施例描述了本公开的基本原理,但是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。上述公开的具体细节仅是为了示例和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
205.本领域的技术人员可以对本公开进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

技术特征:
1.一种用于生成中间特征的神经网络的训练方法,包括:获取原生图像和第一可视化图像,所述原生图像和所述第一可视化图像中的一者由另一者转换得到;对所述第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息;基于所述原生图像,经由待训练中间特征生成网络,生成第一中间特征;基于所述第一中间特征,生成第二可视化图像;基于所述第一中间特征,生成所述机器视觉任务的任务执行结果;基于所述第一可视化图像、所述标注信息、所述第二可视化图像和所述任务执行结果,对所述待训练中间特征生成网络进行训练;响应于训练后的所述待训练中间特征生成网络满足预设训练结束条件,将训练后的所述待训练中间特征生成网络确定为已训练中间特征生成网络。2.根据权利要求1所述的方法,其中,所述基于所述原生图像,经由待训练中间特征生成网络,生成第一中间特征,包括:基于所述原生图像包括的多个颜色分量,对所述原生图像进行图像重排,得到多通道图像;通过所述待训练中间特征生成网络,对所述多通道图像进行多尺度特征提取,得到所述第一中间特征。3.根据权利要求2所述的方法,其中,所述通过所述待训练中间特征生成网络,对所述多通道图像进行多尺度特征提取,得到所述第一中间特征,包括:通过所述待训练中间特征生成网络中的第一子网络,对所述多通道图像进行特征提取,得到高度和宽度分别与所述多通道图像的高度和宽度相同的第一特征图;通过所述待训练中间特征生成网络中的第二子网络,对所述第一特征图进行特征提取,得到高度和宽度分别小于所述第一特征图的高度和宽度的第二特征图;通过所述待训练中间特征生成网络中的第三子网络,对所述第二特征图进行特征提取,得到高度、宽度和通道数分别与所述第一特征图的高度、宽度和通道数相同的第三特征图;通过所述待训练中间特征生成网络中的第四子网络,基于所述第一特征图和所述第三特征图进行特征提取,得到高度和宽度分别与所述第一特征图的高度和宽度相同的所述第一中间特征。4.根据权利要求2所述的方法,其中,所述多通道图像为四通道图像,所述多通道图像的第一个通道包括:所述原生图像中位于奇数行奇数列的各个元素,所述多通道图像的第二个通道包括:所述原生图像中位于奇数行偶数列的各个元素,所述多通道图像的第三个通道包括:所述原生图像中位于偶数行奇数列的各个元素,所述多通道图像的第四个通道包括:所述原生图像中位于偶数行偶数列的各个元素。5.根据权利要求1所述的方法,其中,所述原生图像的高度与所述第一中间特征的高度的比值为目标比值,所述原生图像的宽度与所述第一中间特征的宽度的比值为所述目标比值,所述第一中间特征的通道数与预设通道数的比值为:所述目标比值的平方结果的n倍,所述目标比值为大于或等于2的整数,n为大于或等于2的整数;所述基于所述第一中间特征,生成第二可视化图像,包括:
将所述第一中间特征沿通道方向进行切分,得到n个切分特征;按照预设筛选规则,从所述n个切分特征中确定目标切分特征;对所述目标切分特征进行像素重组,生成高度和宽度分别与所述原生图像的高度和宽度相同,且通道数为所述预设通道数的所述第二可视化图像。6.根据权利要求1所述的方法,其中,所述第一中间特征的高度小于所述原生图像的高度,所述第一中间特征的宽度小于所述原生图像的宽度,所述第一中间特征的通道数大于预设通道数;所述基于所述第一中间特征,生成第二可视化图像,包括:通过用于生成可视化图像的第一神经网络中的第五子网络,对所述第一中间特征进行特征提取,得到高度和宽度分别与所述第一中间特征的高度和宽度相同的第四特征图;通过所述第一神经网络中的第六子网络,对所述第四特征图进行特征提取,得到高度和宽度分别与所述原生图像的高度和宽度相同,且通道数为预设通道数的所述第二可视化图像。7.根据权利要求1-6中任一项所述的方法,其中,所述基于所述第一可视化图像、所述标注信息、所述第二可视化图像和所述任务执行结果,对所述待训练中间特征生成网络进行训练,包括:通过比对所述第一可视化图像和所述第二可视化图像,确定第一损失值;通过比对所述标注信息和所述任务执行结果,确定第二损失值;基于所述第一损失值和所述第二损失值,确定模型损失值;利用所述模型损失值,对所述待训练中间特征生成网络进行训练。8.根据权利要求1-4中任一项所述的方法,其中,所述基于所述第一中间特征,生成第二可视化图像,包括:基于所述第一中间特征,经由用于生成可视化图像的第一神经网络,生成第二可视化图像;所述基于所述第一可视化图像、所述标注信息、所述第二可视化图像和所述任务执行结果,对所述待训练中间特征生成网络进行训练,包括:基于所述第一可视化图像、所述标注信息、所述第二可视化图像和所述任务执行结果,对所述待训练中间特征生成网络和所述第一神经网络进行训练。9.根据权利要求1-6中任一项所述的方法,其中,所述基于所述第一中间特征,生成所述机器视觉任务的任务执行结果,包括:基于所述第一中间特征,经由用于执行所述机器视觉任务的第二神经网络,生成所述任务执行结果;所述基于所述第一可视化图像、所述标注信息、所述第二可视化图像和所述任务执行结果,对所述待训练中间特征生成网络进行训练,包括:基于所述第一可视化图像、所述标注信息、所述第二可视化图像和所述任务执行结果,对所述待训练中间特征生成网络和所述第二神经网络进行训练。10.一种用于生成中间特征的神经网络的训练装置,包括:获取模块,用于获取原生图像和第一可视化图像,所述原生图像和所述第一可视化图像中的一者由另一者转换得到;
信息标注模块,用于对所述获取模块获取的所述第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息;第一生成模块,用于基于所述获取模块获取的所述原生图像,经由待训练中间特征生成网络,生成第一中间特征;第二生成模块,用于基于所述第一生成模块生成的所述第一中间特征,生成第二可视化图像;第三生成模块,用于基于所述第一生成模块生成的所述第一中间特征,生成所述机器视觉任务的任务执行结果;训练模块,用于基于所述获取模块获取的所述第一可视化图像、所述信息标注模块标注的所述标注信息、所述第二生成模块生成的所述第二可视化图像和所述第三生成模块生成的所述任务执行结果,对所述待训练中间特征生成网络进行训练;确定模块,用于响应于所述训练模块训练后的所述待训练中间特征生成网络满足预设训练结束条件,将训练后的所述待训练中间特征生成网络确定为已训练中间特征生成网络。11.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9中任一所述的用于生成中间特征的神经网络的训练方法。12.一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-9中任一所述的用于生成中间特征的神经网络的训练方法。

技术总结
公开了一种用于生成中间特征的神经网络的训练方法、装置及介质。该方法包括:获取原生图像和第一可视化图像;对第一可视化图像进行信息标注,得到与机器视觉任务关联的标注信息;基于原生图像,经由待训练中间特征生成网络,生成第一中间特征;基于第一中间特征,生成第二可视化图像;基于第一中间特征,生成机器视觉任务的任务执行结果;基于第一可视化图像、标注信息、第二可视化图像和任务执行结果,对待训练中间特征生成网络进行训练;响应于训练后的待训练中间特征生成网络满足预设训练结束条件,将训练后的待训练中间特征生成网络确定为已训练中间特征生成网络。本公开的实施例可以提升机器视觉任务的执行效果。例可以提升机器视觉任务的执行效果。例可以提升机器视觉任务的执行效果。


技术研发人员:王润 李凯 王国利 张骞 黄畅
受保护的技术使用者:北京地平线信息技术有限公司
技术研发日:2023.04.11
技术公布日:2023/7/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐