目标检测方法、目标检测模型的训练方法以及电子设备

未命名 10-08 阅读:84 评论:0


1.本公开涉及人工智能、计算机视觉、图像识别、图像传感器、模型压缩和目标检测技术领域,更具体地,涉及一种目标检测方法、目标检测模型的训练方法以及电子设备。


背景技术:

2.随着人工智能技术的发展,图像识别技术应运而生。由于图像中的各类物体具有不同的外观、形状和姿态,以及成像时光照、遮挡等因素的干扰,如何有效地进行图像识别是亟待解决的问题。
3.目标检测(即object detection)的任务即是找出图像中所有感兴趣的物体,并确定物体的类别和位置。目标检测过程可以包括分类步骤、定位步骤、检测步骤和分割步骤。
4.在实现本公开构思的过程中,发明人发现相关技术中至少存在如下问题:由于彩色滤波阵列图像属于单通道的马赛克图像,需要进行去马赛克预处理,因而无法保障彩色滤波阵列图像的目标检测效率和准确性。


技术实现要素:

5.有鉴于此,本公开提供了一种目标检测方法、目标检测模型的训练方法以及电子设备。
6.根据本公开的一个方面,提供了一种目标检测方法,包括:对彩色滤波阵列图像进行通道重排,得到第一中间特征图;根据上述第一中间特征图,得到第二中间特征图;根据上述第二中间特征图,得到至少一个尺度的第三中间特征图;以及,根据上述至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息。
7.根据本公开的实施例,上述根据上述第一中间特征图,得到第二中间特征图,包括:对上述第一中间特征图进行普通卷积处理,得到第四中间特征图;根据上述第二中间特征图和上述第四中间特征图,得到第五中间特征图;根据上述第五中间特征图,得到第六中间特征图;根据上述第二中间特征图和上述第六中间特征图,得到第七中间特征图;以及,根据上述第七中间特征图,得到上述第二中间特征图。
8.根据本公开的实施例,上述根据上述第五中间特征图,得到第六中间特征图,包括:对上述第五中间特征图进行深度卷积处理,得到第八中间特征图;根据上述第八中间特征图,得到第九中间特征图;对上述第九中间特征图进行逐点卷积处理,得到第十中间特征图;以及,根据上述第十中间特征图,得到上述第六中间特征图。
9.根据本公开的实施例,上述根据上述第一中间特征图,得到第二中间特征图,包括:根据上述第一中间特征图,得到与n个层级各自对应的第十一中间特征图,其中,n是大于1的整数;对与上述n个层级各自对应的第十一中间特征图进行残差卷积处理,得到与上述n个层级各自对应的第十二中间特征图;根据与上述n个层级各自的第十一中间特征图和与n-1个层级各自对应的第十二中间特征图,得到与上述n-1个层级各自对应的第十三中间特征图;以及,根据第1层级的第十三中间特征图,得到上述第二中间特征图。
10.根据本公开的实施例,上述根据上述第一中间特征图,得到与n个层级各自对应的第十一中间特征图,包括:在1<n≤n的情况下,根据第n-1个层级的第十一中间特征图,得到第n个层级的第十四中间特征图;根据上述第n-1个层级的第十一中间特征图和上述第n个层级的第十四中间特征图,得到第n个层级的第十五中间特征图;根据上述第n个层级的第十五中间特征图,得到第n个层级的第十六中间特征图;以及,根据上述第n-1个层级的第十一中间特征图和上述第n个层级的第十六中间特征图,得到第n个层级的第十一中间特征图;其中,n是大于或等于1且小于或等于n的整数,第1层级的第十一中间特征图是上述第一中间特征图。
11.根据本公开的实施例,上述根据第n-1个层级的第十一中间特征图,得到第n个层级的第十四中间特征图,包括:对上述第n-1个层级的第十一中间特征图进行深度卷积处理,得到第n个层级的第十七中间特征图;以及对上述第n个层级的第十七中间特征图进行逐点卷积处理,得到上述第n个层级的第十四中间特征图。
12.根据本公开的实施例,上述根据与上述n个层级各自的第十一中间特征图和与上述n-1个层级各自对应的第十二中间特征图,得到与上述n-1个层级各自对应的第十三中间特征图,包括:在n=n-1的情况下,根据第n个层级的第十一中间特征图和第n-1个层级的第十二中间特征图,得到第n-1个层级的第十三中间特征图;在1≤n<n-1的情况下,根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十三中间特征图。
13.根据本公开的实施例,上述根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十三中间特征图,包括:根据上述第n+1个层级的第十三中间特征图和上述第n个层级的第十二中间特征图,得到第n个层级的第十八中间特征图;根据上述第n个层级的第十八中间特征图,得到第n个层级的第十九中间特征图;以及,根据上述第n+1个层级的第十三中间特征图和上述第n个层级的第十九中间特征图,得到上述第n个层级的第十三中间特征图。
14.根据本公开的实施例,上述根据上述第n个层级的第十八中间特征图,得到第n个层级的第十九中间特征图,包括:对上述第n个层级的第十八中间特征图进行深度卷积处理,得到第n个层级的第二十中间特征图;对上述第n个层级的第二十中间特征图进行逐点卷积处理,得到第n个层级的第二十一中间特征图;对上述第n个层级的第二十一中间特征图进行深度卷积处理,得到第n个层级的第二十二中间特征图;以及,对上述第n个层级的第二十二中间特征图进行逐点卷积处理,得到上述第n个层级的第十九中间特征图。
15.根据本公开的实施例,上述对与上述n个层级各自对应的第十一中间特征图进行残差卷积处理,得到与上述n个层级各自对应的第十二中间特征图,包括:对第n个层级的第十一中间特征图进行深度卷积处理,得到第n个层级的第二十三中间特征图;以及,对上述第n个层级的第二十三中间特征图进行逐点卷积处理,得到上述第n个层级的第十二中间特征图;其中,n是大于或等于1且小于或等于n的整数。
16.根据本公开的实施例,上述根据上述第二中间特征图,得到至少一个尺度的第三中间特征图,包括:在m=1的情况下,根据上述第二中间特征图,得到第m尺度的第三中间特征图;在1<m≤m的情况下,根据第m-1尺度的第三中间特征图,得到第m尺度的第三中间特征图;其中,m是大于或等于1的整数,m是大于或等于1且小于或等于m的整数。
17.根据本公开的实施例,上述根据上述至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息,包括:根据上述至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的一个候选框信息,其中,上述候选框信息包括候选框的置信度和位置信息;针对至少一个待检测对象中的每个待检测对象,在确定与上述待检测对象对应的候选框的置信度大于或等于与上述待检测对象对应的候选框的预定置信度的情况下,根据与上述待检测对象对应的候选框的位置信息,确定与上述待检测对象对应的目标检测信息。
18.根据本公开的实施例,上述对彩色滤波阵列图像进行通道重排,得到第一中间特征图,包括:利用通道重排层处理上述彩色滤波阵列图像,得到上述第一中间特征图,其中,上述通道重排特征层的目标权重参数为对原始权重参数进行量化得到的,上述通道重排层的目标偏置参数为对原始偏置参数进行量化得到的;其中,上述原始权重参数是单精度32位浮点格式的参数,上述目标权重参数是有符号8位整数格式的参数;其中,上述目标偏置参数是有符合16位整数格式的参数;其中,上述第一中间特征图是有符号8位整数格式的参数。
19.根据本公开的一个方面,提供了一种目标检测模型的训练方法,包括:对样本彩色滤波阵列图像进行通道重排,得到第一样本中间特征图;根据上述第一样本中间特征图,得到第二样本中间特征图;根据上述第二样本中间特征图,得到至少一个尺度的第三样本中间特征图;根据上述至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的样本检测信息;以及,利用与上述至少一个样本检测对象各自对应的样本检测信息和样本标签信息训练深度学习模型,得到上述目标检测模型。
20.根据本公开的实施例,上述根据上述至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的样本检测信息,包括:根据上述至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的多个样本候选框信息,其中,上述样本候选框信息包括样本候选框的样本置信度、样本位置信息和样本分类信息;以及,根据与上述至少一个样本检测对象各自对应的多个样本候选框信息,得到与上述至少一个样本检测对象各自对应的样本检测信息。
21.根据本公开的实施例,上述样本标签信息包括样本真实框的样本位置标签信息和样本分类标签信息;其中,上述利用与上述至少一个样本检测对象各自对应的样本检测信息和样本标签信息训练深度学习模型,得到上述目标检测模型,包括:基于交并比损失函数,根据与上述至少一个样本检测对象各自对应的多个样本候选框的样本位置信息和与上述至少一个样本检测对象各自对应的样本位置标签信息,确定第一损失函数值;基于距离损失函数,根据与上述至少一个样本检测对象各自对应的多个样本候选框的样本位置信息和与上述至少一个样本检测对象各自对应的样本位置标签信息,确定第二损失函数值;基于分类损失函数,根据与上述至少一个样本检测对象各自对应的多个样本候选框的样本分类信息和与上述至少一个样本检测对象各自对应的样本分类标签信息,确定第三损失函数值;以及,根据上述第一损失函数值、上述第二损失函数值和上述第三损失函数值调整上述深度学习模型的模型参数,得到上述目标检测模型。
22.根据本公开的另一个方面,提供了一种目标检测装置,包括:第一通道重排模块,用于对彩色滤波阵列图像进行通道重排,得到第一中间特征图;第一获得模块,用于根据上
述第一中间特征图,得到第二中间特征图;第二获得模块,用于根据上述第二中间特征图,得到至少一个尺度的第三中间特征图;以及,第三获得模块,用于根据上述至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息。
23.根据本公开的另一个方面,提供了一种目标检测模型的训练装置,包括:第二通道重排模块,用于对样本彩色滤波阵列图像进行通道重排,得到第一样本中间特征图;第四获得模块,用于根据上述第一样本中间特征图,得到第二样本中间特征图;第五获得模块,用于根据上述第二样本中间特征图,得到至少一个尺度的第三样本中间特征图;第六获得模块,用于根据上述至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的样本检测信息;以及,训练模块,用于利用与上述至少一个样本检测对象各自对应的样本检测信息和样本标签信息训练深度学习模型,得到上述目标检测模型。
24.根据本公开的另一个方面,提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如本公开所述的方法。
25.根据本公开的另一个方面,提供了一种计算机可读存储介质,其上存储有可执行指令,上述可执行指令被处理器执行时使处理器实现如本公开所述的方法。
26.根据本公开的另一个方面,提供了一种计算机程序产品,上述计算机程序产品包括计算机可执行指令,上述计算机可执行指令在被执行时用于实现如本公开所述的方法。
27.根据本公开的实施例,由于至少一个尺度的第三中间特征图是根据第二中间特征图得到的,第二中间特征图是根据第一中间特征图得到的,第一中间特征图是通过对彩色滤波阵列图像进行通道重排得到的,在此基础上,通过根据至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息,避免了相关技术中由于彩色滤波阵列图像属于单通道的马赛克图像,需要进行去马赛克预处理的技术问题,能够在无需去马赛克预处理的情况下实现针对彩色滤波阵列图像的目标检测,进而提高了彩色滤波阵列图像的目标检测效率和准确性。
附图说明
28.通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
29.图1示意性示出了根据本公开实施例的可以应用目标检测方法、目标检测模型的训练方法的系统架构;
30.图2示意性示出了根据本公开实施例的目标检测方法的流程图;
31.图3示意性示出了bayer排列格式的彩色滤波阵列的去马赛克重建rgb彩色图像的过程示意图;
32.图4示意性示出了根据本公开实施例的根据第一中间特征图,得到第二中间特征图方法的流程图;
33.图5示意性示出了根据本公开实施例的彩色滤波阵列预处理层cfa-rpb的结构示意图;
34.图6示意性示出了根据本公开实施例的根据第一中间特征图,得到第二中间特征图方法的流程图;
35.图7示意性示出了根据本公开另一实施例的彩色滤波阵列预处理层cfa-rpb的结构示意图;
36.图8示意性示出了根据本公开实施例的匹配方法的示例示意图;
37.图9示意性示出了根据本公开实施例的候选框的直方图的示例示意图;
38.图10示意性示出了根据本公开实施例的饱和量化方法的结构示意图;
39.图11示意性示出了根据本公开实施例的目标检测模型的训练方法的流程图;
40.图12示意性示出了根据本公开实施例的目标检测模型的示例示意图;
41.图13示意性示出了根据本公开的实施例的目标检测装置的框图;
42.图14示意性示出了根据本公开的实施例的目标检测模型的训练装置的框图;以及
43.图15示意性示出了根据本公开实施例的适于实现目标检测方法、目标检测模型的训练方法的电子设备的框图。
具体实施方式
44.以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
45.在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
46.在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
47.在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。
48.在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
49.在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
50.理想的彩色图像传感器中,每个像素位置应该有三个图像传感器,分别采集红色,蓝色和绿色波长的光,每个像素位置能够得到三种不同波长的光。但是这种传感器设计复杂,成本昂贵。实际中大多数图像传感器都是单色传感器,每个像素只能采集到一种波长的光。不同的传感器厂商使用的彩色滤波阵列的排列方式不同,应用最广泛的一种是bayer阵列图像。其偶数行包含绿色和红色分量,奇数行包含蓝色和绿色分量,偶数列包含绿色和蓝色分量,奇数列包含红色和绿色分量。绿色像素占总数的1/2,红色、蓝色各占1/4。
51.彩色滤波阵列图像由于每个像素只能捕捉一种波长的颜色信息,是一种单通道的
马赛克图像。现有的目标检测网络如yolo,ssd等都是面向rgb彩色图像设计的。现有的彩色滤波阵列图像的检测需要先经过去马赛克预处理恢复三通道rgb彩色图像,利用插值或神经网络的方法估计同一像素的另外两种颜色。面向边缘端的目标检测场景,去马赛克导致额外的计算开销和数据搬运,不适用于如相机内嵌图像处理器这种存储空间和计算功耗受限的边缘设备。比如,一些传统方法如插值,检测精度低,需要复杂计算:一些深度学习算法,如两阶段和三阶段的网络,重建高质量的rgb彩色图像,但是需要大量的参数和层间存储,难以适用边缘端应用场景。
52.非极大值抑制后处理也极大的限制了边缘端目标检测。一些非极大值抑制的硬件专用电路被用来解决,如非极大值抑制专用处理器,非极大值抑制协处理器。但是,由于受限硬件资源的限制,其精度不够高,这影响了目标检测的性能。最后,边缘端目标检测还需要通过量化将单精度32位浮点数映射为有符号8位整数。量化是至关重要的,影响了目标检测的精度。有的量化方法根据数学建模,假设参数服从高斯或拉普拉斯分布,找到理论最优值。有的量化方法使用随机向上或向下舍入的方法求最优的缩放因子。但是,这些量化方法都是用于改善量化误差和截断误差的,很少关注推理过程存在的溢出现象。
53.为了至少部分地解决相关技术中存在的技术问题,本公开提供了一种目标检测方法、目标检测模型的训练方法及装置,可以应用于人工智能、计算机视觉、图像识别、图像传感器、模型压缩和目标检测技术领域。该目标检测方法包括:对彩色滤波阵列图像进行通道重排,得到第一中间特征图;根据第一中间特征图,得到第二中间特征图;根据第二中间特征图,得到至少一个尺度的第三中间特征图;以及,根据至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息。
54.图1示意性示出了根据本公开实施例的可以应用目标检测方法、目标检测模型的训练方法的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
55.如图1所示,根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103,网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
56.用户可以使用第一终端设备101、第二终端设备102、第三终端设备103中的至少一个通过网络104与服务器105交互,以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
57.第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
58.服务器105可以是提供各种服务的服务器,例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
59.需要说明的是,本公开实施例所提供的目标检测方法一般可以由第一终端设备101、第二终端设备102或第三终端设备103执行,或者也可以由不同于第一终端设备101、第二终端设备102或第三终端设备103的其他终端设备执行。相应地,本公开实施例所提供的目标检测装置也可以设置于第一终端设备101、第二终端设备102或第三终端设备103中,或设置于不同于第一终端设备101、第二终端设备102或第三终端设备103的其他终端设备中。
60.备选地,本公开实施例所提供的目标检测方法也可以由服务器105执行。相应地,本公开实施例所提供的目标检测装置一般可以设置于服务器105中。本公开实施例所提供的目标检测方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的目标检测装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
61.需要说明的是,本公开实施例所提供的目标检测模型的训练方法一般可以由服务器105执行。相应地,本公开实施例所提供的目标检测模型的训练装置一般可以设置于服务器105中。本公开实施例所提供的目标检测模型的训练方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的目标检测模型的训练装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。
62.备选地,本公开实施例所提供的目标检测模型的训练方法也可以由第一终端设备101、第二终端设备102或第三终端设备103执行,或者也可以由不同于第一终端设备101、第二终端设备102或第三终端设备103的其他终端设备执行。相应地,本公开实施例所提供的目标检测模型的训练装置也可以设置于第一终端设备101、第二终端设备102或第三终端设备103中,或设置于不同于第一终端设备101、第二终端设备102或第三终端设备103的其他终端设备中。
63.应该理解,图1中的第一终端设备、第二终端设备或第三终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的第一终端设备、第二终端设备或第三终端设备、网络和服务器。
64.应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
65.图2示意性示出了根据本公开实施例的目标检测方法的流程图。
66.如图2所示,该方法200包括操作s210~s240。
67.在操作s210,对彩色滤波阵列图像进行通道重排,得到第一中间特征图。
68.在操作s220,根据第一中间特征图,得到第二中间特征图。
69.在操作s230,根据第二中间特征图,得到至少一个尺度的第三中间特征图。
70.在操作s240,根据至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息。
71.根据本公开的实施例,彩色滤波阵列(color filter array)可以指覆盖在cmos(complementary metal oxide semiconductor,互补金属氧化物半导体)图像传感器上的
马赛克阵列,能够用于捕捉每个像素的单色通道分量。
72.根据本公开的实施例,在获取到彩色滤波阵列图像之后,可以利用第一预定模型对彩色滤波阵列图像进行通道重排处理,得到第一中间特征图。第一中间特征图可以用于表征彩色滤波阵列图像中的跨通道信息。第一预定模型可以包括能够实现彩色滤波阵列图像通道重排的模型。第一预定模型的模型结构可以根据实际业务需求进行配置,在此不作限定。例如,第一预定模型可以包括至少一个模型结构。模型结构可以包括至少一个模型子结构和各个模型子结构彼此之间的连接关系。
73.根据本公开的实施例,第一预定模型可以包括以下至少之一:以depthwise convolution为骨干网络的第一预定模型、以pointwise group和channel shufle为骨干网络的第一预定模型和基于下采样模型的第一预定模型。第一预定模型的训练方式可以根据实际业务需求进行配置,在此不作限定。例如,训练方式可以包括以下至少之一:无监督训练、有监督训练和半监督训练。
74.根据本公开的实施例,在获得第一中间特征图之后,可以利用第二预定模型对第一中间特征图进行处理,得到第二中间特征图。第二预定模型可以包括能够实现特征图处理的模型。第二预定模型的模型结构可以根据实际业务需求进行配置,在此不作限定。第二预定模型的模型结构可以包括以下至少之一:输入层、普通卷积层、特征提取层、特征融合层、深度卷积层、逐点卷积层、残差卷积层和输出层。
75.根据本公开的实施例,在获得第二中间特征图之后,可以对第二中间特征图进行处理,得到至少一个尺度的第三中间特征图。尺度可以指图像分辨率。每个尺度可以具有与该尺度对应的至少一个对象特征图。可以对第二中间特征图进行特征提取,得到至少一个尺度的对象特征图。
76.例如,可以利用跨阶段局部提取方法处理第二中间特征图,得到至少一个尺度的对象特征图。可以对至少一个尺度的对象特征图进行融合处理,得到第三中间特征图。例如,可以利用路径聚合方法处理至少一个尺度的对象特征图,得到第三中间特征图。路径聚合方法可以指从小尺度到大尺度的聚合方法。路径聚合方法使得低层信息更容易传递到高层。
77.根据本公开的实施例,在获得至少一个尺度的第三中间特征图之后,可以基于目标检测方法对至少一个尺度的第三中间特征图进行处理,得到与至少一个待检测对象各自对应的目标检测信息。目标检测方法可以根据实际业务需求进行设置,在此不作限定。例如,目标检测方法可以包括以下至少之一:传统目标检测方法和基于深度学习的目标检测方法。
78.根据本公开的实施例,传统目标检测方法可以包括以下至少之一:基于宏观特征的目标检测方法和基于特征点的目标检测方法。宏观特征可以包括以下至少之一:形状、颜色和尺寸等。例如,基于宏观特征的目标检测方法可以包括基于hough圆变换的目标检测方法。基于特征点的目标检测方法可以包括以下至少之一:基于sift(scale-invariant feature transform,尺度不变特征转换)的目标检测方法和基于surf(speeded up robust features,加速稳健特征)的目标检测方法。
79.根据本公开的实施例,基于深度学习的目标检测方法可以包括以下至少之一:单阶段的目标检测方法和两阶段的目标检测方法。例如,单阶段的目标检测方法可以包括以
下至少之一:ssd(即single shot multibox detector)和yolo(即you only look once)。两阶段的目标检测方法可以包括以下至少之一:r-cnn(即region convolutional neural network)、fast r-cnn和faster r-cnn。
80.根据本公开的实施例,由于至少一个尺度的第三中间特征图是根据第二中间特征图得到的,第二中间特征图是根据第一中间特征图得到的,第一中间特征图是通过对彩色滤波阵列图像进行通道重排得到的,在此基础上,通过根据至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息,避免了相关技术中由于彩色滤波阵列图像属于单通道的马赛克图像,需要进行去马赛克预处理的技术问题,能够在无需去马赛克预处理的情况下实现针对彩色滤波阵列图像的目标检测,进而提高了彩色滤波阵列图像的目标检测效率和准确性。
81.下面参考图3~图11,对根据本发明实施例的目标检测方法200做进一步说明。
82.图3示意性示出了bayer排列格式的彩色滤波阵列的去马赛克重建rgb彩色图像的过程示意图。
83.如图3所示,在300中,以彩色滤波阵列图像13为例说明bayer排列格式的彩色滤波阵列的去马赛克重建rgb彩色图像的过程。
84.彩色滤波阵列图像13的每个像素仅能获取一种颜色/波长的光,例如bayer阵列的第一行第一个获取的是红色光,第一行第二个获取的是绿色光,第二行第一个获取的是绿色光,第二行第二个获取的是蓝色光,依此类推,从上到下,从左到右,以2
×
2为窗口不断循环。在300中,r表示红色,g表示绿色,b表示蓝色。
85.这种单色传感器直接输出的图像拆成三个彩色通道,每个像素都缺失了另外两个分量,红色通道14缺失了蓝色和绿色两个分量,绿色通道15缺失了红色和蓝色两个分量,蓝色通道16缺失了红色和绿色两个分量。将缺失信息的单色通道通过某种方法恢复出另外两个通道信息的图像重建过程就叫做图像取马赛克。
86.单通道的bayer格式彩色滤波阵列图像13通过去马赛克重建成传统的rgb图像17,这一过程可以通过相机或者手机中配置的isp专用模块完成。但是,对于传感器嵌入视觉处理器应用场景,这将造成额外的计算开销和复杂度。
87.图4示意性示出了根据本公开实施例的根据第一中间特征图,得到第二中间特征图方法的流程图。
88.如图4所示,操作s220可以包括操作s421~s424。
89.在操作s421,对第一中间特征图进行普通卷积处理,得到第四中间特征图。
90.在操作s422,根据第二中间特征图和第四中间特征图,得到第五中间特征图。
91.在操作s423,根据第五中间特征图,得到第六中间特征图。
92.在操作s424,根据第二中间特征图和第六中间特征图,得到第七中间特征图。
93.在操作s424,根据第七中间特征图,得到第二中间特征图。
94.根据本公开的实施例,操作s423可以包括如下操作。
95.对第五中间特征图进行深度卷积处理,得到第八中间特征图。根据第八中间特征图,得到第九中间特征图。对第九中间特征图进行逐点卷积处理,得到第十中间特征图。根据第十中间特征图,得到第六中间特征图。
96.图5示意性示出了根据本公开实施例的彩色滤波阵列预处理层cfa-rpb的结构示
意图。
97.如图5所示,在500中,示意性示出了用于对第一中间特征图进行处理,得到第二中间特征图的彩色滤波阵列预处理层cfa-rpb的结构。
98.彩色滤波阵列预处理块cfa-rpb可以包括focus层、残差连接层、深度可分离卷积层和cat拼接层。图中,focus层代表了通道重排,conv代表普通卷积层19,dw代表深度可分离卷积中的深度卷积层21,pw代表深度可分离卷积中的逐点卷积层22,cat代表拼接层20。
99.focus层可以对彩色滤波阵列图像18重新排列,将彩色滤波阵列图像18的所有像素转换成1/2下采样分辨率的特征层rggb层23。结合彩色滤波阵列的2
×
2窗口的重复特征和目标检测网络的第一层总是存在步长为2的卷积降低图像的分辨率特性,这能够保留原图像的所有信息,便于后续网络的处理。
100.残差连接广泛应用于图像超分辨率和图像重建的网络中,能够起到融合不同感受野的特征信息,提高网络特征提取能力的作用。残差连接应用于本发明中来融合不同尺度感受野的颜色和几何信息,提高网络的特征提取能力,增强由focus层生成的rggb层23和特征层25得到特征层26,减轻后续网络处理的负担。同时,由dw卷积21和pw卷积22组成的参数量小,计算量小的深度可分离卷积代替传统的卷积层,降低网络参数量和计算量。最后,使用一个标准卷积扩大网络的通道数27,便于后续主干网络特征提取。
101.由于传统的去马赛克网络和目标检测网络是两个独立的任务,他们的优化目标分别为最小重建误差和最小化检测误差。这保证了去马赛克阶段需要额外的计算生成rgb彩色图像再送入传统的目标检测网络中,得到最后的输出。而本公开直接使用典型的目标检测网络,重新构建符合彩色滤波阵列图像的主干网络,融合其特性,直接对彩色滤波阵列图像做特征提取和目标检测。新的主干网络融合了残差连接块使用新的损失函数重新训练目标检测网络。最终实现了高精度,结构紧凑、高速且轻量化的目标检测网络。对于重建的基于mobilenet-v1的主干网络,与原始的网络相比,本发明的参数量和乘累加(mac)计算量只分别增加了0.56kb和0.8%,额外的计算开销很小,同时保证了高精度和高准确率,避免了额外的彩色滤波阵列的去马赛克处理过程。
102.图6示意性示出了根据本公开实施例的根据第一中间特征图,得到第二中间特征图方法的流程图。
103.如图6所示,操作s220可以包括操作s621~s624。
104.在操作s621,根据第一中间特征图,得到与n个层级各自对应的第十一中间特征图,其中,n是大于1的整数。
105.在操作s622,对与n个层级各自对应的第十一中间特征图进行残差卷积处理,得到与n个层级各自对应的第十二中间特征图。
106.在操作s623,根据与n个层级各自的第十一中间特征图和与n-1个层级各自对应的第十二中间特征图,得到与n-1个层级各自对应的第十三中间特征图。
107.在操作s624,根据第1层级的第十三中间特征图,得到第二中间特征图。
108.根据本公开的实施例,操作s621可以包括如下操作。
109.在1<n≤n的情况下,根据第n-1个层级的第十一中间特征图,得到第n个层级的第十四中间特征图。根据第n-1个层级的第十一中间特征图和第n个层级的第十四中间特征图,得到第n个层级的第十五中间特征图。根据第n个层级的第十五中间特征图,得到第n个
层级的第十六中间特征图。根据第n-1个层级的第十一中间特征图和第n个层级的第十六中间特征图,得到第n个层级的第十一中间特征图。n是大于或等于1且小于或等于n的整数,第1层级的第十一中间特征图是第一中间特征图。
110.根据本公开的实施例,根据第n-1个层级的第十一中间特征图,得到第n个层级的第十四中间特征图,可以包括如下操作。
111.对第n-1个层级的第十一中间特征图进行深度卷积处理,得到第n个层级的第十七中间特征图。对第n个层级的第十七中间特征图进行逐点卷积处理,得到第n个层级的第十四中间特征图。
112.根据本公开的实施例,操作s623可以包括如下操作。
113.在n=n-1的情况下,根据第n个层级的第十一中间特征图和第n-1个层级的第十二中间特征图,得到第n-1个层级的第十三中间特征图。在1≤n<n-1的情况下,根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十三中间特征图。
114.根据本公开的实施例,根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十三中间特征图,可以包括如下操作。
115.根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十八中间特征图。根据第n个层级的第十八中间特征图,得到第n个层级的第十九中间特征图。根据第n+1个层级的第十三中间特征图和第n个层级的第十九中间特征图,得到第n个层级的第十三中间特征图。
116.根据本公开的实施例,根据第n个层级的第十八中间特征图,得到第n个层级的第十九中间特征图,可以包括如下操作。
117.对第n个层级的第十八中间特征图进行深度卷积处理,得到第n个层级的第二十中间特征图。对第n个层级的第二十中间特征图进行逐点卷积处理,得到第n个层级的第二十一中间特征图。对第n个层级的第二十一中间特征图进行深度卷积处理,得到第n个层级的第二十二中间特征图。对第n个层级的第二十二中间特征图进行逐点卷积处理,得到第n个层级的第十九中间特征图。
118.根据本公开的实施例,操作s622可以包括如下操作。
119.对第n个层级的第十一中间特征图进行深度卷积处理,得到第n个层级的第二十三中间特征图。对第n个层级的第二十三中间特征图进行逐点卷积处理,得到第n个层级的第十二中间特征图。n是大于或等于1且小于或等于n的整数。
120.图7示意性示出了根据本公开另一实施例的彩色滤波阵列预处理层cfa-rpb的结构示意图。
121.如图7所示,示意性示出了用于对第一中间特征图进行处理,得到第二中间特征图的另一彩色滤波阵列预处理层cfa-rpb的结构。
122.彩色滤波阵列预处理块cfa-rpb可以基于u型连接的残差结构来构建,使用特征编码和特征解码的方法进行提取特征和图像重建,用于直接对彩色滤波阵列做目标检测,无需图像去马赛克,图像去噪和白平衡。
123.在700中,彩色滤波阵列预处理块cfa-rpb可以包括用于特征提取enc结构71,例如,第一编码层59、第二编码层60和第三编码层61,用于特征解码dec结构72,例如,第一残
差卷积连接层62、第二残差卷积连接层63、第三残差卷积连接层64、第一解码层65、第二解码层66、第三解码层67。
124.彩色滤波阵列预处理块cfa-rpb的整体结构使用u型残差连接,在保留原始图像信息的基础上,融合不同感受野提取到的图像语义信息,增强细节信息,减轻后续目标检测网络的特征提取能力。
125.enc结构71可以包括输入特征层72、深度卷积或dw卷积层73、逐点卷积或pw卷积层74、通道拼接层75、逐点卷积或pw卷积层76、深度卷积或dw卷积层77和输出特征层78。enc结构71可以对输入图像和浅层语义信息在特征图通道上进行扩展,后续使用深度可分离卷积层减少通道数。它的好处是可以保留原始的输入特征,让网络去学习如何融合语义信息,整个过程中的输入特征不会丢失。此外,使用残差连接融合不同感受野的颜色和几何信息,直接在原始输入中添加提取到的特征,提高特征提取的能力。
126.dec结构72可以包括输入特征层80、通道拼接层81、深度卷积或dw卷积层82、深度卷积dw卷积层83、输入特征层84、逐点卷积或pw卷积层85、逐点卷积或pw卷积层86、特征层87、残差卷积模块88、输入特征层89、深度卷积或dw卷积层90、逐点卷积或pw卷积层91、输出特征层92。
127.具有输入特征层80和输入特征层84,使用通道拼接层81的方式对两者进行融合,然后使用深度卷积或dw卷积层82、深度卷积或dw卷积层83、逐点卷积或pw卷积层85和逐点卷积或pw卷积层86提取高层次的语义信息,最终得到特征解码的特征层87。
128.其两个输入特征图分别来自enc结构71的输出特征层78和经过深度卷积或dw卷积层90、逐点卷积或pw卷积层91的输出特征层92。在此基础上,通过使用u型结构构成残差连接,使得网络自动学习图像信息,使用深度可分离卷积结构代替标准卷积,减少了参数量和计算量。参数量和计算量只增加了8.16kb,实现了高精度高准确率的彩色滤波阵列图像的智能化目标检测。
129.根据本公开的实施例,操作s230可以包括如下操作。
130.在m=1的情况下,根据第二中间特征图,得到第m尺度的第三中间特征图。在1<m≤m的情况下,根据第m-1尺度的第三中间特征图,得到第m尺度的第三中间特征图。m是大于或等于1的整数,m是大于或等于1且小于或等于m的整数。
131.根据本公开的实施例,操作s240可以包括如下操作。
132.根据至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的一个候选框信息,其中,候选框信息包括候选框的置信度和位置信息。针对至少一个待检测对象中的每个待检测对象,在确定与待检测对象对应的候选框的置信度大于或等于与待检测对象对应的候选框的预定置信度的情况下,根据与待检测对象对应的候选框的位置信息,确定与待检测对象对应的目标检测信息。
133.图8示意性示出了根据本公开实施例的匹配方法的示例示意图。
134.如图8所示,在800中,黑色的虚线框代表真值框,灰色的虚线框代表匹配上该真值框的锚框(即候选框),黑色的实线框代表没有匹配上的锚框。
135.左边的是传统的ssd网络的一对多的匹配方法,待匹配的锚框28、锚框30、锚框31和锚框32需要满足和真值框29的iou(intersection over union,重叠度)大于0.5即意味着匹配成功。左边图中的锚框28、锚框30、锚框31都匹配成功,只有锚框32匹配失败。
136.右边的是本公开提供的一对一的匹配方法,匹配的方式不仅仅由锚框和真值框的iou决定,它的决定因子还包含了锚框与真值框的分类损失,和锚框与真值框的欧式距离损失。其中,分类损失是由focal loss决定的,位置损失是由iou和欧式距离共同决定的。这些通过赋予一定的权值加到一起的总损失决定了待匹配的锚框33、锚框34、锚框35和锚框36与真值框35的匹配代价。最后,根据每一个匹配代价,通过匈牙利匹配算法,每个真值都能得到一个与它匹配的候选锚框,也就是训练过程中真值框35有且仅有一个匹配的锚框36。最后,使用focal loss消除正负样本不均衡的影响,使用sigmoid概率预测函数代替soft-max概率预测函数。
137.根据本公开的实施例,非极大值抑制后处理(non-maximum suppression,nms)可以用于目标检测冗余框的后处理过程。一般情况下,在图像中可能存在多个待检测对象的情况。第一,计算所有预测框的面积;第二,根据所有预测框的得分对它们进行排序;第三,保留最高得分所在的预测框的索引,计算其和剩余预测框的交集;第四,求得分高的预测框与其余预测框的交并比iou;第五,保留iou小于阈值的那部分的候选框,原因是iou越大,表明其和最高得分预测框的重合度越大,应该去除;第六,去除最高的概率框,返回第三步,挑选剩下的框中的最高得分框,直到iou小于阈值的那部分预测框的数量为0。
138.根据本公开的实施例,如果想从算法的训练层面上避免非极大值抑制后处理,需要从两个方面做。第一,减少冗余的高概率得分框,保证对于每个待检测的目标,仅生成一个高概率的检测框。第二,增大候选框之间的得分差距,保证高概率得分接近1,抑制低概率得分接近0,这样可以保证阈值过滤后不会存在冗余的检测框。分析ssd网络生成大量冗余框的原因得到,其正样本锚框的选取方法是图8中左图所示的一对多的匹配方法,造成了后续大量冗余框。
139.图9示意性示出了根据本公开实施例的候选框的直方图的示例示意图。
140.如图9所示,在900中,示意性示出了无需非极大值抑制后处理的匹配方法的优势示意图。由于传统的ssd网络是一对多的匹配方法,每个真值框都匹配大于等于1个锚框,所以经过训练后的网络,会得到很多高概率的置信度得分的框,如左图中的39,这些高概率得分框分布在距离真值框很近的位置,同时他们的位置和概率也都很接近。仅使用一个阈值40为了消除图中38的重叠框,非极大值抑制必不可少。而使用本公开提供的方法,在推理阶段置信度分数差距明显,只有几个高概率得分42和剩下的较低置信度得分框。只使用一个阈值43就能够将它们进行区分,直接得到正确的输出41,无需非极大值抑制后处理。
141.根据本公开的实施例,由传感器输出的彩色滤波阵列图像直接经本发明提供的目标检测网络,无需专门的去马赛克处理,无需专门的非极大值抑制后处理,由一个简单的阈值过滤直接输出待检测目标的位置坐标和置信度得分。本公开的检测结果增大了高概率候选框和低概率候选框之间的得分差距,从算法层面上避免了专用的非极大值抑制后处理专用电路的设计,有利于硬件平台的实现。
142.根据本公开的实施例,彩色滤波阵列的轻量化目标检测网络能够在不进行马赛克预处理的情况下,实现高精度、高速、低计算量的目标检测任务。同时,基于无需非极大值抑制后处理的训练方法,该网络可以直接得到与待检测目标个数一致的高概率候选框,通过简单的阈值判断就能得到正确的坐标框并直接标注在彩色滤波阵列图像上。
143.根据本公开的实施例,操作s210可以包括如下操作。
144.利用通道重排层处理彩色滤波阵列图像,得到第一中间特征图,其中,通道重排特征层的目标权重参数为对原始权重参数进行量化得到的,通道重排层的目标偏置参数为对原始偏置参数进行量化得到的。原始权重参数是单精度32位浮点格式的参数,目标权重参数是有符号8位整数格式的参数。目标偏置参数是有符合16位整数格式的参数。第一中间特征图是有符号8位整数格式的参数。
145.根据本公开的实施例,除了第一中间特征图,本公开实施例涉及的其他中间特征图可以采用与第一中间特征图同样的数据格式。用于获得其他中间特征图的模型结构的模型参数可以采用与通道重排层的模型参数同样的处理方式。模型参数可以包括权重参数和偏置参数。
146.图10示意性示出了根据本公开实施例的饱和量化方法的结构示意图。
147.量化是从单精度32位浮点数到8位则整数的映射。本公开的量化使用的是对称线性后训练量化方法,单精度32位浮点数只需要一个缩放因子,直接压缩或拉伸并四舍五入到8位有符号整数范围内。一般来说,量化误差由两部分构成,一个是由于浮点参数到整数之间的四舍五入造成的量化误差,另一个是由于浮点参数的分布存在一些离群值,对这些离群值进行饱和截断会造成一个截断误差。这两部分的误差加到一起就是量化误差。
148.本公开提供的量化方法的初始缩放因子是一种逐层选取的缩放因子,采用了区间搜索的方法。首先,根据浮点参数的最大绝对值确定缩放因子选择区间的下限。接着,假设目标检测网络的参数符合高斯分布,统计出其标准差和均值。选择三个标准差的节点对参数进行饱和截断,求出来一个缩放因子的最大值,也是缩放因子选择区间的上限。通过对缩放因子的区间内均匀采样,计算每一层的伪量化计算的特征层和浮点参数的特征层的最小平方误差损失,求使得最小平方误差损失最小的缩放因子的值,这个值就是饱和量化方法的初始缩放因子。
149.通过上述方法,每一层求出来三个缩放因子,分别是权重的缩放因子,特征层的缩放因子和偏置的缩放因子。相应的,该层输出特征层的伸缩因子与下一层的输入的特征层的缩放因子一致。量化后的大部分计算成本都集中在整数矩阵的乘累加(mac)运算上。通常,具有两个有符号8位整数乘累加的计算单元需要具备32位的寄存器位宽。
150.根据本公开的实施例,本公开提供的饱和截断量化方法,提高16位的寄存器来存储运算结果,能够节省硬件资源。
151.如图10所示,在1000中,weights表示该层的权重45,inputs指该层的输入的特征层47,biases指该层的偏置48,quan_w44、quan_x46和quan_b49分别是权重,输入特征层和偏置对应的量化单元,对浮点参数直接乘缩放因子并进行四舍五入求到对应的有符号8位整数。conv51指卷积层,overflowint16 50和overflowint8053分别指有符号16位和8位整数的溢出统计结果。clip_int16 52和clip_int8 56指的是有符号16位和8位截断结果统计,在该计算单元中统计每一层的溢出的比例。
152.在推理的时候,单精度浮点参数经过量化单元44、量化单元46和量化单元49得到有符号8位的整数,经过卷积计算得到16位的计算结果,再加上16位的量化后的偏置参数,再经过乘子54和移位55得到最终的8位有符号输出特征层的结果。
153.根据本公开的实施例,饱和量化的计算过程可以包括操作s1001~s1008。
154.在操作s1001,由上述中的对称线性量化求到初始的每一层的初始区间的最小缩
放因子。
155.在操作s1002,根据统计结果对浮点参数进行截断,求到每一层的区间的最大缩放因子。
156.在操作s1003,最小化每一层的平方误差损失函数,按照区间搜索的方法,计算每一层的浮点参数和伪量化的输出特征层的平方误差损失函数。
157.在操作s1004,求最小的平方误差损失函数对应的缩放因子的值,包括权重,输入特征层和偏置。
158.在操作s1005,根据第四步求得每一层得缩放因子,对输入特征,权重和偏置进行量化,并求出整数计算的卷积计算的结果。
159.在操作s1006,根据卷积计算的整数结果,做16位饱和截断,统计截断所占的比例,通过溢出模块的负反馈机制调整缩放因子的值,并作用于权重和输入上面
160.在操作s1007,加上偏置以后通过乘法和移位计算后得到的输出有符号整数的特征层也要计算其8位饱和截断,统计截断所占的比例,通过溢出模块调整偏置的缩放因子。
161.在操作s1008,重复该迭代过程,直到找到满足约束值的优化后的缩放因子的值。在本实例中。约束值为5%,调整伸缩因子的的值为0.5。
162.根据本公开的实施例,量化方法将单精度32位浮点数对称线性映射为定点有符号8位整数,每一个映射函数使用一个缩放因子。量化后的大部分计算成本都集中在整数矩阵的乘法累加计算中,传统的8位整数乘累加需要32寄存器来防止溢出。本公开提供的16位饱和量化方法对每层缩放因子进行截断、移位处理,保证乘累加后的寄存器数值溢出范围小于5%,使用16位累加器完成8位乘累加计算,有效节省硬件资源。
163.根据本公开的实施例,通过本公开提供的饱和量化方法,首先使用线性映射将单精度浮点参数量化为定点8位整数,再进一步降低所需的硬件寄存器的位宽,使用16位寄存器来进行乘累加计算,将8位乘累加结果约束在16位寄存器中,通过调整每一层的比例因子来防止溢出,最终实现16位寄存器保存乘累加结果,保证其溢出值小于约束值,节省硬件资源和计算开销,提高神经网络推理过程的速度。
164.根据本公开的实施例,基于图像传感器直接输出彩色滤波阵列图像的目标检测,具有高速、轻量化、准确率高的优势,可应用于多种嵌入式边缘端高速视觉目标检测系统。
165.图11示意性示出了根据本公开实施例的目标检测模型的训练方法的流程图。
166.如图11所示,该方法1100包括操作s1110~s1150。
167.在操作s1110,对样本彩色滤波阵列图像进行通道重排,得到第一样本中间特征图。
168.在操作s1120,根据第一样本中间特征图,得到第二样本中间特征图。
169.在操作s1130,根据第二样本中间特征图,得到至少一个尺度的第三样本中间特征图。
170.在操作s1140,根据至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的样本检测信息。
171.在操作s1150,利用与至少一个样本检测对象各自对应的样本检测信息和样本标签信息训练深度学习模型,得到目标检测模型。
172.根据本公开的实施例,针对样本彩色滤波阵列图像、第一样本中间特征图、第二样
本中间特征图、第三样本中间特征图和样本检测信息的说明,可以参见上文针对彩色滤波阵列图像、第一中间特征图、第二中间特征图、第三中间特征图和检测信息的相关内容,在此不再赘述。
173.根据本公开的实施例,操作s1240可以包括如下操作。
174.根据至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的多个样本候选框信息,其中,样本候选框信息包括样本候选框的样本置信度、样本位置信息和样本分类信息。根据与至少一个样本检测对象各自对应的多个样本候选框信息,得到与至少一个样本检测对象各自对应的样本检测信息。
175.图12示意性示出了根据本公开实施例的目标检测过程的示例示意图。
176.如图12所示,在1200中,目标检测模型的架构基于ssd网络,主干网络使用融合了彩色滤波阵列预处理块4(即cfa-rpb)和mobilenet-v1网络搭建。备选地,mobilenet-v1主干网络可以按照搭建规则替换成mobilenet-v2网络。同时,图12提供的本公开的一个实施例,以帮助本领域技术人员理解本发明的技术内容,但不限于本实施例,也可以用于其他主干网络和框架的搭建。
177.在1200中,神经网络采用典型的单阶段ssd(single shot multibo12 detector)检测网络框架,主要包含融合彩色滤波阵列预处理块4的主干网络2和两个检测头8,处理来自图像传感器直接输出的彩色滤波阵列图像1并生成在不同尺度下的预测结果12。
178.该网络的输入为cmos图像传感器直接采集到的彩色滤波阵列图像1,彩色滤波阵列图像1属于“马赛克”的图像。对于近传感糯嵌入视觉处理器的边缘端应用场景来说,传感器采集到的图像直接送入视觉处理器能够节约硬件资源,提高检测速度,保证目标检测的计算实时性。
179.主干网络2基于mobilenet-v1和mobilenet-v2网络构建,融合彩色滤波阵列预处理块4构成新颖主干网络第一层,其余各层网络3均为原来网络的去除全连接层的mobilenet-v1和mobilenet-v2网络。上述方案中,彩色滤波阵列预处理块4包括focus层、残差连接和深度可分离卷积,彩色滤波阵列图像1首先由focus层对rggb信息重排转换为1/2分辨率下采样的图像,保留图像所有信息,再经过残差连接融合不同尺度的颜色和几何特征,提高网络特征提取能力。
180.可以将彩色滤波阵列图像1直接送入目标检测模型中,经过彩色滤波阵列预处理块4,mobilenet-v1主干网络充分提取特征。根据预先由数据集的真值坐标信息聚类得到的anchor候选锚框的大小和比例,分别对三个深浅不一的特征层做检测5。浅层特征,具有小的感受野,有利于检测小物体。深层特征具有大的感受野,有利于检测大物体。对于每一个特征层,都进行置信度预测6和位置预测7。
181.检测头8包括置信度预测头6和位置预测头7,每个置信度预测头6和位置预测头7都由四层深度可分离卷积构成,每一层深度可分离卷积都分为一层depth-wise卷积和一层point-wise卷积,最后一层point-wise卷积分别对应到置信度分数的输出9和位置坐标的输出10。
182.由于检测物体的大小分布不均匀,利用聚类统计生成k个合适的锚框大小。待检测的特征层分别与锚框大小和感受野做匹配,分别在主干网络中挑选三个不同深度的特征层5进行置信度预测6和位置预测7,分别对应小尺寸物体和大尺寸物体检测。最后,这三个特
征层的输出位置坐标的结果为(k,4),置信度得分结果为(k,1),k为锚框总数。
183.可以得到k个置信度的得分9和k个位置坐标10,k为anchor的聚类个数,也就是锚框的个数。由于本发明提供了一种无需非极大值抑制的训练方法,候选框的置信度概率得分差距显著,后续使用一个阈值判断11,过滤掉概率低的候选框,得到最终的输出结果12。
184.上述方案中,所述彩色滤波阵列图像1为单通道的彩色滤波阵列图像,其输入大小为256
×
256,经过神经网络和阈值过滤后的输出结果12直接作用于彩色滤波阵列图像1,无去马赛克处理。对于检测头输出的置信度得分9和位置坐标10,使用阈值过滤11置信度得分低的候选框,留下与待检测目标个数一致的坐标框,无需非极大值抑制后处理。该目标检测网络基于mobilenet-v1、mobilenet-v2和ssd网络构建,紧凑轻量化,高速神经网络,实现遥感舰船检测和人脸检测。该目标检测网络能够直接对传感器输出的原始图像进行高速的目标检测,相比于传统的检测方法具有高速,轻量化,无需去马赛克预处理和非极大值抑制后处理的优势。
185.根据本公开的实施例,基于ssd目标检测框架,结合mobilenet-v1和mobilenet-v2网络和彩色滤波阵列预处理块构建新颖的主干网络,结合上面所述的无需非极大值抑制后处理的训练方法和饱和量化方法,分别对这两个实例网络进行训练和量化,分别应用于目标检测任务。通过通道剪枝和量化,该两个实例目标检测网络分别基于airbus数据集和wider-face数据集实现舰船检测和人脸检测任务,模型参数分别为473kb和648kb。最后,将量化后的有符号8位的网络模型在一款边缘端视觉芯片上进行实现,直接处理来自传感器采集到的bayer阵列格式的彩色滤波阵列图像。基于600mhz的运行频率下,两个目标检测网络分别达到了624fps和259fps的检测速度。
186.根据本公开的实施例,本公开提出的能够直接进行彩色滤波阵列图像的轻量化目标检测模型,能够能够直接对彩色滤波阵列进行目标检测,无需专门的去马赛克预处理,无需非极大值抑制后处理和相应的饱和量化方法。在彩色滤波阵列图像的舰船检测和人脸检测中,保证其精度与原来的将其恢复成rgb彩色图像,再进行目标检测的精度基本一致。同时,该目标检测模型是基于轻量化的mobilenet-v1,mobilenet-v2和ssd网络构建的,保证了其参数量和计算量较小,更利于传感器内嵌视觉处理器的边缘端硬件平台落地实现。
187.根据本公开的实施例,样本标签信息包括样本真实框的样本位置标签信息和样本分类标签信息。
188.根据本公开的实施例,操作s1250可以包括如下操作。
189.基于交并比损失函数,根据与至少一个样本检测对象各自对应的多个样本候选框的样本位置信息和与至少一个样本检测对象各自对应的样本位置标签信息,确定第一损失函数值。基于距离损失函数,根据与至少一个样本检测对象各自对应的多个样本候选框的样本位置信息和与至少一个样本检测对象各自对应的样本位置标签信息,确定第二损失函数值。基于分类损失函数,根据与至少一个样本检测对象各自对应的多个样本候选框的样本分类信息和与至少一个样本检测对象各自对应的样本分类标签信息,确定第三损失函数值。根据第一损失函数值、第二损失函数值和第三损失函数值调整深度学习模型的模型参数,得到目标检测模型。
190.根据本公开的实施例,由于无需极大值抑制后处理的训练方法能够分别计算每一个锚框和真值得分,与传统ssd网络只使用候选框与真值的交并比(iou)计算匹配的锚框不
同,该目标检测网络使用分类损失和iou损失结合,对每一个候选框和真值都计算一个匹配的代价损失,使用匈牙利算法挑选置信度最优的锚框。该训练方法实现一对一的匹配,保证每一个待检测的物体生成一个概率高的候选框。同时,抑制剩余的负样本锚框,使用一对一的锚框匹配,训练过程中对每一个真值挑选最优的匹配候选框,增大匹配和未匹配候选框的置信度得分差距,推理过程中生成与检测目标个数一致的高概率候选框,后续使用阈值11过滤低概率候选框,得到输出结果12。
191.图13示意性示出了根据本公开的实施例的目标检测装置的框图。
192.如图13所示,目标检测装置1300可以包括第一通道重排模块1310、第一获得模块1320、第二获得模块1330和第三获得模块1340。
193.第一通道重排模块1310,用于对彩色滤波阵列图像进行通道重排,得到第一中间特征图。
194.第一获得模块1320,用于根据第一中间特征图,得到第二中间特征图。
195.第二获得模块1330,用于根据第二中间特征图,得到至少一个尺度的第三中间特征图。
196.第三获得模块1340,用于根据至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息。
197.根据本公开的实施例,第一获得模块1320可以包括普通卷积处理子模块、第一获得子模块、第二获得子模块、第三获得子模块和第四获得子模块。
198.普通卷积处理子模块,用于对第一中间特征图进行普通卷积处理,得到第四中间特征图。
199.第一获得子模块,用于根据第二中间特征图和第四中间特征图,得到第五中间特征图。
200.第二获得子模块,用于根据第五中间特征图,得到第六中间特征图。
201.第三获得子模块,用于根据第二中间特征图和第六中间特征图,得到第七中间特征图。
202.第四获得子模块,用于根据第七中间特征图,得到第二中间特征图。
203.根据本公开的实施例,第二获得子模块可以包括深度卷积处理单元、第一获得单元、逐点卷积处理单元和第二获得单元。
204.深度卷积处理单元,用于对第五中间特征图进行深度卷积处理,得到第八中间特征图。
205.第一获得单元,用于根据第八中间特征图,得到第九中间特征图。
206.逐点卷积处理单元,用于对第九中间特征图进行逐点卷积处理,得到第十中间特征图。
207.第二获得单元,用于根据第十中间特征图,得到第六中间特征图。
208.根据本公开的实施例,第一获得模块1320可以包括第五获得子模块、残差卷积处理子模块、第六获得子模块和第七获得子模块。
209.第五获得子模块,用于根据第一中间特征图,得到与n个层级各自对应的第十一中间特征图,其中,n是大于1的整数。
210.残差卷积处理子模块,用于对与n个层级各自对应的第十一中间特征图进行残差
卷积处理,得到与n个层级各自对应的第十二中间特征图。
211.第六获得子模块,用于根据与n个层级各自的第十一中间特征图和与n-1个层级各自对应的第十二中间特征图,得到与n-1个层级各自对应的第十三中间特征图。
212.第七获得子模块,用于根据第1层级的第十三中间特征图,得到第二中间特征图。
213.根据本公开的实施例,在1<n≤n的情况下,第五获得子模块可以包括第三获得单元、第四获得单元、第五获得单元和第六获得单元。
214.第三获得单元,用于根据第n-1个层级的第十一中间特征图,得到第n个层级的第十四中间特征图。
215.第四获得单元,用于根据第n-1个层级的第十一中间特征图和第n个层级的第十四中间特征图,得到第n个层级的第十五中间特征图。
216.第五获得单元,用于根据第n个层级的第十五中间特征图,得到第n个层级的第十六中间特征图。
217.第六获得单元,用于根据第n-1个层级的第十一中间特征图和第n个层级的第十六中间特征图,得到第n个层级的第十一中间特征图。
218.根据本公开的实施例,n是大于或等于1且小于或等于n的整数,第1层级的第十一中间特征图是第一中间特征图。
219.根据本公开的实施例,第三获得单元可以包括深度卷积处理子单元和逐点卷积处理子单元。
220.深度卷积处理子单元,用于对第n-1个层级的第十一中间特征图进行深度卷积处理,得到第n个层级的第十七中间特征图。
221.逐点卷积处理子单元,用于对第n个层级的第十七中间特征图进行逐点卷积处理,得到第n个层级的第十四中间特征图。
222.根据本公开的实施例,第六获得子模块可以包括第七获得单元和第八获得单元。
223.第七获得单元,用于在n=n-1的情况下,根据第n个层级的第十一中间特征图和第n-1个层级的第十二中间特征图,得到第n-1个层级的第十三中间特征图。
224.第八获得单元,用于在1≤n<n-1的情况下,根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十三中间特征图。
225.根据本公开的实施例,第八获得单元可以包括第一获得子单元、第二获得子单元和第三获得子单元。
226.第一获得子单元,用于根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十八中间特征图。
227.第二获得子单元,用于根据第n个层级的第十八中间特征图,得到第n个层级的第十九中间特征图。
228.第三获得子单元,用于根据第n+1个层级的第十三中间特征图和第n个层级的第十九中间特征图,得到第n个层级的第十三中间特征图。
229.根据本公开的实施例,第二获得子单元用于执行如下操作。
230.对第n个层级的第十八中间特征图进行深度卷积处理,得到第n个层级的第二十中间特征图。对第n个层级的第二十中间特征图进行逐点卷积处理,得到第n个层级的第二十一中间特征图。对第n个层级的第二十一中间特征图进行深度卷积处理,得到第n个层级的
第二十二中间特征图。对第n个层级的第二十二中间特征图进行逐点卷积处理,得到第n个层级的第十九中间特征图。
231.根据本公开的实施例,残差卷积处理子模块可以包括深度卷积处理单元和第九获得单元。
232.深度卷积处理单元,用于对第n个层级的第十一中间特征图进行深度卷积处理,得到第n个层级的第二十三中间特征图。
233.第九获得单元,用于对第n个层级的第二十三中间特征图进行逐点卷积处理,得到第n个层级的第十二中间特征图。
234.根据本公开的实施例,n是大于或等于1且小于或等于n的整数。
235.根据本公开的实施例,第二获得模块1330可以包括第八获得子模块和第九获得子模块。
236.第八获得子模块,用于在m=1的情况下,根据第二中间特征图,得到第m尺度的第三中间特征图。
237.第九获得子模块,用于在1<m≤m的情况下,根据第m-1尺度的第三中间特征图,得到第m尺度的第三中间特征图。
238.根据本公开的实施例,m是大于或等于1的整数,m是大于或等于1且小于或等于m的整数。
239.根据本公开的实施例,第三获得模块1340可以包括第十获得子模块和第一确定子模块。
240.第十获得子模块,用于根据至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的一个候选框信息,其中,候选框信息包括候选框的置信度和位置信息。
241.第一确定子模块,用于针对至少一个待检测对象中的每个待检测对象,在确定与待检测对象对应的候选框的置信度大于或等于与待检测对象对应的候选框的预定置信度的情况下,根据与待检测对象对应的候选框的位置信息,确定与待检测对象对应的目标检测信息。
242.根据本公开的实施例,第一通道重排模块1310可以包括处理子模块。
243.处理子模块,用于利用通道重排层处理彩色滤波阵列图像,得到第一中间特征图,其中,通道重排特征层的目标权重参数为对原始权重参数进行量化得到的,通道重排层的目标偏置参数为对原始偏置参数进行量化得到的。
244.根据本公开的实施例,原始权重参数是单精度32位浮点格式的参数,目标权重参数是有符号8位整数格式的参数。目标偏置参数是有符合16位整数格式的参数。第一中间特征图是有符号8位整数格式的参数。
245.图14示意性示出了根据本公开的实施例的目标检测模型的训练装置的框图。
246.如图14所示,目标检测模型的训练装置1400可以包括第二通道重排模块1410、第四获得模块1420、第五获得模块1430、第六获得模块1440和训练模块1450。
247.第二通道重排模块1410,用于对样本彩色滤波阵列图像进行通道重排,得到第一样本中间特征图。
248.第四获得模块1420,用于根据第一样本中间特征图,得到第二样本中间特征图。
249.第五获得模块1430,用于根据第二样本中间特征图,得到至少一个尺度的第三样
本中间特征图。
250.第六获得模块1440,用于根据至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的样本检测信息。
251.训练模块1450,用于利用与至少一个样本检测对象各自对应的样本检测信息和样本标签信息训练深度学习模型,得到目标检测模型。
252.根据本公开的实施例,第六获得模块1440可以包括第十一获得子模块和第十二获得子模块。
253.第十一获得子模块,用于根据至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的多个样本候选框信息,其中,样本候选框信息包括样本候选框的样本置信度、样本位置信息和样本分类信息。
254.第十二获得子模块,用于根据与至少一个样本检测对象各自对应的多个样本候选框信息,得到与至少一个样本检测对象各自对应的样本检测信息。
255.根据本公开的实施例,样本标签信息包括样本真实框的样本位置标签信息和样本分类标签信息。
256.根据本公开的实施例,训练模块1450可以包括第二确定子模块、第三确定子模块、第四确定子模块和调整子模块。
257.第二确定子模块,用于基于交并比损失函数,根据与至少一个样本检测对象各自对应的多个样本候选框的样本位置信息和与至少一个样本检测对象各自对应的样本位置标签信息,确定第一损失函数值。
258.第三确定子模块,用于基于距离损失函数,根据与至少一个样本检测对象各自对应的多个样本候选框的样本位置信息和与至少一个样本检测对象各自对应的样本位置标签信息,确定第二损失函数值。
259.第四确定子模块,用于基于分类损失函数,根据与至少一个样本检测对象各自对应的多个样本候选框的样本分类信息和与至少一个样本检测对象各自对应的样本分类标签信息,确定第三损失函数值。
260.调整子模块,用于根据第一损失函数值、第二损失函数值和第三损失函数值调整深度学习模型的模型参数,得到目标检测模型。
261.根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
262.例如,第一通道重排模块1310、第一获得模块1320、第二获得模块1330和第三获得模块1340中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的
1503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom 1502和ram 1503以外的一个或多个存储器中。处理器1501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
269.根据本公开的实施例,电子设备1500还可以包括输入/输出(i/o)接口1505,输入/输出(i/o)接口1505也连接至总线1504。电子设备1500还可以包括连接至输入/输出(i/o)接口1505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1507;包括硬盘等的存储部分1508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1509。通信部分1509经由诸如因特网的网络执行通信处理。驱动器1510也根据需要连接至输入/输出(i/o)接口1505。可拆卸介质1511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1510上,以便于从其上读出的计算机程序根据需要被安装入存储部分1508。
270.根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1509从网络上被下载和安装,和/或从可拆卸介质1511被安装。在该计算机程序被处理器1501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
271.本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
272.根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
273.例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom 1502和/或ram 1503和/或rom 1502和ram 1503以外的一个或多个存储器。
274.本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的目标检测方法和目标检测模型的训练方法。
275.在该计算机程序被处理器1501执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
276.在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分
发,并通过通信部分1509被下载和安装,和/或从可拆卸介质1511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
277.根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c++,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
278.附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
279.以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

技术特征:
1.一种目标检测方法,包括:对彩色滤波阵列图像进行通道重排,得到第一中间特征图;根据所述第一中间特征图,得到第二中间特征图;根据所述第二中间特征图,得到至少一个尺度的第三中间特征图;以及根据所述至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息。2.根据权利要求1所述的方法,其中,所述根据所述第一中间特征图,得到第二中间特征图,包括:对所述第一中间特征图进行普通卷积处理,得到第四中间特征图;根据所述第二中间特征图和所述第四中间特征图,得到第五中间特征图;根据所述第五中间特征图,得到第六中间特征图;根据所述第二中间特征图和所述第六中间特征图,得到第七中间特征图;以及根据所述第七中间特征图,得到所述第二中间特征图。3.根据权利要求2所述的方法,其中,所述根据所述第五中间特征图,得到第六中间特征图,包括:对所述第五中间特征图进行深度卷积处理,得到第八中间特征图;根据所述第八中间特征图,得到第九中间特征图;对所述第九中间特征图进行逐点卷积处理,得到第十中间特征图;以及根据所述第十中间特征图,得到所述第六中间特征图。4.根据权利要求1所述的方法,其中,所述根据所述第一中间特征图,得到第二中间特征图,包括:根据所述第一中间特征图,得到与n个层级各自对应的第十一中间特征图,其中,n是大于1的整数;对与所述n个层级各自对应的第十一中间特征图进行残差卷积处理,得到与所述n个层级各自对应的第十二中间特征图;根据与所述n个层级各自的第十一中间特征图和与n-1个层级各自对应的第十二中间特征图,得到与所述n-1个层级各自对应的第十三中间特征图;以及根据第1层级的第十三中间特征图,得到所述第二中间特征图。5.根据权利要求4所述的方法,其中,所述根据所述第一中间特征图,得到与n个层级各自对应的第十一中间特征图,包括:在1<n≤n的情况下,根据第n-1个层级的第十一中间特征图,得到第n个层级的第十四中间特征图;根据所述第n-1个层级的第十一中间特征图和所述第n个层级的第十四中间特征图,得到第n个层级的第十五中间特征图;根据所述第n个层级的第十五中间特征图,得到第n个层级的第十六中间特征图;以及根据所述第n-1个层级的第十一中间特征图和所述第n个层级的第十六中间特征图,得到第n个层级的第十一中间特征图;其中,n是大于或等于1且小于或等于n的整数,第1层级的第十一中间特征图是所述第一中间特征图。
6.根据权利要求5所述的方法,其中,所述根据第n-1个层级的第十一中间特征图,得到第n个层级的第十四中间特征图,包括:对所述第n-1个层级的第十一中间特征图进行深度卷积处理,得到第n个层级的第十七中间特征图;以及对所述第n个层级的第十七中间特征图进行逐点卷积处理,得到所述第n个层级的第十四中间特征图。7.根据权利要求4所述的方法,其中,所述根据与所述n个层级各自的第十一中间特征图和与所述n-1个层级各自对应的第十二中间特征图,得到与所述n-1个层级各自对应的第十三中间特征图,包括:在n=n-1的情况下,根据第n个层级的第十一中间特征图和第n-1个层级的第十二中间特征图,得到第n-1个层级的第十三中间特征图;在1≤n<n-1的情况下,根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十三中间特征图。8.根据权利要求7所述的方法,其中,所述根据第n+1个层级的第十三中间特征图和第n个层级的第十二中间特征图,得到第n个层级的第十三中间特征图,包括:根据所述第n+1个层级的第十三中间特征图和所述第n个层级的第十二中间特征图,得到第n个层级的第十八中间特征图;根据所述第n个层级的第十八中间特征图,得到第n个层级的第十九中间特征图;以及根据所述第n+1个层级的第十三中间特征图和所述第n个层级的第十九中间特征图,得到所述第n个层级的第十三中间特征图。9.根据权利要求8所述的方法,其中,所述根据所述第n个层级的第十八中间特征图,得到第n个层级的第十九中间特征图,包括:对所述第n个层级的第十八中间特征图进行深度卷积处理,得到第n个层级的第二十中间特征图;对所述第n个层级的第二十中间特征图进行逐点卷积处理,得到第n个层级的第二十一中间特征图;对所述第n个层级的第二十一中间特征图进行深度卷积处理,得到第n个层级的第二十二中间特征图;以及对所述第n个层级的第二十二中间特征图进行逐点卷积处理,得到所述第n个层级的第十九中间特征图。10.根据权利要求4所述的方法,其中,所述对与所述n个层级各自对应的第十一中间特征图进行残差卷积处理,得到与所述n个层级各自对应的第十二中间特征图,包括:对第n个层级的第十一中间特征图进行深度卷积处理,得到第n个层级的第二十三中间特征图;以及对所述第n个层级的第二十三中间特征图进行逐点卷积处理,得到所述第n个层级的第十二中间特征图;其中,n是大于或等于1且小于或等于n的整数。
11.根据权利要求1~10中任一项所述的方法,其中,所述根据所述第二中间特征图,得到至少一个尺度的第三中间特征图,包括:在m=1的情况下,根据所述第二中间特征图,得到第m尺度的第三中间特征图;在1<m≤m的情况下,根据第m-1尺度的第三中间特征图,得到第m尺度的第三中间特征图;其中,m是大于或等于1的整数,m是大于或等于1且小于或等于m的整数。12.根据权利要求1所述的方法,其中,所述根据所述至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息,包括:根据所述至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的一个候选框信息,其中,所述候选框信息包括候选框的置信度和位置信息;针对至少一个待检测对象中的每个待检测对象,在确定与所述待检测对象对应的候选框的置信度大于或等于与所述待检测对象对应的候选框的预定置信度的情况下,根据与所述待检测对象对应的候选框的位置信息,确定与所述待检测对象对应的目标检测信息。13.根据权利要求1所述的方法,其中,所述对彩色滤波阵列图像进行通道重排,得到第一中间特征图,包括:利用通道重排层处理所述彩色滤波阵列图像,得到所述第一中间特征图,其中,所述通道重排特征层的目标权重参数为对原始权重参数进行量化得到的,所述通道重排层的目标偏置参数为对原始偏置参数进行量化得到的;其中,所述原始权重参数是单精度32位浮点格式的参数,所述目标权重参数是有符号8位整数格式的参数;其中,所述目标偏置参数是有符合16位整数格式的参数;其中,所述第一中间特征图是有符号8位整数格式的参数。14.一种目标检测模型的训练方法,包括:对样本彩色滤波阵列图像进行通道重排,得到第一样本中间特征图;根据所述第一样本中间特征图,得到第二样本中间特征图;根据所述第二样本中间特征图,得到至少一个尺度的第三样本中间特征图;根据所述至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的样本检测信息;以及利用与所述至少一个样本检测对象各自对应的样本检测信息和样本标签信息训练深度学习模型,得到所述目标检测模型。15.根据权利要求14所述的方法,其中,所述根据所述至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的样本检测信息,包括:根据所述至少一个尺度的第三样本中间特征图,得到与至少一个样本检测对象各自对应的多个样本候选框信息,其中,所述样本候选框信息包括样本候选框的样本置信度、样本位置信息和样本分类信息;以及根据与所述至少一个样本检测对象各自对应的多个样本候选框信息,得到与所述至少一个样本检测对象各自对应的样本检测信息。
16.根据权利要求15所述的方法,其中,所述样本标签信息包括样本真实框的样本位置标签信息和样本分类标签信息;其中,所述利用与所述至少一个样本检测对象各自对应的样本检测信息和样本标签信息训练深度学习模型,得到所述目标检测模型,包括:基于交并比损失函数,根据与所述至少一个样本检测对象各自对应的多个样本候选框的样本位置信息和与所述至少一个样本检测对象各自对应的样本位置标签信息,确定第一损失函数值;基于距离损失函数,根据与所述至少一个样本检测对象各自对应的多个样本候选框的样本位置信息和与所述至少一个样本检测对象各自对应的样本位置标签信息,确定第二损失函数值;基于分类损失函数,根据与所述至少一个样本检测对象各自对应的多个样本候选框的样本分类信息和与所述至少一个样本检测对象各自对应的样本分类标签信息,确定第三损失函数值;以及根据所述第一损失函数值、所述第二损失函数值和所述第三损失函数值调整所述深度学习模型的模型参数,得到所述目标检测模型。17.一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1~16中任一项所述的方法。18.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1~16中任一项所述的方法。19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1~16中任一项所述的方法。

技术总结
本公开提供了一种目标检测方法、目标检测模型的训练方法以及电子设备,可以应用于人工智能、计算机视觉、图像识别、图像传感器、模型压缩和目标检测技术领域。该目标检测方法包括:对彩色滤波阵列图像进行通道重排,得到第一中间特征图;根据第一中间特征图,得到第二中间特征图;根据第二中间特征图,得到至少一个尺度的第三中间特征图;以及,根据至少一个尺度的第三中间特征图,得到与至少一个待检测对象各自对应的目标检测信息。对象各自对应的目标检测信息。对象各自对应的目标检测信息。


技术研发人员:徐萌萌 刘力源 赵明心 文宇骁 刘剑 吴南健
受保护的技术使用者:中国科学院半导体研究所
技术研发日:2023.05.19
技术公布日:2023/10/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐