物体检测装置、监视装置、学习装置以及模型生成方法与流程

未命名 09-08 阅读:115 评论:0


1.本公开涉及物体检测装置、监视装置、学习装置以及模型生成方法。


背景技术:

2.以往,开发了如下技术:使用通过深度学习来自由学习的卷积神经网络(以下有时记载为“cnn”。),实时地检测由摄像机摄像的视频中的各个物体。即,开发了如下技术:推测各个物体的位置,并且推测各个物体的种类。例如,开发了ssd(single shot multibox detector,单发多盒探测器)、yolo(you only look once,你只看一眼)以及faster(快速)r-cnn(region-based convolutional neural network,基于区域的卷积神经网络)。在非专利文献1中公开了ssd。
3.现有技术文献
4.非专利文献1:wei liu,dragomir anguelov,dumitru erhan,christian szegedy,scott reed,cheng-yang fu,alexander c.berg,"ssd:single shot multibox detector,"v5,29dec 2016,https://arxiv.org/pdf/1512.02325v5.pdf


技术实现要素:

5.在以往的物体检测(object detection,对象检测)中,使用了深度的cnn。因此,主要由于池化,空间上的信息会消失。其结果,特别是在图像中的物体的尺寸小时,具有在技术上难以推测上述物体的位置这样的问题。即,具有在技术上难以检测小的物体这样的问题。
6.在此,在以往的物体检测中,考虑通过增大各个特征映射图的尺寸来应对小的物体的检测。然而,通过在深度的cnn中增大各个特征映射图的尺寸,从而运算量会爆发性地增加。因此,上述方法并不现实。
7.本公开是为了解决如上所述的课题而完成的,其目的在于实现小的物体的检测。
8.本公开所涉及的物体检测装置具备:图像数据取得部,取得表示由摄像机摄像得到的摄像图像的图像数据;第1特征量抽出部,使用图像数据来生成第1特征映射图;第2特征量抽出部,使用图像数据来生成第2特征映射图,并且针对该第2特征映射图进行使用了第1特征映射图的加法或者乘法而进行针对该第2特征映射图的加权,从而生成第3特征映射图;以及物体检测部,使用第3特征映射图来检测摄像图像中的物体,第1特征映射图中的第1特征量是使用了与物体相似性对应的中级别特征的特征量,第2特征映射图中的第2特征量是使用了高级别特征的特征量。
9.根据本公开,由于如上所述构成,所以能够实现小的物体的检测。
附图说明
10.图1是示出包括实施方式1所涉及的物体检测装置的物体检测系统的主要部分(main part)的框图。
11.图2是示出实施方式1所涉及的物体检测装置中的第1特征量抽出部、第2特征量抽出部以及物体检测部的主要部分的框图。
12.图3是示出由实施方式1所涉及的物体检测装置中的物体检测部分类的类别的例子的说明图。
13.图4是示出包括实施方式1所涉及的学习装置的学习系统的主要部分的框图。
14.图5是示出实施方式1所涉及的物体检测装置的主要部分的硬件结构的框图。
15.图6是示出实施方式1所涉及的物体检测装置的主要部分的其他硬件结构的框图。
16.图7是示出实施方式1所涉及的学习装置的主要部分的硬件结构的框图。
17.图8是示出实施方式1所涉及的学习装置的主要部分的其他硬件结构的框图。
18.图9是示出实施方式1所涉及的物体检测装置的动作的流程图。
19.图10是示出实施方式1所涉及的学习装置的动作的流程图。
20.图11是示出第1神经网络的构造的说明图。
21.图12是示出各个显著性块层(saliency block layer)的构造的说明图。
22.图13是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的影像的图。
23.图14是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的其他影像的图。
24.图15是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的其他影像的图。
25.图16是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的其他影像的图。
26.图17是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的其他影像的图。
27.图18是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的其他影像的图。
28.图19是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的其他影像的图。
29.图20是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的其他影像的图。
30.图21是用于说明在显著性块层中针对各个第2特征映射图进行加权而生成第3特征映射图的其他影像的图。
31.图22是示出摄像图像的例子的说明图。
32.图23是示出与显著性映射图对应的特征图的例子的说明图。
33.图24是示出与多个特征映射图中的第1特征映射图对应的特征图的例子的说明图。
34.图25是示出与多个第3特征映射图中的第1第3特征映射图对应的特征图的例子的说明图。
35.图26是示出比较用的物体检测装置的检测结果的例子的说明图。
36.图27是示出实施方式1所涉及的物体检测装置的检测结果的例子的说明图。
37.图28是示出比较用的物体检测装置的检测精度的例子、以及实施方式1所涉及的物体检测装置的检测精度的例子的说明图。
38.图29是示出比较用的物体检测装置的检测精度的其他例子、以及实施方式1所涉及的物体检测装置的检测精度的其他例子的说明图。
39.图30是示出比较用的物体检测装置的检测精度的其他例子、以及实施方式1所涉及的物体检测装置的检测精度的其他例子的说明图。
40.图31是示出第1特征映射图生成部使用与各个摄像图像对应的温度图像来生成的、作为第1特征映射图的热映射图的影像的一个例子的图。
41.图32是示出包括实施方式2所涉及的物体检测装置的物体检测系统的主要部分的框图。
42.图33是示出包括实施方式2所涉及的学习装置的学习系统的主要部分的框图。
43.图34是示出实施方式2所涉及的物体检测装置的动作的流程图。
44.图35是示出包括实施方式3所涉及的物体检测装置的物体检测系统的主要部分的框图。
45.图36是示出包括实施方式3所涉及的学习装置的学习系统的主要部分的框图。
46.图37是示出实施方式3所涉及的物体检测装置的动作的流程图。
47.图38是示出包括实施方式4所涉及的监视装置的监视系统的主要部分的框图。
48.图39是示出实施方式4所涉及的监视装置中的解析部以及输出控制部的主要部分的框图。
49.图40是示出风险映射图图像的例子的说明图。
50.图41是示出实施方式4所涉及的监视装置的主要部分的硬件结构的框图。
51.图42是示出实施方式4所涉及的监视装置的主要部分的其他硬件结构的框图。
52.图43是示出实施方式4所涉及的监视装置的动作的流程图。
53.图44是示出包括实施方式4所涉及的其他监视装置的监视系统的主要部分的框图。
54.图45是示出包括实施方式4所涉及的其他监视装置的监视系统的主要部分的框图。
具体实施方式
55.以下,为了更详细地说明本公开,依照所附的附图来说明用于实施本公开的方式。
56.实施方式1
57.图1是示出包括实施方式1所涉及的物体检测装置的物体检测系统的主要部分的框图。图2是示出实施方式1所涉及的物体检测装置中的第1特征量抽出部、第2特征量抽出部以及物体检测部的主要部分的框图。参照图1以及图2,说明包括实施方式1所涉及的物体检测装置的物体检测系统。
58.如图1所示,物体检测系统100包括摄像机1、存储装置2以及物体检测装置200。存储装置2具有特征映射图存储部11。物体检测装置200具有图像数据取得部21、第1特征量抽出部22、第2特征量抽出部23以及物体检测部24。摄像机1例如由监视摄像机、防止犯罪摄像机或者电子后视镜用的摄像机构成。即,摄像机1由视频摄像用的摄像机构成。存储装置2由
存储器构成。
59.以下,以摄像机1由电子后视镜用的摄像机构成的情况的例子为中心而进行说明。在该情况下,摄像机1、存储装置2以及物体检测装置200设置于车辆(未图示)。以下,有时将上述车辆称为“本车辆”。
60.如图2所示,第1特征量抽出部22具有第1特征映射图生成部31。第2特征量抽出部23由第1神经网络nn1构成。第1神经网络nn1具有第2特征映射图生成部32以及第3特征映射图生成部33。物体检测部24由第2神经网络nn2构成。第2神经网络nn2具有位置推测部34以及种类推测部35。
61.图像数据取得部21取得表示由摄像机1摄像的图像的图像数据。即,图像数据取得部21取得表示构成由摄像机1摄像的视频的各个静止图像(以下有时记载为“摄像图像”。)的图像数据。
62.第1特征映射图生成部31使用由图像数据取得部21取得的图像数据,生成与各个摄像图像对应的1个特征映射图(以下称为“第1特征映射图”。)fm1。第1特征映射图fm1由二维状地排列的多个特征量(以下称为“第1特征量”。)构成。各个第1特征量使用了与物体相似性(objectness,似物性)对应的中级别特征(mid-level feature)。
63.在此,中级别特征中的“中级别”是指,与基于人的视觉模型的级别相等的级别。即,上述“中级别”是比在以往的物体检测中使用的特征的级别低的级别。
64.具体而言,例如各个第1特征量是使用了显著性(saliency)的特征量。第1特征映射图生成部31通过执行显著性推测(saliency estimation),生成显著性映射图(saliency map)。此时,第1特征映射图生成部31例如通过与以下的参考文献1所记载的方法同样的方法来生成显著性映射图。即,第1特征映射图生成部31通过与参考文献1所记载的物体检测装置中的图像特征映射图生成部的生成方法同样的生成方法来生成显著性映射图。
65.[参考文献1]
[0066]
国际公开第2018/051459号
[0067]
通过上述方法,使用由图像数据取得部21取得的图像数据,无需经由其他特征映射图而直接地生成显著性映射图。另外,无需使用cnn而生成显著性映射图。
[0068]
第4特征映射图生成部36根据由第1特征映射图生成部31生成的第1特征映射图fm1,生成与该第1特征映射图fm1对应的多个特征映射图(以下称为“第4特征映射图”。)fm4。具体而言,第4特征映射图生成部36进行卷积(convolution),生成多个第4特征映射图fm4。各个第4特征映射图fm4由二维状地排列的多个特征量(以下称为“第4特征量”。)构成。各个第4特征量是使用了中级别特征(middle-level feature)的特征量。
[0069]
第1特征映射图生成部31以及第4特征映射图生成部36是通过无监督学习来自由学习的单元。即,第1特征量抽出部22是通过无监督学习来自由学习的单元。作为上述无监督学习,能够使用公知的各种技术。省略关于这些技术的详细的说明。
[0070]
第2特征映射图生成部32使用由图像数据取得部21取得的图像数据,生成与各个摄像图像对应的多个特征映射图(以下称为“第2特征映射图”。)fm2。各个第2特征映射图fm2由二维状地排列的多个特征量(以下称为“第2特征量”。)构成。各个第2特征量是使用了高级别特征(high-level feature)的特征量。
[0071]
在此,高级别特征中的“高级别”是指,与在以往的物体检测中使用的特征的级别
相等的级别。即,上述“高级别”是比基于人的视觉模型的级别高的级别。
[0072]
具体而言,例如由第1神经网络nn1中的与第2特征映射图生成部32对应的部位构成cnn。通过上述cnn,依次生成多个第2特征映射图fm2。
[0073]
第3特征映射图生成部33通过针对第2特征映射图fm2进行使用了第1特征映射图fm1的加法或者乘法而进行针对第2特征映射图的加权,从而生成基于多个第2特征映射图fm2的多个特征映射图(以下称为“第3特征映射图”。)fm3。
[0074]
以下,说明由第3特征映射图生成部33实施的多个第3特征映射图fm3的生成方法的具体例。
[0075]
《利用加法的生成方法(1)》
[0076]
例如,第3特征映射图生成部33进行将第1特征映射图fm1中的各个第1特征量相加到各个第2特征映射图fm2中的对应的第2特征量的加法。具体而言,第3特征映射图生成部33首先将1个第1特征映射图fm1复制与第2特征映射图fm2的数量相应的数量。然后,第3特征映射图生成部33将复制的第1特征映射图fm1分别与各个第2特征映射图fm2对应起来,并针对每个层,以像素单位进行相加。即,第3特征映射图生成部33将第1特征映射图fm1和第2特征映射图fm2在空间上相加。
[0077]
由此,第3特征映射图生成部33进行使用了第1特征映射图fm1的、针对第2特征映射图fm2的加权。即,第3特征映射图生成部33进行针对各个第2特征映射图fm2中的对应的第2特征量的加权。
[0078]
《利用乘法的生成方法(1)》
[0079]
例如,第3特征映射图生成部33进行将第1特征映射图fm1中的各个第1特征量乘以各个第2特征映射图fm2中的对应的第2特征量的乘法。具体而言,第3特征映射图生成部33首先将1个第1特征映射图fm1复制与第2特征映射图fm2的数量相应的数量。然后,第3特征映射图生成部33将复制的第1特征映射图fm1分别与各个第2特征映射图fm2对应起来,并针对每个层,以像素单位进行相乘。即,第3特征映射图生成部33将第1特征映射图fm1和第2特征映射图fm2在空间上相乘。
[0080]
由此,第3特征映射图生成部33进行使用了第1特征映射图fm1的、针对第2特征映射图fm2的加权。即,第3特征映射图生成部33进行针对各个第2特征映射图fm2中的对应的第2特征量的加权。
[0081]
《利用加法的生成方法(2)》
[0082]
在该生成方法中,前提是第1特征量抽出部22的第4特征映射图生成部36根据由第1特征映射图生成部31生成的第1特征映射图fm1而生成了与该第1特征映射图对应的多个第4特征映射图fm4。
[0083]
例如,第3特征映射图生成部33进行将第4特征映射图fm4中的各个第4特征量相加到与第4特征映射图对应的第2特征映射图fm2中的对应的第2特征量的加法。具体而言,第3特征映射图生成部33将各个第4特征映射图fm4和各个第2特征映射图fm2对应起来,并针对每个层,以像素单位进行相加。即,第3特征映射图生成部33将第4特征映射图fm4和第2特征映射图fm2在空间上相加。
[0084]
由此,第3特征映射图生成部33进行使用了第1特征映射图fm1的、更详细而言使用了利用第1特征映射图fm1来生成的第4特征映射图fm4的、针对第2特征映射图fm2的加权。
即,第3特征映射图生成部33进行针对各个第2特征映射图fm2中的对应的第2特征量的加权。
[0085]
《利用乘法的生成方法(2)》
[0086]
在该生成方法中,也与上述《利用加法的生成方法(2)》同样地,前提是第1特征量抽出部22的第4特征映射图生成部36根据由第1特征映射图生成部31生成的第1特征映射图fm1而生成了与该第1特征映射图对应的多个第4特征映射图fm4。
[0087]
例如,第3特征映射图生成部33进行将第4特征映射图fm4中的各个第4特征量乘以各个第2特征映射图fm2中的对应的第2特征量的乘法。具体而言,第3特征映射图生成部33将各个第4特征映射图fm4和各个第2特征映射图fm2对应起来,并针对每个层,以像素单位进行相乘。即,第3特征映射图生成部33将第4特征映射图fm4和第2特征映射图fm2在空间上相乘。
[0088]
由此,第3特征映射图生成部33进行使用了第1特征映射图fm1的、更详细而言使用了利用第1特征映射图fm1来生成的第4特征映射图fm4的、针对第2特征映射图fm2的加权。即,第3特征映射图生成部33进行针对各个第2特征映射图fm2中的对应的第2特征量的加权。
[0089]
《利用加法的生成方法(3)》
[0090]
例如,第3特征映射图生成部33进行将第1特征映射图fm1在多个第2特征映射图fm2的维度方向上、换言之在通道方向(channel direction)上相加的加法。换言之,第3特征映射图生成部33将第1特征映射图fm1在多个第2特征映射图fm2的维度方向上连结(concatenete)。具体而言,第3特征映射图生成部33将1个第1特征映射图fm1例如复制与第2特征映射图fm2的数量相应的数量。然后,第3特征映射图生成部33将复制的第1特征映射图fm1在多个第2特征映射图fm2的维度方向上相加。
[0091]
由此,第3特征映射图生成部33进行使用了第1特征映射图fm1的针对第2特征映射图fm2的加权。即,第3特征映射图生成部33针对各个第2特征映射图fm2,进行使维度的数增加的加权。
[0092]
第3特征映射图生成部33在上述《利用加法的生成方法(1)》、《利用乘法的生成方法(1)》、《利用加法的生成方法(2)》以及《利用乘法的生成方法(2)》中进行加权时,也可以根据构造类似性(ssim(structual similarity))以及图像类似度相关中的至少一个,设定表示对各个第2特征量赋予的权重的值(以下称为“重要度”。)w。例如,在第3特征映射图生成部33中,ssim指标越大,则将重要度w设定为越大的值。另外,例如在第3特征映射图生成部33中,相关类似度的指标越大,则将重要度w设定为越大的值。
[0093]
通过使用对物体的构造进行评价的ssim指标或者像素单位下的相关类似度的指标来设定重要度w,第3特征映射图生成部33能够提高使用了第3特征映射图fm3的、摄像图像中的物体检测精度。此外,物体检测部24进行使用了第3特征映射图fm3的、摄像图像中的物体的检测。
[0094]
在第3特征映射图生成部33生成第3特征映射图fm3时,在不采用上述《利用加法的生成方法(2)》或者《利用乘法的生成方法(2)》的情况下,第1特征量抽出部22能够成为不具备第4特征映射图生成部36的结构。
[0095]
如上所述,各个第1特征量以及各个第4特征量使用了与物体相似性对应的中级别
特征。因此,通过利用《利用加法的生成方法(1)》、《利用乘法的生成方法(1)》、《利用加法的生成方法(2)》、或者《利用乘法的生成方法(2)》进行加权,各个第2特征量根据对应的物体相似性而被增强。即,与更高的物体相似性对应的第2特征量相比于与更低的物体相似性对应的第2特征量而言相对地被加强。另一方面,与更低的物体相似性对应的第2特征量相比于与更高的物体相似性对应的第2特征量而言相对地被削弱。各个第3特征映射图fm3是基于进行了上述增强的多个特征量(以下有时称为“第3特征量”。)的特征映射图。
[0096]
另外,通过利用《利用加法的生成方法(3)》进行加权,从而在完全确保第2特征映射图fm2的空间上的分辨率而各个层信息独立的状态下,维度的数被增加。各个第3特征映射图fm3是在第2特征映射图fm2的各个第2特征量的空间上的独立被确保的状态下在维度方向上多个特征量(第1特征量)被增强的特征映射图,是基于各个第2特征量以及各个第1特征量的特征映射图。以下,有时将构成通过《利用加法的生成方法(3)》来生成的各个第3特征映射图fm3的各个第2特征量以及各个第1特征量称为“第3特征量”。
[0097]
关于通过上述《利用加法的生成方法(1)》、《利用乘法的生成方法(1)》、《利用加法的生成方法(2)》、《利用乘法的生成方法(2)》以及《利用加法的生成方法(3)》实施的第3特征映射图fm3的生成,参照图13~图21,在后面叙述其影像。
[0098]
第1神经网络nn1是通过监督学习来自由学习的神经网络。即,第2特征量抽出部23是通过监督学习来自由学习的单元。在此,如上所述,第1神经网络nn1包括cnn。即,第2特征量抽出部23包括cnn。因此,第2特征量抽出部23是通过深度学习来自由学习的单元。关于第1神经网络nn1的构造,参照图11~图12,在后面进行叙述。
[0099]
在由第2特征映射图生成部32生成了各个第2特征映射图fm2时,特征映射图存储部11临时地存储该生成的第2特征映射图fm2。通过将特征映射图存储部11设置于第2特征量抽出部23的外部,能够提高存储容量的使用效率。
[0100]
物体检测部24使用由第3特征映射图生成部33生成的多个第3特征映射图fm3,检测各个摄像图像中的各个物体。更具体而言,位置推测部34通过回归(regression)来推测各个物体的位置,并且种类推测部35通过分类(classification)来推测各个物体的种类。即,第2神经网络nn2是通过监督学习来自由学习的神经网络。换言之,物体检测部24是通过监督学习来自由学习的单元。
[0101]
具体而言,例如物体检测部24通过ssd来检测各个物体。即,第2神经网络nn2由与非专利文献1所记载的ssd中的比“vgg-16”靠后级的神经网络同样的神经网络构成(参照非专利文献1的图2等)。即,第2神经网络nn2由包括与非专利文献1所记载的ssd中的“extra feature layers”(“额外的功能层”)同样的神经网络的神经网络构成。通过上述神经网络,执行多次的卷积运算。由此,推测各个物体的位置,并且推测各个物体的种类。
[0102]
在此,上述多次的卷积运算是基于相互不同的内核大小进行的运算。更具体而言,内核大小逐渐变小。由此,能够应对摄像图像中的各个物体的尺寸的变动。即,能够实现基于所谓的“多量程(multiscale)”的物体检测。
[0103]
图3示出由种类推测部35推测的种类的例子。即,图3示出由种类推测部35分类的类别的例子。
[0104]
图中“汽车(同一方向)”表示相对本车辆的行驶方向在同一方向上行驶中的汽车。图中“大型车辆(同一方向)”表示相对本车辆的行驶方向在同一方向上行驶中的大型汽车。
图中“摩托车(同一方向)”表示相对本车辆的行驶方向在同一方向上行驶中的自动二轮车。即,这些类别表示相对本车辆的行驶方向在同一方向上行驶中的其他车辆。换言之,这些类别表示后续车辆(following vehicles)或者超越车辆(passing vehicles)。
[0105]
图中“汽车(相反方向)”表示相对本车辆的行驶方向在相反方向上行驶中的汽车。图中“大型车辆(相反方向)”表示相对本车辆的行驶方向在相反方向上行驶中的大型汽车。图中“摩托车(相反方向)”表示相对本车辆的行驶方向在相反方向上行驶中的自动二轮车。即,这些类别表示相对本车辆的行驶方向在相反方向上行驶中的其他车辆。换言之,这些类别表示对向车辆。
[0106]
这样,由种类推测部35分类的类别包括各个物体的行进方向。即,由种类推测部35推测的种类包括各个物体的行进方向。由此,在针对物体检测部24的后级的处理中,能够不需要上述行进方向的判定。其结果,能够降低针对物体检测部24的后级的处理中的运算量。
[0107]
图4是示出包括实施方式1所涉及的学习装置的学习系统的主要部分的框图。参照图4,说明包括实施方式1所涉及的学习装置的学习系统。此外,在图4中,对与图1所示的模块同样的模块附加同一符号而省略说明。
[0108]
如图4所示,学习系统300包括存储装置2、存储装置3以及学习装置400。存储装置2具有特征映射图存储部11。存储装置3具有图像数据存储部12。学习装置400具有图像数据取得部21、第1特征量抽出部22、第2特征量抽出部23、物体检测部24以及学习部25。存储装置3由存储器构成。
[0109]
图像数据存储部12存储包括多个学习用的图像(以下有时称为“学习用图像”。)的数据库(以下称为“学习用图像数据库”。)。学习装置400中的图像数据取得部21代替取得表示各个摄像图像的图像数据,而取得表示各个学习用图像的图像数据。
[0110]
学习装置400中的第1特征量抽出部22、第2特征量抽出部23以及物体检测部24与物体检测装置200中的第1特征量抽出部22、第2特征量抽出部23以及物体检测部24分别相同。因此,省略详细的说明。
[0111]
学习部25根据物体检测部24的检测结果,进行基于监督学习(更具体而言是深度学习)的第2特征量抽出部23的学习。另外,学习部25根据物体检测部24的检测结果,进行基于监督学习的物体检测部24的学习。
[0112]
即,学习部25取得表示与由图像数据取得部21取得的图像数据所表示的学习用图像对应的物体检测所涉及的正确答案(correct answer)的数据(以下称为“正确答案数据”。)。正确答案数据是由人(例如物体检测装置200的制造者或者使用物体检测系统100的劳务的提供者)预先输入的数据。学习部25比较物体检测部24的检测结果与该取得的正确答案数据所表示的正确答案。学习部25基于上述比较的结果,根据需要来更新第1神经网络nn1中的参数,并且根据需要来更新第2神经网络nn2中的参数。在上述参数的更新中,能够使用公知的各种技术。省略关于这些技术的详细的说明。
[0113]
即,学习部25生成将由图像数据取得部21取得的图像数据作为输入并输出各个摄像图像中的各个物体的检测结果的学习完毕的模型(以下称为“机器学习模型”。)。在机器学习模型中,设定有多个参数集(parameter set)。各个参数集包括第1神经网络nn1用的学习完毕参数,并且包括第2神经网络nn2用的学习完毕参数。
[0114]
此外,各个摄像图像中的各个物体的检测结果具体而言是各个摄像图像中的各个
物体的位置的推测结果、以及各个物体的种类的推测结果。机器学习模型例如被存储于存储装置(未图示)。
[0115]
以下,对于图像数据取得部21的功能,有时使用“f1”的符号。另外,对于第1特征量抽出部22的功能,有时使用“f2”的符号。另外,对于第2特征量抽出部23的功能,有时使用“f3”的符号。另外,对于物体检测部24的功能,有时使用“f4”的符号。另外,对于学习部25的功能,有时使用“f5”的符号。
[0116]
以下,有时将由图像数据取得部21执行的处理总称为“图像数据取得处理”。另外,有时将由第1特征量抽出部22执行的处理总称为“第1特征量抽出处理”。另外,有时将由第2特征量抽出部23执行的处理总称为“第2特征量抽出处理”。另外,有时将由物体检测部24执行的处理总称为“物体检测处理”。另外,有时将由学习部25执行的处理总称为“学习处理”。
[0117]
接下来,参照图5以及图6,说明物体检测装置200的主要部分的硬件结构。
[0118]
如图5所示,物体检测装置200具有处理器41以及存储器42。在存储器42中,存储有与多个功能f1~f4对应的程序。处理器41读出并执行存储于存储器42的程序。由此,实现多个功能f1~f4。
[0119]
或者,如图6所示,物体检测装置200具有处理电路43。在该情况下,通过专用的处理电路43来实现多个功能f1~f4。
[0120]
或者,物体检测装置200具有处理器41、存储器42以及处理电路43(未图示)。在该情况下,多个功能f1~f4中的一部分功能通过处理器41以及存储器42来实现,并且多个功能f1~f4中的剩余功能通过专用的处理电路43来实现。
[0121]
处理器41由1个以上的处理器构成。各个处理器例如使用了cpu(central processing unit,中央处理单元)、gpu(graphics processing unit,图形处理单元)、微处理器、微控制器或者dsp(digital signal processor,数字信号处理器)。
[0122]
存储器42由1个以上的非易失性存储器构成。或者,存储器42由1个以上的非易失性存储器以及1个以上的易失性存储器构成。即,存储器42由1个以上的存储器构成。各个存储器例如使用了半导体存储器、磁盘、光盘、磁光盘或者磁带。
[0123]
更具体而言,各个易失性存储器例如使用了ram(random access memory,随机存取存储器)。另外,各个非易失性存储器例如使用了rom(read only memory,只读存储器)、闪存存储器、eprom(erasable programmable read only memory,可擦除可编程只读存储器)、eeprom(electrically erasable programmable read only memory,电可擦除可编程只读存储器)、固态驱动器、硬盘驱动器、软盘、高密度盘(compact disk)、dvd(digital versatile disc,数字多功能盘)、蓝光盘或者迷你盘。
[0124]
处理电路43由1个以上的数字电路构成。或者,处理电路43由1个以上的数字电路以及1个以上的模拟电路构成。即,处理电路43由1个以上的处理电路构成。各个处理电路例如使用了asic(application specific integrated circuit,专用集成电路)、pld(programmable logic device,可编程逻辑器件)、fpga(field programmable gate array,现场可编程门阵列)、soc(system on achip,片上系统)或者系统lsi(large scale integration,大规模集成)。
[0125]
在此,在处理电路43由多个处理电路构成时,多个功能f1~f4和多个处理电路的对应关系是任意的。例如,物体检测装置200也可以具有与多个功能f1~f4以一对一的方式
对应的多个处理电路。在该情况下,多个功能f1~f4各自也可以通过多个处理电路中的对应的1个处理电路来专门实现。
[0126]
接下来,参照图7以及图8,说明学习装置400的主要部分的硬件结构。
[0127]
如图7所示,学习装置400具有处理器44以及存储器45。在存储器45中,存储有与多个功能f1~f5对应的程序。处理器44读出并执行存储于存储器45的程序。由此,实现多个功能f1~f5。
[0128]
或者,如图8所示,学习装置400具有处理电路46。在该情况下,通过专用的处理电路46来实现多个功能f1~f5。
[0129]
或者,学习装置400具有处理器44、存储器45以及处理电路46(未图示)。在该情况下,多个功能f1~f5中的一部分功能通过处理器44以及存储器45来实现,并且多个功能f1~f5中的剩余功能通过专用的处理电路46来实现。
[0130]
处理器44由1个以上的处理器构成。各个处理器例如使用了cpu、gpu、微处理器、微控制器或者dsp。
[0131]
存储器45由1个以上的非易失性存储器构成。或者,存储器45由1个以上的非易失性存储器以及1个以上的易失性存储器构成。即,存储器45由1个以上的存储器构成。各个存储器例如使用了半导体存储器、磁盘、光盘、磁光盘或者磁带。
[0132]
更具体而言,各个易失性存储器例如使用了ram。另外,各个非易失性存储器例如使用了rom、闪存存储器、eprom、eeprom、固态驱动器、硬盘驱动器、软盘、高密度盘、dvd、蓝光盘或者迷你盘。
[0133]
处理电路46由1个以上的数字电路构成。或者,处理电路46由1个以上的数字电路以及1个以上的模拟电路构成。即,处理电路46由1个以上的处理电路构成。各个处理电路例如使用了asic、pld、fpga、soc或者系统lsi。
[0134]
在此,在处理电路46由多个处理电路构成时,多个功能f1~f5与多个处理电路的对应关系是任意的。例如,学习装置400也可以具有与多个功能f1~f5以一对一的方式对应的多个处理电路。在该情况下,多个功能f1~f5各自也可以通过多个处理电路中的对应的1个处理电路来专门实现。
[0135]
接下来,参照图9的流程图,说明物体检测装置200的动作。
[0136]
首先,图像数据取得部21执行图像数据取得处理(步骤st1)。接下来,第1特征量抽出部22执行第1特征量抽出处理(步骤st2)。接下来,第2特征量抽出部23执行第2特征量抽出处理(步骤st3)。接下来,物体检测部24执行物体检测处理(步骤st4)。
[0137]
接下来,参照图10的流程图,说明学习装置400的动作。
[0138]
首先,图像数据取得部21执行图像数据取得处理(步骤st11)。接下来,第1特征量抽出部22执行第1特征量抽出处理(步骤st12)。接下来,第2特征量抽出部23执行第2特征量抽出处理(步骤st13)。接下来,物体检测部24执行物体检测处理(步骤st14)。接下来,学习部25执行学习处理(步骤st15)。
[0139]
接下来,参照图11~图12,说明第1神经网络nn1的构造。
[0140]
如图11所示,第1神经网络nn1具有多个显著性块层l1。图中“输入影像”表示由图像数据取得部21取得的图像数据所表示的摄像图像或者学习用图像。图中“显著性映射图”表示由第1特征映射图生成部31生成的第1特征映射图fm1。图中“特征图”表示由第3特征映
射图生成部33生成的各个第3特征映射图fm3。
[0141]
如图12所示,各个显著性块层l1具有基于3
×
3的卷积层l11、bn(batch normalization,批量标准化)层l12、elu(exponential linear unit,指数线性单元)层l13、最大池化层l14以及显著性引导层l15。
[0142]
第1神经网络nn1中的cnn例如使用了vgg网络。vgg网络也可以追加有bn。不限于此,第1神经网络nn1中的cnn例如既可以使用残差网络(residual network),也可以使用densenet或者mobilenet。另外,第1神经网络nn1中的cnn例如也可以使用以下的参考文献2所记载的技术。
[0143]
[参考文献2]
[0144]
mingxing tan,quoc le,"efficientnet:rethinking model scaling for convolutional neural networks"proceedings of the 36th international conference on machine learning,pmlr 97:6105-6114,2019,http://proceedings.mlr.press/v97/tan19a/tan19a.pdf
[0145]
通过使用具有如图11所示的构造的第1神经网络nn1,从而在显著性块层l1中,生成多个第2特征映射图fm2中的对应的第2特征映射图fm2,并且进行针对该生成的第2特征映射图fm2的加权。即,针对各个第2特征映射图fm2进行使用了第1特征映射图fm1的加法或者乘法,利用第1特征映射图fm1针对各个第2特征映射图fm2进行加权。
[0146]
在此,图13~图21是用于说明在显著性块层l1中针对各个第2特征映射图fm2进行加权而生成第3特征映射图fm3的影像的图。
[0147]
此外,在图13~图21中,图中“输入影像”表示由图像数据取得部21取得的图像数据所表示的摄像图像或者学习用图像。在实施方式1中,如上所述,摄像机1由电子后视镜用的摄像机构成并设置于车辆,但在图13~图21中,为方便起见,将由图像数据取得部21取得的图像数据例如设为通过由对海岸进行摄像的监视摄像机构成的摄像机1摄像得到的图像数据。图中“显著性映射图”表示由第1特征映射图生成部31生成的第1特征映射图fm1。图中“特征图”表示由第2特征映射图生成部32生成的各个第2特征映射图fm2、由第3特征映射图生成部33生成的各个第3特征映射图fm3、或者由第4特征映射图生成部36生成的各个第4特征映射图fm4。
[0148]
图13是用于说明使用上述《利用加法的生成方法(1)》来生成第3特征映射图fm3的影像的图。
[0149]
图14是用于说明使用上述《利用乘法的生成方法(1)》来生成第3特征映射图fm3的影像的图。
[0150]
图13以及图14例如示出如下影像:仅在第一层的显著性块层l1中使用第1特征映射图fm1来生成多个第2特征映射图fm2中的对应的第2特征映射图fm2,并且进行针对该生成的第2特征映射图fm2的加权,生成第3特征映射图fm3。
[0151]
如图13以及图14所示,在各个第1特征映射图fm1中,与成为检测对象的物体(在此是人)对应的区域被激活。在第1特征映射图fm1上,对激活的区域的第1特征量设定有大的值。此外,在第1特征映射图fm1中,与存在于远处的小的物体对应的区域也被激活。
[0152]
在第2特征映射图fm2上,例如存在于远处的小的物体未被检测而成为背景。但是,如图13、图14所示,通过对第2特征映射图fm2和第1特征映射图fm1进行加法或者乘法,并将
第1特征量与第2特征量在空间上相加或者相乘,从而进行加权,设定重要度w。由此,第2特征映射图fm2成为在小的物体未被检测而成为背景时能够检测小的物体的特征映射图。
[0153]
另外,在第2特征映射图fm2上,即便是在物体检测中没有意义的信息、不需要的信息、或者冗余的信息,有时也作为特征量出现。该特征量是没有意义的、不需要的、或者冗余的特征量,是阻碍学习的信息。在列举具体例时,例如在希望学习人或者车辆等前景物体时,在包含有大量的海或者建筑物等背景物体的情况下,在机器学习中导致学习大量的背景图案,有时会阻碍前景物体的学习。
[0154]
相对于此,例如如图14所示,通过对第2特征映射图fm2和第1特征映射图fm1进行乘法,并将第1特征量与第2特征量在空间上相乘,从而舍去冗余的第2特征量。此外,在第1特征映射图fm1上,对在物体检测中没有意义的第1特征量设定有例如“0”。通过乘以“0”,第2特征量成为“0”。由此,能够防止阻碍前景物体的学习。
[0155]
图15是用于说明使用上述《利用加法的生成方法(2)》来生成第3特征映射图fm3的影像的图。
[0156]
图16是用于说明使用上述《利用乘法的生成方法(2)》来生成第3特征映射图fm3的影像的图。
[0157]
图15以及图16例如示出如下影像:仅在第一层的显著性块层l1中使用第1特征映射图fm1来生成多个第2特征映射图fm2中的对应的第2特征映射图fm2,并且进行针对该生成的第2特征映射图fm2的加权,生成第3特征映射图fm3。
[0158]
如图15以及图16所示,在第1特征映射图fm1中,与成为检测对象的物体(在此是人)对应的区域被激活。根据该第1特征映射图fm1,生成多个第4特征映射图fm4。多个第4特征映射图fm4是通过卷积来生成的,所以分别成为特征量的获取方法不同的特征映射图。此外,第4特征映射图生成部36为了生成多个第4特征映射图fm4而进行的卷积的运算内容与在第2特征量抽出部23生成多个第2特征映射图fm2时进行的卷积的运算内容相同。
[0159]
例如,如图15所示,通过将各个第4特征映射图fm4中的各个第4特征量与对应的第2特征映射图fm2中的对应的第2特征量相加,进行具有不同的变化的特征量的组合下的加法。由此,如图13所示,相比于复制1个第1特征映射图fm1并分别与第2特征映射图fm2相加的《利用加法的生成方法(1)》,能够实现更高级的、空间上的加法。
[0160]
另外,例如如图16所示,通过将各个第4特征映射图fm4中的各个第4特征量与对应的第2特征映射图fm2中的对应的第2特征量相乘,进行具有不同的变化的特征量的组合下的乘法。由此,如图14所示,相比于复制1个第1特征映射图fm1并分别与第2特征映射图fm2相乘的《利用乘法的生成方法(2)》,能够实现更高级的、空间上的乘法。
[0161]
如上所述,图13~图16为如下影像:仅在各个显著性块层l1中的第一层的显著性块层l1中,分别使用《利用加法的生成方法(1)》、《利用乘法的生成方法(1)》、《利用加法的生成方法(2)》以及《利用加法的生成方法(2)》来生成第3特征映射图fm3。
[0162]
不限于此,例如也可以在各显著性块层l1中,使用《利用加法的生成方法(1)》、《利用乘法的生成方法(1)》、《利用加法的生成方法(2)》或者《利用加法的生成方法(2)》,生成第3特征映射图fm3。
[0163]
图17是示出在各显著性块层l1中使用上述《利用加法的生成方法(1)》来生成第3特征映射图fm3的影像的图。在各显著性块层l1中,生成如在图17中示出影像的第3特征映
射图fm3。
[0164]
图18是示出在各显著性块层l1中使用上述《利用乘法的生成方法(1)》来生成第3特征映射图fm3的影像的图。在各显著性块层l1中,生成如在图18中示出影像的第3特征映射图fm3。
[0165]
图19是示出在各显著性块层l1中使用上述《利用加法的生成方法(2)》来生成第3特征映射图fm3的影像的图。在各显著性块层l1中,生成如在图19中示出影像的第3特征映射图fm3。
[0166]
图20是示出在各显著性块层l1中使用上述《利用乘法的生成方法(2)》来生成第3特征映射图fm3的影像的图。在各显著性块层l1中,生成如在图20中示出影像的第3特征映射图fm3。
[0167]
图21是用于说明使用上述《利用加法的生成方法(3)》来生成第3特征映射图fm3的影像的图。
[0168]
此外,图21示出在各显著性块层l1中通过上述《利用加法的生成方法(3)》来生成第3特征映射图fm3的影像。
[0169]
在维度方向上在多个第2特征映射图fm2之后相加与成为检测对象的物体(在此是人)对应的区域被激活的各个第1特征映射图fm1。
[0170]
《利用加法的生成方法(3)》是以如下处理为目的的方法:并非是针对第2特征量在空间上相加第1特征量,而是通过增加特征映射图的变化而对第2特征映射图fm2进行加权。
[0171]
例如,设为第1特征映射图fm1以及第2特征映射图fm2分别是500维度的特征映射图。在该情况下,例如在上述《利用加法的生成方法(1)》中,所生成的第3特征映射图fm3是500维度的特征映射图,维度方向的数量未变化。与此相对,在《利用加法的生成方法(3)》中,所生成的第3特征映射图fm3成为1000维度的特征映射图。即,在维度方向上特征映射图的数量会增加。所生成的1000维度的第3特征映射图fm3在接下来的显著性块层l1中进一步被卷积运算,从而生成特征量的变化进一步变丰富的第3特征映射图fm3。
[0172]
接下来,参照图22~图30,说明物体检测装置200的效果。
[0173]
以下,将se(squeeze-and-excitation,挤压和激励)网络记载为“senet”。另外,将追加有senet的vgg+bn记载为“vgg+bn+se”。另外,将追加有senet的resnet记载为“resnet+se”。
[0174]
以下,在具有利用vgg的特征量抽出部并且具有利用ssd的物体检测部的以往的物体检测装置(未图示)中,使用“200’_1”的符号。另外,在具有利用vgg+bn+se或者resnet+se的特征量抽出部并且具有利用ssd的物体检测部的以往的物体检测装置(未图示)中,使用“200’_2”的符号。即,这些物体检测装置200’_1、200’_2成为针对物体检测装置200的比较对象。另外,这些物体检测装置200’_1、200’_2不具有与第1特征映射图生成部31相当的部位,并且不具有与第3特征映射图生成部33相当的部位。
[0175]
以下,关于针对各个摄像图像中的各个物体的尺寸的范围,将包括中等程度的尺寸的范围称为“中”(medium)。另外,将包括比包含于“中”的尺寸小的尺寸的范围称为“小”(small)。另外,将包括比包含于“中”的尺寸大的尺寸的范围称为“大”(large)。
[0176]
具体而言,例如“小”是包括比32
×
32像素小的尺寸的物体的范围,“中”是包括比32
×
32像素大且比96
×
96像素小的尺寸的物体的范围,“大”是包括比96
×
96像素大的尺寸
的物体的范围。
[0177]
以下,例如将作为基于cms-dd(camera monitoring system driving dataset,摄像机监控系统驾驶数据集)的数据集的、把图3所示的8个类别中的仅2个类别包含于分类对象的数据集记载为“2类别”(2class)。另外,例如将作为基于cms-dd的数据集的、把图3所示的8个类别中的仅4个类别包含于分类对象的数据集记载为“4类别”(4class)。另外,例如将作为基于cms-dd的数据集的、把图3所示的8个类别包含于分类对象的数据集记载为“8类别”(8class)。
[0178]
图22示出摄像图像的例子。
[0179]
图23示出与在对物体检测装置200输入了表示图22所示的摄像图像的图像数据时由物体检测装置200生成的第1特征映射图fm1对应的特征图的例子。更具体而言,图23示出与由物体检测装置200生成的显著性映射图对应的特征图的例子。
[0180]
图24示出与在对物体检测装置200’_2输入了表示图22所示的摄像图像的图像数据时由物体检测装置200’_2生成的多个特征映射图fm’中的1个特征映射图fm’对应的特征图的例子。更具体而言,图24示出与多个特征映射图fm’中的第1特征映射图fm’对应的特征图的例子。
[0181]
图25示出与在对物体检测装置200输入了表示图22所示的摄像图像的图像数据时由物体检测装置200生成的多个第3特征映射图fm3中的1个第3特征映射图fm3对应的特征图的例子。更具体而言,图25示出与多个第3特征映射图fm3中的第1第3特征映射图fm3对应的特征图的例子。
[0182]
在图24所示的特征图中,与对应于成为检测对象的物体(即,其他车辆)的区域不同的区域被激活。更具体而言,背景中的与空白对应的区域被激活。与此相对,在图25所示的特征图中,与成为检测对象的物体(即,其他车辆)对应的区域被激活。这是由于进行使用了与图23所示的特征图对应的显著性映射图的加权而引起的。
[0183]
即,在使用了senet的情况下,被评价为作为全局特征得到在宽广的区域中激发的特征图更优良的特征。因此,实际上未深入至所激发的区域的含义。因此,在物体检测中,优选采用利用如显著性那样的由来于物体的特征进行加权的方法。
[0184]
因此,通过在物体检测中使用加权后的第3特征映射图fm3,从而相比于在物体检测中使用特征映射图fm’的情况(即,相比于假设在物体检测中使用加权前的第1特征映射图fm1的情况),得到以下那样的效果。
[0185]
第一,能够提高物体检测的精度。另外,由于考虑与物体相似性相关的环境,所以能够抑制误检测的发生。
[0186]
第二,能够通过使用更浅的cnn来抽出的特征量(即第2特征量以及第3特征量)实现物体检测。其结果,能够降低特征量抽出部(即第2特征量抽出部23)中的运算量。
[0187]
第三,通过使用更浅的cnn,能够抑制由池化引起的空间上的信息的消失。另外,能够避免运算量的爆发性的增加,并且增大各个特征映射图(即各个第2特征映射图fm2以及各个第3特征映射图fm3)的尺寸。其结果,能够实现小的物体的检测。
[0188]
特别是,在将物体检测装置200用于电子后视镜的情况下,要求使用车载用的处理器41或者处理电路43。即,要求使用廉价的处理器41或者处理电路43。换言之,要求使用具有低的运算能力的处理器41或者处理电路43。另一方面,在该情况下,根据检测在相对于本
车辆的位置而言较远的位置处行驶中的其他车辆等的观点,要求实现小的物体的检测。与此相对,通过使用物体检测装置200,能够降低运算量,并且能够实现小的物体的检测。
[0189]
图26示出与图22所示的摄像图像相关的物体检测装置200’_2的检测结果的例子。与此相对,图27示出与图22所示的摄像图像相关的物体检测装置200的检测结果的例子。如图26以及图27所示,通过使用物体检测装置200,从而相比于使用了物体检测装置200’_2的情况,能够实现小的物体的检测。即,能够实现在相对于本车辆的位置而言较远的位置处行驶中的其他车辆等的检测。
[0190]
图28是示出使用2类别的情况下的物体检测装置200以及物体检测装置200’_1各自的检测精度所涉及的实验结果的折线图。图29是示出使用4类别的情况下的物体检测装置200以及物体检测装置200’_1各自的检测精度所涉及的实验结果的折线图。图30是示出使用8类别的情况下的物体检测装置200以及物体检测装置200’_1各自的检测精度所涉及的实验结果的折线图。图28~图30中的纵轴的数值的单位是map(mean average precision,平均精度)。map是表示以何种程度的辨识率来捕捉到物体的精度评价指标。此外,vggnet中的层数被设定为4。
[0191]
在图28~图30中,关于物体检测装置200的检测精度所涉及的实验结果,示出与以什么样的方法生成了在物体检测中使用的加权后的第3特征映射图fm3对应的实验结果。
[0192]
在图28~图30中,由“approach2(mul)”示出的各数值表示仅在第一层的显著性块层l1中使用上述《利用乘法的生成方法(1)》生成了第3特征映射图fm3的情况的物体检测装置200中的检测精度所涉及的实验结果。由“approach2(add)”示出的各数值表示仅在第一层的显著性块层l1中使用上述《利用加法的生成方法(1)》生成了第3特征映射图fm3的情况的物体检测装置200中的检测精度所涉及的实验结果。由“approach3(mul)”示出的各数值表示仅在第一层的显著性块层l1中使用上述《利用乘法的生成方法(2)》生成了第3特征映射图fm3的情况的物体检测装置200中的检测精度所涉及的实验结果。由“approach3(add)”示出的各数值表示仅在第一层的显著性块层l1中使用上述《利用加法的生成方法(2)》生成了第3特征映射图fm3的情况的物体检测装置200中的检测精度所涉及的实验结果。由“approach4”示出的各数值表示在各显著性块层l1中使用上述《利用加法的生成方法(1)》生成了第3特征映射图fm3的情况的物体检测装置200中的检测精度所涉及的实验结果。由“approach4_advance_v1”示出的各数值表示在各显著性块层l1中使用上述《利用乘法的生成方法(1)》生成了第3特征映射图fm3的情况的物体检测装置200中的检测精度所涉及的实验结果。由“approach4_advance_v2”示出的各数值表示在各显著性块层l1中使用上述《利用加法的生成方法(2)》生成了第3特征映射图fm3的情况的物体检测装置200中的检测精度所涉及的实验结果。由“approach4_advance_v3”示出的各数值表示在各显著性块层l1中使用上述《利用加法的生成方法(3)》生成了第3特征映射图fm3的情况的物体检测装置200中的检测精度所涉及的实验结果。
[0193]
另外,在图28~图30中,由“vgg”示出的各数值表示物体检测装置200’_1中的检测精度所涉及的实验结果。
[0194]
如图28~图30所示,通过使用物体检测装置200,相比于使用了物体检测装置200’_1的情况,能够提高针对物体的检测精度。即,能够提高物体检测的精度。特别是,在要求使用具有低的运算能力的处理器41或者处理电路43但另一方面要求实现小的物体的检
efficient object detection";proceedings of the ieee/cvf conference on computer vision and pattern recognition(cvpr),2020,pp.10781-10790
[0207]
物体检测装置200也可以具有学习部25。物体检测装置200中的学习部25也可以在学习用图像中使用由摄像机1摄像得到的摄像图像,进行第2特征量抽出部23以及物体检测部24的学习。换言之,物体检测装置200中的学习部25也可以生成将由摄像机1摄像得到的摄像图像作为输入并输出摄像图像中的各个物体的检测结果的机器学习模型。
[0208]
如以上那样,实施方式1所涉及的物体检测装置200具备:图像数据取得部21,取得表示由摄像机1摄像得到的摄像图像的图像数据;第1特征量抽出部22,使用图像数据来生成第1特征映射图fm1;第2特征量抽出部23,使用图像数据来生成第2特征映射图fm2,并且针对该第2特征映射图fm2进行使用了第1特征映射图fm1的加法或者乘法而进行针对该第2特征映射图fm2的加权,从而生成第3特征映射图fm3;以及物体检测部24,使用第3特征映射图fm3来检测摄像图像中的物体,第1特征映射图fm1中的第1特征量是使用了与物体相似性对应的中级别特征的特征量,第2特征映射图fm2中的第2特征量是使用了高级别特征的特征量。由此,能够提高物体检测的精度。另外,能够降低运算量。另外,能够实现小的物体的检测。
[0209]
另外,实施方式1所涉及的学习装置400具备:图像数据取得部21,取得表示学习用图像的图像数据;第1特征量抽出部22,使用图像数据来生成第1特征映射图fm1;第2特征量抽出部23,使用图像数据来生成第2特征映射图fm2,并且针对该第2特征映射图fm2进行使用了第1特征映射图fm1的加法或者乘法而进行针对该第2特征映射图fm2的加权,从而生成第3特征映射图fm3;物体检测部24,使用第3特征映射图fm3来检测学习用图像中的物体;以及学习部25,根据物体检测部24的检测结果进行第2特征量抽出部23以及物体检测部24的学习,第1特征映射图fm1中的第1特征量是使用了与物体相似性对应的中级别特征的特征量,第2特征映射图fm2中的第2特征量是使用了高级别特征的特征量。由此,能够实现物体检测装置200用的学习装置400。
[0210]
实施方式2
[0211]
图32是示出包括实施方式2所涉及的物体检测装置的物体检测系统的主要部分的框图。参照图32,说明包括实施方式2所涉及的物体检测装置的物体检测系统。此外,在图32中,对与图1所示的模块同样的模块附加同一符号而省略说明。
[0212]
如图32所示,物体检测系统100a包括摄像机1、存储装置2、时钟4、存储装置5以及物体检测装置200a。存储装置2具有特征映射图存储部11。存储装置5具有按时刻的参数存储部13。物体检测装置200a具有图像数据取得部21、第1特征量抽出部22、第2特征量抽出部23、物体检测部24、时刻信息取得部26以及参数选择部27。存储装置5由存储器构成。
[0213]
时刻信息取得部26使用时钟4,取得表示时刻的信息(以下称为“时刻信息”。)。时刻信息例如表示当前时刻。
[0214]
按时刻的参数存储部13存储包括设定有多个参数集的多个机器学习模型的数据库(以下称为“按时刻的学习完毕参数数据库”。)。各个参数集包括第1神经网络nn1用的学习完毕参数,并且包括第2神经网络nn2用的学习完毕参数。
[0215]
在此,包含于按时刻的学习完毕参数数据库的多个参数集是与相互不同的时间段对应的参数集。例如,按时刻的学习完毕参数数据库包括与白天(daytime)对应的参数集、
与傍晚(evening)对应的参数集、与黄昏(dusk)对应的参数集、以及与夜间(night time)对应的参数集。
[0216]
参数选择部27选择包含于按时刻的学习完毕参数数据库的多个参数集中的、与包括时刻信息所表示的时刻的时间段对应的参数集。参数选择部27使用该选择的参数集来设定第1神经网络nn1中的参数,并且设定第2神经网络nn2中的参数。
[0217]
由此,第2特征量抽出部23使用由参数选择部27设定的参数来执行第2特征量抽出处理。另外,物体检测部24使用由参数选择部27设定的参数来执行物体检测处理。
[0218]
换言之,第2特征量抽出部23使用包含于由参数选择部27选择的参数集的学习完毕参数来执行第2特征量抽出处理。另外,物体检测部24使用包含于由参数选择部27选择的参数集的学习完毕参数来执行物体检测处理。
[0219]
图33是示出包括实施方式2所涉及的学习装置的学习系统的主要部分的框图。参照图33,说明包括实施方式2所涉及的学习装置的学习系统。此外,在图33中,对与图4所示的模块同样的模块附加同一符号而省略说明。
[0220]
如图33所示,学习系统300a包括存储装置2、存储装置3a、存储装置5以及学习装置400。存储装置2具有特征映射图存储部11。存储装置3a具有按时刻的图像数据存储部14。存储装置5具有按时刻的参数存储部13。学习装置400具有图像数据取得部21、第1特征量抽出部22、第2特征量抽出部23、物体检测部24以及学习部25。
[0221]
按时刻的图像数据存储部14存储多个学习用图像数据库。多个学习用图像数据库是与相互不同的时间段对应的数据库。例如,多个学习用图像数据库包括与白天对应的学习用图像数据库、与傍晚对应的学习用图像数据库、与黄昏对应的学习用图像数据库、以及与夜间对应的学习用图像数据库。
[0222]
即,包含于各个学习用图像数据库的多个学习用图像是在对应的时间段内的时刻由与摄像机1同样的摄像机摄像得到的图像。
[0223]
在学习系统300a中,由学习部25实施的第2特征量抽出部23以及物体检测部24的学习是使用各个学习用图像数据库来执行的。即,针对每个学习用图像数据库,执行上述学习。由此,生成设定有与相互不同的时间段对应的多个参数集的多个机器学习模型。学习部25将该生成的设定有多个参数集的多个机器学习模型存储到按时刻的参数存储部13。由此,生成按时刻的学习完毕参数数据库。
[0224]
以下,对于时刻信息取得部26的功能,有时使用“f6”的符号。另外,对于参数选择部27的功能,有时使用“f7”的符号。
[0225]
以下,有时将由时刻信息取得部26执行的处理总称为“时刻信息取得处理”。另外,有时将由参数选择部27执行的处理总称为“参数选择处理”。
[0226]
物体检测装置200a的主要部分的硬件结构与在实施方式1中参照图5以及图6来说明的硬件结构相同。因此,省略图示以及说明。即,物体检测装置200a具有多个功能f1~f4、f6、f7。多个功能f1~f4、f6、f7各自既可以通过处理器41以及存储器42来实现、或者也可以通过专用的处理电路43来实现。另外,处理电路43也可以包括与多个功能f1~f4、f6、f7对应的多个处理电路。
[0227]
学习装置400的主要部分的硬件结构与在实施方式1中参照图7以及图8来说明的硬件结构相同。因此,省略图示以及说明。
[0228]
接下来,参照图34的流程图,说明物体检测装置200a的动作。此外,在图34中,对与图9所示的步骤同样的步骤附加同一符号而省略说明。
[0229]
首先,时刻信息取得部26执行时刻信息取得处理(步骤st5)。接下来,参数选择部27执行参数选择处理(步骤st6)。接下来,执行步骤st1~st4的处理。
[0230]
学习装置400的动作与在实施方式1中参照图10的流程图来说明的动作相同。因此,省略图示以及说明。
[0231]
这样,通过在学习中使用按时刻的学习用图像数据库,并且在推理中使用按时刻的学习完毕参数数据库,从而能够进一步提高物体检测的精度。即,能够实现恰当的网络自由度(network flexibility,网络灵活性)。
[0232]
此外,物体检测装置200a能够采用与在实施方式1中说明的装置同样的各种变形例。
[0233]
如以上那样,实施方式2所涉及的物体检测装置200a具备:时刻信息取得部26,取得时刻信息;以及参数选择部27,选择包含于按时刻的学习完毕参数数据库的参数集中的与时刻信息表示的时刻对应的参数集,第2特征量抽出部23使用包含于由参数选择部27选择的参数集的学习完毕参数来生成第2特征映射图fm2以及第3特征映射图fm3。由此,能够进一步提高物体检测的精度。
[0234]
实施方式3
[0235]
图35是示出包括实施方式3所涉及的物体检测装置的物体检测系统的主要部分的框图。参照图35,说明包括实施方式3所涉及的物体检测装置的物体检测系统。此外,在图35中,对与图1所示的模块同样的模块附加同一符号而省略说明。
[0236]
如图35所示,物体检测系统100b包括摄像机1、存储装置2、定位器6、存储装置7以及物体检测装置200b。存储装置2具有特征映射图存储部11。存储装置7具有按场所的参数存储部15。物体检测装置200b具有图像数据取得部21、第1特征量抽出部22、第2特征量抽出部23、物体检测部24、场所信息取得部28以及参数选择部29。存储装置7由存储器构成。
[0237]
场所信息取得部28使用定位器6来取得表示场所的信息(以下称为“场所信息”。)。更具体而言,场所信息表示与本车辆的当前位置对应的场所的种类。例如,场所信息表示与本车辆的当前位置对应的场所是都市圈(urban area,市区)、干线道路(highway,公路)以及郊外(suburbs,郊区)中的哪一个。
[0238]
按场所的参数存储部15存储包括设定有多个参数集的多个机器学习模型的数据库(以下称为“按场所的学习完毕参数数据库”。)。各个参数集包括第1神经网络nn1用的学习完毕参数,并且包括第2神经网络nn2用的学习完毕参数。
[0239]
在此,包含于按场所的学习完毕参数数据库的多个参数集是与相互不同的场所对应的参数集。例如,按场所的学习完毕参数数据库包括与首都圈对应的参数集、与干线道路对应的参数集、以及与郊外对应的参数集。
[0240]
参数选择部29选择包含于按场所的学习完毕参数数据库的多个参数集中的、与场所信息表示的场所对应的参数集。参数选择部29使用该选择的参数集来设定第1神经网络nn1中的参数,并且设定第2神经网络nn2中的参数。
[0241]
由此,第2特征量抽出部23使用由参数选择部29设定的参数来执行第2特征量抽出处理。另外,物体检测部24使用由参数选择部29设定的参数来执行物体检测处理。
[0242]
换言之,第2特征量抽出部23使用包含于由参数选择部29选择的参数集的学习完毕参数来执行第2特征量抽出处理。另外,物体检测部24使用包含于由参数选择部29选择的参数集的学习完毕参数来执行物体检测处理。
[0243]
图36是示出包括实施方式3所涉及的学习装置的学习系统的主要部分的框图。参照图36,说明包括实施方式3所涉及的学习装置的学习系统。此外,在图36中,对与图4所示的模块同样的模块附加同一符号而省略说明。
[0244]
如图36所示,学习系统300b包括存储装置2、存储装置3b、存储装置7以及学习装置400。存储装置2具有特征映射图存储部11。存储装置3b具有按场所的图像数据存储部16。存储装置7具有按场所的参数存储部15。学习装置400具有图像数据取得部21、第1特征量抽出部22、第2特征量抽出部23、物体检测部24以及学习部25。
[0245]
按场所的图像数据存储部16存储多个学习用图像数据库。多个学习用图像数据库是与相互不同的场所对应的数据库。例如,多个学习用图像数据库包括与都市圈对应的学习用图像数据库、与干线道路对应的学习用图像数据库、以及与郊外对应的学习用图像数据库。
[0246]
即,包含于各个学习用图像数据库的多个学习用图像是在对应的场所中由与摄像机1同样的摄像机摄像得到的图像。
[0247]
在学习系统300b中,由学习部25实施的第2特征量抽出部23以及物体检测部24的学习是使用各个学习用图像数据库来执行的。即,针对每个学习用图像数据库,执行上述学习。由此,生成与相互不同的场所对应的多个参数集。学习部25将该生成的多个参数集存储到按场所的参数存储部15。由此,生成按场所的学习完毕参数数据库。
[0248]
以下,对于场所信息取得部28的功能,有时使用“f8”的符号。另外,对于参数选择部29的功能,有时使用“f9”的符号。
[0249]
以下,有时将由场所信息取得部28执行的处理总称为“场所信息取得处理”。另外,有时将由参数选择部29执行的处理总称为“参数选择处理”。
[0250]
物体检测装置200b的主要部分的硬件结构与在实施方式1中参照图5以及图6来说明的硬件结构相同。因此,省略图示以及说明。即,物体检测装置200b具有多个功能f1~f4、f8、f9。多个功能f1~f4、f8、f9各自既可以通过处理器41以及存储器42来实现、或者也可以通过专用的处理电路43来实现。另外,处理电路43也可以包括与多个功能f1~f4、f8、f9对应的多个处理电路。
[0251]
学习装置400的主要部分的硬件结构与在实施方式1中参照图7以及图8来说明的硬件结构相同。因此,省略图示以及说明。
[0252]
接下来,参照图37的流程图,说明物体检测装置200b的动作。此外,在图37中,对与图9所示的步骤同样的步骤附加同一符号而省略说明。
[0253]
首先,场所信息取得部28执行场所信息取得处理(步骤st7)。接下来,参数选择部29执行参数选择处理(步骤st8)。接下来,执行步骤st1~st4的处理。
[0254]
学习装置400的动作与在实施方式1中参照图10来说明的动作相同。因此,省略图示以及说明。
[0255]
这样,通过在学习中使用按场所的学习用图像数据库,并且在推理中使用按场所的学习完毕参数数据库,从而能够进一步提高物体检测的精度。即,能够实现恰当的网络自
由度。
[0256]
此外,物体检测装置200b能够采用与在实施方式1中说明的装置同样的各种变形例。
[0257]
如以上那样,实施方式3所涉及的物体检测装置200b具备:场所信息取得部28,取得场所信息;以及参数选择部29,选择包含于按场所的学习完毕参数数据库的参数集中的与场所信息表示的场所对应的参数集,第2特征量抽出部23使用包含于由参数选择部29选择的参数集的学习完毕参数来生成第2特征映射图fm2以及第3特征映射图fm3。由此,能够进一步提高物体检测的精度。
[0258]
实施方式4
[0259]
图38是示出包括实施方式4所涉及的监视装置的监视系统的主要部分的框图。图39是示出实施方式4所涉及的监视装置中的解析部以及输出控制部的主要部分的框图。参照图38以及图39,说明包括实施方式4所涉及的监视装置的监视系统。此外,在图38中,对与图1所示的模块同样的模块附加同一符号而省略说明。
[0260]
如图38所示,监视系统500包括摄像机1、存储装置2、输出装置8以及监视装置600。监视装置600具有物体检测装置200、解析部51以及输出控制部52。
[0261]
如图39所示,解析部51具有异常判定部61、时间解析部62、威胁判定部63以及空间解析部64。输出控制部52具有图像输出控制部65以及声音输出控制部66。输出装置8包括显示器71以及扬声器72。
[0262]
如在实施方式1中说明那样,摄像机1例如由监视摄像机、防止犯罪摄像机或者电子后视镜用的摄像机构成。在此,在摄像机1由电子后视镜用的摄像机构成的情况下,显示器71由电子后视镜用的显示器构成。即,在该情况下,由摄像机1以及显示器71构成电子后视镜的主要部分。以下,以这个情况的例子为中心而进行说明。
[0263]
异常判定部61使用物体检测部24的检测结果来判定各个物体的异常度a。更具体而言,异常判定部61使用位置推测部34的推测结果,根据各个物体的位置来判定异常度a。
[0264]
例如,在由物体检测部24检测到其他车辆的情况下,在上述其他车辆位于正常的位置(例如与预定值以上的车间距离对应的位置)时,相比于上述其他车辆位于异常的位置(例如与小于预定值的车间距离对应的位置)时,异常度a被设定为更小的值。另一方面,在该情况下,在上述其他车辆位于异常的位置(同上)时,相比于上述其他车辆位于正常的位置(同上)时,异常度a被设定为更大的值。
[0265]
时间解析部62在时间上解析物体检测部24的检测结果。即,时间解析部62在时间上解析与在时间上连续的多个摄像图像对应的多次的物体检测处理的结果。换言之,时间解析部62在时间上解析多个帧量的物体检测处理的结果。由此,时间解析部62计算由摄像机1摄像得到的视频中的各个物体的尺寸的时间变化量δs。
[0266]
具体而言,例如,时间解析部62计算与各个物体对应的边界框(bounding box)的每单位时间的膨胀率。时间解析部62通过累计该计算出的膨胀率而计算时间变化量δs。
[0267]
威胁判定部63使用物体检测部24的检测结果来判定各个物体的威胁度t。更具体而言,威胁判定部63使用种类推测部35的推测结果,根据各个物体的行进方向来判定威胁度t。
[0268]
即,如在实施方式1中说明那样,由种类推测部35分类的类别包括物体的行进方
向。因此,例如在由物体检测部24检测到其他车辆的情况下,在上述其他车辆为后续车辆或者超越车辆时,相比于上述其他车辆为对向车辆时,威胁度t被设定为更大的值。另一方面,在该情况下,在上述其他车辆为对向车辆时,相比于上述车辆为后续车辆或者超越车辆时,威胁度t被设定为更小的值。
[0269]
另外,威胁判定部63使用时间解析部62的解析结果来判定各个物体的威胁度t。
[0270]
即,威胁判定部63关于各个物体,执行以下那样的运算。每当由时间解析部62计算出时间变化量δs时,威胁判定部63将该计算出的时间变化量δs与阈值δsth进行比较。在上述时间变化量δs超过阈值δsth时,相比于上述时间变化量δs为阈值δsth以下时,威胁度t被设定为更大的值。另一方面,在上述时间变化量δs为阈值δsth以下时,相比于上述时间变化量δs超过阈值δsth时,威胁度t被设定为更小的值。此时,阈值δsth被设定为基于在过去关于对应的物体计算出的时间变化量δs的平均值δs_ave的值。
[0271]
空间解析部64通过在空间上解析异常判定部61的判定结果以及威胁判定部63的判定结果,从而生成风险映射图。风险映射图由二维状地排列的多个风险值构成。各个风险值是进行了基于对应的异常度a的加权的值,并且是进行了基于对应的威胁度t的加权的值。
[0272]
这样,解析部51解析物体检测部24的检测结果。
[0273]
图像输出控制部65将与解析部51的解析结果对应的图像信号输出到显示器71。由此,图像输出控制部65执行使显示器71显示与解析部51的解析结果对应的图像的控制。另外,声音输出控制部66将与解析部51的解析结果对应的声音信号输出到扬声器72。由此,声音输出控制部66执行使扬声器72输出与解析部51的解析结果对应的声音的控制。
[0274]
这样,输出控制部52将与解析部51的解析结果对应的信号输出到输出装置8。以下,有时将由输出控制部52输出的信号总称为“解析结果信号”。
[0275]
在此,由图像输出控制部65输出的图像信号也可以表示包括由空间解析部64生成的风险映射图的图像(以下称为“风险映射图图像”。)。由此,也可以将风险映射图图像显示于显示器71。
[0276]
图40示出风险映射图图像的例子。在与图40所示的风险映射图图像对应的风险映射图中,2个区域a1、a2中的风险值相比于其他区域中的风险值而被设定为更高的值。由此,在图25所示的风险映射图图像中,利用与其他区域中的颜色不同的颜色来显示2个区域a1、a2中的颜色。2个区域a1、a2例如是与2台其他车辆分别对应的区域。
[0277]
这样,在风险映射图图像中,风险映射图中的各个风险值被可视化。通过由显示器71显示风险映射图图像,能够针对本车辆的搭乘者,以视觉方式提示上述风险值。
[0278]
以下,对于解析部51的功能,有时使用“f11”的符号。另外,对于输出控制部52的功能,有时使用“f12”的符号。
[0279]
以下,有时将由物体检测装置200执行的处理总称为“物体检测处理等”。即,物体检测处理等包括图像数据取得处理、第1特征量抽出处理、第2特征量抽出处理以及物体检测处理。另外,有时将由解析部51执行的处理总称为“解析处理”。另外,有时将由输出控制部52执行的处理以及控制总称为“输出控制”。
[0280]
接下来,参照图41以及图42,说明监视装置600的主要部分的硬件结构。
[0281]
如图41所示,监视装置600具有处理器81以及存储器82。在存储器82中,存储有与
多个功能f1~f4、f11、f12对应的程序。处理器81读出并执行存储于存储器82的程序。由此,实现多个功能f1~f4、f11、f12。
[0282]
或者,如图42所示,监视装置600具有处理电路83。在该情况下,通过专用的处理电路83来实现多个功能f1~f4、f11、f12。
[0283]
或者,监视装置600具有处理器81、存储器82以及处理电路83(未图示)。在该情况下,多个功能f1~f4、f11、f12中的一部分功能通过处理器81以及存储器82来实现,多个功能f1~f4、f11、f12中的剩余功能通过专用的处理电路83来实现。
[0284]
处理器81由1个以上的处理器构成。各个处理器例如使用cpu、gpu、微处理器、微控制器或者dsp。
[0285]
存储器82由1个以上的非易失性存储器构成。或者,存储器82由1个以上的非易失性存储器以及1个以上的易失性存储器构成。即,存储器82由1个以上的存储器构成。各个存储器例如使用半导体存储器、磁盘、光盘、磁光盘或者磁带。
[0286]
更具体而言,各个易失性存储器例如使用ram。另外,各个非易失性存储器例如使用rom、闪存存储器、eprom、eeprom、固态驱动器、硬盘驱动器、软盘、高密度盘、dvd、蓝光盘或者迷你盘。
[0287]
处理电路83由1个以上的数字电路构成。或者,处理电路83由1个以上的数字电路以及1个以上的模拟电路构成。即,处理电路83由1个以上的处理电路构成。各个处理电路例如使用asic、pld、fpga、soc或者系统lsi。
[0288]
在此,在处理电路83由多个处理电路构成时,多个功能f1~f4、f11、f12与多个处理电路的对应关系是任意的。例如,监视装置600也可以具有与多个功能f1~f4、f11、f12以一对一的方式对应的多个处理电路。在该情况下,多个功能f1~f4、f11、f12各自也可以通过多个处理电路中的对应的1个处理电路来专门实现。
[0289]
接下来,参照图43的流程图,说明监视装置600的动作。
[0290]
首先,物体检测装置200执行物体检测处理等(步骤st21)。接下来,解析部51执行解析处理(步骤st22)。接下来,输出控制部52执行输出控制(步骤st23)。
[0291]
接下来,参照图44以及图45,说明监视系统500的变形例。
[0292]
如图44所示,监视装置600也可以代替物体检测装置200而具有物体检测装置200a。在该情况下,监视系统500也可以包括时钟4以及存储装置5。
[0293]
或者,如图45所示,监视装置600也可以代替物体检测装置200而具有物体检测装置200b。在该情况下,监视系统500也可以包括定位器6以及存储装置7。
[0294]
接下来,说明监视装置600的变形例。
[0295]
解析部51也可以仅具有异常判定部61以及威胁判定部63中的任意一方。在解析部51仅具有异常判定部61的情况下,风险映射图中的各个风险值成为进行了基于对应的异常度a的加权的值。另一方面,在解析部51仅具有威胁判定部63的情况下,风险映射图中的各个风险值成为进行了基于对应的威胁度t的加权的值。
[0296]
威胁判定部63也可以仅执行基于种类推测部35的推测结果的威胁度t的判定、以及基于时间解析部62的解析结果的威胁度t的判定中的任意一方。
[0297]
输出控制部52也可以仅具有图像输出控制部65以及声音输出控制部66中的任意一方。在输出控制部52仅具有图像输出控制部65的情况下,输出装置8也可以仅包括显示器
71以及扬声器72中的显示器71。另一方面,在输出控制部52仅具有声音输出控制部66的情况下,输出装置8也可以仅包括显示器71以及扬声器72中的扬声器72。
[0298]
接下来,说明监视装置600中的物体检测装置200、物体检测装置200a或者物体检测装置200b的变形例。
[0299]
如上所述,时间解析部62在时间上解析物体检测部24的检测结果。根据与上述解析对应的观点,监视装置600中的物体检测装置200、物体检测装置200a或者物体检测装置200b也可以如以下那样构成。
[0300]
图像数据取得部21也可以取得与在时间上连续的多个摄像图像(即多个帧量的静止图像)对应的图像数据。即,图像数据取得部21也可以取得时间序列数据。
[0301]
第1特征量抽出部22也可以使用上述取得的时间序列数据来生成包括时间上的信息的特征映射图(即第1特征映射图fm1)。另外,第2特征量抽出部23也可以使用上述取得的时间序列数据来生成包括时间上的信息的特征映射图(即各个第2特征映射图fm2以及各个第3特征映射图fm3)。
[0302]
由此,显然能够应对由时间解析部62实施的时间上的解析,能够抑制发生所谓的“检测模糊”。即,能够抑制关于某个物体发生在时间上交替地重复出现检测到该物体的状态和检测不到该物体的状态这样的现象。
[0303]
另外,第1神经网络nn1也可以具有针对上述取得的时间序列数据以时间序列方式进行处理的构造。例如,第1神经网络nn1中的cnn也可以使用lstm(long short term memory,长短期记忆)网络。
[0304]
如以上那样,实施方式4所涉及的监视装置600具备:物体检测装置200、物体检测装置200a或者物体检测装置200b;解析部51,解析物体检测部24的检测结果;以及输出控制部52,输出与解析部51的解析结果对应的解析结果信号。由此,能够实现基于高精度的物体检测的结果的监视。
[0305]
此外,本技术公开能够在该公开的范围内实现各实施方式的自由的组合、或者各实施方式的任意的构成要素的变形、或者各实施方式中的任意的构成要素的省略。
[0306]
产业上的可利用性
[0307]
本公开所涉及的物体检测装置、监视装置以及学习装置例如能够用于电子后视镜。
[0308]
符号的说明
[0309]
1:摄像机;2:存储装置;3、3a、3b:存储装置;4:时钟;5:存储装置;6:定位器;7:存储装置;8:输出装置;11:特征映射图存储部;12:图像数据存储部;13:按时刻的参数存储部;14:按时刻的图像数据存储部;15:按场所的参数存储部;16:按场所的图像数据存储部;21:图像数据取得部;22:第1特征量抽出部;23:第2特征量抽出部;24:物体检测部;25:学习部;26:时刻信息取得部;27:参数选择部;28:场所信息取得部;29:参数选择部;31:第1特征映射图生成部;32:第2特征映射图生成部;33:第3特征映射图生成部;34:位置推测部;35:种类推测部;36:第4特征映射图生成部;41:处理器;42:存储器;43:处理电路;44:处理器;45:存储器;46:处理电路;51:解析部;52:输出控制部;61:异常判定部;62:时间解析部;63:威胁判定部;64:空间解析部;65:图像输出控制部;66:声音输出控制部;71:显示器;72:扬声器;81:处理器;82:存储器;83:处理电路;100、100a、100b:物体检测系统;200、200a、
200b:物体检测装置;300、300a、300b:学习系统;400:学习装置;500:监视系统;600:监视装置。

技术特征:
1.一种物体检测装置,其特征在于,具备:图像数据取得部,取得表示由摄像机摄像得到的摄像图像的图像数据;第1特征量抽出部,使用所述图像数据来生成第1特征映射图;第2特征量抽出部,使用所述图像数据来生成第2特征映射图,并且针对该第2特征映射图进行使用了所述第1特征映射图的加法或者乘法而进行针对该第2特征映射图的加权,从而生成第3特征映射图;以及物体检测部,使用所述第3特征映射图来检测所述摄像图像中的物体,所述第1特征映射图中的第1特征量是使用了与物体相似性对应的中级别特征的特征量所述第2特征映射图中的第2特征量是使用了高级别特征的特征量。2.根据权利要求1所述的物体检测装置,其特征在于,所述第2特征量抽出部进行将所述第1特征映射图中的各个所述第1特征量与各个所述第2特征映射图中的对应的所述第2特征量相加的加法而进行所述加权。3.根据权利要求1所述的物体检测装置,其特征在于,所述第2特征量抽出部进行将所述第1特征映射图中的各个所述第1特征量与各个所述第2特征映射图中的对应的所述第2特征量相乘的乘法而进行所述加权。4.根据权利要求1所述的物体检测装置,其特征在于,所述第1特征量抽出部根据所述第1特征映射图,生成由分别不同的第4特征量构成的多个第4特征映射图,所述第2特征量抽出部进行将所述第4特征映射图中的各个所述第4特征量与对应于所述第4特征映射图的所述第2特征映射图中的对应的所述第2特征量相加的加法而进行所述加权。5.根据权利要求1所述的物体检测装置,其特征在于,所述第1特征量抽出部根据所述第1特征映射图,生成由分别不同的第4特征量构成的多个第4特征映射图,所述第2特征量抽出部进行将所述第4特征映射图中的各个所述第4特征量与对应于所述第4特征映射图的所述第2特征映射图中的对应的所述第2特征量相乘的乘法而进行所述加权。6.根据权利要求1所述的物体检测装置,其特征在于,所述第2特征量抽出部进行将所述第1特征映射图在所述第2特征映射图的维度方向上相加的加法而进行所述加权。7.根据权利要求1所述的物体检测装置,其特征在于,所述第1特征量抽出部通过无监督学习来自由学习。8.根据权利要求1所述的物体检测装置,其特征在于,所述第2特征量抽出部通过监督学习来自由学习。9.根据权利要求8所述的物体检测装置,其特征在于,所述第2特征量抽出部使用卷积神经网络来生成所述第2特征映射图。10.根据权利要求9所述的物体检测装置,其特征在于,所述第2特征量抽出部通过深度学习来自由学习。
11.根据权利要求7所述的物体检测装置,其特征在于,所述第1特征量抽出部生成的所述第1特征映射图是基于作为所述图像数据的摄像图像的显著性映射图、基于作为所述图像数据的距离图像或声呐图像的深度映射图以及基于作为所述图像数据的热图像的热映射图中的至少一个。12.根据权利要求2至5所述的物体检测装置,其特征在于,所述第2特征量抽出部根据构造类似性以及图像类似度相关中的至少一个来设定所述加权中的重要度。13.根据权利要求1所述的物体检测装置,其特征在于,通过进行所述加权,各个所述第2特征映射图中的各个所述第2特征量根据对应的所述物体相似性而被增强。14.根据权利要求1所述的物体检测装置,其特征在于,所述物体检测部通过执行基于相互不同的内核大小的多次的卷积运算,检测所述物体。15.根据权利要求1所述的物体检测装置,其特征在于,所述物体检测部通过监督学习来自由学习。16.根据权利要求15所述的物体检测装置,其特征在于,所述物体检测部通过回归来推测所述物体的位置,并且通过分类来推测所述物体的种类。17.根据权利要求16所述的物体检测装置,其特征在于,所述物体的种类包括所述物体的行进方向。18.根据权利要求8所述的物体检测装置,其特征在于,所述物体检测装置具备:时刻信息取得部,取得时刻信息;以及参数选择部,选择包含于按时刻的学习完毕参数数据库的参数集中的与所述时刻信息表示的时刻对应的参数集,所述第2特征量抽出部使用包含于由所述参数选择部选择的参数集的学习完毕参数来生成所述第2特征映射图以及所述第3特征映射图。19.根据权利要求8所述的物体检测装置,其特征在于,所述物体检测装置具备:场所信息取得部,取得场所信息;以及参数选择部,选择包含于按场所的学习完毕参数数据库的参数集中的与所述场所信息表示的场所对应的参数集,所述第2特征量抽出部使用包含于由所述参数选择部选择的参数集的学习完毕参数来生成所述第2特征映射图以及所述第3特征映射图。20.一种监视装置,具备:权利要求1所述的物体检测装置;解析部,解析所述物体检测部的检测结果;以及输出控制部,输出与所述解析部的解析结果对应的解析结果信号。21.根据权利要求20所述的监视装置,其特征在于,
所述解析部具有对所述物体的异常度进行判定的异常判定部以及对所述物体的威胁度进行判定的威胁判定部中的至少一方。22.根据权利要求21所述的监视装置,其特征在于,所述异常判定部根据所述物体检测部的检测结果表示的所述物体的位置来判定所述异常度。23.根据权利要求21所述的监视装置,其特征在于,所述威胁判定部根据所述物体检测部的检测结果表示的所述物体的行进方向来判定所述威胁度。24.根据权利要求21所述的监视装置,其特征在于,所述威胁判定部根据所述摄像图像中的所述物体的尺寸的时间变化量来判定所述威胁度。25.根据权利要求24所述的监视装置,其特征在于,所述解析部具有时间解析部,该时间解析部通过在时间上解析所述物体检测部的检测结果来计算所述时间变化量。26.根据权利要求21所述的监视装置,其特征在于,所述解析部具有空间解析部,该空间解析部通过在空间上解析所述异常判定部的判定结果以及所述威胁判定部的判定结果中的至少一方来生成风险映射图。27.根据权利要求26所述的监视装置,其特征在于,所述输出控制部通过将所述解析结果信号输出到显示器,从而使与所述风险映射图对应的风险映射图图像显示于所述显示器。28.一种学习装置,其特征在于,具备:图像数据取得部,取得表示学习用图像的图像数据;第1特征量抽出部,使用所述图像数据来生成第1特征映射图;第2特征量抽出部,使用所述图像数据来生成第2特征映射图,并且针对该第2特征映射图进行使用了所述第1特征映射图的加法或者乘法而进行针对该第2特征映射图的加权,从而生成第3特征映射图;物体检测部,使用所述第3特征映射图来检测所述学习用图像中的物体;以及学习部,根据所述物体检测部的检测结果进行所述第2特征量抽出部以及所述物体检测部的学习,所述第1特征映射图中的第1特征量是使用了与物体相似性对应的中级别特征的特征量,所述第2特征映射图中的第2特征量是使用了高级别特征的特征量。29.一种模型生成方法,其特征在于,具备:图像数据取得部取得表示学习用图像的图像数据的步骤;第1特征量抽出部使用所述图像数据来生成第1特征映射图的步骤;第2特征量抽出部使用所述图像数据来生成第2特征映射图,并且针对该第2特征映射图进行使用了所述第1特征映射图的运算而进行针对该第2特征映射图的加权,从而生成第3特征映射图的步骤;物体检测部使用所述第3特征映射图来检测所述学习用图像中的物体的步骤;以及
学习部根据所述物体检测部的检测结果进行所述第2特征量抽出部以及所述物体检测部的学习,生成将所述图像数据作为输入并输出所述物体的检测结果的机器学习模型的步骤,所述第1特征映射图中的第1特征量是使用了与物体相似性对应的中级别特征的特征量,所述第2特征映射图中的第2特征量是使用了高级别特征的特征量。

技术总结
物体检测装置(200)具备:图像数据取得部(21),取得表示由摄像机(1)摄像得到的摄像图像的图像数据;第1特征量抽出部(22),使用图像数据生成第1特征映射图(FM1);第2特征量抽出部(23),使用图像数据生成第2特征映射图(FM2),并且针对该第2特征映射图(FM2)进行使用了第1特征映射图(FM1)的加法或乘法而进行针对该第2特征映射图(FM2)的加权,从而生成第3特征映射图(FM3);和物体检测部(24),使用第3特征映射图(FM3)检测摄像图像中的物体,第1特征映射图(FM1)中的第1特征量使用与物体相似性对应的中级别特征,第2特征映射图(FM2)中的第2特征量使用高级别特征。第2特征量使用高级别特征。第2特征量使用高级别特征。


技术研发人员:泽田友哉 福地贤
受保护的技术使用者:三菱电机株式会社
技术研发日:2020.12.25
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐