对象检测的制作方法

未命名 07-12 阅读:133 评论:0


1.本公开涉及车辆中的对象检测传感器。


背景技术:

2.图像可以由传感器获取并使用计算机进行处理以确定关于系统周围环境中的对象的数据。感测系统的操作可以包括获取关于系统环境中的对象的准确且及时的数据。计算机可以从一个或多个图像传感器获取图像,所述图像可以被处理以确定对象的位置。计算机可以使用从图像中提取的对象位置数据来操作系统,包括车辆、机器人、安全和对象跟踪系统。


技术实现要素:

3.本文讨论的技术提高了交通基础设施系统向车辆提供固定传感器数据的能力,包括通过减少确定图像数据中的对象所需的时间和计算资源。本文讨论的技术使用偏心率分析来确定图像的包括移动对象的部分。图像的不包括移动对象的部分可以被掩蔽,即,设置为零。经掩蔽图像可以被转换为压缩密集矩阵,所述压缩密集矩阵仅包括图像的包括移动对象的部分。可以确定输入压缩密集矩阵并基于规则手册而不是算术卷积来检测对象的卷积神经网络,从而减少检测图像数据中的移动对象所需的时间和计算资源。
4.公开了一种方法,其包括:基于确定多个图像中的每个像素位置的偏心率来确定包括所述多个图像中的至少一个移动对象的分割掩模,通过将所述分割掩模应用于包括在所述多个图像中的第一图像来分割所述图像,以及将所述分割的第一图像变换为包括所述分割的第一图像的非零部分的像素值的压缩密集矩阵。可以将所述压缩密集矩阵输入到被训练以检测对象的稀疏卷积神经网络,并可以从所述稀疏卷积神经网络输出包括在所述第一图像中的与所述至少一个移动对象相对应的检测到的对象。可以通过基于所检测到的对象确定车辆路径来操作车辆。在该车辆路径上操作车辆可以包括控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者。所述多个图像可以对应于由观察交通场景的相机在多个时间步长获取的图像。至少一个移动对象可包括车辆和行人中的一者或多者。
5.像素位置可以对应于包括在多个图像中的每一个中的矩形像素阵列中的像素地址。可以基于确定每个像素位置的平均像素值和每个像素位置的方差来确定所述偏心率。当所述偏心率大于用户确定的阈值时,所述分割的第一图像的像素可被设置为所述偏心率,并且当所述偏心率小于用户确定的阈值时,所述分割的第一图像的像素可被设置为零。将所述分割掩模应用于所述第一图像可包括确定所述分割掩模的每个像素与所述第一图像的对应像素之间的逻辑“与”。所述压缩密集矩阵可包括在所述分割的第一图像中包括的每个非零像素的x,y像素地址和像素值。所述稀疏卷积神经网络可输入所述压缩密集矩阵并输出包括边界框的x,y像素地址和对应于对象类别的对象标签的阵列。所述稀疏卷积神经网络可包括多个卷积层和多个最大池化层。可分别基于包括多个图像集的训练数据集和对应于包括在所述多个图像集中的移动对象的地面实况数据来训练所述稀疏卷积神经网
络以检测对象。所述地面实况数据可包括在所述多个图像集中包括的所述移动对象的对象标签和与对象位置相对应的边界框。
6.还公开了一种计算机可读介质,所述计算机可读介质存储用于执行上述方法步骤中的一些或全部的程序指令。还公开了一种被编程用于执行上述方法步骤中的一些或全部的计算机,其包括计算机设备,所述计算机设备被编程为:基于确定多个图像中的每个像素位置的偏心率来确定包括所述多个图像中的至少一个移动对象的分割掩模,通过将所述分割掩模应用于包括在所述多个图像中的第一图像来分割所述图像,以及将所述分割的第一图像变换为包括所述分割的第一图像的非零部分的像素值的压缩密集矩阵。可以将所述压缩密集矩阵输入到被训练以检测对象的稀疏卷积神经网络,并可以从所述稀疏卷积神经网络输出包括在所述第一图像中的与所述至少一个移动对象相对应的检测到的对象。可以通过基于所检测到的对象确定车辆路径来操作车辆。在该车辆路径上操作车辆可以包括控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者。所述多个图像可以对应于由观察交通场景的相机在多个时间步长获取的图像。至少一个移动对象可包括车辆和行人中的一者或多者。
7.所述指令可以包括用于进行以下操作的另外的指令:确定与包括在多个图像中的每一个中的矩形像素阵列中的像素地址相对应的像素位置。可以基于确定每个像素位置的平均像素值和每个像素位置的方差来确定所述偏心率。当所述偏心率大于用户确定的阈值时,所述分割的第一图像的像素可被设置为所述偏心率,并且当所述偏心率小于用户确定的阈值时,所述分割的第一图像的像素可被设置为零。将所述分割掩模应用于所述第一图像可包括确定所述分割掩模的每个像素与所述第一图像的对应像素之间的逻辑“与”。所述压缩密集矩阵可包括在所述分割的第一图像中包括的每个非零像素的x,y像素地址和像素值。所述稀疏卷积神经网络可输入所述压缩密集矩阵并输出包括边界框的x,y像素地址和对应于对象类别的对象标签的阵列。所述稀疏卷积神经网络可包括多个卷积层和多个最大池化层。可分别基于包括多个图像集的训练数据集和对应于包括在所述多个图像集中的移动对象的地面实况数据来训练所述稀疏卷积神经网络以检测对象。所述地面实况数据可包括在所述多个图像集中包括的所述移动对象的对象标签和与对象位置相对应的边界框。
附图说明
8.图1是示例性交通基础设施系统的框图。
9.图2是交通场景的示例性图像的图示。
10.图3是基于交通场景的图像的示例性偏心率图的图示。
11.图4是使用偏心率图掩蔽的交通场景的示例性图像的图示。
12.图5是示例性卷积神经网络的图示。
13.图6是使用稀疏卷积神经网络在经掩蔽交通场景中检测到的示例性对象的图示。
14.图7是使用偏心率分析和稀疏卷积神经网络来确定图像数据中的对象的示例性过程的流程图。
15.图8是基于确定的对象来操作车辆的示例性过程的流程图。
具体实施方式
16.感测系统可以获取关于系统周围的环境的数据(例如图像数据),并且处理所述数据以确定对象的身份和/或位置。例如,可以训练并然后使用深度神经网络(dnn)来确定由系统中的传感器获取的图像数据中的对象,所述系统包括车辆引导系统、机器人操作系统、安全系统、制造系统和产品跟踪系统。车辆引导可以包括车辆在包括多个对象的环境中在自主或半自主模式下操作。机器人引导可以包括引导机器人末端执行器(例如夹持器)来拾取零件并对零件进行取向以在包括多个零件的环境中进行组装。安全系统包括其中计算机从观察安全区域的相机获取视频数据以向授权用户提供访问权限并检测包括多个用户的环境中的未经授权进入的特征。在制造系统中,dnn可以确定包括多个零件的环境中的一个或多个零件的位置和取向。在产品跟踪系统中,深度神经网络可以确定包括多个包裹的环境中的一个或多个包裹的位置和取向。
17.车辆引导在本文中将被描述为使用计算机来检测交通场景中的对象(例如,车辆和行人)并且基于检测到的对象来确定操作车辆的车辆路径的非限制性示例。交通场景是交通基础设施系统或车辆周围的环境,其可以包括道路的一部分以及包括车辆和行人等的对象。例如,交通基础设施系统中的计算装置可以被编程为从包括在交通基础设施系统中的一个或多个传感器获取一个或多个图像,检测图像中的对象,并且传送标识对象的标签以及对象的位置。传感器可以包括获取对应于可见或红外波长的光的图像的视频或静态图像相机。传感器可以是固定的,并且可以安装在杆、建筑物或其他结构上,以给予传感器包括交通场景中的对象的交通场景的视野。传感器还可以包括通常发射红外波长的光的激光雷达传感器、发射无线电波的雷达传感器以及发射声波的超声波传感器。激光雷达传感器、雷达传感器和超声波传感器都测量到环境中的点的距离。
18.在一些示例中,包括在交通基础设施系统中的固定传感器可以获取交通场景的一个或多个图像并处理所述图像以确定所述图像中包括的对象的位置。对象的位置可以被传送到车辆以允许车辆中的计算装置确定在其上操作车辆的车辆路径。包括在交通基础设施系统中的固定传感器可以安装在杆、建筑物或其他结构上,以提供交通场景的概况并提供关于交通场景中的对象的数据以例如增强由包括在所述车辆中的传感器获取的数据。
19.图1是可以包括交通基础设施系统105的感测系统100的图示,所述交通基础设施系统包括服务器计算机120和固定传感器122。感测系统100包括车辆110,所述车辆可在自主(“自主”本身在本公开中意指“完全自主”)模式、半自主模式和乘员驾驶(也被称为非自主)模式下操作。一个或多个车辆110的计算装置115可从传感器116接收关于车辆110的操作的数据。计算装置115可以自主模式、半自主模式或非自主模式操作车辆110。
20.计算装置115包括诸如已知的处理器和存储器。另外,存储器包括一种或多种形式的计算机可读介质,并且存储指令,所述指令可由处理器执行来执行包括如本文所公开的各种操作。例如,计算装置115可以包括编程以操作车辆制动、推进(例如,通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆110的加速度)、转向、气候控制、内部灯和/或外部灯等中的一者或多者,以及确定计算装置115(而不是人类操作员)是否以及何时控制此类操作。
21.计算装置115可以包括多于一个计算装置(例如,包括在车辆110中以用于监测和/或控制各种车辆部件的控制器等等(例如,动力传动系统控制器112、制动控制器113、转向
控制器114等)),或例如经由如下文进一步所描述的车辆通信总线通信地耦合到所述多于一个计算装置。计算装置115通常被布置用于通过车辆通信网络(例如,包括车辆110中的总线,诸如控制器局域网(can)等)通信;另外地或可选地,车辆110网络可以包括诸如已知的有线或无线通信机制,例如以太网或其他通信协议。
22.计算装置115可经由车辆网络向车辆中的各种装置(例如,控制器、致动器、传感器(包括传感器116)等)传输消息和/或从所述各种装置接收消息。可替代地或另外地,在计算装置115实际上包括多个装置的情况下,可使用车辆通信网络来用于在本公开中表示为计算装置115的装置之间的通信。另外,如下文所提及,各种控制器或感测元件(诸如传感器116)可经由车辆通信网络向计算装置115提供数据。
23.另外,计算装置115可被配置用于通过车辆对基础设施(v2i)接口111经由网络130与远程服务器计算机120(诸如云服务器)通信,如下所描述的,所述接口包括硬件、固件和软件,所述硬件、固件和软件准许计算装置115经由诸如无线互联网或蜂窝网络的网络130与远程服务器计算机120通信。因此,v2i接口111可以包括被配置为利用各种有线和/或无线联网技术(例如,蜂窝、以及有线和/或无线分组网络)的处理器、存储器、收发器等。计算装置115可被配置用于使用例如在邻近车辆110之间在自组网的基础上形成或通过基于基础设施的网络形成的车辆对车辆(v2v)网络(例如根据专用短程通信(dsrc)和/或类似的通信)通过v2i接口111与其他车辆110通信。计算装置115还包括诸如已知的非易失性存储器。计算装置115可以通过将数据存储在非易失性存储器中来记录数据,以便以后检索并经由车辆通信网络和车辆对基础设施(v2i)接口111传输到服务器计算机120或用户移动装置160。
24.如已经提及的,通常包括在存储在存储器中并可由计算装置115的处理器执行的指令中的是用于在没有人类操作员干预的情况下操作一个或多个车辆110部件(例如,制动、转向、推进等)的编程。使用在计算装置115中接收的数据(例如,来自传感器116的传感器数据、服务器计算机120等的数据),计算装置115可在没有驾驶员的情况下进行各种确定和/或控制各种车辆110部件和/或操作以操作车辆110。例如,计算装置115可包括编程以调节车辆110操作行为(即,车辆110操作的物理表现),诸如速度、加速度、减速度、转向等,以及策略性行为(即,通常以意图实现路线的有效的穿越的方式控制操作行为),诸如车辆之间的距离和/或车辆之间的时间量、车道改变、车辆之间的最小间隙、左转跨过路径最小值、到特定位置处的到达时间以及从到达到穿过十字路口的十字路口(无信号灯)最短时间。
25.如本文所使用的术语控制器包括通常被编程来监测和/或控制特定车辆子系统的计算装置。示例包括动力传动系统控制器112、制动控制器113和转向控制器114。控制器可为诸如已知的电子控制单元(ecu),可能包括如本文所描述的附加的编程。控制器可通信地连接到计算装置115并且从所述计算装置接收指令以根据指令来致动子系统。例如,制动控制器113可从计算装置115接收指令以操作车辆110的制动器。
26.用于车辆110的一个或多个控制器112、113、114可包括已知的电子控制单元(ecu)等,作为非限制性示例,包括一个或多个动力传动系统控制器112、一个或多个制动控制器113和一个或多个转向控制器114。控制器112、113、114中的每一个可包括相应的处理器和存储器以及一个或多个致动器。控制器112、113、114可被编程并且连接到车辆110通信总线,诸如控制器局域网(can)总线或局域互连网(lin)总线,以从计算装置115接收指令并且
基于指令而控制致动器。
27.传感器116可以包括已知的多种装置,以经由车辆通信总线提供数据。例如,固定到车辆110的前保险杠(未示出)的雷达可提供从车辆110到车辆110前方的下一车辆的距离,或者设置在车辆110中的全球定位系统(gps)传感器可提供车辆110的地理坐标。例如,由雷达和/或其他传感器116提供的距离和/或由gps传感器提供的地理坐标可由计算装置115用来自主或半自主地操作车辆110。
28.车辆110通常是能够自主和/或半自主操作并且具有三个或更多个车轮的基于地面的车辆110(例如,客车、轻型货车等)。车辆110包括一个或多个传感器116、v2i接口111、计算装置115和一个或多个控制器112、113、114。传感器116可以收集与车辆110和车辆110的操作环境相关的数据。作为举例而非限制,传感器116可包括例如测高仪、相机、激光雷达、雷达、超声波传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器116可用来感测车辆110操作所处的环境,例如,传感器116可检测诸如天气状况(降雨、外部环境温度等)的现象、道路坡度、道路位置(例如,使用道路边缘、车道标记等)或目标对象(诸如邻近车辆110)的位置。传感器116还可以用于收集数据,包括与车辆110的操作相关的动态车辆110数据,诸如速度、横摆率、转向角度、发动机转速、制动压力、油压、施加到车辆110中的控制器112、113、114的功率电平、在部件之间的连接性以及车辆110的部件的准确且及时的性能。
29.车辆可被配备成以自主模式和乘员驾驶模式两者操作。半自主模式或完全自主模式意指车辆可由作为具有传感器和控制器的系统的一部分的计算装置部分地或完全地驾驶的操作模式。车辆可能被占用或未被占用,但是在任一种情况下,都可在没有乘员协助的情况下部分地或完全地驾驶车辆。出于本公开的目的,自主模式被定义为车辆推进(例如,经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一个由一个或多个车辆计算机控制的模式;在半自主模式中,车辆计算机控制车辆推进、制动和转向中的一个或多个。在非自主模式下,这些都不由计算机控制。
30.图2是交通场景202的图像200的图示。交通场景202包括道路204和行人206、208、210、212、214、216、218。行人可以统称为移动对象220。交通场景202的图像200可以由包括在交通基础设施系统105中的传感器122获取。传感器122可以是固定式相机。例如,其他类型的固定传感器122可以包括激光雷达传感器、雷达传感器或超声波传感器。固定式相机可安装在相机支架上,该相机支架可以包括交通信号杆、灯杆、专用杆或支架、建筑物、或现有结构(诸如桥梁、立交桥或标志杆)。固定式相机可以获取可见或红外频率范围内的单色或彩色图像。固定式相机可以是可以在短时间段内获取多个图像(例如高达每秒60个视频帧)的摄像机。因为相机是固定的,所以包括在图像的背景部分中的像素从图像到图像保持不变。当对象相对于背景移动时,包括在前景中的像素(包括移动对象)通常会从图像到图像改变值。
31.图3是通过对来自图2的交通场景202的多个图像200执行偏心率分析而产生的偏心率图像300的图示。偏心率图像300包括背景区域(白色像素)302和前景区域(黑色像素)304、306、308、310。前景区域304、306、308、310对应于包括在图2的图像200中的移动对象220。偏心率分析是用于基于检测移动对象来分割图像的技术。分割图像意味着基于图像数
据的性质将图像划分为各部分。偏心率分析将图像分割成背景区域,其中图像像素的值在后续图像之间不发生变化,和前景区域,其中图像像素的值发生变化,通常是因为它们对应于一个或多个移动对象。
32.也就是说,偏心率分析是一种用于在静态图像中表示动态视觉数据的技术。偏心率分析以逐像素的方式递归地计算静态图像,以汇总在多个时间步长获取的多个图像中的运动。通过根据以下等式递归地计算多个图像的相应像素的平均像素值μk和方差来确定像素xk在时间k的偏心率εk:
[0033][0034]
其中均值由下式确定:
[0035][0036]

[0037][0038]
图像200序列中不包括移动对象的像素位置将具有小于用户确定的阈值的离心率εk,其被定义为:
[0039][0040]
其中m是用户确定的值,通常m=3。可以通过选择m的值来确定m的值,所述值产生具有对应于移动对象的区域的偏心率图像300。偏心率εk小于阈值的像素位置被设置为零,而偏心率εk大于阈值的像素位置被设置为偏心率εk的值。例如,通过将具有非零值的所有像素设置为“1”,可以使用偏心率图像300来形成分割掩模。
[0041]
图4是通过将基于偏心图像300的分割掩模与交通场景202的图像200进行“与运算”而形成的经掩蔽图像400的图示。“与运算”是对两个图像的对应像素执行逻辑“与”的图像运算。分割掩模中具有零值的像素将导致经掩蔽图像400中具有零值的像素,而分割掩模中具有值“1”的像素将导致其值等于其在图像200中的值的像素。经掩蔽图像400包括对应于图2中的图像200中所包括的行人206、208、210、212、214、216、218的移动对象402、404、406、408、410、412。
[0042]
经掩蔽图像400可以通过首先将经掩蔽图像400变换为压缩密集矩阵来准备由稀疏卷积神经网络进行处理。通过扫描经掩蔽图像400,通常以沿着行从左上到右下的光栅扫描顺序,可以将经掩蔽图像变换为压缩密集矩阵。当扫描经掩蔽图像400时,将非零像素的像素值输入到阵列中,所述阵列包括对应于图像的矩形像素阵列中的像素的x,y地址。例如,像素值可以是对应于像素的红色、绿色和蓝色(rgb)颜色值的三个数字。以这种方式,压缩密集矩阵将仅包括来自经掩蔽图像400的非零值,从而减少要由稀疏卷积神经网络处理的值的数量。
[0043]
图5是稀疏卷积神经网络500的图示。稀疏卷积神经网络包括卷积层502、504、506、508、510、512、514、516。图像数据534被输入到第一卷积层502,与一个或多个卷积核卷积,用降低数据的x、y分辨率的任选的最大池化层进行处理并传递到随后的卷积层504、506、508、510、512、514、516上。中间结果522、524、526、528、530和最终结果532被传递到检测层
518以检测移动对象的类别。例如,移动对象类别可以包括行人和车辆。将检测到的对象类别传递到非最大抑制层520以消除除局部最大检测到的对象类别之外的所有结果,然后输出536。卷积神经网络在wei liu等人的自本技术的提交日起可用的“ssd:single shot multibox detector”(arxiv:1512.02325v5[cs.cv],2016年12月29日,arxive.org)中进行了讨论。
[0044]
常规卷积神经网络500适于通过用规则手册替换卷积层504、506、508、510、512、514、516中所包括的卷积运算来形成稀疏卷积神经网络500。众所周知,稀疏卷积收集参考卷积核元素的所有运算,并将它们保存在规则手册中作为计算指令。规则手册预先计算对像素数据执行卷积的结果并将预先计算的结果存储在表中。将来自压缩密集矩阵的像素值输入到规则手册,所述规则手册在表中查找结果并将结果应用于输出压缩密集矩阵以传递到稀疏卷积神经网络的下一层。稀疏卷积是高效的,因为不需要扫描输入图像的所有像素。稀疏卷积仅计算与经掩蔽图像400中的非零像素相对应的压缩密集矩阵中所包括的非零元素的卷积。使用规则手册将稀疏卷积重写为紧凑矩阵乘法问题通过消除具有零作为输出值的不必要的卷积计算来减少卷积计算的数量。使用偏心率εk来减少输入图像200的数据以确定像素值的压缩密集矩阵并用稀疏卷积神经网络500处理像素值的压缩密集矩阵可以有利地减少确定与图像600数据中的移动对象相对应的边界框620所需的时间和计算资源。
[0045]
稀疏卷积神经网络500以与卷积神经网络相同的方式进行训练。获取包括移动对象的多个图像集的训练数据集。所述图像集包括适合于执行偏心率分析的序列中的图像。用户分析训练数据集以标记和定位图像数据中的移动对象以形成地面实况数据。移动对象标签确定移动对象属于哪一类别的移动对象。然后使用如上文关于图3-图5所讨论的偏心率分析和稀疏卷积神经网络来处理训练数据集中的图像。确定将来自稀疏卷积神经网络500的输出与对应于输入图像数据的地面实况进行比较的损失函数。损失函数用于为控制卷积层的处理的参数选择权重,所述卷积层包括提供与地面实况最匹配的输出的规则手册。经训练的稀疏卷积神经网络可以输出边界框的x、y像素地址和对象标签,所述对象标签将对象标识为属于包括在训练数据集中的对象类别中的一个,例如行人或车辆。
[0046]
图6是输出图像600,其包括边界框606、608、610、612、614、616、618,统称为边界框620,与包括在图2的图像200中的行人206、208、210、212、214、216、218相对应。响应于像素值的压缩密集矩阵,从稀疏卷积神经网络500输出与对象类别相对应的对象标签和与对象位置相对应的边界框620的像素坐标。像素值的压缩密集矩阵对应于使用偏心率图像300进行分割以形成经掩蔽图像400并且然后被变换为压缩密集矩阵的图像200。然后将对象标签和边界框620的像素坐标应用于图像200以标识移动对象220,即,图像200中的行人。对象标签和与移动对象的位置相对应的边界框620的像素坐标可以由交通基础设施系统105传送到车辆110,以通过确定避开移动对象220的车辆路径来辅助车辆操作。车辆路径是多项式函数,其包括车辆110沿循车辆路径的横向加速度和纵向加速度的上限和下限。车辆110中的计算装置115可以通过使用控制器112、113、114控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者而沿车辆路径操作车辆110。
[0047]
图7是关于图1至图6描述的用于检测由包括在交通基础设施系统105中的固定传感器122获取的图像数据中的移动对象的过程的流程图的图示。过程700可以由服务器计算机120的处理器来实施,所述处理器将来自固定传感器122的图像数据作为输入,并执行命
令,并且输出与移动对象相对应的检测到的边界框620。过程700包括可以按所示次序执行的多个框。替代地或另外,过程700可以包括更少的框,或者可以包括以不同次序执行的框。
[0048]
过程700开始于框702,其中服务器计算机120通过确定由包括在交通基础设施系统105中的固定传感器122获取的多个输入图像200的像素的偏心率εk值来确定偏心率图像300,如上文关于图3所述。
[0049]
在框704处,服务器计算机120基于偏心率图像300用分割掩模掩蔽输入图像200,以形成经掩蔽图像400,所述经掩蔽图像包括对应于移动对象220的rgb像素值和否则的零,如上文关于图4所述。
[0050]
在框706处,服务器计算机120对经掩蔽图像400进行变换以生成与经掩蔽图像400的非零像素相对应的像素值的压缩密集矩阵,如上文关于图4所述。
[0051]
在框708处,将非零像素值的压缩密集矩阵输入到稀疏卷积神经网络500,以确定图像600中所包括的与移动对象相对应的边界框620的像素地址,如上文关于图5和图6所述。
[0052]
在框710处,由服务器计算机120输出图像600中所包括的与移动对象相对应的边界框620。710包括在图像600中的与移动对象相对应的边界框620可以输出到例如包括在车辆110中的计算装置115。在框710之后,过程700结束。
[0053]
图8是关于图1至图7所描述的用于基于从交通基础设施系统105下载的与移动对象相对应的边界框620来操作车辆110的过程的流程图的图式。过程800可以由计算装置115的处理器来实施,所述处理器将来自服务器计算机120的数据作为输入,并执行命令,并且操作车辆110。过程800包括可以按所示次序执行的多个框。替代地或另外,过程800可以包括更少的框,或者可以包括以不同次序执行的框。
[0054]
过程800在框802处开始,其中车辆110中的计算装置115下载例如由服务器计算机120输出的包括在图像600中的与移动对象相对应的边界框620。计算装置115可例如经由网络130来下载包括在图像600中的与移动对象相对应的边界框620。
[0055]
在框804处,计算装置115基于包括在图像600中的与移动对象相对应的边界框620来确定车辆路径。车辆路径可以用多项式函数或等式来描述,其包括当车辆沿着车辆路径行进时要施加到车辆运动的最大和最小横向加速度和纵向加速度。因为偏心率分析和稀疏卷积神经网络允许使用有限的计算机资源快速地确定与移动对象相对应的边界框620,所以服务器计算机120可以确定包括与移动对象相对应的边界框620的多个连续图像600,从而允许服务器计算机120或计算装置115实时跟踪移动对象,从而允许计算装置115基于预测移动对象的位置来确定车辆路径。
[0056]
在框806处,计算装置115向一个或多个控制器112、113、114输出命令,例如以控制车辆动力传动系统、车辆转向和/或车辆制动以控制车辆运动以沿着在框804处确定的车辆路径操作车辆110。在框806之后,过程800结束。
[0057]
诸如本文讨论的那些的计算装置通常各自包括命令,所述命令可由诸如上文所标识的那些的一个或多个计算装置执行并且用于实施上文描述的过程的框或步骤。例如,上文论述的过程框可体现为计算机可执行命令。
[0058]
计算机可执行命令可由使用各种编程语言和/或技术创建的计算机程序来编译或解译,所述编程语言和/或技术包括但不限于以下的单一形式或组合形式:java
tm
、c、c++、
python、julia、scala、visual basic、java script、perl、html等。通常,处理器(例如,微处理器)接收例如来自存储器、计算机可读介质等的命令,并且执行这些命令,从而执行包括本文所描述的过程中的一者或多者的一个或多个过程。此类命令和其他数据可存储在文件中并且使用多种计算机可读介质来传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。
[0059]
计算机可读介质(也称为处理器可读介质)包括参与提供可由计算机(例如,由计算机的处理器)读取的数据(例如,指令)的任何非暂时性(例如,有形)介质。此类介质可采用许多形式,包括但不限于非易失性介质和易失性介质。指令可通过一种或多种传输介质来传输,所述一种或多种传输介质包括光纤、线、无线通信,包括构成耦合到计算机的处理器的系统总线的内部件。常见形式的计算机可读介质包括例如ram、prom、eprom、flash-eeprom、任何其他存储器芯片或盒式磁带、或计算机可从中读取的任何其他介质。
[0060]
除非本文作出相反的明确指示,否则权利要求中使用的所有术语意在给出如本领域技术人员所理解的普通和通常的含义。具体地,除非权利要求叙述相反的明确限制,否则使用诸如“一个”、“该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。
[0061]
术语“示例性”在本文中以表示示例的意义使用,例如,对“示例性小部件”的引用应被解读为仅指代小部件的示例。
[0062]
修饰值或结果的副词“大约”意味着形状、结构、测量值、值、确定、计算等可能因材料、机加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷而与确切描述的几何结构、距离、测量值、值、确定、计算等有偏差。
[0063]
在附图中,相同的附图标记指示相同的要素。另外,可改变这些要素中的一些或全部。相对于本文描述的介质、过程、系统、方法等,应理解,尽管此类过程等的步骤或框已被描述为根据特定的有序顺序发生,但是此类过程可通过以本文描述的次序以外的次序执行所描述的步骤来实践。还应理解,可同时执行某些步骤,可添加其他步骤,或者可省略本文描述的某些步骤。换句话说,本文对过程的描述是出于说明某些实施例的目的而提供的,并且决不应解释为限制所要求保护的发明。
[0064]
根据本发明,提供了一种计算机,所述计算机具有:处理器;以及存储器,所述存储器包括可由所述处理器执行以进行以下操作的指令:基于确定多个图像中的每个像素位置的偏心率来确定包括所述多个图像中的至少一个移动对象的分割掩模;通过将所述分割掩模应用于包括在所述多个图像中的第一图像来分割所述图像;将所述分割的第一图像变换为包括所述分割的第一图像的非零部分的像素值的压缩密集矩阵;将所述压缩密集矩阵输入到被训练以检测对象的稀疏卷积神经网络;以及从所述稀疏卷积神经网络输出包括在所述第一图像中的与所述至少一个移动对象相对应的检测到的对象。
[0065]
根据实施例,所述指令包括用于通过基于所检测到的对象确定车辆路径来操作车辆的另外的指令。
[0066]
根据实施例,在该车辆路径上操作车辆包括控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者。
[0067]
根据实施例,所述多个图像对应于由观察交通场景的相机在多个时间步长获取的图像。
[0068]
根据实施例,至少一个移动对象包括车辆和行人中的一者或多者。
[0069]
根据实施例,所述像素位置对应于包括在所述多个图像中的每一个中的矩形像素阵列中的像素地址。
[0070]
根据实施例,基于确定每个像素位置的平均像素值和每个像素位置的方差来确定所述偏心率。
[0071]
根据实施例,当所述偏心率大于用户确定的阈值时,所述分割的第一图像的像素被设置为所述偏心率,并且当所述偏心率小于用户确定的阈值时,所述分割的第一图像的像素被设置为零。
[0072]
根据实施例,将所述分割掩模应用于所述第一图像包括确定所述分割掩模的每个像素与所述第一图像的对应像素之间的逻辑“与”。
[0073]
根据实施例,所述压缩密集矩阵包括在所述分割的第一图像中包括的每个非零像素的x,y像素地址和像素值。
[0074]
根据实施例,所述稀疏卷积神经网络输入所述压缩密集矩阵并输出包括边界框的x,y像素地址和对应于对象类别的对象标签的阵列。
[0075]
根据实施例,所述稀疏卷积神经网络包括多个卷积层和多个最大池化层。
[0076]
根据实施例,分别基于包括多个图像集的训练数据集和对应于包括在所述多个图像集中的移动对象的地面实况数据来训练所述稀疏卷积神经网络以检测对象。
[0077]
根据实施例,所述地面实况数据包括在所述多个图像集中包括的所述移动对象的对象标签和与对象位置相对应的边界框。
[0078]
根据本发明,一种方法包括:基于确定多个图像中的每个像素位置的偏心率来确定包括所述多个图像中的至少一个移动对象的分割掩模;通过将所述分割掩模应用于包括在所述多个图像中的第一图像来分割所述图像;将所述分割的第一图像变换为包括所述分割的第一图像的非零部分的像素值的压缩密集矩阵;将所述压缩密集矩阵输入到被训练以检测对象的稀疏卷积神经网络;以及从所述稀疏卷积神经网络输出包括在所述第一图像中的与所述至少一个移动对象相对应的检测到的对象。
[0079]
在本发明的一个方面,所述方法包括通过基于所检测到的对象确定车辆路径来操作车辆。
[0080]
在本发明的一个方面,在所述车辆路径上操作所述车辆包括控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者。
[0081]
在本发明的一个方面,所述多个图像对应于由观察交通场景的相机在多个时间步长获取的图像。
[0082]
在本发明的一个方面,所述至少一个移动对象包括车辆和行人中的一者或多者。
[0083]
在本发明的一个方面,所述像素位置对应于包括在所述多个图像中的每一个中的矩形像素阵列中的像素地址。

技术特征:
1.一种方法,其包括:基于确定多个图像中的每个像素位置的偏心率来确定包括所述多个图像中的至少一个移动对象的分割掩模;通过将所述分割掩模应用于包括在所述多个图像中的第一图像来分割所述图像;将所述分割的第一图像变换为包括所述分割的第一图像的非零部分的像素值的压缩密集矩阵;将所述压缩密集矩阵输入到被训练以检测对象的稀疏卷积神经网络;以及从所述稀疏卷积神经网络输出包括在所述第一图像中的与所述至少一个移动对象相对应的检测到的对象。2.如权利要求1所述的方法,其还包括通过基于所检测到的对象确定车辆路径来操作车辆。3.如权利要求2所述的方法,其中在所述车辆路径上操作所述车辆包括控制车辆动力传动系统、车辆转向和车辆制动中的一者或多者。4.如权利要求1所述的方法,其中所述多个图像对应于由观察交通场景的相机在多个时间步长获取的图像。5.如权利要求1所述的方法,其中所述至少一个移动对象包括车辆和行人中的一者或多者。6.如权利要求1所述的方法,其中所述像素位置对应于包括在所述多个图像中的每一个中的矩形像素阵列中的像素地址。7.如权利要求1所述的方法,其中基于确定每个像素位置的平均像素值和每个像素位置的方差来确定所述偏心率。8.如权利要求1所述的方法,其中当所述偏心率大于用户确定的阈值时,所述分割的第一图像的像素被设置为所述偏心率,并且当所述偏心率小于用户确定的阈值时,所述分割的第一图像的像素被设置为零。9.如权利要求1所述的方法,其中将所述分割掩模应用于所述第一图像包括确定所述分割掩模的每个像素与所述第一图像的对应像素之间的逻辑“与”。10.如权利要求1所述的方法,其中所述压缩密集矩阵包括在所述分割的第一图像中包括的每个非零像素的x,y像素地址和像素值。11.如权利要求10所述的方法,其中所述稀疏卷积神经网络输入所述压缩密集矩阵并输出包括边界框的x,y像素地址和对应于对象类别的对象标签的阵列。12.如权利要求1所述的方法,其中所述稀疏卷积神经网络包括多个卷积层和多个最大池化层。13.如权利要求1所述的方法,其中分别基于包括多个图像集的训练数据集和对应于包括在所述多个图像集中的移动对象的地面实况数据来训练所述稀疏卷积神经网络以检测对象。14.如权利要求13所述的方法,其中所述地面实况数据包括在所述多个图像集中包括的所述移动对象的对象标签和与对象位置相对应的边界框。15.一种系统,其包括被编程为执行权利要求1-14中任一项所述的方法的计算机。

技术总结
本公开提供“对象检测”。可以基于确定多个图像中的每个像素位置的偏心率来确定包括所述多个图像中的至少一个移动对象的分割掩模。可以通过将所述分割掩模应用于包括在所述多个图像中的第一图像来分割所述图像。可以将所述分割的第一图像变换为包括所述分割的第一图像的非零部分的像素值的压缩密集矩阵。可以将所述压缩密集矩阵输入到被训练以检测对象的稀疏卷积神经网络。可以从所述稀疏卷积神经网络输出包括在所述第一图像中的与所述至少一个移动对象相对应的检测到的对象。一个移动对象相对应的检测到的对象。一个移动对象相对应的检测到的对象。


技术研发人员:穆斯塔法
受保护的技术使用者:福特全球技术公司
技术研发日:2022.11.24
技术公布日:2023/7/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐