处理图像以提取关于已知对象的信息的制作方法

未命名 09-08 阅读：82 评论：0

1.本公开涉及处理图像以促进提取关于已知对象的信息的方法，并且涉及用于实现该方法的计算机和计算机程序。

背景技术：

2.图像识别是指使用应用于它们的图像内容的某些形式的图案识别从图像中提取信息。机器学习(machine learning,ml)和计算机视觉的进步推动了图像识别任务的最先进性能。
3.图像识别具有许多实际应用。这些应用包括自动驾驶汽车和其他机器人系统。自动驾驶汽车(autonomous vehicle,av)，也称为无人驾驶汽车，是指具有用于监测其外部环境的传感器系统和能够自动地做出和实现驾驶决策的控制系统的车辆。其他移动机器人正在被开发，例如用于在内部和外部工业区运送货物。这些移动机器人上没有人，属于一种称为无人自动驾驶汽车(unmanned autonomous vehicle,uav)的移动机器人。自动驾驶空中移动机器人(无人机)也正在被开发。
4.自动驾驶汽车或其他移动机器人可能遇到需要被识别和解释的许多类型的对象，包括环境中的静态对象(例如交通灯或其他交通信号设备、道路标志、道路标记等)或动态对象(例如另一辆车上用于发出信号的灯，例如刹车灯、指示灯、前灯等)。对于发信号的对象(无论是静态的还是动态的)，从多种可能状态中准确且可靠地检测发信号的对象的视觉状态的能力可能是安全关键的。

技术实现要素：

5.因为在距对象不同距离(即不同深度)处捕获不同图像，因此用于图像识别的挑战是对象(或类似对象)可能以不同的比例出现在那些图像中。在自动驾驶中，在某些情景中，av不仅能够近距离识别还能够远距离识别某种类型的对象是非常重要的。交通灯属于此类，因为av规划者需要能够有效地响应于大距离范围内的交通灯状态变化。
6.在本文中，对象视图的比例是指对象视图在图像中的像素(对象像素)与世界中距离之间的对应关系。如果对象视图在图像中的像素高度和/或宽度基本相同，则称在两个图像中以相同比例捕获对象。
7.为了使ml图像识别部件能够识别图像中非常不同的比例的对象，它通常需要已训练足够数量的训练图像，这些图像表示需要运行的不同比例。
8.然而，当某种类型的对象始终以基本相同的比例出现在图像中时，对ml部件进行训练以识别特定类型的对象是更简单的任务，通常需要较少的训练数据即可实现类似的性能。
9.在本文中，关于捕获图像的世界中对象的外部知识用于将对象在该图像中的视图重新缩放到基本固定的比例。例如，在自动驾驶情景中，重新缩放可以利用最先进的自我车辆定位方法以及越来越多的可用于自动驾驶的“高清”地图，以便实质上简化所需图像识别
任务(例如交通灯检测)的实现。在这种情景中，如果在捕获图像时(分别经由自我定位以及从高清地图)精确地知道自我车辆的位置以及静态对象在世界环境中的位置，则在将图像识别应用于图像(例如检测对象的状态(例如交通灯信号状态))之前，可能将对象在图像中的视图精确地重新缩放到固定比例。
10.本文的第一方面提供了处理图像以提取关于已知对象的信息的计算机实现的方法，该方法包括：
11.接收包含一定比例的已知对象的视图的图像，该比例取决于已知对象距图像的图像捕获位置的对象距离；
12.从表示图像捕获位置附近的一个或更多个已知对象的世界模型来确定已知对象的对象位置、在世界参考系中定义的对象位置和图像捕获位置；以及
13.基于世界参考系中的图像捕获位置和对象位置，对图像应用图像缩放，来提取包含一定比例的已知对象的重新缩放后视图的重新缩放后图像，该比例实质上与距图像捕获位置的对象距离无关。
14.世界模型对在捕获图像的世界中关于已知对象的外部知识进行编码，从而能够在世界参考系中确定图像位置和对象位置。当应用于多个图像时，对象可能以非常不同的比例出现在原始图像中，但经由重新缩放来解决。在重新缩放后图像中，重新缩放后对象视图以基本相同的比例出现，而与(原始)对象视图在(原始)图像中的比例无关。
15.在实施例中，图像可以与定义世界参考系中图像捕获位置的自我定位数据一起接收、自我定位数据经由定位来计算。
16.可以在注释系统内离线执行定位，或者，也可以在图像被捕获时在线执行定位，并且自我定位数据被记录以用于后续使用。通过离线定位，通常可以获取更准确的定位数据，与仅使用在线定位数据相比，进一步减少了注释误差。定位可以被应用于由配备传感器的车辆或例如使用滤波组合的多种传感器模态捕获的任何合适类型的传感器数据(包括图像本身的图像数据、卫星定位数据、惯性测量单元(inertial measurement unit,imu)数据、激光雷达数据等)。
17.该图像可以是图像时间序列中的一个，并且可以通过将基于视觉的定位应用于图像时间序列来在世界参考系中计算自我定位数据。替代地，可以通过将基于非视觉的定位应用于与图像相关联的至少一种其他类型的传感器数据来在世界参考系中计算自我定位数据。替代地，可以使用基于视觉的和基于非视觉的定位的组合来计算自我定位数据。
18.例如，可以在世界模型包括一个或更多个已知静态对象的预定地图的情况下使用定位，已知对象是已知静态对象并且世界参考系是预定地图的参考系。注意，当前情景中的“静态”意味着假定世界参考系中的对象位置是固定的(但可以包含具有移动部件的此类对象)。
19.换句话说，可以在此情景中使用定位以在预定地图上或预定地图中定位车辆。预定地图可以例如是三维(three dimensional,3d)地图或“自上而下”(鸟瞰图)地图。
20.本发明可以有效地应用于许多实际情景中，但特别适合自动驾驶。定位用于确定图像在世界中的图像捕获位置，这又产生其相对于已知对象的位置。在av情景中，例如4级或5级自动驾驶所需的定位精度和准确度级别足以在当前情景中发挥作用。自动驾驶中使用的这类高清地图可以产生特别准确的结果。
21.重新缩放后图像可以是相对低分辨率图像，使得重新缩放后对象的像素高度和宽度仅为大约10s或100s像素的数量级。这足以解决自动驾驶中遇到的各种图像识别问题，包括交通灯检测或类似任务，目的是识别不同的交通信号状态，这些状态被设计为即使在远处也能被人类驾驶员容易地在视觉上区分(从而不需要细粒度的细节)。在这种情况下，将使用最先进里程计/定位与为自动驾驶开发的高清地图结合，测试已表明在从几米到至少100米或更大范围的物体深度上，在一个像素左右的范围内将对象重新缩放到同一比例的能力(图8示出了使用本技术针对不同对象距离获得的重新缩放后图像的一些示例)。反过来，这使得使用极轻量图像识别部件(例如轻量卷积神经网络)实现高性能成为可能。
22.这样的实施例认识到，已开发用于促进自动驾驶的最先进工具可以在注释情景中重新使用，以提供需要最少(或任何)手动校正的自动的或半自动的图像注释。
23.具体来说，在这种情景中可以利用最先进的车辆定位技术，以及现在可以提供厘米级精度的道路结构和周围对象的映射的hd地图，以提供高精度的图像重新缩放。
24.当该方法在非机载情景中(例如作为注释系统的一部分)实现时，定位可以离线执行，或者也可以在捕获图像并记录自我定位数据以用于后续使用时已在线执行定位。
25.世界模型可以包括一个或更多个已知静态对象的预定地图，已知对象是已知静态对象并且世界参考系是预定地图的参考系。
26.该方法可以包括以下步骤：将重新缩放后图像输入到图像识别部件，其中，图像识别部件处理重新缩放后图像以从已知对象的重新缩放后视图中提取信息。
27.图像识别部件可以已被配置(例如被训练)为以所述比例运行。
28.图像识别部件可以被配置为相对于一组预定对象状态对已知对象的重新缩放后视图进行分类。
29.该组预定对象状态可以是一组预定信令状态。
30.该方法可以应用于包含不同比例的已知对象的相应视图的多个图像，以便提取相应的重新缩放后图像，该重新缩放后图像包含基本相同比例的已知对象相应重新缩放后视图。
31.多个图像可以形成在图像捕获位置序列上捕获的图像时间序列的一部分。
32.可以应用该方法以便提取用于在模拟器中运行的场景，该场景对已知对象的状态变化进行编码。
33.该方法可以包括以下步骤：使用多个重新缩放后图像来对图像识别部件进行训练以在以所述比例查看已知对象时提取关于已知对象的信息。
34.该方法可以包括以下步骤：在图像的图像平面中，基于在世界参考系中确定的图像捕获位置和对象位置，计算包含已知对象的视图的裁剪区域，其中，重新缩放后图像可以是从裁剪区域内的图像部分中提取的裁剪后和重新缩放后图像。
35.重新缩放后图像可以被显示在注释界面上，并且该方法可以包括以下步骤：响应于在注释界面处的手动注释输入而生成用于对已知对象在重新缩放后图像中的位置进行注释的手动注释数据。
36.多个图像可以形成在图像捕获位置序列上捕获的图像时间序列的一部分，并且该方法可以包括以下步骤：对内插后或外插后注释数据进行计算，内插或外插后注释数据用于经由手动注释数据的内插或外插来对对象在图像时间序列中的至少一个其他图像中的
位置进行注释。
37.图像捕获位置和对象位置可用于利用对象在图像平面中的假定位置来对图像进行注释，手动注释输入用于对对象的假定位置进行校正。
38.假定位置可以是裁剪区域内的预定义位置。
39.该方法可以包括以下步骤：响应于手动注释输入而更新自我定位数据，所更新后定位数据用于确定与手动注释数据一致的图像的更新后图像捕获位置。
40.世界模型可以包括用于对已知对象进行建模的对象模型，并且可以通过基于图像捕获位置将对象模型从对象位置投影到图像的图像平面来计算对象投影，对象投影用于确定应用图像缩放的图像。
41.对象投影可用于确定裁剪区域。
42.世界参考系可以具有三个空间维度并且对象模型可以是3d对象模型。
43.已知对象可以是移动对象。
44.其他方面提供了计算机系统，该计算机系统包括被配置为实现该方法或其任何实施例的一个或更多个计算机，以及用于对计算机系统进行编程以实现该方法的计算机程序。
45.另一方面提供了移动机器人，该移动机器人包括用于捕获图像的图像捕获系统以及连接到图像捕获系统的计算机系统，该计算机系统被配置为在在线情景中应用该方法。
46.移动机器人可以被配置为实现用于在世界参考系中对移动机器人进行定位的至少一种定位方法(例如卫星定位、imu、基于视觉或激光雷达的定位等中的一种或更多种)。
附图说明
47.为了更好地理解本公开，并且为了示出本公开的实施例可以如何实现，仅通过示例的方式参考以下附图，其中：
48.图1示出了图像处理系统的示意性功能框图；
49.图2示出了处理图像的方法的流程图以及方法步骤的示意图；
50.图2a示出了在世界参考系中定义的图像捕获位置和对象位置；
51.图2b示出了如何重新缩放不同大小的裁剪区域以提取具有固定像素尺寸的裁剪后和重新缩放后图像；
52.图2c示出了应用于裁剪后和重新缩放后图像的图像识别的一个示例；
53.图3示出了用于重新缩放移动对象的图像的替代图像处理系统；
54.图4示意性地示出了如何裁剪和重新缩放包含移动对象的图像；
55.图5示出了用于对已知对象的重新缩放后图像进行注释的注释系统；
56.图6示出了注释系统的第一扩展，用于有效地对包含不同比例的已知对象的图像进行注释；
57.图6a示出了如何经由手动注释的内插/外插来针对裁剪后和重新缩放后图像的时间序列有效地计算边界框；
58.图7示出了注释系统的第二扩展，用于经由已知对象注释的手动校正来细化自我定位数据；
59.图8示出了针对一系列对象距离使用所描述技术获取的裁剪后和重新缩放后图像
的示例。
具体实施方式
60.图1示出了图像处理系统100的示意性功能框图，依次示出为包括自我定位部件102、对象区域计算部件104、图像转换部件106和图像识别部件108。
61.图像处理系统100接收包含不同比例的已知对象的视图的图像序列111。例如，在驾驶情景中，已知对象可以是配备传感器的车辆正在接近的静态对象(例如交通灯、道路标志或其他交通控制对象)。当从车辆捕获对象的连续图像，随着对象的接近，对象的比例将在图像序列中增加(即，在更接近对象所捕获的后续图像中，对象将显得更大)。
62.图像处理系统的核心功能是允许将每个图像中的对象视图重新缩放到基本固定的比例。图像转换部件106对每个图像应用图像转换以便计算转换后图像。转换包括图像重新缩放，并且还可以包括其他类型的转换。
63.在下面描述的示例中，计算每个图像中对象周围的可变大小的裁剪区域，并且对转换后图像进行裁剪，以及从原始图像生成该区域的重新缩放后图像。
64.重新缩放使得以像素为单位测量的转换后图像中对象视图的垂直和水平范围(其在转换后图像中的像素宽度和高度)在所有裁剪后和重新缩放后图像中基本相同，并且与捕获原始图像时对象距配备传感器的车辆的对象距离(对象距离)基本无关，并且在转换之前与原始图像中的像素宽度和高度基本无关。
65.提供对象视图的固定比例图像(不管它最初被捕获的比例如何)的能力在图像识别情景中具有显著的好处。
66.例如，当对机器学习(ml)图像识别部件进行训练以从对象可能以不同比例出现的图像中提取关于特定类型的对象的信息时，将需要足够数量的训练图像来以代表性比例范围捕获对象。相比之下，如果使用ml模型实现图1的图像识别部件108，则那些模型仅需要能够以基本固定的比例识别对象的特征。这反过来减少了对训练数据的要求，从而可以用更少的训练数据实现给定的性能水平。图8示出了使用所描述的图像处理技术获取的、针对一系列对象距离、使用2d边界框检测注释的转换后图像的示例。使用极轻量卷积神经网络(convolutional neural network,cnn)对边界框进行检测，使得通过将对象视图自动重新缩放到固定像素尺寸成为可能。
67.此外，如果已知对象以基本固定的比例出现在转换后图像中，则这潜在地意味着图像识别部件108可以应用更简单的基于规则的图像处理以便识别对象的相关特征。例如，在交通灯检测情景中，基于关于在固定比例裁剪图像中部件灯的像素大小的适当假设，可以实现基于规则的检测。
68.裁剪不是必需的，例如，cnn可以接收任意大小(像素尺寸)的图像，并且基于在图像区域上均匀应用的卷积，在该情景中重要的是重新缩放，该重新缩放可以显著地简化cnn需要学习的模式识别任务。然而，裁剪可以产生效率优势(可以使用更少的计算资源来执行图像识别，因为要处理的无关图像内容更少)。通过减少图像识别部件108需要考虑的无关视觉信息量，选择性图像裁剪还可以潜在地提高图像识别过程的可靠性。移除裁剪误差之外的图像数据防止此类数据导致错误检测或其他图像识别误差。
69.以下示例通过为每个图像n计算可变大小的裁剪区域rn(包含原始图像n中的对象
视图)来实现重新缩放，并对裁剪区域rn内的图像部分进行重新缩放。这导致转换后图像具有固定的像素尺寸m
×
n。以下面描述的方式计算裁剪区域相对于原始图像n的大小，以确保重新缩放后对象视图也在m
×
n转换后图像中具有基本固定的像素尺寸m
×
n(参见图2b和下面的相关说明)。然而，将理解，无论有或没有裁剪，都可以以其他方式实现重新缩放的基本原理。
70.系统100的一个应用是交通灯检测，目的是从离散的一组可能状态中检测一组交通灯的当前状态。当交通灯总是以基本相同的比例出现时，这是明显更简单的问题，与捕获原始图像时交通灯有多近或多远无关。
71.为了确定每个图像的合适的裁剪区域，系统100使用“世界模型”112，该“世界模型”112对关于对象在世界参考系(世界)内的位置的知识进行编码。世界模型122对已知对象的外部知识程度进行编码，允许在应用期望的图像识别之前确定合适的裁剪区域(感兴趣区域)。在以下示例中，该知识包括对象在世界参考系中的位置，以及在预定对象模型o中编码的对象的大小或尺寸的知识(该模型采用用于对对象进行建模的简单3d模板的形式)。
72.自我对象定位部件102的功能是为每个图像确定世界中(即同一世界参考系中)的图像捕获位置。(除非另有说明)以下对定位的引用意味着在此意义上的自我定位。也就是说，图像捕获系统(相机)在捕获图像时在世界中的估计位置。在驾驶情景中，这将是配备传感器的车辆的相机。
73.一旦相机和对象的位置已知，这允许经由到图像的图像平面的投影来确定对象在图像的图像平面内的位置和范围(近似尺寸)，以便计算包含对象视图的合适的裁剪区域。
74.使用传感器数据110执行定位，传感器数据110可以包括图像序列111本身(基于视觉的定位)和/或其他类型的传感器数据，例如一个或更多个激光雷达、雷达、卫星导航(例如全球定位系统(global positioning system,gps))和imu(惯性测量单元)数据等。在自动驾驶和其他领域，根据可用的传感器数据110的类型，有许多已知的定位方法可用于此目的。此情景中的定位图像捕捉设备意味着确定其在世界模型122的某个固定世界(全球)参考系中的位置和取向(姿势)。这可以例如是地理坐标(例如纬度、经度)，或者定义世界模型122的任何固定参考系。诸如粒子滤波或卡尔曼滤波的融合方法可用于融合来自多个源的定位数据，以提高在线或离线的总体精度。
75.图1的世界模型112被示为包括静态对象在驾驶区域内的高清(high-definition,hd)地图112a。hd地图是用于自动驾驶的、具有足够精细水平、精度和准确度的地图。hd地图112a允许在世界中定位感兴趣的已知静态对象。以厘米级精度描述道路结构和周围对象的hd地图是可用的。
76.如下面参考图3描述的，该图像处理技术也可适用于移动对象。
77.本技术可以部署在“在线”和“离线”情景中。在在线情景中，可以实时实现图像处理，以允许例如自动驾驶车辆或其他机器人系统做出感知驱动的决策。例如，在自动驾驶情景中，这些技术可用于提供实时交通灯检测，以允许规划者在车辆接近一组交通灯时规划合适的操作。
78.离线情景包括训练数据的生成，并且在该情况下，可以使用本技术导出裁剪后的、固定比例的图像以用于训练图像识别部件108。
79.另一离线情景是场景提取，目的是提取可以部署在模拟器中的相对高级的场景。
例如，在交通灯检测情景中，图像识别部件108可以执行交通灯检测(类似于在线应用)以允许在所提取场景中捕获潜在变化的交通灯状态，以便随后可以在模拟器中重新创建它们。
80.在离线情景中，图像处理系统100可以有效地部署在注释系统内以促进自动的或半自动的图像注释。下面参考图5和图6描述了示例注释应用。
81.图2示出了由图像处理系统100实现的图像处理方法的流程图。为了进一步帮助理解，图2还示出了在每个步骤执行的某些操作的示意图。
82.在步骤202，接收图像111的时间序列。在在线情景中，可以在捕获序列的图像时实时接收它们，针对每个连续的图像实时执行后续步骤。在离线情景中，可能或不可能实时实现该方法，取决于该情景。
83.描绘了分别在时刻ta、tb和tc捕获的序列的三个可能图像(符号tn用于表示图像n的捕获时间)。在该示例中，当车辆接近已知对象200时，由车辆捕获图像111，该已知对象200被描绘为一组交通灯。当车辆移近交通灯200，交通灯200在图像中相对于图像区域的大小(图像内交通灯的比例)增加。
84.在步骤204，执行定位，以便确定每个图像在世界中的图像捕获位置(定位数据的一种形式)。对于上述图像a、b和c，图像捕获位置分别由xa、xb和xc表示，在本示例中，这些位置采用六维(six dimensional,6d)姿势的形式，在各个时刻ta、tb和tc对相机在3d世界参考系中的空间位置和取向进行编码。如上所述，可以从图像111本身(基于视觉的定位)和/或传感器数据110的其他数据中提取定位数据。
85.已知对象在世界参考系中的位置x是从世界模型112中已知的。这意味着已知对象200相对于每个图像捕获位置xn的位置是已知的。
86.图2a示出了世界坐标系的扩展后自上而下视图，其中定义了图像n的图像捕获位置xn和对象位置x。世界参考系可以是二维(two dimensional,2d)的，提供世界中已知对象的自上而下(鸟瞰图)表示，在这种情况下，xn和x是世界坐标系平面中的2d坐标。替代地，(如图2中步骤206的透视图所描绘的)世界参考系可以是3d的，在这种情况下，xn和x是3d空间中的3d坐标。在任何情况下，世界参考系跨越垂直于图像平面in的方向nn。图像捕获位置xn和对象位置x位于图像平面in之外，对象距离dn被定义为对象200沿垂直于图像平面in的方向nn距图像捕获位置xn的距离。在重新缩放之前，该对象距离dn定义了对象200在原始图像n中的比例。
87.返回到图2，在步骤206，对象位置x和图像捕获位置xn用于在图像n内(即在图像的图像平面in内)对对象200进行定位。图像平面in在3d世界参考系中的位置(空间位置和取向)由6d相机姿态xn定义。在该示例中，世界模型112包括表示已知对象200的3d模型o，基于对象位置x和图像捕捉位置xn将已知对象200投影到图像平面in中。对象模型o在图像平面in中的投影由pn表示。投影pn相对于图像n的尺寸的大小(其在原始图像n中的比例)将取决于对象相对于图像捕获位置xn的位置。
88.为此目的不需要详细的对象模型o。例如，在许多实际应用(包括交通灯检测)中，例如近似正确大小的长方体之类的简单模型可能就足够了。
89.对象投影pn定义了包含对象在图像in内的视图的裁剪区域rn。注意，这并未从图像n本身的内容中检测到，而是从基于自我定位的世界模型中推断出来。根据所使用的定位类型(以及它是否基于视觉)，可以执行一定程度的图像处理作为步骤202的定位的一部分。然
而，这是为了确定图像捕获位置n，而不是为了识别在图像n的内容中的对象200。替代地，使用在世界模型112中编码的外部知识来计算裁剪区域rn，以便随后可以将图像识别应用于裁剪后图像。
90.在本示例中，该外部知识是对象200在hd地图112a中编码的世界中的位置，以及在对象模型o中编码的对象200的近似尺寸。
91.在步骤208，每个图像n被裁剪和重新缩放，即通过从包含在裁剪区域rn内的原始图像n中提取图像数据的子集，生成裁剪区域rn的重新缩放后和裁剪后图像。
92.这导致包含基本固定比例的对象200的视图的裁剪后图像cn，其与对象位置x和图像捕获位置xn基本无关。
93.例如，图2描绘了图像a和c的裁剪后图像ca、cc。在原始图像a、c中，对象200的比例不同，因为是在距对象200不同距离处捕获了原始图像。然而，在裁剪后图像ca、cc内，对象200的比例基本相同，因为通过调整裁剪后图像各自的裁剪区域ra、rc补偿了该效果，以计算图像捕获位置xa、xc中的差异。
94.图2b示出了应用于示例图像的裁剪和重新缩放操作的进一步细节。每个图像n的可变大小的裁剪区域rn被重新缩放为固定像素尺寸m
×
n的转换后图像cn。
95.这里，转换后图像分辨率相对较低，因此，通过足够准确的定位，可以在转换后图像上实现相同的对象尺寸(m
×
n个像素)，到一个像素左右。如上所述，相对较低分辨率的图像对于自动驾驶中的某些图像识别任务(例如(即使从远处和/或在恶劣天气、照明条件下等)检测设计为易于感知的视觉信号状态)也是足够的。
96.裁剪区域rn被计算为对象投影pn的函数。例如，裁剪区域rn的中心可以被定义为位于对象投影pn的中心，其宽度和高度分别是对象投影pn的宽度和高度的某个固定倍数。这意味着，当裁剪区域被重新缩放为m
×
n个像素时，所有图像上对象的像素尺寸m
×
n将基本相同。
97.还可以使用对象投影pn作为参考来执行其他图像处理。例如，应用于图像的旋转可用于补偿对象投影pn在图像平面in中的旋转。
98.如图像c所描绘的，如果裁剪区域的一部分位于原始图像n的区域之外，则原始图像之外的转换后图像cc的像素201可以被设置为例如黑色。
99.对象200在裁剪区域rc内的位置是取向定位误差(即相机的估计方向的误差)的函数，而对象在原始图像中比例将是位置的函数。取向误差可能意味着对象200没有在转换后图像中居中，但如果使用适当大的裁剪区域(大到足以容纳实际范围的取向定位误差)，这并不重要。在(包括使用最先进定位的自动驾驶的)一些实际情景中，可能会在位置定位上实现比取向定位更高水平的准确度和精确度，这在当前情景中是可以接受的，因为对误差进行重新缩放的主要原因将是位置定位误差。换言之，位置定位误差的减少导致重新缩放误差的减少，这是在轻量图像识别部件108的该情景中的重要因素。裁剪是提高效率的次要元素，意味着取向定位误差也是次要考虑因素。
100.图2c示出了提供给图像识别部件108的转换后图像cn的示例。图像识别部件108的输出包括在转换后图像in中检测到的对象200的2d边界框202，以及(概率性的/基于分数的或确定性的)关联的状态检测204。图5考虑了用于有效地生成合适的训练图像的注释系统，用于在该图像识别任务上对图像识别部件108进行训练。
101.以上考虑了由世界模型122的hd地图112a指示的静态对象。然而，这些技术可以替代地或附加地应用于移动对象。
102.图3示出了图1的图像处理系统的变体，它可以适应移动对象。在这种情况下，系统100被示为包括轨迹提取器302，该轨迹提取器302表示用于检测和追踪在传感器数据110中捕获的移动对象的功能。世界模型112被示为包括由对象追踪器302提取的来自传感器数据110的至少一个移动对象轨迹112b。对象轨迹112b表示移动对象在世界参考系中的历史(对象位置随时间的变化(以及可能的运动信息，例如速度、加速度等))。在在线情景中，可以在接收到新的传感器数据时实时提取对象轨迹。
103.轨迹提取可以应用于图像111、其他类型的传感器数据(例如雷达、激光雷达等)和/或从车辆的不同相机捕获的图像。例如，轨迹提取器302可以融合来自多个传感器模态和/或在多个时刻获取的测量值(例如，使用卡尔曼滤波、粒子滤波或一些其他的融合方法)以便追踪对象在世界参考系中随时间的移动。
104.如上所述，当计算合适的裁剪区域rn以用于裁剪给定图像n以隔离已知对象时，来自世界模型112的对象的(图像n本身之外的)外部知识用于推断对象在图像n内的位置。在这种情况下，该外部知识被编码在对象轨迹112b中，并且可以从不同时刻捕获的图像中(部分地)导出，和/或从不同相机和/或从一个或更多个传感器模态中(部分地)导出。
105.通过对象追踪导出的轨迹只是一种形式，在该种形式中，可以对关于移动对象在世界参考系中的信息进行编码。无论在世界模型112中通过何种精确机制对对象的知识进行编码，世界模型112都表示世界参考系中的移动对象，并且对至少部分地从图像n本身以外的源导出的关于已知对象的外部信息进行编码。
106.图4示出了移动对象技术的实际应用。在这种情况下解决的问题是对来自其他车辆的视觉信号(例如来自指示灯、刹车灯、前灯等的视觉信号)进行识别。在这种情况下，对象模型o是与另一辆车关联的区域，假定其尾灯位于该区域内。这里，利用了关于尾灯在其他车辆上的大致位置的外部知识，例如，可以假定对象区域以某个已知大小(在3d空间中扩展)位于距车辆的参考点(例如中心点)的某个预定距离处。如在上述示例中，然后将对象区域o投影到图像平面in中，以确定包含其他车辆的尾灯的基本固定比例视图的裁剪区域rn。以相同方式从裁剪区域rn中提取裁剪后图像cn，可以使用相同原理对其应用图像识别。与交通灯检测一样，这可以作为关于一组离散信号状态(例如右转、左转和用于指示器检测的危险信号灯；用于制动灯检测的制动/非制动等)的图像识别来实现。
107.图5示出了结合了所描述图像转换技术的注释系统500的示意性框图。注释系统500可用于创建注释图像，该注释图像适合于对以上参考图1和图3所描述的那种图像识别部件108进行训练或用于其他目的(例如场景提取)。注释系统500被示为包括定位部件102、对象区域计算部件104和图像转换部件106。这些在注释系统500内实现以生成转换后(重新缩放后和裁剪后)图像，使得然后可以对转换后图像进行注释。尽管部署在注释情景中，但这些部件以与图1和图3中的等同部件完全相同的方式操作。因此，使用了相同的附图标记，并且在图5的情景中，上述所有描述都适用于这些部件。类似地，附图标记110、111和112被用于分别表示传感器数据、图像序列和它们在其上运行的世界模型，注意，在注释系统500中，图像111和传感器数据110用于生成训练图像或其他转换后图像，以便为某些其他用途进行注释。
108.注释部件504输出用于对由图像转换部件106生成的给定的转换后图像进行注释的注释数据。提供手动修改部件以允许人类注释者(用户)对注释数据应用手动校正。
109.用户界面501被示为具有连接到图像转换部件106和注释部件504的相应图像输出的输入，以允许根据注释数据对转换后图像进行注释。用户界面(user interface,ui)501的输出被示为连接到手动修改部件502的输入，表示系统500在ui 501处接收手动注释输入以用于对注释数据应用手动校正的能力。
110.附图标记510用于表示图像转换部件106根据以上描述的原理生成的转换后图像(等同于以上的转换后图像cn)。
111.图5a示出了由ui 501提供的示意性注释视图，在该视图上显示转换后图像510。在图5a的示例中，注释数据包括2d边界框，该2d边界框用于定义对象200在转换后图像510中的视图的位置和范围。回想图像转换部件106重新缩放的目的是将对象视图重新缩放到固定比例，使得它在转换后图像510中具有基本固定的像素尺寸m
×
n。假设世界模型112和自我定位足够准确，因此在所有情况下应该可以将边界框预定为为mxn个像素。回想重新缩放误差的主要来源是位置定位误差。如前所述，现在可以在自动驾驶情景中实现的位置定位的准确度和精度足以在当前情景中提供高度精确的重新缩放。
112.在不存在取向定位误差的情况下，也应该是对象200的视图出现在用于生成转换后图像510(其预期位置)的对象投影pn的位置处的转换后图像510中(例如，原始图像被裁剪到以对象投影pn为中心的区域时转换后图像510的中心点)。然而，取向定位误差可能具有导致对象200在裁剪后图像510中的实际位置与其预期位置的偏差的效果。对于当前最先进的车辆定位，取向定位误差通常预期高于位置误差。在这种情况下，可能需要手动校正边界框的位置(即使不需要校正其尺寸)。图5a的示例示出了边界框512最初位于裁剪后图像510(默认或假设的边界框)的中心处。附图标记514表示校正后2d边界框，该校正后2d边界框通过将手动校正应用于默认边界框512来定义，以便更好地将其与对象200在图像中的实际位置对齐。在该特定示例中，不需要调整默认边界框512的大小，然而，如果需要，可以提供用于调整边界框的大小(通常是少量)的选项。
113.综上所述，在注释情景中，重新缩放和裁剪的效果是最小化大多数情况下所需的手动校正的程度。因为图像已经被裁剪和被重新缩放，边界框可以被初步假定为具有特定大小并且位于相对于转换后图像510的特定位置处，该位置至少应该相对接近裁剪后图像中的实际对象200。
114.图6示出了注释系统的扩展，以进一步提高注释图像的效率。在图6的系统中，用户只需对相对少量的转换后图像进行手动校正，然后可以通过一系列转换后图像对得到的校正后边界框进行内插或外插，以自动地确定转换后图像中其他图像的校正后边界框。
115.在图6中，注释部件504被示为附加地包括内插部件602，该部件基于用户的手动校正来计算内插后注释数据。
116.图6a通过示例示意性地示出了内插后注释的原理。在图6a中，示出了图像序列111的转换后图像ca、cb和cc。在此示例中，用户对转换后图像ca和cc应用手动校正，在所描绘的示例中，每个手动校正中都由边界框到每个图像中的正确对象位置的平移组成。然后对生成的校正边界框进行线性内插和/外插，以计算ca和cc之间的图像(包括ca之前和/或cc之后的图像cb或图像)的内插后边界框。
117.如上所述，边界框位置的误差(即，对象200的视图在转换后图像510中的实际位置与对象投影pn的位置之间的偏差)由取向定位引起。假设取向误差在合理的图像子序列中以基本线性的方式变化，则校正后边界框的简单线性内插将足以提供准确的内插后或外插后边界框。即使取向误差相对较大，假设它在每个合理数量的图像中基本上是线性的，本内插技术也将是非常有效的。
118.换句话说，使用以上描述的对象投影技术的图像转换很大程度上考虑了车辆在世界内的运动的任何非线性影响。因此，在这种情景中，有效地使用线性内插的能力是使用以上描述的对象投影技术和世界模型112对图像进行转换的方式的结果。
119.一旦已计算出内插后和/或外插后边界框，用户可以滚动浏览图像序列，如果适用，则用内插后或外插后边界框覆盖该图像序列，如果用户观察到内插后或外插后边界框开始处的点显著偏离对象位置，他或她可以应用进一步的校正，然后可以将该校正用于在该图像之外进行内插或外插。
120.总的来说，效果是提供高效的注释图像注释界面，其中可以经由线性内插通过序列中相对大量的图像传播少量的手动校正，从而为转换后图像提供高质量注释数据。
121.对于任何给定的转换后图像cb，可以基于为图像ca和cc定义的校正后边界框，通过基于图像cb的时间索引(时间b)相对于图像ca和cc的时间索引(分别为时间a和时间c)线性内插那些边界框的坐标，来确定内插后或外插后边界框。也就是说，基于图像cb在转换后序列中相对于图像ca和cc的位置。
122.例如，坐标可以定义角点(例如右上角和左下角，或左上角和右下角)，或者，如果边界框的尺寸未被修改，可以定义单个坐标(例如中心点或单个角点)。
123.图7示出了注释系统500的另一扩展，其中参考图6a描述的此类手动校正用于在离线情景中细化原始自我定位数据。在这方面，手动修改部件502的输出被示为连接到对象区域计算部件104的输入，而后者的输出被示为连接到自我定位部件102的输入，表示系统500基于用户的边界框校正来校正由自我定位部件102生成的自我定位数据的能力。
124.在图7的注释系统500的情景中，世界模型112被假定为地面实况，即没有尝试校正该世界模型112，并且假设注释者被要求进行的任何手动校正都是作为自我定位误差的结果而出现。反过来，将世界模型112作为固定地面实况允许基于用户的手动校正来细化自我定位数据。实现这一点的一种方法是，一旦用户在足够数量的图像上已定义手动校正，将生成的校正后2d边界框反向投影到3d空间，并使用该信息校正3d空间中的自我定位数据，以便它现在与用户的校正一致。这本质上与用于执行重新缩放和转换的从3d到2d空间的投影相反。如果要基于校正后自我定位数据重新执行那些转换，则应以现在与用户的手动校正基本一致的方式对图像进行重新缩放和裁剪，即如果要使用校正后自我定位数据来重新执行那些操作，则对象将精确地具有正确的大小并以位于裁剪后图像的中心。
125.出于上述原因，利用当前的自我定位技术，预计那些校正将主要针对取向，即对自我定位数据的取向数据进行校正。在某些情况下，系统可能受限于取向校正(即自我位置数据也被视为地面实况)，这可以基于单个校正来实现，而无需重新投影到3d空间中。
126.图8示出了使用所描述技术在从8米到大约100米的对象距离范围内已获取的转换后和裁剪后图像的选择。这些图像是基于自我定位和hd地图从配备传感器的车辆捕获的交通灯图像。可以看出，已经以足够的位置精度执行了定位，以在该对象距离的范围内实现一
致的对交通灯对象的重新缩放，并且所描绘裁剪区域足以适应在这些图像上遇到的取向定位误差的范围。
127.图像示为用2d边界框注释，这些边界框已使用参考图5a和图6a描述的技术进行定义。
128.综上所述：
129.1.重新缩放误差主要由位置定位误差引起；
130.2.裁剪误差(即对象距裁剪后图像的中心的偏差)由取向定位误差引起，该取向定位误差可能更大(但这可以使用足够大的裁剪区域来适应)；
131.3.由于那些原因，可能只需要手动校正来对2d边界框的位置(而不是大小)进行校正，在实践中，已经发现对误差进行重新缩放对于现今可用的最先进定位和hd地图来说可以忽略不计；
132.4.在图6(内插)中，用户边界框的线性内插起作用，因为裁剪/重新缩放已经移除了自我车辆运动的大部分非线性影响。
133.5.在图7中(对自我定位数据进行细化)：
134.a.完整的实现，自我取向和位置都被细化(可能需要多次校正)，投射回3d空间
135.b.但是更简单的实现(例如对自我取向进行校正)可以在单个图像上可行地完成，而无需重新投影到3d空间中。
136.本文对部件、功能、模块等的引用表示计算机系统的功能部件，其可以以各种方式在硬件级别上实现。这包括图1、图3、图5和图6中描绘的部件。计算机系统包括可以是可编程的或不可编程的一个或更多个计算机。计算机包括执行上述功能部件的功能的一个或更多个处理器。处理器可以采用通用处理器的形式，例如中央处理器(central processing unit,cpu)或加速器(例如图形处理器(graphics processing unit,gpu))等，也可以采用更专业的硬件处理器形式，例如现场可编程门阵列(field programmable gate array,fpga)或专用集成电路(application-specific integrated circuit,asic)。即，处理器可以是可编程的(例如，基于指令的通用处理器、fpga等)或不可编程的(例如asic)。这样的计算机系统可以在机载或非机载情景中实现。
137.图像识别的实际应用包括自动驾驶汽车和其他机器人系统。本技术也可以在模拟中实现，例如为了测试和/或训练部件的目的。在该情景中，可以使用模拟后自我定位数据将该技术应用于使用合适的传感器模型生成的模拟后(合成的)图像数据。

技术特征：
1.一种处理图像以提取关于已知对象的信息的计算机实现方法，所述方法包括：接收包含一定比例的已知对象的视图的图像，该比例取决于所述已知对象距所述图像的图像捕获位置的对象距离；从表示所述图像捕获位置附近的一个或更多个已知对象的世界模型来确定所述已知对象的对象位置、在世界参考系中定义的所述对象位置和所述图像捕获位置；以及基于所述世界参考系中的所述图像捕获位置和所述对象位置，对所述图像应用图像缩放，来提取包含一定比例的所述已知对象的重新缩放后视图的重新缩放后图像，该比例与距所述图像捕获位置的对象距离基本无关。2.根据权利要求1所述的方法，其中，所述图像与定义所述世界参考系中的所述图像捕获位置的自我定位数据一起接收，所述自我定位数据经由定位来计算。3.根据权利要求2所述的方法，其中：所述图像是图像时间序列中的一个，并且通过将基于视觉的定位应用于所述图像时间序列来在所述世界参考系中计算所述自我定位数据，通过将基于非视觉的定位应用于与所述图像相关联的至少一种其他类型的传感器数据来在所述世界参考系中计算自我定位数据，或使用基于视觉的定位和基于非视觉的定位的组合来计算所述自我定位数据。4.根据权利要求2或3所述的方法，其中，所述世界模型包括一个或更多个已知静态对象的预定地图，所述已知对象是已知静态对象，并且所述世界参考系是所述预定地图的参考系。5.根据前述权利要求中任一项所述的方法，包括以下步骤：将所述重新缩放后图像输入到图像识别部件，其中，所述图像识别部件处理所述重新缩放后图像以从所述已知对象的重新缩放后视图中提取信息。6.根据权利要求5所述的方法，其中，所述图像识别部件已被配置为以所述比例运行。7.根据权利要求5或6所述的方法，其中，所述图像识别部件被配置为相对于一组预定对象状态对所述已知对象的重新缩放后视图进行分类。8.根据权利要求7所述的方法，其中，该组预定对象状态是一组预定信令状态。9.根据前述权利要求中任一项所述的方法，应用于包含不同比例的所述已知对象的相应视图的多个图像，以便提取相应的重新缩放后图像，所述重新缩放后图像包含基本相同比例的所述已知对象的相应重新缩放后视图。10.根据权利要求9所述的方法，其中，所述多个图像形成在一系列图像捕获位置上捕获的图像时间序列的一部分。11.根据从属于权利要求7的权利要求10所述的方法，其中，应用所述方法以便提取用于在模拟器中运行的场景，所述场景对所述已知对象的状态变化进行编码。12.根据权利要求9或10所述的方法，包括以下步骤：使用所述多个重新缩放后图像来对图像识别部件进行训练以在以所述比例查看所述已知对象时提取关于所述已知对象的信息。13.根据前述权利要求中任一项所述的方法，包括以下步骤：在所述图像的图像平面中，基于在所述世界参考系中确定的图像捕获位置和对象位置，计算包含所述已知对象的视图的裁剪区域，其中，所述重新缩放后图像是从所述裁剪区域内的所述图像的部分中提
取的裁剪后和重新缩放后图像。14.根据前述权利要求中任一项所述的方法，其中，所述重新缩放后图像显示在注释界面上，所述方法包括以下步骤：响应于在所述注释界面处的手动注释输入而生成用于对所述已知对象在所述重新缩放后图像中的位置进行注释的手动注释数据。15.根据从属于权利要求9的权利要求14所述的方法，其中，所述多个图像形成在一系列图像捕获位置上捕获的图像时间序列的一部分，并且所述方法包括以下步骤：对内插后或外插后注释数据进行计算，所述内插或外插后注释数据用于经由所述手动注释数据的内插或外插来对所述对象在所述图像时间序列中的至少一个其他图像中的位置进行注释。16.根据权利要求14或15所述的方法，其中，所述图像捕获位置和所述对象位置用于利用所述对象在所述图像平面中的假定位置来对所述图像进行注释，所述手动注释输入用于对所述对象的假定位置进行校正。17.根据从属于权利要求13的权利要求16所述的方法，其中，所述假定位置是所述裁剪区域内的预定义位置。18.根据从属于权利要求2的权利要求14至17中任一项所述的方法，包括以下步骤：响应于所述手动注释输入而更新所述自我定位数据，所更新后定位数据用于确定与所述手动注释数据一致的所述图像的更新后图像捕获位置。19.根据前述权利要求中任一项所述的方法，其中，所述世界模型包括用于对所述已知对象进行建模的对象模型，并且通过基于所述图像捕获位置将所述对象模型从所述对象位置投影到所述图像的图像平面来计算对象投影，所述对象投影用于确定应用图像缩放的图像。20.根据从属于权利要求13的权利要求19所述的方法，其中，所述对象投影用于确定所述裁剪区域。21.根据权利要求19或20所述的方法，其中，所述世界参考系具有三个空间维度并且所述对象模型是3d对象模型。22.根据权利要求1至21中任一项所述的方法，其中，所述已知对象是移动对象。23.一种计算机系统，包括一个或更多个计算机，所述计算机系统被配置为实现任何前述权利要求所述的方法。24.一种移动机器人，包括用于捕获图像的图像捕获系统以及连接到所述图像捕获系统的计算机系统，所述计算机系统被配置为应用权利要求1至13或19至21中任一项所述的方法。25.根据权利要求24所述的移动机器人，被配置为实现用于在所述世界参考系中对所述移动机器人进行定位的至少一种定位方法，所述计算机系统被配置为实现权利要求2或其从属于权利要求2的任何权利要求所述的方法。26.一种计算机程序，用于对实现权利要求1至22中任一项所述的方法的计算机系统进行编程。

技术总结
一种处理图像以提取关于已知对象的信息的计算机实现方法包括以下步骤：接收包含一定比例的已知对象的视图的图像，该比例取决于已知对象距图像的图像捕获位置的对象距离；从表示图像捕获位置附近的一个或更多个已知对象的世界模型确定已知对象的对象位置、在世界参考系中定义的对象位置和图像捕获位置；并且基于世界参考系中的图像捕获位置和对象位置，对图像应用图像缩放，以提取包含一定比例的已知对象的重新缩放后视图的重新缩放后图像，该比例与距图像捕获位置的对象距离基本无关。例与距图像捕获位置的对象距离基本无关。例与距图像捕获位置的对象距离基本无关。

技术研发人员：陈鹰扬希纳
受保护的技术使用者：法弗人工智能有限公司
技术研发日：2021.08.20
技术公布日：2023/8/1

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：用于处理组件的系统和方法与流程 下一篇：电力转换装置的制作方法

处理图像以提取关于已知对象的信息的制作方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

处理图像以提取关于已知对象的信息的制作方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表