用于自动关键点和描述提取的装置和方法与流程

未命名 09-11 阅读:89 评论:0


1.本发明大体涉及图像处理技术。此外,本发明涉及一种用于从表示多个图像的图像数据中执行自动关键点和描述提取的装置和方法。此外,本发明涉及一种包括所述装置的自主驾驶车辆,以及一种用于操作包括所述装置的自主驾驶车辆的方法,以使所述自主驾驶车辆能够在空间区域中导航。


背景技术:

2.在图像处理方面,关键点检测和描述提取是稳健位姿估计和同时定位与地图构建(simultaneous localization and mapping,slam)等若干几何计算机任务的重要组成部分。关键点检测用于查找同一场景或对象的两个或多个图像之间的对应点。关键点检测在对象识别、运动跟踪、宽基线立体、纹理识别、图像检索、机器人导航、视频数据挖掘、建筑全景识别、立体匹配、摄像头运动恢复和3d重建等许多计算机视觉和模式识别领域取得了巨大成功。关键点检测确定与同一场景或对象的两个或多个图像的位置和尺度匹配的稳定关键点。使用位置和对应的尺度检测稳定关键点,同时在计算描述符时使用适当的邻域。关键点的描述涉及通过描述关键点和关键点的相邻区域为每个关键点构建唯一的描述符,也就是在理想情况下创建关键点的描述。由于视点变化、旋转、缩放、照明变化等原因,在各种变换下,描述必须是独特的且保持不变。
3.在已知方法中,关键点检测和提取依赖于手动设计的特征,其中,估计尺度和旋转以根据相邻像素的局部特征来计算描述。在另一种已知方法中,关键点检测和提取依赖于从标记数据或伪地面真值(即,根据方法的预测生成标记)中学习局部特征。这种已知方法依赖于强先验基础,其中,给定关键点被限定为类似于合成关键点,并且泛化被限制为从生成的伪地面真值中学习的角状特征。在另一种已知方法中,从不同的图像中生成负样本,并且通过对同一图像采用数据增强方法生成正样本。从图像中提取的正样本不会明确考虑图像的空间信息。这种已知方法无法识别两个类似图像中具有相同视觉内容的关键点。
4.在上述已知方法中,局部特征是模糊的,非专家难以解释关键点和描述。手动设计的描述符无法从自然图像中捕获多种输入模式。现有的可学习描述符不能很好地泛化到不同于训练分布的分布。已知方法需要大型标记数据集,并且在照明变化和不同视点等不利条件下性能下降。
5.因此,需要解决现有系统或技术在自动关键点和描述提取方面的上述技术缺陷。


技术实现要素:

6.本发明的目的在于提供一种用于执行自动关键点和描述的装置,所述自动关键点和描述适于不同的数据分布并且变得对照明变化和不同视点等不利条件具有稳健性。此外,本发明的目的在于提供一种用于使用所述装置的改进方法(即,方法),所述装置用于从表示多个图像的图像数据中执行自动关键点和描述提取。此外,本发明涉及一种包括所述装置的自主驾驶车辆,还涉及一种用于操作包括所述装置的自主驾驶车辆的方法,以使所
述自主驾驶车辆能够在区域中导航。
7.该目的通过独立权利要求的特征来实现。其它实现方式从从属权利要求、说明书和附图中是显而易见的。
8.本发明提供了一种用于从表示多个图像的图像数据中执行自动关键点和描述提取的装置和方法。此外,本发明涉及一种包括所述装置的自主驾驶车辆,还涉及一种用于操作包括所述装置的自主驾驶车辆的方法,以使所述自主驾驶车辆能够在空间区域中导航。
9.根据第一方面,提供了一种用于从表示多个图像的图像数据中执行自动关键点和描述提取的装置。所述图像数据被输入到所述装置中。所述装置包括耦合至数据存储器装置的数据处理装置。所述数据处理装置用于执行一种或多种神经网络算法。所述装置包括通信网络装置和特征描述装置。所述通信网络装置实现为由所述数据处理装置执行的算法。所述通信网络装置用于:处理所述图像数据,以移除所述多个图像中信息内容低于给定阈值的区域;在所述多个图像中的每个图像中选择表示相互共同特征的至少一个区域,以生成表示所述图像数据中存在的特征的一个或多个输出特征向量h。所述特征描述装置实现为由所述数据处理装置执行的算法。所述特征描述装置用于:接收所述多个图像的所述一个或多个输出向量h;生成一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据的所述多个图像中的每个图像中存在的一个或多个关键点。
10.所述装置支持完全自动化执行关键点和描述提取。所述装置在没有任何标记的实时图像数据的情况下执行所述自动关键点和描述提取。所述装置用于从所述图像数据中学习任何类型的基本视觉特征和基本语义信息。所述装置可以包括视觉嵌入,所述视觉嵌入用于解决位置识别和分类任务等计算机视觉问题。所述装置不断进行训练,以学习(i)适应与不同环境和天气条件相关联的不同数据分布,并且变得(ii)对不利条件具有稳健性。所述装置针对输入空间的变化保持不变。
11.所述一种或多种算法可以使用关键点检测算法,所述关键点检测算法利用神经网络中输出神经元的导向反向传播,通过生成输出梯度张量g来检测所述图像数据中的所述一个或多个关键点,并使用对所述检测的一个或多个关键点应用的滞后阈值法从所述输出梯度张量g中滤除相关性较低的关键点。可选地,所述关键点检测算法通过以下方式配置:检测由所述关键点检测算法刺激的最高激活神经元的输出值,所述关键点检测算法描述所述图像数据中存在的信息最丰富的特征。
12.通过导向反向传播描述所述输入图像的信息最丰富的视觉特征的最高激活输出神经元的值,所述关键点检测算法使用单个输入图像来检测所述一个或多个关键点。所述装置利用滞后阈值法和非极大值抑制法等后处理方法来检测所述一个或多个关键点,以提高所述一个或多个关键点的稳健性、准确性、可靠性和可重复性度量。
13.可选地,所述装置使用基于针对关键点和描述提取定制的采样算法的对比学习进行训练,以自动检测图像之间的视觉相似性和差异。所述采样算法用于处理所述输入数据的至少一个图像的正版本和负版本的组合,所述输入数据的所述至少一个图像保留所述图像之间的空间关系。正样本被描述为所述图像的部分重叠区域,负样本被描述为一个或其它图像的非重叠区域。
14.可选地,所述通信网络装置和所述特征描述装置分别实现为编码器网络和投射头网络;其中,所述编码器网络用于接收所述图像数据,并生成所述一个或多个输出特征向量
h;所述投射头网络用于接收所述一个或多个输出特征向量h,并从中生成所述一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据中存在的所述一个或多个关键点。
15.可选地,所述装置用于为每个图像生成所述一个或多个输出向量z的集合。所述装置用于计算所述一个或多个输出向量z的所述集合的乘法运算中的自变量参数。所述自变量参数指示所述多个图像中是否存在相同的给定特征。
16.可选地,所述装置用于通过从所述图像数据中提取位于给定关键点k中心的局部图块来计算所述关键点k。所述局部图块被重新缩放,使得所述多个图像的所述局部图块的所述一个或多个输出向量z的余弦相似性用于确定所述局部图块是否表示用于通信检测目的的相同特征。
17.可选地,所述装置用于通过从所述图像数据中提取位于给定关键点k中心的局部图块来计算所述关键点k。所述装置用于使用附加神经网络算法,所述附加神经网络算法通过基于所述输入数据的所述至少一个图像的正版本和负版本的组合的对比学习进行训练,所述输入数据的所述至少一个图像保留所述图像之间的空间关系。所述附加神经网络算法用于处理围绕位于所述关键点k中心的所述局部图块提取的局部图块,以从所述输入数据中学习视觉相似性和差异;所述多个图像的所述局部图块的所述一个或多个输出向量z与一个或多个神经网络的余弦相似性用于确定所述局部图块是否表示用于通信检测目的的相同特征。
18.根据第二方面,提供了一种用于使用装置从表示多个图像的图像数据中执行自动关键点和描述提取的方法。所述图像数据被输入到所述装置中。所述装置包括耦合至数据存储器装置的数据处理装置。所述数据处理装置用于执行一种或多种神经网络算法。所述方法包括将所述装置配置为使用通信网络装置,所述通信网络装置实现为由所述数据处理装置执行的算法。所述通信网络装置用于:处理所述图像数据,以移除所述多个图像中信息内容低于给定阈值的区域;在所述多个图像中的每个图像中选择表示相互共同特征的至少一个区域,以生成表示所述图像数据中存在的特征的一个或多个输出特征向量h。所述方法包括将所述装置配置为使用特征描述装置,所述特征描述装置实现为由所述数据处理装置执行的算法。所述特征描述装置用于:接收所述多个图像的所述一个或多个输出向量h;生成一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据的所述多个图像中的每个图像中存在的一个或多个关键点。
19.所述方法可以包括孪生卷积网络,所述孪生卷积网络使用对比学习进行训练,以自动识别所述多个图像之间的视觉相似性和差异。所述方法支持完全自动化执行关键点和描述提取。所述方法在没有任何标记的实时图像数据的情况下执行所述自动关键点和描述提取。所述方法使得所述装置能够适于从所述图像数据中学习任何类型的基本视觉特征和基本语义信息。所述方法可以采用视觉嵌入,所述视觉嵌入用于解决位置识别和分类任务等计算机视觉问题。所述方法使得所述装置能够不断进行训练,以学习(i)适应与不同环境和天气条件相关联的不同数据分布,并且变得(ii)对不利条件具有稳健性。所述方法针对输入空间的变化保持不变。
20.可选地,所述方法包括将所述一种或多种算法配置为使用关键点检测算法,所述关键点检测算法利用神经网络中输出神经元的导向反向传播,通过生成输出梯度张量g来
检测所述图像数据中的所述一个或多个关键点,并使用对所述检测的一个或多个关键点应用的滞后阈值法从所述输出梯度张量g中滤除相关性较低的关键点。
21.所述方法可以包括滞后阈值法和非极大值抑制法等后处理方法来检测所述关键点,以提高稳健性、准确性、可靠性和可重复性度量。
22.可选地,所述方法包括通过以下方式配置所述关键点检测算法:检测由所述关键点检测算法刺激的最高激活神经元的输出值,所述关键点检测算法描述所述图像数据中存在的信息最丰富的特征。
23.可选地,所述方法包括使用基于针对关键点和描述提取定制的采样算法的对比学习来训练所述装置,以自动检测图像之间的视觉相似性和差异。所述采样算法用于处理所述输入数据的至少一个图像的正版本和负版本的组合,所述输入数据的所述至少一个图像保留所述图像之间的空间关系。正样本被描述为所述图像的部分重叠区域,负样本被描述为一个或其它图像的非重叠区域。
24.可选地,所述方法包括将所述通信网络装置和所述特征描述装置分别实现为编码器网络和投射头网络;其中,所述编码器网络用于接收所述图像数据,并生成所述一个或多个输出特征向量h;所述投射头网络用于接收所述一个或多个输出特征向量h,并从中生成所述一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据中存在的所述一个或多个关键点。
25.可选地,所述方法包括将所述装置配置为对每个图像生成所述一个或多个输出向量z的集合。所述装置用于计算所述一个或多个输出向量z的所述集合的乘法运算中的自变量参数。所述自变量参数指示所述多个图像中是否存在相同的给定特征。
26.可选地,所述方法包括将所述装置配置为通过从所述图像数据中提取位于给定关键点k中心的局部图块来计算所述关键点k。所述局部图块被重新缩放,使得所述多个图像的所述局部图块的所述一个或多个输出向量z的余弦相似性用于确定所述局部图块是否表示用于通信检测目的的相同特征。
27.可选地,所述方法包括将所述装置配置为通过从所述图像数据中提取位于给定关键点k中心的局部图块来计算所述关键点k;其中,所述方法包括将所述装置配置为使用附加神经网络算法,所述附加神经网络算法通过基于所述输入数据的所述至少一个图像的正版本和负版本的组合的对比学习进行训练,所述输入数据的所述至少一个图像保留所述图像之间的空间关系;其中,所述附加神经网络算法用于处理围绕位于所述关键点k中心的所述局部图块提取的局部图块,以从所述输入数据中学习视觉相似性和差异;其中,所述多个图像的所述局部图块的所述一个或多个输出向量z与一个或多个神经网络的余弦相似性用于确定所述局部图块是否表示用于通信检测目的的相同特征。
28.根据第三方面,提供了一种自主驾驶车辆,所述自主驾驶车辆包括装置,所述装置用于从表示从所述自主驾驶车辆周围的空间区域捕获的视场的至少一个图像的图像数据中执行自动关键点和描述提取,以使所述自主驾驶车辆能够在所述空间区域中导航。
29.根据第四方面,提供了一种操作自主驾驶车辆的方法,所述自主驾驶车辆包括装置,所述装置用于从表示从所述自主驾驶车辆周围的空间区域捕获的视场的至少一个图像的图像数据中执行自动关键点和描述提取,以使所述自主驾驶车辆能够在所述空间区域中导航。
30.所述自主驾驶车辆支持使用所述装置完全自动化执行关键点和描述提取。所述装置使得所述自主驾驶车辆能够不断进行训练,以学习(i)适应与不同环境和天气条件相关联的不同数据分布,并且变得(ii)对不利条件具有稳健性。
31.根据第五方面,提供了一种计算机程序产品,包括其上存储有计算机可读指令的非瞬时性计算机可读存储介质。所述计算机可读指令可由计算机化设备执行,所述计算机化设备包括处理硬件,用于执行所述方法。
32.解决了现有技术中的技术问题,即照明变化、不同视点等不利条件下的关键点和描述提取。
33.因此,与现有技术形成对比的是,本发明提供了一种用于执行自动关键点和描述提取的装置和方法,其中,所述装置提供明确、简单的局部特征,以供非专家解释关键点和描述。所述装置从自然图像中捕获多种输入模式,并将其泛化到不同于训练分布的分布。所述装置在没有任何标记的实时图像数据的情况下执行所述自动关键点和描述提取。可选地,所述装置适于从所述图像数据中学习任何类型的基本视觉特征和基本语义信息。所述装置包括视觉嵌入,所述视觉嵌入用于解决位置识别和分类任务等计算机视觉问题。所述装置不断进行训练,以学习(i)适应与不同环境和天气条件相关联的不同数据分布,并且变得(ii)对照明变化和不同视点等不利条件具有稳健性。所述装置针对输入空间的变化保持不变。
34.根据下面描述的实现方式,本发明的这些方面和其它方面将变得显而易见。
附图说明
35.现在将结合附图,仅以举例的方式来描述本发明的实现方式,其中:
36.图1示出了本发明实现方式提供的用于执行自动关键点和描述提取的装置的框图;
37.图2a示出了本发明实现方式提供的被训练用于执行自动关键点和描述提取的装置的示例性框图;
38.图2b示出了本发明实现方式提供的使用图像数据执行关键点检测的装置的示例性框图;
39.图2c示出了本发明实现方式提供的使用图像数据执行描述提取和通信检测的装置的示例性框图;
40.图3示出了本发明实现方式提供的包括用于执行自动关键点和描述提取的装置的示例性自主驾驶车辆;
41.图4示出了本发明实现方式提供的用于使用装置的方法的流程图,所述装置用于从表示多个图像的图像数据中执行自动关键点和描述提取;
42.图5示出了用于实现本发明实现方式的装置的图示。
具体实施方式
43.本发明实现方式提供了一种用于从表示多个图像的图像数据中执行自动关键点和描述提取的装置,其中,所述自动关键点和描述适于不同的数据分布并且变得对照明变化和不同视点等不利条件具有稳健性。此外,本发明实现方式提供了一种用于使用所述装
置的方法(即,方法),所述装置用于从表示所述多个图像的图像数据中执行自动关键点和描述提取。此外,本发明涉及一种包括所述装置的自主驾驶车辆,以及一种用于操作包括所述装置的自主驾驶车辆的方法,以使所述自主驾驶车辆能够在空间区域中导航。
44.为了使本领域技术人员更容易理解本发明的方案,结合附图描述本发明的以下实现方式。
45.本发明的说明书摘要、权利要求书和上述附图中的“第一”、“第二”、“第三”和“第四”(如有)等术语用于区分类似对象,而不一定用于描述特定序列或顺序。应当理解的是,在适当情况下,所使用的术语可以互换,因此,例如,本文中所描述的本发明实现方式能够以不同于本文所示或所述序列的序列来实现。此外,术语“包括”和“具有”及其任何变体意在涵盖非排他性的包含。例如,包括一系列步骤或单元的过程、方法、装置、产品或设备不一定限于明确列出的步骤或单元,但可以包括其它未明确列出的步骤或单元,或此类过程、方法、产品或设备固有的步骤或单元。
46.图1示出了本发明实现方式提供的用于执行自动关键点和描述提取的装置102的框图。所述装置102包括耦合至数据存储器装置108的数据处理装置106、通信网络装置110和特征描述装置112。所述装置102从表示多个图像的图像数据中执行所述自动关键点和描述提取。所述图像数据被输入(104)到所述装置102中。所述数据处理装置106用于执行一种或多种神经网络算法。所述通信网络装置110实现为由所述数据处理装置106执行的算法。所述通信网络装置110用于:处理所述图像数据,以移除所述多个图像中信息内容低于给定阈值的区域;在所述多个图像中的每个图像中选择表示相互共同特征的至少一个区域,以生成表示所述图像数据中存在的特征的一个或多个输出特征向量h。所述一个或多个输出特征向量h表示所述图像数据中存在的特征。所述特征描述装置112实现为由所述数据处理装置106执行的算法。所述特征描述装置112用于接收所述多个图像的所述一个或多个输出向量h。所述特征描述装置112用于生成一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据的所述多个图像中的每个图像中存在的一个或多个关键点。
47.由所述数据处理装置106执行的所述一种或多种神经算法可以使用关键点检测算法,所述关键点检测算法利用神经网络中输出神经元的导向反向传播,通过生成输出梯度张量g来检测所述图像数据中的所述一个或多个关键点,并使用对所述检测的一个或多个关键点应用的滞后阈值法从所述输出梯度张量g中滤除相关性较低的关键点。
48.所述装置102可以从手机、个人数字助理(personal digital assistant,pda)、平板电脑、台式计算机、服务器或笔记本电脑中选择,但不限于此。所述装置102利用所述导向反向传播来检测所述图像数据中的所述一个或多个关键点。所述图像数据可以与单个图像相关联。
49.所述关键点检测算法可以通过以下方式配置:检测由所述关键点检测算法刺激的最高激活神经元的输出值,所述关键点检测算法描述所述图像数据中存在的信息最丰富的特征。通过导向反向传播描述所述图像数据中存在的信息最丰富的特征的最高激活神经元的值,所述装置102可以使用所述关键点检测算法来检测所述图像数据中的所述一个或多个关键点。
50.所述装置102利用滞后阈值法和非极大值抑制法等后处理方法来检测所述一个或多个关键点,以提高所述一个或多个关键点的稳健性、准确性、可靠性和可重复性度量。
51.所述装置102使用基于针对关键点和描述提取定制的采样算法的对比学习进行训练,以自动检测图像之间的视觉相似性和差异。所述采样算法用于处理所述输入数据的至少一个图像的正版本和负版本的组合,所述输入数据的所述至少一个图像保留所述图像之间的空间关系。正样本被描述为所述图像的部分重叠区域,负样本被描述为一个或其它图像的非重叠区域。
52.所述装置102可以包括孪生卷积网络,所述孪生卷积网络使用对比学习进行训练,以自动确定所述多个图像之间的所述视觉相似性和所述差异。所述装置102可以包括卷积神经网络,所述卷积神经网络使用所述对比学习进行训练,以对所述图像数据进行采样。
53.所述采样算法可以包括对所述图像数据应用的一种或多种数据增强方法,包括透视变换,以模拟从不同角度捕获的所述多个图像。所述采样算法使得所述装置102能够不断学习细粒度视觉特征。
54.所述装置102支持完全自动化执行关键点和描述提取。所述装置102在没有任何标记的实时图像数据的情况下执行所述自动关键点和描述提取。所述装置102适于从所述图像数据中学习任何类型的基本视觉特征和基本语义信息。所述装置102包括视觉嵌入,所述视觉嵌入用于解决位置识别和分类任务等计算机视觉问题。所述装置102不断进行训练,以学习(i)适应与不同环境和天气条件相关联的不同数据分布,并且变得(ii)对不利条件具有稳健性。所述装置102针对输入空间的变化保持不变。
55.图2a示出了本发明实现方式提供的被训练用于执行自动关键点和描述提取的装置202的示例性框图。所述装置202包括通信网络装置和特征描述装置。所述装置202将所述通信网络装置实现为编码器网络(206a、206b)。所述编码器网络(206a、206b)用于接收图像数据(204a和204b),并生成一个或多个输出特征向量h。所述装置202将所述特征描述装置实现为投射头网络(210a、210b)。所述投射头网络(210a、210b)用于接收所述一个或多个输出特征向量h,并从中生成所述一个或多个输出特征向量z,所述一个或多个输出特征向量z表示所述图像数据(204a和204b)中存在的所述一个或多个关键点。所述图像数据(204a和204b)可以是从不同角度捕获的一个或多个对象的多个图像(例如,具有从不同角度捕获的一个或多个对象的表格,如图2a所示)。所述一个或多个输出特征向量h可以表示所述一对图像数据(204a和204b)的视觉嵌入(208a和208b)。所述一个或多个输出向量z表示提取的所述图像数据(204a和204b)的描述(212a和212b)。所述图像数据(204a和204b)用于计算所述一个或多个输出向量z。
56.所述装置202用于为每个图像生成所述一个或多个输出向量z的集合。所述装置202被配置计算所述一个或多个输出向量z的所述集合的乘法运算中的自变量参数。所述自变量参数指示所述多个图像中是否存在相同的给定特征。
57.所述装置202可以包括使用所述图像数据(204a和204b)之间的输出向量z计算的所述图像数据(204a和204b)之间的余弦相似性。如果所述图像数据(204a和204b)类似,则通过计算所述图像数据(204a和204b)的所述一个或多个输出向量z的乘法运算中的最大自变量来选择输出神经元。所述相似性得分可以表示为sim(z,z’)214。可选地,通过应用导向反向传播来处理所述图像数据(204a和204b),以获取表示所述一个或多个关键点的所述一个或多个输出向量z。
58.参考图2a,图2b示出了本发明实现方式提供的使用图像数据(204a和204b)执行关
键点检测的装置202的示例性框图。所述装置202使用编码器网络(206a、206b)和投射头网络(210a、210b)计算(i)一个或多个输出向量z以及(ii)所述一个或多个输出向量z的乘法运算中的最大自变量。所述一个或多个输出向量z表示所述多个图像中的一个或多个关键点(230a-n、232a-n)。所述一个或多个输出特征向量h可以表示所述图像数据(204a和204b)的视觉嵌入(208a和208b)。所述一个或多个输出特征向量z表示提取的描述(212a和212b)。
59.所述一个或多个输出向量z的高激活值指示所述多个图像中存在相同的视觉特征。选定输出向量到输入图像的导向反向传播可生成输出梯度张量g。所述输出梯度张量g越高,所述输入图像对所述选定输出向量的影响越大。为了提高所述图像数据(204a和204b)中所述关键点(230a-n或232a-n)的可能性,可以采用滞后阈值法和非极大值抑制法等后处理方法。
60.参考图2a和图2b,图2c示出了本发明实现方式提供的使用图像数据(204a和204b)执行描述提取和通信检测的装置202的示例性框图。所述装置202用于通过从所述图像数据(204a和204b)中提取位于给定关键点k中心的局部图块(242a、242b)来计算所述关键点k。所述局部图块(242a、242b)被重新缩放,使得所述多个图像的所述局部图块(242a、242b)的所述一个或多个输出向量z的余弦相似性用于确定所述局部图块(242a、242b)是否表示用于通信检测目的的相同特征。所述局部图块(242a、242b)可以包括类似关键点(230a、232a)。
61.图3示出了本发明实现方式提供的包括用于执行自动关键点和描述提取的装置302的示例性自主驾驶车辆304。可选地,所述自主驾驶车辆304包括所述装置302,所述装置302从表示从所述自主驾驶车辆304周围的空间区域捕获的视场的至少一个图像的图像数据中执行自动关键点和描述提取,以使所述自主驾驶车辆304能够在所述空间区域中导航。
62.所述自主驾驶车辆304可以是双轮车、四轮车等。所述自主驾驶车辆304支持使用所述装置302完全自动化执行关键点和描述提取。所述装置302使得所述自主驾驶车辆304能够不断进行训练,以学习(i)适应与不同环境和天气条件相关联的不同数据分布,并且变得(ii)对不利条件具有稳健性。
63.图4示出了本发明实现方式提供的用于使用装置的方法的流程图,所述装置用于从表示多个图像的图像数据中执行自动关键点和描述提取。所述图像数据被输入到所述装置中。所述装置包括耦合至数据存储器装置的数据处理装置。所述数据处理装置用于执行一种或多种神经网络算法。在步骤402中,将所述装置配置为使用通信网络装置,所述通信网络装置实现为由所述数据处理装置执行的算法。所述通信网络装置用于:处理所述图像数据,以移除所述多个图像中信息内容低于给定阈值的区域;在所述多个图像中的每个图像中选择表示相互共同特征的至少一个区域,以生成表示所述图像数据中存在的特征的一个或多个输出特征向量h。在步骤404中,将所述装置配置为使用特征描述装置,所述特征描述装置实现为由所述数据处理装置执行的算法。所述特征描述装置用于:接收所述多个图像的所述一个或多个输出向量h;生成一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据的所述多个图像中的每个图像中存在的一个或多个关键点。
64.所述方法可以包括孪生卷积网络,所述孪生卷积网络使用对比学习进行训练,以自动识别所述多个图像之间的视觉相似性和差异。所述方法支持完全自动化执行关键点和描述提取。所述方法在没有任何标记的实时图像数据的情况下执行所述自动关键点和描述
提取。所述方法使得所述装置能够适于从所述图像数据中学习任何类型的基本视觉特征和基本语义信息。所述方法可以采用视觉嵌入,所述视觉嵌入用于解决位置识别和分类任务等计算机视觉问题。所述方法使得所述装置不断进行训练,以学习(i)适应与不同环境和天气条件相关联的不同数据分布,并且变得(ii)对照明变化和不同视点等不利条件具有稳健性。所述方法针对输入空间的变化保持不变。
65.在第一种实现方式中,所述方法包括将所述一种或多种算法配置为使用关键点检测算法,所述关键点检测算法利用神经网络中输出神经元的导向反向传播,通过生成输出梯度张量g来检测所述图像数据中的所述一个或多个关键点,并使用对所述检测的一个或多个关键点应用的滞后阈值法从所述输出梯度张量g中滤除相关性较低的关键点。
66.在第二种实现方式中,所述方法包括通过以下方式配置所述关键点检测算法:检测由所述关键点检测算法刺激的最高激活神经元的输出值,所述关键点检测算法描述所述图像数据中存在的信息最丰富的特征。
67.在第三种实现方式中,所述方法包括使用基于针对关键点和描述提取定制的采样算法的对比学习来训练所述装置,以自动检测图像之间的视觉相似性和差异。所述采样算法用于处理所述输入数据的至少一个图像的正版本和负版本的组合,所述输入数据的所述至少一个图像保留所述图像之间的空间关系。正样本被描述为所述图像的部分重叠区域,负样本被描述为一个或其它图像的非重叠区域。
68.在第四种实现方式中,所述方法包括将所述通信网络装置和所述特征描述装置分别实现为编码器网络和投射头网络;其中,所述编码器网络用于接收所述图像数据,并生成所述一个或多个输出特征向量h;所述投射头网络用于接收所述一个或多个输出特征向量h,并从中生成所述一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据中存在的所述一个或多个关键点。
69.在第五种实现方式中,所述方法包括将所述装置配置为对每个图像生成所述一个或多个输出向量z的集合。所述装置用于计算所述一个或多个输出向量z的所述集合的乘法运算中的自变量参数。所述自变量参数指示所述多个图像中是否存在相同的给定特征。
70.在第六种实现方式中,所述方法包括将所述装置配置为通过从所述图像数据中提取位于给定关键点k中心的局部图块来计算所述关键点k。所述局部图块被重新缩放,使得所述多个图像的所述局部图块的所述一个或多个输出向量z的余弦相似性用于确定所述局部图块是否表示用于通信检测目的的相同特征。
71.可选地,所述方法包括滞后阈值法和非极大值抑制法等后处理方法来检测所述关键点,以提高稳健性、准确性、可靠性和可重复性度量。
72.对比损失函数用于训练所述装置。所述对比损失函数定义为:
[0073][0074]
其中,在顶部,除法运算sim(zi,zj)评估正样本之间的余弦相似性;在底部,计算并合计所述一对图像数据(204a和204b)中的负样本的余弦相似性sim(zi,zj)。所述正样本是同一图像的重叠裁剪区域的变换版本。负样本是不同图像的变换裁剪区域以及所述同一图像的非重叠裁剪区域。
[0075]
在一种实现方式中,提供了一种操作自主驾驶车辆的方法,所述自主驾驶车辆包括所述装置,所述装置用于从表示从所述自主驾驶车辆周围的空间区域捕获的视场的至少一个图像的图像数据中执行自动关键点和描述提取,以使所述自主驾驶车辆能够在所述空间区域中导航。
[0076]
图5示出了可以在其中实现上述各种实现方式的各种架构和功能的计算机化设备500的图示。如图所示,所述计算机化设备500包括连接到总线502的至少一个处理器504,其中,所述计算机化设备500可以使用外围部件互连(peripheral component interconnect,pci)、快捷pci、加速图形端口(accelerated graphics port,agp)、hypertransport或任何其它总线或一个或多个点对点通信协议等任何合适的协议实现。所述计算机化设备500还包括存储器506。
[0077]
控制逻辑(软件)和数据存储在所述存储器506中,所述存储器506可以采用随机存取存储器(random-access memory,ram)的形式。在本发明中,单半导体平台可以指单一的基于半导体的集成电路或芯片。需要说明的是,术语“单半导体平台”也可以指具有更高连通性的多芯片模块,所述多芯片模块模拟具有更高连通性的片上模块,所述片上模块模拟片上操作,并且所述多芯片模块在利用传统中央处理单元(central processing unit,cpu)和总线实现方式方面取得实质性改进。当然,根据用户需要,各种模块也可以单独设置或以各种半导体平台组合设置。
[0078]
所述计算机化设备500还可以包括辅助存储器510。例如,所述辅助存储器510包括硬盘驱动器和可移动存储驱动器,如软盘驱动器、磁带驱动器、光盘驱动器、数字通用光盘(digital versatile disk,dvd)驱动器、记录设备、通用串行总线(universal serial bus,usb)闪存。所述可移动存储驱动器以众所周知的方式进行以下操作中的至少一种:从可移动存储单元读取以及向可移动存储单元写入。
[0079]
计算机程序或计算机控制逻辑算法可以存储在所述存储器506和所述辅助存储器510中的至少一个中。此类计算机程序在执行时使所述计算机化设备500能够执行上述各种功能。所述存储器506、所述辅助存储器510和任何其它存储器是计算机可读介质的可能示例。
[0080]
在一种实现方式中,可以在所述处理器504、耦合至通信接口512的图形处理器、能够同时具有所述处理器504和图形处理器功能的至少一部分的集成电路(未示出)、芯片组(即,设计用于工作并作为执行相关功能的单元销售的一组集成电路等)的上下文中实现上述各图中描绘的架构和功能。
[0081]
此外,可以在通用计算机系统、电路板系统、专用于娱乐目的的游戏机系统、专用系统的上下文中实现上述各图中描绘的架构和功能。例如,所述计算机化设备500可以采用台式计算机、笔记本电脑、服务器、工作站、游戏机、嵌入式系统的形式。
[0082]
此外,所述计算机化设备500可以采取各种其它设备的形式,包括但不限于个人数字助理(personal digital assistant,pda)设备、手机设备、智能手机、电视等。此外,尽管未示出,但所述计算机化设备500可以通过i/o接口508耦合至网络(例如,电信网络、局域网(local area network,lan)、无线网络、互联网等广域网(wide area network,wan)、对等网络、有线网络等)进行通信。
[0083]
应当理解的是,所描述的图中示出的组件的布置是示例性的,并且可能有其它布
置。还应当理解的是,由权利要求书界定的、下文描述的并且在各种框图中示出的各种系统组件(和装置)表示根据本文中所公开的主题配置的一些系统中的组件。例如,这些系统组件(和装置)中的一个或多个可以整体或部分地通过所描述的图中示出的布置中示出的至少部分组件实现。
[0084]
另外,尽管这些组件中的至少一个至少部分地实现为电子硬件组件并因此构成机器,但是其它组件可以在软件中实现,当包含于执行环境中时所述组件构成机器、硬件或软件和硬件的组合。
[0085]
尽管已经详细描述了本发明及其优点,但应理解,在不脱离所附权利要求所定义的公开内容精神和范围的情况下,本文可以进行各种改变、替换和修改。

技术特征:
1.一种用于从表示多个图像的图像数据(204a和204b)中执行自动关键点和描述提取的装置(102、202、302),其特征在于,所述图像数据(204a和204b)被输入(104)到所述装置(102、202、302)中,其中,所述装置(102、202、302)包括数据处理装置(106),所述数据处理装置(106)耦合至数据存储器装置(108)并且用于执行一种或多种神经网络算法,并且所述装置(102、202、302)包括:(i)通信网络装置(110),其实现为由所述数据处理装置(106)执行的算法,其中,所述通信网络装置(110)用于:处理所述图像数据(204a和204b),以移除所述多个图像中信息内容低于给定阈值的区域;在所述多个图像中的每个图像中选择表示相互共同特征的至少一个区域,以生成表示所述图像数据(204a和204b)中存在的特征的一个或多个输出特征向量h;(ii)特征描述装置(112),其实现为由所述数据处理装置(106)执行的算法,其中,所述特征描述装置(112)用于:接收所述多个图像的所述一个或多个输出向量h;生成一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据(204a和204b)的所述多个图像中的每个图像中存在的一个或多个关键点(230a-n、232a-n)。2.根据权利要求1所述的装置(102、202、302),其特征在于,所述一种或多种神经算法使用关键点检测算法,所述关键点检测算法利用神经网络中输出神经元的导向反向传播,通过生成输出梯度张量g来检测所述图像数据(204a和204b)中的所述一个或多个关键点(230a-n、232a-n),并使用对所述检测的一个或多个关键点(230a-n和232a-n)应用的滞后阈值法从所述输出梯度张量g中滤除相关性较低的关键点。3.根据权利要求2所述的装置(102、202、302),其特征在于,所述关键点检测算法通过以下方式配置:检测由所述关键点检测算法刺激的最高激活神经元的输出值,所述关键点检测算法描述所述图像数据(204a和204b)中存在的信息最丰富的特征。4.根据权利要求1、2或3所述的装置(102、202、302),其特征在于,所述装置(102、202、302)使用基于针对关键点和描述提取定制的采样算法的对比学习进行训练,以自动检测图像之间的视觉相似性和差异;其中,所述采样算法用于处理所述输入数据的至少一个图像的正版本和负版本的组合,所述输入数据的所述至少一个图像保留所述图像之间的空间关系;其中,正样本被描述为所述图像的部分重叠区域,负样本被描述为一个或其它图像的非重叠区域。5.根据权利要求1、2、3或4所述的装置(102、202、302),其特征在于,所述通信网络装置(110)和所述特征描述装置(112)分别实现为编码器网络(206a、206b)和投射头网络(210a、210b);其中,所述编码器网络(206a、206b)用于接收所述图像数据(204a和204b),并生成所述一个或多个输出特征向量h;所述投射头网络(210a、210b)用于接收所述一个或多个输出特征向量h,并从中生成所述一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据(204a和204b)中存在的所述一个或多个关键点(230a-n、232a-n)。6.根据上述权利要求中任一项所述的装置(102、202、302),其特征在于,所述装置(102、202、302)用于为每个图像生成所述一个或多个输出向量z的集合,其中,所述装置(102、202、302)用于计算所述一个或多个输出向量z的所述集合的乘法运算中的自变量参数,其中,所述自变量参数指示所述多个图像中是否存在相同的给定特征。7.根据权利要求6所述的装置(102、202、302),其特征在于,所述装置(102、202、302)用
于通过从所述图像数据(204a和204b)中提取位于给定关键点k中心的局部图块来计算所述关键点k,其中,所述局部图块(242a、242b)被重新缩放,使得所述多个图像的所述局部图块(242a、242b)的所述一个或多个输出向量z的余弦相似性用于确定所述局部图块(242a、242b)是否表示用于通信检测目的的相同特征。8.根据权利要求6所述的装置(102、202、302),其特征在于,所述装置(102、202、302)用于通过从所述图像数据(204a和204b)中提取位于给定关键点k中心的局部图块来计算所述关键点k;其中,所述装置(102、202、302)用于使用附加神经网络算法,所述附加神经网络算法通过基于所述输入数据的所述至少一个图像的正版本和负版本的组合的对比学习进行训练,所述输入数据的所述至少一个图像保留所述图像之间的空间关系;其中,所述附加神经网络算法用于处理围绕位于所述关键点k中心的所述局部图块提取的局部图块,以从所述输入数据中学习视觉相似性和差异;其中,所述多个图像的所述局部图块(242a、242b)的所述一个或多个输出向量z与一个或多个神经网络的余弦相似性用于确定所述局部图块(242a、242b)是否表示用于通信检测目的的相同特征。9.一种用于使用装置(102、202、302)的方法,其特征在于,所述装置(102、202、302)用于从表示多个图像的图像数据(204a和204b)中执行自动关键点和描述提取,其中,所述图像数据(204a和204b)被输入(104)到所述装置(102、202、302)中,其中,所述装置(102、202、302)包括数据处理装置(106),所述数据处理装置(106)耦合至数据存储器装置(108)并且用于执行一种或多种神经网络算法;其中,所述方法包括:(i)将所述装置(102、202、302)配置为使用通信网络装置(110),所述通信网络装置(110)实现为由所述数据处理装置(106)执行的算法,其中,所述通信网络装置(110)用于:处理所述图像数据(204a和204b),以移除所述多个图像中信息内容低于给定阈值的区域;在所述多个图像中的每个图像中选择表示相互共同特征的至少一个区域,以生成表示所述图像数据(204a和204b)中存在的特征的一个或多个输出特征向量h;(ii)将所述装置(102、202、302)配置为使用特征描述装置(112),所述特征描述装置(112)实现为由所述数据处理装置(106)执行的算法,其中,所述特征描述装置(112)用于:接收所述多个图像的所述一个或多个输出向量h;生成一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据(204a和204b)的所述多个图像中的每个图像中存在的一个或多个关键点(230a-n、232a-n)。10.根据权利要求9所述的方法,其特征在于,所述方法包括将所述一种或多种算法配置为使用关键点检测算法,所述关键点检测算法利用神经网络中输出神经元的导向反向传播,通过生成输出梯度张量g来检测所述图像数据(204a和204b)中的所述一个或多个关键点(230a-n、232a-n),并使用对所述检测的一个或多个关键点(230a-n和232a-n)应用的滞后阈值法从所述输出梯度张量g中滤除相关性较低的关键点。11.根据权利要求10所述的方法,其特征在于,所述方法包括通过以下方式配置所述关键点检测算法:检测由所述关键点检测算法刺激的最高激活神经元的输出值,所述关键点检测算法描述所述图像数据(204a和204b)中存在的信息最丰富的特征。12.根据权利要求9、10或11所述的方法,其特征在于,所述方法包括使用基于针对关键点和描述提取定制的采样算法的对比学习来训练所述装置(102、202、302),以自动检测图像之间的视觉相似性和差异;其中,所述采样算法用于处理所述输入数据的至少一个图像
的正版本和负版本的组合,所述输入数据的所述至少一个图像保留所述图像之间的空间关系;其中,正样本被描述为所述图像的部分重叠区域,负样本被描述为一个或其它图像的非重叠区域。13.根据权利要求9、10、11或12所述的方法,其特征在于,所述方法包括将所述通信网络装置(110)和所述特征描述装置(112)分别实现为编码器网络(206a、206b)和投射头网络(210a、210b);其中,所述编码器网络(206a、206b)用于接收所述图像数据(204a和204b),并生成所述一个或多个输出特征向量h;所述投射头网络(210a、210b)用于接收所述一个或多个输出特征向量h,并从中生成所述一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据(204a和204b)中存在的所述一个或多个关键点(230a-n、232a-n)。14.根据权利要求9至13中任一项所述的方法,其特征在于,所述方法包括将所述装置(102、202、302)配置为对每个图像生成所述一个或多个输出向量z的集合,其中,所述装置(102、202、302)用于计算所述一个或多个输出向量z的所述集合的乘法运算中的自变量参数,其中,所述自变量参数指示所述多个图像中是否存在相同的给定特征。15.根据权利要求14所述的方法,其特征在于,所述方法包括将所述装置(102、202、302)配置为通过从所述图像数据(204a和204b)中提取位于给定关键点k中心的局部图块来计算所述关键点k,其中,所述局部图块(242a、242b)被重新缩放,使得所述多个图像的所述局部图块(242a、242b)的所述一个或多个输出向量z的余弦相似性用于确定所述局部图块(242a、242b)是否表示用于通信检测目的的相同特征。16.根据权利要求14所述的方法,其特征在于,所述方法包括将所述装置(102、202、302)配置为通过从所述图像数据(204a和204b)中提取位于给定关键点k中心的局部图块来计算所述关键点k;其中,所述方法包括将所述装置(102、202、302)配置为使用附加神经网络算法,所述附加神经网络算法通过基于所述输入数据的所述至少一个图像的正版本和负版本的组合的对比学习进行训练,所述输入数据的所述至少一个图像保留所述图像之间的空间关系;其中,所述附加神经网络算法用于处理围绕位于所述关键点k中心的所述局部图块提取的局部图块,以从所述输入数据中学习视觉相似性和差异;其中,所述多个图像的所述局部图块(242a、242b)的所述一个或多个输出向量z与一个或多个神经网络的余弦相似性用于确定所述局部图块(242a、242b)是否表示用于通信检测目的的相同特征。17.一种自主驾驶车辆(304),其特征在于,包括根据权利要求1至8中任一项所述的装置(102、202、302),所述装置(102、202、302)用于从表示从所述自主驾驶车辆(304)周围的空间区域捕获的视场的至少一个图像的图像数据(204a和204b)中执行自动关键点和描述提取,以使所述自主驾驶车辆(304)能够在所述空间区域中导航。18.一种操作自主驾驶车辆(304)的方法,其特征在于,所述自主驾驶车辆(304)包括根据权利要求1至8中任一项所述的装置(102、202、302),所述装置(102、202、302)用于从表示从所述自主驾驶车辆(304)周围的空间区域捕获的视场的至少一个图像的图像数据(204a和204b)中执行自动关键点和描述提取,以使所述自主驾驶车辆(304)能够在所述空间区域中导航。19.一种计算机程序产品,其特征在于,包括计算机可读指令,所述计算机可读指令可由计算机化设备(500)执行,所述计算机化设备(500)包括处理硬件,用于执行根据权利要求9至16中任一项或权利要求18所述的方法。

技术总结
提供了一种用于从图像数据(204A和204B)中执行自动关键点和描述提取的装置(102、202、302)。所述装置(102、202、302)包括耦合至数据存储器装置(108)的数据处理装置(106)、通信网络装置(110)和特征描述装置(112)。所述通信网络装置(i)移除多个图像中信息内容低于给定阈值的区域;(ii)在所述多个图像中的每个图像中选择表示相互共同特征的区域;(iii)生成表示所述图像数据中存在的特征的一个或多个输出特征向量h。所述特征描述装置接收所述多个图像的所述一个或多个输出向量h,并生成一个或多个输出向量z,所述一个或多个输出向量z表示所述图像数据的所述多个图像中的每个图像中存在的一个或多个关键点(230A-N、232A-N)。N)。N)。


技术研发人员:亨利克
受保护的技术使用者:华为技术有限公司
技术研发日:2020.12.22
技术公布日:2023/9/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐