推理装置、推理方法和程序与流程

未命名 09-18 阅读:78 评论:0


1.本公开内容涉及推理装置、推理方法和程序。


背景技术:

2.近年来,已知用于估计在图像中捕获的被摄体的位置的技术。例如,在已经公开的技术中,将表示被摄体的中心的值的热力图引入训练处理(例如,参见非专利文献1)。根据该技术,基于训练处理的结果和图像来估计在图像中捕获的被摄体的中心位置。另外,基于从被摄体的中心位置的回归来估计被摄体的预定区域相对于被摄体的中心位置的相对位置。
3.在已经公开的另一技术中,将数值化地表示围绕图像中捕获的被摄体的矩形区域(边界框)的中心位置与该矩形区域中存在的点之间的距离的指数(在下文中,也称为“中心度”)引入到训练处理中(例如,参见非专利文献2)。根据该技术,可以基于已经引入了中心度的训练处理的结果来估计被摄体的中心位置。
4.[引用文献列表]
[0005]
[非专利文献]
[0006]
[非专利文献1]xingyi zhou和其他两个人的“object as points”,[在线],arxiv1904.07850,因特网(https://arxiv.org/pdf/1904.07850.pdf)
[0007]
[非专利文献2]zhi tian和其他三个人的“fcos:fully convolutional one-stage object detection”,[在线],iccv2019,因特网(https://arxiv.org/pdf/1904.01355.pdf)


技术实现要素:

[0008]
[技术问题]
[0009]
然而,可能存在用于训练处理的图像中捕获的多个被摄体的中心位置彼此靠近或彼此交叠的情况。在这样的情况下,即使多个被摄体的相应预定区域的位置彼此分开,在多个被摄体的中心位置保持彼此靠近或彼此交叠时也不期望地执行训练处理。因此,可能存在基于训练结果的被摄体的预定区域的位置的估计精度未得到提高的情况。
[0010]
鉴于此,期望提供一种能够更精确地估计被摄体的预定区域的位置的技术。
[0011]
[问题的解决方案]
[0012]
本公开提供了一种推理装置,该推理装置包括:获取部,其获取第二图像数据和基于以下项获得的经训练的模型:第三参考位置和第四参考位置,该第三参考位置和第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及第三相对位置和第四相对位置,该第三相对位置和第四相对位置是基于第一被摄体的预定区域相对于第一参考位置的第一相对位置、第二被摄体的预定区域相对于第二参考位置的第二相对位置以及移动处理而获得的;以及推理部,其基于经训练的模型和第二图像数据,来获
得在第二图像数据中捕获的第三被摄体的第五参考位置和第三被摄体的预定区域相对于第五参考位置的第五相对位置。
[0013]
本公开内容提供了一种推理方法,该推理方法包括:获取第二图像数据和基于以下项获得的经训练的模型:第三参考位置和第四参考位置,该第三参考位置和第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及第三相对位置和第四相对位置,该第三相对位置和第四相对位置是基于第一被摄体的预定区域相对于第一参考位置的第一相对位置、第二被摄体的预定区域相对于第二参考位置的第二相对位置以及移动处理而获得的;以及基于经训练的模型和第二图像数据,获得在第二图像数据中捕获的第三被摄体的第五参考位置和第三被摄体的预定区域相对于第五参考位置的第五相对位置。
[0014]
本公开内容提供了一种程序,该程序使计算机用作推理装置,该推理装置包括:获取部,其获取第二图像数据和基于以下项获得的经训练的模型:第三参考位置和第四参考位置,该第三参考位置和第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及第三相对位置和第四相对位置,该第三相对位置和第四相对位置是基于第一被摄体的预定区域相对于第一参考位置的第一相对位置、第二被摄体的预定区域相对于第二参考位置的第二相对位置以及移动处理而获得的;以及推理部,其基于经训练的模型和第二图像数据,来获得在第二图像数据中捕获的第三被摄体的第五参考位置和第三被摄体的预定区域相对于第五参考位置的第五相对位置。
附图说明
[0015]
图1是描绘根据本公开内容的实施方式的信息处理系统的功能配置示例的图。
[0016]
图2是描绘由所公开的技术1估计的位置的示例的图。
[0017]
图3是描绘人体中心热力图的示例的图。
[0018]
图4是描绘部位相对于人体中心位置的相对位置的示例的图。
[0019]
图5是描绘根据部位位置热力图估计的部位位置的示例的图。
[0020]
图6是描绘人体中心位置和部位的相对位置的记录的示例的图。
[0021]
图7是用于说明根据本公开内容的第一实施方式的信息处理系统的概述的图。
[0022]
图8是描绘输入图像的示例的图。
[0023]
图9是描绘训练图像的示例的图。
[0024]
图10是描绘处理和存在/不存在信息更新的第一示例的图。
[0025]
图11是描绘处理和存在/不存在信息更新的第二示例的图。
[0026]
图12是描绘根据本公开内容的第一实施方式的训练步骤的过程的示例的流程图。
[0027]
图13是用于说明根据部位存在概率与阈值之间的比较结果的信息的示例的图。
[0028]
图14是用于说明表示部位存在概率的信息的示例的图。
[0029]
图15是描绘根据本公开内容的第一实施方式的识别步骤的过程的示例的流程图。
[0030]
图16描绘了用于说明将存在概率应用于自动对焦的示例的图。
[0031]
图17是描绘自动对焦控制的示例的流程图。
[0032]
图18描绘了用于说明中心位置交叠的示例的图。
[0033]
图19是用于说明所公开的技术2的图。
[0034]
图20描绘了用于说明cnn训练部的功能的图。
[0035]
图21是示意性地描绘使两个人体中心位置彼此远离地移动的处理的图。
[0036]
图22是示意性地描绘使四个人体中心位置彼此远离地移动的处理的图。
[0037]
图23是描绘根据本公开内容的第二实施方式的训练步骤的过程的示例的流程图。
[0038]
图24是描绘使多个人体中心位置彼此远离地移动的处理的具体示例的流程图。
[0039]
图25是描绘根据本公开内容的第二实施方式的识别步骤的过程的示例的流程图。
[0040]
图26是用于说明将估计的部位位置应用于体育运动场景的示例的图。
[0041]
图27是用于说明越位线的图。
[0042]
图28是描绘将估计的部位位置应用于越位识别的示例的流程图。
[0043]
图29是用于说明将估计的部位位置应用于街道场景的示例的图。
[0044]
图30是描绘在组合本公开内容的第一实施方式和本公开内容的第二实施方式的情况下的训练步骤的过程的示例的流程图。
[0045]
图31是描绘在组合本公开内容的第一实施方式和本公开内容的第二实施方式的情况下的识别步骤的过程的示例的流程图。
[0046]
图32是描绘根据本公开内容的实施方式的信息处理系统的硬件配置示例的框图。
具体实施方式
[0047]
在下文中,参照附图详细说明本公开内容的优选实施方式。注意,在本说明书和附图中,被配置成在功能上基本相同的构成元件被赋予相同的附图标记,并且由此省略重复的说明。
[0048]
另外,在本说明书和附图中,在一些情况下,通过在相同的附图标记之后赋予它们不同的数字来在被配置成在功能上基本相同或相似的多个构成元件之间进行区分。应当注意,在不需要在被配置成在功能上基本相同或相似的多个构成元件中的各个构成元件之间进行特别区分的情况下,仅赋予相同的附图标记。另外,在一些情况下,通过在相同的附图标记之后赋予它们不同的字母字符来在不同实施方式中的相似构成元件之间进行区分。应当注意,在不需要在各个相似的构成元件之间进行特别区分的情况下,仅赋予相同的附图标记。
[0049]
注意,按照以下顺序给出说明。
[0050]
0.信息处理系统的功能配置示例
[0051]
1.第一实施方式
[0052]
1.1.背景
[0053]
1.2.概述
[0054]
1.3.训练步骤的细节
[0055]
1.4.识别步骤的细节
[0056]
1.5.自动对焦控制
[0057]
1.6.第一实施方式的有益效果
[0058]
1.7.第一实施方式的修改示例
[0059]
2.第二实施方式
[0060]
2.1.背景
[0061]
2.2.训练步骤的细节
[0062]
2.3.识别步骤的细节
[0063]
2.4.应用示例
[0064]
2.5.第二实施方式的有益效果
[0065]
3.实施方式的组合
[0066]
4.硬件配置示例
[0067]
5.结论
[0068]
《0.信息处理系统的功能配置示例》
[0069]
首先,说明根据本公开内容的实施方式的信息处理系统的功能配置示例。
[0070]
图1是描绘根据本公开内容的实施方式的信息处理系统的功能配置示例的图。如图1所示,信息处理系统10具有控制部110、操纵部120、传感器部130、存储部140、通信部150和呈现部160。信息处理系统10可以由计算机来实现。注意,可以将图1中所示的信息处理系统10的功能配置示例应用于本公开内容的第一实施方式和本公开内容的第二实施方式中的每一个,它们将在后面说明。
[0071]
控制部110执行对信息处理系统10的每个部的控制。例如,控制部110可以包括一个或更多个cpu(中央处理单元)等,或者可以包括一个或更多个gpu(图形处理单元)等。在控制部110包括诸如cpu、gpu等的处理单元的情况下,处理单元可以包括电子电路。控制部110可以通过由处理单元执行程序来实现。
[0072]
控制部110具有cnn识别处理部112、后处理部114、输出部116和cnn训练部118。在后面说明这些块的细节。
[0073]
操纵部120具有接受用户的操纵的输入的功能。在本公开内容的实施方式中,主要假设操纵部120包括鼠标和键盘。然而,操纵部120不一定包括鼠标和键盘。例如,操纵部120可以包括触摸面板、触摸板、开关、控制杆或按钮。另外,操纵部120可以包括感测用户的声音的麦克风,或者可以包括感测用户的视线的图像传感器。
[0074]
注意,在本公开内容的实施方式中,主要假设操纵部120存在于包括控制部110的机器中。然而,操纵部120可以存在于不包括控制部110的另一机器中。此时,由操纵部120接受的操纵可以经由网络提供给控制部110。
[0075]
传感器部130包括图像传感器,并且通过使用图像传感器来感测识别图像数据。在下文中,也将图像数据简称为“图像”。此处,图像传感器的类型不受限制。尽管在本公开内容的实施方式中主要假设图像传感器包括对rgb图像进行感测的rgb图像传感器,但是图像传感器可以包括对深度图像进行感测的深度传感器,或者可以包括对ir(红外)图像进行感测的ir传感器。由传感器部130感测到的识别图像被提供给控制部110,并且通过使用经训练的模型用于识别处理。
[0076]
注意,在本公开内容的实施方式中,主要假设传感器部130存在于包括控制部110的机器中。然而,传感器部130可以存在于不包括控制部110的另一机器中。此时,由传感器部130感测的图像可以经由网络提供给控制部110。
[0077]
另外,模型的类型不受特别限制。在本公开内容的实施方式中,主要假设使用神经
网络作为模型。此外,在本公开内容的实施方式中,主要假设使用cnn作为模型。此时,通过训练处理更新包括在cnn中的多个神经元的权重来执行cnn的训练。然而,神经网络的类型不限于cnn。在下文中,也将经训练的cnn称为“训练结果cnn”。
[0078]
存储部140是包括存储器的记录介质,并且在其上存储将由控制部110执行的程序、在其上存储程序执行所需的数据等。例如,存储部140在其上存储训练数据库(在下文中,也称为“训练db”)和训练结果cnn。另外,存储部140在其上临时存储由控制部110计算的数据。存储部140包括磁存储部设备、半导体存储设备、光学存储设备、磁光存储设备等。
[0079]
通信部150包括通信电路,并且具有经由网络与另一网络连接装置通信的功能。
[0080]
呈现部160具有向用户输出信息的功能。呈现部160的类型不受限制。例如,呈现部160可以包括能够以用户可以视觉地识别的格式来显示信息的显示器,并且该显示器可以是液晶显示器、有机el(电致发光)显示器或其他显示器。替选地,呈现部160可以包括向用户呈现触觉信息的触觉呈现装置,或者可以包括通过声音向用户呈现信息的扬声器。
[0081]
例如,cnn训练部118和训练db包括在训练装置中,而cnn识别处理部112、后处理部114和输出部116包括在推理装置中。尽管在本公开内容的实施方式中假设训练装置和推理装置由单个计算机实现,但是训练装置和推理装置可以由单独的计算机实现。此时,训练结果cnn可以从训练装置发送,并且由推理装置的通信部150接收。
[0082]
至此已经说明了根据本公开内容的实施方式的信息处理系统10的功能配置示例。
[0083]
《1.第一实施方式》
[0084]
接下来,说明本公开内容的第一实施方式。
[0085]
[1.1.背景]
[0086]
近年来,已知用于估计在图像中捕获的被摄体的位置的技术。例如,在已经公开的技术(下文中,也称为“所公开的技术1”)中,将表示被摄体的中心的值的热力图引入训练处理。根据所公开的技术1,基于训练处理的结果和图像来估计在图像中捕获的被摄体的中心位置。另外,根据所公开的技术1,基于从被摄体的中心位置的回归来估计被摄体的预定区域相对于被摄体的中心位置的相对位置。
[0087]
在下文中,将人体作为在图像中捕获的被摄体的示例并进行说明。然而,在图像中捕获的被摄体不限于人体。例如,在图像中捕获的被摄体可以是刚性体(例如,车辆、家具等)或者可以是非刚性体(例如,动物、植物等)。另外,在下面的说明中,将人体的部位(身体部位)作为被摄体的预定区域的示例并进行说明。人体的部位的示例包括眼睛、颈、肩、肘、手腕等。然而,被摄体的预定区域不受限制,并且可以是任何区域,只要它们是被摄体的部分区域即可。
[0088]
参照图2至图6说明所公开的技术1。图2是描绘由所公开的技术1估计的位置的示例的图。如图2所示,在所公开的技术1中,cnn基于输入至cnn的识别图像来输出表示人体的中心的值的热力图(在下文中,也称为“人体中心热力图”),并且基于人体中心热力图来估计人体中心位置c。此外,基于从人体中心位置c的回归来估计部位相对于人体中心位置c的相对位置pk。另外,基于表示部位位置的值的热力图(在下文中,也称为“部位位置热力图”)来估计部位位置。
[0089]
图3是描绘人体中心热力图的示例的图。如图3所示,根据所公开的技术1,cnn基于输入至cnn的识别图像来输出人体中心热力图g91。根据所公开的技术1,基于人体中心热力
图g91来估计人体中心位置c。更具体地,根据所公开的技术1,将人体中心热力图g91上的点中的如下点估计为人体中心位置c,该点的值等于或大于八个周围点的值。
[0090]
图4是描绘部位相对于人体中心位置c的相对位置的示例的图。如图4所示,根据所公开的技术1,基于从人体中心位置c的回归来估计部位(在图4所示的示例中的眼睛、手腕、脚等)相对于人体中心位置c的相对位置。图5是描绘从部位位置热力图估计的部位位置的示例的图。根据所公开的技术1,基于表示部位位置的值的热力图来估计部位位置(图5所示的示例中的部位位置h1至h5(眼睛、右手腕、左手腕、右脚踝、左脚踝等))。
[0091]
例如,假设在图像中捕获的人的数目为n,可以通过使用n(n=0至n-1)将每个人体的中心位置表示为cn。另外,假设部位的数目为p,可以通过使用k(k=0至k-1)将部位k相对于人体中心位置cn的相对位置表示为x
nk

[0092]
图6是描绘人体中心位置和部位的相对位置的记录的示例的图。如图6所示,在与记录了人体中心位置c0的位置对应的位置处记录部位(k=0)相对于人体中心位置c0的相对位置x
00
、y
00
,并且在与记录了人体中心位置c1的位置对应的位置处记录部位(k=1)相对于人体中心位置c1的相对位置x
10
、y
10

[0093]
换言之,搜索记录了人体中心位置c0的位置,并且如果找到记录了人体中心位置c0的位置,则从与记录了人体中心位置c0的位置对应的位置读出与人体中心位置c0相关联的部位(k=0)的相对位置x
00
、y
00
。类似地,搜索记录了人体中心位置c1的位置,并且如果找到记录了人体中心位置c1的位置,则从与记录了人体中心位置c1的位置对应的位置读出与人体中心位置c1相关联的部位(k=1)的相对位置x
10
、y
10

[0094]
至此已经简要说明了所公开的技术1。此处,并不总是必然地在图像中捕获到人体的部位的情况。例如,当人的背面面对图像传感器时,正面上的部位(例如,面部等)不被捕获在图像中。替选地,当从图像传感器看时人的部位被障碍物等遮挡时,被遮挡的部位不被捕获在图像中。替选地,在捕获不具有她/他的身体的一些部位的人的图像的情况下(例如,在捕获具有身体残疾的人的图像的情况下或者在其他类似情况下),这些部位不被捕获在图像中。
[0095]
尽管如此,根据所公开的技术1,必然地将部位相对于人体中心位置c的相对位置(x,y)估计为部位位置。然而,根据所公开的技术1,不能获得表示在图像中是否存在部位的信息(在下文中,也称为“存在/不存在信息”)。然后,不能获得部位存在/不存在信息的事实可能引起各种不便。例如,在一些可能的情况下,尽管在图像中不存在某部位,仍基于不存在的部位的估计部位位置不期望地执行af(自动对焦)。替选地,在一些可能的情况下,尽管在图像中不存在某部位,仍可能不期望地使用不存在的部位的估计部位位置的深度值。
[0096]
替选地,为了确定在图像中是否存在某部位,可以考虑使用关于是否可以根据部位位置热力图估计出该部位的部位位置的信息。然而,并非总是必然能够基于部位位置热力图来精确地估计出部位位置的情况。例如,在右脚被障碍物遮挡并且左脚存在于图像中的情况下,由于左脚和右脚彼此相似,因此可能基于部位位置热力图将左脚的位置不期望地估计为右脚的位置。因此,不能精确地确定在图像中是否存在部位。
[0097]
鉴于此,本公开内容的第一实施方式主要提出了一种使得能够估计人体的部位位置并且估计该部位被捕获在图像中的可能性的技术。
[0098]
至此已经说明了本公开内容的第一实施方式的背景。
[0099]
[1.2.概述]
[0100]
接下来,参照图7说明根据本公开内容的第一实施方式的信息处理系统10的概述。图7是用于说明根据本公开内容的第一实施方式的信息处理系统10的概述的图。如图7所示,在本公开内容的第一实施方式中,同样地,cnn基于输入至cnn的识别图像来输出人体中心位置c和部位相对于人体中心位置c的相对位置pk。
[0101]
注意,人体中心位置c表示人体“参考位置”的示例。因此,可以将人体的任何位置视为人体中心位置c。另外,在本公开内容的第一实施方式中,基于输入至cnn的识别图像,输出表示在图像中存在部位的可能性的信息(在下文中,也称为“存在概率”)en。针对与n个人对应的每组k个部位输出存在概率en。
[0102]
注意,在本公开内容的第一实施方式中,主要假设输入至cnn的部位位置和从cnn输出的部位位置分为人体中心位置c和部位的相对位置pk。然而,如还在后面说明的,输入至cnn的部位位置和从cnn输出的部位位置可以不分为人体中心位置c和部位的相对位置pk。即,可以将部位的绝对位置直接输入至cnn,并且可以从cnn直接输出部位的绝对位置。
[0103]
至此已经说明了本公开内容的第一实施方式的概述。
[0104]
[1.3.训练步骤的细节]
[0105]
接下来,参照图8至图12说明由根据本公开内容的第一实施方式的信息处理系统10执行的训练步骤的细节。
[0106]
(训练db)
[0107]
输入图像和标签彼此相关联地存储在训练db上。输入图像和标签表示用于训练处理的训练数据。作为标签,在输入图像中捕获的人体中心位置cn(n=0至n-1,其中n是人的数目)、部位k(k=0至k-1,其中k是部位的数目)相对于人体中心位置cn的相对位置(x
nk
,y
nk
)、以及关于部位k的存在/不存在信息v
nk
彼此相关联。
[0108]
在下文中,主要假设表示部位不存在于输入图像中的值为0,并且表示部位存在于输入图像中的值为1。然而,表示部位不存在于输入图像中的值不限于0,并且部位存在于输入图像中的值不限于1。注意,并非总是所有部位的标签(相对位置)存储在训练db上的情况。例如,在输入图像中捕获的人的脚的部位被障碍物遮挡的情况下,人的脚的部位的标签(相对位置)不存在。
[0109]
(cnn训练部118)
[0110]
cnn训练部118在训练步骤从训练db获取输入图像(第一图像数据)和标签。
[0111]
图8是描绘输入图像的示例的图。通过参照图8可以看出,描绘了输入图像g10。在输入图像g10中捕获了被摄体的示例、人体b11(第一被摄体)和人体b12。此时,cnn训练部118获取与人体b11对应的标签作为与输入图像g10对应的标签。虽然此处将右眼作为部位的示例并进行说明,但可以使用除了右眼之外的部位。注意,由于在输入图像g10中没有捕获到人体b12的右眼,因此没有从训练db获取到与人体b12对应的部位k=0(右眼)的标签。
[0112]
更具体地,cnn训练部118获取人体b11的中心位置c0、部位k=0(右眼)相对于人体中心位置c0的相对位置(x
00
,y
00
)以及关于部位k=0(右眼)的存在/不存在信息v
00
=1(存在)作为与人体b11对应的标签。另一方面,由于与人体b12对应的标签不存在,cnn训练部118设置关于部位k=0(右眼)的存在/不存在信息v
10
=0(不存在)作为与人体b12对应的标签。在下文中,主要说明与人体b11对应的标签。
[0113]
接下来,cnn训练部118对输入图像g10执行预定处理(在下文中,也称为“处理”)。由于由此变得能够有意地产生其中在输入图像g10中不存在部位的位置的情况,因此能够期望提高关于其中部位不存在的图像的识别精度。此处主要假设cnn训练部118对输入图像g10随机地执行处理。然而,如后面还说明的,cnn训练部118可以基于预定规则对输入图像g10执行处理(例如,可以执行相同的处理)。替选地,cnn训练部118可以不对输入图像g10执行处理。
[0114]
cnn训练部118对输入图像g10执行处理,并且通过识别在已经执行了处理之后获得的图像(第三图像数据)中是否存在部位,来获得部位存在/不存在信息。在已经执行了处理之后获得的图像中存在部位的情况下,cnn训练部118将部位存在/不存在信息保持为1(存在)。另一方面,在已经执行了处理之后获得的图像中存在部位的情况下,cnn训练部118将部位存在/不存在信息改变为0(不存在)。
[0115]
在对输入图像g10执行处理以及执行存在/不存在信息改变之前,可以基于输入图像g10生成要用于训练的图像(训练图像)。图9是描绘训练图像的示例的图。通过参照图9可以看出,描绘了训练图像g20。cnn训练部118通过将输入图像g10布置在训练图像g20的框内来生成训练图像g20。注意,描绘了人体b11的中心位置c0、右眼部位的相对位置(x
00
,y
00
)和右眼部位存在/不存在信息v
00
=1(存在)作为与人体b11对应的标签。
[0116]
图10是描绘处理和存在/不存在信息更新的第一示例的图。通过参照图10可以看出,输入图像g10已经被移动(与图9所描绘的输入图像g10相比)。即,处理可以包括使包括在输入图像g10中的每个像素数据移动的处理(在下文中,也称为“移位处理”)。注意,移位处理不仅可以包括输入图像g10的这样的平移,而且可以包括对输入图像g10的诸如放大、缩小或旋转的仿射变换处理。此时,cnn训练部118根据输入图像g10的移动(例如,根据移动方向和移动距离)改变包括在标签中的人体b11的中心位置和人体b12的中心位置。
[0117]
作为示例,图10描绘了人体b11的移动后的中心位置c'0。此处假设随机地执行对输入图像g10的移位处理。更具体地,假设随机地决定输入图像g10的移动方向和移动距离。然而,可以基于预定规则来决定输入图像g10的移动方向和移动距离。注意,随机地执行对输入图像g10的移位处理的技术通常被称为增强。在对输入图像g10的移位处理之后获得的训练图像g20可以用于将在后面说明的训练。
[0118]
然后,cnn训练部118识别在对输入图像g10的移位处理之后获得的训练图像g20中是否存在人体b11的右眼部位。在图10所描绘的示例中,在移位处理之后获得的训练图像g20中不存在人体b11的右眼部位。鉴于此,cnn训练部118将关于人体b11的右眼部位存在/不存在信息v
00
=1(存在)改变为v'
00 0(不存在)。注意,由于在图10所描绘的示例中,在移位处理之后获得的训练图像g20中存在人体b12的右眼部位,因此cnn训练部118可以将关于人体b12的右眼部位存在/不存在信息保持为为1(存在)。
[0119]
图11是描绘处理和存在/不存在信息更新的第二示例的图。通过参照图11可以看出,输入图像g10的部分区域被预定图像(在图11所描绘的示例中为具有均匀颜色像素的矩形图像g12)替换。即,处理可以包括用预定图像替换输入图像g10的部分区域并遮挡该部分区域的处理(在下文中,也称为“遮挡处理”)。
[0120]
此处假设随机地执行对输入图像g10的遮挡处理。更具体地,假设随机地决定矩形图像g12的颜色。然而,可以基于预定规则(例如,可以是固定颜色(例如,灰色等))来决定矩
形图像g12的颜色。
[0121]
另外,假设也随机地决定矩形图像g12的位置。然而,可以基于预定规则来决定矩形图像g12的位置。例如,根据人体中心位置c0和相对于中心位置c0的相对位置(x
00
,y
00
),已知部位位置。因此,可以用矩形图像g12替换包括该部位位置的区域的图像。由于由此有意地遮挡部位,因此预期即使当部位被遮挡时也可以进行稳健识别。
[0122]
注意,随机地执行对输入图像g10的遮挡处理的技术通常被称为随机擦除(randomerasing)。在对输入图像g10的遮挡处理之后获得的训练图像g20可以用于将在后面说明的训练。
[0123]
然后,cnn训练部118识别在对输入图像g10的遮挡处理之后获得的训练图像g20中是否存在人体b11的右眼部位。在图11所描绘的示例中,在遮挡处理之后获得的训练图像g20中不存在人体b11的右眼部位。鉴于此,cnn训练部118将关于人体b11的右眼部位存在/不存在信息v
00
=1(存在)改变为v'
00
=0(不存在)。注意,在图11所描绘的示例中,由于遮挡处理之后获得的训练图像g20中存在人体b12的右眼部位,因此cnn训练部118可以将关于人体b12的右眼部位存在/不存在信息保持为1(存在)。
[0124]
注意,图11描绘了用具有均匀颜色像素的矩形图像g12替换输入图像g10的部分区域的情况。然而,用于替换输入图像g10的部分区域的图像不限于矩形图像g12。例如,可以用人体的图像替换输入图像g10的部分区域。因此,预期即使当人彼此交叠时也可以进行稳健识别。
[0125]
在下文中,主要假设对输入图像g10执行移位处理和遮挡处理二者作为处理的示例。然而,可以对输入图像g10仅执行移位处理和遮挡处理之一。cnn训练部118基于在已经执行处理之后获得的图像和改变后的标签来执行训练处理。此处,训练处理的具体方法不受限制。
[0126]
例如,cnn训练部118计算基于输入至cnn的在已经执行了处理之后获得的图像而从cnn输出的人体中心位置cn、部位k相对于人体中心位置cn的相对位置(x
nk
,y
nk
)以及关于部位k的存在/不存在信息v
nk
中的每一个与对应标签之间的误差,并且使得所计算的误差的加权和向后传播(反向传播)(通过使用误差反向传播),从而更新cnn的权重。例如,可以使用随机梯度下降(sgd)作为权重更新技术。然而,权重更新技术不限于sgd。
[0127]
在权重更新结束之后,基于从训练db新获取的图像和标签执行权重更新。然后,在执行预定次数的权重更新之后,训练处理结束。此处,预定次数不受限制。例如,可以以时段(epoch)为单位(单个输入图像已经被重复用于训练处理的次数)来决定预定次数,或者可以以迭代为单位(输入图像已经被更新的次数)来决定预定次数。替选地,可以在误差的加权和已经变得等于或小于预定值的情况下结束训练处理。
[0128]
(训练步骤的过程)
[0129]
接下来,参照图12说明根据本公开内容的第一实施方式的训练步骤的过程的示例。图12是描绘根据本公开内容的第一实施方式的训练步骤的过程的示例的流程图。注意,图12中描绘的流程图仅描绘了根据本公开内容的第一实施方式的训练步骤的过程的示例。因此,根据本公开内容的第一实施方式的训练步骤的过程不限于图12的流程图中所描绘的示例。为了简化和方便说明,此处假设存在一个图像,并且在该图像中捕获有一个人。
[0130]
如图12所描绘的,cnn训练部118从训练db获取图像和标签。然后,cnn训练部118开
始针对每个部位(k=0至k-1)的重复处理(s101)。cnn训练部118执行图像位置/标签位置移位处理和部分图像区域遮挡处理作为对图像的处理的示例(s102)。注意,如上所述,在不执行对图像的处理的情况下,不执行s102而将操作转移至s104。在被摄体部位是未标记的部位的情况下(s104处的“是”),cnn训练部118使操作转移至s103。另一方面,在被摄体部位是标记的部位的情况下(s104处的“否”),cnn训练部118使操作转移至s105。
[0131]
在操作转移至s105之后,cnn训练部118识别在已经执行了处理之后获得的图像中是否存在部位位置(s105)。在已经执行了处理之后获得的图像中不存在部位位置的情况下(s105的“否”),cnn训练部118使操作转移至s103。另一方面,在已经执行了处理之后获得的图像中存在部位位置的情况下(s105的“是”),cnn训练部118使操作转移至s106。
[0132]
在操作转移至s103之后,cnn训练部118将部位存在/不存在信息v设置为0(s103),并且进行至针对每个部位的重复处理的终止(s107)。另一方面,在操作转移至s106之后,cnn训练部118将部位存在/不存在信息v设置为1(s106),并且进行至针对每个部位的重复处理的终止(s107)。
[0133]
在操作转移至s107之后,在针对每个部位的重复处理未被执行k次的情况下,cnn训练部118返回至针对每个部位的重复处理的起始点(s101)。另一方面,在针对每个部位的重复处理执行了k次的情况下,cnn训练部118基于在已经执行了处理之后获得的图像和改变后的标签来执行训练处理(s108)。训练处理生成训练结果cnn,然后训练结果cnn被存储在存储部140上。
[0134]
至此已经说明了由根据本公开内容的第一实施方式的信息处理系统10执行的训练步骤的细节。
[0135]
[1.4.识别步骤的细节]
[0136]
接下来,将参照图13至图15说明由根据本公开内容的第一实施方式的信息处理系统10执行的识别步骤的细节。
[0137]
(cnn识别处理部112)
[0138]
cnn识别处理部112用作在识别步骤获取识别图像(第二图像数据)和训练结果cnn的获取部。
[0139]
此处,在本公开内容的第一实施方式中,主要假设cnn识别处理部112获取由传感器部130感测到的图像作为识别图像。然而,cnn识别处理部112可以从另一位置获取识别图像。例如,cnn识别处理部112可以获取预先存储在存储部140上的识别图像,或者可以获取通过使用通信部150从另一装置接收到的识别图像。
[0140]
另外,可以从存储部140获取训练结果cnn。然而,如上所述,在训练装置和推理装置由单独的计算机实现的情况下或者在其他类似情况下,所获取的训练结果cnn可以是从训练装置发送并由推理装置的通信部150接收的训练结果cnn。
[0141]
此外,cnn识别处理部112基于识别图像和训练结果cnn执行识别处理。更具体地,cnn识别处理部112用作推理部,该推理部获得在识别图像中捕获的人体(第二被摄体)的中心位置cn、部位k相对于中心位置cn的相对位置(x
nk
,y
nk
)以及关于识别图像中的部位k的存在概率的存在/不存在信息e
nk
。此处,识别处理的具体方法不受限制。
[0142]
例如,cnn识别处理部112获取基于输入至训练结果cnn的识别图像而从训练结果cnn输出的人体中心位置cn、部位k相对于人体中心位置cn的相对位置(x
nk
,y
nk
)以及部位k的
存在概率e
nk

[0143]
此处,如上所述,在训练步骤输入至cnn中的存在/不存在信息v
nk
由两个值0(不存在)和1(存在)来表示。另一方面,在识别步骤获得的存在概率e
nk
是从训练结果cnn输出的与存在/不存在信息v
nk
对应的信息,并且每个存在概率e
nk
可以采取0至1的值。存在概率e
nk
的数值越大,在识别图像中存在部位k的可能性越高。
[0144]
(后处理部114)
[0145]
后处理部114基于人体中心位置cn和部位k相对于人体中心位置cn的相对位置(x
nk
,y
nk
)来计算与人体n和部位k的组合对应的每个部位位置。更具体地,关于人体n和部位k的每个组合,后处理部114通过将人体中心位置c和部位相对于人体中心位置c的相对位置(x,y)加在一起来计算与人体n和部位k的组合对应的部位位置。
[0146]
另外,后处理部114将部位k的存在概率e
nk
与预定阈值th进行比较。然后,后处理部114将部位k的存在概率e
nk
与阈值th之间的比较结果输出至输出部116。在部位k的存在概率e
nk
高于阈值th的情况下,后处理部114将部位k的存在概率e
nk
高于阈值th的信息输出至输出部116。另一方面,在部位k的存在概率e
nk
等于或低于阈值th的情况下,后处理部114将部位k的存在概率e
nk
等于或低于阈值th的信息输出至输出部116。
[0147]
注意,阈值th可以是预定的不可改变的值,或者可以是预定的但可改变的值。例如,在由呈现部160呈现用于改变阈值的操纵对象(例如滑块等)的情况下,后处理部114可以基于由操纵部120接受的用户对操纵对象的阈值改变操纵来改变阈值th。
[0148]
(输出部116)
[0149]
输出部116根据部位k的存在概率e
nk
执行控制。例如,输出部116可以控制呈现部160对根据部位k的存在概率e
nk
的信息的呈现。可以假设根据部位k的存在概率e
nk
的信息包括各种类型的信息。例如,输出部116可以控制呈现部160对根据部位k的存在概率e
nk
与阈值th之间的比较结果的信息的呈现。
[0150]
例如,在部位k的存在概率e
nk
高于阈值th的情况下,输出部116可以控制呈现部160对部位k的位置的呈现。另一方面,在部位k的存在概率e
nk
等于或低于阈值th的情况下,输出部116可以控制呈现部160对部位k的位置的呈现,并且控制呈现部160对部位k是不可见部位(即,识别图像中的部位k的存在概率低于阈值th)的信息的呈现。
[0151]
图13是用于说明根据部位k的存在概率e
nk
与阈值th之间的比较结果的信息的示例的图。通过参照图13可以看出,由呈现部160显示识别图像g30。在识别图像g30中捕获了人体b11和人体b12。然后,显示人体b11和人体b12中的每一个的每个部位位置(图13中的圆圈标记)。例如,由呈现部160显示人体b12的部位a1(左眼)的位置和人体b12的部位a2(右眼)的位置。
[0152]
然后,通过参照图13可以看出,存在概率e高于阈值th的部位的位置由白色圆圈表示。另一方面,通过参照图13可以看出,存在概率e等于或低于阈值th的部位的位置由黑色圆圈表示。即,存在概率e高于阈值th的部位的位置的显示方式(图13所描绘的示例中为颜色)不同于存在概率e
nk
等于或低于阈值th的部位的位置的显示方式。以这种方式,在存在概率e
nk
等于或低于阈值th的情况下,可以显示与存在概率e
nk
对应的部位k是不可见部位的信息。注意,显示方式之间的差异可以不是颜色的差异,而可以是大小、形状等的差异。
[0153]
注意,概率e高于阈值th的部位的位置的显示方式可能不仅一种,而是显示方式在
不同部位位置之间可能不同。例如,存在概率e高于阈值th的右肩部位的颜色可以是橙色,而存在概率e高于阈值th的右肘部位的颜色可以是黄色。
[0154]
另外,呈现部160可以显示存在概率e高于阈值th的部位的位置,另一方面,呈现部160可以不显示存在概率e等于或低于阈值th的部位的位置。替选地,例如,可以存在代替呈现部位位置、使用部位位置和存在概率e的情况。在这样的情况下,可以不显示部位位置,而不管存在概率e是否高于阈值th。
[0155]
另外,通过参照图13可以看出,还显示了将部位位置彼此连接的线段(下文中,也称为“连接线”)。可以根据两端的部位的存在概率e等来改变这些连接线中的每一条的显示方式。例如,每条连接线的显示方式可以对应于连接线两端的部位中的任一者的显示方式。应当注意,可以不显示将部位位置彼此连接的连接线。
[0156]
替选地,输出部116可以控制呈现部160对表示部位k的存在概率e
nk
的信息的呈现。
[0157]
图14是用于说明表示部位k的存在概率e的信息的示例的图。通过参照图14可以看出,由呈现部160显示识别图像g30。在识别图像g30中捕获了人体b11和人体b12。然后,显示人体b11和人体b12中的每一个的每个部位位置(图14中的圆圈标记)。然后,描绘了表示人体b12的每个部位的存在概率的信息(例如,左眼部位的存在概率被描绘为“l眼睛0.1”)。
[0158]
注意,在图14所描绘的示例中,仅显示表示人体b12的一些部位的存在概率的信息。然而,可以显示表示人体b12的所有部位的存在概率的信息。另外,除了表示人体b12的一些或所有部位的存在概率的信息之外,还可以显示表示人体b11的一些或所有部位的存在概率的信息。
[0159]
(识别步骤的过程)
[0160]
接下来,参照图15说明根据本公开内容的第一实施方式的识别步骤的过程的示例。图15是描绘根据本公开内容的第一实施方式的识别步骤的过程的示例的流程图。注意,图15所描绘的流程图仅描绘了根据本公开内容的第一实施方式的识别步骤的过程的示例。因此,根据本公开内容的第一实施方式的识别步骤的过程不限于图15的流程图中所描绘的示例。为了简化和方便说明,此处假设存在一个图像,并且在该图像中捕获有一个人。
[0161]
如图15所描绘的,cnn识别处理部112使得由传感器部130感测到的图像输入至训练结果cnn(s111)。然后,cnn识别处理部112获取基于输入至训练结果cnn的图像而从训练结果cnn输出的人体中心位置c、部位k相对于人体中心位置c的相对位置(xk,yk)以及部位k的存在概率ek。
[0162]
后处理部114开始针对每个部位(k=0至k-1)的重复处理(s112)。后处理部114通过将人体中心位置c和部位相对于人体中心位置c的相对位置(x,y)加在一起来计算部位k的位置。由此,后处理部114获取部位k的位置。另外,后处理部114从cnn识别处理部112获取部位k的存在概率e(s113)。后处理部114将部位k的存在概率e与预定阈值th进行比较(s114)。
[0163]
在部位k的存在概率e等于或低于阈值th的情况下(s114处的“否”),输出部116将表示部位k的位置的信息输出至呈现部160,并且将部位k是不可见部位的信息输出至呈现部160(s116)。根据输出部116的控制,呈现部160呈现表示部位k的位置的信息,并且呈现部位k是不可见部位的信息。此后,操作转移至针对每个部位的重复处理的终止(s118)。
[0164]
另一方面,在部位k的存在概率e高于阈值th的情况下(s114处的“是”),输出部116
将表示部位k的位置的信息输出至呈现部160(s117)。根据输出部116的控制,呈现部160呈现表示部位k的位置的信息。此后,操作转移至针对每个部位的重复处理的终止(s118)。
[0165]
在操作转移至s118之后,在针对每个部位的重复处理未被执行k次的情况下,操作转移至针对每个部位的重复处理的起始点(s111)。另一方面,在针对每个部位的重复处理已经执行了k次的情况下,识别步骤结束。
[0166]
至此已经说明了由根据本公开内容的第一实施方式的信息处理系统10执行的识别步骤的细节。
[0167]
[1.5.自动对焦控制]
[0168]
如上所述,输出部116根据部位k的位置和部位k的存在概率e
nk
执行控制。此处,由输出部116控制的对象不限于信息的呈现。例如,输出部116可以根据部位k的位置和部位k的存在概率e
nk
来控制某些功能。例如,输出部116可以根据部位k的存在概率e
nk
控制摄像装置的自动对焦的功能(通常称为“自动对焦功能”)。在下文中,参照图16和图17说明输出部116根据存在概率控制自动对焦的示例。
[0169]
图16描绘了用于说明将存在概率应用于自动对焦的示例的图。通过参照图16可以看出,将图像g40描绘为识别图像的示例。另外,在图像g40中捕获了人体b11和人体b12。此处,人体b11被捕获为比人体b12小的图像,但是由于人体b11的正面面对摄像装置,因此在图像g40中捕获了其眼睛。另一方面,人体b12被捕获为比人体b11更大的图像,但是由于人体b12的背面面对摄像装置,因此在图像g40中未捕获到其眼睛。
[0170]
图像g41表示应用了优先对焦在被捕获为较大图像的人体的右眼部位上的通常技术的示例。在该示例中,焦点f1不期望地位于在图像g41中未捕获到右眼部位的人体b12上。另一方面,图像g42表示应用了优先对焦在存在概率e较高的右眼部位上的本公开内容的技术的示例。在该示例中,由于人体b11的右眼部位的存在概率e较高,因此输出部116控制摄像装置使得焦点f1在人体b11的右眼部位上。
[0171]
更具体地,人体b11的右眼部位的存在概率e
00
被识别为高于阈值th。另一方面,人体b12的右眼部位的存在概率e
10
被识别为等于或低于阈值th。此时,输出部116可以基于右眼部位的存在概率高于阈值th的人体b11的右眼部位的位置(x,y)来控制摄像装置的自动对焦。
[0172]
注意,可能有存在右眼部位的存在概率高于阈值th的多个人体的情况。在这样的情况下,输出部116可以基于被捕获为多个人体中的最大图像的人体的右眼部位(x,y)来控制摄像装置的自动对焦。要对焦的部位不限于右眼部位,而是可以是人体的另一部位(例如左眼等)。
[0173]
另外,可以以任何方式实现摄像装置的自动对焦控制。例如,输出部116可以获取在人体b11的右眼部位的位置(x,y)处到被摄体的深度值,并且基于所获取的深度值来控制摄像装置的自动对焦。可以通过红外线、超声波等的照射来测量到被摄体的深度值(可以通过通常所称的有源方法来测量)。替选地,可以通过使用已经穿过摄像装置的镜头的光来测量到被摄体的深度值(可以通过通常所称的无源方法来测量)。
[0174]
接下来,参照图17说明自动对焦控制的示例。图17是描绘自动对焦控制的示例的流程图。注意,图17所描绘的流程图仅描绘了自动对焦控制的示例。因此,自动对焦控制不限于图17的流程图所描绘的示例。此处,为了简化和方便说明,假设存在一个图像,并且使
用右眼部位的存在概率。
[0175]
如图17所描绘的,cnn识别处理部112使得由传感器部130感测到的图像输入至训练结果cnn(s121)。然后,cnn识别处理部112获取基于输入至训练结果cnn的图像而从训练结果cnn输出的人体中心位置cn、右眼部位相对于人体中心位置cn的相对位置(xn,yn)以及右眼部位的存在概率en。
[0176]
后处理部114开始针对每个人(n=0至n-1)的重复处理(s122)。后处理部114通过将人体中心位置cn和右眼部位相对于人体中心位置cn的相对位置(xn,yn)加在一起来计算右眼部位的位置。由此,后处理部114获取右眼部位的位置。另外,后处理部114从cnn识别处理部112获取右眼部位的存在概率en(s123)。后处理部114将右眼部位的存在概率en与预定阈值th进行比较(s124)。
[0177]
在右眼部位的存在概率en等于或低于阈值th的情况下(s124处的“否”),操作转移至针对每个人的重复处理的终止(s127)。另一方面,在右眼部位的存在概率en高于阈值th的情况下(s124处的“是”),输出部116识别被摄体人体是否被捕获为已发现的人中的最大图像(s125)。
[0178]
在被摄体人体不是被捕获为已发现的人中的最大图像的情况下(s125处的“否”),输出部116使操作转移至针对每个人的重复处理的终止(s127)。另一方面,在被摄体人体被捕获为已发现的人中的最大图像的情况下(s125处的“是”),输出部116存储右眼部位的位置(s126)。此后,操作转移至针对每个人的重复处理的终止(s127)。
[0179]
在操作转移至s127之后,在针对每个人的重复处理未被执行n次的情况下,操作转移至针对每个人的重复处理的起始点(s122)。另一方面,在针对每个人的重复处理已经执行了n次的情况下,识别步骤结束。
[0180]
至此已经说明了由根据本公开内容的第一实施方式的信息处理系统10执行的自动对焦控制的细节。
[0181]
[1.6.第一实施方式的有益效果]
[0182]
根据本公开内容的第一实施方式,可以估计人体的部位的位置,并且估计在图像中捕获到部位的可能性。例如,根据本公开内容的第一实施方式,由于根据部位的存在概率来控制信息的呈现,因此用户可以掌握在图像中是否捕获到部位。
[0183]
替选地,根据本公开内容的第一实施方式,由于根据部位的存在概率来控制功能,可以获取在图像中捕获的部位的位置的深度值。替选地,根据本公开内容的第一实施方式,由于根据部位的存在概率来控制功能,可以基于在图像中捕获的部位的位置来高度精确地控制自动对焦。
[0184]
此外,根据本公开内容的第一实施方式,关于在图像中是否存在部位的确定不需要使用关于是否可以从部位位置热力图估计部位的位置的信息。
[0185]
[1.7.第一实施方式的修改示例]
[0186]
在以上描述中主要说明的情况下,将人体中心位置和部位相对于人体中心位置的相对位置分别作为人体的部位位置来处理。然而,可以不将人体中心位置和部位的相对位置分别作为人体的部位位置来处理。此时,例如,可以省略通过将人体中心位置和部位的相对位置加在一起来计算部位位置的处理等。另外,如果在移位处理中标签位置的移动不是针对人体中心位置执行而是针对部位位置执行,也足够。
[0187]
至此已经说明了本公开内容的第一实施方式。
[0188]
《2.第二实施方式》
[0189]
接下来,说明本公开内容的第二实施方式。
[0190]
[2.1.背景]
[0191]
如在本公开内容的第一实施方式中那样,在本公开内容的第二实施方式中,也将人体作为在图像中捕获的被摄体的示例并进行说明。然而,在图像中捕获的被摄体不限于人体。另外,如在本公开内容的第一实施方式中那样,在本公开内容的第二实施方式中,也将人体的部位(身体部位)作为被摄体的预定区域的示例并进行说明。
[0192]
此处,例如,可能存在多个人体中心位置彼此靠近或彼此交叠的情况(例如,在多个人可能变得拥挤的场景中等)。例如,多个人可能变得拥挤的场景的可能示例包括街道场景、体育运动场景、人群场景等。
[0193]
图18描绘了用于说明中心位置交叠的示例的图。通过参照图18可以看出,描绘了在图像g61中捕获的第一人体的中心位置c1和围绕第一人体的矩形区域r61。另外,描绘了在图像g61中捕获的第二人体的中心位置c2和围绕第二人体的矩形区域r62。随着时间的推移,从图像g61经过图像g62到图像g63,中心位置c1和中心位置c2彼此靠近并且彼此交叠。
[0194]
在多个人体中心位置彼此靠近或彼此交叠的情况下,或者在与本示例类似的其他情况下,即使多个人体的各个部位的位置彼此分开,在多个人体中心位置之间不进行充分区分的情况下也不期望地执行训练处理。由此,可能存在以下情况:没有分开地估计基于训练结果的多个人体的部位位置,并且不能提高多个人体的部位位置的估计精度。
[0195]
特别是为了降低计算成本,可能需要降低估计结果的分辨率。然而,认为随着估计结果的分辨率越低,中心位置彼此交叠的可能性不期望地增加。
[0196]
鉴于此,在已经公开的技术(在下文中,也称为“所公开的技术2”)中,在训练处理中引入指数(中心度),该指数数值地表示围绕图像中捕获的被摄体的矩形区域(边界框)的中心位置与矩形区域中存在的点之间的距离。根据所公开的技术2,可以基于已经引入中心度的训练处理的结果来估计被摄体的中心位置。
[0197]
参照图19说明所公开的技术2。图19是用于说明所公开的技术2的图。通过参照图19可以看出,描绘了图像g92。另外,通过参照图19可以看出,描绘了围绕图像g92中捕获的人体b91的矩形区域r91(边界框),并且将从矩形区域r91中存在的点到矩形区域r91的向上、向下、向左和向右的距离描绘为(t,b,l,r)。
[0198]
在所公开的技术2中,学习数值地表示距离(t,b,l,r)的指数(中心度)。根据所公开的技术2,基于已经引入中心度的训练处理的结果来估计中心度,并且基于所估计的中心度来估计人体b91的中心位置。然而,为了估计人体b91的中心位置,所公开的技术2需要对中心度进行加权平均。
[0199]
此外,可以考虑通过类似的技术来估计部位的位置。可以认为,在多个人体中心位置彼此靠近或彼此交叠的情况下或者在其他类似情况下,基于训练结果的人体部位的位置的估计精度由此也得到提高。然而,部位的位置的估计需要对部位的位置进行加权平均。因此,对部位的位置进行加权平均不期望地增加了计算成本。
[0200]
鉴于此,在根据本公开内容的第二实施方式主要提出的技术中,即使在多个人体中心位置彼此靠近或彼此交叠的情况下或者在其他类似情况下,也可以更高度精确地估计
人体部位的位置,同时降低计算成本。
[0201]
至此已经说明了本公开内容的第二实施方式的背景。
[0202]
[2.2.训练步骤的细节]
[0203]
接下来,将参照图20至图24说明由根据本公开内容的第二实施方式的信息处理系统10执行的训练步骤的细节。
[0204]
(训练db)
[0205]
输入图像和标签彼此关联地存储在训练db上。输入图像和标签表示用于训练处理的训练数据。作为标签,在输入图像中捕获的人体中心位置cn(n=0至n-1,其中n是人的数目)和部位k(k=0至k-1,其中k部位的数目)相对于人体中心位置cn的相对位置(x
nk
,y
nk
)彼此相关联。
[0206]
(cnn训练部118)
[0207]
cnn训练部118在训练步骤从训练db获取输入图像(第一图像数据)和标签。
[0208]
图20描绘了用于说明cnn训练部118的功能的图。通过参照图20可以看出,描绘了输入图像g51。在输入图像g51中捕获了人体b11(第一被摄体)和人体b12(第二被摄体)作为被摄体的示例。此时,cnn训练部118获取与人体b11对应的标签和与人体b12对应的标签作为与输入图像g51对应的标签。尽管此处将右眼作为部位的示例并进行说明,但是也可以使用除了右眼之外的部位。
[0209]
更具体地,cnn训练部118获取人体b11的中心位置c1(cx1,cy1)和右眼部位相对于人体b11的中心位置c1的相对位置p1(px1,py1)作为与人体b11对应的标签。此处,人体b11的中心位置表示“第一参考位置”的示例。另外,相对位置p1(px1,py1)表示“第一相对位置”的示例。
[0210]
另外,cnn训练部118获取人体b12的中心位置c2(cx2,cy2)和右眼部位相对于人体中心位置c2的相对位置p2(px2,py2)作为与人体b12对应的标签。此处,人体b12的中心位置表示“第二参考位置”的示例。另外,相对位置p2(px2,py2)表示“第二相对位置”的示例。
[0211]
接下来,cnn训练部118执行使人体b11的中心位置c1(cx1,cy1)和人体b12的中心位置c2(cx2,cy2)彼此远离地移动的处理(在下文中,也称为“移动处理”)。因此,即使在原始中心位置彼此靠近或彼此交叠的情况下或者在其他类似情况下,也在中心位置之间进行区分之后学习人体b11和人体b12的中心位置。因此,可以基于训练结果分别估计多个人体的相应部位的位置,并且可以预期更高度精确地估计部位的位置。
[0212]
通过参照图20可以看出,描绘了输入图像g52,并且将中心位置c1'(cx1',cy1')和中心位置c2'(cx2',cy2')描绘为执行使中心位置c1(cx1,cy1)和中心位置c2(cx2,cy2)彼此远离地移动的处理的结果。中心位置c1'(cx1',cy1')表示第三参考位置的示例,并且中心位置c2'(cx2',cy2')表示第四参考位置的示例。
[0213]
注意,在图20所描绘的示例中,中心位置c1(cx1,cy1)的移动方向和中心位置c2(cx2,cy2)的移动方向是相反的方向。然而,中心位置c1(cx1,cy1)的移动方向和中心位置c2(cx2,cy2)的移动方向可以不是相反的方向。此外,在图20所描绘的示例中,中心位置c1(cx1,cy1)的移动距离和中心位置c2(cx2,cy2)的移动距离是相同的距离。然而,中心位置c1(cx1,cy1)的移动距离和中心位置c2(cx2,cy2)的移动距离可以不是相同的距离。
[0214]
cnn训练部118根据使中心位置c1(cx1,cy1)和中心位置c2(cx2,cy2)彼此远离地
移动的处理来更新相对位置p1(px1,py1)。更具体地,cnn训练部118通过从相对位置p1(px1,py1)中减去中心位置c1(cx1,cy1)的移动矢量(cx1'-cx1,cy1'-cy1)来获得经更新的p1'(px1+cx1-cx1',py1+cy1-cy1')。注意,经更新的相对位置p1'表示第三相对位置的示例。
[0215]
cnn训练部118根据使中心位置c1(cx1,cy1)和中心位置c2(cx2,cy2)彼此远离地移动的处理来更新相对位置p2(px2,py2)。更具体地,cnn训练部118通过从相对位置p2(px2,py2)中减去中心位置c2(cx2,cy2)的移动矢量(cx2'-cx2,cx2'-cx2)来获得经更新的p2'(px2+cx2-cx2',py2+cy2-cy2')。注意,经更新的相对位置p2'表示第四相对位置的示例。
[0216]
另外,在本公开内容的第二实施方式中,主要假设中心位置c1(cx1,cy1)和中心位置c2(cx2,cy2)二者都移动。然而,中心位置c1(cx1,cy1)可以移动,而中心位置c2(cx2,cy2)可以不移动。此时,移动的中心位置c1'(cx1',cy1')表示第三参考位置的示例,并且中心位置c2(cx2,cy2)表示第四参考位置的示例。
[0217]
替选地,中心位置c2(cx2,cy2)可以移动,而中心位置c1(cx1,cy1)可以不移动。此时,中心位置c1(cx1,cy1)表示第三参考位置的示例,并且移动的中心位置c2'(cx2',cy2')表示第四参考位置的示例。以这种方式,本发明的第二实施方式也适用于仅中心位置c1(cx1,cy1)和中心位置c2(cx2,cy2)中的任一者移动的情况。
[0218]
图21是示意性地描绘使两个人体中心位置彼此远离地移动的处理的图。通过参照图21可以看出,省略了在图像g51中捕获的两个人体的图示,但是描绘了围绕两个人体的矩形区域r1和矩形区域r2。另外,描绘了第一人体的中心位置c1和第二人体的中心位置c2。如果执行使中心位置c1和中心位置c2彼此远离地移动的处理,则中心位置c1和中心位置c2沿箭头所表示的方向移动。
[0219]
图22是示意性地描绘使四个人体中心位置彼此远离地移动的处理的图。通过参照图22可以看出,省略了在图像g61中捕获的四个人体的图示,但是描绘了四个人体中心位置c1至c4。如果执行使中心位置c1至c4彼此远离地移动的处理,则中心位置c1至c4沿箭头所表示的方向移动。注意,要彼此远离地移动的中心位置的数目不受限制,只要它大于1即可。
[0220]
cnn训练部118基于从训练db获取的图像和改变的标签来执行训练处理。此处,训练处理的具体方法不受限制。
[0221]
例如,cnn训练部118计算基于输入至cnn的图像而从cnn输出的人体中心位置cn和部位k相对于人体中心位置cn的相对位置(x
nk
,y
nk
)中的每一个与对应标签之间的误差,并且使计算出的误差的加权和向后传播(反向传播)(通过使用误差反向传播),从而更新cnn的权重。例如,可以使用随机梯度下降(sgd)作为权重更新技术。然而,权重更新技术不限于sgd。
[0222]
在权重更新结束之后,基于从训练db新获取的图像和标签执行权重更新。然后,在执行预定次数的权重更新之后,结束训练处理。此处,如在本公开内容的第一实施方式中那样,预定次数不受限制。
[0223]
(训练步骤的过程)
[0224]
接下来,参照图23说明根据本公开内容的第二实施方式的训练步骤的过程的示例。图23是描绘根据本公开内容的第二实施方式的训练步骤的过程的示例的流程图。注意,
图23中描绘的流程图仅描绘了根据本公开内容的第二实施方式的训练步骤的过程的示例。因此,根据本公开内容的第二实施方式的训练步骤的过程不限于图23的流程图中描绘的示例。为了简化和方便说明,此处假设存在一个图像,并且对一个部位进行处理。
[0225]
如图23所描绘的,cnn训练部118从训练db获取图像和标签(s201)。然后,cnn训练部118计算在图像中捕获的所有人的人体中心位置c,并且将中心位置c存储为新的中心位置c'(s202)。
[0226]
cnn训练部118识别是否存在之间的距离短于阈值的中心位置c的组合(s203)。在存在之间的距离短于阈值的中心位置c的组合的情况下(s203处的“是”),cnn训练部118执行使组合中的中心位置c彼此远离地移动的处理,并且计算新的中心位置c'(s204)。然后,操作转移至s203。另一方面,在不存在之间的距离短于阈值的中心位置c的组合的情况下(s203处的“否”),cnn训练部118计算部位相对于在图像中捕获的所有人体的中心位置c'的相对位置(x',y')(s205)。
[0227]
cnn训练部118基于图像、在图像中捕获的所有人的人体中心位置c'和部位的相对位置(x',y')来执行训练处理。训练处理生成训练结果cnn,然后训练结果cnn被存储在存储部140上。
[0228]
(使中心位置彼此远离地移动的处理的具体示例)
[0229]
接下来,参照图24说明使多个人体中心位置彼此远离地移动的处理的具体示例。具体示例是使用弹簧模型和库仑力的模型的示例。此处,库仑力表示作用在中心位置之间的排斥力。排斥力有助于防止中心位置彼此太靠近。弹簧模型代表将原始中心位置和重新计算的中心位置相互吸引的力。吸引力有助于防止重新计算的中心位置距原始位置太远。
[0230]
图24是描绘使多个人体中心位置彼此远离地移动的处理的具体示例的流程图。注意,在图24所描绘的示例中,energy、force、d和dc是可以存储值的变量。另外,dist是用于计算两个点之间的距离的函数。end_energy是常数。
[0231]
cnn训练部118存储原始中心位置(s221)。即,cnn训练部118将中心位置c0存储为c0、
……
,并且将中心位置c
n-1
存储为c
n-1
。在engry大于end_energy的情况下,cnn训练部118重复以下处理(s223)。
[0232]
cnn训练部118将0分配给energy(s224)。然后,cnn训练部118开始针对每个人的重复处理(在n=0至n-1的情况下)(s225)。首先,cnn训练部118将(0,0)分配给force(s226)。然后,cnn训练部118开始针对每个人的重复处理(在m=0至n-1的情况下)(s231)。在m等于n的情况下(s232处的“否”),cnn训练部118使操作转移至针对每个人的重复处理的终止(在m=0至n-1的情况下)。
[0233]
另一方面,在m不等于n的情况下(s232中的“是”),cnn训练部118计算cn与cm之间的距离dist(cn,cm),并且将计算的距离dist(cn,cm)分配给d(s233)。cnn训练部118将根据d的排斥力与force相加(s235),并且使操作转移至针对每个人的重复处理(在m=0至n-1的情况下)的终止(s236)。
[0234]
当针对每个人的重复处理(在m=0至n-1的情况下)结束时,cnn训练部118计算cn与cn之间的距离dist(cn,cn),并且将计算的距离dist(cn,cn)分配给dc(s241)。cnn训练部118从force中减去根据dc的引力(s243)。cnn训练部118基于force更新中心位置cn(s245)。cnn训练部118基于经更新的中心位置cn来更新energy(s246)。
[0235]
然后,cnn训练部118使操作转移至针对每个人的重复处理(在n=0至n-1的情况下)的终止(s251)。在针对每个人的重复处理(在n=0至n-1的情况下)已经结束并且energy已经变得等于或小于end_energy的情况下,cnn训练部118结束重复处理(s253)。
[0236]
至此已经说明了由根据本公开内容的第二实施方式的信息处理系统10执行的训练步骤的细节。
[0237]
[2.3.识别步骤的细节]
[0238]
接下来,说明由根据本公开内容的第二实施方式的信息处理系统10执行的识别步骤的细节。
[0239]
(cnn识别处理部112)
[0240]
cnn识别处理部112用作在识别步骤获取识别图像(第二图像数据)和训练结果cnn的获取部。
[0241]
在本公开内容的第二实施方式中,此处也主要假设cnn识别处理部112获取由传感器部130感测到的图像作为识别图像。然而,如在本公开内容的第一实施方式中,cnn识别处理部112可以从另一位置获取识别图像。另外,可以从存储部140获取训练结果cnn。然而,如在本公开内容的第一实施方式中,在训练装置和推理装置由单独的计算机实现的情况下或者在其他类似情况下,所获取的训练结果cnn可以是从训练装置发送并由推理装置的通信部150接收的训练结果cnn。
[0242]
此外,cnn识别处理部112基于识别图像和训练结果cnn执行识别处理。更具体地,cnn识别处理部112用作推理部,该推理部获得在识别图像中捕获的人体(第二被摄体)的中心位置cn(第五参考位置)和部位k相对于中心位置cn的相对位置(x
nk
,y
nk
)(第五相对位置)。此处,识别处理的具体方法不受限制。例如,cnn识别处理部112获取基于输入至训练结果cnn的识别图像而从训练结果cnn输出的人体中心位置cn和部位k相对于人体中心位置cn的相对位置(x
nk
,y
nk
)。
[0243]
(后处理部114)
[0244]
后处理部114基于人体中心位置cn和部位k相对于人体中心位置cn的相对位置(x
nk
,y
nk
)来计算与人体n和部位k的组合对应的每个部位位置。更具体地,关于人体n和部位k的每个组合,后处理部114通过将人体中心位置c和部位相对于人体中心位置c的相对位置(x,y)加在一起来计算与人体n和部位k的组合对应的部位位置。
[0245]
(输出部116)
[0246]
输出部116根据由后处理部114计算的每个部位位置来执行处理。例如,如在根据本公开内容的第一实施方式中,输出部116可以控制呈现部160对每个部位位置的显示。
[0247]
替选地,输出部116可以识别由后处理部114计算的人体的部位位置是否在预定方向上超过识别图像中的预定线。例如,输出部116可以识别由后处理部114计算的人体的部位位置是否在目标方向上超过越位线。替选地,输出部116可以对由后处理部114计算的多个人体的中心位置的数目进行计数。
[0248]
(识别步骤的过程)
[0249]
接下来,参照图25说明根据本公开内容的第二实施方式的识别步骤的过程的示例。图25是描绘根据本公开内容的第二实施方式的识别步骤的过程的示例的流程图。注意,图25中描绘的流程图仅描绘了根据本公开内容的第二实施方式的识别步骤的过程的示例。
因此,根据本公开内容的第一实施方式的识别步骤的过程不限于图25中的流程图所描绘的示例。为了简化和方便说明,此处假设存在一个图像,并且在该图像中捕获有一个人。
[0250]
如图25所描绘的,cnn识别处理部112使得由传感器部130感测到的图像输入至训练结果cnn(s211)。然后,cnn识别处理部112获取基于输入至训练结果cnn的图像而从训练结果cnn输出的人体中心位置c和部位k相对于人体中心位置c的相对位置(xk,yk)。
[0251]
后处理部114通过将人体中心位置c和部位相对于人体中心位置c的相对位置(x,y)加在一起来计算部位k的位置。由此,后处理部114获取部位k的位置。例如,输出部116可以控制呈现部160对部位位置的显示。
[0252]
至此已经说明了由根据本公开内容的第二实施方式的信息处理系统10执行的识别步骤的细节。
[0253]
[2.4.应用示例]
[0254]
根据本公开内容的第二实施方式,在多个人体中心位置彼此靠近或彼此交叠的情况下或者在其他类似情况下,可以预期提高部位位置的估计精度。因此,将估计的部位位置应用于各种场景是有用的。首先,说明将估计的部位位置应用于体育运动场景的示例。
[0255]
(对运动场景的应用)
[0256]
图26是用于说明将估计的部位位置应用于体育运动场景的示例的图。通过参照图26可以看出,描绘了通过捕获作为体育运动的示例的足球运动中的场景而获得的图像g70。球门安装在“球门方向”方向上。人体b11是防守方运动员中最靠近球门的运动员的人体。另外,人体b12是进攻方运动员中最靠近球门的运动员的人体。此处假设使用估计的部位位置来识别越位状态。
[0257]
图27是用于说明越位线的图。通过参照图27可以看出,描绘了防守方运动员中最靠近球门的运动员的人体b11(图26)的中心位置c1和围绕人体b11的矩形区域r71。矩形区域r71的球门侧线a是越位线。另外,描绘了进攻方运动员中最靠近球门的运动员的人体b12(图26)的中心位置c2和围绕人体b12的矩形区域r72。还描绘了矩形区域r72的球门侧线b。此处,将“球门方向”定义为“+方向”。
[0258]
图28是描绘将估计的部位位置应用于越位识别的示例的流程图。为了简化和方便说明,此处假设存在一个图像。如图28所描绘的,cnn识别处理部112使得由传感器部130感测到的图像输入至训练结果cnn(s261)。然后,cnn识别处理部112获取基于输入至训练结果cnn的图像而从训练结果cnn输出的人体中心位置cn和部位k相对于人体中心位置cn的相对位置(x
nk
,y
nk
)。
[0259]
后处理部114通过将人体中心位置cn和部位k相对于人体中心位置cn的相对位置(x
nk
,y
nk
)加在一起来计算每个人的所有部位k的位置(s262)。由此,后处理部114获取每个人的所有部位(n个人中的每一个人的k个部位)的位置。输出部116基于在图像中捕获的每个人的人体的颜色等来识别每个人的队(s263)。
[0260]
接下来,输出部116计算防守方运动员中最靠近球门的部位位置a在+方向上的坐标a(越位线)(s264)。接下来,输出部116计算进攻方运动员中最靠近球门的部位位置在+方向上的坐标b(在下文中,也称为“进攻侧前方线”)(s265)。输出部116识别坐标b是否在+方向上超过坐标a(越位线)(s266)。
[0261]
在识别出坐标b(进攻侧前方线)在+方向上没有超过坐标a(越位线)的情况下
(s266处的“否”),输出部116将该状态识别为不是越位状态(s267)。另一方面,在识别出坐标b(进攻侧前方线)在+方向上超过坐标a(越位线)的情况下(s266处的“是”),输出部116将该状态识别为越位状态(s268)。然后,输出部116控制通信部150向裁判员的终端发送警报(s269)。
[0262]
注意,在参照图26至图28说明的示例中,识别进攻侧前方线是否在球门方向上超过了越位线。然而,输出部116可以识别由后处理部114计算的人体的部位位置是否在预定方向上超过识别图像中除了越位线之外的线。例如,输出部116可以识别在识别图像中捕获的线,并且识别人体的部位位置是否超过该线(例如,足球、篮球等中的界外)。
[0263]
接下来,说明将估计的部位位置应用于街道场景的示例。
[0264]
(对街道场景的应用)
[0265]
图29是用于说明将估计的部位位置应用于街道场景的示例的图。通过参照图29可以看出,描绘了其中捕获了街道场景的图像g80。在图像g80中的区域r81、区域r82等中捕获了多个相互交叠的人。例如,输出部116可以对由后处理部114计算的多个人体的中心位置的数目(即,人的数目)进行计数。如上所述,由于在本公开内容的第二实施方式中执行训练使得中心位置彼此远离地移动,因此认为即使在中心位置彼此靠近或彼此交叠的情况下也高度精确地对中心位置的数目进行计数。
[0266]
[2.5.第二实施方式的有益效果]
[0267]
根据本公开内容的第二实施方式,即使在原始中心位置彼此靠近或彼此交叠的情况下或者在其他类似情况下,在通过使中心位置彼此远离地移动而在中心位置之间进行区分之后学习多个人体中心位置。因此,可以基于训练结果分别估计多个人体的相应部位位置,并且可以预期更高度精确地估计部位的位置。由此,即使在估计结果的分辨率低的情况下,也可以更高度精确地估计部位的位置。
[0268]
此外,由于更高度精确地估计部位的位置,因此可以降低估计结果的分辨率,并且可以减少计算量。另外,根据本公开内容的第二实施方式,可以基于要加在一起的中心位置和部位相对于中心位置的相对位置简单地确定部位位置。因此,降低了估计部位位置所需的计算成本。
[0269]
至此已经说明了本公开内容的第二实施方式。
[0270]
《3.实施方式的组合》
[0271]
在以上描述中,分别说明了本公开内容的第一实施方式和本公开内容的第二实施方式。然而,本公开内容的第一实施方式和本公开内容的第二实施方式不一定必须单独实现,而是可以适当地组合实现。在下文中,将参照图30和图31说明在组合了本公开内容的第一实施方式和本公开内容的第二实施方式的情况下信息处理系统10的操作的示例。
[0272]
(训练步骤的过程)
[0273]
图30是描绘在组合本公开内容的第一实施方式和本公开内容的第二实施方式的情况下的训练步骤的过程的示例的流程图。为了简化和方便说明,此处假设存在一个图像。
[0274]
如图30所描绘的,cnn训练部118获取输入图像i并且从训练db获取标签(s300)。作为标签,在输入图像i中捕获的人体中心位置cn(n=0至n-1,其中n是人的数目)、部位k(k=0至k-1,其中k是部位的数目)相对于人体中心位置cn的相对位置(x
nk
,y
nk
)以及关于部位k的存在/不存在信息v
nk
彼此相关联。cnn训练部118将中心位置c存储为新的中心位置c'
(s301)。
[0275]
然后,cnn训练部118识别在单个图像中是否存在满足距离(cn,cm)《th'的中心位置组合cn和cm(s302)。在存在满足距离(cn,cm)《th'的组合的情况下(s302处的“是”),cnn训练部118移动中心位置,使得cn和cm彼此远离地移动,并且计算新的中心位置c'n和c'm(s303)。然后,操作转移至s302。
[0276]
另一方面,在不存在满足距离(cn,cm)《th'的组合的情况下(s302处的“否”),cnn训练部118使操作转移至s304。cnn训练部118基于新的cn计算关于部位k的相对位置(x'
nk
,y'
nk
)和存在/不存在信息v'
nk
(s304)。
[0277]
接下来,cnn训练部118通过对图像i的图像位置/标签位置移位处理和部分区域遮挡处理来计算图像i'(s305)。然后,cnn训练部118基于移位处理和遮挡处理计算c”n
和v”nk
(s306)。cnn训练部118基于在执行移位处理和遮挡处理之后获得的图像i'和改变的标签x'
nk
、y'
nk
、c”n
和v”nk
来执行训练处理(s307)。训练处理生成训练结果cnn,然后训练结果cnn被存储在存储部140上。
[0278]
至此已经说明了在组合本公开内容的第一实施方式和本公开内容的第二实施方式的情况下的训练步骤的过程。
[0279]
(识别步骤的过程)
[0280]
图31是描绘在组合本公开内容的第一实施方式和本公开内容的第二实施方式的情况下的识别步骤的过程的示例的流程图。为了简化和方便说明,此处假设存在一个图像。
[0281]
如图31所描绘的,cnn识别处理部112使得由传感器部130感测到的图像输入至训练结果cnn(s321)。然后,cnn识别处理部112获取基于输入至训练结果cnn的图像而从训练结果cnn输出的人体中心位置cn(s322)。
[0282]
后处理部114开始针对每个人(n=0至n-1)的重复处理(s323)。后处理部114识别与中心位置cn相关联的部位的相对位置(x
nk
,y
nk
)和存在概率e
nk
(s324)。后处理部114通过将人体中心位置c和部位相对于人体中心位置c的相对位置(x,y)加在一起来计算部位k的位置。后处理部114将部位k的存在概率e与预定阈值th进行比较(s325)。
[0283]
在部位k的存在概率e等于或低于阈值th的情况下(s325处的“否”),输出部116将表示部位k的位置的信息输出至呈现部160,并且将部位k是不可见部位的信息输出至呈现部160(s327)。根据输出部116的控制,呈现部160呈现表示部位k的位置的信息,并且呈现部位k是不可见部位的信息。此后,操作转移至针对每个人的重复处理的终止(s328)。
[0284]
另一方面,在部位k的存在概率e高于阈值th的情况下(s325处的“是”),输出部116将表示部位k的位置的信息输出至呈现部160(s326)。根据输出部116的控制,呈现部160呈现表示部位k的位置的信息。此后,操作转移至针对每个人的重复处理的终止(s328)。
[0285]
在操作转移至s328之后,在针对每个人的重复处理未被执行n次的情况下,操作转移至针对每个人的重复处理的起始点(s323)。另一方面,在针对每个人的重复处理已经执行了n次的情况下,识别步骤结束。
[0286]
至此已经说明了在组合本公开内容的第一实施方式和本公开内容的第二实施方式的情况下的识别步骤的过程。
[0287]
《4.硬件配置示例》
[0288]
接下来,参照图32说明根据本公开内容实施方式的信息处理系统10的硬件配置示
例。图32是描绘根据本公开内容的实施方式的信息处理系统10的硬件配置示例的框图。注意,信息处理系统10不一定必须具有图32所描绘的全部硬件配置,并且图32所描绘的硬件配置的一部分可以不存在于信息处理系统10中。
[0289]
如图32所描绘的,信息处理系统10包括cpu(中央处理单元)901、rom(只读存储器)903和ram(随机存取存储器)905。另外,信息处理系统10可以包括主机总线907、桥接器909、外部总线911、接口913、输入装置915、输出装置917、存储装置919、驱动器921、连接端口923和通信装置925。此外,信息处理系统10可以根据需要包括图像捕获装置933和传感器935。代替cpu 901或者除了cpu 901之外,信息处理系统10可以具有诸如所谓的gpu(图形处理单元)、dsp(数字信号处理器)或asic(专用集成电路)的处理电路。
[0290]
cpu 901用作处理单元和控制装置,并且根据记录在rom 903、ram 905、存储装置919或可移除记录介质927上的各种类型的程序控制信息处理系统10中的全部或部分操作。rom 903在其上存储要由cpu 901使用的程序、计算参数等。ram 905在其上临时存储要在cpu 901的执行中使用的程序、在执行中适当改变的参数等。cpu 901、rom 903和ram 905通过包括诸如cpu总线的内部总线的主机总线907互连。此外,主机总线907经由桥接器909连接至诸如pci(外围组件互连/接口)总线的外部总线911。
[0291]
输入装置915是例如由用户操纵的诸如按钮的装置。输入装置915可以包括鼠标、键盘、触摸面板、开关、操纵杆等。另外,输入装置915可以包括感测用户的声音的麦克风。例如,输入装置915可以是使用红外线或其他无线电波的远程控制装置,或者可以是支持信息处理系统10的操纵的诸如移动电话的外部连接的设备929。输入装置915包括输入控制电路,该输入控制电路基于由用户输入的信息生成输入信号,并且将输入信号输出至cpu 901。用户通过操纵输入装置915将各种类型的数据输入至信息处理系统10、给出关于处理/动作的指令等。另外,后面提及的图像捕获装置933也可以通过捕获用户的手部、用户的手指等的移动而用作输入装置。此时,可以根据手部的移动或手指的方向来决定指向位置。
[0292]
输出装置917包括能够向用户给出关于所获取的信息的视觉或听觉通知的装置。例如,输出装置917可以是诸如lcd(液晶显示器)或有机el(电致发光)显示器的显示装置,或者诸如扬声器或耳机的声音输出装置。另外,输出装置917可以包括pdp(等离子体显示板)、投影仪、全息图、打印机装置等。输出装置917将通过信息处理系统10的处理获得的结果作为文本或图像的视频、作为诸如声音或音频信息的听觉信息输出。另外,输出装置917可以包括用于照亮周围空间的灯等。
[0293]
存储装置919是用于数据存储的装置,其被配置为信息处理系统10的存储部的示例。例如,存储装置919包括磁存储设备、半导体存储设备、光存储设备或磁光存储设备,例如hdd(硬盘驱动器)。存储装置919在其上存储要由cpu 901执行的程序、各种类型的数据、从外部获取的各种类型的数据等。
[0294]
驱动器921是用于诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质927的读取器/写入器,并且内置在信息处理系统10中或在外部连接至信息处理系统10。驱动器921读出记录在附接的可移除记录介质927上的信息,并且将该信息输出至ram 905。另外,驱动器921将记录写入到附接的可移除记录介质927中。
[0295]
连接端口923是用于将设备直接连接至信息处理系统10的端口。例如,连接端口923可以是usb(通用串行总线)端口、ieee 1394端口、scsi(小型计算机系统接口)端口等。
另外,连接端口923可以是rs-232c端口、光学音频端子、hdmi(注册商标)(高清晰度多媒体接口)端口等。通过将外部连接的设备929连接至连接端口923,可以在信息处理系统10与外部连接的设备929之间交换各种类型的数据。
[0296]
例如,通信装置925是包括用于连接至网络931的通信设备等的通信接口。例如,通信装置925可以是用于线缆或无线lan(局域网)、蓝牙(注册商标)或wusb(无线usb)的通信卡等。另外,通信装置925可以是光通信路由器、adsl(非对称数字用户线)路由器、用于各种类型通信的调制解调器等。例如,通信装置925通过使用诸如tcp/ip的预定协议向因特网或其他通信设备发送信号等或者从因特网或其他通信设备接收信号等。另外,连接至通信装置925的网络931是通过线缆或无线连接的网络,并且例如是因特网、家庭lan、红外通信、无线电波通信、卫星通信等。
[0297]
例如,图像捕获装置933是通过使用例如诸如ccd(电荷耦合器件)或cmos(互补金属氧化物半导体)的成像元件或者用于控制成像元件上的被摄体图像的图像形成的透镜的各种类型的构件来捕获真实空间的图像并生成捕获图像的装置。图像捕获装置933可以是捕获静止图像的装置,或者可以是捕获视频的装置。
[0298]
例如,传感器935是诸如距离测量传感器、加速度传感器、陀螺仪传感器、地磁传感器、振动传感器、光学传感器或声音传感器的各种类型的传感器。例如,传感器935获取诸如信息处理系统10的壳体的姿态的关于信息处理系统10本身的状态的信息,以及诸如信息处理系统10的周围环境的亮度或噪声的关于信息处理系统10的周围环境的信息。另外,传感器935可以包括gps传感器,其接收gps(全球定位系统)信号,并且测量装置的纬度、经度和海拔。
[0299]
《5.结论》
[0300]
虽然至此已经参照附图详细说明了本公开内容的优选实施方式,但是本公开内容的技术范围不限于这些示例。明显的是,本公开内容的技术领域中的普通技术人员可以在权利要求中描述的技术构思的范围内设想各种类型的修改示例或校正示例,并且那些各种类型的修改示例或校正示例当然被理解为属于本公开内容的技术范围。
[0301]
另外,在本说明书中描述的有益效果仅用于说明或解释,而不是用于限制。即,连同上述有益效果或者代替上述有益效果,根据本公开内容的技术可以表现出根据本说明书的描述对于本领域技术人员而言明显的其他有益效果。
[0302]
注意,以下配置属于本公开内容的技术范围。
[0303]
(1)
[0304]
一种推理装置,包括:
[0305]
获取部,其获取第二图像数据和基于以下项获得的经训练的模型:
[0306]
第三参考位置和第四参考位置,所述第三参考位置和所述第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在所述第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及
[0307]
第三相对位置和第四相对位置,所述第三相对位置和所述第四相对位置是基于所述第一被摄体的预定区域相对于所述第一参考位置的第一相对位置、所述第二被摄体的预定区域相对于所述第二参考位置的第二相对位置以及所述移动处理而获得的;以及
[0308]
推理部,其基于所述经训练的模型和所述第二图像数据,来获得在所述第二图像
数据中捕获的第三被摄体的第五参考位置和所述第三被摄体的预定区域相对于所述第五参考位置的第五相对位置。
[0309]
(2)
[0310]
根据上述(1)所述的推理装置,其中,所述推理装置包括处理部,所述处理部通过将所述第五参考位置和所述第五相对位置加在一起来计算所述第三被摄体的预定区域的位置。
[0311]
(3)
[0312]
根据上述(2)所述的推理装置,其中,所述推理装置包括输出部,所述输出部执行根据所述第三被摄体的预定区域的位置的处理。
[0313]
(4)
[0314]
根据上述(3)所述的推理装置,其中,所述输出部对表示所述第三被摄体的预定区域的位置的信息的呈现进行控制。
[0315]
(5)
[0316]
根据上述(3)所述的推理装置,其中,所述输出部识别所述第三被摄体的预定区域的位置是否在预定方向上超过所述第二图像数据中的预定线。
[0317]
(6)
[0318]
根据上述(3)所述的推理装置,其中,所述输出部对所述第五参考位置的数目进行计数。
[0319]
(7)
[0320]
根据上述(1)至(6)中任一项所述的推理装置,其中
[0321]
所述第三参考位置是所述第一参考位置已经移动至的位置,并且
[0322]
所述第四参考位置是所述第二参考位置已经移动至的位置。
[0323]
(8)
[0324]
根据上述(1)至(6)中任一项所述的推理装置,其中,
[0325]
所述第三参考位置是所述第一参考位置的未移动的位置,并且
[0326]
所述第四参考位置是所述第二参考位置已经移动至的位置。
[0327]
(9)
[0328]
根据上述(1)至(6)中任一项所述的推理装置,其中,
[0329]
所述第三参考位置是所述第一参考位置已经移动至的位置,并且
[0330]
所述第四参考位置是所述第二参考位置的未移动的位置。
[0331]
(10)
[0332]
一种推理方法,包括:
[0333]
获取第二图像数据和基于以下项获得的经训练的模型:
[0334]
第三参考位置和第四参考位置,所述第三参考位置和所述第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在所述第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及
[0335]
第三相对位置和第四相对位置,所述第三相对位置和所述第四相对位置是基于所述第一被摄体的预定区域相对于所述第一参考位置的第一相对位置、所述第二被摄体的预定区域相对于所述第二参考位置的第二相对位置以及所述移动处理而获得的;以及
[0336]
基于所述经训练的模型和所述第二图像数据,获得在所述第二图像数据中捕获的第三被摄体的第五参考位置和所述第三被摄体的预定区域相对于所述第五参考位置的第五相对位置。
[0337]
(11)
[0338]
一种程序,使计算机用作:
[0339]
推理装置,其包括:
[0340]
获取部,其获取第二图像数据和基于以下项获得的经训练的模型:
[0341]
第三参考位置和第四参考位置,所述第三参考位置和所述第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在所述第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及
[0342]
第三相对位置和第四相对位置,所述第三相对位置和所述第四相对位置是基于所述第一被摄体的预定区域相对于所述第一参考位置的第一相对位置、所述第二被摄体的预定区域相对于所述第二参考位置的第二相对位置以及所述移动处理而获得的;以及
[0343]
推理部,其基于所述经训练的模型和所述第二图像数据,来获得在所述第二图像数据中捕获的第三被摄体的第五参考位置和所述第三被摄体的预定区域相对于所述第五参考位置的第五相对位置。
[0344]
[附图标记列表]
[0345]
10:信息处理系统
[0346]
110:控制部
[0347]
120:操纵部
[0348]
130:传感器部
[0349]
140:存储部
[0350]
150:通信部
[0351]
160:呈现部
[0352]
112:cnn识别处理部
[0353]
114:后处理部
[0354]
116:输出部
[0355]
118:cnn训练部

技术特征:
1.一种推理装置,包括:获取部,其获取第二图像数据和基于以下项获得的经训练的模型:第三参考位置和第四参考位置,所述第三参考位置和所述第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在所述第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及第三相对位置和第四相对位置,所述第三相对位置和所述第四相对位置是基于所述第一被摄体的预定区域相对于所述第一参考位置的第一相对位置、所述第二被摄体的预定区域相对于所述第二参考位置的第二相对位置以及所述移动处理而获得的;以及推理部,其基于所述经训练的模型和所述第二图像数据,来获得在所述第二图像数据中捕获的第三被摄体的第五参考位置和所述第三被摄体的预定区域相对于所述第五参考位置的第五相对位置。2.根据权利要求1所述的推理装置,其中,所述推理装置包括处理部,所述处理部通过将所述第五参考位置和所述第五相对位置加在一起来计算所述第三被摄体的预定区域的位置。3.根据权利要求2所述的推理装置,其中,所述推理装置包括输出部,所述输出部执行根据所述第三被摄体的预定区域的位置的处理。4.根据权利要求3所述的推理装置,其中,所述输出部对表示所述第三被摄体的预定区域的位置的信息的呈现进行控制。5.根据权利要求3所述的推理装置,其中,所述输出部识别所述第三被摄体的预定区域的位置是否在预定方向上超过所述第二图像数据中的预定线。6.根据权利要求3所述的推理装置,其中,所述输出部对所述第五参考位置的数目进行计数。7.根据权利要求1所述的推理装置,其中,所述第三参考位置是所述第一参考位置已经移动至的位置,并且所述第四参考位置是所述第二参考位置已经移动至的位置。8.根据权利要求1所述的推理装置,其中,所述第三参考位置是所述第一参考位置的未移动的位置,并且所述第四参考位置是所述第二参考位置已经移动至的位置。9.根据权利要求1所述的推理装置,其中,所述第三参考位置是所述第一参考位置已经移动至的位置,并且所述第四参考位置是所述第二参考位置的未移动的位置。10.一种推理方法,包括:获取第二图像数据和基于以下项获得的经训练的模型:第三参考位置和第四参考位置,所述第三参考位置和所述第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在所述第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及第三相对位置和第四相对位置,所述第三相对位置和所述第四相对位置是基于所述第一被摄体的预定区域相对于所述第一参考位置的第一相对位置、所述第二被摄体的预定区域相对于所述第二参考位置的第二相对位置以及所述移动处理而获得的;以及
基于所述经训练的模型和所述第二图像数据,获得在所述第二图像数据中捕获的第三被摄体的第五参考位置和所述第三被摄体的预定区域相对于所述第五参考位置的第五相对位置。11.一种程序,使计算机用作:推理装置,其包括:获取部,其获取第二图像数据和基于以下项获得的经训练的模型:第三参考位置和第四参考位置,所述第三参考位置和所述第四参考位置是通过使在第一图像数据中捕获到的第一被摄体的第一参考位置和在所述第一图像数据中捕获到的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,以及第三相对位置和第四相对位置,所述第三相对位置和所述第四相对位置是基于所述第一被摄体的预定区域相对于所述第一参考位置的第一相对位置、所述第二被摄体的预定区域相对于所述第二参考位置的第二相对位置以及所述移动处理而获得的;以及推理部,其基于所述经训练的模型和所述第二图像数据,来获得在所述第二图像数据中捕获的第三被摄体的第五参考位置和所述第三被摄体的预定区域相对于所述第五参考位置的第五相对位置。

技术总结
[问题]为了更精确地估计被摄体的预定区域的位置。[解决方案]提供了一种推理装置,包括:获取部,其获取经训练的模型和第二图像数据,该经训练的模型是基于第三参考位置和第四参考位置以及第三相对位置和第四相对位置而获得的,第三参考位置和第四参考位置是通过使在第一图像数据中捕获的第一被摄体的第一参考位置和在第一图像数据中捕获的第二被摄体的第二参考位置彼此远离地移动的移动处理而获得的,第三相对位置和第四相对位置是基于第一被摄体的预定区域相对于第一参考位置的第一相对位置、第二被摄体的预定区域相对于第二参考位置的第二相对位置以及移动处理而获得的;以及推断部,其使用经训练的模型和第二图像数据来获得在第二图像数据中捕获的第三被摄体的第五参考位置和第三被摄体的预定区域相对于第五参考位置的第五相对位置。相对于第五参考位置的第五相对位置。相对于第五参考位置的第五相对位置。


技术研发人员:尾崎夏子
受保护的技术使用者:索尼集团公司
技术研发日:2021.12.13
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐