用于借助于图像数据来确定对象信息的方法与流程
未命名
08-07
阅读:78
评论:0

1.本公开涉及用于借助于图像数据来确定对象信息的方法。
背景技术:
2.为了能够实现机器人对对象的灵活的生产或加工,值得期望的是:机器人能够无视对象被放置到机器人的工作空间中的姿势地对该对象进行操作。因而,机器人旨在能够识别对象的哪些部分位于哪些位置,使得该机器人例如可以在准确的部位抓取该对象,以便例如将该对象固定在其它对象上,或者将该对象焊接在当前位置。这意味着:机器人旨在能够从通过固定在机器人处的摄像机所拍摄的一个或多个图像中识别对象的姿态(位置和方向)或者还有对象的区域、如条形码。
3.对此的方法是:从唯一的观察中得出机器人任务的解决方案并且在开环中执行该解决方案的方法;沿着机器人轨迹持续记录新观察、对预测进行更新并且遵循从当前角度或长期角度来看最有希望的解决方案的方法;从预定义的一组视角(例如沿着螺旋轨迹)持续记录新观察的方法;和从启发式地被选择以便改善抓取预测(例如通过选择指向在预测中的差异大的部位的视角)的视角来持续记录新观察的方法。
4.虽然这些方法在某些场景中可以提供良好的结果,但是仍然可能发生控制不准确或者在关于对象的可用信息足以进行可靠控制之前需要大量图像的情况。因此,需要在机器人装置的控制方面、例如对于对象拾取来说具有高成功率和高数据效率的方法。
技术实现要素:
5.按照各种实施方式,提供了一种用于从图像数据中确定对象信息的方法,该方法具有:借助于强化学习来对代理进行训练,其中
[0006]-通过从一个或多个以前拍摄的图像中产生的关于对象的表面点的方位的信息来给出状态;
[0007]-来自可能的动作的集合中的每个动作都是从相应视角来拍摄该对象的附加图像;并且
[0008]-对于可能的动作的集合中的每个动作来说,该动作的奖励取决于机器学习模型响应于从一个或多个以前拍摄的图像和该附加图像中产生的关于该对象的表面点的方位的信息的输入所输出的关于该对象的信息的置信度相对于该机器学习模型响应于从一个或多个以前拍摄的图像在没有该附加图像的情况下产生的关于该对象的表面点的方位的信息的输入所输出的关于该对象的信息的置信度的变化。
[0009]
该方法还具有:按照由该代理所输出的动作来连续拍摄图像,其中该代理在每次拍摄图像之后获得从以前拍摄的图像中产生的关于对象表面点的方位的信息作为状态信息;而且借助于该机器学习模型从所拍摄的图像中确定对象信息。
[0010]
上述方法能够将用来拍摄新图像的视角选择为使得由于附加信息所引起的增益尽可能高,这提高了数据效率。
[0011]
通过将所获得的信息的价值明确定义为该机器学习模型的输出(例如用于任务的机器人控制信息)的经改善的置信度并且使用以对该代理的训练为形式的关于所定义的价值来优化信息获取的机制,实现了高成功率和更高的效率。该机器学习模型的输出的置信度尤其可以反映该机器学习模型的输出的精度。
[0012]
使用上述方法可以实现比使用从预定义的一组视角来拍摄图像(这些图像例如涵盖整个场景)的方法更高的效率,并且可以实现比使用试图关于启发式度量来改善信息获取的方法更高的精度。
[0013]
上述方法例如可以应用于许多机器人控制任务,这些机器人控制任务依赖于传感器输入,以便得出控制信息及其成功方面的置信度,而且这些机器人控制任务能够融合来自不同角度的传感器输入,以便获得对该状态的更好的理解。这种应用的一个主要示例是用机器人来抓取(通常是拾取)对象,其中该任务在于拾取对象,并且存在机器拾取姿态预测模型,该机器拾取姿态预测模型从该场景的颜色和深度图像得出拾取姿态以及该拾取的成功概率。按照上述方法,在此决定机器人臂应该向哪里移动:要么移动到所预测的拾取姿态要么使得固定在机器人臂处的摄像机可以从如下视角拍摄该对象,该视角得到经改善的感知,以便改善针对当前所预测的拾取姿态或者针对其它可能更好的拾取姿态的拾取姿态预测的精度。
[0014]
接着,经过训练的代理可以被用于:针对(新的一一即未在训练中使用过的)对象确定对象信息,其方式是根据由该代理所输出的动作来连续拍摄图像并且从中确定对象信息(例如直至达到指定数量的图像或者达到这些对象信息的所实现的置信度为止)。应当注意的是:不需要在该训练中所考虑的对象与在应用中的对象相同。原则上,该代理可以泛化到任意对象类型。通常,相关场景可包含任意数量的对象。如果该应用例如是对象的抓取(通常是拾取),则例如可能会使用显示具有四个对象的场景的图像来进行训练,原因在于这是在抓取时的典型用例。另一方面,例如在训练时可能会针对姿态估计来规定:特定对象恰好出现一次。该方法可以以这种方式针对所希望的用例来被训练,然而接着可以在该框架内应用于任意对象和任意场景。
[0015]
尤其应当注意的是:“该对象的图像”也可包含多个对象,即也可以是包含该对象的场景的图像。
[0016]
上述方法对于检测具有复杂3d几何、例如复杂对象形状或者混乱的对象的场景来说特别重要。在这种情况下,从唯一角度拍摄的图像可能非常不完整并且无法提供足够的信息来实现对对象的良好拾取。这里,合并信息采集模型的能力可能特别有用。特别是当必须从该混乱中选择特定对象时或者当必须以特定方式来抓取(或者还有吸住)对象时,情况如此。
[0017]
按照一个实施方式,该机器学习模型被训练来根据关于对象的表面点的方位的信息来输出关于这些对象的信息并且输出相应的置信度(例如通过该输出本身的形式(例如通过软值)或者通过附加的(置信度)输出)。关于对象的信息可以是用于操纵该对象的控制信息或者也可以是关于该对象的其它信息,例如表面结构等等。
[0018]
在下文说明了各种实施例。
[0019]
实施例1是如上所述的用于从图像数据中确定对象信息的方法。
[0020]
实施例2是根据实施例1所述的方法,其中对于来自可能的动作的集合中的每个动
作来说都通过奖励函数来给出该奖励,该奖励函数当对该输出的置信度增加并且该输出正确时以及当对该输出的置信度降低并且该输出不正确时进行奖励,而且该奖励函数当对该输出的置信度增加而该输出不正确时以及当对该输出的置信度降低而该输出正确时进行惩罚。
[0021]
以这种方式,只有当该置信度也是有根据的时、即当该置信度还反映出所希望的结果被实现时,才对该置信度的增加进行奖励。同样,当该置信度没有根据时,对该置信度的降低进行奖励。
[0022]
实施例3是根据实施例1或2所述的方法,其中关于该对象的信息是该对象的表面上的部位的拾取质量值,这些拾取质量值说明了该对象可以在这些部位被拾取得多好。
[0023]
尤其在这种情况下,附加图像提供对(例如用于抓取或吸住的)拾取姿态的确定的更高可靠性。通过按照由该代理所输出的动作来拍摄图像,实现了:使用少量图像就已经可以实现高可靠性。
[0024]
实施例4是根据实施例3所述的方法,该方法具有:从这些部位中选择用于拾取的部位,其中关于该对象的信息的置信度是所选择的部位的拾取质量值的置信度。
[0025]
这样,该代理可以被训练来有针对性地针对特定拾取部位(例如最适合的拾取部位)通过获取适合于此的附加图像数据来增加置信度。
[0026]
实施例5是根据实施例1至4中任一项所述的方法,该方法具有:通过将从该附加图像中获得的信息整合到从一个或多个以前拍摄的图像在没有该附加图像的情况下产生的关于该对象的表面点的方位的信息中,确定从一个或多个以前拍摄的图像和该附加图像中产生的关于该对象的表面点的方位的信息。
[0027]
因此,关于表面点的方位的信息(即方位信息)、即针对确定关于该对象的信息的机器学习模型(例如神经网络)的输入通过新获得的信息被连续改善。由此,确保了输入数据的高效的改善过程,当信息量足够(并且与此相对应地该机器学习模型的输出的置信度具有足够高的置信度)时或者当一定的预算(例如图像数量)被用完时,可以中断该改善过程。
[0028]
实施例6是根据实施例1至5中任一项所述的方法,该方法具有:根据所确定的对象信息来估计对象姿态和/或拾取姿态(例如抓取姿态)。
[0029]
尤其是对于这些应用来说,上述方法能够高效地确定相应的对象信息。
[0030]
实施例7是一种摄像机控制系统,该摄像机控制系统具有一个或多个摄像机以及摄像机控制装置,该摄像机控制装置被设立为执行根据实施例1至6中任一项所述的方法。
[0031]
实施例8是一种机器人控制装置,该机器人控制装置具有根据实施例7所述的摄像机控制系统并且被设立为:按照从所拍摄的图像中确定的对象信息来控制该机器人装置。
[0032]
实施例9是一种计算机程序,该计算机程序包括指令,这些指令在由处理器执行时引起:该处理器执行根据实施例1至6中任一项所述的方法。
[0033]
实施例10是一种计算机可读介质,该计算机可读介质存储指令,这些指令在由处理器执行时引起:该处理器执行根据实施例1至6中任一项所述的方法。
附图说明
[0034]
在附图中,类似的附图标记通常涉及在所有不同视图中的相同部分。这些附图不
一定比例正确,其中重点反而通常在于呈现本发明的原理。在下文的描述中,参考如下附图来描述不同方面。
[0035]
图1示出了机器人。
[0036]
图2阐明了按照一个实施方式的用来获取用于控制机器人的传感器信息的流程。
[0037]
图3示出了流程图,该流程图呈现了按照一个实施方式的用于借助于图像数据来确定对象信息的方法。
具体实施方式
[0038]
下文的详细描述涉及随附的附图,这些附图为了阐述而示出了本公开的其中可实施本发明的特殊细节和方面。在不脱离本发明的保护范围的情况下,可以使用其它方面并且可以执行结构更改、逻辑更改和电更改。本公开的不同方面不一定是相互排斥的,因为本公开的一些方面可以与本公开的一个或多个其它方面相结合,以便形成新的方面。
[0039]
在下文更详细地描述了各种示例。
[0040]
图1示出了机器人100。
[0041]
机器人100包含机器人臂101,例如用于操作或安装工件(或者一个或多个其它对象)的工业机器人臂。机器人臂101包含操纵器102、103、104和基座(或支座)105,借助于该基座来支撑这些操纵器102、103、104。术语“操纵器”涉及机器人臂101的可移动构件,对这些可移动构件的操纵能够实现与环境的物理交互,以便例如执行任务。为了进行控制,机器人100包含(机器人)控制装置106,该(机器人)控制装置被设计用于按照控制程序来实现与环境的交互。操纵器102、103、104的最后一个构件104(该构件离基座105最远)也被称为末端执行器104,并且可包含一个或多个工具,诸如焊炬、抓取工具、喷漆工具等等。
[0042]
其它操纵器102、103(所述其它操纵器更靠近基座105)可形成定位装置,使得在其端部具有末端执行器104的机器人臂101与末端执行器104一起被提供。机器人臂101是机械臂,该机械臂可以提供与人类手臂类似的功能(可能利用在其端部处的工具)。
[0043]
机器人臂101可包含链节元件107、108、109,这些链节元件使操纵器102、103、104彼此连接并且与基座105连接。链节元件107、108、109可具有一个或多个链节,所述一个或多个链节可以分别提供相关联的操纵器相对于彼此的可旋转运动(也就是说转动运动)和/或平移运动(即位移)。操纵器102、103、104的移动可以借助于执行器来被发起,这些执行器由控制装置106来控制。
[0044]
术语“执行器”可以被理解成构造为响应于对其的驱动而影响机构或过程的组件。该执行器可以将由控制装置106创建的指令(所谓的激活)实现成机械运动。执行器、例如机电转换器可以被设计为:响应于对其的驱动,将电能转换成机械能。
[0045]
术语“控制装置”可以被理解成任意类型的逻辑实现实体,该逻辑实现实体例如可包含电路和/或处理器,该电路/该处理器能够执行存储在存储介质中的软件、固件或它们的组合,并且该电路/该处理器可以例如向在当前示例中的执行器发出指令。该控制装置例如可以通过程序代码(例如软件)来被配置,以便控制系统、即在当前示例中的机器人的运行。
[0046]
在当前示例中,控制装置106包含存储器111和一个或多个处理器110,该存储器存储代码和数据,处理器110基于这些代码和数据来控制机器人臂101。按照各种实施方式,控
制装置106基于存储在存储器111中的机器学习模型112来控制机器人臂101。
[0047]
按照各种实施方式,机器学习模型112被设计和训练来使机器人100能够从摄像机图像中识别例如被放置到机器人臂101的工作空间中的对象113的拾取姿态,例如用于旨在从箱子中拾取对象(英文“bin-picking(分拣)”)的机器人。
[0048]
机器人100例如可以配备有一个或多个摄像机114,所述一个或多个摄像机能够使该机器人拍摄该机器人的工作空间的图像。摄像机114例如固定在机器人臂101上,使得机器人可以从不同视角出发拍摄对象113的图像,其方式是该机器人使机器人臂101四处移动。
[0049]
接着,控制装置106可以借助于机器学习模型112从由摄像机114所提供的图像数据(通常是传感器数据)中确定关于对象113(或者这些对象)的信息,控制装置106接着基于这些信息来控制机器人臂101。这种信息的示例是对象113的表面点的拾取质量值,即对于该对象的表面的部位来说分别是说明该对象可以在该部位被拾取(抓取或吸住)得多好的值。
[0050]
存在各种方法用来训练机器学习模型、尤其是深度神经网络,这些机器学习模型具有图像数据(通常是rgb和深度图像)作为输入并且输出用于执行机器人任务的信息。例如,可以使用全卷积网络,以便预测(例如具有rgb通道和深度通道的)输入摄像机图像中的每个像素的(例如拾取质量的)值。在通过机器人来进行抓取的情况下,该值例如对应于在空间中的与该像素相对应的部位实现成功抓取的概率。
[0051]
在下文中假设:对于机器人装置的任务(如通过机器人臂101来拾取对象113)来说,存在机器学习模型112,该机器学习模型基于从对环境的传感器观察(例如图像)中获得的(例如关于对象113的表面点的方位的)不完整的(输入)信息来提供用于执行该任务的(控制)信息(诸如对象113的表面的部位的拾取质量值)。
[0052]
通常,从这些传感器观察(例如摄像机图像)中获得的输入信越精确或越完整,用于执行该任务的控制信息就越可靠(即这些控制信息的置信度就越高)。在此,出于数据效率的原因,感兴趣的是:记录引起这些控制信息的尽可能高的置信度的这种传感器数据。该置信度可以由机器学习模型112一并输出。
[0053]
因此,按照各种实施方式,提供了一种方法,该方法能够得出应如何移动传感器(例如摄像机114)以便获得新的输入信息,这些新的输入信息会改善对该环境的感知并且与此相对应地会引起该任务的更好的解决方案,其中后者借助于机器学习模型112的输出的置信度来被量化。
[0054]
为此,按照各种实施方式,提供代理115,该代理例如由处理器110来实现。对于该代理来说,学习控制策略(英文control policy),在这种情况下是信息获取策略,该信息获取策略针对特定机器人任务并且鉴于当前的(输入)信息水平来决定(例如)摄像机114应该向哪里移动,使得从该移动和所有后续移动(以及在此进行的测量)中获得的输入信息旨在以高效方式来使从中得出的控制信息的可信度(即置信度)最大化。
[0055]
图2阐明了按照一个实施方式的用来获取用于控制机器人的传感器信息的流程。
[0056]
摄像机201(该摄像机例如对应于摄像机114)在它所处的(例如被机器人臂101移动到的)一个或多个位置分别提供摄像机图像202。从这些摄像机图像中获得关于所要操纵的(例如所要拾取的)对象113的表面点的方位的(方位)信息203。这例如可以通过转换成点
云来实现。
[0057]
在此,多个图像202可以被融合成唯一图像(例如视觉表示),该唯一图像比这些单独图像中的每个单独图像都更精确地并且更完整地包含方位信息203。这可以通过如下方式来实现:这些图像202(例如rgb和深度图像)被转换成点云并且以tsdf(截断有符号距离函数(truncated signed distance function))的值为形式来代表,该tsdf通过体素(三维像素)的网格来表示对象113的环境,其中每个体素都具有说明距对象113的表面的最近点的距离的值。该tsdf可以使用点云(来自以不同角度拍摄的新添加的图像)来予以更新。借助于光线投射(ray-casting)可以从该tsdf中(从任意视角)提取融合后的点云以及深度图像。
[0058]
方位信息203(例如以该tsdf的体素的值为形式)被输送给机器学习模型204(例如机器学习模型112)、例如神经网络,该机器学习模型据此来确定控制信息205(例如如上所述的拾取质量值)。
[0059]
针对这些控制信息205,机器学习模型204提供置信度信息、即说明机器学习模型112对于这些控制信息205有把握的程度的信息。这些置信度信息例如可以是由贝叶斯神经网络输出的说明该神经网络有把握的程度的信息。但是,这些置信度信息也可以简单地通过由该机器学习模型输出的软值来给出。例如,等于1的值说明了该对象可以在该部位可靠地被抓取,并且等于0.8的值说明了该对象可以在该部位被抓取,然而机器学习模型204在此只有80%的把握。
[0060]
基于这些置信度信息206,代理207(该代理例如对应于代理115)决定是否应该拍摄另一摄像机图像并且如果是则应该从哪个视角拍摄另一摄像机图像,并且必要时相对应地控制摄像机201。
[0061]
摄像机201可以安装在独立于机器人地被控制的伺服系统处,或者该摄像机可以(如图1和2中所示)安装在机器人臂上(例如安装在“手关节”上或者安装在末端执行器上),其中摄像机的移动通过机器人的移动来实现。
[0062]
按照各种实施方式,借助于强化学习(reinforcement learning)来训练代理207。在此,控制摄像机201来从特定视角拍摄图像(即例如尤其是将摄像机201移动到特定位置)是代理207的动作。
[0063]
对于该训练来说,将要由该代理207执行的信息获取任务(即用于控制摄像机201来拍摄图像202的任务)建模成马尔可夫决策过程(mdp表示英文markov decision process)。
[0064]
该mdp通过状态空间、动作空间(即可能的动作的集合)、奖励函数和转移概率函数来定义,该奖励函数将针对该应用的奖励分派给在特定状态下的特定动作,该转移概率函数说明了在特定状态下应用特定动作时转移到另一特定状态的概率。
[0065]
在当前情况下,状态空间的每个状态都对应于相应的信息状态(例如tsdf、即方位信息203)。该动作空间的动作对应于摄像机移动(和相关的图像拍摄),并且该奖励函数对控制信息205的置信度的由于摄像机移动(以及相关的在此拍摄的图像202)所引起的增加进行奖励。在此,该奖励函数被选择(例如被训练)为使得该奖励函数代表在置信度与实际成功之间的相关性。这意味着:如果对控制信息的置信度增加并且按照该控制动作对机器人的控制也成功,则对这一点进行奖励。根据将来自以新的摄像机位置所拍摄的图像中的
信息整合到方位信息203中,得出动作(摄像机移动)的状态转移。
[0066]
该mdp使得能够(就信息或置信度增益而言)考虑动作的长期价值。对为该mdp选择动作(即做出决策)的代理207进行训练的目标在于:为该代理找到最佳策略,即给每个状态都分配使累积奖励的总和最大化的动作。在当前情况下,该代理207所遵循的该策略可以被视为信息获取策略。
[0067]
可以在使用贝尔曼(bellman)方程的情况下利用动态规划来计算mdp的最佳策略。如上所述,按照各种实施方式,使用强化学习来确定(信息获取)策略。强化学习是一种学习范式,该学习范式通过如下方式来确定mdp的策略:该学习范式与相应的系统(该系统通过状态空间和转移概率来给出)进行交互,收集样本作为元组(状态、动作、奖励、下一状态)并且应用贝尔曼方程,以便计算状态和动作的价值(就效用而言,即在rl的情况下的值)。
[0068]
按照各种实施方式,为了训练该代理207,按照上述mdp来训练价值神经网络,例如全卷积网络。该价值网络从该mdp的状态空间中获得给定的(信息)状态,并且输出将摄像机移动到特定姿态的长期价值(值),例如针对特定目标抓取位置(即根据该抓取姿态、例如会按照机器学习模型205已从以前的图像中确定的控制信息205使用的抓取姿态或者还有基于当前信息看起来有希望的其它抓取姿态的置信度增加)。在该应用是姿态估计的情况下,代替目标抓取位置而例如进行当前姿态估计。
[0069]
通过评估一系列可能的移动并且从这些移动中选择一个移动(例如具有该价值网络所输出的最高价值的那个移动),或者通过训练另一机器学习模型(例如另一神经网络、尤其是全卷积网络),可以得出摄像机应该(通过该代理207)被移动到的特定摄像机位置,该另一机器学习模型获得当前信息状态作为输入并且输出使通过该价值网络所得出的价值最大化的摄像机位置。这后一种方法对应于actor-critic方案。
[0070]
为了训练该价值网络(或者通常是价值模型),该控制装置(或者还有接管该训练的其它设备)可以通过使用相应的系统或相应的环境直接进行实验来收集rl示例。例如,针对不同场景(例如对象位置)产生不同摄像机轨迹,并且存储在此出现的信息状态和在沿着这些轨迹的不同点处的摄像机位置。为此,分别确定控制信息205,执行与这些控制信息相对应的控制(即例如控制机器人臂101来拾取对象113)并且存储这些控制信息以及关于控制动作是否成功(例如该对象是否能够被拾取)的信息。依据这些数据可以产生rl样本。奖励以追溯的方式来被计算,其中当对抓取位置的置信度的变化与该抓取位置的成功配备时(即当对该抓取位置良好的置信度增加并且控制(即在该抓取位置处的抓取)成功时以及当对该抓取位置良好的置信度降低并且该控制失败时),分派正奖励。相对应地,当对该抓取位置良好的置信度降低而该控制成功时以及当对该抓取位置良好的置信度增加而该控制失败时,该奖励为负。
[0071]
如果该代理207(尤其是该价值网络)已经被训练,则该控制装置106可以采取如下做法来执行任务(例如拾取对象113):该控制装置借助于摄像机201来从初始位置拍摄图像。这提供了第一信息状态(即方位信息203的第一版本)。接着,针对固定预算的摄像机移动(和摄像机图像202)或者只要对抓取位置的置信度(通过控制信息205来给出,例如关于该对象的表面的拾取质量值中的最大值)不令人满意(或者只要不满足另外的中断标准),该代理207就(从该价值模型的相应输出中)选择用于当前信息状态的摄像机移动。该控制装置106相对应地控制摄像机201,使得该摄像机执行移动并且在所达到的位置拍摄附加摄
像机图像202而且信息状态根据从中获得的附加信息来被更新。
[0072]
概括来说,按照各种实施方式,提供了一种如图3中所示的方法。
[0073]
图3示出了流程图300,该流程图呈现了按照一个实施方式的用于借助于图像数据来确定对象信息的方法。
[0074]
在301中,借助于强化学习来对代理进行训练。在此,状态、动作和奖励按如下地给出:
[0075]-通过从一个或多个以前拍摄的图像中产生的关于对象的表面点(即对象表面点,例如对于多个训练对象中的一个来说)的方位的信息来给出状态;
[0076]-每个动作都是从相应视角来拍摄该对象的附加图像;
[0077]-对于可能的动作的集合中的每个动作来说,该动作的奖励取决于机器学习模型响应于从一个或多个以前拍摄的图像和该附加图像中产生的关于该对象的表面点的方位的信息的输入所输出的关于该对象的信息(例如对应于所要确定的对象信息(即类型是所要确定的对象信息))的置信度相对于该机器学习模型响应于从一个或多个以前拍摄的图像在没有该附加图像的情况下产生的关于该对象的表面点的方位的信息的输入所输出的关于该对象的信息的置信度的变化。
[0078]
在302中,按照由(经过训练的)代理所输出的动作来连续拍摄图像,其中该代理(类似于在训练中那样)在每次拍摄图像之后获得从以前拍摄的图像中产生的关于(例如该经过训练的代理所应用于的对象的)对象表面点的方位的信息作为状态信息。
[0079]
在303中,借助于该机器学习模型(像在训练中那样)从所拍摄的图像中确定对象信息。
[0080]
针对该训练可以使用任意rl方法。
[0081]
图3的方法可以通过具有一个或多个数据处理单元的一个或多个计算机来被执行。术语“数据处理单元”可以被理解成能够处理数据或信号的任何类型的实体。例如,这些数据或信号可以按照至少一个(也就是说一个或超过一个)特定功能来被处理,该功能由数据处理单元来执行。数据处理单元可以包括模拟电路、数字电路、逻辑电路、微处理器、微控制器、中央单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)、可编程门阵列(fpga)的集成电路或者它们的任意组合或者由这些来构造。用于实现本文中更详细地描述的相应功能的任何其它方式也可以被理解成数据处理单元或者逻辑电路装置。这里详细描述的方法步骤中的一个或多个可以由数据处理单元通过一个或多个特定功能来实施(例如实现),这些功能由该数据处理单元来执行。
[0082]
图3的方法可以用于产生针对机器人装置的控制信号。术语“机器人装置”可以被理解成涉及任何(具有其移动被控制的机械部分的)技术系统,诸如受计算机控制的机器、车辆、家用电器、电动工具、制造机器、私人助理或门禁系统。这些对象信息可以用作控制该技术系统的基础。
[0083]
这些图像数据可以是来自各种类型的(摄像机)图像的数据,诸如视频、雷达、激光雷达(lidar)、超声、运动、热等等。
[0084]
该方法例如是计算机实现的。
[0085]
尽管这里呈现和描述了特定实施方式,但是本领域技术人员认识到:所示出和描述的特定实施方式可以被替换成多种替代和/或等效的实现方案,而不脱离本发明的保护
范围。本技术应该涵盖这里所讨论的特定实施方式的任何调整或变化。因而旨在仅通过权利要求书及其等效物来限制本发明。
技术特征:
1.一种用于借助于图像数据来确定对象信息的方法,所述方法具有:借助于强化学习来对代理进行训练,其中-通过从一个或多个以前拍摄的图像中产生的关于对象的表面点的方位的信息来给出状态,-来自可能的动作的集合中的每个动作都是从相应视角来拍摄所述对象的附加图像,并且-对于可能的动作的集合中的每个动作来说,所述动作的奖励取决于机器学习模型响应于从一个或多个以前拍摄的图像和所述附加图像中产生的关于所述对象的表面点的方位的信息的输入所输出的关于所述对象的信息的置信度相对于所述机器学习模型响应于从一个或多个以前拍摄的图像在没有所述附加图像的情况下产生的关于所述对象的表面点的方位的信息的输入所输出的关于所述对象的信息的置信度的变化;按照由所述代理所输出的动作来连续拍摄图像,其中所述代理在每次拍摄图像之后获得从以前拍摄的图像中产生的关于对象表面点的方位的信息作为状态信息;而且借助于所述机器学习模型从所拍摄的图像中确定所述对象信息。2.根据权利要求1所述的方法,其中对于来自可能的动作的集合中的每个动作来说都通过奖励函数来给出所述奖励,所述奖励函数当对所述输出的置信度增加并且所述输出正确时以及当对所述输出的置信度降低并且所述输出不正确时进行奖励,而且所述奖励函数当对所述输出的置信度增加而所述输出不正确时以及当对所述输出的置信度降低而所述输出正确时进行惩罚。3.根据权利要求1或2所述的方法,其中关于所述对象的信息是所述对象的表面上的部位的拾取质量值,所述拾取质量值说明了所述对象能够在所述部位被拾取得多好。4.根据权利要求3所述的方法,所述方法具有:从所述部位中选择用于所述拾取的部位,其中关于所述对象的信息的置信度是所选择的部位的拾取质量值的置信度。5.根据权利要求1至4中任一项所述的方法,所述方法具有:通过将从所述附加图像中获得的信息整合到从一个或多个以前拍摄的图像在没有所述附加图像的情况下产生的关于所述对象的表面点的方位的信息中,确定从一个或多个以前拍摄的图像和所述附加图像中产生的关于所述对象的表面点的方位的信息。6.根据权利要求1至5中任一项所述的方法,所述方法具有:根据所确定的对象信息来估计对象姿态和/或拾取姿态。7.一种摄像机控制系统,所述摄像机控制系统具有一个或多个摄像机以及摄像机控制装置,所述摄像机控制装置被设立为执行根据权利要求1至6中任一项所述的方法。8.一种机器人控制装置,所述机器人控制装置具有根据权利要求7所述的摄像机控制系统并且被设立为:按照从所拍摄的图像中确定的对象信息来控制所述机器人装置。9.一种计算机程序,所述计算机程序包括指令,所述指令在由处理器执行时引起:所述处理器执行根据权利要求1至6中任一项所述的方法。10.一种计算机可读介质,所述计算机可读介质存储指令,所述指令在由处理器执行时引起:所述处理器执行根据权利要求1至6中任一项所述的方法。
技术总结
用于借助于图像数据来确定对象信息的方法。按照各种实施方式,提供了一种用于从图像数据中确定对象信息的方法,该方法具有:借助于强化学习来对代理进行训练;按照由该代理所输出的动作来连续拍摄图像,其中该代理在每次拍摄图像之后获得从以前拍摄的图像中产生的关于对象的表面点的方位的信息作为状态信息;而且借助于机器学习模型从所拍摄的图像中确定这些对象信息。定这些对象信息。定这些对象信息。
技术研发人员:A
受保护的技术使用者:罗伯特
技术研发日:2023.02.01
技术公布日:2023/8/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种油莎豆油基人造奶油基料油的制备方法 下一篇:全自动电位滴定仪的制作方法