一种工业场景数据集下的图卷积视觉关系检测方法

未命名 09-13 阅读:68 评论:0


1.本发明涉及视觉图像技术领域,具体涉及一种工业场景数据集下的图卷积视觉关系检测方法。


背景技术:

2.在智能制造的大背景下,需要实现对不确定环境的监控,从而为后续的生产决策做准备。视觉作为重要且丰富的信息来源,可以实现对不规范的生产活动和危险事故场景进行检测。同时,也需要在工业场景下进行环境层面的视觉理解,而视觉关系检测技术作为视觉理解的重要手段却在工业场景数据集中缺少应用。
3.工业场景下会产生大量的数据,其中就包括图像监控数据,利用这些图像,可以使用视觉关系检测技术分析图片中成对物体之间的关系。目前,具有将图卷积相关算法引入视觉关系检测中的趋势。因此,基于图卷积的视觉关系检测方法,本发明利用这些图片数据实现对工业场景下环境的理解。


技术实现要素:

4.有鉴于此,本发明提供了一种工业场景数据集下的图卷积视觉关系检测方法。
5.一种工业场景下的图卷积视觉关系检测方法,包括以下步骤:
6.步骤1:根据工业场景的定义,进行工业场景图片的搜集;
7.步骤2、考虑异构性图卷积的视觉关系检测方法,具体包括:
8.步骤2.1、特征编码
9.首先使用faster r-cnn对输入的一张图片i进行目标检测,得到物体集合及其视觉特征和空间特征其中,m

表示检测到的物体数量;b
pr,m

和y
pr,m

分别表示检测到的第m

个物体的矩形边界框和标签;根据经过glove词向量得到语义词嵌入特征将实体的视觉空间和语义词嵌入特征按照物体进行拼接,得到三类特征拼接形式
10.将物体集合中的不同元素进行配对,得到配对的物体集合以及配对的特征集合{(x
all,m

,x
all,m

)|1≤m

≤m

,1≤m

≤m

,m

≠m

};对于任意一对x
all,m

和x
all,m

,根据向量拼接操作得到x
all,m

||x
all,m

,得到集合其中m=m

·
(m
′‑
1);由此得到谓词的特征集合
11.步骤2.2、基于k-最邻近图的连接
12.已知集合中的各个元素,获得相似度矩阵p;其中矩阵p中元素p
ij
计算方式
为:
[0013][0014]
其中,i=1,2,...,m;j=1,2,...,m;
[0015]
对于矩阵p的每一行元素p
i:
,将其中数值最大的前k个置为1,其余置为0,按上述方法遍历矩阵p的每一行,从而得到邻接矩阵a;k为设定值;
[0016]
步骤2.3、自适应的消息聚合
[0017]
根据集合得到具有m个元素按行拼接组成的矩阵r,r的第i行r
i:
=fi;取r
(0)
=r;
[0018]
将矩阵r
(0)
输入到图卷积结构中,在第l层图卷积中,使用高低通自适应选择的滤波结构:
[0019][0020]
其中η
(l)
为第l层图卷积中线性的可学习参数,和定义为:
[0021][0022]
其中,gnn
(l)
表示图卷积过程;mlp表示多层感知机;θ
(l)
为可学习参数组成的矩阵,为哈达玛积;w
1(l)
、和w
3(l)
为线性的可学习参数;
[0023]
以如下方式更新r
(l)

[0024]r(l)
=h
(l-1)
+r
(l-1)
ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0025]
经过最多l层的图卷积结构后,得到优化后的r
(l)

[0026]
步骤2.4、视觉关系预测结果
[0027]
根据r
(l)
的每一行,得到一个谓词的分类结果;
[0028]
步骤2.5、模型训练
[0029]
首先采用采集的工业场景图片中的物体标签训练faster r-cnn网络;
[0030]
然后,固定faster r-cnn中的参数;利用谓词的分类结果以及给定的谓词标签,构建损失函数对图卷积结构的可学习参数进行训练;
[0031]
步骤3、对于待检测的图片,采用步骤2.1至2.3的方法获得矩阵r后,输入到训练好的图卷积结构中,得到优化后的r
(l)
;根据r
(l)
的每一行,得到一个谓词的分类结果,由此得到m个结果,组成集合的形式为:根据集合将集合中每一对物体中两个物体分别定义为主体和客体,获得主体客体集合将谓词和对应的主体客体组合可以得到视觉关系从而完成视觉关系预测。
[0032]
较佳的,所述步骤2.2中,k的选择方式为:
[0033][0034]
较佳的,训练过程采取的是基于adam的随机梯度下降算法。
[0035]
较佳的,所述损失函数采用交叉熵函数。
[0036]
本发明具有如下有益效果:
[0037]
针对视觉关系检测技术在真实的工业场景数据集下缺少应用的问题,建立一个工业场景下的视觉关系检测数据集;整个数据集的构建过程包括相关主题的定义、相关照片的搜集、识别的物体和关系类别的初步筛查、物体和关系的标注、物体和关系类别的最终确定;而针对将具有异构性的图卷积网络引入视觉关系检测领域不充分的问题,设计了一个基于k-最邻近图和自适应滤波的视觉关系检测模型;k-最邻近图用于建立谓词节点的邻接矩阵,自适应滤波的结构采用改进的图卷积形式进行;总体而言,建立一个新的工业场景数据集并设计了一个考虑异构性图卷积的视觉关系检测方法。
附图说明
[0038]
图1为工业场景下的12种物体的编号、名称和样本数量。
[0039]
图2为工业场景下的10种关系谓词的编号、名称和样本数量。
[0040]
图3为使用的考虑异构性的图卷积视觉关系检测总体框架。
[0041]
图4为十种视觉关系样例。
具体实施方式
[0042]
考虑工业场景图片i中包含一组视觉关系实例:
[0043][0044]
其中,ng为图片i中真实视觉关系实例的个数,s
gt,n
、p
gt,n
和o
gt,n
分别为视觉关系三元组φn的主体、谓词和客体。且其中ng′
为图片中物体的数量,b
gt,n

和y
gt,n

是物体的矩形边界框和标签。
[0045]
同样,设计模型需要进行预测,得到图片i中包含的一组视觉关系实例:
[0046][0047]
其中,m为图片i中真实视觉关系实例的个数,s
pr,m
、p
pr,m
和o
pr,m
分别为预测的视觉关系三元组的主体、谓词和客体。且其中m

为图片中物体的数量,b
pr,m

和y
pr,m

是物体的矩形边界框和标签。
[0048]
大多数的视觉关系检测方法分为物体的目标检测和视觉谓词分类两个阶段。一般来说,目标检测使用的是预训练的faster r-cnn网络,而模型的不同大多在于视觉谓词分类网络的设计。本发明重点在视觉谓词分类网络的设计,并将其应用到新建立的工业场景下的视觉关系检测数据集。
[0049]
本发明首先针对工业场景下视觉关系检测数据集缺失问题,构建一个新的工业场景下的视觉关系检测数据集。然后使用基于改进图卷积的视觉关系方法进行工业场景下的视觉关系检测,并针对构建的初始图异构性较强的问题,设计了一个基于k-最邻近图和自
适应滤波的消息聚合方式的视觉谓词特征优化方式。下面分别进行具体阐述。
[0050]
步骤1、工业场景下的视觉关系检测数据集的建立
[0051]
步骤1.1、工业场景主题定义
[0052]
工业场景可以分为4类:工作准备场景、警告(禁止)行为场景、工作活动场景和混合场景。
[0053]
1)工作准备场景:该类图片包含衣着检查和工人休息场景等。例如:人穿戴安全帽、手套、口罩、工作服、喝水、坐在椅子上。
[0054]
2)警告(禁止)行为场景:该类图片主要包括工人的不规范行为。例如:人用脚踢小箱子、人坐在工作台上、衣物等物品放在传送带上、人与机器接触。
[0055]
3)工作活动场景:该部分包括工人和机器的正常生产活动场景。例如:人检查工件、人看显示屏、机器臂抓取物品、人整理货物、人使用钻头钻孔。
[0056]
4)混合场景:以上3类图片包含的内容局限于单一场景,但为了体现出视觉关系的丰富性,混合场景的图片会包含以上3类图片中多种场景的内容。
[0057]
步骤1.2、相关照片搜集
[0058]
为了实现收集多样性的高质量数据,以反映真实的工业场景,本发明从谷歌和百度等网页图片、assembly101装配视频数据集、安全帽检测数据集、服饰检测数据集和imagenet公开数据集、人机交互相关文献的插图、一个pcb生产线的现场拍摄等途径搜集相关图片。在搜集的过程中,使用了“机器人”、“工人”、“生产线”和“机床”等关键词。
[0059]
本次实验采用了左右翻转和裁剪的数据增强方式。并且在搜集图片的过程中,研究发现30%左右的图片边长不足300个像素点,再加上对图片的剪裁,这会造成图片中的物体过小且模糊不清,不利于分类。除了基本的左右翻转和裁剪外,本次研究还采用了图像超分辨率(image super-resolution)技术,用于放大图片大小。
[0060]
然后对搜集的图片进行检查,以选择最终的图片。最理想的图片就是包含工业场景的多种目标元素和多种视觉关系,并尽可能选择具有工业现场背景的图片。对于具有过分曝光或曝光不足、具有不相关内容、缺少背景内容、图片畸形等属性的图片,根据实际情况酌情剔除。
[0061]
步骤1.3、物体和关系类别的确定和标注
[0062]
在工业场景内,工具种类多样,在建立的小数据集中对不同工具采用单独的类别是不太实际的,所以本次研究将手动螺丝刀、电动螺丝刀、铁锤、锯齿、小推车、对讲机等都视为工具(tool)这一大类。同样,机械臂和可移动机器人视为机器人(robot),pcb板和其它具有电路的板子视为板子(board)。
[0063]
在工业场景中,视觉关系种类繁多,收集所有类型的图片是不现实的。在收集图片的过程中,本次研究发现很多视觉关系在目前的公共资源中很难收集到对应的图片。例如《人,接触,机械臂》这个类别的图片只能收集到少量的图片,于是本次研究将该种类型归于《人,与

交互,机械臂》这种大类。其它类似情况的也采取了此种办法。
[0064]
在关系标注上,为了避免出现vg数据集中较为严重的长尾效应,将部分关系进行了合并。例如:将“在

右边”和“在

左边”等位置关系统一为“在

旁边”。这样,可能又会导致“在

旁边”这类关系兼容了过多类型而样本过多的情况,所以该情况下会剔除部分样本以保证样本数量的平衡性。
[0065]
利用via软件进行物体的标注,并最终确定了12种物体类别,各类别的编号、名称和样本数量如图1所示,并确定了10种关系谓词,如图2所示。
[0066]
步骤2、考虑异构性图卷积的视觉关系检测方法
[0067]
步骤2.1、特征编码
[0068]
如图3所示,首先使用faster r-cnn对输入的一张图片i进行目标检测,得到物体集合及其视觉特征和空间特征其中,m

表示检测到的物体数量;b
pr,m

和y
pr,m

分别表示检测到的第m

个物体的矩形边界框和标签;四元素(am′
,bm′
,hm′
,wm′
)为矩形边界框b
pr,m

的中心点纵坐标、中心点横坐标、高度和宽度。根据经过glove词向量可以得到语义词嵌入特征将实体的视觉空间和语义词嵌入特征按照物体进行拼接,得到三类特征拼接形式
[0069]
将物体集合中的不同元素进行配对,得到配对的物体集合以及配对的特征集合{(x
all,m

,x
all,m

)|1≤m

≤m

,1≤m

≤m

,m

≠m

}。对于任意一对x
all,m

和x
all,m

,可根据向量拼接操作得到x
all,m

||x
all,m

,于是可以得到集合其中m=m

·
(m
′‑
1)。简写可得集合因此,得到了谓词的特征集合
[0070]
总体而言,根据输入图片i,经过faster r-cnn对目标进行检测,可以得到物体的集合以及谓词特征集合
[0071]
步骤2.2、基于k-最邻近图的连接
[0072]
已知集合中的各个元素,可得相似度矩阵p;其中矩阵p中元素p
ij
计算方式为:
[0073][0074]
其中,i=1,2,...,m;j=1,2,...,m;
[0075]
对于矩阵p的每一行元素p
i:
,将其中数值最大的前k个置为1,其余置为0,按上述方法遍历矩阵p的每一行,从而得到邻接矩阵a;其中k的选择方式为:
[0076][0077]
步骤2.3、自适应的消息聚合
[0078]
根据集合可以得到具有m个元素按行拼接组成的矩阵r,r的第i行r
i:
=fi。为方便说明,取r
(0)
=r。
[0079]
将矩阵r
(0)
输入到图卷积结构中,在第l层图卷积中,使用高低通自适应选择的滤波结构:
[0080][0081]
其中η
(l)
为第l层图卷积中线性的可学习参数,和定义为:
[0082][0083]
其中,gnn
(l)
表示图卷积过程;mlp表示多层感知机;θ
(l)
为可学习参数组成的矩阵,为哈达玛积;和w
3(l)
为线性的可学习参数。
[0084]
以如下方式更新r
(l)

[0085]r(l)
=h
(l-1)
+r
(l-1)
ꢀꢀꢀꢀꢀꢀꢀ
(7)
[0086]
经过最多l层的图卷积结构后,得到优化后的r
(l)
;其中,l为正整数。
[0087]
步骤2.4、视觉关系预测结果
[0088]
根据r
(l)
的每一行,可以得到一个谓词的分类结果,因此可以得到m个结果,组成集合的形式为:根据集合将集合中每一对物体中两个物体分别定义为主体和客体,可得主体客体集合因此将谓词和对应的主体客体组合可以得到视觉关系从而完成预测。
[0089]
步骤2.5、模型训练
[0090]
本次实验的训练过程分为两个部分。首先采用图片中的物体标签训练faster r-cnn网络。然后,固定faster r-cnn中的参数,采用谓词标签训练图卷积结构的可学习参数。整个训练过程采取的是基于adam的随机梯度下降算法,且该分类问题利用谓词的分类结果以及给定的谓词标签,构建基本的交叉熵函数作为损失函数,对图卷积结构的可学习参数进行训练。
[0091]
步骤3、对于待检测的图片,采用步骤2.1至2.3的方法获得矩阵r后,输入到训练好的图卷积结构中,得到优化后的r
(l)
;然后再根据步骤2.4的方法对图片中的视觉关系进行预测。

技术特征:
1.一种工业场景下的图卷积视觉关系检测方法,其特征在于,包括以下步骤:步骤1:根据工业场景的定义,进行工业场景图片的搜集;步骤2、考虑异构性图卷积的视觉关系检测方法,具体包括:步骤2.1、特征编码首先使用faster r-cnn对输入的一张图片i进行目标检测,得到物体集合及其视觉特征和空间特征其中,m

表示检测到的物体数量;b
pr,m

和y
pr,m

分别表示检测到的第m

个物体的矩形边界框和标签;根据经过glove词向量得到语义词嵌入特征将实体的视觉空间和语义词嵌入特征按照物体进行拼接,得到三类特征拼接形式将物体集合中的不同元素进行配对,得到配对的物体集合以及配对的特征集合{(x
all,m

,x
all,m

)|1≤m

≤m

,1≤m

≤m

,m

≠m

};对于任意一对x
all,m

和x
all,m

,根据向量拼接操作得到x
all,m

||x
all,m

,得到集合其中m=m

·
(m
′‑
1);由此得到谓词的特征集合步骤2.2、基于k-最邻近图的连接已知集合中的各个元素,获得相似度矩阵p;其中矩阵p中元素p
ij
计算方式为:其中,i=1,2,...,m;j=1,2,...,m;对于矩阵p的每一行元素p
i:
,将其中数值最大的前k个置为1,其余置为0,按上述方法遍历矩阵p的每一行,从而得到邻接矩阵a;k为设定值;步骤2.3、自适应的消息聚合根据集合得到具有m个元素按行拼接组成的矩阵r,r的第i行r
i:
=f
i
;取r
(0)
=r;将矩阵r
(0)
输入到图卷积结构中,在第l层图卷积中,使用高低通自适应选择的滤波结构:其中η
(l)
为第l层图卷积中线性的可学习参数,和定义为:
其中,gnn
(l)
表示图卷积过程;mlp表示多层感知机;θ
(l)
为可学习参数组成的矩阵,为哈达玛积;w
1(l)
、w
2(l)
和w
3(l)
为线性的可学习参数;以如下方式更新r
(l)
:r
(l)
=h
(l-1)
+r
(l-1)
ꢀꢀꢀꢀꢀꢀꢀ
(7)经过最多l层的图卷积结构后,得到优化后的r
(l)
;步骤2.4、视觉关系预测结果根据r
(l)
的每一行,得到一个谓词的分类结果;步骤2.5、模型训练首先采用采集的工业场景图片中的物体标签训练faster r-cnn网络;然后,固定faster r-cnn中的参数;利用谓词的分类结果以及给定的谓词标签,构建损失函数对图卷积结构的可学习参数进行训练;步骤3、对于待检测的图片,采用步骤2.1至2.3的方法获得矩阵r后,输入到训练好的图卷积结构中,得到优化后的r
(l)
;根据r
(l)
的每一行,得到一个谓词的分类结果,由此得到m个结果,组成集合的形式为:根据集合将集合中每一对物体中两个物体分别定义为主体和客体,获得主体客体集合将谓词和对应的主体客体组合可以得到视觉关系从而完成视觉关系预测。2.根据权利要求1所述的一种工业场景下的图卷积视觉关系检测方法,其特征在于,所述步骤2.2中,k的选择方式为:3.根据权利要求1所述的一种工业场景下的图卷积视觉关系检测方法,其特征在于,训练过程采取的是基于adam的随机梯度下降算法。4.根据权利要求1所述的一种工业场景下的图卷积视觉关系检测方法,其特征在于,所述损失函数采用交叉熵函数。

技术总结
本发明提供了一种工业场景数据集下的图卷积视觉关系检测方法,针对视觉关系检测技术在真实的工业场景数据集下缺少应用的问题,建立一个工业场景下的视觉关系检测数据集;整个数据集的构建过程包括相关主题的定义、相关照片的搜集、识别的物体和关系类别的初步筛查、物体和关系的标注、物体和关系类别的最终确定;而针对将具有异构性的图卷积网络引入视觉关系检测领域不充分的问题,设计了一个基于K-最邻近图和自适应滤波的视觉关系检测模型;K-最邻近图用于建立谓词节点的邻接矩阵,自适应滤波的结构采用改进的图卷积形式进行;总体而言,建立一个新的工业场景数据集并设计了一个考虑异构性图卷积的视觉关系检测方法。考虑异构性图卷积的视觉关系检测方法。考虑异构性图卷积的视觉关系检测方法。


技术研发人员:甘明刚 朱轶兵 陈杰 王钢 夏明月 张少卿 马千兆
受保护的技术使用者:北京理工大学
技术研发日:2023.06.14
技术公布日:2023/9/12
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐