一种基于视觉和语义线索的凝视目标检测方法
未命名
07-12
阅读:76
评论:0

1.本公开的实施例涉及计算机技术领域,具体涉及一种基于视觉和语义线索的凝视目标检测方法。
背景技术:
2.眼神凝视是揭示人类行为的重要因素。传统研究侧重于估计人眼注视的方向。然而,为了调查人类更深层的意图,一个人正在看的位置,即凝视目标是一个更直观的渠道。因此,旨在估计单个(rgb)图像中的每个人在看什么的野外人类注视目标检测已成为计算机视觉领域的一项挑战性任务,并已作为一种有利可图的技术广泛应用于人机交互、社会意识分析和医学研究。
3.广泛的应用场景吸引了众多研究人员探索凝视目标检测任务的解决方案。然而,由于人类注视目标问题的模糊性和缺乏严格的标记数据集,现有的卷积方法结合了注视估计的结果和图像的视觉显著性信息,不能提供令人满意的结果。
4.最近的工作引入3d深度作为计算注视目标的附加信息。尽管已经实现了先进的性能,但仍然存在诸如低分辨率或被遮挡的人脸和高模糊场景等故障情况。总之,人类注视目标检测的研究现状受到信息缺乏和问题本身的模糊性的高度限制。
技术实现要素:
5.本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
6.本公开的一些实施例提出了基于视觉和语义线索的凝视目标检测方法,来解决以上背景技术部分提到的技术问题中的一项或多项。
7.本公开提出了一种从粗到细的凝视目标检测方法,通过合并视野(fov)、显著性和语义线索,从单个rgb图像中检测凝视目标。
8.本公开的基于视觉和语义线索的凝视目标检测方法由3个模块组成:1)fov预测模块首先根据人类面部可见性使用不同策略预测人类注视方向,然后推断高概率目标区域,并生成包含fov线索的加权fov图。2)显著性检测模块首先提取加权fov图中的特征,然后使用编码器-解码器生成fov引导的显著性图,合并fov线索和显著性线索。3)语义对象检测模块检测人类感兴趣的对象,然后生成每个目标区域的对象候选图,其中包含语义线索的权重分布良好。最后,方法通过组合fov引导的显著性图和对象候选图来推断准确的注视目标。
附图说明
9.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理
解附图是示意性的,元件和元素不一定按照比例绘制。
10.图1是根据本公开的基于视觉和语义线索的凝视目标检测方法的一些实施例的流程图;
11.图2是根据本公开的基于视觉和语义线索的凝视目标检测方法的一些实施例的总流程图;
12.图3是根据本公开的基于视觉和语义线索的凝视目标检测方法的一些实施例的多人凝视估计的流程图
具体实施方式
13.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
14.另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
15.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
16.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
17.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
18.下面将参考附图并结合实施例来详细说明本公开。
19.图1示出了根据本公开的基于视觉和语义线索的凝视目标检测方法的一些实施例的流程100。该基于视觉和语义线索的凝视目标检测方法,包括以下步骤:
20.步骤101,输入一张包含单人或多人场景的rgb图像,将rgb图像缩放到特定尺寸,得到缩放后完整图像。
21.步骤102,将缩放后完整图像输入到多人凝视估计模块,根据指定人的面部清晰度,使用不同策略估计出指定人的凝视方向。
22.步骤103,将指定人在图像中的位置和指定人的凝视方向输入视野预测模块,得到指定人的在缩放后完整图像中的高概率凝视区域,并生成高概率凝视区域内的包含凝视方向线索的加权视野图。
23.步骤104,将指定人的高概率凝视区域和高概率凝视区域对应的加权视野图输入场景显著性检测网络。其中,上述场景显著性检测网络通过特征提取器提取凝视区域中的图像特征,使用编码器-解码器生成视野引导的显著性图。
24.步骤105,将缩放后完整图像输入目标检测器,检测图像中所有活动相关对象,结合高概率凝视区域,生成高概率凝视区域内的候选对象注意力图。
25.步骤106,将高概率凝视区域对应的显著性图和候选对象注意力图相乘得到凝视目标热图。其中,上述凝视目标热图中的热力值最大的点即为推断的凝视目标。
26.参考图2,遵循人类的注视目标估计策略,本公开的方法将fov、显著性和语义三个
方面的线索合并,最终定位注视目标。方法由三个模块组成:fov预测模块、显著性检测模块和语义对象检测模块。如果面部清晰可检测,则fov预测模块使用多人注视估计器预测图像中每个人的注视方向,如果不清晰,则使用多人姿势估计器进行伪注视估计。每个路径裁剪每个人的视野,并生成加权fov,这不仅表示fov中沿注视方向的锥形权重,还指示目标区域,该区域是包含fov的最小矩形区域。显著性检测模块包含通过监督学习训练的编码器-解码器,以预测加权fov的显著性图。语义对象检测模块首先检测输入图像中的所有活动相关对象,然后包括加权fov以生成每个人的对象候选图。最后,方法结合fov引导的显著性图和对象候选图,对注视目标进行最终预测。
27.fov预测模块旨在估计输入图像中每个人的加权fov。该模块可分为两个阶段:凝视估计和加权视野图生成。
28.fov预测模块的第一个阶段是注视估计,在这个阶段,我模块预测输入图像中每个人的注视。为了实现高效和鲁棒的多人注视估计,使用多人凝视估计器来估计预测的注视,多人姿势估计器来估计伪注视,然后根据检测到的人脸可见性使用适当的注视输出来处理不同的人脸可见性场景。
29.设计并训练一个单阶段多人3d凝视估计网络,该网络能够同时估计每个人的3d凝视。如图3所示,凝视估计器由resnet-50主干和三层特征金字塔组成,分别实现了从全图像中提取特征和多尺度特征融合。随后是上下文模块,以扩大网络的接受域。然后,多任务下游头部接收特征并输出三个元素:头部位置头部输出检测到的人类头部的边界框,面部可见性头部输出检测的每个面部的置信度分数3d凝视头部输出每个人的3d凝视(偏航和俯仰)。然后在2d图像空间中投影3d注视以获得2d预测注视yg:
[0030][0031]
其中,r是头部边界框的一半宽度,θ,是3d凝视的俯仰和偏航分量。
[0032]
多人姿态估计器旨在通过人体解剖关键点之间的位置关系,对低能见度下的人脸(例如,背部模糊或模糊的人脸)的人类注视方向进行近似预测。多人姿态估计器能够同时估计整个图像中每个人的关键点。姿态估计器预测人类耳朵和鼻子的2d位置,然后通过从耳朵中点到鼻子的矢量来近似人类2d伪注视yh:
[0033][0034]
其中,(xn,yn)是鼻子的坐标,(x
el
,y
el
)和(x
er
,y
er
)是左耳和右耳的坐标。
[0035]
凝视估计器的人脸可见性头部回归的置信度表示3d凝视估计的真实正确可能性,具体而言,与人脸的可见性相关。其中较高的置信度表示估计的注视更可靠,对应于具有更清晰面部特征的面部,而较低的置信度则表示无法清楚地检测到面部,即估计的注视不可靠,对应模糊、向后或模糊的面部。将的阈值设置为0.5,并且在以下过程中,当时使用的2d注视方向g将是凝视估计器生成的yg,当时使用姿态估计器生成的伪注视yh。
[0036]
fov预测模块的第二阶段旨在将注意力集中在fov线索上。在选择了2d注视方向的情况下,模块首先界定几乎肯定包含注视目标的目标区域,然后在fov中生成有助于在注视方向上俯仰物体的锥形权重。
[0037]
给定一个人的头部边界框,他/她的视野在图像中是沿着从他/她的头部中心估计
的2d注视方向g形成的扇区。该扇区的两个边缘是他/她的视野的上边界向量g0和下边界向量g1。分别计算这两个边界向量与图像边界交点的坐标。凝视区域是完整图像中包含完整fov的最小矩形(平行于图像边缘)区域,假设p是边缘与图像边缘平行的矩形区域集合,q是两个交点和头部边界框的四个点的并集,则目标区域tr可以定义为:
[0038][0039]
然后,确定fov的上/下边界向量与2d注视方向g之间的半角ε。从gazefollow数据集中采样了10%的训练集,以测试估计的2d注视方向的平均角误差。由于这些样本中的平均角差为11.6
°
,将12
°
作为目标区域的半角ε的初始值,并通过每次向ε加1
°
来计算相应的两个边界向量:
[0040]
ε∈{12
°
,13
°
,14
°
,...,180
°
}。
[0041]
显然,位于目标区域内的凝视目标的比例与ε的选择呈正相关。ε
‑‑
20时,比例达到99.3%并且之后难以改进。因此,将半角差ε确定为20
°
,以计算目标区域。
[0042]
锥形权重为了进一步利用fov线索,在目标区域中使用了锥形权重生成器。将生成的加权fov图表示为av和目标区域中的任何点(i,j),首先,计算从头部中心到(i,i)的矢量与估计的2d注视方向g之间的角度ε。由于注视目标更可信地位于g的相邻区域,将较大的权重分配给ε较小的点,将较小的权重分配到ε较大的点。此外,为了提高模块的鲁棒性,引入了fov外的偏移。因此,加权fov图被设计为连续的,与fov中的半角ε成负比例,并且在fov外具有正偏移。加权fov图可以表示为:
[0043][0044]
其中,ε表示凝视区域内任意点与视线方向之间的夹角,ε∈[0,180
°
]。av表示加权视野图。α表示所有点的权重系数。β表示权重偏移。(i,j)表示加权视野图中的点的坐标。考虑到凝视估计器在图像中凝视者的头部特征不够清晰(即)时,在2d凝视方向的估计中可能会获得较大的误差。为了在这种情况下不错过凝视目标,将所有ε>20
°
位于fov之外的点的权重偏移设为b=0.5。由于fov的半角差被确定为ε=20
°
在所提出的模块中,边界处的连续性α设置为4.5。加权fov图生成合并了fov线索,实现了分布良好的锥形权重,并确保真实注视目标不会落在目标区域之外。
[0045]
通过显著性检测模块来合并fov线索和显著性线索。在这个阶段,缝合包含rgb信息的目标区域和单独生成的每个人的加权fov图作为输入,通过resnet主干进行特征提取,然后通过编码器-解码器回归每个人的fov引导显著性图。本模块通过监督学习进行培训。显著性图回归损失函数l计算fov引导的显著性图h
*
之间的误差以及由真实注释使用均方误差损失生成的热图h:
[0046]
l=mse(h
*
,h)。
[0047]
其中,mse()表示均方误差损失函数,h
*
表示显著性图,h表示热图。
[0048]
语义对象检测模块是一个两步框架。首先,该模块利用完整图像中的语义线索来检测与活动相关的对象。在第二阶段,该模块使用均匀分布的高斯权重在每个目标区域中生成对象候选图,这缩小了不同尺度对象之间的视觉显著性差距。
[0049]
活动相关对象检测在coco数据集中的所有80个注释类中选择运动球、飞盘、手机、
相机、电视、刀、风筝、蛋糕和书,并根据常见人类活动(例如,球类运动、家庭聚会、厨房烹饪等)的先验知识,将检测到的人脸作为总共10个类作为人类活动相关对象。然后,训练retinanet以检测完整图像中coco数据集中所选类的所有对象。
[0050]
在每个目标区域中生成对象候选图。高斯权重分布到其边界框与目标区域相交的对象。在与目标区域相交的所有对象的中心周围放置高斯权重,以生成对象候选图(边界框的所有位置都转换为目标区域坐标)。考虑到物体的尺度差异导致的视觉显著性差距,使用了一种新的权重分配策略,以消除大规模目标视觉显著性的负面影响:
[0051][0052]
其中,n是凝视区域内检测到的目标数量。ao表示候选对象注意力图。(i,j)表示候选对象注意力图中的点的坐标。β表示权重偏移。gaussk是第k个检测目标的高斯分布,高斯分布的峰值为:
[0053][0054]
其中,lk是第k个检测目标的短边长度。
[0055]
最后,将该对象候选图与显著性检测模块输出的fov引导的场景显著性图相乘,作为注视目标检测的最终结果。
[0056]
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
技术特征:
1.一种基于视觉和语义线索的凝视目标检测方法,包括:输入一张包含单人或多人场景的rgb图像,将rgb图像缩放到特定尺寸,得到缩放后完整图像;将缩放后完整图像输入到多人凝视估计模块,根据指定人的面部清晰度,使用不同策略估计出指定人的凝视方向;将指定人在图像中的位置和指定人的凝视方向输入视野预测模块,得到指定人的在缩放后完整图像中的高概率凝视区域,并生成高概率凝视区域内的包含凝视方向线索的加权视野图;将指定人的高概率凝视区域和高概率凝视区域对应的加权视野图输入场景显著性检测网络,其中,所述场景显著性检测网络通过特征提取器提取凝视区域中的图像特征,使用编码器-解码器生成视野引导的显著性图;将缩放后完整图像输入目标检测器,检测图像中所有活动相关对象,结合高概率凝视区域,生成高概率凝视区域内的候选对象注意力图;将高概率凝视区域对应的显著性图和候选对象注意力图相乘得到凝视目标热图,其中,所述凝视目标热图中的热力值最大的点即为推断的凝视目标。2.根据权利要求1所述的方法,其中,针对自然场景下的凝视目标检测问题,由粗到精对凝视目标进行检测,通过合并视野、显著性和语义线索,从单个rgb图像中检测凝视目标。3.根据权利要求1所述的方法,其中,针对自然场景下的人脸特征可见性,使用不同策略预测人类凝视方向,具体来说,当人脸特征清晰可检测时,直接从面部特征估计凝视方向;当人脸存在背对、模糊、低分辨率或被遮挡的情况时,根据人体关键点之间的位置关系,估计出鼻子和耳朵的位置,确定出从双耳中点到鼻子的向量方向,将双耳中点到鼻子的向量方向作为伪注视。4.根据权利要求1所述的方法,其中,根据人类视觉系统的生物学特征,在视野预测模块中,将rgb图像中的指定人在3d空间中的视野建模成一个从指定人的眼部位置出发的圆锥,将圆锥在2d图像平面内进行投影得到指定人在rgb图像中的2d视野,根据凝视方向对2d视野内所有点分配权重,生成指定人的凝视区域内的加权视野图:其中,ε表示凝视区域内任意点与视线方向之间的夹角,a
v
表示加权视野图,α表示所有点的权重系数,β表示权重偏移,(i,j)表示加权视野图中的点的坐标。5.根据权利要求1所述的方法,其中,结合人类常见活动的先验知识,通过目标检测器检测输入的rgb图像中常见活动相关且尺寸较小的目标,忽略尺寸较大的目标。6.根据权利要求1所述方法,其中,所述将缩放后完整图像输入目标检测器,检测图像中所有活动相关对象,结合高概率凝视区域,生成高概率凝视区域内的候选对象注意力图,包括:在将缩放后完整图像输入目标检测器,检测图像中所有活动相关对象之后,结合指定人的凝视区域,在凝视区域内检测到的所有目标的中心点周围放置自适应的高斯权重,生成凝视区域的候选对象注意力图:
其中,n是凝视区域内检测到的目标数量,a
o
表示候选对象注意力图,(i,j)表示候选对象注意力图中的点的坐标,β表示权重偏移,gauss
k
是第k个检测目标的高斯分布,高斯分布的峰值为:其中,lk是第k个检测目标的短边长度。
技术总结
本公开的实施例公开了一种基于视觉和语义线索的凝视目标检测方法。该方法的一具体实施方式包括:输入一张包含单人或多人场景的RGB图像,将RGB图像缩放到特定尺寸;将缩放后完整图像输入到多人凝视估计模块,根据指定人的面部清晰度,使用不同策略估计出指定人的凝视方向;将指定人在图像中的位置和指定人的凝视方向输入视野预测模块,并生成高概率凝视区域内的包含凝视方向线索的加权视野图;将指定人的高概率凝视区域和高概率凝视区域对应的加权视野图输入场景显著性检测网络;将高概率凝视区域对应的显著性图和候选对象注意力图相乘得到凝视目标热图。该实施方式通过组合FOV引导的显著性图和对象候选图准确的推断出注视目标。注视目标。注视目标。
技术研发人员:陆峰 杨耀坤
受保护的技术使用者:北京航空航天大学
技术研发日:2023.02.22
技术公布日:2023/7/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种多信息融合的泡沫施肥装置 下一篇:半导体器件的填充单元区域及其形成方法与流程