一种基于物理可解释特征的视线估计方法
未命名
07-22
阅读:93
评论:0

1.本公开的实施例涉及计算机技术领域,具体涉及一种基于物理可解释特征的视线估计方法。
背景技术:
2.视线是揭示人理解外界环境方式的重要线索。视线估计技术在如人机交互、虚拟现实、增强现实、医学分析等领域得到了诸多应用。近年来,基于卷积神经网络的视线估计技术吸引了诸多关注。其特点在于仅需要单个网络摄像头拍摄用户面部图片,且不需要个人校准即可追踪用户视线方向。尽管基于cnn的视线估计技术在诸多公开数据集上均取得了良好的效果,但由于数据集间、数据集与实际使用场景间的用户外观、光照、成像质量、拍摄角度等等环境因素存在巨大差异,基于cnn的视线估计技术在跨域时精度往往会大幅下降。这一特点限制了基于cnn的视线估计技术在实际场景中的应用,因此,解决这一问题对视线估计技术意义重大。
3.视线估计技术,是指通过拍摄到的用户面部图像,计算用户的视线方向的技术。目前,前沿技术通常使用cnn解决视线估计问题。其中,输入为rgb摄像头拍摄的用户面部图像,输出为一个3维的方向向量,代表相机坐标系中的用户视线方向。
技术实现要素:
4.本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
5.本公开的一些实施例提出了基于物理可解释特征的视线估计方法,来解决以上背景技术部分提到的技术问题中的一项或多项。
6.本公开的一些实施例提供了一种基于物理可解释特征的视线估计方法,该方法能够有效提升视线估计模型的泛化能力,从而提升模型在与训练集不同的其他场景中的视线估计精度(即提升跨域视线估计精度)。本公开的一些实施例包含两个部分,第一个部分是基于物理可解释特征的视线估计,该部分提出了一种新的视线估计方法:首先将卷积神经网络所提取的高维特征,通过降维等可解释的方式进行处理,得到物理可解释特征,上述物理可解释特征是与视线方向的物理定义具有一致特点的三维特征。通过物理可解释特征与物理定义的联系,解析地计算得到视线方向。第二部分是基于物理可解释特征的视线估计模型训练。根据第一部分的新视线估计方法,在训练集上对视线估计模型进行训练,进行训练后的模型,通过第一部分提出的方法进行视线估计,可有效提升模型在其他场景中的视线估计精度。
附图说明
7.结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及
方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
8.图1是根据本公开的基于物理可解释特征的视线估计方法的一些实施例的流程图。
具体实施方式
9.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
10.另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
11.需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
12.需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
13.本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
14.下面将参考附图并结合实施例来详细说明本公开。
15.图1示出了根据本公开的基于物理可解释特征的视线估计方法的一些实施例的流程100。该基于物理可解释特征的视线估计方法,包括以下步骤:
16.步骤101,构造第一卷积神经网络,输入用户面部图片,提取图片特征,并回归拟合得到视线方向的估计值。其中,上述第一卷积神经网络在训练集上进行训练直到收敛。
17.步骤102,由第一卷积神经网络提取的图片特征,通过数据处理算法将图片特征变换为物理可解释特征,通过物理可解释特征,进行视线估计。其中,上述物理可解释特征的满足以下特点:分布于三维空间中,分布于球体表面且对应的球面方向与视线对应的眼球方向具有很高的拓扑一致性。
18.其中,上述物理可解释特征是上述第一卷积神经网络提取的图片特征通过降维算法得到的,近似地分布在三维空间中的球表面上,上述物理可解释特征的偏航角、俯仰角与视线方向真值具有近似的保序性、保角性。
19.实践中,可以将物理可解释特征通过旋转、缩放、平移等简单物理变换、数值映射,直接得到视线方向的估计值。其中,上述旋转、缩放、平移等简单物理变化、数值映射的参数,在训练集上通过最小化视线方向估计值与真值间的误差确定,在应用场景实际使用时,直接采用训练集上确定的参数。根据物理可解释特征的分布位置,拟合球面,使物理可解释特征尽量分布在该球面上,即最小化物理可解释特征到球心的距离与球半径之间的误差。计算得到球心后,以球心为中心对物理可解释特征进行旋转、平移计算。
20.步骤103,基于物理可解释特征的视线估计模型训练,在所训练的第一卷积神经网络的基础上,利用物理可解释特征继续优化第一卷积神经网络。
21.其中,计算损失函数值时,通过物理变化、数值映射等解析算法计算得到的视线方
向的估计值与视线方向真值计算得到损失函数值,并通过梯度反传训练上述第一卷积神经网络。
22.实践中,可以通过构造梯度反传器近似计算上述物理可解释特征,提高网络的训练速度:迭代进行以下步骤直到反传器损失函数小于设定阈值。输入第一卷积神经网络提取的图片特征,通过梯度反传器计算得到输出的物理可解释特征的估计值,计算估计值和构造的物理可解释特征之间的误差,作为反传器损失函数。
23.这里,可以计算所有图片特征的邻接矩阵,并通过邻接矩阵计算图片特征两两之间的测地线距离,在降维时,通过使物理可解释特征之间的欧几里得距离与对应图片特征之间的测地线距离保持相对一致的方式,计算得到物理可解释特征的具体位置。
24.其中,在完成训练后,在实际应用场景中,输入用户人脸图片,采用上述第一卷积神经网络提取图片特征后,不采用回归拟合的方式计算视线方向的估计值,而通过构造上述物理可解释特征与基于物理变换的映射计算得到视线方向的估计值。
25.综上,本公开的一些实施例,
26.第一,基于物理可解释特征的视线估计:首先,采用常规方法在源域上训练一个结构为卷积神经网络的视线估计模型。该类视线估计模型一般通过卷积神经网络,将输入的人脸图片转化为高维的特征向量(比如512维),再通过多层感知机(mlp),将高维特征向量回归得到三维的视线方向。在一种实施方式中,可采用模型结构为resnet18的神经网络,通过l1损失函数进行训练。训练完成后,将视线估计模型提取得到的高维特征向量通过等距特征映射(isometric mapping,简称isomap)算法进行降维,得到三维的物理可解释特征。该部分中,也可采用其他降维方法。得到物理一致的特征后,根据对应样本的视线方向真值,通过物理可解释特征在三维空间中的位置拟合计算得到视线方向的估计值。一种可能的拟合方式如下:首先,根据物理可解释特征的分布位置,寻找一个球,使物理可解释特征尽量分布在球的表面上。然后,以球心为中心对所有物理可解释特征进行旋转。旋转后,计算物理可解释特征相对于该球心的偏航角和俯仰角,再分别对偏航角、俯仰角进行线性映射,即可得到视线方向的估计值gi=(α,β)。计算公式如下:
27.(xi,yi,zi)=r(f
i-oc)。
[0028][0029]
其中,r为旋转矩阵,fi为物理可解释特征,oc为寻找到的球心,(xi,yi,zi)表示视线方向的单位向量。xi,yi,zi为该单位向量在三个轴上的坐标值。arctan表示反正切函数,arcsin表示反正弦函数。k1,k2,b1,b2为线性拟合参数。其中,r仅有三个自由度,因此等价于三个未知数。oc为三维球心,同样为三个未知数,k1,k2,b1,b2线性拟合参数共4个未知数,所有基于物理一致的视线估计步骤中共有10个未知数。这10个未知数,在训练集上,根据大量训练样本的物理可解释特征和对应的视线估计真值,按照上述过程进行拟合得到。
[0030]
第二,基于物理可解释特征的视线估计模型训练:在训练集中,采用上述基于物理一致的视线估计方法,根据输入的人脸图片估计得到视线方向的估计值。根据视线方向的估计值与视线估计真值,计算l1损失函数,并进行梯度反传,训练视线估计模型中的卷积神
经网络。训练完成后,同样通过上述基于物理一致的视线估计方法,根据输入人脸图片,得到视线方向的估计值。
[0031]
为解决上述物理一致的视线估计算法中,isomap算法耗时久,难以梯度反传的问题,另一种可能的实施方式如下:构造一个多层感知机(mlp),称为梯度反传器,通过在训练集上进行训练,对isomap算法进行模拟。梯度反传器的输入为卷积神经网络得到的高维特征向量,输出是三维向量。通过在训练集上进行学习,使梯度反传器的输出接近物理可解释特征。学习完成后,固定梯度反传器内的参数,在物理一致的视线估计模型训练过程中,用梯度反传器替代isomap,从而解决isomap梯度反传困难的问题,对卷积神经网络进行训练。
[0032]
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
技术特征:
1.一种基于物理可解释特征的视线估计方法,包括:构造第一卷积神经网络,输入用户面部图片,提取图片特征,并回归拟合得到视线方向的估计值,其中,所述第一卷积神经网络在训练集上进行训练直到收敛;由所述第一卷积神经网络提取的图片特征,通过数据处理算法将所述图片特征变换为物理可解释特征,通过物理可解释特征,进行视线估计,其中,所述物理可解释特征的满足以下特点:分布于三维空间中,分布于球体表面且对应的球面方向与视线对应的眼球方向具有很高的拓扑一致性;基于物理可解释特征的视线估计模型训练,在所训练的第一卷积神经网络的基础上,利用所述物理可解释特征继续优化第一卷积神经网络。2.根据权利要求1所述的方法,其中,所述物理可解释特征是所述第一卷积神经网络提取的图片特征通过降维算法得到的,近似地分布在三维空间中的球表面上,所述物理可解释特征的偏航角、俯仰角与视线方向真值具有近似的保序性、保角性。3.根据权利要求1所述的方法,其中,所述通过物理可解释特征,进行视线估计,包括:将物理可解释特征通过旋转、缩放、平移等简单物理变换、数值映射,直接得到视线方向的估计值。4.根据权利要求3所述的方法,其中,所述旋转、缩放、平移等简单物理变化、数值映射的参数,在训练集上通过最小化视线方向估计值与真值间的误差确定,在应用场景实际使用时,直接采用训练集上确定的参数。5.根据权利要求1所述的方法,其中,所述在所训练的第一卷积神经网络的基础上,利用所述物理可解释特征继续优化第一卷积神经网络,包括:计算损失函数值时,通过物理变化、数值映射等解析算法计算得到的视线方向的估计值与视线方向真值计算得到损失函数值,并通过梯度反传训练所述第一卷积神经网络。6.根据权利要求1所述的方法,其中,所述方法还包括:通过构造梯度反传器近似计算所述物理可解释特征,提高网络的训练速度:迭代进行以下步骤直到反传器损失函数小于设定阈值;输入第一卷积神经网络提取的图片特征,通过梯度反传器计算得到输出的物理可解释特征的估计值,计算估计值和构造的物理可解释特征之间的误差,作为反传器损失函数。7.根据权利要求1所述的方法,其中,在完成训练后,在实际应用场景中,输入用户人脸图片,采用所述第一卷积神经网络提取图片特征后,不采用回归拟合的方式计算视线方向的估计值,而通过构造所述物理可解释特征与基于物理变换的映射计算得到视线方向的估计值。8.根据权利要求6所述的方法,其中,所述计算所述物理可解释特征,包括:计算所有图片特征的邻接矩阵,并通过邻接矩阵计算图片特征两两之间的测地线距离,在降维时,通过使物理可解释特征之间的欧几里得距离与对应图片特征之间的测地线距离保持相对一致的方式,计算得到物理可解释特征的具体位置。9.根据权利要求3所述的方法,其中,所述将物理可解释特征通过旋转、缩放、平移等简单物理变换、数值映射,直接得到视线方向的估计值,包括:根据物理可解释特征的分布位置,拟合球面,使物理可解释特征尽量分布在该球面上,即最小化物理可解释特征到球心的距离与球半径之间的误差;计算得到球心后,以球心为
中心对物理可解释特征进行旋转、平移计算。
技术总结
本公开的实施例公开了一种基于物理可解释特征的视线估计方法。该方法的一具体实施方式包括:构造第一卷积神经网络,输入用户面部图片,提取图片特征,并回归拟合得到视线方向的估计值;由第一卷积神经网络提取的图片特征,通过数据处理算法将图片特征变换为物理可解释特征,通过物理可解释特征,进行视线估计;基于物理可解释特征的视线估计模型训练,在所训练的第一卷积神经网络的基础上,利用物理可解释特征继续优化第一卷积神经网络。该实施方式可解释地根据卷积神经网络提取的高维特征计算得到视线方向的估计值,并根据该计算方法对视线估计模型进行训练,提升了视线估计模型的泛化能力,提高了在与训练集不同的其他场景中的视线估计精度。中的视线估计精度。中的视线估计精度。
技术研发人员:陆峰 鲍屹伟
受保护的技术使用者:北京航空航天大学
技术研发日:2023.03.16
技术公布日:2023/7/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种锌铁固废处理并联产铁基吸附剂的方法与流程 下一篇:一种水利沟渠清淤器的制作方法