人手图像合成方法、装置、电子设备及存储介质

未命名 09-17 阅读:60 评论:0
1.本技术属于人工智能
技术领域
:,更具体地,涉及一种人手图像合成方法、装置、电子设备及存储介质。
背景技术
::2.合成可驱动化身的逼真图像是计算机视觉和图形学新兴应用的核心任务,而人手是人体的重要交互部件,因此精细化重建及驱动逼真的人手模型有极大价值。3.人手和人体其他部分(面部、头部和身体)之间存在较大的特性差异,例如,人手是高度铰接,存在严重的自我遮挡和接触,因此,尽管人体其他部分(如面部、身体)的三维重建取得了巨大成功,但人手图像合成的探索仍然很少,虽然也有一些人手图像合成的尝试,但相关技术要么不能执行手部驱动(不能动画生成新姿态),要么在手部区域产生模糊像素,渲染的人手合成图像不够逼真。4.由上可见,现有技术中存在人手图像合成方法不能驱动生成新姿态、以及难以渲染逼真的手部图像的问题。技术实现要素:5.针对相关技术的缺陷,本技术提供一种人手图像合成方法、装置、电子设备及存储介质,旨在解决相关技术中存在的人手图像合成方法不能驱动生成新姿态、以及难以渲染逼真的手部图像的问题。6.所述技术方案如下:7.根据本技术的一个方面,一种人手图像合成方法,所述方法包括:获取人手图像序列,所述人手图像序列包括多帧人手图像,每帧所述人手图像是针对人手进行不同视角的拍摄得到的;计算各帧所述人手图像的姿态参数和形状参数,并根据所述姿态参数和形状参数通过参数化网格模型估计所述人手的三维网格;基于所述人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到所述人手在各所述人手图像中的体积表达分布;根据所述人手在各所述人手图像中的体积表达分布进行图像渲染,得到所述人手的合成图像。8.根据本技术的一个方面,一种人手图像合成装置,包括:图像序列获取模块,用于获取人手图像序列,所述人手图像序列包括多帧人手图像,每帧所述人手图像是针对人手进行不同视角的拍摄得到的;参数计算模块,用于计算各帧所述人手图像的姿态参数和形状参数,并根据所述姿态参数和形状参数通过参数化网格模型估计所述人手的三维网格;对齐模块,用于基于所述人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到所述人手在各所述人手图像中的体积表达分布;渲染模块,用于根据所述人手在各所述人手图像中的体积表达分布进行图像渲染,得到所述人手的合成图像。9.在一示例性实施例中,所述对齐模块包括:顶点对齐单元,用于利用图卷积网络,对所述人手的所述三维网络中的各所述顶点进行对齐,得到各所述顶点的顶点对齐特征;主元表达估计单元,用于针对各所述顶点对应的所述面片,根据所述面片所对应顶点的所述顶点对齐特征对所述面片的体积主元表达进行估计,得到各所述面片的面片对齐特征;变换单元,用于根据各所述面片的所述面片对齐特征,将各所述面片的所述体积主元表达变换至三维网格面片表面,得到所述人手在各所述人手图像中的体积表达分布。10.在一示例性实施例中,所述顶点对齐单元包括:坐标局部化子单元,用于将所述三维网格的顶点局部化,得到所述三维网格的局部化顶点;隐变量计算子单元,用于通过嵌入层计算得到所述三维网格的每个所述顶点的可学习隐变量;旋转角计算子单元,用于基于各帧所述人手图像的所述姿态参数,计算各所述顶点所属关节点相对于父节点的旋转角;第一拼接子单元,用于将所述三维网格的所述局部化顶点、每个所述顶点的所述可学习隐变量、每个所述顶点所属关节点相对于父节点的所述旋转角、以及所述姿态参数进行拼接,得到各顶点的输入特征向量;顶点对齐特征获取子单元,用于将各顶点的所述输入特征向量输入所述图卷积网络,得到各顶点的所述顶点对齐特征。11.在一示例性实施例中,所述顶点对齐特征获取子单元包括:身份编码子单元,用于根据所述人手所属的身份对所述人手进行身份特征编码,得到所述人手的身份特征编码;第二拼接子单元,用于在通过所述图卷积网络对各顶点的输入特征向量进行顶点对齐的过程中,将所述人手的身份特征编码嵌入所述图卷积网络的中间层,得到各顶点的所述顶点对齐特征。12.在一示例性实施例中,所述主元表达估计单元包括:特征估计子单元,用于将所述面片所对应顶点的顶点对齐特征,分别输入颜色分支多层感知机、密度分支多层感知机、运动分支多层感知机进行所述面片的颜色特征、密度特征、运动特征的估计;特征融合子单元,用于将估计得到的颜色特征、密度特征、运动特征进行特征融合,得到各所述面片的面片对齐特征。13.在一示例性实施例中,所述渲染模块包括:像素值计算单元,用于根据所述人手在各所述人手图像中的体积表达分布,通过可微分神经渲染方程,计算渲染视角下所述合成图像每个像素位置的像素值,生成所述人手的合成图像。14.在一示例性实施例中,所述人手图像合成是通过合成图像模型实现的;所述合成图像模型是经过训练的神经网络模型;所述合成图像模型的训练过程,包括:获取训练图像;基于所述训练图像计算设定损失函数的损失值;所述设定损失函数至少包括以下一种:用于优化图卷积网络参数的图片重建自监督损失函数、用于优化特征融合参数的几何重建损失函数和用于优化身份隐编码参数的隐变量正则化约束损失函数;若损失值满足收敛条件,则由所述神经网络模型训练得到合成图像模型;否则,优化所述神经网络模型的参数;所述参数至少包括图卷积网络参数、特征融合参数、身份隐编码参数15.根据本技术的一个方面,一种电子设备,包括至少一个处理器以及至少一个存储器,其中,所述存储器上存储有程序指令或代码;所述程序指令或代码被所述处理器加载并执行,使得电子设备实现如上所述的人手图像合成方法。16.根据本技术的一个方面,一种存储介质,其上存储有程序指令或代码,所述程序指令或代码被处理器加载并执行,以实现如如上所述的人手图像合成方法。17.根据本技术的一个方面,一种应用程序产品,应用程序产品包括程序指令或代码,程序指令或代码存储在存储介质中,电子设备的处理器从存储介质读取程序指令或代码,加载并执行该程序指令或代码,使得电子设备实现如上所述的人手图像合成方法。18.本技术具有如下有益效果:19.在上述技术方案,根据获取的人手图像序列计算相应的姿态参数和形状参数,并且基于姿态参数和形状参数,利用参数化网格模型生成人手的三维网格,根据三维网格估计出体积表达分布,再利用该体积表达分布渲染人手的合成图像。也就是说,将体积主元与参数化网格模型(例如mano)相结合,可以表示人手的高频纹理特征,进而可以实现高质量的的渲染重建;依靠刚性网格驱动生成新的姿势,体积主元可以实现保真渲染,因此,本技术提供的人手图像合成方法,可以驱动生成新姿态,渲染出的人手合成图像具有高保真度、清晰逼真的特点。附图说明20.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。21.图1是本技术实施例提供的一种人手图像合成方法的实施环境的示意图;22.图2是根据一示例性实施例提供的一种人手图像合成方法的流程图;23.图3是根据一示例性实施例中由多视角的人手图像预测姿态参数、形状参数的示意图;24.图4是图2对应实施例中步骤220在一个实施例的流程图;25.图5是图4对应实施例中步骤400在一个实施例的流程图;26.图6是图5对应实施例中步骤580在一个实施例的流程图;27.图7是根据一示例性实施例中合成图像模型的训练过程的流程图;28.图8是一应用场景中一种人手图像合成方法的具体实现示意图;29.图9是使用本技术方法生成的人手合成图像、以及对照组图像和真实值图像的示意图;30.图10是根据一示例性实施例示出的一种人手图像合成装置的结构框图;31.图11是根据一示例性实施例示出的一种服务器的硬件结构图;32.图12是根据一示例性实施例示出的一种电子设备的结构框图。具体实施方式33.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。此外,下面所描述的本技术各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。34.本
技术领域
:技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。35.在对本技术所示的各个实施例进行说明之前,首先对本技术涉及到的几个概念进行介绍。36.面片网格(mesh):由多个几何顶点组成的多边形网格,是计算机图形学中用于各种不规律物体建模的一种数据结构,包括面片和顶点,可以模拟复杂物体的表面,但无法描述复杂物体的内部信息。在多边形网格的面片中三角面片是被分割的最小单位,且表示比较简单、灵活并且拓扑描述方便,所以被广泛使用,所以mesh常常指代三角面片。37.图卷积网络(graphconvolutionalnetworks,gcn):在面片网格mesh相邻顶点间传递信息的过程,经过图卷积操作后,每个几何顶点都有了其相邻顶点的信息。38.参数化网格模型:通过定义一组低维向量(例如形状参数、姿态参数),即可描述重建的模型。参数化网格模型用于参数化重建,例如人体三维重建、人手三维重建等等。39.体积主元:也叫体素(立体像素/体积像素),类似二维空间中图像的最小单位—像素,体积主元则是三维空间的最小单位,可以理解是立方块。40.体积表达分布:也叫体素网格,是基于固定大小的立方块(体积主元)作为最小单元,来表示三维物体的一种数据结构。41.如前所述,现有技术中存在人手图像合成方法不能驱动生成新姿态、以及难以渲染逼真的手部图像的问题。42.不同于人体其他部位(如人脸、四肢身体),人手是高度铰接的,复杂的手部运动给神经渲染带来了困难。首先,手部几何形状的变形很难建模,具体而言,在处理大而复杂的人手变形(例如,自接触)时,以前基于蒙皮的方法很难找到准确的蒙皮权重,而部分感知方法通常会遇到跨部分不一致的问题;其次,由于高度铰接的结构,手部纹理很难建模,例如,铰接式手部运动会导致严重的自我遮挡,因此不同的手部姿态会导致照明和阴影模式的明显变化,照明对于逼真渲染很重要,但目前没有估计由铰接式自遮挡引起的照明的研究。43.目前,为动画化身建模的经典方法是利用基于网格的模型,例如,将人手表示为装配好的网格并通过蒙皮执行动画,但网格都侧重于形状表示,由于网格分辨率有限或无法获得高清纹理贴图,因此不适合逼真渲染,以通常用来表示人手不同的姿态及形状变化的参数化人手网格模型(mano)为例,mano只可以表示778个顶点及1538个面片,其表达能力极其有限。44.其次,网格具有不连续性和不可更改的拓扑结构的缺点,为了解决这个问题,最近的研究倾向于探索隐式人体表达,它具有灵活性和连续性的优点。然而,与显式网格相比,隐式几何在自由姿态驱动方面表现不佳,因此隐式人体几何的铰接驱动被广泛研究。有的使用了线性混合蒙皮和逆蒙皮权重将姿态空间查询转换回规范空间,但反向蒙皮范例无法处理自接触,并且其中查询可以匹配多个规范空间点,容易引起歧义性的问题。除此之外,前向蒙皮变形被设计为使用迭代寻根方法将规范空间点转换为姿态空间,但迭代优化算法可能会损害端到端的网络训练。总的来说,每个骨骼的刚性变换可以组成一个大的运动空间,难以为任意3d点查询优化准确的蒙皮权重。这给准确的人手姿态驱动带来了很大的问题。45.由上可知,现有技术中渲染的人手合成图像缺少纹理细节、不够清晰逼真、图像质量低,不能驱动生成新姿态。46.为此,本技术提供的人手图像合成方法,可以驱动生成新姿态,可渲染出高保真度、清晰逼真的人手合成图像,相应地,该人手图像合成方法适用于人手图像合成装置,该人手图像合成装置可部署于电子设备,例如,该电子设备可以是配置冯诺依曼体系结构的计算机设备,该计算机设备包括但不限于台式电脑、笔记本电脑、服务器等等。47.请参阅图1,其示出了一种人手图像合成方法所涉及的实施环境的示意图。需要说明的是,该种实施环境只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。48.如图1所示,该实施环境包括采集端110和服务端130。49.具体地,采集端110,也可以认为是图像采集设备,包括但不限于摄像头、相机、摄录机等具有拍摄功能的电子设备。例如,采集端110为具有拍摄功能的智能手机。50.服务端130,该服务端130可以是台式电脑、笔记本电脑、服务器等等电子设备,还可以是由多台服务器构成的计算机集群,甚至是由多台服务器构成的云计算中心。其中,服务端130用于提供后台服务,例如,后台服务包括但不限于人手图像合成等等。51.服务端130与采集端110之间通过有线或者无线等方式预先建立网络通信连接,并通过该网络通信连接实现服务端130与采集端110之间的数据传输。传输的数据包括但不限于:多视角的人手图像、由体积表达分布渲染得到的人手合成图像等等。52.在一应用场景中,通过采集端110与服务端130的交互,采集端110针对不同身份的人手拍摄并采集得到多视角的人手图像,并将该多视角的人手图像上传至服务端130,以请求服务端130进行人手图像合成。53.对于服务端130而言,在接收到采集端110上传的多视角的人手图像之后,便进行人手图像合成,得到体积表达分布(立体人手模型),并且将体积表达分布渲染为人手合成图像,基于参数化网格模型的体积表达分布可以驱动生成新姿态、以及任意视角,即可以渲染出任意姿态和/或任意视角的人手合成图像,并且该人手合成图像具有高保真度,以此来解决相关技术中存在的人手图像合成方法不能驱动生成新姿态、以及生成的人手图像不够逼真的问题。54.请参阅图2,本技术实施例提供了一种人手图像合成方法,该方法适用于电子设备,该电子设备可以是图1所示出实施环境中的服务端130。55.在下述方法实施例中,为了便于描述,以该方法各步骤的执行主体为电子设备为例进行说明,但是并非对此构成具体限定。56.如图2所示,该方法可以包括以下步骤:57.步骤200,获取人手图像序列。58.人手图像序列包括多帧人手图像,每帧人手图像是针对人手进行不同视角的拍摄得到的。59.视角是指相机拍摄视角,可选地,人手图像序列包括4~10个不同视角的人手图像,且相机视角之间重合度不应超过50%。60.相机参数包括相机内外参数,相机内参数是与相机自身特性相关的参数,比如相机的焦距、像素大小等;相机外参数是在世界坐标系中的参数,比如相机的位置、旋转方向等。61.步骤210,计算各帧人手图像的姿态参数和形状参数,并根据姿态参数和形状参数,利用参数化网格模型估计人手的三维网格。62.其中,姿态参数和形状参数用于控制人手形状和姿态的变化,是生成三维网格的依据。63.参数化网格模型包括人体模型smpl、人手三角面片网格模型mano以及scape等等,此处并非构成具体限定。以mano为例,mano是用于人手重建的参数化网格模型,人手可以理解为是一个基础模型和在该模型基础上进行形变的总和,在形变基础上进行pca(principalcomponentanalysis,主成分分析),得到刻画形状的低维参数—形状参数(shape);同时,使用运动树表示人手的姿态,即运动树每个关节点和父节点的旋转关系,该关系可以表示为三维向量,最终每个关节点的局部旋转向量构成了mano模型的姿态参数(pose),其中的姿态参数有48个参数,表示16个关节点的旋转角度,形状参数有10个参数表示人手指的长短粗细的比例;总的来说,mano模型中,通过各个参数的合理组合就可以控制人手形状和姿态的变化。64.在一种可能的实现方式,将各帧人手图像送入参数化网格模型,预测得到姿态参数、形状参数,再由姿态参数、形状参数生成人手三维网格。以mano为例,基于各帧人手图像送入参数化网格模型,便能够预测得到mano参数化网格模型所需的参数,包括但不限于10个形状参数以及48个姿态参数,进而基于该些参数生成mano人手三维网格。65.如图3所示,其示出了由多视角的人手图像预测姿态参数、形状参数的示意图。66.步骤220,基于人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到人手在各人手图像中的体积表达分布。67.在一种可能的实现方式,如图4所示,步骤220包括以下步骤:68.步骤400,利用图卷积网络,对人手的三维网络中的各顶点进行对齐,得到各顶点的顶点对齐特征。69.在一种可能的实现方式,将三维网格的各顶点相关的特征按照三维网格各顶点的序号进行拼接,得到该顶点对齐特征。其中,各顶点相关的特征包括但不限于:三维网格的局部化顶点、各顶点的可学习隐变量、各顶点所属关节点相对于父节点的旋转角等。70.步骤420,针对各顶点对应的面片,根据面片所对应顶点的顶点对齐特征对面片的体积主元表达进行估计,得到各面片的面片对齐特征。71.其中,面片的面片对齐特征用于表征面片的颜色特征、密度特征、运动特征。72.在一种可能的实现方式,将各面片所对应顶点的顶点对齐特征输入特征融合分支网络,得到各面片的面片对齐特征。其中,特征融合分支网络包括多个分支多层感知机。具体地,将面片所对应顶点的顶点对齐特征,分别输入颜色分支多层感知机、密度分支多层感知机、运动分支多层感知机进行面片的颜色特征、密度特征、运动特征的估计;将估计得到的颜色特征、密度特征、运动特征进行特征融合,得到各面片的面片对齐特征73.步骤440,根据各面片的面片对齐特征,将各面片的体积主元表达变换至三维网格面片表面,得到人手在各人手图像中的体积表达分布。74.如前所述,面片的面片对齐特征用于表征面片的颜色、密度以及运动等的特征,基于此,将这些特征分别按照设定的主元体积大小变形为立体体积表达,便能够得到面片的体积主元表达。75.应当说明的是,体积主元的体积不应太大,太大会影响模型训练收敛速度及渲染速度,例如,体积主元的体积可以是2×2×2或8×8×8,其中4×4×4在收敛速度和模型精度上平衡最佳。76.在一种可能的实现方式,通过变换矩阵将各面片的体积主元表达变换至三维网格面片表面,便能够得到人手在各人手图像中的体积表达分布。77.可选地,变换矩阵可以是tbn矩阵。该变换矩阵的计算方法如下:根据人手三维网格的uv展开图,基于面片对齐的采样策略,计算得到每个面片中心点的变换矩阵。78.在此说明的是,发明人意识到,人手三维网格的uv展开图(2d)具有面片分布不均匀、语义不连续的特点,因此,uv展开图上欧式距离相近的面片语义并不一定一致,而且uv展开图有很大一部分无效区域,这会给2d解码器带来歧义性问题。因此,本实施例采用面片对齐的采样策略,将解码的体积主元与三维网格的面片对齐,从而能够避免uv图引入的语义歧义性的本征问题。79.补充说明的是,本技术利用图卷积神经网络对几何拓扑特征敏感性将uv(2d)对齐的解码问题转移到3d几何对齐的解码问题上,从而融合了3d几何信息作为网络表达的先验;倘若使用2d编解码器直接学习人手的uv对齐的体积主元表达,将无法在新姿态驱动下得到合理的结果,这本质上是2d卷积神经网络对于语义不连续的uv展开图的建模能力有限导致的,因此用常规的2d卷积模型进行常规训练无法达到预期效果。80.步骤230,根据人手在各人手图像中的体积表达分布进行图像渲染,得到人手的合成图像。81.应当理解,人手在各人手图像中的体积表达分布是指人手的三维立体模型,那么,基于该体积表达分布进行的图像渲染,实质是将三维立体模型渲染到图像二维空间,从而得到人手的合成图像。82.在一种可能的实现方式,步骤230可以包括如下步骤:根据人手在各人手图像中的体积表达分布,通过可微分神经渲染方程,计算渲染视角下合成图像每个像素位置的像素值,生成人手的合成图像。83.具体而言,可以通过积分方程累积相机射线上的密度体积分布和颜色体积分布,得到每个像素位置的像素值。其中,相机射线是基于相机参数计算得到的,可能的,通过如下格式计算相机射线:rp(t)=op+tdp,其中开始位置为op,光线方向为dp。84.对于图像的每一个像素,可微分体积渲染器通过积分方程累积相机射线上的体积密度和颜色,得到像素颜色。在一种可能的实现方式,通过数值积分来计算像素近似值,例如通过如下公式计算位置p处的像素近似值:[0085][0086]其中vcol和vα分别为密度体积分布和颜色体积分布。[0087]遍历所有像素点位置,便能够渲染得到特定形状和姿态的人手合成图像。[0088]通过上述过程,将体积主元与参数化网格模型(例如mano)相结合,可以表示人手的高频纹理特征,进而可以实现高质量的的渲染重建;依靠刚性网格驱动生成新的姿势,体积主元可以实现保真渲染,本技术提供的人手图像合成方法,可以驱动生成新姿态,渲染出的人手合成图像具有高保真度、清晰逼真的特点。[0089]请参阅图5,在一示例性实施例,步骤400可以包括以下步骤:[0090]步骤500,将三维网格的顶点局部化,得到三维网格的局部化顶点。[0091]其中,三维网格的各顶点是通过坐标进行唯一表示的,相应地,局部化顶点也是通过坐标进行唯一表示的,由此,顶点局部化实质是顶点坐标的局部化。[0092]以人手三维网格为人手三角面片网格(mano)为例,对于每帧人手三维网格,通过将人手三维网格顶点经过逆线性蒙皮操作变换至标准姿态mano模版下,得到规范化后的顶点全局坐标;对于人手三维网格的每个顶点全局坐标,将其减去顶点所属关节点的顶点坐标,即得到以其所属关节点为坐标系的局部化后的顶点坐标。[0093]局部化后的顶点坐标计算公式如下:[0094][0095]其中,j(β)j表示第i个顶点所属的第j个骨骼的父节点,bs(β)i和bp(β)i分别表示形状混合形变和姿态混合形变参数。[0096]步骤520,通过嵌入层计算得到三维网格的每个顶点的可学习隐变量。[0097]其中,嵌入层可以是指embedding嵌入层,用于将三维网格的各顶点转换为向量表达,即可学习隐变量。[0098]步骤540,基于各帧人手图像的姿态参数,计算各顶点所属关节点相对于父节点的旋转角。[0099]在一种可能的实现方式,基于各帧人手图像的姿态参数,根据最大线性混合蒙皮权重计算各个顶点所属关节点相对于父节点的旋转角。[0100]步骤560,将三维网格的局部化顶点、每个顶点的可学习隐变量、每个顶点所属关节点相对于父节点的旋转角、以及姿态参数进行拼接,得到各顶点的输入特征向量。[0101]在一种可能的实现方式,三维网格的局部化顶点坐标、每个顶点的可学习隐变量、每个顶点所属关节点相对于父节点的旋转角、以及姿态参数是按照三维网格顶点的序号进行拼接的。[0102]步骤580,将各顶点的输入特征向量输入图卷积网络,得到各顶点的顶点对齐特征。[0103]如图6所示,在一种可能的实现方式,步骤580可以包括如下步骤:[0104]步骤600,根据人手所属的身份对人手进行身份特征编码,得到人手的身份特征编码。[0105]也就是说,身份特征编码用于唯一地表示人手所属的身份,应当理解,身份特征编码对于同一身份的人手保持一致,不同身份的人手则不一致。[0106]在一种可能的实现方式,发明人意识到若身份特征编码的维度太高将难以优化,因此,身份特征编码的维度设置为128或256。[0107]步骤620,在通过图卷积网络对各顶点的输入特征向量进行顶点对齐的过程中,将人手的身份特征编码嵌入图卷积网络的中间层,得到各顶点的顶点对齐特征。[0108]具体地,各顶点的输入特征向量输入图卷积网络中各层进行特征提取,对于图卷积网络的中间层而言,将提取得到的特征首先与身份特征编码拼接后,继续输入图卷积网络中各层进行特征提取,最终得到各顶点的顶点对齐特征。[0109]值得说明,图卷积网络可以更换为其他能够对几何网格或点云信号建模的神经网络,从而引入几何的先验信息;也就是说,图卷积网络只是一个示例,其他的等同或者相当替换的实施例虽未直接给出,但应当属于本技术的保护范围。[0110]在上述实施例的作用下,通过多个不同特征的融合,不仅丰富了特征表达能力,而且具有灵活性和连续性的优点,避免引起表达歧义的问题。[0111]在一示例性实施例,人手图像合成是通过合成图像模型实现的。该合成图像模型是经过训练的神经网络模型。[0112]如图7所示,合成图像模型的训练过程,可以包括以下步骤:[0113]步骤800,获取训练图像。[0114]在一种可能的实现方式,训练图像包括4~10个视角的人手图像,相机视角之间重合度不应超过50%;训练图像应包含手指各个关节相对父节点各个合理的旋转角,以保证驱动姿势的各个骨骼旋转角包含在训练图像中。[0115]步骤820,基于训练图像计算设定损失函数的损失值,并判断损失值是否满足收敛条件。[0116]设定损失函数至少包括以下一种:用于优化图卷积网络参数的图片重建自监督损失函数、用于优化特征融合参数的几何重建损失函数和用于优化身份隐编码参数的隐变量正则化约束损失函数。[0117]收敛条件可以根据应用场景的实际需要灵活地设置,例如可以是损失值小于特定值。[0118]图片重建自监督损失函数为其中,为合成图像位置p处的像素值,为真实图像p处的像素值,共遍历np个像素位置,通常为图片上所有像素位置,λpho为损失函数权重。[0119]几何重建损失函数为nvert为所有网格顶点数,vi和分别为网格第i个顶点真实位置和预测的第i个顶点位置,λgeo为损失函数权重。[0120]隐变量正则化约束损失函数为lid为身份特征编码,lindex为每个顶点可学习隐变量,λid和λindex为损失函数权重。[0121]若损失值满足收敛条件,则执行步骤840。[0122]若损失值不满足收敛条件,则执行步骤860。[0123]步骤840,由所述神经网络模型训练得到合成图像模型。[0124]步骤860,优化神经网络模型的参数。[0125]其中,参数至少包括图卷积网络参数、特征融合参数、身份隐编码参数。[0126]在完成上述训练过程后,便得到了对人手图像具有合成能力的人手图像合成模型。[0127]图8是一应用场景中一种人手图像合成方法的具体实现示意图。在图8中,人手图像合成过程包括顶点对齐部分、面片对齐部分、图像渲染部分。其中,顶点对齐部分包括特征拼接融合、图卷积网络;面片对齐特征包括多个分支多层感知机、tbn矩阵转换。[0128]图9示出了使用本技术的人手图像合成方法生成的人手合成图像、以及对照组图像和真实值图像。从图9可以看出,本技术方法在驱动生成新姿态和图像视觉效果上都比之前的方法更佳,相较于对照组,本技术方法生成的人手合成图像有更清晰的手指关节和指节末端,手背血管和毛发纹理的特征得到了更好地保留。[0129]为了对本技术方法生成的手部合成图像的质量进行定量分析,使用峰值信噪比(peaksignaltonoiseratio,psnr)、结构相似性(structuralsimilarity,ssim)、可学习感知图像块相似度(learnedperceptualimagepatchsimilarity,lpips)等指标来表征手部合成图像的质量。其中,psnr取值越大,表示图像质量越高;ssim取值范围为[0,1],取值越大,表示图像失真越小,也即图像质量越高;lpips取值越小,表示合成图像与真实值差异越小,也即图像质量越高。[0130]如下表1,表1对本技术方法和现有技术在执行新视角渲染和新姿态驱动任务上的表现进行定量比较。[0131]表1[0132][0133]从表1可以看出,本技术方法在执行新视角渲染和新姿态驱动任务上的表现远远优于现有技术(nb方法、amvp方法)。[0134]表1中提到的现有技术包括nb方法、amvp方法,其中,nb(neuralbody)方法是在人体重建中应用的可变形神经辐射场,通过假设在不同帧中学习的神经表示共享锚定到可变形网格的同一组潜在代码,因此可以自然地整合跨帧的观察结果;amvp(animatablenerf)是mvp应用于人脸动态重建场景的方法,通过将几何估计层换成mano估计层,作为参数驱动的解耦控制机制,其余保留了mvp方法的特点。[0135]下述为本技术装置实施例,可以用于执行本技术所涉及的人手图像合成方法。对于本技术装置实施例中未披露的细节,请参照本技术所涉及的人手图像合成方法的方法实施例。[0136]请参阅图10,本技术实施例中提供了一种人手图像合成装置900,包括但不限于:图像序列获取模块910、参数计算模块920、对齐模块930以及渲染模块940。[0137]其中,图像序列获取模块910,用于获取人手图像序列,人手图像序列包括多帧人手图像,每帧人手图像是针对人手进行不同视角的拍摄得到的。[0138]参数计算模块920,用于计算各帧人手图像的姿态参数和形状参数,并根据姿态参数和形状参数利用参数化网格模型估计人手的三维网格。[0139]对齐模块930,用于基于人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到人手在各人手图像中的体积表达分布。[0140]渲染模块940,用于根据人手在各人手图像中的体积表达分布进行图像渲染,得到人手的合成图像。[0141]在一示例性实施例中,对齐模块930包括:顶点对齐单元931,用于利用图卷积网络,对人手的三维网络中的各顶点进行对齐,得到各顶点的顶点对齐特征;主元表达估计单元932,用于针对各顶点对应的面片,根据面片所对应顶点的顶点对齐特征对面片的体积主元表达进行估计,得到各面片的面片对齐特征;变换单元933,用于根据各面片的面片对齐特征,将各面片的体积主元表达变换至三维网格面片表面,得到人手在各人手图像中的体积表达分布。[0142]在一示例性实施例中,顶点对齐单元931包括:坐标局部化子单元9311,用于将三维网格的顶点局部化,得到三维网格的局部化顶点;隐变量计算子单元9312,用于通过嵌入层计算得到三维网格的每个顶点的可学习隐变量;旋转角计算子单元9313,用于基于各帧人手图像的姿态参数,计算各顶点所属关节点相对于父节点的旋转角;第一拼接子单元9314,用于将三维网格的局部化顶点、每个顶点的可学习隐变量、每个顶点所属关节点相对于父节点的旋转角、以及姿态参数进行拼接,得到各顶点的输入特征向量;顶点对齐特征获取子单元9315,用于将各顶点的输入特征向量输入图卷积网络,得到各顶点的顶点对齐特征。[0143]在一示例性实施例中,顶点对齐特征获取子单元9315包括:身份编码子单元9316,用于根据人手所属的身份对人手进行身份特征编码,得到人手的身份特征编码;第二拼接子单元9317,用于通过图卷积网络对各顶点的输入特征向量进行顶点对齐的过程中,将人手的身份特征编码嵌入图卷积网络的中间层,得到各顶点的顶点对齐特征。[0144]在一示例性实施例中,主元表达估计单元932包括:特征估计子单元9321,用于将面片所对应顶点的顶点对齐特征,分别输入颜色分支多层感知机、密度分支多层感知机、运动分支多层感知机进行面片的颜色特征、密度特征、运动特征的估计;特征融合子单元,用于将估计得到的颜色特征、密度特征、运动特征进行特征融合,得到各面片的面片对齐特征。[0145]在一示例性实施例中,渲染模块940包括:像素值计算单元941,用于根据人手在各人手图像中的体积表达分布,通过可微分神经渲染方程,计算渲染视角下合成图像每个像素位置的像素值,生成人手的合成图像。[0146]需要说明的是,上述实施例所提供的人手图像合成装置在进行人手图像合成时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即人手图像合成装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。[0147]另外,上述实施例所提供的人手图像合成装置与人手图像合成方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。[0148]图11根据一示例性实施例示出的一种服务器的结构示意。该服务器适用于图1所示出实施环境中的服务端130。[0149]需要说明的是,该服务器只是一个适配于本技术的示例,不能认为是提供了对本技术的使用范围的任何限制。该服务器也不能解释为需要依赖于或者必须具有图11示出的示例性的服务器2000中的一个或者多个组件。[0150]服务器2000的硬件结构可因配置或者性能的不同而产生较大的差异,如图11所示,服务器2000包括:电源210、接口230、至少一存储器250、以及至少一中央处理器(cpu,centralprocessingunits)270。[0151]具体地,电源210用于为服务器2000上的各硬件设备提供工作电压。[0152]接口230包括至少一有线或无线网络接口231,用于与外部设备交互。例如,进行图1所示出实施环境中采集端110与服务端130之间的交互。[0153]当然,在其余本技术适配的示例中,接口230还可以进一步包括至少一串并转换接口233、至少一输入输出接口235以及至少一usb接口237等,如图11所示,在此并非对此构成具体限定。[0154]存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。[0155]其中,操作系统251用于管理与控制服务器2000上的各硬件设备以及应用程序253,以实现中央处理器270对存储器250中海量数据255的运算与处理,其可以是windowsservertm、macosxtm、unixtm、linuxtm、freebsdtm等。[0156]应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图11未示出),每个模块都可以分别包含有对服务器2000的计算机程序。例如,人手图像合成装置可视为部署于服务器2000的应用程序253。[0157]数据255可以是存储于磁盘中的照片、图片等,还可以是服务端130生成的人手合成图像、采集端110采集的多视角的人手图像序列等,存储于存储器250中。[0158]中央处理器270可以包括一个或多个以上的处理器,并设置为通过至少一通信总线与存储器250通信,以读取存储器250中存储的计算机程序,进而实现对存储器250中海量数据255的运算与处理。例如,通过中央处理器270读取存储器250中存储的一系列计算机程序的形式来完成人手图像合成方法。[0159]此外,通过硬件电路或者硬件电路结合软件也能同样实现本技术,因此,实现本技术并不限于任何特定硬件电路、软件以及两者的组合。[0160]请参阅图12,本技术实施例中提供了一种电子设备4000,该电子设备4000可以包括:台式电脑、笔记本电脑、服务器等。[0161]在图12中,该电子设备4000包括至少一个处理器4001、至少一条通信总线4002以及至少一个存储器4003。[0162]其中,处理器4001和存储器4003相连,如通过通信总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。[0163]处理器4001可以是cpu(centralprocessingunit,中央处理器),通用处理器,dsp(digitalsignalprocessor,数据信号处理器),asic(applicationspecificintegratedcircuit,专用集成电路),fpga(fieldprogrammablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。[0164]通信总线4002可包括一通路,在上述组件之间传送信息。通信总线4002可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。通信总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。[0165]存储器4003可以是rom(readonlymemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(randomaccessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electricallyerasableprogrammablereadonlymemory,电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。[0166]存储器4003上存储有计算机程序,处理器4001通过通信总线4002读取存储器4003中存储的计算机程序。[0167]该计算机程序被处理器4001执行时实现上述各实施例中的人手图像合成方法。[0168]此外,本技术实施例中提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的人手图像合成方法。[0169]本技术实施例中提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在存储介质中。计算机设备的处理器从存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述各实施例中的人手图像合成方法。[0170]与相关技术相比,[0171]1.考虑到混合体积表达的特点,以及人手uv展开不连续不均匀分布的特点,本发明引入图卷积神经网络作为主要的编解码器,从而将几何驱动信号与几何拓扑结构相结合,将uv对齐的解码转移到了几何对齐的解码,从而使得几何信号的利用更加合理。[0172]2.本技术方案不仅融合了从参数化网格模型得到的姿态和形状参数作为驱动参数,并且通过图卷积提取的mano几何信息能够有效地从不同姿态和身份的人手数据中学习到共同的局部动态特征,从而增强对不同姿态驱动的泛化能力,即可以驱动生成任意姿态。[0173]3.引入了图卷积网络,其具有与mano模型相同的网格拓扑结构作为主干,具有良好的结构意识。[0174]4.通过高度优化的数据并行bvh实现,使我们能够在每帧的基础上重建bvh,从而可以高效处理动态场景;降低了渲染空间的估计空间,使得神经网络只需要学习纹理对齐的体积主元表达,减小了无意义的参数空间,提高训练及渲染速度。[0175]5.本技术方案是一种混合表达,可以在基于体积和基于主元的神经场景表达之间找到最佳权衡。因此,它可以产生具有精细比例细节的高质量结果,渲染速度快,可驱动,并减少内存限制。[0176]6.根据获取的人手图像序列计算相应的姿态参数和形状参数,并且基于姿态参数和形状参数,利用参数化网格模型生成人手的三维网格,根据三维网格估计出体积表达分布,即一种神经参数和体积主元模型,再利用该体积表达分布渲染人手的合成图像。[0177]将体积主元与参数化网格模型(例如mano)相结合,可以表示人手的高频纹理特征,进而可以实现高质量的的渲染重建;依靠刚性网格驱动生成新的姿势,体积主元可以实现保真渲染,本技术提供的人手图像合成方法,可以驱动生成新姿态,渲染出的人手合成图像具有高保真度、清晰逼真的特点。[0178]应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。[0179]本领域的技术人员容易理解,以上所述仅为本技术的较佳实施例而已,并不用以限制本技术,凡在本技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本技术的保护范围之内。当前第1页12当前第1页12
技术特征:
1.一种人手图像合成方法,其特征在于,所述方法包括:获取人手图像序列,所述人手图像序列包括多帧人手图像,每帧所述人手图像是针对人手进行不同视角的拍摄得到的;计算各帧所述人手图像的姿态参数和形状参数,并根据所述姿态参数和形状参数通过参数化网格模型估计所述人手的三维网格;基于所述人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到所述人手在各所述人手图像中的体积表达分布;根据所述人手在各所述人手图像中的体积表达分布进行图像渲染,得到所述人手的合成图像。2.如权利要求1所述的方法,其特征在于,所述基于所述人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到所述人手在各所述人手图像中的体积表达分布,包括:利用图卷积网络,对所述人手的所述三维网络中的各所述顶点进行对齐,得到各所述顶点的顶点对齐特征;针对各所述顶点对应的所述面片,根据所述面片所对应顶点的所述顶点对齐特征对所述面片的体积主元表达进行估计,得到各所述面片的面片对齐特征;根据各所述面片的所述面片对齐特征,将各所述面片的所述体积主元表达变换至三维网格面片表面,得到所述人手在各所述人手图像中的体积表达分布。3.如权利要求2所述的方法,其特征在于,所述利用图卷积网络,对所述人手的所述三维网络中的各所述顶点进行对齐,得到各所述顶点的顶点对齐特征,包括:将所述三维网格的顶点局部化,得到所述三维网格的局部化顶点;通过嵌入层计算得到所述三维网格的每个所述顶点的可学习隐变量;基于各帧所述人手图像的所述姿态参数,计算各所述顶点所属关节点相对于父节点的旋转角;将所述三维网格的所述局部化顶点、每个所述顶点的所述可学习隐变量、每个所述顶点所属关节点相对于父节点的所述旋转角、以及所述姿态参数进行拼接,得到各顶点的输入特征向量;将各顶点的所述输入特征向量输入所述图卷积网络,得到各顶点的所述顶点对齐特征。4.如权利要求3所述的方法,其特征在于,所述将各顶点的所述输入特征向量输入所述图卷积网络,得到各顶点的所述顶点对齐特征,包括:根据所述人手所属的身份对所述人手进行身份特征编码,得到所述人手的身份特征编码;在通过所述图卷积网络对各顶点的输入特征向量进行顶点对齐的过程中,将所述人手的身份特征编码嵌入所述图卷积网络的中间层,得到各顶点的所述顶点对齐特征。5.如权利要求2所述的方法,其特征在于,所述针对各顶点对应的面片,根据所述面片所对应顶点的所述顶点对齐特征对所述面片的体积主元表达进行估计,得到各所述面片的面片对齐特征,包括:将所述面片所对应顶点的顶点对齐特征,分别输入颜色分支多层感知机、密度分支多
层感知机、运动分支多层感知机进行所述面片的颜色特征、密度特征、运动特征的估计;将估计得到的颜色特征、密度特征、运动特征进行特征融合,得到各所述面片的面片对齐特征。6.如权利要求1所述的方法,其特征在于,所述根据所述人手在各所述人手图像中的体积表达分布进行图像渲染,得到所述人手的合成图像,包括:根据所述人手在各所述人手图像中的体积表达分布,通过可微分神经渲染方程,计算渲染视角下所述合成图像每个像素位置的像素值,生成所述人手的合成图像。7.如权利要求1至6任一项所述的方法,其特征在于,所述人手图像合成是通过合成图像模型实现的;所述合成图像模型是经过训练的神经网络模型;所述合成图像模型的训练过程,包括:获取训练图像;基于所述训练图像计算设定损失函数的损失值;所述设定损失函数至少包括以下一种:用于优化图卷积网络参数的图片重建自监督损失函数、用于优化特征融合参数的几何重建损失函数和用于优化身份隐编码参数的隐变量正则化约束损失函数;若损失值满足收敛条件,则由所述神经网络模型训练得到合成图像模型;否则,优化所述神经网络模型的参数;所述参数至少包括图卷积网络参数、特征融合参数、身份隐编码参数。8.一种人手图像合成装置,其特征在于,包括:图像序列获取模块,用于获取人手图像序列,所述人手图像序列包括多帧人手图像,每帧所述人手图像是针对人手进行不同视角的拍摄得到的;参数计算模块,用于计算各帧所述人手图像的姿态参数和形状参数,并根据所述姿态参数和形状参数通过参数化网格模型估计所述人手的三维网格;对齐模块,用于基于所述人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到所述人手在各所述人手图像中的体积表达分布;渲染模块,用于根据所述人手在各所述人手图像中的体积表达分布进行图像渲染,得到所述人手的合成图像。9.一种电子设备,其特征在于,包括:至少一个处理器以及至少一个存储器,其中,所述存储器上存储有程序指令或代码;所述程序指令或代码被所述处理器加载并执行,使得电子设备实现如权利要求1至7中任一项所述的人手图像合成方法。10.一种存储介质,其上存储有程序指令或代码,其特征在于,所述程序指令或代码被处理器加载并执行,以实现如权利要求1至7中任一项所述的人手图像合成方法。

技术总结
本申请公开了一种人手图像合成方法、装置、电子设备及存储介质,属于人工智能技术领域,该方法包括:获取人手图像序列,人手图像序列包括多帧人手图像,每帧人手图像是针对人手进行不同视角的拍摄得到的;计算各帧人手图像的姿态参数和形状参数,并根据姿态参数和形状参数通过参数化网格模型估计人手的三维网格;基于人手的三维网格中各顶点以及各顶点对应的面片,进行顶点对齐和面片对齐,得到人手在各人手图像中的体积表达分布;根据人手在各人手图像中的体积表达分布进行图像渲染,得到人手的合成图像。本申请提供的人手图像合成方法,可以驱动生成新姿态,渲染出的人手合成图像具有高保真度、清晰逼真的特点。清晰逼真的特点。清晰逼真的特点。


技术研发人员:陈庆 石武 乔宇
受保护的技术使用者:中国科学院深圳先进技术研究院
技术研发日:2023.03.23
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐