一种基于重建人脸的语音驱动人脸序列生成方法及系统
未命名
07-14
阅读:97
评论:0

1.本发明涉及计算机视觉技术领域,特别是涉及一种基于重建人脸的语音驱动人脸序列生成方法及系统。
背景技术:
2.高精度三维人脸重建技术主要涉及从图像、视频等信息中恢复出三维人脸的信息,继而应用在虚拟现实(virtual reality)、3d数字人、3d数字游戏等场景。在游戏和动漫制作中,人脸的表情和口型对于玩家和观众来说十分重要,而目前精美的游戏和动漫人物画面依靠于美术师逐帧制作,耗费大量人力和资源,算法自动根据语音生成人物相应的动作可以大大减少美术师的工作,也可以极大的缩短动漫游戏的制作时间。
3.目前,高精度人脸重建方案主要包括:真实人脸结构光采集、多视角立体匹配方案和基于深度学习的方案。尽管结构光采集和基于立体匹配的相关算法已经能够取得比较高质量的人脸重建结果,但由于设备成本、算法执行效率等原因,仍然在广泛应用方面存在不少障碍。随着深度学习领域的不断发展,越来越多的研究者开始探索基于深度学习的高精度三维人脸重建算法,比如统计模型3dmm和基于cnn的人脸3dmm参数估计。这些算法一般是通过输入单张图片,估计出人脸3dmm参数和其他渲染所需的参数,将重建出来的人脸重新渲染成图片,渲染图片和输入图片之间的二范数损失作为网络的监督函数,基于统计模型的方法往往能够获得比较光滑的重建结果,无法恢复出人脸上的褶皱等高频信息。3d数字人的驱动也是近来一个比较热的研究方向,目前业界采用的主流方案是基于arkit的blendshape和动作捕捉,此方案需要美术师制作出虚拟数字人的51维blendshape,且数字人的表现力取决于blendshape制作的精细程度。
4.综上,现有方法主要存在以下几个问题:成本高、效率低、耗时长、精度有限。
技术实现要素:
5.本发明的目的是提供一种基于重建人脸的语音驱动人脸序列生成方法及系统,快速获取高精度的重建人脸的语音驱动序列。
6.为实现上述目的,本发明提供了如下方案:
7.一种基于重建人脸的语音驱动人脸序列生成方法,包括:
8.获取一组待处理数据;所述待处理数据包括待处理多视觉人脸图片集、待处理语音片段以及所述待处理多视觉人脸图片集中每张图片对应的相对相机外参;
9.将所述待处理多视觉人脸图片集以及每张图片对应的相对相机外参输入至三维人脸重建模型,以得到三维重建人脸;其中,所述三维人脸重建模型包括光流特征提取模块和人脸构建模块;所述光流特征提取模块用于对所述待处理多视觉人脸图片集中每张图片进行特征提取,以得到预测人脸光流特征;所述人脸构建模块用于根据所述预测人脸光流特征和每张图片对应的相对相机外参,通过三角化过程重建人脸,以得到三维重建人脸;
10.将所述待处理语音片段输入至语音驱动人脸序列模型,以得到三维模板人脸序
列;所述语音驱动人脸序列模型是基于语音样本片段集对语音驱动3dmm模板人脸模型进行训练得到的;所述语音样本片段集中的每个样本包括语音样本片段以及对应的三维模板人脸序列真值;所述语音驱动3dmm模板人脸模型包括生成器和判别器;所述生成器包括语音特征编码模块和人脸动画解码预测模块;所述语音特征编码模块和所述人脸动画解码预测模块均为transformer结构;
11.基于所述三维重建人脸和所述三维模板人脸序列,构建三维重建的语音驱动人脸序列。
12.可选地,所述光流特征提取模块是基于多视觉人脸样本集对预设卷积神经网络进行训练得到的;
13.所述多视觉人脸样本集的构建过程,具体包括:
14.获取一组原始多视觉人脸图片集;
15.基于预设拓扑一致人头模型和预设三维人头模型,确定三维人脸模型;
16.采用弱透视投影方式,将所述三维人脸模型投影至所述原始多视觉人脸图片集中每张图片上,并进行分割,以得到分割后多视觉人脸图片集;
17.依据所述三维人脸模型的弱透视投影,调整所述分割后多视觉人脸图片集中每张图片对应的相机内参,以得到处理后多视觉人脸图片集;
18.随机选取所述三维人脸模型上一点,作为标记点;
19.将所述标记点投影至所述处理后多视觉人脸图片集中的任意两张图片上,以对应得到第一像素和第二像素;
20.根据所述第一像素和所述第二像素,确定两张处理后多视觉人脸图片之间的像素光流;所述分割后多视觉人脸图片集以及对应的任意两张图片之间的像素光流构成一个多视觉人脸样本;多个多视觉人脸样本构成多视觉人脸样本集。
21.可选地,所述基于预设拓扑一致人头模型和预设三维人头模型,确定三维人脸模型,具体包括:
22.对预设拓扑一致人头模型进行人脸区域裁剪,以得到拓扑一致人脸模型;
23.采用迭代最近点算法,将所述拓扑一致人脸模型与预设三维人头模型依次进行对齐和裁剪,以得到三维人脸模型。
24.可选地,根据所述第一像素和所述第二像素,确定两张处理后多视觉人脸图片之间的像素光流,具体包括:
25.判断所述第一像素的值和所述第二像素的值,是否均为整数值;
26.当所述第一像素的值和所述第二像素的值均为整数值时,根据所述第一像素的值和所述第二像素的值,分别计算第一像素的光流和第二像素的光流;
27.当所述第一像素的值和所述第二像素的值中的任一为非整数值时,基于所述第一像素的值和所述第二像素的值,采用双线性差值法分别计算第一像素的光流和第二像素的光流;
28.根据所述第一像素的光流和所述第二像素的光流,确定两张处理后多视觉人脸图片之间的像素光流。
29.可选地,所述多视觉人脸图片集包括主视觉图片和多个辅视觉图片;
30.所述预设卷积神经网络包括:
31.第一卷积单元,用于对所述主视觉图片依次进行多次卷积,以得到人脸主特征;
32.第二卷积单元,用于对每一辅视觉图片依次进行多次可形变卷积,以得到人脸辅特征;
33.特征融合单元,用于基于特征相关性,将所述人脸主特征以及多个所述人脸辅特征进行融合,以得到人脸综合特征;
34.光流估计单元,用于基于densenet结构,根据所述人脸综合特征确定预测人脸光流特征。
35.可选地,所述语音驱动3dmm模板人脸模型的训练过程,具体包括:
36.对所述语音特征编码模块进行预训练;
37.将所述语音样本片段集依次输入至预训练后的所述语音特征编码模块和所述人脸动画解码预测模块进行训练,以得到最优生成器;所述最优生成器用于基于所述语音样本片段生成三维人脸动画序列;其中,所述最优生成器的训练过程中,损失函数包括位置项损失函数、速度项损失函数和平滑项损失函数;所述位置项损失函数用于对三维人脸动画序列的每一帧进行一范数的监督;所述速度项损失函数用于对三维人脸动画序列的每一帧的一阶导数进行监督;所述平滑项损失函数用于对三维人脸动画序列的每一帧的二阶导数进行监督;
38.将所述最优生成器与所述判别器进行迭代交替训练,以得到语音驱动3dmm模板人脸模型。
39.可选地,基于所述三维重建人脸和所述三维模板人脸序列,构建三维重建的语音驱动人脸序列,具体包括:
40.获取所述三维模板人脸序列对应的3dmm模板人脸;
41.基于nicp算法,根据所述三维重建人脸和所述3dmm模板人脸,计算3dmm模板人脸到三维重建人脸的形变参数;
42.基于所述形变参数和所述三维模板人脸序列,得到三维重建的语音驱动人脸序列。
43.为达上述目的,本发明还提供了如下技术方案:
44.一种基于重建人脸的语音驱动人脸序列生成系统,包括:
45.数据获取子系统,用于获取一组待处理数据;所述待处理数据包括待处理多视觉人脸图片集、待处理语音片段以及所述待处理多视觉人脸图片集中每张图片对应的相对相机外参;
46.人脸重建子系统,用于将所述待处理多视觉人脸图片集以及每张图片对应的相对相机外参输入至三维人脸重建模型,以得到三维重建人脸;其中,所述三维人脸重建模型包括光流特征提取模块和人脸构建模块;所述光流特征提取模块用于对所述待处理多视觉人脸图片集中每张图片进行特征提取,以得到预测人脸光流特征;所述人脸构建模块用于根据所述预测人脸光流特征和每张图片对应的相对相机外参,通过三角化过程重建人脸,以得到三维重建人脸;
47.模板人脸序列构建子系统,用于将所述待处理语音片段输入至语音驱动人脸序列模型,以得到三维模板人脸序列;所述语音驱动人脸序列模型是基于语音样本片段集对语音驱动3dmm模板人脸模型进行训练得到的;所述语音样本片段集中的每个样本包括语音样
本片段以及对应的三维模板人脸序列真值;所述语音驱动3dmm模板人脸模型包括生成器和判别器;所述生成器包括语音特征编码模块和人脸动画解码预测模块;所述语音特征编码模块和所述人脸动画解码预测模块均为transformer结构;
48.重建人脸序列构建子系统,用于基于所述三维重建人脸和所述三维模板人脸序列,构建三维重建的语音驱动人脸序列。
49.根据本发明提供的具体实施例,本发明公开了以下技术效果:
50.本发明公开一种基于重建人脸的语音驱动人脸序列生成方法及系统,预先构建了光流特征提取模块、人脸构建模块以及语音驱动人脸序列模型,基于此三种结构,根据获得的待处理多视觉人脸图片集、待处理语音片段以及所述待处理多视觉人脸图片集中每张图片对应的相对相机外参,可快速、便利地获取和驱动定制的三维人脸。而其中所采用的多视觉人脸图片参与光流特征提取、结合相机外参重建人脸,能够使得所得到的三维人脸具有更高精度;采用生成器和判别器进行语音驱动的训练,能够使得所得到的人脸序列更贴合实际,从而提高经过三维重建的语音驱动人脸序列的总的精细程度。
附图说明
51.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
52.图1为本发明基于重建人脸的语音驱动人脸序列生成方法的流程示意图;
53.图2为本发明预设卷积神经网络的结构示意图;
54.图3为本发明语音驱动3dmm模板人脸模型的结构示意图;
55.图4为本发明基于重建人脸的语音驱动人脸序列生成系统的结构示意图。
具体实施方式
56.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
57.本发明提供一种基于重建人脸的语音驱动人脸序列生成方法及系统,无需借助参数化模型即可实现高精度的三维人脸重建,并且对于重建人脸的驱动无需借助blendshape即可实现。
58.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
59.实施例一
60.如图1所示,本发明提出一种基于重建人脸的语音驱动人脸序列生成方法,包括:
61.步骤100,获取一组待处理数据;所述待处理数据包括待处理多视觉人脸图片集、待处理语音片段以及所述待处理多视觉人脸图片集中每张图片对应的相对相机外参。
62.在一个具体实际应用中,在步骤100之前,方法还包括对所得到的原始图片的预处
理,具体为:1)获取一组原始多视觉人脸图片集;2)基于预设拓扑一致人头模型和预设三维人头模型,确定三维人脸模型;3)采用弱透视投影方式,将所述三维人脸模型投影至所述原始多视觉人脸图片集中每张图片上,并进行分割,以得到分割后多视觉人脸图片集,使得人脸占图像比例增大,一般需要达到人脸框占图像面积的三分之一;所述分割后多视觉人脸图片集即为待处理数据中的待处理多视觉人脸图片集。此外,还可对待处理多视觉人脸图片集进行图像数据增强,以保证图像清晰度。
63.步骤200,将所述待处理多视觉人脸图片集以及每张图片对应的相对相机外参输入至三维人脸重建模型,以得到三维重建人脸;其中,所述三维人脸重建模型包括光流特征提取模块和人脸构建模块;所述光流特征提取模块用于对所述待处理多视觉人脸图片集中每张图片进行特征提取,以得到预测人脸光流特征;所述人脸构建模块用于根据所述预测人脸光流特征和每张图片对应的相对相机外参,通过三角化过程重建人脸,以得到三维重建人脸。
64.(一)光流特征提取模块
65.所述光流特征提取模块是基于多视觉人脸样本集对预设卷积神经网络进行训练得到的。
66.所述多视觉人脸样本集的构建过程,具体包括:
67.1)获取一组原始多视觉人脸图片集;具体地,原始多视觉人脸图片集取自facescape数据集;facescape数据集中包括原始多视角人脸图片集、原始三维人脸模型、各视觉人脸图片对应视角的相机参数以及拓扑一致模型。
68.2)基于预设拓扑一致人头模型和预设三维人头模型,确定三维人脸模型;具体地,对预设拓扑一致人头模型进行人脸区域裁剪,以得到拓扑一致人脸模型;采用迭代最近点算法(iterative closest point,icp),将所述拓扑一致人脸模型与预设三维人头模型依次进行对齐和裁剪,以得到三维人脸模型。
69.3)采用弱透视投影方式,将所述三维人脸模型投影至所述原始多视觉人脸图片集中每张图片上,并进行分割,以得到分割后多视觉人脸图片集。
70.4)依据所述三维人脸模型的弱透视投影,调整所述分割后多视觉人脸图片集中每张图片对应的相机内参,以得到处理后多视觉人脸图片集。
71.5)随机选取所述三维人脸模型上一点,作为标记点。
72.6)将所述标记点投影至所述处理后多视觉人脸图片集中的任意两张图片上,以对应得到第一像素和第二像素。
73.7)根据所述第一像素和所述第二像素,确定两张处理后多视觉人脸图片之间的像素光流;所述分割后多视觉人脸图片集以及对应的任意两张图片之间的像素光流构成一个多视觉人脸样本;多个多视觉人脸样本构成多视觉人脸样本集。
74.进一步地,根据所述第一像素和所述第二像素,确定两张处理后多视觉人脸图片之间的像素光流,具体包括:
75.71)判断所述第一像素的值和所述第二像素的值,是否均为整数值。
76.72)当所述第一像素的值和所述第二像素的值均为整数值时,根据所述第一像素的值和所述第二像素的值,分别计算第一像素的光流和第二像素的光流。因为光流是矢量数据,所以存在方向;若以第一像素所在图片为光流方向,则第一像素的光流为:所述第二
像素的值减第一像素的值;若以第二像素所在图片为光流方向,则第二像素的光流为:所述第一像素的值减第二像素的值。
77.73)当所述第一像素的值和所述第二像素的值中的任一为非整数值时,基于所述第一像素的值和所述第二像素的值,采用双线性差值法分别计算第一像素的光流和第二像素的光流。
78.74)根据所述第一像素的光流和所述第二像素的光流,确定两张处理后多视觉人脸图片之间的像素光流。
79.所述多视觉人脸图片集包括主视觉图片和多个辅视觉图片;如图2所示,所述预设卷积神经网络包括第一卷积单元、第二卷积单元、特征融合单元和光流估计单元。
80.第一卷积单元,用于对所述主视觉图片依次进行多次卷积,以得到人脸主特征。具体地,输入的主视觉图片为256
×
256分辨率,经过第一卷积单元依次进行六次卷积,新增得到8
×
8~128
×
128五个分辨率特征,且高分辨率人脸特征提取和需要使用低分辨率光流信息。图2中并未将六次卷积绘出,仅给出了其中三次卷积,以作示例;第一卷积单元中所使用的卷积为标准卷积。
81.第二卷积单元,用于对每一辅视觉图片依次进行多次可形变卷积,以得到人脸辅特征。具体地,输入的辅视觉图片为256
×
256分辨率,经过第二卷积单元依次进行六次卷积,新增得到8
×
8~128
×
128五个分辨率特征;第二卷积单元中所使用的卷积为可形变卷积,且将低分辨率光流信息作为可形变卷积的偏移量,以保证主视角和辅视角经过多次卷积后,特征的物理感受野相同。进一步地,可形变卷积的偏移量由128
×
128分辨率光流上采样2倍获得。
82.特征融合单元,用于基于特征相关性,将所述人脸主特征以及多个所述人脸辅特征进行融合,以得到人脸综合特征。具体地,通过计算特征相关性的方式将人脸主特征以及多个所述人脸辅特征进行融合。对于主视角每个特征点,根据低分辨率光流提供的粗匹配位置信息,依次与粗匹配位置9
×
9邻域内特征点计算相关性,并将81个结果向量化作为此位置融合后的特征。
83.进一步地,若已知人脸主特征对应的主视觉图片i1中,当前像素坐标为(x1,y1),光流为(u1,v1),人脸主特征为f1=fpn(i1)(x1,y1);人脸辅特征对应的辅视觉图片i2中,对应像素坐标为(x2,y2)=(x1+u1,y1+v1),人脸辅特征为f2=bil(fpn(i2);x2,y2);那么,主辅视角之间的相关可以表示为corr(f1,f2)=《f1,f2》;其中,fpn()表示特征提取函数,bil()表示双线性插值函数,《》表示向量内积。为简化表示,以上过程记为corr(x,y,x2,y2;i1,i2)。
84.在一个具体实施例中,特征融合需要在辅视角9
×
9邻域中进行相关,可以得到在当前分辨率下的融合代价体v,形状为h*w*81。其中v(x,y,i*9+j)=corr(x,y,x2+i,y2+j;i1,i2),v表示人脸综合特征,x表示主视觉图片中像素的横坐标变量,y表示主视觉图片中像素的纵坐标变量;corr(x,y,x2+i,y2+j;i1,i2)表示主视觉图片i1与辅视觉图片i2在i
×
j邻域内的特征相关计算,i和j取值均为[-4,-3,
…
,0,1,..3,4]。
[0085]
光流估计单元,用于基于densenet结构,根据所述人脸综合特征确定预测人脸光流特征。具体地,主辅视角256
×
256分辨率光流经过特征融合和光流估计得到256
×
256分辨率光流结果。
[0086]
(二)人脸构建模块
[0087]
具体地,基于struct from motion中的三角化过程,利用densenet结构估计出当前分辨率的光流结果flow和主辅视角相对相机外参重建三维人脸。structure frommotion是一种三维重建的方法,用于从motion中实现3d重建,从时间系列的2d图像中推算3d信息。
[0088]
步骤300,将所述待处理语音片段输入至语音驱动人脸序列模型,以得到三维模板人脸序列;所述语音驱动人脸序列模型是基于语音样本片段集对语音驱动3dmm模板人脸模型进行训练得到的;所述语音样本片段集中的每个样本包括语音样本片段以及对应的三维模板人脸序列真值;如图3所示,所述语音驱动3dmm模板人脸模型包括生成器和判别器;所述生成器包括语音特征编码模块和人脸动画解码预测模块;所述语音特征编码模块和所述人脸动画解码预测模块均为transformer结构,以完成语音序列到人脸动画序列的预测。
[0089]
所述语音驱动三维可变形人脸模型(3dmm)模板人脸模型的训练过程,具体包括:
[0090]
1)对所述语音特征编码模块进行预训练;具体地,使用大规模无标注语音数据预训练,并使用预训练网络倒数第二层输出作为语音特征,从而相较于梅尔谱等特征取得更好效果。
[0091]
2)将所述语音样本片段集依次输入至预训练后的所述语音特征编码模块和所述人脸动画解码预测模块进行训练,以得到最优生成器;所述最优生成器用于基于所述语音样本片段生成三维人脸动画序列;其中,所述最优生成器的训练过程中,损失函数包括位置项损失函数、速度项损失函数和平滑项损失函数。
[0092]
所述位置项损失函数用于对三维人脸动画序列的每一帧进行一范数的监督,以保证生成人脸动画序列每一帧和真值相同;所述速度项损失函数用于对三维人脸动画序列的每一帧的一阶导数进行监督,以保证生成人脸动画序列的帧间变化趋势和真值变化趋势相同;所述平滑项损失函数用于对三维人脸动画序列的每一帧的二阶导数进行监督,以保证生成人脸动画序列不存在过多突变。通过使用大量数据自监督预训练语音特征提取器,增加模型对不同语种和语气词的支持。
[0093]
具体地,所述位置项损失函数为:
[0094][0095]
所述速度项损失函数为:
[0096][0097]
所述平滑项损失函数为:
[0098][0099]
其中,laplace(yi)=y
i-1
+y
i+1-2*yi;l
pos
表示位置项损失函数,yi表示第i帧三维人脸动画序列,表示第i帧三维模板人脸序列真值,|| ||1表示一范数,l
vec
表示速度项损失函数,y
i-1
表示第i-1帧三维人脸动画序列,表示第i-1帧三维三维模板人脸序列真值,l
laplace
表示平滑项损失函数,y
i+1
表示第i+1帧三维人脸动画序列。
[0100]
3)将所述最优生成器与所述判别器进行迭代交替训练,以得到语音驱动3dmm模板人脸模型。具体地,采用了对抗生成网络(lsgan)的训练方案,在人脸动画序列的监督上增加了lsgan的损失,稳定人脸口型动画序列的输出,即提升人脸动画的稳定性和真实性。生成器与判别器经过200次迭代交替训练,其中,训练判别器的损失lossd为:
[0101][0102]
其中,b=1,a=-1。
[0103]
训练生成器的损失loss
all
为:
[0104]
loss
all
=loss
pos
+0.1*loss
vec
+0.05*loss
laplace
+0.1*lossg[0105]
其中,lossg=e
x~y
(d(x)-c)2,c=0。
[0106]
步骤400,基于所述三维重建人脸和所述三维模板人脸序列,构建三维重建的语音驱动人脸序列。
[0107]
步骤400具体包括:
[0108]
1)获取所述三维模板人脸序列对应的3dmm模板人脸s。
[0109]
2)根据所述三维重建人脸t和所述3dmm模板人脸s,计算3dmm模板人脸到三维重建人脸的形变参数q;具体地,在一个具体实际应用中,首先使用nicp(normal iterative closestpoint,正常迭代最近点)算法将三维重建人脸和3dmm模板人脸s做重定向;然后,基于nicp算法对计算公式t=qs求解,以得到3dmm模板人脸到三维重建人脸的形变参数q。
[0110]
3)基于所述形变参数和所述三维模板人脸序列,得到三维重建的语音驱动人脸序列。
[0111]
综上,本发明基于多视角人脸rgb图片进行三维高精度人脸重建,将多视角人脸图片作为输入提取不同分辨率人脸特征,所有视角特征提取完成之后,采用计算相关性的方式进行特征融合,融合之后的结果输入到光流预测模块,得到光流的预测,进而得到主视角的三维重建结果。然后,将重建的三维人脸与3dmm模板人脸模型进行重定向,并对重建人脸进行语音驱动。本发明实现了一种端到端的人脸重建和驱动系统,让用户能够快捷的进行人脸的重建和语音驱动。
[0112]
实施例二
[0113]
如图4所示,为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,本实施例还提供了一种基于重建人脸的语音驱动人脸序列生成系统,包括:
[0114]
数据获取子系统101,用于获取一组待处理数据;所述待处理数据包括待处理多视觉人脸图片集、待处理语音片段以及所述待处理多视觉人脸图片集中每张图片对应的相对相机外参。
[0115]
人脸重建子系统201,用于将所述待处理多视觉人脸图片集以及每张图片对应的相对相机外参输入至三维人脸重建模型,以得到三维重建人脸;其中,所述三维人脸重建模型包括光流特征提取模块和人脸构建模块;所述光流特征提取模块用于对所述待处理多视觉人脸图片集中每张图片进行特征提取,以得到预测人脸光流特征;所述人脸构建模块用于根据所述预测人脸光流特征和每张图片对应的相对相机外参,通过三角化过程重建人脸,以得到三维重建人脸。
[0116]
模板人脸序列构建子系统301,用于将所述待处理语音片段输入至语音驱动人脸
序列模型,以得到三维模板人脸序列;所述语音驱动人脸序列模型是基于语音样本片段集对语音驱动3dmm模板人脸模型进行训练得到的;所述语音样本片段集中的每个样本包括语音样本片段以及对应的三维模板人脸序列真值;所述语音驱动3dmm模板人脸模型包括生成器和判别器;所述生成器包括语音特征编码模块和人脸动画解码预测模块;所述语音特征编码模块和所述人脸动画解码预测模块均为transformer结构。
[0117]
重建人脸序列构建子系统401,用于基于所述三维重建人脸和所述三维模板人脸序列,构建三维重建的语音驱动人脸序列。
[0118]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0119]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
技术特征:
1.一种基于重建人脸的语音驱动人脸序列生成方法,其特征在于,方法包括:获取一组待处理数据;所述待处理数据包括待处理多视觉人脸图片集、待处理语音片段以及所述待处理多视觉人脸图片集中每张图片对应的相对相机外参;将所述待处理多视觉人脸图片集以及每张图片对应的相对相机外参输入至三维人脸重建模型,以得到三维重建人脸;其中,所述三维人脸重建模型包括光流特征提取模块和人脸构建模块;所述光流特征提取模块用于对所述待处理多视觉人脸图片集中每张图片进行特征提取,以得到预测人脸光流特征;所述人脸构建模块用于根据所述预测人脸光流特征和每张图片对应的相对相机外参,通过三角化过程重建人脸,以得到三维重建人脸;将所述待处理语音片段输入至语音驱动人脸序列模型,以得到三维模板人脸序列;所述语音驱动人脸序列模型是基于语音样本片段集对语音驱动3dmm模板人脸模型进行训练得到的;所述语音样本片段集中的每个样本包括语音样本片段以及对应的三维模板人脸序列真值;所述语音驱动3dmm模板人脸模型包括生成器和判别器;所述生成器包括语音特征编码模块和人脸动画解码预测模块;所述语音特征编码模块和所述人脸动画解码预测模块均为transformer结构;基于所述三维重建人脸和所述三维模板人脸序列,构建三维重建的语音驱动人脸序列。2.根据权利要求1所述的基于重建人脸的语音驱动人脸序列生成方法,其特征在于,所述光流特征提取模块是基于多视觉人脸样本集对预设卷积神经网络进行训练得到的;所述多视觉人脸样本集的构建过程,具体包括:获取一组原始多视觉人脸图片集;基于预设拓扑一致人头模型和预设三维人头模型,确定三维人脸模型;采用弱透视投影方式,将所述三维人脸模型投影至所述原始多视觉人脸图片集中每张图片上,并进行分割,以得到分割后多视觉人脸图片集;依据所述三维人脸模型的弱透视投影,调整所述分割后多视觉人脸图片集中每张图片对应的相机内参,以得到处理后多视觉人脸图片集;随机选取所述三维人脸模型上一点,作为标记点;将所述标记点投影至所述处理后多视觉人脸图片集中的任意两张图片上,以对应得到第一像素和第二像素;根据所述第一像素和所述第二像素,确定两张处理后多视觉人脸图片之间的像素光流;所述分割后多视觉人脸图片集以及对应的任意两张图片之间的像素光流构成一个多视觉人脸样本;多个多视觉人脸样本构成多视觉人脸样本集。3.根据权利要求2所述的基于重建人脸的语音驱动人脸序列生成方法,其特征在于,所述基于预设拓扑一致人头模型和预设三维人头模型,确定三维人脸模型,具体包括:对预设拓扑一致人头模型进行人脸区域裁剪,以得到拓扑一致人脸模型;采用迭代最近点算法,将所述拓扑一致人脸模型与预设三维人头模型依次进行对齐和裁剪,以得到三维人脸模型。4.根据权利要求2所述的基于重建人脸的语音驱动人脸序列生成方法,其特征在于,根据所述第一像素和所述第二像素,确定两张处理后多视觉人脸图片之间的像素光流,具体包括:
判断所述第一像素的值和所述第二像素的值,是否均为整数值;当所述第一像素的值和所述第二像素的值均为整数值时,根据所述第一像素的值和所述第二像素的值,分别计算第一像素的光流和第二像素的光流;当所述第一像素的值和所述第二像素的值中的任一为非整数值时,基于所述第一像素的值和所述第二像素的值,采用双线性差值法分别计算第一像素的光流和第二像素的光流;根据所述第一像素的光流和所述第二像素的光流,确定两张处理后多视觉人脸图片之间的像素光流。5.根据权利要求2所述的基于重建人脸的语音驱动人脸序列生成方法,其特征在于,所述多视觉人脸图片集包括主视觉图片和多个辅视觉图片;所述预设卷积神经网络包括:第一卷积单元,用于对所述主视觉图片依次进行多次卷积,以得到人脸主特征;第二卷积单元,用于对每一辅视觉图片依次进行多次可形变卷积,以得到人脸辅特征;特征融合单元,用于基于特征相关性,将所述人脸主特征以及多个所述人脸辅特征进行融合,以得到人脸综合特征;光流估计单元,用于基于densenet结构,根据所述人脸综合特征确定预测人脸光流特征。6.根据权利要求5所述的基于重建人脸的语音驱动人脸序列生成方法,其特征在于,所述特征融合单元,具体包括:根据公式v(x,y,i*9+j)=corr(x,y,x2+i,y2+j;i1,i2)确定人脸综合特征;其中,v表示人脸综合特征,x表示主视觉图片中像素的横坐标变量,y表示主视觉图片中像素的纵坐标变量;corr(x,y,x2+i,y2+j;i1,i2)表示主视觉图片与辅视觉图片在i
×
j邻域内的特征相关计算,i和j取值均为[-4,-3,
…
,0,1,..3,4],i1表示主视觉图片,i2表示辅视觉图片,(x2,y2)表示辅视觉图片中的像素坐标。7.根据权利要求1所述的基于重建人脸的语音驱动人脸序列生成方法,其特征在于,所述语音驱动3dmm模板人脸模型的训练过程,具体包括:对所述语音特征编码模块进行预训练;将所述语音样本片段集依次输入至预训练后的所述语音特征编码模块和所述人脸动画解码预测模块进行训练,以得到最优生成器;所述最优生成器用于基于所述语音样本片段生成三维人脸动画序列;其中,所述最优生成器的训练过程中,损失函数包括位置项损失函数、速度项损失函数和平滑项损失函数;所述位置项损失函数用于对三维人脸动画序列的每一帧进行一范数的监督;所述速度项损失函数用于对三维人脸动画序列的每一帧的一阶导数进行监督;所述平滑项损失函数用于对三维人脸动画序列的每一帧的二阶导数进行监督;将所述最优生成器与所述判别器进行迭代交替训练,以得到语音驱动3dmm模板人脸模型。8.根据权利要求7所述的基于重建人脸的语音驱动人脸序列生成方法,其特征在于,所述位置项损失函数为:
所述速度项损失函数为:所述平滑项损失函数为:其中,laplace(y
i
)=y
i-1
+y
i+1-2*y
i
;l
pos
表示位置项损失函数,y
i
表示第i帧三维人脸动画序列,表示第i帧三维模板人脸序列真值,|| ||1表示一范数,l
vec
表示速度项损失函数,y
i-1
表示第i-1帧三维人脸动画序列,表示第i-1帧三维三维模板人脸序列真值,l
laplace
表示平滑项损失函数,y
i+1
表示第i+1帧三维人脸动画序列。9.根据权利要求1所述的基于重建人脸的语音驱动人脸序列生成方法,其特征在于,基于所述三维重建人脸和所述三维模板人脸序列,构建三维重建的语音驱动人脸序列,具体包括:获取所述三维模板人脸序列对应的3dmm模板人脸;基于nicp算法,根据所述三维重建人脸和所述3dmm模板人脸,计算3dmm模板人脸到三维重建人脸的形变参数;基于所述形变参数和所述三维模板人脸序列,得到三维重建的语音驱动人脸序列。10.一种基于重建人脸的语音驱动人脸序列生成系统,其特征在于,系统包括:数据获取子系统,用于获取一组待处理数据;所述待处理数据包括待处理多视觉人脸图片集、待处理语音片段以及所述待处理多视觉人脸图片集中每张图片对应的相对相机外参;人脸重建子系统,用于将所述待处理多视觉人脸图片集以及每张图片对应的相对相机外参输入至三维人脸重建模型,以得到三维重建人脸;其中,所述三维人脸重建模型包括光流特征提取模块和人脸构建模块;所述光流特征提取模块用于对所述待处理多视觉人脸图片集中每张图片进行特征提取,以得到预测人脸光流特征;所述人脸构建模块用于根据所述预测人脸光流特征和每张图片对应的相对相机外参,通过三角化过程重建人脸,以得到三维重建人脸;模板人脸序列构建子系统,用于将所述待处理语音片段输入至语音驱动人脸序列模型,以得到三维模板人脸序列;所述语音驱动人脸序列模型是基于语音样本片段集对语音驱动3dmm模板人脸模型进行训练得到的;所述语音样本片段集中的每个样本包括语音样本片段以及对应的三维模板人脸序列真值;所述语音驱动3dmm模板人脸模型包括生成器和判别器;所述生成器包括语音特征编码模块和人脸动画解码预测模块;所述语音特征编码模块和所述人脸动画解码预测模块均为transformer结构;重建人脸序列构建子系统,用于基于所述三维重建人脸和所述三维模板人脸序列,构建三维重建的语音驱动人脸序列。
技术总结
本发明公开一种基于重建人脸的语音驱动人脸序列生成方法及系统,涉及计算机视觉领域,方法包括:将待处理多视觉人脸图片集以及每张图片对应的相对相机外参输入至三维人脸重建模型以得到三维重建人脸;三维人脸重建模型包括光流特征提取模块和人脸构建模块;光流特征提取模块用于进行特征提取以得到预测人脸光流特征;人脸构建模块用于通过三角化过程重建人脸以得到三维重建人脸;将待处理语音片段输入至语音驱动人脸序列模型以得到三维模板人脸序列;基于三维重建人脸和三维模板人脸序列构建三维重建的语音驱动人脸序列。本发明能够快速获取高精度的重建人脸的语音驱动序列。列。列。
技术研发人员:于耀 刘健阳 周余
受保护的技术使用者:南京大学
技术研发日:2023.03.14
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/