一种基于元学习的语音驱动个性化人脸模型生成方法

未命名 10-08 阅读:103 评论:0


1.本发明涉及一种基于元学习的语音驱动个性化人脸模型生成方法,属于多模态视觉生成领域。


背景技术:

2.语音驱动人脸模型生成技术在许多领域都有应用,比如电影、游戏、虚拟现实、远程教育等。它可以帮助提高视听体验,减少制作成本,增强用户交互体验等。
3.语音驱动个性化人脸模型生成任务的学习主要分为两个层次,低层次是整体映射的学习,其内容包含语音特征到唇形轮廓所共通的开合变化;高层次是个人说话风格的学习,其内容表现在不同人在发出相同语音的情况下,在基础的唇形变化之上,由于个人习惯所产生的其他变形。
4.目前,多数语音驱动的人脸模型生成方法都建立在语音与三维人脸序列的大型4d数据集上。它们利用个人特征编码对数据集内不同人的说话风格进行表示。在生成过程中,则使用特定的几种特征编码以生成个性化的说话风格。然而,在此过程中这些方法都未能清晰的区分低层次映射与高层次映射的学习,将个人风格地学习局限于有限的数据集之中,令其在任意人身上的泛化性表现力有所欠缺。换句话说,这类方法在学习任意一个特定人的个人说话风格时,不仅需要采集该人的4d数据,还需要经过长时间、多轮次的优化。
5.为了能够在减轻采集数据的负担的同时快速地学习到个人说话风格,有必要构建一种通过少量样本数据个性化地驱动人脸模型的方法。尽管近年来,已有不少研究者开始尝试从少量人脸动画剪辑样本数据中,学习不同人的说话风格。但它们主要为基于二维图像的人脸动画生成方法。三维人脸模型的缺失意味着在对三维数据具有强需求的应用场景,如虚拟现实等情形下,当前的方法都不再适宜。


技术实现要素:

6.针对目前三维人脸模型表示下的少样本的语音驱动个性化缺失的问题,本发明的主要目的是提供一种基于元学习的语音驱动个性化人脸模型生成方法,采用元学习(meta-learning)方法分层次学习整体映射和个人说话风格,通过任意人的少量样本数据对整体映射进行微调,以适应特定人的说话风格;同时利用预训练的自监督语音大模型对语音特征进行提取;通过人脸参数化模型将人脸基础形状与表情、姿态参数解耦,以简化复杂的模态转换问题。能够仅通过少量样本快速适应特定人的说话风格,提高个性化生成人脸模型序列的能力,增强用户交互体验,降低个性化过程所需成本。
7.本发明的目的是通过以下技术方案实现的:
8.本发明公开的一种基于元学习的语音驱动个性化人脸模型生成方法,包括如下步骤:
9.步骤1、采集不同人匹配的语音与人脸模型序列数据集,其中语音信号频率为f1,人脸模型序列频率为f2;
10.步骤2、利用预训练的语音特征编码器ε对语音信号z进行特征提取,以得到语音特征向量x=(x1,x2,

,x
t
);
11.所述特征能够表示语音内容及说话人身份信息。
12.语音编码器ε由语音特征提取器、线性插值层以及多头自注意力网络(transformer)结构组成。
13.语音特征提取器的主要结构为时序卷积层(temporal convolutions laysers,tcn),其将语音信号f1频率转换为语音隐变量频率f
$
,得到语音隐变量h=(h1,h2,

,h
t

)。
14.线性插值层(linear interpolaion)将提取的语音隐向量频率f
$
与三维脸部形变序列所对应的频率f2对齐,并将插值后的语音隐变量h

输入多头自注意力网络。
15.多头自注意力网络采用注意力机制,通过对序列特征加权来处理长序列问题。将语音隐变量h

转换为语音特征向量x。
16.步骤3、构建人脸特征解码器d
ξ
,用于生成语音特征x
t
对应的人脸模型
17.人脸特征解码器分为人脸参数预测以及人脸模型重建两部分。
18.在人脸参数预测部分,将语音特征x
t
分别输入多层感知机以及获得t时刻的人脸估计姿态参数γ
t
和表情参数μ
t

19.在人脸模型重建部分,首先输入特定人的标准人脸模型g
ξ
,并利用人脸参数化模型,根据t时刻语音特征对应的姿态参数γ
t
、表情参数μ
t
以及g
ξ
,计算t时刻预测的人脸模型
20.步骤4、计算总损失函数;
21.总损失函数其中λ为对帧间距离的加权项。
22.其中,帧间距离
23.其中,帧内距离即预测的人脸模型序列与真值v=(v1,v2,

,v
t
)之间每时刻的之和,
24.其中,预测得到的与真值v
t
之间的二范式距离
25.步骤5、采用元学习优化方法,训练元阶段的语音特征编码器ε、多层感知机以及的模型参数w;
26.5.1、从数据集中采样特定人ξ1,ξ2,

,ξn。
27.5.2、对于每个特定人ξi,重复步骤2到4,得到ξi的总损失并根据梯度下降法计算迭代后的模型参数
28.5.3、在得到n个特定人的模型参数后,更新模型参数w为后,更新模型参数w为
29.步骤6、重复步骤5,直到达到迭代精度,获得表达语音到人脸模型序列变化整体映射的模型参数w
*

30.步骤7、采集少量目标人的语音与人脸模型序列样本,各个数据的频率与步骤1所
提数据集一致;
31.步骤8、使用步骤6得到的模型参数w
*
作为初始权重,利用步骤7采集到的数据集,并根据步骤4所得的总损失对目标人ξ

的语音特征编码器ε与人脸特征解码器d
ξ

进行训练,直到达到迭代精度。得到能够表达目标人ξ

的个人说话风格的模型参数的个人说话风格的模型参数
32.步骤9、将步骤8得到参数作为语音特征编码器ε以及人脸特征解码器d
ξ

的模型参数,通过语音特征编码器ε对任意语音信号z

提取特征,同时提供目标人ξ

标准人脸模型g
ξ

,共同输入到人脸特征解码器d
ξ

中,得到在目标人ξ

说话风格下,语音信号z

对g
ξ

的驱动结果,即随语音z

变化的人脸模型序列。提高个性化生成人脸模型序列的能力,增强用户交互体验,降低个性化过程所需成本。
33.有益效果:
34.1、本发明公开的一种基于元学习的语音驱动个性化人脸模型生成方法,通过分层次学习整体映射与个人说话风格,采用两阶段的训练方案:在元学习阶段,根据大量数据学习语音特征与人脸模型变形的整体映射;在微调阶段,通过少量样本在元学习阶段所得的整体映射上进行个性化训练,快速适应目标人的说话风格。提高训练的效率,提高个性化生成人脸模型序列的能力,增强用户交互体验,并降低个性化过程所需成本;
35.2、本发明公开的一种基于元学习的语音驱动个性化人脸模型生成方法,利用自监督的语音预训练模型提取语音特征,并借助人脸参数化模型将人脸模型的基础形状、姿态与表情解耦,简化复杂的模态转换问题,提高训练的效率。
附图说明
36.图1是本发明公开的一种基于元学习的语音驱动个性化人脸模型生成方法的流程图;
37.图2是本实施例中语音驱动个性化人脸模型生成方法的网络结构图;
38.图3是本实施例中使用外形、姿态、表情参数控制人脸参数模型的效果图;
39.图4是本实施例中元学习过程中网络模型参数迭代的示意图。
具体实施方式
40.下面将结合附图和实施例对本发明加以详细说明。同时也叙述了本发明技术方案解决的技术问题及有益效果,需要指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
41.本实施例公开的一种基于元学习的语音驱动个性化人脸模型生成方法,应用于语音驱动人脸模型任务,以解决在三维表示情形下个性化驱动人脸模型时,需要以高昂的成本采集三维数据并耗费大量时间进行训练的问题,最终本实施例仅通过少量样本快速学习目标人的个人说话风格,如图1所示,包含以下步骤:
42.步骤1、处理公共数据集vocaset,其中语音信号频率为f1=16000hz,人脸模型序列频率为f2=60fps。将vocaset所提供的三维数据根据人脸参数模型flame进行配准,转换为flame拓扑形式,其中包含5023个顶点。
43.步骤2、利用预训练的语音特征编码器ε对语音信号z进行特征提取,以得到语音特征向量x=(x1,x2,

,x
t
)。
44.具体上,语音编码器ε由语音特征提取器、线性插值层以及多头自注意力网络结构组成。
45.语音特征提取器将频率为16000hz的语音信号转换为频率为50fps的语音特征向量。语音特征提取器以7个由时序卷积层、正则化层与gelu激活层组成的模块构成。时序卷积层的卷积核为512通道(channels),步长(strides)依次为(5,2,2,2,2,2,2),宽度依次为(10,3,3,3,3,2,2)。
46.线性插值层(linear interpolaion)将提取的语音隐向量频率f
$
=50fps与三维脸部形变序列所对应的频率f2=60fps对齐,并将插值后的语音隐变量h

输入多头自注意力网络。
47.多头自注意力网络采用attention is all you need一文中提出的注意力机制,其中的每个注意力模块i=16将经过线性插值层得到的语音隐变量序列h

=[h
′1,h
′2,

,h

t
)中的每个特征h

t
通过线性映射w
ik
、w
iq
以及w
ic
映射为关键值查询项和价值项其公式如下所示,
[0048][0049]
对于关键值序列查询项序列价值项价值项进行如下变换,
[0050][0051]
将每个头得到的信息拼接得到p=(p1,p2,

,p
l
),并对其进行线性变换wo,其公式如下所示,
[0052]
x=pwo[0053]
最终获得语音特征向量x。
[0054]
步骤3、构建人脸特征解码器d
ξ
,用于生成语音特征x
t
对应的人脸模型
[0055]
人脸特征解码器分为两部分,分别为人脸参数预测以及人脸模型重建。
[0056]
在人脸参数预测部分,需要将语音特征x
t
分别输入多层感知机以及以获得t时刻的人脸估计姿态参数γ
t
和表情参数μ
t
。其中多层感知机以及的输出层分别包含3和100个神经元,并通过填充0将输出分别补全为6和300维度的特征向量以作为姿态参数γ
t
和表情参数μ
t

[0057]
在人脸模型重建部分,首先需要输入特定人的标准人脸模型g
ξ
,并利用learning a model of facial shape and expression from 4d scans一文中提出的人脸参数化模型(flame),根据t时刻语音特征对应的姿态参数γ
t
、表情参数μ
t
以及g
ξ
,计算t时刻预测的人脸模型不同外形、姿态、表情参数下,获得的如图2所示。
[0058]
具体上,利用flame在人脸模型数据中学习到的外形混合形状集合s确定特定人ξ基础形状顶点的坐标位置其中表示均匀人脸模型顶点坐标位置,表
示外形校正位移函数,计算公式如下,
[0059][0060]
其中,为混合形状主成分集合s组成的向量。
[0061]
进而,依据预测的姿态参数γ
t
、表情参数μ
t
对t时刻的顶点坐标做出校正。公式如下所示,
[0062][0063]
其中,p为姿态参数的混合形状集合,表示姿态校正位移函数,计算公式如下,
[0064][0065]
其中,为姿态参数对应的旋转矩阵,为标准姿态的人脸模型所对应的姿态参数,p=[p1,p2,

,p
9k
]为混合姿态主成分集合p组成的向量。
[0066]
e为表情参数的混合形状集合,表示表情校正位移函数,计算公式如下,
[0067][0068]
其中,为混合形状主成分集合e组成的向量。
[0069]
步骤4、计算总损失函数其中λ为对帧间距离的加权项。
[0070]
其中,帧间距离
[0071]
其中,帧内距离即预测的人脸模型序列与真值v=(v1,v2,

,v
t
)之间每时刻的l
t
之和,
[0072]
其中,预测得到的与真值v
t
之间的二范式距离
[0073]
步骤5、根据reptile:a scalable metalearning algorithm一文中所提出的元学习优化方法,训练元阶段的语音特征编码器ε、多层感知机以及的模型参数w。
[0074]
具体上,从数据集中采样特定人ξ1,ξ2,

,ξ1。
[0075]
对于每个特定人ξi,重复步骤2到4,得到ξi的总损失并根据梯度下降法计算迭代后的模型参数
[0076]
在得到n个特定人的模型参数后,更新模型参数w为后,更新模型参数w为其更新过程如图3所示。
[0077]
步骤6、重复步骤5,将数据集vocaset训练10000epochs后停止。至此,获得表达语音到人脸模型序列变化整体映射的模型参数w
*

[0078]
步骤7、采集20s左右的目标人的语音与人脸模型序列样本,各个数据的频率以及处理方式与步骤1所提数据集一致。
[0079]
步骤8、使用步骤6得到的模型参数w
*
作为初始权重,根据步骤4所提总损失对目标人ξ

的语音特征编码器ε与人脸特征解码器d
ξ

进行训练,直到将步骤7中所采集的样本迭代1000epochs。最后,得到可以表达目标人ξ

的个人说话风格的模型参数
[0080]
步骤9、将步骤8得到参数作为语音特征编码器ε以及人脸特征解码器d
ξ

的模型参数,通过语音特征编码器ε对任意语音信号z

提取特征,同时提供目标人ξ

标准人脸模型g
ξ

,共同输入到人脸特征解码器d
ξ

中,以得到在目标人ξ

说话风格下,语音信号z

对g
ξ

的驱动结果,即随语音z

变化的人脸模型序列。
[0081]
本实施例使用唇形同步误差,在已知个人风格和未知个人风格两种情形下,与已有方法进行对比测试,得到各方法测试结果如下表1所示。
[0082]
表1各种方法测试结果对比
[0083][0084]
帧级别的唇型同步误差为单个帧中所有唇型顶点与真实顶点l2距离的最大值,而测试集的唇型同步评估指标则为其中每一帧的唇型同步误差的平均值,唇形同步误差越小表示方法的驱动结果越准确。
[0085]
表中所示本发明方法为元阶段方法经过微调阶段训练后所得个性化生成模型。对比已有方法,本发明方法在元阶段方法基础上显著提升了每名目标人个性化驱动结果的准确性,因此本发明能够通过少量样本快速学习目标人的个人说话风格,提高个性化生成人脸模型序列的能力。
[0086]
表中已知个人风格情形表示目标人的数据参与各个测试方法的训练过程,相反未知个人风格情形表示目标人数据在训练过程中不可见。本发明方法与已有方法相比,在未知个人风格情形下,能大幅度降低唇形同步误差,获得更为个性化的驱动结果,因此本发明方法可以在获得个性化驱动结果的同时降低对样本数据的需求量,这有助于减少个性化过程所需的数据采集以及时间成本。
[0087]
本实施例的测试结果表明,本发明方法能够仅通过少量样本快速适应特定人的说话风格,提高个性化生成人脸模型序列的能力,增强用户交互体验,降低个性化过程所需成本。
[0088]
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于元学习的语音驱动个性化人脸模型生成方法,其特征在于:包括如下步骤,步骤1、采集不同人匹配的语音与人脸模型序列数据集,其中语音信号频率为f1,人脸模型序列频率为f2;步骤2、利用预训练的语音特征编码器ε对语音信号z进行特征提取,以得到语音特征向量x=(x1,x2,

,x
t
);步骤3、构建人脸特征解码器d
ξ
,用于生成语音特征x
t
对应的人脸模型步骤4、计算总损失函数;步骤5、采用元学习优化方法,训练元阶段的语音特征编码器ε、多层感知机以及的模型参数w;步骤6、重复步骤5,直到达到迭代精度,获得表达语音到人脸模型序列变化整体映射的模型参数w
*
;步骤7、采集少量目标人的语音与人脸模型序列样本,各个数据的频率与步骤1所提数据集一致;步骤8、使用步骤6得到的模型参数w
*
作为初始权重,根据步骤4所得的总损失对目标人ξ

的语音特征编码器ε与人脸特征解码器d
ξ

进行训练,直到达到迭代精度;得到能够表达目标人ξ

的个人说话风格的模型参数步骤9、将步骤8得到参数作为语音特征编码器ε以及人脸特征解码器d
ξ

的模型参数,通过语音特征编码器ε对任意语音信号z

提取特征,同时提供目标人ξ

标准人脸模型g
ξ

,共同输入到人脸特征解码器d
ξ

中,得到在目标人ξ

说话风格下,语音信号z

对g
ξ

的驱动结果,即随语音z

变化的人脸模型序列;提高个性化生成人脸模型序列的能力,增强用户交互体验,降低个性化过程所需成本。2.如权利要求1所述的一种基于元学习的语音驱动个性化人脸模型生成方法,其特征在于:步骤2的实现方法为,所述特征能够表示语音内容及说话人身份信息;语音编码器ε由语音特征提取器、线性插值层以及多头自注意力网络结构组成;语音特征提取器的主要结构为时序卷积层,其将语音信号f1频率转换为语音隐变量频率f3,得到语音隐变量h=(h1,h2,...,h
t

);线性插值层将提取的语音隐向量频率f3与三维脸部形变序列所对应的频率f2对齐,并将插值后的语音隐变量h

输入多头自注意力网络;多头自注意力网络采用注意力机制,通过对序列特征加权来处理长序列问题;将语音隐变量h

转换为语音特征向量x。3.如权利要求2所述的一种基于元学习的语音驱动个性化人脸模型生成方法,其特征在于:步骤3的实现方法为,人脸特征解码器分为人脸参数预测以及人脸模型重建两部分;在人脸参数预测部分,将语音特征x
t
分别输入多层感知机以及获得t时刻的人脸估计姿态参数γ
t
和表情参数μ
t
;在人脸模型重建部分,首先输入特定人的标准人脸模型g
ξ
,并利用人脸参数化模型,根据t时刻语音特征对应的姿态参数γ
t
、表情参数μ
t
以及g
ξ
,计算t时刻预测的人脸模型
4.如权利要求3所述的一种基于元学习的语音驱动个性化人脸模型生成方法,其特征在于:步骤4的实现方法为,总损失函数其中λ为对帧间距离的加权项;其中,帧间距离其中,帧内距离即预测的人脸模型序列与真值v=(v1,v2,...,v
t
)之间每时刻的l
t
之和,其中,预测得到的与真值v
t
之间的二范式距离5.如权利要求4所述的一种基于元学习的语音驱动个性化人脸模型生成方法,其特征在于:步骤5的实现方法为,5.1、从数据集中采样特定人ξ1,ξ2,...,ξ
n
;5.2、对于每个特定人ξ
i
,重复步骤2到4,得到ξ
i
的总损失并根据梯度下降法计算迭代后的模型参数5.3、在得到n个特定人的模型参数后,更新模型参数w为后,更新模型参数w为

技术总结
一种基于元学习的语音驱动个性化人脸模型生成方法,属于多模态视觉生成领域。通过分层次学习整体映射与个人说话风格,采用两阶段的训练方案:在元学习阶段,根据大量数据学习语音特征与人脸模型变形的整体映射;在微调阶段,通过少量样本在元学习阶段所得的整体映射上进行个性化训练,快速适应目标人的说话风格。利用自监督的语音预训练模型提取语音特征,并借助人脸参数化模型将人脸模型的基础形状、姿态与表情解耦,简化复杂的模态转换问题,提高训练的效率。本发明适用电影、虚拟现实等领域,通过少量样本快速适应特定人的说话风格,提高个性化生成人脸模型序列的能力,增强用户交互体验,降低个性化过程所需成本。降低个性化过程所需成本。降低个性化过程所需成本。


技术研发人员:黄华 赵天琦
受保护的技术使用者:北京理工大学
技术研发日:2023.07.03
技术公布日:2023/10/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐