一种自监督模型的舌部超声图像合成语音方法

未命名 07-12 阅读:80 评论:0


1.本案涉及电子信息技术,尤其涉及一种自监督模型的舌部超声图像合成语音方法。


背景技术:

2.无声语音接口技术的基本原理:通过传感器获取人体发音器官例如舌头,唇部的运动信号,并对信号进行处理和编码,然后选择恰当的模型与算法进行解码,最后合成、重建语音。这实现了非声学信号到声学信号的转换,用来达到无声交流的目的。
3.近年来,形成了不少解决无声语音接口技术相关问题的研究,其中一种为基于图像、视频流的唇部光学图像或舌部超声图像的语音合成方法。这种方法获取数据是非侵入式,具有临床安全性,可以获得大量的自然数据,以作为训练样本。但直接通过唇部视频合成语音的方法,在与智能设备交互时,易受环境影响,有一定局限性;如光照条件较差或是使用者戴口罩时将不能达到很好的效果。此外,对有唇语经验的人,直接使用唇部视频也有个人信息被泄露的风险,保密性较弱。此类技术一般使用编码器-解码器框架的序列模型作为解决方法。但这些神经网络的训练往往需要大量的视频-音频同步数据监督训练,模型也往往难以收敛。


技术实现要素:

4.针对上述问题,本案旨在通过深度学习技术,直接通过超声成像方法找出人说话时舌头运动的特征,建立超声舌部图像与语音之间的映射关系,从而实现端到端的语音合成。该技术方案不易受环境影响,保密性较强。针对训练时的需要监督数据多,模型收敛难度大的问题,通过引入一种自监督学习框架,并设计了用于预测自动发现和迭代细化的多模态隐藏单元,该单元用于挖掘经掩码操作后图像特征或声学特征中存在的部分有效特征,并通过训练学习,能够以高准确率基于部分有效特征还原完整声学特征,从而增强模型的泛化能力,适当降低使用的训练数据,且使模型更容易收敛。
5.第一方面,本案提出一种自监督模型的舌部超声图像合成语音方法,所述方法包括下述步骤:
6.获取舌部超声图像序列,利用训练好的学生网络预测舌部超声图像序列对应的一段声学特征,并合成语音;
7.所述学生网络在训练时,结合教师网络训练,与教师网络构成自监督学习框架,采用掩码策略自动发现并预测无标签数据集中的有用信息。
8.在上述技术方案中,通过深度学习技术,利用训练好的学生网络建立超声舌部图像与语音之间的映射关系,直接从舌部超声成像获取人说话时舌头运动的特征,从而实现端到端的语音合成。该方法获取数据的方式是非侵入式的,不易受环境影响,保密性强。通过自监督的学习框架,解决训练时需要监督的问题,减少人工标注工作量。
9.在一种实施方式中,学生网络与教师网络的具体结构为:两者均包括编码器、解码
器、音频特征提取单元;音频特征提取单元,用于分离舌部超声视频中的音频部分,将音频波形转换为梅尔频谱;编码器使用3d-cnn网络提取舌部图像的视觉特征;解码器使用transformer模块处理编码器输出的隐藏状态特征向量,所述隐藏特征向量用于推测梅尔频谱并合成语音。
10.作为上述技术方案的进一步改进,通过在训练阶段掩盖部分视频的视觉特征或音频的梅尔频谱特征,设计预测自动发现的多模态隐藏单元,增强模型的泛化能力,通过迭代细化,适当降低使用的训练数据,并让模型更容易收敛。一种改进的具体实施方式如下
11.在学生网络中设置第一视听融合模块,位于学生网络中的transformer模块之前;
12.在教师网络中设置第二视听融合模块,位于教师网络中的transformer模块之前;
13.第一视听融合模块和第二视听融合模块用于接收视觉特征和视觉特征一一对应的梅尔频谱两种模态数据;
14.在训练时,输入第一视听融合模块的两种模态数据,经过随机掩码处理,并经第一视听融合模块进行选择性丢弃。一种实施方式中,第一视听融合模块采用下述概率计算公式选择性使用其中的一种模态数据:
[0015][0016]
其中,表示最终使用的特征序列,为音频特征序列,为视频特征序列,concat()表示为按通道级联,pm为使用两种模态的概率,pa为仅使用一种模态下,使用音频模态的概率。
[0017]
作为上述技术方案的进一步改进,通过对学生网络的训练输入数据音频,添加随机噪声以增强模型的鲁棒性,即学生网络的训练输入数据是添加随机噪声的音频、与添加随机噪声前的音频一一对应的舌部图像序列,而教师网络的训练输入数据是完全干净的音频,即教师网络的输入数据分别是纯音频、与纯音频一一对应的舌部图像序列。
[0018]
在上述技术方案中,对学生网络和教师网络的训练,一种实施方式如下:
[0019]
教师网络生成学习目标,学生网络生成预测目标,学习目标和预测目标之间的误差通过下述损失函数计算:
[0020][0021]
其中:x
t
为学生网络的预测目标值,y
t
为教师网络的学习目标值,ma和mv分别为音频和视频的掩码数据;
[0022]
学生网络通过反向传播算法更新梯度,教师网络的梯度固定不动;
[0023]
教师网络的参数更新只在transformer模块,在更新时,基于学生网络中的transformer模块进行参数更新。
[0024]
在上述技术方案的一种实施方式中,教师网络中的transformer模块,由学生网络中的transformer模块采用指数平均移动(exponentially moving average,ema)传递,更新公式为:
[0025]
[0026]
其中,θi和分别表示教师网络中的transformer模块参数和学生网络中的transformer模块参数,i为更新次数标识,λ为控制更新次数的超参数。
[0027]
在上述技术方案的一种实施方式中,教师网络中的transformer模块输出特征,经过正则化取平均处理。
[0028]
在上述技术方案中,解码器输出的声学特征,其合成的语音的音频波形满足条件概率p(w|u):
[0029]
p(w|u)=decoder(hu)
[0030]
其中:
[0031]
p(w|u)=πk(wk|w
k<t
,u)
[0032]
式中,wk为时间步长k的音频波形,w
k<t
为时间步长k以前的时间步长的音频波形,t为时间步长k以前的时间步长数,u为编码器的输入图像序列,w为在时间上与图像序列u同步的音频波形序列,hu为编码器基于图像序列u提取的隐藏状态特征。
[0033]
第二方面,本案提出一种计算机可读存储介质,存储有能够被处理器加载并执行上述任一种方法的计算机程序。
附图说明
[0034]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]
图1、在实施方式中舌部超声图像合成语音的流程示意图;
[0036]
图2、在实施方式中由“教师网络”和“学生网络”组成的自监督学习框架示意图。
具体实施方式
[0037]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。
[0038]
基于图像、视频流的方法获取数据是非侵入式,临床安全的,自然数据量大,可供训练的样本多。但直接通过唇部视频合成语音的方法在与智能设备交互时易受环境影响,有一定局限性;如光照条件较差或是使用者戴口罩时将不能达到很好的效果。此外,对于有唇语经验者,直接使用唇部视频也有个人信息被泄露的风险,保密性较弱。经权衡,本发明的数据集来源仅使用超声舌部图像。此类技术一般使用编码器-解码器框架的序列模型作为解决方法。但是,这些神经网络的训练往往需要大量的视频音频同步数据监督训练,模型也往往难以收敛。
[0039]
在一种实施方式中,采用一种自监督模型的舌部超声图像合成语音方法,以解决上述技术问题。方法如下:
[0040]
获取舌部超声图像序列,利用训练好的学生网络预测舌部超声图像序列对应的一段声学特征,并合成语音。
[0041]
所述学生网络在训练时,结合教师网络训练,与教师网络构成自监督学习框架,采用掩码策略自动发现并预测无标签数据集中的有用信息。
[0042]
基于舌部超声图像序列进行声学特征预测的原理在于:给定一个时间长度为t的音频波形序列w=[w1,w2,

,w
t
]和来自同一说话人的超声舌部图像序列u=[u1,u2,

,u
t
],这两个序列在时间上是一致和同步的。当前时间步长k的音频波形输出为wk,它可以示为以前的时间步长w
k<t
和超声图像序列u的条件概率分布,即:
[0043]
p(w|u)=πk(wk|w
k<t
,u)
[0044]
因此,在获取舌部超声图像后,通过深度学习神经网络技术,从舌部超声图像序列提取视觉特征并以学习到的条件概率p(w|u)推测出其对应的声学特征,基于该声学特征,可以合成得到人耳可听的声音。
[0045]
在实施过程中,舌部超声图像可以从舌部超声视频中获取,选择恰当的帧速率将视频转换为图像序列并标明序号。如图1所示,视觉特征采用视觉编码器提取,编码器将输入的图像序列转换为隐藏状态向量h,编码器的总输出是向量h=[h1,h2,

,h
t
],它将被送入声学解码器的注意力模块,输出声学特征。编码器、解码器均为深度学习神经网络模型。解码器输出的声学特征,其合成的语音的音频波形满足条件概率p(w|u)分布:
[0046]
p(w|u)=decoder(hu)
[0047]
而hu为编码器基于图像序列u提取的隐藏状态特征:
[0048]hu
=encoder(u)
[0049]
同步的音频波形序列和图像序列,通过使用b型超声仪采集带有声音的舌部超声视频可以获得。如上所述,图像序列可以使用恰当的帧速率将视频转换获得,而音频波形序列,可以先将视频的音频部分分离出来,然后将音频波形装换为声学特征更加丰富的梅尔频谱。每条视频记录中图像序列与梅尔频谱一一对应,作为模型训练时的数据集使用。对于梅尔频谱,使用梅尔频谱系数(mel frequency cepstral coefficients,mfcc)来提取声学特征,它的系数公式为:
[0050]
mel(f)=2595(1+f/700)
[0051]
式中,f为音频频率。
[0052]
针对训练时的需要监督数据多,模型收敛难度大的问题,实施时采用自监督学习框架,通过自监督学习通过掩码策略自动发现并预测无标签数据集中的有用信息,以替代繁琐的人工标注。
[0053]
在实施过程中,采用如图2所示的自监督学习框架,其包括学生网络和教师网络,两者具有几乎相同的结构,都是基于“编码器-解码器”架构的跨模态深度学习模型。两者均包括编码器、解码器、音频特征提取单元。其中:音频特征提取单元,用于分离舌部超声视频中的音频部分,将音频波形转换为梅尔频谱;编码器使用3d-cnn网络提取舌部图像的视觉特征;解码器使用transformer模块处理编码器输出的隐藏状态特征向量,所述隐藏特征向量用于推测梅尔频谱并合成语音。
[0054]
不同的是,学生网络包括第一视听融合模块,位于学生网络中的transformer模块之前;教师网络包括第二视听融合模块,位于教师网络中的transformer模块之前;第一视听融合模块和第二视听融合模块用于接收视觉特征和视觉特征一一对应的梅尔频谱两种模态数据;在训练时,输入第一视听融合模块的两种模态数据,经过随机掩码处理,并经第一视听融合模块进行选择性丢弃。也就是,在训练时,学生网络的输入包括两种模态数据流,一种是添加随机噪声的音频,以增加模型的鲁棒性。另一种是舌部超声图像序列。两种
模态数据通过第一视听融合模块串联。在串联前,分别对两种模态的部分数据特征进行随机掩码(mask),即在输入序列中随机选择一些位置,并将这些位置上的数据替换为一个特殊的标记,表示该位置上的数据被遮蔽了,从而实现对部分数据特征进行部分程度的遮掩。串联后,又通过一定概率选择使用其中的一种或两种模态数据:
[0055][0056]
其中,表示最终使用的特征序列,为音频特征序列,为视频特征序列,concat()表示为按通道级联,pm为使用两种模态的概率,pa为仅使用一种模态下,使用音频模态的概率。
[0057]
而教师网络在训练时输入的数据是完全干净的音频和该音频对应的舌部超声图像序列,并且教师网络的编码器输出的两种模态数据流没有进行掩码(mask),串联后的模态也不会被丢弃。此外,网络中的transformer模块输出特征,经过正则化取平均处理,以加快模型收敛,避免模型过拟合。
[0058]
在训练过程中,教师网络生成完整的学习目标,学生网络生成预测目标,将学习目标和预测目标的声学特征结构进行对比,两者误差通过下述损失函数计算:
[0059][0060]
其中:x
t
为学生网络的预测目标值,y
t
为教师网络的学习目标值,ma和mv分别为音频和视频的掩码数据。具体地,学生网络通过反向传播算法更新梯度,教师网络的梯度固定不动。教师网络的参数更新只在transformer模块,通过指数平均移动(exponentially moving average,ema)由学生模块传递。
[0061]
更新公式为:
[0062][0063]
其中,θi和分别表示教师网络中的transformer模块参数和学生网络中的transformer模块参数,i为更新次数标识,λ为控制更新次数的超参数。
[0064]
设λb为初始值,λe为结束值,n为更新的总次数,
[0065][0066]
其中,λi为当前值。
[0067]
在图2中中,可将模型经掩码后的权重、3d卷积模块之后,transformer模块之前的总的部分视为一个多模态隐藏单元。多模态隐藏单元用于挖掘经掩码操作后图像特征或声学特征中存在的部分有效特征,通过训练过程的迭代细化学习,实现自动预测发现部分有效特征和完整声学特征之间关系,并逐步提高准确率,从而增强模型的泛化能力,进而适当降低使用的训练数据,且使模型更容易收敛。
[0068]
在模型训练完成后,使用不带语音的舌部超声视频进行预测,生成用于重建语音的梅尔频谱预测图。使用griffin lim算法,通过预测的梅尔频谱重建时域信号,得到人耳可听的声音波形。
[0069]
根据上述方法的实施过程,可以进一步实施为一种自监督模型的舌部超声图像合成语音系统。进一步地,通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本公开方法或系统可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本公开而言更多情况下,软件程序实现是更佳的实施方式。
[0070]
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

技术特征:
1.一种自监督模型的舌部超声图像合成语音方法,其特征在于,所述方法如下:通过获取舌部超声图像序列,利用训练好的学生网络预测舌部超声图像序列对应的一段声学特征,并合成语音;所述学生网络在训练时,结合教师网络训练,与教师网络构成自监督学习框架,采用掩码策略自动发现并预测无标签数据集中的有用信息。2.根据权利要求1所述的方法,其特征在于:学生网络与教师网络均包括编码器、解码器、音频特征提取单元;音频特征提取单元,用于分离舌部超声视频中的音频部分,将音频波形转换为梅尔频谱;编码器使用3d-cnn网络提取舌部图像的视觉特征;解码器使用transformer模块处理编码器输出的隐藏状态特征向量,所述隐藏特征向量用于推测梅尔频谱并合成语音。3.根据权利要求2所述的方法,其特征在于:学生网络包括第一视听融合模块,位于学生网络中的transformer模块之前;教师网络包括第二视听融合模块,位于教师网络中的transformer模块之前;第一视听融合模块和第二视听融合模块用于接收视觉特征和视觉特征一一对应的梅尔频谱两种模态数据;在训练时,输入第一视听融合模块的两种模态数据,经过随机掩码处理,并经第一视听融合模块进行选择性丢弃。4.根据权利要求1所述的方法,其特征在于:学生网络的训练输入数据分别是添加随机噪声的音频、与添加随机噪声前的音频一一对应的舌部图像序列;教师网络的训练输入数据分别是纯音频、与纯音频一一对应的舌部图像序列。5.根据权利要求1所述的方法,其特征在于,学生网络和教师网络的训练实现过程如下:教师网络生成学习目标,学生网络生成预测目标,学习目标和预测目标之间的误差通过下述损失函数计算:其中:x
t
为学生网络的预测目标值,y
t
为教师网络的学习目标值,m
a
和m
v
分别为音频和视频的掩码数据;学生网络通过反向传播算法更新梯度,教师网络的梯度固定不动;教师网络的参数更新只在transformer模块,在更新时,基于学生网络中的transformer模块进行参数更新。6.根据权利要求1所述的方法,其特征在于,教师网络中的transformer模块,由学生网络中的transformer模块采用指数平均移动(exponentially moving average,ema)传递,更新公式为:
其中,θ
i
和分别表示教师网络中的transformer模块参数和学生网络中的transformer模块参数,i为更新次数标识,λ为控制更新次数的超参数。7.根据权利要求2所述的方法,其特征在于,教师网络中的transformer模块输出特征,经过正则化取平均处理。8.根据权利要求2所述的方法,其特征在于,解码器输出的声学特征,其合成的语音的音频波形满足条件概率p(w|u):p(w|u)=decoder(h
u
)其中:p(w|u)=∏
k
(w
k
|w
k<t
,u)式中,w
k
为时间步长k的音频波形,w
k<t
为时间步长k以前的时间步长的音频波形,t为时间步长k以前的时间步长数,u为编码器的输入图像序列,w为在时间上与图像序列u同步的音频波形序列,h
u
为编码器基于图像序列u提取的隐藏状态特征。9.根据权利要求3所述的方法,其特征在于,第一视听融合模块采用下述概率计算公式选择性使用其中的一种或多种模态数据:其中,表示最终使用的特征序列,为音频特征序列,为视频特征序列,concat()表示为按通道级联,p
m
为使用两种模态的概率,p
a
为仅使用一种模态下,使用音频模态的概率。10.一种计算机可读存储介质,其特征在于:存储有能够被处理器加载并执行如权利要求1至9中任一种方法的计算机程序。

技术总结
本案涉及一种自监督模型的舌部超声图像合成语音方法,属于电子信息技术领域。本案旨在通过深度学习技术,直接通过超声成像方法找出人说话时舌头运动的特征,建立超声舌部图像与语音之间的映射关系,从而实现端到端的语音合成。该方法不易受环境影响,保密性较强。针对训练时的需要监督数据多,模型收敛难度大的问题,采用一种自监督的学习框架,它可以在训练阶段掩盖部分视频或音频的输入,并预测自动发现和迭代细化的多模态隐藏单元,增强模型的泛化能力,适当降低使用的训练数据,并让模型更容易收敛。容易收敛。容易收敛。


技术研发人员:郭师峰 任伟民 李叶海 吴新宇 冯伟
受保护的技术使用者:中国科学院深圳先进技术研究院
技术研发日:2023.03.07
技术公布日:2023/7/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐