基于视听多模态融合的土家语语音识别方法

未命名 09-10 阅读:99 评论:0


1.本发明属于人工智能技术、视听融合语音识别技术领域,涉及注意力机制融合与动态梯度优化的语音识别技术,尤其涉及一种基于视听多模态融合的土家语语音识别方法。


背景技术:

2.濒危语言是指使用人数越来越少的、将要灭绝的语言,可采集的语音数据量非常有限,属于低资源语言,许多趋于濒危或面临消亡的语言和方言就属于这一范畴。土家语作为典型的濒危语言,是土家族世代相传的语言,它属于汉藏语系藏缅语族,主要特点是没有专门用于记录这种语言的符号,即没有文字。由于受到大语种的冲击和母语人的稀少,土家语已经是一种严重濒危的少数民族语言。语言的消亡将极大地损害文化的多样性,因此采取可行,有效的措施对濒危语言进行保护是目前语言学家们面临的紧要任务。
3.基于人工智能技术,语言学家对采集好的语料通过仔细听辨音频,将每个发音用国际音标的形式标注出来,这一过程可以看作是声音序列到国际音标文本序列的映射过程,自动语音识别(automatic speech recognition,asr)技术即是可以实现这一过程的方法,因此可以利用语音识别技术帮助语言学家进行濒危语言标注处理,使得非母语人也能通过技术手段对原始语料进行标注,解决语料标注难的问题。综上所述,利用深度学习的语音识别方法对采集的视频、音频和少量人工文本标注进行学习,借此解决对少数民族方言口语的标音和汉语对译问题,实现自动化标注是值得深入探究的方向,将其应用到抢救和保存濒危语言资料中,能够很大程度上减少人力和时间成本,具有重要的理论意义和应用价值。
4.如今多媒体数据已成为多种信息的传递媒介,利用多模态机器学习方法实现处理和理解多源模态信息的能力也逐渐被挖掘,有效提高了不同数据形式的利用率,为低资源语言的语音识别拓宽了研究思路。视听语音识别(audio-visual speech recognition,avsr)技术作为多模态学习的重要方向之一,指的是在单模态语音识别基础上,增加视觉信息,经过综合判断后完成从语音到文本的转写过程。avsr的提出是基于人类的双模态言语感知机制。在日常面对面的言语交流过程中,人们通常通过结合耳朵听到的信息和看到的说话人的唇部动作信息,来确定对方的说话内容,这种方式在噪声较大的,听不见话语内容的情况下尤其明显。因此人类对言语的感知过程是对听觉模态和视觉模态的融合处理过程,即在人工智能领域所说的视听融合。这一技术正是通过模拟人类双模态言语感知的过程,利用视听语音数据进行识别的方法。
5.将avsr应用到濒危语言识别中可以通过视觉信息的补偿有效地缓解由于噪声影响导致的语料可用率降低的问题。然而,目前现有的关于视听语音融合技术的工作还处于初级阶段,很多实际应用问题如视听并行训练数据的缺乏、视听觉信息融合问题、测试时需要视听并行数据等,现有技术尚未能解决。土家语作为濒危语言,不仅语音数据有限,视频数据更是匮乏,因此土家语的视听多模态数据集很难满足现有模型的需求。现有技术难以
有效实现在多重影响因素下进行关于土家语视听融合的语音识别。


技术实现要素:

6.本发明的目的在于实现一种基于视听多模态融合的土家语语音识别方法,构建结合注意力机制与动态梯度下降(dgm)策略的基于视听多模态融合的土家语语音识别模型,对语音进行识别;在模型训练时使用视频数据对音频数据进行增强;能够提高土家语语音识别的准确率。
7.本发明通过构建avsr视听语音识别模型,并对模型进行优化,最终生成基于视听多模态融合的土家语语音识别模型,语音识别模型包括:特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块。特征提取模块用于提取音频特征和视频特征,并对特征进行编码;视听融合模块是基于多头注意力机制,完成视频特征和音频特征的数据融合;动态梯度下降模块负责调控各模态的优化速度,结合视听融合模块完成模型的训练;土家语识别模块用于在模型训练完毕后对输入的待识别语音进行识别。
8.本发明分为4个阶段:收集土家语的语料,并进行预处理和标注;分别对音频数据、视频数据进行特征提取;通过注意力机制(使用视频数据的查询变量q和值变量v对音频数据进行加强)将音频数据、视频数据融合,并加入dgm策略在以此为基础完成模型的训练,将需要翻译的土家语输入训练好的语音识别模型中,并由模型输出对应的中文翻译。具体过程包括:
9.1)收集土家语数据,包括:口语语料(音频)和视频;其中,将音频分为短句,并对每个短句进行数据的标注;将视频分为短视频;
10.2)通过特征提取模块分别对音频数据、视频数据进行特征提取:特征提取模块分别采用三维卷积和二维卷积进行视频特征的提取,采用短时傅里叶变换(short-time fourier transform,stft)进行音频特征的提取,得到每句话的音频特征向量与视频特征向量。
11.3)将得到每句话的音频特征向量与视频特征向量通过特征提取模块进行编码,之后输入视听融合模块。使用视频特征向量中变量q和值变量v对音频数据进行加强,使两种模态实现真正的视听“对齐”。并通过模型的动态梯度下降模块加入dgm策略,控制视听各模态的优化过程。即在avsr视听语音识别模型的基础上,使用多头注意力机制与dgm策略对本发明构建的土家语语音识别模型进行训练,得到训练好的基于视听多模态的土家语语音识别模型。
12.4)输入待识别语音信号,经特征提取模块的stft进行音频特征提取后,使用土家语识别模块中的transformer进行编码,最后利用土家语识别模块中的链接时序分类ctc输出模型预测的字符。
13.具体来说,本发明的方法包括以下步骤:
14.a.收集土家语数据,包括:口语语料(音频)和视频;并对收集的数据进行预处理(相应地分为短句和短视频)、数据增强、数据标注操作(对每个句子进行数据的标注);与音频相对应得到国际音标文本标签文件;与视频相对应得到多个短视频及相应textgrid文件。
15.a1.目前田野采集的土家语数据的具体情况如下:口语语料共计52篇,总计时长为
9小时54分39秒,语料类型分为四种,包括词汇语法、口头文化、话语讲述、话语对话;视频共10个,总计时长1小时20分45秒。
16.a2.对a1中获取的口语语料视频进行处理,切分得到多个短视频;
17.使用python裁剪出160
×
160的以说话人头部为中心的视频,初步去掉原始视频中大面积的背景噪声。将a1中获取的口语语料视频按句分割,每一句话分割为一个短视频,共切分2105个短视频。
18.a3.使用elan软件(对视频和音频数据的标识进行创建、编辑、可视化和搜索的标注工具)软件将a2的短视频中出现的句子(短视频中的一句话)标注好内容,生成textgrid(文字网格)文件,标注的内容包括每个句子的在视频中出现的每一句话起始时间和终止时间和中文翻译。
19.a4.对音频进行处理,切分得到多个短句;
20.通过praat软件和脚本程序将长语音切分为短句,并去除句子之间的空白部分。所有长篇口语语料共切分为10348个短句。
21.a5.获取步骤a4得到的短句的语音相对应的国际音标文本标签文件;
22.按照步骤a4得到的短句,每个短句生成一个文本文件,每个文本文件对应原本语音中的一句话,然后对文本文件进行人工标注。原始的人工标注包括标点符号、音调等。为了消除标点符号对识别率的影响,将所有文本文件的标点符号过滤。最终得到与语音文件相对应的10348个国际音标文本标签文件,所有文本文件均采取utf-8编码格式。
23.b.使用短时傅里叶变换方法stft获取a1中口语语料(音频)的特征,采用三维卷积和二维卷积进行获取a1中视频特征的提取,分别得到相应的音频特征与视频特征。
24.b1.获取音频特征;
25.其中x(t)是待变换a4中得到的短句的音频信号,式中s
x
(τ,w)代表经过stft变换得到的音频信号,w(t-τ)是以τ为中心的窗函数,t代表时间,ω代表频率。
26.选用的窗函数为汉明窗,汉明窗能够消去高频干扰和能量泄漏,对非周期性的连续语音信号较为适用,定义如式(2-2):
[0027][0028]
式中w(t)为汉明窗的表达式,m为汉明窗的长度,t代表时间。
[0029]
b2.获取视频特征;
[0030]
b2.1输入a2中获取的短视频,使用三维卷积对短视频进行空间和时间维度的特征提取。通过三维卷积得到的结果反应对应时间中对应位置的视频特征。通过三维卷积核进行卷积运算得到特征图(特征图反映了某个位置、某个时间的特征值),三维卷积是通过堆叠多个连续的帧组成一个立方体,然后在立方体中运用三维卷积核。通过这种结构,卷积层中的特征图都会与上一层中的多个相邻帧相连,视频特征值的计算过程表示如下式:
[0031][0032]
其中是第i个层中第j个特征图中位置(x,y,z)的值反应对应时间中对应位置的视频特征值,m表示当前第i层与第i-1层的索引。pi,qi,ri分别表示卷积核的高、宽以及视频帧数。位置p,q,r连接到第m个特征图的权重用表示。另外,在i-1层第m个特征层(x+p,y+q,z+r)位置上的值用表示,b
i,j
是第i层第j个特征图的偏置。
[0033]
b2.2.通过对b2.1得到的视频特征值通过二维卷积进行下采样。将视频特征数据降为一维的数据;
[0034]
b3.将b1、b2获取的视频、音频特征基于transformer进行编码
[0035]
c.对a1中获取的视频、音频数据,通过b中的一系列操作得到音频特征与视频特征,之后通过编码后基于注意力机制将音频、视频两种模态进行融合,实现视听“对齐”。并加入动态梯度下降dgm策略训练用于土家语音频识别的模型。
[0036]
c1将音频特征与视频特征编码后输入进一个多模态注意力层进行融合。使用视频数特征对音频特征进行加强,使得两种编码对齐。将参与的视频编码融合到声学编码中,使声学模态能够从视觉模态学习同步信息。定义音频编码为a∈r
l
×d,视频得到的编码为v∈r
l
×d,l为序列长度,d为编码输出的维度,q为查询向量、k为输入键、v为值向量。
[0037][0038]
式中wv→a为由v到a的注意力计算结果,qa=aw
qa
为音频模态的查询向量,为视频模态的键,为视频模态值。
[0039]
c2.在c1的基础上加入动态梯度下降dgm策略进行分类(构建分类器),定义数据集为d={xi,yi},i=1,2...n,每个xi来自不同模态的两个输入组成,如a和v分别表示音频和视频模态。yi∈{1,2,...,m},其中m是识别结果的类别数。假设使用两个编码器和来对音视频进行编码,其中θa,θv是编码器的参数,再通过注意力机制方法进行融合,那么融合的权重最后一个分类器(动态梯度下降模块)的参数为b∈rm;
[0040][0041]
f(xi)表示最终经过分类器的输出;
[0042]
把第y的输出表示为f(xi)y,则模型的交叉熵损失可以表示为:
[0043]
[0044]
然后使用梯度下降优化算法(gradient descent,gd),wa和更新为:
[0045][0046][0047]
其中η是学习率。
[0048][0049]
其中代表代表代表代表代表优化梯度。
[0050]
c2.1定义编码器的参数为θu,在进行随机梯度下降计算时参数为:
[0051][0052]
其中代表输入量交叉熵的无偏估计,其中u∈{a,v},a和v分别表示音频和视频模态。
[0053]
c2.2针对优化不平衡问题,对差异率定义如下,
[0054][0055][0056][0057]
式中代表了音频模态在训练模型时做出的贡献,w
ta
代表了音频模态在训练时做出贡献的权重,代表了音频模态在训练模型时做出的贡献,w
tv
代表了音频模态在训练时做出贡献的权重。作为每个模态的近似预测信息。t代表迭代次数,u∈{a,v},a和v分别表示音频和视频模态。b
t
是第t步中选择的尺寸为m的小批量梯度。
[0058]
c2.3自适应调整梯度:
[0059]
[0060]
其中,代表自适应调整梯度;α是控制调控的超参数;通过调控α改变
[0061]
c2.4将系数集成到随机梯度下降优化方法中,通过的调节使得性能更好的模态(即差异率的模态)的优化过程时间加长,而其他模态则不受影响,能够缓解有限的时间内一个模态的优化不充分。
[0062]
迭代t过程中的更新如下
[0063][0064]
其中为迭代t+1时的编码器参数,为迭代t的编码器参数,η是学习率,代表自适应调整梯度,是将b3编码结果作为输入量的交叉熵的无偏估计。输入量为训练时输入数据经过特征提取和编码后的信号。
[0065]
c3.基于c1、c2的策略及方法利用a2、a4中处理得到的短视频、短句在avsr模型的基础上进行训练,得到可以用于识别土家语语音的基于视听多模态的土家语语音识别模型。
[0066]
d将需要识别的语音信息输入c3中得到的模型中,待识别的语音信号先经b1中的方式进行特征提取,后使用transfomer进行编码,使用ctc输出模型预测的字符。
[0067]
本发明实现一种基于视听多模态融合的土家语语音识别方法。构建基于视听多模态融合的土家语语音识别模型,通过收集足量的音频、视频用于训练模型,将音频、视频通过特征提取之后作为模型的输入,训练模型时,将输入的数据进行编码后,通过注意力机制将音频数据和视频数据融合,并通过动态梯度下降dgm策略控制模型各模态的优化过程。最终利用生成和训练好的可用于自动翻译土家语音频的模型实现土家语语音识别。本发明的技术优势是通过模型学习将土家语中发同一个音的不同模态在时间上对应起来,实现了真正的视听“对齐”;并且能够充分利用各模态的数据,提高了语音识别的准确率。
附图说明
[0068]
图1为基于注意力机制、动态梯度优化的视听语音识别模型;
[0069]
其中,代表差异率,用于衡量各模态做出的贡献度;是输入量交叉熵的无偏估计,为音频的自适应调整梯度,为视频的自适应调整梯度。
具体实施方式
[0070]
下面结合附图,通过实例进一步描述本发明。
[0071]
本发明提供一种基于视听多模态融合的土家语语音识别方法,首先收集足量的音频、视频用于训练模型,将音频、视频通过特征提取之后作为模型的输入训练模型,将输入的数据进行编码后,通过注意力机制将音频数据和视频数据融合,并通过动态梯度下降(dynamic gradient modulation,dgm)策略控制各模态的优化过程。最终生成一个可用于自动翻译土家语音频的模型。
[0072]
本发明包含4个模块:特征提取模块,视听融合模块,动态梯度下降模块,土家语识
别模块;其中,特征提取模块包括编码器;动态梯度下降模块包括分类器。图1示意了本发明方法的流程。具体过程包括:
[0073]
1)收集土家语数据,包括:口语语料(音频)和视频;其中,将音频分为短句,并对每个短句进行数据的标注;将视频分为短视频;通过特征提取模块分别对音频数据、视频数据进行特征提取:特征提取模块分别采用三维卷积和二维卷积进行视频特征的提取,采用短时傅里叶变换(short-time fourier transform,stft)进行音频特征的提取,得到每句话的音频特征向量与视频特征向量。将得到每句话的音频特征向量与视频特征向量进行编码,
[0074]
2)之后输入视听融合模块。使用视频特征向量中变量q和值变量v对音频数据进行加强,使两种模态实现真正的视听“对齐”。
[0075]
3)通过模型的动态梯度下降模块加入dgm策略,控制各模态的优化过程。即在avsr视听语音识别模型的基础上,使用多头注意力机制与dgm策略对本发明构建的土家语语音识别模型进行训练,得到训练好的基于视听多模态的土家语语音识别模型。
[0076]
4)输入待识别语音信号,经特征提取模块的stft进行音频特征提取后,使用土家语识别模块中的transformer进行编码,最后利用土家语识别模块中的链接时序分类ctc输出模型预测的字符。
[0077]
下面按照步骤,结合实例对本发明作进一步描述:
[0078]
1.收集土家语数据并进行预处理
[0079]
1.1.共收集口语语料共计52篇,总计时长为9小时54分39秒;视频共10个,总计时长1小时20分45秒。
[0080]
1.2.处理视频数据:
[0081]
1.2.1对1.1中获取的口语语料视频进行处理,使用python裁剪出160
×
160的以说话人头部为中心的视频。将1.1中获取的口语语料视频按句分割,每一句话分割为一个短视频,共切分2105个短视频。
[0082]
1.2.2.使用elan软件将1.2的短视频中出现的句子进行标注好内容(视频中出现的每一句话起始时间和终止时间和中文翻译),生成textgrid(文字网格)文件
[0083]
1.3.对音频进行处理:
[0084]
1.3.1通过praat软件和脚本程序将长语音切分为短句,并去除句子之间的空白部分。所有长篇口语语料共切分为10348个短句。
[0085]
1.3.2.获取步骤得到的短句的语音相对应的国际音标文本标签文件;
[0086]
1.3.3按照步骤1.3.1得到的短句,每个短句生成一个文本文件,然后对文本文件进行人工标注,包括标点符号、音调等。并将所有文本文件的标点符号过滤。最终得到与语音文件相对应的10348个国际音标文本标签文件,所有文本文件均采取utf-8编码格式。
[0087]
2.视频特征、音频特征的提取
[0088]
2.1.使用短时傅里叶变换方法获取音频特征;
[0089]
2.2.获取视频特征;
[0090]
2.2.1输入1.2中获取的短视频,使用三维卷积对短视频进行空间和时间维度的特征提取。
[0091]
2.2.2.通过对2.2.1得到的视频特征值通过二维卷积进行下采样。将视频特征数
据降为一维的数据;
[0092]
2.3.将2.1、2.2获取的视频、音频特征基于transformer进行编码;
[0093]
3.基于avsr模型通过注意力机制、dgm策略进行模型优化;
[0094]
3.1将音频特征与视频特征编码后输入进一个多模态注意力层进行融合。将参与的视频编码融合到声学编码中,使声学模态能够从视觉模态学习同步信息。
[0095]
3.2.在3.1的基础上加入动态梯度下降dgm策略
[0096]
3.3.基于3.1,3.2的策略及方法利用1.2、1.3中处理得到的短视频、短句在avsr模型的基础上进行训练,得到可以用于识别土家语语音的基于视听多模态的土家语语音识别模型。
[0097]
4将需要识别的语音信息输入c3中得到的模型中,待识别的语音信号先经b1中的方式进行特征提取,后使用transfomer进行编码,使用ctc输出模型预测的字符。
[0098]
最后需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

技术特征:
1.一种基于视听多模态融合的土家语语音识别方法,其特征是,构建结合注意力机制与动态梯度下降dgm策略的基于视听多模态融合的土家语语音识别模型,对语音进行识别;在模型训练时使用视频数据对音频数据进行增强;提高土家语语音识别的准确率;基于视听多模态融合的土家语语音识别模型包括:特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块;其中,特征提取模块包括编码器;动态梯度下降模块包括分类器;特征提取模块用于提取音频特征和视频特征;视听融合模块是基于多头注意力机制,完成视频特征和音频特征的数据融合;动态梯度下降模块用于调控视听各模态的优化速度,结合视听融合模块完成模型的训练;土家语识别模块用于在模型训练完毕后,使用链接时序分类ctc方法识别输入的待识别语音;包括如下步骤:1)收集土家语数据,包括:口语语料音频和视频;其中,将音频分为短句,并对每个短句进行数据的标注;将视频分为短视频;2)通过特征提取模块分别对音频数据、视频数据进行特征提取;特征提取模块分别采用三维卷积和二维卷积进行视频特征的提取,采用短时傅里叶变换stft进行音频特征的提取,得到每句话的音频特征向量与视频特征向量;将得到每句话的音频特征向量与视频特征向量进行编码,之后输入视听融合模块;3)使用视频特征向量中的查询变量和值变量对音频数据进行加强,使视听两种模态实现视听对齐;并通过模型的动态梯度下降模块加入dgm策略,控制各模态的优化过程;即增加使用多头注意力机制与dgm策略对所构建的土家语语音识别模型进行训练,得到训练好的基于视听多模态的土家语语音识别模型;4)输入待识别语音信号,经特征提取模块的stft进行音频特征提取后,使用土家语识别模块中的transformer进行编码,再利用土家语识别模块中的链接时序分类ctc输出模型预测的字符;通过上述步骤,实现基于视听多模态融合的土家语语音识别。2.如权利要求1所述基于视听多模态融合的土家语语音识别方法,其特征是,收集土家语数据,并对收集的数据进行预处理,包括:a1.采用田野采集方式获取土家语的口语语料音频和视频数据,其中口语语料的语料类型包括词汇语法、口头文化、话语讲述、话语对话;a2.对a1中获取的口语语料视频进行处理,切分得到多个短视频;a3.使用标注工具软件将a2的短视频中出现的句子标注好内容,生成文字网格textgrid文件,标注的内容包括每个句子的在视频中出现的每一句话起始时间、终止时间和中文翻译;a4.对音频进行处理,切分得到多个短句;a5.获取a4得到的短句的语音相对应的国际音标文本标签文件。3.如权利要求1所述基于视听多模态融合的土家语语音识别方法,其特征是,通过构建的基于视听多模态融合的土家语语音识别模型的特征提取模块获取音频特征;具体是经过stft变换得到音频信号,表示为:
其中,s
x
(τ,w)代表经过stft变换得到的信号,x(t)为待变换的短句的音频信号,w(t-τ)是以τ为中心的窗函数,t代表时间,ω代表频率。4.如权利要求3所述基于视听多模态融合的土家语语音识别方法,其特征是,所述窗函数采用汉明窗。5.如权利要求1所述基于视听多模态融合的土家语语音识别方法,其特征是,通过构建的基于视听多模态融合的土家语语音识别模型的特征提取模块获取视频特征;包括:b2.1输入获取的短视频,使用三维卷积对短视频进行空间和时间维度的特征提取;通过三维卷积得到的结果反应对应时间中对应位置的视频特征,得到特征图;通过这种三维卷积结构,卷积层中的特征图与上一层中的多个相邻帧相连;视频特征值的计算过程表示为:其中,是第i个层中第j个特征图中位置(x,y,z)的值反应对应时间中对应位置的视频特征值,m表示当前第i层与第i-1层的索引;p
i
,q
i
,r
i
分别表示卷积核的高、宽以及视频帧数;位置p,q,r连接到第m个特征图的权重用表示;在i-1层第m个特征层(x+p,y+q,z+r)位置上的值用表示;b
i,j
是第i层第j个特征图的偏置;b2.2.通过对b2.1得到的视频特征值通过二维卷积进行下采样,将视频特征数据降为一维的数据。6.如权利要求1所述基于视听多模态融合的土家语语音识别方法,其特征是,将得到的音频特征与视频特征通过编码后,基于注意力机制将音频模态和视频模态进行融合,实现视听对齐;并加入动态梯度下降dgm策略用于土家语语音识别模型的训练;包括:c1将音频特征与视频特征编码后输入一个多模态注意力层进行融合;使用视频数特征对音频特征进行加强,使得两种编码对齐;具体是将视频编码融合到声学编码中,使音频模态从视觉模态学习同步信息;表示为:式中,wv→
a
为由v到a的注意力计算结果,为音频模态的查询向量,为视频模态的键,为视频模态值;a为音频编码,a∈r
l
×
d
;v为视频编码,v∈r
l
×
d
;l为序列长度,d为编码输出的维度,q为查询向量、k为输入键、v为值向量;c2.再采用动态梯度下降dgm策略进行模型训练,包括:定义数据集为d={x
i
,y
i
},i=1,2...n,每个x
i
来自不同模态的两个输入组成,a和v分别表示音频和视频模态;y
i
∈{1,2,...,m},其中m是识别结果的类别数;
假设使用两个编码器和对音视频进行编码,其中θ
a
,θ
v
是编码器的参数,再通过注意力机制方法进行融合;融合的权重为动态梯度下降模块中的分类器的参数为b∈r
m
;经过分类器的输出表示为:f(x
i
)表示最终经过分类器的输出;把第y的输出表示为f(x
i
)
y
,则模型的交叉熵损失表示为:然后使用梯度下降优化算法gd,w
a
和更新为:更新为:其中η是学习率;其中,代表代表代表代表代表优化梯度;c3.利用a中处理得到的短视频和短句,通过c1和c2中的方法进行模型训练,得到用于识别土家语语音的基于视听多模态的土家语语音识别模型。7.如权利要求6所述基于视听多模态融合的土家语语音识别方法,其特征是,c2中采用动态梯度下降dgm策略进行模型训练,包括如下过程:c2.1定义编码器的参数为θ
u
,在进行随机梯度下降计算时参数表示为:其中,代表输入量交叉熵的无偏估计,u∈{a,v},a和v分别表示音频和视频模态;c2.2针对优化不平衡问题,定义差异率如下:如下:
其中,代表音频模态在训练模型时做出的贡献,w
ta
代表音频模态在训练时做出贡献的权重,代表音频模态在训练模型时做出的贡献,w
tv
代表音频模态在训练时做出贡献的权重;作为每个模态的近似预测信息;t代表迭代次数,u∈{a,v};b
t
是第t步中选择的尺寸为m的小批量梯度;c2.3自适应调整梯度,表示为:其中,代表自适应调整梯度;α是控制调控的超参数;通过调控α改变c2.4将系数集成到随机梯度下降优化方法中,通过的调节使得性能好的模态的优化过程时间加长,以缓解有限的时间内一个模态的优化不充分;性能好的模态即差异率的模态;迭代t过程中的更新如下:其中,为迭代t+1时的编码器参数,为迭代t的编码器参数,η是学习率,代表自适应调整梯度,是输入量交叉熵的无偏估计;输入量为训练数据经过特征提取和编码后的信号。8.如权利要求7所述基于视听多模态融合的土家语语音识别方法,其特征是,用于判别目标的分类器的参数为b∈r
m
;分类器的输出表示为:其中,f(x
i
)表示最终经过分类器的输出;融合的权重m是识别结果的类别数;和为编码器;θ
a
,θ
v
是编码器的参数;x
i
由来自不同模态的两个输入信号数据组成,a和v分别表示音频和视频模态。

技术总结
本发明公布了一种基于视听多模态融合的土家语语音识别方法,构建结合注意力机制与动态梯度下降DGM策略的基于视听多模态融合的土家语语音识别模型,对语音进行识别;在模型训练时使用视频数据对音频数据进行增强;构建的模型包括:特征提取模块、视听融合模块、动态梯度下降模块、土家语识别模块;视听融合模块是基于多头注意力机制,完成视频特征和音频特征的数据融合;动态梯度下降模块用于调控各模态的优化速度,结合视听融合模块完成模型的训练;使用链接时序分类CTC方法实现待识别语音的识别。本发明能够提高土家语语音识别的准确率。率。率。


技术研发人员:于重重 徐小龙 钱兆鹏 于佳圻
受保护的技术使用者:北京工商大学
技术研发日:2023.06.27
技术公布日:2023/9/7
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐