一种基于持久性口音记忆的口音识别方法
未命名
07-29
阅读:127
评论:0
1.本技术涉及语音识别领域,尤其涉及一种基于持久性口音记忆的口音识别方法。
背景技术:
2.目前语音识别的主流框架是端到端(e2e)口音识别系统,但训练一个成熟的端到端系统需要大量的数据,由于口音数据稀缺问题,目前大多数方法专注于使用各种数据增广方法对数据进行扩充,从而提升口音识别的性能。
3.由于现有技术对数据具有依赖性,因此数据的质量会影响模型的性能,造成模型的鲁棒性较差,此外大量的训练数据还会导致计算成本的增加,因此不利于模型的训练。
技术实现要素:
4.本技术提供了一种基于持久性口音记忆的口音识别方法,能够解决现有的可进行口音识别的口音识别方法存在的依赖数据质量和数量的问题。
5.本技术的技术方案是一种基于持久性口音记忆的口音识别方法,包括:
6.s1:构建包括自监督预训练模型wavlm的wavlm-编码器-解码器基础结构,所述解码器包括用于口音识别的ar模块;
7.s2:获取包括若干段涵盖不同口音的音频的英语口语训练集,以及输入所述英语口音训练集至wavlm-编码器-解码器基础结构,相应地得到编码器输出,以及针对编码器输出依次进行调整处理和聚类处理,得到持久性口音记忆pam;
8.s3:针对wavlm-编码器-解码器基础结构进行优化处理,优化处理包括:将ar模块调整为可接收pam并且还可针对编码器输出和pam进行融合处理,相应地得到wavlm-编码器-解码器优化结构;
9.s4:通过英语口语训练集对wavlm-编码器-解码器优化结构进行训练,相应地得到以待识别的音频为输入项并且以口音识别结果为输出项的口音识别模型;
10.s5:获取待识别的音频并且输入待识别的音频至所述口音识别模型,获取相应于待识别的音频的口音识别结果。
11.可选地,所述步骤s1包括:
12.s11:构建编码器-解码器基础结构;
13.s12:前置所述自监督预训练模型wavlm至构建编码器-解码器基础结构,相应地得到wavlm-编码器-解码器基础结构,所述解码器包括用于语音识别的asr模块和用于口音识别的ar模块。
14.可选地,所述步骤s2包括:
15.s21:获取均包括若干段涵盖不同口音的音频的英语口音训练集和英语口语测试集,以及输入英语口音训练集至wavlm-编码器-解码器基础结构;
16.s22:所述自监督预训练模型wavlm针对英语口音训练集进行特征提取,得到相应于英语口音训练集的sslrs,以及通过sslrs至编码器-解码器基础结构,得到若干个编码
器-解码器可选结构;
17.s23:分别输入英语口语测试集至如若干个编码器-解码器可选结构,相应地得到相应于不同编码器-解码器可选结构的编码器输出和包括识别的平均准确率的测试结果;
18.s24:根据测试结果,依次选择每种口音相对应的识别的平均准确率最高的编码器-解码器可选结构所输出的相应于口音的编码器输出,得到包括分别相应于不同口音的若干个向量的编码器输出集合;
19.s25:针对编码器输出集合中的向量进行均值和标准差的拼接,得到处理数据集;
20.拼接公式如下所示:
[0021][0022]
式中,表示相应于第j个口音的第i个音频的编码器输出;
[0023]
表示处理数据集中相应于编码器输出的数据项;
[0024]
s23:针对处理数据集进行k-means聚类处理,得到包括若干组分别相应于不同口音的嵌入组的持久性口音记忆pam,每个嵌入组均包括若干个embedding;
[0025]
聚类处理公式如下所示:
[0026][0027]epam
={e1,
…
,ej};
[0028]
式中,c表示嵌入组中embedding的数目。
[0029]
可选地,每个所述嵌入组包括32个embedding。
[0030]
可选地,所述步骤s3包括:
[0031]
s31:针对wavlm-编码器-解码器基础结构进行优化处理,优化处理包括:设置可基于余弦距离针对pam进行筛选并且得到相应于编码器输出的若干个筛选embedding的筛选模块,以及将ar模块调整为可接收筛选embedding并且还可针对编码器输出和筛选embedding进行融合处理,相应地得到wavlm-编码器-解码器优化结构;
[0032]
所述筛选模块的筛选公式如下所示:
[0033][0034][0035][0036][0037][0038]
式中,consine-dist表示余弦距离;
[0039]gi
表示服从高斯分布的高斯噪音;
[0040]
t表示温度控制参数;
[0041]
以及,所述融合处理的公式如下所示:
[0042]
[0043][0044]
式中,mha表示ar模块中的multi-head attention。
[0045]
有益效果:
[0046]
本技术通过构建包括自监督预训练模型wavlm的wavlm-编码器-解码器基础结构,可以通过自监督预训练模型wavlm提取英语口语训练集的表征sslrs并且通过sslrs代替传统的声学特征(fbank),系统性能获得显著的提升,所以可解决口音数据稀缺,在低资源场景下口音识别效果差的问题;
[0047]
此外,本技术通过将pam融合到wavlm-编码器-解码器基础结构,引导模型在训练时充分利用sslrs所携带的信息,进一步提升了系统的性能。
附图说明
[0048]
为了更清楚地说明本技术的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0049]
图1为本技术实施例中基于持久性口音记忆的口音识别方法的流程示意图;
[0050]
图2为本技术实施例中编码器-解码器基础结构的结构示意图
[0051]
图3为本技术实施例中的transformer模型架构;
[0052]
图4为本技术实施例中解码器中ar模块的结构示意图;
[0053]
图5为本技术实施例中编码器-解码器调整结构的结构示意图;
[0054]
图6为本技术实施例中解码器中交叉注意力融合的流程示意图。
具体实施方式
[0055]
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本技术相一致的所有实施方式。仅是与权利要求书中所详述的、本技术的一些方面相一致的系统和方法的示例。
[0056]
本技术提供了一种基于持久性口音记忆的口音识别方法,如图1所示,图1为本技术实施例中基于持久性口音记忆的口音识别方法的流程示意图,方法包括:
[0057]
s1:构建包括自监督预训练模型wavlm的wavlm-编码器-解码器基础结构,所述解码器包括用于口音识别的ar模块。
[0058]
其中,步骤s1包括:
[0059]
s11:构建编码器-解码器基础结构;
[0060]
s12:前置所述自监督预训练模型wavlm至构建编码器-解码器基础结构,相应地得到wavlm-编码器-解码器基础结构,所述解码器包括用于语音识别的asr模块和用于口音识别的ar模块。
[0061]
具体地,如图2所示,图2为本技术实施例中编码器-解码器基础结构的结构示意图。
[0062]
本技术实施例的口音识别模型的主干网络采用编码器-解码器架构,以及使用语音识别(automatic speech recognition,asr)任务辅助训练。
[0063]
编码器参数共享,由12层的transformer编码器构成,如图3的左侧所示,图3为本技术实施例中的transformer模型架构。
[0064]
解码器包括用于语音识别的asr模块和用于口音识别的ar模块。asr模块由连接主义时间分类(connectionist temporal classification,ctc)和6层的asr attention构成,asr attention模块如图3右侧所示。
[0065]
如图4所示,图4为本技术实施例中解码器中ar模块的结构示意图,口音识别(accent recognition,ar)部分由accent attention构成。
[0066]
s2:获取包括若干段涵盖不同口音的音频的英语口语训练集,以及输入所述英语口音训练集至wavlm-编码器-解码器基础结构,相应地得到编码器输出,以及针对编码器输出依次进行调整处理和聚类处理,得到持久性口音记忆pam。
[0067]
其中,s21:获取均包括若干段涵盖不同口音的音频的英语口音训练集和英语口语测试集,以及输入英语口音训练集至wavlm-编码器-解码器基础结构。
[0068]
具体地,本技术实施例使用的是英语口音数据集,一共160小时训练数据,包含8个口音。
[0069]
s22:所述自监督预训练模型wavlm针对英语口音训练集进行特征提取,得到相应于英语口音训练集的sslrs,以及通过sslrs至编码器-解码器基础结构,得到若干个编码器-解码器可选结构。
[0070]
具体地,使用自监督预训练模型wavlm不同编码层提取英语口音训练集的sslrs。
[0071]
自监督预训练模型wavlm模型包括24层编码器。分别使用wavlm的第8,12,16,20,24层的输出即sslrs作为编码器-解码器基础结构的输入进行训练,得到如表1中系统1~5。
[0072]
表1通过sslrs训练的的编码器-解码器可选结构的口音识别的平均准确率
[0073][0074]
s23:分别输入英语口语测试集至如若干个编码器-解码器可选结构,相应地得到相应于不同编码器-解码器可选结构的编码器输出和包括识别的平均准确率的测试结果。
[0075]
具体地,通过英语口语测试集测试5个编码器-解码器可选结构即表1中所示的系统1-5,得到如表1所示的平均准确率等数据。
[0076]
s24:根据测试结果,依次选择每种口音相对应的识别的平均准确率最高的编码器-解码器可选结构所输出的相应于口音的编码器输出,得到包括分别相应于不同口音的若干个向量的编码器输出集合。
[0077]
具体地,根据测试集结果,选择在当前口音准确率最高的模型提取训练集中标签是该口音的所有音频的编码器输出,例如美国口音就选择系统2,中国口音就用系统5。即把
英语口语测试集中8个口音的所有音频用不同的系统提取编码器的输出,得到8*10000个向量。
[0078]
s25:针对编码器输出集合中的向量进行均值和标准差的拼接,得到处理数据集。
[0079]
拼接公式如下所示:
[0080][0081]
式中,表示相应于第j个口音的第i个音频的编码器输出。
[0082]
表示处理数据集中相应于编码器输出的数据项。
[0083]
s26:针对处理数据集进行k-means聚类处理,得到包括若干组分别相应于不同口音的嵌入组的持久性口音记忆pam,每个嵌入组均包括若干个embedding。
[0084]
聚类处理公式如下所示:
[0085][0086]epam
={e1,
…
,ej}。
[0087]
式中,c表示嵌入组中embedding的数目。
[0088]
具体地,编码器的输出拼接上均值和标准差,然后使用k-means每个口音聚成32个embedding,每个embedding 256维,8个口音,一共256个embedding,构成pam。
[0089]
拼接公式和聚类处理公式如下所示:
[0090][0091][0092]epam
={e1,
…
,ej}。
[0093]
式中,表示相应于第j个口音的第i个音频的编码器输出。
[0094]
表示处理数据集中相应于编码器输出的数据项,c=32,j=8。
[0095]
其中,pam可理解为码本(codebook),是将编码器输出进行聚类得到的一个矩阵。在本技术实施例中,英语口音训练集有8个口音,每个口音有10000条音频,则编码器的输出就包括了8*10000个embedding,每个embedding的维度等于256。embedding为向量,即将每个口音聚成32个向量,最终得到一个(8,32,256)的三维矩阵,将这个矩阵称之为pam。
[0096]
s3:针对wavlm-编码器-解码器基础结构进行优化处理,优化处理包括:将ar模块调整为可接收pam并且还可针对编码器输出和pam进行融合处理,相应地得到wavlm-编码器-解码器优化结构。
[0097]
其中,步骤s3包括:
[0098]
s31:针对wavlm-编码器-解码器基础结构进行优化处理,优化处理包括:设置可基于余弦距离针对pam进行筛选并且得到相应于编码器输出的若干个筛选embedding的筛选模块,以及将ar模块调整为可接收筛选embedding并且还可针对编码器输出和筛选embedding进行融合处理,相应地得到wavlm-编码器-解码器优化结构。
[0099]
筛选模块的筛选公式如下所示:
[0100]
[0101][0102][0103][0104][0105]
式中,consine-dist表示余弦距离。
[0106]gi
表示服从高斯分布的高斯噪音。
[0107]
t表示温度控制参数;
[0108]
以及,所述融合处理的公式如下所示:
[0109][0110][0111]
式中,mha表示ar模块中的multi-head attention。
[0112]
具体地,(1)pam筛选部分:
[0113]
pam可以在模型训练的时候提供有效的额外信息,但pam包含了8种口音,当模型训练时,每次都要考虑8种口音的信息,将会导致程序冗余,因此提出最优pam选择方法。
[0114]
如图4所示,首先根据余弦距离计算编码器的输出和pam中的256个embedding的相似度,根据相似度分数选出最相似的n个embedding,在时序与编码器的输出进行拼接,随后输入到多头注意力模块中,然后做口音分类。
[0115]
在一些实施例中,也可以采用普通的点积计算相似度。
[0116]
筛选模块的筛选公式如下所示:
[0117][0118][0119][0120][0121][0122]
式中,consine-dist表示余弦距离。
[0123]gi
表示服从高斯分布的高斯噪音。
[0124]
t表示温度控制参数;
[0125]
(2)融合处理部分;所述融合处理的公式如下所示:
[0126][0127][0128]
式中,mha表示ar模块中的multi-head attention。
[0129]
以及,如图5和图6所示,图5为本技术实施例中编码器-解码器调整结构的结构示意图,图6为本技术实施例中解码器中交叉注意力融合的流程示意图,基于交叉注意力(cross-attention)的方法,在accent attention模块中将pam与编码器的输出进行简单的
融合,相应地得到编码器-解码器调整结构。
[0130]
所述融合处理的公式如下所示:
[0131][0132][0133]
式中,mha表示ar模块中的multi-head attention。
[0134]
s4:通过英语口语训练集对wavlm-编码器-解码器优化结构进行训练,相应地得到以待识别的音频为输入项并且以口音识别结果为输出项的口音识别模型。
[0135]
具体地,在得到wavlm-编码器-解码器优化结构后,即可通过数据集进行训练,训练后即可得到口音识别模型。
[0136]
s5:获取待识别的音频并且输入待识别的音频至口音识别模型,获取相应于待识别的音频的口音识别结果。
[0137]
具体地,如表1所示,所示系统1~7是使用wavlm不同编码层提取的sslrs训练模型的结果,相比于传统的声学特征(fbank)训练的系统0,在平均准确率绝对提升6.1%,证明使用预训练模型可以显著提升口音识别的性能;
[0138]
如表2所示,系统8为使用了交叉注意力融合系统,相比常见的权重和方法(系统6)平均准确率绝对提升0.1%;而本技术实施例所提出的最优pam选择方法如系统11所示,在平均准确率达到了81.4%,进一步提升了口音识别的平均准确率。最后,对于系统9,10,我们分别使用系统5,6构建pam,平均准确率为80.9%,这证明了我们提出的方法的通用性,也就是说,即便我们不知道某个口音在哪个系统表现是最好的这种先验知识的条件下,我们提出的方法也可以提升口音识别的性能。
[0139]
表2基于最优pam选择方法的口音识别模型的平均准确率
[0140][0141]
以上对本技术的实施例进行了详细说明,但内容仅为本技术的较佳实施例,不能被认为用于限定本技术的实施范围。凡依本技术范围所作的均等变化与改进等,均应仍属于本技术的专利涵盖范围之内。
技术特征:
1.一种基于持久性口音记忆的口音识别方法,其特征在于,包括:s1:构建包括自监督预训练模型wavlm的wavlm-编码器-解码器基础结构,所述解码器包括用于口音识别的ar模块;s2:获取包括若干段涵盖不同口音的音频的英语口语训练集,以及输入所述英语口音训练集至wavlm-编码器-解码器基础结构,相应地得到编码器输出,以及针对编码器输出依次进行调整处理和聚类处理,得到持久性口音记忆pam;s3:针对wavlm-编码器-解码器基础结构进行优化处理,优化处理包括:将ar模块调整为可接收pam并且还可针对编码器输出和pam进行融合处理,相应地得到wavlm-编码器-解码器优化结构;s4:通过英语口语训练集对wavlm-编码器-解码器优化结构进行训练,相应地得到以待识别的音频为输入项并且以口音识别结果为输出项的口音识别模型;s5:获取待识别的音频并且输入待识别的音频至所述口音识别模型,获取相应于待识别的音频的口音识别结果。2.根据权利要求1所述的基于持久性口音记忆的口音识别方法,其特征在于,所述步骤s1包括:s11:构建编码器-解码器基础结构;s12:前置所述自监督预训练模型wavlm至构建编码器-解码器基础结构,相应地得到wavlm-编码器-解码器基础结构,所述解码器包括用于语音识别的asr模块和用于口音识别的ar模块。3.根据权利要求2所述的基于持久性口音记忆的口音识别方法,其特征在于,所述步骤s2包括:s21:获取均包括若干段涵盖不同口音的音频的英语口音训练集和英语口语测试集,以及输入英语口音训练集至wavlm-编码器-解码器基础结构;s22:所述自监督预训练模型wavlm针对英语口音训练集进行特征提取,得到相应于英语口音训练集的sslrs,以及通过sslrs至编码器-解码器基础结构,得到若干个编码器-解码器可选结构;s23:分别输入英语口语测试集至如若干个编码器-解码器可选结构,相应地得到相应于不同编码器-解码器可选结构的编码器输出和包括识别的平均准确率的测试结果;s24:根据测试结果,依次选择每种口音相对应的识别的平均准确率最高的编码器-解码器可选结构所输出的相应于口音的编码器输出,得到包括分别相应于不同口音的若干个向量的编码器输出集合;s25:针对编码器输出集合中的向量进行均值和标准差的拼接,得到处理数据集;拼接公式如下所示:式中,表示相应于第j个口音的第i个音频的编码器输出;表示处理数据集中相应于编码器输出的数据项;s23:针对处理数据集进行k-means聚类处理,得到包括若干组分别相应于不同口音的
嵌入组的持久性口音记忆pam,每个嵌入组均包括若干个embedding;聚类处理公式如下所示:e
pam
={e1,
…
,e
j
};式中,c表示嵌入组中embedding的数目。4.根据权利要求4所述的基于持久性口音记忆的口音识别方法,其特征在于,每个所述嵌入组包括32个embedding。5.根据权利要求3所述的基于持久性口音记忆的口音识别方法,其特征在于,所述步骤s3包括:s31:针对wavlm-编码器-解码器基础结构进行优化处理,优化处理包括:设置可基于余弦距离针对pam进行筛选并且得到相应于编码器输出的若干个筛选embedding的筛选模块,以及将ar模块调整为可接收筛选embedding并且还可针对编码器输出和筛选embedding进行融合处理,相应地得到wavlm-编码器-解码器优化结构;所述筛选模块的筛选公式如下所示:所述筛选模块的筛选公式如下所示:所述筛选模块的筛选公式如下所示:所述筛选模块的筛选公式如下所示:所述筛选模块的筛选公式如下所示:式中,consine-dist表示余弦距离;g
i
表示服从高斯分布的高斯噪音;t表示温度控制参数;以及,所述融合处理的公式如下所示:以及,所述融合处理的公式如下所示:式中,mha表示ar模块中的multi-head attention。
技术总结
本申请涉及语音识别领域,尤其涉及一种基于持久性口音记忆的口音识别方法。包括:构建包括自监督预训练模型WavLM的WavLM-编码器-解码器基础结构;获取英语口语训练集,输入所述英语口音训练集至WavLM-编码器-解码器基础结构,得到编码器输出和持久性口音记忆PAM;针对WavLM-编码器-解码器基础结构进行优化处理,得到WavLM-编码器-解码器优化结构;通过英语口语训练集进行训练,得到口音识别模型;输入待识别的音频至所述口音识别模型,获取口音识别结果。本申请可以通过自监督预训练模型WavLM提取英语口语训练集的表征SSLRs并且通过SSLRs代替传统的声学特征Fbank,系统性能获得显著的提升,所以可解决口音数据稀缺,在低资源场景下口音识别效果差的问题。资源场景下口音识别效果差的问题。资源场景下口音识别效果差的问题。
技术研发人员:黄浩 李睿 殷丽丽 王凯 胡英
受保护的技术使用者:新疆大学
技术研发日:2023.03.30
技术公布日:2023/7/28
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
