用于语音识别的递归神经网络转录器的定制的制作方法

未命名 09-11 阅读：119 评论：0

1.本发明一般涉及语音识别，尤其涉及用于训练端到端语音识别模型的方法和系统。

背景技术：

2.递归神经网络(rnn)是一种人工神经网络，其中节点之间的连接形成沿着时间序列的有向图。这允许rnn分析诸如音素等属性之间的顺序依赖性。从前馈神经网络导出的，rnn可以使用其内部状态(存储器)来处理可变长度输入序列。rnn也可以直接对排序信息进行编码。rnn可以以与原始序列中相同的顺序接收和处理输入。这使得它们可应用于诸如未分段、连接的手写识别或语音识别的任务。时间序列的输入值可以是实值的或符号的。
3.rnn可以具有固定数量的参数，并且还可以处理可变数量的输入。rnn可以在序列中的位置数量与网络中的层数之间具有一对一的关系。每一层可具有用于序列中特定位置(例如，时间步长)的单个输入。由此，输入可以根据输入在序列中的位置与隐藏层交互。层架构在时间上重复，因此被称为递归。rnn可能需要输入序列与输出序列之间的预定义对齐来执行转录(transduction)。这可以是限制，因为找到对齐可能是序列转录问题的非常困难的方面。
4.端到端(e2e)自动语音识别(asr)系统可以通过将声学特征映射到输出符号序列来将声学特征序列直接转录成输出符号(音素、字符、字等)序列。用于asr的端对端模型可以在给定输入音频的情况下直接输出字抄本。

技术实现要素：

5.根据本发明的实施例，提供了一种用于定制递归神经网络转录器(transducer)(rnn-t)的计算机实现的方法。该计算机实现的方法包括从第一域文本数据合成第一域音频数据，以及将所合成的第一域音频数据馈送到具有初始条件的递归神经网络转录器(rnn-t)的经训练的编码器中，其中，使用所合成的第一域音频数据和第一域文本数据来更新编码器。该计算机实现的方法还包括从第二域文本数据合成第二域音频数据，以及将所合成的第二域音频数据馈送到递归神经网络转录器(rnn-t)的经更新的编码器中，其中，使用所合成的第二域音频数据和第二域文本数据来更新预测网络。该计算机实现的方法还包括将经更新的编码器恢复到初始条件。
6.根据本发明的另一个实施例，提供了一种用于定制递归神经网络转录器(rnn-t)的系统。该系统包括：一个或多个处理器设备；与一个或多个处理器设备中的至少一个通信的存储器；以及显示屏，其中，存储器包括合成器，该合成器被配置为从第一域文本数据合成第一域音频数据，并且从第二域文本数据合成第二域音频数据；以及编码器，该编码器被配置为接收从第一域文本数据生成的所合成的第一域音频数据，其中，编码器是具有初始条件的递归神经网络转录器(rnn-t)的经训练的编码器，其中，编码器被配置为使用所合成的第一域音频数据和第一域文本数据从初始条件更新，其中，编码器还被配置为接收从第
二域文本数据生成的所合成的第二域音频数据。该存储器还包括输出序列生成器，其基于输入特征序列x产生输出符号序列y，该输入特征序列x是被表示为向量的声学特征的时间排序序列。
7.根据本发明的又一实施例，提供了一种用于定制递归神经网络转录器(rnn-t)的计算机程序产品，该计算机程序产品包括一个或多个计算机可读存储介质以及被共同存储在该一个或多个计算机可读存储介质上的程序指令，该程序指令可由计算机执行。该计算机程序产品在被执行时使得计算机从第一域文本数据合成第一域音频数据，并且将所合成的第一域音频数据馈送到具有初始条件的递归神经网络转录器(rnn-t)的经训练的编码器中，其中，使用所合成的第一域音频数据和第一域文本数据来更新编码器。该计算机程序产品在被执行时还使计算机从第二域文本数据合成第二域音频数据，并且将所合成的第二域音频数据馈送到递归神经网络转录器(rnn-t)的经更新的编码器中，其中，使用所合成的第二域音频数据和第二域文本数据来更新预测器。该计算机程序产品在被执行时还使计算机将经更新的编码器恢复到初始条件。
8.根据本发明的又一实施例，提供了一种用于定制递归神经网络转录器(rnn-t)的计算机实现的方法。该计算机实现的方法包括从第一域文本数据合成第一域音频数据，并且将所合成的第一域音频数据馈送到具有初始条件的递归神经网络转录器(rnn-t)的经训练的编码器中，其中，使用所合成的第一域音频数据和第一域文本数据来更新编码器，并且编码器将所合成的第一域音频数据编码到声学嵌入a
t
中，其中声学嵌入a
t
将所合成的第一域音频数据压缩到更小的特征空间中。该计算机实现的方法还包括将声学嵌入a
t
馈送给结合器(joiner)，并且从第二域文本数据合成第二域音频数据。该计算机实现的方法还包括将所合成的第二域音频数据馈送到经更新的编码器中，其中，经更新的编码器将所合成的第二域音频数据编码成声学嵌入b
t
，其中，声学嵌入b
t
将所合成的第二域音频数据压缩到更小的特征空间中，以及将来自结合器的输出序列馈送到递归神经网络转录器(rnn-t)的预测器中，其中，使用来自所合成的第二域音频数据和第二域文本数据的输出序列来更新预测器。该计算机实现的方法还包括将经更新的编码器恢复到初始条件。
9.从以下结合附图阅读的本发明的说明性实施例的详细描述中，这些和其它特征和优点将变得显而易见。
附图说明
10.以下描述将参考以下附图提供优选实施例的细节，其中：
11.图1是根据本发明的实施例的可被应用于语音识别的递归神经网络转录器(rnn-t)的架构的图；
12.图2是示出根据本发明的实施例的用于训练用于语音识别的递归神经网络转录器(rnn-t)的算法的框图/流程图；
13.图3是示出根据本发明的实施例的用于从文本合成音频特征、更新编码器和预测器、以及恢复编码器的算法的框图/流程图；
14.图4是根据本发明的实施例的用于rnn-t的后验网格的示图；
15.图5是根据本发明的实施例的可应用本方法和系统的示例性处理系统；
16.图6是根据本发明的实施例的被配置为实现用于对道路布局建模的一个或多个神
t。一对文本和来自该文本的合成音频可用于训练或定制rnn-t，其中，可根据音频和抄本对来训练端对端模型，而无需预先计算的对齐。计算机实现的方法可以包括通过使用所合成的第一域音频数据和第一域文本数据来更新编码器网络。
30.在各种实施例中，输入特征序列x 110可以被馈送到递归神经网络转录器(rnn-t)100的编码器130中，其中，输入特征序列x可以是被表示为向量的声学特征的时间排序序列。在各种实施例中，x＝(x1，x2，...，x
t
)可以是任意长度的长度t输入序列。在一个或多个实施例中，可以从在源域中可用的文本合成音频数据。用于合成音频数据的文本可以是与在原始rnn-t asr模型的训练中所使用的文本相同的文本。编码器130的声学模型可以将(一个或多个)声学特征x
t
转换成高级表示其中，t是时间索引，其中，可以是长度为t的嵌入向量序列，其中，嵌入可以将输入特征空间压缩成具有固定大小、长度为t的较小输出向量(密集向量)。在各种实施例中，编码器130可以是单向编码器网络或者双向编码器网络。
31.预测器140可用作rnn语言模型，其通过以由rnn-t模型所预测的先前非空白目标y
u-1
为条件来产生高级表示其中，u是输出标签索引，其中，是嵌入向量。
32.将音频信号变换成字序列需要识别语音声音(诸如音素或音节)的能力，而不管由不同话音产生的明显失真。rnn可被应用于映射输入序列和输出序列的问题。在rnn输出是概率的情况下，可以得到在与输入序列相同长度的输出序列上的分布。语音识别涉及确定最可能的字序列w＝w1,...,wn，给定声学输入序列x＝x1,...,x
t
，其中，t可以表示话语中的帧数。
33.在各种实施例中，具有长度u-1的输出符号序列y 120可以被馈送到可充当语言模型的预测神经网络140中，其中，输出符号序列y由递归神经网络转录器(rnn-t)生成。120中的y
u-1
指示先前的预测(例如，符号)。rnn-t基于直到u-1的先前符号序列来预测下一个符号yu。在各种实施例中，y＝(y1,y2,...,yu)可以是属于集合y的长度u目标输出符号序列。
34.在rnn-t建模中，可以引入额外的空白符号以将长度u序列y扩展为长度-(t+u)序列集合φ(y)。符号或标记序列长度(u)和声学特征帧(t)可以不是相同的长度。
35.由于在产生输出符号之前，预测神经网络140的输出与编码器130的输出在结合器150处合并，因此，直接操纵预测网络140进行定制(添加字、短语和句子)是不可能的。
36.在各种实施例中，输入向量x
t
和输出向量yu可被表示为固定长度实值向量；例如，对于基于字符的语音识别，每个x
t
可以是美尔(mel)频率倒谱系数(mfcc)的向量，并且每个y
t
可以是对特定字符编码的独热(one-hot)向量，其中，美尔频率倒谱系数(mfcc)是声音的短期功率谱的表示。输入向量x
t
和输出向量yu可以被映射，其中，输入向量x
t
和输出向量yu可以具有不同的长度t和u。
37.在各种实施例中，编码器130最初可以被预先训练。在训练rnn-t之前，可以初始化编码器网络130和预测网络140。
38.在各种实施例中，预先获得声学模型和交叉熵语言模型，其中，声学模型可以是音素声学模型。在各种实施例中，交叉熵语言模型可以是字符交叉熵语言模型、子字交叉熵语
言模型、或字交叉熵语言模型。
39.在各种实施例中，可以基于声学模型来初始化端到端语音识别模型的编码器130。编码器网络130还可使用来自源域的一对合成音频和相关联的文本来更新。“源”数据是在定制之前用于训练原始rnn-t的训练数据。
40.在各种实施例中，预测器网络140充当确定/预测与输入音频相关联的文本的语言建模器。
41.在各种实施例中，预测网络140可以是递归神经网络，其中，预测网络140可以具有输入层、输出层和一个或多个隐藏层。输入层的大小可以与输入向量的长度相同，其中，可以存在标记k＝{k1，k2，...kk}，并且yu可以等于kk，其中，n是索引1≤k≤k。输入可以被编码为独热向量。
42.在各种实施例中，在发射输出符号之前，预测网络140的输出与来自编码器网络130的输出合并。在基于字符的系统中，来自rnn-t的(一个或多个)输出符号(在softmax计算之后)是字符和《blank(空白)》符号的集合。在各种实施例中，在预测网络的历史中不使用《blank》符号。直接操纵预测网络140进行定制(添加字、短语和句子)是不可能的。来自编码器网络130和预测网络140的输出被用于更新预测网络140或整个rnn-t 100。然而，如果rnn-t 100仅用文本数据来定制，则当音频数据不可用时，不能获得来自编码器网络130的输出。
43.在各种实施例中，输出特征序列y 180可以是由rnn-t 100基于输入特征序列x 110通过在由p(y|t,u)定义的输出概率网格上搜索而生成的输出序列，其中，y＝(y1,y2,...y
u-1
,yu)可以是属于某个输出空间y上的所有序列的集合y
*
的长度u输出序列，并且p(y|t,u)是给定“t”和“u”的y的后验概率，其中，“t”是被表示为向量的声学特征的时间排序序列中的时间索引，并且u是长度u输出序列上的索引。在各种实施例中，y＝(y1,y2,...,y
u-1
)被馈送到预测网络140中。
44.在各种实施例中，用被表示为向量的声学特征x作为输入并用音素作为输出来训练连接词时间分类(ctc)模型，以获得音素声学模型。用该ctc建模训练的神经网络可用于初始化rnn-t 100的编码器网络130。音素声学模型可以用作rnn-t 100的编码器网络130的初始声学模型。声学特征可以用作输入，建模单元可以被设置为输出，以对初始声学模型进行训练，以获得目标声学模型。
45.在各种实施例中，交叉熵(ce)可用于训练语言模型(lm)。ctc声学模型和ce语言模型可以分别用于初始化端到端系统的编码器130(编码器)和预测器140(解码器)。在初始化之后，端到端系统可以具有合适的初始状态。
46.rnn-t训练可以从预先训练的模型开始，或者在没有预先训练的情况下，训练可以从随机初始化开始。
47.在各种实施例中，语言模型可包括lstm层和第一输入嵌入层。lstm可以用于编码器网络130和预测网络140两者，然而，其它类型的神经网络(诸如变换(transformer)神经网络)也可以用于编码器和预测网络中的任一者或两者。
48.在各种实施例中，由编码器130和预测器140生成的输出可以由结合器150来组合，其中，结合器150可以产生高级表示(嵌入向量)的加权和。结合器网络150可
以通过组合来自编码器网络的输出和来自预测网络的输出来输出嵌入z
t,u
(分对数(logit))。在各种实施例中，结合器150是前馈网络，其将编码器网络输出和预测网络输出组合为两个嵌入的线性变换之和：
[0049][0050]
其中w
enc
和w
pre
是权重矩阵，bz是偏差向量，ψ是非线性函数，例如tanh或relu。
[0051]
利用线性变换将z
t,u
连接到输出层：
[0052]ht,u
＝(wyz
t,u
+by)
[0053]
其中，w是权重矩阵，by是偏差向量。
[0054]
在各种实施例中，softmax函数160被应用于合并器150的输出，其中，softmax函数160是将合并器神经网络150的输出归一化以在预测的输出类别上产生概率(后验)分布170p(y
t+u
|t,u)的激活函数。p(y
t+u
|t,u)定义后验网格，其中，每个节点表示后验分布。预测的输出类别可以是文本训练语料库/词典的字符或子字(字的部分)。softmax函数160可以是rnn-t 100的输出层。
[0055]
在各种实施例中，概率分布170可用于生成输出特征序列y 180，其中，可通过在由p(y|t,u)定义的输出概率网格上搜索来生成输出特征序列y180。输出符号序列y 120可以用于更新预测器140。当训练模型时，可以不使用束搜索，因为符号序列和输入音频特征的对都被给定，所以，可以计算后验概率网格。通过最小化rnn-t损失，参数被更新。rnn-t损失被定义为在所有可能的rnn-t对齐上的符号后验概率的总和：
[0056][0057]
其中，每个序列是x与y之间的rnn-t对齐之一，其中t对齐之一，其中的元素属于符号集
[0058]
在各种实施例中，可以实现仅根据抄本和音频的端到端训练，其中，不需要混合建模中所需的迭代和长训练步长。在各种实施例中，也不需要将拼写和发音联系起来的词典。可以根据相关联的一对音频数据及其抄写(transcription)来训练rnn-t。
[0059]
在一个或多个实施例中，可以从在源域中可用的文本合成音频数据。用于合成音频数据的文本可以是与在原始rnn-t模型的训练中使用的相同的文本。当更新编码器网络时，使用合成音频用作在原始rnn-t模型的训练中使用的文本。因此，编码器网络可以以来自预测网络的适当输出为条件来更新。
[0060]
在各种实施例中，可使用来自源域的一对合成音频和文本来更新编码器网络。
[0061]
还可以在目标域中针对文本合成音频数据。
[0062]
在各种实施例中，预测网络可以通过使用来自目标域的一对合成音频和文本来更新。当更新预测网络时，编码器网络已适应源域的合成音频。因此，预测网络可以以来自编码器网络的适当输出为条件来更新。
[0063]
在各种实施例中，编码器网络可以被恢复到它的原始条件。虽然最近合成音频的质量已经得到提高，但是，通过使用合成音频来更新用于语音识别的编码器网络并不总是
有价值的。最终的编码器网络可以与原始编码器网络相同，而不被来自用于定制的目标域的合成音频污染。一旦不再需要定制特征，编码器则可以被重置到它的初始状态。
[0064]
图2是示出根据本发明的实施例的用于训练用于语音识别的递归神经网络转录器(rnn-t)的算法的框图/流程图。
[0065]
在一个或多个实施例中，用于训练递归神经网络转录器(rnn-t)的算法200可以包括准备被表示为向量的声学特征的输入特征序列x，其中，输入特征序列x可以是从用于初始训练(原始)rnn-t的文本合成的音频数据。编码器网络可以最初被训练。音频数据可以从源域的文本合成，其中，源域可以由标准语料库表示。
[0066]
在框210，声学特征的特征序列x可通过读取源域的文本来合成。
[0067]
在215，声学特征的特征序列x可以被馈送到rnn-t的编码器130中，其中，声学特征可以是美尔频率倒谱系数(mfcc)的向量。
[0068]
在框220处，可使用相关联的一对所合成的音频和源域中的文本来训练编码器。编码器可以生成隐藏向量序列(h0,h1,
…
,h
t
)。输入音频特征可以具有长度t。可以针对每个音频特征计算隐藏向量h
t
。
[0069]
在225，隐藏向量序列(h0,h1,
…
,h
t
)可被馈送到结合器230中。
[0070]
在框230，结合器将隐藏向量序列(h0,h1,
…
,h
t
)和来自预测器270的隐藏向量序列(h0,h1,
…
,h
u-1
)组合，以产生与h
t
和hu的索引t和u相关的感应局部场z
t,u
。
[0071]
在235，将感应局部场z
t,u
馈送到softmax函数240中。
[0072]
在240，softmax函数生成后验概率p(y|t,u)250。
[0073]
在245，由softmax函数输出后验概率p(y|t,u)。
[0074]
在250，来自240的输出是p(y|t,u)。
[0075]
在255，p(y|t,u)被馈送到输出序列生成器260，其产生长度为u的输出符号序列y。
[0076]
在框260，输出序列生成器260产生长度为u的输出符号序列y。
[0077]
在265，具有长度u-1的输出符号序列y被馈送到预测器神经网络270以更新预测器神经网络270，其中，120中的y
u-1
指示先前的预测(例如，(一个或多个)字母)。基于直到u-1的先前的字序列，rnn-t预测下一个符号yu。
[0078]
在框270，预测器神经网络270被更新，并且生成隐藏向量序列(h0,h1,
…
,hu)。
[0079]
图3是示出根据本发明的实施例的用于从文本合成音频特征、更新编码器和预测器、以及恢复编码器的算法的框图/流程图。
[0080]
在框310，识别要用于训练的源域文本。
[0081]
在框320，从来自源域的文本合成用于编码器的源域训练的音频数据。
[0082]
在框330，更新编码器网络，同时保持预测器神经网络和结合器神经网络的权重恒定(即，固定)。
[0083]
在框340，识别要用于训练的目标域文本。
[0084]
在框350，从目标域的文本合成用于预测器的目标域训练的音频。将用于目标域的合成音频放入编码器中。在各种实施例中，仅更新预测网络。编码器网络不被用于目标域的合成音频更新。
[0085]
在框360，更新预测器网络，同时保持编码器神经网络和结合器神经网络的权重恒
定。
[0086]
在框370，在定制模型的实际部署期间，将编码器网络恢复到在馈送目标域音频之前的权重。将编码器网络上的加权恢复到在源域上训练的状态可以将编码器重置到预定制状态。
[0087]
图4是根据本发明的实施例的用于rnn-t的后验网格的图。
[0088]
y＝(y1,y2,...,yu)可表示垂直平移的长度为u的目标输出符号序列。
[0089]
x＝(x1,x2,...,x
t
)可以表示在t个时间步长上的声学特征向量。
[0090]
每个节点400表示由p(y
t+u
|t,u)定义的后验分布p(y|t,u)。
[0091]
图5是根据本发明的实施例的可以应用本方法和系统的示例性处理系统500。
[0092]
在各种实施例中，处理系统500可包括至少一个处理器(cpu)504，并且可具有图形处理(gpu)505，其可执行经由系统总线502操作地耦合到其它组件的向量计算/操纵。高速缓存506、只读存储器(rom)508、随机存取存储器(ram)510、输入/输出(i/o)适配器520、声音适配器530、网络适配器540、用户接口适配器550和显示适配器560可以可操作地耦合到系统总线502。
[0093]
第一存储设备522和第二存储设备524通过i/o适配器520可操作地耦合到系统总线502。存储设备522和524可以是盘存储设备(例如，磁盘或光盘存储设备)、固态设备、磁存储设备等中的任一个。存储设备522和524可以是相同类型的存储设备或不同类型的存储设备。
[0094]
扬声器532通过声音适配器530操作地耦合到系统总线502。收发器542通过网络适配器540操作地耦合到系统总线502。显示设备562通过显示适配器560操作地耦合到系统总线502。
[0095]
第一用户输入设备552、第二用户输入设备554和第三用户输入设备556通过用户接口适配器550操作地耦合到系统总线502。用户输入设备552、554和556可以是键盘、鼠标、小键盘、图像捕获设备、运动感测设备、麦克风、结合了前述设备中的至少两个的功能的设备等中的任何设备。当然，也可以使用其它类型的输入设备，同时保持本原理的精神。用户输入设备552、554和556可以是相同类型的用户输入设备或不同类型的用户输入设备。用户输入设备552、554和556可以用于向系统500输入信息和从系统500输出信息。
[0096]
在各种实施例中，处理系统500还可包括所属领域的技术人员容易预期的其它元件(未图示)，以及省略某些元件。例如，如本领域普通技术人员容易理解的，取决于各种其他输入设备和/或输出设备的特定实现，它们可以被包括在处理系统500中。例如，可以使用各种类型的无线和/或有线输入和/或输出设备。此外，如本领域普通技术人员容易理解的，还可以利用各种配置中的附加处理器、控制器、存储器等。给定本文所提供的本原理的教导，本领域普通技术人员容易想到处理系统500的这些和其它变型。
[0097]
此外，应当理解，系统500是用于实现本方法/系统的相应实施例的计算机系统。处理系统500的部分或全部可以在图1-图4的一个或多个元件中实现，此外，应当理解，处理系统500可以执行本文所描述的方法的至少一部分，包括例如图1-图4的方法的至少一部分。
[0098]
图6是根据本发明的实施例的被配置为实现用于对道路布局建模的一个或多个神经网络的示例性处理系统600。
[0099]
在一个或多个实施例中，处理系统600可以是被配置为执行定制用于语音识别的
递归神经网络转录器的计算机实现的方法的计算机系统500。
[0100]
在一个或多个实施例中，处理系统600可以是具有存储器组件670的计算机系统500，存储器组件670包括但不限于计算机系统的随机存取存储器(ram)510、硬盘驱动器522和/或云存储装置，以存储和实现从视频图像理解道路布局的计算机实现的方法。存储器组件670还可利用数据库来组织存储器存储。
[0101]
在各种实施例中，存储器组件670可以包括编码器神经网络610，其可以被配置为实现多个声学模型，声学模型被配置为对声学输入进行建模并且执行自动语音识别(asr)。在各种实施例中，编码器神经网络610可以被实现为长短期记忆(lstm)或双向lstm(blstm)。编码器神经网络610还可以被配置为接收声学信号作为输入。输入可以是由麦克风556接收的音频数据的顺序集合。编码器神经网络610还可以被配置为生成作为嵌入的输出值。
[0102]
在各种实施例中，存储器组件670可以包括预测器神经网络620，其可以被配置为学习一个或多个声学模型，并且被配置为生成编码器嵌入以执行自动语音识别(asr)。在各种实施例中，预测器神经网络620可以被实现为长短期记忆(lstm)。预测器神经网络620还可以被配置为生成作为嵌入的输出值。
[0103]
在各种实施例中，存储器组件670可以包括可以被配置为组合来自编码器和预测器的两个单独的输入数据集合的结合器神经网络630，其中，数据可以是特征/向量h
t
和hu。结合器神经网络630可被配置为产生输出，其中，输出可以是字母、子字或字。
[0104]
在各种实施例中，存储器组件670可以包括输出生成器640，其被配置为产生具有长度u-1的输出符号序列y 120。输出生成器640可以被配置为接收来自结合器神经网络630的输出。
[0105]
在各种实施例中，存储器组件670可以包括softmax函数650，其被配置为从结合器神经网络630的输出值生成预测。
[0106]
在各种实施例中，存储器组件670可以包括合成器660，其被配置为从第一域文本数据合成第一域音频数据，和/或从第二域文本数据合成第二域音频数据。
[0107]
图7是示例性地描绘根据本发明的另一个实施例的示例性神经网络的框图。
[0108]
神经网络700可包括多个神经元/节点，并且输出节点可使用多个连接708中的一个或多个连接来通信。神经网络700可以包括多个层，包括例如一个或多个输入层702、一个或多个隐藏层704以及一个或多个输出层706。在一个实施例中，在每一层的节点可用于将任何函数(例如，输入程序、输入数据等)应用于任何先前层以产生输出，并且隐藏层704可用于将来自输入层(或任何其它层)的输入变换成用于在不同层的节点的输出。
[0109]
图8是示出根据实施例的具有一个或多个云计算节点的说明性云计算环境的框图，其中，由云消费者使用的本地计算设备与云计算节点进行通信。
[0110]
应当理解，尽管本公开包括关于云计算的详细描述，但是，本文所陈述的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
[0111]
云计算是一种服务交付模型，用于实现对共享的可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)池的方便、按需的网络访问，可配置计算资源可以以最小的管理成本或与服务提供商进行最少的交互来快速供应和释放。该
云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
[0112]
特征如下：
[0113]
按需自助式服务：云的消费者可以单方面自动地按需提供计算能力(诸如服务器时间和网络存储)，而无需与服务提供者进行人工交互。
[0114]
广泛的网络接入：能力在网络上可用并通过促进异构的瘦或厚客户端平台(例如，移动电话、膝上型计算机和pda)的使用的标准机制来接入。
[0115]
资源池：提供商的计算资源被归入资源池以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和再分配。一般情况下，消费者不能控制或不知道所提供的资源的确切位置，但是可以在较高抽象程度上指定位置(例如国家、州或数据中心)，因此具有位置无关性。
[0116]
迅速弹性：可以迅速且有弹性地(在一些情况下自动地)提供能力以快速向外扩展并被迅速释放以快速缩小。对于消费者，可用于提供的能力通常看起来是无限的，并可以在任何时间以任何数量购买。
[0117]
可测量的服务：云系统通过利用在适于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象程度的计量能力，自动地控制和优化资源使用。可以监视、控制和报告资源使用情况，为所利用的服务的提供者和消费者双方提供透明度。
[0118]
服务模型如下：
[0119]
软件即服务(saas)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可通过诸如网络浏览器的瘦客户机接口(例如，基于网络的电子邮件)来从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置以外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、或甚至单个应用能力等的底层云基础架构。
[0120]
平台即服务(paas)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用是使用由提供商支持的编程语言和工具创建的。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。
[0121]
基础设施即服务(iaas)：向消费者提供的能力是提供消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其它基础计算资源。消费者既不管理也不控制底层云基础架构，但对操作系统、存储、所部署的应用具有控制权，对所选择的网络组件(例如，主机防火墙)可能具有有限的控制权。
[0122]
部署模型如下：
[0123]
私有云：云基础设施单独为某个组织运行。它可以由该组织或第三方管理，并且可以存在于该组织内部或外部。
[0124]
共同体云：云基础设施被若干组织共享，并支持具有共同利害关系(例如，任务、安全要求、政策和合规考虑)的特定共同体。它可以由该组织或第三方管理，并且可以存在于该组织内部或外部。
[0125]
公共云：云基础设施可用于一般公众或大型产业群，并由销售云服务的组织拥有。
[0126]
混合云：云基础设施由两个或更多云(私有云、共同体云或公共云)组成，这些云依然是独特实体，但是通过使数据和应用能够移植的标准化技术或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。
[0127]
云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语义的互操作性。计算的核心是包括互连节点网络的基础架构。
[0128]
参考图8，描绘了说明性云计算环境950。如图所示，云计算环境950包括具有云消费者所使用的本地计算设备可以与其通信的一个或多个云计算节点910。这些本地计算设备的示例包括但不限于个人数字助理(pda)或蜂窝电话951、台式计算机952、膝上型计算机953、和/或汽车计算机系统954。节点910可彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所描述的私有云、共同体云、公共云或混合云、或其组合。这允许云计算环境950提供基础设施即服务、平台即服务和/或软件即服务，而云消费者不需要为其在本地计算设备上维护资源。应当理解，图8中所示的计算设备951、952、953、954的类型仅仅是说明性的，并且计算节点910和云计算环境950可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。
[0129]
图9是示出根据实施例的由云计算环境提供的一组功能抽象层的框图。
[0130]
参考图9，示出了由云计算环境950(图7)提供的一组功能抽象层。应当预先理解，图8中所示的组件、层和功能仅仅是说明性的，并且本发明的实施例不限于此。如所描绘的，提供了以下层和相应的功能：
[0131]
硬件和软件层1060包括硬件和软件组件。硬件组件的实例包括：大型机61；基于risc(精简指令集计算机)架构的服务器62；服务器63，刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。
[0132]
虚拟化层1070提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储72；虚拟网络73，包括虚拟专用网络；虚拟应用程序和操作系统74；以及虚拟客户端75。
[0133]
在一个示例中，管理层1080可以提供下面描述的示例功能。资源供应81功能提供用于在云计算环境内执行任务的计算资源和其他资源的动态获取。计量和定价82功能提供对在云计算环境中使用资源的成本跟踪，并为这些资源的消耗提供账单或发票。在一个示例中，这些资源可以包括应用软件许可。安全功能为云消费者和任务提供身份验证，并为数据和其他资源提供保护。用户门户83功能为消费者和系统管理员提供对云计算环境的访问。服务水平管理84功能提供云计算资源分配和管理，以满足所需的服务水平。服务水平协议(sla)计划和履行85功能提供对根据sla针对其预测未来需求的云计算资源的预安排和采购。
[0134]
工作负载层1090提供可以利用云计算环境的功能的示例。在该层中，可提供的工作负载和功能的示例包括但不限于：地图绘制和导航91；软件开发及生命周期管理92；虚拟教室的教学提供93；数据分析处理94；以及实现自动语音识别(asr)的递归神经网络转录器(rnn-t)96，其中，教师神经网络可以是被配置为学习自动语音识别并准备学生神经网络的递归神经网络。
[0135]
如本文所使用的，术语“硬件处理器子系统”或“硬件处理器”可以是指协作以执行一个或多个特定任务的处理器、存储器、软件或其组合。在有用的实施例中，硬件处理器子系统可以包括一个或多个数据处理元件(例如，逻辑电路、处理电路、指令执行设备等)。一个或多个数据处理元件可以被包括在中央处理单元、图形处理单元和/或单独的基于处理器或计算元件的控制器(例如，逻辑门等)中。硬件处理器子系统可以包括一个或多个板上
存储器(例如，高速缓存、专用存储器阵列、只读存储器等)。在一些实施例中，硬件处理器子系统可以包括一个或多个存储器，其可以在板上或板外，或者可以专用于由硬件处理器子系统使用(例如，rom、ram、基本输入/输出系统(bios)等)。
[0136]
在一些实施例中，硬件处理器子系统可以包括并执行一个或多个软件元件。一个或多个软件元件可以包括操作系统和/或一个或多个应用程序和/或特定代码以实现指定的结果。
[0137]
在其它实施例中，硬件处理器子系统可以包括专用的、专门的电路，其执行一个或多个电子处理功能以实现指定的结果。这种电路可以包括一个或多个专用集成电路(asic)、fpga和/或pla。
[0138]
根据本发明的实施例，还预期硬件处理器子系统的这些和其它变化。
[0139]
本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。
[0140]
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式光盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。
[0141]
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
[0142]
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(isa)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或者以一种或多种编程语言(包括面向对象的编程语言，例如smalltalk、c++等)和过程编程语言(例如“c”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络(包括局域网(lan)或广域网(wan))连接到用户的计算机，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)的电子电路可以通过利用计算机可
读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
[0143]
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
[0144]
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的方面的指令。
[0145]
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
[0146]
在说明书中提到本发明的“一个实施例”或“实施例”及其它变型意味着结合该实施例描述的特定特征、结构、特性等被包括在本发明的至少一个实施例中。因此，在整个说明书中的各个地方出现的短语“在一个实施例中”或“在实施例中”以及任何其它变型不一定都是指相同的实施例。
[0147]
应当理解，例如在“a/b”、“a和/或b”以及“a和b中的至少一个”的情况下，使用以下“/”、“和/或”以及“中的至少一个”中的任何一个旨在涵盖仅选择第一列出的选项(a)的、或仅选择第二列出的选项(b)、或选择两个选项(a和b)。作为进一步的例子，在“a、b和/或c”和“a、b和c中的至少一个”的情况下，这样的措词旨在包括仅选择第一个列出的选项(a)，或者仅选择第二个列出的选项(b)，或者仅选择第三个列出的选项(c)，或者仅选择第一个和第二个列出的选项(a和b)，或者仅选择第一个和第三个列出的选项(a和c)，或者仅选择第二个和第三个列出的选项(b和c)，或者选择所有三个选项(a和b和c)。这可以扩展到所列的许多项目，这对于本领域和相关领域的普通技术人员来说是显而易见的。
[0148]
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以作为一个步骤来实现，同时、基本同时、以部分或全部时间重叠的方式执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
[0149]
已经描述了系统和方法的优选实施例(其旨在说明而非限制)，注意，本领域技术人员根据上述教导可以进行修改和变化。因此，应当理解，可以在所公开的特定实施例中进行改变，这些改变在由所附的权利要求概括的本发明的范围内。因此，已经用专利法所要求的细节和特性描述了本发明的各方面，在所附的权利要求中阐述了所要求保护的和期望由专利证书保护的内容。

技术特征：
1.一种用于定制递归神经网络转录器(rnn-t)的计算机实现的方法，包括：从第一域文本数据合成第一域音频数据；将所合成的第一域音频数据馈送到具有初始条件的所述递归神经网络转录器(rnn-t)的经训练的编码器中，其中，使用所合成的第一域音频数据和所述第一域文本数据来更新所述编码器；从第二域文本数据合成第二域音频数据；将所合成的第二域音频数据馈送到所述递归神经网络转录器(rnn-t)的经更新的编码器中，其中，使用所合成的第二域音频数据和所述第二域文本数据来更新所述预测网络；以及将所述经更新的编码器恢复到所述初始条件。2.根据权利要求1所述的方法，其中，所述递归神经网络转录器(rnn-t)包括将所述编码器的输出与所述预测器的输出相组合的结合器。3.根据权利要求2所述的方法，其中，所述结合产生输出，作为被馈送到softmax函数中的感应局部场z
t,u
。4.根据权利要求3所述的方法，其中，所述softmax函数生成后验概率p(y|t,u)。5.根据权利要求4所述的方法，其中，所述后验概率生成器p(y|t,u)基于输入特征序列x生成输出，所述输出是输出序列y＝(y1,y2,...y
u-1
,y
u
)，所述输出序列是长度为u的输出序列，所述输入特征序列x是被表示为向量的声学特征的时间排序序列。6.根据权利要求5所述的方法，其中，所述输入特征序列x是从所合成的第一域音频数据导出的。7.一种用于定制递归神经网络转录器(rnn-t)的系统，包括：一个或多个处理器设备；存储器，其与所述一个或多个处理器设备中的至少一个处理器设备通信；以及显示屏；其中，所述存储器包括：编码器，被配置为接收从第一域文本数据生成的所合成的第一域音频数据，其中，所述编码器是具有初始条件的所述递归神经网络转录器(rnn-t)的经训练的编码器，其中，所述编码器被配置为使用所合成的第一域音频数据和所述第一域文本数据从所述初始条件更新，其中，所述编码器还被配置为接收从第二域文本数据生成的所合成的第二域音频数据；以及输出序列生成器，其基于输入特征序列x产生输出符号序列y，所述输入特征序列x是被表示为向量的声学特征的时间排序序列。8.根据权利要求7所述的系统，其中，所述存储器进一步包括结合器，所述结合器被配置为将所述经训练的编码器的输出与所述预测器的输出相组合。9.根据权利要求8所述的系统，其中，所述结合器产生感应局部场z
t,u
作为所述输出。10.根据权利要求9所述的系统，其中，所述存储器还包括softmax函数，所述softmax函数被配置为接收感应局部场z
t,u
，并生成输出。11.根据权利要求10所述的系统，其中，所述输出序列y＝(y1,y2,...y
u-1
,y
u
)是基于输入特征序列x的长度为u的输出序列，所述输入特征序列x是被表示为向量的声学特征的时
间排序序列。12.根据权利要求11所述的系统，其中，所述存储器还包括合成器，所述合成器被配置为从第一域文本数据合成第一域音频数据，并且从第二域文本数据合成第二域音频数据。13.根据权利要求12所述的系统，其中，所述编码器还被配置为恢复到所述初始条件。14.一种用于定制递归神经网络转录器(rnn-t)的计算机程序产品，所述计算机程序产品包括一个或多个计算机可读存储介质以及被共同存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令可由计算机执行以使所述计算机：从第一域文本数据合成第一域音频数据；将所合成的第一域音频数据馈送到具有初始条件的所述递归神经网络转录器(rnn-t)的经训练的编码器中，其中，使用所合成的第一域音频数据和所述第一域文本数据来更新所述编码器；从第二域文本数据合成第二域音频数据；将所合成的第二域音频数据馈送到所述递归神经网络转录器(rnn-t)的经更新的编码器中，其中，使用所合成的第二域音频数据和所述第二域文本数据来更新预测器；以及将所述经更新的编码器恢复到所述初始条件。15.根据权利要求14所述的计算机程序产品，其中，所述递归神经网络转录器(rnn-t)包括将所述经训练的编码器的输出与所述预测器的输出相组合的结合器。16.根据权利要求15所述的计算机程序产品，其中，所述结合产生输出，作为被馈送到softmax函数中的感应局部场z
t,u
。17.根据权利要求16所述的计算机程序产品，其中，所述softmax函数生成后验概率p(y|t,u)。18.根据权利要求17所述的计算机程序产品，其中，所述后验概率生成器p(y|t,u)基于输入特征序列x生成输出，所述输出是输出序列y＝(y1,y2,...y
u-1
,y
u
)，所述输出序列是长度为u的输出序列，所述输入特征序列x是被表示为向量的声学特征的时间排序序列。19.根据权利要求18所述的计算机程序产品，其中，所合成的第一域音频数据是所述输入特征序列x。20.一种用于定制递归神经网络转录器(rnn-t)的计算机实现的方法，包括：从第一域文本数据合成第一域音频数据；将所合成的第一域音频数据馈送到具有初始条件的所述递归神经网络转录器(rnn-t)的经训练的编码器中，其中，使用所合成的第一域音频数据和所述第一域文本数据来更新所述编码器，并且所述编码器将所合成的第一域音频数据编码为声学嵌入a
t
，其中，所述声学嵌入a
t
将所合成的第一域音频数据压缩到更小的特征空间中；将所述声学嵌入a
t
馈送到结合器；从第二域文本数据合成第二域音频数据；将所合成的第二域音频数据馈送到经更新的编码器中，其中，所述经更新的编码器将所合成的第二域音频数据编码为声学嵌入b
t
，其中，所述声学嵌入b
t
将所合成的第二域音频数据压缩到更小的特征空间中；将来自所述结合器的输出序列馈送到所述递归神经网络转录器(rnn-t)的预测器中，其中，使用来自所合成的第二域音频数据和所述第二域文本数据的所述输出序列更新所述
预测器；以及将所述经更新的编码器恢复到所述初始条件。21.根据权利要求20所述的方法，其中，所述结合器通过加权求和来将所述声学嵌入a
t
与来自所述预测器的嵌入相组合。22.根据权利要求21所述的方法，其中，所述结合器产生输出，作为被馈送到softmax函数中的感应局部场z
t,u
。23.根据权利要求22所述的方法，其中，所述softmax函数生成后验概率p(y|t,u)。

技术总结
提供了一种用于定制递归神经网络转录器(RNN-T)的计算机实现的方法。该计算机实现的方法包括从第一域文本数据合成第一域音频数据，以及将所合成的第一域音频数据馈送到具有初始条件的递归神经网络转录器(RNN-T)的经训练的编码器中，其中，使用所合成的第一域音频数据和第一域文本数据来更新编码器。该计算机实现的方法还包括从第二域文本数据合成第二域音频数据，以及将所合成的第二域音频数据馈送到递归神经网络转录器(RNN-T)的经更新的编码器中，其中，使用所合成的第二域音频数据和第二域文本数据来更新预测网络。该计算机实现的方法还包括将经更新的编码器恢复到初始条件。件。件。

技术研发人员：仓田岳人 G
受保护的技术使用者：国际商业机器公司
技术研发日：2021.11.26
技术公布日：2023/9/9

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

用于语音识别的递归神经网络转录器的定制的制作方法

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

用于语音识别的递归神经网络转录器的定制的制作方法

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表