语音翻译方法及装置、电子设备、存储介质与流程

未命名 08-02 阅读:153 评论:0


1.本公开涉及语音处理技术领域,具体涉及语音翻译方法及装置、电子设备、存储介质。


背景技术:

2.随着语音处理技术的快速发展,语音翻译功能的准确率和智能化水平得到了有效地提升。相关技术中,一般先识别出待进行翻译的源语言语音对应的源语言文本,然后将源语言文本翻译为对应的目标语言文本,最后根据目标语言文本生成与目标语言文本对应的目标语言语音;其中,目标语言与源语言不同,例如,源语言为中文、目标语言为英文,或源语言为普通话、目标语言为方言。
3.上述相关技术所采用的方案能够应用于较多的场景,但对于语言没有正确的文字形式甚至无文字形式,例如,无正确的文字形式的方言,导致语言文本无法得到,则相关技术难以实现语音翻译功能,亟待需要解决。


技术实现要素:

4.为解决相关技术存在的由于文本没有正确的文字形式甚至无文字形式的情况导致语音翻译功能难以实现的问题,本公开提供了语音翻译方法及装置、电子设备、存储介质,以解决相关技术存在的至少一个问题。
5.为实现上述的技术目的,本公开提供了一种语音翻译方法,所述方法包括:接收第一语音,所述第一语音为待进行翻译的源语言语音;从所述第一语音中提取出第一声学特征信息,所述第一声学特征信息用于表示所述源语言语音的语义;将所述第一声学特征信息转换为目标语言的频谱信息;对所述频谱信息进行编码,以生成第二语音;所述第二语音为对所述源语言语音进行翻译之后得到的目标语言语音。
6.为实现上述的技术目的,本公开还能够提供一种语音翻译装置,所述装置包括:语音接收模块,用于接收第一语音,所述第一语音为待进行翻译的源语言语音;特征提取模块,用于从所述第一语音中提取出第一声学特征信息,所述第一声学特征信息用于表示所述源语言语音的语义;信息转换模块,用于将所述第一声学特征信息转换为目标语言的频谱信息;语音编码模块,用于对所述频谱信息进行编码,以生成第二语音;所述第二语音为对所述源语言语音进行翻译之后得到的目标语言语音。
7.为实现上述的技术目的,本公开还可提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行本公开任一实施例所述的语音翻译方法。
8.为实现上述的技术目的,本公开还可提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行本公开任一实施例所述的语音翻译方法。
9.本公开的有益效果包括:与相关技术相比,本公开基于从源语言语音信息中提取
出的第一声学特征信息确定的相对应的目标语言的频谱信息,进而将频谱信息编码为目标语言语音;可见本公开整个语音翻译过程无需使用文本信息,即使对于源语言和/或目标语言没有正确的文字形式甚至无文字形式的情况,仍能够较佳地实现语音翻译功能,本公开特别适用于无正确文字形式的方言翻译的场景,所以本公开提供的语音翻译方案能够适用于更多的应用场景,实现了对语音翻译功能的优化,明显提升了用户体验。另外,本公开还能够有助于明显降低语音翻译功能实现的成本。
附图说明
10.图1示出了本公开一个或多个实施例中的语音翻译方法的流程示意图。
11.图2示出了本公开一个或多个实施例中将第一声学特征信息转换为目标语言的频谱信息的流程示意图。
12.图3示出了本公开一个或多个实施例中对第一声学特征信息进行翻译的流程示意图。
13.图4示出了本公开一个或多个实施例中将第二声学特征信息转换为目标语言的频谱信息的流程示意图。
14.图5示出了本公开一个或多个实施例中利用第二语义信息生成目标语言的频谱信息的流程示意图。
15.图6示出了本公开一个或多个实施例中从第一语音中提取出第一声学特征信息的流程示意图。
16.图7示出了本公开一个或多个实施例中基于已训练完成的神经网络模型实现本公开的语音翻译方案的原理示意图。
17.图8示出了本公开一个或多个实施例中的翻译器子模块和合成器子模块的工作原理示意图。
18.图9示出了本公开一个或多个实施例中的语音翻译装置结构的示意图。
19.图10示出了本公开一个或多个实施例中的电子设备内部结构组成的示意图。
具体实施方式
20.相关技术的语音翻译任务通过asr(automatic speech recognition,自动语音识别)系统识别出源语言语音对应的源语言文本,接着通过语言翻译系统将源语言文本翻译为对应的目标语言文本,最后能够通过tts(text to speech,从文本到语音)系统基于目标语言文本输出目标语言语音。
21.以方言为例,在方言间的交流中,由于方言本身主要通过语言传播,方言的文字形式一般只有语言专家才能熟练掌握,大部分用户都较难输入准确的方言文本作为tts输入;而对于非本地人,往往更难以输入准确的方言文本。方言以粤语为例,大多数非本地人和部分本地人都较难写出准确的文字形式的粤语方言,比如,普通话想表达的“我不是故意的”,准确的粤语表达为“我唔系特登嘅”,一般非本地人往往只能写出普通话的文本形式,部分本地人也只会写成谐音形式,例如“我唔海得登嘅”。方言以东北话为例,虽然东北话与普通话差别不大,但是非本地人想表达的“我们那里很冷”,本地人会有更准确的表达方式,例如“俺们那旮瘩老冷了”。所以,进行普通话与方言间的翻译可以帮助非本地人和本地人进行
准确的交流,但需要很多方言专业知识;然而一般方言间的翻译数据是非常稀缺的,很多方言甚至小众到没有正确的文字形式,导致相关技术难以实现方言的语音翻译功能。
22.因此,相关技术无法解决一些特殊的非常见方言因无文字形式导致的无法进行自动语音翻译的问题。另外,asr系统、语言翻译系统以及tts系统中的每个系统都需要大量的数据进行训练,实施成本较高。
23.鉴于此,本公开能够提供一种语音翻译方法及装置、电子设备、存储介质,以有效地解决相关技术存在的至少一个问题。
24.如图1所示,本公开一个或多个实施例能够提供一种语音翻译方法,该语音翻译方法包括但不限于步骤s100至步骤s400。
25.步骤s100,接收第一语音,第一语音为待进行翻译的源语言语音。
26.具体应用时,第一语音例如可为用户发出的普通话语音,例如一段话“我不是故意的”,对于该源语言语音,本公开实施例可用于将该源语言语音翻译为对应的目标语言语音,例如普通话语音翻译为粤语语音。
27.步骤s200,从第一语音中提取出第一声学特征信息,第一声学特征信息用于表示源语言语音的语义。
28.本实施例可借助语音识别模型实现声学特征提取功能,以从第一语音中提取出第一声学特征信息,当然并不限于此。
29.步骤s300,将第一声学特征信息转换为目标语言的频谱信息。
30.本公开实施例将源语言的声学特征直接转换为目标语言的频谱,从而跳过了需要高成本的文字翻译过程,以克服相关技术中的至少一个问题。
31.步骤s400,对频谱信息进行编码,以生成第二语音;第二语音为对源语言语音进行翻译之后得到的目标语言语音。
32.本公开实施例能够使用声码器(vocoder)对频谱信息进行编码,以将频谱信息编码为第二语音,当然并不限于此。
33.具体应用时,第二语音例如可为通过本公开实施例的方案翻译后得到的粤语语音“我唔系特登嘅”。
34.本公开一个或多个实施例中,基于从源语言语音信息中提取出的第一声学特征信息确定的相对应的目标语言的频谱信息,进而将频谱信息编码为目标语言语音;可见本公开整个语音翻译过程无需使用文本信息,即使对于源语言和/或目标语言没有正确的文字形式甚至无文字形式的情况,仍能够较佳地实现语音翻译功能,本公开特别适用于无正确文字形式的方言翻译的场景,所以本公开提供的语音翻译方案能够适用于更多的应用场景,实现了对语音翻译功能的优化,明显提升了用户体验。另外,本公开还能够有助于明显降低语音翻译功能实现的成本。
35.如图2所示,本公开一个或多个实施例中,将第一声学特征信息转换为目标语言的频谱信息,包括但不限于步骤s310至步骤s320。
36.步骤s310,对第一声学特征信息进行翻译,以得到第二声学特征信息;第二声学特征信息用于表示目标语言语音的语义。
37.本公开实施例可通过端到端语音翻译模型中的翻译器子模块实现将第一声学特征信息翻译为第二声学特征信息,当然并不限于此。
38.步骤s320,将第二声学特征信息转换为目标语言的频谱信息。
39.本公开实施例例如通过训练完成的端到端语音翻译模型中的合成器子模块实现将第二声学特征信息转换为目标语言的频谱信息,当然并不限于此。
40.基于对第一声学特征信息的翻译,本实施例能将用于表示源语言语音的含义的第一声学特征信息转换为用于表示目标语言语音的语义的第二声学特征信息,本公开实施例能够明显提高得到的目标语言的频谱信息的准确性,从而提高语音翻译的准确性,进而提升本公开的语音翻译功能的性能。
41.如图3所示,本公开一个或多个实施例中,对第一声学特征信息进行翻译,包括但不限于步骤s311至步骤s313。
42.步骤s311,从第一声学特征信息中获取上下文信息,第一声学特征信息包括上下文信息。
43.其中,上下文信息是指第一声学特征信息中对第一语义信息产生影响的信息,包括相邻语句的不同语义带来的各种声学特征变化的信息,例如语调、节奏、重音中的一种或多种,当然并不限于此。
44.步骤s312,根据上下文信息从第一声学特征信息提取出第一语义信息,第一语义信息用于表示通过源语言表达的含义。
45.例如,可利用上下文信息作为相邻语句的不同语义之间划分的依据,从而准确地到第一语义信息。
46.本实施例可通过训练完成的端到端语音翻译模型中的翻译器子模块包含的深度卷积层,根据上下文信息从第一声学特征信息提取出第一语义信息。
47.步骤s313,将第一语义信息转换为第二声学特征信息。
48.本实施例能够通过训练完成的端到端语音翻译模型中的翻译器子模块包含的非线性激活函数(relu)、随机失活层(dropout)、全连接层(dense)等实现将第一语义信息转换为第二声学特征信息。
49.本实施例能够通过获得的上下文信息精准地提取出第一语义信息,以实现更全面和更准确地确定源语言语音的语义,从而保证通过源语言表达的含义能够更全面和更准确地在第二声学特征信息中表示。
50.如图4所示,本公开一个或多个实施例中,将第二声学特征信息转换为目标语言的频谱信息,包括但不限于步骤s321至步骤s322。
51.步骤s321,从第二声学特征信息中识别出第二语义信息,第二语义信息用于表示通过目标语言表达的含义。
52.本实施例通过已训练完成的神经网络模型对第二声学特征信息进行理解,例如可通过训练完成的长短期记忆人工神经网络单元理解第二声学特征信息包含的语义,以从第二声学特征信息中识别出第二语义信息。
53.步骤s322,利用第二语义信息生成目标语言的频谱信息。
54.其中,本实施例可通过训练完成的注意力机制模块根据第二声学特征信息包含的语义预测出目标语言的频谱信息。
55.基于从第二声学特征信息中识别出第二语义信息,实现了对第二声学特征信息中表达的含义的准确理解,进而在有效理解第二声学特征信息所表达的含义的基础上生成更
准确的目标语言的频谱。
56.如图5所示,本公开一个或多个实施例中,利用第二语义信息生成目标语言的频谱信息,包括但不限于步骤s3220至步骤s3221。
57.步骤s3220,利用第二语义信息预测出用于表征粗粒度频谱的第一预测信息。
58.其中,本实施例可通过训练完成的注意力机制模块根据第二声学特征信息包含的语义预测出目标语言的粗粒度频谱信息。
59.步骤s3221,利用第一预测信息预测出用于表征细粒度频谱的第二预测信息,并将第二预测信息作为目标语言的频谱信息。
60.其中,本实施例可基于n个(具体值根据实际需求设置)训练完成的一维卷积和全连接层预测出细粒度频谱信息。
61.本实施例提供了目标语言的频谱信息的两步预测手段,该手段包括先预测粗粒度频谱和后预测细粒度频谱的过程,本公开基于上述实施例既能有效提高频谱预测的速度,又能兼顾频谱预测的质量,其综合性能较佳。
62.如图6所示,本公开一个或多个实施例中,从第一语音中提取出第一声学特征信息,包括但不限于步骤s210和步骤s220。
63.步骤s210,从第一语音中提取出原始声学特征信息,原始声学特征信息包括第一声学特征信息和第三声学特征信息,第三声学特征信息包括音色信息和发音情感信息。
64.本实施例通过asr(automatic speech recognition,自动语音识别)模型从第一语音中提取出原始声学特征信息,当然并不限于此。
65.步骤s220,对原始声学特征信息进行过滤,以过滤掉第三声学特征信息,得到第一声学特征信息。
66.本实施例的第一声学特征信息包括第一语义信息和上下文信息,第一语义信息例如包括语音含义信息,上下文信息例如包括韵律信息。
67.例如,第一语音为一位阳光青年用欢快的语气风格录制的第一语音,经过本实施例后会过滤掉语音中的音色信息和发音情感信息,并保留语音含义信息和韵律信息,以实现理解语音的句意的同时不被多余信息干扰。
68.基于上述的实施例,本公开还能够对与语音翻译功能无关的第三声学特征信息进行过滤,从而为后续的第一声学特征信息转换和频谱信息编码过程提供更准确的第一声学特征信息,提高后续处理过程的可靠性,避免与语音翻译功能无关的信息对后续处理过程的干扰,而且还能够明显减少后续处理过程中待处理的数据量,从而明显提高本公开语音翻译的效率。
69.可选地,源语言语音为普通话语音且目标语言语音为方言语音,或者源语言语音为方言语音且目标语言语音为普通话语音。
70.当然,本公开可选的实施例中,源语言为中文、目标语言为外文,或者源语言为外文、目标语言为中文,其中,外文可以为英文、日文、法文等非中文语言中的一种。
71.本公开实施例能够较好地适用于不同语言之间的语音翻译情形,特别适用于方言与普通话之间等某种语言无正确的文字形式甚至无文字形式情况下的语音翻译,具有广泛的应用场景。
72.可选地,目标语言的频谱信息为目标语言的梅尔频谱信息。其中,梅尔频谱信息表
示由梅尔频谱组成的信息。
73.本实施例可通过melgan(mel generative adversarial network,梅尔生成对抗网络)声码器将梅尔频谱信息编码为第二语音,实现将梅尔频谱信息编码为音频。
74.基于梅尔频谱组成的目标语言的频谱信息,本公开实施例能够准确地表示源语言语音的语义对应的信号在不同频率上的分布,提高语音翻译的准确性。
75.如图7所示,本公开实施例采用特征提取模块从输入的源语言语音中提取出第一声学特征信息,实现对应源语言语音的声学特征的输出功能,本实施例中的特征提取模块具体可为声音特征提取器。本公开实施例中的声音特征提取器为基于conformer(构象)结构的asr(automatic speech recognition,自动语音识别)模型包含的神经网络实现,以该asr模型的中间结果bnf(bottleneck features,瓶颈特征)作为第一声学特征信息。其中,该asr模型可包括72层神经网络,例如可使用前32层神经网络提取第一声学特征信息,并可过滤掉音色、情感等非内容相关的信息。
76.接着,本实施例可通过端到端语音翻译模型(s2st,speech-to-speech translation)实现将声学特征翻译为目标语言的频谱。该端到端语音翻译模型包括翻译器子模块和合成器子模块,翻译器子模块输入为源语言语音的声学特征、输出目标语言语音的声学特征(bnf),合成器子模块输入为目标语言语音的声学特征(bnf)、输出为目标语言的频谱。
77.如图8所示,该翻译器子模块可包括依次堆叠设置的非线性激活函数(glu)、深度卷积层(depthwise convolution)、非线性激活函数(relu)、随机失活层(dropout)、加法器、归一化层(layer norm)、全连接层(dense)、随机失活层(dropout)、全连接层(dense),其中,非线性激活函数(glu)和非线性激活函数(relu)用于消除梯度消失问题,深度卷积层(depthwise convolution)用于根据上下文信息提取当前输入的语义信息,随机失活层(dropout)用于给模型带来随机性,提升模型效果,归一化层(layer norm)用于实现归一化模型参数功能,保证模型稳定性,两个全连接层(dense)均用于进行维度调整;其中,翻译器子模块中的n可用于表示n个图示子模块的堆叠。
78.如图8所示,合成器子模块包括依次堆叠的非线性变换网络(pre-net)、长短期记忆人工神经网络单元(lstm cell)、注意力机制模块(attention)、n个一维卷积(conv1d
×
n)、全连接层(dense),该合成器子模块可用于输出粗粒度频谱、细粒度频谱及停止符,其中,非线性变换网络(pre-net)用于特征的输入处理,长短期记忆人工神经网络单元(lstm cell)用于从目标语言的声学特征中理解语义,注意力机制模块(attention)用于进行输入和输出的对齐,即不同语言间的语音信息的对齐,例如源语言的1-5时间步对应目标语言的1-8个时间步,并都代表相同的含义(例如都表示“今天”的含义),当然并不限于此。另外,stopproj表示预测停止符,即句子是否到达最后一个时间步,如果是,则停止预测;frameproj用来预测粗粒度频谱;conv1d用于精修预测的粗粒度频谱,以丰富更多细节;全连接层(dense)用来进行维度调整,并最终输出预测的细粒度频谱。
79.应当理解的是,本公开涉及的翻译器子模块具体为训练完成的翻译器子模块,涉及的合成器子模块具体为训练完成的合成器子模块。
80.如图7所示,本公开以中文翻译粤语的端到端语音翻译模型(s2st)的训练过程为例,具体对端到端语音翻译模型包含的翻译器子模块和合成器子模块的训练过程进行说
明。
81.训练过程中使用的训练数据包括预设时长的普通话音频语料和预设时长的粤语音频语料,预设时长例如为1200小时,普通话音频语料表达的内容与粤语音频语料表达的内容相同。
82.模型训练时,使用声音特征提取器分别提取出普通话音频语料的声学特征信息和粤语音频语料的声学特征信息,即进行源语言语音和目标语言语音的声学特征信息的提取过程;将普通话音频语料的声学特征信息输入至翻译器子模块,得到预测后的声学特征信息,利用该预测后的声学特征信息和粤语音频语料的声学特征信息确定翻译器子模块的损失(l
翻译器
),该损失可为l2损失(平均绝对误差),并根据该损失确定翻译器子模块是否训练完成,例如损失(l
翻译器
)小于第一预设值情况下确定训练完成。本实施例可采用联合训练方式,将训练完成后的翻译器子模块输出的声学特征信息输入至合成器子模块,得到预测后的目标语言的频谱信息,然后利用预测后的目标语言的频谱信息与粤语音频语料对应的真实目标语音的频谱信息确定合成器子模块的损失(l
合成器
),该损失例如为l2损失(平均绝对误差),根据该损失确定合成器子模块是否训练完成,例如,损失(l
合成器
)小于第二预设值情况下确定训练完成。
83.优选的实施例中,本公开实施例分别训练合成器子模块输出的粗粒度频谱的l2损失和细粒度频谱的l2损失,并确定注意力机制模块预测的停止符与粤语音频语料对应的真实的停止符之间的softmax(归一化函数)交叉熵,然后在粗粒度频谱的l2损失、细粒度频谱的l2损失、softmax交叉熵均分别满足指定的条件后确定合成器子模块训练完成。
84.相比于常规技术,本实施例使用端到端语音翻译模型(s2st)实现将第一声学特征信息翻译为预测的目标语言的频谱(mel)信息,本实施例相比于现有技术中依赖asr系统、语言翻译系统及tts系统形成的多系统串联方案,实现端到端的方言翻译功能,不仅有效避免了多系统造成的累计误差问题,而且只需对端到端语音翻译模型进行训练,大大地降低了数据量需求、数据标注需求及模型训练时间和空间消耗的需求等,本公开提供的语音翻译方法无需文本信息,有效解决非常见方言等语言的无文字形式(无文本)问题,进而极大地降低了实施成本。另外,本公开训练时使用的训练数据量较小,从而进一步降低了实施成本。
85.如图9所示,与本公开至少一个实施例提供的语音翻译方法基于同一发明技术构思,本公开至少一个实施例还能够提供一种语音翻译装置。
86.其中,本公开一个或多个实施例中的语音翻译装置包括但不限于语音接收模块901、特征提取模块902、信息转换模块903以及语音编码模块904。
87.语音接收模块901,用于接收第一语音,第一语音为待进行翻译的源语言语音。
88.特征提取模块902,用于从第一语音中提取出第一声学特征信息,第一声学特征信息用于表示源语言语音的语义。
89.信息转换模块903,用于将第一声学特征信息转换为目标语言的频谱信息。
90.语音编码模块904,用于对频谱信息进行编码,以生成第二语音;第二语音为对源语言语音进行翻译之后得到的目标语言语音。
91.可选地,信息转换模块903,包括翻译器子模块和合成器子模块。
92.翻译器子模块,用于对第一声学特征信息进行翻译,以得到第二声学特征信息;第
二声学特征信息用于表示目标语言语音的语义。
93.合成器子模块,用于将第二声学特征信息转换为目标语言的频谱信息。
94.可选地,翻译器子模块包括上下文获取模块、语义提取模块及语义转换模块。
95.上下文获取模块,用于从第一声学特征信息中获取上下文信息,第一声学特征信息包括上下文信息。
96.语义提取模块,用于根据上下文信息从第一声学特征信息提取出第一语义信息,第一语义信息用于表示通过源语言表达的含义。
97.语义转换模块,用于将第一语义信息转换为第二声学特征信息。
98.可选地,合成器子模块包括语义识别模块和频谱生成模块。
99.语义识别模块,用于从第二声学特征信息中识别出第二语义信息,第二语义信息用于表示通过目标语言表达的含义。
100.频谱生成模块,用于利用第二语义信息生成目标语言的频谱信息。
101.可选地,频谱生成模块包括第一预测模块和第二预测模块。
102.第一预测模块,用于利用第二语义信息预测出用于表征粗粒度频谱的第一预测信息。
103.第二预测模块,用于利用第一预测信息预测出用于表征细粒度频谱的第二预测信息,并用于将第二预测信息作为目标语言的频谱信息。
104.可选地,特征提取模块902包括提取子模块和过滤子模块。
105.提取子模块,用于从第一语音中提取出原始声学特征信息,原始声学特征信息包括第一声学特征信息和第三声学特征信息,第三声学特征信息包括音色信息和发音情感信息。
106.过滤子模块,用于对原始声学特征信息进行过滤,以过滤掉第三声学特征信息,得到第一声学特征信息。
107.可选地,源语言语音为普通话语音且目标语言语音为方言语音,或者源语言语音为方言语音且目标语言语音为普通话语音。
108.可选地,目标语言的频谱信息为目标语言的梅尔频谱信息。
109.如图10所示,与本公开一个或多个实施例提供的语音翻译方法基于同一发明技术构思,本公开一个或多个实施例还能够提供一种电子设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行本公开一个或多个实施例中的语音翻译方法。其中,语音翻译方法的详细实现流程已在本说明书中有详细的记载,此处不再进行赘述。
110.其中,本公开涉及的电子设备可作为语音翻译方法的执行主体,电子设备可包括但不限于计算机、移动终端、便携式翻译器等能够实现本公开语音翻译方法的设备。
111.如图10所示,与本公开一个或多个实施例提供的语音翻译方法基于同一发明技术构思,本公开一个或多个实施例还能够提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本公开一个或多个实施例中的语音翻译方法。其中,语音翻译方法的详细实现流程已在本说明书中有详细的记载,此处不再进行赘述。
112.在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用
于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram,random access memory),只读存储器(rom,read-only memory),可擦除可编辑只读存储器(eprom,erasable programmable read-only memory,或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom,compact disc read-only memory)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
113.应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga,programmable gate array),现场可编程门阵列(fpga,field programmable gate array)等。
114.在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
115.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
116.以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本公开的保护范围之内。

技术特征:
1.一种语音翻译方法,其特征在于,所述方法包括:接收第一语音,所述第一语音为待进行翻译的源语言语音;从所述第一语音中提取出第一声学特征信息,所述第一声学特征信息用于表示所述源语言语音的语义;将所述第一声学特征信息转换为目标语言的频谱信息;对所述频谱信息进行编码,以生成第二语音;所述第二语音为对所述源语言语音进行翻译之后得到的目标语言语音。2.根据权利要求1所述的语音翻译方法,其特征在于,所述将所述第一声学特征信息转换为目标语言的频谱信息,包括:对所述第一声学特征信息进行翻译,以得到第二声学特征信息;所述第二声学特征信息用于表示所述目标语言语音的语义;将所述第二声学特征信息转换为目标语言的频谱信息。3.根据权利要求2所述的语音翻译方法,其特征在于,所述对所述第一声学特征信息进行翻译,包括:从所述第一声学特征信息中获取上下文信息,所述第一声学特征信息包括所述上下文信息;根据所述上下文信息从所述第一声学特征信息提取出所述第一语义信息,所述第一语义信息用于表示通过所述源语言表达的含义;将所述第一语义信息转换为所述第二声学特征信息。4.根据权利要求2或3所述的语音翻译方法,其特征在于,所述将所述第二声学特征信息转换为目标语言的频谱信息,包括:从所述第二声学特征信息中识别出第二语义信息,所述第二语义信息用于表示通过所述目标语言表达的含义;利用所述第二语义信息生成所述目标语言的频谱信息。5.根据权利要求4所述的语音翻译方法,其特征在于,所述利用所述第二语义信息生成所述目标语言的频谱信息,包括:利用所述第二语义信息预测出用于表征粗粒度频谱的第一预测信息;利用所述第一预测信息预测出用于表征细粒度频谱的第二预测信息,并将所述第二预测信息作为所述目标语言的频谱信息。6.根据权利要求1所述的语音翻译方法,其特征在于,所述从所述第一语音中提取出第一声学特征信息,包括:从所述第一语音中提取出原始声学特征信息,所述原始声学特征信息包括所述第一声学特征信息和第三声学特征信息,所述第三声学特征信息包括音色信息和发音情感信息;对所述原始声学特征信息进行过滤,以过滤掉所述第三声学特征信息,得到所述第一声学特征信息。7.根据权利要求1所述的语音翻译方法,其特征在于,所述源语言语音为普通话语音且所述目标语言语音为方言语音,或者所述源语言语音为方言语音且所述目标语言语音为普通话语音。8.根据权利要求1所述的语音翻译方法,其特征在于,
所述目标语言的频谱信息为目标语言的梅尔频谱信息。9.一种语音翻译装置,其特征在于,所述装置包括:语音接收模块,用于接收第一语音,所述第一语音为待进行翻译的源语言语音;特征提取模块,用于从所述第一语音中提取出第一声学特征信息,所述第一声学特征信息用于表示所述源语言语音的语义;信息转换模块,用于将所述第一声学特征信息转换为目标语言的频谱信息;语音编码模块,用于对所述频谱信息进行编码,以生成第二语音;所述第二语音为对所述源语言语音进行翻译之后得到的目标语言语音。10.一种电子设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一权利要求所述的语音翻译方法。11.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至8中任一权利要求所述的语音翻译方法。

技术总结
本公开能够提供语音翻译方法及装置、电子设备、存储介质,其中,语音翻译方法包括:接收第一语音,第一语音为待进行翻译的源语言语音;从第一语音中提取出第一声学特征信息,第一声学特征信息用于表示源语言语音的语义;将第一声学特征信息转换为目标语言的频谱信息,对频谱信息进行编码,以生成第二语音;第二语音为对源语言语音进行翻译之后得到的目标语言语音。本公开提供的语音翻译方案能够适用于更多的应用场景,实现了对语音翻译功能的优化,明显提升了用户体验。明显提升了用户体验。明显提升了用户体验。


技术研发人员:章峻珲 马泽君
受保护的技术使用者:北京有竹居网络技术有限公司
技术研发日:2023.05.10
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐