电子设备及其控制方法与流程
未命名
07-22
阅读:86
评论:0

1.与本公开相一致的设备和方法涉及一种电子设备及其控制方法,更具体地,涉及一种用于提供文本到语音(tts)服务的电子设备及其控制方法。
背景技术:
2.文本到语音(tts)是指机器将文本合成(或转换)成人类语音的语音合成技术。
3.为了通过tts服务提供与目标说话者的语音类似的风格(例如,音调、口音、传递速度、读音、读音和说话习惯)的语音,需要预先记录目标说话者说出的语音并处理所记录的语音数据的过程。为了实现与用于各种文本的目标说话者相似的风格的自然语音,需要通过诸如模型自适应和基于目标说话者对两百个或更多个句子(或一个小时或更多个小时的脚本)的口头语音的传递学习的方法的模型学习。
4.在提供个性化tts服务方面存在困难,该个性化tts服务提供一般用户的语音作为tts服务的语音,因为目标说话者应该长时间地说出具有精确读音的大量句子,以将目标说话者的语音注册为如上所述的tts服务的语音。同时,存在一种从目标说话者的语音获得参考向量并将文本和参考向量输入到tts模型以获得具有目标说话者的语音特性的合成声音的方法,以提供个性化tts服务。在这种情况下,存在这样的优点,即模型可能不被训练(零次/少次学习),但是存在可能不知道参考向量是否具有最佳性能(声音质量/韵律/读音/说话者相似度等)的缺点。
技术实现要素:
5.本公开提供了一种用于使用一般用户的语音来提供文本到语音(tts)服务的电子设备及其控制方法。
6.根据本公开的实施例,一种电子设备包括麦克风、存储有tts模型和多个评估文本的存储器、以及处理器,所述处理器被配置为:当通过麦克风接收到用户语音时,获得用户所说的用户语音的参考向量,基于所述参考向量生成多个候选参考向量,通过将多个候选参考向量和多个评估文本输入到tts模型来获得多个合成声音,基于多个合成声音与用户语音之间的相似度、以及多个合成声音的特征来识别多个合成声音中的至少一个合成声音,并将所述至少一个合成声音的参考向量存储在存储器中作为对应于用户的tts模型的参考向量。
7.根据本公开的另一个实施例,一种包括存储器的电子设备的控制方法,在存储器中存储了tts模型和多个评估文本,所述控制方法包括:当通过麦克风接收到用户语音时,获得用户所说的用户语音的参考向量,基于所述参考向量生成多个候选参考向量,通过将多个候选参考向量和多个评估文本输入到所tts模型来获得多个合成声音,基于所述多个合成声音与所述用户语音之间的相似度以及所述多个合成声音的特征来识别多个合成声音中的至少一个合成声音,并将至少一个合成声音的参考向量存储在存储器中作为对应于用户的tts模型的参考向量。
8.根据本公开的不同实施例,可以提供一种使用一般用户的语音来提供tts服务的电子设备及其控制方法。
9.此外,根据本公开的实施例,系统可以被配置为对请求说出的用来注册tts服务的语音并具有最佳性能的句子数量进行最小化处理。此外,根据本公开的实施例,可以通过用户的语音来提供个性化tts服务,而无需为每个用户重新训练tts模型。
附图说明
10.图1是用于描述根据本公开的实施例的电子设备的图;
11.图2是用于描述根据本公开的实施例的电子设备的每个部件的操作的框图;
12.图3是用于描述根据本公开的实施例的电子设备的每个部件的操作的框图;
13.图4是用于描述根据本公开的实施例的电子设备的每个部件的操作的框图;
14.图5是用于描述根据本公开的实施例的获得参考向量的方法的图;
15.图6a是描述根据本公开的实施例的生成候选参考向量的方法的图;
16.图6b是描述根据本公开的实施例的生成候选参考向量的方法的图;
17.图6c是描述根据本公开的实施例的生成候选参考向量的方法的图;
18.图7是描述根据本公开的实施例的文本到语音(tts)模型的图;
19.图8a是描述根据本公开的实施例的识别合成声音的方法的图;
20.图8b是描述根据本公开的实施例的识别合成声音的方法的图;
21.图8c是描述根据本公开的实施例的识别合成声音的方法的图;
22.图8d是描述根据本公开的实施例的识别合成声音的方法的图;
23.图9a是用于描述根据本公开的实施例的电子设备的硬件部件的图;
24.图9b是用于描述根据本公开的实施例的电子设备的附加硬件部件的图;以及
25.图10是说明根据本发明实施例的电子设备的控制方法的流程图。
具体实施方式
26.在描述本公开内容时,当确定与本公开内容相关的已知功能或配置的详细描述可能不必要地模糊本公开内容的要点时,将省略其详细描述。此外,可以以多种不同的形式修改以下实施例,并且本公开的范围和精神不限于以下实施例。相反,这些实施例使得本公开彻底和完整,并且被提供来将本公开的技术精神完全转移到本领域技术人员。
27.应当理解,本公开中提及的技术不限于特定实施例,而是包括根据本公开的实施例的所有修改、等同物和/或替换。在所有附图中,类似的部件将由类似的附图标记表示。
28.在本公开中使用的表述“第一”或“第二”可以指示各种部件,而不管部件的顺序和/或重要性,将仅用于将一个部件与其它部件区分开,并且不限制这些部件。
29.在本公开中,表述“a或b”、“a和/或b中的至少一个”、或“a和/或b中的一个或多个”可以包括一起列举的项目的所有可能的组合。例如,“a或b”、“a和b中的至少一个”、或“a或b中的至少一个”可以表示以下所有情况:1)包括至少一个a的情况,2)包括至少一个b的情况,或3)包括至少一个a和至少一个b两者的情况。
30.在本公开中,单数形式包括复数形式,除非上下文另外清楚地指示。应当理解,在说明书中使用的术语“包括”或“由
…
形成”规定了在说明书中提及的特征、数目、步骤、操
作、部分、部件或其组合的存在,但不排除一个或多个其它特征、数目、步骤、操作、部分、部件或其组合的存在或添加。
31.当提到任何部件(例如,第一部件)(可操作地或通信地)耦合到或连接到另一个部件(例如,第二部件)时,应当理解,任何部件直接耦合到另一个部件或可以通过另一个部件(例如,第三部件)耦合到另一个部件。另一方面,当提到任何部件(例如,第一部件)“直接耦合”或“直接连接”到另一部件(例如,第二部件)时,应当理解,另一部件(例如,第三部件)不存在于任何部件和另一部件之间。
32.在本公开中使用的表述“被配置(或设置)为”可以根据情况被表述“适于”、“有能力”、“被设计为”、“适于”、“制成”或“能够”替代。术语“被配置(或设置)为”可能不一定意味着硬件中的“被专门设计为”。相反,在一些情况下,表述“被配置为”可以意味着该设备可以与其它设备或部件一起“做”。例如,短语“被配置(或设置)为执行a、b和c的处理器”可以表示用于执行这些操作的专用处理器(例如,嵌入式处理器),或者可以通过执行存储在存储器设备中的一个或多个软件程序来执行这些操作的通用处理器(例如,中央处理单元(cpu)或应用处理器)。
33.图1是用于描述根据本公开的实施例的电子设备的图。
34.参照图1,根据本公开的实施例的电子设备100可以被实现为交互系统。
35.这里,电子设备100可以包括智能电话、平板个人计算机(pc)、移动电话、视频电话、电子书阅读器、台式pc、膝上型pc、网络书计算机、工作站、服务器、个人数字助理(pda)、便携式多媒体播放器(pmp)、mp3播放器、移动医疗设备照、相机、可佩戴设备或机器人中的至少一个。根据不同的实施例,可佩戴设备可以实现为附件型可佩戴设备(例如,手表、戒指、手镯、脚蹬、项链、眼镜、隐形眼镜或头戴设备(hmd))、纺织品或衣服整体式可佩戴设备(例如,电子服装)、身体附着型可穿戴设备(例如,皮肤垫或纹身)、或活体植入型可穿戴设备(例如,可植入电路)。然而,这仅仅是一个示例,电子设备100不限于此,而且可以被实现为具有各种形状和目的的电子设备。
36.交互系统是指能够通过对话与用户交互的系统,例如通过用户语音抓住用户的意图并输出对应于用户的意图的响应。
37.作为特定实施例,电子设备100可以包括自动语音识别(asr)模块1、自然语言处理(nlp)模块2、以及文本到语音(tts)模块3。此外,电子设备100可以包括用于接收用户语音的麦克风110和用于输出响应于用户语音的信息的输出接口140。例如,输出接口140可以包括用于输出声音的扬声器。
38.asr模块1可以使用语言模型和声学模型将通过麦克风110接收的语音信号(即,用户语音)转换为文本(字符串),例如单词或音素序列。语言模型可以是将概率分配给单词或音素序列的模型,并且声学模型可以是指示语音信号和语音信号的文本之间的关系的模型。可以基于概率统计或人工神经网络来配置这些模型。
39.nlp模块2可以使用各种分析方法(例如,对应于用户语音的文本的形态分析、句法分析和语义分析)来识别配置对应于用户语音的文本的单词或句子相对于对应于用户语音的文本的含义,基于所识别的含义来掌握用户的意图,并且获得对应于用户的意图的响应信息。在这种情况下,响应信息可以是文本的形式。
40.tts模块3可以将文本转换为语音信号并通过输出接口140(例如,扬声器)输出语
音信号。也就是说,可以通过tts模块3将由nlp模块2获得的响应信息从文本的形式转换为语音信号的形式。
41.同时,根据本公开的实施例的电子设备100可以提供个性化tts服务。个性化tts服务是指通过tts模块3使用单个用户(或另一用户)的语音将文本转换(或合成)为语音信号的服务。为此,可能需要预先在电子设备100中注册用户的语音的过程。根据本公开的电子设备100可以对请求由用户说出的用来注册tts服务的语音的句子数量进行最小化处理。此外,根据本公开的实施例,可以通过用户的语音来提供个性化tts服务,而无需为每个用户重新训练tts模型。将参考附图描述其具体内容。
42.图2和图3是用于描述根据本公开的实施例的电子设备的每个部件的操作的框图。图3示出了当满足至少一个评估文本的评估标准的参考向量不存在时的操作。
43.参照图2,根据本公开的实施例的电子设备100可以包括麦克风110、存储器120和处理器130。
44.麦克风110可以接收用户语音。
45.存储器120可以存储多个评估文本。例如,多个评估文本可以被存储在存储器120中的评估文本数据库123中。评估文本的单位可以是一个句子,但是这仅仅是一个示例,并且评估文本的单位可以被不同地修改。
46.此外,存储器120可以存储注册为tts模块30的说话者的用户的参考向量。注册用户的参考向量可以存储在存储器120中的参考向量存储模块124中。注册用户的参考向量可以指示与注册用户的唯一语音特征最匹配的参考向量。
47.处理器130可以从用户的语音中提取最优参考向量,并将所提取的最优参考向量作为用户的参考向量进行注册,以将文本合成到用户的语音中。
48.为此,处理器130可执行包括在说话者编码器模块10、候选参考向量生成模块20、tts模块30和合成声音评估模块40中的每一个模块中的指令,以执行对应于每一指令的操作。这里,说话者编码器模块10、候选参考向量生成模块20、tts模块30和合成声音评估模块40可以存储在存储器120中或者存储在处理器130内的存储器中。
49.具体地,当通过麦克风110接收到用户a所说的用户语音时,处理器130可以从通过说话者编码器模块10接收到的用户语音中获得用户语音的参考向量。
50.例如,当接收到来自用户a的对tts模块30的用户注册的请求(例如,用户a的触摸输入、语音命令等的形式)时,处理器130可以提供设置为由用户a说出的参考文本(r)。此后,当通过麦克风110接收到由用户a说出的用户语音时,处理器130就可以从通过说话者编码器模块10接收的用户语音获得参考向量。然而,这仅仅是一个示例,并且当用户a说出自然语言而没有提供所设置的参考文本时,也可以将自然语言识别为参考文本。
51.这里,参考向量(rv)(s
r,a
)被定义为出现在已经说出参考文本r的用户a(说话者a)的用户语音(x
r,a
)中的语音特征的多维(即,二维或更多)向量(或向量列)。参考向量的每个维度(或列)可以指示语音特征,例如韵律、读音、频带、说话者的年龄和说话者的性别。引用文本是指用户说出的句子(或单词等),并且可以根据说话方法被分配域(例如,阅读风格、对话风格或新闻风格)。
52.参照图5,可以通过模数转换器(adc)将从麦克风110接收的模拟声信号转换为数字声信号。这里,声信号可以包括已经说出参考文本(r)的用户a的用户语音(x
r,a
)。同时,
adc可以以将其嵌入到麦克风110或处理器130中的形式来实现,或者可以实现为单独的设备。也就是说,可以对adc进行各种修改。
53.在这种情况下,处理器130可以基于能量水平从声信号中识别对应于用户语音(x
r,a
)的部分的声信号。
54.此外,处理器130可以将对应于用户语音(x
r,a
)的部分的声信号以帧为单位(例如,20ms和40ms)划分,并对每个帧应用傅立叶变换来计算频谱。这里,声信号可以指示在时域中表示的波形,例如随时间变化的幅度(或声压),并且频谱可以是在频域中表示的波形,例如根据频率的幅度(或声压)。例如,声信号可以表示水平轴是时间而垂直轴是幅度的关系中的波形,频谱可以表示水平轴是频率而垂直轴是幅度的关系中的波形。在这种情况下,频谱可以是一般频域中的频谱,或者可以是各种类型的频谱,诸如通过应用基于mel刻度的滤波器组而获得的mel频谱,所述mel刻度指示由人对频谱敏锐感知的频率和具有频率轴和幅度轴之间关系的频谱图(spg)之间的关系。此外,频谱可以是从频谱变换的倒谱或mel倒谱,并且可以包括具有音调/谐波信息的音调滞后或音调相关。然而,这仅是一个实例,并且频谱可以是具有语音特征的各种声学特征向量。
55.此外,处理器130可以从频谱中获得参考向量。作为示例,处理器130可以通过将mel频谱输入到说话者识别器来获得参考向量(s
r,a
)。然而,这仅仅是一个示例,并且处理器130可以使用诸如倒谱、线性预测系数(lpc)和滤波器组能量、wav2vec、sincnet和pase之类的各种算法(或神经网络)之一来获得参考向量(s
r,a
)。在这种情况下,所获得的参考向量(s
r,a
)可以是各种类型的向量,例如i向量、d向量和x向量。
56.同时,稍后将参考图5描述通过说话者编码器模块10获得参考向量的特定方法。
57.此外,处理器130可以基于通过候选参考向量生成模块20的参考向量(s
r,a
)来生成多个候选参考向量
58.这里,多个候选参考向量可以包括以下之一:作为第一实施例,基于参考向量随机选择的参考向量;作为第二实施例,基于参考向量和用于训练tts模块30的参考向量生成的参考向量;以及作为第三实施例,通过将掩蔽向量应用于参考向量生成的参考向量;或者它们的组合。具体内容将参考图6a到图6c进行描述。
59.图6a到图6c是用于描述根据本公开的实施例的生成候选参考向量的方法的图。图6a到图6c表示在平面610、620和630上的参考向量,并且意味着参考向量在平面610、620和630上的位置越接近,参考向量的特性越相似。
60.参照图6a,作为本公开的第一实施例,多个候选参考向量612(s
r,a
)可以包括基于参考向量611(s
r,a
)随机选择的至少一个参考向量。
61.例如,处理器130可通过根据以下公式(1)将噪声添加到参考向量611(s
r,a
)来产生至少一个候选参考向量612
[0062][0063]
这里,噪声可以是遵循正态分布、均匀分布或各种概率分布的随机值,并且可以是参考向量(s
r,a
)的维度中的至少一个的值。
[0064]
此外,噪声可以具有预定范围内的值。在这种情况下,如图6a所示,候选参考向量
612可以是基于参考向量611(s
r,a
)在预定半径内存在的向量。
[0065]
同时,参考图6b,作为本公开的第二实施例,多个候选参考向量625(s
r,a
)可以包括基于参考向量621(s
r,a
)和用于训练tts模块30的参考向量生成的至少一个参考向量。
[0066]
例如,处理器130可以通过比较参考向量(s
r,a
)和用于相互训练tts模块30的多个说话者的参考向量(例如,说话者b的参考向量sb、说话者c的参考向量sc等)之间的距离来识别与多个说话者的参考向量中的参考向量具有最近距离的一个参考向量623(例如,说话者b的参考向量sb)。
[0067]
此外,根据以下公式(2),处理器130可以通过对参考向量(s
r,a
)和参考向量623(例如,说话者b的参考向量sb)应用插值来产生至少一个候选参考向量该参考向量623具有用于训练tts模块30的参考向量中最接近的距离:
[0068][0069]
这里,wa和wb表示使候选参考向量定位在穿过两个参考向量(s
r,a
和sb)的函数(例如,线性函数或二次函数)上的任意系数。例如,在线性函数的情况下,wa可以是0.9且wb可以是0.1,wa可以是0.8且wb可以是0.2,或者wa可以是0.7且wb可以是0.3。
[0070]
同时,作为本公开的第三实施例,多个候选参考向量(s
r,a
)可以包括通过将掩蔽向量应用于参考向量(s
r,a
)而生成的至少一个参考向量。
[0071]
例如,根据公式(3),处理器130可以通过将掩蔽向量w应用到参考向量(s
r,a
)来生成至少一个候选参考向量
[0072][0073]
这里,w是掩蔽向量,且可以被配置为具有0或1、或0和1之间的值、或各种值的矩阵。
[0074]
同时,根据本公开的实施例的多个候选参考向量(s
r,a
)可以是第一实施例至第三实施例的至少一个组合。即,多个候选参考向量(s
r,a
)可以包括基于参考向量(s
r,a
)随机选择的至少一个参考向量(s
r,a
)、基于参考向量(s
r,a
)和用于训练tts模块30的参考向量生成的至少一个参考向量、或通过将掩蔽向量应用于参考向量(s
r,a
)生成的至少一个参考向量中的至少一个。例如,第一实施例和第二实施例的组合可以如图6c所示出现。
[0075]
此外,处理器130可以通过向tts模块30输入存储在存储器120中的多个候选参考向量和多个评估文本(t=t1,
…
,tm)来获得多个合成声音
[0076]
具体地,基于多个候选参考向量中的每一个,处理器130可以通过将多个候选参考向量和多个评估文本(t=t1,
…
,tm)输入到tts模块30来获得为多个评估文本(t=t1,
…
,tm)中的每一个生成的多个合成声音这里,通过合成候选参考向量和评估文本(tm)来生成所生成的合成声音在这种情况下,当候选参考向量的数目是n且评估文本的数目是m时,合成声音的数目可以是n
×
m。
[0077]
这里,多个评估文本(t=t1,
…
,tm)可以包括属于多个域(例如,阅读风格、对话风格和新闻风格)中的每一个的至少一个评估文本。也就是说,域可以被分配给多个评估文本(t=t1,
…
,tm)中的每一个。
[0078]
例如,根据文本的风格,域可以包括诸如阅读风格、对话风格、疑问句和感叹句之类的类型,并且可以包括诸如根据文本内容的聊天机器人、自然语言生成(nlg)、新闻、词典、wiki、音乐(歌曲标题、歌手和歌词)、家用电器(例如,空调器)、大数据(web爬行内容)、童话书和小说之类的类型。然而,这仅仅是一个示例,域不限于此,而且可以进行各种修改。
[0079]
作为一个实施例,tts模块30可以包括声学模型(am)和语音解码器(语音编码器)。同时,稍后将参考图7描述tts模块30的详细描述。
[0080]
声学模型可以使用诸如tacotron、tacotron 2、transformer、text2mel和深度卷积tts(dctts)之类的各种算法中的至少一种将文本和参考向量转换为声学特征。在这种情况下,所产生的声学特征可以具有参考向量,即,相应说话者的特征(例如,音调、音调、强度和读音)。这里,声学特征可以指示语音部分(例如,帧单元或句子单元)中的声音的唯一特征(例如,音调、音调、强度和读音)。例如,声学特征可以实现为频谱图、mel频谱图、倒谱、音调滞后、音调相关、mel频率倒谱调制能量(mcme)、mel频率倒谱系数(mfcc)等其中之一、或其组合,其中波形和频谱彼此组合。
[0081]
声音编码器可通过诸如wavenet、parallel wavenet、waveglow、wavernn和lpcnet等各种算法合成参考向量和声学特征来产生合成声音。例如,声音编码器可以是基于神经网络的人工智能模型,当输入诸如mel频谱和参考向量之类的声学特征时,该人工智能模型被学习以输出合成声音。
[0082]
此外,基于多个合成声音与用户语音之间的相似度、以及多个合成声音的特征,处理器130可以通过合成声音评估模块40来识别多个合成声音中的至少一个。
[0083]
具体而言,处理器130可以识别候选合成声音,该候选合成声音与多个合成声音中的用户语音(x
r,a
)的相似度(即说话者相似度)是预定阈值或更大。将参考图8a和图8b描述用于此的具体内容。此外,处理器130可以基于每个候选合成声音的韵律、读音或声音质量中的至少一个来识别候选合成声音中的至少一个。下面将参考图8c和8d描述其具体内容。
[0084]
图8a到图8d是用于描述根据本公开的实施例的识别合成声音的方法的图。
[0085]
参考图8a,作为一个实施例,当将多个合成声音中的每一个输入到说话者编码器模块10时,处理器130可以获得用于从说话者编码器模块10输出的多个合成声音的参考向量此外,处理器130可以通过将多个合成声音的每个参考向量与用户语音(x
r,a
)的参考向量(s
r,a
)进行比较来确定相似度。这里,当用户语音(x
r,a
)被输入到说话者编码器模块10时,用于用户语音
(x
r,a
)的参考向量(s
r,a
)被输出并从说话者编码器模块10获得。
[0086]
这里,可以通过诸如欧几里德距离和余弦相似度方法的各种方法来计算相似度。此外,参考向量之间的相似度可以被认为是合成声音之间的说话者相似度。也就是说,处理器130可以将具有参考向量的合成声音识别为候选合成声音,所述参考向量具有用于多个合成声音的参考向量中的预定阈值或以上的相似度。
[0087]
同时,可以将多个合成声音分类为用于生成多个合成声音的候选参考向量的单元组。例如,通过第一候选参考向量和第一到第m个评估文本(t=t1,
…
,tm)生成的合成声音可以被分类为同一组。也就是说,通过一个候选参考向量和m个评估文本生成的合成声音可以被分类为同一组。
[0088]
在这种情况下,处理器130可以确定以组为单位的多个合成声音的参考向量的偏差(或分布程度)。此外,处理器130可以识别具有最小偏差的组的参考向量。在这种情况下,处理器130可以将具有最小偏差的组的参考向量合成的合成声音识别为候选合成声音。
[0089]
例如,如图8a的平面810中所示,当通过第一候选参考向量和第一至第m个评估文本(t=t1,
…
,tm)生成的合成声音被分类为第一组通过第二候选参考向量和第一至第m个评估文本(t=t1,
…
,tm)生成的合成声音被分类为第二组以及通过第三候选参考向量和第一至第m个评估文本(t=t1,
…
,tm)生成的合成声音被分类为第三组时,可以假设定位第一至第三组的情况。在这种情况下,处理器130可以基于用户语音(x
r,a
)的参考向量(s
r,a
)来识别具有最小偏差的第三组的参考向量在这种情况下,处理器130可以将通过第三组的参考向量合成的合成声音识别为候选合成声音
[0090]
同时,如图8b所示,根据本公开的实施例的处理器130可以使用多个说话者编码器模块10-1至10-3来识别候选合成声音。例如,第一到第三说话者编码器模块10-1到10-3可以被建模以输出不同类型的参考向量(例如,i向量、d向量、x向量等)。
[0091]
当将多个合成声音和用户语音(x
r,a
)输入到第一说话者编码器模块10-1时,处理器130可以获得用于从第一说话者编码器模块10-1输出的多个合成声音的第一参考向量和用于用户语音(x
r,a
)的第一参考向量(s
r,a
),并且将第一参考向量和第一参考向量(s
r,a
)彼此进行比较,以确定第一相似度。
[0092]
此外,当将多个合成声音和用户语音(x
r,a
)输入到第二说话者编码器模块10-2时,处理器130可以获得用于从第二说话者编码器模块10-2输出的多个合成声音的第二参考向量和用于用户语音(x
r,a
)的第二参考向量(i
r,a
),并且将第二参考向量和第二参考向量(i
r,a
)彼此进行比较,以确定第二相似度
[0093]
此外,当将多个合成声音和用户语音(x
r,a
)输入到第三说话者编码器模块10-3时,处理器130可以获得用于从第三说话者编码器模块10-3输出的多个合成声音的第三参考向量和用于用户语音(x
r,a
)的第三参考向量(t
r,a
),并且将第三参考向量与第三参考向量(t
r,a
)彼此进行比较,以确定第三相似度。
[0094]
此外,处理器130可以识别在第一相似度到第三相似度中具有最佳性能的参考向量,并且可以将通过所识别的参考向量合成的合成声音识别为候选合成声音。具有最佳性能的参考向量可以是具有最小偏差值的向量或者对于第一相似度到第三相似度中的每一个超过预定阈值的向量。
[0095]
此外,处理器130可以基于每个候选合成声音的韵律、读音或声音质量中的至少一个来识别候选合成声音中的至少一个。也就是说,处理器130可以通过每个候选合成声音的韵律、读音和声音质量中的一个或其组合来识别合成声音。
[0096]
具体地,处理器130可以计算每个候选合成声音的韵律得分、读音得分和声音质量得分,并且从候选合成声音中识别至少一个合成声音,它的每个韵律得分、读音得分和声音质量得分是预定阈值或以上。
[0097]
作为一个示例,处理器130可以计算每个候选合成声音的韵律得分,并且识别韵律得分是预定阈值或更高的至少一个合成声音。例如,处理器130可以通过比较长度、说话速度和音调升降曲线来计算韵律得分,音调升降曲线表示评估文本tm中的每个音素集合随着时间的音调,针对与评估文本tm相对应的候选合成声音的每个音素,评估文本tm具有长度、说话速度和音调升降曲线。
[0098]
作为一个示例,处理器130可以计算每个候选合成声音的读音得分、并且识别读音得分是预定阈值或更高的至少一个合成声音。
[0099]
如图8c的(1)所示,根据本公开的实施例的处理器130可以将合成声音输入到asr模块1以获得文本,并且将获得的文本与对应于合成声音的评估文本tm进行比较以计算读音得分。如上所述,asr模块1可以使用各种算法来分析语音,并将语音的内容转换为文本格式。
[0100]
如图8c的(2)所示,根据本公开的实施例的处理器130可以将合成的声音输入到强制对齐模块45以识别语音-音素和语音-单词之间的边界,并且将所识别的边界与对应于合成的声音的评估文本tm中的语音-音素和语音-单词之间的边界进行比较以计算似
然性。此时,可能被用作读音得分。
[0101]
作为一个示例,处理器130可以计算每个候选合成声音的声音质量得分,并且识别其声音质量得分是预定阈值或更高的至少一个合成声音。
[0102]
例如,处理器130可以通过各种算法,诸如信噪比(snr)、谐波噪声比(hnr)和通过空间特性估计的声音质量评估,来计算合成声音的声音质量得分。
[0103]
同时,处理器130可以基于多个候选合成声音中的每一个所属的域(即,用于生成相应合成声音的评估文本的域),根据多个域划分多个候选合成声音。处理器130可以基于属于每个域的一个或多个候选合成声音中的每一个的相似度、韵律、读音或声音质量中的至少一个来识别每个域的至少一个合成声音。
[0104]
具体而言,将参考图8描述合成声音评估模块40基于多个合成声音与用户语音之间的相似度和多个合成声音的特性来选择最优参考向量的实施例。
[0105]
在图8d的(1)到(4)的表中,每一行指示每一域被指派的评估文本(t1,t2,t3,...),且每一列指示候选参考向量每行和列的组合指示根据评估文本和候选参考向量的组合生成的合成声音的得分(说话者相似度、韵律得分、读音得分、声音质量得分等)。
[0106]
作为实施例,如图8d的(1)所示,当其中一个候选参考向量和多个评估文本彼此组合的多个合成声音的所有说话者相似度(即,同一列中的值)都是预定值(例如,60)或更高时,可以确定相应的候选参考向量满足说话者相似度的评估标准,以及当至少一个说话者相似度小于预定值(例如,60)时,可以确定相应的候选参考向量不满足说话者相似度的评估标准。
[0107]
作为一个实施例,如图8d的(2)所示,当其中一个候选参考向量和多个评估文本彼此组合的多个合成声音的韵律得分中的至少一个是预定值(例如,80)或更大时,可以确定相应的候选参考向量满足韵律得分的评估标准,以及当多个合成声音的所有韵律得分都小于预定值(例如,80)时,可以确定相应的候选参考向量不满足韵律得分的评估标准。
[0108]
作为一个实施例,如图8d的(3)所示,当其中一个候选参考向量和多个评估文本彼此组合的多个合成声音的读音得分中的至少一个是预定值(例如,90)或更大时,可以确定相应的候选参考向量满足读音得分的评估标准,以及当多个合成声音的所有读音得分都小于预定值(例如,90)时,可以确定相应的候选参考向量不满足读音得分的评估标准。
[0109]
作为一个实施例,如图8d的(4)所示,当其中一个候选参考向量和多个评估文本彼此组合的多个合成声音的所有声音质量得分(即,同一列中的值)都是预定值(例如,80)或更大时,可以确定相应的候选参考向量满足声音质量得分的评估标准,以及当至少一个声音质量得分小于预定值(例如,80)时,可以确定相应的候选参考向量不满足声音质量得分的评估标准。
[0110]
此外,处理器130可以在存储器120中存储所识别的至少一个合成声音的参考向量作为对应于tts模块30的用户a的参考向量也就是说,满足多个候选参考向量中的评估标准的参考向量可以被注册为用户a的参考向量,并且被存
储在存储器120的参考向量存储模块124中。
[0111]
如上所述,根据本公开的实施例的电子设备100可以通过使用相同用户的参考向量具有预定范围内的分布这一事实,即使用户说出非常少量的文本(例如,1到5个文本),也可以仅利用通过非常少量的文本获得的参考向量来获得针对各种文本优化的参考向量。也就是说,与现有技术不同,电子设备100可以通过合成声音评估来确保良好的性能,而且即使用户只说一次文本,也可以从口述文本获得多个参考向量。因为所说的提供个性化tts服务的文本的数量非常少,所以可以提高用户注册个性化tts服务的方便性。
[0112]
同时,根据本公开的实施例的电子设备100可以当仅利用由用户a在将参考向量注册为用户a的参考向量的过程中说出的用户语音不足以提供个性化tts服务时向用户a提供反馈。
[0113]
以图8d为例,对于所有评估文本,满足预定值(例如,60)或更多的说话者相似度的候选合成声音的参考向量可以被识别为对于至少一个评估文本,满足预定值(例如,80)或更多的韵律得分的候选合成声音的参考向量可以被识别为对于至少一个评估文本,满足预定值(例如,90)或更多的读音得分的候选合成声音的参考向量可以被识别为以及对于所有评估文本,可以将满足预定值(例如80)或更多的声音质量得分的候选合成声音的候选参考向量标识为
[0114][0115]
在这种情况下,通过合成声音评估模块40,处理器130可以在存储器120的参考向量存储模块124中存储满足所有评估标准的所识别的候选合成声音的参考向量作为对应于用户a的参考向量。
[0116]
此外,处理器130可以基于多个候选合成声音中的每一个候选合成声音所属的域,来根据多个域划分多个候选合成声音。这里,候选合成声音可以通过参考向量和多个评估文本(t1,t2,t3,
…
)的组合来生成,并且候选合成声音所属的域可以是分配给用于生成候选合成声音的评估文本(t1,t2,t3,
…
)的域。
[0117]
此外,处理器130可以基于属于每个域的一个或多个候选合成声音中的每一个的说话者相似度、韵律、读音或声音质量中的至少一个来识别用于每个域的至少一个合成声音。此外,可以根据每个评估文本所属的域将所识别的至少一个合成声音的参考向量存储在存储器120中。
[0118]
具体地,处理器130可以确定对于特定的域是否存在满足评估标准(例如,说话者相似度、韵律、读音或声音质量中的至少一个)的合成声音。
[0119]
例如,如图8d所示,处理器130可以将根据评估文本t1和参考向量的组合生成的候选合成声音标识为其韵律得分和读音得分满足预定值的候选合成声音。此外,处理器130可以将根据评估文本t2和参考向量的组合生成的候选合成声音标识为韵律得分和读音得分满足预定值的候选合成声音。在这种情况下,处理器130可以将满足评估文本t1的韵律
得分和读音得分的参考向量评估(选择)为可以覆盖评估文本t1的域的参考向量。此外,处理器130可以将满足评估文本t2的韵律得分和读音得分的参考向量评估(选择)为可以覆盖评估文本t2的域的参考向量。
[0120]
参照图3,处理器130可以控制输出接口140(参见图9b),以便当满足评估标准(例如,说话者相似度、韵律、读音或声音质量中的至少一个)的至少一个合成声音不存在于特定域时,通过合成声音评估模块40输出请求说出属于特定域的句子(r')的信息。
[0121]
例如,如图8d所示,当满足评价文本t3的韵律得分和读音得分的合成声音(或参考向量)不存在时,处理器130可以向用户反馈属于分配给评价文本t3的域的句子(r')。这里,反馈句子(r')可以包括诱导用户说话以覆盖评估文本t3的域的句子、单词等。例如,如果评估文本t3是新闻域,则反馈句子(r')可以是t3或新闻域文本。
[0122]
例如,处理器130可以确定属于在多个域中不存在至少一个合成声音的域的至少一个候选合成声音,并且确定合成声音的特征,其中基于为所确定的候选合成声音计算的韵律得分、读音得分和声音质量得分来计算韵律、读音和声音质量的相对低的得分。处理器130可以通过扬声器141输出请求说出的基于所确定的特征而生成的句子的语音。
[0123]
如上所述,根据本公开的电子设备100可以在将用户的语音注册为tts模块30的语音的过程中根据各种评估标准执行评估。因此,具有最佳性能的参考向量可以被确定为用户的参考向量。此外,当仅利用用户说出的用户语音不足以提供个性化tts服务时,可以通过向用户提供反馈来获得可以覆盖各种类型的文本的参考向量。
[0124]
同时,电子设备100可以在用户语音在tts模块30中注册之后使用注册的用户语音合成语音信号。这将参考图4详细描述。
[0125]
图4是用于描述根据本公开的实施例的电子设备的每个部件的操作的框图。图4示出了在tts模块30中注册用户语音之后使用用户语音合成语音信号的过程。
[0126]
参照图4,假设输入数据15(例如,文本t)被提供给处理器130的情况。输入数据15可以是作为对后续用户语音执行语音识别的结果而获得的文本。或者,输入数据15可以是通过输入设备(例如,键盘等)输入的文本t。
[0127]
例如,当通过麦克风110接收到用户的后续用户语音时,处理器130可以获得用于对后续用户语音的响应的文本t。在这种情况下,文本t可以是通过asr模块1和nlp模块2获得的文本。
[0128]
此外,在与存储在存储器120的参考向量存储模块124中的用户a相对应的一个或多个参考向量sa中,处理器130可以通过参考向量选择模块25选择属于文本t的域的参考向量。
[0129]
这里,当选择了属于文本t的域的多个参考向量时,处理器130可以获得合成声音的参考向量,该合成声音的基于与属于文本t的域的评估文本合成的合成声音的特性而计算的得分(例如,韵律得分或读音得分)在多个参考向量中是最高的。这里,在注册用户a的用户语音的过程中,可以将基于与属于文本t的域的评估文本合成的合成语音的特性而计算的得分存储在存储器120中。
[0130]
例如,假设在用属于阅读风格的评价文本合成的合成声音中具有最高得分的合成声音的参考向量是并且在用属于对话风格的评价文本合成的合成声音中具有最高得分
的合成声音的参考向量是当作为输入数据15的文本t的域是阅读风格时,可以选择所存储的对应于用户a的一个或多个参考向量sa的参考向量作为属于文本t的域的参考向量同时,处理器130还可以利用任意统计模型(dnn、hmm、gmm等)为给定文本t选择具有最佳性能的
[0131]
此外,处理器130可以将作为输入数据15的文本t和所选择的参考向量输入到tts模块30,以获得基于参考向量为文本t生成的语音。
[0132]
在这种情况下,处理器130可以控制扬声器141(参见图9b)以输出所获得的语音。
[0133]
图5是用于描述根据本公开的实施例的获得参考向量的方法的图。
[0134]
说话者编码器模块10可通过用户语音获得参考向量。这里,说话者编码器模块10可以包括各种类型的模块,例如参考编码器、全局样式令牌(gst)、可变自动编码器(vae)、i向量和神经网络模块。
[0135]
作为实施例,参考图5,说话者编码器模块10可以包括声学特征提取器11和递归神经网络(rnn)模块13-1至13-t。
[0136]
声学特征提取器11可以以帧为单位提取声学特征。在这种情况下,声学特征的规模可以表示为(t
×
d)。例如,当一个帧是10ms并且提取了80维声学特征时,如果输入了3秒的语音波形,则t是300且d是80,从而可以输出(300
×
80)的声学特征。通常,声学特征在设计tts模块30时是固定的,因此,不管语音输入如何,d都可以具有固定的值。
[0137]
rnn模块13-1至13-t可以输出固定维度的向量,而不管t如何。例如,假设参考向量是256维度,则rnn模块13-1至13-t可以总是输出256维度的向量,而不管t和d如何。参考向量可以在压缩包括在相应语音中的韵律或音调信息(全局信息)而不是音素信息(局部信息)的状态下输出。在这种情况下,rnn模块13-1到13-t的最后状态可以用作本公开的参考向量。
[0138]
图7是用于描述根据本公开的实施例的tts模型的图。
[0139]
参照图7,根据本公开的实施例的tts模块30可以通过语言处理器31和声学特征提取器33对文本和语音波形执行预处理,以提取音素和声学特征,并且使用预处理的音素和声学特征作为学习数据来学习基于神经网络的声学模型(am)35和声音编码器37。
[0140]
此后,tts模块30可以通过语言处理器31从文本中提取音素,将提取的音素输入到学习的am 35以获得期望的声学特征作为输出,并且将获得的声学特征输入到学习的声音编码器37以获得合成的声音作为输出。
[0141]
然而,上述实施例仅是示例,并且本公开不限于此,并且可以进行各种修改。
[0142]
图9a是用于描述根据本发明实施例的电子设备的硬件部件的图。
[0143]
参照图9a,根据本公开的实施例的电子设备100可以包括麦克风110、存储器120和处理器130。
[0144]
麦克风110是用于接收模拟声信号的部件。麦克风110可以接收包括用户语音的声音信号。声信号可以指示具有诸如频率和幅度的信息的声波。
[0145]
存储器120是用于存储操作系统(os)的部件,该操作系统用于控制电子设备100的部件的一般操作以及与电子设备100的部件有关的各种数据。存储器120可以各种方式存储信息,例如电方式或磁方式。存储在存储器120中的数据可以由处理器130访问,并且存储器
120中的数据的读取、写入、校正、删除、更新等可以由处理器130执行。
[0146]
为此,存储器120可以由用于临时或永久存储数据或信息的硬件来配置。例如,存储器120可以实现为非易失性存储器、易失性存储器、闪存、硬盘驱动器(hdd)、固态驱动器(sdd)、随机存取存储器(ram)或只读存储器(rom)中的至少一个硬件。
[0147]
处理器130可以被实现为通用处理器,诸如中央处理单元(cpu)或应用处理器(ap)、图形专用处理器(诸如图形处理单元(gpu)或视觉处理单元(vpu))、或者人工智能专用处理器(诸如神经处理单元(npu))。此外,处理器130可包括用于加载至少一个指令或模块的易失性存储器。
[0148]
图9b是用于描述根据本发明实施例的电子设备的附加硬件部件的图。
[0149]
参照图9b,除了麦克风110、存储器120和处理器130之外,根据本公开的实施例的电子设备100可以包括输出接口140、输入接口150、通信接口160、传感器170或电源180中的至少一个。
[0150]
输出接口140是能够输出信息的部件。此外,输出接口140可以包括扬声器141或显示器143中的至少一个。扬声器141可以直接输出各种告警或音频消息以及各种音频数据,音频处理器(未示出)对这些音频数据进行诸如解码,放大和噪声滤波之类的各种处理。显示器143可以以可视形式输出信息或数据。显示器143可以在显示器的一个区域或所有区域上显示可以被驱动为像素的图像帧。为此,显示器143可以实现为液晶显示器(lcd)、有机发光二极管(oled)显示器、微型led显示器、量子点led(qled)显示器等。此外,显示器143的至少一部分可以以柔性显示器的形式实现,并且,柔性显示器可以通过薄柔的基底(例如纸)变形、弯曲或卷起而不会损坏。
[0151]
输入接口150可以接收各种用户命令并将接收到的用户命令传送到处理器130。也就是说,处理器130可以识别通过输入接口150从用户输入的用户命令。这里,用户命令可以以各种方式来实现,例如用户的触摸输入(触摸面板)、或键(键盘)或按钮(物理按钮或鼠标)输入。
[0152]
通信接口160可以通过根据各种类型的通信方式执行与各种类型的外部设备的通信来发送和接收各种类型的数据。通信接口160可以包括蓝牙模块(蓝牙方式)、wi-fi模块(wi-fi方式)、无线通信模块(蜂窝方式,例如3g、4g或5g)、近场通信(nfc)模块(nfc方式)、红外(ir)模块(红外方式)、zigbee模块(zigbee方式)、超声波模块(超声波方式)等中的至少一个,作为进行各种类型的无线通信的电路、或者以太网模块、通用串行总线(usb)模块、高清晰度多媒体接口(hdmi)、显示端口(dp)、d超小型(d-sub)、数字视觉接口(dvi)、雷电接口和进行有线通信的部件。
[0153]
传感器170可以实现为各种传感器,例如相机、接近传感器、照度传感器、运动传感器、飞行时间(tof)传感器和全球定位系统(gps)传感器。例如,相机可以将光划分为像素单元,针对每个像素的红色(r)、绿色(g)和蓝色(b)颜色的光的感测强度,并且将光的强度转换为电信号以获得表示对象的颜色、形状和对比度的数据。在这种情况下,数据的类型可以是具有用于多个像素中的每一个的r、g和b色值的图像。接近传感器可以感测周围对象的存在,并且获得关于周围对象是否存在或者周围对象是否正在接近电子设备的数据。照度传感器可以感测电子设备100的周围环境的光量(或亮度)以获得关于照度的数据。运动传感器可以感测电子设备100的移动距离、移动方向、梯度等。为此,运动传感器可以通过加速度
传感器、陀螺仪传感器、地磁传感器等的组合来实现。tof传感器可以感测从发射具有特定速度的各种电磁波(例如,超声波、红外、激光束和超宽带(uwb)波)之后的飞行时间,直到各种电磁波返回到原始位置以获得与目标(或目标的位置)的距离有关的数据。gps传感器可以从多个卫星接收无线电信号,使用接收到的信号的传送时间计算到每个卫星的距离,并且使用计算出的距离上的三角测量获得关于电子设备100的当前位置的数据。然而,上述传感器170的实现仅是一个示例,传感器170不限于此,并且可以实现为各种类型的传感器。
[0154]
电源180可以向电子设备100供电。例如,电源180可以通过外部商用电源或电池向电子设备100的每个部件供电。
[0155]
图10是说明根据本发明实施例的电子设备的控制方法的流程图。
[0156]
参照图10,电子设备100的控制方法可以包括:当通过麦克风110接收到用户语音时,获得由用户说出的用户语音的参考向量(s1010);基于参考向量生成多个候选参考向量(s1020);通过将多个候选参考向量和多个评估文本输入到tts模型来获得多个合成声音(s1030);基于所述多个合成声音与用户语音之间的相似度以及所述多个合成声音的特征来识别所述多个合成声音中的至少一个合成声音(s1040);并将所述至少一个合成声音的参考向量存储在存储器120中作为对应于用户的tts模型的参考向量(s1050)。
[0157]
具体地,在根据本公开的电子设备100的控制方法中,当通过麦克风110接收到由用户说出的用户语音时,可以获得用户语音的参考向量(s1010)。
[0158]
此外,可基于参考向量来产生多个候选参考向量(s1020)。
[0159]
这里,多个候选参考向量可以包括:基于参考向量随机选择的至少一个参考向量;基于参考向量和用于训练tts模型的参考向量生成的至少一个参考向量;以及通过将掩蔽向量应用于参考向量生成的至少一个参考向量。
[0160]
此外,可以通过将多个候选参考向量和多个评估文本输入到tts模型来获得多个合成声音(s1030)。
[0161]
作为特定实施例,通过将多个候选参考向量和多个评估文本输入到tts模型,可以获得基于多个候选参考向量中的每一个为多个评估文本中的每一个生成的多个合成声音。
[0162]
此外,可基于多个合成声音与用户语音之间的相似度和多个合成声音的特征来识别所述多个合成声音中的至少一个合成声音(s1040)。
[0163]
作为特定实施例,可以识别与用户语音相似度是多个合成声音中的预定阈值或以上的候选合成声音。此外,可以基于每个候选合成声音的韵律、读音或声音质量中的至少一个来识别候选合成声音的至少一个合成声音。
[0164]
具体地,可以计算每个候选合成声音的韵律得分、读音得分和声音质量得分。此外,可以识别候选合成声音中的至少一个合成声音,它的合成声音的韵律得分、读音得分和声音质量得分中的每一个都是预定阈值或以上。
[0165]
同时,所述多个评估文本可以包括属于所述多个域中的每一个域的至少一个评估文本。
[0166]
在这种情况下,在识别至少一个合成声音的过程中,可以根据多个域,基于多个候选合成声音中的每一个所属的域来划分多个候选合成声音。此外,可以基于属于每个域的一个或多个候选合成声音中的每一个的韵律、读音或声音质量中的至少一个来识别用于每个域的至少一个合成声音。
[0167]
此外,至少一个合成声音的参考向量可以作为与tts模型的用户相对应的参考向量存储在存储器120中(s1050)。
[0168]
同时,根据本公开的实施例的电子设备100还可以包括输出接口140,该输出接口140包括扬声器141或显示器143中的至少一个。
[0169]
在这种情况下,在电子设备100的控制方法中,可以确定在多个域中不存在至少一个合成声音的域。此外,当确定不存在合成声音的域时,可以控制输出接口140以输出请求说出属于所确定的域的句子的信息。
[0170]
具体地,可以确定属于在多个域中不存在至少一个合成声音的域的至少一个候选合成声音。此外,当确定不存在合成声音的域时,可以基于为所确定的候选合成声音计算的韵律得分、读音得分和声音质量得分,来确定计算韵律、读音和声音质量的相对较低得分的合成声音的特征。此外,可以控制输出接口140以输出请求说出基于所确定的特征生成的句子的信息。
[0171]
同时,根据本公开的实施例的电子设备100可以包括扬声器141。
[0172]
在这种情况下,在电子设备100的控制方法中,当通过麦克风110接收到用户的后续用户语音时,可以获得用于响应后续用户语音的文本。
[0173]
此外,基于参考向量为文本生成的语音可以通过将所获得的文本和与存储在存储器120中的用户相对应的一个或多个参考向量之一输入到tts模型来获得。
[0174]
为此,可以获得合成声音的参考向量,其中基于合成声音的特性计算的合成声音的得分在与存储在存储器120中的用户相对应的一个或多个参考向量中是最高的。
[0175]
此外,可以控制扬声器141以输出所获得的语音。
[0176]
根据如上所述的本公开的不同实施例,可以提供用于使用一般用户的语音提供tts服务的电子设备及其控制方法。此外,根据本公开的实施例,可以对请求被说出以注册tts服务的语音的句子的数量进行最小化处理。此外,根据本公开的实施例,无需为每个用户重新训练tts模型,就可以通过用户的语音来提供个性化tts服务。
[0177]
本公开的各种实施例可以通过包括存储在机器可读存储介质(例如,计算机可读存储介质)中的指令的软件来实现。机器可以是从存储介质调用所存储的指令并且可以根据所调用的指令来操作的设备,并且可以包括根据所公开的实施例的电子设备(例如,电子设备100)。在命令由处理器执行的情况下,处理器可以直接执行对应于该命令的功能,或者其他部件可以在处理器的控制下执行对应于该命令的功能。该命令可以包括由编译器或解释器创建或执行的代码。机器可读存储介质可以以非暂时性存储介质的形式提供。这里,术语“非暂时性的”意味着存储介质在不包括信号的情况下是有形的,并且不区得分据是半永久性的还是临时存储在存储介质中。
[0178]
根据各种实施例的方法可以被包括和提供在计算机程序产品中。计算机程序产品可以作为卖方和买方之间的产品进行交易。计算机程序产品可以以存储介质(例如,光盘只读存储器(cd-rom))的形式分发,该存储介质可以由机器读取或者通过应用存储(例如,playstore
tm
)在线读取。在在线分发的情况下,计算机程序产品的至少一部分可以至少临时存储在存储介质中,例如制造商的服务器的存储器、应用存储的服务器、或中继服务器,或者是被临时创建的。
[0179]
根据不同实施例的每个部件(例如,模块或程序)可以包括单个实体或多个实体,
并且上述相应子部件中的一些可以被省略,或者其他子部件可以进一步包括在不同实施例中。可替换地或附加地,一些部件(例如,模块或程序)可以集成到一个实体中,并且可以在以相同或类似的方式集成之前执行由相应的相应部件执行的功能。由根据不同实施例的模块、程序或其它部件执行的操作可以以顺序方式、并行方式、迭代方式或试探方式执行,至少一些操作可以以不同的顺序执行或省略、或可以添加其它操作。
技术特征:
1.一种电子设备,包括:麦克风;存储有文本到语音tts模型和多个评估文本的存储器;以及处理器,经配置以:当用户通过所述麦克风接收到用户语音时,获取用户所说的所述用户语音的参考向量;基于所述参考向量生成多个候选参考向量,通过将所述多个候选参考向量和所述多个评估文本输入到所述tts模型来获得多个合成声音;基于所述多个合成声音与所述用户语音之间的相似度、以及所述多个合成声音的特征,来识别所述多个合成声音中的至少一个合成声音,以及将所述至少一个合成声音的参考向量存储在所述存储器中,作为对应于所述tts模型的所述用户的参考向量。2.如权利要求1所述的电子设备,其中,所述多个候选参考向量包括:基于所述参考向量随机选择的至少一个参考向量、基于所述参考向量和用于训练所述tts模型的参考向量生成的至少一个参考向量、以及通过将掩蔽向量应用于所述参考向量生成的至少一个参考向量。3.如权利要求1所述的电子设备,其中,所述处理器被配置为:通过将所述多个候选参考向量和所述多个评估文本输入到所述tts模型,来获得基于所述多个候选参考向量中的每一个为所述多个评估文本中的每一个而生成的所述多个合成声音。4.如权利要求1所述的电子设备,其中,所述处理器被配置为:在所述多个合成声音中,识别与所述用户语音的相似度是预定阈值或以上的候选合成声音,以及基于所述候选合成声音中的每一个的韵律、读音或声音质量中的至少一个来识别所述候选合成声音的至少一个合成声音。5.如权利要求4所述的电子设备,其中,所述处理器被配置为:计算所述候选合成声音中的每一个的韵律得分、读音得分和声音质量得分,在所述候选合成声音中识别所述韵律得分、所述读音得分和所述声音质量得分中的每一个都是预定阈值或以上的至少一个合成声音。6.如权利要求4所述的电子设备,其中,所述多个评估文本包括属于多个域中的每一个的至少一个评估文本,处理器被配置为:根据所述多个域,基于所述多个候选合成声音中的每一个所属的域来划分所述多个候选合成声音,基于属于每个域的一个或多个候选合成声音中的每一个的韵律、读音、或声音质量中的至少一个,来识别每个域的所述至少一个合成声音。7.如权利要求6所述的电子设备,其中,根据每个评估文本所属的域,将所识别的至少一个合成声音的参考向量存储在所述存储器中。8.如权利要求7所述的电子设备,还包括输出接口,所述输出接口包括扬声器或显示器
中的至少一个,其中,所述处理器经配置以:在所述多个域中确定所述至少一个合成声音不存在的域,并确定根据对属于所确定的域的至少一个候选合成声音计算的韵律得分、读音得分和声音质量得分而计算出的具有较低的韵律得分、读音得分和声音质量得分的合成声音的特征;以及通过所述扬声器,输出请求说出基于所确定的特征而生成的句子的语音。9.如权利要求1所述的电子设备,还包括扬声器,其中,所述处理器经配置以:当通过所述麦克风接收到后续用户语音时,获取对所述用户的后续用户语音的响应的文本;通过将所获得的文本和所述存储器中存储的与所述用户相对应的一个或多个参考向量之一输入到所述tts模型,获得基于所述参考向量为所述文本生成的语音,控制所述扬声器输出所获得的语音。10.如权利要求9所述的电子设备,其中,所述处理器被配置为:在所述存储器存储的与所述用户相对应的一个或多个参考向量中,获得基于要合成的文本的特征所计算的得分最高的参考向量。11.一种电子设备的控制方法,所述电子设备包括存储tts模型和多个评估文本的存储器,所述控制方法包括:当通过麦克风接收到用户语音时,获取用户所说的所述用户语音的参考向量;基于所述参考向量生成多个候选参考向量;通过将所述多个候选参考向量和所述多个评估文本输入到所述tts模型,获得多个合成声音;基于所述多个合成声音与所述用户语音之间的相似度、以及所述多个合成声音的特征,来识别所述多个合成声音中的至少一个合成声音;以及将所述至少一个合成声音的参考向量存储在所述存储器中,作为对应于所述tts模型的所述用户的参考向量。12.如权利要求11所述的控制方法,其中,所述多个候选参考向量包括:基于所述参考向量随机选择的至少一个参考向量、基于所述参考向量和用于训练所述tts模型的参考向量生成的至少一个参考向量、以及通过将掩蔽向量应用于所述参考向量生成的至少一个参考向量。13.如权利要求11所述的控制方法,其中,在获得所述多个合成声音的过程中,通过将所述多个候选参考向量和所述多个评价文本输入到所述tts模型,来获得基于所述多个候选参考向量中的每一个为所述多个评价文本中的每一个生成的所述多个合成声音。14.如权利要求11所述的控制方法,其中,识别所述至少一个合成声音包括:在所述多个合成声音中,识别与所述用户语音的相似度是预定阈值或以上的候选合成声音,以及基于所述候选合成声音中的每一个的韵律、读音或声音质量中的至少一个来识别所述候选合成声音的至少一个合成声音。15.如权利要求14所述的控制方法,其中,识别所述至少一个合成声音包括:
计算所述候选合成声音中的每一个的韵律得分、读音得分和声音质量得分,在所述候选合成声音中,识别所述韵律得分、所述读音得分和所述声音质量得分中的每一个都是预定阈值或以上的至少一个合成声音。
技术总结
提供了一种电子设备及其控制方法。所述电子设备包括麦克风、存储器和处理器,所述处理器被配置为:当通过所述麦克风接收到用户语音时,获得用户所说的用户语音的参考向量,基于所述参考向量生成多个候选参考向量,通过将所述多个候选参考向量和多个评估文本输入到TTS模型来获得多个合成声音,基于所述多个合成声音与所述用户之间的相似度和所述多个合成声音的特征来识别所述多个合成声音中的至少一个合成声音,并且将所述至少一个合成声音的参考向量存储在所述存储器中作为对应于所述用户的用于所述TTS模型的参考向量。电子设备可以使用根据机器学习、神经网络或深度学习算法中的至少一个学习的基于规则的模型或人工智能模型。能模型。能模型。
技术研发人员:朴相俊 闵庚甫 朱基岘 崔胜渡
受保护的技术使用者:三星电子株式会社
技术研发日:2021.10.12
技术公布日:2023/7/20

版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/