语音环境音效切换方法、装置、电子设备及存储介质与流程

未命名 08-09 阅读:116 评论:0


1.本技术实施例涉及但不限于数字医疗技术领域,尤其涉及一种语音环境音效切换方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.随着技术的不断发展,数字医疗也得到了不断地推广以及应用,智能机器助手可以回答用户的相关医疗问题以及向用户普及医疗卫生常识,在向用户播放相关语音的过程中往往只具有单一的环境音效,并不能够根据对应环境而进行音效切换,进而在用户利用智能机器助手进行智能问诊的过程中就可能给用户带来了不良好的使用体验。


技术实现要素:

3.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
4.为了解决上述背景技术中提到的问题,本技术实施例提供了一种语音环境音效切换方法、装置、电子设备及计算机可读存储介质,能够实现音效与语音内容解耦,进而可以组成对应于环境的合成语音,使得用户在利用智能机器助手进行问诊的过程中给用户带来了良好的使用体验。
5.第一方面,本技术实施例提供了一种语音环境音效切换方法,所述方法包括:
6.获取语音输入信号和目标环境语音信号;
7.对所述语音输入信号和所述目标环境语音信号进行第一提取处理,得到与所述语音输入信号对应的第一梅尔频谱以及与所述目标环境语音信号对应的第二梅尔频谱;
8.基于预训练的梅尔编码网络模型对所述第一梅尔频谱进行第二提取处理,得到频谱内容;
9.基于预训练的环境音效网络模型对所述第二梅尔频谱和所述频谱内容进行音效选定处理,得到音效变量;
10.基于预训练的调节适配网络模型对所述音效变量和所述频谱内容进行整合处理,得到语音合成信息;
11.基于预训练的梅尔解码网络模型对所述语音合成信息进行解码处理,得到目标梅尔频谱。
12.根据本技术的一些实施例,所述环境音效网络模型包括音效提取模型、音效预测模型和音效编码模型,所述基于预训练的环境音效网络模型对所述第二梅尔频谱和所述频谱内容进行音效选定处理,得到音效变量,包括:
13.基于所述音效提取模型对所述第二梅尔频谱进行音效提取处理,得到环境音效频谱;
14.基于所述音效预测模型对所述频谱内容进行分类处理,得到环境音效分类信息;
15.通过所述音效编码模型根据所述环境音效分类信息对所述环境音效频谱进行转
换处理,得到所述音效变量。
16.根据本技术的一些实施例,所述调节适配网络模型包括整合模块和调整模块,所述基于预训练的调节适配网络模型对所述音效变量和所述频谱内容进行整合处理,得到语音合成信息,包括:
17.通过所述整合模块将所述音效变量和所述频谱内容进行合成处理,得到语音合成量;
18.通过所述调整模块对所述语音合成量进行调节处理,得到所述语音合成信息。
19.根据本技术的一些实施例,所述调整模块包括声调调节模块、语速调节模块和声音幅度调节模块,所述基于所述调整模块对所述语音合成量进行调节处理,至少包括如下之一:
20.基于所述声调调节模块对所述语音合成量进行声调调节处理;
21.基于所述语速调节模块对所述语音合成量进行语速调节处理;
22.基于所述声音幅度调节模块对所述语音合成量进行声音幅度调节处理。
23.根据本技术的一些实施例,所述音效提取模型的训练过程如下:
24.获取所述语音输入信号,以及与所述语音输入信号所处环境相同的参考语音信号;
25.对所述语音输入信号和所述参考语音信号进行第三提取处理,得到与所述语音输入信号对应的第三梅尔频谱以及与所述参考语音信号对应的第四梅尔频谱;
26.将所述第三梅尔频谱和所述第四梅尔频谱输入至所述音效提取模型,得到与所述第三梅尔频谱对应的第一训练音频频谱和与所述第四梅尔频谱对应的第二训练音频频谱;
27.将所述第一训练音频频谱和所述第二训练音频频谱进行平均绝对误差损失计算处理,得到训练损失值;
28.基于所述训练损失值对所述音效提取模型的网络参数进行调整处理。
29.根据本技术的一些实施例,所述梅尔解码网络模型的训练过程如下:
30.将所述第一梅尔频谱输入至所述梅尔解码网络模型,得到预测值,其中,所述第一梅尔频谱携带有标注值;
31.根据所述预测值和所述标注值得到第一损失值;
32.基于所述第一损失值对所述梅尔解码网络模型进行训练处理。
33.根据本技术的一些实施例,所述环境音效网络模型还包括梯度翻转模型,所述基于所述音效预测模型对所述频谱内容进行分类处理之前,所述方法还包括:
34.基于所述梯度翻转模型对所述频谱内容进行梯度翻转,以剔除所述频谱内容中的环境音效特征。
35.第二方面,本技术实施例还提供了一种语音环境音效切换装置,所述装置包括:
36.第一处理模块,用于获取语音输入信号和目标环境语音信号;
37.第二处理模块,用于对所述语音输入信号和所述目标环境语音信号进行第一提取处理,得到与所述语音输入信号对应的第一梅尔频谱以及与所述目标环境语音信号对应的第二梅尔频谱;
38.第三处理模块,用于基于预训练的梅尔编码网络模型对所述第一梅尔频谱进行第二提取处理,得到频谱内容;
39.第四处理模块,用于基于预训练的环境音效网络模型对所述第二梅尔频谱和所述频谱内容进行音效选定处理,得到音效变量;
40.第五处理模块,用于基于预训练的调节适配网络模型对所述音效变量和所述频谱内容进行整合处理,得到语音合成信息;
41.第六处理模块,用于基于预训练的梅尔解码网络模型对所述语音合成信息进行解码处理,得到目标梅尔频谱。
42.第三方面,本技术实施例还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上第一方面所述的语音环境音效切换方法。
43.第四方面,本技术实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上第一方面所述的语音环境音效切换方法。
44.根据本技术提供的实施例的语音环境音效切换方法,至少具有如下有益效果:首先获取语音输入信号和目标环境语音信号;接着对语音输入信号和目标环境语音信号进行第一提取处理,从而得到与语音输入信号对应的第一梅尔频谱以及与目标环境语音信号对应的第二梅尔频谱;接着基于预训练的梅尔编码网络模型对第一梅尔频谱进行第二提取处理,得到频谱内容;接着基于预训练的环境音效网络模型对第二梅尔频谱和频谱内容进行音效选定处理,从而得到音效变量;然后基于预训练的调节适配网络模型对音效变量和频谱内容进行整合处理,从而得到语音合成信息;最后基于预训练的梅尔解码网络模型对语音合成信息进行解码处理,最后得到目标梅尔频谱。通过上述技术方案,将音效与语音内容解耦,从而可以组成对应于环境的合成语音,使得用户在利用智能助手进行问诊的过程中给用户带来了良好的使用体验。
附图说明
45.附图用来提供对本技术技术方案的进一步理解,并且构成说明书的一部分,与本技术的实施例一起用于解释本技术的技术方案,并不构成对本技术技术方案的限制。
46.图1是本技术一个实施例提供的语音环境音效切换方法的流程图;
47.图2是本技术一个实施例提供的语音环境音效切换方法中,音效选定处理的流程图;
48.图3是本技术一个实施例提供的语音环境音效切换方法中,整合处理的流程图;
49.图4是本技术一个实施例提供的语音环境音效切换方法中,对语音合成量进行调节的流程图;
50.图5是本技术一个实施例提供的训练音效提取模型的流程图;
51.图6是本技术一个实施例提供的训练梅尔解码网络模型的流程图;
52.图7是本技术一个实施例提供的语音环境音效切换方法中,对频谱内容进行翻转处理的流程图;
53.图8是本技术一个实施例提供的语音环境音效切换装置的示意图;
54.图9是本技术一个实施例提供的电子设备的示意图。
具体实施方式
55.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本技术,并不用于限定本技术。
56.需要注意的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
57.需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
58.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
59.ai是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
60.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
61.人工智能即为ai,ai是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
62.人工智能技术所涉及的服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
63.本技术提供了一种语音环境音效切换方法、装置、电子设备及计算机可读存储介质,首先获取语音输入信号和目标环境语音信号;接着对语音输入信号和目标环境语音信号进行第一提取处理,从而得到与语音输入信号对应的第一梅尔频谱以及与目标环境语音信号对应的第二梅尔频谱;接着基于预训练的梅尔编码网络模型对第一梅尔频谱进行第二提取处理,得到频谱内容;接着基于预训练的环境音效网络模型对第二梅尔频谱和频谱内容进行音效选定处理,从而得到音效变量;然后基于预训练的调节适配网络模型对音效变量和频谱内容进行整合处理,从而得到语音合成信息;最后基于预训练的梅尔解码网络模
型对语音合成信息进行解码处理,最后得到目标梅尔频谱。通过上述技术方案,将音效与语音内容解耦,从而可以组成对应于环境的合成语音,使得用户在利用智能助手进行问诊的过程中给用户带来了良好的使用体验。
64.本技术实施例提供的语音环境音效切换方法,涉及数字医疗技术领域。本技术实施例提供的语音环境音效切换方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现语音环境音效切换方法的应用等,但并不局限于以上形式。
65.本技术可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
66.需要说明的是,在本技术的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本技术实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本技术实施例能够正常运行的必要的用户相关数据。
67.下面结合附图,对本技术实施例作进一步阐述。
68.如图1所示,图1是本技术一个实施例提供的语音环境音效切换方法的流程图,该语音环境音效切换方法包括但不限于步骤s100至s600。
69.步骤s100,获取语音输入信号和目标环境语音信号;
70.步骤s200,对语音输入信号和目标环境语音信号进行第一提取处理,得到与语音输入信号对应的第一梅尔频谱以及与目标环境语音信号对应的第二梅尔频谱;
71.步骤s300,基于预训练的梅尔编码网络模型对第一梅尔频谱进行第二提取处理,得到频谱内容;
72.步骤s400,基于预训练的环境音效网络模型对第二梅尔频谱和频谱内容进行音效选定处理,得到音效变量;
73.步骤s500,基于预训练的调节适配网络模型对音效变量和频谱内容进行整合处理,得到语音合成信息;
74.步骤s600,基于预训练的梅尔解码网络模型对语音合成信息进行解码处理,得到目标梅尔频谱。
75.需要说明的是,首先获取语音输入信号和目标环境语音信号;接着对语音输入信号和目标环境语音信号进行第一提取处理,从而得到与语音输入信号对应的第一梅尔频谱以及与目标环境语音信号对应的第二梅尔频谱;接着基于预训练的梅尔编码网络模型对第一梅尔频谱进行第二提取处理,得到频谱内容;接着基于预训练的环境音效网络模型对第二梅尔频谱和频谱内容进行音效选定处理,从而得到音效变量;然后基于预训练的调节适配网络模型对音效变量和频谱内容进行整合处理,从而得到语音合成信息;最后基于预训练的梅尔解码网络模型对语音合成信息进行解码处理,最后得到目标梅尔频谱。通过上述技术方案,将音效与语音内容解耦,从而可以组成对应于环境的合成语音,使得用户在利用智能助手进行问诊的过程中给用户带来了良好的使用体验。
76.需要说明的是,语音输入信号和目标环境语音信号均包括人为发出的声音信号以及所处环境的音效信号;即语音输入信号和目标环境语音信号均包括人为声音以及环境声音。其中,语音输入信号即为用户在智能问诊过程中输入的语音信号;目标环境语音信号即为即将切换到的目标环境下的语音信号。
77.需要说明的是,梅尔频谱就是一般的频谱图加上梅尔滤波函数,梅尔频谱是为了模拟人耳听觉对实际频率的敏感程度;梅尔频谱对于语音合成的重要性,在现今深度学习广为流行的时代,显得尤为重要。大部分主流的基于深度学习的语音合成系统,一般都把梅尔频谱作为模型生成的中间表示。在讯号处理中,梅尔倒频谱系一个可用来代表短期音讯的频谱,其原理根基于以非线性的梅尔刻度表示的对数频谱及其线性余弦转换之上。值得注意的是,本技术实施例中的第一梅尔频谱和第二梅尔频谱只是为了区分不同的对象,以便于对本技术的实施例进行解释说明,并不代表两者的组成形式有所不同。
78.需要说明的是,梅尔编码网络模型、环境音效网络模型、调节适配网络模型和梅尔解码网络模型均可以为神经网络模型,上述网络模型均需要首先经过训练过程,后续才可以利用训练完成的网络模型对相关的信息进行处理;示例性地,利用梅尔编码网络模型对第一梅尔频谱进行提取处理,利用环境音效网络模型对第二梅尔频谱和频谱内容进行音效选定处理,利用调节适配网络模型对音效变量和频谱内容进行整合处理,利用梅尔解码网络模型对语音合成信息进行解码处理。示例性地,梅尔编码网络模型可以由4层卷积层构成,其中每一层都由256个卷积核组成,卷积核的大小为3*3。
79.值得注意的是,对语音输入信号进行第一提取就可以得到第一梅尔频谱;对目标环境语音信号进行第一提取就可以得到第二梅尔频谱;其中,在对语音信号进行提取得到梅尔频谱的过程中,步骤大致可包括如下:将语音信号进行预加重后分帧加窗,接着对加窗后的信号进行傅里叶变换得到对数谱,最后把频谱通过梅尔滤波就可以得到相应的梅尔频谱。
80.值得注意的是,基于预训练的梅尔编码网络模型对第一梅尔频谱进行第二提取处理,就可以得到频谱内容,即通过梅尔编码网络模型提取出和音效无关的内容,然后将相关的内容输入到环境音效网络模型。
81.值得注意的是,基于预训练的梅尔解码网络模型对语音合成信息进行解码处理,就可以得到目标梅尔频谱;其中,梅尔解码网络模型与梅尔编码网络模型的作用是相反的。
82.在一些实施例中,如图2所示,环境音效网络模型包括音效提取模型、音效预测模型和音效编码模型,上述步骤s400可以包括但不限于步骤s410至步骤s430。
83.步骤s410,基于音效提取模型对第二梅尔频谱进行音效提取处理,得到环境音效频谱;
84.步骤s420,基于音效预测模型对频谱内容进行分类处理,得到环境音效分类信息;
85.步骤s430,通过音效编码模型根据环境音效分类信息对环境音效频谱进行转换处理,得到音效变量。
86.需要说明的是,在获得音效变量的过程中,首先要基于音效提取模型对第二梅尔频谱进行音效提取处理就可以得到环境音效频谱;接着基于音效预测模型对频谱内容进行分类处理就得到环境音效分类信息;最后通过音效编码模型根据环境音效分类信息对环境音效频谱进行转换处理,就可以得到音效变量。其中,在进行智能问诊的过程中,基于音效提取模型对第二梅尔频谱进行音效提取处理就可以得到环境音效频谱;接着基于音效预测模型对频谱内容进行分类处理,就可以得到环境音效分类信息;最后通过音效编码模型根据环境音效分类信息对环境音效频谱进行转换处理就可以得到音效变量。
87.值得注意的是,环境音效网络模型包括音效提取模型、音效预测模型和音效编码模型,其中,音效提取模型、音效预测模型和音效编码模型均可以为神经网络模型,均需要经过事先的训练过程才可以使用;示例性地,音效提取模型采用了2层卷积神经网络,每一层含有256个核函数,每个核函数的大小为3*3;音效预测模型采用3层全连接层加激活函数进行分类,三层全连接层分别采用1024、256和64个神经元;音效编码模型采用2层卷积神经网络,每一层含有256个核函数,每个核函数的大小为3*3。
88.可以理解的是,通过音效提取模型对第二梅尔频谱进行音效提取处理,就可以得到环境音效频谱;音效提取模型的主要作用是从第二梅尔频谱中提取出环境音效的部分,以去除语音信号中的人为声音部分。基于音效预测模型对频谱内容进行分类处理,即通过音效预测模型对频谱内容所对应的环境进行预测分类处理;音效编码器模型用于对环境音效频谱进行转换处理,从而得到音效变量。
89.在一些实施例中,如图3所示,调节适配网络模型包括整合模块和调整模块,上述步骤s500之后还可以包括但不限于步骤s510至步骤s520。
90.步骤s510,通过整合模块将音效变量和频谱内容进行合成处理,得到语音合成量;
91.步骤s520,通过调整模块对语音合成量进行调节处理,得到语音合成信息。
92.需要说明的是,在利用调节适配网络模型进行整合的过程中,首先利用调节适配网络模型中的整合模块将音效变量和频谱内容进行合成处理,就可以得到语音合成量;接着利用调节适配网络模型中的调整模块对语音合成量进行调节处理,最后就可以得到语音合成信息。
93.值得注意的是,整合模块和调整模块均可以为神经网络模型,这两个模块在使用之前均需要进行预训练处理,使得相关的网络参数被调整,以完成后续的数据处理过程。
94.可以理解的是,整合模块将音效变量和频谱内容进行合成处理,就是将人为的语音信号以及相应的环境音效进行合成处理,以得到语音合成量;利用调整模块对语音合成量进行调节处理就可以得到语音合成信息,其中,对语音合成量进行调节处理可以包括对声音的频率进行调节、对声音的语速进行调节或者对声音的大小进行调节,对语音合成量进行调节,以便于用户后续进行倾听。在用户利用智能助手进行智慧问诊的过程中,通过整合模块将音效变量和频谱内容进行合成处理,就可以得到语音合成量;最后通过调整模块
对语音合成量进行调节处理就可以得到语音合成信息。
95.在一些实施例中,如图4所示,调整模块包括声调调节模块、语速调节模块和声音幅度调节模块,上述步骤s520可以包括但不限于步骤s521和步骤s523。
96.步骤s521,基于声调调节模块对语音合成量进行声调调节处理;
97.步骤s522,基于语速调节模块对语音合成量进行语速调节处理;
98.步骤s523,基于声音幅度调节模块对语音合成量进行声音幅度调节处理。
99.需要说明的是,利用调整模块进行调节的过程中,可以基于声调调节模块对语音合成量进行声调调节处理;可以基于语速调节模块对语音合成量进行语速调节处理;可以基于声音幅度调节模块对语音合成量进行声音幅度调节处理。
100.值得注意的是,声调调节模块、语速调节模块和声音幅度调节模块均可以对语音合成量进行调节处理,并且上述三个调节模块的调节顺序可以是任意的,没有固定的调节顺序,并且在实际应用的过程中,上述三个调节模块不一定要一起运行的,即可以选择三个调节模块中的任意组合来对语音合成量进行调节处理。示例性地,可以只利用声调调节模块对语音合成量进行声调调节处理,而语速调节模块和声音幅度调节模块均不进行运作;或者只利用语速调节模块和声音幅度调节模块对语音合成量进行调节但声调调节模块却不进行运作。
101.值得注意的是,声调调节模块、语速调节模块和声音幅度调节模块均可以采用相同的网络架构,均可以由3层卷积神经网络以及2层的长短期记忆网络组成,其中,卷积层采用了128个卷积核,核函数的大小为3*3,而长短期记忆网络的层大小为64。示例性地,利用智能助手进行智慧问诊的过程中,首先基于声调调节模块对语音合成量进行声调调节处理,接着基于语速调节模块对语音合成量进行语速调节处理;最后基于声音幅度调节模块对语音合成量进行声音幅度调节处理。
102.在一些实施例中,如图5所示,音效提取模型的训练过程可以包括但不限于步骤s710和步骤s750。
103.步骤s710,获取语音输入信号,以及与语音输入信号所处环境相同的参考语音信号;
104.步骤s720,对语音输入信号和参考语音信号进行第三提取处理,得到与语音输入信号对应的第三梅尔频谱以及与参考语音信号对应的第四梅尔频谱;
105.步骤s730,将第三梅尔频谱和第四梅尔频谱输入至音效提取模型,得到与第三梅尔频谱对应的第一训练音频频谱和与第四梅尔频谱对应的第二训练音频频谱;
106.步骤s740,将第一训练音频频谱和第二训练音频频谱进行平均绝对误差损失计算处理,得到训练损失值;
107.步骤s750,基于训练损失值对音效提取模型的网络参数进行调整处理。
108.需要说明的是,音效提取模型的训练过程可以包括如下:首先获取语音输入信号,以及与语音输入信号所处环境相同的参考语音信号;接着对语音输入信号和参考语音信号进行第三提取处理,就可以得到与语音输入信号对应的第三梅尔频谱以及与参考语音信号对应的第四梅尔频谱;接着将第三梅尔频谱和第四梅尔频谱输入到音效提取模型,就可以得到与第三梅尔频谱对应的第一训练音频频谱和与第四梅尔频谱对应的第二训练音频频谱;然后将第一训练音频频谱和第二训练音频频谱进行平均绝对误差损失计算处理,得到
训练损失值;最后就可以根据训练损失值对音效提取模型的网络参数进行调整处理。
109.值得注意的是,在训练的过程中,采用与语音输入信号所处环境相同的参考语音信号,使得音效提取模型能够提取到音效特征,从而在后续的推理过程中,只需要将参考语音信号转换为目标环境语音信号,就能够实现后续的音效提取处理。
110.需要说明的是,第三梅尔频谱和第四梅尔频谱只是为了区分不同的对象,以便于进行后续的实施例说明,并不代表两者具有不同的组成形式。
111.值得注意的是,将第一训练音频频谱和第二训练音频频谱进行平均绝对误差损失计算处理,就可以得到训练损失值;接着后续就可以基于训练损失值对音效提取模型的网络参数进行调整处理。
112.在一些实施例中,如图6所示,梅尔解码网络模型的训练过程可以包括但不限于步骤s810和步骤s830。
113.步骤s810,将第一梅尔频谱输入至梅尔解码网络模型,得到预测值,其中,第一梅尔频谱携带有标注值;
114.步骤s820,根据预测值和标注值得到第一损失值;
115.步骤s830,基于第一损失值对梅尔解码网络模型进行训练处理。
116.需要说明的是,梅尔解码网络模型的训练过程中可以包括如下:将第一梅尔频谱输入到梅尔解码网络模型,从而得到预测值,其中,第一梅尔频谱携带有标注值;接着根据预测值和标注值就可以得到第一损失值;最后基于第一损失值对梅尔解码网络模型进行训练处理。
117.值得注意的是,训练阶段输入的梅尔频谱为第一梅尔频谱,第四梅尔频谱为与当前语音相同环境的不同语音内容的参考梅尔频谱,最终的目标梅尔频谱为通过第四梅尔频谱获取的音效特征与通过梅尔频谱编码网络模型得到的内容特征以及调节适配网络模型的调节进行重构的梅尔频谱,这样在训练过程中就实现了,从相同环境的两个不同语音内容重构出输入语音的能力。这个过程中只有从参考语音信号那里获取环境音效,从原始语音输入信号那里获取语音内容才能重构出原始环境音效的原始语音;而在推理阶段,将参考语音信号换成目标环境语音信号,并且提取出对应的环境音效,从而是带转换音效的原始语音转换成目标环境音效的目标语音。
118.在一些实施例中,如图7所示,环境音效网络模型还包括梯度翻转模型,上述步骤s420之前还可以包括但不限于步骤s421。
119.步骤s421,基于梯度翻转模型对频谱内容进行梯度翻转,以剔除频谱内容中的环境音效特征。
120.需要说明的是,环境音效网络模型还包括梯度翻转模型,在利用音效预测模型对频谱内容进行分类处理之前,还可以基于梯度翻转模型对频谱内容进行梯度翻转处理,从而剔除频谱内容中的环境音效特征,使得后续的频谱内容分类过程能够更加准确。在利用智能助手回答客户的问题或者向客户普及健康卫生常识的过程中,还可以基于梯度翻转模型对频谱内容进行梯度翻转处理,从而可以剔除频谱内容中的环境音效特征。
121.另外,如图8所示,本技术的一个实施例还提供了一种语音环境音效切换装置10,包括:
122.第一处理模块100,用于获取语音输入信号和目标环境语音信号;
123.第二处理模块200,用于对语音输入信号和目标环境语音信号进行第一提取处理,得到与语音输入信号对应的第一梅尔频谱以及与目标环境语音信号对应的第二梅尔频谱;
124.第三处理模块300,用于基于预训练的梅尔编码网络模型对第一梅尔频谱进行第二提取处理,得到频谱内容;
125.第四处理模块400,用于基于预训练的环境音效网络模型对第二梅尔频谱和频谱内容进行音效选定处理,得到音效变量;
126.第五处理模块500,用于基于预训练的调节适配网络模型对音效变量和频谱内容进行整合处理,得到语音合成信息;
127.第六处理模块600,用于基于预训练的梅尔解码网络模型对语音合成信息进行解码处理,得到目标梅尔频谱。
128.该语音环境音效切换装置10的具体实施方式与上述语音环境音效切换方法的具体实施例基本相同,在此不再赘述。
129.另外,如图9所示,本技术的一个实施例还提供了一种电子设备700,该设备包括:存储器720、处理器710及存储在存储器720上并可在处理器710上运行的计算机程序。
130.处理器710和存储器720可以通过总线或者其他方式连接。
131.实现上述实施例的语音环境音效切换方法所需的非暂态软件程序以及指令存储在存储器720中,当被处理器710执行时,执行上述各实施例的语音环境音效切换方法,例如,执行以上描述的图1中的方法步骤s100至s600、图2中的方法步骤s2410至s430、图3中的方法步骤s510至s520、图4中的方法步骤s521至s523、图5中的方法步骤s710至s750、图6中的方法步骤s810至s830和图7中的方法步骤s421。
132.以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
133.此外,本技术的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器710或控制器执行,例如,被上述设备实施例中的一个处理器710执行,可使得上述处理器710执行上述实施例中的语音环境音效切换方法,例如,执行以上描述的图1中的方法步骤s100至s600、图2中的方法步骤s2410至s430、图3中的方法步骤s510至s520、图4中的方法步骤s521至s523、图5中的方法步骤s710至s750、图6中的方法步骤s810至s830和图7中的方法步骤s421。
134.上述各实施例可以结合使用,不同实施例之间名称相同的模块可相同可不同。
135.上述对本技术特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
136.本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
137.本技术实施例提供的装置、设备、计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。
138.在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
139.控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
140.上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
141.为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本技术实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
142.本领域内的技术人员应明白,本技术实施例可提供为方法、系统、或计算机程序产品。因此,本技术实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
143.本说明书是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
144.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
145.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
146.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
147.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
148.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
149.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要
素的过程、方法、商品或者设备中还存在另外的相同要素。
150.本技术实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示单独存在a、同时存在a和b、单独存在b的情况。其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
151.本技术实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
152.本技术中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
153.以上所述仅为本技术实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。

技术特征:
1.一种语音环境音效切换方法,其特征在于,所述方法包括:获取语音输入信号和目标环境语音信号;对所述语音输入信号和所述目标环境语音信号进行第一提取处理,得到与所述语音输入信号对应的第一梅尔频谱以及与所述目标环境语音信号对应的第二梅尔频谱;基于预训练的梅尔编码网络模型对所述第一梅尔频谱进行第二提取处理,得到频谱内容;基于预训练的环境音效网络模型对所述第二梅尔频谱和所述频谱内容进行音效选定处理,得到音效变量;基于预训练的调节适配网络模型对所述音效变量和所述频谱内容进行整合处理,得到语音合成信息;基于预训练的梅尔解码网络模型对所述语音合成信息进行解码处理,得到目标梅尔频谱。2.根据权利要求1所述的语音环境音效切换方法,其特征在于,所述环境音效网络模型包括音效提取模型、音效预测模型和音效编码模型,所述基于预训练的环境音效网络模型对所述第二梅尔频谱和所述频谱内容进行音效选定处理,得到音效变量,包括:基于所述音效提取模型对所述第二梅尔频谱进行音效提取处理,得到环境音效频谱;基于所述音效预测模型对所述频谱内容进行分类处理,得到环境音效分类信息;通过所述音效编码模型根据所述环境音效分类信息对所述环境音效频谱进行转换处理,得到所述音效变量。3.根据权利要求1所述的语音环境音效切换方法,其特征在于,所述调节适配网络模型包括整合模块和调整模块,所述基于预训练的调节适配网络模型对所述音效变量和所述频谱内容进行整合处理,得到语音合成信息,包括:通过所述整合模块将所述音效变量和所述频谱内容进行合成处理,得到语音合成量;通过所述调整模块对所述语音合成量进行调节处理,得到所述语音合成信息。4.根据权利要求3所述的语音环境音效切换方法,其特征在于,所述调整模块包括声调调节模块、语速调节模块和声音幅度调节模块,所述基于所述调整模块对所述语音合成量进行调节处理,至少包括如下之一:基于所述声调调节模块对所述语音合成量进行声调调节处理;基于所述语速调节模块对所述语音合成量进行语速调节处理;基于所述声音幅度调节模块对所述语音合成量进行声音幅度调节处理。5.根据权利要求2所述的语音环境音效切换方法,其特征在于,所述音效提取模型的训练过程如下:获取所述语音输入信号,以及与所述语音输入信号所处环境相同的参考语音信号;对所述语音输入信号和所述参考语音信号进行第三提取处理,得到与所述语音输入信号对应的第三梅尔频谱以及与所述参考语音信号对应的第四梅尔频谱;将所述第三梅尔频谱和所述第四梅尔频谱输入至所述音效提取模型,得到与所述第三梅尔频谱对应的第一训练音频频谱和与所述第四梅尔频谱对应的第二训练音频频谱;将所述第一训练音频频谱和所述第二训练音频频谱进行平均绝对误差损失计算处理,得到训练损失值;
基于所述训练损失值对所述音效提取模型的网络参数进行调整处理。6.根据权利要求1所述的语音环境音效切换方法,其特征在于,所述梅尔解码网络模型的训练过程如下:将所述第一梅尔频谱输入至所述梅尔解码网络模型,得到预测值,其中,所述第一梅尔频谱携带有标注值;根据所述预测值和所述标注值得到第一损失值;基于所述第一损失值对所述梅尔解码网络模型进行训练处理。7.根据权利要求2所述的语音环境音效切换方法,其特征在于,所述环境音效网络模型还包括梯度翻转模型,所述基于所述音效预测模型对所述频谱内容进行分类处理之前,所述方法还包括:基于所述梯度翻转模型对所述频谱内容进行梯度翻转,以剔除所述频谱内容中的环境音效特征。8.一种语音环境音效切换装置,其特征在于,所述装置包括:第一处理模块,用于获取语音输入信号和目标环境语音信号;第二处理模块,用于对所述语音输入信号和所述目标环境语音信号进行第一提取处理,得到与所述语音输入信号对应的第一梅尔频谱以及与所述目标环境语音信号对应的第二梅尔频谱;第三处理模块,用于基于预训练的梅尔编码网络模型对所述第一梅尔频谱进行第二提取处理,得到频谱内容;第四处理模块,用于基于预训练的环境音效网络模型对所述第二梅尔频谱和所述频谱内容进行音效选定处理,得到音效变量;第五处理模块,用于基于预训练的调节适配网络模型对所述音效变量和所述频谱内容进行整合处理,得到语音合成信息;第六处理模块,用于基于预训练的梅尔解码网络模型对所述语音合成信息进行解码处理,得到目标梅尔频谱。9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的语音环境音效切换方法。10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行权利要求1至7中任意一项所述的语音环境音效切换方法。

技术总结
本申请涉及数字医疗技术领域,提供了一种语音环境音效切换方法、装置、电子设备及计算机可读存储介质,方法包括:获取语音输入信号和目标环境语音信号;对语音输入信号和目标环境语音信号进行第一提取处理,得到第一梅尔频谱以及第二梅尔频谱;基于梅尔编码网络模型对第一梅尔频谱进行第二提取处理,得到频谱内容;基于环境音效网络模型对第二梅尔频谱和频谱内容进行音效选定处理,得到音效变量;基于调节适配网络模型对音效变量和频谱内容进行整合处理,得到语音合成信息;基于梅尔解码网络模型对语音合成信息进行解码处理,得到目标梅尔频谱。通过上述技术方案,使得用户在利用智能机器助手进行问诊的过程中给用户带来了良好的使用体验。良好的使用体验。良好的使用体验。


技术研发人员:张旭龙 王健宗 程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.05.31
技术公布日:2023/8/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐