语音处理方法、装置、终端设备及存储介质与流程
未命名
09-15
阅读:94
评论:0

1.本技术涉及语音处理技术领域,尤其涉及一种语音处理方法、装置、终端设备及存储介质。
背景技术:
2.如今汽车的智能化程度越来越高,汽车支持的语音交互功能也越来越丰富。根据汽车的座位分布可以在车内划分若干个声音分区,在某些语音交互的场景中,需要准确识别说话人所在的声音分区,即目标声音分区。
3.目前,识别目标声音分区的方法是将采集的待处理语音信号和参考语音信号进行对比,并根据对比结果确定目标声音分区。但是,环境噪声以及说话人身姿改变会对采集的待处理语音信号造成持续动态的影响,而参考语音信号无法动态地适应上述影响,进而容易导致识别出来的目标声音分区并不是说话人所在的声音分区,这种误识别的情况被称为音区泄露。
4.综上,目前识别目标声音分区的方法容易导致音区泄露的问题。
技术实现要素:
5.本技术的主要目的在于提供一种语音处理方法、装置、终端设备及存储介质,旨在解决或改善目前识别目标声音分区的方法容易导致音区泄露的问题。
6.为实现上述目的,本技术提供一种语音处理方法,所述语音处理方法包括:获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;基于所述评估结果,确定目标声音分区。
7.可选地,所述清晰度评估模型包括逐帧卷积模型、时序模型以及池化模型,所述基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果的步骤包括:基于预设的窗长对所述待处理语音信号进行频谱分割的,得到对应的若干帧频谱;通过预设的逐帧卷积模型对所述若干帧频谱进行逐帧卷积,得到所述若干帧频谱各自对应的第一类高维特征;通过预设的时序模型对所述第一类高维特征进行时间依赖性建模,得到所述若干帧频谱各自对应的第二类高维特征;通过预设的池化模型对所述若干帧频谱各自对应的第二类高维特征进行特征聚合,得到聚合特征;根据所述聚合特征分析得到对应的评估结果。
8.可选地,所述根据所述聚合特征分析得到对应的评估结果的步骤包括:
根据所述聚合特征分析得到对应的评估分值,其中,所述评估分值的类型包括mos值、噪声评估分值、人声评估分值中的至少一种。
9.可选地,所述根据所述聚合特征分析得到对应的评估分值的步骤包括:根据所述聚合特征以及预设的语音质量评分标准,分析得到对应的评估分值。
10.可选地,所述基于所述评估结果,确定目标声音分区的步骤包括:根据所述评估分值和预设的阈值筛选规则对所述若干个声音分区进行筛选,确定至少一个待选声音分区;根据所述待选声音分区对应的评估分值和预设的分值比较规则进行分值比较,确定所述目标声音分区。
11.可选地,所述基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果的步骤之前,还包括:对所述待处理语音信号进行语音活性检测,确定至少一个具备语音活性的声音分区;所述基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果的步骤包括:基于预设的清晰度评估模型对所述具备语音活性的声音分区对应的待处理语音信号进行清晰度评估,得到对应的评估结果。
12.可选地,所述基于所述评估结果,确定目标声音分区的步骤之后,还包括:根据所述目标声音分区对预设的音区分配策略进行调整,得到调整后的音区分配策略,其中,所述调整后的音区分配策略用于控制所述目标声音分区对应的语音交互任务。
13.本技术实施例还提出一种语音处理装置,所述语音处理装置包括:获取模块,用于获取若干个声音分区各自对应的待处理语音信号;评估模块,用于基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;确定模块,用于基于所述评估结果,确定目标声音分区。
14.本技术实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理程序,所述语音处理程序被所述处理器执行时实现如上所述的语音处理方法的步骤。
15.本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音处理程序,所述语音处理程序被处理器执行时实现如上所述的语音处理方法的步骤。
16.本技术实施例提出的语音处理方法、装置、终端设备及存储介质,通过获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;基于所述评估结果,确定目标声音分区。基于本技术方案,采用清晰度评估模型可以对待处理语音信号进行清晰度评估,得到反映语音清晰度的评估结果,并进一步根据评估结果确定目标声音分区。如此可以摆脱对参考语音信号的依赖,并且清晰度评估模型能够适应环境噪声和说话人身姿改变等因素对待处理语音信号造成的动态影响,在此基础上能够准确地确定目标声音分区,有效降低了音区泄露的情况发生。
附图说明
17.图1为本技术语音处理装置所属终端设备的功能模块示意图;图2为本技术语音处理方法第一示例性实施例流程示意图;图3为本技术语音处理方法第二示例性实施例流程示意图;图4为本技术语音处理方法涉及的清晰度评估模型示意图;图5为本技术语音处理方法第三示例性实施例流程示意图;图6为本技术语音处理方法第四示例性实施例流程示意图;图7为本技术语音处理方法第五示例性实施例流程示意图;图8为本技术语音处理方法第六示例性实施例流程示意图;图9为本技术语音处理方法第七示例性实施例流程示意图。
18.本技术目的的实现、功能特点及优点将结合实施例,参照附图作进一步说明。
具体实施方式
19.应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
20.本技术实施例的主要解决方案是:获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;基于所述评估结果,确定目标声音分区。基于本技术方案,采用清晰度评估模型可以对待处理语音信号进行清晰度评估,得到反映语音清晰度的评估结果,并进一步根据评估结果确定目标声音分区。如此可以摆脱对参考语音信号的依赖,并且清晰度评估模型能够适应环境噪声和说话人身姿改变等因素对待处理语音信号造成的动态影响,在此基础上能够准确地确定目标声音分区,有效降低了音区泄露的情况发生。
21.具体地,参照图1,图1为本技术语音处理装置所属终端设备的功能模块示意图。该语音处理装置可以为独立于终端设备的、能够进行语音处理的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
22.在本实施例中,该语音处理装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
23.存储器130中存储有操作系统以及语音处理程序,语音处理装置可以将获取的若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对待处理语音信号进行清晰度评估,得到的对应的评估结果;基于评估结果,确定的目标声音分区对应的声音分区信息等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括wifi模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
24.其中,存储器130中的语音处理程序被处理器执行时实现以下步骤:获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;基于所述评估结果,确定目标声音分区。
25.进一步地,存储器130中的语音处理程序被处理器执行时还实现以下步骤:
基于预设的窗长对所述待处理语音信号进行频谱分割的,得到对应的若干帧频谱;通过预设的逐帧卷积模型对所述若干帧频谱进行逐帧卷积,得到所述若干帧频谱各自对应的第一类高维特征;通过预设的时序模型对所述第一类高维特征进行时间依赖性建模,得到所述若干帧频谱各自对应的第二类高维特征;通过预设的池化模型对所述若干帧频谱各自对应的第二类高维特征进行特征聚合,得到聚合特征;根据所述聚合特征分析得到对应的评估结果。
26.进一步地,存储器130中的语音处理程序被处理器执行时还实现以下步骤:根据所述聚合特征分析得到对应的评估分值,其中,所述评估分值的类型包括mos值、噪声评估分值、人声评估分值中的至少一种。
27.进一步地,存储器130中的语音处理程序被处理器执行时还实现以下步骤:根据所述聚合特征以及预设的语音质量评分标准,分析得到对应的评估分值。
28.进一步地,存储器130中的语音处理程序被处理器执行时还实现以下步骤:根据所述评估分值和预设的阈值筛选规则对所述若干个声音分区进行筛选,确定至少一个待选声音分区;根据所述待选声音分区对应的评估分值和预设的分值比较规则进行分值比较,确定所述目标声音分区。
29.进一步地,存储器130中的语音处理程序被处理器执行时还实现以下步骤:对所述待处理语音信号进行语音活性检测,确定至少一个具备语音活性的声音分区;基于预设的清晰度评估模型对所述具备语音活性的声音分区对应的待处理语音信号进行清晰度评估,得到对应的评估结果。
30.进一步地,存储器130中的语音处理程序被处理器执行时还实现以下步骤:根据所述目标声音分区对预设的音区分配策略进行调整,得到调整后的音区分配策略,其中,所述调整后的音区分配策略用于控制所述目标声音分区对应的语音交互任务。
31.本实施例通过上述方案,具体通过获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;基于所述评估结果,确定目标声音分区。本实施例中,采用清晰度评估模型可以对待处理语音信号进行清晰度评估,得到反映语音清晰度的评估结果,并进一步根据评估结果确定目标声音分区。如此可以摆脱对参考语音信号的依赖,并且清晰度评估模型能够适应环境噪声和说话人身姿改变等因素对待处理语音信号造成的动态影响,在此基础上能够准确地确定目标声音分区,有效降低了音区泄露的情况发生。
32.参照图2,本技术语音处理方法第一实施例提供一种流程示意图,所述语音处理方法包括:步骤s10,获取若干个声音分区各自对应的待处理语音信号。
33.具体地,本实施例涉及的语音处理方法可应用于多音区语音交互的场景,例如应用于汽车的智能座舱。声音分区是指在一个整体的声音系统中按照不同的区域划分得到的
分区,以四座或五座的智能座舱系统为例,可划分为驾驶座声音分区、副驾驶座声音分区、左后声音分区、右后声音分区。进一步地,可以在划分声音分区的基础上,使各个声音分区独立支持声音采集、声音播放、联动部件控制中的至少一种功能。
34.为了确定说话人所在的声音分区,需要获取若干个声音分区各自对应的待处理语音信号。更为具体地,可以在针对每一个声音分区预先设置录音单元,例如麦克风单元,如此便可以获取若干个声音分区各自对应的待处理语音信号。
35.步骤s20,基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果。
36.具体地,在获取若干个声音分区各自对应的待处理语音信号之后,将若干个声音分区各自对应的待处理语音信号作为清晰度评估模型的输入,由清晰度评估模型对待处理语音信号进行清晰度评估,可以得到若干个声音分区各自对应的评估结果。其中,清晰度评估模型可以对待处理语音信号进行频谱分割、卷积、时间依赖性建模以及特征聚合等处理,初步输出待处理语音信号的聚合特征,聚合特征表征待处理语音信号的清晰度,对聚合特征进行进一步量化可以得到对应的评估结果。
37.可以理解的是,评估结果可以是评估分值、评估等级或者其他可用于表征待处理语音信号清晰度的数据形式。
38.步骤s30,基于所述评估结果,确定目标声音分区。
39.具体地,评估结果反映了对应的声音分区的清晰度,根据评估结果可以确定清晰度最优的声音分区为目标声音分区。例如,当评估结果为评估分值时,可以通过分值比较的方式将评估分值最高的声音分区确定为目标声音分区;又如,当评估结果为评估等级时,可以通过等级比较的方式将评估等级最高的声音分区确定为目标声音分区。同理,如果评估结果采用其他可用于表征待处理语音信号清晰度的数据形式,也可以基于对应的分析方式确定清晰度最优的声音分区为目标声音分区。
40.本实施例通过上述方案,具体通过获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;基于所述评估结果,确定目标声音分区。本实施例中,采用清晰度评估模型可以对待处理语音信号进行清晰度评估,得到反映语音清晰度的评估结果,并进一步根据评估结果确定目标声音分区。如此可以摆脱对参考语音信号的依赖,并且清晰度评估模型能够适应环境噪声和说话人身姿改变等因素对待处理语音信号造成的动态影响,在此基础上能够准确地确定目标声音分区,有效降低了音区泄露的情况发生。
41.进一步地,参照图3,本技术语音处理方法第二实施例提供一种流程示意图,基于上述图2所示的实施例,步骤s20,基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果进一步细化,包括:步骤s201,基于预设的窗长对所述待处理语音信号进行频谱分割的,得到对应的若干帧频谱。
42.具体地,可以根据实际的频谱分析需要预设窗长(即窗函数),使用短时傅里叶变换(short-time fourier transform,stft)将若干个声音分区各自对应的待处理语音信号分成多帧,然后将每个帧乘以窗长得到对应的频谱,即得到对应的若干帧频谱。
43.步骤s202,通过预设的逐帧卷积模型对所述若干帧频谱进行逐帧卷积,得到所述
若干帧频谱各自对应的第一类高维特征。
44.具体地,如图4所示,图4为本技术语音处理方法涉及的清晰度评估模型示意图,清晰度评估模型包括逐帧卷积模型,逐帧卷积模型是一种基于卷积神经网络(convolutional neural networks,cnn)的模型。将若干帧频谱分别作为逐帧卷积模型的输入,由逐帧卷积模型对若干帧频谱进行逐帧卷积,可以得到若干帧频谱各自对应的第一类高维特征。可以理解的是,第一类高维特征是从空间上提取的高维特征。
45.步骤s203,通过预设的时序模型对所述第一类高维特征进行时间依赖性建模,得到所述若干帧频谱各自对应的第二类高维特征。
46.具体地,如图4所示,清晰度评估模型包括时序模型,时序模型是一种基于长短期记忆网络(long short-term memory,lstm)的模型。将若干帧频谱各自对应的第二类高维特征作为时序模型的输入,由时序模型对第一类高维特征进行时间依赖性建模,可以得到若干帧频谱各自对应的第二类高维特征。可以理解的是,第二类高维特征是从时间上提取的高维特征。
47.步骤s204,通过预设的池化模型对所述若干帧频谱各自对应的第二类高维特征进行特征聚合,得到聚合特征。
48.具体地,如图4所示,清晰度评估模型包括池化模型,池化模型可以在保留主要特征的同时减少计算量。将若干帧频谱各自对应的第二类高维特征作为池化模型的输入,由池化模型对若干帧频谱各自对应的第二类高维特征进行特征聚合,可以得到聚合特征。可以理解的是,聚合特征同样是一种表征语音清晰度的声学特征。
49.步骤s205,根据所述聚合特征分析得到对应的评估结果。
50.具体地,在得到聚合特征之后,对聚合特征进行进一步的量化可以得到对应的评估结果。其中,评估结果可以是评估分值、评估等级或者其他可用于表征待处理语音信号清晰度的数据形式。
51.本实施例通过上述方案,具体通过基于预设的窗长对所述待处理语音信号进行频谱分割的,得到对应的若干帧频谱;通过预设的逐帧卷积模型对所述若干帧频谱进行逐帧卷积,得到所述若干帧频谱各自对应的第一类高维特征;通过预设的时序模型对所述第一类高维特征进行时间依赖性建模,得到所述若干帧频谱各自对应的第二类高维特征;通过预设的池化模型对所述若干帧频谱各自对应的第二类高维特征进行特征聚合,得到聚合特征;根据所述聚合特征分析得到对应的评估结果。本实施例中,对若干个声音分区各自对应的待处理语音信号进行频谱分割、卷积、时间依赖性建模以及特征聚合等处理,可以得到若干个声音分区各自对应的待处理语音信号的聚合特征,对聚合特征进行进一步的量化可以得到反映语音清晰度的评估结果。如此,可以在评估结果的基础上准确识别目标声音分区,有效降低了音区泄露的情况发生。
52.进一步地,参照图5,本技术语音处理方法第三实施例提供一种流程示意图,基于上述图3所示的实施例,步骤s205,根据所述聚合特征分析得到对应的评估结果进一步细化,包括:步骤s2051,根据所述聚合特征分析得到对应的评估分值,其中,所述评估分值的类型包括mos值、噪声评估分值、人声评估分值中的至少一种。
53.具体地,本实施例采用评估分值作为评估结果的数据形式,评估分值的类型包括
mos值(mean opinion score,平均意见得分)、噪声评估分值、人声评估分值中的至少一种。值得注意的是,人声评估分值反映的是人声响度。
54.通常来说,mos值是必要的评估分值类型,在mos值的基础上可以结合噪声评估分值和人声评估分值中的至少一种评估分值类型。例如,采用mos值和噪声评估分值两种评估分值类型;或者,采用mos值和人声评估分值两种评估分值类型;或者,采用mos值、噪声评估分值、人声评估分值三种评估分值类型。
55.值得注意的是,mos值、噪声评估分值、人声评估分值都有对应的分值范围,例如1分~5分,通常分值越高表示对应的评估分值表现越好。
56.本实施例通过上述方案,具体通过根据所述聚合特征分析得到对应的评估分值,其中,所述评估分值的类型包括mos值、噪声评估分值、人声评估分值中的至少一种。本实施例中,将mos值、噪声评估分值、人声评估分值选择性地归入评估分值的类型,可以更加全面地评估待处理语音信号的清晰度,进而准确地确定目标声音分区,有效降低了音区泄露的情况发生。
57.进一步地,参照图6,本技术语音处理方法第四实施例提供一种流程示意图,基于上述图5所示的实施例,步骤s2051,根据所述聚合特征分析得到对应的评估分值进一步细化,包括:步骤s2052,根据所述聚合特征以及预设的语音质量评分标准,分析得到对应的评估分值。
58.具体地,为了使评估分值更加合理地反映待处理语音信号的清晰度,本实施例根据聚合特征以及预设的语音质量评分标准分析得到对应的评估分值。其中,预设的语音质量评分标准可以是基于先验知识的评分标准。例如,采用国际电信联盟制定的p.808语音质量评估标准(itu-p.808)作为预设的语音质量评分标准。语音质量评分的范围可以涉及mos值、噪声评估分值、人声评估分值等多个维度。
59.本实施例通过上述方案,具体通过根据所述聚合特征以及预设的语音质量评分标准,分析得到对应的评估分值。本实施例向评估过程引入了语音质量评分标准,语音质量评分标准可以基于国际标准等先验知识得到,如此使得评估分值能够更加合理地表征待处理语音信号的清晰度。
60.进一步地,参照图7,本技术语音处理方法第五实施例提供一种流程示意图,基于上述图5所示的实施例,步骤s30,基于所述评估结果,确定目标声音分区进一步细化,包括:步骤s301,根据所述评估分值和预设的阈值筛选规则对所述若干个声音分区进行筛选,确定至少一个待选声音分区。
61.具体地,如果某一声音分区对应的评估分值表现极差,那么可以确定该声音分区对应的待处理语音信号不够清晰,缺少进一步处理的必要。为此,可以根据若干个声音分区各自对应的评估分值和预设的阈值筛选规则对若干个声音分区进行筛选,确定至少一个待选声音分区。其中,预设的阈值筛选规则是指根据评估分值的类型预设对应的阈值,将某一类型的评估分值与对应的阈值进行比较,如果大于(或大于等于)对应的阈值,则认为该类型的评估分值为有效评估分值;如果小于等于(或小于)对应的阈值,则认为该类型的评估分值为无效评估分值。
62.例如,可以预设mos值对应的阈值为1.5,噪声评估分值对应的阈值为1,人声评估
分值对应的阈值为2。那么,可以在mos值大于等于1.5,噪声评估分值大于等于1,人声评估分值大于等于2的时候,确定mos值、噪声评估分值、人声评估分值均有效,并进一步确定对应的声音分区为待选声音分区。
63.可以理解的是,待选声音分区是指对应的待处理语音信号的评估分值均有效的声音分区。
64.步骤s302,根据所述待选声音分区对应的评估分值和预设的分值比较规则进行分值比较,确定所述目标声音分区。
65.具体地,在筛选确定至少一个待选声音分区之后,可以进一步根据待选声音分区对应的评估分值和预设的分值比较规则进行分值比较,将分值最高的待选声音分区确定为目标声音分区。对于分值比较过程,优选的评估分值的类型为mos值,因为mos值能够较好地表征某一待选声音分区的待处理语音信号的清晰度。
66.例如,待选声音分区的数量为三个,第一待选声音分区对应的mos值为3,第二待选声音分区对应的mos值为2,第三待选声音分区对应的mos值为1。那么,通过分值比较可以将mos值最高的第一待选声音分区作为目标声音分区。
67.又如,待选声音分区的数量为一个,可以直接将该待选声音分区确定为目标声音分区。
68.本实施例通过上述方案,具体通过根据所述评估分值和预设的阈值筛选规则对所述若干个声音分区进行筛选,确定至少一个待选声音分区;根据所述待选声音分区对应的评估分值和预设的分值比较规则进行分值比较,确定所述目标声音分区。本实施例中,首先基于阈值筛选规则筛选掉部分清晰度较低的声音分区,得到至少一个待选声音分区,并进一步根据待选声音分区各自对应的评估分值和预设的分值比较规则进行分值比较,确定评估分值较高的待选声音分区为目标声音分区。如此,可以准确地确定目标声音分区,有效降低了音区泄露的情况发生。
69.进一步地,参照图8,本技术语音处理方法第六实施例提供一种流程示意图,基于上述图2所示的实施例,步骤s20,基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果之前,还包括:步骤s001,对所述待处理语音信号进行语音活性检测,确定至少一个具备语音活性的声音分区。
70.具体地,语音活性检测(voice activity detection,vad)是一项用于语音处理的技术,其目的是检测语音信号是否存在。为了排除无效语音信号的干扰,可以对若干个声音分区各自对应的待处理语音信号进行语音活性检测,确定至少一个具备语音活性的声音分区。可以理解的是,具备语音活性的声音分区对应的待处理语音信号包含说话人的语音信息。
71.步骤s20,基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果进一步细化,包括:步骤s206,基于预设的清晰度评估模型对所述具备语音活性的声音分区对应的待处理语音信号进行清晰度评估,得到对应的评估结果。
72.具体地,在确定至少一个具备语音活性的声音分区之后,可以将具备语音活性的声音分区对应的待处理语音信号作为清晰度评估模型的输入,由清晰度评估模型对具备语
音活性的声音分区对应的待处理语音信号进行清晰度评估,可以得到对应的评估结果。
73.本实施例通过上述方案,具体通过对所述待处理语音信号进行语音活性检测,确定至少一个具备语音活性的声音分区;基于预设的清晰度评估模型对所述具备语音活性的声音分区对应的待处理语音信号进行清晰度评估,得到对应的评估结果。本实施例中,首先对若干个声音分区各自对应的待处理语音信号进行语音活性检测,排除掉部分不具备语音活性的声音分区,确定至少一个具备语音活性的声音分区。然后基于预设的清晰度评估模型对具备语音活性的声音分区对应的待处理语音信号进行清晰度评估,得到对应的评估结果。如此减少了清晰度评估模型的计算压力,并且提高了评估结果的准确性。
74.进一步地,参照图9,本技术语音处理方法第七实施例提供一种流程示意图,基于上述图2所示的实施例,步骤s30,基于所述评估结果,确定目标声音分区之后,还包括:步骤s002,根据所述目标声音分区对预设的音区分配策略进行调整,得到调整后的音区分配策略,其中,所述调整后的音区分配策略用于控制所述目标声音分区对应的语音交互任务。
75.具体地,本实施例在确定目标声音分区之后,可以根据目标声音分区对预设的音区分配策略进行调整,得到调整后的音区分配策略。其中,调整后的音区分配策略可控制执行针对目标声音分区对应的语音交互任务。
76.以智能座舱系统为例,确定目标声音分区为主驾驶座声音分区,可以根据主驾驶座声音分区对音区分配策略进行调整,得到调整后的音区分配策略。另外通过语音识别获取说话人(此时为驾驶员)的说话内容为“打开车窗”,那么可以根据调整后的音区分配策略判定说话人需要打开的车窗为驾驶座车窗,进一步控制对应的联动部件打开驾驶座车窗。可以理解的是,上述关于打开车窗的语音控制任务是一种语音交互任务。
77.本实施例通过上述方案,具体通过根据所述目标声音分区对预设的音区分配策略进行调整,得到调整后的音区分配策略,其中,所述调整后的音区分配策略用于控制所述目标声音分区对应的语音交互任务。本实施例中,在确定了目标声音分区的基础上,可以进一步调整音区分配策略以控制对应的语音交互任务,能够应用于车辆的智能座舱系统等语音交互场景,有效提高用户的语音交互体验或者驾乘体验。
78.此外,本技术实施例还提出一种语音处理装置,所述语音处理装置包括:获取模块,用于获取若干个声音分区各自对应的待处理语音信号;评估模块,用于基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;确定模块,用于基于所述评估结果,确定目标声音分区。
79.本实施例实现语音处理的原理及实施过程,请参照上述各实施例,在此不再赘述。
80.此外,本技术实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理程序,所述语音处理程序被所述处理器执行时实现如上所述的语音处理方法的步骤。
81.由于本语音处理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
82.此外,本技术实施例还提出一种计算机可读存储介质,所述计算机可读存储介质
上存储有语音处理程序,所述语音处理程序被处理器执行时实现如上所述的语音处理方法的步骤。
83.由于本语音处理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
84.相比现有技术,本技术实施例提出的语音处理方法、装置、终端设备及存储介质,通过获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;基于所述评估结果,确定目标声音分区。基于本技术方案,采用清晰度评估模型可以对待处理语音信号进行清晰度评估,得到反映语音清晰度的评估结果,并进一步根据评估结果确定目标声音分区。如此可以摆脱对参考语音信号的依赖,并且清晰度评估模型能够适应环境噪声和说话人身姿改变等因素对待处理语音信号造成的动态影响,在此基础上能够准确地确定目标声音分区,有效降低了音区泄露的情况发生。
85.需要说明的是,在本文中,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
86.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
87.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本技术每个实施例的方法。
88.以上仅为本技术的优选实施例,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
技术特征:
1.一种语音处理方法,其特征在于,所述语音处理方法包括:获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;基于所述评估结果,确定目标声音分区。2.如权利要求1所述的语音处理方法,其特征在于,所述基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果的步骤包括:基于预设的窗长对所述待处理语音信号进行频谱分割的,得到对应的若干帧频谱;通过预设的逐帧卷积模型对所述若干帧频谱进行逐帧卷积,得到所述若干帧频谱各自对应的第一类高维特征;通过预设的时序模型对所述第一类高维特征进行时间依赖性建模,得到所述若干帧频谱各自对应的第二类高维特征;通过预设的池化模型对所述若干帧频谱各自对应的第二类高维特征进行特征聚合,得到聚合特征;根据所述聚合特征分析得到对应的评估结果。3.如权利要求2所述的语音处理方法,其特征在于,所述根据所述聚合特征分析得到对应的评估结果的步骤包括:根据所述聚合特征分析得到对应的评估分值,其中,所述评估分值的类型包括mos值、噪声评估分值、人声评估分值中的至少一种。4.如权利要求3所述的语音处理方法,其特征在于,所述根据所述聚合特征分析得到对应的评估分值的步骤包括:根据所述聚合特征以及预设的语音质量评分标准,分析得到对应的评估分值。5.如权利要求3所述的语音处理方法,其特征在于,所述基于所述评估结果,确定目标声音分区的步骤包括:根据所述评估分值和预设的阈值筛选规则对所述若干个声音分区进行筛选,确定至少一个待选声音分区;根据所述待选声音分区对应的评估分值和预设的分值比较规则进行分值比较,确定所述目标声音分区。6.如权利要求1所述的语音处理方法,其特征在于,所述基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果的步骤之前,还包括:对所述待处理语音信号进行语音活性检测,确定至少一个具备语音活性的声音分区;所述基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果的步骤包括:基于预设的清晰度评估模型对所述具备语音活性的声音分区对应的待处理语音信号进行清晰度评估,得到对应的评估结果。7.如权利要求1所述的语音处理方法,其特征在于,所述基于所述评估结果,确定目标声音分区的步骤之后,还包括:根据所述目标声音分区对预设的音区分配策略进行调整,得到调整后的音区分配策略,其中,所述调整后的音区分配策略用于控制所述目标声音分区对应的语音交互任务。
8.一种语音处理装置,其特征在于,所述语音处理装置包括:获取模块,用于获取若干个声音分区各自对应的待处理语音信号;评估模块,用于基于预设的清晰度评估模型对所述待处理语音信号进行清晰度评估,得到对应的评估结果;确定模块,用于基于所述评估结果,确定目标声音分区。9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音处理程序,所述语音处理程序被所述处理器执行时实现如权利要求1-7中任一项所述的语音处理方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音处理程序,所述语音处理程序被处理器执行时实现如权利要求1-7中任一项所述的语音处理方法的步骤。
技术总结
本申请公开了一种语音处理方法、装置、终端设备及存储介质,其语音处理方法包括:获取若干个声音分区各自对应的待处理语音信号;基于预设的清晰度评估模型对待处理语音信号进行清晰度评估,得到对应的评估结果;基于评估结果,确定目标声音分区。基于本申请方案,可以摆脱对参考语音信号的依赖,并且清晰度评估模型能够适应环境噪声和说话人身姿改变等因素对待处理语音信号造成的动态影响,在此基础上能够准确地确定目标声音分区,有效降低了音区泄露的情况发生。泄露的情况发生。泄露的情况发生。
技术研发人员:刘宗栋
受保护的技术使用者:广州小鹏汽车科技有限公司
技术研发日:2023.06.09
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/