声音处理方法及电子设备与流程

未命名 08-07 阅读:78 评论:0


1.本技术涉及医疗诊断领域,并且更具体地,涉及一种声音处理方法及电子设备。


背景技术:

2.精神障碍指的是大脑机能活动发生紊乱,导致认知、情感、行为和意志等精神活动不同程度障碍的总称。患者的行为习惯、思维方式等都是精神障碍的诊断依据。比如意识模糊、谵妄、记忆和智力障碍等症状,可以发现患者认知、情感、行为和意志等精神活动障碍。但是,由于缺乏对精神障碍的认知,患者及其亲属对精神疾病的诊断和治疗存在偏见,使得患者得不到及时的干预治疗。
3.为了提高精神障碍的诊断便利性,可以采集被测试者执行预设描述任务过程中的语音,并根据该语音,确定声音模态数据和文本模态数据,利用神经网络模型对声音模态数据和文本模态数据进行处理,可以确定被测试者是否患有精神障碍。预设描述任务可以是描述预设图像的内容,或描述周围发生的事件等。根据被测试者的语音,对被测试者是否患有精神障碍进行判断,诊断方式较为简便。
4.但是,该方法的应用受限于被测试者的文化水平和语言表达能力。如果被测试者文化程度和语言表达能力使得被测试者无法以流畅的语言对图像或事件进行描述,则诊断结果可能存在错误。并且,预设描述任务的内容与被测试者的日常生活差距可能较大,使得被测试者在执行预设描述任务过程中存在紧张的情绪,而紧张的情绪对诊断结果的准确度也会产生影响。


技术实现要素:

5.本技术提供了一种声音处理方法及电子设备,能够提高精神障碍疾病的诊断准确度。
6.第一方面,提供一种声音处理方法,该方法包括:获取待处理声音和多个对象中目标对象的目标声纹信息,所述待处理声音包括所述多个对象的语音;根据所述目标声纹信息,确定所述待处理声音中的目标语音,所述目标语音为所述目标对象的声音;根据所述目标语音,确定所述目标对象是否患有精神障碍。
7.本技术的方案,根据待处理声音中目标对象的目标语音,对目标对象是否患有精神障碍进行判断。待处理声音中包括多个对象的语音,即待处理语音记录的内容为多个对象之间交谈,从而使得目标语音的内容更加符合目标对象日常的精神状态,从而提高判断结果的准确度。
8.记录多个对象交谈内容的待处理声音中,多个对象的语音混杂在一起。利用目标声纹信息识别待处理声音中目标对象的目标语音,根据目标语音确定目标对象是否患有精神障碍,提高判断结果的准确度。
9.并且,目标对象是否患有精神障碍的确定,不依赖于对其他目标的语音的处理。对待处理声音中其他目标的语音无需进行后续处理,降低需要处理的数据量,提高了声音处
理的效率。
10.在一些可能的实现方式中,所述方法还包括:利用个性化语音活性检测模型对所述目标声纹信息和所述待处理声音进行处理,以得到语音检测信息,所述语音检测信息表示所述待处理声音中的多个语音段以及每个语音段是否为所述目标对象的语音;根据所述语音检测信息,确定间隔时长,所述间隔时长用于表示所述多个语音段中两个目标语音段之间的时间长度,所述两个目标语音段是所述多个语音段中相邻的语音段,且所述两个目标语音段均为所述目标对象的语音;所述根据所述目标语音,确定所述目标对象是否患有精神障碍,包括:根据所述目标语音和所述间隔时长,确定所述目标对象是否患有精神障碍。
11.目标对象讲话过程中停顿的时间长度与目标对象患有精神障碍的可能性正相关。间隔时长表示目标对象讲话过程中停顿的时间长度。根据目标语音和间隔时长,判断目标对象是否患有精神障碍,而提高判断结果的准确度。
12.在一些可能的实现方式中,所述根据所述目标声纹信息,确定所述待处理声音中的目标语音,包括:利用声纹提取模型,对所述待处理声音中的多个片段声音分别进行声纹提取,以得到每个时间段的声纹信息;计算每个片段声音的声纹信息与所述目标声纹信息之间的相似度;所述目标语音至少一个目标片段声音,所述目标片段声音是所述多个片段声音中使得相似度小于或等于预设相似度的片段声音。
13.在非语音段中,可能也存在目标对象的声音,如目标对象的笑声、叹气声等。这些声音对于目标对象是否患有精神障碍的判断也具重要意义。
14.利用声纹提取模型,对所述待处理声音中的多个片段声音分别进行声纹提取,目标语音包括目标片段声音,目标片段声音是多个片段声音中声纹信息与目标声纹信息之间的相似度小于预设相似度的片段声音。从而,目标语音可以包括目标发出的语音之外的其他声音,使得对于目标对象是否患有精神障碍的判断结果更加准确。
15.在一些可能的实现方式中,所述根据所述目标声纹信息,确定所述待处理声音中的目标语音,包括:根据所述语音检测信息,确定所述目标语音,所述目标语音包括多个候选语音段,所述多个语音段包括所述多个候选语音段,且所述候选语音段为所述目标对象的语音。
16.根据个性化语音活性检测模型输出的语音检测信息,进行间隔时长和目标对象的目标语音的确定,使得声音处理流程更为简便。
17.在一些可能的实现方式中,所述个性化语音活性检测模型是基于训练数据进行训练得到的,所述训练数据包括训练声音、训练对象的训练声纹信息和标签语音检测信息,所述标签语音检测信息表示所述训练声音中的至少一个训练语音段以及每个训练语音段是否为所述训练对象的语音,所述训练包括:利用初始个性化语音活性检测模型对所述训练声音和所述训练声纹信息进行处理,以得到训练语音检测信息;根据所述训练语音检测信息和所述标签语音检测信息之间的差异,调整所述初始个性化语音活性检测模型的参数,以最小化所述差异,所述个性化语音活性检测模型是参数调整后的初始个性化语音活性检测模型。
18.利用端到端训练得到的个性化语音活性检测模型确定间隔时长,间隔时长的确定更为简便,准确度更高。
19.在一些可能的实现方式中,所述根据所述目标语音和所述间隔时长,确定所述目标对象是否患有精神障碍,包括:根据所述间隔时长,确定第一患病概率;根据所述目标语音,确定第二患病概率;根据所述第一患病概率和所述第二患病概率,确定所述目标对象是否患有精神障碍。
20.分别根据间隔时长和目标语音确定第一患病概率和第二患病概率,并根据第一患病概率和第二患病概率确定目标对象是否患有精神障碍,从而第一患病概率和第二患病概率的确定可以采用相同或不同的方式进行,从而对目标对象是否患有精神障碍的确定方式更加灵活。
21.并且,根据目标语音确定第二患病概率的过程,可以复用已有算法,降低声音处理方法的设计成本。
22.在一些可能的实现方式中,所述目标声纹信息是对所述目标对象的声纹指示语音进行声纹识别得到的。
23.目标对象的声纹指示语音指示目标声纹信息,使得目标声纹信息的获取方式更加灵活。目标声纹信息也可以称为声纹注册信息。利用目标声纹信息标识目标对象,可以保护目标对象的隐私,并且使得是否患有精神障碍的确定只针对目标对象进行。
24.在一些可能的实现方式中,所述根据所述目标语音,确定所述目标对象是否患有精神障碍,包括:提取所述目标语音的语义;提取所述语义的语义特征;提取所述目标语音的声音特征;根据所述语义特征和所述声音特征,确定所述目标对象是否患有精神障碍。
25.在确定目标对象是否患有精神障碍的过程中,综合考虑根据目标语音的声音特征和语义特征,提高确定的结果的准确度。
26.在一些可能的实现方式中,所述根据所述语义特征和所述声音特征,确定所述目标对象是否患有精神障碍,包括:利用声音诊断模型,对所述声音特征进行处理,以确定语音患病概率;利用语义诊断模型,对所述语义特征进行处理,以确定语义患病概率,所述声音诊断模型和所述语义诊断模型均为训练得到的神经网络模型;根据所述语音患病概率和所述语义患病概率,确定所述目标对象是否患有精神障碍。
27.一方面,语义特征、声音特征的维度、量纲可能均不同。如果利用诊断模型对语义特征和声音特征进行处理以确定目标对象是否患有精神障碍,处理难度较大。另一方面,诊断模型的输入数据过多,导致诊断模型的训练难度增加。利用语义诊断模型和声音诊断模型分别对语义特征和声音特征进行处理的方式,可以降低确定目标对象是否患有精神障碍的难度,提高对于目标对象是否患有精神障碍的判断结果的准确度。
28.在一些可能的实现方式中,所述确定所述目标对象是否患有精神障碍,包括:判断所述目标对象是否患有阿尔茨海默症。
29.第二方面,提供一种声音处理装置,包括用于执行第一方面中任一种方法的单元。该装置可以是电子设备,也可以是电子设备内的芯片。该装置可以包括获取单元和处理单元。
30.当该装置是电子设备时,该处理单元可以是处理器,该获取单元可以是通信接口;当程序指令在所述处理器中执行时,使得电子设备执行第一方面中的任一种方法。
31.电子设备还可以包括存储器,用于存储程序指令。
32.当该装置是电子设备内的芯片时,该处理单元可以是芯片内部的处理单元,该获
取单元可以是输出接口、管脚或电路等。当该处理器执行程序指令时,使得该芯片执行第一方面中的任一种方法。
33.该芯片还可以包括存储器,该存储器可以是该芯片内的存储器(例如,寄存器、缓存等),也可以是位于该芯片外部的存储器(例如,只读存储器、随机存取存储器等);该存储器用于存储程序指令。
34.示例性地,声音处理装置位于第一电子设备,获取单元用于,获取待处理声音和多个对象中目标对象的目标声纹信息,所述待处理声音包括所述多个对象的语音;处理单元用于,根据所述目标声纹信息,确定所述待处理声音中的目标语音,所述目标语音为所述目标对象的声音;处理单元还用于,根据所述目标语音,确定所述目标对象是否患有精神障碍。
35.第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序代码,当所述计算机程序代码被处理器运行时,使得处理器执行第一方面中的任一种声音处理方法。
36.第四方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被处理器运行时,使得该处理器执行第一方面中的任一种声音处理方法。
附图说明
37.图1是一种适用于本技术的装置的硬件系统的示意图;图2是一种适用于本技术的装置的软件系统的示意图;图3是本技术实施例提供的一种声音处理方法的示意性流程图;图4是本技术实施例提供的一种声音处理系统的示意性结构图;图5是本技术实施例提供的一种神经网络模型的训练方法的示意性流程图;图6是本技术实施例提供的另一种声音处理系统的示意性结构图;图7是本技术实施例提供的声音采集的场景图;图8是本技术实施例提供的声音处理装置的示意性结构图;图9是本技术实施例提供的一种用于声音处理的电子设备的示意性结构图。
具体实施方式
38.由于本技术实施例涉及大量神经网络的应用,为了便于理解,下面先对本技术实施例可能涉及的神经网络的相关术语和概念进行介绍。
39.(1)人工智能人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
40.(2)深度神经网络深度神经网络(deep neural network,dnn),也称为多层神经网络,可以理解为具
有多层隐含层的神经网络。按照不同层的位置对dnn进行划分,dnn内部的神经网络可以分为三类:输入层,隐含层,输出层。一般来说第一层是输入层,最后一层是输出层,中间的层数都是隐含层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
41.(3)损失函数在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断地调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
42.(4)反向传播算法神经网络可以采用误差反向传播(back propagation,bp)算法在训练过程中修正初始的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如,权重矩阵。
43.下面将结合附图,对本技术实施例中的技术方案进行描述。
44.图1示出了一种适用于本技术的电子设备的硬件系统。
45.本技术实施例提供的方法可以应用于手机、平板电脑、可穿戴设备、笔记本电脑、上网本、个人数字助理(personal digital assistant,pda)等各种能够联网通信的电子设备,本技术实施例对电子设备的具体类型不作任何限制。
46.图1示出了电子设备100的结构示意图。电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,usb)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,sim)卡接口195等。其中传感器模块180可以包括压力传感器180a,陀螺仪传感器180b,气压传感器180c,磁传感器180d,加速度传感器180e,距离传感器180f,接近光传感器180g,指纹传感器180h,温度传感器180j,触摸传感器180k,环境光传感器180l,骨传导传感器180m等。
47.可以理解的是,本技术实施例示意的结构并不构成对电子设备100的具体限定。在本技术另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
serial interface,dsi)等。在一些实施例中,处理器110和摄像头193通过csi接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过dsi接口通信,实现电子设备100的显示功能。
57.gpio接口可以通过软件配置。gpio接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,gpio接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。gpio接口还可以被配置为i2c接口,i2s接口,uart接口,mipi接口等。
58.usb接口130是符合usb标准规范的接口,具体可以是mini usb接口,micro usb接口,usb type c接口等。usb接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如ar设备等。
59.可以理解的是,本技术实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本技术另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
60.充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过usb接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
61.电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
62.电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
63.天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
64.移动通信模块150可以提供应用在电子设备100上的包括2g/3g/4g/5g等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,lna)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
65.调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解
调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170a,受话器170b等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
66.无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wireless local area networks,wlan)(如无线保真(wireless fidelity,wi-fi)网络),蓝牙(bluetooth,bt),全球导航卫星系统(global navigation satellite system,gnss),调频(frequency modulation,fm),近距离无线通信技术(near field communication,nfc),红外技术(infrared,ir)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
67.在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,gsm),通用分组无线服务(general packet radio service,gprs),码分多址接入(code division multiple access,cdma),宽带码分多址(wideband code division multiple access,wcdma),时分码分多址(time-division code division multiple access,td-scdma),长期演进(long term evolution,lte),bt,gnss,wlan,nfc ,fm,和/或ir技术等。所述gnss可以包括全球卫星定位系统(global positioning system,gps),全球导航卫星系统(global navigation satellite system,glonass),北斗卫星导航系统(beidou navigation satellite system,bds),准天顶卫星系统(quasi-zenith satellite system,qzss)和/或星基增强系统(satellite based augmentation systems,sbas)。
68.电子设备100通过gpu,显示屏194,以及应用处理器等实现显示功能。gpu为图像处理的微处理器,连接显示屏194和应用处理器。gpu用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个gpu,其执行程序指令以生成或改变显示信息。
69.显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,lcd),有机发光二极管(organic light-emitting diode,oled),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,amoled),柔性发光二极管(flex light-emitting diode,fled),miniled,microled,micro-oled,量子点发光二极管(quantum dot light emitting diodes,qled)等。在一些实施例中,电子设备100可以包括1个或n个显示屏194,n为大于1的正整数。
70.电子设备100可以通过isp,摄像头193,视频编解码器,gpu,显示屏194以及应用处理器等实现拍摄功能。
71.isp 用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给isp处理,转化为肉眼可见的图像。isp还可以对图像的噪点,亮度进行算法优化。isp还可以对拍
摄场景的曝光,色温等参数优化。在一些实施例中,isp可以设置在摄像头193中。
72.摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,ccd)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,cmos)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给isp转换成数字图像信号。isp将数字图像信号输出到dsp加工处理。dsp将数字图像信号转换成标准的rgb,yuv等格式的图像信号。在一些实施例中,电子设备100可以包括1个或n个摄像头193,n为大于1的正整数。
73.数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
74.视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,mpeg)1,mpeg2,mpeg3,mpeg4等。
75.npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
76.外部存储器接口120可以用于连接外部存储卡,例如micro sd卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
77.内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,ufs)等。
78.电子设备100可以通过音频模块170,扬声器170a,受话器170b,麦克风170c,耳机接口170d,以及应用处理器等实现音频功能。例如音乐播放,录音等。
79.音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
80.扬声器170a,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170a收听音乐,或收听免提通话。
81.受话器170b,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170b靠近人耳接听语音。
82.麦克风170c,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170c发声,将声音信号输入到麦克风
170c。电子设备100可以设置至少一个麦克风170c。在另一些实施例中,电子设备100可以设置两个麦克风170c,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170c,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
83.耳机接口170d用于连接有线耳机。耳机接口170d可以是usb接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,omtp)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the usa,ctia)标准接口。
84.压力传感器180a用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180a可以设置于显示屏194。压力传感器180a的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180a,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180a检测所述触摸操作强度。电子设备100也可以根据压力传感器180a的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
85.陀螺仪传感器180b可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180b确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180b可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180b检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180b还可以用于导航,体感游戏场景。
86.气压传感器180c用于测量气压。在一些实施例中,电子设备100通过气压传感器180c测得的气压值计算海拔高度,辅助定位和导航。
87.磁传感器180d包括霍尔传感器。电子设备100可以利用磁传感器180d检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180d检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
88.加速度传感器180e可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
89.距离传感器180f,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180f测距以实现快速对焦。
90.接近光传感器180g可以包括例如发光二极管(led)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180g检测用户手持电子设备100贴
近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180g也可用于皮套模式,口袋模式自动解锁与锁屏。
91.环境光传感器180l用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180l也可用于拍照时自动调节白平衡。环境光传感器180l还可以与接近光传感器180g配合,检测电子设备100是否在口袋里,以防误触。
92.指纹传感器180h用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
93.温度传感器180j用于检测温度。在一些实施例中,电子设备100利用温度传感器180j检测的温度,执行温度处理策略。例如,当温度传感器180j上报的温度超过阈值,电子设备100执行降低位于温度传感器180j附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池142加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池142的输出电压执行升压,以避免低温导致的异常关机。
94.触摸传感器180k,也称“触控面板”。触摸传感器180k可以设置于显示屏194,由触摸传感器180k与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180k用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180k也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
95.骨传导传感器180m可以获取振动信号。在一些实施例中,骨传导传感器180m可以获取人体声部振动骨块的振动信号。骨传导传感器180m也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180m也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180m获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180m获取的血压跳动信号解析心率信息,实现心率检测功能。
96.按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
97.马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
98.指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
99.sim卡接口195用于连接sim卡。sim卡可以通过插入sim卡接口195,或从sim卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或n个sim卡接口,n为大于1的正整数。sim卡接口195可以支持nano sim卡,micro sim卡,sim卡等。同一个sim卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。sim卡接口195也可以兼容不同类型的sim卡。sim卡接口195也可以兼容外部存储卡。电子设备100通过sim
卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用esim,即:嵌入式sim卡。esim卡可以嵌在电子设备100中,不能和电子设备100分离。
100.电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本技术实施例以分层架构的android系统为例,示例性说明电子设备100的软件结构。
101.图2是本技术实施例的电子设备100的软件结构框图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(android runtime)的系统库,以及内核层。应用程序层可以包括一系列应用程序包。
102.如图2所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,wlan,蓝牙,音乐,视频,短信息等应用程序。
103.应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface,api)和编程框架。应用程序框架层包括一些预先定义的函数。
104.如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
105.窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
106.内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
107.视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
108.电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
109.资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
110.通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
111.android runtime包括核心库和虚拟机。android runtime负责安卓系统的调度和管理。
112.核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
113.应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
114.系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库
(media libraries),三维图形处理库(例如:opengl es),2d图形引擎(例如:sgl)等。
115.表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2d和3d图层的融合。
116.媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: mpeg4,h.264,mp3,aac,amr,jpg,png等。
117.三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
118.2d图形引擎是2d绘图的绘图引擎。
119.内核层是硬件和软件之间的层。内核层可以包括显示驱动、摄像头驱动、音频驱动和传感器驱动等驱动模块。
120.精神障碍指的是大脑机能活动发生紊乱,导致认知、情感、行为和意志等精神活动不同程度障碍的总称,包括器质性精神障碍和功能性精神障碍。器质性精神障碍是指由于脑部疾病或躯体疾病引起的精神障碍。器质性精神障碍也被常称为脑器质性精神障碍,包括脑变性疾病、脑血管病、颅内感染、脑外伤、脑肿瘤、癫痫等所致精神障碍。躯体疾病所致精神障碍是由脑以外的躯体疾病引起的,如躯体感染、内脏器官疾病、内分泌障碍等。功能性的精神障碍是相对于器质性精神障碍而言的。临床发现只有少数是器质性原因引起的精神障碍。除此之外,大部分的精神障碍都属于功能性的。
121.为了提高精神障碍的诊断便利性,可以采集被测试者执行预设描述任务过程中的语音,并根据该语音,确定声音模态数据和文本模态数据,利用神经网络模型对声音模态数据和文本模态数据进行处理,可以确定被测试者是否患有精神障碍。预设描述任务可以是描述预设图像的内容,或描述周围发生的事件等。根据被测试者的语音,对被测试者是否患有精神障碍进行判断,诊断方式较为简便。
122.但是,该方法的应用受限于被测试者的文化水平和语言表达能力。如果被测试者文化程度和语言表达能力较低,预设描述任务与受测试者的日常生活差距较大,则被测试者可能无法以较为流畅的语言对图像或事件进行描述,诊断结果可能存在错误。并且,被测试者在执行预设描述任务的过程中,可能存在过度紧张的情绪,从而对诊断结果的准确度也会产生影响。
123.为了解决上述问题,本技术实施例提供一种声音处理方法。下面结合图3至图5对本技术实施例提供的声音处理方法进行详细描述。
124.图3是本技术实施例提供的声音处理方法的示意性流程图。该方法包括步骤s310至步骤s330,下面分别对这些步骤进行详细的描述。该方法可以应用在电子设备中。
125.步骤s310,获取待处理声音和多个对象中目标对象的目标声纹信息,所述待处理声音包括所述多个对象的语音。
126.待处理声音包括多个对象的语音,也就是说,待处理声音可以是在多个对象相互交流或交谈的过程中采集的。
127.待处理声音的采集更加方便和灵活,获取方式更加简便。示例性地,待处理声音的采集可以是在目标对象与精神障碍诊断的专业人员进行沟通的过程中采集的,也可以是在目标对象与其他对象进行日常交流或针对某一话题进行讨论的过程中采集的。
128.在相互交流过程中,交流的内容可以更加灵活和自由,更加贴近目标对象的生活。交流的内容的灵活度提高,一方面可以使得交流的内容更加符合目标对象的认知范围,其
他对象可以对讨论的话题进行引导,使得待处理语音中目标对象能够更加顺利地进行表达,降低对目标对象的文化水平和语言表达能力的限制,提高声音处理结果即目标对象是否患有精神障碍的判断结果的准确度;另一方面,可以缓解待处理声音采集过程中目标对象的紧张情绪,提高声音处理结果的准确度。
129.待处理声音的获取方式,可以是利用麦克风进行声音的采集,也可以是读取存储器中存储的声音,还可以是接受其他电子设备发送的声音。也就是说,获取的待处理声音可以是麦克风采集的声音,也可以是存储器中存储的声音,还可以是其他电子设备发送的声音。
130.声纹,是对语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)所建立的语音模型的总称。
131.人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔等)在尺寸、形态和尺寸方面每个人的差异很大,所以任何两个人的声纹信息都有差异。每个人的声纹信息具有相对的稳定性。
132.在一些实施例中,目标对象的目标声纹信息的获取方式,可以是根据多个候选对象与多个声纹信息的对应关系,确定该多个候选对象中目标对象对应的声纹信息为目标声纹信息。不同的候选对象可以具有不同的身份信息。
133.在另一些实施例中,提取待处理声音中多个声纹信息,不同的声纹信息对应于不同的对象。多个声纹信息可以依次作为目标声纹信息,即多个对象可以依次作为目标对象。
134.在又一些实施例中,获取目标对象的声纹指示语音之后,可以对声纹提示语音进行声纹提取,以得到目标声纹信息。声纹指示语音可以对目标对象的任意语音进行采集得到的。
135.示例性地,在目标对象朗读预设口令时,可以进行声音采集,以得到声纹指示语音。
136.示例性地,待处理声音中的一段声音可以作为声纹指示语音。该段声音可以是用户确定的目标对象的语音。
137.对目标对象的声纹指示语音进行声纹提取,得到目标声纹信息,可以避免对目标对象的身份信息的存储和传输,降低目标对象的身份信息泄露的可能性,保护目标对象的隐私。
138.步骤s320,根据所述目标声纹信息,确定所述待处理声音中的目标语音,所述目标语音为所述目标对象的声音。
139.声纹识别(voiceprint recognition, vpr)是生物识别技术的一种,也称为说话人识别。利用声纹识别技术,可以在待处理声音中,确定符合目标声纹信息的语音为目标对象的目标语音。
140.模板匹配算法、最近邻算法、神经网络算法、隐式马尔可夫模型(hidden markov model,hmm)算法、向量量化(vector quantization,vq)聚类算法、多项式分类器算法、多项式分类器算法等,可以用于进行声纹识别。
141.步骤s330,根据所述目标语音,确定所述目标对象是否患有精神障碍。
142.在识别出目标对象的目标语音后,对待处理声音中其他目标的语音无需进行后续处理,降低需要处理的数据量,提高声音处理效率。
143.在s330之前,可以利用语音活性检测模型(voice activity detection,vad)模型对待处理声音进行处理,以得到待处理声音中的多个语音段。利用目标对象的目标声纹信息,可以在该多个语音段中确定哪些语音段是目标对象的语音,哪些不是目标对象的语音。
144.根据对该多个语音段是否为目标对象的语音的判断结果,可以确定间隔时长,间隔时长用于表示所述多个语音段中两个目标语音段之间的时间长度。两个目标语音段是待处理声音中相邻的语音段且均为目标对象的语音。
145.或者,在s330之前,可以利用个性化vad模型对目标声纹信息和待处理声音进行处理,以得到语音检测信息。语音检测信息表示待处理声音中的多个语音段以及每个语音段是否为目标对象的语音。
146.之后,可以根据语音检测信息,确定间隔时长。间隔时长用于表示所述多个语音段中两个目标语音段之间的时间长度。该两个目标语音段是该多个语音段中两个相邻的语音段,且该两个目标语音段均为目标对象的语音。
147.从而,在s330,可以根据目标语音和间隔时长,确定目标对象是否患有精神障碍。
148.患有精神障碍的人在说话过程中经常会出现说话不连贯的情况。并且,一个人患有精神障碍的可能性与他(或她)说话过程中停顿或间隔的时间长度成正比。因此,在判断目标对象是否患有精神障碍的过程中,综合考虑目标对象在于其他对象交谈过程中停顿的时间长度的因素,使得判断结果更加准确。
149.待处理声音中可能存在多个组,每组包括两个目标语音段。间隔时长可以是多个单次间隔时长的代表值。每个单次间隔时长用于表示该单次间隔时长对应的组中两个目标语音段之间的时间长度。
150.也就是说,间隔时长可以表示该多个单次间隔时长的数据集中趋势。从而,根据间隔时长判断目标对象是否患有精神障碍,可以降低误差的对判断结果的影响,提高判断结果的准确度。
151.个性化vad模型可以是训练得到的神经网络模型。利用个性化vad模型以得到语音检测信息,并根据语音检测信息确定间隔时长,使得间隔时长的确定方式更为简便,确定的间隔时长更加准确。
152.在利用个性化vad模型确定间隔时长的情况下,在s330,可以根据所述间隔时长确定第一患病概率,根据目标语音确定第二患病概率,从而根据第一患病概率和第二患病概率,可以确定目标对象是否患有精神障碍。
153.间隔时长与第一患病概率正相关。
154.在一些实施例中,目标语音可以是利用声纹提取模型,确定的待处理声音中与目标声纹信息相符的部分。
155.也就是说,在s320,可以对待处理声音中的多个片段声音分别进行声纹提取,以得到每个时间段的声纹信息。之后,可以计算每个片段声音的声纹信息与目标声纹信息之间的相似度。目标语音可以包括至少一个目标片段声音,目标片段声音是待处理声音中的多个片段声音中相似度小于或等于预设相似度的片段声音。
156.声纹提取可以采用模板匹配算法、最近邻算法、神经网络算法、隐式马尔可夫模型(hidden markov model,hmm)算法、向量量化(vector quantization,vq)聚类算法、多项式分类器算法、多项式分类器算法等中的一个或多个算法实现。
157.在待处理声音的非语音段中,可能也存在目标对象发出的声音,如目标对象的笑声、叹气声等。目标对象发出的除语音之外的其他声音对于目标对象是否患有精神障碍的判断也具重要意义。
158.对所述待处理声音中的多个片段声音分别进行声纹提取,目标语音包括目标片段声音,目标片段声音是多个片段声音中声纹信息与目标声纹信息之间的相似度小于预设相似度的片段声音。也就是说,目标语音除了包括目标对象的语音,还可以包括目标对象发出的其他声音。从而,根据目标语音判断目标对象是否患有精神障碍,使得判断结果更加准确。
159.在另一些实施例中,目标语音可以根据语音检测信息确定。目标语音包括多个候选语音段,该多个语音段包括该多个候选语音段,并且,根据语音检测信息,该多个候选语音段均为目标对象的语音。
160.根据个性化语音活性检测模型输出的语音检测信息,进行间隔时长和目标对象的目标语音的确定,使得声音处理流程更为简便。无需为目标语音的确定另外设置其他算法,简化声音处理流程。
161.第二患病概率可以根据目标语音的语义特征和/或声音特征确定。
162.对第一患病概率和第二患病概率可以进行加权求和,根据加权求和的计算结果,可以确定目标对象是否患有精神障碍。第一患病概率的权重和第二患病概率的权重可以是预设的。
163.综合考虑目标对象说话过程中停顿的时长,目标对象在说话过程中的情感、发音习惯、语气等语音特点,以及目标对象表述的逻辑性,对目标对象是否患有精神障碍进行判断,可以使得判断结果更加准确。
164.示例性地,在s330,可以根据目标语音,确定语义特征和/或声音特征,并根据语义特征和/或声音特征,确定目标对象是否患有精神障碍。
165.在一些实施例中,进行s330的过程中,可以提取目标语音的声音特征,并根据声音特征,确定所述目标对象是否患有精神障碍。
166.目标语音的声音特征可以表示目标对象在说话过程中的情感、发音习惯、语气等。
167.声音特征可以包括声学特征。声学特征表示语音声学特性的物理量,也是声音诸要素声学表现的统称。
168.声音特征包括如表示音色的能量集中区、共振峰频率、共振峰强度和带宽,以及表示语音韵律特性的时长、基频、平均语声功率、过滤器组(filter banks,f-bank)特征、log-mel谱、感觉加权线性预测(perceptual linear predict,plp)特征、梅尔频率倒谱系数(mel-frequency cepstral coefficient,mfcc)等中的一个或多个。
169.梅尔频率倒谱系数就是组成梅尔频率倒谱的系数。梅尔频率倒谱是基于声音频率的非线性梅尔刻度(mel scale)的对数能量频谱的线性变换。梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。声音特征包括梅尔频率倒谱系数,根据声音特征确定的目标对象是否患有精神障碍的判断结果更加准确。
170.声音特征也可以包括利用声音特征提取模型对目标语音进行特征提取得到的声音嵌入特征。声音特征提取模型可以训练得到的神经网络模型。声音特征提取模型可以包
括自动语音识别(automatic speech recognition,asr)模型中的输入层和输入层之后预设数量的层。也就是说,声音嵌入特征可以理解为asr模型的中间层的输出。
171.声音嵌入特征可以用于表示目标语音的发音习惯、语气、情感等中一个或多个信息。
172.asr模型用于将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。asr模型可以是训练得到的神经网络模型。
173.声音特征可以表示目标对象讲话过程中的发音习惯、情感、语气等多种信息。根据声音特征对目标对象是否患有精神障碍进行判断,使得判断结果更加准确。
174.在另一些实施例中,进行s330的过程中,可以识别目标语音的语义,提取所述语义的语义特征,并根据所述语义特征,确定所述目标对象是否患有精神障碍。
175.基于随机模型法、神经网络模型或概率语法分析,可以对语音进行语音识别,以得到语义。
176.语音是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语音识别(auto speech recognition)的主要任务是完成语音到文字的转变。语音是人类社会中最自然流畅、最方便快捷的信息交流方式。当把语音文字转化为文字,就得到语音信号中的文字内容,或者更准确的说,得到文本信息表示的语义,从而实现人机交互。
177.语义特征可以包括词嵌入(word2vector)、词频-逆向文档频率(term frequency

inverse document frequency,tf-idf)等算法得到的文本特征,也可以包括利用语义特征提取模型对语义进行处理得到的语义嵌入特征。
178.文本特征可以表示目标语音的语义中词汇的重复次数、无意义词汇的数量、多种词性的词汇数量、词汇相似度等。
179.语义特征提取模型可以包括大型语言模型(large language model,llm)中的输入层和输入层之后预设数量的层。也就是说,语义嵌入特征可以理解为llm模型的中间层的输出。
180.语义特征可以表示目标对象的目标语义的逻辑性。根据目标对象表达的逻辑性对目标对象是否患有精神障碍进行判断,使得判断结果更加准确。
181.在又一些实施例中,在进行s330的过程中,可以根据目标语音的声音特征和语义特征,确定目标对象是否患有精神障碍。
182.示例性地,根据目标语音的声音特征,可以确定语音患病概率。根据目标语音的语义特征,可以确定语义患病概率。第二患病概率可以包括语音患病概率和语义患病概率。在对第一患病概率和第二患病概率进行加权求和以确定目标对象是否患有精神障碍时,在加权求和的计算结果大于或等于预设阈值的情况下,可以确定目标对象患有精神障碍。语音患病概率和语义患病概率的权重可以相同或不同。
183.利用语义诊断模型对目标语音的语义特征进行处理,可以得到语义患病概率。利用声音诊断模型对目标语音的声音特征进行处理,可以得到语音患病概率。根据语义患病概率和语音患病概率,可以确定第二患病概率。语音诊断模型和声音诊断模型可以均为训练得到的神经网络模型。
184.或者,利用诊断模型对目标语音的语义特征和声音特征进行处理,可以得到第二患病概率。诊断模型可以是训练得到的神经网络模型。
185.根据第一患病概率和第二患病概率,可以确定目标对象是否患有精神障碍。
186.又或者,利用诊断模型对目标语音的语义特征和声音特征,以及待处理声音的间隔时长进行处理,可以确定目标对象是否患有精神障碍。
187.一方面,语义特征、声音特征、间隔时长的维度可能均不同。利用诊断模型对不同维度的多个数据进行处理,处理难度较高。另一方面,诊断模型的输入数据过多,导致诊断模型的训练难度增加。
188.利用语义诊断模型和声音诊断模型分别对语义特征和声音特征进行处理的方式,可以降低确定目标对象是否患有精神障碍的难度。
189.在s330,根据目标语音和间隔时长,确定目标对象是否患有精神障碍的过程中,也可以提高对目标对象是否患有精神障碍的判断结果的准确度。
190.通过s310至s330,根据待处理声音中目标对象的目标语音,对目标对象是否患有精神障碍进行判断。待处理声音中包括多个对象的语音,即待处理语音记录的内容为多个对象之间交谈,从而使得目标语音的内容更加符合目标对象日常的精神状态,从而提高判断结果的准确度。
191.不同疾病导致的精神障碍的症状可能是不同的。本技术实施例提供的语音处理方法可以是针对某一类疾病设置的。
192.一些疾病引起的精神障碍可能是使得患者记忆力衰退,注意力不集中。对于这些疾病的判断,利用本技术实施例的声音处理方法进行判断的过程中,根据时长间隔确定的第一患病概率可以对应于较高的权重。
193.另一些疾病引起的精神障碍可能是使得患者分析、思考、判断的能力减弱,对于这些疾病的判断,利用本技术实施例的声音处理方法进行判断的过程中,根据目标语音的语义特征确定的语义患病概率可以对应于较高的权重。
194.还有一些疾病引起的精神障碍可能是对患者的心情、情感等产生影响,对于这些疾病的判断,利用本技术实施例的声音处理方法进行判断的过程中,根据目标语音的声音特征确定的语音患病概率可以对应于较高的权重。
195.示例性地,本技术实施例提供的方法可以适用于对阿尔茨海默症的诊断。阿尔茨海默症可能导致患者出现认知、分析、思考、判断的能力减弱,感情淡漠,记忆力衰减、注意力不集中等症状。这些症状对于患者表达的逻辑性等语义特点,情感、发音习惯、语气等语音特点,以及讲话的连贯性都会产生影响。因此,利用本技术的声音处理方法对目标对象是否患有阿尔茨海默症进行判断,准确度较高。
196.步骤s310至s330中使用的神经网络模型具体可以参见图4的说明。各个神经网络模型的训练方法,可以参见图5的说明。
197.图4是一种声音处理系统的示意性结构图。
198.声音处理系统400包括个性化vad模型410、声音特征提取模型420、声音诊断模型430、语义提取模型440、语义特征提取模型450、语义诊断模型460、声纹提取模型480。系统400中的多个模型可以均为训练得到的神经网络模型。
199.对于不同的神经网络模型,训练过程中所使用的训练数据可以是不同的。图5示出了一种神经网络模型的训练方法。该方法包括s510至s530。
200.在步骤s510,获取训练数据,训练数据包括训练样本和样本标签。
201.在步骤s520,利用初始神经网络模型对训练样本进行处理,以得到训练标签。
202.在步骤s530,根据样本标签与训练标签之间的差异,调整初始神经网络模型的参数,以得到训练后的神经网络模型。
203.训练神经网络模型的过程中,可以进行多次迭代。每次迭代可以包括s520至s530。在样本标签与训练标签之间的差异小于预设阈值或该差异逐渐收敛的情况下,可以停止迭代,得到训练后的神经网络模型。
204.样本标签与训练标签之间的差异可以是利用损失函数对样本标签与训练标签进行计算得到的损失值。对初始神经网络模型的参数的调整,可以基于误差反向传播算法进行的。
205.神经网络模型训练过程中训练样本的数量可以是多个,训练数据包括每个训练样本对应的样本标签。s520中得到的差异是根据训练样本对应的训练标签和训练样本对应的样本标签确定的。
206.对于个性化vad模型410,初始神经网络模型可以称为初始个性化vad模型,训练样本可以是第一训练声音和第一训练对象的训练声纹信息,样本标签可以是标签语音检测信息,标签语音检测信息表示第一训练声音中的至少一个训练语音段以及每个训练语音段是否为第一训练对象的语音,训练标签是初始个性化vad模型对第一训练声音和第一训练对象的训练声纹信息进行处理得到的,个性化vad模型410可以是参数调整后的初始个性化vad模型。
207.第一训练声音可以划分为多个训练帧,初始个性化vad模型可以对训练声纹信息和每个训练帧进行处理,以确定该训练帧是否为语音,以及该训练帧是否为第一训练对象的语音。初始个性化vad模型的输出可以包括三个类别的概率,其中,一个类别表示训练帧为非语音,另一个类别表示训练帧为目标对象的语音,再一个类别表示训练帧为其他对象的语音。三个类别中,概率最大的类别可以作为该训练帧对应的训练类别。因此,样本标签与训练标签之间的差异,可以表示为第一训练声音中每个训练帧的类别与样本标签指示的该训练帧的类别之间的差异。
208.个性化vad模型410用于对待处理声音和目标对象的目标声纹信息进行处理,以得到语音检测信息,语音检测信息表示待处理声音中的多个语音段以及每个语音段是否为目标对象的语音。
209.待处理声音可以是在目标对象与其他对象交谈的过程中利用电子设备采集的。
210.图7示出了电子设备的一种图形用户界面(graphical user interface,gui),该gui可以称为录音机界面710。当电子设备检测到用户点击录音机界面710上的开始录音图标711的操作后,可以开始采集待处理声音。用户点击录音机界面710上的开始录音图标711的操作,可以是在目标对象720与其他对象730交谈的过程进行的。
211.待处理声音可以划分为多个帧。语音检测信息可以表示个性化vad模型410对目标声纹信息和每个帧进行处理得到的该帧对应的类别,该帧对应的类别是个性化vad模型410输出的三个类别中的概率中最大概率所属的类别,个性化vad模型410输出的三个类别分别表示该帧为非语音,该帧是目标对象的语音,该帧是其他对象的语音。
212.根据语音检测信息,系统400可以确定间隔时长,间隔时长表示两个目标语音段之间的时间长度,该两个目标语音段是语音检测信息表示的多个语音段中相邻的语音段,并
且该两个目标语音段均为所述目标对象的语音。
213.应当理解,待处理声音中可能存在多个组,每组包括两个目标语音段。间隔时长可以是多个单次间隔时长的代表值。每个单次间隔时长用于表示该单次间隔时长对应的组中两个目标语音段之间的时间长度。
214.系统400根据间隔时长,可以确定第一患病概率。第一患病概率可以理解为根据间隔时长确定的目标对象患有精神障碍的概率。第一患病概率与间隔时长正相关。示例性地,系统400可以根据多个时长与多个患病概率的对应关系,确定间隔时长对应的患病概率为第一患病概率。
215.系统400可以用于对待处理声音进行划分,以得到多个片段声音。该多个片段声音的时间长度可以相等或不相等。
216.声纹提取模型480用于对多个片段声音分别进行声纹提取,以得到每个片段声音的声纹信息。系统400可以将该多个片段声音的声纹信息分别与目标声纹信息进行比较,以确定目标声音。目标声音包括至少一个目标片段声音,目标片段声音是该多个片段声音中声纹信息与目标声纹信息的差异小于或等于预设阈值的片段声音。
217.每个片段声音的声纹信息分别与目标声纹信息的差异,可以表示为该声纹信息与目标声纹信息之间的相似度或距离。声纹信息与目标声纹信息均可以表示为向量。余弦(cos)函数可以用于表示向量之间的距离。
218.对于声纹提取模型480,初始神经网络模型可以称为初始对象识别模型。训练样本可以是第五训练对象的训练声音片段。样本标签可以是标注对象,标注对象用于标识第五训练对象。训练标签是初始对象识别模型对第五训练对象的训练声音片段进行对象识别得到的训练识别对象。声纹提取模型480可以包括参数调整后的初始语义提取模型的输入层和输入层之后预设数量的层。也就是说,声纹提取模型480的输出可以理解为语义提取模型440的中间层的输出。
219.应当理解,第五训练对象的数量的增加,可以提高声纹提取模型480提取的声纹信息的准确度。第五训练对象的训练声音片段可以均为第五训练对象的语音。或者,一些第五训练对象的训练声音片段可以记录有第五训练对象的语音,另一些第五训练对象的训练声音片段可以记录有第五训练对象的除语音之外的其他声音。
220.语义提取模型440用于对目标语音进行语义提取,以得到目标语音的语义。
221.对于语义提取模型440,初始神经网络模型可以称为初始语义提取模型,训练样本可以是训练语音,样本标签可以是标签语义,标签语义是训练语音的语义。训练标签是初始语义提取模型对训练语音进行语义提取得到的训练识别语义,语义提取模型440是参数调整后的初始语义提取模型。语义提取模型440可以是asr模型。
222.语义特征提取模型450用于对目标语音的语义进行特征提取,以得到语义嵌入特征。
223.对于语义特征提取模型450,初始神经网络模型可以称为初始文本分类模型,训练样本可以是第一训练文本,样本标签可以是标签类别,标签类别指示第一训练文本所属的类别。训练标签是初始文本分类模型对第一训练文本进行处理得到的,语义特征提取模型450包括参数调整后的初始文本分类模型的输入层以及输入层之后预设数量的层。初始文本分类模型可以是llm模型。
224.语义特征提取模型450对目标语音的语义进行特征提取,得到的语义嵌入特征可以是参数调整后的初始文本分类模型的中间层的输出,或者,也可以是对参数调整后的初始文本分类模型的多个中间层的输出进行融合得到的。
225.系统400可以利用word2vector、tf-idf等算法对目标语音的语义进行文本特征提取,得到文本特征。
226.语义诊断模型460用于对文本特征和语义嵌入特征进行处理,以得到语义患病概率。
227.应当理解,文本特征和语义嵌入特征均可以表示为向量。语义诊断模型460对文本特征和语义嵌入特征的处理,可以是对文本特征和语义嵌入特征进行拼接得到的向量进行处理。
228.对于语义诊断模型460,初始神经网络模型可以称为初始语义诊断模型。训练样本可以包括第一训练文本特征和第一训练语义嵌入特征。
229.第一训练文本特征可以是word2vector、tf-idf等算法对第二训练文本进行文本特征提取得到的。系统400中设置有word2vector、tf-idf等算法。第一训练语义嵌入特征可以是语义特征提取模型450对第二训练文本进行处理得到的。第二训练文本可以是语义提取模型440对第二训练对象的语音进行语义提取得到的。样本标签可以是标签语义诊断结果,标签语义诊断结果用于表示第二训练对象是否患有精神障碍。训练标签为初初始语义诊断模型对训练样本进行处理得到的。语义诊断模型460可以是参数调整后的初始语义诊断模型。
230.样本标签可以表示为“0”或“1”。例如,样本标签为0可以表示第二训练对象没有患精神障碍,样本标签为1可以表示第二训练对象患有精神障碍。训练标签可以表示为从0到1的数值。训练标签可以理解为第二训练对象患精神障碍的概率。因此,将目标语音的语义嵌入特征和文本特征输入训练得到的语义诊断模型460,语义诊断模型460的输出即语义患病概率可以表示目标对象患有精神障碍的概率。
231.在一些实施例中,语义诊断模型460可以用于对文本特征进行处理,以得到语义患病概率。那么在语义诊断模型460的训练过程中,使用的训练样本可以仅包括第一训练文本特征。
232.类似地,如果语义诊断模型460用于语义嵌入特征进行处理,以得到语义患病概率,则在语义诊断模型460的训练过程中,使用的训练样本可以仅包括第一训练语义嵌入特征。
233.声音特征提取模型420用于对目标语音进行处理,以得到声音嵌入特征。
234.声音特征提取模型420可以包括语义提取模型440的输入层和输入层之后预设数量的层。也就是说,声音特征提取模型420输出的声音嵌入特征可以理解为语义提取模型440的中间层的输出。
235.系统400可以对目标语音进行声学特征提取,得到目标语音的声学特征。
236.声音诊断模型430用于对声学特征和声音嵌入特征进行处理,以得到语音患病概率。
237.应当理解,声学特征和声音嵌入特征均可以表示为向量。声音诊断模型430对声学特征和声音嵌入特征的处理,可以是对声学特征和声音嵌入特征进行拼接得到的向量进行
处理。
238.对于声音诊断模型430,初始神经网络模型可以称为初始声音诊断模型。训练样本可以包括第一训练声学特征和第一训练声音嵌入特征。第一训练声学特征可以是对第三训练对象的语音进行声学特征提取得到的。第一训练声音嵌入特征可以是声音特征提取模型420对第三训练对象的语音进行处理得到的。训练标签为初始声音诊断模型对第一训练声学特征和第一训练声音嵌入特征进行处理得到的。
239.样本标签可以是标签语音诊断结果,标签语音诊断结果用于表示第三训练对象是否患有精神障碍。声音诊断模型430可以是参数调整后的初始声音诊断模型。
240.样本标签可以表示为“0”或“1”。例如,样本标签为0可以表示第三训练对象没有患精神障碍,样本标签为1可以表示第三训练对象患有精神障碍。训练标签可以表示为从0到1的数值。训练标签可以理解为第三训练对象患精神障碍的概率。因此,将目标语音的声音嵌入特征和声学特征输入训练得到的声音诊断模型430,声音诊断模型430的输出即语音患病概率可以表示目标对象患有精神障碍的概率。
241.在一些实施例中,声音诊断模型430可以用于对声学特征进行处理,以得到语音患病概率。那么在声音诊断模型430的训练过程中,使用的训练样本可以仅包括第一训练声学特征。
242.类似地,如果语义诊断模型460用于语义嵌入特征进行处理,以得到语音患病概率,则在声音诊断模型430的训练过程中,使用的训练样本可以仅包括第一训练声音嵌入特征。
243.系统400根据语义患病概率、语音患病概率和第一患病概率,可以确定目标对象是否患有精神障碍。
244.示例性地,系统400可以根据语义患病概率、语音患病概率和第一患病概率的代表值,确定目标对象是否患有精神障碍。该代表值可以是最大值、最小值或加权累加计算结果。在该代表值大于或等于预设阈值的情况下,系统400可以确定目标对象患有精神障碍;反之,在该代表值小于预设阈值的情况下,系统400可以确定目标对象没有患精神障碍。在权重为1的情况下,加权累加计算结果即为平均值。
245.或者,系统400也可以根据语义患病概率、语音患病概率和第一患病概率各自的正常范围,确定目标对象是否患有精神障碍。在其中预设数量的概率超过该概率的正常范围的情况下,系统400可以确定目标对象是否患有精神障碍。
246.在一些实施例中,系统400中可以设置诊断模型470,诊断模型470可以用于对文本特征、语义嵌入特征、声音嵌入特征、声学特征和间隔时长进行处理,以确定目标对象是否患有精神障碍。
247.如图6所示,系统400中可以不再设置声音诊断模型430和语义诊断模型460,也可以不再设置声纹提取模型480。
248.语音检测信息表示待处理声音中目标对象的目标语音。目标对象的目标语音包括待处理声音中目标对象全部的语音,即目标语音包括待处理声音中语音检测信息表示的类别为目标对象的语音的多个语音段。从而,语义提取模型440、声音特征提取模型420可以对目标语音进行处理。
249.对于诊断模型470,初始神经网络模型可以称为初始诊断模型。训练样本可以包括
第二训练声学特征、第二训练声音嵌入特征、第二训练语义嵌入特征、第二训练文本特征和训练间隔时长。
250.训练间隔时长用于表示第四训练对象的语音中间断时间长度。训练间隔时长可以是根据输出语音检测信息得到的。输出语音检测信息可以是个性化vad模型410对第二训练声音和第四训练对象的声纹信息进行处理得到的。输出语音检测信息表示第二训练声音中的至少一个语音段以及每个语音段是否为第四训练对象的语音。根据输出语音检测信息,可以确定第二训练声音中第四训练对象的语音。
251.第二训练声学特征可以是系统400对第四训练对象的语音进行声学特征提取得到的。第二训练声音嵌入特征可以是声音特征提取模型420对第四训练对象的语音进行处理得到的。
252.第二训练文本特征可以是word2vector、tf-idf等算法对第三训练文本进行文本特征提取得到的。第二训练语义嵌入特征可以是语义特征提取模型450对第三训练文本进行处理得到的。第三训练文本可以是语义提取模型440对第四训练对象的语音进行语义提取得到的。
253.样本标签可以是标签诊断结果,标签诊断结果用于表示第四训练对象是否患有精神障碍。训练标签为初始诊断模型对训练样本进行处理得到的。诊断模型470可以是参数调整后的初始诊断模型。
254.在另一些实施例中,诊断模型470可以用于对文本特征、语义嵌入特征、声音嵌入特征和声学特征进行处理,以确定第二患病概率。
255.这种情况下,诊断模型470的训练样本可以包括第二训练声学特征、第二训练声音嵌入特征、第二训练语义嵌入特征和第二训练文本特征。训练样本是根据第四训练对象的语音得到的。样本标签可以是标签诊断结果,标签诊断结果用于表示第四训练对象是否患有精神障碍。
256.样本标签可以表示为“0”或“1”。例如,样本标签为0可以表示第四训练对象没有患精神障碍,样本标签为1可以表示第四训练对象患有精神障碍。训练标签可以表示为从0到1的数值。因此,将目标语音的文本特征、语义嵌入特征、声音嵌入特征和声学特征输入训练得到的诊断模型470,诊断模型470的输出即第二患病概率可以表示根据目标语音和目标语音的语义确定的目标对象患有精神障碍的概率。
257.系统400可以根据间隔时长确定第一患病概率,并根据第一患病概率和第二患病概率,确定目标对象患有精神障碍。
258.在诊断模型470的训练过程中,训练样本中数据的类型较多,即输入初始诊断模型的信息较多,使得训练过程中差异逐渐收敛的难度较大,即诊断模型470的训练较为困难。另外,训练样本不同数据的数据量、数据格式和量纲可能存在差异,导致训练得到的诊断模型470的准确度可能较低。
259.应当理解,系统400可以是针对某种类型精神障碍的疾病设置的。在训练系统400中的诊断模型470的过程中,使用的标签诊断结果可以用于指示第四训练对象是否患有该种类型的精神障碍。或者,在训练系统400中的语义诊断模型460和声音诊断模型430过程中,使用的标签语音诊断结果可以用于表示第三训练对象是否患有该种类型的精神障碍,标签语义诊断结果可以用于指示第二训练对象是否患有该种类型的精神障碍。从而,利用
系统400可以确定目标对象是否患有该种类型的精神障碍。该种类型的精神障碍可以是阿尔茨海默症或抑郁症等。
260.示例性地,声纹识别模型480还可以用于对目标对象的声纹指示语音进行声纹识别,以得到目标对象的目标声纹信息。
261.系统400可以设置在终端。终端可以用于进行待处理声音和声纹指示语音。终端可以对声纹指示语音进行声纹识提取,以得到目标声纹信息。终端可以利用系统400对待处理声音和目标对象的目标声纹信息进行处理,可以确定目标对象是否患有精神障碍。该终端可以是图1所示的电子设备。
262.或者,系统400也可以设置在服务器。终端可以用于获取待处理声音和声纹指示语音。终端可以向服务器发送待处理声音和声纹指示语音,从而服务器可以利用系统400对待处理声音和声纹指示语音进行处理以确定目标对象是否患有精神障碍。或者,终端可以对声纹指示语音进行声纹识提取以得到目标声纹信息,并向服务器发送待处理声音和目标声纹信息,以使得服务器利用系统400对待处理声音和目标声纹信息进行处理,从而确定目标对象是否患有精神障碍。
263.利用系统400,对待处理声音和目标对象的声纹信息进行处理,可以确定目标对象是否患有精神障碍。待处理声音中可以包括多个对象的语音,即待处理声音可以是目标对象与其他对象的交谈。
264.以阿尔茨海默症为例,阿尔茨海默症的诊断需要根据患者的临床表现进行初步诊断。阿尔茨海默症的临床表现包括认知功能障碍、记忆力减退、计算力下降、失语、动作行为能力异常、逻辑混乱等。影像学检查、脑脊液检查、神经心理测试、脑电图等检查可以用于阿尔茨海默症的诊断。这些检查需要在专业医院或检查机构进行,费用较高,流程复杂。
265.利用系统400对目标对象是否患有阿尔茨海默症进行判断,只需要利用电子设备在目标对象与其他对象交谈的过程中采集待处理声音,并获取目标对象的目标声纹信息。之后,利用针对阿尔茨海默症设置的系统400对待处理声音和目标声纹信息,即可确定目标对象是否患有阿尔茨海默症。
266.根据目标对象与其他对象的交谈对目标对象是否患有精神障碍进行判断,降低了对目标对象文化程度和语音表达能力的限制,适用人群更加广泛。
267.根据目标对象与其他对象的交谈,对目标对象的精神健康进行评估,判断目标对象是否患有精神障碍,评估和诊断所依赖的待处理声音中,交谈的内容可以由多个对象自主确定,内容可以更加贴近目标对象的日常生活,使得目标对象在待处理声音采集的过程中精神状态更加自然,从而对目标对象是否患有精神障碍的诊断结果更加准确。
268.应理解,上述举例说明是为了帮助本领域技术人员理解本技术实施例,而非要将本技术实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本技术实施例的范围内。
269.上文结合图1至图7详细描述了本技术实施例的声音处理方法,下面将结合图8和图9,详细描述本技术的装置实施例。应理解,本技术实施例中的声音处理装置可以执行前述本技术实施例的各种声音处理方法,即以下各种产品的具体工作过程,可以参考前述方法实施例中的对应过程。
270.图8是本技术实施例提供的声音处理装置的示意型结构图。
271.应理解,声音处理装置800可以执行图3所示的声音处理方法。声音处理装置800包括获取单元810和处理单元820。
272.获取单元810用于获取待处理声音和多个对象中目标对象的目标声纹信息,所述待处理声音包括所述多个对象的声音。
273.处理单元820用于,根据所述目标声纹信息,确定所述待处理声音中的目标语音,所述目标语音为所述目标对象的语音。
274.处理单元820还用于,根据所述目标语音,确定所述目标对象是否患有精神障碍。
275.可选地,处理单元820还用于,利用个性化语音活性检测模型对所述目标声纹信息和所述待处理声音进行处理,以得到语音检测信息,所述语音检测信息表示所述待处理声音中的多个语音段以及每个语音段是否为所述目标对象的语音。
276.处理单元820还用于,根据所述语音检测信息,确定间隔时长,所述间隔时长用于表示所述多个语音段中两个目标语音段之间的时间长度,所述两个目标语音段是所述多个语音段中相邻的语音段,且所述两个目标语音段均为所述目标对象的语音。
277.处理单元820还用于,根据所述目标语音和所述间隔时长,确定所述目标对象是否患有精神障碍。
278.可选地,处理单元820具体用于,根据所述语音检测信息,确定所述目标语音,所述目标语音包括多个候选语音段,所述多个语音段包括所述多个候选语音段,且所述多个候选语音段均为所述目标对象的语音。
279.可选地,处理单元820具体用于:对所述待处理声音中的多个片段声音分别进行声纹提取,以得到每个片段声音的声纹信息;确定每个片段声音的声纹信息与所述目标声纹信息之间的差异;所述目标语音包括至少一个目标片段声音,所述目标片段声音是所述多个片段声音中所述差异小于或等于预设阈值的片段声音。
280.可选地,所述个性化语音活性检测模型是基于训练数据进行训练得到的,所述训练数据包括训练声音、训练对象的训练声纹信息和标签语音检测信息,所述标签语音检测信息表示所述训练声音中的至少一个训练语音段以及每个训练语音段是否为所述训练对象的语音。
281.训练包括:利用初始个性化语音活性检测模型对所述训练声音和所述训练声纹信息进行处理,以得到训练语音检测信息;根据所述训练语音检测信息和所述标签语音检测信息之间的差异,调整所述初始个性化语音活性检测模型的参数,以最小化所述差异,所述个性化语音活性检测模型是参数调整后的初始个性化语音活性检测模型。
282.可选地,处理单元820具体用于:根据所述间隔时长,确定第一患病概率。根据所述目标语音,确定第二患病概率;根据所述第一患病概率和所述第二患病概率,确定所述目标对象是否患有精神障碍。
283.可选地,所述目标声纹信息是对所述目标对象的声纹指示语音进行声纹识别得到的。
284.可选地,处理单元820具体用于:提取所述目标语音的语义;提取所述语义的语义特征;提取所述目标语音的声音特征;根据所述语义特征和所述声音特征,确定所述目标对象是否患有精神障碍。
285.可选地,处理单元820具体用于:利用声音诊断模型,对所述声音特征进行处理,以确定语音患病概率;利用语义诊断模型,对所述语义特征进行处理,以确定语义患病概率,所述声音诊断模型和所述语义诊断模型均为训练得到的神经网络模型;根据所述语音患病概率和所述语义患病概率,确定所述目标对象是否患有精神障碍。
286.可选地,所述确定所述目标对象是否患有精神障碍,包括:判断所述目标对象是否患有阿尔茨海默症。
287.需要说明的是,上述声音处理装置800以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
288.例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,asic)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
289.因此,在本技术的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
290.图9示出了本技术提供的一种电子设备的结构示意图。图9中的虚线表示该单元或该模块为可选的。电子设备900可用于实现上述方法实施例中描述的声音处理方法。
291.图9是本技术实施例提供的一种电子设备的示意性结构图。
292.电子设备900包括一个或多个处理器901,该一个或多个处理器901可支持电子设备900实现方法实施例中的声音处理方法。处理器901可以是通用处理器或者专用处理器。例如,处理器901可以是中央处理器(central processing unit,cpu)、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)或者其它可编程逻辑器件,如分立门、晶体管逻辑器件或分立硬件组件。
293.处理器901可以用于对电子设备900进行控制,执行软件程序,处理软件程序的数据。电子设备900还可以包括通信单元905,用以实现信号的输入(接收)和输出(发送)。
294.例如,电子设备900可以是芯片,通信单元905可以是该芯片的输入和/或输出电路,或者,通信单元905可以是该芯片的通信接口,该芯片可以作为终端设备或其它电子设备的组成部分。
295.又例如,电子设备900可以是终端设备,通信单元905可以是该终端设备的收发器,或者,通信单元905可以是该终端设备的收发电路。
296.电子设备900中可以包括一个或多个存储器902,其上存有程序904,程序904可被处理器901运行,生成指令903,使得处理器901根据指令903执行上述方法实施例中描述的声音处理方法。
297.可选地,存储器902中还可以存储有数据。可选地,处理器901还可以读取存储器902中存储的数据,该数据可以与程序904存储在相同的存储地址,该数据也可以与程序904存储在不同的存储地址。
298.处理器901和存储器902可以单独设置,也可以集成在一起;例如,集成在终端设备
的系统级芯片(system on chip,soc)上。
299.示例性地,存储器902可以用于存储本技术实施例中提供的声音处理方法的相关程序904,处理器901可以用于调用存储器902中存储的声音处理方法的相关程序904,执行本技术实施例的声音处理方法。例如,获取待处理声音和多个对象中目标对象的目标声纹信息,所述待处理声音包括所述多个对象的语音;根据所述目标声纹信息,确定所述待处理声音中的目标语音,所述目标语音为所述目标对象的声音;根据所述目标语音,确定所述目标对象是否患有精神障碍。
300.应理解,上述举例说明是为了帮助本领域技术人员理解本技术实施例,而非要将本技术实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明,显然可以进行各种等价的修改或变化,这样的修改或变化也落入本技术实施例的范围内。
301.本技术还提供了一种计算机程序产品,该计算机程序产品被处理器901执行时实现本技术中任一方法实施例所述的图像处理方法。
302.该计算机程序产品可以存储在存储器902中,例如是程序904,程序904经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器901执行的可执行目标文件。
303.本技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本技术中任一方法实施例所述的图像处理方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
304.该计算机可读存储介质例如是存储器902。存储器902可以是易失性存储器或非易失性存储器,或者,存储器902可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synchlink dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,dr ram)。
305.本技术中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a, b, c, a-b, a-c, b-c, 或a-b-c,其中a,b,c可以是单个,也可以是多个。
306.应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。
307.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员
可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
308.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
309.在本技术所提供的几个实施例中,应该理解到所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的;例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式;例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
310.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
311.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
312.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。

技术特征:
1.一种声音处理方法,其特征在于,所述方法包括:获取待处理声音和多个对象中目标对象的目标声纹信息,所述待处理声音包括所述多个对象的语音;根据所述目标声纹信息,确定所述待处理声音中的目标语音,所述目标语音为所述目标对象的声音;根据所述目标语音,确定所述目标对象是否患有精神障碍。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用个性化语音活性检测模型对所述目标声纹信息和所述待处理声音进行处理,以得到语音检测信息,所述语音检测信息表示所述待处理声音中的多个语音段以及每个语音段是否为所述目标对象的语音;根据所述语音检测信息,确定间隔时长,所述间隔时长用于表示所述多个语音段中两个目标语音段之间的时间长度,所述两个目标语音段是所述多个语音段中相邻的语音段,且所述两个目标语音段均为所述目标对象的语音;所述根据所述目标语音,确定所述目标对象是否患有精神障碍,包括:根据所述目标语音和所述间隔时长,确定所述目标对象是否患有精神障碍。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标声纹信息,确定所述待处理声音中的目标语音,包括:对所述待处理声音中的多个片段声音分别进行声纹提取,以得到每个片段声音的声纹信息;确定每个片段声音的声纹信息与所述目标声纹信息之间的差异;所述目标语音包括至少一个目标片段声音,所述目标片段声音是所述多个片段声音中所述差异小于或等于预设阈值的片段声音。4.根据权利要求2或3所述的方法,其特征在于,所述个性化语音活性检测模型是基于训练数据进行训练得到的,所述训练数据包括训练声音、训练对象的训练声纹信息和标签语音检测信息,所述标签语音检测信息表示所述训练声音中的至少一个训练语音段以及每个训练语音段是否为所述训练对象的语音,所述训练包括:利用初始个性化语音活性检测模型对所述训练声音和所述训练声纹信息进行处理,以得到训练语音检测信息;根据所述训练语音检测信息和所述标签语音检测信息之间的差异,调整所述初始个性化语音活性检测模型的参数,以最小化所述差异,所述个性化语音活性检测模型是参数调整后的初始个性化语音活性检测模型。5.根据权利要求2或3所述的方法,其特征在于,所述根据所述目标语音和所述间隔时长,确定所述目标对象是否患有精神障碍,包括:根据所述间隔时长,确定第一患病概率;根据所述目标语音,确定第二患病概率;根据所述第一患病概率和所述第二患病概率,确定所述目标对象是否患有精神障碍。6.根据权利要求5所述的方法,其特征在于,所述第一患病概率与所述间隔时长正相关。7.根据权利要求1-3中任一项所述的方法,其特征在于,所述目标声纹信息是对所述目
标对象的声纹指示语音进行声纹识别得到的。8.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述目标语音,确定所述目标对象是否患有精神障碍,包括:提取所述目标语音的语义;提取所述语义的语义特征;提取所述目标语音的声音特征;根据所述语义特征和所述声音特征,确定所述目标对象是否患有精神障碍。9.根据权利要求8所述的方法,其特征在于,所述根据所述语义特征和所述声音特征,确定所述目标对象是否患有精神障碍,包括:利用声音诊断模型,对所述声音特征进行处理,以确定语音患病概率;利用语义诊断模型,对所述语义特征进行处理,以确定语义患病概率,所述声音诊断模型和所述语义诊断模型均为训练得到的神经网络模型;根据所述语音患病概率和所述语义患病概率,确定所述目标对象是否患有精神障碍。10.根据权利要求1-3中任一项所述的方法,其特征在于,所述确定所述目标对象是否患有精神障碍,包括:判断所述目标对象是否患有阿尔茨海默症。11.一种电子设备,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行所述程序指令,以执行权利要求1至10中任一项所述的方法。12.一种芯片,其特征在于,包括处理器,当所述处理器执行程序指令时,所述芯片执行如权利要求1至10中任一项所述的方法。13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至10中任一项所述的方法。

技术总结
本申请应用于人工智能领域,提供了一种声音处理方法及电子设备,该方法包括:获取待处理声音和多个对象中目标对象的目标声纹信息,待处理声音包括多个对象的语音;根据目标声纹信息,确定待处理声音中的目标语音,目标语音为目标对象的声音;根据目标语音,确定目标对象是否患有精神障碍。基于本申请的技术方法,根据待处理声音中目标对象的目标语音,对目标对象是否患有精神障碍进行判断。待处理声音中包括多个对象的语音,即待处理语音记录的内容为多个对象的交谈,从而使得目标语音的内容更加符合目标对象日常的精神状态,从而提高判断结果的准确度。结果的准确度。结果的准确度。


技术研发人员:张贤炜
受保护的技术使用者:荣耀终端有限公司
技术研发日:2023.07.06
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐