处理语音业务的方法、装置及电子设备与流程
未命名
09-13
阅读:91
评论:0

1.本技术涉及终端技术领域,尤其涉及一种处理语音业务的方法、装置及电子设备。
背景技术:
2.电子设备通常会设置有麦克风。电子设备可以通过麦克风采集用户发出的语音,从而得到音频信号,并基于音频信号处理语音业务。但由于麦克风的硬件结构的影响,电子设备通过该麦克风既可能会采集到用户真实的语音,也可能会对激光响应而采集到激光攻击信号,该激光攻击信号可能会干扰电子设备的正常运行,甚至形成漏洞,威胁用户隐私安全。
3.一些技术中,电子设备可以额外增加对用户的提醒操作或者增加用户的确认操作,以通过用户来确认所采集的音频信号的可靠性,但一方面会牺牲电子设备的便捷性,另一方面繁琐的操作和误报也会使得用户质疑电子设备和公司品牌方的可靠性,最终拒绝使用或禁用电子设备的相关功能,从而给公司品牌方带来经济损失。
技术实现要素:
4.有鉴于此,本技术提供一种处理语音业务的方法、装置及电子设备,能够降低被激光攻击的风险,提高了电子设备和用户数据的安全性同时不需要对用户进行额外的提醒或者确认,确保了电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。
5.为了实现上述目的,第一方面,本技术实施例提供一种处理语音业务的方法,方法包括:
6.通过麦克风采集用于语音业务的第一音频信号;
7.基于所述第一音频信号输出第二音频信号,其中,若所述第一音频信号包括激光攻击信号,则所述第二音频信号的信噪比大于所述第一音频信号的信噪比;
8.基于所述第二音频信号处理所述语音业务。
9.其中,第一音频信号中可能包括频率低于预设的拾音频率上限(比如用户真实发出的语音)的音频信号,即正常音频信号,也可能包括由激光攻击产生的激光攻击信号和/或由超声波攻击产生的超声波攻击信号等异常音频信号。
10.需要说明的是,信噪比指电子系统需要进行处理的信号与噪声的比例,在本技术实施例中,当音频信号中的信噪比越高,则该音频信号的信号质量越好,其中所承载的语音信息被后续语音业务所识别的准确性越高。
11.在本技术实施例中,在通过麦克风采集倒第一音频信号的情况下,可以基于第一音频信号输出第二音频信号,使得在第一音频信号包括激光攻击信号的情况下,第二音频信号的信噪比大于第一音频信号的信噪比,那么在基于第二音频信号处理语音业务时,第二音频信号中的激光攻击信号更难被识别,也即是,降低了被激光攻击的风险,提高了电子设备和用户数据的安全性。由于不需要对用户进行额外的提醒或者确认,因而不会降低电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。
12.在一些实施例中,电子设备可以判断采集第一音频信号操作是否受到干扰(或者说判断第一音频信号中是否包括由激光攻击产生的激光攻击信号和/或由超声波攻击产生的超声波攻击信号),如果是则基于第一信号输出第二音频信号,并基于第二音频信号处理语音业务,否则基于第一音频信号处理语音业务,而不再输出第二音频信号,以提高加噪的准确性,减少对电子设备与用户的正常交互的打扰。在一些实施例中,电子设备可以判断采集第一音频信号操作受到的干扰是激光攻击或者超声波(或者说判断第一音频信号包括的具体是激光攻击信号还是超声波攻击信号)。
13.在一些实施例中,电子设备可以获取第一音频信号的振幅均方根值水平(root mean square,rms),若振幅rms小于预设的第一rms阈值,则确定采集第一音频信号的操作所受到的干扰是激光攻击,否则确定采集第一音频信号的操作所受到的干扰具体是超声波攻击。在一些实施例中,第一rms阈值可以为-50db。当然在实际应用中,第一rms阈值也可以为其他数值,本技术实施例不对第一rms阈值的数值大小进行限定。
14.在一些实施例中,电子设备可以将第一音频信号按照时序分为多个帧(比如每100ms的第一音频信号作为一帧),确定每帧的振幅rms,再确定该多个帧的振幅rms的第一差值范围,若第一差值范围小于预设的第二rms阈值,则确定采集第一音频信号的操作所受到的干扰是激光攻击,否则确定采集第一音频信号的操作所受到的干扰是超声波攻击。在一些实施例中,第二rms阈值可以为3db。当然在实际应用中,第二rms阈值也可以为其他数值,本技术实施例不对第二rms阈值的数值大小进行限定。
15.在一些实施例中,所述基于所述第一音频信号输出第二音频信,包括:
16.获取第三音频信号,所述第三音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;
17.基于所述第三音频信号,对所述第一音频信号进行加噪处理,得到所述第二音频信号。
18.其中,电子设备可以获取存储的第三音频信号。或者,电子设备可以通过用于生成噪声信号的硬件和/或软件生成第三音频信号。
19.在一些实施例中,第三音频信号可以为白噪声信号。
20.在一些实施例中,第三音频信号的频率范围可以为0hz-8khz、0hz-16khz、300hz-8khz或300hz-16khz。
21.在一些实施例中,所述基于所述第三音频信号,对所述第一音频信号进行加噪处理,包括:
22.通过扬声器播放与所述第三音频信号对应的声音,并通过所述麦克风采集得到所述第二音频信号,其中,播放与所述第三音频信号对应的声音的时长与采集所述第二音频信号的时长至少部分重合。
23.由于自然界中的声波都属于模拟域的,因此当电子设备基于第三音频信号播放声音,且播放该声音的时长与采集声音的时长至少部分重合时,可以使得在通过麦克风采集得到即为第二音频信号,也即是通过第三音频信号在模拟域对第一音频信号进行加噪,使得第二音频信号在包括正常音频信号、激光攻击信号和超声波攻击信号中的一个或多个的基础上,还包括噪声信号。
24.在一些实施例中,所述基于所述第三音频信号,对所述第一音频信号进行加噪处
理,包括:
25.将所述第三音频信号调制至第四音频信号,得到第五音频信号,所述第四音频信号和所述第五音频信号的频率大于16khz;
26.通过扬声器播放与所述第五音频信号对应的声音,并通过所述麦克风采集得到所述第二音频信号,其中,播放与所述第五音频信号对应的声音的时长与采集所述第二音频信号的时长至少部分重合。
27.由于第四音频信号和第五音频信号的频率大于16khz,可以使得所播放的声音更不易被用户感知,减少了加噪过程对用户的打扰。
28.其中,第四音频信号可以为载波信号,用于作为需要传输的另一信号的载体;第三音频信号可以为调制信号,即为需要传输的另一信号;第五音频信号为已调信号。在一些实施例中,第四音频信号和第五音频信号的频率范围可以包括24khz和/或36khz。当然,在实际应用中,第四音频信号和第五音频信号的频率范围可以包括其他频率。
29.在一些实施例中,所述方法还包括:
30.将第六音频信号和通过所述麦克风采集得到的所述第二音频信号在数字域进行叠加,得到新的第二音频信号,所述第六音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;
31.所述基于所述第二音频信号处理所述语音业务,包括:
32.基于所述新的第二音频信号处理所述语音业务。
33.其中,第三音频信号和第六音频信号可以为同一音频信号,也可以是不同的音频信号,也即是,在同时进行数字域和模拟域加噪的情况下,用于数字域加噪和模拟域加噪的音频信号可以是同一音频信号,也可以是不同的音频信号。
34.在一些实施例中,所述基于所述第三音频信号,对所述第一音频信号进行加噪处理,包括:
35.将所述第三音频信号和所述第一音频信号在数字域进行叠加,得到所述第二音频信号。
36.其中,通过将第一音频信号和第三音频信号在数字域进行叠加,即通过第三音频信号在数字域对第一音频信号进行干扰,使得所生成的第二音频信号,在包括正常音频信号、激光攻击信号和超声波攻击信号中的一个或多个的基础上,还包括噪声信号,因此,第二音频信号的信噪比大于第一音频信号的信噪比。由于正常音频信号是由麦克风在对频率低于拾音频率上限的声音正常采集得到的,而异常音频信号是对超声波和/或激光解调得到的,这使得正常音频信号比异常音频信号具有更强的鲁棒性,因此该噪声信号对正常音频信号的干扰程度较小,但对激光攻击信号或超声波攻击信号的干扰程度很大,从而能够降低电子设备受到激光攻击或超声波攻击的风险,提高了电子设备和用户数据的安全性。
37.在一些实施例中,所述基于所述第三音频信号,对所述第一音频信号进行加噪处理,包括:
38.若确定所述麦克风受到所述激光攻击,则基于所述第三音频信号,对所述第一音频信号进行加噪处理。
39.在一些实施例中,所述方法还包括:
40.若确定所述麦克风受到超声波攻击,则基于第七音频信号,对所述第一音频信号
进行加噪处理,所述第七音频信号的功率大于所述第三音频信号的功率。
41.由于当通过及激光攻击麦克风时,如果激光的功率偏大则可能会烧毁麦克风,因此,激光攻击所才用的激光的功率比较低,因此在另一实施例中,电子设备可以在确定麦克风受到激光攻击时,基于第三音频信号,对第一音频信号进行加噪处理;而在确定麦克风受到超声波攻击时,基于第七音频信号,对第一音频信号进行加噪处理。
42.在一些实施例中,所述第三音频信号的功率,与受到所述激光攻击或超声波攻击的可信度成正相关,可以使得在受到激光攻击或超声波攻击的可能性越大的情况大,所添加噪声的强度也越大,即第二音频信号的信噪比比第一音频信号的信噪比大的程度越大。
43.第二方面,本技术实施例提供了一种处理语音业务的装置,所述装置包括音频模块和语音业务模块;
44.所述音频模块,用于通过麦克风采集用于语音业务的第一音频信号,基于所述第一音频信号输出第二音频信号,其中,若所述第一音频信号包括激光攻击信号,则所述第二音频信号的信噪比大于所述第一音频信号的信噪比;
45.所述语音业务模块,用于基于所述第二音频信号处理所述语音业务。
46.在一些实施例中,所述音频模块具体用于:
47.获取第三音频信号,所述第三音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;
48.基于所述第三音频信号,对所述第一音频信号进行加噪处理,得到所述第二音频信号。
49.在一些实施例中,所述音频模块具体用于:
50.通过扬声器播放与所述第三音频信号对应的声音,并通过所述麦克风采集得到所述第二音频信号,其中,播放与所述第三音频信号对应的声音的时长与采集所述第二音频信号的时长至少部分重合。
51.在一些实施例中,所述音频模块具体用于:
52.将所述第三音频信号调制至第四音频信号,得到第五音频信号,所述第四音频信号和所述第五音频信号的频率大于16khz;
53.通过扬声器播放与所述第五音频信号对应的声音,并通过所述麦克风采集得到所述第二音频信号,其中,播放与所述第五音频信号对应的声音的时长与采集所述第二音频信号的时长至少部分重合。
54.在一些实施例中,所述音频模块具体用于:
55.将第六音频信号和通过所述麦克风采集得到的所述第二音频信号在数字域进行叠加,得到新的第二音频信号,所述第六音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;
56.所述语音业务模块具体用于:
57.基于所述新的第二音频信号处理所述语音业务。
58.在一些实施例中,所述音频模块具体用于:
59.将所述第三音频信号和所述第一音频信号在数字域进行叠加,得到所述第二音频信号。
60.在一些实施例中,所述装置还包括处理模块;
61.若所述处理模块确定所述麦克风受到所述激光攻击,则触发所述音频模块基于所述第三音频信号,对所述第一音频信号进行加噪处理。
62.在一些实施例中,若所述处理模块确定所述麦克风受到超声波攻击,则触发所述音频模块基于第七音频信号,对所述第一音频信号进行加噪处理,所述第七音频信号的功率大于所述第三音频信号的功率。
63.在一些实施例中,所述第三音频信号的功率,与受到所述激光攻击或超声波攻击的可信度成正相关。
64.第三方面,本技术实施例提供一种电子设备,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在调用计算机程序时执行上述第一方面中任一项所述的方法。
65.第四方面,本技术实施例提供一种芯片系统,所述芯片系统包括处理器,所述处理器与存储器耦合,所述处理器执行存储器中存储的计算机程序,以实现上述第一方面中任一项所述的方法。
66.其中,所述芯片系统可以为单个芯片,或者多个芯片组成的芯片模组。
67.第五方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一项所述的方法。
68.第六方面,本技术实施例提供一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的方法。
69.可以理解的是,上述第二方面至第六方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
70.图1为本技术实施例所提供的一种电子设备的结构示意图;
71.图2为本技术实施例所提供的一种麦克风拾音的原理示意图;
72.图3为本技术实施例所提供的一种激光攻击麦克风的原理示意图;
73.图4为本技术实施例所提供的一种音频信号的频率示意图;
74.图5为本技术实施例所提供的另一种音频信号的频率示意图;
75.图6为本技术实施例所提供的另一种音频信号的频率示意图;
76.图7为本技术实施例所提供的一种处理语音业务的方法的流程图;
77.图8为本技术实施例所提供的另一种处理语音业务的方法的流程图;
78.图9为本技术实施例所提供的另一种处理语音业务的方法的流程图;
79.图10为本技术实施例所提供的另一种处理语音业务的方法的流程图;
80.图11为本技术实施例所提供的另一种处理语音业务的方法的流程图;
81.图12为本技术实施例所提供的另一种处理语音业务的方法的流程图;
82.图13为本技术实施例提供的一种处理语音业务的装置的结构示意图。
具体实施方式
83.本技术实施例提供的处理语音业务的方法可以应用于手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,ar)/虚拟现实(virtual reality,vr)设备、
笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本、个人数字助理(personal digital assistant,pda)、智能家居设备、智能锁等设置有麦克风的电子设备上,本技术实施例对电子设备的具体类型不作任何限制。
84.图1是本技术实施例提供的一例电子设备100的结构示意图。电子设备100可以包括处理器110、存储器120、通信模块130、音频模块140、扬声器150、麦克风160和语音业务模块170等。
85.其中,处理器110可以包括一个或多个处理单元,存储器120用于存储程序代码和数据。在本技术实施例中,处理器110可执行存储器120存储的计算机执行指令,用于对电子设备100的动作进行控制管理。例如:处理器110可以包括应用处理器(application processor,ap)和和/或神经网络处理器(neural-network processing unit,npu)等。
86.npu为神经网络(neural-network,nn)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过npu可以实现电子设备100的智能认知等应用,例如:语音识别,文本理解等。
87.通信模块130可以用于电子设备100的各个内部模块之间的通信、或者电子设备100和其他外部电子设备之间的通信等。示例性的,通信模块130可以包括接口等。例如,通信模块130可以包括集成电路内置音频(inter-integrated circuit sound,i2s)接口,i2s接口可以用于音频通信,在一些实施例中,处理器110可以通过i2s总线与音频模块140耦合,实现处理器110与音频模块140之间的通信。
88.或者,通信模块130可以包括音频器件、射频电路、蓝牙芯片、无线保真(wireless fidelity,wi-fi)芯片、近距离无线通讯技术(near-field communication,nfc)模块等,可以通过多种不同的方式实现电子设备100与其他电子设备之间的交互。
89.电子设备100可以通过音频模块140,扬声器150、麦克风160应用处理器等实现音频功能。例如音乐播放,录音等。
90.音频模块140用于将数字音频信号转换成模拟音频信号,也用于将模拟音频信号转换为数字音频信号,其中,数字音频信号和模拟音频信号都是电信号。音频模块140还可以用于对音频信号编码和解码。在一些实施例中,音频模块140可以包括放大器、低通滤波器、模数转换器和数模转换器,其中,放大器可以用于将模拟音频信号的增益放大,低通滤波器可以用于滤除高频音频信号(比如高于拾音频率上限的音频信号),模数转换器可以用于将模拟音频信号转换为数字音频信号,数模转换器可以用于将数字音频信号转换为模拟音频信号。在一些实施例中,音频模块140可以设置于处理器110中,或将音频模块140的部分功能模块设置于处理器110中。
91.需要说明的是,拾音频率上限可以是由电子设备100的厂商事先设置的,比如拾音频率上限可以为16khz(千赫兹)。当然,在实际应用中,拾音频率上限也可以为其他数值,本技术实施例不对该拾音频率上限的具体数值进行限定。
92.扬声器150,也称“喇叭”,用于将电信号转换为声音信号。电子设备100可以通过扬声器150收听音乐,或收听免提通话。
93.麦克风160,也称“话筒”,“传声器”,用于将声音信号转换电信号。在一些实施例中,麦克风160可以包括微机电系统(micro-electro-mechanical system,mems)麦克风。mems是集微传感器、微执行器、微机械结构、微电源微能源、信号处理和控制电路、高性能电
子集成器件、接口、通信等于一体的微型器件或系统。mems麦克风是基于mems技术的麦克风。在一些实施例中,麦克风可以包括多个麦克风单元。
94.语音业务模块170,可以用于基于音频模块140的音频信号处理各种各样的语音业务。语音业务可以为基于用户的语音所执行的业务。在一些实施例中,语音业务可以包括语音活性检测(voice activity detection,vad)、关键词检测(keyword spotting,kws)和自动语音识别(automatic speech recognition,asr)中的一种或多种。vad是一种语音处理技术,能够检测待检测的音频信号中是否包括来自用户的语音信息。在一些实施例中,vad可以用于从音频信号中准确地定位出语音信息的开始点和结束点,还可以去除静音和噪声的部分,从而获取到真正有效的语音内容。kws可以用于在音频信号中检测出预定义的词或词组,这些词或词组可以作为语音指令,从而触发相应的功能。asr是一种将语音信息转换为文本信息的技术,在一些实施例中,所转换的文本信息可以用于电子设备确定用户的意图或指示,进而与用户进行对话或者按照用户的意图或指示执行相应的操作。当然,在实际应用中,语音业务模块170也可以用于处理更多或更少的语音业务,本技术实施例不对语音业务的类型进行限定。在一些实施例中,语音业务模块170可以与音频模块140耦合,也可以设置于处理器110中,或将语音业务模块170的部分功能模块设置于处理器110中。
95.应理解,除了图1中列举的各种部件或者模块之外,本技术实施例对电子设备100的结构不做具体限定。在本技术另一些实施例中,电子设备100还可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
96.以下结合唤醒电子设备100的场景,示例性地说明电子设备100包括的部分组件的角色和工作流程。
97.电子设备100处于休眠状态或待机状态。用户希望唤醒电子设备100,因此发出语音“小艺小艺”。电子设备100通过麦克风160采集该语音,得到相应的模拟音频信号,音频模块140对该模拟音频信号进行模数转换,得到相应的数字音频信号。语音业务模块170先对该数字音频信号进行vad检测,确定该数字音频信号中包括语音信息,再对该数字音频信号(或者仅包括该语音信息的部分数字音频信号)进行kws识别,确定其中包括“小艺”这一预设的唤醒词,因此请求处理器110将电子设备100切换为唤醒状态,语音业务模块170还可以生成与用户交互的另一数字音频信号,该数字音频信号包括用于回复“小艺小艺”的语音信息“在呢”。音频模块140将该另一数字音频信号进行数模转换,得到相应的又一模拟音频信号,通过扬声器150输出该又一模拟音频信号,即发出“在呢”语音,从而提示用户,当前已经切换至唤醒状态。
98.为了便于理解本技术施例中的技术方案,下面首先对本技术实施例的应用场景予以介绍。
99.请参照图2,为本技术实施例所提供的一种麦克风拾音的原理示意图。麦克风160(图2中未示出)中可以包括振动组件200,在一些实施例中,振动组件200可以为振膜。由于声波是一种机械波,因此当声源发出声音(比如用户说话)时,该声音会向四周传递,当该声音传递至麦克风160时,声音的能量会使得振动组件200产生机械振动,再通过电磁感应等方式,生成与该振动组件200的机械振动对应的模拟电信号(即模拟音频信号)。
100.又请参照图3,当通过激光照射振动组件200时,该激光的脉冲能量也会压迫振动
组件200,从而使得振动组件200也发生机械振动,相应的,麦克风160(图3中未示出)也会生成与机械振动对应的模拟电信号,该模拟电信号虽然实际上不是基于真实的声音所产生的,但仍然可能被作为拾取到的“音频信号”。
101.电子设备100在采集音频信号时,可以通过麦克风160采集得到模拟音频信号,通过音频模块140将该模拟音频信号转换为数字音频信号,具体可以包括通过放大器将该模拟音频信号的增益进行放大,通过低通滤波器滤除该模拟音频信号中高频无用的音频信号,再通过模数转换器将该模拟音频信号转换为数字音频信号。
102.在一些实施例中,由于麦克风160中会包括大量的二极管和放大器等非线性元器件,因此麦克风160会有非线性解调特性,该特性使得麦克风160能够在接收到高频(比如高于拾音频率上限)声音时,产生低频(比如低于拾音频率上限)的解调信号。因此,请参照图4-图6所示,图4-图6中的虚线表示拾音频率上限。当电子设备100接收到如图4所示的超声波时,由于超声波的频率大于该拾音频率上限,因此,基于上述非线性解调特性,电子设备100可以获取到如图5所示的低于该拾音频率上限的谐波,该超声波和低频的谐波再经过音频模块140处理之后,该超声波会被滤除,但低频的谐波会被保留,从而成为采集到的数字音频信号中的一部分。
103.由前述可知,由于麦克风的硬件结构的影响,麦克风所采集得到的音频信号中既可能会包括与用户真实的语音对应的音频信号,也可能会包括由于激光攻击或超声波攻击产生音频信号,其中,麦克风在激光攻击下产生的音频信号为及激光攻击信号,麦克风在超声波攻击下产生的音频信号为超声波攻击信号。
104.以电子设备与用户之间的交互为例,正常情况下,用户可以发出语音指令,电子设备接收该语音指令并基于该语音执行相应的操作,但如果攻击者将语音指令调制到激光上,将调制后的激光照射在麦克风上,麦克风基于光电效应和光声效应,也会拾取到被调制到激光中的该语音指令,这使得攻击者可以通过激光攻击电子设备,这种攻击方式被称为“光命令(light commands)”攻击或激光攻击。或者,如果攻击者将语音指令调制到超声波中,基于麦克风的非线性解调的特性,麦克风也可能会拾取到调制在超声波中的该语音指令,使得攻击者可以通过超声波攻击电子设备,这种攻击方式被称为“超声波攻击”。
105.可以看出,这些通过激光攻击或超声波攻击所产生的异常音频信号,会严重威胁电子设备和用户数据的安全,比如攻击者可以通过光攻击远程控制智能家居设备和智能门锁开启或关闭,解锁并启动车辆,控制智能音箱或手机进行在线网购等等。
106.在一些实施例中,电子设备可以额外增加对用户的提醒操作或者增加用户的确认操作,以通过用户来确认所采集的音频信号来自真实的用户声音。例如,电子设备可以在检测“下单100只手机”的语音指令时,通过弹窗提醒用户“您正在通过语音购物下单100只手机”,或者,请求用户再次输入密码或验证码以确认该语音指令是来自用户本人。再比如,在用户的手机界面,经常闪出“您的手机疑似被激光攻击,请确认是否是本人操作”。通过上述方式虽然一定程度能够防范异常音频信号对电子设备的干扰,但一方面会牺牲电子设备的便捷性,另一方面繁琐的操作和误报也会使得用户质疑电子设备和公司品牌方的可靠性,最终拒绝使用或禁用电子设备的相关功能,从而给公司品牌方带来经济损失。
107.为了至少部分解决上述技术问题,本技术实施例提供了一种处理语音业务的方法。在本技术实施例中,在通过麦克风采集倒第一音频信号的情况下,可以基于第一音频信
号输出第二音频信号,使得在第一音频信号包括激光攻击信号的情况下,第二音频信号的信噪比大于第一音频信号的信噪比,那么在基于第二音频信号处理语音业务时,第二音频信号中的激光攻击信号更难被识别,也即是,降低了被激光攻击的风险,提高了电子设备和用户数据的安全性。由于不需要对用户进行额外的提醒或者确认,因而不会降低电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。
108.下面以具体地实施例对本技术的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
109.由前述可知,麦克风可以对所在环境中的声音和激光进行感应(包括声电效应或光电效应)得到相应的电信号,即模拟音频信号。在一些实施例中,可以对模拟音频信号进行模数转换,得到相应的数字音频信号,当然,也可以对该数字音频信号进行数模转换,得到相应的模拟音频信号。因此,在下述实施例中的各音频信号,除非特别说明,否则即可以为数字音频信号,也可以为模拟音频信号,且具体为数字音频信号还是模拟音频信号,可以根据本技术实施例所提供的处理语音业务的方法中任一步骤的需求进行转换。比如,为了便于电子设备内部对音频信号进行处理或存储,可以将模拟音频信号转为数字音频信号。又比如,电子设备在通过扬声器播放声音之前,可以将数字音频信号转换为模拟音频信号,再通过模拟音频信号驱动扬声器播放相应的声音。
110.请参照图7,为本技术实施例所提供的一种处理语音业务的方法的流程图。在本技术实施例中,将在数字域对用于语音业务的音频信号进行加噪。需要说明的是,该方法并不以图7以及以下所述的具体顺序为限制,应当理解,在其它实施例中,该方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
111.该方法包括如下步骤:
112.s701,电子设备采集第一音频信号。
113.电子设备可以通过麦克风采集得到第一音频信号,第一音频信号可以用于处理语音业务。在一些实施例中,第一音频信号中可以包括频率低于预设的拾音频率上限(比如用户真实发出的语音)的音频信号,即正常音频信号。在另一些实施例中,第一音频信号中可以包括由激光攻击产生的激光攻击信号和/或由超声波攻击产生的超声波攻击信号等异常音频信号。
114.s702,电子设备判断采集第一音频信号的操作是否受到干扰,如果是则执行s703,否则执行s706。
115.由前述可知,电子设备所采集的第一音频信号中可能会包括正常音频信号,也可能会包括异常音频信号,因此,为了降低或避免异常音频信号可能会给后续语音业务带来风险,电子设备可以通过判断采集第一音频信号的操作是否受到干扰,来准确地选择相应的处理方式,减少不必要的数据处理量和处理流程。如果该采集操作受到干扰,则第一音频信号中可能会包括异常音频信号,如果该采集操作未受到干扰,则第一音频信号中不包括异常音频信号。
116.在一些实施例中,电子设备可以进行激光攻击检测和超声波攻击检测中的至少一种,若确定受到激光攻击和超声波攻击中的任一种,则确定音频信号采集操作受到干扰。在一些实施例中,电子设备可以基于采集的第一音频信号进行激光攻击检测或超声波攻击检测。
117.在一些实施例中,电子设备可以将第一音频信号输入至第一机器学习模型,并得到第一机器学习模型的检测结果,该检测结果可以用于指示第一音频信号的操作是否包括激光攻击信号和/或超声攻击信号。
118.其中,电子设备可以事先获取第一样本集合,通过第一样本集合训练获取第一机器学习模型。第一样本集合包括的多个样本,各样本为在受激光攻击或超声波攻击的干扰的情况下采集的音频信号,以及未受激光攻击和超声波攻击的干扰的情况下采集的音频信号,且各样本均基于是否受激光攻击或超声波攻击干扰进行标记。当然,在实际应用中,电子设备也可以从其他电子设备获取已经训练好的第一机器学习模型。
119.在一些实施例中,麦克风为包括多个麦克风单元的阵列,第一音频信号可以包括来自多个麦克风单元的子信号。由于多个麦克风单元所设置的位置不同,而当攻击者通过激光攻击电子设备的麦克风时,或者通过较窄的激光攻击其中部分麦克风单元,或者通过较宽的激光攻击所有麦克风单元。若攻击者是通过较窄的激光信号攻击其中部分麦克风单元,那么由于其他麦克风单元没有接收到激光,因此,第一音频信号包括的多个子信号之间相关性会很低。若攻击者是通过较宽的激光或多个较窄的激光攻击其中大部分麦克风单元,那么由于激光相当于是从垂直方向入射各麦克风单元,因此第一音频信号包括的多个子信号之间的相位差异会很小。因此可以对第一音频信号包括的多个子信号进行相关性检测和/或方向性检测,来判断是否受到激光攻击。以相关性检测为例,若第一音频信号包括的多个子信号之间的相关性很低,比如相关系数小于预设的相关系数阈值,则可以确定受到激光攻击。以方向性检测为例,若第一音频信号包括的多个子信号之间的相位差异很小,比如平均相位差值大于预设的相位阈值,则可以确定受到激光攻击。
120.在一些实施例中,电子设备可以通过获取第一音频信号的基频,基于正常音频信号的基频与异常音频信号的基频的差异,采集第一音频信号的操作是否受到激光攻击或超声波攻击的干扰。
121.需要说明的是,在实际应用中,电子设备也可以通过其他方式来检测采集第一音频信号的操作是否受到激光攻击或超声波攻击的干扰,本技术实施例不对检测第一音频信号是否受到激光攻击或超声波攻击的方式进行限定。在一些实施例中,电子设备可以基于一种或一种以上的检测方式来检测采集第一音频信号的操作是否受到激光攻击或超声波攻击的干扰,使得检测到干扰的检测率大于预设的检测率阈值,误检率小于预设的误检率阈值,从而确保检测到激光攻击或超声波攻击干扰的准确性。在一些实施例中,检测率阈值可以为99%,误检率阈值可以为10次/小时或5次/小时,当然,在实际应用中,检测率阈值和误检率阈值也可以为其他数值。
122.在一些实施例中,电子设备可以通过上述一种或一种以上的检测方式来确定采集第一音频信号的操作受到激光攻击或超声波攻击的干扰的可信度,当该可信度大于或等于预设的可信度阈值时,确定采集第一音频信号的操作受到激光攻击或超声波攻击的干扰,当该可信度小于该可信度阈值时,确定该采集第一音频信号的操作未受到激光攻击或超声波攻击的干扰。
123.在一些实施例中,由于在通过激光攻击麦克风时是将音频信号调制到光信号中,在超声波攻击麦克风时是音频信号调制到超声波中,而将作为载波信号的光信号的能量比同样作为载波信号的超声波的能量更加稳定,因此电子设备可以获取第一音频信号的信号
能量,根据第一音频信号的信号能量分布,确定采集第一音频信号的操作所受到的干扰具体是激光攻击还是超声波攻击。
124.在一些实施例中,电子设备可以获取第一音频信号的rms,若振幅rms小于预设的第一rms阈值,则确定采集第一音频信号的操作所受到的干扰是激光攻击,否则确定采集第一音频信号的操作所受到的干扰具体是超声波攻击。在一些实施例中,第一rms阈值可以为-50db。当然在实际应用中,第一rms阈值也可以为其他数值,本技术实施例不对第一rms阈值的数值大小进行限定。
125.在一些实施例中,电子设备可以将第一音频信号按照时序分为多个帧(比如每100ms的第一音频信号作为一帧),确定每帧的振幅rms,再确定该多个帧的振幅rms的第一差值范围,若第一差值范围小于预设的第二rms阈值,则确定采集第一音频信号的操作所受到的干扰是激光攻击,否则确定采集第一音频信号的操作所受到的干扰是超声波攻击。在一些实施例中,第二rms阈值可以为3db。当然在实际应用中,第二rms阈值也可以为其他数值,本技术实施例不对第二rms阈值的数值大小进行限定。
126.在一些实施例中,电子设备可以获取预设时长内的音频信号集合,该音频信号集合包括第一音频信号以及由麦克风采集的其他音频信号。其中,该预设时长可以为5s-10s,也可以为其他时长,麦克风在该预设时长内所受到的干扰可以很可能是同一次干扰,且如果该干扰为激光攻击,则可能是采用相同的激光作为载波进行攻击,因此,电子设备可以获取该音频信号集合中各帧的振幅rms的第二差值范围,若第二差值范围小于预设的第二rms阈值,则确定采集第一音频信号的操作所受到的干扰是激光攻击,否则确定采集第一音频信号的操作所受到的干扰是超声波攻击。
127.在一些实施例中,电子设备也可以通过判断采集第八音频信号操作是否受到干扰,如果是则执行s703,否则执行s706。其中,第八音频信号可以为在第一音频信号之前采集到的音频信号。也即是,若电子设备在采集第一音频信号之前,确定采集第八音频信号的操作已经受到激光攻击或者超声波攻击等干扰,那么电子设备可以确定本次采集第一音频信号的操作也受到了同样的干扰。且需要说明的是,电子设备判断采集第八音频信号操作是否受到干扰的方式,可以与电子设备判断采集第一音频信号操作是否受到干扰的方式相同或相似。
128.需要说明的是,s702为可选的步骤。当省略s702时,电子设备可以在s701之后执行s703。
129.s703,电子设备获取第三音频信号。
130.其中,第三音频信号可以为噪声信号。在一些实施例中,第三音频信号可以为白噪声。当然,在实际应用中,第三音频信号也可以为其他类型的噪声信号,比如加性噪声或乘性噪声等。
131.在一些实施例中,电子设备可以获取存储的第三音频信号。或者,在另一些实施例中,电子设备可以通过用于生成噪声信号的硬件和/或软件生成第三音频信号。
132.在一些实施例中,由于人正常说话时的发声的频率范围在300hz-8khz之间,因此,第三音频信号的频率范围可以包括0hz-16khz中至少部分频率。在一些实施例中,第三音频信号的频率范围可以为0hz-8khz、0hz-16khz、300hz-8khz或300hz-16khz,从而能够对第一音频信号中可能包括的人声进行干扰,那么当攻击者通过激光或超声波攻击电子设备的麦
克风时,第三音频信号便能够干扰第一音频信号中所包括的激光攻击信号和/或超声波信号,减少激光攻击信号和/或超声波信号对后续语音业务的危害。
133.在一些实施例中,由于第三音频信号的功率越高,则对第一音频信号的干扰效果越好,因此,第三音频信号的功率可以与采集第一音频信号操作受到干扰的可信度成正相关。也即是,当采集第一音频信号操作受到干扰的可能性越大,则所获取的第三音频信号的干扰能力越强。
134.在一些实施例中,第三音频信号的功率powr=f(prob),其中,f()为增函数,在一些实施例中,f()可以为tanh(),prob即为采集第一音频信号的操作受到干扰的可信度。
135.s704,电子设备将第一音频信号和第三音频信号在数字域进行叠加,得到第二音频信号。
136.电子设备可以将第一音频信号和第三音频信号在数字域进行叠加,即通过第三音频信号在数字域对第一音频信号进行干扰,使得所生成的第二音频信号,在包括正常音频信号、激光攻击信号和超声波攻击信号中的一个或多个的基础上,还包括噪声信号,因此,第二音频信号的信噪比大于第一音频信号的信噪比。由于正常音频信号是由麦克风在对频率低于拾音频率上限的声音正常采集得到的,而异常音频信号是对超声波和/或激光解调得到的,这使得正常音频信号比异常音频信号具有更强的鲁棒性,因此该噪声信号对正常音频信号的干扰程度较小,但对激光攻击信号或超声波攻击信号的干扰程度很大,从而能够降低电子设备受到激光攻击或超声波攻击的风险,提高了电子设备和用户数据的安全性。另外,由于是在数字域对第一音频信号进行干扰,这一干扰过程不会被用户感知,也就提升了用户体验。
137.其中,信噪比指电子系统需要进行处理的信号与噪声的比例,在本技术实施例中,当音频信号中的信噪比越高,则该音频信号的信号质量越好,其中所承载的语音信息被后续语音业务所识别的准确性越高。
138.在一些实施例中,若第一音频信号和第三音频信号均属于数字音频信号,则可以直接将第一音频信号和第三音频信号在数字域叠加。在另一些实施例中,若第一音频信号和第三音频信号中的任一个为模拟音频信号,则可以将属于模拟域音频信号的第一音频信号或第三音频信号转换为数字域音频信号,再将同属于数字域音频信号的第一音频信号和第三音频信号在数字域叠加。
139.s705,电子设备基于第二音频信号处理语音业务。
140.由于相对于由麦克风采集的第一音频信号而言,经过加噪处理得到的第二音频信号的信噪比更高,再由于正常音频信号比异常音频信号具有更强的鲁棒性,这使得在基于第二音频信号处理语音业务时,其中超声波攻击信号或激光攻击信号中可能包括的语音信息已经被干扰到无法识别的情况下,正常音频信号中可能包括的语音信息仍然能够被很好地识别出来,从而确保了电子设备和用户数据的安全性。例如,第二音频信号中包括由激光攻击或超声波攻击产生的虚假的语音指令“下单100只手机”,但经过噪声信号的干扰,电子设备将无法通过vad检测到第二音频信号中包括语音指令,和/或,无法通过kws或者asr识别该语音指令所包括的具体内容,当然也就无法执行该语音指令。
141.另外,电子设备基于第二音频信号处理语音业务的方式,可以参照下述图8中的详细描述。
142.s706,电子设备基于第一音频信号处理语音业务。
143.其中,电子设备通过判断采集第一音频信号操作是否受到干扰,如果是则基于第一信号输出第二音频信号,并基于第二音频信号处理语音业务,否则基于第一音频信号处理语音业务,而不再输出第二音频信号,以提高加噪的准确性,减少对电子设备与用户的正常交互的打扰。
144.需要说明的是,电子设备基于第一音频信号处理语音业务的方式,可以与s705基于第二音频信号处理语音业务的方式相同或相似,此处不再一一赘述。
145.在本技术实施例中,在通过麦克风采集到第一音频信号的情况下,可以获取第三音频信号,并将第三音频信号和第一音频信号在数字域进行叠加,得到第二音频信号,使得在第一音频信号包括激光攻击信号或超声波攻击信号时,第二音频信号的信噪比可以高于第一音频信号的信噪比,那么在基于第二音频信号处理语音业务时,第二音频信号中的激光攻击信号或超声波攻击信号更难识别,也即是,降低了被激光攻击或超声波攻击的风险,提高了电子设备和用户数据的安全性。由于不需要对用户进行额外的提醒或者确认,因而不会降低电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。另外,由于这一干扰过程是在数字域进行的,因此也不会被用户感知,从而进一步提升了用户体验。
146.请参照图9,为本技术实施例所提供的一种处理语音业务的方法的流程图。在本技术实施例中,将在模拟域对用于语音业务的音频信号进行加噪。需要说明的是,该方法并不以图9以及以下所述的具体顺序为限制,应当理解,在其它实施例中,该方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。
147.该方法包括如下步骤:
148.s901,电子设备采集第一音频信号。
149.其中,电子设备采集第一音频信号的方式,可以参见前述s701中的相关描述,此处不再一一赘述。
150.s902,电子设备判断采集第一音频信号的操作是否受到干扰,如果是则执行s903,否则执行s906。
151.其中,电子设备判断采集第一音频信号的操作是否受到干扰的方式,可以参见前述s702中的相关描述,此处不再一一赘述。
152.在一些实施例中,电子设备也可以通过判断采集第八音频信号操作是否受到干扰,如果是则执行s703,否则执行s706。其中,第八音频信号可以为在第一音频信号之前采集到的音频信号。且需要说明的是,电子设备判断采集第八音频信号操作是否受到干扰的方式,可以与电子设备判断采集第一音频信号操作是否受到干扰的方式相同或相似。
153.需要说明的是,s902是可选的步骤。当省略s902时,电子设备可以在s901之后执行s903,也即是,电子设备可以在检测到第一音频信号时即执行s903,而不再执行s902来判断采集第一音频信号的操作是否受到干扰。
154.s903,电子设备获取第三音频信号。
155.其中,第三音频信号可以为噪声信号。在一些实施例中,第三音频信号可以为白噪声。当然,在实际应用中,第三音频信号也可以为其他类型的噪声信号。
156.在一些实施例中,第三音频信号的频率范围可以包括0hz-16khz中至少部分频率。在一些实施例中,第三音频信号的频率范围可以为0hz-8khz、0hz-16khz、300hz-8khz或
300hz-16khz。
157.需要说明的是,电子设备获取第三音频信号的方式,也可以参照前述s703中的相关描述,此处不再一一赘述。
158.s904,电子设备基于第三音频信号播放声音,并通过麦克风采集得到第二音频信号,其中,播放声音的时长与采集得到第二音频信号的时长至少部分重合。
159.由于自然界中的声波都属于模拟域的,因此当电子设备基于第三音频信号播放声音,且播放该声音的时长与采集声音的时长至少部分重合时,可以使得在通过麦克风采集得到即为第二音频信号,也即是通过第三音频信号在模拟域对第一音频信号进行加噪,使得第二音频信号在包括正常音频信号、激光攻击信号和超声波攻击信号中的一个或多个的基础上,还包括噪声信号。
160.在一些实施例中,电子设备可以通过扬声器播放与第三音频信号对应的声音,并通过麦克风采集得到第二音频信号,其中,播放与第三音频信号对应的声音的时长与采集第二音频信号的时长至少部分重合。
161.在另一些实施例中,为了减少播放第一模拟音频信号对用户的打扰,电子设备可以将第三音频信号调制至第四音频信号,得到第五音频信号,第四音频信号和第五音频信号的频率大于16khz,通过扬声器播放与第五音频信号对应的声音,并通过麦克风采集得到第二音频信号,其中,播放与第五音频信号对应的声音的时长与所述第二音频信号的时长至少部分重合。
162.其中,第四音频信号可以为载波信号,用于作为需要传输的另一信号的载体;第三音频信号可以为调制信号,即为需要传输的另一信号;第五音频信号为已调信号。
163.在一些实施例中,第四音频信号和第五音频信号的频率范围可以包括24khz和/或36khz。当然,在实际应用中,第四音频信号和第五音频信号的频率范围可以包括其他频率。
164.在一些实施例中,电子设备基于第三音频信号播放声音的时长可以为10秒或15秒。当然,在实际应用中,该时长也可以为其他数值,本技术实施例不对该时长的大小进行限定。
165.s905,电子设备基于第二音频信号处理语音业务。
166.s906,电子设备基于第一音频信号处理语音业务。
167.需要说明的是,电子设备执行s905-s906的方式,可以与执行s705和s706的方式相同或相似,此处不再一一赘述。
168.在本技术实施例中,在通过麦克风采集到第一音频信号的情况下,可以基于第三音频信号播放声音,并通过麦克风采集得到第二音频信号,其中,播放声音的时长与采集得到第二音频信号的时长至少部分重合,从而在模拟域进行加噪,使得在第一音频信号包括激光攻击信号或超声波攻击信号时,第二音频信号的信噪比可以高于第一音频信号的信噪比,那么在基于第二音频信号处理语音业务时,第二音频信号中的激光攻击信号或超声波攻击信号更难识别,也即是,降低了被激光攻击或超声波攻击的风险,提高了电子设备和用户数据的安全性。由于不需要对用户进行额外的提醒或者确认,因而不会降低电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。另外,可以将第三音频信号调制到16khz以上的频率的第四音频信号,得到第五音频信号,通过扬声器播放与第五音频信号对应的声音,使得播放的声音不易被用户所感知,进一步提升了用户体验。
169.需要说明的是,在一些实施例中,电子设备也可以通过其他方式确定基于第三音频信号播放声音的时机,使得基于第三音频信号播放声音的时长,与通过麦克风采集得到第二音频信号的时长至少部分重合,比如,电子设备可以一直执行s903-s904来基于第三音频信号播放声音。在这种情况下,s901和s902都可以省略。
170.请参照图10,为本技术实施例所提供的一种处理语音业务的方法的流程图。在本技术实施例中,将在数字域和模拟域对用于语音业务的音频信号进行加噪。需要说明的是,该方法并不以图10以及以下所述的具体顺序为限制,应当理解,在其它实施例中,该方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该方法包括如下步骤:
171.s1001,电子设备采集第一音频信号。
172.s1002,电子设备判断采集第一音频信号的操作是否受到干扰,如果是则执行s1003和s1005,否则执行s1008。
173.需要说明的是,s1002是可选的步骤。当电子设备省略s1002时,可以在s1001之后,执行s1003和s1005。
174.s1003,电子设备获取第三音频信号。
175.需要说明的是,电子设备执行s1001-s1003的方式,可以与执行s701-s703的方式相同或相似,此处不再一一赘述。
176.s1004,电子设备基于第三音频信号播放声音,并通过麦克风采集得到第二音频信号,其中,播放声音的时长与采集得到第二音频信号的时长至少部分重合。
177.需要说明的是,电子设备执行s1004的方式,可以与执行s904的方式相同或相似,此处不再一一赘述。
178.s1005,电子设备获取第六音频信号。
179.其中,第六音频信号可以为频率范围包括0hz-16khz中至少部分频率的噪声信号。在一些实施例中,第六音频信号和第三音频信号为同一音频信号;在另一些实施例中,第六音频信号和第三音频信号为不同的音频信号。当第六音频信号和第三音频信号为同一音频信号时,电子设备可以通过同一音频信号分别在模拟域和数字域,对第一音频信号进行加噪;当第六音频信号和第三音频信号为不同的音频信号时,电子设备可以通过不同的音频信号分别在模拟域和数字域,对第一音频信号进行加噪。
180.s1006,电子设备将第六音频信号和通过麦克风采集得到的第二音频信号在数字域进行叠加,得到新的第二音频信号。
181.其中,电子设备执行s1005-s1006的方式,可以与执行s703-s704的方式相同或相似,此处不再一一赘述。
182.s1007,电子设备基于新的第二音频信号处理语音业务。
183.其中,新的第二音频信号在包括正常音频信号、激光攻击信号和超声波攻击信号中的一个或多个的基础上,还包括噪声信号。
184.s1008,电子设备基于第一音频信号处理语音业务。
185.需要说明的是,电子设备执行s1007-s1008的方式,可以与执行s705和s706的方式相同或相似,此处不再一一赘述。
186.在本技术实施例中,在通过麦克风采集到第一音频信号的情况下,可以基于第三
音频信号播放声音,并通过麦克风采集得到第二音频信号,其中,播放声音的时长与采集得到第二音频信号的时长至少部分重合,还可以获取第六音频信号,将第六音频信号和通过麦克风采集得到的第二音频信号在数字域进行叠加,得到新的第二音频信号,从而同时在模拟域和数字域进行加噪,使得在第一音频信号包括激光攻击信号或超声波攻击信号时,第二音频信号的信噪比可以高于第一音频信号的信噪比,那么在基于新的第二音频信号处理语音业务时,新的第二音频信号中的激光攻击信号或超声波攻击信号更难识别,也即是,降低了被激光攻击或超声波攻击的风险,提高了电子设备和用户数据的安全性。由于不需要对用户进行额外的提醒或者确认,因而不会降低电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。
187.需要说明的是,在一些实施例中,电子设备也可以通过其他方式确定基于第三音频信号播放声音的时机,使得基于第三音频信号播放声音的时长,与通过麦克风采集得到第二音频信号的时长至少部分重合,比如,电子设备可以一直执行s1003-s1004来基于第三音频信号播放声音。在这种情况下,s1001和s1002都可以省略。
188.请参照图11,为本技术实施例所提供的一种处理语音业务的方法的流程图。在本技术实施例中,将在电子设备的麦克风受到激光攻击的情况下,通过超声波在模拟域对用于语音业务的音频信号进行加噪。需要说明的是,该方法并不以图11以及以下所述的具体顺序为限制,应当理解,在其它实施例中,该方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该方法包括如下步骤:
189.s1101,电子设备采集第一音频信号。
190.s1102,电子设备判断采集第一音频信号的操作是否受到激光攻击,如果是则执行s1103,否则执行s1107。
191.需要说明的是,s1102是可选的步骤。当电子设备省略s1102时,可以在s1101之后,执行s1103。
192.s1103,电子设备获取第三音频信号。
193.需要说明的是,电子设备执行s1101-s1103的方式,可以与执行s701-s703的方式相同或相似,此处不再一一赘述。
194.s1104,电子设备将第三音频信号调制至第四音频信号,得到第五音频信号。
195.其中,第四音频信号和第五音频信号的频率大于16khz。
196.s1105,电子设备通过扬声器播放与第五音频信号对应的声音,并通过麦克风采集得到第二音频信号。
197.其中,电子设备通过扬声器播放与第五音频信号对应的声音的时长,与通过麦克风采集得到第二音频信号的时长至少部分重合。
198.需要说明的是,电子设备执行s1104和s1105的方式,可以参见s904中的相关描述,此处不再一一赘述。
199.s1106,电子设备基于第二音频信号处理语音业务。
200.其中,新的第二音频信号在包括正常音频信号、激光攻击信号和超声波攻击信号中的一个或多个的基础上,还包括噪声信号。
201.s1107,电子设备基于第一音频信号处理语义业务。
202.需要说明的是,电子设备执行s1106-s1107的方式,可以与执行s705和s706的方式
相同或相似,此处不再一一赘述。
203.在本技术实施例中,在通过麦克风采集第一音频信号受到激光攻击的情况下,可以获取第三音频信号,将第三音频信号调制至第四音频信号,得到第五音频信号,通过扬声器播放与第五音频信号对应的声音,并通过麦克风采集得到第二音频信号,从而在模拟域进行加噪,使得在第一音频信号包括激光攻击信号时,第二音频信号的信噪比可以高于第一音频信号的信噪比,那么在基于第二音频信号处理语音业务时,第二音频信号中的激光攻击信号更难被识别,也即是,降低了被激光攻击的风险,提高了电子设备和用户数据的安全性。由于不需要对用户进行额外的提醒或者确认,因而不会降低电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。另外,由于第五音频信号的频率大于16khz,使得播放的声音不易被用户所感知,进一步提升了用户体验。
204.需要说明的是,在一些实施例中,电子设备也可以通过其他方式确定通过扬声器播放与第五音频信号对应的声音的时机,使得通过扬声器播放与第五音频信号对应的声音的时长,与通过麦克风采集得到第二音频信号的时长至少部分重合,比如,电子设备可以一直执行s1103-s1105来播放与第五音频信号对应的声音。在这种情况下,s1101和s1102都可以省略。
205.在上述实施例中,当确定麦克风受到激光攻击或超声波攻击时,电子设备可以在数字域和模拟域中的至少一方面,对麦克风采集的第一音频信号进行加噪,从而输出比第一音频信号的信噪比更高的第二音频信号,其中,无论是受到激光攻击还是超声波攻击,加噪所采用的音频信号相同。但由于当通过激光攻击麦克风时,如果激光的功率偏大则可能会烧毁麦克风,因此,激光攻击所采用的激光的功率比较低,因此在另一实施例中,电子设备可以在确定麦克风受到激光攻击时,基于第三音频信号(和第六音频信号),对第一音频信号进行加噪处理;而在确定麦克风受到超声波攻击时,基于第七音频信号(和第九音频信号),对第一音频信号进行加噪处理,其中,第七音频信号的功率可以大于第三音频信号的功率,第九音频信号的功率可以大于第六音频信号的功率。
206.需要说明的是,电子设备基于第七音频信号对第一音频信号进行加噪处理的方式,可以与电子设备基于第三音频信号对第一音频信号进行加噪处理的方式相同或相似;电子设备基于第九音频信号对第一音频信号进行加噪处理的方式,可以与电子设备基于第六音频信号对第一音频信号进行加噪处理的方式相同或相似。
207.请参照图12,为本技术实施例所提供的一种处理语音业务的方法的流程图。需要说明的是,该方法并不以图12以及以下所述的具体顺序为限制,应当理解,在其它实施例中,该方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该方法包括如下步骤:
208.s1201,电子设备通过麦克风采集用于语音业务的第一音频信号。
209.其中,电子设备通过麦克风采集用于语音业务的第一音频信号的方式,可以与前述s701中电子设备采集第一音频信号的方式相同或相似,此处不再一一赘述。
210.s1202,电子设备基于第一音频信号输出第二音频信号,其中,若第一音频信号包括激光攻击信号,则第二音频信号的信噪比大于第一音频信号的信噪比。
211.在一些实施例中,电子设备可以通过执行与前述s702-s704中一个或多个步骤所描述的相同或相似的方式,来基于第一音频信号输出第二音频信号。
212.在一些实施例中,电子设备可以通过执行与前述s902-s904中一个或多个步骤所描述的相同或相似的方式,来基于第一音频信号输出第二音频信号。
213.在一些实施例中,电子设备可以通过执行与前述s1002-s1006中一个或多个步骤所描述的相同或相似的方式,来基于第一音频信号输出第二音频信号。
214.在一些实施例中,电子设备可以通过执行与前述s1102-s1105中一个或多个步骤所描述的相同或相似的步骤,来基于第一音频信号输出第二音频信号。
215.当然,在实际应用中,电子设备也可以通过其他方式来基于第一音频信号输出第二音频信号,只要确保在第一音频信号包括激光攻击信号的情况下,第二音频信号的信噪比大于第一音频信号的信噪比即可。
216.s1203,电子设备基于第二音频信号处理语音业务。
217.需要说明的是,电子设备基于第二音频信号处理语音业务的方式,可以与前述s705中基于第二音频信号处理语音业务的方式相同或相似,此处不再一一赘述。
218.在本技术实施例中,在通过麦克风采集倒第一音频信号的情况下,可以基于第一音频信号输出第二音频信号,使得在第一音频信号包括激光攻击信号的情况下,第二音频信号的信噪比大于第一音频信号的信噪比,那么在基于第二音频信号处理语音业务时,第二音频信号中的激光攻击信号更难被识别,也即是,降低了被激光攻击的风险,提高了电子设备和用户数据的安全性。由于不需要对用户进行额外的提醒或者确认,因而不会降低电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。
219.请参照图8,为本技术实施例所提供的一种处理语音业务的方法的流程图。以下将以s705为例,对电子设备处理语音业务的方式进行说明。需要说明的是,该方法并不以图8以及以下所述的具体顺序为限制,应当理解,在其它实施例中,该方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该方法包括如下步骤:
220.s801,电子设备对第二音频信号进行vad检测,得到第十音频信号,第十音频信号中包括语音信息。
221.电子设备可以对第二音频信号进行vad检测,确定其中所包括的语音信息的开始点和结束点,将开始点和结束点之间的音频信号确定为第十音频信号。也即是,第十音频信号可以为第二音频信号中的至少一部分。
222.需要说明的是,若电子设备未从第二音频信号中检测到语音信息,也即是,未能得到第十音频信号,则可以停止执行后续步骤。
223.s802,电子设备对第十音频信号进行kws检测。
224.由于第十音频信号中虽然包括语音信息,但该语音信息中可能包括大量的信息,而这些大量的信息中可能只有部分信息与电子设备相关,比如触发电子设备的某些功能等,因此,为了提高处理语音业务的准确性和效率,电子设备可以对第十音频信号进行kws检测,从而判断地点起音频信号中是否包括预定义的词或词组。
225.例如,电子设备为智能音箱,预定义的词为用户事先为该智能音箱设置的唤醒词“小艺”,那么电子设备在睡眠状态获取到第十音频信号,并对第十音频信号进行kws检测,若第十音频信号中包括“小艺”,则切换至唤醒状态,若第十音频信号中不包括“小艺”,则继续保持睡眠状态。
226.s803,电子设备对第十音频信号进行asr处理。
227.电子设备可以对第十音频信号进行asr处理,从而将第十音频信号中包括的语音信息转换为文本信息,该文本信息可以用于电子设备进一步准确判断用户的意图或指示,进而能够与用户进行对话或者按照用户的意图或指示执行相应的操作。
228.仍以电子设备为智能音箱为例,通过s802,该智能音箱已经进入了唤醒状态,那么该智能音箱可以进一步对第十音频信号包括的语音进行asr处理,得到的文本信息为“打开电视机”,因此,该智能音箱可以向智能电视发送打开指令,以打开智能电视机。
229.基于同一构思,作为对上述方法的实现,本技术实施例提供了一种处理语音业务的装置,该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
230.请参照图13,为本技术实施例提供的处理语音业务的装置1300的结构示意图,如图13所示,本实施例提供的装置包括:音频模块140和语音业务模块170。
231.音频模块140,用于通过麦克风采集用于语音业务的第一音频信号,基于第一音频信号输出第二音频信号,其中,若第一音频信号包括激光攻击信号,则第二音频信号的信噪比大于第一音频信号的信噪比;
232.语音业务模块170,用于基于第二音频信号处理语音业务。
233.在一些实施例中,音频模块140具体用于:
234.获取第三音频信号,第三音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;
235.基于第三音频信号,对第一音频信号进行加噪处理,得到第二音频信号。
236.在一些实施例中,音频模块140具体用于:
237.通过扬声器播放与第三音频信号对应的声音,并通过麦克风采集得到第二音频信号,其中,播放与第三音频信号对应的声音的时长与采集第二音频信号的时长至少部分重合。
238.在一些实施例中,音频模块140具体用于:
239.将第三音频信号调制至第四音频信号,得到第五音频信号,第四音频信号和第五音频信号的频率大于16khz;
240.通过扬声器播放与第五音频信号对应的声音,并通过麦克风采集得到第二音频信号,其中,播放与第五音频信号对应的声音的时长与采集第二音频信号的时长至少部分重合。
241.在一些实施例中,音频模块140具体用于:
242.将第六音频信号和通过麦克风采集得到的第二音频信号在数字域进行叠加,得到新的第二音频信号,第六音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;
243.语音业务模块170具体用于:
244.基于新的第二音频信号处理语音业务。
245.在一些实施例中,音频模块140具体用于:
246.将第三音频信号和第一音频信号在数字域进行叠加,得到第二音频信号。
247.在一些实施例中,该装置还包括处理模块;
248.若处理模块确定麦克风受到激光攻击,则触发音频模块140基于第三音频信号,对第一音频信号进行加噪处理。
249.在一些实施例中,若处理模块确定麦克风受到超声波攻击,则触发音频模块140基于第七音频信号,对第一音频信号进行加噪处理,第七音频信号的功率大于第三音频信号的功率。
250.在一些实施例中,处理模块可以设置在前述的处理器110中。
251.在一些实施例中,第三音频信号的功率,与受到激光攻击或超声波攻击的可信度成正相关。
252.基于同一构思,本技术实施例还提供了一种电子设备,该电子设备可以包括:存储器和处理器,存储器用于存储计算机程序;处理器用于在调用计算机程序时执行上述方法实施例所述的方法。
253.本实施例提供的电子设备可以执行上述方法实施例,其实现原理与技术效果类似,此处不再赘述。
254.基于同一构思,本技术实施例还提供了一种芯片系统。该所述芯片系统包括处理器,所述处理器与存储器耦合,所述处理器执行存储器中存储的计算机程序,以实现上述方法实施例所述的方法。
255.其中,该芯片系统可以为单个芯片,或者多个芯片组成的芯片模组。
256.本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例所述的方法。
257.本技术实施例还提供一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行时实现上述方法实施例所述的方法。
258.上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质。例如u盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
259.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
260.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
261.在本技术所提供的实施例中,应该理解到,所揭露的装置/设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
262.应当理解,当在本技术说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
263.还应当理解,在本技术说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
264.如在本技术说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0265]
另外,在本技术说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0266]
在本技术说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本技术的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0267]
最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
技术特征:
1.一种处理语音业务的方法,其特征在于,所述方法包括:通过麦克风采集用于语音业务的第一音频信号;基于所述第一音频信号输出第二音频信号,其中,若所述第一音频信号包括激光攻击信号,则所述第二音频信号的信噪比大于所述第一音频信号的信噪比;基于所述第二音频信号处理所述语音业务。2.根据权利要求1所述的方法,其特征在于,所述基于所述第一音频信号输出第二音频信,包括:获取第三音频信号,所述第三音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;基于所述第三音频信号,对所述第一音频信号进行加噪处理,得到所述第二音频信号。3.根据权利要求2所述的方法,其特征在于,所述基于所述第三音频信号,对所述第一音频信号进行加噪处理,包括:通过扬声器播放与所述第三音频信号对应的声音,并通过所述麦克风采集得到所述第二音频信号,其中,播放与所述第三音频信号对应的声音的时长与采集所述第二音频信号的时长至少部分重合。4.根据权利要求2所述的方法,其特征在于,所述基于所述第三音频信号,对所述第一音频信号进行加噪处理,包括:将所述第三音频信号调制至第四音频信号,得到第五音频信号,所述第四音频信号和所述第五音频信号的频率大于16khz;通过扬声器播放与所述第五音频信号对应的声音,并通过所述麦克风采集得到所述第二音频信号,其中,播放与所述第五音频信号对应的声音的时长与采集所述第二音频信号的时长至少部分重合。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:将第六音频信号和通过所述麦克风采集得到的所述第二音频信号在数字域进行叠加,得到新的第二音频信号,所述第六音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;所述基于所述第二音频信号处理所述语音业务,包括:基于所述新的第二音频信号处理所述语音业务。6.根据权利要求2所述的方法,其特征在于,所述基于所述第三音频信号,对所述第一音频信号进行加噪处理,包括:将所述第三音频信号和所述第一音频信号在数字域进行叠加,得到所述第二音频信号。7.根据权利要求2-6任一所述的方法,其特征在于,所述基于所述第三音频信号,对所述第一音频信号进行加噪处理,包括:若确定所述麦克风受到所述激光攻击,则基于所述第三音频信号,对所述第一音频信号进行加噪处理。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:若确定所述麦克风受到超声波攻击,则基于第七音频信号,对所述第一音频信号进行加噪处理,所述第七音频信号的功率大于所述第三音频信号的功率。
9.根据权利要求2-8任一所述的方法,其特征在于,所述第三音频信号的功率,与受到所述激光攻击或超声波攻击的可信度成正相关。10.一种处理语音业务的装置,其特征在于,所述装置包括音频模块和语音业务模块;所述音频模块,用于通过麦克风采集用于语音业务的第一音频信号,基于所述第一音频信号输出第二音频信号,其中,若所述第一音频信号包括激光攻击信号,则所述第二音频信号的信噪比大于所述第一音频信号的信噪比;所述语音业务模块,用于基于所述第二音频信号处理所述语音业务。11.根据权利要求10所述的装置,其特征在于,所述音频模块具体用于:获取第三音频信号,所述第三音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;基于所述第三音频信号,对所述第一音频信号进行加噪处理,得到所述第二音频信号。12.根据权利要求11所述的装置,其特征在于,所述音频模块具体用于:通过扬声器播放与所述第三音频信号对应的声音,并通过所述麦克风采集得到所述第二音频信号,其中,播放与所述第三音频信号对应的声音的时长与采集所述第二音频信号的时长至少部分重合。13.根据权利要求11所述的装置,其特征在于,所述音频模块具体用于:将所述第三音频信号调制至第四音频信号,得到第五音频信号,所述第四音频信号和所述第五音频信号的频率大于16khz;通过扬声器播放与所述第五音频信号对应的声音,并通过所述麦克风采集得到所述第二音频信号,其中,播放与所述第五音频信号对应的声音的时长与采集所述第二音频信号的时长至少部分重合。14.根据权利要求12或13所述的装置,其特征在于,所述音频模块具体用于:将第六音频信号和通过所述麦克风采集得到的所述第二音频信号在数字域进行叠加,得到新的第二音频信号,所述第六音频信号为频率范围包括0hz-16khz中至少部分频率的噪声信号;所述语音业务模块具体用于:基于所述新的第二音频信号处理所述语音业务。15.根据权利要求11所述的装置,其特征在于,所述音频模块具体用于:将所述第三音频信号和所述第一音频信号在数字域进行叠加,得到所述第二音频信号。16.根据权利要求11-15任一所述的装置,其特征在于,所述装置还包括处理模块:若所述处理模块确定所述麦克风受到所述激光攻击,则触发所述音频模块基于所述第三音频信号,对所述第一音频信号进行加噪处理。17.根据权利要求16所述的装置,其特征在于,若所述处理器模块确定所述麦克风受到超声波攻击,则触发所述音频模块基于第七音频信号,对所述第一音频信号进行加噪处理,所述第七音频信号的功率大于所述第三音频信号的功率。18.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器用于存储计算机程序;所述处理器用于在调用所述计算机程序时执行如权利要求1-9任一项所述的方法。19.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序
被处理器执行时实现如权利要求1-9任一项所述的方法。
技术总结
本申请提供一种处理语音业务的方法、装置及电子设备,涉及终端技术领域,其中,该方法包括通过麦克风采集用于语音业务的第一音频信号,基于所述第一音频信号输出第二音频信号,其中,若所述第一音频信号包括激光攻击信号,则所述第二音频信号的信噪比大于所述第一音频信号的信噪比,基于所述第二音频信号处理所述语音业务。本申请提供的技术方案能够降低被激光攻击的风险,提高了电子设备和用户数据的安全性同时不需要对用户进行额外的提醒或者确认,确保了电子设备的便捷性,也提升了用户体验,避免了公司品牌的经济损失。避免了公司品牌的经济损失。避免了公司品牌的经济损失。
技术研发人员:郭峰 鲍光照 金伟 覃尧钧
受保护的技术使用者:华为技术有限公司
技术研发日:2022.03.02
技术公布日:2023/9/11
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/