一种基于语音身份识别的助听方法、装置及设备与流程
未命名
09-15
阅读:50
评论:0

1.本发明涉及助听技术领域,尤其涉及一种基于语音身份识别的助听方法、装置、设备及介质。
背景技术:
2.对于听力障碍者,通常采用配备助听器的方法以帮助他们与他人语言交流,常规助听器主要功能是放大声音,降低环境噪声。但是很多听力障碍者,往往在配助听器时感觉效果还行,在实际交流场景中的使用效果不好。
3.目前语音识别和语音合成技术已经很成熟了,广泛应用于各行各业。基于语音识别和语音合成技术的各种应用技术多聚焦于特定场景下实现某种功能或改进使用感受和使用效果。例如,申请号为202210454772.7的发明专利《一种新型超强降噪的助听器语音处理系统》就是语音识别和语音合成技术的一种降噪应用,该技术利用数字技术分解重塑再造语音信号,将语音识别和语音合成技术用于滤除噪声,以实现“信噪比达到或超过目前高端数字助听器水平”,并且在合成语音时保留原说话者的语音特征。
4.应用语音识别技术进行语音转文本和文本管理的应用也普遍,均属现有技术范畴,例如申请号为201980101053.3的发明专利《语音信息处理方法、中枢设备、控制终端及存储介质》应用语音识别技术在多人访谈场景下实现识别发言者并完成文稿整理。一些现有技术采用语音识别技术,将语音转换文本后以某种方式展现给听力障碍者看,以实现帮助其与人进行交流的目的,均存在如何高效展示文本信息的具体技术问题,基于该场景下的装置一般操作繁琐,老年听力障碍者难以适应。
5.要能够有效的帮助听力障碍者,首先要了解听力障碍的具体成因。
6.导致听力障碍的病因有诸多解释,老年性的听力障碍一般归因于退行性的高频感知困难,频率分量缺失,相当于听到的是过度低通滤波后的声音,滤除音调变化,只殘留了响度信息,表现为只听得的声音不明白意思。
7.此外,部分老年听力障碍者的病因是大脑对声音解析能力衰退导致的,表现为听得到声音不明白意思,提高音量可以使得他们听明白你的语言表达,可以与你近乎正常的交流,可是配了单纯放大声音分贝、降低环境噪音的助听器后效果却很差。用诸如高频感知困难,或频率分量缺失等原因很难解释这类现象,原因为单纯提高音量并不会导致音频的提高。
8.其实对于这种语言解析能力衰退导致的语言障碍,大声说话听力障碍者能听懂的原因不是声音音量的提高,而是提高音量的同时必然伴随的语音速度的放慢和语言词汇的发音更加规范,使得这些听力解析能力衰退的语言障碍者能够勉强应付。这也是为什么在配助听器时感觉效果还行,但是在实际交流场景中感觉效果不好的具体原因,因为在配助听器特定场景中,专业人员面对听力障碍者职业习惯性的会降低语音速度,并且发音更清晰。
9.对于上述两种听力障碍者,仅靠助听器放大声音或是滤除噪声提高信噪比是没有
意义的。
10.技术改进的方向应该是,对于高频感知困难情况,如果退行性的高频感知困难还没有发展到对高频完全不响应,可以考虑在语音的高频段给以增强补偿,这会导致语音特征的变化,正常人听起来很怪异,对高频感知困难者有重要意义。对于大脑解析能力退化情况,更实际的路径是应用成熟的语音技术,降低语速,规范发音,去适应听力障碍者退化了的大脑听力解析能力。
11.对老年听力障碍者,助听器的具体使用方法极大地影响着他们的使用感受,而不良感受又会使其注意力分散,进而导致语言解析能力显得更差。大量老年人不愿使用助听器的一个重要原因就是使用效果和使用感受差,进而产生抵触情绪,因此技术改进的重点是将用户感受放在产品改进的重要位置。
12.具体改进方案,不能基于要求交流对象去长时段的改变自己说话的习惯,而是要通过现有技术手段去改变交流对象的语音特征,增强老年听力障碍者的语音解析能力,同时提供更加简单流畅的使用方法,方便老年听力障碍者使用,提高用户友好感受,让交流双方都能够自然地交谈。
技术实现要素:
13.本发明提供一种基于语音身份识别的助听方法、装置、设备及介质,用以解决上述至少一个技术问题。
14.第一方面,本发明提供一种基于语音身份识别的助听方法,包括:
15.步骤s1:采集待处理语音;
16.步骤s2:识别所述待处理语音对应的身份,若为机主身份,提取所述待处理语音的语音信息保存至机主的语音信息列表;若为交流对象身份,提取所述待处理语音的语音信息保存至交流对象的语音信息列表;
17.步骤s3:基于所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;
18.步骤s4:播放所述合成语音信息。
19.上述技术方案,通过识别当前说话者是否为听力障碍者自己,不播放自己话语,对交流对象的语音,以听力障碍者熟悉的语言,可选择的语音特征,可调节的语速,可调节的音量,重构合成语音播放给听力障碍者,辅助特定类型的听力障碍者收听交流对象用语言表达的信息,正确理解交流对象的语音信息。
20.可选地,在所述步骤s1之前,还包括对基础设置进行预设,所述基础设置,包括:
21.交流语言;听力障碍者语音特征;合成语音特征;语速参数;音量参数。
22.可选地,步骤s2:识别所述待处理语音对应的身份,若为机主身份,保存机主语音信息至机主的语音信息列表;若为交流对象身份,保存交流对象语音信息至交流对象的语音信息列表,进一步包括:
23.步骤s2.1:逐段分析所述待处理语音,提取所述语音的语音特征和文本信息;
24.步骤s2.2:判断所述语音特征与预设机主语音特征是否相符,若相符,转步骤2.3;若不相符,转步骤s2.4;
25.步骤s2.3:识别为机主身份,将所述文本信息作为机主语音信息保存至机主的语
音信息列表;
26.步骤s2.4:识别为交流对象身份,将所述文本信息作为交流对象语音信息保存至交流对象的语音信息列表。
27.可选地,在步骤s2.4中,将所述文本信息作为交流对象语音信息保存至交流对象语音信息列表,进一步包括:
28.步骤s2.4.1:若当前交流对象的数量等于0时,转步骤s2.4.2;若当前交流对象的数量等于n(n≥1)时,转步骤s2.4.3;
29.步骤s2.4.2:交流对象的数量增加1,将步骤s2.1中提取的语音特征设置为第一交流对象的语音特征,将步骤s2.1中提取的文本信息添加至第一交流对象的语音信息列表,转步骤s3;
30.步骤s2.4.3:将步骤s2.1中提取的语音特征按顺序依次与已有的n个交流对象的语音特征比对;若与n个交流对象的语音特征均不相符时,转步骤s2.4.4;与第x(1≤x≤n)交流对象的语音特征相符时,转步骤s2.4.5;
31.s2.4.4:交流对象的数量增加1,将s2.1中提取的语音特征设置为第n+1交流对象的语音特征,将s21中提取的文本信息添加至第n+1交流对象的语音信息列表,转步骤s3;
32.s2.4.5:将s21中提取的文本信息添加至第x交流对象的语音信息列表。
33.可选地,所述合成语音特征,包括:
34.将步骤s2中提取的交流对象语音特征设置为合成语音特征。
35.可选地,在所述步骤s1至所述步骤s4之间任意时刻,设置语速参数和/或设置音量参数。
36.第二方面,本发明提供一种基于语音身份识别的助听装置,其特征在于,包括:
37.采集单元,用于采集待处理语音;
38.识别单元,用于识别所述待处理语音对应的身份,若为机主身份,保存机主语音信息至机主的语音信息列表;若为交流对象身份,保存交流对象语音信息至交流对象的语音信息列表;
39.生成单元,用于将所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;
40.播放单元,用于播放所述合成语音信息。
41.可选地,所述采集单元为多声道采集单元;所述识别单元采用多声道语音定位技术,用于抑制环境噪声,增强语音信息信噪比;所述识别单元采用语音分离技术,当多人语音重叠时,分离语音信息中多人的语音特征和文本信息。
42.可选地,还包括:外部显示单元,用于显示所述交流对象的语音信息列表;机主耳机,用于收听播放的合成语音信息。
43.第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于预设基础设置方法。
44.本发明相对于现有技术的有益效果是:
45.(1)建立了语音特征比对机制,判别当前语音信息是否为机主自己的语音。对自己的语音不启动语音合成和语音播放功能,彻底消除了现有技术的助听方法中自己声音对自
己的困扰,这一点对听力解析能力衰退者尤其有意义。
46.(2)对交流对象的发言,将语音信息中的语音特征替换为适合机主的语音特征,同时按适合机主的语速参数合成语音,语速改变的同时不改变语音音频特征,辅助了特定类型的听力障碍者收听交流对象用语言表达的信息,正确理解交流对象的语音信息。
附图说明
47.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1是根据本发明实施例的基于语音身份识别的助听方法流程示意图之一;
49.图2是根据本发明实施例的基于语音身份识别的助听方法流程示意图之二;
50.图3是根据本发明实施例的基于语音身份识别的助听方法流程示意图之三;
51.图4是根据本发明实施例的基于语音身份识别的助听方法流程示意图之四;
52.图5是根据本发明实施例的基于语音身份识别的助听装置的结构示意图;
53.图6是根据本发明实施例的电子设备的结构示意图。
具体实施方式
54.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
55.本发明中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
56.本发明中术语“多个”是指两个或两个以上,其它量词与之类似。
57.如图1所示,本发明提供一种基于语音身份识别的助听方法,该方法包括:
58.步骤s1:采集待处理语音;
59.步骤s2:识别所述待处理语音对应的身份,若为机主身份,提取所述待处理语音的语音信息保存至机主的语音信息列表;若为交流对象身份,提取所述待处理语音的语音信息保存至交流对象的语音信息列表;
60.步骤s3:基于所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;
61.步骤s4:播放所述合成语音信息。
62.具体地,采集待处理语音是通过语音采集设备进行的。语音的采集可以通过任意可以采集语音的设备,例如麦克风,外置传声器等;采集设备可以有多个声道,便于应用语音定位技术和语音分离技术分将多个同时发言的交流对象语音分离开,分别提取多个交流对象的语音特征和文本信息。
63.采集到语音信息后,进行语音身份识别,语音身份包括机主身份和交流对象身份。
可以通过提取待处理语音中的特征来区分不同的语音身份。例如,可以提取声纹特征。待处理语音的语音信息,可以是待处理语音本身,也可以是根据待处理语音转化而来的文本信息。相应的,语音信息列表的内容根据提取的待处理语音信息的内容确定。例如,若提取的待处理语音的语音信息为文本信息时,机主的语音信息列表为机主的文本信息列表,交流对象的语音信息列表为交流对象的文本列表。语音身份识别为机主,此时,机主的语音信息列表不参与后续的合成和播放;语音身份识别为交流对象身份,交流对象的语音信息列表,参与后续的合成和播放。
64.合成语音信息是指根据预设的基础设置(例如交流语言、语音特征、语速参数、音量参数)根据交流对象的语音信息列表生成而来的语音信息。
65.特别地,由于语音采集设备采集语音的过程中,机主由于自身距离采集设备比较近,音量较大,如果将自身的声音也参与合成和播放,将给机主带来困扰,而本技术实施例在识别了语音身份之后,机主的语音信息不参与合成,只合成交流对象的语音信息,极大的改善了机主使用体验。
66.播放该合成语音信息,机主可以通过耳机等收音设备听取播放的经过合成之后的语音。由于合成语音信息在播放速度、播放音量根据机主的喜好进行调整,以及可以根据机主听力曲线进行相应的频段的增益补偿,使得机主听取合成语音信息时,能正确理解交流对象的语音信息,体验好。
67.上述技术方案,通过识别当前说话者是否为机主自己,不播放自己语音,只播放交流对象语音,对交流对象的语音,可以机主熟悉的语言,可选择的语音特征,可调节的较慢语速,可调节的较高音量,重构合成语音播放给机主,辅助特定类型的机主收听交流对象用语言表达的信息,正确理解交流对象的语音信息,提升机主体验。
68.可选地,在所述步骤s1之前,还包括对基础设置进行预设,所述基础设置,包括:
69.交流语言;听力障碍者语音特征;合成语音特征;语速参数;音量参数。
70.具体地,所述步骤s1之前,只需进行一次预设基础设置,后续无需再次设置。
71.交流语言是指定某种语言,例如汉语,英语,德语,也可以是某种语言的地方方言,例如,汉语粤方言。
72.听力障碍者语音特征是设置听力障碍者自己的声音特征,例如声纹特征。可以让机主阅读特定文本,采集机主的语音,提取机主的语音特征,设置为机主语音特征。
73.合成语音特征是用于设置合成语音时,合成的语音具有的语音特征。可以让机主听不同人的发音,选择某人的语音特征,例如某播音员的语音特征,设置为合成语音特征。对于部分高频感知困难的机主,可以考虑选择某人语音特征后,增强其中的高频成分,设置为合成语音特征;也可以将交流对象自己的语音特征设置为合成语音特征,这样做的意义在于,合成语音将保留交流对象的个人声音特色,同时去除交流对象可能有的不规范的语言习惯,使得机主解析语音时更容易。但是对于老年机主,对不是十分熟悉的交流对象通常不建议将交流对象的语音特征设置为合成语音特征。
74.语速参数是用于合成语音信息的,对于大脑听力解析能力退化的机主,降低语速的意义更大,这里的降低语速,不同于播放语音时的慢放操作,后者会导致所有音频等比例下移,导致语音特征的失真,前者是在保留语音特征的前提下实现的,不会使机主产生陌生感或怪异感,降低解析语音时的负担。
75.音量参数是用于合成语音信息的,控制与语音播放设备在播放时改变放大器增益。
76.步骤s2:识别所述待处理语音对应的身份,若为机主身份,保存机主语音信息至机主的语音信息列表;若为交流对象身份,保存交流对象语音信息至交流对象的语音信息列表,进一步包括:
77.步骤s2.1:逐段分析所述待处理语音,提取所述语音的语音特征和文本信息;
78.步骤s2.2:判断所述语音特征与预设机主语音特征是否相符,若相符,转步骤2.3;若不相符,转步骤s2.4;
79.步骤s2.3:识别为机主身份,将所述文本信息作为机主语音信息保存至机主的语音信息列表;
80.步骤s2.4:识别为交流对象身份,将所述文本信息作为交流对象语音信息保存至交流对象的语音信息列表。
81.具体地,在进行语音合成之前,将机主和交流对象的语音信息区分开的方法是:语音特征与预设基础设置中的机主语音特征相符,表明当前语音信息是机主自己的发言;语音特征与预设基础设置中的机主语音特征不相符,则表示当前语音信息是交流对象的语音信息。交流对象可以是一个,也可以是多个,且多个交流对象可以同时发言,出现语音重叠。如果重叠可以采用多声道语音定位技术和语音分离技术,分离语音信息中多个交流对象的语音特征和文本信息。
82.对机主的语音信息提取了语音特征和文本信息后,只将文本信息保存至机主语音信息列表,该文本信息不参与后续的语音合成和播放;
83.对多个交流对象的语音信息提取了语音特征和文本信息后,将文本信息按照各个交流对象分别存储至各个交流对象的语音信息列表。
84.通过上述方法,将机主与交流对象的音频区分开,方便后续对机主和交流对象的不同处理。
85.可选地,在步骤s2.4中,将所述文本信息作为交流对象语音信息保存至交流对象语音信息列表,进一步包括:
86.步骤s2.4.1:若当前交流对象的数量等于0时,转步骤s2.4.2;若当前交流对象的数量等于n(n≥1)时,转步骤s2.4.3;
87.步骤s2.4.2:交流对象的数量增加1,将步骤s2.1中提取的语音特征设置为第一交流对象的语音特征,将步骤s2.1中提取的文本信息添加至第一交流对象的语音信息列表,转步骤s3;
88.步骤s2.4.3:将步骤s2.1中提取的语音特征按顺序依次与已有的n个交流对象的语音特征比对;若与n个交流对象的语音特征均不相符时,转步骤s2.4.4;与第x(1≤x≤n)交流对象的语音特征相符时,转步骤s2.4.5;
89.s2.4.4:交流对象的数量增加1,将s2.1中提取的语音特征设置为第n+1交流对象的语音特征,将s21中提取的文本信息添加至第n+1交流对象的语音信息列表,转步骤s3;
90.s2.4.5:将s21中提取的文本信息添加至第x交流对象的语音信息列表。
91.具体地,有多个交流对象参与交流时,要保留完整的交流文本信息,须区分交流对象,分别将文本信息添加到对应的交流对象的语音信息列表中。
92.针对s2.4.2,之前交流对象的数量等于0,表明此时,s02中提取的语音特征,判定为交流对象语音特征的,一定是第一交流对象。
93.针对s2.4.3,之前交流对象的数量等于n(n≥1),需要将s02提取的语音特征,还须与n个已知交流对象的语音特征比对,判断是否与其中之一相符。
94.针对s2.4.4,与n个交流对象的语音特征均不相符时,表明这是一个新的交流对象。
95.针对s2.4.5,与第x个交流对象的语音特征均相符时,文本信息应添加至第x交流对象的语音信息列表。
96.上述技术方案,将多个交流对象的语音信息保留完整,为后续合成和播放各个交流对象的语音提供基础数据。
97.可选地,所述合成语音特征,包括:将步骤s2中提取的交流对象语音特征设置为合成语音特征。
98.具体地,可以根据机主的喜好,选择合适的语速参数,选择合适的音量参数,选择喜欢的合成语音特征种类对交流对象的语音识别结果,生成合成语音信息。在该设置下,机主可以更好的理解交流对象的语音。特别地,可以将步骤s2中提取的交流对象语音特征设置为合成语音特征,实时的将交流对象的语音用其自身的声音特征合成,大大提升了机主的使用体验。
99.可选地,在所述步骤s1至所述步骤s4之间任意时刻,设置语速参数和/或设置音量参数。
100.具体地,设置语速参数和/或设置音量参数,用于生成合成语音信息。在采集语音信息,识别语音信息,播放语音信息的任意时刻,可以单独设置语速参数,也可以单独设置音量参数,还可以同时设置语速参数和音量参数。改变原有语速参数和/或音量参数,使之更适合机主,使特定机主可以接收交流对象的语音信息,更好的理解语音信息。
101.以下通过具体实施例对本技术各上述实施例提供的方法进行举例说明。
102.如图2所示,基于语音身份识别的助听方法可以通过如下步骤实现,该方法可搭载硬件实现助听器,此时,机主即为机主。
103.步骤1.设置交流语言,测试机主的语音特征,设置为机主语音特征;选择语音特征,设置为合成语音特征;设置语速参数和音量参数;
104.初次使用本发明的助听器时,须先行执行步骤1,后续使用时,可开机直接进入步骤2。
105.步骤2.语音采集单元进入连续采集语音信息模式;
106.步骤3.语音识别单元逐段分析步骤2采集的语音信息,提取语音信息的语音特征和文本信息;
107.步骤4.判断步骤3提取的语音特征与机主语音特征是否相符,相符,转步骤5;不相符,转步骤6;
108.语音特征与机主语音特征相符,表明当前语音信息是机主自己的发言。
109.步骤5.将步骤3中提取的文本信息添加在机主文本列表,转步骤9;
110.步骤6.将步骤3中提取的文本信息添加到交流对象的文本列表;
111.交流对象可以有多个,且交流对象可以同时发言,出现语音重叠现象。
112.步骤7.语音合成单元根据设置的交流语言、合成语音特征、语速参数、音量参数,将步骤3中提取的文本信息合成为合成语音信息;
113.步骤8.语音播放单元播放步骤7中得到的合成语音信息;
114.步骤9.当前语音段结束,回到步骤3。
115.在步骤2至步骤9之间,可强制中断,改变语速参数,改变音量参数。
116.可选地,有多个交流对象参与交流时,要保留完整的交流文本信息,须区分交流对象,分别将文本信息添加到对应的交流对象的文本列表中。步骤6如图3所示:
117.步骤6.将步骤3中提取的文本信息添加在交流对象的文本列表;
118.步骤6.1.判断之前交流对象的数量是否等于0,等于0时,转步骤6.2;等于n(n≥1)时,转步骤6.3;
119.步骤6.2.交流对象的数量增加1,将步骤3中提取的语音特征设置第1个交流对象的语音特征,将步骤3中提取的文本信息添加在第1个交流对象的文本列表,转向步骤7;
120.之前交流对象的数量等于0,表明此时,步骤3中提取的语音特征,经步骤4判定为非机主语音特征的,一定是第1个发言的交流对象。
121.步骤6.3.将步骤3中提取的语音特征按顺序依次与已有的n个交流对象的语音特征比对;与n个交流对象的语音特征均不相符时,转步骤6.4;与第x(1≤x≤n)个交流对象的语音特征相符时,转步骤6.5;
122.之前交流对象的数量等于n(n≥1),需要将步骤3中提取的语音特征,,虽然经步骤4判定为非机主语音特征的,还须与n个已知语音特征比对,判断是否与其中之一相符。
123.步骤6.4.交流对象的数量增加1,将步骤3中提取的语音特征设置第n+1个交流对象的语音特征,将步骤3中提取的文本信息添加在第n+1个交流对象的文本列表,转向步骤7;
124.与n个交流对象的语音特征均不相符时,表明这是一个新的交流对象。
125.步骤6.5.将步骤3中提取的文本信息添加在第x个交流对象的文本列表;
126.与第x个交流对象的语音特征均相符时,文本信息应添加在第x个交流对象的文本列表。
127.可选地,有多个交流对象,且多个交流对象语音有重叠时,应用语音定位技术和语音分离技术,得到m个语音特征及其对应的文本信息,应分别将文本信息添加到对应的交流对象的文本列表中,并依次播放语音。如图4所示。
128.步骤3.1.逐段分析语音采集单元采集的语音信息,语音识别单元提取m组语音特征和对应的m组文本信息;
129.步骤3.2.建立m次循环,顺序对m组语音特征和文本信息,执行步骤4至步骤9;
130.步骤4.判断步骤3提取的语音特征与机主语音特征是否相符,相符,转步骤5;不相符,转步骤6;
131.语音特征与机主语音特征相符,表明当前语音信息是机主自己的发言。
132.步骤5.将步骤3中提取的文本信息添加在机主文本列表,转步骤9;
133.步骤6.将步骤3中提取的文本信息添加到交流对象的文本列表;
134.交流对象可以有多个,且交流对象可以同时发言,出现语音重叠现象。
135.步骤7.语音合成单元根据设置的交流语言、合成语音特征、语速参数、音量参数,
将步骤3中提取的文本信息合成为合成语音信息;
136.步骤8.语音播放单元播放步骤7中得到的合成语音信息;
137.步骤9.步骤3.2的m次循环未完成,返回步骤3.2,对下一组语音特征和文本信息,进行下一次循环;m次循环已完成,返回步骤3.1。
138.可选地,合成语音时,采用固定标准语音特征固然有益于听者解析语言,但是是长期听着不同的交流对象均持有千篇一律的语音特征,总有一些怪异,为了交流的自然真实感,对于机主十分熟悉的交流对象,可以指定用交流对象自己的语音特征去合成语音。
139.步骤1.设置交流语言;测试机主的语音特征,设置为机主语音特征;选择语音特征,将实时交流对象的语音特征设置为合成语音特征;设置语速参数和音量参数;
140.步骤7.1.若在步骤1中将实时交流对象的语音特征设置为合成语音特征,转步骤7.2;若未在步骤1中将实时交流对象的语音特征设置为合成语音特征,转步骤7.3;
141.步骤7.2.将步骤3中提取的语音特征设置为合成语音特征;
142.步骤7.3.语音合成单元根据设置的交流语言、合成语音特征、语速参数、音量参数,将步骤3中提取的文本信息合成为合成语音信息;
143.如此处置与直接慢速播放交流对象语音的不同在于,保留了交流对象的语音特征,但是交流对象说话时不规范的发音或不规范的语调在合成语音时会被滤除,并且语速和音量会按机主的需要调整。
144.下面对本发明提供的基于语音身份识别的助听装置进行描述,下文描述的基于语音身份识别的助听装置与上文描述的基于语音身份识别的助听方法可相互对应参照。
145.如图5所示,该装置包括:
146.采集单元500,用于采集待处理语音;
147.识别单元510,用于识别所述待处理语音对应的身份,若为机主身份,保存机主语音信息至机主的语音信息列表;若为交流对象身份,保存交流对象语音信息至交流对象的语音信息列表;
148.生成单元520,用于将所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;
149.播放单元530,用于播放所述合成语音信息。
150.可选地,在所述步骤s1之前,还包括对基础设置进行预设,所述基础设置,包括:
151.交流语言;听力障碍者语音特征;合成语音特征;语速参数;音量参数。
152.可选地,步骤s2:识别所述待处理语音对应的身份,若为机主身份,保存机主语音信息至机主的语音信息列表;若为交流对象身份,保存交流对象语音信息至交流对象的语音信息列表,进一步包括:
153.步骤s2.1:逐段分析所述待处理语音,提取所述语音的语音特征和文本信息;
154.步骤s2.2:判断所述语音特征与预设机主语音特征是否相符,若相符,转步骤2.3;若不相符,转步骤s2.4;
155.步骤s2.3:识别为机主身份,将所述文本信息作为机主语音信息保存至机主的语音信息列表;
156.步骤s2.4:识别为交流对象身份,将所述文本信息作为交流对象语音信息保存至交流对象的语音信息列表。
157.可选地,在步骤s2.4中,将所述文本信息作为交流对象语音信息保存至交流对象语音信息列表,进一步包括:
158.步骤s2.4.1:若当前交流对象的数量等于0时,转步骤s2.4.2;若当前交流对象的数量等于n(n≥1)时,转步骤s2.4.3;
159.步骤s2.4.2:交流对象的数量增加1,将步骤s2.1中提取的语音特征设置为第一交流对象的语音特征,将步骤s2.1中提取的文本信息添加至第一交流对象的语音信息列表,转步骤s3;
160.步骤s2.4.3:将步骤s2.1中提取的语音特征按顺序依次与已有的n个交流对象的语音特征比对;若与n个交流对象的语音特征均不相符时,转步骤s2.4.4;与第x(1≤x≤n)交流对象的语音特征相符时,转步骤s2.4.5;
161.s2.4.4:交流对象的数量增加1,将s2.1中提取的语音特征设置为第n+1交流对象的语音特征,将s21中提取的文本信息添加至第n+1交流对象的语音信息列表,转步骤s3;
162.s2.4.5:将s21中提取的文本信息添加至第x交流对象的语音信息列表。
163.可选地,所述合成语音特征,包括:
164.将步骤s2中提取的交流对象语音特征设置为合成语音特征。
165.可选地,在所述步骤s1至所述步骤s4之间任意时刻,设置语速参数和/或设置音量参数
166.可选地,所述采集单元为多声道采集单元;所述识别单元采用多声道语音定位技术,用于抑制环境噪声,增强语音信息信噪比;所述识别单元采用语音分离技术,当多人语音重叠时,分离语音信息中多人的语音特征和文本信息。
167.可选地,装置还包括:
168.外部显示单元,用于显示所述交流对象的语音信息列表;
169.机主耳机,用于收听播放的合成语音信息。。
170.图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(communicationsinterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于语音身份识别的助听方法,该方法包括:
171.步骤s1:采集待处理语音;
172.步骤s2:识别所述待处理语音对应的身份,若为机主身份,提取所述待处理语音的语音信息保存至机主的语音信息列表;若为交流对象身份,提取所述待处理语音的语音信息保存至交流对象的语音信息列表;
173.步骤s3:基于所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;
174.步骤s4:播放所述合成语音信息。
175.此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以
使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
176.又一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于语音身份识别的助听方法,该方法包括:
177.步骤s1:采集待处理语音;
178.步骤s2:识别所述待处理语音对应的身份,若为机主身份,提取所述待处理语音的语音信息保存至机主的语音信息列表;若为交流对象身份,提取所述待处理语音的语音信息保存至交流对象的语音信息列表;
179.步骤s3:基于所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;
180.步骤s4:播放所述合成语音信息。
181.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
182.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
183.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
技术特征:
1.一种基于语音身份识别的助听方法,其特征在于,包括:步骤s1:采集待处理语音;步骤s2:识别所述待处理语音对应的身份,若为机主身份,提取所述待处理语音的语音信息保存至机主的语音信息列表;若为交流对象身份,提取所述待处理语音的语音信息保存至交流对象的语音信息列表;步骤s3:基于所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;步骤s4:播放所述合成语音信息。2.根据权利要求1所述的基于语音身份识别的助听方法,其特征在于,在所述步骤s1之前,还包括对基础设置进行预设,所述基础设置,包括:交流语言;听力障碍者语音特征;合成语音特征;语速参数;音量参数。3.根据权利要求1所述的基于语音身份识别的助听方法,其特征在于,步骤s2:识别所述待处理语音对应的身份,若为机主身份,保存机主语音信息至机主的语音信息列表;若为交流对象身份,保存交流对象语音信息至交流对象的语音信息列表,进一步包括:步骤s2.1:逐段分析所述待处理语音,提取所述语音的语音特征和文本信息;步骤s2.2:判断所述语音特征与预设机主语音特征是否相符,若相符,转步骤2.3;若不相符,转步骤s2.4;步骤s2.3:识别为机主身份,将所述文本信息作为机主语音信息保存至机主的语音信息列表;步骤s2.4:识别为交流对象身份,将所述文本信息作为交流对象语音信息保存至交流对象的语音信息列表。4.根据权利要求3所述的基于语音身份识别的助听方法,其特征在于,在步骤s2.4中,将所述文本信息作为交流对象语音信息保存至交流对象语音信息列表,进一步包括:步骤s2.4.1:若当前交流对象的数量等于0时,转步骤s2.4.2;若当前交流对象的数量等于n(n≥1)时,转步骤s2.4.3;步骤s2.4.2:交流对象的数量增加1,将步骤s2.1中提取的语音特征设置为第一交流对象的语音特征,将步骤s2.1中提取的文本信息添加至第一交流对象的语音信息列表,转步骤s3;步骤s2.4.3:将步骤s2.1中提取的语音特征按顺序依次与已有的n个交流对象的语音特征比对;若与n个交流对象的语音特征均不相符时,转步骤s2.4.4;与第x(1≤x≤n)交流对象的语音特征相符时,转步骤s2.4.5;s2.4.4:交流对象的数量增加1,将s2.1中提取的语音特征设置为第n+1交流对象的语音特征,将s21中提取的文本信息添加至第n+1交流对象的语音信息列表,转步骤s3;s2.4.5:将s21中提取的文本信息添加至第x交流对象的语音信息列表。5.根据权利要求2所述的基于语音身份识别的助听方法,其特征在于,所述合成语音特征,包括:将步骤s2中提取的交流对象语音特征设置为合成语音特征。6.根据权利要求1所述的基于语音身份识别的助听方法,其特征在于,在所述步骤s1至所述步骤s4之间任意时刻,设置语速参数和/或设置音量参数。
7.一种基于语音身份识别的助听装置,其特征在于,包括:采集单元,用于采集待处理语音;识别单元,用于识别所述待处理语音对应的身份,若为机主身份,保存机主语音信息至机主的语音信息列表;若为交流对象身份,保存交流对象语音信息至交流对象的语音信息列表;生成单元,用于将所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;播放单元,用于播放所述合成语音信息。8.根据权利要求7所述的基于语音身份识别的助听装置,其特征在于,所述采集单元为多声道的采集单元;所述识别单元采用多声道语音定位技术,用于抑制环境噪声,增强语音信息信噪比;所述识别单元采用语音分离技术,当多人语音重叠时,分离语音信息中多人的语音特征和文本信息。9.根据权利要求7所述的基于语音身份识别的助听装置,其特征在于,还包括:外部显示单元,用于显示所述交流对象的语音信息列表;机主耳机,用于收听播放的合成语音信息。10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于预设基础设置方法。
技术总结
本发明公开一种基于语音身份识别的助听方法、装置及设备,该方法包括:步骤S1:采集待处理语音;步骤S2:识别所述待处理语音对应的身份,若为机主身份,提取所述待处理语音的语音信息保存至机主的语音信息列表;若为交流对象身份,提取所述待处理语音的语音信息保存至交流对象的语音信息列表;步骤S3:基于所述交流对象的语音信息列表,结合预设的基础设置,生成合成语音信息;步骤S4:播放所述合成语音信息。本发明通过识别说话者语音身份,不播放自己语音,对交流对象的语音进行合成并播放给机主(听力障碍者),辅助特定类型的听力障碍者收听交流对象用语言表达的信息,正确理解交流对象的语音信息。对象的语音信息。对象的语音信息。
技术研发人员:张彦龙 张杰
受保护的技术使用者:张杰
技术研发日:2023.05.29
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种上承式钢管拱安装监测定位方法与流程 下一篇:室内定位方法、装置及存储介质与流程