一种语音识别的测试方法、装置、设备及存储介质与流程

未命名 10-17 阅读:90 评论:0


1.本发明属于语音识别技术领域,具体涉及语音识别的测试方法、装置、设备及存储介质。


背景技术:

2.汽车中的座舱,与车载人机交互系统逐步整合,实现智能化,可以采集并识别车里各个方位的人员发出的命令,并根据相应位置的命令执行相应的操作,例如识别到打开空调、关闭车窗、自动导航或者播放音乐等命令后,发出唤醒声音,控制相应的设备执行命令,实现与用户的交互,满足驾驶员和乘客行驶过程中的多样体验。其中,语音唤醒和语音识别的测试结果成为影响智能座舱智能程度的一个重要指标。
3.目前,对于智能座舱的语音唤醒和语音识别的测试主要是依靠人工进行测试,由发言人模拟车载驾驶环境下的人员进行说话,通过录音或视频记录车机的反馈信息,经过多次人工测试后,得到唤醒率、识别率等相关指标。但是,这种人工测试的方法容易出现样本数据较少、记录信息缺失等情况发生,从而造成智能座舱的唤醒率和识别率的测试费时费力,且测试结果准确性较低的问题。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种语音识别的测试方法、装置、设备及存储介质,应用于智能座舱,以解决现有技术中对于智能座舱语音识别的效果进行测试时,费时费力,且测试结果准确性较低的问题。
5.根据本发明实施例的第一方面,提供一种语音识别的测试方法,应用于智能座舱,包括:
6.获取智能座舱的测试任务,所述测试任务中包括测试音频参数和测试场景参数;
7.根据所述测试音频参数,获取对应的原始音频数据,并根据所述测试场景参数,获取对应的背景音频数据;
8.将所述原始音频数据和所述背景音频数据进行合成,得到测试音频数据,并向所述智能座舱播放所述测试音频数据;
9.获取所述智能座舱对播放的测试音频数据的应答音频数据;
10.根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果。
11.优选地,所述根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果,包括:
12.依次对比每条原始音频数据和对应的应答音频数据,得到所述智能座舱语音识别的错误率和正确唤醒次数;
13.根据所述智能座舱语音识别的错误率,得到所述智能座舱语音识别的正确率;
14.计算所述正确唤醒次数与所述测试音频数据的条数的比值,得到所述智能座舱的
唤醒率;
15.将所述智能座舱语音识别的正确率与所述唤醒率唤醒率作为所述智能座舱语音识别的测试结果。
16.优选地,所述依次对比每条原始音频数据和对应的应答音频数据,得到所述智能座舱语音识别的错误率,包括:
17.从所述原始音频数据和对应的应答音频数据中分别提取特征字符,得到原始音频数据字符和对应的应答音频数据字符;
18.依次对比所有原始音频数据字符和对应的应答音频数据字符,分别得到被替换字符数、删除字符数和插入字符数;
19.对所述被替换字符数、删除字符数和插入字符数进行求和计算,得到识别错误字符数;
20.计算所述识别错误字符数与原始音频数据字符数的比值,得到所述智能座舱语音识别的错误率。
21.优选地,所述将所述原始音频数据和所述背景音频数据进行合成,得到对应的测试音频数据,包括:
22.分别获取所述原始音频数据和所述背景音频数据的存储地址;
23.从所述存储地址中加载所述原始音频数据和所述背景音频数据;
24.分别对所述原始音频数据和所述背景音频数据进行切割,得到对应的原始音频字段和背景音频字段;
25.将所述原始音频字段和所述背景音频字段进行合成,得到对应的测试音频数据。
26.优选地,所述测试任务中还包括测试位置,所述向所述智能座舱播放所述测试音频数据,包括:
27.若所述测试音频数据为非播放格式,将所述测试音频数据进行转码,得到可播放格式的测试音频数据;
28.获取所述测试任务中的测试位置;
29.在所述测试任务中的测试位置,向所述智能座舱播放所述测试音频数据。
30.优选地,所述测试任务中还包括音频时长、采样率和编码率,所述方法还包括:
31.根据所述采样率和编码率,采集所述智能座舱的应答音频数据;
32.按照所述音频时长,对所述应答音频数据进行切割,得到处理后的应答音频数据。
33.优选地,所述方法还包括:
34.采集所有测试音频数据和所述智能座舱的所有应答音频数据;
35.对所述所有测试音频数据和所有应答音频数据进行傅里叶变换,得到对应的频率和振幅;
36.根据所述频率和振幅,实时绘制频谱图,并进行展示。
37.根据本发明实施例的第二方面,提供一种语音识别的测试装置,应用于智能座舱,包括:
38.任务获取模块,用于获取智能座舱的测试任务,所述测试任务中包括测试音频参数和测试场景参数;
39.数据获取模块,用于根据所述测试音频的约束参数,获取对应的多条原始音频数
据,并根据所述测试场景的约束参数,获取对应的背景音频数据;
40.音效合成模块,用于将所述原始音频数据和所述背景音频数据进行音效合成,得到测试音频数据,并向所述智能座舱播放所述测试音频数据;
41.所述数据获取模块,还用于获取所述智能座舱对播放的测试音频数据的应答音频数据;
42.结果计算模块,用于根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果。
43.根据本发明实施例的第三方面,提供一种语音识别的测试设备,应用于智能座舱,包括:
44.存储器,其上存储有可执行程序;
45.处理器,用于执行所述存储器中的所述可执行程序,以实上述任一项所述方法的步骤。
46.根据本发明实施例的第四方面,提供一种智能座舱,包括:
47.语音识别的测试设备;
48.音频拾取器,用于采集播放的所有音频数据;
49.音频播放器,用于播放所述智能座舱内的音频数据。
50.本发明的实施例提供的技术方案可以包括以下有益效果:
51.通过获取智能座舱的测试任务,根据测试音频的约束参数,获取对应的原始音频数据,并根据测试场景的约束参数,获取对应的背景音频数据,将原始音频数据和背景音频数据进行音效合成,得到测试音频数据,并向智能座舱播放测试音频数据;获取智能座舱对播放的测试音频数据的应答音频数据,根据原始音频数据与应答音频数据,计算得到智能座舱语音识别的测试结果,测试过程中无需人工用嘴播放原始音频数据,也无需人工制造背景音频数据,极大降低了人工播放音频数据时的不稳定性,减少了人力成本,并且根据提前录制好的原始音频数据和背景音频数据进行音效合成,使得合成后的测试音频数据更加一致、可靠,提高了测试结果的准确性,从而有效解决现有技术中对于智能座舱语音识别的效果进行测试时,费时费力,且测试结果准确性较低的问题。
52.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
53.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
54.图1是根据一示例性实施例示出的一种语音识别的测试方法的流程示意图;
55.图2是根据一示例性实施例示出的一种语音识别的测试装置的框图示意图。
具体实施方式
56.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附
权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
57.需要说明的是,以下智能座舱语音识别的测试,可以基于.net core 3.1跨平台开发框架进行开发,并支持在windows、linux、macos等多种操作系统上运行。使用c#作为主要开发语言编写代码,面向对象的现代化编程语言,可以更加高效地完成程序开发。在可视化界面的设计和开发方面,可以采用winform技术,方便快速地构建出美观、易用的界面。在音频数据处理方面,可以使用专门用于音频处理的naudio库,naudio库包含了很多类库和工具,能够方便地实现音频采集、合成、转换等操作,实现音频数据的处理。音频的配置文件可以为json格式的文件,使用newtonsoft.json库的序列号和反序列化。
58.本发明提供了一种方法,参见图1,图1是根据一示例性实施例示出的一种语音识别的测试方法的流程示意图,应用于智能座舱,该方法包括:
59.步骤s11,获取智能座舱的测试任务,所述测试任务中包括测试音频参数和测试场景参数;
60.步骤s12,根据所述测试音频参数,获取对应的原始音频数据,并根据所述测试场景参数,获取对应的背景音频数据;
61.步骤s13,将所述原始音频数据和所述背景音频数据进行合成,得到测试音频数据,并向所述智能座舱播放所述测试音频数据;
62.步骤s14,获取所述智能座舱对播放的测试音频数据的应答音频数据;
63.步骤s15,根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果。
64.需要说明的是,智能座舱的语音识别的主要功能是车辆在使用或行驶过程中,智能座舱能“听懂”车内人发出的命令,但是由于车辆在行驶过程中有噪音,智能座舱的语音识别效果会受到影响。智能座舱识别到语音指令后,执行相关命令,如打开空调,关闭车窗等,或者是车机响应,自动导航或者播放相关音乐等。
65.具体的,获取智能座舱的测试任务,测试任务中包括测试音频参数和测试场景参数。其中测试任务为对智能座舱进行语音识别的测试任务,测试任务中的测试音频参数可以为约束测试音频的参数,例如,测试音频的格式、时长、播放通道等。测试音频为提前录制好的,不包含噪音,并存放在预设位置的原始音频数据。测试任务中的测试场景参数可以为约束场景的参数,例如,场景类型、场景模板、场景名称、输出路径、输出名称、场景时长、采样率、编码率和通道数等。其中场景模板为已经创建好的测试场景,保存有该场景下的所有约束参数。例如,现有的场景有主驾开窗,主驾关窗低速,主副驾开空调等一个或多个场景。
66.需要说明的是,测试音频参数和测试场景参数可以根据不同的测试任务进行不同的设置,本发明对此并不做具体限定。
67.根据测试音频参数从预先录制好的音频数据中选取出满足测试音频参数的音频数据,作为原始音频数据。其中一条原始音频数据作为一个音频文件保存在预设位置。选择好多个音频文件之后,naudio一条条读取勾选的原始音频数据,读取每个音频的时长,加载时长、通道等格式信息。
68.在用户启动测试时,根据测试场景参数,根据测试场景参数从预先录制好的场景音频数据中选取出满足测试场景参数的音频数据,作为背景音频数据。背景音频数据可以为提前录制好存储在预设相应位置的音效文件,配置好测试场景参数之后,会直接调用满
足测试场景参数的音效文件(噪音源文件),自动读取相应的音效文件,使用naudio库逐一加载对应的背景音频数据,读取每个音频的时长等信息。
69.选取背景音频数据后,将原始音频数据和背景音频数据进行合成,得到测试音频数据,其中测试音频数据即为实际场景下(有噪音源)需要对智能座舱进行测试时发出的音频数据。向智能座舱播放测试音频数据,以测试智能座舱的识别结果。
70.获取智能座舱对播放的测试音频数据的应答音频数据,智能座舱中包含语音播放器,可以对用户的语音指令进行应答,发出相应的应答音频数据。
71.在一具体示例中,对智能座舱进行副驾空调打开的情况下的语音测试,获取“副驾空调打开”这一约束参数下的背景音频数据和满足测试任务的原始音频数据,对背景音频数据和原始音频数据进行合成,得到包含有副驾空调打开时候的噪音的测试音频数据“小a小a,打开车窗”,向智能座舱播放测试音频数据“小a小a,打开车窗”。智能座舱接收到“小a小a,打开车窗”的测试音频后,进行语音识别和应答,发出“在,已为您打开车窗”的应答音频,进行采集处理后,得到应答音频数据。
72.需要说明的是,当不采用录制好的背景音频数据时,也可以根据指令或需要,实际操作制造噪音,作为背景音频数据。例如,打开空调的时候,播放原始音频数据,使得此时的测试音频数据是在空调打开的噪音影响下的音频数据,不需要进行合成。
73.具体的,根据原始音频数据与应答音频数据,进行对比和计算后,得到智能座舱语音识别的测试结果。
74.承接上述示例,若应答音频数据为:在,已打开车窗。对比应答音频数据“在,已打开车窗”与原始音频数据“小a小a,打开车窗”的一致性,对比计算之后,得到智能座舱语音识别的测试结果。
75.可以理解的是,本实施例提供的技术方案,通过获取智能座舱的测试任务,根据测试音频的约束参数,获取对应的原始音频数据,并根据测试场景的约束参数,获取对应的背景音频数据,将原始音频数据和背景音频数据进行音效合成,得到测试音频数据,并向智能座舱播放测试音频数据;获取智能座舱对播放的测试音频数据的应答音频数据,根据原始音频数据与应答音频数据,计算得到智能座舱语音识别的测试结果,测试过程中无需人工用嘴播放原始音频数据,也无需人工制造背景音频数据,极大降低了人工播放音频数据时的不稳定性,减少了人力成本,并且根据提前录制好的原始音频数据和背景音频数据进行音效合成,使得合成后的测试音频数据更加一致、可靠,提高了测试结果的准确性,从而有效解决现有技术中对于智能座舱语音识别的效果进行测试时,费时费力,且测试结果准确性较低的问题。
76.优选地,步骤s15中,所述根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果,包括:
77.步骤s151,依次对比每条原始音频数据和对应的应答音频数据,得到所述智能座舱语音识别的错误率和正确唤醒次数;
78.步骤s152,根据所述智能座舱语音识别的错误率,得到所述智能座舱语音识别的正确率;
79.步骤s153,计算所述正确唤醒次数与所述测试音频数据的条数的比值,得到所述智能座舱的唤醒率;
80.步骤s154,将所述智能座舱语音识别的正确率与所述智能座舱的唤醒率作为所述智能座舱语音识别的测试结果。
81.需要说明的是,每播放一条测试音频数据,智能座舱都会被唤醒或不被唤醒,当智能座舱被唤醒后,对测试音频数据进行应答,识别听到的测试音频数据中的指令,并反馈执行指令是否成功。
82.对于原始音频数据合成后得到的测试音频数据,智能座舱识别后,得到对应的应答音频数据,依次对比每条原始音频数据和该条原始音频数据对应的应答音频数据,得到智能座舱语音识别的错误率,以及智能座舱语音识别的正确唤醒次数。其中错误率为智能座舱识别测试音频数据的错误概率,正确唤醒次数为智能座舱被正确唤醒的次数。每一条测试音频数据,若智能座舱有应答,则表示智能座舱被正确唤醒,若无应答,则表示智能座舱未被唤醒,统计智能座舱被正确唤醒的次数,得到智能座舱的正确唤醒次数。
83.用1减去智能座舱语音识别的错误率,得到智能座舱语音识别的正确率。
84.将智能座舱的正确唤醒次数除以测试音频数据的条数,得到智能座舱的唤醒率。其中测试音频数据的条数为对智能座舱播放的测试音频数据的条数。智能座舱语音识别的正确率越高,语音识别效果越好,唤醒率越高,语音识别效果越好,若设备被唤醒的速度越快,语音识别效果越好。将智能座舱语音识别的正确率与智能座舱的唤醒率作为智能座舱语音识别的测试结果。智能座舱语音识别的正确率越高,语音识别效果越好,唤醒率越高,智能座舱语音识别的测试结果越优秀。
85.优选地,所述步骤s151中,所述依次对比每条原始音频数据和对应的应答音频数据,得到所述智能座舱语音识别的错误率,包括:
86.从所述原始音频数据和对应的应答音频数据中分别提取特征字符,得到原始音频数据字符和对应的应答音频数据字符;
87.依次对比所有原始音频数据字符和对应的应答音频数据字符,分别得到被替换字符数、删除字符数和插入字符数;
88.对所述被替换字符数、删除字符数和插入字符数进行求和计算,得到识别错误字符数;
89.计算所述识别错误字符数与原始音频数据字符数的比值,得到所述智能座舱语音识别的错误率。
90.具体的,依次对比每条原始音频数据和对应的应答音频数据,得到所述智能座舱语音识别的错误率时,先从原始音频数据和对应的应答音频数据中分别提取特征字符,得到原始音频数据字符和对应的应答音频数据字符。
91.在一具体示例中,测试音频数据为“小a小a,打开车窗”,应答音频数据为:在,已打开车窗。分别从测试音频数据和应答音频数据中提取特征字符,得到的原始音频数据字符为:打开车窗,得到的应答音频数据字符为:打开车窗。
92.对于每条原始音频数据字符和对应的应答音频数据字符进行对比,依次对比所有的原始音频数据字符和对应的应答音频数据字符后,得到被替换字符、删除字符和插入字符,作为识别错误字符,分别对每类字符进行统计,得到被替换字符数、删除字符数和插入字符数。统计所有的原始音频数据字符数,加起来后为原始音频数据字符数。
93.对所有的被替换字符数、删除字符数和插入字符数进行求和计算,得到识别错误
字符数;计算识别错误字符数与原始音频数据字符数的比值,得到智能座舱语音识别的错误率,识别错误字符数越小,智能座舱语音识别的错误率越低,识别效果就越好。
94.需要说明的是,提取特征字符的方法本发明并不做具体限定。
95.优选地,其中步骤s13中,所述将所述原始音频数据和所述背景音频数据进行合成,得到对应的测试音频数据,包括:
96.分别获取所述原始音频数据和所述背景音频数据的存储地址;
97.从所述存储地址中加载所述原始音频数据和所述背景音频数据;
98.分别对所述原始音频数据和所述背景音频数据进行切割,得到对应的原始音频字段和背景音频字段;
99.将所述原始音频字段和所述背景音频字段进行合成,得到对应的测试音频数据。
100.需要说明的是,对音频数据进行剪辑、合并、转码、多声道音频数据的混合等操作,都可以实现对音频数据的处理,可以根据需要对音频数据进行处理。
101.具体的,当将原始音频数据和背景音频数据进行音效合成时,由于原始音频数据和背景音频数据都是提前录制好存储好的,根据测试任务,选择原始音频数据和背景音频数据后,获取选择的原始音频数据和背景音频数据的存储地址,并根据存储地址,自动加载选取的原始音频数据文件和背景音频数据文件,得到原始音频数据和背景音频数据。
102.由于各个原始音频数据的时长不一定相同,背景音频数据的时长与原始音频数据的时长也不一定相同,分别对原始音频数据和背景音频数据进行切割,使得时长相同,得到对应的原始音频字段和背景音频字段,将原始音频字段和背景音频字段进行合成,得到对应的测试音频数据。其中,得到测试音频数据之前,还可以根据需要对音频数据进行剪辑、合并和转码等。
103.在一具体事例中,使用ffmpeg库实现对原始音频数据和背景音频数据进行剪辑、合并、转码和多声道混合等操作。具体为:ffmpeg.exe-i 124.wav-i123.wav-filter_complex amix=inputs=2:duration=first:dropout_transition=2-fmp3 remix.wav。其中,i为输入音频数据,将所有原始音频数据和背景音频数据都输入,amix是多声道混合操作命令,可以实现输出单通道音频。inputs是合并命令,可以将多音频进行合并。
104.需要说明的是,剪辑、合并、转码和多声道混合等操作可以通过各种音频处理库和工具来完成,例如,方便易用的python库pydub或librosa、功能强大的开源工具ffmpeg和开源的跨平台工具sox,这些工具和库都有详细的文档和示例代码,可以根据具体需求选择合适的工具进行音频处理,本发明对此并不做具体限定。
105.优选地,所述测试任务中还包括测试位置,所述步骤s13中,所述向所述智能座舱播放所述测试音频数据,包括:
106.若所述测试音频数据为非播放格式,将所述测试音频数据进行转码,得到可播放格式的测试音频数据;
107.获取所述测试任务中的测试位置;
108.在所述测试任务中的测试位置,向所述智能座舱播放所述测试音频数据。
109.需要说明的是,测试音频数据要进行播放时,若格式不是播放格式,需要将测试音频数据进行转码,转成可播放格式的测试音频数据,例如将wav格式的测试音频数据转换为mp3格式。转码后的音频文件可以用于编辑、转换和音频播放等。
110.具体的,测试任务中还包括测试位置,测试位置为智能座舱的不同座位的位置,例如:主驾位置、副驾位置等。在智能座舱的不同位置播放测试音频数据,智能座舱语音识别效果不同。
111.根据实际需要,在测试任务中的测试位置,向智能座舱播放测试音频数据,使得智能座舱语音识别的测试样本和场景更加全面,从而提高智能座舱语音识别的测试结果的准确性。
112.在一具体示例中,根据实际测试任务需要,可以进行智能座舱的测试位置设置,以及车内空调、音乐是否开启等设置,如测试位置为主驾,背景的噪声源为空调开启、音乐开启,则依次设置在主驾播放测试音频数据,测试音频数据中的场景音频数据为空调、音乐。还可以将该场景下的参数进行保存,其它车辆的智能座舱进行语音识别测试时,可以直接选取,自动加载对应的场景音频数据进行测试,而不需要再设置测试参数和场景参数。
113.优选地,所述测试任务中还包括音频时长、采样率和编码率,所述方法还包括:
114.根据所述采样率和编码率,采集所述智能座舱的应答音频数据;
115.按照所述音频时长,对所述应答音频数据进行切割,得到处理后的应答音频数据。
116.具体的,测试任务中还可以根据需要设置音频时长、采样率和编码率等参数,其中音频时长为采集的应答音频的时长。采样率为采集应答音频时对声音信号进行采样的频率,编码率为应答音频数据的数据传输速率,编码率越高,音频的质量越好,但同时也会占用更多存储空间和传输带宽。
117.具体的,可以根据需要在测试任务中设置参数,如设置采样率、编码率、音频时长、录音时长等,根据设置好的采样率和编码率,采集智能座舱的应答音频数据,以便根据实际需求获取高质量的音频数据,以保证最终生成的音频文件高质量和稳定性。
118.同时,由于需要在智能座舱的不同测试位置进行语音识别测试,在智能座舱中设置有多个通道,不同声道中的音频数据还需进行时间同步和切割。原始提供的测试音频数据和智能座舱的应答音频数据的音频时长是不一致的,最后生成一个多通道的音频则需要保证每个通道时长一致,需要对应答音频数据进行切割处理,得到处理后的应答音频数据,为后续计算智能座舱语音识别的正确率和唤醒率做准备。
119.需要说明的是,采集应答音频数据时,开始录音后,使用naudio库中的waveinevent类,来捕获从话筒或其他录音设备中传来的音频数据。同时,点击按钮“开始录音”,进行智能座舱的应答声音的录制,通常情况下,采样率是16000hz,16bit的单通道wave文件。
120.优选地,所述方法还包括:
121.采集所有测试音频数据和所述智能座舱的所有应答音频数据;
122.对所述所有测试音频数据和所有应答音频数据进行傅里叶变换,得到对应的频率和振幅;
123.根据所述频率和振幅,实时绘制频谱图,并进行展示。
124.具体的,需要采集所有测试音频数据和智能座舱的所有应答音频数据,在音频数据采集过程中,由于智能座舱是多通道的,需要将各个通道的音频数据进行切割,其中以最短的那条音频数据为标准,其余超出该时长的音频数据需要进行切除,切除超出部分,从而达到每个通道的音频时长一致。
125.为了给用户更直观的感受,还可以对所有测试音频数据和所有应答音频数据进行傅里叶变换,得到对应的频率和振幅,在picturebox控件根据频率和振幅,实时绘制频谱图,向测试者进行展示,便于测试人员及时调整设备的音量等参数,提高语音识别的测试准确率。
126.在一具体示例中,使用fftsharp对播放的所有测试音频数据和所有应答音频数据进行傅里叶变换,帮助分析音频文件的频率和振幅,使用spectrogram实时生成频谱图。在测试结束后,使用naudio提供的wavefilewriter类将所有的测试音频数据和智能座舱的所有应答音频数据保存为指定路径格式的wav文件。
127.可以理解的是,本实施例提供的技术方案,通过获取用户发出的测试任务,根据测试音频的约束参数,获取对应的多条原始音频数据,并根据测试场景的约束参数,获取对应的背景音频数据,对原始音频数据和背景音频数据进行音效合成,得到对应的测试音频数据,并播放测试音频数据;获取智能座舱对播放的测试音频数据的应答音频数据,根据原始音频数据与应答音频数据,计算得到智能座舱语音识别的测试结果,测试过程中无需人工用嘴播放原始音频数据,也无需人工制造背景音频数据,极大降低了人工播放音频数据时的不稳定性,减少了人力成本,并且根据提前录制好的原始音频数据和背景音频数据进行音效合成,使得合成后的测试音频数据更加一致、可靠,提高了测试结果的准确性,从而有效解决现有技术中对于智能座舱语音识别的效果进行测试时,费时费力,且测试结果准确性较低的问题。
128.参见图2,图2是根据一示例性实施例示出的一种语音识别的测试装置的框图示意图,本发明还提供了一种语音识别的测试装置,应用于智能座舱,包括:
129.任务获取模块21,用于获取智能座舱的测试任务,所述测试任务中包括测试音频参数和测试场景参数;
130.数据获取模块22,用于根据所述测试音频的约束参数,获取对应的多条原始音频数据,并根据所述测试场景的约束参数,获取对应的背景音频数据;
131.音效合成模块23,用于将所述原始音频数据和所述背景音频数据进行音效合成,得到测试音频数据,并向所述智能座舱播放所述测试音频数据;
132.所述数据获取模块22,还用于获取所述智能座舱对播放的测试音频数据的应答音频数据;
133.结果计算模块24,用于根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果。
134.可以理解的是,本实施例提供的技术方案,由于通过上述实施例提及的获取用户发出的测试任务,根据测试音频的约束参数,获取对应的多条原始音频数据,并根据测试场景的约束参数,获取对应的背景音频数据,对原始音频数据和背景音频数据进行音效合成,得到对应的测试音频数据,并播放测试音频数据;获取智能座舱对播放的测试音频数据的应答音频数据,根据原始音频数据与应答音频数据,计算得到智能座舱语音识别的测试结果,测试过程中无需人工用嘴播放原始音频数据,也无需人工制造背景音频数据,极大降低了人工播放音频数据时的不稳定性,减少了人力成本,并且根据提前录制好的原始音频数据和背景音频数据进行音效合成,使得合成后的测试音频数据更加一致、可靠,提高了测试结果的准确性,从而有效解决现有技术中对于智能座舱语音识别的效果进行测试时,费时
费力,且测试结果准确性较低的问题。
135.本发明还提供了一种语音识别的测试设备,包括:
136.存储器,其上存储有可执行程序;
137.处理器,用于执行所述存储器中的所述可执行程序,以实现上述任一项所述方法的步骤。
138.此外,本发明还提供了一种智能座舱,包括:
139.语音识别的测试设备;
140.音频拾取器,用于采集播放的所有音频数据;
141.音频播放器,用于播放所述智能座舱内的音频数据。
142.可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
143.需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
144.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
145.应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
146.本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
147.此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
148.上述提到的存储介质可以是只读存储器,磁盘或光盘等。
149.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
150.尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征:
1.一种语音识别的测试方法,应用于智能座舱,其特征在于,包括:获取智能座舱的测试任务,所述测试任务中包括测试音频参数和测试场景参数;根据所述测试音频参数,获取对应的原始音频数据,并根据所述测试场景参数,获取对应的背景音频数据;将所述原始音频数据和所述背景音频数据进行合成,得到测试音频数据,并向所述智能座舱播放所述测试音频数据;获取所述智能座舱对播放的测试音频数据的应答音频数据;根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果。2.根据权利要求1所述的方法,其特征在于,所述根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果,包括:依次对比每条原始音频数据和对应的应答音频数据,得到所述智能座舱语音识别的错误率和正确唤醒次数;根据所述智能座舱语音识别的错误率,得到所述智能座舱语音识别的正确率;计算所述正确唤醒次数与所述测试音频数据的条数的比值,得到所述智能座舱的唤醒率;将所述智能座舱语音识别的正确率与所述智能座舱的唤醒率作为所述智能座舱语音识别的测试结果。3.根据权利要求2所述的方法,其特征在于,所述依次对比每条原始音频数据和对应的应答音频数据,得到所述智能座舱语音识别的错误率,包括:从所述原始音频数据和对应的应答音频数据中分别提取特征字符,得到原始音频数据字符和对应的应答音频数据字符;依次对比所有原始音频数据字符和对应的应答音频数据字符,分别得到被替换字符数、删除字符数和插入字符数;对所述被替换字符数、删除字符数和插入字符数进行求和计算,得到识别错误字符数;计算所述识别错误字符数与原始音频数据字符数的比值,得到所述智能座舱语音识别的错误率。4.根据权利要求1所述的方法,其特征在于,所述将所述原始音频数据和所述背景音频数据进行合成,得到对应的测试音频数据,包括:分别获取所述原始音频数据和所述背景音频数据的存储地址;从所述存储地址中加载所述原始音频数据和所述背景音频数据;分别对所述原始音频数据和所述背景音频数据进行切割,得到对应的原始音频字段和背景音频字段;将所述原始音频字段和所述背景音频字段进行合成,得到对应的测试音频数据。5.根据权利要求1所述的方法,其特征在于,所述测试任务中还包括测试位置,所述向所述智能座舱播放所述测试音频数据,包括:若所述测试音频数据为非播放格式,将所述测试音频数据进行转码,得到可播放格式的测试音频数据;获取所述测试任务中的测试位置;
在所述测试任务中的测试位置,向所述智能座舱播放所述测试音频数据。6.根据权利要求1所述的方法,其特征在于,所述测试任务中还包括音频时长、采样率和编码率,所述方法还包括:根据所述采样率和编码率,采集所述智能座舱的应答音频数据;按照所述音频时长,对所述应答音频数据进行切割,得到处理后的应答音频数据。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:采集所有测试音频数据和所述智能座舱的所有应答音频数据;对所述所有测试音频数据和所有应答音频数据进行傅里叶变换,得到对应的频率和振幅;根据所述频率和振幅,实时绘制频谱图,并进行展示。8.一种语音识别的测试装置,应用于智能座舱,其特征在于,包括:任务获取模块,用于获取智能座舱的测试任务,所述测试任务中包括测试音频参数和测试场景参数;数据获取模块,用于根据所述测试音频的约束参数,获取对应的多条原始音频数据,并根据所述测试场景的约束参数,获取对应的背景音频数据;音效合成模块,用于将所述原始音频数据和所述背景音频数据进行音效合成,得到测试音频数据,并向所述智能座舱播放所述测试音频数据;所述数据获取模块,还用于获取所述智能座舱对播放的测试音频数据的应答音频数据;结果计算模块,用于根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果。9.一种语音识别的测试设备,应用于智能座舱,其特征在于,包括:存储器,其上存储有可执行程序;处理器,用于执行所述存储器中的所述可执行程序,以实现权利要求1~7中任一项所述方法的步骤。10.一种智能座舱,其特征在于,包括:语音识别的测试设备;音频拾取器,用于采集播放的所有音频数据;音频播放器,用于播放所述智能座舱内的音频数据。

技术总结
本发明涉及语音识别的测试方法、装置、设备及存储介质,属于语音识别技术领域。本发明包括:获取智能座舱的测试任务,测试任务中包括测试音频参数和测试场景参数;根据测试音频参数,获取对应的原始音频数据,并根据测试场景参数,获取对应的背景音频数据;将原始音频数据和所述背景音频数据进行合成,得到测试音频数据,并向智能座舱播放测试音频数据;获取所述智能座舱对播放的测试音频数据的应答音频数据;根据所述原始音频数据与所述应答音频数据,计算得到所述智能座舱语音识别的测试结果。通过本发明,有助于解决现有技术中对于智能座舱语音识别的效果进行测试时,费时费力,且测试结果准确性较低的问题。且测试结果准确性较低的问题。且测试结果准确性较低的问题。


技术研发人员:徐昕 卜辉 张绍极 韦聪锦 刘运
受保护的技术使用者:北京希尔贝壳科技有限公司
技术研发日:2023.08.02
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐