一种语音识别方法、装置、计算机设备及存储介质与流程
未命名
08-07
阅读:81
评论:0

1.本发明涉及人工智能技术及数字医疗技术领域,尤其涉及一种一种语音识别方法、装置、计算机设备及存储介质。
背景技术:
2.随着科学技术的不断发展,语音识别技术已经在数字医疗等领域得到了广泛应用。例如,在很多医院中,通过医疗引导机器人,或者医疗引导系统解决医院问诊、挂号、问路等问题。
3.医疗引导机器人,或者医疗引导系统所应用的语音识别模型对语音的识别效果与模型训练时所使用的训练样本的质量紧密相关,高质量的训练样本,可以大大提高整个语音识别模型的识别精度。
4.但是,目前获取训练样本的方法主要是在海量的语音数据中随机选取出一部分语音数据作为训练样本进行语音识别模型的训练,使得训练样本的质量无法得到保证,进而导致训练得到的语音识别模型的识别效果大大降低。
技术实现要素:
5.本发明实施例提供一种语音识别方法、装置、计算机设备及存储介质,以解决由于训练样本质量较差而导致语音识别模型的识别效果大大降低的问题。
6.一种语音识别方法,所述方法包括:
7.获取到待筛选语音数据,所述待筛选语音数据包括第一语音数据和第二语音数据;
8.从所述第一语音数据中筛选出第一置信度样本和第二置信度样本;所述第一置信度样本的置信度高于第二置信度样本的置信度;
9.从所述第二语音数据中筛选出第一相似度样本和第二相似度样本;所述第一相似度样本的相似度高于第二相似度样本的相似度;
10.基于所述第一置信度样本、所述第二置信度样本、所述第一相似度样本和所述第二相似度样本,训练得到目标语音识别模型,所述目标语音识别模型用于对目标语音进行语音识别。
11.上述方法,可选的,所述从所述第一语音数据中筛选出第一置信度样本和第二置信度样本,包括:
12.将所述第一语音数据中的训练样本输入到第一语音识别模型,分别得到每个所述训练样本的置信度;
13.判断所述训练样本的置信度是否大于第一置信度阈值;
14.若所述训练样本的置信度大于第一置信度阈值,确定所述训练样本为所述第一置信度样本;
15.判断所述训练样本的置信度是否大于第二置信度阈值且小于所述第一置信度阈
值;
16.若所述训练样本的置信度是否大于所述第二置信度阈值且小于所述第一置信度阈值,确定所述训练样本为所述第二置信度样本。
17.上述方法,可选的,所述将所述第一语音数据中的训练样本输入到第一语音识别模型,分别得到每个所述训练样本的置信度,包括:
18.将所述第一语音数据中的训练样本分别输入到所述第一语音识别模型,得到每个所述训练样本的若干语音识别结果及每个所述语音识别结果对应的得分;
19.选择所述得分最高的两个所述语音识别结果对应的得分,计算得到所述训练样本的置信度。
20.上述方法,可选的,所述从所述第二语音数据中筛选出第一相似度样本和第二相似度样本;所述第一相似度样本的相似度高于第二相似度样本的相似度,包括:
21.将所述第二语音数据中的训练样本输入到第二语音识别模型,得到每个所述训练样本的第一识别文本;
22.将所述第二语音数据中的训练样本输入到第三语音识别模型,得到每个所述训练样本的第二识别文本;所以第二语音识别模型和所述第三语音识别模型通过不同维度的样本特征训练得到;
23.基于所述第一识别文本和所述第二识别文本,从所述第二语音数据中筛选出所述第一相似度样本和所述第二相似度样本。
24.上述方法,可选的,所述基于所述第一识别文本和所述第二识别文本,从所述第二语音数据中筛选出所述第一相似度样本和所述第二相似度样本,包括:
25.判断所述训练样本的第一识别文本的文本内容和所述第二识别文本的文本内容是否相同;
26.若所述训练样本第一识别文本的文本内容和所述第二识别文本的文本内容相同,确定所述训练样本为第一相似度样本;
27.若所述训练样本第一识别文本的文本内容和所述第二识别文本的文本内容不相同,获取所述第一识别样本的文本内容和所述第二识别样本的文本内容的字错误率;
28.判断第一识别样本的文本内容和所述第二识别样本的文本内容的字错误率是否低于预设的字错误率阈值;
29.若所述第一识别样本的文本内容和所述第二识别样本的文本内容的字错误率低于预设的字错误率阈值,确定所述训练样本为第二相似度样本。
30.上述方法,可选的,所述基于所述第一置信度样本、所述第二置信度样本、所述第一相似度样本和所述第二相似度样本,训练得到目标语音识别模型,包括:
31.将所述第一置信度样本和所述第一相似度样本输入到所述目标语音识别模型,进行第一阶段训练;
32.将所述第二置信度样本和所述第二相似度样本输入到所述目标语音识别模型,进行第二阶段训练,得到训练好的所述目标语音识别模型。
33.上述方法,可选的,所述第一阶段训练和所述第二阶段训练通过以下方式进行区分:
34.当所述目标语音识别模型首次进行训练时,确定所述目标语音识别模型处于第一
阶段训练;
35.当所述目标语音识别模型的训练迭代次数达到预设迭代次数时,确定所述目标语音识别模型处于第二阶段训练。
36.一种语音识别装置,包括:
37.语音数据获取单元,用于获取到待筛选语音数据,所述待筛选语音数据包括第一语音数据和第二语音数据;
38.第一样本筛选单元,用于从所述第一语音数据中筛选出第一置信度样本和第二置信度样本;所述第一置信度样本的置信度高于第二置信度样本的置信度;
39.第二样本筛选单元,用于从所述第二语音数据中筛选出第一相似度样本和第二相似度样本;所述第一相似度样本的相似度高于第二相似度样本的相似度;
40.模型训练单元,用于基于所述第一置信度样本、所述第二置信度样本、所述第一相似度样本和所述第二相似度样本,训练得到目标语音识别模型,所述目标语音识别模型用于对目标语音进行语音识别。
41.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如一种语音识别方法。
42.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如一种语音识别方法。
43.综上,本发明公开了一种语音识别方法、装置、计算机设备及存储介质,通过将待筛选语音数据分为第一语音数据和第二语音数据,进而从第一语音数据中筛选出第一置信度样本和第二置信度样本,从第二语音数据中筛选出第一相似度样本和第二相似度样本,然后,根据筛选的第一置信度样本、第二置信度样本,第一相似度样本和第二相似度样本训练得到用于对目标语音进行语音识别的目标语音识别模型。可见,本实施例中通过两种筛选方法,对待筛选语音数据中的第一语音数据和第二语音数据进行筛选,以得到,第一置信度样本、第二置信度样本,第一相似度样本和第二相似度样本对目标语音识别模型进行训练,相较于现有的随机选取训练样本的方法,可以较好的保证训练样本的质量,可以达到提高数字医疗领域中医疗引导系统的识别效果的目的。
附图说明
44.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
45.图1是本发明实施例一公开的一种语音识别方法的流程示意图;
46.图2是本发明实施例一公开的一种语音识别方法的部分流程示意图;
47.图3是本发明实施例一公开的一种语音识别方法的部分流程示意图;
48.图4是本发明实施例一公开的一种语音识别方法的部分流程示意图;
49.图5是本发明实施例一公开的一种语音识别方法的部分流程示意图;
50.图6是本发明实施例一公开的一种语音识别方法的部分流程示意图;
51.图7是本发明实施例二公开的一种语音识别装置的结构示意图;
52.图8是本发明实施例三公开的一种计算机设备的结构示意图。
具体实施方式
53.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
54.本发明公开了一种语音识别方法、装置、计算机设备及存储介质,通过将待筛选语音数据分为第一语音数据和第二语音数据,进而从第一语音数据中筛选出第一置信度样本和第二置信度样本,从第二语音数据中筛选出第一相似度样本和第二相似度样本,然后,根据筛选的第一置信度样本、第二置信度样本,第一相似度样本和第二相似度样本训练得到用于对目标语音进行语音识别的目标语音识别模型。可见,本实施例中通过两种筛选方案,对待筛选语音数据中的第一语音数据和第二语音数据进行筛选,以得到的第一置信度样本、第二置信度样本,第一相似度样本和第二相似度样本对目标语音识别模型进行训练,相较于现有的随机选取训练样本的方法,可以较好的保证训练样本的质量,可以达到提高语音识别模型的识别效果的目的。下面通过具体的实施例进行说明。
55.需要说明的是,本实施例中涉及的模型,如第一语音识别模型、第二语音识别模型、第三语音识别模型或者是目标语音识别模型包括但不限于传统的hmm-dnn hybrid模型、基于ctc的端到端模型、joint-ctc-attention模型或者是rnn-t模型等,本实施例中对第一语音识别模型、第二语音识别模型、第三语音识别模型或者是目标语音识别模型不做具体限定。
56.实施例一
57.如图1所示,为本发明实施例一公开的一种语音识别方法的流程示意图,该方法适用于数字医疗领域中医疗引导系统,如配备该医疗引导系统的医疗引导机器人,该机器人可以通过采集病人或病人家属的语音信号,进行语音信号识别,进而为病人或病人家属提供问诊、挂号、问路等引导服务。具体可以如下所示:
58.s101:获取到待筛选语音数据,待筛选语音数据包括第一语音数据和第二语音数据。
59.在具体实现中,本实施例中的待筛选语音数据为预先收集好的训练样本,将待筛选语音数据划分为第一语音数据和第二语音数据,第一语音数据和第二语音数据中的训练样本的数量可以相同或者不同。也就是说,第一语音数据和第二语音数据共同组成待筛选语音数据。据此,根据第一语音数据和第二语音数据执行语音识别方法的后续步骤。
60.例如,从待筛选语音数据中随机收取一半的训练样本作为第一语音数据,剩余未被抽取到的训练样本作为第二语音数据,再如,从待筛选数据中抽取三分之二的训练样本作为第一语音数据,剩余三分之一的训练样本作为第二语音数据。
61.需要注意的是,本实施例中对第一语音数据中训练样本的数量,和第二语音数据中训练样本的数量不做限定,本实施例中对第一语音数据中训练样本的数量在待筛选语音数据中的比例,和第二语音数据中训练样本的数量在待筛选语音数据中的比例不做限定。
62.s102:从第一语音数据中筛选出第一置信度样本和第二置信度样本。
63.其中,第一置信度样本的置信度高于第二置信度样本的置信度。
64.获取第一语音数据中每一条训练样本的置信度,根据训练样本的置信度的数值,筛选出所需的第一置信度样本和第二置信度样本。根据筛选得到的第一置信度数据和第二置信度数据执行语音识别的后续步骤。
65.s103:从第二语音数据中筛选出第一相似度样本和第二相似度样本。
66.其中,第一相似度样本的相似度高于第二相似度样本的相似度。
67.通过至少两个语音识别模型来对第二语音数据中的训练样本分别进行语音识别,得到每个训练样本对应的两组识别文本,然后根据这两识别文本的内容的相似度,进而从第二语音数据中筛选出第一相似度样本和第二相似度样本,根据筛选得到的第一相似度样本和第二相似度样本执行语音识别的后续步骤。
68.s104:基于第一置信度样本、第二置信度样本、第一相似度样本和第二相似度样本,训练得到目标语音识别模型。
69.其中,目标语音识别模型用于对目标语音进行语音识别。
70.对第一置信度样本、第二置信度样本、第一相似度样本和第二相似度样本进行人工标注,比如,标注出这些训练样本的实际语音文本作为该训练样本的文本标签,将人工标注好的第一置信度样本、第二置信度样本、第一相似度样本和第二相似度样本输入到目标语音识别模型进行模型训练,得到训练好的目标语音识别模型。之后,目标语音识别模型用于对目标语音进行识别。
71.综上所述,本发明公开了一种语音识别方法,通过将待筛选语音数据分为第一语音数据和第二语音数据,进而从第一语音数据中筛选出第一置信度样本和第二置信度样本,从第二语音数据中筛选出第一相似度样本和第二相似度样本,然后,根据筛选的第一置信度样本、第二置信度样本,第一相似度样本和第二相似度样本训练得到用于对目标语音进行语音识别的目标语音识别模型。可见,本实施例中通过两种筛选方案,对待筛选语音数据中的第一语音数据和第二语音数据进行筛选,以得到的第一置信度样本、第二置信度样本,第一相似度样本和第二相似度样本对目标语音识别模型进行训练,相较于现有的随机选取训练样本的方法,可以较好的保证训练样本的质量,可以达到提高语音识别模型的识别效果的目的。将训练得到的目标语音识别模型应用于数字医疗领域中的医护引导系统,可以有效提高医护引导系统,或安装有医护引导系统的医疗引导机器人的语音识别精度。
72.基于图1的具体实现中,步骤s102具体可以通过以下步骤实现,如图2所示:
73.s201:将第一语音数据中的训练样本输入到第一语音识别模型,分别得到每个训练样本的置信度。
74.将训练样本输入到第一语音识别模型,得到若干语音候选结果,每个语音候选结果都对应一个候选得分,在这些语音候选结果中选择得分最高的两个语音候选结果,并根据这两个语音候选结果对应的候选得分计算得到训练样本的置信度。
75.s202:判断训练样本的置信度是否大于第一置信度阈值。
76.如果训练样本的置信度大于第一置信度阈值,执行步骤s203,即确定训练样本为第一置信度样本,如果训练样本的置信度小于第一置信度阈值,执行步骤s204,即判断训练样本的置信度是否大于第二置信度阈值且小于第一置信度阈值。
77.在具体实现中,本实施例中可以预设一个第一置信度阈值,并将每一个训练样本
的置信度分别与第一置信度阈值进行对比,在训练样本的置信度大于第一置信度阈值的情况下,执行步骤s203及后续步骤,在训练样本的置信度小于第一置信度阈值的情况下,执行步骤s204及后续步骤。
78.s203:确定训练样本为第一置信度样本。
79.也就是说,第一置信度样本的置信度即为置信度大于第一置信度阈值的训练样本。
80.s204:判断训练样本的置信度是否大于第二置信度阈值且小于第一置信度阈值。
81.如果训练样本的置信度大于第二置信度阈值且小于第一置信度阈值,执行步骤s205,即确定训练样本为第二置信度样本,如果训练样本的置信度小于第二置信度阈值,丢弃该训练样本,也就是说置信度小于第二置信度阈值的训练样本不会参与语音识别方法的后续步骤。
82.在具体实现中,本实施例中可以预设一个第二置信度阈值,对置信度小于第一置信度阈值的训练样本进行二次筛选,获取到大于第二置信度阈值且小于第一置信度阈值的训练样本,作为第二置信度样本。如果训练样本的置信度大于第二置信度阈值且小于第一置信度阈值,执行步骤s205及后续步骤,如果训练样本的置信度小于第二置信度阈值,丢弃该训练样本,置信度小于第二置信度阈值的训练样本不会参与语音识别方法的后续步骤。据此,可以得到第二置信度样本。
83.s205:确定训练样本为第二置信度样本。
84.应当理解的是,第二置信度样本的置信度即为置信度大于第二置信度阈值且小于第一置信度阈值的训练样本。
85.综上所述,本实施例中通过获取第一语音数据中每个训练样本的置信度,进而根据预设的第一置信度阈值和第二置信度阈值来从第一语音数据中筛选出第一置信度样本和第二置信度样本,以完成对第一语音数据的筛选,可以达到剔除第一语音数据中质量较低的训练样本的目的。
86.基于图2的具体实现中,步骤s201具体可以通过以下步骤实现,如图3所示:
87.s301:将第一语音数据中的每个训练样本分别输入到第一语音识别模型,得到每个训练样本的若干语音识别结果及每个语音识别结果对应的得分。
88.在具体实现中,本实施例中可以将第一语音数据中的训练样本分别输入到第一语音识别模型,进而对每个训练样本进行语音识别,得到每个训练样本的若干语音识别结果,且每个语音识别结果对应一个得分,根据得到的语音识别结果对应的得分执行语音识别方法的后续步骤。
89.s302:选择得分最高的两个语音识别结果对应的得分,计算得到训练样本的置信度。
90.针对得到的每个训练样本对应的若干识别结果,选择得分最高的两个语音识别结果,并根据这两个语音识别结果对应的得分计算得到训练样本的置信度。
91.在具体实现中,本实施例中可以针对每个训练样本的语音识别结果中,选择其中最高两个得分,并计算出这两个得分的差值,针对该差值进行归一化处理,得到的0-1区间内的数值即为训练样本的置信度。基于此,计算得到每个训练样本对应的置信度,并根据计算得到的每个训练样本对应的置信度执行语音识别方法的后续步骤。
92.综上,本实施例中通过对得分最高的两个语音识别结果的得分的差值进行归一化处理,以得到0-1区间内的数值,并以该数值表示训练样本的置信度,可以使得置信度数据在语音识别方法的后续步骤中更加易于处理。
93.基于图1的具体实现中,步骤s103具体可以通过以下步骤实现,如图4所示:
94.s401:将所第二语音数据中的训练样本输入到第二语音识别模型,得到每个训练样本的第一识别文本;
95.在具体实现中,本实施例中的第二语音识别模型包括但不限于传统的hmm-dnn hybrid模型、基于ctc的端到端模型、joint-ctc-attention模型或者是rnn-t模型等。针对第二语音数据中的每一个训练样本分别输入到第二语音识别模型,得到每个训练样本对应的第一识别文本,基于获取到的第一识别文本执行语音识别方法的后续步骤。
96.s402:将第二语音数据中的训练样本输入到第三语音识别模型,得到每个训练样本的第二识别文本。
97.其中,第二语音识别模型和第三语音识别模型通过不同维度的样本特征训练得到。也就是说,第二语音识别模型在训练时输入到的样本特征和第三语音识别模型在训练时输入的样本特征存在差异,通过在提取训练样本的样本特征时,提取训练样本不同纬度的特征,来分别训练第二语音识别模型和第三语音识别模型。例如,提取训练样本80维度的频域(fbank)特征来训练第二语音识别模型,提取训练样本40维度的fbank特征来训练第三语音识别模型。
98.另外,需要注意的是,第二语音识别模型和第三语音识别模型的区别不仅可以体现在样本特征的特征维度上,也可以体现在高、低频截止频率,预加重的系数,是否加入一阶差分、二阶差分,是否引入pitch特征,是否保留直流分量,是否引入随机抖动等等,本实施例中对训练第二语音识别模型和第三语音识别模型的区别具体体现在哪个方面不做具体限定。
99.在具体实现中,本实施例中的第二语音识别模型包括但不限于传统的hmm-dnn hybrid模型、基于ctc的端到端模型、joint-ctc-attention模型或者是rnn-t模型等。针对第二语音数据中的每一个训练样本分别输入到第三语音识别模型,得到每个训练样本对应的第二识别文本,基于获取到的第二识别文本执行语音识别方法的后续步骤。
100.s403:基于第一识别文本和第二识别文本,从第二语音数据中筛选出第一相似度样本和第二相似度样本。
101.在具体实现中,本实施例中可以通过对获取第一识别文本内容和第二识别文本的文本内容进行对比,获取到第一识别文本的文本内容和第二识别文本的文本内容的相似度,然后根据第一识别样本与第二识别样本的相似度,从第二语音数据中筛选出第一相似度样本和第二相似度样本,基于获取到的第一相似度样本和第二相似度样本执行语音识别的后续步骤。
102.综上所述,通过两个模型分别对训练样本进行识别,在两个模型识别结果相同或基本相同的情况下,可以确定当前训练样本为质量较好的样本,据此,可以实现对第二语音书中高质量样本数据的筛选。
103.基于图4的具体实现中,步骤s403具体可以通过以下步骤实现,如图5所示:
104.s501:判断训练样本的第一识别文本的文本内容和第二识别文本的文本内容是否
相同。
105.如果训练样本的第一识别文本的文本内容和第二识别文本的文本内容相同,执行步骤s502,即确定训练样本为第一相似度样本,如果训练样本的第一识别文本的文本内容和第二识别文本的文本内容不相同,执行步骤s503,即获取第一识别样本的文本内容和第二识别样本的文本内容的字错误率。
106.在具体实现中,本实施例中可以通过对比第一识别文本的文本内容和第二识别文本的文本内容,来判断训练样本的第一识别文本的文本内容和第二识别文本的文本内容是否相同,在训练样本的第一识别文本的文本内容和第二识别文本的文本内容相同的情况下,执行步骤s502及后续步骤,在训练样本的第一识别文本的文本内容和第二识别文本的文本内容不相同的情况下,执行步骤s503及后续步骤。
107.s502:确定训练样本为第一相似度样本。
108.也就是说,第一相似度样本即为训练样本的第一识别文本的文本内容和第二识别样本的文本内容完全相同的样本。
109.s503:获取第一识别样本的文本内容和第二识别样本的文本内容的字错误率。
110.在具体实现中,本实施例中可以通过将第一识别文本的文本内容作为参考文本,将第二识别文本的文本内容作为识别文本,然后将识别文本与参考文本进行逐字对照,然后将识别文本中相较于参考文本错误的字数和缺少的字数以及增加的字数,除以参考文本的总字数,即可得到第一识别样本的文本内容和第二识别样本的文本内容的字错误率,也就是训练样本的字错误率。据此,可以得到第一识别样本的文本内容和第二识别样本的文本内容的字错误率。
111.例如,以参考文本为“你们吃饭了吗”,识别文本“你吃了么”为例,其中,识别文本相较于参考文本少了“们”字,并且识别文本和“么”字与参考文献的“吗”字不同,因此,识别文本相较于参考文本的字错误率为2/6=33.3%,据此,可以实现得到识别文本相较于参考文本的字错误率。
112.s504:判断第一识别样本的文本内容和第二识别样本的文本内容的字错误率是否低于预设的字错误率阈值。
113.如果第一识别样本的文本内容和第二识别样本的文本内容的字错误率低于预设的字错误率阈值,执行步骤s505,即确定训练样本为第二相似度样本,如果第一识别样本的文本内容和第二识别样本的文本内容的字错误率高于预设的字错误率阈值,丢弃该训练样本,也就是说,第一识别样本的文本内容和第二识别样本的文本内容的字错误率高于预设的字错误率阈值的训练样本将不再参与语音识别方法的后续步骤。
114.s505:确定训练样本为第二相似度样本。
115.也就是说,第二相似度样本即为第一识别样本的文本内容和第二识别样本的文本内容的字错误率低于预设的字错误率阈值,且第一识别样本的文本内容和第二识别样本的文本内容不完全相同的训练样本。
116.综上所述,本实施例中通过对比第一识别文本的文本内容和第二识别文本的文本内容,以及计算第一识别文本的字错误率,来将第二语音数据中的训练样本划分为第一相似度样本和第二相似度样本,可见,通过两个语音识别模型的语音识别结果来综合筛选出第一相似度样本和第二相似度样本,相较于单一模型筛选出的训练样本,可以使训练样本
的质量得到有效保证。
117.基于图1的具体实现中,步骤s104具体可以通过以下步骤实现,如图6所示:
118.s601:将第一置信度样本和第一相似度样本输入到目标语音识别模型,进行第一阶段训练。
119.在具体实现中,本实施例中的目标语音识别模型包括但不限于传统的hmm-dnn hybrid模型、基于ctc的端到端模型、joint-ctc-attention模型或者是rnn-t模型等,本实施例中对目标语音识别模型不做具体限定。
120.s602:将第二置信度样本和第二相似度样本输入到目标语音识别模型,进行第二阶段训练,得到训练好的目标语音识别模型。
121.在具体实现中,本实施例中将质量较高的第一置信度样本和第一相似度样本输入到目标语音识别模型进行第一阶段训练,在模型达到较好的训练效果后,将相较于第一置信度样本和第一相似度样本质量较低的第二置信度样本和第二相似度样本输入到目标语音识别模型,进行第二阶段训练,以使目标语音识别模型的训练效果,得到进一步提升,据此,可以得到训练好的目标语音识别模型。
122.综上,本实施例中的目标语音识别模型首先通过质量最好的第一置信度样本和第一相似度样本进行训练,可以使得目标语音识别模型快速得到较好的训练效果,而在目标语音识别模型得到充分训练后,将质量相较低的第二置信度样本和第二相似度样本输入到目标语音识别模型进行训练后,可以使得目标语音识别模型的训练效果,得到进一步提升。据此,可以得到训练效果更好的目标语音识别模型。将训练得到的目标语音识别模型应用于数字医疗领域中的医护引导系统,可以有效提高医护引导系统,或安装有医护引导系统的医疗引导机器人的语音识别精度。
123.在一种实现方式中,第一阶段训练和第二阶段训练通过以下方式进行区分:
124.当目标语音识别模型首次进行训练时,确定目标语音识别模型处于第一阶段训练;当目标语音识别模型的训练迭代次数达到预设迭代次数时,确定目标语音识别模型处于第二阶段训练。
125.也就是说,本实施例中对目标语音识别模型是否进入第一阶段训练以及是否进入第二阶段训练,可以根据训练的迭代次数来判断是否由第一阶段训练进入第二阶段训练。可以根据目标语音识别模型的类型来设置预设迭代次数。例如,以预设迭代次数为20次为例,在将第一置信度样本和第一相似度样本输入到目标语音识别模型进行20次迭代训练后,将第二置信度样本和第二相似度样本输入到目标语音识别模型进行第二阶段训练,据此,可以得到训练好的目标语音识别模型。
126.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
127.实施例二
128.如图7所示,本发明实施例公开了一种语音识别装置的结构示意图,该装置适用于数字医疗领域中医疗引导系统,如配备该医疗引导系统的医疗引导机器人,该机器人可以通过采集病人或病人家属的语音信号,进行语音识别,进而为病人或病人家属提供问诊、挂号、问路等问题。具体如下所示:
129.在具体实现中,本实施例中的语音识别装置具体可以包括以下单元:
130.语音数据获取单元701,用于获取到待筛选语音数据,待筛选语音数据包括第一语音数据和第二语音数据;
131.第一样本筛选单元702,用于从第一语音数据中筛选出第一置信度样本和第二置信度样本;第一置信度样本的置信度高于第二置信度样本的置信度;
132.第二样本筛选单元703,用于从第二语音数据中筛选出第一相似度样本和第二相似度样本;第一相似度样本的相似度高于第二相似度样本的相似度;
133.模型训练单元704,用于基于第一置信度样本、第二置信度样本、第一相似度样本和第二相似度样本,训练得到目标语音识别模型,目标语音识别模型用于对目标语音进行语音识别。
134.在一种实现方式中,第一样本筛选单元702具体可以用于:
135.将第一语音数据中的训练样本输入到第一语音识别模型,分别得到每个训练样本的置信度;
136.判断训练样本的置信度是否大于第一置信度阈值;
137.若训练样本的置信度大于第一置信度阈值,确定训练样本为第一置信度样本;
138.判断训练样本的置信度是否大于第二置信度阈值且小于第一置信度阈值;
139.若训练样本的置信度是否大于第二置信度阈值且小于第一置信度阈值,确定训练样本为第二置信度样本。
140.在一种实现方式中,第一样本筛选单元702也可以用于:
141.将第一语音数据中的训练样本分别输入到第一语音识别模型,得到每个训练样本的若干语音识别结果及每个语音识别结果对应的得分;
142.选择得分最高的两个语音识别结果对应的得分,计算得到训练样本的置信度。
143.在一种实现方式中,第二样本筛选单元703具体可以用于:
144.将第二语音数据中的训练样本输入到第二语音识别模型,得到每个训练样本的第一识别文本;
145.将第二语音数据中的训练样本输入到第三语音识别模型,得到每个训练样本的第二识别文本;所以第二语音识别模型和第三语音识别模型通过不同维度的样本特征训练得到;
146.基于第一识别文本和第二识别文本,从第二语音数据中筛选出第一相似度样本和第二相似度样本。
147.在一种实现方式中,第二样本筛选单元703也可以用于:
148.判断训练样本的第一识别文本的文本内容和第二识别文本的文本内容是否相同;
149.若训练样本第一识别文本的文本内容和第二识别文本的文本内容相同,确定训练样本为第一相似度样本;
150.若训练样本第一识别文本的文本内容和第二识别文本的文本内容不相同,获取第一识别样本的文本内容和第二识别样本的文本内容的字错误率;
151.判断第一识别样本的文本内容和第二识别样本的文本内容的字错误率是否低于预设的字错误率阈值;
152.若第一识别样本的文本内容和第二识别样本的文本内容的字错误率低于预设的
字错误率阈值,确定训练样本为第二相似度样本。
153.在一种实现方式中,模型训练单元704具体可以同于:
154.将第一置信度样本和第一相似度样本输入到目标语音识别模型,进行第一阶段训练;
155.将第二置信度样本和第二相似度样本输入到目标语音识别模型,进行第二阶段训练,得到训练好的目标语音识别模型。
156.在一种实现方式中,第一阶段训练和第二阶段训练通过以下方式进行区分:
157.当目标语音识别模型首次进行训练时,确定目标语音识别模型处于第一阶段训练;
158.当目标语音识别模型的训练迭代次数达到预设迭代次数时,确定目标语音识别模型处于第二阶段训练。
159.关于语音识别装置的具体限定,可以参见上文中对于语音识别方法的有关限定,在此不再赘述。上述语音识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
160.实施例三
161.本技术实施例三公开了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别方法。
162.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
163.获取到待筛选语音数据,待筛选语音数据包括第一语音数据和第二语音数据;
164.从第一语音数据中筛选出第一置信度样本和第二置信度样本;第一置信度样本的置信度高于第二置信度样本的置信度;
165.从第二语音数据中筛选出第一相似度样本和第二相似度样本;第一相似度样本的相似度高于第二相似度样本的相似度;
166.基于第一置信度样本、第二置信度样本、第一相似度样本和第二相似度样本,训练得到目标语音识别模型,目标语音识别模型用于对目标语音进行语音识别。
167.实施例四
168.本技术实施例四公开了一种计算机可读存储介质,当计算机可读存储介质中的指令由计算机设备中的处理器执行时,使得计算机设备能够执行如本发明公开的一种语音识别方法的任一实施例的各个步骤。所述计算机可读存储介质可以是非易失性,也可以是易失性。
169.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
170.获取到待筛选语音数据,待筛选语音数据包括第一语音数据和第二语音数据;
171.从第一语音数据中筛选出第一置信度样本和第二置信度样本;第一置信度样本的置信度高于第二置信度样本的置信度;
172.从第二语音数据中筛选出第一相似度样本和第二相似度样本;第一相似度样本的相似度高于第二相似度样本的相似度;
173.基于第一置信度样本、第二置信度样本、第一相似度样本和第二相似度样本,训练得到目标语音识别模型,目标语音识别模型用于对目标语音进行语音识别。
174.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram),以及存储器总线动态ram(rdram)等。
175.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
176.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
技术特征:
1.一种语音识别方法,其特征在于,所述方法包括:获取到待筛选语音数据,所述待筛选语音数据包括第一语音数据和第二语音数据;从所述第一语音数据中筛选出第一置信度样本和第二置信度样本;所述第一置信度样本的置信度高于第二置信度样本的置信度;从所述第二语音数据中筛选出第一相似度样本和第二相似度样本;所述第一相似度样本的相似度高于第二相似度样本的相似度;基于所述第一置信度样本、所述第二置信度样本、所述第一相似度样本和所述第二相似度样本,训练得到目标语音识别模型,所述目标语音识别模型用于对目标语音进行语音识别。2.如权利要求1所述的方法,其特征在于,所述从所述第一语音数据中筛选出第一置信度样本和第二置信度样本,包括:将所述第一语音数据中的训练样本输入到第一语音识别模型,分别得到每个所述训练样本的置信度;判断所述训练样本的置信度是否大于第一置信度阈值;若所述训练样本的置信度大于第一置信度阈值,确定所述训练样本为所述第一置信度样本;判断所述训练样本的置信度是否大于第二置信度阈值且小于所述第一置信度阈值;若所述训练样本的置信度是否大于所述第二置信度阈值且小于所述第一置信度阈值,确定所述训练样本为所述第二置信度样本。3.如权利要求2所述的方法,其特征在于,所述将所述第一语音数据中的训练样本输入到第一语音识别模型,分别得到每个所述训练样本的置信度,包括:将所述第一语音数据中的训练样本分别输入到所述第一语音识别模型,得到每个所述训练样本的若干语音识别结果及每个所述语音识别结果对应的得分;选择所述得分最高的两个所述语音识别结果对应的得分,计算得到所述训练样本的置信度。4.如权利要求1所述的方法,其特征在于,所述从所述第二语音数据中筛选出第一相似度样本和第二相似度样本;所述第一相似度样本的相似度高于第二相似度样本的相似度,包括:将所述第二语音数据中的训练样本输入到第二语音识别模型,得到每个所述训练样本的第一识别文本;将所述第二语音数据中的训练样本输入到第三语音识别模型,得到每个所述训练样本的第二识别文本;所以第二语音识别模型和所述第三语音识别模型通过不同维度的样本特征训练得到;基于所述第一识别文本和所述第二识别文本,从所述第二语音数据中筛选出所述第一相似度样本和所述第二相似度样本。5.如权利要求4所述的方法,其特征在于,所述基于所述第一识别文本和所述第二识别文本,从所述第二语音数据中筛选出所述第一相似度样本和所述第二相似度样本,包括:判断所述训练样本的第一识别文本的文本内容和所述第二识别文本的文本内容是否相同;
若所述训练样本第一识别文本的文本内容和所述第二识别文本的文本内容相同,确定所述训练样本为第一相似度样本;若所述训练样本第一识别文本的文本内容和所述第二识别文本的文本内容不相同,获取所述第一识别样本的文本内容和所述第二识别样本的文本内容的字错误率;判断第一识别样本的文本内容和所述第二识别样本的文本内容的字错误率是否低于预设的字错误率阈值;若所述第一识别样本的文本内容和所述第二识别样本的文本内容的字错误率低于预设的字错误率阈值,确定所述训练样本为第二相似度样本。6.如权利要求1所述的方法,其特征在于,所述基于所述第一置信度样本、所述第二置信度样本、所述第一相似度样本和所述第二相似度样本,训练得到目标语音识别模型,包括:将所述第一置信度样本和所述第一相似度样本输入到所述目标语音识别模型,进行第一阶段训练;将所述第二置信度样本和所述第二相似度样本输入到所述目标语音识别模型,进行第二阶段训练,得到训练好的所述目标语音识别模型。7.如权利要求6所述的方法,其特征在于,所述第一阶段训练和所述第二阶段训练通过以下方式进行区分:当所述目标语音识别模型首次进行训练时,确定所述目标语音识别模型处于第一阶段训练;当所述目标语音识别模型的训练迭代次数达到预设迭代次数时,确定所述目标语音识别模型处于第二阶段训练。8.一种语音识别装置,其特征在于,包括:语音数据获取单元,用于获取到待筛选语音数据,所述待筛选语音数据包括第一语音数据和第二语音数据;第一样本筛选单元,用于从所述第一语音数据中筛选出第一置信度样本和第二置信度样本;所述第一置信度样本的置信度高于第二置信度样本的置信度;第二样本筛选单元,用于从所述第二语音数据中筛选出第一相似度样本和第二相似度样本;所述第一相似度样本的相似度高于第二相似度样本的相似度;模型训练单元,用于基于所述第一置信度样本、所述第二置信度样本、所述第一相似度样本和所述第二相似度样本,训练得到目标语音识别模型,所述目标语音识别模型用于对目标语音进行语音识别。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音识别方法。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音识别方法。
技术总结
本发明涉及人工智能技术及数字医疗技术领域,公开了一种语音识别方法、装置、计算机设备及存储介质,所述方法包括:获取到待筛选语音数据,所述待筛选语音数据包括第一语音数据和第二语音数据;从所述第一语音数据中筛选出第一置信度样本和第二置信度样本;所述第一置信度样本的置信度高于第二置信度样本的置信度;从所述第二语音数据中筛选出第一相似度样本和第二相似度样本;所述第一相似度样本的相似度高于第二相似度样本的相似度;基于所述第一置信度样本、所述第二置信度样本、所述第一相似度样本和所述第二相似度样本,训练得到目标语音识别模型。可以极大得到提高数字医疗领域中医疗引导机器人,或者医疗引导系统的语音识别效果。识别效果。识别效果。
技术研发人员:赵梦原 王健宗 程宁
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.16
技术公布日:2023/8/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/