语音识别方法、装置及电子设备与流程

未命名 08-07 阅读:90 评论:0


1.本技术涉及语音处理技术领域,尤其涉及语音识别方法、装置及电子设备。


背景技术:

2.多通道音频是指由多个收音设备录制的音频。例如,在会议场景,包含多个说话人和设置在不同位置的多个麦克风,多个麦克风同时进行收音得到多通道音频。
3.相关技术中,在识别多通道音频时,通常是将多通道音频进行波束形成得到单通道音频,再通过单通道说话人相关语音识别模型进行该单通道音频的语音识别,该方法存在识别准确度低的问题。


技术实现要素:

4.本技术的多个方面提供语音识别方法、装置及电子设备,以提高对多通道音频的识别准确度。
5.本技术实施例第一方面提供一种语音识别方法,包括:获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;获取多个声源的声纹特征,声源和声纹特征一一对应;将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识。
6.本技术实施例第二方面提供一种语音识别方法,应用于终端设备,语音识别方法包括:获取待识别语音,待识别语音为多通道音频;向云端服务器发送待识别语音,以得到待识别语音对应的识别文本,识别文本包括文本片段和文本片段对应的声源标识,云端服务器基于如第一方面的方法得到待识别语音对应的识别文本。
7.本技术实施例第三方面提供一种语音识别装置,包括:
8.第一获取模块,用于获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;
9.第二获取模块,用于获取多个声源的声纹特征,声源和声纹特征一一对应;
10.识别模块,用于将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识。
11.本技术实施例第四方面提供一种语音识别系统,包括:
12.云端服务器和终端设备,云端服务器上部署有语音识别模型;
13.终端设备,用于获取待识别语音,并向云端服务器发送待识别语音,待识别语音为多通道音频;
14.云端服务器,用于获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;获取多个声源的声纹特征,声源和声纹特征一一对应;将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识
别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识;
15.终端设备,用于接收云端服务器发送的识别文本,识别文本包括文本片段和文本片段对应的声源标识。
16.本技术实施例第五方面提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如第一方面的语音识别方法。
17.本技术实施例第六方面提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序被处理器执行时,致使处理器实现如第一方面的语音识别方法。
18.本技术实施例应用于语音识别的场景中,通过获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;获取多个声源的声纹特征,声源和声纹特征一一对应;将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识,以准确的识别出多通道音频中任一部分语音的文本以及发声源。
附图说明
19.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
20.图1为本技术示例性实施例提供的一种应用场景图;
21.图2为本技术示例性实施例提供的一种语音识别方法的步骤流程图;
22.图3为本技术示例性实施例提供的一种语音识别方法的示意图;
23.图4为本技术示例性实施例提供的一种注意力机制的示意图;
24.图5为本技术示例性实施例提供的另一种注意力机制的示意图;
25.图6为本技术示例性实施例提供的另一种语音识别方法的示意图;
26.图7为本技术示例性实施例提供的再一种注意力机制的示意图;
27.图8为本技术示例性实施例提供的再一种语音识别方法的示意图;
28.图9为本技术示例性实施例提供的一种多通道语音分离子模型的示意图;
29.图10为本技术示例性实施例提供的一种语音识别装置的结构框图;
30.图11为本技术示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
31.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术具体实施例及相应的附图对本技术技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.会议场景下说话人相关语音识别是语音信号处理的研究热点和难题,也被称为鸡尾酒会问题,其识别目标是识别出多个说话人可能带有混叠的语音并且为每句识别出来的
文本片段指定对应的说话人,即识别出谁说了什么内容。因为会议场景下一般由多个麦克风组成的阵列收录音频,麦克风所处的不同位置,使得多个麦克风收录的多声道音频具有丰富的空间信息,对于多说话人语音识别有很大帮助。而相关技术中对多通道音频的识别方案是仅仅利用通过波束形成得到的单通道音频,然后对单通道音频进行识别,识别得到文本存在不准确的问题。
33.基于上述问题,本技术提供一种语音识别方法,包括:获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;获取多个声源的声纹特征,声源和声纹特征一一对应;将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识,本技术直接对多通道音频进行识别,能够充分利用多通道音频中的空间信息,以提高对多通道音频的识别效率。
34.在本实施例中,并不限定语音识别方法的执行设备。可选地,语音识别方法应用在终端,也可以借助云计算系统实现整体的语音识别方法。例如,语音识别方法可以应用于云服务器,以便借助于云上资源的优势运行各种模型;相对于应用于云端,语音识别方法也可以应用于常规服务器、云服务器或服务器阵列等服务端设备。
35.此外,参照图1,为本技术的一种应用场景图10。该应用场景图10包括多个声源(说话人a、说话人b、说话人c和说话人d)和收音设备11(包括8个麦克风),该收音设备可以对周围的声音进行录制得到多通道音频,若为8个麦克风,则为8通道音频,该多通道音频包括至少一个说话人的语音,若为多个说话人的语音,则本技术用于识别该多通道音频中得到哪个说话人说了什么内容。
36.图1只是本技术示例性的一种应用场景,本技术还可以应用在其他相关场景中,在此不加以限定。
37.以下结合附图,详细说明本技术各实施例提供的技术方案。
38.图2为本技术示例性实施例提供的一种语音识别方法的步骤流程图。如图2所示该语音识别方法,具体包括以下步骤:
39.s201,获取待识别语音。
40.其中,待识别语音为多通道音频,且待识别语音为多个声源发出的。
41.在本技术实施例中,声源包括说话人,如图1中的说话人a、说话人b、说话人c和说话人d分别为声源。此外,待识别语音为多通道音频,如图1中若待识别语音是8个麦克风收音得到的,则待识别语音为8通道音频。
42.s202,获取多个声源的声纹特征。
43.其中,声源和声纹特征一一对应。
44.在本技术实施例中,声纹特征包括音色特征和/或韵律特征。其中,音色特征是音色特征提取器对语音进行音色特征提取后得到的特征向量,韵律特征是韵律特征提取器对语音进行韵律特征提取后得到的特征向量。此外,音色特征提取器和韵律特征提取器均为预先训练好的,对具体的提取过程本技术不加以限定。
45.示例性地,可以在会议开始之前,针对会议中的说话人采集对应的一段语音,然后对该段语音进行声纹特征的提取,得到对应的声纹特征,声纹特征具有对应的声源标识。参照图2,说话人a预先单独说了一段语音a1,对该语音进行声纹特征的提取得到声纹特征a2,
将说话人a和声纹特征a2对应,说话人a为声源标识。同样的,说话人b发出一段语音b1,对该语音进行声纹特征的提取得到声纹特征b2,将说话人b和声纹特征b2对应,说话人b为声源标识。说话人c发出一段语音c1,对该语音进行声纹特征的提取得到声纹特征c2,将说话人c和声纹特征c2对应,说话人c为声源标识。说话人d发出一段语音d1,对该语音进行声纹特征的提取得到声纹特征d2,将说话人d和声纹特征d2对应,说话人d为声源标识。则多个声源的声纹特征包括:(说话人a,声纹特征a2)、(说话人b,声纹特征b2)、(说话人c,声纹特征c2)和(说话人d,声纹特征d2)。
46.s203,将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本。
47.在本技术实施例中,说话人的语音以声波形式由空气作为媒介传到麦克风,不同的麦克风对同一说话人的语音进行收音,语音内容是相同的,但是由于不同麦克风与说话人的相对位置不同,不同麦克风收的语音的空间信息是不同的,本技术的语音识别模型将多声道的待识别语音直接输入语音识别模型中,语音识别模型可以利用待识别语音的空间信息对语音的内容进行准确的识别。这里的空间信息可以理解为说话人相对收音设备的位置信息,该位置信息可以在待识别语音的体现。
48.参照图3,语音识别模型包括:多通道语音识别子模型和声源识别子模型,将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,包括:将待识别语音输入至多通道语音识别子模型中,基于待识别语音的空间信息,对待识别语音进行语音识别,得到文本片段,相邻的文本片段自不同的声源;将待识别语音和声纹特征输入至声源识别子模型进行声源识别,得到待识别语音在不同时间段的声源标识;按照时间序列,对齐文本片段和声源标识,以确定文本片段和声源标识的对应关系。
49.其中,多通道语音识别子模型和声源识别子模型均为预先训练好的,在图3中,多通道语音识别子模型对待识别语音进行识别后,得到多个文本片段,如s1/s2/

/sn,n为正整数。多个文本片段按照时间序列排列,如文本片段s1对应的时间戳先于文本片段s2对应的时间戳。进一步地,相邻的文本片段来自不同的声源(说话人),例如文本片段s1对应说话人a、文本片段s2对应说话人b、文本片段s3对应说话人a、文本片段s4对应说话人c、文本片段s5对应说话人b。
50.此外,声源识别子模型实现时间帧级别的说话人日志,即为了识别“谁在什么时间段内说话”,参照图3,将多个说话人的声纹特征和待识别音频输入声源识别子模型,可以识别出每个时间段内的声援标识,例如,参照图3,声源识别子模型识别出t1时间段的声源标识的说话人a、t2时间段的声源标识是说话人b、tn时间段的说话人的声源标识是说话人b。最后,将多通道语音识别子模型识别得到的多个文本片段和声源识别子模型识别得到的声源标识对齐后,可得到识别文本。识别文本表示“每个文本片段是哪个说话人说出的”。此外,识别文本还可以包括文本片段对应的时间戳,则识别文本可表示“每个文本片段是哪个说话人在什么时间段说出的”。
51.进一步地,参照图4,多通道语音识别子模型采用多帧跨通道注意力机制(multi-frame cross-channel attention,mfcca)识别待识别语音,mfcca是利用帧级和通道级信息之间的互补性对待识别语音进行识别。其中,在图4中,41表示对待识别语音和声纹特征
经过特征提取层(预先训练得到)处理后得到的特征向量41,特征向量41是c
×
t
×
d的特征向量,其中,c表示待识别语音的通道数(如8通道)、t表示待识别语音的时长、d表示维度(如256维),特征向量42是对特征向量41前后几帧通道信息的拼接,实现mfcca关注相邻帧通道上下文信息,以提高帧级和通道级上下文信息共同建模的能力。43、44和45分别表示计算单元,其中计算单元43采用预先训练好的权重参数计算特征向量41。计算单元44采用预先训练好权重参数计算特征向量42。计算单元45采用预先训练好权重参数计算特征向量42。计算单元43输出的结果与计算单元44输出的结果相乘后得到特征向量46,特征向量45与计算单元45输出的结果相乘后得到特征向量47,特征向量47用于表征文本片段。
52.进一步地,声源识别子模型采用通道级跨通道注意力机制(channel-level cross-channel attention,clcca)识别待识别语音,clcca可以利用空间多样性和细粒度建模每个时间步上的通道信息。通道级跨通道注意力机制如图5所示,在51表示对待识别语音和声纹特征经过特征提取层(预先训练得到)处理后得到的特征向量51,特征向量51是c
×
t
×
d的特征向量,其中,c表示待识别语音的通道数(如8通道)、t表示待识别语音的时长、d表示维度(如256维)。52、53和54分别表示计算单元,其中计算单元52、53和54分别采用预先训练好的权重参数计算特征向量51。计算单元52输出的结果与计算单元53输出的结果相乘后得到特征向量55,特征向量55与计算单元54输出的结果相乘后得到特征向量56,特征向量56用于每个时间段的声源标识。
53.参照图6,语音识别模型包括:多通道语音识别子模型和文字识别子模型,文本片段包括至少一个文字,将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,包括:将待识别语音输入至多通道语音识别子模型中,基于待识别语音的空间信息,对待识别语音进行语音识别,得到文本片段,相邻的文本片段自不同的声源;将文本片段、待识别语音和声纹特征输入至文字识别子模型进行识别,得到文本片段中文字对应的声源标识。
54.在图6中,多通道语音识别子模型输出的多个文本片段如s1/s2/

/sn,其中,每个文本片段包括多个文字,如文本片段s1包括文字w11、w12

;文本片段s2包括文字w21、w22

;文本片段sn包括文字wn1、wn2

;进一步地,将文本片段、待识别音频和声纹特征输入文字识别子模型中进行识别,可以得到文本片段中每个文字对应的声源标识,即识别出每个文字是哪个说话人说出的,图6是针对字级别的识别,能够更准确的得到识别文本。
55.示例性地,参照图6,文本片段s1是说话人a说出的,文本片段s2中的文字w21也是说话人a说出的,文本片段s2中除文字w21之外其他文字是说话人b说出的。
56.进一步地,参照图7,文字识别子模型是实现字符级别的说话人日志,即文字是哪个说话人说出的。文字识别子模型采用帧级跨通道注意力机制(frame-level cross-channel attention,flcca)识别文本片段。其中,在图7中,71表示对待识别语音和声纹特征以及文本片段经过特征提取层(预先训练得到)处理后得到的特征向量71,特征向量71是c
×
t
×
d的特征向量,其中,c表示待识别语音的通道数(如8通道)、t表示待识别语音的时长、d表示维度(如256维),对特征向量71进行平均处理可得到特征向量72,其中平均处理过程为对特征向量71除第c个通道外的其他所有通道在时间维度的平均。73、74和75分别表示计算单元,其中,计算单元73采用预先训练好的权重参数计算特征向量71。计算单元74采用
预先训练好权重参数计算特征向量72。7计算单元75采用预先训练好权重参数计算特征向量72。计算单元73输出的结果与计算单元74输出的结果相乘后得到特征向量76,特征向量与计算单元75输出的结果相乘后得到特征向量77,特征向量77用于表征文本片段中每个文字对应的声源标识(即文字是哪个说话人说出的)。
57.参照图8,语音识别模型包括:多通道语音分离子模型和语音识别子模型,将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,包括:将待识别语音和声纹特征输入至多通道语音分离子模型进行分离,得到多个语音片段,语音片段与声源标识对应;针对多个语音片段中的语音片段,将语音片段输入至语音识别子模型进行识别,得到语音片段对应的文本片段。
58.参照图8,多通道语音分离子模型用于将待识别音频进行分离,分离成多个语音片段,每个语音片段是对应一个说话人。语音片段可以按照时间序列排序,在图8中,识别到语音片段y1、语音片段y2,至语音片段yn。然后采用每个语音片段可以携带有时间戳。然后采用语音识别子模型对单个说话人对应的语音片段进行识别,便可以得到识别文本。
59.参照图9,多通道语音分离子模型包括:特征提取层、网络处理层、多通道加权处理层以及解码层,将待识别语音和声纹特征输入至多通道语音分离子模型进行分离,得到多个语音片段,包括:将待识别语音输入至特征提取层进行特征提取,得到表征待识别语音的语音特征的第一特征向量;针对多个声纹特征中的声纹特征,将声纹特征和第一特征向量输入至网络处理层进行特征匹配提取,得到与声纹特征匹配的第二特征向量;将第一特征向量和第二特征向量输入至多通道加权处理层进行多通道加权处理,得到单通道的第三特征向量;将第三特征向量输入至解码层进行解码,得到对应的语音片段。
60.参照图9,特征提取层对待识别音频进行特征提取处理,得到的第一特征向量为c
×
t
×
d的特征向量,第一特征向量用于表征待识别音频,其中,c表示待识别语音的通道数(如8通道)、t表示待识别语音的时长、d表示维度(如256维)。网络处理层,如bf(一种神经网络),对第一特征向量和声纹特征进行提取后,可以得到多个第二特征向量,每个第二特征向量为一个8通道的特征向量,每个第二特征向量表示待识别音频中对应说话人说出的一段语音片段,该语音片段为对应说话人说出。多通道加权处理层是将一个8通道的特征向量进行加权处理,得到单通道的第三特征向量,第三特征向量也表征对应说话人说出的一段语音片段。通过解码层对不同第三特征向量进行解码,可以得到对应的语音片段。
61.本技术实施例应用于语音识别的场景中,通过获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;获取多个声源的声纹特征,声源和声纹特征一一对应;将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识,以准确的识别出多通道音频中任一部分语音的文本以及发声源。
62.本技术还提供一种语音识别方法,应用于终端设备,语音识别方法包括:获取待识别语音,待识别语音为多通道音频;向云端服务器发送待识别语音,得到待识别语音对应的识别文本,识别文本包括文本片段和文本片段对应的声源标识,云端服务器基于上述的方法得到待识别语音对应的识别文本。
63.此外,本技术还提供一种语音识别系统,包括:
64.云端服务器和终端设备,云端服务器上部署有语音识别模型;
65.终端设备,用于获取待识别语音,并向云端服务器发送待识别语音,待识别语音为多通道音频;
66.云端服务器,用于获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;获取多个声源的声纹特征,声源和声纹特征一一对应;将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识;
67.终端设备,用于接收云端服务器发送的识别文本,识别文本包括文本片段和文本片段对应的声源标识。
68.具体实现过程参照上述描述,在此不再赘述。
69.在本技术实施例中,除了提供一种语音识别方法之外,还提供一种语音识别装置,如图10所示,该语音识别装置100包括:
70.第一获取模块101,用于获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;
71.第二获取模块102,用于获取多个声源的声纹特征,声源和声纹特征一一对应;
72.识别模块103,用于将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识。
73.在一可选实施例中,语音识别模型包括:多通道语音识别子模型和声源识别子模型,识别模块103具体用于,将待识别语音输入至多通道语音识别子模型中,基于待识别语音的空间信息,对待识别语音进行语音识别,得到文本片段,相邻的文本片段自不同的声源;将待识别语音和声纹特征输入至声源识别子模型进行声源识别,得到待识别语音在不同时间段的声源标识;按照时间序列,对齐文本片段和声源标识,以确定文本片段和声源标识的对应关系。
74.在一可选实施例中,语音识别模型包括:多通道语音识别子模型和文字识别子模型,文本片段包括至少一个文字,识别模块103具体用于,将待识别语音输入至多通道语音识别子模型中,基于待识别语音的空间信息,对待识别语音进行语音识别,得到文本片段,相邻的文本片段自不同的声源;将文本片段、待识别语音和声纹特征输入至文字识别子模型进行识别,得到文本片段中文字对应的声源标识。
75.在一可选实施例中,语音识别模型包括:多通道语音分离子模型和语音识别子模型,识别模块103具体用于,将待识别语音和声纹特征输入至多通道语音分离子模型进行分离,得到多个语音片段,语音片段与声源标识对应;针对多个语音片段中的语音片段,将语音片段输入至语音识别子模型进行识别,得到语音片段对应的文本片段。
76.在一可选实施例中,多通道语音分离子模型包括:特征提取层、网络处理层、多通道加权处理层以及解码层,识别模块103在将待识别语音和声纹特征输入至多通道语音分离子模型进行分离,得到多个语音片段时,具体用于:将待识别语音输入至特征提取层进行特征提取,得到表征待识别语音的语音特征的第一特征向量;针对多个声纹特征中的声纹
特征,将声纹特征和第一特征向量输入至网络处理层进行特征匹配提取,得到与声纹特征匹配的第二特征向量;将第一特征向量和第二特征向量输入至多通道加权处理层进行多通道加权处理,得到单通道的第三特征向量;将第三特征向量输入至解码层进行解码,得到对应的语音片段。
77.在本技术实施例提供的语音识别装置,能够。具体实现过程参照上述方法实施例,在此不再赘述。
78.此外,本技术还提供一种语音识别装置(未示出),应用于终端设备,包括:
79.获取模块,用于获取待识别语音,待识别语音为多通道音频;
80.发送模块,用于向云端服务器发送待识别语音,以得到待识别语音对应的识别文本,识别文本包括文本片段和文本片段对应的声源标识,云端服务器基于如上述的方法得到待识别语音对应的识别文本。
81.具体实现过程参照上述实施例,在此不再赘述。
82.另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
83.图11为本技术示例性实施例提供的一种电子设备的结构示意图。该电子设备110用于运行上述语音识别方法和语音识别方法。如图11所示,该电子设备包括:存储器114和处理器115。
84.存储器114,用于存储计算机程序,并可被配置为存储其它各种数据以支持在电子设备上的操作。该存储器114可以是对象存储(object storage service,oss)。
85.存储器114可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
86.处理器115,与存储器114耦合,用于执行存储器114中的计算机程序,以用于:获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;获取多个声源的声纹特征,声源和声纹特征一一对应;将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识。
87.进一步可选地,语音识别模型包括:多通道语音识别子模型和声源识别子模型,处理器115在将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本时,具体用于将待识别语音输入至多通道语音识别子模型中,基于待识别语音的空间信息,对待识别语音进行语音识别,得到文本片段,相邻的文本片段自不同的声源;将待识别语音和声纹特征输入至声源识别子模型进行声源识别,得到待识别语音在不同时间段的声源标识;按照时间序列,对齐文本片段和声源标识,以确定文本片段和声源标识的对应关系。
88.进一步可选地,语音识别模型包括:多通道语音识别子模型和文字识别子模型,文本片段包括至少一个文字,处理器115在将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本时,具体用于:将待识别语音输入至多通道语音识别子模型中,基于待识别语音的空间信息,对待识别语音进行语音识别,得到文本片段,相邻的文本片段自不同的声源;将文本片段、待识别语音和声纹特征输入至文字识别子模型进行识别,得到文本片段中文字对应的声源标识。
89.进一步可选地,语音识别模型包括:多通道语音分离子模型和语音识别子模型,处理器115在将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本时,具体用于将待识别语音和声纹特征输入至多通道语音分离子模型进行分离,得到多个语音片段,语音片段与声源标识对应;针对多个语音片段中的语音片段,将语音片段输入至语音识别子模型进行识别,得到语音片段对应的文本片段。
90.在一可选实施例中,多通道语音分离子模型包括:特征提取层、网络处理层、多通道加权处理层以及解码层,处理器115在将待识别语音和声纹特征输入至多通道语音分离子模型进行分离,得到多个语音片段时,具体用于:将待识别语音输入至特征提取层进行特征提取,得到表征待识别语音的语音特征的第一特征向量;针对多个声纹特征中的声纹特征,将声纹特征和第一特征向量输入至网络处理层进行特征匹配提取,得到与声纹特征匹配的第二特征向量;将第一特征向量和第二特征向量输入至多通道加权处理层进行多通道加权处理,得到单通道的第三特征向量;将第三特征向量输入至解码层进行解码,得到对应的语音片段。
91.一种可选实施例中,处理器115,与存储器114耦合,用于执行存储器114中的计算机程序,以还用于:获取待识别语音,待识别语音为多通道音频;向云端服务器发送待识别语音,以得到待识别语音对应的识别文本,识别文本包括文本片段和文本片段对应的声源标识,云端服务器基于如上述任一项的语义方法得到待识别语音对应的识别文本。
92.进一步,如图11所示,该电子设备还包括:防火墙111、负载均衡器112、通信组件116、电源组件113等其它组件。图11中仅示意性给出部分组件,并不意味着电子设备只包括图11所示组件。
93.相应地,本技术实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序/指令被处理器执行时,致使处理器实现上述所示方法中的步骤。
94.相应地,本技术实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器实现上述所示方法中的步骤。
95.上述图11中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如wifi,2g、3g、4g/lte、5g等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关文本。在一个示例性实施例中,通信组件还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
96.上述图11中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可
以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
97.本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
98.本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程文本处理设备的处理器以产生一个机器,使得通过计算机或其他可编程文本处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
99.这些计算机程序指令也可存储在能引导计算机或其他可编程文本处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
100.这些计算机程序指令也可装载到计算机或其他可编程文本处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
101.在一个典型的配置中,计算设备包括一个或多个处理器(cpu和/或gpu)、输入/输出接口、网络接口和内存。
102.内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
103.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的文本。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
104.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
105.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。

技术特征:
1.一种语音识别方法,其特征在于,包括:获取待识别语音,所述待识别语音为多通道音频,且所述待识别语音为多个声源发出的;获取所述多个声源的声纹特征,所述声源和所述声纹特征一一对应;将所述待识别语音和所述声纹特征输入至预先训练的语音识别模型中,基于所述待识别语音的空间信息和所述声纹特征,对所述待识别语音进行识别,得到待识别语音对应的识别文本,所述识别文本包括:文本片段和文本片段对应声源标识。2.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型包括:多通道语音识别子模型和声源识别子模型,所述将所述待识别语音和所述声纹特征输入至预先训练的语音识别模型中,基于所述待识别语音的空间信息和所述声纹特征,对所述待识别语音进行识别,得到待识别语音对应的识别文本,包括:将所述待识别语音输入至所述多通道语音识别子模型中,基于所述待识别语音的空间信息,对所述待识别语音进行语音识别,得到文本片段,相邻的文本片段自不同的声源;将所述待识别语音和所述声纹特征输入至所述声源识别子模型进行声源识别,得到所述待识别语音在不同时间段的声源标识;按照时间序列,对齐所述文本片段和所述声源标识,以确定所述文本片段和所述声源标识的对应关系。3.根据权利要求2所述的语音识别方法,其特征在于,所述声源识别子模型采用通道级跨通道注意力机制识别所述待识别语音。4.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型包括:多通道语音识别子模型和文字识别子模型,所述文本片段包括至少一个文字,所述将所述待识别语音和所述声纹特征输入至预先训练的语音识别模型中,基于所述待识别语音的空间信息和所述声纹特征,对所述待识别语音进行识别,得到待识别语音对应的识别文本,包括:将所述待识别语音输入至所述多通道语音识别子模型中,基于所述待识别语音的空间信息,对所述待识别语音进行语音识别,得到文本片段,相邻的文本片段自不同的声源;将所述文本片段、所述待识别语音和所述声纹特征输入至所述文字识别子模型进行识别,得到所述文本片段中文字对应的声源标识。5.根据权利要求4所述的语音识别方法,其特征在于,所述文字识别子模型采用帧级跨通道注意力机制识别所述文本片段。6.根据权利要求2至5任一项所述的语音识别方法,其特征在于,所述多通道语音识别子模型采用多帧跨通道注意力机制识别所述待识别语音。7.根据权利要求1所述的语音识别方法,其特征在于,所述语音识别模型包括:多通道语音分离子模型和语音识别子模型,所述将所述待识别语音和所述声纹特征输入至预先训练的语音识别模型中,基于所述待识别语音的空间信息和所述声纹特征,对所述待识别语音进行识别,得到待识别语音对应的识别文本,包括:将待识别语音和所述声纹特征输入至所述多通道语音分离子模型进行分离,得到多个语音片段,所述语音片段与声源标识对应;针对所述多个语音片段中的语音片段,将所述语音片段输入至所述语音识别子模型进行识别,得到所述语音片段对应的文本片段。
8.根据权利要求7所述的语音识别方法,其特征在于,所述多通道语音分离子模型包括:特征提取层、网络处理层、多通道加权处理层以及解码层,所述将待识别语音和所述声纹特征输入至所述多通道语音分离子模型进行分离,得到多个语音片段,包括:所述将待识别语音输入至所述特征提取层进行特征提取,得到表征所述待识别语音的语音特征的第一特征向量;针对多个声纹特征中的声纹特征,将所述声纹特征和所述第一特征向量输入至所述网络处理层进行特征匹配提取,得到与所述声纹特征匹配的第二特征向量;将所述第一特征向量和所述第二特征向量输入至所述多通道加权处理层进行多通道加权处理,得到单通道的第三特征向量;将所述第三特征向量输入至所述解码层进行解码,得到对应的语音片段。9.一种语音识别方法,其特征在于,应用于终端设备,所述语音识别方法包括:获取待识别语音,所述待识别语音为多通道音频;向云端服务器发送所述待识别语音,以得到所述待识别语音对应的识别文本,所述识别文本包括文本片段和文本片段对应的声源标识,所述云端服务器基于如权利要求1至8中任一项所述的方法得到所述待识别语音对应的识别文本。10.一种语音识别装置,其特征在于,包括:第一获取模块,用于获取待识别语音,所述待识别语音为多通道音频,且所述待识别语音为多个声源发出的;第二获取模块,用于获取所述多个声源的声纹特征,所述声源和所述声纹特征一一对应;识别模块,用于将所述待识别语音和所述声纹特征输入至预先训练的语音识别模型中,基于所述待识别语音的空间信息和所述声纹特征,对所述待识别语音进行识别,得到待识别语音对应的识别文本,所述识别文本包括:文本片段和文本片段对应声源标识。11.一种语音识别系统,其特征在于,包括:云端服务器和终端设备,所述云端服务器上部署有语音识别模型;所述终端设备,用于获取待识别语音,并向所述云端服务器发送所述待识别语音,所述待识别语音为多通道音频;所述云端服务器,用于获取待识别语音,所述待识别语音为多通道音频,且所述待识别语音为多个声源发出的;获取所述多个声源的声纹特征,所述声源和所述声纹特征一一对应;将所述待识别语音和所述声纹特征输入至预先训练的语音识别模型中,基于所述待识别语音的空间信息和所述声纹特征,对所述待识别语音进行识别,得到待识别语音对应的识别文本,所述识别文本包括:文本片段和文本片段对应声源标识;所述终端设备,用于接收云端服务器发送的识别文本,所述识别文本包括文本片段和文本片段对应的声源标识。12.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的语音识别方法。

技术总结
本申请提供一种语音识别方法、装置及电子设备。该语音识别方法包括:获取待识别语音,待识别语音为多通道音频,且待识别语音为多个声源发出的;获取多个声源的声纹特征,声源和声纹特征一一对应;将待识别语音和声纹特征输入至预先训练的语音识别模型中,基于待识别语音的空间信息和声纹特征,对待识别语音进行识别,得到待识别语音对应的识别文本,识别文本包括:文本片段和文本片段对应声源标识,本申请能够准确的识别出多通道音频对应的文本以及发声源。及发声源。及发声源。


技术研发人员:史莫晗 杜志浩 俞帆 陈谦 张仕良 张结 戴礼荣
受保护的技术使用者:阿里巴巴(中国)有限公司
技术研发日:2023.06.05
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐