识别装置、识别方法以及程序与流程
未命名
09-09
阅读:82
评论:0

1.本发明涉及识别装置、识别方法以及程序。
背景技术:
2.有一种利用登记的声音数据和输入的声音数据的相似度的大小来识别输入的声音数据的讲话者的技术(参照专利文献1)。
3.(现有技术文献)
4.(专利文献)
5.专利文献1:日本特开2015-55835号公报
技术实现要素:
6.发明要解决的课题
7.然而,根据声音数据的内容的不同,会出现识别声音数据的性能下降的情况。在识别声音数据的性能下降了的情况下,会产生讲话者的识别的精度下降这样的问题。
8.于是,本发明提供一种以更高的精度来进行讲话者的识别的识别装置。
9.解决课题所采用的手段
10.本发明的一个形态所涉及的识别装置具备:获得部,获得声音数据;识别部,通过讲话者识别处理来获得示出相似度的分数,所述相似度是所述获得部所获得的所述声音数据和规定的讲话者的讲话所涉及的声音数据的相似度;以及校正部,在判断为所述获得部所获得的所述声音数据具有使由所述识别部进行的所述讲话者识别处理的识别性能下降的特征的情况下,对所述分数实施校正处理后并输出,所述校正处理是使所述分数所受到的所述识别性能的下降的影响减小的处理。
11.另外,这些概括性的或具体的形态,既可以由系统、方法、集成电路、计算机程序或计算机可读取的cd-rom等记录介质来实现,也可以由系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
12.发明效果
13.本发明的识别装置能够以更高的精度来进行讲话者的识别。
附图说明
14.图1是示出利用了分数的识别讲话者的方法的例子的说明图。
15.图2是示出实施方式中的识别装置的功能构成的方框图。
16.图3是示出实施方式中的校正部所执行的、获得代表值等处理的流程图。
17.图4是示出由实施方式中的校正部进行的校正分数的说明图。
18.图5是示出实施方式中的识别装置所执行的识别处理的流程图。
19.图6是表示示出由实施方式中的识别装置进行的识别的性能的第一评估结果的说明图。
20.图7是表示示出由实施方式中的识别装置进行的识别的性能的第二评估结果的说明图。
具体实施方式
21.(本发明的基础知识)
22.关于“背景技术”部分记载的对讲话者进行识别的技术,本发明的发明人员发现会产生如下的问题。
23.以往,在对声音数据的讲话者进行识别的技术中,利用示出登记的声音数据和输入的声音数据的相似度的分数来识别讲话者。登记的声音数据是特定的讲话者的讲话所涉及的声音数据,输入的声音数据是未知的讲话者的讲话所涉及的声音数据。
24.通过上述技术得到的分数,在输入的声音数据的讲话者与登记的声音数据的讲话者一致时成为较高的值,而在不同时成为较低的值。于是,假设决定某个能够用于对被输出的分数的大小进行判别的恰当的阈值。然后,在分数比阈值大的情况下,判断为输入的声音数据的讲话者和登记的声音数据的讲话者是同一个人,否则,判断为输入的声音数据的讲话者和登记的声音数据的讲话者不同。如此这样来进行输入的声音数据的讲话者的识别。
25.图1是示出利用了分数的识别讲话者的方法的例子的说明图。
26.图1示出了讲话者识别处理的分数的直方图。横轴表示讲话者识别处理的分数,纵轴表示关于该分数的频数(次数)。
27.图1的(a)所示的直方图是示出以各种各样的形式从多个声音数据中抽取出的两个声音数据之间的相似度的分数的直方图。多个声音数据所涉及的声音是短时间的声音,换而言之,声音的时间长度较短,例如大概不到10秒钟。并且,多个声音数据中包括多个讲话者的讲话所涉及的声音数据,更具体而言,包括多个讲话者的各自的讲话所涉及的多个声音数据。图1的(a)所示的直方图(1)是抽取出的两个声音数据的讲话者为同一个人的情况下的分数的直方图,直方图(2)是抽取出的两个声音数据的讲话者为相互不同的情况下的分数的直方图。
28.虽然图1的(b)所示的直方图与图1的(a)所示的直方图相同,但多个声音数据所涉及的声音的时间长度不同。即,用于导出图1的(b)所示的直方图的多个声音数据所涉及的声音是长时间的声音,换而言之,声音的时间长度较长,例如大概在10秒钟以上。
29.另外,关于分数,假设其用于表示大或小的程度,或者用于比较大小,而作为分数所示出的数值本身并不具有特殊的意思。
30.如图1的(a)所示,在针对具有较短的时间长度的声音数据的讲话者识别处理的结果中,示出相互不同的讲话者的声音数据之间的相似度的分数大致小于-10,示出同一个讲话者的声音数据之间的相似度的分数大致在-10以上。
31.因此,对于针对具有较短的时间长度的声音数据的讲话者识别处理的结果,能够将-10或与-10接近的值用作阈值。然后,在讲话者识别处理中,具有阈值以上的分数的声音数据的组有可能被判别为是同一个讲话者的声音数据的组,另外,具有小于阈值的分数的声音数据的组有可能被判别为是相互不同的讲话者的声音数据的组。
32.另一方面,如图1的(b)所示,在针对具有较长的时间长度的声音数据的讲话者识别处理的结果中,示出相互不同的讲话者的声音数据之间的相似度的分数大致小于50,示
出同一个讲话者的声音数据之间的相似度的分数大致在50以上。
33.因此,对于针对具有较长的时间长度的声音数据的讲话者识别处理的结果,能够将50或与50接近的值用作阈值。
34.然而,假如针对具有较短的时间长度的声音数据与具有较长的时间长度的声音数据混和在一起时的声音数据来进行讲话者识别处理,则决定一个恰当的阈值是困难的。
35.具体而言,针对用于图1的(a)和(b)所示的讲话者识别处理的、具有较短的时间长度的声音数据与具有较长的时间长度的声音数据混和在一起的声音数据,若将-10或与-10接近的值用作阈值,则针对具有较短的时间长度的声音数据能够进行恰当且高精度的识别处理,但针对具有较长的时间长度的声音数据却不能进行恰当的识别处理,换而言之,精度下降。相反,针对上述混和在一起的声音数据,若将50或与50接近的值用作阈值,则针对具有较长的时间长度的声音数据能够进行恰当且高精度的识别处理,但针对具有较短的时间长度的声音数据却不能进行恰当的识别处理,换而言之,精度下降。另外,针对上述混和在一起的声音数据,若将上述以外的值用作阈值,则不管是针对具有较长的时间长度的声音数据还是针对具有较短的时间长度的声音数据都不能进行恰当的识别处理,换而言之,精度下降。
36.如此,根据声音数据的内容的不同,会产生针对声音数据的讲话者识别处理的性能下降这样的问题。
37.为了解决这样的问题,本发明的一个形态所涉及的识别装置具备:获得部,获得声音数据;识别部,通过讲话者识别处理来获得示出相似度的分数,所述相似度是所述获得部所获得的所述声音数据和规定的讲话者的讲话所涉及的声音数据的相似度;以及校正部,在判断为所述获得部所获得的所述声音数据具有使由所述识别部进行的所述讲话者识别处理的识别性能下降的特征的情况下,对所述分数实施校正处理后并输出,所述校正处理是使所述分数所受到的所述识别性能的下降的影响减小的处理。
38.通过上述形态,在声音数据具有使讲话者识别处理的识别性能下降的特征的情况下,识别装置对分数进行校正处理后并输出。由于校正处理是使讲话者识别处理的识别性能的下降对分数造成的影响减小的处理,所以具有上述特征的声音数据的分数被校正为假设是识别性能的下降程度小的情况下的分数。由于校正后的分数是与不具有上述特征的声音数据的分数共通的基准,而且校正后的分数示出了声音数据是同一个讲话者的声音数据还是相互不同的讲话者的声音数据,所以识别装置能够以更高的精度来进行所获得的声音数据是否是规定的讲话者的讲话所涉及的声音数据的识别。如此,识别装置能够以更高的精度来进行讲话者的识别。
39.例如也可以是,所述校正部在所述校正处理中,对所述识别部所获得的所述分数实施如下的接近处理,该接近处理是指,使所述识别部针对具有同一个讲话者的所述特征的两个声音数据而获得的分数的分布,接近于所述识别部针对不具有同一个讲话者的所述特征的两个声音数据而获得的分数的分布的处理。
40.通过上述形态,识别装置通过以校正处理来调整识别部所获得的分数的分布,从而能够使基于具有使识别性能下降的特征的同一个讲话者的声音数据而得到的分数,接近于基于假设不具有上述特征的情况下的同一个讲话者的声音数据而得到的分数。因此,识别装置能够更容易地、且以更高的精度来进行讲话者的识别。
41.例如也可以是,所述校正部在所述校正处理中,利用第一代表值、第二代表值以及第三代表值对所述识别部所获得的所述分数实施缩放处理,所述缩放处理是针对所述识别部所获得的所述分数,将从所述第三代表值至所述第二代表值为止的范围变换为从所述第三代表值至所述第一代表值为止的范围的处理,所述第一代表值是由所述识别部针对预先获得的同一个讲话者的两个以上的第一声音数据而获得的所述分数的代表值,并且该第一声音数据也是不具有所述特征的两个以上的第一声音数据,所述第二代表值是由所述识别部针对预先获得的同一个讲话者的两个以上的第二声音数据而获得的所述分数的代表值,并且该第二声音数据也是具有所述特征的两个以上的声音数据,所述第三代表值是由所述识别部针对预先获得的相互不同的讲话者的两个以上的第三声音数据而获得的所述分数的代表值。
42.通过上述形态,识别装置通过对识别部所获得的分数实施利用了预先获得的第一代表值、第二代表值以及第三代表值的缩放处理,从而能够使基于具有使识别性能下降的特征的同一个讲话者的声音数据而得到的分数,接近于基于假设不具有上述特征的情况下的同一个讲话者的声音数据而得到的分数。因此,识别装置能够更容易地、且以更高的精度来进行讲话者的识别。
43.例如也可以是,所述校正部在所述缩放处理中,利用作为由所述识别部获得的所述分数的s1、作为所述第一代表值的v1、作为所述第二代表值的v2、以及作为所述第三代表值的v3,通过(式a)来计算作为由所述校正部校正之后的分数的s2。
44.s2=(s1-v3)
×
(v1-v3)/(v2-v3)+v3(式a)
45.通过上述形态,识别装置通过对由识别部获得的分数s1实施以(式a)来表示的缩放处理,从而能够容易地得到校正后的分数s2。因此,识别装置能够一边更容易地进行分数的校正处理,一边以更高的精度来进行讲话者的识别。
46.例如也可以是,使所述讲话者识别处理的识别性能下降的特征包括:所述获得部所获得的所述声音数据所涉及的声音的时间长度小于阈值这样的特征;或者所述获得部所获得的所述声音数据所涉及的声音中包含的噪声的水平在阈值以上这样的特征;或者所述获得部所获得的所述声音数据所涉及的声音的回声时间在阈值以上这样的特征。
47.通过上述形态,识别装置根据如下的判断来对分数实施校正处理,该判断是指,将获得部所获得的声音数据所具有的、与声音的时间长度有关的特征或与声音中包含的噪声的水平有关的特征或与声音的回声时间有关的特征判断为是使识别性能下降的特征。因此,识别装置能够更容易地、且以更高的精度来进行讲话者的识别。
48.例如也可以是,所述第一代表值是由所述识别部针对所述两个以上的第一声音数据而获得的一个以上的所述分数的平均值、中央值或众数,所述第二代表值是由所述识别部针对所述两个以上的第二声音数据而获得的一个以上的所述分数的平均值、中央值或众数,所述第三代表值是由所述识别部针对所述两个以上的第三声音数据而获得的一个以上的所述分数的平均值、中央值或众数。
49.通过上述形态,识别装置将一个以上的分数的平均值、中央值或众数用作代表值(即第一代表值、第二代表值或第三代表值),来实施缩放处理。因此,识别装置能够一边更容易地进行分数的校正处理,一边以更高的精度来进行讲话者的识别。
50.并且,本发明的一个形态所涉及的一种识别方法,在所述识别方法中,获得声音数
据,通过讲话者识别处理来获得示出相似度的分数,在判断为所获得的所述声音数据具有使所述讲话者识别处理的识别性能下降的特征的情况下,对所述分数实施校正处理后并输出,所述相似度是所获得的所述声音数据和规定的讲话者的讲话所涉及的声音数据的相似度,所述校正处理是使所述分数所受到的所述识别性能的下降的影响减小的处理。
51.通过上述形态,能够得到与上述识别装置相同的效果。
52.并且,本发明的一个形态所涉及的程序是使计算机执行上述的识别方法的程序。
53.通过上述形态,能够得到与上述识别装置相同的效果。
54.另外,这些概括性的或具体的形态,既可以由系统、方法、集成电路、计算机程序或计算机可读取的cd-rom等记录介质来实现,也可以由系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
55.以下,参照附图来对实施方式进行具体的说明。
56.另外,以下将要说明的实施方式均为示出概括性的或具体的例子。以下的实施方式所示的数值、形状、材料、构成要素、构成要素的配置位置以及连接方式、步骤、步骤的顺序等均为一个例子,其主旨并非是对本发明进行限定。并且,对于以下的实施方式的构成要素中没有记载在示出最上位概念的独立技术方案的构成要素,将作为任意的构成要素来说明。
57.(实施方式)
58.对本实施方式中的以更高的精度来进行讲话者的识别的识别装置等进行说明。
59.图2是示出本实施方式中的识别装置10的功能构成的方框图。
60.如图2所示,识别装置10具备获得部11、识别部12、校正部13以及存储部14。识别装置10具备的上述的功能部有可能由识别装置10具备的处理器(cpu(central processing unit:中央处理器))利用存储器执行规定的程序来实现,或者有可能由存储装置来实现。
61.获得部11是获得声音数据的功能部。获得部11所获得的声音数据是作为由识别装置10进行讲话者识别的对象的声音数据。获得部11也可以通过通信从识别装置10的外部的装置获得声音数据。并且,在获得部11是拾取达至识别装置10的声音并生成声音数据的麦克风的情况下,获得部11也可以通过生成声音数据来获得声音数据。
62.识别部12是执行讲话者识别处理的功能部。识别部12通过执行讲话者识别处理,来获得示出获得部11所获得的声音数据和规定的讲话者的讲话所涉及的声音数据的相似度的分数。讲话者识别处理通过众所周知的技术来实现,例如通过x-vector来实现。
63.校正部13是对识别部12所获得的分数实施校正处理的功能部。校正部13对获得部11所获得的声音数据是否具有使由识别部12进行的讲话者识别处理的识别性能下降的特征进行判断。然后,在判断为获得部11所获得的声音数据具有上述特征的情况下,校正部13对识别部12所获得的分数实施抑制该分数所受到的识别性能的下降的影响的校正处理,并输出校正处理后的分数。另外,在判断为获得部11所获得的声音数据不具有上述特征的情况下,校正部13不实施上述校正处理,而输出识别部12所获得的分数。
64.作为一个例子,校正部13在校正处理中,对识别部12所获得的分数实施如下的接近处理,该接近处理是指,使识别部12针对同一个讲话者的、具有上述特征的两个声音数据而获得的分数的分布,接近于识别部12针对同一个讲话者的、不具有上述特征的两个声音数据而获得的分数的分布。
65.更具体而言,校正部13在校正处理中,利用预先获得的三种分数的代表值即第一代表值、第二代表值以及第三代表值,对识别部12所获得的分数实施缩放处理(一般也称为尺度变换处理)。缩放处理是针对识别部12所获得的分数,将从第三代表值至第二代表值为止的范围尺度变换为从第三代表值至第一代表值为止的范围的处理。另外,成为缩放处理对象的是识别部12所获得的分数的全部范围,例如不限于是从第三代表值至第二代表值为止的范围。
66.在此,第一代表值是由识别部12针对预先获得的同一个讲话者的两个以上的声音数据而获得的分数的代表值,并且该声音数据也是不具有上述特征的两个以上的声音数据(也称为第一声音数据)。第二代表值是由识别部12针对预先获得的同一个讲话者的两个以上的声音数据而获得的分数的代表值,并且该声音数据也是具有上述特征的两个以上的声音数据(也称为第二声音数据)。第三代表值是由识别部12针对预先获得的相互不同的讲话者的两个以上的声音数据(也称为第三声音数据)而获得的分数的代表值。另外,两个以上的第一声音数据、两个以上的第二声音数据、以及两个以上的第三声音数据被包括在存放于存储部14的声音数据16中,能够通过读出声音数据16来获得。
67.第一代表值是对由识别部12针对上述两个以上的第一声音数据而获得的一个以上的分数进行统计处理而得到的值,具体而言为平均值、中央值或众数。第二代表值是对由识别部12针对上述两个以上的第二声音数据而获得的一个以上的分数进行统计处理而得到的值,具体而言为平均值、中央值或众数。第三代表值是对由识别部12针对上述两个以上的第三声音数据而获得的一个以上的分数进行统计处理而得到的值,具体而言为平均值、中央值或众数。
68.上述缩放处理通过以下(式1)来表示。即,利用作为由识别部12获得的分数的s1、作为第一代表值的v1、作为第二代表值的v2、以及作为第三代表值的v3,通过以下(式1)来表示作为由校正部13校正之后的分数的s2。
69.s2=(s1-v3)
×
(v1-v3)/(v2-v3)+v3
ꢀꢀꢀ
(式1)
70.另外,使由识别部12进行的讲话者识别处理的识别性能下降的特征例如包括:获得部11所获得的声音数据所涉及的声音的时间长度小于阈值这样的特征;或者上述声音数据所涉及的声音中包含的噪声的水平在阈值以上这样的特征;或者上述声音数据所涉及的声音的回声时间在阈值以上这样的特征。在这以后,以上述特征是声音数据所涉及的声音的时间长度小于阈值这样的特征的情况为例进行说明。作为一个例子,能够将声音数据所涉及的声音的时间长度的阈值设定为10秒钟,但并非受此所限,也可以在大致1秒钟至20秒钟的范围内进行设定。另外,噪声的水平的阈值例如能够设定为以sn比(声音信号水平/噪声水平)来表示的12db,但并非受此所限,也可以在大致20db至0db的范围内进行设定。并且,作为一个例子,回声时间的阈值能够设定为500毫秒,但并非受此所限,也可以在大致300毫秒至800毫秒的范围内进行设定。
71.存储部14是存放有用于由校正部13进行校正处理的声音数据16的存储装置。存放在存储部14的声音数据16中包括上述两个以上的第一声音数据、上述两个以上的第二声音数据、以及上述两个以上的第三声音数据。存储部14既可以是ram(read only memory:随机存取储存器)等易失性存储装置,也可以是hdd(hard disk drive:机械硬盘)或ssd(solid state drive:固态硬盘)等非易失性存储装置。
72.图3是示出本实施方式中的校正部13所执行的、获得代表值等的处理流程图。
73.在此,将具有使由识别部12进行的讲话者识别处理的识别性能下降的特征的声音数据称为“恶劣条件下的声音数据”,将不具有上述特征的声音数据称为“良好条件下的声音数据”。
74.在步骤s11中,校正部13抽取良好条件下的同一个讲话者的两个以上的声音数据的特征量,并利用抽取出的特征量来获得示出上述两个以上的声音数据的相似度的分数。在声音数据的个数为两个时,校正部13获得一个示出相似度的分数。更一般而言,在声音数据的个数为n个时,校正部13通过将声音数据轮流进行组合,获得nc2个示出相似度的分数。另外,没有必要利用所有的组合,在这种情况下,获得的分数的个数也可以少于nc2个。
75.在步骤s12中,校正部13获得在步骤s11获得的、良好条件下的同一个讲话者的两个以上的声音数据的分数的代表值v1。当在步骤s11得到的分数为一个的情况下,将这个分数作为代表值v1来获得。在步骤s11得到的分数为多个的情况下,通过对该多个分数进行统计处理,从而得到代表值v1。
76.在步骤s13中,校正部13抽取恶劣条件下的同一个讲话者的两个声音数据的特征量,并利用抽取出的特征量来获得示出上述两个声音数据的相似度的分数。获得的分数的个数与步骤s11中说明的相同。
77.在步骤s14中,校正部13获得在步骤s13获得的、恶劣条件下的同一个讲话者的两个声音数据的分数的代表值v2。关于获得代表值v2,针对在步骤s13获得的分数以适用与步骤s12相同的方法来进行。
78.在步骤s15中,校正部13抽取相互不同的讲话者的两个声音数据的特征量,并利用抽取出的特征量来获得示出上述两个声音数据的相似度的分数。获得的分数的个数与步骤s11中说明的相同。
79.在步骤s16中,校正部13获得在步骤s15获得的、相互不同的讲话者的两个声音数据的分数的代表值v3。关于获得代表值v3,针对在步骤s15获得的分数以适用与步骤s12相同的方法来进行。
80.另外,虽然步骤s11及s12有必要按该顺序来执行,但步骤s11及s12也可以在其他的步骤s13至s16之后执行。同样,虽然步骤s13及s14有必要按该顺序来执行,但步骤s13及s14也可以在其他的步骤s11至s12以及步骤s15至s16之前或之后执行。虽然步骤s15以及s16有必要按该顺序来执行,但步骤s15以及s16也可以在其他的步骤s11至s14之前执行。
81.图4是示出由本实施方式中的校正部13进行的校正分数的说明图。
82.图4的(a)示出了识别部12所获得的分数(也就是由校正部13进行校正之前的分数),也是以下(1)至(4)的分数。
83.(1)是示出短时间的声音所涉及的、同一个讲话者的两个以上的声音数据之间的相似度的分数(相当于图1的(a)的(1))
84.(2)是示出短时间的声音所涉及的、相互不同的讲话者的两个以上的声音数据之间的相似度的分数(相当于图1的(a)的(2))
85.(3)是示出长时间的声音所涉及的、同一个讲话者的两个以上的声音数据之间的相似度的分数(相当于图1的(b)的(1))
86.(4)是示出长时间的声音所涉及的、相互不同的讲话者的两个以上的声音数据之
间的相似度的分数(相当于图1的(b)的(2))
87.并且,图4的(a)示出了代表值v1、v2以及v3。代表值v1是基于上述(3)的声音数据而由校正部13算出的值。代表值v2是基于上述(1)的声音数据而由校正部13算出的值。代表值v3是基于上述(2)以及上述(4)的声音数据而由校正部13算出的值。
88.图4的(b)示出了校正部13所输出的分数,并且也示出了上述(1)至(4)的各自的声音数据之间的相似度的分数。
89.在此,图4的(b)所示的(1)和(2)的分数是由校正部13对识别部12所获得的分数实施了校正处理的分数。通过实施校正处理(具体而言为缩放处理),从而将从代表值v3至代表值v2为止的范围尺度变换为从代表值v3至代表值v1为止的范围。另外,图4的(b)所示的(3)以及(4)的分数是识别部12所获得的分数的本身。
90.在由校正部13进行校正处理的前后,代表值v3维持不变。并且,在由校正部13进行校正处理之后的代表值v2与代表值v1一致。
91.在像这样进行了校正处理之后的分数中,关于短时间的声音以及长时间的声音这两者都涉及的声音数据,示出相互不同的讲话者的声音数据之间的相似度的分数大致小于50,示出同一个讲话者的声音数据之间的相似度的分数大致在50以上。因此,关于短时间的声音以及长时间的声音这两者都涉及的声音数据,通过将50或与50接近的值用作阈值,从而能够判別出是同一个讲话者还是相互不同的讲话者。关于短时间的声音所涉及的声音数据和长时间的声音这两者都涉及的声音数据混和在一起的声音数据也同样如此。
92.另外,用于判别是示出同一个讲话者的声音数据之间的相似度的分数还是相互不同的讲话者的声音数据的阈值(相当于上述的50)既可以通过基于分数的分布的运算处理来算出,也可以根据人的判断来决定。
93.以下对如上构成的识别装置10所执行的处理(也称为识别方法)进行说明。
94.图5是示出本实施方式中的识别装置10所执行的识别处理的流程图。
95.在步骤s21中,获得部11获得声音数据。
96.在步骤s22中,识别部12抽取在步骤s21获得的声音数据的特征量并获得分数。
97.在步骤s23中,校正部13对在步骤s21获得的声音数据是否具有使识别性能下降的特征进行判断。在判断为上述声音数据具有上述特征的情况下(步骤s23的“是”),则进入到步骤s24,否则(步骤s23的“否”),则进入到步骤s25。
98.在步骤s24中,校正部13针对在步骤s22获得的分数,执行校正处理。
99.在步骤s25中,校正部13输出分数。在判断为步骤s21获得的声音数据具有使识别性能下降的特征的情况下(步骤s23的“是”),校正部13所输出的分数是实施了校正处理的分数,在判断为上述数据不具有上述特征的情况下(步骤s23的“否”),校正部13所输出的分数是没有实施校正处理的分数,也就是在步骤s22获得的分数。
100.通过图5所示的一系列处理,识别装置10能够以更高的精度来进行讲话者的识别。
101.以下,对识别装置10的性能的评估结果的一个例子进行说明。
102.图6是表示示出由本实施方式中的识别装置10进行的识别的性能的第一评估结果的说明图。
103.作为错误率,图6示出了针对四个声音数据(1号数据至4号数据)的每一个的判別结果的出错的比例,在设定了一个认为是恰当的阈值的情况下,该判別结果示出是同一个
讲话者的声音数据还是相互不同的讲话者的声音数据。
104.1号数据是长时间的声音所涉及的声音数据,例如是具有10秒钟以上的时间长度的声音所涉及的声音数据。
105.2号数据是短时间的声音数据,例如是具有小于10秒钟的时间长度的声音所涉及的数据。
106.3号数据是混合了1号数据和2号数据的声音数据。
107.4号数据是混合了1号数据和2号数据的声音数据。但是,对于上述声音数据中包含的短时间的声音数据的分数,校正部13进行了校正处理。
108.如图6所示,3号数据的错误率为2.15%。即,在校正部13没有进行校正处理的情况下,关于是同一个讲话者的声音数据还是相互不同的讲话者的声音数据,以2.15%的比例发生错误。
109.另一方面,关于4号数据,示出的错误率为0.78%。即,通过由校正部13进行校正处理,关于是同一个讲话者的声音数据还是相互不同的讲话者的声音数据,错误的比例从2.15%改善到0.78%。
110.图7是表示示出由本实施方式中的识别装置10进行的识别的性能的第二评估结果的说明图。图7所示的错误率的意思与图6中的情况相同。
111.1号数据是噪音水平较低的声音数据,例如是sn比在12db以上的声音数据。
112.2号数据是噪音水平较高的声音数据,例如是sn比小于12db的声音数据。
113.3号数据是混合了1号数据和2号数据的声音数据。
114.4号数据是混合了1号数据和2号数据的声音数据。但是,对于上述声音数据中包含的噪音水平较高的声音数据的分数,校正部13进行了校正处理。
115.如图7所示,关于3号数据,示出的错误率为5.81%。即,在校正部13没有进行校正处理的情况下,关于是同一个讲话者的声音数据还是相互不同的讲话者的声音数据,以5.81%的比例发生错误。
116.另一方面,关于4号数据,示出的错误率为4.95%。即,通过由校正部13进行校正处理,关于是同一个讲话者的声音数据还是相互不同的讲话者的声音数据,错误的比例从5.81%改善到4.95%。
117.如上所述,通过本实施方式的识别装置,在声音数据具有使讲话者识别处理的识别性能下降的特征的情况下,对分数进行校正处理后并输出。由于校正处理是使讲话者识别处理的识别性能的下降对分数造成的影响减小的处理,所以具有上述特征的声音数据的分数被校正为假设是在识别性能的下降程度小的情况下的分数。由于校正后的分数是与不具有上述特征的声音数据的分数共通的基准,而且校正后的分数示出了声音数据是同一个讲话者的声音数据还是相互不同的讲话者的声音数据,所以能够以更高的精度来进行所获得的声音数据是否是规定的讲话者的讲话所涉及的声音数据的识别。如此,识别装置能够以更高的精度来进行讲话者的识别。
118.并且,识别装置通过以校正处理来调整识别部所获得的分数的分布,从而使基于具有使识别性能下降的特征的同一个讲话者的声音数据而得到的分数,能够接近于基于假设不具有上述特征的情况下的同一个讲话者的声音数据而得到的分数。因此,识别装置能够更容易地、且以更高的精度来进行讲话者的识别。
119.并且,识别装置通过对识别部所获得的分数实施利用了预先获得的第一代表值、第二代表值以及第三代表值的缩放处理,从而能够使基于具有使识别性能下降的特征的同一个讲话者的声音数据而得到的分数,接近于基于假设不具有上述特征的情况下的同一个讲话者的声音数据而得到的分数。因此,识别装置能够更容易地、且以更高的精度来进行讲话者的识别。
120.并且,识别装置通过对由识别部获得的分数s1实施以(式1)来表示的缩放处理,从而能够容易地得到校正后的分数s2。因此,识别装置能够一边更容易地进行分数的校正处理,一边以更高的精度来进行讲话者的识别。
121.并且,识别装置根据如下的判断来对分数实施校正处理,该判断是指,将获得部所获得的声音数据所具有的、与声音的时间长度有关的特征或与声音中包含的噪声的水平有关的特征或与声音的回声时间有关的特征判断为是使识别性能下降的特征。因此,识别装置能够更容易地、且以更高的精度来进行讲话者的识别。
122.并且,识别装置将一个以上的分数的平均值、中央值或众数用作代表值(即第一代表值、第二代表值或第三代表值),来实施缩放处理。因此,识别装置能够一边更容易地进行分数的校正处理,一边以更高的精度来进行讲话者的识别。
123.另外,在上述实施方式中,各构成要素可以由专用的硬件来构成,或者也可以由执行适于各构成要素的软件程序来实现。各构成要素也可以由cpu或处理器等程序执行部读出并执行记录在硬盘或半导体存储器等的记录介质的软件程序来实现。在此,实现上述实施方式的识别装置等的软件是如下的程序。
124.即,该程序是使计算机执行如下识别方法的程序,在所述识别方法中,获得声音数据,通过讲话者识别处理来获得示出相似度的分数,在判断为所获得的所述声音数据具有使所述讲话者识别处理的识别性能下降的特征的情况下,对所述分数实施校正处理后并输出,所述相似度是所获得的所述声音数据和规定的讲话者的讲话所涉及的声音数据的相似度,所述校正处理是使所述分数所受到的所述识别性能的下降的影响减小的处理。
125.以上,虽然根据实施方式对一个或多个形态所涉及的识别装置等进行了说明,但本发明并非受该实施方式所限。在不脱离本发明的主旨的范围内,将本领域技术人员所能够想到的各种变形执行于本实施方式而得到的形态、以及对不同实施方式中的构成要素进行组合而构成的形态也可以包括在一个或多个形态的范围之内。
126.工业实用性
127.本发明能够利用于对声音数据所涉及的声音的讲话者进行识别的识别装置。
128.符号说明
129.10
ꢀꢀ
识别装置
130.11
ꢀꢀ
获得部
131.12
ꢀꢀ
识别部
132.13
ꢀꢀ
校正部
133.14
ꢀꢀ
存储部
134.16
ꢀꢀ
声音数据
技术特征:
1.一种识别装置,具备:获得部,获得声音数据;识别部,通过讲话者识别处理来获得示出相似度的分数,所述相似度是所述获得部所获得的所述声音数据和规定的讲话者的讲话所涉及的声音数据的相似度;以及校正部,在判断为所述获得部所获得的所述声音数据具有使由所述识别部进行的所述讲话者识别处理的识别性能下降的特征的情况下,对所述分数实施校正处理后并输出,所述校正处理是使所述分数所受到的所述识别性能的下降的影响减小的处理。2.如权利要求1所述的识别装置,所述校正部在所述校正处理中,对所述识别部所获得的所述分数实施如下的接近处理,该接近处理是指,使所述识别部针对具有所述的特征的同一讲话者的两个声音数据而获得的分数的分布,接近于所述识别部针对不具有所述特征的同一讲话者的两个声音数据而获得的分数的分布。3.如权利要求1或2所述的识别装置,所述校正部在所述校正处理中,利用第一代表值、第二代表值以及第三代表值,对所述识别部所获得的所述分数实施缩放处理,所述缩放处理是针对所述识别部所获得的所述分数,将从所述第三代表值至所述第二代表值为止的范围变换为从所述第三代表值至所述第一代表值为止的范围的处理,所述第一代表值是,由所述识别部针对预先获得的同一个讲话者的两个以上的第一声音数据而获得的所述分数的代表值,并且该第一声音数据也是不具有所述特征的两个以上的声音数据,所述第二代表值是,由所述识别部针对预先获得的同一个讲话者的两个以上的第二声音数据而获得的所述分数的代表值,并且该第二声音数据也是具有所述特征的两个以上的声音数据,所述第三代表值是,由所述识别部针对预先获得的相互不同的讲话者的两个以上的第三声音数据而获得的所述分数的代表值。4.如权利要求3所述的识别装置,所述校正部在所述缩放处理中,利用作为由所述识别部获得的所述分数的s1、作为所述第一代表值的v1、作为所述第二代表值的v2、以及作为所述第三代表值的v3,通过式a即s2=(s1-v3)
×
(v1-v3)/(v2-v3)+v3来计算作为由所述校正部校正之后的分数的s2。5.如权利要求1至4的任一项所述的识别装置,使所述讲话者识别处理的识别性能下降的特征包括:所述获得部所获得的所述声音数据所涉及的声音的时间长度小于阈值这样的特征;或者所述获得部所获得的所述声音数据所涉及的声音中包含的噪声的水平在阈值以上这样的特征;或者所述获得部所获得的所述声音数据所涉及的声音的回声时间在阈值以上这样的特征。6.如权利要求3所述的识别装置,所述第一代表值是由所述识别部针对所述两个以上的第一声音数据而获得的一个以
上的所述分数的平均值、中央值或众数,所述第二代表值是由所述识别部针对所述两个以上的第二声音数据而获得的一个以上的所述分数的平均值、中央值或众数,所述第三代表值是由所述识别部针对所述两个以上的第三声音数据而获得的一个以上的所述分数的平均值、中央值或众数。7.一种识别方法,在所述识别方法中,获得声音数据,通过讲话者识别处理来获得示出相似度的分数,所述相似度是所获得的所述声音数据和规定的讲话者的讲话所涉及的声音数据的相似度,在判断为所获得的所述声音数据具有使所述讲话者识别处理的识别性能下降的特征的情况下,对所述分数实施校正处理后并输出,所述校正处理是使所述分数所受到的所述识别性能的下降的影响减小的处理。8.一种程序,使计算机执行权利要求7所述的识别方法。
技术总结
识别装置(10)具备:获得部(11),获得声音数据;识别部(12),通过讲话者识别处理来获得示出相似度的分数,上述相似度是获得部(11)所获得的声音数据和规定的讲话者的讲话所涉及的声音数据的相似度;以及校正部(13),在判断为获得部(11)所获得的声音数据具有使由识别部(12)进行的讲话者识别处理的识别性能下降的特征的情况下,对上述分数实施使上述分数所受到的识别性能的下降的影响减小的校正处理后并输出。后并输出。后并输出。
技术研发人员:土井美沙贵
受保护的技术使用者:松下电器(美国)知识产权公司
技术研发日:2021.12.03
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/