身份识别方法、装置、计算机设备及存储介质与流程

未命名 08-17 阅读:75 评论:0


1.本发明涉及声纹识别和数字医疗领域,尤其涉及一种身份识别方法、装置、计算机设备及存储介质。


背景技术:

2.随着人工智能技术的快速发展,需要身份识别的场景越来越常见。比如,在数字医疗相关场景下,比如预约挂号或远程会诊等场景下,均需要进行身份识别。在现有身份识别技术中,通常通过图像识别进行身份识别。具体地,通过获取用户的人脸图像或指纹图像等进行识别身份识别。基于用户图像的身份识别技术已被广泛应用,且取得良好的识别效果。
3.然而,在一些场景中,通过图像识别进行身份识别的效果仍然不理想。例如,在阴雨天,由于获取的人脸图像清晰度较低,很容易存在误判,导致识别准确率较低。另外,在一些场景中,由于无法获取图像,而不能通过图像识别进行身份识别。因此,亟需一种区别于图像识别的身份识别方法。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种身份识别方法、装置、计算机设备及存储介质,以解决现有身份识别技术存在的识别准确率较低或无法识别的问题。
5.一种身份识别方法,包括:
6.获取待识别用户的视频数据;
7.通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;
8.通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;
9.将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;
10.将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;
11.根据所述语音对比结果,确定与所述待识别用户对应的身份信息。
12.一种身份识别装置,包括:
13.视频数据模块,用于获取待识别用户的视频数据;
14.声纹特征模块,用于通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;
15.口音特征模块,用于通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;
16.联合特征模块,用于将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;
17.语音对比结果模块,用于将所述联合特征与注册数据库中的所有样本语音特征进
行对比,生成语音对比结果;
18.身份信息模块,用于根据所述语音对比结果,确定与所述待识别用户对应的身份信息。
19.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述身份识别方法。
20.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述身份识别方法。
21.上述身份识别方法、装置、计算机设备及存储介质,通过获取待识别用户的视频数据;通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;根据所述语音对比结果,确定与所述待识别用户对应的身份信息。本发明通过待识别用户的语音数据的联合特征进行身份识别,既考虑了说话人的音色信息,又考虑了说话人的口音信息,使获得的说话人的语音特征更加完整和准确,可提高身份识别的准确率。上述身份识别方法可应用于数字医疗的预约挂号和远程会诊等场景,在通过上述身份识别方法可以提升在数字医疗场景下的身份识别的准确率,进而提升预约挂号或问诊的效率。
附图说明
22.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
23.图1是本发明一实施例中身份识别方法的一应用环境示意图;
24.图2是本发明一实施例中身份识别方法的一流程示意图;
25.图3是本发明一实施例中身份识别装置的一结构示意图;
26.图4是本发明一实施例中计算机设备的一示意图。
具体实施方式
27.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
28.本实施例提供的身份识别方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
29.在一实施例中,如图2所示,提供一种身份识别方法,以该方法应用在图1中的服务
端为例进行说明,包括如下步骤:
30.s10、获取待识别用户的视频数据。
31.可理解地,视频数据是指包含待识别用户的音频流和视频流的数据。该视频数据可通过摄像设备获取。其中,待识别用户为需要进行身份识别的用户。
32.s20、通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征。
33.可理解地,声纹识别模型为已训练完成的深度学习神经网络模型。例如,该声纹识别模型可以为cnn(convolutional neural networks,卷积神经网络),rnn(recurrent neural networks,循环神经网络)等神经网络模型。声纹特征提取是指通过声纹识别模型将视频数据中的音频信息进行编码,提取待识别用户的声纹特征的过程。其中,声纹特征是指待识别用户的音色信息的特征。
34.s30、通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征。
35.可理解地,口音识别模型为已训练完成的深度学习神经网络模型。例如,该口音识别模型可以为cnn(convolutional neural networks,卷积神经网络),rnn(recurrent neural networks,循环神经网络)等神经网络模型。口音特征提取是指通过口音识别模型将视频数据中的音频信息进行编码,提取待识别用户的口音特征的过程。其中,口音特征是指待识别用户的口音信息的特征。
36.优选地,在口音识别模型训练的过程中,将全国各地人使用当地口音讲普通话的语音作为训练数据集。也即,将全国各地的地方普通话作为初始口音识别模型的训练数据集进行模型训练,以学习全国各地说话人的口音信息,使得训练完成的口音识别模型具有提取待识别用户的口音特征的能力和进行口音识别的能力。其中,初始口音识别模型为未训练完成的深度学习神经网络模型。
37.s40、将所述声纹特征和所述口音特征进行拼接处理,得到联合特征。
38.可理解地,在得到待识别用户的声纹特征和口音特征之后,将声纹特征和口音特征进行拼接处理,以得到即包含待识别用户的音色信息又包含待识别用户的口音信息的联合特征。
39.s50、将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果。
40.可理解地,注册数据库是指用于存储用户注册信息的数据库。其中,用户注册信息是指用户用于注册的个人相关信息,包括但不限于身份信息、人脸信息、指纹信息以及语音信息。例如,用户在银行办理业务进行用户信息注册时,一般需要对用户进行视频拍摄以获取用户的人脸信息和语音信息作为用户注册信息进行存储。其中,用户的身份信息与人脸信息、指纹信息以及语音信息一一对应存储。样本语音特征是指存储在注册数据库中的样本语音信息的语音特征,该语音特征从存储在注册数据库中的样本语音信息中提取。其中,样本语音信息为用户注册时的语音信息。语音对比结果是指联合特征与注册数据库中的所有样本语音特征进行对比的结果。该语音对比结果可包含联合特征与所有样本语音特征的若干语音相似度值、若干语音相似度值中的最大值、以及与该最大值对应的样本语音特征、若干语音相似度值的语音排列序号等。其中,语音相似度值是指联合特征与样本语音特征
之间的相似度。语音排列序号是指对若干语音相似度值按照数值从大到小的顺序进行排序得到的序号。
41.s60、根据所述语音对比结果,确定与所述待识别用户对应的身份信息。
42.可理解地,根据语音对比结果,可快速确定与待识别用户对应的身份信息。具体地,从语音对比结果中获取与预设语音排列序号对应的语音相似度值,并将与该语音相似度值对应的样本语音信息确定为目标语音信息。进而,根据该目标语音信息,获取与该目标语音信息对应的身份信息作为待识别用户对应的身份信息。
43.优选地,预设语音排列序号的数量可一个或多个。当预设语音排列序号的数量为多个,例如,预设语音排列序号为3个,则获取预设语音排列序号为前三的语音相似度值,并将与该三个语音相似度值对应的三个样本语音信息均确定为目标语音信息,获取与该三个样本语音信息对应的三个身份信息均作为待识别用户的身份信息作为输出,以使待识别用户对该三个身份信息进行确认,增加识别准确率。
44.在步骤s10-s60中,获取待识别用户的视频数据;通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;根据所述语音对比结果,确定与所述待识别用户对应的身份信息。在本实施例中,通过待识别用户的语音数据的联合特征进行身份识别,既考虑了说话人的音色信息,又考虑了说话人的口音信息,使获得的说话人的语音特征更加完整和准确,可提高身份识别的准确率。上述身份识别方法可应用于数字医疗的预约挂号和远程会诊等场景,在通过上述身份识别方法可以提升在数字医疗场景下的身份识别的准确率,进而提升预约挂号或问诊的效率。
45.可选地,在步骤s20中,即所述通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征,包括:
46.s201、通过视频分割技术对所述视频数据进行分割处理,得到视频流和音频流;
47.s202、通过所述声纹识别模型的声纹编码器对所述音频流进行声纹编码,得到所述待识别用户的声纹特征。
48.可理解地,视频分割技术是指对视频数据中包含的视频流和音频流进行分割的技术。视频流是指包含若干视频帧的数据。音频流是指包含若干音频帧的数据。声纹编码器用于对音频流中的音频帧进行声纹编码,得到声纹特征。
49.在步骤s201和s202中,通过视频分割技术将待识别用户的音频流从视频数据中分割出来,进而,进行声纹特征的提取,可提高声纹特征提取的准确率。
50.可选地,在步骤s60之后,即在所述根据所述语音对比结果,得到与所述待识别用户对应的身份信息之后,包括:
51.s601、通过人脸识别模型对所述视频流进行人脸特征提取,得到所述待识别用户的人脸特征;
52.s602、将所述人脸特征与所述注册数据库中的所有样本人脸特征进行对比,生成人脸对比结果。
53.s603、根据所述语音对比结果和所述人脸对比结果,确定与所述待识别用户对应
的身份信息。
54.可理解地,人脸识别模型为训练完成的深度学习神经网络模型。该人脸识别模型用于对视频流中的人脸图像进行识别提取人脸特征。其中,人脸特征提取是指通过人脸别模型对视频数据中的人脸图像进行编码,提取待识别用户的人脸特征的过程。其中,人脸特征是指待识别用户的人脸的特征。样本人脸特征是指存储在注册数据库中的样本人脸信息的人脸特征,该人脸特征从存储在注册数据库中的样本人脸信息中提取。其中,样本人脸信息为用户注册时的人脸信息。人脸对比结果是指待识别用户的人脸特征与注册数据库中的所有样本人脸特征进行对比的结果。该人脸对比结果可包含待识别用户的人脸特征与所有样本人脸特征的若干人脸相似度值、若干人脸相似度值中的最大值、以及与该最大值对应的样本人脸特征、若干人脸相似度值的人脸排列序号等。其中,人脸相似度值是指待识别用户的人脸特征与样本人脸特征之间的相似度。人脸排列序号是指对若干人脸相似度值按照数值从大到小的顺序进行排序得到的序号。
55.在步骤s601-s601中,对视频数据中的视频流进行人脸识别,得到人脸对比结果。进而,根据人脸对比结果和语音对比结果对待识别用户的身份信息进行确定,不仅考虑了待识别用户的语音特征还考虑了待识别用户的人脸特征,进一步提高了身份识别的准确率。
56.可选地,在步骤s603中,即所述根据所述语音对比结果和所述人脸对比结果,确定与所述待识别用户对应的身份信息,包括:
57.s6031、根据所述语音对比结果,获取与目标语音特征对应的第一身份信息;并根据所述人脸对比结果,获取与目标人脸特征对应的第二身份信息;
58.s6032、判断所述第一身份信息和所述第二身份信息是否为相同信息,得到判断结果;
59.s6033、根据所述判断结果,确定与所述待识别用户对应的身份信息。
60.可理解地,目标语音特征为与待识别用户的联合特征对应的样本语音特征。具体地,从语音对比结果中获取与预设语音排列序号对应的语音相似度值,并将与该语音相似度值对应的样本语音特征确定为目标语音特征。其中,预设语音排列序号为预先设定的语音排列序号。第一身份信息为与目标语音特征对应的身份信息,具体地,根据目标语音特征,从注册数据库中获取与该目标语音特征对应的身份信息。目标人脸特征为与待识别用户的人脸特征对应的样本人脸特征。其中,样本人脸特征是指存储在注册数据库中的样本人脸信息的人脸特征,该人脸特征从存储在注册数据库中的样本人脸信息中提取。其中,样本人脸信息为用户注册时的人脸信息。具体地,从人脸对比结果中获取与预设人脸排列序号对应的人脸相似度值,并将与该人脸相似度值对应的样本人脸特征确定为目标人脸特征。其中,预设人脸排列序号为预先设定的人脸排列序号。第二身份信息为与目标人脸特征对应的身份信息,具体地,根据目标人脸特征,从注册数据库中获取与该目标人脸特征对应的身份信息。判断结果包括第一身份信息和第二身份信息为相同信息,以及第一身份信息和第二身份信息为不相同信息两种。当第一身份信息和第二身份信息为相同信息时,将该第一身份信息或第二身份信息确定为待识别用户的身份信息。
61.在本实施例中,通过语音对比结果确定的第一身份信息和人脸对比结果确定的第二身份信息对待识别用户的身份信息进行双重确认,可提高身份识别的准确性。
62.可选地,在步骤s6033中,即所述根据所述判断结果,确定与所述待识别用户对应的身份信息,包括:
63.s60331、若所述判断结果指示所述第一身份信息和所述第二身份信息为不相同信息,则获取所述待识别用户的指纹信息;
64.s60332、通过指纹识别模型对所述指纹信息进行指纹特征提取,得到所述待识别用户的指纹特征;
65.s60333、将所述指纹特征与所述注册数据库中的所有样本指纹特征进行对比,生成指纹对比结果。
66.s60334、根据所述指纹对比结果、所述语音对比结果和所述人脸对比结果,确定与所述待识别用户对应的身份信息。
67.可理解地,当第一身份信息和第二身份信息为不相同信息时,表示该待识别用户的身份信息仍然存在不确定性,需进一步对该待识别用户的身份信息进行识别,以确保身份识别的准确性。指纹信息是指待识别用户的指纹的相关信息。指纹对比结果生成原理与语音对比结果生成原理相同,在此不再累述。根据指纹对比结果确定的第三身份信息、语音对比结果确定的第一身份信息以及人脸对比结果确定的第二身份信息,对待识别用户的身份信息进行多重确认。
68.优选地,当语音对比结果确定的第一身份信息与指纹对比结果确定的第三身份信息为相同信息,则将该第一身份信息或第三身份信息确定为该待识别用户的身份信息。当人脸对比结果确定的第二身份信息与指纹对比结果确定的第三身份信息为相同信息,则将该第二身份信息或第三身份信息确定为该待识别用户的身份信息。
69.在本实施例中,通过语指纹对比结果确定的第三身份信息、语音对比结果确定的第一身份信息以及人脸对比结果确定的第二身份信息,对待识别用户的身份信息进行多重确认,可提高身份识别的准确性。
70.可选地,在步骤s50中,即所述将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果,包括:
71.s501、通过相似度模型计算所述联合特征与注册数据库中的每个样本语音特征之间的相似度,得到若干语音相似度值;
72.s502、获取与所有所述语音相似度值中的最大值对应的样本语音特征作为所述目标语音特征;
73.s503、根据所述最大值和所述目标语音特征,生成所述语音对比结果。
74.可理解地,相似度模型用于计算联合特征与注册数据库中的每个样本语音特征之间的相似度。语音相似度值是指联合特征与样本语音特征之间的相似度。所有语音相似度值中的最大值是指所有语音相似度值中数值最大的语音相似度值。语音对比结果包括若干语音相似度值中的最大值、以及与该最大值对应的样本语音特征。也即,语音对比结果包括若干语音相似度值中的最大值、以及目标语音特征。
75.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
76.在一实施例中,提供一种身份识别装置,该身份识别装置与上述实施例中身份识
别方法一一对应。如图3所示,该身份识别装置包括视频数据模块10、声纹特征模块20、口音特征模块30、联合特征模块40、语音对比结果模块50和身份信息模块60。各功能模块详细说明如下:
77.视频数据模块10,用于获取待识别用户的视频数据;
78.声纹特征模块20,用于通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;
79.口音特征模块30,用于通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;
80.联合特征模块40,用于将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;
81.语音对比结果模块50,用于将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;
82.身份信息模块60,用于根据所述语音对比结果,确定与所述待识别用户对应的身份信息。
83.所述声纹特征模块20,包括:
84.视频数据分割单元,用于通过视频分割技术对所述视频数据进行分割处理,得到视频流和音频流;
85.声纹特征单元,用于通过所述声纹识别模型的声纹编码器对所述音频流进行声纹编码,得到所述待识别用户的声纹特征。
86.可选地,所述身份识别装置,还包括:
87.人脸特征模块,用于通过人脸识别模型对所述视频流进行人脸特征提取,得到所述待识别用户的人脸特征;
88.人脸对比结果模块,用于将所述人脸特征与所述注册数据库中的所有样本人脸特征进行对比,生成人脸对比结果。
89.身份信息模块60,还用于根据所述语音对比结果和所述人脸对比结果,确定与所述待识别用户对应的身份信息。
90.可选地,所述身份信息模块60,包括:
91.身份信息获取单元,用于根据所述语音对比结果,获取与目标语音特征对应的第一身份信息;并根据所述人脸对比结果,获取与目标人脸特征对应的第二身份信息;
92.判断结果单元,用于判断所述第一身份信息和所述第二身份信息是否为相同信息,得到判断结果;
93.身份信息单元,用于根据所述判断结果,确定与所述待识别用户对应的身份信息。
94.可选地,所述身份信息单元,包括:
95.指纹信息单元,用于若所述判断结果指示所述第一身份信息和所述第二身份信息为不相同信息,则获取所述待识别用户的指纹信息;
96.指纹特征单元,用于通过指纹识别模型对所述指纹信息进行指纹特征提取,得到所述待识别用户的指纹特征;
97.指纹对比结果单元,用于将所述指纹特征与所述注册数据库中的所有样本指纹特征进行对比,生成指纹对比结果。
98.身份信息确认单元,用于根据所述指纹对比结果、所述语音对比结果和所述人脸对比结果,确定与所述待识别用户对应的身份信息。
99.可选地,所述语音对比结果模块50,包括:
100.语音相似度值单元,用于通过相似度模型计算所述联合特征与注册数据库中的每个样本语音特征之间的相似度,得到若干语音相似度值;
101.目标语音特征单元,用于获取与所有所述语音相似度值中的最大值对应的样本语音特征作为所述目标语音特征;
102.语音对比结果单元,用于根据所述最大值和所述目标语音特征,生成所述语音对比结果。
103.关于身份识别装置的具体限定可以参见上文中对于身份识别方法的限定,在此不再赘述。上述身份识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
104.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储身份识别方法所涉及的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种身份识别方法。本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。
105.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,处理器执行计算机可读指令时实现以下步骤:
106.获取待识别用户的视频数据;
107.通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;
108.通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;
109.将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;
110.将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;
111.根据所述语音对比结果,确定与所述待识别用户对应的身份信息。
112.在一个实施例中,提供了一个或多个存储有计算机可读指令的计算机可读存储介质,本实施例所提供的可读存储介质包括非易失性可读存储介质和易失性可读存储介质。可读存储介质上存储有计算机可读指令,计算机可读指令被一个或多个处理器执行时实现以下步骤:
113.获取待识别用户的视频数据;
114.通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;
115.通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;
116.将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;
117.将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;
118.根据所述语音对比结果,确定与所述待识别用户对应的身份信息。
119.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性可读取存储介质或易失性可读存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
120.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
121.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

技术特征:
1.一种身份识别方法,其特征在于,包括:获取待识别用户的视频数据;通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;根据所述语音对比结果,确定与所述待识别用户对应的身份信息。2.如权利要求1所述的身份识别方法,其特征在于,所述通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征,包括:通过视频分割技术对所述视频数据进行分割处理,得到视频流和音频流;通过所述声纹识别模型的声纹编码器对所述音频流进行声纹编码,得到所述待识别用户的声纹特征。3.如权利要求2所述的身份识别方法,其特征在于,在所述根据所述语音对比结果,确定与所述待识别用户对应的身份信息之后,包括:通过人脸识别模型对所述视频流进行人脸特征提取,得到所述待识别用户的人脸特征;将所述人脸特征与所述注册数据库中的所有样本人脸特征进行对比,生成人脸对比结果。根据所述语音对比结果和所述人脸对比结果,确定与所述待识别用户对应的身份信息。4.如权利要求3所述的身份识别方法,其特征在于,所述根据所述语音对比结果和所述人脸对比结果,确定与所述待识别用户对应的身份信息,包括:根据所述语音对比结果,获取与目标语音特征对应的第一身份信息;并根据所述人脸对比结果,获取与目标人脸特征对应的第二身份信息;判断所述第一身份信息和所述第二身份信息是否为相同信息,得到判断结果;根据所述判断结果,确定与所述待识别用户对应的身份信息。5.如权利要求4所述的身份识别方法,其特征在于,所述根据所述判断结果,确定与所述待识别用户对应的身份信息,包括:若所述判断结果指示所述第一身份信息和所述第二身份信息为不相同信息,则获取所述待识别用户的指纹信息;通过指纹识别模型对所述指纹信息进行指纹特征提取,得到所述待识别用户的指纹特征;将所述指纹特征与所述注册数据库中的所有样本指纹特征进行对比,生成指纹对比结果。根据所述指纹对比结果、所述语音对比结果和所述人脸对比结果,确定与所述待识别用户对应的身份信息。6.如权利要求4所述的身份识别方法,其特征在于,所述将所述联合特征与注册数据库
中的所有样本语音特征进行对比,生成语音对比结果,包括:通过相似度模型计算所述联合特征与注册数据库中的每个样本语音特征之间的相似度,得到若干语音相似度值;获取与所有所述语音相似度值中的最大值对应的样本语音特征作为所述目标语音特征;根据所述最大值和所述目标语音特征,生成所述语音对比结果。7.一种身份识别装置,其特征在于,包括:视频数据模块,用于获取待识别用户的视频数据;声纹特征模块,用于通过声纹识别模型对所述视频数据进行声纹特征提取,得到所述待识别用户的声纹特征;口音特征模块,用于通过口音识别模型对所述视频数据进行口音特征提取,得到所述待识别用户的口音特征;联合特征模块,用于将所述声纹特征和所述口音特征进行拼接处理,得到联合特征;语音对比结果模块,用于将所述联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;身份信息模块,用于根据所述语音对比结果,确定与所述待识别用户对应的身份信息。8.如权利要求7所述的身份识别装置,其特征在于,所述声纹特征模块,包括:视频数据分割单元,用于通过视频分割技术对所述视频数据进行分割处理,得到视频流和音频流;声纹特征单元,用于通过所述声纹识别模型的声纹编码器对所述音频流进行声纹编码,得到所述待识别用户的声纹特征。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述身份识别方法。10.一个或多个存储有计算机可读指令的可读存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至6中任一项所述身份识别方法。

技术总结
本发明涉及声纹识别和数字医疗领域,尤其涉及一种身份识别方法、装置、计算机设备及存储介质。其方法包括:通过获取待识别用户的视频数据;通过声纹识别模型对视频数据进行声纹特征提取,得到待识别用户的声纹特征;通过口音识别模型对视频数据进行口音特征提取,得到待识别用户的口音特征;将声纹特征和口音特征进行拼接处理得到的联合特征与注册数据库中的所有样本语音特征进行对比,生成语音对比结果;根据语音对比结果,确定与待识别用户对应的身份信息。本发明通过待识别用户的语音数据的联合特征进行身份识别,既考虑了说话人的音色信息又考虑了说话人的口音信息,使获得的说话人的语音特征更加完整和准确,可提高身份识别的准确率。别的准确率。别的准确率。


技术研发人员:贺亚运 王健宗 彭俊清
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.15
技术公布日:2023/8/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐