人脸数据清洗方法、装置、电子设备及存储介质与流程

未命名 08-22 阅读:128 评论:0


1.本技术涉及计算机数据处理技术领域,具体而言,涉及一种人脸数据清洗方法、装置、电子设备及存储介质。


背景技术:

2.人脸识别技术作为一项重要生物特征识别技术,目前已经广泛应用于各行各业。目前,人脸识别算法主要是基于深度学习方法,而深度学习效果依赖于一个高质量的样本数据库,样本数据库的质量高低决定了深度学习效果的上限,因而构建一个高质量人脸样本数据库对人脸识别技术是关键。
3.一方面由于人脸数据来自于各种渠道,导致人脸数据存在各种噪声,如图片质量低、同一个人的人脸数据库中混入其他人的人脸数据等,导致人脸数据库质量降低,另一方面,由于人脸数据库的人脸图片数量基数大,人工清洗需耗费大量人力,效率低下,且不能保证准确率,因而自动或半自动的人脸数据清洗算法得到一个高质量人脸数据库,对于提高人脸识别精度具有重要意义。
4.相关技术中,人脸数据清洗算法基本上是基于人脸识别算法计算人脸相似度来滤除噪声,然而人脸相似度可鉴别是否为同一人或者不同人,但其无法直接反映人脸图像质量,易造成人脸数据库过清洗或清洗不够的问题。
5.针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。


技术实现要素:

6.本技术提供了一种人脸数据清洗方法、装置、电子设备及存储介质,以解决相关技术人脸数据清洗算法存在人脸数据库过清洗或清洗不够的技术问题。
7.根据本技术实施例的一个方面,提供了一种人脸数据清洗方法,包括:获取待清洗的初始人脸图像集合;计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合;提取所述第一人脸图像集合中每个人员id对应的基准人脸特征;根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。
8.根据本技术实施例的另一个方面,还提供了一种人脸数据清洗装置,包括:获取模块,用于获取待清洗的初始人脸图像集合;计算模块,用于计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合;提取模块,用于提取所述第一人脸图像集合中每个人员id对应的基准人脸特征;清洗模块,用于根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。
9.进一步地,所述计算模块包括计算单元,用于计算每个人脸样本图像对应的质量分数,其中,所述人脸样本图像用于训练人脸质量评价模型;设置所述人脸样本图像对应的质量分数为所述人脸样本图像的质量分布伪标签;根据所述人脸样本图像,所述质量分布
伪标签和以下损失函数,训练所述人脸质量评价模型:其中,x为所述人脸样本图像,f(x)为模型预测值,σ为损失函数huber loss的参数,y为所述质量分布伪标签对应的真实值,l为损失函数huber loss;将所述初始人脸图像集合中的每个人脸图像输入所述人脸质量评价模型,获得所述人脸质量评价模型输出的每个人脸图像对应的质量分数。
10.进一步地,所述计算单元包括计算子单元,用于计算每个人脸样本图像人脸相似度对应的类内分布与类间分布;计算所述类内分布与所述类间分布的wasserstein距离,并将所述wasserstein距离作为所述人脸样本图像对应的质量分数。
11.进一步地,所述提取模块包括提取单元,用于针对所述第一人脸图像集合中的每个第一人员id,从所述第一人脸图像集合中选择所述第一人员id的参考人脸图像集合,根据所述参考人脸图像集合的人脸特征计算所述第一人员id的参考人脸特征;计算所述参考人脸特征分别与所述参考人脸图像集合中每个参考人脸图像的人脸特征的第一相似度;获取所述参考人脸图像集合中每个参考人脸图像的质量分数;根据所述第一相似度和所述质量分数,计算所述第一人员id的基准人脸特征。
12.进一步地,所述提取单元包括提取子单元,用于计算所述第一相似度与所述质量分数的乘积,将所述乘积作为对应参考人脸图像的新特征;根据所述新特征对所述参考人脸图像进行降序排列,将排序第一的参考人脸图像作为所述第一人员id对应的基准图像样本;提取所述基准图像样本的人脸特征作为所述第一人员id的基准人脸特征。
13.进一步地,所述清洗模块包括第一清洗单元,用于针对所述第一人脸集合中的每个第一人员id,从所述第一人脸集合中选择所述第一人员id的参考人脸图像集合;获取所述参考人脸图像集合的每个参考人脸图像的人脸特征;计算所述基准人脸特征分别与每个参考人脸图像的人脸特征的第二相似度;根据所述第二相似度,从所述参考人脸图像集合中滤除与所述第一人员id不对应的异常人脸图像,其中,所述异常人脸图像为所述参考人脸图像集合中第二相似度小于第二阈值的人脸图像。
14.进一步地,所述清洗模块包括第二清洗单元,用于获取所述第一人脸图像集合中所有人员id对应的基准图像样本和待测图像样本;针对所述第一人脸图像集合中的每个第二人员id,选择所述第二人员id对应的基准图像样本;将所述基准图像样本与除所述第二人员id之外的其他人员id对应的基准图像样本以及待测图像样本进行相似度计算,得到第三相似度;将所述第三相似度大于第三阈值的第三人员id,确认为与所述第二人员id相同的同一人员;采用所述第二人员id或所述第三人员id,对所述第二人员id和所述第三人员id对应的人脸数据进行合并。
15.根据本技术实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
16.根据本技术实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
17.本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行
时,使得计算机执行上述方法中的步骤。
18.通过本技术,获取待清洗的初始人脸图像集合,计算初始人脸图像集合中的每个人脸图像对应的质量分数,滤除初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合,提取第一人脸图像集合中每个人员id对应的基准人脸特征,根据基准人脸特征,对第一人脸图像集合中的人脸数据进行数据清洗,通过增加人脸图像质量评价的维度,滤除低质量的人脸图像,通过人脸图像质量评价分数客观反映人脸图像质量,降低图像本身质量噪声对清洗程度的影响,并且通过扩充人脸清洗算法的基准人脸特征提取的维度,提高了人脸数据清洗的准确度。
附图说明
19.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
20.图1是本技术实施例的一种计算机的硬件结构框图;
21.图2是本技术实施例的一种人脸数据清洗方法的流程图;
22.图3是本技术实施例人脸质量评价流程图示意图;
23.图4是本技术实施例基准人脸特征提取流程示意图;
24.图5是本技术实施例的一种人脸数据清洗装置的结构框图。
具体实施方式
25.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。
26.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.实施例1
28.本技术实施例一所提供的方法实施例可以在手机、计算机、平板或者类似的运算装置中执行。以运行在计算机上为例,图1是本技术实施例的一种计算机的硬件结构框图。如图1所示,计算机可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)和用于存储数据的存储器104,可选地,上述计算机还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机的结构造成
限定。例如,计算机还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
29.存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本技术实施例中的一种人脸数据清洗方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
30.传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
31.在本实施例中提供了一种人脸数据清洗方法,图2是根据本技术实施例的一种人脸数据清洗方法的流程图,如图2所示,该流程包括如下步骤:
32.步骤s10,获取待清洗的初始人脸图像集合;
33.在本实施例中,对源人脸图像库中的源人脸图像进行人脸检测,滤除未检测到人脸的图像,并保留检测到人脸的图像,得到待清洗的人脸图像库,从待清洗的人脸图像库中获取待清洗的初始人脸图像集合。
34.步骤s20,计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合。
35.滤除初始人脸图像集合中质量分数低于第一阈值的人脸图像可以包括:设置第一阈值和第四阈值,其中,第一阈值小于第四阈值,将质量分数低于第一阈值的人脸图像直接删除;将质量分数大于或等于第一阈值且小于第四阈值的人脸图像进行二次筛选,其中,二次筛选可以通过人工确认删除或保留;将质量分数大于第四预设阈值的人脸图像和经过二次筛选保留后的人脸图像进行合并,得到第一人脸图像集合。本实施例中的所有阈值可根据实际情况进行设置。本实施例通过质量分数可对图像模糊,光照不均或其他图片本身的噪声过大的低质量人脸图像进行滤除,降低低质量人脸图像对后续清洗步骤的影响。
36.步骤s30,提取所述第一人脸图像集合中每个人员id对应的基准人脸特征;
37.步骤s40,根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。
38.本实施例中,第一人脸图像集合中包括多个人员id分别对应的多张人脸图像,即每个人员id人脸库存储有多张该人员id标识下的人脸图像,提取每个人员id对应的基准人脸特征,根据基准人脸特征,可以对第一人脸图像集合中的异常人脸库进行数据清洗,异常人脸库可以是同一人员id的人脸库中有其他人员身份的人脸图像,同一人员身份的人脸图像有不同人员id标识的异常情况。
39.通过上述步骤,获取待清洗的初始人脸图像集合,计算初始人脸图像集合中的每个人脸图像对应的质量分数,滤除初始人脸图像集合中质量分数低于第一阈值的人脸图
像,得到第一人脸图像集合,提取第一人脸图像集合中每个人员id对应的基准人脸特征,根据基准人脸特征,对第一人脸图像集合中的人脸数据进行数据清洗,通过增加人脸图像质量评价的维度,滤除低质量的人脸图像,通过人脸图像质量评价分数客观反映人脸图像质量,降低图像本身质量噪声对清洗程度的影响,并且通过扩充人脸清洗算法的基准人脸特征提取的维度,提高了人脸数据清洗的准确度。
40.本实施例的一实施方式中,计算所述初始人脸图像集合中的每个人脸图像对应的质量分数包括:
41.s21,计算每个人脸样本图像对应的质量分数,其中,所述人脸样本图像用于训练人脸质量评价模型;
42.在本实施方式中,采用深度学习无监督人脸质量算法进行人脸质量评价,从人脸样本库中获取人脸样本图像,人脸样本库可以是开源人脸数据库和/或本实施例中待清洗的人脸图像库,用于训练人脸质量评价模型。
43.具体地,计算每个人脸样本图像对应的质量分数包括:计算每个人脸样本图像人脸相似度对应的类内分布与类间分布;计算所述类内分布与所述类间分布的wasserstein距离,并将所述wasserstein距离作为所述人脸样本图像对应的质量分数。将人脸样本图像遍历人脸识别模型,计算类内相似度分布和类间相似度分布,其中,wasserstein距离也称推土机距离,是评估由p分布转成q分布所需要的最小代价,即由p分布转成q分布移动的平均距离的最小值,可通过以下公式计算wasserstein距离:其中,l(u,v)为wasserstein距离,γ(u,v)为u和v在r
×
r的概率分布,u和v分别为x和y对应的取值范围,x和y为u和v取值范围间的变量。
44.s22,设置所述人脸样本图像对应的质量分数为所述人脸样本图像的质量分布伪标签;
45.s23,根据所述人脸样本图像,所述质量分布伪标签和以下损失函数,训练所述人脸质量评价模型:其中,x为所述人脸样本图像,f(x)为模型预测值,σ为损失函数huber loss的参数,y为所述质量分布伪标签对应的真实值,l为损失函数huber loss;
46.s24,将所述初始人脸图像集合中的每个人脸图像输入所述人脸质量评价模型,获得所述人脸质量评价模型输出的每个人脸图像对应的质量分数。
47.参考图2,将人脸样本库中用于训练人脸质量评分模型的训练数据(本实施例的人脸样本图像)输入人脸质量评分模型,对人脸样本图像基于人脸相似度进行人脸质量评分,设置质量分布伪标签,采用回归损失函数huber loss对人脸质量评分模型进行训练,将测试数据(本实施例的初始人脸图像集合中的每个人脸图像)输入人脸质量评分模型,即可得到人脸质量评分模型输出的人脸质量分数。
48.可选地,还可通过设置多个维度的质量评价特征指标进行人脸质量评价,得到质量分数,指标例如图片清晰度,图片光照均匀程度,图片噪声等。
49.本实施例的另一实施方式中,提取所述第一人脸图像集合中每个人员id对应的基准人脸特征包括:
50.s31,针对所述第一人脸图像集合中的每个第一人员id,从所述第一人脸图像集合中选择所述第一人员id的参考人脸图像集合,根据所述参考人脸图像集合的人脸特征计算所述第一人员id的参考人脸特征;
51.参考图4,图4为基准人脸特征提取流程示意图,针对第一人脸图像集合中的每个第一人员id,从第一人脸图像集合中选择第一人员id的参考人脸图像集合,每个人员id人脸库中包括多张参考人脸图像,根据每个参考人脸图像的人脸特征计算第一人员id的参考人脸特征,参考人脸特征为第一人员id的平均人脸特征,提取每个参考人脸图像对应的人脸特征,取所有参考人脸图像对应的人脸特征的平均值作为该第一人员id对应的参考人脸特征。
52.s32,计算所述参考人脸特征分别与所述参考人脸图像集合中每个参考人脸图像的人脸特征的第一相似度;
53.s33,获取所述参考人脸图像集合中每个参考人脸图像的质量分数;
54.在每个第一人员id人脸库中,计算参考人脸特征分别与每个参考人脸图像的人脸特征的第一相似度ssim,并通过人脸质量评价模型获取每个参考人脸图像的质量分数score。
55.s34,根据所述第一相似度和所述质量分数,计算所述第一人员id的基准人脸特征。
56.对于每个第一人员id的参考人脸图像,结合人脸图像的质量分数以及与平均人脸特征的第一相似度,来确定第一人员id的基准人脸特征,将人脸质量评价算法引入基准人脸特征提取,降低噪声对基准人脸特征的影响,进一步提高后续清洗步骤的质量。
57.具体地,根据所述第一相似度和所述质量分数,计算所述第一人员id的基准人脸特征包括:
58.s341,计算所述第一相似度与所述质量分数的乘积,将所述乘积作为对应参考人脸图像的新特征;
59.s342,根据所述新特征对所述参考人脸图像进行降序排列,将排序第一的参考人脸图像作为所述第一人员id对应的基准图像样本;
60.s343,提取所述基准图像样本的人脸特征作为所述第一人员id的基准人脸特征。
61.在每个第一人员id人脸库中,计算每个参考人脸图像的质量分数与第一相似度的乘积f,作为对应的参考人脸图像的新特征,对于单个参考人脸图像样本,新特征f的计算公式为:f=ssim*score,其中,ssim为参考人脸图像的人脸特征与参考人脸特征的第一相似度,score为参考人脸图像的质量分数。在每个第一人员id人脸库中,根据新特征对参考人脸图像进行降序排列,选取首个参考人脸图像作为此第一人员id人脸库的基准图像样本,并提出相应的人脸特征作为此id人脸库的基准人脸特征。本实施例引入人脸质量评价算法,并将应用于人脸数据库的初步筛选及后续每个id基准人脸特征提取,可降低低质量人脸图像对后续清洗步骤的影响。
62.可本实施例中,在针对每个第一人员id人脸库提取对于的基准人脸图像时,引入质量分数,即结合质量分数和与平均人脸的相似度得到新特征,该新特征指标可大概率保证选取出的基准图像样本是与该第一人员id身份对应的人脸图像,同时可以保证该基准图像样本的图像质量,可降低噪声对基准图像样本的影响,以便于后续滤除不同身份同一id
的噪声数据及合并不同id同一身份的数据。
63.在本实施例的另一实施方式中,根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗包括:
64.s41,针对所述第一人脸集合中的每个第一人员id,从所述第一人脸集合中选择所述第一人员id的参考人脸图像集合;
65.s42,获取所述参考人脸图像集合的每个参考人脸图像的人脸特征;
66.s43,计算所述基准人脸特征分别与每个参考人脸图像的人脸特征的第二相似度;
67.s44,根据所述第二相似度,从所述参考人脸图像集合中滤除与所述第一人员id不对应的异常人脸图像,其中,所述异常人脸图像为所述参考人脸图像集合中第二相似度小于第二阈值的人脸图像。
68.在每个第一人员id的参考人脸图像集合中,获取每个参考人脸图像的人脸特征,并计算基准人脸特征分别与每个参考人脸图像的人脸特征的第二相似度,设置第二阈值和第五阈值,且第二阈值小于第五阈值,若第二相似度小于第二阈值,说明该参考人脸图像的人脸与基准人脸特征相差较大,可能不是该第一人员id对应的人脸图像,因此,将第二相似度小于第二阈值的参考人脸图像作为异常人脸图像直接滤除,可选地,将第二相似度大于或等于第二阈值且小于第五阈值的参考人脸图像作为待人工确认的数据,将人工确认后的数据和第二相似度大于第五阈值的参考人脸图像进行合并,实现了将待清洗的人脸库中同一个id人脸库中不同身份的人脸进行滤除。
69.在本实施例的另一实施方式中,根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗包括:
70.s45,获取所述第一人脸图像集合中所有人员id对应的基准图像样本和待测图像样本;
71.本实施例针对每个人员id人脸库,获取每个人员id人脸库的每个参考人脸图像的新特征,根据新特征对参考人脸图像进行降序排列后,选取排序第二和排序第三的参考人脸图像作为对应人员id的待测图像样本。
72.本实施例增加排序第二和排序第三的待测图像样本,可降低单一的基准样本检测不准确的影响。
73.s46,针对所述第一人脸图像集合中的每个第二人员id,选择所述第二人员id对应的基准图像样本;
74.s47,将所述基准图像样本与除所述第二人员id之外的其他人员id对应的基准图像样本以及待测图像样本进行相似度计算,得到第三相似度;
75.将每个第二人员id对应的基准图像样本与除第二人员id之外的其他人员id对应的基准图像样本以及待测图像样本进行相似度计算,得到与目标其他人员id的基准图像样本的相似度,以及与目标其他人员id的多个待测图像样本的多个相似度,对多个相似度取平均值作为当前第二人员id与目标其他人员id的第三相似度,并依次计算当前第二人员id与后续其他人员id的第三相似度。
76.s48,将所述第三相似度大于第三阈值的第三人员id,确认为与所述第二人员id相同的同一人员;
77.s49,采用所述第二人员id或所述第三人员id,对所述第二人员id和所述第三人员
id对应的人脸数据进行合并。
78.可选地,从多个第三相似度中选取最大的第三相似度,若最大的第三相似度大于第三阈值,说明最大的第三相似度对应的第三人员id与当前人员id大概率为同一人员身份,则采用第二人员id或第三人员id,对第二人员id和第三人员id对应的人脸数据进行合并。本实施例将错标数据,即不同id身份但为同一个人的id进行合并,以实现人脸数据清洗。
79.针对现有人脸清洗算法的不足,本文提出一种结合人脸质量评价算法的人脸清洗算法,一方面从人脸质量、异常人脸库识别(同一人的人脸库中有不同身份的人脸、同一人拥有不同标识人脸库)两个维度采用不同算法进行人脸清洗,另一方面在构建每个人的基准人脸特征时引入人脸质量评价因子,以降低噪声对基准人脸特征提取的影响,以保证后续更好的人脸鉴别效果,提高清洗质量。
80.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例所述的方法。
81.实施例2
82.在本实施例中还提供了一种人脸数据清洗装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
83.图5是根据本技术实施例的一种人脸数据清洗装置的结构框图,如图5所示,该装置包括:选择模块40,桥接模块41,其中,
84.获取模块60,用于获取待清洗的初始人脸图像集合;
85.计算模块62,用于计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合;
86.提取模块64,用于提取所述第一人脸图像集合中每个人员id对应的基准人脸特征;
87.清洗模块66,用于根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。
88.可选的,所述计算模块包括计算单元,用于计算每个人脸样本图像对应的质量分数,其中,所述人脸样本图像用于训练人脸质量评价模型;设置所述人脸样本图像对应的质量分数为所述人脸样本图像的质量分布伪标签;根据所述人脸样本图像,所述质量分布伪标签和以下损失函数,训练所述人脸质量评价模型:其中,x为所述人脸样本图像,f(x)为模型预测值,σ为损失函数huber loss的参数,y为所述质量分布伪标签对应的真实值,l为损失函数huber loss;将所述初始人脸图像集合中的每
个人脸图像输入所述人脸质量评价模型,获得所述人脸质量评价模型输出的每个人脸图像对应的质量分数。
89.可选的,所述计算单元包括计算子单元,用于计算每个人脸样本图像人脸样本相似度对应的类内分布与类间分布;计算所述类内分布与所述类间分布的wasserstein距离,并将所述wasserstein距离作为所述人脸样本图像对应的质量分数。
90.可选的,所述提取模块包括提取单元,用于针对所述第一人脸图像集合中的每个第一人员id,从所述第一人脸图像集合中选择所述第一人员id的参考人脸图像集合,根据所述参考人脸图像集合的人脸特征计算所述第一人员id的参考人脸特征;计算所述参考人脸特征分别与所述参考人脸图像集合中每个参考人脸图像的人脸特征的第一相似度;获取所述参考人脸图像集合中每个参考人脸图像的质量分数;根据所述第一相似度和所述质量分数,计算所述第一人员id的基准人脸特征。
91.可选的,所述提取单元包括提取子单元,用于计算所述第一相似度与所述质量分数的乘积,将所述乘积作为对应参考人脸图像的新特征;根据所述新特征对所述参考人脸图像进行降序排列,将排序第一的参考人脸图像作为所述第一人员id对应的基准图像样本;提取所述基准图像样本的人脸特征作为所述第一人员id的基准人脸特征。
92.可选的,所述清洗模块包括第一清洗单元,用于针对所述第一人脸集合中的每个第一人员id,从所述第一人脸集合中选择所述第一人员id的参考人脸图像集合;获取所述参考人脸图像集合的每个参考人脸图像的人脸特征;计算所述基准人脸特征分别与每个参考人脸图像的人脸特征的第二相似度;根据所述第二相似度,从所述参考人脸图像集合中滤除与所述第一人员id不对应的异常人脸图像,其中,所述异常人脸图像为所述参考人脸图像集合中第二相似度小于第二阈值的人脸图像。
93.可选的,所述清洗模块包括第二清洗单元,用于获取所述第一人脸图像集合中所有人员id对应的基准图像样本和待测图像样本;针对所述第一人脸图像集合中的每个第二人员id,选择所述第二人员id对应的基准图像样本;将所述基准图像样本与除所述第二人员id之外的其他人员id对应的基准图像样本以及待测图像样本进行相似度计算,得到第三相似度;将所述第三相似度大于第三阈值的第三人员id,确认为与所述第二人员id相同的同一人员;采用所述第二人员id或所述第三人员id,对所述第二人员id和所述第三人员id对应的人脸数据进行合并。
94.需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
95.实施例3
96.本技术的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
97.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
98.s1,获取待清洗的初始人脸图像集合;
99.s2,计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合;
100.s3,提取所述第一人脸图像集合中每个人员id对应的基准人脸特征;
101.s4,根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。
102.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
103.本技术的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
104.可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
105.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
106.s1,获取待清洗的初始人脸图像集合;
107.s2,计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合;
108.s3,提取所述第一人脸图像集合中每个人员id对应的基准人脸特征;
109.s4,根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。
110.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
111.上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
112.在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
113.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
114.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
115.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
116.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
117.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。

技术特征:
1.一种人脸数据清洗方法,其特征在于,所述方法包括:获取待清洗的初始人脸图像集合;计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合;提取所述第一人脸图像集合中每个人员id对应的基准人脸特征;根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。2.根据权利要求1所述的方法,其特征在于,计算所述初始人脸图像集合中的每个人脸图像对应的质量分数包括:计算每个人脸样本图像对应的质量分数,其中,所述人脸样本图像用于训练人脸质量评价模型;设置所述人脸样本图像对应的质量分数为所述人脸样本图像的质量分布伪标签;根据所述人脸样本图像,所述质量分布伪标签和以下损失函数,训练所述人脸质量评价模型:其中,x为所述人脸样本图像,f(x)为模型预测值,σ为损失函数huber loss的参数,y为所述质量分布伪标签对应的真实值,l为损失函数huber loss;将所述初始人脸图像集合中的每个人脸图像输入所述人脸质量评价模型,获得所述人脸质量评价模型输出的每个人脸图像对应的质量分数。3.根据权利要求2所述的方法,其特征在于,计算每个人脸样本图像对应的质量分数包括:计算每个人脸样本图像人脸相似度对应的类内分布与类间分布;计算所述类内分布与所述类间分布的wasserstein距离,并将所述wasserstein距离作为所述人脸样本图像对应的质量分数。4.根据权利要求1所述的方法,其特征在于,提取所述第一人脸图像集合中每个人员id对应的基准人脸特征包括:针对所述第一人脸图像集合中的每个第一人员id,从所述第一人脸图像集合中选择所述第一人员id的参考人脸图像集合,根据所述参考人脸图像集合的人脸特征计算所述第一人员id的参考人脸特征;计算所述参考人脸特征分别与所述参考人脸图像集合中每个参考人脸图像的人脸特征的第一相似度;获取所述参考人脸图像集合中每个参考人脸图像的质量分数;根据所述第一相似度和所述质量分数,计算所述第一人员id的基准人脸特征。5.根据权利要求4所述的方法,其特征在于,根据所述第一相似度和所述质量分数,计算所述第一人员id的基准人脸特征包括:计算所述第一相似度与所述质量分数的乘积,将所述乘积作为对应参考人脸图像的新特征;根据所述新特征对所述参考人脸图像进行降序排列,将排序第一的参考人脸图像作为所述第一人员id对应的基准图像样本;
提取所述基准图像样本的人脸特征作为所述第一人员id的基准人脸特征。6.根据权利要求1所述的方法,其特征在于,根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗包括:针对所述第一人脸集合中的每个第一人员id,从所述第一人脸集合中选择所述第一人员id的参考人脸图像集合;获取所述参考人脸图像集合的每个参考人脸图像的人脸特征;计算所述基准人脸特征分别与每个参考人脸图像的人脸特征的第二相似度;根据所述第二相似度,从所述参考人脸图像集合中滤除与所述第一人员id不对应的异常人脸图像,其中,所述异常人脸图像为所述参考人脸图像集合中第二相似度小于第二阈值的人脸图像。7.根据权利要求1所述的方法,其特征在于,根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗包括:获取所述第一人脸图像集合中所有人员id对应的基准图像样本和待测图像样本;针对所述第一人脸图像集合中的每个第二人员id,选择所述第二人员id对应的基准图像样本;将所述基准图像样本与除所述第二人员id之外的其他人员id对应的基准图像样本以及待测图像样本进行相似度计算,得到第三相似度;将所述第三相似度大于第三阈值的第三人员id,确认为与所述第二人员id相同的同一人员;采用所述第二人员id或所述第三人员id,对所述第二人员id和所述第三人员id对应的人脸数据进行合并。8.一种人脸数据清洗装置,其特征在于,包括:获取模块,用于获取待清洗的初始人脸图像集合;计算模块,用于计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合;提取模块,用于提取所述第一人脸图像集合中每个人员id对应的基准人脸特征;清洗模块,用于根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法步骤。10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至7中任一项所述的方法步骤。

技术总结
本申请公开了一种人脸数据清洗方法、装置、电子设备及存储介质,属于计算机数据处理技术领域。其中,该方法包括:获取待清洗的初始人脸图像集合;计算所述初始人脸图像集合中的每个人脸图像对应的质量分数,滤除所述初始人脸图像集合中质量分数低于第一阈值的人脸图像,得到第一人脸图像集合;提取所述第一人脸图像集合中每个人员ID对应的基准人脸特征;根据所述基准人脸特征,对所述第一人脸图像集合中的人脸数据进行数据清洗。通过本申请,解决了相关技术中人脸数据清洗算法存在人脸数据库过清洗或清洗不够的技术问题。库过清洗或清洗不够的技术问题。库过清洗或清洗不够的技术问题。


技术研发人员:陈运华 向超前 余祖杰 郭宇超
受保护的技术使用者:蓝思系统集成有限公司
技术研发日:2023.05.22
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐