样本数据的处理方法、装置、设备、介质及产品与流程

未命名 08-13 阅读:161 评论:0


1.本技术涉及人工智能领域,特别涉及一种样本数据的处理方法、装置、设备、介质及产品。


背景技术:

2.基于人工智能(artificial intelligence,ai)的分类任务是指通过分类模型对输入的数据进行分类识别,其中,当分类任务对应的类别数量很多时,该分类任务可以视为一个大规模分类任务。生物识别技术(例如,人脸识别)可以视为大规模分类任务,即,每个人对应的数据即为一个类别。
3.相关技术中,以人脸识别为例,模型的训练过程为预先收集一定数量的训练样本数据,在模型训练过程中,由于硬件上不支持将所有训练数据在一次训练过程中全部输入,因此,需要对训练样本数据进行随机采样,将采样得到的训练样本数据输入至模型进行训练,经过多次采样以及迭代训练的过程,从而得到对应的人脸识别模型。
4.然而,在模型的实际应用中会面临相似脸误识别的问题,由于训练样本数据的数据量远大于硬件所能支持的输入量,而在抽样过程中,相似脸对应的训练样本数据被抽样至同一训练批次的概率较低,因此,模型在训练过程中学习到的相似脸之间的区别较弱,从而导致了模型精度较低的问题。


技术实现要素:

5.本技术实施例提供了一种样本数据的处理方法、装置、设备、介质及产品,提升了大规模分类场景下分类模型的模型精度。所述技术方案如下:
6.一方面,提供了一种样本数据的处理方法,所述方法包括:
7.获取样本数据集合,所述样本数据集合中的样本数据标注有样本标签,所述样本数据集合中的样本数据被划分至相似样本组或独立样本组,所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,所述独立样本组中的样本数据对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系;
8.对所述样本数据集合进行抽样,得到目标样本数据;
9.响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据;
10.基于所述目标样本数据和所述扩充样本数据生成训练样本集合,所述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,所述目标分类模型用于进行数据分类识别。
11.另一方面,提供了一种样本数据的处理装置,所述装置包括:
12.获取模块,用于获取样本数据集合,所述样本数据集合中的样本数据标注有样本标签,所述样本数据集合中的样本数据被划分至相似样本组或独立样本组,所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,所述独立样本组中的样本数据
对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系;
13.抽样模块,用于对所述样本数据集合进行抽样,得到目标样本数据;
14.扩充模块,用于响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据;
15.生成模块,用于基于所述目标样本数据和所述扩充样本数据生成训练样本集合,所述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,所述目标分类模型用于进行数据分类识别。
16.另一方面,提供了一种计算机设备,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本技术实施例中任一所述的样本数据的处理方法。
17.另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现本技术实施例中任一所述的样本数据的处理方法。
18.另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的样本数据的处理方法。
19.本技术的提供的技术方案至少包括以下有益效果:
20.在对用于数据分类识别的分类模型进行训练时,当抽样得到的目标样本数据属于由样本标签存在相似关系的相似样本组时,由目标样本数据和相似样本组中的扩充样本数据共同生成用于分类模型训练的训练样本集合。即,在被采样到的样本数据在样本数据集合中存在标签相似的其他样本数据时,从标签相似的其他样本数据中获取扩充样本数据,以使得在大规模分类场景下,模型能够充分学习相似标签之间样本数据的差异,从而提升分类模型的模型精度。
附图说明
21.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
22.图1是本技术一个示例性实施例提供的特征空间中脸部特征投影示意图;
23.图2是本技术一个示例性实施例提供的特征向量投影的实际情况和期望情况的示意图;
24.图3是本技术一个相关技术中人脸识别训练过程的示意图;
25.图4是本技术一个示例性实施例提供的计算机系统示意图;
26.图5是本技术一个示例性实施例提供的样本数据的处理方法流程图;
27.图6是本技术一个示例性实施例提供的样本标签的相似度计算示意图;
28.图7是本技术一个示例性实施例提供的生成训练样本集合的示意图;
29.图8是本技术另一个示例性实施例提供的样本数据的处理方法流程图;
30.图9是本技术一个示例性实施例提供的扩充样本数据确定示意图;
31.图10是本技术另一个示例性实施例提供的扩充样本数据确定示意图;
32.图11是本技术另一个示例性实施例提供的样本数据的处理方法流程图;
33.图12是本技术一个示例性实施例提供的样本组划分示意图;
34.图13是本技术一个示例性实施例提供的长相相似示意图;
35.图14是本技术一个示例性实施例提供的姿态/配饰导致相似的示意图;
36.图15是申请一个示例性实施例提供的数据划分示意图;
37.图16是本技术一个示例性实施例提供的待处理数据划分示意图;
38.图17是本技术一个示例性实施例提供的样本数据集合构成示意图;
39.图18是本技术一个示例性实施例提供的样本数据的处理装置结构框图;
40.图19是本技术另一个示例性实施例提供的样本数据的处理装置结构框图;
41.图20是本技术一个示例性实施例提供的服务器的结构示意图。
具体实施方式
42.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
43.首先,对本技术实施例中涉及的名词进行简要介绍:
44.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
45.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
46.机器学习(machine learning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
47.自然语言处理(nature language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技
术。
48.计算机视觉技术(computer vision,cv)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(optical character recognition,ocr)、视频处理、视频语义理解、视频内容识别、三维物体重建、3d技术、虚拟现实、增强现实地图构建、自动驾驶、智慧交通等技术,还包括常见的面部识别等特征识别技术。
49.本技术实施例提供的样本数据的处理方法,本技术实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等,例如,可以应用于如自然语言处理中的大规模文本分类任务,如文本标签标注任务,又或者应用于计算机视觉技术中的大规模图像分类任务,如人脸识别任务、医学影像识别任务、昆虫图像识别任务等,还可以应用于音频处理技术中的大规模语音分类任务,如多方言语音识别任务、多语种语音识别任务等,通过在分类模型的训练过程中使分类模型能够充分学习相似标签之间样本数据的差异,从而提升分类模型的模型精度。
50.示意性的,以本技术实施例提供的样本数据的处理方法应用于人脸识别场景中为例进行说明。
51.其中,人脸识别技术是一种利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术,属于生物特征识别技术,将面部特征作为区分生物个体的特征。目前,人脸识别技术已经广泛用于如自助服务、企业或住宅的安全和管理、信息安全等领域中。
52.示意性的,可以将人脸识别看作人脸图像的特征向量投影到超球面,不同的人落在超球面上不同的区域内,如图1所示,其示出了本技术一个示例性实施例提供的特征空间中脸部特征投影示意图,人物a对应的脸部特征向量110投影至超球面100中的区域a111,人物b对应的脸部特征向量120投影至超球面100中的区域b121。
53.其中,当不同的人对应的人脸差异越大,脸部特征向量之间的夹角或距离越大,反之,当不同的人对应的人脸相似度越高,脸部特征向量之间的夹角或距离越小。但在人脸识别的应用过程中,为提升对相似脸识别的精确度,减少相似脸之间的误识别,则会希望脸部特征向量投影在超球面上时,相似脸之间的距离远一些,以使得在识别过程中相似脸之间更具有区分性。如图2所示,其示出了本技术一个示例性实施例提供的特征向量投影的实际情况和期望情况的示意图,在实际情况210中,人物a201对应投影区域a211,人物b202对应投影区域b212,人物c203对应投影区域c213,其中,由于任务a201和人物b202对应的脸部特征相似,两者对应的投影区域a211和投影区域b212距离较近;而在理想情况220中,人物a201对应的投影区域a’221和人物b202对应的投影区域b’222之间的距离较远。
54.人脸识别模型的训练过程可以视作一个超大规模的分类任务,每个人对应为一个类别,假设参与模型训练的样本对象有1万人,每个人对应有100张人脸图像,那么全部类别就是1万类,训练样本数据的数据量是100万张样本面部图像,由于在硬件上不支持全类别输入,因此,每个类别的优化过程都是基于随机采样批次(batch)实现的。如图3所示,其示出了一个相关技术中人脸识别训练过程的示意图,训练数据301经过随机采样302得到一定
数量的采样数据303,将采样数据303输入至人脸识别模型304中进行监督训练,重复多次迭代训练后得到训练完成的人脸识别模型。
55.然而,以上述过程训练得到的人脸识别模型存在以下问题:1.模型优化方向是全部类别局部最小解,相似脸数据在训练集的占比不高,相似脸的优化容易被忽略;2.相似脸是一种对应关系(如,人物a与人物b之间存在面部相似),随机采样的训练样本数据中得到相似脸组的概率很低,那么模型在训练过程中就很难学习到相似脸的特征之间的差异,因此相似脸也难以被优化到。
56.在本技术实施例中,通过在被采样到的样本面部图像在样本数据集合中存在其他与其相似但不属于同一个人的相似样本面部图像时,从上述相似样本面部图像中获取扩充样本面部图像,将抽样到的样本面部图像和扩充样本面部图像共同输入至人脸识别模型进行训练,使得模型能够充分学习相似人脸之间样本面部图像之间的差异,从而提升人脸识别模型的模型精度。
57.或者,以应用于动物类别识别场景为例,如,根据猫的品种进行识别的分类模型,示意性的,“暹罗猫”和“重点色短毛猫”属于不同品种的,但两者之间存在相似的特征(面部、耳部、足部以及尾部呈现区别于身体的颜色),通过本技术实施例提供的样本数据的处理方法,当分类模型在训练过程中,随机抽样到的目标样本数据为“暹罗猫”的样本数据时,从“重点色短毛猫”的样本数据中再抽样得到扩充样本数据,将目标样本数据和扩充样本数据共同输入至分类模型中参与训练,以使分类模型学习到两者之间的区别,更好地在实际应用过程中,准确识别“暹罗猫”和“重点色短毛猫”的图像。
58.上述仅以本技术实施例提供的样本数据的处理方法应用于人脸识别场景和动物类别识别场景中为例进行说明,该方法还可应用于其他分类场景,例如,在语音识别场景下增强不同人的相似音色之间的区别、在语音转文本识别场景下增强不同类型的语言下相似发音特征之间的区别、在医疗影像识别场景下增强不同疾病类型下相似病灶图像之间的区别等,在此不对具体的应用场景进行限制。
59.值得注意的是,当该方法应用于生物特征相关的分类任务时,涉及到人类生物特征的样本数据,在本技术中提供的实施例运用到具体产品或技术中时,上述样本数据需要获得样本对象(用户)的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
60.结合上述名词解释和应用场景的说明,对本技术实施例的实施环境进行说明。如图4所示,该实施环境的计算机系统中包括:终端设备410、服务器420和通信网络430。
61.终端设备410包括手机、平板电脑、台式电脑、便携式笔记本电脑、智能语音交互设备、智能家电、车载终端等多种形式的设备。示意性的,用户通过终端设备410指示服务器420对分类模型进行训练。
62.服务器420用于提供对分类模型的训练功能,即,服务器420可根据终端设备410的请求调用对应的运算模块对指定的分类模型进行训练。可选地,分类模型对应的模型架构可以是预先存储于服务器420中,也可以是终端设备410通过模型数据文件上传的;用于分类模型训练的训练数据集合可以是预先存储于服务器420中,也可以是终端设备410通过样本数据文件上传的。在一个示例中,用户通过终端设备410将样本数据集合上传至服务器420,并发送针对候选分类模型的训练请求,该训练请求中携带有候选分类模型的模型标识
(id),服务器420根据训练请求中的模型id从数据库中读取上述模型id对应的候选分类模型的模型架构,并通过接收到的样本数据集合对候选分类模型进行训练。
63.其中,在训练过程中,对样本数据集合进行随机抽样,得到目标样本数据,当目标样本属于目标相似样本组时,从目标相似样本组中再筛选出扩充样本数据,将目标样本数据和扩充样本数据共同作为训练样本输入至候选分类模型中进行训练,最终得到目标分类模型。
64.示意性的,当服务器420训练得到目标分类模型后,服务器420可以将目标分类模型发送至终端设备410,也可以将目标分类模型分配至模型应用模块,该模型应用模块为服务器420中提供模型的应用功能的模型,例如,终端设备410向服务器420发送分类请求,该分类请求中包括待分类数据,服务器420在接收到分类请求后将其转发至上述模型应用模块,模型应用模块调用对应的目标分类模型,然后将分类请求中的待分类数据输入至目标分类模型中进行数据分类识别,得到分类结果,服务器420将上述分类结果返回至终端设备410。
65.在一些实施例中,若终端设备410的计算能力满足上述候选分类模型的训练过程,上述候选分类模型的整体训练过程也可由终端设备410单机实现。
66.值得注意的是,上述服务器420可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
67.其中,云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
68.在一些实施例中,上述服务器420还可以实现为区块链系统中的节点。区块链(blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。
69.示意性的,终端设备410和服务器420之间通过通信网络430连接,其中,上述通信网络430可以是有线网络,也可以是无线网络,在此不进行限定。
70.基于上述应用场景及实施环境的说明,请参考图5,其示出了本技术一个实施例示出的样本数据的处理方法流程图,在本技术实施例中,以该方法应用于如图4所示的服务器中,当然,该方法也可应用于终端设备中,在此仅进行示意性说明,并不对具体执行主体进行限制。该方法包括如下步骤。
71.501:获取样本数据集合,样本数据集合中的样本数据标注有样本标签。
72.示意性的,上述样本数据集合用于候选分类模型的训练过程,样本数据集合中包括目标数量的样本数据。其中,样本标签用于在候选分类模型对应的分类任务中对样本数
据的样本类别进行区分,例如,上述分类任务为面部识别任务时,属于同一个对象的样本数据标注有相同的样本标签,即,同一个对象对应的样本数据属于同一个样本类别。
73.可选地,上述候选分类模型的模型架构可以是卷积神经网络(convolution neutral network,cnn)架构、深度残差网络(deep residual networks,drn)架构、深度残差收缩网络(deep residual shrinkage networks,drsn)架构、支持向量机(support vector machines,svm)架构等能够完成分类任务的模型架构。
74.示意性的,样本数据集合中包括至少两个样本标签对应的样本数据,一个样本标签对应有至少一个样本数据。
75.在一些实施例中,上述候选分类模型对应的分类任务可以是单分类任务,即,每个样本数据仅对应一个样本标签,在一个示例中,以面部识别任务为例,样本数据对应标注的样本标签为对应的样本对象,例如,样本数据a为人物a的人脸图像,则样本数据a标注的样本标签为“人物a”。在另一些实施例中,上述后候选分类模型对应的分类任务可以是多分类任务,即,每个样本数据对应多个标签,在一个示例中,以动物识别任务为例,样本数据对应标注的样本标签包括对应的样本对象以及样本对象对应的多级分类,例如,样本数据a为暹罗猫的图像,样本数据a总共标注有五级标签,从上到下多级样本标签分别为“哺乳纲”、“食肉目”、“猫科”、“猫”、“暹罗猫”。
76.样本数据集合中样本数据标注的样本标签是根据分类任务确定的,即,同一个样本内容根据分类任务的不同可以标注不同的样本标签,例如,当分类任务指示对输入图像按照动物物种进行分类时,“暹罗猫”的图像的样本标签为“猫”,“重点色英短猫”的图像的样本标签也为“猫”,当分类任务指示对输入图像按照猫的品种进行分类时,“暹罗猫”的图像的样本标签为“暹罗”,“重点色英短猫”的图像的样本标签为“重点色英短”。
77.样本数据集合中的样本数据被划分至相似样本组或独立样本组,其中,相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,独立样本组中的样本数据对应的样本标签与样本数据集合中的其他样本标签不存在上述相似关系。
78.示意性的,属于同一相似样本组中样本数据之间存在标签相似关系,即,相似样本组由至少两个样本标签之间存在相似关系的样本数据组成。可选地,上述标签相似关系可以指示标注有不同样本标签的样本数据的之间存在的相似情况,例如,相似样本组a中包括标注有样本标签1的样本数据a、标注有样本标签2的样本数据b以及标注有样本标签3的样本数据c,则样本数据a、样本数据b以及样本数据c之间存在标签相似关系,具体的,以面部识别任务为例,样本标签标注为不同样本对象之间的样本面部图像存在相似关系,即,样本对象之间存在相似面部特征的情况;和/或,上述标签相似关系可以指示标注有相同标签的样本数据之间存在的相似情况,例如,相似样本组b中包括标注有样本标签4的样本数据d和样本数据e,则上述样本数据d和样本数据e之间存在标签相似关系。
79.可选地,上述样本标签之间的相似关系可以由样本标签对应的样本数据之间的相似度确定,示意性的,一个样本标签对应有目标样本数量的样本数据,两个不同的样本标签之间的相似度可以通过计算两个样本标签分别对应的样本数据之间的相似度来确定。
80.示意性的,在通过样本数据之间的相似度数据来确定上述样本标签之间的相似度时,不同数据形式的样本数据可以通过不同的相似度数据来确定。
81.在一个示例中,当样本数据的数据形式为文本形式时,上述相似度数据可以是由
样本数据的文本内容之间的分句语义相似度、分词语义相似度、字符相似度等中的至少一种得到。其中,上述分句语义相似度为对文本内容进行按句划分后,通过比对两个样本数据之间不同分句之间的语义相似度从而确定的数据;上述分词相似度为对文本内容按词划分后,通过比对两个样本数据之间不同分词之间的语义相似度从而确定的数据;上述字符相似度为通过比对两个样本数据之间文本内容的构成字符之间的相似度从而确定的数据。
82.在另一个示例中,当样本数据的数据形式为图像形式时,上述相似度数据可以是由样本数据的图像内容之间的直方图分布相似度、图像特征相似度、像素数组相似度等中的至少一种得到。其中,上述直方图分布相似度为通过比对样本数据对应的图像内容之间直方图的分布相似度从而确定的数据;上述图像特征相似度为通过将图像内容进行特征提取后,通过计算不同图像内容对应的图像特征之间的特征角度数据或特征距离数据从而确定的数据;上述像素数组相似度为将图像内容对应的像素转化为灰度值数组后,通过计算不同图像内容对应的灰度值数组之间的相似度从而确定的数据。
83.在另一个示例中,当样本数据的数据形式为语音形式时,上述相似度数据可以是由样本数据的语音内容之间的声学相似度、转文本语义相似度、音频特征相似度等中的至少一种得到。其中,上述声学相似度为通过将语音内容划分为音素后,比对不同语音内容对应的音素之间的相似度从而确定的数据;上述转文本语义相似度为通过将语音内容转换为文本内容后,比对不同文本内容之间的语义相似度从而确定的数据;上述音频特征相似度为将语音内容转化为音频特征后,通过计算不同音频特征之间的特征角度数据或特征距离数据从而确定的数据。
84.具体的,以候选分类模型用于完成面部识别分类任务为例,样本数据对应的数据形式为图像形式,在样本数据集合中,一共有1万个样本对象,每个样本对象对应有100张样本面部图像,同一个样本对象的样本面部图像标注有相同的样本标签,在计算样本标签之间相似度时,计算两两样本对象对应的样本面部图像之间的平均相似度数据,其中,上述样本面部图像之间的相似度数据时根据样本面部图像中人脸特征之间的相似度确定的。
85.例如,如图6所示,其示出了本技术一个示例性实施例提供的样本标签的相似度计算示意图,样本对象a610对应有100张样本面部图像a611,样本对象b620对应有100张样本面部图像b621,将样本面部图像a611和样本面部图像b621两两输入至预先训练得到的图像相似度检测模型601中,输出得到1万个相似度数据630,对上述1万个相似度数据630进行求均值处理,得到用于表示样本对象a610和样本对象b620之间相似度的标签相似度640。
86.可选地,上述样本标签之间的相似关系也可以由样本标签之间的相似度确定,即,通过计算样本标签之间的相似度来确定样本标签之间是否满足相似关系。在一个示例中,通过计算样本标签之间的文本相似度,当该语义相似度达到目标阈值时,则确定样本标签之间满足相似条件,上述文本相似度可以通过样本标签的字符比对来计算,也可以通过预先训练的文本相似度计算模型来完成计算过程,例如,通过计算确定样本标签“熊猫”和样本标签“小熊猫”之间的文本相似度为66.7%,高于目标阈值60%,则确定样本标签“熊猫”和样本标签“小熊猫”之间存在相似关系。在此种样本标签间相似关系确定的情况下,具有标签相似关系的样本数据之间样本内容可能是相似的,也可能是完全不同的。
87.在本技术实施例中,当样本标签之间的标签相似度满足相似条件时,根据样本标签对应的样本数据生成对应的相似样本组,例如,当样本标签a和样本标签b之间的标签相
似度满足相似条件时,根据样本标签a对应的样本数据以及样本标签b对应的样本数据生成相似样本组,该相似样本组还记录有样本标签a和样本标签b之间的映射关系。
88.在另一些实施例中,通过聚类得到相似样本组,示意性的,将样本数据集合对应的所有样本数据进行聚类,将通过聚类得到相似样本数据置于同一样相似本组中,由于同一样本标签对应的样本数据属于同一样本对象,同一样本标签内的样本数据相似度高于样本标签间样本数据的相似度,因此属于同一样本标签的样本数据也属于同一相似样本组。其中,样本数据的聚类过程可以是k均值聚类算法(k-means clustering algorithm,k-means)、二分k-means聚类算法(bisecting k-means clustering algorithm,bi-kmeans)、基于密度的噪声空间聚类算法(density-based spatial clustering of applications with noise,dbscan)、排序点识别聚类结构算法(ordering points to identify the clustering structure,optics)等任意一种聚类算法实现的。
89.在一些实施例中,样本数据集合中还包括独立样本数据,独立样本数据用于指示其对应的样本标签在样本数据集合中不存在上述相似关系的其他样本标签,例如,以面部识别任务为例,所有样本对象中包括与其他所有样本对象均不存在相似关系的独立样本对象,该独立样本对象对应的样本面部图像即为上述独立样本数据。
90.可选地,上述样本数据集合可以是从服务器的数据库中读取到的,也可以是终端设备上传的,在此不进行限定。
91.502:对样本数据集合进行抽样,得到目标样本数据。
92.在一些实施例中,候选分类模型通过输入样本数据集合中的样本数据进行迭代训练,直至候选分类模型收敛时,确定训练得到目标分类模型。示意性的,候选分类模型的训练过程中包括至少一个训练阶段,或者可以称为训练批次(batch),在一个训练阶段中,将一批样本数据输入至候选分类模型进行训练,并通过模型对应的损失函数确定对应的损失值,根据损失值确定是否需要进入下一训练阶段,或是确定训练完毕得到目标分类模型。由于参与候选分类模型训练过程的样本数据的数量较大,而在一个训练阶段中由于硬件不支持样本数据集合中样本数据的全量输入,因此,采用抽样的方式从样本数据集合中确定当前训练阶段中输入至候选分类模型中进行训练的样本数据。
93.可选地,上述随机抽样可以在每个训练阶段中,均从完整的样本数据集合中抽样得到上述目标样本数据;或者,上述随机抽样也可以是在当前训练阶段中,将在历史训练阶段中参与训练的样本数据从样本数据集合中剔除,得到筛选后的样本数据集合,从上述筛选后的样本数据集合中进行随机抽样得到目标样本数据。
94.在一些实施例中,从样本数据集合中抽取到第一数量的目标样本数据。可选地,该第一数量可以是系统预设的,也可以是终端设备自定义设置的。在一些实施例中,当第一数量为系统预设时,可以根据硬件条件对应的训练样本容量来确定,上述训练样本容量用于指示候选分类模型在一个训练阶段中样本数据的数量要求范围,即,能够确定出在当前硬件条件下,在候选分类模型的一个训练阶段中允许输入的样本数据的最大数量,将该最大数量确定为训练样本容量,根据训练样本容量确定出抽样得到的目标样本数据对应的第一数量。
95.503:响应于目标样本数据属于目标相似样本组,从目标相似样本组中获取扩充样本数据。
96.其中,目标样本数据标注有第一样本标签,扩充样本数据标注有第二样本标签,上述第一样本标签与第二样本标签之间存在相似关系。可选地,第一样本标签和第二样本标签可以是相同的样本标签,也可以是不同的样本标签。
97.可选地,上述目标样本数据可以是终端设备指定的样本数据,即,终端设备在指示服务器使用样本数据集合中的指定样本数据进行候选分类模型的训练,例如,在向服务器发送模型训练请求时,该模型训练请求中携带有目标样本数据对应的样本id;或者,目标样本数据为服务器对样本数据集合中的所有样本数据进行随机抽样得到的样本数据。
98.在本技术实施例中,当确定目标样本数据在样本数据集合中属于目标相似样本组时,则说明样本数据集合中存在与目标样本数据具有标签相似关系的样本数据,从上述与目标样本数据之间具有标签相似关系的样本数据中确定出扩充样本数据,扩充样本数据用于与目标样本数据共同作为训练样本数据,参与候选分类模型的当前训练阶段的模型训练。
99.在一些实施例中,样本组对应有标识信息,该标识信息用于记录有样本组id、样本组内的样本数据的样本id以及样本标签的标签id。在确定目标样本数据是否属于某一样本组时,可以通过读取各个样本组对应的标识信息,根据标识信息中记录的样本数据的样本id与目标样本数据的目标样本id进行比对,若存在某一样本组的标识信息中包括上述目标样本id,且该样本组为相似样本组时,则将该样本组确定为目标相似样本组;或者,也可以通过读取标识信息中记录的标签id,将上述标签id与第一样本标签对应的目标标签id进行对比,若存在某一样本组的标识信息中包括上述目标标签id,且该样本组为相似样本组时,则将该样本组确定为目标相似样本组。
100.当确定目标样本数据属于目标相似样本组后,即可从目标相似样本组中确定出扩充样本数据。在一些实施例中,通过对目标相似样本组中样本标签区别于第一样本标签的样本数据进行随机抽样,以得到扩充样本数据。
101.在一些实施例中,根据目标样本数据从目标相似样本组中获取第二数量的扩充样本数据,可选地,第二数量可以是系统预设的,也可以是用户通过终端设备自定义设置的。可选地,第一数量和第二数量可以是单独设置的,例如,由终端设备分别指示第一数量和第二数量对应的数值,即,第一数量和第二数量之间是相互的独立的;或者,第一数量和第二数量之间可以存在指定倍数关系,例如,第一数量和第二数量相同,或者,第二数量是第一数量的三倍,具体可根据实际需求进行设置。
102.在一些实施例中,当上述第一数量和第二数量为系统预设时,可以根据硬件条件对应的训练样本容量来确定,示意性的,获取候选分类模型的训练样本容量,基于训练样本容量确定第一数量和第二数量,第一数量用于指示目标样本数据的数量,第二数量用于指示与目标样本数据对应的扩充样本数据的数量。例如,硬件条件指示支持256个样本数据同时输入候选分类模型,则系统预设的第一数量为64,第二数量为192,再例如,第一数量和第二数量均为128,或,第一数量为192,第二数量为64,其中,针对第二数量小于第一数量的情况,则需要对抽样到的目标样本数据进行二次抽样或筛选,以确定需要进行扩充样本数据确定的目标样本数据。
103.在一些实施例中,当第一数量为终端设备指定时,第二数量还可以是根据第一数量和硬件条件确定的,例如,终端设备指定第一数量为128,而硬件条件指示支持256个样本
数据同时输入候选分类模型,则第二数量对应为128。
104.504:基于目标样本数据和扩充样本数据生成训练样本集合。
105.其中,上述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,目标分类模型用于进行数据分类识别。
106.在一些实施例中,上述训练样本集合中的训练样本数据为候选分类模型在当前训练阶段进行训练时所使用的样本数据。示意性的,如图7所示,其示出了本技术一个示例性实施例提供的生成训练样本集合的示意图,样本数据集合710中包括目标数量的样本数据,经过随机采样得到第一数量的目标样本数据720,然后通过目标样本数据720确定第二数量的扩充样本数据730,由上述第一数量的目标样本数据720以及分别对应的第二数量的扩充样本数据730共同生成训练样本集合740,将训练样本集合740中的样本数据输入至候选分类模型750中进行训练。
107.示意性的,将训练样本集合中的训练样本数据输入至候选分类模型中,输出得到预测分类结果,基于训练样本数据对应的样本标签与预测分类结果之间的差异情况,确定预测分类结果的损失值,基于损失值对候选分类模型进行迭代训练,得到目标分类模型。其中,上述预测分类结果对应的损失值可以通过训练损失函数获取,该训练损失函数可以是0-1损失函数(zero-one loss)、平方损失函数、交叉熵损失函数、最大似然损失函数等损失函数中的任意一种,在此不进行限定。示意性的,可以根据损失值是否小于预设损失阈值来确定候选分类模型是否训练完成,当当前输出的损失值小于等于预设损失阈值时,则确定候选分类模型训练完成,得到目标分类模型,当当前输出的损失值大于预设损失阈值时,则,根据损失值修改候选分类模型的模型参数,并继续获取训练样本集合以完成候选分类模型的训练。
108.在一些实施例中,训练样本集合的生成过程和候选分类模型的训练过程可以是并行完成的,在一个示例中,服务器的模型训练模块中包括样本筛选单元和模型训练单元,其中,上述样本筛选单元用于完成上述训练样本集合的生成过程,样本筛选单元持续进行训练样本集合的生成,并将生成的训练样本集合依次传输至模型训练单元,模型训练单元根据训练样本集合中的样本数据完成模型的训练,即,通过并行方式提升模型训练过程的整体效率。
109.在目标分类模型的应用过程中,服务器获取待分类数据,该待分类数据为需要进行分类识别的数据,通过目标分类模型,基于待分类数据的数据特征与候选类别之间的匹配关系,确定待分类数据对应的目标分类结果,其中,上述候选类别与目标分类模型对应的分类任务对应,例如,当分类任务为猫的品种识别任务时,则候选类别是猫的各种品种。
110.示意性的,以分类任务为面部识别任务为例,则服务器接收到的待分类数据为待识别面部图像,上述目标分类模型为面部识别模型,在一个示例中,通过面部识别模型对待识别面部图像进行特征提取,得到面部特征表示,基于面部特征表示与候选映射区域之间的匹配关系,从候选身份中确定出目标身份,其中,候选映射区域为候选身份在特征空间中的映射区域,目标身份用于指示待识别面部图像中面部特征对应的身份信息,将目标身份作为目标分类结果进行输出。可选地,上述面部特征表示可以是特征向量,也可以是特征矩阵,在此不进行限定。其中,上述面部识别既可以是真实人类的面部识别,也可以是虚拟人物(如动漫人物)的面部识别,在此不进行限定。值得注意的是,当上述待识别面部图像为人
类面部图像时,在本技术中提供的实施例运用到具体产品或技术中时,上述待识别面部图像需要获得用户的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
111.在一些实施例中,当目标分类模型完成训练后,为将其适用于对样本数据集合中的样本对象之外的对象的分类识别,可以将训练得到的目标分类模型中的分类层去除,将之前层输出的特征作为待识别数据的数据表征特征,从而实现将模型应用于识别样本对象之外的对象。
112.综上所述,本技术实施例提供的样本数据的处理方法,在对于用于数据分类识别的分类模型进行训练时,当抽样得到的目标样本数据属于由样本标签存在相似关系的相似样本组时,由目标样本数据和相似样本组中的扩充样本数据共同生成用于分类模型训练的训练样本集合。即,在被采样到的样本数据在样本数据集合中存在标签相似的其他样本数据时,从标签相似的其他样本数据中获取扩充样本数据,以使得在大规模分类场景下,模型能够充分学习相似标签之间样本数据的差异,从而提升分类模型的模型精度。
113.请参考图8,其示出了本技术一个示例性实施例提供的样本数据的处理方法流程图,在本技术实施例中,对样本数据集合进行抽样以得到训练样本集合进行示意性说明。该方法包括如下步骤。
114.801:获取样本数据集合。
115.其中,上述样本数据集合中的样本数据标注有样本标签,样本标签用于在候选分类模型对应的分类任务中对样本数据的样本类别进行区分,例如,上述分类任务为面部识别任务时,属于同一个对象的样本数据标注有相同的样本标签,即,同一个对象对应的样本数据属于同一个样本类别。
116.样本数据集合中的样本数据被划分至相似样本组或独立样本组,其中,相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,独立样本组中的样本数据对应的样本标签与样本数据集合中的其他样本标签不存在上述相似关系。
117.802:对样本数据集合进行抽样,得到目标样本数据。
118.上述目标样本数据标注有第一样本标签。
119.在本技术实施例中,服务器对样本数据集合中的样本数据进行随机抽样,得到第一数量的目标样本数据。其中,上述第一数量为根据训练样本容量确定的,该训练样本容量用于指示候选分类模型在一个训练阶段中样本数据的数量要求范围。
120.8031:响应于目标样本数据属于目标相似样本组,获取目标相似样本组对应的相似映射数据。
121.在本技术实施例中,相似样本组对应有相似映射数据,该相似映射数据用于记录相似样本组中存在相似关系的样本标签之间的映射关系。
122.在一些实施例中,将样本数据集合对应的所有样本组确定为候选相似样本组,根据预设样本组筛选方式对候选相似样本组进行筛选,确定目标相似样本组。示意性的,样本数据集合中的样本组对应有映射中心标签,该映射中心标签用于指示候选相似样本组对应的相似映射数据所记录的映射关系的映射中心,该映射中心标签在样本组的生成过程中确定,在一个示例中,通过对提供用作训练数据的待处理数据进行样本组生成时,对待处理数据对应的样本标签进行遍历,将当前遍历到的样本标签作为映射中心标签,从其他待处理
数据中确定出与映射中心标签具有相似关系的相似样本标签,根据映射中心标签以及相似样本标签对应的样本数据生成相似样本组,即相似样本组和映射中心标签为一一对应的关系。例如,相似样本组a中包括样本标签a对应的样本数据、样本标签b对应的样本数据、样本标签c对应的样本数据,相似样本组a对应的映射中心标签为样本标签a,则说明样本标签b对应的样本数据与样本标签a对应的样本数据之间存在标签相似关系,样本标签c对应的样本数据与样本标签a对应的样本数据之间存在标签相似关系。
123.示意性的,获取候选相似样本组的映射中心标签,响应于第一样本标签与候选相似样本组的映射中心标签匹配,将该候选相似样本组确定为目标相似样本组,获取目标相似样本组对应的相似映射数据,即,当确定目标样本数据为目标相似样本组中的样本数据后,获取目标相似样本组对应的相似映射数据。
124.8032:基于相似映射数据从目标相似样本组中获取扩充样本数据。
125.在本技术实施例中,当确定目标样本数据对应的目标相似样本组后,需要从目标相似样本组中获取扩充样本数据。示意性的,从目标相似样本组中获取候选样本数据,其中,候选样本数据对应的候选样本标签区别于第一样本标签,从候选样本数据中获取扩充样本数据,其中,上述获取扩充样本数据的方式可以是随机抽样方式。
126.可选地,上述随机抽样得到扩充样本数据的抽样过程可以是针对样本数据的抽样,也可以是针对样本标签和样本数据的抽样。
127.当上述抽样过程是针对样本数据的抽样时,将目标相似样本组中除第一样本标签对应的样本数据之外的样本数据确定为候选样本数据,对上述候选样本数据进行随机抽样,得到第二数量的扩充样本数据,如图9所示,其示出了本技术一个示例性实施例提供的扩充样本数据确定示意图,目标相似样本组900中包括样本标签a对应的样本数据a910、样本标签b对应的样本数据b920、样本标签c对应的样本数据c930、样本标签d对应的样本数据d940,其中,样本数据a910中包括目标样本数据911,则将样本数据b920、样本数据c930以及样本数据d940共同确定为候选样本数据950,然后从该候选样本数据950进行随机抽样,得到扩充样本数据960。
128.当上述抽样过程是针对样本标签和样本数据的抽样时,先在目标相似样本组对应的除第一样本标签以外的样本标签中确定出候选样本标签,对候选样本标签进行抽样,得到第三数量的目标样本标签,将第三数量的目标样本标签对应的样本数据确定为候选样本数据,其中,上述第三数量可以与第二数量相同,或者小于第二数量,当第三数量和第二数量相同时,可以在每个目标样本标签对应的候选样本数据中均随机抽样出一个样本数据作为扩充样本数据,当第三数量小于第二数量时,可以从第三数量的目标样本标签对应的样本数据共同组成的候选样本数据中随机抽样得到扩充样本数据。如图10所示,其示出了本技术另一个示例性实施例提供的扩充样本数据确定示意图,目标相似样本组1000中包括样本标签a1001对应的样本数据a1010、样本标签b1002对应的样本数据b1020、样本标签c1003对应的样本数据c1030、样本标签d1004对应的样本数据d1040,其中,样本数据a1010中包括目标样本数据1011,则从样本标签b1002、样本标签c1003、样本标签d1004中随机抽样得到第三数量(以2个为例)的候选样本标签1050,候选样本标签1050对应的样本数据即为候选样本数据1060,从上述每个候选样本标签1050对应的候选样本数据1060中分别随机抽样出一个扩充样本数据1070。可选地,上述第三数量的候选样本标签中可以存在相同的样本标
签,也可以是不可重复的样本标签,在此不进行限定。
129.804:响应于目标样本数据属于独立样本组,对样本数据集合进行抽样,获取扩充样本数据。
130.示意性的,样本数据集合中还包括被划分至独立样本组中的独立样本数据,独立样本数据用于指示样本数据集合中样本标签与其他样本数据的样本标签之间不存在相似关系的样本数据。即,上述独立样本数据对应有第三样本标签,其中,第三样本标签与样本数据集合中的其他样本标签之间不存在相似关系。
131.在本技术实施例中,上述从样本数据集合中获取扩充样本数据的获取方式可以是随机抽样获取方式。
132.可选地,上述扩充样本数据对应的样本标签和目标样本数据对应的样本标签可以不同,也可以相同,即,参与随机抽样的样本数据可以包括具有相同标签的样本数据,也可以是仅在除扩充样本数据对应的样本标签之外的样本标签对应的样本数据中抽样得到扩充样本数据。
133.在本技术实施例中,当对样本数据集合中所有相似样本组对应有映射中心标签进行遍历,均未确定出与第一样本标签匹配的映射中心标签时,将目标样本数据确定为独立样本数据,即该目标样本数据属于独立样本组。
134.805:基于目标样本数据和扩充样本数据生成训练样本集合。
135.其中,上述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,目标分类模型用于进行数据分类识别。
136.可选地,为节约硬件资源,训练样本集合可以用于记录目标样本数据和扩充样本数据对应的样本id,当模型训练单元接收到训练样本集合时,根据训练样本集合内的样本id从样本数据集合中获取到对应的训练样本数据,并将训练样本数据输入至候选分类模型进行训练。
137.综上所述,本技术实施例提供的样本数据的处理方法,在对于用于数据分类识别的分类模型进行训练时,当抽样得到的目标样本数据属于由样本标签存在相似关系的样本数据组成的相似样本组时,由目标样本数据和相似样本组中的扩充样本数据共同生成用于分类模型训练的训练样本集合,其中,目标样本数据的第一样本标签与扩充样本数据的第二样本标签之间存在相似关系。即,在被采样到的样本数据在样本数据集合中存在标签相似的其他样本数据时,从标签相似的其他样本数据中获取扩充样本数据,以使得在大规模分类场景下,模型能够充分学习相似标签之间样本数据的差异,从而提升分类模型的模型精度。
138.在本技术实施例中,通过判断抽样得到的目标样本数据属于相似样本组或是属于独立样本组来确定如何获取扩充样本数据,能够同时保证参与训练的样本数据的随机性,以及模型对相似标签之间样本数据差异的学习。同时,在目标样本数据属于目标相似样本组时,通过目标相似样本组对应的相似映射数据确定扩充样本数据,提升了扩充样本数据的确定效率。
139.请参考图11,其示出了本技术一个示例性实施例提供的样本数据的处理方法流程图,在本技术实施例中,对生成样本数据集合的预处理过程进行示意性说明。该方法包括如下步骤。
140.1101:获取目标模型对应的待处理数据。
141.可选地,上述待处理数据可以是由终端设备上传的,也可以在接收到终端设备发送的模型训练请求后,根据模型训练请求从数据库中读取到对应的待处理数据。
142.1102:基于待处理数据对应的样本对象,对待处理数据进行样本标签的标注。
143.上述样本标签用于区分不同样本对象之间的样本数据,其中,一个样本对象对应的样本数据即为分类任务对应的一个分类类别,示意性的,经过标签标注之后,所有待处理数据对应有n个样本标签,即,待处理数据被区分为n个分类类别,n为正整数。
144.在一些实施例中,上述待处理数据对应有样本对象id,服务器为同一样本对象id对应的待处理数据标注上相同的样本标签。示意性的,上述样本标签可以是以数字或字符组成的标签。其中,上述待处理数据对应的样本对象id为待处理数据存储至数据库时即对应存储的信息。
145.1103:基于待处理数据之间样本标签的相似情况,将待处理数据划分至相似样本组或独立样本组。
146.其中,相似样本组由至少两个存在标签相似关系的样本数据组成,而独立样本组用于保存独立样本数据,独立样本数据用于指示其对应的样本标签在样本数据集合中不存在上述相似关系的其他样本标签。
147.示意性的,获取第i个待处理数据和候选待处理数据之间的相似度数据(第i个待处理数据和候选待处理数据对应标注有不同的样本标签),响应于相似度数据满足相似条件,基于第i个待处理数据和候选待处理数据生成第k个相似样本组;或者,响应于相似度数据与相似条件匹配失败,将第i个待处理数据划分至独立样本组,i和k均为正整数。其中,上述相似条件用于确定不同的待处理数据对应样本标签之间的相似情况。
148.在一些实施例中,上述不同样本标签之间样本数据对应的相似度数据由相似度检测模型得到,即,通过将样本数据两两输入至相似度检测模型,能够输出两个样本数据之间的相似度数据。示意性的,上述相似度检测模型与样本数据的数据形式对应,例如,当样本数据的数据形式为图像形式时,相似度检测模型对应为图像相似度检测模型。
149.可选地,可以通过获取两个样本标签之间两两样本数据之间的相似度数据,将对应的相似度数据的均值作为两个样本标签之间的相似度,例如,样本标签a对应有样本数据1和样本数据2,样本标签b对应有样本数据3和样本数据4,则样本标签a和样本标签b之间的相似度可以是通过获取样本数据1和样本数据3之间的相似度数据、样本数据1和样本数据4之间的相似度数据、样本数据2和样本数据3之间的相似度数据、样本数据2和样本数据4之间的相似度数据,对上述四个相似度数据进行求均值得到的。
150.当确定样本标签之间的相似度后,可以将上述相似度与相似条件进行对比,以确定两个样本标签之间的样本数据是否为标签相似数据。可选地,上述相似条件可以是终端设备指示的,也可以是系统预设的,在此不仅限定。在一些实施例中,上述相似条件为将样本标签间的相似度与相似度阈值进行对比,若样本标签间的相似度达到相似度阈值,则确定两个样本标签之间存在相似关系,若样本标签间的相似度未达到相似度阈值,则确定两个样本标签之间不存在相似关系。
151.如图12所示,其示出了本技术一个示例性实施例提供的样本组划分示意图。待处理数据集合1210中包括n个样本标签对应的待处理数据,对待处理数据集合1210根据样本
标签进行遍历,响应于遍历至第i个样本标签1211,根据第i个样本标签1211和待处理数据集合1210中的第j个样本标签1212之间的相似度1201与相似度阈值1202进行对比,若相似度1201大于等于相似度阈值1202,则将第i个样本标签1211对应的待处理数据以及第j个样本标签1212对应的待处理数据,确定为第i个样本标签1211对应的相似样本组1203中的样本数据,若相似度1201小于相似度阈值1202,则将第i个样本标签1211对应的待处理数据划分至独立样本组1204,其中,上述第j个样本标签1212为n个样本标签中除第i个样本标签1211之外的样本标签,i、j、n均为正整数。
152.在另一些实施例中,确定样本标签之间是否存在相似关系还可以基于每对样本数据之间的相似度数据与相似度阈值之间的比较结果来确定,示意性的,初始化计数值为0,确定样本标签之间两两样本数据之间的相似度数据,当该相似度数据达到相似度阈值时,对计数值进行累加,通过统计得到样本标签之间达到相似度阈值的样本数据对的数量,当上述数量达到样本阈值时,则确定两个样本标签之间存在相似关系,当上述数量未达到样本阈值时,则确定两个样本标签之间不存在相似关系。
153.示意性的,以面部识别任务为例,每个样本标签对应的样本数据即为同一个样本对象对应的样本面部图像,通过将不同人之间存在相似面部特征的样本数据生成对应的相似样本组,即,通过相似样本组来保存相似面部特征对应的样本数据。
154.在实际情况中,面部特征相似包括长相相似和姿态/配饰导致相似两种情况。
155.其中,长相相似为不同人之间的面部特征相似,如图13所示,其示出了本技术一个示例性实施例提供的长相相似示意图,人物a1310和人物b1320之间属于长相相似,其中,人物a1310的脸型特征a1311和人物b1320的脸型特征b1321相似,人物a1310的眼型特征a1312和人物b1320的眼型特征b1322相似、人物a1310的唇部特征a1313和人物b1320的唇部特征b1323相似,因此使得整体视觉上人物a1310和人物b1320相似,在面部识别模型对其进行特征提取后,得到的面部特征向量在向量空间内也会是距离相近的(或夹角小的)。长相相似的样本对象之间,其对应的大部分样本面部图像也是相似的,因此可以通过上述样本标签间样本数据整体的相似度来生成相似样本组。
156.而姿态/配饰导致相似则是因姿态或配饰而导致人脸图像之间的相似,如图14所示,其示出了本技术一个示例性实施例提供的姿态/配饰导致相似的示意图,其中,情况一1401为姿态导致相似的情况,人物a1410和人物b1420分别对应的正脸图像a1411和正脸图像b1421之间并不相似,即,面部特征差异较大,但在侧脸姿态下,分别对应的侧脸图像a1412和侧脸图像b1422之间较为相似;情况二1402为配饰导致相似的情况,人物c1430和人物d1440分别对应的正脸图像c1431和正脸图像d1441之间并不相似,但两者均戴有配饰墨镜时,其对应的穿戴配饰脸图像c1432和穿戴配饰脸图像d1442之间较为相似。
157.在姿态/配饰导致相似的情况下,样本对象对应的样本面部图像之间可能整体相似度不高,仅为部分样本面部图像之间的相似。针对上述情况,在生成具有相似关系的样本标签对应的样本数据的相似样本组时,可以根据不同样本标签之间具体样本数据之间的相似情况来生成相似样本组,即,仅将样本标签间相似度数据达到相似度阈值的样本数据生成相似样本组。例如,如图15所示,其示出了本技术一个示例性实施例提供的数据划分示意图,待处理数据中包括样本对象a1510对应的样本面部图像(1~100)1511,样本对象b1520对应的样本面部图像(101~200)1521,样本对象c1530对应的样本面部图像(201~300)
1531,样本对象d1540对应的样本面部图像(301~400)1541,当遍历至样本对象a1510时,将样本对象a1510对应的样本面部图像(1~100)1511分别和样本对象b1520、样本对象c1530、样本对象d1540对应的样本面部图像进行两两对比,确定出相似度数据大于相似度阈值的样本对1501,然后根据上述样本对1501生成样本对象a1510对应的相似样本组1502,相似样本组1502中存储有样本对象a1510对应的样本面部图像(1~100)1511在待处理数据中存在标签相似关系的样本数据,以及样本数据之间的映射关系,样本对象a1510剩余的样本面部图像1512被划分至独立样本组1550。
158.当相似样本组为样本标签之间部分样本数据组成时,相似样本组对应的标识信息则需要记录样本标签id以及互相对应的样本数据之间的样本id以及样本id之间的映射关系。在此情况下,在确定目标样本数据是否属于某一相似样本组时,当根据样本标签确定出某一相似样本组后,还需要将目标样本数据对应的目标样本id和相似样本组内记录的样本数据对应的样本id进行匹配,以确定是否将该相似样本组确定为目标相似样本组。同时,在扩充样本数据的确定过程中,候选样本数据应为目标相似样本组中与目标样本数据对应的样本数据。在一个示例中,根据目标样本数据的第一样本标签确定出候选相似样本组后,确定候选相似样本组中记录的样本id是否包括目标样本数据的目标样本id,若存在,则读取目标样本id对应的样本id映射关系,例如,和目标样本id具有映射关系的样本id包括样本aid、样本did、样本mid,则将上述样本aid对应的样本数据a、样本did对应的样本数据d、样本mid对应的样本数据m确定为候选样本数据,从上述候选样本数据中确定出目标样本数据对应的扩展样本数据。
159.1104:基于相似样本组和独立样本组生成样本数据集合。
160.示意性的,如图16所示,其示出了本技术一个示例性实施例待处理数据划分示意图,对应n个类别的样本标签的待处理数据1610,将不同样本标签对应的待处理数据1610输入至相似度检测模型1620,根据相似度检测模型1620的输出结果将n个类别的样本标签的待处理数据1610划分至相似样本组1630和独立样本组1640,其中,相似样本组1630中包括x个样本标签对应的样本数据,独立样本组1640中包括y个样本标签对应的样本数据,n、x和y均为正整数,且n=x+y。
161.其中,上述相似样本组中的样本组存储有样本标签之间的映射关系,而独立样本组中存储有独立样本数据对应的样本标签,如图17所示,其示出了本技术一个示例性实施例提供的样本数据集合构成示意图,样本数据集合1700中包括相似样本组1710和独立样本组1720,其中,相似样本组1710中包括样本标签间的映射关系,例如,第x1个样本标签与第i个样本标签、第j个样本标签存在相似关系,第x2个样本标签与第i个样本标签存在相似关系;独立样本组1720中包括各个独立样本数据对应的样本标签,例如,第y1个样本标签、第y2个样本标签、第y3个样本标签。
162.综上所述,本技术实施例提供的样本数据的处理方法,根据不同样本标签对应的待处理数据之间的相似度数据将样本标签以及待处理数据划分至相似样本组和独立样本组,由相似样本组和独立样本组共同组成样本数据集合,以用于候选分类模型的训练过程,通过对待处理数据进行预处理后再进行训练样本集合的生成,在保证模型在具有相似关系的样本标签对应的样本数据间的识别精度的情况下,提升了模型整体的训练效率。
163.请参考图18,其示出了本技术一个示例性的实施例提供的样本数据的处理装置结
构框图,该装置包括如下模块:
164.获取模块1810,用于获取样本数据集合,所述样本数据集合中的样本数据标注有样本标签,所述样本数据集合中的样本数据被划分至相似样本组或独立样本组,所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,所述独立样本组中的样本数据对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系;
165.抽样模块1820,用于对所述样本数据集合进行抽样,得到目标样本数据;
166.扩充模块1830,用于响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据;
167.生成模块1840,用于基于所述目标样本数据和所述扩充样本数据生成训练样本集合,所述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,所述目标分类模型用于进行数据分类识别。
168.在一些可选的实施例中,如图19所示,所述扩充模块1830还包括:
169.第一获取单元1831,用于响应于所述目标样本数据属于所述目标相似样本组,获取所述目标相似样本组对应的相似映射数据,所述相似映射数据用于记录所述目标相似样本组中存在所述相似关系的样本标签之间的映射关系;
170.扩充单元1832,用于基于所述相似映射数据从所述目标相似样本组中获取所述扩充样本数据。
171.在一些可选的实施例中,获取候选相似样本组的映射中心标签,所述映射中心标签用于指示所述候选相似样本组对应的相似映射数据所记录的映射关系的映射中心;
172.所述扩充模块1830还包括:
173.确定单元1833,用于响应于所述第一样本标签与所述候选相似样本组的所述映射中心标签匹配,将所述候选相似样本组确定为所述目标相似样本组。
174.在一些可选的实施例中,所述第一获取单元1831,还用于从所述目标相似样本组中获取候选样本数据,所述候选样本数据对应的候选样本标签区别于所述第一样本标签;
175.所述扩充单元1832,还用于从所述候选样本数据中获取所述扩充样本数据。
176.在一些可选的实施例中,所述获取模块1810,还用于获取所述候选分类模型的训练样本容量,所述训练样本容量用于指示所述候选分类模型在一个训练阶段中样本数据的数量要求范围,所述目标模型的训练过程中包括至少一个所述训练阶段;
177.所述装置还包括:
178.确定模块1850,用于基于所述训练样本容量确定第一数量和第二数量,所述第一数量用于指示所述目标样本数据的数量,所述第二数量用于指示与所述目标样本数据对应的所述扩充样本数据的数量。
179.在一些可选的实施例中,所述扩充模块1830,还用于响应于所述目标样本数据属于所述独立样本组,对所述样本数据集合进行抽样,获取所述扩充样本数据。
180.在一些可选的实施例中,所述装置还包括:预处理模块1860;
181.所述预处理模块1860包括:
182.第二获取单元1861,用于获取所述目标模型对应的待处理数据;
183.标注单元1862,用于基于所述待处理数据对应的样本对象,对所述待处理数据进行样本标签的标注,所述样本标签用于区分不同样本对象之间的样本数据;
184.划分单元1863,用于基于所述待处理数据之间样本标签的相似情况,将所述待处理数据划分至相似样本组或独立样本组;
185.生成单元1864,用于基于所述相似样本组和所述独立样本组生成所述样本数据集合。
186.在一些可选的实施例中,所述划分单元1863,还用于获取第i个待处理数据和候选待处理数据之间的相似度数据,所述第i个待处理数据和所述候选待处理数据对应标注有不同的样本标签,i为正整数;
187.所述划分单元1863,还用于响应于所述相似度数据满足相似条件,基于所述目标待处理数据和所述候选待处理数据生成第k个相似样本组,所述相似条件用于确定不同的所述待处理数据对应样本标签之间的相似情况,k为正整数。
188.在一些可选的实施例中,所述划分单元1863,还用于响应于所述相似度数据与所述相似条件匹配失败,将所述第i个待处理数据划分至所述独立样本组。
189.在一些实施例中,所述装置还包括:训练模块1870;
190.所述训练模块1870,包括:
191.输入单元1871,用于将所述训练样本集合中的训练样本数据输入至所述候选分类模型中,输出得到预测分类结果;
192.损失确定单元1862,用于基于所述训练样本数据对应的样本标签与所述预测分类结果之间的差异情况,确定所述预测分类结果的损失值;
193.训练单元1873,用于基于所述损失值对所述候选分类模型进行迭代训练,得到所述目标分类模型。
194.在一些可选的实施例中,所述装置还包括:应用模块1870;
195.所述应用模块1870,包括:
196.第三获取单元1871,用于获取待分类数据,所述待分类数据为需要进行分类识别的数据;
197.分类单元1882,用于通过所述目标分类模型,基于所述待分类数据的数据特征与候选类别之间的匹配关系,确定所述待分类数据对应的目标分类结果。
198.在一些可选的实施例中,当所述目标分类模型为面部识别模型时,所述待分类数据为待识别面部图像;
199.所述分类单元1882,还用于通过所述面部识别模型对所述待识别面部图像进行特征提取,得到面部特征表示;
200.所述分类单元1882,还用于基于所述面部特征表示与候选映射区域之间的匹配关系,从候选身份中确定出目标身份,所述候选映射区域为所述候选身份在特征空间中的映射区域,所述目标身份用于指示所述待识别面部图像中面部特征对应的身份信息;
201.所述分类单元1882,还用于将所述目标身份作为所述目标分类结果进行输出。
202.综上所述,本技术实施例提供的样本数据的处理装置,在对于用于数据分类识别的分类模型进行训练时,当抽样得到的目标样本数据属于由样本标签存在相似关系的样本组时,由目标样本数据和样本组中的扩充样本数据共同生成用于分类模型训练的训练样本集合,其中,目标样本数据的第一样本标签与扩充样本数据的第二样本标签之间存在相似关系。即,在被采样到的样本数据在样本数据集合中存在标签相似的其他样本数据时,从标
签相似的其他样本数据中获取扩充样本数据,以使得在大规模分类场景下,模型能够充分学习相似标签之间样本数据的差异,从而提升分类模型的模型精度。
203.需要说明的是:上述实施例提供的样本数据的处理装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的样本数据的处理装置与样本数据的处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
204.图20示出了本技术一个示例性实施例提供的服务器的结构示意图。具体来讲包括如下结构。
205.服务器2000包括中央处理单元(central processing unit,cpu)2001、包括随机存取存储器(random access memory,ram)2002和只读存储器(read only memory,rom)2003的系统存储器2004,以及连接系统存储器2004和中央处理单元2001的系统总线2005。服务器2000还包括用于存储操作系统2013、应用程序2014和其他程序模块2015的大容量存储设备2006。
206.大容量存储设备2006通过连接到系统总线2005的大容量存储控制器(未示出)连接到中央处理单元2001。大容量存储设备2006及其相关联的计算机可读介质为服务器2000提供非易失性存储。也就是说,大容量存储设备2006可以包括诸如硬盘或者紧凑型光盘只读存储器(compact disc read only memory,cd-rom)驱动器之类的计算机可读介质(未示出)。
207.不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、带电可擦可编程只读存储器(electrically erasable programmable read only memory,eeprom)、闪存或其他固态存储器技术,cd-rom、数字通用光盘(digital versatile disc,dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器2004和大容量存储设备2006可以统称为存储器。
208.根据本技术的各种实施例,服务器2000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器2000可以通过连接在系统总线2005上的网络接口单元2011连接到网络2012,或者说,也可以使用网络接口单元2011来连接到其他类型的网络或远程计算机系统(未示出)。
209.上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由cpu执行。
210.本技术的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的样本数据的处理方法。可选地,该计算机设备可以是终端,也可以是服务器。
211.本技术的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存
储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的样本数据的处理方法。
212.本技术的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的样本数据的处理方法。
213.可选地,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd,solid state drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器(dram,dynamic random access memory)。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
214.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
215.以上所述仅为本技术的可选实施例,并不用以限制本技术,凡在本技术的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。

技术特征:
1.一种样本数据的处理方法,其特征在于,所述方法包括:获取样本数据集合,所述样本数据集合中的样本数据标注有样本标签,所述样本数据集合中的样本数据被划分至相似样本组或独立样本组,所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,所述独立样本组中的样本数据对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系;对所述样本数据集合进行抽样,得到目标样本数据;响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据;基于所述目标样本数据和所述扩充样本数据生成训练样本集合,所述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,所述目标分类模型用于进行数据分类识别。2.根据权利要求1所述的方法,其特征在于,所述响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据,包括:响应于所述目标样本数据属于所述目标相似样本组,获取所述目标相似样本组对应的相似映射数据,所述相似映射数据用于记录所述目标相似样本组中存在所述相似关系的样本标签之间的映射关系;基于所述相似映射数据从所述目标相似样本组中获取所述扩充样本数据。3.根据权利要求2所述的方法,其特征在于,所述响应于所述目标样本数据属于所述目标相似样本组,获取所述目标相似样本组对应的相似映射数据之前,还包括:获取候选相似样本组的映射中心标签,所述映射中心标签用于指示所述候选相似样本组对应的相似映射数据所记录的映射关系的映射中心;响应于所述第一样本标签与所述候选相似样本组的所述映射中心标签匹配,将所述候选相似样本组确定为所述目标相似样本组。4.根据权利要求1至3任一所述的方法,其特征在于,所述从所述目标相似样本组中获取扩充样本数据,包括:从所述目标相似样本组中获取候选样本数据,所述候选样本数据对应的候选样本标签区别于所述第一样本标签;从所述候选样本数据中获取所述扩充样本数据。5.根据权利要求1至3任一所述的方法,其特征在于,所述针对所述样本数据集合中的目标样本数据,响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据之前,还包括:获取所述候选分类模型的训练样本容量,所述训练样本容量用于指示所述候选分类模型在一个训练阶段中样本数据的数量要求范围,所述目标模型的训练过程中包括至少一个所述训练阶段;基于所述训练样本容量确定第一数量和第二数量,所述第一数量用于指示所述目标样本数据的数量,所述第二数量用于指示与所述目标样本数据对应的所述扩充样本数据的数量。6.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:响应于所述目标样本数据属于所述独立样本组,对所述样本数据集合进行抽样,获取
所述扩充样本数据。7.根据权利要求6所述的方法,其特征在于,所述获取样本数据集合,包括:获取所述目标模型对应的待处理数据;基于所述待处理数据对应的样本对象,对所述待处理数据进行样本标签的标注,所述样本标签用于区分不同样本对象之间的样本数据;基于所述待处理数据之间样本标签的相似情况,将所述待处理数据划分至所述相似样本组或所述独立样本组;基于所述相似样本组和所述独立样本组生成所述样本数据集合。8.根据权利要求7所述的方法,其特征在于,所述基于所述待处理数据之间样本标签的相似情况,将所述待处理数据划分至相似样本组或所述独立样本组,包括:获取第i个待处理数据和候选待处理数据之间的相似度数据,所述第i个待处理数据和所述候选待处理数据对应标注有不同的样本标签,i为正整数;响应于所述相似度数据满足相似条件,基于所述目标待处理数据和所述候选待处理数据生成第k个相似样本组,所述相似条件用于确定不同的所述待处理数据对应样本标签之间的相似情况,k为正整数。9.根据权利要求8所述的方法,其特征在于,所述方法还包括:响应于所述相似度数据与所述相似条件匹配失败,将所述第i个待处理数据划分至所述独立样本组。10.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述目标样本数据和所述扩充样本数据生成训练样本集合之后,还包括:将所述训练样本集合中的训练样本数据输入至所述候选分类模型中,输出得到预测分类结果;基于所述训练样本数据对应的样本标签与所述预测分类结果之间的差异情况,确定所述预测分类结果的损失值;基于所述损失值对所述候选分类模型进行迭代训练,得到所述目标分类模型。11.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:获取待分类数据,所述待分类数据为需要进行分类识别的数据;通过所述目标分类模型,基于所述待分类数据的数据特征与候选类别之间的匹配关系,确定所述待分类数据对应的目标分类结果。12.根据权利要求11所述的方法,其特征在于,所述目标分类模型为面部识别模型,所述待分类数据为待识别面部图像;所述通过所述目标分类模型,基于所述待分类数据的数据特征与候选类别之间的匹配关系,确定所述待分类数据对应的目标分类结果,包括:通过所述面部识别模型对所述待识别面部图像进行特征提取,得到面部特征表示;基于所述面部特征表示与候选映射区域之间的匹配关系,从候选身份中确定出目标身份,所述候选映射区域为所述候选身份在特征空间中的映射区域,所述目标身份用于指示所述待识别面部图像中面部特征对应的身份信息;将所述目标身份作为所述目标分类结果进行输出。13.一种样本数据的处理装置,其特征在于,所述装置包括:
获取模块,用于获取样本数据集合,所述样本数据集合中的样本数据标注有样本标签,所述样本数据集合中的样本数据被划分至相似样本组或独立样本组,所述相似样本组由至少两个样本标签之间存在相似关系的样本数据组成,所述独立样本组中的样本数据对应的样本标签与所述样本数据集合中的其他样本标签不存在所述相似关系;抽样模块,用于对所述样本数据集合进行抽样,得到目标样本数据;扩充模块,用于响应于所述目标样本数据属于目标相似样本组,从所述目标相似样本组中获取扩充样本数据;生成模块,用于基于所述目标样本数据和所述扩充样本数据生成训练样本集合,所述训练样本集合用于对候选分类模型进行训练,得到目标分类模型,所述目标分类模型用于进行数据分类识别。14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的样本数据的处理方法。15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行以实现如权利要求1至12任一所述的样本数据的处理方法。16.一种计算机程序产品,其特征在于,包括计算机程序或指令,所述计算机程序或指令被处理器执行时实现如权利要求1至12任一所述的样本数据的处理方法。

技术总结
本申请公开了一种样本数据的处理方法、装置、设备、介质及产品,涉及人工智能领域。该方法包括:获取样本数据集合,样本数据集合中的样本数据被划分至相似样本组或独立样本组;对样本数据集合进行抽样,得到目标样本数据;响应于目标样本数据属于目标相似样本组,从目标相似样本组中获取扩充样本数据;基于目标样本数据和扩充样本数据生成训练样本集合,训练样本集合用于对候选分类模型进行训练,得到目标分类模型。该方法在大规模分类场景下,模型能够充分学习相似标签之间样本数据的差异,从而提升分类模型的模型精度。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。场景。场景。


技术研发人员:蒋进 李宇聪 鞠奇
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.01.28
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐