一种故障数据扩充方法与流程

未命名 09-22 阅读:93 评论:0


1.本技术属于故障诊断与健康管理技术领域,尤其涉及一种故障数据扩充方法。


背景技术:

2.随着现代化生产的发展和科学技术的进步,工业设备的结构越来越复杂,功能越来越完善,自动化程度也越来越高。由于各方面无法避免的因素的影响,有时设备会出现各种各样的故障以致降低或失去预定的功能。因此,利用工业系统中产生的各类数据对设备乃至整个系统进行故障诊断与识别,是维护机械设备乃至整个工业系统的安全性与可靠性的有效手段。
3.在传统技术中,通常直接对设备或者系统的运行数据进行采集,并利用这些直接采集到的数据进行故障诊断。然而,这些直接采集到的数据往往呈现长尾分布的特性,正常数据多,异常数据少,针对异常数据的建模难度大幅增加,这就可能出现故障识别性能下降的问题。


技术实现要素:

4.因此,针对现有技术的以上缺陷,本技术提供了一种故障数据扩充方法、装置、计算机设备、可读存储介质,其目的在于解决故障识别过程中故障数据样本缺失的问题。
5.为实现上述目的,按照本技术的第一个方面,提供了一种故障数据扩充方法,该方法包括:
6.获取第一故障样本集以及第二故障样本集;
7.对于所述第一故障样本集中任一个故障类,计算该故障类中各第一样本与该故障类质心的最大欧式距离,得到与各故障类一一对应的多个最大欧式距离;
8.对于所述第二故障样本集中任一个第二样本,计算所述第二样本与所述第一故障样本集中的部分或所有所述故障类质心的欧式距离,得到与所述故障类一一对应的多个对应所述第二样本的欧式距离;
9.将所述第二样本的欧式距离小于或等于所述最大欧式距离的第二样本,作为与所述第二样本的欧式距离对应的故障类的增广样本,获取所述第一故障样本集的故障增广数据集。
10.优选的,所述第一故障样本集以及所述第二故障样本的获取方式包括:
11.获取第一数据集以及第二数据集;
12.对所述第一数据集进行pca降维得到所述第一故障样本集,对所述第二数据集进行pca降维得到所述第二故障样本集。
13.优选的,第一故障样本集的各故障类质心的获取方式包括:
14.采用k-means算法对所述第一故障样本集进行聚类,得到所述第一故障样本集中的所述故障类及其对应的质心。
15.优选的,上述故障数据扩充方法还包括:
16.对于所述故障增广数据集中任一个少数类,对于所述少数类的中任一个第三样本,计算所述第三样本与所述少数类中除所述第三样本以外的其他所有样本之间的欧氏距离;
17.根据所述第三样本与其他所有样本的欧氏距离,选取若干个所述第三样本的最邻近样本;
18.以预设倍率从所述最邻近样本中进行采样,得到若干个所述第三样本的邻近样本;
19.对所有所述第三样本的邻近样本进行变换,得到所述少数类的故障扩充样本集。
20.优选的,所述对所有所述第三样本的邻近样本进行变换,得到所述少数类的故障扩充样本集,具体包括:
21.对于每个所述第三样本的邻近样本,随机选取一个0到1的自然数乘以所述第三样本与所述邻近样本的距离,再加上所述第三样本,得到所述第三样本的扩充样本组;
22.所有所述第三样本的扩充样本组构成所述少数类的故障扩充样本集。
23.优选的,上述故障数据扩充方法还包括:
24.采用生成对抗网络对所述故障扩充样本集进行数据增强,得到扩充后的故障数据集。
25.按照本技术的第二个方面,还提供了一种故障数据扩充装置,该装置包括:
26.获取模块,用于获取第一故障样本集以及第二故障样本集;
27.第一计算模块,用于对于所述第一故障样本集中任一个故障类,计算该故障类中各第一样本与该故障类质心的最大欧式距离,得到与各故障类一一对应的多个最大欧式距离;
28.第二计算模块,用于对于所述第二故障样本集中任一个第二样本,计算所述第二样本与所述第一故障样本集中的部分或所有所述故障类质心的欧式距离,得到与所述故障类一一对应的多个对应所述第二样本欧式距离;
29.增广样本获取模块,将所述第二样本的欧式距离小于或等于所述最大欧式距离的第二样本,作为与所述第二样本的欧式距离对应的故障类的增广样本,获取所述第一故障样本集的故障增广数据集。
30.优选的,所述获取模块还用于获取第一数据集以及第二数据集,并对所述第一数据集进行pca降维得到所述第一故障样本集,对所述第二数据集进行pca降维得到所述第二故障样本集。
31.按照本技术的第三个方面,还提供了一种计算机设备,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述方法的步骤。
32.按照本技术的第四个方面,还提供了一种计算机可读介质,其存储有可由计算机设备执行的计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述任一项所述方法的步骤。
33.总体而言,通过本发明构思的以上技术方案与现有技术相比,上述故障数据扩充方法、装置、计算机设备和存储介质,通过获取第一故障样本集以及第二故障样本集;对于第一故障样本集中任一个故障类,计算该故障类中各第一样本与该故障类质心的最大欧式
距离,得到与各故障类一一对应的多个最大欧式距离;对于第二故障样本集中任一个第二样本,计算第二样本与第一故障样本集中的部分或所有故障类质心的欧式距离,得到与故障类一一对应的多个对应第二样本的欧式距离;进而将第二样本的欧式距离小于或等于最大欧式距离的第二样本,作为与第二样本的欧式距离对应的故障类的增广样本,获取第一故障样本集的故障增广数据集。这样,利用第一故障样本集与第二故障样本集之间的关联将第一故障样本集进行重构,进而得到第一故障样本集的增广数据集,能够使原本较少的故障数据扩充为更加丰富的故障数据,从而能够为故障识别提供更加完备的数据基础。
附图说明
34.图1是本技术实施例提供的故障数据扩充方法应用场景的架构示意图;
35.图2是本技术实施例提供的故障数据扩充方法的流程示意图;
36.图3是本技术实施例提供的加工作业指导装置的结构框图。
具体实施方式
37.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
38.为了便于理解,本文先对本技术提供的故障数据扩充方法所适用的应用场景进行介绍,参见图1,计算机设备102与传感器组104电性连接。数据存储系统可以存储计算机设备102需要处理的数据。数据存储系统可以集成在计算机设备102上,也可以放在云上或其他网络服务器上。传感器组104采集到第一故障样本集以及第二故障样本集之后,将采集到的第一故障样本集以及第二故障样本集传输至计算机设备102,计算机设备102获取第一故障样本集以及第二故障样本集,对于第一故障样本集中任一个故障类,计算机设备102计算该故障类中各第一样本与该故障类质心的最大欧式距离,得到与各故障类一一对应的多个最大欧式距离;对于第二故障样本集中任一个第二样本,计算机设备102计算第二样本与第一故障样本集中的部分或所有故障类质心的欧式距离,并得到与故障类一一对应的多个对应第二样本的欧式距离;进而计算机设备102将第二样本的欧式距离小于或等于最大欧式距离的第二样本,作为与第二样本的欧式距离对应的故障类的增广样本,并获取第一故障样本集的故障增广数据集。其中,计算机设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。
39.在一个实施例中,如图2所示,提供了一种故障数据扩充方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
40.步骤201,获取第一故障样本集以及第二故障样本集。
41.其中,第一故障样本集是目标阈故障样本集,第二故障样本集是源阈故障样本集,第一故障样本集由多个第一样本组成,第二故障样本集由多个第二样本组成。第一故障样本集和第二故障样本集是传感器组在不同的情况下采集得到的两组数据集。可以理解的是,传感器在第一种情况下采集得到第一故障样本集,在第二种情况下采集得到第二故障样本集。第一和第二只是用于对传感器组在不同情况下采集得到的故障样本集作出命名上
的区分,传感器组采集得到的故障样本集本身不受限制。
42.具体地,传感器组在不同情况下分别采集到第一故障样本集和第二故障样本集之后,将采集到的第一故障样本集以及第二故障样本集传输至计算机设备,计算机设备获取第一故障样本集以及第二故障样本集。
43.步骤202,对于第一故障样本集中任一个故障类,计算该故障类中各第一样本与该故障类质心的最大欧式距离,得到与各故障类一一对应的多个最大欧式距离。
44.具体地,计算机设备获取到第一故障样本集以及第二故障样本集之后,由于第一故障样本集中包含多种故障类,每种故障类中又包含多个第一样本以及故障类质心,因此,对于第一故障样本集中的任一个故障类,首先计算该故障类中各第一样本与该故障类质心之间的欧式距离,进而从该故障类中的各第一样本与该故障类质心之间的欧式距离中确定与该故障类质心对应的最大欧式距离。这样,对于第一故障样本集中的每种故障类,都能得到与各故障类一一对应的多个最大欧式距离。
45.步骤203,对于第二故障样本集中任一个第二样本,计算第二样本与第一故障样本集中的部分或所有故障类质心的欧式距离,得到与各故障类一一对应的多个对应第二样本的欧式距离。
46.具体地,计算机设备确定与第一故障样本集中的各故障类一一对应的多个最大欧式距离之后,对于第二故障样本集中任一个第二样本,都计算该第二样本与第一故障样本集中的部分或所有故障类质心的欧式距离,得到与各故障类一一对应的多个对应第二样本的欧式距离。这样,对于第二故障样本集中每一个第二样本,都能得到与各故障类一一对应的多个对应第二样本的欧式距离。
47.步骤204,将第二样本的欧式距离小于或等于最大欧式距离的第二样本,作为与第二样本的欧式距离对应的故障类的增广样本,获取第一故障样本集的故障增广数据集。
48.具体地,计算机设备得到与第一故障样本集中各故障类一一对应的多个最大欧式距离、以及第二故障样本集中各第二样本与各故障类对应的欧式距离之后,将第二样本与各故障类对应的欧式距离分别与各故障类的对应的最大欧式距离进行比较,若一个第二样本与一个故障类对应的欧式距离小于或等于该故障类对应的最大欧氏距离,则将该第二样本作为该故障类的增广样本。例如:对于第一故障样本集中的其中一个故障类fi,其质心为ci,计算机设备通过步骤202得到了该故障类的最大欧式距离d
maxi
,对于第二故障样本集中的其中一个第二样本xj,计算机设备通过步骤203得到了该第二样本xj与ci之间的欧式距离,进而将第二样本xj与ci之间的欧式距离与fi的最大欧式距离d
maxi
进行比较,若xj与ci之间的欧式距离小于或等于d
maxi
,则将xj作为故障类fi的增广样本。这样,通过将第二故障样本集中各第二样本与各故障类一一对应的欧式距离与各故障类对应的最大欧式距离进行比较和挑选,就能分别得到第一故障样本集中各故障类的增广样本集,各故障类的增广样本集组成第一故障样本集的故障增广数据集。
49.本实施例中,通过获取第一故障样本集以及第二故障样本集;对于第一故障样本集中任一个故障类,计算该故障类中各第一样本与该故障类质心的最大欧式距离,得到与各故障类一一对应的多个最大欧式距离;对于第二故障样本集中任一个第二样本,计算第二样本与第一故障样本集中的部分或所有故障类质心的欧式距离,得到与故障类一一对应的多个对应第二样本的欧式距离;进而将第二样本的欧式距离小于或等于最大欧式距离的
第二样本,作为与第二样本的欧式距离对应的故障类的增广样本,获取第一故障样本集的故障增广数据集。这样,利用第一故障样本集与第二故障样本集之间的关联将第一故障样本集进行重构,进而得到第一故障样本集的增广数据集,能够使原本较少的故障数据扩充为更加丰富的故障数据,从而能够为故障识别提供更加完备的数据基础。
50.在其中一个实施例中,第一故障样本集以及第二故障样本的获取方式包括:获取第一数据集以及第二数据集;对第一数据集进行pca降维得到第一故障样本集,对第二数据集进行pca降维得到第二故障样本集。
51.其中,第一数据集是目标阈数据集,第二数据集是源阈数据集。
52.具体地,第一故障样本集与第二故障样本集可以是对传感器组采集到的数据集进行pca降维后得到的。传感器组在不同情况下采集到第一数据集和第二数据集之后,将第一数据集和第二数据集通过网络传输至计算机设备,计算机设备分别对第一数据集和第二数据集进行pca降维,进而得到第一故障样本集和第二故障样本集。
53.本实施例中,通过对传感器采集到的数据集进行pca降维后再进行故障数据扩充,进而得到低维度的增广样本集,这样利用低维度的增广样本集可以防止后续在进行故障识别的过程中出现过拟合。
54.在其中一个实施例中,计算机设备获取到第一故障样本集之后,采用包括但不限于k-means算法在内相似性度量方法的对第一故障样本集进行聚类,进而得到第一故障样本集中的故障类及其对应的质心。
55.在其中一个实施例中,上述数据扩充方法还包括:对于故障增广数据集中任一个少数类,对于少数类的中任一个第三样本,计算第三样本与少数类中除第三样本以外的其他所有样本之间的欧氏距离;根据第三样本与其他所有样本的欧氏距离,选取若干个第三样本的最邻近样本;以预设倍率从最邻近样本中进行采样,得到若干个第三样本的邻近样本;对所有第三样本的邻近样本进行变换,得到少数类的故障扩充样本集。
56.其中,少数类是增广样本集中增广样本较少的故障类,第三样本是少数类中的增广样本。
57.具体地,计算机设备获取到第一故障样本集的故障增广数据集之后,由于第一故障样本集的故障增广数据集是由各故障类的增广样本集组成的,有些故障类的增广样本集中增广样本较少,对于这些增广样本较少的故障类,可以继续进行数据扩充。首先,对于其中任一个少数类中的任一个第三样本,计算该第三样本与该少数类中除该第三样本以外的其他所有样本之间的欧氏距离,进而根据该第三样本与其他各样本之间的欧氏距离,按照从小到大的顺序从其他各样本中选取若干个距离最小的样本,作为该第三样本的最邻近样本,再以预设采样倍率从最邻近样本中进行采样,得到若干个该第三样本的邻近样本,进而对每个采样得到的该第三样本的邻近样本进行变换,得到该第三样本的扩充样本组。该少数类中所有第三样本的扩充样本组组成该少数类的故障扩充样本集。
58.在其中一个实施例中,对所有第三样本的邻近样本进行变换,得到少数类的故障扩充样本集,具体包括:对于每个第三样本的邻近样本,随机选取一个0到1的自然数乘以第三样本与邻近样本的距离,再加上第三样本,得到第三样本的扩充样本组;所有第三样本的扩充样本组构成少数类的故障扩充样本集。
59.具体地,计算机设备以预设采样倍率从第三样本的最邻近样本中进行采样,得到
若干个第三样本的邻近样本之后,对于任一个采样得到的第三样本的邻近样本,随机选取一个0到1的自然数乘以该邻近样本与对应的第三样本的距离,再加上对应的第三样本本身,就能得到对应的第三样本的扩充样本,这样,对于该第三样本的所有采集到的邻近样本都进行变换,就能得到该第三样本的扩充样本组,从而所有第三样本的扩充样本组构成少数类的故障扩充样本集。
60.上述实施例中,通过对第一故障样本集的故障增广数据集中的少数类中的样本进行变换,可以对这些少数类进一步进行数据扩充,使得原本较少的故障数据更加丰富。
61.在另一个实施例中,计算机设备得到少数类的故障扩充样本集之后,还可以采用生成对抗网络对故障扩充样本集进行数据增强,得到扩充后的故障数据集。这样,能够进一步增加故障扩充样本集中的数据量,从而能够提高后续故障识别模型的泛化能力。
62.下面再以一个具体的实施例来详细说明本技术的故障数据扩充方法:
63.步骤1,获取包含n个传感器的ms个采样的源域数据集x={xi}(1≤i≤ms),每一个xi是由n个传感器的采样数据所构成的n维原始特征向量。设x
fs
={xi}(xi为n维向量)为源阈数据集x中的故障样本集,x
fs
中包含ns类故障。
64.步骤2,对源域数据集进行pca降维,具体地,求取x
t
归一化后协方差矩阵:
[0065][0066]
其中,r是一个n
×
n维矩阵;
[0067]
求取r的特征值和特征向量,并将特征值按照从大到小的顺序排列:
[0068]
λ1≥λ2≥λ3…
≥λn............................................(2)
[0069]
将特征向量按照特征值重新排列后得到:
[0070]
p
nn
=[p1,p2,

,pn].........................................(3)
[0071]
选择特征值累计大于85%的前k个特征进行pca降维,即k满足:
[0072][0073]
求取k个特征值对应的特征向量矩阵p
nk
,源域数据集降维后:
[0074][0075]
其中,包含k个特征值,即为降维后的数据集。
[0076]
步骤3,构建包含md个样本的目标域数据集y={yj}(t表示时间,1≤j≤md),同样的,每一个样本由n个传感器的采样数据所构成的n维原始特征向量。设y
fd
={yj}(yj为n维向量)为数据集y中的故障样本集,y
fd
中包含nd类故障。
[0077]
步骤4,按照步骤2的方法,对目标域数据集进行pca降维,这里直接选取其特征矩阵的前k个特征值对应的特征向量矩阵作为基,得到降维的目标域数据集
[0078]
步骤5,针对中的每一个故障类fi(1≤i≤nd),采用包括但不限于k-means聚类算法在内的相似性度量方法确定该故障类的质心,例如,采用均值计算的方法计算fi在k个维度上的均值作为该故障类的质心ci,并求出该类中欧式距离该质心的最大距离d
maxi

[0079]
步骤6,针对中每一个故障样本xj,如果其距离上述故障类质心ci的欧式距离小于等于dmaxi,则将xj作为fi的增广样本。这样就构建出降维后的目标域数据集的故障增广数据集。
[0080]
步骤7,针对故障增广数据集中的少数类,采用smote算法进行样本扩充。具体地:
[0081]
a)针对少数类中的样本yj,以欧式距离为标准计算它到该少数类样本集中其他所有样本的距离,得到k邻近。
[0082]
b)根据样本不平衡比例设置一个采样比例以确定采样倍率n,针对每一个少数类样本a,从其k近邻中随机选取若干邻近样本。
[0083]
c)对于每一个随机选取的近邻样本b,分别与原样本a按照如下公式构建出新的样本c:
[0084]
c=a+rand(0,1)
×
|a-b|...............................(6)
[0085]
按照上述方法可以获得最终的目标域故障增广数据集,对获取故障增广数据集的可采用迁移学习的方法进行故障识别。
[0086]
本实施例利用已有的源域故障样本中的信息弥补目标域上的小样本故障数据,通过目标域中已有的聚类信息,快速寻找源域中相似的样本进行扩充,降低了不相关信息的干扰,同时对小样本类进行合成新的少数类扩充,尽可能的保证了目标域样本的平衡性。为后期进行的迁移学习故障识别提供了良好的特征分类和数据,可大大降低分类模型的复杂度,提升预测精度和鲁棒性。
[0087]
本技术实施例可广泛应用于大型动力装置健康管理系统中,以帮助实现装置快速故障识别,保证稳定运行。
[0088]
基于同样的发明构思,如图3所示,本技术实施例还提供了一种故障数据扩充装置300,包括:获取模块301、第一计算模块302、第二计算模块303以及增广样本获取模块304,其中:
[0089]
获取模块,用于获取第一故障样本集以及第二故障样本集。
[0090]
第一计算模块,用于对于第一故障样本集中任一个故障类,计算该故障类中各第一样本与该故障类质心的最大欧式距离,得到与各故障类一一对应的多个最大欧式距离。
[0091]
第二计算模块,用于对于第二故障样本集中任一个第二样本,计算第二样本与第一故障样本集中的部分或所有故障类质心的欧式距离,得到与故障类一一对应的多个对应第二样本欧式距离。
[0092]
增广样本获取模块,将第二样本的欧式距离小于或等于最大欧式距离的第二样本,作为与第二样本的欧式距离对应的故障类的增广样本,获取第一故障样本集的故障增广数据集。
[0093]
在其中一个实施例中,获取模块还用于获取第一数据集以及第二数据集,并对第一数据集进行pca降维得到第一故障样本集,对第二数据集进行pca降维得到所述第二故障样本集。
[0094]
在其中一个实施例中,上述故障数据扩充装置还包括聚类模块,聚类模块用于采用k-means算法对所述第一故障样本集进行聚类,得到所述第一故障样本集中的所述故障类及其对应的质心。
[0095]
在其中一个实施例中,上述故障数据扩充装置还包括扩充样本获取模块,扩充样
本获取模块用于对于故障增广数据集中任一个少数类,对于少数类的中任一个第三样本,计算第三样本与少数类中除第三样本以外的其他所有样本之间的欧氏距离;并根据第三样本与其他所有样本的欧氏距离,选取若干个第三样本的最邻近样本;进而以预设倍率从最邻近样本中进行采样,得到若干个第三样本的邻近样本;并对所有第三样本的邻近样本进行变换,得到少数类的故障扩充样本集。
[0096]
在其中一个实施例中,上述扩充样本获取模块还用于对于每个第三样本的邻近样本,随机选取一个0到1的自然数乘以第三样本与邻近样本的距离,再加上第三样本,得到第三样本的扩充样本组;所有第三样本的扩充样本组构成少数类的故障扩充样本集。
[0097]
在其中一个实施例中,上述故障数据扩充装置还包括数据增强模块,用于采用生成对抗网络对故障扩充样本集进行数据增强,得到扩充后的故障数据集。
[0098]
关于故障数据扩充装置的具体限定可以参见上文中对于故障数据扩充方法的限定,在此不再赘述。上述故障数据扩充装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于混合现实设备中的处理器中,也可以以软件形式存储于混合现实设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0099]
本说明书中所描述的内容仅仅是对本发明所作的举例说明,本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

技术特征:
1.一种故障数据扩充方法,其特征在于,包括:获取第一故障样本集以及第二故障样本集;对于所述第一故障样本集中任一个故障类,计算该故障类中各第一样本与该故障类质心的最大欧式距离,得到与各故障类一一对应的多个最大欧式距离;对于所述第二故障样本集中任一个第二样本,计算所述第二样本与所述第一故障样本集中的部分或所有所述故障类质心的欧式距离,得到与所述故障类一一对应的多个对应所述第二样本的欧式距离;将所述第二样本的欧式距离小于或等于所述最大欧式距离的第二样本,作为与所述第二样本的欧式距离对应的故障类的增广样本,获取所述第一故障样本集的故障增广数据集。2.根据权利要求1所述的故障数据扩充方法,其特征在于,所述第一故障样本集以及所述第二故障样本的获取方式包括:获取第一数据集以及第二数据集;对所述第一数据集进行pca降维得到所述第一故障样本集,对所述第二数据集进行pca降维得到所述第二故障样本集。3.根据权利要求1所述的故障数据扩充方法,其特征在于,第一故障样本集的各故障类质心的获取方式包括:采用k-means算法对所述第一故障样本集进行聚类,得到所述第一故障样本集中的所述故障类及其对应的质心。4.根据权利要求1所述的故障数据扩充方法,其特征在于,还包括:对于所述故障增广数据集中任一个少数类,对于所述少数类的中任一个第三样本,计算所述第三样本与所述少数类中除所述第三样本以外的其他所有样本之间的欧氏距离;根据所述第三样本与其他所有样本的欧氏距离,选取若干个所述第三样本的最邻近样本;以预设倍率从所述最邻近样本中进行采样,得到若干个所述第三样本的邻近样本;对所有所述第三样本的邻近样本进行变换,得到所述少数类的故障扩充样本集。5.根据权利要求4所述的故障数据扩充方法,其特征在于,所述对所有所述第三样本的邻近样本进行变换,得到所述少数类的故障扩充样本集,具体包括:对于每个所述第三样本的邻近样本,随机选取一个0到1的自然数乘以所述第三样本与所述邻近样本的距离,再加上所述第三样本,得到所述第三样本的扩充样本组;所有所述第三样本的扩充样本组构成所述少数类的故障扩充样本集。6.根据权利要求4或5所述的故障数据扩充方法,其特征在于,还包括:采用生成对抗网络对所述故障扩充样本集进行数据增强,得到扩充后的故障数据集。7.一种故障数据扩充装置,其特征在于,包括:获取模块,用于获取第一故障样本集以及第二故障样本集;第一计算模块,用于对于所述第一故障样本集中任一个故障类,计算该故障类中各第一样本与该故障类质心的最大欧式距离,得到与各故障类一一对应的多个最大欧式距离;第二计算模块,用于对于所述第二故障样本集中任一个第二样本,计算所述第二样本与所述第一故障样本集中的部分或所有所述故障类质心的欧式距离,得到与所述故障类一
一对应的多个对应所述第二样本欧式距离;增广样本获取模块,将所述第二样本的欧式距离小于或等于所述最大欧式距离的第二样本,作为与所述第二样本的欧式距离对应的故障类的增广样本,获取所述第一故障样本集的故障增广数据集。8.根据权利要求7所述的故障数据扩充装置,其特征在于,所述获取模块还用于获取第一数据集以及第二数据集,并对所述第一数据集进行pca降维得到所述第一故障样本集,对所述第二数据集进行pca降维得到所述第二故障样本集。9.一种计算机设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行权利要求1~6任一项所述方法的步骤。10.一种计算机可读介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~6任一项所述方法的步骤。

技术总结
本申请公开了一种故障数据扩充方法、装置、计算机设备及刻度介质,该方法包括:获取第一故障样本集以及第二故障样本集;计算第一故障样本集中各故障类中各第一样本与该故障类质心的最大欧式距离;计算第二故障样本集中任一个第二样本与第一故障样本集中的部分或所有故障类质心的欧式距离,得到与故障类一一对应的多个对应第二样本的欧式距离;进而将第二样本的欧式距离小于或等于对应故障类的最大欧式距离的第二样本,作为与第二样本的欧式距离对应的故障类的增广样本,获取第一故障样本集的故障增广数据集。采用本方法能够使原本较少的故障数据扩充为更加丰富的故障数据,从而能够为故障识别提供更加完备的数据基础。能够为故障识别提供更加完备的数据基础。能够为故障识别提供更加完备的数据基础。


技术研发人员:柴文婷 郑伟 熊卿 冯毅 孙衢骎 柯志武 周宏宽 李献领 吕伟剑 廖梦然 马灿 李少丹 苟金澜 陈朝旭
受保护的技术使用者:中国船舶集团有限公司第七一九研究所
技术研发日:2023.06.02
技术公布日:2023/9/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐