一种表观缺陷跨域分类识别的负迁移抑制方法

未命名 09-20 阅读:116 评论:0


1.本发明属于机器视觉及工业自动化技术领域,具体涉及一种表观缺陷跨域分类识别的负迁移抑制方法。


背景技术:

2.注塑制品表面质量影响因素众多,与工艺参数、加工环境、冷却条件和后处理工艺密切相关,易产生各种缺陷,又因其缺陷形成原理复杂,难以量化,表面缺陷识别一直是一个难题,因此往往通过借用其他领域的数据进行迁移学习,来高效自动地实现表面缺陷检测任务。
3.但不同数据域之间的关联程度,是限制迁移学习更广泛应用的一个重要因素。如果两个域之间的关联度很小,那么从源域学习的知识的作用会十分有限,甚至产生负面影响,即负迁移现象。进行跨域迁移学习时,不同领域之间的数据分布差异很大,无法有效从源域中提取与目标域对应的特征,导致跨迁移的实行难度很大。
4.因此如何使用已有的远距离数据源,提取对应特征,将其正确地迁移到目标域上,并有效避免负迁移,提升迁移学习的效率和准确性,对迁移学习的发展和工业自动化技术的发展具有重要的意义。


技术实现要素:

5.本发明为解决上述远距离迁移过程中负迁移程度过大,迁移学习准确率和效率低的问题,提出了一种表观缺陷跨域分类识别的负迁移抑制方法。
6.针对金属制品表面缺陷的特征稀疏的特点,采用简化的hog特征对表面缺陷进行描述;基于该特征,采用双重聚类的方法将源域的训练划分成若干个中间域,从而完成传递式的迁移学习任务。
7.本发明的技术方案包括如下步骤:
8.步骤1:使用hog进行源域和目标域的特征提取,获得低维向量描述的图像集;
9.步骤2:基于k均值双重聚类算法对目标域与源域进行缺陷特征划分;
10.步骤3:使用无监督的前向传播神经网络和监督学习构建自动编码器,用于捕捉输入数据的重要特征,并通过迭代的方式根据源域和中间域的数据集更新自动编码器的参数;
11.本文源域为金属制品,目标域为注塑制品,根据权值w,从源域和中间域中筛选出不符合目标域的样本,抑制不符合目标域样本的数据对迁移学习效果的干扰,保证目标域上的模型学习到有利的知识,从而完成远距离迁移过程;
12.步骤4:构建基于多领域和自适应算法的多目标域任务泛化模型。
13.通过从多领域进行知识迁移,使学习到的模型可以在目标域上达到更好的效果,基于训练样本域目标域的距离来衡量它们的损失,通过多个领域的知识迁移,使最终模型可以通过源域的特征给目标域上的数据进行准确的标注。
14.所述步骤1)具体为:
15.1.1)输入源域和目标域中的图片;
16.源域为已完成缺陷标注的金属制品图像集及其他材料制品图像集,目标域为待识别缺陷的注塑制品图像;
17.1.2)对图像进行灰度化,根据灰度范围去除灰度信息在设定范围外即缺陷特性作用小的rgb信息;
18.1.3)对图像进行归一化操作,以降低图像噪声(局部阴影、光照变化、光照强度的影响)对结果的影响;
19.1.4)遍历图像中的像素点,计算图像中像素点的梯度方向值,获取图像的缺陷和边缘信息,弱化噪声的影响;
20.1.5)将图像分割为若干个小的单元区块,对单元区块内每个像素,在梯度方向的直方图上进行加权投影,从而得到各个单元区块的梯度方向直方图;
21.本文选取的单元区块的大小为20*20,将二维的信号转化为一维的向量,使用这些直方图的组合来表征图像中的目标(缺陷)。
22.1.6)记录每个单元区块梯度幅值的均值,选取梯度幅值最大的单元区块作为图像的特征(以实现区域的合并),获得使用低维向量描述的图像,完成源域和目标域中图像的主要特征提取。
23.所述步骤2)具体为:
24.2.1)根据目标域和源域的缺陷种类的数量,确定k的大小,k表示缺陷类别数;
25.2.2)确定实验参数:聚类簇数为k,迭代次数为t1,t2;t1,t2分别作为聚类1和聚类2的迭代次数;
26.2.3)从样本集d中随机选择k张图像作为初始源域均值向量集{μ1,μ2,

,μi,

,μk};
27.其中,μi为k张图像中的第i张图像;样本集d为步骤1)获得的源域中的低维向量描述的图像集,样本集d为述的图像集,样本集d为为样本集d中的第j张图像,m为图像的数量,j∈{1,2,

,m};
28.2.4)聚类一:遍历样本集d,计算样本集d中的样本与各源域均值向量的距离:
[0029][0030]
根据源域均值向量确定样本集的簇c={c1,c2,

,ci,

,ck}及簇标注,根据距离最近原则,即d
ji
最小,将样本划入最近的源域均值向量对应的簇c样本中;
[0031]
源域均值向量集的初始量为步骤2.3)得到的初始源域均值向量集{μ1,μ2,

,μi,

,μk};
[0032]
2.5)通过下式更新步骤2.4)的源域均值向量:
[0033][0034]
得到新的源域均值向量集{μ
′1,μ
′2,


′i,


′k};
[0035]
2.6)重复t1次步骤2.4)和2.5),获得更新后的源域均值向量集
并输出更新后的簇簇c包含全部的
[0036]
2.7)聚类二:遍历样本集e,计算样本集e中的新样本与步骤2.6)中更新后的源域均值向量集的距离:
[0037][0038]
其中,样本集e为步骤1)获得的目标域中的低维向量描述的图像集,样本集e为其中,样本集e为步骤1)获得的目标域中的低维向量描述的图像集,样本集e为为样本集e中第p张图像,p∈{1,2,

,l};
[0039]
的初始量为源域均值向量集中的第i个样本第n次迭代时,为均值向量集中的第i个样本
[0040]
根据源域均值向量集确定新样本集的簇a={a1,a2,
…ak
}及簇标记,根据距离最近原则,即d
pi
最小,将样本划入最近的均值向量对应的簇a样本中:
[0041]
2.8)计算所有样本与源域均值向量的距离的均值:
[0042][0043]
获得的均值向量集用于更新源域均值向量集
[0044]
2.9)重复t2次步骤2.7)和2.8),获得最终更新后的均值向量集输出k个聚类簇完成目标域和源域的缺陷特征分类。
[0045]
所述步骤3)中,输入的数据分别为带有簇标记的源域数据集s、目标域数据集t和中间域数据集i:
[0046]
i.带有簇标记的源域数据集数据集s即为步骤2中根据初始均值向量{μ1,μ2,

,μi,

,μk}确定的带有簇标记的簇集合大小为ns=k;
[0047]
其中,为原属于样本集d但计算均值向量后划入带有簇标记的簇c中的
[0048]
ii.设定目标域数据集为:集合大小n
t
=l;
[0049]
其中,为样本集e中的
[0050]
iii.设定中间域数据集i为:
[0051][0052]
其中,ij为步骤2)中更新后的簇中第j个样本,j∈{1,2,

,k};分别为样本i1、ij、ik的集合大小。
[0053]
所述步骤3)中,自动编码器的构成具体包括以下步骤:
[0054]
3.1)设定目标函数对自动编码器进行无监督学习训练:
[0055][0056]
其中,ns和n
t
分别为源域数据集s和目标域数据集t的集合大小,为聚类一后的中间域集合大小;和分别为源域、目标域和中间域重构数据;表示带有簇标记的簇c中的样本;表示目标域数据集中的样本;表示中间域数据集中样本ij中的
[0057]
λx为目标域重构误差的权重系数;
[0058]
τ

={τ
′1,τ
′2,


′j,


′k}是用于表示不同中间域重要性的因子,τ
′j∈[0,1];
[0059]
re(ws,wi)是正则化项【,为了控制源域和中间域的样本选择因子不全为0,保证能筛选出足够数量的数据用于知识迁移,目标函数中的正则项】定义为:
[0060][0061]
其中,ws为源域样本选择因子
[0062][0062]
为中间域样本选择因子且
[0063]
λs、λi均为超参数,用于控制正则项对整体的影响程度;
[0064]
通过以上的目标优化,自动编码器可以学习到具有更鲁棒性的编码解码函数和隐含特征表示,可以从源域、中间域内筛选出更有用的数据。
[0065]
3.2)为解决无监督学习导致的,样本的隐含特征域分类任务不够相关的问题,增加监督学习,另提出一个最小化损失函数:
[0066][0067]
其中,l(
·
)表示多分类交叉熵损失函数,f
cls
(
·
)表示模对括号内样本预测的分类结果;
[0068]
3.3)联合步骤3.1)和步骤3.2)两个目标函数,获得最终的解决远距离迁移学习的目标函数:
[0069][0070]
其中,w={ws,wi},θ为自动编码器的参数,τ

={τ
′1,τ
′2,


′j,


′k}
[0071]
3.4)设定迭代epoch,分两步迭代更新自动编码器的三个参数:
[0072]
通过反向传播,随机梯度下降更新参数θ;
[0073]
固定参数θ,更新选择因子w,τ


[0074]
从而完成自动编码器的训练。
[0075]
所述步骤3.4)具体为:
[0076]
3.4.1)输入训练数据集s、t、i,以及设定对应的超参数λs、λ
t
、λi;
[0077]
3.4.2)采用源域的数据初始化cnn网络参数:
[0078]
θ,
[0079]
3.4.3)自动编码器参数迭代更新:
[0080]
构建cnn网络,通过下述方法分步确定参数:
[0081]
先固定选择因子w,τ

,用反向传播,随机梯度下降的方式优化cnn参数θ;
[0082]
再固定cnn参数θ,更新选择因子w,τ


[0083][0084][0085][0086]
其中,sigmoid函数为激活函数。
[0087]
所述步骤4)具体为:
[0088]
4.1)确定源域:
[0089]
以金属制品的缺陷数据域为源域,获得n个源域,所有源域包括m张图像;
[0090]
将源域根据标签类别划分为k个类别,每个类别的集合大小为mj=βjm;
[0091]
其中,mj表示第j个源域的图像数量,j∈{1,2,

,k};β={β1,β2,

,βk},β中所有元素之和为1;
[0092]
4.2)定义多领域联合经验误差:
[0093]
根据目标域和源域上的联合泛化误差,定义多个中间域的联合泛化误差;
[0094]
给定一个向量给定一个向量中所有元素之和为1,即
[0095]
则多领域的联合经验误差表示为:
[0096][0097]
则多领域的联合泛化误差表示为:
[0098][0099]
其中,表示基于假设h的单领域经验误差,εj(h)表示基于假设h的单领域泛化误差,h为本文自动编码器可准确识别目标域中图片缺陷的假设;
[0100]
4.3)定义单个源域的概率模型:
[0101]
每个源域分布的权重和经验误差的权重相同;对于任意的j∈{1,2,

,n},sj表示大小为βjm的标记数据集合即为源域的数据域样本,从dj中抽样得到;dj为d
α
中的样本,d
α
表示n个源域的混合分布
[0102]
对于特定的一个权重αj,和εj(h)分别表示假设h在数据域sj上的经验误差和泛化误差;则:
[0103][0104]
其中,ε为无限接近零的数值;
[0105]
通过取概率最小,使经验误差和泛化误差最接近;最小,使经验误差和泛化误差最接近;取到最小值的条件为αj=βj,此时模型的泛化能力最好;
[0106]
4.4)确定样本训练总数,并进行模型训练:
[0107]
训练样本的总数为:
[0108][0109]
则αj和βj的目标值为:
[0110][0111]
将αj=βj作为再次训练步骤3)自动编码器模型的约束条件,在训练时使αj和βj逼近目标值使模型在训练样本上的泛化能力更好;m越大时,模型的泛化误差与经验误差越接近;
[0112]
通过训练得到基于多领域和自适应算法的多目标域任务泛化模型。
[0113]
本发明的有益效果:
[0114]
本发明基于hog的特征提取法,能将图像二维的信号转化为一维的向量,提升聚类的划分准确率、减少计算复杂度;
[0115]
本发明基于k均值法的双重聚类,其特征在于能通过双重聚类的方法将源域的训练划分成若干个中间域,从而完成传递式的迁移学习任务,抑制负迁移的发生;
[0116]
本发明基于多领域和自适应算法的多目标域任务泛化模型,其特征在于获得多个远距离源域的特征,提高模型的泛化能力,降低非目标域上的训练数据,一定程度上减小了模型在目标域任务上的泛化误差,抑制了负迁移的发生。
附图说明
[0117]
图1为梯度方向划分图;
[0118]
图2为图像的hog特征提取;
[0119]
图3为k值与模型准确度关系图;
[0120]
图4为cnn网络架构;
[0121]
图5为迁移学习的效果图,(a)对应“凹痕”缺陷,(b)对应“飞边”缺陷。
具体实施方式
[0122]
下面结合附图和实施例对本发明作进一步说明、
[0123]
步骤1:使用hog进行源域和目标域特征提取:
[0124]
通过将整幅图像划分成若干个小单元区块,每个单元区块生成一个方向梯度直方图,提取图像的特征并计算权重;
[0125]
本文选取的单元区块的大小为20*20,将二维的信号转化为一维的向量,使用这些直方图的组合来表征图像中的目标(缺陷)。
[0126]
步骤1中基于hog的特征提取法具体包括以下步骤:
[0127]
1.1输入源域和目标域中的图片;
[0128]
1.2对图像进行灰度化,根据灰度范围去除缺陷特性作用小(特定范围外的灰度信息)的rgb信息;
[0129]
1.3降低图像噪声(局部阴影,光照变化,光照强度的影响)对结果的影响,将整个图像进行归一化;
[0130]
1.4遍历图像中的像素点,计算图像中像素点的梯度方向值,获取图像的缺陷和边缘信息,弱化噪声的影响;
[0131]
1.5将图像分割为小的单元区块,对单元区块内在每个像素梯度方向的直方图上进行加权投影,从而得到该单元区块的梯度方向直方图。
[0132]
1.6记录每个单元区块梯度幅值的均值,选取梯度幅值最大的单元区块作为图像的特征(从而实现区域的合并),获得使用低维向量描述的图像,完成图像主要特征的提取。
[0133]
如图1所示,将其表征为9维特征图;hog特征提取流程如图2所示。
[0134]
步骤2:基于k均值法的双重聚类:利用步骤1获得的合并区域,基于k均值法将源域数据集中的样本划分簇划分c={c1,c2,

,ck},且使得以下的平方误差最小:
[0135][0136]
其中是簇ci的均值向量。
[0137]
步骤2中的k均值双重聚类算法具体包括以下步骤:
[0138]
2.1根据目标域和源域的缺陷种类的数量,确定k的大小,k表示缺陷类别数;
[0139]
2.2输入样本集:
[0140]
样本集为步骤1)获得的源域中的低维向量描述的图像集;为样本集d中的第j张图像,m为图像的数量;
[0141]
2.3确定实验参数:聚类簇数k,迭代次数t1,t2;
[0142]
2.4从样本集d中随机选择k张图像作为初始均值向量{μ1,μ2,

,μi,

,μk};
[0143]
μi为从低维向量描述的图像集中选取的一张图像;
[0144]
2.5聚类一:遍历样本集d,计算样本与各初始均值向量的距离:
[0145][0146]
根据初始均值向量{μ1,μ2,

,μi,

,μk}确定样本集的簇{c1,c2,

,ck}其标注,根据距离最近原则将样本划入相应的簇:
[0147]
2.6根据2.5计算新的均值向量:
[0148][0149]
2.7聚类二:遍历样本集e:计算新样本与各新均值向量的距离:
[0150][0151]
样本集e为步骤1)获得的目标域中的低维向量描述的图像集;
[0152]
计算样本与各个新均值向量的距离的均值:
[0153][0154]
根据新均值向量确定新样本集的簇及其标注,根据距离均值最近原则将样本划入相应的簇:
[0155]
2.8输出n个聚类簇a1,a2,
…ak

[0156]
如图3所示为k值选取对模型准确率的影响。
[0157]
步骤3:构建负迁移抑制策略:设定如下三个数据集合:
[0158]
i.从步骤2中获得的带有簇标记的源域数据集其集合大小为ns;
[0159]
其中,为样本集d中的
[0160]
ii.设定目标域数据集为:其大小为n
t

[0161]
其中,为样本集e中的
[0162]
iii.设定中间域数据集为:
[0163][0163][0163]
足够大;其中:
[0164]
ps(x)≠p
t
(x)≠pi(x),pi(y|x)≠ps(y|x)
[0165]
使用无监督的前向传播神经网络和监督学习构建一种自动编码器,用于捕捉输入数据的重要特征,并通过迭代的方式根据源域和中间域的数据集更新自动编码器的参数,根据权值w,从源域和中间域中筛选出不符合目标域的样本,抑制这类数据对迁移学习效果的干扰,保证目标域上的模型学习到有利的知识,从而完成远距离迁移过程;
[0166]
步骤3中的自动编码器具体包括以下步骤:
[0167]
3.1.设定目标函数对自动编码器进行无监督学习训练:
[0168][0169]
其中,ns和n
t
分别为源域和目标域的集合大小,为聚类一后的中间域集合大小,为聚类一后的中间域集合大小,和分别为不同领域的自编码器重构数据;
[0170]ws
,是源域和中间域的样本选择因子;
[0171][0171]

[0172]
λ
t
为目标域重构误差的权重系数。
[0173]
τ

={τ
′1,τ
′2,


′j,


′k}是用于表示不同中间域重要性的因子,τ
′j∈[0,1]。末尾的re(ws,wi)是正则化项,为了控制这些域的选择因子不全为0,保住能筛选出足够数量的数据用于知识迁移,目标函数中的正则项定义为:
[0174][0175]
其中,λs、λi都是超参数,用于控制正则项的对整体的影响程度。通过以上的目标优化,自编码器可以学习到具有更鲁棒性的编码解码函数和隐含特征表示,可以从源域、中间域内筛选出更有用的数据。
[0176]
3.2为解决无监督学习导致样本地隐含特征域分类任务不够相关地问题增加监督学习,另外提出一个最小化损失函数:
[0177][0178]
其中,l(
·
)表示多分类交叉熵损失函数,f
cls
(
·
)表示模型对某个样本预测的分类结果。
[0179]
3.3联合两个目标函数,获得最终的解决远距离迁移学习的目标函数:
[0180][0181]
其中,w={ws,wi},θ为自动编码器的参数,τ

={τ
′1,τ
′2,


′j,


′k}
[0182]
3.4自动编码器参数迭代更新:
[0183]
构建cnn网络,如图4所示,取两个板块,其中一个板块为w、τ

,另一个板块为θ。当选择因子w,τ

固定时,用反向传播的方式优化参数θ;
[0184]
反之,当cnn参数θ固定时,用如下方法迭代w,τ


[0185][0186][0187][0188]
其中sigmoid函数为激活函数。
[0189]
步骤3.4具体为:
[0190]
3.4.1输入训练数据s、t、i,以及设定对应的超参数λs、λ
t
、λi;
[0191]
3.4.2采用源域的数据初始化网络参数:
[0192]
θ,
[0193]
3.4.3设定迭代epoch,分两步更新三个参数:
[0194]
通过反向传播,随机梯度下降更新参数θ;
[0195]
固定参数θ,更新选择因子w,τ


[0196][0197][0198][0199]
3.4.4.输出训练完的自动编码器。
[0200]
步骤4:构建基于多领域和自适应算法的多目标域任务泛化模型:通过从多领域进
行知识迁移,使学习到的模型可以在目标域上达到更好的效果,基于训练样本域目标域的距离来衡量它们的损失,通过多个领域的知识迁移,使最终模型可以通过源域的特征给目标域上的数据进行准确的标注。
[0201]
步骤4中基于自适应算法的多目标域任务泛化模型具体包括以下几个步骤:
[0202]
4.1确定源域:
[0203]
n个独立的数据域为源域,每一个数据与目标域sj有一个对应的数据分布dj。总共有m个标记的数据,每一个数据域的集合大小为mj=βjm;
[0204]
4.2定义多领域联合经验误差:
[0205]
根据目标域和源域上的联合泛化误差,定义多个数据域的联合泛化误差,给定一个向量所有元素之和为1,即则多领域的联合经验误差表示为:
[0206][0207]
则多领域的联合泛化误差表示为:
[0208][0209]
其中,表示基于编码函数h的单领域经验误差,εj(h)表示基于编码函数h的单领域泛化误差;
[0210]
4.3定义单个源域的概率模型:
[0211]
使用d
α
来表示n个数据域的混合分布,每个数据域分布的权重和经验误差的权重相同。对于任意的j∈{1,2,

,n},sj表示大小为βjm的标记数据集合,从dj中抽样得到。对于特定的一个权重向量和εj(h)分别表示编码函数h在数据域上的经验误差和泛化误差。则:
[0212][0213]
使经验误差和泛化误差最接近,概率需取最小,需取最小,能取到最小值条件是αj=βj,模型的泛化能力最好。ε为无限接近零的数值。
[0214]
4.4确定样本训练总数,并进行模型训练:
[0215]
训练样本的总数为
[0216][0217]
则αj和βj的目标值为:
[0218][0219]
步骤4.3)作为再次训练步骤3)自动编码器模型的约束条件,在训练时使αj和βj逼近目标值,使模型3)在训练样本上的泛化能力更好。
[0220]
将4.1的源域样本输入对模型进行拟合训练,m越大时,模型的泛化误差与经验误差越接近。通过训练得到最终模型。
[0221]
将需要测试的注塑制品图片输入到训练好的模型中,输出注塑制品图片缺陷识别图,实现效果如图5所示。
[0222]
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

技术特征:
1.一种表观缺陷跨域分类识别的负迁移抑制方法,其特征在于,包括以下步骤,步骤1:使用hog进行源域和目标域的特征提取,获得低维向量描述的图像集;步骤2:基于k均值双重聚类算法对目标域与源域进行缺陷特征划分;步骤3:使用无监督的前向传播神经网络和监督学习构建自动编码器,用于捕捉输入数据的重要特征,并通过迭代的方式根据源域和中间域的数据集更新自动编码器的参数;步骤4:构建基于多领域和自适应算法的多目标域任务泛化模型。2.根据权利要求1所述的一种表观缺陷跨域分类识别的负迁移抑制方法,其特征在于,所述步骤1)具体为:1.1)输入源域和目标域中的图片;源域为已完成缺陷标注的金属制品图像集,目标域为待识别缺陷的注塑制品图像;1.2)对图像进行灰度化,根据灰度范围去除灰度信息在设定范围外的rgb信息;1.3)对图像进行归一化操作;1.4)遍历图像中的像素点,计算图像中像素点的梯度方向值;1.5)将图像分割为若干个小的单元区块,对单元区块内每个像素,在梯度方向的直方图上进行加权投影,从而得到各个单元区块的梯度方向直方图;1.6)记录每个单元区块梯度幅值的均值,选取梯度幅值最大的单元区块作为图像的特征,获得使用低维向量描述的图像,完成源域和目标域中图像的主要特征提取。3.根据权利要求1所述的一种表观缺陷跨域分类识别的负迁移抑制方法,其特征在于,所述步骤2)具体为:2.1)根据目标域和源域的缺陷种类的数量,确定k的大小,k表示缺陷类别数;2.2)确定实验参数:聚类簇数为k,迭代次数为t1,t2;2.3)从样本集d中随机选择k张图像作为初始源域均值向量集{μ1,μ2,


i
,


k
};其中,μ
i
为k张图像中的第i张图像;样本集d为步骤1)获得的源域中的低维向量描述的图像集,样本集d为图像集,样本集d为为样本集d中的第j张图像,m为图像的数量,j∈{1,2,

,m};2.4)聚类一:遍历样本集d,计算样本集d中的样本与各源域均值向量的距离:根据源域均值向量确定样本集的簇c={c1,c2,

,c
i
,

,c
k
}及簇标注,根据距离最近原则,即d
ji
最小,将样本划入最近的源域均值向量对应的簇c样本中;源域均值向量集的初始量为步骤2.3)得到的初始源域均值向量集{u1,μ2,


i
,


k
};2.5)通过下式更新步骤2.4)的源域均值向量:得到新的源域均值向量集{μ
′1,μ
′2,



i
,



k
};2.6)重复t1次步骤2.4)和2.5),获得更新后的源域均值向量集
并输出更新后的簇簇c包含全部的2.7)聚类二:遍历样本集e,计算样本集e中的新样本与步骤2.6)中更新后的源域均值向量集的距离:其中,样本集e为步骤1)获得的目标域中的低维向量描述的图像集,样本集e为其中,样本集e为步骤1)获得的目标域中的低维向量描述的图像集,样本集e为为样本集e中第p张图像,p∈{1,2,

,l};根据源域均值向量集确定新样本集的簇a={a1,a2,

a
k
}及簇标记,根据距离最近原则,即d
pi
最小,将样本划入最近的均值向量对应的簇a样本中:计算样本集e中所有样本与源域均值向量的距离的均值:获得的均值向量集用于更新源域均值向量集2.8)重复t2次步骤2.7),获得最终更新后的均值向量集输出k个聚类簇完成目标域和源域的缺陷特征分类。4.根据权利要求1所述的一种表观缺陷跨域分类识别的负迁移抑制方法,其特征在于,所述步骤3)中,输入的数据分别为带有簇标记的源域数据集s、目标域数据集t和中间域数据集i:i.带有簇标记的源域数据集数据集s即为步骤2中根据初始均值向量{μ1,μ2,


i
,


k
}确定的带有簇标记的簇集合大小为n
s
=k;其中,为原属于样本集d后划入带有簇标记的簇c中的ii.设定目标域数据集为:集合大小n
t
=l;其中,为样本集e中的iii.设定中间域数据集i为:
其中,i
j
为步骤2)中更新后的簇中第j个样本,j∈{1,2,

,k};分别为样本i1、i
j
、i
k
的集合大小。5.根据权利要求1所述的一种表观缺陷跨域分类识别的负迁移抑制方法,其特征在于,所述步骤3)中,自动编码器的构成具体包括以下步骤:3.1)设定目标函数对自动编码器进行无监督学习训练:其中,n
s
和n
t
分别为源域数据集s和目标域数据集t的集合大小,为聚类一后的中间域集合大小;和分别为源域、目标域和中间域重构数据;表示带有簇标记的簇中的样本;表示目标域数据集中的样本;表示中间域数据集中样本i
j
中的λ
t
为目标域重构误差的权重系数;τ

={τ
′1,τ
′2,



j
,



k
}是用于表示不同中间域重要性的因子,τ

j
∈[0,1];re(w
s
,w
i
)是正则化项,定义为:其中,w
s
为源域样本选择因子为源域样本选择因子为源域样本选择因子为中间域样本选择因子且λ
s
、λ
i
均为超参数,用于控制正则项对整体的影响程度;3.2)增加监督学习,另提出一个最小化损失函数:其中,l(
·
)表示多分类交叉熵损失函数,f
cls
(
·
)表示模对括号内样本预测的分类结果;3.3)联合步骤3.1)和步骤3.2)两个目标函数,获得最终的解决远距离迁移学习的目标函数:
其中,w={w
s
,w
i
},θ为自动编码器的参数,τ

={τ
′1,τ
′2,



j
,



k
}3.4)设定迭代epoch,分两步迭代更新自动编码器的三个参数:通过反向传播,随机梯度下降更新参数θ;固定参数θ,更新选择因子w,τ

;从而完成自动编码器的训练。6.根据权利要求5所述的一种表观缺陷跨域分类识别的负迁移抑制方法,其特征在于,所述步骤3.4)具体为:3.4.1)输入训练数据集s、t、i,以及设定对应的超参数λ
s
、λ
t
、λ
i
;3.4.2)采用源域的数据初始化cnn网络参数:3.4.3)自动编码器参数迭代更新:构建cnn网络,通过下述方法分步确定参数:先固定选择因子w,τ

,用反向传播,随机梯度下降的方式优化cnn参数θ;再固定cnn参数θ,更新选择因子w,τ

:::其中,sigmoid函数为激活函数。7.根据权利要求1所述的一种表观缺陷跨域分类识别的负迁移抑制方法,其特征在于,所述步骤4)具体为:4.1)确定源域:以金属制品的缺陷数据域为源域,获得n个源域,所有源域包括m张图像;将源域根据标签类别划分为k个类别,每个类别的集合大小为m
j
=β
j
m;其中,m
j
表示第j个源域的图像数量,j∈{1,2,

,k};β={β1,β2,


k
},β中所有元素之和为1;4.2)定义多领域联合经验误差:根据目标域和源域上的联合泛化误差,定义多个中间域的联合泛化误差;给定一个向量给定一个向量中所有元素之和为1,即则多领域的联合经验误差表示为:
则多领域的联合泛化误差表示为:其中,表示基于假设h的单领域经验误差,ε
j
(h)表示基于假设h的单领域泛化误差,h为本文自动编码器可准确识别目标域中图片缺陷的假设;4.3)定义单个源域的概率模型:对于任意的j∈{1,2,

,n},s
j
表示大小为β
j
m的标记数据集合即为源域的数据域样本,从d
j
中抽样得到;d
j
为d
α
中的样本,d
α
表示n个源域的混合分布对于特定的一个权重α
j
,和ε
j
(h)分别表示假设h在数据域s
j
上的经验误差和泛化误差;则:其中,ε为无限接近零的数值;通过取概率最小,使经验误差和泛化误差最接近;最小,使经验误差和泛化误差最接近;取到最小值的条件为α
j
=β
j
;4.4)确定样本训练总数,并进行模型训练:训练样本的总数为:则α
j
和β
j
的目标值为:将α
j
=β
j
作为再次训练步骤3)自动编码器模型的约束条件,在训练时使α
j
和β
j
逼近目标值使模型在训练样本上的泛化能力更好;通过训练得到基于多领域和自适应算法的多目标域任务泛化模型。

技术总结
本发明公开了一种表观缺陷跨域分类识别的负迁移抑制方法。以多种非注塑制品的表观缺陷图像作为源域数据集,以注塑制品表观缺陷图像作为目标域数据集,同时设定中间域来提取对应特征。对源域和中间域图像进行域信息标注;使用HOG进行源域和目标域特征提取;基于K均值法进行双重聚类;构建负迁移抑制策略;建立基于多领域自适应算法的多目标域任务泛化模型。本发明可有效抑制表观缺陷跨域分类识别中的负迁移现象,有效地实现注塑制品表观缺陷分类识别。识别。识别。


技术研发人员:伊国栋 曾威 李琎 王阳
受保护的技术使用者:浙江大学
技术研发日:2023.07.07
技术公布日:2023/9/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐