基于多模态对称增强的小样本图像分类方法、装置及介质

未命名 07-23 阅读:90 评论:0


1.本发明属于图像处理技术领域,具体的说是基于多模态对称增强的小样本图像分类方法、装置及介质。


背景技术:

2.近年来,卷积神经网络(cnn)已在图像分类、目标检测等各项计算机视觉任务中表现出了强大的性能,但这类数据驱动的网络往往需要经过大规模的有标注数据训练,以保证其准确性和鲁棒性。然而海量数据的收集与标注是一项耗时且昂贵的任务,其训练过程也需要耗费巨量的计算资源与时间成本。相比之下,由于人类已经有大量的知识积累,他们可以仅通过几个示例快速识别一个从未见过的新对象。因此,研究者提出了小样本学习(fsl)来模仿这种人类能力,从已知的基础类别样本中推理学习,进而达到快速图像理解的目的,使得cnn模型在训练样本极为稀缺的情况下,也可以对新类别样本有较好的识别能力,仅通过少量有标记的支持样本适应新的类别。
3.目前,简单且有效的一种解决方案是通过数据增强技术在有限的信息下最大限度地探索数据分布。大多数基于数据增强的小样本学习方法集中在探索可迁移的类内及类间特征,或训练生成器生成特定图像。前者学习相同基础类别内或类别间的样本差异,并泛化到新类别中,后者则利用基础类别样本训练生成网络,用以生成更多的新类别样本。然而,这类方法都极其依赖于基础类别样本的视觉特征,倾向于关注从基础类别中所学习到的物体的纹理和结构,而忽略了新样本的细节,导致分类性能较弱。
4.因此,另一类基于数据增强的小样本学习方法尝试引入多模态知识,从文本信息中提取语义知识,并将其作为知识迁移过程中的指导和补充,以获得更好的效果。例如训练以标签文本为条件的条件生成网络,引入文本特征进行多模态融合,或利用语义关系指导知识的迁移过程。这种方法缓解了仅在纯视觉特征增强训练的分类器存在的认知偏差。然而固定的文本输入缺乏灵活性,容易导致模型的过拟合,且引入了一定的外部噪声,反而误导了分类器的识别过程,导致了性能提升有限的问题。
5.基于上述分析,如何利用多样化的知识源来引导数据增强,是基于数据增强的小样本学习方法亟待解决的问题。包括从视觉、语言等不同角度收集多模态信息,并将其整合到生成样本的过程中,以提高分类器在新类别上的泛化能力。同时还需要平衡不同知识源之间的贡献,避免某些来源的信息对模型性能产生负面影响。


技术实现要素:

6.本发明是为了解决上述现有技术存在的不足之处,提出一种基于多模态对称增强的小样本图像分类方法、装置及介质,在有限信息的条件下最大限度地探索数据分布,从而提高小样本图像分类的准确性。
7.本发明为达到上述发明目的,采用如下技术方案:第一方面,本发明提供了一种基于多模态对称增强的小样本图像分类方法,该图
像分类方法包括以下步骤:s1、构建基础类别候选集,利用多模态预训练模型clip中的文本编码器获取新类别的文本特征和基础类别的文本特征,再构建新类别的文本特征和基础类别的文本特征之间的相似度集合,选出每个新类别对应的相似度最高的数个基础类别,构建每个新类别基于文本相似度的基础类别候选集;s2、视觉特征增强,利用预训练的cnn视觉模型获取支持样本和基础样本的视觉特征集合,对于一个支持样本,从其所属的新类别对应的基础类别候选集中随机选取基础类别,并从属于该基础类别的基础样本集合中随机选取样本,通过mixup操作混合该支持样本和该随机选取样本的视觉特征,得到混合视觉特征,再通过特征层面的cutmix操作级联混合支持样本视觉特征和混合视觉特征,得到最终的增强视觉特征;s3、文本特征增强,对于一个新类别,从与其相关的基础类别候选集中随机选取基础类别,通过mixup操作混合该新类别和该随机选取基础类别的文本特征,得到混合文本特征,再通过特征层面的cutmix操作级联混合新类别文本特征和混合文本特征,得到最终的增强文本特征;s4、视觉分类器训练,在每次迭代中,从支持样本的视觉特征及其标签的集合中选取批量的支持样本特征以及对应的标签,经过步骤s2生成与批量选取的支持样本相同数量的增强视觉特征,通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的预测分数;s5、文本知识迁移,将新类别的文本特征通过步骤s3得到增强文本特征,利用线性层将其映射到视觉特征的维度,并将其与步骤s4得到的原始支持样本特征和增强视觉特征通过矩阵乘法结合训练知识迁移线性层,分别得到原始支持样本特征和增强视觉特征的迁移分数;s6、模型训练与测试,由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,利用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数以更新网络参数,当训练迭代次数达到设定的次数时,即停止训练;对于新类别集合中测试样本,先利用预训练的cnn模型获取其视觉特征,再将该视觉特征分别通过视觉分类器后和文本知识迁移,得到视觉预测分数和迁移预测分数,将二者加权融合得到最终预测分数,取最终预测分数最大的类别作为图像分类的预测结果。
8.更进一步地,步骤s1中,所述构建基础类别候选集包括以下具体步骤:s1.1、利用预训练的clip模型中的文本编码器获取新类别的文本特征和基础类别的文本特征,表示为:,表示为:,其中,表示新类别集合,表示基础类别集合,且与无交集,表示新类别集合中的类别数量,表示基础类别集合中的类别数量,表示维度为的第个新类别的文本特征,表示维度为的第个基础类别的文本特征;s1.2、计算第个新类别的文本特征和第个基础类别的文本特征之间的相
似度,基于相似度进而构建集合,表示为:,表示为:,其中,表示和之间的内积,、分别表示、的模长;s1.3、将集合中的元素排序,并选出其中最大的个元素对应的基础类别,构建基于文本相似度的基础类别候选集。
9.更进一步地,步骤s2中,所述视觉特征增强包括以下具体步骤:s2.1、利用预训练的cnn模型获取支持样本的视觉特征及其标签的集合,表示为:,表示维度为的第个支持样本的视觉特征,表示第个支持样本的类别标签,且,表示每个新类别中的支持样本数量;s2.2、利用预训练的cnn模型获取基础样本的视觉特征及其标签的集合,表示为:,表示维度为的第个基础样本的视觉特征,表示第个基础样本的类别标签,且,表示每个基础类别中的基础样本数量;s2.3、对于类别为支持样本,从步骤s1.3得到的与其相关的基础类别候选集中随机选取类别标签,并从标签为的基础样本中随机选取样本,混合支持样本的视觉特征和样本的视觉特征得到混合视觉特征,混合视觉特征表示为:,其中,为两个视觉特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个视觉特征的标签不进行混合,仍保持为支持类别标签;s2.4、生成满足均匀分布的随机向量,随机向量的维度为,其中每个元素值的范围在0到1之间,并按照掩码比率将随机向量转化为掩码向量,掩码向量的维度为,其中每个元素值为0或1;s2.5、通过掩码向量混合混合视觉特征和视觉特征,最终得到增强视觉特征,表述为:,其中,表示按元素相乘。
10.更进一步地,步骤s3中,所述文本特征增强包括以下具体步骤:s3.1、对于类别为支持样本,从步骤s1.3得到的基础类别候选集中随机选取类别标签,并从标签为的基础样本中随机选取样本,混合支持样本的文本特征和样本的文本特征,得到混合文本特征,表示为:,其中,为两个文本特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个
文本特征的标签不进行混合,仍保持为支持类别标签;s3.2、生成满足均匀分布的随机向量,随机向量的维度为,其中每个元素值的范围在0到1之间,并按照掩码比率将随机向量转化为掩码向量,掩码向量的维度为,其中每个元素值为0或1;s3.3、通过掩码向量混合混合文本特征和文本特征,最终得到增强文本特征,表示为:,其中,表示按元素相乘。
11.更进一步地,所述随机向量利用式转化为所述掩码向量,其中,和分别为向量和第个位置上的元素,超参数为掩码比率;所述随机向量利用式转化为所述掩码向量,其中,和分别为向量和第个位置上的元素,超参数为掩码比率。
12.更进一步地,步骤s4中,所述视觉分类器训练包括以下具体步骤:s4.1、在每次迭代中,从中选取数量为的一个批量的支持样本特征以及其标签,经过步骤s2生成个增强视觉特征;s4.2、通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的视觉预测分数,表示为:,表示为:,其中,为视觉分类器的权重,,,;s4.3、计算视觉分类器预测分数与真实标签之间的视觉损失,视觉损失表示为:,其中,ce为交叉熵损失。
13.更进一步地,步骤s5中,所述文本知识迁移包括以下具体步骤:s5.1、新类别的文本特征经过步骤s3得到增强语义特征,利用参数为和的线性层将增强语义特征映射为维,并将其分别与原始支持样本特征和增强视觉特征结合,得到迁移预测分数和 ,表示为:,表示为:,其中,,;s5.2、计算文本知识迁移预测分数与真实标签之间的视觉损失,表示为:
,其中,ce为交叉熵损失。
14.更进一步地,步骤s6中,所述模型训练与测试包括以下具体步骤:s6.1、由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,并定义模型的总损失函数,表示为,其中,为两个损失和之间的平衡系数;s6.2、采用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数以更新网络参数,当训练迭代次数达到设定的次数时,停止训练;s6.3、对于新类别集合中测试样本,先利用预训练的cnn模型获取其视觉特征,再利用式得到原始支持样本特征,分别通过视觉分类器和文本知识迁移得到视觉预测分数和迁移预测分数,将二者加权融合并取分数最大的位置,得到最终预测分数,表示为:,其中,为权重系数,预测分数对应的类别即为测试样本图像分类的预测结果。
15.第二方面,本发明提供了一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,其特征在于,所述计算机可执行指令被所述处理器运行时实现所述的小样本图像分类方法。
16.第三方面,本发明提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现所述的小样本图像分类方法。
17.与现有技术相比,本发明的有益效果如下:本发明可以有效挖掘和利用文本知识中蕴含的类别关系,通过视觉模态增强利用基础类别的充足样本丰富新类别的表示,并通过文本模态增强提高了模型的鲁棒性和泛化性,提升了小样本分类方法的分类准确度,与以往的基于数据增强的小样本分类方法相比,本发明更加充分利用并有效衔接了来自基础类别以及额外文本的先验知识,减少了多模态知识中的偏差与噪声,是一种有效的小样本分类方法。
18.本发明在视觉和文本空间分别设计了对称的无参数增强策略,通过极小的计算量高效地增加了训练样本和监督信号来提高分类器的感知范围。
19.本发明充分挖掘了文本信息中蕴含的知识,综合利用了文本的特征表示和关联关系,并采用知识转移结构,在不同模态之间交换信息,提高分类器的分类能力。
20.本发明通过对文本知识进行充分挖掘,并利用文本知识指导在视觉端和文本端进行对称增强的策略,分别丰富新类别的视觉特征和语义表达,并通过跨模态知识迁移结合来自不同模态的知识,从而能减轻基础类别和新类别间样本数量差异的影响,最大限度地探索数据分布,并能提高小样本图像分类的准确度。
附图说明
21.图1为本发明提供的实施例1中基于多模态对称增强的小样本图像分类方法的流程图;图2为本发明提供的实施例1中基于多模态对称增强的小样本图像分类模型结构图;图3为本发明的实施例1中知识迁移模块示意图;图4为本发明的实施例1中基于多模态对称增强的小样本图像分类原理框图。
具体实施方式实施例1:
22.本实施例公开了一种基于多模态对称增强的小样本图像分类方法,参照图1和图2,该图像分类方法包括以下步骤:s1、构建基础类别候选集,利用多模态预训练模型clip中的文本编码器获取新类别的文本特征和基础类别的文本特征,再构建新类别的文本特征和基础类别的文本特征之间的相似度集合,选出每个新类别对应的相似度最高的数个基础类别,构建每个新类别基于文本相似度的基础类别候选集。构建基础类别候选集包括以下具体步骤:s1.1、利用预训练的clip模型中的文本编码器获取新类别的文本特征和基础类别的文本特征,表示为:,表示为:,其中,表示新类别集合,表示基础类别集合,且与无交集,表示新类别集合中的类别数量,表示基础类别集合中的类别数量,表示维度为的第个新类别的文本特征,表示维度为的第个基础类别的文本特征;s1.2、计算第个新类别的文本特征和第个基础类别的文本特征之间的相似度,基于相似度进而构建集合,表示为:,表示为:,其中,表示和之间的内积,、分别表示、的模长;s1.3、将集合中的元素排序,并选出其中最大的个元素对应的基础类别,构建基于文本相似度的基础类别候选集,本实施例中。
23.s2、视觉特征增强,利用预训练的cnn视觉模型获取支持样本和基础样本的视觉特征集合,对于一个支持样本,从其所属的新类别对应的基础类别候选集中随机选取基础类别,并从属于该基础类别的基础样本集合中随机选取样本,通过mixup操作混合该支持样本和该随机选取样本的视觉特征,得到混合视觉特征,再通过特征层面的cutmix操作级联混合支持样本视觉特征和混合视觉特征,得到最终的增强视觉特征;视觉特征增强包括以下具体步骤:
s2.1、利用预训练的cnn模型获取支持样本的视觉特征及其标签的集合,表示为:,表示维度为的第个支持样本的视觉特征,表示第个支持样本的类别标签,且,表示每个新类别中的支持样本数量;s2.2、利用预训练的cnn模型获取基础样本的视觉特征及其标签的集合,表示为:,表示维度为的第个基础样本的视觉特征,表示第个基础样本的类别标签,且,表示每个基础类别中的基础样本数量;s2.3、对于类别为支持样本,从步骤s1.3得到的与其相关的基础类别候选集中随机选取类别标签,并从标签为的基础样本中随机选取样本,混合支持样本的视觉特征和样本的视觉特征得到混合视觉特征,混合视觉特征表示为:,其中,为两个视觉特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个视觉特征的标签不进行混合,仍保持为支持类别标签;s2.4、生成满足均匀分布的随机向量,随机向量的维度为,且每个元素值的范围在0到1之间,随机向量利用式转化为掩码向量,掩码向量的维度为,且每个元素值为0或1,其中,和分别为向量和第个位置上的元素,超参数为掩码比率,本实施例中;s2.5、通过掩码向量混合混合视觉特征和视觉特征,最终得到增强视觉特征,表述为:,其中,表示按元素相乘。
24.s3、文本特征增强,对于一个新类别,从与其相关的基础类别候选集中随机选取基础类别,通过mixup操作混合该新类别和该随机选取基础类别的文本特征,得到混合文本特征,再通过特征层面的cutmix操作级联混合新类别文本特征和混合文本特征,得到最终的增强文本特征;文本特征增强包括以下具体步骤:s3.1、对于类别为支持样本,从步骤s1.3得到的基础类别候选集中随机选取类别标签,并从标签为的基础样本中随机选取样本,混合支持样本的文本特征和样本的文本特征,得到混合文本特征,表示为:,其中,为两个文本特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个文本特征的标签不进行混合,仍保持为支持类别标签;s3.2、生成满足均匀分布的随机向量,随机向量的维度为,且每个元素值
的范围在0到1之间,随机向量利用式转化为掩码向量,掩码向量的维度为,且每个元素值为0或1,其中,和分别为向量和第个位置上的元素,超参数为掩码比率,本实施例中;s3.3、通过掩码向量混合混合文本特征和文本特征,最终得到增强文本特征,表示为:,其中,表示按元素相乘。
25.s4、视觉分类器训练,在每次迭代中,从支持样本的视觉特征及其标签的集合中选取批量的支持样本特征以及对应的标签,经过步骤s2生成与批量选取的支持样本相同数量的增强视觉特征,通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的预测分数;视觉分类器训练包括以下具体步骤:s4.1、在每次迭代中,从中选取数量为的一个批量的支持样本特征以及其标签,经过步骤s2生成个增强视觉特征;s4.2、通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的视觉预测分数,表示为:,表示为:,其中,为视觉分类器的权重,,,;s4.3、计算视觉分类器预测分数与真实标签之间的视觉损失,视觉损失表示为:,其中,ce为交叉熵损失。
26.s5、文本知识迁移,将新类别的文本特征通过步骤s3得到增强文本特征,利用线性层将其映射到视觉特征的维度,并将其与步骤s4得到的原始支持样本特征和增强视觉特征通过矩阵乘法结合训练知识迁移线性层,分别得到原始支持样本特征和增强视觉特征的迁移分数。参照图3,文本知识迁移包括以下具体步骤:s5.1、新类别的文本特征经过步骤s3得到增强语义特征,利用参数为和的线性层将增强语义特征映射为维,并将其分别与原始支持样本特征和增强视觉特征结合,得到迁移预测分数和 ,表示为:,表示为:,其中,,;s5.2、计算文本知识迁移预测分数与真实标签之间的视觉损失,表示为:
,其中,ce为交叉熵损失。
27.s6、模型训练与测试,由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,如图4所示。利用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数以更新网络参数,当训练迭代次数达到设定的次数时,即停止训练;对于新类别集合中测试样本,先利用预训练的cnn模型获取其视觉特征,再将该视觉特征分别通过视觉分类器后和文本知识迁移,得到视觉预测分数和迁移预测分数,将二者加权融合得到最终预测分数,取最终预测分数最大的类别作为图像分类的预测结果。
28.模型训练与测试包括以下具体步骤:s6.1、由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,并定义模型的总损失函数,表示为,其中,为两个损失和之间的平衡系数;s6.2、采用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数以更新网络参数,当训练迭代次数达到设定的次数时,停止训练;s6.3、对于新类别集合中测试样本,先利用预训练的cnn模型获取其视觉特征,再利用式得到原始支持样本特征,分别通过视觉分类器和文本知识迁移得到视觉预测分数和迁移预测分数,和分别从视觉和文本信息的角度携带类别知识,为了在推理阶段进行最终的预测,将和的预测融合一体,使之相互补充。具体地,将和加权融合并取分数最大的位置,得到最终预测分数,表示为:,其中,为权重系数,预测分数对应的类别即为测试样本图像分类的预测结果。
29.本实施例中,文本知识使用语义表征来表达每个类别,并提供类别之间的直接关系,一个新类别只与少数几个基础类别较为相关,为了避免带入不相关的噪音影响分类器训练,在进行增强之前直接计算这些类别表示之间的关系,并为每个新类别构建相似基础类别候选集。在增强阶段之前,通过在基础类别上预训练的cnn模型将来自基础类别和新类别的视觉样本表示为视觉特征。对于每个新类别特征,将其与相似基础类别候选集中采样得到的随机基础类别样本进行mixup操作,生成新的新类别特征。
30.除此之外,为了更充分地引入更多不同形式的基础类别信息,使得新生成的新类别特征更具多样性和泛化性,利用一个级联的特征级别cutmix操作来考虑更广泛的基础类别的信息。具体来说,首先随机屏蔽掉混合视觉特征中的一部分数值,然后用基础类别的视觉特征中相同位置的数值替换被屏蔽的数值。
31.现有的知识迁移方法往往从固定的文本表征开始,导致了模型的过拟合问题,同时也将文本中不正确的噪声信息也随着知识一起迁移进分类器的学习过程中。因此,本实
施例在文本端设计了与视觉端对称的增强过程,从而丰富文本特征的表示,增强文本信息的多样性和模型的泛化性。
32.经过本实施例的步骤s2进行视觉特征增强,在每次迭代时都能将用作训练的新类别特征扩充到原来的两倍,进而利用这些原始样本和生成样本训练一个基于视觉特征的分类器。为了将步骤s2中产生的视觉增强特征与步骤s3得到增强语义特征相结合,沟通不同模态间的信息并进行多模态知识迁移,文本知识迁移模块可以从语义的角度对视觉特征进行分类。
33.实施例2:本实施例公开了一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行计算机可执行指令,计算机可执行指令被所述处理器运行时实现实施例1公开的小样本图像分类方法。
34.实施例3:本实施例公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时实现实施例1公开的小样本图像分类方法。

技术特征:
1.一种基于多模态对称增强的小样本图像分类方法,其特征是,该图像分类方法包括以下步骤:s1、构建基础类别候选集,利用多模态预训练模型clip中的文本编码器获取新类别的文本特征和基础类别的文本特征,再构建新类别的文本特征和基础类别的文本特征之间的相似度集合,选出每个新类别对应的相似度最高的数个基础类别,构建每个新类别基于文本相似度的基础类别候选集;s2、视觉特征增强,利用预训练的cnn视觉模型获取支持样本和基础样本的视觉特征集合,对于一个支持样本,从其所属的新类别对应的基础类别候选集中随机选取基础类别,并从属于该基础类别的基础样本集合中随机选取样本,通过mixup操作混合该支持样本和该随机选取样本的视觉特征,得到混合视觉特征,再通过特征层面的cutmix操作级联混合支持样本视觉特征和混合视觉特征,得到最终的增强视觉特征;s3、文本特征增强,对于一个新类别,从与其相关的基础类别候选集中随机选取基础类别,通过mixup操作混合该新类别和该随机选取基础类别的文本特征,得到混合文本特征,再通过特征层面的cutmix操作级联混合新类别文本特征和混合文本特征,得到最终的增强文本特征;s4、视觉分类器训练,在每次迭代中,从支持样本的视觉特征及其标签的集合中选取批量的支持样本特征以及对应的标签,经过步骤s2生成与批量选取的支持样本相同数量的增强视觉特征,通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的预测分数;s5、文本知识迁移,将新类别的文本特征通过步骤s3得到增强文本特征,利用线性层将其映射到视觉特征的维度,并将其与步骤s4得到的原始支持样本特征和增强视觉特征通过矩阵乘法结合训练知识迁移线性层,分别得到原始支持样本特征和增强视觉特征的迁移分数;s6、模型训练与测试,由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,利用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数以更新网络参数,当训练迭代次数达到设定的次数时,即停止训练;对于新类别集合中测试样本,先利用预训练的cnn模型获取其视觉特征,再将该视觉特征分别通过视觉分类器后和文本知识迁移,得到视觉预测分数和迁移预测分数,将二者加权融合得到最终预测分数,取最终预测分数最大的类别作为图像分类的预测结果。2.根据权利要求1所述的小样本图像分类方法,其特征是,步骤s1中,所述构建基础类别候选集包括以下具体步骤:s1.1、利用预训练的clip模型中的文本编码器获取新类别的文本特征和基础类别的文本特征,表示为:,表示为:,其中,表示新类别集合,表示基础类别集合,且与无交集,表示新类别集合中的类别数量,表示基础类别集合中的类别数量,表示维度为的第个新类别的文本特征,表示维度为的第个基础类别的文本特征;
s1.2、计算第个新类别的文本特征和第个基础类别的文本特征之间的相似度,基于相似度进而构建集合,表示为:,表示为:,其中,表示和之间的内积,、分别表示、的模长;s1.3、将集合中的元素排序,并选出其中最大的个元素对应的基础类别,构建基于文本相似度的基础类别候选集。3.根据权利要求2所述的小样本图像分类方法,其特征是,步骤s2中,所述视觉特征增强包括以下具体步骤:s2.1、利用预训练的cnn模型获取支持样本的视觉特征及其标签的集合,表示为:,表示维度为的第个支持样本的视觉特征,表示第个支持样本的类别标签,且,表示每个新类别中的支持样本数量;s2.2、利用预训练的cnn模型获取基础样本的视觉特征及其标签的集合,表示为:,表示维度为的第个基础样本的视觉特征,表示第个基础样本的类别标签,且,表示每个基础类别中的基础样本数量;s2.3、对于类别为支持样本,从步骤s1.3得到的与其相关的基础类别候选集中随机选取类别标签,并从标签为的基础样本中随机选取样本,混合支持样本的视觉特征和样本的视觉特征得到混合视觉特征,混合视觉特征表示为:,其中,为两个视觉特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个视觉特征的标签不进行混合,仍保持为支持类别标签;s2.4、生成满足均匀分布的随机向量,随机向量的维度为,其中每个元素值的范围在0到1之间,并按照掩码比率将随机向量转化为掩码向量,掩码向量的维度为,其中每个元素值为0或1;s2.5、通过掩码向量混合混合视觉特征和视觉特征,最终得到增强视觉特征,表述为:,其中,表示按元素相乘。4.根据权利要求3所述的小样本图像分类方法,其特征是,步骤s3中,所述文本特征增强包括以下具体步骤:s3.1、对于类别为支持样本,从步骤s1.3得到的基础类别候选集中随机选取类别标签,并从标签为的基础样本中随机选取样本,混合支持样本的文本特征和
样本的文本特征,得到混合文本特征,表示为:,其中,为两个文本特征的混合比率,混合比率是从参数为(2,2)的beta分布中采样得到,而两个文本特征的标签不进行混合,仍保持为支持类别标签;s3.2、生成满足均匀分布的随机向量,随机向量的维度为,其中每个元素值的范围在0到1之间,并按照掩码比率将随机向量转化为掩码向量,掩码向量的维度为,其中每个元素值为0或1;s3.3、通过掩码向量混合混合文本特征和文本特征,最终得到增强文本特征,表示为:,其中,表示按元素相乘。5.根据权利要求4所述的小样本图像分类方法,其特征是,所述随机向量利用式转化为所述掩码向量,其中,和分别为向量和第个位置上的元素,超参数为掩码比率;所述随机向量利用式转化为所述掩码向量,其中,和分别为向量和第个位置上的元素,超参数为掩码比率。6.根据权利要求4所述的小样本图像分类方法,其特征是,步骤s4中,所述视觉分类器训练包括以下具体步骤:s4.1、在每次迭代中,从中选取数量为的一个批量的支持样本特征以及其标签,经过步骤s2生成个增强视觉特征;s4.2、通过原始支持样本特征和增强视觉特征训练视觉分类器,分别得到原始支持样本特征和增强视觉特征的视觉预测分数,表示为:,表示为:,其中,为视觉分类器的权重,,,;s4.3、计算视觉分类器预测分数与真实标签之间的视觉损失,视觉损失表示为:,其中,ce为交叉熵损失。7.根据权利要求6所述的小样本图像分类方法,其特征是,步骤s5中,所述文本知识迁移包括以下具体步骤: s5.1、新类别的文本特征经过步骤s3得到增强语义特征,利用参数为和的线性层将增强语义特征映射为维,并将其分别与原始支持样本特征和增强视觉特征结合,得到迁移预测分数和 ,表示为:
,表示为:,其中,,;s5.2、计算文本知识迁移预测分数与真实标签之间的视觉损失,表示为:,其中,ce为交叉熵损失。8.根据权利要求7所述的小样本图像分类方法,其特征是,步骤s6中,所述模型训练与测试包括以下具体步骤:s6.1、由所述基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移模块构成多模态对称增强模型,并定义模型的总损失函数,表示为,其中,为两个损失和之间的平衡系数;s6.2、采用梯度下降算法对多向知识迁移模型进行训练,并计算总损失函数以更新网络参数,当训练迭代次数达到设定的次数时,停止训练;s6.3、对于新类别集合中测试样本,先利用预训练的cnn模型获取其视觉特征,再利用式得到原始支持样本特征,分别通过视觉分类器和文本知识迁移得到视觉预测分数和迁移预测分数,将二者加权融合并取分数最大的位置,得到最终预测分数,表示为:,其中,为权重系数,预测分数对应的类别即为测试样本图像分类的预测结果。9.一种图像处理装置,包括存储器以及处理器,存储器存储有计算机可执行指令,处理器被配置为运行所述计算机可执行指令,其特征在于,所述计算机可执行指令被所述处理器运行时实现权利要求1~8任一项所述的小样本图像分类方法。10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时实现权利要求1~8任一项所述的小样本图像分类方法。

技术总结
本发明公开了一种基于多模态对称增强的小样本图像分类方法、装置及介质,该小样本图像分类方法包括以下步骤:基础类别候选集构建、视觉特征增强、文本特征增强、视觉分类器训练、文本知识迁移和模型训练与测试步骤。本发明通过在文本端和视觉端分别进行对称的级联增强操作,以样本扩充和文本扩充的方式利用充足的基础类别样本对新类别样本进行增强,并通过跨模态迁移交换来自不同模态的知识,从而最大限度地探索新类别数据分布,提升分类器的判别能力,提高小样本图像分类的准确度。提高小样本图像分类的准确度。提高小样本图像分类的准确度。


技术研发人员:张新宇 王硕 何向南 郝艳宾
受保护的技术使用者:中国科学技术大学
技术研发日:2023.06.13
技术公布日:2023/7/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐