一种基于多视角特征融合的遥感图像小样本分类方法
未命名
08-05
阅读:107
评论:0

1.本发明属计算机视觉、图像处理技术领域,具体涉及一种基于多视角特征融合的遥感图像小样本分类方法。
背景技术:
2.遥感场景识别在各个领域有着较高的应用价值,比如:自然灾害预测、土地利用监测以及临地安防自主感知等。近年来,基于标注数据驱动的深度模型凭借其强大的学习能力,大幅度地提升了遥感场景分类算法的性能。然而随着各类高分辨率传感器的发展,遥感场景图像尺寸日益增大且种类庞杂,这导致遥感场景图像的标注任务极为艰巨。受到人类的知识快速迁移能力的启发,小样本分类旨在利用极少量标注数据,实现对目标样本的识别,这有效缓减了上述数据标注和样本收集困难的问题。关于小样本学习的相关研究大致可以被分为以下三个类别:基于数据扩充的小样本学习、基于元学习的小样本学习以及基于度量的小样本学习。其中,将度量学习与元学习相结合的算法取得了显著的成效。
3.文献“h.ji,z.gao,y.zhang,y.wan,c.li,and t.mei.few-shot scene classification of optical remote sensing images leveraging calibrated pretext tasks.ieee transactions on geoscience and remote sensing,60,1-13,2022.”中提出了一种基于自监督辅助任务的遥感场景小样本分类方法。该方法首先引入了旋转角预测任务来提升模型的可迁移特征提取能力;然后又利用对比学习作为辅助任务,将同类别特征聚合,并使得异类特征相互远离,提升了模型的特征表达能力;最后,为了进一步缓减模型的过拟合问题并提升其泛化能力,该方法利用基于amp的正则化方法对模型的参数进行了修正。
4.文献“q.zeng and j.geng.task-specific contrastive learning for few-shot remote sensing image scene classification.isprs journal of photogrammetry and remote sensing,191,143-154,2022.”中提出了一种任务相关的改进对比学习方法来提升模型对遥感场景小样本分类的性能。该文首先设计了一个“自注意力+互注意力”的特征增强模块,旨在过滤遥感图像中的背景噪声以及辅助模型捕捉测试样本与类别中心之间的潜在关联;此外,该文对传统对比学习进行了优化,通过引入语义标签扩展了正负样本对的筛选范围,提出了任务相关的对比学习方法。
5.但是这些方法都有局限性,仅将旋转预测作为辅助任务来增强模型的特征提取能力,没有充分利用遥感图像的旋转不敏感特性:一方面,由于遥感图像没有明确的方位信息和姿态信息,因此不同旋转视角下遥感图像的语义预测概率分布应该保持一致;另一方面,由于每个遥感图像的不同视图中的内容对语义标签的贡献几乎相同,因此它们之间潜在的共享信息可以为测试样本与类别中心的匹配提供重要价值。
技术实现要素:
6.为了克服现有技术的不足,本发明提供了一种基于多视角特征融合的遥感图像小
样本分类方法。首先,对输入训练集图像进行旋转增强处理;然后,对所有多视角下的图像进行特征提取;接着,将提取到的特征输入到分类模型网络进行训练,该模型包括全连接层旋转角分类器、基础语义分类器和多视角特征融合语义分类器三个并列的分支,并分别设计了相应的损失函数;最后,利用训练好的网络对待处理遥感图像数据集进行分类预测。本发明能够解决有标签样本数量稀少时,模型在遥感场景识别训练过程存在的泛化性不足的问题,具有促进模型学习可迁移知识,抑制遥感图像中语义无关内容以及强化最近邻原型匹配关联信息的有益效果。
7.一种基于多视角特征融合的遥感图像小样本分类方法,其特征在于步骤如下:
8.步骤1:输入训练图像数据集,并对数据集中所有图像进行旋转增强处理,所述的旋转增强处理是指将每幅图像分别旋转0
°
、90
°
、180
°
和270
°
,得到相应视角的图像,对于数据集中的第i幅图像,记其旋转增强后得到的多视角图像集为其中,分别对应四个视角下的图像,i=1,2,
…
,,表示训练图像数据集,表示数据集中包含的图像总数;
9.步骤2:采用resnet-12特征提取网络对步骤1处理后得到的所有多视角图像进行特征提取,得到每个视角下图像对应的特征,所有特征均为长度为d=640的一维向量;
10.步骤3:将所有多视角图像的特征输入分类模型,采用端对端的形式进行模型整体优化训练,得到训练好的模型;其中,分类模型包括全连接层旋转角分类器、基础语义分类器和多视角特征融合语义分类器三个并列的分支;
11.所述的全连接层旋转角分类器采用单层全连接+relu激活函数结构,输入维度为640,输出维度为4,经过全连接层旋转角分类器将特征映射至角度类别空间,其对应的旋转角预测损失函数如下:
[0012][0013]
其中,表示旋转角预测损失,θ表示特征提取器的网络参数,表示全连接层旋转角分类器的参数,为按下式计算的交叉熵损失函数:
[0014][0015]
其中,r=4,表示旋转的四个视角,r表示旋转的第r个视角,f
θ
()表示特征提取操作,表示全连接层旋转角分类操作,[
·
]r代表取向量中的第r个元素;
[0016]
所述的基础语义分类器采用最近邻原型表征原理,选取距离测试图像特征最近的类别中心作为该测试图像的语义类别,经过其得到测试图像每个视角下的语义概率分布,其对应的类别分布一致性损失函数如下:
[0017][0018]
其中,表示类别分布一致性损失,pr表示经r
×
90
°
旋转增强后的所有查询集图
像的类别概率分布,查询集q是指所有测试图像的集合,n表示训练时每个mini-batch中的类别个数,表示查询集中第i个测试图像经r
×
90
°
旋转增强后得到的类别概率分布,i=1,2,
…
,|q|,|q|表示集合q包含的图像数量;p表示所有视角下的平均类别概率分布,按照计算得到,d
kl
(
·
||
·
)表示计算向量的kl散度;中的第c个元素的计算表达式如下:
[0019][0020]
其中,τ为缩放因子,取值范围为128至512,表示r
×
90
°
旋转增强下所有支持集图像特征取平均得出的类别c的类别中心,支持集s表示训练时每个mini-batch中已知标签的训练图像,表示r
×
90
°
旋转增强下第i个测试图像特征与类别中心c之间的欧氏距离,c的取值范围为1至n;
[0021]
kl散度的计算公式如下:
[0022][0023]
所述的多视角特征融合语义分类器采用transformer结构,经过其得到融合后的测试图像特征和类别中心特征,再基于最近邻原型表征原理,输出每个测试图像的类别概率分布,具体过程如下:将r个特征向量拼接得到一个多视角特征图fi,对于支持集图像,记其得到的多视角特征图为f
is
,对于查询集图像,记其得到的多视角特征图为f
iq
,i表示集合中的图像序号;然后,对于查询集中每个测试图像,将其对应的多视角特征图和所有类别中心按行拼接,得到对应的增广多视角特征图
[0024][0025]
其中,为类别c的多视角类别中心特征图,由所有视角下的支持集图像特征取平均得到;
[0026]
再经transformer结构进行特征融合,具体表达式如下:
[0027][0028][0029]
其中,(q,k,v)为transformer结构的接收三元组输入,wq、wk和wv为三个全连接层,为融合后特征;
[0030]
对按行均等拆分,得到两个特征,分别记为和将和按第2、3维度
展开并按下式计算其欧式距离di,即为融合测试图像特征图与融合后类别中心特征图之间的距离:
[0031][0032]
其中,d(
·
)表示欧式距离函数,rowj表示取矩阵的第j行;
[0033]
采用最近邻原型表征原理,选取距离最近的类别中心作为该测试图像的预测类别;
[0034]
多视角特征融合语义分类器对应的损失函数如下:
[0035][0036]
其中,表示多视角特征融合主分类损失,yi表示查询集中第i个测试图像的真实语义标签,[di]c表示查询集中第i个测试图像特征与类别c的类别中心之间的欧氏距离;
[0037]
分类模型的总损失函数如下:
[0038][0039]
其中,表示分类模型网络的总损失,β为旋转角预测损失项的权重超参数,取值范围为1至5,γ为类别分布一致性损失项的权重超参数,取值范围为10至50;
[0040]
步骤4:将待处理的遥感图像数据集输入到步骤3训练好的分类模型,其中分类模型中多视角特征融合语义分类器的输出即为每幅图像的最终类别预测结果。
[0041]
本发明的有益效果是:由于采用了全连接层旋转角分类器,充分利用了遥感图像的旋转不敏感特性,且设计了类别分布一致性损失函数,能够有效抑制遥感图像中与语义无关的特征;由于旋转角分类任务和类别分布一致性任务均属于自监督辅助任务,较好地提升了模型的可迁移特征提取能力;由于设计了新的多视角注意力捕获模块,将其嵌入有监督的小样本分类器,构成多视角特征融合语义分类器,同时提取了多视角特征中的共享信息以及最近邻匹配中查询集样本与类别中心之间的强关联信息,能够有效剔除冗余信息并抓取样本与类别中心之间的强关联信息,提升模型的分类准确性;本发明所提出的分类模型,是一种多任务深度神经网络,可以实现端到端的训练,无需冗余的预训练过程,整个模型框架更为简洁与高效。
附图说明
[0042]
图1是本发明的基于多视角特征融合的遥感图像小样本分类方法流程图;
[0043]
图2是采用本发明方法在nwpu-resisc45数据集上的分类混淆矩阵图;
[0044]
其中,(a)为5-way 1-shot任务结果示意图,(b)为5-way 5-shot任务结果示意图;
[0045]
图3是采用本发明方法在whu-rs19数据集上的分类混淆矩阵图;
[0046]
其中,(a)为5-way 1-shot任务结果示意图,(b)为5-way 5-shot任务结果示意图。
具体实施方式
[0047]
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
[0048]
本发明提供了一种基于多视角特征融合的遥感图像小样本分类方法,核心是构建一个多任务深度神经网络分类模型,通过设计自监督辅助任务、最近邻原型表征、多视角特征融合的有监督分类器等,采用多任务训练方法,获得适用于小样本遥感图像的简洁高效的分类模型。如图1所示,本发明的具体实现过程如下:
[0049]
1、生成多视角遥感图像
[0050]
输入训练图像数据集,并对数据集中所有图像进行旋转增强处理,所述的旋转增强处理是指将每幅图像进行旋转(r-1)
×
90
°
的操作,r=1,2,3,4,即分别旋转0
°
、90
°
、180
°
和270
°
,得到相应视角的图像,对于数据集中的第i幅图像,记其旋转增强后得到的多视角图像集为其中,分别对应四个视角下的图像,i=1,2,
…
,|ε|,ε表示训练图像数据集,|ε|表示数据集中包含的图像总数。
[0051]
2、提取原始特征
[0052]
采用resnet-12特征提取网络对步骤1处理后得到的所有多视角图像进行特征提取,经过多层级深度特征提取,即经过不同层数的卷积和池化操作之后,每个视角下图像的特征输出为长度为640的一维向量。
[0053]
resnet-12网络记载在文献“k.he,x.zhang,s.ren,et al.deep residual learning for image recognition.in proceeding of ieee conference on computer vision and pattern recognition,770-778,2016.”中。
[0054]
3、构建分类模型和模型训练
[0055]
将所有多视角图像的特征输入分类模型,采用端对端的形式进行模型整体优化训练,得到训练好的模型。其中,分类模型包括全连接层旋转角分类器、基础语义分类器和多视角特征融合语义分类器三个并列的分支。
[0056]
(1)全连接层旋转角分类器和旋转角预测损失
[0057]
由于将不同旋转角度作为任务不相关的标签进行监督学习有利于提升模型的可迁移特征提取能力,本发明引入了旋转角预测的自监督任务。
[0058]
其中,全连接层旋转角分类器为“单层全连接+relu激活函数”结构,输入维度为640,输出维度为4。经过其将特征映射至角度类别空间,其对应的旋转角预测损失函数如下:
[0059][0060]
其中,表示旋转角预测损失,θ表示特征提取器的网络参数,表示全连接层旋转角分类器的参数,为按下式计算的交叉熵损失函数:
[0061][0062]
其中,r=4,表示旋转的四个视角,r表示旋转的第r个视角,f
θ
(
·
)表示特征提取操作,表示全连接层旋转角分类操作,[
·
]r代表取向量中的第r个元素。
[0063]
上述旋转角预测任务引入原始图像的不同旋转视角作为监督信号,并设计全连接
层旋转角分类器将特征提取器输出的原始特征映射至角度类别空间。
[0064]
(2)基础语义分类器和类别分布一致性损失
[0065]
本发明在自监督辅助任务中设计另一个损失函数通过优化模型,使其对同一原始图片的不同视角的语义预测概率分布保持一致,即基础语义分类器和类别分布一致性损失。
[0066]
基础语义分类器采用最近邻原型表征原理,即选取距离测试图像特征最近的类别中心作为该测试图像的语义类别,经过其得到测试图像每个视角下的语义概率分布。
[0067]
为了在不同的旋转视角下保持查询集中测试图像的类别概率分布一致,本发明最小化了每个视角和所有视角均值之间概率分布的kullback
–
leibler(kl)散度,设计的对应的类别分布一致性损失函数如下:
[0068][0069]
其中,表示类别分布一致性损失,pr表示经r
×
90
°
旋转增强后的所有查询集图像的类别概率分布,查询集q是指所有测试图像的集合,n表示每个mini-batch中的类别个数,表示pr为|q|行n列的概率矩阵,表示查询集中第i个测试图像经r
×
90
°
旋转增强后得到的类别概率分布,i=1,2,
…
,|q|,|q|表示集合q包含的图像数量;p表示所有视角下的平均类别概率分布,按照计算得到,d
kl
(
·
||
·
)表示计算向量的kl散度;中的第c个元素的计算表达式如下:
[0070][0071]
其中,τ为缩放因子,取值范围为128至512,表示r
×
90
°
旋转增强下所有支持集图像特征取平均得出的类别c的类别中心,支持集s表示每个mini-batch中已知标签的训练图像,表示r
×
90
°
旋转增强下第i个测试图像特征与类别中心c之间的欧氏距离,c的取值范围为1至n;
[0072]
kl散度的计算公式如下:
[0073][0074]
(3)多视角特征融合模块和主分类损失
[0075]
为了对多视角特征进行融合,本发明将一种新的多视角注意力模块嵌入基于最近邻原型表征的有监督分类器,即多视角特征融合语义分类器。该分类器可以提取每个测试图像不同旋转视角下的共享信息,有效抑制遥感图像中的语义无关内容,此外,该分类器可以捕获最近邻原型匹配中测试图像与类别中心之间的强关联信息,进而提升最近邻原型匹
配的精度;
[0076]
所述的多视角特征融合语义分类器为transformer结构,经过其得到融合后的测试图像特征和类别中心特征,再基于最近邻原型表征原理,输出每个测试图像的类别概率分布。具体而言,对于查询集中第i个测试图像对应的多视图集合经过特征提取器,可以得到r个长度为d=640的一维特征向量。通过将r个特征向量拼接得到一个多视角特征图类似地,一个多视角支持集特征图和一个多视角查询集特征图分别可以表示为f
is
和f
iq
,对于查询集中每个测试图像,将其对应的多视角特征图和所有类别中心按行拼接,得到对应的增广多视角特征图:
[0077][0078]
其中,类别c的多视角类别中心特征图由所有视角下的支持集图像特征取平均计算得出,可将其表示为k为支持集的图像数量,该分类器中transformer结构接收三元组输入(f,f,f)分别作为(query,key,和value)。对于查询集中第i个测试图像,由式(17)可计算得到对应的增广多视角特征图,经transformer特征融合的过程可以表示如下:
[0079][0080][0081]
其中,wq,wk和wv分别表示三个全连接层。通过对按行均等拆分,可以得到一个融合后的测试图像特征图和一个融合后的类别中心特征图
[0082]
接下来,将和按第2、3维度展开为其中m=r
×
d。进而融合后测试图像特征图与融合后类别中心特征图之间的距离向量可以表示为:
[0083][0084]
其中,d(
·
)表示欧式距离函数,rowj表示取矩阵的第j行;
[0085]
最后,采用最近邻原型表征原理,选取距离最近的类别中心作为该测试图像的预测类别。
[0086]
多视角特征融合语义分类器对应的损失函数如下:
[0087][0088]
其中,表示多视角特征融合主分类损失,yi表示查询集中第i个测试图像的真实语义标签,[di]c表示查询集中第i个测试图像特征与类别c的类别中心之间的欧氏距离。
[0089]
(4)模型总损失
[0090]
对于分类模型的总损失计算,本发明采用旋转角预测损失函数、类别分布一致性
sensing,60,1
–
11,2022.”中提出;danet算法在文献“m.gong,j.li,y.zhang,et al.two-path aggregation attention network with quad-patch data augmentation for few-shot scene classification.ieee transactions on geoscience and remote sensing,60,1
–
16,2022.”中提出;sgmnet算法在文献“b.zhang,s.feng,x.li,et al.sgmnet:scene graph matching network for few-shot remote sensing scene classification.ieee transactions on geoscience and remote sensing,60,1
–
15,2022.”中提出;tsc算法在文献“q.zeng and j.geng.task-specific contrastive learning for few-shot remote sensing image scene classification.isprs journal of photogrammetry and remote sensing 191,143-154,2022.”中提出。
[0103]
不同算法的平均分类准确度计算结果如表1所示。可以看出,在两个数据集上,本发明在5-way 1-shot和5-way 5-shot两个任务设定中的平均分类准确率均高于其他算法。
[0104]
表1
[0105][0106]
图2和图3分别给出了本发明方法在两个数据集上的分类混淆矩阵,其中,图2(a)和图2(b)分别为5-way 1-shot任务和5-way 5-shot任务在nwpu-resisc45数据集上的分类混淆矩阵,图3(a)和图3(b)分别为5-way 1-shot任务和5-way 5-shot任务在whu-rs19数据集上的分类混淆矩阵。图中,横纵坐标均为测试集中的类别标签,包括airport等若干个类别,第i行第j的元素表示模型将属于类别i的图像预测为类别j的概率。由图2和图3可以看出,每个类别正确分类的概率都比较稳定,并接近数据集的整体平均分类准确率,说明采用本发明方法能够获得较高的分类准确率。
[0107]
本发明通过一个基于最近邻原型表征下多视角特征融合的小样本分类框架,充分挖掘了遥感图像的旋转不敏感特性,首先利用全卷积网络提取遥感图像中丰富的深层特征,再通过两个自监督辅助任务和一个多视角特征融合的主分类器提升了模型的可迁移特征提取能力和泛化能力。
技术特征:
1.一种基于多视角特征融合的遥感图像小样本分类方法,其特征在于步骤如下:步骤1:输入训练图像数据集,并对数据集中所有图像进行旋转增强处理,所述的旋转增强处理是指将每幅图像分别旋转0
°
、90
°
、180
°
和270
°
,得到相应视角的图像,对于数据集中的第i幅图像,记其旋转增强后得到的多视角图像集为其中,分别对应四个视角下的图像,i=1,2,
…
,|ε|,ε表示训练图像数据集,|ε|表示数据集中包含的图像总数;步骤2:采用resnet-12特征提取网络对步骤1处理后得到的所有多视角图像进行特征提取,得到每个视角下图像对应的特征,所有特征均为长度为d=640的一维向量;步骤3:将所有多视角图像的特征输入分类模型,采用端对端的形式进行模型整体优化训练,得到训练好的模型;其中,分类模型包括全连接层旋转角分类器、基础语义分类器和多视角特征融合语义分类器三个并列的分支;所述的全连接层旋转角分类器采用单层全连接+relu激活函数结构,输入维度为640,输出维度为4,经过全连接层旋转角分类器将特征映射至角度类别空间,其对应的旋转角预测损失函数如下:其中,表示旋转角预测损失,θ表示特征提取器的网络参数,表示全连接层旋转角分类器的参数,为按下式计算的交叉熵损失函数:其中,r=4,表示旋转的四个视角,r表示旋转的第r个视角,f
θ
(
·
)表示特征提取操作,表示全连接层旋转角分类操作,[
·
]
r
代表取向量中的第r个元素;所述的基础语义分类器采用最近邻原型表征原理,选取距离测试图像特征最近的类别中心作为该测试图像的语义类别,经过其得到测试图像每个视角下的语义概率分布,其对应的类别分布一致性损失函数如下:其中,表示类别分布一致性损失,p
r
表示经r
×
90
°
旋转增强后的所有查询集图像的类别概率分布,查询集q是指所有测试图像的集合,n表示训练时每个mini-batch中的类别个数,表示查询集中第i个测试图像经r
×
90
°
旋转增强后得到的类别概率分布,i=1,2,
…
,|q|,|q|表示集合q包含的图像数量;p表示所有视角下的平均类别概率分布,按照计算得到,d
kl
(
·
||
·
)表示计算向量的kl散度;中的第c个元素的计算表达式如下:
其中,τ为缩放因子,取值范围为128至512,表示r
×
90
°
旋转增强下所有支持集图像特征取平均得出的类别c的类别中心,支持集s表示训练时每个mini-batch中已知标签的训练图像,表示r
×
90
°
旋转增强下第i个测试图像特征与类别中心c之间的欧氏距离,c的取值范围为1至n;kl散度的计算公式如下:所述的多视角特征融合语义分类器采用transformer结构,经过其得到融合后的测试图像特征和类别中心特征,再基于最近邻原型表征原理,输出每个测试图像的类别概率分布,具体过程如下:将r个特征向量拼接得到一个多视角特征图f
i
,对于支持集图像,记其得到的多视角特征图为f
is
,对于查询集图像,记其得到的多视角特征图为f
iq
,i表示集合中的图像序号;然后,对于查询集中每个测试图像,将其对应的多视角特征图和所有类别中心按行拼接,得到对应的增广多视角特征图行拼接,得到对应的增广多视角特征图其中,为类别c的多视角类别中心特征图,由所有视角下的支持集图像特征取平均得到;再经transformer结构进行特征融合,具体表达式如下:再经transformer结构进行特征融合,具体表达式如下:其中,(q,k,v)为transformer结构的接收三元组输入,w
q
、w
k
和wv为三个全连接层,为融合后特征;对按行均等拆分,得到两个特征,分别记为和将和按第2、3维度展开并按下式计算其欧式距离d
i
,即为融合测试图像特征图与融合后类别中心特征图之间的距离:其中,d(
·
)表示欧式距离函数,row
j
表示取矩阵的第j行;采用最近邻原型表征原理,选取距离最近的类别中心作为该测试图像的预测类别;多视角特征融合语义分类器对应的损失函数如下:
其中,表示多视角特征融合主分类损失,y
i
表示查询集中第i个测试图像的真实语义标签,[d
i
]
c
表示查询集中第i个测试图像特征与类别c的类别中心之间的欧氏距离;分类模型的总损失函数如下:其中,表示分类模型网络的总损失,β为旋转角预测损失项的权重超参数,取值范围为1至5,γ为类别分布一致性损失项的权重超参数,取值范围为10至50;步骤4:将待处理的遥感图像数据集输入到步骤3训练好的分类模型,其中分类模型中多视角特征融合语义分类器的输出即为每幅图像的最终类别预测结果。
技术总结
本发明提供了一种基于多视角特征融合的遥感图像小样本分类方法。首先,对输入训练集图像进行旋转增强处理;然后,对所有多视角下的图像进行特征提取;接着,将提取到的特征输入到分类模型网络进行训练,该模型包括全连接层旋转角分类器、基础语义分类器和多视角特征融合语义分类器三个并列的分支,并分别设计了相应的损失函数;最后,利用训练好的网络对待处理遥感图像数据集进行分类预测。本发明能够解决有标签样本数量稀少时,模型在遥感场景识别训练过程存在的泛化性不足的问题,具有促进模型学习可迁移知识、抑制遥感图像中语义无关内容以及强化最近邻原型匹配关联信息的有益效果。效果。效果。
技术研发人员:王琦 贾玉钰 袁媛
受保护的技术使用者:西北工业大学
技术研发日:2023.02.07
技术公布日:2023/8/4
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/