一种面向半监督指向性目标检测的教师-学生网络方法

未命名 08-20 阅读:131 评论:0


1.本发明属于图像处理技术领域,涉及指向性目标检测和半监督学习,特别是涉及一种面向半监督指向性目标检测的教师-学生网络方法。


背景技术:

2.指向性目标检测也被称为短语定位,旨在定位给定自然语言表达所指图像中的目标对象。半监督学习通过利用少量有标签和大量无标签样本的学习提升模型性能,从而减少数据标注成本。
3.在目前的方法和文献中,指向性目标检测被分为单阶段和双阶段模型。双阶段模型先利用目标检测网络提取和检测出图片中的不同物体,再通过计算指向性描述语句与物体之间的相似度,得到与描述最相关的物体。而单阶段模型直接通过特征对齐来进行边界框的预测,端到端的网络不仅性能满意并且速度快。半监督学习在计算机视觉领域被广泛研究,包括半监督分类、目标检测、分割等,但在多模态领域没有引起足够的关注。
4.现有的方法中,所有的指向性目标检测模型都依赖于大量的标注数据进行全监督训练,这无疑会耗费大量成本。而在半监督学习领域,单单将目标检测框架迁移到指向性目标检测任务中会面临两大问题。第一个挑战是极其稀疏的监督信号,与目标检测相反,指向性目标检测仅为每个文本图像对提供一个实例,这种预测模式使得模型在师生学习过程中比半监督目标检测受到更少的伪监督,即只有一个边界框且没有类别伪标签。第二个挑战是稀疏的监督信号,半监督目标检测方法能够应用nms和高阈值滤波来丢弃大多数有噪声的伪标签,从而避免半监督学习中错误累积的问题,但是在半监督指向性目标检测中,由于已经稀疏的伪标签信息,强滤波是不可行的。


技术实现要素:

5.本发明的目的在于提供可提高预测精度并减少标注成本的一种面向半监督指向性目标检测的教师-学生网络方法。
6.本发明所述一种面向半监督指向性目标检测的教师-学生网络方法,用于根据rgb图像和描述语言,在rgb图像中定位描述语言指代的对象;包括如下步骤:
7.步骤1,首先进入burn-in阶段,利用有标签数据训练一个教师网络,设置输入的rgb图像大小为416
×
416
×
3,描述语言的最长文本输入设置为15,标注框为(x,y,w,h);
8.步骤2,经过burn-in阶段后,进入半监督学习阶段,将教师网络权重赋值给学生网络以初始化学生网络。
9.步骤3,大量仅包含图像和文本的无标签数据经过弱数据增强送入冻结的教师网络,产生伪边界框标签和对应置信度此外,教师网络同时输出注意力特征图行为以便于后续学生网络的学习引导;
10.步骤4,少量有标签数据和大量包含伪标签的有标签数据经过强数据增强送入学生网络,学生网络同时学习有标签数据的l
sup
和伪标签的l
unsup
;为缓解伪标签错误率高和稀
疏问题,分别引入自适应伪标签加权模块(apw)和注意力模仿学习模块(ail);其中自适应伪标签加权模块(apw)使学生网络自适应学习伪标签信息,注意力模仿学习模块(ail)引导学生网络学习教师网络的密集行为;
11.步骤5,学生网络进行梯度更新优化,通过ema(exponential moving average,指数滑动平均)将权重更新给教师网络。
[0012][0013][0014]
其中,和分别表示教师网络和学生网络的参数,γ为学生网络反向传播更新步长,λu为学生网络学习伪标签损失权重,α为教师网络ema更新系数。
[0015]
上述步骤2中,在burn-in阶段,利用少量有标签数据全监督训练教师网络,损失为l
sup
,由边界框回归损失和置信度损失构成:
[0016][0017]
其中,b和c分别为预测的边界框坐标和对应的置信度,而和是真实标签。
[0018]
上述步骤4中,学生网络的损失如下:
[0019]
l=l
sup
+λu·
l
umsup
,
[0020]
其中,λu是用于控制无监督损失的权重。
[0021]
对于学生网络学习伪标签的无监督损失,考虑到回归框不准确,学习置信度损失。
[0022][0023]
其中,是由教师网络预测出的伪置信度标签。
[0024]
上述步骤4中,考虑到伪标签错误率高的问题,apw模块被引入来自适应调节学生网络的训练优化:
[0025][0026]
通过上式,当教师网络预测不确定的低置信度伪标签时,apw模块自适应地降低该样本对无标签损失的贡献。
[0027]
上述步骤4中,考虑到伪标签稀疏的问题,ail模块利用教师网络注意力引导学生网络学习:
[0028][0029]
其中,n=h
×w×
d,为注意力特征图的大小。和分别为教师网络和学生网络的注意力特征。
[0030]
步骤5中,学生网络整体优化的损失l为:
[0031][0032]
其中,λu和λ
imi
分别控制置信度损失和注意力约束损失的权重。
[0033]
神经网络的训练过程中,使用adam优化器,并设置初始学习率为0.0001,batchsize为16,包含8对有标签和8对无标签的图文对,burn-in的step设为6k,超参数α、λ
imi
和λu分别设置为0.9996、0.05和0.5。强增强包括randomresize,randomsizecrop,randomhorizontalflip,colorjitter,augtranslate,弱增强单单是randomhorizontalflip。
[0034]
采用上述方案后,本发明利用教师-学生网络框架有效利用大量无标签数据解决半监督指向性目标检测任务,但是,由于指向性目标检测只能输出不带类别的单一边界框,不利于学生网络对伪标签的学习,影响模型的性能。因此,本发明的改进点体现在:
[0035]
1、本发明提出第一个针对半监督指向性目标检测的基线,有助于降低标注成本;
[0036]
2、本发明针对半监督指向性目标检测任务中存在的稀疏监督信号和伪标签错误率高问题,提出ail和apw模块,解决两大挑战,提升模型的性能。
附图说明
[0037]
图1是半监督指向性目标检测整体框架图。
[0038]
图2是apw模块结构示意图。
[0039]
图3是ail模块结构示意图。
[0040]
图4是本发明所提方法与基线的性能比较图。
具体实施方式
[0041]
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
[0042]
本发明提供一种面向半监督指向性目标检测的教师-网络方法,包括如下过程:
[0043]
一、模型实施过程:
[0044]
面向半监督指向性目标检测的教师-学生网络框架图如图1所示。
[0045]
1.1模型的输入:
[0046]
模型输入包括少量有标签数据(图1左下角示例)和大量的无标签数据(图1左上角示例)。其中,有标签数据一张rgb的图像,其大小为416
×
416
×
3,以及一句对于图中某个物体的描述语言,其中模型的最长文本输入设置为15及其对应的边界框(x,y,w,h)。无标签数据单单有图片和文本。
[0047]
1.2burn-in阶段:
[0048]
首先,利用有标签数据训练一个教师网络,损失为l
sup
,由边界框回归损失和置信度损失构成:
[0049][0050]
其中,b和c分别为预测的边界框坐标和对应的置信度,而和是真实标签。
[0051]
1.3半监督阶段
[0052]
接着,进入半监督学习阶段,将教师网络权重赋值给学生网络以初始化学生网络。
[0053]
1.3.1伪标签的产生
[0054]
大量仅包含图像和文本的无标签数据经过弱数据增强送入冻结的教师网络(图1上方灰色部分),产生伪边界框标签和对应置信度此外,教师网络同时输出注意力特征图行为以便于后续学生网络(图1下方灰色部分)的学习引导;
[0055]
1.3.2学生网络的优化
[0056]
少量有标签数据和大量包含伪标签的有标签数据经过强数据增强送入学生网络,学生网络同时学习有标签数据的l
sup
和伪标签的l
unsup
。学生网络的损失如下:
[0057]
l=l
sup
+λu·
l
unsup
,
[0058]
其中,λu是用于控制无监督损失的权重。
[0059]
对于学生网络学习伪标签的无监督损失,考虑到回归框不准确,学习置信度损失。
[0060][0061]
其中,是由教师网络预测出的伪置信度标签。
[0062]
1.3.3apw模块
[0063]
考虑到伪标签错误率高的问题,apw模块被引入来自适应调节学生网络的训练优化,其使用教师网络的置信度作为先验引导学习,如图2所示,假设传入三个无标签数据,教师网络预测置信度分别为0.8,0.5和0.1,学生网络学习伪标签得到的损失分别为1.2,2.1和2.3,通过对应点积运算进行损失加权得到最终的损失公式如下:
[0064][0065]
通过上式,当教师网络预测不确定的低置信度伪标签时,apw模块自适应地降低该样本对无标签损失的贡献。
[0066]
1.3.4 ail模块
[0067]
现有的单阶段指向性目标检测模型(jiajun deng,et al.,transvg:end-to-end visual grounding with transformers.in proceedings of the ieee/cvf international conference on computer vision,pages 1769

1779,2021.binbin huang,et al.,look before you leap:learning landmark features for one-stage visual grounding.in proceedings of the ieee/cvf conference on computer vision and pattern recognition,pages 16888

16897,2021.aishwarya kamath,etal.,.mdetrmodulated detection for end-to-end multi-modal understanding.in proceedings of the ieee/cvf international conference on computer vision,pages 1780

1790,2021.gen luo,etal.,multi-task collaborative network for joint referring expression comprehension and segmentation.in proceedings of the ieee/cvf conference on computer vision and pattern recognition,pages10034-10043,2020.)输入图片和文本,经过特征融合会得到多模态特征fm∈rh×w×d,然后输入注意力模块得到f
att
∈rh×w×d来进行图文对齐。考虑到伪标签稀疏的问题,ail模块利用教师网络
注意力引导学生网络学习,丰富伪标签信息,如图3所示,和fm分别为教师网络和学生网络的多模态特征,与文本特征f
t
经过注意力机制后分别得到注意力特征和以求解损失l
imi
。公式如下:
[0068][0069]
其中,n=h
×w×
d,为注意力特征图的大小。和分别为教师网络和学生网络的注意力特征。
[0070]
二、模型训练过程:
[0071]
2.1损失函数的计算与模型更新:
[0072]
学生网络整体优化的损失l为:
[0073][0074]
其中,λu和λ
imi
分别控制置信度损失和注意力约束损失的权重。
[0075]
学生网络进行梯度更新优化,并通过ema(antti tarvainen and harrivalpola.mean teachers are betterrole models:weight-averaged consistency targets improvesemi-supervised deep learning results.advances in neuralinformation processing systems,30,201 7)将权重更新给教师网络。
[0076][0077][0078]
2.2模型训练参数设置:
[0079]
使用adam优化器(alex krizhevsky,ilya sutskever,and geoffrey e hinton.imagenet classification with deep convolutional neural networks.communications of the acm,60(6):84-90,2017),并设置初始学习率为0.0001,batchsize为16,包含8对有标签和8对无标签的图文对,burn-in的step设为6k,超参数α、λ
imi
和λu分别设置为0.9996、0.05和0.5。
[0080]
2.3模型的训练:
[0081]
对于模型的训练,首先将输入的图片和语言经过步骤一得到模型的输出结果,接着通过步骤2.1来计算模型输出和标注好的标签以及伪标签之间的损失函数,最后,利用损失函数的梯度反向传播和ema来更新步骤一中的模型参数,训练和迭代过程的设置如步骤2.2所描述。最终完成整个模型的训练。
[0082]
三、模型部署过程:
[0083]
在经过步骤二的模型训练后,对于训练完毕的模型,将输入的图片和描述语言经过步骤一即可得到教师模型的输出作为模型的预测结果。
[0084]
如图4图所示,在10%refcoco数据集的标注成本下,本发明提出的方法为绿色曲线,比全监督基线(红色曲线)和stac半监督方法(kihyuk sohn,zizhao zhang,chun-liang li,han zhang,chen-yu lee,and tomas pfister.a simple semi-supervised learning framework for object detection.arxiv preprint arxiv:2005.04757,2020.)(蓝色曲线)性能都有所提升。
[0085]
表1apw和ail模块的有效性表
[0086][0087]
如表1所示,在1%的标注成本下,apw模块和ail模块在refcoco、refcoco+和refcocog三个数据集上都有效,并且同时使用这两个模块效果最佳,证明了本发明提出模块的实用性。
[0088]
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

技术特征:
1.一种面向半监督指向性目标检测的教师-学生网络方法,其特征在于包括如下步骤:步骤1,进入burn-in阶段,利用有标签数据训练一个教师网络,设置输入的rgb图像大小为416
×
416
×
3,描述语言的最长文本输入设置为15,标注框为(x,y,w,h);步骤2,经过burn-in阶段后,进入半监督学习阶段,将教师网络权重赋值给学生网络以初始化学生网络;步骤3,大量仅包含图像和文本的无标签数据经过弱数据增强送入冻结的教师网络,产生伪边界框标签和对应置信度教师网络同时输出注意力特征图行为教师网络同时输出注意力特征图行为以便于后续学生网络的学习引导;步骤4,少量有标签数据和大量包含伪标签的有标签数据经过强数据增强送入学生网络,学生网络同时学习有标签数据的l
sup
和伪标签的l
unsup
;为缓解伪标签错误率高和稀疏问题,分别引入apw模块和ail模块,其中apw模块用于使学生网络自适应学习伪标签信息,ail模块用于引导学生网络学习教师网络的密集行为;步骤5,学生网络梯度更新优化,通过ema将权重更新给教师网络;步骤5,学生网络梯度更新优化,通过ema将权重更新给教师网络;其中,和分别表示教师网络和学生网络的参数,γ为学生网络反向传播更新步长,λ
u
为学生网络学习伪标签损失权重,α为教师网络ema更新系数。2.如权利要求1所述一种面向半监督指向性目标检测的教师-学生网络方法,其特征在于在步骤1中,在burn-in阶段,利用少量有标签数据全监督训练教师网络,损失为l
sup
,由边界框回归损失和置信度损失构成:其中,b和c分别为预测的边界框坐标和对应的置信度,而和是真实标签。3.如权利要求1所述一种面向半监督指向性目标检测的教师-学生网络方法,其特征在于在步骤4中,所述学生网络的损失如下:l=l
sup

u
·
l
unsup
,其中,λ
u
是用于控制无监督损失的权重;对于学生网络学习伪标签的无监督损失,考虑到回归框不准确,学习置信度损失;其中,是由教师网络预测出的伪置信度标签。4.如权利要求1所述一种面向半监督指向性目标检测的教师-学生网络方法,其特征在于在步骤4中,考虑到伪标签错误率高的问题,apw模块被引入来自适应调节学生网络的训练优化:
通过上式,当教师网络预测不确定的低置信度伪标签时,apw模块自适应地降低该样本对无标签损失的贡献。5.如权利要求1所述一种面向半监督指向性目标检测的教师-学生网络方法,其特征在于在步骤4中,考虑到伪标签稀疏的问题,ail模块利用教师网络注意力引导学生网络学习:其中,n=h
×
w
×
d,为注意力特征图的大小;和分别为教师网络和学生网络的注意力特征。6.如权利要求1所述一种面向半监督指向性目标检测的教师-学生网络方法,其特征在于在步骤5中,所述学生网络梯度更新优化,整体优化的损失l为:其中,λ
u
和λ
imi
分别控制置信度损失和注意力约束损失的权重;网络的训练过程中,使用adam优化器,并设置初始学习率为0.0001。

技术总结
一种面向半监督指向性目标检测的教师-学生网络方法,属于图像处理技术领域。通过利用少量的有标签数据和大量的无标签数据来提升模型性能并减少标注成本。教师网络为无标签数据预测伪标签,学生网络同时学习有标签数据和伪标签。为了解决半监督REC中的两个关键挑战,即稀疏监督信号和更差的伪标签噪声,提出基于注意力的模仿学习模块(AIL)和自适应伪标签加权模块(APW)。AIL模块可以帮助学生网络模仿教师的密集行为,从而获得足够的监督信号。APW模块可以帮助模型自适应地调整具有不同质量的伪标签的贡献,从而避免模型偏置。此种教师-学生网络方法能够有效解决半监督指向性目标检测问题。测问题。测问题。


技术研发人员:纪荣嵘 周奕毅 孙嘉沐
受保护的技术使用者:厦门大学
技术研发日:2023.06.07
技术公布日:2023/8/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐