一种基于两帧标注的高泛化性视频物体分割方法
未命名
09-12
阅读:85
评论:0

1.本发明属于视频目标分割技术领域,具体涉及一种基于每个训练视频只需两帧标注进行视频目标分割的模型方法。
背景技术:
2.视频物体分割任务(video object segmentation),简称vos,其任务是根据视频给出的第一帧(参考帧)对目标物体的标注对视频剩下所有帧中的目标物体进行分割。该任务是众多视频理解任务的关键步骤,如自动驾驶、视频剪辑等。
3.当前的vos方法中,以stm
1.为代表的基于特征匹配的方法占据了主流地位,这类方法的特点在于会存储多帧的特征信息,通过构建逐像素匹配的方法对查询帧进行分割。大多数后续工作在不同方面对stm进行了改进,如stcn
2.在不需要重复编码掩膜信息的基础上构建了帧与帧之间的联系,rde-vos
3.提出了一个大小固定的存储网络,从而避免了随着视频帧的增多分割效率降低;xmem
4.则是结合多种不同的特征存储结构,实现了最优的分割性能。
4.但这些工作的不足之处在于,模型的训练是基于有密集标签的视频数据集。例如,davis benchmark数据集包含60个视频,每个视频平均有70个有标签的帧;youtube-vos数据集包含更多数量的视频(3472),但为了节省成本,每个视频每隔五帧都有一帧被标签。实现像素级别的标签所需的时间和人力成本很高。因此,对于标签数据的依赖大大限制了vos模型在实际场景中的应用。如何实现基于少量标签数据依然可以训练高效的vos模型是十分必要的。
技术实现要素:
5.本发明的目的是提供一种基于两帧标注的高泛化性视频物体分割方法,也就是对于每个训练视频,只需要随机标注两帧,就可以训练得到性能良好的vos模型。该方法是一种通用的训练方法,可以适用于当前主流的基于特征匹配的vos模型训练。
6.为解决上述技术问题,本发明提供的技术方案具体如下:
7.一种视频物体分割方法,其步骤包括:
8.1)对于每个训练视频,随机采样两帧保留相应的标签,剩下的帧作为无标签的帧;基于半监督方法训练一个初始的vos模型,每次数据迭代基于三帧取样,第一帧从上述有标签的两帧中取样得到,有50%的概率第二帧和第三帧都是无标签的帧,有50%的概率第二帧和第三帧中,一帧有标签,另一帧无标签;
9.2)利用步骤1)训练得到的vos模型,将标签帧作为参考帧,进行双向的推断,即从当前帧到整个视频的起始帧和从当前帧到视频的最后帧两个方向预测分割结果;对每个未标签的帧,选择离它最近的标签帧推断的预测结果作为伪标签;
10.3)构建伪标签数据库,使用步骤2)得到的结果对伪标签数据库进行初始化,使用伪标签数据库的标签,按照vos模型原本监督训练方式进行训练,对目标物体进行分割。
11.进一步,步骤1)中使用跳跃采样方法获得无标签帧,随着训练过程进行,将随机跳跃采样的帧间隔参数从1逐步增加到5。
12.进一步,步骤1)中基于半监督方法训练具体为,根据第一帧的标注预测第二帧的分割结果,再根据第一帧的标注和第二帧的分割结果预测第三帧的分割结果,然后将第二帧和第三帧的预测结果与标注或伪标签进行比对,计算相应的损失函数,通过反向传播方式训练模型。
13.本发明的技术效果如下:
14.本发明所提供的基于两帧标注的高泛化性视频物体分割方法可以使得当前主流的vos模型可以在每个训练视频仅仅随机标注两帧的前提下依然可以达到跟在全标注数据下相媲美的精度。
附图说明
15.图1是本发明的整理框架图。
16.图2是本发明中双向预测的示意图。
具体实施方式
17.下面通过实例对本发明做进一步的说明:
18.对已有的密集标签的数据集如davis、youtube-vos等,对于每个训练视频随机采样两帧保留相应的标签,剩下的帧作为无标签的帧。
19.参考图1,本发明包括三个步骤,具体为
20.1)如图1中的a阶段所示,对于一个需应用的vos模型,使用基于三帧取样的方式,基于半监督方法训练一个初始的vos模型。
21.2)如图1中的b阶段,利用a阶段训练得到的vos模型,利用双向推理的方法,为所有的无标签帧生成对应的伪标签。
22.3)如图1中的c阶段所示,构建一个伪标签数据库,并用b阶段得到的结果对伪标签数据库进行初始化;之后按照所应用的vos模型使用原来全监督训练的方式进行训练(标签来自于伪标签数据库),并随着训练过程动态的更新伪标签,提高伪标签的质量,从而进一步辅助模型的高效训练。
23.在a阶段,为了尽可能的避免伪标签误差传播对模型训练造成的负面影响,模型训练的每次数据迭代是基于三帧采样得到。具体来说,对于每次训练的三帧,第一帧也就是参考帧总是从两帧标签帧中取样得到。剩余的两帧有0.5的概率全部是无标签帧,有0.5的概率其中一帧为有标签帧。对于无标签帧使用跳跃采样的方法(以最近的标签帧为起点),随着训练过程进行,将随机跳跃采样的帧间隔参数从1逐步增加到5。
24.模型训练采用半监督方法进行训练,给出一个训练的三元组,第一帧(参考帧)负责提供需要后续分割的目标物体标注。vos模型会根据第一帧给出的信息预测第二帧,并同时根据第一帧和第二帧的信息预测第三帧。对于第二帧和第三帧的预测会计算损失,并通过损失反传更新模型。其中具体的预测过程由所应用的vos模型本身决定。本方法只需要简单的改变其训练方式,具体来说,对于训练三元组中的后两帧,有n1帧标注帧,n2帧无标注帧(n1=1,n2=1或n1=0,n2=2),则最终的损失其中为监督损失,为无监督
损失。具体定义如下:
25.1.
26.h和w分别代表输入的高和宽,代表了交叉熵函数,表示在第n帧标注帧的像素点(i,j)上的预测,代表了对应的标注。
27.2.
28.为指示函数,用来过滤掉置信度小于τ1的预测,表示第n帧无标注帧的像素点(i,j)上的预测,代表了生成的伪标签,τ1被设置为0.9用来保证生成的伪标签质量。
29.在b阶段中,将标签帧作为参考帧,进行双向的推断,即从当前帧到整个视频的起始帧和从当前帧到视频的最后帧两个方向预测分割结果;对每个未标签的帧,选择离它最近的标签帧推断的预测结果作为伪标签,如图2所示;
30.在c阶段中,构建伪标签数据库,对于有标签的帧使用本身的标签,对于无标签的帧,使用伪标签;c阶段中的训练跟所应用的vos模型本身在全标签数据下的训练方式相同(如训练帧的采样),除了训练中的“标注”是来自于伪标签库,其中损失计算跟a阶段中的损失计算相同。
31.但是随着模型的训练,模型的预测越来越准确,会得到更多高质量的伪标签,因此,为了进一步促进模型的高效训练,在c阶段中,本发明会动态的更新伪标签库中的伪标签。具体来说,在构建伪标签库之后的模型训练中,对于每次迭代,给出一帧无标签帧在像素点(i,j)上的预测p
(i,j)
,一旦p
(i,j)
满足条件max(p
(i,j)
)≥τ2,那么在伪标签库对应的伪标签会被更新为其中τ2被设置为0.99。
32.完成训练后,可利用训练好的vos模型对目标物体进行分割,具体过程由所应用的vos模型本身决定。
33.参考文献
34.[1].seoung wug oh,joon-young lee,ning xu,and seon joo kim.video object segmentation using space-time memory networks.in proceedings of the ieee/cvf international conference on computer vision,pages 9226-9235,2019.
[0035]
[2].ho kei cheng,yu-wing tai,and chi-keung tang.rethink-ing space-time networks with improved memory coverage for efficient video object segmentation.advances in neural information processong systems,34:11781-11794,2021.
[0036]
[3].mingxing li,li hu,zhiwei xiong,bang zhang,pan pan,946and dong liu.recurrent dynamic embedding for video ob-947ject segmentation.in proceedings of the ieee/cvf con-948ference on computer vision and pattern recognition,pages 1332-1341,2022.
[0037]
[4].ho kei cheng and alexander g schwing.xmem:long-term video object segmentation with an atkinson-shiffrin memory model.arxiv preprint arxiv:2207.07115,2022.
技术特征:
1.一种视频物体分割方法,其步骤包括:1)对于每个训练视频,随机采样两帧保留相应的标签,剩下的帧作为无标签的帧;基于半监督方法训练一个初始的vos模型,每次数据迭代基于三帧取样,第一帧从上述有标签的两帧中取样得到,有50%的概率第二帧和第三帧都是无标签的帧,有50%的概率第二帧和第三帧中,一帧有标签,另一帧无标签;2)利用步骤1)训练得到的vos模型,将标签帧作为参考帧,进行双向的推断,即从当前帧到整个视频的起始帧和从当前帧到视频的最后帧两个方向预测分割结果;对每个未标签的帧,选择离它最近的标签帧推断的预测结果作为伪标签;3)构建伪标签数据库,使用步骤2)得到的结果对伪标签数据库进行初始化,使用伪标签数据库的标签,按照vos模型原本监督训练方式进行训练,对目标物体进行分割。2.如权利要求1所述的视频物体分割方法,其特征在于,步骤1)中训练视频采用已有的密集标注的数据集davis、youtube-vos。3.如权利要求2所述的视频物体分割方法,其特征在于,步骤1)使用跳跃采样方法获得无标签的帧,随着训练过程进行,将随机跳跃采样的帧间隔参数从1逐步增加到5。4.如权利要求1所述的视频物体分割方法,其特征在于,步骤1)中所述基于半监督方法训练具体为,根据第一帧的标注预测第二帧的分割结果,再根据第一帧的标注和第二帧的分割结果预测第三帧的分割结果,然后将第二帧和第三帧的预测结果与标注或伪标签进行比对,计算相应的损失函数,通过反向传播方式训练模型。5.如权利要求4所述的视频物体分割方法,其特征在于,所述损失函数其中为监督损失,为无监督损失,具体定义如下:h和w分别代表输入的高和宽,代表了交叉熵函数,表示在第n帧标注帧的像素点(i,j)上的预测,代表了对应的标注;代表了对应的标注;为指示函数,用来过滤掉置信度小于τ1的预测,表示第n帧无标注帧的像素点(i,j)上的预测,代表了生成的伪标签。6.如权利要求5所述的视频物体分割方法,其特征在于,置信度阈值τ1为0.9。7.如权利要求1所述的视频物体分割方法,其特征在于,步骤3)中随着训练过程动态的更新伪标签,对于每次迭代,给出一帧无标签帧在像素点(i,j)上的预测p
(i,j)
,一旦p
(i,j)
满足条件max(p
(i,j)
)≥τ2,那么在伪标签库对应的伪标签会被更新为8.如权利要求7所述的视频物体分割方法,其特征在于,置信度阈值τ2为0.99。
技术总结
本发明提供了一种基于两帧标注的高泛化性视频物体分割方法,属于视频目标分割技术领域。本发明对于每个训练视频,只需要随机标注两帧,就可以训练得到性能良好的VOS模型。可以适用于当前主流的基于特征匹配的VOS模型训练,达到与全标注数据下相媲美的精度。达到与全标注数据下相媲美的精度。达到与全标注数据下相媲美的精度。
技术研发人员:王平 颜鲲 张晨滨 戴舒羽 马萌
受保护的技术使用者:北京大学
技术研发日:2023.06.09
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/