一种基于深度学习的前后帧关联人像分割方法

未命名 10-19 阅读:88 评论:0


1.本发明属于图像处理技术领域,特别涉及一种基于深度学习的前后帧关联人像分割方法。


背景技术:

2.随着远距离办公的需求增加,视频会议逐渐成为常用的办公方式。传统的视频会议着眼点在保证通话的质量和稳定性上,但是随着人们对于隐私性和保密性的认识逐渐加深,视频会议背景的改换成为一种迫切需求。在大时代背景下,随着相机、手机等硬件设备的发展,需要后期处理的图像也越来越多。但由于图像具有多样性与复杂性,无论传统图像处理方法还是深度学习方法,都难以做到对图像中全部物体精准分割。而针对特定类别的图像分割算法可以在选定的物体范围内提高图像分割的鲁棒性,这在现实生活中更具有实际应用意义。
3.图像语义分割是根据图像的内在性规则,如像素点之间的明暗关系、图像纹理、像素灰度级等来将图像划分为若干个子图像区块的过程,以使得每个区块具有特定特征,与其他区块形成显著对比。图像分割在广泛的应用中发挥着核心作用,例如医学图像分析、自动驾驶汽车、视频监控和增强现实。所以,人像语义分割是语义图像分割的一种,从图像或者视频中提取出人像前景,使人像与背景准确分离的一种技术,被广泛用作安全系统、娱乐应用、视频会议等多种应用中的预处理步骤,这些应用主要基于图像合成技术。其中,虚拟背景替换依托于人像分割技术,通过将图片中的人像分割出来,对背景图片进行替换实现。根据其使用的应用场景,大体可以分成以下三类:
4.1)直播场景:用于氛围营造,例如教育直播、线上年会等;
5.2)通讯场景:用于保护用户隐私,例如视频会议等;
6.3)互动娱乐场景:用于增加趣味性,例如影视编辑、抖音人物特效等。
7.为此,实时人像分割成为替换会议参与者背景的流行功能。因此,在pc终端设备进行高分辨率的语义分割及去除,成为重要的需求。
8.近年来,国内外对人像分割进行了大量研究。2017至2018年,谷歌团队在deeplab v1的基础上相继推出语义分割模型deeplab v2、deeplab v3。deeplab v3对aspp(空洞金字塔池化)优化添加1*1卷积,bn层,相较于v1、v2实现了更高精度的提升,更丰富的语义信息编码。同时v3使用了空洞卷积以减少下采样缓解由于下采样过多而使得被分割物体的边缘信息丢失的问题。现有技术中提出了一种用于人像提取及半身像合成的生成对抗网络算法,利用生成对抗网络进行标准的人像证件照合成,该算法具有良好的适应性。还包括一种基于全卷积神经网络的人像分割算法,能够有效地分离人物与背景,并且可以较好地处理人物头发边缘,取得了良好的分割效果。还有轻量级网络mobilenetv2,mobilenetv2利用linear bottleneck和inverted residual,既可以提取到图像足够多的信息又能够提升整体的计算速度,使得模型在保持轻量级时速度与精度也能得到保证。
9.deeplab v3本身存在一些问题,例如在backbone网络中多次下采样使得被分割物
体的边缘信息丢失,导致边缘模糊以及空洞卷积占用过多的显存和较高的计算量等。大部分分割网络往往为了追求分割效率以及精度需要庞大的计算资源和较强的硬件设备,不利于网络的迁移使用。而对于部分当前的轻量级分割网络,虽然已经提供了功能丰富的数据集、模型和算法用于从生活场景中提取身体姿势的分割,但尚未很好地涵盖视频会议场景中的人像分割需求。
10.目前常用的分割方式仅仅对单帧进行处理操作,忽略了视频流前后帧的连续性。因此,我们的目标是为解决视频会议的人像分割提供一种基于图像语义分割的,精度较高且衔接性较好的解决方案。


技术实现要素:

11.有鉴于此,本发明提出一种基于深度学习的前后帧关联人像分割方法,包括以下步骤:
12.包括以下步骤:
13.s10,图像预处理;
14.s20,训练神经网络,得到蒙版;
15.s30,分割蒙版;
16.s40,处理后图像输出。
17.优选地,所述s10图像预处理包括以下步骤:
18.s11,对图像进行去噪处理,采用高斯模糊函数对图像进行去噪操作;
19.s12,进行缩放操作,使用双线性插值将输入图像大小统一调整为640*480。
20.优选地,所述s11中二维高斯分布为:
21.其中,x为当前像素相对中心像素点的x坐标值,y为当前像素相对中心像素点的y坐标值,σ为标准差,本方法中取1.5;
22.高斯滤波去噪是对某块区域内的像素值进行加权平均,每一个像素点的值,都由其本身值和邻域内的其他像素值经过加权平均后得到,而噪点像素值相对该区域平均值差异较大,故采用高斯滤波的方式去除。
23.优选地,所述s12中双线性插值操作,对于图像大小变换后新位置(x,y)的像素值,计算公式为:
24.25.其中,q
11
,q
21
,q
12
,q
22
依次分别为与新位置像素相邻的左下角、右下角、左上角、右上角的像素点,对应坐标位置为(x1,y1),(x2,y1),(x1,y2),(x2,y2)。
26.优选地,所述s20中神经网络选择骨干网络resnet101,并接入eca模块与rcca模块,对得到的结果进行上采样操作得到蒙版。
27.优选地,所述神经网络的模型结构为:
[0028][0029]
优选地,所述eca模块即高效通道注意模块,是一种基于cnn网络的极轻量的通道注意力模块,通过共享相同的学习参数,通过内核大小为k的1维卷积来实现通道之间的信息交互,建立矩阵wk来学习通道注意力,该矩阵有k
×
c个参数,其中w为对相邻k个通道进行卷积操作的权值:
[0030][0031]
ωi即通道注意力,计算公式如下,其中yi为各通道全局平均池化的输出,yi的权重仅通过考虑yi与其k个相邻通道之间的交互来计算;
[0032][0033]
其中,k与通道维度c存在如下映射关系,其中odd表示最接近的奇数,γ=2,b=1:
[0034]
c=φ(k)=2
(γ*k-b)
[0035][0036]
优选地,所述rcca模块为criss-cross attention的叠加,此处选择使用叠加次数为2,其中criss-cross attention通过十字交叉融合,使每个位置皆可获取全局特征信息,首先对于主干网络输出得到的x进行卷积操作减少通道数,得到feature mapsh,h∈[c
×w×
h],对h分别使用三个1
×
1卷积得到q、k和v,其中{q,k}∈[c
′×w×
h],c

为c的八分之一;对q和k进行affinity操作计算生成a;其中,affinity操作为在q中的每一个位置μ,都在通道中得到对应的向量q6,同时从k中提取与μ处于同一行、同一列的向量ωu∈r
(8+w-1)
*c

,那么第i个位置的参数为ω
i,u
,引出affinity计算公式为:
[0037][0038]
得到的矩阵d经过softmax激活后得到a∈[(h+w-1)
×
c];对于v,同样对于每一个位置μ,在通道中得到一个向量集φu∈[(h+w-1)
×
c],将该向量集与a相乘,再加上原始输入h,即完成了一次criss-cross attention操作。
[0039]
优选地,所述s30,分割蒙版包括以下步骤:
[0040]
s31,对蒙版进行腐蚀操作;
[0041]
s32,膨胀操作;
[0042]
s33,结合前后帧结果进行加权平滑操作。
[0043]
优选地,所述s31中腐蚀操作包括将核在原始图像中进行遍历,然后将原始图像遍历到的像素点的值与自定义卷积核得值进行与运算,像素点与对应核一一对应进行与操作,当卷积核对应的元素值均为1时,设置卷积核中心值的像素点为1,否则其值设置为0。
[0044]
有益效果至少包括:
[0045]
1)网络模型接入eca及rcca模块,人像分割精度提高;
[0046]
2)结合前后帧结果进行加权平滑操作以及光流法,使得分割结果前后衔接度较高。
附图说明
[0047]
图1为本发明实施例基于深度学习的前后帧关联人像分割方法的步骤流程图;
[0048]
图2为本发明实施例基于深度学习的前后帧关联人像分割方法的s20流程示意图;
[0049]
图3为本发明实施例基于深度学习的前后帧关联人像分割方法的网络模型初步分割效果图;
[0050]
图4为本发明实施例基于深度学习的前后帧关联人像分割方法的网络模型腐蚀、膨胀处理后得到的蒙版效果图。
具体实施方式
[0051]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0052]
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
[0053]
为实现上述目的,本发明提出了一种基于深度学习的前后帧关联人像分割方法,参见图1,包括以下步骤:
[0054]
包括以下步骤:
[0055]
s10,图像预处理;
[0056]
s20,训练神经网络,得到蒙版;
[0057]
s30,分割蒙版;
[0058]
s40,处理后图像输出。
[0059]
s10图像预处理包括以下步骤:
[0060]
s11,对图像进行去噪处理,采用高斯模糊函数对图像进行去噪操作;
[0061]
s12,进行缩放操作,使用双线性插值将输入图像大小统一调整为640*480。
[0062]
s11中二维高斯分布为:
[0063]
其中,x为当前像素相对中心像素点的x坐标值,y为当前像素相对中心像素点的y坐标值,σ为标准差,本方法中取1.5;
[0064]
高斯滤波去噪是对某块区域内的像素值进行加权平均,每一个像素点的值,都由其本身值和邻域内的其他像素值经过加权平均后得到,而噪点像素值相对该区域平均值差异较大,故采用高斯滤波的方式去除。
[0065]
s12中双线性插值操作,对于图像大小变换后新位置(x,y)的像素值,计算公式为:
[0066][0067]
其中,q
11
,q
21
,q
12
,q
22
依次分别为与新位置像素相邻的左下角、右下角、左上角、右上角的像素点,对应坐标位置为(x1,y1),(x2,y1),(x1,y2),(x2,y2)。
[0068]
s20中神经网络选择骨干网络resnet101,并接入eca模块与rcca模块,对得到的结果进行上采样操作得到蒙版。
[0069]
参见图2,神经网络的模型结构为:
[0070]
[0071][0072]
eca模块即高效通道注意模块,是一种基于cnn网络的极轻量的通道注意力模块,通过共享相同的学习参数,通过内核大小为k的1维卷积来实现通道之间的信息交互,建立矩阵wk来学习通道注意力,该矩阵有k
×
c个参数,其中w为对相邻k个通道进行卷积操作的权值:
[0073][0074]
ωi即通道注意力,计算公式如下,其中yi为各通道全局平均池化的输出,yi的权重仅通过考虑yi与其k个相邻通道之间的交互来计算;
[0075][0076]
其中,k与通道维度c存在如下映射关系,其中odd表示最接近的奇数,γ=2,b=1:
[0077]
c=φ(k)=2
(γ*k-b)
[0078][0079]
rcca模块为criss-cross attention的叠加,此处选择使用叠加次数为2,其中criss-cross attention通过十字交叉融合,使每个位置皆可获取全局特征信息,首先对于主干网络输出得到的x进行卷积操作减少通道数,得到feature mapsh,h∈[c
×w×
h],对h
分别使用三个1
×
1卷积得到q、k和v,其中{q,k}∈[c
′×w×
h],c

为c的八分之一;对q和k进行affinity操作计算生成a;其中,affinity操作为在q中的每一个位置μ,都在通道中得到对应的向量q6,同时从k中提取与μ处于同一行、同一列的向量ωu∈r
(8+w-1)
*c

,那么第i个位置的参数为ω
i,u
,引出affinity计算公式为:
[0080][0081]
得到的矩阵d经过softmax激活后得到a∈[(h+w-1)
×
c];对于v,同样对于每一个位置μ,在通道中得到一个向量集φu∈[(h+w-1)
×
c],将该向量集与a相乘,再加上原始输入h,即完成了一次criss-cross attention操作。
[0082]
s30,分割蒙版包括以下步骤:
[0083]
s31,对蒙版进行腐蚀操作;
[0084]
s32,膨胀操作;
[0085]
s33,结合前后帧结果进行加权平滑操作。
[0086]
s31中腐蚀操作包括将核在原始图像中进行遍历,然后将原始图像遍历到的像素点的值与自定义卷积核得值进行与运算,像素点与对应核一一对应进行与操作,当卷积核对应的元素值均为1时,设置卷积核中心值的像素点为1,否则其值设置为0。
[0087]
s32,将核在原始图像中进行遍历,然后将原始图像遍历到的像素点的值与自定义卷积核(全为1的二维矩阵)得值进行与运算,像素点与对应核一一对应进行与,当卷积核对应的元素值只要有一个为1时,设置卷积核中心值的像素点为1,如果全为0,则其值设置为0。
[0088]
s33,加权平滑操作即图像重叠区域中像素点的灰度值pixel由两幅图像中对应点的灰度值pixel_l和_r加权平均得到,其中k为可调因子:
[0089]
pixel=k
×
pixel
l
+(1-k)
×
pixel_r
[0090]
通常情况下0《k《1,即在重叠区域中,沿图像1向图像2的方向,k由1渐变为0,从而实现重叠区域的平滑拼接。为使图像重叠区域中的点与两幅图像建立更大的相关性,令
[0091]
s34,光流(optical flow)是空间运动物体在观察成像平面上的像素运动的瞬时速度。光流法是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。
[0092]
网络模型初步分割效果参见图3,左侧为输出蒙版图,右侧为原图。
[0093]
腐蚀、膨胀处理后得到的蒙版和蒙版与原图运算后得到分割结果图参见图4,左侧为腐蚀、膨胀处理后得到的蒙版,右侧为蒙版与原图运算后得到分割结果图。
[0094]
具体实施例中,模型网络的训练参数以及训练数据集可做替换,数据集可选择其他以人像分割为目标的数据集,但要求一定的数据集数据量。
[0095]
网络模型的结构可替换,其中使用的注意力模块可以选择替换为其他结构的模块。
[0096]
获得分割人像阶段也可采用trimap图方式生成,但该方式可能需要的运算时间较长。
[0097]
图像预处理阶段的去噪操作可以选用其他滤波方式替代,如均值滤波、中值滤波、
双边滤波等。
[0098]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术特征:
1.一种基于深度学习的前后帧关联人像分割方法,其特征在于,包括以下步骤:s10,图像预处理;s20,训练神经网络,得到蒙版;s30,分割蒙版;s40,处理后图像输出。2.根据权利要求1所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述s10图像预处理包括以下步骤:s11,对图像进行去噪处理,采用高斯模糊函数对图像进行去噪操作;s12,进行缩放操作,使用双线性插值将输入图像大小统一调整为640*480。3.根据权利要求2所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述s11中二维高斯分布为:其中,x为当前像素相对中心像素点的x坐标值,y为当前像素相对中心像素点的y坐标值,σ为标准差,本方法中取1.5;高斯滤波去噪是对某块区域内的像素值进行加权平均,每一个像素点的值,都由其本身值和邻域内的其他像素值经过加权平均后得到,而噪点像素值相对该区域平均值差异较大,故采用高斯滤波的方式去除。4.根据权利要求2所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述s12中双线性插值操作,对于图像大小变换后新位置(x,y)的像素值,计算公式为:其中,q
11
,q
21
,q
12
,q
22
依次分别为与新位置像素相邻的左下角、右下角、左上角、右上角的像素点,对应坐标位置为(x1,y1),(x2,y1),(x1,y2),(x2,y2)。5.根据权利要求1所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述s20中神经网络选择骨干网络resnet101,并接入eca模块与rcca模块,对得到的结果进行上采样操作得到蒙版。6.根据权利要求1所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述神经网络的模型结构为:
7.根据权利要求5所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述eca模块即高效通道注意模块,是一种基于cnn网络的极轻量的通道注意力模块,通过共享相同的学习参数,通过内核大小为k的1维卷积来实现通道之间的信息交互,建立矩阵w
k
来学习通道注意力,该矩阵有k
×
c个参数,其中w为对相邻k个通道进行卷积操作的权值:ω
i
即通道注意力,计算公式如下,其中y
i
为各通道全局平均池化的输出,y
i
的权重仅通过考虑y
i
与其k个相邻通道之间的交互来计算;其中,k与通道维度c存在如下映射关系,其中odd表示最接近的奇数,γ=2,b=1:c=φ(k)=2
(γ*k-b)
8.根据权利要求5所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述
rcca模块为criss-cross attention的叠加,此处选择使用叠加次数为2,其中criss-cross attention通过十字交叉融合,使每个位置皆可获取全局特征信息,首先对于主干网络输出得到的x进行卷积操作减少通道数,得到feature mapsh,h∈[c
×
w
×
h],对h分别使用三个1
×
1卷积得到q、k和v,其中{q,k}∈[c
′×
w
×
h],c

为c的八分之一;对q和k进行affinity操作计算生成a;其中,affinity操作为在q中的每一个位置μ,都在通道中得到对应的向量q6,同时从k中提取与μ处于同一行、同一列的向量ω
u
∈r
(8+w-1)*c

,那么第i个位置的参数为ω
i,u
,引出affinity计算公式为:得到的矩阵d经过softmax激活后得到a∈[(h+w-1)
×
c];对于v,同样对于每一个位置μ,在通道中得到一个向量集φ
u
∈[(h+w-1)
×
c],将该向量集与a相乘,再加上原始输入h,即完成了一次criss-cross attention操作。9.根据权利要求1所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述s30,分割蒙版包括以下步骤:s31,对蒙版进行腐蚀操作;s32,膨胀操作;s33,结合前后帧结果进行加权平滑操作。10.根据权利要求9所述的基于深度学习的前后帧关联人像分割方法,其特征在于,所述s31中腐蚀操作包括将核在原始图像中进行遍历,然后将原始图像遍历到的像素点的值与自定义卷积核得值进行与运算,像素点与对应核一一对应进行与操作,当卷积核对应的元素值均为1时,设置卷积核中心值的像素点为1,否则其值设置为0。

技术总结
本发明公开了一种基于深度学习的前后帧关联人像分割方法,包括以下步骤:S10,图像预处理包含S11,对图像进行去噪处理,采用高斯模糊函数对图像进行去噪操作,S12,之后进行缩放操作,使用双线性插值将输入图像大小统一调整为640*480。S20,神经网络选择骨干网络ResNet101,后接入ECA模块与RCCA模块,对得到的结果进行上采样操作得到蒙版。S30,分割蒙版处理包含对蒙版进行腐蚀操作、膨胀操作和结合前后帧结果进行加权平滑操作,最后使用光流法对蒙版进行处理。S40,处理后图像输出则将蒙版与原图像进行乘算,得到分割后的人像。本发明的网络模型接入ECA及RCCA模块,人像分割精度提高,结合前后帧结果进行加权平滑操作以及光流法,使得分割结果前后衔接度较高。使得分割结果前后衔接度较高。使得分割结果前后衔接度较高。


技术研发人员:罗逸秋 罗国图 王绪康 冯攀宇
受保护的技术使用者:杭州电子科技大学
技术研发日:2023.06.26
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐