一种基于人机协同感知的室内监控视频编码方法
未命名
08-22
阅读:128
评论:0
1.本发明属于视频编码技术领域,尤其涉及一种基于人机协同感知的室内监控视频编码方法。
背景技术:
2.室内大部分摄像头针对固定场景,视频信号有自身特点:(1)一段时间内背景基本不变化或变化较小,相对于广播电视、视频网站等应用而言,复用背景为更高效的视频编码提供可能;(2)办公大楼、居民楼等室内部署了大量的监控摄像头,大部分监控数据不会用于人工查看,视频数据所包含的信息主要用于机器分析;(3)室内监控常关注特定语义信息,如人脸信息、人体动作和人体位置等信息,这些特定语义信息是安防应用、目标检索等应用领域重点关注的。
3.目前,研究人员已经针对监控视频特性有了初步的探索,大部分学者在对监控视频进行编码压缩时,会首先将监控视频分离为前景和背景,接着采用传统编解码方式或利用深度学习网络来分别对前景和背景进行编码。部分学者仍然采用传统编解码方式进行编码压缩:例如lu等学者提出了一种基于物体检测的停机坪监控视频压缩方法,在他们的工作中,监控视频被分离成背景图像和物体图像(移动和静止),分别存储在磁盘上,但是这一方法对前景物体的压缩处理方式较为粗糙,不仅编码压缩效果有限,解码视频中的内容也不够准确;例如ghafari等学者采用高斯混合模型将视频分成背景图像和移动物体,之后前景视频被传统的视频编码器压缩,背景图像被缓存在客户端,不过这一方案没有对背景进行有效更新,并且背景直接与前景组合会导致边缘不一致性。部分学者利用深度学习网络进行编码压缩:例如wu等学者提出了一个前景-背景并行压缩方案,在这个方案中,背景信息在相邻的帧之间共享,光流被用于前景图像的运动估计,但是虽然这一方法泛用性很强,但是对前景的表述方式不够紧凑,编码压缩效果有限;例如xia等学者提出了一种基于光流预测网络和运动补偿网络的端到端监控视频压缩方案,不过这一方法无法应对复杂室内背景的视频压缩任务,并且由于其完全依赖模型算法进行生成,解码视频帧将会缺少大量原始视频中应有的细节。
4.综上所述,虽然研究人员针对监控视频特性提出了一系列编码压缩方法,但是这些方法都没能充分考虑室内监控视频特点,因此研究一种能够针对室内监控视频特点从而有效压缩室内监控视频的方法是很有必要的。
技术实现要素:
5.本发明目的在于提供一种基于人机协同感知的室内监控视频编码方法,以解决上述的技术问题。
6.为解决上述技术问题,本发明的一种基于人机协同感知的室内监控视频编码方法的具体技术方案如下:
7.一种基于人机协同感知的室内监控视频编码方法,包括如下步骤:
8.步骤1:搭建人机协同视频编码框架;
9.步骤2:特定语义对象紧凑特征表示;
10.步骤3:自适应背景更新;
11.步骤4:残差编码资源分配。
12.进一步地,所述步骤1包括如下具体步骤:
13.对于获取的连续监控视频帧(x1,x2,
…
),本发明分别进行特定语义目标提取和监控背景图像提取,获取语义目标序列和背景图像序列,其中语义目标序列经由特征提取网络转化为紧凑特征表示,通过编码压缩传输至解码端用于不同机器视觉分析任务,机器视觉任务分析网络对紧凑特征表示进行解析,其分析获得的语义分析特征与解码获得的语义参考对象一起,通过条件生成网络重构语义目标序列,背景图像序列则根据自适应背景更新策略,编码传输背景模板和必要残差,来对解码端的背景图像进行动态更新。动态更新背景和重构语义目标序列一起合成重构视频帧,并在进一步与预测残差相加后,用于人眼观看。
14.进一步地,所述步骤2包括如下具体步骤:
15.首先通过语义目标检测网络和多目标跟踪网络来连续检测并持续跟踪特定语义对象(d0,d1,
…
),在选取和编码语义参考对象m的同时,利用特征提取网络e(
·
)将特定语义对象序列转换为紧凑特征表示(f0,f1,
…
),紧凑特征表示包含紧凑且完整的语义信息;接着将紧凑特征(f0,f1,
…
)进行编码传输,解码器解码获得紧凑特征序列紧凑特征表示序列送入不同的深层神经网络a(
·
)进行多任务分析(task0,task1,
…
)从而获取特定语义对象分析结果以及语义分析特征同时解码获得语义参考对象语义参考对象包含特定语义目标对象的完整外表信息,和紧凑特征表示序列一起通过条件生成网络g(
·
)重构特定语义目标对象公式表达如下:
16.f0,f1,
…
=e(d0,d1,
…
)
ꢀꢀ
(1)
[0017][0018][0019]
式中θn表示用于不同分析任务的深度神经网络参数。
[0020]
进一步地,所述步骤3包括如下具体步骤:
[0021]
设计自适应加权背景更新算法为背景进行动态更新;首先利用基于核密度聚类算法提取背景帧,对监控视频隔段提取背景,获取背景帧序列(b0,b1,
…
),提取背景帧的间隔时间段长设定为t,基于核密度聚类的背景提取算法首先提取时间段长t的连续监控视频帧,并为每一个像素位置建立像素值点集,通过语义目标检测网络检测到特定语义目标对象的帧区域的像素值不加入像素值点集中进行运算,每一个像素值点集进行独立计算来获取背景像素值,最终背景像素值组成完整背景,以任意一个像素值点集为例,从连续视频帧中像素值点集对应像素位置处随机选取一些样本,样本取均值作为该像素值点集的经典点x,然后以经典点x为起点开始漂移,经典点的更新公式为
[0022]
x=x+mhꢀꢀ
(4)
[0023]
mh为当前经典点位置的漂移向量,其基本形式为
[0024][0025]
sh(x)={y:(y-xi)
t
(y-xi)<h2}
ꢀꢀ
(6)
[0026]
通过上述公式迭代进行经典点x的漂移,使得经典点x的位置不断向像素值点集中分布密度最大的位置移动,直至移动到收敛点处,待通过多次从点集中随机选取不同的样本来得到一定数量的收敛点后,将这些收敛点组成集合再一次做聚类算法,提取出的最终收敛点作为像素值点集所对应像素的背景像素值。
[0027]
进一步地,所述步骤3获取背景帧序列(b0,b1,
…
)后,进行背景的自适应更新流程;
[0028]
首先将帧序为n-m的解码背景设置为背景模板,将背景提取次序为n的背景bn与之进行比较,若是两者差异比例大于更新阈值γ则将两者相减获取残差,残差通过编码进行传输,与残差相加得到公式表达如下:
[0029][0030][0031]
式中conv2d(
·
)表示二维卷积运算,δ表示差异阈值,表示经过卷积运算后图像的总大小。
[0032]
进一步地,所述步骤4包括如下步骤:
[0033]
对重构视频与原始视频x间的残差r进行编码,通过传统编解码器对残差进行编码压缩,设计残差编码资源分配策略以所述框架的编码性能;首先利用语义分割网络获得的特定语义目标的语义分割结果来获取前景掩码m,通过膨胀操作对特定语义目标区域进行放大,经过放大的前景掩码m用于指导传统编码流程中ctu级的比特分配,其中对于整体前景占比越高的ctu分配更多的比特,经过残差编码资源分配策略进行码率分配后,解码端接收残差r并将之与重构视频相加获取用于人眼视觉的最终解码视频内部前景占比与整体前景占比计算公式如下:
[0034][0035][0036]
其中m
x,y
表示(x,y)位置的掩码值,表示ctu的总像素值,c表示ctu总数,pr(i)表示第i个ctu的内部前景占比,t(i)表示整体前景占比。
[0037]
本发明的一种基于人机协同感知的室内监控视频编码方法具有以下优点:本发明针对室内监控视频特点提出自适应背景更新框架对背景进行动态更新,本发明考虑了室内
监控视频中特定前景语义对象能够被紧凑语义特征表示,通过特征提取网络为特定前景语义对象提取紧凑语义特征表示,紧凑语义特征表示用于高效编码压缩和机器视觉任务分析,并能够重构特定前景语义对象。本发明为传统编码器制定残差编码资源分配策略,避免无用编码资源分配的同时提升解码视频的人眼视觉质量,极大提高室内监控视频的压缩性能;实现高效特定语义信息检索和分析。
附图说明
[0038]
图1为本发明的基于人机协同感知的室内监控视频编码流程图。
具体实施方式
[0039]
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于人机协同感知的室内监控视频编码方法做进一步详细的描述。
[0040]
如图1所示,本发明的一种基于人机协同感知的室内监控视频编码方法,包括如下步骤:
[0041]
步骤1:搭建人机协同视频编码框架
[0042]
本发明专注室内监控视频特点,设计人机协同视频编码框架。对于获取的连续监控视频帧(x1,x2,
…
),本发明分别进行特定语义目标提取和监控背景图像提取,获取语义目标序列和背景图像序列。其中语义目标序列经由特征提取网络转化为紧凑特征表示,通过编码压缩传输至解码端用于不同机器视觉分析任务,机器视觉任务分析网络对紧凑特征表示进行解析,其分析获得的语义分析特征与解码获得的语义参考对象一起,通过条件生成网络重构语义目标序列。而背景图像序列则根据自适应背景更新策略,编码传输背景模板和必要残差,来对解码端的背景图像进行动态更新。动态更新背景和重构语义目标序列一起合成重构视频帧,并在进一步与预测残差相加后,用于人眼观看。
[0043]
步骤2:特定语义对象紧凑特征表示
[0044]
考虑到视频信号的时域相关性,本发明首先通过语义目标检测网络(如yolo、rcnn)和多目标跟踪网络(mot)来连续检测并持续跟踪特定语义对象(d0,d1,
…
),在选取和编码语义参考对象m的同时,利用特征提取网络e(
·
)将特定语义对象序列转换为紧凑特征表示(f0,f1,
…
),紧凑特征表示包含紧凑且完整的语义信息。接着本发明将紧凑特征(f0,f1,
…
)进行编码传输,解码器解码获得紧凑特征序列紧凑特征表示序列送入不同的深层神经网络a(
·
)进行多任务分析(task0,task1,
…
)从而获取特定语义对象分析结果(如身份、行为)以及语义分析特征(包含人体骨架、肢体掩膜等)。同时本发明解码获得语义参考对象语义参考对象包含特定语义目标对象的完整外表信息,和紧凑特征表示序列一起通过条件生成网络g(
·
)重构特定语义目标对象公式表达如下:
[0045]
f0,f1,
…
=e(d0,d1,
…
)
ꢀꢀ
(1)
[0046][0047]
[0048]
式中θn表示用于不同分析任务的深度神经网络参数。
[0049]
步骤3:自适应背景更新
[0050]
安防应用中摄像头绝大部分时间背景是固定的,且亮度/色度等环境变化会使得背景出现部分波动,所以本发明设计自适应加权背景更新算法为背景进行动态更新。本发明首先利用基于核密度聚类算法提取背景帧,对监控视频隔段提取背景,获取背景帧序列(b0,b1,
…
),提取背景帧的间隔时间段长设定为t。基于核密度聚类的背景提取算法首先提取时间段长t的连续监控视频帧,并为每一个像素位置建立像素值点集,通过语义目标检测网络检测到特定语义目标对象的帧区域的像素值不加入像素值点集中进行运算,每一个像素值点集进行独立计算来获取背景像素值,最终背景像素值组成完整背景。以任意一个像素值点集为例,从连续视频帧中像素值点集对应像素位置处随机选取一些样本,样本取均值作为该像素值点集的经典点x,然后以经典点x为起点开始漂移。经典点的更新公式为
[0051]
x=x+mhꢀꢀ
(4)
[0052]
mh为当前经典点位置的漂移向量,其基本形式为
[0053][0054]
sh(x)={y:(y-xi)
t
(y-xi)<h2}
ꢀꢀ
(6)
[0055]
通过上述公式迭代进行经典点x的漂移,使得经典点x的位置不断向像素值点集中分布密度最大的位置移动,直至移动到收敛点处。待通过多次从点集中随机选取不同的样本来得到一定数量的收敛点后,将这些收敛点组成集合再一次做聚类算法,提取出的最终收敛点作为像素值点集所对应像素的背景像素值。
[0056]
在获取背景帧序列(b0,b1,
…
)后,进行背景的自适应更新流程,首先将帧序为n-m的解码背景设置为背景模板,将背景提取次序为n的背景bn与之进行比较,若是两者差异比例大于更新阈值γ则将两者相减获取残差,残差通过编码进行传输,与残差相加得到公式表达如下:
[0057][0058][0059]
式中conv2d(
·
)表示二维卷积运算,δ表示差异阈值,表示经过卷积运算后图像的总大小。
[0060]
步骤4:残差编码资源分配
[0061]
由语义目标对象和背景b组合重构的视频通常存在过度边界不一致的现象,因此还需要对重构视频与原始视频x间的残差r进行编码,以提升重构视频的视觉质量,本发明通过传统编解码器对残差进行编码压缩,但由于传统编码器分块编码策略往往会平均分配编码资源,使得编码资源消耗在背景的小范围波动等人眼不敏感信息上,因此本发明设计残差编码资源分配策略以提升本发明框架的编码性能。首先利用语义分割网
络获得的特定语义目标的语义分割结果来获取前景掩码m,通过膨胀操作对特定语义目标区域进行放大,经过放大的前景掩码m用于指导传统编码流程中ctu级的比特分配,其中对于整体前景占比越高的ctu分配更多的比特。经过残差编码资源分配策略进行码率分配后,解码端接收残差r并将之与重构视频相加获取用于人眼视觉的最终解码视频内部前景占比与整体前景占比计算公式如下:
[0062][0063][0064]
其中m
x,y
表示(x,y)位置的掩码值,表示ctu的总像素值,c表示ctu总数。pr(i)表示第i个ctu的内部前景占比,t(i)表示整体前景占比。
[0065]
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本技术的权利要求范围内的实施例都属于本发明所保护的范围内。
技术特征:
1.一种基于人机协同感知的室内监控视频编码方法,其特征在于,包括如下步骤:步骤1:搭建人机协同视频编码框架;步骤2:特定语义对象紧凑特征表示;步骤3:自适应背景更新;步骤4:残差编码资源分配。2.根据权利要求1所述的基于人机协同感知的室内监控视频编码方法,其特征在于,所述步骤1包括如下具体步骤:对于获取的连续监控视频帧(x1,x2,
…
),本发明分别进行特定语义目标提取和监控背景图像提取,获取语义目标序列和背景图像序列,其中语义目标序列经由特征提取网络转化为紧凑特征表示,通过编码压缩传输至解码端用于不同机器视觉分析任务,机器视觉任务分析网络对紧凑特征表示进行解析,其分析获得的语义分析特征与解码获得的语义参考对象一起,通过条件生成网络重构语义目标序列,背景图像序列则根据自适应背景更新策略,编码传输背景模板和必要残差,来对解码端的背景图像进行动态更新。动态更新背景和重构语义目标序列一起合成重构视频帧,并在进一步与预测残差相加后,用于人眼观看。3.根据权利要求1所述的基于人机协同感知的室内监控视频编码方法,其特征在于,所述步骤2包括如下具体步骤:首先通过语义目标检测网络和多目标跟踪网络来连续检测并持续跟踪特定语义对象(d0,d1,
…
),在选取和编码语义参考对象m的同时,利用特征提取网络e(
·
)将特定语义对象序列转换为紧凑特征表示(f0,f1,
…
),紧凑特征表示包含紧凑且完整的语义信息;接着将紧凑特征(f0,f1,
…
)进行编码传输,解码器解码获得紧凑特征序列紧凑特征表示序列送入不同的深层神经网络a(
·
)进行多任务分析(task0,task1,
…
)从而获取特定语义对象分析结果以及语义分析特征同时解码获得语义参考对象语义参考对象包含特定语义目标对象的完整外表信息,和紧凑特征表示序列一起通过条件生成网络g(
·
)重构特定语义目标对象公式表达如下:f0,f1,
…
=e(d0,d1,
…
)
ꢀꢀꢀꢀ
(1)(1)式中θ
n
表示用于不同分析任务的深度神经网络参数。4.根据权利要求1所述的基于人机协同感知的室内监控视频编码方法,其特征在于,所述步骤3包括如下具体步骤:设计自适应加权背景更新算法为背景进行动态更新;首先利用基于核密度聚类算法提取背景帧,对监控视频隔段提取背景,获取背景帧序列(b0,b1,
…
),提取背景帧的间隔时间段长设定为t,基于核密度聚类的背景提取算法首先提取时间段长t的连续监控视频帧,并为每一个像素位置建立像素值点集,通过语义目标检测网络检测到特定语义目标对象的帧区域的像素值不加入像素值点集中进行运算,每一个像素值点集进行独立计算来获取背景
像素值,最终背景像素值组成完整背景,以任意一个像素值点集为例,从连续视频帧中像素值点集对应像素位置处随机选取一些样本,样本取均值作为该像素值点集的经典点x,然后以经典点x为起点开始漂移,经典点的更新公式为x=x+m
h
ꢀꢀꢀꢀ
(4)m
h
为当前经典点位置的漂移向量,其基本形式为s
h
(x)={y:(y-x
i
)
t
(y-x
i
)<h2}
ꢀꢀꢀꢀ
(6)通过上述公式迭代进行经典点x的漂移,使得经典点x的位置不断向像素值点集中分布密度最大的位置移动,直至移动到收敛点处,待通过多次从点集中随机选取不同的样本来得到一定数量的收敛点后,将这些收敛点组成集合再一次做聚类算法,提取出的最终收敛点作为像素值点集所对应像素的背景像素值。5.根据权利要求1所述的基于人机协同感知的室内监控视频编码方法,其特征在于,所述步骤3获取背景帧序列(b0,b1,
…
)后,进行背景的自适应更新流程;首先将帧序为n-m的解码背景设置为背景模板,将背景提取次序为n的背景b
n
与之进行比较,若是两者差异比例大于更新阈值γ则将两者相减获取残差,残差通过编码进行传输,与残差相加得到公式表达如下:公式表达如下:式中conv2d(
·
)表示二维卷积运算,δ表示差异阈值,表示经过卷积运算后图像的总大小。6.根据权利要求1所述的基于人机协同感知的室内监控视频编码方法,其特征在于,所述步骤4包括如下步骤:对重构视频与原始视频x间的残差r进行编码,通过传统编解码器对残差进行编码压缩,设计残差编码资源分配策略以所述框架的编码性能;首先利用语义分割网络获得的特定语义目标的语义分割结果来获取前景掩码m,通过膨胀操作对特定语义目标区域进行放大,经过放大的前景掩码m用于指导传统编码流程中ctu级的比特分配,其中对于整体前景占比越高的ctu分配更多的比特,经过残差编码资源分配策略进行码率分配后,解码端接收残差r并将之与重构视频相加获取用于人眼视觉的最终解码视频内部前景占比与整体前景占比计算公式如下:
其中n
x,y
表示(x,y)位置的掩码值,表示ctu的总像素值,c表示ctu总数,pr(i)表示第i个ctu的内部前景占比,t(i)表示整体前景占比。
技术总结
本发明属于视频编码技术领域,公开了一种基于人机协同感知的室内监控视频编码方法,包括步骤1:搭建人机协同视频编码框架;步骤2:特定语义对象紧凑特征表示;步骤3:自适应背景更新;步骤4:残差编码资源分配。本发明针对室内监控视频特点提出自适应背景更新框架对背景进行动态更新,考虑了室内监控视频中特定前景语义对象能够被紧凑语义特征表示,通过特征提取网络为特定前景语义对象提取紧凑语义特征表示,本发明为传统编码器制定残差编码资源分配策略,避免无用编码资源分配的同时提升解码视频的人眼视觉质量,极大提高室内监控视频的压缩性能;实现高效特定语义信息检索和分析。实现高效特定语义信息检索和分析。实现高效特定语义信息检索和分析。
技术研发人员:孟毅昂 殷海兵 王鸿奎
受保护的技术使用者:杭州电子科技大学
技术研发日:2023.05.16
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
