一种基于桌面视频感兴趣区域的并行编解码方法及系统

未命名 10-08 阅读：58 评论：0

1.本发明涉及视频编码技术领域，尤其涉及一种基于桌面视频感兴趣区域的并行编解码方法及系统。

背景技术：

2.目前流行的视频编码标准有2003年由国际电信联盟(itu)和国际标准化组织(iso)共同提出的新一代视频编码标准h.264、其升级版的h.265以及在2018年由google、mozilla、cisco等工艺开发的开源视频编码标准av1。
3.h.264是一种高效的视频编码标准，广泛用于高清和流媒体视频传输。其使用视频编码技术，如运动估计和帧内预测，以在减小码率的同时提供高质量的视频图像。h.265是h.264的升级版，在h.264的基础上，提供新的编码单元结构实现更好的并行处理，以及更高效的变换方式以提高编码效率和视频质量，这对于高分辨率视频和超高清视频特别重要。av1是一种开放、免费的视频编码标准，主要包括变换编码、运动估计、多参考帧和符号编码等技术。
4.视频编码技术主要是通过减少图像序列中的时间和空间冗余，在保证画面质量劣化在可接受范围内，降低视频存储时所需要的空间，以及传输过程中需要的带宽。其中时间冗余指的是视频序列中相邻帧之间的冗余。由于相邻帧之间的像素内容通常相似度较高，因此可以利用这种相似性通过预测编码等方式来减小每一帧的数据量，从而实现视频压缩。另一方面，空间冗余指的是同一帧中像素之间的冗余，也称为帧内冗余。由于同一帧中像素之间的内容也往往相似度较高，因此可以利用这种相似性来减小每一帧的数据量。
5.相比于自然视频，桌面视频中的运动更多的是一定的范围内的，即，存在很大一部分像素是不发生变化的。因此，如果在编码过程中，若使用上述的现有方案对整个画面进行编码，会对计算资源以及后续的传输带宽造成非常大的浪费。
6.现有方案二提供了一种支持感兴趣区域的多路视频流的编码、解码方法和系统，其技术方案为：在编码端可选地对感兴趣区域、全景或是两者的复用进行编码，并打包发送。在解码端解析传输包，对感兴趣区域或全景进行同步解码，并根据用户的需要将感兴趣区域帧和背景帧在像素域进行融合。但该方案将感兴趣区域和全景画面像素融合时，需要同时存在具有相同时间戳的两帧画面，不停地编码传输全景画面对于桌面视频除感兴趣刷新区域外，其余静止不变的画面部分会造成较大的浪费。
7.现有方案三提供了一种基于感兴趣区域的联合传统与学习方法的视频编码。通过基于学习的方法获得画面中的背景和感兴趣区域，然后对于两者采用不同的编码参数，并对视频会议中背景进行复用，以达到减少传输带宽以及降低计算资源使用的目的。但该方案只划定一个感兴趣区域，在桌面视频中，并不只一个主体发生移动或者刷新，可能会有多个位置同时发生变化，因此并不适用于桌面视频场景。

技术实现要素：

8.鉴于此，本发明实施例提供了一种基于桌面视频感兴趣区域的并行编解码方法及系统，以消除或改善现有技术中存在的一个或更多个缺陷，解决现有视频编码技术不适用桌面视频，存在较大的计算资源、传输宽带浪费。
9.一方面，本发明提供一种基于桌面视频感兴趣区域的并行编解码方法，其特征在于，所述方法包括以下步骤：
10.获取待处理的桌面视频，并将所述桌面视频转换为连续图像帧，得到桌面视频序列；
11.按照第一预设方法判断所述桌面视频序列中每一帧图像是否为背景帧；若为背景帧，则对所述背景帧的全景进行编码，生成全景码流；
12.若不是背景帧，则以该帧之前且时间上最靠近该帧的背景帧作为参考帧，按照第二预设方法划分感兴趣区域；所述第二预设方法包括基于鼠标拖动信息的划分方法和基于传统或机器学习的划分方法；并行地对所有感兴趣区域进行编码，生成相应的感兴趣区域码流；
13.将所述全景码流或所述感兴趣区域码流进行打包，并添加标签和时间戳，得到输出码流；
14.根据所述标签判断所述输出码流的类型，若为所述全景码流，则对所述全景码流进行解码，得到全景画面；
15.若为所述感兴趣区域码流，则对所述感兴趣区域码流进行解码，并进行时间戳同步；将解码得到的感兴趣区域画面覆盖在相应参考帧的全景画面上，得到重建画面；
16.将所述全景画面或重建画面输出，得到最终的输出画面。
17.在本发明的一些实施例中，所述第一预设方法为帧间差分、均值哈希等方法中的一种或多种结合。
18.在本发明的一些实施例中，所述方法还包括：
19.获取当前帧和所述当前帧之前的预设数量帧，并转换为灰度图像；
20.将所述当前帧分别与所述预设数量帧进行像素级别的比较，计算差异值；
21.若所述差异值大于预设的差异阈值，则将所述当前帧作为所述背景帧。
22.在本发明的一些实施例中，按照第二预设方法划分感兴趣区域之前，还包括：
23.与所述参考帧相比，判断该帧中是否存在鼠标拖动情况；
24.若存在所述鼠标拖动情况，则获取鼠标的拖动轨迹，根据所述鼠标拖动的起点、终点和被拖动窗口的位置尺寸信息，确定运动向量和所述感兴趣区域；并利用传统或者基于机器学习的方法确定其他感兴趣区域；所述位置尺寸信息包括所述窗口左上角的坐标、所述窗口的宽度和高度；
25.若不存在所述鼠标拖动情况，则直接利用传统或者基于机器学习的方法确定所述感兴趣区域。
26.在本发明的一些实施例中，根据所述鼠标拖动的起点、终点和被拖动窗口的位置尺寸信息，确定运动向量和所述感兴趣区域，还包括：
27.根据所述鼠标拖动的起点、终点的坐标得到所述运动向量，基于所述运动向量判断所述窗口向右下方移动时，所述感兴趣区域四个顶点的坐标计算式为：
28.(x,y)
左上
＝(x0,y0)；
29.(x,y)
右上
＝(x0+w+x
2-x1,y0)；
30.(x,y)
左下
＝(x0,y0+h+y
2-y1)；
31.(x,y)
右下
＝(x0+w+x
2-x1,y0+h+y
2-y1)；
32.其中，(x,y)
左上
、(x,y)
右上
、(x,y)
左下
和(x,y)
右下
分别表示所述感兴趣区域左上角、右上角、左下角和右下角的坐标；(x0,y0)表示所述窗口的左上角坐标；w表示所述窗口的宽度；h表示所述窗口的高度；(x1,y1)表示所述鼠标的起点坐标；(x2,y2)表示所述鼠标的终点坐标。
33.在本发明的一些实施例中，基于机器学习的方法预先训练划分模型，将所述桌面视频序列输入所述划分模型，输出划分好的感兴趣区域；其中，所述划分模型采用支持向量机、决策树、神经网络中的一种。
34.在本发明的一些实施例中，所述划分模型的训练方法包括以下内容：
35.获取多个桌面视频序列，以其中的每一帧图像作为一个训练样本，构建训练样本集；为每一帧图像划分真实的感兴趣区域作为标记；
36.获取初始模型，将所述训练样本集逐一或按批输入所述初始模型，输出预测的相应样本的感兴趣区域；
37.采用所述训练样本集对所述初始模型进行训练，构建预测的感兴趣区域与所述标记之间的损失，优化模型直至达到预设性能要求，得到用于划分感兴趣区域的划分模型。
38.另一方面，本发明提供一种基于桌面视频感兴趣区域的并行编解码系统，其特征在于，包括以下内容：
39.视频处理模块，用于获取待处理的桌面视频，并将所述桌面视频转换为连续图像帧，得到桌面视频序列；
40.编码器和解码器，用于执行如上文中任一项所述基于桌面视频感兴趣区域的并行编解码方法的步骤，以对桌面视频进行编码、解码操作；
41.存储模块，用于存储所述桌面视频、桌面视频序列、编码器和解码器的输出结果；
42.控制器，用于控制所述视频处理模块、所述编码器、所述解码器和所述存储模块执行相应的功能。
43.另一方面，本发明提供一种电子设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该电子设备实现如上文中任一项所述基于桌面视频感兴趣区域的并行编解码方法的步骤。
44.另一方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上文中任一项所述基于桌面视频感兴趣区域的并行编解码方法的步骤。
45.本发明的有益效果至少是：
46.本发明提供一种基于桌面视频感兴趣区域的并行编解码方法及系统，包括：获取桌面视频序列；判断桌面视频序列中每一帧图像是否为背景帧；若是，则对该帧的全景编码，生成全景码流；若不是，则以该帧之前且最靠近的背景帧作为参考帧，判断是否存在鼠标拖动信息，采用鼠标拖动信息和/或传统或基于机器学习的方法划分感兴趣区域；对每个
感兴趣区域单独进行处理，实现并行编码，生成感兴趣区域码流；将全景码流或感兴趣区域码流打包，并添加标签和时间戳，得到输出码流；根据标签判断输出码流的类型，若为全景码流，则解码得到全景画面；若为感兴趣区域码流，则将解码得到的感兴趣区域画面覆盖在相应参考帧的全景画面上，得到重建画面；将全景画面或重建画面作为输出画面。本发明提供的方法减少了全景画面的编码频率，针对分辨率较小、编码开销较低的感兴趣区域进行编码，提高视频编码速度的同时，降低编码所需的性能开销，减少编码计算量和所需的传输带宽，极大降低浪费。
47.本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
48.本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
49.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，并不构成对本发明的限定。在附图中：
50.图1为本发明一实施例中基于桌面视频感兴趣区域的并行编解码方法的步骤示意图。
51.图2为本发明一实施例中基于桌面视频感兴趣区域的并行编码方法的流程图。
52.图3为本发明一实施例中基于桌面视频感兴趣区域的解码方法的流程图。
53.图4为本发明一实施例中桌面视频序列中时间上连续的两帧图像。
具体实施方式
54.为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施方式和附图，对本发明做进一步详细说明。在此，本发明的示意性实施方式及其说明用于解释本发明，但并不作为对本发明的限定。
55.在此，还需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。
56.应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
57.在此，还需要说明的是，如果没有特殊说明，术语“连接”在本文不仅可以指直接连接，也可以表示存在中间物的间接连接。
58.在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。
59.这里需要强调的是，在下文中提及的各步骤标记并不是对各步骤先后顺序的限定，而应当理解为可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。
60.为了解决现有视频编码技术不适用于桌面视频，存在较大的计算资源、传输宽带浪费，本发明提供一种基于桌面视频感兴趣区域的并行编解码方法，如图1所示，该方法包括以下步骤s101～s105：
61.步骤s101：获取待处理的桌面视频序列。
62.步骤s102：按照第一预设方法判断桌面视频序列中每一帧图像是否为背景帧；若为背景帧，则对背景帧的全景进行编码，生成全景码流。
63.步骤s103：若不是背景帧，则以该帧之前且时间上最靠近该帧的背景帧作为参考帧，按照第二预设方法划分感兴趣区域；其中，第二预设方法包括基于鼠标拖动信息的划分方法和基于传统或机器学习的划分方法；并行地对所有感兴趣区域进行编码，生成相应的感兴趣区域码流。
64.步骤s104：将全景码流或感兴趣区域码流进行打包，并添加标签和时间戳，得到输出码流。
65.步骤s105：根据标签判断输出码流的类型，若为全景码流，则对全景码流进行解码，得到全景画面。
66.步骤s106：若为感兴趣区域码流，则对感兴趣区域码流进行解码，并进行时间戳同步；将解码得到的感兴趣区域画面覆盖在相应参考帧的全景画面上，得到重建画面。
67.步骤s107：将全景画面或重建画面输出，得到最终的输出画面。
68.如图2所示，为基于桌面视频感兴趣区域的并行编码方法的流程图，该流程图包含了步骤s101～s104。
69.在步骤s101中，首先获取待处理的桌面视频序列，其中，桌面视频序列为yuv格式，可被编码器直接读取。
70.在一些实施例中，在转换之前，对桌面视频进行预处理，以得到更高质量的图像帧。示例性的，预处理包括滤波等操作。
71.在步骤s102中，对桌面视频序列中的每一帧图像判断是否为背景帧。在本发明中，背景帧的判断依据为当前帧与之前帧相比画面内容变换量的大小。
72.在一些实施例中，按照第一预设方法判断桌面视频序列中每一帧图像是否为背景帧，第一预设方法为帧间差分、均值哈希等方法中的一种或多种结合。具体的：
73.获取当前要判断的图像帧及其之前的预设数量帧，将其转换为灰度图像。
74.将当前帧的灰度图像分别与预设数量帧的灰度图像进行比较，计算得到差异值。将差异值与预设的差异阈值进行比较，若差异值大于差异阈值，则将当前帧作为背景帧，若差异值小于差异阈值，则直接进入步骤s103。
75.或者对当前帧的灰度图像与预设数量帧的灰度图像进行哈希操作，计算哈希值，分别计算当前帧与预设数量帧哈希值的汉明距离，得到两帧图像之间的画面内容变换量，将画面内容变换量与预设的变换量阈值进行比较，若画面内容变换量大于变换量阈值，则将当前帧作为背景帧，若画面内容变换量小于变换量阈值，则直接进入步骤s103。
76.在步骤s103中，基于步骤s102的判断，若当前帧不是背景帧，则从当前帧中划分感兴趣区域。其中，感兴趣区域(region ofinterest，roi)是指在图像或视频中，用户或算法所关心的部分。在本发明中，考虑到桌面视频中的运动更多是在一定范围内的，且多为如窗口等结构相对固定的内容发生变化，因此将发生变换的区域作为感兴趣区域，在非背景帧
中，仅对感兴趣区域进行编码传输，以提高编码速度，降低编码计算量和所需的传输带宽。
77.在一些实施例中，在划分感兴趣区域之前，先判断当前帧中是否有鼠标拖动。由于桌面视频中多为窗口等结构相对固定的内容，鼠标拖动在画面内容变化中起到了重要的作用，基于鼠标拖动信息可以更便捷的划分感兴趣区域。具体的：
78.首先判断当前帧中是否存在鼠标拖动情况，若存在鼠标拖动情况，则获取鼠标的拖动轨迹，根据鼠标拖动的起点、终点和被拖动窗口的位置尺寸信息，确定运动向量和感兴趣区域；再利用传统或者基于机器学习的方法确定其他感兴趣区域；其中，位置尺寸信息至少包括窗口左上角的坐标、窗口的宽度和高度。
79.若不存在鼠标拖动情况，则直接利用传统或者基于机器学习的方法确定感兴趣区域。
80.在一些实施例中，传统方法是指传统的图像处理方法，如边缘检测算法、区域分割算法、区域选择算法、特征提取算法等。
81.在一些实施例中，基于机器学习的方法为将桌面视频序列输入预选训练好的划分模型中，输出划分好的感兴趣区域。示例性的，划分模型采用支持向量机、决策树、神经网络中的一种。
82.在一些实施例中，划分模型的训练方法包括以下内容：
83.获取多个桌面视频序列，以其中的每一帧图像作为一个训练样本，构建训练样本集；为每一帧图像划分真实的感兴趣区域作为标记。
84.获取初始模型，将训练样本集逐一或按批输入初始模型，输出预测得到的相应样本的感兴趣区域。
85.采用训练样本集对初始模型进行训练，构建预测的感兴趣区域与标记之间的损失，优化模型直至达到预设性能要求，得到用于划分感兴趣区域的划分模型。
86.在一些实施例中，若存在鼠标拖动情况，则获取鼠标的拖动轨迹，根据鼠标拖动的起点、终点和被拖动窗口的位置尺寸信息，确定运动向量和感兴趣区域。具体的，假设鼠标向右下拖动的起点坐标为(x1,y1)，终点坐标为(x2,y2)，窗口的位置尺寸信息中包含了以下信息：窗口左上角坐标为(x0,y0)，窗口的宽度为w，窗口的高度为h。基于鼠标的起点坐标和终点坐标确定窗口的运动向量，基于运动向量判断出该窗口向右下方移动时，划分得到的感兴趣区域的四个顶点的坐标计算式如公式(1)～(4)所示：
87.(x,y)
左上
＝(x0,y0)；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
88.(x,y)
右上
＝(x0+w+x
2-x1,y0)；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
89.(x,y)
左下
＝(x0,y0+h+y
2-y1)；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
90.(x,y)
右下
＝(x0+w+x
2-x1,y0+h+y
2-y1)；
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
91.其中，(x,y(
左上
、(x,y)
右上
、(x,y)
左下
和(x,y)
右下
分别表示所述感兴趣区域左上角、右上角、左下角和右下角的坐标。
92.为最终得到的每个感兴趣区域单独进行编码，即并行地对所有感兴趣区域进行编码，生成相应的感兴趣区域码流。
93.在步骤s104中，将全景码流或者感兴趣码流进行打包，并添加标签和时间戳，得到输出码流。示例性，若为全景码流，则标签为1，若为感兴趣码流，则标签为0。
94.如图3所示，为基于桌面视频感兴趣区域的解码方法的流程图，该流程图包含了步
骤s105～s107。
95.在步骤s105中，获取步骤s104得到的输出码流，根据标签判断输出码流为全景码流还是感兴趣码流。若为全景码流，则直接利用解码器对其进行解码，得到全景画面。
96.在步骤s106中，若判断为感兴趣码流，则先对感兴趣码流进行解码，确定该感兴趣码流对应图像帧的参考帧，并获取该参考帧经解码后的全景画面，基于时间戳，将上述解码得到的同一时刻的感兴趣区域画面覆盖在参考帧全景画面的相应位置上，得到重建画面。
97.在步骤s107中，将得到的全景画面或者重建画面输出，得到最终的输出画面，至此实现了基于桌面视频感兴趣区域的编码与解码操作。
98.下面结合一具体实施例对本发明提供的基于桌面视频感兴趣区域的并行编解码方法作进一步说明：
99.在本实施例中，如图4所示，以时间上连续的两帧为例，将图4左侧的图像帧记作第一帧，右侧的图像帧记作第二帧，并设定第一帧为背景帧。
100.比较图4两帧图像可知，在桌面视频中，浏览器窗口向右上方移动了一定的距离，预设编码器检测到鼠标存在拖动动作，因此，利用鼠标拖动信息以及窗口的位置尺寸信息，划定了感兴趣区域(由第二帧中左侧的方框表示)。再利用传统或基于机器学习的方法划分其他感兴趣区域(由第二帧中右侧的方框表示)，由此，在第二帧中，划分得到两个感兴趣区域。
101.第一帧由于是背景帧，直接对其全景编码，生成全景码流；对全景码流进行解码，得到全景画面。并行地对第二帧中的两个感兴趣区域进行编码，生成相应的两个感兴趣码流，将两个感兴趣码流进行打包，并添加时间戳；对感兴趣码流进行解码，得到相应的两个感兴趣区域画面，并基于时间戳，将这两个感兴趣区域画面覆盖在第一帧的全景画面的相应位置上(即，图4第二帧中相应的方框范围为覆盖范围)，得到重建画面。
102.对本发明提供的基于桌面视频感兴趣区域的并行编解码方法进行实验测试。具体的：测试划分不同大小(分辨率)的感兴趣区域对编码一帧时间的影响。被测视频序列分辨率为1920*1080，一共包含1500帧，假设该视频的背景帧数量为3(对应表1中的base)，那么只需要对这3帧进行1080p分辨率的编码，实验数据如表1所示：
103.表1
104.[0105][0106]
由表1可知，当感兴趣区域比较小时，本发明提供的方法可以有效降低编码时间。
[0107]
本发明还提供一种基于桌面视频感兴趣区域的并行编解码系统，包括以下内容：
[0108]
视频处理模块，用于获取待处理的桌面视频，并将桌面视频转换为连续图像帧，得到桌面视频序列。
[0109]
编码器和解码器，用于执行基于桌面视频感兴趣区域的并行编解码方法的步骤，以对桌面视频进行编码、解码操作。
[0110]
存储模块，用于存储所述桌面视频、所述桌面视频序列、所述编码器和所述解码器的输出结果；
[0111]
控制器，用于控制视频处理模块、编码器、解码器和存储模块执行相应的功能。
[0112]
本发明还提供一种电子设备，包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该电子设备实现基于桌面视频感兴趣区域的并行编解码方法的步骤。
[0113]
本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现基于桌面视频感兴趣区域的并行编解码方法的步骤。
[0114]
与上述方法相应地，本发明还提供了一种设备，该设备包括计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该设备实现如前所述方法的步骤。
[0115]
本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时以实现前述边缘计算服务器部署方法的步骤。该计算机可读存储介质可以是有形存储介质，诸如随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、软盘、硬盘、可移动存储盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质。
[0116]
综上所述，本发明提供一种基于桌面视频感兴趣区域的并行编解码方法及系统，包括：获取桌面视频序列；判断桌面视频序列中每一帧图像是否为背景帧；若是，则对该帧的全景编码，生成全景码流；若不是，则以该帧之前且最靠近的背景帧作为参考帧，判断是否存在鼠标拖动信息，采用鼠标拖动信息和/或传统或基于机器学习的方法划分感兴趣区域；对每个感兴趣区域单独进行处理，实现并行编码，生成感兴趣区域码流；将全景码流或感兴趣区域码流打包，并添加标签和时间戳，得到输出码流；根据标签判断输出码流的类型，若为全景码流，则解码得到全景画面；若为感兴趣区域码流，则将解码得到的感兴趣区域画面覆盖在相应参考帧的全景画面上，得到重建画面；将全景画面或重建画面作为输出画面。本发明提供的方法减少了全景画面的编码频率，针对分辨率较小、编码开销较低的感兴趣区域进行编码，提高视频编码速度的同时，降低编码所需的性能开销，减少编码计算量和所需的传输带宽，极大降低浪费。
[0117]
本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例
性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
[0118]
需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。
[0119]
本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
[0120]
以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于桌面视频感兴趣区域的并行编解码方法，其特征在于，所述方法包括以下步骤：获取待处理的桌面视频序列；按照第一预设方法判断所述桌面视频序列中每一帧图像是否为背景帧；若为背景帧，则对所述背景帧的全景进行编码，生成全景码流；若不是背景帧，则以该帧之前且时间上最靠近该帧的背景帧作为参考帧，按照第二预设方法划分感兴趣区域；所述第二预设方法包括基于鼠标拖动信息的划分方法和基于传统或机器学习的划分方法；并行地对所有感兴趣区域进行编码，生成相应的感兴趣区域码流；将所述全景码流或所述感兴趣区域码流进行打包，并添加标签和时间戳，得到输出码流；根据所述标签判断所述输出码流的类型，若为所述全景码流，则对所述全景码流进行解码，得到全景画面；若为所述感兴趣区域码流，则对所述感兴趣区域码流进行解码，并进行时间戳同步；将解码得到的感兴趣区域画面覆盖在相应参考帧的全景画面上，得到重建画面；将所述全景画面或重建画面输出，得到最终的输出画面。2.根据权利要求1所述的基于桌面视频感兴趣区域的并行编解码方法，其特征在于，所述第一预设方法为帧间差分、均值哈希等方法中的一种或多种结合。3.根据权利要求2所述的基于桌面视频感兴趣区域的并行编解码方法，其特征在于，还包括：获取当前帧和所述当前帧之前的预设数量帧，并转换为灰度图像；将所述当前帧分别与所述预设数量帧进行像素级别的比较，计算差异值；若所述差异值大于预设的差异阈值，则将所述当前帧作为所述背景帧。4.根据权利要求1所述的基于桌面视频感兴趣区域的并行编解码方法，其特征在于，按照第二预设方法划分感兴趣区域之前，还包括：与所述参考帧相比，判断该帧中是否存在鼠标拖动情况；若存在所述鼠标拖动情况，则获取鼠标的拖动轨迹，根据所述鼠标拖动的起点、终点和被拖动窗口的位置尺寸信息，确定运动向量和所述感兴趣区域；再利用传统或者基于机器学习的方法确定其他感兴趣区域；所述位置尺寸信息包括所述窗口左上角的坐标、所述窗口的宽度和高度；若不存在所述鼠标拖动情况，则直接利用传统或者基于机器学习的方法确定所述感兴趣区域。5.根据权利要求4所述的基于桌面视频感兴趣区域的并行编解码方法，其特征在于，根据所述鼠标拖动的起点、终点和被拖动窗口的位置尺寸信息，确定运动向量和所述感兴趣区域，还包括：根据所述鼠标拖动的起点、终点的坐标，得到所述运动向量，基于所述运动向量判断所述窗口向右下方移动时，所述感兴趣区域四个顶点的坐标计算式为：(x,y)
左上
＝(x0,y0)；(x,y)
右上
＝(x0+w+x
2-x1,y0)；(x,y)
左下
＝(x0,y0+h+y
2-y1)；
(x,y)
右下
＝(x0+w+x
2-x1,y0+h+y
2-y1)；其中，(x,y)
左上
、(x,y)
右上
、(x,y)
左下
和(x,y)
右下
分别表示所述感兴趣区域左上角、右上角、左下角和右下角的坐标；(x0,y0)表示所述窗口的左上角坐标；w表示所述窗口的宽度；h表示所述窗口的高度；(x1,y1)表示所述鼠标的起点坐标；(x2,y2)表示所述鼠标的终点坐标。6.根据权利要求1所述的基于桌面视频感兴趣区域的并行编解码方法，其特征在于，基于机器学习的方法预先训练划分模型，将所述桌面视频序列输入所述划分模型，输出划分好的感兴趣区域；其中，所述划分模型采用支持向量机、决策树、神经网络中的一种。7.根据权利要求6所述的基于桌面视频感兴趣区域的并行编解码方法，其特征在于，所述划分模型的训练方法包括以下内容：获取多个桌面视频序列，以其中的每一帧图像作为一个训练样本，构建训练样本集；为每一帧图像划分真实的感兴趣区域作为标记；获取初始模型，将所述训练样本集逐一或按批输入所述初始模型，输出预测的相应样本的感兴趣区域；采用所述训练样本集对所述初始模型进行训练，构建预测的感兴趣区域与所述标记之间的损失，优化模型直至达到预设性能要求，得到用于划分感兴趣区域的划分模型。8.一种基于桌面视频感兴趣区域的并行编解码系统，其特征在于，包括以下内容：视频处理模块，用于获取待处理的桌面视频，并将所述桌面视频转换为连续图像帧，得到桌面视频序列；编码器和解码器，用于执行如权利要求1至7中任一项所述方法的步骤，以对桌面视频进行编码、解码操作；存储模块，用于存储所述桌面视频、所述桌面视频序列、所述编码器和所述解码器的输出结果；控制器，用于控制所述视频处理模块、所述编码器、所述解码器和所述存储模块执行相应的功能。9.一种电子设备，包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该电子设备实现如权利要求1至7中任一项所述方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

技术总结
本发明提供一种基于桌面视频感兴趣区域的并行编解码方法及系统，包括：判断桌面视频序列中每一帧图像是否为背景帧；若是，对该帧全景进行编码生成全景码流；若不是，以该帧之前且时间上最靠近的背景帧为参考帧，根据鼠标拖动信息等方法划分感兴趣区域；对所有感兴趣区域并行编码，生成感兴趣区域码流；将全景码流或感兴趣区域码流打包，并添加标签和时间戳，得到输出码流；根据标签判断输出码流的类型，若为全景码流，则解码得到全景画面；若为感兴趣区域码流，则将解码得到的感兴趣区域画面覆盖在相应参考帧的全景画面上，得到重建画面；将全景画面或重建画面作为输出画面。本发明提供的方法能够提高视频编码速度、减少编码计算量和传输带宽。计算量和传输带宽。计算量和传输带宽。

技术研发人员：段鹏瑞马华东陈融
受保护的技术使用者：北京邮电大学
技术研发日：2023.06.21
技术公布日：2023/10/6

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

一种基于桌面视频感兴趣区域的并行编解码方法及系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

一种基于桌面视频感兴趣区域的并行编解码方法及系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表