码率自适应的视频语义通信方法及相关装置
未命名
10-22
阅读:97
评论:0

1.本公开涉及通信技术领域,尤其涉及码率自适应的视频语义通信方法、装置、电子设备、存储介质。
背景技术:
2.现有视频通信方案基于传统信源信道分离编码,信源编码使用h.264、h.265/avs3等算法,信道编码使用ldpc等算法。信源信道分离的方案在高信噪比情况下有一定优势,且能保证视频的精确重建。
3.由于信源编码算法对数据在比特层面要求严格一致,因此一旦信噪比降低导致视频流中出现误码,则数据损坏无法解码,需要反复重传直到码流正确传输。且传统通信方案无法精确控制比特,仅能近似控制码率达到指定的码率,使得整个视频码流存在波动,某些段视频码流可能过高,从而超过无线设备分配的带宽,这种波动极易造成视频卡顿的情况出现。
技术实现要素:
4.针对现有技术中存在的上述问题,现提供一种码率自适应的视频语义通信方法、装置、设备及介质。
5.本发明包括一种码率自适应的视频语义通信方法,包括:
6.信源信道联合编码步骤,发送端将待传输的帧集合转换为语义特征图;
7.共性特征提取步骤,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;
8.动态语义变长编码步骤,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;
9.传输步骤,所述发送端将所述待传输信号传输到接收端;
10.综合解码步骤,所述接收端将接收到的信号进行解码,获得重建的帧集合。
11.本发明还包括一种码率自适应的视频语义通信装置,其特征在于,包括:
12.信源信道联合编码模块,发送端将待传输的帧集合转换为语义特征图;
13.共性特征提取模块,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;
14.动态语义变长编码模块,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;
15.传输模块,所述发送端将所述待传输信号传输到接收端;
16.综合解码模块,所述接收端将接收到的信号进行解码,获得重建的帧集合。
17.本发明还包括一种电子设备,包括处理器、通信接口、存储器以及通信总线,其中,所述通信总线用于完成所述处理器、所述通信接口以及所述存储器之间的相互通信;
18.所述存储器,用于存放计算机程序;
19.所述处理器,用于执行所述存储器内存放的所述计算机程序,以实现上述技术方案中任意一项所述的码率自适应的视频语义通信方法。
20.本发明还包括一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序在被处理器执行时实现上述技术方案中任一项所述的码率自适应的视频语义通信方法。
21.本发明还包括一种计算机程序产品,当所述计算机程序产品在计算机上执行时,使得所述计算机执行上述技术方案中任一项所述的码率自适应的视频语义通信方法。
附图说明
22.参考所附附图,以更加充分的描述本发明的实施例。然而,所附附图仅用于说明和阐述,并不构成对本发明范围的限制。
23.图1为本发明一个实施例提供的码率自适应的视频语义通信方法的示意图;
24.图2为本发明一个实施例提供的码率自适应的视频语义通信装置的示意图;
25.图3为本发明一个实施例提供的系统架构示意图;
26.图4为本发明一个实施例提供的共性与特性提取示意图;
27.图5是用来实现本发明实施例方法的电子设备的框图。
具体实施方式
28.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
29.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
30.帧集合:在mpeg视频编码标准中,帧集合(group of pictures,gop,也可称图像集合、图像群组)是一组以mpeg编码的视频内部的连续图像,每一个以mpeg标准编码的视频都由连续的若干个帧集合组成。本公开的gop和传统算法中的gop略有不同,传统的gop包含参考帧、预测帧、双向预测帧等,本公开的gop仅代表由几帧视频帧堆叠而成的4维向量。
31.语义编码:业务信息中蕴含的语义信息。根据语义类型的不同,可以细分为文本语义编码、图像语义编码、音频语义编码、视频语义编码、点云语义编码等。语义编码可能的类别与业务信息可能的类别相关,可以是通信传输的一切可能类型的语义编码。语义编码的生成也与语义编码模型有关,语义编码模型可以采用一切可能的人工智能、深度学习、模式识别等学科的模型。
32.联合信源信道编码:联合信道信源编码技术(jscc)是语义通信中的一项重要技术,经典的jscc策略是基于信源的统计概率而忽略了其语义特征。
33.发送端和接收端:发送端和接收端之间有信道连接,发送端(发射机)具有编码器,接收端(接收机)具有解码器。本发明基于语义编码和语义解码,因此本发明的发送端具有语义编码器;本发明的接收端具有语义解码器。本发明的发送端和接收端在语义层工作,底层仍然是香农物理层。
34.模型:本发明所称的模型包括机器学习、人工智能、神经网络等学科领域的模型。模型用于对业务信息进行语义编码和语义解码,则称为语义编码模型和语义解码模型。根据业务信息类型的不同,可分为文本模型、音频模型、图像模型、视频模型、点云模型、一维波形模型、雷达数据模型等。模型的类别与语义编码的类别、业务信息的类别相关,可以是通信传输的一切可能类型的模型。
35.下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
36.实施例一
37.如图1所示,本实施例提供了一种码率自适应的视频语义通信方法,其特征在于,包括:
38.信源信道联合编码步骤s101,发送端将待传输的帧集合转换为语义特征图;
39.共性特征提取步骤s102,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;
40.动态语义变长编码步骤s103,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;
41.传输步骤s104,所述发送端将所述待传输信号传输到接收端;
42.综合解码步骤s105,所述接收端将接收到的信号进行解码,获得重建的帧集合。
43.如图3所示,为本实施例提供的系统架构图。视频帧组成的帧集合xg,在发送端进行处理。而在接收端最终恢复得到的重建的帧集合
44.在发送端,经过信源信道联合编码器(jscc encoder),将帧集合xg转换为语义特征图的集合yg。
45.然后经过共性特征提取器(common feature extrator),将语义特征图的集合yg转换为共性语义向量和特性语义向量wg。
46.然后经过动态语义变长编码器(var iable length coding),将共性语义向量和特性语义向量wg转换为待传输的一维信号sg。其中,共性语义向量和特性语义向量被输入熵模型(entropy model),所述熵模型对上述向量的编码位的信息熵进行计算。根据计算得到的信息熵确定对哪些编码位进行丢弃。
47.然后经过传输步骤(wireless channel)到达接收端。
48.因为发送端要变长编码需要熵模型,编码后的数据因为被展开成一维向量失去了原本的位置属性,此时在接收端部署一个和发送端一模一样的熵模型用于在解码的时候恢复出数据的位置属性。
49.接收端经过综合解码器(其属于信源信宿联合解码的一种,jscc decoder),将接收到的一维信号经过一次解码得到重建的帧集合接收到的一维信号被输入所述熵模型,以确定解码的时候恢复出数据的位置属性。解码时对上述位置的编码位填充零值或均值,扩充得到重建的一维向量;所述均值为发送端根据丢弃的编码位的数据计算的均值。
50.其中,所述信源信道联合编码步骤s101的有益效果包括,在视频语义传输时,将码率波动局部化在帧集合中,每个帧集合的帧数量是正整数,从几帧到十几帧到几十帧或几百帧,在视频中最多也就是若干秒的时长,因此可以较好地获取局部的帧率。
51.其中,可选地,所述信源信道联合编码步骤,基于预训练的信源模型、信道模型将所述帧集合中的每个图像帧转换为语义特征图;
52.所述信道模型可在训练阶段依据具体应用场景进行更换。信道模型可在整个发送端编码器训练阶段依据具体应用场景进行更换,使训练后的信源信道联合编码器能够更好地适应目的场景。
53.其中,所述共性特征提取步骤s102,其有益效果包括,极大地提升了对语义特征图的压缩效率。同时,能够根据信源信道联合编码时的信道环境来进行码率自适应。
54.其中,可选地,所述共性特征提取步骤,基于内嵌卷积神经网络将所述帧集合中的所有语义特征图转换为共性语义编码和特性语义编码。
55.例如,使用一个内嵌卷积神经网络对帧集合(gop)的所有语义特征图进一步计算与压缩,以3张图为一个gop为例,3帧原始帧将生成1张语义共性特征编码与3张语义特性特征编码,从维度上看经过计算后数据总量会变多。
56.假设所述帧集合包含n个视频帧,所述内嵌卷积神经网络的输入层接受n个语义特征图yg,其输出层输出n+1个语义编码,包括一个共性语义编码和n个特性语义编码。
57.另外一种实施方式中,语义特征图yg,经所述内嵌卷积神经网络,输出共性语义编码,将yg与共性语义编码相减,即得到特性语义编码。
58.如图4所示,共性特征提取器(common feature extrator)中的内嵌卷积神经网络将两个图像帧xg(假定一个帧集合包括2个帧)转换为1个共性特征图w
gc
和2个个性特征图w
gi
。所述共性特征图表述的是两个图像帧中的共性特征,例如两个图像帧中都有五角星、六角形和太阳图形。而两个个性特征图则分别表述两个图像帧的个性信息,例如图形的位置、大小、方向等属性的不同。
59.所述共性特征提取步骤的有益效果在于,通过划分共性和特性特征,较大地对语义特征图进行了压缩。每个语义特征图可以在逻辑上由共性和特性组成,而每个语义特征图只共同保留一份共性语义编码即可。假设语义特征图的数据量为a,而个性特征图的数据量为a,则n个语义特征图原本传输的数据量是n*a。保留1份共性和n份特性之后的数据量为,n*a+(a-a)。则数据压缩率总体上取决于a和a的比例。假设a=0.5a时,压缩率为(n-1)/(2n)。
60.可选地,对共性特征图与个性特征图数量不做限制,是可变参数,当信道状况良好时,可不提取共性,直接传输个性特征,以提升视频传输后的恢复性能。
61.其中,可选地,所述共性特征提取步骤,每个所述帧集合中,生成一个共性语义编码和第一数量的特性语义编码;所述第一数量为所述帧集合中的图像帧数量。
62.其中,所述动态语义变长编码步骤s103,其有益效果包括,当面临信道环境变化等情况影响到码率时,不需要反复重传直到码流正确传输;而是可以在整个视频码流存在波动时,联合前述信源信道联合编码步骤、共性特征提取步骤,通过信道模型、共性语义编码比例和变长编码比例的联合作用,使得本发明对于整个视频码流可以自适应。
63.其中,可选地,所述动态语义变长编码步骤,包括:
64.基于预置的信息熵模型,获取所述共性语义编码和所述特性语义编码每个编码位的信息熵;
65.所述变长编码器,根据每个编码位的信息熵,依据预置的阈值丢弃一部分编码位,
展平为一维向量并拼接生成待传输信号。
66.其中,可选地,所述动态语义变长编码步骤中,所述信息熵模型的随机变量包括以下至少一个:信道状况、服务质量、时延要求、带宽限制;
67.将所述编码位的信息熵与所述预置的阈值进行比较,对低于所述预置的阈值的所述编码位进行丢弃。
68.其中,可选地,所述动态语义变长编码步骤中,所述丢弃一部分数据生成待传输信号,包括:
69.将待丢弃的编码位丢弃,得到缩短后的一维向量,作为待传输信号。
70.其中,可选地,所述动态语义变长编码步骤中,所述丢弃一部分数据生成待传输信号,还包括:
71.针对待丢弃的编码位,计算均值;所述均值用于在接收端恢复时填充接收到的一维向量。
72.通过丢弃部分信息熵较低的编码位,使得共性和特性语义编码中的有用信息得到保留,从而最大程度地保留了视频传输中的信息。而对于丢弃的编码位,在接收端通过两种方式(补零或补均值)可以对低信息熵的编码位进行恢复。
73.其中,所述传输步骤s104,可选的,所述传输步骤,将待传输信号转换为浮点数,随后使用模拟通信调制传输。
74.其中,可选地,所述传输步骤,将待传输信号量化为离散整数,随后使用数字通信调制传输。
75.其中,所述综合解码步骤s105,其有益效果包括采用了非对称结构,在发送端部署了更多的神经网络与算法,接收端仅使用一个信源信道联合解码器,这样做的好处是可以降低接收侧的算力负担,使得手机等移动端设备也能负担的起实时视频语义传输。
76.其中,可选地,所述综合解码步骤中,所述语义解码器将接收到的信号扩充得到重建的一维向量,将所述重建的一维向量恢复多维矩阵格式得到重建的共性语义编码和重建的特性语义编码,将所述重建的共性语义编码和所述重建的特性语义编码融合得到重建的语义特征图,基于所述重建的语义特征图获得重建的帧集合。
77.可选地,所述综合解码步骤中,所述将接收到的信号扩充得到重建的一维向量,包括:
78.基于预置的信息熵模型,获取所述接收到的信号的位置属性;
79.基于所述位置属性对所述接收到的信号进行扩充,得到重建的一维向量。
80.可选地,所述基于所述位置属性对所述接收到的信号进行扩充,得到重建的一维向量,包括:
81.对所述接收到的信号中对应发送端丢弃的编码位补零,扩充得到重建的一维向量。
82.可选地,所述基于所述位置属性对所述接收到的信号进行扩充,得到重建的一维向量,包括:
83.对所述接收到的信号中对应发送端丢弃的编码位填充均值,扩充得到重建的一维向量;所述均值为发送端根据丢弃的编码位的数据计算的均值。
84.本实施例的技术方案可以与其他实施例的技术方案进行结合。
85.实施例二
86.本实施例提供了一种码率自适应的视频文件语义通信方法,其特征在于,包括:
87.视频划分步骤,发送端将待传输视频文件划分为第二数量的帧集合;
88.信源信道联合编码步骤s101,发送端将待传输的帧集合转换为语义特征图;
89.共性特征提取步骤s102,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;
90.动态语义变长编码步骤s103,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;
91.传输步骤s104,所述发送端将所述待传输信号传输到接收端;
92.综合解码步骤s105,所述接收端将接收到的信号进行解码,获得重建的帧集合;
93.视频恢复步骤,所述接收端根据第二数量的所述重建的帧集合获取重建的视频文件。
94.本实施例各个步骤的扩展方式,参见实施例一。
95.本实施例的技术方案可以与其他实施例的技术方案进行结合。
96.实施例三
97.本实施例提供了一种码率自适应的流媒体视频语义通信方法,其特征在于,包括:
98.帧集合获取步骤,发送端从待传输流媒体视频中获取若干视频帧组合为一个帧集合;
99.信源信道联合编码步骤s101,发送端将待传输的帧集合转换为语义特征图;
100.共性特征提取步骤s102,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;
101.动态语义变长编码步骤s103,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;
102.传输步骤s104,所述发送端将所述待传输信号传输到接收端;
103.综合解码步骤s105,所述接收端将接收到的信号进行解码,获得重建的帧集合;
104.流媒体恢复步骤,所述接收端将所述重建的帧集合加入流媒体视频中。
105.本实施例各个步骤的扩展方式,参见实施例一。
106.本实施例的技术方案可以与其他实施例的技术方案进行结合。
107.实施例四
108.如图2所示,本实施例提供了一种码率自适应的视频语义通信装置,其特征在于,包括:
109.信源信道联合编码模块201,发送端将待传输的帧集合转换为语义特征图;
110.共性特征提取模块202,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;
111.动态语义变长编码模块203,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;
112.传输模块204,所述发送端将所述待传输信号传输到接收端;
113.综合解码模块205,所述接收端将接收到的信号进行解码,获得重建的帧集合。
114.本实施例各个模块的扩展方式,参见实施例一,与实施例一中的方法步骤的扩展
方式一一对应。
115.本实施例的技术方案可以与其他实施例的技术方案进行结合。
116.实施例五
117.本实施例提供了一种码率自适应的视频语义通信装置,其特征在于,包括:
118.视频划分模块,发送端将待传输视频文件划分为第二数量的帧集合;
119.信源信道联合编码模块201,发送端将待传输的帧集合转换为语义特征图;
120.共性特征提取模块202,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;
121.动态语义变长编码模块203,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;
122.传输模块204,所述发送端将所述待传输信号传输到接收端;
123.综合解码模块205,所述接收端将接收到的信号进行解码,获得重建的帧集合;
124.视频恢复模块,所述接收端根据第二数量的所述重建的帧集合获取重建的视频文件。
125.本实施例各个模块的扩展方式,参见实施例二,与实施例一中的方法步骤的扩展方式一一对应。
126.本实施例的技术方案可以与其他实施例的技术方案进行结合。
127.实施例六
128.本实施例提供了一种码率自适应的视频语义通信装置,其特征在于,包括:
129.帧集合获取模块,发送端从待传输流媒体视频中获取若干视频帧组合为一个帧集合;
130.信源信道联合编码模块201,发送端将待传输的帧集合转换为语义特征图;
131.共性特征提取模块202,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;
132.动态语义变长编码模块203,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;
133.传输模块204,所述发送端将所述待传输信号传输到接收端;
134.综合解码模块205,所述接收端将接收到的信号进行解码,获得重建的帧集合;
135.流媒体恢复模块,所述接收端将所述重建的帧集合加入流媒体视频中。
136.本实施例各个模块的扩展方式,参见实施例三,与实施例一中的方法步骤的扩展方式一一对应。
137.本实施例的技术方案可以与其他实施例的技术方案进行结合。
138.实施例七
139.根据本发明的实施例,本发明还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
140.本发明还包括一种电子设备,包括处理器、通信接口、存储器以及通信总线,其中,所述通信总线用于完成所述处理器、所述通信接口以及所述存储器之间的相互通信;
141.所述存储器,用于存放计算机程序;
142.所述处理器,用于执行所述存储器内存放的所述计算机程序,以实现上述技术方
案中任意一项所述的码率自适应的视频语义通信方法。
143.本发明还包括一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序在被处理器执行时实现上述技术方案中任一项所述的码率自适应的视频语义通信方法。
144.本发明还包括一种计算机程序产品,当所述计算机程序产品在计算机上执行时,使得所述计算机执行上述技术方案中任一项所述的码率自适应的视频语义通信方法。
145.图5示出了可以用来实施本发明的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
146.如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(rom)502中的计算机程序或者从存储单元508加载到随机访问存储器(ram)503中的计算机程序,来执行各种适当的动作和处理。在ram 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、rom 502以及ram 803通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
147.设备500中的多个部件连接至i/o接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
148.计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如测试方法。例如,在一些实施例中,测试方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由rom 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到ram 503并由计算单元501执行时,可以执行上文描述的测试方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行测试方法。
149.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
150.用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
151.在本发明的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
152.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
153.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
154.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应999的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
155.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明公开的技术方案所期望的结果,本文在此不进行限制。
156.上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
技术特征:
1.一种码率自适应的视频语义通信方法,其特征在于,包括:信源信道联合编码步骤,发送端将待传输的帧集合转换为语义特征图;共性特征提取步骤,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;动态语义变长编码步骤,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;传输步骤,所述发送端将所述待传输信号传输到接收端;综合解码步骤,所述接收端将接收到的信号进行解码,获得重建的帧集合。2.如权利要求1所述的方法,其特征在于,所述信源信道联合编码步骤,基于预训练的信源模型、信道模型将所述帧集合中的每个图像帧转换为语义特征图;所述信道模型可在训练阶段依据具体应用场景进行更换。3.如权利要求1所述的方法,其特征在于,所述共性特征提取步骤,基于内嵌卷积神经网络将所述帧集合中的所有语义特征图转换为共性语义编码和特性语义编码。4.如权利要求3所述的方法,其特征在于,所述共性特征提取步骤,每个所述帧集合中,生成一个共性语义编码和第一数量的特性语义编码;所述第一数量为所述帧集合中的图像帧数量。5.如权利要求1所述的方法,其特征在于,所述动态语义变长编码步骤,包括:基于预置的信息熵模型,获取所述共性语义编码和所述特性语义编码每个编码位的信息熵;所述变长编码器,根据每个编码位的信息熵,依据预置的阈值丢弃一部分编码位,展平为一维向量并拼接生成待传输信号。6.如权利要求5所述的方法,其特征在于,所述动态语义变长编码步骤中,所述信息熵模型的随机变量包括以下至少一个:信道状况、服务质量、时延要求、带宽限制;将所述编码位的信息熵与所述预置的阈值进行比较,对低于所述预置的阈值的所述编码位进行丢弃。7.如权利要求6所述的方法,其特征在于,所述动态语义变长编码步骤中,所述丢弃一部分数据生成待传输信号,包括:将待丢弃的编码位丢弃,得到缩短后的一维向量,作为待传输信号。8.如权利要求7所述的方法,其特征在于,所述动态语义变长编码步骤中,所述丢弃一部分数据生成待传输信号,还包括:针对待丢弃的编码位,计算均值;所述均值用于在接收端恢复时填充接收到的一维向量。9.如权利要求1所述的方法,其特征在于,所述传输步骤,将待传输信号转换为浮点数,随后使用模拟通信调制传输。10.如权利要求1所述的方法,其特征在于,所述传输步骤,将待传输信号量化为离散整数,随后使用数字通信调制传输。11.如权利要求1所述的方法,其特征在于,所述综合解码步骤中,所述语义解码器将接收到的信号扩充得到重建的一维向量,将所述重建的一维向量恢复多维矩阵格式得到重建的共性语义编码和重建的特性语义编码,将所述重建的共性语义编码和所述重建的特性语
义编码融合得到重建的语义特征图,基于所述重建的语义特征图获得重建的帧集合。12.如权利要求1所述的方法,其特征在于,所述综合解码步骤中,所述将接收到的信号扩充得到重建的一维向量,包括:基于预置的信息熵模型,获取所述接收到的信号的位置属性;基于所述位置属性对所述接收到的信号进行扩充,得到重建的一维向量。13.如权利要求12所述的方法,其特征在于,所述基于所述位置属性对所述接收到的信号进行扩充,得到重建的一维向量,包括:对所述接收到的信号中对应发送端丢弃的编码位补零,扩充得到重建的一维向量。14.如权利要求12所述的方法,其特征在于,所述基于所述位置属性对所述接收到的信号进行扩充,得到重建的一维向量,包括:对所述接收到的信号中对应发送端丢弃的编码位填充均值,扩充得到重建的一维向量;所述均值为发送端根据丢弃的编码位的数据计算的均值。15.如权利要求1所述的方法,其特征在于,用于视频文件传输,所述方法之前还包括:视频划分步骤,发送端将待传输视频文件划分为第二数量的帧集合;所述方法之后还包括:视频恢复步骤,所述接收端根据第二数量的所述重建的帧集合获取重建的视频文件。16.如权利要求1所述的方法,其特征在于,用于流媒体视频传输,所述方法之前还包括:帧集合获取步骤,发送端从待传输流媒体视频中获取若干视频帧组合为一个帧集合;所述方法之后还包括:流媒体恢复步骤,所述接收端将所述重建的帧集合加入流媒体视频中。17.一种码率自适应的视频语义通信装置,其特征在于,包括:信源信道联合编码模块,发送端将待传输的帧集合转换为语义特征图;共性特征提取模块,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;动态语义变长编码模块,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;传输模块,所述发送端将所述待传输信号传输到接收端;综合解码模块,所述接收端将接收到的信号进行解码,获得重建的帧集合。18.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-15中任一项所述的方法。19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-15中任一项所述的方法。20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-15中任一项所述的方法。
技术总结
本公开提供了一种码率自适应的视频语义通信方法和相关装置;方法包括:信源信道联合编码步骤,发送端将待传输的帧集合转换为语义特征图;共性特征提取步骤,所述发送端将所述帧集合的语义特征图转换为共性语义编码和特性语义编码;动态语义变长编码步骤,将所述共性语义编码和所述特性语义编码丢弃一部分数据生成待传输信号;传输步骤,所述发送端将所述待传输信号传输到接收端;综合解码步骤,所述接收端将接收到的信号进行解码,获得重建的帧集合。帧集合。
技术研发人员:董辰 鲍智成 梁灏泰 许晓东 张平
受保护的技术使用者:北京邮电大学
技术研发日:2023.06.01
技术公布日:2023/10/19
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/