多通道编解码器中的空间噪声填充的制作方法

未命名 08-06 阅读:109 评论:0

多通道编解码器中的空间噪声填充
相关申请的交叉引用本技术要求2020年12月2日提交的美国临时申请第63/120,658号和2021年11月24日提交的美国临时申请第63/283,187号的优先权,所有这些美国临时申请都通过引用而整体并入本文。
技术领域
本公开总体涉及沉浸式语音和音频上下文中的音频处理。


背景技术:

语音和音频编码器/解码器(“编解码器”)标准开发最近专注于开发用于沉浸式语音和音频服务(ivas)的多通道编解码器。ivas预计将支持一系列音频服务能力,包括但不限于单声道到立体声上混和完全沉浸式音频编码、解码和渲染。ivas预期得到广泛的设备、端点和网络节点的支持,包括但不限于:移动和智能手机、电子平板电脑、个人电脑、会议电话、会议室、虚拟现实(vr)和增强现实(ar)设备、家庭影院设备和其他合适的设备。这些设备、端点和网络节点可以具有用于声音捕获和渲染的各种声学接口。多通道编解码器在解码器输出处重新生成编码器输入音频场景的能力取决于被编码的下混通道的数量、单声道编解码器引入的编码伪像、解码器中使用的去相关器相对于主下混通道输出不相关下混通道的能力、以及被编码的辅助信息的正确性。在由于缺少比特而导致的低比特率下,通常需要在保留音频本质和保留输入场景的背景噪声环境之间进行权衡。保持音频本质在感知上更重要,因此它会导致背景噪声环境崩溃。


技术实现要素:

公开了用于多通道编解码器中的空间噪声填充的实施例。在一个实施例中,空间噪声填充包括:生成具有期望空间和频谱形状的多通道噪声,其中来自编码器的附加信息最少或没有附加信息;将多通道噪声添加到解码器的最终上混输出,以重新生成背景噪声环境并填充空间空洞。多通道噪声的频谱形状由主下混通道确定,该主下混通道是例如一阶高保真度立体声响复制(foa)输入信号格式的w通道的表示,以及中央侧(m/s)输入信号格式的中通道的表示。多通道噪声的空间形状由来自输入空间音频场景的空间信息确定。该空间信息可以从编码器发送的辅助信息(提取的空间元数据)中提取,或者从解码器处的上混输出的空间特性中提取,或者从两者中提取。在一个实施例中,多通道噪声的空间形状是从编码器发送的辅助信息(空间元数据)和解码器处的上混输出的空间特性两者中提取的。本文公开的其他实施例涉及系统、装置和计算机可读介质。所公开的实施例的细节在附图和下面的描述中阐述。其他特征、目的和优点从说明书、附图和权利要求中显而易见。本文公开的特定实施例提供了以下优点中的一个或多个。所公开的空间噪声填充
技术通过改善多通道音频信号的感知环境,解决了多通道编解码器中在低比特率下噪声环境崩溃的问题。
附图说明
在附图中,为了便于描述,示出了诸如那些代表设备、单元、指令块和数据元素的示意性元素的具体布置或排序。然而,本领域那些技术人员应当理解,附图中的示意性元素的特定排序或布置并不意味着暗示需要特定的处理顺序或序列,或处理的分离。此外,在附图中包含示意性元素并不意味着暗示在所有实施例中都需要这样的元素,或者由这样的元素表示的特征可能不包括在一些实施例中或者与一些实施例中其他元素组合。此外,在附图中,当使用诸如实线或虚线或箭头的连接元素来说明两个或多个其他示意性元素之间或之中的连接、关系或关联性时,不存在任何此类连接元素并不意味着暗示不存在任何连接、关系或关联性。换句话说,元素之间的一些连接、关系或关联性没有在附图中示出以免混淆本公开。另外,为了便于说明,使用单个连接元素来表示元素之间的多个连接、关系或关联性。例如,在连接元素代表信号、数据或指令的通信的情况下,本领域技术人员应当理解,这种元素代表一个或多个信号路径(视需要而定)以影响通信。图1示出了根据一个实施例的ivas系统的使用情况。图2是根据实施例的多通道编解码器的框图。图3是根据实施例的用于使用空间噪声填充来处理1通道下混信号的解码器的框图。图4是根据实施例的用于使用具有噪声频谱整形的空间噪声填充来处理1通道下混信号的解码器的框图。图5是根据实施例的通过生成空间空洞填充噪声来在多通道编解码器中重新生成背景噪声环境的过程的流程图。图6是根据实施例的用于实现参考图1-5描述的特征和过程的示例设备架构的框图。不同附图中使用的相同参考符号表示相同的元素。
具体实施方式
在下面的详细描述中,阐述了许多具体细节以提供对各种描述的实施例的透彻理解。对于本领域的普通技术人员来说显而易见的是,可以在没有这些具体细节的情况下实践所描述的各种实施例。在其他情况下,没有详细描述公知的方法、过程、组件和电路,以免不必要地模糊实施例的各方面。下文描述了若干特征,每个特征可被彼此独立地使用或可与其他特征任意组合地使用。命名法如本文所用,术语“包括”及其变体应理解为开放式术语,意思是“包括但不限于”。除非上下文另有明确说明,否则术语“或”应理解为“和/或”。术语“基于”应理解为“至少部分基于”。术语“一个示例实施例”和“示例实施例”将被理解为“至少一个示例实施例”。术语“另一个实施例”应被理解为“至少一个其他实施例”。术语“被确定”或“确定”应理解为获得、接收、运算、计算、估计、预测或推导。此外,在以下描述和权利要求中,除非另有定义,否
则本文使用的所有技术和科学术语的含义与本公开所属领域的普通技术人员通常理解的含义相同。ivas用例示例图1图示了根据实施例的ivas系统100的使用实例。在一些实施例中,各种设备通过呼叫服务器102进行通信,呼叫服务器102被配置为接收来自例如由pstn/其它plmn 104所示的公共交换电话网络(pstn)或公共陆地移动网络设备(plmn)的音频信号。使用实例支持仅以单声道渲染和捕获音频的传统设备106,包括但不限于:支持增强语音服务(evs)、多速率宽带(amr-wb)和自适应多速率窄带(amr-nb)的设备。使用实例还支持捕获和渲染立体声音频信号的用户设备(ue)108、114,或捕获单声道信号并将单声道信号双声道渲染为多通道信号的ue 110。使用实例还支持分别由视频会议室系统116、118捕获和渲染的沉浸式和立体声信号。使用实例还支持用于家庭影院系统120的立体声音频信号的立体声捕获和沉浸式渲染,以计算机112、用于虚拟现实(vr)设备122的音频信号的单声道捕获和沉浸式渲染、和沉浸式内容摄取124。示例ivas编解码器图2是根据实施例的用于编码和解码ivas比特流的ivas编解码器200的框图。ivas编解码器200包括编码器和远端解码器。ivas编码器包括空间分析和下混单元202、量化和熵编码单元203、核心编码单元206(例如,evs编码单元)、和模式/比特率控制单元207。ivas解码器包括量化和熵解码单元204,核心解码单元208(例如,evs解码单元)、空间合成/渲染单元209、和去相关器单元211。空间分析和下混单元202接收表示音频场景的n通道输入音频信号201。输入音频信号201包括但不限于:单声道信号、立体声信号、双声道信号、空间音频信号(例如,多通道空间音频对象)、foa、高阶高保真度立体声响复制(hoa)、和任何其他音频数据。n通道输入音频信号201被空间分析和下混单元202下混到指定数量的下混通道(n_dmx)。在该示例中,n_dmx《=n。空间分析和下混单元202还生成辅助信息(例如,空间元数据),该辅助信息可由远端ivas解码器使用以从n_dmx下混通道、空间元数据和解码器处生成的去相关信号来合成n通道输入音频信号201。在一些实施例中,空间分析和下混单元202实现用于分析/下混立体声/foa音频信号的复杂高级耦合(cacpl)和/或用于分析/下混foa音频信号的空间重构器(spar)。在其他实施例中,空间分析和下混单元202实现其他格式。n_dmx通道由包括在核心编码单元206中的单声道编解码器的n_dmx实例编码,并且辅助信息(例如,空间元数据(md))由量化和熵编码单元203量化和编码。然后将被编码的比特一起打包成比特流并发送到ivas解码器。尽管在所示的实施例中,底层编解码器的示例实施例是evs,但是可以使用任何合适的单声道、立体声或多通道编解码器来生成编码比特流。在一些实施例中,量化可以包括数个级别的越来越粗略的量化(例如,精细、中等、粗略和超粗略量化),并且熵编码可以包括霍夫曼或算术编码。在一些实施例中,核心编码单元206是evs编码单元206,其符合3gpp ts 26.445并提供范围广泛的功能,例如窄带(evs-nb)和宽带(evs-wb)语音服务的增强质量和编码效率、使用超宽带(evs-swb)语音提高质量、提高对话应用中混合内容和音乐的质量、对数据包丢失和延迟抖动的鲁棒性、以及对amr-wb编解码器的向后兼容性。
在一些实施例中,evs编码单元206包括预处理和模式/比特率控制单元207,其基于模式/比特率控制单元207的输出在用于编码语音信号的语音编码器和用于以指定比特率编码音频信号的感知编码器之间进行选择。在一些实施例中,语音编码器是代数码激励线性预测(acelp)的改进变型,针对不同的语音类别扩展了专门的基于线性预测(lp)的模式。在一些实施例中,感知编码器是修正离散余弦变换(mdct)编码器,在低延迟/低比特率下具有更高的效率,并且被设计为在语音和音频编码器之间执行无缝和可靠的切换。在解码器处,n_dmx通道由核心解码单元208中包含的单声道编解码器的相应n_dmx实例解码,并且辅助信息由量化和熵解码单元204解码。主下混通道(例如foa信号格式中的w通道)被馈送到去相关器单元211,其生成n-n_dmx去相关通道。n_dmx下混通道、n-n_dmx去相关通道和辅助信息被馈送到空间合成/渲染单元209,空间合成/渲染单元209使用这些输入来合成或重新生成原始n通道输入音频信号。在一个实施例中,n_dmx通道由除evs之外的单声道编解码器解码。在其他实施例中,n_dmx个通道由一个或多个多通道核心编解码单元和一个或多个单声道核心编解码单元的组合解码。多通道编解码器,例如ivas编解码器200,在低比特率下存在噪声环境崩溃(以下也称为“空间空洞”)的问题。在低比特率下,下混通道的数量通常非常少(例如,n_dmx=1下混通道),并且单通道编解码器可用于对下混通道进行编码的比特数也很少。这会导致编码伪影并降低背景噪声的总能量,是在形成环境的高频中尤其如此。此外,更少的下混通道意味着去相关器需要生成更多不相关的通道。通常,去相关器无法生成具有所期望频谱形状的完全不相关的通道。最后,由于可用的比特预算,辅助信息可能会被粗量化。这些问题导致噪声环境崩溃或空间空洞,并通过修改ivas解码器以实现空间噪声填充来解决,如下文参考图3和4所述。图3是根据实施例的具有1通道下混信号和空间噪声填充的ivas解码器的框图。所示的示例ivas解码器是在1通道下混模式(n_dmx=1)下运行的spar解码器300,其已被配置为对编码的ivas比特流进行解码。请注意,下文描述的空间噪声填充技术也可以应用于具有任意数量的下混信号的任何下混配置。spar解码器300包括比特解包单元301、核心解码单元302(图2中的核心解码单元208)、噪声估计和频谱整形参数提取单元303、噪声上混单元304、多通道噪声空间整形单元305、空间元数据(md)解码单元306(图2中的量化和熵解码单元204)、去相关单元307(图2中的去相关单元211)、上混单元308(图2中的空间合成/渲染单元209)、和空间噪声添加单元309。比特解包单元301接收由ivas编码器在上游生成的编码ivas比特流。ivas比特流包括量化和编码的空间元数据(md)以及编码的核心编码器比特。比特解包单元301解包ivas比特流,并将md比特发送到md解码单元306并且将核心编码比特发送到核心解码单元302。在用于foa的1通道下混配置中,核心编码比特仅包含w

(w通道的表示)个编码比特。核心解码单元302对核心编码比特进行解码,并生成活动(active)w

脉冲编码调制(pcm)输出数据,该输出数据被馈送到噪声估计和频谱整形参数提取单元303和去相关单元307。噪声估计和频谱整形参数提取单元303读取比特流的元数据中的vad(语音活性检测器)/sad(话语活性检测器)判定标志,并且在仅存在背景噪声(vad/sad决策为0)时提取背景噪声的频谱形状参数。请注意,当vad/sad决策为1时,频谱整形参数是静态的。在其他实
施例中,由块302接收的比特可能已经由不同于evs的不同核心编解码器编码,因此块302可以是不同于evs的不同核心编解码器。频谱参数被馈送到噪声上混器单元304,其生成具有与w

通道中的背景噪声相同的频谱形状的n个不相关的噪声通道(例如,对于foa编码,n=4)。在一个实施例中,这些噪声通道是基于高斯白噪声分布生成的,n个通道中的每一个都具有不同的种子,从而生成完全不相关的噪声通道。一旦提取了频谱整形参数,噪声上混器单元304就生成多通道、不相关的噪声,而不管vad/sad决策值如何。噪声上混器单元304的输出被馈送到多通道噪声空间整形单元305,其基于md解码单元306输出的空间元数据和/或从上混单元308的输出(没有空间噪声填充的上混spar foa输出)中提取的空间参数对不相关的n个噪声通道进行空间整形。背景噪声建模的空间参数仅在非活动帧(例如,当仅存在背景噪声时,即,当vad/sad决策为0时)期间被计算,但多通道噪声空间整形单元305生成空间噪声,而不管当前帧是处于活动状态或非活动状态(例如,vad/sad决策为0或1)。这是通过在活动帧期间冻结在最后一个非活动帧中计算的空间参数来完成的。从比特解包单元301输出的md比特被馈送到md解码单元306,其解码由ivas编码器(未示出)编码的空间元数据。核心解码单元302的输出也被馈送到去相关单元307,其生成3个去相关输出(关于下混的w

通道被去相关)。去相关单元307和md解码单元306的输出被馈送到上混单元308,上混单元308从下混通道、去相关单元307输出的去相关通道、和空间元数据md生成foa输出通道。在高比特率下,上混单元308的输出类似于spar编码器的foa输入,但在低和中等范围比特率下,上混单元308的输出可能遭受环境崩溃。为了防止环境崩溃,空间噪声添加单元309将具有期望的空间和频谱形状的经空间和频谱整形的多通道噪声添加到上混单元308的输出。在一些实施例中,空间噪声添加单元309将具有期望的空间和频谱形状的多通道噪声添加到上混单元308的输出处的参数化生成的通道。在1通道下混模式中,y、x和z通道由spar 300解码器利用从spar编码器发送的空间元数据、主下混通道(w'下混通道)和去相关单元307的输出参数化地生成,使得掩蔽噪声仅添加到y、x和z通道。在2通道下混模式中,x和z通道由spar解码器300使用从spar编码器发送的空间元数据、下混通道和去相关单元307的输出参数化生成,因此掩蔽噪声仅添加到x和z通道。在3通道下混模式中,z通道由spar解码器300利用从spar编码器发送的空间元数据、下混通道和去相关单元307的输出参数化地生成,使得掩蔽噪声仅被添加到z通道。在一个实施例中,噪声上混器单元304生成4个不相关的掩蔽噪声通道,它们具有与w

通道中的背景噪声相同的频谱形状,并应用低阶高通滤波器以限制空间掩蔽噪声对高频的影响(因为,通常在高频中更多地感知到环境噪声崩溃)。噪声上混器单元304随后应用平滑增益以进一步平滑空间掩蔽噪声的影响。在一个实施例中,多通道噪声空间整形单元305检查evs比特流元数据中的vad/sad决策值,取得上混单元308的输出,并使该输出通过高通滤波器以更多强调更高频率。然后使用经高通滤波的输出来计算所有4个通道之间的协方差估计。协方差估计被用于生成空间参数,该空间参数用于对完全扩散的(不相关的)掩蔽噪声进行空间整形。在一个实施例中,协方差估计是宽带协方差估计,并且空间参数是spar空间参数(例如,预测系数和去相关系数)。掩蔽噪声整形参数仅在背景噪声存在(例如,vad/sad决策为零)时被计算,否则
当输入音频信号中存在语音或音频(例如,vad/sad决策为1)时为静态。在一个实施例中,多通道噪声空间整形单元305检查vad/sad决策输出,并使用md解码单元306生成的解码空间md对噪声上混器单元304的输出进行空间整形。在一个实施例中,md解码单元306的空间md输出在它被应用到噪声上混器单元304的输出之前被进一步平滑和重新计算以更多地强调较高频率(例如,高通滤波)。多通道噪声空间整形参数仅在仅存在背景噪声(例如,vad/sad决策为0)时计算,并且在检测到语音或声音(例如,vad/sad决策为1)时是静态的。在一个实施例中,空间噪声添加单元309将具有期望的空间和频谱形状的多通道噪声仅添加到多通道解码器输出处的参数化生成的通道。在一个实施例中,空间噪声填充可以使用除ivas或spar之外的任何多通道编解码器通过n通道多通道输入(其中n》=1)来完成。可以应用相同的空间噪声填充方法,其中多通道噪声基于主通道进行频谱整形,并且多通道噪声的空间形状由编码器发送的空间元数据或合成的多通道输出或两者确定。然后,可以将具有所期望频谱和空间形状的多通道噪声在解码器处添加到合成的多通道输出。图4是根据一个实施例的spar解码器400的框图,该spar解码器400以1通道下混配置和空间噪声填充操作,使用核心编解码器的内部模块来提取下混通道中背景噪声的频谱特征。以下对另一实施例的描述将集中于它与先前描述的实施例之间的差异。因此,两个实施例共同的特征可以从以下描述中省略,因此,应该假定先前描述的实施例的特征是或至少可以是在其它实施例中实现,除非下文的描述另有要求。spar解码器400包括核心解码器409和md解码器以及上混器410。核心解码器409包括核心解码单元401、噪声估计单元402、噪声上混单元403和单通道噪声填充单元404。这个单通道噪声填充单元404已经存在于核心解码器409中,并且将频谱整形噪声添加到解码输出以掩蔽核心编码伪像。md解码器和上混器410包括去相关单元405、上混单元407、以及空间整形和噪声填充单元408。在一个实施例中,使用核心解码器409中的频谱整形模块在核心解码器409内部实现噪声的频谱整形。应指出,图3所示的spar解码器300中的噪声估计和频谱整形参数提取单元303以及噪声上混器单元304的一部分也存在于核心解码单元302(单元402和403)内。应指出,图3所示的spar解码器300中的噪声估计和频谱整形参数提取单元303也存在于核心解码单元302(单元402)内。核心解码单元302还具有单通道噪声生成器单元,其使用高斯白噪声分布作为激励信号并根据噪声估计单元402生成的频谱参数对其进行频谱整形。这种单通道噪声生成器可以很容易地修改为多通道噪声生成器,其通过对于高斯白噪声分布对于每个通道使用不同的种子来生成具有相同频谱形状的多个不相关噪声通道。该多通道噪声生成器在图4中被示为单元403,其等同于图3中的单元304。在这个实施例中,解码器409解码w通道的表示,并且噪声估计单元402估计解码数据中的噪声。单元403使用该噪声估计来生成具有相同频谱整形的4个不相关的噪声通道。噪声通道是基于高斯白噪声分布生成的,每个通道具有不同的种子,从而生成完全不相关的噪声通道。上文参考图3和4描述的spar解码器将表示音频场景的foa输入音频信号转换为一组下混通道和空间参数,用于在spar解码器处重新生成输入信号。下混信号可以从1个通道
到4个通道变化,参数包括预测参数pr、交叉预测参数c、和去相关参数p。这些参数是从加窗输入音频信号的协方差矩阵计算出来的,并在指定数量的频带(例如,12个频带)中被计算。spar参数提取的示例性表示如下:1.使用式[1]从主音频信号w预测所有辅助信号(y、z、x)其中,作为示例,用于被预测通道y

的预测系数如式[2]所示地被计算:并且,r
yw
=cov(y,w)是通道y和w对应的输入协方差矩阵的元素。类似地,z

和x

残差通道也有相应的参数prz和prx。pr是预测系数pr=[pry,prz,pr
x
]
t
的向量。上述下混也称为被动w下混,其中w在下混过程中不发生变化。另一种下混方式是主动w下混,它允许y、x和z通道与w通道的一些混合,如下所示:w

=w+f*pry*y+f*prz*z+f*pr
x
*x, [3]其中f是作为归一化输入协方差的函数被计算,其允许将x、y通道中的一些混合到w通道中,pry,pr
x
,prz是预测系数。在一个实施例中,f也可以是常数(例如,0.50)。在被动w中,f=0,因此没有将x、y、z通道混合到w通道中。2.从声学相关性最高到最低来再混合(remix)w通道和被预测的(y',z',x')通道,其中再混合包括基于一些方法重新排序或重新组合通道,如式[4]所示:应指出,再混合的一个实施例可以是将输入通道重新排序为w、y'、x'、z',假定来自左和右的音频提示比从前到后更重要,最后是上下提示。3.计算4通道后预测和再混合下混的协方差,如式[5]和[6]所示:rpr=[再混合][预测].r.[预测]h[再混合]h,
ꢀꢀ
[5]其中dd表示超出w的额外下混通道(例如,第2通道至第n_dmx通道),并且μ表示需要完全重新生成的通道(例如,第(n_dmx+1)通道至4个通道)。
以具有1-4个下混通道的wabc下混为例,d和μ代表以下通道,其中占位符变量a、b、c可以是foa中x、y、z通道的任意组合):n残余通道预测通道1
‑‑a′
,b

,c

2a
′b′
,c

3a

,b
′c′
4a

,b

,c
′‑‑
4.根据这些计算,确定是否有可能由发送的残余通道交叉预测全参数通道的任何剩余部分。所需的额外c系数为:c=r
ud
(r
dd
+imax(∈,tr(r
dd
)*0.005))-1
.
ꢀꢀꢀ
[7]因此,对于3通道下混,c具有形状(1x2),对于2通道下混,c具有形状(2x1)。空间噪声填充的一种实现不需要这些c参数,这些参数可以设置为0。空间噪声填充的替代实施也可以包括c参数。5.计算必须由去相关器填充的参数化通道中的剩余能量。上混通道中的剩余能量res
uu
是实际能量r
uu
(预测后)与重新生成的交叉预测能量reg
uu
之差:reg
uu
=cr
ddch
,[8]res
uu
=r
uu-reg
uu
,[9],[9]其中scale是归一化比例因子。scale可以是宽带值(例如,scale=0.01)或与频率有关,并且在不同的频带中可能取不同的值(例如,当频谱被分为12个频带时,scale=linspace(0.5,0.01,12))。示例过程式[10]中p中的系数指示在未预测和未混合之前,使用w的多少去相关分量来重建a、b和c通道。图5是根据一个实施例的通过生成空间空洞填充噪声来在多通道编解码器中重新生成背景噪声环境的过程500的流程图。过程500可以使用例如参考图6描述的设备架构600来实现。过程500包括基于由表示具有背景噪声环境的空间音频场景的输入音频信号生成的主下混通道(例如,foa w通道)计算噪声估计(501),基于噪声估计计算频谱整形滤波器系数(502),使用频谱整形滤波器系数和噪声分布(例如,高斯白噪声)对多信道噪声信号进行频谱整形,频谱整形导致具有不相关信道的扩散多信道噪声信号(例如,完全扩散)(503),基于空间音频场景的噪声环境对具有不相关通道的扩散的不相关多通道噪声信号进行空间整形(504);将经空间和频谱整形的多通道噪声信号添加到多通道编解码器输出以重新生成输入空间音频场景的背景噪声环境(505)。这些步骤中的每一个都参考图1-4进
行了详细描述。示例性系统架构图6示出了适用于实现参考图1-5描述的示例实施例的示例系统600的框图。系统600包括中央处理单元(cpu)601,其能够根据存储在例如只读存储器(rom)602中的程序或从例如存储单元608加载到随机存取存储器(ram)603的程序执行各种处理。在ram 603中,还根据需要存储cpu 601执行各种处理时所需的数据。cpu 601、rom 602和ram 603通过总线604相互连接。输入/输出(i/o)接口605也连接到总线604。以下组件连接到i/o接口605:输入单元606,其可以包括键盘、鼠标等;输出单元607,其可以包括诸如液晶显示器(lcd)的显示器和一个或多个扬声器;存储单元608,其包括硬盘,或其他合适的存储设备;以及通信单元609,其包括网络接口卡,例如网卡(例如,有线或无线)。在一些实施例中,输入单元606包括在不同位置(取决于主机设备)的一个或多个麦克风,使得能够以各种格式(例如,单声道、立体声、空间、沉浸式和其他合适的格式)捕获音频信号。在一些实施例中,输出单元607包括具有各种数量的扬声器的系统。输出单元607可以各种格式(例如,单声道、立体声、沉浸式、双声道和其他合适的格式)渲染音频信号。通信单元609用于与其他设备通信(例如,通过网络)。根据需要,驱动器610也连接到i/o接口605。诸如磁盘、光盘、磁光盘、闪存驱动器或其他合适的可拆装介质的可拆装介质611被安装在驱动器610上,使得根据需要,从其读取的计算机程序被安装到存储单元608中。本领域技术人员应理解,虽然系统600被描述为包括上述组件,但是在实际应用中,可以添加、移除和/或替换这些组件中的一些,并且所有这些修改或变更都落在本公开的范围内。
[0063]
所公开的实施例的各个方面可从以下列举的示例实施例(eee)理解:ee1.一种通过生成空间空洞填充噪声在多通道编解码器中重新生成背景噪声环境的方法,该方法包括:基于从表示具有背景噪声环境的空间音频场景的输入音频信号生成的主下混通道计算噪声估计;基于该噪声估计计算频谱整形滤波器系数;使用频谱整形滤波器系数和噪声分布对多通道噪声信号进行频谱整形,频谱整形得到具有不相关通道的扩散的多通道噪声信号;基于空间音频场景的噪声环境,对具有不相关通道的扩散的多通道噪声信号进行空间整形;并且将经空间和频谱整形的多通道噪声添加到多通道编解码器输出,以合成空间音频场景的背景噪声环境。ee2.根据ee1所述的方法,其中在一阶高保真度立体声响复制信号的w通道或中央侧(m/s)信号的中央通道的表示中,基于背景噪声环境的频谱形状执行频谱整形。ee3.根据ee1或2所述的方法,其中,不相关通道中的每个通道具有与其它通道相似的频谱形状。ee4.根据ee1至3中任一项所述的方法,其中,对多通道噪声信号进行空间整形是基于多通道编解码器的解码输出的协方差估计的。ee5.根据ee1至4中任一项所述的方法,其中,对多通道噪声信号进行空间整形是基于从输入音频信号中提取的空间元数据的。ee6.根据ee1至5中任一项所述的方法,还包括通过随时间平滑多通道噪声信号的
增益来获得所述多通道噪声信号的频谱形状。ee7.根据ee1至6中任一项所述的方法,其中基于一个或多个可调阈值来限制多通道噪声信号的动态范围。ee8.根据ee1至7中任一项所述的方法,其中,将多通道噪声信号添加到解码的多通道输出以便合成输入背景噪声环境以掩蔽空间环境崩溃。ee9.根据ee1至8中任一项所述的方法,其中,多通道噪声信号仅被添加到参数化上混的多通道输出。ee10.根据ee1至9中任一项所述的方法,其中,多通道编解码器是沉浸式语音和音频服务(ivas)编解码器。ee11.根据ee1至10中任一项所述的方法,其中,多通道噪声信号空间整形和噪声添加是在频带域或宽带域中进行的。ee12.根据ee1至11中任一项所述的方法,其中,多通道噪声信号仅被添加到高频。ee13.一种系统,包括:一个或多个处理器;以及非暂态计算机可读介质,其存储指令,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行上述任一ee的操作。ee14.一种非暂态计算机可读介质,其存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行上述任一ee的操作。根据本公开的示例实施例,上述过程可以被实现为计算机软件程序或在计算机可读存储介质上实现。例如,本公开的实施例包括一种计算机程序产品,该计算机程序产品包括有形地体现在机器可读介质上的计算机程序,该计算机程序包括用于执行方法的程序代码。在这样的实施例中,计算机程序可以经由通信单元609从网络下载和安装,和/或从可移动介质611安装,如图6所示。通常,本公开的各种示例实施例可以以硬件或专用电路(例如,控制电路)、软件、逻辑或其任何组合来实现。例如,上面讨论的单元可以由控制电路(例如,与图6的其他组件组合的cpu)执行,因此,控制电路可以执行本公开中描述的动作。一些方面可以在硬件中实现,而其他方面可以在固件或软件中实现,固件或软件可以由控制器、微处理器或其他计算设备(例如,控制电路)执行。虽然本公开的示例实施例的各个方面被图示和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文描述的框、装置、系统、技术或方法可以实现为硬件、软件、固件、专用电路或逻辑、通用硬件或控制器、或其它计算设备,或它们的某种组合。此外,流程图中所示的各种块可被视为方法步骤,和/或由计算机程序代码的操作产生的操作,和/或被构造为执行相关功能的多个耦合逻辑电路元件。例如,本公开的实施例包括一种计算机程序产品,该计算机程序产品包括有形地体现在机器可读介质上的计算机程序,该计算机程序包含被配置为执行上述方法的程序代码。在本公开的上下文中,机器可读介质可以是任何有形介质,其可以包含或存储由指令执行系统、装置或设备使用或与其结合使用的程序。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以是非暂时性的并且可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置或设备,或前述的任何合适组合。机器可读存储介质的更具体示例将包括具有一根或多根线缆的电连接、便携式计算机磁盘、硬盘、随机存取存
储器(ram)、只读存储器(rom)、可擦除可编程读取器-只读存储器(eprom或闪存)、光纤、便携式紧致盘只读存储器(cd-rom)、光存储设备、磁存储设备、或前述的任何合适组合。可以用一种或多种编程语言的任意组合来编写用于执行本公开的方法的计算机程序代码。这些计算机程序代码可以提供给通用计算机、专用计算机或具有控制电路的其他可编程数据处理装置的处理器,使得程序代码在由计算机或其他可编程数据处理装置的处理器执行时,使流程图和/或框图中指定的功能/操作得以实现。程序代码可以完全在计算机上执行,部分在计算机上作为独立软件包执行,部分在计算机上执行且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行,或者分布在一个或多个远程计算机和/或服务器上。尽管本文件包含许多具体实施例细节,但这些不应被解释为是对可能要求保护的范围的限制,而是作为对特定实施例的特有特征的描述。说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例组合实现。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地实现,或以任何合适的子组合实现。此外,尽管特征可能在上文中被描述为以某些组合起作用,甚至最初也如此要求保护,但在某些情况下,可以从要求保护的组合中删除一个或多个特征,并且要求保护的组合可以指向子组合或子组合的变型。图中描绘的逻辑流程不需要所示的特定顺序或连续顺序来实现期望的结果。此外,可以提供其他步骤,或者可以从所描述的流程中去除步骤,并且可以将其他组件添加到所描述的系统或从中移除。因此,其他实施例在所附权利要求的范围内。

技术特征:
1.一种通过生成空间空洞填充噪声在多通道编解码器中重新生成背景噪声环境的方法,包括:通过至少一个处理器基于从表示具有背景噪声环境的空间音频场景的输入音频信号生成的主下混通道计算噪声估计;通过至少一个处理器基于该噪声估计计算频谱整形滤波器系数;通过至少一个处理器使用频谱整形滤波器系数和噪声分布对多通道噪声信号进行频谱整形,频谱整形得到具有不相关通道的扩散的多通道噪声信号;通过至少一个处理器基于空间音频场景的噪声环境,对具有不相关通道的扩散的、不相关的多通道噪声信号进行空间整形;并且通过至少一个处理器将经空间和频谱整形的多通道噪声添加到多通道编解码器输出,以合成空间音频场景的背景噪声环境。2.根据权利要求1所述的方法,其中在一阶高保真度立体声响复制信号的w通道或中央侧(m/s)信号的中央通道的表示中,基于背景噪声环境的频谱形状执行频谱整形。3.根据权利要求1或2所述的方法,其中,多通道噪声信号的不相关通道中的每个通道具有与其它通道相似的频谱形状。4.根据权利要求1至3中任一项所述的方法,其中,对多通道噪声信号进行空间整形是基于所述多通道编解码器的解码输出的协方差估计的。5.根据权利要求1至4中任一项所述的方法,其中,对多通道噪声信号进行空间整形是基于从输入音频信号中提取的空间元数据的。6.根据权利要求1至5中任一项所述的方法,还包括通过随时间平滑多通道噪声信号的增益来获得所述多通道噪声信号的频谱形状。7.根据权利要求1至6中任一项所述的方法,其中基于一个或多个可调阈值来限制多通道噪声信号的动态范围。8.根据权利要求1至7中任一项所述的方法,其中,将多通道噪声信号添加到解码的多通道输出以便合成输入背景噪声环境以掩蔽空间环境崩溃。9.根据权利要求1至8中任一项所述的方法,其中,多通道噪声信号仅被添加到参数化上混的多通道输出。10.根据权利要求1至9中任一项所述的方法,其中,多通道编解码器是沉浸式语音和音频服务(ivas)编解码器。11.根据权利要求1至10中任一项所述的方法,其中,多通道噪声信号空间整形和噪声添加是在频带域或宽带域中进行的。12.根据权利要求1至11中任一项所述的方法,其中多通道噪声信号仅被添加到高频。13.一种音频处理系统,包括:一个或多个处理器;以及非暂态计算机可读介质,其存储指令,所述指令在由所述一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1-12中任一项的操作。14.一种非暂态计算机可读介质,其存储指令,所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行根据权利要求1-12中任一项的操作。

技术总结
公开了用于多通道编解码器中的空间噪声填充的实施例。在一个实施例中,一种通过生成空间空洞填充噪声在多通道编解码器中重新生成背景噪声环境的方法,包括:基于从表示具有背景噪声环境的空间音频场景的输入音频信号生成的主下混通道计算噪声估计;基于该噪声估计计算频谱整形滤波器系数;使用频谱整形滤波器系数和噪声分布对多通道噪声信号进行频谱整形,频谱整形得到具有不相关通道的扩散的多通道噪声信号;基于空间音频场景的噪声环境,对具有不相关通道的扩散的、不相关的多通道噪声信号进行空间整形;并且将空间和频谱整形的多通道噪声添加到多通道编解码器输出,以合成空间音频场景的背景噪声环境。空间音频场景的背景噪声环境。空间音频场景的背景噪声环境。


技术研发人员:R
受保护的技术使用者:杜比实验室特许公司
技术研发日:2021.12.01
技术公布日:2023/8/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐