使用神经网络处理音频的方法和装置与流程

未命名 07-22 阅读:89 评论:0

使用神经网络处理音频的方法和装置
1.相关申请的交叉引用
2.本技术要求以下优先申请的优先权:于2020年10月15日提交的美国临时申请63/092,118和于2020年12月1日提交的欧洲申请号20210968.2,所述申请通过引用并入本文。
技术领域
3.本公开总体上涉及一种使用神经网络或者使用第一神经网络和第二神经网络处理音频信号的方法,并且具体地涉及一种使用神经网络或者使用第一神经网络和第二神经网络处理感知域中的音频信号的方法。本公开进一步涉及一种训练所述神经网络或联合训练一组所述第一神经网络和所述第二神经网络的方法。本公开还涉及一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的方法,并且涉及一种使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的方法。本公开还涉及相应的装置和计算机程序产品。
4.尽管本文将特别参考该公开内容来描述一些实施例,但是应当理解,本公开不限于这种使用领域,并且可应用于更广泛的背景。


背景技术:

5.在整个公开内容中对背景技术的任何讨论绝不应视为承认这种技术是本领域众所周知的或形成本领域公知常识的一部分。
6.高性能音频编码器和解码器利用人类听觉系统的限制来去除人类无法听到的无关信息。典型地,编码系统使用心理声学或感知模型来计算相应的掩蔽阈值。然后使用掩蔽阈值来控制编码过程,使得引入的噪声对听觉的影响最小。
7.到目前为止,神经网络已经表现出许多应用中的前景,包括图像、视频以及甚至语音的编码和/或解码。然而,在使用典型训练技术的一般音频编码和/或解码应用中,特别是在涉及感知域音频信号的编码和/或解码应用中,现在仍然存在对神经网络应用的需求。


技术实现要素:

8.根据本公开的第一方面,提供了一种使用神经网络处理音频信号的方法。所述方法可以包括步骤(a):获得感知域音频信号。所述方法可以进一步包括步骤(b):将所述感知域音频信号输入到所述神经网络中,以处理所述感知域音频信号。所述方法可以进一步包括步骤(c):获得经处理的感知域音频信号作为所述神经网络的输出。并且所述方法可以包括步骤(d):基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述经处理的感知域音频信号转换到原始信号域。
9.在一些实施例中,通过神经网络处理感知域音频信号可以在时域中执行。
10.在一些实施例中,所述方法可以进一步包括:在步骤(d)之前,将所述音频信号转换到频域。
11.在一些实施例中,所述神经网络可以以指示所述掩码的信息为条件。
12.在一些实施例中,所述神经网络可以以所述感知域音频信号为条件。
13.在一些实施例中,通过所述神经网络处理所述感知域音频信号可以包括跨时间预测所述经处理的感知域音频信号。
14.在一些实施例中,通过所述神经网络处理所述感知域音频信号可以包括跨频率预测所述经处理的感知域音频信号。
15.在一些实施例中,通过所述神经网络处理所述感知域音频信号可以包括跨时间和频率预测所述经处理的感知域音频信号。
16.在一些实施例中,所述感知域音频信号可以从以下操作获得:(a)通过应用所述掩码将音频信号从所述原始信号域转换到所述感知域;(b)对所述感知域音频信号进行编码;以及(c)对所述感知域音频信号进行解码。
17.在一些实施例中,在编码之前可以将量化应用于所述感知域音频信号,并且在解码之后可以将逆量化应用于所述感知域音频信号。
18.根据本公开的第二方面,提供了一种使用第一神经网络和第二神经网络处理音频信号的方法。所述方法可以包括步骤(a):由第一装置通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号。所述方法可以进一步包括步骤(b):将所述感知域音频信号输入到所述第一神经网络中,以将所述感知域音频信号映射到潜在特征空间表示。所述方法可以进一步包括步骤(c):获得所述潜在特征空间表示,作为所述第一神经网络的输出。所述方法可以进一步包括步骤(d):将所述感知域音频信号的潜在特征空间表示和所述掩码传输到第二装置。所述方法可以进一步包括步骤(e):由所述第二装置接收所述感知域音频信号的潜在特征空间表示和所述掩码。所述方法可以进一步包括步骤(f):将所述潜在特征空间表示输入到所述第二神经网络中,以生成近似感知域音频信号。所述方法可以进一步包括步骤(g):获得所述近似感知域音频信号,作为所述第二神经网络的输出。并且所述方法可以包括步骤(h):基于所述掩码将所述近似感知域音频信号转换到所述原始信号域。
19.在一些实施例中,所述方法可以进一步包括:将所述感知域音频信号的潜在特征空间表示和所述掩码编码为比特流,以及将所述比特流传输到所述第二装置,其中,所述方法可以进一步包括:由所述第二装置接收所述比特流,以及对所述比特流进行解码以获得所述感知域音频信号的潜在特征空间表示和所述掩码。
20.在一些实施例中,所述感知域音频信号的潜在特征空间表示和所述掩码可以在被编码为所述比特流之前进行量化,并且在由所述第二神经网络进行处理之前进行去量化。
21.在一些实施例中,所述第二神经网络可以以所述感知域音频信号的潜在特征空间表示和/或所述掩码为条件。
22.在一些实施例中,通过所述第一神经网络将所述感知域音频信号映射到所述潜在特征空间表示以及通过所述第二神经网络生成所述近似感知域音频信号可以在时域中执行。
23.在一些实施例中,在步骤(a)中获得所述感知域信号以及在步骤(h)中转换所述近似感知域信号可以在频域中执行。
24.根据本公开的第三方面,提供了一种联合训练一组第一神经网络和第二神经网络的方法。所述方法可以包括步骤(a):将感知域音频训练信号输入到所述第一神经网络中,
以将所述感知域音频训练信号映射到潜在特征空间表示。所述方法可以进一步包括步骤(b):获得所述感知域音频训练信号的潜在特征空间表示,作为所述第一神经网络的输出。所述方法可以进一步包括步骤(c):将所述感知域音频训练信号的潜在特征空间表示输入到所述第二神经网络中,以生成近似感知域音频训练信号。所述方法可以进一步包括步骤(d):获得所述近似感知域音频训练信号,作为所述第二神经网络的输出。并且所述方法可以包括步骤(e):基于所述近似感知域音频训练信号与原始感知域音频信号之间的差异,迭代地调整所述第一神经网络和所述第二神经网络的参数。
25.在一些实施例中,可以基于一个或多个损失函数在感知域中训练所述第一神经网络和所述第二神经网络。
26.在一些实施例中,可以基于负对数似然条件在所述感知域中训练所述第一神经网络和所述第二神经网络。
27.根据本公开的第四方面,提供了一种训练神经网络的方法。所述方法可以包括步骤(a):将感知域音频训练信号输入到所述神经网络中,以处理所述感知域音频训练信号。所述方法可以进一步包括步骤(b):获得经处理的感知域音频训练信号作为所述神经网络的输出。并且所述方法可以包括步骤(c):基于所述经处理的感知域音频训练信号与原始感知域音频信号之间的差异,迭代地调整所述神经网络的参数。
28.在一些实施例中,可以基于一个或多个损失函数在所述感知域中训练所述神经网络。
29.在一些实施例中,可以基于负对数似然条件在所述感知域中训练所述神经网络。
30.根据本公开的第五方面,提供了一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的方法。所述方法可以包括步骤(a):通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的所述音频信号来获得感知域音频信号。所述方法可以进一步包括步骤(b):将所述感知域音频信号输入到神经网络中,以将所述感知域音频信号映射到潜在特征空间表示。所述方法可以进一步包括步骤(c):获得所述感知域音频信号的潜在特征空间表示作为所述神经网络的输出。并且所述方法可以包括步骤(d):将所述感知域音频信号的潜在特征空间表示输出为比特流。
31.在一些实施例中,在步骤(d)中,可以将指示所述掩码的进一步信息输出为所述比特流。
32.在一些实施例中,感知域音频信号的潜在特征空间表示和/或指示掩码的信息可以在输出为比特流之前进行量化。
33.在一些实施例中,通过所述神经网络将所述感知域音频信号映射到所述潜在特征空间表示可以在时域中执行。
34.在一些实施例中,获得所述感知域音频信号可以在频域中执行。
35.根据本公开的第六方面,提供了一种使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的方法。所述方法可以包括步骤(a):接收作为比特流的感知域音频信号的潜在特征空间表示。所述方法可以进一步包括步骤(b):将所述潜在特征空间表示输入到神经网络中,以生成所述感知域音频信号。所述方法可以进一步包括步骤(c):获得所述感知域音频信号作为所述神经网络的输出。并且所述方法可以包括步骤(d):基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述感知域音频信号转换到原始信号域。
36.在一些实施例中,所述神经网络可以以所述感知域音频信号的潜在特征空间表示为条件。
37.在一些实施例中,在步骤(a)中,可以接收作为所述比特流的指示所述掩码的进一步信息,并且所述神经网络可以以所述信息为条件。
38.在一些实施例中,所述感知域音频信号的潜在特征空间表示和/或指示所述掩码的所述信息在接收时可以是经过量化的,并且逆量化可以在步骤(b)之前执行。
39.在一些实施例中,通过所述神经网络生成所述感知域音频信号可以在时域中执行。
40.在一些实施例中,将所述感知域音频信号转换到所述原始信号域可以在频域中执行。
41.根据本公开的第七方面,提供了一种用于使用神经网络处理音频信号的装置。所述装置可以包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:(a)获得感知域音频信号;(b)将所述感知域音频信号输入到所述神经网络中,以处理所述感知域音频信号;(c)获得经处理的感知域音频信号作为所述神经网络的输出;以及(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述经处理的感知域音频信号转换到原始信号域。
42.根据本公开的第八方面,提供了一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的装置。所述装置可以包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:(a)通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号;(b)将所述感知域音频信号输入到神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;(c)获得所述感知域音频信号的潜在特征空间表示作为所述神经网络的输出;以及(d)将所述感知域音频信号的潜在特征空间表示输出为比特流。
43.根据本公开的第九方面,提供了一种使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的装置。所述装置可以包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:(a)接收作为比特流的感知域音频信号的潜在特征空间表示;(b)将所述潜在特征空间表示输入到神经网络中,以生成所述感知域音频信号;(c)获得所述感知域音频信号,作为所述第二神经网络的输出;以及(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述感知域音频信号转换到原始信号域。
44.根据本公开的第十方面至第十五方面,提供了计算机程序产品,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令适于当由具有处理能力的设备执行时使所述设备执行上述方法。
附图说明
45.现在将参考附图仅通过举例来描述本公开的示例实施例,在附图中:
46.图1图示了使用神经网络处理音频信号的方法的示例。
47.图2图示了使用神经网络处理音频信号的方法的进一步示例。
48.图3图示了包括用于使用神经网络处理音频信号的装置的系统的示例。
49.图4a和图4b图示了使用第一神经网络和第二神经网络处理音频信号的方法的示
例。
50.图5图示了具有用于使用神经网络获得和传输感知域音频信号的潜在特征空间表示的装置、以及用于使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的装置的系统的示例。
51.图6图示了训练神经网络的方法的示例。
52.图7图示了联合训练一组第一神经网络和第二神经网络的方法的示例。
53.图8图示了作为电平和频率的函数的原始音频信号和掩码的示例。
54.图9图示了通过将掩码应用于原始音频信号而获得的作为电平和频率的函数的感知域音频信号的示例。
55.图10图示了将音频信号转换到感知域并使用神经网络处理所述音频信号的示例。
56.图11图示了音频编码器和解码器在感知域中操作并且编码器和解码器中都有神经网络的示例。所述图还图示了当神经网络在感知域中操作时使用简单损失函数来训练所述网络的示例。
57.图12图示了音频编码器和解码器在感知域中操作并且解码器中有神经网络的示例。所述图还图示了当神经网络在感知域中操作时使用简单损失函数来训练所述网络的示例。
具体实施方式
58.概述
59.虽然神经网络已经表现出对图像、视频以及甚至语音进行编码和/或解码的前景,但是使用神经网络对一般音频进行编码和/或解码是具有挑战性的。存在两个因素使得用神经网络压缩一般音频变得复杂:首先,音频编码器和解码器需要利用人类听觉系统的限制来实现高性能。为了利用人类听觉系统的感知限制,不能直接用比如l1或l2的非感知损失函数来训练神经网络:
[0060][0061][0062]
其中,xn是目标值(真值),并且是预测值(网络的输出值)。
[0063]
其次,一般音频信号具有非常高的动态范围,并且本质上非常多样化,这使得神经网络训练变得复杂。
[0064]
本公开描述了用于在相应的音频编码器和/或解码器中应用神经网络之前将音频信号变换到感知域的方法和装置。音频信号的感知域转换不仅显著减小了动态范围,而且还允许使用比如l1和l2的非感知损失函数来训练网络。
[0065]
使用神经网络处理音频信号的方法
[0066]
参考图1的示例,图示了使用神经网络处理音频信号的方法。在步骤s101中,获得
感知域音频信号。本文使用的术语“感知域”指的是其中频率分量之间的相对电平差(大约)与它们的相对主观重要性成比例的信号。一般来说,转换到感知域的音频信号使将白噪声(频谱平坦的噪声)添加到感知域信号的听觉影响最小化,因为当信号被转换回原始信号域时,噪声将被整形以使可听度最小化。
[0067]
参考图2的示例,可以从步骤s101a、s101b和s101c获得感知域音频信号,其中,在步骤s101a中,可以通过应用掩码将音频信号从原始信号域转换到感知域。
[0068]
将音频信号转换到感知域的一种方式可以是例如使用心理声学模型来估计掩码或掩蔽曲线。掩蔽曲线通常定义了对于给定的刺激信号、人类听觉系统可以检测到的恰可察觉失真(jnd)的电平。一旦已经从心理声学模型得到掩蔽曲线,就可以将音频信号的频谱除以掩蔽曲线以产生感知域音频信号。通过在神经网络编码和/或解码之后乘以掩码,可以将从与逆掩码估计值相乘得到的感知域音频信号转换回原始信号。在解码之后乘以掩码将确保编码和解码过程引入的误差遵循掩蔽曲线。虽然这是将原始音频信号转换到感知域的一种方式,但是应当注意,还可以设想许多其他方式,例如,通过适当设计的时变滤波器在时域中进行滤波。参考图8和图9的示例,图示了原始音频信号的频谱到感知域的转换。图8的曲线图图示了原始音频信号的频谱(实线)和用心理声学模型计算的估计掩码或掩蔽曲线(点划线)。图9的曲线图中图示了通过乘以逆掩码估计值得到的感知域信号。感知域信号不仅允许在训练神经网络期间使用简单损失项,而且如图8所示,它表现出比原始音频信号频谱小得多的动态范围。
[0069]
再次参考图2的示例,然后,在步骤s101b中,可以对感知域音频信号进行编码,并且随后在步骤s101c中进行解码,以获得感知域音频信号。在一些实施例中,在编码之前可以将量化应用于感知域音频信号,并且在解码之后可以将逆量化应用于感知域音频信号。
[0070]
再次参考图1的示例,在步骤s102中,将感知域音频信号输入到神经网络中,以处理感知域音频信号。所使用的神经网络不受限制,并且可以根据处理要求来选择。虽然可以在频域以及时域中操作神经网络,但是在一些实施例中,通过神经网络处理感知域音频信号可以在时域中执行。进一步,在一些实施例中,神经网络可以以指示掩码的信息为条件。可替代地或另外地,在一些实施例中,神经网络可以以感知域音频信号为条件。
[0071]
在一些实施例中,通过神经网络处理所述感知域音频信号可以包括跨时间预测经处理的感知域音频信号。可替代地,在一些实施例中,通过神经网络处理感知域音频信号可以包括跨频率预测经处理的感知域音频信号。进一步,可替代地,在一些实施例中,通过神经网络处理感知域音频信号可以包括跨时间和频率预测经处理的感知域音频信号。
[0072]
在步骤s103中,然后获得作为神经网络的输出的经处理的感知域音频信号。在一些实施例中,经处理的感知域音频信号可以在接下来的步骤s104之前被转换到频域。
[0073]
在步骤s104中,基于指示从心理声学模型得到的掩蔽阈值的掩码,将经处理的感知域音频信号转换到原始信号域。例如,为了计算掩码,心理声学模型可以利用来自时频变换的频率系数,所述时频变换适用于将经处理的感知域音频信号转换到频域。可替代地或另外地,步骤s104中使用的掩码可以基于已经用于将原始音频信号转换到感知域的掩码。在这种情况下,可以获得掩码作为辅助信息;可以可选地对掩码进行量化。
[0074]
因此,本文使用的术语“原始音频信号”指的是在将音频信号转换到感知域之前的音频信号的相应信号域。
[0075]
如上所述的方法可以以各种方式实施。例如,所述方法可以由用于使用神经网络处理音频信号的装置来实施,其中,所述装置包括神经网络和一个或多个处理器,所述处理器被配置为执行所述方法。
[0076]
参考图3的示例,图示了包括用于使用神经网络处理音频信号的装置的系统。所述装置可以是解码器。在这种情况下,神经网络仅在解码器中使用。
[0077]
如图3的示例所示,感知域音频信号可以在量化器101中进行量化,并且可以由例如相应的传统编码器102进行(熵)编码。然后,可以将经量化的编码后的感知音频信号例如作为比特流传输到解码器103,以例如通过对所接收的比特流进行(熵)解码来获得经量化的感知域音频信号。经量化的感知域音频信号然后可以在相应的逆量化器104中进行逆量化。然后,可以将所获得的感知域音频信号输入到神经网络(解码器神经网络)105,以获得作为神经网络105的输出的经处理的感知域音频信号。
[0078]
可替代地或另外地,上述方法可以由计算机程序产品来实施,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适于当由具有处理能力的设备执行时使设备执行所述方法。
[0079]
使用第一神经网络和第二神经网络处理音频信号的方法
[0080]
参考图4a和图4b的示例,图示了使用第一神经网络和第二神经网络处理音频信号的方法。例如,第一神经网络可以在编码器处实施,而第二神经网络可以在解码器处实施。
[0081]
如图4a的示例所示,在步骤s201中,由第一装置通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号。例如,第一装置可以是编码器。在一些实施例中,获得感知域音频信号可以在频域中执行。
[0082]
在步骤s202中,然后将所获得的感知域音频信号输入到第一神经网络中,以将感知域音频信号映射到潜在特征空间表示。
[0083]
在一些实施例中,通过第一神经网络将感知域音频信号映射到潜在特征空间表示可以在时域中执行。
[0084]
在步骤s203中,获得作为第一神经网络的输出的潜在特征空间表示。
[0085]
在步骤s204中,然后将感知域音频信号的潜在特征空间表示和掩码传输到第二装置。在一些实施例中,上述方法可以进一步包括:将感知域音频信号的潜在特征空间表示和掩码编码为比特流,以及将比特流传输到第二装置。在一些实施例中,感知域音频信号的潜在特征空间表示和掩码可以在编码为比特流之前进行另外地量化。
[0086]
现在参考图4b的示例,在步骤s205中,由第二装置接收感知域音频信号的潜在特征空间表示和掩码。第二装置可以是解码器。在一些实施例中,所述方法可以进一步包括:由第二装置接收作为比特流的感知域音频信号的潜在特征空间表示和掩码,以及对比特流进行解码以获得感知域音频信号的潜在特征空间表示和掩码。在一些实施例中,在感知域音频信号的潜在特征空间表示和掩码被量化的情况下,感知域音频信号的潜在特征空间表示和掩码可以在由第二神经网络进行处理之前进行去量化。
[0087]
在步骤s206中,将潜在特征空间表示输入到所述第二神经网络中,以生成近似感知域音频信号。在一些实施例中,第二神经网络可以以感知域音频信号的潜在特征空间表示和/或掩码为条件。在一些实施例中,通过第二神经网络生成近似感知域音频信号可以在时域中执行。
[0088]
在步骤s207中,获得作为第二神经网络的输出的近似感知域音频信号。
[0089]
在步骤s208中,基于掩码将近似感知域音频信号转换到原始信号域。在一些实施例中,转换近似感知域信号可以在频域中执行。
[0090]
上述方法可以由具有相应的第一装置和第二装置的系统来实施。可替代地或另外地,上述方法以下可以由相应计算机程序产品来实施,所述计算机程序产品包括具有指令的计算机可读存储介质,所述指令被适于当由具有处理能力的设备执行时使设备执行所述方法。
[0091]
可替代地,上述方法可以部分地由用于使用神经网络获得和传输感知域音频信号的潜在特征空间表示的装置来实施,并且部分地由用于使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的装置来实施。然后,所述装置可以被实施为独立的装置或系统。
[0092]
使用神经网络获得和传输感知域音频信号的潜在特征空间表示的方法然后包括以下步骤。在步骤(a)中,通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号。在一些实施例中,获得感知域音频信号可以在频域中执行。
[0093]
在步骤(b)中,将感知域音频信号输入到神经网络中,以将感知域音频信号映射到潜在特征空间表示。在一些实施例中,通过神经网络将感知域音频信号映射到潜在特征空间表示可以在时域中执行。
[0094]
在步骤(c)中,获得作为神经网络的输出的感知域音频信号的潜在特征空间表示。并且在步骤(d)中,然后将感知域音频信号的潜在特征空间表示输出为比特流。
[0095]
在一些实施例中,在步骤(d)中,可以将指示掩码的进一步信息输出为比特流。在一些实施例中,感知域音频信号的潜在特征空间表示和/或指示掩码的信息可以在输出为比特流之前进行量化。
[0096]
使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的方法包括以下步骤。在步骤(a)中,接收作为比特流的感知域音频信号的潜在特征空间表示。在步骤(b)中,将潜在特征空间表示输入到神经网络中,以生成感知域音频信号。在步骤(c)中,获得作为神经网络的输出的感知域音频信号。并且在步骤(d)中,基于指示从心理声学模型得到的掩蔽阈值的掩码,将感知域音频信号转换到原始信号域。
[0097]
在一些实施例中,神经网络可以以感知域音频信号的潜在特征空间表示为条件。在一些实施例中,进一步地,在步骤(a)中,可以接收作为比特流的指示掩码的信息,并且神经网络可以以所述信息为条件。在一些实施例中,感知域音频信号的潜在特征空间表示和/或指示掩码的信息在接收时可以是经过量化的,并且逆量化可以在步骤(b)之前执行。在一些实施例中,通过神经网络生成感知域音频信号可以在时域中执行。在一些实施例中,将感知域音频信号转换到原始信号域可以在频域中执行。
[0098]
参考图5的示例,图示了具有用于使用神经网络获得和传输感知域音频信号的潜在特征空间表示的装置(也是第一装置)、以及用于使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的装置(也是第二装置)的系统。
[0099]
在图5的示例中,在(第一)装置201中,可以将感知域音频信号输入到(第一)神经网络202中,以进行上述处理。第一神经网络202可以是编码器神经网络。可以在量化器203
中对从(第一)神经网络输出的潜在特征空间表示进行量化,并将其传输到(第二)装置204。可以对经量化的潜在特征空间表示进行编码,并将其作为比特流传输到(第二)装置204。在(第二)装置204中,可以首先在逆量化器205中对所接收的潜在特征空间表示进行逆量化,并且可选地在输入到(第二)神经网络206之前对其进行解码,以基于潜在特征空间表示生成近似感知域音频信号。然后,可以获得作为(第二)神经网络206的输出的近似感知域音频信号。
[0100]
训练神经网络的方法
[0101]
参考图6的示例,图示了训练神经网络的方法。在步骤s301中,将感知域音频训练信号输入到神经网络中,以处理感知域音频训练信号。由神经网络处理感知域音频训练信号,并且在步骤s302中,然后获得作为神经网络的输出的经处理的感知域音频训练信号。基于经处理的感知域音频训练信号与可能已经从其获得感知域音频训练信号的原始感知域音频信号之间的差异,然后在步骤s303中迭代地调整神经网络的参数。基于此迭代调整来训练神经网络,以生成越来越好的经处理的感知域音频训练信号。此迭代调整的目标是,使神经网络生成无法与相应的原始感知域音频信号区分的经处理的感知域音频训练信号。
[0102]
在一些实施例中,可以基于一个或多个损失函数在感知域中训练神经网络。被设计成在感知域中对音频信号进行编码的神经网络可以用比如l1和l2的简单损失函数来训练,因为这些函数可以引入频谱上的白误差。在l1和l2的情况下,神经网络可以预测经处理的感知域音频训练信号的均值。
[0103]
可替代地,在一些实施例中,可以基于负对数似然(nll)条件在感知域中训练神经网络。在nll的情况下,神经网络可以从预先选择的分布中预测作为参数化的均值和尺度。尺度参数的对数运算通常可以用于避免数值不稳定性。预先选择的分布可以是拉普拉斯分布。可替代地,预先选择的分布可以是逻辑斯谛分布或高斯分布。在高斯分布的情况下,尺度参数可以用方差参数代替。对于nll情况,可以使用采样操作来从分布参数转换到经处理的感知域音频训练信号。采样操作可以写为:
[0104][0105]
其中,是预测的经处理的感知域音频训练信号,mean和scale是来自神经网络的预测参数,f()是由预先选择的分布确定的采样函数,并且u是从均匀分布采样得到的。
[0106]
例如,在拉普拉斯分布的情况下,
[0107]
f=-scale*sign(u)*log(1-2*|u|),u~(-0.5,0.5)
[0108]
从经量化的掩码得到的加权函数可以应用于采样函数f()中的尺度参数。进一步,在从每个输出系数的混合(例如,高斯混合)中进行采样的情况下,可以存在参数向量。
[0109]
联合训练一组第一神经网络和第二神经网络的方法
[0110]
参考图7的示例,图示了联合训练一组第一神经网络和第二神经网络的方法。
[0111]
在步骤s401中,将感知域音频训练信号输入到所述第一神经网络中,以将所述感知域音频训练信号映射到潜在特征空间表示。在步骤s402中,获得作为第一神经网络的输出的感知域音频训练信号的潜在特征空间表示。在步骤s403中,然后将感知域音频训练信号的潜在特征空间表示输入到第二神经网络中,以生成近似感知域音频训练信号。在步骤s404中,然后可以获得作为第二神经网络的输出的近似感知域音频训练信号。并且在步骤s405中,基于近似感知域音频训练信号与基于其得到感知域音频训练信号的原始感知域音
频信号之间的差异,迭代地调整第一神经网络和第二神经网络的参数。
[0112]
在一些实施例中,可以基于一个或多个损失函数在感知域中训练第一神经网络和第二神经网络。在一些实施例中,可以基于负对数似然(nll)条件在感知域中训练第一神经网络和第二神经网络。迭代调整的目标是,使第一神经网络和第二神经网络生成无法与相应的原始感知域音频信号区分的近似感知域音频训练信号。
[0113]
进一步的示例性实施例
[0114]
参考图10至图12的示例,图示了本文描述的方法和装置的进一步的示例性实施例。在图10的示例中,图示了示出使用神经网络将音频信号转换到感知域以用于数据缩减的示意图。在图10的示例中,将pcm音频数据用作输入。
[0115]
在图11的示例中,图示了音频编码器和解码器在感知域中操作并且编码器和解码器中都有神经网络的示意图。图11还示出了当在感知域中操作神经网络时使用简单损失函数训练所述网络。在图11的示例中,真值信号指的是基于其可以得到相应的感知域音频训练信号的原始感知域音频信号,并且所述原始感知域音频信号可以与近似感知域音频信号进行比较,以便迭代地调整神经网络。
[0116]
图12的示例中,图示了音频编码器和解码器在感知域中操作并且解码器中有神经网络的示意图。图12还示出了当在感知域中操作神经网络时使用简单损失函数训练所述网络。此外,在这种情况下,真值信号指的是基于其可以得到相应的感知域音频训练信号的原始感知域音频信号,并且所述原始感知域音频信号可以与经处理的感知域音频信号进行比较,以便迭代地调整神经网络。
[0117]
解释
[0118]
除非另外特别声明,从以下讨论中显而易见的是,应当理解,在整个公开的讨论中,利用如“处理”、“计算”、“确定”、“分析”等术语来指代计算机或计算系统或类似的电子计算设备的将表示为物理(如电子)量的数据操纵和/或变换为类似地表示为物理量的其他数据的动作和/或过程。
[0119]
以类似的方式,术语“处理器”可以指代处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换为例如可以存储在寄存器和/或存储器中的其他电子数据的任何设备或设备的一部分。“计算机”或“计算机器”或“计算平台”可以包括一个或多个处理器。
[0120]
在一个示例实施例中,本文描述的方法可由一个或多个处理器执行,所述处理器接受包含一组指令的计算机可读(也称为机器可读)代码,所述一组指令在由一个或多个处理器执行时执行本文所述的方法中的至少一个。包括能够执行指定要采取的动作的一组指令(顺序的或其他形式)的任何处理器。因此,一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括cpu、图形处理单元和可编程dsp单元中的一个或多个。处理系统可以进一步包括存储器子系统,所述存储器子系统包括主ram和/或静态ram和/或rom。可以包括总线子系统以用于部件之间的通信。处理系统可以进一步是分布式处理系统,其中,处理器通过网络耦接在一起。如果处理系统需要显示器,则可以包括这样的显示器,例如,液晶显示器(lcd)或阴极射线管(crt)显示器。如果需要手动输入数据,则处理系统还包括输入设备,如字母数字输入单元(如键盘)、定点控制设备(如鼠标)等中的一个或多个。处理系统还可以涵盖如磁盘驱动单元等存储系统。一些配置中的处理系统可以包括声音输出设备和网络接口设备。存储器子系统因此包括携带计算机可读代码(例如,软件)的计算机可
读载体介质,所述计算机可读代码包括一组指令,所述一组指令在由一个或多个处理器执行时使得执行本文所述的方法中的一种或多种。应当注意的是,当所述方法包括几个元素(例如,几个步骤)时,除非特别声明,否则不暗示这些元素的任何顺序。在计算机系统执行软件期间,软件可以驻留在硬盘中,或者也可以完全或至少部分地驻留在ram和/或处理器中。因此,存储器和处理器也构成了携带计算机可读代码的计算机可读载体介质。此外,计算机可读载体介质可以形成或包括在计算机程序产品中。
[0121]
在替代性示例实施例中,一个或多个处理器可以作为独立设备运行,或者可以在联网部署中连接到(例如,联网到)其他处理器,所述一个或多个处理器可以在服务器-用户网络环境中以服务器或用户机器的身份运行,或者在对等或分布式网络环境中作为对等机器运行。一个或多个处理器可以形成个人计算机(pc)、平板pc、个人数字助理(pda)、蜂窝电话、web设施、网络路由器、交换机或网桥、或者能够执行指定该机器要采取的动作的一组指令(顺序的或其他形式)的任何机器。
[0122]
应当注意的是,术语“机器”也应该被认为包括单独或联合地执行一组(或多组)指令以执行本文讨论的方法中的任何一种或多种方法的机器的任何集合。
[0123]
因此,本文描述的每种方法的一个示例实施例呈携带一组指令的计算机可读载体介质的形式,所述指令例如为用于在一个或多个处理器(例如,作为web服务器布置的一部分的一个或多个处理器)上执行的计算机程序。因此,如本领域技术人员将认识到的,本公开的示例实施例可以体现为方法、如专用装置的装置、如数据处理系统的装置、或计算机可读载体介质(例如,计算机程序产品)。计算机可读载体介质携带包括一组指令的计算机可读代码,所述一组指令在一个或多个处理器上执行时使一个或多个处理器实施方法。因此,本公开的方面可以采取方法、完全硬件示例实施例、完全软件示例实施例或组合软件和硬件方面的示例实施例的形式。此外,本公开可以采取载体介质(例如,计算机可读存储介质上的计算机程序产品)的形式,所述载体介质携带体现在所述介质中的计算机可读程序代码。
[0124]
可以经由网络接口设备通过网络进一步发送或接收软件。虽然在示例实施例中载体介质是单个介质,但是术语“载体介质”应该被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库和/或相关联的缓存和服务器)。术语“载体介质”也应该被认为包括能够存储、编码或携带一组指令的任何介质,所述一组指令用于由处理器中的一个或多个执行并且使一个或多个处理器执行本公开的方法中的任何一种或多种。载体介质可以采取多种形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如光盘、磁盘以及磁光盘。易失性介质包括动态存储器,如主存储器。传输介质包括同轴电缆、铜线和光纤,包括包含总线子系统的导线。传输介质还可以采用声波或光波的形式,如在无线电波和红外数据通信期间生成的声波或光波。例如,术语“载体介质”因此应该被认为包括但不限于固态存储器、体现在光学介质和磁性介质中的计算机产品;承载可由至少一个处理器或一个或多个处理器检测到并表示一组指令的传播信号的介质,所述一组指令在被执行时实施方法;以及网络中的传输介质,所述传输介质承载可由一个或多个处理器中的至少一个处理器检测到并表示所述一组指令的传播信号。
[0125]
将理解的是,在一个示例实施例中,所讨论的方法的步骤由执行存储在存储装置中的指令(计算机可读代码)的处理(例如,计算机)系统中的适当处理器(或多个处理器)执
行。还将理解的是,本公开不限于任何特定的实施方式或编程技术,并且本公开可以使用用于实施本文描述的功能的任何适当的技术来实施。本公开不限于任何特定的编程语言或操作系统。
[0126]
在整个本公开中对“一个实施例”、“一些实施例”或“示例实施例”的提及意味着结合所述实施例所描述的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,在整个本公开中各处出现的短语“在一个实施例中”、“在一些实施例中”或“在示例实施例中”不一定都指代同一个示例实施例。此外,在一个或多个示例实施例中,特定特征、结构或特性可以以任何合适的方式组合,这根据本公开对于本领域的普通技术人员而言将是显而易见的。
[0127]
如本文所使用的,除非另外指定,否则使用序数形容词“第一”、“第二”、“第三”等来描述共同的对象,仅表明提及相似对象的不同实例,并且不旨在暗示所描述的对象必须在时间、空间、等级或任何其他方式上按照给定的顺序。
[0128]
在下文的权利要求和本文的描述中,术语包括(comprising)、包括(comprised of)或其包括(which comprises)中的任何一个是开放术语,其意指至少包括随后的元素/特征,但不排除其他元素/特征。因此,当在权利要求中使用术语“包括”时,所述术语不应当被解释为限于在其之后列出的装置或元素或步骤。例如,包括a和b的设备的表达的范围不应限于仅由元素a和b构成的设备。如本文所使用的,术语包括(including)或其包括(which includes)或包括(that includes)中的任何一个也是开放术语,其也意指至少包括所述术语之后的元素/特征,但不排除其他元素/特征。因此,包括(including)与包括(comprising)同义并且意指包括(comprising)。
[0129]
应当认识到,在以上对本公开的示例实施例的描述中,有时在单个示例实施例/图或其描述中将本公开的各种特征组合在一起,以便简化本公开,并且帮助理解各创造性方面中的一个或多个。然而,本公开的方法不应当被解释为反映权利要求书需要比每个权利要求中明确叙述的特征更多的特征的意图。相反,如以下权利要求所反映的,各创造性方面在于少于单个前面公开的示例实施例的所有特征。因此,在说明书之后的权利要求书特此明确地并入本说明书中,其中,每个权利要求独立地作为本公开的单独的示例实施例。
[0130]
此外,虽然本文描述的一些示例实施例包括其他示例实施例中所包括的一些特征而不包括其他示例实施例中所包括的其他特征,但是如本领域技术人员将理解的,不同示例实施例的特征的组合旨在处于本公开的范围内并形成不同的示例实施例。例如,在所附权利要求中,要求保护的示例实施例中的任何示例实施例都可以以任何组合来使用。
[0131]
在本文提供的描述中,阐述了许多具体细节。然而,应当理解,可以在没有这些具体细节的情况下实践本公开的示例实施例。在其他实例中,未详细示出众所周知的方法、结构和技术,以避免模糊对本说明书的理解。
[0132]
因此,尽管已经描述了被认为是本公开的最佳模式的模式,但是本领域技术人员将认识到,可以在不背离本公开的精神的情况下对其做出其他和进一步的修改,并且旨在要求保护落入本公开的范围内的所有这些改变和修改。例如,以上给出的任何公式仅表示可以使用的过程。可以从框图中添加或删除功能,并且可以在功能块之间互换操作。可以向在本公开的范围内描述的方法添加或删除步骤。
[0133]
可以从以下枚举的示例实施例(eee)中理解本发明的各个方面:
[0134]
eee 1.一种使用神经网络对音频信号进行编码的计算机实施的方法,所述方法包括以下步骤:
[0135]
(a)通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的所述音频信号来获得感知域音频信号;
[0136]
(b)将所述感知域音频信号输入到神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;
[0137]
(c)获得所述感知域音频信号的所述潜在特征空间表示,作为所述神经网络的输出;以及
[0138]
(d)在比特流中输出所述感知域音频信号的所述潜在特征空间表示。
[0139]
eee 2.根据eee 1所述的方法,其中,指示所述掩码的进一步信息在步骤(d)中的所述比特流中被输出。
[0140]
eee 3.根据eee 1或2所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和/或指示所述掩码的所述信息在所述比特流中被输出之前进行量化。
[0141]
eee 4.根据eee 1至3中任一项所述的方法,其中,通过所述神经网络将所述感知域音频信号映射到所述潜在特征空间表示是在时域中执行的;并且/或者
[0142]
其中,获得所述感知域音频信号是在频域中执行的。
[0143]
eee 5.一种使用神经网络对音频信号进行解码的计算机实施的方法,其中,所述方法包括以下步骤:
[0144]
(a)获得感知域音频信号的表示;
[0145]
(b)将所述感知域音频信号的所述表示输入到所述神经网络中,以处理所述感知域音频信号的所述表示;
[0146]
(c)获得经处理的感知域音频信号,作为所述神经网络的输出;以及
[0147]
(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述经处理的感知域音频信号转换到原始信号域。
[0148]
eee 6.根据eee 5所述的方法,其中,通过所述神经网络处理所述感知域音频信号是在时域中执行的;并且/或者
[0149]
其中,所述方法进一步包括:在步骤(d)之前,将所述音频信号转换到频域。
[0150]
eee 7.根据eee 5或6所述的方法,其中,所述神经网络以指示所述掩码的信息为条件;并且/或者
[0151]
其中,所述神经网络以所述感知域音频信号为条件。
[0152]
eee 8.根据eee 7所述的方法,其中,通过所述神经网络处理所述感知域音频信号包括以下操作中的至少一个操作:
[0153]
跨时间预测所述经处理的感知域音频信号;
[0154]
跨频率预测所述经处理的感知域音频信号;以及
[0155]
跨时间和频率预测所述经处理的感知域音频信号。
[0156]
eee 9.根据eee 5至8中任一项所述的方法,其中,所述感知域音频信号的所述表示包括所述感知域音频信号。
[0157]
eee 10.根据eee 5至9中任一项所述的方法,
[0158]
其中,所述感知域音频信号的所述表示从以下操作获得:
[0159]
通过应用所述掩码将音频信号从所述原始信号域转换到所述感知域;
[0160]
对所述感知域音频信号进行编码;以及
[0161]
对所述感知域音频信号进行解码;并且可选地
[0162]
其中,在编码之前将量化应用于所述感知域音频信号,并且在解码之后将逆量化应用于所述感知域音频信号。
[0163]
eee 11.根据eee 5所述的方法,
[0164]
其中,步骤(a)涉及在比特流中接收所述感知域音频信号的潜在特征空间表示;并且
[0165]
其中,步骤(b)涉及将所述潜在特征空间表示输入到所述神经网络中,以生成所述经处理的感知域音频信号。
[0166]
eee 12.根据eee 11所述的方法,其中,所述神经网络以所述感知域音频信号的所述潜在特征空间表示为条件。
[0167]
eee 13.根据eee 11或12所述的方法,进一步包括接收作为所述比特流的指示所述掩码的附加信息,
[0168]
其中,所述神经网络以所述附加信息为条件。
[0169]
eee 14.根据eee 11至13中任一项所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和/或指示所述掩码的所述信息是以经量化的形式被接收的;并且
[0170]
其中,所述方法进一步包括在将所述潜在特征空间表示输入到所述神经网络中之前进行逆量化。
[0171]
eee 15.根据eee 11至14中任一项所述的方法,其中,通过所述神经网络生成所述感知域音频信号是在时域中执行的;并且/或者
[0172]
其中,将所述感知域音频信号转换到所述原始信号域是在频域中执行的。
[0173]
eee 16.一种使用神经网络处理音频信号的方法(例如,计算机实施的方法),其中,所述方法包括以下步骤:
[0174]
(a)获得感知域音频信号;
[0175]
(b)将所述感知域音频信号输入到所述神经网络中,以处理所述感知域音频信号;
[0176]
(c)获得经处理的感知域音频信号,作为所述神经网络的输出;以及
[0177]
(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述经处理的感知域音频信号转换到原始信号域。
[0178]
eee 17.根据eee 16所述的方法,其中,通过所述神经网络处理所述感知域音频信号是在时域中执行的。
[0179]
eee 18.根据eee 16或17所述的方法,其中,所述方法进一步包括:在步骤(d)之前,将所述音频信号转换到频域。
[0180]
eee 19.根据eee 16至18中任一项所述的方法,其中,所述神经网络以指示所述掩码的信息为条件。
[0181]
eee 20.根据eee 16至19中任一项所述的方法,其中,所述神经网络以所述感知域音频信号为条件。
[0182]
eee 21.根据eee 19或20所述的方法,其中,通过所述神经网络处理所述感知域音频信号包括跨时间预测所述经处理的感知域音频信号。
[0183]
eee 22.根据eee 19或20所述的方法,其中,通过所述神经网络处理所述感知域音频信号包括跨频率预测所述经处理的感知域音频信号。
[0184]
eee 23.根据eee 19或20所述的方法,其中,通过所述神经网络处理所述感知域音频信号包括跨时间和频率预测所述经处理的感知域音频信号。
[0185]
eee 24.根据eee 16至23中任一项所述的方法,其中,所述感知域音频信号的表示从以下操作获得:
[0186]
(a)通过应用所述掩码将音频信号从所述原始信号域转换到所述感知域;
[0187]
(b)对所述感知域音频信号进行编码;以及
[0188]
(c)对所述感知域音频信号进行解码。
[0189]
eee 25.根据eee 24所述的方法,其中,在编码之前将量化应用于所述感知域音频信号,并且在解码之后将逆量化应用于所述感知域音频信号。
[0190]
eee 26.一种使用第一神经网络和第二神经网络处理音频信号的方法(例如,计算机实施的方法),其中,所述方法包括以下步骤:
[0191]
(a)由第一装置通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号;
[0192]
(b)将所述感知域音频信号输入到所述第一神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;
[0193]
(c)获得所述潜在特征空间表示,作为所述第一神经网络的输出;
[0194]
(d)将所述感知域音频信号的所述潜在特征空间表示和所述掩码传输到第二装置;
[0195]
(e)由所述第二装置接收所述感知域音频信号的所述潜在特征空间表示和所述掩码;
[0196]
(f)将所述潜在特征空间表示输入到所述第二神经网络中,以生成近似感知域音频信号;
[0197]
(g)获得所述近似感知域音频信号,作为所述第二神经网络的输出;以及
[0198]
(h)基于所述掩码将所述近似感知域音频信号转换到所述原始信号域。
[0199]
eee 27.根据eee 26所述的方法,其中,所述方法进一步包括:将所述感知域音频信号的所述潜在特征空间表示和所述掩码编码为比特流,以及将所述比特流传输到所述第二装置,并且其中,所述方法进一步包括:由所述第二装置接收所述比特流,以及对所述比特流进行解码以获得所述感知域音频信号的所述潜在特征空间表示和所述掩码。
[0200]
eee 28.根据eee 27所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和所述掩码在被编码为所述比特流之前进行量化,并且在由所述第二神经网络进行处理之前进行去量化。
[0201]
eee 29.根据eee 26至28中任一项所述的方法,其中,所述第二神经网络以所述感知域音频信号的潜在所述特征空间表示和/或所述掩码为条件。
[0202]
eee 30.根据eee 26至29中任一项所述的方法,其中,通过所述第一神经网络将所述感知域音频信号映射到所述潜在特征空间表示以及通过所述第二神经网络生成所述近似感知域音频信号是在时域中执行的。
[0203]
eee 31.根据eee 26至30中任一项所述的方法,其中,在步骤(a)中获得所述感知
域信号以及在步骤(h)中转换所述近似感知域信号是在频域中执行的。
[0204]
eee 32.一种联合训练一组第一神经网络和第二神经网络的方法(例如,计算机实施的方法),其中,所述方法包括以下步骤:
[0205]
(a)将感知域音频训练信号输入到所述第一神经网络中,以将所述感知域音频训练信号映射到潜在特征空间表示;
[0206]
(b)获得所述感知域音频训练信号的所述潜在特征空间表示,作为所述第一神经网络的输出;
[0207]
(c)将所述感知域音频训练信号的所述潜在特征空间表示输入到所述第二神经网络中,以生成近似感知域音频训练信号;
[0208]
(d)获得所述近似感知域音频训练信号,作为所述第二神经网络的输出;以及
[0209]
(e)基于所述近似感知域音频训练信号与原始感知域音频信号之间的差异,迭代地调整所述第一神经网络和所述第二神经网络的参数。
[0210]
eee 33.根据eee 32所述的方法,其中,基于一个或多个损失函数在所述感知域中训练所述第一神经网络和所述第二神经网络。
[0211]
eee 34.根据eee 32所述的方法,其中,基于负对数似然条件在所述感知域中训练所述第一神经网络和所述第二神经网络。
[0212]
eee 35.一种训练神经网络的方法(例如,计算机实施的方法),其中,所述方法包括以下步骤:
[0213]
(a)将感知域音频训练信号输入到所述神经网络中,以处理所述感知域音频训练信号;
[0214]
(b)获得经处理的感知域音频训练信号,作为所述神经网络的输出;以及
[0215]
(c)基于所述经处理的感知域音频训练信号与原始感知域音频信号之间的差异,迭代地调整所述神经网络的参数。
[0216]
eee 36.根据eee 35所述的方法,其中,基于一个或多个损失函数在所述感知域中训练所述神经网络。
[0217]
eee 37.根据eee 35所述的方法,其中,基于负对数似然条件在所述感知域中训练所述神经网络。
[0218]
eee 38.一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的方法(例如,计算机实施的方法),所述方法包括以下步骤:
[0219]
(a)通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号;
[0220]
(b)将所述感知域音频信号输入到神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;
[0221]
(c)获得所述感知域音频信号的所述潜在特征空间表示,作为所述神经网络的输出;以及
[0222]
(d)将所述感知域音频信号的所述潜在特征空间表示输出为比特流。
[0223]
eee 39.根据eee 38所述的方法,其中,在步骤(d)中,将指示所述掩码的进一步信息输出为所述比特流。
[0224]
eee 40.根据eee 38或39所述的方法,其中,所述感知域音频信号的所述潜在特征
空间表示和/或指示所述掩码的所述信息在所述比特流中被输出之前进行量化。
[0225]
eee 41.根据eee 38至40中任一项所述的方法,其中,通过所述神经网络将所述感知域音频信号映射到所述潜在特征空间表示是在时域中执行的。
[0226]
eee 42.根据eee 38至41中任一项所述的方法,其中,获得所述感知域音频信号是在频域中执行的。
[0227]
eee 43.一种使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的方法(例如,计算机实施的方法),所述方法包括以下步骤:
[0228]
(a)接收作为比特流的感知域音频信号的潜在特征空间表示;
[0229]
(b)将所述潜在特征空间表示输入到神经网络中,以生成所述感知域音频信号;
[0230]
(c)获得所述感知域音频信号,作为所述神经网络的输出;以及
[0231]
(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述感知域音频信号转换到原始信号域。
[0232]
eee 44.根据eee 43所述的方法,其中,所述神经网络以所述感知域音频信号的所述潜在特征空间表示为条件。
[0233]
eee 45.根据eee 43或44所述的方法,其中,在步骤(a)中,接收作为所述比特流的指示所述掩码的进一步信息,并且所述神经网络以所述信息为条件。
[0234]
eee 46.根据eee 43至45中任一项所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和/或指示所述掩码的所述信息在接收时是经过量化的,并且逆量化在步骤(b)之前执行。
[0235]
eee 47.根据eee 43至46中任一项所述的方法,其中,通过所述神经网络生成所述感知域音频信号是在时域中执行的。
[0236]
eee 48.根据eee 43至47中任一项所述的方法,其中,将所述感知域音频信号转换到所述原始信号域是在频域中执行的。
[0237]
eee 49.一种使用神经网络处理音频信号的装置,其中,所述装置包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:
[0238]
(a)获得感知域音频信号;
[0239]
(b)将所述感知域音频信号输入到所述神经网络中,以处理所述感知域音频信号;
[0240]
(c)获得经处理的感知域音频信号,作为所述神经网络的输出;以及
[0241]
(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述经处理的感知域音频信号转换到原始信号域。
[0242]
eee 50.一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的装置,其中,所述装置包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:
[0243]
(a)通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号;
[0244]
(b)将所述感知域音频信号输入到神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;
[0245]
(c)获得所述感知域音频信号的所述潜在特征空间表示,作为所述神经网络的输出;以及
[0246]
(d)将所述感知域音频信号的所述潜在特征空间表示输出为比特流。
[0247]
eee 51.一种使用神经网络从感知域音频信号的潜在特征空间表示中获得音频信号的装置,其中,所述装置包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:
[0248]
(a)接收作为比特流的感知域音频信号的潜在特征空间表示;
[0249]
(b)将所述潜在特征空间表示输入到神经网络中,以生成所述感知域音频信号;
[0250]
(c)获得所述感知域音频信号,作为所述第二神经网络的输出;以及
[0251]
(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述感知域音频信号转换到原始信号域。
[0252]
eee 52.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适于当由具有处理能力的设备执行时使所述设备执行根据eee 1至10中任一项所述的方法。
[0253]
eee 53.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适于当由具有处理能力的设备执行时使所述设备执行根据eee 11至16中任一项所述的方法。
[0254]
eee 54.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适于当由具有处理能力的设备执行时使所述设备执行根据eee 17至19中任一项所述的方法。
[0255]
eee 55.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适于当由具有处理能力的设备执行时使所述设备执行根据eee 20至22中任一项所述的方法。
[0256]
eee 56.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适于当由具有处理能力的设备执行时使所述设备执行根据eee 23至27中任一项所述的方法。
[0257]
eee 57.一种计算机程序产品,包括具有指令的计算机可读存储介质,所述指令被适于当由具有处理能力的设备执行时使所述设备执行根据eee 28至33中任一项所述的方法。

技术特征:
1.一种使用神经网络对音频信号进行编码的计算机实施的方法,所述方法包括以下步骤:(a)通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的所述音频信号来获得感知域音频信号;(b)将所述感知域音频信号输入到神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;(c)获得所述感知域音频信号的所述潜在特征空间表示,作为所述神经网络的输出;以及(d)在比特流中输出所述感知域音频信号的所述潜在特征空间表示。2.根据权利要求1所述的方法,其中,指示所述掩码的进一步信息在步骤(d)中的所述比特流中被输出。3.根据权利要求1或2所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和/或指示所述掩码的所述信息在所述比特流中被输出之前进行量化。4.根据权利要求1至3中任一项所述的方法,其中,通过所述神经网络将所述感知域音频信号映射到所述潜在特征空间表示是在时域中执行的;并且/或者其中,获得所述感知域音频信号是在频域中执行的。5.一种使用神经网络对音频信号进行解码的计算机实施的方法,其中,所述方法包括以下步骤:(a)通过对所接收的比特流进行解码来获得感知域音频信号的表示;(b)将所述感知域音频信号的所述表示输入到所述神经网络中,以处理所述感知域音频信号的所述表示;(c)获得经处理的感知域音频信号,作为所述神经网络的输出;以及(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述经处理的感知域音频信号转换到原始信号域。6.根据权利要求5所述的方法,其中,通过所述神经网络处理所述感知域音频信号是在时域中执行的;并且/或者其中,所述方法进一步包括:在步骤(d)之前,将所述音频信号转换到频域。7.根据权利要求5或6所述的方法,其中,所述神经网络以指示所述掩码的信息为条件;并且/或者其中,所述神经网络以所述感知域音频信号为条件。8.根据权利要求7所述的方法,其中,通过所述神经网络处理所述感知域音频信号包括以下操作中的至少一个操作:跨时间预测所述经处理的感知域音频信号;跨频率预测所述经处理的感知域音频信号;以及跨时间和频率预测所述经处理的感知域音频信号。9.根据权利要求5至8中任一项所述的方法,其中,所述感知域音频信号的所述表示包括所述感知域音频信号。10.根据权利要求5至9中任一项所述的方法,其中,所述感知域音频信号的所述表示从以下操作获得:
通过应用所述掩码将音频信号从所述原始信号域转换到所述感知域;对所述感知域音频信号进行编码;以及对所述感知域音频信号进行解码;并且可选地其中,在编码之前将量化应用于所述感知域音频信号,并且在解码之后将逆量化应用于所述感知域音频信号。11.根据权利要求5所述的方法,其中,步骤(a)涉及在比特流中接收所述感知域音频信号的潜在特征空间表示;并且其中,步骤(b)涉及将所述潜在特征空间表示输入到所述神经网络中,以生成所述经处理的感知域音频信号。12.根据权利要求11所述的方法,其中,所述神经网络以所述感知域音频信号的所述潜在特征空间表示为条件。13.根据权利要求11或12所述的方法,进一步包括接收作为所述比特流的指示所述掩码的附加信息,其中,所述神经网络以所述附加信息为条件。14.根据权利要求11至13中任一项所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和/或指示所述掩码的所述信息是以经量化的形式被接收的;并且其中,所述方法进一步包括在将所述潜在特征空间表示输入到所述神经网络中之前进行逆量化。15.根据权利要求11至14中任一项所述的方法,其中,通过所述神经网络生成所述感知域音频信号是在时域中执行的;并且/或者其中,将所述感知域音频信号转换到所述原始信号域是在频域中执行的。16.一种使用神经网络处理音频信号的方法(例如,计算机实施的方法),其中,所述方法包括以下步骤:(a)获得感知域音频信号;(b)将所述感知域音频信号输入到所述神经网络中,以处理所述感知域音频信号;(c)获得经处理的感知域音频信号,作为所述神经网络的输出;以及(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述经处理的感知域音频信号转换到原始信号域。17.根据权利要求16所述的方法,其中,通过所述神经网络处理所述感知域音频信号是在时域中执行的。18.根据权利要求16或17所述的方法,其中,所述方法进一步包括:在步骤(d)之前,将所述音频信号转换到频域。19.根据权利要求16至18中任一项所述的方法,其中,所述神经网络以指示所述掩码的信息为条件。20.根据权利要求16至19中任一项所述的方法,其中,所述神经网络以所述感知域音频信号为条件。21.根据权利要求19或20所述的方法,其中,通过所述神经网络处理所述感知域音频信号包括跨时间预测所述经处理的感知域音频信号。22.根据权利要求19或20所述的方法,其中,通过所述神经网络处理所述感知域音频信
号包括跨频率预测所述经处理的感知域音频信号。23.根据权利要求19或20所述的方法,其中,通过所述神经网络处理所述感知域音频信号包括跨时间和频率预测所述经处理的感知域音频信号。24.根据权利要求16至23中任一项所述的方法,其中,所述感知域音频信号从以下操作获得:(a)通过应用所述掩码将音频信号从所述原始信号域转换到所述感知域;(b)对所述感知域音频信号进行编码;以及(c)对所述感知域音频信号进行解码。25.根据权利要求24所述的方法,其中,在编码之前将量化应用于所述感知域音频信号,并且在解码之后将逆量化应用于所述感知域音频信号。26.一种使用第一神经网络和第二神经网络处理音频信号的方法(例如,计算机实施的方法),其中,所述方法包括以下步骤:(a)由第一装置通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号;(b)将所述感知域音频信号输入到所述第一神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;(c)获得所述潜在特征空间表示,作为所述第一神经网络的输出;(d)将所述感知域音频信号的所述潜在特征空间表示和所述掩码传输到第二装置;(e)由所述第二装置接收所述感知域音频信号的所述潜在特征空间表示和所述掩码;(f)将所述潜在特征空间表示输入到所述第二神经网络中,以生成近似感知域音频信号;(g)获得所述近似感知域音频信号,作为所述第二神经网络的输出;以及(h)基于所述掩码将所述近似感知域音频信号转换到所述原始信号域。27.根据权利要求26所述的方法,其中,所述方法进一步包括:将所述感知域音频信号的所述潜在特征空间表示和所述掩码编码为比特流,以及将所述比特流传输到所述第二装置,并且其中,所述方法进一步包括:由所述第二装置接收所述比特流,以及对所述比特流进行解码以获得所述感知域音频信号的所述潜在特征空间表示和所述掩码。28.根据权利要求27所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和所述掩码在被编码为所述比特流之前进行量化,并且在由所述第二神经网络进行处理之前进行去量化。29.根据权利要求26至28中任一项所述的方法,其中,所述第二神经网络以所述感知域音频信号的所述潜在特征空间表示和/或所述掩码为条件。30.根据权利要求26至29中任一项所述的方法,其中,通过所述第一神经网络将所述感知域音频信号映射到所述潜在特征空间表示以及通过所述第二神经网络生成所述近似感知域音频信号是在时域中执行的。31.根据权利要求26至30中任一项所述的方法,其中,在步骤(a)中获得所述感知域信号以及在步骤(h)中转换所述近似感知域信号是在频域中执行的。32.一种联合训练一组第一神经网络和第二神经网络的方法(例如,计算机实施的方法),其中,所述方法包括以下步骤:
(a)将感知域音频训练信号输入到所述第一神经网络中,以将所述感知域音频训练信号映射到潜在特征空间表示;(b)获得所述感知域音频训练信号的所述潜在特征空间表示,作为所述第一神经网络的输出;(c)将所述感知域音频训练信号的所述潜在特征空间表示输入到所述第二神经网络中,以生成近似感知域音频训练信号;(d)获得所述近似感知域音频训练信号,作为所述第二神经网络的输出;以及(e)基于所述近似感知域音频训练信号与原始感知域音频信号之间的差异,迭代地调整所述第一神经网络和所述第二神经网络的参数。33.根据权利要求32所述的方法,其中,基于一个或多个损失函数在所述感知域中训练所述第一神经网络和所述第二神经网络。34.根据权利要求32所述的方法,其中,基于负对数似然条件在所述感知域中训练所述第一神经网络和所述第二神经网络。35.一种训练神经网络的方法(例如,计算机实施的方法),其中,所述方法包括以下步骤:(a)将感知域音频训练信号输入到所述神经网络中,以处理所述感知域音频训练信号;(b)获得经处理的感知域音频训练信号,作为所述神经网络的输出;以及(c)基于所述经处理的感知域音频训练信号与原始感知域音频信号之间的差异,迭代地调整所述神经网络的参数。36.根据权利要求35所述的方法,其中,基于一个或多个损失函数在所述感知域中训练所述神经网络。37.根据权利要求35所述的方法,其中,基于负对数似然条件在所述感知域中训练所述神经网络。38.一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的方法(例如,计算机实施的方法),所述方法包括以下步骤:(a)通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号;(b)将所述感知域音频信号输入到神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;(c)获得所述感知域音频信号的所述潜在特征空间表示,作为所述神经网络的输出;以及(d)将所述感知域音频信号的所述潜在特征空间表示输出为比特流。39.根据权利要求38所述的方法,其中,在步骤(d)中,将指示所述掩码的进一步信息输出为所述比特流。40.根据权利要求38或39所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和/或指示所述掩码的所述信息在输出为所述比特流之前进行量化。41.根据权利要求38至40中任一项所述的方法,其中,通过所述神经网络将所述感知域音频信号映射到所述潜在特征空间表示是在时域中执行的。42.根据权利要求38至41中任一项所述的方法,其中,获得所述感知域音频信号是在频
域中执行的。43.一种使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的方法(例如,计算机实施的方法),所述方法包括以下步骤:(a)接收作为比特流的感知域音频信号的潜在特征空间表示;(b)将所述潜在特征空间表示输入到神经网络中,以生成所述感知域音频信号;(c)获得所述感知域音频信号,作为所述神经网络的输出;以及(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述感知域音频信号转换到原始信号域。44.根据权利要求43所述的方法,其中,所述神经网络以所述感知域音频信号的所述潜在特征空间表示为条件。45.根据权利要求43或44所述的方法,其中,在步骤(a)中,接收作为所述比特流的指示所述掩码的进一步信息,并且所述神经网络以所述信息为条件。46.根据权利要求43至45中任一项所述的方法,其中,所述感知域音频信号的所述潜在特征空间表示和/或指示所述掩码的所述信息在接收时是经过量化的,并且逆量化在步骤(b)之前执行。47.根据权利要求43至46中任一项所述的方法,其中,通过所述神经网络生成所述感知域音频信号是在时域中执行的。48.根据权利要求43至47中任一项所述的方法,其中,将所述感知域音频信号转换到所述原始信号域是在频域中执行的。49.一种使用神经网络处理音频信号的装置,其中,所述装置包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:(a)获得感知域音频信号;(b)将所述感知域音频信号输入到所述神经网络中,以处理所述感知域音频信号;(c)获得经处理的感知域音频信号,作为所述神经网络的输出;以及(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述经处理的感知域音频信号转换到原始信号域。50.一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的装置,其中,所述装置包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:(a)通过将指示从心理声学模型得到的掩蔽阈值的掩码应用于原始信号域中的音频信号来获得感知域音频信号;(b)将所述感知域音频信号输入到神经网络中,以将所述感知域音频信号映射到潜在特征空间表示;(c)获得所述感知域音频信号的所述潜在特征空间表示,作为所述神经网络的输出;以及(d)将所述感知域音频信号的所述潜在特征空间表示输出为比特流。51.一种使用神经网络从感知域音频信号的潜在特征空间表示中获得音频信号的装置,其中,所述装置包括神经网络和一个或多个处理器,所述处理器被配置为执行包括以下步骤的方法:
(a)接收作为比特流的感知域音频信号的潜在特征空间表示;(b)将所述潜在特征空间表示输入到神经网络中,以生成所述感知域音频信号;(c)获得所述感知域音频信号,作为所述第二神经网络的输出;以及(d)基于指示从心理声学模型得到的掩蔽阈值的掩码,将所述感知域音频信号转换到原始信号域。52.一种设备,所述设备被配置为执行根据权利要求1至48中任一项所述的方法。53.一种计算机程序,所述计算机程序包括指令,所述指令适于当由具有处理能力的设备执行时使所述设备执行根据权利要求1至48中任一项所述的方法。54.一种计算机可读存储介质,所述计算机可读存储介质具有指令,所述指令适于当由具有处理能力的设备执行时使所述设备执行根据权利要求1至48中任一项所述的方法。

技术总结
本文描述了一种使用神经网络或者使用第一神经网络和第二神经网络处理音频信号的方法。进一步描述了一种训练所述神经网络或联合训练一组所述第一神经网络和所述第二神经网络的方法。此外,描述了一种使用神经网络获得和传输感知域音频信号的潜在特征空间表示的方法、以及一种使用神经网络从感知域音频信号的潜在特征空间表示获得音频信号的方法。还描述了相应的装置和计算机程序产品。述了相应的装置和计算机程序产品。述了相应的装置和计算机程序产品。


技术研发人员:M
受保护的技术使用者:杜比实验室特许公司
技术研发日:2021.10.14
技术公布日:2023/7/20
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐