水印生成、信息处理、音频水印生成模型训练方法和装置与流程

未命名 09-21 阅读:79 评论:0


1.本公开涉及人工智能技术领域,具体为深度学习、大模型、生成模型等技术领域,尤其涉及一种水印生成方法和装置、信息处理方法和装置、音频水印生成模型训练方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。


背景技术:

2.随着人工智能的发展,越来越多的生成类产品应运而生,但是从中涉及的版权、法律等问题也是比比皆是。
3.现有的技术均是直接得到音频水印,并且根据原音频进行特殊水印位置的水印添加实现,虽然可以直接针对音频做音频水印加解密,但是此音频水印无法直接与相关素材一一对应,音频水印的可解释性较低。


技术实现要素:

4.提供了一种水印生成方法和装置、信息处理方法和装置、音频水印生成模型训练方法和装置、电子设备、计算机可读存储介质以及计算机程序产品。
5.根据第一方面,提供了一种水印生成方法,该方法包括:获取待处理素材;对待处理素材进行处理,得到待处理文本;将待处理文本输入音频水印生成模型,得到音频水印;音频水印生成模型用于表征输入文本与高频、无声的音频水印之间的对应关系。
6.根据第二方面,提供了一种信息处理方法,该方法包括:获取多模态的待入库素材、如第一方面任一实现方式描述的方法生成的音频水印;基于待入库素材和音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量;将检索向量存入向量检索库。
7.根据第三方面,提供了一种音频水印生成模型训练方法,该方法包括:获取预先设置的样本数据对集,样本数据对集包括至少一个样本数据对,样本数据对包括:文本以及与文本对应的高频、无声的音频;获取扩散模型,扩散模型包括:音频编码器、文本编码器、采样器、与采样器连接的解码器,采样器分别与音频编码器、文本编码器连接,采样器与文本编码器具有残差连接;执行以下训练步骤:从样本数据对集中选取样本数据对,将选取的样本数据对中的文本输入扩散模型的文本编码器;将选取的样本数据对中的音频输入音频编码器,得到解码器输出的预测音频;响应于扩散模型满足训练完成条件,得到训练完成的音频水印生成模型。
8.根据第四方面,提供了一种水印生成装置,该装置包括:待处理获取单元,被配置成获取待处理素材;文本得到单元,被配置成对待处理素材进行处理,得到待处理文本;水印得到单元,被配置成将待处理文本输入音频水印生成模型,得到音频水印;音频水印生成模型用于表征输入文本与高频、无声的音频水印之间的对应关系。
9.根据第五方面,提供了一种信息处理装置,该装置包括:待入库获取单元,被配置成获取多模态的待入库素材、如第四方面任一实现方式描述的装置生成的音频水印;向量
得到单元,被配置成基于待入库素材和音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量;存储单元,被配置成将检索向量存入向量检索库。
10.根据第六方面,提供了一种音频水印生成模型训练装置,该装置包括:样本获取单元,被配置成获取预先设置的样本数据对集,样本数据对集包括至少一个样本数据对,样本数据对包括:文本以及与文本对应的高频、无声的音频;模型获取单元,被配置成获取扩散模型,扩散模型包括:音频编码器、文本编码器、采样器、与采样器连接的解码器,采样器分别与音频编码器、文本编码器连接,采样器与文本编码器具有残差连接;训练单元,被配置成从样本数据对集中选取样本数据对,将选取的样本数据对中的文本输入扩散模型的文本编码器;将选取的样本数据对中的音频输入音频编码器,得到解码器输出的预测音频;模型得到单元,被配置成响应于扩散模型满足训练完成条件,得到训练完成的音频水印生成模型。
11.根据第七方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面或第二方面或第三方面任一实现方式描述的方法。
12.根据第八方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面或第二方面或第三方面任一实现方式描述的方法。
13.根据第九方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面或第二方面或第三方面任一实现方式描述的方法。
14.本公开的实施例提供的水印生成方法和装置,首先,获取待处理素材;其次,对待处理素材进行处理,得到待处理文本;最后,将待处理文本输入音频水印生成模型,得到音频水印。由此,通过将处理之后得到的待处理文本输入音频水印生成模型,得到音频水印生成模型输出的音频水印,为音频水印的得到提供了一种可靠实现方式,提高了音频水印的得到的可靠性。
15.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
16.附图用于更好地理解本方案,不构成对本公开的限定。其中:
17.图1是根据本公开水印生成方法的一个实施例的流程图;
18.图2是根据本公开信息处理方法的一个实施例的流程图;
19.图3是根据本公开音频水印生成模型训练方法的一个实施例的流程图;
20.图4是根据本公开水印生成装置的一个实施例的结构示意图;
21.图5是根据本公开信息处理装置的一个实施例的结构示意图;
22.图6是根据本公开音频水印生成模型训练装置的一个实施例的结构示意图;
23.图7是用来实现本公开实施例的水印生成方法、信息处理方法、音频水印生成模型训练方法的电子设备的框图。
具体实施方式
24.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
25.本实施例中,“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
26.本公开提供了一种水印生成方法,通过该水印生成方法,无需再对音频进行高频音频处理,直接通过音频转化的待处理文本便可以方便、快捷地得到高频、无声的音频水印,图1示出了根据本公开水印生成方法的一个实施例的流程100,上述水印生成方法包括以下步骤:
27.步骤101,获取待处理素材。
28.本实施例中,待处理素材是一种可以生成文本数据的材料,该待处理素材可以图像、文本、音频、视频等多模态数据中的一种数据,通过对待处理素材文本数据提取可以得到待处理文本对应的文本数据。
29.可选地,上述步骤101包括:获取初始素材,检测初始素材中是否具有与文本相关的素材;响应于初始素材中具有与文本相关的素材,将该与文本相关的素材作为待处理素材。
30.步骤102,对待处理素材进行处理,得到待处理文本。
31.本实施例中,对待处理素材进行的处理是指:将待处理素材转换成文本的处理,基于待处理素材的模态不同,对待处理素材进行的处理不同,当待处理素材包括图像时,对待处理素材进行处理包括:对待处理素材进行图像至文本的转换,得到待处理文本;当待处理素材包括音频时,对待处理素材进行处理包括:对待处理素材进行音频至文本的转换,得到待处理文本。
32.本实施例中,当待处理素材为文本时,对待处理素材进行处理还可以包括:对待处理素材进行分词、去掉停用词、去掉标点符号等处理,得到待处理文本。
33.步骤103,将待处理文本输入音频水印生成模型,得到音频水印。
34.本实施例中,音频水印生成模型用于表征输入文本与高频、无声的音频水印之间的对应关系。其中,音频水印是可以放置在初始音频中的用于表征初始音频的版权的高频、无声音频,音频水印还可以是可以放置在初始音频,达到对初始音频进行加密效果的音频。
35.本实施例中,音频水印生成模型是一种生成模型,不同类型的生成模型均可以应用于本公开实现文本至高频、无声的音频转换。
36.可选地,在待处理素材为音频数据时,上述方法还包括:对音频数据进行离散小波变换,得到具有音频信息的低频区域和高频区域信息,对高频区域信息进行特征,得到提取特征;对音频水印进行特征提取,得到水印特征;对比提取特征与水印特征,响应于提取特征与水印特征的相似度大于相似度阈值(例如85%),确定音频水印生成准确。
37.可选地,上述方法还包括:获取待加密音频,对待该加密音频进行高频区域分析,得到待加密音频的高频区域,将音频水印放置在高频区域,得到加密音频。
38.可选地,上述方法还包括:对生成的音频水印进行高通滤波,通过高频滤波可以保证音频水印的高频的效果,保证最终生成的音频水印具有更加明显的高频属性。
39.本公开的实施例提供的水印生成方法,首先,获取待处理素材;其次,对待处理素材进行处理,得到待处理文本;最后,将待处理文本输入音频水印生成模型,得到音频水印。由此,通过将处理之后得到的待处理文本输入音频水印生成模型,得到音频水印生成模型输出的音频水印,为音频水印的得到提供了一种可靠实现方式,提高了音频水印的得到的可靠性。
40.在本实施例的一些可选实现方式中,上述音频水印生成模型为扩散模型,音频水印生成模型包括:顺序连接的编码器、上采样器、下采样器、解码器。
41.本可选实现方式中,扩散模型学习由于噪声引起的信息衰减,然后使用学习到的模式来生成高频、无声的音频水印,在学习模式的过程中,扩散模型基于学习到的音频噪声分布,对文本数据进行噪声信息引入,并尝试通过去噪来生成音频水印,在一段时间内通过多次迭代,扩散模型每次在给定一些噪声输入的情况下学习生成新的音频水印。
42.传统技术中,扩散模型一般用于来生成图像,本公开采用扩散模型进行音频水印生成,完成了扩散模型从图像领域到音频领域的转移。
43.本可选实现方式中,扩散模型主要包括前向过程和后向过程,前向过程也是扩散过程,扩散过程不断往输入数据中加噪声,加噪声其实是构建标签的过程,时间步趋近于正无穷最后变成纯噪声;后向过程是去噪、不断复原的过程,也就是生成音频水印的过程。
44.本可选实现方式提供的音频水印生成模型,采用扩散模型实现了音频水印的提取,在扩散模型的优点的基础上,提高了音频水印生成的可靠性。
45.在本实施例的一些可选实现方式中,上述编码器包括:文本编码器,音频水印生成模型还包括:文本编码器与上采样器之间的第一残差连接;以及文本编码器和下采样器之间的第二残差连接。
46.本实施例中,第一残差连接是文本编码器的输出与上采样器的输出的非线性变化叠加,即第一残差连接将文本编码器的输出直接添加到上采样器的输出中,从而提供了一种绕过上采样器的非线性变化的路径;第二残差连接是文本编码器的输出与下采样器的输出的非线程变化叠加,即第二残差连接将文本编码器的输出直接添加到下采样器的输出中,从而提供了一种绕过下采样器的非线性变化的路径。
47.本实施例中,通过第一残差连接和第二残差连接可以音频水印生成模型在训练过程中对文本与音频的一致性做一个鲁棒性操作。通过第一残差连接和第二残差连接还可以解决音频水印模型在训练过程中梯度消失和梯度爆炸的问题,同时也可以帮助音频水印生成模型更快地收敛,保证了音频水印生成模型的训练效果。
48.在本实施例的一些可选实现方式中,上述音频水印生成模型还包括:去噪模块,去噪模块用于去除音频水印的噪声。
49.本实施例中,去噪模块是一种噪声自动编码器(denoising autoencoder),通过噪声自动编码器可以有效地去除模型生成的音频的噪声,提高了音频水印的纯度。
50.本可选实现方式提供的音频水印生成模型,在音频水印生成模型中增加去噪模块,可以有效地去除音频水印的噪声,提高了生成的音频水印的效果。
51.本实施例的一些可选实现方式中,上述音频水印生成模型为生成式对抗网络。
52.在训练生成式对抗网络过程中,生成式对抗网络的生成器,先使用随机的文本向量进行高频、无声音频生成,作为生成式对抗网络的判别器的输入。生成式对抗网络的训练判别器,使用与文本向量对应的标签数据与生成式对抗网络的生成器的数据进行判别是否正确,直至生成式对抗网络的生成器与生成式对抗网络的判别器达到平衡为此,得到适应于提取音频水印的生成式对抗网络。
53.本实施例提供的音频水印生成模型,采用生成式对抗网络的生成和对抗原理实现音频水印的生成,提高了音频水印的生成的准确性。
54.可选地,上述音频水印生成模型还可以采用vae(variational autoencoder,变分自编码器)模型。
55.针对上述音频水印生成方法,本公开还提供了一种信息处理方法,图2出了根据本公开信息处理方法的一个实施例的流程200,上述信息处理方法包括以下步骤:
56.步骤201,获取多模态的待入库素材和音频水印。
57.本实施例中,音频水印可以是通过上述音频生成方法生成的音频水印。
58.本实施例中,多模态的待入库素材包括至少一种模态的素材,且各个素材均是与音频水印相关的素材,例如,多模态的待入库素材为音频数据和文本数据,其中,音频数据是以音频手段对音频水印所属的主体进行解释的数据,文本数据是以文本手段对音频水印所属的主体进行解释的数据。
59.可选地,上述步骤201包括:获取多模态的初始素材和音频水印的解释信息;检测各个模态的初始素材是否相关;若所有模态的初始素材均相关,基于解释信息,依次检测各个模态的初始素材是否与音频水印相关;若至少有一种模态的初始素材与音频水印相关,将该与音频水印相关的初始素材作为待入库素材。
60.步骤202,基于待入库素材和音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量。
61.本实施例中,上述步骤202包括:将待入库素材、音频水印输入嵌入式模型中,得到嵌入式模型输出的具有相同含义的音频水印、各种模态待入库素材的检索向量。其中,具有相同含义的音频水印、各种模态待入库素材的检索向量是指:音频水印的检索向量与各种模态待入库素材的检索向量含义相同,具有对应关系,通过生成的检索向量可以统一音频水印和各种模态信息之间的一致性。
62.可选地,上述步骤202包括:同时对待入库素材和音频水印进行特征提取,对提取的特征进行筛选,得到待入库素材和音频水印具有相同含义的特征;基于具有相同含义的特征,对待入库素材和音频水印进行向量变换,得到具有相近含义的音频水印、各种模态待入库素材的检索向量。本实施例中,上述具有相同含义的特征,对待入库素材和音频水印进行向量变换,得到具有相近含义的音频水印、各种模态待入库素材的检索向量包括:分别确定待入库素材和音频水印的特征与该具有相同含义的特征的相似度大于相似度阈值的独有特征,基于待入库素材的独有特征,还原待入库素材,得到还原素材,对还原素材进行向量变换,得到待入库素材的检索向量;基于音频水印的独有特征,还原音频水印,得到还原水印,对还原水印进行向量变换,得到音频水印的检索向量。
63.步骤203,将检索向量存入向量检索库。
64.本实施例中,向量检索库是存储具有相近含义的音频水印、各种模态待入库素材
的检索向量的数据库,当在向量检索库中搜索任何一种模态信息的检索向量时,可以相应找到与其含义相同的音频水印的检索向量。
65.本实施例中,向量检索库包括:在不同区域分别存储的具有相近含义的音频水印的检索向量、各种模态待入库素材的检索向量。
66.可选地,向量检索库还可以包括:与具有相近含义的音频水印、各种模态待入库素材的检索向量对应存储的待入库素材和音频水印。本实施例中,在向量检索库存储与具有相近含义的音频水印、各种模态待入库素材的检索向量对应的待入库素材和音频水印,可以在向量匹配上之后,方便、快捷地确定音频水印以及与音频水印相关的待入库素材,提高了音频水印的可解释度。
67.本实施例提供的信息处理方法,首先获取多模态的待入库素材和音频水印;其次,基于待入库素材和音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量;最后,将具有相近含义的音频水印、各种模态待入库素材的检索向量存入向量检索库,可以便于对与音频水印的检索向量相关的信息的检索,提高了音频水印的可解释性。
68.在本公开的一些可选实现方式中,上述基于待入库素材和音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量包括:获取与待入库素材的模态和音频水印对应的跨模态大模型,其中,跨模态大模型用于表征具有相近含义的不同模态信息与各种模态信息的检索向量之间的对应关系;将待入库素材和音频水印同时输入跨模态大模型,得到具有相近含义的音频水印、各种模态待入库素材的检索向量。
69.本实施例中,跨模态大模型是可以对多种模态数据(例如图像、文本、音频以及视频)进行向量化变换的模型,当跨模态大模型是可以处理音频数据的模型时,跨模态大模型则是与音频水印对应的模型。进一步地,当跨模态大模型还是可以处理待入库素材所对应的模型的信息时,跨模态大模型是与待入库素材的模态对应的跨模态大模型。例如,待入库素材包括:文本和图像,跨模态大模型是处理文本、图像以及音频的模型,则跨模态大模型是与待入库素材的模态、音频水印对应的跨模态大模型。
70.本实施例中,跨模态大模型例如可以是imagebind大模型,imagebind大模型能够将六种类型的数据整合在一起,该六种类型的数据包括视觉(以图像和视频形式呈现)、热量(红外图像)、文本、音频、深度信息以及由imu(inertial measurement unit,惯性测量单元)生成的运动读数。
71.本实施例提供的得到具有相近含义的音频水印、各种模态待入库素材的检索向量的方法,通过跨模态大模型提供了多种模态信息中相近含义的检索向量,提高了检索向量的生成效率。
72.在本公开的一些实施例中,上述信息处理方法还包括:获取已加密的加密音频;对加密音频进行解密,得到待处理水印;对待处理水印进行向量处理,得到音频向量;基于音频向量和向量检索库,得到与音频向量对应的检索向量;基于检索向量,得到与待处理水印对应的多模态素材。
73.本实施例中,加密音频是通过在普通的音频中加入待处理水印而得到的音频,上述对加密音频进行解密,得到待处理水印包括:对加密音频进行离散小波变换,得到音频的高频区域信息,对高频区域信息进行特征提取,得到待处理水印特征,将高频区域信息中与待处理水印特征相应的音频作为待处理水印。
74.本实施例中,基于音频向量和向量检索库,得到与音频向量对应的检索向量包括:将音频向量与向量检索库中的检索向量进行相似度计算;响应于音频向量与检索向量的相似度大于相似度阈值(例如89%),确定该检索向量为与音频向量对应的检索向量。
75.可选地,上述方法还包括:响应于音频向量与向量检索库中任意一个检索向量相似度均小于相似度阈值时,将该音频向量添加到向量检索库中。
76.本实施例中,向量检索库中的各个检索向量可以均对应相应的素材和待处理水印,当与音频向量对应的检索向量得到之后,可以相应找到与该检索向量对应的素材和待处理水印,而与该检索向量对应的素材即为与待处理水印对应的多模态素材。
77.本实施例中,与待处理水印对应的多模态素材是与加密音频中待处理水印相关的素材,通过与待处理水印对应的多模态素材可以有效地解释加密音频中的待处理水印,为待处理水印的可解释性提供了可靠的技术支持。
78.本实施例提供的信息处理方法,对已加密音频进行解密,得到待处理水印;对待处理水印进行向量处理得到音频向量,通过检索库检索与音频向量相关的检索向量,进一步找到与检索向量相关的多模态素材,为待处理水印的可解释性提供的有效技术支持。
79.在本实施例的一些可选实现方式中,上述对待处理水印进行向量处理,得到音频向量包括:将待处理水印输入跨模态大模型,得到跨模态大模型输出的音频向量。
80.本可选实现方式中,跨模态大模型可以是生成向量检索库的检索向量的模型,通过将待处理水印输入与生成检索向量库的检索向量相同的跨模态大模型可以保证水印处理统一性,提高了待处理水印的处理效率。
81.在本实施例的一些可选实现方式中,上述基于音频向量和向量检索库,得到与音频向量对应的检索向量包括:将音频向量与向量检索库中的检索向量进行匹配;响应于音频向量与向量检索库中的检索向量匹配成功,获取与该检索向量相关的所有检索向量;将该检索向量以及与该检索向量相关的所有检索向量作为与音频向量对应的检索向量。
82.本实施例中,向量检索库可以基于信息的含义进行存储,相同含义的多模态的检索向量具有相同的含义标签,将音频向量与检索向量进行匹配包括:将音频向量与各个含义标签下的检索向量进行相似度比较,响应于音频向量与任一或多个含义标签下的检索向量相似度大于相似度阈值,将音频向量与该含义标签下与音频水印对应的检索向量进行相似度比较,若相似度大于相似度阈值,确定音频向量与该含义标签下的音频水印对应的检索向量匹配成功。
83.本可选实现方式提供的得到音频向量对应的检索向量的方法,通过将音频向量与检索向量相匹配,确定与音频向量对应的检索向量,提高了音频向量检索的可靠性。
84.针对上述水印生成方法,本公开还提供了一种音频水印生成模型的训练方法,图3示出了根据本公开音频水印生成模型训练方法的一个实施例的流程300,上述音频水印生成模型训练方法包括以下步骤:
85.步骤301,获取预先设置的样本数据对集。
86.本实施例中,样本数据对集包括至少一个样本数据对,样本数据对包括:文本以及与文本对应的高频、无声的音频。
87.本实施例中,在训练音频水印生成模型的前期,预先需要准备大量文本和高频、无声音频的数据对,该数据对即为样本数据对集中的样本数据对。在样本数据对中的文本以
及与文本对应的高频、无声的音频可以具有一定关系。
88.可选地,样本数据对集的生成过程如下:获取样本语音段,将样本语音段划分为多个子语音段,针对各个子语音段,对该子语音段进行离散小波变换,得到高频区域信息,将高频区域信息中的特定频率的、无声音频作为样本音频;对各个子语音段进行音频文本变换,得到样本文本,将样本音频与样本文本作为样本数据对集中的样本数据对。
89.步骤302,获取扩散模型。
90.本实施例中,扩散模型包括:音频编码器、文本编码器、采样器、与采样器连接的解码器,采样器分别与音频编码器、文本编码器连接,采样器与文本编码器具有残差连接。
91.本实施例中,扩散模型中的音频编码器与文本编码器并列分布,各自分别用于对音频和文本进行编码,得到音频编码和文本编码;音频编码与文本编码共同输入到采样器中,由于采样器与文本编码器具有残差连接,可以将由文本编码器的文本信息传输给采样器,使采样器更加清楚输入的文本信息,提高了训练过程中文本信息处理的鲁棒性。
92.可选地,编码器包括:文本编码器,上述采样器包括:上采样器和下采样器,上述残差连接包括:文本编码器与上采样器之间的第一残差连接;以及文本编码器和下采样器之间的第二残差连接。本实施例中,采用第一残差连接和第二残差连接,可以使上采样器和下采样器均可以获取到文本的信息,提高了整个扩散模型的训练的鲁棒性。
93.步骤303,从样本数据对集中选取样本数据对,将选取的样本数据对中的文本输入扩散模型的文本编码器。
94.本实施例中,执行主体可以从步骤301中获取的样本数据对集中选取样本数据对,以及执行步骤303至步骤305的训练步骤,其中,样本的选取方式和选取数量在本公开中不做限制。例如,可以随机选取至少一个样本数据对,也可以是从样本数据对集中选取文本表述清楚的样本数据对,每个样本数据对是一种文本和音频对,其中,文本和音频对中的音频为高频、无声的音频。
95.本实施例中,将选取的样本数据对中的文本输入文本编码器,可以将样本数据对中的文本转化为扩散模型可以理解的含义,从而在扩散模型中参考文本的信息进行预测语音的预测。
96.步骤304,将选取的样本数据对中的音频输入音频编码器,得到解码器输出的预测音频。
97.本实施例中,将选取的样本数据对中的音频输入到音频编码器,可以将样本数据对中的音频转化为扩散模型可以理解的含义,从而在扩散模型中进行正向过程、逆向过程以及损失函数计算,得到预测语音。
98.步骤305,响应于扩散模型满足训练完成条件,得到训练完成的音频水印生成模型。
99.本实施例中,训练完成条件以下至少一项:扩散模型的训练迭代次数达到迭代次数阈值,扩散模型的损失函数计算得到的损失值小于预定损失值阈值,其中,迭代次数阈值和预定损失值阈值可以基于扩散模型的训练需求而定。
100.本实施例中,扩散模型可以采用对比损失函数(constrastive loss)进行对比计算,通过对比损失函数可以使模型实时确定预测音频是否与输入的样本的音频的相似度,从而最终得到最终的损失值。
101.可选地,在扩散模型不满足训练完成条件时,则调整扩散模型中的相关参数,再执行步骤303至步骤305,使得扩散模型的损失值收敛,直至扩散模型满足训练完成条件为止。
102.本实施例提供的音频水印生成模型训练方法,在音频水印生成模型的训练过程中,对样本数据对中的每个文本数据和音频数据会分别过一个编码器生成对应的向量,并使用扩散模型进行模型训练,并采用对比损失函数进行对比训练,提高了生成的音频水印生成模型的精度。进一步地,在采样器与文本编码器之间设置残差连接,可以使采样器实时获取到输入的文本的信息,提高了训练过程中文本与音频的一致性与各种的信息的鲁棒性。
103.进一步参考图4,作为对上述各图所示方法的实现,本公开提供了水印生成装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可应用于各种电子设备中。
104.如图4所示,本实施例提供的水印生成装置400包括:待处理获取单元401,文本得到单元402,水印得到单元403。其中,上述待处理获取单元401,可以被配置成获取待处理素材。上述文本得到单元402,可以被配置成对待处理素材进行处理,得到待处理文本。上述水印得到单元403,可以被配置成将待处理文本输入音频水印生成模型,得到音频水印;音频水印生成模型用于表征输入文本与高频、无声的音频水印之间的对应关系。
105.在本实施例中,水印生成装置400中:待处理获取单元401,文本得到单元402,水印得到单元403的具体处理及其所带来的技术效果可分别参考图1对应实施例中的步骤101、步骤102、步骤103的相关说明,在此不再赘述。
106.在本实施例的一些可选的实现方式中,上述音频水印生成模型为扩散模型,音频水印生成模型包括:顺序连接的编码器、上采样器、下采样器、解码器。
107.在本实施例的一些可选的实现方式中,上述编码器包括:文本编码器,音频水印生成模型还包括:文本编码器与上采样器之间的第一残差连接;以及文本编码器和下采样器之间的第二残差连接。
108.在本实施例的一些可选的实现方式中,上述音频水印生成模型还包括:去噪模块,去噪模块用于去除音频水印的噪声。
109.在本公开的一些可选实现方式中,上述音频水印生成模型为生成式对抗网络。
110.本公开的实施例提供的水印生成装置,首先,待处理获取单元401获取待处理素材;其次,文本得到单元402对待处理素材进行处理,得到待处理文本;最后,水印得到单元403将待处理文本输入音频水印生成模型,得到音频水印。由此,通过将处理之后得到的待处理文本输入音频水印生成模型,得到音频水印生成模型输出的音频水印,为音频水印的得到提供了一种可靠实现方式,提高了音频水印的得到的可靠性。
111.继续参见图5,作为对上述图2所示方法的实现,本技术提供了一种信息处理装置的一个实施例。该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
112.如图5所示,本实施例提供的信息处理装置500包括:待入库获取单元501,向量得到单元502,存储单元503。其中,待入库获取单元501,可以被配置成获取多模态的待入库素材和水印生成装置生成的音频水印。向量得到单元502,可以被配置成基于待入库素材和音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量。存储单元503,可
以被配置成将检索向量存入向量检索库。
113.在本实施例中,信息处理装置500中:待入库获取单元501,向量得到单元502,存储单元503的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203的相关说明,在此不再赘述。
114.在本实施例的一些可选实现方式中,向量得到单元502进一步被配置成:获取与待入库素材的模态和音频水印对应的跨模态大模型,其中,跨模态大模型用于表征具有相近含义的不同模态信息与各种模态信息的检索向量之间的对应关系;将待入库素材和音频水印同时输入跨模态大模型,得到具有相近含义的音频水印、各种模态待入库素材的检索向量跨模态大模型。
115.在本实施例的一些可选实现方式中,上述装置500还包括:音频获取单元(图中未示出)、解密单元(图中未示出)、处理单元(图中未示出)、检索得到单元(图中未示出)、素材得到单元(图中未示出)。上述音频获取单元,可以被配置成获取已加密的加密音频。上述解密单元,可以被配置成对加密音频进行解密,得到待处理水印。上述处理单元,可以被配置成对待处理水印进行向量处理,得到音频向量。上述检索得到单元,可以被配置成基于音频向量和向量检索库,得到与音频向量对应的检索向量。上述素材得到单元,被配置成基于检索向量,得到与待处理水印对应的多模态素材。
116.在本实施例的一些可选实现方式中,上述处理单元被配置成:将待处理水印输入跨模态大模型,得到跨模态大模型输出的音频向量。
117.在本实施例的一些可选实现方式中,上述检索得到单元进一步被配置成:将音频向量与向量检索库中的检索向量进行匹配;响应于音频向量与向量检索库中的检索向量匹配成功,获取与该检索向量相关的所有检索向量;将该检索向量以及与该检索向量相关的所有检索向量作为与音频向量对应的检索向量。
118.本公开的实施例提供的信息处理装置,首先待入库获取单元501获取多模态的待入库素材和音频水印;其次,向量得到单元502基于待入库素材和音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量;最后,存储单元503将具有相近含义的音频水印、各种模态待入库素材的检索向量存入向量检索库,可以便于对与音频水印的检索向量相关的信息的检索,提高了音频水印的可解释性。
119.继续参见图6,作为对上述图3所示方法的实现,本技术提供了一种音频水印生成模型训练装置的一个实施例。该装置实施例与图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
120.如图6所示,本实施例提供的音频水印生成模型训练装置600包括:样本获取单元601,模型获取单元602,训练单元603,模型得到单元604。其中,上述样本获取单元601,可以被配置成获取预先设置的样本数据对集,样本数据对集包括至少一个样本数据对,样本数据对包括:文本以及与文本对应的高频、无声的音频。上述模型获取单元602,可以被配置成获取扩散模型,扩散模型包括:音频编码器、文本编码器、采样器、与采样器连接的解码器,采样器分别与音频编码器、文本编码器连接,采样器与文本编码器具有残差连接。上述训练单元603,可以被配置成从样本数据对集中选取样本数据对,将选取的样本数据对中的文本输入扩散模型的文本编码器;将选取的样本数据对中的音频输入音频编码器,得到解码器输出的预测音频。上述模型得到单元604,可以被配置成响应于扩散模型满足训练完成条
件,得到训练完成的音频水印生成模型。
121.在本实施例中,音频水印生成模型训练装置600中:样本获取单元601,模型获取单元602,训练单元603,模型得到单元604的具体处理及其所带来的技术效果可分别参考图3对应实施例中的步骤301、步骤302、步骤303、步骤304的相关说明,在此不再赘述。
122.本公开的实施例提供的音频水印生成模型训练装置,在音频水印生成模型的训练过程中,对样本数据对中的每个文本数据和音频数据会分别过一个编码器生成对应的向量,并使用扩散模型进行模型训练,并采用对比损失函数进行对比训练,提高了生成的音频水印生成模型的精度。进一步地,在采样器与文本编码器之间设置残差连接,可以使采样器实时获取到输入的文本的信息,提高了训练过程中文本与音频的一致性与各种的信息的鲁棒性。
123.本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
124.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
125.图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
126.如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(rom)702中的计算机程序或者从存储单元708加载到随机访问存储器(ram)703中的计算机程序,来执行各种适当的动作和处理。在ram 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、rom 702以及ram703通过总线704彼此相连。输入/输出(i/o)接口705也连接至总线704。
127.设备700中的多个部件连接至i/o接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
128.计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如水印生成方法或信息处理方法或音频水印生成模型训练方法。例如,在一些实施例中,水印生成方法或信息处理方法或音频水印生成模型训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由rom702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到ram 703并由计算单元701执行时,可以执行上文描述的水印生成方法或信息处理方法或音频水印生成模型训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元
701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行水印生成方法或信息处理方法或音频水印生成模型训练方法。
129.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
130.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程水印生成装置或信息处理装置或音频水印生成模型训练装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
131.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
132.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
133.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
134.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计
算机程序来产生客户端和服务器的关系。
135.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
136.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

技术特征:
1.一种水印生成方法,所述方法包括:获取待处理素材;对所述待处理素材进行处理,得到待处理文本;将所述待处理文本输入音频水印生成模型,得到音频水印;所述音频水印生成模型用于表征输入文本与高频、无声的音频水印之间的对应关系。2.根据权利要求1所述的方法,其中,所述音频水印生成模型为扩散模型,所述音频水印生成模型包括:顺序连接的编码器、上采样器、下采样器、解码器。3.根据权利要求2所述的方法,其中,所述编码器包括:文本编码器,所述音频水印生成模型还包括:所述文本编码器与所述上采样器之间的第一残差连接;以及所述文本编码器和所述下采样器之间的第二残差连接。4.根据权利要求3所述的方法,其中,所述音频水印生成模型还包括:去噪模块,所述去噪模块用于去除所述音频水印的噪声。5.根据权利要求1所述的方法,其中,所述音频水印生成模型为生成式对抗网络。6.一种信息处理方法,所述方法包括:获取多模态的待入库素材和权利要求1-5任意一项所述方法生成的音频水印;基于所述待入库素材和所述音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量;将所述检索向量存入向量检索库。7.根据权利要求6所述的方法,其中,所述基于所述待入库素材和所述音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量包括:获取与所述待入库素材的模态和所述音频水印对应的跨模态大模型,其中,所述跨模态大模型用于表征具有相近含义的不同模态信息与各种模态信息的检索向量之间的对应关系;将所述待入库素材和所述音频水印同时输入所述跨模态大模型,得到具有相近含义的音频水印、各种模态待入库素材的检索向量。8.根据权利要求6所述的方法,所述方法包括:获取已加密的加密音频;对所述加密音频进行解密,得到待处理水印;对所述待处理水印进行向量处理,得到音频向量;基于所述音频向量和所述向量检索库,得到与所述音频向量对应的检索向量;基于所述检索向量,得到与所述待处理水印对应的多模态素材。9.根据权利要求8所述的方法,其中,所述对所述待处理水印进行向量处理,得到音频向量包括:将所述待处理水印输入所述跨模态大模型,得到所述跨模态大模型输出的音频向量。10.根据权利要求8所述的方法,其中,所述基于所述音频向量和所述向量检索库,得到与所述音频向量对应的检索向量包括:将所述音频向量与所述向量检索库中的检索向量进行匹配;响应于所述音频向量与所述向量检索库中的检索向量匹配成功,获取与该检索向量相关的所有检索向量;
将该检索向量以及与该检索向量相关的所有检索向量作为与所述音频向量对应的检索向量。11.一种音频水印生成模型训练方法,所述方法包括:获取预先设置的样本数据对集,所述样本数据对集包括至少一个样本数据对,所述样本数据对包括:文本以及与所述文本对应的高频、无声的音频;获取扩散模型,所述扩散模型包括:音频编码器、文本编码器、采样器、与所述采样器连接的解码器,所述采样器分别与所述音频编码器、所述文本编码器连接,所述采样器与所述文本编码器具有残差连接;执行以下训练步骤:从所述样本数据对集中选取样本数据对,将选取的样本数据对中的文本输入扩散模型的文本编码器;将选取的样本数据对中的音频输入所述音频编码器,得到所述解码器输出的预测音频;响应于所述扩散模型满足训练完成条件,得到训练完成的音频水印生成模型。12.一种水印生成装置,所述装置包括:待处理获取单元,被配置成获取待处理素材;文本得到单元,被配置成对所述待处理素材进行处理,得到待处理文本;水印得到单元,被配置成将所述待处理文本输入音频水印生成模型,得到音频水印;所述音频水印生成模型用于表征输入文本与高频、无声的音频水印之间的对应关系。13.根据权利要求12所述的装置,其中,所述音频水印生成模型为扩散模型,所述音频水印生成模型包括:顺序连接的编码器、上采样器、下采样器、解码器。14.根据权利要求13所述的装置,其中,所述编码器包括:文本编码器,所述音频水印生成模型还包括:所述文本编码器与所述上采样器之间的第一残差连接;以及所述文本编码器和所述下采样器之间的第二残差连接。15.根据权利要求14所述的装置,其中,所述音频水印生成模型还包括:去噪模块,所述去噪模块用于去除所述音频水印的噪声。16.根据权利要求12所述的装置,其中,所述音频水印生成模型为生成式对抗网络。17.一种信息处理装置,所述装置包括:待入库获取单元,被配置成获取多模态的待入库素材和权利要求12-16任意一项所述装置生成的音频水印;向量得到单元,被配置成基于所述待入库素材和所述音频水印,得到具有相近含义的音频水印、各种模态待入库素材的检索向量;存储单元,被配置成将所述检索向量存入向量检索库。18.根据权利要求17所述的装置,其中,所述向量得到单元进一步被配置成:获取与所述待入库素材的模态和所述音频水印对应的跨模态大模型,其中,所述跨模态大模型用于表征具有相近含义的不同模态信息与各种模态信息的检索向量之间的对应关系;将所述待入库素材和所述音频水印同时输入所述跨模态大模型,得到具有相近含义的音频水印、各种模态待入库素材的检索向量跨模态大模型。19.根据权利要求17所述的装置,所述装置还包括:音频获取单元,被配置成获取已加密的加密音频;
解密单元,被配置成对所述加密音频进行解密,得到待处理水印;处理单元,被配置成对所述待处理水印进行向量处理,得到音频向量;检索得到单元,被配置成基于所述音频向量和所述向量检索库,得到与所述音频向量对应的检索向量;素材得到单元,被配置成基于所述检索向量,得到与所述待处理水印对应的多模态素材。20.根据权利要求19所述的装置,其中,所述处理单元被配置成:将所述待处理水印输入所述跨模态大模型,得到所述跨模态大模型输出的音频向量。21.根据权利要求19所述的装置,其中,所述检索得到单元进一步被配置成:将所述音频向量与所述向量检索库中的检索向量进行匹配;响应于所述音频向量与所述向量检索库中的检索向量匹配成功,获取与该检索向量相关的所有检索向量;将该检索向量以及与该检索向量相关的所有检索向量作为与所述音频向量对应的检索向量。22.一种音频水印生成模型训练装置,所述装置包括:样本获取单元,被配置成获取预先设置的样本数据对集,所述样本数据对集包括至少一个样本数据对,所述样本数据对包括:文本以及与所述文本对应的高频、无声的音频;模型获取单元,被配置成获取扩散模型,所述扩散模型包括:音频编码器、文本编码器、采样器、与所述采样器连接的解码器,所述采样器分别与所述音频编码器、所述文本编码器连接,所述采样器与所述文本编码器具有残差连接;训练单元,被配置成从所述样本数据对集中选取样本数据对,将选取的样本数据对中的文本输入扩散模型的文本编码器;将选取的样本数据对中的音频输入所述音频编码器,得到所述解码器输出的预测音频;模型得到单元,被配置成响应于所述扩散模型满足训练完成条件,得到训练完成的音频水印生成模型。23.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。24.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。25.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-11中任一项所述的方法。

技术总结
本公开提供了一种水印生成方法和装置、信息处理方法和装置、多模态信息检索方法、音频水印生成模型训练方法和装置,涉及人工智能技术领域,具体为深度学习、大模型、生成模型等技术领域。水印生成方法具体实现方案为:获取待处理素材;对待处理素材进行处理,得到待处理文本;将待处理文本输入音频水印生成模型,得到音频水印;音频水印生成模型用于表征输入文本与高频、无声的音频水印之间的对应关系。该实施方式提高了音频水印的生成效果。实施方式提高了音频水印的生成效果。实施方式提高了音频水印的生成效果。


技术研发人员:吴伟鹏 李瑞锋 陈海楠
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2023.08.09
技术公布日:2023/9/19
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐