一种音色转换方法和相关装置与流程

未命名 08-01 阅读:165 评论:0


1.本技术涉及数据处理领域,特别是涉及一种音色转换方法和相关装置。


背景技术:

2.在视频制作的过程中,可以利用真人为视频中的角色配音,制作的视频可以用于直播,视频中的角色可以为虚拟人,则可以利用真人为直播视频中的虚拟人配音。直播视频中的虚拟人的动作可以由真人的动作驱动,驱动虚拟人的动作的真人和为虚拟人配音的真人可以称为中之人。
3.目前的虚拟人直播流程可以包括:a)通过动作获取设备获取中之人的动作,传输到直播调音台用于虚拟人的动作驱动;b)利用音频获取设备获取中之人的声音,传输到直播调音台用于虚拟人的配音;c)直播调音台可以通过原声输出/离线变声器转换得到虚拟人的配音,离线变声器可以对中之人的声音进行音色转换(voice conversion,vc),得到另一音色的声音。然而目前的离线变声器处理后的声音往往带着明显的处理痕迹,且受中之人的影响较高,对中之人绑定程度很高,确定后无法轻易进行中之人的更换,不能满足更多样的直播场景。


技术实现要素:

4.为了解决上述技术问题,本技术提供了一种音色转换方法和相关装置,可以实时进行音色转换,使音色转换可应用于视频直播场景。
5.本技术实施例公开了如下技术方案:
6.一方面,本技术提供一种音色转换方法,所述方法包括:
7.获取具有当前中之人的音色的第一音频流;
8.根据所述第一音频流的播放时间信息,对所述第一音频流进行分片得到第一音频片段,并根据所述目标音色转换模型对所述第一音频片段进行音色转换得到第二音频片段,所述第二音频片段具有目标中之人的音色,所述目标音色转换模型利用所述目标中之人的声音语料训练得到;
9.在得到多个第二音频片段后,基于所述多个第二音频片段对应的播放时间信息,将所述多个第二音频片段拼接为连续的第二音频流;
10.输出所述第二音频流,以便利用所述第二音频流和所述第一音频流对应的虚拟人直播画面进行视频直播,所述虚拟人直播画面根据所述当前中之人的动捕数据渲染得到。
11.另一方面,本技术提供一种音色转换装置,所述装置包括:
12.音频流获取单元,用于获取具有当前中之人的音色的第一音频流;
13.音色转换单元,用于根据所述第一音频流的播放时间信息,对所述第一音频流进行分片得到第一音频片段,并根据所述目标音色转换模型对所述第一音频片段进行音色转换得到第二音频片段,所述第二音频片段具有目标中之人的音色,所述目标音色转换模型利用所述目标中之人的声音语料训练得到;
14.音频拼接单元,用于在得到多个第二音频片段后,基于所述多个第二音频片段对应的播放时间信息,将所述多个第二音频片段拼接为连续的第二音频流;
15.音频流输出单元,用于输出所述第二音频流,以便利用所述第二音频流和所述第一音频流对应的虚拟人直播画面进行视频直播,所述虚拟人直播画面根据所述当前中之人的动捕数据渲染得到。
16.另一方面,本技术提供一种计算机设备,所述设备包括处理器以及存储器:
17.所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
18.所述处理器用于根据所述计算机程序中的指令执行上述方面所述的音色转换方法。
19.另一方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的音色转换方法。
20.另一方面,本技术实施例提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行所述的音色转换方法。
21.由上述技术方案可以看出,可以获取具有当前中之人的音色的第一音频流,之后可以根据第一音频流的播放时间信息,对第一音频流进行分片得到第一音频片段,并根据目标音色转换模型对第一音频片段进行音色转换得到第二音频片段,第二音频片段具有目标中之人的音色,目标音色转换模型利用目标中之人的声音语料训练得到,因此可以使音色转换更加自然逼真,且其可以将其他中之人的音色转换为目标中之人的音色,受当前中之人的影响较低,适用于更多中之人向目标中之人的音色转换。在得到多个第二音频片段后,可以基于多个第二音频片段对应的播放时间信息,将多个第二音频片段拼接为连续的第二音频流,这样可以通过对各个第一音频片段的音色转换,实现第一音频流向第二音频流的转换,由于对音频片段的音色转换无需等待第一音频流接收完毕即可进行,因此可以实现音频流的实时音色转换,之后可以输出第二音频流,从而利用第二音频流和第一音频流对应的虚拟人直播画面进行视频直播,其中虚拟人直播画面根据当前中之人的动捕数据渲染得到,这样目标中之人的动作可以驱动直播视频中的虚拟人的动作,第二音频流可以作为直播视频中的虚拟人的配音,因此实现了直播视频中的虚拟人的实时音色转换和实时动作驱动,使该角色具有目标音色和需要的动作,使视频分享更加多样化,能够满足更多的直播场景。
附图说明
22.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1为本技术实施例提供的一种音色转换方法的应用场景示意图;
24.图2为本技术实施例提供的一种音色转换方法的信令图;
25.图3为本技术实施例提供的一种直播系统的结构示意图;
26.图4为本技术实施例提供的一种配置界面的示意图;
27.图5为本技术实施例提供的一种虚拟人视频直播场景示意图;
28.图6为本技术实施例提供的一种音色转换装置的结构框图;
29.图7为本技术实施例提供的一种终端设备的结构图;
30.图8为本技术实施例提供的一种服务器的结构图。
具体实施方式
31.下面结合附图,对本技术的实施例进行描述。
32.目前可以通过离线处理音频的方式,将音频中一种音色转换为另一种音色,使配音场景更加多样化,然而离线处理音频的方式无法满足一些实时场景。
33.为了解决上述技术问题,本技术实施例提供了一种音色转换方法和相关装置,可以实现音频流的实时音色转换,进而对直播视频中的角色的音色进行实时转换,使视频分享更加多样化。
34.本技术实施例提供的音色转换方法是基于人工智能(artificial intelligence,ai)实现的,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
35.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
36.在本技术实施例中,主要涉及的人工智能软件技术包括上述语音处理技术、计算机视觉技术(computer vision,cv)、自然语言处理技术、机器学习/深度学习等方向。例如,可以涉及机器学习(machine learning,ml)中的深度学习(deep learning),包括各类人工神经网络(artificial neural network,ann)。
37.本技术实施例所提供的音色转换方法可以通过具备数据处理能力的计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器、扩展现实(extended reality,xr)设备等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术在此不做限制。本技术实施例可应用于各种场景,包括但不限于云技术、人工智能、数字人、虚拟人、游戏、虚拟现实、扩展现实(extended reality,xr)等。
38.计算机视觉技术是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频
语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
39.该具有数据处理的计算机设备具备机器学习能力,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
40.该具有数据处理的计算机设备具备语音处理技术,语音技术(speech technology)的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
41.该具有数据处理的计算机设备具备自然语言处理(nature language processing,nlp)能力,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
42.在本技术实施例提供的一种音色转换方法及相关装置中,采用的人工智能模型主要涉及对自然语言处理的应用、外形特征点的识别等,通过自然语言处理实现直播过程中的实时音色转换,从而使视频分享更加多样化,通过外形特征点的识别实现直播视频中动作的自定义,丰富直播视频的内容。
43.随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
44.为了便于理解本技术提供的技术方案,接下来,将结合一种实际应用场景,对本技术实施例提供的一种音色转换方法进行介绍。
45.参见图1,图1为本技术实施例提供的一种音色转换方法的应用场景示意图。在图1所示的应用场景中,包括终端设备10,用于进行音色转换。
46.终端设备10可以获取具有当前中之人的音色的第一音频流。之后可以根据第一音频流的播放时间信息,对第一音频流进行分片得到第一音频片段,并根据目标音色转换模型对第一音频片段进行音色转换得到第二音频片段,第二音频片段具有目标中之人的音色,目标音色转换模型利用目标中之人的声音语料训练得到,因此可以使音色转换更加自然逼真,且其可以将其他中之人的音色转换为目标中之人的音色,受当前中之人的影响较低,适用于更多中之人向目标中之人的音色转换。
47.具体的,终端设备10可以利用自身的音色转换功能对第一音频片段进行音色转换得到第二音频片段,也可以向服务器发送第一音频片段,以便利用具备音色转换功能的服务器对第一音频片段进行音色转换得到第二音频片段。其中服务器和终端设备10连接,终
端设备10可以安装有用于实现音色转换的应用程序,该应用程序与服务器对应,使该服务器与终端设备10之间可以通过网络进行交互。
48.终端设备10在得到多个第二音频片段后,可以基于多个第二音频片段对应的播放时间信息,将多个第二音频片段拼接为连续的第二音频流,这样可以通过对第一音频片段的音色转换,实现第一音频流向第二音频流的转换,由于对音频片段的音色转换无需等待第一音频流接收完毕即可进行,因此可以实现音频流的实时音色转换。
49.之后,终端设备10可以输出第二音频流,从而利用第二音频流和第一音频流对应的虚拟人直播画面进行视频直播,其中虚拟人直播画面根据当前中之人的动捕数据渲染得到,这样目标中之人的动作可以驱动直播视频中的虚拟人的动作,第二音频流可以作为直播视频中的虚拟人的配音,因此实现了直播视频中的虚拟人的实时音色转换和实时动作驱动,使该角色具有目标音色和需要的动作,使视频分享更加多样化。终端设备10可以向直播调音台20输出第二音频流,从而使直播调音台20进行基于目标音色的视频直播。
50.接下来,将结合附图,对本技术实施例提供的一种对话视频创建方法进行介绍。
51.参见图2,图2为本技术实施例提供的一种音色转换方法的信令图,该方法包括:
52.s101,获取具有当前中之人的音色的第一音频流。
53.本技术实施例中,可以由当前中之人为视频中的角色配音,该视频可以为直播视频,直播视频中的角色可以为虚拟人,则该视频可以作为虚拟人直播视频。为虚拟人直播视频中的角色配音的过程中,可以通过麦克风等音频获取设备进行当前中之人的音频的获取,而后将音频与音频对应的虚拟人直播画面合并得到视频,在一些场景中,需要对得到的音频进行音色转换,而后将经过音色转换的音频与音频对应的虚拟人直播画面合并得到视频,这样可以得到不同音色的视频,丰富了视频内容的表达形式。
54.本技术实施例中,可以获取当前中之人的音色第一音频流,第一音频流为需要进行音色转换的音频流,第一视频流可以从目标音频输入源获取,目标音频输入源为提供第一音频流的音源。第一音频流来自于音频获取设备,是持续产生的音频信号,因此第一音频流也可以被持续获取,第一音频流的音色为当前中之人的音色。目标音频输入源可以通过转换配置信息指示,转换配置信息用于指示音色转换过程中的参数配置。
55.在需要配音的视频为直播视频时,目标音频输入源可以属于直播调音台,也就是说,可以从直播调音台的目标音频输入源获取具有当前中之人的音色的第一音频流,直播调音台可以连接麦克风等音频获取设备,从而通过音频获取设备在第一时间区间内对当前中之人进行音频采集得到第一音频流,第一时间区间为第一音频流所存在的时间区间,该第一时间区间根据音频获取的起始时刻和终止时刻确定,第一时间区间可以为整个直播时间段,也可以为整个时间段内的部分时间段。
56.在直播视频中的角色的动作需要实体对象的动作驱动时,直播调音台还可以连接摄像头和动作捕捉器等动作获取设备,通过动作获取设备在第一时间区间内对当前中之人进行动作采集得到动捕数据,即可以由同一中之人发出声音和做出动作。
57.参考图3所示,为本技术实施例提供的一种直播系统的结构示意图,直播系统包括音频获取设备30、动作获取设备40、直播调音台20以及直播接收终端50,其中音频获取设备30可以对当前中之人进行音频采集得到第一音频流,第一音频流经过目标音频输入源向音色转换设备提供,动作获取设备40对当前中之人进行动作采集得到动捕数据,动捕数据用
于生成第一音频流对应的虚拟人直播画面,音色转换得到的第二音频流和虚拟人直播画面结合得到直播视频,直播视频被提供给直播接收终端50。
58.生成的虚拟人直播画面可以作为第一音频流对应的虚拟人直播画面,由于二者在同一时间段产生,因此动作和声音是同步的。虚拟人直播画面中的虚拟人的动作可以根据动捕数据中当前中之人的骨骼移动数据确定,使虚拟人可以和当前中之人具有相同的动作顺序,即二者在相同播放时间做出相同的动作。
59.转换配置信息可以通过配置界面100进行配置,配置界面100可以具有音频输入源选择控件1001,音频输入源选择控件1001可以包括多个音频输入源对应的多个子控件,对子控件的选择可以实现对音频输入源的选择,并将选择的音频输入源作为目标音频输入源。具体的,还可以显示各个音频输入源的输入源标识,通过多个子控件和音频输入源的输入源标识的相对位置,指示多个子控件和音频输入源的对应关系,参考图4所示,为本技术实施例提供的一种配置界面的示意图,该配置界面100中,音频输入源选择控件1001中包括两个子控件,两个子控件分别对应输入源1和输入源2,其中输入源2被选定,作为目标音频输入源。
60.s102,根据第一音频流的播放时间信息,对第一音频流进行分片得到第一音频片段,并根据目标音色转换模型对第一音频片段进行音色转换得到第二音频片段。
61.s103,在得到多个第二音频片段后,基于多个第二音频片段对应的播放时间信息,将多个第二音频片段拼接为连续的第二音频流。
62.本技术实施例中,可以根据第一音频流的播放时间信息对第一音频流进行分片得到第一音频片段,并对第一音频片段进行音色转换得到第二音频片段,第二音频片段具有目标中之人的音色,目标中之人的音色为需要的音色,例如可以为喜爱的真人明星的声音或身边人的声音等,在得到多个第二音频片段后,可以基于多个第二音频片段对应的播放时间信息,将多个第二音频片段拼接为连续的第二音频流,这样可以通过对各个第一音频片段的音色转换,实现第一音频流向第二音频流的转换,由于对音频片段的音色转换无需等待第一音频流接收完毕即可进行,因此可以实现音频流的实时音色转换。
63.具体的,第一音频流中可以被分为多个第一音频片段,则可以根据第一音频流的播放时间信息,将第一音频流的前预设时间段的音频片段作为第1个第一音频片段,根据目标音色转换模型对第1个第一音频片段进行音色转换得到第1个第二音频片段,将第1个第一音频片段之外的第一音频流的音频片段作为第1个剩余音频片段,之后可以根据第1个剩余音频片段的播放时间信息,进行n-1次片段截取操作和n-1次音色转换操作,从而得到n-1个第二音频片段。其中,在进行第i次的片段截取操作过程中,将第i-1个剩余音频片段中的前预设时间段的音频片段作为第i个第一音频片段,在进行第i次的音色转换操作过程中,根据目标音色转换模型对第i个第一音频片段进行音色转换得到第i个第二音频片段,i为大于1且小于或等于n的整数。这样通过一次片段截取操作可以得到一个第一音频片段,通过一次音色转换操作可以将一个第一音频片段转换为一个第二音频片段,实现了第一音频流中各个分段的音色转换。
64.预设时间段的时长可以根据实际情况确定,预设时间段的时长即为第一音频片段的播放时长,第一音频片段的播放时长越长,片段截取次数越少,利于节省时间,第一音频片段的播放时长越短,音色转换的实时性越好。举例来说,预设时间段的时长可以为160ms。
65.在进行多次片段截取得到多个第一音频片段后,由于片段截取和音色转换可能存在所需时间的差异,因此可以对第一音频片段进行缓存,具体的,可以根据第1个剩余音频片段的播放时间,持续进行n-1次片段截取得到n-1个第一音频片段,并对n-1个第一音频片段进行缓存,在n-1次片段截取的过程中,按照第n-1个第一音频片段的播放时间信息,以预设时间间隔依次对缓存的n-1个第一音频片段进行音色转换得到n-1个第二音频片段。也就是说,通过对第一音频片段的缓存,使片段截取和音色转换可以并行进行,这样无需相互等待,节省处理时间。
66.对第一音频片段进行音色转换可以通过目标音色转换模型实现,具体的,可以通过目标音色转换模型对第一音频片段进行音色转换得到第二音频片段,目标音色转换模型利用具有目标中之人的声音语料训练得到。由于目标音色转换模型基于目标中之人的声音语料训练得到,因此具备将任意音色转换为目标中之人的音色的能力,对当前中之人的绑定程度低,因此实现音色的指向性转换,且音色转换自然流畅处理痕迹少,音色转换质量高,实用性好。其中,目标中之人的声音语料,可以包括具有目标中之人的说话音色、语气、声音变化特征、情绪起伏音色等信息,使目标音色转换模型具有根据第一音频片段中的文字内容和目标中之人的音色对第一音频片段进行音色转换的能力。
67.目标音色转换模型可以保留第一音频片段中的声音变化特征,也可以根据文字内容对其声音变化特征进行调整。具体的,可以根据声音语料中的目标语句,调整第一音频片段中的目标语句对应的语音片段,例如将该语音片段调整为声音语料中对应的语音片段,这样可以将目标语句的语气调整为具有目标音色的实体对象的语气,使音色转换更为逼真;具体的,可以根据语料库中的目标语句,调整第一音频片段中的目标语句对应的语音片段,例如将该语音片段的声音变化特征调整为语料库中的目标语句的声音变化特征,而该语音片段的音色为目标音色,这样可以使目标语句具有与语句所包含的内容相符的语气。
68.目标音色转换模型可以通过转换配置信息指示,转换配置信息通过配置界面确定,参考图4所示,配置界面100可以具有转换模型选择控件1002,转换模型选择控件1002可以包括多个音色转换模型对应的子控件,对子控件的选择可以实现对音色转换模型的选择,从而将选择的音色转换模型作为目标音色转换模型。具体的,还可以显示各个音色转换模型的模型标识,通过多个子控件和模型标识的相对位置,指示多个子控件和音色转换模型的对应关系,模型标识可以为模型编号,也可以为音色转换模型对应的音色标识,例如模型标识为音色1对应的音色转换模型、音色2对应的音色转换模型和音色3对应的音色转换模型,其中音色1对应的音色转换模型被选中,作为目标音色转换模型。
69.目标音色转换模型可以被配置于本地,则通过目标音色转换模型,对第一音频片段进行音色转换得到第二音频片段,可以具体为,将第一音频片段输入配置在本地的目标音色转换模型,并获取到目标音色转换模型输出的第二音频片段,也就是说,可以将音色转换功能集成在终端设备中,该音色转换功能以离线软件的形式存在,以利用终端设备进行音色转换;目标音色转换模型也可以被配置于服务器中,则对第一音频片段进行音色转换得到第二音频片段,可以具体为,向配置有目标音色转换模型的服务器发送用于指示目标音色转换模型的转换请求,并向服务器发送第一音频片段,从服务器获取由第一音频片段进行音色转换得到的第二音频片段,也就是说,可以通过服务器为终端设备的音色转换提供支持,实现在线实时音色转换。其中,用于指示目标音色转换模型的转换请求可以在初始
化时发送,后续对音色转换模型的选择均以该初始化时的转换请求进行,具体的,转换请求中可以包括目标音色转换模型的模型标识。
70.若目标音色转换模型配置在服务器中时,服务器还具有接收第一音频片段和发送第二音频片段的能力,终端设备和服务器可以建立长链接,从而使终端设备和服务器持续保持通信,长链接例如可以为websocket链接,终端设备可以通过长链接向服务器发送第一音频片段,并通过长链接从服务器获取第二音频片段。在通过目标音色转换模型,对第一音频片段进行音色转换得到第二音频片段之前,还可以将第一音频片段的格式转换为目标音色转换模型对应的格式,确保输入到目标音色转换模型的第一音频片段为可识别的格式,使音色转换过程顺利进行。
71.在得到多个第二音频片段后,可以基于多个第二音频片段对应的播放时间信息,将多个第二音频片段拼接为连续的第二音频流,由于第二音频片段具有目标中之人的音色,则第二音频流也具有目标中之人的音色,实现了第一音频流向第二音频流的转换。
72.具体的,在将多个第二音频片段拼接为连续的第二音频流之前,还可以进行第二音频片段的缓存,则获取到多个第二音频片段中的目标音频片段时,若根据目标音频片段对应的播放时间信息,确定播放时间先于目标音频片段的第二音频片段未全部获取到,则对目标音频片段进行缓存,若根据目标音频片段对应的播放时间信息,确定播放时间先于目标音频片段的第二音频片段均已获取到,则将目标音频片段和播放时间先于目标音频片段的第二音频片段进行拼接得到连续的第二音频流。其中,播放时间先于目标音频片段的第二音频片段可以有至少部分被存储在缓存中,也可以全部被拼接为较小时间长度的第二音频流,这样根据播放时间信息进行第二音频流的顺次拼接,使第二音频流和第一音频流的播放时间顺序保持一致。
73.本技术实施例中,还可以根据多个第二音频片段中的目标音频片段的语音信息对应的文字信息,确定文字信息对应的特效音,并为目标音频片段增加包括特效音的附加音轨,使第二音频片段具有更多信息。
74.s104,输出第二音频流,以便利用第二音频流和第一音频流对应的虚拟人直播画面进行视频直播。
75.本技术实施例中,将第一音频流转换为第二音频流,实现了音频流的音色转换,之后,可以输出第二音频流,从而可以利用第二音频流和第一音频流对应的虚拟人直播画面进行视频直播,这样实现了第一音频流的自动获取,以及第二音频流的自动输出,第二音频流可以作为虚拟人直播视频中的虚拟人的配音,因此实现了直播视频中的虚拟人的实时音色转换,使该角色具有目标中之人的音色,使视频分享更加多样化。第二音频流可以向目标音频输出源输出,目标音频输出源可以属于直播调音台,即可以向直播调音台的目标音频输出源输出第二音频流,这样可以自动从直播调音台获取第一音频流,而后向直播调音台提供第二音频流。
76.其中,第二音频流为持续产生的音频信号,因此第二音频流的输出可以为持续发生的,目标音频输出源为第二音频流的使用方,也作为视频直播的音源,可以为一个,也可以为多个,实现第二音频流使用的多样化。目标音频输出源可以通过转换配置信息指示,转换配置信息可以通过配置界面进行配置,参考图4所示,配置界面100可以具有音频输出源选择控件1003,音频输出源选择控件1003可以包括多个音频输出源对应的多个子控件,对
子控件的选择可以实现对音频输出源的选择,并将选择的音频输出源作为目标音频输出源。具体的,还可以显示各个音频输出源的输出源标识,通过多个子控件和音频输出源的输出源标识的相对位置,指示多个子控件和音频输出源的对应关系,从图中可以看出,音频输出源包括输出源1、输出源2和输出源3,其中输出源2和输出源3被选中,作为目标音频输出源。
77.虚拟人直播画面可以根据当前中之人的动捕数据渲染得到,具体的,直播调音台中可以运行有主播端虚幻引擎(unreal engine,ue),也可以运行其他渲染引擎,用于根据当前中之人的动捕数据渲染得到虚拟人直播画面。动捕数据包括当前中之人的外形特征点位置和外形特征点位置的时序变化,外形特征点例如为人体骨骼关键点,则通过将虚拟人的人体骨骼关键点与当前中之人的人体骨骼关键点同步,可以将当前中之人和虚拟人的人体骨骼关键点进行连接联动,使根据动捕数据确定的虚拟人直播画面中虚拟人和当前中之人具有相同动作顺序,当前中之人可以通过动作驱动虚拟人的动作,例如当前中之人抬手时,虚拟人也抬手,当前中之人跳舞时,虚拟人也跟随跳舞。
78.虚拟人直播画面中可以具有当前中之人的实际背景,也可以具有虚拟背景。在虚拟人直播画面具有实际背景时,可以采集实际背景视频,根据当前中之人在实际背景中的位置确定虚拟人在实际背景视频中的位置,并利用虚拟现实、混合现实等技术,将虚拟人和实际背景视频融合得到虚拟人直播画面。在虚拟人直播画面具有虚拟背景时,可以将虚拟人设置在虚拟背景中的预设位置,或根据当前中之人在实际背景中的位置确定虚拟人在虚拟背景中的位置,将虚拟人和虚拟背景进行渲染得到实时虚拟人直播画面,虚拟背景可以通过美术资产变化实现多样化。
79.作为一种示例,可以利用与直播调音台连接的麦克风对当前中之人进行音频收集得到第一视频流,终端设备可以从直播调音台的目标音频输入源获取第一视频流,由终端设备对第一视频流进行分片得到多个第一音频片段,多个第一音频片段被持续发送至配置有目标音色转换模型的服务器,由服务器对多个第一音频片段分别进行音色转换得到多个第二音频片段,多个第二音频片段具有目标中之人的音色,将多个第二音频片段按照播放时间顺序进行片接得到连续的第二音频流,向直播调音台的目标音频输出源输出第二音频流。此外,在进行音频采集的同时,可以利用与直播调音台连接的摄像头或动捕设备对当前中之人进行动作采集得到动捕数据,根据动捕数据渲染得到包括虚拟人的虚拟人直播画面,作为第一音频流对应的虚拟人直播画面。之后,第二音频流作为虚拟人直播画面的配音,与虚拟人直播画面同时输出可以进行视频直播,使虚拟人的动作收到当前中之人的动作驱动,虚拟人的声音内容为当前中之人的声音内容,虚拟人的音色为目标中之人的音色。
80.参考图5所示,为本技术实施例提供的一种虚拟人视频直播场景示意图,其中图a为包括当前中之人302和实际背景301的画面,当前中之人302做出向右侧行走的动作,图b为包括虚拟人402和虚拟背景401的虚拟人直播画面,虚拟人402的动作和当前中之人302的动作一致,虚拟背景401可以为预设背景,通过将虚拟人402设置在虚拟背景401的预设位置,将虚拟人402和虚拟背景401融合得到虚拟直播画面,当然虚拟人402在虚拟背景401中的位置与当前中之人302在实际背景301中的位置可以不同,通过虚拟人402和虚拟背景401的三维关联,可以设置虚拟人402和虚拟背景401的实时关联,例如虚拟人402可以通过动作控制虚拟背景401中的虚拟物品。
81.本技术实施例中,还可以在对第一音频流进行音色转换过程中进行转换配置信息的更新,具体的,响应于转换重配置指令,以展示配置界面,根据对配置界面中的配置控件的操作信息,可以确定更新配置信息,配置控件包括音频输入源选择控件、音频输出源选择控件、转换模型选择控件中的至少一个,之后可以更新配置信息更新转换配置信息,例如将转换配置信息指示的目标音频输入源调整为更新的目标音频输入源,将目标音频输出源调整为更新的目标音频输出源,将目标音色转换模型调整为更新的目标音色转换模型,这样,在用户通过配置界面更新转换配置信息后,可以实现直播过程中的音频来源的切换、目标中之人的音色的切换、音频输出的切换,以丰富直播形式,且可以使第二音频流适用于更多场景。
82.本技术实施例中,在向目标音频输出源持续输出第二音频流之前,还可以根据目标音频输出源,对第二音频流进行音轨分拆得到目标音频输出源对应的声道的音频流,将多个声道的音频流分别输出到对应的音频输出源,以使第二音频流能够更好的适用于直播调音台。第二音频流可以在第二音频流中包括的第二音频片段的数量大于或等于预设数量时进行持续输出,以使第二音频流能够不间断输出,提高直播视频的流畅度。
83.在第一音频流和第一音频流对应的动捕数据在同一时间区间内获取时,第一音频流和该动捕数据同步,由于第一音频流向第二音频流的转换需要消耗一定的时间,因此直播调音台可以在获取第二视频流后,根据预设时间延迟信息对虚拟人直播画面进行画面延迟,将经过画面延迟的虚拟人直播画面和第二音频流进行同步输出以进行视频直播,实现直播视频的音画同步。
84.其中,预设时间延迟信息根据第一音频流向第二音频流的转换时长确定,例如可以根据一个第一音频片段转换为一个第二音频片段所需时长确定,在第二音频流包括的第二音频片段的数量大于或等于预设数量时进行第二音频片段的输出时,预设时间延迟信息可以根据第一音频片段的播放时长和该预设数量确定,这是因为第一音频片段的播放时长和转换时长正相关,预设数量和转换时长正相关,第一音频片段的播放时长越长、预设数量越大,则预设时间延迟时长越长。
85.预设时间延迟信息可以根据配置界面中的时间延迟信息输入控件的操作信息确定,参考图4所示,时间延迟信息输入控件1004可以为延迟时长输入框,延迟时长可以为1000ms。配置界面100还可以包括开始转换控件1005,在开始转换控件1005被触发时,可以将时间延迟信息输入控件中的信息作为预设时间延迟信息。用户通过配置目标音频输入源、目标音频输出源、目标音色转换模型,可以实现第一音频流的自动获取、第二音频流向第二音频流的自动转换,以及第二音频流的自动输出,此外,通过配置预设时间延迟信息,有助于实现音画同步,从而使音色实时转换应用于视频直播。此外,配置界面100中还可以设置有测试声音控件1006,用于控制第一音频流或第二音频流的播放。
86.基于上述实施例提供的一种音色转换方法,本技术实施例还提供了一种音色转换装置,参见图6,图6为本技术实施例提供的一种音色转换装置的结构框图,该音色转换装置1300包括:
87.音频流获取单元1301,用于获取具有当前中之人的音色的第一音频流;
88.音色转换单元1302,用于根据所述第一音频流的播放时间信息,对所述第一音频流进行分片得到第一音频片段,并根据所述目标音色转换模型对所述第一音频片段进行音
色转换得到第二音频片段,所述第二音频片段具有目标中之人的音色,所述目标音色转换模型利用所述目标中之人的声音语料训练得到;
89.音频拼接单元1303,用于在得到多个第二音频片段后,基于所述多个第二音频片段对应的播放时间信息,将所述多个第二音频片段拼接为连续的第二音频流;
90.音频流输出单元1304,用于输出所述第二音频流,以便利用所述第二音频流和所述第一音频流对应的虚拟人直播画面进行视频直播,所述虚拟人直播画面根据所述当前中之人的动捕数据渲染得到。
91.可选的,所述音色转换单元1302,包括:
92.第1转换单元,用于根据所述第一音频流的播放时间信息,将所述第一音频流的前预设时间段的音频片段作为第1个第一音频片段,根据所述目标音色转换模型对所述第1个第一音频片段进行音色转换得到第1个第二音频片段,将所述第1个第一音频片段之外的第一音频流的音频片段作为第1个剩余音频片段;
93.第i转换单元,用于根据所述第1个剩余音频片段的播放时间信息,进行n-1次片段截取操作和n-1次音色转换操作,得到n-1个第二音频片段;在进行第i次的片段截取操作过程中,将第i-1剩余音频片段中的前预设时间段的音频片段作为第i个第一音频片段,在进行第i次的音色转换操作过程中,根据所述目标音色转换模型对所述第i个第一音频片段进行音色转换得到第i个第二音频片段,所述i为大于1且小于或等于n的整数。
94.可选的,所述第i转换单元,具体用于:
95.根据所述第1个剩余音频片段的播放时间,持续进行n-1次片段截取得到n-1个第一音频片段,并对所述n-1个第一音频片段进行缓存,在所述n-1次片段截取的过程中,按照所述第n-1个第一音频片段的播放时间信息,以预设时间间隔依次对缓存的所述n-1个第一音频片段进行音色转换得到n-1个第二音频片段。
96.可选的,所述音频拼接单元1303,具体用于:
97.获取到所述多个第二音频片段中的目标音频片段时,若根据所述目标音频片段对应的播放时间信息,确定播放时间先于所述目标音频片段的第二音频片段未全部获取到,则对所述目标音频片段进行缓存,若根据所述目标音频片段对应的播放时间信息,确定播放时间先于所述目标音频片段的第二音频片段均已获取到,则将所述目标音频片段和所述播放时间先于所述目标音频片段的第二音频片段进行拼接得到连续的第二音频流。
98.可选的,所述音色转换单元1302,包括:
99.分片单元,用于根据所述第一音频流的播放时间信息,对所述第一音频流进行分片得到第一音频片段;
100.转换单元,用于向服务器发送指示所述目标音色转换模型的转换请求,并向服务器发送所述第一音频片段,所述服务器配置有所述目标音色转换模型,从所述服务器获取由所述第一音频片段进行音色转换得到的第二音频片段;或,将所述第一音频片段输入所述目标音色转换模型,并获取到所述目标音色转换模型输出的第二音频片段。
101.可选的,音频流获取单元1301具体用于:从直播调音台的目标音频输入源获取具有当前中之人的音色的第一音频流;
102.所述音频流输出单元1304具体用于:向所述直播调音台的目标音频输出源输出所述第二音频流;
103.所述直播调音台用于:通过音频获取设备在第一时间区间内对所述当前中之人进行音频采集得到所述第一音频流,以及通过动作获取设备在所述第一时间区间内对所述当前中之人进行动作采集得到所述动捕数据;在获取到所述第二视频流后,根据预设时间延迟信息对所述虚拟人直播画面进行画面延迟,将经过画面延迟后的虚拟人直播画面和所述第二音频流进行同步输出以进行视频直播。
104.可选的,所述音频流输出单元1304,具体用于:
105.若所述第二音频流中包括第二音频片段的数量大于或等于预设数量,则向所述直播调音台的目标音频输出所述第二音频流;
106.所述装置还包括:
107.延迟时间确定单元,用于根据所述第一音频片段的播放时长和所述预设数量确定所述预设时间延迟信息。
108.可选的,所述装置还包括:
109.延迟信息确定单元,用于根据对配置界面中的时间延迟信息输入控件的操作信息,确定所述预设时间延迟信息。
110.可选的,所述装置还包括:
111.音轨分拆单元,用于在所述向所述目标音频输出源持续输出所述第二音频流之前,根据所述目标音频输出源,对所述第二音频流进行音轨分拆得到所述目标音频输出源对应的声道的音频流。
112.可选的,所述目标音频输入源、所述目标音频输出源和所述目标音色转换模型通过转换配置信息标识,所述装置还包括:
113.展示单元,用于响应于转换重配置指令,展示配置界面;
114.更新配置信息获取单元,用于根据对所述配置界面中的配置控件的操作信息,确定更新配置信息,所述配置控件包括音频输入源选择控件、音频输出源选择控件、转换模型选择控件中的至少一个;
115.更新单元,用于利用所述更新配置信息更新所述转换配置信息。
116.可选的,所述装置还包括:
117.格式转换单元,用于在所述通过所述目标音色转换模型,对所述第一音频片段进行音色转换得到第二音频片段之前,将所述第一音频片段的格式转换为所述目标音色转换模型对应的格式。
118.由此可见,可以获取具有当前中之人的音色的第一音频流,之后可以根据第一音频流的播放时间信息,对第一音频流进行分片得到第一音频片段,并根据目标音色转换模型对第一音频片段进行音色转换得到第二音频片段,第二音频片段具有目标中之人的音色,目标音色转换模型利用目标中之人的声音语料训练得到,因此可以使音色转换更加自然逼真,且其可以将其他中之人的音色转换为目标中之人的音色,受当前中之人的影响较低,适用于更多中之人向目标中之人的音色转换。在得到多个第二音频片段后,可以基于多个第二音频片段对应的播放时间信息,将多个第二音频片段拼接为连续的第二音频流,这样可以通过对各个第一音频片段的音色转换,实现第一音频流向第二音频流的转换,由于对音频片段的音色转换无需等待第一音频流接收完毕即可进行,因此可以实现音频流的实时音色转换,之后可以输出第二音频流,从而利用第二音频流和第一音频流对应的虚拟人
直播画面进行视频直播,其中虚拟人直播画面根据当前中之人的动捕数据渲染得到,这样目标中之人的动作可以驱动直播视频中的虚拟人的动作,第二音频流可以作为直播视频中的虚拟人的配音,因此实现了直播视频中的虚拟人的实时音色转换和实时动作驱动,使该角色具有目标音色和需要的动作,使视频分享更加多样化。
119.本技术实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,可以包括终端设备或服务器,前述的音色转换装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。
120.若该计算机设备为终端设备,请参见图7所示,本技术实施例提供了一种终端设备,以终端设备为手机为例:
121.图7示出的是与本技术实施例提供的终端设备相关的手机的部分结构的框图。参考图7,手机包括:射频(radio frequency,简称rf)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(简称wifi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图7中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
122.下面结合图7对手机的各个构成部件进行具体的介绍:
123.rf电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。
124.存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
125.输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入设备1432。
126.显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441。
127.手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。
128.音频电路1460、扬声器1461,传声器1462可提供用户与手机之间的音频接口。
129.wifi属于短距离无线传输技术,手机通过wifi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。
130.处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据。
131.手机还包括给各个部件供电的电源1490(比如电池)。
132.在本实施例中,该终端设备所包括的处理器1480还具有以下功能:
133.获取具有当前中之人的音色的第一音频流;
134.根据所述第一音频流的播放时间信息,对所述第一音频流进行分片得到第一音频片段,并根据所述目标音色转换模型对所述第一音频片段进行音色转换得到第二音频片段,所述第二音频片段具有目标中之人的音色,所述目标音色转换模型利用所述目标中之人的声音语料训练得到;
135.在得到多个第二音频片段后,基于所述多个第二音频片段对应的播放时间信息,将所述多个第二音频片段拼接为连续的第二音频流;
136.输出所述第二音频流,以便利用所述第二音频流和所述第一音频流对应的虚拟人直播画面进行视频直播,所述虚拟人直播画面根据所述当前中之人的动捕数据渲染得到。
137.若计算机设备为服务器,本技术实施例还提供一种服务器,请参见图8所示,图8为本技术实施例提供的服务器1500的结构图,服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1522,如中央处理器(central processing units,简称cpu),存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
138.服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如windows server
tm
,mac os x
tm
,unix
tm
,linux
tm
,freebsd
tm
等等。
139.上述实施例中由服务器所执行的步骤可以基于图8所示的服务器结构。
140.另外,本技术实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的方法。
141.本技术实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的方法。
142.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:rom)、ram、磁碟或者光盘等各种可以存储程序代码的介质。
143.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
144.以上所述,仅为本技术的一种具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,
都应涵盖在本技术的保护范围之内。而且本技术在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本技术的保护范围应该以权利要求的保护范围为准。

技术特征:
1.一种音色转换方法,其特征在于,所述方法包括:获取具有当前中之人的音色的第一音频流;根据所述第一音频流的播放时间信息,对所述第一音频流进行分片得到第一音频片段,并根据所述目标音色转换模型对所述第一音频片段进行音色转换得到第二音频片段,所述第二音频片段具有目标中之人的音色,所述目标音色转换模型利用所述目标中之人的声音语料训练得到;在得到多个第二音频片段后,基于所述多个第二音频片段对应的播放时间信息,将所述多个第二音频片段拼接为连续的第二音频流;输出所述第二音频流,以便利用所述第二音频流和所述第一音频流对应的虚拟人直播画面进行视频直播,所述虚拟人直播画面根据所述当前中之人的动捕数据渲染得到。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一音频流的播放时间信息,对所述第一音频流进行分片得到第一音频片段,并根据所述目标音色转换模型对所述第一音频片段进行音色转换得到第二音频片段,包括:根据所述第一音频流的播放时间信息,将所述第一音频流的前预设时间段的音频片段作为第1个第一音频片段,根据所述目标音色转换模型对所述第1个第一音频片段进行音色转换得到第1个第二音频片段,将所述第1个第一音频片段之外的第一音频流的音频片段作为第1个剩余音频片段;根据所述第1个剩余音频片段的播放时间信息,进行n-1次片段截取操作和n-1次音色转换操作,得到n-1个第二音频片段;在进行第i次的片段截取操作过程中,将第i-1个剩余音频片段中的前预设时间段的音频片段作为第i个第一音频片段,在进行第i次的音色转换操作过程中,根据所述目标音色转换模型对所述第i个第一音频片段进行音色转换得到第i个第二音频片段,所述i为大于1且小于或等于n的整数。3.根据权利要求2所述的方法,其特征在于,所述根据所述第一音频流的播放时间,进行n-1次片段截取操作和n-1次音色转换操作,得到n-1个第二音频片段,包括:根据所述第1个剩余音频片段的播放时间,持续进行n-1次片段截取得到n-1个第一音频片段,并对所述n-1个第一音频片段进行缓存,在所述n-1次片段截取的过程中,按照所述第n-1个第一音频片段的播放时间信息,以预设时间间隔依次对缓存的所述n-1个第一音频片段进行音色转换得到n-1个第二音频片段。4.根据权利要求2所述的方法,其特征在于,所述基于所述多个第二音频片段对应的播放时间信息,将所述多个第二音频片段拼接为连续的第二音频流,包括:获取到所述多个第二音频片段中的目标音频片段时,若根据所述目标音频片段对应的播放时间信息,确定播放时间先于所述目标音频片段的第二音频片段未全部获取到,则对所述目标音频片段进行缓存,若根据所述目标音频片段对应的播放时间信息,确定播放时间先于所述目标音频片段的第二音频片段均已获取到,则将所述目标音频片段和所述播放时间先于所述目标音频片段的第二音频片段进行拼接得到连续的第二音频流。5.根据权利要求1所述的方法,其特征在于,所述通过所述目标音色转换模型对所述第一音频片段进行音色转换得到第二音频片段,包括:向配置有所述目标音色转换模型的服务器发送用于指示所述目标音色转换模型的转换请求,并向所述服务器发送所述第一音频片段,从所述服务器获取由所述第一音频片段
进行音色转换得到的第二音频片段;或,将所述第一音频片段输入配置在本地的所述目标音色转换模型,并获取到所述目标音色转换模型输出的第二音频片段。6.根据权利要求1-5任一项所述的方法,其特征在于,所述获取具有当前中之人的音色的第一音频流,包括:从直播调音台的目标音频输入源获取具有当前中之人的音色的第一音频流;所述输出所述第二音频流,包括:向所述直播调音台的目标音频输出源输出所述第二音频流;所述直播调音台用于:通过音频获取设备在第一时间区间内对所述当前中之人进行音频采集得到所述第一音频流,以及通过动作获取设备在所述第一时间区间内对所述当前中之人进行动作采集得到所述动捕数据;在获取到所述第二视频流后,根据预设时间延迟信息对所述虚拟人直播画面进行画面延迟,将经过画面延迟后的虚拟人直播画面和所述第二音频流进行同步输出以进行视频直播。7.根据权利要求6所述的方法,其特征在于,所述向所述直播调音台的目标音频输出源输出所述第二音频流,包括:若所述第二音频流中包括第二音频片段的数量大于或等于预设数量,则向所述直播调音台的目标音频输出所述第二音频流;所述方法还包括:根据所述第一音频片段的播放时长和所述预设数量确定所述预设时间延迟信息。8.根据权利要求6所述的方法,其特征在于,所述方法还包括:根据对配置界面中的时间延迟信息输入控件的操作信息,确定所述预设时间延迟信息。9.根据权利要求6所述的方法,其特征在于,在所述向所述直播调音台的目标音频输出源持续输出所述第二音频流之前,所述方法还包括:根据所述直播调音台的目标音频输出源,对所述第二音频流进行音轨分拆得到所述目标音频输出源对应的声道的音频流。10.根据权利要求6所述的方法,其特征在于,所述目标音频输入源、所述目标音频输出源和所述目标音色转换模型通过转换配置信息标识,所述方法还包括:响应于转换重配置指令,展示配置界面;根据对所述配置界面中的配置控件的操作信息,确定更新配置信息,所述配置控件包括音频输入源选择控件、音频输出源选择控件、转换模型选择控件中的至少一个;利用所述更新配置信息更新所述转换配置信息。11.根据权利要求1-5任一项所述的方法,其特征在于,在所述通过所述目标音色转换模型对所述第一音频片段进行音色转换得到第二音频片段之前,所述方法包括:将所述第一音频片段的格式转换为所述目标音色转换模型对应的格式。12.一种音色转换装置,其特征在于,所述装置包括:音频流获取单元,用于获取具有当前中之人的音色的第一音频流;音色转换单元,用于根据所述第一音频流的播放时间信息,对所述第一音频流进行分片得到第一音频片段,并根据所述目标音色转换模型对所述第一音频片段进行音色转换得
到第二音频片段,所述第二音频片段具有目标中之人的音色,所述目标音色转换模型利用所述目标中之人的声音语料训练得到;音频拼接单元,用于在得到多个第二音频片段后,基于所述多个第二音频片段对应的播放时间信息,将所述多个第二音频片段拼接为连续的第二音频流;音频流输出单元,用于输出所述第二音频流,以便利用所述第二音频流和所述第一音频流对应的虚拟人直播画面进行视频直播,所述虚拟人直播画面根据所述当前中之人的动捕数据渲染得到。13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;所述处理器用于根据所述计算机程序中的指令执行权利要求1-11中任意一项所述的音色转换方法。14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-11中任意一项所述的音色转换方法。15.一种包括计算机程序的计算机程序产品,其特征在于,当其在计算机设备上运行时,使得所述计算机设备执行权利要求1-11中任意一项所述的音色转换方法。

技术总结
本申请公开了一种音色转换方法和相关装置,应用于云技术、人工智能、虚拟人、游戏、虚拟显示、扩展现实等场景。获取具有当前中之人的音色的第一音频流,对第一音频流进行分片得到第一音频片段,并根据目标音色转换模型对第一音频片段进行音色转换得到第二音频片段,第二音频片段具有目标中之人的音色,音色转换自然逼真,适用于任意中之人的指向性音色转换,在得到多个第二音频片段后,将多个第二音频片段拼接为连续的第二音频流,这样实现第一音频流向第二音频流的转换,之后输出第二音频流,从而利用第二音频流和第一音频流对应的虚拟人直播画面进行视频直播,实现了直播视频中的虚拟人的实时音色转换,使视频分享更加多样化。使视频分享更加多样化。使视频分享更加多样化。


技术研发人员:赵潇滨 段志毅 周鑫
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2022.10.28
技术公布日:2023/7/31
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐