基于语音内容控制网络直播助讲机器人动作的方法及系统

未命名 09-17 阅读：114 评论：0

1.本发明涉及语音控制技术领域，尤其涉及一种基于语音内容控制网络直播助讲机器人动作的方法及系统。

背景技术：

2.在以电商直播为主导的网络直播中，为了提升网络直播中的流量、用户观看时长、主播上播时长，普遍认为以主播和助播形成的双人直播形式是一种解决方案，能够带来更多的效益。相比于单人直播，起到辅助作用的助播通过在话术气口中穿插内容，提升语言输出的频次，增加用户的沉浸感，一定程度上缓解主播长时间语言输出的压力和疲劳感，有助于主播内容输出的持续。
3.然而，助播的情绪也会影响主播的情绪，在双人的网络直播中，助播主要起到一定的辅助作用，语言内容相对来讲较为简单固定，具体内容也无需具备明确的含义，主要推动主播进行持续的内容输出。此外，考虑到雇佣成本，在人力成本逐步提高的今天，聘用助播需要承担一定的资金压力。双人的网络直播还需要协调统一时间，沟通成本较高，不利于建立长期合作。结合网络直播场景中用户对于直播内容多样性的需求，长期固定人物也容易造成审美疲劳。因此可以选用机器人作为助播与主播进行互动，辅助完成直播。但是机器人助播难以根据讲话内容做出对应的嘴部张合动作，使得观感体验不佳，不能起到吸引观众的效果。

技术实现要素：

4.本发明提供一种基于语音内容控制网络直播助讲机器人动作的方法及系统，用以解决现有网络直播机器人与主播配合度差、观感体验不佳的问题。
5.本发明提供一种基于语音内容控制网络直播助讲机器人动作的方法，包括：
6.获取语音内容，根据所述语音内容进行音频分析，获取音频数据，所述音频数据包括声音的振幅、频率和相位信息；
7.将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；
8.所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。
9.根据本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法，所述获取语音内容，根据所述语音内容进行音频分析，获取音频数据，具体包括：
10.从语料库中获取语音内容，对语音内容进行拆分；
11.所述语音内容拆分包括声音的振幅、频率和相位信息；
12.所述振幅为声音的大小和强度，用音量大小表示，所述频率为声音的频率，用赫兹表示，所述相位为声音开始的时刻，用时间表示。
13.根据本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法，将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振
幅、频率和相位信息转换为机器人的舵机控制信号，具体包括：
14.所述音频转换模型根据声音的振幅匹配舵机动作的幅度；
15.所述音频转换模型根据声音的频率匹配舵机动作的频次；
16.所述音频转换模型根据声音的相位匹配舵机动作的开始时刻。
17.根据本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法，所述音频转换模型根据音频的音波数据进行等距采样、降噪处理，生成可视化的折线图；
18.在所述折线图中的转折点即为机器人嘴部张合的定位点，每段折线的端点对应机器人张合的起始点；
19.当折线图呈上升趋势时，机器人嘴部进行张开动作；当折线图呈下降趋势时，机器人嘴部进行闭合动作。
20.根据本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法，所述语音内容对应的语料库中包含多条语音内容，
21.提前通过音频转换模型将每条语音内容匹配对应的舵机控制信号；
22.在接收到语音内容后直接反馈对应的舵机控制信号。
23.根据本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法，所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作，具体包括：
24.根据所述舵机控制信号的控制信息，舵机控制器生成动作指令；
25.舵机根据动作指令，与语音信息同步进行不同幅度和频率的动作。
26.本发明还提供一种基于语音内容控制网络直播助讲机器人动作的系统，所述系统包括：
27.音频分析模块，用于获取语音内容，根据所述语音内容进行音频分析，获取音频数据，所述音频数据包括声音的振幅、频率和相位信息；
28.转换模块，用于将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；
29.控制模块，用于所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于语音内容控制网络直播助讲机器人动作的方法。
30.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于语音内容控制网络直播助讲机器人动作的方法。
31.本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于语音内容控制网络直播助讲机器人动作的方法。
32.本发明提供的基于语音内容控制网络直播助讲机器人动作的方法及系统，通过获取语音内容并进行解析，输入至音频转换模型，生成舵机的控制信号，根据声音的幅度、频率和相位信息能够准确控制机器的动作，提升网络直播机器人与主播配合度，使观众具有良好的观感体验，提升对观众的吸引力。
附图说明
33.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
34.图1是本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法的流程示意图之一；
35.图2是本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法的流程示意图之二；
36.图3是本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法的流程示意图之三；
37.图4是本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法的流程示意图之四；
38.图5是本发明提供的一种基于语音内容控制网络直播助讲机器人动作的方法的流程示意图之五；
39.图6是本发明提供的一种基于语音内容控制网络直播助讲机器人动作的系统的模块连接示意图；
40.图7是本发明提供的部分音频波形数据图及采样后的数据走向图；
41.图8是本发明提供的电子设备的结构示意图。
42.附图标记：
43.110：音频分析模块；120：转换模块；130：控制模块；
44.810：处理器；820：通信接口；830：存储器；840：通信总线。
具体实施方式
45.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
46.下面结合图1-图5描述本发明的一种基于语音内容控制网络直播助讲机器人动作的方法，包括：
47.s100、获取语音内容，根据所述语音内容进行音频分析，获取音频数据，所述音频数据包括声音的振幅、频率和相位信息；
48.s200、将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；
49.s300、所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。
50.在本发明中，网络直播助讲机器人采用手偶形状的机器人，在手偶的相关表演中，语音与嘴部开合需满足以下三个条件，即可基本判定为表现自然，不会影响人们的观赏体验:1、嘴部进行张合运动的起始点需与语音播放的起始点基本保持一致。2、语音发出音节
的频率和嘴部开合运动的变化节奏基本保持一致。3、语音结束后嘴部回归闭合状态。通过舵机控制机器人的嘴部张合动作，使机器人在讲话的同时，嘴部张合与讲话状态相匹配，能够取得较好的观感。
51.获取语音内容，根据所述语音内容进行音频分析，获取音频数据，具体包括：
52.s101、从语料库中获取语音内容，对语音内容进行拆分；
53.s102、所述语音内容拆分包括声音的振幅、频率和相位信息；
54.s103、所述振幅为声音的大小和强度，用音量大小表示，所述频率为声音的频率，用赫兹表示，所述相位为声音开始的时刻，用时间表示。
55.本发明中，对于音频的音波数据进行了深入的探索。音频的音波数据包含了声音的振幅、频率和相位等信息。具体而言，振幅是指声音的响度，即声音的大小和强度，用音量大小表示；频率是指声音的音调高低，即声音的频率，用赫兹(hz)表示；相位是指声音的起始时间点，即声音开始的时刻，用时间表示。
56.在观察研究语音的波形图后，在语音波形中，除去细微的波动噪声外，整体波形的每个波峰时刻基本与语句中每一个字的出现时刻保持一致，因此，波峰即机器人嘴部开合的对应时机。此外，声音强度越大时，其波峰值越大，将其对应为机器人嘴部开合的大小。在音频处理过程中，由于波形数值整体波动密集、噪声紧凑，并且舵机的处理并不连续，为达到降噪与简化的目标，采用了等距采样的方式，将波形的趋势走向通过数值及时间的形式记录下来，采样的位置基本与整体的变化趋势吻合，取四段语料为例，其整体的走向与音频音波数据的走向基本保持一致，如图7所示。在实际处理的过程中，需要根据说话的速度适当调整采样的频率。
57.将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号，具体包括：
58.s201、所述音频转换模型根据声音的振幅匹配舵机动作的幅度；
59.s202、所述音频转换模型根据声音的频率匹配舵机动作的频次；
60.s203、所述音频转换模型根据声音的相位匹配舵机动作的开始时刻。
61.本发明中本将等距采样的数据进行可视化处理，形成折线图，该折线图中的转折点即为机器人嘴部张合的定位点，每段折线的端点对应机器人张合的起始点。当折线图呈上升趋势时，等价于机器人嘴部的张开动作；当折线图呈下降趋势时，等价于机器人嘴部的闭合动作。在这一设定下，经实验验证，实际效果基本满足手偶表演的嘴部开合变化，使得机器人整体的表现较为自然，与语音播放的匹配程度较高。
62.所述音频转换模型：
63.s301、根据音频的音波数据进行等距采样、降噪处理，生成可视化的折线图；
64.s302、在所述折线图中的转折点即为机器人嘴部张合的定位点，每段折线的端点对应机器人张合的起始点；
65.s303、当折线图呈上升趋势时，机器人嘴部进行张开动作；当折线图呈下降趋势时，机器人嘴部进行闭合动作。
66.通过音频转换模型的不断训练迭代优化，能够使得音频转换模型与舵机控制信息匹配的准确性快速提升，根据语音信息能够准确生成舵机的控制信号。所述语音内容对应的语料库中包含多条语音内容，提前通过音频转换模型将每条语音内容匹配对应的舵机控
制信号；在接收到语音内容后直接反馈对应的舵机控制信号。
67.舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作，具体包括：
68.s401、根据所述舵机控制信号的控制信息，舵机控制器生成动作指令；
69.s402、舵机根据动作指令，与语音信息同步进行不同幅度和频率的动作。
70.本发明中使用音波进行等距采样来估计嘴部张合大小，结合其他的方法能够更准确的估计。手偶形状的机器人这种表现形式本身与人的讲话状态就存在一定的区别，因此本发明的方法主要用于基本满足机器人嘴部张合较为自然的需求，也具备一定的普适性，因此在本发明中，该方案可行性较强、适配度较高。
71.在具体实施过程中，根据主播说话内容形成回复的语音内容后，助播机器人在发出声音的同时，能够根据说话的语气、声音大小、快慢程度同步进行嘴部张合。实现说话开始，机器人嘴部即张开，声音越大，则嘴部张合幅度越大；说话越快，机器人嘴部张合的频次也对应提升；说话结束时，机器人嘴部闭合。
72.参考图6，本发明还公开了一种基于语音内容控制网络直播助讲机器人动作的系统，所述系统包括：
73.音频分析模块110，用于获取语音内容，根据所述语音内容进行音频分析，获取音频数据，所述音频数据包括声音的振幅、频率和相位信息；
74.转换模块120，用于将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；
75.控制模块130，用于所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。
76.其中，音频分析模块110，从语料库中获取语音内容，对语音内容进行拆分；
77.所述语音内容拆分包括声音的振幅、频率和相位信息；
78.所述振幅为声音的大小和强度，用音量大小表示，所述频率为声音的频率，用赫兹表示，所述相位为声音开始的时刻，用时间表示。
79.转换模块120，通过所述音频转换模型根据声音的振幅匹配舵机动作的幅度；
80.所述音频转换模型根据声音的频率匹配舵机动作的频次；
81.所述音频转换模型根据声音的相位匹配舵机动作的开始时刻
82.控制模块130，根据所述舵机控制信号的控制信息，舵机控制器生成动作指令；
83.舵机根据动作指令，与语音信息同步进行不同幅度和频率的动作。
84.通过本发明提供的基于语音内容控制网络直播助讲机器人动作的系统，通过获取语音内容并进行解析，输入至音频转换模型，生成舵机的控制信号，根据声音的幅度、频率和相位信息能够准确控制机器的动作，提升网络直播机器人与主播配合度，使观众具有良好的观感体验，提升对观众的吸引力。
85.图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行一种基于语音内容控制网络直播助讲机器人动作的方法，该方法包括：获取语音内容，根据所述语音内容进行音频分析，获
取音频数据；
86.所述音频数据包括声音的振幅、频率和相位信息；
87.将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；
88.所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。
89.此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
90.另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的一种基于语音内容控制网络直播助讲机器人动作的方法，该方法包括：获取语音内容，根据所述语音内容进行音频分析，获取音频数据；
91.所述音频数据包括声音的振幅、频率和相位信息；
92.将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；
93.所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。
94.又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的一种基于语音内容控制网络直播助讲机器人动作的方法，该方法包括：获取语音内容，根据所述语音内容进行音频分析，获取音频数据；
95.所述音频数据包括声音的振幅、频率和相位信息；
96.将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；
97.所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。
98.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
99.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施
例或者实施例的某些部分所述的方法。
100.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：
1.一种基于语音内容控制网络直播助讲机器人动作的方法，其特征在于，包括：获取语音内容，根据所述语音内容进行音频分析，获取音频数据，所述音频数据包括声音的振幅、频率和相位信息；将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。2.根据权利要求1所述的基于语音内容控制网络直播助讲机器人动作的方法，其特征在于，所述获取语音内容，根据所述语音内容进行音频分析，获取音频数据，具体包括：从语料库中获取语音内容，对语音内容进行拆分；所述语音内容拆分包括声音的振幅、频率和相位信息；所述振幅为声音的大小和强度，用音量大小表示，所述频率为声音的频率，用赫兹表示，所述相位为声音开始的时刻，用时间表示。3.根据权利要求1所述的基于语音内容控制网络直播助讲机器人动作的方法，其特征在于，将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号，具体包括：所述音频转换模型根据声音的振幅匹配舵机动作的幅度；所述音频转换模型根据声音的频率匹配舵机动作的频次；所述音频转换模型根据声音的相位匹配舵机动作的开始时刻。4.根据权利要求1所述的基于语音内容控制网络直播助讲机器人动作的方法，其特征在于，所述音频转换模型根据音频的音波数据进行等距采样、降噪处理，生成可视化的折线图；在所述折线图中的转折点即为机器人嘴部张合的定位点，每段折线的端点对应机器人张合的起始点；当折线图呈上升趋势时，机器人嘴部进行张开动作；当折线图呈下降趋势时，机器人嘴部进行闭合动作。5.根据权利要求1所述的基于语音内容控制网络直播助讲机器人动作的方法，其特征在于，所述语音内容对应的语料库中包含多条语音内容；提前通过音频转换模型将每条语音内容匹配对应的舵机控制信号；在接收到语音内容后直接反馈对应的舵机控制信号。6.根据权利要求1所述的基于语音内容控制网络直播助讲机器人动作的方法，其特征在于，所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作，具体包括：根据所述舵机控制信号的控制信息，舵机控制器生成动作指令；舵机根据动作指令，与语音信息同步进行不同幅度和频率的动作。7.一种基于语音内容控制网络直播助讲机器人动作的系统，其特征在于，所述系统包括：音频分析模块，用于获取语音内容，根据所述语音内容进行音频分析，获取音频数据，所述音频数据包括声音的振幅、频率和相位信息；转换模块，用于将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模
型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；控制模块，用于所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述基于语音内容控制网络直播助讲机器人动作的方法。9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于语音内容控制网络直播助讲机器人动作的方法。10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于语音内容控制网络直播助讲机器人动作的方法。

技术总结
本发明提供一种基于语音内容控制网络直播助讲机器人动作的方法及系统，包括：获取语音内容，根据所述语音内容进行音频分析，获取音频数据；所述音频数据包括声音的振幅、频率和相位信息；将所述音频数据输入至预训练的音频转换模型，通过所述音频转换模型将音频数据的声音振幅、频率和相位信息转换为机器人的舵机控制信号；所述舵机控制信号传送至舵机控制器，通过所述舵机控制器控制机器人的动作。本发明解决了现有网络直播机器人与主播配合度差、观感体验不佳的问题。观感体验不佳的问题。观感体验不佳的问题。

技术研发人员：高明月米海鹏
受保护的技术使用者：清华大学
技术研发日：2023.05.18
技术公布日：2023/9/14

版权声明

本文仅代表作者观点，不代表航家之家立场。
本文系作者授权航家号发表，未经原创作者书面授权，任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时，须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的，航空之家将依法追究其法律责任。（航空之家官方QQ：2926969996）

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

上一篇：电表固件升级的方法及系统与流程 下一篇：实现移动终端可靠电子签章及验证处理的系统及其方法与流程

基于语音内容控制网络直播助讲机器人动作的方法及系统

版权声明

航空之家

相关推荐

文章排行

最近发表

标签列表

基于语音内容控制网络直播助讲机器人动作的方法及系统

版权声明

相关文章

航空之家

相关推荐

文章排行

最近发表

标签列表