虚拟形象的交互控制方法、装置、电子设备和存储介质与流程
未命名
09-08
阅读:96
评论:0

1.本技术涉及计算机技术领域,更具体地,涉及一种虚拟形象的交互控制方法、装置、电子设备和存储介质。
背景技术:
2.随着人工智能的不断发展,虚拟形象交互也开始应用在各个领域中,以实现智能化的人机交互。
3.现有技术中,虚拟形象只能通过识别到的语音关键词与用户进行一些简单直接的对话交流,交互效率低,用户体验感较差。
4.因此,如何进一步提高虚拟形象的交互效率,是目前有待解决的技术问题。
5.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现要素:
6.本技术实施例提出了一种虚拟形象的交互控制方法、装置、电子设备和存储介质,通过符合语音请求的虚拟形象与用户进行互动,用以进一步提高虚拟形象的交互效率。
7.第一方面,提供一种虚拟形象的交互控制方法,所述方法包括:获取用户的语音请求,根据所述语音请求生成目标虚拟形象;根据所述语音请求从预设应答数据库中获取应答语音数据;根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画。
8.第二方面,提供一种虚拟形象的交互控制装置,所述装置包括:生成模块,用于获取用户的语音请求,根据所述语音请求生成目标虚拟形象;获取模块,用于根据所述语音请求从预设应答数据库中获取应答语音数据;驱动模块,用于根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;同步模块,用于基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画。
9.第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的虚拟形象的交互控制方法。
10.第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的虚拟形象的交互控制方法。
11.通过应用以上技术方案,获取用户的语音请求,根据语音请求生成目标虚拟形象,根据语音请求从预设应答数据库中获取应答语音数据,根据应答语音数据的语义信息驱动目标虚拟形象,得到多个视频帧,基于应答语音数据中的时间戳同步应答语音数据和各视频帧,得到目标虚拟形象的交互动画,并展示交互动画,以此通过符合语音请求的虚拟形象
与用户进行互动,进一步提高了虚拟形象的交互效率,提升了用户体验。
附图说明
12.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
13.图1示出了本发明实施例提出的一种虚拟形象的交互控制方法的流程示意图;
14.图2示出了本发明另一实施例提出的一种虚拟形象的交互控制方法的流程示意图;
15.图3示出了本发明实施例中确定应答语音数据的语义信息的流程示意图;
16.图4示出了本发明实施例中获取应答语音数据的流程示意图;
17.图5示出了本发明实施例提出的一种虚拟形象的交互控制装置的结构示意图;
18.图6示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
19.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
20.需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由权利要求部分指出。
21.应当理解的是,本技术并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
22.本技术可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
23.本技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
24.本技术实施例提供一种虚拟形象的交互控制方法,如图1所示,该方法包括以下步骤:
25.步骤s101,获取用户的语音请求,根据所述语音请求生成目标虚拟形象。
26.可基于语音采集设备(如麦克风)获取用户的语音请求,语音请求可以是提出一个
问题,该问题的类型可以包括开放性和封闭性等,开放性的问题可能具备多种答案,封闭性的问题具备唯一答案,另外,与该问题对应的任务类型可以包括陪伴型和目的型等,陪伴型的任务指能够给用户带来陪伴式互动的问答方式,目的型的任务指能够帮助完成用户所要实现的目的的问答方式。获取用户的语音请求后,根据语音请求生成目标虚拟形象,即目标虚拟形象符合语音请求。
27.步骤s102,根据所述语音请求从预设应答数据库中获取应答语音数据。
28.预先建立包括多种预设应答语音的预设应答数据库,各预设应答语音均关联相应的交互请求,在获取语音请求后,根据语音请求从预设应答数据库获取应答语音数据。
29.在本技术一些实施例中,所述根据所述语音请求从预设应答数据库中获取应答语音数据,如图4所示,包括以下步骤:
30.步骤s41,基于预设语音识别模型将所述语音请求转换为目标文本。
31.通过将语音请求输入预设语音识别模型进行语音识别,将语音请求转换为目标文本。其中,预设语音识别模型可以为包括基于动态时间规整算法、基于非参数模型的矢量量化方法、基于参数模型的隐马尔可夫模型的方法、基于人工神经网络和基于支持向量机等模型中的任一种。
32.步骤s42,将所述目标文本与多个预设关键词进行匹配,确定所述目标文本中匹配成功的目标词。
33.各预设关键词与预设应答数据库中的各预设应答语音之间存在对应关系,将目标文本与多个预设关键词进行匹配,确定目标文本中匹配成功的目标词。
34.步骤s43,从所述预设应答数据库中确定与所述目标词匹配的应答语音。
35.根据匹配成功的目标词查询预设应答数据库,根据查询结果从预设应答数据库中确定与目标词匹配的应答语音。
36.步骤s44,所述目标词是否为一个,若是执行步骤s45,否则执行步骤s46。
37.匹配成功的目标词可以为一个或多个,当目标词为一个时执行步骤s45,当目标词为多个时执行步骤s46。
38.步骤s45,将所述应答语音作为所述应答语音数据。
39.目标词为一个时,相应的应答语音也为一个,将该应答语音作为应答语音数据。
40.步骤s46,根据各所述目标词在所述目标文本中的顺序将各所述应答语音进行组合,得到所述应答语音数据。
41.目标词为多个时,相应的应答语音为多个,需要将各应答语音按各目标词在目标文本中的顺序,进行组合,得到应答语音数据。例如,若目标文本为“麻烦查询一下我的账户余额还剩多少,另外如何进行充值”,此时目标文本中匹配成功的目标词为两个,分别为“查询余额”和“如何充值”。与“查询余额”对应的应答语音为“您的账户余额是****”,与“如何充值”对应的应答语音为“您可以通过***进行充值”,查询账户余额在先,如何充值在后,组合后得到的应答语音数据为“您的账户余额是****,您可以通过***进行充值”。
42.通过从预设应答数据库中获取应答语音数据,实现了更加高效的获取应答语音数据。
43.在本技术一些实施例中,在根据各所述目标词在所述目标文本中的顺序将各所述应答语音进行组合,得到所述应答语音数据之后,所述方法还包括:
44.根据所述顺序生成与各所述应答语音对应的衔接语音数据;
45.将各所述衔接语音数据按所述顺序插入所述应答语音数据。
46.本实施例中,衔接语音数据为在各个应答语音之间进行衔接而预设的语音数据。具体的,当直接将不同的应答语音进行组合时,组合后的应答语音数据在不同应答语音之间将不存在过渡,会使得回复的内容的连贯性较差,为了避免这种问题,根据各目标词在目标文本中的顺序生成与各应答语音对应的衔接语音数据,例如衔接语音数据可以是“第一”、“第二
”……“
首先”、“其次”、“然后”以及“最后”等过渡词。然后将各衔接语音数据按上述顺序插入应答语音数据,例如,若应答语音数据为“您的账户余额是****,您可以通过***进行充值”,插入各衔接语音数据后,应答语音数据变为“首先,您的账户余额是****,其次,您可以通过***进行充值”,从而提高了应答语音数据的连贯性,增强了用户与虚拟形象之间的互动感。
47.步骤s103,根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧。
48.获取应答语音数据后,通过对应答语音数据进行语义分析,得到应答语音数据的语义信息,根据语义信息驱动目标虚拟形象,使目标虚拟形象执行不同的动作,得到多个视频帧。
49.在本技术一些实施例中,在根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧之前,如图3所示,所述方法还包括以下步骤:
50.步骤s31,基于预设文本集合中的文本数量、所述预设文本集合中各个文本的长度、常数因子和所述文本集合中包含预设单词的文本的数量,计算所述各个文本的逆文档频率,其中,所述常数因子用于控制所述长度对所述各个文本的影响程度。
51.本实施例中,预先训练出语义分析模型,根据语义分析模型确定语音构建指令的语义信息。具体的,先基于预设文本集合中的文本数量、预设文本集合中各个文本的长度、常数因子和文本集合中包含预设单词的文本的数量,计算各个文本的逆文档频率,其中,常数因子用于控制文本的长度对各个文本的影响程度。
52.在具体的应用场景中,通过公式一确定逆文档频率,公式一具体为:
[0053][0054]
其中,idf(w)为逆文档频率,n表示预设文本集合中的文本数量,df(w)表示预设文本集合中包含预设单词w的文本的数量,len(d)是文本d的长度,k是常数因子。
[0055]
步骤s32,基于所述逆文档频率和所述预设单词在所述各个文本中的出现频率,从所述各个文本中提取特征向量。
[0056]
统计预设单词在各个文本中的出现频率,在获取逆文档频率后,根据逆文档频率和该出现频率,从各个文本中提取特征向量。
[0057]
在本技术具体的应用场景中,通过公式二确定特征向量,所述公式二具体为:
[0058]
tfidf(w)=tf(w)*idf(w);
[0059]
其中,tfidf(w)为特征向量,tf(w)为预设单词w在当前文本中的出现频率,idf(w)为逆文档频率。
[0060]
步骤s33,基于所述特征向量训练预设神经网络模型,得到语义分析模型。
[0061]
本实施例中,将特征向量输入预设神经网络模型,对预设神经网络模型进行训练,训练完成后,得到语义分析模型。
[0062]
在本技术一些实施例中,所述基于所述特征向量训练预设神经网络模型,得到语义分析模型,包括:
[0063]
将所述特征向量输入所述预设神经网络模型,训练所述预设神经网络模型,并生成用于表示应答文本中每个单词的词嵌入向量,其中,所述应答文本是与所述应答语音数据对应的文本,所述词嵌入向量包含所述每个单词的语义信息和所述每个单词在上下文中的含义;
[0064]
基于所述词嵌入向量和预设已标注的数据集调整所述预设神经网络模型的参数,直至满足预设训练完成条件时,得到所述语义分析模型。
[0065]
本实施例中,通过将特征向量输入预设神经网络模型,对预设神经网络模型进行训练,生成应答文本中每个单词的词嵌入向量,然后通过词嵌入向量和预设已标注的数据集调整预设神经网络模型的参数,使预设神经网络模型能够进行语义分析,训练完成后,得到语义分析模型,从而提高了语义分析模型的准确性。
[0066]
其中,可以采用以下方式来生成词嵌入向量:将每个单词转换为数值化的向量,并将每个单词映射到向量空间中的一个点,其中,向量空间中的每个维度表示该单词在不同语义和上下文环境下的语义特征;在向量空间中比较对应于各个单词的各个点之间的相似性,基于所述相似性对各个点进行聚类,以生成词嵌入向量。
[0067]
步骤s34,将所述应答语音数据输入所述语义分析模型,得到所述语义信息。
[0068]
将应答语音数据输入语义分析模型进行语义分析,得到语义信息,以此利用由多个文本的特征向量训练出的语义分析模型进行语义分析,从而进一步提高了语义信息的准确性。
[0069]
步骤s104,基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画。
[0070]
应答语音数据中的时间戳可由应答语音数据中各音频帧的时间戳确定,基于各时间戳将应答语音数据和各视频帧进行同步,得到目标虚拟形象的交互动画,该交互动画中应答语音数据和各视频帧同步播放,最后展示得到的交互动画,使用户感受到目标虚拟形象发出语音回复并做出与语音请求对应的互动动作。
[0071]
通过应用以上技术方案,获取用户的语音请求,根据语音请求生成目标虚拟形象,根据语音请求从预设应答数据库中获取应答语音数据,根据应答语音数据的语义信息驱动目标虚拟形象,得到多个视频帧,基于应答语音数据中的时间戳同步应答语音数据和各视频帧,得到目标虚拟形象的交互动画,并展示交互动画,以此通过符合语音请求的虚拟形象与用户进行互动,进一步提高了虚拟形象的交互效率,提升了用户体验。
[0072]
本技术实施例还提出了一种虚拟形象的交互控制方法,如图2所示,包括以下步骤:
[0073]
步骤s201,获取用户的语音请求,根据所述语音请求的音色特征确定所述用户的身份标识。
[0074]
可基于语音采集设备(如麦克风)获取用户的语音请求,语音请求可以是提出一个问题,该问题的类型可以包括开放性和封闭性等,开放性的问题可能具备多种答案,封闭性
的问题具备唯一答案,另外,与该问题对应的任务的类型可以包括陪伴型和目的型等,陪伴型的任务指能够给用户带来陪伴式互动的问答方式,目的型的任务指能够帮助完成用户所要实现的目的的问答方式。
[0075]
考虑到在音调、响度和音色这三个声音的基本特征属性中,音色是最能反映一个人身份信息的属性;和心情平和时相比,心情低落时说话,响度和音调会明显下降,心情好时说话,响度和音调会明显上升,但是音色是不会有明显的变化。获取语音请求后,提取语音请求的音色特征、音调特征和响度特征,根据音色特征确定用户的身份标识。其中,可以每间隔预设周期提取语音请求中的短时段语音以得到音色特征、音调特征和响度特征,预设周期可以为15-20毫秒。
[0076]
其中,具体可根据音色特征查询与预设声纹特征库,预设声纹特征库中包括与不同身份标识对应的音色特征,根据查询结果确定用户的身份标识。
[0077]
步骤s202,根据所述语音请求的音调特征和响度特征确定所述用户的心情标识。
[0078]
本实施例中,用户的心情标识可以包括平和、愉悦和低落等。可基于音调特征和响度特征直接确定心情标识,具体的,以心情平和时的基准音调特征范围和基准响度特征范围为基准,心情低落时说话,响度和音调会分别小于基准音调特征范围的最小值和基准响度特征范围的最小值,相比心情平和时说话,响度和音调会呈现明显下降的特点;心情愉悦时说话,响度和音调会分别大于基准音调特征范围的最大值和基准响度特征范围的最大值,相比心情平和时说话,响度和音调会呈现明显上升的特点。
[0079]
另外,还可以根据音调特征以及响度特征查询预设声纹特征库,预设声纹特征库中包括与不同心情标识对应的音调特征以及响度特征,根据查询结果确定用户的心情标识。
[0080]
步骤s203,根据所述身份标识和所述心情标识生成所述目标虚拟形象。
[0081]
按身份标识和心情标识对虚拟形象进行构建,生成目标虚拟形象,以此得到符合用户身份和心情的虚拟形象,提升了用户体验。
[0082]
在本技术一些实施例中,所述根据所述身份标识和所述心情标识生成所述目标虚拟形象,包括:
[0083]
根据所述身份标识确定所述用户的年龄和性别;
[0084]
根据所述心情标识确定心情特征参数;
[0085]
根据所述年龄、所述性别和所述心情特征参数生成渲染参数;
[0086]
基于所述渲染参数对预设初始虚拟形象进行渲染,得到所述目标虚拟形象。
[0087]
本实施例中,根据身份标识确定用户的年龄和性别,并根据心情标识确定心情特征参数,然后根据年龄、性别和心情特征参数生成渲染参数,最后基于渲染参数对预设初始虚拟形象进行渲染,得到目标虚拟形象。其中,渲染参数可以为包括外观渲染参数、妆容渲染参数、服饰渲染参数、声音渲染参数和人设渲染参数中的至少一种。由于目标虚拟形象符合用户的年龄、性别和心情,从而可使虚拟形象与用户更加高效的进行互动,提升了用户体验。
[0088]
步骤s204,根据所述语音请求从预设应答数据库中获取应答语音数据。
[0089]
预先建立包括多种预设应答语音的预设应答数据库,各预设应答语音均关联相应的交互请求,在获取语音请求后,根据语音请求从预设应答数据库获取应答语音数据。
[0090]
步骤s205,根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧。
[0091]
获取应答语音数据后,通过对应答语音数据进行语义分析,得到应答语音数据的语义信息,根据语义信息驱动目标虚拟形象,使目标虚拟形象执行不同的动作,得到多个视频帧。
[0092]
步骤s206,基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画。
[0093]
应答语音数据中的时间戳可由应答语音数据中各音频帧的时间戳确定,基于各时间戳将应答语音数据和各视频帧进行同步,得到目标虚拟形象的交互动画,该交互动画中应答语音数据和各视频帧同步播放,最后展示得到的交互动画,使用户感受到目标虚拟形象发出语音回复并做出与语音请求对应的互动动作。
[0094]
通过应用以上技术方案,获取用户的语音请求,根据语音请求的音色特征确定用户的身份标识,根据语音请求的音调特征和响度特征确定用户的心情标识,根据身份标识和心情标识生成目标虚拟形象。根据语音请求从预设应答数据库中获取应答语音数据,根据应答语音数据的语义信息驱动目标虚拟形象,得到多个视频帧,基于应答语音数据中的时间戳同步应答语音数据和各视频帧,得到目标虚拟形象的交互动画,并展示交互动画,以此通过符合用户身份和心情的虚拟形象与用户进行互动,进一步提高了虚拟形象的交互效率,提升了用户体验。
[0095]
本技术实施例还提出了一种虚拟形象的交互控制装置,如图5所示,所述装置包括:生成模块501,用于获取用户的语音请求,根据所述语音请求生成目标虚拟形象;获取模块502,用于根据所述语音请求从预设应答数据库中获取应答语音数据;驱动模块503,用于根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;同步模块504,用于基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画。
[0096]
在具体的应用场景中,生成模块501,具体用于:根据所述语音请求的音色特征确定所述用户的身份标识;根据所述语音请求的音调特征和响度特征确定所述用户的心情标识;根据所述身份标识和所述心情标识生成所述目标虚拟形象。
[0097]
在具体的应用场景中,生成模块501,还具体用于:根据所述身份标识确定所述用户的年龄和性别;根据所述心情标识确定心情特征参数;根据所述年龄、所述性别和所述心情特征参数生成渲染参数;基于所述渲染参数对预设初始虚拟形象进行渲染,得到所述目标虚拟形象。
[0098]
在具体的应用场景中,所述装置还包括语义模块,用于:基于预设文本集合中的文本数量、所述预设文本集合中各个文本的长度、常数因子和所述文本集合中包含预设单词的文本的数量,计算所述各个文本的逆文档频率,其中,所述常数因子用于控制所述长度对所述各个文本的影响程度;基于所述逆文档频率和所述预设单词在所述各个文本中的出现频率,从所述各个文本中提取特征向量;基于所述特征向量训练预设神经网络模型,得到语义分析模型;将所述应答语音数据输入所述语义分析模型,得到所述语义信息。
[0099]
在具体的应用场景中,所述语义模块具体用于:将所述特征向量输入所述预设神经网络模型,训练所述预设神经网络模型,并生成用于表示应答文本中每个单词的词嵌入
向量,其中,所述应答文本是与所述应答语音数据对应的文本,所述词嵌入向量包含所述每个单词的语义信息和所述每个单词在上下文中的含义;基于所述词嵌入向量和预设已标注的数据集调整所述预设神经网络模型的参数,直至满足预设训练完成条件时,得到所述语义分析模型。
[0100]
在具体的应用场景中,获取模块502,具体用于:基于预设语音识别模型将所述语音请求转换为目标文本;将所述目标文本与多个预设关键词进行匹配,确定所述目标文本中匹配成功的目标词;从所述预设应答数据库中确定与所述目标词匹配的应答语音;若所述目标词为一个,将所述应答语音作为所述应答语音数据;若所述目标词为多个,根据各所述目标词在所述目标文本中的顺序将各所述应答语音进行组合,得到所述应答语音数据。
[0101]
在具体的应用场景中,获取模块502,还用于:根据所述顺序生成与各所述应答语音对应的衔接语音数据;将各所述衔接语音数据按所述顺序插入所述应答语音数据。
[0102]
通过应用以上技术方案,虚拟形象的交互控制装置包括:生成模块,用于获取用户的语音请求,根据所述语音请求生成目标虚拟形象;获取模块,用于根据所述语音请求从预设应答数据库中获取应答语音数据;驱动模块,用于根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;同步模块,用于基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画,以此通过符合语音请求的虚拟形象与用户进行互动,进一步提高了虚拟形象的交互效率,提升了用户体验。
[0103]
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
[0104]
存储器603,用于存储处理器的可执行指令;
[0105]
处理器601,被配置为经由执行所述可执行指令来执行:
[0106]
获取用户的语音请求,根据所述语音请求生成目标虚拟形象;根据所述语音请求从预设应答数据库中获取应答语音数据;根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画。
[0107]
上述通信总线可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0108]
通信接口用于上述终端与其他设备之间的通信。
[0109]
存储器可以包括ram(random access memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0110]
上述的处理器可以是通用处理器,包括cpu(central processing unit,中央处理器)、np(network processor,网络处理器)等;还可以是dsp(digital signal processing,数字信号处理器)、asic(application specific integrated circuit,专用集成电路)、fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、分
立门或者晶体管逻辑器件、分立硬件组件。
[0111]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的虚拟形象的交互控制方法。
[0112]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的虚拟形象的交互控制方法。
[0113]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘)等。
[0114]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0115]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
[0116]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
技术特征:
1.一种虚拟形象的交互控制方法,其特征在于,所述方法包括:获取用户的语音请求,根据所述语音请求生成目标虚拟形象;根据所述语音请求从预设应答数据库中获取应答语音数据;根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画。2.如权利要求1所述的方法,其特征在于,所述根据所述语音请求生成目标虚拟形象,包括:根据所述语音请求的音色特征确定所述用户的身份标识;根据所述语音请求的音调特征和响度特征确定所述用户的心情标识;根据所述身份标识和所述心情标识生成所述目标虚拟形象。3.如权利要求2所述的方法,其特征在于,所述根据所述身份标识和所述心情标识生成所述目标虚拟形象,包括:根据所述身份标识确定所述用户的年龄和性别;根据所述心情标识确定心情特征参数;根据所述年龄、所述性别和所述心情特征参数生成渲染参数;基于所述渲染参数对预设初始虚拟形象进行渲染,得到所述目标虚拟形象。4.如权利要求1所述的方法,其特征在于,在根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧之前,所述方法还包括:基于预设文本集合中的文本数量、所述预设文本集合中各个文本的长度、常数因子和所述文本集合中包含预设单词的文本的数量,计算所述各个文本的逆文档频率,其中,所述常数因子用于控制所述长度对所述各个文本的影响程度;基于所述逆文档频率和所述预设单词在所述各个文本中的出现频率,从所述各个文本中提取特征向量;基于所述特征向量训练预设神经网络模型,得到语义分析模型;将所述应答语音数据输入所述语义分析模型,得到所述语义信息。5.如权利要求4所述的方法,其特征在于,所述基于所述特征向量训练预设神经网络模型,得到语义分析模型,包括:将所述特征向量输入所述预设神经网络模型,训练所述预设神经网络模型,并生成用于表示应答文本中每个单词的词嵌入向量,其中,所述应答文本是与所述应答语音数据对应的文本,所述词嵌入向量包含所述每个单词的语义信息和所述每个单词在上下文中的含义;基于所述词嵌入向量和预设已标注的数据集调整所述预设神经网络模型的参数,直至满足预设训练完成条件时,得到所述语义分析模型。6.如权利要求1所述的方法,其特征在于,所述根据所述语音请求从预设应答数据库中获取应答语音数据,包括:基于预设语音识别模型将所述语音请求转换为目标文本;将所述目标文本与多个预设关键词进行匹配,确定所述目标文本中匹配成功的目标词;
从所述预设应答数据库中确定与所述目标词匹配的应答语音;若所述目标词为一个,将所述应答语音作为所述应答语音数据;若所述目标词为多个,根据各所述目标词在所述目标文本中的顺序将各所述应答语音进行组合,得到所述应答语音数据。7.如权利要求6所述的方法,其特征在于,在根据各所述目标词在所述目标文本中的顺序将各所述应答语音进行组合,得到所述应答语音数据之后,所述方法还包括:根据所述顺序生成与各所述应答语音对应的衔接语音数据;将各所述衔接语音数据按所述顺序插入所述应答语音数据。8.一种虚拟形象的交互控制装置,其特征在于,所述装置包括:生成模块,用于获取用户的语音请求,根据所述语音请求生成目标虚拟形象;获取模块,用于根据所述语音请求从预设应答数据库中获取应答语音数据;驱动模块,用于根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;同步模块,用于基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画。9.一种电子设备,其特征在于,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的虚拟形象的交互控制方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的虚拟形象的交互控制方法。
技术总结
本发明公开了一种虚拟形象的交互控制方法、装置、电子设备和存储介质,该方法包括:获取用户的语音请求,根据所述语音请求生成目标虚拟形象;根据所述语音请求从预设应答数据库中获取应答语音数据;根据所述应答语音数据的语义信息驱动所述目标虚拟形象,得到多个视频帧;基于所述应答语音数据中的时间戳同步所述应答语音数据和各所述视频帧,得到所述目标虚拟形象的交互动画,并展示所述交互动画,以此通过符合语音请求的虚拟形象与用户进行互动,进一步提高了虚拟形象的交互效率,提升了用户体验。体验。体验。
技术研发人员:沈中熙 钱晓亮
受保护的技术使用者:厦门黑镜科技有限公司
技术研发日:2023.05.23
技术公布日:2023/9/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/