人机交互方法、装置、设备及存储介质与流程

未命名 09-17 阅读:69 评论:0


1.本技术涉及人工智能技术领域,更具体地说,涉及一种人机交互方法、装置、设备及存储介质。


背景技术:

2.随着人工智能技术的不断发展,对话系统越来越受到关注。目前,许多行业都开始将对话系统应用到客服、智能家居控制、教育等领域中,以提高工作效率和用户体验。
3.目前,为了提供更加流畅的交互体验,将具有记忆能力和强大的自然语言处理能力的自然语言处理模型引入对话系统成为研究热点。目前的对话系统是直接将用户输入的信息输入到自然语言处理模型,将自然语言处理模型得到的处理结果反馈给用户。但是自然语言处理模型学到的知识仅限于训练日期之前的知识,且本身存在不能实时更新、持续学习的能力,也不具备预测的能力,那么,当用户输入的信息涉及训练日期之后的信息或未来的信息时,对话系统无法给出正确反馈,因此,对话系统的人机交互性能仍有待提高。


技术实现要素:

4.有鉴于此,本技术提供了一种人机交互方法、装置、设备及存储介质,以提高人机交互性能。
5.为了实现上述目的,现提出的方案如下:一种人机交互方法,包括:获得输入的交互信息;基于所述交互信息确定目标检索源;通过所述目标检索源检索所述交互信息的关联信息;通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息;输出所述应答信息。
6.上述方法,可选的,所述基于所述交互信息确定目标检索源,包括:对所述交互信息进行意图理解,得到交互意图;将所述交互意图对应的检索源确定为所述目标检索源;不同的交互意图对应不同的检索源。
7.上述方法,可选的,所述对所述交互信息进行意图理解,包括:通过所述自然语言处理模型对所述交互信息进行意图理解。
8.上述方法,可选的,所述通过所述目标检索源检索所述交互信息的关联信息,包括:如果所述交互意图为第一交互意图,在知识库中检索所述交互信息的关联信息;如果所述交互意图为非第一交互意图,调用所述非第一交互意图对应的第三方信源以检索所述交互信息的关联信息。
9.上述方法,可选的,所述第一交互意图包括:与产品销售相关的意图;所述在知识库中检索所述交互信息的关联信息,包括:在产品知识库中检索所述交互信息关联的产品信息。
10.上述方法,可选的,所述非第一交互意图包括:信源标识,以及所述第三方信源进行信息检索所需要的目标信息;所述调用所述非第一交互意图对应的第三方信源,包括:基于所述信源标识,将所述目标信息输入所述信源标识对应的第三方信源,得到所述第三方信源反馈的所述交互信息的关联信息。
11.上述方法,可选的,在获得输入的交互信息之前,还包括:在首次检测到目标人脸时,输出目标语音信息;所述目标语音信息用于引导所述目标人脸表征的用户进行人机交互;所述获得输入的交互信息,包括:采集所述用户的语音信息;对所述语音信息进行语音识别得到所述交互信息。
12.上述方法,可选的,还包括:获得所述用户的脸部图像;对所述脸部图像进行处理,以获得所述用户的状态信息;所述通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息,包括:将润色指示指令、所述用户的状态信息和所述关联信息依次拼接后输入所述自然语言处理模型,得到所述自然语言处理模型生成的润色后关联信息作为所述应答信息。
13.一种人机交互装置,包括:获得模块,用于获得输入的交互信息;确定模块,用于基于所述交互信息确定目标检索源;检索模块,用于通过所述目标检索源检索所述交互信息的关联信息;润色模块,用于通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息;输出模块,用于输出所述应答信息。
14.一种人机交互设备,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如上任一项所述的人机交互方法的各个步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的人机交互方法的各个步骤。
16.从上述的技术方案可以看出,本技术实施例提供的人机交互方法、装置、设备及存储介质,获得输入的交互信息后,基于交互信息确定目标检索源;通过目标检索源检索交互信息的关联信息;通过自然语言处理模型对关联信息进行润色处理,生成交互信息的应答信息;输出应答信息。基于本技术,不是直接将交互信息输入自然语言处理模型,而是在基于交互信息确定的目标检索源中检索与交互信息关联的信息,而检索源具有信息更新能力,因此,检索到的关联信息可以是更新的信息,通过自然语言处理模型对基于检索源获取
的关联信息进行润色,获得更加自然的应答信息,实现了准确、自然的人机交互,从而提高人机交互性能。
附图说明
17.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
18.图1为本技术实施例公开的人机交互方法的一种实现流程图;图2为本技术实施例公开的基于交互信息确定目标检索源的一种实现流程图;图3为本技术实施例公开的人机交互方案的系统架构图的一种示例;图4为本技术实施例公开的人机交互装置的一种结构示意图;图5为本技术实施例公开的人机交互设备的硬件结构框图。
具体实施方式
19.在对本技术的方案进行阐述前,对相关的概念进行解释说明。
20.指示指令(prompt):在与ai(如大语言模型)进行对话时,需要向ai发送的指令,其可以是一段文字描述,比如你和ai对话时输入的“请帮我推荐一首流行音乐”,也可以是按照一定格式的参数描述,比如让ai按照一定格式进行绘图,需要描述相关绘图参数。
21.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
22.为了提高人机交互性能,提出本技术方案。
23.如图1所示,为本技术实施例提供的人机交互方法的一种实现流程图,可以包括:步骤s101:获得输入的交互信息。
24.交互信息也可以称之为用户指令、用户问题或用户提问等。
25.可选的,交互信息可以是用户通过文本输入装置(比如,键盘、触控屏等)输入到文本编辑框中的,或者,可以是以语音方式输入的。基于此,可以通过文本编辑框获得输入的交互信息,或者,可以通过语音识别装置对采集的语音数据进行语音识别从而获得输入的交互信息。
26.步骤s102:基于交互信息确定目标检索源。
27.其中,目标检索源是具有信息实时更新能力的信息检索源,比如,可以是知识库,或者,可以是第三方信源等。
28.可在多个具有信息实时更新能力的信息检索源中确定与交互信息对应的一个信息检索源作为目标检索源。
29.基于不同的交互信息确定的目标检索源可能是相同的,也可能是不同的。
30.步骤s103:通过目标检索源检索交互信息的关联信息。
31.本技术中,检索到的关联信息就是交互信息的初始应答信息。
32.步骤s104:通过自然语言处理模型对关联信息进行润色处理,生成交互信息的应
答信息。
33.因为检索到的关联信息(即初始应答信息)比较生硬,如果直接输出会使得用户的对话体验比较差,因此,本技术通过自然语言处理模型对关联信息进行润色,生成更加流畅、自然的应答信息。
34.自然语言处理模型可以是生成式模型,比如,大语言模型。作为示例,生成式模型可以包括但不限于:transformer架构的模型,比如,可以是gpt(generative pre-training)-3、gpt-4等。生成式模型也可以式其它生成式模型,比如,palm(pathways language model)、t5(text-to-text transfer transformer)等。
35.作为示例,可以将润色指示指令和关联信息依次输入自然语音处理模型,得到自然语言模型输出的润色后的关联信息,即应答信息。这里的润色指示指令指示自然语言处理模型对关联信息进行润色处理。
36.或者,可以将润色指示指令、上述交互信息和关联信息依次输入自然语音处理模型,得到自然语言模型输出的润色后的关联信息,即应答信息。这里的润色指示指令指示自然语言处理模型根据交互信息对关联信息进行润色处理。这样得到的润色结果更符合上下文。
37.步骤s105:输出应答信息。
38.可选的,可以直接显示应答信息。
39.或者,可以将应答信息中的至少部分信息合成为语音,输出该语音;或者,将应答信息与该语音同步输出。即,可以仅播放语音,或者,在播放语音的同时,显示应答信息。
40.或者,可以将应答信息中的至少部分信息合成为语音,生成语音对应的虚拟形象视频;将语音与虚拟形象视频同步输出;或者,将应答信息、语音与虚拟形象视频同步输出。即,可以仅在播放虚拟形象视频的同时,播放语音,或者,可以在播放虚拟形象视频和语音的同时,显示应答信息。
41.本技术实施例提供的人机交互方法,获得输入的交互信息后,基于交互信息确定目标检索源;通过目标检索源检索交互信息的关联信息;通过自然语言处理模型对关联信息进行润色处理,生成交互信息的应答信息;输出应答信息。基于本技术,不是直接将交互信息输入自然语言处理模型,而是在基于交互信息确定的目标检索源中检索与交互信息关联的信息,而检索源具有信息实时更新能力,因此,检索到的关联信息可以是更新的信息,通过自然语言处理模型对基于检索源获取的关联信息进行润色,获得更加自然的应答信息,实现了准确、自然的人机交互,从而提高人机交互性能。
42.检索源的存在,保证了回复内容的准确性,通过检索源与自然语言处理模型结合,克服了自然语言处理模型不能进行信息实时更新的不足,同时也降低了自然语言处理模型生成应答信息的随机性,从而提高人机交互的流畅性和准确性。
43.在一可选的实施例中,上述基于交互信息确定目标检索源的一种实现流程图如图2所示,可以包括:步骤s201:对交互信息进行意图理解,得到交互意图。
44.可选的,可以利用预先训练好的意图识别模型(即专用于意图理解的模型)对交互
信息进行意图理解,得到交互信息的交互意图。
45.或者,可以利用前述的自然语言处理模型对交互信息进行意图理解,得到交互意图。作为示例,可以将意图理解指示指令和交互信息依次输入上述自然语言处理模型,得到自然语言处理模型输出的交互意图。意图理解指示指令指示自然语言处理模型对交互信息进行意图理解。
46.步骤s202:将交互意图对应的检索源确定为目标检索源;不同的交互意图对应不同的检索源。
47.本技术预先设定了不同的交互意图与检索源的对应关系,在获得交互信息的交互意图后,将交互信息的交互意图对应的检索源确定为目标检索源。
48.可选的,如果交互信息的交互意图为第一交互意图,在知识库中检索交互信息的关联信息。
49.作为示例,第一交互意图可以为:与产品销售相关的意图,第一交互意图对应的知识库为产品知识库;基于此,上述在知识库中检索交互信息的关联信息可以包括:在产品知识库中检索与交互信息关联的产品信息。
50.具体的,可以对交互信息进行编码,得到交互信息的编码特征,获得产品知识库中各知识片段的编码特征(各知识片段的编码特征可以是预先编码后存储在产品知识库中的),基于交互信息的编码特征和各个知识片段的编码特征分别计算各个知识片段与交互信息的关联度,将与交互信息的关联度最大的知识片段确定为与交互信息关联的产品信息。其中,任一知识片段与交互信息的关联度可以通过该任一知识片段的编码特征与交互信息的编码特征的距离表征。
51.如果交互信息的交互意图为非第一交互意图,调用非第一交互意图对应的第三方信源以检索交互信息的关联信息。
52.不同的非第一交互意图对应不同的第三方信源。
53.作为示例,非第一交互意图中包括:信源标识,以及非第一交互意图对应的第三方信源进行信息检索所需要的目标信息。其中,信源标识表征第三方信源,不同的信源标识表征不同的第三方信源。比如,交互信息是“合肥明天的天气”,则非第一交互意图可以是{技能:天气,时间:明天,地点:合肥};其中的“技能”字段的内容“天气”即为信源标识;其它字段(“时间”字段和“地点”字段)的内容“明天”和“合肥”则是天气信源进行天气信息检索所需要的信息。
54.基于此,上述调用非第一交互意图对应的第三方信源以检索交互信息的关联信息的过程可以包括:基于信源标识,将目标信息输入到信源标识对应的第三方信源,得到第三方信源根据目标信息反馈的交互信息的关联信息。
55.在一可选的实施例中,基于产品知识库,自然语言处理模型的润色能力可以利用关于产品销售的第一训练数据集训练得到。其中,第一训练数据集中的每个训练样本中包括多轮对话数据或单轮对话数据,还包括每一轮对话对应的知识片段。每一轮对话都包括用户输入内容和机器回复内容,每一轮对话对应的知识片段都是从产品知识库中提取的。产品知识库中的产品知识可以包括但部限于:产品的官方文档、用户论坛、客户反馈等。
56.其中,不管是多轮对话数据还是单论对话数据,都是模拟真实的销售场景设置的,通过多轮对话数据可以保持对话的自然与流畅,有助于自然语言处理模型在实际应用中的表现,使其能够融入各种实际对话场景,为用户提供更有效的服务;通过单论对话数据可以使得模型在实际应用中具有较强的知识检索和提取能力,从而回答各种常见和复杂的问题,满足用户需求。
57.如表1所示,为本技术实施例提供的一个训练样本的一种示例:表1
58.表1所示的训练样本中包含的是多轮对话数据,以及每一轮对话数据关联的知识片段。
59.如表2所示,为本技术实施例提供的两个训练样本的一种示例:表2
60.表2中的两个训练样本中均是包含单论对话数据和对应的知识片段的训练样本。
61.训练样本中的机器回复内容可以是人为标注的,具体可以是人为对知识片段进行润色得到的。
62.基于第一训练数据集,表2中的两个训练样本中均是包含单论对话数据和对应的知识片段。
63.自然语言处理模型的润色能力可以通过如下方式训练得到:利用第一训练数据集中的任一训练样本对自然语言处理模型进行训练时,对应该任一训练样本中的任一轮对话数据,将润色指示指令、该任一轮对话数据中的用户内容和该任一轮对应数据对应的知识片段依次输入自然语言模型,得到自然语言处理模型生成的润色结果,以该润色结果趋近于该任一轮对话数据中的机器回复内容为目标,对自然语言处理模型的参数进行更新。润色指示指令指示自然语言处理模型根据用户内容对知识片段进行润色处理。
64.通过对自然语言处理模型进行多轮对话数据和单论对话数据的训练,自然语言处理模型将能够在实际应用中更好地适应用户需求,智能地回答问题,实现高效地解决用户疑问。
65.在一可选的实施例中,基于第三方信源,自然语言处理模型的润色能力可以利用关于第三方信源信息的第二训练数据集训练得到。其中,第二训练数据集中的每个训练样本中包括用户输入内容、机器回复内容以及由第三方信源针对用户输入内容的反馈内容。其中,机器回复内容可以是人为标注的,具体可以是人为对第三方信源针对用户输入内容的反馈内容进行润色得到的。
66.如表3所示,为本技术实施例提供的一个训练样本的一种示例:表3
67.基于第二训练数据集,自然语言处理模型的润色能力可以通过如下方式训练得到:利用第二训练数据集中的任一训练样本对自然语言处理模型进行训练时,将润色指示指令、该任一训练样本中的用户内容和该任一训练样本中的第三方信源的反馈内容依次输入自然语言模型,得到自然语言处理模型生成的润色结果,以该润色结果趋近于该任一训练样本中的机器回复为目标,对自然语言处理模型的参数进行更新。润色指示指令指示自然语言处理模型根据用户内容对第三方信源的反馈内容进行润色处理。
68.自然语言处理模型的意图理解能力可以通过第三训练数据集训练得到。第三训练数据集中的每个样本包括用户输入内容,以及对应的意图,每个用户输入的内容对应的意图为第一意图(比如,销售相关)或非第一意图(比如,天气查询、航班查询、酒店查询或股票查询等)。
69.自然语言处理模型的意图理解能力可以通过如下方式训练得到:利用第三训练数据集中的任一训练样本对自然语言处理模型进行训练时,将意图理解指示指令、该任一训练样本中的用户内容依次输入自然语言模型,得到自然语言处理模型生成的意图理解结果,以该意图理解结果趋近于该任一训练样本中用户输入内容对应的意图为目标,对自然语言处理模型的参数进行更新。意图理解指示指令指示自然语言处理模型对用户输入内容进行意图理解。
70.在一可选的实施例中,在获得输入的交互信息之前,本技术实施例提供的人机交互方法还可以包括:在首次检测到目标人脸时,输出目标语音信息;该目标语音信息用于引导目标人脸表征的用户进行人机交互。
71.首次检测到目标人脸是指在预设时长内首次检测到目标人脸。当首次检测到目标人脸时,主动输出目标语音信息,以引导用户关注并参与人机交互。例如,目标语音信息可以为“您好,这里是xxx直营店,您有什么想了解的信息,我可以向您做详细的介绍”。
72.相应的,上述获得输入的交互信息可以包括:采集目标人脸表征的用户的语音信息;对采集的语音信息进行语音识别,得到所述交互信息。
73.也就是说,在首次检测到目标人脸后,可以锁定目标人脸(即进行人脸跟踪)并获得目标人脸表征的用户通过语音输入的交互信息。具体的,可以同时采集图像和语音,对采集到的图像序列进行人脸检测,得到的人脸区域图像序列;将人脸区域图像中的各帧人脸区域图像与首次检测到的目标人脸的图像进行匹配,以确定目标图像序列,目标图像序列为目标人脸表征的用户的面部图像序列;获得目标图像序列对应的语音数据,通过目标图
像序列对该目标图像序列对应的语音数据进行去噪处理,获得去噪后的目标人脸表征的用户的语音信息(例如,可以以趋近于对语音数据去除噪声后的语音数据为获取方向,获取融合语音数据和目标图像序列的信息,作为融合信息;该融合信息趋近于对语音数据去除噪声后的语音数据,也就是说,该融合信息即为去噪后的目标人脸表征的用户的语音信息);利用去噪后的目标人脸表征的用户的语音信息进行语音识别,得到语音数据的语音识别结果。该语音识别结果就是目标人脸表征的用户输入的交互信息。
74.通过自动过滤背景噪音(非语音,以及除目标人脸表征的用户外的其他用户的语音),集中处理一个用户的声音信号,可以进一步提高人机交互的流畅性和准确性。
75.在一可选的实施例中,本技术提供的人机交互方法还可以包括:获得目标人脸表征的用户的脸部图像;对脸部图像进行处理,以获得用户的状态信息。用户的状态信息可以包括但部限于:性别、年龄、情绪等。
76.可以利用预先训练好的状态识别模型对脸部图像进行处理,获得状态识别模型输出的用户的状态信息。
77.相应的,上述通过自然语言处理模型对关联信息进行润色处理,生成交互信息的应答信息的一种实现方式可以为:通过自然语音模型基于用户的状态信息对关联信息进行润色处理,具体的,可以将润色指示指令、用户的状态信息、交互信息和关联信息依次拼接后输入自然语言处理模型,得到自然语言处理模型生成的润色后关联信息作为应答信息。
78.润色指示指令指示自然语言处理模型基于用户的状态信息和交互信息对关联信息进行润色,从而使得润色后的关联信息与用户的状态信息相适配,进一步提高人机交互的流畅性和准确性。
79.如图3所示,为本技术实施例提供的人机交互方案的系统架构图的一种示例,该示例中,以进行人机交互的机器为机器人为例进行示例性说明。
80.机器人实时采集图像和语音;主动提问:当有用户进入机器人的图像采集范围内时,机器人可以采集到用户的脸部图像和用户的语音。机器人根据采集的到脸部图像确定用户是预设时长内首次接近机器人时主动输出语音信息,比如“您好,这里是xxx直营店,您有什么想了解的信息,我可以向您做详细的介绍”。
81.判断用户意图:如果用户通过语音向机器人表达了自己的需求,机器人可以对采集到的用户语音进行语音识别,得到交互文本;然后对交互文本进行意图理解,得到交互意图;其中,机器人可以调用专门的意图理解模型对交互文本进行意图理解,也可以调用上述自然语言处理模型对交互文本进行意图理解。如果交互意图是产品销售相关意图(图3中简记为销售),则机器人调用产品知识库,在产品知识库中搜索与交互文本关联的产品信息。如果交互意图是非产品销售相关意图(图3中简记为闲聊),则机器人调用交互意图对应的第三方信源,获得第三方信源的反馈信息。
82.大模型润色回复语:调用前述自然语言处理模型对产品信息或反馈信息进行润色,得到润色结果。
83.机器人多模态回复:机器人将润色结果合成为语音;生成语音对应的虚拟形象视频;同步输出润色结果、语音和虚拟形象视频。
84.与方法实施例相对应,本技术实施例还提供一种人机交互装置,如图4所示,为本技术实施例提供的人机交互装置的一种结构示意图,可以包括:获得模块401,确定模块402,检索模块403,润色模块404和输出模块405;其中,获得模块401用于获得输入的交互信息;确定模块402用于基于所述交互信息确定目标检索源;检索模块403用于通过所述目标检索源检索所述交互信息的关联信息;润色模块404用于通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息;输出模块405用于输出所述应答信息。
85.本技术实施例提供的一种人机交互装置,获得输入的交互信息后,基于交互信息确定目标检索源;通过目标检索源检索交互信息的关联信息;通过自然语言处理模型对关联信息进行润色处理,生成交互信息的应答信息;输出应答信息。基于本技术,不是直接将交互信息输入自然语言处理模型,而是在基于交互信息确定的目标检索源中检索与交互信息关联的信息,而检索源具有信息更新能力,因此,检索到的关联信息可以是更新的信息,通过自然语言处理模型对基于检索源获取的关联信息进行润色,获得更加自然的应答信息,实现了准确、自然的人机交互,从而提高人机交互性能。
86.在一可选的实施例中,所述确定模块402用于:对所述交互信息进行意图理解,得到交互意图;将所述交互意图对应的检索源确定为所述目标检索源;不同的交互意图对应不同的检索源。
87.在一可选的实施例中,所述确定模块402对所述交互信息进行意图理解时,用于:通过所述自然语言处理模型对所述交互信息进行意图理解。
88.在一可选的实施例中,所述检索模块403用于:如果所述交互意图为第一交互意图,在知识库中检索所述交互信息的关联信息;如果所述交互意图为非第一交互意图,调用所述非第一交互意图对应的第三方信源以检索所述交互信息的关联信息。
89.在一可选的实施例中,所述第一交互意图包括:与产品销售相关的意图;所述检索模块403在知识库中检索所述交互信息的关联信息时,用于:在产品知识库中检索所述交互信息关联的产品信息。
90.在一可选的实施例中,所述非第一交互意图包括:信源标识,以及所述第三方信源进行信息检索所需要的目标信息;所述检索模块403调用所述非第一交互意图对应的第三方信源时,用于:基于所述信源标识,将所述目标信息输入所述信源标识对应的第三方信源,得到所述第三方信源反馈的所述交互信息的关联信息。
91.在一可选的实施例中,所述输出模块405用于:将所述应答信息合成为语音;生成所述语音对应的虚拟形象视频;至少将所述语音与所述虚拟形象视频同步输出。
92.在一可选的实施例中,所述输出模块405在获得输入的交互信息之前,还用于:
在首次检测到目标人脸时,输出目标语音信息;所述目标语音信息用于引导所述目标人脸表征的用户进行人机交互;所述获得模块401用于:采集所述用户的语音信息;对所述语音信息进行语音识别得到所述交互信息。
93.在一可选的实施例中,所述人机交互装置还包括:状态获取模块,用于获得所述用户的脸部图像;对所述脸部图像进行处理,以获得所述用户的状态信息;所述润色模块404用于:通过自然语音模型基于用户的状态信息对关联信息进行润色处理,具体的,可以将润色指示指令、所述用户的状态信息、所述交互信息和所述关联信息依次输入所述自然语言处理模型,得到所述自然语言处理模型生成的润色后关联信息作为所述应答信息。
94.本技术实施例提供的人机交互装置可应用于人机交互设备,如pc终端、移动终端、一体机、云平台、服务器及服务器集群等。可选的,图5示出了人机交互设备的硬件结构框图,参照图5,人机交互设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:获得输入的交互信息;基于所述交互信息确定目标检索源;通过所述目标检索源检索所述交互信息的关联信息;通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息;输出所述应答信息。
95.可选的,所述程序的细化功能和扩展功能可参照上文描述。
96.本技术实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:获得输入的交互信息;基于所述交互信息确定目标检索源;通过所述目标检索源检索所述交互信息的关联信息;通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息;输出所述应答信息。
97.可选的,所述程序的细化功能和扩展功能可参照上文描述。
98.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
99.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
100.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
101.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
102.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
103.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
104.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
105.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术特征:
1.一种人机交互方法,其特征在于,包括:获得输入的交互信息;基于所述交互信息确定目标检索源;通过所述目标检索源检索所述交互信息的关联信息;通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息;输出所述应答信息。2.根据权利要求1所述的方法,其特征在于,所述基于所述交互信息确定目标检索源,包括:对所述交互信息进行意图理解,得到交互意图;将所述交互意图对应的检索源确定为所述目标检索源;不同的交互意图对应不同的检索源。3.根据权利要求2所述的方法,其特征在于,所述对所述交互信息进行意图理解,包括:通过所述自然语言处理模型对所述交互信息进行意图理解。4.根据权利要求2所述的方法,其特征在于,所述通过所述目标检索源检索所述交互信息的关联信息,包括:如果所述交互意图为第一交互意图,在知识库中检索所述交互信息的关联信息;如果所述交互意图为非第一交互意图,调用所述非第一交互意图对应的第三方信源以检索所述交互信息的关联信息。5.根据权利要求4所述的方法,其特征在于,所述第一交互意图包括:与产品销售相关的意图;所述在知识库中检索所述交互信息的关联信息,包括:在产品知识库中检索所述交互信息关联的产品信息。6.根据权利要求4所述的方法,其特征在于,所述非第一交互意图包括:信源标识,以及所述第三方信源进行信息检索所需要的目标信息;所述调用所述非第一交互意图对应的第三方信源,包括:基于所述信源标识,将所述目标信息输入所述信源标识对应的第三方信源,得到所述第三方信源反馈的所述交互信息的关联信息。7.根据权利要求1所述的方法,其特征在于,在获得输入的交互信息之前,还包括:在首次检测到目标人脸时,输出目标语音信息;所述目标语音信息用于引导所述目标人脸表征的用户进行人机交互;所述获得输入的交互信息,包括:采集所述用户的语音信息;对所述语音信息进行语音识别得到所述交互信息。8.根据权利要求7所述的方法,其特征在于,还包括:获得所述用户的脸部图像;对所述脸部图像进行处理,以获得所述用户的状态信息;所述通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息,包括:将润色指示指令、所述用户的状态信息、所述交互信息和所述关联信息依次输入所述自然语言处理模型,得到所述自然语言处理模型生成的润色后关联信息作为所述应答信
息。9.一种人机交互装置,其特征在于,包括:获得模块,用于获得输入的交互信息;确定模块,用于基于所述交互信息确定目标检索源;检索模块,用于通过所述目标检索源检索所述交互信息的关联信息;润色模块,用于通过自然语言处理模型对所述关联信息进行润色处理,生成所述交互信息的应答信息;输出模块,用于输出所述应答信息。10.一种人机交互设备,其特征在于,包括存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1-8中任一项所述的人机交互方法的各个步骤。11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的人机交互方法的各个步骤。

技术总结
本申请实施例公开了一种人机交互方法、装置、设备及存储介质,获得输入的交互信息后,基于交互信息确定目标检索源;通过目标检索源检索交互信息的关联信息;通过自然语言处理模型对关联信息进行润色处理,生成交互信息的应答信息;输出应答信息。基于本申请,不是直接将交互信息输入自然语言处理模型,而是在基于交互信息确定的目标检索源中检索与交互信息关联的信息,而检索源具有信息更新能力,因此,检索到的关联信息可以是更新的信息,通过自然语言处理模型对基于检索源获取的关联信息进行润色,获得更加自然的应答信息,实现了准确、自然的人机交互,从而提高人机交互性能。从而提高人机交互性能。从而提高人机交互性能。


技术研发人员:梅林海 吴凡 李锐 陈洋 刘权 王士进 魏思 胡国平 刘聪
受保护的技术使用者:科大讯飞股份有限公司
技术研发日:2023.08.15
技术公布日:2023/9/14
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐