文本处理方法、装置、电子设备和计算机可读存储介质与流程
未命名
09-07
阅读:91
评论:0

1.本发明涉及自然语言处理技术领域,具体而言,涉及一种文本处理方法、装置、电子设备和计算机可读存储介质。
背景技术:
2.大语言模型(large language model,llm)是一种基于深度学习技术的自然语言处理模型,通过学习大量的语言数据来预测下一个单词或字符的概率,从而生成自然语言文本。其中,最为著名的大语言模型是由openai开发的gpt系列模型,包括gpt-1、gpt-2、gpt-3等版本;这些模型采用了transformer架构,使用了大量的预训练数据和自监督学习技术,从而在多项自然语言处理任务上取得了出色的表现。此外,为了提高大语言模型的效率和准确性,还有一些相关的技术,比如对抗训练(adversarial training)、知识蒸馏(knowledge distillation)等;这些技术可以通过各种方式来进一步优化模型的性能,从而使其更加适用于各种不同的nlp(natural language processing,自然语言处理)应用场景。
3.在实际应用中,考虑到训练大语言模型困难,大部分公司都基于别人已开发好的api(application programming interface,应用编程接口)接入到自己生态业务中,以实现多种多样的业务场景。针对不同业务场景,通过设置合适的prompt(提示)可以帮助大语言模型更好地完成任务。prompt的设置需要考虑上下文理解、长度控制、多样性控制、任务特定性、评估和优化等多种因素,故设置合适的prompt本身存在一定难度,且通过设置不同prompt,虽然可以让大语言模型完成任意场景的任务,但仅通过设定好的prompt实际上不足以让大语言模型理解它要完成的任务。
4.现有技术中,除了使用设定好的prompt以外,还会给大语言模型一些额外的样本(few shot),通过few shot更好地帮助大语言模型结合prompt理解它要完成的任务。由于模型对文本是有理解上限的,故输入的样本不能太多,样本太少会使模型很难从中学习到有意义的特征,而随意选取样本则无法保证模型能够获取到有用的信息。因此,现有技术中选取的样本数据太多、太少或者随意选取样本数据,均会使大语言模型无法实现较好的输出结果,进而无法更好地适应不同业务场景。
技术实现要素:
5.有鉴于此,本发明的目的在于提供一种文本处理方法、装置、电子设备和计算机可读存储介质,以解决现有技术中因选取的样本数据太多、太少或者随意选取样本数据,使大语言模型无法实现较好的输出结果,进而无法更好地适应不同业务场景的问题。
6.为了实现上述目的,本发明实施例采用的技术方案如下:
7.第一方面,本发明提供一种文本处理方法,所述方法包括:
8.获取用户输入的提示文本;所述提示文本中包括待处理问题;
9.根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;所
述相似问题样本与所述待处理问题属于同一类别,所述差异问题样本与所述待处理问题属于不同类别;所述样本数据库包括多个问题样本以及各所述问题样本对应的答案样本,所述相似问题样本和所述相似问题样本对应的答案样本构成相似样本,所述差异问题样本和所述差异问题样本对应的答案样本构成差异样本;
10.将所述提示文本、所述相似样本和所述差异样本输入预训练模型,获得所述待处理问题对应的答案。
11.在可选的实施方式中,所述根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本,包括:
12.对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理,得到所述待处理问题对应的待处理问题向量以及每个所述问题样本对应的问题样本向量;
13.对各所述问题样本向量进行聚类,得到多个聚类簇;
14.根据多个所述聚类簇和所述待处理问题向量,获取相似问题样本和差异问题样本;所述相似问题样本从目标聚类簇中的问题样本向量所对应的问题样本中确定,所述目标聚类簇为所述待处理问题向量所属的聚类簇;所述差异问题样本从除所述目标聚类簇以外的其他聚类簇中的问题样本向量所对应的问题样本中确定。
15.在可选的实施方式中,所述根据多个所述聚类簇和所述待处理问题向量,获取相似问题样本和差异问题样本,包括:
16.从多个所述聚类簇中确定所述待处理问题向量所属的目标聚类簇;
17.根据所述待处理问题向量与所述目标聚类簇中的各个问题样本向量之间的相似度,确定所述目标聚类簇中与所述待处理问题向量最相似的第一预设数目个问题样本向量,并将所述第一预设数目个问题样本向量所对应的问题样本确定为相似问题样本;
18.从除所述目标聚类簇以外的其他聚类簇中,随机选取第二预设数目个问题样本向量,并将所述第二预设数目个问题样本向量所对应的问题样本确定为差异问题样本。
19.在可选的实施方式中,所述根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本,包括:
20.对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理,得到所述待处理问题对应的第一待处理问题向量以及每个所述问题样本对应的第一问题样本向量;
21.对各所述第一问题样本向量进行聚类,得到多个第一聚类簇;
22.对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行关键词提取,并对所述待处理问题对应的关键词提取结果、每个所述问题样本对应的关键词提取结果分别进行嵌入处理,得到所述待处理问题对应的第二待处理问题向量以及每个所述问题样本对应的第二问题样本向量;
23.对各所述第二问题样本向量进行聚类,得到多个第二聚类簇;
24.根据多个所述第一聚类簇、所述第一待处理问题向量、多个第二聚类簇和所述第二待处理问题向量,获取相似问题样本和差异问题样本;所述相似问题样本从第一目标聚类簇中的第一问题样本向量所对应的问题样本以及第二目标聚类簇中的第二问题样本向量所对应的问题样本中确定;所述第一目标聚类簇为所述第一待处理问题向量所属的第一
聚类簇,所述第二目标聚类簇为所述第二待处理问题向量所述的第二聚类簇;所述差异问题样本从除所述第一目标聚类簇以外的其他第一聚类簇中的第一问题样本向量所对应的问题样本中确定。
25.在可选的实施方式中,所述根据多个所述第一聚类簇、所述第一待处理问题向量、多个第二聚类簇和所述第二待处理问题向量,获取相似问题样本和差异问题样本,包括:
26.从多个所述第一聚类簇中确定所述第一待处理问题向量所属的第一目标聚类簇;
27.根据所述第一待处理问题向量与所述第一目标聚类簇中的各个第一问题样本向量之间的相似度,确定与所述第一待处理问题向量最相似的第一预设数量个第一问题样本向量;
28.从多个所述第二聚类簇中确定所述第二待处理问题向量所属的第二目标聚类簇;
29.根据所述第二待处理问题向量与所述第二目标聚类簇中的各个第二问题样本向量之间的相似度,确定与所述第二待处理问题向量最相似的第二预设数量个第二问题样本向量;
30.将所述第一预设数量个第一问题样本向量对应的问题样本以及所述第二预设数量个第二问题样本向量对应的问题样本确定为相似问题样本;
31.从除所述第一目标聚类簇以外的其他第一聚类簇中,随机选取第三预设数量个第一问题样本向量,并将所述第三预设数量个第一问题样本向量对应的问题样本确定为差异问题样本。
32.第二方面,本发明提供一种文本处理装置,所述装置包括:
33.文本获取模块,用于获取用户输入的提示文本;所述提示文本中包括待处理问题;
34.样本获取模块,用于根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;所述相似问题样本与所述待处理问题属于同一类别,所述差异问题样本与所述待处理问题属于不同类别;所述样本数据库包括多个问题样本以及各所述问题样本对应的答案样本,所述相似问题样本和所述相似问题样本对应的答案样本构成相似样本,所述差异问题样本和所述差异问题样本对应的答案样本构成差异样本;
35.输入模块,用于将所述提示文本、所述相似样本和所述差异样本输入预训练模型,获得所述待处理问题对应的答案。
36.在可选的实施方式中,所述样本获取模块用于对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理,得到所述待处理问题对应的待处理问题向量以及每个所述问题样本对应的问题样本向量;对各所述问题样本向量进行聚类,得到多个聚类簇;根据多个所述聚类簇和所述待处理问题向量,获取相似问题样本和差异问题样本;所述相似问题样本从目标聚类簇中的问题样本向量所对应的问题样本中确定,所述目标聚类簇为所述待处理问题向量所属的聚类簇;所述差异问题样本从除所述目标聚类簇以外的其他聚类簇中的问题样本向量所对应的问题样本中确定。
37.在可选的实施方式中,所述样本获取模块用于对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理,得到所述待处理问题对应的第一待处理问题向量以及每个所述问题样本对应的第一问题样本向量;对各所述第一问题样本向量进行聚类,得到多个第一聚类簇;对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行关键词提取,并对所述待处理问题对应的关键词提取结果、每个所述问题
样本对应的关键词提取结果分别进行嵌入处理,得到所述待处理问题对应的第二待处理问题向量以及每个所述问题样本对应的第二问题样本向量;对各所述第二问题样本向量进行聚类,得到多个第二聚类簇;根据多个所述第一聚类簇、所述第一待处理问题向量、多个第二聚类簇和所述第二待处理问题向量,获取相似问题样本和差异问题样本;所述相似问题样本从第一目标聚类簇中的第一问题样本向量所对应的问题样本以及第二目标聚类簇中的第二问题样本向量所对应的问题样本中确定;所述第一目标聚类簇为所述第一待处理问题向量所属的第一聚类簇,所述第二目标聚类簇为所述第二待处理问题向量所述的第二聚类簇;所述差异问题样本从除所述第一目标聚类簇以外的其他第一聚类簇中的第一问题样本向量所对应的问题样本中确定。
38.第三方面,本发明提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如前述实施方式中任一项所述的文本处理方法的步骤。
39.第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的文本处理方法的步骤。
40.本发明实施例提供的文本处理方法、装置、电子设备和计算机可读存储介质中,该文本处理方法包括获取用户输入的提示文本;提示文本中包括待处理问题,根据待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;相似问题样本与待处理问题属于同一类别,差异问题样本与待处理问题属于不同类别;样本数据库包括多个问题样本以及各问题样本对应的答案样本,相似问题样本和相似问题样本对应的答案样本构成相似样本,差异问题样本和差异问题样本对应的答案样本构成差异样本;将提示文本、相似样本和差异样本输入预训练模型,获得待处理问题对应的答案。由于输入预训练模型中的样本数据既有与待处理问题属于同一类别的相似问题样本及对应的答案样本,又有与待处理问题属于不同类别的差异问题样本及对应的答案样本,即样本数据中的语料资源既有相似度,又有差异化,在确保击中用户正在问的问题的同时,还提供更多样化的数据帮助模型理解要完成的任务,故能使预训练模型的输出结果更准确,更好地适应不同业务场景。
41.为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
42.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
43.图1示出了设置prompt的一种示意图;
44.图2示出了本发明实施例提供的文本处理方法的一种流程示意图;
45.图3示出了图2中步骤s202的一种子步骤示意图;
46.图4示出了图2中步骤s202的另一种子步骤示意图;
47.图5示出了关键字提取的prompt及few shot的一种示例图;
48.图6示出了本发明实施例提供的文本处理装置的一种功能模块图;
49.图7示出了本发明实施例提供的电子设备的一种方框示意图。
50.图标:100-电子设备;600-文本处理装置;110-存储器;120-处理器;130-通信模块;610-文本获取模块;620-样本获取模块;630-输入模块。
具体实施方式
51.下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
52.因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
53.需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
54.随着人工智能技术的不断发展,自然语言处理领域的研究也在不断深入。大语言模型是一种基于深度学习技术的自然语言处理模型,可以用于完成多种自然语言处理任务,比如自动问答、机器翻译、文本生成等。
55.训练大语言模型的难度主要来自于以下两个方面:
56.1、数据量:大语言模型需要大量的语料库来进行训练,通常需要几十亿、甚至上百亿的文本数据。这样的数据规模不仅对数据的获取和存储提出了极高的要求,同时也需要强大的计算资源来训练模型。
57.2、计算复杂度:大语言模型通常采用深度神经网络结构,这种结构具有大量的参数和复杂的计算过程。这导致了训练这些模型需要强大的计算资源,包括gpu(graphics processing unit,图形处理器)和tpu(tensor processing unit,张量处理器))等专用硬件,以及高性能计算集群等。
58.此外,训练大语言模型还需要解决一些技术难题,比如训练过程中的梯度消失和梯度爆炸问题,以及如何进行分布式训练、优化训练速度等方面的挑战。因此,训练大语言模型是一项非常复杂、耗时、昂贵的任务,需要大量的技术和资源投入。
59.正是因为训练大语言模型困难,且别的公司有提供api,所以现在大部分公司都基于别人已开发好的api接入到自己生态业务中,以实现多种多样的业务场景。
60.针对不同业务场景,需要设置prompt帮助大语言模型更好地理解任务的上下文和要求,从而让大语言模型更好地完成任务,不同业务场景prompt设定都不相同,举个例子,为了识别弹幕回复的内容是骂主播还是捧主博,需要根据大语言模型识别弹幕回复的内容,给出意图识别结果,所以prompt可以按照图1的方式设定。
61.设定好prompt后,当用户输入一些弹幕的内容,它会回复响应的结果。这个例子是一种简单的文本分类任务,对于复杂的上下文任务及角色扮演任务,就会有更复杂的人设。例如设定一个角色扮演的人设,需要模拟真人去回复一些聊天内容,且聊天的内容会有上下文;在这种自动回复场景下,目标是要尽量通过图灵测试,让人看不出是在跟机器人聊天。
62.目前,设置prompt的难点主要在以下几个方面:
63.1、上下文理解:为了使prompt能够引导模型生成合理的文本,需要对任务的上下文进行充分的理解和分析。这需要对任务的背景、要求、限制等方面有深入的了解,并能够将这些信息转化为合适的prompt。
64.2、长度控制:prompt的长度也是一个重要的考虑因素。如果prompt过短,可能无法提供足够的上下文信息;而如果过长,可能会引入冗余的信息或者使模型难以处理。因此,需要根据具体的任务要求和模型性能来选择合适的prompt长度。
65.3、多样性控制:为了使生成的文本具有多样性和丰富性,需要在prompt设计中考虑多样性控制的方法,例如使用不同的词汇、语法结构或者文本格式等。
66.4、任务特定性:不同的nlp任务对prompt的要求也不同,需要根据任务的特定性来设计相应的prompt。例如,在问答任务中,需要设计特定的问题和上下文;而在文本生成任务中,需要考虑文本的主题和格式等。
67.5、评估和优化:prompt的设计需要不断地进行评估和优化,以确保生成的文本质量和效果达到预期。这需要进行人工评估和自动评估等多种方式来确定最优的prompt。
68.可见,针对不同业务场景设置合适的prompt本身存在一定难度,通过设置不同prompt,虽然可以让大语言模型能够完成任意场景的任务,但仅通过设定好的prompt实际上不足以让大语言模型理解它要完成的任务,所以需要再给一些额外的示例,帮助它理解。
69.一个prompt+few shot的示例是针对自然语言生成(nlg)任务。该示例使用一个提示(prompt)和几个样本(few shot)来生成具有相同风格和语法的新文本。
70.例如,可以考虑以下提示:生成一个关于夏季的句子。
71.然后,可以使用几个样本来帮助模型生成新的夏季句子。例如:
72.样本1:夏季是游泳的好季节。
73.样本2:在夏季,人们可以享受户外烧烤。
74.样本3:夏季是出游的最佳季节。
75.在此之后,模型可以使用这些样本来学习夏季句子的风格和语法,并生成具有类似风格和语法的新句子,如“夏季是品尝冰淇淋的最佳季节”或“在夏季,人们可以享受户外活动和运动”。
76.few shot的目的就是为了更好的帮助大语言模型结合prompt理解它要完成的任务。
77.few shot学习的主要限制在于其需要足够多的相关数据才能训练出一个可靠的模型,尤其是对于需要高度抽象化和通用化的任务而言;但样本数据太多可能超出模型理解上限。如果只提供很少量的样本数据,那么模型就会很难从中学习到有意义的特征,甚至可能会导致过拟合等问题。此外,数据的质量和相关性也会对few shot学习的效果产生重要的影响,因为模型需要从有限的数据中抽取出最为关键和通用的信息,来推广到更广泛
的场景。
78.因此,在使用few shot学习时,需要对数据的选择和准备进行仔细的考虑,样本数据太多、太少或者随意选取样本数据,均会使大语言模型无法实现较好的输出结果,进而无法更好地适应不同业务场景。
79.基于此,本发明实施例提供了一种文本处理方法、装置、电子设备和计算机可读存储介质,其通过获取用户输入的提示文本;提示文本中包括待处理问题,根据待处理问题和预设的样本数据库获取与待处理问题属于同一类别的相似问题样本、与待处理问题属于不同类别的差异问题样本,并将相似问题样本和相似问题样本对应的答案样本、差异问题样本和差异问题样本对应的答案样本作为样本数据,与提示文本一起输入预训练模型,获得待处理问题对应的答案。由于输入预训练模型的样本数据中既有相似样本又有差异样本,在确保击中用户正在问的问题的同时,还提供更多样化的数据帮助预训练模型理解要完成的任务,故能使预训练模型的输出结果更准确,更好地适应不同业务场景。
80.下面,将结合附图具体描述本发明中的各实施例。
81.请参照图2,为本发明实施例提供的文本处理方法的一种流程示意图。需要说明的是,本发明实施例的文本处理方法并不以图2以及以下的具体顺序为限制,应当理解,在其他实施例中,本发明实施例的文本处理方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该文本处理方法可以应用在个人电脑(personal computer,pc)、平板电脑、智能手机等电子设备中,下面将对图2所示的具体流程进行详细阐述。
82.步骤s201,获取用户输入的提示文本;提示文本中包括待处理问题。
83.在本实施例中,提示文本可以理解为用户按照设定好的prompt输入的文本,提示文本中可以包括用户想要模型完成的任务,即待处理问题。
84.步骤s202,根据待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;相似问题样本与待处理问题属于同一类别,差异问题样本与待处理问题属于不同类别;样本数据库包括多个问题样本以及各问题样本对应的答案样本,相似问题样本和相似问题样本对应的答案样本构成相似样本,差异问题样本和差异问题样本对应的答案样本构成差异样本。
85.在本实施例中,电子设备中存储有预先构建的样本数据库,样本数据库中包括多个问题样本以及每个问题样本所对应的答案样本,通过对样本数据库中的问题样本聚类,可以找到与待处理问题属于同一类别的相似问题样本,以及与待处理问题属于不同类别的差异问题样本,并获取相似问题样本以及差异问题样本各自对应的答案样本。
86.步骤s203,将提示文本、相似样本和差异样本输入预训练模型,获得待处理问题对应的答案。
87.在本实施例中,预训练模型为预先训练好的大语言模型,电子设备通过调用预训练模型对应的api接口,将相似问题样本及对应的答案样本、差异问题样本及对应的答案样本作为样本数据(few shot),与用户输入的提示文本一同输入预训练模型,预训练模型在提示文本以及few shot的帮助下理解要完成的任务,并输出提示文本中待处理问题所对应的答案。
88.可见,本发明实施例提供的文本处理方法,通过获取用户输入的提示文本;提示文
本中包括待处理问题,根据待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;相似问题样本与待处理问题属于同一类别,差异问题样本与待处理问题属于不同类别;样本数据库包括多个问题样本以及各问题样本对应的答案样本,相似问题样本和相似问题样本对应的答案样本构成相似样本,差异问题样本和差异问题样本对应的答案样本构成差异样本;将提示文本、相似样本和差异样本输入预训练模型,获得待处理问题对应的答案。由于输入预训练模型中的样本数据既有与待处理问题属于同一类别的相似问题样本及对应的答案样本,又有与待处理问题属于不同类别的差异问题样本及对应的答案样本,即样本数据中的语料资源既有相似度,又有差异化,在确保击中用户正在问的问题的同时,还提供更多样化的数据帮助模型理解要完成的任务,故能使预训练模型的输出结果更准确,更好地适应不同业务场景。
89.在一种实施方式中,可以通过构建数据库嵌入,然后通过聚类的方式来获取相似问题样本和差异问题样本。基于此,请参照图3,上述步骤s202可以包括:
90.子步骤s202-a1,对待处理问题以及预设的样本数据库中的每个问题样本分别进行嵌入处理,得到待处理问题对应的待处理问题向量以及每个问题样本对应的问题样本向量。
91.在本实施例中,文本嵌入(embedding)的技术核心是将高维度的文本数据转换为低维度的向量表示,并且通过学习文本之间的关系,使得文本向量能够表达出文本的含义和语义。这种技术可以帮助计算机更好地理解和处理文本数据,支持自然语言处理、信息检索、推荐系统等应用。以下是构建数据库嵌入的示例:
92.1、在自然语言处理应用中,使用文本嵌入技术,可以将文本转换为向量,然后使用这些向量来训练和评估自然语言处理模型,例如语言模型、情感分析和文本分类等。
93.2、在搜索引擎应用中,搜索引擎可以使用文本嵌入技术来比较不同文本之间的相似度。例如,在一个搜索引擎中,用户可以使用关键字来搜索相关的文本。当用户输入关键字时,搜索引擎可以使用文本嵌入技术将关键字表示为向量,并比较这些向量与文本数据库中的文本向量之间的相似度,然后返回最相关的结果。
94.3、在推荐系统应用中,推荐系统可以使用文本嵌入技术来学习用户的兴趣。例如,当用户购买一件商品时,推荐系统可以使用商品描述的文本嵌入向量来表示该商品,并将其与用户历史记录中的文本嵌入向量进行比较,然后推荐与用户兴趣最相关的商品。
95.在本实施例中,当对待处理问题以及样本数据库中的每个问题样本分别进行embedding,得到待处理问题对应的向量表示(待处理问题向量)以及每个问题样本对应的向量表示(问题样本向量)后,还会构建index、content、embeddings的结构体,用于记录文本序号、文本内容以及文本对应的向量表示的对应关系。
96.子步骤s202-a2,对各问题样本向量进行聚类,得到多个聚类簇。
97.在本实施例中,可以采用k-means算法对各问题样本向量进行聚类。k-means是一种将文本数据聚类的技术,其主要目的是将具有相似语义含义的文本归类到同一个类别中,这种技术有助于发现文本数据中的模式和结构,并且可以用于多种文本处理任务,如主题分类、情感分析、推荐系统等。
98.使用k-means算法对文本嵌入向量进行聚类的好处是它不需要事先知道类别数,可以自动地从数据中发现最佳的聚类数量。同时,它也可以通过调整参数来控制聚类的敏
感度和精确度。
99.子步骤s202-a3,根据多个聚类簇和待处理问题向量,获取相似问题样本和差异问题样本;相似问题样本从目标聚类簇中的问题样本向量所对应的问题样本中确定,目标聚类簇为待处理问题向量所属的聚类簇;差异问题样本从除目标聚类簇以外的其他聚类簇中的问题样本向量所对应的问题样本中确定。
100.在本实施例中,在对各问题样本向量进行聚类后,在待处理问题向量所属的聚类簇中根据向量之间的相似度计算可以找到与待处理问题向量最相似的问题样本向量,并根据构建的index、content、embeddings的结构体,可以快速找到最相似问题样本向量对应的问题样本(相似问题样本)。而目标聚类簇以外的其他聚类簇中的问题样本向量与待处理问题向量属于不同类别,故从这些聚类簇中可以找到与待处理问题向量存在差异化的问题样本向量,同理,根据构建的index、content、embeddings的结构体,可以快速找到差异化问题样本向量对应的问题样本(差异问题样本)。
101.其中,子步骤s202-a3可以包括:从多个聚类簇中确定待处理问题向量所属的目标聚类簇;根据待处理问题向量与目标聚类簇中的各个问题样本向量之间的相似度,确定目标聚类簇中与待处理问题向量最相似的第一预设数目个问题样本向量,并将第一预设数目个问题样本向量所对应的问题样本确定为相似问题样本;从除目标聚类簇以外的其他聚类簇中,随机选取第二预设数目个问题样本向量,并将第二预设数目个问题样本向量所对应的问题样本确定为差异问题样本。
102.在本实施例中,每个聚类簇都有一个中心点(聚类中心),通过计算待处理问题向量与每个聚类中心的相似度,将相似度最高的聚类中心所对应的聚类簇确定为待处理问题向量所属的目标聚类簇。
103.在确定出待处理问题向量所属的目标聚类簇后,将待处理问题向量与目标聚类簇中的每个问题样本向量分别进行相似度计算,按照相似度排序,找到与待处理问题向量最相似的第一预设数目个问题样本向量,将该第一预设数目个问题样本向量所对应的问题样本确定为相似问题样本;对于除目标聚类簇以外的其他聚类簇,可以从每个聚类簇中随机选取第二预设数目个问题样本向量,并将第二预设数目个问题样本向量所对应的问题样本确定为差异问题样本。其中,可以计算向量之间的余弦距离来表征两个向量之间的相似度。
104.如此,通过k-means聚类后,可以获取最相似待处理问题的样本,以及不同类别差异化的样本,作为few shot完成此轮对话。此轮对话完成后,用户重新问一个新问题,那又会进行一次k-means的空间距离计算,重新选取few shot用于对话。
105.具体实现可以是:system里面放prompt+few shot,用户问的问题放到user中,大语言模型回复的内容在assistant的json字段中返回。例如:
106.messages=[{"role":"system","content":"you are a helpful assistant."},
[0107]
{"role":"user","content":"who won the world series in 2020?"},
[0108]
{"role":"assistant","content":"the los angeles dodgers won the world series in 2020."}]
[0109]
需要说明的是,本实施例中相似问题样本和差异问题样本的选取数量可以根据实际场景需要设置。例如在目标聚类簇中选取5个最相似的问题样本向量,将对应的问题样本
作为相似问题样本,以及从其他每个聚类簇中随机选取2个问题样本向量,将对应的问题样本确定为差异问题样本。
[0110]
在实际应用中,由于一些文本内容比较复杂,如领域专业术语、语言模糊、语法错误等,这些因素会对文本embedding的效果造成影响。除此之外,文本embedding是一个通用的技术,可以应用于多种不同的任务中,但是不同任务之间的语义和上下文差异很大,如果模型针对的任务与实际任务不匹配,那么效果就会受到影响。
[0111]
为了解决few shot中,最相似的那些few shot选择不对的问题,本实施例中采用大语言模型先对文本关键词做一个提取,从而减少文本复杂度对embedding的影响。请参照图4,在另一种实施方式中,上述步骤s202还可以包括:
[0112]
子步骤s202-b1,对待处理问题以及预设的样本数据库中的每个问题样本分别进行嵌入处理,得到待处理问题对应的第一待处理问题向量以及每个问题样本对应的第一问题样本向量。
[0113]
子步骤s202-b2,对各第一问题样本向量进行聚类,得到多个第一聚类簇。
[0114]
其中,子步骤s202-b1和子步骤s202-b2是直接对待处理问题以及问题样本进行embedding,然后进行k-means聚类,故与前述子步骤s202-a1、子步骤s202-a2的原理类似,为避免重复,此处不再赘述。
[0115]
子步骤s202-b3,对待处理问题以及预设的样本数据库中的每个问题样本分别进行关键词提取,并对待处理问题对应的关键词提取结果、每个问题样本对应的关键词提取结果分别进行嵌入处理,得到待处理问题对应的第二待处理问题向量以及每个问题样本对应的第二问题样本向量。
[0116]
在本实施例中,除了直接对待处理问题以及问题样本进行embedding之外,还需要对待处理问题以及样本数据库中的每个问题样本进行关键词提取,基于提取出的关键词进行embedding,得到相应的向量。
[0117]
也即是说,本实施例中的第一待处理问题向量和第二待处理问题向量的主要区别在于前者是直接对文本进行embedding得到的文本向量,后者是基于文本关键词进行embedding得到的文本向量。同理,第一问题样本向量和第二问题样本向量的区别也是在于是直接对文本进行embedding,还是基于文本关键词进行embedding。
[0118]
在本实施例中,可以通过prompt设置让大语言模型完成关键字提取,即对样本数据库中的问题样本均提取关键词,通过prompt设置让大语言模型完成关键词提取,提取到的关键词再通过embedding及k-means再做一次聚类,但此次聚类只用于选取最相似样本,不需要处理差异化样本。如图5所示,为关键字提取的prompt及few shot的一种示例。
[0119]
子步骤s202-b4,对各第二问题样本向量进行聚类,得到多个第二聚类簇。
[0120]
在本实施例中,同样可以采用k-means算法对各第二问题样本向量进行聚类。
[0121]
子步骤s202-b5,根据多个第一聚类簇、第一待处理问题向量、多个第二聚类簇和第二待处理问题向量,获取相似问题样本和差异问题样本;相似问题样本从第一目标聚类簇中的第一问题样本向量所对应的问题样本以及第二目标聚类簇中的第二问题样本向量所对应的问题样本中确定;第一目标聚类簇为第一待处理问题向量所属的第一聚类簇,第二目标聚类簇为第二待处理问题向量的第二聚类簇;差异问题样本从除第一目标聚类簇以外的其他第一聚类簇中的第一问题样本向量所对应的问题样本中确定。
[0122]
在本实施例中,通过多个第一聚类簇和第一待处理问题向量可以选取出相似问题样本和差异问题样本,考虑到文本复杂或者语句比较长等场景下,直接对文本进行embedding然后k-means聚类的方式选取出的相似问题样本可能不够准确,故会对文本进行关键词提取,基于文本关键词进行embedding然后k-means聚类,并选取出相似问题样本。将两次聚类选出的相似样本,以及直接对文本进行embedding然后k-means聚类的方式选出的差异样本作为few shot,更有助于模型理解任务,从而输出准确的结果。
[0123]
其中,子步骤s202-b5可以包括:从多个第一聚类簇中确定第一待处理问题向量所属的第一目标聚类簇;根据第一待处理问题向量与第一目标聚类簇中的各个第一问题样本向量之间的相似度,确定与第一待处理问题向量最相似的第一预设数量个第一问题样本向量;从多个第二聚类簇中确定第二待处理问题向量所属的第二目标聚类簇;根据第二待处理问题向量与第二目标聚类簇中的各个第二问题样本向量之间的相似度,确定与第二待处理问题向量最相似的第二预设数量个第二问题样本向量;将第一预设数量个第一问题样本向量对应的问题样本以及第二预设数量个第二问题样本向量对应的问题样本确定为相似问题样本;从除第一目标聚类簇以外的其他第一聚类簇中,随机选取第三预设数量个第一问题样本向量,并将第三预设数量个第一问题样本向量对应的问题样本确定为差异问题样本。
[0124]
在本实施例中,电子设备可以通过计算第一待处理问题向量与每个第一聚类簇的聚类中心的相似度,来确定第一待处理问题向量所属的第一目标聚类簇;以及通过计算第二待处理问题向量与每个第二聚类簇的聚类中心的相似度,确定第二待处理问题向量所属的第二目标聚类簇。
[0125]
将第一待处理问题向量与第一目标聚类簇中的每个第一问题样本向量分别进行相似度计算,按照相似度排序,找到与第一待处理问题向量最相似的第一预设数量个第一问题样本向量;将第二待处理问题向量与第二目标聚类簇中的每个第二问题样本向量分别进行相似度计算,按照相似度排序,找到与第二待处理问题向量最相似的第二预设数量个第二问题样本向量;将第一预设数量个第一问题样本向量对应的问题样本以及第二预设数量个第二问题样本向量对应的问题样本确定为相似问题样本。
[0126]
对于除第一目标聚类簇以外的其他第一聚类簇,在每个第一聚类簇中随机选取第三预设数量个第一问题样本向量,并将第三预设数量个第一问题样本向量对应的问题样本确定为差异问题样本。
[0127]
可以理解的是,上述第一预设数量、第二预设数量以及第三预设数量可以根据实际场景需要设置。例如,可以在第一目标聚类簇中选取5个最相似的第一问题样本向量,在第二目标聚类簇中选取5个最相似的第二问题样本向量,并将该5个最相似的第一问题样本向量以及5个最相似的第二问题样本向量对应的问题样本作为相似问题样本,从其他每个第一聚类簇中随机选取2个问题样本向量,将对应的问题样本确定为差异问题样本。
[0128]
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种文本处理装置的实现方式。请参阅图6,为本发明实施例提供的文本处理装置600的一种功能模块图。需要说明的是,本实施例所提供的文本处理装置600,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该文本处理装置600包括:文本获取模块610、样本获取模块620和输入模块630。
[0129]
文本获取模块610,用于获取用户输入的提示文本;提示文本中包括待处理问题。
[0130]
可以理解,该文本获取模块610可以执行上述步骤s201。
[0131]
样本获取模块620,用于根据待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;相似问题样本与待处理问题属于同一类别,差异问题样本与待处理问题属于不同类别;样本数据库包括多个问题样本以及各问题样本对应的答案样本,相似问题样本和相似问题样本对应的答案样本构成相似样本,差异问题样本和差异问题样本对应的答案样本构成差异样本。
[0132]
可以理解,该样本获取模块620可以执行上述步骤s202。
[0133]
输入模块630,用于将提示文本、相似样本和差异样本输入预训练模型,获得待处理问题对应的答案。
[0134]
可以理解,该输入模块630可以执行上述步骤s203。
[0135]
可选地,该样本获取模块620用于对待处理问题以及预设的样本数据库中的每个问题样本分别进行嵌入处理,得到待处理问题对应的待处理问题向量以及每个问题样本对应的问题样本向量;对各问题样本向量进行聚类,得到多个聚类簇;根据多个聚类簇和待处理问题向量,获取相似问题样本和差异问题样本;相似问题样本从目标聚类簇中的问题样本向量所对应的问题样本中确定,目标聚类簇为待处理问题向量所属的聚类簇;差异问题样本从除目标聚类簇以外的其他聚类簇中的问题样本向量所对应的问题样本中确定。
[0136]
其中,该样本获取模块620具体用于从多个聚类簇中确定待处理问题向量所属的目标聚类簇;根据待处理问题向量与目标聚类簇中的各个问题样本向量之间的相似度,确定目标聚类簇中与待处理问题向量最相似的第一预设数目个问题样本向量,并将第一预设数目个问题样本向量所对应的问题样本确定为相似问题样本;从除目标聚类簇以外的其他聚类簇中,随机选取第二预设数目个问题样本向量,并将第二预设数目个问题样本向量所对应的问题样本确定为差异问题样本。
[0137]
可以理解,该样本获取模块620还可以执行上述子步骤s202-a1~子步骤s202-a3。
[0138]
可选地,该样本获取模块620还可以用于对待处理问题以及预设的样本数据库中的每个问题样本分别进行嵌入处理,得到待处理问题对应的第一待处理问题向量以及每个问题样本对应的第一问题样本向量;对各第一问题样本向量进行聚类,得到多个第一聚类簇;对待处理问题以及预设的样本数据库中的每个问题样本分别进行关键词提取,并对待处理问题对应的关键词提取结果、每个问题样本对应的关键词提取结果分别进行嵌入处理,得到待处理问题对应的第二待处理问题向量以及每个问题样本对应的第二问题样本向量;对各第二问题样本向量进行聚类,得到多个第二聚类簇;根据多个第一聚类簇、第一待处理问题向量、多个第二聚类簇和第二待处理问题向量,获取相似问题样本和差异问题样本;相似问题样本从第一目标聚类簇中的第一问题样本向量所对应的问题样本以及第二目标聚类簇中的第二问题样本向量所对应的问题样本中确定;第一目标聚类簇为第一待处理问题向量所属的第一聚类簇,第二目标聚类簇为第二待处理问题向量的第二聚类簇;差异问题样本从除第一目标聚类簇以外的其他第一聚类簇中的第一问题样本向量所对应的问题样本中确定。
[0139]
其中,该样本获取模块620还具体用于从多个第一聚类簇中确定第一待处理问题向量所属的第一目标聚类簇;根据第一待处理问题向量与第一目标聚类簇中的各个第一问
题样本向量之间的相似度,确定与第一待处理问题向量最相似的第一预设数量个第一问题样本向量;从多个第二聚类簇中确定第二待处理问题向量所属的第二目标聚类簇;根据第二待处理问题向量与第二目标聚类簇中的各个第二问题样本向量之间的相似度,确定与第二待处理问题向量最相似的第二预设数量个第二问题样本向量;将第一预设数量个第一问题样本向量对应的问题样本以及第二预设数量个第二问题样本向量对应的问题样本确定为相似问题样本;从除第一目标聚类簇以外的其他第一聚类簇中,随机选取第三预设数量个第一问题样本向量,并将第三预设数量个第一问题样本向量对应的问题样本确定为差异问题样本。
[0140]
可以理解,该样本获取模块620还可以执行上述子步骤s202-b1~子步骤s202-b5。
[0141]
可见,本发明实施例提供的文本处理装置,包括文本获取模块、样本获取模块和输入模块,通过文本获取模块获取用户输入的提示文本;提示文本中包括待处理问题;样本获取模块根据待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;相似问题样本与待处理问题属于同一类别,差异问题样本与待处理问题属于不同类别;样本数据库包括多个问题样本以及各问题样本对应的答案样本,相似问题样本和相似问题样本对应的答案样本构成相似样本,差异问题样本和差异问题样本对应的答案样本构成差异样本;输入模块将提示文本、相似样本和差异样本输入预训练模型,获得待处理问题对应的答案。由于输入预训练模型中的样本数据既有与待处理问题属于同一类别的相似问题样本及对应的答案样本,又有与待处理问题属于不同类别的差异问题样本及对应的答案样本,即样本数据中的语料资源既有相似度,又有差异化,在确保击中用户正在问的问题的同时,还提供更多样化的数据帮助模型理解要完成的任务,故能使预训练模型的输出结果更准确,更好地适应不同业务场景。
[0142]
请参照图7,为本发明实施例提供的电子设备100的一种方框示意图。该电子设备100包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
[0143]
其中,存储器110用于存储程序或者数据。存储器110可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。
[0144]
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。例如,当存储器110中存储的计算机程序被处理器120执行时,可以实现上述各实施例所揭示的文本处理方法。
[0145]
通信模块130用于通过网络建立电子设备100与其它设备之间的通信连接,并用于通过网络收发数据。
[0146]
应当理解的是,图7所示的结构仅为电子设备100的结构示意图,电子设备100还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
[0147]
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计
算机程序被处理器120执行时实现上述各实施例所揭示的文本处理方法。
[0148]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0149]
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
[0150]
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0151]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种文本处理方法,其特征在于,所述方法包括:获取用户输入的提示文本;所述提示文本中包括待处理问题;根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;所述相似问题样本与所述待处理问题属于同一类别,所述差异问题样本与所述待处理问题属于不同类别;所述样本数据库包括多个问题样本以及各所述问题样本对应的答案样本,所述相似问题样本和所述相似问题样本对应的答案样本构成相似样本,所述差异问题样本和所述差异问题样本对应的答案样本构成差异样本;将所述提示文本、所述相似样本和所述差异样本输入预训练模型,获得所述待处理问题对应的答案。2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本,包括:对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理,得到所述待处理问题对应的待处理问题向量以及每个所述问题样本对应的问题样本向量;对各所述问题样本向量进行聚类,得到多个聚类簇;根据多个所述聚类簇和所述待处理问题向量,获取相似问题样本和差异问题样本;所述相似问题样本从目标聚类簇中的问题样本向量所对应的问题样本中确定,所述目标聚类簇为所述待处理问题向量所属的聚类簇;所述差异问题样本从除所述目标聚类簇以外的其他聚类簇中的问题样本向量所对应的问题样本中确定。3.根据权利要求2所述的方法,其特征在于,所述根据多个所述聚类簇和所述待处理问题向量,获取相似问题样本和差异问题样本,包括:从多个所述聚类簇中确定所述待处理问题向量所属的目标聚类簇;根据所述待处理问题向量与所述目标聚类簇中的各个问题样本向量之间的相似度,确定所述目标聚类簇中与所述待处理问题向量最相似的第一预设数目个问题样本向量,并将所述第一预设数目个问题样本向量所对应的问题样本确定为相似问题样本;从除所述目标聚类簇以外的其他聚类簇中,随机选取第二预设数目个问题样本向量,并将所述第二预设数目个问题样本向量所对应的问题样本确定为差异问题样本。4.根据权利要求1所述的方法,其特征在于,所述根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本,包括:对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理,得到所述待处理问题对应的第一待处理问题向量以及每个所述问题样本对应的第一问题样本向量;对各所述第一问题样本向量进行聚类,得到多个第一聚类簇;对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行关键词提取,并对所述待处理问题对应的关键词提取结果、每个所述问题样本对应的关键词提取结果分别进行嵌入处理,得到所述待处理问题对应的第二待处理问题向量以及每个所述问题样本对应的第二问题样本向量;对各所述第二问题样本向量进行聚类,得到多个第二聚类簇;根据多个所述第一聚类簇、所述第一待处理问题向量、多个第二聚类簇和所述第二待处理问题向量,获取相似问题样本和差异问题样本;所述相似问题样本从第一目标聚类簇
中的第一问题样本向量所对应的问题样本以及第二目标聚类簇中的第二问题样本向量所对应的问题样本中确定;所述第一目标聚类簇为所述第一待处理问题向量所属的第一聚类簇,所述第二目标聚类簇为所述第二待处理问题向量所述的第二聚类簇;所述差异问题样本从除所述第一目标聚类簇以外的其他第一聚类簇中的第一问题样本向量所对应的问题样本中确定。5.根据权利要求4所述的方法,其特征在于,所述根据多个所述第一聚类簇、所述第一待处理问题向量、多个第二聚类簇和所述第二待处理问题向量,获取相似问题样本和差异问题样本,包括:从多个所述第一聚类簇中确定所述第一待处理问题向量所属的第一目标聚类簇;根据所述第一待处理问题向量与所述第一目标聚类簇中的各个第一问题样本向量之间的相似度,确定与所述第一待处理问题向量最相似的第一预设数量个第一问题样本向量;从多个所述第二聚类簇中确定所述第二待处理问题向量所属的第二目标聚类簇;根据所述第二待处理问题向量与所述第二目标聚类簇中的各个第二问题样本向量之间的相似度,确定与所述第二待处理问题向量最相似的第二预设数量个第二问题样本向量;将所述第一预设数量个第一问题样本向量对应的问题样本以及所述第二预设数量个第二问题样本向量对应的问题样本确定为相似问题样本;从除所述第一目标聚类簇以外的其他第一聚类簇中,随机选取第三预设数量个第一问题样本向量,并将所述第三预设数量个第一问题样本向量对应的问题样本确定为差异问题样本。6.一种文本处理装置,其特征在于,所述装置包括:文本获取模块,用于获取用户输入的提示文本;所述提示文本中包括待处理问题;样本获取模块,用于根据所述待处理问题和预设的样本数据库获取相似问题样本和差异问题样本;所述相似问题样本与所述待处理问题属于同一类别,所述差异问题样本与所述待处理问题属于不同类别;所述样本数据库包括多个问题样本以及各所述问题样本对应的答案样本,所述相似问题样本和所述相似问题样本对应的答案样本构成相似样本,所述差异问题样本和所述差异问题样本对应的答案样本构成差异样本;输入模块,用于将所述提示文本、所述相似样本和所述差异样本输入预训练模型,获得所述待处理问题对应的答案。7.根据权利要求6所述的装置,其特征在于,所述样本获取模块用于对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理,得到所述待处理问题对应的待处理问题向量以及每个所述问题样本对应的问题样本向量;对各所述问题样本向量进行聚类,得到多个聚类簇;根据多个所述聚类簇和所述待处理问题向量,获取相似问题样本和差异问题样本;所述相似问题样本从目标聚类簇中的问题样本向量所对应的问题样本中确定,所述目标聚类簇为所述待处理问题向量所属的聚类簇;所述差异问题样本从除所述目标聚类簇以外的其他聚类簇中的问题样本向量所对应的问题样本中确定。8.根据权利要求6所述的装置,其特征在于,所述样本获取模块用于对所述待处理问题
以及预设的样本数据库中的每个所述问题样本分别进行嵌入处理,得到所述待处理问题对应的第一待处理问题向量以及每个所述问题样本对应的第一问题样本向量;对各所述第一问题样本向量进行聚类,得到多个第一聚类簇;对所述待处理问题以及预设的样本数据库中的每个所述问题样本分别进行关键词提取,并对所述待处理问题对应的关键词提取结果、每个所述问题样本对应的关键词提取结果分别进行嵌入处理,得到所述待处理问题对应的第二待处理问题向量以及每个所述问题样本对应的第二问题样本向量;对各所述第二问题样本向量进行聚类,得到多个第二聚类簇;根据多个所述第一聚类簇、所述第一待处理问题向量、多个第二聚类簇和所述第二待处理问题向量,获取相似问题样本和差异问题样本;所述相似问题样本从第一目标聚类簇中的第一问题样本向量所对应的问题样本以及第二目标聚类簇中的第二问题样本向量所对应的问题样本中确定;所述第一目标聚类簇为所述第一待处理问题向量所属的第一聚类簇,所述第二目标聚类簇为所述第二待处理问题向量所述的第二聚类簇;所述差异问题样本从除所述第一目标聚类簇以外的其他第一聚类簇中的第一问题样本向量所对应的问题样本中确定。9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的文本处理方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的文本处理方法的步骤。
技术总结
本发明提出一种文本处理方法、装置、电子设备和计算机可读存储介质,涉及自然语言处理技术领域。该方法通过获取用户输入的提示文本,根据提示文本中的待处理问题和预设的样本数据库,获取与待处理问题属于同一类别的相似问题样本、与待处理问题属于不同类别的差异问题样本,将相似问题样本、相似问题样本对应的答案样本、差异问题样本、差异问题样本对应的答案样本作为样本数据,与提示文本一起输入预训练模型,获得待处理问题对应的答案。由于输入预训练模型的样本数据中既有相似样本又有差异样本,在确保击中用户正在问的问题的同时,还提供更多样化的数据帮助模型理解要完成的任务,故能使模型输出结果更准确,更好地适应不同业务场景。应不同业务场景。应不同业务场景。
技术研发人员:芦爱余
受保护的技术使用者:广州虎牙科技有限公司
技术研发日:2023.06.02
技术公布日:2023/9/5
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/