提升用户对话理解和ChatGPT回答质量的可视分析方法和系统
未命名
10-18
阅读:85
评论:0

提升用户对话理解和chatgpt回答质量的可视分析方法和系统
技术领域
1.本文涉及时序主题文本数据分析及对话可视化的技术领域,尤其涉及一种提升用户对话理解和chatgpt回答质量的可视分析方法和系统。
背景技术:
2.chatgpt作为一种人工智能驱动的自然语言处理工具,在各个领域表现出了出色的性能,尤其是在自然语言理解和生成任务方面。借助其丰富的数据储备和高效的设计,chatgpt能够解读和理解用户请求,并产生可靠回答以完成复杂任务。在复杂的使用场景下,用户倾向于与chatgpt进行多轮对话来保持上下文信息并获得更全面的回答。然而在用户与chatgpt的多轮对话场景中,提升用户对话理解和chatgpt回答质量至关重要。
3.针对提升用户对话理解问题,现有的方法主要关注主题演变和对话内容与关系的可视呈现,而忽略了内容演变的详尽呈现以及对话的完整结构和复杂性,限制了用户对整体对话结构的全面把握与深入分析。
4.针对提升chatgpt回答质量问题,现有方法主要关注优化模型的内部结构和算法,比如应用更复杂的注意力机制。尽管大语言模型内部优化方法取得了一定进展,但它们并未充分挖掘用户参与改善模型上下文关联方面的潜力。
技术实现要素:
5.为了解决上述问题,本发明提供了一种提升用户对话理解和chatgpt回答质量的可视分析方法和系统。
6.提升用户对话理解和chatgpt回答质量的可视分析方法,包括以下步骤:
7.s1.获取用户与chatgpt的历史对话并将其分解成多个对话节点,每个节点包含一个用户提问和相应的chatgpt回答。
8.s2.以所述数据预处理模块为基础,使用多粒度主题分类方法对原始数据进行分析,获取带有时序信息的多层次主题文本数据,包括以下步骤:
9.s21.使用gpt3.5-turbo模型对所有对话节点进行文本摘要,文本摘要结果长度不超过100个汉字;
10.s22.使用gpt3.5-turbo模型对所有对话节点进行主题提取。具体来说,构建以下提示语:“基于主题建模(topic modeling)思路,从给出的多个对话节点信息中提取出多个主题,主题的个数不多于5个,主题下不再细分为子主题。输出的主题之间用\n来分隔开,不要有其他输出。下面是所有的对话节点信息:”。将以上提示语附上所有对话节点的摘要一起发送给gpt3.5-turbo来抽取对话中的主题;
11.s23.使用text-embedding-ada-002模型对每一个历史对话节点和归纳的主题进行文本向量化,将文本嵌入到1536维的数值表示,用于后续计算文本之间的相似度;
12.s24.使用余弦相似度匹配历史对话节点和对应主题,如果相似度超过预设的阈
值,将该对话节点归属到该主题,实现主题分类;
13.s25.使用gpt3.5-turbo模型对每个主题下的所有对话节点进行子主题提取,再使用余弦相似度匹配该主题下的所有对话节点和子主题,如果相似度超过预设的阈值,将该对话节点归属到该子主题,实现子主题分类。
14.数据呈现模块s3.将带有时序信息的多层次主题文本导入预构建的可视化模型用于数据呈现,包括:
15.步骤s31.对话全局,摆动排序呈现对话发展趋势和主题的切换;
16.步骤s32.特定主题子,力导向布局和正交格栅布局呈现特定主题知识关联;
17.步骤s33.上下文关联问答,关联上下文信息来生产可靠问答。
18.具体的,步骤s31通过刷选组件来刷选部分区域以在对话流组件上放大呈现局部对话细节,呈现对话的发展趋势和主题的切换。
19.优选的,步骤s31中刷选组件和对话流组件上主题位置由摆动排序方法计算得出,减少用户视觉感知的移动距离。
20.进一步,对于摆动排序,现有的对话数据可以表示为一个有固定数量节点的图g=(v,ei),这个图的邻接矩阵表示为a=(a
ij
),其中a
ij
表示对话过程中从主题i转移到主题j的次数。这些主题的位置以离散的方式从上到下进行编码,并引入0-1决策变量x
ij
,其含义如下:
[0021][0022]
利用上述决策变量,本专利构建了如下形式的数学优化模型:
[0023]
min∑
i,j,k,l
|j-l|x
ij
x
klaik
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0024][0025]
其中,公式(2)中的约束条件为指派约束,确保了每个主题只能处在一个位置,且每个位置只能有一个主题。由于公式(1)中的变量离散,目标函数为一个二次函数,约束条件为线性条件,因此该模型为整数二次规划模型。
[0026]
具体的,步骤s32提供两种可选的布局方式来展示所选主题下所有问答节点的知识关联:统一分布的力导向图布局和正交栅格布局。在统一分布的力导向图布局策略中,分别设定了x和y轴方向上的力,使得节点在二维空间内均匀分布。同时,引入节点间的斥力,具体表示为:
[0027][0028]
这里的常数k表示一个缩放因子,而常数r表示节点之间的期望间隔。表示节点i和节点j之间的欧式距离的平方,而p
i-pj表示从节点i到节点j的向量。
[0029]
此外,设定连接线的拉力与节点间相似度成正比,从而使相似节点彼此靠近,具体表示为:
[0030][0031]
其中,s
ij
代表节点i与节点j之间的相似度,d
ij
表示节点i和节点j之间的欧式距离。最后,将力导向图布局的中心点设置在子模块的中心位置,以实现更优的可视化效果。该布局方式支持用户从感兴趣的节点出发探索相关的对话历史。
[0032]
进一步,步骤s32所述的正交栅格布局的实现包括以下步骤:
[0033]
将二维空间划分为规则网格,二维空间的行列数根据节点数动态调整;
[0034]
将每个节点分配到与其相似度最高的子主题集合中。对每个子主题集合,将节点按照时序关系按照从左到右、从上到下的顺序依次排列;
[0035]
根据子主题出现的时间顺序,将它们按照时序进行排序,较早出现的子主题在布局中更靠前。同时支持用户反馈,以了解用户更关注哪些子主题,然后根据用户需求对子主题进行排序;
[0036]
具体的,步骤s33包括内容查看组件、上下文列表以及提问组件。
[0037]
具体的,在用户将呈现在内容查看组件的历史对话信息加入上下文列表后,为了让chatgpt更高效地关联用户提供的上下文信息以提供可靠回答,通过以下步骤进行信息压缩和处理:
[0038]
将用户添加到上下文列表的对话按照段落进行划分,将每一段话进行向量化后计算与问题的余弦相似度,只保留高于阈值0.9的段落;
[0039]
计算段落之间的余弦相似度,融合段落之间相似度高于0.98的段落以减少信息的冗余。同时使用gpt模型对所有的段落进行主题提取并让用户为这些主题进行排序以确定上下文信息的叙事逻辑。最后将段落按主题进行归类并按段落和主题的相似度确定主题下段落的顺序;
[0040]
使用生成式摘要生成技术从重组的对话历史中抽取关键信息来进行信息抽象;
[0041]
允许用户在信息抽象的结果上进行注释,这些注释将作为更加人性化的额外上下文信息提供给chatgpt。
[0042]
与现有技术相比,本发明的有益效果:
[0043]
本发明提供的提升用户对话理解和chatgpt回答质量的可视分析方法中,用户可以从不同主题层次对历史对话进行探索,可以快速且高效地回忆历史对话内容,有效解决多轮对话场景下人类遗忘的问题。在用户提问后,利用可视化提示用户历史对话中可能存在的与问题高度相关的节点,支持用户查看并决定是否加入到问题的上下文信息中,使得chatgpt可以关联到任意时间与问题高度相关的对话内容,从而提升chatgpt上下文关联表现。
附图说明
[0044]
图1为本实施例提供的一种提升用户对话理解和chatgpt回答质量的可视化分析方法流程图;
[0045]
图2是本发明的数据分析具体流程图;
[0046]
图3是本发明的可视分析的界面示意图;
[0047]
图4是本发明的摆动排序流程图。
具体实施方案
[0048]
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。、
[0049]
实施例一
[0050]
请参阅图1,一种提升用户对话理解和chatgpt回答质量的可视分析方法,包括以下步骤:
[0051]
s1.获取用户与chatgpt的对话历史并将其分解成多个对话节点,每个节点包含一个用户提问和相应的chatgpt回答,包括:
[0052]
s11首先从网站获取用户与chatgpt的对话历史。
[0053]
s12将对话历史分解成多个对话节点,每个节点包含一个用户提问和相应的chatgpt回答。
[0054]
s2.使用多粒度主题分类方法对原始数据进行分析,获取带有时序信息的多层次主题文本数据,包括以下步骤:
[0055]
s21将对话历史所有对话节点进行文本摘要,生成的结果长度要求少于100个汉字。
[0056]
s22对所有对话节点进行主题提取。构建以下提示语:“基于主题建模(topic modeling)思路,从给出的多个对话节点信息提取出多个主题,主题的个数不多于5个,主题下不再细分为子主题。输出的主题之间用\n来分隔开,不要有其他输出。下面是所有的对话节点信息:”。将以上提示语附上所有对话节点的摘要一起发送给gpt3.5-turbo来抽取对话中的主题。
[0057]
s23将每一个历史对话节点和归纳的主题进行文本向量化,将文本嵌入到1536维的数值表示,用于后续计算文本之间的相似度。
[0058]
s24使用余弦相似度匹配历史对话节点和对应主题,如果相似度超过预设值0.9,则将该对话节点归属到该主题来实现主题分类。
[0059]
s25对每个主题下的所有对话节点进行子主题提取,再使用余弦相似度匹配该主题下的所有对话节点和子主题,如果相似度超过预设值0.9,则将该对话节点归属到该子主题,来实现子主题分类。
[0060]
s3.将带有时序信息的多层次主题文本数据导入预构建的可视化模型用于数据呈现,包括:
[0061]
s31使用摆动排序计算出最优的主题排序,以此来呈现对话发展趋势和主题的切换。具体步骤请参阅图2,
[0062]
首先从文件中加载对话数据;根据对话数据,将对话中的主题映射到图的节点,并构建主题之间的关系图;利用二次指派问题的优化模型,计算出最优的主题排序,以最小化目标函数为目标,并考虑约束条件;最后将最优排序结果保存输出。
[0063]
s32统一分布的力导向图布局和正交栅格布局来展示所选主题下所有问答节点的
知识关联。在统一分布的力导向图布局策略中,分别设定了x和y轴方向上的力,使得节点在二维空间内均匀分布。同时引入节点间的斥力。此外,设定连接线的拉力与节点间相似度成正比,从而使相似节点彼此靠近。最后,将力导向图布局的中心点设置在子模块的中心位置,以实现更优的可视化效果。该布局方式支持用户从感兴趣的节点出发探索相关的对话历史。
[0064]
另一个可选的正交栅格布局的实现包括步骤:将二维空间划分为规则网格,二维空间的行列数根据节点数动态调整;将每个节点分配到与其相似度最高的子主题集合中。对每个子主题集合,将节点按照时序关系按照从左到右、从上到下的顺序依次排列;根据子主题出现的时间顺序,将它们按照时序进行排序,较早出现的子主题在布局中更靠前。同时支持用户反馈,以了解用户更关注哪些子主题,然后根据用户需求对子主题进行排序。
[0065]
s33关联用户提供的上下文信息来生成可靠回答。用户首先提出问题,对话全局视图子模块提示与该问题高度相关的对话节点,用户可以选择性地将部分历史对话添加到上下文列表。为了让chatgpt更高效地关联用户提供的上下文信息以提供可靠回答,通过以下步骤进行信息压缩和处理:
[0066]
将上下文列表中的对话按照段落进行划分,将每一段话进行向量化后计算与问题的余弦相似度,只保留高于预设值0.9的段落;
[0067]
计算段落之间的余弦相似度,融合段落之间相似度高于0.98的段落以减少信息的冗余。同时使用gpt模型对所有的段落进行主题提取并让用户为这些主题进行排序以确定上下文信息的叙事逻辑。最后将段落按主题进行归类并按段落和主题的相似度确定主题下段落的顺序;
[0068]
使用生成式摘要生成技术,从重组的对话历史中抽取关键信息来进行信息抽象;
[0069]
允许用户在信息抽象的结果上进行注释,这些注释将作为更加人性化的额外上下文信息提供给chatgpt。
[0070]
chatgpt根据上述处理后的上下文信息生成可靠回答来提升模型上下文关联方面的能力。
[0071]
如图2所示,本发明的数据分析的具体流程包括:
[0072]
步骤1、对话节点生成,从网页上抓取用户与chatgpt的历史对话记录并从中提取出问题和相应的答案,并将其作为一个对话节点。
[0073]
步骤2、文本向量化,采用基于gpt-3.5的向量化模型,将文本嵌入到1536维的数值表示,用于后续计算文本之间的相似度。
[0074]
步骤3、主题提取,使用gpt3.5-turbo对所有对话节点进行主题提取,具体来说,构建合适的prompt,要求gpt3.5-turbo为历史对话数据总结出几个主题,再将所有对话节点的摘要和prompt一起发送给gpt3.5-turbo来抽取对话中的主题。
[0075]
步骤4、主题分类,使用余弦相似度匹配历史对话节点和对应主题,如果相似度超过预设的阈值(0.9),将该对话节点归属到该主题,一个对话节点可以同时属于多个主题,最终实现主题分类。
[0076]
如图3所示,本实施例提供的可视化界面包括:
[0077]
对话全局视图,包含对话流组件(如图3中a1所示),刷选组件(如图3中a2所示),主题标签(如图3中a3所示),搜索组件(如图3中a4所示)和主题分布组件(如图3中a5所示),采
用gitlog图的隐喻,展示对话的结构,用于展示对话整体演变趋势并支持局部显著特征的探索。
[0078]
如图4所示,摆动排序分为四个步骤:
[0079]
步骤1、加载对话数据:从文件中加载对话数据,准备用于后续处理。
[0080]
步骤2、构建图:根据对话数据,将对话中的主题映射到图的节点,并构建主题之间的关系图。
[0081]
步骤3、优化排序:利用二次指派问题的优化模型,计算出最优的节点排序,以最小化目标函数为目标,并考虑约束条件。
[0082]
步骤4、输出结果:将最优排序结果保存到文件中,以便后续使用或进一步分析。
[0083]
具体的,所述步骤3中的优化排序包含:创建优化模型并初始化变量;构建目标函数;添加指派约束,确保每个主题和位置都有唯一对应;设置优化目标为最小化目标函数;设置求解时间限制;解析最优解,存储在结果字典中;返回最优排序结果字典。
[0084]
具体的,现有的对话数据可以表示为一个有固定数量节点的图,表示为g=(v,ei),这个图的邻接矩阵表示为a=(a
ij
),其中a
ij
表示对话过程中从主题i转移到主题j的次数。这些主题的位置以离散的方式从上到下进行编码,并引入0-1决策变量x
ij
,其含义如下:
[0085][0086]
利用上述决策变量,本专利构建了如下形式的数学优化模型:
[0087]
min∑
i,j,k,l
|j-l|x
ij
x
klaik
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0088][0089]
其中,公式(6)中的约束条件为指派约束,确保了每个主题只能处在一个位置,且每个位置只能有一个主题。由于公式(5)中的变量离散,目标函数为一个二次函数,约束条件为线性条件,因此该模型为整数二次规划模型。
[0090]
特定主题视图,其采用知识图谱结构显示特定主题内的所有对话节点及其关系,用于展示该主题下对话的相关性和演变。
[0091]
上下文关联问答视图,包含内容查看组件(如图3中c1所示),上下文列表(如图3中c2所示)和提问组件(如图3中c3所示),用于展示特定对话节点详细信息,并允许用户在提问时提供特定的上下文信息。
[0092]
为了更好的说明本发明的技术效果,以一个用户实际使用的案例进行分析,使用本系统的用户首先导入其与chatgpt的对话历史数据。在这个对话实例中,用户使用chatgpt了阅读一篇论文,接下来他将使用我们的系统,快速回忆起历史对话内容,并且在提问时添加相关的历史对话作为问题的上下文信息补充。
[0093]
在对话全局视图中用户首先观察到历史对话被按照主题进行分类,并且每个主题都以不同颜色进行编码(如图3中a3所示),这在宏观上帮助用户回忆起对话的整体内容。
[0094]
在对话全局视图中主题分布组件上(如图3中a5所示),用户查看到每个主题在整个对话过程中的每个区间上对话节点数量,从而获知每个主题在对话过程中的分布情况。并且,在刷选组件(如图3中a2所示)上,用户能够观察到各主题在时间轴上的分布。为了深入了解某时间段内的对话细节,用户在刷选组件上刷选了感兴趣的区域,对话流组件(如图3中a1所示)则放大显示了所选区域的对话节点。
[0095]
在对话全局视图中对话流组件上,呈现了刷选区域对话的词云,用户对“插值”一词产生兴趣,当鼠标悬停该词上时,对话节点根据词频呈现出不同程度的高亮。其中节点24的高亮程度最为明显,鼠标放置在节点24上则显示该对话节点的概览图,点击该对话节点则显示对应的详细对话信息(如图3中c1所示)。
[0096]
在上述探索过程中,用户关注到一个新的名词“数据故事”并在搜索框中输入该词,刷选组件(如图3中a2所示)通过高亮节点的形式提示用户与该关键词高度相关的全局对话节点。
[0097]
完成对话全局视图的探索后,他希望进一步了解“插值器和事实嵌入器”主题下的相关内容,因此点击了相应图例。在特定主题视图(如图3中b所示)中,显示了该主题下所有对话节点的知识图谱结构图并且该主题被进一步划分成了三个子主题。
[0098]
通过观察节点24的内层环形图颜色,他发现节点24与其中两个子主题密切相关,其中有他感兴趣的子主题,因此他探索了知识图谱中与该子主题密接相关的节点。另外,他注意到节点24与另外6个对话节点紧密相关,于是他也在内容查看组件(如图3中c1所示)查看了它们的详细信息,从而进一步回顾与该节点相关的其他对话。
[0099]
此外,通过观察节点24的外层环形图颜色,他发现该节点还与主题“叙事可视化”相关,于是他在这个主题上进行了类似的探索过程。经过约5分钟的探索,他大致了解了对话历史的整体脉络,利用特定主题视图的知识图谱,对每个子主题进行了深入研究,以发现潜在的关联。
[0100]
在探索历史对话的过程中,他对叙事可视化和插值器产生了新的见解。他准备在上下文关联问答视图下的提问组件中(如图3中c3所示)提出以下问题:“本文所提出的插值器的优化方向有哪些”,在提出该问题后,对话全局视图下的刷选组件突出显示了与此问题高度相关的对话节点。他重点查看了位于遗忘线之前的高亮节点,并将部分历史对话添加到上下文列表(如图3中c2所示)中。
[0101]
最后,用户点击提交按钮,本发明提供的可视分析系统对上下文信息进一步处理,包括信息筛选、信息重组、信息抽象和信息注释。可视分析系统将问题和处理后的上下文信息一同提交给chatgpt。chatgpt充分关联了相关对话的内容,给出了准确且相关的答案。随后,系统获取本次问答的内容并在经过文本处理后实时更新所有视图。
[0102]
在这一过程中,用户通过使用本发明提供的可视分析系统进行探索,快速回忆并分析其与chatgpt的历史对话内容,同时chatgpt能够关联任意时间的对话内容,提升了其在长对话场景中的上下文关联表现。该过程展示了系统的有效性和可靠性,进一步证实了其作为分析和理解对话历史工具的价值。
[0103]
实施例二
[0104]
本实施例涉及一种用于实现实施例1所述的提升用户对话理解和chatgpt回答质量的可视分析方法的系统。
[0105]
提升用户对话理解和chatgpt回答质量的可视分析系统,包括数据预处理模块、数据分析模块和数据呈现模块;
[0106]
所述数据预处理模块用于获取用户与chatgpt的对话历史并将其分解成多个对话节点,每个节点包含一个用户提问和相应的chatgpt回答。
[0107]
所述数据分析模块以所述数据预处理模块为基础,使用多粒度主题分类方法对原始数据进行分析,获取带有时序信息的多层次主题文本数据,包括以下步骤:
[0108]
使用gpt3.5-turbo模型对所有对话节点进行文本摘要,文本摘要结果长度不超过100个汉字;
[0109]
使用gpt3.5-turbo模型对所有对话节点进行主题提取。具体来说,构建以下提示语:“基于主题建模(topic modeling)思路,从给出的多个对话节点信息中提取出多个主题,主题的个数不多于5个,主题下不再细分为子主题。输出的主题之间用\n来分隔开,不要有其他输出。下面是所有的对话节点信息:”。将以上提示语附上所有对话节点的摘要一起发送给gpt3.5-turbo来抽取对话中的主题;
[0110]
使用text-embedding-ada-002模型对每一个历史对话节点和归纳的主题进行文本向量化,将文本嵌入到1536维的数值表示,用于后续计算文本之间的相似度;
[0111]
使用余弦相似度匹配历史对话节点和对应主题,如果相似度超过预设的阈值,则将该对话节点归属到该主题,实现主题分类;
[0112]
使用gpt3.5-turbo模型对每个主题下的所有对话节点进行子主题提取,再使用余弦相似度匹配该主题下的所有对话节点和子主题,如果相似度超过预设的阈值,将该对话节点归属到该子主题,实现子主题分类;
[0113]
所述数据呈现模块将所述数据分析模块处理后数据导入预构建的可视化模型用于数据呈现,数据呈现模块包括对话全局子模块、特定主题子模块和上下文关联问答子模块。
[0114]
实施例三
[0115]
本实施例涉及一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现实施例一所述的提升用户对话理解和chatgpt回答质量的可视分析方法。
[0116]
实施例四
[0117]
本实施例涉及一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现实施例一所述的提升用户对话理解和chatgpt回答质量的可视分析方法。
技术特征:
1.提升用户对话理解和chatgpt回答质量的可视分析方法,其特征在于,包括以下步骤:s1.获取用户与chatgpt的对话历史并将其分解成多个对话节点,每个节点包含一个用户提问和相应的chatgpt回答;s2.使用多粒度主题分类方法对原始数据进行分析,获取带有时序信息的多层次主题文本数据,包括以下步骤:s21.使用gpt3.5-turbo模型对所有对话节点进行文本摘要,文本摘要结果长度不超过100个汉字;s22.使用gpt3.5-turbo模型对所有对话节点进行主题提取。具体来说,构建以下提示语:“基于主题建模(topic modeling)思路,从给出的多个对话节点信息中提取出多个主题,主题的个数不多于5个,主题下不再细分为子主题。输出的主题之间用\n来分隔开,不要有其他输出。下面是所有的对话节点信息:”。将以上提示语附上所有对话节点的摘要一起发送给gpt3.5-turbo来抽取对话中的主题;s23.使用text-embedding-ada-002模型对每一个历史对话节点和归纳的主题进行文本向量化,将文本嵌入到1536维的数值表示,用于后续计算文本之间的相似度;s24.使用余弦相似度匹配历史对话节点和对应主题,如果相似度超过预设的阈值,则将该对话节点归属到该主题,实现主题分类;s25.使用gpt3.5-turbo模型对每个主题下的所有对话节点进行子主题提取,再使用余弦相似度匹配该主题下的所有对话节点和子主题,如果相似度超过预设的阈值,将该对话节点归属到该子主题,实现子主题分类;s3.将带有时序信息的多层次主题文本数据导入预构建的可视化模型用于数据呈现,包括:步骤s31.对话全局,摆动排序呈现对话发展趋势和主题的切换;步骤s32.特定主题子,力导向布局和正交格栅布局呈现特定主题知识关联;步骤s33.上下文关联问答,关联上下文信息来生产可靠问答。2.根据权利要求1所述的提升用户对话理解和chatgpt回答质量的可视分析方法,其特征在于,步骤s31中刷选组件和对话流组件上主题位置由摆动排序方法计算得出,以减少用户视觉感知的移动距离。3.根据权利要求2所述的提升用户对话理解和chatgpt回答质量的可视分析方法,其特征在于,对于摆动排序,现有的对话数据可以表示为一个有固定数量节点的图g=(v,e
i
),这个图的邻接矩阵表示为a=(a
ij
),其中a
ij
表示对话过程中从主题i转移到主题j的次数。这些主题的位置以离散的方式从上到下进行编码,并引入0-1决策变量x
ij
,其含义如下:利用上述决策变量,本专利构建了如下形式的数学优化模型:min∑
i,j,k,l
|j-l|x
ij
x
kl
a
ik
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
其中,公式(2)中的约束条件为指派约束,确保了每个主题只能处在一个位置,且每个位置只能有一个主题。由于公式(1)中的变量离散,目标函数为一个二次函数,约束条件为线性条件,因此该模型为整数二次规划模型。4.根据权利要求1所述的提升用户对话理解和chatgpt回答质量的可视分析方法,其特征在于,所述步骤32提供两种可选的布局方式来展示所选主题下所有问答节点的知识关联:统一分布的力导向图布局和正交栅格布局。在统一分布的力导向图布局策略中,分别设定了x和y轴方向上的力,使得节点在二维空间内均匀分布。同时,引入节点间的斥力,具体表示为:这里的常数k表示一个缩放因子,而常数r表示节点之间的期望间隔。表示节点i和节点j之间的欧式距离的平方,而p
i-p
j
表示从节点i到节点j的向量。此外,设定连接线的拉力与节点间相似度成正比,从而使相似节点彼此靠近,具体表示为:其中,s
ij
代表节点i与节点j之间的相似度,d
ij
表示节点i和节点j之间的欧式距离。最后,将力导向图布局的中心点设置在子模块的中心位置,以实现更优的可视化效果。该布局方式支持用户从感兴趣的节点出发探索相关的对话历史。5.根据权利要求4所述的提升用户对话理解和chatgpt回答质量的可视分析方法,其特征在于,步骤32所述的正交栅格布局的实现包括:将二维空间划分为规则网格,二维空间的行列数根据节点数动态调整;将每个节点分配到与其相似度最高的子主题集合中。对每个子主题集合,将节点按照时序关系按照从左到右、从上到下的顺序依次排列;根据子主题出现的时间顺序,将它们按照时序进行排序,较早出现的子主题在布局中更靠前。同时支持用户反馈,以了解用户更关注哪些子主题,然后根据用户需求对子主题进行排序。6.根据权利要求1所述的提升用户对话理解和chatgpt回答质量的可视分析方法,其特征在于,步骤s33包括内容查看组件、上下文列表以及提问组件。7.根据权利要求6所述的提升用户对话理解和chatgpt回答质量的可视分析方法,其特征在于,在用户将呈现在内容查看组件的历史对话信息加入上下文列表后,为了让chatgpt更高效地关联用户提供的上下文信息以提供可靠回答,通过以下步骤进行信息压缩和处
理:将用户添加到上下文列表的对话按照段落进行划分,将每一段话进行向量化后计算与问题的余弦相似度,只保留高于阈值的段落;计算段落之间的余弦相似度,融合段落之间相似度高于0.98的段落以减少信息的冗余。同时使用gpt模型对所有的段落进行主题提取并让用户为这些主题进行排序以确定上下文信息的叙事逻辑。最后将段落按主题进行归类并按段落和主题的相似度确定主题下段落的顺序;使用生成式摘要生成技术,从重组的对话历史中抽取关键信息来进行信息抽象;允许用户在信息抽象的结果上进行注释,这些注释将作为更加人性化的额外上下文信息提供给chatgpt。8.提升用户对话理解和chatgpt回答质量的可视分析系统,其特征在于,包括数据预处理模块、数据分析模块和数据呈现模块;所述数据预处理模块用于获取用户与chatgpt的对话历史并将其分解成多个对话节点,每个节点包含一个用户提问和相应的chatgpt回答。所述数据分析模块以所述数据预处理模块为基础,使用多粒度主题分类方法对原始数据进行分析,获取带有时序信息的多层次主题文本数据,包括以下步骤:使用gpt3.5-turbo模型对所有对话节点进行文本摘要,文本摘要结果长度不超过100个汉字;使用gpt3.5-turbo模型对所有对话节点进行主题提取。具体来说,构建以下提示语:“基于主题建模(topic modeling)思路,从给出的多个对话节点信息中提取出多个主题,主题的个数不多于5个,主题下不再细分为子主题。输出的主题之间用\n来分隔开,不要有其他输出。下面是所有的对话节点信息:”。将以上提示语附上所有对话节点的摘要一起发送给gpt3.5-turbo来抽取对话中的主题;使用text-embedding-ada-002模型对每一个历史对话节点和归纳的主题进行文本向量化,将文本嵌入到1536维的数值表示,用于后续计算文本之间的相似度;使用余弦相似度匹配历史对话节点和对应主题,如果相似度超过预设的阈值,则将该对话节点归属到该主题,实现主题分类;使用gpt3.5-turbo模型对每个主题下的所有对话节点进行子主题提取,再使用余弦相似度匹配该主题下的所有对话节点和子主题,如果相似度超过预设的阈值,将该对话节点归属到该子主题,实现子主题分类;所述数据呈现模块将所述数据分析模块处理后数据导入预构建的可视化模型用于数据呈现,数据呈现模块包括对话全局子模块、特定主题子模块和上下文关联问答子模块。9.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-7中任一项所述的提升用户对话理解和chatgpt回答质量的可视分析方法。10.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的提升用户对话理解和chatgpt回答质量的可视分析方法。
技术总结
提升用户对话理解和ChatGPT回答质量的可视化分析方法和系统,其方法包括:S1.获取用户与ChatGPT的对话历史并将其分解成多个对话节点,每个节点包含一个用户提问和相应的ChatGPT回答;S2.使用多粒度主题分类方法对原始数据进行分析,获取带有时序信息的多层次主题文本数据;S3.将带有时序信息的多层次主题文本数据导入预构建的可视化模型用于数据呈现。本发明能帮助用户深入理解对话历史的整体结构和内容,同时为模型提供足够上下文信息,从而提高ChatGPT的回答质量。从而提高ChatGPT的回答质量。从而提高ChatGPT的回答质量。
技术研发人员:孙国道 叶丹薇 梁盼 朱子昊 梁荣华
受保护的技术使用者:浙江工业大学
技术研发日:2023.07.05
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种双金属带锯条刀头的制造方法与流程 下一篇:一种抽拉式离心风机的制作方法