一种聊天模型训练方法、装置、设备及介质与流程
未命名
09-21
阅读:61
评论:0

1.本发明涉及计算机技术领域,特别是涉及一种聊天模型训练方法、装置、设备及介质。
背景技术:
2.在自然语言处理(nlp,natural language processing)和机器学习(ml,machine learning)领域,大语言模型如生成式预训练变换器(gpt,generative pre-trained transformer)、聊天通用语言模型(chatglm,chat general language model)、大语言模型元人工智能(llama,large language model meta ai)等被广泛用于创建对话机器人。这些模型基于大量文本数据进行预训练,可以生成与人类对话的回复。然而,由于这些模型在训练时无法考虑到所有可能的对话场景,其生成的回复并不总是准确或满意。模型在训练时,需要积累大量人工标注数据,导致训练成本高,训练效率低。
3.因此,有必要提供一种聊天模型训练方法、装置、设备及介质,解决上述问题。
技术实现要素:
4.本发明提供一种聊天模型训练方法、装置、设备及介质。
5.本发明实施例提供一种聊天模型训练方法,包括:获取历史对话数据及标注方法;基于所述标注方法对所述历史对话数据进行标注;基于标注后的所述历史对话数据训练初级模型得到一级模型;获取新的用户输入数据及新的上下文环境数据,并基于所述新的用户输入数据、所述新的上下文环境数据及所述一级模型进行预测,以得到新的机器人回复数据;基于所述标注方法对所述新的对话数据进行标注;所述新的对话数据包括所述新的用户输入数据、所述新的上下文环境数据及所述新的机器人回复数据;基于标注后的所述新的对话数据对所述一级模型进行优化。优选地,所述对所述历史对话数据进行标注步骤之前还包括:对所述历史对话数据进行预处理,预处理后各条所述历史对话数据的结构相同。
6.优选地,所述获取标注方法的步骤包括:获取初步标注规则;对所述初步标注规则进行验证和调整。
7.优选地,所述初步标注规则包括:判断输出机器人回复数据后用户是否继续输入用户输入数据;若是,则所述机器人回复数据有效;否则,所述机器人回复数据无效。
8.优选地,所述对所述初步标注规则进行验证和调整包括:获取基于所述初步标注规则标注后的对话数据;
获取对话数据标准标注后的结果;判断所述基于所述初步标注规则标注后的对话数据和所述对话数据标准标注后的结果是否相同;若不相同,则对所述初步标注规则进行调整得到新的标注规则直到所述基于所述初步标注规则标注后的对话数据和所述对话数据标准标注后的结果相同。
9.优选地,所述基于所述标注后的新的对话数据对所述一级模型进行优化的步骤后,还包括:获取所述新的对话数据的标准标注结果;判断标注后的所述新的对话数据和所述新的对话数据的标准标注结果是否相同;若不相同,则对所述新的标注规则进行调整直到所述标注后的新的对话数据和所述新的对话数据的标准标注结果相同。
10.优选地,还包括:对所述对话数据中的用户信息进行加密处理。
11.与现有技术相比,本发明实施例的技术方案具有以下有益效果:本发明实施例提供的聊天模型训练方法,避免传统的机器学习和深度学习任务中,数据标注的人工工作。通过自动标注提高效率并且避免受到标注者主观性的影响。利用新标注的数据进行模型优化,使得模型可以根据新的数据和反馈进行学习,持续提高其性能,提高模型预测机器人回复数据的准确性。
12.进一步地,本发明还提供一种聊天模型训练装置,包括:第一获取模块,用于获取历史对话数据及标注方法;第一标注模块,用于基于所述标注方法对所述历史对话数据进行标注;训练模块,用于基于所述标注后的历史对话数据训练初级模型得到一级模型;第二获取模块,用于获取新的用户输入数据及新的上下文环境数据,并基于所述新的用户输入数据、所述新的上下文环境数据及所述一级模型进行预测,以得到新的机器人回复数据;第二标注模块,用于基于所述标注方法对所述新的对话数据进行标注;所述新的对话数据包括所述新的用户输入数据、所述新的上下文环境数据及所述新的机器人回复数据;优化模块,用于基于所述标注后的新的对话数据对所述一级模型进行优化。
13.进一步地,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中的方法的步骤。
14.进一步地,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中的方法的步骤。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,而不是全部实施例。对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
16.图1为本发明的一个实施例提供的一种聊天模型训练方法流程示意图;图2为本发明的一个实施例提供的获取标注方法的步骤流程示意图;图3为本发明的一个实施例提供的对所述初步标注规则进行验证和调整的步骤流程示意图;图4为本发明的一个实施例提供的聊天模型训练方法还包括的步骤流程示意图;图5为本发明的一个实施例提供的一种聊天模型训练装置的结构示意图。
具体实施方式
17.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
18.下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
19.在自然语言处理(nlp,natural language processing)和机器学习(ml,machine learning)领域,大语言模型如生成式预训练变换器(gpt,generative pre-trained transformer)、聊天通用语言模型(chatglm,chat general language model)、大语言模型元人工智能(llama,large language model meta ai)等被广泛用于创建对话机器人。这些模型基于大量文本数据进行预训练,可以生成与人类对话的回复。然而,由于这些模型在训练时无法考虑到所有可能的对话场景,其生成的回复并不总是准确或满意。
20.假设有一个在线的聊天机器人,用户可以通过输入文本与机器人对话,在该过程中需要提高机器人的对话质量。传统的方法是收集一些对话数据,然后人工标注这些数据,指出哪些回复是好的,哪些是坏的,然后根据这些标注的数据训练模型。但是这个过程非常耗时且效果有限。
21.基于现有技术存在的问题,本发明实施例提供一种聊天模型训练方法、装置、设备及介质。
22.图1为本发明的一个实施例提供的一种聊天模型训练方法流程示意图。如图1所示,一种聊天模型训练方法包括如下步骤:步骤s110,获取历史对话数据及标注方法。
23.在具体实施中,可以设计一个对话系统,实时收集并存储所有的历史对话数据,历史对话数据可以包括收集的用户输入数据、机器人回复数据和上下文环境数据等。在其他实施方式中,也可以通过获取搜索引擎或电商机器人等的对话数据作为历史对话数据。为了方便后期处理和标注,可以对历史对话数据进行预处理,使得预处理后的历史对话数据按照统一的格式、结构存储。每一段相关的历史对话数据所相关的用户输入数据、机器人回复数据和上下文环境数据可以作为一组子数据进行存储。
24.在具体实施中,标注方法是针对用户输入数据所对应的机器人回复数据的评价规则。该评价规则可以评价机器人回复数据有效或者无效,也可以是分值评价等。
25.步骤s120,基于标注方法对历史对话数据进行标注。
26.在具体实施中,根据用户的行为和反馈,例如用户是否继续对话,或者用户对回复
的满意程度,自动为这些历史对话数据打上标签。例如,如果用户在机器人的回复后继续与机器人进行对话,或者给出积极的反馈,可以认为这个回复是有效的,对应的历史对话数据被标注为“接受”。如果用户在机器人的回复后立即结束了对话,或者给出负面的反馈,那么可以认为这个回复是无效的,对应的历史对话数据被标注为“不接受”。在其他实施方式中,也可以根据具体的应用场景和需求,设计更加复杂和精细的标注规则。
27.步骤s130,基于标注后的历史对话数据训练初级模型得到一级模型。
28.在具体实施中,使用已经标注的历史对话数据训练初级模型得到一级模型。初级模型譬如可以是机器学习模型或深度学习模型等。初级模型可以选择适合文本处理的模型和算法,例如预训练的语言表征模型(bert ,bidirectional encoder representation from transformers)、生成式预训练变换器(gpt,generative pre-trained transformer)等,并且可以需要调整模型的结构和参数,以适应具体的任务和数据。训练后得到的一级模型的目标是根据用户输入数据和对话的上下文环境数据,预测出最可能被用户接受的机器人回复数据。
29.步骤s140,获取新的用户输入数据及新的上下文环境数据,并基于新的用户输入数据、新的上下文环境数据及一级模型进行预测,以得到新的机器人回复数据。
30.在具体实施中,将新的用户输入数据及新的上下文环境数据作为一级模型的输入,从而输出在实际的对话过程中给出预测结果即机器人回复数据。在另一些实施例中,可以配置为一级模型输出多个预测机器人回复数据,从而便于后续判断最优的预测结果从而优化模型。
31.步骤s150,基于标注方法对新的对话数据进行标注。新的对话数据包括新的用户输入数据、新的上下文环境数据及新的机器人回复数据。
32.在具体实施中,可以配置为一级模型输出多个预测机器人回复数据,并针对这些机器人回复数据分别进行标注。标注方式与上述对历史对话数据的标注方式可以相同,此处不再赘述。
33.步骤s160,基于标注后的新的对话数据对一级模型进行优化。
34.在具体实施中,根据新标注的对话数据,对一级模型进行增量学习或者定期重新训练,持续提升模型的性能,从而对一级模型进行优化。此步骤执行后,需要继续执行步骤s140,由此构建一个持续的循环流程,使得模型不断被优化。
35.在一些实施方式中,如图2所示,步骤s110中获取标注方法的步骤包括:步骤s111,获取初步标注规则。
36.在本实施例中,初步标注规则可以是基于历史经验获得的对机器人回复数据的评价规则。
37.在一些实施方式中,初步标注规则包括:判断输出机器人回复数据后用户是否继续输入用户输入数据;若是,则机器人回复数据有效;否则,机器人回复数据无效。
38.例如,如果用户在机器人的回复后立即结束了对话也即不再输入用户输入数据,那么可能表示他们对回复不满意,则机器人回复数据无效;如果用户在机器人的回复后继续提问即监测到用户输入数据,那么可能表示他们对回复满意,则机器人回复数据有效。这里的关键是定义一个反馈指标,这个指标能够反映用户对机器人回复的满意程度。这个指标可以是一个二元的标签(例如“满意”或“不满意”),也可以是一个连续的分数(例如0到5
的满意度评分)。
39.在其他实施方式中,对于配送和退货等后勤问题,用户通常会在得到满意的回复后立即结束对话。因此,对于这类问题,设计特殊的规则:如果用户在得到回复后结束对话,标注为“接受”,否则,标注为“不接受”。
40.在一些实施例中,还可以增加对对话数据分类的步骤,并基于不同的对话数据,匹配对应的标注规则从而进行标注。
41.步骤s112,对初步标注规则进行验证和调整。
42.在一些实施方式中,如图3所示,步骤s112对初步标注规则进行验证和调整包括:步骤s1121,获取基于初步标注规则标注后的对话数据。
43.步骤s1122,获取对话数据标准标注后的结果。
44.步骤s1123,判断基于初步标注规则标注后的对话数据和对话数据标准标注后的结果是否相同。
45.步骤s1124,若不相同,则对初步标注规则进行调整得到新的标注规则直到基于初步标注规则标注后的对话数据和对话数据标准标注后的结果相同。
46.在具体实施中,标准标注可以是人工标注。对于同一个对话数据分别利用初步标注规则进行自动标注,及获取专家人工标注的结果,并将他们进行对比,若不相同,则初步标注规则进行调整得到新的标注规则直到比对结果相同。
47.例如,通过与人工标注结果的比较发现,对于某些复杂的产品咨询问题,即使用户继续提问,也可能表示他们对机器人的回复不满意。因此,对于这类问题,修改规则为:除非用户明确表示满意,否则都标注为“不接受”。
48.在一些实施方式中,如图4所示,步骤s160基于标注后的新的对话数据对一级模型进行优化的步骤后,还包括:步骤s171,获取新的对话数据的标准标注结果。
49.步骤s172,判断标注后的新的对话数据和新的对话数据的标准标注结果是否相同。
50.若不相同,则执行步骤s173,对新的标注规则进行调整,直到标注后的新的对话数据和新的对话数据的标准标注结果相同。
51.本实施例中,设计一套质量保障机制,定期或者实时检查模型的性能和数据标注的质量。定期人工检查部分自动标注的结果,看是否符合人的判断和期望,如果有大的偏差,就需要调整标注规则或者优化模型。设计一些指标和监控系统,持续跟踪和评估模型的性能,例如准确率、召回率、f1分数等。
52.在一些实施方式中,通过持续收集用户反馈和评价,发现对于一些新出现的问题(例如新产品、新政策等),优化后的模型的表现不佳。可以对这些问题进行特殊处理,例如提高它们的标注优先级,或者引入专家的人工标注等。
53.在一些实施方式中,还包括:对对话数据中的用户信息进行加密处理。本实施例中,在收集和处理用户对话数据的过程中,设计并实施一套数据处理流程,以确保用户的个人信息和隐私不会被泄露。示例性的,对对话数据中的用户信息进行脱敏处理,使用匿名化的用户id代替真实的用户名;只保存对话的内容,而不保存任何可以用来识别用户身份的信息;采用同态加密技术,允许对密文进行计算,这样得到的结果解密后与对明文进行相同
only memory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。
61.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
技术特征:
1.一种聊天模型训练方法,其特征在于,包括:获取历史对话数据及标注方法;基于所述标注方法对所述历史对话数据进行标注;基于标注后的所述历史对话数据训练初级模型得到一级模型;获取新的用户输入数据及新的上下文环境数据,并基于所述新的用户输入数据、所述新的上下文环境数据及所述一级模型进行预测,以得到新的机器人回复数据;基于所述标注方法对所述新的对话数据进行标注;所述新的对话数据包括所述新的用户输入数据、所述新的上下文环境数据及所述新的机器人回复数据;基于标注后的所述新的对话数据对所述一级模型进行优化。2.根据权利要求1所述的聊天模型训练方法,其特征在于,所述基于所述标注方法对所述历史对话数据进行标注步骤之前还包括:对所述历史对话数据进行预处理,预处理后各条所述历史对话数据的结构相同。3.根据权利要求2所述的聊天模型训练方法,其特征在于,所述获取标注方法的步骤包括:获取初步标注规则;对所述初步标注规则进行验证和调整。4.根据权利要求3所述的聊天模型训练方法,其特征在于,所述初步标注规则包括:判断输出机器人回复数据后用户是否继续输入用户输入数据;若是,则所述机器人回复数据有效;否则,所述机器人回复数据无效。5.根据权利要求3所述的聊天模型训练方法,其特征在于,所述对所述初步标注规则进行验证和调整包括:获取基于所述初步标注规则标注后的对话数据;获取对话数据标准标注后的结果;判断所述基于所述初步标注规则标注后的对话数据和所述对话数据标准标注后的结果是否相同;若不相同,则对所述初步标注规则进行调整得到新的标注规则直到所述基于所述初步标注规则标注后的对话数据和所述对话数据标准标注后的结果相同。6.根据权利要求1所述的聊天模型训练方法,其特征在于,所述基于所述标注后的新的对话数据对所述一级模型进行优化的步骤后,还包括:获取所述新的对话数据的标准标注结果;判断标注后的所述新的对话数据和所述新的对话数据的标准标注结果是否相同;若不相同,则对所述新的标注规则进行调整直到所述标注后的新的对话数据和所述新的对话数据的标准标注结果相同。7.根据权利要求1所述的聊天模型训练方法,其特征在于,还包括:对所述对话数据中的用户信息进行加密处理。8.一种聊天模型训练装置,其特征在于,包括:第一获取模块,用于获取历史对话数据及标注方法;第一标注模块,用于基于所述标注方法对所述历史对话数据进行标注;
训练模块,用于基于所述标注后的历史对话数据训练初级模型得到一级模型;第二获取模块,用于获取新的用户输入数据及新的上下文环境数据,并基于所述新的用户输入数据、所述新的上下文环境数据及所述一级模型进行预测,以得到新的机器人回复数据;第二标注模块,用于基于所述标注方法对所述新的对话数据进行标注;所述新的对话数据包括所述新的用户输入数据、所述新的上下文环境数据及所述新的机器人回复数据;优化模块,用于基于所述标注后的新的对话数据对所述一级模型进行优化。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结
本发明提供一种聊天模型训练方法、装置、设备及介质,包括:获取历史对话数据及标注方法;基于所述标注方法对所述历史对话数据进行标注;基于标注后的所述历史对话数据训练初级模型得到一级模型;获取新的用户输入数据及新的上下文环境数据,并基于所述新的用户输入数据、所述新的上下文环境数据及所述一级模型,以得到新的机器人回复数据;基于所述标注方法对所述新的对话数据进行标注;基于标注后的所述新的对话数据对所述一级模型进行优化。上述聊天模型训练方法、装置、设备及介质对新的对话数据进行标注并用于对一级模型进行优化,从而最终模型的预测机器人回复数据的准确率不断提高。断提高。断提高。
技术研发人员:吕亮 赵桐 冯超 闵凯
受保护的技术使用者:北京珊瑚礁科技有限公司
技术研发日:2023.08.24
技术公布日:2023/9/20
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/