基于全链路线上化的问答模型优化方法及其相关设备与流程

未命名 09-17 阅读:62 评论:0


1.本技术涉及自然语言技术领域,尤其涉及一种基于全链路线上化的问答模型优化方法及其相关设备。


背景技术:

2.随着各行业业务数字化转型的到来,传统的人工客服咨询已经不能满足信息化时代客户大量、快速、高度个性化和准确高效的咨询需求,对此,训练和提供一个问答机器人来方便企业客户、员工快速和低成本获得问答咨询服务,成为企业提升客户响应时效和服务能力,降低人工成本的主要途径之一。
3.收集、整理出覆盖对应场景的高频和热点问答,并录入问答知识库,这种依赖运营人力手工收集和录入的方式,主要存在两点问题:知识的覆盖面与构建成本具有成正相关性,更广泛的覆盖意味着更高的知识构建成本;通过人工维护的知识,因运营人力的流动和个人信息掌握的差异,容易出现重复的知识录入,导致知识检索冗余低效,甚至答非所问,直接降低机器人解答率。因此,现有技术进行问答模型优化时,依赖人工优化,还缺少一种全链路线上化的问答模型智能优化方案。


技术实现要素:

4.本技术实施例的目的在于提出一种基于全链路线上化的问答模型优化方法及其相关设备,以解决现有技术进行问答模型优化时,依赖人工优化,还缺少一种全链路线上化的问答模型智能优化方案的问题。
5.为了解决上述技术问题,本技术实施例提供一种基于全链路线上化的问答模型优化方法,采用了如下所述的技术方案:
6.一种基于全链路线上化的问答模型优化方法,包括下述步骤:
7.步骤201,根据目标知识社区连接地址,连接目标知识社区,其中,所述目标知识社区包括但不限于线上知识问答平台;
8.步骤202,按照预设的获取规则,从所述目标知识社区内提取整理出意向数据,其中,所述意向数据为问答对格式数据,所述问答对格式数据由问题数据及其对应的最优评分解答数据构成;
9.步骤203,将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;
10.步骤204,采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;
11.步骤205,若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;
12.步骤206,根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。
13.进一步的,所述根据目标知识社区连接地址,连接目标知识社区的步骤,具体包括:
14.获取所述目标知识社区的数据缓存地址,通过所述数据缓存地址与所述目标知识社区间建立数据传输关系,
15.或者,获取所述目标知识社区的数据展示页面地址,通过所述数据展示页面地址与所述目标知识社区间建立数据抓取关系。
16.进一步的,所述按照预设的获取规则,获取所述目标知识社区内的意向数据的步骤,具体包括:
17.根据预设的特殊标识符,提取出所述目标知识社区内所有问题数据,其中,所述特殊标识符包括问号符;
18.以所述所有问题数据为检索字段,通过数据传输或者数据抓取的方式从所述目标知识社区内获取所有问题数据分别所对应的解答数据,以及通过计算获得各个解答数据的解答评分;
19.根据各个解答数据的解答评分,进行比较,筛选出每个问题数据对应的最优评分解答数据;
20.以每个问题数据和其对应的最优评分解答数据,以及所述最优评分解答数据的评分值为样本数据,构建一组目标格式数据,其中,所述目标格式数据为三元组格式数据,具体为[问题数据,最优评分解答数据,评分值];
[0021]
从每个三元组格式数据中获取当前的问题数据和最优评分解答数据;
[0022]
以当前的问题数据为key值,当前的最优评分解答数据为value值,构建每个三元组格式数据对应的键值对数据,作为意向数据。
[0023]
进一步的,在执行所述采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果的步骤之前,所述方法还包括:
[0024]
获取所述问答知识图谱中所有的问题数据;
[0025]
通过预设的语义识别模型,对所述问答知识图谱中所有的问题数据进行语义识别,提取每个问题数据分别对应的语义特征,构建语义特征集;
[0026]
所述采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果的步骤,具体包括:
[0027]
从预设的提问终端界面,提取最新问题数据;
[0028]
根据所述预设的语义识别模型,对所述最新问题数据进行语义识别,提取所述最新问题数据对应的语义特征作为目标语义特征;
[0029]
通过检索识别方式,识别所述语义特征集中是否已包含所述目标语义特征;
[0030]
若已包含,则根据所述目标语义特征对应的问题数据,获取相应的最优评分解答数据,将所述最优评分解答数据作为所述搜索结果;
[0031]
若未包含,则所述搜索结果为空数据。
[0032]
进一步的,所述根据所述搜索结果,识别是否需要对所述问答模型进行补充更新的步骤,具体包括:
[0033]
判断所述搜索结果是否为空数据;
[0034]
若所述搜索结果为非空数据,则将所述非空数据作为返回值,发送给目标接收端,
同时,以所述最新问题数据作为检索字段,识别所述问答知识图谱中是否包含所述最新问题数据,若所述问答知识图谱中包含所述最新问题数据,则无需对所述问答模型进行补充更新,若所述问答知识图谱中未包含所述最新问题数据,则需要对所述问答模型进行补充更新;
[0035]
若所述搜索结果为空数据,则需要对所述问答模型进行补充更新;
[0036]
所述预设的更新规则包括第一更新规则和第二更新规则,所述根据预设的更新规则对所述问答模型进行补充更新的步骤,具体包括:
[0037]
在所述问答知识图谱中创建所述最新问题数据对应的新问题节点;
[0038]
若所述问答知识图谱中未包含所述最新问题数据,则根据所述第一更新规则对所述问答模型进行补充更新,其中,所述第一更新规则的具体实现方式为:识别所述非空数据在所述问答知识图谱中对应的解答节点,通过指引线方式将所述新问题节点指向所述解答节点;
[0039]
若所述搜索结果为空数据,则根据所述第二更新规则对所述问答模型进行补充更新,其中,所述第二更新规则的具体实现方式为:将所述最新问题数据推送到所述目标知识社区进行解答数据在线征集,获取在线征集结果,通过对所述在线征集结果进行提取整理,获取目标解答数据,在所述问答知识图谱中创建所述目标解答数据对应的新解答节点,通过指引线方式将所述新问题节点指向所述新解答节点。
[0040]
进一步的,所述获取在线征集结果,通过对所述在线征集结果进行提取整理,获取目标解答数据的步骤,具体包括:
[0041]
以所述最新问题数据为检索字段,通过数据传输或者数据抓取的方式从所述目标知识社区内获取所述最新问题数据所对应的所有解答数据,以及通过计算获得各个解答数据的解答评分;
[0042]
根据各个解答数据的解答评分,进行比较,筛选出所述最新问题数据对应的最优评分解答数据,作为所述目标解答数据。
[0043]
进一步的,所述通过计算获得各个解答数据的解答评分的步骤,具体包括:
[0044]
获取各个解答数据分别在预设的不同特征维度所对应的特征表征信息,其中,所述不同特征维度包括解答数据提供者的专业领域、点赞数量、点踩数量、加精次数、好评次数、差评次数;
[0045]
对所述特征表征信息进行数值化处理,获得数值化处理结果;
[0046]
获取预先设置的所述不同特征维度分别对应的权重值;
[0047]
根据所述数值化处理结果和所述权重值,采用加权求和方式获取每个解答数据对应的加权求和值;
[0048]
将所述加权求和值设定为对应解答数据的解答评分。
[0049]
进一步的,所述根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新的步骤,具体包括:
[0050]
根据预设的计时组件和预设的时间阈值,判断是否满足所述定时任务的触发条件;
[0051]
若不满足所述定时任务的触发条件,则不对所述问答模型进行迭代更新;
[0052]
若满足所述定时任务的触发条件,则重复执行步骤202至步骤203,对所述问答模
型进行迭代更新,更新所述问答知识图谱,并重置所述计时组件的数值为预设的计时初始值。
[0053]
为了解决上述技术问题,本技术实施例还提供一种基于全链路线上化的问答模型优化装置,采用了如下所述的技术方案:
[0054]
一种基于全链路线上化的问答模型优化装置,包括:
[0055]
知识社区连接模块,用于根据目标知识社区连接地址,连接目标知识社区,其中,所述目标知识社区包括但不限于线上知识问答平台;
[0056]
意向数据获取模块,用于按照预设的获取规则,从所述目标知识社区内提取整理出意向数据,其中,所述意向数据为问答对格式数据,所述问答对格式数据由问题数据及其对应的最优评分解答数据构成;
[0057]
问答知识图谱训练模块,用于将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;
[0058]
解答数据搜索模块,用于采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;
[0059]
模型补充更新模块,用于若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;
[0060]
模型迭代更新模块,用于根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。
[0061]
为了解决上述技术问题,本技术实施例还提供一种计算机设备,采用了如下所述的技术方案:
[0062]
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述所述的基于全链路线上化的问答模型优化方法的步骤。
[0063]
为了解决上述技术问题,本技术实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
[0064]
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述所述的基于全链路线上化的问答模型优化方法的步骤。
[0065]
与现有技术相比,本技术实施例主要有以下有益效果:
[0066]
本技术实施例所述基于全链路线上化的问答模型优化方法,根据目标知识社区连接地址,连接目标知识社区;按照预设的获取规则,从所述目标知识社区内提取整理出意向数据;将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。不再采用人工方式进行问答知识库构建和问答模型优化,直接通过从知识社区获取知识信息的方式,构建问答模型及问答知识图谱,并再通过自检自搜和定时任务方式对问答模型进行补充更新和增量式更新,进行问答知识图谱的完善和更新,更加智能化和高效化,避免了人工更新的局限性,降低了人工成本。
附图说明
[0067]
为了更清楚地说明本技术中的方案,下面将对本技术实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0068]
图1是本技术可以应用于其中的示例性系统架构图;
[0069]
图2根据本技术的基于全链路线上化的问答模型优化方法的一个实施例的流程图;
[0070]
图3是图2所示步骤202的一个具体实施例的流程图;
[0071]
图4是图2所示步骤204的一个具体实施例的流程图;
[0072]
图5是图2所示步骤206的一个具体实施例的流程图;
[0073]
图6根据本技术的基于全链路线上化的问答模型优化装置的一个实施例的结构示意图;
[0074]
图7根据本技术的计算机设备的一个实施例的结构示意图。
具体实施方式
[0075]
除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本技术;本技术的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本技术的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
[0076]
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0077]
为了使本技术领域的人员更好地理解本技术方案,下面将结合附图,对本技术实施例中的技术方案进行清楚、完整地描述。
[0078]
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
[0079]
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
[0080]
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(moving picture expertsgroup audio layer iii,动态影像专家压缩标准音频层面3)、mp4(moving pictureexperts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
[0081]
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的
页面提供支持的后台服务器。
[0082]
需要说明的是,本技术实施例所提供的基于全链路线上化的问答模型优化方法一般由服务器/终端设备执行,相应地,基于全链路线上化的问答模型优化装置一般设置于服务器/终端设备中。
[0083]
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
[0084]
继续参考图2,示出了根据本技术的基于全链路线上化的问答模型优化方法的一个实施例的流程图。所述的基于全链路线上化的问答模型优化方法,包括以下步骤:
[0085]
步骤201,根据目标知识社区连接地址,连接目标知识社区,其中,所述目标知识社区包括但不限于线上知识问答平台。
[0086]
本实施例中,所述线上知识问答平台包括微博、博客、知乎,或者一些公司已搭建完成的线上知识平台。
[0087]
本实施例中,所述根据目标知识社区连接地址,连接目标知识社区的步骤,具体包括:获取所述目标知识社区的数据缓存地址,通过所述数据缓存地址与所述目标知识社区间建立数据传输关系,或者,获取所述目标知识社区的数据展示页面地址,通过所述数据展示页面地址与所述目标知识社区间建立数据抓取关系。
[0088]
通过与所述目标知识社区的数据缓存地址建立数据传输关系,或者,直接通过目标知识社区的页面地址进行网络爬虫的方式建立抓取关系,便于后期从所述目标知识社区进行数据获取。
[0089]
步骤202,按照预设的获取规则,从所述目标知识社区内提取整理出意向数据,其中,所述意向数据为问答对格式数据,所述问答对格式数据由问题数据及其对应的最优评分解答数据构成。
[0090]
继续参考图3,图3是图2所示步骤202的一个具体实施例的流程图,包括:
[0091]
步骤301,根据预设的特殊标识符,提取出所述目标知识社区内所有问题数据,其中,所述特殊标识符包括问号符;
[0092]
步骤302,以所述所有问题数据为检索字段,通过数据传输或者数据抓取的方式从所述目标知识社区内获取所有问题数据分别所对应的解答数据,以及通过计算获得各个解答数据的解答评分;
[0093]
本实施例中,所述通过计算获得各个解答数据的解答评分的步骤,具体包括:获取各个解答数据分别在预设的不同特征维度所对应的特征表征信息,其中,所述不同特征维度包括解答数据提供者的专业领域、点赞数量、点踩数量、加精次数、好评次数、差评次数;对所述特征表征信息进行数值化处理,获得数值化处理结果;获取预先设置的所述不同特征维度分别对应的权重值;根据所述数值化处理结果和所述权重值,采用加权求和方式获取每个解答数据对应的加权求和值;将所述加权求和值设定为对应解答数据的解答评分。
[0094]
步骤303,根据各个解答数据的解答评分,进行比较,筛选出每个问题数据对应的最优评分解答数据;
[0095]
步骤304,以每个问题数据和其对应的最优评分解答数据,以及所述最优评分解答数据的评分值为样本数据,构建一组目标格式数据,其中,所述目标格式数据为三元组格式数据,具体为[问题数据,最优评分解答数据,评分值];
[0096]
步骤305,从每个三元组格式数据中获取当前的问题数据和最优评分解答数据;
[0097]
步骤306,以当前的问题数据为key值,当前的最优评分解答数据为value值,构建每个三元组格式数据对应的键值对数据,作为意向数据。
[0098]
通过进行整理提取,获取意向数据,选择以键值对数据作为意向数据,目的是为了保证意向数据符合大多数的问答模型,常见的问答模型,包括seq2seq模型、fid(fusion-in-decoder)模型、bert模型或者roberta模型,都支持将键值对格式的数据作为训练数据。
[0099]
步骤203,将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱。
[0100]
本实施例中,所述将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱的步骤,具体包括:将所述意向数据输入预构建的问答模型;根据所述意向数据中每个键值对数据中key值和value值间的一一对应关系,构建出包含问题数据和最优评分解答数据一对一关系的问答知识图谱。
[0101]
本实施例中,通过预构建的问答模型,构建出包含问题数据和最优评分解答数据一对一关系的问答知识图谱,可以使用图神经网络来完成,例如,gnn(graph neural networks,gnn)图神经网络,其目的主要是根据数据间的关联对应关系,训练生成关系连接图,刚好问题数据和最优评分解答数据一对一关系可以采用以问题数据和最优评分解答数据分别作为问题节点和解答节点,以问题节点指向解答节点构建指向线,实现问答知识图谱生成。
[0102]
步骤204,采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果。
[0103]
本实施例中,在执行所述采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果的步骤之前,所述方法还包括:获取所述问答知识图谱中所有的问题数据;通过预设的语义识别模型,对所述问答知识图谱中所有的问题数据进行语义识别,提取每个问题数据分别对应的语义特征,构建语义特征集。
[0104]
本实施例中,所述语义识别模型可以为基于结果统计的隐马尔可夫模型,也可以为基于lstm(long short-term memory)或者cnn(convolutional neural networks)的神经网络结构的语义识别模型。
[0105]
继续参考图4,图4是图2所示步骤204的一个具体实施例的流程图,包括:
[0106]
步骤401,从预设的提问终端界面,提取最新问题数据;
[0107]
步骤402,根据所述预设的语义识别模型,对所述最新问题数据进行语义识别,提取所述最新问题数据对应的语义特征作为目标语义特征;
[0108]
步骤403,通过检索识别方式,识别所述语义特征集中是否已包含所述目标语义特征;
[0109]
步骤404,若已包含,则根据所述目标语义特征对应的问题数据,获取相应的最优评分解答数据,将所述最优评分解答数据作为所述搜索结果;
[0110]
步骤405,若未包含,则所述搜索结果为空数据。
[0111]
通过检索识别和语义特征对比的方式,识别所述语义特征集中是否已包含所述目标语义特征,从而判断是否能从所述问答知识图谱中筛选出对应的最优评分解答数据。
[0112]
步骤205,若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所
述问答模型进行补充更新。
[0113]
本实施例中,所述根据所述搜索结果,识别是否需要对所述问答模型进行补充更新的步骤,具体包括:判断所述搜索结果是否为空数据;若所述搜索结果为非空数据,则将所述非空数据作为返回值,发送给目标接收端,同时,以所述最新问题数据作为检索字段,识别所述问答知识图谱中是否包含所述最新问题数据,若所述问答知识图谱中包含所述最新问题数据,则无需对所述问答模型进行补充更新,若所述问答知识图谱中未包含所述最新问题数据,则需要对所述问答模型进行补充更新;若所述搜索结果为空数据,则需要对所述问答模型进行补充更新。
[0114]
本实施例中,所述根据预设的更新规则对所述问答模型进行补充更新的步骤,包括两种方式的补充更新,所述预设的更新规则包括第一更新规则和第二更新规则,其中,所述第一更新规则用于在所述问答知识图谱中未包含所述最新问题数据,对所述问答模型进行补充更新,具体实现方式为:在所述问答知识图谱中创建所述最新问题数据对应的新问题节点;若所述问答知识图谱中未包含所述最新问题数据,则根据所述第一更新规则对所述问答模型进行补充更新,其中,所述第一更新规则的具体实现方式为:识别所述非空数据在所述问答知识图谱中对应的解答节点,通过指引线方式将所述新问题节点指向所述解答节点;
[0115]
所述第二更新规则用于在所述检索结果为空数据时,对所述问答模型进行补充更新,具体实现方式为:在所述问答知识图谱中创建所述最新问题数据对应的新问题节点;若所述搜索结果为空数据,则根据所述第二更新规则对所述问答模型进行补充更新,其中,所述第二更新规则的具体实现方式为:将所述最新问题数据推送到所述目标知识社区进行解答数据在线征集,获取在线征集结果,通过对所述在线征集结果进行提取整理,获取目标解答数据,在所述问答知识图谱中创建所述目标解答数据对应的新解答节点,通过指引线方式将所述新问题节点指向所述新解答节点。
[0116]
在所述最新问题数据无法从所述问答知识图谱中获取到相应的解答数据时,直接通过推送方式,将所述最新问题数据推送到所述目标知识社区,进行在线征集,保证了对问答知识图谱进行补充更新整个过程都处于全链路线上化进行,避免了人工增补,更加智能化和科学化,减少了人力消耗。
[0117]
本实施例中,所述获取在线征集结果,通过对所述在线征集结果进行提取整理,获取目标解答数据的步骤,具体包括:以所述最新问题数据为检索字段,通过数据传输或者数据抓取的方式从所述目标知识社区内获取所述最新问题数据所对应的所有解答数据,以及通过计算获得各个解答数据的解答评分;根据各个解答数据的解答评分,进行比较,筛选出所述最新问题数据对应的最优评分解答数据,作为所述目标解答数据。
[0118]
本实施例中,所述通过计算获得各个解答数据的解答评分的步骤,具体包括:获取各个解答数据分别在预设的不同特征维度所对应的特征表征信息,其中,所述不同特征维度包括解答数据提供者的专业领域、点赞数量、点踩数量、加精次数、好评次数、差评次数;对所述特征表征信息进行数值化处理,获得数值化处理结果;获取预先设置的所述不同特征维度分别对应的权重值;根据所述数值化处理结果和所述权重值,采用加权求和方式获取每个解答数据对应的加权求和值;将所述加权求和值设定为对应解答数据的解答评分。
[0119]
通过进行数值化处理,其目的为对非数值化数据进行数值化转化,便于结合不同
特征维度的权重值,获取目标解答数据的加权求和值。
[0120]
步骤206,根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。
[0121]
继续参考图5,图5是图2所示步骤206的一个具体实施例的流程图,包括:
[0122]
步骤501,根据预设的计时组件和预设的时间阈值,判断是否满足所述定时任务的触发条件;
[0123]
步骤502,若不满足所述定时任务的触发条件,则不对所述问答模型进行迭代更新;
[0124]
步骤503,若满足所述定时任务的触发条件,则重复执行步骤202至步骤203,对所述问答模型进行迭代更新,更新所述问答知识图谱,并重置所述计时组件的数值为预设的计时初始值。
[0125]
通过设置定时任务的方式,使得每隔一段时间,重新从所示目标知识社区获取到最新的问题数据以及之前问题数据最新的最优解答数据,保证了对问答知识图谱的自动化、智能化更新,同时,也保证了更新的及时性,减少了人工更新时的繁琐性和降低了人工更新成本。
[0126]
本实施例中,所述的基于全链路线上化的问答模型优化方法还包括迭代更新终止步骤,所述的迭代更新终止步骤,具体包括:获取本次迭代更新之后的问答知识图谱与前一次迭代更新之后的问答知识图谱,进行一致性比较,判断两者是否一致;若连续经过预设次数的一致性比较,比较结果都为两者一致,则所述问答知识图谱优化完成,关闭所述定时任务,终止对所述问答模型的迭代更新。
[0127]
本技术根据目标知识社区连接地址,连接目标知识社区;按照预设的获取规则,从所述目标知识社区内提取整理出意向数据;将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。不再采用人工方式进行问答知识库构建和问答模型优化,直接通过从知识社区获取知识信息的方式,构建问答模型及问答知识图谱,并再通过自检自搜和定时任务方式对问答模型进行补充更新和增量式更新,进行问答知识图谱的完善和更新,更加智能化和高效化,避免了人工更新的局限性,降低了人工成本。
[0128]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0129]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0130]
本技术实施例中,直接通过从知识社区获取知识信息的方式,构建问答模型及问答知识图谱,并再通过自检自搜和定时任务方式对问答模型进行补充更新和增量式更新,
进行问答知识图谱的完善和更新,更加智能化和高效化,避免了人工更新的局限性,降低了人工成本。
[0131]
进一步参考图6,作为对上述图2所示方法的实现,本技术提供了一种基于全链路线上化的问答模型优化装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
[0132]
如图6所示,本实施例所述的基于全链路线上化的问答模型优化装置600包括:知识社区连接模块601、意向数据获取模块602、问答知识图谱训练模块603、解答数据搜索模块604、模型补充更新模块605和模型迭代更新模块606。其中:
[0133]
知识社区连接模块601,用于根据目标知识社区连接地址,连接目标知识社区,其中,所述目标知识社区包括但不限于线上知识问答平台;
[0134]
意向数据获取模块602,用于按照预设的获取规则,从所述目标知识社区内提取整理出意向数据,其中,所述意向数据为问答对格式数据,所述问答对格式数据由问题数据及其对应的最优评分解答数据构成;
[0135]
问答知识图谱训练模块603,用于将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;
[0136]
解答数据搜索模块604,用于采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;
[0137]
模型补充更新模块605,用于若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;
[0138]
模型迭代更新模块606,用于根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。
[0139]
本技术根据目标知识社区连接地址,连接目标知识社区;按照预设的获取规则,从所述目标知识社区内提取整理出意向数据;将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。不再采用人工方式进行问答知识库构建和问答模型优化,直接通过从知识社区获取知识信息的方式,构建问答模型及问答知识图谱,并再通过自检自搜和定时任务方式对问答模型进行补充更新和增量式更新,进行问答知识图谱的完善和更新,更加智能化和高效化,避免了人工更新的局限性,降低了人工成本。
[0140]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)等非易失性存储介质,或随机存储记忆体(random access memory,ram)等。
[0141]
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻
执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0142]
为解决上述技术问题,本技术实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
[0143]
所述计算机设备7包括通过系统总线相互通信连接存储器7a、处理器7b、网络接口7c。需要指出的是,图中仅示出了具有组件7a-7c的计算机设备7,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(application specific integrated circuit,asic)、可编程门阵列(field -programmable gate array,fpga)、数字处理器(digital signal processor,dsp)、嵌入式设备等。
[0144]
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
[0145]
所述存储器7a至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器7a可以是所述计算机设备7的内部存储单元,例如该计算机设备7的硬盘或内存。在另一些实施例中,所述存储器7a也可以是所述计算机设备7的外部存储设备,例如该计算机设备7上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。当然,所述存储器7a还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中,所述存储器7a通常用于存储安装于所述计算机设备7的操作系统和各类应用软件,例如基于全链路线上化的问答模型优化方法的计算机可读指令等。此外,所述存储器7a还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0146]
所述处理器7b在一些实施例中可以是中央处理器(central processing unit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器7b通常用于控制所述计算机设备7的总体操作。本实施例中,所述处理器7b用于运行所述存储器7a中存储的计算机可读指令或者处理数据,例如运行所述基于全链路线上化的问答模型优化方法的计算机可读指令。
[0147]
所述网络接口7c可包括无线网络接口或有线网络接口,该网络接口7c通常用于在所述计算机设备7与其他电子设备之间建立通信连接。
[0148]
本实施例提出的计算机设备,属于人工智能技术领域。本技术根据目标知识社区连接地址,连接目标知识社区;按照预设的获取规则,从所述目标知识社区内提取整理出意向数据;将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。不再采用人工方式进行问答知识库构建和问答模型优化,直接通过从知识社区获
取知识信息的方式,构建问答模型及问答知识图谱,并再通过自检自搜和定时任务方式对问答模型进行补充更新和增量式更新,进行问答知识图谱的完善和更新,更加智能化和高效化,避免了人工更新的局限性,降低了人工成本。
[0149]
本技术还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被处理器执行,以使所述处理器执行如上述的基于全链路线上化的问答模型优化方法的步骤。
[0150]
本实施例提出的计算机可读存储介质,属于人工智能技术领域。本技术根据目标知识社区连接地址,连接目标知识社区;按照预设的获取规则,从所述目标知识社区内提取整理出意向数据;将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。不再采用人工方式进行问答知识库构建和问答模型优化,直接通过从知识社区获取知识信息的方式,构建问答模型及问答知识图谱,并再通过自检自搜和定时任务方式对问答模型进行补充更新和增量式更新,进行问答知识图谱的完善和更新,更加智能化和高效化,避免了人工更新的局限性,降低了人工成本。
[0151]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本技术各个实施例所述的方法。
[0152]
显然,以上所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例,附图中给出了本技术的较佳实施例,但并不限制本技术的专利范围。本技术可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本技术的公开内容的理解更加透彻全面。尽管参照前述实施例对本技术进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本技术说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本技术专利保护范围之内。

技术特征:
1.一种基于全链路线上化的问答模型优化方法,其特征在于,包括下述步骤:步骤201,根据目标知识社区连接地址,连接目标知识社区,其中,所述目标知识社区包括但不限于线上知识问答平台;步骤202,按照预设的获取规则,从所述目标知识社区内提取整理出意向数据,其中,所述意向数据为问答对格式数据,所述问答对格式数据由问题数据及其对应的最优评分解答数据构成;步骤203,将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;步骤204,采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;步骤205,若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;步骤206,根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。2.根据权利要求1所述的基于全链路线上化的问答模型优化方法,其特征在于,所述根据目标知识社区连接地址,连接目标知识社区的步骤,具体包括:获取所述目标知识社区的数据缓存地址,通过所述数据缓存地址与所述目标知识社区间建立数据传输关系,或者,获取所述目标知识社区的数据展示页面地址,通过所述数据展示页面地址与所述目标知识社区间建立数据抓取关系。3.根据权利要求1所述的基于全链路线上化的问答模型优化方法,其特征在于,所述按照预设的获取规则,获取所述目标知识社区内的意向数据的步骤,具体包括:根据预设的特殊标识符,提取出所述目标知识社区内所有问题数据,其中,所述特殊标识符包括问号符;以所述所有问题数据为检索字段,通过数据传输或者数据抓取的方式从所述目标知识社区内获取所有问题数据分别所对应的解答数据,以及通过计算获得各个解答数据的解答评分;根据各个解答数据的解答评分,进行比较,筛选出每个问题数据对应的最优评分解答数据;以每个问题数据和其对应的最优评分解答数据,以及所述最优评分解答数据的评分值为样本数据,构建一组目标格式数据,其中,所述目标格式数据为三元组格式数据,具体为[问题数据,最优评分解答数据,评分值];从每个三元组格式数据中获取当前的问题数据和最优评分解答数据;以当前的问题数据为key值,当前的最优评分解答数据为value值,构建每个三元组格式数据对应的键值对数据,作为意向数据。4.根据权利要求1所述的基于全链路线上化的问答模型优化方法,其特征在于,在执行所述采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果的步骤之前,所述方法还包括:获取所述问答知识图谱中所有的问题数据;通过预设的语义识别模型,对所述问答知识图谱中所有的问题数据进行语义识别,提
取每个问题数据分别对应的语义特征,构建语义特征集;所述采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果的步骤,具体包括:从预设的提问终端界面,提取最新问题数据;根据所述预设的语义识别模型,对所述最新问题数据进行语义识别,提取所述最新问题数据对应的语义特征作为目标语义特征;通过检索识别方式,识别所述语义特征集中是否已包含所述目标语义特征;若已包含,则根据所述目标语义特征对应的问题数据,获取相应的最优评分解答数据,将所述最优评分解答数据作为所述搜索结果;若未包含,则所述搜索结果为空数据。5.根据权利要求1或4所述的基于全链路线上化的问答模型优化方法,其特征在于,所述若所述搜索结果满足预设的数据格式条件,则根据预设的更新规则对所述问答模型进行补充更新的步骤,具体包括:判断所述搜索结果是否为空数据;若所述搜索结果为非空数据,则将所述非空数据作为返回值,发送给目标接收端,同时,以所述最新问题数据作为检索字段,识别所述问答知识图谱中是否包含所述最新问题数据,若所述问答知识图谱中包含所述最新问题数据,则无需对所述问答模型进行补充更新,若所述问答知识图谱中未包含所述最新问题数据,则需要对所述问答模型进行补充更新;若所述搜索结果为空数据,则需要对所述问答模型进行补充更新;所述预设的更新规则包括第一更新规则和第二更新规则,所述根据预设的更新规则对所述问答模型进行补充更新的步骤,具体包括:在所述问答知识图谱中创建所述最新问题数据对应的新问题节点;若所述问答知识图谱中未包含所述最新问题数据,则根据所述第一更新规则对所述问答模型进行补充更新,其中,所述第一更新规则的具体实现方式为:识别所述非空数据在所述问答知识图谱中对应的解答节点,通过指引线方式将所述新问题节点指向所述解答节点;若所述搜索结果为空数据,则根据所述第二更新规则对所述问答模型进行补充更新,其中,所述第二更新规则的具体实现方式为:将所述最新问题数据推送到所述目标知识社区进行解答数据在线征集,获取在线征集结果,通过对所述在线征集结果进行提取整理,获取目标解答数据,在所述问答知识图谱中创建所述目标解答数据对应的新解答节点,通过指引线方式将所述新问题节点指向所述新解答节点。6.根据权利要求5所述的基于全链路线上化的问答模型优化方法,其特征在于,所述获取在线征集结果,通过对所述在线征集结果进行提取整理,获取目标解答数据的步骤,具体包括:以所述最新问题数据为检索字段,通过数据传输或者数据抓取的方式从所述目标知识社区内获取所述最新问题数据所对应的所有解答数据,以及通过计算获得各个解答数据的解答评分;根据各个解答数据的解答评分,进行比较,筛选出所述最新问题数据对应的最优评分
解答数据,作为所述目标解答数据。7.根据权利要求3或6所述的基于全链路线上化的问答模型优化方法,其特征在于,所述通过计算获得各个解答数据的解答评分的步骤,具体包括:获取各个解答数据分别在预设的不同特征维度所对应的特征表征信息,其中,所述不同特征维度包括解答数据提供者的专业领域、点赞数量、点踩数量、加精次数、好评次数、差评次数;对所述特征表征信息进行数值化处理,获得数值化处理结果;获取预先设置的所述不同特征维度分别对应的权重值;根据所述数值化处理结果和所述权重值,采用加权求和方式获取每个解答数据对应的加权求和值;将所述加权求和值设定为对应解答数据的解答评分。8.根据权利要求1所述的基于全链路线上化的问答模型优化方法,其特征在于,所述根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新的步骤,具体包括:根据预设的计时组件和预设的时间阈值,判断是否满足所述定时任务的触发条件;若不满足所述定时任务的触发条件,则不对所述问答模型进行迭代更新;若满足所述定时任务的触发条件,则重复执行步骤202至步骤203,对所述问答模型进行迭代更新,更新所述问答知识图谱,并重置所述计时组件的数值为预设的计时初始值。9.一种基于全链路线上化的问答模型优化装置,其特征在于,包括:知识社区连接模块,用于根据目标知识社区连接地址,连接目标知识社区,其中,所述目标知识社区包括但不限于线上知识问答平台;意向数据获取模块,用于按照预设的获取规则,从所述目标知识社区内提取整理出意向数据,其中,所述意向数据为问答对格式数据,所述问答对格式数据由问题数据及其对应的最优评分解答数据构成;问答知识图谱训练模块,用于将所述意向数据输入至预构建的问答模型进行训练,获得问答知识图谱;解答数据搜索模块,用于采集最新问题数据,以所述问答知识图谱为搜索域,搜索所述最新问题数据对应的解答数据,获取搜索结果;模型补充更新模块,用于若所述搜索结果满足预设的补充更新条件,则根据预设的更新规则对所述问答模型进行补充更新;模型迭代更新模块,用于根据所述目标知识社区和预设的定时任务,触发对所述问答模型进行迭代更新。10.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至8中任一项所述的基于全链路线上化的问答模型优化方法的步骤。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至8中任一项所述的基于全链路线上化的问答模型优化方法的步骤。

技术总结
本申请实施例属于自然语言技术领域,应用于问答知识图谱优化领域中,涉及一种基于全链路线上化的问答模型优化方法及其相关设备,包括从目标知识社区内提取整理出意向数据;训练获得问答知识图谱;采集最新问题数据,搜索最新问题数据对应的解答数据,获取搜索结果;根据搜索结果,识别是否需要对问答模型进行补充更新,若需要,则对问答模型进行补充更新;根据目标知识社区和预设的定时任务,触发对问答模型进行迭代更新。直接通过从知识社区获取知识信息的方式,构建问答模型及问答知识图谱,并再通过自检自搜和定时任务方式对问答知识图谱进行补充更新和增量式更新,更加智能化和高效化,避免了人工更新的局限性,降低了人工成本。本。本。


技术研发人员:黄嘉雯
受保护的技术使用者:中国平安财产保险股份有限公司
技术研发日:2023.06.20
技术公布日:2023/9/16
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐