一种文本检索式问答方法及其应用

未命名 09-08 阅读:76 评论:0


1.本发明公开一种文本检索式问答方法及其应用,涉及基于问答技术的检索方法技术领域。


背景技术:

2.随着知识种类与来源的多样化发展趋势,由于传统以关键词查询为基础的信息检索方式存在语义理解难、检索结果冗余等问题,基于问答技术的检索方法被提出并逐步得到发展。该类方法是一种能更高效获取知识的方法,其以“语义理解”为核心的问答能够对用户输入的问题进行转化、理解用户语义、准确匹配问题的结果,能较好的解决传统关键词检索存在的问题。但是这类方法存在两个问题:1、语义理解能力的局限:尽管基于问答技术的检索方法试图理解用户输入的问题,但其语义理解能力仍受限于模型的训练数据和算法。在面对复杂、模糊或多义的问题时,模型可能无法准确理解用户意图。2、回答的准确性:由于问答系统的知识来源通常来自预先构建的知识库或训练数据,对于这些冷门问题,由于训练数据的不足,问答系统不能从海量的数据中找到准确的答案,这能可能会影响其结果的准确度。


技术实现要素:

[0003][0004]
本发明目的在于,提供一种文本检索式问答方法及其应用,解决现有技术中基于问答技术的检索方法语义理解能力不足、回答的准确性不足的问题。
[0005]
为实现上述技术目的,达到上述技术效果,发明是通过以下技术方案实现:
[0006]
一种文本检索式问答方法,包括如下步骤:s1、将问句和大量文本段落,输入基于bm25的段落相似度检索模型,进行文本段落的召回式检索,获取相似段落列表;
[0007]
s2、将问句与相似段落列表中的文本段落,输入基于机器阅读理解的答案抽取模型,获得文本段落中答案开始和结束概率最高的位置,将其中的文本作为候选答案,比较多个文本段落中的候选答案,生成文本答案。
[0008]
进一步的,所述步骤s1具体为,对问句q进行分词、去除停用词后,获得问句关键词集合q;针对文本段落集合d中每一个文本段落dj,计算每一个关键词qi与文本段落dj的相关性;最后将所有关键词与文本段落进行加权求和,从而获得问句与文本段落的相似性得分。如公式(1)所示:
[0009][0010]
式中wi表示关键词qi的权重,r(qi,dj)表示关键词qi与文本段落dj的相关性得分关系。而判断一个词与一个文本段落的相关性权重,常采用tf-idf算法中的idf,因此,wi常用idf计算,如公式(2)所示:
[0011][0012]
式中n代表待检索文本段落的数量,n(qi)代表包含qi的文本段落数量;如式可知:
对于给定的文本段落集合,包含qi的文本段落越多,那么qi的权重应更低;而关键词qi与文本段落dj的相关性得分r(qi,dj),如公式(3)和(4)所示:
[0013][0014][0015]
式中k1、k2、b为调节因子,依据经验通常k1=k2=2、b=0.75。fi表示在qi中文本段落dj出现的频率,qfi表示qi在问句q中出现的频率,代表文本段落dj的长度,avgd
l
代表所有文本段落的平均长度;
[0016]
通常,关键词qi在问句q中出现一次,则可将公式简化为以下形式:
[0017][0018]
综上,bm25模型的相关性得分公式可有如下形式:
[0019][0020]
进一步的,所述步骤s2中基于机器阅读理解的答案抽取模型首先需要通过bert模型进行词嵌入:
[0021]
bert模型结构包含输入层、编码层以及输出层,通过输入层输入文本表示;然后,通过基于12层双向transformer编码器的编码层,提取本文特征;最后,通过输出层输出各字对应融合全文语义信息的向量表示。
[0022]
进一步的,将bert词嵌入的特征,输入bilstm模型进行双向语义的捕捉。
[0023]
进一步的,结合对bert和bilstm模型,将问句与相似段落列表中的文本段落输入基于机器阅读理解的答案抽取模型,获得文本段落中答案开始和结束概率最高的位置,将其中的文本作为候选答案,比较多个文本段落中的候选答案,生成文本答案。
[0024]
本发明的另一目的在于,公开一种文本检索式问答方法面向设计制造运维一体化的应用,整合内部的数据,对敏感数据进行加密,并设置访问权限;
[0025]
将整合的数据输入文本检索式问答算法中构建封闭网络。
[0026]
进一步的,对敏感数据进行加密和设置访问权限通过构建系统实现:
[0027]
构建数据分类与标识模块:对企业内部的数据进行分类,识别出敏感数据和非敏感数据;
[0028]
构建数据加密模块:对于识别出的敏感数据,采用加密算法进行加密处理;
[0029]
构建密钥管理模块:对加密所用的密钥进行严格管理,建立密钥管理系统,用于生成、存储、分发和销毁密钥,使用硬件安全模块(hsm)来保护密钥,防止密钥泄露;
[0030]
构建访问权限设置模块:在设置访问权限时,遵循最小权限原则,即只授予用户完成任务所需的最小权限,通过访问控制列表(acl)或基于角色的访问控制(rbac)来实现;
[0031]
访问控制列表为每个数据对象设置一个权限列表,明确指定哪些用户可以访问;
[0032]
构建审计与监控模块:定期进行审计和监控,通过日志分析、入侵检测系统等手段,对系统内的访问行为进行监控和记录,一旦发现异常访问行为,可以及时进行调查和处理,以防止数据泄露。
[0033]
有益效果:
[0034]
本发明采用基于bm25的段落相似度检索模型,实现了对大量文本段落的召回式检索。这使得系统能够快速、准确地获取包含可能答案的多个文本段落,从而提高了问答效率。
[0035]
本发明在答案抽取过程中,使用了基于bert的机器阅读理解模型。这一模型通过对问句和相似段落列表中的文本段落进行词嵌入,可以提高系统对复杂、模糊或多义问题的理解能力。
[0036]
具体而言,本发明结合bert和bilstm模型,对问句与相似段落列表中的文本段落进行双向语义捕捉,实现更深层次的语义交互。这使得系统能够在多个文本段落中生成候选答案,并比较这些候选答案以找出最准确的答案。并且通过将bert词嵌入的特征输入bilstm模型,系统具备学习连接较远间隔时间片特征信息的能力,从而细化文本答案的粒度,提高回答的准确性。
[0037]
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
[0038]
图1为本发明实施例所述的文本检索式问答方法框架
[0039]
图2为本发明实施例所述的bert模型结构图
[0040]
图3为本发明实施例所述的bert模型输入层
[0041]
图4为本发明实施例所述的transformer模型结构图
[0042]
图5为本发明实施例所述的lstm模型结构图
[0043]
图6为本发明实施例所述的bilstm模型结构图
具体实施方式
[0044]
为了更清楚地说明本发明实施例的技术方案,下面将结合附图对实施例对本发明进行详细说明。
[0045]
实施例1
[0046]
本实施例中公开的一种文本检索式问答方法,该方法为二阶段的检索方法。(1)第一阶段采用bm25进行文本段落的召回式检索方法,具有较好的文本段落相似度检索效果,能快速准确获取包含可能答案的多个文本段落,缩短了第二阶段所耗费的时间,提高了问答效率。(2)第二阶段采用bert预训练模型进行词向量的嵌入,并加入bilstm模块,该模块具备学习连接较远间隔时间片特征信息的能力,能细化文本答案的粒度,其具体内容如下:
[0047]
(1)基于bm25的段落相似度检索模型
[0048]
段落相似度检索模型主要用于缩小可能的答案范围,以提高检索效率。在问题输入后,模型需要对文本段落进行阅读理解以获取问题可能的答案。而多模态信息集合中存在大量的文本段落,如果对所有文本段落进行阅读理解,需要花费大量时间,检索效率太低。因此,首先通过段落相似度检索模型对大量文本段落进行相似度检索,以得到尽可能相关的文本段落列表,从而缩小答案抽取的范围。
[0049]
(2)基于机器阅读理解的答案抽取模型
[0050]
该部分基于机器阅读理解模型通过对问句相关的文本段落列表内的文本段落预
测,获得多个候选答案,再通过比较候选答案的得分,输出一个最合适的答案。
[0051]
首先,bm25模型主要用于计算某一个文本段落相对于一个问句关键词的相关性,然后根据相关性进行排序后获取前k个(top-k个)最相似的文本段落。其中,首先需要对问句进行分词、去除停用词以获得问句中的关键词。本文中采用jieba分词并根据停用词表对停用词进行去除。
[0052]
具体为:对问句q进行分词、去除停用词后,获得问句关键词集合q;针对文本段落集合d中每一个文本段落dj,计算每一个关键词qi与文本段落dj的相关性;最后将所有关键词与文本段落进行加权求和,从而获得问句与文本段落的相似性得分。如公式(1)所示:
[0053][0054]
式中wi表示关键词qi的权重,r(qi,dj)表示关键词qi与文本段落dj的相关性得分关系。而判断一个词与一个文本段落的相关性权重,常采用tf-idf算法中的idf,因此,wi常用idf计算,如公式(2)所示:
[0055][0056]
式中n代表待检索文本段落的数量,n(qi)代表包含qi的文本段落数量。如式可知:对于给定的文本段落集合,包含qi的文本段落越多,那么qi的权重应更低。而关键词qi与文本段落dj的相关性得分r(qi,dj),如公式(3)和(4)所示:
[0057][0058][0059]
式中k1、k2、b为调节因子,依据经验通常k1=k2=2、b=0.75。fi表示在qi中文本段落dj出现的频率,qfi表示qi在问句q中出现的频率,代表文本段落dj的长度,avgd
l
代表所有文本段落的平均长度。如式可知b具有调整文本段落长度对相关性影响的作业,即b越大,则k越小,相关性得分就越大,反之则越小。文本段落长度越长,k也会变大,相关性得分就会变小。其在相关性得分的作用可以理解为:当文本段落较长时,那么包含关键词qi的概率越大,则长文本段落与qi的相关性就应比短文本段落与qi的相关性弱。通常,关键词qi在问句q中出现一次,则可将公式简化为以下形式:
[0060][0061]
综上,bm25模型的相关性得分公式可有如下形式:
[0062][0063]
本文基于以上bm25算法模型对进行大量文本段落进行相似度检索,得到尽可能相关的文本段落列表,为完成文本检索式问答方法中段落检索任务起到了简化支撑。
[0064]
其次,bert模型是在2018年由google公司提出的,作为一种新型的语言模型,在11项自然语言处理任务中取得了惊人的好效果,击败了同时期所有语言模型,包括elmo、gpt等。相较于单向语言模型gpt,bert模型基于双向transformer编码器,融合了自左向右以及自右向左双向的文本特征,因此,该模型能更好地提取文本的全局特征。相较于基于双向lstm的elmo语言模型,transformer编码器是基于多头自注意力机制的,其特征提取效果优
于lstm,能够突出文本中的关键信息,因此,该模型也能较好地提取文本的局部特征。结合对文本全局特征和局部特征的提取,bert模型能够提取深层次的文本特征,适用于大部分自然语言处理任务,如问答系统、文本分类、信息检索、文本摘要等。bert模型的优越性取决于其应用了多层次的神经网络,因此,该模型训练过程需要大量数据。
[0065]
然而,在部分任务中只存在少量样本数据,模型不能从中学习样本特征。因此,需要bert预训练模型微调来实现应用,其原理是通过预训练的方式获取大量低成本训练数据的“共性”特征,再使用任务相关的少量数据进行“微调”。bert模型只需要从“共性”出发,通过“微调”便可以实现少量样本数据的“特性”的学习。因此,本文利用bert预训练模型提取文本特征,应用于检索式问答的各个模块,提高模型整体性能。bert模型结构如图2所示。
[0066]
其中,bert模型结构包含输入层、编码层以及输出层。首先,通过输入层输入文本表示;然后,通过基于12层双向transformer编码器的编码层,提取本文特征;最后,通过输出层输出各字对应融合全文语义信息的向量表示。
[0067]
(1)bert模型输入层用于输入文本表示。其中,文本表示通过三层编码叠加获得,如图3所示。
[0068]
其中,bert预训练模型由单词遮蔽模型、句子关联模型两个无监督任务组成。分别对应输入层中字编码、块编码。而位置编码是用于表示文本的相对位置,利用sin和cos三角函数分奇偶表示,如公式(7)、(8)所示:
[0069][0070][0071]
式(4-1)中pos代表文本中单词的整数位置,i代表文本向量维数,d
model
代表编码器模型维数。
[0072]
(2)编码层是由多个transformer编码器组成。其中,transformer编码器由多头自注意力机制、第一层求和与层归一化、前馈神经网络和第二层求和与层归一化四部分组成,其结构图如图4所示。
[0073]
多头自注意力机制(multi-head self-attention mechanism)相较于自注意力机制即单头,将模型分为多个子空间,随机生成多组权重向量。通过多组自注意力机制,实现向量间不同方面的信息特征提取。其中,注意力机制常用“query-key-value”的形式描述。以图书馆为例,图书馆里中有很多书籍v(value),为了便于寻找,书籍往往会有书号k(key)。然而,相关书籍不是所有都要看,只需要观察相关度即权重较高的书籍例如自传、出版物等。
[0074]
而自注意力计算方式,首先初始化三个矩阵q、k、v,通过q与k点乘,获得权重值qk
t
;将其通过归一化表示为正态分布,获得可用的权重值;最终利用softmax函数与v相乘,得到自注意力计算公式,如式(9)所示:
[0075][0076]
而多头注意力机制由多个自注意力机制组成,其中,不同自注意力矩阵机制权重不同,如公式(10)和(11)所示:
[0077]
headi=attention(qw
iq
,kw
ik
,vw
iv
)
ꢀꢀꢀ
(10)
[0078]
multihead(q,k,v)=concat(head1,...,headh)woꢀꢀꢀ
(11)
[0079]
第一层求和与层归一化。其中,求和是指将输入层x和多头自注意力机制层multiheadattention(x),通过残差连接相加,再通过层归一化layernorm将每一层神经元输入的均值方差转换一致,达到加速收敛的效果,其计算方式如式(12)所示:
[0080]
x=layernorm(x+multiheadattention(x))
ꢀꢀꢀ
(12)
[0081]
前馈神经网络,是输入层向量x通过两层线性变化中间加上一层relu激活函数,起计算方式如式(13)所示:
[0082]
ffn(x)=max(0,xw1+b1)w2+b2ꢀꢀꢀ
(13)
[0083]
第二层求和与层归一化。其中,求和是指将前馈神经网络输入层x和前馈神经网络层feedforward(x),通过残差连接相加,再通过层归一化layernorm进行归一化,其计算方式如式(14)所示:
[0084]
x=layernorm(x+feedforward(x))
ꢀꢀꢀ
(14)
[0085]
至此,将第二层求和与层归一化的结果,输入下一个transformer编码器,重复这四部分。由于bert模型通过12层双向transformer编码器,获得输入较深层次的特征,能够较好地理解语义,因此,本模型采用bert模型来表示文本特征。
[0086]
然后,lstm模型是一种rnn的特殊变种网络模型,可以解决长距离文本训练过程的梯度消失和梯度爆炸问题,因此,lstm能在更长距离文本的表现更好,其模型结构如图5所示。
[0087]
如图中所示,lstm模型包含四个交互层、三个输入数据和两个输出数据。其中,lstm的核心为细胞状态c
t
的传递。三个输入数据为上一个细胞状态c
t-1
,上一个输出信息h
t-1
以及当前输入x
t
。输出则为细胞状态c
t
和输出信息h
t

[0088]
其中,四个交互层的具体原理如下:
[0089]
第一层遗忘门交互:lstm需要根据上一个输出信息和当前输入信息,决定更新细胞状态中需要丢弃的信息。该门输入h
t-1
和x
t
,通过σ层,输出f
t
,取值范围为0到1。其中1表示“全部保留”,0表示“全部丢弃”。其计算原理如公式(15)所示:
[0090]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
ꢀꢀꢀ
(15)
[0091]
第二层记忆门交互:该层需要确定需要加入的信息,实现细胞状态的更新。首先需要输入h
t-1
和x
t
,输出i
t
,取值范围为0到1,以确认需要加入哪些信息。然后,通过tanh层创建一个新的候选值向量加入细胞状态中。其计算原理如公式(16)和(17)所示:
[0092]it
=σ(wi·
[h
t-1
,x
t
]+bi)
ꢀꢀꢀ
(16)
[0093][0094]
第三层更新层交互:该层在上两层获取细胞状态丢失信息与细胞状态添加信息的基础上,实现对细胞状态的更新,如公式(18)所示:
[0095][0096]
第四层输出层交互:该层基于细胞状态确定输出值。首先通过σ层输出状态值o
t
,确定对细胞状态的哪部分进行输出。然后将细胞状态通过tanh层进行处理,将其与o
t
相乘,获得输出信息h
t
。其计算原理如公式(19)和(20)所示:
[0097]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
ꢀꢀꢀ
(19)
[0098]ht
=o
t
*tanh(c
t
)
ꢀꢀꢀ
(20)
[0099]
然而,由于lstm是一种单向模型,不能很好捕捉双向的语义信息。因此,需要基于双向lstm即bilstm模型通过自左而右和自右而左的语义捕捉,解决lstm存在的弊端。其模型结构如图6所示。
[0100]
其中,bilstm模型结构的输出h
t
由h
t1
和h
t2
两个向量拼接而成,其中包含了双向lstm的特征信息。因此,本模型在bert词向量嵌入的基础上,采用bilstm用于双向语义的捕捉,获取更深层次的语义交互。
[0101]
最后,基于bert和bilstm模型的研究,阐述文本答案的抽取过程,实现文本问答功能。主要过程如下:
[0102]
首先将问句和文本段落的文本向量表示e输入bert预训练模型中,获取问句和文本段落的特征表示t
bert
。如公式(21)所示
[0103]
t
bert
=bert(e)
ꢀꢀꢀ
(21)
[0104]
然后将问句特征表示和文本段落的特征表示t
bert
输入bilstm,获得联系上下文的特征表示t
bilstm
。如公式(22)所示:
[0105]
t
bilstm
=bilstm(t
bert
)
ꢀꢀꢀ
(22)
[0106]
最后输入多层感知机层,获得文本段落中每个字作为答案开始位置和结束位置的概率。如公式(4-29)所示:
[0107][0108]
在此基础上,选取其中概率最高的两个位置作为答案的开始位置和结束位置。如公式(24)和(25)所示:
[0109][0110][0111]
最终,抽取片段作为问题答案的概率由开始位置和结束位置概率的求和平均值确定,如公式(26)所示:
[0112][0113]
综上,通过基于bilstm-bert的机器阅读理解模型实现了对文本答案的抽取。
[0114]
实施例2
[0115]
为了验证本方法的有效性,本实施例分别针对段落相似度检索模型和答案抽取模型进行实验验证,该部分分为实验数据集简介、模型评价指标及参数、实验结果及对比分析。
[0116]
(1)首先介绍实验数据集。在公共数据集squad机器阅读理解数据集上评估在文本检索式问答方法。squad数据集由众包工作者在维基百科上提出的问题组成,其中每一个问题都是对应文章的一段文本。该数据包含536篇文章以及其中涉及的107785条问答对,选取其中97215条作为训练集,10570条作为训练集。数据集数据情况如表1所示。
[0117]
表1 squad数据集数据情况
[0118][0119]
(2)两种模型的评价指标及参数设置
[0120]

段落相似度检索模型评价指标
[0121]
针对基于bm25的段落相似度检索模型,本文采用top5召回率作为评价指标,其中top5召回率指在列表前五个相似段落中包含查询内容的比例,其计算原理如公式(27)和(28)所示:
[0122][0123][0124]
式中q表示问句,ri表示问句答案是否在前5个相似段落中。
[0125]

答案抽取模型评价指标及参数设置
[0126]
针对基于机器阅读理解的答案抽取模型模块,本文采用f1值和em精确匹配值(exact match)作为评价指标。其中,f1值用来评估答案的准确率,em精确匹配值用来评估答案与正确答案完全一致的比例。在深度学习中,通常使用混淆矩阵对模型的预测结果进行分析,以二分类样本集合为例,样本属性分为真假,预测属性亦分为真假,样本分类根据样本和预测属性,结果分为tp、fp、fn、tn四种,如表2所示。
[0127]
表2样本分类的四种结果
[0128][0129]
召回率(recall)表示为所有样本为真中预测为真的数量比上所有样本为真的数量,如式(29)所示。
[0130][0131]
精确率(precision)表示所有预测为真的样本中样本为真的数量比上所有预测为真的样本数量,如式(30)所示。
[0132][0133]
f1值是召回率和精确率的调和平均数,能够很好的将精确率和召回率结合起来,如式(31)所示。
[0134][0135]
而em精确匹配值,其计算原理如公式(32)所示:
[0136][0137]
式中cp表示抽取答案与正确答案完全匹配的数量,sum表示所有抽取答案的数量。此外,答案抽取模型的参数设置如表3所示。
[0138]
表3实验参数设置
[0139][0140]
其中,batch_size表示一次输入训练批数,num_epochs表示遍历训练次数,max_seq_len表示输入模型序列的最大长度,hidden_size表示bert输出词向量的维度,hidden_act表示隐藏层的激活函数,initiazation_range表示bert初始化范围,vocab_size表示词汇表大小。
[0141]
(3)两种模型的实验结果与对比分析
[0142]

段落相似度检索基准模型
[0143]
为了验证段落相似度检索模型的优越性,本文设置2个基准模型进行对比,具体内容如下:
[0144]
tf-idf:通过计算特征词在文档中词频和逆文档频率,乘积计算关键词权重,从而获取特征词与文档的相关程度。
[0145]
n-gram-tf-idf:在tf-idf基础上加上n-gram,将文档中词的顺序考虑,增强了文本语义理解能力,获得特征词与文档的进一步的相关程度。
[0146]
在squad数据集上实验,得到如表4所示的结果。
[0147]
表4bm25在数据集上的实验结果
[0148][0149]
从上表中可知,bm25在top5召回率中,相较于传统的tf-idf和n-gram-tf-idf效果更为优异,因此,本方法采用bm25的段落相似度检索方法缩小文本段落检索的范围。
[0150]

基于机器阅读理解的答案抽取基准模型
[0151]
为了验证答案抽取模型的优越性,本文设置4个基准模型进行对比,具体内容如下:
[0152]
match-lstm:一种基于指针网络的端到端神经网络模型。
[0153]
bidaf:通过双向注意力流,得到一个问题感知的上下文表征,从而将问题嵌入文档,获取准确的答案。
[0154]
r-net:一种基于自注意力机制的机器阅读理解模型。
[0155]
slqa+:一种基于多粒度层次注意力融合网络模型,多粒度特征编码融合局部信息和全局信息,通过引入层次注意力网络,逐步查找答案。
[0156]
bert:一种基于双向transformer编码器的语言模型,在模型基础上进行微调,实现机器阅读理解功能。
[0157]
在squad数据集上实验,得到如表5所示的结果。
[0158]
表5bilstm-bert在squad数据集上的实验结果
[0159][0160][0161]
由上表可知,相较于match-lstm,带有注意力机制的模型在答案抽取的效果上更好。slqa+利用多粒度的特征编码融合了全局特征和局部特征,利用层次注意力机制,提高了答案抽取的效果,相较于基线模型bidaf在f1值上提升了2.1%。随着bert模型做词嵌入,能够获取文本深层次语义特征,f1值达到87.6%。本文模型在此基础上加入bilstm模型,在f1值效果上提升了0.5%。
[0162]
综上,bilstm-bert模型在squad数据集中答案抽取的效果相较于一些基线模型达到最优,因此,本文采用bilstm-bert的机器阅读理解模型作为本文答案抽取的模型。
[0163]
实施例3
[0164]
设计、制造和运维业务间既涉及各环节信息正向逐级传递的过程,又涉及信息反向获取与优化反馈的过程。正向和反向过程中,各环节业务常常需要查阅其他环节的信息作为该环节业务实施的依据和支撑,如:设计环节需要根据制造资源与工艺等环节产生的信息作为设计参考,制造环节也需要查阅设计环节的设计要求信息作为制造的依据,运维过程涉及的故障诊断、零部件选配等环节也离不开设计和制造知识的支撑,而运维环节产生的资源需求,故障件设计缺陷等信息对设计的优化、生产再排程等环节也会产生重要影响。因此,信息的检索和查阅成为设计、制造和运维正反双向全过程各环节业务交互的必要手段,也是各业务间互联与协同的最直接、最常见的体现形式。
[0165]
但是设计、制造和运维业务是否需要考虑到保密问题,不能使用公共网络实现各业务间互联与协同的目的,因此申请人基于前述实施例的内容将基于文本检索式问答方法应用于设计制造运维一体化系统中。
[0166]
本实施例提供了一种基于文本检索式问答方法的设计制造运维一体化系统,该系统整合企业内部的数据,并对敏感数据进行加密和设置访问权限,实现了对企业数据的高
效保护和利用,具体包括:
[0167]
数据整合模块:本系统首先整合企业内部的设计、制造、运维等相关数据,包括设备参数、工艺流程、设备状态、维修记录等。通过数据清洗、标准化处理,将这些数据整合成统一格式,便于后续处理和分析。
[0168]
在一具体实施情况中,这些数据包括设备参数、工艺流程、设备状态、维修记录等数据。数据整合模块将这些数据从各个子系统中提取出来,通过数据清洗、标准化处理,将这些数据整合成统一格式,例如将所有数据存储为csv格式,便于后续处理和分析。
[0169]
数据分类与标识模块,在整合数据的过程中,通过人工审核或自动化工具对数据进行分类和标识,识别出敏感数据和非敏感数据,以便进行相应的保护措施。
[0170]
在一具体实施情况中,可以对数据进行分类和标识,将涉及企业机密的工艺参数、设计方案等标识为敏感数据,而设备状态、维修记录等标识为非敏感数据。
[0171]
数据加密模块,对于识别出的敏感数据,采用aes等对称加密算法或rsa等非对称加密算法进行加密处理,确保数据的安全性。
[0172]
在一具体实施例中,可以对敏感数据进行加密处理,例如采用aes-256加密算法,对工艺参数、设计方案等敏感数据进行加密,以确保数据的安全性。
[0173]
密钥管理模块,本系统建立了一个密钥管理系统,用于生成、存储、分发和销毁加密所用的密钥。同时,使用硬件安全模块(hsm)来保护密钥,防止密钥泄露。
[0174]
访问权限设置模块,本系统实现了访问控制列表(acl)或基于角色的访问控制(rbac)功能,遵循最小权限原则,只授予用户完成任务所需的最小权限。通过设置不同的访问权限,有效保护了企业数据的安全。
[0175]
在一具体实施例中,可以根据员工职责分配相应的访问权限。例如,研发部门可以访问工艺参数、设计方案等敏感数据,而维修部门则只能访问设备状态、维修记录等非敏感数据。
[0176]
审计与监控模块,本系统定期进行审计和监控,通过日志分析、入侵检测系统等手段,对系统内的访问行为进行监控和记录。一旦发现异常访问行为,可以及时进行调查和处理,以防止数据泄露。例如,监控员工对敏感数据的访问行为,确保数据安全。
[0177]
文本检索式问答模块:本系统采用前述的文本检索式问答方法,将整合的数据输入问答算法,构建一个封闭网络。用户可以通过该网络查询与设计、制造、运维相关的问题,系统将根据输入的问题,自动检索相关数据,并生成合适的答案。例如,研发部门的员工可以通过问答系统查询某个工艺参数的具体数值,系统根据输入的问题自动检索相关数据,并生成合适的答案。
[0178]
例如,假设某制造企业正在开发新型产品,研发部门的一名工程师需要查询某一部分的设计参数。在这种情况下,系统会进行如下完整流程:
[0179]
工程师在问答系统中输入查询问题,例如:“请提供新型产品部件a的设计参数。”[0180]
文本检索式问答模块解析工程师的问题,并在整合的数据中检索相关信息。
[0181]
系统检测到工程师所需的数据为敏感数据,因此会根据工程师的访问权限判断是否可以提供查询结果。假设工程师具有访问该敏感数据的权限,则进入下一步。
[0182]
数据加密模块使用密钥管理模块提供的密钥解密所需的敏感数据。
[0183]
文本检索式问答模块根据解密后的数据生成合适的答案,例如:“新型产品部件a
的设计参数为:长度200mm,宽度100mm,高度50mm。”[0184]
系统将生成的答案返回给工程师。
[0185]
审计与监控模块记录工程师的查询行为,以便于后续审计和分析。
[0186]
应当注意的是,前述内容的实现方式是建立在本发明文本检索式问答方法的基础上的,通过这个方法在封闭的数据库以及封闭系统中能够快速、准确的获得询问结果。
[0187]
通过上述实施方式,本发明实现了一种基于文本检索式问答方法的设计制造运维一体化系统,有效保护了企业数据的安全,同时为用户提供了便捷的查询服务。
[0188]
以上仅是该申请的实施例部分,并非对该申请做任何形式上的限制。对以上实施例所做的任何简单的修改、等同变化及修饰,仍属于该申请技术方案保护的范围内。

技术特征:
1.一种文本检索式问答方法,其特征在于,包括如下步骤:s1、将问句和大量文本段落,输入基于bm25的段落相似度检索模型,进行文本段落的召回式检索,获取相似段落列表;s2、将问句与相似段落列表中的文本段落,输入基于机器阅读理解的答案抽取模型,获得文本段落中答案开始和结束概率最高的位置,将其中的文本作为候选答案,比较多个文本段落中的候选答案,生成文本答案。2.根据权利要求1所述的一种文本检索式问答方法,其特征在于,所述步骤s1具体为,对问句q进行分词、去除停用词后,获得问句关键词集合q;针对文本段落集合d中每一个文本段落d
j
,计算每一个关键词q
i
与文本段落d
j
的相关性;最后将所有关键词与文本段落进行加权求和,从而获得问句与文本段落的相似性得分。如公式(1)所示:式中w
i
表示关键词q
i
的权重,r(q
i
,d
j
)表示关键词q
i
与文本段落d
j
的相关性得分关系。而判断一个词与一个文本段落的相关性权重,常采用tf-idf算法中的idf,因此,w
i
常用idf计算,如公式(2)所示:式中n代表待检索文本段落的数量,n(q
i
)代表包含q
i
的文本段落数量;如式可知:对于给定的文本段落集合,包含q
i
的文本段落越多,那么q
i
的权重应更低;而关键词q
i
与文本段落d
j
的相关性得分r(q
i
,d
j
),如公式(3)和(4)所示:),如公式(3)和(4)所示:式中k1、k2、b为调节因子,依据经验通常k1=k2=2、b=0.75。f
i
表示在q
i
中文本段落d
j
出现的频率,qf
i
表示q
i
在问句q中出现的频率,代表文本段落d
j
的长度,avgd
l
代表所有文本段落的平均长度;通常,关键词q
i
在问句q中出现一次,则可将公式简化为以下形式:综上,bm25模型的相关性得分公式可有如下形式:3.根据权利要求1或2所述的一种文本检索式问答方法,其特征在于,所述步骤s2中基于机器阅读理解的答案抽取模型首先需要通过bert模型进行词嵌入:bert模型结构包含输入层、编码层以及输出层,通过输入层输入文本表示;然后,通过基于12层双向transformer编码器的编码层,提取本文特征;最后,通过输出层输出各字对应融合全文语义信息的向量表示。4.根据权利要求3所述的一种文本检索式问答方法,其特征在于,将bert词嵌入的特征,输入bilstm模型进行双向语义的捕捉。
5.根据权利要求4所述的一种文本检索式问答方法,其特征在于,结合对bert和bilstm模型,将问句与相似段落列表中的文本段落输入基于机器阅读理解的答案抽取模型,获得文本段落中答案开始和结束概率最高的位置,将其中的文本作为候选答案,比较多个文本段落中的候选答案,生成文本答案。6.一种文本检索式问答方法面向设计制造运维一体化的应用,其特征在于,整合内部的数据,对敏感数据进行加密,并设置访问权限;将整合的数据输入文本检索式问答算法中构建封闭网络。7.根据权利要求6所述的一种文本检索式问答方法的应用,其特征在于,应用于面向设计制造运维一体化。8.根据权利要求7所述的文本检索式问答方法的应用,其特征在于,对敏感数据进行加密和设置访问权限通过构建系统实现应用:构建数据分类与标识模块:对企业内部的数据进行分类,识别出敏感数据和非敏感数据;构建数据加密模块:对于识别出的敏感数据,采用加密算法进行加密处理;构建密钥管理模块:对加密所用的密钥进行严格管理,建立密钥管理系统,用于生成、存储、分发和销毁密钥,使用硬件安全模块(hsm)来保护密钥,防止密钥泄露;构建访问权限设置模块:在设置访问权限时,遵循最小权限原则,即只授予用户完成任务所需的最小权限,通过访问控制列表(acl)或基于角色的访问控制(rbac)来实现;访问控制列表为每个数据对象设置一个权限列表,明确指定哪些用户可以访问;构建审计与监控模块:定期进行审计和监控,通过日志分析、入侵检测系统等手段,对系统内的访问行为进行监控和记录,一旦发现异常访问行为,可以及时进行调查和处理,以防止数据泄露。

技术总结
本发明公开的一种文本检索式问答方法及,包括如下步骤:S1、将问句和大量文本段落,输入基于BM25的段落相似度检索模型,进行文本段落的召回式检索,获取相似段落列表;S2、将问句与相似段落列表中的文本段落,输入基于机器阅读理解的答案抽取模型,获得文本段落中答案开始和结束概率最高的位置,将其中的文本作为候选答案,比较多个文本段落中的候选答案,生成文本答案。本发明结合BERT和BiLSTM模型,对问句与相似段落列表中的文本段落进行双向语义捕捉,实现更深层次的语义交互。这使得系统能够在多个文本段落中生成候选答案,并比较这些候选答案以找出最准确的答案。选答案以找出最准确的答案。选答案以找出最准确的答案。


技术研发人员:廖伟智 焦烈 阎德劲 武晓东 包壁祯
受保护的技术使用者:电子科技大学
技术研发日:2023.05.23
技术公布日:2023/9/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐