一种基于知识图谱的化工园区安全问答方法、设备及存储介质
未命名
07-14
阅读:62
评论:0

1.本发明涉及知识图谱问答领域,尤其涉及一种基于知识图谱的化工园区安全问答方法、设备及存储介质。
背景技术:
2.当前,化工园区的安全越来越受到人们的重视,如何对体积庞大、结构复杂的数据进行分析,从中获取可利用的化工园区安全知识,是化工大数据实际应用的关键。化工园区安全问答是化工领域中理解用户意图,帮助用户获取答案的一种典型应用。知识图谱以图结构形式对数据进行存储和处理,可以从海量的数据中抽取出有用的信息,有效处理海量数据。目前网页查询很难对用户提出的化工园区安全类问题给出针对性强的回答,而这可以解决此类问题。
3.文献“基于知识图谱的限定域问答系统关键技术研究与应用.硕士学位论文,青岛大学,2021.”提出了基于知识图谱的问答系统方法,该方法的主要步骤是:第一,根据爬取的数据集设计了知识图谱的数据模式,然后将问句分类体系的划分与知识图谱的数据模式相结合。第二,提出了bert-bilstm模型来提升相似度的计算精度,将此模型用于问句分类和问答过程中。第三,提出了一个改进的基于语义解析的问答模型,通过添加约束生成查询图自动转换成neo4j查询语句,再到数据库中检索得到答案。第四,构建了知识图谱,将爬取信息整理格式后导入到neo4j数据库,然后在此知识图谱的基础上实现了基于语义解析的问答系统方法。
4.该方法存在一些缺陷:现有化工园区安全领域问题搜索答案不匹配造成搜索问题耗时长,效率低。
技术实现要素:
5.发明目的:本发明的目的是提供了一种基于知识图谱的化工园区安全问答方法、设备及存储介质,解决现有化工园区安全领域问题搜索答案不匹配造成搜索问题耗时长,效率低的问题
6.技术方案:本发明在于提供一种基于知识图谱的化工园区安全问答方法、设备及存储介质,所述方法包括以下步骤:
7.(1)获取化工园区的百科知识,用于构建化工园区的百科知识图谱,并将其存储为json格式;
8.(2)对数据进行预处理,具体包括以下步骤:
9.(21)使用python3方法中的win32com将pdf格式文本转换为txt文本;
10.(22)通过使用正则表达式re定义规则将多余的干扰信息删除;
11.(23)使用python3方法中的jieba分词工具对过滤后的数据进行分词处理;
12.(3)将处理后的数据输入基于bert-bigru-mhat-crf实体识别模型进行训练;
13.(4)将训练好的数据采用neo4j图数据库进行知识存储,生成知识图谱。
14.进一步的,所述步骤(3),包括以下步骤:
15.(31)将数据通过bert方法进行向量化,生成字向量序列;
16.(32)将生成的向量序列输入bigru模型中进行进一步语义编码得到句子的完整序列;
17.(33)采用注意力机制计算出所占关系类型的权重,计算公式如下:
[0018][0019]
q是查询语句,k是关键字,v是值。其中dk等于词向量的长度。
[0020]
(34)将预测结果通过crf模型训练输出概率最大标签序列。
[0021]
进一步的,所述步骤(34)具体如下:
[0022]
(341)计算预测序列的评分;
[0023]
设输入序列x={x1,x2,x3...xn}的预测序列类别为y={y1,y2,y3...yn},每种预测序列标签分数为pi,路径有n条,则路径的总分数为:p
all
=p1+p2+...+pn=e
s1
+e
s2
+...+e
sn
,crf对预测序列y={y1,y2,y3...yn}的评分公式为:
[0024][0025]
式中,p
i,yi
表示该字符的第yi个标签的分数,a
yi,yi-1
表示标签的转换矩阵;
[0026]
(342)将评分结果利用贝叶斯公式得到序列标签的概率,计算公式如下:
[0027][0028]
其中,p公式为表示序列原序列到预测序列对应的概率,s(x,y)是crf对预测序列的评分公式。
[0029]
本发明还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述的一种基于知识图谱的化工园区安全问答方法中的步骤。
[0030]
本发明还提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行如权利要求1-4中任一所述方法。
[0031]
有益效果:与现有技术相比,本发明具有如下显著优点:解决了现有化工园区安全领域问题搜索不匹配造成搜索问题耗时长,效率低的问题;有效对问题进行解析,提高了问题类型划分的准确率以及答案精度。
附图说明
[0032]
图1为本发明原理框图。
具体实施方式
[0033]
下面结合附图对本发明的技术方案作进一步说明。
[0034]
如图1所示,本发明的实施例一种基于知识图谱的化工园区安全问答方法、设备及存储介质,所述方法包括以下步骤:
[0035]
(1)获取化工园区的百科知识,用于构建化工园区的百科知识图谱,并将其存储为json格式;
[0036]
(2)对数据进行预处理,具体包括以下步骤:
[0037]
(21)使用python3方法中的win32com将pdf格式文本转换为txt文本;
[0038]
(22)通过使用正则表达式re定义规则将多余的干扰信息删除;
[0039]
(23)使用python3方法中的jieba分词工具对过滤后的数据进行分词处理;
[0040]
(3)将处理后的数据输入基于bert-bigru-mhat-crf实体识别模型进行训练;包括以下步骤:
[0041]
(31)将数据通过bert方法进行向量化,生成字向量序列;
[0042]
(32)将生成的向量序列输入bigru模型中进行进一步语义编码得到句子的完整序列;
[0043]
(33)采用注意力机制计算出所占关系类型的权重,计算公式如下:
[0044][0045]
q是查询语句,k是关键字,v是值。其中dk等于词向量的长度。
[0046]
softmax是深度学习里面的一个函数,元素的softmax值,就是该元素的指数与所有元素指数和的比值。
[0047]
(34)将预测结果通过crf模型训练输出概率最大标签序列;包括以下步骤:
[0048]
(341)计算预测序列的评分;
[0049]
设输入序列x={x1,x2,x3...xn}的预测序列类别为y={y1,y2,y3...yn},每种预测序列标签分数为pi,路径有n条,则路径的总分数为:p
all
=p1+p2+...+pn=e
s1
+e
s2
+...+e
sn
,crf对预测序列y={y1,y2,y3...yn}的评分公式为:
[0050][0051]
式中,p
i,yi
表示该字符的第yi个标签的分数,a
yi,yi-1
表示标签的转移分数(转换矩阵)
[0052]
(342)将评分结果利用贝叶斯公式得到序列标签的概率,计算公式如下:
[0053][0054]
其中,p公式为表示序列原序列到预测序列对应的概率,s(x,y)是crf对预测序列的评分公式。
[0055]
随着模型不断地迭代,参数不断更新,真实的预测标签序列在预测路径中占有的
比例逐渐增大,通过损失函数loss衡量预测值与实际值的偏离程度,计算公式如下:
[0056][0057]
模型训练结束后,得到概率最大的标签序列,这样可以识别出具体的实体。
[0058]
(4)将训练好的数据采用neo4j图数据库进行知识存储,生成知识图谱。
[0059]
本发明实施例还提供一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现任一项所述的一种基于知识图谱的化工园区安全问答方法中的步骤。
[0060]
本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一所述方法。
技术特征:
1.一种基于知识图谱的化工园区安全问答方法,其特征在于,包括以下步骤:(1)获取化工园区的百科知识,用于构建化工园区的百科知识图谱,并将其存储为json格式;(2)对数据进行预处理,具体包括以下步骤:(21)使用python3方法中的win32com将pdf格式文本转换为txt文本;(22)通过使用正则表达式re定义规则将多余的干扰信息删除;(23)使用python3方法中的jieba分词工具对过滤后的数据进行分词处理;(3)将处理后的数据输入基于bert-bigru-mhat-crf实体识别模型进行训练;(4)将训练好的数据采用neo4j图数据库进行知识存储,生成知识图谱。2.根据权利要求1所述的一种基于知识图谱的化工园区安全问答方法,所述步骤(3),包括以下步骤:(31)将数据通过bert方法进行向量化,生成字向量序列;(32)将生成的向量序列输入bigru模型中进行进一步语义编码得到句子的完整序列;(33)采用注意力机制计算出所占关系类型的权重,计算公式如下:其中,q是查询语句,k是关键字,是值,d
k
等于词向量的长度,(34)将预测结果通过crf模型训练输出概率最大标签序列。3.根据权利要求1所述的一种基于知识图谱的化工园区安全问答方法,所述步骤(34)具体如下:(341)计算预测序列的评分;设输入序列x={x1,x2,x3...x
n
}的预测序列类别为y={y1,y2,y3...y
n
},每种预测序列标签分数为pi,路径有n条,则路径的总分数为:p
all
=p1+p2+...+p
n
=e
s1
+e
s2
+...+e
sn
,crf对预测序列y={y1,y2,y3...y
n
}的评分公式为:其中,p
i,yi
表示该字符的第yi个标签的分数,a
yi,yi-1
表示标签的转换矩阵;(342)将评分结果利用贝叶斯公式得到序列标签的概率,计算公式如下:其中,p公式为表示序列原序列到预测序列对应的概率,s(x,y)是crf对预测序列的评分公式。4.一种设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4任一项所述的一种基于知识图谱的化工园区安全问答方法中的步骤。5.一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为
运行时执行如权利要求1-4中任一所述方法。
技术总结
本发明公开了一种基于知识图谱的化工园区安全问答方法、设备及存储介质,所述方法包括以下步骤:(1)获取化工园区的百科知识,用于构建化工园区的百科知识图谱,并将其存储为json格式;(2)对数据进行预处理;(3)将处理后的数据输入基于BERT-BIGRU-MHAT-CRF实体识别模型进行训练;(4)将训练好的数据采用Neo4j图数据库进行知识存储,生成知识图谱;本发明解决了现有化工园区安全领域问题搜索不匹配造成搜索问题耗时长,效率低的问题;有效对问题进行解析,提高了问题类型划分的准确率以及答案精度。案精度。案精度。
技术研发人员:陈剑洪 陈天赐 刘津铭
受保护的技术使用者:淮阴工学院
技术研发日:2023.03.17
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/