视觉智能问答方法、装置、电子设备及存储介质与流程

未命名 09-07 阅读:89 评论:0


1.本发明涉及机器学习领域,尤其涉及一种视觉智能问答方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.视觉问答(visual question answering,vqa),是一种涉及计算机视觉和自然语言处理的多模态学习任务,其主要目标就是使计算机根据输入的图片和关于所述图片提出的开放式自然语言问题,输出一个符合自然语言规则且内容合理的答案。医学视觉问答(vqa)是医学人工智能和vqa挑战的结合。给定一幅医学图像和一个自然语言的临床相关问题,医学vqa系统预计将预测一个可信和令人信服的答案。目前,医学视觉问答主要使用卷积神经网络、循环神经网络分别对临床相关问题的医学图像和文本信息进行特征提取,然后使用融合模块对两种信息进行结合推理,最后进行问题的答案输出,但这类方法缺少对于临床相关问题的医学图片场景和文本中的对象之间的关系提取,因此会丢失很多有用的信息,致使预测的问题的答案准确率不高。


技术实现要素:

3.本发明提供一种视觉智能问答方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高预测的问题答案的准确率。
4.为实现上述目的,本发明提供的一种视觉智能问答方法,包括:
5.获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;
6.利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;
7.构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;
8.利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;
9.利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;
10.根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。
11.可选地,所述利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,包括:
12.利用所述预设的图片编码器中的多层卷积层对所述图片数据进行多层卷积操作,得到多层卷积图片;
13.根据所述多层卷积层的共享权重和共享偏差,计算所述多层卷积图片的多层线性图片;根据所述多层线性图片,确定所述图片数据的多级别特征图。
14.可选地,所述利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量,包括:
15.获取所述文本词向量对应的文本数据;
16.提取所述文本数据的描述对象信息;
17.确定所述描述对象信息对应的描述对象向量;
18.利用所述预设的文本编码器对所述文本词向量进行位置编码,得到位置向量;
19.根据所述位置向量,构建所述文本词向量的文本初始词向量;
20.计算所述描述对象向量与所述文本初始词向量之间的余弦相似度;
21.在所述余弦相似度不小于预设阈值时,将所述余弦相似度对应的文本初始词向量作为所述文本特征词向量。
22.可选地,所述构建所述多级别特征图中特征图之间的第一关系图,包括:
23.利用预设的图片向量转换函数,对所述多级别特征图中特征图进行向量转换,得到同维特征向量;
24.对所述同维特征向量进行归一化处理,得到图特征向量;
25.计算所述图特征向量中任意两个图向量之间的向量相似度,根据所述向量相似度,确定所述任意两个图向量对应的任意两个特征图之间的连接性;
26.根据所述连接性,构建所述多级别特征图中特征图之间的第一关系图。
27.可选地,所述根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图,包括:
28.对所述第一关系图、所述第二关系图以及所述第三关系图进行节点全连接,得到初始关系图;
29.识别所述初始关系图中的任意节点特征与相邻节点特征;
30.计算所述任意节点特征与所述相邻节点特征之间的余弦相似度;
31.对所述余弦相似度进行归一化处理,得到归一化相似度;
32.根据所述归一化相似度与所述初始关系图,确定所述最终关系图。
33.可选地,所述利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量,包括:
34.将所述最终关系图中各节点的特征向量作为初始信息向量,利用所述图神经网络中的信息聚合函数,计算所述初始信息向量的目标聚合向量;
35.根据所述目标聚合向量,确定所述聚合信息向量。
36.可选地,所述信息聚合函数,包括:
[0037][0038]
其中,表示当前信息聚合节点v第k次信息聚合后的聚合信息向量,v表示当前信
息聚合节点,σ表示非线性激活函数,wk表示当前信息聚合节点的邻居节点经过第k-1次信息聚合对应的邻居信息向量的权重系数,u表示当前信息聚合节点的邻居节点,bk表示当前信息聚合节点v第k-1次聚合信息向量的权重系数,n(v)表示节点v的邻居节点集,|n(v)|表示节点v的邻居节点的数量,k表示信息聚合次数,m表示信息聚合的最大迭代次数。
[0039]
为了解决上述问题,本发明还提供一种视觉智能问答装置,所述装置包括:
[0040]
文本词向量生成模块,用于获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;
[0041]
特征提取模块,用于利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;
[0042]
关系图构建模块,用于构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;
[0043]
信息聚合模块,用于利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;
[0044]
信息降维模块,用于利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;
[0045]
问题答案分析模块,用于根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。
[0046]
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
[0047]
至少一个处理器;以及,
[0048]
与所述至少一个处理器通信连接的存储器;其中,
[0049]
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以实现上述所述的视觉智能问答方法。
[0050]
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的视觉智能问答方法。
[0051]
可以看出,本发明实施例通过获取用户数据为后续方法实施提供操作对象,并对所述用户数据中的文本数据进行分词处理与对所述文本分词进行向量转换,可以对所述问题文本进行预处理,以为后续提取所述问题文本的特征词向量提供保障;其次,本发明实施例利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图可以为后续生成第一关系图以生成融合信息提供支持,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量可以为后续生成第二关系图以生成融合信息提供支持,并构建第一关系图、第二关系图以及第三关系图都是后续建立所述三种关系图的最终关系图的重要构成要素了,及根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图可以为后续继续进行信息聚合,以得到最终的更准确的回答预测结果;进一步地,本发明实施例利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚
合信息向量可以得到融合所述问题图片和所述问题文本的所有关联融合信息,为生成最终应答答案提供支持,并利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量可以减低方法的计算量和复杂度,以确定最终的问题答案向量,以及根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户问题的问题答案可以将融合了用户数据中的图片数据和文本数据所有关联信息的降维信息向量进行全连接,以得到视觉问答的更准确的问题答案。因此,本发明实施例提出的一种视觉智能问答方法、装置、电子设备及存储介质,可以提高用户问题答案的准确率,尤其在智能问诊场景中,可以让患者快速定位疾病类别,为进一步就医诊断提供便利,极大地缓解了患者就医前对疾病科室的困惑,使得就医方向更加明确,提高患者就医效率。
附图说明
[0052]
图1为本发明一实施例提供的视觉智能问答方法的流程示意图;
[0053]
图2为本发明一实施例提供的视觉智能问答装置的模块示意图;
[0054]
图3为本发明一实施例提供的实现视觉智能问答方法的电子设备的内部结构示意图;
[0055]
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0056]
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0057]
本发明实施例提供一种视觉智能问答方法。所述视觉智能问答方法的执行主体包括但不限于服务端、终端等能够被配置为执行本发明实施例提供的该方法的电子设备中的至少一种。换言之,所述视觉智能问答方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0058]
参照图1所示,为本发明一实施例提供的视觉智能问答方法的流程示意图。在本发明实施例中,所述视觉智能问答方法包括:
[0059]
s1、获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量。
[0060]
本发明实施例通过获取用户数据,为后续方法实施提供操作对象。其中,所述用户数据是指为使计算机完成视觉问答所根据的提问条件和内容,其包括图片数据和文本数据,可以通过数据脚本获取,所述数据脚本可以通过js脚本语言进行编译,所述用户数据基于不同业务场景产生,在医疗场景下,可以为医疗图片与医疗文本数据。
[0061]
进一步地,本发明实施例通过对所述用户数据中的文本数据进行分词处理,与对所述文本分词进行向量转换,可以对所述问题文本进行预处理,以为后续提取所述问题文本的特征词向量提供保障。其中,所述文本分词是指将一个汉字序列切分成一个一个单独的词。如“这家医院的医疗水平很高”的文本分词是“这家医院的医疗水平很高”。所述文本
词向量是指将自然语言词汇表中的单词或词语映射到实数空间的向量,从概念上讲,其涉及从每个词语的一维空间到多维连续向量空间的数学嵌入。
[0062]
可选地,所述文本分词可以利用分词工具对所述问题文本进行分词处理得到,如可通过jieba、snownlp及pkuseg等分词工具对于如“肿瘤的类型是什么及肿瘤的所在位置在哪?”等问题文本进行分词处理得到文本分词“肿瘤的类型是什么及肿瘤的所在位置在哪”。所述文本词向量可利用向量转换模型实现,如cbow、lbl、skip-gram、nnlm、glove以及c&w等向量转换模型。
[0063]
s2、利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量。
[0064]
本发明实施例通过利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,可以为后续生成第一关系图以生成融合信息提供支持。其中,所述图片编码器是指对图片数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。所述多级别特征图是指所述图片数据在经过卷积神经网络的卷积层的卷积处理后,所生成的多尺寸多维度下的特征图,如将临床b超图片或核磁共振图片经过卷积处理后,生成的不同尺寸的医学特征图。
[0065]
进一步地,本发明一可选实施例中,所述利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,包括:利用所述预设的图片编码器中的多层卷积层对所述图片数据进行多层卷积操作,得到多层卷积图片;根据所述多层卷积层的共享权重和共享偏差,计算所述多层卷积图片的多层线性图片;根据所述多层线性图片,确定所述图片数据的多级别特征图。
[0066]
其中,所述共享权重是指为降低卷积神经网络训练中权重参数的复杂度,而在同层卷积计算中应用相同的权重系数。所述共享偏差是指为降低卷积神经网络训练中偏差参数的复杂度,而在同层卷积计算中应用相同的偏差系数。
[0067]
进一步地,本发明实施例通过利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量可以为后续生成第二关系图以生成融合信息提供支持。其中,所述文本编码器是指对文本数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。
[0068]
进一步地,本发明一可选实施例中,所述利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量,包括:获取所述文本词向量对应的文本数据;提取所述文本数据的描述对象信息;确定所述描述对象信息对应的描述对象向量;利用所述预设的文本编码器对所述文本词向量进行位置编码,得到位置向量;根据所述位置向量,构建所述文本词向量的文本初始词向量;计算所述描述对象向量与所述文本初始词向量之间的余弦相似度;在所述余弦相似度不小于预设阈值时,将所述余弦相似度对应的文本初始词向量作为所述文本特征词向量。
[0069]
s3、构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图。
[0070]
可以理解的是,本发明实施例中,所述第一关系图、所述第二关系图以及所述第三关系图都是后续建立所述三种关系图的最终关系图的重要构成要素。
[0071]
进一步地,本发明一可选实施例中,所述构建所述多级别特征图中特征图之间的第一关系图,包括:利用预设的图片向量转换函数,对所述多级别特征图中特征图进行向量转换,得到同维特征向量;对所述同维特征向量进行归一化处理,得到图特征向量;计算所述图特征向量中任意两个图向量之间的向量相似度,根据所述向量相似度,确定所述任意两个图向量对应的任意两个特征图之间的连接性;根据所述连接性,构建所述多级别特征图中特征图之间的第一关系图。
[0072]
其中,所述图片向量转换函数是指在数据库应用的过程中,为满足实际应用的需要,将图片类型的数据转换为向量类型的数据的方法,如可通过totensor()和image2vector等函数将临床肿瘤或病变情况的b超图片的多级别特征图转换为对应的多级别特征向量。所述向量相似度是用来评估向量之间相似性的度量。
[0073]
可选地,所述对所述同维特征向量进行归一化处理,得到图特征向量可以通过归一化函数实现。其中,所述归一化函数是指为了消除指标之间的量纲影响,解决数据指标之间的可比性需要进行的数据标准化处理,其包括反正切归一化函数、l2归一化范数及z-score标准化函数等。
[0074]
可选地,所述计算所述图特征向量中任意两个图向量之间的向量相似度可以通过余弦相似度方法实现。
[0075]
可选地,所述根据所述向量相似度,确定所述任意两个图向量对应的任意两个特征图之间的连接性可以通过所述向量相似度与预设相似度阈值的比较结果确定,如在所述向量相似度不小于所述预设相似度阈值时,判定所述任意两个特征图之间连接;在所述向量相似度小于所述预设相似度阈值时,判定所述任意两个特征图之间不连接。其中,所述预设相似度阈值是判定两个特征图之间连接性的临界值。
[0076]
进一步地,本发明一可选实施例中,所述构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图的实施原理与所述构建所述多级别特征图中特征图之间的第一关系图的原理类似,在此不再赘述。
[0077]
进一步地,本发明实施例通过根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图可以为后续继续进行信息聚合,以得到最终的回答预测结果提供保障。
[0078]
进一步地,本发明一可选实施例中,所述根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图,包括:对所述第一关系图、所述第二关系图以及所述第三关系图进行节点全连接,得到初始关系图;识别所述初始关系图中的任意节点特征与相邻节点特征;计算所述任意节点特征与所述相邻节点特征之间的余弦相似度;对所述余弦相似度进行归一化处理,得到归一化相似度;根据所述归一化相似度与所述初始关系图,确定所述最终关系图。
[0079]
其中,所述全连接是指在图结构中任意两个节点都相连。所述任意节点特征与所述相邻节点特征均包括图特征向量和文本特征词向量。所述余弦相似度是通过计算两个向量的夹角余弦值来评估所述两个向量之间的相似度。
[0080]
可选地,所述识别所述初始关系图中的任意节点特征与相邻节点特征可通过识别所述任意节点与所述相邻节点的节点类型,并提取所述节点类型对应的特征向量实现。其中,所述节点类型是指节点所属类别,其包括文本节点和图像节点。
[0081]
进一步地,本发明一可选实施例中,所述计算所述任意节点特征与所述相邻节点特征之间的余弦相似度,包括:
[0082]
利用下述公式计算所述任意节点特征与所述相邻节点特征之间的余弦相似度:
[0083][0084]
其中,ρ表示所述任意节点特征与所述相邻节点特征之间的余弦相似度,θ表示任意节点特征对应的向量与所述相邻节点特征对应的向量之间的夹角,a表示任意节点特征对应的向量,b表示相邻节点特征对应的向量,||a||表示任意节点特征对应的向量的模,||b||表示相邻节点特征对应的向量的模,aj表示任意节点特征对应的向量的第j个分量,bj表示相邻节点特征对应的向量的第j个分量。
[0085]
s4、利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量。
[0086]
本发明实施例通过利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,可以得到融合所述问题图片和所述问题文本的所有关联融合信息,为生成最终应答答案提供支持,如将问题图片临床骨折图片和问题文本“骨折位置在哪?”的最终关系图进行信息聚合,得到最终的聚合信息向量以表征定位骨折的具体发生位置。
[0087]
进一步地,本发明一可选实施例中,所述利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量,包括:将所述最终关系图中各节点的特征向量作为初始信息向量,利用所述图神经网络中的信息聚合函数,计算所述初始信息向量的目标聚合向量;根据所述目标聚合向量,确定所述聚合信息向量。
[0088]
进一步地,本发明一可选实施例中,所述信息聚合函数,包括:
[0089][0090]
其中,表示当前信息聚合节点v第k次信息聚合后的聚合信息向量,v表示当前信息聚合节点,σ表示非线性激活函数,wk表示当前信息聚合节点的邻居节点经过第k-1次信息聚合对应的邻居信息向量的权重系数,u表示当前信息聚合节点的邻居节点,bk表示当前信息聚合节点v第k-1次聚合信息向量的权重系数,n(v)表示节点v的邻居节点集,|n(v)|表示节点v的邻居节点的数量,k表示信息聚合次数,m表示信息聚合的最大迭代次数。
[0091]
可选地,所述根据所述目标聚合向量,确定所述聚合信息向量的过程可以为当计算所述目标聚合向量的迭代次数达到预设阈值时,将所述目标聚合向量作为所述最终关系图的聚合信息向量。
[0092]
s5、利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得
到降维信息向量。
[0093]
本发明实施例通过利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量可以确定最终的问题答案向量,如将医疗诊断中的医疗图像对应的上万维度的聚合信息向量降维到几十或几百维度的降维信息向量。
[0094]
进一步地,本发明一可选实施例中,所述利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量可以通过利用训练好的智能问答模型中降维层的池化函数,将所述聚合信息向量进行降维处理得到。
[0095]
其中,所述池化函数是将经过卷积提取得到的特征进行降维采样的方法,如平均池化、最大池化、全局平均池化,全局自适应池化、roi池化、金字塔池化、重叠池化、随机池化、双线性池化等函数。
[0096]
s6、根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。
[0097]
本发明实施例通过根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案可以得到视觉应答的最终答案,提高回复结果准确率。其中,所述全连接层,是指智能问答模型中的每一个神经元节点都与上一层的所有神经元节点相连,用来把前面提取到的特征综合起来的神经网络层。
[0098]
进一步地,本发明一可选实施例中,所述根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案可以通过预设的向量文本转换函数,将所述降维信息向量转换为问题回复文本,将所述问题回复文本作为所述用户数据的问题答案,如将用户数据中临床医学图像和文本“病变位置在哪?”的聚合信息向量对应的降维信息向量进行全连接,得到问题答案向量并进行文本转换得到最终的问题回复文本。
[0099]
可以看出,本发明实施例通过获取用户数据,所述用户数据包括图片数据和文本数据为后续方法实施提供操作对象,并对所述用户数据中的文本数据进行分词处理与对所述文本分词进行向量转换,可以对所述问题文本进行预处理,以为后续提取所述问题文本的特征词向量提供保障;其次,本发明实施例利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图可以为后续生成第一关系图以生成融合信息提供支持,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量可以为后续生成第二关系图以生成融合信息提供支持,并构建第一关系图、第二关系图以及第三关系图都是后续建立所述三种关系图的最终关系图的重要构成要素了,及根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图可以为后续继续进行信息聚合,以得到最终的更准确的回答预测结果;进一步地,本发明实施例利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量可以得到融合所述问题图片和所述问题文本的所有关联融合信息,为生成最终应答答案提供支持,并利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量可以减低方法的计算量和复杂度,以确定最终的问题答案向量,以及根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户问题的问题答案可以将融合了用户数据中的图片数据和文本数据所有关联信息的降维信息向量进行全连接,以得到视觉问答的更准确的问题答案。因此,本发明实施例提出的一种视觉智能问答方法、装置、电子设备及存储介质,可以提
高用户问题答案的准确率,尤其在智能问诊场景中,可以让患者快速定位疾病类别,为进一步就医诊断提供便利,极大地缓解了患者就医前对疾病科室的困惑,使得就医方向更加明确,提高患者就医效率。
[0100]
如图2所示,是本发明视觉智能问答装置的功能模块图。
[0101]
本发明所述视觉智能问答装置100可以安装于电子设备中。根据实现的功能,所述视觉智能问答装置可以包括文本词向量生成模块101、特征提取模块102、关系图构建模块103信息聚合模块104、信息降维模块105以及问题答案分析模块106。本发明所述模块也可以称之为单元,是指一种能够被电子设备的处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0102]
在本实施例中,关于各模块/单元的功能如下:
[0103]
所述文本词向量生成模块101,用于获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;
[0104]
所述特征提取模块102,用于利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;
[0105]
所述关系图构建模块103,用于构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;
[0106]
所述信息聚合模块104,用于利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;
[0107]
所述信息降维模块105,用于利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;
[0108]
所述问题答案分析模块106,用于根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。
[0109]
详细地,本发明实施例中所述视觉智能问答装置100中的所述各模块在使用时采用与上述的图1中所述的视觉智能问答方法一样的技术手段,并能够产生相同的技术效果,这里不再赘述。
[0110]
如图3所示,是本发明实现视觉智能问答方法的电子设备1的结构示意图。
[0111]
所述电子设备1可以包括处理器10、存储器11、通信总线12以及通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如视觉智能问答程序。
[0112]
其中,所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(control unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行视觉智能问答程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
[0113]
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如视觉智能问答程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0114]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0115]
所述通信接口13用于上述电子设备1与其他设备之间的通信,包括网络接口和员工接口。可选地,所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备1之间建立通信连接。所述员工接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,员工接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的员工界面。
[0116]
图3仅示出了具有部件的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0117]
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0118]
应该了解,所述实施例仅为说明之用,在专利发明范围上并不受此结构的限制。
[0119]
所述电子设备1中的所述存储器11存储的视觉智能问答程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
[0120]
获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;
[0121]
利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;
[0122]
构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量
中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;
[0123]
利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;
[0124]
利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;
[0125]
根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。
[0126]
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0127]
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读存储介质可以是易失性的,也可以是非易失性的。例如,所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0128]
本发明还提供一种计算机可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序在被电子设备1的处理器所执行时,可以实现:
[0129]
获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;
[0130]
利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;
[0131]
构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;
[0132]
利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;
[0133]
利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;
[0134]
根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。
[0135]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0136]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目
的。
[0137]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0138]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0139]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0140]
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0141]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0142]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

技术特征:
1.一种视觉智能问答方法,其特征在于,所述方法包括:获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;根据所述降维信息向量,利用训练好的智能问答模型中全连接层,分析所述用户数据的问题答案。2.如权利要求1所述的视觉智能问答方法,其特征在于,所述利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,包括:利用所述预设的图片编码器中的多层卷积层对所述图片数据进行多层卷积操作,得到多层卷积图片;根据所述多层卷积层的共享权重和共享偏差,计算所述多层卷积图片的多层线性图片;根据所述多层线性图片,确定所述图片数据的多级别特征图。3.如权利要求1所述的视觉智能问答方法,其特征在于,所述利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量,包括:获取所述文本词向量对应的文本数据;提取所述文本数据的描述对象信息;确定所述描述对象信息对应的描述对象向量;利用所述预设的文本编码器对所述文本词向量进行位置编码,得到位置向量;根据所述位置向量,构建所述文本词向量的文本初始词向量;计算所述描述对象向量与所述文本初始词向量之间的余弦相似度;在所述余弦相似度不小于预设阈值时,将所述余弦相似度对应的文本初始词向量作为所述文本特征词向量。4.如权利要求1所述的视觉智能问答方法,其特征在于,所述构建所述多级别特征图中特征图之间的第一关系图,包括:利用预设的图片向量转换函数,对所述多级别特征图中特征图进行向量转换,得到同维特征向量;对所述同维特征向量进行归一化处理,得到图特征向量;计算所述图特征向量中任意两个图向量之间的向量相似度,根据所述向量相似度,确定所述任意两个图向量对应的任意两个特征图之间的连接性;
根据所述连接性,构建所述多级别特征图中特征图之间的第一关系图。5.如权利要求1所述的视觉智能问答方法,其特征在于,所述根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户问题的最终关系图,包括:对所述第一关系图、所述第二关系图以及所述第三关系图进行节点全连接,得到初始关系图;识别所述初始关系图中的任意节点特征与相邻节点特征;计算所述任意节点特征与所述相邻节点特征之间的余弦相似度;对所述余弦相似度进行归一化处理,得到归一化相似度;根据所述归一化相似度与所述初始关系图,确定所述最终关系图。6.如权利要求1所述的视觉智能问答方法,其特征在于,所述利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量,包括:将所述最终关系图中各节点的特征向量作为初始信息向量,利用所述图神经网络中的信息聚合函数,计算所述初始信息向量的目标聚合向量;根据所述目标聚合向量,确定所述聚合信息向量。7.如权利要求6所述的视觉智能问答方法,其特征在于,所述信息聚合函数,包括:其中,表示当前信息聚合节点v第k次信息聚合后的聚合信息向量,v表示当前信息聚合节点,σ表示非线性激活函数,w
k
表示当前信息聚合节点的邻居节点经过第k-1次信息聚合对应的邻居信息向量的权重系数,u表示当前信息聚合节点的邻居节点,b
k
表示当前信息聚合节点v第k-1次聚合信息向量的权重系数,n(v)表示节点v的邻居节点集,|n(v)|表示节点v的邻居节点的数量,k表示信息聚合次数,m表示信息聚合的最大迭代次数。8.一种视觉智能问答装置,其特征在于,所述装置包括:文本词向量生成模块,用于获取用户数据,并对所述用户数据中的文本数据进行分词处理,得到文本分词,对所述文本分词进行向量转换,得到文本词向量;特征提取模块,用于利用预设的图片编码器对所述用户数据中的图片数据进行多级别特征提取,得到多级别特征图,利用预设的文本编码器对所述文本词向量进行特征提取,得到文本特征词向量;关系图构建模块,用于构建所述多级别特征图中特征图之间的第一关系图,及构建所述文本特征词向量中词向量之间的第二关系图,并构建所述多级别特征图与所述文本特征词向量之间的第三关系图,根据所述第一关系图、所述第二关系图以及所述第三关系图,构建所述用户数据的最终关系图;信息聚合模块,用于利用训练好的智能问答模型中图神经网络中的信息聚合函数,对所述最终关系图进行信息聚合处理,得到所述最终关系图的聚合信息向量;信息降维模块,用于利用训练好的智能问答模型中降维层,将所述聚合信息向量进行降维处理,得到降维信息向量;问题答案分析模块,用于根据所述降维信息向量,利用训练好的智能问答模型中全连
接层,分析所述用户数据的问题答案。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的视觉智能问答方法。10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的视觉智能问答方法。

技术总结
本发明涉及机器学习领域,揭露一种视觉智能问答方法,可适用于智能问诊场景中,包括:获取用户数据,并对用户数据中的文本数据进行分词处理和向量转换,得到文本词向量;分别对用户数据中的图片数据和文本词向量进行特征提取,得到多级别特征图和文本特征词向量;分别构建多级别特征图中特征图之间、文本特征词向量中词向量之间及多级别特征图与文本特征词向量之间的第一关系图、第二关系图及第三关系图,根据上述三种关系图,构建用户数据的最终关系图;对最终关系图进行信息聚合处理,得到聚合信息向量;将聚合信息向量进行降维处理,得到降维信息向量;根据降维信息向量,分析用户数据的问题答案。本发明可以提高用户问题的答案准确率。答案准确率。答案准确率。


技术研发人员:唐小初 黎铭 舒畅 陈又新
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2023.06.05
技术公布日:2023/9/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐