基于MPP架构的水务数据处理系统及其方法与流程
未命名
10-19
阅读:65
评论:0

基于mpp架构的水务数据处理系统及其方法
技术领域
1.本技术涉及智能化数据处理技术领域,并且更具体地,涉及一种基于mpp架构的水务数据处理系统及其方法。
背景技术:
2.在水务领域,日常生产中产生的数据包括水厂生产端产生的引水量、水质等各类监控指标数据,也包含消费端的用水量、水费、漏损量等数据。这类数据存在采集频次高的特点,且数据量随城市人口规模呈线性增长。一个千万级人口的城市,日产生的数据逾亿条。
3.与此同时,此类数据的价值高低根据数据类型的不同而变化,因此迫切需要对这类数据进行数据整合治理,传统的技术架构在亿级规模数据的存储分析时,会出现数据查询处理慢的问题,极端情况下甚至会出现数据服务不可用的情况。
4.因此,期待一种优化的水务数据处理方案。
技术实现要素:
5.为了解决上述技术问题,提出了本技术。本技术的实施例提供了一种基于mpp架构的水务数据处理系统及其方法,其获取由用户输入的引水量查询请求;基于mpp架构(massively parallel processing architecture),针对水务数据的特点,实现有效的诸如数据治理和查询等功能机制,以解决传统技术架构在亿级规模数据查询处理慢的问题。
6.第一方面,提供了一种基于mpp架构的水务数据处理方法,其包括:获取由用户输入的引水量查询请求;基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列;将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量;将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量;对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵;将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵;对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;以及对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。
7.在上述基于mpp架构的水务数据处理方法中,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。
8.在上述基于mpp架构的水务数据处理方法中,将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量,包括:将所述引水量时序输入向量输入所述时序特征提取器的第一卷积层以得到第一尺度引水量特征向量,其中,所述第一卷积层具有第一尺度的一维卷积核;将所述引水量时序输入向量输入所述时序特征提取器的第二卷积层以得到第二尺度引水量特征向量,其中,所述第二卷积层具有第二尺度的一维卷积核,所述第一尺度不同于所述第二尺度;以及,将所述第一尺度
引水量特征向量和所述第二尺度引水量特征向量进行级联以得到所述引水量时序特征向量。
9.在上述基于mpp架构的水务数据处理方法中,对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵,包括:以如下高斯公式构造所述引水量时序特征向量的增强高斯密度图;其中,所述高斯公式为:,其中,表示所述引水量时序特征向量,且的每个位置的值表示所述引水量时序特征向量中相应两个位置的特征值之间的方差;对所述增强高斯密度图中各个位置的高斯分布进行高斯离散化处理以将所述增强高斯密度图中各个位置的高斯分布降维为一维的特征向量;以及,将所述各个位置的一维的特征向量进行二维排列以得到所述引水量时序特征矩阵。
10.在上述基于mpp架构的水务数据处理方法中,将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵,包括:将所述引水量时序特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;将所述双向关联矩阵输入sigmoid激活函数以得到双向关联权重矩阵;以及,计算所述双向关联权重矩阵和所述引水量时序特征矩阵之间的按位置点乘以得到所述强化引水量时序特征矩阵。
11.在上述基于mpp架构的水务数据处理方法中,对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵,包括:以如下优化公式对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;其中,所述优化公式为:,其中,和是所述强化引水量时序特征矩阵中各个位置的特征值集合的均值和标准差,是所述强化引水量时序特征矩阵的第 位置的特征值,且 是所述解码特征矩阵的第位置的特征值。
12.在上述基于mpp架构的水务数据处理方法中,对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值,包括:使用所述解码器以如下解码公式对所述解码特征矩阵进行解码回归以得到所述解码值;其中,所述解码公式为:,其中,表示所述解码特征矩阵,表示解码值,表示权重矩阵,表示偏置向量,表示矩阵乘。
13.第二方面,提供了一种基于mpp架构的水务数据处理系统,其包括:查询请求获取模块,用于获取由用户输入的引水量查询请求;分布序列提取模块,用于基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列;向量排列模块,用于将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量;时序特征提取模块,用于将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量;高斯增强模块,用于对所述引水量时序特征向量进行基于高斯密度图
的特征级表达强化以得到引水量时序特征矩阵;双向注意力模块,用于将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵;优化模块,用于对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;以及解码模块,用于对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。
14.在上述基于mpp架构的水务数据处理系统中,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。
15.在上述基于mpp架构的水务数据处理系统中,所述时序特征提取模块,包括:第一尺度特征提取单元,用于将所述引水量时序输入向量输入所述时序特征提取器的第一卷积层以得到第一尺度引水量特征向量,其中,所述第一卷积层具有第一尺度的一维卷积核;第二尺度特征提取单元,用于将所述引水量时序输入向量输入所述时序特征提取器的第二卷积层以得到第二尺度引水量特征向量,其中,所述第二卷积层具有第二尺度的一维卷积核,所述第一尺度不同于所述第二尺度;以及。级联单元,用于将所述第一尺度引水量特征向量和所述第二尺度引水量特征向量进行级联以得到所述引水量时序特征向量。
16.与现有技术相比,本技术提供的基于mpp架构的水务数据处理系统及其方法,其获取由用户输入的引水量查询请求;基于mpp架构(massively parallel processing architecture),针对水务数据的特点,实现有效的诸如数据治理和查询等功能机制,以解决传统技术架构在亿级规模数据查询处理慢的问题。
附图说明
17.为了更清楚地说明本技术实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
18.图1为根据本技术实施例的基于mpp架构的示意图。
19.图2为根据本技术实施例的基于mpp架构的水务数据处理方法的场景示意图。
20.图3为根据本技术实施例的基于mpp架构的水务数据处理方法的流程图。
21.图4为根据本技术实施例的基于mpp架构的水务数据处理方法的架构示意图。
22.图5为根据本技术实施例的基于mpp架构的水务数据处理方法中步骤140的子步骤的流程图。
23.图6为根据本技术实施例的基于mpp架构的水务数据处理方法中步骤160的子步骤的流程图。
24.图7为根据本技术实施例的基于mpp架构的水务数据处理系统的框图。
具体实施方式
25.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于
本技术保护的范围。
26.除非另有说明,本技术实施例所使用的所有技术和科学术语与本技术的技术领域的技术人员通常理解的含义相同。本技术中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本技术的范围。
27.在本技术实施例记载中,需要说明的是,除非另有说明和限定,术语“连接”应做广义理解,例如,可以是电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
28.需要说明的是,本技术实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本技术的实施例可以除了在这里图示或描述的那些以外的顺序实施。
29.针对上述技术问题,本技术的技术构思为基于mpp架构(massively parallel processing architecture),针对水务数据的特点,实现有效的诸如数据治理和查询等功能机制,以解决传统技术架构在亿级规模数据查询处理慢的问题。
30.具体地,基于mpp架构的水务数据处理方案,如图1所示,包括步骤:s110,搭建hadoop计算集群,数据存储使用基于mpp架构的greenplum数据库;s120,搭建spark集群,用于进行离线批处理,搭建flink集群,用于进行在线计算;s130,对于实时性要求不高的水务相关结构化数据,利用etl工具从其他业务系统抽离至greenplum中,利用mpp架构数据库的优势,实现数据的高性能存储;s140,对于实时性处理要求高的水务相关结构化数据,利用kafka进行数据的实时传递;s150,对于实时性要求不高的水务相关结构化数据,利用spark进行离线计算,实现数据的批量清洗、入库、重组装。处理后的数据存入greenplum中;s160,对于实时性处理要求高的水务相关结构化数据,利用flink从kafka中直接读取,实现实时数据的清洗、入库、重组装,再次写回kafka中,供后续使用;以及,s170,对处理后的数据,进行数据服务开发,kafka中的实时数据可以直接发送给使用方,也可以先写入greenplum中。对于已经存在greenplum中的数据,依托greenplum mpp架构的优势,实现海量大数据高效检索。
31.在上述技术方案中,hadoop表示 一个开源的分布系统基础架构,支持部署各类分布式计算集群。greenplum表示一个开源的基于mpp架构的数据库。spark表示一个开源的专为大规模数据处理的计算引擎,在离线数据的批处理方面有巨大优势。flink表示一个开源的数据流处理引擎,在实时数据的计算处理方面有巨大优势。kafka表示一个开源的消息队列,适合进行实时监控类数据的采集接入。
32.基于此,在获取由用户输入的引水量查询请求后,可基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列。特别地,在本技术的技术方案中,可进一步对所述引水量时序分布序列进行数据分析以对引水量进行预测,这样基于预测值可判断水库的水资源是否足够,从而实现对水务实务的基于数据智能的辅助管理。
33.具体地,在得到所述引水量时序分布序列后,将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量。也就是,将所述引水量时序分布序列按照时间维度进行数据结构化以得到所述引水量时序输入向量。例如,在本技术一个具体的示例中,以时间
先后顺序将所述引水量时序分布序列排列为所述引水量时序输入向量。
34.接着,将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量,其中,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。也就是,使用所述包含第一卷积层和第二卷积层的时序特征提取器对所述引水量时序特征向量进行多尺度一维卷积编码以捕捉不同时间窗口内引水量的时序关联特征。应可以理解,在实际的水务管理中,引水量在时间上存在波动性和规律性,通过所述包含第一卷积层和第二卷积层的时序特征提取器可对引水量的时序分布特征进行多尺度过滤和筛选以得到多尺度引水量时序特征信息。
35.这里,考虑到所述引水量时序分布序列的数据量可能不足,这会影响所述引水量时序特征向量的特征表达的确定性和精准度。基于此,在本技术的技术方案中,考虑到高斯分布是深度学习的目标学习分布,故基于此先验信息,使用高斯密度图对所述引水量时序特征向量进行特征级数据表达强化以得到引水量时序特征矩阵。具体地,首先构造所述引水量时序特征向量的自相关高斯密度图,其中,所述自相关高斯密度图的均值向量为所述引水量时序特征向量,所述自相关高斯密度图的协方差矩阵中各个位置的值为所述引水量时序特征向量中相应两个位置的特征值之间的方差。进而,对所述自相关高斯密度图中各个位置的高斯分布进行高斯离散化采样以得到所述引水量时序特征矩阵。
36.进一步地,在基于所述引水量时序特征矩阵来进行引水量预测时,所述述引水量时序特征矩阵中各个位置的特征值对于最终引水量预测的贡献度不同。也就是,所述述引水量时序特征矩阵中各个位置的特征值对于最终的解码预测存在空间维度的特征显著性。基于此,将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵。通过双向注意力机制模块在特征矩阵的行空间和列空间维度上进一步进行注意力权重强化以强化在注意力维度上的空间维度分布,可以提升所述强化引水量时序特征矩阵在空间维度上的整体分布一致性。
37.接着,对所述强化引水量时序特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。也就是,使用所述解码器对所述强化引水量时序特征矩阵进行解码回归以得到用于表示引水量的预测值的解码值。
38.特别地,在本技术的技术方案中,在虽然通过双向注意力机制模块在特征矩阵的行空间和列空间维度上进一步进行注意力权重强化以强化在注意力维度上的空间维度分布,可以提升所述强化引水量时序特征矩阵在空间维度上的整体分布一致性。但是,所述强化引水量时序特征矩阵在空间维度上的整体分布一致性又会导致所述强化引水量时序特征矩阵的各个局部分布之间存在概率密度维度下的区分度问题,从而影响所述强化引水量时序特征矩阵的解码回归的精准度。
39.因此,优选地对所述强化引水量时序特征矩阵,例如表示为进行高斯概率密度的流形曲面维度正交化,具体为:,其中和是特征值集合的均值和标准差,且是优化后的所述强化引水量时序特征
矩阵的第位置的特征值。
40.这里,通过以表达流形曲面的高维特征集合的均值和标准差的平方根来表征曲面单位切向量模长和单位法向量模长,可以将所述强化引水量时序特征矩阵的高维特征流形的流形曲面在切平面和法平面上进行基于单位模长的正交投影,从而基于高斯特征流形几何的基本结构进行高维特征的概率密度的维度重整,以通过提升概率密度的维度正交化来提升优化后的强化引水量时序特征矩阵的解码回归的精准度。
41.图2为根据本技术实施例的基于mpp架构的水务数据处理方法的场景示意图。如图2所示,在该应用场景中,首先,获取由用户输入的引水量查询请求(例如,如图2中所示意的c);然后,将获取的引水量查询请求输入至部署有基于mpp架构的水务数据处理算法的服务器(例如,如图2中所示意的s)中,其中所述服务器能够基于mpp架构的水务数据处理算法对所述引水量查询请求进行处理,以生成用于表示引水量的预测值解码值。
42.在介绍了本技术的基本原理之后,下面将参考附图来具体介绍本技术的各种非限制性实施例。
43.在本技术的一个实施例中,图3为根据本技术实施例的基于mpp架构的水务数据处理方法的流程图。如图3所示,根据本技术实施例的基于mpp架构的水务数据处理方法100,包括:110,获取由用户输入的引水量查询请求;120,基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列;130,将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量;140,将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量;150,对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵;160,将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵;170,对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;以及,180,对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。
44.图4为根据本技术实施例的基于mpp架构的水务数据处理方法的架构示意图。如图4所示,在该网络架构中,首先,获取由用户输入的引水量查询请求;然后,基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列;接着,将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量;然后,将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量;接着,对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵;然后,将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵;接着,对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;以及,最后,对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。
45.具体地,在步骤110中,获取由用户输入的引水量查询请求。针对上述技术问题,本技术的技术构思为基于mpp架构(massively parallel processing architecture),针对水务数据的特点,实现有效的诸如数据治理和查询等功能机制,以解决传统技术架构在亿级规模数据查询处理慢的问题。
46.具体地,基于mpp架构的水务数据处理方案,包括步骤:s110,搭建hadoop计算集群,数据存储使用基于mpp架构的greenplum数据库;s120,搭建spark集群,用于进行离线批处理,搭建flink集群,用于进行在线计算;s130,对于实时性要求不高的水务相关结构化数据,利用etl工具从其他业务系统抽离至greenplum中,利用mpp架构数据库的优势,实现数据的高性能存储;s140,对于实时性处理要求高的水务相关结构化数据,利用kafka进行数据的实时传递;s150,对于实时性要求不高的水务相关结构化数据,利用spark进行离线计算,实现数据的批量清洗、入库、重组装。处理后的数据存入greenplum中;s160,对于实时性处理要求高的水务相关结构化数据,利用flink从kafka中直接读取,实现实时数据的清洗、入库、重组装,再次写回kafka中,供后续使用;以及,s170,对处理后的数据,进行数据服务开发,kafka中的实时数据可以直接发送给使用方,也可以先写入greenplum中。对于已经存在greenplum中的数据,依托greenplum mpp架构的优势,实现海量大数据高效检索。
47.在上述技术方案中,hadoop表示 一个开源的分布系统基础架构,支持部署各类分布式计算集群。greenplum表示一个开源的基于mpp架构的数据库。spark表示一个开源的专为大规模数据处理的计算引擎,在离线数据的批处理方面有巨大优势。flink表示一个开源的数据流处理引擎,在实时数据的计算处理方面有巨大优势。kafka表示一个开源的消息队列,适合进行实时监控类数据的采集接入。
48.具体地,在步骤120中,基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列。基于此,在获取由用户输入的引水量查询请求后,可基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列。特别地,在本技术的技术方案中,可进一步对所述引水量时序分布序列进行数据分析以对引水量进行预测,这样基于预测值可判断水库的水资源是否足够,从而实现对水务实务的基于数据智能的辅助管理。
49.具体地,在步骤130中,将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量。具体地,在得到所述引水量时序分布序列后,将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量。也就是,将所述引水量时序分布序列按照时间维度进行数据结构化以得到所述引水量时序输入向量。例如,在本技术一个具体的示例中,以时间先后顺序将所述引水量时序分布序列排列为所述引水量时序输入向量。
50.具体地,在步骤140中,将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量。接着,将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量,其中,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。也就是,使用所述包含第一卷积层和第二卷积层的时序特征提取器对所述引水量时序特征向量进行多尺度一维卷积编码以捕捉不同时间窗口内引水量的时序关联特征。
51.应可以理解,在实际的水务管理中,引水量在时间上存在波动性和规律性,通过所述包含第一卷积层和第二卷积层的时序特征提取器可对引水量的时序分布特征进行多尺度过滤和筛选以得到多尺度引水量时序特征信息。
52.其中,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。
53.图5为根据本技术实施例的基于mpp架构的水务数据处理方法中步骤140的子步骤的流程图,如图5所示,将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量,包括:141,将所述引水量时序输入向量输入所
述时序特征提取器的第一卷积层以得到第一尺度引水量特征向量,其中,所述第一卷积层具有第一尺度的一维卷积核;142,将所述引水量时序输入向量输入所述时序特征提取器的第二卷积层以得到第二尺度引水量特征向量,其中,所述第二卷积层具有第二尺度的一维卷积核,所述第一尺度不同于所述第二尺度;以及,143,将所述第一尺度引水量特征向量和所述第二尺度引水量特征向量进行级联以得到所述引水量时序特征向量。
54.值得一提的是,相较于传统的特征工程,所述时序特征提取器本质上是一个基于深度学习的深度神经网络模型,其能够通过预定训练策略来拟合任何函数功能,且具有更高的特征提取泛化能力。
55.所述时序特征提取器包含多个并行的一维卷积层,其中,在所述时序特征提取器进行特征提取的过程中,所述多个并行的一维卷积层分别以具有不同尺度的一维卷积核对输入数据进行一维卷积编码以捕捉序列局部隐含特征。
56.具体地,在步骤150中,对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵。这里,考虑到所述引水量时序分布序列的数据量可能不足,这会影响所述引水量时序特征向量的特征表达的确定性和精准度。基于此,在本技术的技术方案中,考虑到高斯分布是深度学习的目标学习分布,故基于此先验信息,使用高斯密度图对所述引水量时序特征向量进行特征级数据表达强化以得到引水量时序特征矩阵。
57.具体地,首先构造所述引水量时序特征向量的自相关高斯密度图,其中,所述自相关高斯密度图的均值向量为所述引水量时序特征向量,所述自相关高斯密度图的协方差矩阵中各个位置的值为所述引水量时序特征向量中相应两个位置的特征值之间的方差。进而,对所述自相关高斯密度图中各个位置的高斯分布进行高斯离散化采样以得到所述引水量时序特征矩阵。
58.其中,对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵,包括:以如下高斯公式构造所述引水量时序特征向量的增强高斯密度图;其中,所述高斯公式为:,其中,表示所述引水量时序特征向量,且的每个位置的值表示所述引水量时序特征向量中相应两个位置的特征值之间的方差;对所述增强高斯密度图中各个位置的高斯分布进行高斯离散化处理以将所述增强高斯密度图中各个位置的高斯分布降维为一维的特征向量;以及,将所述各个位置的一维的特征向量进行二维排列以得到所述引水量时序特征矩阵。
59.应可以理解,作为神经网络模型的学习目标,高斯密度图可以表示特征分布的单个特征值由于其概率密度而在多个特征值构成整体分布情况下的联合分布,也就是,以特征分布作为先验分布,来获得每个先验分布位置下由于其它先验分布位置的相关性作用下的概率密度以作为后验分布,从而在更高维度上更准确地描述特征分布。
60.具体地,在步骤160中,将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵。进一步地,在基于所述引水量时序特征矩阵来进行引水量预测时,所述述引水量时序特征矩阵中各个位置的特征值对于最终引水量预测的贡献度不同。也就是,所述述引水量时序特征矩阵中各个位置的特征值对于最终的解码预测存在空间维度的特征显著性。
61.基于此,将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵。通过双向注意力机制模块在特征矩阵的行空间和列空间维度上进一步进行注意力权重强化以强化在注意力维度上的空间维度分布,可以提升所述强化引水量时序特征矩阵在空间维度上的整体分布一致性。
62.图6为根据本技术实施例的基于mpp架构的水务数据处理方法中步骤160的子步骤的流程图,如图6所示,将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵,包括:161,将所述引水量时序特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;162,对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;163,将所述双向关联矩阵输入sigmoid激活函数以得到双向关联权重矩阵;以及,164,计算所述双向关联权重矩阵和所述引水量时序特征矩阵之间的按位置点乘以得到所述强化引水量时序特征矩阵。
63.注意力机制是机器学习中的一种数据处理方法,广泛应用在自然语言处理、图像识别及语音识别等各种不同类型的机器学习任务中。一方面,注意力机制就是希望网络能够自动学出来图片或者文字序列中的需要注意的地方;另一方面,注意力机制通过神经网络的操作生成一个掩码mask, mask上的值的权重。 一般来说,空间注意力机制对于同一像素点不同通道求均值,再经过一些卷积和上采样的运算得到空间特征,空间特征每层的像素点就被赋予不同的权重。
64.具体地,在步骤170中,对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵。特别地,在本技术的技术方案中,在虽然通过双向注意力机制模块在特征矩阵的行空间和列空间维度上进一步进行注意力权重强化以强化在注意力维度上的空间维度分布,可以提升所述强化引水量时序特征矩阵在空间维度上的整体分布一致性。但是,所述强化引水量时序特征矩阵在空间维度上的整体分布一致性又会导致所述强化引水量时序特征矩阵的各个局部分布之间存在概率密度维度下的区分度问题,从而影响所述强化引水量时序特征矩阵的解码回归的精准度。
65.因此,优选地对所述强化引水量时序特征矩阵,例如表示为进行高斯概率密度的流形曲面维度正交化,具体为:以如下优化公式对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;其中,所述优化公式为:,其中,和是所述强化引水量时序特征矩阵中各个位置的特征值集合的均值和标准差,是所述强化引水量时序特征矩阵的第 位置的特征值,且 是所述解码特征矩阵的第位置的特征值。
66.这里,通过以表达流形曲面的高维特征集合的均值和标准差的平方根来表征曲面单位切向量模长和单位法向量模长,可以将所述强化引水量时序特征矩阵的高维特征流形的流形曲面在切平面和法平面上进行基于单位模长的正交投影,从而基于高斯特征流形几何的基本结构进行高维特征的概率密度的维度重整,以通过提升概率密度的维度正交化来提升优化后的强化引水量时序特征矩阵的解码回归的精准度。
67.具体地,在步骤180中,对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。接着,对所述强化引水量时序特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。也就是,使用所述解码器对所述强化引水量时序特征矩阵进行解码回归以得到用于表示引水量的预测值的解码值。
68.其中,对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值,包括:使用所述解码器以如下解码公式对所述解码特征矩阵进行解码回归以得到所述解码值;其中,所述解码公式为:,其中,表示所述解码特征矩阵,表示解码值,表示权重矩阵,表示偏置向量,表示矩阵乘。
69.综上,基于本技术实施例的基于mpp架构的水务数据处理方法100被阐明,其获取由用户输入的引水量查询请求;基于mpp架构(massively parallel processing architecture),针对水务数据的特点,实现有效的诸如数据治理和查询等功能机制,以解决传统技术架构在亿级规模数据查询处理慢的问题。
70.在本技术的一个实施例中,图7为根据本技术实施例的基于mpp架构的水务数据处理系统的框图。如图7所示,根据本技术实施例的基于mpp架构的水务数据处理系统200,包括:查询请求获取模块210,用于获取由用户输入的引水量查询请求;分布序列提取模块220,用于基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列;向量排列模块230,用于将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量;时序特征提取模块240,用于将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量;高斯增强模块250,用于对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵;双向注意力模块260,用于将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵;优化模块270,用于对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;以及,解码模块280,用于对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。
71.在一个具体示例中,在上述基于mpp架构的水务数据处理系统中,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。
72.在一个具体示例中,在上述基于mpp架构的水务数据处理系统中,所述时序特征提取模块,包括:第一尺度特征提取单元,用于将所述引水量时序输入向量输入所述时序特征提取器的第一卷积层以得到第一尺度引水量特征向量,其中,所述第一卷积层具有第一尺度的一维卷积核;第二尺度特征提取单元,用于将所述引水量时序输入向量输入所述时序特征提取器的第二卷积层以得到第二尺度引水量特征向量,其中,所述第二卷积层具有第二尺度的一维卷积核,所述第一尺度不同于所述第二尺度;以及,级联单元,用于将所述第一尺度引水量特征向量和所述第二尺度引水量特征向量进行级联以得到所述引水量时序特征向量。
73.在一个具体示例中,在上述基于mpp架构的水务数据处理系统中,所述高斯增强模
块,包括:高斯强化单元,用于以如下高斯公式构造所述引水量时序特征向量的增强高斯密度图;其中,所述高斯公式为:,其中,表示所述引水量时序特征向量,且的每个位置的值表示所述引水量时序特征向量中相应两个位置的特征值之间的方差;高斯离散化单元,用于对所述增强高斯密度图中各个位置的高斯分布进行高斯离散化处理以将所述增强高斯密度图中各个位置的高斯分布降维为一维的特征向量;以及,二维排列单元,用于将所述各个位置的一维的特征向量进行二维排列以得到所述引水量时序特征矩阵。
74.在一个具体示例中,在上述基于mpp架构的水务数据处理系统中,所述双向注意力模块,包括:池化单元,用于将所述引水量时序特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;关联编码单元,用于对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;激活单元,用于将所述双向关联矩阵输入sigmoid激活函数以得到双向关联权重矩阵;以及,计算单元,用于计算所述双向关联权重矩阵和所述引水量时序特征矩阵之间的按位置点乘以得到所述强化引水量时序特征矩阵。
75.在一个具体示例中,在上述基于mpp架构的水务数据处理系统中,所述优化模块,用于:以如下优化公式对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;其中,所述优化公式为:,其中,和是所述强化引水量时序特征矩阵中各个位置的特征值集合的均值和标准差,是所述强化引水量时序特征矩阵的第 位置的特征值,且 是所述解码特征矩阵的第位置的特征值。
76.在一个具体示例中,在上述基于mpp架构的水务数据处理系统中,所述解码模块,用于:使用所述解码器以如下解码公式对所述解码特征矩阵进行解码回归以得到所述解码值;其中,所述解码公式为:,其中,表示所述解码特征矩阵,表示解码值,表示权重矩阵,表示偏置向量,表示矩阵乘。
77.这里,本领域技术人员可以理解,上述基于mpp架构的水务数据处理系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的基于mpp架构的水务数据处理方法的描述中得到了详细介绍,并因此,将省略其重复描述。
78.如上所述,根据本技术实施例的基于mpp架构的水务数据处理系统200可以实现在各种终端设备中,例如用于基于mpp架构的水务数据处理的服务器等。在一个示例中,根据本技术实施例的基于mpp架构的水务数据处理系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于mpp架构的水务数据处理系统200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于mpp架构的水务数据处理系统200同样可以是该终端设备的众多硬件模块之一。
79.替换地,在另一示例中,该基于mpp架构的水务数据处理系统200与该终端设备也可以是分立的设备,并且基于mpp架构的水务数据处理系统200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
80.本技术还提供了一种计算机程序产品,所述计算机程序产品包括指令,当所述指令被执行时,以使得装置执行对应于上述方法中的操作。
81.在本技术的一个实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
82.应可以理解,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等) 上实施的计算机程序产品的形式。
83.本技术实施例的方法、系统、和计算机程序产品的流程图和/或框图来描述的。应理解可由计算机程序指令实现流程图和/或框图中的每一流程和/或方框、以及流程图和/或框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能的装置。
84.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能。
85.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能的步骤。
86.以上结合具体实施例描述了本技术的基本原理,但是,需要指出的是,在本技术中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本技术的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本技术为必须采用上述具体的细节来实现。
87.本技术中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
88.还需要指出的是,在本技术的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本技术的等效方案。
89.提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本技术。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义
的一般原理可以应用于其他方面而不脱离本技术的范围。因此,本技术不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
90.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
91.为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本技术的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
技术特征:
1.一种基于mpp架构的水务数据处理方法,其特征在于,包括:获取由用户输入的引水量查询请求;基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列;将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量;将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量;对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵;将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵;对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;以及对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。2.根据权利要求1所述的基于mpp架构的水务数据处理方法,其特征在于,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。3.根据权利要求2所述的基于mpp架构的水务数据处理方法,其特征在于,将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量,包括:将所述引水量时序输入向量输入所述时序特征提取器的第一卷积层以得到第一尺度引水量特征向量,其中,所述第一卷积层具有第一尺度的一维卷积核;将所述引水量时序输入向量输入所述时序特征提取器的第二卷积层以得到第二尺度引水量特征向量,其中,所述第二卷积层具有第二尺度的一维卷积核,所述第一尺度不同于所述第二尺度;以及将所述第一尺度引水量特征向量和所述第二尺度引水量特征向量进行级联以得到所述引水量时序特征向量。4.根据权利要求3所述的基于mpp架构的水务数据处理方法,其特征在于,对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵,包括:以如下高斯公式构造所述引水量时序特征向量的增强高斯密度图;其中,所述高斯公式为:,其中,表示所述引水量时序特征向量,且的每个位置的值表示所述引水量时序特征向量中相应两个位置的特征值之间的方差;对所述增强高斯密度图中各个位置的高斯分布进行高斯离散化处理以将所述增强高斯密度图中各个位置的高斯分布降维为一维的特征向量;以及将所述各个位置的一维的特征向量进行二维排列以得到所述引水量时序特征矩阵。5.根据权利要求4所述的基于webgis的车辆运动路线规划方法,其特征在于,将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵,包括:将所述引水量时序特征矩阵分别沿着水平方向和垂直方向进行池化以得到第一向池化向量和第二向池化向量;对所述第一向池化向量和所述第二向池化向量进行关联编码以得到双向关联矩阵;将所述双向关联矩阵输入sigmoid激活函数以得到双向关联权重矩阵;以及计算所述双向关联权重矩阵和所述引水量时序特征矩阵之间的按位置点乘以得到所述强化引水量时序特征矩阵。6.根据权利要求5所述的基于mpp架构的水务数据处理方法,其特征在于,对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵,包括:以如下优化公式对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正
交化以得到解码特征矩阵;其中,所述优化公式为:,其中,和是所述强化引水量时序特征矩阵中各个位置的特征值集合的均值和标准差,是所述强化引水量时序特征矩阵的第 位置的特征值,且 是所述解码特征矩阵的第位置的特征值。7.根据权利要求6所述的基于mpp架构的水务数据处理方法,其特征在于,对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值,包括:使用所述解码器以如下解码公式对所述解码特征矩阵进行解码回归以得到所述解码值;其中,所述解码公式为:,其中,表示所述解码特征矩阵,表示解码值,表示权重矩阵,表示偏置向量,表示矩阵乘。8.一种基于mpp架构的水务数据处理系统,其特征在于,包括:查询请求获取模块,用于获取由用户输入的引水量查询请求;分布序列提取模块,用于基于所述引水量查询请求从基于mpp架构的数据库中提取引水量时序分布序列;向量排列模块,用于将所述引水量时序分布序列按照时间维度排列为引水量时序输入向量;时序特征提取模块,用于将所述引水量时序输入向量通过包含第一卷积层和第二卷积层的时序特征提取器以得到引水量时序特征向量;高斯增强模块,用于对所述引水量时序特征向量进行基于高斯密度图的特征级表达强化以得到引水量时序特征矩阵;双向注意力模块,用于将所述引水量时序特征矩阵通过双向注意力机制模块以得到强化引水量时序特征矩阵;优化模块,用于对所述强化引水量时序特征矩阵进行高斯概率密度的流形曲面维度正交化以得到解码特征矩阵;以及解码模块,用于对所述解码特征矩阵通过解码器进行解码回归以得到解码值,所述解码值用于表示引水量的预测值。9.根据权利要求8所述的基于mpp架构的水务数据处理系统,其特征在于,所述第一卷积层和所述第二卷积层分别使用具有不同尺度的一维卷积核。10.根据权利要求9所述的基于mpp架构的水务数据处理系统,其特征在于,所述时序特征提取模块,包括:第一尺度特征提取单元,用于将所述引水量时序输入向量输入所述时序特征提取器的第一卷积层以得到第一尺度引水量特征向量,其中,所述第一卷积层具有第一尺度的一维卷积核;第二尺度特征提取单元,用于将所述引水量时序输入向量输入所述时序特征提取器的第二卷积层以得到第二尺度引水量特征向量,其中,所述第二卷积层具有第二尺度的一维卷积核,所述第一尺度不同于所述第二尺度;以及级联单元,用于将所述第一尺度引水量特征向量和所述第二尺度引水量特征向量进行级联以得到所述引水量时序特征向量。
技术总结
一种基于MPP架构的水务数据处理系统及其方法,其获取由用户输入的引水量查询请求;基于MPP架构(Massively Parallel Processing Architecture),针对水务数据的特点,实现有效的诸如数据治理和查询等功能机制,以解决传统技术架构在亿级规模数据查询处理慢的问题。技术架构在亿级规模数据查询处理慢的问题。技术架构在亿级规模数据查询处理慢的问题。
技术研发人员:杨浩铭 吉飞 王蔡涛 李洋洋 江培 郭鸿
受保护的技术使用者:杭州水务数智科技股份有限公司
技术研发日:2023.06.30
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:超大型一体化车身底盘压铸模具及压铸工艺的制作方法 下一篇:航空物流智能报价系统