基于深度数据清洗的在线智能投矾系统的制作方法
未命名
08-25
阅读:135
评论:0

1.本发明涉及自来水处理优化技术领域,具体领域为一种基于深度数据清洗的在线智能投矾系统。
背景技术:
2.随着经济水平的提高,人民对生活品质的要求也越来越高,而水作为人们日常生活中必不可少的部分,水质问题已经成为社会热切关注的问题;目前来说,虽然自来水处理是比较成熟的技术,但还是有很大的提升空间,尤其是混凝剂投加环节,混凝剂是自来水处理的常见药剂,它能够对水进行简单的处理,降低对人体的危害,达到一定的过滤效果;混凝剂投加作为自来水厂混凝沉淀工艺中的重要环节,是影响出水水质效果的关键环节。而目前主要是通过人工控制进行混凝剂投加,由于对水厂操作人员要求较高,并时常出现过量投加、水质质量欠缺等问题,无法满足新时代的数字化智慧水厂运行需求;
3.另外对于智能化的自动加药系统,由于人工控制阶段的工程数据存在“数据过于繁杂、质量不够稳定”的特征,一定程度上影响了理论模型在离线建模阶段的可靠性。因此,基于水厂大数据的数据处理和质量控制无疑是理论建模的重要环节。现有的数据清洗方法如箱型图和滑动平均异常值处理等,展现了相较传统硬阈值清洗更强的性能,能够建立精度更高的理论模型。然而,对于工程异常数据而言,除了明显的统计异常数据,还包括了逻辑异常数据,如跳点样本、出水浊度倒挂样本等。因此,在如今的智能化发展的背景下,亟需更完善的深度数据清洗框架,以保障系统能在智能化、无人化值守的环境下,得到更高质量的工程数据,并进一步协助建立高精度理论模型;
4.此外,人工智能方法因其复杂性和“黑箱”特性,当历史数据质量不稳定时,容易产生因过拟合而导致预测结果有悖于工程逻辑的问题。比如如图1所示在原水浊度上升的工况下,预测投药量反而下降。
技术实现要素:
5.针对现有技术存在的不足,本发明的目的在于提供一种基于深度数据清洗的在线智能投矾系统。
6.为实现上述目的,本发明提供如下技术方案:一种基于深度数据清洗的在线智能投矾系统,以前馈-反馈控制系统框架为基础,包括前馈系统的数据挖掘与建模、在线数据清洗与模型更新,根据前馈系统的数据挖掘与建模和在线数据清洗与模型更新,实现pac预测投药;
7.前馈系统的数据挖掘与建模:
8.(1)基于水厂原有的运行监测数据,进行数据清洗;
9.(2)数据清洗后对筛选的样本数据进行数据分析,建立统计模型;
10.(3)根据数据变化要求建立多元非线性投药统计模型,进行工况模拟评估;
11.在线数据清洗与模型更新:
12.(1)对水厂运行数据进行实时数据监测与清洗;
13.(2)根据实时在线数据,进行数据实时识别并标记;
14.(3)根据实时数据监测与清洗模块,将数据分为标识样本和未标识样本;
15.(4)根据设定的模型更新周期,以在线运行时期的未标识数据作为训练数据集,完成理论模型的自适应更新。
16.优选的,根据前馈系统的数据挖掘与建模中步骤(1),其工程异常数据的清洗方法,步骤如下:
17.1)识别常见的工程异常数据;
18.2)进行硬阈值处理,处理其他明显不符合运行逻辑的样本。
19.3.根据权利要求2所述的基于深度数据清洗的在线智能投矾系统,其特征在于:所述的工程异常数据包括有跳点异常和沉后水浊度倒挂异常,基于沉后水浊度倒挂异常数据识别,需要在开展时间偏移矫正的预处理后再进行。
20.优选的,根据前馈系统的数据挖掘与建模中步骤(2)-(3),设置原水浊度、沉后水浊度、流量和温度四个变量,建立多元非线性统计模型,其模型表达式为:
21.pac=a*i4+b*i3+c*i2+d*i+e
22.i=f(tuts,tute,t,ph,t)
23.其中,i为综合变量,代表不同温度下单位时间的去浊效果,tuts是原水浊度,tute是经过时间偏移的对应沉后水浊度,t为原水温度,ph为原水ph值,t为时间偏移量。
24.优选的,根据在线数据清洗与模型更新中步骤(1)-(3),设置空值、跳点异常和沉后水倒挂异常三类数据异常进行数据识别响应。
25.优选的,针对空值与沉后水倒挂的数据识别,采用实时识别并标记。
26.优选的,针对跳点异常的数据识别,采用长短期突变识别,其步骤如下:
27.1)若当前样本为突变样本,则进行标记;
28.2)当前样本为突变样本的情况下,回溯至上一个未标记样本,并累计标记数目;
29.3)若累计数小于设定步长,则当前样本为短期突变样本。
30.与现有技术相比,本发明的有益效果是:将深度数据清洗与分析引入在线pac智能投加系统,以物理经验为基础,建立了高稳定性的非线性理论模型,在保障系统稳定性和水质达标的前提下,实现了合理智能投药,达到节药目的。同时,通过接入实时数据监测与清洗模块,进一步保障了历史数据的稳定性,并建立优质数据库以辅助理论模型的自学习在线更新和未来的数据再分析,可持续更新的精确投药模型保障了数字水厂在少无人环境下投矾的长期安全运行和水质目标实现。
31.建立自来水厂智能投矾系统是优化制水药剂投加策略和降低水质风险的有效途径。应用科学的深度数据清洗方法,结合前馈-反馈统计模型耦合算法,动态地根据水质控制目标提供更精确的药量投加指令和输出自学习更新模型,不但可以稳定出水水质和降低药耗,提升水厂的经济运行水平,还可以持续提升模型精度,实现数字水厂的少无人运营目标。
附图说明
32.图1为ann预测与原水浊度变化;
33.图2为改进的前馈反馈在线pac智能投加系统;
34.图3为变量散点图矩阵;
35.图4为不同模型间pac预测投药与三个主要变量之间的变化趋势;
36.图5为跳点异常数据图;
37.图6为不同数据集拟合模型的预测pac投药监测数据;
38.图7为测试样本的环境数据;
39.图8为智能投加系统与人工投药对比图;
40.图9为pac投药变化与沉后水浊度变化图。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.本发明以前馈-反馈控制系统框架为基础,聚焦现代数字化水厂历史大数据分析和深度数据清洗与维护,提出了基于深度数据清洗的水厂在线加矾(以pac为例)智能投加系统。在离线建模阶段,通过深度数据清洗,以物理经验为基础,建立了简单有效的理论经验模型;于在线运行阶段,通过引入实时数据监测与清洗模块,提高系统对常见异常工况的智能化响应能力,完善系统的在线闭环控制。在此基础上,系统能够成功建立优质的在线数据库,并辅助理论模型的自主更新,相对应的,基于物理经验和深度数据清洗的理论经验模型则能够较好规避该类问题,具有较高的鲁棒性。因此,理论经验模型在智能投药系统从离线人工阶段过渡到在线运行阶段期间,更能够保障系统运行的安全性与可靠性。
43.作为水厂智能化运行的一部分,为了保障工程运行的安全和理论模型的优化与自主更新,在线智能化投药系统对工况异常的智能化监测响应和理论模型的自主更新这两方面提出了一定要求。异常工况不但对生产安全造成了威胁,同时污染了在线工程数据集,无法为理论模型的自主更新提供优质数据支持。因此,亟需对在线运行系统建立基于实时工程数据的异常工况预警与在线数据清洗模块,以改善系统在线运行的数据质量问题。
44.本发明基于上述论述,提供一种技术方案:一种基于深度数据清洗的在线智能投矾系统,以前馈-反馈控制系统框架为基础,包括前馈系统的数据挖掘与建模、在线数据清洗与模型更新,根据前馈系统的数据挖掘与建模和在线数据清洗与模型更新,实现pac预测投药;
45.前馈系统的数据挖掘与建模:
46.(4)基于水厂原有的运行监测数据,进行数据清洗;
47.(5)数据清洗后对筛选的样本数据进行数据分析,建立统计模型;
48.(6)根据数据变化要求建立多元非线性投药统计模型,进行工况模拟评估;
49.在线数据清洗与模型更新:
50.(1)对水厂运行数据进行实时数据监测与清洗;
51.(2)根据实时在线数据,进行数据实时识别并标记;
52.(3)根据实时数据监测与清洗模块,将数据分为标识样本和未标识样本;
53.(4)根据设定的模型更新周期,以在线运行时期的未标识数据作为训练数据集,完成理论模型的自适应更新。
54.根据前馈系统的数据挖掘与建模中步骤(1),其工程异常数据的清洗方法,步骤如下:
55.1)识别常见的工程异常数据;
56.2)进行硬阈值处理,处理其他明显不符合运行逻辑的样本。
57.3.根据权利要求2所述的基于深度数据清洗的在线智能投矾系统,其特征在于:所述的工程异常数据包括有跳点异常和沉后水浊度倒挂异常,基于沉后水浊度倒挂异常数据识别,需要在开展时间偏移矫正的预处理后再进行。
58.根据前馈系统的数据挖掘与建模中步骤(2)-(3),设置原水浊度、沉后水浊度、流量和温度四个变量,建立多元非线性统计模型,其模型表达式为:
59.pac=a*i4+b*i3+c*i2+d*i+e
60.i=f(tuts,tute,t,ph,t)
61.其中,i为综合变量,代表不同温度下单位时间的去浊效果,tuts是原水浊度,tute是经过时间偏移的对应沉后水浊度,t为原水温度,ph为原水ph值,t为时间偏移量。
62.根据在线数据清洗与模型更新中步骤(1)-(3),设置空值、跳点异常和沉后水倒挂异常三类数据异常进行数据识别响应。
63.优选的,针对空值与沉后水倒挂的数据识别,采用实时识别并标记。
64.优选的,针对跳点异常的数据识别,采用长短期突变识别,其步骤如下:
65.1)若当前样本为突变样本,则进行标记;
66.2)当前样本为突变样本的情况下,回溯至上一个未标记样本,并累计标记数目;
67.3)若累计数小于设定步长,则当前样本为短期突变样本。
68.针对于上述技术方案,其在实施过程中:
69.基于水厂原有的运行监测数据,进行数据清洗,其工程异常数据的清洗方法,步骤如下:
70.1)识别常见的工程异常数据;
71.2)进行硬阈值处理,处理其他明显不符合运行逻辑的样本。
72.工程异常数据包括有跳点异常和沉后水浊度倒挂异常,基于沉后水浊度倒挂异常数据识别,需要在开展时间偏移矫正的预处理后再进行;
73.本发明实验数据来源于某水厂2021年全年可获得的运行监测数据,包括原水ph,原水浊度,原水温度,沉淀池进水流量,沉后水浊度等。数据频率采样为10分钟,并以此作为原始数据,除去因监测设备或传输问题出现的监测异常和空值现象,有完整记录数据共近51,000条。
74.工程数据异常与传统统计异常存在一定差异,一般的统计异常值处理方法无法识别诸如跳点数据、沉后水浊度倒挂数据等。
75.基于以上数据清洗过程和注意事项,得到了共近42,000有效样本对于筛选的数据建立统计模型,建立多元非线性投药统计模型:
76.通过变量的散点图和pearson相关系数可以简单了解不同变量之间的统计关系。由图3可知,pac的人工投药量与原水浊度、沉后水浊度、流量和温度都有显著的统计相关,
且与原水浊度相关性最大。因此,需要建立以这四个变量为基础的多元统计模型,模拟pac投药量在不同工况下的变化。然而,对于多元线性模型而言,其对各个自变量的要求是需要变量之间相互独立,即自变量之间无相关性。显然,本发明数据无法满足该要求,如原水浊度与温度的统计相关高达0.629。同样的,从散点图看,线性关系无法真正刻画pac投药与各个自变量的关系。因此,需要建立多元非线性统计模型以描述各个自变量之间的交互关系以及它们和pac投药量之间的关系。
77.本发明根据物理经验首先需要理清不同自变量对pac投药量的影响方式。
78.温度t在某一区间内的pac混凝效果最佳。流量一定程度代表了混凝程度的反应时间t,反应时间越长,需要的pac投药量就可以适当减少。最后,浊度对于pac投药的影响的物理解释为每单位pac投药能降低多少水体浊度,由于沉后水浊度是浊度目标值,且相对稳定,因此浊度差能够表现二者的主要特征。
79.因此,根据步骤(2)-(3),设置原水浊度、沉后水浊度、流量和温度四个变量,建立多元非线性统计模型,其模型表达式为:
80.pac=a*i4+b*i3+c*i2+d*i+e
81.i=f(tuts,tute,t,ph,t)
82.tutdif=tits-tute
83.其中,i为综合变量,代表不同温度下单位时间的去浊效果,tuts是原水浊度,tute是经过时间偏移的对应沉后水浊度,t为原水温度,ph为原水ph值,t为时间偏移量。
84.此外,ann作为当下较为主流的前馈理论模型系统,本发明同时建立了两个
85.ann模型与该线性模型进行比对分析。两个ann模型结构类别相同,都搭建3个隐藏层,每层神经元个数33个,激活函数相同,区别在于输入的变量,mlp1为tutdif(进出水浊度差),t和t,mlp2为综合变量i。
86.本发明通过建立统计指标r2和均方根误差(rmse),并结合模拟工况对模型进行评估。
87.从整体模型精度来看,mlp1和mlp2都高于stamodel(表1)。其中mpl2和stamodel的模型精度差别不大,且二者用到的变量一致。因此在一定程度上说明了ann拟合的非线性特征与本统计模型相似。而mlp1和2的区别在于输入特征的差异,mlp1用的是原始变量,而mlp2用的是本发明建立的综合指标i,仅从模型模拟精度上看,ann类模型确实优于统计模型。ann以“黑箱”形式拟合了变量之间的非线性特征,这在我们无法准确描述变量关系的时候,为我们提供了极大便利。
88.表1模型拟合度
[0089][0090]
另一方面,基于工程过程的安全控制,本发明从工程变量的工程逻辑一致性的角度再次对三个模型进行了比对。图4展示了不同模型预测pac和三个变量之间的在5个小时内的变化趋势。其中,实线为stamodel,虚线为mlp2,点划线为mlp1。三个模型预测的差异体
现在6月30日10点的预测pac变化。在该时刻,浊度差出现了明显的下降,相对应的,stamodel和mlp2的预测pac也随之下降。然而,mlp1预测的pac却异常上升,有违工程逻辑。因此,即使mlp1的预测精度高于stamodel和mlp2,我们也无法将该模型视为系统的前馈理论模型。相反的,stamodel和mlp2在预测和拟合精度相对可接受的情况下,预测pac的变化对所有主要变量的变化响应合理,是良好的备选模型。同时,考虑到mlp2也存在“黑箱”属性,表现同样受限于数据质量,且其与stamodel的精度无明显差异。
[0091]
因此本发明最终将stamodel作为系统的离线理论模型。
[0092]
针对在线数据清洗与模型更新模块:作为在线pac智能投加系统的重要模块(图2),本模块承担着与离线阶段数据清洗部分同样的功能。然而,由于在线这一属性的特殊性,本模块的清洗逻辑需要有别于传统思维,需要加入“识别、标记、响应”这三大过程。
[0093]
(1)对水厂运行数据进行实时数据监测与清洗;
[0094]
(2)根据实时在线数据,进行数据实时识别并标记;
[0095]
(3)根据实时数据监测与清洗模块,将数据分为标识样本和未标识样本;根据技术内容中步骤(1)-(3),设置空值、跳点异常和沉后水倒挂异常三类数据异常进行数据识别响应。
[0096]
针对空值与沉后水倒挂的数据识别,采用实时识别并标记,通过对异常数据直接进行识别标记。
[0097]
针对跳点异常的数据识别,采用长短期突变识别,由于跳点的识别一定是基于其相邻两个点的判断,所以,无人能够判断当前观测到的变化点是否一定属于跳点。如果需要达成跳点识别,在线监测时,无论是人工还是智能系统,都需要在等待至少一个观测时段后,才能真正判断跳点。因此,基于该原理,在线系统的跳点识别需要更广泛的定义,即长短期突变识别;
[0098]
其步骤如下:
[0099]
1)若当前样本为突变样本,则进行标记;
[0100]
2)当前样本为突变样本的情况下,回溯至上一个未标记样本,并累计标记数目;
[0101]
3)若累计数小于设定步长,则当前样本为短期突变样本。
[0102]
通过该方法步骤,模块能够在可接受的时滞内判断跳点数据,并做出响应。而对于长期突变点,模块则不需要做出响应,因为长期的突变代表工况的转变,而非异常数据。
[0103]
为了保证数据清洗的统一,在离线数据清洗时,也采用了长短期突变识别作为跳点数据的识别方法。以沉后水浊度数据为例(图5),在2021年全年,一共有2589个跳点样本,占总样本数量的5%左右。
[0104]
最后,根据设定的模型更新周期,以在线运行时期的未标识数据作为训练数据集,完成理论模型的自适应更新。
[0105]
模型的在线更新不但能够使系统与当前净水工况和环境保持同步,更能够进一步提高预测投药量的精确程度。图6展示了通过两个不同数据集拟合得到的投药模型对同一时段的pac投药预测结果。虚线(mj)5月至6月1分钟数据集拟合的理论模型对后两个星期的pac投药预测,实线为2021全年10分钟数据集拟合的理论模型预测值,实点代表实际pac投药。不难发现,临近数据集得到的模型(mj)预测更适合当前投药环境,即预测精度更高。这也体现了模型在线更新的必要性。
[0106]
根据实时数据监测与清洗模块,系统将数据分为了标识样本和未标识样本两类。当系统在线成熟运行了一段时间后,系统就可以根据设定的模型更新周期,以在线运行时期的未标识优质数据作为训练数据集,完成理论模型的自适应更新。
[0107]
通过本技术的技术方案,系统在某水厂进行了实地跟投测试。同时,为了测试系统在不同环境下的稳定性与预测能力(图7),选取了不同时间段与温度段分别进行连续跟投实验,并以人工投药作为对照组进行了比较,共得到采样频率为1分钟的近1500组数据结果(图8)。相对于人工投药,在测试中,本系统在单次投药中平均节约了2.36个单位的pac药量,约合15%节药量。在满足沉后水浊度的同时,极大的节约了投药成本。
[0108]
同时,在测试中,本系统在实时数据反馈监测和投药变化响应方面同样达到了预期。以图9为例,本系统通过监测实际沉后水浊度与目标沉后水浊度的差异发现原本的投药量不足以满足目标浊度要求,因此增加了一定投药量。在必要的沉淀过程后,实际沉后水浊度下降至目标浊度要求,并维持改投药量不变。
[0109]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种基于深度数据清洗的在线智能投矾系统,以前馈-反馈控制系统框架为基础,其特征在于:包括前馈系统的数据挖掘与建模、在线数据清洗与模型更新,根据前馈系统的数据挖掘与建模和在线数据清洗与模型更新,实现pac预测投药;前馈系统的数据挖掘与建模:(1)基于水厂原有的运行监测数据,进行数据清洗;(2)数据清洗后对筛选的样本数据进行数据分析,建立统计模型;(3)根据数据变化要求建立多元非线性投药统计模型,进行工况模拟评估;在线数据清洗与模型更新:(1)对水厂运行数据进行实时数据监测与清洗;(2)根据实时在线数据,进行数据实时识别并标记;(3)根据实时数据监测与清洗模块,将数据分为标识样本和未标识样本;(4)根据设定的模型更新周期,以在线运行时期的未标识数据作为训练数据集,完成理论模型的自适应更新。2.根据权利要求1所述的基于深度数据清洗的在线智能投矾系统,其特征在于:根据前馈系统的数据挖掘与建模中步骤(1),其工程异常数据的清洗方法,步骤如下:1)识别常见的工程异常数据;2)进行硬阈值处理,处理其他明显不符合运行逻辑的样本。3.根据权利要求2所述的基于深度数据清洗的在线智能投矾系统,其特征在于:所述的工程异常数据包括有跳点异常和沉后水浊度倒挂异常,基于沉后水浊度倒挂异常数据识别,需要在开展时间偏移矫正的预处理后再进行。4.根据权利要求1所述的基于深度数据清洗的在线智能投矾系统,其特征在于:根据前馈系统的数据挖掘与建模中步骤(2)-(3),设置原水浊度、沉后水浊度、流量和温度四个变量,建立多元非线性统计模型,其模型表达式为:pac=a*i4+b*i3+c*i2+d*i+ei=f(tuts,tute,t,ph,t)其中,i为综合变量,代表不同温度下单位时间的去浊效果,tuts是原水浊度,tute是经过时间偏移的对应沉后水浊度,t为原水温度,ph为原水ph值,t为时间偏移量。5.根据权利要求1所述的基于深度数据清洗的在线智能投矾系统,其特征在于:根据在线数据清洗与模型更新中步骤(1)-(3),设置空值、跳点异常和沉后水倒挂异常三类数据异常进行数据识别响应。6.根据权利要求5所述的基于深度数据清洗的在线智能投矾系统,其特征在于:针对空值与沉后水倒挂的数据识别,采用实时识别并标记。7.根据权利要求5所述的基于深度数据清洗的在线智能投矾系统,其特征在于:针对跳点异常的数据识别,采用长短期突变识别,其步骤如下:1)若当前样本为突变样本,则进行标记;2)当前样本为突变样本的情况下,回溯至上一个未标记样本,并累计标记数目;3)若累计数小于设定步长,则当前样本为短期突变样本。
技术总结
本发明涉及自来水处理优化技术领域,尤其是一种基于深度数据清洗的在线智能投矾系统,包括前馈系统的数据挖掘与建模、在线数据清洗与模型更新,根据前馈系统的数据挖掘与建模和在线数据清洗与模型更新,实现PAC预测投药,本发明在满足沉后水浊度的同时,极大的节约了投药成本。药成本。药成本。
技术研发人员:金盛 陈航美 卢汪洋 何福耀
受保护的技术使用者:浙江义乌市自来水有限公司
技术研发日:2022.09.29
技术公布日:2023/8/24
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/