基于PSO-GA-LSTM模型的空气质量预测方法
未命名
09-17
阅读:91
评论:0

基于pso-ga-lstm模型的空气质量预测方法
技术领域
1.本发明属于时间序列预测技术领域,具体涉及一种基于粒子群算法(particle swarm optimization,pso)、遗传算法(genetic algorithm,ga)和长短期记忆(longshort-termmemory,lstm)循环神经网络的空气质量预测方法。
背景技术:
2.当前全球气候剧变,由此引发的空气污染问题日益严重,人们的日常生活受到了严重的影响。随着环保意识的逐渐增强,人们对于空气质量改善的需求越来越高涨,如何做好污染的防治工作成了一个十分急迫的问题。在保持经济高速发展的同时将工业化对环境气候的影响降低到最小,这已经成了各国学术界所共同追求的目标。采取科学的方法进行空气质量监控工作已经成了一项重要议题,准确地从空气质量数据中获取信息是这项议题的关键。掌握空气质量变化的规律,十分有利于科学地指导空气污染防治工作,对城市健康发展具有十分重要的指导意义。
3.近年来,国内外诸多学者研究空气质量预测问题。张炳彩将基于残差修正的灰度模型应用到空气质量预测上面,结果较高地提高了灰度模型的预测精度。张玉丽将改进的多元线性回归应用到空气质量的预测分析中,较之未改进之前精度有了较为明显的提高。谢磊提出了一种综合多种数值预报模式的空气质量预测方法,较之单一的预测预警模式在一定程度上提高了空气质量预测的精度。王鹏将主成分分析法(pca)引入bp神经网络并分别构建不同季节的pm10浓度预测模型,模型的泛化能力相较于原始模型有所增强,预测精度良好。牛玉霞通过对bp神经网络进行优化建立基于遗传算法的bp神经网络空气质量预测模型,实验结果表明,模型收敛速度更快,对污染物及空气质量指数的预测精度更高。刘笃晋将人工蜂群算法引入bp神经网络,利用该算法找出bp神经网络反向传播过程中最佳的全值及阈值,优化bp神经网络对空气质量的预测能力。范剑辉以青海市某工业园区为研究对象,分别使用bp反向传播、rbf径向基、elman神经网络对pm2.5日均浓度进行预测,结果证实,采用bp网络模型更具有普适性,而rbf和elman网络则受限于原始数据的影响预测效果没有bp神经网络的预测效果好。黄芸根据2015年黄石市的相关部分提供的实时数据,分析出pm2.5的日均浓度变化特征呈现出明显的季节性特征,利用arima模型建立分时段预测模型,结果显示相比于实时预测,分时预测系统精度更高。任才溶以太原市空气质量为研究对象,运用随机森林的算法搭建预测模型,结果证明改进的模型对预测空气中pm2.5的等级具有较好的精确率与召回率。然而,在对空气质量预测研究中,一方面现有的研究方法往往都基于某种单一机器学习方法,但是忽略了不同方法之间的结合。另一方面现有的对方法模型参数的优化中,往往使用网格搜索法,却没有很好地对优化方法本身进行改进。同时现有方法往往没有考虑数据波动变化大时干扰预测结果的情况,且没有充分挖掘空气质量数据的特征信息,难以形成稳定精确的空气质量预测模型。
4.空气质量数据具有非线性、随机性及突发性。长短期记忆循环神经网络可根据序列数据时间依赖关系,检测数据的非线性特征,并建立不同特征下非线性数据的预测模型。
粒子群算法优化神经网络模型的超参数,遗传算法优化神经网络模型的初始权值阈值,可以克服模型预测过程易陷入局部最优解及收敛速度慢的问题。综上,提出一种基于粒子群算法和遗传算法优化lstm神经网络(pso-ga-lstm)的方法,预测空气质量变化趋势。
技术实现要素:
5.本发明的目的是提供一种基于pso-ga-lstm模型的空气质量预测方法。解决了传统的预测方法对波动较大的空气质量时间序列数据,预测精度不高的问题。
6.本发明所采用的技术方案是,一种使用pso-ga-lstm模型的空气质量预测方法,包括以下步骤:
7.步骤1,收集空气质量时间序列数据;
8.步骤2,对步骤1获取的空气质量序列数据进行预处理操作;
9.步骤3,根据步骤2所得数据,建立lstm模型,同时利用粒子群算法优化lstm模型的超参数;
10.步骤4,根据步骤2所得数据和步骤3得到的最优超参数,建立lstm模型,利用遗传算法优化lstm模型的权值阈值,得到pso-ga-lstm模型;
11.步骤5,利用pso-ga-lstm模型对未来数据进行预测。
12.本发明的特点还在于:
13.步骤2中,对序列数据采用归一化处理方法进行预处理,将原始序列数据映射到[0,1]具体方法是:先计算得序列数据的最大值和最小值,分别记为x
max
和x
min
;然后使用序列数据中的每个数据减去x
min
,再除以x
max-x
min
。
[0014]
步骤3中,lstm模型包括输入层、隐藏层、输出层、网络训练以及网络预测模块。输入层负责对原始空气质量序列进行初步处理以满足网络输入要求,隐藏层采用lstm细胞搭建单层循环神经网络,输出层提供预测结果网络,网络预测采用迭代的方法逐点预测。
[0015]
步骤3中,利用粒子群算法优化lstm模型超参数的具体方法是:首先确定lstm模型中待优化的超参数为时间窗口和隐藏层节点数;然后初始化参数,包括种群规模(粒子数量)m、最大迭代次数n
max
、、惯性权重w、粒子位置的边界x
max
和x
min
、粒子速度的范围v
max
和v
min
、加速因子c1和c2;随机产生一个粒子种群,每个个体包括两个超参数:时间窗口和隐藏层节点数。粒子群算法迭代过程中利用全局最优个体和历史最佳个体调整当前个体的位置。粒子群算法迭代结束后,获取lstm模型的最佳超参数。
[0016]
步骤4中,利用遗传算法优化lstm模型权值阈值的具体方法是:初始化种群,对待优化的权值阈值进行二进制编码;迭代过程中若当前最大适应度值无显著变化或达到种群最大迭代次数,则停止优化;否则利用选择、交叉、变异操作,更新超参数染色体,并将新的超参数赋值给lstm神经网络。
[0017]
本发明的有益效果是:本发明不仅解决了传统的预测方法对波动较大的空气质量时间序列数据,预测精度不高的问题。并且提出了利用粒子群算法和遗传算法分别优化神经网络超参数和权值阈值的时间序列数据计算方法,克服了模型预测过程中易陷入局部最优解、收敛速度慢且不稳定的问题。该预测方法能够提取空气质量数据的特征变化,最终实现了对空气质量时间序列数据的高准确率预测并分析,更精确地预测空气质量变化的趋势。
附图说明
[0018]
图1为本发明基于pso-ga-lstm模型的空气质量预测方法的流程图;
[0019]
图2为本发明基于pso-ga-lstm模型的空气质量预测方法中的pso优化lstm超参数流程图;
[0020]
图3为本发明基于pso-ga-lstm模型的空气质量预测方法中的ga优化lstm权值阈值流程图;
[0021]
图4为本发明基于pso-ga-lstm模型的空气质量预测方法中的单个lstm细胞结构图;
[0022]
图5为本发明基于pso-ga-lstm模型的空气质量预测方法中的aqi数据图;
[0023]
图6为本发明基于pso-ga-lstm模型的空气质量预测方法中的aqi预测结果图;
具体实施方式
[0024]
下面结合附图和具体实施方式对本发明进行详细说明。
[0025]
本发明基于pso-ga-lstm模型的空气质量预测方法,方法流程图如图1所示。包括以下步骤:
[0026]
步骤1,收集空气质量时间序列数据;
[0027]
步骤2,对步骤1获取的空气质量序列数据进行预处理操作;
[0028]
步骤3,根据步骤2所得空气质量序列数据,建立lstm网络模型,同时利用利用粒子群算法优化该lstm模型的超参数;
[0029]
步骤4,根据步骤2所得空气质量序列数据和步骤3所得超参数,建立lstm网络模型,利用遗传算法优化该lstm模型的权值阈值,得到pso-ga-lstm模型;
[0030]
步骤5,利用步骤4所得pso-ga-lstm模型对未来空气质量序列数据进行预测。
[0031]
步骤2中,对空气质量序列数据采用归一化处理方法进行预处理,将原始序列数据映射到[0,1]区间,具体方法是:先计算得序列数据的最大值和最小值,分别记为x
max
和x
min
;然后使用序列数据中的每个数据减去x
min
,再除以x
max-x
min
。
[0032]
步骤3中,利用粒子群算法对lstm模型的超参数优化的流程如图2所示,具体方法是:
[0033]
步骤3.1,确定lstm模型中待优化的超参数为时间窗口和隐藏层节点数。初始化参数:种群规模(粒子数量)m、最大迭代次数n
max
、、惯性权重w、粒子位置的边界x
max
和x
min
、粒子速度的范围v
max
和v
min
、加速因子c1和c2;
[0034]
步骤3.2,随机产生一个粒子种群,每个个体包括两个超参数:时间窗口和隐藏层节点数。
[0035]
步骤3.3,粒子群算法进行迭代,每次迭代中构建lstm模型具体方法包括输入层、隐藏层、输出层、网络训练以及网络预测5个功能模块。输入层负责对原始空气质量序列进行初步处理以满足网络输入要求,隐藏层搭建单层循环神经网络,输出层提供预测结果,网络预测模块采用迭代的方法逐点预测。首先在输入层中,定义已经归一化后的原始空气质量序列为fo={f1,f2,
…
,fn},则划分的训练集和测试集可以表示为f
tr
={f1,f2,
…
,fm}和f
te
={f
m+1
,f
m+2
,
…
,fn},其中m《n,并且m,n∈n。为了适应隐藏层输入的特点,应用数据分割的方法对f
tr
进行处理,设分割长度为l,则分割后的模型为x={x1,x2,
…
,x
l
},x
p
={f
p
,fp+1
,
…
,f
m-l+p-1
},并有1≤p≤l;p,l∈n。对应的期望输出为y={y1,y2,
…
,y
l
},y
p
={f
p+1
,f
p+2
,
…
,f
m-l+p
}。然后,将x输入隐藏层,隐藏层包含l个按前后时刻连接的同构lstm细胞,x经过隐藏层后的输出可以表示为p={p1,p2,
…
,p
l
},p
p
=lstm
forward
(x
p
,c
p-1
,h
p-1
),式中c
p-1
和h
p-1
分别为前一个lstm细胞的状态和输出;lstm
forward
表示lstm向前细胞计算方法。设定细胞状态向量大小为s
state
,则c
p-1
和h
p-1
两个向量的大小均为s
state
。隐藏层输出p、模型输入x和理论输出y均为维度为(m-l,l)的二维数组。选用均方误差作为误差计算公式,其中t表示时间,y
t
表示时刻t时的真实值,表示时刻t时的预测值。选用均方误差mse作为训练过程的损失函数,设定损失函数最小为优化目标,不断更新网络权重,进而得到最终的隐藏层网络。
[0036]
步骤3.4,粒子群算法迭代过程中利用全局最优个体和历史最佳个体调整当前个体的位置。
[0037]
步骤3.5,粒子群算法迭代结束后,比较全局最优个体和历史最佳个体,将误差最小的个体所代表的超参数作为lstm模型的最佳超参数。
[0038]
步骤4中,利用遗传算法优化该lstm模型的权值阈值的流程如图3所示,具体方法是:
[0039]
步骤4.1,根据步骤4所得最优超参数确定lstm模型的时间窗口大小和隐藏层节点数;
[0040]
步骤4.2,对lstm模型初始的权值阈值进行二进制编码,将模型预测误差作为各染色体的适应度值,同时初始化种群规模m和最大迭代次数n
max
等参数;
[0041]
步骤4.3,根据种群规模m产生指定数量的染色体;
[0042]
步骤4.4,迭代开始,利用遗传算法中的选择、交叉和变异操作来更新染色体,对更新后的染色体进行二进制解码,将解码后得到的新的权值阈值赋值给lstm模型;
[0043]
步骤4.5,若当前迭代次数达到种群最大迭代次数n
max
或者模型误差已经符合预期,则停止优化;
[0044]
步骤4.6,保存当前搜索到最优的权值阈值和对应的lstm模型,完成对lstm模型的优化,得到pso-ga-lstm模型;
[0045]
上述构建lstm模型并对于现有的数据进行训练并预测;构建lstm模型具体方法包括输入层、隐藏层、输出层、网络训练以及网络预测5个功能模块。输入层负责对原始序列进行初步处理以满足网络输入要求,隐藏层采用图4表示的lstm细胞搭建单层循环神经网络,输出层提供预测结果网络,网络预测采用迭代的方法逐点预测,隐藏层使用tanh函数作为激活函数。
[0046]
本实施例采用北京市2014-2016年中共计800天的空气质量检测数据。数据每日检测一次,包括aqi、pm2.5、pm10和so2等指标。其中aqi序列如图5所示,pso-ga-lstm模型在aqi序列中的预测结果如图6所示(为方便展示预测结果,等间隔20取点),不同模型的误差对比如表1所示,我们分别采用均方根误差rmse、平均绝对误差mae以及平均绝对百分比误差mape作为评价指标,分别如公式(3)(4)(5)所示,其中rmse为标准差,n为数据样本的个数,y
predictive
为预测值,y
true
为实际值。
[0047][0048][0049][0050]
表1不同模型的预测误差对比
[0051]
技术特征:
1.基于pso-ga-lstm模型的空气质量预测方法,其特征在于,包括以下步骤:步骤1,收集空气质量时间序列数据;步骤2,对步骤1获取的空气质量序列数据进行预处理操作;步骤3,根据步骤2所得空气质量序列数据,建立lstm网络模型,同时利用利用粒子群算法优化该lstm模型的超参数;步骤4,根据步骤2所得空气质量序列数据和步骤3所得超参数,建立lstm网络模型,利用遗传算法优化该lstm模型的权值阈值,得到pso-ga-lstm模型;步骤5,利用步骤4所得pso-ga-lstm模型对未来空气质量序列数据进行预测。2.根据权利要求1所述的基于pso-ga-lstm模型的空气质量预测方法,其特征在于,对序列数据采用归一化处理方法进行预处理,将原始序列数据映射到[0,1],具体方法是:先计算得序列数据的最大值和最小值,分别记为x
max
和x
min
;然后使用序列数据中的每个数据减去x
min
,再除以x
max-x
min
。3.根据权利要求1所述的基于pso-ga-lstm模型的空气质量预测方法,其特征在于,所述lstm模型包括输入层、隐藏层、输出层、网络训练以及网络预测模块;输入层负责对原始空气质量序列进行初步处理以满足网络输入要求,隐藏层采用lstm细胞搭建单层循环神经网络,输出层提供预测结果网络,网络预测采用迭代的方法逐点预测,所述隐藏层使用tanh作为激活函数。4.根据权利要求1所述的基于pso-ga-lstm模型的空气质量预测方法,其特征在于,利用粒子群算法优化lstm模型超参数的具体方法是:首先确定lstm模型中待优化的超参数为时间窗口和隐藏层节点数;然后初始化参数,包括种群规模m、最大迭代次数n
max
、、惯性权重w、粒子位置的边界x
max
和x
min
、粒子速度的范围v
max
和v
min
、加速因子c1和c2;随机产生一个粒子种群,每个个体包括两个超参数:时间窗口和隐藏层节点数。粒子群算法迭代过程中利用全局最优个体和历史最佳个体调整当前个体的位置;粒子群算法迭代结束后,获取lstm模型的最佳超参数。5.根据权利要求1所述的基于pso-ga-lstm模型的空气质量预测方法,其特征在于,利用遗传算法优化lstm模型权值阈值的具体方法是:初始化种群,对待优化的权值阈值进行二进制编码;迭代过程中若当前最大适应度值无显著变化或达到种群最大迭代次数,则停止优化;否则利用选择、交叉、变异操作,更新染色体,并将新的权值阈值赋值给lstm神经网络。6.根据权利要求1所述的基于pso-ga-lstm模型的空气质量预测方法,其特征在于,利用粒子群算法对lstm模型的超参数优化的,具体方法是:步骤3.1,确定lstm模型中待优化的超参数为时间窗口和隐藏层节点数;初始化参数:种群规模m、最大迭代次数n
max
、惯性权重w、粒子位置的边界x
max
和x
min
、粒子速度的范围v
max
和v
min
、加速因子c1和c2;步骤3.2,随机产生一个粒子种群,每个个体包括两个超参数:时间窗口和隐藏层节点数;步骤3.3,粒子群算法进行迭代,每次迭代中构建lstm模型具体方法包括输入层、隐藏层、输出层、网络训练以及网络预测5个功能模块;首先在输入层中,定义已经归一化后的原始空气质量序列为f
o
={f1,f2,
…
,f
n
},则划分
的训练集和测试集可以表示为f
tr
={f1,f2,
…
,f
m
}和f
te
={f
m+1
,f
m+2
,
…
,f
n
},其中m<n,并且m,n∈n;为了适应隐藏层输入的特点,应用数据分割的方法对f
tr
进行处理,设分割长度为l,则分割后的模型为x={x1,x2,
…
,x
l
},x
p
={f
p
,f
p+1
,
…
,f
m-l+p-1
},并有1≤p≤l;p,l∈n;对应的期望输出为y={y1,y2,
…
,y
l
},y
p
={f
p+1
,f
p+2
,
…
,f
m-l+p
};然后,将x输入隐藏层,隐藏层包含l个按前后时刻连接的同构lstm细胞,x经过隐藏层后的输出可以表示为p={p1,p2,
…
,p
l
},p
p
=lstm
forward
(x
p
,c
p-1
,h
p-1
),式中c
p-1
和h
p-1
分别为前一个lstm细胞的状态和输出;lstm
forward
表示lstm向前细胞计算方法;设定细胞状态向量大小为s
state
,则c
p-1
和h
p-1
两个向量的大小均为s
state
;隐藏层输出p、模型输入x和理论输出y均为维度为(m-l,l)的二维数组;选用均方误差作为误差计算公式,其中t表示时间,y
t
表示时刻t时的真实值,表示时刻t时的预测值;选用均方误差mse作为训练过程的损失函数,设定损失函数最小为优化目标,不断更新网络权重,进而得到最终的隐藏层网络;步骤3.4,粒子群算法迭代过程中利用全局最优个体和历史最佳个体调整当前个体的位置;步骤3.5,粒子群算法迭代结束后,比较全局最优个体和历史最佳个体,将误差最小的个体所代表的超参数作为lstm模型的最佳超参数。7.根据权利要求1所述的基于pso-ga-lstm模型的空气质量预测方法,其特征在于,步骤4中,利用遗传算法优化该lstm模型的权值阈值的具体方法是:步骤4.1,根据步骤4所得最优超参数确定lstm模型的时间窗口大小和隐藏层节点数;步骤4.2,对lstm模型初始的权值阈值进行二进制编码,将模型预测误差作为各染色体的适应度值,同时初始化种群规模m和最大迭代次数n
max
等参数;步骤4.3,根据种群规模m产生指定数量的染色体;步骤4.4,迭代开始,利用遗传算法中的选择、交叉和变异操作来更新染色体,对更新后的染色体进行二进制解码,将解码后得到的新的权值阈值赋值给lstm模型;步骤4.5,若当前迭代次数达到种群最大迭代次数n
max
或者模型误差已经符合预期,则停止优化;步骤4.6,保存当前搜索到最优的权值阈值和对应的lstm模型,完成对lstm模型的优化,得到pso-ga-lstm模型。
技术总结
本发明公开了基于PSO-GA-LSTM模型的空气质量预测方法,首先将序列数据进行预处理,然后利用粒子群算法优化LSTM模型超参数,从而确定LSTM模型的网络结构;利用遗传算法优化LSTM模型初始的权值阈值,确定LSTM模型的权值阈值。最后将利用最佳超参数和最佳权值阈值,建立LSTM模型,对空气质量时间序列数据进行训练并预测。本发明克服了传统的预测方法预测过程中精度不高的问题,且利用粒子群和遗传算法对LSTM参数进行优化,避免模型陷入局部最优解的问题,提高了预测收敛速度。最终实现了对空气质量时间序列的预测,更精确预测空气质量变化的趋势。的趋势。的趋势。
技术研发人员:王强 刘博 朱念 李建强 丁磊
受保护的技术使用者:北京工业大学
技术研发日:2023.03.25
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/