一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法

未命名 09-11 阅读:75 评论:0


1.本发明涉及机器学习和数据信息融合领域,特别涉及一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法。


背景技术:

2.近年来,森林火灾多发,高发的态势仍然没有被完全压制,仅2022年就发生森林火灾709起,受害森林面积4689.5公顷,而森林火灾通常由自然因素或人为因素引起,如闪电、干旱、高温、不慎使用火源或破坏性活动等。同时,森林火灾对环境和生态系统产生广泛而持久的影响。大面积的火灾破坏了森林植被,导致植物物种的丧失和生态系统的破坏。火灾释放出大量的二氧化碳,加剧了全球气候变化。此外,火灾还会影响空气质量,产生大量烟雾和有害气体,对周围地区的人们的健康造成威胁。
3.故而面对森林火灾发生时,如何合理预测火灾的发展轨迹,有效分配灭火资源,更快捷的阻止森林火灾继续蔓延是一个亟需解决的问题。但是,一方面森林火灾往往发生在复杂多变的自然环境中,包括地形、气候、植被等因素,当前的预测模型难以准确考虑和模拟这些复杂因素之间的相互作用;另一方面准确的火灾预测需要大量的实时数据,包括气象数据、植被状况、土壤湿度等数据,获取和整合这些数据面临诸多挑战,如数据稀疏性、缺乏传感器覆盖范围等,导致预测模型的输入数据不完整,影响了预测结果的准确性。


技术实现要素:

4.有鉴于此,本发明的目的是提供一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,主要融合多种来源的数据,基于深度强化学习技术准确预测森林火灾的轨迹。
5.本发明的目的是通过以下技术方案实现的:
6.该种基于深度强化学习并融合多数据源的森林火灾轨迹预测方法,包括以下步骤:
7.步骤s1:根据历史火灾数据,建立火灾数据库并对多数据源的数据进行预处理;
8.步骤s2:根据预处理后数据构建区域可燃性概率模型;
9.步骤s3:对多数据源的数据进行特征融合并归一化处理,构建立体式的网格化森林张量;
10.步骤s4:根据历史火灾数据库构建森林信息更新模型;
11.步骤s5:建立基于深度强化学习的火灾轨迹预测模型。
12.进一步所述步骤s1具体包括:
13.步骤s101:建立国内外近三年的根森林火灾数据库d={d0,d1,d2,

,dn},其中d0表示按时间顺序的第一个火灾事件;
14.步骤s102:收集根森林火灾数据库中每个火灾事件di中火灾前后的红外图、地理
图、气象图、环境数据图;设置时间步长为θ,以时间步为基准,对同一时间步确定唯一的红外图、地理图、气象图、环境数据图;
15.步骤s103:对森林的红外图进行网格化处理,构建成m*n的红外数据图,其中m表示图的长度,n表示图的宽度,森林面积为m*n平方米,令每平方米为一个网格,即构成m行n列的网格图,如对m行n列的红外数据图,将其中每个网格赋予对应温度值,进而转化成一个m*n的温度矩阵,如下:
[0016][0017]
上式中,tek表示k时刻的温度矩阵,同理可根据气象数据建立风向矩阵wdk、风速矩阵wvk、湿度矩阵huk、降水矩阵prk,根据地理数据建立坡度矩阵slk,根据环境数据建立林下可燃物平均载量矩阵auk、森林覆盖率fck、树种易燃性stk、草原覆盖率gck;
[0018]
步骤104:如果温度矩阵tek中存在缺失值或无效区域,使用数值估计法进行填充,具体操作为找到缺失值周围的四个数据值,形成一个矩形区域,计算缺失值相对于这四个已知点位置坐标,通过计算这四个已知点和位置坐标的加权平均值得到缺失值的估计值,若缺失值周围四个数据值中也有缺失值则找到缺失值前后的两个已知数据点,然后计算缺失值的位置相对于这两个已知点的比例,进而使用比例权重对这两个已知点的值进行计算,得到缺失值的估计值;同理可根据气象数据建立风向矩阵wdk、风速矩阵wvk、湿度矩阵huk、降水矩阵prk,根据地理数据建立坡度矩阵slk,根据环境数据建立林下可燃物平均载量矩阵auk、森林覆盖率fck、树种易燃性stk、草原覆盖率gck。
[0019]
进一步所述步骤s2具体包括:
[0020]
步骤s201:建立火灾可燃性指标体系,设置一级指标为森林火灾环境、森林火灾燃烧体,森林火灾环境指标下二级指标包括:降水量、地区温度、风速、湿度、林下可燃物平均载量,森林火灾燃烧体指标下二级指标包括:森林覆盖率、树种易燃性、草原覆盖率;
[0021]
步骤s202:利用指标之间的因果关系构建森林火灾因子因果网络,其中a,b节点对c节点有影响作用,则称a,b节点为父节点,c为子节点;
[0022]
步骤s203:使用森林火灾权重增益方法判断父节点对子节点的权重关系;
[0023]
步骤s204:利用s104中的温度矩阵tek、风速矩阵wvk、湿度矩阵huk、降水矩阵prk、林下可燃物平均载量矩阵auk、森林覆盖率fck、树种易燃性stk、草原覆盖率gck,对矩阵中同一网格内数据建立网格向量q
kij
=[te
kij
,wv
kij
,hu
kij
,pr
kij
,au
kij
,fc
kij
,st
kij
,gc
kij
],其中i表示网格的第i行,j表示网格的第j列,如q
kij
中的te
kij
表示取自tek矩阵中第i行、第j列的数据;
[0024]
步骤s205:使用森林火灾概率模型求解出每个网格区域内的可燃性概率值fpk,并建立可燃性概率矩阵,如下所示:
[0025]
[0026]
上式中,q
kmn
表示根据s204中网格向量q
kmn
求解出的可燃性概率值,m和n分别表示可燃性概率矩阵的行号和列号。
[0027]
进一步所述步骤s2中公式如下:
[0028][0029][0030]
ig(v,uj)=h(v)-h(v|uj)
[0031][0032][0033]
其中,h()表示随机变量(即父节点uj)的不确定性,uj表示父节点,i表示变量中的一个可能性事件,pi表示事件i的概率;h(v|uj)表示已知变量(即父节点uj)条件下变量(即子节点v)的不确定性,v表示子节点,xi、yi分别表示变量uj、v中的一个事件,n表示事件i的数量;ig()表示权重增益差;w
ij
表示父节点uj相对子节点v的权重,m表示父节点的数量;p(v|π(v))表示节点v在给定其父节点π(v)下的条件概率,π(v)表示父节点uj的集合。
[0034]
进一步所述步骤s3具体包括:
[0035]
步骤s301:以同经纬度的网格为向量点,根据s104中温度矩阵tek、湿度矩阵huk、风速矩阵wvk、风向矩阵wdk、坡度矩阵slk、可燃性概率矩阵fpk进行向量拼接,进而构建三维森林信息矩阵sk,其中森林信息矩阵sk如下:
[0036][0037]
上式中,每个网格点i
kmn
=[te
kmn
,hu
kmn
,wv
kmn
,wd
kmn
,sl
kmn
,q
kmn
],其中,m和n分别表示森林信息矩阵的行号和列号,te
kmn
表示m行n列的温度数据,hu
kmn
表示m行n列的湿度数据,wv
kmn
表示m行n列的风速数据,wd
kmn
,表示m行n列的风向数据,sl
kmn
表示m行n列的坡度数据,q
kmn
表示m行n列的可燃性概率值;
[0038]
步骤s302:对步骤s301中森林信息矩阵sk中温度信息进行分析,温度高于则表示发生火灾则赋值为0.5,可燃性概率低于χ则表示已发生过火灾则赋值为1,尚未发生火灾赋值为0,设置森林火灾状态矩阵yk;
[0039]
步骤s303:对网格点内温度数据、湿度数据、风速数据、风向数据、坡度数据进行归一化处理,其计算方法如下:
[0040][0041][0042][0043]
上式中,i∈(1,2,3),ori_val1表示原始温度值,min_val1和max_val1分别表示温
度最小值和最大值,nor_val1表示归一化的温度值;ori_val2表示原始湿度值,min_val2和max_val2分别表示湿度最小值和最大值,nor_val2表示归一化的湿度值;ori_val3表示原始风速值,min_val3和max_val3分别表示风速最小值和最大值,nor_val3表示归一化的风速值;ori_val4表示原始风向值,nor_val4表示归一化的风向值;ori_val5表示原始风向值,原始风向值若为正数则为上坡,若为负数则为下坡,nor_val5表示归一化的风向值,归一化后nor_val5∈{0,0.5)为下坡,nor_val5∈{0.5,1}为上坡。
[0044]
进一步所述步骤s4具体包括:
[0045]
步骤s401:对步骤s302中归一化的森林信息三维张量sk进行降维,以广度优先从左上角第一位数开始,抽取横纵坐标作为网格信息构成二维向量序列s
k1
,其中每个向量包含横坐标、纵坐标、温度值、湿度值、风速值、风向值、坡度值、可燃性概率值;
[0046]
步骤s402:设定卷积核即权重矩阵w
c1
,然后用滑动窗口以一定步幅step对s401步骤的向量序列s
k1
进行滑动,每次滑动都将窗口覆盖的数据与卷积核进行逐元素的乘法操作得到标量值,该标量值作为森林信息的特征图中的一个元素,进而获得森林信息特征图s
k1*

[0047]
步骤s403:利用最大池化的方式对步骤s402中的森林信息特征图进行信息过滤,防止过拟合;同时使用激活函数将森林信息特征图s
k1*
中的负值变为零,且保留正值,得到激活后的森林信息特征图s
k2

[0048]
步骤s404:将当前时间步下的森林信息特征图s
k2
作为输入传递给前向门控循环单元,再输入到后向门控循环单元,然后分别得到前向森林信息隐藏状态向量序列s
k2q
与后向森林信息隐藏状态向量序列s
k2h
,进而将前向与后向森林信息隐藏状态向量序列拼接成当前时间步下森林信息隐藏状态向量序列s
k3

[0049]
步骤s405:对s404中当前时间步下森林信息隐藏状态向量序列s
k3
与每个位置的注意力参数进行相似度计算得到相似度得分;进而对相似度得分归一化处理,确保权重之后为1;最后将注意力权重与不同时间步的森林信息隐藏状态向量序列进行加权求和,得到森林信息向量序列s
k4

[0050]
步骤s406:对步骤s405获得的森林信息向量序列s
k4
利用激活函数计算森林火灾状况更新后的预测值s
k5
;然后对预测值进行反归一化操作得到更新后的森林信息向量序列s
k5*
;最后对更新后的森林信息向量序列s
k5*
进行升维操作得到更新后的森林信息三维张量s
k*

[0051]
进一步所述步骤s402和s403中计算公式如下:
[0052][0053]sk2
=σ(s
k1*
·wc2
+b1)
[0054]
上式中,s
k1*
表示森林信息特征图,s
k1
表示输入数据,即森林信息二维向量序列,w
c1
表示权重矩阵,b0表示偏置项,表示卷积操作;σ()表示sigmoid激活函数,s
k1*
表示森林信息特征图中的一个特征向量,w
c2
表示权重矩阵,b1表示偏置项,s
k2
表示激活后的森林信息特征图的一个特征向量;
[0055]
所述步骤s404中计算公式如下:
[0056]zt
=σ(w
g1
·sk2
+e
g1
·sk2q-1
)
[0057]rt
=σ(w
g2
·sk2
+e
g2
·sk2q-1
)
[0058]sk2g
=tanh(r
t
·eg3
·sk2q-1
+w
g3
·sk2
)
[0059]sk2q
=z
t
·sk2g
+(1-z
t
)
·sk2q-1
[0060]
上式中,z
t
表示更新门,w
g1
、e
g1
分别表示森林信息特征图的权重矩阵和前向隐藏层状态的权重矩阵,s
k2q-1
表示前向隐藏层状态中的向量;r
t
表示重置门,w
g2
、e
g2
分别表示森林信息特征图的权重矩阵和前向隐藏层状态的权重矩阵;s
k2g
表示当前候选集状态中的向量,tanh()表示激活函数,w
g3
、e
g3
表示权重矩阵,s
k2q
表示前向森林信息隐藏状态向量序列s
k2q
中的一个向量;
[0061]
所述步骤s405和s406中计算公式如下:
[0062]ek
=vk·
tanh(w
a1
·sk3
+e
a1
·sk3-1
)
[0063][0064][0065]sk5
=σ(w
q1
·sk4
+b2)
[0066]
上式中,ek表示k时刻的森林信息隐藏状态相似度得分,s
k3
表示森林信息隐藏状态向量序列s
k3
中一个向量,s
k3-1
表示森林信息隐藏状态向量序列s
k3
上一时间步向量序列中的向量,vk、w
a1
、e
a1
表示权重参数;wk表示k时刻双向循环层输出值对应注意力机制的权重;wj表示从1到j时间步中其中一个时间步的权重,表示某一时间步中森林信息隐藏状态向量序列s
k3
的一个向量,s
k4
表示经过注意力机制层输出的森林信息向量序列的一个向量;s
k5
表示森林火灾状况更新后的预测值s
k5
中的一个向量,w
q1
表示权重矩阵,b2表示偏置项。
[0067]
进一步所述步骤s5具体包括:
[0068]
步骤s501:以未发生森林火灾时森林信息三维张量s0作为当前状态空间,根据步骤s406更新后的森林信息三维张量s
k*
与对应时间步下真实的森林信息三维张量之间的差值作为奖励,根据步骤s302获得的森林火灾状态矩阵yk,抽取矩阵元素值为0.5(即正发生火灾的网格)附近一格内值为0(未发生火灾的网格)的坐标位置,建立可燃矩阵矩阵yk*作为动作空间;
[0069]
步骤s502:将当前状态空间作为输入,通过前向传播,得到选择每个动作对应的预期回报即g值,并选择g值最大的对应动作作为当前状态的动作;
[0070]
步骤s503:执行火灾体动作并观察火灾燃烧奖励,根据步骤s4的森林信息更新模型,将燃烧动作后更新的森林信息张量作为下一状态空间;
[0071]
步骤s504:将当前状态、选择的动作、观察到的奖励和下一个状态存储在经验回放缓冲区中并计算目标g值;
[0072]
步骤s505:通过损失计算、反向传播来更新模型参数,最终建立森林火灾轨迹预测模型。
[0073]
进一步所述步骤s5中计算公式如下:
[0074][0075]
g(l,a)=λ*g

(l,a)+(1-λ)*g

(l,a)*p(l,a)
[0076]
上式中,λ∈(0,1),表示权重值,l表示状态空间,a表示动作空间,p(l,a)表示在状
态l下选择动作a的概率,c表示在状态l下选择动作a的次数;g

(l,a)表示动作价值函数,g(l,a)表示更新后的动作价值函数;
[0077]dd
=∑
i,j,d
|t

ijd-t
ijd
|
[0078]rk
=w
kte
*d1+w
khu
*d2+w
kwv
*d3+w
kwd
*d4+w
ksl
*d5+w
kq
*d6[0079]
上式中,i表示森林网格的横坐标,j表示森林网格的纵坐标,d表示网格内不同元素数据,其中d=1时表示温度数据,d=2时表示湿度数据,d=3时表示风速数据,d=4时表示风向数据,d=5时表示坡度数据,d=6时表示可燃性概率数据,dd表示网格内更新后的森林信息t

ijd
与真实森林信息t
ijd
之间的差值;w
kte
、w
khu
、w
kwv
、w
kwd
、w
ksl
、w
kq
分别表示温度数据、湿度数据、风速数据、风向数据、坡度数据、可燃性概率数据的权重值,rk表示时间步k的即时奖励;
[0080]rk-1
=rk+γ*maxa(g(l,a))
[0081]
上式中,r
k-1
表示时间步k-1的森林火灾轨迹预测目标值,即上一状态下选择动作后所期望的累积回报,γ表示折扣因子,用于衡量当前奖励和未来奖励的重要性,maxa()表示在状态l下,选择动作a的最大动作价值。
[0082]
本发明的有益效果包括:
[0083]
(1)本发明引入了森林信息三维张量的概念,将森林环境相关的各种信息以结构化的形式存储在计算机设备中。这种三维张量的形式可以有效地整合和表示多种数据,如温度、湿度、坡度、风速、降水等,可以全面地反映森林的状态和环境条件。通过采用三维张量的结构形式,能够充分考虑到森林火灾的相关因素,避免因为数据不完整或缺失而导致预测准确性的问题,例如,温度、湿度和风速等因素对火灾的发展和蔓延具有重要影响,而这些因素可以被整合到三维张量中,并与其他因素结合进行关联分析;
[0084]
(2)本发明引入了森林火灾因子因果网络的概念,旨在有效评估森林火灾影响因素之间的关系,通过建立因果网络图,可以揭示各个指标节点对其子节点的影响程度,从而建立森林火灾概率模型。这种概率模型可以更准确地计算森林每个区域的可燃性概率值,并为下一步的处理操作提供便利;
[0085]
(3)本发明使用卷积模型可以接受多通道的输入数据,每个通道对应一个特定的信息源。在森林信息更新模型中,可以将不同的森林数据信息作为不同的通道输入到模型中进行训练。此外,还可以通过卷积和池化操作捕捉输入数据的局部特征。在森林信息更新模型中,学习模型可以感知和关注森林中的局部变化和细节,如局部的温度变化、植被覆盖情况等,这有助于更准确地检测和预测森林中的变化和风险;
[0086]
(4)本发明在森林信息更新模型中引入双向门控层,可以使模型同时考虑前向和后向的序列信息,能够更全面地理解和处理输入数据。在森林信息更新模型中,双向信息的融合可以帮助模型更好地理解森林数据中的时序变化和趋势,例如,通过前向信息可以捕捉到温度的升高趋势,而通过后向信息可以捕捉到湿度的下降趋势,综合考虑这些信息可以更准确地预测火灾的发生概率;
[0087]
(5)本发明在森林信息更新模型中引入注意力机制,可以使模型自动学习并分配不同特征或上下文之间的权重,根据其对当前任务的重要性进行加权。在森林信息更新模型中,通过注意力机制可以自动选择和聚焦在与当前时刻有关的关键信息,例如,在预测森林火灾风险时,注意力机制可以自动关注与火灾相关的温度、湿度和植被指数等关键特征;
[0088]
(6)本发明使用深度强化学习进行火灾轨迹的预测,强化了模型的学习和优化能力,在火灾轨迹预测中,可以通过与实际环境进行交互,根据环境的反馈来优化预测策略,逐步提高模型的准确性和效果。其次火灾轨迹预测涉及到一定的不确定性,因为火灾受到多种因素的影响,包括天气、地形、植被等。引入深度强化学习可以通过建立模型和进行随机探索,有效地处理不确定性,模型可以通过不断与环境的交互来获取更多的经验,并且可以学习到合理的策略来应对不同的不确定性情况。
[0089]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
[0090]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
[0091]
图1为本发明一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法流程示意图;
[0092]
图2为本发明实施例森林火灾红外元数据图;
[0093]
图3为本发明实施例森林火灾因子因果网络图;
[0094]
图4为本发明实施例森林火灾轨迹预测模型图;
[0095]
图5为本发明实施例森林火灾轨迹预测结果图。
具体实施方式
[0096]
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
[0097]
如图1所示,本发明的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,包括如下步骤:
[0098]
步骤s1:根据历史火灾数据,建立火灾数据库并对多数据源的数据进行预处理;
[0099]
步骤s2:根据预处理后数据构建区域可燃性概率模型;
[0100]
步骤s3:对多数据源的数据进行特征融合并归一化处理,构建立体式的网格化森林张量;
[0101]
步骤s4:根据历史火灾数据库构建森林信息更新模型;
[0102]
步骤s5:建立基于深度强化学习的火灾轨迹预测模型。
[0103]
以下的实施例中,将针对各步骤进行进一步的更为详细的说明,其中,步骤s1具体包括:
[0104]
步骤s101:建立国内外近三年的根森林火灾数据库d={d0,d1,d2,

,dn},其中d0表示按时间顺序的第一个火灾事件;
[0105]
步骤s102:收集根森林火灾数据库中每个火灾事件di中火灾前后的红外图、地理图、气象图、环境数据图;设置时间步长为θ,以时间步为基准,对同一时间步确定唯一的红外图、地理图、气象图、环境数据图,红外图如图2;
[0106]
步骤s103:对森林的红外图进行网格化处理,构建成m*n的红外数据图,其中m表示图的长度,n表示图的宽度,森林面积为m*n平方米,令每平方米为一个网格,即构成m行n列的网格图,如对m行n列的红外数据图,将其中每个网格赋予对应温度值,进而转化成一个m*n的温度矩阵,如下:
[0107][0108]
上式中,tek表示k时刻的温度矩阵,同理可根据气象数据建立风向矩阵wdk、风速矩阵wvk、湿度矩阵huk、降水矩阵prk,根据地理数据建立坡度矩阵slk,根据环境数据建立林下可燃物平均载量矩阵auk、森林覆盖率fck、树种易燃性stk、草原覆盖率gck;
[0109]
步骤104:如果温度矩阵tek中存在缺失值或无效区域,使用数值估计法进行填充,具体操作为找到缺失值周围的四个数据值,形成一个矩形区域,计算缺失值相对于这四个已知点位置坐标,通过计算这四个已知点和位置坐标的加权平均值得到缺失值的估计值,若缺失值周围四个数据值中也有缺失值则找到缺失值前后的两个已知数据点,然后计算缺失值的位置相对于这两个已知点的比例,进而使用比例权重对这两个已知点的值进行计算,得到缺失值的估计值;同理可根据气象数据建立风向矩阵wdk、风速矩阵wvk、湿度矩阵huk、降水矩阵prk,根据地理数据建立坡度矩阵slk,根据环境数据建立林下可燃物平均载量矩阵auk、森林覆盖率fck、树种易燃性stk、草原覆盖率gck,如对温度矩阵:
[0110][0111]
可使用数值估计法得到:
[0112][0113]
上述计算过程为:(29.2+27.9+27.3+27.6)/4≈28.1。
[0114]
本实施例中,所述步骤s2具体包括:
[0115]
步骤s201:建立火灾可燃性指标体系,设置一级指标为森林火灾环境、森林火灾燃烧体,森林火灾环境指标下二级指标包括:降水量、地区温度、风速、湿度、林下可燃物平均载量,森林火灾燃烧体指标下二级指标包括:森林覆盖率、树种易燃性、草原覆盖率;
[0116]
步骤s202:利用指标之间的因果关系构建森林火灾因子因果网络,其中a,b节点对c节点有影响作用,则称a,b节点为父节点,c为子节点,森林火灾因子因果网络如图3;
[0117]
步骤s203:使用森林火灾权重增益方法判断父节点对子节点的权重关系,以图3中树种易燃性为例,其父节点集为{地区温度,森林火险温度指数},权重分别为{0.3,0.7};
[0118]
步骤s204:利用s104中的温度矩阵tek、风速矩阵wvk、湿度矩阵huk、降水矩阵prk、林下可燃物平均载量矩阵auk、森林覆盖率fck、树种易燃性stk、草原覆盖率gck,对矩阵中同一网格内数据建立网格向量q
kij
=[te
kij
,wv
kij
,hu
kij
,pr
kij
,au
kij
,fc
kij
,st
kij
,gc
kij
],其中i表示网格的第i行,j表示网格的第j列,如q
kij
中的te
kij
表示取自tek矩阵中第i行、第j列的数据;
[0119]
步骤s205:使用森林火灾概率模型求解出每个网格区域内的可燃性概率值fpk,并建立可燃性概率矩阵,如下所示:
[0120][0121]
上式中,q
kmn
表示根据s204中网格向量q
kmn
求解出的可燃性概率值,m和n分别表示可燃性概率矩阵的行号和列号。
[0122]
步骤s2中的公式如下:
[0123][0124][0125]
ig(v,uj)=h(v)-h(v|uj)
[0126][0127][0128]
其中,h()表示随机变量(即父节点uj)的不确定性,uj表示父节点,i表示变量中的一个可能性事件,pi表示事件i的概率;h(v|uj)表示已知变量(即父节点uj)条件下变量(即子节点v)的不确定性,v表示子节点,xi、yi分别表示变量uj、v中的一个事件,n表示事件i的数量;ig()表示权重增益差;w
ij
表示父节点uj相对子节点v的权重,m表示父节点的数量;p(v|π(v))表示节点v在给定其父节点π(v)下的条件概率,π(v)表示父节点uj的集合。
[0129]
本实施例中,步骤s3具体包括:
[0130]
步骤s301:以同经纬度的网格为向量点,根据s104中温度矩阵tek、湿度矩阵huk、风速矩阵wvk、风向矩阵wdk、坡度矩阵slk、可燃性概率矩阵fpk进行向量拼接,进而构建三维森林信息矩阵sk,其中森林信息矩阵sk如下:
[0131][0132]
上式中,每个网格点i
kmn
=[te
kmn
,hu
kmn
,wv
kmn
,wd
kmn
,sl
kmn
,q
kmn
],其中,m和n分别表示森林信息矩阵的行号和列号,te
kmn
表示m行n列的温度数据,hu
kmn
表示m行n列的湿度数据,wv
kmn
表示m行n列的风速数据,wd
kmn
,表示m行n列的风向数据,sl
kmn
表示m行n列的坡度数据,q
kmn
表示m行n列的可燃性概率值,如某网格内数据信息为i=[28.1,0.3,10.8,120,15,0.4];
[0133]
步骤s302:对步骤s301中森林信息矩阵sk中温度信息进行分析,温度高于200度则表示发生火灾则赋值为0.5,可燃性概率低于0.2则表示已发生过火灾则赋值为1,尚未发生火灾赋值为0,设置森林火灾状态矩阵yk,如森林火灾状态矩阵有:
[0134][0135]
步骤s303:对网格点内温度数据、湿度数据、风速数据、风向数据、坡度数据进行归一化处理,其计算方法如下:
[0136][0137][0138][0139]
上式中,i∈(1,2,3),ori_val1表示原始温度值,min_val1和max_val1分别表示温度最小值和最大值,nor_val1表示归一化的温度值;ori_val2表示原始湿度值,min_val2和max_val2分别表示湿度最小值和最大值,nor_val2表示归一化的湿度值;ori_val3表示原始风速值,min_val3和max_val3分别表示风速最小值和最大值,nor_val3表示归一化的风速值;ori_val4表示原始风向值,nor_val4表示归一化的风向值;ori_val5表示原始风向值,原始风向值若为正数则为上坡,若为负数则为下坡,nor_val5表示归一化的风向值,归一化后nor_val5∈{0,0.5)为下坡,nor_val5∈{0.5,1}为上坡,如对s301中数据进行归一化可得∈{0.5,1}为上坡,如对s301中数据进行归一化可得
[0140]
本实施例中,步骤s4具体包括:
[0141]
步骤s401:对步骤s302中归一化的森林信息三维张量sk进行降维,以广度优先从左上角第一位数开始,抽取横纵坐标作为网格信息构成二维向量序列s
k1
,其中每个向量包含横坐标、纵坐标、温度值、湿度值、风速值、风向值、坡度值、可燃性概率值;
[0142]
步骤s402:设定卷积核即权重矩阵w
c1
,然后用滑动窗口以一定步幅step对s401步骤的向量序列s
k1
进行滑动,每次滑动都将窗口覆盖的数据与卷积核进行逐元素的乘法操作得到标量值,该标量值作为森林信息的特征图中的一个元素,进而获得森林信息特征图s
k1*

[0143]
步骤s403:利用最大池化的方式对步骤s402中的森林信息特征图进行信息过滤,防止过拟合;同时使用激活函数将森林信息特征图s
k1*
中的负值变为零,且保留正值,得到激活后的森林信息特征图s
k2

[0144]
步骤s404:将当前时间步下的森林信息特征图s
k2
作为输入传递给前向门控循环单元,再输入到后向门控循环单元,然后分别得到前向森林信息隐藏状态向量序列s
k2q
与后向森林信息隐藏状态向量序列s
k2h
,进而将前向与后向森林信息隐藏状态向量序列拼接成当前时间步下森林信息隐藏状态向量序列s
k3

[0145]
步骤s405:对s404中当前时间步下森林信息隐藏状态向量序列s
k3
与每个位置的注意力参数进行相似度计算得到相似度得分;进而对相似度得分归一化处理,确保权重之后为1;最后将注意力权重与不同时间步的森林信息隐藏状态向量序列进行加权求和,得到森林信息向量序列s
k4

[0146]
步骤s406:对步骤s405获得的森林信息向量序列s
k4
利用激活函数计算森林火灾状况更新后的预测值s
k5
;然后对预测值进行反归一化操作得到更新后的森林信息向量序列sk5*
;最后对更新后的森林信息向量序列s
k5*
进行升维操作得到更新后的森林信息三维张量s
k*

[0147]
本实施例中,步骤s402和s403中公式如下:
[0148][0149]sk2
=σ(s
k1*
·wc2
+b1)
[0150]
上式中,s
k1*
表示森林信息特征图,s
k1
表示输入数据,即森林信息二维向量序列,w
c1
表示权重矩阵,b0表示偏置项,表示卷积操作;σ()表示sigmoid激活函数,s
k1*
表示森林信息特征图中的一个特征向量,w
c2
表示权重矩阵,b1表示偏置项,s
k2
表示激活后的森林信息特征图的一个特征向量;
[0151]
所述步骤s404中计算公式如下:
[0152]zt
=σ(w
g1
·sk2
+e
g1
·sk2q-1
)
[0153]rt
=σ(w
g2
·sk2
+e
g2
·sk2q-1
)
[0154]sk2g
=tanh(r
t
·eg3
·sk2q-1
+w
g3
·sk2
)
[0155]sk2q
=z
t
·sk2g
+(1-z
t
)
·sk2q-1
[0156]
上式中,z
t
表示更新门,w
g1
、e
g1
分别表示森林信息特征图的权重矩阵和前向隐藏层状态的权重矩阵,s
k2q-1
表示前向隐藏层状态中的向量;r
t
表示重置门,w
g2
、e
g2
分别表示森林信息特征图的权重矩阵和前向隐藏层状态的权重矩阵;s
k2g
表示当前候选集状态中的向量,tanh()表示激活函数,w
g3
、e
g3
表示权重矩阵,s
k2q
表示前向森林信息隐藏状态向量序列s
k2q
中的一个向量;
[0157]
所述步骤s405和s406中计算公式如下:
[0158]ek
=vk·
tanh(w
a1
·sk3
+e
a1
·sk3-1
)
[0159][0160][0161]sk5
=σ(w
q1
·sk4
+b2)
[0162]
上式中,ek表示k时刻的森林信息隐藏状态相似度得分,s
k3
表示森林信息隐藏状态向量序列s
k3
中一个向量,s
k3-1
表示森林信息隐藏状态向量序列s
k3
上一时间步向量序列中的向量,vk、w
a1
、e
a1
表示权重参数;wk表示k时刻双向循环层输出值对应注意力机制的权重;wj表示从1到j时间步中其中一个时间步的权重,表示某一时间步中森林信息隐藏状态向量序列s
k3
的一个向量,s
k4
表示经过注意力机制层输出的森林信息向量序列的一个向量;s
k5
表示森林火灾状况更新后的预测值s
k5
中的一个向量,w
q1
表示权重矩阵,b2表示偏置项。
[0163]
本实施例中,步骤s5具体包括:
[0164]
步骤s501:以未发生森林火灾时森林信息三维张量s0作为当前状态空间,根据步骤s406更新后的森林信息三维张量s
k*
与对应时间步下真实的森林信息三维张量之间的差值作为奖励,根据步骤s302获得的森林火灾状态矩阵yk,抽取矩阵元素值为0.5(即正发生火灾的网格)附近一格内值为0(未发生火灾的网格)的坐标位置,建立可燃矩阵矩阵yk*作为动作空间,根据步骤s302得到的动作空间为:[[0,0],[0,2],[2,0],[2,2]];
[0165]
步骤s502:将当前状态空间作为输入,通过前向传播,得到选择每个动作对应的预期回报即g值,并选择g值最大的对应动作作为当前状态的动作;
[0166]
步骤s503:执行火灾体动作并观察火灾燃烧奖励,根据步骤s4的森林信息更新模型,将燃烧动作后更新的森林信息张量作为下一状态空间;
[0167]
步骤s504:将当前状态、选择的动作、观察到的奖励和下一个状态存储在经验回放缓冲区中并计算目标g值;
[0168]
步骤s505:通过损失计算、反向传播来更新模型参数,最终建立森林火灾轨迹预测模型,模型全流程如图4,模型预测的下一时刻森林火灾轨迹如图5,其中红色箭头表示森林火灾轨迹方向。
[0169]
本实施例中,步骤s5中计算公式如下:
[0170][0171]
g(l,a)=λ*g

(l,a)+(1-λ)*g

(l,a)*p(l,a)
[0172]
上式中,λ∈(0,1),表示权重值,l表示状态空间,a表示动作空间,p(l,a)表示在状态l下选择动作a的概率,c表示在状态l下选择动作a的次数;g

(l,a)表示动作价值函数,g(l,a)表示更新后的动作价值函数;
[0173]dd
=∑
i,j,d
|t

ijd-t
ijd
|
[0174]rk
=w
kte
*d1+w
khu
*d2+w
kwv
*d3+w
kwd
*d4+w
ksl
*d5+w
kq
*d6[0175]
上式中,i表示森林网格的横坐标,j表示森林网格的纵坐标,d表示网格内不同元素数据,其中d=1时表示温度数据,d=2时表示湿度数据,d=3时表示风速数据,d=4时表示风向数据,d=5时表示坡度数据,d=6时表示可燃性概率数据,dd表示网格内更新后的森林信息t

ijd
与真实森林信息t
ijd
之间的差值;w
kte
、w
khu
、w
kwv
、w
kwd
、w
ksl
、w
kq
分别表示温度数据、湿度数据、风速数据、风向数据、坡度数据、可燃性概率数据的权重值,rk表示时间步k的即时奖励,如:当真实的森林信息数据t
ijd
中温度数据为0.571、湿度数据为0.3、风速数据为0.054、风向数据为0.33、坡度数据为0.583、可燃性概率数据为0.4,更新后的森林信息t

ijd
中温度数据为0.56、湿度数据为0.25、风速数据为0.05、风向数据为0.3、坡度数据为0.57、可燃性概率数据为0.4,则温度差值d1为0.011、湿度差值d2为0.05、风速差值d3为0.004、风向差值d4为0.03、坡度差值d5为0.013、可燃性概率差值d6为0,假设温度权重w
kte
为0.3、湿度权重w
khu
为0.5、风速权重w
kwv
为0.2、风向权重w
kwd
为0.1、坡度权重w
ksl
为0.4、可燃性概率权重w
kq
为0.6,则可以求出即时奖励:
[0176]rk
=0.011*0.3+0.05*0.5+0.004*0.2+0.03*0.1+0.013*0.4+0*0.6=0.0373
[0177]rk-1
=rk+γ*maxa(g(l,a))
[0178]
上式中,r
k-1
表示时间步k-1的森林火灾轨迹预测目标值,即上一状态下选择动作后所期望的累积回报,γ表示折扣因子,用于衡量当前奖励和未来奖励的重要性,maxa()表示在状态l下,选择动作a的最大动作价值,例如:在当前状态l下选择动作a的最大预测火灾发生概率为0.8,折扣因子为0.9(即未来奖励比当前的奖励稍微重一些),在时间步k时,即时奖励为0.0373,计算可得在r
k-1
=0.0373+0.8*0.9=0.7573。
[0179]
基于对现有森林火灾轨迹模型的研究和对森林火灾现状的调研,本发明提出了一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法。该方法的优势在于综合考虑
了多种数据源的信息,使得预测模型更加全面和准确。通过对多种数据的分析和融合,可以更好地理解和模拟火灾发展的复杂因素,如气候变化、地形起伏、植被密度等。这有助于提高火灾预测的精度和可靠性,使灭火资源能够更加精准地分配和调度。此外,该方法利用深度强化学习机制,通过建立一个强化学习智能体来模拟和预测森林火灾的发展轨迹,该智能体可以从多个数据源中获取信息,包括气象数据、地形数据、植被数据、历史火灾数据等,进而全面了解火灾发生地区的环境状况。同时,在森林火灾预测中,智能体通过观察当前环境状态和分析已知的历史数据,选择最佳的行动来预测火灾的演变轨迹。
[0180]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

技术特征:
1.一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:包括以下步骤:步骤s1:根据历史火灾数据,建立火灾数据库并对多数据源的数据进行预处理;步骤s2:根据预处理后数据构建区域可燃性概率模型;步骤s3:对多数据源的数据进行特征融合并归一化处理,构建立体式的网格化森林张量;步骤s4:根据历史火灾数据库构建森林信息更新模型;步骤s5:建立基于深度强化学习的火灾轨迹预测模型。2.根据权利要求1所述的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:所述步骤s1具体包括:步骤s101:建立国内外近三年的根森林火灾数据库d={d0,d1,d2,

,d
n
},其中d0表示按时间顺序的第一个火灾事件;步骤s102:收集根森林火灾数据库中每个火灾事件d
i
中火灾前后的红外图、地理图、气象图、环境数据图;设置时间步长为θ,以时间步为基准,对同一时间步确定唯一的红外图、地理图、气象图、环境数据图;步骤s103:对森林的红外图进行网格化处理,构建成m*n的红外数据图,其中m表示图的长度,n表示图的宽度,森林面积为m*n平方米,令每平方米为一个网格,即构成m行n列的网格图,如对m行n列的红外数据图,将其中每个网格赋予对应温度值,进而转化成一个m*n的温度矩阵,如下:上式中,te
k
表示k时刻的温度矩阵,同理可根据气象数据建立风向矩阵wd
k
、风速矩阵wv
k
、湿度矩阵hu
k
、降水矩阵pr
k
,根据地理数据建立坡度矩阵sl
k
,根据环境数据建立林下可燃物平均载量矩阵au
k
、森林覆盖率fc
k
、树种易燃性st
k
、草原覆盖率gc
k
;步骤104:如果温度矩阵te
k
中存在缺失值或无效区域,使用数值估计法进行填充,具体操作为找到缺失值周围的四个数据值,形成一个矩形区域,计算缺失值相对于这四个已知点位置坐标,通过计算这四个已知点和位置坐标的加权平均值得到缺失值的估计值,若缺失值周围四个数据值中也有缺失值则找到缺失值前后的两个已知数据点,然后计算缺失值的位置相对于这两个已知点的比例,进而使用比例权重对这两个已知点的值进行计算,得到缺失值的估计值;同理可根据气象数据建立风向矩阵wd
k
、风速矩阵wv
k
、湿度矩阵hu
k
、降水矩阵pr
k
,根据地理数据建立坡度矩阵sl
k
,根据环境数据建立林下可燃物平均载量矩阵au
k
、森林覆盖率fc
k
、树种易燃性st
k
、草原覆盖率gc
k
。3.根据权利要求1所述的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:所述步骤s2具体包括:步骤s201:建立火灾可燃性指标体系,设置一级指标为森林火灾环境、森林火灾燃烧体,森林火灾环境指标下二级指标包括但不限于:降水量、地区温度、风速、湿度、林下可燃物平均载量,森林火灾燃烧体指标下二级指标包括但不限于:森林覆盖率、树种易燃性、草
原覆盖率;步骤s202:利用指标之间的因果关系构建森林火灾因子因果网络,其中a,b节点对c节点有影响作用,则称a,b节点为父节点,c为子节点;步骤s203:使用森林火灾权重增益方法判断父节点对子节点的权重关系;步骤s204:利用s104中的温度矩阵te
k
、风速矩阵wv
k
、湿度矩阵hu
k
、降水矩阵pr
k
、林下可燃物平均载量矩阵au
k
、森林覆盖率fc
k
、树种易燃性st
k
、草原覆盖率gc
k
,对矩阵中同一网格内数据建立网格向量q
kij
=[te
kij
,wv
kij
,hu
kij
,pr
kij
,au
kij
,fc
kij
,st
kij
,gc
kij
],其中i表示网格的第i行,j表示网格的第j列,如q
kij
中的te
kij
表示取自te
k
矩阵中第i行、第j列的数据;步骤s205:使用森林火灾概率模型求解出每个网格区域内的可燃性概率值fp
k
,并建立可燃性概率矩阵,如下所示:上式中,q
kmn
表示根据s204中网格向量q
kmn
求解出的可燃性概率值,m和n分别表示可燃性概率矩阵的行号和列号。4.根据权利要求3所述的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:所述步骤s2中计算公式如下:法,其特征在于:所述步骤s2中计算公式如下:ig(v,u
j
)=h(v)-h(v|u
j
))其中,h()表示随机变量(即父节点u
j
)的不确定性,u
j
表示父节点,i表示变量中的一个可能性事件,p
i
表示事件i的概率;h(v|u
j
)表示已知变量(即父节点u
j
)条件下变量(即子节点v)的不确定性,v表示子节点,x
i
、y
i
分别表示变量u
j
、v中的一个事件,n表示事件i的数量;ig()表示权重增益差;w
ij
表示父节点u
j
相对子节点v的权重,m表示父节点的数量;p(v|π(v))表示节点v在给定其父节点π(v)下的条件概率,π(v)表示父节点u
j
的集合。5.根据权利要求1所述的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:所述步骤s3具体包括:步骤s301:以同经纬度的网格为向量点,根据s104中温度矩阵te
k
、湿度矩阵hu
k
、风速矩阵wv
k
、风向矩阵wd
k
、坡度矩阵sl
k
、可燃性概率矩阵fp
k
进行向量拼接,进而构建三维森林信息矩阵s
k
,其中森林信息矩阵s
k
表示如下:
上式中,每个网格点i
kmn
=[te
kmn
,hu
kmn
,wv
kmn
,wd
kmn
,sl
kmn
,q
kmn
],其中,m和n分别表示森林信息矩阵的行号和列号,te
kmn
表示m行n列的温度数据,hu
kmn
表示m行n列的湿度数据,wv
kmn
表示m行n列的风速数据,wd
kmn
,表示m行n列的风向数据,sl
kmn
表示m行n列的坡度数据,q
kmn
表示m行n列的可燃性概率值;步骤s302:对步骤s301中森林信息矩阵s
k
中温度信息进行分析,温度高于则表示发生火灾则赋值为0.5,可燃性概率低于χ则表示已发生过火灾则赋值为1,尚未发生火灾赋值为0,设置森林火灾状态矩阵y
k
;步骤s303:对网格点内温度数据、湿度数据、风速数据、风向数据、坡度数据进行归一化处理,其计算方法如下:处理,其计算方法如下:处理,其计算方法如下:上式中,i∈(1,2,3),ori_val1表示原始温度值,min_val1和max_val1分别表示温度最小值和最大值,nor_val1表示归一化的温度值;ori_val2表示原始湿度值,min_val2和max_val2分别表示湿度最小值和最大值,nor_val2表示归一化的湿度值;ori_val3表示原始风速值,min_val3和max_val3分别表示风速最小值和最大值,nor_val3表示归一化的风速值;ori_val4表示原始风向值,nor_val4表示归一化的风向值;ori_val5表示原始风向值,原始风向值若为正数则为上坡,若为负数则为下坡,nor_val5表示归一化的风向值,归一化后nor_val5∈{0,0.5)为下坡,nor_val5∈{0.5,1}为上坡。6.根据权利要求1所述的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:所述步骤s4具体包括:步骤s401:对步骤s302中归一化的森林信息三维张量s
k
进行降维,以广度优先从左上角第一位数开始,抽取横纵坐标作为网格信息构成二维向量序列s
k1
,其中每个向量包含横坐标、纵坐标、温度值、湿度值、风速值、风向值、坡度值、可燃性概率值;步骤s402:设定卷积核即权重矩阵w
c1
,然后用滑动窗口以一定步幅step对s401步骤的向量序列s
k1
进行滑动,每次滑动都将窗口覆盖的数据与卷积核进行逐元素的乘法操作得到标量值,该标量值作为森林信息的特征图中的一个元素,进而获得森林信息特征图s
k1*
;步骤s403:利用最大池化的方式对步骤s402中的森林信息特征图进行信息过滤,防止过拟合;同时使用激活函数将森林信息特征图s
k1*
中的负值变为零,且保留正值,得到激活后的森林信息特征图s
k2
;步骤s404:将当前时间步下的森林信息特征图s
k2
作为输入传递给前向门控循环单元,再输入到后向门控循环单元,然后分别得到前向森林信息隐藏状态向量序列s
k2q
与后向森林信息隐藏状态向量序列s
k2h
,进而将前向与后向森林信息隐藏状态向量序列拼接成当前
时间步下森林信息隐藏状态向量序列s
k3
;步骤s405:对s404中当前时间步下森林信息隐藏状态向量序列s
k3
与每个位置的注意力参数进行相似度计算得到相似度得分;进而对相似度得分归一化处理,确保权重之后为1;最后将注意力权重与不同时间步的森林信息隐藏状态向量序列进行加权求和,得到森林信息向量序列s
k4
;步骤s406:对步骤s405获得的森林信息向量序列s
k4
利用激活函数计算森林火灾状况更新后的预测值s
k5
;然后对预测值进行反归一化操作得到更新后的森林信息向量序列s
k5*
;最后对更新后的森林信息向量序列s
k5*
进行升维操作得到更新后的森林信息三维张量s
k*
。7.根据权利要求6所述的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:所述步骤s402和s403中计算公式如下:s
k2
=σ(s
k1*
·
w
c2
+b1)上式中,s
k1*
表示森林信息特征图,s
k1
表示输入数据,即森林信息二维向量序列,w
c1
表示权重矩阵,b0表示偏置项,表示卷积操作;σ()表示sigmoid激活函数,s
k1*
表示森林信息特征图中的一个特征向量,w
c2
表示权重矩阵,b1表示偏置项,s
k2
表示激活后的森林信息特征图的一个特征向量;所述步骤s404中计算公式如下:z
t
=σ(w
g1
·
s
k2
+e
g1
·
s
k2q-1
)r
t
=σ(w
g2
·
s
k2
+e
g2
·
s
k2q-1
)s
k2g
=tanh(r
t
·
e
g3
·
s
k2q-1
+w
g3
·
s
k2
)s
k2q
=z
t
·
s
k2g
+(1-z
t
)
·
s
k2q-1
上式中,z
t
表示更新门,w
g1
、e
g1
分别表示森林信息特征图的权重矩阵和前向隐藏层状态的权重矩阵,s
k2q-1
表示前向隐藏层状态中的向量;r
t
表示重置门,w
g2
、e
g2
分别表示森林信息特征图的权重矩阵和前向隐藏层状态的权重矩阵;s
k2g
表示当前候选集状态中的向量,tanh()表示激活函数,w
g3
、e
g3
表示权重矩阵,s
k2q
表示前向森林信息隐藏状态向量序列s
k2q
中的一个向量;所述步骤s405和s406中计算公式如下:e
k
=v
k
·
tanh(w
a1
·
s
k3
+e
a1
·
s
k3-1
))s
k5
=σ(w
q1
·
s
k4
+b2)上式中,e
k
表示k时刻的森林信息隐藏状态相似度得分,s
k3
表示森林信息隐藏状态向量序列s
k3
中一个向量,s
k3-1
表示森林信息隐藏状态向量序列s
k3
上一时间步向量序列中的向量,v
k
、w
a1
、e
a1
表示权重参数;w
k
表示k时刻双向循环层输出值对应注意力机制的权重;w
j
表示从1到j时间步中其中一个时间步的权重,表示某一时间步中森林信息隐藏状态向量序列s
k3
的一个向量,s
k4
表示经过注意力机制层输出的森林信息向量序列的一个向量;s
k5
表示
森林火灾状况更新后的预测值s
k5
中的一个向量,w
q1
表示权重矩阵,b2表示偏置项。8.根据权利要求1所述的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:所述步骤s5具体包括:步骤s501:以未发生森林火灾时森林信息三维张量s0作为当前状态空间,根据步骤s406更新后的森林信息三维张量s
k*
与对应时间步下真实的森林信息三维张量之间的差值作为奖励,根据步骤s302获得的森林火灾状态矩阵y
k
,抽取矩阵元素值为0.5(即正发生火灾的网格)附近一格内值为0(未发生火灾的网格)的坐标位置,建立可燃矩阵矩阵y
k
*作为动作空间;步骤s502:将当前状态空间作为输入,通过前向传播,得到选择每个动作对应的预期回报即g值,并选择g值最大的对应动作作为当前状态的动作;步骤s503:执行火灾体动作并观察火灾燃烧奖励,根据步骤s4的森林信息更新模型,将燃烧动作后更新的森林信息张量作为下一状态空间;步骤s504:将当前状态、选择的动作、观察到的奖励和下一个状态存储在经验回放缓冲区中并计算目标g值;步骤s505:通过损失计算、反向传播来更新模型参数,最终建立森林火灾轨迹预测模型。9.根据权利要求8所述的一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,其特征在于:所述步骤s5中计算公式如下:g(l,a)=λ*g

(l,a)+(1-λ)*g

(l,a)*p(l,a)上式中,λ∈(0,1),表示权重值,l表示状态空间,a表示动作空间,p(l,a)表示在状态l下选择动作a的概率,c表示在状态l下选择动作a的次数;g

(l,a)表示动作价值函数,g(l,a)表示更新后的动作价值函数;d
d
=∑
i,j,d
|t

ijd-t
ijd
|r
k
=w
kte
*d1+w
khu
*d2+w
kwv
*d3+w
kwd
*d4+w
ksl
*d5+w
kq
*d6上式中,i表示森林网格的横坐标,j表示森林网格的纵坐标,d表示网格内不同元素数据,其中d=1时表示温度数据,d=2时表示湿度数据,d=3时表示风速数据,d=4时表示风向数据,d=5时表示坡度数据,d=6时表示可燃性概率数据,d
d
表示网格内更新后的森林信息t

ijd
与真实森林信息t
ijd
之间的差值;w
kte
、w
khu
、w
kwv
、w
kwd
、w
ksl
、w
kq
分别表示温度数据、湿度数据、风速数据、风向数据、坡度数据、可燃性概率数据的权重值,r
k
表示时间步k的即时奖励;r
k-1
=r
k
+γ*max
a
(g(l,a))上式中,r
k-1
表示时间步k-1的森林火灾轨迹预测目标值,即上一状态下选择动作后所期望的累积回报,γ表示折扣因子,用于衡量当前奖励和未来奖励的重要性,max
a
()表示在状态l下,选择动作a的最大动作价值。

技术总结
本发明公开了一种基于深度强化学习融合多数据源的森林火灾轨迹预测方法,该方法包括:根据历史火灾事件建立森林火灾数据库;获取每次森林火灾事件的红外图、地理图、气象图、环境数据图,并对不同类型的图进行数据化操作建立多数据源矩阵;然后建立火灾可燃性指标体系,根据不同数据源矩阵计算区域可燃性概率值矩阵;对温度数据、湿度数据、风速数据、风向数据、坡度数据、可燃性概率值进行特征融合并归一化处理得到不同时间步的森林信息矩阵;利用卷积等操作建立森林信息更新模型,以预测不同火灾状况森林信息的整体变化;最后将火灾作为智能体,将火灾事态最大化发展作为目标函数来预测森林火灾轨迹变化。预测森林火灾轨迹变化。预测森林火灾轨迹变化。


技术研发人员:张桃 杨强 李洲 乔少杰 胡隆河 张楠
受保护的技术使用者:成都信息工程大学
技术研发日:2023.06.28
技术公布日:2023/9/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐