一种基于集成学习的高含水致密砂岩储层产能智能预测方法

未命名 08-07 阅读:114 评论:0


1.本发明涉及测井产能预测技术和机器学习技术领域,尤其涉及一种集成学习测井产能智能预测方法。


背景技术:

2.随着各大油田和研究机构对油气资源研究的不断深入,非常规气藏开发逐步成为热点问题。其中,致密砂岩气藏通常储层物性差、非均质性强,存在气层测井识别难,储层参数定量评价难,产能定量预测难等问题。目前致密砂岩气藏的产能预测方式开始与人工智能结合。
3.时卓(时卓,石玉江,张海涛,等.低渗透致密砂岩储层测井产能预测方法[j].测井技术,2012,36(6):641-646.)等以苏里格气田西区为研究目标,根据测井分类和压力恢复动态结果建立了多参数复合图版法,结合常规测井资料构建的加权储能系数,产能预测符合率达到92.5%;建立按每米日产气量分级的参数回归模型,模型决定系数达到0.95,实现了对致密砂岩气层产能分级和气井产能的快速分类。庄华(庄华.苏里格致密砂岩气层压裂产能测井预测方法研究[d].吉林大学,2013.)以苏里格地区东部为研究区域,采用灰色关联法对测井参数、储集参数和压裂试工参数做了相关性分析,将产气层段测井资料平均值作为输入,选用elman神经网络对每米产气量进行预测,预测的均方误差为0.2490
×
104m3/d。蒋必辞(蒋必辞,潘保芝,庄华,等.改进grnn网络预测致密砂岩气层压裂产能[j].世界地质,2014,33(2):471-476.)等以苏里格地区东部为研究区域,采用灰色关联法对测井参数、储集参数和压裂试工参数做了相关性分析,采用grnn网络逐点预测气层压裂产能,预测的均方误差为0.2418
×
104m3/d。weng sf(weng sf,pan bz,jiang bc,et al.research on the methods of splitting and prediction point by point in tight sandstone gas reservoir productivity[j].journal of geophysics and engineering,2015,12(3):427.)等人将产气量通过kh劈分和khk劈分后,建立了常规测井曲线和单点产气量的关系,用来获得单点产气量。郭宇航(郭宇航.基于渗流与导电特性的致密砂岩储层测井解释与产能预测[d].吉林大学,2017.)基于致密砂岩渗流和导电特性的研究结果,改进khk产能劈分公式,得到更准确地单点产能劈分结果;单点劈分结果作为输出,常规测井数据作为输入,应用径向基函数神经网络(rbf)方法预测产能,预测的均方误差为0.537
×
104m3/d。
[0004]
时卓、庄华、蒋必辞、郭宇航等人建立的产能预测模型在该工区内取得了较好的实验结果;他们的共同之处为将每个试气层段的产能劈分或平均至一个深度点上,去除厚度因素的干扰;这表现出苏里格地区储层薄,非均质性强,受累计有效厚度影响大的特点,同时也显示出苏里格气田工区间储层的差异性大,气、水关系纵向、横向变化性强的特点。时卓、庄华、蒋必辞在建立产能预测模型时加入了压裂工程参数,考虑了压裂对产能的影响;郭宇航则是应用了改进的岩石物理模型、产能劈分模型对产气量数据进行处理,得到精确度更高的储集参数、更合理的逐点产能数据。因此,在缺少岩心分析资料、压裂工程资料时,测井资料与产能的关系更为模糊,产能预测难度更大。
[0005]
本发明针对复杂测井响应特征,在测井数据的基础上,采用基于委员会机器、bagging集成学习算法的改进的集成学习算法,通过相关系数筛选的随机采样方法测井响应特征及规律进行大致划分与聚合,避免基学习器对杂乱数据的无效学习;利用基于信息熵的特征选择方法筛选某一规律、特征的表征参数,再通过并行的基分类器建立表征参数与规律的映射关系,使得模型对于复杂规律能够分而治之,避免测井数据类间差异小、类内差异大所带来的干扰,最后生成综合的产能预测模型。


技术实现要素:

[0006]
本发明主要是克服现有技术中的不足之处,提供一种集成学习测井产能智能预测方法。
[0007]
为达到以上技术目的,本发明采用以下技术方案:
[0008]
1、一种基于集成学习的高含水致密砂岩储层产能智能预测方法,其特征在于包括以下步骤:
[0009]
步骤1、建立适合人工智能模型训练的测井数据集合x:
[0010]
(1)从某区块目标层位选取a口井,a为正整数,每口井包含自然伽马、自然电位、补偿中子、补偿密度、声波时差、地层电阻率、冲洗带电阻率7条测井曲线,渗透率、孔隙度、泥质含量、含水饱和度4个物性参数;
[0011]
(2)基于测井曲线和物性参数,构建3个复合参数dt、ak、swa,将测井曲线、物性参数和复合参数共同作为输入特征参数;
[0012][0013]
其中,

t,声波时差测井值,μm/s;

t
ma
,岩石骨架的声波时差值,μm/s;

tf,流体的声波时差值,μm/s;流体的含氢指数,m3/m3;ρb,补偿密度测井值,g/cm3;ρf,流体密度,g/cm3;r
t
,地层电阻率,ω
·
m;r
xo
,冲洗带电阻率,ω
·
m;
[0014]
(3)采用z-score标准化方法,使其符合正态分布,其中sp曲线采用局部标准化,其他曲线采用全局标准化,z-score标准化方法公式如下;
[0015][0016]
其中,xi,归一化前的第i个样本;x
′i,归一化后的第i个样本;μ,原始数据的平均值;σ,原始数据的标准差;
[0017]
(4)去除所选曲线中对应的非储层段、泥岩夹层、储层段顶底界面及数据缺失段;
[0018]
(5)将每个井段按照固定采样点数q进行采样,q为正整数,使得不同厚度的储层井段有着不同的分辨率,作为原始曲线数据集合x;
[0019]
步骤2、构建改进的集成学习模型,具体步骤如下:
[0020]
(1)使用自助采样将训练集划分为m个子集n1,n2,n3,...,nm,子集中包含的样本数量大于等于最少样本类别的样本数,m为正整数;
[0021]
(2)设每个子集中,各输入特征参数和无阻流量、产水量的皮尔逊相关系数为ru,u代表每个输入特征参数,ri为所有ru的绝对值之和,i=1,2,3,...,m;
[0022][0023][0024]
其中,ru为特征u与y的皮尔逊相关系数,xi对应每一个采样点的测井参数值,y为与xi相对应的无阻流量、产水量,为所有参与计算的xi的平均值,为所有参与计算的y的平均值,n为参与计算的采样点数量,即参与计算的井段总有效厚度;
[0025]
(3)将ri从大到小排序,选择前n个所对应的子集作为子训练集,所有子训练集的合集为全部训练集,若则舍弃m个样本中样本数最少的个子集,重新采样出个子集,直至n1∩n2∩n3∩...∩nm=n,其中符号为向下取整符,表示对进行向下取整操作;
[0026]
(4)在n个子训练集上应用基于信息增益的特征选择方法:
[0027]
a.假设当前数据集合w={wi,i=1,2,3,...,n},wi出现的概率p(wi)各不相等,wi的信息量表示为计算各变量条件与最终结果之间的信息熵,信息熵计算公式如下:
[0028][0029]
其中,k为当前数据集合w中的第k类,即目标变量的类型;
[0030]
b.假设存在特征v,计算按照v的某个取值进行类别划分后的信息增益i(w,v);
[0031]
i(w,v)=h(w)-h(w|v)
[0032][0033]
其中,h(w|v)为基于特征v分类后的信息熵,也称条件熵;wi为基于特征a对数据集d划分的子集;为按照子集的数据量,给每个子集赋予的权重;w
ik
为每个特征分类子集wi中按目标分类后的子集;为每个特征分类子集中,各目标分类子集所占比例;
[0034]
c.开始构建二叉树,以信息增益最大的特征作为根结点;
[0035]
d.计算此根结点下所包含特征的信息熵、信息增益,选择信息增益最大的,且没有被作为子结点的特征参数作为其子结点,重复步骤d;如果下一层为最终结果,则将当前结点作为叶子结点,执行步骤e;
[0036]
e.将当前结点的父结点作为当前结点,判断当前结点是否具有两个子结点,若没有,重复步骤d,继续当前结点的其他子结点的构建;若有,则重复步骤e;
[0037]
f.二叉树构建完成后,将特征参数的按重要程度从大到小排序,选择前t个对应的特征参数作为对应子训练集的输入特征参数,并依据其重要程度进行加权;
[0038]
(5)对应n个子训练集,建立n个人工智能模型作为基分类器,初始化基分类器的超参数,而后对每一个基分类器应用网格搜索法求取最佳超参数组合;
[0039]
(6)对每一个基分类器的预测结果采用硬投票的方式,硬投票的原理为取多数类作为该基分类器的唯一预测结果,将多采样点对多预测结果转化为多采样点对一个预测结果的形式;对所有基分类器的预测结果使用软投票的方式,得出最终的预测结果,软投票的原理为将各个分类器对样本为每一类的概率分别求平均,平均后概率最高的那一类为最终输出类别;
[0040][0041][0042]
若p(a)》p(b),则最终结果为a类
[0043]
若p(a)《p(b),则最终结果为b类
[0044]
其中,p(ai)为基分类器i预测样本为a类的概率,i=1,2,3,...,n;p(bi)为分类器i预测样本为b类的概率,i=1,2,3,...,n;
[0045]
步骤3、将训练集输入到步骤2中构建的预测网络模型进行训练,选择在训练过程中损失函数最小的模型作为最终模型,损失函数使用交叉熵损失函数,其计算公式如下:
[0046][0047]
其中,z为分类数量;g为观测样本数量;y
ic
为符号函数,取值为0或1,若样本i的真实类别为c,则y
ic
取1,否则y
ic
取0;p
ic
为观测样本i属于类别c的概率;
[0048]
步骤4:将测试集输入训练完成的模型中进行储层产能预测,得到预测结果。
[0049]
本发明创新点表现在:
[0050]
(1)将bagging集成学习方法的对基分类器输入数据的随机采样结果进行筛选,保留规律性强的子集进行训练,避免了基分类器在没有规律的训练集中作无效训练。
[0051]
(2)与bagging集成学习方法相比,将特征选择算法嵌入每一个基分类器,使得基分类器,提高每一个基分类器的分类性能。
[0052]
有益效果:
[0053]
与现有技术相比,本发明具有以下有益效果:
[0054]
通过相关系数筛选的随机采样方法测井响应特征及规律进行大致划分与聚合,避免分类器对杂乱数据的无效学习;利用基于信息熵的特征选择方法筛选某一规律、特征的表征参数,再通过并行的基分类器建立表征参数与规律的映射关系,使得模型对于复杂规律能够分而治之,避免测井数据类间差异小、类内差异大所带来的干扰。
附图说明
[0055]
图1为改进的测井产能预测集成学习模型结构图,表示模型结构及在baggi ng集成学习框架的基础上具有的改进点;
[0056]
图2为基于相关性筛选的随机采样流程图,表示在随机采样步骤中加入针对训练子集内部相关性的筛选环节;
[0057]
图3为基于信息增益的特征选择流程图,表示进行特征重要程度排序的过程;
[0058]
图4为基于信息增益的特征选择的结果示意图,表示特征选择后的特征排序结果;
[0059]
图5为软投票与硬投票的原理示意图,表示软投票与硬投票不同的投票机制。
具体实施方式
[0060]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0061]
实施例:
[0062]
一种基于集成学习的高含水致密砂岩储层产能智能预测方法,其特征在于包括以下步骤:
[0063]
步骤1、建立适合人工智能模型训练的测井数据集合x:
[0064]
(1)从某区块目标层位选取42口井,每口井包含自然伽马、自然电位、补偿中子、补偿密度、声波时差、地层电阻率、冲洗带电阻率7条测井曲线,渗透率、孔隙度、泥质含量、含水饱和度4个物性参数
[0065]
(2)基于测井曲线和物性参数,构建复合参数dt、ak、swa,将测井曲线、物性参数和复合参数共同作为输入特征;
[0066]
(3)采用z-score标准化方法,使其符合正态分布,其中sp曲线采用局部标准化,其他曲线采用全局标准化;
[0067]
(4)去除所选曲线中对应的非储层段、泥岩夹层、储层段顶底界面及数据缺失段;
[0068]
(5)取固定采样点数q=30,将每个井段按照固定采样点数q进行采样,作为原始曲线数据集合x,x的维度为(42,14,30);
[0069]
步骤2、构建改进的集成学习模型,具体步骤如下:
[0070]
(1)取训练集的划分子集数量m=20,实际子集数量n=10,使用自助采样将训练集划分为m个子集n1,n2,n3,...,nm,子集中包含的样本数量大于等于最少样本类别的样本数;
[0071]
(2)设每个子集中,各输入特征参数和无阻流量、产水量的皮尔逊相关系数为ru,u代表每个输入特征参数,ri为所有ru的绝对值之和,i=1,2,3,...,m;
[0072][0073][0074]
其中,ru为特征u与y的皮尔逊相关系数,xi对应每一个采样点的测井参数值,y为与xi相对应的无阻流量、产水量,为所有参与计算的xi的平均值,为所有参与计算的y的平均值,n为参与计算的采样点数量,即参与计算的井段总有效厚度;
[0075]
(3)将ri从大到小排序后,选择前n个对应的集合作为子训练集,所有子训练集的合集为全部训练集,若则舍弃m个样本中样本数最少的个子集,重新采样出个子集,直至n1∩n2∩n3∩...∩nm=n;
[0076]
(4)在n个子训练集上应用基于信息增益的特征选择方法:
[0077]
a.计算各变量条件与最终结果之间的信息熵h(w);
[0078]
b.计算特征v的信息增益i(w,v);
[0079]
c.开始构建二叉树,以信息增益最大的特征作为根结点;
[0080]
d.计算此根结点下所包含特征的信息熵、信息增益,选择信息增益最大的,且没有被作为子结点的特征参数作为其子结点,重复步骤d;
[0081]
如果下一层为最终结果,则将当前结点作为叶子结点,执行步骤e;
[0082]
e.将当前结点的父结点作为当前结点,判断当前结点是否具有两个子结点,若没有,重复步骤d,继续当前结点的其他子结点的构建;
[0083]
若有,则重复步骤e;
[0084]
f.取特征数量t=8,二叉树构建好后,选择重要程度较高的10个特征作为对应子训练集的输入特征,并依据其重要程度进行加权;
[0085]
(5)对应10个子训练集,建立10个人工智能模型作为基分类器,初始化基分类器的超参数,而后对每一个基分类器应用网格搜索法求取最佳超参数组合;
[0086]
(6)对每一个基分类器的预测结果采用硬投票的方式,将多采样点对多预测结果转化为多采样点对一个预测结果的形式;对所有基分类器的预测结果使用软投票的方式,得出最终的预测结果;
[0087]
步骤3、将训练集输入到步骤2中构建的预测网络模型进行训练,选择在训练过程中损失函数最小的模型作为最终模型;
[0088]
步骤4、将测试集输入训练完成的模型中进行储层产能预测,得到预测结果;
[0089]
步骤5、利用如表2所示的分级标准,对无阻流量进行分级;通过对比各产量等级的精确率、召回率、f1值以及算法的平均准确率,对不同算法的产能预测效果进行比较,包括朴素贝叶斯、层次聚类、卷积神经网络、梯度提升树,比较结果如表3。
[0090]
表2无阻流量分级标准
[0091]
井段类别无阻流量数量ⅰ类》20万方/天4ⅱ类8-20万方/天8ⅲ类4-8万方/天9ⅳ类2-4万方/天5

类《2万方/天16
[0092]
表3气产能等级预测模型性能对比
[0093][0094]
以上所述,并非对本发明作任何形式上的限制,虽然本发明已通过上述实施例揭示,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出变动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

技术特征:
1.一种基于集成学习的高含水致密砂岩储层产能智能预测方法,其特征在于包括以下步骤:步骤1、建立适合人工智能模型训练的测井数据集合x:(1)从某区块目标层位选取a口井,a为正整数,每口井包含自然伽马、自然电位、补偿中子、补偿密度、声波时差、地层电阻率、冲洗带电阻率7条测井曲线,渗透率、孔隙度、泥质含量、含水饱和度4个物性参数;(2)基于测井曲线和物性参数,构建3个复合参数dt、ak、swa,将测井曲线、物性参数和复合参数共同作为输入特征参数;其中,

t,声波时差测井值,μm/s;

t
ma
,岩石骨架的声波时差值,μm/s;

t
f
,流体的声波时差值,μm/s;流体的含氢指数,m3/m3;ρ
b
,补偿密度测井值,g/cm3;ρ
f
,流体密度,g/cm3;r
t
,地层电阻率,ω
·
m;r
xo
,冲洗带电阻率,ω
·
m;(3)采用z-score标准化方法,使其符合正态分布,其中sp曲线采用局部标准化,其他曲线采用全局标准化;(4)去除所选曲线中对应的非储层段、泥岩夹层、储层段顶底界面及数据缺失段;(5)将每个井段按照固定采样点数q进行采样,q为正整数,使得不同厚度的储层井段有着不同的分辨率,作为原始曲线数据集合x;步骤2、构建改进的集成学习模型,具体步骤如下:(1)使用自助采样将训练集划分为m个子集n1,n2,n3,...,n
m
,子集中包含的样本数量大于等于最少样本类别的样本数,m为正整数;(2)设每个子集中,各输入特征参数和无阻流量、产水量的皮尔逊相关系数为r
u
,u代表每个输入特征参数,r
i
为所有r
u
的绝对值之和,i=1,2,3,...,m;的绝对值之和,i=1,2,3,...,m;其中,r
u
为特征u与y的皮尔逊相关系数,x
i
对应每一个采样点的测井参数值,y为与x
i

对应的无阻流量、产水量,x为所有参与计算的x
i
的平均值,y为所有参与计算的y的平均值,n为参与计算的采样点数量,即参与计算的井段总有效厚度;(3)将r
i
从大到小排序后,选择前n个对应的集合作为子训练集,所有子训练集的合集为全部训练集,若则舍弃m个样本中样本数最少的个子集,重新采样出个子集,直至n1∩n2∩n3∩...∩n
m
=n,其中符号为向下取整符,表示对进行向下取整操作;(4)在n个子训练集上应用基于信息增益的特征选择方法:a.假设当前数据集合w={w
i
,i=1,2,3,...,n},w
i
出现的概率p(w
i
)各不相等,w
i
的信息量表示为计算各变量条件与最终结果之间的信息熵,信息熵计算公式如下:其中,k为当前数据集合w中的第k类,即目标变量的类型;b.假设存在特征v,计算按照v的某个取值进行类别划分后的信息增益i(w,v);i(w,v)=h(w)-h(w|v)其中,h(w|v)为基于特征v分类后的信息熵,也称条件熵;w
i
为基于特征a对数据集d划分的子集;为按照子集的数据量,给每个子集赋予的权重;w
ik
为每个特征分类子集w
i
中按目标分类后的子集;为每个特征分类子集中,各目标分类子集所占比例;c.开始构建二叉树,以信息增益最大的特征作为根结点;d.计算此根结点下所包含特征的信息熵、信息增益,选择信息增益最大的,且没有被作为子结点的特征参数作为其子结点,重复步骤d;如果下一层为最终结果,则将当前结点作为叶子结点,执行步骤e;e.将当前结点的父结点作为当前结点,判断当前结点是否具有两个子结点,若没有,重复步骤d,继续当前结点的其他子结点的构建;若有,则重复步骤e;f.二叉树构建完成后,按照决策过程中特征从上到下的顺序将特征的重要程度进行排序,选择前t个特征参数作为对应子训练集的输入特征,并依据其重要程度进行加权;(5)对应n个子训练集,建立n个人工智能模型作为基分类器,初始化基分类器的超参数,对每一个基分类器应用网格搜索法求取最佳超参数组合;(6)对每一个基分类器的预测结果采用硬投票的方式,硬投票的原理为取多数类作为该基分类器的唯一预测结果,将多采样点对多预测结果转化为多采样点对一个预测结果的
形式;对所有基分类器的预测结果使用软投票的方式,得出最终的预测结果,软投票的原理为将各个分类器对样本为每一类的概率分别求平均,平均后概率最高的那一类为最终输出类别;类别;若p(a)>p(b),则最终结果为a类若p(a)<p(b),则最终结果为b类其中,p(a
i
)为基分类器i预测样本为a类的概率,i=1,2,3,...,n;p(b
i
)为分类器i预测样本为b类的概率,i=1,2,3,...,n;步骤3、将训练集输入到步骤2中构建的预测网络模型进行训练,选择在训练过程中损失函数最小的模型作为最终模型,损失函数使用交叉熵损失函数,其计算公式如下:其中,z为分类数量;g为观测样本数量;y
ic
为符号函数,取值为0或1,若样本i的真实类别为c,则y
ic
取1,否则y
ic
取0;p
ic
为观测样本i属于类别c的概率;步骤4:将测试集输入训练完成的模型中进行储层产能预测,得到预测结果。

技术总结
一种基于集成学习的高含水致密砂岩储层产能智能预测方法,本方法在bagging集成算法的采样方式和基分类器输入特征筛选两方面进行了修改,原采样方式的数据采样为随机采样,每个基分类器的输入特征相同,本发明的采样方式在随机采样中加入了相关系数筛选机制,若每一个采样后的数据集所有输入测井特征与预测值的相关系数之和小于预设值则舍弃此数据集,重新采样;将基于信息增益的特征重要性生成算法用于计算每个基学习器的训练集的测井特征重要程度,取重要程度最高的前N个测井特征作为该基学习器的输入特征。为该基学习器的输入特征。为该基学习器的输入特征。


技术研发人员:罗仁泽 雷璨如 赵丹 易玺 廖波 曹瑞 武娟
受保护的技术使用者:西南石油大学
技术研发日:2023.02.23
技术公布日:2023/8/5
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐