基于决策树算法的海底土类型识别方法
未命名
09-12
阅读:54
评论:0

1.本发明涉及海洋工程、海洋资源勘探与开发、海洋调查等技术领域,具体涉及一种基于决策树算法的海底土类型识别方法。
背景技术:
2.海底土质类型及特征是海洋普查与勘探的重要内容之一,是海洋石油开采、海上风电施工的重要参考指标。充分了解海底土类型及特征是开采海洋资源的前提。
3.通过静力触探设备(简称cpt),可获取海底土质特征信息,包括锥端阻力、侧摩阻力、孔隙水压力等。现阶段已开展了利用聚类算法、小波分析、机器学习等方法识别陆地土质类型方面的研究,在海底土类型识别方面的研究较少。
4.目前,海底土类型判别及分析主要通过人工完成,操作人员基于静力触探设备采集的原始测量数据及其特征,根据采集的土样描述确定土质类型。人工识别海底土质类型对操作人员的知识储备、经验丰富程度等具有较高要求,且工作效率较低,因此,这一传统方法亟需改进。
技术实现要素:
5.本发明的目的是根据cpt数据自动识别海底土类型。本发明具有方法简单、实时性好、节约人力、易于实现等优点。适用于海底土类型识别。
6.本发明包括在线实时识别土质类型和离线构建决策树两个部分。
7.在线实时识别土质类型的步骤如下:
8.(1)基于cpt数据计算归一化特征和修正特征:
9.应用cpt测量海底以下一定深度内的锥端阻力qc、侧摩阻力fs、孔隙水压力u2;计算修正锥端阻力q
t
=qc+(1-α)u2,其中,α为锥端有效面积比,由cpt设备确定;根据计算归一化锥端阻力q
t
,其中,σ'
v0
为有效上覆压力,σ'
v0
=γ'
×
d,γ'为上覆土层平均有效容重,单位为mn/m3;摩阻比rf根据计算得到;孔压参数比bq根据计算得到,其中,d为海底以下探测位置的深度,u0=γw×
d,γw为海水或泥浆容重,单位为kn/m3;归一化摩阻比fr根据计算得到,γ'和γw为参数,在测试中由人工给定;
10.(2)特征参数滤波:
11.对特征参数bq、rf、q
t
、fr进行中值滤波,得到滤波后的特征参数;
12.(3)利用决策树识别海底土类型:
13.将滤波后的特征参数输入决策树,根据决策树给出的决策规则,判定该特征参数
对应的海底土类型,其中,决策树根据训练数据集离线构建。
14.离线构建决策树的步骤如下:
15.(1)构建训练集:
16.中值滤波后的bq、rf、q
t
、fr及其对应的参考海底土质类型构成训练数据集,其中,参考海底土质类型由人工根据采集的土样确定;
17.(2)计算训练集中数据分类的信息熵:
18.设s为含有n个训练样本的数据集,训练集中参考海底土质类型数为m,海底土质类型集合为{s1,s2,
…
,si,
…
,sm},第i种土质类型含有的样本数为ni,土质类型si出现的概率pi根据计算,将s划分为m个土质类型的信息熵i根据计算,i=1,2,
…
,m;
19.(3)计算特征参数的信息增益及信息增益率,确定根节点及其阈值:
20.选取训练数据集的某一特征参数a,寻找该属性的最小值min和最大值max;将特征参数a从小到大排列,根据特征参数a的两个区间[min,λ]和[λ,max],将数据集s对应划分为两个子集dj(j=1,2),λ为二分断点,dj的样本数为dj,dj中属于子集si的样本数为d
ij
,dj中第i类的概率为p
ij
,根据计算,dj的信息熵ij根据计算,a的熵entropy(a)根据计算,根据特征参数a划分dj的信息增益gain(a)根据gain(a)=i-entropy(a)计算;将λ从特征参数a的min到max依次滑动取值,计算不同λ取值下的gain(a),并记gain(a)的最大值为gain(a)
max
,gain(a)
max
对应的λ值为特征参数a的阈值;特征参数a的信息增益率gainratio(a)根据计算;依次计算所有特征参数的信息增益率,最大信息增益率对应的特征参数作为根节点;
[0021]
(4)依据根节点特征参数的不同取值建立决策树分枝:
[0022]
采用递归的方法,以选择信息增益率最大的特征参数作为当前节点的确定标准,对分支节点不断进行划分,直到所有的分枝节点中的子集中的数据的土质类别相同,由此构造完成一棵决策树;
[0023]
(5)设置决策树终止条件:
[0024]
当实际准确率大于或等于期望准确率时,构建的决策树即为海底土类型识别的决策树,其中,期望准确率由人工设定。
附图说明
[0025]
图1为cpt18井cpt测量参数qc、fs、u2随深度变化曲线图;
[0026]
图2为cpt18井特征参数bq、rf、q
t
、fr随深度变化曲线图;
[0027]
图3为cpt18井特征参数bq、rf、q
t
、fr滤波后随深度变化曲线图;
[0028]
图4为cpt18测试集分类结果与参考土质类型对比图;
[0029]
图5为cpt数据集整体分类结果与参考土质类型对比图;
[0030]
图6为训练集中不同土质类型出现的概率图;
[0031]
图7为期望准确率为80%时基于cpt18训练集生成的决策树;
[0032]
图8为期望准确率为75%时基于cpt训练集生成的决策树;
[0033]
图9为期望准确率为80%时基于cpt训练集生成的决策树;
[0034]
图10为期望准确率为85%时基于cpt训练集生成的决策树;
[0035]
图11为期望准确率为90%时基于cpt训练集生成的决策树。
具体实施方式
[0036]
本实施例根据静力触探实验得到的海底土原位测量数据及计算得到的归一化锥端阻力、摩阻比、孔压参数比、归一化摩阻比,利用决策树c4.5算法,实现了对海底土类型的识别。
[0037]
具体步骤如下:
[0038]
在线实时测试部分步骤如下:
[0039]
(1)基于cpt数据计算归一化特征和修正特征:
[0040]
应用cpt测量海底以下一定深度内的锥端阻力qc、侧摩阻力fs、孔隙水压力u2;计算修正锥端阻力q
t
=qc+(1-α)u2,其中,α为锥端有效面积比,由cpt设备确定;根据计算归一化锥端阻力q
t
,其中,σ'
v0
为有效上覆压力,σ'
v0
=γ'
×
d,γ'为上覆土层平均有效容重,单位为mn/m3;摩阻比rf根据计算得到;孔压参数比bq根据计算得到,其中,d为海底以下探测位置的深度,u0=γw×
d,γw为海水或泥浆容重,单位为kn/m3;归一化摩阻比fr根据计算得到,γ'和γw为参数,在测试中由人工给定。
[0041]
在本实施例中,选取我国某海域作为岩性号类型识别对象,该cpt数据集共包含cpt01-cpt18共计18口井,采集点数为34331;α=0.75,γ'=0.01mn/m3,γw=10.05kn/m3,以cpt18井为例,其cpt测量参数随深度变化曲线如图1所示。归一化特征和修正特征随深度变化如图2所示。
[0042]
(2)特征参数滤波:
[0043]
对特征参数bq、rf、q
t
、fr进行中值滤波,得到滤波后的特征参数。
[0044]
在本实施例中,cpt18井特征参数bq、rf、q
t
、fr滤波后随深度变化曲线如图3所示。
[0045]
(3)利用决策树识别海底土类型:
[0046]
将滤波后的特征参数输入决策树,根据决策树给出的决策规则,判定该特征参数对应的海底土类型,其中,决策树根据训练数据集离线构建。
[0047]
在本实施例中,cpt18测试集分类结果与参考土质类型对比如图4所示,cpt数据集整体分类结果与参考土质类型对比如图5所示。
[0048]
离线构建决策树的步骤如下:
[0049]
(1)构建训练集:
[0050]
中值滤波后的bq、rf、q
t
、fr及其对应的参考海底土质类型构成训练数据集,其中,参考海底土质类型由人工根据采集的土样确定。
[0051]
在本实施例中,将参考海底土质类型编号成8个岩性号类型,将cpt18数据集按岩性号类型成比例选取样本构成训练数据集。
[0052]
(2)计算训练集中数据分类的信息熵:
[0053]
(3)设s为含有n个训练样本的数据集,训练集中参考海底土质类型数为m,海底土质类型集合为{s1,s2,
…
,si,
…
,sm},第i种土质类型含有的样本数为ni,土质类型si出现的概率pi根据计算,将s划分为m个土质类型的信息熵i根据计算,i=1,2,
…
,m。
[0054]
在本实施例中,cpt18井中岩性号类别为3出现概率p=0.64,岩性号4出现概率为0.31,岩性号9出现概率为0.05,将s划分为m个类的信息熵为i=1.15,cpt整体训练集中不同土质类型出现的概率如图6所示。
[0055]
(4)计算特征参数的信息增益及信息增益率,确定根节点及其阈值:
[0056]
选取训练数据集的某一特征参数a,寻找该属性的最小值min和最大值max;将特征参数a从小到大排列,根据特征参数a的两个区间[min,λ]和[λ,max],将数据集s对应划分为两个子集dj(j=1,2),λ为二分断点,dj的样本数为dj,dj中属于子集si的样本数为d
ij
,dj中第i类的概率为p
ij
,根据计算,dj的信息熵ij根据计算,a的熵entropy(a)根据计算,根据特征参数a划分dj的信息增益gain(a)根据gain(a)=i-entropy(a)计算;将λ从特征参数a的min到max依次滑动取值,计算不同λ取值下的gain(a),并记gain(a)的最大值为gain(a)
max
,gain(a)
max
对应的λ值为特征参数a的阈值;特征参数a的信息增益率gainratio(a)根据计算;依次计算所有特征参数的信息增益率,最大信息增益率对应的特征参数作为根节点。
[0057]
在本实施例中,依次计算所有特征参数的信息增益率,特征参数bq信息增益率gainratio(bq)=0.1120,特征参数rf信息增益率gainratio(rf)=0.1002,特征参数q
t
信息增益率gainratio(q
t
)=0.4405,特征参数fr信息增益率gainratio(fr)=0.4524,根节点特征参数选择信息增益率最大的属性fr。
[0058]
(5)依据根节点特征参数的不同取值建立决策树分枝:
[0059]
采用递归的方法,以选择信息增益率最大的特征参数作为当前节点的确定标准,对分支节点不断进行划分,直到所有的分枝节点中的子集中的数据的土质类别相同,由此构造完成一棵决策树。
[0060]
在本实施例中,根节点特征参数选择fr,其阈值λ=1.17,小于1.17判断为岩性号3,大于1.17时,选择以特征参数q
t
为分枝节点,其阈值λ=5.14,依次构建决策树分枝,目标准确率设为80%时基于cpt18训练集生成的决策树如图7所示。
[0061]
(6)设置决策树终止条件:
[0062]
当实际准确率大于或等于期望准确率时,构建的决策树即为海底土类型识别的决策树,
[0063]
其中,期望准确率由人工设定。
[0064]
在本实施例中,基于cpt训练集,将期望准确率设为75%时生成的决策树如图8所示,将期望准确率设为80%时生成的决策树如图9所示,将期望准确率设为85%时生成的决策树如图10所示,将期望准确率设为90%时生成的决策树如图11所示。
技术特征:
1.一种基于决策树算法的海底土类型识别方法,其特征在于能够根据cpt数据自动识别海底土类型,包括如下步骤:(1)基于cpt数据计算归一化特征和修正特征:应用cpt测量海底以下一定深度内的锥端阻力q
c
、侧摩阻力f
s
、孔隙水压力u2;计算修正锥端阻力q
t
=q
c
+(1-α)u2,其中,α为锥端有效面积比,由cpt设备确定;根据计算归一化锥端阻力q
t
,其中,σ'
v0
为有效上覆压力,σ'
v0
=γ'
×
d,γ'为上覆土层平均有效容重,单位为mn/m3;摩阻比r
f
根据计算得到;孔压参数比b
q
根据计算得到,其中,d为海底以下探测位置的深度,u0=γ
w
×
d,γ
w
为海水或泥浆容重,单位为kn/m3;归一化摩阻比f
r
根据计算得到,γ'和γ
w
为参数,在测试中由人工给定;(2)特征参数滤波:对特征参数b
q
、r
f
、q
t
、f
r
进行中值滤波,得到滤波后的特征参数;(3)利用决策树识别海底土类型:将滤波后的特征参数输入决策树,根据决策树给出的决策规则,判定该特征参数对应的海底土类型,其中,决策树根据训练数据集离线构建。2.权利要求1所述的决策树离线构建方法,包括如下步骤:(1)构建训练集:中值滤波后的b
q
、r
f
、q
t
、f
r
及其对应的参考海底土质类型构成训练数据集,其中,参考海底土质类型由人工根据采集的土样确定;(2)计算训练集中数据分类的信息熵:设s为含有n个训练样本的数据集,训练集中参考海底土质类型数为m,海底土质类型集合为{s1,s2,
…
,s
i
,
…
,s
m
},第i种土质类型含有的样本数为n
i
,土质类型s
i
出现的概率p
i
根据计算,将s划分为m个土质类型的信息熵i根据计算,i=1,2,
…
,m;(3)计算特征参数的信息增益及信息增益率,确定根节点及其阈值:选取训练数据集的某一特征参数a,寻找该属性的最小值min和最大值max;将特征参数a从小到大排列,根据特征参数a的两个区间[min,λ]和[λ,max],将数据集s对应划分为两个子集d
j
(j=1,2),λ为二分断点,d
j
的样本数为d
j
,d
j
中属于子集s
i
的样本数为d
ij
,d
j
中第i类的概率为p
ij
,根据计算,d
j
的信息熵i
j
根据计算,a的熵entropy(a)根据计算,根据特征参数a划分d
j
的信息增益gain(a)根据gain(a)=i-entropy(a)计算;将λ从特征参数a的min到max依次滑动取值,计算不同λ取值下的gain(a),并记gain(a)的最大值为gain(a)
max
,gain(a)
max
对应的λ值为特征参数a的阈值;特征参数a的信息增益率gainratio(a)根据计算;依次计算所有特征参数的信息增益率,最大信息增益率对应的特征参数作为根节点;(4)依据根节点特征参数的不同取值建立决策树分枝:采用递归的方法,以选择信息增
益率最大的特征参数作为当前节点的确定标准,对分支节点不断进行划分,直到所有的分枝节点中的子集中的数据的土质类别相同,由此构造完成一棵决策树;(5)设置决策树终止条件:当实际准确率大于或等于期望准确率时,构建的决策树即为海底土类型识别的决策树,其中,期望准确率由人工设定。
技术总结
本发明公开了一种基于决策树算法的海底土类型识别方法,包括在线实时识别土质类型和离线构建决策树两个部分,在线实时识别土质类型的步骤如下:1)基于CPT数据计算归一化特征和修正特征;2)特征参数滤波;3)利用决策树识别海底土类型;离线构建决策树的步骤如下:1)构建训练集;2)计算训练集中数据分类的信息熵;3)计算特征参数的信息增益及信息增益率,确定根节点及其阈值;4)依据根节点特征参数的不同取值建立决策树分枝;5)设置决策树终止条件。本发明具有方法简单、实时性好、节约人力、易于实现等优点。适用于海底土类型识别。适用于海底土类型识别。适用于海底土类型识别。
技术研发人员:王微微 史文怡 韩梦璇 乔文洵
受保护的技术使用者:中国石油大学(华东)
技术研发日:2023.06.02
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/