一种测量物种分布数据与环境因子相关联的方法与流程
未命名
09-11
阅读:99
评论:0

1.本发明涉及生物地理研究领域,更具体地说,涉及一种测量物种分布数据与环境因子相关联的方法。
背景技术:
2.丹参是我国常用的 重要药材之一,为唇形科鼠尾草属丹参组多年生直 立草本,以干燥的根和根茎入药,具有抗氧化、抗凝血、抗炎等功效,在临床上被应用于心血管类疾 病的治疗。极高的药用价值使丹参的需求量不断增加,巨大的需求量致使丹参被广泛引种栽培,市售丹参 90%以上来自人工种植。
3.但受地域环境限制,目前丹参在各地区产量相差较大,质量参差不齐,影响临床应用效果,不利于丹参的发展。而开展药材适生区区划、探究中药材与生态环境适宜性能发现更适合该药材生长的环境及相应的地理空间,避免盲目种植,对提升药材质量 和实现该药材可持续发展具有重要的现实意义。
4.经调查发现,目前还未具有用于丹参地理位置种植的研究,丹参在种植前的调查,通常都是根据气候、地形、交通和人文等因素进行判定,且此种调查方式基本上只能在全国极小范围下开展,所获取的种植信息有限,容易造成盲目种植,不利于药材质量的提升。
技术实现要素:
5.1.要解决的技术问题针对现有技术中存在的问题,本发明的目的在于提供一种测量物种分布数据与环境因子相关联的方法,它可以实现,采用建模平台建立环境因子与物种分布关联的模型,并对物种进行训练、分析,总结出丹参在我国的种植区域的相关有益信息。
6.2.技术方案为解决上述问题,本发明采用如下的技术方案。
7.一种测量物种分布数据与环境因子相关联的方法,包括以下步骤:s1:参阅已知物种分布信息,建立丹参物种分布模型,并对物种模型定位;所述丹参物种模型定位对于地点重复、有误的点,采用经纬度方式定位;s2:通过物种分布模型与环境变量之间的关联进行分析;其中,所述环境变量包括:气候、土壤、地形和人类活动;s3:基于s2中环境变量的基础上,选取了十种常用的物种分布模型,并在建模平台进行训练和验证模型,十种常见的物种训练数据采用random函数算法获得;s4:验证模型精度,并分析环境变量对物种分布的影响;s5:预测模型在中国地区的潜在空间分布和适宜生存环境。
8.进一步的,所述s1中,参阅已知物种分布信息途径可从野外考察、全球生物多样性信息网络数据库或中国数字植物标本馆任意一种获取;其中,对于物种模型建立平台采用最大熵模型、随机森林和广义线性模型中的任
意一种;在对丹参物种分布建模和环境变量建模中,可利用单一模型建立的形式,单一模型建立还包括:表面分布区分室模型、柔性判别分析、分类树分析、推进式回归树和人工神经网络。
9.且部分物种定位信息若存在误差,可删除其中重复或有误的地点,为避免模型过度拟合利用经纬度信息选取网格点,每个1km的网格点内只保留单个点,获得270个丹参存在点。
10.进一步的,所述s2中,环境变量数据信息包括:气候信息获取自世界气候数据库;土壤数据获取自国家青藏高原数据中心;地形获取自国家基础地理信息系统数据库;人类活动获取自nasa 地球观测数据,可观测近二十年来人类的迁移踪迹;所有环境因子的空间分辨率保持相同,均为 30
″
(~1km),生物气候变量间的高度相关性会影响模型的精度与预测结果,且采用最大熵模型、随机森林和广义线性模型中的任意一种测试数据之间的关联性,对于明显相关的变量,采用刀切法剔除对丹参分布贡献度小的变量,最终采用建模平台建立环境因子与物种分布关联的模型,所述真实技巧统计值越大,表明丹参分布模型与环境变量之间的相关性越强,其预测结果的精度越高。
11.进一步的,所述s3中,将十种常见的物种训练数据采用曲线下面积、真实技巧统计值任意一种指标评估模型表现。
12.进一步的,所述s4中,影响丹参分布的主导因子包括有:暖月的低温、冷季节平均潜在蒸散量、年潜在蒸散量、潜在蒸散量的月变化和冷月的高温;其次是人类活动和海拔高度。
13.进一步的,所述s5中,丹参物种分布与环境变量的组合模型预测结果有效说明丹参在中国的潜在空间分布和适宜生存环境,在当前气候环境下,丹参的适宜生长区域主要在我国亚热带至暖温带气候区。
14.3.有益效果相比于现有技术,本发明的优点在于:(1)本方案通过对物种分布信息与环境变量之间的关联性进行分析,从而建立物种分布和环境变量组合模型,可以准确分析和预测出丹参在全国范围内的种植效果及种植信息,减少丹参盲目种植的概率,有利于提升丹参的药用价值和药材质量。
15.(2)本方案通过分析环境变量对丹参种植的因素,针对气候、土壤、地形和人类活动四个方面,可以有效说明丹参在中国的潜在空间分布和适宜生存环境,给丹参的种植提供有力帮助。
附图说明
16.图1为本发明丹参适宜区域整体面积统计图;其中,a图部分为丹参适生区占比的折线统计图;b图部分为丹参在不同适宜区分布的整体柱状统计图。
具体实施方式
17.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
18.实施例:请参阅图1,一种测量物种分布数据与环境因子相关联的方法,包括以下步骤:s1:参阅已知物种分布信息,建立丹参物种分布模型,并对物种模型定位;丹参物种模型定位对于地点重复、有误的点,采用经纬度方式定位;s2:通过物种分布模型与环境变量之间的关联进行分析;其中,环境变量包括:气候、土壤、地形和人类活动;s3:基于s2中环境变量的基础上,选取了十种常用的物种分布模型,并在建模平台进行训练和验证模型;十种常见的物种训练数据采用random函数算法获得,物种分布模型是将物种已知的分布数据与环境因子相关联,在一定空间和时间尺度上预测物种的实际分布和潜在分布,模拟物种的现实生态位,并估计环境变量的贡献。
19.s4:验证模型精度,并分析环境变量对物种分布的影响;s5:预测模型在中国地区的潜在空间分布和适宜生存环境。
20.生态位模型被广泛应用于模拟物种的分布,这类模型基于生态位理论,如空间生态位、功能生态位和基础生态位的概念,利用物种已知的分布数据和相关环境变量根据一定的算法来推算物种的生态需求,然后将运算结果投射至不同的空间和时间来预测物种的实际分布和潜在分布;这种方案的生态位模型是基于物种分布点所关联的环境因子来推算物种的生态需求和模拟物种的分布。
21.s1中,参阅已知物种分布信息途径可从野外考察、全球生物多样性信息网络数据库或中国数字植物标本馆任意一种获取;其中,对于物种模型建立平台采用最大熵模型、随机森林和广义线性模型中的任意一种;在对丹参物种分布建模和环境变量建模中,可利用单一模型建立的形式,单一模型建立还包括:表面分布区分室模型、柔性判别分析、分类树分析、推进式回归树和人工神经网络。
22.且部分物种定位信息若存在误差,可删除其中重复或有误的地点,为避免模型过度拟合利用经纬度信息选取网格点,每个1km的网格点内只保留单个点,获得270个丹参存在点。
23.参阅下表1和表2,s2中,环境变量数据信息包括:气候信息获取自世界气候数据库;土壤数据获取自国家青藏高原数据中心;地形获取自国家基础地理信息系统数据库;人类活动获取自nasa 地球观测数据,可观测近二十年来人类的迁移踪迹;所有环境因子的空间分辨率保持相同,均为 30
″
(~1km),生物气候变量间的高度相关性会影响模型的精度与预测结果,且采用最大熵模型、随机森林和广义线性模型中的任意一种测试数据之间的关联性,对于明显相关的变量,采用刀切法剔除对丹参分布贡献
度小的变量,最终采用建模平台建立环境因子与物种分布关联的模型。
24.表1:环境变量数据信息的百分比统计表;
25.表2:环境变量数据信息各项因子的统计图;
26.其中,通过掷骰子试验可以比较容易地理解最大熵原理,将一枚骰子在同一桌面上多次投掷(总投掷次数记为n),我们只知道n次投掷结果的平均值为
µ
(假设
µꢀ
= 5.5),而对这枚骰子及投掷过程没有更多的信息,我们想知道的是骰子六个面出现的次数各是多少。现在假设六个面1,2,
…
,出现的次数分别为n1,n2,
…
,n6,对应的概率为pi=ni/n,记我们感兴趣的试验结果为向量n=(n1,n2,
…
,n6)或向量p=(p1,p2,
…
,p6),那么这个试验结果对应着很多种可能的“实现”方式。例如取n=3,3次投掷的结果是出现两个6点一个2点,则n=
(0,1,0,0,0,2),但这个n对应3种可能的“实现”方式:2点分别在第一、二、三次 投掷中出现。由简单的排列组合知识可知,向量n对应的实现方式数量为:
27.随机森林的算法原理还包括决策树:决策树最大的特点就是直观,易解释。大家生活中在某一个时刻也在无意或有意的使用它;决策树算法根据特征选择的方式不同,可以分为id3算法、c4.5算法、cart算法。在cart算法中,使用gini指数做特征选择,选择gini指数最小的特征以及其对应的切分点作为最优特征与最优的切分点,循环反复直到满足停止条件。
28.由于决策树几乎不对训练数据做任何的假设,在不添加任务约束,树结构将会根据训练数据的特性自由生长,达到百分百的正确率。为了提高决策树的泛化能力,决策树使用了剪枝的方法。但是剪枝在减少模型方差的同时,也减小了模型的偏差。使用bagging集成多棵决策树(cart树)就叫做随机森林。
29.bagging集成方法有效的前提条件是,基模型之间必须保持低相关性,低相关性才能保证基模型之间的差异性,有差异性的基模型组合在一起才能成为一个更强大模型。
30.为了让cart树有更大差异性,随机森林除了对样本进行随机过采样,增加训练集的随机性之外,还在树的生成时引入了额外的随机,即特征随机。在树的生成时,选择随机采样的特征中的最好的特征作为分裂节点,这样使得每棵树有更大的差异性。
31.随机森林的算法过程:输入:数据量为m的训练集d,t颗cart树输出:最终的随机森林f(x);a.对训练集d进行m次随机过采样,得到样本量为m的采样集dsample ;b.在所有属性特征中随机选择k个属性特征,选择最佳分割属性特征作为节点构建cart树t(x);c.重复以上两步t次,即建立了t棵决策树;d.这t颗决策树组成随机森林。如果是分类算法预测,则通过投票表决数据最终属于哪一个类别;如果是回归预测,则通过平均作为最终模型的输出。
32.广义线性模型:是简单最小二乘回归(ols)的扩展,在ols的假设中,响应变量是连续数值数据且服从正态分布,而且响应变量期望值与预测变量之间的关系是线性关系。而广义线性模型则放宽其假设,首先响应变量可以是正整数或分类数据,其分布为某指数分布族。其次响应变量期望值的函数(连接函数)与预测变量之间的关系为线性关系。因此在进行glm建模时,需要指定分布类型和连接函数。
33.采用上述几种建模平台,可根据实际对物种的分布数据和环境变量的统计信息进行使用,将不同的数据在不同的建模平台上进行单一分析后,再将总结出的结论数据汇总,经过筛选训练后的数据建立模型,便于后续对数据变量之间的统计,针对预测结果和分布数据精度具有明显提高效果;整体来看,组合模型通过集合各个模型的结果来提高预测准确性,是更 值得选择的方法。
34.s3中,将十种常见的物种训练数据采用曲线下面积、真实技巧统计值任意一种指
标评估模型表现,真实技巧统计值越大,表明丹参分布模型与环境变量之间的相关性越强,其预测结果的精度越高。
35.s4中,影响丹参分布的主导因子包括有:暖月的低温、冷季节平均潜在蒸散量、年潜在蒸散量、潜在蒸散量的月变化和冷月的高温;其次是人类活动和海拔高度;不同的环境因子在不同空间尺度下作用于物种的分布,在相对较大的尺度下,物种间的相互作用常被弱化,气候变量起主要的作用,过多的环境变量容易增加生态空间的维度,不利于模型的预测。
36.其中,气候变化是影响植物物种地理分布以及植被格局和结构的主要因素之一,全球日益升温,温室气体的排放也急剧增加。气候变化可能导致温度和降水量的增加,这同时也将对药用植物的分布、物候、害虫管理以及森林生态系统等产生重大影响;物种分布模型是探索全球变化背景下物种与环境之间相关生态问题的一个极其重要的工具被广泛应用于气候变化对物种分布影响和保护区的规划 研究,基于r语言开发的物种分布集成预测平台,能够对当前物种进行综合评估,在模型中集成准确度较优的模型对物种进行预测,从而最大限度地提高模型的精度和预测未来物种分布准确性。
37.参阅图1,s5中,丹参物种分布与环境变量的组合模型预测结果有效说明丹参在中国的潜在空间分布和适宜生存环境,在当前气候环境下,丹参的适宜生长区域主要在我国亚热带至暖温带气候区,温度和潜在蒸散发量是影响丹参分布的主要环境因子,从最适宜分布区面积来看,湖北、山东、河南、陕西和安徽等省面积较大。其中湖南、湖北、贵州、河南、江西和山东等省份不仅适生区面积大,且适生区面积占该省总面积的比值超过 80%以上,重庆市和浙江省的适生区面积虽然不高,但适生区面积占该省90%左右,四川的总适生区面积虽高,但占该省总面积的比例较小,集中 于四川省东部。
38.以上所述,仅为本发明较佳的具体实施方式;但本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围内。
技术特征:
1.一种测量物种分布数据与环境因子相关联的方法,其特征在于:包括以下步骤:s1:参阅已知物种分布信息,建立丹参物种分布模型,并对物种模型定位;所述丹参物种模型定位对于地点重复、有误的点,采用经纬度方式定位;s2:通过物种分布模型与环境变量之间的关联进行分析;其中,所述环境变量包括:气候、土壤、地形和人类活动;s3:基于s2中环境变量的基础上,选取了十种常用的物种分布模型,并在建模平台进行训练和验证模型;s4:验证模型精度,并分析环境变量对物种分布的影响;s5:预测模型在中国地区的潜在空间分布和适宜生存环境。2.根据权利要求1所述的一种测量物种分布数据与环境因子相关联的方法,其特征在于:所述s1中,参阅已知物种分布信息途径可从野外考察、全球生物多样性信息网络数据库或中国数字植物标本馆任意一种获取;对于物种模型建立平台采用最大熵模型、随机森林和广义线性模型中的任意一种;部分物种定位信息若存在误差,可删除其中重复或有误的地点,每个1km的网格点内只保留单个点,获得270个丹参存在点。3.根据权利要求1所述的一种测量物种分布数据与环境因子相关联的方法,其特征在于:所述s2中,环境变量数据信息包括:气候信息获取自世界气候数据库;土壤数据获取自国家青藏高原数据中心;地形获取自国家基础地理信息系统数据库;所有环境因子的空间分辨率保持相同,生物气候变量间的高度相关性会影响模型的精度与预测结果,且采用最大熵模型、随机森林和广义线性模型中的任意一种测试数据之间的关联性,对于明显相关的变量,采用刀切法剔除对丹参分布贡献度小的变量,最终采用建模平台建立环境因子与物种分布关联的模型。4.根据权利要求1所述的一种测量物种分布数据与环境因子相关联的方法,其特征在于:所述s3中,将十种常见的物种训练数据采用曲线下面积、真实技巧统计值任意一种指标评估模型表现。5.根据权利要求1所述的一种测量物种分布数据与环境因子相关联的方法,其特征在于:所述s4中,影响丹参分布的主导因子包括有:暖月的低温、冷季节平均潜在蒸散量、年潜在蒸散量、潜在蒸散量的月变化、冷月的高温和人类活动和海拔高度。6.根据权利要求1所述的一种测量物种分布数据与环境因子相关联的方法,其特征在于:所述s5中,预测模型中加入化学分析法研究不同产地丹参土壤理化性质与无机元素含量之间的关系数据,预测模型得出结论:温度是决定丹参分布的主要因素,对于丹参次生代谢也具有影响。7.根据权利要求3所述的一种测量物种分布数据与环境因子相关联的方法,其特征在于:在对丹参物种分布建模和环境变量建模中,可利用单一模型建立的形式,单一模型建立还包括:表面分布区分室模型、柔性判别分析、分类树分析、推进式回归树和人工神经网络。8.根据权利要求4所述的一种测量物种分布数据与环境因子相关联的方法,其特征在于:十种常见的物种训练数据采用random函数算法获得。
技术总结
本发明公开了一种测量物种分布数据与环境因子相关联的方法,属于生物地理研究领域,一种测量物种分布数据与环境因子相关联的方法,包括以下步骤:S1:参阅已知物种分布信息,建立丹参物种分布模型,并对物种模型定位;所述丹参物种模型定位对于地点重复、有误的点,采用经纬度方式定位;S2:通过物种分布模型与环境变量之间的关联进行分析;其中,所述环境变量包括:气候、土壤、地形和人类活动;S3:基于S2中环境变量的基础上,选取了十种常用的物种分布模型,并在建模平台进行训练和验证模型;它可以实现,采用建模平台建立环境因子与物种分布关联的模型,并对物种进行训练、分析,总结出丹参在我国的种植区域的相关有益信息。出丹参在我国的种植区域的相关有益信息。出丹参在我国的种植区域的相关有益信息。
技术研发人员:王茹琳 赵金鹏 罗伟 王明田 杨玉霞 王闫利
受保护的技术使用者:四川省农村经济综合信息中心
技术研发日:2023.08.07
技术公布日:2023/9/9
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/