基于Levy分布的船舶数据演化采样方法与流程

未命名 09-11 阅读:87 评论:0

基于levy分布的船舶数据演化采样方法
技术领域
1.本发明属于采样领域,具体涉及一种在马尔科夫蒙特卡洛基础上的基于levy分布的船舶数据演化采样方法。


背景技术:

2.采样是对目标概率分布求得样本分布的过程,通过代表性的样本可以对目标概率分布进行有效的分析和利用。在很多机器学习领域中的计算和仿真问题上都发挥重要的作用。
3.对于一个可以运用概率的框架得到解决的机器学习问题来说,一种有效的采样策略获得目标概率函数具有代表性的样本就显得尤为重要。许多类型的采样策略已经被相继提出,包括反变换法、接受-拒绝采样法、重要性采样法和马尔可夫链蒙特卡洛(markov chain monte carlo,简称mcmc)方法等。
4.在机器学习中,当求解随机事件出现的概率、随机变量的期望值以及贝叶斯推断中对后验概率分布的分析等问题时,随机分布的某些数字特征可能需要通过积分的形式来求解,然而某些积分可能没有或者很难求得解析解,给具体问题的分析带来一定的困难。对于可以使用概率框架求解的此类问题,通过转换成某种随机分布的特征数进行计算是一种新的求解途径。对于均匀分布,计算机可以很容易地对它进行采样,但对较为复杂的分布进行采样,传统的计算方法却往往无法求解,mc方法作为以概率统计为基础的数值计算方法能够有效解决这一难题。mc方法的核心思想是使用随机数来解决一些复杂的计算问题。即通过随机采样的方法,利用随机事件出现的频率估计其概率,或者利用样本的数字特征估算随机变量的数字特征,并且将其作为问题的解。传统的拒绝采样和重要性采样等策略均属于独立采样,即样本与样本之间是独立无关的。由于所抽取的样本中很大部分是无效的,导致采样的效率很低。马尔可夫链蒙特卡洛方法是关联采样,即样本之间存在关系,采样效率较高,几乎满足采样的效率和精度等各种需求。演化采样策略是建立在mcmc基础上的模拟生物进化过程的采样方法,将演化计算、函数逼近与拒绝抽样相结合,并且应用概率框架来实现对可逐点计算的概率密度函数的最佳逼近,几乎适用于所有可转换为以概率框架进行计算的机器学习问题。
5.随着流体力学理论的不断进步和计算机技术的快速发展,将基于流体力学理论的船体线性优化设计应用于实际船舶设计中已经成为了主流。但是,cfd技术也存在着计算量大、模拟成本高等问题,因此,如何基于船舶物理实验数据和cfd仿真数据设计计算量更小、效率更高的船舶设计和总体性能评价方法,是增强我国造船业在国际市场上的竞争力、提高我国造船企业的造船能力的迫切需要。由于船舶建模与子样设计所需要的物理实验数据来源少,获取数据的实验成本高,采集数据十分困难,很多关于船型特征的数据难以获取,若船型特征的数据不足或是补充采集的数据质量不高,则会影响后续代理模型的准确度以及模型优化难等一系列问题。基于levy分布的演化采样算法则可以通过已有的物理实验数据,补充采集一组合理可靠的船型数据,为后续模型的构建和优化提供充分且合理的数据
支撑。


技术实现要素:

6.本发明旨在提供一种新颖的在马尔科夫蒙特卡洛基础上的基于levy分布的演化采样方法,来解决现有船舶建模与子样设计存在物理实验数据来源少、实验成本高、采样困难等问题,进而为后续的代理模型设计提供充分且合理的数据支撑。
7.本发明的技术方案:
8.基于levy分布的船舶数据演化采样方法,具体步骤如下:
9.(1)根据已有的船舶数据om{x1,x2,...,xm},其中,m表示数据的条数,每一条数据x都有d个特征,表示为{x1,x2,...,xd},k表示第k次迭代,初始化时,令k=0,通过求取每一个数据特征最大值最小值之差与服从01分布随机数的乘积,初始化ns组船舶数据支持样本,初始船舶数据样本集初始船舶数据样本集表示初始船舶数据样本集中的第ns条数据,初始船舶数据样本集中的每一条数据也都包括d个特征。
10.(2)对于船舶数据样本集中的每个船舶数据样本执行步骤(3)~(6),表示船舶数据样本集中第k次迭代中第i条数据。
11.(3)对于每条船舶数据中的每个特征执行步骤(3)-(4),根据α的取值利用levy分布函数作为转移概率函数不同取值下,对每个船舶数据样本的特征根据生成一个候选值j=1,2,...,d,其候选支持样本为
12.(4)在[0,1]范围内生成一个均匀随机数r;如果满足那么接受然后执行下步骤(5);否则拒绝则令则令表示第k次迭代中第i个数据的第j个特征。
[0013]
(5)直到所有特征都更新完成,计算的值,在[0,1]范围生成另一个均匀随机数r

,如果满足那么成功接受否则拒绝它。
[0014]
(6)如果被成功接受,那么令否则令
[0015]
(7)更新等式k=k+1,在levy分布函数中,不同取值下α=1.0的情况下更新样本集在α=2.0的情况下更新样本集在α=2.0的情况下更新样本集和,并计算对应的标准偏和若则样本集为否则样本集为
[0016]
(8)如果两个连续的支持样本集之间的差异很小或者满足其他终止条件,那么结束采样程序;否则执行步骤(2)。
[0017]
(9)输出最终的支持样本集和对应的pk(x)。
[0018]
进一步的,所述的步骤(1)中,已有的船舶数据包括船长、船宽、吃水、初始纵倾、初稳性高、水线长、横摇周期、重心高度、方形系数、舭龙骨面积、进水角、风压力矩、测投影面积、测投影面心高度和排水量;其中船长、船宽、初始纵倾、水线长、方形系数、舭龙骨面积、进水角、风压力矩、测投影面积、侧投影面心高度均为定值,横摇周期的值由其他变化的值计算而得,因此不对其采样,对吃水、初稳性高、重心高度和排水量进行采样。
[0019]
进一步的,所述的步骤(3)中,具体如下:
[0020]
在es中,ssm利用核函数密度估计kde来表示样本的分布情况。在kde中,样本集的概率密度分布由一组高斯密度函数的加权组合来表示。ssm定义如式子(2)所示:
[0021][0022]
其中,是样本数据,i=1
…ns
,ns是样本的数量,ai是权值系数设为1/ns。。高斯核函数k定义如式子(3)所示:
[0023][0024]hi
是带宽,即kde的平滑参数。通过高斯核函数对样本数据的处理,ssm能够应用在es算法中。选择“拇指规则”来生成最优的带宽参数值,可以使核函数密度估计能够容易地实现近似。silverman拇指规则表达式如(4)所示:
[0025][0026]
其中,σi为样本方差,i=1,2...d。
[0027]
由式子(2)(3)可以求得目标模型的概率密度分布和支持样本集ssm的概率密度:将式子(2)中的样本集用已有的船舶数据集om代替,即可求得所需的目标模型的概率分布π(x),支持样本集ssm的概率密度p(x)直接带入式(2)(3)即可求得。
[0028]
由levy分布作为转移概率函数表示在当前第k次迭代时,当前样本生成候选样本的概率,将当前样本作为分布的位置参数值,由此分布去计算候选样本的概率,如式(5)所示:
[0029][0030]
其中,γ是比例因子,满足γ>0,将γ取值设为1。α控制分布的形状,满足0<α<2。q表示积分字母;对于α=1,这个积分能够被缩减为柯西分布。在α

2时,分布不再是levy分布,而是变成高斯分布。参数α控制分布的范围,使概率分布呈现不同的形状,尤其是尾巴区域,参数α越小,尾巴越长。
[0031]
生成服从levy分布的候选样本的公式如式(6)所示:
[0032][0033]
其中,v是服从均匀分布的随机数,w是服从均值为1的指数分布的随机数,μ表示位置参数,设定表示以当前特征值作为位置参数的levy分布选取候选值。x表示不同α取值时的的值;通过式(6)得到的候选支持样本为生成候选样本,再通过式(5)计算其转移函数的概率值用于后续计算。
[0034]
进一步的,所述的步骤(4)中,的计算过程如下:
[0035][0036]
然后,再通过式(8)进行第二次拒绝接受选择:
[0037][0038]
与经典的metropolis-hasting拒绝采样具有类似的形式,即hasting拒绝采样具有类似的形式,即满足细节平衡等式不同于传统的拒绝采样策略,是es算法的第二次拒绝选择操作,能够确保对的近似效果。pk(x)是用来对样本进行概率密度估计的支持样本模型。
[0039]
进一步的,所述的步骤(7)中和的计算过程为:
[0040]
es算法的性能常用收敛性、标准偏差和运算时间进行评价。通过如式(9)所示计算得到的标准化因子λ,可以用来评价算法的收敛性。
[0041][0042]
当λ收敛到一个稳定的值时,es算法即收敛得到一个最优的稳定解。因此,相邻两次演化采样过程的λ值的变化程度决定es学习过程是否终止。也就是,如果λ的改变很小,表示es算法即结束演化过程。
[0043][0044]
其中,表示标准化输出,即根据式(10)可以看出,标准偏差j越小,所得到的支持样本集与目标概率分布的真实样本集越接近,样本的精度越高。
[0045]
本发明的有益效果:本发明引入了一种自适应levy分布参数来完成演化采样任务。它通过设定参数α不同的取值,使得转移概率分布对应不同的对称分布,扩大搜索空间,增加了候选样本的多样性。在测试函数上与多种分布函数的演化采样进行了比较,结果表明,该方法能够提供准确可靠的采样结果。
附图说明
[0046]
图1为基本的演化采样算法的流程图
[0047]
图2为不同参数的levy概率分布和对称指数概率分布图
[0048]
图3为不同参数的levy概率分布和对称指数概率分布的“厚尾”分布
[0049]
图4为基于levy分布的自适应演化采样的算法流程图
[0050]
图5(a)——图5(f)为四种演化采样算法在单峰函数上的收敛性和精度曲线图
[0051]
图6(a)——图6(l)为四种演化采样算法在具有轻微局部最优的函数上的收敛性和精度曲线图
[0052]
图7(a)——图7(l)为四种演化采样算法在具有明显的局部最优函数上的收敛性和精度曲线图
[0053]
图8为es-alpd算法应用到测试函数π14时成功接受的候选样本数量。总的成功接受的数量和应加至100%
[0054]
图9(a)为15个测试函数得到的标准偏差的数据分布曲线
[0055]
图9(b)为15个测试函数得到的标准化因子的数据分布曲线
[0056]
图10(a)为算法在实际船型数据上的收敛性
[0057]
图10(b)为算法在实际船型数据上的精度曲线图
具体实施方式
[0058]
以下根据附图及实施例对本发明的技术方案进行进一步的说明。
[0059]
1.马尔科夫蒙特卡洛
[0060]
马尔科夫链蒙特卡洛方法(markov chain monte carlo),简称mcmc,产生于20世纪50年代早期,是在贝叶斯理论框架下,通过计算机进行模拟的蒙特卡洛方法(monte carlo)。该方法将马尔科夫(markov)过程引入到monte carlo模拟中,实现抽样分布随模拟的进行而改变的动态模拟。
[0061]
马尔可夫链蒙特卡洛的优点是能够解决蒙特卡洛方法难以解决的复杂概率分布的模拟问题;缺点是存在如何选择马尔可夫链使其能快速收敛到平稳分布,如何判断达到稳定状态,以及产生的随机数难以满足相互独立的性质等问题。虽然马尔可夫链蒙特卡洛方法不够完善,但是它对于很多复杂难以解决的问题来说是一个独特有效的解决办法。
[0062]
马尔可夫链蒙特卡洛有多种算法,在介绍mcmc算法之前,先介绍马尔可夫链可逆性和细节平衡方程的定义。
[0063]
定义1.1:以π为初始分布的平稳的马尔可夫链,其状态空间为s,如果对于所有的x,y∈s,以下等式成立:
[0064]
π(x)q(x,y)=π(y)q(y,x)
ꢀꢀꢀ
(1)
[0065]
其中q(x,y)为x到y的一步转移概率,则称该马尔可夫链为可逆的。不同的转移概率函数构造方法代表不同的mcmc方法。下面分别介绍两种著名的mcmc算法,即metropolis-hastings算法和gibbs算法。
[0066]
metropolis-hastings算法的思路是这样的:
[0067]
首先,依据目标分布π(x)选取确定合适的状态空间s,并选取最初的转移密度函数q(xi,y),其中xi∈s,i=0,1,...n,下同;
[0068]
其次,选取合适的马尔可夫链初始值x0;
[0069]
第三,按照最初的转移密度函数q(xi,y),根据上一步确定的随机数xi产生随机数y;
[0070]
第四,按照如下接受-拒绝概率ti(x,y)表达式,接受上一步产生的随机数y:
[0071][0072]
若接受,则令x
i+1
=y,否则,令x
i+1
=xi;
[0073]
第五,重复上述步骤中的第三步和第四步,直至产生足够数量的随机数为止。
[0074]
gibbs算法的思路如下:
[0075]
gibbs采样是一种简单且已经得到广泛应用的算法,常用来对多维随机变量进行采样。gibbs算法是metropolis-hastings采样方法的一种特殊情况。设x是一个n维的随机变量,其概率分布表示为p(x)=p(x1,x2...xn)。令x
\k
=x1,...x
k-1
,x
k+1
...xn,利用gibbs采样方法对随机变量x进行采样的步骤如下:
[0076]
第一步:对马尔可夫链进行随机初始化,得到初始化状态x0;
[0077]
第二步:令t=0,...,n
[0078]
(1)利用条件分布对变量进行采样;
[0079]
(2)利用条件分布对变量进行采样;
[0080]

[0081]
(3)利用条件分布对变量进行采样;
[0082]

[0083]
(4)利用条件分布对变量进行采样
[0084]
第三步:
[0085]
在时间t范围内对随机变量进行循环采样,最终可得到n维随机变量x的马尔可夫链x
(1)
...x
(n)

[0086]
gibbs算法对随机变量xk采样时,保证其它变量不变。令x
*
为产生的候选样本,那么gibbs采样算法可以看作是metropolis-hastings采样算法的一种特殊情形,其接受概率函数的值始终为1,因此,利用概率分布采样得到的样本始终被接受作为随机变量的样本。
[0087]
从上述算法可以看出gibbs采样算法将多维的抽样问题转化为一维变量的采样问题。这成为gibbs采样算法能够广泛应用的重要因素。
[0088]
以上主要论述了最基本的metropolis-hastings算法及它的特例gibbs算法。metropolis-hastings算法还有很多种推广算法,这里就不一一叙述了。
[0089]
2.演化采样算法的理论基础
[0090]
演化采样学习的目的是获得最优的ssm参数来近似一个概率分布。一般来说,该问题可以在一个概率框架下表示为如下形式:
[0091][0092]
其中,x
s*
是所有可能支持样本的最优组合,mp(
·
)和π(
·
)分别代表ssm和目标模型的概率分布,||
·
||
tv
表示全变量距离。为方便描述,我们令p(
·
)和g(x,y,θ)分别代替mp(
·
)和k(x,y;θ)。方程(3)意味着最优的支持样本集可以在演化过程中,通过使ssm和目标模型之间的距离最小化来得到。
[0093]
es算法根据拒绝采样策略的核心思想,为每个支持样本设计一个类似的采样程序,因此在es中有ns个并发的拒绝采样链。对于每个采样链,首先生成一个候选样本,然后该候选样本以一定的概率被接受成为新样本。通常,我们令ak(x,y)表示在第k个拒绝采样步骤中,从样本x生成一个新的样本y的概率。令αk(x,y)表示接收数据y作为新样本的概率。因此,如果当前支持样本数据是x,那么在执行第k个拒绝采样步骤之后,接收样本数据的y(y不等于x)作为新样本的概率是ak(x,y)
×
αk(x,y),这与传统拒绝采样策略是一致的。因此,ak(x,y)和αk(x,y)的具体表达式将完全决定最后的采样结果。以下公式被用来解决等式(3)。
[0094]
[0095][0096]
其中,qk(x,y)是从x直接生成新的候选样本y的概率,并且满足对称性,即qk(x,y)=qk(y,x)。转移概率函数具有多种选择(如对称指数函数和高斯函数等),能够直接影响搜索范围,是演化采样算法性能的主要决定因素。不同的采样问题往往需要不同的转移概率函数来实现预期的目标。
[0097]
3.方法概述
[0098]
在马尔可夫链中,父样本根据一定的转移概率函数生成子样本。一个有前途的子代往往能够使马尔可夫链加速收敛。因此转移概率函数的选择十分重要。对于转移概率函数的选择,很多具有有限二阶矩的函数已经被考虑,如正态分布和对称指数分布等。我们将引入一种具有无限二阶矩且参数可调节的函数,即levy概率分布,作为转移概率函数进行es算法的设计。
[0099]
考虑一个由一组同分布的随机变量{yi}表示的过程,如果这些随机变量的和具有相同的概率分布,能够作为个体随机变量,那么这个过程称为稳定。一个典型稳定过程的例子是高斯过程。与具有有限二阶矩的高斯过程类似,有一类具有无限二阶矩的概率分布同样能产生稳定的过程。这种概率分布称为levy概率分布,有如下式子:
[0100][0101]
levy分布是关于y=0对称的,有两个参数γ和α。γ是比例因子满足γ>0,通常设为γ=1。α控制分布的形状,满足0<α<2。这个积分的解析式对于普通的α是未知的,但对于一些特殊的情况可以得到它的解析式。特别地,对于α=1,这个积分能够被缩减为柯西分布。在α

2时,分布不再是levy分布,而是变成高斯分布。参数α控制分布的范围,使概率分布呈现不同的形状,尤其是尾巴区域,参数α越小,尾巴越长。对于levy分布的一般情况来说,我们可以近似得到如下解析式:
[0102][0103]
其中x代表由levy分布得到的随机变量,w是一个均值为1的指数分布的随机变量。
[0104]
由于levy分布参数可调节的特性,对于在每一代的每个转移操作过程中,我们利用两个不同的参数α(分别为α=1.0,α=2.0),从一个父样本生成两个子样本,然后选择其中一个较为优秀的作为候选样本。其中,α=1.0和α=2.0分别是levy分布的两个特例,即柯西分布和高斯分布。利用这种自适应的levy分布作为转移概率函数,将使采样算法在执行演化过程中,判断哪个样本与标准样本更为接近,动态地选择参数α的值,实现从全局搜索到局部微调。这种转移概率函数方案是自适应的,对参数α的选择,不需要预先定义,而是由具体的演化过程来决定。
[0105]
4.实验数据集
[0106]
(一)已有的船型数据,如表1所示,展示部分数据:
[0107]
表1已有船型数据的部分数据展示
[0108][0109][0110]
基于levy分布的船舶数据演化采样方法步骤如下:
[0111]
(1)根据已有的船型数据om{x1,x2,...,xm},其中,m表示数据的条数,每一条数据x都有d个特征,表示为{x1,x2,...,xd},k表示第k次迭代,初始化时,令k=0,通过求取每一个数据特征最大值最小值之差与服从01分布随机数的乘积,初始化ns组船型数据支持样本,初始船型数据样本集初始船型数据样本集表示初始船型数据样本集中的第ns条数据,初始船型数据样本集中的每一条数据也都包括d个特征;
[0112]
(2)对于船型数据样本集中的每个船型数据样本执行步骤(3)~(6),表示船型数据样本集中第k次迭代中第i条数据;
[0113]
(3)对于每条船型数据中的每个特征执行步骤(3)-(4),根据α的取值利用levy分布函数作为转移概率函数不同取值下,对每个船型数据样本的特征根据生成一个候选值j=1,2,...,d,其候选支持样本为
[0114]
(4)在[0,1]范围内生成一个均匀随机数r;如果满足那么接受然后执行
[0115]
下步骤(5);否则拒绝则令表示第k次迭代中第i个数据的第j个特征;
[0116]
(5)直到所有特征都更新完成,计算的值,在[0,1]范围生成另一个均匀随机数r

,如果满足那么成功接受否则拒绝它;
[0117]
(6)如果被成功接受,那么令否则令
[0118]
(7)更新等式k=k+1,在levy分布函数中,不同取值下α=1.0的情况下更新样本集在α=2.0的情况下更新样本集在α=2.0的情况下更新样本集和,并计算对应的标准偏差和若则样本集为否则样本集为
[0119]
(8)如果两个连续的支持样本集之间的差异很小或者满足其他终止条件,那么结束采样程序;否则执行步骤(2);
[0120]
(9)输出最终的支持样本集和对应的pk(x)。
[0121]
表1中其中船长,船宽,初始纵倾,水线长,方形系数,舭龙骨面积,进水角,风压力矩,测投影面积,侧投影面心高度均为定值,横摇周期的值由其他变化的值计算而得,因此不对其采样,我们对吃水,初稳性高,重心高度和排水量进行采样,则我们初始化ns组支持样本时,时,其他特征值计算相同,获取多个服从01分布的随机数u,即可获取多组数值,若在已有数据中有其他特征的值发生变化需要采样,如舭龙骨面积,则可增加采样特征数量对变化的特征进行补充采样,例如初始化样本集完成后,我们对其特征进行采样。
[0122]
演化采样学习的目的是获得最优的ssm参数来近似一个概率分布。一般来说,该问题可以在一个概率框架下表示为如式(1)所示:
[0123][0124]
其中,x
s*
是所有可能支持样本的最优组合,mp(.)和π(
·
)分别代表ssm和目标模型的概率分布,||
·
||
tv
表示全变量距离。为方便描述,我们令p(
·
)和g(x,y,θ)分别代替mp(
·
)和k(x,y;θ)。式(1)意味着最优的支持样本集可以在演化过程中,通过使ssm和目标模型之间的距离最小化来得到。
[0125]
在es中,一种计算模型称为支持样本模型(support sample model,简称ssm),被用来近似样本数据的概率密度。因此演化采样方法的实现需要寻找ssm的最优参数。结合拒
绝抽样策略和演化搜索等知识,es方法理论上可以通过使全变量距离最小化收敛到最优解,具有较高的计算效率。ssm利用核函数密度估计(kernel density estimation,简称kde)来表示样本的分布情况。在kde中,样本集的概率密度分布由一组高斯密度函数的加权组合来表示。ssm定义如式子(2)所示
[0126][0127]
其中,是样本数据,i=1...ns,ns是样本的数量,ai是权值系数设为1/ns;高斯核函数k定义如式子(3)所示:
[0128][0129]hi
是带宽,即kde的平滑参数;通过高斯核函数对样本数据的处理,ssm能够应用在es算法中;选择“拇指规则”来生成最优的带宽参数值,可以使核函数密度估计能够容易地实现近似;silverman拇指规则表达式如(4)所示:
[0130][0131]
其中,σi为样本方差,i=1,2...d;
[0132]
由式子(2)(3),我们可以得到已有船型数据特征值所对应的概率密度分布,即我们所需的目标模型的概率分布π(x)=π(x
吃水
,x
初稳性高
,x
重心高度
,x
排水量
),也可以求得对应支持样本集(ssm)的概率密度p(x)=p(x
吃水
,x
初稳性高
,x
重心高度
,x
排水量
),即下述描述中所提到的π(x)和p(x)。
[0133]
由levy分布作为转移概率函数表示在当前第k次迭代时,当前样本生成候选样本的概率,将当前样本作为分布的位置参数值,由此分布去计算候选样本的概率,如式(5)所示:
[0134][0135]
levy分布有两个参数γ和α。γ是比例因子满足γ》0,通常设为γ=1。α控制分布的形状,满足0<α<2。这个积分的解析式对于普通的α是未知的,但对于一些特殊的情况可以得到它的解析式。特别地,对于α=1,这个积分能够被缩减为柯西分布。在α

2时,分布不再是levy分布,而是变成高斯分布。参数α控制分布的范围,使概率分布呈现不同的形状,尤其是尾巴区域,参数α越小,尾巴越长。
[0136]
生成服从levy分布的候选样本y的公式如式(6)所示:
[0137][0138]
其中,v是服从均匀分布的随机数,w是服从均值为1的指数分布的随机数,μ表示位置参数,设定表示以当前特征值作为位置参数的levy分布选取候选值;x表示不同α取值时的的值;通过式(6)得到的候选支持样本为生成候选样本,再通过式(5)计算其转移函数的概率值用于后续计算。
[0139]
es算法根据拒绝采样策略的核心思想,为每个支持样本设计一个类似的采样程序,因此在es中有ns个并发的拒绝采样链。对于每个采样链,首先生成一个候选样本,然后该候选样本以一定的概率被接受成为新样本。通常,我们令ak(x,y)表示在第k个拒绝采样步骤中,从样本x生成一个新的样本y的概率。令αk(x,y)表示接收数据y作为新样本的概率。因此,如果当前支持样本数据是x,那么在执行第k个拒绝采样步骤之后,接收样本数据的y(y不等于x)作为新样本的概率是ak(x,y)
×
αk(x,y),这与传统拒绝采样策略是一致的。因此,ak(x,y)(如式子(7)所示)和αk(x,y)(如式子(8)所示)的具体表达式将完全决定最后的采样结果。的计算过程如下:
[0140][0141]
式(7)可以依次表示为:
[0142]
对吃水特征进行采样时:
[0143][0144]
其中,
[0145]
对初稳性高特征采样时:
[0146][0147]
其中,
[0148]
对重心高度特征采样时:
[0149][0150]
其中,
[0151]
对排水量特征采样时:
[0152][0153]
其中,
[0154]
然后,再通过式(8)进行第二次拒绝接受选择:
[0155][0156]
与经典的metropolis-hasting拒绝采样具有类似的形式,即
满足细节平衡等式不同于传统的拒绝采样策略,是es算法的第二次拒绝选择操作,能够确保对的近似效果;pk(x)是用来对样本进行概率密度估计的支持样本模型。
[0157]
es算法的性能常用收敛性、标准偏差和运算时间进行评价。通过如式(9)所示计算得到的标准化因子λ,可以用来评价算法的收敛性。
[0158][0159]
当λ收敛到一个稳定的值时,es算法即收敛得到一个最优的稳定解。因此,相邻两次演化采样过程的λ值的变化程度决定es学习过程是否终止。也就是,如果λ的改变很小,表示es算法即结束演化过程。
[0160]
根据式(10)可以看出:
[0161][0162]
其中,表示标准化输出,即根据式(10)可以看出,标准偏差j越小,所得到的支持样本集与目标概率分布的真实样本集越接近,样本的精度越高。
[0163]
(二)共15个测试函数,包含了3个单峰函数π1~π3,6个具有轻微局部最优的函数π4~π9以及6个具有明显局部最优的函数π
10
~π
15

[0164]
利用表1中的数据,对其船型数据进行采样。
[0165]
表2本文实验采用的测试函数及其范围
[0166]
[0167][0168]
实施例
[0169]
我们使用业内众所周知的python来实现我们的代码.
[0170]
实验1:通过15个测试函数对采样自适应levy分布的演化采样算法(简称es-alpd)的性能进行法性能的影响。同样地,与采用高斯分布、柯西分布和对称指数分布作为转移概率函数的三种演化采样算法(分别简称为es-gpd、es-cpd和es-sepd)进行对比。通过三种类型测试函数的仿真实验,验证es-alpd算法的性能。
[0171]
实验2:设置采集样本数为30,迭代数为100,将转移概率函数分别设置为l
é
vy分布,高斯分布和柯西分布,分别计算标准偏差j和标准因子λ,通过实际应用实验,验证es-alpd算法的性能。
[0172]
表3四种演化采样算法在最后一代的标准偏差和标准化因子的值
[0173]
[0174]
1.1单峰函数
[0175]
对于四种演化采样算法,提高算法的精度。因此es-alpd算法在保证算法的收敛速度的同时,也能够得到较高的精度。对于es-cpd算法,由于π1~π3是单峰函数,可以在短时间内快速地收敛,但是由于柯西分布的搜索步长较大,候选样本成功接受的数量并不多,使得演化过程在接近最优状态时,往往跳离最优状态,得到样本的精度不高,在图5(a)中可以明显地看到这一现象。对于es-sepd算进行线性调节,使搜索范围由大到小逐渐变化,保证演化算法实现从全局搜索到局部调整。从表3和图5(a)——图5(f)可以看出,对单峰函数类型的不同函数,es-sepd算法常常能够获得比es-cpd略好,且略差于es-alpd算法的近似效果。对于es-gpd算法,采用高斯函数作为其转移概率函数,具有最小的搜索范围。
[0176]
图5(a)——图5(f)标准偏差和标准化因子的曲线变化图和表3的数据均表明,es-gpd算法的收敛速度最慢,从演化过程开始,逐渐搜索得到大量可接受的候选样本,经过大量的时间后才收敛到样本的最优状态,其近似效果往往略差于es-cpd、es-sepd和es-alpd三种演化采样算法。
[0177]
1.2具有轻微局部最优函数
[0178]
对于具有轻微局部最优的函数,π4~π9,从图6(a)——图6(l)可以观察到,es-alpd算法产生的近似效果与es-cpd算法产生的效果类似,且明显优与其他两种算法。由于这6个测试函数本身均具有轻微程度的局部最优特性,一个较大范围的搜索能力往往有益于算法跳出局部最优,产生好的近似效果。虽然es-alpd算法和es-cpd算法产生的近似效果类似,但是在演化过程的后期,es-alpd算法可以通过高斯分布进行小范围的搜索,得到更多优秀的候选样本,而es-cpd算法利用柯西分布产生大的搜索步长常常很难得到更多优秀的候选样本,导致es-alpd算法的精度略高于es-cpd。对于es-sepd算法,由于对不同的问题需要对参数线性地调整,其搜索范围可能会大于柯西分布,导致收敛速度最快,见图6(c),在演化学习过程初期,成功接受的候选样本数量不够多,因此样本的精度不如es-cpd和es-alpd两种算法。并且对称转移概率函数搜索范围的调整可能导致算法陷入局部最优,影响最后样本的精度,见图6(a),图6(i)和图6(k)。对于es-gpd算法,以较大的候选样本接受数量获取样本数据,以及较慢的速度逐渐收敛,同样容易陷入局部最优状态,影响算法对目标概率函数的近似效果。
[0179]
l.3具有明显局部最优的函数
[0180]
对于π
10
~π
15
,从图7(a)——图7(l)可以看出,es-alpd算法仍然产生较好的近似效果。由于这6个函数均具有明显的局部最优特点,产生大范围搜索步长的转移概率函数将能够使演化采样算法跳出局部最优。因此,与es-sepd算法和es-gpd算法相比,es-alpd和es-cpd两个算法均能够取得好的近似效果。由于es-alpd算法在演化学习过程的后期,主要采用高斯分布作为转移概率函数,得到的样本精度略微高于es-cpd算法。对于es-sepd算法,通过对搜索步长的调节尽可能地使算法达到好的近似效果,与es-alpd和es-cpd相比效果稍差一些。es-gpd算法仍以很慢的速度进入收敛状态,对目标概率函数的近似效果不够理想。
[0181]
表3给出了es-alpd仿真实验的结果,可以看出es-alpd算法在四种演化采样算法中,对于不同类型的测试函数,均取得最高的样本精度。这意味着es-alpd算法的转移概率函数方案的设计,自适应地选择α=1.0和α=2.0,对于任意复杂的概率密度函数都是有效
的。
[0182]
为了更清晰的看到es-alpd算法的演化过程,我们以测试函数π14为例,对演化过程的细节进行分析。从图8可以看到两个明显的变化趋势,一个是在初始阶段,柯西分布对于生成候选样本发挥重要作用,另一个是在后期,在第100th左右,高斯分布逐渐成为转移概率函数的主要角色。图8的结果与图7(i)的标准偏差结果保持一致,整个算法首先利用柯西分布快速收敛到最优样本集,然后利用高斯分布逐渐提高样本集的精度。这与演化采样算法的执行过程是一一对应的,在初始阶段,初始样本集与最优样本集的全变量距离值很大,此时,柯西分布用一个大范围的搜索步长搜索空间,跳出局部最优;随着全变量距离值的减小,样本集逐渐接近最优样本集,高斯分布主要开始发挥生成候选样本的作用,在小范围内进行搜索,提高样本精度。
[0183]
如图10(a)和图10(b),我们可以看到对应三个转移分布函数的采样算法,es-alpd算法精度高于es-cpd和es-gpd算法的精度,且明显优与其他两种算法,这意味着es-alpd算法的转移概率函数方案的设计,自适应地选择α=1.0和α=2.0,对于船型数据的采集是有效的,可以得到可靠合理的采集数据。

技术特征:
1.基于levy分布的船舶数据演化采样方法,其特征在于,具体步骤如下:(1)根据已有的船舶数据o
m
{x1,x2,

,x
m
},其中,m表示数据的条数,每一条数据x都有d个特征,表示为{x1,x2,

,x
d
},k表示第k次迭代,初始化时,令k=0,通过求取每一个数据特征最大值最小值之差与服从01分布随机数的乘积,初始化n
s
组船舶数据支持样本,初始船舶数据样本集舶数据样本集表示初始船舶数据样本集中的第n
s
条数据,初始船舶数据样本集中的每一条数据也都包括d个特征;(2)对于船舶数据样本集中的每个船舶数据样本执行步骤(3)~(6),表示船舶数据样本集中第k次迭代中第i条数据;(3)对于每条船舶数据中的每个特征执行步骤(3)-(4),根据α的取值利用levy分布函数作为转移概率函数不同取值下,对每个船舶数据样本的特征根据生成一个候选值其候选支持样本为(4)在[0,1]范围内生成一个均匀随机数r;如果满足那么接受然后执行下步骤(5);否则拒绝则令则令表示第k次迭代中第i个数据的第j个特征;(5)直到所有特征都更新完成,计算的值,在[0,1]范围生成另一个均匀随机数r',如果满足那么成功接受否则拒绝它;(6)如果被成功接受,那么令否则令(7)更新等式k=k+1,在levy分布函数中,不同取值下α=1.0的情况下更新样本集在α=2.0的情况下更新样本集在α=2.0的情况下更新样本集和,并计算对应的标准偏差和若则样本集为否则样本集为(8)如果两个连续的支持样本集之间的差异很小或者满足其他终止条件,那么结束采样程序;否则执行步骤(2);(9)输出最终的支持样本集和对应的p
k
(x)。2.根据权利要求1所述的基于levy分布的船舶数据演化采样方法,其特征在于,所述的步骤(1)中,已有的船舶数据包括船长、船宽、吃水、初始纵倾、初稳性高、水线长、横摇周期、重心高度、方形系数、舭龙骨面积、进水角、风压力矩、测投影面积、测投影面心高度和排水量;其中船长、船宽、初始纵倾、水线长、方形系数、舭龙骨面积、进水角、风压力矩、测投影面积、侧投影面心高度均为定值,横摇周期的值由其他变化的值计算而得,因此不对其采样,对吃水、初稳性高、重心高度和排水量进行采样。3.根据权利要求1所述的基于levy分布的船舶数据演化采样方法,其特征在于,所述的
步骤(3)中,具体如下:在es中,ssm利用核函数密度估计kde来表示样本的分布情况;在kde中,样本集的概率密度分布由一组高斯密度函数的加权组合来表示;ssm定义如式子(2)所示:其中,是样本数据,i=1

n
s
,n
s
是样本的数量,a
i
是权值系数设为1/n
s
;高斯核函数k定义如式子(3)所示:h
i
是带宽,即kde的平滑参数;通过高斯核函数对样本数据的处理,ssm能够应用在es算法中;选择“拇指规则”来生成最优的带宽参数值,可以使核函数密度估计能够容易地实现近似;silverman拇指规则表达式如(4)所示:其中,σ
i
为样本方差,i=1,2

d;由式子(2)(3)可以求得目标模型的概率密度分布和支持样本集ssm的概率密度:将式子(2)中的样本集用已有的船舶数据集o
m
代替,即可求得所需的目标模型的概率分布π(x),支持样本集ssm的概率密度p(x)直接带入式(2)(3)即可求得;由levy分布作为转移概率函数表示在当前第k次迭代时,当前样本生成候选样本的概率,将当前样本作为分布的位置参数值,由此分布去计算候选样本的概率,如式(5)所示:其中,γ是比例因子,满足γ>0,将γ取值设为1;α控制分布的形状,满足0<α<2;q表示积分字母;对于α=1,这个积分能够被缩减为柯西分布;在α

2时,分布不再是levy分布,而是变成高斯分布;参数α控制分布的范围,使概率分布呈现不同的形状,尤其是尾巴区域,参数α越小,尾巴越长;生成服从levy分布的候选样本的公式如式(6)所示:其中,v是服从均匀分布的随机数,w是服从均值为1的指数分布的随机数,μ表
示位置参数,设定表示以当前特征值作为位置参数的levy分布选取候选值;x表示不同α取值时的的值;通过式(6)得到的候选支持样本为生成候选样本,再通过式(5)计算其转移函数的概率值用于后续计算。4.根据权利要求1所述的基于levy分布的船舶数据演化采样方法,其特征在于,所述的步骤(4)中,的计算过程如下:然后,再通过式(8)进行第二次拒绝接受选择:然后,再通过式(8)进行第二次拒绝接受选择:与经典的metropolis-hasting拒绝采样具有类似的形式,即满足细节平衡等式满足细节平衡等式不同于传统的拒绝采样策略,是es算法的第二次拒绝选择操作,能够确保对的近似效果;p
k
(x)是用来对样本进行概率密度估计的支持样本模型。5.根据权利要求1所述的基于levy分布的船舶数据演化采样方法,其特征在于,所述的步骤(7)中和的计算过程为:es算法的性能常用收敛性、标准偏差和运算时间进行评价;通过如式(9)所示计算得到的标准化因子λ,可以用来评价算法的收敛性;当λ收敛到一个稳定的值时,es算法即收敛得到一个最优的稳定解;因此,相邻两次演化采样过程的λ值的变化程度决定es学习过程是否终止;也就是,如果λ的改变很小,表示es算法即结束演化过程;其中,表示标准化输出,即根据式(10)可以看出,标准偏差j越小,所得到的支持样本集与目标概率分布的真实样本集越接近,样本的精度越高。

技术总结
基于Levy分布的船舶数据演化采样方法。该算法提出了一个自适应的Levy分布的转移概率函数。令样本集的每个样本根据Levy分布的参数值为1.0和2.0生成两个待选择的样本,通过拒绝选择操作更新得到的两组样本集,比较两组样本集产生的标准偏差来决定最终的样本集。自适应的Levy分布使参数的选择依靠演化过程本身决定。通过在15个测试函数以及实际船舶数据上进行的一系列实验,比较了四种演化采样算法的性能。证实了基于自适应Levy分布的演化采样算法不仅提高了收敛速度,同时增加样本的精度。同时增加样本的精度。同时增加样本的精度。


技术研发人员:孙俊 白亚强 鲁江 汤敏 陈东洋 安畅 张泉树 葛铭顺 裴晓雯 周超 单敏
受保护的技术使用者:中国船舶科学研究中心
技术研发日:2023.06.19
技术公布日:2023/9/9
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐