一种基于梯度提升决策树的风险行为信息预测方法及系统与流程

未命名 08-03 阅读:123 评论:0


1.本发明属于人工智能技术领域,尤其涉及一种基于梯度提升决策树的风险行为信息预测方法及系统。


背景技术:

2.目前,风险行为数据的获取大多只限于使用心理量表评估、投射测验、专家访谈评估法中的一种,使用最多的心理量表评估无法准确获取风险行为数据,往往存在说谎倾向。投射测验能够克服文字过多、说谎倾向等问题,通过瞬间的、不经思考的反应测出内心更真实的想法,但很难获取多维数据。专家访谈评估法通过面对面的评估往往能获取更准确的风险行为数据及水平,但评估成本高效率低,难以大规模评估。目前缺乏把三种数据有效结合的数据分析方法,以最大可能的避免样本数据误差。
3.在心理学研究关注高维度大数据的背景之下,风险行为评估所涉及的维度越来越多,所获取的数据结构也越来越复杂,对数据分析算法提出了更高的要求。在青少年群体和病理性群体中逐渐涌现基于机器学习(ml)模型的风险行为预测模型,主要包含支持向量机(svm)、随机森林(rsf)、决策树(dt)、极端梯度增强算法(xgboost)等预测模型,但每种模型的有效性及精准度受评估维度数据真实性、群体特征和算法适用性的影响。大多数模型的所分析的数据较为单一,只基于心理量表评估数据,往往数据真实性不足,模型的有效性会大大折扣。而且目前并没有发现基于机器学习(ml)模型的军人风险行为信息预测方法。
4.通过上述分析,现有技术存在的问题及缺陷为:现有风险行为数据准确性不足及基于机器学习(ml)模型的军人风险行为信息预测方法缺乏,且当前基于国内外军人风险行为不断增加的现实状况以及军队行为干预工作往往陷于“治”而疏于“防”的弊端。


技术实现要素:

5.针对现有技术存在的问题,本发明提供了一种基于梯度提升决策树的风险行为信息预测方法及系统。
6.本发明是这样实现的,一种基于梯度提升决策树的风险行为信息预测方法
7.系统通过心理量表评估、房树人投射测验和专家访谈评估分别获取量表评估数据、房树人绘画特征数据和专家访谈评估数据,将三种数据进行预处理形成模型待识别的数据特征,并运用范围函数把量表评估数据、房树人绘画特征数据合成组合评估数据;模型以组合评估数据特征为预测变量,以专家访谈评估数据中有风险行为的人群为预测目标,将数据随机划分为训练集和测试集,以训练集数据建立梯度提升决策树模型,将测试集数据特征送入机器学习模型,验证模型效果;最后模型用于新的个体风险行为的预测,将行为预测变量输入梯度提升决策树预测模型中,输出风险行为指数,并划分风险行为水平。
8.进一步,基于梯度提升决策树的风险行为信息预测方法包括以下步骤:
9.步骤一,通过心理量表评估、房树人投射测验和专家访谈评估分别获取量表评估数据、房树人绘画特征数据和风险行为评判分数;
10.步骤二,对数据进行预处理,进行归一化处理形成0至1的统一数据格式,用范围函数纠正量表评估数据和房树人绘画特征数据中相同题项或维度的偏差形成组合评估数据,并运用spearman积矩相关、点二列相关分析和χ2检验去除相关性较高的其中一个变量,运用二元逻辑回归数据分析方法去除对预测目标没有贡献的冗余变量;
11.步骤三,建立训练集和测试集数据,首先,在训练集中,将风险行为评判分数中有风险行为的人群作为预测目标,以二元逻辑回归预测的显著变量抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量,建立军人风险行为梯度提升决策树预测模型,并利用测试集检验梯度提升决策树预测模型性能;另外,在相同数据集上与二元逻辑回归、支持向量机、随机森林、极端梯度增强模型4种不同数据分析方法进行性能比较,进一步证明梯度提升决策树模型的准确性和可靠性。
12.步骤四,将新的个体风险行为预测变量输入至梯度提升决策树预测模型,输出风险行为预测值,运用函数公式转化为风险行为指数,并根据一定的规则划分风险行为水平。
13.进一步,步骤二中的对数据进行归一化处理包括:
14.对数据进行归一化处理形成0至1的统一数据格式,将心理问题分为n个题项,量表评估数据、房树人绘画特征数据和风险行为评判分数收集到的原始数据为1~5之间和1~2之间的数据;将所有数据归一化都转换成0~1之间的一个数值,则归一化公式如下:
[0015][0016]
式中,xi为第i题项的归一化值,ti为样本数据第i题项的值,t
imin
为采集到的所有样本数据第i题项的最小值,t
imax
为采集到的所有样本数据第i题项的最大值。
[0017]
进一步,步骤二中的利用spearman积矩相关、点二列相关分析、χ2检验和二元逻辑回归数据分析方法去除冗余变量包括:使用spearman积矩相关、点二列相关分析、χ2检验计算预测变量间的关联,删除关联过大的变量,具体包括:
[0018]
(1)利用spearman积矩相关计算入伍时间、军衔、死亡无畏、神经质、外向性等15个连续预测变量的相关性,计算公式为:
[0019][0020][0021]
式中,为一个预测变量到平均数的距离,为另一个预测变量到平均数的距离;分析发现归属感和社会支持有强相关,说明所测量的心理特质相似性很高,查阅风险行为相关文献,去掉归属感预测变量。
[0022]
(2)利用点二列相关分析计算性别、精神障碍等5个二分类变量和年龄、入伍时间、军衔、神经质、外向性等15个连续变量的相关性,计算公式为:
[0023][0024]
式中,是与二分变量的一个值对应的连续变量的平均数;是与二分变量的另
一个值对应的连续变量的平均数;p和q二分变量的两个值各自所占的比率;s
t
是连续变量的标准差;结果显示变量间相关系数均低于0.4,相关较弱。
[0025]
(3)利用χ2检验分析计算性别、精神障碍等5个二分类变量之间的相关性,计算公式为:
[0026][0027]
式中,f0实际观察次数;fe理论观察次数。
[0028]
利用二元逻辑回归选择与预测目标相关的数据,具体包括:
[0029]
(1)对24个回归预测变量x1,x2,x3,

,x
24
分别同预测目标风险行为建立一元逻辑回归模型;
[0030]
odds=e
β0+βix1+ε

[0031]
log(odds)=β0+βix1+ε,i=1,

,p;
[0032]
odds=有风险行为/无风险行为;
[0033]
计算变量x1,x2,x3,

x
24
,相应的回归系数的检验统计量的值,记为f
1(1)
,

,f
22(1)
,取其中的最大f
i1(1)
,取其中的最大值,则:
[0034]fi1(1)
=max{f
1(1)
,

,f
24(1)
};
[0035]
对给定的显著性水平0.05,记相应的临界值为f
(1)
,f
i1(1)
》f
(1)
,则将x
i1
引入回归模型,记i1为选入变量指标集合。
[0036]
(2)建立预测目标log(odds)与预测变量子集{x
i1
,x1},

,{x
i1
,x
i1-1
},{x
i1
,
[0037]
x
i1+1
},

,{x
i1
,x
24
}的二元回归模型;计算变量的回归系数f检验的统计量值,记为选其中最大者,记为f
i2(2)
,对应预测变量脚标记为i2,则:
[0038]fi2(2)
=max{f
1(2)
,

,f
i1-1(2)
,f
i1+1(2)
,

,f
p(2)
};
[0039]
对给定的显著性水平0.05,记相应的临界值为f
(2)
,f
i2(2)
》f
(2)
则变量x
i2
引入回归模型;否则,终止变量引入过程。
[0040]
(3)基于预测变量对变量子集{x
i1
,x
i2
,xk}的回归重复步骤(2),每次从未引入回归模型的预测变量中选取一个,直到经检验没有变量引入为止,最终选择抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量作为预测变量。
[0041]
进一步,步骤三中,将风险行为评判分数中有风险行为人群作为预测目标,以二元逻辑回归预测的显著变量抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量作为预测变量,使用梯度提升决策树算法建立样本数据的预测模型。
[0042]
其中,利用军人风险行为预测的梯度提升决策树算法建立样本数据的预测模型包括:随机地将样本数据集分割成比例为3:1的训练集和测试集,训练集用于训练梯度提升决策树预测模型,根据模型的最高预测准确率,设置合适的超参数;独立的测试集只用于模型的验证评估,在新的均衡训练集上训练梯度提升决策树预测模型,独立地验证评估模型的多方位的性能指标,并输出预测变量相对重要性权重。把新的预测变量输入预测模型,输出风险行为指数,并根据一定的标准划分风险等级。
[0043]
梯度提升决策树内含多颗决策树,预测模型由所有决策树的结果共同生成。
[0044]
针对风险行为样本实施梯度提升决策树算法进行统计分类的算法流程包括:
[0045]
分别提取预测变量并进行归一化处理,运用相关分析和二元逻辑回归去掉冗余与
重复预测变量;将预测变量为模型的输入样本并不断进行训练学习,最后,模型的输出为风险行为预测结果。
[0046]
其中,预测模型训练学习过程为:将获得的预测变量输入至第1个梯度提升决策树中,得到模型对训练样本的估计;基于所得的样本估计结果,计算模型残差;基于原始样本输入信息和残差,重复训练第2个模型,直至训练完m个模型,最终获得风险行为的预测结果。
[0047]
对于包含n个样本的风险行为训练数据集t={(x1,y1),...,(xn,yn)},梯度提升决策树算法流程包括:
[0048]
(1)初始化学习器
[0049][0050]
式中,f0(x)为只有一个根节点的初始树,c为使损失函数最小化的常数,l(yi,c)为损失函数,用于计算目标值与计算值之差,yi为第i个训练数据。
[0051]
引入对数似然函数作为损失函数来降低样本的残差损失,表达式为:
[0052]
l(y,f(x))=log(1+exp(-yf(x)));
[0053]
(2)设迭代次数m=1,2,....,m,则对于每个样本i=1,2,...,n,计算第i个训练样本的负梯度,则残差的计算公式为:
[0054][0055]
将得到的残差值作为新样本的真实值,并根据样本及负梯度方向(x,r
mi
)(i=1,2,...,n)计算拟合该残差值,得到由j个叶子节点组成的决策树tm,对应的叶子节点区域为r
mj
(j=1,2,...,j),则有各叶子节点的最佳拟合值为:
[0056][0057]
更新强学习器,则:
[0058][0059]
式中,i为第i个训练样本在第j个叶子节点区域的示性函数。
[0060]
(3)经过m轮迭代后,得到的最终的学习,则:
[0061][0062]
f0(x)为只有一个根节点的初始树,c
mj
为使损失函数最小化的常数,i为第i个训练样本在第j个叶子节点区域的示性函数,得到由j个叶子节点组成的决策树tm,对应的叶子节点区域为r
mj
(j=1,2,...,j)。
[0063]
输出预测变量相对重要性权重包括:
[0064]
对于单棵决策树t,重要度根据变量在迭代过程中被选为决策树分裂变量的次数计算获得,如下式所示:
[0065][0066]
式中,j-1为非叶子节点数,v
t
是与非叶子节点t相关联的特征,是节点以平方误差的方式分裂后的减少值;
[0067]
对于决策树的集合{tm}m,通过特征变量在单个决策树中的重要度的平均值来衡量其全局重要度,如下式所示:
[0068][0069]
式中,m是决策树的数量,是预测变量k在第m棵决策树中的重要度,且所有预测变量的重要度和为1。
[0070]
进一步,步骤四中,将新的风险行为预测变量输入风险行为梯度提升梯度树预测模型中,输出对应风险行为预测值;根据不同个体的风险行为预测值形成风险行为指数,并划分风险行为水平。
[0071]
当已经存在风险行为梯度提升决策树预测模型的前提下,将新的个体预测变量输送给风险行为梯度提升决策树预测模型。
[0072]
利用风险行为梯度提升决策树预测模型计算出风险行为的多个子决策树,预测后得到的风险行为预测值生成多决策树预测值数据集,一个样本数据对应一个子决策树;风险行为梯度提升决策树预测模型将多决策树预测值数据集发送给风险行为水平预测与判断模块。
[0073]
利用风险行为水平预测与判断模块对多决策树预测值数据集中的所有预测值进行归一化计算:其中x为待处理的数值,使用函数将之前的预测结果值映射为(0,1)区间的实数,再基于数值进行判断;当s(x)值大于阈值,则判定为无风险行为;当s(x)值小于阈值,则判定为有风险行为。
[0074]
输出取值为0到1之间的风险行为预测值,对0到1之间的数据转化为百分制,形成0~100百分制风险行为指数,再根据不同风险行为指数划分不同风险行为水平。
[0075]
本发明的另一目的在于提供一种应用所述的基于梯度提升决策树的风险行为信息预测方法的风险行为信息预测系统,基于梯度提升决策树的风险行为信息预测系统包括:
[0076]
数据获取模块,用于通过心理量表评估、房树人投射测验和专家访谈评估的三种风险行为评估方法收集风险行为信息评估数据;
[0077]
数据预处理模块,用于对数据进行归一化处理,并利用spearman积矩相关、点二列相关分析、χ2检验和二元逻辑回归数据分析方法去除冗余变量;
[0078]
模型训练模块,用于建立训练集和测试集数据,利用训练集训练梯度提升决策树预测模型,并利用测试集检验梯度提升决策树预测模型性能;
[0079]
风险行为预测和判断模块,用于将风险行为预测变量输入至梯度提升决策树预测模型,输出风险行为预测值并确定风险行为指数,自动划分风险行为水平。
[0080]
本发明的另一目的在于提供一种计算机设备,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的基于梯度
提升决策树的风险行为信息预测方法的步骤。
[0081]
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行所述的基于梯度提升决策树的风险行为信息预测方法的步骤。
[0082]
本发明的另一目的在于提供一种信息数据处理终端,信息数据处理终端用于实现所述的基于梯度提升决策树的风险行为信息预测系统。
[0083]
结合上述的技术方案和解决的技术问题,本发明所要保护的技术方案所具备的优点及积极效果为:
[0084]
第一,针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
[0085]
本发明提供了一种基于梯度提升决策树的风险行为信息预测方法,为摒除单一数据所产生的的偏差,将心理量表评估法、投射测验和专家访谈评估法有机结合,使用自制军人风险行为评估工具,收集军人群体相关数据,在相同数据集上用二元逻辑回归(lr)、支持向量机(svm)、随机森林(rsf)、极端梯度增强(xgboost)、梯度提升决策树(gbdt)5种不同机器学习模型进行性能比较,最终确定梯度提升决策树模型性能最优,形成风险行为梯度提升决策树预测模型,将新的个体风险行为预测变量输入预测模型,输出风险行为预测值,形成风险行为指数,并划分风险行为水平,同时模型还输出预测变量相对重要性,能够实现精准预测军人风险行为的目的,为军人心理危机的预防和干预提供了强有力的数据支撑。
[0086]
第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
[0087]
本发明基于军人风险行为信息预测方法开发风险行为信息预测系统,系统以风险行为信息精准排查为特色,合理利用梯度提升决策树模型和其他数据分析方法,有机结合量表评估数据、房树人绘画特征数据和风险行为评判分数三种数据,建立风险行为预测模型,模型的预测性能良好,准确率、灵敏度、特异度分别为83.74%、85.76%、81.71%,可以有效帮助筛查个体或群体是否存在风险行为及界定风险水平,系统全程实现自动化处理,一是帮助有风险行为筛查需求的军人独立完成风险行为评估,二是帮助专业人员更加有效省力的完成大规模风险行为信息筛查工作。
[0088]
第三,作为本发明的权利要求的创造性辅助证据,还体现在以下几个重要方面:
[0089]
本发明的技术方案填补了国内外业内技术空白:
[0090]
军人风险行为预测方法使用范围函数纠正每个样本数据中量表评估数据和房树人绘画测验中的数据偏差形成组合评估数据,充分考虑了数据获取的真实性。在建立军人梯度提升决策树的风险行为预测模型时,以专家访谈评估获取的风险行为评判分数为预测目标,以组合评估数据的题项或维度数据为预测变量,全面结合各种数据源,最大程度地避免了心理量表评估中的说谎倾向,开创性的建立了军人风险行为信息梯度提升树预测模型,模型预测性能良好,军人风险行为检出率达到85%以上,有利于专业人员及时给予干预措施,对预防军人风险行为发生有着重大意义,能最大程度的减少军队非战斗力减员。
附图说明
[0091]
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
[0092]
图1是本发明实施例提供的基于梯度提升决策树的风险行为信息预测方法流程图;
[0093]
图2是本发明实施例提供的基于梯度提升决策树的风险行为信息预测系统流程图;
[0094]
图3是本发明实施例提供的gbdt流程示意图;
[0095]
图4是本发明实施例提供的风险行为样本实施梯度提升决策树算法进行统计分类的算法流程图。
具体实施方式
[0096]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0097]
本发明实施例提供了一种军人风险行为信息预测系统,来检测是否存在风险行为信息及确定风险等级,在系统中,构建了基于军人群体的梯度提升决策树的风险行为信息预测模型。系统结构包括数据获取模块,数据预处理模块,数据模型训练模块,风险行为预测和判断模块。数据获取模块通过评估工具系统平台获取量表评估数据、房树人绘画特征数据和风险行为评判分数三种评估数据。数据预处理和训练模块通过数据处理与分析系统平台自动将所获取的数据进行预处理形成模型待识别的数据特征,并通过网络技术编码实现冗余数据和变量的处理;将数据随机划分为训练集和测试集,以训练集数据建立梯度提升决策树预测模型,将测试集预测变量送入预测模型,验证模型效果;另外在同一数据集与二元逻辑回归、支持向量机、随机森林、极端梯度增强预测模型性能比较,进一步证明梯度提升决策树模型的准确性和可靠性;最后输出预测变量对模型的重要度,评价各预测变量对预测模型的相对重要性。风险行为预测和判断模块通过大数据存储与展示平台将新的风险行为预测变量输入梯度提升决策树预测模型中,输出每个测试个体的风险行为指数,根据划分标准,划分风险水平。
[0098]
针对现有技术存在的问题,本发明提供了一种基于梯度提升决策树的风险行为信息预测方法及系统,下面结合附图对本发明作详细的描述。
[0099]
如图1所示,本发明实施例提供的基于梯度提升决策树的风险行为信息预测方法包括以下步骤:
[0100]
s101,通过心理量表评估、房树人投射测验和专家访谈评估分别获取量表评估数据、房树人绘画特征数据和专家访谈评估数据;
[0101]
s102,对数据进行预处理,归一化处理形成0至1的统一数据格式,用范围函数纠正量表评估数据和房树人绘画特征数据中相同题目或维度的偏差形成组合评估数据,并运用spearman积矩相关、点二列相关分析和χ2检验去除相关性较高的其中一个变量,运用二元
逻辑回归数据分析方法去除对预测目标没有贡献的冗余变量;
[0102]
s103,建立训练集和测试集数据,首先,在训练集中,将风险行为评判分数中有风险行为人群作为预测目标,以二元逻辑回归预测的显著变量抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量,建立军人风险行为梯度提升决策树预测模型,并利用测试集检验梯度提升决策树预测模型性能;另外,在相同数据集上与二元逻辑回归、支持向量机、随机森林、极端梯度增强算法4种不同数据分析方法进行性能比较,进一步证明梯度提升决策树模型的准确性和可靠性;
[0103]
s104,将新的个体预测变量输入至梯度提升决策树预测模型,输出风险行为预测值,运用函数公式转化为风险行为指数,并根据一定的规则划分风险行为水平。
[0104]
实施例1
[0105]
本发明实施例提供的基于梯度提升决策树的风险行为信息预测方法具体包括以下步骤:
[0106]
步骤s1:在线上平台使用自制军人风险行为评估量表采集量表评估数据,由个人基本信息(性别、入伍时间等4个维度)、生理因素(精神障碍、躯体疾病、物质滥用和依赖情况)、心理因素(人格特征包括神经质、外向性,认知特征包括思维僵化、应对方式、反刍思维,情绪特征包括焦虑、抑郁、挫败感等7个维度),社会因素(压力性生活事件、社会支持等4个维度)组成。此外,本发明还通过分析房树人投射测验获取所表现的风险行为心理或行为特征、影响风险行为的生理、心理及社会因素,获取更为客观、真实的风险行为房树人绘画特征数据,以最大程度的纠正因病耻感和说谎倾向所带来的数据偏差。通过专家访谈评估法获取风险行为评判分数,把风险行为评判分数分为无风险行为和有风险行为,作为预测模型的预测目标。
[0107]
步骤s2:对数据进行预处理,归一化处理形成0至1的统一数据格式,用范围函数纠正量表评估数据和房树人绘画特征数据中相同题项或维度的偏差形成组合评估数据;使用spearman积矩相关、点二列相关分析、χ2检验来计算预测变量间的关联,删除关联过大的其中一个变量;使用二元逻辑回归检测潜在预测变量,进行逐步回归以在逻辑回归中选择显著的预测变量。
[0108]
步骤s3:将风险行为评判分数中有风险行为人群作为预测目标,以二元逻辑回归预测的显著变量抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量作为预测变量,使用梯度提升决策树算法建立样本数据的预测模型。
[0109]
本发明实施例提供的风险行为预测的梯度提升决策树模型训练,首先随机地将样本数据集分割成比例为3:1的训练集和测试集,训练集用于训练梯度提升决策树预测模型,根据模型的最高预测准确率,设置合适的超参数。其次,独立的测试集只用于模型的验证评估,设置合适的超参数在新的均衡训练集上训练梯度提升决策树模型,独立地验证评估模型的多方位的性能指标。另外,本发明在相同数据集上与二元逻辑回归(lr)、支持向量机(svm)、随机森林(rsf)、极端梯度增强(xgboost)算法4种不同数据分析方法进行性能比较,证明梯度提升决策树模型的准确性和可靠性;最后保存得到的最优机器学习模型,用于以后军人个体的风险行为预测。
[0110]
步骤s4:将新的个体风险行为预测变量输入风险行为梯度提升梯度树预测模型中,输出对应风险行为预测值;根据不同个体的风险行为预测值形成风险行为指数,并划分
风险行为水平。
[0111]
本发明实施例提供的基于梯度提升决策树的风险行为信息预测系统包括:
[0112]
如图2,数据获取模块s201,用于通过心理量表评估、房树人投射测验和专家访谈评估的三种风险行为评估方法收集风险行为信息评估数据;
[0113]
数据预处理模块s203,用于对数据进行归一化处理,并利用spearman积矩相关、点二列相关分析、χ2检验和二元逻辑回归数据分析方法去除冗余变量;
[0114]
模型训练模块s203,用于建立训练集和测试集数据,利用训练集训练梯度提升决策树预测模型,并利用测试集检验梯度提升决策树预测模型性能;
[0115]
风险行为预测与判断模块s204,用于将风险行为预测变量输入至梯度提升决策树预测模型,输出风险行为预测值,利用一定的规则转化为风险行为指数,并划分风险行为水平。
[0116]
为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。
[0117]
以计算机系统为载体的军人风险行为信息预测方法,能够实现个体自主测评和大规模自动化测评的双重目的,军人风险行为检出率达到85%以上,已经成熟运用于新兵入伍适应能力评估、官兵心理健康普测、军队心理危机干预服务等产品中。
[0118]
新兵入伍适应能力评估最重要的一个维度就是风险行为筛查,能精准检出新兵风险行为信息,并发现主要的预测变量,这些功能结合风险行为信息预测系统,使精确化预测、自动化监测、智能化预警在理论和技术层面都有了推进和实现的基础和途径,在“军人风险行为信息预测”这一主题领域上的突破和成果必将为有效减少和控制军人风险行为提供动能。
[0119]
军人心理健康普测主要针对军人心理健康状况的调查,由于军人工作的特殊性,军人常常冲锋在各类灾难现场第一线,最直接的面对残酷的事件本身,因此由于受到剧烈的冲击和伤害导致心理应激反应的现象时有发生。这些心理应激反应必须及时干预和处理,才能够保证官兵身心健康。因此定期对军人心理健康状况进行心理健康普查是非常有必要的,通过风险行为梯度提升决策树预测方法路径结合其他评估方法将心理压力过大或者风险行为问题比较严重的官兵快速筛选出来,帮助心理工作服务人员及时进行关注和危机干预,减缓心理压力,增强军人理防线。
[0120]
在军队心理危机干预服务工作中,军队心理工作服务人员以军人风险行为信息预测系统为重要诊断工具,在系统中采集需要危机干预军人的预测变量数据,自动输出风险行为指数及水平,确定危机干预水平,题项或维度得分和风险行为模型重要度能充分反应有风险行为人员的关键心理问题,为心理工作服务人员提供最有效的工作方向。
[0121]
实施例2
[0122]
本发明实施例提供的基于梯度提升决策树的风险行为信息预测方法具体包括以下步骤:
[0123]
步骤s1:在线上平台使用自制军人风险行为评估量表采集量表评估数据,由个人基本信息(性别、入伍时间等4个维度)、生理因素(精神障碍、躯体疾病、物质滥用和依赖情况)、心理因素(人格特征包括神经质、外向性,认知特征包括思维僵化、应对方式、反刍思维,情绪特征包括焦虑、抑郁、挫败感等7个维度),社会因素(压力性生活事件、社会支持等4
个维度)组成。此外,还通过分析房树人投射测验和专家访谈评估中所表现的风险行为心理或行为特征及影响风险行为的生理、心理及社会因素,获取更为客观、真实风险行为相关数据,以最大程度的纠正因病耻感和说谎倾向,所带来的数据偏差。
[0124]
量表评估数据:是通过心理学量表方式采集的数字表现数据,心理学量表将心理问题用数字区分不同表现类别及等级,通过对类别及等级的选择形成由多个数字组组成的量表评估数据。将心理问题分为245个题项,部分题项1~5计分,部分题项1~2计分,军人根据每个题项不同分数的描述选取一个适合自己的分数,这样每个人都得到245条数据,即所有军人中每个人都有245条的心理评估数据;如:其中一个题项,你会用自杀的方式让自己得到解脱吗?请选择:1分-非常排斥;2分-排斥;3分-中立;4分-比较接受;5分-接受。
[0125]
房树人绘画特征数据:房树人测验作为一种心理投射实验、绘画测验与心理状况分析的方法,在识别个体隐性风险行为中与量表评估相比,有着独特的优势,更能测出个体关于风险行为的真实想法。由专业人员对每个人的绘画特征,分到以下心理维度中,精神障碍、性格特征、绝望感、社会支持、情绪特征、压力水平、风险行为意念或风险行为尝试,并进行1~5评分或1~2评分。用房树人绘画特征数据纠正量表评估数据中的偏差,形成组合评估数据。
[0126]
风险行为评判分数:通过专业人员和受访人面对面地交谈来了解受访人的风险行为相关心理和行为的基本方法;主要包含以下维度,精神障碍、躯体疾病物质滥用和依赖情况、性格特征、绝望感、社会支持、情绪特征、压力水平、童年时期逆境、自杀未遂情况、死亡无畏、风险行为意念或风险行为尝试等,并对相关维度进行1~5评分或1~2的评分,形成风险行为评判分数,根据专家访谈评估所获取的风险行为评判分数确定风险行为人群。
[0127]
步骤s2:对数据进行预处理,进行归一化处理形成0至1的统一数据格式,用范围函数纠正量表评估数据和房树人绘画特征数据中相同题项或维度的偏差形成组合评估数据;为得到精简、可靠的预测模型,避免冗余与重复变量对模型性能的影响。首先,使用spearman积矩相关、点二列相关分析、χ2检验来计算预测变量间的关联,删除关联过大的其中一个变量;其次,使用二元逻辑回归检测潜在预测变量,进行逐步回归以在逻辑回归中选择显著的预测变量。
[0128]
本发明实施例提供的预处理包括:对数据进行归一化处理形成0至1的统一数据格式。以上述将心理问题分为245个题项为例,心理特点数据收集到的原始数据为1~5之间(1~151题和196~245题)和1~2之间(152~195题)的数据,将所有心理数据归一化都转换成0~1之间的一个数值。归一化公式如下:
[0129][0130]
式中,xi为第i题项的归一化值,ti为样本数据第i题项的值,t
imin
为采集到的所有样本数据第i题项的最小值,t
imax
为采集到的所有样本数据第i题项的最大值。
[0131]
例如,若1~151题和196~245题的数据的取值范围都是1~5,即最小值都是1,最大值都是5,所以转换的公式都是
[0132]
若152~195题的数据取值范围都是1~2,即最小值都是1,最大值都是2,所以转换
公式都是
[0133]
根据上述方法,将所有样本的245个题项都完成归一化。
[0134]
本发明实施例提供的预处理还包括:用房树人绘画特征数据纠正量表评估数据中的偏差,使用范围函数判断每个样本数据中量表评估数据和房树人绘画特征数据相对应题项或维度的差值,差值大于0.2,剔除量表评估数据,最终保留数据以房树人绘画特征数据为准,否则以量表评估数据为准,最后形成组合评估数据。
[0135]
mew(x,y)=[|x
i-yi|w
xi
,|x
i-yi|w
yi
]
[0136]
xi为样本数据第i个量表评估数据中的题项或维度,yi为房树人绘画特征数据中相对应的题项或维度数据,当|x
i-yi|≤0.2时,w
xi
=1,w
yi
=0,当|x
i-yi|》0.2时,w
xi
=0,w
yi
=1。
[0137]
为避免冗余与重复变量对预测模型的影响,使用spearman积矩相关、点二列相关分析、χ2检验计算预测变量间的关联,删除关联过大的其中一个变量,具体步骤为:
[0138]
1.用spearman积矩相关计算入伍时间、军衔、死亡无畏、神经质、外向性等15个连续预测变量的相关性,公式为:
[0139][0140][0141]
式中,为其中一个预测变量到其平均数的距离,为其中另一个预测变量到其平均数的距离。分析发现归属感和社会支持有强相关,说明所测量的心理特质相似性很高,查阅风险行为相关文献,去掉归属感这一预测变量。
[0142]
2.利用点二列相关分析计算性别、精神障碍等5个二分类变量和年龄、入伍时间、军衔、神经质、外向性等15个连续变量的相关性,计算公式为:
[0143][0144]
式中,是与二分变量的一个值对应的连续变量的平均数;是与二分变量的另一个值对应的连续变量的平均数;p和q二分变量的两个值各自所占的比率;s
t
是连续变量的标准差。分析发现变量间相关系数都低于0.4,相关较弱。
[0145]
3.用χ2检验分析计算性别、精神障碍、躯体疾病、物质滥用和依赖情况、童年时期逆境、风险行为暴露史相关二分类变量之间的相关性,公式为:
[0146][0147]
式中,f0实际观察次数;fe理论观察次数。分析发现各变量间无相关。
[0148]
二元逻辑回归进一步选择与预测目标相关的数据,具体方法为变量由少到多,每次增加一个,直至没有可引入的变量为止,具体步骤为:
[0149]
1.对24个回归预测变量x1,x2,x3,

,x
24
分别同预测目标风险行为建立一元逻辑回
归模型;
[0150]
odds=e
β0+βix1+ε
[0151]
log(odds)=β0+βix1+ε,i=1,

,p
[0152]
odds=有风险行为/无风险行为
[0153]
计算变量x1,x2,x3,

x
24
,相应的回归系数的检验统计量的值,记为f
1(1)
,

,f
22(1)
,取其中的最大f
i1(1)
,取其中的最大值,即:
[0154]fi1(1)
=max{f
1(1)
,

,f
24(1)
}
[0155]
对给定的显著性水平0.05,记相应的临界值为f
(1)
,f
i1(1)
》f
(1)
,则将x
i1
引入回归模型,记i1为选入变量指标集合。
[0156]
2.建立预测目标log(odds)与预测变量子集{x
i1
,x1},

,{x
i1
,x
i1-1
},{x
i1
,x
i1+1
},

,{x
i1
,x
24
}的二元回归模型,共有23个。计算变量的回归系数f检验的统计量值,记为选其中最大者,记为f
i2(2)
,对应预测变量脚标记为i2,即:
[0157]fi2(2)
=max{f
1(2)
,

,f
i1-1(2)
,f
i1+1(2)
,

,f
p(2)
}
[0158]
对给定的显著性水平0.05,记相应的临界值为f
(2)
,f
i2(2)
》f
(2)
则变量x
i2
引入回归模型;否则,终止变量引入过程。
[0159]
3.考虑预测变量对变量子集{x
i1
,x
i2
,xk}的回归重复步骤2。依此方法重复进行,每次从未引入回归模型的预测变量中选取一个,直到经检验没有变量引入为止。最终选择抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量作为预测变量。
[0160]
步骤s3:将风险行为评判分数中有风险行为人群作为预测目标,以二元逻辑回归预测的显著变量抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量作为预测变量,使用梯度提升决策树算法建立样本数据的预测模型。
[0161]
本发明实施例提供的军人风险行为预测的梯度提升决策树算法建立样本数据的预测模型,首先,本发明随机地将样本数据集分割成比例为3:1的训练集和测试集,训练集用于训练梯度提升决策树预测模型,根据模型的最高预测准确率,设置合适的超参数;其次,独立的测试集只用于模型的验证评估,设置合适的超参数在新的均衡训练集上训练梯度提升决策树预测模型,独立地验证评估模型的多方位的性能指标;最后,通过模型输出风险行为指数,并输出预测变量相对重要性权重。
[0162]
本发明实施例提供的梯度提升决策树预测模型的训练过程包括:
[0163]
如图3所示,梯度提升决策树内含有多颗决策树,最终的预测模型是由所有决策树的结果共同生成;其中,每一颗决策树的构建都是为了减少之前模型的残差,并通过不断迭代的方式使最终残差在梯度方向上接近于零点。
[0164]
如图4所示,本发明实施例提供的针对风险行为样本实施梯度提升决策树算法进行统计分类的算法流程具体包括:
[0165]
一,分别提取冲动性、风险行为暴露史等预测变量,并对其进行归一化处理,运用相关分析和二元逻辑回归去掉冗余与重复预测变量。
[0166]
二,将上述预测变量为模型的输入样本并不断进行训练学习,最后模型的输出即为风险行为预测结果。
[0167]
本发明实施例提供的预测模型训练学习过程为:
[0168]
1.将获得的预测变量输入至第1个梯度提升决策树中,得到该模型对训练样本的
估计;
[0169]
2.基于上述所得的样本估计结果,计算该模型残差;
[0170]
3.基于原始样本输入信息和残差,按照上述过程重复训练第2个模型,直至训练完m个模型,最后获得风险行为的预测结果。
[0171]
本发明实施例提供的梯度提升决策树算法流程具体包括:
[0172]
对于包含n个样本的风险行为训练数据集t={(x1,y1),...,(xn,yn)},具体的算法流程如下:
[0173]
1.首先初始化学习器,即:
[0174][0175]
式中,f0(x)为只有一个根节点的初始树,c为使损失函数最小化的常数,l(yi,c)为损失函数,用于计算目标值与计算值之差,其中,yi为第i个训练数据。
[0176]
为进一步提高模型的性能并降低残差值,引入对数似然函数作为损失函数来降低样本的残差损失,其表达式为:
[0177]
l(y,f(x))=log(1+exp(-yf(x)))
[0178]
2.设迭代次数m=1,2,...,则对于每个样本i=1,2,...,n,计算第i个训练样本的负梯度,即残差,则:
[0179][0180]
将上述得到的残差值作为新样本的真实值,并根据样本及负梯度方向(x,r
mi
)(i=1,2,...,n)计算拟合该残差值,得到一颗由j个叶子节点组成的决策树tm,其对应的叶子节点区域为r
mj
(j=1,2,...,j),则有各叶子节点的最佳拟合值为:
[0181][0182]
更新强学习器,则:
[0183][0184]
式中,i为第i个训练样本在第j个叶子节点区域的示性函数。
[0185]
3.经过m轮迭代后,得到的最终的学习,则:
[0186][0187]
f0(x)为只有一个根节点的初始树,c
mj
为使损失函数最小化的常数,i为第i个训练样本在第j个叶子节点区域的示性函数,得到由j个叶子节点组成的决策树tm,对应的叶子节点区域为r
mj
(j=1,2,...,j)。
[0188]
为进一步提升模型预测准确率,通过设置模型超参提升预测效果的过程为:
[0189]
1.由于gbdt模型最终是以二叉树结果出现,因而每棵决策树最大深度α以及叶子节点数β不仅会影响模型复杂度,而且容易导致模型过拟合,影响最终预测准确率。
[0190]
在实证分析过程中,需不断调整参数组的设置,以确定最优参数α与β。采用f1分值
作为模型预测准确率的评价,f1分值是统计学中用来衡量二分类模型精确度的一种常用指标。利用样本训练模型得到参数α与预测准确率关系。由gbdt模型训练出的样本预测准确率均在77%以上,并且随着树最大深度的变化,模型预估准确率也发生了明显改变,当树的最大深度为5时,模型预估准确率最高超过了81%,而当树的最大深度超过5或者不足5时,模型的预测准确率均处在81%以下,因此本发明确定的最佳参数α为5。
[0191]
2.叶子节点数过多会影响到模型的泛化能力,导致模型过拟合风险升高,在模型训练阶段也必须调控好每棵决策树叶子节点数。
[0192]
在实证过程中,通过反复调整参数组的设置得到了模型预估准确率与最大叶子节点数之间的相互关系。初期随着叶子节点数增加,模型的预估准确率也随之提高即预测变量被细化分裂后模型能够对样本属性进行更加精准的评判,随后随着节点数的增加,预测准确率出现下降后随即达到了最大值,紧接着随着最大叶子节点数的进一步增加模型的预估准确率出现了反复调整式波动。当最大叶子节点数为10时,模型精度最高约为81.3%,因此本发明确定的最优参数β为10。
[0193]
3.通过样本训练数据集调设好模型最优参数α与β后,可进一步得到具有较高预估准确率的决策基分类器,每棵决策树均是在样本遍历前一期子树后残差基础上建立而来,最终预估结果是前期所有子树预估结果的累加和。利用样本训练集最终产生了100棵具有较高预判准确率的子分类决策树。依据决策树数量与模型预估准确率间的关系,当累积决策树为81棵时,模型评测准确率最高,因而可取前81棵决策树构成样本分类基。
[0194]
本发明实施例提供的利用测试集检验训练模型效果的过程包括:
[0195]
预测模型建立后,在独立的测试集上评价模型的预测效果,比较不同模型预测效果的优劣。本发明所构建的预测模型最终输出预测的类概率,即发生风险行为的概率,取值0~1。选取训练集上最大f1值处的概率值作为预警值,小于该预警值判定为无风险行为,大于预警值判定为有风险行为。基于此预警值进一步评价预测模型的预警性能,所用评价指标如下:
[0196]
如表1,auc值、准确率、灵敏度、特异度、阳性预测值、阴性预测值、f1值,预测数据分别为90.92%、83.74%、85.76%、81.71%、82.42%、85.16%、85.01。
[0197]
另外,在相同数据集上与二元逻辑回归、支持向量机、随机森林、极端梯度增强算法4种不同数据分析方法进行性能比较,进一步证明梯度提升决策树模型的准确性和可靠性。最后,保存得到的最优机器学习模型,用于以后军人个体的风险行为预测。
[0198]
表1测试集和训练集模型风险预测评价指标
[0199][0200]
通过各种模型的性能评价指标比较,如表1,梯度提升决策树和随机森林模型能够更好地区分是否有风险行为,其中,表现最好的梯度提升决策树模型成功预测风险行为,其独立测试集、训练集上的auc为分别为88.33和90.92,模型能分别检测到84.32%和85.76%存在风险行为的军人。
[0201]
本发明实施例提供的输出预测变量相对重要性权重包括:
[0202]
与其他模型不同,梯度提升决策树模型能够实现根据对预测结果的影响程度识别和排序预测变量重要度,它不仅能缩短计算的时间、加快训练的速度,还可以提高模型的预测精度,具体方法如下:
[0203]
对于单棵决策树t,其重要度可根据变量在迭代过程中被选为决策树分裂变量的次数计算获得,如下式所示:
[0204][0205]
式中,j-1为非叶子节点数,v
t
是与非叶子节点t相关联的特征,是节点以平方误差的方式分裂后的减少值,该值越大,说明特征参数对预测结果的影响程度越高,也越重要;
[0206]
对于决策树的集合{tm}m,可通过特征变量在单个决策树中的重要度的平均值来衡量其全局重要度,如下式所示:
[0207]
[0208]
式中,m是决策树的数量,是预测变量k在第m棵决策树中的重要度,且所有预测变量的重要度和为1。
[0209]
表2梯度提升决策树模型预测变量的相对重要性
[0210][0211]
对于预测变量重要度,如表2,梯度提升决策树模型识别的前五位预测变量顺序依次为抑郁(29.50%)、压力性生活事件(24.92%)、社会支持(9.19%)、焦虑(6.06%)和挫败感(5.29%),根据重点预测变量,可对有风险行为的个体展开有针对性的干预。
[0212]
步骤s4:将风险行为预测变量输入风险行为梯度提升梯度树预测模型中,输出对应风险行为预测值;根据不同个体的风险行为预测值形成风险行为指数,并划分风险行为水平。
[0213]
1.当已经存在风险行为梯度提升决策树预测模型的前提下,将新的个体预测变量输送给风险行为梯度提升决策树预测模型。
[0214]
2.风险行为梯度提升决策树预测模型计算出风险行为的多个子决策树模型后得到的风险行为预测值生成多决策树预测值数据集,一个样本数据对应一个子决策树;风险行为梯度提升决策树预测模型将多决策树预测值数据集发送给风险行为水平预测与判断模块。
[0215]
3.风险行为水平预测与判断模块对多决策树预测值数据集中的所有预测值进行归一化计算:其中x为待处理的数值,使用该函数将之前的预测结果值映射为(0,1)区间的一个实数,再基于该数值做判断,当s(x)值大于阈值,则判定为无风险行为;当s(x)值小于阈值,则判定为有风险行为。
[0216]
4.输出取值为0到1之间的风险行为预测值,对0到1之间的数据转化为百分制,形成0~100百分制风险行为指数,再根据不同风险行为指数划分不同风险行为水平。如根据上述3部分的阈值,阈值之上划分一个水平,为无风险,阈值之下划分3个水平,分别为低风险,中风险,高风险。
[0217]
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、cd或dvd-rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模
集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
[0218]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

技术特征:
1.一种基于梯度提升决策树的风险行为信息预测方法,其特征在于,包括:系统通过心理量表评估、房树人投射测验和专家访谈评估分别获取量表评估数据、房树人绘画特征数据和专家访谈评估数据,将三种数据进行预处理形成模型待识别的数据特征,并运用范围函数把量表评估数据、房树人绘画特征数据合成组合评估数据;模型以组合评估数据特征为预测变量,以专家访谈评估数据中有风险行为的人群为预测目标,将数据随机划分为训练集和测试集,以训练集数据建立梯度提升决策树模型,将测试集数据特征送入机器学习模型,验证模型效果;最后模型用于新的个体风险行为的预测,将行为预测变量输入梯度提升决策树预测模型中,输出风险行为指数,并划分风险行为水平。2.如权利要求1所述基于梯度提升决策树的风险行为信息预测方法,其特征在于,基于梯度提升决策树的风险行为信息预测方法包括以下步骤:步骤一,通过心理量表评估、房树人投射测验和专家访谈评估三种风险行为评估方法收集风险行为信息评估数据;步骤二,对数据进行归一化处理,并利用spearman积矩相关、点二列相关分析、χ2检验和二元逻辑回归数据分析方法去除冗余变量;步骤三,建立训练集和测试集数据,利用训练集训练梯度提升决策树预测模型,并利用测试集检验梯度提升决策树预测模型性能;步骤四,将风险行为预测变量输入至梯度提升决策树预测模型,输出风险行为预测值,利用一定的规则转化为风险行为指数,并划分风险行为水平。3.如权利要求2所述基于梯度提升决策树的风险行为信息预测方法,其特征在于,步骤一之前进一步包括:通过评估工具系统平台获取量表评估数据、房树人绘画特征数据和风险行为评判分数三种评估数据。4.如权利要求2所述基于梯度提升决策树的风险行为信息预测方法,其特征在于,步骤二中的对数据进行归一化处理包括:对数据进行归一化处理形成0至1的统一数据格式;将心理问题分为n个题项,心理特点数据收集到的原始数据为1~5之间和1~2之间的数据;将所有心理数据归一化都转换成0~1之间的一个数值,则归一化公式如下:式中,x
i
为第i题项的归一化值,t
i
为样本数据第i题项的值,t
imin
为采集到的所有样本数据第i题项的最小值,t
imax
为采集到的所有样本数据第i题项的最大值;步骤二中的利用spearman积矩相关、点二列相关分析、χ2和二元逻辑回归数据分析方法去除冗余变量包括:使用spearman积矩相关、点二列相关分析、χ2检验计算预测变量间的关联,删除关联过大的变量,具体包括:(1)利用spearman积矩相关计算入伍时间、军衔、死亡无畏、神经质、外向性等15个连续预测变量的相关性,计算公式为:
式中,为一个预测变量到平均数的距离,为另一个预测变量到平均数的距离;分析发现归属感和社会支持有强相关,说明所测量的心理特质相似性很高,查阅风险行为相关文献,去掉归属感预测变量;(2)利用点二列相关分析计算性别、精神障碍等5个二分类变量和年龄、入伍时间、军衔、神经质、外向性等15个连续变量的相关性,计算公式为:式中,是与二分变量的一个值对应的连续变量的平均数;是与二分变量的另一个值对应的连续变量的平均数;p和q二分变量的两个值各自所占的比率;s
t
是连续变量的标准差;变量间相关系数均低于0.4,相关较弱;(3)利用χ2检验分析计算性别、精神障碍、躯体疾病、物质滥用和依赖情况相关二分类变量之间的相关性,计算公式为:式中,f0实际观察次数;f
e
理论观察次数,且各变量间无相关;利用二元逻辑回归选择与预测目标相关的数据,具体包括:(1)对24个回归预测变量x1,x2,x3,

,x
24
分别同预测目标风险行为建立一元逻辑回归模型;odds=e
β0+βix1+ε
;log(odds)=β0+β
i
x1+ε,i=1,

,p;odds=有风险行为/无风险行为;计算变量x1,x2,x3,

x
24
,相应的回归系数的检验统计量的值,记为f
1(1)
,

,f
22(1)
,取其中的最大f
i1(1)
,取其中的最大值,则:f
i1(1)
=max{f
1(1)
,

,f
24(1)
};对给定的显著性水平0.05,记相应的临界值为f
(1)
,f
i1(1)
>f
(1)
,则将x
i1
引入回归模型,记i1为选入变量指标集合;(2)建立预测目标log(odds)与预测变量子集{x
i1
,x1},

,{x
i1
,x
i1-1
},{x
i1
,x
i1+1
},

,{x
i1
,x
24
}的二元回归模型;计算变量的回归系数f检验的统计量值,记为选其中最大者,记为f
i2(2)
,对应预测变量脚标记为i2,则:f
i2(2)
=max{f
1(2)
,

,f
i1-1(2)
,f
i1+1(2)
,

,f
p(2)
};对给定的显著性水平0.05,记相应的临界值为f
(2)
,f
i2(2)
>f
(2)
则变量x
i2
引入回归模型;否则,终止变量引入过程;
(3)基于预测变量对变量子集{x
i1
,x
i2
,x
k
}的回归重复步骤(2),每次从未引入回归模型的预测变量中选取一个,直到经检验没有变量引入为止,最终选择抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境等15个变量作为预测变量。5.如权利要求2所述基于梯度提升决策树的风险行为信息预测方法,其特征在于,步骤三中,将风险行为评判分数中有风险行为人群作为预测目标,以二元逻辑回归预测的显著变量抑郁、压力性生活事件、社会支持、累赘感、童年时期逆境15个变量作为预测变量,使用梯度提升决策树算法建立样本数据的预测模型;其中,利用军人风险行为预测的梯度提升决策树算法建立样本数据的预测模型包括:随机地将样本数据集分割成比例为3:1的训练集和测试集,训练集用于训练梯度提升决策树预测模型,根据模型的最高预测准确率,设置合适的超参数;独立的测试集只用于模型的验证评估,在新的均衡训练集上训练梯度提升决策树模型,独立地验证评估模型的多方位的性能指标;通过模型输出风险行为指数,并输出预测变量相对重要性权重。梯度提升决策树内含多颗决策树,预测模型由所有决策树的结果共同生成;针对风险行为样本实施梯度提升决策树算法进行统计分类的算法流程包括:分别提取预测变量并进行归一化处理,运用相关分析和二元逻辑回归去掉冗余与重复预测变量;将预测变量为模型的输入样本并不断进行训练学习,最后模型的输出为风险行为预测结果;其中,预测模型训练学习过程为:将获得的预测变量输入至第1个梯度提升决策树中,得到模型对训练样本的估计;基于所得的样本估计结果,计算模型残差;基于原始样本输入信息和残差,重复训练第2个模型,直至训练完m个模型,最终获得风险行为的预测结果;对于包含n个样本的风险行为训练数据集t={(x1,y1),...,(x
n
,y
n
)},梯度提升决策树算法流程包括:(1)初始化学习器;:式中,f0(x)为只有一个根节点的初始树,c为使损失函数最小化的常数,l(y
i
,c)为损失函数,用于计算目标值与计算值之差,y
i
为第i个训练数据;引入对数似然函数作为损失函数来降低样本的残差损失,表达式为:l(y,f(x))=log(1+exp(-yf(x)));(2)设迭代次数m=1,2,...,则对于每个样本i=1,2,...,n,计算第i个训练样本的负梯度,则残差的计算公式为:将得到的残差值作为新样本的真实值,并根据样本及负梯度方向(x,r
mi
)(i=1,2,...,n)计算拟合该残差值,得到由j个叶子节点组成的决策树t
m
,对应的叶子节点区域为r
mj
(j=1,2,...,j),则有各叶子节点的最佳拟合值为:更新强学习器,则:
式中,i为第i个训练样本在第j个叶子节点区域的示性函数;(3)经过m轮迭代后,得到的最终的学习,则:f0(x)为只有一个根节点的初始树,c
mj
为使损失函数最小化的常数,i为第i个训练样本在第j个叶子节点区域的示性函数,得到由j个叶子节点组成的决策树t
m
,对应的叶子节点区域为r
mj
(j=1,2,...,j)。输出预测变量相对重要性权重包括:对于单棵决策树t,重要度根据变量在迭代过程中被选为决策树分裂变量的次数计算获得,如下式所示:式中,j-1为非叶子节点数,v
t
是与非叶子节点t相关联的特征,是节点以平方误差的方式分裂后的减少值;对于决策树的集合{t
m
}
m
,通过特征变量在单个决策树中的重要度的平均值来衡量其全局重要度,如下式所示:式中,m是决策树的数量,是预测变量k在第m棵决策树中的重要度,且所有预测变量的重要度和为1。6.如权利要求2所述基于梯度提升决策树的风险行为信息预测方法,其特征在于,步骤四中,将风险行为预测变量输入风险行为梯度提升梯度树预测模型中,输出对应风险行为预测值;根据不同个体的风险行为预测值形成风险行为指数,并划分风险行为水平;当已经存在风险行为梯度提升决策树预测模型的前提下,将新的个体预测变量输送给风险行为梯度提升决策树预测模型;利用风险行为梯度提升决策树预测模型计算出风险行为的多个子决策树模型后得到的风险行为预测值生成多决策树预测值数据集,一个样本数据对应一个子决策树;风险行为梯度提升决策树预测模型将多决策树预测值数据集发送给风险行为水平预测与判断模块;利用风险行为水平预测与判断模块对多决策树预测值数据集中的所有预测值进行归一化计算:其中x为待处理的数值,使用函数将之前的预测结果值映射为(0,1)区间的实数,再基于数值进行判断;当s(x)值大于阈值,则判定为无风险行为;当s(x)值小于阈值,则判定为有风险行为;输出取值为0到1之间的风险行为预测值,对0到1之间的数据转化为百分制,形成0~100百分制风险行为指数,再根据不同风险行为指数划分不同风险行为水平。7.一种应用如权利要求1~6任意一项所述基于梯度提升决策树的风险行为信息预测
系统,其特征在于,基于梯度提升决策树的风险行为信息预测系统包括:数据获取模块,用于通过心理量表评估、房树人投射测验和专家访谈评估的三种风险行为评估方法收集风险行为信息评估数据;数据预处理模块,用于对数据进行归一化处理,并利用spearman积矩相关、点二列相关分析、χ2检验和二元逻辑回归数据分析方法去除冗余变量;模型训练模块,用于建立训练集和测试集数据,利用训练集训练梯度提升决策树预测模型,并利用测试集检验梯度提升决策树预测模型性能;风险行为预测与判断模块,用于将风险行为预测变量输入至梯度提升决策树预测模型,输出风险行为预测值,利用一定的规则转化为风险行为指数,并划分风险行为水平。8.一种计算机设备,其特征在于,计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~6任意一项所述基于梯度提升决策树的风险行为信息预测方法的步骤。9.一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如权利要求1~6任意一项所述基于梯度提升决策树的风险行为信息预测方法的步骤。10.一种信息数据处理终端,其特征在于,信息数据处理终端用于实现如权利要求7所述基于梯度提升决策树的风险行为信息预测系统。

技术总结
本发明属于人工智能技术领域,公开了一种基于梯度提升决策树的风险行为信息预测方法及系统,获取量表评估数据、房树人绘画特征数据和专家访谈评估数据,将三种数据进行预处理形成模型待识别的数据特征,并运用范围函数把数据合成组合评估数据;模型以组合评估数据特征为预测变量,以专家访谈评估数据中有风险行为的人群为预测目标;最后模型用于新的个体风险行为的预测,将行为预测变量输入梯度提升决策树预测模型中,输出风险行为指数,并划分风险行为水平。本发明能够避免单一数据源所产生的数据真实性偏差,能精准预测军人的风险行为,并输出模型的预测变量重要性程度,有利于专业人员为存在风险行为的军人提供有效干预手段。手段。手段。


技术研发人员:孟祥忠 王亦冰 吕茜茜
受保护的技术使用者:北京民智数字科技有限公司
技术研发日:2023.02.23
技术公布日:2023/8/1
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐