一种债券利率预测方法、系统、计算机设备及存储介质与流程

未命名 08-07 阅读:83 评论:0


1.本发明涉及数据处理技术领域,具体涉及一种债券利率预测方法、系统、计算机设备以及非易失性计算机可读存储介质。


背景技术:

2.债券利率是政府、银行以及企业等在国际金融市场和国内金融市场上以发行债券方式筹措资金,对债券购买者所支付的利率。
3.目前,现有技术中,基于金融科技对债券利率预测的常用方法是时间序列和线性回归,其中,时间序列的缺陷是考虑的影响因素有限,特征单一,且对时序平稳性有强制要求,导致实际预测结果波动较大;线性回归的缺陷是模型简单,需要很强的人工进行规则筛选判定,非行业专业人士很难做出有效预判,缺乏灵活性,另外预测结果不容易调优。
4.综上所述,如何提供一种债券利率预测方法、系统、计算机设备以及非易失性计算机可读存储介质,以实现对于债券利率的有效预测,是目前本领域技术人员亟待解决的问题。
5.因此,现有技术还有待改进和提高。


技术实现要素:

6.鉴于上述现有技术的不足之处,本发明的目的在于提供一种可用于金融科技或其他相关领域的债券利率预测方法、系统、计算机设备以及非易失性计算机可读存储介质,旨在实现对于债券利率的有效预测。
7.为了达到上述目的,本发明采取了以下技术方案:
8.一种债券利率预测方法,其中,包括:
9.从数据库中抽取债券数据集,所述债券数据集内包括有多个变量;
10.对抽取的所述债券数据集进行数据整理后得到模型数据集;
11.将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集;
12.将所述模型训练集输入到mlr模型中进行训练,得到结果a;
13.将所述模型训练集输入到xgboost模型中进行训练,得到结果b;
14.将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,w1和w2为拟合系数;
15.将待测债券数据分别输入mlr模型和xgboost模型中进行处理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。
16.在进一步的技术方案中,所述的债券利率预测方法,其中,所述对抽取的所述债券数据集进行数据整理后得到模型数据集,具体包括:
17.对抽取的所述债券数据集进行数据筛选;
18.利用toad对筛选后的所述债券数据集进行卡方分箱后得到分箱数据;
19.利用woetransformer函数对所述分箱数据进行woe转化后得到模型数据集。
20.在进一步的技术方案中,所述的债券利率预测方法,其中,所述将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集,具体包括:
21.将所述模型数据集输入到xgboost模型中进行处理;
22.利用feature_importance函数输出所述模型数据集中各所述变量的特征重要性评分;
23.根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集。
24.在进一步的技术方案中,所述的债券利率预测方法,其中,所述根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集,具体包括:
25.根据所述特征重要性评分对各所述变量倒排,筛选前20%的所述变量作为模型测试集,剩余的所述变量作为模型训练集。
26.在进一步的技术方案中,所述的债券利率预测方法,其中,所述对抽取的所述债券数据集进行数据筛选,具体包括:
27.对所述债券数据集中的重复数据进行清除;
28.对所述债券数据集中的缺失率大于等于第一预设阈值的变量进行清除;
29.对所述债券数据集中的缺失率小于所述第一预设阈值的变量进行填充;
30.对所述债券数据集中的相关性大于等于第二预设阈值的变量仅保留一个,其余清除;
31.对所述债券数据集中的各变量依次计算其iv(informationvalue)值,保留iv值大于等于第三预设阈值的变量,其余清除。
32.在进一步的技术方案中,所述的债券利率预测方法,其中,所述第一预设阈值为50%,所述第二预设阈值为0.6,所述第三预设阈值为0.1。
33.在进一步的技术方案中,所述的债券利率预测方法,其中,所述从数据库中抽取债券数据集中,所述债券数据集包括:新发行债券数据、银行间回购交易数据和政策性金融债到期收益数据。
34.一种债券利率预测系统,其中,包括:
35.抽取模块,用于从数据库中抽取债券数据集,所述债券数据集内包括有多个变量;
36.数据整理模块,用于对抽取的所述债券数据集进行数据整理后得到模型数据集;
37.处理筛选模块,用于将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集;
38.第一训练模块,用于将所述模型训练集输入到mlr模型中进行训练,得到结果a;
39.第二训练模块,用于将所述模型训练集输入到xgboost模型中进行训练,得到结果b;
40.拟合模块,用于将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,w1和w2为拟合系数;
41.利率预测模块,用于将待测债券数据分别输入mlr模型和xgboost模型中进行处
理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。
42.在进一步的技术方案中,所述的债券利率预测系统,其中,所述对抽取的所述债券数据集进行数据整理后得到模型数据集,具体包括:
43.对抽取的所述债券数据集进行数据筛选;
44.利用toad对筛选后的所述债券数据集进行卡方分箱后得到分箱数据;
45.利用woetransformer函数对所述分箱数据进行woe转化后得到模型数据集。
46.在进一步的技术方案中,所述的债券利率预测系统,其中,所述将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集,具体包括:
47.将所述模型数据集输入到xgboost模型中进行处理;
48.利用feature_importance函数输出所述模型数据集中各所述变量的特征重要性评分;
49.根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集。
50.在进一步的技术方案中,所述的债券利率预测系统,其中,所述根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集,具体包括:
51.根据所述特征重要性评分对各所述变量倒排,筛选前20%的所述变量作为模型测试集,剩余的所述变量作为模型训练集。
52.在进一步的技术方案中,所述的债券利率预测系统,其中,所述对抽取的所述债券数据集进行数据筛选,具体包括:
53.对所述债券数据集中的重复数据进行清除;
54.对所述债券数据集中的缺失率大于等于第一预设阈值的变量进行清除;
55.对所述债券数据集中的缺失率小于所述第一预设阈值的变量进行填充;
56.对所述债券数据集中的相关性大于等于第二预设阈值的变量仅保留一个,其余清除;
57.对所述债券数据集中的各变量依次计算其iv(informationvalue)值,保留iv值大于等于第三预设阈值的变量,其余清除。
58.在进一步的技术方案中,所述的债券利率预测系统,其中,所述第一预设阈值为50%,所述第二预设阈值为0.6,所述第三预设阈值为0.1。
59.在进一步的技术方案中,所述的债券利率预测系统,其中,所述从数据库中抽取债券数据集中,所述债券数据集包括:新发行债券数据、银行间回购交易数据和政策性金融债到期收益数据。
60.一种计算机设备,其中,所述计算机设备包括至少一个处理器;以及,
61.与所述至少一个处理器通信连接的存储器;其中,
62.所述存储器上存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行时,可实现如上述任一项所述的债券利率预测方法。
63.一种非易失性计算机可读存储介质,其中,所述非易失性计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,可实现如上述任一项所述的
债券利率预测方法。
64.相较于现有技术,本发明提供了一种债券利率预测方法、系统、计算机设备及存储介质,其中,所述方法包括:从数据库中抽取债券数据集,所述债券数据集内包括有多个变量;对抽取的所述债券数据集进行数据整理后得到模型数据集;将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集;将所述模型训练集输入到mlr模型中进行训练,得到结果a;将所述模型训练集输入到xgboost模型中进行训练,得到结果b;将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,w1和w2为拟合系数;将待测债券数据分别输入mlr模型和xgboost模型中进行处理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。通过本发明的方法可实现对于债券利率的有效预测。
附图说明
65.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
66.图1为本发明实施例提供的一种债券利率预测方法的流程示意图。
67.图2为图1中所述步骤s200的具体流程示意图。
68.图3为图1中所述步骤s300的具体流程示意图。
69.图4为本发明实施例提供的一种债券利率预测系统的功能模块示意图。
70.图5为本发明实施例提供的所述计算机设备的硬件结构示意图。
具体实施方式
71.为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
72.在本发明的描述中,所使用的“包含”、“包括”、“具有”、“含有”等,均为开放性的用语,即意指包含但不限于。参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本技术的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
73.下面结合附图,详细说明本发明的各种非限制性实施方式。
74.请参阅图1,本发明实施例提供了一种债券利率预测方法,其中,所述方法包括步骤:
75.s100、从数据库中抽取债券数据集,所述债券数据集内包括有多个变量;
76.s200、对抽取的所述债券数据集进行数据整理后得到模型数据集;
77.s300、将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集;
78.s400、将所述模型训练集输入到mlr模型中进行训练,得到结果a;
79.s500、将所述模型训练集输入到xgboost模型中进行训练,得到结果b;
80.s600、将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,w1和w2为拟合系数;
81.s700、将待测债券数据分别输入mlr模型和xgboost模型中进行处理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。
82.进一步地,所述的债券利率预测方法,其中,所述从数据库中抽取债券数据集中,所述债券数据集包括:新发行债券数据、银行间回购交易数据和政策性金融债到期收益数据。
83.具体实施时,本实施例中,从数据库中抽取债券数据集,如从平安银行内部的hive数据库中抽取债券数据集,所述债券数据集包括:新发行债券数据、银行间回购交易数据和政策性金融债到期收益数据,其中,涉及如下字段:1年期存单平均发行价格、隔夜逆回购月平均交易量、1年期国开平均利率、10年期国开平均利率、定期存款利率:3个月(月)、定期存款利率:1年(整存整取)(月)、shibor:1周、shibor:1个月、shibor:3个月、shibor:1年、银行间同业拆借加权利率:7天、银行间同业拆借加权利率:3个月、银行间同业拆借加权利率:1年、银行间质押式回购加权利率:7天、银行间质押式回购加权利率:3个月、银行间质押式回购加权利率:1年、存款类机构质押式回购加权利率:7天、存款类机构质押式回购加权利率:3个月、存款类机构质押式回购加权利率:1年、上证综合指数、cpi:当月同比、cpi:累计同比、m2、现金净投放:当月值、债券发行量:合计与当月值、
……

84.进一步地,请参阅图2,所述的债券利率预测方法,其中,所述步骤s200、对抽取的所述债券数据集进行数据整理后得到模型数据集,具体包括步骤:
85.s201、对抽取的所述债券数据集进行数据筛选;
86.s202、利用toad对筛选后的所述债券数据集进行卡方分箱后得到分箱数据;
87.s203、利用woetransformer函数对所述分箱数据进行woe转化后得到模型数据集。
88.进一步地,所述的债券利率预测方法,其中,所述对抽取的所述债券数据集进行数据筛选,具体包括:
89.对所述债券数据集中的重复数据进行清除;
90.对所述债券数据集中的缺失率大于等于第一预设阈值的变量进行清除;
91.对所述债券数据集中的缺失率小于所述第一预设阈值的变量进行填充;
92.对所述债券数据集中的相关性大于等于第二预设阈值的变量仅保留一个,其余清除;
93.对所述债券数据集中的各变量依次计算其iv(informationvalue)值,保留iv值大于等于第三预设阈值的变量,其余清除。
94.进一步地,所述的债券利率预测方法,其中,所述第一预设阈值为50%,所述第二预设阈值为0.6,所述第三预设阈值为0.1。
95.具体实施时,本实施例中,对抽取的所述债券数据集进行数据筛选,即对所述债券
数据集中的重复数据进行清除(仅保留最新的),对所述债券数据集中的缺失率大于等于50%的变量进行清除,对所述债券数据集中的缺失率小于50%的数值型变量利用总体均值进行填充、类别型变量利用众数进行填充,对所述债券数据集中的相关性大于等于0.6的变量仅保留一个(其余清除),对所述债券数据集中的各变量依次计算其iv(information value)值,保留iv值大于等于0.1的变量(其余清除);
96.再利用toad(oracle应用开发工具)对筛选后的所述债券数据集进行卡方分箱后得到分箱数据;
97.最后,利用woetransformer函数对所述分箱数据进行woe(weightof evidence即证据权重,直观来说,woe是对原始变量的一种编码形式)转化后得到模型数据集。
98.进一步地,请参阅图3,所述的债券利率预测方法,其中,所述步骤s300、将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集,具体包括步骤:
99.s301、将所述模型数据集输入到xgboost模型中进行处理;
100.s302、利用feature_importance函数输出所述模型数据集中各所述变量的特征重要性评分;
101.s303、根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集。
102.进一步地,所述的债券利率预测方法,其中,所述根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集,具体包括:
103.根据所述特征重要性评分对各所述变量倒排,筛选前20%的所述变量作为模型测试集,剩余的所述变量作为模型训练集。
104.具体实施时,本实施例中,将所述模型数据集输入到xgboost模型中进行处理,利用feature_importance函数输出所述模型数据集中各所述变量的特征重要性评分,根据所述特征重要性评分对各所述变量倒排,筛选前20%的所述变量作为模型测试集作为后续模型的测试数据使用,剩余的所述变量作为模型训练集;
105.其中,xgboost(extremegradientboosting)又叫极度梯度提升树,是boosting算法的一种实现方式,针对分类或回归问题,效果非常好,在工业界也是应用广泛,主要是因为其效果优异,使用简单,速度快等优点。
106.进一步地,具体实施时,在得到模型训练集后,将所述模型训练集输入到mlr(多元线性回归)模型中进行训练得到结果a,将所述模型训练集输入到xgboost模型中进行训练得到结果b,再将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,其中,w1和w2为拟合系数,最后,将待测债券数据分别输入mlr模型和xgboost模型中进行处理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。
107.由以上方法实施例可知,本发明提供的债券利率预测方法基于xgboost和mlr融合模型,其中,利用xgboost模型进行变量特征重要性筛选,xgboost不仅使用到一阶导数,还使用二阶导数,让损失更精准,xgboost还可以利用并行优化,它的并行是在特征粒度上的,支持列抽样,不仅能降低过拟合,还能减少计算,可大大提升运算性能;其次,利用mlr(多元线性回归)模型具有拟合能力强、业务解释性强等优点,模型拟合出的方程直观明了,便于
帮助业务工作人员辅助理解;即本发明的方法基于xgboost和mlr融合模型,可实现对于债券利率的有效预测,实现了银行金融科技的有效结合。
108.应该理解的是,虽然本技术提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤,这些操作步骤并不是必然按照实施例或流程图的顺序依次执行。实施例或流程图中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。而且,实施例或流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流、交替或者同步地执行。
109.基于上述实施例,请参阅图4,本发明另一实施例还提供了一种债券利率预测系统,其中,所述系统包括:
110.抽取模块11,用于从数据库中抽取债券数据集,所述债券数据集内包括有多个变量;
111.数据整理模块12,用于对抽取的所述债券数据集进行数据整理后得到模型数据集;
112.处理筛选模块13,用于将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集;
113.第一训练模块14,用于将所述模型训练集输入到mlr模型中进行训练,得到结果a;
114.第二训练模块15,用于将所述模型训练集输入到xgboost模型中进行训练,得到结果b;
115.拟合模块16,用于将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,w1和w2为拟合系数;
116.利率预测模块17,用于将待测债券数据分别输入mlr模型和xgboost模型中进行处理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。
117.进一步地,所述的债券利率预测系统,其中,所述从数据库中抽取债券数据集中,所述债券数据集包括:新发行债券数据、银行间回购交易数据和政策性金融债到期收益数据。
118.具体实施时,本实施例中,从数据库中抽取债券数据集,如从平安银行内部的hive数据库中抽取债券数据集,所述债券数据集包括:新发行债券数据、银行间回购交易数据和政策性金融债到期收益数据,其中,涉及如下字段:1年期存单平均发行价格、隔夜逆回购月平均交易量、1年期国开平均利率、10年期国开平均利率、定期存款利率:3个月(月)、定期存款利率:1年(整存整取)(月)、shibor:1周、shibor:1个月、shibor:3个月、shibor:1年、银行间同业拆借加权利率:7天、银行间同业拆借加权利率:3个月、银行间同业拆借加权利率:1年、银行间质押式回购加权利率:7天、银行间质押式回购加权利率:3个月、银行间质押式回
购加权利率:1年、存款类机构质押式回购加权利率:7天、存款类机构质押式回购加权利率:3个月、存款类机构质押式回购加权利率:1年、上证综合指数、cpi:当月同比、cpi:累计同比、m2、现金净投放:当月值、债券发行量:合计与当月值、
……

119.进一步地,所述的债券利率预测系统,其中,所述对抽取的所述债券数据集进行数据整理后得到模型数据集,具体包括:
120.对抽取的所述债券数据集进行数据筛选;
121.利用toad对筛选后的所述债券数据集进行卡方分箱后得到分箱数据;
122.利用woetransformer函数对所述分箱数据进行woe转化后得到模型数据集。
123.进一步地,所述的债券利率预测系统,其中,所述对抽取的所述债券数据集进行数据筛选,具体包括:
124.对所述债券数据集中的重复数据进行清除;
125.对所述债券数据集中的缺失率大于等于第一预设阈值的变量进行清除;
126.对所述债券数据集中的缺失率小于所述第一预设阈值的变量进行填充;
127.对所述债券数据集中的相关性大于等于第二预设阈值的变量仅保留一个,其余清除;
128.对所述债券数据集中的各变量依次计算其iv(informationvalue)值,保留iv值大于等于第三预设阈值的变量,其余清除。
129.进一步地,所述的债券利率预测系统,其中,所述第一预设阈值为50%,所述第二预设阈值为0.6,所述第三预设阈值为0.1。
130.具体实施时,本实施例中,对抽取的所述债券数据集进行数据筛选,即对所述债券数据集中的重复数据进行清除(仅保留最新的),对所述债券数据集中的缺失率大于等于50%的变量进行清除,对所述债券数据集中的缺失率小于50%的数值型变量利用总体均值进行填充、类别型变量利用众数进行填充,对所述债券数据集中的相关性大于等于0.6的变量仅保留一个(其余清除),对所述债券数据集中的各变量依次计算其iv(information value)值,保留iv值大于等于0.1的变量(其余清除);
131.再利用toad(oracle应用开发工具)对筛选后的所述债券数据集进行卡方分箱后得到分箱数据;
132.最后,利用woetransformer函数对所述分箱数据进行woe(weightof evidence即证据权重,直观来说,woe是对原始变量的一种编码形式)转化后得到模型数据集。
133.进一步地,所述的债券利率预测系统,其中,所述将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集,具体包括:
134.将所述模型数据集输入到xgboost模型中进行处理;
135.利用feature_importance函数输出所述模型数据集中各所述变量的特征重要性评分;
136.根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集。
137.进一步地,所述的债券利率预测系统,其中,所述根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集,具体包括:
138.根据所述特征重要性评分对各所述变量倒排,筛选前20%的所述变量作为模型测试集,剩余的所述变量作为模型训练集。
139.具体实施时,本实施例中,将所述模型数据集输入到xgboost模型中进行处理,利用feature_importance函数输出所述模型数据集中各所述变量的特征重要性评分,根据所述特征重要性评分对各所述变量倒排,筛选前20%的所述变量作为模型测试集作为后续模型的测试数据使用,剩余的所述变量作为模型训练集;
140.其中,xgboost(extremegradientboosting)又叫极度梯度提升树,是boosting算法的一种实现方式,针对分类或回归问题,效果非常好,在工业界也是应用广泛,主要是因为其效果优异,使用简单,速度快等优点。
141.进一步地,具体实施时,在得到模型训练集后,将所述模型训练集输入到mlr(多元线性回归)模型中进行训练得到结果a,将所述模型训练集输入到xgboost模型中进行训练得到结果b,再将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,其中,w1和w2为拟合系数,最后,将待测债券数据分别输入mlr模型和xgboost模型中进行处理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。
142.由以上系统实施例可知,本发明提供的债券利率预测系统基于xgboost和mlr融合模型,其中,利用xgboost模型进行变量特征重要性筛选,xgboost不仅使用到一阶导数,还使用二阶导数,让损失更精准,xgboost还可以利用并行优化,它的并行是在特征粒度上的,支持列抽样,不仅能降低过拟合,还能减少计算,可大大提升运算性能;其次,利用mlr(多元线性回归)模型具有拟合能力强、业务解释性强等优点,模型拟合出的方程直观明了,便于帮助业务工作人员辅助理解;即本发明的系统基于xgboost和mlr融合模型,可实现对于债券利率的有效预测,实现了银行金融科技的有效结合。
143.基于上述实施例,请参阅图5,本发明另一实施例还提供了一种计算机设备,其中,所述计算机设备10包括:
144.存储器120以及一个或多个处理器110,图5中以一个处理器110为例进行介绍,处理器110和存储器120可以通过通信总线或者其他方式连接,图5中以通过通信总线连接为例。
145.处理器110用于完成计算机设备10的各种控制逻辑,其可以为通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)、单片机、arm(acornriscmachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,dsp和微处理器的组合、多个微处理器、一个或多个微处理器结合dsp核、或任何其它这种配置。
146.存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的债券利率预测方法对应的计算机程序。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行计算机设备10的各种功能应用以及数据处理,即实现上述方法实施例中的债券利率预测方法。
147.存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作装
置、至少一个功能所需要的应用程序;存储数据区可存储根据计算机设备10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
148.一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,可实现如上述任一项方法实施例中的债券利率预测方法,例如,可实现以上描述的图1中的方法步骤s100至步骤s700。
149.本领域技术人员可以理解,图5中示出的硬件结构示意图,仅仅是与本发明方案相关的部分结构的示意图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多的部件,或者组合某些部件,或者具有不同的部件布置。
150.基于上述实施例,本发明还提供了一种非易失性计算机可读存储介质,其中,所述非易失性计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,可实现如上述任一项方法实施例中的债券利率预测方法,例如,可实现以上描述的图1中的方法步骤s100至步骤s700。
151.作为示例,非易失性存储介质能够包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦rom(eeprom)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(ram)。通过说明并非限制,ram可以以诸如同步ram(sram)、动态ram、(dram)、同步dram(sdram)、双数据速率sdram(ddrsdram)、增强型sdram(esdram)、synchlinkdram(sldram)以及直接rambus(兰巴斯)ram(drram)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
152.本发明的另一种实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,可实现如上述任一项方法实施例中的债券利率预测方法,例如,可实现以上描述的图1中的方法步骤s100至步骤s700。
153.以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。
154.通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存在于计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施例或者实施例的某些部分的方法。
155.除了其他之外,诸如“能够”、“能”、“可能”或“可以”之类的条件语言除非另外具体
地陈述或者在如所使用的上下文内以其他方式理解,否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此,这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。
156.已经在本文中在本说明书和附图中描述的内容包括能够提供债券利率预测方法、系统、计算机设备以及非易失性计算机可读存储介质的示例。当然,不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合,但是可以认识到,所公开的特征的许多另外的组合和置换是可能的。因此,显而易见的是,在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改,但是,所有这些各种修改都应属于本发明所附权利要求的保护范围。此外,或在替代方案中,本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是,本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语,但是它们在通用和描述性意义上被使用并且不用于限制的目的。

技术特征:
1.一种债券利率预测方法,其特征在于,包括:从数据库中抽取债券数据集,所述债券数据集内包括有多个变量;对抽取的所述债券数据集进行数据整理后得到模型数据集;将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集;将所述模型训练集输入到mlr模型中进行训练,得到结果a;将所述模型训练集输入到xgboost模型中进行训练,得到结果b;将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,w1和w2为拟合系数;将待测债券数据分别输入mlr模型和xgboost模型中进行处理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。2.根据权利要求1所述的债券利率预测方法,其特征在于,所述对抽取的所述债券数据集进行数据整理后得到模型数据集,具体包括:对抽取的所述债券数据集进行数据筛选;利用toad对筛选后的所述债券数据集进行卡方分箱后得到分箱数据;利用woetransformer函数对所述分箱数据进行woe转化后得到模型数据集。3.根据权利要求2所述的债券利率预测方法,其特征在于,所述将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集,具体包括:将所述模型数据集输入到xgboost模型中进行处理;利用feature_importance函数输出所述模型数据集中各所述变量的特征重要性评分;根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集。4.根据权利要求3所述的债券利率预测方法,其特征在于,所述根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集,具体包括:根据所述特征重要性评分对各所述变量倒排,筛选前20%的所述变量作为模型测试集,剩余的所述变量作为模型训练集。5.根据权利要求2所述的债券利率预测方法,其特征在于,所述对抽取的所述债券数据集进行数据筛选,具体包括:对所述债券数据集中的重复数据进行清除;对所述债券数据集中的缺失率大于等于第一预设阈值的变量进行清除;对所述债券数据集中的缺失率小于所述第一预设阈值的变量进行填充;对所述债券数据集中的相关性大于等于第二预设阈值的变量仅保留一个,其余清除;对所述债券数据集中的各变量依次计算其iv(informationvalue)值,保留iv值大于等于第三预设阈值的变量,其余清除。6.根据权利要求5所述的债券利率预测方法,其特征在于,所述第一预设阈值为50%,所述第二预设阈值为0.6,所述第三预设阈值为0.1。7.根据权利要求1-6任一项所述的债券利率预测方法,其特征在于,所述从数据库中抽
取债券数据集中,所述债券数据集包括:新发行债券数据、银行间回购交易数据和政策性金融债到期收益数据。8.一种债券利率预测系统,其特征在于,包括:抽取模块,用于从数据库中抽取债券数据集,所述债券数据集内包括有多个变量;数据整理模块,用于对抽取的所述债券数据集进行数据整理后得到模型数据集;处理筛选模块,用于将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集;第一训练模块,用于将所述模型训练集输入到mlr模型中进行训练,得到结果a;第二训练模块,用于将所述模型训练集输入到xgboost模型中进行训练,得到结果b;拟合模块,用于将所述结果a和所述结果b作为自变量,利用mlr模型进行拟合,得到拟合方程:利率=w1*结果a+w2*结果b,w1和w2为拟合系数;利率预测模块,用于将待测债券数据分别输入mlr模型和xgboost模型中进行处理,对应输出所述待测债券的结果a和结果b,将所述待测债券的结果a和结果b带入所述拟合方程内,以得到所述待测债券的利率预测值。9.根据权利要求8所述的债券利率预测系统,其特征在于,所述对抽取的所述债券数据集进行数据整理后得到模型数据集,具体包括:对抽取的所述债券数据集进行数据筛选;利用toad对筛选后的所述债券数据集进行卡方分箱后得到分箱数据;利用woetransformer函数对所述分箱数据进行woe转化后得到模型数据集。10.根据权利要求9所述的债券利率预测系统,其特征在于,所述将所述模型数据集输入到xgboost模型中进行处理,输出所述模型数据集中各所述变量的特征重要性,根据所述特征重要性筛选变量得到模型训练集,具体包括:将所述模型数据集输入到xgboost模型中进行处理;利用feature_importance函数输出所述模型数据集中各所述变量的特征重要性评分;根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集。11.根据权利要求10所述的债券利率预测系统,其特征在于,所述根据所述特征重要性评分对各所述变量倒排,筛选变量得到模型测试集和模型训练集,具体包括:根据所述特征重要性评分对各所述变量倒排,筛选前20%的所述变量作为模型测试集,剩余的所述变量作为模型训练集。12.根据权利要求9所述的债券利率预测系统,其特征在于,所述对抽取的所述债券数据集进行数据筛选,具体包括:对所述债券数据集中的重复数据进行清除;对所述债券数据集中的缺失率大于等于第一预设阈值的变量进行清除;对所述债券数据集中的缺失率小于所述第一预设阈值的变量进行填充;对所述债券数据集中的相关性大于等于第二预设阈值的变量仅保留一个,其余清除;对所述债券数据集中的各变量依次计算其iv(informationvalue)值,保留iv值大于等于第三预设阈值的变量,其余清除。13.根据权利要求12所述的债券利率预测系统,其特征在于,所述第一预设阈值为
50%,所述第二预设阈值为0.6,所述第三预设阈值为0.1。14.根据权利要求8-13任一项所述的债券利率预测系统,其特征在于,所述从数据库中抽取债券数据集中,所述债券数据集包括:新发行债券数据、银行间回购交易数据和政策性金融债到期收益数据。15.一种计算机设备,其特征在于,所述计算机设备包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器上存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行时,可实现如权利要求1-7任一项所述的债券利率预测方法。16.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,可实现如权利要求1-7任一项所述的债券利率预测方法。

技术总结
本发明公开了一种债券利率预测方法、系统、计算机设备及存储介质,包括:从数据库中抽取债券数据集;对抽取的债券数据集进行数据整理后得到模型数据集;将模型数据集输入到XGBoost模型中进行处理,输出模型数据集中各变量的特征重要性,根据特征重要性筛选变量得到模型训练集;将模型训练集输入到MLR模型中进行训练,得到结果A;将模型训练集输入到XGBoost模型中进行训练,得到结果B;将结果A和结果B作为自变量,利用MLR模型进行拟合,得到拟合方程:利率=w1*结果A+w2*结果B;将待测债券数据分别输入MLR模型和XGBoost模型对应输出待测债券的结果a和结果b,将结果a和结果b带入拟合方程,得到待测债券的利率预测值。本发明方法可实现对于债券利率的有效预测。明方法可实现对于债券利率的有效预测。明方法可实现对于债券利率的有效预测。


技术研发人员:蔡凡华 毛佩芳
受保护的技术使用者:平安银行股份有限公司
技术研发日:2023.06.02
技术公布日:2023/8/6
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐