一种旅客联程运输方案预测方法、系统及设备和介质与流程

未命名 10-17 阅读:186 评论:0


1.本技术涉及一种旅客运输方法,特别涉及旅客联程运输方案预测方法及其系统。


背景技术:

2.当前,旅客联程运输是指旅客在不同交通方式之间进行衔接和换乘,从而实现一次性购票、行李托运、安全保障等一系列服务的综合性出行方式。目前我国积极推进旅客联程运输服务的发展,在相关政策和标准上,交通运输部门出台了一系列政策和标准,鼓励和规范联程运输的发展;在交通运输基础设施上,铁路、航空、公路等交通网络在逐步形成,并建立了多个大型综合交通枢纽站;在信息化服务上,各个交通相关部门之间开始开展合作,实现了联程运输服务的在线化、智能化和个性化;在联程运输研究上,研究的方向越来越多,如旅客换乘影响因素分析,航空、铁路、公路等超网络模型建立,空铁联运、铁公联运算法研究等。
3.机器学习是近年来人工智能领域中的一个热点。随着技术的不断升级和应用,机器学习正逐步成为各行业中的重要工具和手段,为各种问题的解决提供了更为高效、准确、智能的解决方案。在旅客联程运输中领域上,机器学习已经开始应用,如航班延误预测、客流预测和乘客行为分析等方面。机器学习在旅客联程运输方案推荐上也开始起步,多集中在两次联运方案推荐的研究,而两次以上联运方案推荐的研究鲜有。
4.因此,亟需提出一种基于多模型融合的旅客联程运输方案推荐方法,即将多个不同的机器学习模型组合在一起,充分利用不同模型的优势,提高预测准确性和鲁棒性,减少过拟合,降低误差方法。以解决现有技术中存在的单个模型的不足的技术问题,提高模型的稳定性和泛化能力,具有很高的实际应用价值。


技术实现要素:

5.本技术实施例提供了一种多模型融合预测旅客联程运输方案的方法,以解决现有技术中存在的单个模型的不足的技术问题。
6.第一方面,本技术实施例提供了一种旅客联程运输方案预测方法,方法包括:
7.联程运输数据获取及处理步骤:按照预设联程运输数据请求方式及数据格式,从多种类型联运系统获取并数据处理联程运输数据,其中联运系统包括:空铁联运系统、空公联运系统、铁公联运系统及铁水联运系统;
8.联运数据集划分步骤:基于获取的联程运输数据按照不同时间区间和不同联运类型为依据,划分出多个不重合的数据集,根据每个数据集按照预定比例划分出训练集,验证集和测试集;
9.联运模型训练步骤:根据划分的多个数据集并行训练多组联运模型,每组联运模型包括至少一个机器学习模型,每组联运模型采用共享方式或非共享方式进行组合,协同完成一个由联运中转点预测和联程运输方式预测组成的旅客联程运输方案的推荐;
10.联运模型结果融合步骤:根据训练好的多组联运模型进行预测,分别在不同联运
类型下,采用权重加权方式实现当前联运不同时间段的模型结果的融合,整体排序,实现为旅客推荐多种联程运输方案。
11.本发明实施例中,上述联程运输数据获取及处理步骤进一步包括:
12.数据归一化步骤:每条联程运输数据包括出发与到达点属性信息,中转点标签信息及旅客个体特征信息,将旅客联程运输数据的类型通过无量纲处理方式,将旅客联程运输数据的原始数据值转换变成具有相对关系的相对值,数据量缩小到特定范围之内;
13.数据增广步骤:根据人工的先验知识和领域外知识,扩充联程运输数据的训练数据;
14.数据数字编码步骤:将联程运输数据的文字信息编码成数字信息。
15.本发明实施例中,上述联运数据集划分步骤进一步包括:
16.时间段划分步骤:按照不同时间区间划分出多个不重合的数据集,时间区间包括:按月份、季度、年份、自定义时间段;
17.联运类型划分步骤:按联运类型划分出多个不重合的数据集,旅客在联运时选择不同类型的联程运输,联运类型包括:空铁联运、空公联运、铁公联运及铁公水联运。
18.本发明实施例中,上述联运模型训练步骤进一步包括:
19.共享方式组合步骤:共享方式为包含一个共享的底层特征和多个不同预测任务的高层特征的联运模型组合方式,底层特征的参数相同,高层特征的参数不同,根据不同任务进行学习单独获取;
20.非共享方式组合步骤:非共享方式为包含多个独立预测任务的联运模型组合方式,独立预测任务选择不同模型或相同模型不同结构与参数。
21.联运中转点预测步骤:每组联运模型对旅客在联运时选择中转点进行预测,如果有多个中转点,则进行多次预测;
22.联运运输方式预测步骤:每组联运模型对旅客在联运时选择不同组合的运输方式进行预测。
23.本发明实施例中,上述联运模型结果融合步骤进一步包括:
24.多个模型结果融合计算步骤:分别根据指定联运类型,按照不同时间段的模型结果对应的权重分数,计算出指定联运不同时间段的推荐联运运输方案的推荐值,相加后推荐值最大的联运推荐方案作为指定联运的模型融合推荐方案,权重分数根据与当前时间的距离远近进行取值;
25.整体排序步骤:多种联运的模型结果融合后得到多个模型融合方案,形成联运推荐方案集合,联运推荐方案集合按照推荐值从大到小排序,作为最终的推荐方案推荐给旅客。
26.本发明实施例中,上述联运模型训练步骤进一步包括:
27.联运模型效果评估步骤:联运模型效果的评价采用准确率来评估,准确率计算公式如下:
[0028][0029]
其中,tp表示模型样本为正样本,预测结果为正样本,tn表示样本为负样本,预测结果为负样本,fp表示样本为负样本,预测结果为正样本,fn表示样本为正样本,预测结果
为负样本。
[0030]
本发明实施例中,上述多个模型结果融合计算步骤进一步包括:
[0031]
模型融合推荐方案pk,计算方法如下:
[0032][0033]
其中k为某种具体联运,如空铁联运、空公联运;m为时间段的总个数;p
ki
为k联运时第i时间段预测联运运输方案的结果;α
ki
为p
ki
的对应权重,整体权重和为1,且距离当前时间越近的时间段,权重越大,距离当前时间越远的时间段,权重越小。
[0034]
第二方面,本技术实施例提供了一种旅客联程运输方案预测系统,采用如上所述旅客联程运输方案预测方法,系统包括:
[0035]
联程运输数据获取及处理模块:按照预设联程运输数据请求方式及数据格式,从多种类型联运系统获取并数据处理联程运输数据,其中联运系统包括:空铁联运系统、空公联运系统、铁公联运系统及铁水联运系统;
[0036]
联运数据集划分模块:基于获取的联程运输数据按照不同时间区间和不同联运类型为依据,划分出多个不重合的数据集,根据每个数据集按照预定比例划分出训练集,验证集和测试集;
[0037]
联运模型训练模块:根据划分的多个数据集并行训练多组联运模型,每组联运模型包括至少一个机器学习模型,每组联运模型采用共享方式或非共享方式进行组合,协同完成一个由联运中转点预测和联程运输方式预测组成的旅客联程运输方案的推荐;
[0038]
联运模型结果融合模块:根据训练好的多组联运模型进行预测,分别在不同联运类型下,采用权重加权方式实现当前联运不同时间段的模型结果的融合,整体排序,实现为旅客推荐多种联程运输方案。
[0039]
第三方面,本技术实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的旅客联程运输方案预测方法。
[0040]
第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的旅客联程运输方案预测方法。
[0041]
相比于相关现有技术,具有以下突出的有益效果:
[0042]
1)本发明方法提出了一种基于多模型融合预测旅客联程运输方案的方法,实现各种交通方式之间的联程运输,多模型融合方式能够进一步提升两次及以上联运方案预测的准确率和鲁棒性;
[0043]
2)同时,本发明方法提出一种使用共享或非共享方式组合的模型实现两次以上联运方案的推荐。为两次以上联运的方案推荐的研究提供了新的思路,更好地为旅客出行服务。
附图说明
[0044]
此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0045]
图1为本发明旅客联程运输方案预测方法示意图;
[0046]
图2为本发明具体实施例旅客联程运输方案预测方法流程图;
[0047]
图3a为本发明具体实施例共享方式示意图;
[0048]
图3b为本发明具体实施例非共享方式示意图;
[0049]
图4为本发明旅客联程运输方案预测系统示意图;
[0050]
图5为根据本技术实施例的计算机设备的硬件结构示意图。
[0051]
以上图中:
[0052]
10联运运输数据获取及处理模块20联运数据集划分模块
[0053]
30多联运模型训练模块40多联运模型融合模块。
具体实施方式
[0054]
为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。基于本技术提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0055]
显而易见地,下面描述中的附图仅仅是本技术的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本技术应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本技术公开的内容相关的本领域的普通技术人员而言,在本技术揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本技术公开的内容不充分。
[0056]
本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
[0057]
在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本技术所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
[0058]
除非另作定义,本技术所涉及的技术术语或者科学术语应当为本技术所属技术领域内具有一般技能的人士所理解的通常意义。本技术所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本技术所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本技术所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本技术所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本技术所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0059]
本发明旨在提供一种基于多模型融合的旅客联程运输方案推荐方法,即将多个不
同的机器学习模型组合在一起,充分利用不同模型的优势,提高预测准确性和鲁棒性,减少过拟合,降低误差方法。以解决现有技术中存在的单个模型的不足的技术问题,提高模型的稳定性和泛化能力,具有很高的实际应用价值。
[0060]
如图1所示,本技术实施例提供了一种旅客联程运输方案预测方法,方法包括:
[0061]
联程运输数据获取及处理步骤s10:按照预设联程运输数据请求方式及数据格式,从多种类型联运系统获取并数据处理联程运输数据,其中联运系统包括:空铁联运系统、空公联运系统、铁公联运系统及铁水联运系统;
[0062]
联运数据集划分步骤s20:基于获取的联程运输数据按照不同时间区间和不同联运类型为依据,划分出多个不重合的数据集,根据每个数据集按照预定比例划分出训练集,验证集和测试集;
[0063]
联运模型训练步骤s30:根据划分的多个数据集并行训练多组联运模型,每组联运模型包括至少一个机器学习模型,每组联运模型采用共享方式或非共享方式进行组合,协同完成一个由联运中转点预测和联程运输方式预测组成的旅客联程运输方案的推荐;
[0064]
联运模型结果融合步骤s40:根据训练好的多组联运模型进行预测,分别在不同联运类型下,采用权重加权方式实现当前联运不同时间段的模型结果的融合,整体排序,实现为旅客推荐多种联程运输方案。
[0065]
本发明实施例中,上述联程运输数据获取及处理步骤s10进一步包括:
[0066]
数据归一化步骤:每条联程运输数据包括出发与到达点属性信息,中转点标签信息及旅客个体特征信息,将旅客联程运输数据的类型通过无量纲处理方式,将旅客联程运输数据的原始数据值转换变成具有相对关系的相对值,数据量缩小到特定范围之内;
[0067]
数据增广步骤:根据人工的先验知识和领域外知识,扩充联程运输数据的训练数据;
[0068]
数据数字编码步骤:将联程运输数据的文字信息编码成数字信息。
[0069]
本发明实施例中,上述联运数据集划分步骤s20进一步包括:
[0070]
时间段划分步骤:按照不同时间区间划分出多个不重合的数据集,时间区间包括:按月份、季度、年份、自定义时间段;
[0071]
联运类型划分步骤:按联运类型划分出多个不重合的数据集,旅客在联运时选择不同类型的联程运输,联运类型包括:空铁联运、空公联运、铁公联运及铁公水联运。
[0072]
本发明实施例中,上述联运模型训练步骤s30进一步包括:
[0073]
共享方式组合步骤:共享方式为包含一个共享的底层特征和多个不同预测任务的高层特征的联运模型组合方式,底层特征的参数相同,高层特征的参数不同,根据不同任务进行学习单独获取;
[0074]
非共享方式组合步骤:非共享方式为包含多个独立预测任务的联运模型组合方式,独立预测任务选择不同模型或相同模型不同结构与参数。
[0075]
联运中转点预测步骤:每组联运模型对旅客在联运时选择中转点进行预测,如果有多个中转点,则进行多次预测;
[0076]
联运运输方式预测步骤:每组联运模型对旅客在联运时选择不同组合的运输方式进行预测。
[0077]
本发明实施例中,上述联运模型结果融合步骤s40进一步包括:
[0078]
多个模型结果融合计算步骤:分别根据指定联运类型,按照不同时间段的模型结果对应的权重分数,计算出指定联运不同时间段的推荐联运运输方案的推荐值,相加后推荐值最大的联运推荐方案作为指定联运的模型融合推荐方案,权重分数根据与当前时间的距离远近进行取值;
[0079]
整体排序步骤:多种联运的模型结果融合后得到多个模型融合方案,形成联运推荐方案集合,联运推荐方案集合按照推荐值从大到小排序,作为最终的推荐方案推荐给旅客。
[0080]
本发明实施例中,上述联运模型训练步骤s30进一步包括:
[0081]
联运模型效果评估步骤:联运模型效果的评价采用准确率来评估,准确率计算公式如下:
[0082][0083]
其中,tp表示模型样本为正样本,预测结果为正样本,tn表示样本为负样本,预测结果为负样本,fp表示样本为负样本,预测结果为正样本,fn表示样本为正样本,预测结果为负样本。
[0084]
本发明实施例中,上述多个模型结果融合计算步骤进一步包括:
[0085]
模型融合推荐方案pk,计算方法如下:
[0086][0087]
其中k为某种具体联运,如空铁联运、空公联运;m为时间段的总个数;p
ki
为k联运时第i时间段预测联运运输方案的结果;α
ki
为p
ki
的对应权重,整体权重和为1,且距离当前时间越近的时间段,权重越大,距离当前时间越远的时间段,权重越小。
[0088]
以下结合附图对本发明具体实施例进行详细说明:
[0089]
本发明具体实施例流程如图2所示:
[0090]
1、数据获取
[0091]
按照规定的请求方式和数据格式,从各个联运系统获取旅客选择的联程运输数据。其中数据格式是加密的json格式,根据协定的密钥解析出json字符串,根据规定json字符串定义解析出需要的对象和字段数据。
[0092]
其中联运系统包括了空铁联运系统、空公联运系统、铁公联运系统、铁水联运系统等。本发明联运系统并不限于此,还可以包括其他联运系统,如船运、水路运输等。
[0093]
其中每条旅客联程运输数据信息包括出发与到达点属性信息,中转点标签信息,旅客个体特征信息等。出发与到达点属性信息包括出发/到达点经纬度属性,出发/到达点与最近中转点距离属性等。中转点标签信息包括联运运输方式标签,第一中转点标签,第二中转点标签等。旅客个体特征信息包括旅客年龄属性,性别属性,出发时间属性,是否多人一起购票属性等。其他信息还包括日期属性。本发明属性信息并不限于此,还可以包括其他属性信息。
[0094]
2、数据处理
[0095]
处理获取的旅客联程运输数据。采用多种数据处理方法,如缺失值处理、数据归一化、数据增广、数据数字编码等。
[0096]
其中数据缺失是指数据集中某个或某些属性的值时不完整的情况。它是由多种原
因造成,如侦测成本过高、隐私保护、无效数据、信息遗漏等情况。可以采用方法包括直接删除、默认值填充、均值填充、众数填充、knn填充等。处理缺失值能够更好提高数据完整性和可靠性。
[0097]
其中数据归一化是将取值范围相差较大的不同旅客联程运输数据类型通过一种无量纲处理手段,将原始数据值通过函数转换变成具有某种相对关系的相对值,数据量缩小到特定范围之内。可以采用方法包括最值归一化、均值方差归一化等。
[0098]
其中数据增广是一种扩充训练数据的方法。可以根据人工的先验知识和领域外知识来丰富训练数据,进而提高模型的鲁棒性。
[0099]
其中数据数字编码是把文字信息编码成数字信息,方便机器学习模型的直接使用。可以采用方法包括独热编码、标签编码、哑编码等。
[0100]
3、数据划分
[0101]
获取的旅客联程运输数据按照时间段、联运运输方式为依据,划分出多个不重合的数据集,然后每个数据集按照一定比例划分出训练集,验证集和测试集,用于模型在该数据集下的训练与预测。
[0102]
其中按时间段划分是指按照不同时间区间划分,如按月份、季度、年份、自定义时间段等。
[0103]
其中按联运类型方式划分是指旅客在联运时选择不同类型的联程运输进行划分,如空铁联运,空公联运,铁公水联运等。
[0104]
4、多模型训练
[0105]
根据划分的数据集并行地训练多个模型。每个数据集训练出一组模型,每组模型包括一个或多个机器学习模型,协同完成一个旅客联程运输方案的推荐。每组模型的协同任务包括联运中转点预测和联程运输方式预测。每组模型的组合方式有共享方式和非共享方式两种,可以根据实际情况选择模型效果较好的组合方式。
[0106]
其中联运中转点预测是指旅客在联运时选择中转点的预测,如果有多个中转点,需要多次预测,如第一中转点预测,第二中转点预测等。
[0107]
其中联运运输方式预测是指旅客在联运时选择不同运输方式组合的预测,有两种运输方式组合,如先空后铁方式,先铁后空方式等。有三种运输方式组合,如先铁再公后水方式,先铁再空后铁方式等。还有更多运输方式组合。
[0108]
其中共享方式由一个共享的底层特征和多个不同预测任务的高层特征组成。底层特征的参数是完全相同的,通过这种共享特征增加不同任务间的联系。高层特征的参数是不同的,根据不同任务进行学习,单独得到,具体如图3a所示。
[0109]
其中非共享方式由多个不同预测任务组成。不同任务可以选择不同模型或相同模型不同结构与参数来实现,最后整合每个任务预测结果,共同实现预测目标,具体如图3b所示。
[0110]
其中模型效果的评价采用准确率来评估,准确率计算公式如下:
[0111][0112]
其中tp表示样本为正样本,预测结果为正样本。tn表示样本为负样本,预测结果为负样本。fp表示样本为负样本,预测结果为正样本。fn表示样本为正样本,预测结果为负样
本。
[0113]
5、多模型结果融合
[0114]
根据训练好的多个模型进行预测,按照联运类型分别对多个预测结果进行融合,形成多方案集合为旅客推荐。
[0115]
融合模型的方法是根据某种联运类型,对不同时间段的模型结果进行加权。融合模型结果得到方案pk,计算方法如下:
[0116][0117]
其中k为某种具体联运,如空铁联运、空公联运;m为时间段的总个数;p
ki
为k联运时第i时间段预测联运运输方案的结果;α
ki
为p
ki
的对应权重,整体权重和为1,且距离当前时间越近的时间段,权重越大,距离当前时间越远的时间段,权重越小。这种权重设置方式能够通过近期历史数据挖掘当下旅客选择行为规律,同时也保证通过较早历史数据挖掘潜在旅客选择行为规律。
[0118]
选择推荐值最大的方案pk作为k联运的推荐方案。多种联运融合模型结果后形成整体方案集合p,pk∈p,按照推荐值大小从大到小顺序,实现为旅客推荐出多种联程运输方案。
[0119]
本发明具体实施例中以空铁两次联运为例:
[0120]
1数据获取
[0121]
从空铁联运系统获取旅客选择的两次联运运输数据。
[0122]
2数据处理
[0123]
处理获取旅客选择的空铁联运数据。
[0124]
首先对于属性信息缺失,出发/到达点经纬度属性缺失采用删除处理,旅客年龄属性采用默认值填充,其他属性信息采用均值补充。
[0125]
接着对旅客出发时间和旅客年龄采用归一化处理,计算公式如下:
[0126][0127]
式中x为原始值,x

为处理后的值,x
max
为该属性的最大值,x
min
为该属性的最小值。这里旅客年龄属性最大值取100,最小值取0;旅客出发时间最大值取24,最小值取0。
[0128]
接着对出发与到达点的经纬度属性增加一个合理的随机值,对于旅客出发时间增加一个合理的随机值。从而使数据增加5倍,实现数据增广。
[0129]
最后对标签数据进行标签编码,联运运输方式标签和第一中转点标签分别与十进制数字一一对应,使文字信息转化成数字信息。
[0130]
3数据划分
[0131]
时间段上按照自定义两个时间段划分,分别是20220801~20230131和20220201~20220731,形成两个数据集。每个数据集按照7:1:2的比例划分出训练集,验证集和测试集。联运类型上只有一个,为空铁联运。
[0132]
4多模型训练
[0133]
分别在两个时间段的空铁联运数据集上并行训练模型。
[0134]
设计单输入多输出人工神经网络,这种共享方式模型能够实现底层特征共享和高层特征单独学习分类任务。
[0135]
使用该模型在20220801~20230131期间的数据集上训练与测试,联运运输方式预测准确率为93.07%,第一中转点预测准确率为74.02%,整体预测准确率为70.22%。
[0136]
设计单独预测联运运输方式和单独预测中转点的非共享方式模型,具体是采用随机森林模型单独预测联运运输方式,采用xgboost模型单独预测中转城市,两个模型联合在一起,完成一条完整方案的预测。其中随机森林模型和xgboost模型都属于集成学习算法,是由多个基学习器组合成的强学习器。
[0137]
使用该模型在20220801~20230131期间的数据集上训练与测试,联运运输方式预测准确率为98.58%,第一中转点预测准确率为91.09%,整体预测准确率为90.29%。
[0138]
可以观察到在当前时间段的空铁联运数据集上,模型采用非共享组合方式模型有很大优越性。特别在联运数据的中转点预测任务上,人工神经网络这种共享方式模型的预测准确率低,这是由于数据的不平衡问题引起的。而随机森林模型和xgboost模型具有优秀的处理数据不平衡问题的能力,它们可以有效地识别和利用数据集中的正负样本之间的差异,从而提高模型对于少数类样本的预测准确率,并在不影响模型整体性能的情况下,减少对多数类样本的过度关注。于是在当前空铁联运数据集上,本发明采用非共享组合方式来预测联运运输方式和中转点。
[0139]
a、其中单输入多输出人工神经网络的结构如下表所示:
[0140][0141]
其中激活函数是一个设置在神经网络上层节点的输出与下层节点的输入之间的函数。从而增加了模型的非线性因素,解决线性模型所不能解决的问题。这是使用relu激活函数和softmax激活函数。
[0142]
其中relu激活函数计算公式如下:
[0143]
f(x)=max(0,x)
[0144]
式中x为上层输出,f(x)为下层输入。
[0145]
其中softmax激活函数计算公式如下:
[0146][0147]
式中xi为第i个节点的输出值,c为输出节点的个数,即分类类别数量。
[0148]
b、其中xgboost模型参数如下表所示:
[0149][0150][0151]
c、其中随机森林模型参数如下表所示:
[0152]
参数参数中文名称取值n_estimators决策树棵数40max_depth决策树最大深度4max_samples使用样本最大比例0.8
[0153]
5多模型结果融合
[0154]
通过在两个时间段的空铁联运数据集上训练,得到两个模型。
[0155]
如某用户想从西安出发到临沂,在20220801~20230131期间的数据上训练的模型,推荐旅客联运运输方案是济南市为中转点、先空后铁为联运运输方式。在20220801~20230131期间的数据上训练的模型,推荐旅客联运运输方案是青岛市市为中转点、先空后铁为联运运输方式。此时两个时间段的权重值α
ki
分别取值0.6和0.4。根据公式计算,推荐济南市中转、先空后铁运输方式的推荐值为0.6,推荐青岛市中转、先空后铁运输方式的推荐值为0.4。
[0156]
选取推荐值最大的方案作为旅客选择空铁联运的推荐方案,这里方案为济南市中转、先空后铁运输方式。此时k只为空铁联运类型,排序,并把该方案推荐给旅客。
[0157]
第二方面,本技术实施例提供了一种旅客联程运输方案预测系统,采用如上所述旅客联程运输方案预测方法,如图4所示,系统包括:
[0158]
联程运输数据获取及处理模块10:按照预设联程运输数据请求方式及数据格式,从多种类型联运系统获取并数据处理联程运输数据,其中联运系统包括:空铁联运系统、空公联运系统、铁公联运系统及铁水联运系统;
[0159]
联运数据集划分模块20:基于获取的联程运输数据按照不同时间区间和不同联运类型为依据,划分出多个不重合的数据集,根据每个数据集按照预定比例划分出训练集,验证集和测试集;
[0160]
联运模型训练模块30:根据划分的多个数据集并行训练多组联运模型,每组联运模型包括至少一个机器学习模型,每组联运模型采用共享方式或非共享方式进行组合,协同完成一个由联运中转点预测和联程运输方式预测组成的旅客联程运输方案的推荐;
[0161]
联运模型结果融合模块40:根据训练好的多组联运模型进行预测,分别在不同联
运类型下,采用权重加权方式实现当前联运不同时间段的模型结果的融合,整体排序,实现为旅客推荐多种联程运输方案。
[0162]
第三方面,本技术实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述旅客联程运输方案预测方法。
[0163]
第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特该程序被处理器执行时实现如上所述旅客联程运输方案预测方法。
[0164]
另外,结合图1描述的本技术实施例的旅客联程运输方案预测方法可以由计算机设备来实现。图5为根据本技术实施例的计算机设备的硬件结构示意图。
[0165]
计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
[0166]
具体地,上述处理器81可以包括中央处理器(cpu),或者特定集成电路(application specific integrated circuit,简称为asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0167]
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(hard disk drive,简称为hdd)、软盘驱动器、固态驱动器(solid state drive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(non-volatile)存储器。在特定实施例中,存储器82包括只读存储器(read-only memory,简称为rom)和随机存取存储器(random access memory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmable read-only memory,简称为prom)、可擦除prom(erasable programmable read-only memory,简称为eprom)、电可擦除prom(electrically erasable programmable read-only memory,简称为eeprom)、电可改写rom(electrically alterable read-only memory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(static random-access memory,简称为sram)或动态随机存取存储器(dynamic random access memory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器(fast page mode dynamic random access memory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extended date out dynamic random access memory,简称为edodram)、同步动态随机存取内存(synchronous dynamic random-access memory,简称sdram)等。
[0168]
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
[0169]
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种旅客联程运输方案预测方法。
[0170]
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
[0171]
通信接口83用于实现本技术实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储
以及图像/数据处理工作站等之间进行数据通信。
[0172]
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(data bus)、地址总线(address bus)、控制总线(control bus)、扩展总线(expansion bus)、局部总线(local bus)。举例来说而非限制,总线80可包括图形加速接口(accelerated graphics port,简称为agp)或其他图形总线、增强工业标准架构(extended industry standard architecture,简称为eisa)总线、前端总线(front side bus,简称为fsb)、超传输(hyper transport,简称为ht)互连、工业标准架构(industry standard architecture,简称为isa)总线、无线带宽(infiniband)互连、低引脚数(low pin count,简称为lpc)总线、存储器总线、微信道架构(micro channel architecture,简称为mca)总线、外围组件互连(peripheral component interconnect,简称为pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment,简称为sata)总线、视频电子标准协会局部(video electronics standards association local bus,简称为vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线,但本技术考虑任何合适的总线或互连。
[0173]
相比于现有技术,本发明方法提出一种基于多模型融合预测旅客联程运输方案的方法,使用多模型融合结果提高模型预测准确性和鲁棒性,使用共享或非共享方式组合的模型实现两次以上联运方案的推荐。
[0174]
以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。

技术特征:
1.一种旅客联程运输方案预测方法,其特征在于,所述方法包括:联程运输数据获取及处理步骤:按照预设联程运输数据请求方式及数据格式,从多种类型联运系统获取并数据处理联程运输数据,其中所述联运系统包括:空铁联运系统、空公联运系统、铁公联运系统及铁水联运系统;联运数据集划分步骤:基于获取的所述联程运输数据按照不同时间区间和不同联运类型为依据,划分出多个不重合的数据集,根据每个所述数据集按照预定比例划分出训练集,验证集和测试集;联运模型训练步骤:根据划分的多个所述数据集并行训练多组联运模型,每组所述联运模型包括至少一个机器学习模型,每组所述联运模型采用共享方式或非共享方式进行组合,协同完成一个由联运中转点预测和联程运输方式预测组成的旅客联程运输方案的推荐;联运模型结果融合步骤:根据训练好的多组联运模型进行预测,分别在不同联运类型下,采用权重加权方式实现当前联运不同时间段的模型结果的融合,整体排序,实现为旅客推荐多种联程运输方案。2.根据权利要求1所述旅客联程运输方案预测方法,其特征在于,所述联程运输数据获取及处理步骤进一步包括:数据归一化步骤:每条所述联程运输数据包括出发与到达点属性信息,中转点标签信息及旅客个体特征信息,将所述旅客联程运输数据的类型通过无量纲处理方式,将所述旅客联程运输数据的原始数据值转换变成具有相对关系的相对值,数据量缩小到特定范围之内;数据增广步骤:根据人工的先验知识和领域外知识,扩充所述联程运输数据的训练数据;数据数字编码步骤:将所述联程运输数据的文字信息编码成数字信息。3.根据权利要求1所述旅客联程运输方案预测方法,其特征在于,所述联运数据集划分步骤进一步包括:时间段划分步骤:按照不同时间区间划分出多个不重合的数据集,所述时间区间包括:按月份、季度、年份、自定义时间段;联运类型划分步骤:按联运类型划分出多个不重合的数据集,旅客在联运时选择不同类型的联程运输,所述联运类型包括:空铁联运、空公联运、铁公联运及铁公水联运。4.根据权利要求1所述旅客联程运输方案预测方法,其特征在于,所述联运模型训练步骤进一步包括:共享方式组合步骤:所述共享方式为包含一个共享的底层特征和多个不同预测任务的高层特征的联运模型组合方式,所述底层特征的参数相同,所述高层特征的参数不同,根据不同任务进行学习单独获取;非共享方式组合步骤:所述非共享方式为包含多个独立预测任务的联运模型组合方式,所述独立预测任务选择不同模型或相同模型不同结构与参数。联运中转点预测步骤:每组所述联运模型对旅客在联运时选择中转点进行预测,如果有多个中转点,则进行多次预测;联运运输方式预测步骤:每组所述联运模型对旅客在联运时选择不同组合的运输方式
进行预测。5.根据权利要求1所述旅客联程运输方案预测方法,其特征在于,所述联运模型结果融合步骤进一步包括:多个模型结果融合计算步骤:分别根据指定所述联运类型,按照不同时间段的模型结果对应的权重分数,计算出指定联运不同时间段的推荐联运运输方案的推荐值,相加后推荐值最大的联运推荐方案作为指定所述联运的模型融合推荐方案,所述权重分数根据与当前时间的距离远近进行取值;整体排序步骤:多种联运的模型结果融合后得到多个模型融合方案,形成联运推荐方案集合,所述联运推荐方案集合按照所述推荐值从大到小排序,作为最终的推荐方案推荐给所述旅客。6.根据权利要求4所述旅客联程运输方案预测方法,其特征在于,所述联运模型训练步骤进一步包括:联运模型效果评估步骤:联运模型效果的评价采用准确率来评估,所述准确率计算公式如下:其中,tp表示模型样本为正样本,预测结果为正样本,tn表示样本为负样本,预测结果为负样本,fp表示样本为负样本,预测结果为正样本,fn表示样本为正样本,预测结果为负样本。7.根据权利要求5所述旅客联程运输方案预测方法,其特征在于,所述多个模型结果融合计算步骤进一步包括:所述模型融合推荐方案p
k
,计算方法如下:其中k为某种具体联运,如空铁联运、空公联运;m为时间段的总个数;p
ki
为k联运时第i时间段预测联运运输方案的结果;α
ki
为p
ki
的对应权重,整体权重和为1,且距离当前时间越近的时间段,权重越大,距离当前时间越远的时间段,权重越小。8.一种旅客联程运输方案预测系统,采用如权利要求1-7中任意一项所述旅客联程运输方案预测方法,其特征在于,所述系统包括:联程运输数据获取及处理模块:按照预设联程运输数据请求方式及数据格式,从多种类型联运系统获取并数据处理联程运输数据,其中所述联运系统包括:空铁联运系统、空公联运系统、铁公联运系统及铁水联运系统;联运数据集划分模块:基于获取的所述联程运输数据按照不同时间区间和不同联运类型为依据,划分出多个不重合的数据集,根据每个所述数据集按照预定比例划分出训练集,验证集和测试集;联运模型训练模块:根据划分的多个所述数据集并行训练多组联运模型,每组所述联运模型包括至少一个机器学习模型,每组所述联运模型采用共享方式或非共享方式进行组合,协同完成一个由联运中转点预测和联程运输方式预测组成的旅客联程运输方案的推荐;联运模型结果融合模块:根据训练好的多组联运模型进行预测,分别在不同联运类型
下,采用权重加权方式实现当前联运不同时间段的模型结果的融合,整体排序,实现为旅客推荐多种联程运输方案。9.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述旅客联程运输方案预测方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述旅客联程运输方案预测方法。

技术总结
本申请公开了一种旅客联程运输方案预测方法包括:按照预设联程运输数据请求方式及数据格式,从多种类型联运系统获取并数据处理联程运输数据;基于获取的联程运输数据按照不同时间区间和不同联运类型为依据,划分出多个不重合的数据集,根据划分的多个数据集并行训练多组联运模型,每组联运模型采用共享方式或非共享方式进行组合,协同完成一个由联运中转点预测和联程运输方式预测组成的旅客联程运输方案推荐任务;根据训练好的多组联运模型进行预测,分别在不同联运类型下,采用权重加权方式实现当前联运不同时间段的模型结果的融合,整体排序,实现为旅客推荐多种联程运输方案。本申请还公开了一种旅客联程运输方案预测系统。统。统。


技术研发人员:白广栋 翁湦元 郭晓亮 朱建军 赵楠 王永峰 郝晓培 李仕旺 武晋飞 史勇 吴首蓉 朱颖婷
受保护的技术使用者:北京经纬信息技术有限公司 中国铁道科学研究院集团有限公司
技术研发日:2023.07.28
技术公布日:2023/10/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐