一种销售数据的预测方法、装置、设备及存储介质与流程
未命名
08-05
阅读:88
评论:0

1.本发明涉及供应链管理技术领域,尤其涉及一种销售数据的预测方法、装置、设备及存储介质。
背景技术:
2.销售数据预测在零售行业中有着举足轻重的地位,准确的预测结果不仅能够让管理者合理安排订货时间和库存、减少安全库存成本和缺货损失,还能够提高管理者制定战略发展目标的可靠性。
3.目前,预测销售数据通常采用:基于统计模型的方法或者基于机器学习的方法。由于历史销售数据是一种时间序列数据,具有复杂的动态和非平稳的数据分布特性,导致传统的预测方法难以适应时间序列数据体系,因此预测的结果往往不够准确。
技术实现要素:
4.本发明提供了一种销售数据的预测方法、装置、设备及存储介质,能够准确地预测销售数据,从而为供应链管理提供支持。
5.根据本发明的一方面,提供了一种销售数据的预测方法,包括:
6.获取历史销售数据;
7.将历史销售数据输入至预先训练好的目标模型中,预测目标日期的销售数据,其中,目标模型包括至少两个基础模型,目标模型为利用深度强化学习方法、以优化每个基础模型的权重为指标训练得到的模型。
8.可选的,还包括:
9.确定n个基础模型,其中,基础模型的类型为简单模型、或者机器学习模型、或者深度学习模型,n为大于或者等于2的整数;
10.基于深度确定性策略梯度ddpg算法,利用n个基础模型构建目标模型。
11.可选的,当n为大于或者等于3的整数时,n个基础模型中至少存在一个类型为简单模型的基础模型、至少存在一个类型为机器学习模型的基础模型、至少存在一个类型为深度学习模型的基础模型。
12.可选的,训练目标模型的方法,包括:
13.获取训练数据,并确定当前训练次数对应的目标模型的状态空间矩阵和动作空间矩阵;
14.根据训练数据、状态空间矩阵和动作空间矩阵,更新目标模型中每个基础模型的权重;
15.根据更新权重后的目标模型,计算当前训练次数对应的目标模型的奖励函数;
16.根据奖励函数,调整更新权重后的目标模型的参数;
17.若当前训练次数小于最大训练次数,则令当前训练次数加一,并返回执行确定当前训练次数对应的目标模型的状态空间矩阵和动作空间矩阵的步骤,直至当前训练次数等
于最大训练次数时,输出训练好的目标模型。
18.可选的,根据训练数据、状态空间矩阵和动作空间矩阵,更新目标模型中每个基础模型的权重,包括:
19.根据训练数据、状态空间矩阵和动作空间矩阵,计算当前训练次数对应的目标模型的损失函数;
20.根据损失函数,更新目标模型中每个基础模型的权重。
21.可选的,若当前训练次数为t,最大训练次数为t,基础模型的数量为n,1≤i≤n,t≤t,
22.状态空间矩阵s
t
=[w
t
,x],w
t
=[w
1,t-1
,w
2,t-1
,...w
i,t-1
,...w
n,t-1
],x=[x
holiday
,x
weather
,x
history
,x
static
,
…
];
[0023]
动作空间矩阵a
t
=[w
1,t-1
,w
2,t-1
,...w
i,t-1
,...w
n,t-1
]1×n;
[0024]
奖励函数
[0025]
其中,w
i,t-1
为第i个基础模型经过t-1次训练后的权重,w
i,t
为第i个基础模型经过t次训练后的权重,目标模型中每个基础模型的初始权重为1/n;x
holiday
为训练数据对应的日期的属性信息,x
weather
为训练数据对应的日期的天气信息,x
history
为训练数据对应的历史数据,x
static
为训练数据对应的历史数据的统计特征值;为第i个基础模型的预测值,y
i,t
为第i个基础模型的实际值;n为训练数据的样本数量。
[0026]
可选的,属性信息用于指示训练数据对应的日期的节假日信息和星期信息中的至少之一;
[0027]
天气信息用于指示训练数据对应的日期的温度、湿度、风力、空气指数中的至少之一;
[0028]
历史数据包括训练数据对应的日期前h天的数据,h为正整数;
[0029]
统计特征值包括最小值、最大值、均值、中位数中的至少之一。
[0030]
根据本发明的另一方面,提供了一种销售数据的预测装置,包括:获取模块和预测模块;
[0031]
获取模块,用于获取历史销售数据;
[0032]
预测模块,用于将历史销售数据输入至预先训练好的目标模型中,预测目标日期的销售数据,其中,目标模型包括至少两个基础模型,目标模型为利用深度强化学习方法、以优化每个基础模型的权重为指标训练得到的模型。
[0033]
根据本发明的另一方面,提供了一种电子设备,电子设备包括:
[0034]
至少一个处理器;以及
[0035]
与至少一个处理器通信连接的存储器;其中,
[0036]
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的销售数据的预测方法。
[0037]
根据本发明的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的销售数据的预测方法。
[0038]
本发明实施例的技术方案,通过构建包括至少两个基础模型的目标模型,并利用深度强化学习方法、以优化每个基础模型的权重为指标训练目标模型,将历史销售数据输入至预先训练好的目标模型中,以预测目标日期的销售数据。由于目标模型是利用集成学习方法由若干个基础模型组成的,因此基础模型的选择可以定义为一个序列决策问题,而优化每个基础模型的权重可以使得目标模型能更好地适应非平稳的数据分布,从而使得销售数据的预测结果更为准确,以进一步为供应链管理提供支持。
[0039]
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0040]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0041]
图1是本发明实施例一提供的一种销售数据的预测方法的流程示意图;
[0042]
图2是本发明实施例一提供的一种时间序列与基础模型的关系图;
[0043]
图3是本发明实施例一提供的一种训练目标模型的方法的流程示意图;
[0044]
图4是本发明实施例二提供的一种销售数据的预测装置的结构示意图;
[0045]
图5是本发明实施例二提供的另一种销售数据的预测装置的结构示意图;
[0046]
图6是本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
[0047]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0048]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“目标”、“训练”、“历史”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0049]
实施例一
[0050]
图1是本发明实施例一提供的一种销售数据的预测方法的流程示意图,本实施例可适用于对供应链中某一日的销售数据进行预测的情况,该方法可以由销售数据的预测装置来执行,该销售数据的预测装置可以采用硬件和/或软件的形式实现,该销售数据的预测装置可配置于电子设备(如服务器等计算机设备)中。如图1所示,该方法包括:
[0051]
s110、获取历史销售数据。
[0052]
历史销售数据通常是供应链中最小单位的销售数据。例如,对于供应链而言,一条供应链可以针对一个门店,也可以针对多个门店。假设一条供应链针对一个门店a,那么历史销售数据为门店a的历史销售数据,最终预测的也是门店a在目标日期的销售数据;假设一条供应链针对多个门店(如门店a、门店b和门店c),那么历史销售数据为门店a的历史销售数据、门店b的历史销售数据和门店c的历史销售数据,最终预测的也是门店a在目标日期的销售数据、门店b在目标日期的销售数据和门店c在目标日期的销售数据。
[0053]
根据供应链的特征,历史销售数据通常以天为单位,形成一个按照时间先后顺序排列的序列。
[0054]
历史销售数据与下述训练数据均可以反映该数据对应日期的节假日信息和星期信息中的至少之一、该数据对应日期的天气信息。
[0055]
s120、将历史销售数据输入至预先训练好的目标模型中,预测目标日期的销售数据,其中,目标模型包括至少两个基础模型,目标模型为利用深度强化学习方法、以优化每个基础模型的权重为指标训练得到的模型。
[0056]
目标模型是利用集成学习方法由若干个基础模型组成的。在一实施例中,本发明可以先构建目标模型。构建目标模型的具体方法可以包括如下两个步骤:
[0057]
步骤1.1:确定n个基础模型,其中,基础模型的类型为简单模型、或者机器学习模型、或者深度学习模型,n为大于或者等于2的整数。
[0058]
由至少两个基础模型(也可以称为基模型)构建的模型被证明是有效且具有鲁棒性的,因此在本步骤中,首先要选择n个基础模型,n为大于或者等于2的整数。
[0059]
图2是本发明实施例一提供的一种时间序列与基础模型的关系图。如图2所示,假设有p个时间序列和q个基础模型,时间序列1整体呈上下波动状,时间序列1与基础模型1和基础模型2之间的适应性较好;时间序列2整体呈逐渐下降状,时间序列2与基础模型1之间的适应性较差、与基础模型q之间的适应性较好;时间序列p整体呈逐渐上升状,时间序列p与基础模型q之间的适应性较差。
[0060]
可以看出,时间序列的变化分布会影响时间序列与基础模型之间的适应性,因此,在构建目标模型时,可以根据实际预测时所使用的历史销售数据的变化分布或者训练数据的变化分布,选择相应的适应性好的基础模型,以提高目标模型与历史销售数据的适配性,保证预测结果的准确度。
[0061]
基础模型的类型为简单模型、或者机器学习模型、或者深度学习模型。在一实施例中,简单模型可以是单最小存货单位(sku)建模,与其他模型相比,简单模型更贴近实际的业务;机器学习模型可以是回归模型(如catboost模型);深度学习模型可以是长短期记忆网络(long short-term memory,lstm)预测模型。
[0062]
示例性的,当n为大于或者等于3的整数时,n个基础模型中至少存在一个类型为简单模型的基础模型、至少存在一个类型为机器学习模型的基础模型、至少存在一个类型为深度学习模型的基础模型。
[0063]
例如,当n=3时,3个基础模型的类型分别为简单模型、机器学习模型和深度学习模型;又例如,当n=4,5,6,...时,这些基础模型中必然存在3个模型,这3个模型的类型分别为简单模型、机器学习模型和深度学习模型。
[0064]
步骤1.2:基于深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法,利用n个基础模型构建目标模型。
[0065]
在确定出n个基础模型后,基于ddpg算法利用n个基础模型构建目标模型。
[0066]
ddpg是一种深度确定性的策略梯度算法,是为了解决连续动作控制问题而提出的算法。ddpg可以简单的看成是深度q网络(dqn)算法加上actor-critic框架。
[0067]
在一实施例中,本发明在构建目标模型后,还可以利用深度强化学习方法对目标模型进行训练,以优化每个基础模型的权重。目标模型可以是不断训练的,或者周期性训练的,以保证预测结果的准确性。
[0068]
在一实施例中,所有基础模型的权重之和等于1。
[0069]
具体的,图3是本发明实施例一提供的一种训练目标模型的方法的流程示意图,如图3所示,该方法包括:
[0070]
s210、获取训练数据。
[0071]
训练数据可以包括训练集和验证集,训练集参与目标模型的训练,验证集用于对训练好的模型性能进行验证。
[0072]
s220、确定当前训练次数对应的目标模型的状态空间矩阵和动作空间矩阵。
[0073]
假设当前训练次数为t,最大训练次数为t,基础模型的数量为n,1≤i≤n,t≤t,当前训练次数t的初始值设为1,即第一次训练时当前训练次数t=1。
[0074]
其中,目标模型的状态空间矩阵s
t
=[w
t
,x];动作空间矩阵a
t
=[w
1,t-1
,w
2,t-1
,
…wi,t-1
,
…wn,t-1
]1×n。
[0075]wt
=[w
1,t-1
,w
2,t-1
,...w
i,t-1
,...w
n,t-1
],w
i,t-1
为第i个基础模型经过t-1次训练后的权重,目标模型中每个基础模型的初始权重为1/n,即w1=[1/n,1/n,
…
1/n,
…
1/n]。
[0076]
x=[x
holiday
,x
weather
,x
history
,x
static
,...],x
holiday
为训练数据对应的日期的属性信息,x
weather
为训练数据对应的日期的天气信息,x
history
为训练数据对应的历史数据,x
static
为训练数据对应的历史数据的统计特征值。
[0077]
具体的,属性信息用于指示训练数据对应的日期的节假日信息和星期信息中的至少之一,即x
holiday
可以指示训练数据对应的日期是调休日、节假日、还是工作日(如果是节假日的话还可以指示节假日名称),也可以指示训练数据对应的日期是星期几;天气信息用于指示训练数据对应的日期的温度、湿度、风力、空气指数中的至少之一;历史数据包括训练数据对应的日期前h天的数据,h为正整数,h的数值可以根据需要进行设定;统计特征值包括最小值、最大值、均值、中位数中的至少之一。
[0078]
s230、根据训练数据、状态空间矩阵和动作空间矩阵,更新目标模型中每个基础模型的权重。
[0079]
具体的,步骤s230中“根据训练数据、状态空间矩阵和动作空间矩阵,更新目标模型中每个基础模型的权重”的方法可以包括如下两个步骤:
[0080]
步骤2.1:根据训练数据、状态空间矩阵和动作空间矩阵,计算当前训练次数对应的目标模型的损失函数。
[0081]
步骤2.2:根据损失函数,更新目标模型中每个基础模型的权重。
[0082]
在一实施例中,可以采用探索策略(如ε-greedy策略)计算当前训练次数对应的目标模型的损失函数,并更新目标模型中每个基础模型的权重。
[0083]
具体的,ε-greedy策略的算法如下:
[0084]
假设训练集为d
train
,测试集为d
test
,探索概率为ε,最大训练次数为t,更新步长为d,实验次数(可以理解为门店数量)为e,折扣因子为γ。首先初始化critic网络qw(s
t
,a
t
)和actor网络μ
θ
(s
t
),以及随机的网络参数w和θ,将目标模型的参数赋值给网络参数w
′←
w,θ
′←
θ并初始化网络和经验回放池(可以理解为销售订单状态的经验回放池)。
[0085][0086][0087]
s240、根据更新权重后的目标模型,计算当前训练次数对应的目标模型的奖励函数。
[0088]
奖励函数
[0089]
其中,w
i,t
为第i个基础模型经过t次训练后的权重,为第i个基础模型的预测值,y
i,t
为第i个基础模型的实际值;n为训练数据的样本数量。
[0090]
s250、根据奖励函数,调整更新权重后的目标模型的参数。
[0091]
s260、判断当前训练次数是否小于最大训练次数。若是,则令当前训练次数加一,并返回执行步骤s220;若否,则执行步骤s270。
[0092]
s270、输出训练好的目标模型。
[0093]
在本发明中,只有当当前训练次数等于最大训练次数时,表示目标模型训练完成;否则,需要令当前训练次数加一,并返回执行步骤s220,继续调整基础模型的权重。
[0094]
在目标模型训练完成之后,将历史销售数据输入至预先训练好的目标模型中,即
可预测目标日期的销售数据。
[0095]
本发明实施例提供一种销售数据的预测方法,包括:获取历史销售数据;将历史销售数据输入至预先训练好的目标模型中,预测目标日期的销售数据,其中,目标模型包括至少两个基础模型,目标模型为利用深度强化学习方法、以优化每个基础模型的权重为指标训练得到的模型。通过构建包括至少两个基础模型的目标模型,并利用深度强化学习方法、以优化每个基础模型的权重为指标训练目标模型,将历史销售数据输入至预先训练好的目标模型中,以预测目标日期的销售数据。由于目标模型是利用集成学习方法由若干个基础模型组成的,因此基础模型的选择可以定义为一个序列决策问题,而优化每个基础模型的权重可以使得目标模型能更好地适应非平稳的数据分布,从而使得销售数据的预测结果更为准确,以进一步为供应链管理提供支持。
[0096]
实施例二
[0097]
图4是本发明实施例二提供的一种销售数据的预测装置的结构示意图。如图4所示,该装置包括:获取模块410和预测模块420。
[0098]
获取模块410,用于获取历史销售数据;
[0099]
预测模块420,用于将历史销售数据输入至预先训练好的目标模型中,预测目标日期的销售数据,其中,目标模型包括至少两个基础模型,目标模型为利用深度强化学习方法、以优化每个基础模型的权重为指标训练得到的模型。
[0100]
可选的,结合图4,图5是本发明实施例二提供的另一种销售数据的预测装置的结构示意图。如图5所示,还包括:模型处理模块430。
[0101]
模型处理模块430,用于确定n个基础模型,其中,基础模型的类型为简单模型、或者机器学习模型、或者深度学习模型,n为大于或者等于2的整数;基于深度确定性策略梯度ddpg算法,利用n个基础模型构建目标模型。
[0102]
可选的,当n为大于或者等于3的整数时,n个基础模型中至少存在一个类型为简单模型的基础模型、至少存在一个类型为机器学习模型的基础模型、至少存在一个类型为深度学习模型的基础模型。
[0103]
可选的,模型处理模块430,还用于获取训练数据,并确定当前训练次数对应的目标模型的状态空间矩阵和动作空间矩阵;根据训练数据、状态空间矩阵和动作空间矩阵,更新目标模型中每个基础模型的权重;根据更新权重后的目标模型,计算当前训练次数对应的目标模型的奖励函数;根据奖励函数,调整更新权重后的目标模型的参数;若当前训练次数小于最大训练次数,则令当前训练次数加一,并返回执行确定当前训练次数对应的目标模型的状态空间矩阵和动作空间矩阵的步骤,直至当前训练次数等于最大训练次数时,输出训练好的目标模型。
[0104]
可选的,模型处理模块430,具体用于根据训练数据、状态空间矩阵和动作空间矩阵,计算当前训练次数对应的目标模型的损失函数;根据损失函数,更新目标模型中每个基础模型的权重。
[0105]
可选的,若当前训练次数为t,最大训练次数为t,基础模型的数量为n,1≤i≤n,t≤t,
[0106]
状态空间矩阵s
t
=[w
t
,x],w
t
=[w
1,t-1
,w
2,t-1
,...w
i,t-1
,...w
n,t-1
],x=[x
holiday
,x
weather
,x
history
,x
static
,
…
];
[0107]
动作空间矩阵a
t
=[w
1,t-1
,w
2,t-1
,...w
i,t-1
,...w
n,t-1
]1×n;
[0108]
奖励函数
[0109]
其中,w
i,t-1
为第i个基础模型经过t-1次训练后的权重,w
i,t
为第i个基础模型经过t次训练后的权重,目标模型中每个基础模型的初始权重为1/n;x
holiday
为训练数据对应的日期的属性信息,x
weather
为训练数据对应的日期的天气信息,x
history
为训练数据对应的历史数据,x
static
为训练数据对应的历史数据的统计特征值;为第i个基础模型的预测值,y
i,t
为第i个基础模型的实际值;n为训练数据的样本数量。
[0110]
可选的,属性信息用于指示训练数据对应的日期的节假日信息和星期信息中的至少之一;
[0111]
天气信息用于指示训练数据对应的日期的温度、湿度、风力、空气指数中的至少之一;
[0112]
历史数据包括训练数据对应的日期前h天的数据,h为正整数;
[0113]
统计特征值包括最小值、最大值、均值、中位数中的至少之一。
[0114]
本发明实施例所提供的销售数据的预测装置可执行本发明任意实施例所提供的销售数据的预测方法,具备执行方法相应的功能模块和有益效果。
[0115]
实施例三
[0116]
图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0117]
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0118]
电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0119]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如销售数据的预测方法。
[0120]
在一些实施例中,销售数据的预测方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的销售数据的预测方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行销售数据的预测方法。
[0121]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0122]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0123]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0124]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0125]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网
(lan)、广域网(wan)、区块链网络和互联网。
[0126]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0127]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0128]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
技术特征:
1.一种销售数据的预测方法,其特征在于,包括:获取历史销售数据;将所述历史销售数据输入至预先训练好的目标模型中,预测目标日期的销售数据,其中,所述目标模型包括至少两个基础模型,所述目标模型为利用深度强化学习方法、以优化每个所述基础模型的权重为指标训练得到的模型。2.根据权利要求1所述的方法,其特征在于,还包括:确定n个所述基础模型,其中,所述基础模型的类型为简单模型、或者机器学习模型、或者深度学习模型,n为大于或者等于2的整数;基于深度确定性策略梯度ddpg算法,利用n个所述基础模型构建所述目标模型。3.根据权利要求2所述的方法,其特征在于,当n为大于或者等于3的整数时,n个所述基础模型中至少存在一个类型为所述简单模型的基础模型、至少存在一个类型为所述机器学习模型的基础模型、至少存在一个类型为所述深度学习模型的基础模型。4.根据权利要求1-3中任一所述的方法,其特征在于,训练所述目标模型的方法,包括:获取训练数据,并确定当前训练次数对应的所述目标模型的状态空间矩阵和动作空间矩阵;根据所述训练数据、所述状态空间矩阵和所述动作空间矩阵,更新所述目标模型中每个所述基础模型的权重;根据更新权重后的所述目标模型,计算当前训练次数对应的所述目标模型的奖励函数;根据所述奖励函数,调整更新权重后的所述目标模型的参数;若所述当前训练次数小于最大训练次数,则令当前训练次数加一,并返回执行确定当前训练次数对应的所述目标模型的状态空间矩阵和动作空间矩阵的步骤,直至所述当前训练次数等于最大训练次数时,输出训练好的所述目标模型。5.根据权利要求4所述的方法,其特征在于,所述根据所述训练数据、所述状态空间矩阵和所述动作空间矩阵,更新所述目标模型中每个所述基础模型的权重,包括:所述根据所述训练数据、所述状态空间矩阵和所述动作空间矩阵,计算当前训练次数对应的所述目标模型的损失函数;根据所述损失函数,更新所述目标模型中每个所述基础模型的权重。6.根据权利要求5所述的方法,其特征在于,若当前训练次数为t,最大训练次数为t,所述基础模型的数量为n,1≤i≤n,t≤t,所述状态空间矩阵s
t
=[w
t
,x],w
t
=[w
1,t-1
,w
2,t-1
,...w
i,t-1
,...w
n,t-1
],x=[x
holiday
,x
weather
,x
history
,x
static
,
…
];所述动作空间矩阵a
t
=[w
1,t-1
,w
2,t-1
,...w
i,t-1
,...w
n,t-1
]1×
n
;所述奖励函数其中,w
i,t-1
为第i个所述基础模型经过t-1次训练后的权重,w
i,t
为第i个所述基础模型经过t次训练后的权重,所述目标模型中每个所述基础模型的初始权重为1/n;x
holiday
为所述训练数据对应的日期的属性信息,x
weather
为所述训练数据对应的日期的天气信息,x
history
为所述训练数据对应的历史数据,x
static
为所述训练数据对应的历史数据的统计特征值;
为第i个所述基础模型的预测值,y
i,t
为第i个所述基础模型的实际值;n为所述训练数据的样本数量。7.根据权利要求6所述的方法,其特征在于,所述属性信息用于指示所述训练数据对应的日期的节假日信息和星期信息中的至少之一;所述天气信息用于指示所述训练数据对应的日期的温度、湿度、风力、空气指数中的至少之一;所述历史数据包括所述训练数据对应的日期前h天的数据,h为正整数;所述统计特征值包括最小值、最大值、均值、中位数中的至少之一。8.一种销售数据的预测装置,其特征在于,包括:获取模块和预测模块;所述获取模块,用于获取历史销售数据;所述预测模块,用于将所述历史销售数据输入至预先训练好的目标模型中,预测目标日期的销售数据,其中,所述目标模型包括至少两个基础模型,所述目标模型为利用深度强化学习方法、以优化每个所述基础模型的权重为指标训练得到的模型。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的销售数据的预测方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的销售数据的预测方法。
技术总结
本发明公开了一种销售数据的预测方法、装置、设备及存储介质。该方法包括:获取历史销售数据;将历史销售数据输入至预先训练好的目标模型中,预测目标日期的销售数据,其中,目标模型包括至少两个基础模型,目标模型为利用深度强化学习方法、以优化每个基础模型的权重为指标训练得到的模型。本发明提供的方案能够准确地预测销售数据,从而为供应链管理提供支持。从而为供应链管理提供支持。从而为供应链管理提供支持。
技术研发人员:谢海琴 吴佳霖
受保护的技术使用者:海尔数字科技(上海)有限公司
技术研发日:2023.05.09
技术公布日:2023/8/4
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/