训练用于自动出价的强化学习系统的方法及装置与流程
未命名
08-22
阅读:77
评论:0

1.本说明书一个或多个实施例涉及业务推荐技术领域,尤其涉及一种训练用于自动出价的强化学习系统的方法及装置,一种自动出价方法及装置。
背景技术:
2.随着计算机和互联网技术的广泛应用,越来越多的用户选择电子商务作为自已生活、购物的一部分。与此同时,许多不同于传统行业的新技术业务领域伴随着互联网的快速发展也逐渐发展起来。其中,网络广告交易系统就是其中之一。
3.网络广告交易系统的典型工作原理是:某一门户网站的网页上提供广告刊位来展示广告服务,当用户正在打开该门户网站的网页时,该门户网站则将用户访问的网页上的广告刊位在网络广告交易系统上进行竞价拍卖,不同的商家可以根据门户网站的具体情况分别进行出价,出价最高者获得该广告刊位的展示机会,并且该次竞价的中标价格为出价第二高的价格。
4.然而,由于竞价时间短,一般只有几十毫秒,而且展示机会数量巨大,广告主无法对不同流量逐一进行手动报价,需要借助自动出价算法进行自动出价。由此,本说明书实施例提供一种新的自动出价方案,可以满足实际应用中的更高要求,例如,提高自动出价的准确度、降低算法复杂性,等等。
技术实现要素:
5.本说明书实施例描述一种用于自动出价的强化学习系统的方法及装置,一种自动出价方法及装置,可以更好地满足实际应用需求。
6.根据第一方面,提供一种训练用于自动出价的强化学习系统的方法,所述强化学习系统包括环境模型和智能体,所述环境模型用于预测业务环境的状态分布,所述业务环境的状态包括业务方的预算消耗和已获业务价值;所述智能体用于根据当前环境状态确定所述业务方的当前出价参数;所述方法包括:
7.利用多个历史样本训练所述环境模型;其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在所述第一状态下采用所述第一出价参数后所述业务环境变更为的第二状态。利用多个状态-出价参数对,以及将其中各个状态-出价参数对输入训练好的环境模型而对应得到的预测状态分布,训练所述智能体;所述多个状态-出价参数对的构建基于从所述业务环境的状态空间采样的多个状态,以及从出价参数空间采样的多个出价参数。
8.在一个实施例中,所述预算消耗包括已消耗预算与总预算的比值。
9.在一个实施例中,利用多个历史样本训练所述环境模型,包括:将所述第一状态和第一出价参数输入所述环境模型,得到第一预测状态分布。根据所述第一预测状态分布中对应第二状态的概率,以及基于所述第一预测状态分布而确定出的状态随出价参数的变化率,确定训练损失;所述训练损失与所述概率负相关,且在所述变化率为负数的情况下,还
与所述变化率负相关。利用所述训练损失,更新所述环境模型的模型参数。
10.在一个实施例中,所述多个状态为所述状态空间中全部的m个状态,所述多个出价参数为所述出价参数空间中全部的n个出价参数;其中,在训练所述智能体之前,所述方法还包括:利用所述m个状态和n个出价参数,构建m*n个状态-出价参数对,作为所述多个状态-出价参数对。
11.在一个实施例中,利用多个状态-出价参数对,以及将其中各个状态-出价参数对输入所述环境模型而得到的预测状态分布,训练所述智能体,包括:基于所述各个状态-出价参数对和对应的预测状态分布,采用动态规划的方式更新所述智能体中的状态值函数;基于更新完毕的状态值函数,确定对应的状态-动作值函数。
12.在一个具体的实施例中,所述状态价值函数和状态-动作值函数的运算项中均包括回报值,所述回报值为缩放系数与所述已获业务价值之间的乘积,其中缩放系数与实际成本和预定成本阈值之间的比值负相关,所述实际成本基于所述预算消耗与已获业务价值进行计算而得到。
13.在一个具体的实施例中,所述状态价值函数和状态-动作值函数的运算项中均包括折扣系数,所述折扣系数被设定为1。
14.根据第二方面,提供一种自动出价方法,由与业务方关联的设备执行,包括:
15.接收竞价请求,其指示在第一平台展示位上向第一用户展示业务对象的展示机会。根据所述竞价请求,将业务方所处业务环境的当前状态输入智能体中,得到从出价参数空间中选取的当前出价参数;所述智能体采用权利要求1所述的方法而训练得到。基于所述业务方提供的目标业务对象,以及第一用户和/或第一平台展示位的特征,确定所述展示机会的业务价值。基于所述当前出价参数和业务价值,确定针对所述展示机会的出价数额。
16.在一个实施例中,所述智能体中包括状态-动作值函数;其中,将业务方所处业务环境的当前状态输入智能体中,得到从出价参数空间中选取的当前出价参数,包括:将基于所述当前状态和所述出价参数空间中的各个出价参数组成的状态-出价参数对,分别作为所述状态-动作值函数的输入,得到多个函数值;将所述多个函数值中的最大函数值所对应的状态-出价参数对中的出价参数,确定为所述当前出价参数。
17.在一个实施例中,基于所述业务方提供的目标业务对象,以及第一用户和/或第一平台的特征,确定所述展示机会的业务价值,包括:将所述目标业务对象的对象特征,以及第一用户的用户特征和/或第一平台展示位的展示位特征,输入预先训练好的对象推荐模型中,得到对应的预测推荐度,作为所述业务价值。
18.根据第三方面,提供一种训练用于自动出价的强化学习系统的装置,所述强化学习系统包括环境模型和智能体,所述环境模型用于预测业务环境的状态分布,所述业务环境的状态包括业务方的预算消耗和已获业务价值;所述智能体用于根据当前环境状态确定所述业务方的当前出价参数;所述装置包括:
19.环境模型训练模块,配置为利用多个历史样本训练所述环境模型;其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在所述第一状态下采用所述第一出价参数后所述业务环境变更为的第二状态。智能体训练模块,配置为利用多个状态-出价参数对,以及将其中各个状态-出价参数对输入训练好的环境模型而对应得到的预测状态分布,训练所述智能体;所述多个状态-出价参数对的构建基于从所述业务环境的状态空
间采样的多个状态,以及从出价参数空间采样的多个出价参数。
20.根据第四方面,提供一种自动出价装置,集成于与业务方关联的设备,包括:
21.请求接收模块,配置为接收竞价请求,其指示在第一平台展示位上向第一用户展示业务对象的展示机会。参数预测模块,配置为根据所述竞价请求,将业务方所处业务环境的当前状态输入智能体中,得到从出价参数空间中选取的当前出价参数;所述智能体采用第三方面提供的装置而训练得到。价值确定模块,配置为基于所述业务方提供的目标业务对象,以及第一用户和/或第一平台展示位的特征,确定所述展示机会的业务价值。出价确定模块,配置为基于所述当前出价参数和业务价值,确定针对所述展示机会的出价数额。
22.根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面提供的方法。
23.根据第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,该处理器执行所述可执行代码时,实现第一方面或第二方面提供的方法。
24.采用本说明书实施例披露的上述方法及装置,1)根据最优竞价模型将自动出价问题建模为粗粒度的mdp决策过程,这大大降低了基于模型的方法的学习复杂性;2)提出了一个简单有效的有模型(model-based)的强化学习框架,该框架可以避免繁琐的模拟环境构建,同时环境模型输出的未来状态的分布包含了竞价环境的不确定性,克服了离线训练与在线部署的不一致性;3)引入概率建模的方法,提出一种新的单调约束,可以准确描述环境模型中在线展示环境的展示印象分配和非平稳性;4)采用基于模型规划的方式进行出价,增强了出价的可解释性。
附图说明
25.为了更清楚地说明本发明实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
26.图1示出针对自动出价场景建模的马尔可夫决策过程;
27.图2示出本说明书实施例披露的基于强化学习进行自动出价的方案实施架构示意图;
28.图3示出本说明书实施例披露的训练用于自动出价的强化学习系统的方法流程示意图;
29.图4示出本说明书实施例披露的自动出价的方法流程示意图;
30.图5示出本说明书实施例披露的训练用于自动出价的强化学习系统的装置结构示意图;
31.图6示出本说明书实施例披露的自动出价的装置结构示意图。
具体实施方式
32.下面结合附图,对本说明书提供的方案进行描述。
33.承前所述,一段时间内,流量依次到来,业务方相互竞争以赢得流量。需理解,其中流量是指在展示位展示业务对象的机会,展示位包括应用界面或网站界面中的广告位等;
业务对象可以是商品或服务的广告,或者,内容资讯等;业务方包括意图推广其业务对象的企业、机构、商家或网络平台等。
34.对流量进行拍卖后,出价最高的业务对象可以推荐给对应用户,并获得点击或转化等业务价值。考虑流量为业务方带来的业务价值,以及业务方的预算这一长期制约因素,可以将业务方的优化目标写作:
35.max∑
i=1...n
xi·
vi,s.t.∑i=
1...n
xi·ci
≤b
ꢀꢀꢀ
(1)
36.在式(1)中,n是流量总数,i指示第i个流量,xi表示业务对象是否被推送或展示,vi表示推送业务对象获得的业务价值,ci是推荐业务对象的成本,b是预算。
37.在二价机制(出价最高者获得展示机会,并且该次竞价的中标价格为出价排在第2高的价格)等竞拍机制下,最优出价公式如下:
38.bi=f(w,vi)=w
·
viꢀꢀ
(2)
39.在式(2)中,w表示缩放参数,最优缩放参数w
*
可以基于历史数据进行缩放而得到。基于这一想法,可以将式(2)示意的最优出价公式拓展为一个更加通用的形式,此形式涉及预算在内的多个约束,并包括与该多个约束相关的参数:
[0040][0041]
在式(3)中,m表示约束(constraint)的数量,q
ij
和p
ij
可以表示任何的性能指标,是与多个约束相关的核心参数向量;是指示函数,指示第j个约束是否与预算开销相关,kj是第j个约束的上界。需说的是,q
ij
、p
ij
和kj均为超参数,可以由业务方预先提供或由竞价平台预先设定。
[0042]
同样地,最优参数向量w
*
可以基于历史数据计算而得到。然而,在实际应用中,因为完整的流量序列需要在一段时间(如一天)结束后才能被采集,导致难以获得w
*
。
[0043]
由此,本说明书实施例提出利用强化学习(reinforcement learning,简称rl)中的智能体(agent),采用近似的实时策略(real-time strategy)在当前状态(current state)下调整核心参数向量w。
[0044]
具体地,受到最优出价公式(2)和(3)的启发,提出将核心参数(或称出价参数)w的在线调整建模为粗粒度的马尔可夫决策过程(markov decision process,简称mdp)。
[0045]
在一段时间(anepisode)或者说预设时间周期内,竞价智能体基于初始的竞价参数,依次修改t次。例如,假定预设总时长为1天,任意连续两次修改之间的间隔时长为1h,则t=24。如图1所示,在t次中任意的第t次,或称第t个时间步(timestep)、第t个时间间隔,智能体观察到业务方业务环境的当前状态s
t
∈s后,对业务环境施加动作该动作用于产生新的出价参数w,用于第t个时间间隔内出价数额的计算。在采用新的出价参数w竞价后,业务环境以概率p(s
t+1
|s
t
,a
t
)转换到一个新的状态s
t+1
,并向智能体反馈回报r
t
,此回报r
t
可以表示为回报函数r(s
t
,a
t
,s
t+1
)。
[0046]
下面,介绍mdp竞价决策过程中的以下5个关键组件:
[0047]
1)状态s:从业务方的角度来看,状态空间s中的状态(state)应该能够反映智能体决策出价参数所需要的状态信息,包括预算消耗(budget consumption)、累计获得的业务价值(the accumulated winning value)或当前时间步(current timestep)等。
[0048]
在一个示例中,预算消耗包括当前时间周期内已消耗预算与总预算的比值,也就
是已消耗预算的占比。在另一个示例中,预算消耗包括当前时间周期内的总预算和已消耗的预算。需理解,累计获得的业务价值为当前时间周期内已经获得的业务价值累积量,当前时间步对应在当前时间周期内对出价参数进行当前第t次调整中的t。
[0049]
2)动作动作空间其中表示出价参数向量w中第j维元素的取值池,中包括个离散动作,其中基于此,在第t个时间步从动作空间中离散选择动作a
t
用以更新出价参数w
t
,对此可记作w
t
=a
t
,可以理解的是,动作空间中的各个动作,也即各个出价参数,可以由工作人员根据实际经验等预先设定。
[0050]
3)回报r:因为业务方的优化目标是在满足m+1个约束的条件下最大化总的业务价值所以回报函数r不仅要考虑业务方获得的业务价值,同时也要考虑约束的满足情况。举例来说,如果业务收获了大量业务价值(如大量点击),但是远超预算或者成本超标严重,回报值(reward),或称反馈值、奖励值,也会偏低。可以理解的是,回报函数r可以由业务方等直接提供。
[0051]
示例性的,回报函数如下:
[0052]
r=p*v
ꢀꢀ
(4)
[0053][0054]
在公式(4)和(5)中,p表示缩放系数;v表示累计获得的业务价值;c
real
和c分别表示单位业务价值的真实成本和成本阈值;c
real
可以用预算消耗和累计获得的业务价值计算得到,例如,计算预算消耗与累计业务价值之间的比值作为真实成本;成本阈值c可以由业务方自定义;θ1和α2属于超参数,用来控制与成本约束相关的惩罚力度。
[0055]
4)转移概率由于市场竞争随流量波动,相同出价的业务方的胜率也会波动,本说明书实施例中显式的建模状态转换的非平稳性,并将转移概率表示为状态s上的概率分布。
[0056]
5)折扣系数γ:在在线展示业务对象的场景下,无论是否考虑奖励衰减,目标都是最大化总奖励,换句话说,业务方不太需要权衡短期和长期利益,因此,可以将折扣系数设定为γ=1。需理解,也可以将折扣系数设定为其他数值,为不大于1的正数即可。
[0057]
以上mpd决策过程中的5个关键组件。
[0058]
通过建模上述mpd决策过程,目的在于获得一个确定性策略其定义了在线展示业务对象场景下自动出价的出价策略。
[0059]
接下来,介绍本说明书实施例提出的用于自动竞价强化学习框架。如图2所示,强化学习系统中包括环境动态模型和出价智能体。在该框架中的第1个阶段中,利用从实时竞价(real time bidding,简称rtb)系统中采集的历史数据构建参数化概率的环境动态模型;在第2个阶段,基于环境动态模型学习最优投标策略π
*
,图2中示意通过动态规划进行出价规划,得到最优的q值函数需说明,实际还可以采用其他方式学
得最优策略π
*
。
[0060]
进一步,响应于实时出价系统发起的竞价请求,出价智能体基于当前环境状态,利用最优q值函数从动作空间中选取动作a作为当前出价参数w
agent
,进而根据b=f(w,v)计算出业务方的出价,参与竞价。示例性的,在二价机制下,出价最高的业务方获得展示机会,仅需支付第2高的价格。
[0061]
下面结合更多实施例,介绍上述框架下的实施步骤。
[0062]
图3示出本说明书实施例披露的训练用于自动出价的强化学习系统的方法流程示意图。其中强化学习系统包括环境模型,用于预测业务方所处业务环境的状态分布,该状态分布指环境状态的概率分布,对环境状态s的介绍可以参见前述相关内容。强化学习系统还包括竞智能体,用于根据当前环境状态确定业务方的当前出价参数。
[0063]
图3所示方法的执行主体可以为任何具有计算、处理能力的装置、平台、服务器或设备集群等。示例性地,业务方委托竞价平台进行自动出价,此时,该方法的执行主体可以为竞价平台。如图3所示,所述方法包括以下步骤:
[0064]
步骤s310,利用多个历史样本训练环境模型,其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在第一状态下采用第一出价参数后业务环境变更为的第二状态。需说明,“第一历史样本”等中的“第一”,以及文中的“第二”等类似用语,均是为了区分同类事物,不具有排序等其他作用;另外,环境模型的实现可以基于神经网络(neutral networks,简称nn)等机器学习算法。
[0065]
不妨将多个历史样本组成的样本集记作其中和分别表示任意的第l个样本中的第一状态、第一出价参数和第二状态,l表示历史样本的总数。
[0066]
在rtb系统中,业务环境状态s,包括预算消耗和业务价值等,是逐渐累积的,基于此,可以利用环境模型预测具体时间间隔内环境状态的增量分布,进一步地,下一状态取决于上一状态和预测出的增量分布。
[0067]
在一个实施例中,针对任意的第l个样本,将其中的第一状态和第一出价参数共同输入环境模型,得到预测增量分布然后,根据该预测增量分布中对应标签增量的概率,确定训练损失,该训练损失与概率负相关,也就是说,希望该概率越大越好;其中标签增量可以为第二状态与第一状态的差值,即:
[0068]
在一个具体的实施例中,假定环境模型的输出服从对数正态分布(log-normal distribution),此时,可以考虑将负的预测概率对数值作为损失函数的一部分,示例性的,训练损失的计算公式包括:
[0069][0070]
在另一个具体的实施例中,假定环境模型的输出服从多元正态分布(multivariate normal distribution),且该分布中的均值向量和对角协方差矩阵涉及的参数分别为θ
μ
和θ
∑
,由此得到,环境模型的参数θ={θ
μ
,θ
∑
},可以将
预测增量服从多变量高斯分布记作:此时,公式(6)示意的损失函数变为:
[0071][0072]
以上,在确定训练损失时考虑了预测结果匹配实际过程中动作的不确定性。
[0073]
在另一个实施例中,还考虑竞价过程中存在的规律:投标价格的上涨通常会导致预算和胜率的增加。由此,提出通过保证符合这一规律的单调性(monotonicity)来优化损失函数。具体地,基于预测增量分布确定状态s随出价参数w的变化率,并且,在判断出次变化率小于0的情况下,在训练损失中增加损失项,使得训练损失与变化率负相关,也就是变化率越逼近0越好。
[0074]
示例性地,假定环境模型的输出服从多元正态分布(multivariate normal distribution),此时,可以将考虑单调性的损失项记作:
[0075][0076]
在一个例子中,最终的损失函数可以采用的形式,其中β是一个取值区间为(0,1)的权重超参。
[0077]
在以上确定出训练损失后,可以利用训练损失更新环境模型中的参数θ,从而得到训练好的环境模型。如此,可以训练出用于预测环境状态增量分布的环境模型,进而可以将基于上一状态预测出的增量分布添加到上一状态,得到下一状态的状态分布;增量分布和状态分布之间的关系可以记作:
[0078]
实际上,也可以使得训练出的环境模型直接预测出下一状态的状态分布,只需要在训练过程中的标签由增量标签改为状态标签,例如,直接采用第二状态作为状态标签。
[0079]
在一个实施例中,可以将第一状态和第一出价参数输入环境模型,得到第一预测状态分布,再根据第一预测状态分布中对应第二状态的概率,确定训练损失,该训练损失与该概率负相关。进一步,在一个具体的实施例中,训练损失的确定还基于状态随出价参数的变化率,该变化率可以基于第一预测状态分布进行计算而得到,在变化率为负数的情况下,训练损失与变化率负相关。
[0080]
需理解的是,对于训练直接预测状态分布的环境模型的介绍,还可以参见前述对训练预测增量分布的环境模型的介绍,不作赘述。
[0081]
由上,可以实现利用历史数据采用监督学习的方式,得到训练好的环境模型。基于训练好的环境模型,可以实现智能体与环境之间的交互,以训练竞价策略π。
[0082]
在步骤s320,利用多个状态-出价参数对,以及将其中各个状态-出价参数对输入训练好的环境模型而得到的预测状态分布,训练智能体;其中多个状态-出价参数对的构建
基于从业务环境的状态空间采样的多个状态,以及从出价参数空间采样的多个出价参数。
[0083]
对于上述多个状态-出价参数对的构建,在一个实施例中,可以采样状态空间中全部的m个状态,以及,采样出价参数空间中全部的n个出价参数,并通过穷举式组合得到m*n个状态-出价参数对。在另一个实施例中,通过多次随机采样实现状态-出价对的构建。
[0084]
在一种实施方式中,可以采用动态规划(dynamic programming)的方式训练智能体。需理解,动态规划的核心思想就是拆分子问题,记住过往,减少重复计算,以下对拆分子问题以得到需要迭代的状态值函数v(s
t
)的构思过程进行介绍。
[0085]
具体地,在得到训练好的环境模型后,通过在不同策略下序列性地预测投标结果,可以得到一系列的出价轨迹(bidding trajectories);基于这些出价轨迹,通过最大化竞标成功所获得的回报期望可以确定出智能体的当前最优策略:
[0086][0087]
基于公式(9),提出使用动态规划的方式估计状态-动作值函数q(s
t
,a
t
),参见公式(10),其表示在初始状态s
t
下采取行动a
t
并实行策略π而得到的预期奖励:
[0088][0089]
其中,v(s
t
)为状态值函数,表示在初始状态s
t
下采用策略π而得到的预期回报,其计算式如下:
[0090][0091]
类似地,基于状态值函数v(s
t
),可以确定出状态s
t
下的最优策略:
[0092][0093]
为解决对公式(12)中s
t+1
求积分的问题,提出离散化环境状态,并基于离散化的状态空间sd,采用下式(13)计算最优值函数v(s
t
)的近似值:
[0094][0095]
在式(13)中,回报值r
t
可以基于状态s
t
和回报函数r进行计算得到。
[0096]
由此,得到状态值函数v(s
t
)的迭代计算式。下面,以展示伪代码的方式,介绍基于训练好的环境模型和公式(13)等,通过离线训练得到智能体的最优策略π
*
,其体现为最优状态-动作值函数q
*
(s
t
,a
t
),的过程。伪代码如下:
[0097]
1 for每个s∈s do[0098]
2初始化v(s)=r(s);
[0099]
3end for
[0100]
4for t
←
t-1to 0do
[0101]
5for每对do
[0102]
6基于由环境模型输出的状态分布获取估计出的s
t+1
[0103]
7基于公式(13)迭代v(s
t
)
[0104]
8end for
[0105]
9基于下式确定动作:
[0106]
10
[0107]
11end for
[0108]
以上介绍采用动态规划的方式训练智能体,进一步,基于确定出的最优状态-动作值函数q
*
(s
t
,a
t
),可以将状态s
t
下的最优动作确定为:
[0109][0110]
另外本步骤还可以采用其他实施方式,如采用dyna类方法、解析梯度(analytical gradient)法等进行智能体的训练。
[0111]
综上,采用本说明书实施例披露的训练用于自动出价的强化学习系统的方法,1)根据最优竞价模型将自动出价问题建模为粗粒度的mdp决策过程,这大大降低了基于模型的方法的学习复杂性;2)提出了一个简单有效的有模型(model-based)的强化学习框架,该框架可以避免繁琐的模拟环境构建,同时环境模型输出的未来状态的分布包含了竞价环境的不确定性,克服了离线训练与在线部署的不一致性;3)引入概率建模的方法,提出一种新的单调约束,可以准确描述环境模型中在线展示环境的展示印象分配和非平稳性;4)采用基于模型规划的方式进行出价,增强了出价的可解释性。
[0112]
在完成上述对强化学习系统的训练后,可以利用其中的智能体进行线上动作的预测。
[0113]
图4示出本说明书实施例披露的自动出价的方法流程示意图,该方法由与业务方关联的设备执行。在一个示例中,业务方对该设备具有使用权。在另一个示例中,业务方委托竞价平台代理出价,相应,该设备可以从属于竞价平台。可以理解,该设备可以是任何具有计算、处理能力的装置或服务器等。如图4所示,所述方法包括以下步骤:
[0114]
步骤s410,接收竞价请求,其指示在第一平台展示位上向第一用户展示业务对象的展示机会;步骤s420,根据所述竞价请求,将业务方所处业务环境的当前状态输入智能体中,得到从出价参数空间中选取的当前出价参数;步骤s430,基于业务方提供的目标业务对象,以及第一用户和/或第一平台展示位的特征,确定展示机会的业务价值;步骤s440,基于当前出价参数和业务价值,确定针对展示机会的出价数额。
[0115]
对以上步骤的展开介绍如下:
[0116]
首先,在步骤s410,接收竞价请求,其指示在第一平台展示位上向第一用户展示业务对象的展示机会。
[0117]
示例性的,第一平台展示位可以是网站或应用中的广告位或内容板块等;展示机会限制业务对象的形式,如文本、图片、视频或音频。
[0118]
然后,在步骤s420,根据竞价请求,将业务方所处业务环境的当前状态输入智能体
中,得到从出价参数空间中选取的当前出价参数。
[0119]
在一个实施例中,智能体中包括最优状态-动作值函数q
*
(s
t
,a
t
),基于此,本步骤可以实施为:将基于所述当前状态和所述出价参数空间中的各个出价参数组成的状态-出价参数对,分别作为所述状态-动作值函数的输入,得到多个函数值;再将多个函数值中的最大函数值所对应的状态-出价参数对中的出价参数,确定为当前出价参数对此,还可以参见公式(14)。
[0120]
在另一个实施例中,智能体中包括参数化的策略模型π
*
(θ),将当前状态s
t
输入策略模型π
*
(θ),可以直接得到输出的最优动作
[0121]
由上,可以到当前出价参数
[0122]
在步骤s430,基于业务方提供的目标业务对象,以及第一用户和/或第一平台展示位的特征,确定展示机会的业务价值vi。需说明,步骤s420可以在步骤s430之前或之后执行,也可以同时执行,本说明书实施例对此不作限定。
[0123]
在一个实施例中,竞价请求中包括第一用户的用户id,相应,可以根据用户id去用户数据中心访问用户已授权的特征数据,如消费偏好等。在一个实施例中,竞价请求中包括第一平台展示位的特征,如限制展示形式,平台类别(如文娱、科技等)。
[0124]
在一个实施例中,本步骤的实施包括:将目标业务对象的对象特征,以及第一用户的用户特征和/或第一平台展示位的展示位特征,输入预先训练好的对象推荐模型中,得到对应的预测推荐度,作为业务价值。示例性的,目标业务对象为目标广告,第一平台展示位为第一广告位,对象推荐模型为点击率预测模型,预测推荐度为预测点击率;对象推荐模型为机器学习模型,具体可以基于nn、决策树等实现。
[0125]
在另一个实施例中,本步骤的实施包括:将目标业务对象的对象特征,与第一用户的用户特征进行匹配,并计算匹配成功的特征项数量在特征项总量上的占比,作为业务价值。
[0126]
由此,可以确定出展示机会对于特定业务方的业务价值vi。
[0127]
s440,基于当前出价参数和业务价值vi,确定针对展示机会的出价数额bi。
[0128]
示例性的,可以采用上述公式(2)或(3)计算得到出价数额bi。
[0129]
由上,可以实现采用训练好的强化学习系统实现自动出价。
[0130]
与上述训练方法、出价方法相对应的,本说明书实施例还披露训练装置、出价装置。
[0131]
图5示出本说明书实施例披露的训练用于自动出价的强化学习系统的装置结构示意图,所述强化学习系统包括环境模型和智能体,所述环境模型用于预测业务环境的状态分布,所述业务环境的状态包括业务方的预算消耗和已获业务价值;所述智能体用于根据当前环境状态确定所述业务方的当前出价参数。如图5所示,训练装置500包括:
[0132]
环境模型训练模块510,配置为利用多个历史样本训练所述环境模型;其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在所述第一状态下采用所述第一出价参数后所述业务环境变更为的第二状态。智能体训练模块520,配置为利用多个状态-出价参数对,以及将其中各个状态-出价参数对输入训练好的环境模型而对应得到的预测状态分布,训练所述智能体;所述多个状态-出价参数对的构建基于从所述业务环境的状
态空间采样的多个状态,以及从出价参数空间采样的多个出价参数。
[0133]
在一个实施例中,所述预算消耗包括已消耗预算与总预算的比值。
[0134]
在一个实施例中,环境模型训练模块510具体配置为:将所述第一状态和第一出价参数输入所述环境模型,得到第一预测状态分布。根据所述第一预测状态分布中对应第二状态的概率,以及基于所述第一预测状态分布而确定出的状态随出价参数的变化率,确定训练损失;所述训练损失与所述概率负相关,且在所述变化率为负数的情况下,还与所述变化率负相关。利用所述训练损失,更新所述环境模型的模型参数。
[0135]
在一个实施例中,所述多个状态为所述状态空间中全部的m个状态,所述多个出价参数为所述出价参数空间中全部的n个出价参数;训练装置500还包括:状态动作对构建单元530,配置为:利用所述m个状态和n个出价参数,构建m*n个状态-出价参数对,作为所述多个状态-出价参数对。
[0136]
在一个实施例中,智能体训练模块520具体配置为:基于所述各个状态-出价参数对和对应的预测状态分布,采用动态规划的方式更新所述智能体中的状态值函数;基于更新完毕的状态值函数,确定对应的状态-动作值函数。
[0137]
在一个具体的实施例中,所述状态价值函数和状态-动作值函数的运算项中均包括回报值,所述回报值为缩放系数与所述已获业务价值之间的乘积,其中缩放系数与实际成本和预定成本阈值之间的比值负相关,所述实际成本基于所述预算消耗与已获业务价值进行计算而得到。
[0138]
在一个具体的实施例中,所述状态价值函数和状态-动作值函数的运算项中均包括折扣系数,所述折扣系数被设定为1。
[0139]
图6示出本说明书实施例披露的自动出价的装置结构示意图,集成于与业务方关联的设备。如图6所示,出价装置600包括:
[0140]
请求接收模块610,配置为接收竞价请求,其指示在第一平台展示位上向第一用户展示业务对象的展示机会。参数预测模块620,配置为根据所述竞价请求,将业务方所处业务环境的当前状态输入智能体中,得到从出价参数空间中选取的当前出价参数。价值确定模块630,配置为基于所述业务方提供的目标业务对象,以及第一用户和/或第一平台展示位的特征,确定所述展示机会的业务价值。出价确定模块640,配置为基于当前出价参数和业务价值,确定针对展示机会的出价数额。
[0141]
在一个实施例中,所述智能体中包括状态-动作值函数;参数预测模块620具体配置为:将基于所述当前状态和所述出价参数空间中的各个出价参数组成的状态-出价参数对,分别作为所述状态-动作值函数的输入,得到多个函数值;将所述多个函数值中的最大函数值所对应的状态-出价参数对中的出价参数,确定为所述当前出价参数。
[0142]
在一个实施例中,价值确定模块630具体配置为:将所述目标业务对象的对象特征,以及第一用户的用户特征和/或第一平台展示位的展示位特征,输入预先训练好的对象推荐模型中,得到对应的预测推荐度,作为所述业务价值。
[0143]
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3或图4所描述的方法。
[0144]
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3或图4所描述的方
法。本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
[0145]
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
技术特征:
1.一种训练用于自动出价的强化学习系统的方法,所述强化学习系统包括环境模型和智能体,所述环境模型用于预测业务环境的状态分布,所述业务环境的状态包括业务方的预算消耗和已获业务价值;所述智能体用于根据当前环境状态确定所述业务方的当前出价参数;所述方法包括:利用多个历史样本训练所述环境模型;其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在所述第一状态下采用所述第一出价参数后所述业务环境变更为的第二状态;利用多个状态-出价参数对,以及将其中各个状态-出价参数对输入训练好的环境模型而对应得到的预测状态分布,训练所述智能体;所述多个状态-出价参数对的构建基于从所述业务环境的状态空间采样的多个状态,以及从出价参数空间采样的多个出价参数。2.根据权利要求1所述的方法,其中,所述预算消耗包括已消耗预算与总预算的比值。3.根据权利要求1所述的方法,其中,利用多个历史样本训练所述环境模型,包括:将所述第一状态和第一出价参数输入所述环境模型,得到第一预测状态分布;根据所述第一预测状态分布中对应第二状态的概率,以及基于所述第一预测状态分布而确定出的状态随出价参数的变化率,确定训练损失;所述训练损失与所述概率负相关,且在所述变化率为负数的情况下,还与所述变化率负相关;利用所述训练损失,更新所述环境模型的模型参数。4.根据权利要求1所述的方法,其中,所述多个状态为所述状态空间中全部的m个状态,所述多个出价参数为所述出价参数空间中全部的n个出价参数;其中,在训练所述智能体之前,所述方法还包括:利用所述m个状态和n个出价参数,构建m*n个状态-出价参数对,作为所述多个状态-出价参数对。5.根据权利要求1或4所述的方法,其中,利用多个状态-出价参数对,以及将其中各个状态-出价参数对输入所述环境模型而得到的预测状态分布,训练所述智能体,包括:基于所述各个状态-出价参数对和对应的预测状态分布,采用动态规划的方式更新所述智能体中的状态值函数;基于更新完毕的状态值函数,确定对应的状态-动作值函数。6.根据权利要求5所述的方法,其中,所述状态价值函数和状态-动作值函数的运算项中均包括回报值,所述回报值为缩放系数与所述已获业务价值之间的乘积,其中缩放系数与实际成本和预定成本阈值之间的比值负相关,所述实际成本基于所述预算消耗与已获业务价值进行计算而得到。7.根据权利要求5所述的方法,其中,所述状态价值函数和状态-动作值函数的运算项中均包括折扣系数,所述折扣系数被设定为1。8.一种自动出价方法,由与业务方关联的设备执行,包括:接收竞价请求,其指示在第一平台展示位上向第一用户展示业务对象的展示机会;根据所述竞价请求,将业务方所处业务环境的当前状态输入智能体中,得到从出价参数空间中选取的当前出价参数;所述智能体采用权利要求1所述的方法而训练得到;基于所述业务方提供的目标业务对象,以及第一用户和/或第一平台展示位的特征,确定所述展示机会的业务价值;
基于所述当前出价参数和业务价值,确定针对所述展示机会的出价数额。9.根据权利要求8所述的方法,其中,所述智能体中包括状态-动作值函数;其中,将业务方所处业务环境的当前状态输入智能体中,得到从出价参数空间中选取的当前出价参数,包括:将基于所述当前状态和所述出价参数空间中的各个出价参数组成的状态-出价参数对,分别作为所述状态-动作值函数的输入,得到多个函数值;将所述多个函数值中的最大函数值所对应的状态-出价参数对中的出价参数,确定为所述当前出价参数。10.根据权利要求8所述的方法,其中,基于所述业务方提供的目标业务对象,以及第一用户和/或第一平台的特征,确定所述展示机会的业务价值,包括:将所述目标业务对象的对象特征,以及第一用户的用户特征和/或第一平台展示位的展示位特征,输入预先训练好的对象推荐模型中,得到对应的预测推荐度,作为所述业务价值。11.一种训练用于自动出价的强化学习系统的装置,所述强化学习系统包括环境模型和智能体,所述环境模型用于预测业务环境的状态分布,所述业务环境的状态包括业务方的预算消耗和已获业务价值;所述智能体用于根据当前环境状态确定所述业务方的当前出价参数;所述装置包括:环境模型训练模块,配置为利用多个历史样本训练所述环境模型;其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在所述第一状态下采用所述第一出价参数后所述业务环境变更为的第二状态;智能体训练模块,配置为利用多个状态-出价参数对,以及将其中各个状态-出价参数对输入训练好的环境模型而对应得到的预测状态分布,训练所述智能体;所述多个状态-出价参数对的构建基于从所述业务环境的状态空间采样的多个状态,以及从出价参数空间采样的多个出价参数。12.一种自动出价装置,集成于与业务方关联的设备,包括:请求接收模块,配置为接收竞价请求,其指示在第一平台展示位上向第一用户展示业务对象的展示机会;参数预测模块,配置为根据所述竞价请求,将业务方所处业务环境的当前状态输入智能体中,得到从出价参数空间中选取的当前出价参数;所述智能体采用权利要求11所述的装置而训练得到;价值确定模块,配置为基于所述业务方提供的目标业务对象,以及第一用户和/或第一平台展示位的特征,确定所述展示机会的业务价值;出价确定模块,配置为基于所述当前出价参数和业务价值,确定针对所述展示机会的出价数额。13.一种计算机可读存储介质,其上存储有计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项所述的方法。14.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项所述的方法。
技术总结
本说明书实施例披露一种训练用于自动出价的强化学习系统的方法及装置。其中强化学习系统包括环境模型和智能体,环境模型用于预测业务环境的状态分布,业务环境状态包括业务方的预算消耗和已获业务价值,智能体用于根据当前环境状态确定业务方的当前出价参数。所述方法包括:先利用多个历史样本训练环境模型,其中任意的第一历史样本包括业务环境的第一状态、第一出价参数,以及在第一状态下采用所述第一出价参数后业务环境变更为的第二状态;再利用基于环境状态空间和出价参数空间采样构建的多个状态-出价参数对,以及将其中各个状态-出价参数对输入训练好的环境模型而对应得到的预测状态分布,训练智能体。训练智能体。训练智能体。
技术研发人员:徐琪森 陈霜 张亮 金永波 李文浩 莫林剑
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2023.05.11
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种轴-径向解耦的三向磁流变阻尼器 下一篇:一种自供电水上救生报警系统