营销推广方法、装置、设备和计算机可读存储介质与流程
未命名
10-14
阅读:77
评论:0

1.本技术的实施例涉及营销领域,尤其涉及营销推广方法、装置、设备和计算机可读存储介质。
背景技术:
2.现有的营销推广算法,包括协同过滤算法、隐语义模型、基于决策树的分类算法和深度学习算法等,上述算法都可以应用于基于特征衍生的营销推广方法中,提高个性化推荐和营销推广的效果和效率。
3.但是,采用上述算法进行营销推广时,具有如下缺点:第一,特征表示能力有限。在特征表示方面可能存在一定的局限性,不能很好地反映用户的兴趣和偏好,并且不够鲁棒,容易受到噪声和干扰的影响。
4.第二,预测和规划能力不足。在预测和规划方面存在一定的不足,不能很好地预测未来的营销策略,并且不能很好地适应不同的营销环境和需求。
5.第三、模型解释能力较弱。存在一定的模型解释能力较弱的问题,难以解释模型产生的推荐结果,给用户带来一定的不透明性和不信任感。
技术实现要素:
6.根据本技术的实施例,提供了一种营销推广方案,采用独立的分量分析和自监督学习算法进行特征衍生,可以对原始特征进行特征提取和降维,更好地挖掘数据的潜在价值,从而得到更加独立和鲁棒的特征表示,提高了模型的准确性和效果。同时,通过本公开的模型算法,对未来的行为有很强的预测和规划能力,能够模拟预测未来的营销策略,可以更好地适应用户行为的变化和不确定性,适应于不同的营销环境和需求。
7.在本技术的第一方面,提供了一种营销推广方法。该方法包括:获取用户的原始特征数据;对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据和具有自监督学习特点的第二特征数据;将所述第一特征数据和所述第二特征数据进行汇总,得到最终的特征数据;通过已训练的预测模型和预先设定的奖励参数,对所述最终的特征数据进行处理,得到价值预测值和策略概率预测值;基于所述价值预测值和策略概率预测值,确定最终的营销推广方式。
8.进一步地,所述对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据包括:通过如下算法对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据:
;其中,a为混合矩阵;为观测变量;为独立成分。
9.进一步地,所述对所述原始特征数据进行特征衍生,得到具有自监督学习特点的第二特征数据包括:将所述原始特征数据,输入到已训练的特征模型中,得到具有自监督学习特点的第二特征数据;其中,所述特征模型包括主网络和目标网络;所述主网络和目标网络结构相同。
10.进一步地,所述将所述原始特征数据,输入到已训练的特征模型中,得到具有自监督学习特点的第二特征数据包括:对所述原始特征数据进行数据增强,生成第一增强数据和第二增强数据;通过特征模型中的编码器对所述第一增强数据和第二增强数据进行处理,得到第一特征向量和第二特征向量;通过所述特征模型中的解码器对所述第一特征向量和第二特征向量进行处理,得到第一重构输出和第二重构输出;将所述第一重构输出和第二重构输出,通过主网络进行前向传播,得到第一特征表示;将所述第一重构输出和第二重构输出,通过目标网络进行前向传播,得到第二特征表示;基于所述第一特征表示和第二特征表示,计算所述特征模型的损失函数;基于所述损失函数,得到具有自监督学习特点的第二特征数据。
11.进一步地,所述基于所述第一特征表示和第二特征表示,计算所述特征模型的损失函数包括:基于所述第一特征表示和第二特征表示,通过如下公式计算所述特征模型的损失函数:;其中,n为批处理大小;和分别为编码器输出的第一特征向量、第二特征向量;和分别为第一重构输出、第二重构输出。
12.进一步地,还包括:基于损失函数,通过反向传播算法对预测模型中的策略梯度和网络参数进行优化:其中,对预测模型中的策略梯度进行优化包括:
基于策略价值目标,对所述预测模型中的策略梯度进行优化;所述策略价值目标,通过如下方式计算:;;;其中,为从时间步骤t开始的未来奖励的加权和;为折扣因子;为时间步骤t+1的价值预测值;为优势函数;c1和c2为权重参数;为神经网络输出的策略概率;为神经网络的参数的l2正则化项。
13.进一步地,所述基于策略价值目标,对所述预测模型中的策略梯度进行优化包括:基于策略价值目标,通过如下算法,对所述预测模型中的策略梯度进行优化:;其中,为损失函数对神经网络参数的梯度;为优势函数对神经网络参数的梯度;为策略概率对神经网络参数的梯度;为l2正则化的权重参数;为神经网络的参数。
14.在本技术的第二方面,提供了一种营销推广装置。该装置包括:获取模块,用于获取用户的原始特征数据;衍生模块,用于分别对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据和具有自监督学习特点的第二特征数据;汇总模块,用于将所述第一特征数据和所述第二特征数据进行汇总,得到最终的特征数据;所述最终的特征数据包括状态数据和行动数据;预测模块,用于通过已训练的预测模型和预先设定的奖励参数,对所述状态数据和行动数据进行处理,得到当前状态的价值预测值和策略概率预测值;推广模块,用于基于所述价值预测值和策略概率预测值,确定最终的营销推广方式。
15.在本技术的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
16.在本技术的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本技术的第一方面的方法。
17.本技术实施例提供的营销推广方法,采用独立的分量分析和自监督学习算法进行特征衍生,可以对原始特征进行特征提取和降维,更好地挖掘数据的潜在价值,从而得到更加独立和鲁棒的特征表示,提高了模型的准确性和效果。同时,通过本公开的模型算法,对未来的行为有很强的预测和规划能力,能够模拟预测未来的营销策略,可以更好地适应用户行为的变化和不确定性,适应于不同的营销环境和需求。
18.应当理解,发明内容部分中所描述的内容并非旨在限定本技术的实施例的关键或重要特征,亦非用于限制本技术的范围。本技术的其它特征将通过以下的描述变得容易理解。
附图说明
19.结合附图并参考以下详细说明,本技术各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1为根据本技术的实施例的营销推广方法的流程图;图2为根据本技术的实施例的营销推广装置的方框图;图3为适于用来实现本技术实施例的终端设备或服务器的结构示意图。
具体实施方式
20.为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
21.另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
22.图1示出了根据本公开实施例的营销推广方法的流程图。
23.s110,获取用户的原始特征数据。
24.在本实施例中,用于营销推广方法的执行主体,可以通过有线方式或者无线连接的方式获取原始特征数据。
25.进一步地,上述执行主体可以获取与之通信连接的电子设备发送的原始特征数据,也可以是预先存储于本地的原始特征数据。
26.在一些实施例中,所述原始特征数据包括:用户id、年龄、性别、婚姻状况、兴趣爱好和购买力、顾客的购买历史、浏览历史、搜索历史和/或用户t时候动作等。
27.s120,对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据和具有自监督学习特点的第二特征数据。
28.在一些实施例中,为了保证数据的质量和可用性,可对步骤s110获取的原始特征数据进行优化。例如,通过数据清洗、归一化、数值编码和/或哑编码等方式对原始特征数据进行优化。
29.在一些实施例中,可通过如下算法对所述原始特征数据(优化后的)进行特征衍生,得到基于数据分布的第一特征数据:;其中,a为混合矩阵;为观测变量,可由n个独立成分的线性组合得到;为独立成分。
30.即,将每个独立成分,作为一个新的特征,然后采用这些新的特征来代替原始的观测变量x,从而得到一组新的特征(第一特征)。
31.在一些实施例中,将所述原始特征数据,输入到已训练的特征模型中,得到具有自监督学习特点的第二特征数据;所述特征模型包括编码器、解码器、主网络和目标网络,该主网络和目标网络结构相同;定义原始数据,将编码器输出的特征向量表示为,解码器重构的输出表示为。对于每个输入样本数据,随机进行数据增强,例如随机缩放、采样、噪声添加、随机插入、随机删除等,生成两个不同的增强数据,即第一增强数据和第二增强数据,将和分别通过编码器,得到对应的向量和。将和作为输入,分别通过解码器得到第一重构输出和第二重构输出。
32.进一步地,将输入样本(、)通过主网络进行前向传播,得到第一特征表示;将所述第一特征表示输入至目标网络进行前向传播,得到第二特征表示。
33.计算两个特征表示的负余弦相似度作为损失函数l:;其中,n为批处理大小;通过反向传播算法,更新主网络的参数,使得余弦相似度越来越接近1。
34.根据损失函数求解得到最终的和,取其平均值,得到最后的衍生变量。
35.通过所述衍生变量对原始特征数据进行分别处理,得到多个衍生特征(第二特征数据)。
36.s130,将所述第一特征数据和所述第二特征数据进行汇总,得到最终的特征数据。
37.在一些实施例中,将第一特征数据和所述第二特征数据进行相加,得到最终的特征数据。所述最终的特征数据包括状态特征和行动特征;
其中,状态特征为当前的市场环境和顾客的特征。例如,市场环境包括顾客的购买历史、浏览历史、搜索历史等历史行为,顾客的特征包括年龄、性别等。状态表示为,表示在t时的状态。
38.行动特征为可以采取的营销策略。例如,我们可以向顾客发送电子邮件、短信、推送通知等。行动可以表示为,表示在时间t时选择的行动。
39.s140,通过已训练的预测模型和预先设定的奖励参数,对所述最终的特征数据进行处理,得到价值预测值和策略概率预测值。
40.其中,奖励参数用于表示营销策略的效果,可根据实际应用场景进行预先设定。若顾客接受了营销策略并购买了产品,则给予奖励。奖励可以表示为,表示在时间t时的奖励。奖励由运营人员给出,将客户进行下一步动作定义为正奖励,默认为1,反之为负奖励-1。
41.所述预测模型包括动作模型和价值模型。动作模型用于预测下一个动作,价值模型用于预测当前状态的价值。
42.在一些实施例中,采用如下算法模拟用户的行为,并更新各个状态的价值估计。在每个状态下使用策略网络来选择行动,并使用动态模型来更新状态。生成一颗搜索树,其中搜索树种的每个节点表示一个状态,每个边表示从一个状态到另一个状态采取的行动。在搜索树的叶子节点上,采用价值网络来评估当前状态的价值。
43.对于每个时间步骤t,选择行动,观测用户状态和奖励:;;;其中,为搜索树种第i次模拟的奖励;n为模拟的次数;为折扣因子;为使用动态模型模拟的状态的价值;为控制探索和开发的权重参数;为神经网络输出的策略概率值;为状态s下采取行动b的访问次数;为状态s下采取行动a的访问次数;为时间t选择的行动;为神经网络输出的当前t时间,状态s选择行动a的价值预测值;
为行动a的置信上限界(探索项),用于探索未知的行动。
44.在一些实施例中,神经网络模型f接收当前状态和历史行动作为输入,预测当前状态的价值预测值,策略概率预测值。价值为当前状态的长期价值,策略概率表示选择每个行动的概率:;其中,为当前状态的价值预测值;为当前状态的策略概率预测值。
45.在一些实施例中,对于每个时间步骤t,采用树搜索生成的数据,计算策略价值目标。所述策略价值目标是一个带权重的平均值,其中,权重是通过训练神经网络得到的,用于平衡策略和价值的相对重要性。策略价值目标的计算公式为:;;;其中,为从时间步骤t开始的未来奖励的加权和;gamma为折扣因子;是时间步骤t+1的价值预测值;为优势函数,用于衡量当前状态的优劣;c1和c2为权重参数;为神经网络输出的策略概率;为神经网络的参数的l2正则化项。
46.在一些实施例中,采用如下方式进行策略梯度和网络参数更新:对于每个时间步骤t,采用如下方法更新神经网络的策略函数。策略梯度方法使用策略价值目标的梯度更新策略函数的参数(最大化策略价值),策略梯度的计算公式为:;其中,为损失函数对神经网络参数的梯度;为优势函数对神经网络参数的梯度;为策略概率对神经网络参数的梯度;为l2正则化的权重参数;为神经网络的参数。
47.进一步地,通过如下方式进行网络参数更新:
对于每个时间步骤t,采用树搜索生成的数据,通过经验回收的方式,更新神经网络的动态模型和价值函数的参数,以提高准确性。采用梯度下降的方式,最小化动态模型和价值函数的预测误差。
48.具体地,动态模型和价值函数的更新公式如下:;其中,为损失函数对动态模型或价值函数的参数的梯度;z为从时间t开始的未来奖励的加权和;为时间步骤t的价值预测值;为策略概率对动态模型或价值函数的参数的梯度;c2为l2正则化的权重参数;w为动态模型或价值函数的参数。
49.进一步地,根据模拟的结果,更新策略,不断优化精准营销和广告投放的效果。使用策略网络来评估每个行动的概率,并选择概率最大的行动。最后使用奖励函数来评估策略的效果,并将其用于优化所述预测模型。
50.s150,基于所述价值预测值和策略概率预测值,确定最终的营销推广方式。
51.在一些实施例中,基于所述价值预测值和策略概率预测值,确定最终的营销推广方式。即,根据用户的特征和需求,针对性地投放广告和推荐产品,以提高用户的转化率和满意度下面给出一个基于本公开的具体实施例:获取原始特征数据,所述原始特征数据中包括12个原始特征,每个用户的特征包括:用户id、年龄、性别、婚姻状况、兴趣爱好和购买力、顾客的购买历史、浏览历史、搜索历史和用户t时候动作,参考表1。
52.表1
id年龄性别婚姻状况兴趣爱好购买力购买历史浏览历史搜索历史用户t时期动作132男已婚电影、音乐、旅游、美食高手机、平板电脑、智能手表手机配件、平板电脑、智能穿戴手机、平板电脑、智能手表注册245女已婚股票、基金、读书、旅游、游泳非常高电视、冰箱、洗衣机家用电器、厨房电器、个护健康、母婴用品电视、空调、冰箱、洗衣机点击325男未婚游戏、电影、音乐中等零食、饮料、酒水生鲜果蔬、粮油调味、休闲食品、家居日用啤酒、饮料、零食登录..............................9999950男已婚烹饪、家政、旅游、音乐低化妆品、美容护肤、个人护理母婴用品、家用电器、厨房电器、生鲜果蔬化妆品、美容护肤、个人护理购买
10000027女未婚旅游、美食、电影、时尚中等玩具、益智玩具、儿童书婴童用品、童装童鞋、亲子装、孕妇装玩具、益智玩具、儿童书注册
对用户的历史行为和属性等数据进行预处理,包括数据清洗、数据归一化、数值编码和哑编码等步骤,最后处理成30列特征,以保证数据质量和可用性。
53.对预处理后的数据进行特征衍生,得到基于数据分布的独立特征和具有自监督学习特点的特征。以10000个观测变量为例,,该变量由10个独立成分的线性组合得到:;通过上述方式恢复出每个独立成分,将该10个独立成分作为衍生变量后的新特征。
54.对于每个输入用户数据,随机进行数据增强,得到两个增强数据和。将和分别通过编码器得到对应的特征向量和。将和作为输入,分别通过解码器得到重构的输出和。
55.通过损失函数进行最小求解,得到和,取平均得到最后的衍生变量。对30个原始特征进行分别处理(一一处理),得到30个衍生特征。
56.进一步地,将上述两种算法的得到的衍生特征进行汇总,得到70个特征;所述70个特征中包括状态特征和行动特征。
57.建立包括动作模型和价值模型的预测模型,动作模型用于预测下一个动作,价值模型用于预测当前状态的价值。当前状态和历史行动作为输入,采用神经网络进行预测,得到当前状态的价值预测值和策略概率预测值:;进一步地,利用策略概率预测值选择行动,获得立即奖励并观察后续的奖励。采用深度强化学习方法,在模型训练过程中,基于损失函数,通过反向传播算法,优化模型的策略梯度和网络参数,逐步学习到用户更好的策略概率预测值和价值预测值,为下一步的投放渠道决策提供参考。
58.策略概率预测值:预测出所有用户可能的行为访问,并为每个方式分配一个概率。例如预测到某个用户在自媒体、短信、外呼等方式的查看产品的概率分别是0.2、0.3、0.5;价值预测值:根据当前行为预测用户最终的用户生命周期价值ltv。例如,预测用户生命周期价值为300元,表示用户的大体生命价值。
59.通过上述预测值,可以帮助公司在这个时间段里更准确地确定最有效的营销渠道,并将重点投放到这些渠道上,从而提高用户转化率和生命周期价值。例如优先提取ltv高的用户,选择相应的概率高的渠道进行投放,提高用户的点击和投入。
60.进一步地,通过如下方式进行投放监控和优化:根据策略网络生成动作,确定投放广告的渠道,执行动作并观察环境反馈,包括t+1时刻用户的真实点击和购买等的行为,然后作为新的用户行动和状态,重新预测策略模型,得到新的策略概率预测值和价值预测值,进行新一轮的投放。逐步提高决策策略的准确性和效率,实现营销推广的优化和增长。以提高广告效果和roi,从而提高决策的准确性和效率。
61.本公开的方法,通过自我训练和搜索来实现决策策略的优化,用户各渠道点击率(ctr)和转化率提高60%。投资回报率(roi)是原来的1.5倍,具有广泛的应用前景,可以在广告投放领域等复杂决策问题中得到广泛应用。
62.根据本公开的实施例,实现了以下技术效果:通过对原始数据的特征衍生,可以更好地挖掘数据的潜在价值,提高模型的准确性和效果;通过本公开所采取的强化学习算法,可以更好地预测和规划未来的营销策略,可以更好地适应用户行为的变化和不确定性,提高个性化推荐和营销推广的效果和效率;相较于现有的营销算法,本公开所采用的方法,强调了特征衍生和模型预测、模型解释能力的重要性,可以更好地适应不同的营销需求和场景,提高营销推广的效果和效率。
63.即,通过本公开的算法,能够提供更丰富的特征提取和降维能力。通过线性变化,使得变换后的数据的各个成分之间相互独立,可以提取出数据中的独立特征,去除冗余信息和噪声,从而实现高效的特征提取和降维,通过编码器将原始数据映射到低维表示空间中,输出一个低维向量,该向量中包含了原始数据的重要特征信息,从而实现了特征降维和特征提取;提高特征的独立性和鲁棒性。将原始数据分解成独立的组成部分,这些组成部分相互独立且包含了原始数据的大部分信息。相比于传统的特征提取方法,本公开所采用的算法,提高了特征的独立性和鲁棒性,从而提高模型的准确性和泛化能力。
64.能够更好地预测和规划未来的营销策略。本公开的算法,具有更强的预测和规划能力,利用历史数据和用户行为模型进行预测,更好地适应用户行为的变化和不确定性,从而预测未来用户的行为和偏好。能够帮助企业更好地了解用户的需求和兴趣,更好地预测和规划未来的营销策略,提高营销推广的效果和效率,适应不同的营销场景和需求。
65.更好地优化迭代能力,学习到更优的策略。本公开的算法,通过不断的试错和反馈,可以学习到更优的营销策略和决策规则,帮助企业不断优化营销策略,提高精准营销的效果和效率。
66.需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本技术所必须的。
67.以上是关于方法实施例的介绍,以下通过装置实施例,对本技术所述方案进行进一步说明。
68.图2示出了根据本技术的实施例的营销推广装置200,如图2所示包括:
获取模块210,用于获取用户的原始特征数据;衍生模块220,用于分别对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据和具有自监督学习特点的第二特征数据;汇总模块230,用于将所述第一特征数据和所述第二特征数据进行汇总,得到最终的特征数据;所述最终的特征数据包括状态数据和行动数据;预测模块240,用于通过已训练的预测模型和预先设定的奖励参数,对所述状态数据和行动数据进行处理,得到当前状态的价值预测值和策略概率预测值;推广模块250,用于基于所述价值预测值和策略概率预测值,确定最终的营销推广方式。
69.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
70.图3示出了适于用来实现本技术实施例的终端设备或服务器的结构示意图。
71.如图3所示,终端设备或服务器包括中央处理单元(cpu)301,其可以根据存储在只读存储器(rom)302中的程序或者从存储部分308加载到随机访问存储器(ram)303中的程序而执行各种适当的动作和处理。在ram 303中,还存储有终端设备或服务器操作所需的各种程序和数据。cpu 301、rom302以及ram 303通过总线304彼此相连。输入/输出(i/o)接口305也连接至总线304。
72.以下部件连接至i/o接口305:包括键盘、鼠标等的输入部分306;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分307;包括硬盘等的存储部分308;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至i/o接口305。可拆卸介质311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器310上,以便于从其上读出的计算机程序根据需要被安装入存储部分308。
73.特别地,根据本技术的实施例,上文方法流程步骤可以被实现为计算机软件程序。例如,本技术的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分309从网络上被下载和安装,和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(cpu)301执行时,执行本技术的系统中限定的上述功能。
74.需要说明的是,本技术所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可
读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
75.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
76.描述于本技术实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
77.作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本技术的方法。
78.以上描述仅为本技术的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本技术中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本技术中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
技术特征:
1.一种营销推广方法,其特征在于,包括:获取用户的原始特征数据;对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据和具有自监督学习特点的第二特征数据;将所述第一特征数据和所述第二特征数据进行汇总,得到最终的特征数据;通过已训练的预测模型和预先设定的奖励参数,对所述最终的特征数据进行处理,得到价值预测值和策略概率预测值;基于所述价值预测值和策略概率预测值,确定最终的营销推广方式。2.根据权利要求1所述的方法,其特征在于,所述对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据包括:通过如下算法对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据:;其中,a为混合矩阵;为观测变量;为独立成分。3.根据权利要求1所述的方法,其特征在于,所述对所述原始特征数据进行特征衍生,得到具有自监督学习特点的第二特征数据包括:将所述原始特征数据,输入到已训练的特征模型中,得到具有自监督学习特点的第二特征数据;其中,所述特征模型包括主网络和目标网络;所述主网络和目标网络结构相同。4.根据权利要求3所述的方法,其特征在于,所述将所述原始特征数据,输入到已训练的特征模型中,得到具有自监督学习特点的第二特征数据包括:对所述原始特征数据进行数据增强,生成第一增强数据和第二增强数据;通过特征模型中的编码器对所述第一增强数据和第二增强数据进行处理,得到第一特征向量和第二特征向量;通过所述特征模型中的解码器对所述第一特征向量和第二特征向量进行处理,得到第一重构输出和第二重构输出;将所述第一重构输出和第二重构输出,通过主网络进行前向传播,得到第一特征表示;将所述第一重构输出和第二重构输出,通过目标网络进行前向传播,得到第二特征表示;基于所述第一特征表示和第二特征表示,计算所述特征模型的损失函数;基于所述损失函数,得到具有自监督学习特点的第二特征数据。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一特征表示和第二特征表示,计算所述特征模型的损失函数包括:基于所述第一特征表示和第二特征表示,通过如下公式计算所述特征模型的损失函
数:;其中,n为批处理大小;和分别为编码器输出的第一特征向量、第二特征向量;和分别为第一重构输出、第二重构输出。6.根据权利要求1所述的方法,其特征在于,还包括:基于损失函数,通过反向传播算法对预测模型中的策略梯度和网络参数进行优化:其中,对预测模型中的策略梯度进行优化包括:基于策略价值目标,对所述预测模型中的策略梯度进行优化;所述策略价值目标,通过如下方式计算:;;;其中,为从时间步骤t开始的未来奖励的加权和;为折扣因子;为时间步骤t+1的价值预测值;为优势函数;c1和c2为权重参数;为神经网络输出的策略概率;为神经网络的参数的l2正则化项。7.根据权利要求6所述的方法,其特征在于,所述基于策略价值目标,对所述预测模型中的策略梯度进行优化包括:基于策略价值目标,通过如下算法,对所述预测模型中的策略梯度进行优化:;其中,为损失函数对神经网络参数的梯度;为优势函数对神经网络参数的梯度;为策略概率对神经网络参数的梯度;为l2正则化的权重参数;为神经网络的参数。
8.一种营销推广装置,其特征在于,包括:获取模块,用于获取用户的原始特征数据;衍生模块,用于分别对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据和具有自监督学习特点的第二特征数据;汇总模块,用于将所述第一特征数据和所述第二特征数据进行汇总,得到最终的特征数据;所述最终的特征数据包括状态数据和行动数据;预测模块,用于通过已训练的预测模型和预先设定的奖励参数,对所述状态数据和行动数据进行处理,得到当前状态的价值预测值和策略概率预测值;推广模块,用于基于所述价值预测值和策略概率预测值,确定最终的营销推广方式。9.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1~7中任一项所述的方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7中任一项所述的方法。
技术总结
本申请的实施例提供了营销推广方法、装置、设备和计算机可读存储介质。所述方法包括获取用户的原始特征数据;对所述原始特征数据进行特征衍生,得到基于数据分布的第一特征数据和具有自监督学习特点的第二特征数据;将所述第一特征数据和所述第二特征数据进行汇总,得到最终的特征数据;通过已训练的预测模型和预先设定的奖励参数,对所述最终的特征数据进行处理,得到价值预测值和策略概率预测值;基于所述价值预测值和策略概率预测值,确定最终的营销推广方式。以此方式,提高了营销的效果和效率。和效率。和效率。
技术研发人员:杨良志 白琳 汪志新 方跃涵 周光辉 杜炜铃
受保护的技术使用者:广州彩讯数字技术有限公司
技术研发日:2023.09.01
技术公布日:2023/10/8
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/