一种基于强化学习的视频场景广告植入候选位置推荐与评价方法

未命名 08-22 阅读:106 评论:0


1.本发明涉及虚拟现实(vr)领域,特指在实现自动和智能的候选空间识别来进行广告植入,具体为一种基于强化学习的视频场景广告植入候选位置推荐与评价方法。


背景技术:

2.随着消费电子技术和设备的快速发展。现代电子设备,如手机、平板电脑和头戴式显示器(hmd),通常都集成了强大的视频功能。用户高质量视频内容的消费从未像今天这样比今天更普遍。这给广告和营销机构带来了一个新的广告和营销机构有机会更好地带来了一个新的机会,可以更好地分发他们的视频广告,这一直是他们的主要货币化战略之一。
3.目前,大多数植入式广告仍然是手动插入到视频中,视频编辑人员要在视频场景中手动识别一个合适的空间来植入广告。即视频编辑在视频场景中手动识别一个合适的空间来植入广告。这样的方式不仅耗时,而且缺乏灵活性。在无处不在的视频播放时代,我们希望实现自动和智能的候选空间识别来进行广告植入。为了实现上述目标,必须解决一些关键问题:首先,识别出来的候选空间应该保持场景的语义一致性。例如,在候选空间选取中,一个广告海报可以在墙上,但不能在天上。其次,广告应无缝植入视频场景中,而不妨碍用户的观看体验,例如,广告不应该与场景中的主要内容相重合。第三,确定的候选空间应该符合人类的主观判断。也就是说,如果识别出的候选空间与视频编辑的手册中的内容接近,则被认为是好的。


技术实现要素:

4.本发明一种基于强化学习的视频场景广告植入候选位置推荐与评价方法,实现自动和智能的候选空间识别来进行广告植入,提供一种基于强化学习的广告位置推荐算法,利用强化学习使广告植入的方式更加灵活,使广告投放位置更加真实。
5.根据本技术的一个方面,一种自动化识别候选空间和智能广告插入的方法包括:
6.步骤s1:我们新提出了一个新的框架,首先是将语义分割和显著性检测相结合,得出广告候选区域;
7.步骤s11:针对于语义分割,我们选取经典的语义分割网络模型(如fcn、u-net、pspnet、deeplabv3+或任何其他网络模型),输出相对粗略的候选空间区域;
8.步骤s12:用显著性检测来检测输入的视频/图片的显著性区域,避免出现大范围遮挡问题;
9.步骤s2:根据结合语义分割和显著性检测得出多个候选空间区域c,利用强化学习算法不断优化广告植入位置。在强化学习框架中,候选空间区域(agent)从环境中收集的初始状态s0;基于s0状态,采取行动a0;转换到新的环境,状态s1;从环境中获取奖励r1,以此循环。
10.{s0,a0,r1,s1,a1,r2,s2,

}
11.候选空间区域(agent)语义分割和显著性检测结合的候选广告区域框;state是人眼轨迹,用s表示;action是候选框进行调整的行为,如平移、缩放、旋转等,用a表示;产生的reward是根据评价指标得到,即显著性区域距离最近的位置;
12.使最终奖励最大化计算公式如下:
13.候选框调整行动(action)所用公式:
[0014][0015]
其中,缩放标量系数s。
[0016][0017]
其中,平移偏移dx,dy。
[0018]
步骤s3:根据步骤s2得出的多个候选空间区域c中,并不断调整候选区域,为了评估输出的候选空间的商业价值,我们对候选空间进行优先级排序,候选空间的值是根据它们与检测到的显著性区域距离来估计的,即计算公式如下:
[0019][0020]
其中x,y分别表示候选空间和重要区域的中心坐标,n代表坐标自然数。预计越小dist(x,y),候选空间越接近显着区域,越能吸引用户的注意力,因此潜在的商业价值就越高。
[0021]
步骤s4:根据步骤s2得到的最优候选空间,参考整体视频风格在候选空间位置植入合适类型的广告,最终得到自然广告植入处理的vr视频。
[0022]
具体实施时,本发明利用强化学习模型优化语义分割和显著性检测广告候选空间区域的模型系统。利用自动学习图像特征,对未来广告植入进行候选空间预测,进一步可以提高广告的商业价值。
[0023]
本发明与现有技术相比,具有以下技术优点:
[0024]
本发明考虑到在优化广告植入的候选空间时,首先,vr视频或图片识别出的候选空间应该保持场景的语义一致性,例如,广告的海报可以在墙上,但不能在天空;其次,广告植入应该在不影响用户观看体验的情况下无缝融入视频场景,例如,广告不应与场景中的主要内容重叠。第三,识别出的候选空间应符合人的主观判断,即识别出的候选空间如果接近视频编辑器的人工植入物则认为是好的。本发明的技术效果是:
[0025]
本发明提出的广告植入方法是基于语义分割结合显著性分析并利用强化学习优化候选空间的方法,展示了如何通过强化学习优化调整候选空间,在vr视频中自然植入广告。本发明首先通过提出了一个名为salads的框架,该框架与各种深度神经网络兼容并使用强化学习作为优化策略。salads的工作流程如图1所示。对于语义一致性,salads可以通过与现有的语义分割网络(例如fcn、u-net、pspnet、deeplabv3+或任何其他网络模型)集成来检测一组候选空间。对于无缝植入,salads应用显著性检测来避免植入的广告与视频场景的显著性重叠,再用强化学习不断进行优化调整,检测遮挡显著区域部分,通过平移、旋转或缩放等动作调整应用优化,以消除重叠。此外,我们还提出了一种方案,根据salads到
视频场景中显着区域的距离来预测输出候选空间的“商业价值”。
附图说明:
[0026]
为了更清楚地阐述本发明现有技术中的技术方案或实施例,下面将简单地介绍实施例中需要使用的附图,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
[0027]
图1是本发明智能植入广告结合显著性名为salads的框架图。
[0028]
图2为本发明强化学习部分具体实施优化流程图。
[0029]
图3是本发智能候选空间明基于到显著性区域的距离进行价值评估示意图,其中(a)为输入场景;(b)为候选空间选取;(c)为显著性区域;(d)为价值评估结果。
[0030]
图4为本发明具体实施例通过salads对输出候选空间的视觉比较(包括优化前和优化后的结果)示意图,其中(a)为输入场景;(b)为真值;(c)为显著性检测;(d)为强化学习策略优化。
具体实施方式
[0031]
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
[0032]
本发明基于实现自动和智能的候选空间识别来进行广告植入,提供一种基于自动化识别候选空间和智能广告插入的方法,利用强化学习使广告植入的方式更加灵活,广告投放位置更加真实。
[0033]
步骤s1:我们新提出了一个新的框架,首先是将语义分割和显著性检测相结合,得出广告候选区域,如图1所示,具体包括:
[0034]
该框架专为广告候选空间识别和优化任务而设计。salads由四个模块组成,包括语义分割模块、显著性检测测模块、强化学习优化模块和估值模块。首先采集人眼轨迹,得到vr视频中显著性区域数据信息。
[0035]
步骤s11:针对于语义分割,我们选取经典的语义分割网络模型,输出相对粗略的候选空间区域,具体包括:
[0036]
语义分割模块最初通过分析场景的整体语义来预测多个候选空间。我们尝试了多种语义分割网络,包括但不限于fcn、u-net、pspnet和deeplabv3+等。它们都具有共同的对称编码器-解码器结构。集成后,salads使用原始图像和包含多个广告候选空间的受试者眼动数据(人眼轨迹)和手动标记图像(二进制地图)作为ground-truth进行训练。编码器组件通过逐步下采样输入图像来提取其相位内的多尺度信息。然后,解码器通过逐步上采样、卷积和合并操作将其编码为高分辨率特征图。输出是一个概率图,它提供了在该位置为输入图像的每个像素集成广告的可能性。需要强调的是,我们集成的网络最初是为图像分割而设计的,而不是专门为候选空间检测而设计的,因此在这个阶段提取的候选空间只是粗略的。为了避免与场景的主要内容重叠从而影响用户的观看体验,我们引入了显著性检测和强化学习,用于后续的候选空间优化。
[0037]
步骤s12:用显著性检测来检测输入的视频/图片的显著性区域,避免出现大范围遮挡问题,具体包括:
[0038]
显著性检测模块检测场景的显著性区域。将显著性特征结合到salads中可以消除干扰用户视图的广告候选空间。在salads中,我们使用视觉显著性变换器(vst)进行室内场景的显著性检测。显著性检测的输出是灰度图,通过连通分量分析进行预处理,用于后续的候选空间过滤、调整和估值。它可以进一步解释为下面描述的优化过程,它生成不与检测到的显着区域重叠(但接近)的最终候选空间。
[0039]
步骤s2:根据结合语义分割和显著性检测得出的候选空间c,利用强化学习算法不断优化广告植入位置,具体包括:
[0040]
强化学习优化模块根据上述模块的结果对候选空间进行过滤和调整,如图2所示,避免将识别出的候选空间与场景的主要内容(显著性)重叠。显著性检测模块已经预处理调整了候选空间,接着引入强化学习策略,候选空间区域(agent),agent通过对vr视频采取平移、旋转、缩放等行动(action)观察人眼轨迹(state)的变化,不断产生距离显著性区域最优距离的价值(reward),优化调整,最终获得奖励之和也就是最大价值,也就是某个状态下所有动作的价值期望。即最有候选空间价值计算公式如下:
[0041]
v(s)=e[r
t+1
+λv(s
t+1
)|s
t
=s]
[0042]
其中,e代表当前状态下行动action的价值期望,s表示一个具体的状态值,很自然s
t
,s
t+1
,...就是表示当前时刻,下一时刻和下下一时刻,...,的状态;r
t+1
表示在t+1时刻所获得的奖励,其他同理;g
t
表示t时刻总的回报奖励,因为当前时刻做的某一个决定,未来不同时刻都会有不同形式的奖励。或者也可以这么理解:前面g
t
代表的是当前时刻某一个动作所带来的的奖励,而v(s)就表示在当前时刻的一个奖励期望,即综合考虑所能采取的所有动作之后我们所能获得的奖励。
[0043]
在预测全景视频的时候,我们将人眼轨迹图转化成热力图,并作为强化学习(候选空间区域)agent的输入,并于视频眼动变换位置这一环境不断优化学习,优化输出奖励,也就是最优的广告植入候选区域。
[0044]
步骤s3:根据步骤s1得出的多个候选空间区域中,并不断调整候选区域,为了评估输出的候选空间的商业价值,我们对候选空间进行优先级排序,具体包括:
[0045]
估值模块通过计算候选空间与检测到的显着区域之间的距离,对所有候选空间的商业价值进行预测和排序。如图3所示,salads的输出是与输入图像具有相同维度的概率图,用于标记预测的广告候选空间及其预测值。显著性区域的距离进行价值评估示意如图3所示;根据不同候选空间的值是根据它们与检测到的显著性的距离来估计的区域。如果候选空间更接近(但不重叠)一个显着区域或几个显着区域的几何中心,那么它的商业价值会更高。由于显著性结果(在前面的步骤中获得)是灰度图,我们采用连通分量分析将它们转换为二进制图,输出连通分量的数量。最终获得视频场景中显着区域的距离来预测输出候选空间的“商业价值”。该值定义为连通域与每个候选空间之间的欧几里得距离,即
[0046][0047]
其中x,y分别表示候选空间和重要区域的中心坐标,n代表自然数。预计越小dist(x,y),候选空间越接近显着区域,越能吸引用户的注意力,因此潜在的商业价值就越高。
[0048]
当有两个以上的连通分量时,我们计算最优面积(oa),这是通过计算连通分量之
间的中心位置得到的。例如,对应的公式如下:
[0049][0050]
其中o表示坐标原点,a、b和c表示连接分量的中点,而a、b和c表示边长。
[0051]
最后,通过salads对输出候选空间的视觉比较(包括优化前和优化后的结果)示意图如图4所示,从左到右依次是原始图片、真值、语义分割网络、强化学习优化模块。
[0052]
最后在植入得出合适的候选框中植入合适的广告,我们也对植入广告进行图像质量评价,考虑植入广告图片或视频的饱和度,明暗对比度等因素,植入最合适的广告,保证输出的图片/视频具有跟高的商业价值。
[0053]
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

技术特征:
1.一种基于强化学习的视频场景广告植入候选位置推荐与评价方法,其特征在于,包括:数据集收集,分为手动标注图像的候选空间区域,眼动交互实验观看全景视频获取人眼显著性区域;对获得的室内外、光场图像和全景视频数据进行标注和预处理,得到用于训练和测试的语义分割数据集;通过兼容各种语义分割网络进行图像语义分割;将室内外图片场景放到各种语义分割网络中,同时用四种经典语义分割网络做对比(fcn、u-net、psp-net、deeplabv3+)等语义分割网络中,通过该网络,将广告植入的候选空间区域结果输出。通过对图像进行显著性检测,得出相应的显著区域,从而对之前的语义分割网络结果加以约束,得出一组候选空间区域;本发明首先通过提出了一个名为salads的框架,该框架与各种深度神经网络兼容并使用强化学习作为优化策略。利用眼动交互实验得出的人眼显著性区域的热力图和一组候选空间区域作为强化学习的候选空间区域(agent)的输入,与视频/图像不断学习交互,训练出距离显著性区域更近更优的广告植入候选空间区域。最终得到价值最大的候选广告区域,在相应的位置植入广告。2.根据权利要求1所述的方法,其特征在于,所述室内外图像数据包含广告植入图像数据;对所述室内外图像数据进行标注包括:根据主观判断显著性区域的结果,将每一个可植入广告的位置都用一个边框标出,作为参考注释;标记图像中广告候选区域,生成标签文件,用于模型的训练;每个图像数据对应的标签文件,也作相应的预处理操作和数据增强。利用包括但不限于labelme等工具标记图像中广告候选区域,生成包括但不限于json格式的标签文件,用于模型的训练。3.根据权利要求1所述的方法,其特征在于,通过确定显著性区域约束图像语义分割还包括:以手动标注的候选空间区域为基础,但不限于手动标注,同时用四种经典分割网络做对比,将数据集图像数据作为输入,利用编码器对输入的图像数据进行降维和特征提取,利用编码器加强候选空间区域特征的细节提取;利用显著性检测模型,输出室内外图像显著性区域的灰度图;利用眼动交互实验,通过htc vive eye设备进行眼动追踪实验,根据实验者观看的视频/图像获取眼动轨迹,进而获取视频/图像显著性区域。4.根据权利要求3所述的方法,其特征在于,salads框架可在包括但不限于pytorch中实现,并使用端到端(例tesla t4 gpu)的方式进行训练。对于目标显着性检测,我们预训练可使用t2t-vitt-14/16等模型作为主干。设置合适的批量大小,以及总训练步数(如40000),并使用二元交叉熵损失进行显着性和边界预测。5.根据权利要求1所述的方法,其特征在于,选取强化学习模型可以自动学习候选区域特征,选用actor-critic模式,在策略网络中,输入为人眼轨迹(state)状态,通过卷积层
(conv),一个或多个全连接层(dense),激活函数(softmax)输出候选空间区域;在价值网络中,输入为调整策略动作action和人眼轨迹(state),人眼轨迹(state)通过用卷积层(conv),行动action通过用dense得到各自特征(feature),然后拼接起来,再用全连接层得到一个实数,这就是在人眼轨迹state的情况下,做出系列动作action如平移旋转得到的奖励(reward),可以判断通过改变人眼轨迹(state)做出的行动action对系统的影响。6.根据权利要求2所述的方法,其特征在于,对所述室内外图像语义分割数据集划分出训练集和测试集,其中,利用样本量估计公式计算测试集的样本,而将数据集中剩余的样本作为训练集的样本;将训练集和测试集中图片对应格式的标签文件,也一一对应划分出来。7.根据权利要求1所述的方法,其特征在于,所述用于图像各种语义分割网络(fcn、psp-net、u-net、deeplabv3+等)在训练时利用adam/sgd等优化器,例如,可将所述优化器的学习率设为1e-4,所述训练网络epoch(将所有训练样本训练一次的过程)可为200,batchsize(批处理大小)设置可为8。8.根据权利要求1所述的方法,其特征在于,所述用于各种语义分割网络结合显著性检测模型训练出的候选空间区域,对于强化学习中已经优化的候选空间区域并计算与显著性区域的距离大小,距离显著性区域越近,广告候选空间区域价值越高,并综合考虑图像质量评价等因素,在位置价值更高的候选区域植入符合场景信息的广告。

技术总结
本申请公开了一种基于强化学习的视频场景广告植入候选位置推荐与评价方法。该方法包括提出了SalAds框架来识别视频广告植入的候选空间。利用语义分割、显著性检测和强化学习模型优化候选空间区域,SalAds可以智能地识别多个候选空间。本申请能够更好地提取图像的语义信息和相关显著性特征,自动学习候选区域特征并优化广告植入位置,实现了语义的一致性、增加候选区域的吸引力和广告的商业价值。为了训练SalAds模型,我们除了利用现有的VR视频数据集,另外还构建了一个至少包含1020个场景的手动标记候选空间的初始数据集和利用眼动追踪实验得出的眼动交互数据集。通过实验验证显著区域约束人工标注的候选区域,促使植入广告位置符合人类的主观判断,引入强学学习模型自适应学习广告候选空间区域信息,并可以智能植入广告。入广告。入广告。


技术研发人员:陈晓明 张宏伟 王晨
受保护的技术使用者:北京工商大学
技术研发日:2023.02.27
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐