一种剧集在全网整体热度的量化计算方法与流程
未命名
08-22
阅读:146
评论:0
1.本发明涉及剧集全网热度量化算法的详细运行机制技术领域,具体为一种剧集在全网整体热度的量化计算方法。
背景技术:
2.目前社会上的剧集播出渠道,主要有:电视台播出、长视频平台播出。同一部剧集,可能在电视台、长视频平台先后或者同时播出,并可能经历多次播出。统计评价电视台播出的效果,一般采用广电总局cvb指数;但目前大部分剧集都在长视频平台率先播出,为了统计在长视频平台站内播出效果,各大视频平台推出了自有的计算方式,一般称之为播放量,但各大视频平台的播放量定义并不统一,譬如是基于点击、还是连续流量,用户留存多少分钟算一次播放量,周边花絮等是否计入该剧集项目的播放量等,都没有统一标准,同平台的剧集效果形成黑盒,跨平台的剧集难以进行统一比较。这样,造成制作方难以评价自身、同行制作效果的好坏,广告投放主或者二轮、三轮购置意向方、海外发行方也难以评估该项目的投放及购买价值。
3.现有的处理方法存在一下缺陷:
4.1.对跨平台数据的权重系数,需要参考主流发布的平台流量数据;
5.2.由于大量采用反作弊机制,对数据跟随的灵敏度有一定影响,不适合作为剧集在全网整体热度的量化计算。
技术实现要素:
6.本发明的目的在于提供一种剧集在全网整体热度的量化计算方法,以解决上述背景技术中提出的问题。
7.为实现上述目的,本发明提供如下技术方案:
8.一种剧集在全网整体热度的量化计算方法,包括以下步骤:
9.s1、建立剧集全网热度量化算法的详细运行机制,主要针对电视剧(含网络剧)首播市场中的项目进行每日、每周、每月、每年的热度评价;
10.s2、设定防作弊机制,具体步骤包括:
11.s2.1、采用多个不同定位维度的互联网平台数据元素作为计算基础;
12.s2.2、对来自单个平台的数据可信性采用了互相校核的方式;并设置了单一维度的热度非线性递增机制,对爆发式增长的潜在刷分嫌疑数据,不予采用;
13.s2.3、对全部平台维度,考核其不平衡程度,并作为扣减打分的权重项;
14.s2.4、对真人水军:考虑到绝大部分水军具有素质不高、并惯于片面采用大量固定词语的特征,根据自然语言分析技术,分析其语料丰富程度和语义的自然程度,以甄别真人水军,并对相关数据不予采用;
15.s3、确定算法机制:单剧当日热度评分=f1+f2+f3+f4+f5+f6+f7+f8-f9;
16.单剧当日热度评分=∑(f1+f2+f3+f4+f5+f6+f7+f8)-f9;
17.其中,f1为搜索引擎热度+f2为短视频平台权重热度+f3为新闻媒体热度+f4为自媒体热度、f5为娱乐核心论坛关注热度、f6为社交平台热度、f7为即时通信平台热度、f8为下沉平台热度、f9为各大维度不平衡度。
18.作为优选的技术方案,所述搜索引擎热度:
19.f1=∑f1
×
k1+f2
×
k2+
…
+fn
×
kn;
20.其中,k1,
……
kn表示该搜索引擎的市占比权重。k1
……
kn的选取,参考主流统计机构公开发布的最新时间周期的该搜索引擎的流量市占比。
21.作为优选的技术方案,对单一搜索引擎内部:
22.f1=p+if
×
t1(if》p)
23.其中,本引擎限顶值p为对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,取指定概率到达的高值,目的是对超过限定值的数据,降低其增长速度;降速系数t1的选择,对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,通过降速系数的调制幅度后,让指定范围内数据能控制在线性增长范围。
24.作为优选的技术方案,所述热度指标指的是:不同的短视频平台有不同的热度指标,主要包括单视频播放量、点赞数、转发数、评论数、弹幕数等,统称为热度指标1,热度指标2,
……
热度指标n;
25.此类热度指标的特征是,直观,属于第一手可溯源数据,但有一定几率存在数据造假,需要进行数据比对和数据清洗;
26.其中,本引擎限顶值1,
……
,n=对三年内电视剧项目在本短视频平台热度指标1,
……
,热度指标n每日峰值分别进行排序,取指定概率到达的高值,目的是对超过限顶值的数据,降低其增长速度;
27.降速系数t1,
……
,tn的选择,目标是,对三年内电视剧项目在本短视频平台热度指标1-n的每日峰值分别进行排序,通过降速系数1,
……
,n的调制幅度后,使得指定范围内的数据能控制在线性增长范围;
28.对平台内的同个剧目项目的多个热度指标,在完成幅度调制后,还需要做防作弊处理:对同项目多个热度指标维度的交互特征进行考核,显著超过交互特征分布的数据,强行规置到交互特征分布以内。
29.作为优选的技术方案,以剧集在某短视频平台的热度数据计算为例:
30.计算用剧集原始数据包括:日期、当日浏览用户数(user_count)、当日浏览数(view_count),调制后用户数计算公式为:
[0031][0032]
单用户浏览数=v1/u1,其中:v1为调制后浏览数,
[0033]
每万浏览的用户粘性=u1/v1;
[0034]
f=min
(输出浏览数)
,if
(
[
单用户浏览数]>用户用户浏览常数,常数
×
[输出浏览数],[输出用户])
+min
(输出浏览数)
,if
([每万浏览的用户粘性]>用户用户粘性常
[0035]
其中,浏览特性与用户粘性的反复对比,用于防止作弊。
[0036]
作为优选的技术方案,媒体平台相对于短视频平台的主要差异特征是,没有播放量数据,但多数平台有文章篇数、文章点赞数、文章反对数、文章评论数等热度指标数据,通
过对各大主流媒体平台的热度加权,得到剧集新闻媒体热度。
[0037]
作为优选的技术方案,f5(娱乐核心论坛关注热度)=f(论坛热度关注)+f(论坛语料贡献)
[0038]
f(论坛热度关注)=f(提及该剧集项目的发贴量,回帖量,点赞数)
[0039]
热度指标包括:当日新增的发帖量、回帖量、点赞数;
[0040]
f=f1
×
权重1+f2
×
权重2+......+fn
×
权重n
[0041]
其中:f为论坛语料贡献,f1为提及该剧集项目的语料元素
[0042]
语料元素的来源,是对提及该电视剧项目的当日论坛语料在去重复后,进行自然语言分词,对挖掘到的命名主体数、其他名词数、动词数、形容词数、命名主题之间的关联关系数,分别作为语料元素指标,纳入计算。
[0043]
作为优选的技术方案,即时通信平台具有数据相对保密的特点,露出的数据包括:即时通信平台自有的每日指数、平台媒体号及自媒体号文章的文章数、阅读量、点赞数的增量。
[0044]
作为优选的技术方案,互联网中大量存在各类下沉平台,平台内的数据主要包括浏览数、转发数、评论数、点赞数、反对数等,平台内的算法参考f2
[0045]
平台权重k1
……
平台权重kn的选取,参考主流统计机构公开发布的最新时间周期的该搜索引擎的流量市占比。
[0046]
f8与f2的主要区别是,下沉平台往往相对零散,数据不完整,流量偏低,但分别代表着不同的受众和圈层,需要根剧参与平台体量,评估剧集在整个互联网的国民参与度。
[0047]
参与平台体量=f(k1,
……
,kn),同时考察数量与权重。
[0048]
作为优选的技术方案,用于防止作弊和控制置信度不足的突变量
[0049]
f9(各大维度不平衡度)=f1,f2,
……
,f8数据点与各自样本平均值偏差的平方和,具体公式为:
[0050]
与现有技术相比,本发明的有益效果是:
[0051]
本发明提出的一种剧集在全网整体热度的量化计算方法,避免依赖于视频网站站内数据的问题,本专利申请的算法,已成功运行5年,基本解决了剧集数据跨平台的剧集热度可比、电视剧与网剧热度可比的问题。
附图说明
[0052]
图1为本发明一种剧集在全网整体热度的量化计算方法流程图。
具体实施方式
[0053]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054]
本发明提供一种技术方案:
[0055]
一种剧集在全网整体热度的量化计算方法,包括以下步骤:
[0056]
s1、建立剧集全网热度量化算法的详细运行机制,主要针对电视剧(含网络剧)首播市场中的项目进行每日、每周、每月、每年的热度评价;
[0057]
s2、设定防作弊机制,具体步骤包括:
[0058]
s2.1、采用多个不同定位维度的互联网平台数据元素作为计算基础;
[0059]
s2.2、对来自单个平台的数据可信性采用了互相校核的方式;并设置了单一维度的热度非线性递增机制,对爆发式增长的潜在刷分嫌疑数据,不予采用;
[0060]
s2.3、对全部平台维度,考核其不平衡程度,并作为扣减打分的权重项;
[0061]
s2.4、对真人水军:考虑到绝大部分水军具有素质不高、并惯于片面采用大量固定词语的特征,根据自然语言分析技术,分析其语料丰富程度和语义的自然程度,以甄别真人水军,并对相关数据不予采用;
[0062]
s3、确定算法机制:单剧当日热度评分=f1+f2+f3+f4+f5+f6+f7+f8-f9;
[0063]
单剧当日热度评分=∑(f1+f2+f3+f4+f5+f6+f7+f8)-f9;
[0064]
其中,f1为搜索引擎热度+f2为短视频平台权重热度+f3为新闻媒体热度+f4为自媒体热度、f5为娱乐核心论坛关注热度、f6为社交平台热度、f7为即时通信平台热度、f8为下沉平台热度、f9为各大维度不平衡度。
[0065]
具体的,所述搜索引擎热度:
[0066]
f1=∑f1
×
k1+f2
×
k2+
…
+fn
×
kn;
[0067]
其中,k1,
……
kn表示该搜索引擎的市占比权重。k1
……
kn的选取,参考主流统计机构公开发布的最新时间周期的该搜索引擎的流量市占比。
[0068]
具体的,对单一搜索引擎内部:
[0069]
f1=p+if
×
t1(if》p)
[0070]
其中,本引擎限顶值p为对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,取指定概率到达的高值,目的是对超过限定值的数据,降低其增长速度;降速系数t1的选择,对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,通过降速系数的调制幅度后,让指定范围内的数据能控制在线性增长范围。
[0071]
具体的,f2(短视频平台热度)=f(主流短视频平台1)
×
k1+f(主流短视频平台2)
×
k2+
…
+f(主流短视频平台n)
×
kn
[0072]
其中,k1,
……
kn表示该短视频平台的市占比权重。
[0073]
k1
……
kn的选取,参考主流统计机构公开发布的最新时间周期的该短视频平台的流量市占比。
[0074]
对单一短视频平台内部:
[0075]
f(主流短视频平台1)=f(if([热度指标1]》本平台限顶值1,本平台限顶值+[热度指标1]/降速系数t1,[热度指标1]),
……
,if([热度指标n]》本平台限顶值n,本平台限顶值n+[热度指标n]/降速系数tn,[热度指标n])
[0076]
所述热度指标指的是:不同的短视频平台有不同的热度指标,主要包括单视频播放量、点赞数、转发数、评论数、弹幕数等,统称为热度指标1,热度指标2,
……
热度指标n;
[0077]
此类热度指标的特征是,直观,属于第一手可溯源数据,但有一定几率存在数据造假,需要进行数据比对和数据清洗;
[0078]
其中,本引擎限顶值1,
……
,n=对三年内电视剧项目在本短视频平台热度指标
1,
……
,热度指标n每日峰值分别进行排序,取指定概率到达的高值,目的是对超过限顶值的数据,降低其增长速度;
[0079]
降速系数t1,
……
,tn的选择,目标是,对三年内电视剧项目在本短视频平台热度指标1-n的每日峰值分别进行排序,通过降速系数1,
……
,n的调制幅度后,使得指定范围内的数据能控制在线性增长范围;
[0080]
对平台内的同个剧目项目的多个热度指标,在完成幅度调制后,还需要做防作弊处理:对同项目多个热度指标维度的交互特征进行考核,显著超过交互特征分布的数据,强行规置到交互特征分布以内。
[0081]
具体的,以剧集在某短视频平台的热度数据计算为例:
[0082]
计算用剧集原始数据包括:日期、当日浏览用户数(user_count)、当日浏览数(view_count),调制后用户数计算公式为:
[0083][0084]
单用户浏览数=v1/u1,其中:v1为调制后浏览数,
[0085]
每万浏览的用户粘性=u1/v1;
[0086]
f=min
(输出浏览数),
if
([单用户浏览数]>用户用户浏览常数,常数
×
[输出浏览数],[输出用户])
+min
(输出浏览数)
,if
([每万浏览的用户粘性]>用户用户粘性常
[0087]
其中,浏览特性与用户粘性的反复对比,用于防止作弊。
[0088]
具体的,媒体平台相对于短视频平台的主要差异特征是,没有播放量数据,但多数平台有文章篇数、文章点赞数、文章反对数、文章评论数等热度指标数据,通过对各大主流媒体平台的热度加权,得到剧集新闻媒体热度。
[0089]
由于主流新闻媒体平台具有核心价值引导特征,对于媒体平台的权重系数,不能直接按照该平台的流量权重取值,而要结合政府对媒体发布的等级目录(类似于论文的影响因子)确定权重。
[0090]
媒体的另一特征是引用转载情况,同一文章即使本平台阅读量不高,在多个平台或者多个账号被引用、化用等方式发布,仍然被认为是高权文章。
[0091]
因此,对文章要考察相似度,对相似度超过一定比例的文章,考察首发平台,给与首发平台更高的影响力赋权,并相应对该首发文章的热度数据加权。
[0092]
具体的,f5(娱乐核心论坛关注热度)=f(论坛热度关注)+f(论坛语料贡献)
[0093]
f(论坛热度关注)=f(提及该剧集项目的发贴量,回帖量,点赞数)
[0094]
热度指标包括:当日新增的发帖量、回帖量、点赞数;
[0095]
f=f1
×
权重1+f2
×
权重2+......+fn
×
权重n
[0096]
其中:f为论坛语料贡献,f1为提及该剧集项目的语料元素
[0097]
语料元素的来源,是对提及该电视剧项目的当日论坛语料在去重复后,进行自然语言分词,对挖掘到的命名主体数、其他名词数、动词数、形容词数、命名主题之间的关联关系数,分别作为语料元素指标,纳入计算。
[0098]
反作弊机制:
[0099]
典型的作弊方法包括:1、反复刷同样语料;2、带上剧集项目名称,刷一堆毫无关系的词典;3、带上剧集项目名称,贴小说或者新闻等无关语料;
[0100]
对命名主体数显著低于常规分布,或者核心命名主体之间的关联关系数显著低于常规分布的数据,按照常规分布进行规置幅度。
[0101]
具体的,即时通信平台具有数据相对保密的特点,露出的数据包括:即时通信平台自有的每日指数、平台媒体号及自媒体号文章的文章数、阅读量、点赞数的增量。f7(即时通信平台热度)=f(指数型热度)
×
权重系数1+f(文章型热度)
×
权重系数2
[0102]
f(指数型热度)算法参考f1,f(文章型热度)。
[0103]
具体的,f2(下沉平台热度)=(f(平台1)
×
k1+f(平台2)
×
k2+
…
+f(平台n)
×
kn)
×
(参与平台体量)。互联网中大量存在各类下沉平台,平台内的数据主要包括浏览数、转发数、评论数、点赞数、反对数等,平台内的算法参考f2
[0104]
平台权重k1
……
平台权重kn的选取,参考主流统计机构公开发布的最新时间周期的该搜索引擎的流量市占比。
[0105]
f8与f2的主要区别是,下沉平台往往相对零散,数据不完整,流量偏低,但分别代表着不同的受众和圈层,需要根剧参与平台体量,评估剧集在整个互联网的国民参与度。
[0106]
参与平台体量=f(k1,
……
,kn),同时考察数量与权重。
[0107]
作为优选的技术方案,用于防止作弊和控制置信度不足的突变量
[0108]
f9(各大维度不平衡度)=f1,f2,
……
,f8数据点与各自样本平均值偏差的平方和,具体公式为:
[0109]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
技术特征:
1.一种剧集在全网整体热度的量化计算方法,其特征在于:包括以下步骤:s1、建立剧集全网热度量化算法的详细运行机制,主要针对电视剧(含网络剧)首播市场中的项目进行每日、每周、每月、每年的热度评价;s2、设定防作弊机制,具体步骤包括:s2.1、采用多个不同定位维度的互联网平台数据元素作为计算基础;s2.2、对来自单个平台的数据可信性采用了互相校核的方式;并设置了单一维度的热度非线性递增机制,对爆发式增长的潜在刷分嫌疑数据,不予采用;s2.3、对全部平台维度,考核其不平衡程度,并作为扣减打分的权重项;s2.4、对真人水军:考虑到绝大部分水军具有素质不高、并惯于片面采用大量固定词语的特征,根据自然语言分析技术,分析其语料丰富程度和语义的自然程度,以甄别真人水军,并对相关数据不予采用;s3、确定算法机制:单剧当日热度评分=f1+f2+f3+f4+f5+f6+f7+f8-f9;单剧当日热度评分=∑(f1+f2+f3+f4+f5+f6+f7+f8)-f9;其中,f1为搜索引擎热度+f2为短视频平台权重热度+f3为新闻媒体热度+f4为自媒体热度、f5为娱乐核心论坛关注热度、f6为社交平台热度、f7为即时通信平台热度、f8为下沉平台热度、f9为各大维度不平衡度。2.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:所述搜索引擎热度f1=∑f1
×
k1+f2
×
k2+
…
+fn
×
kn;其中,k1,
……
kn表示该搜索引擎的市占比权重。k1
……
kn的选取,参考主流统计机构公开发布的最新时间周期的该搜索引擎的流量市占比。3.根据权利要求2所述的一种剧集在全网整体热度的量化计算方法,其特征在于:对单一搜索引擎内部:f1=p+if
×
t1(if>p)其中,本引擎限顶值p为对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,取指定概率内到达的高值,目的是对超过限定值的数据,降低其增长速度;降速系数t1的选择,对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,通过降速系数的调制幅度后,让指定范围比例的数据能控制在线性增长范围。4.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:所述热度指标指的是:不同的短视频平台有不同的热度指标,主要包括单视频播放量、点赞数、转发数、评论数、弹幕数等,统称为热度指标1,热度指标2,
……
热度指标n;此类热度指标的特征是,直观,属于第一手可溯源数据,但有一定几率存在数据造假,需要进行数据比对和数据清洗;其中,本引擎限顶值1,
……
,n=对三年内电视剧项目在本短视频平台热度指标1,
……
,热度指标n每日峰值分别进行排序,取指定概率到达的高值,目的是对超过限顶值的数据,降低其增长速度;降速系数t1,
……
,tn的选择,目标是,对三年内电视剧项目在本短视频平台热度指标1-n的每日峰值分别进行排序,通过降速系数1,
……
,n的调制幅度后,使得指定范围内的数据能控制在线性增长范围;
对平台内的同个剧目项目的多个热度指标,在完成幅度调制后,还需要做防作弊处理:对同项目多个热度指标维度的交互特征进行考核,显著超过交互特征分布的数据,强行规置到交互特征分布以内。5.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:以剧集在某短视频平台的热度数据计算为例:计算用剧集原始数据包括:日期、当日浏览用户数(user_count)、当日浏览数(view_count),调制后用户数计算公式为:单用户浏览数=v1/u1,其中:v1为调制后浏览数,每万浏览的用户粘性=u1/v1;f=min
(输出浏览数)
,if
([单用户浏览数]>用户浏览常数,常数
×
[输出浏览数],[输出用户])
+min
(输出浏览数)
,if
([每万浏览的用户粘性]>用户用户粘性常
其中,浏览特性与用户粘性的反复对比,用于防止作弊。6.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:媒体平台相对于短视频平台的主要差异特征是,没有播放量数据,但多数平台有文章篇数、文章点赞数、文章反对数、文章评论数等热度指标数据,通过对各大主流媒体平台的热度加权,得到剧集新闻媒体热度。7.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:f5(娱乐核心论坛关注热度)=f(论坛热度关注)+f(论坛语料贡献)f(论坛热度关注)=f(提及该剧集项目的发贴量,回帖量,点赞数)热度指标包括:当日新增的发帖量、回帖量、点赞数;f=f1
×
权重1+f2
×
权重2+......+fn
×
权重n其中:f为论坛语料贡献,f1为提及该剧集项目的语料元素;语料元素的来源,是对提及该电视剧项目的当日论坛语料在去重复后,进行自然语言分词,对挖掘到的命名主体数、其他名词数、动词数、形容词数、命名主题之间的关联关系数,分别作为语料元素指标,纳入计算。8.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:即时通信平台具有数据相对保密的特点,露出的数据包括:即时通信平台自有的每日指数、平台媒体号及自媒体号文章的文章数、阅读量、点赞数的增量。9.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:互联网中大量存在各类下沉平台,平台内的数据主要包括浏览数、转发数、评论数、点赞数、反对数等,平台内的算法参考f2平台权重k1
……
平台权重kn的选取,参考主流统计机构公开发布的最新时间周期的该搜索引擎的流量市占比。f8与f2的主要区别是,下沉平台往往相对零散,数据不完整,流量偏低,但分别代表着不同的受众和圈层,需要根剧参与平台体量,评估剧集在整个互联网的国民参与度。参与平台体量=f(k1,
……
,kn),同时考察数量与权重。10.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:用
于防止作弊和控制置信度不足的突变量f9(各大维度不平衡度)=f1,f2,
……
,f8数据点与各自样本平均值偏差的平方和,具体公式为:
技术总结
本发明公开了一种剧集在全网整体热度的量化计算方法,包括以下步骤:S1、建立剧集全网热度量化算法的详细运行机制;S2、设定防作弊机制,采用多个不同定位维度的互联网平台数据元素作为计算基础;并设置了单一维度的热度非线性递增机制;S3、确定算法机制,降低其增长速度;降速系数t1的选择,对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,通过降速系数的调制幅度后,让指定范围内的数据能控制在线性增长范围;通过多种类的热度指标数据,通过对各大主流媒体平台的热度加权,得到剧集新闻媒体热度,避免依赖于视频网站站内数据的问题,本专利申请的算法,已成功运行5年,基本解决了剧集数据跨平台的剧集热度可比、电视剧与网剧热度可比的问题。网剧热度可比的问题。网剧热度可比的问题。
技术研发人员:陈涛 王常桢 尚远
受保护的技术使用者:重庆德塔文科技有限责任公司
技术研发日:2022.12.02
技术公布日:2023/8/21
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
