榜单异常的处理方法及装置与流程
未命名
08-15
阅读:75
评论:0

1.本技术实施例涉及榜单信息处理的技术领域,尤其涉及一种榜单异常的处理方法及装置。
背景技术:
2.在信息过载的时代,推荐算法包括个性化推荐算法和个性化推荐系统,推荐算法还包括非个性化推荐,其典型应用场景就是各类榜单。非个性化推荐在互联网时代早期应用较多,但随着搜索引擎崛起,个性化推荐的场景增多,非个性化推荐场景逐渐被压缩。
3.目前非个性化推荐算法一般分为时间敏感算法、热度敏感算法或者两者混合。随着“热搜榜”或“排行榜”对上榜信息影响的逐渐增大,一些组织会处于利益的考虑对榜单进行“攻击”,影响排序算法和榜单的公平性,造成“榜单异常”的算法乱象。其中“榜单上下榜异常”作为“榜单异常”的一种会导致榜单公平性丧失的同时,也会影响榜单的公信力,影响平台效益。此外,过多的带有商业目的、娱乐炒作内容的上榜,也会影响用户的体验,对网络环境带来不良影响。
4.目前针对排序精选类问题中涉及到“榜单上下榜异常”的研究还比较少,大多数研究仅针对某一话题进行榜单跟踪研究,或者针对榜单中可能存在的干预进行统计和发现,大部分针对榜单内的某类内容如某类话题、社交机器人进行深入分析,对于榜单本身的研究停留在统计分析、榜单有效性验证等方面。
技术实现要素:
5.鉴于此,为解决上述缺少对榜单上下榜异常的检测和治理的技术问题,本技术实施例提供一种榜单异常的处理方法及装置。
6.第一方面,本技术实施例提供一种榜单异常的处理方法,包括:获取目标榜单信息,并按照设定的检测方法对所述目标榜单信息进行异常检测,得到对应的异常检测结果;将所述异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出所述异常样本信息对应的在榜时长;根据所述在榜时长确定反馈调节策略;基于所述反馈调节策略执行对所述异常在榜信息的处理。
7.在一个可能的实施方式中,所述按照设定的检测方法对所述目标榜单信息进行异常检测,包括:按照设定的检测规则对所述目标榜单信息进行异常检测;和/或,按照设定的检测模型对所述目标榜单信息进行异常检测。
8.在一个可能的实施方式中,所述按照设定的检测规则对所述目标榜单信息进行异常检测,包括:
按照设定的第一检测规则对所述目标榜单信息进行在榜位置变动幅度检测;和,按照设定的第二检测规则对所述目标榜单信息进行相同位置在榜时长检测;和,按照设定的第三检测规则对所述目标榜单信息进行热度排名一致性检测;和,按照设定的第四检测规则对所述目标榜单信息进行主榜副榜异常检测。
9.在一个可能的实施方式中,所述按照设定的检测模型对所述目标榜单信息进行异常检测,包括:获取所述目标榜单信息对应的目标特征;将所述目标特征输入预先训练好的随机森林分类模型中进行异常检测。
10.在一个可能的实施方式中,所述得到对应的异常检测结果,包括:在按照所述检测规则检测到异常样本信息时,得到对应的规则异常结果;在按照所述检测规则未检测到异常样本信息时,得到对应的规则正常结果;和/或,在按照所述检测模型检测到异常样本信息时,得到对应的分类异常结果;在按照所述检测模型未检测到异常样本信息时,得到对应的分类正常结果。
11.在一个可能的实施方式中,所述将所述异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出所述异常样本信息对应的在榜时长,包括:获取所述异常样本信息的异常样本特征;将所述异常样本特征输入到预先训练好的预估模型中进行加权最小二乘法的回归处理,得到异常在榜时长。
12.在一个可能的实施方式中,所述根据所述在榜时长确定反馈调节策略,包括:根据所述异常样本信息确定对应的正常样本信息;将所述异常样本信息和所述正常样本信息输入到所述预估模型中确定时长增益;根据所述异常样本信息的在榜时长和对应的所述时长增益确定反馈调节参数;在所述反馈调节参数大于设定的参数阈值时,确定升序反馈调节策略;在所述反馈调节参数小于设定的参数阈值时,确定降序反馈调节策略。
13.在一个可能的实施方式中,所述基于所述反馈调节策略执行对所述异常样本信息的处理,包括:基于升序反馈调节策略,对所述异常样本信息的在榜位置按照所述反馈调节参数进行提权处理;基于所述降序反馈调节策略,对所述异常样本信息的在榜位置按照所述反馈调节参数进行降权处理。
14.在一个可能的实施方式中,在获取目标榜单信息对应的目标特征之前,所述方法,还包括:获取历史榜单信息,以及获取所述历史榜单信息对应的历史榜单特征;基于所述历史榜单信息设定的检测规则搭建规则检测工具,以及基于所述历史榜单特征搭建模型检测工具;
基于所述模型检测工具和所述规则检测工具对所述历史榜单信息进行异常检测,得到历史异常结果;将所述历史异常结果对应的历史异常信息输入预训练模型进行预训练,得到训练好的预估模型。
15.第二方面,本技术实施例提供一种榜单异常的处理装置,包括:异常检测模块,用于获取目标榜单信息,并按照设定的检测方法对所述目标榜单信息进行异常检测,得到对应的异常检测结果;评估模块,用于将所述异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出所述异常样本信息对应的在榜时长;确定模块,用于根据所述在榜时长确定反馈调节策略;处理模块,用于基于所述反馈调节策略执行对所述异常在榜信息的处理。
16.本技术实施例提供的榜单异常的处理方案,通过获取目标榜单信息,并按照设定的检测方法对所述目标榜单信息进行异常检测,得到对应的异常检测结果;将所述异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出所述异常样本信息对应的在榜时长;根据所述在榜时长确定反馈调节策略;基于所述反馈调节策略执行对所述异常在榜信息的处理。通过创建榜单异常的检测工具,能够检测出每个榜单信息中存在的异常样本信息,再通过设定的反馈调节策略对异常样本信息进行处理,达到治理异常榜单信息的目的;由本方案,可以实现利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
18.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
20.图1为本技术实施例提供的一种榜单异常的处理方法的流程示意图;图2为本技术实施例提供的另一种榜单异常的处理方法的流程示意图;图3为本技术实施例提供的又一种榜单异常的处理方法的流程示意图;图4为本技术实施例提供的一种榜单异常检测方法的流程示意图;图5为本技术实施例提供的一种榜单异常的预估模型的流程示意图;图6为本技术实施例提供的一种榜单异常的治理方法的流程示意图;图7为本技术实施例提供的一种榜单异常的处理装置的结构示意图图8为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
21.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
22.本技术实施例中的用语“包括”和“具有”用以表示开放式的包括在内的意思,并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”和“第二”等仅作为标记使用,不是对其对象的数量限制。此外,附图中的不同元件和区域只是示意性示出,因此本技术不限于附图中示出的尺寸或距离。
23.为便于对本技术实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本技术实施例的限定。
24.图1为本技术实施例提供的一种榜单异常的处理方法的流程示意图。应用于异常榜单信息的检测和治理过程。根据图1提供的示图,榜单异常的处理方法具体包括:s101、获取目标榜单信息,并按照设定的检测方法对目标榜单信息进行异常检测,得到对应的异常检测结果。
25.本技术应用于检测异常榜单信息,并对异常榜单信息进行有效治理。按照设定的检测规则或检测模型搭建榜单信息的异常检测工具,首先对目标榜单信息进行异常检测,将目标榜单信息中的异常样本信息检测出来;在利用预先训练好的预估模型对异常样本信息的在榜时长进行预估,根据在榜时长进一步推算调节参数,根据调节参数确定反馈调节策略,根据不同的反馈调节策略对异常样本信息所在榜单的排列位置进行有效调节,达到利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。
26.这里说的目标榜单信息可以理解为指定排行榜单,包括排行榜单中排序的每一条新闻的样本信息。这里说的检测方法可以理解为搭建的异常检测工具。这里说的异常检测可以理解为针对目标榜单信息中的相同位置在榜时长、在榜位置变动幅度、热度排名一致性和主榜副榜异常等方面的检测分析。这里说的异常检测结果可以理解为针对检测工具得到的目标榜单信息中的异常样本信息。
27.进一步地,首先下载或读取准备检测的目标榜单信息,按照设定的检测工具对目标榜单信息进行异常检测,分析目标榜单信息内包含的全部样本信息是否存在刷榜、异常炒作等行为,对目标榜单信息进行异常检测,将检测到的异常样本信息作为异常检测结果输出,进而通过设定的检测工具得到目标榜单信息中包含的异常样本信息,为下一步调节异常样本信息做准备。
28.s102、将异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出异常样本信息对应的在榜时长。
29.这里说的异常样本信息可以理解为目标榜单信息中存在异常情况的新闻信息。这里说的预估模型可以理解为预测榜单信息中的每一条新闻的在榜时长的模型。这里说的在榜时长可以理解为目标榜单信息中的每一条新闻信息作为位置上对应设置的停留时间。
30.进一步地,在得到异常检测结果后,利用预先训练搭建好的预估模型对异常样本信息进行预测,得到异常样本信息预测的在榜时长,作为下一步确定调节策略的数据依据。
31.s103、根据在榜时长确定反馈调节策略。
32.这里说的反馈调节策略可以理解为针对异常样本信息的整顿或维护策略。
33.进一步地,根据异常样本信息预测得到的在榜时长的大小不同,于与正常样本信息对应的在榜时长进行比较,二者差值越大表征样本信息偏离正常排行位置越远,根据位置调整幅度的大小不同确定反馈调节策略。
34.s104、基于反馈调节策略执行对异常在榜信息的处理。
35.这里说的处理可以理解为超出正常排序位置的位置调节操作。
36.进一步地,根据不同的位置调节程度,分成不同的反馈调节策略,根据降序调节策略对异常样本信息作为排行位置进行降权处理;根据升序调节策略对异常样本信息作为排行位置进行提权处理,进而改变异常样本信息由于各种原因导致的目标榜单信息不公平问题,由此可以实现利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。
37.本技术实施例提供的榜单异常的处理方法,通过获取目标榜单信息,并按照设定的检测方法对目标榜单信息进行异常检测,得到对应的异常检测结果;将异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出异常样本信息对应的在榜时长;根据在榜时长确定反馈调节策略;基于反馈调节策略执行对异常在榜信息的处理。通过创建榜单异常的检测工具,能够检测出每个榜单信息中存在的异常样本信息,再通过设定的反馈调节策略对异常样本信息进行处理,达到治理异常榜单信息的目的;由本方案,可以实现利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。
38.图2为本技术实施例提供的另一种榜单异常的处理方法的流程示意图。应用于异常榜单信息的检测和治理过程。图2是在上一种实施例的基础上进行介绍的。根据图2提供的示图,榜单异常的处理方法具体还包括:s201、获取目标榜单信息,按照设定的检测规则对目标榜单信息进行异常检测。
39.s202、获取目标榜单信息,按照设定的检测模型对目标榜单信息进行异常检测。
40.本技术应用于检测异常榜单信息,并对异常榜单信息进行有效治理。按照设定的检测规则或检测模型搭建榜单信息的异常检测工具,首先对目标榜单信息进行异常检测,将目标榜单信息中的异常样本信息检测出来;在利用预先训练好的预估模型对异常样本信息的在榜时长进行预估,根据在榜时长进一步推算调节参数,根据调节参数确定反馈调节策略,根据不同的反馈调节策略对异常样本信息所在榜单的排列位置进行有效调节,达到利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。
41.这里说的目标榜单信息可以理解为指定排行榜单,包括排行榜单中排序的每一条新闻的样本信息。例如,微博主榜单或娱乐榜单。这里说的检测规则可以理解为搭建异常检测工具中规定的检测项目或检测内容。这里说的检测模型可以理解为搭建异常检测工具中创建的分类检测或筛选模型。这里说的异常检测可以理解为针对目标榜单信息中的相同位置在榜时长、在榜位置变动幅度、热度排名一致性和主榜副榜异常等方面的检测分析。
42.进一步地,首先下载或读取准备检测的目标榜单信息,按照设定的检测规则或检测模型对目标榜单信息分别进行异常检测,分析目标榜单信息内包含的全部样本信息是否
存在刷榜、异常炒作等行为,对目标榜单信息进行异常检测。
43.可选地,还可以设定一些豁免规则,如“突发爆款事件豁免”等,针对一些国际政治突发热点事件设定特权,免除异常检测过程。
44.s203、按照设定的第一检测规则对目标榜单信息进行在榜位置变动幅度检测。
45.s204、按照设定的第二检测规则对目标榜单信息进行相同位置在榜时长检测。
46.s205、按照设定的第三检测规则对目标榜单信息进行热度排名一致性检测。
47.s206、按照设定的第四检测规则对目标榜单信息进行主榜副榜异常检测。
48.进一步地,按照目标榜单信息存在的一些榜单乱象,可以设定在榜位置变动幅度检测,例如,设定检测一分钟内某条新闻对应的样本信息的在榜位置上下超过8位以上设定为异常样本信息;或者设定相同位置在榜时长检测,例如,检测最近24小时内新闻对应的样本信息在榜单相同位置固定1小时以上的情况判定为异常样本信息;或者可以设定热度排名一致性检测,通过热度变化曲线和排名变化曲线存在显著反差对目标榜单信息中的每一条新闻信息进行检测;或者利用主榜副榜异常检测,例如,检测微博主榜和娱乐热榜中相同两个热搜排序是否一致,如果出现不一致情况,则判定对应的新闻信息为异常样本信息,通过多种角度设定检测规则,对目标榜单信息进行全方位的异常检测。
49.s207、获取目标榜单信息对应的目标特征。
50.s208、将目标特征输入预先训练好的随机森林分类模型中进行异常检测。
51.进一步地,按照目标榜单信息存在的一些榜单乱象,可以设定上榜前发酵时间、上榜时间点、上榜轨迹、上榜位置变动幅度、上榜时长等多维显性构造特征作为目标特征,结合已检测到的异常负样本,将提取到的目标特征输入到随机森林分类模型中,对目标榜单信息中的每一天新闻信息的类别进行分类处理,实现基于检测模型对目标榜单信息的异常检测。
52.s209、在按照检测规则检测到异常样本信息时,得到对应的规则异常结果。
53.s210、在按照检测规则未检测到异常样本信息时,得到对应的规则正常结果。
54.这里说的异常检测结果可以理解为针对检测工具得到的目标榜单信息中存在的异常样本信息。
55.进一步地,根据设定的检测规则对目标榜单信息进行异常检测,判断目标榜单信息包含的样本信息是否存在异常排行现象,当检测到异常样本信息时,将检测结果标记为规则异常结果,为下一步调节异常样本信息做准备;当未检测到异常样本信息时,表征当前目标榜单信息中不存在榜单异常现象,将检测结果标记为规则正常结果。
56.s211、在按照检测模型检测到异常样本信息时,得到对应的分类异常结果。
57.s212、在按照检测模型未检测到异常样本信息时,得到对应的分类正常结果。
58.进一步地,根据设定的检测模型对目标榜单信息进行异常检测,判断目标榜单信息包含的样本信息是否存在异常排行现象,当检测到异常样本信息时,将检测结果标记为分类异常结果,为下一步调节异常样本信息做准备;当未检测到异常样本信息时,表征当前目标榜单信息中不存在榜单异常现象,将检测结果标记为分类正常结果,不会对目标榜单信息进行处理。
59.s213、将异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出异常样本信息对应的在榜时长。
60.这里说的异常样本信息可以理解为目标榜单信息中存在异常情况的新闻信息。这里说的预估模型可以理解为预测目标榜单信息中的每一条新闻的在榜时长的模型。这里说的在榜时长可以理解为目标榜单信息中的每一条新闻信息作为位置上对应设置的停留时间。
61.进一步地,在得到异常检测结果后,利用预先训练搭建好的预估模型对异常样本信息进行预测,得到异常样本信息预测的在榜时长,作为下一步确定调节策略的数据依据。
62.s214、根据在榜时长确定反馈调节策略。
63.这里说的反馈调节策略可以理解为针对异常样本信息的整顿或维护策略。
64.进一步地,根据异常样本信息预测得到的在榜时长的大小不同,与正常样本信息对应的在榜时长进行比较,二者差值越大表征样本信息偏离正常排行位置越远,根据位置调整幅度的大小不同确定反馈调节策略。
65.s215、基于反馈调节策略执行对异常在榜信息的处理。
66.这里说的处理可以理解为超出正常排序位置的位置调节操作。例如,针对在榜位置提升速度较快的异常现象进行调节,或针对在榜位置下降速度较快的异常现象进行调节。
67.进一步地,根据不同的位置调节程度,分成不同的反馈调节策略,根据降序调节策略对异常样本信息作为排行位置进行下降处理;根据升序调节策略对异常样本信息作为排行位置进行提升处理,进而改变异常样本信息由于各种原因导致的目标榜单信息不公平问题,由此可以实现利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。
68.本技术提供的另一种榜单异常的处理方法,通过设定不同的检测规则和检测模型,对目标榜单信息进行多方位的检测,得到异常样本信息,在对异常样本信息输入到预测在榜时长的预估模型中,根据特征数据预测异常样本信息的在榜时长,根据在榜时长确定调节参数,利用调节参数的不同设定不同的反馈调节策略,基于反馈调节策略执行对异常在榜信息的处理,根据降序调节策略对异常样本信息作为排行位置进行下降处理;根据升序调节策略对异常样本信息作为排行位置进行提升处理,进而改变异常样本信息由于各种原因导致的目标榜单信息不公平问题,由此可以实现利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。
69.图3为本技术实施例提供的又一种榜单异常的处理方法的流程示意图。应用于异常榜单信息的检测和治理过程。图3是在第一种实施例的基础上进行介绍的。根据图3提供的示图,榜单异常的处理方法具体还包括:s301、获取历史榜单信息,以及获取历史榜单信息对应的历史榜单特征。
70.这里说的历史榜单信息可以理解为搭建检测工具和训练预估模型的训练样本。这里说的历史榜单信息可以为积累一定时间后获取到的全部榜单信息,达到训练样本数量达到训练模型的目的。
71.这里说的历史榜单特征可以理解为用于检测异常样本信息的检测数据,例如,历史榜单信息中包含的在榜位置变动幅度、相同位置在榜时长、热度排名一致性、主榜副榜异常、突发爆款事件豁免、上榜前发酵时间、上榜时间点、上榜轨迹、上榜位置变动幅度、上榜时长等多维显性构造特征。
72.进一步地,在对目标榜单信息进行异常检测之前,利用积累的历史榜单信息搭建检测工具和预估模型。首先获取到积累的历史榜单信息,在提取历史榜单信息中包含的全部的历史榜单特征,为下一步检测历史榜单信息做准备。
73.s302、基于历史榜单信息设定的检测规则搭建规则检测工具,以及基于历史榜单特征搭建模型检测工具。
74.s303、基于模型检测工具和规则检测工具对历史榜单信息进行异常检测,得到历史异常结果。
75.按照设定的检测规则和检测模型搭建检测工具,并将得到的历史榜单信息进行异常检测,得到历史异常结果,为下一步训练预估模型提供训练负样本和特征数据。结合已检测到的历史异常结果对应的异常负样本,训练基于随机森林的分类判别模型。由此形成了一批针对乱象的检测工具,并累积乱象负样本供其他模型使用。
76.可选地,还包含一些豁免规则,如“突发爆款事件豁免”等,针对一些国际政治突发热点事件设定特权,免除异常检测过程。
77.在一种可能的实力场景中,图4为本技术实施例提供的一种榜单异常检测方法的流程示意图。根据图4提供的示图,通过规则提取和算法模型形成了多种针对榜单上下榜异常的检测工具。如图4所示,基于规则的检测方法包括:在榜位置变动幅度检测(如一分钟内位置上下超过8位以上)、相同位置在榜时长检测(如最近24小时内信息在榜单相同位置固定1小时以上)、热度排名一致性检测(如热度变化曲线和排名变化曲线存在显著反差)、主榜副榜异常检测(如微博主榜和娱乐热榜中相同两个热搜排序不一致)等,同时还包含一些豁免规则,如针对突发爆款事件豁免等;基于模型的检测方法是根据上榜前发酵时间、上榜时间点、上榜轨迹、上榜位置变动幅度、上榜时长等多维显性构造特征,结合已检测到的异常负样本,训练基于随机森林的分类判别模型。由此形成针对乱象的检测工具,并累积乱象负样本供其他模型使用。
78.s304、将历史异常结果对应的历史异常信息输入预训练模型进行预训练,得到训练好的预估模型。
79.基于榜单信息特征和累积的异常负样本,形成了预估模型。基于首次上榜位置、上榜最高位置、上榜前发酵时间、上榜时长等特征,结合加权最小二乘法进行回归,构造一个在榜时长的预估模型,可以预估当前特征下新闻信息在榜的大概时间。
80.s305、获取目标榜单信息,并按照设定的检测方法对目标榜单信息进行异常检测,得到对应的异常检测结果。
81.进一步地,首先下载或读取准备检测的目标榜单信息,按照训练好的检测工具对目标榜单信息进行异常检测,分析目标榜单信息内包含的全部样本信息是否存在刷榜、异常炒作等行为,对目标榜单信息进行异常检测,将检测到的异常样本信息作为异常检测结果输出,进而通过设定的检测工具得到目标榜单信息中包含的异常样本信息,为下一步调节异常样本信息做准备。
82.s306、获取异常样本信息的异常样本特征。
83.s307、将异常样本特征输入到预先训练好的预估模型中进行加权最小二乘法的回归处理,得到异常在榜时长。
84.利用训练好的预估模型,对检测到的异常样本信息提取异常样本特征,将异常样
本特征输入到预先训练好的预估模型中,利用加权最小二乘法的回归处理算法,推测异常样本信息可能在榜的异常在榜时长,为下一步调节异常样本信息的在榜位置提供参考数据。
85.s308、根据异常样本信息确定对应的正常样本信息。
86.s309、将异常样本信息和正常样本信息输入到预估模型中确定时长增益。
87.s310、根据异常样本信息的在榜时长和对应的时长增益确定反馈调节参数。
88.对于异常负样本的异常特征,基于特征的上限重新构造正常样本信息,相同新闻信息的正常样本和异常负样本共同输入在榜时长模型预估异常现象的停留时长增益,并量化出具体参数,作为后续治理的依据。
89.在一种可能的实例场景中,通过微博主榜单中的排序前50名进行异常检测,当利用检测工具检测到存在一条新闻存在异常现象时,例如,检测到此条新闻存在短时间内排行位置从50名位置跃升到第1名位置,针对每个排名位置对应一个在榜时长,位置不同设定的在榜时长不同,假设设定第一位置的在榜时长为3天,而第50名位置对应的在榜时长正常设定时长为1天,根据预估模型对此条新闻进行预测在榜时长得到预测时长为3天,对比发生异常之前的第50名位置的正常情况下的在榜时长进行求差值得到2天,即异常上升行为为该新闻带来2天的在榜时长增益,反馈调节权重可以参考时长增益的倒数1/2,为下一步调节异常新闻的在榜位置提供参考依据。
90.在一种可能的实力场景中,图5为本技术实施例提供的一种榜单异常的预估模型的流程示意图。根据图5提供的示图,基于榜单信息特征和累积的负样本(检测到的异常样本信息),形成了预测在榜时长的预估模型。如图5所示,基于首次上榜位置、上榜最高位置、上榜前发酵时间、上榜时长等特征,结合加权最小二乘法进行回归,构造一个预测异常样本信息的在榜时长的预估模型,可以预估当前特征下异常样本信息的在榜的大概时间。对于负样本(检测到的异常样本信息)的异常特征,基于特征的上限重新构造正样本(异常样本信息对应的正常情况下的样本信息),相同词条的正样本和负样本共同输入在榜时长的预估模型中预估异常带来的停留时长增益,并量化出具体参数,得到反馈调节参数,作为后续治理的依据。
91.s311、在反馈调节参数大于设定的参数阈值时,确定升序反馈调节策略。
92.s312、在反馈调节参数小于设定的参数阈值时,确定降序反馈调节策略。
93.这里说的参数阈值可以理解为表征异常样本信息的在榜位置进行上下调节的临界值。例如,设定参数阈值为1,反馈调节参数小于1的异常样本信息判定为存在故意炒作刷榜行为,反馈调节参数大于1的异常样本信息判定为存在恶意打压行为。当调节参数等于设定的参数阈值时,判定新闻样本正常,对新闻样本的在榜位置不做任何反馈调节处理。这里说的升序反馈调节策略可以理解为针对异常样本信息存在恶意打压行为的情况进行的调节治理措施。这里说的降序反馈调节策略可以理解为针对异常样本信息存在故意炒作刷榜行为的情况进行的调节治理措施。
94.进一步地,在利用预估模型进行预测异常样本信息的在榜时长后,利用异常样本信息的负样本信息和对应推断出的正样本信息得到反馈调节参数,判断反馈调节参数的大小,进而判断对异常样本信息进行有效调节治理的措施。在异常样本信息存在恶意打压行为的情况,利用升序反馈调节策略的在榜单位置进行调节治理。在异常样本信息存在故意
炒作刷榜行为的情况,利用降序反馈调节策略对异常样本信息的在榜单位置进行的调节治理。
95.s313、基于升序反馈调节策略,对异常样本信息的在榜位置按照反馈调节参数进行提权处理。
96.s314、基于降序反馈调节策略,对异常样本信息的在榜位置按照反馈调节参数进行降权处理。
97.这里说的提权处理可以理解为对异常样本信息的在榜位置进行提升恢复的处理过程。这里说的降权处理可以理解为对异常样本信息的在榜位置进行下降打击的处理过程。
98.进一步地,在触发反馈调节机制后,根据升序反馈调节策略,对异常样本信息存在恶意打压行为的情况,执行对异常样本信息的在榜位置按照调节参数进行响应上升的调节,使得原本异常样本信息由于恶意打压行为而降低了在榜位置的状态得到改善,将当前在榜位置提升到更高前的位置。根据降序反馈调节策略,对异常样本信息存在故意炒作刷榜行为的情况,执行对异常样本信息的在榜位置按照调节参数进行响应下降的调节,使得原本异常样本信息由于故意炒作刷榜行为而突然飙升到很高的位置的状态得到改善,将当前在榜位置降低到接近原来正常情况,或第一正常情况时的位置,以达到对刷榜行为打压处理。
99.可选地,在升序反馈调节策略过程中,可以分析对应调节参数与第二参数阈值的大小,来划分异常样本信息的在榜位置的调节程度。例如,设定第二参数阈值为2,当调节参数为1.5时,大于设定的参数阈值1确定执行升序反馈调节策略,然后将调节参数与第二参数阈值进行进一步比较,确定调节程度,因为1.5《2,判定反馈调节程度为低档位调节,利用调节参数对异常样本信息的在榜位置进行小程度的提升在榜位置;假设当得到的调节参数为5时,因为5》2,判定反馈调节程度为高档位调节,利用调节参数对异常样本信息的在榜位置进行大程度的提升在榜位置。
100.可选地,在降序反馈调节策略过程中,可以分析对应调节参数与第三参数阈值的大小,来划分异常样本信息的在榜位置的调节程度。例如,设定第二参数阈值为0.5,当调节参数为0.8时,小于设定的参数阈值1确定执行降序反馈调节策略,然后将调节参数与第三参数阈值进行进一步比较,确定调节程度,因为0.8》0.5,更接近于参考阈值1,判定反馈调节程度为低档位调节,利用调节参数对异常样本信息的在榜位置进行小程度的降低在榜位置;假设当得到的调节参数为0.2时,因为0.2《0.5,更远离参考阈值1,判定反馈调节程度为高档位调节,利用调节参数对异常样本信息的在榜位置进行大程度的降低在榜位置。当调节参数等于设定的参数阈值时,判定新闻样本正常,对新闻样本的在榜位置不做任何反馈调节处理。
101.在一种可能的实力场景中,图6为本技术实施例提供的一种榜单异常的治理方法的流程示意图。根据图6提供的示图,基于前两种异常检测工具和预估模型构建针对榜单上下榜异常乱象的监测、报警、调节通路,形成“强机审、弱人审”的治理机制。如图6所示,首先通过异常检测工具进行监测,得到对应的异常检测结果,先机器审核,确定调节参数,反馈到人工审核,如果命中人工豁免规则,自动执行调节,如果没命中,需要人工复审,通过后反馈调节。通过人工审核可以预先设定一些豁免规则,从而极大减少人工参与,对于重点事件
进行少量人工复核即可。机器审核通过预估模型对异常的影响进行评估,对于产生显著影响的异常会重点标注,并触发反馈调节机制,通过调节参数对异常样本信息进行适当降权或提权,调节和平衡该异常样本信息在榜的位置,保证榜单的公平性和稳定性。
102.本技术实施例提供的有一种榜单异常的处理方法,通过利用历史榜单信息搭建异常监测工具,同时训练预测时长的预估模型,得到训练好的预估模型;在对目标榜单信息进行异常监测,并将监测到的异常样本信息输入到预估模型中,预测到异常样本信息对应的在榜时长,进而得到调节参数大小,根据调节参数大小确定调节策略,利用不同的策略对异常样本信息的在榜位置进行降权或提权处理,进而调节和平衡该异常样本信息在榜的位置,保证榜单的公平性和稳定性,从而实现利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。
103.图7为本技术实施例提供的一种榜单异常的处理装置的结构示意图。应用于异常榜单信息的检测和治理过程。根据图7提供的示图,榜单异常的处理装置具体包括:异常检测模块71,用于获取目标榜单信息,并按照设定的检测方法对目标榜单信息进行异常检测,得到对应的异常检测结果;评估模块72,用于将异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出异常样本信息对应的在榜时长;确定模块73,用于根据在榜时长确定反馈调节策略;处理模块74,用于基于反馈调节策略执行对异常在榜信息的处理。
104.本实施例提供的榜单异常的处理装置可以是如图7中所示的榜单异常的处理装置,可执行如图1-6中榜单异常的处理方法的所有步骤,进而实现图1-6所示榜单异常的处理方法的技术效果,具体请参照图1-6相关描述,为简洁描述,在此不作赘述。
105.图8为本技术实施例提供的一种电子设备的结构示意图,图8所示的电子设备800包括:至少一个处理器801、存储器802、至少一个网络接口804和其他用户接口803。电子设备800中的各个组件通过总线系统805耦合在一起。可理解,总线系统805用于实现这些组件之间的连接通信。总线系统805除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图8中将各种总线都标为总线系统805。
106.其中,用户接口803可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
107.可以理解,本技术实施例中的存储器802可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器 (programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本文描述的存储器802旨在包括但不限于这些和任意其它适合类型的
存储器。
108.在一些实施方式中,存储器802存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统8021和应用程序8022。
109.其中,操作系统8021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序8022,包含各种应用程序,例如媒体播放器(media player)、浏览器(browser)等,用于实现各种应用业务。实现本技术实施例方法的程序可以包含在应用程序8022中。
110.在本技术实施例中,通过调用存储器802存储的程序或指令,具体的,可以是应用程序8022中存储的程序或指令,处理器801用于执行各方法实施例所提供的方法步骤,例如包括:获取目标榜单信息,并按照设定的检测方法对目标榜单信息进行异常检测,得到对应的异常检测结果;将异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出异常样本信息对应的在榜时长;根据在榜时长确定反馈调节策略;基于反馈调节策略执行对异常在榜信息的处理。
111.上述本技术实施例揭示的方法可以应用于处理器801中,或者由处理器801实现。处理器801可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器801中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器801可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器802,处理器801读取存储器802中的信息,结合其硬件完成上述方法的步骤。
112.可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(application specific integrated circuits,asic)、数字信号处理器(digital signal processing,dsp)、数字信号处理设备(dspdevice,dspd)、可编程逻辑设备(programmable logic device,pld)、现场可编程门阵列(field-programmable gate array,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本技术所述功能的其它电子单元或其组合中。
113.对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
114.本实施例提供的电子设备可以是如图8中所示的电子设备,可执行如图1-6中榜单异常的处理方法的所有步骤,进而实现图1-6所示榜单异常的处理方法的技术效果,具体请参照图1-6相关描述,为简洁描述,在此不作赘述。
115.本技术实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存
储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
116.当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在榜单异常的处理设备侧执行的榜单异常的处理方法。
117.所述处理器用于执行存储器中存储的榜单异常的处理程序,以实现以下在榜单异常的处理设备侧执行的榜单异常的处理方法的步骤:获取目标榜单信息,并按照设定的检测方法对目标榜单信息进行异常检测,得到对应的异常检测结果;将异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出异常样本信息对应的在榜时长;根据在榜时长确定反馈调节策略;基于反馈调节策略执行对异常在榜信息的处理。
118.专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
119.结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
120.以上所述的具体实施方式,对本技术的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本技术的具体实施方式而已,并不用于限定本技术的保护范围,凡在本技术的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:
1.一种榜单异常的处理方法,其特征在于,包括:获取目标榜单信息,并按照设定的检测方法对所述目标榜单信息进行异常检测,得到对应的异常检测结果;将所述异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出所述异常样本信息对应的在榜时长;根据所述在榜时长确定反馈调节策略;基于所述反馈调节策略执行对所述异常在榜信息的处理。2.根据权利要求1所述的方法,其特征在于,所述按照设定的检测方法对所述目标榜单信息进行异常检测,包括:按照设定的检测规则对所述目标榜单信息进行异常检测;和/或,按照设定的检测模型对所述目标榜单信息进行异常检测。3.根据权利要求2所述的方法,其特征在于,所述按照设定的检测规则对所述目标榜单信息进行异常检测,包括:按照设定的第一检测规则对所述目标榜单信息进行在榜位置变动幅度检测;和,按照设定的第二检测规则对所述目标榜单信息进行相同位置在榜时长检测;和,按照设定的第三检测规则对所述目标榜单信息进行热度排名一致性检测;和,按照设定的第四检测规则对所述目标榜单信息进行主榜副榜异常检测。4.根据权利要求2所述的方法,其特征在于,所述按照设定的检测模型对所述目标榜单信息进行异常检测,包括:获取所述目标榜单信息对应的目标特征;将所述目标特征输入预先训练好的随机森林分类模型中进行异常检测。5.根据权利要求3或4所述的方法,其特征在于,所述得到对应的异常检测结果,包括:在按照所述检测规则检测到异常样本信息时,得到对应的规则异常结果;在按照所述检测规则未检测到异常样本信息时,得到对应的规则正常结果;和/或,在按照所述检测模型检测到异常样本信息时,得到对应的分类异常结果;在按照所述检测模型未检测到异常样本信息时,得到对应的分类正常结果。6.根据权利要求1所述的方法,其特征在于,所述将所述异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出所述异常样本信息对应的在榜时长,包括:获取所述异常样本信息的异常样本特征;将所述异常样本特征输入到预先训练好的预估模型中进行加权最小二乘法的回归处理,得到异常在榜时长。7.根据权利要求6所述的方法,其特征在于,所述根据所述在榜时长确定反馈调节策略,包括:
根据所述异常样本信息确定对应的正常样本信息;将所述异常样本信息和所述正常样本信息输入到所述预估模型中确定时长增益;根据所述异常样本信息的在榜时长和对应的所述时长增益确定反馈调节参数;在所述反馈调节参数大于设定的参数阈值时,确定第一升序反馈调节策略;在所述反馈调节参数小于设定的参数阈值时,确定降序反馈调节策略。8.根据权利要求7所述的方法,其特征在于,所述基于所述反馈调节策略执行对所述异常样本信息的处理,包括:基于升序反馈调节策略,对所述异常样本信息的在榜位置按照所述反馈调节参数进行提权处理;基于所述降序反馈调节策略,对所述异常样本信息的在榜位置按照所述反馈调节参数进行降权处理。9.根据权利要求1所述的方法,其特征在于,在获取目标榜单信息对应的目标特征之前,所述方法,还包括:获取历史榜单信息,以及获取所述历史榜单信息对应的历史榜单特征;基于所述历史榜单信息设定的检测规则搭建规则检测工具,以及基于所述历史榜单特征搭建模型检测工具;基于所述模型检测工具和所述规则检测工具对所述历史榜单信息进行异常检测,得到历史异常结果;将所述历史异常结果对应的历史异常信息输入预训练模型进行预训练,得到训练好的预估模型。10.一种榜单异常的处理装置,其特征在于,包括:异常检测模块,用于获取目标榜单信息,并按照设定的检测方法对所述目标榜单信息进行异常检测,得到对应的异常检测结果;评估模块,用于将所述异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出所述异常样本信息对应的在榜时长;确定模块,用于根据所述在榜时长确定反馈调节策略;处理模块,用于基于所述反馈调节策略执行对所述异常在榜信息的处理。
技术总结
本申请实施例涉及一种榜单异常的处理方法及装置,所述方法包括:获取目标榜单信息,并按照设定的检测方法对目标榜单信息进行异常检测,得到对应的异常检测结果;将异常检测结果对应的异常样本信息输入到预先训练好的预估模型中进行评估处理,输出异常样本信息对应的在榜时长;根据在榜时长确定反馈调节策略;基于反馈调节策略执行对异常在榜信息的处理。通过创建榜单异常的检测工具,检测出每个榜单信息中存在的异常样本信息,通过设定的反馈调节策略对异常样本信息进行处理,达到治理异常榜单信息的目的;由此,可以实现利用机器审核结合人工审核,形成一套实时报警、反馈、调节的热榜治理机制,维护热榜的公平和稳定的技术效果。果。果。
技术研发人员:艾政阳 冯浩源 李鹏霄 翟羽佳 沈华伟 马宏远 吕东 王媛媛 项菲 王红兵 张浩 佟玲玲 时磊 侯炜 张玉洁
受保护的技术使用者:国家计算机网络与信息安全管理中心
技术研发日:2023.07.12
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/