水军行为识别方法、装置、介质及计算设备与流程
未命名
09-17
阅读:142
评论:0

1.本发明涉及计算机技术领域,具体而言,涉及一种水军行为识别方法、装置、介质及计算设备。
背景技术:
2.目前,水军通常活跃在电子商务网站、论坛、微博等社交网络平台中,通过伪装成普通网民或消费者,通过发布、回复和传播博文等对正常用户产生影响。
3.在实践中发现,为了规范水军行为,需要从社交网络平台中的各个博文中找到水军发布的博文。对此,传统的水军行为识别方法需要人工先确定水军行为的显性特征,如水军的话术模板,之后,再基于人工确定的显性特征判断社交网络平台中的自媒体账号是否为水军。然而,这种水军行为识别对于水军的有组织行为缺乏规律性地识别,存在着识别精准度较差的问题。
4.针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
5.本发明实施例提供了一种水军行为识别方法、装置、介质及计算设备,能够提高水军行为识别精准度。
6.根据本发明实施例的一个方面,提供了一种水军行为识别方法,包括:
7.获取待识别事件;
8.确定所述待识别事件对应的各个自媒体账号;
9.对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;
10.基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;
11.输出所述目标水军账号网络。
12.作为一种可选的实施方式,基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络,包括:
13.对于每个自媒体账号的言论数据,计算该言论数据中字数超过预设字数阈值的小句的simhash值;
14.通过对所述simhash值进行倒排索引,确定使用所述小句的关联账号;
15.基于所述各个自媒体账号以及各自对应的关联账号,生成所述目标水军账号网络;
16.其中,所述关联账号使用所述小句的次数与所述目标水军网络中所述关联账号所在节点的权重成正比。
17.作为一种可选的实施方式,所述方法还包括:
18.在生成所述目标水军账号网络的过程中,记录网络生成数据;
19.输出所述网络生成数据;
20.其中,所述网络生成数据用于描述所述目标水军账号网络的账号生成过程以及网络生成过程。
21.作为一种可选的实施方式,所述方法还包括:
22.获取样本自媒体账号集合;
23.对于所述样本自媒体账号集合中的各个样本自媒体账号的言论数据进行小句拆解,得到各个样本小句;
24.计算每个样本小句的simhash值;
25.根据各个样本小句的simhash值进行倒排索引,建立瞬时图网络;
26.基于所述瞬时图网络,构建所述预设的水军网络库。
27.作为一种可选的实施方式,基于所述瞬时图网络,构建所述预设的水军网络库,包括:
28.基于所述瞬时图网络,确定关联行为满足预设关联条件的中心嫌疑账号;
29.基于所述中心嫌疑账号、以及行为指向所述中心嫌疑账号的账号,构建所述预设水军网络库。
30.根据本发明实施例的另一方面,还提供了一种水军行为识别装置,包括:
31.事件获取单元,用于获取待识别事件;
32.账号确定单元,用于确定所述待识别事件对应的各个自媒体账号;
33.数据获取单元,用于对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;
34.网络生成单元,用于基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;
35.网络输出单元,用于输出所述目标水军账号网络。
36.作为一种可选的实施方式,所述网络生成单元具体用于:
37.对于每个自媒体账号的言论数据,计算该言论数据中字数超过预设字数阈值的小句的simhash值;
38.通过对所述simhash值进行倒排索引,确定使用所述小句的关联账号;
39.基于所述各个自媒体账号以及各自对应的关联账号,生成所述目标水军账号网络;
40.其中,所述关联账号使用所述小句的次数与所述目标水军网络中所述关联账号所在节点的权重成正比。
41.作为一种可选的实施方式,所述网络输出单元还用于:
42.在生成所述目标水军账号网络的过程中,记录网络生成数据;
43.输出所述网络生成数据;
44.其中,所述网络生成数据用于描述所述目标水军账号网络的账号生成过程以及网络生成过程。
45.根据本发明实施例的又一方面,还提供了一种计算设备,所述计算设备包括:至少一个处理器、存储器和输入输出单元;其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行上述水军行为识别方法。
46.根据本发明实施例的又一方面,还提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述水军行为识别方法。
47.在本发明实施例中,获取待识别事件;确定所述待识别事件对应的各个自媒体账号;对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;输出所述目标水军账号网络;可见,本发明能够提高水军行为识别精准度。
附图说明
48.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
49.图1是根据本发明实施例的一种可选的水军行为识别方法的流程示意图;
50.图2是根据本发明实施例的一种可选的水军行为识别装置的结构示意图;
51.图3示意性地示出了本发明实施例的一种介质的结构示意图;
52.图4示意性地示出了本发明实施例的一种计算设备的结构示意图。
具体实施方式
53.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
54.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
55.下面参考图1,图1为本发明一实施例提供的水军行为识别方法的流程示意图。需要注意的是,本发明的实施方式可以应用于适用的任何场景。
56.图1所示的本发明一实施例提供的水军行为识别方法的流程,包括:
57.步骤s101,获取待识别事件。
58.在本实施例中,执行主体可以为终端设备、服务器等电子设备。
59.其中,待识别事件可以为需要识别是否存在水军行为的事件,存在水军行为的事件可以包括:多个水军账号在社交平台上发布相应事件内容。
60.步骤s102,确定所述待识别事件对应的各个自媒体账号。
61.在本实施例中,执行主体可以进一步确定参与待识别事件的多个自媒体账号,其中,与待识别事件对应的各个自媒体账号可以为发布与待识别事件相关的言论的自媒体账
号。
62.步骤s103,对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据。
63.在本实施例中,在得到各个自媒体账号之后,执行主体可以先计算各个自媒体账号之间是否存在瞬时图关系。其中,瞬时图关系指的是短时间内、账号之间均存在评论或转发行为。例如,如果这些自媒体账号均在一分钟之内存在着相互评论或者转发的行为,则确定这些自媒体账号之间存在瞬时图关系。如果确定这些自媒体账号之间均存在瞬时图关系,可以确定这些自媒体账号在预设的水军网络库中。之后,执行主体可以再获取在水军网络库中的自媒体账号的言论数据。这里预设时间周期优选为一周之内。这里的言论数据可以为除待识别事件之外的其他事件对应的言论数据。
64.其中,在获取待识别事件进行水军行为识别之前,执行主体可以预先构建得到水军网络库,水军网络库可以基于多个瞬时图网络生成,瞬时图网络用于反映各个账号之间的瞬时图关系。
65.步骤s104,基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络。
66.在本实施例中,执行主体在得到上述各个自媒体账号在预设时间周期的言论数据之后,可以对这些言论数据进行数据分析,确定这些自媒体账号是否存在发布相同语料的行为、以及确定这些自媒体账号发布相同语料的频次数据。之后,基于频次数据对这些自媒体账号进行排序,生成目标水军账号网络。
67.其中,目标水军账号网络包含上述各个自媒体账号以及各个自媒体账号之间的连接关系,连接关系用于表示自媒体账号之间的关联程度,例如,自媒体账号之间的连接距离越小,说明这两个自媒体账号历史互相转发、评论或者发布相同语料的频次越高,二者的关联程度越大。
68.步骤s105,输出所述目标水军账号网络。
69.在本实施例中,在计算得到目标水军账号网络之后,执行主体可以输出目标水军账号网络,以使用户直接获取与待识别事件相关的水军账号信息、水军账号之间的账号关联信息,从而提高水军行为识别的精准度。
70.作为一种可选的实施方式,基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络,包括:
71.对于每个自媒体账号的言论数据,计算该言论数据中字数超过预设字数阈值的小句的simhash值;
72.通过对所述simhash值进行倒排索引,确定使用所述小句的关联账号;
73.基于所述各个自媒体账号以及各自对应的关联账号,生成所述目标水军账号网络;
74.其中,所述关联账号使用所述小句的次数与所述目标水军网络中所述关联账号所在节点的权重成正比。
75.其中,小句指的是对言论数据用逗号分隔得到的、包含主语和谓语的语法单位。
76.在本实施方式中,执行主体在获取到各个自媒体账号在预设时间周期内的言论数据之后,可以先从中确定字数超过预设字数阈值的小句,例如,字数阈值可以设置为6,此时
可以确定出超过6个字以上的小句。之后,再对这些小句计算simhash值。并通过对simhash值进行倒排索引,来确定使用该小句的其他作者,即,上述的关联账号。之后,对于关联账号中与上述自媒体账号的重合账号,可以设置增加重合账号在目标水军网络中的节点权重。通过这种方式,执行主体可以获取到使用相同语料库(小句)、且在待识别事件中同时出现的关联账号,对这些关联账号每次使用同指纹小句的情况,将权重+1,最终排序形成目标水军网络。其中,同指纹小句指的是simhash值相同的小句。
77.作为一种可选的实施方式,所述方法还包括:
78.在生成所述目标水军账号网络的过程中,记录网络生成数据;
79.输出所述网络生成数据;
80.其中,所述网络生成数据用于描述所述目标水军账号网络的账号生成过程以及网络生成过程。
81.在本实施方式中,在前边计算生成目标水军账号网络的过程中,会记录目标水军账号网络中各个账号的形成过程和这些网络共现引导的信息,这个信息可以显示输出,作为可解释的证据。
82.作为一种可选的实施方式,所述方法还包括:
83.获取样本自媒体账号集合;
84.对于所述样本自媒体账号集合中的各个样本自媒体账号的言论数据进行小句拆解,得到各个样本小句;
85.计算每个样本小句的simhash值;
86.根据各个样本小句的simhash值进行倒排索引,建立瞬时图网络;
87.基于所述瞬时图网络,构建所述预设的水军网络库。
88.在本实施方式中,执行主体可以获取大量的自媒体账号,作为样本自媒体账号集合,用于构建基础的账号池。
89.其中,对于每个样本自媒体账号,可以获取其在预设时间周期内的言论数据,例如,获取1周内全部的言论。之后,对这些言论数据进行小句拆解,得到用逗号分隔的多个样本小句。对于每个样本小句,可以计算样本小句的simhash值,其中,计算simhash值是处理小句的自动变形体,这样形成一个作者到小句的倒排索引,小句simhash-》author1、author2、author3,例如:小句本身为:“不知道昆明抗战胜利纪念堂的这些附属建筑算不算文物”,获取其hashcode:8989473982645619849-》作者a、作者b、作者c。同时,执行主体可以将实时所有信息建立一个瞬时图网络,基于对瞬时图网络进行分析,构建上述预设的水军网络库。其中,瞬时图网络用于反映瞬时内账号之间的关联情况,在得到样本小句的倒排索引之后,执行主体能够基于发布同样或相似小句的作者账号情况,建立各个样本自媒体账号之间的瞬时图网络,并进一步对瞬时图网络分析,得到预设的水军网络库。
90.作为一种可选的实施方式,基于所述瞬时图网络,构建所述预设的水军网络库,包括:
91.基于所述瞬时图网络,确定关联行为满足预设关联条件的中心嫌疑账号;
92.基于所述中心嫌疑账号、以及行为指向所述中心嫌疑账号的账号,构建所述预设的水军网络库。
93.在本实施方式中,瞬时图网络包括只存在一分钟内的所有账号行为逻辑,结构为:
账号-》行为(评论、转发)-》账号,超过一分钟进行实时删除重新建立。寻找出现一个账号在分钟内主动关联其它账号的行为,发现一个账号快速关系超过两个账号以上的特征后,记录为账号为目标账号进行水军操作的中心嫌疑账号。同时计算在六十个瞬时图(60分钟)网络中同时出现至少两次的指向目标账号(中心嫌疑账号)的其它账号,将这些账号进行记录记录指向目标账号的其它账号,关联在中心嫌疑账号周围,形成一个水军行为小型网络。当不同分钟都捕获到一个网络的可疑行为的时候,将节点权重+1,得到最终的水军网络库。
94.在本发明实施例中,获取待识别事件;确定所述待识别事件对应的各个自媒体账号;对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;输出所述目标水军账号网络;可见,本发明能够提高水军行为识别精准度。
95.在介绍了本发明示例性实施方式的方法之后,接下来,参考图2对本发明示例性实施方式的一种水军行为识别装置进行说明,该装置包括:
96.事件获取单元201,用于获取待识别事件;
97.账号确定单元202,用于确定所述待识别事件对应的各个自媒体账号;
98.数据获取单元203,用于对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;
99.网络生成单元204,用于基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;
100.网络输出单元205,用于输出所述目标水军账号网络。
101.作为一种可选的实施方式,所述网络生成单元204具体用于:
102.对于每个自媒体账号的言论数据,计算该言论数据中字数超过预设字数阈值的小句的simhash值;
103.通过对所述simhash值进行倒排索引,确定使用所述小句的关联账号;
104.基于所述各个自媒体账号以及各自对应的关联账号,生成所述目标水军账号网络;
105.其中,所述关联账号使用所述小句的次数与所述目标水军网络中所述关联账号所在节点的权重成正比。
106.作为一种可选的实施方式,所述网络输出单元205还用于:
107.在生成所述目标水军账号网络的过程中,记录网络生成数据;
108.输出所述网络生成数据;
109.其中,所述网络生成数据用于描述所述目标水军账号网络的账号生成过程以及网络生成过程。
110.作为一种可选的实施方式,所述装置还包括:
111.网络构建单元,用于获取样本自媒体账号集合;对于所述样本自媒体账号集合中的各个样本自媒体账号的言论数据进行小句拆解,得到各个样本小句;计算每个样本小句的simhash值;根据各个样本小句的simhash值进行倒排索引,建立瞬时图网络;基于所述瞬时图网络,构建所述预设的水军网络库。
112.作为一种可选的实施方式,网络构建单元具体用于:
113.基于所述瞬时图网络,确定关联行为满足预设关联条件的中心嫌疑账号;
114.基于所述中心嫌疑账号、以及行为指向所述中心嫌疑账号的账号,构建所述预设水军网络库。
115.在本发明实施例中,获取待识别事件;确定所述待识别事件对应的各个自媒体账号;对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;输出所述目标水军账号网络;可见,本发明能够提高水军行为识别精准度。
116.在介绍了本发明示例性实施方式的方法和装置之后,接下来,参考图3对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图3,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,获取待识别事件;确定所述待识别事件对应的各个自媒体账号;对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;输出所述目标水军账号网络;各步骤的具体实现方式在此不再重复说明。
117.需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
118.在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图4对本发明示例性实施方式的用于水军行为识别的计算设备。
119.图4示出了适于用来实现本发明实施方式的示例性计算设备40的框图,该计算设备40可以是计算机系统或服务器。图4显示的计算设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
120.如图4所示,计算设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
121.计算设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
122.系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)4021和/或高速缓存存储器4022。计算设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,rom4023可以用于读写不可移动的、非易失性磁介质(图4中未显示,通常称为“硬盘驱动器”)。尽管未在图4中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。系统存储器402中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
123.具有一组(至少一个)程序模块4024的程序/实用工具4025,可以存储在例如系统存储器402中,且这样的程序模块4024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块4024通常执行本发明所描述的实施例中的功能和/或方法。
124.计算设备40也可以与一个或多个外部设备404(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口405进行。并且,计算设备40还可以通过网络适配器406与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图4所示,网络适配器406通过总线403与计算设备40的其它模块(如处理单元401等)通信。应当明白,尽管图4中未示出,可以结合计算设备40使用其它硬件和/或软件模块。
125.处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如,获取待识别事件;确定所述待识别事件对应的各个自媒体账号;对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;输出所述目标水军账号网络。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了水军行为识别装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
126.在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
127.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
128.在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
129.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
130.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
131.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件
产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
132.最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
133.此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
技术特征:
1.一种水军行为识别方法,其特征在于,包括:获取待识别事件;确定所述待识别事件对应的各个自媒体账号;对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;输出所述目标水军账号网络。2.根据权利要求1所述的水军行为识别方法,其特征在于,基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络,包括:对于每个自媒体账号的言论数据,计算该言论数据中字数超过预设字数阈值的小句的simhash值;通过对所述simhash值进行倒排索引,确定使用所述小句的关联账号;基于所述各个自媒体账号以及各自对应的关联账号,生成所述目标水军账号网络;其中,所述关联账号使用所述小句的次数与所述目标水军网络中所述关联账号所在节点的权重成正比。3.根据权利要求1所述的水军行为识别方法,其特征在于,所述方法还包括:在生成所述目标水军账号网络的过程中,记录网络生成数据;输出所述网络生成数据;其中,所述网络生成数据用于描述所述目标水军账号网络的账号生成过程以及网络生成过程。4.根据权利要求1所述的水军行为识别方法,其特征在于,所述方法还包括:获取样本自媒体账号集合;对于所述样本自媒体账号集合中的各个样本自媒体账号的言论数据进行小句拆解,得到各个样本小句;计算每个样本小句的simhash值;根据各个样本小句的simhash值进行倒排索引,建立瞬时图网络;基于所述瞬时图网络,构建所述预设的水军网络库。5.根据权利要求4所述的水军行为识别方法,其特征在于,基于所述瞬时图网络,构建所述预设的水军网络库,包括:基于所述瞬时图网络,确定关联行为满足预设关联条件的中心嫌疑账号;基于所述中心嫌疑账号、以及行为指向所述中心嫌疑账号的账号,构建所述预设的水军网络库。6.一种水军行为识别装置,其特征在于,包括:事件获取单元,用于获取待识别事件;账号确定单元,用于确定所述待识别事件对应的各个自媒体账号;数据获取单元,用于对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;网络生成单元,用于基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;
网络输出单元,用于输出所述目标水军账号网络。7.根据权利要求6所述的水军行为识别装置,其特征在于,所述网络生成单元具体用于:对于每个自媒体账号的言论数据,计算该言论数据中字数超过预设字数阈值的小句的simhash值;通过对所述simhash值进行倒排索引,确定使用所述小句的关联账号;基于所述各个自媒体账号以及各自对应的关联账号,生成所述目标水军账号网络;其中,所述关联账号使用所述小句的次数与所述目标水军网络中所述关联账号所在节点的权重成正比。8.根据权利要求6所述的水军行为识别方法,其特征在于,所述网络输出单元还用于:在生成所述目标水军账号网络的过程中,记录网络生成数据;输出所述网络生成数据;其中,所述网络生成数据用于描述所述目标水军账号网络的账号生成过程以及网络生成过程。9.一种计算设备,所述计算设备包括:至少一个处理器、存储器和输入输出单元;其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1~5中任一项所述的方法。10.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~5中的任一项所述的方法。
技术总结
本发明公开了一种水军行为识别方法、装置、介质及计算设备,包括:获取待识别事件;确定所述待识别事件对应的各个自媒体账号;对于所述各个自媒体账号中的每个自媒体账号,如果该自媒体账号在预设的水军网络库中,则获取该自媒体账号在预设时间周期内的言论数据;基于所述各个自媒体账号的言论数据中存在的相同语料,生成目标水军账号网络;输出所述目标水军账号网络;可见,本发明能够提高水军行为识别精准度。别精准度。别精准度。
技术研发人员:赵冲 李青龙 骆飞 李涛
受保护的技术使用者:北京智慧星光信息技术有限公司
技术研发日:2023.06.01
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/