一种网络舆情检测系统及检测方法与流程
未命名
09-09
阅读:68
评论:0

1.本发明涉及网络传播数据处理技术领域,尤其涉及一种网络舆情检测系统及检测方法。
背景技术:
2.由于互联网的技术日益更新,随着互联网技术的发展,互联网作为一种新型的信息传播形式。根据中国互联网络信息中心的《第37次中国互联网络发展状况统计报告》显示,截至2015年12月,我国网民规模已经达到6.88亿,互联网普及率达到50.3%。而网络舆情的主要表现方式为:新闻评论、bbs论坛、博客、播客、微博、聚合新闻、新闻跟帖及转帖等等。
[0003][0004]
现有的监控手段过于简单,这样会导致处理延后而使得最终效果不够理想。
技术实现要素:
[0005]
本发明的目的在于提供一种网络舆情检测系统及检测方法,旨在可以借助大众传播学相关理论,以多渠道、分级预警的方式对舆情进行检测,使得舆情检测更加方便快捷。
[0006]
为实现上述目的,第一方面,本发明提供了一种网络舆情检测系统,包括数据采集模块、频次统计模块、第一预警模块、追踪模块、第二预警模块、识别模块和报警模块,所述数据采集模块、所述频次统计模块、所述第一预警模块、所述追踪模块、所述第二预警模块、所述识别模块和所述报警模块依次连接;
[0007]
所述数据采集模块,用于从多个平台获取热搜信息;
[0008]
所述频次统计模块,用于对热搜信息的点击频次进行统计,所述频次统计模块包括标题获取单元、正文读取单元、相似度计算单元和融合单元,所述标题获取单元,用于获取热搜信息标题;
[0009]
所述正文读取单元,用于基于热搜信息标题读取正文文本;
[0010]
所述相似度计算单元,用于基于正文文本对标题相似度进行计算;
[0011]
所述融合单元,用于对达到相似度的热搜信息标题进行数据融合,然后进行频次统计;所述相似度计算单元包括关键词获取子单元、匹配子单元和相似度生成子单元,所述关键词获取子单元,用于获取各正文文本的关键词;
[0012]
所述匹配子单元,用于基于语义识别对关键词进行匹配;
[0013]
所述相似度生成子单元,用于基于配对数量生成相似度;
[0014]
所述第一预警模块,用于基于点击频次生成第一预警信息和预备信息;
[0015]
所述追踪模块,用于对第一预警信息和预备信息进行追踪,得到点击增长率;
[0016]
所述第二预警模块,用于基于点击增长率生成第二预警信息;
[0017]
所述识别模块,用于对第二预警信息基于敏感词进行识别,得到关键信息;
[0018]
所述报警模块,将关键信息分发到对应处理人员进行报警。
[0019]
其中,所述网络舆情检测系统还包括追溯模块,所述追溯模块,用于对第二预警信
息的生成过程进行追溯。
[0020]
其中,所述数据采集模块包括采集单元、清理单元和存储单元,所述采集单元,用于采用爬虫系统在各大新闻网页、app,博客、贴吧、社区进行热门信息搜集,得到第一信息;
[0021]
所述清理单元,用于清除所述第一信息中的噪声数据,得到热搜信息;
[0022]
所述存储单元,用于对热搜信息进行存储。
[0023]
其中,所述第一预警模块包括阈值设置单元和第一预警信息生成单元,所述阈值设置单元,用于基于热搜信息的最高点击频次设置点击阈值;
[0024]
所述第一预警信息生成单元,用于若某一热搜信息的点击频次超过所述点击阈值,则生成第一预警信息。
[0025]
其中,所述追踪模块包括初始点击值单元、变化点击值单元和增长率计算单元,所述初始点击值单元,用于获取第一预警信息的初始点击值;
[0026]
所述变化点击值单元,用于统计预设时间段内的变化点击值;
[0027]
所述增长率计算单元,用于基于变化点击值和初始点击值的比值得到点击增长率。
[0028]
第二方面,本发明还提供一种网络舆情检测方法,包括:
[0029]
从多个平台获取热搜信息;
[0030]
对热搜信息的点击频次进行统计;
[0031]
基于点击频次生成第一预警信息和预备信息;
[0032]
对第一预警信息进行追踪,得到点击增长率;
[0033]
基于点击增长率生成第二预警信息;
[0034]
对第二预警信息基于敏感词进行识别,得到关键信息;
[0035]
将关键信息分发到对应处理人员进行报警。
[0036]
本发明的一种网络舆情检测系统及检测方法,通过所述数据采集模块,可以从多个平台的多个热搜信息页上分别对相应的热搜信息进行获取,从而可以尽量兼顾全平台的数据以避免产生遗漏,然后通过所述频次统计模块,可以根据平台上热搜信息的点击量更新以对对应热搜信息的点击频次进行记录,条件允许的情况下还可以接入对方的平台以直接对点击频次进行获取,然后所述第一预警模块就可以基于点击频次的高低进行划分,使得高频点击的热搜信息可以作为第一预警信息,其他没有达到如此频次的作为预备信息,然后可以基于第二预警模块对第一预警信息和预备信息的点击增长率进行统计,使得可以这两者的信息分别达到对应增长率时进行报警,其中第一预警信息的增长率要求低于所述预备信息。然后通过所述识别模块对第二预警信息预警的信息通过敏感词进行识别,从而可以得到与舆情相关的关键信息,最后通过报警模块进行报警,使得相关人员可以及时进行处理,最后还可以通过所述追溯模块进行追溯,使得舆情检测更加方便快捷。
附图说明
[0037]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]
图1是本发明的第一实施例的一种网络舆情检测系统的结构图。
[0039]
图2是本发明的第二实施例的数据采集模块的结构图。
[0040]
图3是本发明的第二实施例的频次统计模块的结构图。
[0041]
图4是本发明的第二实施例的相似度计算单元的结构图。
[0042]
图5是本发明的第二实施例的第一预警模块的结构图。
[0043]
图6是本发明的第二实施例的追踪模块的结构图。
[0044]
图7是本发明的第二实施例的第二预警模块的结构图。
[0045]
图8是本发明的第二实施例的识别模块的结构图。
[0046]
图9是本发明的第三实施例的一种网络舆情检测方法的流程图。
[0047]
数据采集模块101、频次统计模块102、第一预警模块103、追踪模块104、第二预警模块105、识别模块106、报警模块107、追溯模块108、采集单元201、清理单元202、存储单元203、标题获取单元204、正文读取单元205、相似度计算单元206、融合单元207、关键词获取子单元208、匹配子单元209、相似度生成子单元210、阈值设置单元211、第一预警信息生成单元212、初始点击值单元213、变化点击值单元214、增长率计算单元215、初始值阈值单元216、增加率阈值单元217、第二预警单元218、敏感词生成单元219、遍历单元220、判断单元221。
具体实施方式
[0048]
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0049]
在传播学的角度来说,网络舆情是较多群众关于现实社会及社会中各种现象、问题所表达的信念、态度、意见和情绪表现的总和。网络舆情与社会舆情在内容表现形态方面具有一致性,网络舆情在一定程度上会影响社会舆情的发展趋势。
[0050]
为了更好地进行检测,以避免舆情进一步扩大化,需要进行舆情预警。网络舆情预警和应对是指从危机事件的征兆出现到危机造成可感知的损失这段时间内,对网络舆情尤其是负面舆情的及时妥善控制,从而达到有效化解网络舆论危机的目的。网络舆情预警的意义在于及早发现危机的苗头,及早对可能产生的现实危机的走向、规模进行判断,做好应对危机的准备。
[0051]
本发明从信息渠道、访客行为、以及信息内容多方面分级进行预警,从而可以技术结合人工以提高网络舆情的预警能力,从而提高处理效果。具体的技术方案如以下实施例所述。
[0052]
第一实施例
[0053]
请参阅图1,图3和图4,图1是本发明的第一实施例的一种网络舆情检测系统的结构图。图3是本发明的第二实施例的频次统计模块的结构图。图4是本发明的第二实施例的第一预警模块的结构图。
[0054]
本发明提供一种网络舆情检测系统,包括数据采集模块101、频次统计模块102、第一预警模块103、追踪模块104、第二预警模块105、识别模块106和报警模块107,所述数据采集模块101、所述频次统计模块102、所述第一预警模块103、所述追踪模块104、所述第二预
警模块105、所述识别模块106和所述报警模块107依次连接;所述数据采集模块101,用于从多个平台获取热搜信息;所述频次统计模块102,用于对热搜信息的点击频次进行统计;所述第一预警模块103,用于基于点击频次生成第一预警信息和预备信息;所述追踪模块104,用于对第一预警信息和预备信息进行追踪,得到点击增长率;所述第二预警模块105,用于基于点击增长率生成第二预警信息;所述识别模块106,用于对第二预警信息基于敏感词进行识别,得到关键信息;所述报警模块107,将关键信息分发到对应处理人员进行报警。所述网络舆情检测系统还包括追溯模块108,所述追溯模块108,用于对第二预警信息的生成过程进行追溯。
[0055]
在本实施方式中,通过所述数据采集模块101,可以从多个平台的多个热搜信息页上分别对相应的热搜信息进行获取,从而可以尽量兼顾全平台的数据以避免产生遗漏,然后通过所述频次统计模块102,可以根据平台上热搜信息的点击量更新以对对应热搜信息的点击频次进行记录,条件允许的情况下还可以接入对方的平台以直接对点击频次进行获取,然后所述第一预警模块103就可以基于点击频次的高低进行划分,使得高频点击的热搜信息可以作为第一预警信息,其他没有达到如此频次的作为预备信息,然后可以基于第二预警模块105对第一预警信息和预备信息的点击增长率进行统计,使得可以这两者的信息分别达到对应增长率时进行报警,其中第一预警信息的增长率要求低于所述预备信息。然后通过所述识别模块106对第二预警信息预警的信息通过敏感词进行识别,从而可以得到与舆情相关的关键信息,最后通过报警模块107进行报警,使得相关人员可以及时进行处理,最后还可以通过所述追溯模块108进行追溯,使得舆情检测更加方便快捷。
[0056]
所述频次统计模块102包括标题获取单元204、正文读取单元205、相似度计算单元206和融合单元207,所述标题获取单元204,用于获取热搜信息标题;所述正文读取单元205,用于基于热搜信息标题读取正文文本;所述相似度计算单元206,用于基于正文文本对标题相似度进行计算;所述融合单元207,用于对达到相似度的热搜信息标题进行数据融合。通过所述标题获取单元204可以获取到热搜信息的标题,但是各家标题可能取得不一样从而导致同一信息的后续频次统计出错,因此本技术采用所述正文读取单元205对标题中的正文进行读取,然后通过所述相似度计算单元206对正文中的关键词进行匹配,从而以对标题进行相似度计算,最后通过所述融合单元207将相似的标题对应的数据进行融合,再进行点击频次的统计,从而提高准确性。
[0057]
其中,所述相似度计算单元206包括关键词获取子单元208、匹配子单元209和相似度生成子单元210,所述关键词获取子单元208,用于获取各正文文本的关键词;所述匹配子单元209,用于基于语义识别对关键词进行匹配;所述相似度生成子单元210,用于基于配对数量生成相似度。通过所述关键词获取子单元208可以获取对应的文本的关键词,然后通过所述匹配子单元209,用于采用语义识别单元以对关键词进行匹配,以提高匹配的准确性,最后通过所述相似度生成子单元210以通过关键词的匹配数量计算相似度,即可以通过总关键词数和匹配数量的比值进行衡量。
[0058]
第二实施例
[0059]
请参阅图2,图5~图8,图2是本发明的第二实施例的数据采集模块的结构图。图5是本发明的第二实施例的第一预警模块的结构图。图6是本发明的第二实施例的追踪模块的结构图。图7是本发明的第二实施例的第二预警模块的结构图。图8是本发明的第二实施例
的识别模块的结构图。
[0060]
在第一实施例的基础上,本发明还提供一种网络舆情检测系统,所述数据采集模块101包括采集单元201、清理单元202和存储单元203,所述采集单元201,用于采用爬虫系统在各大新闻网页、app,博客、贴吧、社区进行热门信息搜集,得到第一信息;所述清理单元202,用于清除所述第一信息中的噪声数据,得到热搜信息;所述存储单元203,用于对热搜信息进行存储。通过所述采集单元201可以采用爬虫的方式对各大网站的热搜信息进行收集,使得使用更加方便。
[0061]
其次,所述第一预警模块103包括阈值设置单元211和第一预警信息生成单元212,所述阈值设置单元211,用于基于热搜信息的最高点击频次设置点击阈值;所述第一预警信息生成单元212,用于若某一热搜信息的点击频次超过所述点击阈值,则生成第一预警信息。
[0062]
所述追踪模块104包括初始点击值单元213、变化点击值单元214和增长率计算单元215,所述初始点击值单元213,用于获取第一预警信息的初始点击值;所述变化点击值单元214,用于统计预设时间段内的变化点击值;所述增长率计算单元215,用于基于变化点击值和初始点击值的比值得到点击增长率。通过上述方便可以基于起算时间点的初始点击值以和后续时间段内的壁纸计算得到点击增长率,使得使用更加方便。
[0063]
所述第二预警模块105包括初始值阈值单元216、增加率阈值单元217和第二预警单元218,所述初始值阈值单元216,用于基于初始点击值按比例生成初始值阈值;所述所述增加率阈值单元217,用于设置点击增长率阈值;所述第二预警单元218,用于基于初始值阈值和点击增长率阈值计算第二预警信息。从而可以综合整体点击量以及热搜信息的增长幅度两个参数筛选第二预警信息,使得筛选更加完整。
[0064]
所述识别模块106包括敏感词生成单元219、遍历单元220和判断单元221,所述敏感词生成单元219,用于生产敏感词汇表、各个敏感词的计算权重以及敏感词对应的主题编号;所述遍历单元220,用于遍历第二预警信息的相关正文,匹配正文中出现的敏感词并计算出每一个敏感词出现的次数,同时根据待匹配的关键词表查询出每个关键词对应的主题编号;所述判断单元221,用于基于计算权重、敏感词次数判断得到关键信息。
[0065]
第三实施例
[0066]
请参阅图9,在第一实施例的基础上,本发明还提供一种网络舆情检测方法,包括:
[0067]
s101从多个平台获取热搜信息;
[0068]
通过所述数据采集模块101,可以从多个平台的多个热搜信息页上分别对相应的热搜信息进行获取,从而可以尽量兼顾全平台的数据以避免产生遗漏。
[0069]
s102对热搜信息的点击频次进行统计;
[0070]
然后通过所述频次统计模块102,可以根据平台上热搜信息的点击量更新以对对应热搜信息的点击频次进行记录,条件允许的情况下还可以接入对方的平台以直接对点击频次进行获取。
[0071]
s103基于点击频次生成第一预警信息和预备信息;
[0072]
s104对第一预警信息进行追踪,得到点击增长率;
[0073]
然后所述第一预警模块103就可以基于点击频次的高低进行划分,使得高频点击的热搜信息可以作为第一预警信息,其他没有达到如此频次的作为预备信息,然后可以基
于第二预警模块105对第一预警信息和预备信息的点击增长率进行统计,使得可以这两者的信息分别达到对应增长率时进行报警,其中第一预警信息的增长率要求低于所述预备信息。
[0074]
s105基于点击增长率生成第二预警信息;
[0075]
s106对第二预警信息基于敏感词进行识别,得到关键信息;
[0076]
然后通过所述识别模块106对第二预警信息预警的信息通过敏感词进行识别,从而可以得到与舆情相关的关键信息。
[0077]
s107将关键信息分发到对应处理人员进行报警。
[0078]
最后通过报警模块107进行报警,使得相关人员可以及时进行处理,最后还可以通过所述追溯模块108进行追溯,使得舆情检测更加方便快捷。
[0079]
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
技术特征:
1.一种网络舆情检测系统,其特征在于,包括数据采集模块、频次统计模块、第一预警模块、追踪模块、第二预警模块、识别模块和报警模块,所述数据采集模块、所述频次统计模块、所述第一预警模块、所述追踪模块、所述第二预警模块、所述识别模块和所述报警模块依次连接;所述数据采集模块,用于从多个平台获取热搜信息;所述频次统计模块,用于对热搜信息的点击频次进行统计,所述频次统计模块包括标题获取单元、正文读取单元、相似度计算单元和融合单元,所述标题获取单元,用于获取热搜信息标题;所述正文读取单元,用于基于热搜信息标题读取正文文本;所述相似度计算单元,用于基于正文文本对标题相似度进行计算;所述融合单元,用于对达到相似度的热搜信息标题进行数据融合,然后进行频次统计;所述相似度计算单元包括关键词获取子单元、匹配子单元和相似度生成子单元,所述关键词获取子单元,用于获取各正文文本的关键词;所述匹配子单元,用于基于语义识别对关键词进行匹配;所述相似度生成子单元,用于基于配对数量生成相似度;所述第一预警模块,用于基于点击频次生成第一预警信息和预备信息;所述追踪模块,用于对第一预警信息和预备信息进行追踪,得到点击增长率;所述第二预警模块,用于基于点击增长率生成第二预警信息;所述识别模块,用于对第二预警信息基于敏感词进行识别,得到关键信息;所述报警模块,将关键信息分发到对应处理人员进行报警。2.如权利要求1所述的一种网络舆情检测系统,其特征在于,所述网络舆情检测系统还包括追溯模块,所述追溯模块,用于对第二预警信息的生成过程进行追溯。3.如权利要求2所述的一种网络舆情检测系统,其特征在于,所述数据采集模块包括采集单元、清理单元和存储单元,所述采集单元,用于采用爬虫系统在各大新闻网页、app,博客、贴吧、社区进行热门信息搜集,得到第一信息;所述清理单元,用于清除所述第一信息中的噪声数据,得到热搜信息;所述存储单元,用于对热搜信息进行存储。4.如权利要求3所述的一种网络舆情检测系统,其特征在于,所述第一预警模块包括阈值设置单元和第一预警信息生成单元,所述阈值设置单元,用于基于热搜信息的最高点击频次设置点击阈值;所述第一预警信息生成单元,用于若某一热搜信息的点击频次超过所述点击阈值,则生成第一预警信息。5.如权利要求4所述的一种网络舆情检测系统,其特征在于,所述追踪模块包括初始点击值单元、变化点击值单元和增长率计算单元,所述初始点击值单元,用于获取第一预警信息的初始点击值;所述变化点击值单元,用于统计预设时间段内的变化点击值;所述增长率计算单元,用于基于变化点击值和初始点击值的比值得到点击增长率。6.一种网络舆情检测方法,应用于权利要求1~5任意一项所述的网络舆情检测系统,其
特征在于,包括:从多个平台获取热搜信息;对热搜信息的点击频次进行统计;基于点击频次生成第一预警信息和预备信息;对第一预警信息进行追踪,得到点击增长率;基于点击增长率生成第二预警信息;对第二预警信息基于敏感词进行识别,得到关键信息;将关键信息分发到对应处理人员进行报警。
技术总结
本发明涉及网络传播数据处理技术领域,具体涉及一种网络舆情检测系统及检测方法,使用时数据采集模块用于从多个平台获取热搜信息;频次统计模块用于对热搜信息的点击频次进行统计;第一预警模块用于基于点击频次生成第一预警信息和预备信息;追踪模块用于对第一预警信息和预备信息进行追踪,得到点击增长率;第二预警模块用于基于点击增长率生成第二预警信息;识别模块用于对第二预警信息基于敏感词进行识别,得到关键信息;报警模块将关键信息分发到对应处理人员进行报警;最后通过报警模块进行报警,最后通过追溯模块进行追溯,以借助大众传播学相关理论,以多渠道、分级预警的方式对舆情进行检测。方式对舆情进行检测。方式对舆情进行检测。
技术研发人员:白奇峰 唐月 朱颜
受保护的技术使用者:贵州融云信息技术有限公司
技术研发日:2023.08.01
技术公布日:2023/9/7
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/