基于新闻客户端的突发事件预警信息分析系统及其方法与流程

未命名 10-19 阅读:165 评论:0


1.本发明涉及计算机信息技术领域。更具体地说,本发明涉及基于新闻客户端的突发事件预警信息分析系统及其方法。


背景技术:

2.随着智能手机和移动互联网的普及,越来越多的人通过新闻客户端获取新闻资讯。据统计,截至2021年,中国的移动互联网用户规模已经超过10亿,占据了全球移动互联网用户总量的三分之一以上。因此,各大新闻客户端纷纷推出了自己的产品,争夺用户的关注。
3.根据数据显示,中国的新闻客户端主要分为头条类、门户类、垂直类三类,其中头条类客户端的月活跃用户数普遍较高。而门户类客户端的用户数量虽然不如头条类客户端,但也具有较大的用户规模。垂直类客户端由于涉及领域较窄,用户数量相对较少。
4.综合来看,随着人们对新闻获取方式的需求不断增加,新闻客户端在移动互联网时代的地位越来越重要。同时,新闻客户端的用户规模也呈现逐年上涨的趋势。在这些软件或者新闻客户端发布的海量的信息中,一般情况下,单篇的文章文字量是巨大的,当阅读的文章过多或有突发预警需快速了解文章内容时,仍需耗费大量的时间去阅读、勾画重点,这样效率非常低。那么如何快速提取这些文章中的关键点?
5.目前市场上有很多对新闻客户端文章进行关键点提取的方法,常见的是对这种文本关键词提取算法,通过统计词频和逆文档频率来计算每个词的重要性,从而提取文章的关键点。这种方法效率略低,并且识别度也不高,无法从多维度去分析内容信息。


技术实现要素:

6.本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
7.本发明还有一个目的是提供一种基于新闻客户端的突发事件预警信息分析系统,其能够快速分析新闻文章信息中用户关注的时间、地点、人物、机构和主题信息,以及能够从文本正文、正文中的图片和评论正负面情绪三个维度进行全方位识别分析。
8.本发明还有一个目的是通过基于新闻客户端的突发事件预警信息分析方法,能够快速获取新闻文章中的关键点,提高了用户获取信息的效率,进一步也提高了新闻客户端用户的阅读体验和满意度。
9.为了实现本发明的这些目的和其它优点,第一方面,本发明提供了一种基于新闻客户端的突发事件预警信息分析系统,包括:
10.数据处理模块,其用于对新闻客户端发布的原始文章数据进行格式化预处理,获得预处理后的格式化文本数据,格式化图片数据和格式化评论数据;
11.自定义标签模块,其用于获取用户自定义的突发预警标签;
12.文本分析模块,其用于对格式化文本数据进行分析,提取出时间、地点、人物、机构
和自定义的预警信息;
13.图片分析模块,其用于对格式化图片数据进行分析,对特征目标区域的字符进行分割和分类;
14.评论情绪分析模块,其用于对格式化评论数据进行分析,以对评论数据的情绪进行分类和预测,获得原始文章数据的情绪类型。
15.优选的是,所述的基于新闻客户端的突发事件预警信息分析系统,所述格式化文本数据为json格式,所述格式化图片数据为json格式,所述格式化评论数据为json格式。
16.优选的是,所述的基于新闻客户端的突发事件预警信息分析系统,所述文本分析模块通过构建文本数据训练模型对格式化文本数据进行分析,具体包括:
17.文本数据训练模型生成模块,其用以对文本数据生成所述文本数据训练模型;
18.文本数据训练模型训练模块,其用以对生成的所述文本数据训练模型进行训练;
19.文本数据训练模型测试模块,其用以对训练好的文本数据训练模型进行测试。
20.优选的是,所述的基于新闻客户端的突发事件预警信息分析系统,所述图片分析模块通过构建图片数据训练模型对格式化图片数据进行分析,具体包括:
21.图片数据训练模型生成模块,其用以对图片数据生成所述图片数据训练模型;
22.图片数据训练模型训练模块,其用以对生成的所述图片数据训练模型进行训练;
23.图片数据训练模型测试模块,其用以对训练好的图片数据训练模型进行测试。
24.优选的是,所述的基于新闻客户端的突发事件预警信息分析系统,所述评论情绪分析模块通过构建评论正负面训练模型对格式化评论数据进行分析,具体包括:
25.评论正负面训练模型生成模块,其用以对评论数据生成所述评论正负面训练模型;
26.评论正负面训练模型训练模块,其用以对生成的评论正负面训练模型进行训练;
27.评论正负面训练模型测试模块,其用以对训练好的评论正负面训练模型进行测试。
28.优选的是,所述的基于新闻客户端的突发事件预警信息分析系统,所述文本数据训练模型生成模块采用corenlp系统进行文本识别,文本数据训练实体类型为时间、地点、人物、机构以及自定义标签;
29.所述图片数据训练模型生成模块采用文本检测、文本识别、人物和物体四个模型来对图像中的特征进行提取和检测目标区域;
30.所述评论正负面训练模型生成模块采用tf/idf模型来计算关键词与文本的相关性,评论正负面训练情绪类型为数字0代表正常情绪、数字1代表负面情绪、数字2代表正面情绪。
31.第二方面,本发明提供了一种基于新闻客户端的突发事件预警信息分析方法,包括:
32.对新闻客户端发布的原始文章数据进行格式化预处理,获得预处理后的格式化文本数据,格式化图片数据和格式化评论数据;
33.获取用户自定义的突发预警标签;
34.对格式化文本数据进行分析,提取出时间、地点、人物、机构和自定义的预警信息;
35.对格式化图片数据进行分析,对特征目标区域的字符进行分割和分类;
36.对格式化评论数据进行分析,以对评论数据的情绪进行分类和预测,获得原始文章数据的情绪类型。
37.第三方面,本发明还提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述所述的系统。
38.第四方面,本发明还提供了一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现上述所述的系统。
39.本发明至少包括以下有益效果:
40.第一、由于本发明设置有自定义标签模块和文本分析模块,因此,面对海量的新闻文章信息,能够快速地进行识别分析,精准地识别分析出新闻文章内容中的时间、地点、人物、机构和文章主题内容。
41.第二、本发明不仅设置有文本分析模块,还设置有图片分析模块和评论分析模块,因此,本发明对突发预警信息能够从文本正文、正文中的图片相关信息、评论正负面情绪三个维度进行全方位地进行识别分析,分析的范围广,信息全面。
42.第三、本发明针对不同的新闻网站、移动客户端app中发布的新闻文章信息都能够进行快速分析,个性化服务、灵活度高,在原有的热词分析上,又添加了时间、地点、人物、机构关键点信息,能够准确分析出主题信息。
43.第四、在面对海量的新闻文章时,提高了新闻客户端的用户阅读体验和满意度,为用户提供了更加丰富、精准的文章内容和主题。
44.本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
45.图1为本发明的一个实施例中基于新闻客户端的突发事件预警信息分析系统的结构示意图;
46.图2为本发明的一个实施例中文本数据训练模型构建的流程示意图;
47.图3为本发明的一个实施例中图片数据训练模型构建的流程示意图;
48.图4为本发明的一个实施例中评论正负面训练模型构建的流程示意图;
49.图5为本发明的一个实施例文本数据训练模型测试模块的测试结果示意图;
50.图6为本发明的一个实施例图片数据训练模型测试模块的测试结果示意图;
51.图7为本发明的一个实施例评论正负面训练模型测试模块的测试结果示意图。
具体实施方式
52.下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
53.如图1所示,本发明实施例提供的基于新闻客户端的突发事件预警信息分析系统,包括:数据处理模块,其用于对新闻客户端发布的原始文章数据进行格式化预处理,获得预处理后的格式化文本数据,格式化图片数据和格式化评论数据;自定义标签模块,其用于获
取用户自定义的突发预警标签;文本分析模块,其用于对格式化文本数据进行分析,提取出时间、地点、人物、机构和自定义的预警信息;图片分析模块,其用于对格式化图片数据进行分析,对特征目标区域的字符进行分割和分类;评论情绪分析模块,其用于对格式化评论数据进行分析,以对评论数据的情绪进行分类和预测,获得原始文章数据的情绪类型。
54.在上述实施例中,设置的数据处理模块,能够对新闻客户端发布的原始文章数据进行格式化预处理,处理成格式化文本数据即文本数据json格式,格式化图片数据即图片数据json格式,和格式化评论数据即评论数据json格式。由于本发明实施例设置有自定义标签模块和文本分析模块,面对海量的新闻文章信息,能够快速地进行识别分析,精准地识别分析出新闻文章内容中的时间、地点、人物、机构和文章主题内容。本发明实施例不仅设置有文本分析模块,还设置有图片分析模块和评论分析模块,因此,本发明对突发预警信息能够从文本正文、正文中的图片相关信息、评论正负面情绪三个维度进行全方位地进行识别分析,分析的范围广,信息全面。
55.在其中一具体实施方式中,所述的基于新闻客户端的突发事件预警信息分析系统,所述文本分析模块通过构建文本数据训练模型对格式化文本数据进行分析,具体包括:
56.文本数据训练模型生成模块,其用以对文本数据生成所述文本数据训练模型;
57.文本数据训练模型训练模块,其用以对生成的所述文本数据训练模型进行训练;
58.文本数据训练模型测试模块,其用以对训练好的文本数据训练模型进行测试。
59.具体的,如图2所示,文本数据训练模型构建的流程过程为:
60.s10、确认文本数据训练模型;本发明实施例采用corenlp系统作为识别文本模型。
61.s11、确认文本数据训练实体类型;采用常见的时间、地点、人物和机构,即date、country、person、organization,再加上自定义的标签。
62.需要说明的是,由于本发明实施例添加了自定义标签模块,如果符合自定义标签tag的内容,就会在将文字的权值增加,相应的该文字就会在最后的最优解路径中,找到该文字。
63.s12、数据处理装置对训练数据进行格式化预处理;使用neural pipeline进行初始训练模型,以中文的《人民日报2005中文标注语料库》作为训练数据,首先将数据预处理,格式化数据json格式,需要提取的实体类型是时间、地点、人物、机构和自定义的预警信息。
64.s13、自定义初始化预警词;文本数据训练模型采用标签体系加上用户自定义的突发预警词,比如:暴动(riot)等关注的词语。
65.s14、文本数据训练模型训练模块开始训练数据;单字作为token,并且仅使用字符这一种特征,这样就可以根据语料库中每个字在此种的位置和词性,以及所选的标签系统,生成所需的训练数据。
66.s15、文本数据训练模型测试模块开始测试数据;完成训练后,开始进行测试训练。例如,测试文本“12月20日上午,以公司的身份和王明同志一起在龙兴酒店参加小红的婚礼,随后去广场举行游行活动”,测试结果如图5所示,能够对输入文字序列输出相应的标签,并可以对用户自定义关键词进行特殊标注。
67.在其中一具体实施方式中,所述的基于新闻客户端的突发事件预警信息分析系统,所述图片分析模块通过构建图片数据训练模型对格式化图片数据进行分析,具体包括:
68.图片数据训练模型生成模块,其用以对图片数据生成所述图片数据训练模型;
69.图片数据训练模型训练模块,其用以对生成的所述图片数据训练模型进行训练;
70.图片数据训练模型测试模块,其用以对训练好的图片数据训练模型进行测试。
71.具体的,如图3所示,图片数据训练模型构建的流程过程为:
72.s20、确认图片数据训练模型;采用文本检测、文字识别、人物、物体四模型来对图像中的特征进行提取和检测目标区域。
73.s21、确认图片训练类型;本发明实施例目前确定图片仅支持png、jpg两种类型,其他的图片格式暂不支持。
74.s22、格式化数据json;将选取的目标图片转换为{"url":"img.url","picturename":"图片1"}的json格式列表。
75.s23、图片数据训练模型训练模块开始训练数据;对所有训练数据图片开始遍历测试数据格式。
76.s24、图片数据训练模型测试模块开始测试;本发明实施例采用对特征目标区域的字符进行分割和分类,测试结果,如图6所示。
77.在其中一具体实施方式中,所述的基于新闻客户端的突发事件预警信息分析系统,所述评论情绪分析模块通过构建评论正负面训练模型对格式化评论数据进行分析,具体包括:
78.评论正负面训练模型生成模块,其用以对评论数据生成所述评论正负面训练模型;
79.评论正负面训练模型训练模块,其用以对生成的评论正负面训练模型进行训练;
80.评论正负面训练模型测试模块,其用以对训练好的评论正负面训练模型进行测试。
81.具体的,如图4所示,评论正负面训练模型构建的流程过程为:
82.s30、确认评论正负面情绪训练模型;采用tf/idf模型来计算关键词与文档的相关性,将tf-idf看成一个排名函数,根据排名函数返回的得分,得分越高的文档放在返回用户的结果列表的位置越靠前。
83.s31、确定评论正负面情绪训练类型;本发明实施例使用0、1、2分别代表正常情绪、负面情绪、正面情绪。
84.s32、格式化评论数据json格式;将选取的目标文本转换为{"content":"我今天很不开心"}的json格式列表。
85.s33、评论正负面训练模型训练模块开始训练数据;选择合适的损失函数和优化器,以最小化损失函数并提高模型的准确性。经过多轮训练后,可以得到一个情绪训练模型,能够用于对选取的数据的情绪进行分类和预测。
86.s34、评论正负面训练模型测试模块开始测试;使用评论文本测试数据,最高score值作为该文本的情绪类型,如图7所示。
87.本发明又一实施例提供的一种基于新闻客户端的突发事件预警信息分析方法,包括:
88.对新闻客户端发布的原始文章数据进行格式化预处理,获得预处理后的格式化文本数据,格式化图片数据和格式化评论数据;
89.获取用户自定义的突发预警标签;
90.对格式化文本数据进行分析,提取出时间、地点、人物、机构和自定义的预警信息;
91.对格式化图片数据进行分析,对特征目标区域的字符进行分割和分类;
92.对格式化评论数据进行分析,以对评论数据的情绪进行分类和预测,获得原始文章数据的情绪类型。
93.在本发明又一实施例中还提供了一种电子设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述所述的系统。
94.在本发明又一实施例中还提供了一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现上述所述的系统。
95.这里说明的模块数量和处理规模是用来简化本发明的说明的。对本发明的基于新闻客户端的突发事件预警信息分析系统及其方法的应用、修改和变化对本领域的技术人员来说是显而易见的。
96.如上所述,本发明实施例提供的系统,能够快速分析新闻文章信息中用户关注的时间、地点、人物、机构和主题信息,以及能够从文本正文、正文中的图片和评论正负面情绪三个维度进行全方位识别分析。本发明实施例提供的方法,能够快速获取新闻文章中的关键点,提高了用户获取信息的效率,进一步也提高了新闻客户端用户的阅读体验和满意度。
97.尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

技术特征:
1.基于新闻客户端的突发事件预警信息分析系统,其特征在于,包括:数据处理模块,其用于对新闻客户端发布的原始文章数据进行格式化预处理,获得预处理后的格式化文本数据,格式化图片数据和格式化评论数据;自定义标签模块,其用于获取用户自定义的突发预警标签;文本分析模块,其用于对格式化文本数据进行分析,提取出时间、地点、人物、机构和自定义的预警信息;图片分析模块,其用于对格式化图片数据进行分析,对特征目标区域的字符进行分割和分类;评论情绪分析模块,其用于对格式化评论数据进行分析,以对评论数据的情绪进行分类和预测,获得原始文章数据的情绪类型。2.如权利要求1所述的基于新闻客户端的突发事件预警信息分析系统,其特征在于,所述格式化文本数据为json格式,所述格式化图片数据为json格式,所述格式化评论数据为json格式。3.如权利要求1所述的基于新闻客户端的突发事件预警信息分析系统,其特征在于,所述文本分析模块通过构建文本数据训练模型对格式化文本数据进行分析,具体包括:文本数据训练模型生成模块,其用以对文本数据生成所述文本数据训练模型;文本数据训练模型训练模块,其用以对生成的所述文本数据训练模型进行训练;文本数据训练模型测试模块,其用以对训练好的文本数据训练模型进行测试。4.如权利要求3所述的基于新闻客户端的突发事件预警信息分析系统,其特征在于,所述图片分析模块通过构建图片数据训练模型对格式化图片数据进行分析,具体包括:图片数据训练模型生成模块,其用以对图片数据生成所述图片数据训练模型;图片数据训练模型训练模块,其用以对生成的所述图片数据训练模型进行训练;图片数据训练模型测试模块,其用以对训练好的图片数据训练模型进行测试。5.如权利要求4所述的基于新闻客户端的突发事件预警信息分析系统,其特征在于,所述评论情绪分析模块通过构建评论正负面训练模型对格式化评论数据进行分析,具体包括:评论正负面训练模型生成模块,其用以对评论数据生成所述评论正负面训练模型;评论正负面训练模型训练模块,其用以对生成的评论正负面训练模型进行训练;评论正负面训练模型测试模块,其用以对训练好的评论正负面训练模型进行测试。6.如权利要求5所述的基于新闻客户端的突发事件预警信息分析系统,其特征在于,所述文本数据训练模型生成模块采用corenlp系统进行文本识别,文本数据训练实体类型为时间、地点、人物、机构以及自定义标签;所述图片数据训练模型生成模块采用文本检测、文本识别、人物和物体四个模型来对图像中的特征进行提取和检测目标区域;所述评论正负面训练模型生成模块采用tf/idf模型来计算关键词与文本的相关性,评论正负面训练情绪类型为数字0代表正常情绪、数字1代表负面情绪、数字2代表正面情绪。7.基于新闻客户端的突发事件预警信息分析方法,其特征在于,包括:对新闻客户端发布的原始文章数据进行格式化预处理,获得预处理后的格式化文本数据,格式化图片数据和格式化评论数据;
获取用户自定义的突发预警标签;对格式化文本数据进行分析,提取出时间、地点、人物、机构和自定义的预警信息;对格式化图片数据进行分析,对特征目标区域的字符进行分割和分类;对格式化评论数据进行分析,以对评论数据的情绪进行分类和预测,获得原始文章数据的情绪类型。8.电子设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6中任一项所述的系统。9.存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时,实现权利要求1-6中任一项所述的系统。

技术总结
本发明提供了一种基于新闻客户端的突发事件预警信息分析系统,包括:数据处理模块,其对原始文章数据进行格式化预处理;自定义标签模块,其用于获取突发预警标签;文本分析模块,其对格式化文本数据进行分析,提取出时间、地点、人物、机构和自定义的预警信息;图片分析模块,其对格式化图片数据进行分析,对特征目标区域的字符进行分割和分类;评论情绪分析模块,其用于对格式化评论数据进行分析,获得原始文章数据的情绪类型。本发明还提供了一种基于新闻客户端的突发事件预警信息分析方法。本发明能够快速分析新闻文章信息中时间、地点、人物、机构和主题信息,以及能够从文本正文、正文中图片和评论正负面情绪三个维度进行全方位识别分析。位识别分析。位识别分析。


技术研发人员:朱晓航 张旭 刘春阳 刘星辰 王鹏
受保护的技术使用者:国家计算机网络与信息安全管理中心
技术研发日:2023.05.08
技术公布日:2023/10/15
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐