一种舆情监测方法、装置、设备及存储介质与流程
未命名
09-17
阅读:67
评论:0

1.本发明涉及信息识别技术领域,特别涉及一种舆情监测方法、装置、设备及存储介质。
背景技术:
2.当前,企业风险预警领域在企业中应用范围越来越广,主要依赖于众多的人工智能技术的支撑。大量的舆情数据对于企业的风险预警与防范起到了非常重要的作用。目前风险舆情监控技术中使用到的技术比较简单,生成的舆情数据需要大量人工介入审核提升质量。一方面,在网页爬虫后只进行简单的关键词和来源过滤,而每天网页发布的新闻数量庞大,转发转载的更是数不胜数,如果没有有效的过滤、除重技术,数据质量无法保证。另一方面,针对于新闻文本当中组织机构和事件标签,常用技术是分别采用信息抽取技术抽取机构和文本分类技术识别事件,两者之间没有建立关联,当文本出现多机构多事件时,无法确定机构所对应的事件,需要人工审核标正。
3.由此可见,如何过滤新闻信息中无效的数据,以及如何提高新闻信息与舆情信息之间的关联性是本领域要解决的问题。
技术实现要素:
4.有鉴于此,本发明的目的在于提供一种舆情监测方法、装置、设备及存储介质,能够对新闻数据进行多次过滤,并且可以得到高质量的实体标签,能够提高舆情监测效果。其具体方案如下:第一方面,本技术提供了一种舆情监测方法,包括:从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据;利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面新闻数据和正面新闻数据;对所述负面新闻数据的内容进行分割,得到若干信息实体,并基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果。
5.可选的,所述从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据,包括:从预设数据源中爬取结构化新闻网页;根据预设网页信息提炼规则对所述结构化新闻网页进行处理,得到相应的原始新闻文本;对相似度超过预设阈值的若干个所述原始新闻文本进行去重以及合并操作,以得到初始新闻数据。
6.可选的,所述利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,包括:利用第一预设二分类模型识别所述初始新闻数据中的广告文本信息;根据预设敏感词集合从所述广告文本信息中筛选出敏感文本信息;从所述初始新闻数据中滤除所述广告文本信息,并将滤除后数据与所述敏感文本信息进行合并,以得到有效新闻数据。
7.可选的,所述对所述负面新闻数据的内容进行分割,得到若干信息实体,包括:基于预设标点符号对所述负面新闻数据的内容进行分割,得到若干信息实体。
8.可选的,所述基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果,包括:根据所述若干信息实体的内容确定所述若干信息实体对应的企业信息和若干舆情标签;基于预设信息抽取模型对所述若干信息实体对应的所述舆情标签进行抽取,得到与所述负面新闻数据对应的针对所述企业信息的舆情监测结果。
9.可选的,所述基于预设信息抽取模型对所述若干信息实体对应的所述舆情标签进行抽取的过程中,还包括:若所述若干信息实体对应的所述企业信息以及所述若干舆情信息之间存在重复的情况,则对出现重复的企业信息以及相应的舆情信息进行合并,以得到针对所述企业信息的舆情监测结果。
10.可选的,所述得到与所述负面新闻数据对应的舆情监测结果之后,还包括:通过预设人机交互接口获取针对所述舆情监测结果的调整操作;执行所述调整操作,以得到调整后舆情监测结果。
11.第二方面,本技术提供了一种舆情监测装置,包括:新闻数据获取模块,用于从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据;新闻数据处理模块,用于利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面新闻数据和正面新闻数据;舆情监测结果生成模块,用于对所述负面新闻数据的内容进行分割,得到若干信息实体,并基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果。
12.第三方面,本技术提供了一种电子设备,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序以实现如上述的舆情监测方法。
13.第四方面,本技术提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如上述的舆情监测方法。
14.由此可见,本技术可以从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据;利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面
新闻数据和正面新闻数据;对所述负面新闻数据的内容进行分割,得到若干信息实体,并基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果。这样一来,本技术可以利用预设二分类模型对新闻数据进行多次过滤,得到有效的新闻数据,并且本技术可以通过预设信息抽取模型抽取信息实体对应的舆情标签,这样可以强关联该信息实体中的核心语义,从而高质量标注舆情标签,能够提高舆情监测效果。
附图说明
15.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
16.图1为本技术公开的一种舆情监测方法流程图;图2为本技术公开的一种新闻数据处理流程图;图3为本技术公开的一种垃圾新闻过滤流程图;图4为本技术公开的一种新闻文本分割示意图;图5为本技术公开的一种具体的舆情监测方法流程图;图6为本技术公开的一种舆情标签抽取流程图;图7为本技术公开的一种信息块对比示意图;图8为本技术公开的另一种具体的舆情监测方法流程图;图9为本技术公开的一种舆情监测装置结构示意图;图10为本技术公开的一种电子设备结构图。
具体实施方式
17.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
18.参见图1所示,本发明实施例公开了一种舆情监测方法,包括:步骤s11、从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据。
19.本技术中,可以从不同的数据源对原始新闻文本进行爬取,其中数据源可以包括各种网站的新闻源。在新闻爬取的过程中,需要对相似的新闻进行去重合并,以整合得到初始新闻数据。
20.在一种具体的实施例中,所述从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据,可以包括:从预设数据源中爬取结构化新闻网页;根据预设网页信息提炼规则对所述结构化新闻网页进行处理,得到相应的原始新闻文本;对相似度超过预设阈值的若干个所述原始新闻文本进行去重以及合并操作,以得到初始新闻数据。具体的,首先从预设数据源爬取结构化新闻网页,然后可以利用预设网页信息提炼
规则处理相关网页,以得到与结构化新闻网页对应的原始新闻文本;可以理解的是,不同数据源中可能存在相似的新闻信息,此时可以对原始新闻文本之间相似度超过预设阈值的若干个原始新闻文本进行去重处理,然后再合并,以得到与原始新闻文本对应的初始新闻数据。在具体的实施例中,如图2所示,也可以对不同新闻源中的信息进行去重与合并,再进行html(hyper text markup language,超文本标记语言)结构化处理。
21.步骤s12、利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面新闻数据和正面新闻数据。
22.可以理解的是,数据源中的信息复杂众多,并且其中有可能存在大量的广告文本信息,因此,需要对得到的初始新闻数据进行清洗过滤,得到真实的正负面新闻数据。在一种具体的实施例中,所述利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,可以包括:利用第一预设二分类模型识别所述初始新闻数据中的广告文本信息;根据预设敏感词集合从所述广告文本信息中筛选出敏感文本信息;从所述初始新闻数据中滤除所述广告文本信息,并将滤除后数据与所述敏感文本信息进行合并,以得到有效新闻数据。具体的,可以利用第一预设二分类模型识别初始新闻数据中的广告文本信息,筛除掉无用的广告信息,同时根据预设敏感词集合从广告文本信息中筛选出现敏感词的敏感文本信息,然后可以在初始新闻数据中剔除广告文本信息,得到滤除后数据,并将敏感文本信息合并至滤除后数据,以得到有效新闻数据。在具体的实施例中,如图3所示,可以提前利用垃圾新闻对第一预设二分类模型进行训练,之后利用该模型对新闻预测得到相应的舆情监测结果;在这个过程中,可以人工介入校正该第一预设二分类模型;并且通过该模型得到的舆情监测结果也可以经后验规则库校正。
23.进一步的,可以利用第二预设二分类模型对得到的有效新闻数据中的正负面新闻数据进行划分,可以得到相应的负面新闻数据和正面新闻数据,本技术主要针对负面新闻数据进行舆情监测。
24.步骤s13、对所述负面新闻数据的内容进行分割,得到若干信息实体,并基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果。
25.本技术中,通过前述步骤可以得到干净有效的新闻数据,这样得到的文本内容通常会很冗长,之后可以针对负面新闻数据进行内容分割,得到若干信息实体;在具体的实施例中,所述对所述负面新闻数据的内容进行分割,得到若干信息实体,可以包括:基于预设标点符号对所述负面新闻数据的内容进行分割,得到若干信息实体。具体的,可以根据句子片段对新闻数据进行分割,其中预设标点符合可以包括:句号、感叹号、分号等独立意义较强的标点符号,这样可以得到若干个独立的信息实体。然后可以利用预设信息抽取模型抽取信息实体对应的若干舆情标签,以得到与负面新闻数据对应的舆情监测结果。如图4所示,一个冗长的新闻文本可以被分割为三个简短的信息实体。
26.在一种具体的实施例中,所述得到与所述负面新闻数据对应的舆情监测结果之后,还可以包括:通过预设人机交互接口获取针对所述舆情监测结果的调整操作;执行所述调整操作,以得到调整后舆情监测结果。具体的,得到舆情监测结果之后,还可以通过预设人机交互接口获取工作人员针对该舆情监测结果的调整操作,可以根据调整操作对舆情监
测结果进行调整,得到调整后舆情监测结果;这样可以结合工作人员的意见得到符合预期的舆情监测结果。
27.由此可见,本技术可以根据二分类模型对新闻数据进行多次处理,滤除其中的广告信息,并对重复的新闻进行合并,再筛选正面和负面新闻数据,可以到真实有效的正面和负面新闻数据;并且本技术可以对新闻文本进行分割得到信息实体,再通过信息抽取模型可以得到信息实体对应的舆情标签,可以强关联信息实体中的核心语义,能够得到高质量的舆情监测结果。
28.参见图5所示,本发明实施例公开了一种舆情监测方法,包括:步骤s21、从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据。
29.步骤s22、利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面新闻数据和正面新闻数据。
30.步骤s23、对所述负面新闻数据的内容进行分割,得到若干信息实体。
31.步骤s24、根据所述若干信息实体的内容确定所述若干信息实体对应的企业信息和若干舆情标签。
32.本技术实施例中,可以根据信息实体的内容利用实体识别技术对该信息实体进行标注,利用该实体信息发生的舆情信息作为其信息标注对应的标签信息。例如,一个信息实体中,“a公司”在该信息实体中反应的舆情风险为“市场预警#股权拍卖”这个标签,则在对应的实体位置标注舆情风险即可。这样可以根据信息实体的内容确定出相应的企业信息以及舆情标签信息。
33.步骤s25、基于预设信息抽取模型对所述若干信息实体对应的所述舆情标签进行抽取,得到与所述负面新闻数据对应的针对所述企业信息的舆情监测结果。
34.可以理解的是,若信息实体的一个实体节点同时发生多个舆情,则可以对该实体同时标注2类以上的重叠标签。由此,可以建立企业与舆情信息的联系,形成了一个重叠标签的实体抽取问题,此时可以利用预设信息抽取模型对信息实体对应的若干舆情标签进行抽取,这样可以强关联信息实体中的核心语义。在具体的实施例中,如图6所示,首先根据信息块的内容对实体与舆情对应的信息进行标注,这里有可能得到多个舆情标签,可以通过uie(universal information extraction,通用信息抽取)模型进行舆情实体(舆情标签)抽取,这样可以得到与企业库中企业对应的实体链接,即企业对应的舆情监测结果;此时可以根据得到的结果人工介入校正舆情标注过程,补充一些错误率较高的分类标签,从而进一步提升模型抽取效果。
35.在一种具体的实施例中,所述基于预设信息抽取模型对所述若干信息实体对应的所述舆情标签进行抽取的过程中,还可以包括:若所述若干信息实体对应的所述企业信息以及所述若干舆情信息之间存在重复的情况,则对出现重复的企业信息以及相应的舆情信息进行合并,以得到针对所述企业信息的舆情监测结果。具体的,若多个信息实体中出现企业信息以及舆情信息重复的情况,可以将与单个企业信息相关的所有舆情信息合并到一起,得到与该企业对应的舆情监测结果。例如,如图7所示,两个信息块中存在重合的舆情标签,则可以根据企业信息进行合并;同时也可以过滤掉概率较低的标签。
36.其中,关于上述步骤s21、s22和s23更加具体的处理过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
37.由此可见,本技术可以对新闻数据进行分割,得到若干信息实体,然后根据信息实体的内容确定对应的企业信息以及相应的舆情标签,之后再通过预设信息抽取模型对该信息实体的与舆情标签进行抽取,可以得到高质量的舆情信息,然后整合企业对应的舆情信息,以得到高质量的舆情监测结果。
38.如图8所示,本技术公开了一种舆情监测方法,包括:本技术实施例中,首先从预设数据源中爬取新闻,并对爬取到的结构化新闻网页进行预处理,预处理可以包括转化新闻网页的信息得到原始新闻文本;之后再对原始新闻文本之间相似度较高的文本进行合并得到初始新闻数据。进一步的,可以对初始新闻数据中的垃圾新闻(广告信息等)进行滤除操作,以滤除无用信息和广告之后得到有用信息(有效新闻数据)。然后利用预设二分类模型对有用信息进行正负面舆情识别,得到正面新闻数据和负面新闻数据,本技术主要针对负面新闻数据进行舆情监测。之后可以根据预设标点符号对负面新闻数据进行文本分割,可以得到若干信息块(信息实体)然后识别信息实体的内容得到相对应的企业信息和舆情标签,其中,一个信息实体中的内容节点可能对应若干个舆情实体。由于大部分的企业名为企业简称,因此需要在不同的实体与各个企业信息之间建立链接,从而链接到企业库的全称之中,该过程可以根据企业信息聚合不同信息块中针对该企业的舆情信息,这样可以得到针对单个企业的舆情监测信息,或者可以针对单个舆情信息关联若干企业,然后将得到的舆情监测结果保存至预设数据库中。同时,对于存在较大错误的标签,可以人为参与进行修正,这样方便后面对模型调优,从而提升预测效果。
39.由此可见,本技术可以通过二分类模型对新闻数据进行多次处理,得到有效的负面新闻数据;之后通过文本分割以及标签抽取可以得到高质量语义的舆情监测结果。
40.如图9所示,本技术公开了一种舆情监测装置,包括:新闻数据获取模块11,用于从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据;新闻数据处理模块12,用于利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面新闻数据和正面新闻数据;舆情监测结果生成模块13,用于对所述负面新闻数据的内容进行分割,得到若干信息实体,并基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果。
41.由此可见,本技术可以利用预设二分类模型对新闻数据进行多次过滤,得到有效的新闻数据,并且本技术可以通过预设信息抽取模型抽取信息实体对应的舆情标签,这样可以强关联该信息实体中的核心语义,从而高质量标注舆情标签,能够提高舆情监测效果。
42.在一种具体的实施例中,所述新闻数据获取模块11,可以包括:新闻网页爬取单元,用于从预设数据源中爬取结构化新闻网页;新闻网页处理单元,用于根据预设网页信息提炼规则对所述结构化新闻网页进行处理,得到相应的原始新闻文本;新闻文本处理单元,用于对相似度超过预设阈值的若干个所述原始新闻文本进行
去重以及合并操作,以得到初始新闻数据。
43.在一种具体的实施例中,所述新闻数据处理模块12,可以包括:广告信息识别单元,用于利用第一预设二分类模型识别所述初始新闻数据中的广告文本信息;敏感信息筛选单元,用于根据预设敏感词集合从所述广告文本信息中筛选出敏感文本信息;新闻数据处理单元,用于从所述初始新闻数据中滤除所述广告文本信息,并将滤除后数据与所述敏感文本信息进行合并,以得到有效新闻数据。
44.在一种具体的实施例中,所述舆情监测结果生成模块13,可以包括:新闻数据分割单元,用于基于预设标点符号对所述负面新闻数据的内容进行分割,得到若干信息实体。
45.在另一种具体的实施例中,所述舆情监测结果生成模块13,可以包括:信息实体处理单元,用于根据所述若干信息实体的内容确定所述若干信息实体对应的企业信息和若干舆情标签;舆情监测结果生成子模块,用于基于预设信息抽取模型对所述若干信息实体对应的所述舆情标签进行抽取,得到与所述负面新闻数据对应的针对所述企业信息的舆情监测结果。
46.在又一种具体的实施例中,所述舆情监测结果生成子模块,还可以包括:信息合并单元,用于所述若干信息实体对应的所述企业信息以及所述若干舆情信息之间存在重复的情况,则对出现重复的企业信息以及相应的舆情信息进行合并,以得到针对所述企业信息的舆情监测结果。
47.在一种具体的实施例中,所述装置还可以包括:调整操作获取单元,用于通过预设人机交互接口获取针对所述舆情监测结果的调整操作;舆情监测结果调整单元,用于执行所述调整操作,以得到调整后舆情监测结果。
48.进一步的,本技术实施例还公开了一种电子设备,图10是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本技术的使用范围的任何限制。
49.图10为本技术实施例提供的一种电子设备20的结构示意图。该电子设备 20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的舆情监测方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
50.本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本技术技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
51.另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂
存储或者永久存储。
52.其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是windows server、netware、unix、linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的舆情监测方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
53.进一步的,本技术还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的舆情监测方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
54.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
55.专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
56.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
57.最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
58.以上对本技术所提供的技术方案进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的一般技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
技术特征:
1.一种舆情监测方法,其特征在于,包括:从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据;利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面新闻数据和正面新闻数据;对所述负面新闻数据的内容进行分割,得到若干信息实体,并基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果。2.根据权利要求1所述的舆情监测方法,其特征在于,所述从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据,包括:从预设数据源中爬取结构化新闻网页;根据预设网页信息提炼规则对所述结构化新闻网页进行处理,得到相应的原始新闻文本;对相似度超过预设阈值的若干个所述原始新闻文本进行去重以及合并操作,以得到初始新闻数据。3.根据权利要求1所述的舆情监测方法,其特征在于,所述利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,包括:利用第一预设二分类模型识别所述初始新闻数据中的广告文本信息;根据预设敏感词集合从所述广告文本信息中筛选出敏感文本信息;从所述初始新闻数据中滤除所述广告文本信息,并将滤除后数据与所述敏感文本信息进行合并,以得到有效新闻数据。4.根据权利要求1所述的舆情监测方法,其特征在于,所述对所述负面新闻数据的内容进行分割,得到若干信息实体,包括:基于预设标点符号对所述负面新闻数据的内容进行分割,得到若干信息实体。5.根据权利要求1所述的舆情监测方法,其特征在于,所述基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果,包括:根据所述若干信息实体的内容确定所述若干信息实体对应的企业信息和若干舆情标签;基于预设信息抽取模型对所述若干信息实体对应的所述舆情标签进行抽取,得到与所述负面新闻数据对应的针对所述企业信息的舆情监测结果。6.根据权利要求5所述的舆情监测方法,其特征在于,所述基于预设信息抽取模型对所述若干信息实体对应的所述舆情标签进行抽取的过程中,还包括:若所述若干信息实体对应的所述企业信息以及所述若干舆情信息之间存在重复的情况,则对出现重复的企业信息以及相应的舆情信息进行合并,以得到针对所述企业信息的舆情监测结果。7.根据权利要求1至6任一项所述的舆情监测方法,其特征在于,所述得到与所述负面新闻数据对应的舆情监测结果之后,还包括:通过预设人机交互接口获取针对所述舆情监测结果的调整操作;
执行所述调整操作,以得到调整后舆情监测结果。8.一种舆情监测装置,其特征在于,包括:新闻数据获取模块,用于从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据;新闻数据处理模块,用于利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面新闻数据和正面新闻数据;舆情监测结果生成模块,用于对所述负面新闻数据的内容进行分割,得到若干信息实体,并基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果。9.一种电子设备,其特征在于,包括:存储器,用于保存计算机程序;处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的舆情监测方法。10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的舆情监测方法。
技术总结
本申请公开了一种舆情监测方法、装置、设备及存储介质,涉及信息识别技术领域,包括:从预设数据源中爬取原始新闻文本,并对所述原始新闻文本进行整合,得到初始新闻数据;利用第一预设二分类模型对所述初始新闻数据进行过滤,得到有效新闻数据,并利用第二预设二分类模型对所述有效新闻数据进行划分,得到负面新闻数据和正面新闻数据;对所述负面新闻数据的内容进行分割,得到若干信息实体,并基于预设信息抽取模型对所述若干信息实体对应的舆情标签进行抽取,得到与所述负面新闻数据对应的舆情监测结果。这样一来,本申请可以通过二分类模型对新闻数据进行多次过滤,并且通过信息抽取模型可以得到高质量的实体标签,提高了舆情监测效果。情监测效果。情监测效果。
技术研发人员:顾树明 唐平 徐杨远翔 杜明凌 王彬源
受保护的技术使用者:浙江同信企业征信服务有限公司
技术研发日:2023.08.15
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种带压管道气体分析方法及系统与流程 下一篇:一种T型三电平电路的制作方法