一种市场监管互联网情报监测与分析系统的制作方法

未命名 07-12 阅读:245 评论:0


1.本发明属于互联网信息采集分析技术领域,具体涉及一种市场监管互联网情报监测与分析系统。


背景技术:

2.当前互联网已成为获取各类信息的重要平台,在互联网大量的信息中也存在许多与市场监管执法相关的信息,比如:消费者吐槽、投诉、曝光、报料等,此类信息是监管执法的重要线索来源,同时市场监管部门也迫切的需要加强对市场主体的服务和监管,推进简政放权和政府职能转变,提高政府治理能力。加强情报工作的建设,利用信息技术提高情报分析效率,建立健全功能完善的情报信息中心和快速反应机制,是提高执法办案工作的精细化、科技化、法制化水平,充分发挥市场监管和行政执法职能的当务之急和重要保证。
3.但互联网信息庞杂,信息采集与处理是一个技术难点,同时市场监管违法行为的判定分析技术也成为本领域亟需解决的一个技术问题。


技术实现要素:

4.针对于上述现有技术的不足,本发明的目的在于提供一种市场监管互联网情报监测与分析系统,以解决现有技术中互联网信息采集困难和市场监管违法行为判定困难的问题。本发明通过采集网站配置实现了互联网站点的监测,通过人工智能算法模型判定市场监管违法行为,为市场监管领域情报获取提供有力支撑。
5.为达到上述目的,本发明采用的技术方案如下:
6.本发明提供一种市场监管互联网情报监测与分析系统,包括:cnn模型构建模块、互联网信息采集模块、情报信息预处理模块和情报信息挖掘模块;其中,
7.所述cnn模型构建模块,用于使用市场监管违法行为样本构建cnn违法行为分析模型;
8.所述互联网信息采集模块,用于定向监测互联网站点,采集互联网公开信息,以获取情报信息;
9.所述情报信息预处理模块,用于对所述采集到的情报信息进行清洗去重,通过url判定和文字乱码判定过滤无效信息,对清洗后的情报信息进行分词处理;
10.所述情报信息挖掘模块,用于使用cnn违法行为分析模型对分词处理后的情报信息进行违法行为的判定、市场主体识别和所属地区识别。
11.进一步地,所述构建cnn违法行为分析模型具体包括:
12.11)获取市场监管违法行为的样本库;
13.12)使用结巴分词对市场监管违法行为的样本库中样本文章进行分词预处理、去除停用词、去除低频词;
14.13)使用tf-idf算法提取每类样本前200个词作为特征关键词,计算结果作为关键词在对应违法行为分类中的特征权重值;其中,特征关键词在某类违法行为样本中不存在
时,该特征关键词在该类违法行为中的权重值为0,构建特征词库;
15.14)使用构建后的特征词库对样本文档建模;获取样本文档的词组,通过查找样本分类下的各个出现词的权重值,组合成一个表示该文档的文档向量,如下:
16.[w1,w2,0,0,0,w3,

wn,ti](1)
[0017]
其中,wi代表该词di在ti这个违法行为分类中的权重值;以实现词汇信息到语义空间的映射;将所有样本数据按上式(1)进行文档表示,获得一个文档词向量模型;
[0018]
15)将文档向量模型添加到神经网络中进行训练,得到准确率、召回率,经过反复评估确认后得到cnn违法行为分析模型。
[0019]
进一步地,所述互联网信息采集模块通过配置正则表达式解析网站中某个版块下的链接来获得帖子列表,再通过css选择器、json规则和正则表达式配置帖子的标题解析规则、作者解析规则、发布时间解析规则和正文解析规则,实现网页内容的结构化。
[0020]
进一步地,所述互联网信息采集模块配置有需要采集的互联网站点和频道版块,并配置有采集版块规则和采集帖子规则,对指定的互联网站点进行不间断采集,并实现文章标题、关键词、敏感词、发布时间、作者、摘要的识别与集;具体包括:
[0021]
21)采集网站管理:对需要采集的网站进行管理,并维护该网站的版块栏目,作为采集任务;
[0022]
22)网站版块规则配置:根据采集网站配置的采集任务,进行版块规则配置,包括配置版块规则名称、站点名称匹配、页面编码、版块页数、版块url、帖子规则类型、帖子uid规则和帖子链接规则;
[0023]
23)网站版块解析:根据版块规则配置,通过正则表达式解析regex.matcher和css选择器解析获取需要采集的帖子链接列表;
[0024]
24)网站帖子规则配置:配置帖子规则名称、站点名称匹配、页面编码、采集规则类型、标题规则、作者规则、发布时间规则、正文规则、干扰码规则;
[0025]
25)网站帖子内容解析:根据帖子的配置规则,通过正则表达式解析regex.matcher、css选择器、json规则解析获取情报信息并存入数据库。
[0026]
进一步地,所述情报信息预处理模块具体包括:
[0027]
检测情报信息并去除重复数据:在redis缓存中存储所有帖子的url地址,采集时先判断url地址是否被采集过,如果该url地址存在则跳过,执行下一条任务;如果不存在则执行帖子解析任务并记录url地址;
[0028]
脏数据丢弃和乱码数据清洗:通过java判断中文字符串是否为gbk编码,来判断是否为乱码,若为乱码则丢弃;若非乱码则进行html标签过滤;通过正则表达式匹配正文中是否存在大量html标签,来判断是否为解析失败的脏数据,若为脏数据则丢弃;若非脏数据则存入数据库;
[0029]
使用结巴分词对文本进行分词处理:维护自定义的词典,以便包含结巴词库里没有的词,分词基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图。
[0030]
进一步地,所述情报信息挖掘模块具体包括:
[0031]
将文本中的词语转换为词频矩阵,使用tfidftransformer()统计每个词语的tf-idf权值,将tf-idf矩阵抽取出来,元素w[i][j]表示j词在i类文本中的tf-idf权重;将w[i]
[j]转换为array数组,做为参数进行train_test_split分割xy列表;定义x_train矩阵的数目对应y_train列表的数目用来训练模型,定义x_test矩阵的数目用来测试模型的准确性;使用
[0032]
x_train,x_test,y_train,y_test=train_test_split(x,labels,test_size=0.3,random_state=1)获取分割的xy列表;
[0033]
定义模型clf=randomforestclassifier(n_estimators=20),对模型进行训练clf.fit(x_train,y_train);使用clf.score(x_test,y_test)对模型进行准确度计算,使用clf.predict(x_test)预测结果。
[0034]
进一步地,所述市场主体的识别,指结合市场监管总局主体库内市场主体信息,通过布隆过滤器对网络信息中的主体进行识别,并对主体库中的企业名称进行简称处理;利用定时任务调度机制,实时将采集的网络信息分别与主体库、企业名称简称库中企业名称进行匹配,识别相关主体信息;所述所属地区的识别,指结合地址库信息,通过布隆过滤器对采集的网络信息中的地区进行识别,对地址库中的地点名称进行简称和别称处理;利用定时任务调度机制,实时将从互联网上采集的网络信息与地址库进行匹配,识别相关地区信息。
[0035]
本发明的有益效果:
[0036]
1、本发明中互联网信息采集部分,通过css选择器和正则表达式可实现对大多数网站的配置采集,避免对每个网站开发采集程序,达到通用采集的目的,减轻开发人员的工作量。
[0037]
2、本发明使用结巴分词对文本进行中文分词处理,创建市场监管领域词库,提供分词的精准度。
[0038]
3、本发明的主体识别和地区识别中,面对海量的情报信息,利用bloom filter空间效率高和查询时间快的特性,快速识别主体名称和地点名称,提高数据分析效率。
[0039]
4、本发明为解决关键词评价情报不准确和信息遗漏的问题,使用cnn算法对人工标记后的样本数据进行建模,利用模型判定违法行为;通过不断积累样本数据,重复训练达到机器学习的目的,逐渐提高判定准确率。
附图说明
[0040]
图1为本发明系统的结构框图。
[0041]
图2为cnn模型构建流程图。
具体实施方式
[0042]
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
[0043]
参照图1所示,本发明提供一种市场监管互联网情报监测与分析系统,包括:cnn模型构建模块、互联网信息采集模块、情报信息预处理模块和情报信息挖掘模块;其中,
[0044]
所述cnn模型构建模块,用于使用市场监管违法行为样本构建cnn违法行为分析模型;
[0045]
所述互联网信息采集模块,用于定向监测互联网站点,采集互联网公开信息,以获
取情报信息;
[0046]
所述情报信息预处理模块,用于对所述采集到的情报信息进行清洗去重,通过url判定和文字乱码判定过滤无效信息,对清洗后的情报信息进行分词处理;
[0047]
所述情报信息挖掘模块,用于使用cnn违法行为分析模型对分词处理后的情报信息进行违法行为的判定、市场主体识别和所属地区识别。
[0048]
其中,如图2所示,所述构建cnn违法行为分析模型具体包括:
[0049]
11)获取市场监管违法行为的样本库(例如:不正当竞争样本、传销行为样本、广告违法样本、非违法行为样本库等);
[0050]
12)使用结巴分词对市场监管违法行为的样本库中样本文章进行分词预处理、去除停用词、去除低频词;
[0051]
13)使用tf-idf算法提取每类样本前200个词作为特征关键词,计算结果作为关键词在对应违法行为分类中的特征权重值;其中,特征关键词在某类违法行为样本中不存在时,该特征关键词在该类违法行为中的权重值为0,构建特征词库;如下表1:
[0052]
表1
[0053] t1t2t3..tnd1w11w12
……
w1n
………………
dnwn1
………
wnn
[0054]
其中,di代表特征词,ti代表违法行为,wij代表特征词在该违法行为下的权重值,i=(1,2

n),j=(1,2

n);
[0055]
14)使用构建后的特征词库对样本文档建模;获取样本文档的词组,通过查找样本分类下的各个出现词的权重值,组合成一个表示该文档的文档向量,如下:
[0056]
[w1,w2,0,0,0,w3,

wn,ti](1)
[0057]
其中,wi代表该词di在ti这个违法行为分类中的权重值;以实现词汇信息到语义空间的映射;将所有样本数据按上式(1)进行文档表示,获得一个文档词向量模型;
[0058]
15)将文档向量模型添加到神经网络中进行训练,得到准确率(即预测正确的结果占总样本的百分比)、召回率(即在实际为正的样本中被预测为正样本的概率),经过反复评估确认后得到cnn违法行为分析模型。
[0059]
其中,所述互联网信息采集模块通过配置正则表达式解析网站中某个版块下的链接来获得帖子列表,再通过css选择器、json规则和正则表达式配置帖子的标题解析规则、作者解析规则、发布时间解析规则和正文解析规则,实现网页内容的结构化。
[0060]
其中,所述互联网信息采集模块配置有需要采集的互联网站点和频道版块,并配置有采集版块规则和采集帖子规则,对指定的互联网站点进行不间断采集,并实现文章标题、关键词、敏感词、发布时间、作者、摘要的识别与集;具体包括:
[0061]
21)采集网站管理:对需要采集的网站进行管理,并维护该网站的版块栏目,作为采集任务;
[0062]
22)网站版块规则配置:根据采集网站配置的采集任务,进行版块规则配置,包括配置版块规则名称、站点名称匹配、页面编码、版块页数、版块url、帖子规则类型、帖子uid规则和帖子链接规则;
[0063]
23)网站版块解析:根据版块规则配置,通过正则表达式解析regex.matcher和css选择器解析获取需要采集的帖子链接列表;
[0064]
24)网站帖子规则配置:配置帖子规则名称、站点名称匹配、页面编码、采集规则类型、标题规则、作者规则、发布时间规则、正文规则、干扰码规则;
[0065]
25)网站帖子内容解析:根据帖子的配置规则,通过正则表达式解析regex.matcher、css选择器、json规则解析获取情报信息并存入数据库。
[0066]
其中,所述情报信息预处理模块具体包括:
[0067]
检测情报信息并去除重复数据:在redis缓存中存储所有帖子的url地址,采集时先判断url地址是否被采集过,如果该url地址存在则跳过,执行下一条任务;如果不存在则执行帖子解析任务并记录url地址;
[0068]
脏数据丢弃和乱码数据清洗:通过java判断中文字符串是否为gbk编码,来判断是否为乱码,若为乱码则丢弃;若非乱码则进行html标签过滤;通过正则表达式匹配正文中是否存在大量html标签,来判断是否为解析失败的脏数据,若为脏数据则丢弃;若非脏数据则存入数据库;
[0069]
使用结巴分词对文本进行分词处理:维护自定义的词典,以便包含结巴词库里没有的词,分词基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图。
[0070]
其中,所述市场主体的识别,指结合市场监管总局主体库内市场主体信息,通过布隆过滤器对网络信息中的主体进行识别,并对主体库中的企业名称进行简称处理;利用定时任务调度机制,实时将采集的网络信息分别与主体库、企业名称简称库中企业名称(简称)进行匹配,识别相关主体信息;所述所属地区的识别,指结合地址库信息,通过布隆过滤器对采集的网络信息中的地区进行识别,对地址库中的地点名称进行简称和别称处理;利用定时任务调度机制,实时将从互联网上采集的网络信息与地址库进行匹配,识别相关地区信息。
[0071]
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

技术特征:
1.一种市场监管互联网情报监测与分析系统,其特征在于,包括:cnn模型构建模块、互联网信息采集模块、情报信息预处理模块和情报信息挖掘模块;其中,所述cnn模型构建模块,用于使用市场监管违法行为样本构建cnn违法行为分析模型;所述互联网信息采集模块,用于定向监测互联网站点,采集互联网公开信息,以获取情报信息;所述情报信息预处理模块,用于对所述采集到的情报信息进行清洗去重,通过url判定和文字乱码判定过滤无效信息,对清洗后的情报信息进行分词处理;所述情报信息挖掘模块,用于使用cnn违法行为分析模型对分词处理后的情报信息进行违法行为的判定、市场主体识别和所属地区识别。2.根据权利要求1所述的市场监管互联网情报监测与分析系统,其特征在于,所述构建cnn违法行为分析模型具体包括:11)获取市场监管违法行为的样本库;12)使用结巴分词对市场监管违法行为的样本库中样本文章进行分词预处理、去除停用词、去除低频词;13)使用tf-idf算法提取每类样本前200个词作为特征关键词,计算结果作为关键词在对应违法行为分类中的特征权重值;其中,特征关键词在某类违法行为样本中不存在时,该特征关键词在该类违法行为中的权重值为0,构建特征词库;14)使用构建后的特征词库对样本文档建模;获取样本文档的词组,通过查找样本分类下的各个出现词的权重值,组合成一个表示该文档的文档向量,如下:[w1,w2,0,0,0,w3,

wn,ti](1)其中,wi代表该词di在ti这个违法行为分类中的权重值;以实现词汇信息到语义空间的映射;将所有样本数据按上式(1)进行文档表示,获得一个文档词向量模型;15)将文档向量模型添加到神经网络中进行训练,得到准确率、召回率,经过反复评估确认后得到cnn违法行为分析模型。3.根据权利要求1所述的市场监管互联网情报监测与分析系统,其特征在于,所述互联网信息采集模块通过配置正则表达式解析网站中某个版块下的链接来获得帖子列表,再通过css选择器、json规则和正则表达式配置帖子的标题解析规则、作者解析规则、发布时间解析规则和正文解析规则,实现网页内容的结构化。4.根据权利要求3所述的市场监管互联网情报监测与分析系统,其特征在于,所述互联网信息采集模块配置有需要采集的互联网站点和频道版块,并配置有采集版块规则和采集帖子规则,对指定的互联网站点进行不间断采集,并实现文章标题、关键词、敏感词、发布时间、作者、摘要的识别与集;具体包括:21)采集网站管理:对需要采集的网站进行管理,并维护该网站的版块栏目,作为采集任务;22)网站版块规则配置:根据采集网站配置的采集任务,进行版块规则配置,包括配置版块规则名称、站点名称匹配、页面编码、版块页数、版块url、帖子规则类型、帖子uid规则和帖子链接规则;23)网站版块解析:根据版块规则配置,通过正则表达式解析regex.matcher和css选择器解析获取需要采集的帖子链接列表;
24)网站帖子规则配置:配置帖子规则名称、站点名称匹配、页面编码、采集规则类型、标题规则、作者规则、发布时间规则、正文规则、干扰码规则;25)网站帖子内容解析:根据帖子的配置规则,通过正则表达式解析regex.matcher、css选择器、json规则解析获取情报信息并存入数据库。5.根据权利要求1所述的市场监管互联网情报监测与分析系统,其特征在于,所述情报信息预处理模块具体包括:检测情报信息并去除重复数据:在redis缓存中存储所有帖子的url地址,采集时先判断url地址是否被采集过,如果该url地址存在则跳过,执行下一条任务;如果不存在则执行帖子解析任务并记录url地址;脏数据丢弃和乱码数据清洗:通过java判断中文字符串是否为gbk编码,来判断是否为乱码,若为乱码则丢弃;若非乱码则进行html标签过滤;通过正则表达式匹配正文中是否存在大量html标签,来判断是否为解析失败的脏数据,若为脏数据则丢弃;若非脏数据则存入数据库;使用结巴分词对文本进行分词处理:维护自定义的词典,以便包含结巴词库里没有的词,分词基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图。6.根据权利要求1所述的市场监管互联网情报监测与分析系统,其特征在于,所述情报信息挖掘模块具体包括:将文本中的词语转换为词频矩阵,使用tfidftransformer()统计每个词语的tf-idf权值,将tf-idf矩阵抽取出来,元素w[i][j]表示j词在i类文本中的tf-idf权重;将w[i][j]转换为array数组,做为参数进行train_test_split分割xy列表;定义x_train矩阵的数目对应y_train列表的数目用来训练模型,定义x_test矩阵的数目用来测试模型的准确性;使用x_train,x_test,y_train,y_test=train_test_split(x,labels,test_size=0.3,random_sta te=1)获取分割的xy列表;定义模型clf=randomforestclassifier(n_estimators=20),对模型进行训练clf.fit(x_train,y_train);使用clf.score(x_test,y_test)对模型进行准确度计算,使用clf.predict(x_test)预测结果。7.根据权利要求1所述的市场监管互联网情报监测与分析系统,其特征在于,所述市场主体的识别,指结合市场监管总局主体库内市场主体信息,通过布隆过滤器对网络信息中的主体进行识别,并对主体库中的企业名称进行简称处理;利用定时任务调度机制,实时将采集的网络信息分别与主体库、企业名称简称库中企业名称进行匹配,识别相关主体信息;所述所属地区的识别,指结合地址库信息,通过布隆过滤器对采集的网络信息中的地区进行识别,对地址库中的地点名称进行简称和别称处理;利用定时任务调度机制,实时将从互联网上采集的网络信息与地址库进行匹配,识别相关地区信息。

技术总结
本发明公开了一种市场监管互联网情报监测与分析系统,包括:CNN模型构建模块、互联网信息采集模块、情报信息预处理模块和情报信息挖掘模块;本发明使用CNN模型算法对人工标记后的样本数据进行建模,利用模型判定违法行为;通过不断积累样本数据,重复训练达到机器学习的目的,逐渐提高判定准确率。逐渐提高判定准确率。逐渐提高判定准确率。


技术研发人员:周宏印 丁铁 江涛 王云哲 张琛 邓丹 李雨桐 徐玉婷 张恩思 吴诗程 陈杰 张泽澄
受保护的技术使用者:南京莱斯信息技术股份有限公司
技术研发日:2022.12.19
技术公布日:2023/7/11
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐