一种基于文本挖掘和PMC指数模型的政策文本量化分析方法
未命名
09-16
阅读:167
评论:0

一种基于文本挖掘和pmc指数模型的政策文本量化分析方法
技术领域
1.本发明属于自然语言处理技术领域,具体的是,涉及了一种基于文本挖掘和pmc指数模型的政策文本量化分析方法。
背景技术:
2.当前对政策文本的研究更多地倾向于单一文本的情感倾向和多文本的主题词提取等,缺少大量政策文本的量化方法,缺少在同一领域中所有政策文本的共性分析和不同发文部门针对性政策的个性分析相结合的方法。然而把握政策文本的共性特征和单一文本的个性特点,有利于帮助政策制定者更好地制定新一轮的政策文本,有利于政策研究者更科学地分析和梳理政策发展脉络,有利于政策实施者更好地把握政策实施。由于政策文本的共性层面和个性层面的量化方法当前并没有研究,因此亟需提供一种能够客观、科学地政策量化分析方法。
技术实现要素:
3.发明目的:本发明的目的是提供了一种基于文本挖掘和pmc指数模型的政策文本量化分析方法;本发明针对政策文本数量多、结构杂、量化难的现状,运用文本挖掘和pmc指数模型相结合的研究方法,通过收集大量同一领域的政策文本,结合文本挖掘技术进行共性研究,结合pmc指数模型对政策进行个性研究,从而达到客观、科学地对政策文本进行量化。
4.技术方案:本发明所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其具体操作步骤如下:
5.(1)、文本收集:收集大量所研究领域的政策文本;
6.(2)、文本存储:对步骤(1)中获取的政策文本以txt文本形式进行存储;
7.(3)、文本预处理:由于政策文本属于非结构化数据,叙述无统一标准,因此中文分词难度大,需要在分词前进行预处理,以提高文本挖掘准确性;
8.(4)、文本挖掘:通过tf-idf手段进行关键词提取,并统计关键词的频次,对关键词进行词云可视化处理,构建共现矩阵,对关键词进行聚类分析,完成政策文本共性研究;
9.(5)、pmc指数模型构建,选取不同部门发布的不同类型的政策文本,进行单一政策文本打分评价,完成政策文本的个性研究;
10.(6)、基于步骤(4)和步骤(5)对政策展开量化分析。
11.进一步的,在步骤(1)中,所述的收集大量所研究领域的政策文本指的是确定某一个起始时间节点到某一个结束时间节点的涉及该领域的所有完整的政策文本。
12.进一步的,在步骤(3)中,所述的文本预处理包括停用词过滤、自定义词典、中文分词、自定义归并词表;
13.其在,停用词过滤:原始的政策文本中存在大量的标点符号,如“,”“。”“;”“、”等和对于研究目的来说毫无意义的字词,如“啊”“的”“一个”等,将这些标点符号和无用字词去
除,需要定义停用词库以达到停用词过滤的目的;
14.自定义词典:为防止分词过于精细化,防止将有意义的词组进一步划分为无意义字词,如政策文本中出现的“推进科技成果产业化”研究中所需要的是“推进/科技成果产业化”而分词结果为“推进/科技/成果/产业化”这样的结果对研究毫无意义,因此需借助搜狗词库、百度词库以及人工添加进行完善自定义词典;
15.中文分词:在非结构化的政策文本中,需要提取和挖掘隐藏在语句中的关键词,通过中文分词手段进行处理,如“在传统制造业、战略性新兴产业、现代服务业等重点领域开展创新设计示范。”中的“传统制造业、战略性新兴产业、现代服务业、创新设计示范”都对研究有一定的作用,因此需要对政策文本进行分词处理;
16.自定义归并词表:因为中文表述无统一标准,在政策文本中存在大量意思相近或相同的关键词,如“节能环保技术”、“绿色技术”、“低碳技术”等可合并为“绿色技术”。为减少关键词数量,提高文本挖掘有效性,需要建立自定义归并词表对意思相近或相同的词语进行合并。
17.进一步的,在步骤(4)中,所述的文本挖掘,包括tf-idf关键词提取、词云分析、共现矩阵构建以及聚类分析;
18.其在,tf-idf关键词提取:tf-idf算法(term frequency-inverse document frequency)又称为词频-逆文档频率算法,是一种用于文本关键词提取的技术手段,当某一字词在单个文档中出现的频次越高,说明该词的重要程度越高,如“绿色技术”一词只在某个政策文件中高频出现,较少出现在其他政策文本中,则称该词为关键词;反之,当该词在所属语料库中文档数越多,则该词重要程度越低,如“提高”一词,在每个政策文本中都高频出现,则该词的重要程度很低;
19.词云分析:基于文本挖掘和可视化技术,通过tf-idf提取关键词后,对关键词进行词频统计,绘制出关键词的词云图,设置词频和字体大小的关联值,使关键词词频越大其词云字体越大,由此可直观反映该领域政策的侧重点和发展方向;
20.共现矩阵构建:两个关键词在同一个政策文本中同时出现称为关键词共现,关键词共现计算方式由共现矩阵形式体现的,以共现频次表示共现强度,如关键词a_13和a_10同时出现在第一个政策文本中,则记为1,如果同时出现在第二个政策文本中,则再次累加1,依此计算,最终得到共现矩阵;
21.聚类分析:聚类分析是对政策关键词进行分类的一种多元统计方法,可以对关键词关系的远近程度做出分类;考虑到共现矩阵的共现次数之间数值差异较大,将得到的共现矩阵,采用学界最常用的ochiia系数法,进行归一化处理,建立关键词相关矩阵,导入spss软件,选择“ward法(即离差平方和法)”并绘制树状图,进行层次聚类分析。
22.进一步的,在步骤(5)中,所述的pmc指数模型构建,包括选取变量与识别参数、构建多投入产出表、计算pmc指数、绘制pmc曲面、分析和评价政策;
23.选取变量与识别参数:为保证研究的全面性,从不同部门(不同地区)发布的不同类型的政策文本中各选取一篇具有代表性的政策进行评价,根据政策制定、实施和反馈的情况设置量化评价变量,可从性质、效力、内容、客体等方面进行选取,最终确定9个主变量和若干个子变量;
24.构建多投入产出表:为更好地量化各个子变量的数值,需要在子变量确定之后,保
证子变量在评价时具有相同的权重,利用二进制(0或1)系统对每个子变量进行打分,即政策内容涉及相关子变量记为1,否则为0,如主变量政策效力可设置长期、中期、短期、临时四个子变量,若该政策是长期政策设定长期为1,其他为0;
25.计算pmc指数:根据pmc指数的大小判定政策实际效果。其计算步骤有:主变量和子变量放入多投入产出表中,计算各子变量参数,计算主变量参数,计算各政策文本的pmc指数;
26.绘制pmc曲面:pmc曲面图可直观展示待分析政策在各个主变量上的得分情况,为政策制定者、实施者以及研究者提供可视化窗口,计算pmc矩阵是绘制pmc曲面图的前提,将9个主变量得分嵌入3
×
3矩阵,得到pmc矩阵,最终得到pmc曲面图。
27.有益效果:本发明与现有技术相比,本发明的特点:本发明巧妙地将文本挖掘和pmc指数模型进行结合对政策进行全面量化分析,通过文本挖掘方法,完成共性研究,通过pmc指数模型,完成个性研究;相比于现有单一文本研究或多文本共性研究,有效提高政策研究说服力,有利于帮助政策制定者更好地把握政策制定方向,有利于政策实施者更好地实施政策。
附图说明
28.图1是本发明的操作流程图;
29.图2是本发明实施例中政策文本关键词词云图;
30.图3是本发明实施例中政策文本关键词聚类树状图;
31.图4是本发明实施例中pmc曲面图。
具体实施方式
32.以下结合附图和具体实施例,对本发明做出进一步说明。
33.如图1所示,本发明所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其具体操作步骤如下:
34.(1)、收集大量所研究领域的政策文本;
35.以传统制造业与数字经济融合政策为具体实施例,政策数据来源于“北大法宝”、“北大法意”、“政策文件库”、“工业与信息化部政策文件库”以及其他机构的官方网站政策文件库;以《工业转型升级规划(2011-2015年)》发布时间为起始时间节点,选择2012年至2021年国家层面出台的政策,为了使数据精确,在以上官网中检索政策篇名带有“制造”、“工业互联网”等关键词,政策内容含有“数字”、“转型”、“智能制造”等关键词,同时为了保证政策文本的普全率,在政府机构官网上进行检索补充,为了保证政策的时效性,去掉已经失效的政策文件,去掉类似申报的通知,删去重复政策,最终得到121篇传统制造业与数字经济融合的政策;
36.(2)、对步骤(1)中获取的政策文本以txt文本形式进行存储;
37.(3)、由于政策文本属于非结构化数据,叙述无统一标准,因此中文分词难度大,需要在分词前进行预处理,以提高文本挖掘准确性,通过使用停用词库完成停用词过滤,通过搜狗词库、百度词库和人工添加方式,完成自定义词典;通过运行python的jieba库,完成一次分词,将分词结果进行一次清洗,无意义的词手动添加至停用词库,意思相近和相同的词
添加到自定义归并词表;
38.(4)、基于步骤(3)中得到的停用词库、自定义词典、和自定义归并词表,为得到政策文本中的关键词,运用tf-idf算法进行关键词提取,当某一字词在单个文档中出现的频次越高,说明该词的重要程度越高,反之当该词在所属语料库中文档数越多,则该词重要程度越低,其计算公式如下:
[0039][0040]
其中:n
i,j
是词ti在文件dj中出现的次数,分母为文件dj中所有字词出现次数之和;
[0041][0042]
其中:|d|是文件总数,1+|{j:ti∈dj}|是包含词语ti的文件数目,加1是为了避免所有文档都不包含该词,导致分母为0的情况;
[0043]
tfidf
i,j
=tf
i,j
×
idfi[0044]
将政策文本进行预处理后形成一个文档集合,使用tf-idf算法对每个文档的每个词计算tf-idf值,按照数值降序进行排列,由此可得到政策文本的关键词及其词频见表1,并借助python绘制出关键词的词云图见图2,设置词频和字体大小的关联值,使关键词词频越大其词云字体越大,由此可直观反映该领域政策的侧重点和发展方向;
[0045]
表1政策文本关键词词频
[0046][0047]
两个关键词在同一个政策文本中同时出现称为关键词共现,关键词共现计算方式由共现矩阵形式体现的,以共现频次表示共现强度,如果两个关键词同时出现在同一个政策文本中,则记为1,反之记为0,构建共现矩阵是聚类分析的前提,但共现次数之间数值差异较大,因此需要ochiia系数法将共现矩阵转化为相关矩阵,其计算公式为:
[0048][0049]
其中,n
ij
代表两个关键词同时出现的次数,ni表示关键词i出现的次数,nj表示关键词j出现的次数;
[0050]
将相关矩阵导入spss软件,选择“ward法(即离差平方和法)”并绘制树状图,见图3,进行层次聚类分析;
[0051]
(5)、从不同部门(不同地区)发布的不同类型的政策文本中各选取一篇具有代表性的政策进行评价,见表2;
[0052]
表2传统制造业与数字经济融合政策样本
[0053][0054]
根据政策制定、实施和反馈的情况设置量化评价变量,可从性质、效力、内容、客体等方面进行选取,最终确定9个主变量和若干个子变量;见表3;
[0055]
表3pmc指数模型政策变量设置
[0056][0057]
为更好地量化各个子变量的数值,需要在子变量确定之后,保证子变量在评价时具有相同的权重,利用二进制(0或1)系统对每个子变量进行打分,即政策内容涉及相关子变量记为1,否则为0,如主变量政策效力可设置长期、中期、短期、临时四个子变量,若该政
策是长期政策设定长期为1,其他为0,见表4;
[0058]
表4 4项政策投入产出
[0059][0060][0061]
通过pmc指数的大小判定政策实际效果;
[0062]
其计算步骤有:主变量和子变量放入多投入产出表中,根据式(1)、(2)计算各子变量参数,根据式(3)计算主变量参数,根据式(4)计算各政策文本的pmc指数;见表5;
[0063]
x~n[0,1](1)
[0064]
x~{xr:[0~1]}(2)
[0065]
[0066][0067]
表5 4项政策pmc指数汇总表
[0068][0069]
pmc曲面图可直观展示待分析政策在各个主变量上的得分情况,计算pmc矩阵是绘制pmc曲面图的前提,将9个主变量得分嵌入3
×
3矩阵,见表6;
[0070]
表6 4项政策的pmc矩阵
[0071][0072]
最终得到pmc曲面图,见图4,其计算方法如下:
[0073][0074]
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
技术特征:
1.一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,其具体操作步骤如下:步骤(1)、文本收集;步骤(2)、文本存储;步骤(3)、文本预处理;步骤(4)、文本挖掘;步骤(5)、pmc指数模型构建;步骤(6)、基于步骤(4)和步骤(5)对政策展开量化分析。2.根据权利要求1所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,在步骤(1)中,所述文本收集具体是指收集所研究领域的政策文本。3.根据权利要求2所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,所述收集所研究领域的政策文本具体是指:确定某一个起始时间节点到某一个结束时间节点的涉及该领域的所有完整的政策文本。4.根据权利要求1所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,在步骤(2)中,所述文本存储具体是:对步骤(1)中获取的政策文本以txt文本形式进行存储。5.根据权利要求1所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,在步骤(3)中,所述文本预处理具体是:由于政策文本属于非结构化数据,叙述无统一标准,故中文分词难度大,需在分词前进行预处理,用以提高文本挖掘准确性。6.根据权利要求5所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,所述的文本预处理包括停用词过滤、自定义词典、中文分词、自定义归并词表;其中,所述停用词过滤:原始的政策文本中存在的标点符号和对于研究目的来说无意义的字词,将上述标点符号和无用字词去除,需定义停用词库以达到停用词过滤的目的;自定义词典:为防止分词过于精细化,防止将有意义的词组进一步划分为无意义字词,因此需进行完善自定义词典;中文分词:在非结构化的政策文本中,需提取和挖掘隐藏在语句中的关键词,通过中文分词手段进行处理,因此需对政策文本进行分词处理;自定义归并词表:因为中文表述无统一标准,在政策文本中存在有意思相近或相同的关键词;为减少关键词数量,提高文本挖掘有效性,需建立自定义归并词表对意思相近或相同的词语进行合并。7.根据权利要求1所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,在步骤(4)中,所述文本挖掘具体是:通过tf-idf手段进行关键词提取,并统计关键词的频次,对关键词进行词云可视化处理,构建共现矩阵,对关键词进行聚类分析,完成政策
文本共性研究。8.根据权利要求7所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,所述的文本挖掘包括tf-idf关键词提取、词云分析、共现矩阵构建及聚类分析;其中,tf-idf关键词提取:tf-idf算法又称词频-逆文档频率算法,是一种用于文本关键词提取的技术手段,当某一字词在单个文档中出现的频次越高,说明该词的重要程度越高,较少出现在其他政策文本中,则称该词为关键词;反之,当该词在所属语料库中文档数越多,则该词重要程度越低,在每个政策文本中都高频出现,则该词的重要程度很低;词云分析:基于文本挖掘和可视化技术,通过tf-idf提取关键词后,对关键词进行词频统计,绘制出关键词的词云图,设置词频和字体大小的关联值,使关键词词频越大其词云字体越大,由此可直观反映该领域政策的侧重点和发展方向;共现矩阵构建:两个关键词在同一个政策文本中同时出现称为关键词共现,关键词共现计算方式由共现矩阵形式体现的,以共现频次表示共现强度;如同时出现在第一个政策文本中,则记为1,如果同时出现在第二个政策文本中,则再次累加1,依此计算,最终得到共现矩阵;聚类分析:是对政策关键词进行分类的一种多元统计方法,对关键词关系的远近程度做出分类;根据共现矩阵的共现次数之间数值差异较大,将得到的共现矩阵,采用学界最常用的ochiia系数法,进行归一化处理,建立关键词相关矩阵,导入spss软件,选择离差平方和法并绘制树状图,进行层次聚类分析。9.根据权利要求1所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,在步骤(5)中,所述pmc指数模型构建具体是:选取不同部门发布的不同类型的政策文本,进行单一政策文本打分评价,完成政策文本的个性研究。10.根据权利要求9所述的一种基于文本挖掘和pmc指数模型的政策文本量化分析方法,其特征在于,所述pmc指数模型构建包括选取变量与识别参数、构建多投入产出表、计算pmc指数、绘制pmc曲面、分析和评价政策;选取变量与识别参数:为保证研究的全面性,从不同部门发布的不同类型的政策文本中各选取一篇具有代表性的政策进行评价,根据政策制定、实施和反馈的情况设置量化评价变量,可从性质、效力、内容及客体的方面进行选取,最终确定9个主变量和若干个子变量;构建多投入产出表:为量化各个子变量的数值,需在子变量确定之后,保证子变量在评价时具有相同的权重,利用二进制系统对每个子变量进行打分,即政策内容涉及相关子变量记为1,否则为0;计算pmc指数:根据pmc指数的大小判定政策实际效果;其计算步骤有:主变量和子变量放入多投入产出表中,计算各子变量参数,计算主变量参数,计算各政策文本的pmc指数;绘制pmc曲面:pmc曲面图可直观展示待分析政策在各个主变量上的得分情况,为政策
制定者、实施者及研究者提供可视化窗口,计算pmc矩阵是绘制pmc曲面图的前提,将9个主变量得分嵌入3
×
3矩阵,得到pmc矩阵,最终得到pmc曲面图。
技术总结
本发明公开了一种基于文本挖掘和PMC指数模型的政策文本量化分析方法。属于自然语言处理技术领域,其操作步骤:文本收集:收集大量所研究领域的政策文本;文本存储:将获取的政策文本以TXT文本形式进行存储;文本预处理:进行文本预处理操作;文本挖掘:通过TF-IDF手段进行关键词提取,并统计关键词的频次,对关键词进行词云可视化处理;PMC指数模型构建:构建共现矩阵,对关键词进行聚类分析,完成政策文本共性研究;选取不同部门发布的不同类型的政策文本,构建PMC指数模型,进行单一政策文本打分评价,完成政策文本的个性研究。本发明可客观科学地对政策进行量化分析,可为政策制定者、实施者、研究者提供参考。研究者提供参考。研究者提供参考。
技术研发人员:葛恒刚 张子煜 张友志
受保护的技术使用者:江苏科技大学
技术研发日:2023.04.25
技术公布日:2023/9/14
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/