基于企业社会信用代码的多源数据产业化分析系统及方法与流程

未命名 08-22 阅读:104 评论:0


1.本发明涉及数据产业化分析领域,具体涉及一种基于企业社会信用代码的多源数据产业化分析系统及方法。


背景技术:

[0002]“产业化”的概念是从“产业”的概念发展而来的。“产业”这个概念是属居于微观经济的细胞与宏观经济的单位之间的一个“集合概念”,它是具有某种同一属性的企业或组织的集合,又是国民经济以某一标准划分的部分的总和。产业分析,是指企业对特定行业的市场结构和市场行为进行调查与分析,为企业制定科学有效的战略规划提供依据的活动。
[0003]
目前的产业化分析,存在分析结果不准确、分析效率低的技术问题,本发明提供一种基于企业社会信用代码的多源数据产业化分析系统及方法,能够姐姐上述技术问题。


技术实现要素:

[0004]
本发明所要解决的技术问题是现有技术中存在的效率低、误差高的技术问题。提供一种新的基于企业社会信用代码的多源数据产业化分析系统,该基于企业社会信用代码的多源数据产业化分析系统具有效率高、误差低的特点。
[0005]
为解决上述技术问题,采用的技术方案如下:基于企业社会信用代码的多源数据产业化分析系统,所述基于企业社会信用代码的多源数据产业化分析系统包括:分布设置的多源异构数据采集单元,与多源异构数据采集单元一一连接的完成数据虚拟化的多源异构数据处理单元,多源异构数据处理单元连接企业数据存储单元,还包括云服务器中设置的数据分析服务单元、数据呈现单元;多源异构数据处理单元包括统一社会信用代码内部分析单元,以及产业化数据处理单元;统一社会信用代码内部分析单元包括内部代码特征识别分析子单元,以及企业行业类别分析子单元;内部代码特征识别分析子单元用于对统一社会信用代码进行内部识别分析,分析提取包括登记管理部门、企业类别、企业行政区域、主体身份标识码特征在内的特征数据;企业行业类别分析子单元用于以企业行业类别特征、企业行政区域特征为二元特征进行数据分集,确定企业二元特征参数;其中企业行业类别特征以登记管理部门特征、企业类别特征为依据,根据预定义的权重,进行加权拟合;产业化数据处理单元包括数据分集子单元、数据归属分析子单元、企业行业类别特征二次修正处理单元;数据分析子单元用于完成数据分集分类,数据归属分析子单元应用于分析企业数据与企业行为的关联性,将企业数据区分为与企业自身有关的,定义为企业涉己行为数据,与非企业自身业务相关的,定义为企业涉他数据;企业行业类别特征二次修正处理单元用
于根据企业涉己行为数据、企业涉他数据,对企业行业类别特征进行二次修正处理;企业数据存储单元包括二维网格单元和数据存储单元,二维网格单元用于根据企业行业类别特征、企业行政区域特征进行二维网络;数据存储单元用于将二维网格化后的数据进行存储,企业涉己行为数据和企业涉他数据使用分布式存储;数据分析服务单元用于根据产业化分析指令,调取企业数据存储单元中对应的行业、地域企业的企业涉己行为数据和企业涉他数据,以及关联行业、地域企业的企业涉他数据组成分析数据集,输入预构建的产业化分析模型,完成产业化分析;数据呈现单元用于将数据分析服务单元的分析结果进行呈现。
[0006]
本发明的工作原理:本发明基于企业统一社会信用代码库,企业统一社会信用代码的编号规则,以及企业工商公示信息查询系统的数据,对企业的产业划分进行初步拟合确认。在对产业进行初步拟合确认后,再根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正,确定企业的产业关系。本发明对企业涉己行为数据、企业涉他数据进行区分并分别存储,以便于数据调度,组成数据集,根据既有的分析模型,完成产业化分析。本发明能够高效、高精度的完成产业化分析。
[0007]
统一社会信用代码:十八位的阿拉伯数字和大写英文字母构成(不包括 i、o、z、s、v)组成其中:第1位:为登记管理部门代码,使用阿拉伯数字或大写字母表示;第2位:为机构类别代码,使用阿拉伯数字或大写字母表示,登记管理部门根据实际情况研究确定本部门登记机构类型;第3-8位(共6位):为登记管理机构行政区划码,使用阿拉伯数字表示,按照 gb/t2260 中华人民共和国行政区划代码及行政管理部门的规定;第一层即前2位代码表示省、自治区、直辖市、特别行政区。
[0008]
第二层即中间2位代码表示市、地区、自治州、盟、直辖市所辖市辖区/县汇总码、省(自治区)直辖县级行政区划汇总码,其中:———01~20、51~70表示市,01、02还用于表示直辖市所辖市辖区、县汇总码;———21~50表示地区、自治州、盟;———90表示省(自治区)直辖县级行政区划汇总码。
[0009]
第三层即后2位表示县、自治县、县级市、旗、自治旗、市辖区、林区、特区,其中:———01~20表示市辖区、地区(自治州、盟)辖县级市、市辖特区以及省(自治区)直辖县级行政区划;中的县级市,01通常表示市辖区汇总码;———21~80表示县、自治县、旗、自治旗、林区、地区辖特区;———81~99表示省(自治区)辖县级市。
[0010]
为保证数字码的唯一性,因行政区划发生变更而撤销的数字码不再赋予其他行政区划。
[0011]
字母代码的编制原则和结构行政区划字母代码(简称字母码)遵循科学性、统一性、实用性编码原则,参照县及县以上行政区划名称的罗马字母拼写,取相应的字母编制。
[0012]
省、自治区、直辖市、特别行政区的字母码用两位大写字母表示。市、地区、自治州、盟、县、自治县、县级市、旗、自治旗、市辖区、林区、特区的字母码用三位大写字母表示。
[0013]
部分行政区划字母代码采用了 gb/t15514—1998或gb/t7407—1997中的字母码,在代码表中用*号标出。行政区划名称的罗马字母拼写一般采用汉语地名的罗马字母拼写;
但 当行政区划名称以蒙古语第9-第17位:为主体标识码(组织机构代码),使用阿拉伯数字或大写字母表示,按照 gb 11714 全国组织机构代码编制规则编制;第18位:为校验码,使用阿拉伯数字或大写字母表示,计算方法参照 gb/t17710。
[0014]
上述方案中,为优化,进一步地,所述多源异构数据采集单元采集统一社会信用代码数据、统一社会信用代码机构产生的数据。
[0015]
进一步地,产业化数据处理单元还包括多源异构数据智能解析处理,包括如下步骤:步骤a,定义多源异构数据为,多源异构数据降维至,预定义参数值、和,正整数m为特征种类数,定义高维数据x的投影矩阵p∈k
×
v,v为数据的维数;步骤b,定义近似性矩阵,其中为第m个种类特征的数据集,为转置运算后的数据集;步骤c,初始化m=1;步骤d,根据计算投影矩阵,其中为预定义参数值,,d为s的对角度矩阵;步骤e,迭代更新m=m+1,根据,计算更新s后,返回执行步骤d;其中,,β为预定义参数值,为预定义参数值,i为正整数,n为样本个数;步骤f,如m=m,则执行步骤g;步骤g,输出各多源异构数据的降维矩阵;步骤h,将降维后的多源异构数据进行归属分类。
[0016]
进一步地,产业化分析模型的构建包括:步骤1,确定评价产业化分析指标和对应权重,将产业化分析指标由下至上分为第一级指标评价特征、第二级指标评价特征、第三级指标评价特征;第一级指标评价特征值,其中,为第一级指标的第ix项评价特征值,为第一级指标的第ix项价特征值的权重数, mx 为第一级价特征值的项数;第二级指标评价特征值,其中,为第一级指标对应第二级指标的第jx类评价特征值,为第一级指标对应第二级指标的第jx类评价特征值的权重数,nx为第一级指标对应第二级指标的评价特征值的项数;
第三级指标评价特征值,其中,为第二级指标对应第三级指标的第kx类评价特征值,为第二级指标对应第三级指标的第kx类评价特征值的权重数, qx为第二级指标对应第三级指标的评价特征值的项数;步骤2,依据步骤1的各项产业化分析指标,使用预定义独立的mq种评价方法对产业化分析中产业下的nq个细分产业进行预评价,对预评价结果进行近似性检验,如果近似性检验结果为不具有相似性,则执行步骤4,否则执行步骤3;步骤3,任选将步骤2中的2种评价方法进行近似性检验,将近似性检验定义为相似的择1留用,遍历步骤2中的评价方法,完毕后执行步骤4;步骤4,根据最终得到的各种评价方法的预评价结果,运用至少2种组合方法对预评价结果进行组合评价;步骤5,将组合评价结果和预评价结果作为一个结果集合,进行近似性排序值;步骤6,定义表示第kq种组合评价方法的组合评价结果与所有预评价结果的近似性系数;其中,,;,,;为第iq细分产业在第jq种预评价方法排序结果规范后的取值,为第iq细分产业在第kq种组合评价方法排序结果规范后的取值,nq为细分产业的个数,mq为预评价方法数,pq为组合评价方法数,为第kq种组合方法与预评价中第jq种方法之的近似性;步骤7,将为值最大的组合评价结果作为产业化分析结果。
[0017]
本发明还提供一种基于统一社会信用代码的多源数据与产业化分析方法,方法基于前述多源数据产业化分析系统,方法包括:步骤一,数据分析服务单元根据产业化分析指令,控制统一社会信用代码内部分析单元对统一社会信用代码进行内部识别分析,分析提取包括登记管理部门、企业类别、企业行政区域、主体身份标识码特征在内的特征数据,并以企业行业类别特征、企业行政区域特征为二元特征进行数据分集,企业行业类别特征以登记管理部门特征、企业类别特征为初步拟合依据;步骤二,产业化数据处理单元在数据分集的基础上,对分集后的数据进行数据归属分析,将数据分为与企业自身有关的企业涉己行为数据,与其他企业业务相关的企业涉他数据,并根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正;步骤三,企业数据存储单元按照企业行业类别特征、企业行政区域特征进行二维网络后,将对应数据分开进行存储,存储时将企业涉己行为数据和企业涉他数据分开进行存储;
步骤四,数据分析服务单元根据产业化分析指令,调用企业数据存储单元中相应的企业行业类别特征、企业行政区域特征对应的企业的企业涉己行为数据和企业涉他数据,以及关联行业、地域企业的企业涉他数据组成分析数据集,输入预构建的产业化分析模型,进行产业化分析;步骤五,数据呈现单元将数据分析服务单元的分析结果进行呈现。
[0018]
进一步地,所述产业化分析模型包括:步骤1,确定评价产业化分析指标和对应权重,将产业化分析指标由下至上分为第一级指标评价特征、第二级指标评价特征、第三级指标评价特征;第一级指标评价特征值,其中,为第一级指标的第ix项评价特征值,为第一级指标的第ix项价特征值的权重数, mx 为第一级价特征值的项数;第二级指标评价特征值,其中,为第一级指标对应第二级指标的第jx类评价特征值,为第一级指标对应第二级指标的第jx类评价特征值的权重数,nx为第一级指标对应第二级指标的评价特征值的项数;第三级指标评价特征值,其中,为第二级指标对应第三级指标的第kx类评价特征值,为第二级指标对应第三级指标的第kx类评价特征值的权重数, qx为第二级指标对应第三级指标的评价特征值的项数;步骤2,依据步骤1的各项产业化分析指标,使用预定义独立的mq种评价方法对产业化分析中产业下的nq个细分产业进行预评价,对预评价结果进行近似性检验,如果近似性检验结果为不具有相似性,则执行步骤4,否则执行步骤3;步骤3,任选将步骤2中的2种评价方法进行近似性检验,将近似性检验定义为相似的择1留用,遍历步骤2中的评价方法,完毕后执行步骤4;步骤4,根据最终得到的各种评价方法的预评价结果,运用至少2种组合方法对预评价结果进行组合评价;步骤5,将组合评价结果和预评价结果作为一个结果集合,进行近似性排序值;步骤6,定义表示第kq种组合评价方法的组合评价结果与所有预评价结果的近似性系数;其中,,;,,;为第iq细分产业在第jq种预评价方法排序结果规范后的取值,为第iq细分产业在第kq种组合评价方法排序结果
规范后的取值,nq为细分产业的个数,mq为预评价方法数,pq为组合评价方法数,为第kq种组合方法与预评价中第jq种方法之的近似性;步骤7,将为值最大的组合评价结果作为产业化分析结果。
[0019]
作为优选,本发明在现有的产业化分析方法模型之外,提供了一种特有的产业化分析模型,通过对分析指标进行分成,并在每层采用多种分析方法,进行组合实验,最终挑选出最优模型,实现产业化分析的高精度分析。
[0020]
进一步地,近似性检验包括:定义统计量;其中,,,, ,,为第iq个被评价对象在第jq种评价方法下的排序值;统计量 服从自由度为nq-1的 分布,定义当时,确认各种评价方法在具有相似性,否则确认各种评价方法不具有相似性。
[0021]
进一步地,步骤一还包括控制产业化数据处理单元执行多源异构数据智能解析处理,包括如下步骤:步骤a,定义多源异构数据为,多源异构数据降维至,预定义参数值、和,正整数m为特征种类数,定义高维数据x的投影矩阵p∈k
×
v,v为数据的维数;步骤b,定义近似性矩阵,其中为第m个种类特征的数据集,为转置运算后的数据集;步骤c,初始化m=1;步骤d,根据计算投影矩阵,其中为预定义参数值,,d为s的对角度矩阵;步骤e,迭代更新m=m+1,根据,计算更新s后,返回执行步骤d;其中,,β为预定义参数值,为预定义参数值,i为正整数,n为样本个数;步骤f,如m=m,则执行步骤g;步骤g,输出各多源异构数据的降维矩阵;步骤h,将降维后的多源异构数据进行归属分类。
[0022]
本发明对于多源异构数据在一般性处理后,进一步采取如上处理方法,完成降维归类处理。
[0023]
本发明的有益效果:本发明基于企业统一社会信用代码库,企业统一社会信用代码的编号规则,以及企业工商公示信息查询系统的数据,对企业的产业划分进行初步拟合确认。在对产业进行初步拟合确认后,再根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正,确定企业的产业关系。本发明对企业涉己行为数据、企业涉他数据进行区分并分别存储,以便于数据调度,组成数据集,根据既有的分析模型,完成产业化分析。本发明能够高效、高精度的完成产业化分析。
附图说明
[0024]
下面结合附图和实施例对本发明进一步说明。
[0025]
图1,基于企业社会信用代码的多源数据产业化分析系统示意图。
[0026]
图2,基于企业社会信用代码的多源数据产业化分析方法示意图。
具体实施方式
[0027]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0028]
实施例1本实施例提供一种基于企业社会信用代码的多源数据产业化分析系统,如图1,所述基于企业社会信用代码的多源数据产业化分析系统包括:分布设置的多源异构数据采集单元,与多源异构数据采集单元一一连接的完成数据虚拟化的多源异构数据处理单元,多源异构数据处理单元连接企业数据存储单元,还包括云服务器中设置的数据分析服务单元、数据呈现单元;多源异构数据处理单元包括统一社会信用代码内部分析单元,以及产业化数据处理单元;统一社会信用代码内部分析单元对统一社会信用代码进行内部识别分析,分析提取包括登记管理部门、企业类别、企业行政区域、主体身份标识码特征在内的特征数据,并以企业行业类别特征、企业行政区域特征为二元特征进行数据分集,企业行业类别特征以登记管理部门特征、企业类别特征为初步拟合依据;产业化数据处理单元在数据分集的基础上,对分集后的数据进行数据归属分析,将数据分为与企业自身有关的企业涉己行为数据,与其他企业业务相关的企业涉他数据,并根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正;企业数据存储单元按照企业行业类别特征、企业行政区域特征进行二维网络后,将对应数据分开进行存储,存储时将企业涉己行为数据和企业涉他数据分开进行存储;数据分析服务单元根据产业化分析指令,调取企业数据存储单元中对应的行业、地域企业的企业涉己行为数据和企业涉他数据,以及关联行业、地域企业的企业涉他数据组成分析数据集,输入预构建的产业化分析模型,进行产业化分析;数据呈现单元将数据分析服务单元的分析结果进行呈现。
[0029]
本实施例基于企业统一社会信用代码库,企业统一社会信用代码的编号规则,以及企业工商公示信息查询系统的数据,对企业的产业划分进行初步拟合确认。在对产业进行初步拟合确认后,再根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正,确定企业的产业关系。本发明对企业涉己行为数据、企业涉他数据进行区分并分别存储,以便于数据调度,组成数据集,根据既有的分析模型,完成产业化分析。本发明能够高效、高精度的完成产业化分析。
[0030]
具体地,所述多源异构数据采集单元采集统一社会信用代码数据、统一社会信用代码机构产生的数据。
[0031]
优选地,产业化数据处理单元还包括多源异构数据智能解析处理,包括如下步骤:步骤a,定义多源异构数据为,多源异构数据降维至,预定义参数值、和,正整数m为特征种类数,定义高维数据x的投影矩阵p∈k
×
v,v为数据的维数;步骤b,定义近似性矩阵,其中为第m个种类特征的数据集,为转置运算后的数据集;步骤c,初始化m=1;步骤d,根据计算投影矩阵,其中为预定义参数值,,d为s的对角度矩阵;步骤e,迭代更新m=m+1,根据,计算更新s后,返回执行步骤d;其中,,β为预定义参数值,为预定义参数值,i为正整数,n为样本个数;步骤f,如m=m,则执行步骤g;步骤g,输出各多源异构数据的降维矩阵;步骤h,将降维后的多源异构数据进行归属分类。
[0032]
进一步地,产业化分析模型的构建包括:步骤1,确定评价产业化分析指标和对应权重,将产业化分析指标由下至上分为第一级指标评价特征、第二级指标评价特征、第三级指标评价特征;第一级指标评价特征值,其中, 其中,为第一级指标的第ix项评价特征值,为第一级指标的第ix项价特征值的权重数, mx 为第一级价特征值的项数;第二级指标评价特征值,其中,为第
一级指标对应第二级指标的第jx类评价特征值,为第一级指标对应第二级指标的第jx类评价特征值的权重数,nx为第一级指标对应第二级指标的评价特征值的项数;第三级指标评价特征值,其中,为第二级指标对应第三级指标的第kx类评价特征值,为第二级指标对应第三级指标的第kx类评价特征值的权重数, qx为第二级指标对应第三级指标的评价特征值的项数;步骤2,依据步骤1的各项产业化分析指标,使用预定义独立的mq种评价方法对产业化分析中产业下的nq个细分产业进行预评价,对预评价结果进行近似性检验,如果近似性检验结果为不具有相似性,则执行步骤4,否则执行步骤3;步骤3,任选将步骤2中的2种评价方法进行近似性检验,将近似性检验定义为相似的择1留用,遍历步骤2中的评价方法,完毕后执行步骤4;步骤4,根据最终得到的各种评价方法的预评价结果,运用至少2种组合方法对预评价结果进行组合评价;步骤5,将组合评价结果和预评价结果作为一个结果集合,进行近似性排序值;步骤6,定义表示第kq种组合评价方法的组合评价结果与所有预评价结果的近似性系数;其中,,;,,;为第iq细分产业在第jq种预评价方法排序结果规范后的取值,为第iq细分产业在第kq种组合评价方法排序结果规范后的取值,nq为细分产业的个数,mq为预评价方法数,pq为组合评价方法数,为第kq种组合方法与预评价中第jq种方法之的近似性;步骤7,将为值最大的组合评价结果作为产业化分析结果。
[0033]
本实施例还提供一种基于统一社会信用代码的多源数据与产业化分析方法,方法基于前述多源数据产业化分析系统,如图2,方法包括:步骤一,数据分析服务单元根据产业化分析指令,控制统一社会信用代码内部分析单元对统一社会信用代码进行内部识别分析,分析提取包括登记管理部门、企业类别、企业行政区域、主体身份标识码特征在内的特征数据,并以企业行业类别特征、企业行政区域特征为二元特征进行数据分集,企业行业类别特征以登记管理部门特征、企业类别特征为初步拟合依据;步骤二,产业化数据处理单元在数据分集的基础上,对分集后的数据进行数据归属分析,将数据分为与企业自身有关的企业涉己行为数据,与其他企业业务相关的企业涉他数据,并根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正;步骤三,企业数据存储单元按照企业行业类别特征、企业行政区域特征进行二维
网络后,将对应数据分开进行存储,存储时将企业涉己行为数据和企业涉他数据分开进行存储;步骤四,数据分析服务单元根据产业化分析指令,调用企业数据存储单元中相应的企业行业类别特征、企业行政区域特征对应的企业的企业涉己行为数据和企业涉他数据,以及关联行业、地域企业的企业涉他数据组成分析数据集,输入预构建的产业化分析模型,进行产业化分析;步骤五,数据呈现单元将数据分析服务单元的分析结果进行呈现。
[0034]
优选地,所述产业化分析模型包括:步骤1,确定评价产业化分析指标和对应权重,将产业化分析指标由下至上分为第一级指标评价特征、第二级指标评价特征、第三级指标评价特征;第一级指标评价特征值,其中, 其中,为第一级指标的第ix项评价特征值,为第一级指标的第ix项价特征值的权重数, mx 为第一级价特征值的项数;第二级指标评价特征值,其中,为第一级指标对应第二级指标的第jx类评价特征值,为第一级指标对应第二级指标的第jx类评价特征值的权重数,nx为第一级指标对应第二级指标的评价特征值的项数;第三级指标评价特征值,其中,为第二级指标对应第三级指标的第kx类评价特征值,为第二级指标对应第三级指标的第kx类评价特征值的权重数, qx为第二级指标对应第三级指标的评价特征值的项数;步骤2,依据步骤1的各项产业化分析指标,使用预定义独立的mq种评价方法对产业化分析中产业下的nq个细分产业进行预评价,对预评价结果进行近似性检验,如果近似性检验结果为不具有相似性,则执行步骤4,否则执行步骤3;步骤3,任选将步骤2中的2种评价方法进行近似性检验,将近似性检验定义为相似的择1留用,遍历步骤2中的评价方法,完毕后执行步骤4;步骤4,根据最终得到的各种评价方法的预评价结果,运用至少2种组合方法对预评价结果进行组合评价;步骤5,将组合评价结果和预评价结果作为一个结果集合,进行近似性排序值;步骤6,定义表示第kq种组合评价方法的组合评价结果与所有预评价结果的近似性系数;其中,,;,,;为第iq细分产业在第jq种预
评价方法排序结果规范后的取值,为第iq细分产业在第kq种组合评价方法排序结果规范后的取值,nq为细分产业的个数,mq为预评价方法数,pq为组合评价方法数,为第kq种组合方法与预评价中第jq种方法之的近似性;步骤7,将为值最大的组合评价结果作为产业化分析结果。
[0035]
作为优选,本实施例在现有的产业化分析方法模型之外,提供了一种特有的产业化分析模型,通过对分析指标进行分成,并在每层采用多种分析方法,进行组合实验,最终挑选出最优模型,实现产业化分析的高精度分析。
[0036]
优选地,近似性检验包括:定义统计量;其中,,,, ,,为第iq个被评价对象在第jq种评价方法下的排序值;统计量 服从自由度为nq-1的 分布,定义当时,确认各种评价方法在具有相似性,否则确认各种评价方法不具有相似性。
[0037]
优选地,步骤一还包括控制产业化数据处理单元执行多源异构数据智能解析处理,包括如下步骤:步骤a,定义多源异构数据为,多源异构数据降维至,预定义参数值、和,正整数m为特征种类数,定义高维数据x的投影矩阵p∈k
×
v,v为数据的维数;步骤b,定义近似性矩阵,其中为第m个种类特征的数据集,为转置运算后的数据集;步骤c,初始化m=1;步骤d,根据计算投影矩阵,其中为预定义参数值,,d为s的对角度矩阵;步骤e,迭代更新m=m+1,根据,计算更新s后,返回执行步骤d;其中,,β为预定义参数值,为预定义参数值,i为正整数,n为样本个数;步骤f,如m=m,则执行步骤g;步骤g,输出各多源异构数据的降维矩阵;
步骤h,将降维后的多源异构数据进行归属分类。
[0038]
本实施例对于多源异构数据在一般性处理后,进一步采取如上处理方法,完成降维归类处理。
[0039]
本实施例基于企业统一社会信用代码库,企业统一社会信用代码的编号规则,以及企业工商公示信息查询系统的数据,对企业的产业划分进行初步拟合确认。在对产业进行初步拟合确认后,再根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正,确定企业的产业关系。本发明对企业涉己行为数据、企业涉他数据进行区分并分别存储,以便于数据调度,组成数据集,根据既有的分析模型,完成产业化分析。本发明能够高效、高精度的完成产业化分析。
[0040]
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员能够理解本发明,但是本发明不仅限于具体实施方式的范围,对本技术领域的普通技术人员而言,只要各种变化只要在所附的权利要求限定和确定的本发明精神和范围内,一切利用本发明构思的发明创造均在保护之列。

技术特征:
1.一种基于企业社会信用代码的多源数据产业化分析系统,其特征在于:所述基于企业社会信用代码的多源数据产业化分析系统包括:分布设置的多源异构数据采集单元,与多源异构数据采集单元一一连接的完成数据虚拟化的多源异构数据处理单元,多源异构数据处理单元连接企业数据存储单元,还包括云服务器中设置的数据分析服务单元、数据呈现单元;多源异构数据处理单元包括统一社会信用代码内部分析单元,以及产业化数据处理单元;统一社会信用代码内部分析单元包括内部代码特征识别分析子单元,以及企业行业类别分析子单元;内部代码特征识别分析子单元用于对统一社会信用代码进行内部识别分析,分析提取包括登记管理部门、企业类别、企业行政区域、主体身份标识码特征在内的特征数据;企业行业类别分析子单元用于以企业行业类别特征、企业行政区域特征为二元特征进行数据分集,确定企业二元特征参数;其中企业行业类别特征以登记管理部门特征、企业类别特征为依据,根据预定义的权重,进行加权拟合;产业化数据处理单元包括数据分集子单元、数据归属分析子单元、企业行业类别特征二次修正处理单元;数据分析子单元用于完成数据分集分类,数据归属分析子单元应用于分析企业数据与企业行为的关联性,将企业数据区分为与企业自身有关的,定义为企业涉己行为数据,与非企业自身业务相关的,定义为企业涉他数据;企业行业类别特征二次修正处理单元用于根据企业涉己行为数据、企业涉他数据,对企业行业类别特征进行二次修正处理;企业数据存储单元包括二维网格单元和数据存储单元,二维网格单元用于根据企业行业类别特征、企业行政区域特征进行二维网络;数据存储单元用于将二维网格化后的数据进行存储,企业涉己行为数据和企业涉他数据使用分布式存储;数据分析服务单元用于根据产业化分析指令,调取企业数据存储单元中对应的行业、地域企业的企业涉己行为数据和企业涉他数据,以及关联行业、地域企业的企业涉他数据组成分析数据集,输入预构建的产业化分析模型,完成产业化分析;数据呈现单元用于将数据分析服务单元的分析结果进行呈现。2.根据权利要求1所述的基于企业社会信用代码的多源数据产业化分析系统,其特征在于:所述多源异构数据采集单元采集统一社会信用代码数据、统一社会信用代码机构产生的数据。3.根据权利要求1所述的基于企业社会信用代码的多源数据产业化分析系统,其特征在于:产业化数据处理单元还包括多源异构数据智能解析处理,包括如下步骤:步骤a,定义多源异构数据为,多源异构数据降维至,预定义参数值、和,正整数m为特征种类数,定义高维数据x的投影矩阵p∈k
×
v,v为数据的维数;步骤b,定义近似性矩阵,其中为第m个种类特征的数据集,为转置运算后的数据集;
步骤c,初始化m=1;步骤d,根据计算投影矩阵,其中为预定义参数值,,d为s的对角度矩阵;步骤e,迭代更新m=m+1,根据,计算更新s后,返回执行步骤d;其中,,β为预定义参数值,为预定义参数值,i为正整数,n为样本个数;步骤f,如m=m,则执行步骤g;步骤g,输出各多源异构数据的降维矩阵;步骤h,将降维后的多源异构数据进行归属分类。4.根据权利要求1所述的基于企业社会信用代码的多源数据产业化分析系统,其特征在于:产业化分析模型的构建包括:步骤1,确定评价产业化分析指标和对应权重,将产业化分析指标由下至上分为第一级指标评价特征、第二级指标评价特征、第三级指标评价特征;第一级指标评价特征值,其中,为第一级指标的第ix项评价特征值,为第一级指标的第ix项价特征值的权重数, mx 为第一级价特征值的项数;第二级指标评价特征值,其中,为第一级指标对应第二级指标的第jx类评价特征值,为第一级指标对应第二级指标的第jx类评价特征值的权重数,nx为第一级指标对应第二级指标的评价特征值的项数;第三级指标评价特征值,其中,为第二级指标对应第三级指标的第kx类评价特征值,为第二级指标对应第三级指标的第kx类评价特征值的权重数, qx为第二级指标对应第三级指标的评价特征值的项数;步骤2,依据步骤1的各项产业化分析指标,使用预定义独立的mq种评价方法对产业化分析中产业下的nq个细分产业进行预评价,对预评价结果进行近似性检验,如果近似性检验结果为不具有相似性,则执行步骤4,否则执行步骤3;步骤3,任选将步骤2中的2种评价方法进行近似性检验,将近似性检验定义为相似的择1留用,遍历步骤2中的评价方法,完毕后执行步骤4;步骤4,根据最终得到的各种评价方法的预评价结果,运用至少2种组合方法对预评价结果进行组合评价;步骤5,将组合评价结果和预评价结果作为一个结果集合,进行近似性排序值;
步骤6,定义表示第kq种组合评价方法的组合评价结果与所有预评价结果的近似性系数;其中,,;,,;为第iq细分产业在第jq种预评价方法排序结果规范后的取值,为第iq细分产业在第kq种组合评价方法排序结果规范后的取值,nq为细分产业的个数,mq为预评价方法数,pq为组合评价方法数,为第kq种组合方法与预评价中第jq种方法之的近似性;步骤7,将为值最大的组合评价结果作为产业化分析结果。5.一种基于统一社会信用代码的多源数据与产业化分析方法,其特征在于:所述多源数据与产业化分析方法基于权利要求1-4任意所述的多源数据产业化分析系统,方法包括:步骤一,数据分析服务单元根据产业化分析指令,控制统一社会信用代码内部分析单元对统一社会信用代码进行内部识别分析,分析提取包括登记管理部门、企业类别、企业行政区域、主体身份标识码特征在内的特征数据,并以企业行业类别特征、企业行政区域特征为二元特征进行数据分集,企业行业类别特征以登记管理部门特征、企业类别特征为初步拟合依据;步骤二,产业化数据处理单元在数据分集的基础上,对分集后的数据进行数据归属分析,将数据分为与企业自身有关的企业涉己行为数据,与其他企业业务相关的企业涉他数据,并根据企业涉己行为数据、企业涉他数据对企业行业类别特征进行二次修正;步骤三,企业数据存储单元按照企业行业类别特征、企业行政区域特征进行二维网络后,将对应数据分开进行存储,存储时将企业涉己行为数据和企业涉他数据分开进行存储;步骤四,数据分析服务单元根据产业化分析指令,调用企业数据存储单元中相应的企业行业类别特征、企业行政区域特征对应的企业的企业涉己行为数据和企业涉他数据,以及关联行业、地域企业的企业涉他数据组成分析数据集,输入预构建的产业化分析模型,进行产业化分析;步骤五,数据呈现单元将数据分析服务单元的分析结果进行呈现。6.根据权利要求5所述的基于统一社会信用代码的多源数据与产业化分析方法,其特征在于:所述产业化分析模型包括:步骤1,确定评价产业化分析指标和对应权重,将产业化分析指标由下至上分为第一级指标评价特征、第二级指标评价特征、第三级指标评价特征;第一级指标评价特征值,其中, 其中,为第一级指标的第ix项评价特征值,为第一级指标的第ix项价特征值的权重数, mx 为第一级价特征值的项数;
第二级指标评价特征值,其中,为第一级指标对应第二级指标的第jx类评价特征值,为第一级指标对应第二级指标的第jx类评价特征值的权重数,nx为第一级指标对应第二级指标的评价特征值的项数;第三级指标评价特征值,其中,为第二级指标对应第三级指标的第kx类评价特征值,为第二级指标对应第三级指标的第kx类评价特征值的权重数, qx为第二级指标对应第三级指标的评价特征值的项数;步骤2,依据步骤1的各项产业化分析指标,使用预定义独立的mq种评价方法对产业化分析中产业下的nq个细分产业进行预评价,对预评价结果进行近似性检验,如果近似性检验结果为不具有相似性,则执行步骤4,否则执行步骤3;步骤3,任选将步骤2中的2种评价方法进行近似性检验,将近似性检验定义为相似的择1留用,遍历步骤2中的评价方法,完毕后执行步骤4;步骤4,根据最终得到的各种评价方法的预评价结果,运用至少2种组合方法对预评价结果进行组合评价;步骤5,将组合评价结果和预评价结果作为一个结果集合,进行近似性排序值;步骤6,定义表示第kq种组合评价方法的组合评价结果与所有预评价结果的近似性系数;其中,,; ,,;为第iq细分产业在第jq种预评价方法排序结果规范后的取值,为第iq细分产业在第kq种组合评价方法排序结果规范后的取值,nq为细分产业的个数,mq为预评价方法数,pq为组合评价方法数,为第kq种组合方法与预评价中第jq种方法之的近似性;步骤7,将为值最大的组合评价结果作为产业化分析结果。7.根据权利要求6所述的基于统一社会信用代码的多源数据与产业化分析方法,其特征在于:近似性检验包括:定义统计量;其中,,,,,,为第iq个被评价对象在第jq种评价方法下的排序值;
统计量
ꢀꢀ
服从自由度为nq-1的
ꢀꢀ
分布,定义当 时,确认各种评价方法在具有相似性,否则确认各种评价方法不具有相似性。8.根据权利要求5所述的基于统一社会信用代码的多源数据与产业化分析方法,其特征在于:步骤一还包括控制产业化数据处理单元执行多源异构数据智能解析处理,包括如下步骤:步骤a,定义多源异构数据为,多源异构数据降维至,预定义参数值、和,正整数m为特征种类数,定义高维数据x的投影矩阵p∈k
×
v,v为数据的维数;步骤b,定义近似性矩阵,其中为第m个种类特征的数据集,为转置运算后的数据集;步骤c,初始化m=1;步骤d,根据计算投影矩阵,其中为预定义参数值,,d为s的对角度矩阵;步骤e,迭代更新m=m+1,根据,计算更新s后,返回执行步骤d;其中,,β为预定义参数值,为预定义参数值,i为正整数,n为样本个数;步骤f,如m=m,则执行步骤g;步骤g,输出各多源异构数据的降维矩阵;步骤h,将降维后的多源异构数据进行归属分类。

技术总结
本发明涉及一种基于企业社会信用代码的多源数据产业化分析系统及方法,解决的是效率低、误差高的技术问题,通过采用分布设置的多源异构数据采集单元,与多源异构数据采集单元一一连接的完成数据虚拟化的多源异构数据处理单元,多源异构数据处理单元连接企业数据存储单元,还包括云服务器中设置的数据分析服务单元、数据呈现单元;多源异构数据处理单元包括统一社会信用代码内部分析单元,以及产业化数据处理单元的技术方案,较好的解决了该问题,可用于产业化分析中。可用于产业化分析中。可用于产业化分析中。


技术研发人员:杨弋 丁春利 王铮 牛颢 髙屹嵩 杨显化 姚晗 龙树全 魏兵兵 王舒 李浩 廖建雄 唐山 周文安 聂珊 丁忠卫
受保护的技术使用者:四川省标准化研究院
技术研发日:2023.04.10
技术公布日:2023/8/21
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐