一种基于引文网络结构的关键词逆向传播算法的制作方法
未命名
09-08
阅读:73
评论:0

1.本发明属于引文网络领域,尤其是涉及一种基于引文网络结构的关键词逆向传播算法。
背景技术:
2.引文网络是由文献间引用和被引用的关系构成的集合,这些文献资料包括科技期刊、专利文献、会议论文集、科技报告和学位论文等多种形式,其较好地描述了科学领域的发展、学科间的关系。随着现代信息技术的发展,文献著作数量迅速增加,引文网络已经形成了一个超大规模的复杂网络系统,并吸引了越来越多的关注。由于引文网络包含了多个领域的研究成果,代表了学术研究中重要的知识宝库,其已经成为研究的重要介质。
3.聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(cluster)分析是由若干模式(pattern)组成的,通常,模式是一个度量(measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
4.基于文本的聚类算法的输入通常是将语料进行向量化,然后通过计算不同语料之间的相似度来作为文本与文本之间的相似度。传统的文献聚类算法通常将文献的摘要以及关键词等作为语料输入,这样的聚类算法得到的结果难以保证完整的引文网络结构。所以在可视化展示时,会导致不同簇之间的文献相互交叉引用,难以得到较好的可视化效果。
技术实现要素:
5.有鉴于此,本发明旨在提出一种一种基于引文网络结构的关键词逆向传播算法,以得到完整的引文网络结构,从而得到更好可视化效果。
6.为达到上述目的,本发明的技术方案是这样实现的:
7.一种基于引文网络结构的关键词逆向传播算法,包括如下步骤:
8.s1:建立弹簧电荷模型,并进行力导向布局处理,建立力导向布局图;
9.s2:使用逆向传播算法,建立关键词传播模型,得到关键词权重变化对照曲线;
10.s3:使用步骤s1中建立的力导向布局图,构建引文网络模型;
11.s4:对力导向布局图进行迭代计算,直至力导向布局图中的能量状态到达最低值;
12.s5:使用步骤s4中的迭代计算方式,代替步骤s3中建立的引文网络模型中的迭代计算方法,进行迭代计算;
13.s6:在步骤s5中对引文网络进行迭代计算的同时,使用步骤s2得到的关键词权重变化对照曲线,调整引文网络模型中的关键词权重;
14.s7:通过步骤s1至s6计算得到,收敛的引文网络布局图。
15.进一步的,步骤s1中建立力导向布局图的具体过程如下:
16.s101:将弹簧电荷模型中每一个具有能量的放电粒子作为力导向布局中的一个节点;
17.s102:根据粒子与粒子之间的库伦力以及胡克引力,计算得到两个粒子之间的相关作用力关联,将得到的相关作用力关联作为两个节点之间的连接关系,得到力导向布局中的边;
18.s103:使用步骤s101和s102中得到的节点与边建立力导向布局图。
19.进一步的,步骤s2中建立关联词传播模型的过程如下:
20.s201:建立神经网络模型,将关键词数据输入神经网络进行运算,计算每个神经元的输出,并生成最终的输出结果;
21.s202:计算实际输出和目标输出之间的误差值,将误差值代入误差函数,计算得到关键词权重与偏置的导数;
22.s203:将关键词权重与偏置的导数传递回网络的前序层次,以更新前序层次上的关键词权重与偏置;
23.s204:使用原有的关键词权重与偏置数据,以及更新后的关键词权重与偏置,排列得到实际变化曲线与目标变化曲线,进而得到关键词变化对照曲线。
24.进一步的,步骤s3中建立引文网络模型的步骤如下:
25.s301:收集一定数量的学术文献数据,并将学术文献数据转换为交互数据格式;
26.s302:从文献数据中提取出需要的信息作为关键词;
27.s303:构建一个有向图,其中每个节点表示一篇学术文献,每条边表示该篇文章中对其他文献的引用链接;
28.s304:通过聚类算法划分网络中的子群,识别核心节点和关键文献;
29.s305:迭代计算得到引文网络布局图。
30.进一步的,步骤s4中对力导向布局图进行迭代计算的过程如下:
31.s401:输入迭代次数、数据节点、与数据节点对应的边;
32.s402:在每一次迭代中,遍历所有数据节点,调用库伦斥力函数,进行递归计算,得到所有数据节点之间的静电斥力;
33.s403:遍历与所有数据节点相对应的边,调用胡克引力函数,对步骤s402中得到静电斥力数据进行递归计算,得到新的静电斥力数据;
34.s404:再次遍历所有数据节点,调用位置函数来更新数据节点的位置,位置函数的参数包括数据节点当前的坐标以及步骤s403中得到的新的静电斥力数据;
35.s405:返回更新后的数据节点得到位置数据。
36.相对于现有技术,本发明所述的一种基于引文网络结构的关键词逆向传播算法具有以下有益效果:
37.本发明所述的一种基于引文网络结构的关键词逆向传播算法,以整个网络为主体,由被引文献向施引文献以一定概率选择其拥有的关键词并沿着网络向后传播,在保留文本聚类思想的同时,加大对于关键词的权重,通过力导向布局,得到了清晰的可视化数据效果。
附图说明
38.构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
39.图1为本发明实施例所述的一种基于引文网络结构的关键词逆向传播算法流程示意图;
40.图2为本发明实施例所述的通过现有引文网络得到的可视化网络图示意图;
41.图3为本发明实施例所述的通过本发明改良后的引文网络得到的可视化网络图示意图。
具体实施方式
42.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
43.下面将参考附图并结合实施例来详细说明本发明。
44.一种基于引文网络结构的关键词逆向传播算法,包括如下步骤:
45.s1:建立弹簧电荷模型,并进行力导向布局处理,建立力导向布局图;
46.s2:使用逆向传播算法,建立关键词传播模型,得到关键词权重变化对照曲线;
47.s3:使用步骤s1中建立的力导向布局图,构建引文网络模型;
48.s4:对力导向布局图进行迭代计算,直至力导向布局图中的能量状态到达最低值;
49.s5:使用步骤s4中的迭代计算方式,代替步骤s3中建立的引文网络模型中的迭代计算方法,进行迭代计算;
50.s6:在步骤s5中对引文网络进行迭代计算的同时,使用步骤s2得到的关键词权重变化对照曲线,调整引文网络模型中的关键词权重;
51.s7:通过步骤s1至s6计算得到,收敛的引文网络布局图。
52.步骤s1中建立力导向布局图的具体过程如下:
53.s101:将弹簧电荷模型中每一个具有能量的放电粒子作为力导向布局中的一个节点;
54.s102:根据粒子与粒子之间的库伦力以及胡克引力fs=ks(x-x0),计算得到两个粒子之间的相关作用力关联,将得到的相关作用力关联作为两个节点之间的连接关系,得到力导向布局中的边;
55.s103:使用步骤s101和s102中得到的节点与边建立力导向布局图。
56.粒子在作用于其上的库仑斥力与胡克引力的作用下,朝着指定合力方向发生位移,从整体上来看,粒子们从最开始的随机无序状态不断发生位移,逐渐趋于平衡有序的稳定终态,同时,整个物理系统的能量也在不断消耗,经过多次迭代之后,粒子不再发生相对位移,此时整个系统达到稳定状态,也即能量最小的状态。
57.步骤s2中建立关联词传播模型的过程如下:
58.s201:建立神经网络模型,将关键词数据输入神经网络进行运算,计算每个神经元的输出,并生成最终的输出结果;
59.s202:计算实际输出和目标输出之间的误差值,将误差值代入误差函数,计算得到关键词权重与偏置的导数;
60.s203:将关键词权重与偏置的导数传递回网络的前序层次,以更新前序层次上的关键词权重与偏置;
61.s204:使用原有的关键词权重与偏置数据,以及更新后的关键词权重与偏置,排列得到实际变化曲线与目标变化曲线,进而得到关键词变化对照曲线。
62.对于每一篇文献,其含有n个关键词分别为k1,k2,k3,
…
,kn,每个关键词ki(0≤i≤n)对应着一个正整数wi,表示着这个关键词在所有文献中出现的总次数,在进行传播时,每个关键词ki被向后传播的概率为:被向后传播的概率为:为丢失此次传播的概率,通过对σ的选取调整,可避免整个局部网络传播的为同一关键词的情况,这样避免了整个网络过于拟合原有的引文网络结构,而丢失了基本的文本相似细节。
63.误差函数:
64.其中是p(x)实际输出,q(x)时目标输出。
65.步骤s3中建立引文网络模型的步骤如下:
66.s301:收集一定数量的学术文献数据,并将学术文献数据转换为交互数据格式(例如xml或json);
67.s302:从文献数据中提取出需要的信息作为关键词,如标题、摘要、作者、发表时间等;
68.s303:构建一个有向图,其中每个节点表示一篇学术文献,每条边表示该篇文章中对其他文献的引用链接,如果一篇文献被多次引用,则增加相应节点的权重,以反映其在学术界中的影响力;
69.s304:通过聚类算法划分网络中的子群,识别核心节点和关键文献;
70.s305:迭代计算得到引文网络布局图。
71.步骤s4中对力导向布局图进行迭代计算的过程如下:
72.s401:输入迭代次数、数据节点、与数据节点对应的边;
73.s402:在每一次迭代中,遍历所有数据节点,调用库伦斥力函数,进行递归计算,得到所有数据节点之间的静电斥力;
74.s403:遍历与所有数据节点相对应的边,调用胡克引力函数,对步骤s402中得到静电斥力数据进行递归计算,得到新的静电斥力数据;
75.s404:再次遍历所有数据节点,调用位置函数来更新数据节点的位置,位置函数的参数包括数据节点当前的坐标以及步骤s403中得到的新的静电斥力数据;
76.s405:返回更新后的数据节点得到位置数据。
77.迭代计算的伪代码如下:
78.algorithm:(k,u,e)
79.输入:迭代次数k,所有节点u,所有边e
80.输出:每个节点的位置
[0081][0082]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0083]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和系统,可以通过其它的方式实现。例如,以上所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。上述单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0084]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
[0085]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
技术特征:
1.一种基于引文网络结构的关键词逆向传播算法,其特征在于:包括如下步骤:s1:建立弹簧电荷模型,并进行力导向布局处理,建立力导向布局图;s2:使用逆向传播算法,建立关键词传播模型,得到关键词权重变化对照曲线;s3:使用步骤s1中建立的力导向布局图,构建引文网络模型;s4:对力导向布局图进行迭代计算,直至力导向布局图中的能量状态到达最低值;s5:使用步骤s4中的迭代计算方式,代替步骤s3中建立的引文网络模型中的迭代计算方法,进行迭代计算;s6:在步骤s5中对引文网络进行迭代计算的同时,使用步骤s2得到的关键词权重变化对照曲线,调整引文网络模型中的关键词权重;s7:通过步骤s1至s6计算得到,收敛的引文网络布局图。2.根据权利要求1所述的一种基于引文网络结构的关键词逆向传播算法,其特征在于:步骤s1中建立力导向布局图的具体过程如下:s101:将弹簧电荷模型中每一个具有能量的放电粒子作为力导向布局中的一个节点;s102:根据粒子与粒子之间的库伦力以及胡克引力,计算得到两个粒子之间的相关作用力关联,将得到的相关作用力关联作为两个节点之间的连接关系,得到力导向布局中的边;s103:使用步骤s101和s102中得到的节点与边建立力导向布局图。3.根据权利要求1所述的一种基于引文网络结构的关键词逆向传播算法,其特征在于:步骤s2中建立关联词传播模型的过程如下:s201:建立神经网络模型,将关键词数据输入神经网络进行运算,计算每个神经元的输出,并生成最终的输出结果;s202:计算实际输出和目标输出之间的误差值,将误差值代入误差函数,计算得到关键词权重与偏置的导数;s203:将关键词权重与偏置的导数传递回网络的前序层次,以更新前序层次上的关键词权重与偏置;s204:使用原有的关键词权重与偏置数据,以及更新后的关键词权重与偏置,排列得到实际变化曲线与目标变化曲线,进而得到关键词变化对照曲线。4.根据权利要求1所述的一种基于引文网络结构的关键词逆向传播算法,其特征在于:步骤s3中建立引文网络模型的步骤如下:s301:收集一定数量的学术文献数据,并将学术文献数据转换为交互数据格式;s302:从文献数据中提取出需要的信息作为关键词;s303:构建一个有向图,其中每个节点表示一篇学术文献,每条边表示该篇文章中对其他文献的引用链接;s304:通过聚类算法划分网络中的子群,识别核心节点和关键文献;s305:迭代计算得到引文网络布局图。5.根据权利要求1所述的一种基于引文网络结构的关键词逆向传播算法,其特征在于:步骤s4中对力导向布局图进行迭代计算的过程如下:s401:输入迭代次数、数据节点、与数据节点对应的边;
s402:在每一次迭代中,遍历所有数据节点,调用库伦斥力函数,进行递归计算,得到所有数据节点之间的静电斥力;s403:遍历与所有数据节点相对应的边,调用胡克引力函数,对步骤s402中得到静电斥力数据进行递归计算,得到新的静电斥力数据;s404:再次遍历所有数据节点,调用位置函数来更新数据节点的位置,位置函数的参数包括数据节点当前的坐标以及步骤s403中得到的新的静电斥力数据;s405:返回更新后的数据节点得到位置数据。
技术总结
本发明提供了一种基于引文网络结构的关键词逆向传播算法,包括如下步骤:建立弹簧电荷模型,并进行力导向布局处理,建立力导向布局图;使用逆向传播算法,建立关键词传播模型,得到关键词权重变化对照曲线;使用力导向布局图,构建引文网络模型;对力导向布局图进行迭代计算,直至力导向布局图中的能量状态到达最低值;对引文网络进行迭代计算的同时,调整引文网络模型中的关键词权重,计算得到收敛的引文网络布局图。本发明有益效果:以整个网络为主体,由被引文献向施引文献以一定概率选择其拥有的关键词并沿着网络向后传播,在保留文本聚类思想的同时,加大对于关键词的权重,通过力导向布局,得到了清晰的可视化数据效果。得到了清晰的可视化数据效果。得到了清晰的可视化数据效果。
技术研发人员:邹文韬
受保护的技术使用者:紫光云技术有限公司
技术研发日:2023.05.12
技术公布日:2023/9/6
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/