一种基于异步联邦学习的政务诉求主题模型及装置
未命名
10-19
阅读:156
评论:0

1.本发明涉及一种政务诉求主题模型及装置,特别涉及一种基于异步联邦学习的政务诉求主题模型及装置。
背景技术:
2.社会发展趋势的多元化使得社会服务中的诉求问题逐渐多样化,如何从大量的市民诉求内容中有效地挖掘及发现主题和知识,增加民众满意度,强化政府公信力,成为政府工作中亟待解决的问题,这对于完善政民交流机制和促进我国电子政务向更深层次发展具有重要的现实意义。主题模型旨在从文本语料中进行无监督的知识发现,挖掘出文本中隐含的主题信息。然而得到准确率高的通用主题模型需要大量的训练数据,这些数据通常由各地市政府部门所拥有。若要将各地市诉求数据进行集中训练,不仅会占用大量的资源,且在传输过程中还会产生数据泄露的风险。同时,各地市本地数据通常具有局限性,社会问题的愈加复杂化使得诉求问题类型多样化,新词不断涌现,关键词数量增加,数据越发嘈杂,若仅利用本地数据,难以为模型学习提供全面的信息。
3.目前在主题提取的研究方面,主要有两种方式:1)基于生成的方法。生成方法遵循概率潜在语义分析的假设,使得文档中的每个单词标记都是从潜在主题的混合中采样。这些方法根据词袋bow(bag-of-words)表示来估计每个文档的潜在主题分布和每个主题的单词分布。然而,bow表示只包含单词级别的共现信息,并且无法捕捉文档上下文信息中每个单词标记的重要性。因此,单词集的选择决定了主题的质量。2)基于聚类的方法。聚类方法将主题视为在文档或单词嵌入空间上发现的语义聚类。通过利用预先训练的语言模型的知识来生成给定文档(或单词)的高级摘要。然后,通过聚类方法,如dbscan或k-means,根据嵌入距离识别文档(或单词)聚类。不需要选词,并且可以有效地利用上下文信息来发现主题。然而由于核心是集群,所以无法为每个文档分配混合主题。
4.目前在联邦主题提取方面,主要通过将其推理过程与安全聚合协议相结合,构建基于贝叶斯的主题模型方法。如ftm基于metropolis hastings的框架,通过加权jaccard相似度来计算各联邦学习节点局部主题之间的相似度,并在聚合节点合并相似的主题。
技术实现要素:
5.为了解决现有技术问题,本发明提供了一种基于异步联邦学习的政务诉求主题模型的构建方法。基于预训练语言模型,实现诉求文本的嵌入表示;基于双重相似性谱聚类的方法,实现对诉求文本嵌入分组。基于类的tf-idf变体,将每个文档集群视为单个统一文档来计算词权重,生成具有代表性的词语,并构建bow表示的词汇表。基于词权重,将文本bow表示和文本嵌入表示与神经主题模型prodlda相结合,增强主题的连贯性和多样性。基于过时惩罚的异步联邦学习算法,通过对各参与方政务诉求神经主题模型的网络权重、过时性进行衡量,动态调整聚合参数,加快模型收敛速度及提升模型性能。
6.本发明所采用的技术方案如下:
7.一种基于异步联邦学习的政务诉求主题模型的构建方法,包括以下几个组成部分:
8.a.基于双重相似性的谱聚类:基于文本内容相似性与共享邻居文本相似性进行双重相似性度量,通过谱聚类对基于sbert模型生成的诉求文本嵌入进行分组。
9.b.基于类的tf-idf变体的词汇表构建:将分组后的诉求文本视为单个统一文档,计算每个单词的tf-idf作为词权重。选择前k个词权重的单词作为bow表示的词汇表。
10.c.基于词权重与上下文感知的神经主题模型构建:将诉求文本分解为给定词汇表的bow表示,基于sbert对诉求文本进行嵌入创建上下文感知表示。基于prodlda
11.神经主题模型,通过从潜在主题分布重构原文档的bow表示来对主题模型训练。其中,为了在训练时更多关注具有影响力的单词,通过词权重进行筛选,过滤不必要的单词。
12.d.基于异步联邦学习政务诉求神经主题模型构建:将各地市作为联邦学习的参与方并选择可信任的第三方作为聚合服务器。各参与方将本地诉求文本bow格式词汇表上传至服务器端进行词汇表共识,形成共识词汇表。服务器端通过共识词汇表初始化全局政务诉求神经主题模型,并将共识词汇表及全局政务诉求神经主题模型分派各参与方。
13.各参与方利用共识词汇表及文本嵌入进行本地神经主题模型训练后,发送至服务器端。服务器端执行基于过时惩罚的异步联邦聚合算法,对来自各参与方的政务诉求神经主题模型进行聚合。依次迭代,直至达到预定义的次数结束训练,生成全局政务诉求神经主题模型,并发送给各参与方。
14.步骤a中,所谓的邻居文本是指两个文本嵌入矩阵余弦相似度大于相似度阈值的文本。所谓的共享邻居文本是指两个文档公共邻居集合。
15.步骤c中,所谓的有影响力的单词是指某些词在一个簇中很重要,而在其他簇中没有意义,即类的tf-idf值高的单词。
16.步骤d中,所谓词汇表共识是指对不同参与方的bow格式词汇表进行加权合并,形成bow格式的共识词汇表。
17.另一方面,本发明提供了一种基于异步联邦学习的政务诉求主题模型的构建装置,包括以下模块:
18.本地政务诉求神经主题模型构建模块:基于sbert模型对诉求文本进行编码后,通过双重相似性谱聚类对其分组。基于类的tf-idf变体构建bow表示的词汇表。将诉求文本嵌入通过隐藏层映射到与共识词汇表相同维度,并对两个矩阵拼接。基于prodlda神经主题模型与词权重,从潜在主题分布重构原文档的bow表示来对本地模型训练,构建本地政务诉求神经主题模型。
19.全局政务诉求神经主题模型聚合模块:以全局聚合次数作为阈值,设置不同时期模型权重更新策略。基于各参与方模型的网络权重以及过时性,对聚合参数进行动态设置。
20.本发明提供的技术方案以及构建装置带来的有益效果是:
21.在上述的组成部分中,首先,基于sbert模型,实现诉求文本的嵌入表示。其次,基于双重相似性衡量提高谱聚类性能,产生高质量诉求文本的分组。基于类的tf-idf变体,生成具有影响力的单词及对应权重,并构建bow表示的词汇表。再次,通过词权重将生成与聚类两种主题建模方法的优点结合到单一神经主题模型中,增强主题的连贯性和多样性。最后,基于过时惩罚的异步联邦学习算法,根据各参与方模型的网络权重和过时程度动态调
整聚合参数,在保护各地市数据隐私的前提下,加快模型收敛速度,实现主题模型高效训练。
附图说明
22.为了更清楚的说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1为本技术公开的一种基于异步联邦学习的政务诉求主题模型构建流程示意图。
24.图2为本技术公开的一种基于双重相似性谱聚类及类的tf-idf变体的本地诉求文本词汇表构建流程示意图。
25.图3为本技术公开的一种基于过时惩罚的异步联邦学习算法流程示意图。
具体实施方式
26.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
27.步骤一,参与方本地政务诉求神经主题模型训练:
28.1)政务诉求文本嵌入
29.基于sbert模型对诉求文本进行编码,将诉求文本转化为密集的向量表示。
30.v=sbert(input) (1)
31.其中input是诉求文本,v是生成的诉求文本嵌入。
32.2)基于双重相似性的文本谱聚类
33.设t=t1,t2,...,tn是本地语料库中的n条政务诉求数据。ti为当前查询诉求文本,为该文本的正向文本,为该文本的负向文本。其中正向文本是指文本内容相似性高于α阈值的文本,负向文本是指文本内容相似性低于β阈值的文本,其中α>β。
[0034][0035][0036]
其中,为文本内容相似度度量,一般为余弦相似度。设s(ti)为诉求文本ti的邻居集,为文本ti与文本tj的公共邻居的合集。
[0037]
cs(ti,tj)=s(ti)∩s(tj)
ꢀꢀ
(4)
[0038]
双重相似性(ds)定义如下:
[0039][0040]
首先,基于双重相似性度量从给定的文本嵌入矩阵中创建相似矩阵,其中矩阵的
对角为0。归一化的拉普拉斯算子被计算为其中a为相似矩阵,b为对角矩阵,其中a为相似矩阵,b为对角矩阵,其次,形成n
×
k的矩阵x,其列为l的最大特征向量k按非递增顺序排列,其中k为聚类个数,k>0。在特征向量重复的情况下,选择正交特征向量。再次,将x的行归一化为单位长度并表示为y。最后,通过将y的行视为单独的文本向量来执行k均值聚类算法。文本被分配给y的相应行标记到的簇。
[0041]
3)本地bow政务词汇表构建
[0042]
给定新识别的聚类集c,从c中计算每个词的重要性权重,并构建词汇表v
dict
。将每个文本集群视为单一的统一文档,并计算每个单词的tf-idf作为词权重。每个集群的tf-idf定义如下:
[0043]
tf-idf(w,c,c)=tf(w,c)
·
idf(w,c)
ꢀꢀꢀꢀ
(6)
[0044][0045][0046]
其中,f(w,c)表示在聚类c中找到给定词w的次数。选取每个聚类中前k个最高词权重的词构建bow的词汇表v
dict
。
[0047]
4)政务诉求共识词汇表构建
[0048]
给定n个参与方和一个聚合服务器的集合。各参与方l根据本地语料库c
l
构建具有bow格式的词汇表v
l
并上传至服务器节点,服务器等待接收到所有节点的词汇{v
l
,l=1,...,n},将其合并为共识词汇表。在合并时,若各参与方词汇表含有相同单词,则对词权重进行加权平均处理,即各参与方的公共词对应的词权重相加取平均。服务器端将共识词汇表发送给各参与方进行模型初始化。
[0049]
5)基于改进的prodlda的本地神经主题模型构建:
[0050]
设输入文本为x,给定共识词汇表v,输入文本x被分解为bow表示的y。将诉求文本嵌入通过隐藏层映射到与共识词汇表相同维度,将两个矩阵进行拼接后作为编码器网络的输入,生成输入文本潜在主题分布t。解码器网络利用主题分布t将输入文档的bow表示重建为y。同时,通过将词权重与损失目标相乘,更多关注具有影响力的单词,过滤掉不必要词。
[0051][0052]
其中,l
recon
(x,y)为重构损失,x为输入文本,y为输入文本的bow表示,f为sbert模型,q
φ
为编码器网络,p
θ
为解码器网络,wy为词权重矩阵,t为主题分布。
[0053]
步骤二,基于过时惩罚的异步联邦学习政务诉求神经主题模型聚合:
[0054]
传统同步联邦学习方法易受掉队者的影响,通过异步联邦学习加快模型的收敛速度,提升模型性能。首先,在服务器端定义一个长度为n的模型列表l
p
,用于存储各参与方模型历史信息,其次对不同时期的模型权重进行设置:
[0055]
[0056]
其中,w
new
为更新后的权重,w
old
为最后一次聚合的全局权重信息,c为服务器聚合用户更新的总次数,tm为参与方到达服务器的时间,wm为参与方在tm的更新信息,n为聚合更新次数阈值。
[0057]
根据聚合更新的次数,将权重更新划分为以下三种情况:
[0058]
1)全局模型初始化
[0059]
服务器端将参与方l到达服务器的第一个权重作为全局权重分发给各参与方。
[0060]
2)服务端聚合次数小于给定阈值n
[0061]
设置线性递减权重,随着参与方更新数量的增加,新到参与方更新的权重将更小。设置设置权重从最初慢下降至
[0062]
3)服务端聚合次数大于给定阈值
[0063]
当服务器端聚合了足够多的更新时(c>n)时,则认为全局模型可以表示所有参与方数据,并且此时对掉队者实施相应的惩罚。通过引入聚合参数γ,对模型参数进行更新。
[0064]
通过引入惩罚项来对掉队者进行惩罚。其中λ是控制过时惩罚的参数,λ越大,过时更新的惩罚就越大。tg是最近全局epoch开始的时间。若t
m-tg≥to,则认为参与方为掉队者,其中to为过时阈值,若t
m-tg<to,则认为参与方正常到达,惩罚项p的取值为1。
[0065]
当服务器端聚合次数大于阈值n时,通过参与方的局部训练损失的中位数和标准差来设置模型“有利区”。定义参与方的局部训练损失的中位数为:
[0066][0067]
其中为n个参与方的训练损失集,按升序排序。标准差σ定义为:
[0068][0069]
使用方程的中位数和标准差,分别在(11)(12)中,定义模型“有利区”,的损失值集合如下:
[0070][0071]
其中,超参数δ决定了哪些更新是好的更新方面的限制程度。随着δ的增大,越来越多的参与方更新被包含在模型“有利区”内,当δ足够大时,实现与fedavg等同的效果。
[0072]
根据d
l
的值来设置每个参与方的权重,d
l
的定义如下:
[0073][0074]
这里,0<ε≤δ,ε是另一个可调参数,它控制模型“有利区”内外参与方之间的相对权重分布。将每个参与方模型更新的权重参数a
l
设为:
[0075]
[0076]
设置聚合参数γ=p*a
l
。
[0077]
在服务器端更新模型列表l
p
,并将聚合后的全局政务诉求神经主题模型分发给各参与方。迭代执行,直到达到预定义的迭代次数停止训练,生成最终全局政务诉求神经主题模型,分发给各参与方进行政务诉求主题提取。
[0078]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
技术特征:
1.一种基于异步联邦学习的政务诉求主题模型的构建方法,包括以下几个组成部分:a.基于双重相似性的谱聚类:基于文本内容相似性与共享邻居文本相似性进行双重相似性度量,通过谱聚类对基于sbert模型生成的诉求文本嵌入进行分组。b.基于类的tf-idf变体的词汇表构建:将分组后的诉求文本视为单个统一文档,计算每个单词的tf-idf作为词权重。选择前k个词权重的单词作为bow表示的词汇表。c.基于词权重与上下文感知的神经主题模型构建:将诉求文本分解为给定词汇表的bow表示,基于sbert对诉求文本进行嵌入创建上下文感知表示。基于prodlda神经主题模型,通过从潜在主题分布重构原文档的bow表示来对主题模型训练。其中,为了在训练时更多关注具有影响力的单词,通过词权重进行筛选,过滤不必要的单词。d.基于异步联邦学习政务诉求神经主题模型构建:将各地市作为联邦学习的参与方并选择可信任的第三方作为聚合服务器。各参与方将本地诉求文本bow格式词汇表上传至服务器端进行词汇表共识,形成共识词汇表。服务器端通过共识词汇表初始化全局政务诉求神经主题模型,并将共识词汇表及全局政务诉求神经主题模型分派各参与方。各参与方利用共识词汇表及文本嵌入进行本地神经主题模型训练后,发送至服务器端。服务器端执行基于过时惩罚的异步联邦聚合算法,对来自各参与方的政务诉求神经主题模型进行聚合。依次迭代,直至达到预定义的次数结束训练,生成全局政务诉求神经主题模型,并发送给各参与方。2.根据权利要求1中所述的一种基于异步联邦学习的政务诉求主题模型的构建方法,其特征在于,所述的步骤a中,所述的邻居文本是指两个文本嵌入矩阵余弦相似度大于相似度阈值的文本。所述的共享邻居文本是指两个文档公共邻居集合。3.根据权利要求1中所述的一种基于异步联邦学习的政务诉求主题模型的构建方法,其特征在于,所述的步骤c中,所述的有影响力的单词是指某些词在一个簇中很重要,而在其他簇中没有意义,即类的tf-idf值高的单词。4.根据权利要求1中所述的一种基于异步联邦学习的政务诉求主题模型的构建方法,其特征在于,所述的步骤d中,所述的词汇表共识是指对不同参与方的bow格式词汇表进行加权合并,形成bow格式的共识词汇表。5.一种基于异步联邦学习的政务诉求主题模型的构建装置,包括以下模块:本地政务诉求神经主题模型构建模块:基于sbert模型对诉求文本进行编码后,通过双重相似性谱聚类对其分组。基于类的tf-idf变体构建bow表示的词汇表。将诉求文本嵌入通过隐藏层映射到与共识词汇表相同维度,并对两个矩阵拼接。基于prodlda神经主题模型与词权重,从潜在主题分布重构原文档的bow表示来对本地模型训练,构建本地政务诉求神经主题模型。全局政务诉求神经主题模型聚合模块:以全局聚合次数作为阈值,设置不同时期模型权重更新策略。基于各参与方模型的网络权重以及过时性,对聚合参数进行动态设置。
技术总结
本发明实例提供了一种基于异步联邦学习的政务诉求主题模型的构建方法。首先,基于SBERT模型,实现诉求文本的嵌入表示。其次,基于双重相似性衡量提高谱聚类性能,产生高质量诉求文本的分组。基于类的TF-IDF变体,生成具有影响力的单词及对应权重,并构建BoW表示的词汇表。再次,通过词权重将生成与聚类两种主题建模方法的优点结合到单一神经主题模型中,增强主题的连贯性和多样性。最后,基于过时惩罚的异步联邦学习算法,根据各参与方模型的网络权重和过时程度动态调整聚合参数,在保护各地市数据隐私的前提下,加快模型收敛速度,实现主题模型高效训练。本发明实施例还提供一种基于异步联邦学习的政务诉求主题模型的构建装置。装置。装置。
技术研发人员:刘昕 李艳茹 张春营 杨大伟 王海文 熊文婷
受保护的技术使用者:中国石油大学(华东)
技术研发日:2023.06.28
技术公布日:2023/10/15
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/