一种基于社交媒体文本数据的空间基因识别提取方法
未命名
07-14
阅读:96
评论:0

1.本发明属于城市规划技术领域,具体涉及一种基于社交媒体文本数据的空间基因识别提取方法。
背景技术:
2.21世纪以来,城市建设快速扩张,物质空间形态的趋同性愈加明显,城市特色的挖掘与文化底蕴的传承,依然形势严峻。“空间基因”概念正是为解决该问题而提出的,它将研究视角从物质空间的“建成形式”转向其背后的“深层结构”,它提出城市建设发展中实现文脉传承的关键并不是对历史形式、符号本身的保护或复制,而是空间要素地域性组合模式及其内在生成机理的延续,由此形成形态组织与场所营造方法,才能实现历史文脉传承与城市建设发展的共赢。
3.目前基于公众认知视角的空间基因识别提取通常是采用问卷、访谈等传统社会学方法,而数据采集的限制导致该步骤过于依赖规划与设计人员的能力和经验,主观因素影响较大,在实际操作中容易出现对公众认知的理解偏差。随着科技全球化进程不断推进,社交媒体的出现打破了地理时间限制,既降低了公众表达的门槛,也大大拓宽了采集公众认知信息的渠道。与传统社会学方法相比,基于社交媒体文本获取公众认知数据的方法有效提升了信息的采集效率与真实性:一方面,在实地发放问卷或者访谈等传统的调研中,信息获取的有效率较低,所需人力物力的前期投入较高,而社交媒体文本数据的获取途径简单,样本量更为丰富;另一方面,预设问题选项的调研问卷会遗漏细致、深层的信息,获取的数据缺乏真实的弹性,而通过社交媒体的文本数据,研究者可以获取大量真实、非介入式的样本数据,从而更好地识别空间基因。
技术实现要素:
4.针对现有技术的不足,本发明的目的在于提供一种基于社交媒体文本数据的空间基因识别提取方法,以解决上述背景技术中提出的问题。
5.本发明的目的可以通过以下技术方案实现:
6.一种基于社交媒体文本数据的空间基因识别提取方法,包括以下步骤:
7.步骤1、采集关于城市的网络文本数据,然后对数据进行预处理,得到数据集d1;
8.步骤2、在分析软件中构建词典及向量空间,引入lda主题模型,对得到的数据集d1进行主题分类,得到k类主题,记为z1、z2……
zk,从其中选取与空间要素相关的主题,并将上述主题中包含的词语作为关键词,分别记为关键词集c1、c2……cn
,其中k≥n;
9.步骤3、在关键词集c1、c2……cn
和数据集d1中,同步进行同义词替换,将替换后的关键词集合并记为关键词集c’,其包含的关键词记为a1、a2……ap
,得到数据集记为d2;
10.步骤4、在数据集d2中统计关键词a1、a2……ap
两两共现次数,并构建共词矩阵m;
11.步骤5、利用层次聚类模型,对语义网络分析结果进行聚类,得到空间组合模式,即空间基因。
12.优选地,所述步骤1中对网络文本数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词,标记保留词。
13.优选地,所述步骤2中lda模型采用词袋模型将每一篇文本视为一个词频向量,将文本信息转化为易于建模的数字信息,定义词大小为l,一个l维向量(1,0,0,
…
,0,0)表示一个词,由n个词构成的评论记为d=(w1,w2,
……
wn),文本数据集d由q篇评论构成,记为d=(d1,d2,
……dq
),q篇评论分布着k个主题,将文本主题记为zi(i=1,2,
…
,k),记α和β为狄利克雷函数的先验参数,θ为主题在文档中的多项分布的参数,其服从超参数为α的dirichlet先验分布,φ为词在主题中的多项分布的参数,其服从超参数β的dirichlet先验分布,z为隐藏变量。
14.优选地,所述lda模型中文本的混合比例服从多项分布,如下式:
15.z|θ=multinomial(θ)
ꢀꢀꢀꢀ
(1)
16.所述主题词汇表中的词语混合比例也服从多项分布,如下式:
17.w|z,φ=multinomial(φ)
ꢀꢀ
(2)
18.在文本dj条件下生成词wi的概率表示如下式:
[0019][0020]
式中,p(wi|z=s)表示词wi属于第s个主题的概率,p(z=s|dj)表示第s个主题在文本dj中的概率。
[0021]
优选地,所述步骤2中lda模型的主题提取过程包括:
[0022]
输入主题数k,评论q篇后,初始化参数α和β;
[0023]
开始em算法迭代循环,初始化所有的变分参数θ、φ、z,进行lda的期望步(e步)迭代循环,直到变分参数θ、φ、z收敛,得到最优变分参数;
[0024]
进行lda的极大步(m步),在最优变分参数的条件下,迭代循环模型,直到α和β收敛。
[0025]
统计数据集中的各个文本各个词的主题,得到文档主题分布θq,得到lda的主题与词的分布φk,并输出为可视化格式。
[0026]
优选地,在所有所述主题中打印与空间要素相关的主题z1、z2……
zk,将其包含关键词,分别记为关键词集c1、c2……cn
,其中k≥n。
[0027]
优选地,所述步骤4中共词矩阵构建过程包括:
[0028]
将数据集d2中每个文本构建二维数组formated_data;
[0029]
将关键词集c’记为word_data;
[0030]
建立一个二维矩阵matrix,其大小为:(关键词词数+1)
×
(关键词词数+1)即,共词矩阵,并将所有关键词作为共现矩阵的首行和首列;
[0031]
设置矩阵对角线为0;
[0032]
遍历formated_data,让取出的行关键词和取出的列关键词进行组合,一组关键词共现则在对应矩阵中+1,最终得到共词矩阵m。
[0033]
优选地,所述步骤5中得到空间基因的过程包括:
[0034]
将关键词向量化,每个词向量之间的距离l(x,y),如下式:
[0035]
l(x,y)=(x[1]-u[1])2+(x[1]-y[2])2+
…
+(x[n]-y[n])2ꢀꢀꢀꢀꢀ
(4)
[0036]
构建n个类,每个类只包含一个关键词;
[0037]
计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,构建一个新类;
[0038]
重复上述步骤,直至得到合适类别的聚类结果,每一组聚类结果便是一组稳定存在、具有地方代表性并形成广泛共识的空间组合模式,即为空间基因。
[0039]
本发明的有益效果:
[0040]
本发明方法从多源社交媒体平台上采集关于某研究城市的网络文本数据,通过获取样本量丰富、非介入式的数据,为城市研究者识别城市空间基因提供了一种实用的技术手段,真实充分地体现了公众对城市空间的认知。
附图说明
[0041]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0042]
图1是本发明实施例中方法流程图;
[0043]
图2是本发明实施例中主题分布可视化图;
[0044]
图3是本发明实施例中得到的主题1的可视化结果图。
具体实施方式
[0045]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0046]
请参阅图1所示,本实施例提供一种基于社交媒体文本数据的空间基因识别提取方法,包括以下步骤:
[0047]
步骤1、从多源社交媒体平台上采集关于某研究城市的网络文本数据,对数据进行预处理,得到数据集d1;
[0048]
对网络文本数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词,标记保留词,其中所述无效字符包括表情符号,标点符号等。所述停用词,例如:嗯、耶、我们、哪里等。所述保留词包括专有地名、景区名、酒店名等。
[0049]
步骤2、在分析软件中构建词典及向量空间,引入lda主题模型,对得到的数据集d1进行主题分类,得到k类主题,记为z1、z2……
zk,从其中选取与空间要素相关的主题,并将上述主题中包含的词语作为关键词,分别记为关键词集c1、c2……cn
,其中k≥n;
[0050]
在分析软件中构建词典及向量空间,(使用python的scikit-learn库)构建lda主题模型,设置主题数,并将结果输出为可视化格式;
[0051]
具体如下:
[0052]
步骤2.1、在分析软件中构建词典及向量空间,(使用python的scikit-learn库)构建lda主题模型;
[0053]
详细如下:
[0054]
lda模型采用词袋模型(bag ofwords,bow)将每一篇文本视为一个词频向量,从而将文本信息转化为易于建模的数字信息。在模型中,定义词大小为l,一个l维向量(1,0,0,
…
,0,0)表示一个词。由n个词构成的评论记为d=(w1,w2,
……
wn)。假设某一城市的文本数据集d由q篇评论构成(通常一篇文本为一行),记为d=(d1,d2,
……dq
)。q篇评论分布着k个主题,将文本主题记为zi(i=1,2,
…
,k)。记α和β为狄利克雷函数的先验参数,θ为主题在文档中的多项分布的参数,其服从超参数为α的dirichlet先验分布,φ为词在主题中的多项分布的参数,其服从超参数β的dirichlet先验分布,z为隐藏变量。
[0055]
lda模型假定每篇文本由各个主题按一定比例随机混合而成,混合比例服从多项分布,记为式(1):
[0056]
z|θ=multinomial(θ)
ꢀꢀꢀꢀ
(1)
[0057]
而每个主题由词汇表中的各个词语按一定比例混合而成,混合比例也服从多项分布,记为式(2):
[0058]
w|z,φ=multinomial(φ)
ꢀꢀꢀꢀꢀ
(2)
[0059]
在文本dj条件下生成词wi的概率表示为式(3):
[0060][0061]
式中,p(wi|z=s)表示词wi属于第s个主题的概率,p(z=s|dj)表示第s个主题在文本dj中的概率。
[0062]
步骤2.2、通过em算法对lda模型进行主题提取,每轮只遍历所获取文本数据集d中的文本一次,在经过对所有文本的多轮迭代后,得到文档—主题分布θq,以及主题—词项分布φk;
[0063]
详细如下:
[0064]
输入主题数k,评论q篇后,初始化参数α和β;
[0065]
开始em算法迭代循环,初始化所有的变分参数θ、φ、z,进行lda的期望步(e步)迭代循环,直到变分参数θ、φ、z收敛,得到最优变分参数;
[0066]
进行lda的极大步(m步),在最优变分参数的条件下,迭代循环模型,直到α和β收敛。
[0067]
统计数据集中的各个文本各个词的主题,得到文档主题分布θq,得到lda的主题与词的分布φk,并输出为可视化格式。
[0068]
步骤2.3、在所有主题中打印与空间基因(空间要素)相关的主题z1、z2……
zk,将其包含关键词,分别记为关键词集c1、c2……cn
,其中k≥n。
[0069]
步骤3、在关键词集c1、c2……cn
和数据集d1中,同步进行同义词替换,将替换后的关键词集合并记为关键词集c’,其包含的关键词记为a1、a2……ap
,得到数据集记为d2;
[0070]
步骤4、在数据集d2中统计关键词a1、a2……ap
两两共现次数,并构建共词矩阵m;
[0071]
详细如下:
[0072]
将数据集d2中每个文本构建二维数组formated_data;
[0073]
将关键词集c’记为word_data;
[0074]
建立一个二维矩阵matrix,其大小为:(关键词词数+1)
×
(关键词词数+1)即,共词矩阵。并将所有关键词作为共现矩阵的首行和首列;
[0075]
设置矩阵对角线为0;
[0076]
遍历formated_data,让取出的行关键词和取出的列关键词进行组合,一组关键词共现则在对应矩阵中+1,最终得到共词矩阵m;
[0077]
步骤5、利用层次聚类模型,对语义网络分析结果进行聚类,得到空间组合模式。
[0078]
详细如下:
[0079]
将关键词向量化,每个词向量之间的距离l(x,y),如式(4):
[0080]
l(x,y)=(x[1]-y[1])2+(x[1]-y[2])2+
…
+(x[n]-y[n])
2 (4)
[0081]
构建n个类,每个类只包含一个关键词;
[0082]
计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,构建一个新类;
[0083]
重复上述步骤,直至得到合适类别的聚类结果,每一组聚类结果便是一组稳定存在、具有地方代表性并形成广泛共识的空间组合模式,即为空间基因。
[0084]
为了对本发明的技术特征、目的和效果有更加清楚的理解,现以微博文本数据为例。
[0085]
1、从微博上采集关于某研究城市的网络文本数据,对数据进行预处理,得到数据集d1。
[0086]
对网络文本数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词,标记保留词。
[0087]
其中所述无效字符包括表情符号,标点符号等。所述停用词,例如:嗯、耶、我们、哪里等。所述保留词包括专有地名、景区名、酒店名等,针对实施例,加入保留词包括“蓬莱仙岛”、“黄渤海分界坐标”、“戚继光故里”等词语。处理后的微博文本数据d1(部分示例)如表1所示。
[0088]
表1
[0089][0090]
2、引入lda主题模型,对数据集d1进行主题分类,得到k类主题,记为z1、z2……
zk。从其中选取与空间要素相关的主题,并将上述主题中包含的词语作为关键词,分别记为关键词集c1、c2……cn
,其中k≥n。
[0091]
其中,使用scikit-learn库构建lda主题模型,输入主题数为3。得到3类主题,记为z1、z2、z3。取与空间要素相关的2类主题z1、z3,分别选取前50个词语作为关键词,记为c1、c3,
得到的主题分类后的数据集如表2所示,得到的3个主题分布如图2所示,其中主题z1的可视化结果如图3所示。
[0092]
表2
[0093][0094][0095]
3、在c1、c3的关键词集中合并同义词,合并更新后的关键词集,记为c’,并在数据集d1中进行同义词替换如表3所示,得到数据集d2。
[0096]
表3
[0097][0098]
4、在数据集d2中统计关键词集c’中各关键词两两共现次数,并构建共词矩阵m;
[0099]
将数据集d2中每个文本构建二维数组formated_data;
[0100]
将关键词集c’记为word_data;
[0101]
建立一个二维矩阵matrix,其大小为:(关键词词数+1)
×
(关键词词数+1)即,共词矩阵,并将所有关键词作为共现矩阵的首行和首列;
[0102]
设置矩阵对角线为0;
[0103]
遍历formated_data,让取出的行关键词和取出的列关键词进行组合,一组关键词共现则在对应矩阵中+1,最终得到共词矩阵m,如表4所示。
[0104]
表4
[0105]
[0106][0107]
5、利用层次聚类模型,对语义网络分析结果进行聚类分析,得到蓬莱的空间基因,本实例聚类结果如表5所示:
[0108]
表5
[0109]
[0110][0111]
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0112]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0113]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0114]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0115]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
[0116]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
技术特征:
1.一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,包括以下步骤:步骤1、采集关于城市的网络文本数据,然后对数据进行预处理,得到数据集d1;步骤2、在分析软件中构建词典及向量空间,引入lda主题模型,对得到的数据集d1进行主题分类,得到k类主题,记为z1、z2……
z
k
,从其中选取与空间要素相关的主题,并将上述主题中包含的词语作为关键词,分别记为关键词集c1、c2……
c
n
,其中k≥n;步骤3、在关键词集c1、c2……
c
n
和数据集d1中,同步进行同义词替换,将替换后的关键词集合并记为关键词集c’,其包含的关键词记为a1、a2……
a
p
,得到数据集记为d2;步骤4、在数据集d2中统计关键词a1、a2……
a
p
两两共现次数,并构建共词矩阵m;步骤5、利用层次聚类模型,对语义网络分析结果进行聚类,得到空间组合模式,即空间基因。2.根据权利要求1所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述步骤1中对网络文本数据进行的预处理操作包括通过正则表达式过滤无效字符、句子分词和去除停用词,标记保留词。3.根据权利要求1所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述步骤2中lda模型采用词袋模型将每一篇文本视为一个词频向量,将文本信息转化为易于建模的数字信息,定义词大小为l,一个l维向量(1,0,0,
…
,0,0)表示一个词,由n个词构成的评论记为d=(w1,w2,
……
w
n
),文本数据集d由q篇评论构成,记为d=(d1,d2,
……
d
q
),q篇评论分布着k个主题,将文本主题记为z
i
(i=1,2,
…
,k),记α和β为狄利克雷函数的先验参数,θ为主题在文档中的多项分布的参数,其服从超参数为α的dirichlet先验分布,φ为词在主题中的多项分布的参数,其服从超参数β的dirichlet先验分布,z为隐藏变量。4.根据权利要求3所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述lda模型中文本的混合比例服从多项分布,如下式:z|θ=multinomial(θ)
ꢀꢀꢀꢀꢀ
(1)所述主题词汇表中的词语混合比例也服从多项分布,如下式:w|z,φ=multinomial(φ)
ꢀꢀꢀꢀ
(2)在文本d
j
条件下生成词w
i
的概率表示如下式:式中,p(w
i
|z=s)表示词w
i
属于第s个主题的概率,p(z=s|d
j
)表示第s个主题在文本d
j
中的概率。5.根据权利要求4所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述步骤2中lda模型的主题提取过程包括:输入主题数k,评论q篇后,初始化参数α和β;开始em算法迭代循环,初始化所有的变分参数θ、φ、z,进行lda的期望步(e步)迭代循环,直到变分参数θ、φ、z收敛,得到最优变分参数;进行lda的极大步(m步),在最优变分参数的条件下,迭代循环模型,直到α和β收敛。统计数据集中的各个文本各个词的主题,得到文档主题分布θ
q
,得到lda的主题与词的分布φ
k
,并输出为可视化格式。
6.根据权利要求5所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,在所有所述主题中打印与空间要素相关的主题z1、z2……
z
k
,将其包含关键词,分别记为关键词集c1、c2……
c
n
,其中k≥n。7.根据权利要求1所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述步骤4中共词矩阵构建过程包括:将数据集d2中每个文本构建二维数组formated_data;将关键词集c’记为word_data;建立一个二维矩阵matrix,其大小为:(关键词词数+1)
×
(关键词词数+1)即,共词矩阵,并将所有关键词作为共现矩阵的首行和首列;设置矩阵对角线为0;遍历formated_data,让取出的行关键词和取出的列关键词进行组合,一组关键词共现则在对应矩阵中+1,最终得到共词矩阵m。8.根据权利要求1所述的一种基于社交媒体文本数据的空间基因识别提取方法,其特征在于,所述步骤5中得到空间基因的过程包括:将关键词向量化,每个词向量之间的距离l(x,y),如下式:l(x,y)=(x[1]-y[1])2+(x[1]-y[2])2+
…
+(x[n]-y[n])2ꢀꢀꢀꢀ
(4)构建n个类,每个类只包含一个关键词;计算每两个聚类之间的距离,将距离最近的或最相似的两个聚类进行合并,构建一个新类;重复上述步骤,直至得到合适类别的聚类结果,每一组聚类结果便是一组稳定存在、具有地方代表性并形成广泛共识的空间组合模式,即为空间基因。9.一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现如权利要求1至8之一所述的方法。10.一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现如权利要求1至8之一所述的方法。
技术总结
本发明公开了一种基于社交媒体文本数据的空间基因识别提取方法,包括以下步骤:采集关于城市的网络文本数据,然后对数据进行预处理,得到数据集D1;在分析软件中构建词典及向量空间,引入LDA主题模型,对得到的数据集D1进行主题分类;在各主题中合并同义词,并在数据集D1中进行同义词替换,得到数据集D2;在数据集D2中统计关键词两两共现次数,并构建共词矩阵M;利用层次聚类模型,对语义网络分析结果进行聚类,得到空间组合模式,即空间基因。本发明方法从多源社交媒体平台上采集关于某研究城市的网络文本数据,通过获取样本量丰富、非介入式的数据,为城市研究者识别城市空间基因提供了一种实用的技术手段。供了一种实用的技术手段。供了一种实用的技术手段。
技术研发人员:段进 李伊格 郭楚怡
受保护的技术使用者:南京东南大学城市规划设计研究院有限公司
技术研发日:2023.04.14
技术公布日:2023/7/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/
上一篇:一种焊接装配智能调度方法及系统与流程 下一篇:一种可重复使用的多功能口罩的制作方法