一种文本聚类的方法、装置、设备及介质与流程
未命名
08-14
阅读:91
评论:0

1.本发明涉及计算机领域,并且更具体地涉及一种文本聚类的方法、装置、设备及可读介质。
背景技术:
2.短文本聚类可以用于许多场景,比如新闻讯息自动分类,大型分布式系统日志自动分类,商品自动分类,社交产品用户画像聚类等。目前短文本聚类的方法大多将短文本映射为一个tf-idf特征向量,然后使用经典机器学习或者深度学习模型进行分类。但是其缺陷也比较明显,首先tf-idf特征向量仅考虑了关键词汇的信息,并不能充分表示语义和语序信息;另外各类定长文本特征向量,本身比较难以充分表示不同长度的短文本信息。
技术实现要素:
3.有鉴于此,本发明实施例的目的在于提出一种文本聚类的方法、装置、设备及可读介质,通过使用本发明的技术方案,能够实现对短文本的高效语义聚类,可以在充分保留文本语义、语序信息的前提下实现短文本的自动聚类。
4.基于上述目的,本发明的实施例的一个方面提供了一种文本聚类的方法,包括以下步骤:
5.建立词汇表,并计算词汇表中每个词汇的词向量;
6.获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离;
7.在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类;
8.选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。
9.根据本发明的一个实施例,建立词汇表,并计算词汇表中每个词汇的词向量包括:
10.对经过人工初步筛选和采样的文本进行分词,并忽略文本中的数字和随机字符串;
11.使用分词后的词汇建立词汇表;
12.计算词汇表中每个词汇的词向量。
13.根据本发明的一个实施例,获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离包括:
14.获取每个待聚类的文本,并对每个文本进行分词;
15.按照每个文本分词后的词汇的顺序在词汇表中查找词汇的词向量;
16.将每个文本中的词汇的词向量的集合作为文本向量;
17.将每个文本的文本向量集合在一起形成文本向量集合;
18.计算文本向量集合中每两个文本向量之间的距离。
19.根据本发明的一个实施例,计算文本向量集合中每两个文本向量之间的距离包括:
20.使用递推公式计算每两个文本向量之间的距离,其中边界条件为distance(0,0)=0;distance(i,0)=|ai|;distance(0,j)=|bj|,distance(n,m)为两个向量之间的距离,a为第一个文本向量,b为第二个文本向量,n为第一个文本向量的长度,m为第二个文本向量的长度,0《i《n,0《j《m。
21.根据本发明的一个实施例,在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类包括:
22.在备选中心向量中选择两个文本向量作为中心向量,依次查询其他文本向量到两个中心向量的距离,响应于文本向量到两个中心向量中的第一个中心向量的距离小于到第二个中心向量的距离,将文本向量划分到第一个中心向量的子集中,响应于文本向量到两个中心向量中的第一个中心向量的距离大于到第二个中心向量的距离,将文本向量划分到第二个中心向量的子集中以将文本向量划分为两个子集;
23.重复上个步骤,直到将文本向量多次划分为两个子集,其中每次选择的两个中心向量不能完全相同。
24.根据本发明的一个实施例,选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件包括:
25.计算每次划分的两个子集的混乱度;
26.选择混乱度最小的一组中心向量中的混乱度大的中心向量;
27.选择混乱度大的中心向量对应的子集中的元素作为新文本向量集合;
28.在新文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将新文本向量划分为两类;
29.选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。
30.根据本发明的一个实施例,预设条件包括混乱度小于预设阈值或总的划分子集数量达到阈值数量。
31.本发明的实施例的另一个方面,还提供了一种文本聚类的装置,装置包括:
32.建立模块,建立模块配置为建立词汇表,并计算词汇表中每个词汇的词向量;
33.计算模块,计算模块配置为获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离;
34.划分模块,划分模块配置为在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类;
35.选择模块,选择模块配置为选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到
达到预设条件。
36.本发明的实施例的另一个方面,还提供了一种计算机设备,该计算机设备包括:
37.至少一个处理器;以及
38.存储器,存储器存储有可在处理器上运行的计算机指令,指令由处理器执行时实现上述任意一项方法的步骤。
39.本发明的实施例的另一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任意一项方法的步骤。
40.本发明具有以下有益技术效果:本发明实施例提供的文本聚类的方法,通过建立词汇表,并计算词汇表中每个词汇的词向量;获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离;在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类;选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件的技术方案,能够实现对短文本的高效语义聚类,可以在充分保留文本语义、语序信息的前提下实现短文本的自动聚类。
附图说明
41.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
42.图1为根据本发明一个实施例的文本聚类的方法的示意性流程图;
43.图2为根据本发明一个实施例的文本聚类的方法的示意图;
44.图3为根据本发明一个实施例的文本聚类的装置的示意图;
45.图4为根据本发明一个实施例的计算机设备的示意图;
46.图5为根据本发明一个实施例的计算机可读存储介质的示意图。
具体实施方式
47.为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
48.基于上述目的,本发明的实施例的第一个方面,提出了一种文本聚类的方法的一个实施例。图1示出的是该方法的示意性流程图。
49.如图1中所示,该方法可以包括以下步骤:
50.s1建立词汇表,并计算词汇表中每个词汇的词向量。对经过人工初步筛选和采样的文本进行分词,并忽略文本中的数字和随机字符串,使用分词后的词汇建立词汇表,计算词汇表中每个词汇的词向量。
51.s2获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离。获取每个待聚类的文本,并对每个文本进行分词,按照每个文本分词后的词汇的顺序在词汇表中查找词汇的词向量,将每个文本中的词汇的词向量的
集合作为文本向量,将每个文本的文本向量集合在一起形成文本向量集合,计算文本向量集合中每两个文本向量之间的距离。
52.s3在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类。在备选中心向量中选择两个文本向量作为中心向量,依次查询其他文本向量到两个中心向量的距离,如果文本向量到两个中心向量中的第一个中心向量的距离小于到第二个中心向量的距离,则将文本向量划分到第一个中心向量的子集中,如果文本向量到两个中心向量中的第一个中心向量的距离大于到第二个中心向量的距离,则将文本向量划分到第二个中心向量的子集中以将文本向量划分为两个子集,一次选择两个文本向量作为中心向量,可以将文本向量集合划分为两个子集。然后重新选择两个文本向量作为中心向量,以相同的方法将文本向量集合划分为两个子集,不断重复该步骤直到将文本向量多次划分为两个子集,其中每次选择的两个中心向量不能完全相同。
53.s4选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。经过上个步骤后,将文本向量集合进行了多次划分,即有多次划分的两个子集,并且每次划分都有两个中心向量,计算每次划分的两个子集的混乱度,选择混乱度最小的一组中心向量中的混乱度大的中心向量,选择混乱度大的中心向量对应的子集中的元素作为新文本向量集合,在新文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将新文本向量划分为两类,选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。
54.通过使用本发明的技术方案,能够实现对短文本的高效语义聚类,可以在充分保留文本语义、语序信息的前提下实现短文本的自动聚类。
55.在本发明的一个优选实施例中,建立词汇表,并计算词汇表中每个词汇的词向量包括:
56.对经过人工初步筛选和采样的文本进行分词,并忽略文本中的数字和随机字符串;
57.使用分词后的词汇建立词汇表;
58.计算词汇表中每个词汇的词向量。对经过人工初步筛选、采样的文本进行分词,基于分词后的词汇建立词汇表,建立词汇表时要忽略文本中的数字和随机字符串等不规则符号。然后使用word2vec模型对海量文本进行建模,计算出词汇表中每个词汇的词向量。
59.在本发明的一个优选实施例中,获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离包括:
60.获取每个待聚类的文本,并对每个文本进行分词;
61.按照每个文本分词后的词汇的顺序在词汇表中查找词汇的词向量;
62.将每个文本中的词汇的词向量的集合作为文本向量;
63.将每个文本的文本向量集合在一起形成文本向量集合;
64.计算文本向量集合中每两个文本向量之间的距离。对给定的短文本进行分词,给定的短文本可以理解为待聚类的文本,按分词后的词汇的顺序查询每个词的词向量,即在
词汇表中查询对应词汇的词向量,并将词向量序列定为短文本向量。例如给定短文本为“unsure if grafana is for you?”,分词结果为[unsure,if,grafana,is,for,you],假定这些词汇均在词汇表中,对应词向量值分别为{unsure:0.5,if:0.3,grafana:0.09,is:0.01,for:0.02,you:0.6},则该文本的文本向量为[0.5,0.3,0.09,0.01,0.02,0.6]。如果某些词没在词汇表中,则对应词的词向量为0。
[0065]
在本发明的一个优选实施例中,计算文本向量集合中每两个文本向量之间的距离包括:
[0066]
使用递推公式计算每两个文本向量之间的距离,其中边界条件为distance(0,0)=0;distance(i,0)=|ai|;distance(0,j)=|bj|,distance(n,m)为两个向量之间的距离,a为第一个文本向量,b为第二个文本向量,n为第一个文本向量的长度,m为第二个文本向量的长度,0《i《n,0《j《m。因此第一个文本向量a与第二个文本向量b的距离即为distance(n,m),记为《a,b》。
[0067]
在本发明的一个优选实施例中,在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类包括:
[0068]
在备选中心向量中选择两个文本向量作为中心向量,依次查询其他文本向量到两个中心向量的距离,响应于文本向量到两个中心向量中的第一个中心向量的距离小于到第二个中心向量的距离,将文本向量划分到第一个中心向量的子集中,响应于文本向量到两个中心向量中的第一个中心向量的距离大于到第二个中心向量的距离,将文本向量划分到第二个中心向量的子集中以将文本向量划分为两个子集;
[0069]
重复上个步骤,直到将文本向量多次划分为两个子集,其中每次选择的两个中心向量不能完全相同。随机选择阈值数量的短文本向量作为所有文本的备选中心向量,从备选中心向量中选取两个最佳中心将原文本向量集合一分为二,划分为两类,并确定这两个最佳中心向量为聚类中心,两个最佳中心向量需要在备选中心向量中枚举后确定。例如在文本向量集合中选择10个文本向量为备选中心向量,首选在10个向量中选择向量1和向量2为中心向量进行枚举,利用上述计算的距离查询其他所有向量到向量1和向量2的距离,距离哪个近就归为哪一个类别,例如向量100距离向量1的距离小于向量2,则将向量100归到向量1的子集中,以此类推。然后重新选择另外两个向量为中心向量进行枚举,每次枚举可完成一次划分。
[0070]
在本发明的一个优选实施例中,选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件包括:
[0071]
计算每次划分的两个子集的混乱度;
[0072]
选择混乱度最小的一组中心向量中的混乱度大的中心向量;
[0073]
选择混乱度大的中心向量对应的子集中的元素作为新文本向量集合;
[0074]
在新文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将新文本向量划分为两类;
[0075]
选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。例如记seedi为向量集合s的第i个备选中心向量,若我们枚举时选取了seeda与seedb为中心向量,令s中每个向量si根据距离计算,选取距离较近的中心向量划分为同一类,则可将s划分为两个子集sa和sb,子集sa和sb的综合混乱度为其中和分别表示子集sa和sb中的第i个文本向量。每组中心向量都计算综合混乱度,最终选取混乱度最小的划分方式作为两个聚类中心,例如选择了向量1和向量5为聚类中心,然后计算向量1和向量5的混乱度,选取其中混乱度大的向量,例如向量1的混乱度大于向量5,则选择向量1,并且选择在向量1和向量5为聚类中心进行划分时归类到向量1中的其他向量,将这些向量作为新文本向量集合,然后重复对新文本向量集合进行多次划分,以及计算混乱度等步骤,直到达到预设条件后停止划分,注意以上向量均为文本向量。
[0076]
在本发明的一个优选实施例中,预设条件包括混乱度小于预设阈值或总的划分子集数量达到阈值数量。
[0077]
本发明通过对经过人工初步筛选、采样的文本进行建模,提取词库表,预计算词表库中每个词的词向量,可以加快处理过程中文本向量的计算速度;且所采集文本经过初步人工筛选,拥有更好的人工知识反馈,模型可信度更高。文本向量之间的距离采用动态规划计算,充分保留了文本的语义和词向量之间的相对语序关系,因此其计算结果相对于直接使用文本嵌入和tf-idf等方法更为精确。另外聚类时,本发明通过使用随机搜索加枚举的方法,可以有效防止模型陷入局部最优。
[0078]
需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,上述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储器(read-only memory,rom)或随机存取存储器(random access memory,ram)等。上述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
[0079]
此外,根据本发明实施例公开的方法还可以被实现为由cpu执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被cpu执行时,执行本发明实施例公开的方法中限定的上述功能。
[0080]
基于上述目的,本发明的实施例的第二个方面,提出了一种文本聚类的装置,如图3所示,装置200包括:
[0081]
建立模块,建立模块配置为建立词汇表,并计算词汇表中每个词汇的词向量;
[0082]
计算模块,计算模块配置为获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离;
[0083]
划分模块,划分模块配置为在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类;
[0084]
选择模块,选择模块配置为选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到
达到预设条件。
[0085]
基于上述目的,本发明实施例的第三个方面,提出了一种计算机设备。图4示出的是本发明提供的计算机设备的实施例的示意图。如图4所示,本发明实施例包括如下装置:至少一个处理器21;以及存储器22,存储器22存储有可在处理器上运行的计算机指令23,指令由处理器执行时实现以上方法。
[0086]
基于上述目的,本发明实施例的第四个方面,提出了一种计算机可读存储介质。图5示出的是本发明提供的计算机可读存储介质的实施例的示意图。如图5所示,计算机可读存储介质31存储有被处理器执行时执行如上方法的计算机程序32。
[0087]
此外,根据本发明实施例公开的方法还可以被实现为由处理器执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被处理器执行时,执行本发明实施例公开的方法中限定的上述功能。
[0088]
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
[0089]
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
[0090]
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括ram、rom、eeprom、cd-rom或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(dsl)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、dsl或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(cd)、激光盘、光盘、数字多功能盘(dvd)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
[0091]
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
[0092]
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一
个以上相关联地列出的项目的任意和所有可能组合。
[0093]
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
[0094]
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0095]
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
技术特征:
1.一种文本聚类的方法,其特征在于,包括以下步骤:建立词汇表,并计算词汇表中每个词汇的词向量;获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离;在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类;选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。2.根据权利要求1所述的方法,其特征在于,建立词汇表,并计算词汇表中每个词汇的词向量包括:对经过人工初步筛选和采样的文本进行分词,并忽略文本中的数字和随机字符串;使用分词后的词汇建立词汇表;计算词汇表中每个词汇的词向量。3.根据权利要求1所述的方法,其特征在于,获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离包括:获取每个待聚类的文本,并对每个文本进行分词;按照每个文本分词后的词汇的顺序在词汇表中查找词汇的词向量;将每个文本中的词汇的词向量的集合作为文本向量;将每个文本的文本向量集合在一起形成文本向量集合;计算文本向量集合中每两个文本向量之间的距离。4.根据权利要求3所述的方法,其特征在于,计算文本向量集合中每两个文本向量之间的距离包括:使用递推公式计算每两个文本向量之间的距离,其中边界条件为distance(0,0)=0;distance(i,0)=|a
i
|;distance(0,j)=|b
j
|,distance(n,m)为两个向量之间的距离,a为第一个文本向量,b为第二个文本向量,n为第一个文本向量的长度,m为第二个文本向量的长度,0<i<n,0<j<m。5.根据权利要求1所述的方法,其特征在于,在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类包括:在备选中心向量中选择两个文本向量作为中心向量,依次查询其他文本向量到两个中心向量的距离,响应于文本向量到两个中心向量中的第一个中心向量的距离小于到第二个中心向量的距离,将文本向量划分到第一个中心向量的子集中,响应于文本向量到两个中心向量中的第一个中心向量的距离大于到第二个中心向量的距离,将文本向量划分到第二个中心向量的子集中以将文本向量划分为两个子集;重复上个步骤,直到将文本向量多次划分为两个子集,其中每次选择的两个中心向量不能完全相同。
6.根据权利要求5所述的方法,其特征在于,选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件包括:计算每次划分的两个子集的混乱度;选择混乱度最小的一组中心向量中的混乱度大的中心向量;选择混乱度大的中心向量对应的子集中的元素作为新文本向量集合;在新文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将新文本向量划分为两类;选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。7.根据权利要求6所述的方法,其特征在于,预设条件包括混乱度小于预设阈值或总的划分子集数量达到阈值数量。8.一种文本聚类的装置,其特征在于,所述装置包括:建立模块,所述建立模块配置为建立词汇表,并计算词汇表中每个词汇的词向量;计算模块,所述计算模块配置为获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离;划分模块,所述划分模块配置为在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类;选择模块,所述选择模块配置为选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。9.一种计算机设备,其特征在于,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现权利要求1-7任意一项所述方法的步骤。10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
技术总结
本发明提供了一种文本聚类的方法、装置、设备及可读介质,方法包括:建立词汇表,并计算词汇表中每个词汇的词向量;获取每个待聚类的文本的文本向量并形成文本向量集合,并计算文本向量集合中每两个文本向量之间的距离;在文本向量集合中随机选择阈值数量的文本向量作为备选中心向量,并在备选中心向量中以每两个文本向量为一组依次作为中心向量将文本向量划分为两类;选择每次划分中的混乱度最小的一组中心向量中的混乱度最大的中心向量和对应的分类的文本向量,以选择的文本向量重复执行上一步骤直到达到预设条件。通过使用本发明的方案,能够实现对短文本的高效语义聚类,可以在充分保留文本语义、语序信息的前提下实现短文本的自动聚类。文本的自动聚类。文本的自动聚类。
技术研发人员:苏海明
受保护的技术使用者:济南浪潮数据技术有限公司
技术研发日:2023.04.27
技术公布日:2023/8/13
版权声明
本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)
航空之家 https://www.aerohome.com.cn/
飞机超市 https://mall.aerohome.com.cn/
航空资讯 https://news.aerohome.com.cn/