用于对样本进行可视化的方法、系统和可读存储介质与流程

未命名 08-15 阅读:83 评论:0


1.本发明涉及数据的可视化技术领域,特别是涉及用于对样本进行可视化的方法、系统和可读存储介质。


背景技术:

2.数据可视化可以将抽象的数据通过直观的方式展现,帮助用户理解数据中的模式并发现其中可能存在的问题,从而提高数据分析的效率。例如,通过将高维数据映射到低维空间并且以散点图的形式进行展示,可以帮助用户直观的观察数据的分布,理解数据的分类情况,更加方便找到数据中类别错误的点,这些点被称为离群点。然而,散点图中存在过度绘制和视觉标记重叠等问题,不利于用户对感兴趣的样本进行观察与分析。网格布局是数据可视化中的一种常用的展示形式,具有视觉编码简单易懂、布局美观、空间利用率高等优点。在网格布局中,每个样本被表示为一个网格,网格的颜色通常用于表示其对应样本的类别(聚类类别或是标注类别等),这些网格被紧密排列在一起。由于在网格布局中,不同的网格之间不存在重叠,因此可以利用网格布局方便地进行需要探索样本的任务,比如寻找被人工智能模型错误预测的样本。


技术实现要素:

3.以下描述包括体现本发明技术的示例性方法、系统、技术和指令序列。然而,应该理解,在一个或多个方面,可以在没有这些具体细节的情况下实践所描述的发明。在其他情况下,没有详细示出公知的协议、结构和技术,以免模糊本发明。本领域普通技术人员将理解,所描述的技术和机制可以应用于对样本进行可视化的各种体系结构。
4.根据本发明的一个方面,提出了一种用于对样本进行可视化的系统,包括:接收模块,被配置为接收多个样本,所述多个样本中的每个样本的信息包括该样本对应的特征向量、该样本的聚类类别与标注类别;投影模块,被配置为根据所述多个样本中的每个样本的特征向量,获得所述多个样本在二维平面上的投影点的位置;网格生成模块,被配置为根据所述多个样本中的每个样本及其投影点的位置,获得所述多个样本在所述二维平面上对应的网格,其中特定样本对应的网格的位置与该特定样本的投影点的位置相关;网格调整模块,被配置为根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件,从而获取所述多个样本对应的网格的更新后的位置;以及可视化模块,被配置为根据所述多个样本中的每个样本对应的网格与网格的更新后的位置,在所述二维平面上对所述多个样本进行可视化展示。
5.根据本发明的另一个方面,提出了一种用于对样本进行可视化的方法,包括:接收多个样本,所述多个样本中的每个样本的信息包括该样本对应的特征向量、该样本的聚类类别与标注类别;根据所述多个样本中的每个样本的特征向量,获得所述多个样本在二维平面上的投影点的位置;根据所述多个样本中的每个样本及其投影点的位置,获得所述多个样本在所述二维平面上对应的网格,其中特定样本对应的网格的位置与该特定样本的投
影点的位置相关;根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件,从而获取所述多个样本对应的网格的更新后的位置;以及根据所述多个样本中的每个样本对应的更新后的网格,在所述二维平面上对所述多个样本进行可视化展示。
6.根据本发明的又一方面,提出了一种用于对样本进行可视化的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,所述程序指令可由计算设备执行以使得计算设备执行如上所述的方法。
附图说明
7.通过参照附图阅读下面对说明性实施例的详细说明可更好地理解发明本身以及其优选使用模式、目标、特征以及优点,在附图中:
8.图1a示出了一个数字图片数据集中的9个样本;
9.图1b示出了图1a中的9个样本通过网格布局可视化得到的结果;
10.图2示出了对若干图片样本通过现有方法进行网格布局的可视化结果;
11.图3示出了根据本发明的一个或多个实施例的一种用于对样本进行可视化的系统的结构框图;
12.图4a-4c示出了投影在二维平面上的9个样本对应的投影点以及样本对应的生成的网格;
13.图5示出了根据本发明的一个或多个实施例的一种用于调整多个样本中的每个样本对应的网格的位置的方法的流程图;
14.图6a-6b示出了使用图5所示的方法,对图4所示的样本调整样本对应网格位置的过程;
15.图7示出了根据本发明的一个或多个实施例的另一种用于调整多个样本中的每个样本对应的网格的位置的方法的流程图;
16.图8a-8e示出了使用图7所示的方法,对图4所示的样本调整样本对应网格位置的过程;
17.图9示出了根据本发明的一个或多个实施例的一种用于对样本进行可视化的方法;
18.图10a示出了在基于本发明开发的可视化系统中,使用现有方法(即跳过网格调整模块340)对一个存在聚类(人工智能模型预测)类别错误的图像数据集进行可视化的界面;
19.图10b示出了在基于本发明开发的可视化系统中,在网格调整模块340中执行图5所示的方法,对一个存在聚类(人工智能模型预测)类别错误的图像数据集进行可视化的界面;
20.图10c示出了在基于本发明开发的可视化系统中,在网格调整模块340中执行图7所示的方法,对一个存在聚类(人工智能模型预测)类别错误的图像数据集进行可视化的界面;
21.图10d示出了在基于本发明开发的可视化系统中,在网格调整模块340中依次执行图5所示的方法与图7所示的方法,对一个存在聚类(人工智能模型预测)类别错误的图像数据集进行可视化的界面;以及
22.图10e示出了一个基于本发明的方法开发的可视化系统中,在网格调整模块340中依次执行图7所示的方法与图5所示的方法,对一个存在聚类(人工智能模型预测)类别错误的图像数据集进行可视化的界面。
具体实施方式
23.下面参照附图来说明本发明的实施例。在下面的说明中,阐述了许多具体细节以便更全面地了解本发明。但是,对于本技术领域内的技术人员明显的是,本发明的实现可不具有这些具体细节中的一些。此外,应当理解的是,本发明并不限于所介绍的特定实施例。相反,可以考虑用下面的特征和要素的任意组合来实施本发明,而无论它们是否涉及不同的实施例。因此,下面的方面、特征、实施例和优点仅作说明之用而不应被看作是所附权利要求的要素或限定,除非权利要求中明确提出。
24.随着网络技术的发展,大数据研究成为一个热点话题,对于大数据分类、深入分析的需求日益增加。数据可视化可以将抽象的数据通过直观的方式展现,帮助用户理解数据中的模式并发现其中可能存在的问题,从而提高数据分析的效率。网格布局是数据可视化中的一种常用的展示形式,具有视觉编码简单易懂、布局美观、空间利用率高等优点。在网格布局中,每个样本被表示为一个网格,网格的颜色通常用于表示其对应样本的类别(聚类类别或是标注类别等),这些网格被紧密排列在一起。由于在网格布局中,不同的网格之间不存在重叠,因此可以利用网格布局方便地进行需要探索样本的任务,比如寻找被人工智能模型错误预测的样本。
25.例如,图1a示出了一个数字图片数据集中的9个样本,其中样本101-109表示数字图片,每个样本对应一个特征集(也称特征向量)、一个聚类类别(此处由模型预测得到)和一个标注类标。样本102的标注类别是“8”,样本101,103-109的标注类别是“3”。但是,样本101-109的聚类类别都是“3”。图1b示出了图1a中的9个样本通过现有的网格布局可视化得到的结果,其中图1a中的样本101-109对应的网格分别是图1b中的网格110-190。网格120与网格110,130-190的颜色不一致(颜色表示标注类别),其对应的样本是一个离群点,存在聚类(模型预测)类别错误的问题。
26.由于图1中的样本数量较少,因此网格组成的区域图形对于用户的感知影响不大,通过颜色差异,用户容易找到其中存在的离群点。当存在大量图片样本需要进行可视化时,网格组成的区域图形对用户的感知影响很大。图2示出了对若干图片样本通过现有方法进行网格布局的可视化结果。在图2中,网格的灰度(即网格的颜色)表示图片的标注类别。
27.可以看出,“3”与“5”的图片在可视化中相互混杂,难以判断边界。其他的聚类类别之间也存在着类似的问题,造成用户难以感知样本的聚类结构、难以判断样本的聚类类别,从而识别离群点。相关情况的具体描述见下文对图10a的描述。
28.本发明的发明人通过分析认为,现有的网格布局可视化方法造成用户难以感知样本的聚类结构、难以判断样本的聚类类别的主要原因在于在网格布局中没有考虑保留样本的聚类结构并进行针对性的优化,不同聚类类别的样本在网格布局可视化结果中对应的区域之间的边界十分复杂,同聚类类别的样本在可视化中呈现出复杂的不连通图形,因此较难感知样本的聚类结构,也较难发现样本中的离群点。
29.本发明提出了一种用于对多个样本进行网格布局可视化的方法,该方法将样本投
影到平面图,并在平面图区域上划分出网格,将相似的数据样本放置到相近的网格位置上,同时使得相同聚类类别的样本所对应的网格的位置之间的距离最小化,和/或使得多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的多个图形的平均凸性最大化。这样的可视化方法能够帮助用户感知样本的相似性与聚类结构。本发明的方法还能够帮助用户可视地分析样本中的离群点,有利于用户分析样本数据中的聚类错误与难以区分的样本等。
30.本发明中所述的样本可以包括:图像、视频、表格、文档等之一。
31.图3示出了根据本发明的一个或多个实施例的一种用于对样本进行可视化的系统300的结构框图。
32.如图3所示,系统300包括接收模块310,投影模块320,网格生成模块330,网格调整模块340,和可视化模块350。
33.在图3中,接收模块310被配置为接收多个样本301,多个样本301中的每个样本的信息包括该样本对应的特征向量、该样本的聚类类别与标注类别。其中,该样本的聚类类别视使用场景的不同,可能是模型根据该样本对应的特征向量进行的预测类别,也可能是人工标注的类别,还可能是采取任何聚类方法得到的分类类别;标注类别为人工标注的类别,视使用场景的不同,同样也可能更换为其他类别。在一种实施方式中,接收模块310可以直接读取存储在某处(本地或者远程磁盘)的多个样本301。在另一种实施方式中,接收模块310可以通过网络获得传输给其的多个样本301。
34.投影模块320被配置为根据该多个样本301中的每个样本的特征,获得该多个样本301在二维平面上的投影点的位置302。在一种实施方式中,将多个样本中的每个样本投影在二维平面上可以通过现有的降维算法t-sne来实现。本领域技术人员可以知道,多个样本中的每个样本投影在二维平面上也可以通过其他现有的降维算法来实现,例如mds,pca等。为了方便后续处理,可以将所有的投影点统一进行线性坐标变换,使其位置变化范围(二维包围盒)为指定区域(例如正方形)。图4a示出了一组样本在二维平面上使用现有投影技术投影后获得的投影点的位置401-409,其中投影点的实心与空心分别表示对应样本的不同的聚类类别。
35.网格生成模块330被配置为根据多个样本301及其投影点的位置302,获得多个样本在二维平面上对应的网格303,其中特定样本对应的网格的位置与该特定样本的投影点的位置相关。
36.在一种实施方式中,通过现有的技术计算多个投影点的包围盒并将其划分,可以得到不少于样本数目的正方形网格。本领域技术人员可以知道,也可以采用其他的现有的技术来获得不少于样本数目的正方形网格。图4b示出了由图4a中的样本投影点所得到的9个网格411-419,此时9个样本与9个网格尚未建立对应关系。
37.在现有技术中,建立样本与网格的对应关系,可以有多种方法。在一种方法中,可以首先将样本集与网格集作为二分图的两个点集,计算样本的投影点位置与网格位置之间的距离,获得样本与网格连边匹配的代价,然后利用任意一种二分图匹配算法(例如jv算法)求解该二分图匹配问题,从而获得样本与网格的对应关系。本领域技术人员可以知道,也可以采用其他的现有的技术来建立样本与网格的对应关系。建立对应关系后,每个样本对应且仅对应一个网格,每个网格最多对应一个样本。
38.然后网格生成模块330根据建立的对应关系生成每个样本对应的网格时,每个样本对应且仅对应一个网格,每个网格最多对应一个样本,每个样本对应的网格位置与该样本的投影点位置尽可能接近,每个样本对应的网格的颜色与该样本的标注类别相关。
39.如图4a-4c所示,其中图4c中网格421-429与图4b中411-419为相同的网格集合,且图4c网格421-429按照序号由小到大,分别与图4a中投影点的位置401-409对应相同的样本,图4c中网格的实心与空心表示对应样本的不同聚类类别(不同于网格的颜色,网格的颜色与对应样本的标注类别有关)。
40.在网格生成模块330使用现有技术建立样本与网格的对应关系的过程中,能够使得相似的不同样本所对应的不同网格之间位置接近,但该过程没有直接考虑到样本中含有的聚类结构,使得同聚类类别的样本对应的网格所形成的图形可能不连通、不规则,不利于用户将其感知为一个整体结构。
41.网格调整模块340被配置为根据多个样本301中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件,从而获取多个样本对应的更新后的网格。
42.在本发明的一种实施方式中,迭代调整样本对应的网格的位置,使得满足预定条件,该预定条件可以为:相同聚类类别的样本所对应的网格的位置之间的距离最小化,称其为预定条件a。图5示出了根据本发明的一个或多个实施例的一种调整样本对应的网格的位置,使得满足预定条件a的方法500的流程图。
43.如图5所示,在步骤510,根据多个样本中的每个样本在该二维平面对应的投影点位置与全部网格中的每个网格的位置,分别计算每个样本的投影点位置与每个网格位置之间的距离,获得多个样本与全部网格位置之间匹配的邻近性代价矩阵prox。该邻近性代价矩阵prox是一个n行m列的矩阵,其中n为样本个数,m为网格个数(n≤m),矩阵的项prox
i,j
表示第i个样本的投影点位置与第j个网格位置(例如网格中心位置、网格上特定点的位置等)之间的在二维平面上的距离。以平方欧式距离为例,prox
i,j
可以由以下公式得到:
44.prox
i,j
=||第i个样本投影点位置-第j个网格位置||2ꢀꢀꢀ
(1)
45.在步骤520,根据多个样本中的每个样本在该二维平面对应的网格位置,对于每种聚类类别,计算该聚类类别包括的所有样本对应的网格区域的重心。第k种聚类类别包括的所有样本对应的区域重心可以由以下公式得到:
[0046][0047]
之后分别计算该重心μk位置与全部网格中的每个网格位置之间的距离,获得聚类类别k包括的每个样本与全部网格位置之间匹配的紧凑性代价向量compkk。该紧凑性代价向量compkk为一个m项的向量,其中m为网格个数,向量的项compk
k,j
为重心μk位置与第j个网格位置之间的在二维平面上的距离。以平方欧式距离为例,compk
k,j
可以由以下公式得到:
[0048]
compk
k,j
=||μk位置-第j个网格位置||2ꢀꢀꢀ
(3)
[0049]
假设第k种聚类类别包括第i个样本,则第i个样本对应的紧凑性代价向量compii的第j项为:
[0050]
compi
i,j
=compk
k,j
ꢀꢀꢀ
(4)
[0051]
也就是说公式(4)表明第k种聚类类别对应的紧凑性代价向量compkk可以被复制
为该聚类类别包括的每个样本i对应的紧凑性代价向量compii。
[0052]
在步骤530,将获得的多个样本中的每个样本对应的每个紧凑性代价向量拼接成紧凑性代价矩阵comp。该紧凑性代价矩阵comp是一个n行m列的矩阵,其中n为样本个数,m为网格个数(n≤m),矩阵的项comp
i,j
即为第i个样本对应的紧凑性代价向量的第j项compi
i,j

[0053]
在步骤540,将步骤510与步骤530中得到的邻近性代价矩阵prox与紧凑性代价矩阵comp进行加权平均,以得到加权平均代价矩阵cost。该加权平均代价矩阵cost是一个n行m列的矩阵,其中n为样本个数,m为网格个数(n≤m),矩阵的项cost
i,j
可以由以下公式得到:
[0054]
cost
i,j
=λprox
i,j
+(1-λ)comp
i,j
ꢀꢀꢀ
(5)
[0055]
其中λ为加权平均系数,可以设定为固定值,也可以采用现有的任意一种多目标优化方式动态设置。
[0056]
在步骤550,根据加权平均代价矩阵cost,使用任意一种现有的二分图匹配求解算法,通过进行二分图匹配求解,得到样本与网格位置的对应关系,以满足预定条件a。
[0057]
当通过进行二分图匹配求解,得到样本与网格位置的对应关系后,若满足预定条件a,则进入步骤560;否则返回到步骤510。
[0058]
本领域技术人员应该知道,在以上过程中,可以采用不同的距离计算方式,也可以通过不同的方式设置加权平均系数λ,还可以使用不同的二分图匹配求解算法,只要能使得对应关系满足预定条件a,其均在本发明的保护范围之内。
[0059]
在步骤560,根据步骤550中得到的样本与网格位置的对应关系,获取多个样本对应的网格的更新后的位置,并结束流程。
[0060]
图6a和图6b共同示出了对图4c所示的网格进行位置更新的示意图。其中对于图4c中所示的样本与对应的网格,邻近性代价矩阵prox使用图4a中的样本对应的投影点401-409的位置与图4b中的网格411-419的位置计算得到。图6a示出了根据图4c所示的样本与对应的网格,所求出的两种聚类类别对应的区域中心μ1与μ2,分别为601与602。其中点的实心与空心分别对应不同的聚类类别。对于图4c中所示的样本与对应的网格,邻近性代价向量compk1与compk2使用图6a中的聚类类别重心601-602的位置与图4b中的网格411-419的位置计算得到。图6b示出了对于图4c中的样本与对应的网格,使用方法500调整样本对应的网格的位置的结果,其中每个样本对应的网格为611-619,按照序号由小到大,分别与图4c中网格421-429对应相同的样本。
[0061]
由此可见,图5所示的调整样本对应的网格的位置的方法,能够使得相同聚类类别的样本对应的网格位置更加紧密,有助于用户将其感知为一个整体。
[0062]
在本发明的另一种实施方式中,预定条件还可以为:多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的多个图形的平均凸性最大化,称其为预定条件b。图7示出了根据本发明的一个或多个实施例的另一种调整样本对应的网格的位置,使得满足预定条件b的方法700的流程图。
[0063]
如图7所示,在步骤710,根据多个样本中的每个样本的聚类类别以及对应的网格,获得多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的第一图形,其中多个聚类类别对应多个第一图形。
[0064]
在步骤720,交换位于多个第一图形边缘处的两个或两组网格的位置,获得多个第一图形更新后的多个第二图形。
[0065]
在步骤730,判断交换后多个第二图形的平均凸性是否优于交换前多个第一图形的平均凸性。若是,则进入步骤740,接受此处网格位置的交换;若否,则进入步骤750,拒绝此处网格位置的交换,并且统计拒绝交换的次数。
[0066]
在步骤740后,返回步骤710。
[0067]
在步骤750后,若拒绝网格位置的交换的次数大于等于阈值时,则认定为已经满足预定条件b,进入步骤760;否则返回步骤710。
[0068]
在步骤760,根据之前步骤的位置交换结果,获得多个样本对应的网格的更新后的位置,并结束流程。
[0069]
本领域技术人员应该知道,在上述过程中,图形的凸性计算可以采用现有的任何一种凸性度量方法,例如计算图形的面积与图形的凸包面积之比,或是更换为自定义的度量方法,只要能使得获得的多个样本对应的网格的更新后的位置满足预定条件b,其均在本发明的保护范围之内。
[0070]
图8a示出了根据图4c中每个样本的聚类类别以及对应的网格,通过步骤710获得的每种聚类类别对应的多个第一图形801-802。
[0071]
图8b示出了通过步骤720进行了一次位置交换之后,每个样本对应的网格811-819。其交换了图4c中网格424与428(图8b中为818与814)的位置。此处,网格811-819按照序号由小到大,分别与图4c中网格421-429对应相同的样本。图8a中所示的多个第一图形801-802,在交换后分别变为图8c中所示的多个第二图形821-822。
[0072]
根据步骤730,对于图8a中两个第一图形801-802,计算图形的面积与图形的凸包(图8d中的801
’‑
802’)面积之比,得到多个第一图形的平均凸性,为对于图8c中两个第二图形821-822,计算图形的面积与图形的凸包(图8e中的821
’‑
822’)面积之比,得到多个第二图形的平均凸性,为
[0073]
根据步骤730的分支判断,交换图4c中网格424与428(图8b中为818与814)的位置后,多个第二图形的平均凸性优于交换前多个第一图形的平均凸性,因此接受该交换。
[0074]
假设多个第一图形的平均凸性为0.8,多个第二图形的平均凸性为0.7,则多个第二图形的平均凸性劣于交换前多个第一图形的平均凸性,因此拒绝该交换,保持交换前的网格位置,并使统计的拒绝交换次数加1。
[0075]
由此可见,图7所示的调整样本对应的网格的位置的方法,能够使得相同聚类类别的样本对应的网格组成的图形更简单、规则,有助于用户将其感知为一个整体。
[0076]
在模块340中,方法500与方法700可以单独或组合执行。组合执行可以先执行方法500,再执行方法700;也可以先执行方法700,再执行方法500。组合执行既能够使得相同聚类类别的样本对应的网格位置更加紧密,又能够使得相同聚类类别的样本对应的网格组成的图形更简单、规则,更加有助于用户将其感知为一个整体。
[0077]
回到图3,可视化模块350被配置为根据多个样本301中的每个样本对应的网格与网格的更新后的位置,在二维平面上对多个样本进行可视化展示。由于在生成的网格布局中,强化了相同聚类类别的样本对应网格的紧凑程度与组成的图形的凸性,因此在可视化战事中,相同聚类类别的样本对应的网格呈现出紧凑、规则的图形。
[0078]
在一种实施方式中,系统300还包括离群点确定模块360,被配置为响应于在二维平面上的一个特定样本对应的网格的颜色与周围的网格的颜色不同,确定该特定样本为离群点。在可视化中,网格的颜色用于表示对应样本的标注类别。位于图形边缘或内部的颜色与周围不同的网格,其对应的样本的标注类别与同聚类类别的其他样本不同,因而可以被确认为离群点。本发明保持相似的不同样本对应的不同网格位置相近,同时改善了用户在可视化中对聚类结构(网格组成的图形)的感知,便于用户发现离群点。
[0079]
该可视化系统300可实现为一般的计算机系统上的应用程序,或者实现为服务器系统上的应用程序,或者实现为网络应用程序,或者实现为云平台上的应用程序。
[0080]
基于同一个发明构思,本发明还公开了一种用于对样本进行可视化的方法。图9示出了根据本发明的一个或多个实施例的一种用于对样本进行可视化的方法900的流程图。
[0081]
根据图9,在步骤910,接收多个样本,所述多个样本中的每个样本的信息包括该样本对应的特征向量、该样本的聚类类别与标注类别。
[0082]
在步骤920,根据所述多个样本中的每个样本的特征向量,获得所述多个样本在二维平面上的投影点的位置。
[0083]
在步骤930,根据所述多个样本中的每个样本及其投影点的位置,获得所述多个样本在所述二维平面上对应的网格,其中特定样本对应的网格的位置与该特定样本的投影点的位置相关。
[0084]
在步骤940,根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件,从而获取所述多个样本对应的网格的更新后的位置。
[0085]
在步骤950,根据所述多个样本中的每个样本对应的网格与网格的更新后的位置,在所述二维平面上对所述多个样本进行可视化展示。
[0086]
在一种实施方式中,步骤940中预定条件可以为:相同聚类类别的样本所对应的网格的位置之间的距离最小化,称其为预定条件a。
[0087]
在一种实施方式中,根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件a,可以使用图5所示的方法500的步骤。
[0088]
在一种实施方式中,步骤940中预定条件可以为:多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的多个图形的平均凸性最大化,称其为预定条件b。
[0089]
在一种实施方式中,根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件b,可以使用图7所示的方法700的步骤。
[0090]
在一种实施方式中,根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件,可以先使用图5所示的方法500的步骤,再使用图7所示的方法700的步骤;也可以先使用图7所示的方法700的步骤,再使用图5所示的方法500的步骤。
[0091]
在一种实施方式中,其中步骤930生成每个样本对应的网格时,每个样本对应且仅对应一个网格,每个网格最多对应一个样本,每个样本对应的网格位置与该样本的投影点位置尽可能接近,每个样本对应的网格的颜色与该样本的标注类别相关。
[0092]
在一种实施方式中,方法900还进一步包括步骤960,响应于在所述二维平面上的一个特定样本对应的网格的颜色与周围的网格的颜色不同,确定所述特定样本为离群点。
[0093]
基于本发明的方法,开发了一个可视化系统来对图像数据进行分析。该可视化系统能够将数据集在界面上进行可视化展示。通过该系统界面,用户可以探索数据集中样本的相似关系、聚类结构和离群点等,发现可能存在的错误聚类(模型预测)类别。针对同一个存在聚类(人工智能模型预测)类别错误的数字图片数据集,图10a为在系统中应用现有方法对图2对应的样本生成的网格布局的可视化效果(即跳过网格调整模块340),其所展示的网格布局与图2一致;图10b为对图2对应的样本在系统中的网格调整模块340中使用方法500生成的网格布局的可视化效果;图10c为对图2对应的样本在系统中的网格调整模块340中使用方法700生成的网格布局的可视化效果;图10d为对图2对应的样本在系统中的网格调整模块340中依次使用方法500与方法700生成的网格布局的可视化效果;图10e为对图2对应的样本在系统中的网格调整模块340中依次使用方法700与方法500生成的网格布局的可视化效果。在图10a中,存在4个聚类结构呈现出的大致的区域图形1001~1004(实线边框为示意,非可视化结果),分别对应聚类类别为“2”,“3”,“5”,“8”四种数字的图片。此处同聚类类别的样本在可视化中呈现出复杂的图形,4个图形之间的边界十分弯曲、难以辨认,尤其是在“3”与“5”的边界处,两种样本相互混杂,使得聚类的边界更加难以判断(图中实线边框为大致的边界)。因此用户较难感知样本的聚类结构,也较难分辨与发现样本中的离群点。在图10b-图10e中,4个聚类结构呈现出的区域图形分别为1011~1014,1021~1024,1031~1034,1041~1044。4个图形之间的边界更加简单、规则、异于辨认。其中以图10d中的1032为例,可以在该图形内部观察到若干与周围其他网格颜色不同的网格,例如1061-1062,其中网格1061的颜色(灰度)代表其标注类别为“5”,网格1062的颜色代表其标注类别为“8”。这些网格上的图片样本可以被确认为是错误聚类(预测)为“2”的离群点。而在1001-1004中,上述两个离群点分别对应1051-1052,此处离群点易与周围的非离群点(例如1052周围的其他“8”实际被正确聚类,并非离群点)相互混淆,较难以判断。图10b-图10e所对应的方法之间的具体优劣关系与数据集有关,但它们都优于图10a所对应的方法。
[0094]
本发明可以是系统、方法和/或计算机可读存储介质。计算机可读存储介质上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。本发明的方法可以在独立的计算机系统上执行,也可以在分布式计算系统上执行,甚至可以在云平台上执行。
[0095]
这里参照根据本发明实施例的方法、装置(系统)和计算机可读存储介质的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
[0096]
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机可读存储介质的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。
[0097]
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技
术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

技术特征:
1.一种用于对样本进行可视化的系统,所述系统包括:接收模块,被配置为接收多个样本,所述多个样本中的每个样本的信息包括该样本对应的特征向量、该样本的聚类类别与标注类别;投影模块,被配置为根据所述多个样本中的每个样本的特征向量,获得所述多个样本在二维平面上的投影点的位置;网格生成模块,被配置为根据所述多个样本中的每个样本及其投影点的位置,获得所述多个样本在所述二维平面上对应的网格,其中特定样本对应的网格的位置与该特定样本的投影点的位置相关;网格调整模块,被配置为根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格位置,迭代调整样本对应的网格的位置,使得满足预定条件,从而获取所述多个样本对应的网格的更新后的位置;以及可视化模块,被配置为根据所述多个样本中的每个样本对应的网格与网格的更新后的位置,在所述二维平面上对所述多个样本进行可视化展示。2.根据权利要求1所述的系统,其中所述预定条件包括:相同聚类类别的样本所对应的网格的位置之间的距离最小化。3.根据权利要求2所述的系统,其中根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件包括:分别计算所述多个样本中的每个样本的投影点位置与全部网格中的每个网格位置之间的距离,获得所述多个样本与全部网格位置之间匹配的邻近性代价矩阵;对于每种聚类类别:计算该聚类类别包括的所有样本对应的网格区域的重心;分别计算所述重心位置与全部网格中的每个网格位置之间的距离,获得该聚类类别包括的每个样本与全部网格位置之间匹配的紧凑性代价向量;将获得的所述多个样本中的每个样本对应的每个紧凑性代价向量拼接成紧凑性代价矩阵;将所述邻近性代价矩阵与所述紧凑性代价矩阵进行加权平均,以得到加权平均代价矩阵;根据得到的加权平均代价矩阵,通过进行二分图匹配求解,得到样本与网格位置的对应关系,以满足所述预定条件;以及根据得到的样本与网格位置的对应关系,获取所述多个样本对应的网格的更新后的位置。4.根据权利要求1所述的系统,其中所述预定条件包括:多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的多个图形的平均凸性最大化。5.根据权利要求4所述的系统,其中根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件包括:根据所述多个样本中的每个样本的聚类类别以及对应的网格,获得多个聚类类别的每
个聚类类别包括的所有样本对应的所有网格组成的第一图形,所述多个聚类类别对应多个第一图形;交换位于所述多个第一图形边缘处的两个或两组网格的位置,获得所述多个第一图形更新后的多个第二图形;响应于所述多个第二图形的平均凸性优于所述多个第一图形的平均凸性,接受所述网格位置的交换,并且返回到所述根据所述多个样本中的每个样本的聚类类别以及对应的网格,获得多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的第一图形的步骤;响应于所述多个第二图形的平均凸性劣于所述多个第一图形的平均凸性,拒绝所述网格位置的交换,并且统计拒绝交换的次数;响应于网格位置的所述拒绝交换的次数小于阈值,返回到所述根据所述多个样本中的每个样本的聚类类别以及对应的网格,获得多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的第一图形的步骤;以及响应于网格位置的所述拒绝交换的次数大于等于阈值,停止所述多个第一图形的获取与所述位置交换,从而得到所述多个样本对应的网格的更新后的位置。6.根据权利要求1-5之一所述的系统,其中所述网格生成模块生成每个样本对应的网格时,每个样本对应且仅对应一个网格,每个网格最多对应一个样本,每个样本对应的网格位置与该样本的投影点位置尽可能接近,每个样本对应的网格的颜色与该样本的标注类别相关。7.根据权利要求6所述的系统,该系统还包括:离群点确定模块,被配置为响应于在所述二维平面上的一个特定样本对应的网格的颜色与周围的网格的颜色不同,确定所述特定样本为离群点。8.根据权利要求1-7所述的系统,其中所述样本为以下之一:图像;视频;表格;文档。9.一种用于对样本进行可视化的方法,包括:接收多个样本,所述多个样本中的每个样本的信息包括该样本对应的特征向量、该样本的聚类类别与标注类别;根据所述多个样本中的每个样本的特征向量,获得所述多个样本在二维平面上的投影点的位置;根据所述多个样本中的每个样本及其投影点的位置,获得所述多个样本在所述二维平面上对应的网格,其中特定样本对应的网格的位置与该特定样本的投影点的位置相关;根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件,从而获取所述多个样本对应的网格的更新后的位置;以及根据所述多个样本中的每个样本对应的网格与网格的更新后的位置,在所述二维平面上对所述多个样本进行可视化展示。
10.根据权利要求9所述的方法,其中所述预定条件包括:相同聚类类别的样本所对应的网格的位置之间的距离最小化。11.根据权利要求10所述的方法,其中根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件包括:分别计算所述多个样本中的每个样本的投影点位置与全部网格中的每个网格位置之间的距离,获得所述多个样本与全部网格位置之间匹配的邻近性代价矩阵;对于每种聚类类别:计算该聚类类别包括的所有样本对应的网格区域的重心;分别计算所述重心位置与全部网格中的每个网格位置之间的距离,获得该聚类类别包括的每个样本与全部网格位置之间匹配的紧凑性代价向量;将获得的所述多个样本中的每个样本对应的每个紧凑性代价向量拼接成紧凑性代价矩阵;将所述邻近性代价矩阵与所述紧凑性代价矩阵进行加权平均,以得到加权平均代价矩阵;根据得到的加权平均代价矩阵,通过进行二分图匹配求解,得到样本与网格位置的对应关系,以满足所述预定条件;以及根据得到的样本与网格位置的对应关系,获取所述多个样本对应的网格的更新后的位置。12.根据权利要求9所述的方法,其中所述预定条件包括:多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的多个图形的平均凸性最大化。13.根据权利要求12所述的方法,其中根据所述多个样本中的每个样本的聚类类别、对应的投影点位置以及对应的网格的位置,迭代调整样本对应的网格的位置,使得满足预定条件包括:根据所述多个样本中的每个样本的聚类类别以及对应的网格,获得多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的第一图形,所述多个聚类类别对应多个第一图形;交换位于所述多个第一图形边缘处的两个或两组网格的位置,获得所述多个第一图形更新后的多个第二图形;响应于所述多个第二图形的平均凸性优于所述多个第一图形的平均凸性,接受所述网格位置的交换,并且返回到所述根据所述多个样本中的每个样本的聚类类别以及对应的网格,获得多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的第一图形的步骤;响应于所述多个第二图形的平均凸性劣于所述多个第一图形的平均凸性,拒绝所述网格位置的交换,并且统计拒绝交换的次数;响应于网格位置的所述拒绝交换的次数小于阈值,返回到所述根据所述多个样本中的每个样本的聚类类别以及对应的网格,获得多个聚类类别的每个聚类类别包括的所有样本对应的所有网格组成的第一图形的步骤;以及
响应于网格位置的所述拒绝交换的次数大于等于阈值,停止所述多个第一图形的获取与所述位置交换,从而得到所述多个样本对应的网格的更新后的位置。14.根据权利要求9-13之一所述的方法,其中根据所述多个样本中的每个样本的投影点,获得所述多个样本在所述二维平面上对应的网格时,每个样本对应且仅对应一个网格,每个网格最多对应一个样本,每个样本对应的网格位置与该样本的投影点位置尽可能接近,每个样本对应的网格的颜色与该样本的标注类别相关。15.根据权利要求14所述的方法,该方法还包括:响应于在所述二维平面上的一个特定样本对应的网格的颜色与周围的网格的颜色不同,确定所述特定样本为离群点。16.根据权利要求9-15所述的方法,其中所述样本为以下之一:图像;视频;表格;文档。17.一种用于对多个样本进行网格布局可视化的计算机可读存储介质,所述计算机可读存储介质具有存储其中的程序指令,所述程序指令可由计算设备执行以使得计算设备执行如权利要求9-16中任意一项所述的方法。18.一种用于对多个样本进行网格布局可视化的系统,包括:存储器;以及至少一个处理器,可操作地耦合到存储器并配置用于执行如权利要求9-16中任意一项所述的方法。

技术总结
本发明公开了用于对样本进行可视化的方法、系统和可读存储介质。其中,系统包括:接收模块用于接收多个样本,其中每个样本的信息包括该样本对应的特征向量、该样本的聚类类别与标注类别;投影模块用于根据多个样本中的每个样本的特征,获得多个样本在二维平面上的投影点的位置;网格生成模块用于根据多个样本中的每个样本将其投影点的位置,获得多个样本在二维平面上对应的网格;网格调整模块用于迭代调整样本对应的网格的位置,从而获取多个样本对应的网格更新后的位置;可视化模块被配置为根据多个样本中的每个样本对应的网格与网格更新后的位置,在二维平面上对多个样本进行可视化展示。化展示。化展示。


技术研发人员:刘世霞 周雨星 杨维铠 陈嘉澍 陈长建 赵曦滨
受保护的技术使用者:北京达佳互联信息技术有限公司
技术研发日:2023.05.31
技术公布日:2023/8/13
版权声明

本文仅代表作者观点,不代表航家之家立场。
本文系作者授权航家号发表,未经原创作者书面授权,任何单位或个人不得引用、复制、转载、摘编、链接或以其他任何方式复制发表。任何单位或个人在获得书面授权使用航空之家内容时,须注明作者及来源 “航空之家”。如非法使用航空之家的部分或全部内容的,航空之家将依法追究其法律责任。(航空之家官方QQ:2926969996)

航空之家 https://www.aerohome.com.cn/

飞机超市 https://mall.aerohome.com.cn/

航空资讯 https://news.aerohome.com.cn/

分享:

扫一扫在手机阅读、分享本文

相关推荐