基于密度方法的聚类
- 格式:ppt
- 大小:952.50 KB
- 文档页数:65
dbscan聚类方法【原创版3篇】目录(篇1)1.DBSCAN 聚类方法的概述2.DBSCAN 聚类方法的基本原理3.DBSCAN 聚类方法的算法流程4.DBSCAN 聚类方法的应用案例5.DBSCAN 聚类方法的优缺点正文(篇1)1.DBSCAN 聚类方法的概述DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类方法,该方法由 Rosenfeld 和 Eidelman 于 1995 年提出。
它主要通过计算数据点之间的密度来确定聚类,可以发现任意形状的聚类结构,并且对噪声数据具有较强的鲁棒性。
2.DBSCAN 聚类方法的基本原理DBSCAN 方法的基本原理是基于数据点的密度分布。
该方法将数据空间中的点分为核心点、边界点和噪声点三类。
其中,核心点是指其邻域内的点数量大于等于指定阈值的点;边界点是指其邻域内的点数量小于阈值且邻域内的点又与其他核心点相邻的点;噪声点是指其邻域内的点数量小于阈值且邻域内的点不与其他核心点相邻的点。
通过将核心点之间的连接关系形成聚类,可以得到最终的聚类结果。
3.DBSCAN 聚类方法的算法流程DBSCAN 聚类方法的算法流程主要包括两个步骤:(1)确定核心点:遍历数据集中的每一个点,计算其邻域内的点数量,将数量大于等于阈值的点标记为核心点。
(2)形成聚类:对于核心点,将其邻域内的点也标记为为核心点,并将这些核心点之间的连接关系形成聚类。
4.DBSCAN 聚类方法的应用案例DBSCAN 聚类方法在许多领域都有广泛应用,例如数据挖掘、生物信息学、图像处理等。
以图像处理为例,通过对图像像素进行密度划分,可以识别出图像中的目标物体,从而实现目标检测和识别。
5.DBSCAN 聚类方法的优缺点优点:(1)可以发现任意形状的聚类结构;(2)对噪声数据具有较强的鲁棒性;(3)算法具有较强的可扩展性,可以处理大规模数据集。
基于密度的最佳聚类数确定方法.基于密度的最佳聚类数确定方法[关键字]聚类评估,聚类数,聚类有效性指标0 引言聚类是数据挖掘研究中重要的分析手段,其目的是将数据集中对象聚集成类,使得同一类中的对象是相似的,而不同类中的对象是不同的。
迄今研究者已经提出了为数众多的聚类算法,并已经在商务智能、图形分析、生物信息等领域得到了广泛应用。
作为一种非监督学习的方法,对学习得到的聚类结果进行评估是非常有必要的。
因为许多聚类算法需要用户给定数据集的聚类数量,而在实际应用中这通常是事先不知道的。
确定数据集的聚类数问题目前仍是聚类分析研究中的基础性难题之一 [1][2]。
聚类评估用于评价聚类结果的质量,这被认为是影响聚类分析成功与否的重要因素之一[3]。
它在聚类分析过程中的位置如图1所示。
聚类评估的一些重要问题包括确定数据集的聚类趋势、确定正确的类个数、将聚类分析结果与已知的客观结果比较等,本文主要研究其中的最佳聚类数的确定。
通常最佳聚类数的确定是通过以下计算过程来确定的。
在给定的数据集上,通过使用不同的输入参数(如聚类数)运行特定的聚类算法,对数据集进行不同的划分,计算每种划分的聚类有效性指标,最后比较各个指标值的大小或变化情况,符合预定条件的指标值所对应的算法参数被认为是最佳的聚类数 [4]。
迄今为止,已有各种类型的度量指标从不同角度来评估数据集划分的有效性,这些指标称为聚类有效性指标(Clustering Validation Indices)。
一般地,用于评估聚类的各方面的评估度量指标可分成以下两类[5]。
1)外部指标(External index):指聚类分析的评价函数是针对基准问题的,其簇的个数及每个数据对象的正确分类均为已知。
代表性外部指标有熵、纯度、F-measure等。
2)内部指标(Internal index):指数据集结构未知的情况下,聚类结果的评价只依靠数据集自身的特征和量值。
在这种情况下,聚类分析的度量追求两个目标:类内紧密度和类间分离度。
基于密度的聚类方法
基于密度的聚类方法是一种以数据点的密度为目标的聚类算法,
其目的是将使得数据中出现某些较为明显的簇或类的数据点聚集起来,而较少的或者稀少的簇则被分到一起,可以说是识别低密度区间、检
测复杂形态的簇的一种聚类算法。
其主要特点:首先,假设数据集中
存在着显著的聚集簇以及稀疏分布的点,对数据集进行预处理;其次,根据给定的阈值,找到每一个簇的局部密度高的点,将这些点判定为
核心点;然后,搜索局部密度很小的点,将其邻域内的点归入簇;最后,根据阈值确定簇的边缘以及簇的边界,以此来最终判定数据集中
存在的聚集簇。
基于密度二分法的密度峰值聚类方法许朝阳;林耀海;张萍【摘要】Density Peaks Clustering(DPC)is a famous cluster algorithm for various data, regardless of their shapes or features. It has been widely studied and applied to solve problems in many fields in recent years. However, its clustering effect is reduced when the densities of the cluster centers differ greatly, or there are many peaks of density in a certain cluster. To address it, a density peaks clustering method based on density dichotomies is proposed. Firstly, the global aver-age density of each point is obtained and the data are divided into two groups according to high density and low density. Secondly, it identifies the clustering centers according to the decision diagram of high density points and then merges the clustering centers if it is within reachable distance. Finally, the high density points and the low density points are assigned to the appropriate clustering centers according to the strategy proposed in this paper. Experiments on several synthetic and real datasets show that the clustering results of the proposed algorithm are better than those of existing DPC algorithms.%密度峰值聚类(DPC)方法能够快速地对数据进行聚类,而不管它们的形状和包含它们的空间的维数,近年来得到广泛研究和应用.然而,当各个聚类中心的密度的差异较大,或者同一个类中包含多个密度中心时,DPC计算效果受到影响.针对于此,提出了基于密度二分法的密度峰值聚类方法.首先,求出全部数据平均密度,将数据分为高密度点和低密度点,然后,根据高密度的点的决策图识别出聚类中心后,根据是否存在可达距离的数据点对同类的聚类中心实现合并.最后,根据提出的分配策略,使高密度点和低密度点都分配到合适的聚类中心,从而实现聚类.在多个合成及实际数据集上的实验表明,该方法的聚类效果明显优于已有的DPC方法.【期刊名称】《计算机工程与应用》【年(卷),期】2018(054)012【总页数】8页(P138-145)【关键词】密度峰值聚类;密度二分法;决策图;高密度点【作者】许朝阳;林耀海;张萍【作者单位】莆田学院信息工程学院,福建莆田 351100;福建农林大学计算机与信息学院,福州 350002;莆田学院信息工程学院,福建莆田 351100【正文语种】中文【中图分类】TP1831 引言近年,密度峰值聚类方法(Density Peaks Clustering,DPC)[1]得到了广泛的研究和应用,例如,在电力消费行为的聚类[2],文本聚类[3],无监督的声学单词发现计算[4],批处理建模和在线监测[5],医疗数据[6],城市出租车热点区域发现[7],异常值检测[8]和超光谱段选择[9]等领域。
密度聚类(Density-Based Clustering)是一种基于密度的聚类算法,其主要思想是将样本空间划分为密度相连的区域,并将密度较大的区域划分为一个簇。
相比于传统的基于距离的聚类算法,密度聚类对簇形状和大小的假设更为宽松,能够更好地适应各种形状和密度不均匀的簇。
MATLAB作为一种强大的科学计算工具,提供了丰富的聚类算法实现,包括基于密度的聚类算法。
本文将针对MATLAB中基于密度的聚类算法的实现与使用进行介绍,分为以下几个方面:1.密度聚类算法的原理密度聚类算法的核心是基于样本点的密度来划分簇。
需要定义一个邻域的大小(ϵ)和邻域中最小样本点的个数(MinPts),然后通过计算每个样本点的密度来找到核心对象(密度大于MinPts)及其直接密度可达的样本点,最终将这些样本点划分为一个簇。
对于密度相连的簇,会被合并为一个整体。
2.MATLAB中基于密度的聚类算法实现MATLAB中提供了基于密度的聚类算法的实现,主要包括DBSCAN (Density-Based Spatial Clustering of Applications with Noise)和OPTICS(Ordering Points To Identify the Clustering Structure)两种算法。
其中,DBSCAN是一种基于密度的聚类算法,并且对样本点的簇结构进行了良好的定义。
OPTICS算法是对DBSCAN的扩展,通过计算样本点的可达距离将簇进行了有序排列,并能够有效地处理各向异性的数据。
3.基于密度的聚类算法在MATLAB中的使用在MATLAB中,可以借助Statistics and Machine Learning Toolbox提供的函数来实现基于密度的聚类算法。
通过使用fitcknn函数可以构建基于密度的K近邻分类器,利用knnsearch函数可以对新样本进行分类预测。
4.基于密度的聚类算法的优缺点相比于传统的基于距离的聚类算法,基于密度的聚类算法能够更好地适应各种形状和密度不均匀的簇。
聚类分析(五)——基于密度的聚类算法OPTICS 1 什么是OPTICS算法在前⾯介绍的DBSCAN算法中,有两个初始参数E(邻域半径)和minPts(E邻域最⼩点数)需要⽤户⼿动设置输⼊,并且聚类的类簇结果对这两个参数的取值⾮常敏感,不同的取值将产⽣不同的聚类结果,其实这也是⼤多数其他需要初始化参数聚类算法的弊端。
为了克服DBSCAN算法这⼀缺点,提出了OPTICS算法(Ordering Points to identify theclustering structure)。
OPTICS并不显⽰的产⽣结果类簇,⽽是为聚类分析⽣成⼀个增⼴的簇排序(⽐如,以可达距离为纵轴,样本点输出次序为横轴的坐标图),这个排序代表了各样本点基于密度的聚类结构。
它包含的信息等价于从⼀个⼴泛的参数设置所获得的基于密度的聚类,换句话说,从这个排序中可以得到基于任何参数E和minPts的DBSCAN算法的聚类结果。
2 OPTICS两个概念核⼼距离:对象p的核⼼距离是指是p成为核⼼对象的最⼩E’。
如果p不是核⼼对象,那么p的核⼼距离没有任何意义。
可达距离:对象q到对象p的可达距离是指p的核⼼距离和p与q之间欧⼏⾥得距离之间的较⼤值。
如果p不是核⼼对象,p和q之间的可达距离没有意义。
例如:假设邻域半径E=2, minPts=3,存在点A(2,3),B(2,4),C(1,4),D(1,3),E(2,2),F(3,2)点A为核⼼对象,在A的E领域中有点{A,B,C,D,E,F},其中A的核⼼距离为E’=1,因为在点A的E’邻域中有点{A,B,D,E}>3;点F到核⼼对象点A的可达距离为,因为A到F的欧⼏⾥得距离,⼤于点A的核⼼距离1.3 算法描述OPTICS算法额外存储了每个对象的核⼼距离和可达距离。
基于OPTICS产⽣的排序信息来提取类簇。
算法描述如下:算法:OPTICS输⼊:样本集D, 邻域半径E, 给定点在E领域内成为核⼼对象的最⼩领域点数MinPts输出:具有可达距离信息的样本点输出排序⽅法:1 创建两个队列,有序队列和结果队列。
什么是聚类分析,它有哪些应用?
一、聚类分析的实现方式
聚类分析的实现方式有很多种,如下面几种:
1. 基于距离的聚类:
这种方法将数据点之间的距离作为相似性的度量,然后将距离最近的数据点聚在一起,并逐渐地将距离较远的数据点加入到不同的簇中。
2. 基于密度的聚类:
这种方法通过计算数据点的密度来确定簇边界,而不是使用距离来度量相似性。
将密度较高的数据点聚集在一起,而将密度较低的数据点单独作为一个簇。
3. 基于层次的聚类:
这种方法将数据点逐层进行聚合,每一层都是由多个子层组成的。
聚类过程一直持续到所有数据点都被分配到一个簇中,或者簇的数量达到预设的值。
二、聚类分析的应用领域
聚类分析作为一种重要的数据挖掘技术,在多个领域中都有着广泛的应用,下面介绍一些主要应用领域:
1. 市场细分:
聚类分析可以帮助企业将市场分割成不同的细分市场,然后根据每个细分市场的特点定制相应的市场策略。
2. 生物分类:
聚类分析在生物学领域中应用非常广泛,例如,可以用于分类分子或组分、成本分析以及微生物学等方面。
3. 网络流量分析:
聚类分析可以帮助网络管理员对网络流量进行分类,以便更好地了解网络中流动的数据类型,从而更好地优化网络性能。
4. 风险评估:
聚类分析可以用于对风险进行分类和评估,例如,可以将客户分类成高风险、中风险和低风险客户,以快速响应某些意外事件。
结论
聚类分析是一种非常有用的技术,可以用于许多不同的领域。
以上只是聚类分析的一些基本理解和应用,随着技术的不断发展,聚类分析在未来也将有着更广泛的应用。
常⽤聚类算法(基于密度的聚类算法前⾔:基于密度聚类的经典算法 DBSCAN(Density-Based Spatial Clustering of Application with Noise,具有噪声的基于密度的空间聚类应⽤)是⼀种基于⾼密度连接区域的密度聚类算法。
DBSCAN的基本算法流程如下:从任意对象P 开始根据阈值和参数通过⼴度优先搜索提取从P 密度可达的所有对象,得到⼀个聚类。
若P 是核⼼对象,则可以⼀次标记相应对象为当前类并以此为基础进⾏扩展。
得到⼀个完整的聚类后,再选择⼀个新的对象重复上述过程。
若P是边界对象,则将其标记为噪声并舍弃缺陷:如聚类的结果与参数关系较⼤,导致阈值过⼤容易将同⼀聚类分割,或阈值过⼩容易将不同聚类合并固定的阈值参数对于稀疏程度不同的数据不具适应性,导致密度⼩的区域同⼀聚类易被分割,或密度⼤的区域不同聚类易被合并DBSCAN(Density-Based Spatial Clustering of Applications with Noise)⼀个⽐较有代表性的基于密度的聚类算法。
与层次聚类⽅法不同,它将簇定义为密度相连的点的最⼤集合,能够把具有⾜够⾼密度的区域划分为簇,并可在有“噪声”的空间数据库中发现任意形状的聚类。
基于密度的聚类⽅法是以数据集在空间分布上的稠密度为依据进⾏聚类,⽆需预先设定簇的数量,因此特别适合对于未知内容的数据集进⾏聚类。
⽽代表性算法有:DBSCAN,OPTICS。
以DBSCAN算法举例,DBSCAN⽬的是找到密度相连对象的最⼤集合。
1.DBSCAN算法⾸先名词解释:ε(Eps)邻域:以给定对象为圆⼼,半径为ε的邻域为该对象的ε邻域核⼼对象:若ε邻域⾄少包含MinPts个对象,则称该对象为核⼼对象直接密度可达:如果p在q的ε邻域内,⽽q是⼀个核⼼对象,则说对象p从对象q出发是直接密度可达的密度可达:如果存在⼀个对象链p1 , p2 , … , pn , p1=q, pn=p, 对于pi ∈D(1<= i <=n), pi+1 是从 pi 关于ε和MinPts直接密度可达的,则对象p 是从对象q关于ε和MinPts密度可达的密度相连:对象p和q都是从o关于ε和MinPts密度可达的,那么对象p和q是关于ε和MinPts密度相连的噪声: ⼀个基于密度的簇是基于密度可达性的最⼤的密度相连对象的集合。
密度峰聚类算法密度峰聚类算法是一种基于密度的聚类方法,它通过寻找数据集中的密度峰值来进行聚类。
相比于传统的基于距离的聚类方法,密度峰聚类算法在处理不规则形状的数据集时具有更好的效果。
密度峰聚类算法的核心思想是通过计算数据点的局部密度和局部距离来找到密度峰值。
在算法开始时,首先需要确定两个参数:邻域半径和最小密度。
邻域半径表示一个数据点周围的范围,最小密度表示在该范围内的数据点的数量。
算法的步骤如下:1. 计算每个数据点与其他数据点的距离,并将距离按升序排列。
2. 根据设定的邻域半径,确定每个数据点的邻域内的数据点数量,即局部密度。
3. 根据设定的最小密度,确定每个数据点的核心点。
核心点的局部密度必须大于最小密度。
4. 根据核心点之间的距离,确定每个核心点的可达距离。
可达距离是指从一个核心点到另一个核心点的最小距离。
5. 根据核心点之间的可达距离,确定每个核心点的密度峰值。
密度峰值是指在可达距离中最大的距离。
6. 将密度峰值大于其他核心点的数据点作为聚类中心,将相应的数据点归类到该聚类中心下。
7. 将密度峰值小于其他核心点的数据点作为噪声数据,不进行归类。
密度峰聚类算法的优点在于可以不受数据形状的限制,能够有效地识别不规则形状的聚类。
同时,该算法还具有较好的鲁棒性和可扩展性,在处理大规模数据集时也能取得良好的效果。
然而,密度峰聚类算法也存在一些限制。
首先,该算法对参数的选择比较敏感,不同的参数组合可能导致聚类结果的差异。
其次,当数据集的密度分布较为均匀时,算法的效果可能较差。
此外,密度峰聚类算法对于噪声数据的处理也较为有限,可能将一些噪声数据误判为聚类中心。
密度峰聚类算法是一种基于密度的聚类方法,能够有效地识别不规则形状的聚类。
虽然该算法存在一些限制,但在实际应用中仍具有一定的价值。
未来的研究可以进一步探索如何优化密度峰聚类算法的参数选择和噪声数据处理,以提高算法的准确性和鲁棒性。
ArcGIS应用之基于密度的聚类分析我们生活在数据大爆炸时代,每时每刻都在产生海量的数据如视频,文本,图像和博客等。
由于数据的类型和大小已经超出了人们传统手工处理的能力范围。
聚类,作为一种最常见的无监督学习技术,可以帮助人们给数据自动打标签,已经获得了广泛应用。
聚类的目的就是把不同的数据点按照它们的相似与相异度分割成不同的簇(注意:簇就是把数据划分后的子集),确保每个簇中的数据都是尽可能相似,而不同的簇里的数据尽可能的相异。
从模式识别的角度来讲,聚类就是在发现数据中潜在的模式,帮助人们进行分组归类以达到更好理解数据的分布规律。
今天要跟大家分享的这个工具就跟聚类有关,它是ArcGIS中一个空间模式识别工具——基于密度的聚类分析。
基于密度的聚类工具的工作原理是检测点集中的区域以及被空的或稀疏的区域所分隔的区域。
不属于聚类的点将被标记为噪点。
一、聚类的应用•城市供水网络是一种重要的隐形地下资产。
管道破裂和爆裂的聚类可以指明潜在的问题。
使用基于密度的聚类工具,工程师可以找到这些聚类的位置并对供水网络中的高危区域抢先采取行动。
•假设您拥有NBA 球员所有成功的和失败的投篮位置数据。
基于密度的聚类可以显示每名球员成功与失败投篮位置的不同模式。
然后可利用此信息告知比赛战术。
•假设您正在研究一种特别的害虫传播疾病,并且有一个代表您研究区域内家庭的点数据集,其中有些家庭已经被感染,有些家庭尚未被感染。
通过使用基于密度的聚类工具,您可以确定受害家庭的最大聚类,以帮助确定一个区域以开始害虫的处理和消灭。
•可对自然灾害或恐怖袭击之后的地理定位推文进行聚类,根据所确定的聚类大小和位置报告救援和疏散需求。
•聚类可以将大规模的客户数据按照客户喜好进行归类,比如下图1展示了聚类后发现了3个簇。
图1 聚类的应用举例二、功能定义聚类算法很多,包括基于划分的聚类算法(如:k-means),基于层次的聚类算法(如:BIRCH),基于密度的聚类算法(如:DBSCAN),基于网格的聚类算法( 如:STING )等等。
聚类方法分类
聚类方法是一种常见的数据挖掘技术,它将数据集中的对象根据相似性分组,形成多个簇。
聚类方法可以应用于许多领域,例如市场分析、社交网络分析、生物学、医学等等。
聚类方法可以分为以下几类:
1. 基于距离的聚类方法:根据对象之间的距离来判断它们是否
属于同一簇,常用算法有K-means聚类、层次聚类等。
2. 基于密度的聚类方法:根据对象周围的密度来判断它们是否
属于同一簇,常用算法有DBSCAN聚类、OPTICS聚类等。
3. 基于模型的聚类方法:假设数据集由一些隐含的概率分布生成,根据这些概率分布来判断对象是否属于同一簇,常用算法有高斯混合模型聚类、贝叶斯聚类等。
4. 基于图论的聚类方法:将数据集中的对象看作图的节点,根
据节点之间的连通性来判断它们是否属于同一簇,常用算法有谱聚类、最大流聚类等。
以上是聚类方法的分类,不同的聚类方法适用于不同的数据集和应用场景,选择合适的聚类方法可以使聚类结果更加准确和实用。
- 1 -。
密度峰值聚类算法
GPCL算法(Generalized peak clustering algorithm)是一种基于密度峰值进行核聚类分析的数据挖掘技术,该算法由季宾浩等人提出。
通过分析样本空间中的密度峰值,从而把一系列的样本特征变量聚类,根据簇的形状进行划分类,也可认为是一个基于密度的聚类技术。
GPCL算法的围绕着核,将输入空间分裂成相互独立的子空间,当它们包含少量元素时,可以确定空间内遍布分布。
该算法通过以下步骤实现聚类:
(1)从输入空间中的每个点开始,启动一对对象的密度峰值搜索,记为“密度峰值对”;
(2)为每一密度峰值对建立有限的核区域;
(3)把输入空间的每个点分配给一个核,输入空间被分成多个含有有限元素的独立块;
(4)计算所有核区域的压缩度,并确定重叠阈值;
(5)将空间分为不重叠的K个核。
GPCL算法属于局部密度聚类,主要作用是在一定范围内(采用核标准化后)按
照某种逻辑搜索数据的分布特征,从而使得聚类的过程结果更准确,适用于在大数据集中搜索分类数据近似相同的点。
此外,GPCL算法可以用于考察海量数据中点到点之间的“密封”密度关系,可以更好地捕获异常点。
密度聚类法真实案例
密度聚类法是一种基于密度的聚类方法,其基本思想是将数据点按照密度划分为不同的簇,使得同一簇中的数据点尽可能相似,而不同簇中的数据点尽可能不同。
下面是一个密度聚类法的真实案例:
在一个大型购物中心,为了更好地管理客流量和提高顾客的购物体验,商场需要将各个商铺进行分类。
考虑到商铺之间的地理位置和销售情况等因素,可以使用密度聚类法将商铺分为不同的簇。
具体来说,可以将商铺的地理位置和销售数据作为输入特征,计算各个商铺之间的距离或相似度。
然后使用密度聚类法将相似的商铺分为一类,形成多个簇。
通过密度聚类法,商场可以更好地了解各个商铺的分布情况,针对不同类别的商铺制定不同的营销策略,提高顾客的购物体验和满意度。
同时,密度聚类法还可以用于其他领域,如社交网络分析、图像处理等。
基于密度的聚类算法
密度聚类算法是一种基于数据密度的聚类方法,主要特点是将数据点结合成聚类,旨在从数据集中查找最相近的点。
不同于传统的聚类算法,它更加侧重于计算空间内点的密度,而不是向量空间的距离。
密度聚类有很多类型,其中著名的算法有:DBSCAN(支持度基因聚类)、OPTICS(离散点优化视觉)以及DENCLUE (离散时间处理)等。
DBSCAN算法是一种基于密度的算法,它建立在空间数据点分布上,结合两个参数即半径(eps)和聚类最小数目(minPoints)来形成聚类。
它做的是,首先通过设定一个半径eps,将不同的点连接起来,组成相互之间距离小于eps的点构成一个新的聚类簇,然后将这些特征点的聚类扩大,直到形成一个稳定的聚类。
这就是DBSCAN算法。
而OPTICS算法则是基于密度的另一种聚类算法,它能够通过使用一个可变的半径来构建密度梯度,将离散点根据密度进行排序,并计算点间的可达距离。
根据密度梯度,它可以更好地分割空间中的离散点,并捕获出数据集中斑点和噪音的细节,从而得到比DBSCAN更具有有效性的结果。
最后,DENCLUE算法的主要思想是将数据由时间轴上的离散分布抽象出来,使用一个可变的高斯函数来计算每个点的密度,该可变半径适应于空间密度的可变程度,能够选择合适的结构来描述每个离散点,从而获取更好的聚类效果。
总而言之,基于密度的聚类算法是一种比较精准的聚类方法,通过设定半径和点的最小数目来形成聚类,从而使得空间中的点更加清晰准确的被整合在一起。