基于云计算平台的聚类算法

格式：pdf
大小：339.23 KB
文档页数：5

下载文档原格式

一种基于聚类的云计算任务调度算法

【摘要】任务调度是云计算中的一个关键问题。针对Ｍｉ— ｎ算法负栽不平衡的缺点，引入Ｋ— ａｓｎＭｉｍｎ聚类，提出一种
基于Ｋ— ａｓｍｅｎ聚类和Ｍｉ— ｎ的云计算任务调度的新算法。该算法采用Ｋｍｅｎ聚类方法依据任务长度对任务聚类进行预处ｎＭｉ — ａｓ
总第１４卷１３期５２１０２年５月
大众科技
Ｐｏｕａｒｉｃｐｌｅｎｅ＆ＴｃｎｏｙＳｃｅｈｏｌｇ
Ｖｏ．４Ｎｏ５Ｌ１．Ｍａ２２ｙ０１
一
种基于聚类的云计算任务调度算法
杨丽武小年商可曼
（桂林电子科技大学信息与通信学院，广西桂林５１０４０４）
用ＭｎＭｎ调度策略进行任务调度。由于组内任务都具有相ｉ—ｉ近的任务长度，因此，在组内采用ＭｎＭｎ调度策略进行调ｉ－ｉ
云中的服务。任务调度是云计算的关键技术之一。云计算的商业化和虚拟化特性，需要云计算的任务调度算法能够具备满足这些特性的能力。现有的任务调度算法并不能很好地适
，
ｉｔｏｕｉｇｏｈｎｒｄｃｎｆｔｅＫ—ｍｅｎｌｓｅｎ，ａｄｔｅｒｐｓｓａｎｗｌｏｔｍａｅｎｔｅＫ— ａｓｃｕｔｒｇａｄＭｉ —Ｍｉｌｕａｓｃｔｒｇｎｈｎｐｏｏｅｅａｒｈｂｓｄｏｈｕｉｇｉｍｅｎｌｓｉｎｎｅｎｎｃｏｄ
ｃｍｐｕｔｎａｋｓｈｅｕｉ．ＴｈｅａｇｉｔｅｈｅＫ—ｍｅｎｌｔｒｎｇｍｅｈｃｏｄｎｇｔｌｔｒｎｇｐｒｐｏｃｓｉｈｔｂｓｄａｋｏｉｇｔｓｃｄｌｎｇｌｏｒｈｍｕｓｓｔａｓｃｕｓｅｉｔｏｄａｃｒｉＯｃｕｓｅｉｅｒｅｓｎｇｔａａｅｏｎｔｓ

基于云计算的电子信息技术在大数据处理与分析中的应用

Telecom Power Technology运营维护技术基于云计算的电子信息技术在大数据处理与分析中的应用高阳（单县教育和体育局，山东菏泽此次研究基于云计算平台，深入探讨电子信息技术在大数据处理与分析中的应用，以随机森林算法为基础，提取电子信息技术指标及初始数据。

结果表明，文章所提聚合算法的准确率达83.4%。

由此可知，采用聚合算法能有效理清基于云计算的电子信息技术在大数据处理与分析中的应用关联度，其算法查全率、查准率明显趋好，并能进一步提升大数据处理和分析效率，实际应用效果云计算；电子信息技术；大数据处理Application of Electronic Information Technology Based on Cloud Computing in Big DataProcessing and AnalysisGAO Yang(Shanxian Education and Sports Bureau, HezeAbstract: Based on cloud computing platform, this study deeply discusses the application of electronic information 2024年4月10日第41卷第7期241 Telecom Power TechnologyApr. 10, 2024, Vol.41 No.7高阳：基于云计算的电子信息技术在大数据处理与分析中的应用误数据A i 的出现率降至最低。

R (A )的计算公式为()()C C i 0ni R A M M A ==−∑（3）式中：M c 表示的是在未分离情况下错误处理分析的成本；M c (A i )表示错误数据A i 的特征值。

M c (A i )具有i 个不同的值，分裂后会产生i 个不同的分裂节点[5]。

本研究需要计算每个子节点带来的错误处理分析值，由此测算最终分裂后的代价，M c (A i )的计算公式为()C i i i 00n ni i M A n FP FP n FN p ===×−×+×∑∑ （4）式中：n 表示分裂节点数；n i 表示第i 个分裂处的节点数；p i 表示第i 个分裂处出现特性值的概率；FP 表示错误分析的复杂程度；FN 表示误处理分析指数。

常见的六大聚类算法

常见的六大聚类算法六大常见的聚类算法包括K-means聚类算法、层次聚类算法、DBSCAN 算法、OPTICS算法、谱聚类算法和高斯混合模型聚类算法。

1. K-means聚类算法：K-means聚类算法是一种基于距离的聚类算法，它通过最小化数据点与聚类中心之间的欧氏距离来划分数据点。

算法的步骤如下：a.随机选择K个聚类中心。

b.将每个数据点分配到距离最近的聚类中心。

c.更新聚类中心为选定聚类的平均值。

d.重复步骤b和c直到聚类中心不再改变或达到最大迭代次数。

2.层次聚类算法：层次聚类算法是一种自底向上或自顶向下递归地将数据划分成不同的聚类的方法。

它通过计算数据点之间的距离或相似度来判断它们是否应该被合并到同一个聚类中。

算法的步骤如下：a.初始化每个数据点为一个单独的聚类。

b.计算两个最近的聚类之间的距离或相似度。

c.合并两个最近的聚类，形成一个新的聚类。

d.重复步骤b和c直到所有数据点都被合并到一个聚类中。

3.DBSCAN算法：DBSCAN（Density-Based Spatial Clustering of Applicationswith Noise）算法是一种基于密度的聚类算法，它通过寻找具有足够密度的数据点来划分聚类。

算法的步骤如下：a.随机选择一个未被访问的数据点。

b.如果该数据点的密度达到预设的阈值，则将其归为一个聚类，同时将其相邻且密度达到阈值的数据点添加到聚类中。

c.重复步骤a和b直到所有数据点都被访问。

4.OPTICS算法：OPTICS（Ordering Points To Identify the Clustering Structure）算法是一种基于密度的聚类算法，它通过将数据点按照密度排序来划分聚类。

算法的步骤如下：a.计算每个数据点的可达距离和局部可达密度。

b.根据可达距离和局部可达密度排序所有数据点。

c.根据可达距离和阈值划分聚类。

d.重复步骤b和c直到所有数据点都被访问。

云计算在物联网中的数据去重与去噪

云计算在物联网中的数据去重与去噪在物联网时代，大量的设备和传感器连接到互联网，产生了海量的数据。

然而，这些数据中往往包含有重复的信息和噪声干扰，对进一步的数据分析和应用造成了困扰。

云计算作为一种强大的数据处理和存储平台，可以应用于物联网中的数据去重与去噪，以提高数据质量和效率。

一、数据去重数据去重是指在物联网中去除重复的数据记录，以减少存储和处理的数据量，提高数据的整体质量。

云计算可以利用多种算法来进行数据去重的处理，下面将介绍几种常用的算法：1. 哈希算法哈希算法是一种常用的数据去重算法。

它通过将数据记录转换成哈希值，并将其存储在云端的数据库中。

当新的数据记录到达时，先进行哈希值的计算，然后与数据库中已有的哈希值进行比对。

如果哈希值相同，则视为重复数据，不予存储。

这种算法快速高效，适用于大规模的数据去重操作。

2. 指纹算法指纹算法是一种基于数据内容的去重算法。

它通过计算数据的特征指纹，并将其作为唯一标识存储在云端。

当新的数据记录到达时，计算其特征指纹，并与数据库中已有的指纹进行比对。

如果指纹相同，则认为是重复数据，不予存储。

指纹算法可以有效地识别相似但不完全相同的数据，适用于处理一些存在数据波动的场景。

3. 混合算法混合算法结合了哈希算法和指纹算法的优点，可以进一步提高数据去重的准确性和效率。

混合算法首先采用哈希算法对数据进行粗略筛选，去除一部分重复数据。

然后，再采用指纹算法对筛选后的数据进行精细比对，进一步去除重复数据。

这种算法适用于对数据进行多次迭代的去重处理，可以有效提高数据去重的准确性。

二、数据去噪数据去噪是指在物联网中降低数据中的噪声干扰，提取有效信号，以改善数据的质量和可用性。

云计算可以利用以下方法进行数据去噪：1. 滤波算法滤波算法是一种常用的数据去噪方法。

在物联网中，常见的滤波算法包括均值滤波、中值滤波和低通滤波等。

这些算法通过对数据进行平均、中值或频域处理，去除异常值和噪声波动，提取有效的信号。

k-means算法的并行化

聚类与分类不同,在分类模型中,存在样本数据,这些数据的类标号是已知的,分类的目的是从训练样本集中提取出分类的规则,用于对其他类标号未知的对象进行类标识。在聚类中,预先不知道目标数据的有关类的信息,需要以某种度量为标准将所有的数据对象划分到各个簇中。因此,聚类分析又称为无监督的学习。
聚类算法的目的就是获得能够反映N维空间中这些样本点的最本质的“类”的性质。这一步没有领域专家的参与,它除了集合知识外不考虑任何的领域知识,不考虑特征变量在其领域中的特定含义,仅仅认为它是特征空间中的一维而己。
Key Words:K-means；Parallel;Clustering;ClusteMining）,又称为数据库中的知识发现（简称KDD）,是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中未知的、有潜在应用价值的信息或模式的过程。计算机技术的迅猛发展以及网络的普及,使人们有更多机会使用便捷的方法与外界进行信息交流。可是,数据大量的涌入,增加了我们获取有用信息的难度。如何从大量的数据中获取有价值的信息,给数据挖掘系统的实现带来了难题,由于处理这些数据的复杂度很高,系统的计算能力很难达到要求,此时传统的单机服务器所能提供的有限计算资源往往不能满足要求,需要借助分布式计算技术来实现大规模并行计算。聚类是数据挖掘中的一项重要技术,是分析数据并从中发现有用信息的一种有效手段。基于“物以类聚”的思想,它将数据对象分组成为若干各类或簇,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别很大,通过聚类,人们能够识别密集和稀疏区域,发现全局的分布模式以及数据属性之间有趣的相互关系。K-means属于聚类分析中一种基本的划分方法,常采用误差平方和准则函数作为聚类准则。所以我们采用基于HADOOP的分布式聚类方法,以提高聚类的执行效率。

点云聚类分割算法

点云聚类分割算法点云聚类分割算法是在三维空间中对点云数据进行聚类和分割的一种算法。

点云是由大量离散点组成的，代表了物体或场景的三维信息。

点云聚类分割算法可以将点云数据分成不同的部分，每个部分代表一个物体或场景的子集。

该算法在计算机视觉、自动驾驶、机器人领域中具有广泛应用。

聚类算法介绍聚类算法是对数据进行分组的一种方法，目标是使组内的数据相似度高，组间的数据相似度低。

在点云聚类分割算法中，常用的聚类算法包括K-means、DBSCAN和MeanShift等。

K-means算法K-means算法是一种迭代的、基于中心的聚类算法。

该算法首先选择k个初始中心点，然后将每个数据点分配到与其距离最近的中心点所代表的聚类中心。

接着，根据分配结果更新聚类中心，直到聚类中心不再变化或达到迭代次数。

K-means算法的时间复杂度较低，但需要事先指定聚类数目。

DBSCAN算法DBSCAN算法是一种基于密度的聚类算法，可以自动识别出任意形状的聚类。

该算法以一个核心对象为起点，通过计算邻域内的密度来不断扩展聚类，直到无法继续扩展。

DBSCAN算法不需要事先指定聚类数目，且对噪声点有较好的鲁棒性。

MeanShift算法MeanShift算法是一种迭代的、密度估计的聚类算法。

该算法通过计算概率密度函数的梯度来找到局部极大值，从而确定聚类中心。

然后，将每个样本点都向最近的聚类中心移动，直到收敛。

MeanShift算法对于初始聚类中心的选择较为敏感。

点云聚类分割算法流程点云聚类分割算法的整体流程如下：1.数据预处理–采集点云数据–数据去噪、滤波等预处理操作2.特征提取–计算每个点的特征向量，如法向量、曲率等3.聚类–选择适合的聚类算法，如K-means、DBSCAN或MeanShift–根据算法要求设置相应参数–对特征向量进行聚类，得到各个簇4.分割–将聚类结果分割为不同的物体或场景–采用几何特征、形状、大小等规则进行分割5.后处理–对分割结果进行优化和修正–去除异常点或噪声点–对分割物体进行后续处理，如识别、跟踪等点云聚类分割算法的应用计算机视觉点云聚类分割算法在计算机视觉中有广泛的应用。

云环境下并行DBSCAN聚类算法研究

４］看文件内容等［。
ＭａｐＲｅｄｕｃｅ是一种并行计算与运行软件框架，用于大规模数据集（大于１ＴＢ）的并行运算，也是一种基于集群的高性能并行计算平台。它将数据处理ａｐ和Ｒｅｄｕｃｅ两个阶段，用Ｍａｐ和Ｒｅｄｕｃｅ两分为Ｍ
山西电子技术㊀２０１７年第６期
文章编号：１６７４４５７８（２０１７）０６００８７０４
研究与探讨㊀
云环境下并行ＤＢＳＣＡＮ聚类算法研究
邓㊀青１，杨㊀宁２
（１．山西轻工职业技术学院，山西太原０３００１３；２．山西云时代技术有限公司，山西太原０３０００６）摘㊀要：ＤＢＳＣＡＮ算法是一种基于密度的快速聚类算法，虽然在处理大规模数据时可以发现其中的噪声数据，但聚类效率不高，输入／输出消耗大，聚类结果准确率低。本文在云计算平台Ｈａｄｏｏｐ环境下，将ＭａｐＲｅｄｕｃｅ编程模型的高并行性引入该算法，设计出一种并行ＤＢＳＣＡＮ算法，提高传统ＤＢＳＣＡＮ算法的执行效率，通过对比实验结果证明了该算法聚类的准确性和时效性。关键词：聚类分析；云计算；ＤＢＳＣＡＮ；ＨＤＦＳ；ＭａｐＲｅｄｕｃｅ中图分类号：ＴＰ３１１．１３；ＴＰ３０１．６㊀㊀文献标识码：Ａ㊀㊀聚类分析作为数据挖掘与统计分析的重要研究领域，近年来倍受关注。所谓聚类就是将物理或抽象对象的集合组成为由类似的对象组成的多个类的过程。现代社会各行各业产生的数据是海量的，如何从中挖掘出有用的信息，需要借助有效的聚类算法。传统的聚类算法在处理海量数据时，在时间复杂度和空间复杂度方面很高。而基于云计算的Ｍａｐｒｅｄｕｃｅ模型具有较高的并行性，可以与聚类算法进行有效结合，提高聚类算法处理海量数据时的性能。云计算作为一种新兴的商业计算模型，是并行计算、分布式计算和网格计算机的发展

点云聚类方法

点云聚类方法点云聚类方法是一种将点云数据进行分组的技术。

在三维扫描、计算机视觉和机器人领域中，点云数据是常见的一种数据形式，它由大量的离散点组成，表示了物体或场景的三维信息。

点云聚类方法的目标是将这些离散的点分成不同的组，每个组代表一个物体或一部分场景。

本文将介绍几种常见的点云聚类方法，并对它们的原理和应用进行详细讨论。

一、基于距离的点云聚类方法基于距离的点云聚类方法是最常见的一种方法。

它基于点与点之间的距离来确定它们是否属于同一个聚类。

常用的距离度量方法包括欧氏距离、曼哈顿距离和切比雪夫距离等。

该方法的基本思想是，将点云中的每个点与其周围的点进行距离比较，如果距离小于设定的阈值，则将它们归为同一个聚类。

这种方法简单直观，容易实现，但对于点云中密度变化较大的情况，效果可能不理想。

基于密度的点云聚类方法是一种通过计算点的密度来确定聚类的方法。

它认为聚类是一组密度相对较高的点，而点云中的噪声或孤立点密度较低。

该方法首先计算每个点周围的邻居点数量，然后根据设定的密度阈值将点分为核心点、边界点和噪声点。

接下来，通过连接核心点之间的邻居点来构建聚类。

这种方法对于密度变化较大的点云数据有较好的效果，但对于密度相近的聚类可能存在一定的误差。

三、基于模型的点云聚类方法基于模型的点云聚类方法是一种将点云数据拟合为数学模型，并根据模型参数来进行聚类的方法。

常用的模型包括平面模型、球面模型和圆柱模型等。

该方法首先对点云数据进行拟合，得到模型参数，然后根据模型参数将点云分为不同的聚类。

这种方法对于点云数据中存在明显几何结构的情况有较好的效果，但对于复杂的非线性结构可能存在一定的局限性。

四、基于图论的点云聚类方法基于图论的点云聚类方法是一种将点云数据表示为图的形式，并利用图的连通性进行聚类的方法。

该方法首先构建一个点云图，其中每个点表示图的节点，边表示点与点之间的关系。

然后通过图的连通性来确定聚类。

常用的图连通性算法包括最小生成树算法、谱聚类算法和基于密度的聚类算法等。

云计算中的数据分析和挖掘方法

云计算中的数据分析和挖掘方法随着现代科技的不断进步，数据的规模和复杂性不断增加。

这些数据储存在云计算的大数据平台上，如何从海量数据中提取出有价值的信息和知识成为了当前云计算领域研究的热点之一。

数据分析和挖掘方法在这个过程中扮演着至关重要的角色。

一、数据分析方法数据分析是一种从大量数据中提取出有价值的信息，用来支持决策和预测的过程。

它可以基于数据的模式、统计规律、自然语言处理等方面来进行分析，从而为商业和行政决策提供数据支持。

在云计算中，数据分析的方法主要包括以下几种：1. 数据挖掘数据挖掘是一种从大量数据中自动寻找有用的模式和规律，以实现分类、聚类、预测、关联分析等目标的技术。

其过程包括数据预处理、特征选择、模型构建和模型评估等步骤。

数据挖掘方法可以应用于电子商务、智能交通、医学等多个领域中，为数据分析提供了有力的支持。

2. 统计分析统计分析是一种在已知数据分布的前提下，对数据进行概率分析的方法。

它可以通过概率统计、假设检验、回归分析等方法，对数据的分布情况进行描述和分析，从而得出结论。

在云计算中，统计分析方法通常用于预测和决策分析。

3. 自然语言处理自然语言处理是一种将自然语言转化为计算机可处理形式的技术。

它可以通过文本分析、语义分析、信息检索等方法，从文本中抽取出有用的信息。

在云计算中，自然语言处理主要应用于文本分析和情感分析等方面。

二、数据挖掘方法数据挖掘是一种从海量数据中挖掘出有价值的信息和知识的技术。

在云计算中，数据挖掘方法主要包括以下几种：1. 关联规则挖掘关联规则挖掘是一种从数据中挖掘出同时出现的频繁项集及其相互间的关系的技术。

它可以用来发现数据之间的关联规律，从而为商业决策提供支持。

2. 分类算法分类算法是一种从已知数据中构建分类模型，然后利用该模型对新数据进行分类的技术。

它可以将数据划分为不同的类别，用于预测和决策分析。

3. 聚类算法聚类算法是一种将数据集中相似的数据划分到同一组别中的技术。

列举常用聚类算法

列举常用聚类算法聚类算法是一种将数据集中的相似数据分组的方法。

它是无监督学习的一种应用，可以在没有标签或类别信息的情况下对数据进行分类。

在机器学习和数据挖掘中，聚类算法被广泛应用于数据分析、图像处理、模式识别等领域。

本文将列举常用的聚类算法。

一、K均值聚类算法（K-means Clustering）K均值聚类算法是一种基于距离度量的聚类方法，它将数据集划分为K 个簇，每个簇包含距离其它簇最近的点。

该算法首先随机选择K个点作为初始质心，然后将每个点分配到与其距离最近的质心所在的簇中，并计算每个簇内所有点的平均值作为新的质心。

重复以上过程直到质心不再改变或达到预定迭代次数。

二、层次聚类算法（Hierarchical Clustering）层次聚类算法是一种自下而上或自上而下逐步合并或拆分簇来建立层次结构的方法。

该算法有两种实现方式：凝聚层次聚类和分裂层次聚类。

凝聚层次聚类从每个数据点开始，将它们逐步合并成越来越大的簇，直到所有点都被合并为一个簇。

分裂层次聚类从整个数据集开始，将其逐步拆分成越来越小的簇，直到每个簇只包含一个点。

三、DBSCAN聚类算法（Density-Based Spatial Clustering of Applications with Noise）DBSCAN聚类算法是一种基于密度的聚类方法，它可以识别任意形状的簇，并能够自动排除离群值。

该算法首先选择一个未访问的核心点作为起始点，并找到其可达范围内的所有点，并将它们加入同一簇中。

然后继续寻找未访问的核心点，并重复以上过程直到所有核心点都被访问完毕。

四、谱聚类算法（Spectral Clustering）谱聚类算法是一种基于图论和线性代数的聚类方法，它将数据集看作是一个图，在图上进行划分。

该算法首先构建一个相似度矩阵或邻接矩阵，并通过特征值分解或奇异值分解来获取特征向量和特征值。

然后将特征向量作为新的数据集，使用K均值或层次聚类等方法对其进行聚类。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Ａｂｓｔｒａｃｔ：Ｆｏｒｐｒｏｃｅｓｓｉｎｇｍａｓｓｉｖｅｄａｔａ，ａＭａｐＲｅｄｕｃｅｂａｓｅｄｔｒｉａｎｇｌｅｉｎｅｑｕａｌｉｔｙＣａｎｏｐｙ－Ｋｍｅａｎｓａｌｇｏｒｉｔｈｍｗａｓｐｒｏｐｏｓｅｄ．Ｔｈｅ
ｓｈｏｒｔａｇｅｏｆｌｏｃａｌｏｐｔｉｍｕｍ，ＳＯｉｔｃａｎｅｆｆｅｃｔｉｖｅｌｙｐｒｏｃｅｓｓｂｉｇｄａｔａｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅｆｒａｍｅｗｏｒｋ．Ｋｅｙｗｏｒｄｓ：ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ；Ｃａｎｏｐｙ－Ｋｍｅａｎｓ；ｔｒｉａｎｇｌｅｉｎｅｑｕａｌｉｔｙ；ｂｉｇｄａｔａ；ｐａｒａｌｌｅｌ
ｔｈｅｏｒｙｏｆｔｈｅｔｒｉａｎｇｌｅｉｎｅｑｕａｌｉｔｙｗａｓａｄｏｐｔｅｄ，ａｎｄｔｈｅｃｏｍｐｕｔａｔｉｏｎａｌｒｅｄｕｎｄａｎｃｙａｎｄｏｐｅｒａｔｉｏｎｔｉｍｅｗｅｒｅｒｅｄｕｃｅｄ．Ｔｈｅｅｘｐｅｒｉ
摘要：针对大数据的海量与高维特性，提出一种在云计算平台上基于ＭａｐＲｅｄｕｃｅ框架的距离三角不等式Ｃａｎｏｐｙ－Ｋｍｅａｎｓ
并行聚类算法。利用三角不等式的原理减少计算冗余，提高原算法的执行速度。实验结果表明，该算法减少了Ｉ／０以及网
络传输的消耗，克服了算法陷入局部最优解的缺点，使之能够充分利用集群的计算和存储能力对大数据进行聚类分析。
关键词：云计算；Ｃａｎｏｐｙ－Ｋｍｅａｎｓ算法；三角不等式原理；大数据；并行中图法分类号：ＴＰ３１１文献标识号：Ａ文章编号：１０００ — ７０２４（２０１５）１１ — ２９９０ — ０５
ｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅａｌｇｏｒｉｔｈｍｒｅｄｕｃｅｓｔｈｅｃｏｎｓｕｍｐｔｉｏｎｏｆＩ／Ｏａｎｄｎｅｔｗｏｒｋｔｒａｎｓｍｉｓｓｉｏｎ，ａｎｄｏｖｅｒｃｏｍｅｓｔｈｅ
０引言
目前，针对于大数据＿１。］的处理，多采用并行或分布式架构来提高系统的扩展性，并利用多线程的并行式结构，
或者是基于Ａｐａｃｈｅ推出的开源云计算ＨａｄｏｏｐＥ］平台实
的问题；文献［１５］中提出０１５年ｌ１月
计算机工程与设计
ＣＯＭＰＵＴＥＲＥＮＧＩＮＥＥＲＩＮＧＡＮＤＤＥＳＩＧＮ
Ｎｏｖ．２０１５
第３６卷
第ｌ１期
Ｖｏ１．３６Ｎｏ．１Ｉ
基于云计算平台的聚类算法
孟海东，任敬佩（内蒙古科技大学信息工程学院，内蒙古包头０１４０１０）
ＭＥＮＧＨａｉ — ｄｏｎｇ，ＲＥＮＪｉｎｇ－ｐｅｉ
（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＩｎｎｅｒＭｏｎｇｏｌｉａＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｂａｏｔｏｕ０１４０１０，Ｃｈｉｎａ）
Ｋｍｅａｎｓ改进算法，针对于Ｃａｎｏｐｙ算法的缺点采用了 “ 最小最大原则” ，利用云计算平台的集群计算和存储能力，更
进一步提高该算法的时效性和有效性。鉴于以上改进后的Ｋ－ｍｅａｎｓ聚类算法的优点，利用文献［１６］在Ｋ－ｍｅａｎｓ算法引进了三角不等式原理的基础上，提出一种改进的ＢＲＴＩ－Ｋ－ｍｅａｎｓ（ＭａｐＲｅｄｕｃｅｂａｓｅｄｔｒｉａｎｇｌｅ
ｄ０ｉ：１０．１６２０８／ｊ．ｉｓｓｎｌ０００ — ７０２４．２０１５．１１．０２２
Ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｃｌｏｕｄｃｏｍｐｕｔｉｎｇｐｌａｔｆｏｒｍ