聚类算法的研究
- 格式:pdf
- 大小:171.51 KB
- 文档页数:3
传统聚类算法与深度学习聚类算法的比较研究聚类算法是一种常见的数据挖掘算法,它将相似的数据点划分到同一个簇内。
聚类算法被广泛应用于许多领域,例如图像处理、生物信息学、社交网络分析等。
传统聚类算法包括K均值聚类、层次聚类、密度聚类等。
这些算法的核心是通过某种距离度量方法,计算数据点之间的相似性,并根据相似性将数据点归类。
传统聚类算法的优点是简单易用、运算速度快。
但是,传统聚类算法也存在一些缺点。
例如,需要手动选择簇的个数、对噪声数据较为敏感、无法自适应地学习数据特征等。
与传统聚类算法相比,深度学习聚类算法的优势在于:具有更高的自适应性、更好的数据表达能力、更强的鲁棒性等。
深度学习聚类算法可以将数据进行自动表示和特征学习,并可以缓解传统聚类算法在簇数量选择和噪声数据处理方面的问题。
深度学习聚类算法的发展可以追溯到1991年,当时是使用自编码器进行聚类。
近年来,深度聚类算法的发展日益成熟,其中最具代表性的是基于自编码器的深度聚类算法和谱聚类。
基于自编码器的深度聚类算法使用单层或多层自编码器对数据进行编码和解码,并在编码层中对数据进行聚类。
自编码器是一种可以学习数据的稠密表示的神经网络,它可以通过降噪自编码器、变分自编码器、卷积自编码器、循环神经网络等不同的模型来实现。
基于自编码器的深度聚类算法可以有效利用数据的内在信息,并可形成比传统聚类方法更复杂、更强能力的特征空间表示,可提高聚类效果。
相比之下,一些传统聚类算法使用欧式距离等浅层特征来聚类,无法自动发掘数据深层次的关系和特征信息,因此无法真正反映数据本身的内在信息。
谱聚类是一种基于图论的聚类算法,它通过对数据的相似性矩阵进行谱分解来实现聚类效果。
这种算法通过建立样本之间的邻接图来描述数据之间的相似性,并利用谱分解来对数据进行降维和聚类。
与基于自编码器的深度聚类算法相比,谱聚类算法具有更好的鲁棒性和应用性,可以适应各种数据领域的聚类需求。
近年来,基于深度学习的聚类算法在许多领域取得了显著的进展,例如在图像聚类、文本聚类等领域。
基于聚类分析的电商商品推荐算法研究一、引言电商平台通过推荐算法实现个性化推荐,有助于提高用户购买体验和转化率。
商品聚类分析是一种有效的方式,可将相似的商品分组,从而为用户提供更加精准的推荐。
本文将从商品聚类分析的角度出发,探讨基于聚类分析的电商商品推荐算法的研究。
二、商品聚类分析基础知识1. 商品聚类分析概念商品聚类分析指的是将一组商品按照某种特征进行分类,以便进行分析和管理。
例如,可以将相似的商品分为一组,为用户提供更加精准的推荐。
2. 商品聚类分析算法商品聚类分析算法主要有两种:层次聚类算法和划分聚类算法。
层次聚类算法又分为凝聚层次聚类和分裂层次聚类。
凝聚层次聚类是从每个商品单独分组开始,逐渐将它们组合为更大的组,直到所有商品都归入一个大组。
分裂层次聚类则是从所有商品在一个大组开始,逐渐将它们分为更小的组。
划分聚类算法则是通过将商品分配给各个组,不断迭代直到达到指定的条件,例如达到最小的组内差异或达到指定次数的迭代次数。
3. 商品聚类分析的应用商品聚类分析已经广泛应用于电商平台的商品推荐系统中。
通过将相似的商品分为一组,将相关的推荐商品推荐给用户,提高了购买体验和转化率。
三、基于聚类分析的电商商品推荐算法1. 数据预处理为了进行聚类分析,需要将商品数据进行预处理,包括去除空值和不需要的变量,对类别变量进行编码,标准化和归一化数值变量等。
2. 特征选择选择适当的特征对于聚类分析至关重要。
可以从商品的价格,销量,评论数,品牌等因素进行选择。
这里需要运用统计方法和领域知识,选择最能反映商品特征的特征。
3. 初步聚类分析选择聚类算法,根据商品特征对商品进行初步聚类分析,对聚类结果进行评估和调整。
4. 优化聚类分析对初步聚类结果进行评估和调整后,进行优化聚类分析。
其中,聚类数的选择是非常重要的。
聚类数过多会使得聚类结果过于细致,不易理解;聚类数过少则可能出现相似的商品被分到不同组的情况。
此时,建议使用聚类分析矩阵和统计指标等分析工具来优化聚类结果。
聚类算法的优缺点分析
一、聚类算法的定义
聚类算法是一种数据挖掘技术,它可以根据数据的相似性将数据分成不同的组。
聚类算法常用于市场分析、生物信息学、搜索引擎优化等领域,研究聚类算法的优缺点有助于更好地理解和应用这一技术。
二、优点分析
1. 数据解释性强:聚类算法可以将数据按照相似性进行分组,这有助于对数据进行解释和理解。
2. 发现隐藏模式:聚类算法可以帮助用户发现数据中的隐藏模式和规律,为决策提供支持。
3. 无监督学习:聚类算法是一种无监督学习方法,不需要预先标记的训练数据,适用于大多数数据挖掘场景。
4. 数据预处理:聚类算法可以用于数据预处理,帮助用户减少数据维度,提高数据处理效率。
三、缺点分析
1. 需要选择合适的距离度量:聚类算法的效果与距离度量的选择有关,不同的距离度量会导致不同的聚类结果。
2. 对初始值敏感:聚类算法对初始值敏感,初始值的选择会影响最终的聚类结果,需要谨慎选择。
3. 处理噪声和异常值困难:聚类算法对噪声和异常值比较敏感,这会影响聚类结果的准确性。
4. 难以处理大规模数据:一些聚类算法在处理大规模数据时效率较低,需要耗费大量的计算资源和时间。
四、结论
聚类算法是一种强大的数据挖掘技术,它可以帮助用户发现数据中的隐藏规律和模式,对于无监督学习和数据预处理都有很好的应用前景。
然而,聚类算法也存在一些缺点,比如对初始值敏感、处理噪声和异常值困难等问题,需要在实际应用中充分考虑。
在未来的研究中,可以进一步探讨聚类算法的改进和优化,以提高其在实际应用中的效率和准确性。
k-means聚类算法研究及应用
K-means聚类算法研究及应用
一、简介
K-means聚类算法是一种非监督学习算法,它是一种广泛应用在模式分类和无监督式学习的数据挖掘技术。
它使用了基于距离的聚类算法,以相似性作为衡量子簇类别的标准,任务是将样本(属性)空间中的数据分为K个不同的类,使聚类的误差平方和最小化:通常假设样本由簇中心所处的子空间所构建,每个子空间由一个簇中心控制,因此K-means算法常常被形象地称为“均值聚类”算法。
二、原理
K-means聚类算法是一种迭代算法,它的基本思想是:首先,随机选取若干个“簇中心”,然后将其他的数据点根据其与“簇中心”的距离,归到最近的“簇中心”所代表的簇中。
然后根据新聚集的簇,重新更新这些“簇中心”;如此不断迭代,最终计算得到一组稳定的“簇中心”,这组“簇中心”所代表的簇就是最后的结果了。
三、应用
1、生物信息学:K-means聚类算法用于基因芯片和定量PCR,以及蛋白质表达数据。
2、计算机视觉:K-means用于图像分割,聚类,像素重新分配等。
3、自然语言处理:K-means用于文本聚类,文档分类,文本挖掘等方面。
4、机器学习:K-means用于各种拟合问题,比如参数估计,探索异常
值等等。
四、总结
K-means聚类算法是一种简单高效的聚类算法,它可以有效地将数据空间分割成几个簇,属于非监督学习算法,它的核心在于划分数据空间,对数据的模式分类和无监督式学习有较好的应用,如生物信息学、计
算机视觉、自然语言处理、机器学习等领域。
聚类分析算法在房价预测中的应用探究及其实际效果分析房价预测一直是经济学、金融学等学科中非常重要的研究方向,因为房地产市场是一个与经济紧密相关的行业,房价的变化直接关系到整个市场的走势。
当前,随着计算机技术的发展,机器学习算法在房价预测中的应用已经成为一个非常热门的研究方向。
其中,聚类分析算法以其独特的计算方式和可视化展示方式,被逐渐应用于房价预测中。
本文将探究聚类分析算法在房价预测中的应用以及实际效果分析。
一、房价预测中聚类分析算法的应用聚类分析算法是一种常用的机器学习算法,该算法的主要作用是将大量数据划分成不同的簇,每个簇内部的数据足够相似,不同簇之间的数据差异较大。
在房价预测中,聚类分析算法可以将同一地区、同一地段或者同一房屋类型的房价数据进行分类,方便我们获取不同地段、不同类型房屋的价格差异。
例如,在使用聚类分析算法预测房价时,我们可以将不同地段的房价数据分类到不同的簇中,然后对每个簇进行分析,以计算出每个簇的平均房价。
这样,我们就可以清晰地了解每个地段房价的差异性。
此外,聚类分析算法还可以用于建立房价预测模型。
根据聚类分析的结果,我们可以将不同的簇视为特征,构建出以特征为基础的房价预测模型,以此预测未来房价的变化趋势。
二、聚类分析算法在房价预测中的优点天下没有免费的午餐,聚类分析算法也有一定的局限性。
但是相对于其他算法而言,聚类分析算法在房价预测中的崭新应用还是有着重要的优点:1. 数据可视化聚类分析算法可以将房价数据根据不同规律分门别类,不同的数据点呈现不同的颜色或者不同的形状,方便我们通过视觉感官对房价数据进行感知。
2. 多维数据的处理聚类分析算法可以同时处理多个变量,即便是相互独立的变量。
这对于房价预测而言是至关重要的,因为影响房价的因素无论是地段、房屋类型还是面积、环境等各方面因素都属于相互独立的变量。
3. 数据分类准确性高聚类分析算法在数据分类上具有较高的准确性,因为它所生成的分类直接基于数据之间的相似性或相异性,因此能够合理地分析不同的房价数据。
聚类分析算法在数据挖掘领域中的应用研究数据分析已经成为了现代社会中非常重要的一部分,它可以用来发现现象之间的联系、挖掘规律和进行预测。
而聚类分析算法则是数据分析领域中非常重要的一种算法,它可以用来对数据集进行分类,并提取出数据中的规律与模式。
在本文中,我们将探讨聚类分析算法在数据挖掘领域中的应用研究。
一、聚类分析算法的概念与类型聚类分析算法,顾名思义,是将数据集中的元素进行分类的算法。
其通过将数据集划分成不同的簇(Cluster),从而将同类数据点聚集在一起,不同类数据点分开归类。
聚类分析算法可以分为以下几种类型:1. 手动聚类:手动聚类是人工输入分类规则并按照该规则划分数据。
2. 层次聚类:层次聚类是根据距离或相似性,将数据点逐步聚合成更大的簇。
3. K-means聚类:K-Means聚类是一种基于质心的聚类算法,它将数据点分为K个簇,并将每个点分配到最近的簇中。
4. 密度聚类:密度聚类是基于密度的聚类算法,它可以识别任意形状、大小和方向的簇。
二、聚类分析算法在数据挖掘领域中的应用研究1. 数据挖掘中的聚类分析在数据挖掘领域中,聚类分析算法经常被用来对大规模数据集进行分类。
通过将数据点划分为不同的簇,可以进一步了解数据集的结构并提取出数据中的隐藏模式。
而且聚类分析算法还可以用来将不同的数据集融合为一个更大的、更全面的数据集。
这个过程可以帮助用户发现数据集中的异常点和噪音,从而更好地理解和分析数据集。
2. 聚类分析在市场分析中的应用在市场分析中,聚类分析算法可以用来帮助企业发现不同类别的用户群体。
通过将买家分为不同的群体,企业可以了解消费者的需求、购买行为和偏好,从而针对性地进行市场营销策略。
基于聚类分析的市场分析可以找到新的销售机会,加强客户忠诚度,最终帮助企业提高销售额和利润率。
3. 聚类分析在医学影像诊断中的应用聚类分析算法在医学影像领域中应用广泛。
它可以用来对患者进行分类、发现不同类型肿瘤病变,并针对性地做出诊断和治疗方案。
K -means 聚类算法研究综述摘要:总结评述了K -means 聚类算法的研究现状,指出K -means 聚类算法是一个NP 难优化问题,无法获得全局最优。
介绍了K -means 聚类算法的目标函数,算法流程,并列举了一个实例,指出了数据子集的数目K ,初始聚类中心选取,相似性度量和距离矩阵为K -means 聚类算法的3个基本参数。
总结了K -means 聚类算法存在的问题及其改进算法,指出了K -means 聚类的进一步研究方向。
关键词:K -means 聚类算法;NP 难优化问题;数据子集的数目K ;初始聚类中心选取;相似性度量和距离矩阵Review of K-means clustering algorithmAbstract: K-means clustering algorithm is reviewed. K-means clustering algorithm is a NP hard optimal problem and global optimal result cannot be reached. The goal , main steps and example of K-means clustering algorithm are introduced. K-means algorithm requires three user-specified parameters: number of clusters K , cluster initialization , and distance metric. Problems and improvement of K-means clustering algorithm are summarized then. Further study directions of K-means clustering algorithm are pointed at last.Key words: K-means clustering algorithm; NP hard optimal problem; number of clusters K; cluster initialization; distance metricK -means 聚类算法是由Steinhaus 1955年、Lloyed 1957年、Ball & Hall 1965年、McQueen 1967年分别在各自的不同的科学研究领域独立的提出。
基于时间序列的聚类分析方法研究一、引言随着数据量不断增加,人们对数据挖掘算法的需求越来越高。
而数据挖掘算法中的聚类分析方法可以帮助人们在数据量较大的情况下,快速发现数据的规律和特征。
其中,基于时间序列的聚类分析方法是一种在时间序列中搜索重复模式并进行聚类分析的方法。
本文将介绍基于时间序列的聚类分析方法的定义、流程、算法等内容。
二、基于时间序列的聚类分析方法的定义基于时间序列的聚类分析方法是一种利用时间对数据进行分类的方法。
通过寻找时间序列中的规律和相似性,可以将相似的时间序列进行聚类,以便发现数据的规律和特征。
三、基于时间序列的聚类分析方法的流程1. 数据准备:首先,需要将原始时间序列进行数据清洗和预处理,对数据进行标准化、归一化等操作,以便后续处理。
2. 相似度计算:对于时间序列中的每个子序列,需要计算与其他子序列的相似度。
常用的相似度计算方法包括欧氏距离、曼哈顿距离等。
3. 聚类算法:可以使用常见的聚类算法,如K-means、DBSCAN等,对相似的时间序列进行聚类分析。
4. 结果评估:对聚类结果进行评估,可以使用聚类有效性指标,如轮廓系数,来评估聚类的质量。
四、基于时间序列的聚类分析方法的算法1. K-means算法K-means算法是基于距离的聚类算法,它将数据分为K个簇,使每个数据点到其所属的簇内的所有数据点的距离之和最小化。
该算法的具体步骤为:(1)随机选择K个初始中心点。
(2)计算每个数据点到中心点的距离,并将其分配到最近的簇中。
(3)更新每个簇的中心点。
(4)重复第2和3步,直到中心点不再改变或达到预定的迭代次数。
2. DBSCAN算法DBSCAN算法是一种密度聚类算法,它将数据分为若干个簇,这些簇由密集的数据点组成,并且簇与簇之间较为稀疏。
该算法的具体步骤为:(1)选取一个未访问的核心点。
(2)找出与该核心点密度可达的所有点,加入到该簇中。
(3)重复第1和2步,直到所有的核心点都被访问。
第3l卷第6期 V0l_31 No.6 长春师范学院学报(自然科学版)
Journal of Changchun Normal University(Natural Science) 2012年6月
Jun.2012
聚类算法的研究 刘 洋 (大庆师范学院数学科学学院,黑龙江大庆163712)
【摘要】聚类算法是多元统计的一个重要分支,在理论和实际生活中都有重要的意义。本文对聚类算 法的发展历程以及近年来发展的一些聚类算法进行研究。 【关键词】聚类算法;算法优缺点;混合模型聚类算法 【中图分类号】O212 【文献标识码】A 【文章编号]1008—178X(2012)06—0009—03
聚类分析研究已有很长的历史,它不仅是多元统计中的一个重要分支,而且也是数据挖掘、模式识别 等研究方向的重要内容之一.通过聚类,可以给出数据稀疏和密集的区域,发现数据整体的分布模式,以及 数据彼此之间的相互关系等.聚类分析对较大数据集的分析处理也有重要应用. 不仅如此,聚类分析在其他领域也有重要的地位.例如,商业上聚类分析用于研究消费者行为;环境上 聚类分析是检验环境污染程度,对污染成分归类的有效工具;天文学中聚类分析用来对天体归类;生物学 中聚类分析被用来对动植物和基因进行分类,获取对种群固有结构的认识及发现新的基因;计算机中聚类 分析用来进行图像的分析处理等. 1 聚类及聚类的简单分类 迄今为止,聚类还没有一个被公认的定义.在此介绍应用多元统计分析lll中对聚类的描述:聚类分析又 称群分析,它是研究对样品或指示进行分类的一种多元统计方法.所谓的“类”,通俗地说,就是相似元素 的集合.分类有两种情形,一是对当前所研究的问题已知它的类别数目及类特征,只需将一些未知类的个 体,正确地归属于其中某一类;二是事先不知道研究的问题应分为几类,更不知道观测数据的具体分类情 况,需要对观测数据进行分析处理,选定一种度量数据接近程度的统计量,确定分类数目,建立一种分类 方法,并按接近程度对观、钡0对象给出合理的分类.聚类原则是使分到同一类间样本性质特征尽可能相似,不 同类间样本性质特征尽可能分开. 根据不同的分类标准,聚类算法有多种分类方式.根据对观测数据先验知识的有无,聚类被划分为无监 督聚类和有监督聚类.有监督聚类为上述的第一种情形,无监督聚类为上述的第二种情形.根据对观测数据内 在的概率框架的有无,聚类又可以分为基于模型和基于判断的聚类.根据实际问题的背景,观测数据类型, 又提出基于网格的聚类、基于最小生成树聚类、模糊聚类算、自组织映射聚类、蚁群聚类等. 2聚类算法 2.1分层聚类算法 分层聚类算法是对于给定的观测样本或指标进行层次上的分解的一种聚类算法,可以分为凝聚算法和
【收稿日期】2012—04—05 【作者简介】刘 洋(1985一),女,黑龙江大庆人,大庆师范学院数学科学学院助教,硕士,从事多元统计分析研究。
・9・ 分裂算法.分类的方法:一开始将所有的对象置于一个类中,计算每两个类间距离,把距离最小的两个类合 并为一个新类,如此下去,直到每个类只包含一个对象,或者达到一个终止条件为止. 分层聚类算法优点是可以得到各个数目的类;缺点是分到各个类问的观测样本不能自动调整,聚类计 算量太大,且在聚类时易忽略新类临时产生的信息,不能自动给出最优聚类数E1.此聚类算法适用于小型数 据. 2.2 K—means聚类算法 1967年,MacQueen首次提出了K—means聚类算法,大体思想是在最初的观测样本或指标中找出K个 观测样本作为始聚类中心,然后计算每一观测样本与每一个聚类中心的距离,把有最短距离的样本划分为
一类,重新计算(求平均值)每个有变化的聚类中心,则得到新的聚类中心,如此下去,直到每一类都不 再发生变化为止. K—means聚类算法的优点是思想直观,聚类速度较快;缺点是它太依赖于初始聚类中心的选取,不能 自动给出聚类数目,仅适用于数值型数据.为此,很多学者针对K—means算法的缺点给出改进算法:比如 Huang为克服仅适用于数值型数据聚类的局限性提出K—modes—Huang算法[21,针对初始聚类中心的选择,谢 娟英等给出一种改进的全局K一均值聚类算法[31等. 2.3基于密度的聚类 此聚类算法的主要思想是以观测样本的密度为依据,把拥有较大密度的观测样本聚成一类.观测样本的 整个样本空间被低密度的观测样本划分为若干区间.算法的优点是预先不需要知道聚类的数目;缺点是只能 处理数值型观测数据,但是基于网格的聚类算法解决了这一弊端. 2.4基于模型聚类算法 基于模型聚类算法是以概率数理理论为基础的聚类算法.可以解决无监督聚类对观测噪音不能恰当处 理、对观测样本不能自动给出最优的聚类数目的弊端.基于模型的聚类算法与EM算法结合,对聚类数目的 确定,转化为模型选择问题;对观测噪音的处理,通过添加一个或多个观测数据的不同成分来处理. 2.4.1 聚类的混合模型 观测数据集记为X={x1,x2,x3,…,xn},设 (XI 是数据向量X所在第血个类的概率密度函数, 为参 G 数.设x可分为G个类,令仃 为X来自第k个类的权重(∑丌 1),则数据集x模型的一般框架为,( =
=l
G ∑订 I∞,假设x。,X2,X3,…,xn彼此独立,9=(8 一,oa,观测数据x的联合模型为f(x。,X2, ,…, ; =
k=-l
n G 兀∑7r (XI .
:lt=1
2.4.2混合模型聚类的理论
对观测数据集 {xl,x2, ,…,xn}建立一个有限维的混合模型,对给定数据集X,Log一似然函数直接极 大化很困难.为此,引入x最有可能的分类标签向量集B=fB ,B2,B3,…, ,X的分类标签记为Bi=(bi , ,…, r,若数据X来自第七(k=l,2,…,G)个类,则 =1;否则 =0.通常情况下假定B ,B2,伤,…,Bn独立同分
布,以概率丌。,仃 , ,…,丌G,(∑ =1)来自一个多维分布.则有 G P[ =1 I ]=仃 ,P lB, =Ⅱ (XI∞ . ’
r_I 利用分类标签向量集B,观测数据集的log一似然函数可以表示成
n G logL8(8)=∑乏J(b ̄=1)log(7r★f I ,
・10・ 其中J( =1)为示性函数.把分类标签向量集B看成缺失向量集,利用EM算法估计式子中的参数0,使得似 然函数最大化.令参数0的极大似然估计为0,X来自第k个类的后验概率为 ,表达式为 P[ :1 Ix, ]= )_. ∑音ff (Xl 0 )
J=l
根据后验概率 对样本进行聚类,将观测数据分类到有最大后验概率的类牙0用模型选择准则AIC,
BIC等给出观测数据集的聚类数目x的最优选择. 基于模型的聚类算法,特别是基于混合模型的聚类算法应用广泛,但是对于非正态数据以及高维混合 数据集,此算法仍需进一步完善.WangL,RamoniMF,SebastianiP 2006 E ̄提出了多项式混合模型聚类方法, 提供了一个自动选择有最大后验概率的聚类数目的方法,特别适用于有孤立点数据的聚类.Xiao feng Dai等 (2009)[61建立了独立的Gaussian与Beta分布数据的有限维混合联合模型,讨论了两种不同类型数据的混合模 型. 3结论 随着科学的不断进步.数据呈现维数大、分布复杂等特点,对聚类算法的要求也越来越严格.在今后的发 展中,如何聚类不同类型的数据集,特别是观测数据的分量问结构不统一,彼此不独立的数据集.为此,应 该融合不同聚类算法的思想,利用不同算法的优缺点构建新的、解释性更合理的聚类算法.
[参考文献】 【1]高惠璇.应用多元统计分析【M].北京:IL京大学出版社,2005. 【2]Huang Z.Extensions to the K—means algorithm for clustering large data sets with categorical values[J].Data Mining and Knowledge Discovery II,1998(2):283—304. [3】谢娟英,蒋帅,王春霞,等.一种改进的全局K一均值聚类算法[J].陕西师范大学学报:自然科学版,2010(2):18,22.
【4]Kohomen T.The self-organizing map ̄].Proc IEEE,1990,78(9):1464-1480. 【5]Wang L,Ramoni M F,Sebastiani P.Clustering short gene expression profiles.Lecture Notesin computer Science:Reseach in computational Molecutar Biology:loth Annual Internationa1.conference[J].RECOMB,2006(3909):60-68. 【6】Xiao Feng D,Timo E,Olli Y H,et a1.A joint finite mixture model for clustering genes from independent Gaussian and beta distributed dataO].BMC Bioinformatics,2009(10):165.
Research on the Clustering Algorithm LIU Yang (Science ofMathematics Department ofDaqing Normal University,Daqing 163712,China)
Abstract:Clustering algorithm which is an impo ̄ant branch of muhivariate statistics plays a significant role in the theory and realistic life.The paper studies the Racks of clustering algorithm’S development and some kind of clustering algorithms developed in recent years. Key words:clustering algorithm;the advantages and disadvantages of algorithm;clustering algorithm in mixed model