数学建模优秀讲座之聚类分析及其应用
- 格式:pptx
- 大小:488.53 KB
- 文档页数:29
聚类分析聚类,或称分集,即所谓“物以类聚”,它是按某种相似规则对给定样本集、指标簇进行某种性质的划分,使之成为不同的类.将数据抽象化为样本矩阵()ij n m X X ⨯=,ij X 表示第i 个样本的第j 个变量的值.聚类目的,就是从数据出发,将样本或变量分成类.其方法大致有如下几个.(1) 聚类法.即谱系聚类法.将n 个样本看成n 类,将性质最接近的两类并为一新类,得1-n 类;再从1-n 类中找出最接近的两类加以合并,得2-n 类;继之,最后所有样本都成一类,得一聚类谱系,从谱系中可确定划分多少类,每类含有哪些样本.(2) 分解法.它是系统聚类的逆过程,将所有样本视为一类,按某种最优准则将它分成两类,继之,每一类都分到只含一个样本为止.(3) 动态聚类.即快速聚类法.将n 个样本粗糙地分成若干类,然后用某种最优准则进行调整,直至不能调整为止.(4) 有序样本聚类.按时间顺序,聚在一类的样本必须是次序相邻的样本.(5) 模糊聚类.它是将模糊数学用于样本聚类.(6) 运筹学聚类.它是将聚类问题化为线性规划、动态规划、整数规划模型的聚类.(7) 神经网络聚类.它是将样本按自组织特征映射的方法进行,也是我们要加以叙述的一个重点.(8) 预测中聚类.它是聚类在预测中的应用,以弥补非稳定信号回归的预测与分析.这里主要介绍谱系聚类法和快速聚类法. 一、距离定义样本矩阵()ij n m X x ⨯=,是m 维空间中n 个点,以距离度量样本之间的贴近度,就是距离聚类方法.最常用的第i 个与第j个样本的Minkowski 距离为p mk p jk ik ijx x d /11)||(∑=-=式中p 为一正整数.当2=p , ij d 就是欧几里德距离;当1=p ,ij d 就是绝对距离,或称“布洛克(cityblock )”距离.而切比雪夫距离为||max 1jk ik mk ij x x d -=≤≤设m m C ⨯是变量的协方差矩阵,i x ,j x 为第i 行与第j 行m 个变量构成的向量,则马哈兰罗比斯距离定义为1()()T ij i j i j d x x C x x -=-- 根据距离的定义,就获得距离矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=nn n n n n d d d d d d d d d d 212222111211 由距离性质可知,d 为实对称矩阵,ij d 越小,两样本就越相似,其中01211====nn d d d ,根据)(j i d ij ≠的n 个点分类,依聚类准则分为不同的类.对d 常用的系统聚类准则有: 1、类间距离定义(1) 最短距离;,min p qpq ij i Gj GD d ∈∈= (2) 最长距离;,maxpqpq ij i G j GD d ∈∈=(3) 质心距离;(,)pq p q D d x x = (4) 平均距离;1p qpq iji G j G p qD d n n ∈∈=∑∑(5) 平方距离:2()()p q T pqp q p q p qn n D x x x x n n =--+2.类间距离的递推公式(1)最短距离:min{,}rk pk qk D D D = (2)最长距离:max{,}rk pk qk D D D = (3)类平均距离:p q rk pk qk rrn n D D D n n =+(4)重心距离:2222pqp q rkpkqkpq r r r rn n n n D D D D n n n n =+-⋅(5)离差平方和距离:2222p k q k krkpk qk pq r kr kr kn n n n n D D D D n n n n n n ++=+-+++二、谱系聚类法例: 假如抽取5个样本,每个样本只测一个指标,即数据为x =[1,0;2,0;4.5,0;6,0;8,0] 试以最短距离准则进行距离聚类说明.解 这时,样本间的绝对距离、欧几里德距离或切比雪夫距离均一致,见表3.1.以最短距离准则聚类.根据定义,当令p Ω与q Ω中分别有pn 与q n 个样本,则最短距离为:},|min{),(q p ij nearj i d q p Ω∈Ω∈=δ于是,对于某步,假定具有样本为p n 的第p 集合与样本为q n 的第q 集合,聚成为具有样本为q p s n n n +=的第s 集合,则第k 集合与第s 集合的最短距离,可写为)},(),,(min{),(q k p k s k near near nearδδδ=(1)表1 绝对距离数据表中数据1、2、4.5、6、8视为二叉树叶子,编号为1、2、3、4、5.当每一个样本看成一类时,则式子(1)变为ij neard j i =),(δ,最小距离为1,即1与2合聚于6号,得表2.表中5.2)5.2,5.3min()}2,3(),1,3(min{)6,3(===δδδnear near near表2 一次合聚表2中最小距离为1.5,即4.5与6合聚于7,得表3.表中(6,7)min{(6,4.5),(6,6)}min(2.5,4) 2.5near nearnearδδδ===.表3 二次合聚表3中最小距离为2,即{4.5,6}元素(为7号)与8(为5号)合聚于8号,得表4.表中5.2)6,4,5.2min()}8,6(),6,6(),5.4,6(min{)8,6(===δδδδnear near near near表4 三次合聚最后集合{1,2}与{4.5,6,8}聚成一集丛.此例的Matlab 程序如下:x =[1,0;2,0;4.5,0;6,0;8,0])();'sin ',();'',(z dendrogram gle y linkage z CityBlock x pdist y ==绘得最短距离聚类谱系如图1所示,由图看出分两类比较合适.1号、2号数据合聚于6号,最小聚距为1;3号、4号数据合聚于7号,最小聚距为1.5;7号于5号数据合聚于8号,最小聚距为2;最后6号和8号合聚,最小聚距为2.5。