2014年聚类分析的MATLAB程序设计

  • 格式:pdf
  • 大小:774.63 KB
  • 文档页数:13

下载文档原格式

  / 13
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Cij cos ij
x x
t 1
m
ti tj
n 2 n 2 xti xtj t 1 t 1
2.相关系数
Cij rij
(x
t 1 n t 1
n
ti
xi )( xtj x j )
n
[ ( xti xi ) 2 ]1 2 [ ( xtj x j ) 2 ]1 2
分类统计量
假设有 n 个样品,每个样品测得 m 个指标(或变量) ,得如下表所示数据矩阵(表) 样品数据矩阵
指 标 样 品
x1 x11 x21

x2 x12 x22

… … … … … …
xj x1j x2j

… … … … … …
xm x1m x2m

1 2

n
平均 标准差
xn1
xn2
xnj
xnm
1 b d b+d
Σ a+b c+d a+b+ c+d
ad bc (a b)(c d )(a c)(b d )
三、数据转换 各样品或指标的观测值因量纲不同,或量纲虽同,但数量级不同,直接用原始数据计算 就会突出那些绝对值大的变量的作用而消弱了那些绝对值小的变量的作用,因此在计算前, 应对原始数据进行标准化, 下面介绍两种常用的标准化方法和特点. 我们按列进行数据标准 化(可用同样的方法按行进行) ,设标准化后的数据为( yij ) 1.标准差标准化
类为止.最后将上述并类过程画成一张聚类图,按一定原则决定分为几类,对指标分类用类 似的方法进行.由于类与类之间的距离定义方法不同,因而产生不同的系统聚类方法,下面 介绍常用的几种方法. 一、最短距离法 设有 n 个样品,用 d ij 表示样品 i 和样品 j 的距离( i, j =1,…, n ),用 G1 ,…, Gn 表 示初始类.规定类与类之间的距离为两类最近样品的距离,用 D pq 表示 G p 与 Gq 的距离, 则
, m ,它不受量纲的影响.
4.如果各性状的值只取 0 和 1 时,样品各值可列成列联表 变量 j 变量 i 0 1 Σ 则有 (1)夹角余弦 Cij cos ij (2)相关系数 Cij rij
ad (a b)(c d )(a c)(b d )
0 a c a+c
2 2 Dpq dx p xq
其中 X p , X q 分别表示 G p 与 G q 的重心. 递推公式:
2 Dkr
np nr
2 Dkp
nq nr
2 Dkq
n p nq n
2 r
2 Dpq
(9)
其中 n p , nq 和 nr 分别表示 G p , G q 和 Gr 的样品数, nr n p nq ,后同. 五、类平均法 距离定义(两类之间的平均距离) :
yij
其中
xij min{xij }
1 i n
Rj
1i n 1i n
R j max{ xij } min{ xij }
特 点 : 数 据 { yij } 中 每 一 列 变 量 的 极 差 为 1 , 消 除 了 量 纲 的 干 扰 , 且
0 yij 1, i 1,, n, j 1,, m.
Drk min{dij } min{min dij , min dij } min{ Dpk , Dqk },
iGr jGk iG p jGk iGq jGk
(2)
并将 D( 0 ) 中的第 p, q 行及第 p, q 列上的元素按步骤 2 合并成一个新类, 记为 G r . 对应新行, 新列得到的矩阵记为 D(1) . 4.对 D(1) 重复上述 2,3 的作法,得到 D( 2 ) . 5.如此下去直到所有元素并为一类为止. 如果某一步 D( k ) 里的最小非零元素不止一个时,则对应于这些最小元素的类可以同时 合并. 二、最长距离法 最长距离法规定类与类之间的距离用两类之间的最长距离来表示,即
(12)
这时叫做可变类平均法. 六、离差平方和(Ward)法 该法的基本思想是源于方差分析,如果类分得好,应当同类样品的离差平方和较小, 类与类之间的偏差平方和较大. 设将 n 个样品分成 k 类 G1 ,
, Gk ,用 X t(i ) (是 m 维向量)表示 Gt 中的第 i 个样品, nt
表示 Gt 中的样品个数, X t 是 Gt 的重心,则在 Gt 中的样品的离差平方和是
2 Dkr
(6) (7)
2 由于公式中出现的全是距离的平方,所以 D( 0 ) 的元素一律改为 d ij ,以后的每步并类中,相
2 应的矩阵一律改为 D(2 1) ,, 其中的元素改为 D pq ,下面的几种方法情况一样.在下面介绍的
第 4、第 6 种方法中,递推公式都是在样品之间的距离采用欧式距离的条件下推导的. 四、重心法 距离定义(每一类重心代表,类与类间的距离就是重心间的距离) :
t 1
2 dij 1 Cij
变量之间常借助于相似系数定义距离,如 样品之间也可用相似系数.除了上面介绍的二种外,常用的还有: 3.指数相似系数(样品间)
Cij
其中 Sk
2
1 e m k 1
m

2 3 ( xik x jk ) 2 4 Sk
1 n 1 n ( xtk xk )2 , xk xtk , k 1, n t 1 n t 1
2 Dkr
2
1 2 1 2 1 2 Dkp Dkq Dpq 2 2 4
(5)
中间距离还可以推广为更一般的情形:

1 2 1 2 1 2 Dkp Dkq Dpq ( 0) 2 2 4 1 2 2 Dk2 r ( D2k ) ( 1 可变法 ( )) p D k q D pq 2
D pq min{dij } ( p q)
iG p jG q
(1)
当 p q 时, Dpq 0 . 用最短距离法聚类的步骤如下: 1.规定样品之间的距离,计算样品两两之间的距离 dij , i, j 1,, n 得对称阵 D( 0 ) .开始 每个样品自成一类,所以 Dpq d pq. 2.选择 D( 0 ) 中最小非零元素,设为 D pq ,并将 G p 与 Gq 并类,记为 Gr {G p , Gq }. 3.计算新类 G r 与其它类 Gk (k p, q) 的距离:
yij
xij x j sj
(i 1, n, j 1,, m)
1 n ( xkj x j ) 2 n 1 k 1
其中
xj
1 n xkj , s j n k 1
特点:数据( yij )中每一列变量的平均值为零,标准差都化为 1,且与变量的量纲无关. 2.极差标准化
St ( X t(i ) X t )T ( X t(i ) X t )
i 1
ni
(13)
整个类内平方和是
S ( X t(i ) X t )T ( X t(i ) X t ) St
t 1 i 1 t 1
k
nt
k
(14)
当 k 固定时,要选择使 S 达到极小的分类,但这通常是十分困难的.Ward 法就是找局部最 优解的一个方法,其基本思想是先将 n 个样品各自成一类,然后每次缩小一类,每缩小一类 离差平方和就要增大,选择使 S 增加最小的两类合并,直至所有的样品归为一类为止.当我 们把两类合并所增加的离差平方和看成平方和距离,就有: 距离公式
2 Dpq
n p nq nr
( X p X q )T ( X p X q )
(15)
Biblioteka Baidu递推公式
nr nk 开始时, n p nq 1, nr 2 有
2 Dkr
n p nk
2 Dkp
nq nk nr nk
2 Dkq
nk 2 Dpq nr nk
(16)
Dpq max{dij }
iG p jG q
(3)
最长距离法与最短距离法的并类步骤一样, 只是类与类之间的距离定义方法不同. 设某一步 将 G p 与 Gq 合交为一类,记为 G r 与 Gk 的距离为
Drk max{dij } max{ max dij , max dij } max{ Dpk , Dqk }
2014 数学软件课程考试试题 《系统聚类分析》MATLAB 程序编写
聚类分析就是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析 法.讨论的对象是一大堆样品,要求能合理地按它们各自的特性来进行合理的分类,这里没 有任何模式可供参考或依循, 也就是说是在没有先验知识的情况下进行的. 聚类分析的基本 程序是, 首先根据一批样品的多个观测指标, 具体地找出一些能够度量样品或指标之间相似 程度的统计量,然后利用统计量将样品或指标进行归类,具体进行聚类时,由于目的、要求 不同、因而产生各种不同的聚类方法.
系统聚类法
系统聚类法的基本思想:设有 n 个样品,认为它们各自为一类,并对样品之间的距离和 类与类之间的距离做出规定.首先计算样品之间的距离,开始因每个样品自成一类,类与类 之间的距离就是样品之间的距离将距离最小的类并为一类, 这样再计算并类后的新类与它类 的距离,接着将距离最小的两类合并为一新类,这样每次减少一类,直到将 n 个样品合为一
m
dij xik x jk
k 1
2.闵可夫斯距离(Minkowski)
dij ( xik x jk )1 q
q k 1
m
当 q 2 时,为欧氏距离. 3.马氏距离
2 dij ( X i X j )T 1 ( X i X j ) ,
其中 X i 表示第 i 个样品的指标值, 为数据的协方差阵.这样的规定亦适合于指标间. 这种方法就是将每个样品看做 m 维空间的一个点,并在空间中定义距离,距离较近的 归为一类,距离较远的属于不同的类. 二、相似系数 设 Cij 表示第 i 个与第 j 个指标之间的相似系数,则 Cij 一般应满足: (1) Cij 1, i, j; (2) Cii 1, i; (3) Cij C ji , i, j.
iGr jGk iG p jGk iGq jGk
(4)
再找距离最小的两类并类,直到所有样品归为一类. 以下介绍的几种方法我们仅写出定义类与类之间距离的方法和计算新类与其它类的距 离所用的递推公式. 三、中间距离法: 递推公式( G p 和 Gq 归为 Gr , Dkr 为 Gk 到边 G p , Gq 中线的平方) :
Cij 越接近于 1,说明第 i 个与第 j 个指标关系数越密切,换句话说,关联性越接近指
标,它们的相似系数越接近于 1;彼此无关的指标它们的相似系数越接近于 0;完全相反的 指标相似系数为-1,我们把比较相似的指标归为一类,相似程度小的指标应属于不同的类, 常用的相似系数(按指标)有: 1.夹角余弦
x1
s1
x2
s2
xj
sj
xm
sm
其中 xij (i 1,, n; j 1,, m) 为第 i 个样品的第 j 个指标的观测数据. 为了将样品(或指标)进行分类,就需要研究样品(或指标)之间的关系,给出刻画 它们相似程度的统计量.常用的统计量有距离和相似系数两种,距离多用于样品的分类,相 似系数多用于指标的分类. 一、距离 设 d ij 表示第 i 与第 j 个样品之间的距离,则 d ij 一般应满足下面四条公理: (1) dij 0, i, j; (2) dii 0, i; (3) dij d ji , i, j; (4) dij dik d kj , i, j, k. 如果(1),(2),(3)满足,而(4)不满足,则称之为广义距离.常用的距离(按样 品)有 1.绝对值距离
2 Dpq
1 2 dij n p nq iG p jGq
np nr
2 Dkp
(10)
递推公式:
2 Dkr
nq nr
2 Dkq
(11)
递推公式可改写为
2 Dkr
np nr
2 (1 ) Dkp
nq nr
2 2 (1 ) Dkq Dpq
( 1)