灰色聚类分析讲义
- 格式:ppt
- 大小:809.00 KB
- 文档页数:42
2.1系统分析法简单实例已知某样本如下表2.1所示要求对该样本进行系统聚类分析,到样本被分为三类为止。
表2.11X 2X 3X 4X5X 6X 1a 0 1 3 1 3 4 2a 3 3 3 1 2 1 3a1 0 0 0 1 1 4a2 1 0 2 2 1 5a11按照步骤对样本进行系统聚类分析如下: 1.把每个样品看做一类,表示为:()}{101X G =,()}{202X G =,()}{303X G =,()}{404X G =,()}{505X G =,()}{606X G =计算各类之间的距离系数,常见的计算方法有以下三种: (1)欧几里得距离,(,))i j d x x =(2)海明距离,1(,)mi j i k j kk d x x x x ==-∑ (3)切比雪夫距离,1(,)mi j i k j kk d x x x x ==∨- 以海明距离为例计算各样品之间的距离,构成距离矩阵()0D ,()⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=0411814210768110135606150300D2.矩阵()0D 中最小距离为()01G 与()02G 之间的距离,大小为3.所以将他们合并为一类,得到新的分类:()()()}{020111,G G G =,()()}{0312G G =,()()}{0413G G =,()()}{0514G G =,()()}{0615G G = 对于()11G ,按最小距离准则,选取()01G 与()12G -()15G 之间及()02G 与()12G -()15G 之间两两距离的最小则,得到距离矩阵()1D ,()⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=0411********1350601D 3.矩阵()1D 中最小距离为()14G 与()15G 之间的距离,大小为4.所以将他们合并为一类,得到新的分类:()()}{1121G G =,()()}{1222G G =,()()}{1323G G =,()()()}{151424,G G G = 同理,按照最小距离准则得到距离矩阵()2D ,()⎪⎪⎪⎪⎪⎭⎫⎝⎛=0768********D 4.同理得到新分类:()()()}{232131,G G G =,()()}{2232G G =,()()}{2433G G = 得到矩阵()3D()⎪⎪⎪⎭⎫⎝⎛=0670603D 此时满足题目要求,样品被分为三类:}{421,,X X X ,}{3X ,}{65,X X。
第四章灰色聚类分析在本章中,首先介绍了灰色聚类的概念及其类型。
其次对灰色星座聚类、灰色关联聚类、灰色变权聚类和灰色定权聚类的原理和计算方法进行了阐述。
最后利用实证分析来分析灰色聚类在渔业科学中的应用。
第一节灰色聚类的概念灰色聚类是根据关联矩阵或灰数的白化权函数将一些观测指标或观测对象聚集成若干个可定义类别的方法。
一个聚类可以看作是属于同一类观测对象的集合体。
在实际问题中,每个观测对象往往具有许多个特征指标,因而难以进行准确的分类。
灰色聚类按聚类方法的不同,可分为灰色星座聚类、灰色关联聚类和灰类白化函数聚类等方法。
灰色星座聚类是根据样本自身的属性,利用相似性原理定量地确定样本之间的关系,并按这种关系进行自然聚类。
灰色关联聚类主要用于同类因素的归并,以使复杂系统得到简化。
通过灰色关联聚类,可以分析出许多因素中是否有若干个因素关系十分密切,以便我们既能够用这些因素的综合平均指标或其中的某一个因素来代表这些因素,同时又使信息不受严重损失,从而使得我们在进行大面积调研之前,通过典型抽样数据的灰色关联聚类,可以减少不必要变量(因素)的收集,以节省成本和经费。
灰类白化权函数聚类主要用于检查观测对象是否属于事先设定的不同类别,以便区别对待。
从计算工作量来看,灰类白化函数要比灰色关联聚类和星座聚类复杂。
第二节灰色星座聚类一,原理和方法星座聚类在灰色聚类中是一种比较简单易行的聚类方法。
其基本原理为:将每个样点按一定的数量关系,点在一个上半圆之中,一个样点用一颗“星点”来表示,同类的样点便组成一个“星座”,然后勾画出区分不同星座的界线,这样就可以进行分类。
实质上,它是将一个样本中的大量信息(或指标值),经过原始数据的变换(极差变换)等手段转化成为无量纲,并成为一个简单的空间坐标比较的问题。
一般情况下,星座聚类有如下步骤:(1)对原始指标值进行极差变换,并使变换后的数值均落在[0°,180°]的闭区间内。
1灰色聚类法对研究区131个村的评价指标值进行极差变换,对各指标项赋权重值(0.3,0.25,0.15,0.15,0.15),按(7-2)、(7-3)式计算各村的直角坐标,将131个样点的坐标点绘在星座图上,见图7.9。
图中各点可明显地分为三类,结合煤矿废弃地区的实际情况,将三个区域分别命名为生态建设区、生态维护区、生态保持区。
1M i i j j j Z W ==ϕ∑ (7-4)式中:i Z -综合指标值;j W -指标权数。
根据式(7-4)计算各个样点的综合指标值,然后对所有样点排序,检验聚类结果 对门头沟煤矿废弃地131个样点按公式(7-4)计算综合指标并排序。
排序检验结果表明,聚类结果比较客观地反映了门头沟煤矿废弃地区的生态破坏情况和社会经济发展的区域差异。
由于生态修复功能分区的划分更侧重于生态破坏因素,经参照废弃地区的行政区划图和参考专家意见后,为便于今后治理和生态治理技术的实施,将部分样点进行了简单调整,最后得到研究区生态修复功能区划,资源枯竭矿区生态修复功能区划的目的是合理确定区域生态修复的优先度和主要修复方向。
分区的方法有定性和定量两类。
定性方法主要是图件主导叠置法,即将生态环境破坏程度、社会经济发展现状等图件以主导分析因素为原则,进行综合分析,确定分区界线。
定量方法主要是各种聚类分析方法,多因子综合压力模型等。
根据土地利用总体规划的周期和居民点现状的特点,确定其农村居民点整理分近期、中期和远期三阶段进行,每个阶段大约持续 5 年。
一个问题是:必须对理论结果进行检验,以此验证理论方法的科学性和可操作性。
在你的国内外研究现状里要对王琳霖的博士论文里确定时序的方法和土地复垦方案中确定时序的方法及其不足进行分析,你的确定时序的方法跟人家比有什么好的,别人做过了,你为什么又做等等,。
5.2 灰色变权聚类定义 5.2.1 设有n 个聚类对象,m 个聚类指标,s 个不同灰类,根据第),2,1(n i i =个对象关于),2,1(m j j =指标的观测值),2,1,,2,1(m j n i x ij ==将第i 个对象归入第}),,,2,1{(s k k ∈个灰类,称为灰色聚类.定义5.2.2 将n 个对象关于指标j 的取值相应地分为s 个灰类,我们称之为j 指标子类.j 指标k 子类的白化权函数记为)(∙k j f .定义5.2.3 设j 指标k 子类的白化权函数)(∙k j f 为如图5.2.1所示的典型白化权函数,则称),1(kj x ),2(kj x ),3(kj x )4(kj x 为)(∙k j f 的转折点。
典型白化权函数记为:),1([k j k j x f ),2(k j x ),3(k j x )]4(kj x图5.2.1 图5.2.2定义5.2.41 若白化权函数)(∙k j f 无第一和第二个转折点),1(k j x ),2(kj x 即如图5.2.2所示,则称)(∙kj f 为下限测度白化权函数,记为,[-kjf,-),3(k j x )]4(kj x .2 若白化权函数)(∙k j f 第二和第三个转折点),2(k j x (3)kj x 重合,即如图5.2.3所示,则称)(∙kj f 为适中测度白化权函数,记为),1([k j kj x f),2(k j x ,-)]4(kj x .3 若白化权函数)(∙k j f 无第三和第四个转折点),3(k j x ),4(kj x 即如图5.2.4所示,则称)(∙kj f 为上限测度白化权函数,记为),1([k j k j x f ),2(kj x ,-]-.图5.2.3 图5.2.4 命题5.2.1 1对于图5.2.1所示的典型白化权函数,有) (x f kj =0[(1),(4)](1)[(1),(2)](2)(1)1[(2),(3)](4)[(3),(4)](4)(3)k kj jkj k kj jk kj jk kj jkj k kj jk kj jx x xx xx x xx xx x xx xx x xx x⎧∉⎪-⎪∈⎪-⎪⎨∈⎪⎪-⎪∈⎪-⎩(5.2.1)2对于图5.2.2所示的下限测度白化权函数,有) (x f kj =0[0,(4)]1[0,(3)](4)[(3),(4)](4)(3)kjkjkj k kj jk kj jx xx xx xx x xx x⎧∉⎪⎪⎪∈⎨⎪-⎪∈⎪-⎩(5.2.2)3对于图5.2.3所示的适中测度白化权函数,有) (x f kj =0[(1),(4)](1)[(1),(2)](2)(1)(4)[(2),(4)](4)(2)k kj jkj k kj jk kj jkj k kj jk kj jx x xx xx x xx xx xx x xx x⎧∉⎪-⎪∈⎪-⎪⎨⎪⎪-⎪∈-⎪⎩(5.2.3)4对于图5.2.4所示的上限测度白化权函数,有⎪⎪⎩⎪⎪⎨⎧≥∈--<=)2( , 1 )]2(),1([ , )1()2()1()1( x , 0)(kj kj k j kj k j kj k j k j x x x x x x x x x x x f (5.2.4) 定义5.2.51 对于图5.2.1所示的j 指标k 子类白化权函数,令))3()2((21kj k j k j x x +=λ;2 对于图5.2.2所示的j 指标k 子类白化权函数,令))3(k j k j x =λ;3 对于图5.2.3和图5.2.4所示的j 指标k 子类白化权函数,令)2(k j k j x =λ;则称k j λ为j 指标k 子类临界值.定义5.2.6 设k j λ为j 指标k 子类临界值,则称∑==mj kjk jk j 1λλη为j 指标k 子类的权.定义 5.2.7 设ij x 为对象i 关于指标j 的观测值,)(∙kj f 为j 指标k 子类白化权函数.k j η为j 指标k 子类的权,则称∑=⋅=mj ij k j kix f 1)(σk j η为对象i 关于k 灰类的灰色变权聚类系数.定义5.2.81称 ==),,,(21s i iii σσσσ ( ∑=⋅mj ij j x f11)(1j η,∑=⋅mj ij j x f12)(2j η,…,∑=⋅mj ij s j x f1)(s j η)为对象i 的聚类系数向量.2 称∑=)(ki σ=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡s n nn s s σσσσσσσσσ212221212111为聚类系数矩阵.定义5.2.9 设=≤≤}{max 1ki sk σ*k i σ,则称对象i 属于灰类*k .灰色变权聚类适用于指标的意义、量纲皆相同的情形,当聚类指标的意义、量纲不同且不同指标的样本值在数量上悬殊较大时,不宜采用灰色变权聚类.例 5.2.1 设有三个经济区,三个聚类指标分别为种植业收入、畜牧业收入、工副业收入。
灰色聚类分析过程:首先将七种配方的浆纱记为聚类对象,如表2-12所示。
表中的四项指标记为聚类指标,将综合性能分为好、中、差三种,记为k 1、k 2、k 3三个灰类,聚类过程如下:(1) 将表2-12中的数据按式(2-1)进行均值化无量纲处理,得到聚类白化数矩阵[]m n X ij ⨯其中n 为聚类对象数,m 为聚类指标数;(2) 将n 个对象关于聚类指标j (j=1, 2,……,m )的取值相应地分为s 个灰类(s=k 1、k 2、k 3 ),称为j 指标子类;∑=λ=n1i kjij ij n1d X (2-1)(3) 根据灰类的定义规定j 指标k 子类的白化权函数,根据白化权函数,定义λjk 为j 指标k 子类临界值,并按式(2-2)计算j 指标k 子类的权kj η;∑=λλ=ηm1jkjkjkj (2-2)(4)对于白化权函数矩阵,根据白化权函数和权值,按式(2-3)i 对象属于k 灰类的灰色聚类函数k iσ()η⋅=σ∑=k jijm1j k ijk ix f (2-3)计算聚类系数矩阵()ns k i σ,根据聚类系数矩阵评价对象i 所属的灰类。
2.5.2.10 灰色聚类结果与分析根据公式(2—1)得均一化值为:⎪⎪⎪⎪⎭⎪⎪⎪⎪⎬⎫⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧=9336.00228.16628.01895.19544.01986.16839.01075.11302.11187.12672.18680.00737.11347.12310.11075.11930.11027.13056.19446.00225.15274.01968.17469.06927.08950.06528.00360.1ijX根据公式(2-2)得权的值为:⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧=2531.02500.02475.02452.02500.02540.02460.02500.02533.02557.02500.02453.0kjη对所测数据进行灰色聚类分析,计算得到聚类系数⎪⎪⎪⎪⎭⎪⎪⎪⎪⎬⎫⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧=2434.03722.03300.02247.02337.05262.01792.01239.08017.002137.09252.00819.02494.08112.03203.02290.03292.04148.03315.00695.0kiσ对于k i σ择取最大值者为聚类灰数,上面列出七种绷带的聚类系数值,最大值为下划线所示值。