聚类分析和判别分析

  • 格式:doc
  • 大小:722.50 KB
  • 文档页数:11

下载文档原格式

  / 11
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章地理系统的聚类分析与判别分析

6.1地理系统的聚类分析

6.1.1地理系统分类的意义和作用

地理系统是一种多要素、多类型、多种区域组合在一起的、具有特殊结构与功能的综合体。因此对地理系统的研究很重要的一个问题就是要进行地理分区与分类。可是,由于地理系统的复杂性,使地理学长期不能定量的、客观的、科学的分类。随着生产技术、数学、计算机和相关科学定量分类法的发展,地理学的分类已从传统的、主要靠经验和定性的知识进行分类而转向应用数学的方法和计算机进行定量分类。这种分类法,有人称为“数值分类法”或“数量分类法”,亦称“聚类分析”。

聚类分析法是新近发展起来的一门多元统计分类法,它可避免传统分类法的主观性和任意性的缺点。但应指出,如对地理数据处理不当,或一味地追求方法的新颖,有时分类的结果可能与地理实际不相符合,这一点应特别引起注意。一种科学的分类法,应能正确地反映客观地理事物的内在联系,并能表达出它们之间的相似性和差异性。聚类分析是根据地理变量(或指标或样品)的属性或特征的相似性、亲疏程度,用数学的方法把它们逐步地分型划类,最后得到一个能反映个体或站点之间、群体之间亲疏关系的分类系统。在这种分类系统中,首先我们要根据一批地理数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度较大的站点(或样品)首先聚合为一类,而把另一些相似程度较小的站点(或样品)聚合为另一类,……。这样,关系密切的站点(或样品)便聚合到一小类,而关系疏远的站点(样品)则聚合到一大类,直到把所有的站点(或样品)都聚合完毕,最后便可根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。聚类分析法的基本特点是:事先无需知道分类对象的分类结构,而只需要一批地理数据;然后选好分类统计量,并按一定的方法步骤进行计算;最后便能自然、客观地得出一张完整的分类系统图。

近年来,聚类分析法在我国已得了广泛的应用,在地理学界中关于聚类分析的文章也日益增加。

6.1.2 聚类分析的数据处理

聚类分析是根据各变量的观测值予以分类的,它涉及到通过各种途径和手段所得到的有意义的地理数据。由于要素(或指标)的量纲、数量级和数量变化幅度的差异,如用原始数据进行聚类分析,就会将不同性质、不同量纲、不同数量变化幅度的数值都统计在一起,这样就有可能突出某些数量级特别大的变量对分类的作用,而压低甚至排除了某些数量级很小的变量对分类的作用。为避免这些弊病,而有利于分析、对比和使分类清晰,常对原始地理数据进行适当和必要的处理或变换;就可以消除量纲的不同和使每一变量都统一在某种共同的、相对均匀化的数值范围内。为此,常对数据进行标准化处理,现分述如下:

1.地理数据的对数变换

在对地理数据进行标准化之前,应先对数据进行对数变换。设有n个地点、地区(或样品),每个地点、地区(或样品)又有m个指标(或变量),用

x表示第i个地点(或地区)的第j个指标值,常列

ij

成表6-1形式。例如,我国新疆地区6个地点的数据,列于表6-2,这些数据经自然对数变换后,数据变幅减小且较均匀。为消除量纲不同,应进一步对数据进行标准化处理。处理后数据其分布特征更加明显。

表6-2 数据变换表

2.地理数据的标准化

数据标准化方法较多,现仅介绍两种常用方法,标准差标准化和极差标准化。

(1)标准差标准化

所谓标准差标准化,就是把变换后的数据)(ij x 减去其均值)(j x ,再除以其标准差)(j S ,即

)

,,2,1;,,2,1(m j n j S x x x j

j

ij ij

==-='

这样变换后的数据,均值为0,方差为1,且与指标的量纲无关。前

例变换后数据,见表6-2。

(2)极差标准化

所谓极差标准化,就是系列中的任一变量)(ij x 与其第j 列中的最小值(min)j x 之差和第j 列中的最大值(max)j x 与最小值(min)j x 之差的比值。这样变换后的变量,也叫“极差正规化”或称为数据的正规化。其计算公式为

),,2,1;,,2,1()

(min)(max)(min)

m j n i x x x x x j j j ij ij

==--='

这样变换后的新数据,其变化范围都在0到1之间,而且又消除了量纲的影响。

3.聚类分析的统计量

聚类分析统计量可分两大类,即相似系数和距离系数。 (1)相似系数

相似系数是描述地理数据之间相似程度的一种指标。 1)夹角余弦(cos θ)

设有n 个地点,每个地点有m 个特征值,如把每个地点的特征值看作是多维空间的一个向量,则两个地点之间的相似程度可用两个向量间夹角的余弦来表示,即 ∑∑∑===⋅

⋅=

m

k jk

m

k ik

m

k jk

ik

ij x

x

x x

1

21

21

cos θ (6-3)

式中,i 和j 代表两个地点(或两个样品),k x 表示第k 个特征值或指标。ij θcos 也叫相似系数。如把两两地点之间的相似系数都计算出来,便可排成一个相似系数矩陈阵θ:

⎥⎥⎦

⎤⎢

⎢⎢

⎢⎣⎡=nn n n n n θθθθθθ

θθθθcos cos cos cos cos cos cos cos cos 2

1

22221

11211

(6-4) 这一方阵是实对称矩阵,其主对角线元素为1,因此只须计算出

上三角阵或下三角阵即可。依此便可进行聚类。ij θcos 的取值范围在—1到+1之间,其值越大,越相似,归为一类;其余可归展于另一些类别。

2)相关系数(γ)

为了衡量要素(变量)或指标之间的亲疏关系,常用相关系数(ij γ)作为分类统计量,其计算公式为:

2

1

1

21

)()()

)((j jk n

k n

k i ik

n

k j jk i ik

ij x x x x

x x x x

r -⋅---=

∑∑∑=== (6-5)

在数据标准化后,相关系数可简化成

∑=⋅=n

k jk ik ij x x n r 1

1 (6-6)

式中,i 和j 代表两个变量,k x 代表第k 样品。由(6-5)或(6-6)式计算出来的任意两两变量(指标)间的相关系数,可构成一个相关阵(R )

R=⎥

⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡mm m m m m r r r r r r r r r 21

22221

112

11 (6-7) 这一方阵,也是实对称阵,因此只需计算出上三角阵或下三角阵即可。

(2)距离系数(简称距离)

假设把我们研究的对象(地点或样品)视为m 维空间的点,所谓距离,就是用各种方法计算出各点间的相互距离ij d ,并以它来刻划各点间的相似性或亲疏程度。计算距离系数的方法有多种,下面介绍两种常用的方法: