当前位置：文档之家› (完整word版)空间数据分析模型

(完整word版)空间数据分析模型

第7 章空间数据分析模型

7.1 空间数据

按照空间数据的维数划分，空间数据有四种基本类型：点数据、线数据、面数据和体数据。

点是零维的。从理论上讲，点数据可以是以单独地物目标的抽象表达，也可以是地理单元的抽象表达。这类点数据种类很多，如水深点、高程点、道路交叉点、一座城市、一个区域。

线数据是一维的。某些地物可能具有一定宽度，例如道路或河流，但其路线和相对长度是主要特征，也可以把它抽象为线。其他的

线数据，有不可见的行政区划界，水陆分界的岸线，或物质运输或思想传播的路线等。

面数据是二维的，指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等，均属于面数据之列。

真实的地物通常是三维的，体数据更能表现出地理实体的特征。一般而言，体数据被想象为从某一基准展开的向上下延伸的数，如相对于海水面的陆地或水域。在理论上，体数据可以是相当抽象的，如地理上的密度系指单位面积上某种现象的许多单元分布。

在实际工作中常常根据研究的需要，将同一数据置于不同类别中。例如，北京市可以看作一个点（区别于天津），或者看作一个面

（特殊行政区，区别于相邻地区），或者看作包括了人口的“体”。

7.2 空间数据分析

空间数据分析涉及到空间数据的各个方面，与此有关的内容至少包括四个领域。

1）空间数据处理。空间数据处理的概念常出现在地理信息系统中，通常指的是空间分析。就涉及的内容而言，空间数据处理更多的偏重于空间位置及其关系的分析和管理。

2）空间数据分析。空间数据分析是描述性和探索性的，通过对大量的复杂数据的处理来实现。在各种空间分析中，空间数据分析是

重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。

3）空间统计分析。使用统计方法解释空间数据，分析数据在统计上是否是“典型”的，或“期望”的。与统计学类似，空间统计分析与空间数据分析的内容往往是交叉的。

4）空间模型。空间模型涉及到模型构建和空间预测。在人文地理中，模型用来预测不同地方的人流和物流，以便进行区位的优化。在自然地理学中，模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。

7.3 空间数据分析的一些基本问题

空间数据不仅有其空间的定位特性，而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域

单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设，大多都要求“样本是随机的”，但空间数据可能不一定能满足有关假设，因此，空间数据的分析就有其特殊性（David,2003 ）。

7.3.1 空间自相关

空间自相关是空间位置上越靠近，事物或现象就越相似，即事物或现象具有对空间位置的依赖关系。如气温、湿度等的空间分布均

体现了与海陆距离、海拔高程等的相关性。如果没有空间自相关，地理事物或地理现象的分布将是随意的，地理学中的空间分异规律就

不能体现出来。空间自相关性使得传统的统计学方法不能直接用于分析地理现象的空间特征。因为传统的统计学方法的基本假设就是独立性和随机性。为了分析具有空间自相关性的地理现象，需要对传统的统计学方法进行改进与发展，空间统计学就应运而生了。

如果我们想确定某个位置测定的属性值是否合适，自相关分析将帮助我们记述已知的观测位置在多大程度上是有用的。自相关有三

种：正自相关，负自相关和无相关(零自相关)。正自相关是最常见的，指的是附近的观察值很可能是彼此相似的；负自相关较少见，指的是附近的观察值很可能是彼此不同的；零自相关指的是无法辨别空间效应，观察值在空间上似乎是随机变化的。区分这三种自相关是统计方法正确应用的前提。

7.3.2 可变区域单位问题

空间数据处理中存在的一个重要问题是空间范围对空间分析的影响。大区域的数据可能来自小区域详细数据的统计汇总。以国家级人口普查数据的统计汇总为例，人口调查以户为单位进行，而产生的人口调查报告中的数据则是不同区域层次人口数据汇总统计的结果。汇总单位与所研究的现象没有任何关系，但是汇总单位影响着由基层单位产生的统计结果。

统计汇总的区域层次不同，统计结果间的关系也就不同，这就产生了可变区域单位问题( modifiable areal unit problem ，MAUP)

如果在特定的研究中指定了不同的空间单位，观察到的格局和关系可能有很大的差异。这个问题可以参考图7.1 。图中使用了横向和纵向两种不同的汇总方法，形成了两种不同的回归分析结果，由此说明汇总单位对回归方程和确定系数的影响是很明显，回归关系通过汇总得到了加强。事实上，利用同样的数据通过不同的汇总方式可以使得相关系数在-1 和1 之间任意变化。

由汇总单位产生的影响有两个。第一个影响与分析的空间范围和汇总效应有关。汇总之后的平均值更接近于回归线，使得散点图的结果更接近于线性，导致相关系数增加。一般通过汇总往往产生更好的拟合结果。第二个影响是不同汇总方法得到的结果实质上是不同

目变量因变疑

图7.1可变区域单位问题

733 生态学谬误

可变区域单位问题与更一般的统计问题一一生态学谬误相联系。当特定汇总层次的观察值之间的统计关系假定可以接受，的层次接受同样关系的时候，就产生了这个问题。例如，在国家这个层次上，我们可能看到收入和犯罪之间有强烈的关系，即低收入往往伴随着

高犯罪。但是，如果我们据此认为低收入的人更可能干坏事，那就犯了生态学谬误的错误。事实上，对于这样的数据，有效的精确的说法是：低收入国家倾向于经历较高的犯罪。是什么导致了这些观察到的现象，可能有很大的差异：有可能是低收入地区治安很差，夜贼很多；或者是这些地区的人经常酗酒；或者根本就与收入没有关系。重要的是，高层次汇总数据中出现的关系应该在底层汇总数据中重现并得到解释。

这个问题很普遍。如果你关注新闻，在每天的日常生活或媒体中都可以发现生态学谬误。犯罪率和死刑，枪支控制与关押率，车祸与车速限制等。不幸的是，生态学谬误在学术界也不少见。这个问题经常发生，其根本的原因可能是为了简化解释。事实上，特别在人文地理中，事情很少这么简单。生态学谬误和可变区域单位问题都要注意的是：统计关系会随着汇总层次而发生变化。

7.3.4 空间尺度 87 95 T2 37 44

24 To 55 55 38 8B 34 41 30 26 严 36 2.4 14 56 37 34 尙 ■佬 49 44 51 67 17 137 曲 25 3S 32 59 54 72 75 05 29

30 SO 舶 46 34 23 21 22 斗弓 [45 14| 7胡 zr

$ 酌 33 4 了 [52 22 5B 40 461 38 35 55

91 54.5

34 47,5 1 亦 61 31

35 35?5 13

46.5 &9 27 40 | 32.5 ( 56.5 73.5 57 44 f 55 47.5 53.5 33.5 赵眇B 27.5 W5 1B.5

「52 35

45 0.6736* + 13 59

即=C &151 旳

i g

出

■

iijfi E

1" CM CM CN kC3

UT-

0 UD tn

/=0.9G57x* 1.257 . .R 2= C BB9&

然后在更细

进行空间分析时，必须考虑空间尺度问题。不同对象的表现需要的不同尺度，例如，在大陆尺度，城市用点来表示。在区域尺度，

城市用面来表示。在局部尺度，城市成为复杂的点、线、面和网络的集合体。研究对象的空间尺度影响空间分析。因此，应当选定正确的或合适的空间尺度。

7.3.5 空间非均一性和边界效应

区分空间分析与传统统计分析的重要标志是空间的不均一性。例如，搜集到城区犯罪位置的数据，并用点在地图上标绘出来，就能

可视化地表示犯罪的空间分布规律。在居住区和工作密集的地方，犯罪会有明显的聚集性，在公园或道路的交叉口，可能会出现空缺。

这些聚集或空缺只是城市内部不均一性的一个结果。类似的问题是考虑疾病发生率的时候，必须考虑从事高风险工作的人所在的位置。目前，处理这些问题的方法还很少。

边界效应是不均一问题的一个特殊类型。边界效应问题是指在研究区的中心位置，各个方向上的观察值相接近；在研究区的边界，

只有研究区内的观察值才是相接近的。因此，确定适当的边界才可能反映数据的真实性。

7.4空间数据的关系

空间数据中蕴涵了丰富的信息，本章仅考虑空间数据的位置属性所能提供的信息。

重要的空间概念是：距离(distance )、邻接(adjacency )和交互(interaction )，与此密切相关的术语是近邻( neighborhood )。在空间数据分析中，我们不仅对属性数据的均值、方差等进行分析，也对空间上相联系的实体的分布进行分析。空间分布指的是空间实

体之间的关系，可以通过距离、邻接和交互分析，获得对空间关系的认识。

7.4.1 距离

在空间数据中，距离是空间实体间的直线距离或球面距离。空间数据中的距离不同于数学上的距离(数学上的距离值两个变量/样本之间的距离，参阅模糊数学一章)。在小的地区(小尺度的研究)，可以忽略地球曲率的影响，通常使用欧氏距离。对于空间上的两个点i，j，其坐标分别为(X i, y i)，(X j, y j)，那么两点之间的直线距离为：

吗=J(船—幻尸-旳y

在较大的区域(大尺度研究)，距离的计算要考虑地球的曲率。

除了直线距离外，实际应用中也可按照道路、铁路、河流或路网来计算距离；也可按照消耗的时间来计算距离。

742 邻接

邻接可以认为是名义的、双向的相等的距离。两个空间实体，或者相邻或者不相邻，没有中间状态。确定相邻有多种方式。最简单的确定方式是，如果两个实体在指定的空间距离内，那么它们是相邻的，否则不相邻。类似的，对于任一实体，确定出与其最相邻的其他实体。我们也可以认为只有最邻近的实体才是相邻的。

与距离一样，对邻接的概念也可以进行扩展。邻接的实体不一定是相近的。例如，就机场而言，在考虑上海、北京和莫斯科机场的邻接关系时，可以认为上海机场与北京机场、北京机场与莫斯科机场是邻接的，但上海机场与莫斯科机场则不邻接的。

邻接的概念主要应用在空间自相关分析、空间插值和网络分析中。

743 交互

交互可以认为是距离和邻接的综合，它来自于一个基本的想法：近处的事物关系更密切。从数学上讲，可将两个空间实体之间的交

互度表示为0 （无交互）和1 （高度交互）之间的数。邻接也可以用类似的方式来表示，因为邻接是双向的。在空间分析中，典型的交互

可用距离倒数加权来定义：

其中，w 是距离为d 的两个实体i ，j 之间的交互权重。k 控制着权重的变化率。距离越近，权重越大，交互越强。通用的交互计算中使用两

个实体的属性值，例如人口的引力公式为：

其中，P j 是i ，j 两地的人口数量。

此外，也可以在公式中加入面积来定义两个区域单位间的交互。

除了空间距离外，也可以使用其它的距离定义。例如，可以使用两个国家的贸易量来定义交互程度。

744 近邻

近邻有多种表达方式。例如，特定空间实体的近邻是与该实体邻接的其他空间实体的集合，此时，近邻依赖于邻接的定义。此外，

可以不考虑邻接性，将近邻定义为空间上相联系的区域，此时则需要使用距离的概念。近邻的概念经常被使用，主要是由于空间分布上

邻近的区域更为相似。这是一种内部相似，不同于周边区域。例如，考虑海拔高度，山是一种近邻，其周围的海拔都较高。图

步揭示了这四个概念。左上角的图指明了研究区内 A 到其它点的距离。一般而言，总是可以确定两点之间的距离。在右上角的图中,

7.2 进一

照距离指明了与A邻接的两点E和F。这种邻接可以通过多种方法来定义。例如，以50米内为邻接的距离。注意，这种定义意味着D没有邻接的对象。我们也可以定义最近的对象是邻接对象，这可以保证所有的对象都有两个邻接对象，虽然它同时意味着邻接不再是对称

关系。例如，此时，D与E邻接（最近的是C和巳，但E并不邻接D （与E最近的是A）。在左下角的图中，使用线宽指明A与其它对象的交互作用强度。这里，交互是距离的倒数，所以A与E交互作用强。在右下角的图中，给出了对象A的两个可能的近邻，曲线内

是与A邻接的对象，包括了A，E和F。另一个可能的近邻是带阴影的多边形，该空间也接近于A。

图7.2距离、邻接、交互和近邻的概念

7.5空间自相关分析

空间自相关分析包括全程空间自相关分析和局部空间自相关分析两部分（Getis and Ord ,1996），自相关分析的结果可用来解释和

寻找存在的空间聚集性或焦点”空间自相关分析需要的空间数据类型是点或面数据，分析的对象是具有点/面分布特征的特定属性。

全程空间自相关分析用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关分析用来分析在特定的局部地点指

定的属性是否具有自相关性。具有正自相关的属性，其相邻位置值与当前位置的值具有较高的一致性。

空间自相关分析，当前常用的参数有三个，即Moran' si，GearyC和G统计量

7.5.1 Moran ' s参数

Morarf si是应用最广的一个参数，可用来进行全程空间自相关分析和局部空间自相关分析。全程空间自相关分析参数的定义是:

局部空间自相关分析参数的定义是: 其中: Moran 's

n是观察值的数目，X i是在位置i的观察值，Z i是X i的标准化形式。

。｛w j｝是对称的二项分布空间权重矩阵，在以样点i为中心、距离为d的范围内，取值为1，否则取值为0。

Moran' si值越大，表明数据正的空间相关性越强。

7.5.2 GerayC 参数

GerayC参数用来分析局部空间相关性:

作变换，C=1-C（d），C值大于0,表明正值四周为高值，小于0,则为低值，0则为无聚集特征。

7.5.3 G统计量

G统计量由Ord和Getis 1992年提出，1994年和1995年做了部分的修改，用来分析局部空间自相关性。空间统计量G i（d）定义

为

阴）=进一