第二章 数据的处理

  • 格式:doc
  • 大小:62.00 KB
  • 文档页数:7

下载文档原格式

  / 7
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第二章数据的处理

数据是数量生态学的基础,我们对数据的类型和特点应该有所了解。在数量分析之前,根据需要对数据进行一些预处理,也是必要的。本章将对数据的性质、特点、数据转化和标准化等做简要介绍。

第一节数据的类型

根据不同的标准,数据可以分成不同的类型。下面我们将介绍数据的基本类型,它是从数学的角度,根据数据的性质来划分的;然后叙述生态学数据,它是根据生态意义而定义的,不同的数据含有不同的生态信息。

一、数据的基本类型

1、名称属性数据

有的属性虽然也可以用数值表示,但是数值只代表属性的不同状态,并不代表其量值,这种数据称为名称属性数据,比如5个土壤类型可以用1、2、3、4、5表示。这类数据在数量分析中各状态的地位是等同的,而且状态之间没有顺序性,根据状态的数目,名称属性数据可分成两类:二元数据和无序多状态数据。

(1)二元数据:是具有两个状态的名称属性数据。如植物种在样方中存在与否,雌、雄同株的植物是雌还是雄,植物具刺与否等等,这种数据往往决定于某种性质的有无,因此也叫定性数据(qualitative data)。对二元数据一般用1和0两个数码表示,1表示某性质的存在,而0表示不存在。

(2)无序多状态数据:是指含有两个以上状态的名称属性数据。比如4个土壤母质的类型,它可以用数字表示为2、1、4、3,同时这种数据不能反映状态之间在量上的差异,只能表明状态不同,或者说类型不同。比如不能说1与4之差在量上是1与2之差的3倍,这种数据在数量分析中用得很少,在分析结果表示上有时使用。

2.顺序性数据

这类数据也是包含多个状态,不同的是各状态有大小顺序,也就是它一定程度上反映量的大小,比如将植物种覆盖度划为5级,1=0~20%,2=21%~40%,3=41%~60%,4=61%~80%,5=81%~100%。这里1~5个状态有顺序性,而且表示盖度的大小关系。比如5级的盖度就是明显大于1级的盖度,但是各级之间的差异又是不等的,比如盖度值分别为80%和81%的两个种,盖度仅差1%,但属于两个等级4和5;而另外两个盖度值分别为41%和60%,相差19%,但属于同一等级。顺序性数据作为数量数据的简化结果在植被研究中有着较广泛的应用,但在数量分析中,这种数据所提供的信息显然不如数量数据。因此,使用并不十分普遍。

3、数量属性数据

数量属性数据简称为数量数据(quantitative data),它是实际测得的属性数值。这些值可以是连续的数值,称为连续数据(continuous data),也可以是不连续的枚举数值,叫做离散数据(discrete data)。前者可以是任何数值(包括小数部分),比如植物的高度,可能是5m,也可能是5.21m;而后者只包括0和正整数,比如植物个体的数目,可以是1、5或20等数目,但不能是5.2。连续数据和离散数据一般在数量分析中等同对待,二者也很容易相互转化。

二、不同类型数据间的转化

数据类型转化是指由一个数据类型按照某些规则转变成另一数据类型。理论上讲,上面讲的各种数据类型之间都可以相互转化,但是,有的数据类型在转化成其它类型上有较大的困难,比如多状态数据转化成数量数据,在植被数量分析中一般很少涉及这样的转化。对于数量数据的转化用得较多。因为数量数据类型转化成二元数据,在某些分析中具有优越性,转化成多状态数据类型在某些分析结果的表示上具有重要意义。比如要在排序图上表示植物的盖度变化趋势,一般用多状态数据较佳,而数量数据由于数字多,在图上表示较为困难,因此,我们简单介绍数量数据的转化。

数量数据转化成二元数据比较容易,一般选一阈值,大于或等于该阈值的值记为1,小于该阈值的值记为0,就变成了二元数据,这种转化显然损失不少信息,所以只有对一些特殊的只能使用二元数据而不能使用数量数据的分析方法才进行这样的转化。

数量数据转化为多状态数据一般要求在其取值范围内适当分成若干等级即可。比如土壤PH测量值,我们规定1=3.5~4.5,2=4.6~5.5,3=5.6~6.5,4=6.6~7.5,然后将PH数量值换成相应的等级值1~4,就变成了有序多状态数据,至于两级之间的间距多大,应该分为多少等级诸类问题,应该从生态学的角度考虑,而不是数学问题。

三、生态数据

生态数据(ecological data)以反映生态信息的属性为测量指标而测得的数据。它有很多类型,这里仅考虑植物群落生态数据。它是植被数量分析的基础。群落生态数据有两大类型。一类是反映群落组成、结构关系的植物区系组成数据;另一类是群落的环境组成数据,包括各种环境因子的测量指标。区系组成数据是反映群落成员特征的一些定量和定性的属性数据,即数量数据和二元数据。

1、数量数据

数量生态数据是以描述群落及其成员数量特征为指标而测得的数据,比如多度数据,盖度数据、频度数据、生物量数据等等,这些数据的含义和测定请参考群落数量特征一章。

2、二元数据

一个种是否存在于一个样方中,存在记为1,不存在记为0,就构成了二元生态数据,这种二元数据有着重要的生态意义,因为种出现与否与环境密切相关。种存在与否的二元数据在数量分析中用的也非常广泛,有些分析方法只适合分析二元数据,比如关联分析。另外,一些研究表明,对某些数量方法,使用二元数据可以获得与数量数据一致的结果,这样二元数据就显示出了优越性。因为,二元数据的获得要比数量数据容易得多(阳含熙等1985, 张金屯 1995)。

3、环境数据

环境因子数据有的可以在野外直接测得,比如海拔高度、坡度、坡向、土壤PH 值等。有的则要在实验室通过分析获得,比如土壤水分、土壤营养成分、有机质含量等,这些数据的测量和分析可以从有关的书中找到,这里不再讲述。

4、数据矩阵

生态数据一般是在N 个样方中调查P 个属性的定量或定性指标,因此,可以用一个P ×N 维的矩阵表示,矩阵的列代表N 个样方(实体)行代表P 个种或环境因子(属性),这样的矩阵叫做原始数据矩阵,简称数据矩阵(data matrix )。如果用X 表示数据矩阵,它可表示为:

N

j P i x x x x x x x x x x x x x X PN p p p N N ij ,2,1;21}{32122322211131211==⎪⎪⎭⎪⎪⎬⎫⎪⎪

⎩⎪⎪⎨⎧==,,, (2.1)

其中x ij 表示第i 个种或环境因子在第j 个样方中的观测值,它可以是上面介绍的任何一种生态数据,矩阵每一行称为一个行向量(row vector )或属性向量(attribute vector );一列叫做一个列向量(column vector )或实体向量(entity vector ),共有P 个行向量,N 个列向量,如果在N 个样方中仅记录一个种的数量值,则数据矩阵就是一个行向量,可以认为是矩阵的特殊形式。

第二节 数据的处理

数据处理是指进行数量分析之前对原始数据先进行简缩、转化和标准化的过程。这些处理过程一般是从生态学意义出发。数据简缩(data reduction )是在不损失生态信息或损失非常少的前提下,去掉一些数据,以简化计算分析过程;数据转化(data transformation )是通过某一运算规则将原始数据转化为新的数据值的过程,而其新值的大小只与被转换的原始数据本身和运算规则有关,而与原始数据集合中的其它