第二章_原始数据的处理方法
- 格式:docx
- 大小:58.70 KB
- 文档页数:16
第二章原始数据的处理方法
原始数据的处理是数据分析中极为重要的容。在本节中,我们将介绍原始数据的来源及其特点,着重阐述原始数据初始变换的几种方法,并利用例子进行演示。
第一节原始数据的来源及其特点
原始数据一般包括反映自然资源区域特征,如海况、气象、水文、地形、地貌、动植物等;反映区域社会经济条件和生产力水平,如人口及其人口密度、捕捞劳力、海域面积、渔船数量、渔船功率以及渔业总产值、捕捞产值、养殖产值等。原始数据按其性质大体可分为(1)科学实验和观测数据;(2)社会经济统计数据;(3)生产经验数据;(4)有关部门的决策和目标数据;(5)定性资料的量化数据等。
不同的数据有不同的来源。但归纳起来,主要的来源有:(1)国家统计部门和行业部门的历年统计资料,这些多为社会经济指标;(2)有关业务部门的历年观测数据及其科学实验报告,这些多数为自然因素指标,如东海区渔业资源和环境观测数据;(3)
选择有代表性的单位或年度,进行实地典型调查所得的数据;(4)区域规划部门通过收集、调查、观察和计算积累的数据;(5)调
查访问有实践经验的劳动者、生产技术人员、科研人员以及管理人员所得的数据;(6)国家有关部门制定的发展规划、建设方案等决策数据;(7)其它方面的数据。我们将以上所获得的各种资料和数据成为原始数据。这些数据来源不同,其类型也不同。
从利用分析的角度来看,这些数据有以下几个主要特点:
(1)不同的量纲。如渔业产值为元,渔业产量为公斤,水温为摄氏度,作业时间为天,航程为海里,捕捞努力量为吨、千瓦、艘、人数,CPUE 为吨/天、吨/ 小时、吨/千瓦等。
(2)数量级大小相差悬殊,有的数字仅是小数级,有的数字大到亿万。如渔业产值以亿万元或万元计算,而劳动生产率只有几十元到几百元;渔业资源量上千万吨或几万吨等。
(3)大部分数据有一定的随机性,特别是统计或观测的时间序列或偶测值,不论是自然指标还是经济数据,都有随机变化,均有明显的摆动。
(4)大量数据具有一定的灰色度,运用上述方法收集来的数据绝大多数是区域各样点的平均值或统计值,在时间上或空间上并不是一个确切的白色参数,而是一个有上限、下限的灰色数。如某调查船进行的渔业资源和环境调查,其所得的数据只能是某一点某一时刻的数据值,但由于条件和仪器设备的限制会使数值产生误差,这一误差值的多少无法知道,因而产生了灰区。如某年某区的降水量,是该区各次实际观测纪录的平均数,由于测量方法不同和在时间计算上引起的误差等,是无法知道的。同样的问题在一些经济统计数字中也存在。因此,严格地说,收集来的数据绝大多数是灰色参数,都具有不同程度的灰色度。
第二节原始数据白化和初始变换的几种方法
一、原始数据的取值和白化
对于绝大多数灰色参数来说,需要进行白化或淡化处理,以提高白色度,减少灰色度。也就是说通过信息的不断补充,使灰色参数逐渐成为一个比较接近实际的数值。数据白化处理的方法主要有:
(1)直接采用距样点最近观测站的多年平均值。例如海水温度和盐度等,可采用多年来的观测平均值或近几天的平均值。
(2)根据各个因素指标的等值线图,利用插入法计算其数值。如表层水
温、盐度、海底地形等指标,各代表样点不完全有现成的准确观测值,可在“等水温线图” 、“等盐度图” 、“地形等高线图”上,利用插值法计算出其白化值。
(3)结合实际情况和数据特征,确定合理的数据。如反映海洋环境质量的指标有有机质、含氮量、含磷量等。在使用时,我们不可能把所有的因子都输入模型,为了计算上的方便,可以归结为一个综合指标。即用该区域最新资料,查出各样点的各项因素指标,然后用“极差变换”的方法求出变换后的数据,相加即可得到一个综合性数字。这样,可解决各因素间量纲不同和数量级大小相差悬殊的问题。
(4)对经济指标进行预测。海洋经济的分类划区应当有相对的稳定性,同时应用的综合指标又应反映海洋经济的动态特征,所以,在使用相应的指标数据时,就需要先对指标数据进行发展预测,然后根据预测值进行分类划区。预测的方法很多,常用的是灰色系统GM(1,1)模型和指数递增率模型。
(5)采用具有相同权数的相对数值。根据统计学原理,各个个体应该是等权的,但实际上各种统计对象个体不等积,不等形,也即存在着不等权问题。例如,各样点的海域面积、人口产量、产值等指标,绝对值差别很大,无疑是不等权的。如果用特定围海域比重、人口密度、单位平均产量、人均产值等相对数来表示,便可以解决各样点同项因素不等权的问题。
二、常用的几种数据变换方法
由于原始数据存在着上述特点,进行统计分析建立数学模型有一定的困难和限制,因此需要根据所建数学模型的类别,对原始数据进行变换。变换的目的主要是:(1)使指标数据尽可能呈正态分布;(2)统一变量指标间的量纲;(3)使两变量指标的非线性关系变换为线性关系;(4)用一组新的、指标数量较少的、相互独立的变量,代替一组有相互联系的原始变量指标。
不同的数学模型对指标变量的要求不同。大多数的多元统计分析,要求变量总体上服从多元正态分布,且要求量纲一致。如判别分析要求变量呈正态分布;回归分析则要求因变量呈正态分布,要求各自变量与因变量之间有密切的相关关系。而聚类分析则要求各变量量纲一致,变量间互相独立。因此,数据的变换一定要根据数学模型的要求,有的放矢地进行。
常用的变换方法主要有:
(一)标准化变换
计算公式为:
'X ij X j
X ij =
S j
(i=1,2,…,N样点数;j=1 , 2,…,P变量数)
式中:X j为变换后的数据;
X ij为原始数据;
N
X
ij
i 1
X j为第j变量的算术平均值,即X j = 丄
j j N
N(X ij X j)2
Sj为变量j的标准差,即鬥亠厂―
变换后的各变量数据平均值为0,方差为1,呈标准正态分布,