当前位置:文档之家› 基于多元统计分析的水质综合评价

基于多元统计分析的水质综合评价

第17卷第4期2006年 8月

水资源与水工程学报

Jou rnal of W ater R esou rces&W ater Engineering

V o l.17N o.4

A ug.,2006

 基于多元统计分析的水质综合评价

李传哲1,于福亮1,刘佳1,鲍卫锋2,杜子芳3

(1.中国水利水电科学研究院水资源所,北京100044;2.武汉大学水资源与水电工程科学国家重点实验室,

武汉430072;3.中国人民大学统计学院,北京100872)

摘 要:以延河为例,运用因子分析方法和聚类分析方法就各监测断面水质污染程度和污染相似性进行定量化的综合评价。提出水质污染的逐步回归分析方法,并以年水质综合污染指数为例,对其进行逐步回归分析。为合理评价延河水环境状况提供一定的科学依据。

关键词:水质污染;因子分析;聚类分析;逐步回归分析

中图分类号:X824 文献标识码:A 文章编号:16722643X(2006)0420036205

Com prehen sive eva lua tion of wa ter qua l ity ba sed on

m ultivar i a te sta tistica l ana lysis

L I Chuan-zhe1,Y U Fu-l i ang1,L IU J i a1,BAO W e i-feng2,D u Z i-fang3

(1.D ep art m ent of W ater R esou rces,Ch ina Institu te of W ater R esou rces and H y d rop o w er R esearch,B eij ing

100044,Ch ina;2.S tate K ey L aboratory of W ater R esou rces and H y d rop o w er E ng ineering S cience,W uhan

U niversity,W uhan430072,Ch ina;3.S chool of S tatistics,R enm in U niversity of Ch ina,B eij ing100872,Ch ina)

Abstract:U sing the m ethods of facto r analysis and clu ster analysis,the paper has m ade the quan2 titative analysis and com p rehen sive assess m en t fo r the po llu ting statu s in degrees and in si m ilari2 ties of m on ito ring secti on s in Yanhe R iver.A m ethod of stepw ise regressi on analysis on w ater po llu ting is discu ssed w ith exam p les of the com p rehen sive w ater po llu ting index.It can be p ro2 vided som e scien tific bases to assess the w ater environm en t situati on of Yanhe R iver.

Key words:w ater po llu ti on;facto r analysis;clu ster analysis;stepw ise regressi on analysis

0 引 言

延安市的水资源问题制约着整个城市的发展,影响着整个市区的环境景观和人民的健康。如何科学准确评价母亲河——延河的水质状况,已成为延安市环保和水利等部门的重要课题。水质评价包含两方面内容:一是水质污染相似性的分类研究;二是水质污染程度的评价。水质系统是由多种因子构成的复杂系统,水质质量受到诸多指标(污染物含量或指数)的影响,每项指标从不同角度反映水质污染状况。本文运用因子分析方法将所取断面进行水质污染程度的综合评价、分析,确定影响水质质量状况的综合因子;以聚类分析方法对各断面水质污染相似性进行研究,给出分类处理结果;应用逐步回归的数理统计方法,寻求主要污染指标与水质综合污染指数间的关系。

1 断面和指标的选取

延安市地面水常规监测的主要河流为延河。根据《水环境监测技术规范》的要求,设1号杨家湾断面、2号柳树店断面、3号点四联队断面、4号点七里村断面、5号点王家川断面,共5个断面,均为省控断面,监测河段长80km。本文选取的监测指标为悬浮物、总硬度、高锰酸盐指数、生化需氧量、非离子氨、亚硝酸盐氨、硝酸盐氨、挥发酚、砷、六价铬、石油类等11项。数据资料为2002年这5个监测断面11项监测指标的年平均值,见表1。

收稿日期:2006202215; 修稿日期:2006203216

基金项目:延安市水资源综合规划项目;全国水资源综合规划专题(01-06-02)

作者简介:李传哲(19832),男(汉族),湖北荆州人,硕士研究生,主要从事水资源合理配置、规划评价等方面的研究。

表1 2002年延河各监测断面水质监测结果统计表(综合污染指数除外)

m g L

指标悬浮物

总硬度

高锰酸

盐指数

生化需氧量

非离子氨

亚硝酸盐氨

硝酸盐氨

挥发酚

六价铬

石油类

综合污染指数

断面150.7164.32.532.00.0130.0820.360.0010.0050.0130.1897.18断面247.5141.94.126.00.1330.1340.370.0020.0080.0140.18314.65断面356.7154.94.464.40.1670.1540.360.0030.0100.0140.24717.74断面464.8175.54.204.10.0270.1700.380.0020.0120.0131.26231.01断面5

73.0

187.6

3.96

4.0

0.047

0.182

0.38

0.002

0.013

0.018

0.282

12.68

数据来源:延安市环境保护局2002年水环境保护质量报告书。

2 因子分析法在延河水质污染程度综

合评价中的应用

2.1 因子分析基本原理

因子分析(Facto r A nalysis )是主成分分析的推广,它是通过原始变量的线性组合,把多个原始指标简化为有代表意义的少数几个指标,以使原始指标能更集中、更典型地表明研究对象特征的一种统计分析方法。研究变量之间的相互关系的因子分析称为R 型因子分析,研究样品之间的相互关系的因子分析称为Q 型因子分析,本文采用研究各变量间相互关系的Q 型因子分析[1]。其基本步骤为:①设有n 个样品,每个样品观测p 个变量。为了对变量进行比较,并消除由观测量纲的差异及数量级所造成的影响,将样本观测数据进行无量纲化或标准化处理,使标准化后的变量的均值为0,方差为1。②计算变量的相关系数矩阵,求出特征值Κ,得到贡献率和累积贡献率,选取前m (m

j=1

Κj ∑p

j=1

Κj ≥85%,然后进行具体分析。随着多

元统计分析理论的逐步完善及相关软件的商品化,

越来越多的人应用统计分析技术研究水环境污染相关问题[2~8]。

本文数据分析借助SPSS fo r W indow s 软件完成[9]。2.2 计算结果

根据断面及各实测指标值(表1)建立5×11的

原始指标矩阵x =(x ij )np 。由于所选指标数据过分悬殊,为消除因此而导致的噪音影响,对原始数据进行标准化处理。根据相关矩阵可知,各因子间的相关性较好,适合用因子分析法提取综合因子。旋转前后各因子的特征值、贡献率和累积贡献率见表2。 因子分析中选取因子的两个原则:特征值大于1

的因子;因子的累积贡献率大于或等于85%,即∑

m

i =1

Κi

p

≥85%。从表2和图1(因子碎石图)看出,选取前

3个因子满足

∑3

j =1

Κj

∑11j =1

Κj

=

93.442%≥85%,可

以作为综合因子充分反映各污染指标及水环境要素的变化情况。

表2 总方差分解

因子

旋 转 前

初始的特征值

变量贡献率 %累积贡献率 %提取的特征值

变量贡献率 %累积贡献率 %旋转后提取的特征值

变量贡献率 %累积贡献率 %15.28648.05148.0515.28648.05148.0514.59041.72841.72823.58532.58980.6403.58532.58980.6403.93735.79177.51931.40812.80393.4421.408

12.803

93.442

1.752

15.923

93.442

40.7216.558

100.00053.545×10-163.223×10-15100.00061.759×10-161.599×10-15100.0007

7.946×10-177.223×10-16100.0008-1.374×10-17-1.249×10-16100.0009-1.323×10-16-1.203×10-15100.00010-2.183×10-16-1.985×10-15100.00011-4.090×10-

16

-3.718×10-

15

100.000

7

3第4期 李传哲,等:基于多元统计分析的水质综合评价

提取的3个因子代表了11个因子的综合信息,因而很难命名。为此需对其旋转,使因子载荷值向两极端趋近,以明确各因子代表的含义。采用V ari m ax w ith Kaiser N o r m alizati on 因子旋转法对初始因子

载荷矩阵施以25次的正交旋转。计算结果(表3)表明旋转后因子分类极其明确。同时由表2可知旋转前后综合因子代表的信息量始终满足大于或等于85%的要求,可认为旋转前后信息量没有损失。

表3 旋转因子载荷矩阵

指 标因 子

12

3旋转因子

12

3悬浮物0.855-0.453-0.1740.972-1.79×10-2

0.146总硬度0.579-0.779-0.1550.868-0.4330.160砷0.997-2.30×10-2

8.14×10-3

0.8540.4400.267六价铬0.612-0.145-0.755

0.8220.104-0.527亚硝酸盐氨0.9900.1397.31×10

-3

0.7810.5800.231硝酸盐氨0.806-0.3390.1900.7668.43×10

-2

0.454高锰酸盐指数0.7380.6520.168

0.3000.9280.214

挥发酚0.5400.741-2.85×10

-2

0.157

0.902-4.01×10-2生化需氧量0.4040.7720.107-1.42×10-2

0.8774.71×10-2

非离子氨3.64×10-2

0.977-0.171-0.3240.870-0.352石油类

0.470

-0.303

0.824

0.263

3.40×10-3

0.

960

图1

 因子碎石图

图2 旋转因子载荷图

由表3和图2可看出,旋转使因子载荷值向两极

端趋近更为明显,利于综合因子的命名。第一主因子代表悬浮物、总硬度、砷、六价铬、亚硝酸盐氨、硝酸盐氨,占原始方差的48.051%,这些污染物多为生

活污水产生的,可命名为生活污染因子,其中砷和六价铬属于重金属污染;第二主因子代表高锰酸盐指数、挥发酚、生化需氧量和非离子氨,占原始方差的32.589%,命名为有机工业污染因子;第三因子只

代表石油类,可直接称之为石油因子,占原始方差的12.803%。第二主因子和第三主因子所代表的指标

反映的都是有机物对延河的污染。实际上,在所监测的延河河段周围,有大量的石油开采、加工等生产活

动,这些活动加剧了有机物对延河的污染。

3 聚类分析在延河水质污染相似性研

究中的应用

3.1 聚类分析的基本思想

聚类分析(C lu ster A nalysis )是根据事物本身的特征研究个体分类的方法。聚类分析的基本思想是认为所研究的样品或指标(变量)之间存在着程度不同的相似性。将相似性较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类。这样,就将所有样品(或指标)分成许多类别,同一类中的个体有较大的相似性,不同类中的个体差异性很大。

3.2 延河各监测断面水质污染相似聚类分析

由因子分析计算,得到各断面3个综合因子的得分见表4,它说明了不同污染因子对各断面水体的贡献程度。为了更直观地观察结果,对其进行聚类。以断面的因子得分(见表4)为变量,采用分层聚类法

83 水资源与水工程学报 2006年

(h ierach ical clu ster ),在聚类过程中,聚类方法为最远邻近法(Fu rther neighbo r );距离测度的方法采用

欧式距离平方作为类间距离(squared euclidean dis 2tance )。

表4 因子得分

监测断面生活污染因子有机工业污染因子

石油因子

1-0.79344-1.54796-0.345762-0.780670.75042-0.207513-0.348621.00411-0.4590340.33247-0.028771.754015

1.59026

-0.17781

-0.74171

根据聚类分析结果作出直观的聚类树状分类

图,如图3所示。据此,可将断面的水质污染类型分为4类:第1类为断面5,主要受生活污染因子控制;第2类为断面4,石油因子影响稍大,而且生活污染因子对此断面的影响也较大。第3类为断面2和断面3,主要受有机工业污染因子影响,与其他两类综合因子有负相关性;第4类为断面1,各污染因子的贡献都较小,水质相对较好。

图3 聚类树状分类图

4 逐步回归分析在延河水质污染评价

中的应用

4.1 逐步回归的基本思想

由多元线性回归分析的知识可知,并不是所有的自变量都对因变量y 有显著的影响;其次,多元回归分析没有考虑因子之间的独立性,即包括在方程中的各个因子,很有可能某些因子对于因变量y 的影响是重复的;再次,从衡量拟合精度来看,如果剩余标准差S y 愈小,则拟合精度愈高,反之则愈低。因此如果回归方程中包含了对因变量y 不起作用或作用很小的因子时,那么残差平方和Q 不会由于有了这个因子而减少多少,相反可能使剩余标准差增大很多,从而降低拟合精度。同时,如果这些对因变量

y 影响不显著的因子进入方程也会影响方程的稳定

性。因此,就存在如何挑选出对因变量有显著影响的

自变量问题。目前,最受推崇的是逐步回归法。

逐步回归法就是按自变量对因变量作用的大小,这种作用可用偏回归平方和衡量,由大至小地逐个将自变量引入回归方程,对已被引入方程中的自变量,在新自变量引入后有可能因对因变量的作用不显著而从方程中剔除,已剔除的自变量在新自变量引入后也可重新放回,以便获得具有某种最优性质的回归方程。这个过程直到回归方程中的自变量均不能剔除,即所有引入方程中的自变量,其偏回归平方和均达到了显著水平,同时又不能再引入新自变量,这时逐步回归结束,此时所得最优方程中的自变量对因变量均有显著影响。

4.2 水质污染评价的逐步回归方程

在水环境评价中一般以综合污染指数(如表1最后一列)表征水体的水质类别[10]。综合污染指数为各监测指标污染指数的之和,为评价某一水体,往往需要监测多项指标,不方便也不经济。对于环保部门实时调查河流水体治理情况,仅监测关键的几项污染指标,更快捷经济。应用逐步回归方法,建立综合评价指数和少数几项指标间的回归方程,就能有效的解决上述问题。

计算结果(表5)表明,在所有11个污染指标中,石油类、非离子氨和高锰酸盐指数对综合污染指数有显著影响,因此,由这三个指标构成的回归方程即为逐步回归的“最优回归方程”。

回归方程为:

综合污染指数=-1.071+19.136×石油类+41.225×非离子氨+1.623×高锰酸盐指数4.3 逐步回归方程的应用

通过逐步回归分析,可以更加直观地了解到影响延河水质的最显著的污染因素,有利于在水污染治理过程中有针对性的实施合理的治理方案。此外,由这个建立好的回归方程可以进行分析预测。依据回归方程计算的水质污染综合指数与延安市环境保护局2003年水环境保护质量报告书上按传统方法(需要计算各项指标)计算的综合污染指数对比分析(详见表6)表明,两者相对误差在5%以内,符合拟合要求。

由表中分析可知,在水质评价中引入逐步回归分析,建立综合污染指数与少数几个主要影响污染物指标间的数学方程是科学、有效和可行的。依据此方程计算的结果与传统的综合污染指数计算方法计算出的结果具有高度的一致性,可以应用此方程进行水质预测与评价。

9

3第4期 李传哲,等:基于多元统计分析的水质综合评价

表5 回归系数分析

编号

非标准化系数

B偏回归系数标准误差

标准化系数

Β系数t检验

显著性

水平

共线性统计量

指标容忍度膨胀方差因子

1常数9.1092.7193.3500.044

石油类17.4374.5290.9123.8500.0311.0001.000 2常数3.1420.8633.6430.068

石油类20.9020.9681.09321.6020.0020.8331.200非离子氨57.7176.5820.4448.7690.0130.8331.200 3常数-1.0710.242-4.4280.141

石油类19.1360.1231.001155.3090.0040.3123.207非离子氨41.2251.0440.31739.4770.0160.2014.979高锰酸盐指数1.6230.0900.13918.1270.0350.2204.536

表6 回归方程与传统方法计算结果对比分析

断面传统方法

计算值

回归方程

计算值

误差

相对误差

%

结果

评定

17.357.08-0.27-3.69合格

228.4629.170.712.48合格318.6119.490.884.73合格4110.80105.75-5.05-4.56合格518.7319.100.371.97合格

5 结 论

(1)利用因子分析和聚类分析法对延安市延河水环境状况进行分析,可明确水环境的污染原因,针对不同水体提出相应的治理措施,并能计算出主要污染物的贡献,以便有针对性地减少污染物排放。

(2)应用逐步回归分析方法可建立水质综合污染指数与少数几个主要污染物指标之间的回归方程,该方程拟合程度较高,稳定性好,具有较强的使用价值。

参考文献:

[1]何晓群.现代统计方法与应用[M].北京:中国人民大学

出版社,1998:179-343.

[2]刘元波,高锡芸.太湖北部梅梁湾水域水质因子聚类

[J].湖泊科学,1997,9(3):255-260.

[3]李连科.因子分析法用于近岸海域大气污染来源的判别

[J].海洋环境科学,1998,17(1):30-34.

[4]廖奇志,陆晓华.山丹湖环境水化学特征的主因子分析

[J].华中理工大学学报,1998,26(增刊):65-67.

[5]M ariso l V,R afael P,Enrique B,et al.A ssess m ent of

seasonal and po lluting effects on the quality of river w a2 ter by exp lo rato ry date analysis[J].W ater R esources R esearch,1998,32:3581-3592.

[6]Perona E,Bonilla I and M ateo P.Spatial and tempo ral

changes in w ater quality in a Spanish river[J].T he Science of the To tal Environm ent,1999,241:75-90. [7]吕唤春,陈英旭,方志发,等.千岛湖水体营养物质的主

导因子分析[J].农业环境保护,2002,21(4):318-321.

[8]王晓鹏,曹广超.基于多元统计分析的湖库水质富营养

化程度评价模型及应用[J].数理统计与管理,2003,22

(2):30-33.

[9]卢纹岱.SPSS fo r W indow s统计分析[M].北京:电子

工业出版社,2000:284-426.

[10]赵毅.环境质量评价[M].北京:中国电力出版社,

1997:105-162.

《水利与建筑工程学报》征订启事

《水利与建筑工程学报》是面向国内外公开发行的水利与建筑工程及相关领域的学术性刊物。主要专业范围:水工建筑、农田水利、水文水资源、水土保持、河流及航道治理、岩土工程、材料与结构及水利水电、土木建筑工程的规划、勘测、设计、科研等。

本刊系中国核心期刊(遴选)数据库收录期刊,CN K I中国期刊全文数据库(CJFD)收录期刊;中国学术期刊综合评价数据库(CA JCED)统计刊源期刊;万方数据-数字化期刊群入网期刊;中国学术期刊(光盘版)首录期刊;中国期刊网入编期刊;中文科技期刊数据库(S W I C)收录期刊。

《水利与建筑工程学报》由教育部主管,西北农林科技大学主办。国内外公开发行,季刊,自办发行。定价10.00元 期,全年46元(含邮费)。欢迎各界朋友订阅。

地址:陕西杨凌渭惠路23号 单位:西北农林科技大学水科所校区 《水利与建筑工程学报》编辑部

邮编:712100 电话:029-******** 电子邮箱:sjxb@nw https://www.doczj.com/doc/455590363.html,

04 水资源与水工程学报 2006年

相关主题
文本预览
相关文档 最新文档