当前位置:文档之家› 基于偏相关与逐步回归方法的AQI影响因素分析及预测

基于偏相关与逐步回归方法的AQI影响因素分析及预测

基于偏相关与逐步回归方法的AQI影响因素分析及预测
基于偏相关与逐步回归方法的AQI影响因素分析及预测

Advances in Environmental Protection 环境保护前沿, 2017, 7(3), 191-201

Published Online June 2017 in Hans. https://www.doczj.com/doc/0d8021972.html,/journal/aep

https://https://www.doczj.com/doc/0d8021972.html,/10.12677/aep.2017.73028

The Analysis of Influence Factors of AQI

and Prediction Based on Partial Correlation and Stepwise Regression Methods

Menglian Dai1, Tong Wang1, Haiyin Deng1, Fang Wang1,2*

1College of Science, Hunan Agricultural University, Changsha Hunan

2Agricultural Mathematical Model and Data Process Center, Hunan Agricultural University, Changsha Hunan

Received: May 19th, 2017; accepted: Jun. 5th, 2017; published: Jun. 8th, 2017

Abstract

Air quality index (AQI) is a dimensionless index which describes air condition quantitatively. It can be used to evaluate the quality of atmospheric environment as well as control contamination.

In this paper, to investigate the influence of atmospheric pollution indexes on AQI, three cities of China, namely, Beijing, Changsha and Haikou, are chosen for your consideration. Six kinds of at-mospheric pollution index contains PM2.5 of daily date are used as observation. On the one hand, partial correlation analysis is employed for each index of the three cities respectively to deter-mine the main pollutants affecting AQI. It shows the main factors affecting the air quality in Beijing, Changsha and Haikou are PM10, PM2.5, NO2 and O3; PM10, PM2.5, NO2 and CO; PM10, PM2.5 and SO2, respectively. Moreover, the most significant correlation between the six indicators and AQI is PM2.5 for both Beijing and Changsha, but that is PM10 for Haikou. On the other hand, we also use stepwise regression method to access the primary factors affecting the AQI, which is consistent with the conclusion obtained from partial correlation analysis. In addition, we obtain the AQI op-timal linear regression prediction model through partial correlation analysis and stepwise re-gression analysis. Besides, by the model tests, we find the proposed models for the three cities are workable, which can be used to forecast short-term AQI. Finally, some suggestions are provided for improving the air quality according to the results.

Keywords

Air Quality Index (AQI), Partial Correlation Analysis, Stepwise Regression Analysis

基于偏相关与逐步回归方法的AQI影响因素

分析及预测

戴孟莲1,王彤1,邓海银1,王访1,2*

*通讯作者。

文章引用: 戴孟莲, 王彤, 邓海银, 王访. 基于偏相关与逐步回归方法的AQI影响因素分析及预测[J]. 环境保护前沿,

戴孟莲 等

1湖南农业大学理学院,湖南 长沙

2

湖南农业大学,农业数学建模与数据处理研究中心,湖南 长沙

收稿日期:2017年5月19日;录用日期:2017年6月5日;发布日期:2017年6月8日

摘 要

空气质量指数(AQI)是定量描述空气质量状况的无量纲指数,可用于评价大气环境质量以及控制污染。本文以北京、长沙、海口AQI 及PM2.5等6种大气污染指标的日均数据为研究对象。一方面,分别对三个城市的各个指标进行偏相关分析,结果表明影响北京空气质量的主要因素是PM10、PM2.5、NO 2和O 3;影响长沙空气质量的主要指标是PM10、PM2.5、NO 2和CO ;而影响海口空气质量的主要因素是PM10、PM2.5和SO 2。北京、长沙对AQI 影响最大的是PM2.5,而海口的PM10与AQI 的相关关系最为显著。另一方面,应用逐步回归分析得到了影响上述三城市AQI 的最显著的空气污染指标,结果与偏相关分析的结果相吻合。此外,通过偏相关分析和逐步回归分析,获得AQI 的最优线性回归预测模型,模型的拟合效果显著。模型检验表明建立的预测方程能有效用于AQI 的短期预测。最后针对分析结果提出一些解决对策,为空气质量改善提供建议。

关键词

空气质量指数,偏相关分析,逐步回归分析

Copyright ? 2017 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY). https://www.doczj.com/doc/0d8021972.html,/licenses/by/4.0/

1. 引言

随着我国经济的飞速发展,城市规模的不断扩大,大气污染日益严重,成为首要的社会问题之一,环境空气质量和整个生态系统和人类健康息息相关[1]。对于空气污染问题不同学者从不同角度进行了研究[2]-[13]。例如,王淑芸等[2]对河北沧州市空气质量及其污染物进行了统计分析,发现沧州市空气质量优良的天数居多,影响沧州市空气质量的首要污染物为PM10,其次为SO 2,空气质量受季节影响较为严重。Jassim 等[3]通过EPA 方法识别对巴林岛空气质量有影响的最重要的污染物,并将气象因素的影响纳入了考虑范围,得出PM2.5浓度在一些工业城市更高的结论。Jarauta-Bragulat 等[4]提到空气质量指数(AQI)与一些污染物相关,而这些污染物又是各自浓度一种转化的计算,第一次提出将整合合成数据应用到空气质量表达的方法。Gocheva-Ilieva 等[5]应用因子分析和Box-Jenkins 方法检查保加利亚主要污染物的浓度以及布拉戈耶夫格勒镇臭氧浓度,用时间序列分析和ARIMA 方法,短期预测空气污染并对一些城区起到提醒作用。雷正翠等[6]对2001-2006年常州空气质量的变化特点进行了统计分析,分析了气象条件对常州空气污染的影响和贡献程度。毕丽玫,史建武等[8]用皮尔逊相关系数分析了温度、湿度、气压、风速、能见度对 SO 2,NO 2,PM10,PM2.5的相关性,并以此说明气象环境对污染物浓度的影响。Lu 和 Fang [9]使用三个不同分布(正态对数分布、威布尔分布、皮尔逊V 型分布)分析PM2.5、PM10和风速之间的关系,研究表明PM 值与风速之间的反向相关关系可用某个关系式表示。朱奕[10]对污染物进

Open Access

戴孟莲等

行了后向气团轨迹分析,发现气象条件对颗粒污染物的浓度有着显著影响,且除本地排放外,来自中东部污染严重城市的区域性气流输送是导致长沙市颗粒物污染的重要原因。徐小丽[11]运用主成分分析法(PCA)探讨西安市及伦敦市的空气质量监测指标中多种污染物与PM2.5的相关性,结果表明:PM10与PM2.5最相关,同时,利用多重分形分析发现西安市和伦敦市有着共同特点。Kumar A等[12]通过以PCA 为基础的神经网络预测印度德里AQI的日均数据,结果显示PCA神经网络要优于神经网络预测。

然而,上述研究大多针对影响空气质量的特定两个变量的相互关系进行研究,所用的方法主要是简单的相关分析。这种分析只考虑两变量间的相互作用,没有考虑其他变量对它们的影响。然而,系统内所有变量之间的相互作用在一定程度上可能掩盖待研究的两变量间的关系。例如,当两变量的简单相关系数较大时,有时并不是这两个变量本身的内在联系所决定的,它可能是由另外一些变量对它们的共同作用造成的,因此简单的相关系数不能真正反映两个变量间的线性相关程度。大气污染是一个多因素控制的、复杂的系统问题,在研究多变量的情况下,一个要素的变化往往影响到其它要素的变化,即各个空气污染指标之间具有高相关性,互相影响,因此与AQI的相关程度会受到其他指标的影响。基于此本文引进偏相关分析对AQI的影响因素进行研究。当考察两个变量之间的线性相关关系时,偏相关分析能控制其他变量对它们的影响,能有效揭示这两个变量之间的真实相关程度[14]。然而,在空气质量的研究中,利用偏相关分析的研究报道不多,且仅针对单一地区进行研究。例如,王涛等[15]利用偏相关分析描述PM2.5、PM10与NO2、SO2的关系,结果表明江苏省的二次PM2.5主要源自的SO2的气–粒转化过程,固定污染源的间接贡献较大;PM10更多源自固定污染源而非移动污染源。徐莲等[16]针对NO2、O3两种特征性大气污染物,在总结出一般性的污染变化规律的基础上,进一步采用偏相关分析方法,证实了NO2是生成O3的重要前体污染物。

当研究了AQI与各个影响因素的真实相关程度后,为其建立短期回归预测模型是另一个重要的工作。然而,利用多个自变量建立回归模型时,若试图将所有的自变量都引进回归模型,往往不能对其进行有效的解释,因此需要挑选出对因变量有显著影响的自变量。逐步回归分析是一个有效剔除冗余变量的方法,该方法通过将前进法和后退法结合,保证了最后所得的回归子集是最优回归子集[14]。

此外,现有的文献大多以空气污染指数(API)为标准,研究大气污染问题,随着2012年国家环保部门修订了空气质量的测量标准,首次将PM2.5、NO2等物质纳人到空气质量勘测的范畴,研究AQI将能更准确反映环境的实际状况,预测AQI成为现在空气质量研究领域的一个话题[17] [18]。基于以上分析,本文试图利用偏相关分析与逐步回归来研究AQI与各空气污染指标的影响情况及对其进行短期预测。

本文选取中国三个城市作为研究对象,分别是首都北京,内陆城市长沙,沿海城市海口,以三个城市的AQI及PM2.5等6种污染指标数据为基础,利用偏相关分析研究6种污染指标对AQI的影响情况,并通过逐步回归分析获得上述三个城市的AQI回归方程,最后有针对性地提出改善城市的空气质量的建议。

2. 方法与数据

2.1. 偏相关分析

偏相关分析又称净相关分析,能够有效地控制其他变量影响条件下揭示两变量之间净相关的强弱程度。偏相关系数绝对值越接近1,表示两变量关系越密切,影响程度越大;越接近0,相关性越小[14]。因此偏相关系数能定量描述AQI与每一种空气污染指标的真实相关程度。通过求出AQI与各影响因素间的偏相关系数并进行检验,即可以得到影响AQI的主要因素。偏相关系数计算过程[19]如下:控制了变量x2,变量x1和y的偏相关系数为:

戴孟莲 等

12,x y x r =

(1)

式中1212,,,,,y x y x x x r r r 分别表示y 和x 1,y 和x 2及x 1和x 2的相关系数。

控制两个变量23,x x 时,变量1,x y 之间的偏相关系数为

123;,x y x x r =

(2)

式中123;,x y x x r 为控制变量23,x x 时,变量1x 与y 的偏相关系数;12;yx x r 为控制变量2x 时,变量1x 与y 的偏相关系数,依此类推。

当控制变量有3个或3个以上时,计算变量之间的偏相关系数依照式(1)、(2)类推。

2.2. 偏相关系数的检验

当要素之间的相关系数求出之后,还需要对其进行显著性检验。由于抽样误差的存在,样本中控制了其它变量的影响,两个变量间偏相关系数不为0,不能说明在总体中这两个变量间便相关,此时须进行进一步检验,一般使用t 检验方法[20]。

t = (3)

式中:r 是相应的偏相关系数,n 是观测量数,k 是控制变量的数量,自由度2n k ??。选定显著性0.05,当()0.052t t n k >??时拒绝原假设,认为变量间有显著的线性关系。

2.3. 逐步回归分析

逐步回归法是在前进法和后退法基础上,进行双向筛选的一种方法,它的基本思想是“有进有出”。具体做法是:将变量一个一个引入,每引入一个变量后,对已选入的变量进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都需进行F 检验,直到既无显著的自变量选入回归方程,也无不显著的自变量从回归方程剔除为止。这样就弥补了前进法和后退法的缺陷,保证了最后所得的回归子集是最优回归子集[21]。

2.4. 数据来源

本文选取北京、长沙、海口的AQI 和PM2.5、PM10、SO 2、CO 、NO 2、O 3浓度数据来源于空气质量历史数据网站(https://https://www.doczj.com/doc/0d8021972.html,/historydata/daydata.php )。选取2013年12月~2016年11月AQI 与PM2.5、PM10、SO 2、CO 、NO 2、O 3 6种参评污染物的日均浓度,每个城市都收集了共1095天的数据。在下面的分析中,AQI 为因变量,6种大气污染指标为自变量。

3. AQI 与6种污染指标的偏相关分析

利用SPSS23.0对AQI 及6种污染物做偏相关分析,控制其他5种变量,计算出AQI 与每种污染指标两两间的偏相关系数。以海口市为例,结果如表1~6所示。

由表7可知,北京的AQI 与PM2.5、PM10、NO 2、O 3的偏相关系数通过检验,即北京AQI 的主要污染源为PM10、PM2.5、NO 2和O 3;长沙AQI 的主要污染源为PM10、PM2.5、NO 2和CO 。而海口AQI 的主要污染源为PM10、PM2.5和SO 2。由此可看出,这三个城市影响空气质量的大气污染源存在差异,

戴孟莲等Table 1. Partial correlation between the AQI and PM2.5

表1. AQI与PM2.5偏相关性

控制变量AQI PM2.5

PM10 & SO2 & CO & NO2 & O3

AQI

相关性 1.000 0.564

显著性(双尾) . 0.000

自由度0 1088 PM2.5

相关性0.564 1.000

显著性(双尾) 0.000 .

自由度1088 0

Table 2. Partial correlation between the AQI and PM10

表2. AQI与PM10偏相关性

控制变量AQI PM10

SO2 & CO & NO2 & O3 & PM2.5

AQI

相关性 1.000 0.636

显著性(双尾) . 0.000

自由度0 1088 PM10

相关性0.636 1.000

显著性(双尾) 0.000 .

自由度1088 0

Table 3. Partial correlation between the AQI and SO2

表3. AQI与SO2偏相关性

控制变量AQI SO2

CO & NO2 & O3 & PM2.5 & PM10 AQI

相关性 1.000 ?0.098

显著性(双尾) . 0.001

自由度0 1088 SO2

相关性?0.098 1.000

显著性(双尾) 0.001 .

自由度1088 0

Table 4. Partial correlation between the AQI and CO

表4. AQI与CO偏相关性

控制变量AQI CO

NO2 & O3 & PM2.5 & PM10 & SO2AQI

相关性 1.000 0.054

显著性(双尾) . 0.074

自由度0 1088 CO

相关性0.054 1.000

显著性(双尾) 0.074 .

自由度1088 0

戴孟莲等

Table 5. Partial correlation between the AQI and NO2

表5. AQI与NO2偏相关性

控制变量AQI NO2

O3 & PM2.5 & PM10 & SO2 & CO AQI

相关性 1.000 0.004

显著性(双尾) . 0.906

自由度0 1088 NO2

相关性0.004 1.000

显著性(双尾) 0.906 .

自由度1088 0

Table 6. Partial correlation between the AQI and O3

表6. AQI与O3偏相关性

控制变量AQI O3

PM2.5 & PM10 & SO2 & CO & NO2AQI

相关性 1.000 ?0.014

显著性(双尾) . 0.644

自由度0 1088 O3

相关性?0.014 1.000

显著性(双尾) 0.644 .

自由度1088 0

Table 7. Results of the partial correlation analysis for the AQI and six factors in the three cities

表7. 三个城市AQI与6种大气污染物的偏相关分析综合结果

地区项目PM2.5 PM10 NO2 SO2 CO O3

北京偏相关系数0.887 0.533 ?0.177 ?0.004 ?0.04 0.107 显著性p值0.000 0.000 0.000 0.884 0.182 0.000 结论正相关正相关负相关不显著不显著正相关

长沙偏相关系数0.967 0.156 0.061 0.043 ?0.109 0.049 显著性p值0.000 0.000 0.043 0.158 0.000 0.103 结论正相关正相关正相关不显著负相关不显著

海口偏相关系数0.564 0.636 0.004 ?0.098 0.054 ?0.014 显著性p值0.000 0.000 0.906 0.001 0.074 0.644 结论正相关正相关不显著负相关不显著不显著

北京、长沙的PM2.5对AQI的影响最大,这是因为PM2.5粒径小,富含大量的有毒、有害物质且在大气中的停留时间长、输送距离远,因而对人体健康和大气环境质量的影响更大。而海口的PM10对AQI的影响最大,文献[22]通过对海口市大气颗粒物来源进行源解析,发现PM10的主要源类为机动车尾气尘、城市扬尘、建筑水泥尘,这主要与海口市无取暖季、机动车保有量及机动车类型有关。大部分沿海地区受到大气环流的影响,对海陆空气污染的形成和运输具有重要的影响,可以混合不同的气团[21],其污染的来源构成和形成机制可能不同于内陆地区。

戴孟莲 等

4. AQI 与6种大气污染物的逐步回归分析

本节通过逐步回归分析对这三个城市分别建立AQI 的预测方程。在如何挑选出对AQI 有显著影响的自变量的问题上,由于逐步回归吸收了前进法和后退法的优点,克服了它们的不足,保证了最后所得的回归子集是最优回归子集。

空气质量评价的主要污染物为PM2.5、PM10、SO 2、CO 、NO 2、O 3,AQI 由其含量计算所得。下面运用SPSS23.0统计软件对AQI 与上述6种污染物进行逐步回归,取引入自变量的显著性水平0.05entry α=,剔除自变量的显著性水平0.1removal α=,海口逐步回归的结果如表8所示。

由表8可知,逐步回归的最优子集为模型3,即PM10,PM2.5,SO 2。仅PM2.5、PM10、SO 2对AQI 有重要的影响进入方程,其余3个自变量对AQI 影响均不显著被剔除。即PM2.5、PM10、SO 2对AQI 的影响显著,具有统计学意义,这个结果与偏相关的结果一致。且决定系数R 2 = 0.970,说明在逐步拟合的线性回归方程的因变量AQI 能被自变量解释的占97%。

由表9可知,通过逐步回归分析,海口AQI 的最优多元线性回归方程为:

28.8490.507PM100.572PM2.50.202SO y =++?

(4)

P = 0.000 < 0.05,说明在显著水平为0.05的情况下回归系数通过t 检验,PM10,PM2.5,SO 2对AQI 的线性影响均显著。

由表10可知,F = 11706.377,p = 0.000 < 0.05,说明在显著水平为0.05的情况下回归方程通过F 检验,线性回归效果显著,逐步回归方程具有统计意义。该方程可用于海口AQI 的预测。用同样的方法对北京和长沙的因变量AQI 和自变量进行逐步回归,北京AQI 的最优子集为PM2.5、PM10、NO 2和O 3,最优多元线性方程为

Table 8. Summary of model 表8. 模型摘要

模型 R R 方 调整后R 方 标准估算的误差

1 0.976a 0.95

2 0.952 4.4118 2 0.985b 0.970 0.969 3.5246 3

0.985c

0.970

0.970

3.5061

注:a. 预测变量:(常量),PM10;b. 预测变量:(常量),PM10,PM2.5;c. 预测变量:(常量),PM10,PM2.5,SO 2

Table 9. Regress coefficient 表9. 回归系数表

模型

未标准化系数 标准化系数

t 统计量 显著性 B 标准误差 Beta 1

(常量) 3.533 0.286 12.366 0.000 PM10 0.930 0.006 0.976 147.569 0.000 2

(常量)

8.363 0.300 27.924 0.000 PM10 0.502 0.018 0.527 28.040 0.000 PM2.5 0551 0.022 0.468 24.910 0.000 3

(常量)

8.849 0.328 26.969 0.000 PM10 0.507 0.018 0.532 28.377 0.000 PM2.5 0.572 0.023 0.486 25.093 0.000 SO2

?0.202

0.057

?0.030

?3.536

0.000

注:因变量:AQI ,B 指回归系数和截距,左边对应常数代表截距,对应变量代表回归系数。

戴孟莲 等

Table 10. Analysis of variance 表10. 方差分析

模型

平方和 自由度 均方 F 统计量 显著性 1

回归

423,857.104 1 423,857.104 21,776.660

0.000b 残差 21,273.961 1093 19.464 总计 445,131.065 1094 2

回归

431,565.681 2 215,782.841 17,370.306

0.000c 残差 13,565.383 1092 12.423 总计 445,131.065 1094 3

回归

431,719.404 3 143,906.468 11,706.377

0.000d 残差 13,411.661 1091 12.293 总计

445,131.065

1094

注:a. 因变量:AQI ;b. 预测变量:(常量),PM10;c. 预测变量:(常量),PM10,PM2.5;d. 预测变量:(常量),PM10,PM2.5,SO 2。

2321.6980.931PM2.50.239PM100.218NO 0.027O y =++?+

(5)

长沙AQI 的最优子集为PM2.5、PM10、CO 和NO 2,最优多元线性方程为

212.710 1.160PM2.50.05PM10 4.224CO 0.055NO y =++?+ (6)

三个城市回归方程检验p 值都为0.000 < 0.05,线性回归效果显著,且拟合优度好,回归系数均通过检验。综合三个城市的偏相关分析,逐步回归选取的最优子集与偏相关系数显著的自变量吻合。

5 模型检验

5.1. 回归模型精度分析

为了检验建立的上述三个城市回归模型的有效性,我们首先来考察模型精度,利用相对根误差(RRMSE)来描述模型精度,如式(7)所示。利用式(4)~(6)求出训练样本中1095天(2013年12月~2016年11月)AQI 的预测值,将其与AQI 真实值比较,如图1所示。从图中可以看出:三个城市的AQI 训练数据的真实值与预测值决定系数都达0.97以上,模型的拟合优度较高,其预测值基本分布在真实值周围,且相对均方根误差均小于12%,预测精度较高,尤以长沙的回归效果最佳。

100%RRMSE (7) 式中:i P 为预测值,i Q 为真实值,n 为样本个数。

5.2. 预测模型误差分析

为了考察回归模型的预测效果,利用求得的三个回归预测方程对三个城市的2016年12月的AQI 进行预测,并与真实数据作比较,如图2所示。为了定量描述预测误差,真实值与预测值的相对误差也显示在图2中。从图中可以看出,除极少数点外,北京和海口的预测相对误差都在10%以内,而长沙的预测相对误差在5%以内,说明上述回归方程的预测效果较好,其相对误差较平稳,波动较小。表明本文提出的最优线性回归方程用于预测短期AQI 是可靠的。

戴孟莲等

(a) (b) (c)

Figure 1. The predictive results of AQI for (a) Beijing; (b) Changsha and (c) Haikou in December, 2013 to November, 2016. The solid lines denote the true value, beside them are the model evaluations

图1. (a) 北京、(b) 长沙、(c) 海口三个城市2013.12~2016.11月AQI的预测结果,实线代表真实值,其旁边的参数表示模型评价结果

(a) (b) (c)

Figure 2. The predicative results of AQI for (a) Beijing; (b) Changsha and (c) Haikou in December, 2016. The main plot is true values and predicative values. Insect is relative error

图2. (a) 北京、(b) 长沙、(c) 海口三个城市2016年12月AQI预测结果,主图是真实值与预测值,子图是相对误差6. 结果分析及建议

在本文的研究中,我们发现北京、长沙、海口三个城市影响空气质量的大气污染源存在差异。对于北京和长沙两个城市,PM2.5对AQI的影响最大;而海口的PM10对AQI的影响最大。这说明空气质量污染主要还是煤燃烧,工业排放的废气,城市扬尘,汽车尾气,建筑水泥尘等。三个城市的大气主要污染物都包含PM2.5和PM10,且与AQI的关系密切,在控制大气污染上,防治细颗粒物污染尤为重要。提出的回归预测方程能用于AQI的短期预测,误差较小,模型可靠。

为了进一步地改善城市环境空气质量,提出以下几点建议:

1) 在本文的研究中,三个城市影响空气质量的大气污染源存在差异,即不同城市的大气污染影响因素不同,在控制大气污染上,不同城市的治理方案应该有所差异和侧重,有针对性地提出改善方案效果会更好。

2) 改变能源消耗结构,推动节能减排;强化工业污染源排放的监管工作,不达标的排放物不能轻易排放;提高工程项目的申报标准;强化城市建设道路施工和扬尘的控制,强化道路运输车辆管理,加强道路洒水降尘工作。

3) 优化产业结构和布局。将重工业行业向外转移,同时大力发展金融服务业、医疗服务业、教育产业和高新技术业等,来达到既减少能源需求和污染物排放,又保证经济的持续增长和充分就业的目的,缓解环境保护与经济发展之间的矛盾。

4) 控制汽车增长率,大力发展新能源公用交通工具,提倡绿色出行;进一步完善地铁线路,错峰出

戴孟莲等

行,降低汽车尾气排放。

5) 加大城市緑化美化,增大绿地面积和绿化覆盖率。严格控制低质煤炭的销售和使用,特别是城市

居民取暖用煤。

6) 污染物的区域传输也是影响城市空气质量的一个原因[23] [24],因此对于空气污染的治理,还要

注意外源输送的影响。

基金项目

本文由湖南省社科基金项目(15YBA204)和湖南农业大学大学生科创项目(XCX16005)资助。

参考文献(References)

[1]中国环境科学研究院, 中国环境监测总站. GB3095-2012. 环境空气质量标准[S]. 北京: 中国环境科学出版社,

2012.

[2]王淑云, 节江涛, 熊险平, 等. 城市空气质量与气象条件的关系及空气质量预报系统[J]. 气象科技. 2006, 34(6):

688-692.

[3]Jassim, M.S. and Coskuner, G. (2017) Assessment of Spatial Variations of Particulate Matter (PM10 and PM2.5) in

Bahrain Identified by Air Quality Index (AQI). Arabian Journal of Geosciences, 10, 19-25.

[4]Jarauta-Bragulat, E., Hervada-Sala, C. and Egozcue, J.J. (2016) Air Quality Index Revisited from a Compositional

Point of View. Mathematical Geosciences, 48, 1-13.

[5]Gocheva-Ilieva, S.G., Ivanov, A.V., Voynikova, D.S., et al. (2014) Time Series Analysis and Forecasting for Air Pol-

lution in Small Urban Area: An SARIMA and Factor Analysis Approach. Stochastic Environmental Research and Risk

Assessment, 28, 1045-1060.

[6]雷正翠, 董芹, 霍焱, 等. 常州城市空气质量变化特征及其与气象条件的关系[C]//中国气象学会.中国气象学会

2008年会论文集.北京: 中国气象学会, 2008.

[7]杨钰, 金永民, 孙晓怡, 等. 用因子分析法解析抚顺市大气颗粒物来源[J]. 环境保护与循环经济, 2005, 25(4): 7-

9.

[8]毕丽玫, 史建武, 刘意, 等. 昆明城区PM2.5与常规大气污染物及气象因素的相关性分析[C]//中国环境科学学会.

中国环境科学学会2013年学术年会论文集. 昆明: 中国环境科学学会, 2013.

[9]Lu, H.C. and Fang, G.C. (2002) Estimating the Frequency Distributions of PM10 and PM2.5 by the Statistics of Wind

Speed at Sha-Lu.Science of the Total Environment, 298, 119-130.

[10]朱奕. 长沙城区PM10和PM2.5的污染特征及气象因素溯源分析研究[J]. 环境科学与管理, 2013, 38 (11): 57-62.

[11]徐小丽. PM2.5变化趋势的多重分形分析研究[D]: [硕士学位论文]. 合肥: 安徽大学, 2014.

[12]Kumar, A. and Goyal, P. (2013) Forecasting of Air Quality Index in Delhi Using Neural Network Based on Principal

Component Analysis. Pure and Applied Geophysics, 170, 711-722. https://https://www.doczj.com/doc/0d8021972.html,/10.1007/s00024-012-0583-4

[13]李小飞, 张明军, 王圣杰, 等. 中国空气污染指数变化特征及影响因素分析[J]. 环境科学, 2012, 33(6): 1936-

1943.

[14]何晓群, 刘文卿. 统计学[M]. 北京: 中国人民大学出版社, 2015.

[15]王涛, 康淮钰, 刘梓雅, 等. 基于比值和偏相关的大气污染物源识别——以2014年江苏省为例[J]. 复旦学报(自

然科学版), 2016, 55(4): 538-542.

[16]徐莲, 马民涛, 金毓峑, 等. 北京地区O3与NO2的偏相关分析[J]. 城市环境与城市生态, 2003(2): 67-68.

[17]黄世芹. 用卡尔曼滤波法和逐步回归法建立空气质量预报系统[J]. 贵州气象, 2002, 26(5): 20-22.

[18]刘天, 刘瑛, 钟杰. PM2.5成因的逐步回归分析及治理方案研究[J]. 数学的实践与认识, 2014, 44(15): 76-80.

[19]焦文玲, 邹涛, 巩晓峰, 等. 燃气日负荷影响因素的相关分析和偏相关分析[J]. 煤气与热力, 2010, 30(5): 1-5.

[20]崔素芳, 张振华, 姚付启, 等. 基于偏相关分析的烟台市土壤温度影响因素及预测模型研究[J]. 山东农业科学,

2010(1): 18-21.

[21]Masiol, M., Rampazzo, G., Ceccato, D., et al. (2010) Characterization of PM10 Sources in a Coastal Area near Venice

(Italy): An Application of Factor-Cluster Analysis. Chemosphere, 80, 771-778.

https://https://www.doczj.com/doc/0d8021972.html,/10.1016/j.chemosphere.2010.05.008

戴孟莲等

[22]宋娜, 徐虹, 毕晓辉, 等. 海口市PM2.5和PM10来源解析[J]. 环境科学研究, 2015, 28(10): 1501-1509.

[23]符传博, 唐家翔, 丹利, 等. 2014年海口市大气污染物演变特征及典型污染个例分析[J]. 环境科学学报, 2016,

36(6): 2160-2169.

[24]李璇, 聂滕, 齐珺, 等. 2013年1月北京市PM2.5区域来源解析[J]. 环境科学, 2015, 36(4): 1148-1153.

期刊投稿者将享受如下服务:

1. 投稿前咨询服务(QQ、微信、邮箱皆可)

2. 为您匹配最合适的期刊

3. 24小时以内解答您的所有疑问

4. 友好的在线投稿界面

5. 专业的同行评审

6. 知网检索

7. 全网络覆盖式推广您的研究

投稿请点击:https://www.doczj.com/doc/0d8021972.html,/Submission.aspx

期刊邮箱:aep@https://www.doczj.com/doc/0d8021972.html,

计量经济学 一般估计方法 NLS GLS GMM 逐步筛选 对数极大似然

10 *一般估计方法 回归方程的估计在特定的条件下选择适当的估计方法会使得结果更加接近实际,更具有说服力。满足古典线性回归模型的基本假设条件下,利用普通最小二乘法(OLS )估计出来的系数具备优良的线性无偏最小方差(BLUE )的性质。如果一些条件不能满足,例如出现非线性模型、异方差、序列相关等情形,就无法得到这样的性质。并且在面对因变量有影响而难以取舍或特殊的计量模型时,就需要改进估计方法以获得更加满意的估计结果。下面依次介绍几种常见的一般估计方法:非线性最小二乘法(NLS )、广义最小二乘法(GLS )、广义矩阵法(GMM )、逐步筛选最小二乘法、对数极大似然估计法。 10.1 非线性最小二乘法 最小二乘法适用的古典假设之一是回归模型是线性的,然而社会经济现象是极其复杂的,有时被解释变量与解释变量之间的关系不一定是线性的。例如柯布.道格拉斯(Cobb-Dauglass )生产函数模型: 321t t t t y L K u ααα=+ , t=1,2,...,T (10.1.1) 对此方程(10.1.2)进行对数变换,如下式 123ln ln ln t t t t y L K u ααα=+++ (10.1.2) 虽然式(10.1.2)的变量是非线性形式,此时我们仍能采用估计线性模型的方法,因此模型是参数线性的。反之,就是参数非线性的,我们就要采用非线性的估计方法。 构建下面的非线性模型: (,)t t t y f x u α=+ ,t=1,2,…,T (10.1.3) 式中,y 是被解释变量,x 为解释变量(向量),t u 为误差项,α为待估计的K 维参数向量12(,,...,)k αααα'=,T 是样本个数。此处讨论的是,f 关于参数α的导数仍含参数α本身,即参数非线性模型。 非线性最小二乘估计是要选择参数向量α的估计值?α 使残差平方和S(?α)

相关分析与回归分析的异同

问:请详细说明相关分析与回归分析的相同与不同之处 相关分析与回归分析都是研究变量相互关系的分析方法,相关分析是回归分析的基础,而回归分析则是认识变量之间相关程度的具体形式。 下面分为三个部分详细描述两种分析方法的异同: 第一部分:相关分析 一、相关的含义与种类 (一)相关的含义 相关是指自然与社会现象等客观现象数量关系的一种表现。 相关关系是指现象之间确实存在的一定的联系,但数量关系表现为不严格相互依存关系。即对一个变量或几个变量定一定值时,另一变量值表现为在一定范围内随机波动,具有非确定性。如:产品销售收入与广告费用之间的关系。 (二)相关的种类 1. 根据自变量的多少划分,可分为单相关和复相关 2. 根据相关关系的方向划分,可分为正相关和负相关 3. 根据变量间相互关系的表现形式划分,线性相关和非线性相关 4.根据相关关系的程度划分,可分为不相关、完全相关和不完全相关 二、相关分析的意义与内容 (一)相关分析的意义 相关分析是研究变量之间关系的紧密程度,并用相关系数或指数来表示。其目的是揭示现象之间是否存在相关关系,确定相关关系的表现形式以及确定现象变量间相关关系的密切程度和方向。 (二)相关分析的内容 1. 明确客观事物之间是否存在相关关系 2. 确定相关关系的性质、方向与密切程度 三、直线相关的测定 (一)相关表与相关图 1. 相关表 在定性判断的基础上,把具有相关关系的两个量的具体数值按照一定顺序平行排列在一张表上,以观察它们之间的相互关系,这种表就称为相关表。 2. 相关图

把相关表上一一对应的具体数值在直角坐标系中用点标出来而形成的散点图则称为相关图。利用相关图和相关表,可以更直观、更形象地表现变量之间的相互关系。 (二)相关系数 1. 相关系数的含义与计算 相关系数是直线相关条件下说明两个变量之间相关关系密切程度的统计分析指标。相关系数的理论公式为: y x xy r δδδ2= (1)xy 2δ 协方差 x δ x 的标准差 y δ y 的标准差 (2)xy 2δ 协方差对相关系数r 的影响,决定:???<>数值的大小正、负)或r r r (00 简化式 ()()2222∑∑∑∑∑∑∑-?--= y y n x x n y x xy n r 变形:分子分母同时除以2 n 得 r =???????????? ??-???????????? ??-?-∑∑∑∑∑∑∑2222n y n y n x n x n y n x n xy =()[]()[]2222y y x x y x xy -*-?-=y x y x xy δδ-?- n x x x ∑-=2)(δ=()[]n x x x x ∑+?-222=()222x n x x n x +??-∑∑ = () 22x x - 2. 相关系数的性质

回归分析方法

第八章 回归分析方法 当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法建立数学模型。如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是搜集大量数据,基于对数据的统计分析去建立模型。本章讨论其中用途非常广泛的一类模型——统计回归模型。回归模型常用来解决预测、控制、生产工艺优化等问题。 变量之间的关系可以分为两类:一类叫确定性关系,也叫函数关系,其特征是:一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。例如,通常人的年龄越大血压越高,但人的年龄和血压之间没有确定的数量关系,人的年龄和血压之间的关系就是相关关系。回归分析就是处理变量之间的相关关系的一种数学方法。其解决问题的大致方法、步骤如下: (1)收集一组包含因变量和自变量的数据; (2)选定因变量和自变量之间的模型,即一个数学式子,利用数据按照最小二乘准则计算模型中的系数; (3)利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型; (4)判断得到的模型是否适合于这组数据; (5)利用模型对因变量作出预测或解释。 应用统计分析特别是多元统计分析方法一般都要处理大量数据,工作量非常大,所以在计算机普及以前,这些方法大都是停留在理论研究上。运用一般计算语言编程也要占用大量时间,而对于经济管理及社会学等对高级编程语言了解不深的人来说要应用这些统计方法更是不可能。MATLAB 等软件的开发和普及大大减少了对计算机编程的要求,使数据分析方法的广泛应用成为可能。MATLAB 统计工具箱几乎包括了数理统计方面主要的概念、理论、方法和算法。运用MATLAB 统计工具箱,我们可以十分方便地在计算机上进行计算,从而进一步加深理解,同时,其强大的图形功能使得概念、过程和结果可以直观地展现在我们面前。本章内容通常先介绍有关回归分析的数学原理,主要说明建模过程中要做的工作及理由,如模型的假设检验、参数估计等,为了把主要精力集中在应用上,我们略去详细而繁杂的理论。在此基础上再介绍在建模过程中如何有效地使用MATLAB 软件。没有学过这部分数学知识的读者可以不深究其数学原理,只要知道回归分析的目的,按照相应方法通过软件显示的图形或计算所得结果表示什么意思,那么,仍然可以学到用回归模型解决实际问题的基本方法。包括:一元线性回归、多元线性回归、非线性回归、逐步回归等方法以及如何利用MATLAB 软件建立初步的数学模型,如何透过输出结果对模型进行分析和改进,回归模型的应用等。 8.1 一元线性回归分析 回归模型可分为线性回归模型和非线性回归模型。非线性回归模型是回归函数关于未知参数具有非线性结构的回归模型。某些非线性回归模型可以化为线性回归模型处理;如果知道函数形式只是要确定其中的参数则是拟合问题,可以使用MATLAB 软件的curvefit 命令或nlinfit 命令拟合得到参数的估计并进行统计分析。本节主要考察线性回归模型。 8.1.1 一元线性回归模型的建立及其MATLAB 实现 其中01ββ,是待定系数,对于不同的,x y 是相互独立的随机变量。 假设对于x 的n 个值i x ,得到 y 的n 个相应的值i y ,确定01ββ,的方法是根据最小二乘准则,要使 取最小值。利用极值必要条件令 01 0,0Q Q ββ??==??,求01ββ,的估计值01??ββ,,从而得到回归直线01 ??y x ββ=+。只不过这个过程可以由软件通过直线拟合完成,而无须进行繁杂的运算。

总结:线性回归分析的基本步骤

总结:线性回归分析的基本 步骤 -标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

线性回归分析的基本步骤 步骤一、建立模型 知识点: 1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 ①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。Y X U β=+ 特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。 例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周消费(Y )数据如下: 作出其散点图如下:

②总体回归方程(线):由于假定0EU =,因此因变量的均值与自变量总处于一条直线上,这条直线()|E Y X X β=就称为总体回归线(方程)。 总体回归方程的求法:以例1的数据为例 由于01|i i i E Y X X ββ=+,因此任意带入两个X i 和其对应的E (Y |X i )值,即可求出01ββ和,并进而得到总体回归方程。

如将()()222777100,|77200,|137X E Y X X E Y X ====和代入 ()01|i i i E Y X X ββ=+可得:0100117710017 1372000.6ββββββ=+=?????=+=?? 以上求出01ββ和反映了E (Y |X i )和X i 之间的真实关系,即所求的总体回归方程为:()|170.6i i i E Y X X =+,其图形为: ③样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。如在例1中,通过抽样考察,我们得到了20个家庭的样本数据: 那么描述样本数据中因变量Y 和自变量X 之间非确定依赖关系的模型 ?Y X e β =+就称为样本回归模型。

你应该要掌握的7种回归分析方法

你应该要掌握的7种回归分析方法 标签:机器学习回归分析 2015-08-24 11:29 4749人阅读评论(0) 收藏举报 分类: 机器学习(5) 目录(?)[+]转载:原文链接:7 Types of Regression Techniques you should know!(译者/刘帝伟审校/刘翔宇、朱正贵责编/周建丁) 什么是回归分析? 回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里,我们使用曲线/线来拟合这些数据点,在这种方式下,从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。 我们为什么使用回归分析? 如上所述,回归分析估计了两个或多个变量之间的关系。下面,让我们举一个简单的例子来理解它: 比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。 使用回归分析的好处良多。具体如下: 1.它表明自变量和因变量之间的显著关系;

2.它表明多个自变量对一个因变量的影响强度。 回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响,如价格变动与促销活动数量之间联系。这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。 我们有多少种回归技术? 有各种各样的回归技术用于预测。这些技术主要有三个度量(自变量的个数,因变量的类型以及回归线的形状)。我们将在下面的部分详细讨论它们。 对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。但在你开始之前,先了解如下最常用的回归方法: 1. Linear Regression线性回归 它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中,因变量是连续的,自变量可以是连续的也可以是离散的,回归线的性质是线性的。 线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。 用一个方程式来表示它,即Y=a+b*X + e,其中a表示截距,b表示直线的斜率,e是误差项。这个方程可以根据给定的预测变量(s)来预测目标变量的值。

回归分析方法及其应用中的例子

3.1.2 虚拟变量的应用 例3.1.2.1:为研究美国住房面积的需求,选用3120户家庭为建模样本,回归模型为: 123log log P Y βββ++logQ= 其中:Q ——3120个样本家庭的年住房面积(平方英尺) 横截面数据 P ——家庭所在地的住房单位价格 Y ——家庭收入 经计算:0.247log 0.96log P Y -+logy=4.17 2 0.371R = ()() () 上式中2β=0.247-的价格弹性系数,3β=0.96的收入弹性系数,均符合经济学的常识,即价格上升,住房需求下降,收入上升,住房需求也上升。 但白人家庭与黑人家庭对住房的需求量是不一样的,引进虚拟变量D : 01i D ?=?? 黑人家庭 白人家庭或其他家庭 模型为:112233log log log log D P D P Y D Y βαβαβα+++++logQ= 例3.1.2.2:某省农业生产资料购买力和农民货币收入数据如下:(单位:十亿元) ①根据上述数据建立一元线性回归方程:

? 1.01610.09357y x =+ 20.8821R = 0.2531y S = 67.3266F = ②带虚拟变量的回归模型,因1979年中国农村政策发生重大变化,引入虚拟变量来反映农村政策的变化。 01i D ?=?? 19791979i i <≥年 年 建立回归方程为: ?0.98550.06920.4945y x D =++ ()() () 20.9498R = 0.1751y S = 75.6895F = 虽然上述两个模型都可通过显着性水平检验,但可明显看出带虚拟变量的回归模型其方差解释系数更高,回归的估计误差(y S )更小,说明模型的拟合程度更高,代表性更好。 3.5.4 岭回归的举例说明 企业为用户提供的服务多种多样,那么在这些服务中哪些因素更为重要,各因素之间的重要性差异到底有多大,这些都是满意度研究需要首先解决的问题。国际上比较流行并被实践所验证,比较科学的方法就是利用回归分析确定客户对不同服务因素的需求程度,具体方法如下: 假设某电信运营商的服务界面包括了A1……Am 共M 个界面,那么各界面对总体服务满意度A 的影响可以通过以A 为因变量,以A1……Am 为自变量的回归分析,得出不同界面服务对总体A 的影响系数,从而确定各服务界面对A 的影响大小。 同样,A1服务界面可能会有A11……A1n 共N 个因素的影响,那么利用上述方法也可以计算出A11……A1n 对A1的不同影响系数,由此确定A1界面中的重要因素。 通过两个层次的分析,我们不仅得出各大服务界面对客户总体满意度影响的大小以及不同服务界面上各因素的影响程度,同时也可综合得出某一界面某一因素对总体满意度的影响大小,由此再结合用户满意度评价、与竞争对手的比较等因素来确定每个界面细分因素在以后工作改进中的轻重缓急、重要性差异等,从而起到事半功倍的作用。 例 3.5.4:对某地移动通信公司的服务满意度研究中,利用回归方法分析各服务界面对总体满意度的影响。 a. 直接进入法 显然,这种方法计算的结果中,C 界面不能通过显着性检验,直接利用分析结果是错误

一元线性回归分析法

一元线性回归分析法 一元线性回归分析法是根据过去若干时期的产量和成本资料,利用最小二乘法“偏差平方和最小”的原理确定回归直线方程,从而推算出a(截距)和b(斜率),再通过y =a+bx 这个数学模型来预测计划产量下的产品总成本及单位成本的方法。 方程y =a+bx 中,参数a 与b 的计算如下: y b x a y bx n -==-∑∑ 222 n xy x y xy x y b n x (x)x x x --==--∑∑∑∑∑∑∑∑∑ 上式中,x 与y 分别是i x 与i y 的算术平均值,即 x =n x ∑ y =n y ∑ 为了保证预测模型的可靠性,必须对所建立的模型进行统计检验,以检查自变量与因变量之间线性关系的强弱程度。检验是通过计算方程的相关系数r 进行的。计算公式为: 22xy-x y r= (x x x)(y y y) --∑∑∑∑∑∑ 当r 的绝对值越接近于1时,表明自变量与因变量之间的线性关系越强,所建立的预测模型越可靠;当r =l 时,说明自变量与因变量成正相关,二者之间存在正比例关系;当r =—1时,说明白变量与因变量成负相关,二者之间存在反比例关系。反之,如果r 的绝对值越接近于0,情况刚好相反。 [例]以表1中的数据为例来具体说明一元线性回归分析法的运用。 表1: 根据表1计算出有关数据,如表2所示: 表2:

将表2中的有关数据代入公式计算可得: 1256750x == (件) 2256 1350y ==(元) 1750 9500613507501705006b 2=-??-?=(元/件) 100675011350a =?-=(元/件) 所建立的预测模型为: y =100+X 相关系数为: 9.011638 10500])1350(3059006[])750(955006[1350 750-1705006r 22==-??-???= 计算表明,相关系数r 接近于l ,说明产量与成本有较显著的线性关系,所建立的回归预测方程较为可靠。如果计划期预计产量为200件,则预计产品总成本为: y =100+1×200=300(元)

回归分析方法应用实例

4、回归分析方法应用实例 在制定运动员选材标准时,理论上要求先对不同年龄的运动员,各测试一个较大的样本,然后,计算出各年龄的平均数、标准差,再来制定标准。 但是,在实际工作中,有时某些年龄组不能测到较大的样本。这时能不能使用统计的方法,进行处理呢? 我们遇到一个实例。测得45名11至18岁男田径运动员的立定三级跳远数据。其各年龄组人数分布如表一。由于受到许多客观因素的限制,一时无法再扩大样本,因此决定使用统计方法进行处理。 第一步,首先用原始数据做散点图,并通过添加趋势线,看数据的变化趋势是否符合随年龄增长而变化的趋势,决定能否使用回归方程制定标准。如果趋势线不符合随年龄增长而变化的趋势,或者相关程度很差就不能用了。 本例作出的散点图如图1,图上用一元回归方法添加趋势线,并计算出年龄和立定三级跳远的: 一元回归方程:Y=2.5836+0.3392 X 相关系数 r=0.7945(P<0.01) 由于从趋势线可以看出,立定三级跳远的成绩是随年龄增加而逐渐增加,符合青少年的发育特点。而且, 相关系数r=0.7945,呈高度相关。因此,可以认为计算出的一元回归方程,反映了11至18岁男运动员年龄和立定三级跳远成绩的线性关系。决定用一元回归方程来制定各年龄组的标准。 第二步,用一元回归方程:Y=2.5836+0.3392 X 推算出各年龄的立定三级跳远回归值,作为各年龄组的第2等标准。 第三步,用45人的立定三级跳远数据计算出标准差为:0.8271。由于在正态分布下,如把平均数作为标准约有50%的人可达到标准,用平均数-0.25标准差制定标准则约有60%的人可达到,用平均数+0.25、+0.52、+0.84标准差制定标准约有40%、30%、20%的人可达到标准。本例用各年龄组回归值-0.25标准差、+0.25标准差、+0.52标准差、+0.84标准差计算出1至5等标准如表2、图2。

第六章相关与回归分析方法

第六章 相关与回归分析方法 第一部分 习题 一、单项选择题 1.单位产品成本与其产量的相关;单位产品成本与单位产品原材料消耗量的相关 ( )。 A.前者是正相关,后者是负相关 B.前者是负相关,后者是正相关 C.两者都是正相关 D.两者都是负相关 2.样本相关系数r 的取值范围( )。 A.-∞<r <+∞ B.-1≤r ≤1 C. -l <r <1 D. 0≤r ≤1 3.当所有观测值都落在回归直线 01y x ββ=+上,则x 与y 之间的相关系数( )。 A.r =0 B.r =1 C.r =-1 D.|r|=1 4.相关分析与回归分析,在是否需要确定自变量和因变量的问题上( )。 A.前者无需确定,后者需要确定 B.前者需要确定,后者无需确定 C.两者均需确定 D.两者都无需确定 5.直线相关系数的绝对值接近1时,说明两变量相关关系的密切程度是( )。 A.完全相关 B.微弱相关 C.无线性相关 D.高度相关 6.年劳动生产率x(千元)和工人工资y(元)之间的回归方程为y=10+70x ,这意味着年劳动生产率每提高1千元时,工人工资平均( )。 A.增加70元 B.减少70元 C.增加80元 D.减少80元 7.下面的几个式子中,错误的是( )。 A. y= -40-1.6x r=0.89 B. y= -5-3.8x r =-0.94 C. y=36-2.4x r =-0.96 D. y= -36+3.8x r =0.98 8.下列关系中,属于正相关关系的有( )。 A.合理限度内,施肥量和平均单产量之间的关系 B.产品产量与单位产品成本之间的关系 C.商品的流通费用与销售利润之间的关系 D.流通费用率与商品销售量之间的关系 9.直线相关分析与直线回归分析的联系表现为( )。 A.相关分析是回归分析的基础 B.回归分析是相关分析的基础 C.相关分析是回归分析的深入 D.相关分析与回归分析互为条件 10.进行相关分析,要求相关的两个变量( )。 A.都是随机的 B.都不是随机的 C.一个是随机的,一个不是随机的 D.随机或不随机都可以 11.相关关系的主要特征是( )。 A.某一现象的标志与另外的标志之间存在着确定的依存关系 B.某一现象的标志与另外的标志之间存在着一定的关系,但它们不是确定的关系 C.某一现象的标志与另外的标志之间存在着严重的依存关系 D.某一现象的标志与另外的标志之间存在着函数关系 12.相关分析是研究( )。 A.变量之间的数量关系 B.变量之间的变动关系 C.变量之间相互关系的密切程度 D.变量之间的因果关系 13.现象之间相互依存关系的程度越低,则相关系数( )。 A.越接近于0 B.越接近于-1 C.越接近于1 D.越接近于0.5 14.在回归直线01y x ββ=+中,若10 β<,则x 与y 之间的相关系数( )。 A. r=0 B. r=1 C. 0<r <1 D. —l <r <0 15.当相关系数r=0时,表明( )。 A.现象之间完全无关 B.相关程度较小

回归研究分析方法总结全面

回归分析方法总结全面

————————————————————————————————作者:————————————————————————————————日期:

一、什么是回归分析 回归分析(Regression Analysis)是研究变量之间作用关系的一种统计分析方法,其基本组成是一个(或一组)自变量与一个(或一组)因变量。回归分析研究的目的是通过收集到的样本数据用一定的统计方法探讨自变量对因变量的影响关系,即原因对结果的影响程度。 回归分析是指对具有高度相关关系的现象,根据其相关的形态,建立一个适当的数学模型(函数式),来近似地反映变量之间关系的统计分析方法。利用这种方法建立的数学模型称为回归方程,它实际上是相关现象之间不确定、不规则的数量关系的一般化。 二、回归分析的种类 1.按涉及自变量的多少,可分为一元回归分析和多元回归分析一元回归分析是对一个因变量和一个自变量建立回归方程。多元回归分析是对一个因变量和两个或两个以上的自变量建立回归方程。 2.按回归方程的表现形式不同,可分为线性回归分析和非线性回归分析 若变量之间是线性相关关系,可通过建立直线方程来反映,这种分析叫线性回归分析。 若变量之间是非线性相关关系,可通过建立非线性回归方程来反映,这种分析叫非线性回归分析。 三、回归分析的主要内容 1.建立相关关系的数学表达式。依据现象之间的相关形态,建立适当的数学模型,通过数学模型来反映现象之间的相关关系,从数量上近似地反映变量之间变动的一般规律。 2.依据回归方程进行回归预测。由于回归方程反映了变量之间的一般性关系,因此当自变量发生变化时,可依据回归方程估计出因变量可能发生相应变化的数值。因变量的回归估计值,虽然不是一个必然的对应值(他可能和系统真值存在比较大的差距),但至少可以从一般性角度或平均意义角度反映因变量可能发生的数量变化。 3.计算估计标准误差。通过估计标准误差这一指标,可以分析回归估计值与实际值之间的差异程度以及估计值的准确性和代表性,还可利用估计标准误差对因变量估计值进行在一定把握程度条件下的区间估计。 四、一元线性回归分析 1.一元线性回归分析的特点 1)两个变量不是对等关系,必须明确自变量和因变量。 2)如果x和y两个变量无明显因果关系,则存在着两个回归方程:一个是以x为自变量,y 为因变量建立的回归方程;另一个是以y为自变量,x为因变量建立的回归方程。若绘出图

回归分析与相关分析联系 区别

回归分析与相关分析联系、区别?? 简单线性回归分析是对两个具有线性关系的变量,研究其相关性,配合线性回归方程,并根据自变量的变动来推算和预测因变量平均发展趋势的方法。 回归分析(Regression analysis)通过一个变量或一些变量的变化解释另一变量的变化。 主要内容和步骤:首先依据经济学理论并且通过对问题的分析判断,将变量分为自变量和因变量,一般情况下,自变量表示原因,因变量表示结果;其次,设法找出合适的数学方程式(即回归模型)描述变量间的关系;接着要估计模型的参数,得出样本回归方程;由于涉及到的变量具有不确定性,接着还要对回归模型进行统计检验,计量经济学检验、预测检验;当所有检验通过后,就可以应用回归模型了。 回归的种类 回归按照自变量的个数划分为一元回归和多元回归。只有一个自变量的回归叫一元回归,有两个或两个以上自变量的回归叫多元回归。 按照回归曲线的形态划分,有线性(直线)回归和非线性(曲线)回归。 相关分析与回归分析的关系 (一)相关分析与回归分析的联系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。 (二)相关分析与回归分析的区别 1.相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。 2.在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是确定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是唯一确定的,而会表现出一定的随机波动性。 3.相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是唯一确定的。而在回归分析中,对于互为因果的两个变量(如人的身高与体重,商品的价格与需求量),则有可能存在多个回归方程。 需要指出的是,变量之间是否存在“真实相关”,是由变量之间的内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无法判断变量之间的因果关系。因此,在具体应用过程中,一定要注意把定性分析和定量分析结合起来,在定性分析的基础上展开定量分析。

多元线性回归模型的各种检验方法

对多元线性回归模型的各种检验方法 对于形如 u X X X Y k k +++++=ββββ 22110 (1) 的回归模型,我们可能需要对其实施如下的检验中的一种或几种检验: 一、 对单个总体参数的假设检验:t 检验 在这种检验中,我们需要对模型中的某个(总体)参数是否满足虚拟假设0 H :j j a =β,做出具有统计意义(即带有一定的置信度)的检验,其中j a 为某个给定的已知数。特别是,当j a =0时,称为参数的(狭义意义上的)显著性检验。如果拒绝0H ,说明解释变量j X 对 被解释变量Y 具有显著的线性影响,估计值j β?才敢使 用;反之,说明解释变量j X 对被解释变量Y 不具有显 著的线性影响,估计值j β?对我们就没有意义。具体检验 方法如下: (1) 给定虚拟假设 0H :j j a =β;

(2) 计算统计量 )?(?)?()(?j j j j j j Se a Se E t βββββ-=-= 的数值; 11?)?(++-==j j jj jj j C C Se 1T X)(X ,其中σβ (3) 在给定的显著水平α下(α不能大于1.0即 10%,也即我们不能在置信度小于90%以下的前提下做结论),查出双尾t (1--k n )分布的临界值2/αt ; (4) 如果出现 2/αt t >的情况,检验结论为拒绝 0H ;反之,无法拒绝0H 。 t 检验方法的关键是统计量 )?(?j j j Se t βββ-=必须服从已 知的t 分布函数。什么情况或条件下才会这样呢?这需要我们建立的模型满足如下的条件(或假定): (1) 随机抽样性。我们有一个含n 次观测的随机样(){}n i Y X X X i ik i i ,,2,1:,,,,21 =。这保证了误差u 自身的随机性,即无自相关性,

相关系数与回归分析

第八章相关与回归分析 114、什么叫相关分析? 研究两个或两个以上变量之间相关程度大小以及用一定涵数来表达现象相互关系的方法。 115、什么叫相关关系? 相关关系是一种不完全确定的依存关系,即因素标志的每一个数值都可能有若干结果标志的数值与之对应。 116、判定现象之间有无相关关系的方法有哪些? 判断现象之间有无相关关系,首先要对其作定性分析,否则很可能把虚假相关现象拿来作相关分析。相关表和相关图都是判定现象之间有无相关关系的重要方法。而相关系数主要是用来测定现象之间相关的密切程度的指标,估计标准误差是判定回归方程式代表性大小的指标。所以判断方法有客观现象作定性分析、编制相关表、绘制相关图。 117、什么叫相关系数? 测定变量之间相关密切程度和相关方向的指标。 118、相关系数有何特点? 参与相关分析的两个变量是对等的,不分自变量与因变量,因此相关系数只有一个。相关系数有正负号反映相关关系的方向中,正负瓜果正相关,负号反映负相关。计算相关系数的两个变量都是随机变量。 119、某产品产量与单位成本的相关系数是-0.8;(乙)产品单位成本与利润率的相关系数是-0.95;(乙)比(甲)的相关程度高吗? 相关系数是说明相关程度大小的指标,相关系数的取值范围在±1之间,相关系数越接近±1,说明两变量相关程度越高,越接近于0,说明相关程度越低。因此,(乙)比(甲)的相关程度高。 120、什么叫回归分析? 对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确定一个相应的数学表达式,已从一个已知量推算另一个未知量,为估计预测提供一个重要方法。 121、与相关分析相比,回归分析有什么特点? 两个变量是不对等的,必须区自变量与因变量;因变量是随机的,自变量是可以控制的;对于一个没有因果关系的两个变量,可以求得两个回归方程,一个是Y倚X的回归方程,另一个是X倚Y的回归方程。 122、回归方程中回归系数的涵义是什么? 回归系数表示:当自变量X每增减一个单位时,因变量Y的平均增减值。 123、当所有的观测值都落在直线y c=a+bx上时,则x与y之间的相关系数为多少?

一元线性回归分析论文

一元线性回归分析的应用 ——以微生物生长与温度关系为例 摘要:一元线性回归预测法是分析一个因变量与一个自变量之间的线性关系的预测方法。应用最小二乘法确定直线,进而运用直线进行预测。本文运用一元线性回归分析的方法,构建模型并求出模型参数,对分析结果的显著性进行了假设检验,从而了微生物生长与温度间的关系。 关键词:一元线性回归分析;最小二乘法;假设检验;微生物;温度 回归分析是研究变量之间相关关系的统计学方法,它描述的是变量间不完全确定的关系。回归分析通过建立模型来研究变量间的这种关系,既可以用于分析和解释变量间的关系,又可用于预测和控制,进而广泛应用于自然科学、工程技术、经济管理等领域。本文尝试用一元线性回归分析方法为微生物生长与温度之间的关系建模,并对之后几年的情况进行分析和预测。 1 一元线性回归分析法原理 1.1 问题及其数学模型 一元线性回归分析主要应用于两个变量之间线性关系的研究,回归模型模型为εββ++=x Y 10,其中10,ββ为待定系数。实际问题中,通过观测得到n 组数据(X i ,Y i )(i=1,2,…,n ),它们满足模型i i i x y εββ++=10(i=1,2,…,n )并且通常假定E(εi )=0,V ar (εi )=σ2各εi 相互独立且服从正态分布。回归分析就是根据样本观 察值寻求10,ββ的估计10?,?ββ,对于给定x 值, 取x Y 10???ββ+=,作为x Y E 10)(ββ+=的估计,利用最小二乘法得到10,ββ的估计10? ,?ββ,其中??? ? ??????? ??-???? ??-=-=∑ ∑ ==n i i n i i i x n x xy n y x x y 1221110???βββ。 1.2 相关系数 上述回归方程存在一些计算相关系数。设L XX =∑ ∑==-=-=n i i n i i def xx x n x x x L 1 2 2 1 2 )(,称为关于X 的离

回归分析方法

回归分析方法Newly compiled on November 23, 2020

第八章回归分析方法 当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法建立数学模型。如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是搜集大量数据,基于对数据的统计分析去建立模型。本章讨论其中用途非常广泛的一类模型——统计回归模型。回归模型常用来解决预测、控制、生产工艺优化等问题。 变量之间的关系可以分为两类:一类叫确定性关系,也叫函数关系,其特征是:一个变量随着其它变量的确定而确定。另一类关系叫相关关系,变量之间的关系很难用一种精确的方法表示出来。例如,通常人的年龄越大血压越高,但人的年龄和血压之间没有确定的数量关系,人的年龄和血压之间的关系就是相关关系。回归分析就是处理变量之间的相关关系的一种数学方法。其解决问题的大致方法、步骤如下: (1)收集一组包含因变量和自变量的数据; (2)选定因变量和自变量之间的模型,即一个数学式子,利用数据按照最小二乘准则计算模型中的系数; (3)利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型; (4)判断得到的模型是否适合于这组数据; (5)利用模型对因变量作出预测或解释。 应用统计分析特别是多元统计分析方法一般都要处理大量数据,工作量非常大,所以在计算机普及以前,这些方法大都是停留在理论研究上。运用一般计算语言编程也要

占用大量时间,而对于经济管理及社会学等对高级编程语言了解不深的人来说要应用这些统计方法更是不可能。MATLAB 等软件的开发和普及大大减少了对计算机编程的要求,使数据分析方法的广泛应用成为可能。MATLAB 统计工具箱几乎包括了数理统计方面主要的概念、理论、方法和算法。运用MATLAB 统计工具箱,我们可以十分方便地在计算机上进行计算,从而进一步加深理解,同时,其强大的图形功能使得概念、过程和结果可以直观地展现在我们面前。本章内容通常先介绍有关回归分析的数学原理,主要说明建模过程中要做的工作及理由,如模型的假设检验、参数估计等,为了把主要精力集中在应用上,我们略去详细而繁杂的理论。在此基础上再介绍在建模过程中如何有效地使用MATLAB 软件。没有学过这部分数学知识的读者可以不深究其数学原理,只要知道回归分析的目的,按照相应方法通过软件显示的图形或计算所得结果表示什么意思,那么,仍然可以学到用回归模型解决实际问题的基本方法。包括:一元线性回归、多元线性回归、非线性回归、逐步回归等方法以及如何利用MATLAB 软件建立初步的数学模型,如何透过输出结果对模型进行分析和改进,回归模型的应用等。 8.1 一元线性回归分析 回归模型可分为线性回归模型和非线性回归模型。非线性回归模型是回归函数关于未知参数具有非线性结构的回归模型。某些非线性回归模型可以化为线性回归模型处理;如果知道函数形式只是要确定其中的参数则是拟合问题,可以使用MATLAB 软件的curvefit 命令或nlinfit 命令拟合得到参数的估计并进行统计分析。本节主要考察线性回归模型。 一元线性回归模型的建立及其MATLAB 实现 其中01ββ,是待定系数,对于不同的,x y 是相互独立的随机变量。

回归分析方法总结全面

一、什么是回归分析 回归分析(Regression Analysis)是研究变量之间作用关系的一种统计分析方法,其基本组成是一个(或一组)自变量与一个(或一组)因变量。回归分析研究的目的是通过收集到的样本数据用一定的统计方法探讨自变量对因变量的影响关系,即原因对结果的影响程度。 回归分析是指对具有高度相关关系的现象,根据其相关的形态,建立一个适当的数学模型(函数式),来近似地反映变量之间关系的统计分析方法。利用这种方法建立的数学模型称为回归方程,它实际上是相关现象之间不确定、不规则的数量关系的一般化。 二、回归分析的种类 1.按涉及自变量的多少,可分为一元回归分析和多元回归分析一元回归分析是对一个因变量和一个自变量建立回归方程。多元回归分析是对一个因变量和两个或两个以上的自变量建立回归方程。 2.按回归方程的表现形式不同,可分为线性回归分析和非线性回归分析 若变量之间是线性相关关系,可通过建立直线方程来反映,这种分析叫线性回归分析。 若变量之间是非线性相关关系,可通过建立非线性回归方程来反映,这种分析叫非线性回归分析。 三、回归分析的主要内容 1.建立相关关系的数学表达式。依据现象之间的相关形态,建立适当的数学模型,通过数学模型来反映现象之间的相关关系,从数量上近似地反映变量之间变动的一般规律。 2.依据回归方程进行回归预测。由于回归方程反映了变量之间的一般性关系,因此当自变量发生变化时,可依据回归方程估计出因变量可能发生相应变化的数值。因变量的回归估计值,虽然不是一个必然的对应值(他可能和系统真值存在比较大的差距),但至少可以从一般性角度或平均意义角度反映因变量可能发生的数量变化。

第3章 回归预测方法

第3章回归预测方法 思考与练习(参考答案) 1.简要论述相关分析与回归分析的区别与联系。 答:相关分析与回归分析的主要区别: (1)相关分析的任务是确定两个变量之间相关的方向和密切程度。回归分析的任务是寻找因变量对自变量依赖关系的数学表达式。 (2)相关分析中,两个变量要求都是随机变量,并且不必区分自变量和因变量;而回归分析中自变量是普通变量,因变量是随机变量,并且必须明确哪个是因变量,哪些是自变量; (3)相关分析中两变量是对等的,改变两者的地位,并不影响相关系数的数值,只有一个相关系数。而在回归分析中,改变两个变量的位置会得到两个不同的回归方程。 联系为: (1)相关分析是回归分析的基础和前提。只有在相关分析确定了变量之间存在一定相关关系的基础上建立的回归方程才有意义。 (2)回归分析是相关分析的继续和深化。只有建立了回归方程才能表明变量之间的依赖关系,并进一步进行预测。 2.某行业8个企业的产品销售额和销售利润资料如下: 根据上述统计数据: (1)计算产品销售额与利润额的相关系数; r ,说明销售额与利润额高度相关。 解:应用Excel软件数据分析功能求得相关系数0.9934

(2)建立以销售利润为因变量的一元线性回归模型,并对回归模型进行显著性检验(取α=); 解:应用Excel 软件数据分析功能求得回归方程的参数为: 7.273,0.074a b =-= 据此,建立的线性回归方程为 ?7.2730.074Y x =-+ ① 模型拟合优度的检验 由于相关系数0.9934r =,所以模型的拟合度高。 ② 回归方程的显著性检验 应用Excel 软件数据分析功能得0.05 ?=450.167(1,6) 5.99F F >=,说明在α=水平下回归效果显著. ③ 回归系数的显著性检验 0.025?=21.22(6) 2.447t t >=,说明在α=水平下回归效果显著. 实际上,一元线性回归模型由于自变量只有一个,因此回归方程的显著性检验与回归系数b 的显著性检验是等价的。 (3)若企业产品销售额为500万元,试预测其销售利润。 根据建立的线性回归方程 ?7.2730.074Y x =-+,当销售额500x =时,销售利润?29.73Y =万元。 3.某公司下属企业的设备能力和劳动生产率的统计资料如下: 该公司现计划新建一家企业,设备能力为千瓦/人,试预测其劳动生产率,并求出其95%的置信区间。

线性回归分析的基本步骤

线性回归分析的基本步骤 步骤一、建立模型 知识点: 1、总体回归模型、总体回归方程、样本回归模型、样本回归方程 ①总体回归模型:研究总体之中自变量和因变量之间某种非确定依赖关系的计量模型。Y X U β=+ 特点:由于随机误差项U 的存在,使得Y 和X 不在一条直线/平面上。 例1:某镇共有60个家庭,经普查,60个家庭的每周收入(X )与每周消费(Y )数据如下: 作出其散点图如下:

②总体回归方程(线):由于假定0EU =,因此因变量的均值与自变量总处于一条直线上,这条直线()|E Y X X β=就称为总体回归线(方程)。 总体回归方程的求法:以例1的数据为例 由于01|i i i E Y X X ββ=+,因此任意带入两个X i 和其对应的E (Y |X i )值,即可求出01ββ和,并进而得到总体回归方程。 如将()()222777100,|77200,|137X E Y X X E Y X ====和代入 ()01|i i i E Y X X ββ=+可得:0100117710017 1372000.6ββββββ=+=?????=+=?? 以上求出01ββ和反映了E (Y |X i )和X i 之间的真实关系,即所求的总体回归方程为:()|170.6i i i E Y X X =+,其图形为:

③样本回归模型:总体通常难以得到,因此只能通过抽样得到样本数据。如在例1中,通过抽样考察,我们得到了20个家庭的样本数据: 那么描述样本数据中因变量Y 和自变量X 之间非确定依赖关系的模型 ?Y X e β =+就称为样本回归模型。 ④样本回归方程(线):通过样本数据估计出?β ,得到样本观测值的拟合值与解释变量之间的关系方程??Y X β=称为样本回归方程。如下图所示: ⑤四者之间的关系: ⅰ:总体回归模型建立在总体数据之上,它描述的是因变量Y 和自变量X 之间的真实的非确定型依赖关系;样本回归模型建立在抽样数据基础之

相关主题
文本预览
相关文档 最新文档