《现代地理学中的数学方法》第3章 1+2相关分析方法+回归分析方法分解
- 格式:ppt
- 大小:2.16 MB
- 文档页数:78
回归分析(regression analysis)➢概述回归分析是寻求成对出现的一组数值型数据之间的关系模型的一种统计工具,这咱关系模型是一条直线或曲线。
回归分析就是要找到这条直线或曲线的方程,以及度量模型对数据拟合优度的判定系数r2和其他一些统计工具。
线性回归是通过绘制数据的散布图来拟合一条最优直线。
本部分将就这种最简单的回归类型展开讨沦。
非线性回归是寻求与数据最优的曲线。
多元回归是解决一个因变量受多个自变量影响的问题。
非线性和多元回归都过于复杂,需要使用时可以寻求统计学家的帮助。
➢适用场合·当取得一组成对出现的数据型数据时;·在绘制完成数据的散布图后;·当要了解自变量的变化对因变量有怎样的影响时;·当掌握了自变量的信息,想要预测因变量的变化情况时;·当需要得到直线或曲线对数据的拟合程度的统汁测量结果时。
➢实施步骤线性回归可以用手工完成,但是通过计算机软件可以大大简化运算。
按照软件说明逐步完成分析过程。
回归分析会得到与数据最优拟合的回归直线图形以及一张统计表格,包括:·回归直线的斜率。
直线方程的形式是:ˆy mx b=+,m是斜率,代表当自变量x增加一个单位时,因变量ˆy将随之增加一个单位。
正的斜率意味着回归线是由左向右上方倾斜的;负斜率说明回归线向下方倾斜(ˆy的上标是用来提醒它只是因变量)估计值,而不是真实值)。
·回归直线的截距。
在直绒方程中,常数b代表截距。
它是直线与y轴交点处ˆy的值。
得到斜率和截距值后,就可以根据等式ˆy mx b=+画出回归线或按照给定的x值估计y的值了。
·判定系数r2。
r2的值介于0和1之间,是对同归线与数据拟合程度的度量。
如果,r2=1,代表直线与数据完全吻合。
随着r2值的减小,表示拟合度越差,得到的估计值也更不准确。
将r2看作是y的变动中可以用回归直线解释的那部分,因为大部分的数据点都不会准确地落在回归线上,不能用回归线解释的那部分(1—r2)是残差。
可编辑修改精选全文完整版回归分析法用相关系来表示变量x和y线性相关密切程度,那么r数值为多大时才能说明它们之间线性关系是密切的?这需要数理统计中的显著性检验给予证明。
三、显著性检验是来用以说明变量之间线性相关的密切程度如何,或是用以说明所求得的回归模型有无实用价值。
为说明相关系数的概念,先观察图2-3。
回归分析的检验包括:相关系数的显著性检验、回归方程的显著性检验、回归系数的显著性检等,它们是从不同角度对回归方程的预测效能进行验证的。
关于显著性检验这涉及有关数理统计的内容,为此我们作一下简要回顾。
数理统计的主要内容包括:·参数估计;·假设检验;·方差分析等。
(1)相关系数检验。
相关系数的检验,需要借助于相关系数检验表来进行,这种表是统计学家按照有关的数学理论制定出的。
在相关系数检验表中,有两个参数需要说明。
1)f —称为自由度。
其含义为:如果有n个变量 x1,x2,...x n相互独立,且无任何线性约束条件,则变量的自由度个数为 f=n ,一般情况下有:f=n —约束条件式数对于一元线性回归,参数a,b要通过观测数据求出,有两个约束式,则失去两个自由度,因此 f=n-2 ,n为散点(观测点或统计数据点)个数。
2) a —称为显著性水平。
取值为0.01或0.05。
而1-a 称为置信度或置信概率,即表示对某种结论的可信程度。
当 a 取值为0.05时,则1-a 为0.95,这表示在100次试验中,约有5次犯错误(小概率事件发生)。
判断两个随机变量x,y间有无线性相关关系的方法是:首先根据要求确定某一显著性水平 a ,由散点数n计算出 f ,然后根据 a , f 利用相关系数检验表查出相关系数的临界值 r a,最后将计算出的相关系数r的绝对值与临界值 r a相比较。
r a表示在一定的置信概率下,所要求的相关系数起码值。
若,表示这两个随机变量之间存在线性相关关系;若,表示这两个随机变量之间线性相关程度不够密切。