最新应用回归分析 第一章知识分享
- 格式:ppt
- 大小:2.33 MB
- 文档页数:2
【关键字】分析第一章回归分析概述1.2 返回分析与相关分析的联系与区别是什么?答:联系有返回分析和相关分析都是研究变量间关系的统计学课题。
区别有a.在返回分析中,变量y称为因变量,处在被解释的特殊地位。
在相关分析中,变量x和变量y处于平等的地位,即研究变量y与变量x的密切程度与研究变量x与变量y的密切程度是一回事。
b.相关分析中所涉及的变量y与变量x全是随机变量。
而在返回分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。
C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。
而返回分析不仅可以揭示变量x对变量y的影响大小,还可以由返回方程进行预测和控制。
1.3 返回模型中随机误差项ε的意义是什么?答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性返回模型的基本假设是什么?答:线性返回模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值xi1.xi2…..xip 是常数。
2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^23.正态分布的假定条件为相互独立。
4.样本容量的个数要多于解释变量的个数,即n>p.第二章一元线性返回分析思考与练习参考答案2.1 一元线性返回有哪些基本假定?答:假设1、解释变量X是确定性变量,Y是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0 i=1,2, …,nVar (εi)= 2 i=1,2, …,nCov(εi, εj)=0 i≠j i,j= 1,2, …,n假设3、随机误差项ε与解释变量X之间不相关:Cov(Xi, εi)=0 i=1,2, …,n假设4、ε服从零均值、同方差、零协方差的正态分布εi~N(0, 2 ) i=1,2, …,n2.3 证明(2.27式),ei =0 ,eiXi=0 。
第40课时 回归分析基本思想及其初步应用(一)学习目标:1、了解相关关系的概念及其与函数关系的区别;2、掌握线性回归方程的求法及其步骤;3、了解线性回归模型及随机误差的含义。
教学重点; 线性回归方程 教学难点: 线性回归模型 教学工具: Powerpoint 教学过程:(一) 复习引入1、相关关系:对于两个变量,当自变量的取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。
2、函数关系:两个变量之间是一种确定性关系;3、两个具有线性相关关系的变量的统计分析步骤(板书): 设样本点(x 1,y 1),(x 2,y 2),……,(x n ,y n ) (1) 画出散点图; (2) 求回归直线方程abx y+=∧,其中∑∑∑∑====∧--=---=ni i ni i i ni i ni i i xn x yx n y x x x y y x x b 1221121)())((………①xb y a ∧∧-= ………②(3) 利用线性回归方程进行预报 这种方法叫做回归分析,是对具有相关关系的两个变量进行统计分析的一种常用方法。
板书:(y x ,)叫做样本点的中心,回归直线过样本点的中心。
(二)推进新课60.316kg 的女大学生的身高(精确到1cm )。
解:由于问题中要求根据体重预报身高,因此选取体重为自变量x ,身高为因变量y.作出散点图如下:从图中可以看出,样本点呈条状分布,体重和身高有比较好的线必相关关系,因此可以用回归直线y=bx+a 来近似刻画它们之间的关系。
又据表中数据计算得:5.54=x ,25.165=y,24116812=∑=i i x ,218774812=∑=i i y ,7231581=∑=i i i y x于是根据前面的公式①②,可以得∧b=7514.05.54102411625.1655.5410723152=⨯-⨯⨯-xb y a ∧∧-==165.25-0.7514×54.5=124.3于是得到回归方程:124.30.7514x y+=∧∧b=0.7514是回归直线的斜率的估计值,说明体重每增加1单位时,身高就增加0.7514个单位,这表明身高y 和体重x 具有正的线性相关关系.因此,对于体重为60.316kg 的女大学生,由回归方程可以预报其身高为:cm17062.169124.360.3160.7514y ≈=+⨯=∧探究(1)体重60.316kg 的女大学生的身高一定是170cm 吗?如果不是,其原因是什么? 显然,体重60.316kg 的女大学生的身高不一定是170cm ,但一般可以认为她的身高在170cm 左右。
庖丁巧解牛知识·巧学 一、回归分析回归分析是根据变量观测数据分析变量间关系的常用统计分析方法.通常把变量观测数据称为样本.1.散点图与回归方程(1)设对y 及x 做n 次观测得数据(x i ,y i )(i=1,2,…,n).以(x i ,y i )为坐标在平面直角坐标系中描点,所得到的这张图便称之为散点图.其中x 是可观测、可控制的普通变量,常称它为自变量,y 为随机变量,常称其为因变量.知识拓展 散点图是直观判断变量x 与y 是否相关的有效手段. (2)a 与回归系数b 的计算方法若散点呈直线趋势,则认为y 与x 的关系可以用一元回归模型来描述.设线性回归方程为y=a+bx+ε.其中a 、b 为未知参数,ε为随机误差,它是一个分布与x 无关的随机变量.最小二乘估计aˆ和b ˆ是未知参数a 和b 的最好估计. x b y aˆˆ-=,b ˆ=∑∑==---ni ini i ix xy y x x121)())((.深化升华 bˆ的计算还可以用公式b ˆ=∑∑==--ni ini ii x n xyx n yx 1221来计算,这时只需列表求出相关的量代入即可. 2.相关性检验如下图中的两个散点图,很难判断这些点是不是分布在某条直线附近.假如不考虑散点图,按照最小二乘估计计算a 与b ,我们可以根据一组成对数据,求出一个回归直线方程.但它不能反映这组成对数据的变化规律.为了解决上述问题,我们有必要对x 与y 作线性相关性的检验,简称相关性检验.对于变量x 与y 随机抽取到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检验统计量是样本相关系数r.r=∑∑∑∑∑∑======---=----ni i ni i ni ii ni i n i i ni i iy n y x n x yx n yx y y x x y y x x122122112121)()()()())((.r 具有以下性质:当r 大于0时,表明两个变量正相关,当r 小于0时,表明两个变量负相关;|r|≤1;|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱.通常当|r|大于0.75时,认为两个变量有很强的线性相关关系.相关性检验临界值如下表所示.相关性检验的临界值表深化升华 相关性检验的步骤也可如下: (1)作统计假设:X 与Y 不具有线性相关关系.(2)根据小概率0.05与n-2在相关性检验的临界值表中查出r 的一个临界值r 0.05. (3)根据样本相关系数计算公式算出r 的值.(4)作出统计推断.如果|r|>r 0.05,表明有95%的把握认为X 与Y 之间具有线性相关关系.如果|r|≤r 0.05,我们没有理由拒绝原来的假设.这时寻找回归直线方程是没有意义的. 3.回归分析的基本概念(1)在数学上,把每个效应(观测值减去总的平均值)的平方和加起来,即用∑=-ni iy y12)(表示总的效应,称为总偏差平方和.(2)数据点和它在回归直线上相应位置的差异(y i -i yˆ)是随机误差的效应,称i e ˆ=(y i -i y ˆ)为残差.(3)分别将残差的值平方后回来,用数学符号表示为∑=-ni i iy y12)(称为残差平方和.它代表了随机误差的效应.(4)总偏差平方和与残差平方和的差称为回归平方和.(5)回归效果的刻画我们可以用相关指数R 2反映.R 2=1-∑∑==--n i ini i iy y yy1212)()ˆ(.显然,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.4.非线性回归问题 在实际问题中,当变量之间的相关关系不是线性相关关系时,不能用线性回归方程描述它们之间的相关关系,需要进行非线性回归分析,然而非线性回归方程一般很难求,因此把非线性回归化为线性回归应该说是解决问题的好方法.首先,所研究对象的物理背景或散点图可帮助我们选择适当的非线性回归方程yˆ=μ(x;a,b).其中a及b为未知参数,为求参数a及b的估计值,往往可以先通过变量置换,把非线性回归化为线性回归,再利用线性回归的方法确定参数a及b的估计值.问题·探究问题函数关系是一种确定性关系,而对一种非确定性关系——相关关系,我们如何研究?导思:由于相关关系不是一种确定性关系,我们经常运用统计分析的方法,即回归分析,按照画散点图,求回归方程,用回归方程预报等步骤进行.探究:我们可以知道,相关关系中,由部分观测值得到的回归直线,可以对两个变量间的线性相关关系进行估计,这实际上是将非确定性问题转化成确定性问题来研究.由于回归直线将部分观测值所反映的规律性进行了延伸,它在情况预报、资料补充等方面有着广泛的应用,从某种意义上看,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况.因此研究相关关系,不仅可使我们处理更为广泛的数学应用问题,还要使我们对函数关系的认识上升到一种新的高度.典题·热题思路解析:散点图是表示具有相关关系的两个变量的一组数据的图形.解:散点图如下:例2每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的抗压强度(单位:kg/cm2)之间的关系有如下数据:(2)如果y与x之间具有线性相关关系,求回归直线方程.思路解析:求回归直线方程和相关系数,可以用计算器来完成.在有的较专门的计算器中,可通过直接按键得出回归直线方程的系数和相关系数,而如果要用一般的科学计算器进行计算,则要先列出相应的表格,有了表格中的那些相关数据,回归方程中的系数和相关系数就都容易求出了.解:(1)r=)6.721294.64572)(20512518600(6.722051218294322⨯-⨯-⨯⨯-≈0.999>0.75.说明变量y 与x 之间具有显著的线性正相关关系.bˆ=143004347205125186006.72205121829432=⨯-⨯⨯-≈0.304, x b y aˆˆ-==72.6-0.304×205=10.28. 于是所求的线性回归方程为yˆ=0.304x+10.28. 深化升华 为了进行相关性检验,通常将有关数据列成表格,然后借助于计算器算出各个量,为求回归直线方程扫清障碍.若由资料知y 对x 有线性相关关系.试求:(1)线性回归方程yˆ=b ˆx+a ˆ的回归系数a ˆ,b ˆ. (2)使用年限为10年时,估计维修费用是多少?思路解析:因为y 对x 有线性相关关系,所以可以用一元线性相关的方法解决问题.利用公式bˆ=∑∑==--ni i ni ii x n x yx n yx 1221,aˆ=y -b ˆx 来计算回归系数.有时为了方便常列表对应写出x i y i ,x i 2,以利于求和.解:(1)x =4,y =5,∑=ni ix12=90,∑=ni ii yx 1=112.3,于是bˆ=245905453.112⨯-⨯⨯-=1.23,aˆ=y -b ˆx =5-1.23×4=0.08. (2)回归直线方程为yˆ=1.23x+0.08.当x=10年时,y ˆ=1.23×10+0.08=12.38(万元),即估计使用10年的维修费用是12.38万元.方法归纳 知道y 与x 呈线性相关关系,就无需进行相关性检验,否则,应首先进行相关性检验.如果本身两个变量不具有相关关系,或者说,它们之间相关关系不显著,即使求出了回归方程也是毫无意义的,而且估计和预测的量也是不可信的.例4一只红铃虫的产卵数y与x有关,现收集了7组观测数据列于表中,试建立y与x之间思路解析:首先要作出散点图,根据散点图判定y与x之间是否具有线性相关关系,若具有线性相关关系,再求线性回归方程.在散点图中,样本点并没有分布在某个带状区域内,因此两个变量不呈线性相关关系,所以不能直接利用线性回归方程来建立两个变量之间的关系.根据已有的函数知识,可以发现样本分布在某一指数函数曲线的周围.解:散点图如下所示:由散点图可以看出:这些点分布在某一条指数函数y=pe qx(p,q为待定的参数)的周围.现在,问题变为如何估计待定的参数p和q,我们可以通过对数变换把指数关系变为线性关系.令z=lny,则变换后样本点应该分布在直线z=bx+a(a=lnp,b=q)周围.这样就可以利用线性回归模型来建立y与x之间的非线性回归方程了.由下图可看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程来拟合.经过计算得到线性回归方程为zˆ=0.272x-3.843.因此红铃虫的产卵数对温度的非线性回归方程为yˆ=e0.272x-3.843.方法归纳线性回归问题在解决前可以先画散点图,通过散点图判断是否为线性回归,如果不是线性回归,要先转换为线性回归问题.。
回归分析的基本思想及其初步应用编稿:赵雷 审稿:李霞【学习目标】1. 通过对实际问题的分析,了解回归分析的必要性与回归分析的一般步骤。
2. 能作出散点图,能求其回归直线方程。
3. 会用所学的知识对简单的实际问题进行回归分析。
【要点梳理】要点一、变量间的相关关系1. 变量与变量间的两种关系:(1) 函数关系:这是一种确定性的关系,即一个变量能被另一个变量按照某种对应法则唯一确定.例如圆的面积.S 与半径r 之间的关系S=πr 2为函数关系.(2)相关关系:这是一种非确定性关系.当一个变量取值一定时,另一个变量的取值带有一定的随机性,这两个变量之间的关系叫做相关关系。
例如人的身高不能确定体重,但一般来说“身高者,体重也重”,我们说身高与体重这两个变量具有相关关系. 2. 相关关系的分类:(1)在两个变量中,一个变量是可控制变量,另一个变量是随机变量,如施肥量与水稻产量; (2)两个变量均为随机变量,如某学生的语文成绩与化学成绩. 3. 散点图:将两个变量的各对数据在直角坐标系中描点而得到的图形叫做散点图.它直观地描述了两个变量之间有没有相关关系.这是我们判断的一种依据.4. 回归分析:与函数关系不同,相关关系是一种非确定性关系,对具有相关关系的两个变量进行统计分析的方法叫做回归分析。
要点二、线性回归方程:1.回归直线如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
2.回归直线方程ˆˆˆybx a =+ 对于一组具有线性相关关系的数据11(,)x y ,22(,)x y ,……,(,)n n x y ,其回归直线ˆˆˆybx a =+的截距和斜率的最小二乘法估计公式分别为:121()()ˆ()niii nii x x y y bx x ==--=-∑∑,ˆˆay bx =- 其中x 表示数据x i (i=1,2,…,n )的均值,y 表示数据y i (i=1,2,…,n )的均值,xy 表示数据x i y i (i=1,2,…,n )的均值.a 、b 的意义是:以a 为基数,x 每增加一个单位,y 相应地平均变化b 个单位.要点诠释:①回归系数121()()ˆ()niii nii x x y y bx x ==--=-∑∑,也可以表示为1221ˆni ii nii x y nx ybxnx==-=-∑∑,这样更便于实际计算。
1、变量间统计关系和函数关系的区别是什么?答:函数关系是一种确定性的关系,一个变量的变化能完全决定另一个变量的变化;统计关系是非确定的,尽管变量间的关系密切,但是变量不能由另一个或另一些变量唯一确定。
2、回归分析与相关分析的区别和联系是什么?答:联系:刻画变量间的密切联系;区别:一、回归分析中,变量y 称为因变量,处在被解释的地位,而在相关分析中,变量y 与x 处于平等地位;二、相关分析中y 与x 都是随机变量,而回归分析中y 是随机的,x 是非随机变量。
三、回归分析不仅可以刻画线性关系的密切程度,还可以由回归方程进行预测和控制。
3、回归模型中随机误差项ε的意义是什么?主要包括哪些因素?答:随机误差项ε的引入,才能将变量间的关系描述为一个随机方程。
主要包括:时间、费用、数据质量等的制约;数据采集过程中变量观测值的观测误差;理论模型设定的误差;其他随机误差。
4、线性回归模型的基本假设是什么?答:1、解释变量非随机;2、样本量个数要多于解释变量(自变量)个数;3、高斯-马尔科夫条件;4、随机误差项相互独立,同分布于2(0,)N σ。
5、回归变量设置的理论根据?在设置回归变量时应注意哪些问题?答:因变量与自变量之间的因果关系。
需注意问题:一、对所研究的问题背景要有足够了解;二、解释变量之间要求不相关;三、若某个重要的变量在实际中没有相应的统计数据,应考虑用相近的变量代替,或者由其他几个指标复合成一个新的指标;四、解释变量并非越多越好。
6、收集、整理数据包括哪些内容?答:一、收集数据的类型(时间序列、截面数据);二、数据应注意可比性和数据统计口径问题(统计范围);三、整理数据时要注意出现“序列相关”和“异方差”的问题;四、收集数据的样本量应大于解释变量;四、整理数据包括:拆算、差分、对数化、标准化以及提出极端值,有缺失值时的处理。
7、构造回归理论模型的基本根据是什么?答:收集到的数据变量之间的数学关系(线性、非线性)以及所研究问题背景的相关模型,例如数理经济中的投资函数、生产函数、需求函数、消费函数等。