第十一章--统计学-一元线性回归
- 格式:ppt
- 大小:1.32 MB
- 文档页数:2
第十一章 回 归 分 析本章以一元线性回归模型为重点介绍回归分析方法,对于一元线性回归模型所建立的理论与方法作适当的修改便可推广到多元线性回归模型。
§1 回归的概念一、变量之间的关系现实中,各种变量相互依赖、相互影响,存在着某种关系。
如:价格与需求量、利率与投资、收入与消费,等等。
大致可以归纳为两类关系:确定性关系(函数关系),非确定性关系(统计关系)。
1. 确定性关系:变量之间存在着某种完全确定的关系。
如:总收益Y 与产量X 之间的关系:X P Y ⋅=当价格一定时,Y 由X 完全确定。
表现在图形上,()Y X ,的所有点位于一条直线上。
一般地:()n X X X f Y ,,21= (多元函数)2. 非确定性关系:变量之间由于受到某些随机因素的影响而呈现出一种不确定的关系。
如:农业产量主要受到降雨量、施肥量、温度等的影响,但决定产量的并非完全是这些因素,还要受到许多其它因素的影响,如冰雹、蝗灾等自然灾害。
非确定性关系可以分为两大类:1) 相关关系:两个变量处于完全对等的位置,且两个变量皆为随机变量,常用相关系数来度量。
如:计量经济学成绩与统计学成绩,物价水平和股票价格,等等。
2) 回归关系:一个变量的变化是另一个变量变化的原因,而不是相反。
如:消费量Y 与可支配收入X 之间便是一种回归关系。
一般来讲,随着可支配收入的增加,消费增加,可支配收入是影响消费的主要因素,但并非唯一的因XYPX Y =素,影响消费的因素还有消费习惯、地区差异、年龄构成、宗教信仰等等。
同样收入的家庭,有的支出多,有的支出少,即使是同一家庭,其每个月的收入相同的话,各个月的支出也不会完全一样。
这样,对应于一个X 的值,Y 有多个不同的值相对应,X 与Y 呈现出不确定性的关系。
此时:()u X f Y += (u 为随机影响)表现在图形上,()Y X ,的点不是完全处于一条直线(或曲线)上,而是围绕在一条理论线的两旁变化。
第十一章 一元线性回归一、填空题1、对回归系数的显著性检验,通常采用的是 检验。
2、若回归方程的判定系数R 2=0.81,则两个变量x 与y 之间的相关系数r 为_________________。
3、若变量x 与y 之间的相关系数r=0.8,则回归方程的判定系数R 2为____________。
4、对于直线趋势方程bx a y c +=,已知∑=,0x ∑=130xy ,n=9,1692=∑x, a=b ,则趋势方程中的b=______。
5、回归直线方程bx a y c +=中的参数b 是_____________。
估计待定参数a 和 b 常用的方法是-_________________。
6、相关系数的取值范围_______________。
7、在回归分析中,描述因变量y 如何依赖于自变量x 和误差项的方程称为 。
8、在回归分析中,根据样本数据求出的方程称为 。
9、在回归模型εββ++=x y 10中的ε反映的是 。
10、在回归分析中,F 检验主要用来检验 。
11、说明回归方程拟合优度检验的统计量称为 。
二、单选题1、年劳动生产率(x :千元)和工人工资(y :元)之间的回归方程为1070y x =+,这意味着年劳动生产率没提高1千元,工人工资平均( )A 、 增加70元B 、 减少70元C 、增加80元D 、 减少80元 2、两变量具有线形相关,其相关系数r=-0.9,则两变量之间( )。
A 、强相关B 、弱相关C 、不相关D 、负的弱相关关系 3、变量的线性相关关系为0,表明两变量之间( )。
A 、完全相关B 、无关系C 、不完全相关D 、不存在线性关系 4、相关关系与函数关系之间的联系体现在( )。
A 、相关关系普遍存在,函数关系是相关关系的特例 B 、函数关系普遍存在,相关关系是函数关系的特例C 、相关关系与函数关系是两种完全独立的现象D 、相关关系与函数关系没有区别 5、已知x 和y 两变量之间存在线形关系,且δx =10, δy =8, δxy2=-7,n=100,则x 和y 存在着( )。
十一章1. 解:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
相关分析,相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析和回归分析是研究客观现象之间数量联系的重要统计方法。
既可以从描述统计的角度,也可以从推断统计的角度来说明。
所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
它们具有共同的研究对象,在具体应用时,相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。
由于相关分析不能指出变量间相互关系的具体形式,所以回归分析要对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供了一个重要的方法。
在有关管理问题的定量分析中,推断统计加具有更加广泛的应用价值。
需要指出的是,相关分析和回归分析只是定量分析的手段。
通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。
因此,在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
第11章一元线性回归(相关与回归)学习指导一、本章基本知识梳理基本知识点含义或公式相关关系 客观现象之间确实存在的、但在数量表现上不是严格对应的依存关系。
函数关系 客观现象之间确实存在的、而且数量表现上是严格对应的依存关系。
因果关系有相关关系的现象中能够明确其中一种现象(变量)是引起另一种现象(变量)变化的原因,另一种现象是这种现象变化的结果。
起影响作用的现象(变量)称为“自变量”;而受自变量影响发生变动的现象(变量)称为“因变量”。
因果关系∊相关关系,但相关关系中还包括互为因果关系的情况。
相关关系的种类 按涉及变量多少分为单相关、复相关;按相关方向分为正相关、负相关;按相关形态分为线性相关、非线性相关等。
线性(直线) 相关系数 简称相关系数,反映具有直线相关关系的两个变量关系的密切程度。
()()∑∑∑∑∑∑∑---==2222y yn x xn yx xy n SS S r yx xy相关系数的 显著性检验 ——t 检验 ()().2;,212:0:,0:020221Hn t t Hn t t rn r t HH,拒绝不能拒绝检验统计量-〉-〈--=≠=ααρρ回归方程中的 参数β0和β1为回归直线的截距、起始值,表示在没有自变量x 的影响(即x =0)时,其他各种因素对因变量y 的平均影响;β1为回归系数、斜率,表示自变量x 每变动一个单位,因变量y 的平均变动量。
β1的最小平方估计:∑∑∑∑∑⎪⎭⎫ ⎝⎛--=221x x n yx xy nβ估计标准误差反映因变量实际值与其估计值之间的平均差异程度,表明其估计值对实际值的代表性强弱。
其值越大,实际值与估计值之间的平均差异程度越大,估计值的代表性越差。
()代替。
用大样本条件下,分母可;n n yyS e 2ˆ2--=∑总离差平方和S S T反映因变量的n 个观察值与其均值的总离差。
回归离差平方和S S R 反映自变量x 的变化对因变量y 取值变化的影响;或者说,是由于x 与y 之间的线性关系引起的y 取值的变化,也称为可解释的平方和。
第十一章(理) 第四节 正态分布、线性回归1.111222则有 ( )A .μ1<μ2,σ1<σ2B .μ1<μ2,σ1>σ2C .μ1>μ2,σ1<σ2D .μ1>μ2,σ1>σ2解析:μ反映正态分布的平均水平,x =μ是正态曲线的对称轴,由图知μ1<μ2,σ 反映正态分布的离散程度,σ越大,曲线越“矮胖”,表明越分散,σ越小,曲线越 “高瘦”,表明越集中,由图知σ1<σ2. 答案:A2.已知随机变量ξ服从正态分布N (3,σ2),则P (ξ<3)= ( ) A.15 B.14C.13D.12解析:根据正态分布的知识可知此正态分布图象的对称轴为x =3,而P (ξ<3)表示对 称轴左边图象的面积,对称轴左右两边图象面积相等,整个图象的面积为1. 答案:D3.设随机变量ξ服从正态分布N (2,9),若P (ξ>c +1)=P (ξ<c -1),则c = ( ) A .1 B .2 C .3 D .4解析:由题意得随机变量ξ相应的正态密度曲线关于直线x =2对称,又P (ξ>c +1) =P (ξ<c -1),因此(c +1)+(c -1)2=2,c =2.答案:B4.设随机变量ξ服从标准正态分布N (0,1),已知Φ(-1.96)=0.025,则P (|ξ|<1.96)=( ) A .0.025 B .0.050 C .0.950 D .0.975 解析:P (|ξ|<1.96)=Φ(1.96)-Φ(-1.96) =1-2Φ(-1.96)=0.950. 答案:C5.已知随机变量ξ服从正态分布N (2,σ2),P (ξ≤4)=0.84,则P (ξ≤0)= ( ) A .0.16 B .0.32C .0.68D .0.84解析:根据正态分布曲线的对称性,得P (ξ≤0)=1-P (ξ≤4)=1-0.84=0.16. 答案:A6.对有线性相关关系的两个变量建立的回归直线方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .大于0 C .能等于0 D .只能小于0解析:因为b =0时,r =0,这时不具有线性相关关系,但b 能大于0也能小于0. 答案:A7.以下是两个变量x 和y 的一组数据:则这两个变量间的回归直线方程为 ( ) A.y ^=x 2 B.y ^=x C.y ^=9x -15 D.y ^=15x -9 解析:根据数据可得x =4.5,y =25.5, ∑i =1n x 2i =204,∑i =1nx i y i =1 296.b =1221niii nii x ynx y xnx ==--∑∑=1 296-8×4.5×25.5204-8×4.52=9,a =y -b x =25.5-9×4.5=-15. ∴y ^=9x -15. 答案:C8.已知回归直线方程y ^=4.4x +838.19,则可估计x 与y 的增长速度之比约为________. 解析:x 与y 的增长速度之比即为回归直线方程的斜率的倒数14.4=1044=522.答案:5229.某肉食鸡养殖小区某种病的发病鸡只数呈上升趋势,统计近4个月这种病的新发病鸡只数的线性回归分析如下表所示:该养殖小区这种病的新发病鸡总只数约为________.解析:由上表可得:y ^=94.7x +1 924.7,当x 分别取9,10,11,12时,得估计值分别 为:2 777,2 871.7,2 966.4,3 061.1,则总只数约为2 777+2 871.7+2 966.4+3 061.1≈11 676. 答案:11 67610.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的 生产能耗y (吨标准煤)的几组对照数据:(1)请根据上表提供的数据,求出y 关于x 的回归直线方程y ^=bx +a ;(2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(1)求出的回归 直线方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解:(1)∑i =14x i y i =3×2.5+4×3+5×4+6×4.5=66.5,x —=3+4+5+64=4.5, y —=2.5+3+4+4.54=3.5,∑i =14x 2i =32+42+52+62=86,b =66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a =y —-b x —=3.5-0.7×4.5=0.35. 故回归直线方程为y ^=0.7x +0.35.(2)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能减少了90-70.35=19.65(吨).。
第十一章一元线性回归练习题答案二.填空题 1. 不能;因为该相关系数为样本计算出的相关系数,它的大小受样本数据波动的影响,它是否显著尚需检验;t 检验;2.图1;不能;因为图1反映的是线性相关关系,图2反映的是非线性性相关关系,相关系数只能反映线性相关变量间的相关性的强弱,不能反映非线性相关性的强弱。
三.计算题1.(1) SSR 的自由度是1,SSE 的自由度是18。
(2)2418/6080220/1/==-=SSE SSR F(3)判定系数%14.57140802===SST SSR R 在y 的总变差中,由57.14%的变差是由于x 的变动说引起的。
(4)7559.05714.02-=-=-=R r相关系数为-0.7559。
(5)线性关系显著和:线性关系不显著和y x y x H 10H :因为414.424=>=αF F,所以拒绝原假设,x 与y 之间的线性关系显著。
2.(1)方差分析表df SS MS F Significance F回归分析 1 425 425 85 0.017 残差 15 75 5 - - 总计16500---(2)判定系数%8585.05004252====SST SSR R表明在维护费用的变差中,有85%的变差可由使用年限来解释。
(3)9220.085.02===R r二者相关系数为0.9220,属于高度相关(4)x y248.1388.6ˆ+= 分布;显著。
的自由度为t n r n r t 2);12||2---=回归系数为1.248,表示每增加一个单位的产量,该行业的生产费用将平均增长1.248个单位。
(5)线性关系显著性检验:线性关系显著:生产费用和产量之间性关系不显著生产费用和产量之间线10:H H因为Significance F=0.017<05.0=α,所以线性关系显著。
(6)348.3120248.1388.6248.1388.6ˆ==⨯++=x y当产量为10时,生产费用为31.348万元。
一章1. 解:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;在线性回归中,按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。
如果回归分析中包括两个或两个以上的自变量,且自变量之间存在线性相关,则称为多元线性回归分析。
相关分析,相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析和回归分析是研究客观现象之间数量联系的重要统计方法。
既可以从描述统计的角度,也可以从推断统计的角度来说明。
所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。
所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。
它们具有共同的研究对象,在具体应用时,相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。
只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。
由于相关分析不能指出变量间相互关系的具体形式,所以回归分析要对具有相关关系的变量之间的数量联系进行测定,从而为估算和预测提供了一个重要的方法。
在有关管理问题的定量分析中,推断统计加具有更加广泛的应用价值。
需要指出的是,相关分析和回归分析只是定量分析的手段。
通过相关与回归分析,虽然可以从数量上反映现象之间的联系形式及其密切程度,但是现象内在联系的判断和因果关系的确定,必须以有关学科的理论为指导,结合专业知识和实际经验进行分析研究,才能正确解决。
因此,在应用时要把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
第11章一元线性回归一、思考题1.解释相关关系的含义,说明相关关系的特点。
答:变量之间存在的不确定的数量关系,称为相关关系。
相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。
对这种关系不确定的变量是不能用函数关系进行描述的。
2.相关分析主要解决哪些问题?答:相关分析就是对两个变量之间线性关系的描述与度量,它要解决的问题包括:(1)变量之间是否存在关系;(2)如果存在关系,它们之间是什么样的关系;(3)变量之间的关系强度如何;(4)样本所反映的变量之间的关系能否代表总体变量之间的关系。
3.相关分析中有哪些基本假定?答:在进行相关分析时,对总体主要有以下两个假定:(1)两个变量之间是线性关系;(2)两个变量都是随机变量。
4.简述相关系数的性质。
答:相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若是根据样本数据计算的,则称为样本相关系数,记为r 。
相关系数的性质:(1)r 的取值范围在-1~+1之间,即-1≤r ≤1。
若0<r ≤1,表明x 与y 之间存在正线性相关关系;若-1≤r <0,表明x 与y 之间存在负线性相关关系;若r =+1,表明x 与y 之间为完全正线性相关关系;若r =-1,表明x 与y 之间为完全负线性相关关系。
可见当|r |=1时,y 的取值完全依赖于x ,二者之间即为函数关系;当r =0时,说明y 的取值与x 无关,即二者之间不存在线性相关关系。
(2)r 具有对称性。
x 与y 之间的相关系数xy r 和y 与x 之间的相关系数yx r 相等,即xy r =yx r 。
(3)r 数值大小与x 和y 的原点及尺度无关。
改变x 和y 的数据原点及计量尺度,并不改变r 数值大小。
(4)r 仅仅是x 与y 之间线性关系的一个度量,它不能用于描述非线性关系。
第11章 一元线性回归分析11.1(1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)920232.0=r(3) 检验统计量2281.24222.142=>=αt t ,拒绝原假设,相关系数显著。
11.2 (1)散点图(略)。
(2) 8621.0=r11.3 (1)0ˆβ表示当0=x 时y 的期望值。
(2)1ˆβ表示x 每变动一个单位y 平均下降0.5个单位。
(3) 7)(=y E 11.4 (1)%902=R (2)1=e s11.5 一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态: (2)计算线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(2)x 运送距离(km )y 运送时间(天)x 运送距离(km )Pearson 相关性 1.949(**) 显著性(双侧)0.000 N10 10 y 运送时间(天)Pearson 相关性 .949(**) 1显著性(双侧) 0.000 N**. 在 .01 水平(双侧)上显著相关。
有很强的线性关系。
(3)模型非标准化系数标准化系数t显著性B标准误Beta1 (常量)0.118 0.355 0.333 0.748 x 运送距离(km )a. 因变量: y 运送时间(天)回归系数的含义:每公里增加0.004天。
(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(a=0.05)。
(6)如果某地区的人均GDP 为5 000元,预测其人均消费水平。