统计学贾俊平第11章 一元线性回归
- 格式:pptx
- 大小:1003.79 KB
- 文档页数:85
第11章一元线性回归(相关与回归)学习指导一、本章基本知识梳理基本知识点含义或公式相关关系 客观现象之间确实存在的、但在数量表现上不是严格对应的依存关系。
函数关系 客观现象之间确实存在的、而且数量表现上是严格对应的依存关系。
因果关系有相关关系的现象中能够明确其中一种现象(变量)是引起另一种现象(变量)变化的原因,另一种现象是这种现象变化的结果。
起影响作用的现象(变量)称为“自变量”;而受自变量影响发生变动的现象(变量)称为“因变量”。
因果关系∊相关关系,但相关关系中还包括互为因果关系的情况。
相关关系的种类 按涉及变量多少分为单相关、复相关;按相关方向分为正相关、负相关;按相关形态分为线性相关、非线性相关等。
线性(直线) 相关系数 简称相关系数,反映具有直线相关关系的两个变量关系的密切程度。
()()∑∑∑∑∑∑∑---==2222y yn x xn yx xy n SS S r yx xy相关系数的 显著性检验 ——t 检验 ()().2;,212:0:,0:020221Hn t t Hn t t rn r t HH,拒绝不能拒绝检验统计量-〉-〈--=≠=ααρρ回归方程中的 参数β0和β1为回归直线的截距、起始值,表示在没有自变量x 的影响(即x =0)时,其他各种因素对因变量y 的平均影响;β1为回归系数、斜率,表示自变量x 每变动一个单位,因变量y 的平均变动量。
β1的最小平方估计:∑∑∑∑∑⎪⎭⎫ ⎝⎛--=221x x n yx xy nβ估计标准误差反映因变量实际值与其估计值之间的平均差异程度,表明其估计值对实际值的代表性强弱。
其值越大,实际值与估计值之间的平均差异程度越大,估计值的代表性越差。
()代替。
用大样本条件下,分母可;n n yyS e 2ˆ2--=∑总离差平方和S S T反映因变量的n 个观察值与其均值的总离差。
回归离差平方和S S R 反映自变量x 的变化对因变量y 取值变化的影响;或者说,是由于x 与y 之间的线性关系引起的y 取值的变化,也称为可解释的平方和。
统计学期末(单选、10个填空、5个判断、三个计算、一道论述)第一章导论1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。
分析数据:分为描述统计方法和推断统计方法两种方法。
描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。
推断统计:是研究如何利用样本数据来推断总体特征的统计方法。
推断统计内容包含参数估计和假设检验2、统计数据的类型:(1)按照采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据与数值型数据。
注意:分类数据和顺序数据都是表现事物的品质特征,通常是用文字来表述的,其结果均表现为类别,因此可以通称为定性数据或品质数据(qualitative data)。
数值型数据说明的是现象的数量特征,通常用数值来表现,因此可以统称为定量数据或数量数据(quantitative data)。
(2)按照统计数据的收集方法,可以将统计数据分为观测数据和实验数据。
(3)按照被描述的现象与时间的关系,可以将统计数据分为截面数据、时间序列数据(和面板数据 panal data)。
3、抽样独立性问题:总体区分为有限总体和无限总体,目的是为了判别在抽样中每次抽取是否独立(类似抽小球是否放回的问题)。
在统计推断中,通常是针对无限总体的,因而通常把总体看做随机变量(random variable)。
统计上的总体通常是一组观测数据,而不是一群人或者一些物品的简单集合。
4、统计指标按其所反映的数量特点和作用不同,分为数量指标、质量指标。
样本(sample)是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量(sample size)。
抽样的目的是根据样本提供的信息推断总体的特征。
5、总体参数(parameter)是用来描述总体特征的概括性数字度量,是研究者想要了解的某种特征值。
样本统计量(statistic)是用来描述样本特征的概括性数字度量,是根据样本数量计算出来的一个量。
第十一章一元线性回归练习题答案二.填空题 1. 不能;因为该相关系数为样本计算出的相关系数,它的大小受样本数据波动的影响,它是否显著尚需检验;t 检验;2.图1;不能;因为图1反映的是线性相关关系,图2反映的是非线性性相关关系,相关系数只能反映线性相关变量间的相关性的强弱,不能反映非线性相关性的强弱。
三.计算题1.(1) SSR 的自由度是1,SSE 的自由度是18。
(2)2418/6080220/1/==-=SSE SSR F(3)判定系数%14.57140802===SST SSR R 在y 的总变差中,由57.14%的变差是由于x 的变动说引起的。
(4)7559.05714.02-=-=-=R r相关系数为-0.7559。
(5)线性关系显著和:线性关系不显著和y x y x H 10H :因为414.424=>=αF F,所以拒绝原假设,x 与y 之间的线性关系显著。
2.(1)方差分析表df SS MS F Significance F回归分析 1 425 425 85 0.017 残差 15 75 5 - - 总计16500---(2)判定系数%8585.05004252====SST SSR R表明在维护费用的变差中,有85%的变差可由使用年限来解释。
(3)9220.085.02===R r二者相关系数为0.9220,属于高度相关(4)x y248.1388.6ˆ+= 分布;显著。
的自由度为t n r n r t 2);12||2---=回归系数为1.248,表示每增加一个单位的产量,该行业的生产费用将平均增长1.248个单位。
(5)线性关系显著性检验:线性关系显著:生产费用和产量之间性关系不显著生产费用和产量之间线10:H H因为Significance F=0.017<05.0=α,所以线性关系显著。
(6)348.3120248.1388.6248.1388.6ˆ==⨯++=x y当产量为10时,生产费用为31.348万元。
第十一章一元线性回归要求:(1)绘制产量与生产费用的散点图,判断二者之间的关系形态。
(2)计算产量与生产费用之间的线性相关系数。
(3)对相关系数的显著性进行检验(a= 0.05 ),并说明二者之间的关系强度。
解:⑴利用Excel的散点图绘制功能,绘制的散点图如下:产量(台)从散点图的形态可知,产量与生产费用之间存在正的线性相关。
(2)利用Excel的数据分析中的相关系数功能,得到产量与生产费用的线性相关系数r = 0.920232。
(3)计算t统计量,得到t = 7.435453,在a= 0.05的显著性水平下,临界值为2.6337,统计量远大于临界值,拒绝原假设,产量与生产费用之间存在显著的正线性相关关系。
r大于0.8,高度相关。
11.2学生在期末考试之前用于复习的时间(单位:h)和考试分数(单位:分)之间是否有关系?为研究这一问题,以为研究者抽取了由8名学生构成的一个随机样本,得到的数据如下:复习时间x考试分数y20641661348423702788329218722277要求:(1)绘制复习时间和考试分数的散点图,判断二者之间的关系形态(2)计算相关系数,说明两个变量之间的关系强度。
解:⑴利用Excel的散点图绘制功能,绘制的散点图如下:考试分数Y从散点图的形态来看,考试分数与复习时间之间似乎存在正的线性相关关系。
(2)r = 0.862109,大于0.8,高度相关。
11.3根据一组数据建立的线性回归方程为y =10-0.5x要求:(1)解释截距氏的意义。
(2)解释斜率?意义。
(3)计算当x = 6时的E(y)。
解:(1)在回归模型中,一般不能对截距项赋予意义C(2)斜率的意义为:当x增加1时,y减小0.5(3)当x = 6 时,E(y) = 10—0.5 * 6 = 7。
11.4 设SSR = 36, SSE = 4, n = 18。
要求:(1)计算判定系数R2并解释其意义。
(2)计算估计标准误差S e并解释其意义。
第11章一元线性回归一、思考题1.解释相关关系的含义,说明相关关系的特点。
答:变量之间存在的不确定的数量关系,称为相关关系。
相关关系的特点:一个变量的取值不能由另一个变量唯一确定,当变量x取某个值时,变量y的取值可能有几个。
对这种关系不确定的变量是不能用函数关系进行描述的。
2.相关分析主要解决哪些问题?答:相关分析就是对两个变量之间线性关系的描述与度量,它要解决的问题包括:(1)变量之间是否存在关系;(2)如果存在关系,它们之间是什么样的关系;(3)变量之间的关系强度如何;(4)样本所反映的变量之间的关系能否代表总体变量之间的关系。
3.相关分析中有哪些基本假定?答:在进行相关分析时,对总体主要有以下两个假定:(1)两个变量之间是线性关系;(2)两个变量都是随机变量。
4.简述相关系数的性质。
答:相关系数是根据样本数据计算的度量两个变量之间线性关系强度的统计量。
若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;若是根据样本数据计算的,则称为样本相关系数,记为r 。
相关系数的性质:(1)r 的取值范围在-1~+1之间,即-1≤r ≤1。
若0<r ≤1,表明x 与y 之间存在正线性相关关系;若-1≤r <0,表明x 与y 之间存在负线性相关关系;若r =+1,表明x 与y 之间为完全正线性相关关系;若r =-1,表明x 与y 之间为完全负线性相关关系。
可见当|r |=1时,y 的取值完全依赖于x ,二者之间即为函数关系;当r =0时,说明y 的取值与x 无关,即二者之间不存在线性相关关系。
(2)r 具有对称性。
x 与y 之间的相关系数xy r 和y 与x 之间的相关系数yx r 相等,即xy r =yx r 。
(3)r 数值大小与x 和y 的原点及尺度无关。
改变x 和y 的数据原点及计量尺度,并不改变r 数值大小。
(4)r 仅仅是x 与y 之间线性关系的一个度量,它不能用于描述非线性关系。
第11章 一元线性回归分析11.1(1)散点图(略),产量与生产费用之间正的线性相关关系。
(2)920232.0=r(3) 检验统计量2281.24222.142=>=αt t ,拒绝原假设,相关系数显著。
11.2 (1)散点图(略)。
(2) 8621.0=r11.3 (1)0ˆβ表示当0=x 时y 的期望值。
(2)1ˆβ表示x 每变动一个单位y 平均下降0.5个单位。
(3) 7)(=y E 11.4 (1)%902=R (2)1=e s11.5 一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态: (2)计算线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(2)x 运送距离(km )y 运送时间(天)x 运送距离(km )Pearson 相关性 1.949(**) 显著性(双侧)0.000 N10 10 y 运送时间(天)Pearson 相关性 .949(**) 1显著性(双侧) 0.000 N**. 在 .01 水平(双侧)上显著相关。
有很强的线性关系。
(3)模型非标准化系数标准化系数t显著性B标准误Beta1 (常量)0.118 0.355 0.333 0.748 x 运送距离(km )a. 因变量: y 运送时间(天)回归系数的含义:每公里增加0.004天。
(1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。
(4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(a=0.05)。
(6)如果某地区的人均GDP 为5 000元,预测其人均消费水平。