第10章 线性相关与回归
- 格式:ppt
- 大小:218.50 KB
- 文档页数:61
第十一章 一元线性回归一、填空题1、对回归系数的显著性检验,通常采用的是 检验。
2、若回归方程的判定系数R 2=0.81,则两个变量x 与y 之间的相关系数r 为_________________。
3、若变量x 与y 之间的相关系数r=0.8,则回归方程的判定系数R 2为____________。
4、对于直线趋势方程bx a y c +=,已知∑=,0x ∑=130xy ,n=9,1692=∑x, a=b ,则趋势方程中的b=______。
5、回归直线方程bx a y c +=中的参数b 是_____________。
估计待定参数a 和 b 常用的方法是-_________________。
6、相关系数的取值范围_______________。
7、在回归分析中,描述因变量y 如何依赖于自变量x 和误差项的方程称为 。
8、在回归分析中,根据样本数据求出的方程称为 。
9、在回归模型εββ++=x y 10中的ε反映的是 。
10、在回归分析中,F 检验主要用来检验 。
11、说明回归方程拟合优度检验的统计量称为 。
二、单选题1、年劳动生产率(x :千元)和工人工资(y :元)之间的回归方程为1070y x =+,这意味着年劳动生产率没提高1千元,工人工资平均( )A 、 增加70元B 、 减少70元C 、增加80元D 、 减少80元 2、两变量具有线形相关,其相关系数r=-0.9,则两变量之间( )。
A 、强相关B 、弱相关C 、不相关D 、负的弱相关关系 3、变量的线性相关关系为0,表明两变量之间( )。
A 、完全相关B 、无关系C 、不完全相关D 、不存在线性关系 4、相关关系与函数关系之间的联系体现在( )。
A 、相关关系普遍存在,函数关系是相关关系的特例 B 、函数关系普遍存在,相关关系是函数关系的特例C 、相关关系与函数关系是两种完全独立的现象D 、相关关系与函数关系没有区别 5、已知x 和y 两变量之间存在线形关系,且δx =10, δy =8, δxy2=-7,n=100,则x 和y 存在着( )。
学案56 线性回归方程导学目标: 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.自主梳理1.相关关系:两个变量之间的关系可能是________关系(如:函数关系),或__________关系.当自变量取值一定时,因变量也确定,则为确定性关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系.相关关系是一种非确定性关系.2.散点图:将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图.3.回归直线(1)定义:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有________________,这条直线叫做回归直线.(2)最小二乘法:通过求Q =∑ni =1 (y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和______,这一方法叫做最小二乘法. (3)线性回归方程方程y ^=bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a ,b 是待定参数.错误!. 自我检测1.下列有关线性回归的说法,正确的序号是________. ①相关关系的两个变量不一定是因果关系; ②散点图能直观地反映数据的相关程度;③回归直线最能代表线性相关的两个变量之间的关系; ④任一组数据都有线性回归方程. 2.下列关系:①人的年龄与其拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一树木,其截面直径与高度之间的关系;⑤学生的身高与其学号之间的关系,其中有相关关系的是________(填序号).3.(2010·银川模拟)下表是某厂1~4月份用水量(单位:百吨)的一组数据:由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归方程是y ^=-0.7x +a ,则a =________.4.如图所示,有5组(x ,y )数据,去掉________组数据后,剩下的4组数据的线性相关性最大.5.(2010·金陵中学三模)已知三点(3,10),(7,20),(11,24)的横坐标x 与纵坐标y 具有线性关系,则其线性回归方程是________________.探究点一利用散点图判断两个变量的相关性例1有一位同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出热饮杯数与当天气温的对比表:变式迁移1某班5个学生的数学和物理成绩如表:探究点二求线性回归方程例2假设关于某设备的使用年限x和所支出的维修费用y(万元)有以下统计资料:若由资料知y对x呈线性相关关系.试求线性回归方程y=bx+a.变式迁移2 已知变量x 与变量y 有下列对应数据:且y 对x 呈线性相关关系,求y 对x 的线性回归方程.探究点三 利用线性回归方程对总体进行估计例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=bx +a ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)变式迁移3 (2010·盐城期末)某单位为了了解用电量y 度与气温x ℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:由表中数据得线性回归方程y =bx +a 中b =-2,预测当气温为-4℃时,用电量的度数约为________.1.相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.而相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.线性回归方程:设x 与y 是具有相关关系的两个变量,且相应于n 个观测值的n 个点大致分布在某一条直线的附近,就可以认为y 对x 的线性回归函数的类型为直线型:y ^=bx +a .我们称这个方程为y 对x 的线性回归方程.其中x =1n ∑n i =1x i ,y =1n ∑ni =1y i.3.线性回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过线性回归方程的适用范围,否则没有实用价值.(满分:90分)一、填空题(每小题6分,共48分)1.命题:①路程与时间、速度的关系是相关关系;②同一物体的加速度与作用力是函数关系;③产品的成本与产量之间的关系是函数关系;④圆的周长与面积的关系是相关关系;⑤广告费用与销售量之间的关系是相关关系.其中正确的命题序号是________.2.(2011·陕西改编)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是________.(填序号)①x 和y 的相关系数为直线l 的斜率; ②x 和y 的相关系数在0到1之间;③当n 为偶数时,分布在l 两侧的样本点的个数一定相同;④直线l 过点(x ,y ).3.已知一组观测值具有线性相关关系,若对于y ^=bx +a ,求得b =0.51,x =61.75,y =38.14,则线性回归方程为__________________.4.某地区近几年居民的年收入x 与支出y 之间的关系,大致符合y ^=0.8x +0.1(单位:亿元).预计今年该地区居民收入为15亿元,则年支出估计是________亿元.5.根据两个变量x ,y 之间的观测数据画成散点图如图,则这两个变量________线性相关关系(填“具有”或“不具有”).6.若施化肥量x 与水稻产量y 的线性回归方程为y ^=5x +250,当施化肥量为80 kg 时,预计水稻产量为________kg.7.已知线性回归方程y ^=4.4x +838.19,则可估计x 与y 的增长速度之比约为________. 8.(2010·青岛模拟)为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1、l 2,已知两人所得的试验数据中,变量x 和y 的数据的平均值都相等,且分别是s 、t ,那么下列说法中正确的是________(填上正确的序号).①直线l 1和l 2一定有公共点(s ,t );②直线l 1和l 2相交,但交点不一定是(s ,t ); ③必有l 1∥l 2;④l 1与l 2必定重合.二、解答题(共42分) 9.(14分)(2010·威海模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:(1)(2)求出y 关于x 的线性回归方程y ^=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x )10.(14分)(2010·潍坊模拟)某种产品的宣传费支出x 与销售额y (单位:万元)之间有如下对应数据:(1)画出散点图; (2)求线性回归方程;(3)试预测宣传费支出为10万元时,销售额多大?11.(14分)(1)(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元?学案56 线性回归方程答案自主梳理1.确定性 非确定性 3.(1)线性相关关系 (2)最小 (3)∑ni =1(x i -x )(y i -y )∑ni =1(x i -x )2∑n i =1x i y i -n x y∑ni =1x 2i -n x2y -b x自我检测 1.①②③解析 根据两个变量相关关系的概念,可知①正确,散点图能直观地描述呈相关关系的两个变量的相关程度,且回归直线最能代表它们之间的相关关系,所以②、③正确.只有线性相关的数据才有线性回归直线方程,所以④不正确. 2.①③④ 3.5.25解析x =2.5,y =3.5,∵线性回归方程过定点(x ,y ),∴3.5=-0.7×2.5+a .∴a =5.25. 4.D解析 因为A 、B 、C 、E 四点分布在一条直线附近且贴近某一直线,D 点离得远. 5.y ^=74x +234解析 ∵∑3i =1x i y i =434,x =7,y =18,∑3i =1x 2i=179, ∴b =∑3i =1x i y i -3x y∑3i =1x 2i -3x 2=74. a =y -b x=18-74×7=234,∴线性回归方程为y ^=74x +234.课堂活动区例1 解题导引 判断变量间是否线性相关,一种常用的简便可行的方法就是作散点图.解 (1)以x 轴表示温度,以y 轴表示热饮杯数,可作散点图,如图所示.(2)从图中可以看出,各点散布在从左上角到右下角的区域里,因此,气温与热饮销售杯数之间是负相关关系,即气温越高,卖出去的热饮杯数越少.从散点图可以看出,这些点大致分布在一条直线附近,所以两变量之间具有相关关系. 变式迁移1 解 以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下图所示:由散点图可见,两者之间具有相关关系.例2 解题导引 求线性回归方程,关键在于正确求出系数a ,b ,由于计算量较大,所以计算时要仔细谨慎,分层进行,避免因计算产生失误,特别注意,只有在散点图大体呈线性时,求出的线性回归方程才有意义.解 制表如下:i 1 2 3 4 5 合计 x i 2 3 4 5 6 20 y i 2.2 3.8 5.5 6.5 7.0 25 x i y i 4.4 11.4 22.0 32.5 42.0 112.3 x 2i4 9 16 25 36 90 x =4;y =5;于是有b =112.3-5×4×590-5×42=12.310=1.23;a =y -b x =5-1.23×4=0.08.∴线性回归方程为y ^=1.23x +0.08.变式迁移2 解 x =1+2+3+44=52,y =12+32+2+34=74,∑n i =1x 2i=12+22+32+42=30,∑ni =1x i y i=1×12+2×32+3×2+4×3=432, ∴b =∑ni =1x i y i-n x y ∑n i =1x 2i -n x 2=432-4×52×7430-4×254=0.8,a =y -b x =74-0.8×52=-0.25,∴y ^=0.8x -0.25.例3 解题导引 利用线性回归方程可以进行预测,线性回归方程将部分观测值所反映的规律进行延伸,是我们对有线性相关关系的两个变量进行分析和控制,依据自变量的取值估计和预报因变量值的基础和依据,有广泛的应用.解 (1)散点图:(2)x =3+4+5+64=4.5,y =2.5+3+4+4.54=3.5,∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5.∑4i =1x 2i =32+42+52+62=86, ∴b =∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7, a =y -b x =3.5-0.7×4.5=0.35. ∴所求的回归方程为y ^=0.7x +0.35.(3)现在生产100吨甲产品用煤y ^=0.7×100+0.35=70.35, ∴降低90-70.35=19.65(吨标准煤). 变式迁移3 68解析 x =10,y =40, 回归方程过点(x ,y ), ∴40=-2×10+a .∴a =60. ∴y ^=-2x +60.令x =-4,y ^=(-2)×(-4)+60=68. 课后练习区 1.②⑤ 2.④解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以①②错误.③中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以③错误.根据线性回归方程一定经过样本中心点可知④正确.3.y ^=0.51x +6.65解析 a =y -b x =38.14-0.51×61.75≈6.65. ∴y ^=0.51x +6.65. 4.12.1解析 ∵y ^=0.8x +0.1,∴当x =15时,y ^=0.8×15+0.1=12.1. 5.不具有 6.650解析 将x =80代入y ^=5x +250中,即可得水稻的产量约为650 kg. 7.522解析 x 与y 的增长速度之比即为回归方程的斜率的倒数14.4=1044=522.8.①解析 线性回归方程为y ^=bx +a .而a =y -b x , 即a =t -bs ,t =bs +a .∴(s ,t )在回归直线上.∴直线l 1和l 2一定有公共点(s ,t ). 9.解(1)散点图如图所示.(4分) (2)由表中数据得∑4i =1x i y i=52.5,x =3.5,y =3.5,∑4i =1x 2i=54, ∴b ^=0.7.(7分) ∴a ^=y -b ^x =1.05.∴y ^ =0.7x +1.05.回归直线如图中所示.(10分) (3)将x =10代入线性回归方程, 得y =0.7×10+1.05=8.05(小时),∴预测加工10个零件需要8.05小时.(14分) 10.解 (1)根据表中所列数据可得散点图如图所示:(4分)(2)计算得:x =255=5,y =2505=50, ∑5i =1x 2i =145,∑5i =1x i y i =1 380. 于是可得b =∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2=1 380-5×5×50145-5×52=6.5,(7分)a =y -b x =50-6.5×5=17.5, 因此,所求线性回归方程是y ^=6.5x +17.5.(10分)(3)由上面求得的线性回归方程可知,当宣传费支出为10万元时, y ^=6.5×10+17.5=82.5(万元), 即这种产品的销售大约为82.5万元.(14分)11.解 (1)n =6,∑6i =1x i =21,∑6i =1y i=426,x =3.5,y =71, ∑6i =1x 2i =79,∑6i =1x i y i=1 481, b =∑6i =1x i y i -6x y ∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82.(5分)a =y -b x =71+1.82×3.5=77.37.∴线性回归方程为y ^=a +bx =77.37-1.82x . (8分)(2)因为单位成本平均变动b =-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有:产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (12分)(3)当产量为6 000件时,即x =6,代入线性回归方程:y ^=77.37-1.82×6=66.45(元).∴当产量为6 000件时,单位成本为66.45元.(14分)实用文档祝你高考成功!11。
一元线性回归分析1.理论回归分析是通过试验和观测来寻找变量之间关系的一种统计分析方法。
主要目的在于了解自变量与因变量之间的数量关系。
采用普通最小二乘法进行回归系数的探索,对于一元线性回归模型,设(X1,Y1),(X2,Y2),…,(X n,Y n)是取至总体(X,Y)的一组样本。
对于平面中的这n个点,可以使用无数条曲线来拟合。
要求样本回归函数尽可能好地拟合这组值。
综合起来看,这条直线处于样本数据的中心位置最合理。
由此得回归方程:y=β0+β1x+ε其中Y为因变量,X为解释变量(即自变量),ε为随机扰动项,β0,β1为标准化的偏斜率系数,也叫做回归系数。
ε需要满足以下4个条件:1.数据满足近似正态性:服从正态分布的随机变量。
2.无偏态性:∑(εi)=03.同方差齐性:所有的εi 的方差相同,同时也说明εi与自变量、因变量之间都是相互独立的。
4.独立性:εi 之间相互独立,且满足COV(εi,εj)=0(i≠j)。
最小二乘法的原则是以“残差平方和最小”确定直线位置。
用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。
最常用的是普通最小二乘法(OLS):所选择的回归模型应该使所有观察值的残差平方和达到最小。
线性回归分析根据已有样本的观测值,寻求β0,β1的合理估计值^β0,^β1,对样本中的每个x i,由一元线性回归方程可以确定一个关于y i的估计值^y i=^β0+^β1x i,称为Y关于x的线性回归方程或者经验回归公式。
^β0=y-x^β1,^β1=L xy/L xx,其中L xx=J12−x2,L xy=J1−xy,x=1J1 ,y=1J1 。
再通过回归方程的检验:首先计算SST=SSR+SSE=J1^y−y 2+J1−^y2。
其中SST为总体平方和,代表原始数据所反映的总偏差大小;SSR为回归平方和(可解释误差),由自变量引起的偏差,放映X的重要程度;SSE为剩余平方和(不可解释误差),由试验误差以及其他未加控制因子引起的偏差,放映了试验误差及其他随机因素对试验结果的影响。
简单线性回归分析思考与练习参考答案第10章简单线性回归分析思考与练习参考答案⼀、最佳选择题1.如果两样本的相关系数21r r =,样本量21n n =,那么( D )。
A. 回归系数21b b = B .回归系数12b b < C. 回归系数21b b > D .t 统计量11r b t t = E. 以上均错2.如果相关系数r =1,则⼀定有( C )。
A .总SS =残差SSB .残差SS =回归SSC .总SS =回归SSD .总SS >回归SS E.回归MS =残差MS3.记ρ为总体相关系数,r 为样本相关系数,b 为样本回归系数,下列( D )正确。
A .ρ=0时,r =0B .|r |>0时,b >0C .r >0时,b <0D .r <0时,b <0 E. |r |=1时,b =14.如果相关系数r =0,则⼀定有( D )。
A .简单线性回归的截距等于0B .简单线性回归的截距等于Y 或XC .简单线性回归的残差SS 等于0D .简单线性回归的残差SS 等于SS 总E .简单线性回归的总SS 等于05.⽤最⼩⼆乘法确定直线回归⽅程的含义是( B )。
A .各观测点距直线的纵向距离相等B .各观测点距直线的纵向距离平⽅和最⼩C .各观测点距直线的垂直距离相等D .各观测点距直线的垂直距离平⽅和最⼩E .各观测点距直线的纵向距离等于零⼆、思考题1.简述简单线性回归分析的基本步骤。
答:①绘制散点图,考察是否有线性趋势及可疑的异常点;②估计回归系数;③对总体回归系数或回归⽅程进⾏假设检验;④列出回归⽅程,绘制回归直线;⑤统计应⽤。
2.简述线性回归分析与线性相关的区别与联系。
答:区别:(1)资料要求上,进⾏直线回归分析的两变量,若X 为可精确测量和严格控制的变量,则对应于每个X 的Y 值要求服从正态分布;若X 、Y 都是随机变量,则要求X 、Y 服从双变量正态分布。
直线相关分析只适⽤于双变量正态分布资料。
,,,本科学生实验报告学号: ########## 姓名:¥学院:生命科学学院专业、班级:11级应用生物教育A班实验课程名称:生物统计学实验教师:孟丽华(教授)开课学期: 2021 至 2021 学年下学期填报时间: 2021 年 5 月 22 日云南师范大学教务处编印→“线性(L)…”,将“5月上旬50株棉蚜虫数(Y)”移到因变量列表(D)中,将“4月下旬平均气温(X)”移入自变量列表(I)中进行分析;1)、点“统计量(S)”,回归系数:在“估计(E)”、“置信区间水平(%)95”前打钩,“模型拟合性(M)”、“描述性”前打钩,残差:个案诊断(C)前打钩,点“所有个案”,点“继续”;2)、点“绘制(T)…”,将“DEPENDNP”移入“Y(Y)”列表中,将“ZPRED”移入“X2(X)”中,标准化残差图:在“直方图(H)”、“正太概率图(R)”前打钩,点“继续”;3)、点“保存(S)…”,所有的默认,点“继续”;4)、点“选项(O)…”,所有的都默认,点“继续”,然后点击“确定”便出结果;统计量(S)…选项(O)…(默认)绘制(T)…保存(S)…(默认)(二)、习题1、启动spss软件:开始→所有程序→SPSS→spss for windows→spss for windows,直接进入SPSS数据编辑窗口进行相关操作;2、定义变量,输入数据。
点击“变量视图”定义变量工作表,用“name”命令定义变量“维生素C的含量”(小数点两位);变量“受冻情况”(小数点零位),“未受冻”赋值为“1”,“受冻”赋值为“2” ,点击“变量视图工作表”,一一对应将不同“未受冻”与“受冻”的维生素C的含量数据依次输入到单元格中;3、设置分析变量。
数据输入完后,点菜单栏:“分析(A)”→“相关(C)”→“双变量(B)…”,将“维生素C含量”、“受冻情况”变量(V)列表中,相关系数:“Pearson”前打钩,显著性检验:双侧检验(T)前打钩,“标记显著性相关(F)前打钩”,点“选项(O)…”,统计量:在“均值和标准差(M)”前打钩,缺失值:在“按对排除个案(P)”前打钩,点“继续”,然后点击“确定”便出结果。