最新回归分析的基本知识点及习题
- 格式:docx
- 大小:114.46 KB
- 文档页数:12
回归分析考试试题及答案一、单项选择题(每题2分,共20分)1. 回归分析中,自变量和因变量之间的关系是()。
A. 确定性关系B. 函数关系C. 相关关系D. 因果关系答案:C2. 简单线性回归模型中,回归系数的估计值是通过()方法得到的。
A. 最小二乘法B. 最大似然法C. 贝叶斯方法D. 决策树方法答案:A3. 在多元线性回归分析中,如果自变量之间存在完全相关关系,则会导致()。
A. 多重共线性B. 异方差性C. 自相关D. 非线性答案:A4. 回归分析中,残差平方和(SSE)是用来衡量()的。
A. 模型的拟合优度B. 模型的预测能力C. 模型的解释能力D. 模型的预测误差答案:D5. 回归方程的显著性检验中,F检验的零假设是()。
A. 所有回归系数都等于0B. 所有回归系数都不等于0C. 至少有一个回归系数等于0D. 至少有一个回归系数不等于0答案:A6. 回归分析中,调整后的R平方(Adjusted R-squared)用于()。
A. 调整模型的复杂性B. 调整样本量的大小C. 调整自变量的数量D. 调整因变量的范围答案:C7. 在回归分析中,如果自变量的增加导致因变量的增加,则称自变量和因变量之间存在()。
A. 正相关B. 负相关C. 无相关D. 完全相关答案:A8. 回归分析中,残差的标准差(S)是用来衡量()的。
A. 模型的拟合优度B. 模型的预测能力C. 模型的解释能力D. 模型的预测误差答案:D9. 在多元线性回归中,如果一个自变量的t统计量显著,那么我们可以得出结论()。
A. 该自变量对因变量有显著影响B. 该自变量对因变量没有显著影响C. 该自变量对因变量的影响不明确D. 该自变量对因变量的影响是正的答案:A10. 回归分析中,Durbin-Watson统计量用于检测()。
A. 多重共线性B. 异方差性C. 自相关D. 非线性答案:C二、多项选择题(每题3分,共15分)11. 以下哪些因素可能导致回归模型中的异方差性?()A. 模型中遗漏了重要的解释变量B. 模型中包含了不应该包含的变量C. 模型中的误差项不是独立同分布的D. 模型中的误差项具有非恒定的方差答案:CD12. 在回归分析中,以下哪些方法可以用来处理多重共线性问题?()A. 增加样本量B. 移除相关性高的自变量C. 使用岭回归D. 增加更多的自变量答案:BC13. 以下哪些是回归分析中常用的诊断图?()A. 残差图B. 正态Q-Q图C. 散点图D. 杠杆值图答案:ABD14. 在回归分析中,以下哪些因素可能导致模型的预测能力下降?()A. 模型过拟合B. 模型欠拟合C. 模型中的误差项具有自相关性D. 模型中的误差项具有异方差性答案:ABCD15. 以下哪些是回归分析中常用的模型选择标准?()A. AIC(赤池信息准则)B. BIC(贝叶斯信息准则)C. R平方D. 调整后的R平方答案:ABCD三、简答题(每题10分,共30分)16. 简述简单线性回归模型的基本形式。
课后训练一、选择题1.为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用线性回归方法,求得回归直线分别为l1和l2.已知两个人在试验中发现对变量x的观测数据的平均值都是s,对变量y的观测数据的平均值都是t,那么下列说法正确的是()A.l1和l2有交点(s,t)B.l1与l2相交,但交点不一定是(s,t)C.l1与l2必定平行D.l1与l2必定重合2.下列四个命题中正确的是( )①在线性回归模型中,e是bx+a预报真实值y的随机误差,它是一个观测的量;②残差平方和越小的模型,拟合的效果越好;③用R2来刻画回归方程,R2越小,拟合的效果越好;④在残差图中,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,若带状区域宽度越窄,说明拟合精度越高,回归方程的预报精度越高.A.①③B.②④C.①④D.②③3.已知x,y取值如下表:若x,y y=0.95x+a,则a=( )A.0.325 B.2。
6C.2。
2 D.04.某学校开展研究性学习活动,某同学获得一组实验数据如下表:对于表中数据,( )A .y =2x -2B .12xy ⎛⎫= ⎪⎝⎭C .y =log 2xD .y =12(x 2-1)5.若某地财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0。
5.如果今年该地区财政收入10亿元,年支出预计不会超过( )A .10亿B .9亿C .10.5亿D .9.5亿6.某产品的广告费用x 与销售额y 的统计数据如下表:y bx a =+b 费用为6万元时销售额为( )A .63.6万元B .65。
5万元C .67.7万元D .72.0万元 二、填空题7.在研究身高和体重的关系时,求得R 2≈______,可以叙述为“身高解释了64%的体重变化,而随机误差贡献了剩余的36%”,所以身高对体重的效应比随机误差的效应大得多.8.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:小李这5的方法,预测小李该月6号打6小时篮球的投篮命中率为__________.三、解答题9.恩格尔系数=食物支出金支出金额总额×100%.在我国,据恩格尔系数判定生活发展阶段的标准为:贫困:>60%,温饱:50%~60%,小康:40%~50%,富裕:<40%.据国家统计局统计显示,随着中国经济的不断发展,城镇居民家庭恩格尔系数不断下降,居民消费已从温饱型向享受型、发展型转变.如下表:(2)预报2013年的恩格尔系数;(3)求R2;(4)作出残差图.10.关于x与y有以下数据:已知x与y 6.5b ,(1)求y与x的线性回归方程;(2)现有第二个线性模型:y=7x+17,且R2=0。
第四章 回归分析专题一、知识点列表二、关键词1、对数-对数模型 关键词: 对数-对数模型对数-对数模型旨在将非线性形式变量转换为简单变量。
记为:1122ln ln ln ln ln y x x A u ββ=+++1β度量了y 对1x 的弹性,即y 的单位变动引起1x 单位变动的百分比,因此我们也称对数-对数模型为常弹性模型 2、对数-线性模型 关键词: 对数-线性模型研究者时常对某一经济变量的增长率感兴趣,而对数-线性模型可以符合他们的使用需求。
记为:ln y x u αβ=++。
被解释变量是对数形式,解释变量是水平值,该模型也称为半对数模型。
在此模型中,β表示的x 单位变动引起y 相对量的平均增量,即y 变动100%β。
正因对数—线性模型具备度量变量增长率的特性,故此模型亦称增长率模型。
3、倒数模型 关键词:倒数模型通常把如下形式的模型称为倒数模型:1+i i i i iY X αβμ=+⋅。
倒数模型的一个显著特征是,随着X 的无限增大,1X趋于零,y 将逐渐接近i β的渐进值或极值。
所以,当变量X 无限增大时,倒数回归模型将逐渐趋于渐近值或极值。
4. 多项式回归模型 关键词:多项式回归模型研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归。
如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。
可记为:23123i i i i i Y X X X αβββμ=++++。
多项式回归的最大优点就是可以通过增加X 的高次项对实测点进行逼近,直至满意为止。
因此可以将多项式回归当做处理非线性问题的一种方法。
5、虚拟变量回归 关键词:虚拟变量虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。
引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到两个方程的作用,而且接近现实。
高考回归分析知识点回归分析是统计学中一种重要的分析方法,用于研究变量之间的关系和预测。
在高考数学中,回归分析也是一个重要的知识点。
本文将介绍高考中常见的回归分析知识点,并结合具体例子进行解析。
一、简单线性回归1. 定义:简单线性回归是指在研究两个变量之间关系时,其中一个变量为自变量,另一个变量为因变量,且二者之间存在线性关系的情况。
2. 公式:简单线性回归模型的数学表示为:Y = α + βX + ε,其中Y为因变量,X为自变量,α和β为常数,ε为误差项。
3. 参数估计:通过最小二乘法可以估计出回归系数α和β的值,从而建立回归方程。
示例:假设我们想研究学生的学习时间与考试分数之间的关系。
我们收集了一组数据,学习时间(自变量X)和考试分数(因变量Y)的数值如下:学习时间(小时):[5, 10, 15, 20, 25, 30]考试分数(分数):[60, 70, 75, 80, 85, 90]通过简单线性回归分析,我们可以建立回归方程为:Y = 55 + 0.75X,说明学习时间对考试分数有正向影响。
二、多元线性回归1. 定义:多元线性回归是指在研究多个自变量与一个因变量之间关系时的回归分析方法。
它可以用来探究多个因素对因变量的影响程度,并进行预测和解释。
2. 公式:多元线性回归模型的数学表示为:Y = α + β₁X₁ + β₂X₂+ ... + βₚXₚ + ε,其中Y为因变量,X₁、X₂、...、Xₚ为自变量,α和β₁、β₂、...、βₚ为常数,ε为误差项。
3. 参数估计:同样通过最小二乘法可以估计出回归系数α和β₁、β₂、...、βₚ的值,从而建立回归方程。
示例:我们想研究学生的考试分数与学习时间、家庭收入、家庭教育水平等因素之间的关系。
我们收集了一组数据,学习时间(自变量X₁)、家庭收入(自变量X₂)、家庭教育水平(自变量X₃)和考试分数(因变量Y)的数值如下:学习时间(小时):[5, 10, 15, 20, 25, 30]家庭收入(万元):[8, 10, 12, 15, 18, 20]家庭教育水平(年):[10, 12, 14, 16, 18, 20]考试分数(分数):[60, 70, 75, 80, 85, 90]通过多元线性回归分析,我们可以建立回归方程为:Y = 50 +0.7X₁ + 1.2X₂ + 1.5X₃,说明学习时间、家庭收入和家庭教育水平都对考试分数有正向影响。
回归分析知识点总结框架一、引言1.1 背景介绍1.2 研究目的1.3 研究意义1.4 文章结构二、回归分析的基本概念2.1 回归分析的定义2.2 回归分析的基本原理2.3 简单线性回归与多元线性回归的区别2.4 回归分析的应用领域三、回归分析的基本假设3.1 线性关系假设3.2 多重共线性假设3.3 随机误差项的假设3.4 检验回归模型的假设条件四、简单线性回归4.1 简单线性回归的模型4.2 参数估计4.3 拟合优度的度量4.4 假设检验4.5 模型诊断4.6 模型应用与解释五、多元线性回归5.1 多元线性回归的模型5.2 参数估计5.3 拟合优度的度量5.4 假设检验5.5 多重共线性的诊断和处理 5.6 异方差的诊断和处理5.7 模型的解释与应用六、回归模型的诊断6.1 残差分析6.2 异方差性检验6.3 多重共线性检验6.4 模型的适用性检验6.5 模型的稳健性检验七、回归分析的应用案例7.1 教育经济学中的回归分析 7.2 医学研究中的回归分析7.3 金融领域中的回归分析7.4 市场营销中的回归分析7.5 社会科学研究中的回归分析八、高级回归模型8.1 非线性回归模型8.2 广义线性模型8.3 自变量选择与建模8.4 时间序列回归分析8.5 多层次回归分析九、回归分析软件的应用9.1 SPSS中的回归分析9.2 SAS中的回归分析9.3 R语言中的回归分析9.4 Python中的回归分析9.5 MATLAB中的回归分析十、结论与展望10.1 研究总结10.2 研究不足10.3 未来研究方向十一、参考文献十二、附录以上是回归分析知识点总结的框枋,每个部分可以进一步细化,写入详细的内容来进行阐述。
最新回归分析练习题(有答案)1.1回归分析的基本思想及其初步应⽤⼀、选择题 1. 某同学由x 与y 之间的⼀组数据求得两个变量间的线性回归⽅程为y bx a =+,已知:数据x 的平均值为2,数据y 的平均值为3,则 ( )A .回归直线必过点(2,3)B .回归直线⼀定不过点(2,3)C .点(2,3)在回归直线上⽅D .点(2,3)在回归直线下⽅2. 在⼀次试验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则Y 与X 之间的回归直线⽅程为()A .$yx 1=+B .$y x 2=+C .$y 2x 1=+ D.$yx 1=-3. 在对两个变量x ,y 进⾏线性回归分析时,有下列步骤:①对所求出的回归直线⽅程作出解释;②收集数据(i x 、i y ),1,2i =,…,n ;③求线性回归⽅程;④求未知参数;⑤根据所搜集的数据绘制散点图如果根据可⾏性要求能够作出变量,x y 具有线性相关结论,则在下列操作中正确的是() A .①②⑤③④ B .③②④⑤① C .②④③①⑤ D .②⑤④③①4. 下列说法中正确的是()A .任何两个变量都具有相关关系B .⼈的知识与其年龄具有相关关系C .散点图中的各点是分散的没有规律D .根据散点图求得的回归直线⽅程都是有意义的5. 给出下列结论:(1)在回归分析中,可⽤指数系数2R 的值判断模型的拟合效果,2R 越⼤,模型的拟合效果越好;(2)在回归分析中,可⽤残差平⽅和判断模型的拟合效果,残差平⽅和越⼤,模型的拟合效果越好;(3)在回归分析中,可⽤相关系数r 的值判断模型的拟合效果,r 越⼩,模型的拟合效果越好;(4)在回归分析中,可⽤残差图判断模型的拟合效果,残差点⽐较均匀地落在⽔平的带状区域中,说明这样的模型⽐较合适.带状区域的宽度越窄,说明模型的拟合精度越⾼.以上结论中,正确的有()个.A .1B .2C .3D .4 6. 已知直线回归⽅程为2 1.5y x =-,则变量x 增加⼀个单位时(A.y 平均增加1.5个单位B.y 平均增加2个单位C.y 平均减少1.5个单位D.y 平均减少2个单位7. 下⾯的各图中,散点图与相关系数r 不符合的是()8. ⼀位母亲记录了⼉⼦3~9岁的⾝⾼,由此建⽴的⾝⾼与年龄的回归直线⽅程为?7.1973.93yx =+,据此可以预测这个孩⼦10岁时的⾝⾼,则正确的叙述是()A .⾝⾼⼀定是145.83cmB .⾝⾼超过146.00cmC .⾝⾼低于145.00cmD .⾝⾼在145.83cm 左右9. 在画两个变量的散点图时,下⾯哪个叙述是正确的( ) (A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意⼀个变量在x 轴上 (D)可以选择两个变量中任意⼀个变量在y 轴上10. 两个变量y 与x 的回归模型中,通常⽤2R 来刻画回归的效果,则正确的叙述是()A. 2R 越⼩,残差平⽅和⼩B. 2R 越⼤,残差平⽅和⼤C. 2R 于残差平⽅和⽆关 D. 2R 越⼩,残差平⽅和⼤ 11. 两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下,其中拟合效果最好的模型是( )A.模型1的相关指数2R 为0.98B.模型2的相关指数2R 为0.80C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.2512. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( ) A.总偏差平⽅和 B.残差平⽅和 C.回归平⽅和 D.相关指数R 2产率为1000元时,⼯资为90元14. 下列结论正确的是()①函数关系是⼀种确定性关系;②相关关系是⼀种⾮确定性关系;③回归分析是对具有函数关系的两个变量进⾏统计分析的⼀种⽅法;④回归分析是对具有相关关系的两个变量进⾏统计分析的⼀种常⽤⽅法.A.①②B.①②③C.①②④D.①②③④15. 已知回归直线的斜率的估计值为1.23,样本点的中⼼为(4,5),则回归直线⽅程为()A.$1.234y x =+B.$1.235y x =+ C.$1.230.08y x =+ D.$0.08 1.23y x =+ ⼆、填空题16. 在⽐较两个模型的拟合效果时,甲、⼄两个模型的相关指数2R 的值分别约为0.96和0.85,则拟合效果好的模型是.17. 在回归分析中残差的计算公式为.18. 线性回归模型y bx a e =++(a 和b 为模型的未知参数)中,e 称为.19. 若⼀组观测值(x 1,y 1)(x 2,y 2)…(x n ,y n )之间满⾜y i =bx i +a+e i (i=1、2.…n)若e i 恒为0,则R 2为_____三、解答题20. 调查某市出租车使⽤年限x和该年⽀出维修费⽤y(万元),得到数据如下:使⽤年限x 2 3 4 5 6维修费⽤y2.2 3.8 5.5 6.5 7.0(2)由(1)中结论预测第10年所⽀出的维修费⽤.(121()()()ni iiniix x y yb==-?-=-=-∑∑)21. 以下是某地搜集到的新房屋的销售价格y和房屋的⾯积x的数据:(1)画出数据对应的散点图;(2)求线性回归⽅程,并在散点图中加上回归直线;(3)据(2)的结果估计当房屋⾯积为2150m时的销售价格.(4)求第2个点的残差。
线性回归分析与应用例题和知识点总结在统计学和数据分析的领域中,线性回归分析是一种非常重要和常用的方法。
它可以帮助我们理解变量之间的线性关系,并进行预测和推断。
接下来,让我们一起深入探讨线性回归分析的知识点,并通过一些具体的例题来加深理解。
一、线性回归的基本概念线性回归是一种用于建立两个或多个变量之间线性关系的统计方法。
简单线性回归涉及两个变量,一个是自变量(通常用 x 表示),另一个是因变量(通常用 y 表示)。
其基本形式可以表示为:y = b₀+b₁x,其中 b₀是截距,b₁是斜率。
二、线性回归的假设条件在进行线性回归分析时,有几个重要的假设条件需要满足:1、线性关系:自变量和因变量之间存在线性关系。
2、独立性:观测值之间相互独立。
3、正态性:残差(实际值与预测值之间的差异)服从正态分布。
4、同方差性:残差的方差在不同的自变量取值上是相同的。
三、最小二乘法为了确定线性回归方程中的参数 b₀和 b₁,我们通常使用最小二乘法。
其基本思想是使残差平方和最小,即找到一组 b₀和 b₁的值,使得观测值与预测值之间的差异最小化。
四、决定系数(R²)决定系数用于衡量回归模型对数据的拟合程度。
R²的取值范围在 0 到 1 之间,越接近 1 表示模型拟合得越好。
五、例题分析假设我们想研究一个城市中房屋面积(自变量 x)与房屋价格(因变量 y)之间的关系。
我们收集了以下 10 组数据:|房屋面积(平方米)|房屋价格(万元)|||||80|120||90|135||100|150||110|165||120|180||130|195||140|210||150|225||160|240||170|255|首先,计算这组数据的均值:x 的均值=(80 + 90 + 100 + 110 + 120 + 130 + 140 + 150 +160 + 170)/ 10 = 125 平方米y 的均值=(120 + 135 + 150 + 165 + 180 + 195 + 210 + 225 + 240 + 255)/ 10 = 180 万元然后,计算斜率 b₁:\\begin{align}b_1&=\frac{\sum_{i=1}^{n}(x_i \bar{x})(y_i \bar{y})}{\sum_{i=1}^{n}(x_i \bar{x})^2}\\&=\frac{(80 125)(120 180) +(90 125)(135 180) +\cdots +(170 125)(255 180)}{(80 125)^2 +(90 125)^2 +\cdots +(170 125)^2}\\&=15\end{align}\截距 b₀= y 的均值 b₁ x 的均值= 180 15 125 =-75所以,线性回归方程为 y =-75 + 15x接下来,我们可以用这个方程进行预测。
第一章习题1.1变量间统计关系和函数关系的区别是什么?1.2回归分析与相关分析的区别和联系是什么?1.3回归模型中随机误差项的意义是什么?1.4线性回归模型中的基本假设是什么?1.5回归变量设置的理论依据是什么?在设置回归变量时应注意哪些问题?1.6收集、整理数据包括哪些基本内容?1.7构造回归理论模型的基本依据是什么?1.8为什么要对回归模型进行检验?1.9回归模型有哪几个方面的应用?1.10为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合?第二章 习题2.1一元线性回归模型有哪些基本假定? 2.2 考虑过原点的线性回归模型1,1,,i i i y x i n βε=+=误差1,,n εε仍满足基本假定。
求1β的最小二乘估计。
2.3证明(2.27)式,10nii e==∑,10ni i i x e ==∑。
2.4回归方程01Ey x ββ=+的参数01,ββ的最小二乘估计与极大似然估计在什么条件下等价?给出证明。
2.5 证明0ˆβ是0β的无偏估计。
2.6 证明(2.42)式 ()()222021,i x Var n x x βσ⎡⎤=+⎢⎥-⎢⎥⎣⎦∑成立 2.7 证明平方和分解式SST SSR SSE =+2.8 验证三种检验的关系,即验证:(1)t ==(2)2212ˆ1ˆ2xx L SSR F t SSE n βσ===-2.9 验证(2..63)式:()()221var 1i i xx x x e n L σ⎡⎤-=--⎢⎥⎢⎥⎣⎦2.10 用第9题证明()2211ˆˆ2n i ii y y n σ==--∑是2σ的无偏估计。
2.11* 验证决定系数2r 与F 值之间的关系式 22Fr F n =+-以上表达式说明2r 与F 值是等价的,那么我们为什么要分别引入这两个统计量,而不是只使用其中的一个。
2.12* 如果把自变量观测值都乘以2,回归参数的最小二乘估计0ˆβ和1ˆβ会发生什么变化?如果把自变量观测值都加上2,回归参数的最小二乘估计0ˆβ和1ˆβ会发生什么变化? 2.13 如果回归方程01ˆˆˆy x ββ=+相应的相关系数r 很大,则用它预测时,预测误差一定较小。
回归分析的基本知识点及习题本周难点:(1)求回归直线方程,会用所学的知识对实际问题进行回归分析.(2)掌握回归分析的实际价值与基本思想.(3)能运用自己所学的知识对具体案例进行检验与说明.(4)残差变量的解释;(5)偏差平方和分解的思想;1.回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫作回归直线。
求回归直线方程的一般步骤:①作出散点图(由样本点是否呈条状分布来判断两个量是否具有线性相关关系),若存在线性相关关系→②求回归系数→③写出回归直线方程,并利用回归直线方程进行预测说明.2.回归分析:对具有相关关系的两个变量进行统计分析的一种常用方法。
建立回归模型的基本步骤是:①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).③由经验确定回归方程的类型.④按一定规则估计回归方程中的参数(最小二乘法);⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.4.残差变量的主要来源:(1)用线性回归模型近似真实模型(真实模型是客观存在的,通常我们并不知道真实模型到底是什么)所引起的误差。
可能存在非线性的函数能够更好地描述与之间的关系,但是现在却用线性函数来表述这种关系,结果就会产生误差。
这种由于模型近似所引起的误差包含在中。
(2)忽略了某些因素的影响。
影响变量的因素不只变量一个,可能还包含其他许多因素(例如在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素的影响),但通常它们每一个因素的影响可能都是比较小的,它们的影响都体现在中。
(3)观测误差。
由于测量工具等原因,得到的的观测值一般是有误差的(比如一个人的体重是确定的数,不同的秤可能会得到不同的观测值,它们与真实值之间存在误差),这样的误差也包含在中。
上面三项误差越小,说明我们的回归模型的拟合效果越好。
二、例题选讲1为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系.(2)=(0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74, =(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,=≈0.813 6,=1.42-1.74×0.813 6≈0.004 3,∴回归方程=0.813 6x +0.004 3. 2下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程=x +; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? 解 (1)散点图如下图:(2)==4.5,==3.5=3×2.5+4×3+4×5+6×4.5=66.5.=32+42+52+62=86∴===0.7=-=3.5-0.7×4.5=0.35. ∴所求的线性回归方程为=0.7x +0.35. (3)现在生产100吨甲产品用煤 y =0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.x 101y 101bˆ∑∑==-∙-ni ini i i x n xyx n y x 1221aˆyˆyˆb ˆa ˆx 46543+++y 45.4435.2+++∑=41i ii yx ∑=412i ixbˆ24124144x xyx yx i ii ii -∙-∑∑==25.44865.45.345.66⨯-⨯⨯-aˆy b ˆx yˆ3科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.4在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程. 解 =30,==93.6.=≈0.880 9.=-=93.6-0.880 9×30=67.173. ∴回归方程为=0.880 9x +67.173. 5.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,=21,=426,=3.5,=71,=79,=1 481,x y 5.1283.1120.850.767.66++++bˆ25125155x xyx yx i ii ii -∙-∑∑==aˆy b ˆx yˆ∑=61i ix∑=61i iyx y ∑=612i i x ∑=61i ii yx===-1.82.=-=71+1.82×3.5=77.37. 回归方程为=+x =77.37-1.82x . (2)因为单位成本平均变动=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b 的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入回归方程:=77.37-1.82×6=66.45(元) 当产量为6 000件时,单位成本为66.45元.1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案 a ,c ,b2.回归方程=1.5x -15,则下列说法正确的有 个. ①=1.5-15②15是回归系数a ③1.5是回归系数a ④x =10时,y =0答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y (cm)与年龄x (岁)的回归模型为=8.25x +60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm ②该地区2~9岁的儿童每年身高约增加8.25 cm③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高 答案 ②4.某人对一地区人均工资x (千元)与该地区人均消费y (千元)进行统计调查,y 与x 有相关关系,得到回归直线方程=0.66x +1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%5.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得=52,=228,=478,=1 849,则其线性回归方程为 .答案 =11.47+2.62x 6.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;bˆ26126166x xyx yx i ii ii -∙-∑∑==25.3679715.364811⨯-⨯⨯-aˆy b ˆx yˆa ˆb ˆbˆyˆyˆy x yˆyˆ∑=81i ix∑=81i iy∑=812i i x ∑=81i ii yx yˆ④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 .答案 ①③④7.已知关于某设备的使用年限x 与所支出的维修费用y (万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程=x +表示的直线一定过定点 . 答案 (4,5) 二、解答题8.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 9.(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)=109,=23.2,=60 975,=12 952,=≈0.196 2=-≈1.814 2 ∴=0.196 2x +1.814 2. 10.某公司利润y 与销售总额x (单位:千万元)之间有如下对应数据:y ˆb ˆa ˆx y ∑=512i ix∑=51i i iy xbˆ25125155x xyx yx i ii ii -∙-∑∑==aˆy b ˆx yˆ(1)画出散点图;(2)求回归直线方程; (3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)=(10+15+17+20+25+28+32)=21, =(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,=102+152+172+202+252+282+322=3 447,=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,==≈0.104,=-=2.1-0.104×21=-0.084, ∴=0.104x -0.084. (3)把x =24(千万元)代入方程得,=2.412(千万元). ∴估计销售总额为24千万元时,利润为2.412千万元.11某种产品的广告费支出x 与销售额y (单位:百万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:x 71y 71∑=712i ix∑=71i i iy xbˆ27127177x xyx yx i ii ii -∙-∑∑==221744731.22173.346⨯-⨯⨯-aˆy b ˆx yˆyˆ(2)列出下表,并用科学计算器进行有关计算:因此,==5,= =50, =145,=13 500,=1 380.于是可得:===6.5;=-=50-6.5×5=17.5. 因此,所求回归直线方程为:=6.5x +17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.独立性检验的基本知识点及习题本周内容: 一、基础知识梳理 1.独立性检验 利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。