2017-2018学年数学人教A版选修2-3优化练习:第三章 3.1 回归分析的基本思想及其初步应用 Word版含解析
- 格式:doc
- 大小:132.50 KB
- 文档页数:7
[课时作业] [A 组 基础巩固]1.下列各关系中是相关关系的是 ( )①路程与时间、速度的关系;②加速度与力的关系;③产品成本与产量的关系;④圆周长与圆面积的关系;⑤广告费支出与销售额的关系. A .①②④ B .①③⑤ C .③⑤D .③④⑤解析:①②④都是确定的函数关系. 答案:C2.下列关于残差的叙述正确的是( ) A .残差就是随机误差 B .残差就是方差 C .残差都是正数D .残差可用来判断模型拟合的效果 解析:由残差的相关知识可知D 正确. 答案:D3.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程为y ^=b ^x +a ^,那么下列说法中不正确的是( ) A .直线y ^=b ^x +a ^必经过点(x -,y -)B .直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线y ^=b ^x +a ^的斜率为1ni =∑x i y i -n x - y-1ni =∑x 2i -nx2D .直线y ^=b ^x +a ^的纵截距为y -b ^x解析:由用最小二乘法求回归直线方程的公式可知,A ,C ,D 都正确,B 不正确,回归直线可以不经过样本数据中的任何一个点.故应选B. 答案:B4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4解析:由变量x 与y 正相关知C ,D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 答案:A5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ^=0.577x -0.448(x 为人的年龄,y (单位:%)为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )A .年龄为37岁的人体内脂肪含量都为20.90%B .年龄为37岁的人体内脂肪含量为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的大部分的人体内脂肪含量为31.50%解析:当x =37时,y ^=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%. 答案:C6.如图是x 和y 的样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:经计算,去掉D (3, 10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大. 答案:D (3,10)7.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:由题意知[0.254(x +1)+0.321]-[0.254x +0.321]=0.254. 答案:0.2548.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________. 解析:由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^≈-2, ∴38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46. 答案:469.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如表:由资料看y 与解析:x =30,y =66.7+76.0+85.0+112.3+128.05=93.6.b ^=51i =∑x i y i -5x -y-51i =∑x 2i -5x2=17 035-14 0407 900-4 500=2 9953 400≈0.880 9.a ^=y -b ^x =93.6-0.880 9×30=67.173. 故回归方程为y ^=0.880 9x +67.173.10.某地10户家庭的年收入和年饮食支出的统计资料如下表:(2)如果某家庭年收入为9万元,预测其年饮食支出.解析:由题意知,年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如下图所示:从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系. (2)x =6,y =1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,b ^≈0.172,a ^=y -b ^x =0.798,从而得到回归直线方程为y ^=0.172x +0.798. 当x =9时,y ^=0.172×9+0.798=2.346(万元).[B 组 能力提升]1.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2如表:A .甲B .乙C .丙D .丁解析:相关指数R 2越大,表示回归模型的拟合效果越好. 答案:A2.在一次试验中,测得(x ,y )的四组值分别是(1,2),(2,3),(3,4),(4,5),则y 与x 间的回归方程为( ) A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1D.y ^=x -1解析:易知变量y 与x 具有线性相关关系,且b ^=1,x =2.5,y =3.5,∴a ^=3.5-1×2.5=1,故可得出线性回归方程为y ^=x +1. 答案:A3.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________. 解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08.答案:y ^=1.23x +0.084.某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =b x +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯.(已知回归系数b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x )解析:根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40.∴a ^=y -b ^x =40-(-2)×10=60,∴y ^=-2x +60, 当x =-5时,y ^=-2×(-5)+60=70. 答案:705.某公司利润y (单位:千万元)与销售总额x (单位:千万元)之间有如表对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解析:(1)散点图如图:(2)列表,并利用科学计算器进行有关计算.于是b ^=346.3-7×21×2.13 447-7×212≈0.104.a ^=2.1-0.104×21=-0.084, 因此回归直线方程为y ^=0.104x -0.084.(3)当x =24时,y =0.104×24-0.084=2.412(千万元).6.为探究某弹簧悬挂物体的质量x (单位:g)对弹簧长度y (单位:cm)的影响,分别将6个不同质量的物体悬挂在弹簧下,并测量弹簧的长度,数据如表所示(弹簧的质量忽略不计):(1)(2)根据散点图判断是否可以用线性回归模型进行拟合,如果可以,求y 与x 之间的回归直线方程;(3)求R 2,并对拟合效果做出评价. 解析:(1)散点图如图所示:(2)由于样本点分布在一条直线附近,所以可以用线性回归模型进行拟合.计算可得x =17.5,y ≈9.487,从而b ^=∑i =16(x i -x )(y i -y )∑i =16(x i -x )2≈0.183,a ^=y -b ^x ≈6.285.因此,y 与x 之间的回归直线方程为y ^=0.183x +6. 285. (3)因为∑i =16(y i -y ^i )2=0.013 175,∑i =16(y i -y )2=14.678 33,所以R 2=1-∑i =16(y i -y ^i )2∑i =16(y i -y )2≈0.999.由于R 2非常接近于1,因此拟合效果较好.。
课后导练基础达标1.工人月工资(元)依劳动生产率(千元)变化的回归方程为y-=50+80x 下列判断正确的是( )(1)劳动生产率为1 000元时,工资为130元 (2)劳动生产率提高1 000元则工资提高80元 (3)劳动生产率提高1 000元则工资提高130元 (4)当月工资为210元时,劳动生产率为2 000元A.(1)B.(2)C.(3)D.(4) 解析:由回归系数b 的意义知,b >0时,自变量和因变量按同向变化;b <0时,自变量和因变量按反向变化.B=80,可知只有(2)正确.B 2.相关关系与函数关系的区别是____________. 答案:函数关系是两个变量之间有完全确定的关系,而相关关系是两个变量之间并没有严格的确定关系,当一个变量变化时,另一变量的取值有一定的随机性.3.为考虑广告费用x 与销售额y 之间的关系,抽取了5家餐厅,得到如下数据:广告费用(千元)1.0 4.0 6.01 0.0 14.0 销售额(千元)19.0 44.0 40.0 52.0 53.0 现要使销售额达到6万元,则需广告费用为______________.(保留两位有效数字)解析:先求出回归方程yˆ=bx+a,令y ˆ=6,得x=1.5万元. 答案:1.5万元4.假设学生在初一和初二数学成绩是线性相关的,若10个学生初一(x )和初二(y)数学分数如下: x 74 71 72 68 76 73 67 70 65 74 y 76 75 71 70 76 79 65 77 62 72 试求初一和初二数学分数间的回归方程. 解析:因为x =71,∑2ix=50 520, y =72.3,∑iiyx =51 467,所以,b=27110505203.7271101051457⨯-⨯⨯⨯-≈1.218 2;a=72.3-1.218 2×71=-14.192. 回归直线方程是: yˆ=1.218 2x-14.192. 5.部分国家13岁学生数学测验平均分数为: 中国 朝国 瑞士 俄罗斯 法国 以色列 加拿大 英国 美国 约旦 授课天数251 222 207 210 174 215 188 192 180191 分数80 73 71 70 64 63 62 61 55 46试作出该数据的散点图并由图判断可否存在回归直线,若有则求出直线方程. 解析:(图略)由图知,存在回归直线方程. 因为x =203,∑2i x =416 824,y =64.5,∑iiyx =132 418,所以b=2203104168245.6420310132418⨯-⨯⨯-≈0.313 3; a=64.5-0.313 3×203=0.900 1,回归直线方程是:yˆ=0.313 3x+0.900 1. 综合运用6.电容器充电后,电压达到100 V ,然后开始放电.由经验知道,此后电压U 随时间t 变化的规律用公式u=Ae bt (b <0)表示.现测得时间t(s)时的电压U (V )如下所示: t: 0 1 2 3 4 5 6 7 8 9 10U:100 75 55 40 30 20 15 10 10 5 5 试求电压U 对时间t 的回归方程. 解析:对u=Ae bt 两边取自然对数得令y=lnu a=lnA 即y=a+bt t 0 1 2 3 4 5 6 7 8 9 10 y 4.6 4.3 4.0 3.9 3.4 2.9 2.7 2.3 2.3 1.6 1.6即ln uˆ=-0.3t+4.6 ∴uˆ=-0.3t+4.6 拓展探究 7.称SST=∑=-ni iy y12)(为总偏差平方和,SSE=∑=-ni i iyy12)ˆ(为残差平方和,SSR=∑=-ni i iy y12)ˆ(为回归平方和.在线性回归模型中,有∑=-ni iy y12)(=∑=-ni i i yy 12)ˆ(=∑=-ni i i y y 12)ˆ(. 解释总偏差平方和、残差平方和、回归平方和以及该等式的统计含义.解析:SST 度量y 自身的差异程度,即数据总的变动.SSE 度量实际值与拟合值之间的差异程度,即被回归方程解释的部分.SSR 度量因变量y 的拟合值自身的差异程度,即未被回归方程解释的部分. 统计含义:如果x 引起的变动部分在y 的总变动中占很大比例,那么x 很好地解释了y ,否则x 不能很好地解释y.即:在总偏差平方和中,回归平方和占所占比重越大,则线性回归效果就越好,否则效果就越差. 备选习题8.用721分光光度计在730 nm 波长处测定SiO 2含量,得以下数据(见表1) 表1 SiO 2含量(x )与吸光度(y)对应关系 SiO 2含量/(mg·mL -1) 吸光度 SiO 2含量/(mg·mL -1) 吸光度0 0.032 0.08 0.359 0.02 0.135 0.10 0.435 0.04 0.187 0.12 0.511 0.06 0.268若未知磷铵试液吸光度为0.250,未知磷铵中SiO 2含量是多少?用一元线性回归方程求之. 解析:先根据表1数据确定线性回归方程系数a 和b 的计算数据(见表2),然后按以下算式计算a 、b 值.y =7927.1=0.275 x =742.0=0.06 b=22)(1))((1∑∑∑∑∑--i i i i i i x n x y x n y x=2)42.0(710364.0)927.1)(42.0(711597.0--=3.94 a=bx y -=0.275-3.94×0.06=0.039 于是求得回归方程:y=0.039+3.94x9.现随机抽取了我校10名学生在入学考试中数学成绩(x )与入学后的第一次考试数学成绩(y),学生号 12 3 4 5 6 7 8 9 10 X 120 108 117 104 103 110 104 105 99 108 y 84 64 84 68 69 68 69 46 57 71请问:这10个学生的两次数学考试成绩是否具有显著性线性相关系? 解析:因为x =107.8, ∑2ix=116 584, y =68,∑2iy=47 384,∑ii y x =73 796,所以相关系数为: r=)68104738)(8.10710116584(688.107107379622⨯-⨯-⨯⨯-≈0.750 6,查表:显著性水平0.05,自由度10—2相应的相关关系临界值r 0.05=0.602 1,由r >r 0.05知,两次数学考试成绩有显著性的线性相关关系.。
第三章 3.1(建议用时:40分钟)1.有下列说法:①线性回归分析就是由样本点去寻找一条直线,贴近这些样本点的数学方法; ②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示; ③通过回归方程y ^=b ^x +a ^及其回归系数b ^,可以估计和预测变量的取值和变化趋势; ④因为由任何一组观测值都可以求得一个回归直线方程,所以没有必要进行相关性检验.其中正确的命题个数是( ) A .1 B .2 C .3D .4C 解析 ①反映的是最小二乘法思想,故正确;②反映的是画散点图的作用,故正确;③反映的是回归模型y =bx +a +e ,其中e 为随机误差,故也正确;④在求回归方程之前必须进行相关性检验,以体现两个变量的关系,故不正确.2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好; ③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是( ) A .0 B .1 C .2D .3D 解析 对于①,选用的模型是否合适与残差点的分布有关,均匀的分布在水平的带状区域时,说明模型比较合适,故①正确;对于②③,R 2值越大,说明残差平方和越小,随机误差越小,则模型的拟合效果越好,故②③正确.故选D 项.3.根据表中样本数据得到的回归方程为y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 y 4.02.5-0.50.5-2.0-3.0A .a >0,b >0B .a >0,b <0C .a ^<0,b ^>0D .a ^<0,b ^<0B 解析 作出散点图如图所示.观察图象可知,回归直线y ^=b ^x +a ^的斜率b ^<0,截距a ^>0.故选B 项.4.在一次试验中,测得(x ,y )的四组值分别是A (1,2),B (2,3),C (3,4),D (4,5),则y 与x 之间的回归直线方程为( )A .y ^=x +1 B .y ^=x +2 C .y ^=2x +1D .y ^=x -1A 解析 x =52,y =72,将⎝⎛⎭⎫52,72代入四个回归直线方程检验,仅A 项适合.故选A 项.5.甲、乙、丙、丁4位同学各自对A ,B 两变量作回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2,如表所示.甲 乙 丙 丁散点图残差平方和115106124103A .甲B .乙C .丙D .丁D 解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2表达式中i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁同学的精确度高些.故选D 项.6.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1,l 2.已知两人所得的试验数据中,变量x 和y 的数据的平均值都相等,且分别都是s ,t ,那么下列说法正确的是( )A .直线l 1和l 2一定有公共点(s ,t )B .直线l 1和l 2相交,但交点不一定是(s ,t )C .必有l 1∥l 2D .l 1与l 2必定重合A 解析 线性回归直线方程为y ^=b ^x +a ^.而a ^=y -b ^ x ,即a ^=t -b ^s ,t =b ^s +a ^.所以(s ,t )在回归直线上.所以直线l 1和l 2一定有公共点(s ,t ).故选A 项.二、填空题7.给定x 与y 的一组样本数据,求得相关系数r =-0.690,则下列说法正确的是________(填序号).①y 与x 的线性相关性很强; ②y 与x 的相关性很强; ③y 与x 正相关; ④y 与x 负相关.解析 因为r <0,所以y 与x 负相关,又|r |∈[0.75,1]才表示y 与x 具有很强的线性相关性,所以④正确.答案 ④8.某产品的广告费用x (单位:万元)与销售额y (单位:万元)的统计数据如下表所示,根据表中数据可得回归方程y ^=b ^x +a ^中的b ^=10.6,据此模型预报广告费用为10万元时销售额为________万元.解析 由表中数据得x =3.5,y =43,由于直线y =b x +a 过点(x ,y ),且b ^=10.6,解得a ^=5.9,从而线性回归方程为y ^=10.6x +5.9,于是当x =10时,计算得y ^=111.9.答案 111.99.已知关于变量x ,y 的一组数据如表所示.对于表中数据,现给出如下拟合直线:①y =x +1;②y =2x -1;③y =85x -25;④y =32x .根据最小二乘法的思想得到拟合程度最好的直线是____________(填序号).解析 列表得:故s 1s 2=(3-3)2+(4-5)2+(6-7)2+(8-9)2+(9-11)2=7, s 3=⎝⎛⎭⎫3-1452+⎝⎛⎭⎫4-2252+(6-6)2+⎝⎛⎭⎫8-3852+⎝⎛⎭⎫9-4652=25, s 4=(3-3)2+⎝⎛⎭⎫4-922+(6-6)2+⎝⎛⎭⎫8-1522+(9-9)2=12, 由s 3最小知直线③是拟合程度最好的直线. 答案 ③ 三、解答题10.某地区2012年至2018年农村居民家庭人均纯收入y (单位:万元)的数据如表所示.(2)利用(1)中的回归方程,分析2012年至2018年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.解析 (1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑7i =1 (t i -t )2=9+4+1+0+1+4+9=28,∑7 i =1 (t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑7 i =1 (t i -t )(y i -y )∑7i =1 (t i -t )2=1428=0.5. a ^=y -b ^t =4.3-0.5×4=2.3, 所以所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2012年至2018年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5万元.将2020年的年份代号t =9,代入(1)中的回归方程, 得y ^=0.5×9+2.3=6.8,故预测该地区2020年农村居民家庭人均纯收入为6.8万元. 11.某百货公司1~6月份的销售量x 与利润y 的统计数据如表所示.月份 1 2 3 4 5 6 销售量x /万件 10 11 13 12 8 6 利润y /万元222529261612(1)根据2~5月份的数据,画出散点图,求出y 关于x 的线性回归方程y =b ^x +a ^; (2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想?解析 (1)根据表中2~5月份的数据作出散点图,如图所示.计算得x =11,y =24,∑i =25x i y i =11×25+13×29+12×26+8×16=1 092,∑i =25x 2i =112+132+122+82=498. 则b ^=∑i =25x i y i -4x y∑i =25x 2i -4x2=1 092-4×11×24498-4×112=187, a ^=y -b ^x =24-187×11=-307.故y 关于x 的线性回归方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507,此时1507-22<2;当x =6时,y ^=187×6-307=787,此时⎪⎪⎪⎪787-12<2. 故所得的线性回归方程是理想的.12.在一次抽样调查中测得样本的5个样本点,数据如表所示.(1)作出散点图;(2)根据散点图判断y =kx +b 与y =kx +b 哪一个更适合y 与x 的回归方程;(3)根据下面表格中的数据,建立y 与x 的回归方程.令t =1x,b ^=∑i=1nx i y i -n x y∑i =1nx 2i -n x2,a ^=y -b ^x .解析 (1)直接依据表中数据绘点,如图所示.(2)根据散点图判断,y =kx+b 更适合y 与x 的回归方程.(3)由表可得b ^=∑i =1nt i y i -n t ·y∑i =1nt 2i -n t2=94.25-5×1.55×7.221.31-5×1.552=4.13,a ^=y -b ^t =7.2-4.13×1.55=0.8,所以y 与t 的线性回归方程为y ^=4.13t +0.8,y 与x 的回归方程为y ^=4.13x +0.8.四、选做题13.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如表所示.零件的个数x /个 2 3 4 5 加工的时间y /小时2.5344.5(1)择了2个不同模型,模型①:y ^=b ^x +a ^,模型②:y ^=c ^x +d ^,求a ^,b ^,c ^,d ^(精确到0.1);(2)比较两个不同的模型的相关指数R 21,R 22,指出哪种模型的拟合效果更好,并说明理由.附:令z =x ,则∑i =14z i y i =26.8;z =1.8,2≈1.4,3≈1.7,5≈2.2;R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y )2.解析 (1)散点图如图.模型①:由表中的数据得∑i =14x i y i =52.5,x =14∑i =14x i =3.5,y =14∑i =14y i =3.5,∑i =14x 2i =54,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x2=52.5-4×3.5×3.554-4×3.52≈0.7,a ^=y -b ^x =3.5-0.7×3.5≈1.1, 所以 y ^=0.7x +1.1.模型②:c ^=∑i =1ny i z i -n y z∑i =1nz 2i -n z2=26.8-4×3.5×1.82+3+5+4-4×1.82≈1.5, d ^=y -c ^z =3.5-1.5×1.8=0.8,所以y ^=1.5x +0.8. (2)模型①:R 21=1-[(2.5-2×0.7-1.1)2+(3-3×0.7-1.1)2+(4-4×0.7-1.1)2+(4.5-5×0.7-1.1)2]×[(2.5-3.5)2+(3-3.5)2+(4-3.5)2+(4.5-3.5)2]-1=0.976.模型②:R 22=1-[(2.5-1.4×1.5-0.8)2+(3-1.7×1.5-0.8)2+(4-2×1.5-0.8)2+(4.5-2.2×1.5-0.8)2]×[(2.5-3.5)2+(3-3.5)2+(4-3.5)2+(4.5-3.5)2]-1=0.807.又R 21>R 22,所以模型①的拟合效果更好.由Ruize收集整理。
学业分层测评(建议用时:45分钟)[学业达标]一、选择题1.有下列说法:①线性回归分析就是由样本点去寻找一条直线,贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;^=b^x+a^及其回归系数b^,可以估计和观测变量的取值和变③通过回归方程y化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确说法的个数是()A.1B.2C.3 D.4【解析】①反映的是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③反映的是回归模型y=bx+a+e,其中e为随机误差,故也正确.④不正确,在求回归方程之前必须进行相关性检验,以体现两变量的关系.【答案】 C2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有()A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反【解析】因为b>0时,两变量正相关,此时r>0;b<0时,两变量负相关,此时r<0.【答案】 A3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是()【解析】用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.【答案】 A4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如表所示:则y对A.y^=x-1B.y^=x+1C.y^=88+12x D.y^=176【解析】设y对x的线性回归方程为y^=b^x+a^,x=176,y=176,检验得y=88+x2过点(x,y).【答案】 C5.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(x i,y i)(i=1,2,…,n),用最小二乘法建立的回归方程为y^=0.85x -85.71,则下列结论中不正确的是()A.y与x具有正的线性相关关系B.回归直线过样本点的中心(x,y)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 【解析】 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确;由回归方程系数的意义可知回归直线过样本点的中心(x ,y ),B 正确;依据回归方程中y ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,C 正确;用回归方程对总体进行估计不能得到肯定的结论,故D 错误.【答案】 D 二、填空题6.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数R 2与残差平方和Q (a^,b ^)如下表:则能体现A .【解析】 丁同学所求得的相关指数R 2最大,残差平方和Q (a ^,b ^)最小.此时A ,B 两变量线性相关性更强.【答案】 丁7.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________.【导学号:29472084】【解析】 回归平方和=总偏差平方和-残差平方和=80-60=20,故R 2=2080=0.25或R 2=1-6080=0.25.【答案】 0.258.今年一轮又一轮的寒潮席卷全国.某市场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =bx +a 中的b =-2.气象部门预测下个月的平均气温约为6℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.【解析】 由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^=-2,所以38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46.【答案】 46 三、解答题9.某服装店经营某种服装,在某周内纯获利y (元)与该周每天销售这种服装件数x 之间的一组数据如下表:(1)(2)画出散点图;(3)求纯获利y 与每天销售件数x 之间的回归方程. 【解】 (1)x -=6,y -≈79.86,样本点的中心为(6,79.86). (2)散点图如下:(3)因为b^=∑i =17(x i -x -)(y i -y -)∑i =17 (x i -x -)2≈4.75,a ^=y --b ^x -≈51.36,所以y ^=4.75x +51.36.10.某班5名学生的数学和物理成绩如表:(1)(2)求物理成绩y 对数学成绩x 的回归方程;(3)一名学生的数学成绩是96,试预测他的物理成绩. 【解】 (1)散点图如图.(2)根据表中的数据,可以求得x =73.2,y =67.8,∑i =15x i y i =25 054,∑i =15x 2i =27 174,所以b^=∑i =15x i y i -5x y∑i =15x 2i -5x 2≈0.625.a ^=y -b ^x =67.8-0.625×73.2=22.05, 所以y 对x 的回归方程是y ^=0.625x +22.05. (3)y ^=0.625×96+22.05≈82, 可以预测他的物理成绩是82分.[能力提升]1. 如图3-1-2,5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是()图3-1-2A .相关系数r 变大B .残差平方和变大C .相关指数R 2变大D .解释变量x 与预报变量y 的相关性变强【解析】 由散点图知,去掉D 后,x 与y 的相关性变强,且为正相关,所以r 变大,R 2变大,残差平方和变小.【答案】 B2.某考察团对全国10大城市进行职工人均工资水平x (千元)与居民人均消费水平y (千元)统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )【导学号:29472085】A .83%B .72%C .67%D .66%【解析】 因为当y ^=7.675时,x =7.675-1.5620.66≈9.262,所以7.6759.262≈0.829≈83%.【答案】 A3.某品牌服装专卖店为了解保暖衬衣的销售量y (件)与平均气温x (℃)之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:由表中数据算出线性回归方程y =b x +a 中的b =-2,样本中心点为(10,38).(1)表中数据m =__________.(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__________件.【解析】 (1)由y =38,得m =40. (2)由a^=y -b ^ x ,得a ^=58,^=-2x+58,故y^=14,当x=22时,y故三月中旬的销售量约为14件.【答案】(1)40(2)144.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图3-1-3(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1 (u i -u )2,α^=v -β^ u . 【解】 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d^=∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68,c ^=y -d^ w =563-68×6.8=100.6, 所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值. 故年宣传费为46.24千元时,年利润的预报值最大.。
第三章 3.1一、选择题(每小题5分,共20分) 1.有下列说法:①残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适; ②用相关指数R 2来刻画回归的效果,R 2值越大,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是( ) A .0 B .1 C .2D .3解析: 对于①,正确,并且带状区域宽度越窄,说明拟合的精度越高,回归方程的预报精度越高.对于②③,R 2越大,残差平方和越小,说明模型的拟合效果越好,故②③正确.答案: D2.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =b x +a 中的b 为9.4,据此模型预报广告费用为6万元时,销售额为( )A .63.6万元B .65.5万元C .67.7万元D .72.0万元解析: 由表可计算x =4+2+3+54=72,y =49+26+39+544=42,因为点⎝⎛⎭⎫72,42在回归直线y ∧=b ∧x +a ∧上,且b ∧为9.4,所以42=9.4×72+a ∧,解得a ∧=9.1,故回归方程为y ∧=9.4x +9.1,令x =6得y ∧=65.5,故选B. 答案: B3.工人月工资y (单位:元)关于劳动生产率x (单位:千元)的回归方程y ∧=650+80x ,下列说法中正确的个数是( )①劳动生产率为1 000元时,工资为730元; ②劳动生产率提高1 000元,则工资提高80元; ③劳动生产率提高1 000元,则工资提高730元;④当月工资为810元时,劳动生产率约为 2 000元. A .1 B .2 C .3D .4解析: 代入方程计算可判断①②④正确. 答案: C4.甲、乙、丙、丁4位同学各自对A ,B 两变量做回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ∧i )2如下表:甲乙丙丁散点图残差平方和115106124103A .甲B .乙C .丙D .丁解析: 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2表达式中∑i =1n(y i -y )2为确定的数,则残差平方和越小,R 2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些.故选D.答案: D二、填空题(每小题5分,共10分)5.在研究气温和热茶销售杯数的关系时,若求得相关指数R 2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比随机误差的效应大得多.解析: 由相关指数R 2的意义可知,R 2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%.答案: 85% 15%6.若施肥量x (kg)与小麦产量y (kg)之间的回归直线方程为y ∧=250+4x ,当施肥量为50 kg 时,预计小麦产量为________.解析: 把x =50代入y ∧=250+4x ,可求得y ∧=450.答案: 450 kg三、解答题(每小题10分,共20分)7.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ∧=b ∧x +a ∧,其中b ∧=-20,a ∧=y -b ∧x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)解析: (1)因为x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,从而a ∧=y +20x =80+20×8.5=250,故y ∧=-20x +250.(2)由题意知,工厂获得利润z =(x -4)y =-20x 2+330x -1 000=-20⎝⎛⎭⎫x -3342+361.25, 所以当x =334=8.25时,z max =361.25(元).即当该产品的单价定为8.25元时,工厂可获得最大利润.8.某种产品的广告费用支出x 与销售额y (单位:百万元)之间有如下的对应数据关系:x /百万元 2 4 5 6 8 y /百万元3040605070(1)画出散点图; (2)求线性回归方程;(3)试预测广告费用支出为10百万元时,销售额多大? 解析: (1)散点图如图所示:(2)列出下表,并用科学计算器进行有关计算:i12345合计x i 2 45 6 8 25 y i 30 40 60 50 70 250 x i y i 60 160 300 300 560 1 380 x 2i416253664145所以,x =255=5,y =2505=50,∑i =15x 2i =145,∑i =15x i y i =1 380.于是可得b ∧=∑i =15x i y i -5x y∑i =15x 2i -5x2=1 380-5×5×50145-52×5=6.5,a ∧=y -b ∧x =50-6.5×5=17.5.所以所求的线性回归方程为y ∧=6.5x +17.5.(3)根据上面求得的线性回归方程,当广告费用支出为10百万元时,y ∧=6.5×10+17.5=82.5(百万元),即广告费用支出为10百万元时,销售额大约为82.5百万元.(10分)假设关于某设备的使用年限x 和所支出的维修费用y (万元)有如下的统计资料:使用年限x 2 3 4 5 6 维修费用y2.23.85.56.57.0若由资料知,y 对试求:(1)线性回归方程y ∧=b ∧x +a ∧中的a ∧,b ∧的值; (2)求残差平方和; (3)求相关指数R 2;(4)估计使用年限为10年时,维修费用是多少?解析: y 对x 呈线性相关关系,转化为一元线性相关的方法,根据公式分别计算. (1)由已知数据制成下表:i 1 2 3 4 5 合计 x i 2 3 4 5 6 20 y i 2.2 3.8 5.5 6.5 7.0 25 x i y i 4.4 11.4 22 32.5 42 112.3 x 2i4916253690x =4;y =5;∑i =15x 2i =90;∑i =15x i y i =112.3于是有b ∧=112.3-5×4×590-5×4×4=1.23,a ∧=y -b ∧x =5-1.23×4=0.08,∴y ∧=1.23x +0.08.(2)求公式y ∧1=1.23×2+0.08=2.54y ∧2=1.23×3+0.08=3.77,y ∧3=1.23×4+0.08=5,y ∧4=1.23×5+0.08=6.23,y ∧5=1.23×6+0.08=7.46,e ∧1=2.2-2.54=-0.34,e ∧2=3.8-3.77=0.03,e ∧3=5.5-5=0.5,e ∧4=6.5-6.23=0.27,e ∧5=7.0-7.46=-0.46. ∴残差平方和为:(-0.34)2+0.032+0.52+0.272+(-0.46)2=0.651. (3)R 2=1-0.651(-2.8)2+(-1.2)2+0.52+1.52+22≈0.958 7.(4)回归方程y ∧=1.23x +0.08,当x =10年时,y ∧=1.23×10+0.08=12.38(万元),即估计使用10年时,维修费用是12.38万元.。
教材习题点拨练习1.解:画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.评注:在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2.解:分析残差可以帮助我们解决以下几个问题:①寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错;②分析残差图可以发现模型选择是否合适.评注:分析残差是回归诊断的一部分内容,可以帮助发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等.3.解:(1)解释变量与预报变量的关系是线性函数的关系.(2)R2=1.评注:如果所有的样本点都在一条直线上,建立的线性回归模型一定是这条直线,即此时的模型为y=bx+a,没有随机误差项,所以是严格的一次函数关系.通过计算可以证明解释变量和预报变量之间的相关系数是1,而R2恰好等于相关系数的平方.习题3.11.解:(1)由表中数据制作的散点图如图所示1993~2002年中国GDP散点图从散点图中可以看出GDP值与年份近似呈现线性关系.(2)用y i表示GDP值,t表示年份.根据截距和斜率的最小二乘计算公式得ˆa≈-14 292 537.73,ˆb≈7 191.969,从而得线性回归方程ˆy=7 191.969t-14 292 537.73.残差计算结果见下表.GDP值与年份线性拟合残差表2003年实际GDP值为117 251.9亿元,预报与实际相差4 275.7亿元.(4)上面建立的回归方程的R2=0.974,说明年份能够解释97%的GDP值变化,因此所建立的模型能够很好地刻画GDP和年份的关系.2.提示:该题目的结果与具体的数据有关,不作统一答案.3.解:由表中数据得散点图如图所示.从散点图中可以看出震级x与地震数N之间不具有线性相关关系.从图中可以看出,随着x的减少,所考察的地震数N近似地以指数函数图象的形式增长.做变换y=lg N,得到的数据见下表:x和y从这个散点图可以看出x和y之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系.根据截距和斜率的最小二乘计算公式得ˆa=6.701 3,ˆb=-0.740 5,从而线性回归方程为ˆy=6.701 3-0.740 5x.其R2=0.997 4,说明x可以解释y的99.74%的变化.因此可以用回归方程ˆN=106.701 3-0.740 5x描述x和N之间的关系.。
学业分层测评(建议用时: 45 分钟 )[学业达标 ]一、选择题1.为了研究变量x 和 y 的线性相关性,甲、乙两人分别利用线性回归方法--得到回归直线 l 1和 l 2,已知两人计算过程中x , y 分别相同,则下列说法正确的是 ()A.l 1与 l2一定平行B.l1与 l2重合--C.l1与 l2相交于点 ( x, y )D.无法判断 l1和 l 2是否相交【解析】回归直线一定过样本点的中心--( x, y ),故 C 正确.【答案】C2.甲、乙、丙、丁四位同学在建立变量 x,y 的回归模型时,分别选择了 4 种不同模型,计算可得它们的相关指数 R2分别如下表:甲乙丙丁R20.98 0.78 0.500.85哪位同学建立的回归模型拟合效果最好?()A.甲B.乙C.丙D.丁【解析】相关指数 R2越大,表示回归模型的拟合效果越好.【答案】A3.对变量 x,y 进行回归分析时,依据得到的 4 个不同的回归模型画出残差图,则下列模型拟合精度最高的是()【解析】 用残差图判断模型的拟合效果, 残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适. 带状区域的宽度越窄, 说明模型的拟合精度越高.【答案】A4.对于指数曲线 y =ae bx ,令 U =ln y ,c =ln a ,经过非线性化回归分析后,可转化的形式为 ()A .U =c +bxB .U = b +cxC .y =c +bxD . y = b + cx【解析】由 y =ae bx 得 ln y =ln(ae bx ),∴ ln y = +ln aln e bx ,∴ l n y =ln a +bx ,∴ U =c +bx.故选 A.【答案】A5.为了解儿子身高与其父亲身高的关系,随机抽取5 对父子的身高数据如表所示:父亲身高 x(cm)174 176 176 176 178儿子身高 y(cm)175 175 176 177 177则 y 对 x 的线性回归方程为 () ^^ A.y =x -1 B.y =x +1^ 1 ^ C.y =88+ 2xD.y =176【解析】^ ^^ ,设 y 对 x 的线性回归方程为 y =b+x a^ -2× - 1 +0× - 1 +0×0+0×1+2×11 ^1因为 b =- 2 2+22= 2,a =176-2×176=^ 188,所以 y 对 x 的线性回归方程为 y = 2x +88.【答案】 C二、填空题6.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性进行分析,并用回归分析的方法分别求得相关指数2 ^ ^ 如下表:R 与残差平方和 Q(a ,b)甲 乙 丙 丁R 20.67 0.61 0.48 0.72^^106115124103, bQ(a )则能体现 A , B 两个变量有更强的线性相关性的为 ________.【解析】 丁同学所求得的相关指数2^ ^ 最小.此R 最大,残差平方和 Q(a ,b)时 A ,B 两变量线性相关性更强.【答案】 丁7.在对两个变量进行回归分析时,甲、乙分别给出两个不同的回归方程,(个数 )对比与实际相符数据个数 与实际不符合数据个数 总计 甲回归方程 32 8 40 乙回归方程40 20 60 总计7228100则从表中数据分析, ________回归方程更好 (即与实际数据更贴近 ). 【解析】 可以根据表中数据分析, 两个回归方程对数据预测的正确率进行32 440 2判断,甲回归方程的数据准确率为 40= 5,而乙回归方程的数据准确率为 60= 3.显然甲的准确率高些,因此甲回归方程好些.【答案】 甲8.如果某地的财政收入 x 与支出 y 满足线性回归方程y =bx + a + e(单位:亿元 ),其中 b = 0.8,a =2,|e|≤ 0.5,如果今年该地区财政收入为10 亿元,则年支出预计不会超过________亿元 .【导学号: 97270060】【解析】∵x = 10 时, y =0.8× 10+2+e =10+e ,并对回归方程进行检验.对这两个回归方程进行检验时,与实际数据结果如下:∵ |e|≤ 0.5,∴ y ≤ 10.5.【答案】10.5三、解答题9.某服装店经营某种服装, 在某周内纯获利 y(元 )与该周每天销售这种服装件数 x 之间的一组数据如下表:x3 4 5 6 7 8 9 y66697381899091(1)求样本点的中心;(2)画出散点图;(3)求纯获利 y 与每天销售件数 x 之间的回归方程.- -【解】(1) x =6, y ≈79.86,样本点的中心为 (6,79.86).(2)散点图如下:7--x i - xi - yi = 1y^^ -^-因为 =≈51.36,≈4.75,a = y-bx(3)b7- 2x i - xi = 1所以 ^= +y 4.75x 51.36.10.为了研究某种细菌随时间 x 变化繁殖个数 y 的变化,收集数据如下:时间 x/天1 2 3 4 5 6繁殖个数 y 612 25 49 95 190(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图;(2)求 y 与 x 之间的回归方程.【解】 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数函数y=c1ec2x 的周围,于是令 z= ln y,则x123456z 1.79 2.48 3.22 3.89 4.55 5.25^^0.69x+ 1.112由计算器算得, z=0.69x+1.112,则有 y=e.[能力提升 ]1.(2016 ·青岛一中调研 )某学生四次模拟考试中,其英语作文的减分情况如表:考试次数 x1234所减分数 y 4.543 2.5显然所减分数 y 与模拟考试次数x 之间有较好的线性相关关系,则其线性回归方程为 ()A.y=0.7x+ 5.25 C.y=- 0.7x+6.25B. y=- 0.6x+ 5.25 D. y=- 0.7x+5.25【解析】由题意可知,所减分数y 与模拟考试次数x 之间为负相关,所以排除 A.1考试次数的平均数为x =4(1+2+3+4)=2.5,1所减分数的平均数为y =4(4.5+ 4+3+2.5)= 3.5,即直线应该过点 (2.5,3.5),代入验证可知直线y=- 0.7x+5.25 成立,故选D.【答案】D2.某研究机构对高三学生的记忆力x 和判断力 y 进行统计分析,得下表数据:x681012y2 3 5 6若 x 与 y 具有线性相关关系,则线性回归方程为 ________.【解析】n- = 6+8+10+12i i = 6× 2+ 8×3+10×5+12× 6= 158, x=x y4 i =19,- = 2+ 3+ 5+6y 4=4,nx 2i =62+82+102+122=344,i = 1^ 158-4×9×414b = 344-4×92 =20= 0.7,^ - ^-a = y -b x =4- 0.7× 9=- 2.3,^故线性回归方程为 y =0.7x -2.3.^【答案】 y =0.7x -2.33.某品牌服装专卖店为了解保暖衬衣的销售量y(件 )与平均气温 x(℃ )之间的关系,随机统计了连续四旬的销售量与当旬平均气温,其数据如表:时间二月上旬二月中旬二月下旬三月上旬旬平均气温 x(℃ )3 8 12 17旬销售量 y(件)55m3324由表中数据算出线性回归方程(1)表中数据 m =__________.^ ^ ^ ^y =bx +a 中的 b =- 2,样本中心点为(10,38).(2)气象部门预测三月中旬的平均气温约为22 ℃,据此估计,该品牌的保暖衬衣在三月中旬的销售量约为__________件.【解析】(1)由 y =38,得 m = 40.^^ ^ =58,由= y - bx,得(2) aa故^=- + ,y2x 58当 = 时, ^= ,x 22 y 14故三月中旬的销售量约为 14 件.【答案】(1)40 (2)144.(2015 ·全国卷Ⅰ )某公司 确定下一年度投入某种 品的宣 ,需了解年宣 x( 位:千元 ) 年 售量 y( 位:t)和年利 z( 位:千元 )的影响.近 8 年的年宣 x i 和年 售量 y i (i =1,2,⋯, 8)数据作了初步 理,得到下面的散点 及一些 量的 .3-1-28i888(w i -(w i -(x i -i = 1 (x -i = 1i = 1i =1xywx ) 2 w ) 2i - y )i - y )x )(yw )(y46.6 563 6.8289.8 1.61 469108.8表中 w i = x i ,w] = 18w i .8i = 1(1)根据散点 判断, y = a +bx 与 y =c +d x 哪一个适宜作 年 售量y 关于年宣 x 的回 方程 型? ( 出判断即可,不必 明理由 )(2)根据 (1)的判断 果及表中数据,建立y 关于 x 的回 方程;(3)已知 种 品的年利z 与 x ,y 的关系 z = 0.2y -x.根据 (2)的 果回答下列 :①年宣 x = 49 ,年 售量及年利 的 是多少?②年宣 x 何 ,年利 的 最大?附: 于一 数据 (u 1,v 1 , 2,v 2 ,⋯,n ,v n,其回 直 v =α+βu) (u )(u)nu i - uv i - v^i = 1^^的斜率和截距的最小二乘估 分β=,α= v -β u .nu i - u 2i = 1【解】(1)由散点图可以判断, y =c +d x 适宜作为年销售量 y 关于年宣传费 x 的回归方程类型.(2)令 w = x ,先建立 y 关于 w 的线性回归方程.8w i - w y i - y^ i =1108.8由于 d =8 w i - w2 = 1.6 = 68,i =1^ = y ^= - × = ,c - dw563 68 6.8 100.6^,所以 y 关于 w 的线性回归方程为 y =100.6+ 68w^因此 y 关于 x 的回归方程为 y =100.6+ 68 x.(3)①由 (2)知,当 x = 49 时,^49= 576.6,年销售量 y 的预报值 y = 100.6+ 68^年利润 z 的预报值 z =576.6×0.2-49=66.32.②根据 (2)的结果知,年利润 z 的预报值^x +20.12.z =0.2(100.6+68 x)- x =- x +13.613.6^所以当 x = 2 =6.8,即 x =46.24时, z 取得最大值.故年宣传费为 46.24千元时,年利润的预报值最大 .高中数学学习技巧:在学习的过程中逐步做到:提出问题,实验探究,展开讨论,形成新知,应用反思。
选修2-3 3.1 第2课时一、选择题1.有下列说法:①线性回归分析就是由样本点去寻找一条直线贴近这些样本点的数学方法.②利用样本点的散点图可以直观判断两个变量是否具有线性关系.③通过回归方程y^=b^x+a^及其回归系数b^,可以估计变量的取值和变化趋势.④因为由任何一组观测值都可以求得一个回归直线方程,所以没有必要进行相关性检验.其中正确命题的个数是()A.1B.2C.3 D.4[答案] C2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适.②用相关指数R2来刻画回归的效果,R2值越大,说明模型的拟合效果越好.③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.其中正确命题的个数是()A.0 B.1C .2D .3[答案] D3.已知两个变量x 和y 之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l 1和l 2.已知两个人在试验中发现对变量x 的观测数据的平均数都为s ,对变量y 的观测数据的平均数都是t ,则下列说法正确的是( )A .l 1与l 2可能有交点(s ,t )B .l 1与l 2相交,但交点一定不是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合 [答案] A[解析] 由于回归直线y =b ^x +a^恒过(x ,y )点,又两人对变量x 的观测数据的平均数都为s ,对变量y 的观测数据的平均数都为t ,所以l 1和l 2恒过点(s ,t ).二、填空题4.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量x 之间的线性相关关系,现取8组观测值,计算得∑i =18x i =52,∑i =18y i =228,∑i =18x 2i =478,∑i =18x i y i =1849,则y 对x 的回归直线方程是__________.(精确到小数点后两位数)[答案] y ^=11.47+2.62x[解析] 根据给出的数据可先求x =18∑i =18x i =132,y =18∑i =18y i =572,然后代入公式b ^=∑i =18x i y i -8x y∑i =18x 2i -8x 2=1849-8×132×572478-8×1694≈2.62,从而a ^=y -b ^x ≈572-2.62×132=11.47.所以回归直线方程为y ^=11.47+2.62x .5.对于回归方程y ^=4.75x +257,当x =28时,y ^的估计值是________.[答案] 3906.已知两个变量x 和y 线性相关,5次试验的观测数据如下:那么变量y [答案] y ^=0.575x -14.9 三、解答题7.(2010·山东威海3月模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:x (个) 加工的时间y (小时)2.5 34 4.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=b ^x +a ^,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少时间?(注:b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )[解析] (1)散点图如下图.(2)由表中数据得∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,∴b ^=…=0.7,a^=…=1.05.∴y^=0.7x+1.05.回归直线如图中所示.(3)将x=10代入回归直线方程,得y=0.7×10+1.05=8.05(小时),∴预测加工10个零件需要8.05小时.。
第三章统计案例3。
1 回归分析的基本思想及其初步应用第2课时线性回归分析A级基础巩固一、选择题1.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r与残差平方和m如下表所示:分类甲乙丙丁r 0.820.780.690。
85m106115124103A B ( )A.甲B.乙C.丙D.丁解析:r越接近1,相关性越强,残差平方和m越小,相关性越强,所以选D正确.答案:D2.已知具有线性相关关系的两个变量x,y之间的一组数据如下,且回归方程是错误!=0.95x+a,则当x=6时,y的预测值为( )A。
8。
4 B.解析:由已知可得x=错误!=2,y=错误!=4.5,所以4.5=0。
95×2+a,所以a=2.6,所以回归方程是错误!=0。
95x+2.6,所以当x=6时,y的预测值错误!=0。
95×6+2。
6=8。
3.答案:B3.若某地财政收入x与支出y满足线性回归模型y=bx+a+e(单位:亿元),其中b=0.8,a=2,|e|<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )A.10亿元B.9亿元C.10。
5亿元D.9.5亿元解析:x=10时,错误!=0.8×10+2=10。
因为|e|<0。
5,所以年支出预计不会超过10。
5亿元.答案:C4.通过残差图我们发现在采集样本点过程中,样本点数据不准确的是()A.第四个B.第五个C.第六个D.第八个解析:由题图可知,第六个的数据偏差最大,所以第六个数据不准确.答案:C5.如图所示,5个(x,y)数据,去掉D(3,10)后,下列说法错误的是( )A.相关系数r变大B.残差平方和变大C.相关指数R2变大D.解释变量x与预报变量y的相关性变强解析:由散点图知,去掉D后,x与y的相关性变强,且为正相关,所以r变大,R2变大,残差平方和变小.答案:B二、填空题6.若一组观测值(x1,y1),(x2,y2),…,(x n,y n)之间满足y i =bx i+a+e i(i=1,2,…,n),且e i恒为0,则R2为________.解析:由e i恒为0,知y i=错误!i,即y i-错误!i=0,答案:17.x,y满足如下表的关系:x0。
[课时作业] [A 组 基础巩固]1.下列各关系中是相关关系的是 ( )①路程与时间、速度的关系;②加速度与力的关系;③产品成本与产量的关系;④圆周长与圆面积的关系;⑤广告费支出与销售额的关系. A .①②④ B .①③⑤ C .③⑤D .③④⑤解析:①②④都是确定的函数关系. 答案:C2.下列关于残差的叙述正确的是( ) A .残差就是随机误差 B .残差就是方差 C .残差都是正数D .残差可用来判断模型拟合的效果 解析:由残差的相关知识可知D 正确. 答案:D3.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程为y ^=b ^x +a ^,那么下列说法中不正确的是( ) A .直线y ^=b ^x +a ^必经过点(x -,y -)B .直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线y ^=b ^x +a ^的斜率为1ni =∑x i y i -n x - y-1ni =∑x 2i -n x2D .直线y ^=b ^x +a ^的纵截距为y -b ^x解析:由用最小二乘法求回归直线方程的公式可知,A ,C ,D 都正确,B 不正确,回归直线可以不经过样本数据中的任何一个点.故应选B. 答案:B4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y^=0.4x+2.3B.y^=2x-2.4C.y^=-2x+9.5D.y^=-0.3x+4.4解析:由变量x与y正相关知C,D均错,又回归直线经过样本点的中心(3,3.5),代入验证得A正确,B错误.故选A.答案:A5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y^=0.577x-0.448(x为人的年龄,y(单位:%)为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( )A.年龄为37岁的人体内脂肪含量都为20.90%B.年龄为37岁的人体内脂肪含量为21.01%C.年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D.年龄为37岁的大部分的人体内脂肪含量为31.50%解析:当x=37时,y^=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%.答案:C6.如图是x和y的样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:经计算,去掉D(3, 10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大.答案:D(3,10)7.调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:y^=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:由题意知[0.254(x+1)+0.321]-[0.254x+0.321]=0.254.答案:0.2548.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________. 解析:由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^≈-2, ∴38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46. 答案:469.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如表:由资料看y 与解析:x =30,y =66.7+76.0+85.0+112.3+128.05=93.6.b ^=51i =∑x i y i -5x -y-51i =∑x 2i -5x2=17 035-14 0407 900-4 500=2 9953 400≈0.880 9. a ^=y -b ^x =93.6-0.880 9×30=67.173.故回归方程为y ^=0.880 9x +67.173.10.某地10户家庭的年收入和年饮食支出的统计资料如下表:(2)如果某家庭年收入为9万元,预测其年饮食支出.解析:由题意知,年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如下图所示:从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.(2)x =6,y =1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,b ^≈0.172,a ^=y -b ^x =0.798,从而得到回归直线方程为y ^=0.172x +0.798. 当x =9时,y ^=0.172×9+0.798=2.346(万元).[B 组 能力提升]1.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2如表:A .甲B .乙C .丙D .丁解析:相关指数R 2越大,表示回归模型的拟合效果越好. 答案:A2.在一次试验中,测得(x ,y )的四组值分别是(1,2),(2,3),(3,4),(4,5),则y 与x 间的回归方程为( ) A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1D.y ^=x -1解析:易知变量y 与x 具有线性相关关系,且b ^=1,x =2.5,y =3.5,∴a ^=3.5-1×2.5=1,故可得出线性回归方程为y ^=x +1.答案:A3.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程是________. 解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08. 答案:y ^=1.23x +0.084.某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =b x +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯.(已知回归系数b ^=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^x )解析:根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40.∴a ^=y -b ^x =40-(-2)×10=60,∴y ^=-2x +60, 当x =-5时,y ^=-2×(-5)+60=70. 答案:705.某公司利润y (单位:千万元)与销售总额x (单位:千万元)之间有如表对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解析:(1)散点图如图:(2)列表,并利用科学计算器进行有关计算.于是b ^=346.33 447-7×212≈0.104.a ^=2.1-0.104×21=-0.084,因此回归直线方程为y ^=0.104x -0.084.(3)当x =24时,y =0.104×24-0.084=2.412(千万元).6.为探究某弹簧悬挂物体的质量x (单位:g)对弹簧长度y (单位:cm)的影响,分别将6个不同质量的物体悬挂在弹簧下,并测量弹簧的长度,数据如表所示(弹簧的质量忽略不计):(1)(2)根据散点图判断是否可以用线性回归模型进行拟合,如果可以,求y 与x 之间的回归直线方程;(3)求R 2,并对拟合效果做出评价. 解析:(1)散点图如图所示:(2)由于样本点分布在一条直线附近,所以可以用线性回归模型进行拟合.计算可得x =17.5,y ≈9.487,从而b ^=∑i =16x i -xy i -y∑i =16x i -x2≈0.183,a ^=y -b ^x ≈6.285.因此,y 与x 之间的回归直线方程为y ^=0.183x +6. 285. (3)因为∑i =16(y i -y ^i )2=0.013 175,∑i =16(y i -y )2=14.678 33,所以R 2=1-∑i =16y i -y ^i2∑i =16y i -y2≈0.999.由于R 2非常接近于1,因此拟合效果较好.。