2017_2018学年高中数学第三章统计案例3.1回归分析的基本思想及其初步应用优化练习新人教A版选修2_3
- 格式:doc
- 大小:149.00 KB
- 文档页数:7
【2019最新】高中数学第三章统计案例3-1回归分析的基本思想及其初步应用优化练习[课时作业] [A 组 基础巩固]1.下列各关系中是相关关系的是 ( )①路程与时间、速度的关系;②加速度与力的关系;③产品成本与产量的关系;④圆周长与圆面积的关系;⑤广告费支出与销售额的关系. A .①②④ B .①③⑤ C .③⑤D .③④⑤解析:①②④都是确定的函数关系. 答案:C2.下列关于残差的叙述正确的是( ) A .残差就是随机误差 B .残差就是方差 C .残差都是正数D .残差可用来判断模型拟合的效果 解析:由残差的相关知识可知D 正确. 答案:D3.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程为y ^=b ^x +a ^,那么下列说法中不正确的是( ) A .直线y ^=b ^x +a ^必经过点(x -,y -)B .直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线y ^=b ^x +a ^的斜率为1ni =∑x i y i -n x - y-1ni =∑x 2i -n x2D .直线y ^=b ^x +a ^的纵截距为y -b ^x解析:由用最小二乘法求回归直线方程的公式可知,A ,C ,D 都正确,B 不正确,回归直线可以不经过样本数据中的任何一个点.故应选B. 答案:B4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4解析:由变量x 与y 正相关知C ,D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 答案:A5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ^=0.577x -0.448(x 为人的年龄,y (单位:%)为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( ) A .年龄为37岁的人体内脂肪含量都为20.90% B .年龄为37岁的人体内脂肪含量为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的大部分的人体内脂肪含量为31.50%解析:当x =37时,y ^=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%. 答案:C6.如图是x 和y 的样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:经计算,去掉D (3, 10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大. 答案:D (3,10)7.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:由题意知[0.254(x +1)+0.321]-[0.254x +0.321]=0.254. 答案:0.2548.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.解析:由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^≈-2, ∴38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46. 答案:469.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如表:由资料看y 与解析:x =30,y =66.7+76.0+85.0+112.3+128.05=93.6.b ^=51i =∑x i y i -5x -y-51i =∑x 2i -5x 2=17 035-14 0407 900-4 500=2 9953 400≈0.880 9. a ^=y -b ^x =93.6-0.880 9×30=67.173.故回归方程为y ^=0.880 9x +67.173.10.某地10户家庭的年收入和年饮食支出的统计资料如下表:(2)如果某家庭年收入为9万元,预测其年饮食支出.解析:由题意知,年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如下图所示:从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.(2)x =6,y =1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,b ^≈0.172,a ^=y -b ^x =0.798,从而得到回归直线方程为y ^=0.172x +0.798. 当x =9时,y ^=0.172×9+0.798=2.346(万元).[B 组 能力提升]1.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2如表:A .甲B .乙C .丙D .丁解析:相关指数R 2越大,表示回归模型的拟合效果越好. 答案:A2.在一次试验中,测得(x ,y )的四组值分别是(1,2),(2,3),(3,4),(4,5),则y 与x 间的回归方程为( ) A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1D.y ^=x -1解析:易知变量y 与x 具有线性相关关系,且b ^=1,x =2.5,y =3.5,∴a ^=3.5-1×2.5=1,故可得出线性回归方程为y ^=x +1. 答案:A3.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程是________.解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08. 答案:y ^=1.23x +0.084.某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =b x +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯.(已知回归系数b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )解析:根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40.∴a ^=y -b ^x =40-(-2)×10=60,∴y ^=-2x +60, 当x =-5时,y ^=-2×(-5)+60=70. 答案:705.某公司利润y (单位:千万元)与销售总额x (单位:千万元)之间有如表对应数据:(1)画出散点图;(2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解析:(1)散点图如图:(2)列表,并利用科学计算器进行有关计算.于是b ^=346.3-7×21×2.13 447-7×212≈0.104. a ^=2.1-0.104×21=-0.084,因此回归直线方程为y ^=0.104x -0.084.(3)当x =24时,y =0.104×24-0.084=2.412(千万元).6.为探究某弹簧悬挂物体的质量x (单位:g)对弹簧长度y (单位:cm)的影响,分别将6个不同质量的物体悬挂在弹簧下,并测量弹簧的长度,数据如表所示(弹簧的质量忽略不计):(1)(2)根据散点图判断是否可以用线性回归模型进行拟合,如果可以,求y 与x 之间的回归直线方程;(3)求R 2,并对拟合效果做出评价. 解析:(1)散点图如图所示:(2)由于样本点分布在一条直线附近,所以可以用线性回归模型进行拟合.计算可得x =17.5,y ≈9.487,从而b ^=∑i =16x i -xy i -y∑i =16x i -x2≈0.183,a ^=y -b ^x ≈6.285.因此,y 与x 之间的回归直线方程为y ^=0.183x +6. 285. (3)因为∑i =16(y i -y ^i )2=0.013 175,∑i =16(y i -y )2=14.678 33,所以R2=1-∑i=16y i-y^i2∑i=16y i-y2≈0.999.由于R2非常接近于1,因此拟合效果较好.。
第2课时 线性回归分析A 级 基础巩固一、选择题1.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做实验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表所示:) A .甲 B .乙 C .丙D .丁解析:r 越接近1,相关性越强,残差平方和m 越小,相关性越强,所以选D 正确. 答案:D2.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数.r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:对于变量X 与Y 而言,Y 随X 的增大而增大,故变量Y 与X 正相关,即r 1>0;对于变量U 与V 而言,V 随U 的增大而减小,故变量V 与U 负相关,即r 2<0.故r 2<0<r 1.答案:C3.若某地财政收入x 与支出y 满足线性回归模型y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |<0.5,如果今年该地区财政收入10亿元,年支出预计不会超过( )A .10亿元B .9亿元C .10.5亿元D .9.5亿元 解析:x =10时,y ^=0.8×10+2=10.因为|e |<0.5,所以年支出预计不会超过10.5亿元. 答案:C4.通过残差图我们发现在采集样本点过程中,样本点数据不准确的是( )A .第四个B .第五个C .第六个D .第八个解析:由题图可知,第六个的数据偏差最大,所以第六个数据不准确. 答案:C5.如图所示,5个(x ,y )数据,去掉D (3,10)后,下列说法错误的是( )A .相关系数r 变大B .残差平方和变大C .相关指数R 2变大D .解释变量x 与预报变量y 的相关性变强解析:由散点图知,去掉D 后,x 与y 的相关性变强,且为正相关,所以r 变大,R 2变大,残差平方和变小.答案:B 二、填空题6.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.解析:由e i 恒为0,知y i =y ^i ,即y i -y ^i =0,答案:17.x ,y 满足如下表的关系:则解析:通过数据发现y 的值与x 的平方值比较接近,所以x ,y 之间的函数模型为y =x 2.答案:y =x 28.关于x 与y ,有如下数据:有如下的两个模型:(1)y =6.5x +17.5;(2)y =7x +17.通过残差分析发现第(1)个线性回归模型比第(2)个拟合效果好.则R 21________R 22,Q 1________Q 2(用大于,小于号填空,R ,Q 分别是相关指数和残差平方和).解析:根据相关指数和残差平方和的意义知R 21>R 22,Q 1<Q 2. 答案:> < 三、解答题9.下表是某年美国旧轿车价格的调查资料.解:设x 表示轿车的使用年数,y 表示相应的平均价格,作出散点图.由散点图可以看出y 与x 具有指数关系, 令z =ln y ,变换得由图可知各点基本上处于一直线,由表中数据可求出线性回归方程:z ^=8.166-0.298x . 因为新车的平均价格与使用年数具有指数关系,其非线性回归方程为y ^=e 8.166-0.298x .10.关于x 与y 有以下数据:已知x 与y 线性相关,由最小二乘法得b =6.5. (1)求y 与x 的线性回归方程;(2)现有第二个线性模型:y ^=7x +17,且R 2=0.82.若与(1)的线性模型比较,哪一个线性模型拟合效果比较好,请说明理由.解:(1)依题意设y 与x 的线性回归方程为y ^=6.5x +a ^.— x =2+4+5+6+85=5,— y =30+40+60+50+705=50,因为y ^=6.5x +a ^经过(—x ,—y ),所以y 与x 的线性回归方程为y ^=6.5x +17.5 .所以50=6.5×5+a ^.所以a ^=17.5.(2)由(1)的线性模型得y i -y i 与y i -—y 的关系如下表所示:由于R 21=0.845,R 2=0.82知R 21>R 2,所以(1)的线性模型拟合效果比较好.B 级 能力提升1.根据如下样本数据:得到的回归方程为y =bx +a ,若a =7.9,则x 每增加 1个单位,y 就( ) A .增加1.4个单位B .减少1.4个单位C .增加1.2个单位D .减少1.2个单位解析:易知x =15×(3+4+5+6+7)=5,y =15×(4+2.5-0.5+0.5-2)=0.9,所以样本点中心为(5,0.9), 所以0.9=5b +7.9,所以b =-1.4,所以x 每增加1个单位,y 就减少1.4个单位.故选B. 答案:B2.若某函数型相对一组数据的残差平方和为89,其相关指数为0.95,则总偏差平方和为________,回归平方和为________.解析:因为R 2=1-残差平方和总偏差平方和,0.95=1-89总偏差平方和,所以总偏差平方和为1 780;回归平方和=总偏差平方和-残差平方和=1 780-89=1 691.答案:1 780 1 6913.某运动员训练次数与成绩之间的数据关系如下:(1)(2)求出回归方程; (3)作出残差图; (4)计算相关指数R 2;(5)试预测该运动员训练47次及55次的成绩.解:(1)作出该运动员训练次数(x )与成绩(y )之间的散点图,如图所示,由散点图可知,它们之间具有线性相关关系.(2)— x =39.25,—y =40.875,=13 180,a ^=— y -b ^—x =-0.003 88.所以回归方程为y ^=1.0415x -0.003 88.(3)作残差图如图所示,由图可知,残差点比较均匀地分布在水平带状区域中,说明选用的模型比较合适.(4)计算得相关指数R 2=0.985 5,说明了该运动员的成绩的差异有98.55%是由训练次数引起的.(5)由上述分析可知,我们可用回归方程y ^=1.041 5x -0.003 88作为该运动员成绩的预报值.将x =47和x =55分别代入该方程可得y ≈49和y ≈57. 故预测该运动员训练47次和55次的成绩分别为49和57.。
§3.1 回归分析的基本思想及其初步应用学习目标 1.了解随机误差、残差、残差图的概念.2.会通过分析残差判断线性回归模型的拟合效果.3.掌握建立线性回归模型的步骤.知识点一 线性回归模型思考 某电脑公司有5名产品推销员,其工作年限与年推销金额数据如下表:请问如何表示推销金额y 与工作年限x 之间的相关关系?y 关于x 的线性回归方程是什么? 答案 画出散点图,由图可知,样本点散布在一条直线附近,因此可用回归直线表示变量之间的相关关系.设所求的线性回归方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=1020=0.5, a ^=y -b ^x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y ^=0.5x +0.4. 梳理 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(3)对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),回归直线y =bx +a的斜率和截距的最小二乘估计公式分别为b ^=∑i =1n (x i -x )(y i -y)∑i =1n(x i -x)2=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y-b ^x ,其中(x ,y )称为样本点的中心.(4)线性回归模型y =bx +a +e ,其中a 和b 是模型的未知参数,e 称为随机误差,自变量x 称为解释变量,因变量y 称为预报变量. 知识点二 线性回归分析具有相关关系的两个变量的线性回归方程为y ^=b ^x +a ^.思考1 预报变量y ^与真实值y 一样吗? 答案 不一定.思考2 预报值y ^与真实值y 之间误差大了好还是小了好? 答案 越小越好. 梳理 (1)残差平方和法①e ^i =y i -y ^i =y i -b ^x i -a ^(i =1,2,…,n )称为相应于点(x i ,y i )的残差.②残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越好.(2)残差图法残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高. (3)利用相关指数R 2刻画回归效果其计算公式为:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y)2,其几何意义:R 2越接近于1,表示回归的效果越好.知识点三 建立回归模型的基本步骤1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.2.画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等). 3.由经验确定回归方程的类型(如观察到数据呈线性关系,则选用线性回归方程). 4.按一定规则(如最小二乘法)估计回归方程中的参数.5.得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否合适等.1.求线性回归方程前可以不进行相关性检验.( × )2.在残差图中,纵坐标为残差,横坐标可以选为样本编号.( √ ) 3.利用线性回归方程求出的值是准确值.( ×)类型一 求线性回归方程例1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据求出的线性回归方程,预测记忆力为9的同学的判断力.⎝⎛⎭⎪⎪⎫相关公式:b ^=∑i =1nx i y i-n x ·y ∑i =1nx 2i-n x 2,a ^=y -b ^x 考点 线性回归方程 题点 求线性回归方程 解 (1)如图:(2)∑i =14x i y i =6×2+8×3+10×5+12×6=158,x =6+8+10+124=9,y =2+3+5+64=4, ∑i =14x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中线性回归方程可知,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.反思与感悟 (1)求线性回归方程的基本步骤①列出散点图,从直观上分析数据间是否存在线性相关关系.②计算:x ,y ,∑i =1nx 2i ,∑i =1ny 2i ,∑i =1nx i y i .③代入公式求出y ^=b ^x +a ^中参数b ^,a ^的值. ④写出线性回归方程并对实际问题作出估计.(2)需特别注意的是,只有在散点图大致呈线性时,求出的回归方程才有实际意义,否则求出的回归方程毫无意义.跟踪训练1 假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计数据:由此资料可知y 对x 呈线性相关关系. (1)求线性回归方程;(2)求使用年限为10年时,该设备的维修费用为多少? 考点 线性回归方程 题点 求线性回归方程 解 (1)由上表中的数据可得x =4,y =5,∑i =15x 2i =90,∑i =15x i y i =112.3,∴b ^=∑i =15x i y i -5x·y∑i =15x 2i -5x 2=112.3-5×4×590-5×42=1.23, ∴a ^=y -b ^x =5-1.23×4=0.08.∴线性回归方程为y ^=1.23x +0.08.(2)当x =10时,y ^=1.23×10+0.08=12.38.即使用年限为10年时,该设备的维修费用约为12.38万元. 类型二 回归分析命题角度1 线性回归分析例2 在一段时间内,某种商品的价格x 元和需求量y 件之间的一组数据为:求出y 对x 的线性回归方程,并说明拟合效果的程度. 考点 残差分析与相关指数 题点 残差及相关指数的应用解 x =15(14+16+18+20+22)=18,y =15(12+10+7+5+3)=7.4.∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,可得回归系数b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a ^=7.4+1.15×18=28.1,所以线性回归方程为y ^=-1.15x +28.1. 列出残差表:则∑i =15(y i -y ^i )2=0.3,∑i =15(y i -y )2=53.2.R 2=1-∑i =15 (y i -y ^i )2∑i =15(y i -y)2≈0.994.所以回归模型的拟合效果很好.反思与感悟 (1)该类题属于线性回归问题,解答此类题应先通过散点图来分析两变量间的关系是否线性相关,然后再利用求回归方程的公式求解回归方程,并利用残差图或相关指数R 2来分析函数模型的拟合效果,在此基础上,借助线性回归方程对实际问题进行分析. (2)刻画回归效果的三种方法①残差图法,残差点比较均匀地落在水平的带状区域内说明选用的模型比较合适.②残差平方和法:残差平方和∑i =1n(y i -y ^i )2越小,模型的拟合效果越好.③相关指数法:R 2=1-∑i =1n(y i -y ^i )2∑i =1n(y i -y)2越接近1,表明回归的效果越好.跟踪训练2 关于x 与y 有如下数据:有如下的两个线性模型:(1)y ^=6.5x +17.5;(2)y ^=7x +17.试比较哪一个拟合效果更好.考点 残差分析与相关指数 题点 残差及相关指数的应用解 由(1)可得y i -y ^i 与y i -y 的关系如下表:∴∑i =15(y i -y ^i )2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,∑i =15(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.∴R 21=1-∑i =15(y i -y ^i )2∑i =15(y i -y)2=1-1551 000=0.845.由(2)可得y i -y ^i 与y i -y 的关系如下表:∴∑i =15(y i -y ^i )2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,∑i =15(y i -y )2=(-20)2+(-10)2+102+02+202=1 000.∴R 22=1-∑i =15(y i -y ^i )2∑i =15(y i -y)2=1-1801 000=0.82.由于R 21=0.845,R 22=0.82,0.845>0.82, ∴R 21>R 22.∴(1)的拟合效果好于(2)的拟合效果.命题角度2 非线性回归分析例3 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑i =1n(u i -u )(v i -v)∑i =1n(u i -u)2,α^=v -β^u .考点 非线性回归分析 题点 非线性回归分析解 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18(w i -w )(y i -y)∑i =18(w i -w)2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大. 反思与感悟 求非线性回归方程的步骤 (1)确定变量,作出散点图.(2)根据散点图,选择恰当的拟合函数.(3)变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程. (4)分析拟合效果:通过计算相关指数或画残差图来判断拟合效果. (5)根据相应的变换,写出非线性回归方程.跟踪训练3 在一次抽样调查中测得样本的5个样本点,数值如下表:试建立y 与x 之间的回归方程. 考点 非线性回归分析 题点 非线性回归分析 解 由数值表可作散点图如图,根据散点图可知y 与x 近似地呈反比例函数关系,设y ^=k x ,令t =1x ,则y ^=kt ,原数据变为:由置换后的数值表作散点图如下:由散点图可以看出y 与t 呈近似的线性相关关系,列表如下:所以t =1.55,y =7.2.所以b ^=∑i =15t i y i -5t y∑i =15t 2i -5t 2≈4.134 4,a ^=y -b ^t ≈0.8.所以y ^=4.134 4t +0.8.所以y 与x 之间的回归方程是y ^=4.134 4x+0.8.1.下列两个变量之间的关系不是函数关系的是( ) A .角度和它的余弦值 B .正方形的边长和面积 C .正n 边形的边数和内角度数和 D .人的年龄和身高 考点 回归分析题点 回归分析的概念和意义 答案 D解析 函数关系就是变量之间的一种确定性关系.A ,B ,C 三项中的两个变量之间都是函数关系,可以写出相应的函数表达式,分别为f (θ)=cos θ,g (a )=a 2,h (n )=(n -2)π.D 选项中的两个变量之间不是函数关系,对于年龄确定的人群,仍可以有不同的身高,故选D.2.设有一个线性回归方程y ^=2-1.5x ,当变量x 增加1个单位时( ) A .y 平均增加1.5个单位 B .y 平均增加2个单位 C .y 平均减少1.5个单位 D .y 平均减少2个单位 考点 线性回归分析 题点 线性回归方程的应用 答案 C解析 由回归方程中两个变量之间的关系可以得到.3.如图四个散点图中,适合用线性回归模型拟合其中两个变量的是( )A .①② B.①③ C.②③ D.③④ 考点 回归分析题点 回归分析的概念和意义 答案 B解析 由图易知①③两个图中样本点在一条直线附近,因此适合用线性回归模型.4.某产品在某零售摊位的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得回归直线方程y ^=b ^x +a ^中的b ^=-5,据此模型预测当零售价为14.5元时,每天的销售量为( ) A .51个 B .50个 C .54个D .48个考点 线性回归分析 题点 线性回归方程的应用 答案 C解析 由题意知x =17.5,y =39,代入回归直线方程得a ^=126.5,126.5-14.5×5=54,故选C.5.已知x ,y 之间的一组数据如下表:(1)分别计算:x ,y ,x 1y 1+x 2y 2+x 3y 3+x 4y 4,x 21+x 22+x 23+x 24; (2)已知变量x 与y 线性相关,求出线性回归方程. 考点 线性回归方程题点 求线性回归方程解 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+x 2y 2+x 3y 3+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+x 23+x 24=02+12+22+32=14.(2)b ^=34-4×1.5×414-4×1.52=2,a ^=y -b ^x =4-2×1.5=1,故线性回归方程为y ^=2x +1.回归分析的步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)由经验确定回归方程的类型(如果呈线性关系,则选用线性回归方程y ^=b ^x +a ^); (4)按一定规则估算回归方程中的参数;(5)得出结果后分析残差图是否有异常(个别数据对应的残差过大,或残差呈现不随机的规律性等),若存在异常,则检查数据是否有误或模型是否合适等.一、选择题1.对于线性回归方程y ^=b ^x +a ^(b ^>0),下列说法错误的是( )A .当x 增加一个单位时,y ^的值平均增加b ^个单位B .点(x ,y )一定在y ^=b ^x +a ^所表示的直线上C .当x =t 时,一定有y =b ^t +a ^D .当x =t 时,y 的值近似为b ^t +a ^考点 线性回归分析 题点 线性回归方程的应用 答案 C解析 线性回归方程是一个模拟函数,它表示的是一系列离散的点大致所在直线的位置及其大致变化规律,所以有些散点不一定在回归直线上.2.给定x 与y 的一组样本数据,求得相关系数r =-0.690,则( ) A .y 与x 的线性相关性很强 B .y 与x 的相关性很强 C .y 与x 正相关 D .y 与x 负相关 考点 线性相关系数 题点 线性相关系数的应用 答案 D解析 因为r <0,所以y 与x 负相关,又|r |∈[0.75,1]才表示y 与x 具有很强的线性相关性,所以选D.3.某校小卖部为了了解奶茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的奶茶杯数与当天的气温,得到下表中的数据,并根据该样本数据用最小二乘法建立了线性回归方程y ^=-2x +60,则样本数据中污损的数据y 0应为( )A .58B .64C .62D .60 考点 线性回归分析 题点 线性回归方程的应用 答案 B解析 由表中数据易知x =10,代入y ^=-2x +60中,得y ^=40.由y 0+34+38+244=40,得y 0=64.4.已知变量x 与y 负相关,且由观测数据求得样本平均数x =3,y =3.5,则由该观测数据求得的线性回归方程可能是( )A.y ^=-2x +9.5B.y ^=2x -2.4C.y ^=-0.3x -4.4 D.y ^=0.4x +2.3考点 线性回归方程 题点 求线性回归方程 答案 A解析 因为变量x 与y 负相关,所以排除B ,D ,将样本平均数x =3,y =3.5代入选项验证可知,选项A 符合题意.5.对变量x ,y 进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是( )考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 A解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高. 6.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0考点 线性回归分析 题点 线性回归方程的应用 答案 B解析 作出散点图如下:观察图象可知,回归直线y ^=b ^x +a ^的斜率b ^<0,当x =0时,y ^=a ^>0.故a ^>0,b ^<0.7.已知某地的财政收入x 与支出y 满足线性回归方程y =bx +a +e (单位:亿元),其中b =0.8,a =2,|e |≤0.5,如果今年该地区的财政收入为10亿元,那么年支出预计不会超过( ) A .9亿元 B .10亿元 C .9.5亿元D .10.5亿元考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 D解析 y =0.8×10+2+e =10+e ≤10.5. 8.下列数据符合的函数模型为( )A.y =2+13xB .y =2e xC .y =21e xD .y =2+ln x考点 非线性回归分析 题点 非线性回归分析 答案 D解析 分别将x 值代入解析式判断知满足y =2+ln x .9.为了考查两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做了100次和150次试验,并且利用最小二乘法求得的回归直线分别为l 1和l 2.已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法中正确的是( )A .l 1与l 2有交点(s ,t )B .l 1与l 2相交,但交点不一定是(s ,t )C .l 1与l 2必定平行D .l 1与l 2必定重合 考点 线性回归方程 题点 样本点中心的应用 答案 A解析 回归直线l 1,l 2都过样本点的中心(s ,t ),但它们的斜率不确定,故选项A 正确. 二、填空题10.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________. 考点 线性相关系数 题点 线性相关系数的应用 答案 1解析 根据样本相关系数的定义可知,当所有样本点都在一条直线上时,相关系数为1. 11.若一个样本的总偏差平方和为80,残差平方和为60,则相关指数R 2为________. 考点 线性相关系数 题点 线性相关系数的应用 答案 0.25解析 R 2=1-6080=0.25.12.已知一个线性回归方程为y ^=1.5x +45,x ∈{1,5,7,13,19},则y =________. 考点 线性回归方程 题点 样本点中心的应用 答案 58.5解析 ∵x =1+5+7+13+195=9,且y ^=1.5x +45,∴y =1.5×9+45=58.5.13.在研究两个变量的相关关系时,观察散点图发现样本点集中于某一条指数曲线y =ebx +a的周围.令z ^=ln y ,求得线性回归方程为z ^=0.25x -2.58,则该模型的回归方程为________. 考点 非线性回归分析 题点 非线性回归分析 答案 y =e0.25x -2.58解析 因为z ^=0.25x -2.58,z ^=ln y , 所以y =e0.25x -2.58.三、解答题14.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:(1)在给定的坐标系中画出表中数据的散点图;(2)求出y 关于x 的线性回归方程y ^=b ^x +a ^,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少时间?(注:b ^=∑i =1nx i y i -n x y)∑i =1nx 2i -n x 2,a ^=y -b ^x )考点 线性回归方程 题点 求线性回归方程 解 (1)散点图如图.(2)由表中数据得∑i =14x i y i =52.5,x =3.5,y =3.5,∑i =14x 2i =54,所以b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=52.5-4×3.5×3.554-4×3.52=0.7, 所以a ^=y -b ^x =3.5-0.7×3.5=1.05.所以y ^=0.7x +1.05. 回归直线如图中所示.(3)将x =10代入回归直线方程,得y ^=0.7×10+1.05=8.05, 所以预测加工10个零件需要8.05小时. 四、探究与拓展15.甲、乙、丙、丁4位同学各自对A ,B 两变量进行回归分析,分别得到散点图与残差平方和∑i =1n(y i -y ^i )2如下表:以上的试验结果体现拟合A ,B 两变量关系的模型拟合精度高的是( ) A .甲 B .乙 C .丙 D .丁 考点 残差分析与相关指数 题点 残差及相关指数的应用 答案 D解析 根据线性相关的知识,散点图中各样本点条状分布越均匀,同时保持残差平方和越小(对于已经获取的样本数据,R 2的表达式中∑i =1n(y i -y )2为确定的数,则残差平方和越小,R2越大),由回归分析建立的线性回归模型的拟合效果越好,由试验结果知丁要好些. 16.为了研究某种细菌随时间x 变化繁殖个数y 的变化情况,收集数据如下:(1)用时间作解释变量,繁殖个数作预报变量作出这些数据的散点图; (2)求y 与x 之间的回归方程;(3)计算相关指数R 2,并描述解释变量与预报变量之间的关系. 考点 非线性回归分析 题点 非线性回归分析 解 (1)散点图如图所示:(2)由散点图看出样本点分布在一条指数曲线y =c 1e c 2x 的周围,于是令z =ln y ,则所以z ^=0.69x +1.115,则有y ^=e 0.69x +1.115.(3)∑i =16e ^2i =∑i =16(y i -y ^)2=4.816 1,∑i =16(y i -y )2≈∑i =16y 2i -6y 2≈24 642.83, R 2=1-∑i =16 (y i -y ^i )2∑i =16(y i -y)2≈1-4.816 124 642.83≈0.999 8,即时间解释了99.98%的细菌繁殖个数的变化.。
3.1 回归分析的基本思想及其初步应用[课时作业] [A 组 基础巩固]1.下列各关系中是相关关系的是 ( )①路程与时间、速度的关系;②加速度与力的关系;③产品成本与产量的关系;④圆周长与圆面积的关系;⑤广告费支出与销售额的关系. A .①②④ B .①③⑤ C .③⑤D .③④⑤解析:①②④都是确定的函数关系. 答案:C2.下列关于残差的叙述正确的是( ) A .残差就是随机误差 B .残差就是方差 C .残差都是正数D .残差可用来判断模型拟合的效果 解析:由残差的相关知识可知D 正确. 答案:D3.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程为y ^=b ^x +a ^,那么下列说法中不正确的是( ) A .直线y ^=b ^x +a ^必经过点(x -,y -)B .直线y ^=b ^x +a ^至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线y ^=b ^x +a ^的斜率为1ni =∑x i y i -n x - y-1ni =∑x 2i -n x2D .直线y ^=b ^x +a ^的纵截距为y -b ^x解析:由用最小二乘法求回归直线方程的公式可知,A ,C ,D 都正确,B 不正确,回归直线可以不经过样本数据中的任何一个点.故应选B. 答案:B4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4解析:由变量x 与y 正相关知C ,D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 答案:A5.某医学科研所对人体脂肪含量与年龄这两个变量研究得到一组随机样本数据,运用Excel 软件计算得y ^=0.577x -0.448(x 为人的年龄,y (单位:%)为人体脂肪含量).对年龄为37岁的人来说,下面说法正确的是( ) A .年龄为37岁的人体内脂肪含量都为20.90% B .年龄为37岁的人体内脂肪含量为21.01%C .年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%D .年龄为37岁的大部分的人体内脂肪含量为31.50%解析:当x =37时,y ^=0.577×37-0.448=20.901≈20.90,由此估计:年龄为37岁的人群中的大部分人的体内脂肪含量为20.90%. 答案:C6.如图是x 和y 的样本数据的散点图,去掉一组数据________后,剩下的4组数据的相关指数最大.解析:经计算,去掉D (3, 10)这一组数据后,其他4组数据对应的点都集中在某一条直线附近,即两变量的线性相关性最强,此时相关指数最大. 答案:D (3,10)7.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:由题意知[0.254(x +1)+0.321]-[0.254x +0.321]=0.254. 答案:0.2548.今年一轮又一轮的寒潮席卷全国.某商场为了了解某品牌羽绒服的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,数据如下表:由表中数据算出线性回归方程y =b x +a 中的b ≈-2.气象部门预测下个月的平均气温约为6 ℃,据此估计,该商场下个月该品牌羽绒服的销售量的件数约为________.解析:由表格得(x ,y )为(10,38),又(x ,y )在回归直线y ^=b ^x +a ^上,且b ^≈-2, ∴38=-2×10+a ^,a ^=58,所以y ^=-2x +58,当x =6时,y ^=-2×6+58=46. 答案:469.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如表:由资料看y 与解析:x =30,y =66.7+76.0+85.0+112.3+128.05=93.6.b ^=51i =∑x i y i -5x -y-51i =∑x 2i -5x2=17 035-14 0407 900-4 500=2 9953 400≈0.880 9. a ^=y -b ^x =93.6-0.880 9×30=67.173.故回归方程为y ^=0.880 9x +67.173.10.某地10户家庭的年收入和年饮食支出的统计资料如下表:(2)如果某家庭年收入为9万元,预测其年饮食支出.解析:由题意知,年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如下图所示:从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.(2)x =6,y =1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,b ^≈0.172,a ^=y -b ^x =0.798,从而得到回归直线方程为y ^=0.172x +0.798. 当x =9时,y ^=0.172×9+0.798=2.346(万元).[B 组 能力提升]1.甲、乙、丙、丁四位同学在建立变量x ,y 的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R 2如表:A .甲B .乙C .丙D .丁解析:相关指数R 2越大,表示回归模型的拟合效果越好. 答案:A2.在一次试验中,测得(x ,y )的四组值分别是(1,2),(2,3),(3,4),(4,5),则y 与x 间的回归方程为( ) A.y ^=x +1 B.y ^=x +2 C.y ^=2x +1D.y ^=x -1解析:易知变量y 与x 具有线性相关关系,且b ^=1,x =2.5,y =3.5,∴a ^=3.5-1×2.5=1,故可得出线性回归方程为y ^=x +1. 答案:A3.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程是________.解析:由斜率的估计值为1.23,且回归直线一定经过样本点的中心(4,5),可得y ^-5=1.23(x -4),即y ^=1.23x +0.08. 答案:y ^=1.23x +0.084.某小卖部为了了解热茶销售量y (杯)与气温x (℃)之间的关系,随机统计了某4天卖出的热茶的杯数与当天气温,并制作了对照表:由表中数据算得线性回归方程y =b x +a 中的b ≈-2,预测当气温为-5 ℃时,热茶销售量为________杯.(已知回归系数b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x )解析:根据表格中的数据可求得x =14×(18+13+10-1)=10,y =14×(24+34+38+64)=40.∴a ^=y -b ^x =40-(-2)×10=60,∴y ^=-2x +60, 当x =-5时,y ^=-2×(-5)+60=70. 答案:705.某公司利润y (单位:千万元)与销售总额x (单位:千万元)之间有如表对应数据:(1)画出散点图;(2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解析:(1)散点图如图:(2)列表,并利用科学计算器进行有关计算.于是b ^=346.3-7×21×2.13 447-7×212≈0.104. a ^=2.1-0.104×21=-0.084,因此回归直线方程为y ^=0.104x -0.084.(3)当x =24时,y =0.104×24-0.084=2.412(千万元).6.为探究某弹簧悬挂物体的质量x (单位:g)对弹簧长度y (单位:cm)的影响,分别将6个不同质量的物体悬挂在弹簧下,并测量弹簧的长度,数据如表所示(弹簧的质量忽略不计):(1)(2)根据散点图判断是否可以用线性回归模型进行拟合,如果可以,求y 与x 之间的回归直线方程;(3)求R 2,并对拟合效果做出评价. 解析:(1)散点图如图所示:(2)由于样本点分布在一条直线附近,所以可以用线性回归模型进行拟合.计算可得x =17.5,y ≈9.487,从而b ^=∑i =16x i -x y i -y∑i =16x i -x2≈0.183,a ^=y -b ^x ≈6.285.因此,y 与x 之间的回归直线方程为y ^=0.183x +6. 285. (3)因为∑i =16(y i -y ^i )2=0.013 175,∑i =16(y i -y )2=14.678 33,所以R2=1-∑i=16y i-y^i2∑i=16y i-y 2≈0.999.由于R2非常接近于1,因此拟合效果较好.。