2019年高考数学一轮总复习第10章概率与统计第四节变量间的相关关系与统计案例AB卷文1
- 格式:doc
- 大小:37.64 KB
- 文档页数:10
课时60 变量间的相关关系与统计案例(课前预习案)班级: 姓名:一、高考考纲要求1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.了解回归的基本思想、方法及其简单应用.4.了解独立性检验的思想、方法及其初步应用. 二、高考考点回顾 1.相关关系的判断(1)散点图直观反映了两变量的成对观测值之间存在的某种关系,利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x 和y 具有 相关关系.(2)相关系数r =∑i =1n(x i -x )(y i -y)∑i =1n(x i -x)2∑i =1n(y i -y)2, 当r>0时,两变量 相关,当r<0时,两变量 相关,当|r|≤1且|r|越接近于1,相关程度 ,当|r|≤1且|r|越接近于0,相关程度 . 2.最小二乘法求回归直线方程(1)设线性回归方程为y ^=b ^x +a ^,其中,b ^是回归方程的斜率,a ^是截距.⎩⎪⎨⎪⎧b ^=∑i =1n (x i-x )(y i-y )∑i =1n (x i -x )2=∑i =1nx i y i-n x y∑i =1nx 2i-n x2,a ^=y -b ^x .(2)回归直线一定经过样本的中心点 ,据此性质可以解决有关的计算问题. 3.独立性检验(1)独立性检验的有关概念 ①分类变量可用变量的不同“值”表示个体所属的 的变量称为分类变量. ②2×2列联表y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d利用随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 步骤如下:①计算随机变量K 2的观测值k ,查下表确定临界值k 0:P (K 2≥k 0)0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828020概率不超过P (K 2≥k 0)的前提下不能推断“X 与Y 有关系”. 三、课前检测1.下列两个变量之间的关系是相关关系的是( ). A .正方体的棱长与体积B .单位面积的产量为常数时,土地面积与总产量C .日照时间与水稻的亩产量D .电压一定时,电流与电阻2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( ).A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关3.(2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( ).A .y 与x 具有正的线性相关关系C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K 2≈0.99,根据这一数据分析,下列说法正确的是( ).A .有99%的人认为该栏目优秀B .有99%的人认为该栏目是否优秀与改革有关系C .有99%的把握认为电视栏目是否优秀与改革有关系D .没有理由认为电视栏目是否优秀与改革有关系5.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.课时60变量间的相关关系与统计案例(课内探究案)班级: 姓名:考点一线性相关关系的判断【典例1】下表是某小卖部6天卖出的热茶的杯数与当天气温的对比表.(1)(2)你能依据散点图指出气温与热茶杯数的关系吗?(3)如果气温与卖出热茶杯数近似成线性相关关系的话,请画出一条直线来近似地表示这种线性相关关系.【变式1】 5个学生的数学和物理成绩如下表:考点二 线性回归方程及其应用【典例2】(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求回归直线方程y ^=b x +a ,其中b =-20,a =y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【变式2】(2013·南昌模拟)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.(1)(2)据(1)的结果估计当房屋面积为150 m2时的销售价格.考点三独立性检验的基本思想及应用【典例3】在调查男女乘客是否晕机的事件中,已知男乘客晕机的为28人,不晕机的也是28人,而女乘客晕机的为28人,不晕机的为56人.(1)根据以上数据建立一个2×2的列联表;(2)能否在犯错误的概率不超过0.05的前提下认为晕机与性别有关系?(可能用到的公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),可能用到的数据:P(K2≥3.841)=0.05,P(K2≥5.024)=0.025)【变式3】某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析.【当堂检测】1.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ).A .-1B .0C.12D .12.已知x ,y 取值如下表:x 0 1 4 5 6 8 y1.31.85.66.17.49.3从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a =( ). A .1.30B .1.45C .1.65D .1.80些样本点通过最小二乘法得到的线性回归直线(如图),以下结论正确的是 ( ).A .直线l 过点(x ,y )B .x 和y 的相关系数为直线l 的斜率C .x 和y 的相关系数在0到1之间D .当n 为偶数时,分布在l 两侧的样本点的个数一定相同 4.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b x +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为 ( ). A .63.6万元B .65.5万元C .67.7万元D .72.0万元课后巩固案班级: 姓名: 完成时间:30分钟1.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x /cm 174 176 176 176 178 儿子身高y /cm175175176177177则y 对x A .y =x -1B .y =x +1C .y =88+12xD .y =1762.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变; ②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归方程y ^=b ^x +a ^必过(x ,y );④在一个2×2列联表中,由计算得K 2的观测值k =13.079,则在犯错误的概率不超过0.001的前提下认为这A .0B .1C .2D .3 本题可以参考独立性检验临界值表P (K 2≥k 0)0.5 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.8283施化肥量x 15 20 25 30 35 40 45 水稻产量y3303453654054454504554.考古学家通过始祖鸟化石标本发现:其股骨长度x (cm)与肱骨长度y (cm)的线性回归方程为y ^=1.197x -3.660,由此估计,当股骨长度为50 cm 时,肱骨长度的估计值为________ cm.5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.1.某班主任对全班50名学生进行了作业量多少的调查.数据如下表:认为作业多认为作业不多合计 喜欢玩游戏 18 9 不喜欢玩游戏8 15 合计(1)(2)试通过计算说明在犯错误的概率不超过多少的前提下认为喜欢玩游戏与作业量的多少有关系? 附:P (K 2≥k 0)0.05 0.025 0.010 0.005 0.001 k 03.8415.0246.6357.87910.828K 2=n (ad (a +b )(c +d )(a +c )(b +d )2.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)课时60 变量间的相关关系与统计案例参考答案课前检测 1.【答案】C【解析】A ,B ,D 中两个变量间的关系都是确定的,所以是函数关系;C 中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选C. 2.【答案】C【解析】由图(1)可知,各点整体呈递减趋势,x 与y 负相关;由图(2)可知,各点整体呈递增趋势,u 与v 正相关. 3.【答案】D【解析】根据线性回归方程中各系数的意义求解.由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故A 正确.又线性回归方程必过样本中心点(x ,y ),因此B 正确.由线性回归方程中系数的意义知,x 每增加1 cm ,其体重约增加0.85 kg ,故C 正确.当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,而不是具体值,因此D 不正确. 4.【答案】D确.5.【答案】0.254【解析】由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元. 【典例1】【解析】(1)画出的散点图如图.(2)从图中可以发现气温和热茶杯数具有相关关系,气温和热茶杯数成负相关,图中的各点大致分布在一条直线的附近,因此气温和杯数近似成线性相关关系.(3)根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系,如让画出的直线上方的点和下方的点数目相等.如图.【变式1】【解析】把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(x i ,y i )(i =1,2,…,5),作出散点图如图.从图中可以直观地看出数学成绩和物理成绩具有相关关系,且当数学成绩增大时,物理成绩也在由小变大,即它们正相关.【典例2】【解析】(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250, 从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000故当单价定为8.25元时,工厂可获得最大利润.【变式2】【解析】(1)x =15×(115+110+80+135+105)=109,y =15×(24.8+21.6+18.4+29.2+22)=23.2.设所求回归直线方程为y ^=b ^x +a ^,则b ^=∑i =15(x i -x )(y i -y)∑i =15(x i -x)2=3081 570≈0.196 2, ∴a ^=y -b ^x =23.2-109×3081 570≈1.816 6.∴所求回归直线方程为y ^=0.196 2x +1.816 6.(2)由第(1)问可知,当x =150 m 2时,销售价格的估计值为 y ^=0.196 2×150+1.816 6=31.246 6(万元).【典例3】【解析】(1)2×2列联表如下:(2)假设是否晕机与性别无关,则K 2的观测值k =56×84×56×84=359≈3.889,P (K 2≥3.841)=0.05.所以可以在犯错误的概率不超过0.05的前提下认为晕机与性别有关系. 【变式3】【解析】(1)2×2列联表如下:(2)因为K 2=30×(8-12×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关. 【当堂检测】 1.【答案】D【解析】样本点都在直线上时,其数据的估计值与真实值是相等的,故其相关系数为1. 2.【答案】B【解析】依题意得,x =16×(0+1+4+5+6+8)=4,y =16×(1.3+1.8+5.6+6.1+7.4+9.3)=5.25.又直线y ^=0.95x +a 必过样本中心点(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ,由此解得a =1.45,选B. 3.【答案】A【解析】由样本的中心(x ,y )落在回归直线上可知A 正确;x 和y 的相关系数表示为x 与y 之间的线性相关程度,不表示直线l 的斜率,故B 错;x 和y 的相关系数应在-1到1之间,故C 错;分布在回归直线两侧的样本点的个数并不绝对平均,无论样本点个数是奇数还是偶数,故D 错. 4.【答案】B【解析】x =4+2+3+54=3.5(万元),y =49+26+39+544=42(万元),∴a ^=y -b ^x =42-9.4×3.5=9.1, ∴回归方程为y ^=9.4x +9.1,∴当x =6(万元)时,y ^=9.4×6+9.1=65.5(万元).1.【答案】C【解析】由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )一定满足线性回归方程,经验证知选C.2.【答案】B【解析】只有②错误,应该是y 平均减少5个单位. 3.【答案】正【解析】因为散点图能直观地反映两个变量是否具有相关关系,所以画出散点图如图所示:通过观察图象可知变量x 与变量y 是正相关. 4.【答案】56.19【解析】根据线性回归方程y^=1.197x -3.660,将x =50代入得y =56.19,则肱骨长度的估计值为56.19 cm. 5.【答案】5%【解析】∵K 2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.1.【解析】(1)认为作业多认为作业不多合计 喜欢玩游戏 18 9 27 不喜欢玩游戏8 15 23 合计262450(2)将表中的数据代入公式K 2=(a +b )(c +d )(a +c )(b +d )得到K 2的观测值k =50×(18×15-8×9)226×24×27×23≈5.059>5.024,查表知P (K 2≥5.024)=0.025,即说明在犯错误的概率不超过0.025的前提下认为喜欢玩游戏与作业量的多少有关系.2.【解析】(1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得:∑i =14x 2i =86, x =3+4+5+64=4.5(吨),y =2.5+3+4+4.54=3.5(吨). 已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).。
§10.4变量间的相关关系、统计案例考试要求1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归方程(1)相关关系的分类①正相关在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关.②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.②回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.错误!(4)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心.③相关系数当r >0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.常用结论1.回归直线过样本点的中心(x,y).2.求b^时,常用公式b^=错误!.3.回归分析和独立性检验都是基于样本观测数据进行估计或推断,得出的结论都可能犯错误.思考辨析判断下列结论是否正确(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(2)线性回归直线y^=b^x+a^至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一个点.(×)(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.(√)(4)若分类变量X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.(×)教材改编题1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的线性回归方程为() A.y^=x+1 B.y^=x+2C.y^=2x+1D.y^=x-1答案A解析由已知可得x =14×(1+2+3+4)=2.5,y =14×(2+3+4+5)=3.5,所以回归直线过点(2.5,3.5),所以把点(2.5,3.5)代入四个选项中验证,可得只有y ^=x +1成立.2.下列关于样本数据的统计分析的判断中正确的是()A .若相关系数r =0,则说明样本数据没有相关性B .相关系数r 越大,样本数据的线性相关性越强C .用最小二乘法求得的线性回归模型的残差和一定是0D .相关指数R 2越大,残差平方和越小,模型的拟合效果越差答案C解析对于A ,当r =0时,只表明样本数据间没有线性相关关系,但是不排除它们之间有其他相关关系,故A 错误;对于B ,相关系数|r |越大,样本数据的线性相关性越强,故B 错误;对于C ,残差和为错误!(y i -y ^i )=错误!y i -(b ^x i +a ^)]=错误!i -b ^错误!i -错误!a ^=n y -nb ^x -na^=n (y -b ^x -a ^)=0,故C 正确;对于D ,相关指数R 2越大,表示残差平方和越小,即模型的拟合效果越好,故D 错误.3.为了判断高中三年级学生是否选修文科与性别的关系.现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案5%解析K 2的观测值k ≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.题型一相关关系的判断例1(1)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图1,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图2.由这两个散点图可以判断()图1图2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关答案C解析由题图可得两组数据均线性相关,且图1的回归直线的斜率为负,图2的回归直线的斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.(2)下列有关回归分析的说法中不正确的是()A .回归直线必过点(x ,y )B .回归直线就是散点图中经过样本数据点最多的那条直线C .当相关系数r >0时,两个变量正相关D .如果两个变量的线性相关性越弱,则|r |就越接近于0答案B解析对于A ,回归直线必过点(x ,y ),故A 正确;对于B ,回归直线在散点图中可能不经过任一样本数据点,故B 不正确;对于C ,当相关系数r >0时,则两个变量正相关,故C 正确;对于D ,如果两个变量的线性相关性越弱,则|r |就越接近于0,故D 正确.教师备选在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组数据的相关系数为()A .-1B .0C.12D .1答案D解析所有样本点均在同一条斜率为正数的直线上,则相关系数最大,为1.思维升华判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近于1,相关性越强.(3)线性回归方程:当b ^>0时,正相关;当b ^<0时,负相关.跟踪训练1(1)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是()A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关答案C解析因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案A解析由散点图知图(1)与图(3)是正相关,故r 1>0,r 3>0,图(2)与图(4)是负相关,故r 2<0,r 4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1.题型二回归分析命题点1线性回归分析例2(2022·郑州模拟)2021年2月25日,在全国脱贫攻坚总结表彰大会上,习近平总书记庄严宣告:我国脱贫攻坚战取得全面胜利.目前,河南省53个贫困县已经全部脱贫摘帽,退出贫困县序列.2016年起,我省某贫困地区创新开展产业扶贫,响应第三产业的扶贫攻坚政策,经济收入逐年增加.该地的经济收入变化及构成比例如图所示:年份2016年2017年2018年2019年2020年年份代号x12345经济收入y(单位:百万元)59141720(1)根据以上图表,试分析:与2016年相比,2020年第三产业与种植业收入变化情况;(2)求经济收入y关于x的线性回归方程,并预测2025年该地区的经济收入.解(1)①与2016年相比,2020年第三产业的收入占比大幅度增加;②2016年第三产业的收入为0.3百万元,2020年第三产业的收入为6百万元,收入大幅度增加;③与2016年相比,种植业收入占比减少,但种植业收入依然保持增长.(2)由表格中的数据可知,x=1+2+3+4+55=3,y=5+9+14+17+205=13,错误!2i=12+22+32+42+52=55,错误!i y i=1×5+2×9+3×14+4×17+5×20=233,则b ^=错误!=错误!=233-5×3×1355-5×32=3.8,所以a ^=y -b ^x =1.6,故经济收入y 关于x 的线性回归方程为y ^=3.8x +1.6,当x =10时,y ^=39.6,则预测2025年该地区的经济收入为39.6百万元.命题点2非线性回归分析例3(2022·吉林模拟)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x (百万元)与收益y (百万元)的数据统计如下:科技投入x 1234567收益y19202231405070根据数据特点,甲认为样本点分布在指数型曲线y =2bx +a 的周围,据此他对数据进行了一些初步处理.如下表:z 错误!2i错误!i y i错误!i z i错误!(y i -y )2错误!(y i -y i ^)2514012391492134130其中z i =log 2y i ,z =17错误!i .(1)请根据表中数据,建立y 关于x 的非线性回归方程(系数精确到0.1);(2)①乙认为样本点分布在直线y =mx +n 的周围,并计算得回归方程为y ^=8.25x +3,以及该回归模型的相关指数R 2乙=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好?②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)附:相关指数:R 2=1-错误!.参考数据:log 25≈2.3.解(1)将y =2bx +a 两边取对数得log 2y =bx +a ,令z =log 2y ,则z ^=b ^x +a ^,∵x =4,∴根据最小二乘估计可知,b ^=错误!=149-7×4×5140-7×42≈0.32,∴a ^=z -b ^x =5-0.32×4=3.72≈3.7,∴线性回归方程为z ^=0.3x +3.7,即y ^=20.3x +3.7.(2)①甲建立的回归模型的R 2甲=1-1302134≈0.939>R 2乙=0.893.∴甲建立的回归模型拟合效果更好.②由①知,甲建立的回归模型拟合效果更好.设20.3x +3.7≥100,解得0.3x +3.7≥log 2100=2+2log 25,解得x ≥9.7.∴科技投入的费用至少要9.7百万元,下一年的收益才能达到1亿元.教师备选1.(2022·湖北九师联盟联考)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表.x 23456y3.44.25.15.56.8由上表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元,该设备必须报废.据此模型预测,该设备使用年限的最大值约为()A .7B .8C .9D .10答案D解析由表格,得x =15×(2+3+4+5+6)=4,y =15×(3.4+4.2+5.1+5.5+6.8)=5,因为线性回归直线恒过点(x ,y ),所以5=0.81×4+a ^,解得a ^=1.76,所以线性回归方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值约为10.2.用模型y =c e kx 拟合一组数据时,为了求出回归方程,设z =ln y ,其变换后得到线性回归方程为z =0.5x +2,则c 等于()A .0.5B .e 0.5C .2D .e 2答案D解析因为y =c e kx ,两边取对数得,ln y =ln(c e kx )=ln c +ln e kx =kx +ln c ,则z =kx +ln c ,而z =0.5x +2,于是得ln c =2,即c =e 2.思维升华求线性回归方程的步骤跟踪训练2为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y (千克)与某种液体肥料每亩使用量x (千克)之间的对应数据如下.x (千克)24568y (千克)300400400400500(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请计算相关系数r 并加以说明(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合);(2)求y 关于x 的线性回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?参考数据:10≈3.16.解(1)由已知数据可得x =2+4+5+6+85=5,y =300+400+400+400+5005=400,所以错误!(x i -x )(y i -y )=(-3)×(-100)+(-1)×0+0×0+1×0+3×100=600,错误!=(-3)2+(-1)2+02+12+32=25,错误!=(-100)2+02+02+02+1002=1002,所以相关系数r =错误!=60025×1002=310≈0.95.因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系.(2)b ^=错误!=60020=30,a ^=400-5×30=250,所以线性回归方程为y ^=30x +250.当x =15时,y ^=30×15+250=700,即当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为700千克.题型三独立性检验例4(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品总计甲机床15050200乙机床12080200总计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828解(1)根据题表中数据知,甲机床生产的产品中一级品的频率是150200=0.75,乙机床生产的产品中一级品的频率是120 200=0.6.(2)根据题表中的数据可得K2=400×(150×80-120×50)2200×200×270×130=40039≈10.256.因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.教师备选(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k0)0.0500.0100.001 k0 3.841 6.63510.828解(1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=0.43;空气质量等级为2的概率为5+10+12100=0.27;空气质量等级为3的概率为6+7+8100=0.21;空气质量等级为4的概率为7+2+0100=0.09.(2)由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为100×20+300×35+500×45100=350.(3)2×2列联表如下:人次≤400人次>400空气质量好3337空气质量不好228K2=100×(33×8-37×22)255×45×70×30≈5.820>3.841,所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.思维升华独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算;(3)比较K2与临界值的大小关系,作统计推断.跟踪训练3(2022·太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:SO2的浓度空气质量等级[0,50](50,150](150,475]1(优)28622(良)5783(轻度污染)3894(中度污染)11211若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题.(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;(2)完成下面的2×2列联表,SO2的浓度空气质量[0,150](150,475]总计空气质量好空气质量不好总计(3)根据(2)中的列联表,能否有99%的把握认为该市一天的空气质量与当天SO2的浓度有关?解(1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+5+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P=46100=0.46.(2)由表格数据可得列联表如下,SO2的浓度空气质量[0,150](150,475]总计空气质量好461056空气质量不好242044总计7030100(3)K2=100×(46×20-24×10)270×30×56×44≈8.936>6.635,所以有99%的把握认为该市一天的空气质量与当天SO2的浓度有关.课时精练1.如表是2×2列联表,则表中的a,b的值分别为()y1y2总计x1a835x2113445总计b 4280A.27,38B .28,38C .27,37D .28,37答案A解析a =35-8=27,b =a +11=27+11=38.2.(2022·湘豫名校模拟)根据如表样本数据:x 23456y42.5-0.5-2-3得到的线性回归方程为y ^=b ^x +a ^,则()A.a ^>0,b ^>0 B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0答案B解析由表中的数据可得,变量y 随着x 的增大而减小,则b ^<0,x =2+3+4+5+65=4,y =4+2.5-0.5-2-35=0.2,又线性回归方程y ^=b ^x +a ^经过点(4,0.2),可得a ^>0.3.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如表:x 24568y3040605070y 与x 的线性回归方程为y ^=6.5x +17.5,当广告支出6万元时,随机误差的残差为()A .-5B .-5.5C .-6D .-6.5答案D解析由题意结合线性回归方程的预测作用可得,当x =6时,y ^=6.5×6+17.5=56.5,则随机误差的残差为50-56.5=-6.5.4.(2022·宝鸡模拟)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x (每分钟鸣叫的次数)与气温y (单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了y 关于x 的线性回归方程y ^=0.25x +k ,则下列说法不正确的是()x (次数/分钟)2030405060y (℃)2527.52932.536A.k 的值是20B .变量x ,y 呈正相关关系C .若x 的值增加1,则y 的值约增加0.25D .当蟋蟀52次/分鸣叫时,该地当时的气温预测值为33.5℃答案D解析由题意,得x =15×(20+30+40+50+60)=40,y =15×(25+27.5+29+32.5+36)=30,则k =y -0.25x =30-0.25×40=20,故A 正确;由线性回归方程可知,b ^=0.25>0,变量x ,y 呈正相关关系,故B 正确;若x 的值增加1,则y 的值约增加0.25,故C 正确;当x =52时,y ^=0.25×52+20=33,故D 不正确.5.下列说法正确的是()A .设有一个线性回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位B .若两个具有线性相关关系的变量的相关性越强,则相关系数r 的值越接近于1C .在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越低D .在线性回归模型中,相关指数R 2越接近于1,说明回归的效果越好答案D解析A 选项,因为y ^=3-5x ,所以变量x 增加一个单位时,y 平均减少5个单位,故A 错误;B 选项,线性相关性具有正负,相关性越强,则相关系数r 的绝对值越接近于1,故B 错误;C 选项,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C 错误;D 选项,在线性回归模型中,相关指数R 2越接近于1,说明模型拟合的精度越高,即回归的效果越好,故D正确.6.2021年5月18日,《佛山市第七次全国人口普查公报》发布.公报显示,佛山市常住人口为9498863人.为了进一步分析数据特征,某数学兴趣小组先将近五次人口普查数据作出散点图(横坐标为人口普查的序号,第三次普查记为1,…,第七次普查记为5,纵坐标为当次人口普查佛山市人口数(单位:万人),再利用不同的函数模型作出回归分析,如图,以下说法正确的是()A.佛山市人口数与普查序号呈负相关关系B.散点的分布呈现出很弱的线性相关特征C.回归方程2的拟合效果更好D.应用线性回归方程1可以预测第八次人口普查时佛山市人口会超过1400万人答案C解析对于A,散点图中的点的分布从左下方至右上方,故呈正相关关系,故A错误;对于B,利用模型1,样本点基本分布在直线的两侧,故具有较强的线性相关特征,故B错误;对于C,因为0.9794>0.9726,所以回归方程2的拟合效果更好,故C正确;对于D,利用模型1,当x=6时,y=183.5×6-1.7=1099.3<1400,故D错误.7.(2022·广州模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x(个)1020304050加工时间y(min)62a758189若用最小二乘法求得线性回归方程为y ^=0.67x +54.9,则a 的值为________.答案68解析由已知x =10+20+30+40+505=30,y =62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9,解得a =68.8.(2022·青岛模拟)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d ;P (K 2≥k 0)0.050.0250.0100.001k 03.8415.0246.63510.828答案0.025解析由题意可得列联表如下,集中培训分散培训总计一次考过453075一次未考过102030总计5550105K 2=105×(45×20-10×30)255×50×75×30≈6.109>5.024.故犯错误的概率不超过0.025.9.(2022·河南九师联盟联考)机动车行经人行横道时,应当减速慢行:遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.如表是某市一主干路口监控设备所抓拍的1-5月份驾驶员不“礼让行人”行为统计数据:月份12345违章驾驶员人数1201051009580(1)请利用所给数据求违章人数y 与月份x 之间的线性回归方程y ^=b ^x +a ^,并预测该路口10月份的不“礼让行人”违章驾驶员人数;(2)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,如表所示:不礼让行人礼让行人驾龄不超过1年2416驾龄1年以上1614判断是否有90%的把握认为“礼让行人”行为与驾龄有关?解(1)由表中的数据可知,x =1+2+3+4+55=3,y =120+105+100+95+805=100,所以b ^=错误!=1410-150055-45=-9,故a ^=y -b ^x =100-(-9)×3=127,所以所求的线性回归方程为y ^=-9x +127;令x =10,则y ^=-9×10+127=37.(2)K 2=70×(24×14-16×16)240×30×40×30=1445≈0.311<2.706,因此,没有90%以上的把握认为“礼让行人”行为与驾龄有关.10.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如表所示:月份12345678物流成本x 8383.58086.58984.57986.5利润y114116106122132114m 132残差e i ^=y i -y i^0.20.61.8-3-1-4.6-1根据最小二乘法估计公式求得线性回归方程为y ^=3.2x -151.8.(1)求m 的值,并利用已知的线性回归方程求出8月份对应的残差值e ^8;(2)请先求出线性回归模型y ^=3.2x -151.8的相关指数R 2(精确到0.0001);若根据非线性回归模型y =267.76ln x -1069.2求得解释变量(物流成本)对于预报变量(利润)的相关指数R 20=0.9057,请说明以上两种模型哪种模型拟合效果更好?(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,求出新的回归方程.附(修正前的参考数据):错误!i y i =78880,错误!2i =56528,x =84,错误!(y i -y )2=904.解(1)因为y ^=3.2x -151.8,x =84,所以y =3.2×84-151.8=117,114+116+106+122+132+114+m +132=117×8,解得m =100,所以8月份对应的残差值e ^8=132-3.2×86.5+151.8=7.(2)由已知公式得错误!(y i -y i ^)2=0.22+0.62+1.82+(-3)2+(-1)2+(-4.6)2+(-1)2+72=84.8,R 2=1-错误!=1-84.8904≈0.9062>R 20,所以线性回归模型y ^=3.2x -151.8拟合效果更好.(3)第八组数据的利润应为116万元,此时错误!i y i =78880-86.5×16=77496,又错误!2i =56528,x =84,y =117-168=115,所以b ^=错误!=77496-8×84×11556528-8×842=2.7,a ^=115-2.7×84=-111.8,所以重新采集数据后,回归方程为y ^=2.7x -111.8.11.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修该课程的55名学生,得到数据如下表:喜欢统计课程不喜欢统计课程男生205女生1020临界值参考:P (K 2≥k 0)0.100.050.250.0100.0050.001k 02.7063.8415.0246.6357.87910.828(参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d )参照附表,得到的正确结论是()A .在犯错误的概率不超过0.1%的前提下,认为“喜欢‘应用统计’课程与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“喜欢‘应用统计’课程与性别无关”C .有99%以上的把握认为“喜欢‘应用统计’课程与性别有关”D .有99%以上的把握认为“喜欢‘应用统计’课程与性别无关”答案A 解析K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=55×(20×20-10×5)230×25×30×25=5394512.0>10.828,故在犯错误的概率不超过0.1%的前提下,认为“喜欢‘应用统计’课程与性别有关”.12.已知变量y 与x 的一组数据如表所示,根据数据得到y 关于x 的非线性回归方程为y ^=e bx -1.x 1234ye 2e 3e 5e 6若y ^=e 13,则x 等于()A .6B .7C .8D .9答案B解析由y ^=e bx -1,得ln y ^=bx -1,令z =ln y ,则z ^=bx -1,由题意知,x =1+2+3+44=2.5,z =2+3+5+64=4,因为(x ,z )满足z ^=bx -1,所以4=b ×2.5-1,解得b =2,所以z ^=2x -1,所以y ^=e 2x -1,令e 2x -1=e 13,解得x =7.13.(2022·武汉部分重点中学联考)下列选项中,正确的是()A .对于回归分析,相关系数r 的绝对值越小,说明拟合效果越好B .以模型y =c ·e kx 去拟合一组数据时,为了求出回归方程,设z =ln y ,将其变换后得到线性回归方程z ^=0.3x +4,则c ,k 的值分别是e 4和0.3C .线性回归方程y ^=b ^x +a ^中,b ^的符号和相关系数r 的符号无关D .通过回归直线y ^=b ^x +a ^及回归系数b ^,可以精确反映变量的取值和变化趋势答案B解析对于A ,回归分析中,相关系数绝对值越大,拟合效果越好,A 不正确;对于B ,由y =c ·e kx 两边取对数得ln y =kx +ln c ,依题意,k =0.3,ln c =4,即c =e 4,B 正确;对于C ,由公式知,C 不正确.对于D ,回归直线y ^=b ^x +a ^及回归系数b ^,不能精确反映变量的取值和变化趋势,D 不正确.14.(2022·漳州模拟)根据下面的数据:x 1234y32487288求得y 关于x 的线性回归方程为y ^=19.2x +12,则这组数据相对于所求的线性回归方程的4个残差的方差为________.(注:残差是指实际观测值与预测值之间的差)答案 3.2解析把x =1,2,3,4依次代入线性回归方程y ^=19.2x +12,所得预测值依次为y ^1=31.2,y ^2=50.4,y ^3=69.6,y ^4=88.8,对应的残差依次为0.8,-2.4,2.4,-0.8,它们的平均数为0,所以4个残差的方差为s 2=0.82+(-2.4)2+2.42+(-0.8)24=3.2.15.已知由样本数据(x i ,y i ),i =1,2,3,4,5,6求得的线性回归方程为y ^=2x +1,且x =3.现发现一个样本数据(8,12)误差较大,去除该数据后重新求得的回归直线l 的纵截距依然是1,则下列说法不正确的是()A .去除前变量x 每增加1个单位,变量y 一定增加2个单位B .去除后剩余样本数据中x 的平均数为2C .去除后的线性回归方程为y ^=2.5x +1D .去除后相关系数r 变大答案A解析当x =3时,y =2×3+1=7,则错误!i =6x =18,错误!i =6y =42,去除样本数据(8,12)后的新数据,x ′=18-85=2,y ′=42-125=6,设去除样本数据(8,12)后重新求得的线性回归方程为y ^=a ^x +1,则2a ^+1=6,解得a ^=2.5,故去除后的线性回归方程为y ^=2.5x +1,C 正确;对于A 选项,去除前变量x 每增加1个单位,变量y 大约增加2个单位,A 错误;对于B 选项,去除后剩余样本数据中x 的平均数为2,B 正确;对于D 选项,去除了误差较大的样本数据后,线性相关性变强,因为y 关于x 为正相关,则r >0,所以,相关系数r 变大,D 正确.16.(2022·石嘴山模拟)商务部会同海关总署、国家药监局于3月31日发布关于有序开展医疗物资出口的公告.如医疗物资出口中出现质量问题,将认真调查,发现一起,查处一起,切实维护“中国制造”的形象,更好地发挥医疗物资对支持全球疫情防控的重要作用.为了监控某种医疗物资的一条生产线的生产过程,检验员每隔30min 从该生产线上随机抽取一个医疗物资,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个医疗物资的尺寸:抽取次数医疗物资尺寸抽取次数医疗物资尺寸19.95910.26210.12109.9139.961110.1349.961210.02510.01139.2269.921410.0479.981510.05810.04169.95。
第5讲 变量间的相关关系与统计案例一、选择题1.某商品的销售量y (件)与销售价格x (元/件)存在线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=-5x +150,则下列结论正确的是( )A .y 与x 具有正的线性相关关系B .若r 表示y 与x 之间的线性相关系数,则r =-5C .当销售价格为10元时,销售量为100件D .当销售价格为10元时,销售量为100件左右解析:选D .由回归直线方程知,y 与x 具有负的线性相关关系,A 错,若r 表示y 与x 之间的线性相关系数,则|r |≤1,B 错.当销售价格为10元时,y ^=-5×10+150=100,即销售量为100件左右,C 错,故选D .2.(2018·湖南湘中名校联考)利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 和Y 有关系”的可信度.如果k >3.841,那么有把握认为“X 和Y 有关系”的百分比为( )C .99.5%D .95%解析:选D .由图表中数据可得,当k >3.841时,有95%的把握认为“X 和Y 有关系”,故选D .3.(2018·湖北七市(州)联考)广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费x 和销售额y 进行统计,得到统计数据如下表(单位:万元):由上表可得回归方程为y =10.2x +a ,据此模型,预测广告费为10万元时销售额约为( )A .101.2万元B .108.8万元C .111.2万元D .118.2万元解析:选C .根据统计数据表,可得x -=15×(2+3+4+5+6)=4,y -=15×(29+41+50+59+71)=50,而回归直线y ^=10.2x +a ^经过样本点的中心(4,50),所以50=10.2×4+a ^,解得a ^=9.2,所以回归方程为y ^=10.2x +9.2,所以当x =10时,y =10.2×10+9.2=111.2,故选C .4.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A .66%B .67%C .79%D .84%解析:选D .因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y ^=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.二、填空题5.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2456.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则n =________.解析:x -=9+9.5+m +10.5+115=8+m 5,y -=11+n +8+6+55=6+n 5,回归直线一定经过样本中心(x -,y -),即6+n 5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.答案:10 三、解答题7.某公司的广告费支出x (单位:万元)与销售额y (单位:万元)之间有下列对应数据:(1)(2)根据表中提供的数据,求出y 与x 的回归方程y ^=b ^x +a ^; (3)预测销售额为115万元时,大约需要多少万元广告费. 解:(1)散点图如图.由图可判断:广告费与销售额具有相关关系.(2)x -=15×(2+4+5+6+8)=5,y -=15×(30+40+60+50+70)=50,∑5i =1x i y i =2×30+4×40+5×60+6×50+8×70=1 380, ∑5i =1x 2i =22+42+52+62+82=145,b ^=∑5i =1x i y i -5x -y -∑5i =1x 2i -5x -2=1 380-5×5×50145-5×52=6.5, a ^=y --b ^x -=50-6.5×5=17.5.所以线性回归方程为y ^=6.5x +17.5.(3)由题得y =115时,6.5x +17.5=115,得x =15. 故预测销售额为115万元时,大约需要15万元的广告费.8.(2018·郑州第一次质量预测)近年来郑州空气污染较为严重,现随机抽取一年(365天)内100天的空气中PM2.5指数的检测数据,统计结果如下:间[0,100]内时对企业没有造成经济损失;当x 在区间(100,300]内时对企业造成的经济损失成直线模型(当PM2.5指数为150时造成的经济损失为500元,当PM2.5指数为200时,造成的经济损失为700元);当PM2.5指数大于300时造成的经济损失为2 000元.(1)试写出S (x )的表达式;(2)试估计在本年内随机抽取一天,该天经济损失S 大于500元且不超过900元的概率; (3)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染,完成下面列联表,并判断是否有95%的把握认为郑州市本年度空气重度污染与供暖有关?附:K 2=(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .解:(1)依题意,可得S (x )=⎩⎪⎨⎪⎧0,x ∈[0,100]4x -100,x ∈(100,300].2 000,x ∈(300,+∞)(2)设“在本年内随机抽取一天,该天经济损失S 大于500元且不超过900元”为事件A , 由500<S ≤900,得150<x ≤250,频数为39,P (A )=39100. (3)根据题中数据得到如下2×2列联表:K 2的观测值k =100×(63×8-22×7)285×15×30×70≈4.575>3.841,所以有95%的把握认为空气重度污染与供暖有关.1.中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策”.为了了解人们对“延迟退休年龄政策”的态度,责成人社部进行调研.人社部从网上年龄在15~65的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休”的人数与年龄的统计结果如下:同人群对“延迟退休年龄政策”的支持度有差异;(2)若以458人参加某项活动.现从这8人中随机抽取2人,求至少有1人是45岁以上的概率.参考数据:K 2=(a +b )(c +d )(a +c )(b +d )解:(1)因为K 2=50×50×80×20=6.25>3.841,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策”的支持度有差异.(2)从不支持“延迟退休”的人中,45岁以下应抽6人,45岁以上应抽2人. 记45岁以下的为1,2,3,4,5,6;45岁以上的为A ,B , 则有1→2,3,4,5,6,A ,B , 2→3,4,5,6,A ,B , 3→4,5,6,A ,B , 4→5,6,A ,B , 5→6,A ,B , 6→A ,B ,A →B ,故所求概率为1328.2.(2018·广东汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进行整理,得到如下数据:下面是(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^、a ^小数点后保留两位有效数字)(3)基于成本的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x -2,a ^=y --b ^x -,r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2参考数据:∑6i =1x i y i =187.4,∑6i =1x i z i =47.64,∑6i =1x 2i =139, ∑6i =1(x i -x -)2≈4.18, ∑6i =1(y i -y -)2≈13.96, ∑6i =1(z i -z -)2≈1.53,ln 1.46≈0.38,ln 0.711 8≈-0.34. 解:(1)由题意,知x -=16×(2+3+4+5+6+7)=4.5,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,又∑6i =1x i z i =47.64, ∑6i =1(x i -x -)2≈4.18, ∑6i =1(z i -z -)2≈1.53, 所以r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,所以z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36, 所以a ^=z --b ^x -=2+0.36×4.5=3.62, 所以z 与x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,所以y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,得y ^=e -0.36×9+3.62=e 0.38,因为ln 1.46≈0.38,所以y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元. (3)当y ^≥0.711 8, 即e-0.36x +3.62≥0.711 8=eln 0.711 8=e-0.34时,则有-0.36x +3.62≥-0.34, 解得x ≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.。
2019年高考数学一轮总复习第10章概率与统计第四节变量间的相关关系与统计案例AB卷文11.(2015·新课标全国Ⅱ,3)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关解析从2006年起,将每年的二氧化硫排放量与前一年作差比较,得到2008年二氧化硫排放量与2007年排放量的差最大,A选项正确;2007年二氧化硫排放量较2006年降低了很多,B选项正确;虽然2011年二氧化硫排放量较2010年多一些,但自2006年以来,整体呈递减趋势,即C选项正确;自2006年以来我国二氧化硫年排放量与年份负相关,D选项错误.故选D.答案D2.(2016·新课标全国Ⅲ,18)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码17分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:回归方程=+t中斜率和截距的最小二乘估计公式分别为:解(1)由折线图中数据和附注中参考数据得r≈≈0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.(2)由=≈1.331及(1)得=≈0.103,=-≈1.331-0.103×4≈0.92.所以y关于t的回归方程为=0.92+0.10t.将2016年对应的t=9代入回归方程得=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.3.(2015·新课标全国Ⅰ,19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中wi=,=i.(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v=α+βu的斜率和截距的最小二乘估计分别为解(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=,先建立y关于w的线性回归方程,由于c^=-d^=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x 的回归方程为y^=100.6+68.(3)①由(2)知,当x=49时,年销售量y的预报值y^=100.6+68=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68)-x=-x+13.6+20.12.所以当==6.8,即x=46.24时,z^ 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.1.(2015·湖北,4)已知变量x和y满足关系y=-0.1x+1,变量y 与z正相关,下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析因为y=-0.1x+1,-0.1<0,所以x与y负相关.又y与z 正相关,故可设z=ay+b(a>0),所以z=-0.1ax+a+b,-0.1a<0,所以x与z负相关.故选C.答案C2.(2014·湖北,6)根据如下样本数据A.a>0,b<0B.a>0,b>0C.a<0,b<0D.a<0,b>0解析由散点图知b<0,a>0,选A.]答案A3.(2013·湖北,4)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且=2.347x-6.423;②y与x负相关且=-3.476x+5.648;③y与x正相关且=5.437x+8.493;④y与x正相关且=-4.326x-4.578.其中一定不正确的结论的序号是( )A.①②B.②③C.③④D.①④解析正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④,故选D.答案D4.(2012·湖南,5)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( )A.y与x具有正的线性相关关系B.回归直线过样本点的中心(,)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析D选项中,若该大学某女生身高为170 cm,则可断定其体重约为:0.85×170-85.71=58.79 kg.故D不正确.答案D5.(2015·,14)高三年级267位学生参加期末考试,某班37位学生的语文成绩,数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,①在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;②在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析①由散点图可知:越靠近坐标原点O名次越好,乙同学语文成绩好,而总成绩年级名次靠后;而甲同学语文成绩名次比总成绩名次差,所以应是乙同学语文成绩名次比总成绩名次靠前.②丙同学总成绩年级名次比数学成绩年级名次差,所以丙同学成绩名次更靠前的是数学.答案乙数学6.(2015·重庆,17)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(1)求(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程y^=b^t+a^中,解(1)列表计算如下这里n=5,t,=i==3,-=i==7.2.y故所求回归方程为y^=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为y^=1.2×6+3.6=10.8(千亿元).7.(2014·江西,7)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1A.C.智商D.阅读量解析因为χ=52×(6×22-14×10)216×36×32×20=,χ==,χ==,χ==,则χ>χ>χ>χ,所以阅读量与性别有关联的可能性最大.答案D8.(2014·辽宁,18)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:(1)在选用甜品的饮食习惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=,解(1)将2×2列联表中的数据代入公式计算,得χ2=n(n11n22-n12n21)2n1+n2+n+1n+2==≈4.762.由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a1,a2,b1),(a1,a2,b2),(a1,a2,b3),(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.其中ai表示喜欢甜品的学生,i=1,2.bj表示不喜欢甜品的学生,j=1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A表示“3人中至多有1人喜欢甜品”这一事件,则A={(a1,b1,b2),(a1,b2,b3),(a1,b1,b3),(a2,b1,b2),(a2,b2,b3),(a2,b1,b3),(b1,b2,b3)}.事件A是由7个基本事件组成,因而P(A)=.9.(2014·安徽,17)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)解(2)由频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表K2==≈4.762>3.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。