高中数学必修三:变量间的相关关系)
- 格式:ppt
- 大小:1.15 MB
- 文档页数:28
2.3 变量间的相关关系2.3.1 变量之间的相关关系2.3.2 两个变量的线性相关整体设计教学分析变量之间的关系是人们感兴趣的问题.教科书通过思考栏目“物理成绩与数学成绩之间的关系”,引导学生考察变量之间的关系.在教师的引导下,可使学生认识到在现实世界中存在不能用函数模型描述的变量关系,从而体会研究变量之间的相关关系的重要性.随后,通过探究人体脂肪百分比和年龄之间的关系,引入描述两个变量之间关系的线性回归方程(模型).教科书在探索用多种方法确定线性回归直线的过程中,向学生展示创造性思维的过程,帮助学生理解最小二乘法的思想.通过气温与饮料销售量的例子及随后的思考,使学生了解利用线性回归方程解决实际问题的全过程,体会线性回归方程作出的预测结果的随机性,并且可能犯的错误.进一步,教师可以利用计算机模拟和多媒体技术,直观形象地展示预测结果的随机性和规律性.三维目标1.通过收集现实问题中两个有关联变量的数据认识变量间的相关关系.2.明确事物间的相互联系.认识现实生活中变量间除了存在确定的关系外,仍存在大量的非确定性的相关关系,并利用散点图直观体会这种相关关系.3.经历用不同估算方法描述两个变量线性相关的过程.知道最小二乘法的思想,能根据给出的线性回归方程的系数公式建立线性回归方程.重点难点教学重点:通过收集现实问题中两个有关联变量的数据直观认识变量间的相关关系;利用散点图直观认识两个变量之间的线性关系;根据给出的线性回归方程的系数公式建立线性回归方程.教学难点:变量之间相关关系的理解;作散点图和理解两个变量的正相关和负相关;理解最小二乘法的思想.课时安排2课时教学过程第1课时导入新课思路1在学校里,老师对学生经常这样说:“如果你的数学成绩好,那么你的物理学习就不会有什么大问题.”按照这种说法,似乎学生的物理成绩与数学成绩之间存在着一种相关关系.这种说法有没有根据呢?请同学们如实填写下表(在空格中打“√” ):学生讨论:我们可以发现自己的数学成绩和物理成绩存在某种关系.(似乎就是数学好的,物理也好;数学差的,物理也差,但又不全对.)物理成绩和数学成绩是两个变量,从经验看,由于物理学习要用到比较多的数学知识和数学方法.数学成绩的高低对物理成绩的高低是有一定影响的.但决非唯一因素,还有其他因素,如是否喜欢物理,用在物理学习上的时间等等.(总结:不能通过一个人的数学成绩是多少就准确地断定他的物理成绩能达到多少.但这两个变量是有一定关系的,它们之间是一种不确定性的关系.如何通过数学成绩的结果对物理成绩进行合理估计有非常重要的现实意义.)为很好地说明上述问题,我们开始学习变量之间的相关关系和两个变量的线性相关.(教师板书课题)思路2某地区的环境条件适合天鹅栖息繁衍,有人经统计发现了一个有趣的现象,如果村庄附近栖息的天鹅多,那么这个村庄的婴儿出生率也高,天鹅少的地方婴儿的出生率低,于是,他就得出一个结论:天鹅能够带来孩子.你认为这样得到的结论可靠吗?如何证明这个结论的可靠性?推进新课新知探究提出问题(1)粮食产量与施肥量有关系吗?“名师出高徒”可以解释为教师的水平越高,学生的水平也越高.教师的水平与学生的水平有什么关系?你能举出更多的描述生活中两个变量的相关关系的成语吗?(2)两个变量间的相关关系是什么?有几种?(3)两个变量间的相关关系的判断.讨论结果:(1)粮食产量与施肥量有关系,一般是在标准范围内,施肥越多,粮食产量越高;教师的水平与学生的水平是相关的,如水滴石穿,三人行必有我师等.我们还可以举出现实生活中存在的许多相关关系的问题.例如:商品销售收入与广告支出经费之间的关系.商品销售收入与广告支出经费有着密切的联系,但商品销售收入不仅与广告支出多少有关,还与商品质量、居民收入等因素有关.粮食产量与施肥量之间的关系.在一定范围内,施肥量越大,粮食产量就越高.但是,施肥量并不是决定粮食产量的唯一因素.因为粮食产量还要受到土壤质量、降雨量、田间管理水平等因素的影响.人体内的脂肪含量与年龄之间的关系.在一定年龄段内,随着年龄的增长,人体内的脂肪含量会增加,但人体内的脂肪含量还与饮食习惯、体育锻炼等有关,可能还与个人的先天体质有关.应当说,对于上述各种问题中的两个变量之间的相关关系,我们都可以根据自己的生活、学习经验作出相应的判断,因为“经验当中有规律”.但是,不管你的经验多么丰富,如果只凭经验办事,还是很容易出错的.因此,在分析两个变量之间的相关关系时,我们需要一些有说服力的方法.在寻找变量之间相关关系的过程中,统计同样发挥着非常重要的作用.因为上面提到的这种关系,并不像匀速直线运动中时间与路程的关系那样是完全确定的,而是带有不确定性.这就需要通过收集大量的数据(有时通过调查,有时通过实验),在对数据进行统计分析的基础上,发现其中的规律,才能对它们之间的关系作出判断.(2)相关关系的概念:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系,叫做相关关系.两个变量之间的关系分两类:①确定性的函数关系,例如我们以前学习过的一次函数、二次函数等;②带有随机性的变量间的相关关系,例如“身高者,体重也重”,我们就说身高与体重这两个变量具有相关关系.相关关系是一种非确定性关系.如商品销售收入与广告支出经费之间的关系.(还与商品质量、居民收入、生活环境等有关)(3)两个变量间的相关关系的判断:①散点图.②根据散点图中变量的对应点的离散程度,可以准确地判断两个变量是否具有相关关系.③正相关、负相关的概念.①教学散点图出示例题:在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据:年龄23 27 38 41 45 49 50脂肪9.5 17.8 21.2 25.9 27.5 26.3 28.2年龄53 54 56 57 58 60 61脂肪29.6 30.2 31.4 30.8 33.5 35.2 34.6分析数据:大体上来看,随着年龄的增加,人体中脂肪的百分比也在增加.我们可以作散点图来进一步分析.②散点图的概念:将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图,如下图.从散点图我们可以看出,年龄越大,体内脂肪含量越高.图中点的趋势表明两个变量之间确实存在一定的关系,这个图支持了我们从数据表中得出的结论.(a.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.b.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系.c.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系)③正相关与负相关的概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关.如果散点图中的点散布在从左上角到右下角的区域内,称为负相关.(注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系)应用示例思路1例1 下列关系中,带有随机性相关关系的是_____________.①正方形的边长与面积之间的关系②水稻产量与施肥量之间的关系③人的身高与年龄之间的关系④降雪量与交通事故的发生率之间的关系解析:两变量之间的关系有两种:函数关系与带有随机性的相关关系.①正方形的边长与面积之间的关系是函数关系.②水稻产量与施肥量之间的关系不是严格的函数关系,但是具有相关性,因而是相关关系.③人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人的年龄达到一定时期身高就不发生明显变化了,因而他们不具备相关关系.④降雪量与交通事故的发生率之间具有相关关系,因此填②④.答案:②④例2 有关法律规定,香烟盒上必须印上“吸烟有害健康”的警示语.吸烟是否一定会引起健康问题?你认为“健康问题不一定是由吸烟引起的,所以可以吸烟”的说法对吗?分析:学生思考,然后讨论交流,教师及时评价.解:从已经掌握的知识来看,吸烟会损害身体的健康,但是除了吸烟之外,还有许多其他的随机因素影响身体健康,人体健康是很多因素共同作用的结果.我们可以找到长寿的吸烟者,也更容易发现由于吸烟而引发的患病者,所以吸烟不一定引起健康问题.但吸烟引起健康问题的可能性大.因此“健康问题不一定是由吸烟引起的,所以可以吸烟”的说法是不对的.点评:在探究研究的过程中,如果能够从两个变量的观察数据之间发现相关关系是极为有意义的,由此可以进一步研究二者之间是否蕴涵因果关系,从而发现引起这种相关关系的本质原因是什么.本题的意义在于引导学生重视对统计结果的解释,从中发现进一步研究的问题. 思路2例1 有时候,一些东西吃起来口味越好,对我们的身体越有害.下表给出了不同类型的某种食品的数据.第二列表示此种食品所含热量的百分比,第三列数据表示由一些美食家以百分制给出的对此种食品口味的评价:(1)作出这些数据的散点图.(2)关于两个变量之间的关系,你能得出什么结论?解:(1)散点图如下:(2)基本成正相关关系,即食品所含热量越高,口味越好.例2 案例分析:一般说来,一个人的身高越高,他的右手一拃长就越长,因此,人的身高与右手一拃长之间存在着一定的关系.为了对这个问题进行调查,我们收集了北京市某中学2003年高三年级96名学生的身高与右手一拃长的数据如下表.性别身高/cm 右手一拃长/cm 性别身高/cm 右手一拃长/cm女152 18.5 女153 16.0女156 16.0 女157 20.0女158 17.3 女159 20.0女160 15.0 女160 16.0女160 17.5 女160 17.5女160 19.0 女160 19.0女160 19.0 女160 19.5女161 16.1 女161 18.0女162 18.2 女162 18.5女163 20.0 女163 21.5女164 17.0 女164 18.5女164 19.0 女164 20.0女165 15.0 女165 16.0女165 17.5 女165 19.5女166 19.0 女167 19.0女167 19.0 女168 16.0男178 21.0 男178 22.5男178 24.0 男179 21.5男179 21.5 男179 23.0男180 22.5 男181 21.1男181 21.5 男181 23.0男182 18.5 男182 21.5男182 24.0 男183 21.2男185 25.0 男186 22.0男191 21.0 男191 23.0(1)根据上表中的数据,制成散点图.你能从散点图中发现身高与右手一拃长之间的近似关系吗?(2)如果近似成线性关系,请画出一条直线来近似地表示这种线性关系.(3)如果一个学生的身高是188 cm,你能估计他的一拃大概有多长吗?解:根据上表中的数据,制成的散点图如下.从散点图上可以发现,身高与右手一拃长之间的总体趋势是成一直线,也就是说,它们之间是线性相关的.那么,怎样确定这条直线呢?同学1:选择能反映直线变化的两个点,例如(153,16),(191,23)两点确定一条直线. 同学2:在图中放上一根细绳,使得上面和下面点的个数相同或基本相同.同学3:多取几组点对,确定几条直线方程.再分别算出各个直线方程斜率、截距的算术平均值,作为所求直线的斜率、截距.同学4:从左端点开始,取两条直线,如下图.再取这两条直线的“中间位置”作一条直线.同学5:先求出相同身高同学右手一拃长的平均值,画出散点图,如下图,再画出近似的直线,使得在直线两侧的点数尽可能一样多.同学6:先将所有的点分成两部分,一部分是身高在170 cm以下的,一部分是身高在170 cm以上的;然后,每部分的点求一个“平均点”——身高的平均值作为平均身高、右手一拃的平均值作为平均右手一拃长,即(164,19),(177,21);最后,将这两点连接成一条直线. 同学7:先将所有的点按从小到大的顺序进行排列,尽可能地平均分成三等份;每部分的点按照同学3的方法求一个“平均点”,最小的点为(161.3,18.2),中间的点为(170.5,20.1),最大的点为(179.2,21.3).求出这三个点的“平均点”为(170.3,19.9).我再用直尺连接最大点与最小点,然后平行地推,画出过点(170.3,19.9)的直线.同学8:取一条直线,使得在它附近的点比较多.在这里需要强调的是,身高和右手一拃长之间没有函数关系.我们得到的直线方程,只是对其变化趋势的一个近似描述.对一个给定身高的人,人们可以用这个方程来估计这个人的右手一拃长,这是十分有意义的.知能训练一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,收集数据如下:零件数x(个)10 20 30 40 50 60 70 80 90 100 加工时间62 68 75 81 89 95 102 108 115 122 y(min)画出散点图;关于加工零件的个数与加工时间,你能得出什么结论?答案:(1)散点图如下:(2)加工零件的个数与所花费的时间呈正线性相关关系.拓展提升以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积(m2)115 110 80 135 105销售价格(万元)24.8 21.6 18.4 29.2 22(1)画出数据对应的散点图;(2)指出是正相关还是负相关;(3)关于销售价格y和房屋的面积x,你能得出什么结论?解:(1)数据对应的散点图如下图所示:(2)散点图中的点散分布在从左下角到右上角的区域内,所以是正相关.(3)关于销售价格y和房屋的面积x,房屋的面积越大,价格越高,它们呈正线性相关的关系. 课堂小结通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系.作业习题2.3A组3、4(1).设计感想本节课学习了变量之间的相关关系和两个变量的线性相关的部分内容,通过身边的具体实例说明了两个变量的相关关系,并学会了利用散点图及其分布来说明两个变量的相关关系的种类,为下一节课作了铺垫,思路1和思路2的例题对知识进行了巩固和加强,另外,本节课通过选取一些学生特别关心的身边事例,对学生进行思想情操教育、意志教育和增强学生的自信心,养成良好的学习态度和学习方法,树立时间观,培养勤奋、刻苦耐劳的精神.。
数学反思总结3------《变量间的相关关系》教后反思变量的相关性是新教材新加的内容。
本节课主要包括:变量之间的线性相关关系、回归直线方程、最小二乘法。
本节课是变量的相关性的第一节,主要来研究变量间除确定的函数关系外的其它关系。
由于有些变量间确实存在关系但不是确定的函数关系,而是带有一定的不确定性,即相关关系。
在寻找变量的这种相关关系中,统计发挥着巨大的作用:通过收集大量的数据,发现其中的规律,并对这些数据进行统计学分析处理,才能对它们的关系做出正确的判断。
通过本节课的学习,让学生养成“动脑思”“动手做”“动眼看”的行为习惯,并养成实事求是的科学的学习态度,严谨的作风。
本节课是一节新授课,首先从一个有趣的问题出发,激发了学生的学习兴趣。
然后通过学生预习讨论解决教师提出的问题,学生领悟到数学学习的规律性。
相信真理,不要相信表面现象,要勇于探索,敢于创新。
在课堂上,充分利用已有的知识,调动引导学生将旧知识与新知识有机的结合起来,形成知识网络,掌握知识的前后联系,因果关系,综合运用知识解决问题,注重发展学生数学知识的应用意识,拓展学生的思路,激发学生学习兴趣。
学生只有通过自己对数学知识与规律的主动发现,主动思考,才能从“学会”到“会学”。
在教学中坚持:情境激疑、层层设疑,不断引导学自主探究,《诱思探究学科教学论》反复强调:调动学生参与课堂的积极性,发展学生探究意识和学习的主体意识,注重让学生自得规律与方法,从而提高课堂的学习效率,养成学生的自主学习习惯。
但我自己也有以下一些困惑首先对课时数的困惑。
如果仅停留在了解概念、会使用公式解题这个层面,那么两节课就足够了;引入新知识的过程中承载着新的数学方法,这需要综合运用前面的知识,为了让学生真正动起来,提升学生运用统计知识解决实际问题的能力,正确理解统计推断的结论,在实际的教学中我用了四节课来解决这个问题。
其次对最小二乘法的思想的思考。
我觉得这个地方关键是如何把“从整体上看,各点与此直线最贴近”用数学模型刻画出来,具体的变形、配方等过程不要介绍;同时让学生明确拟合效果没有对错之分,只有好坏之分,最小二乘法只是一种方法,不一定是最好的。
2.3 变量间的相关关系 2.3.1 变量之间的相关关系 2.3.2 两个变量的线性相关考点 学习目标核心素养 相关关系的概念理解两个变量的相关关系的概念 数学抽象 散点图 会作散点图,并利用散点图判断两个变量之间是否具有相关关系逻辑推理、数学建模回归直线方程会求回归直线方程数学运算问题导学(1)相关关系分为哪两种? (2)什么叫散点图?(3)什么叫回归直线?求回归直线的方法及步骤是什么?1.两个变量的线性相关(1)散点图:将样本中n 个数据点(x i ,y i )(i =1,2,…,n )描在平面直角坐标系中得到的图形.(2)正相关与负相关①正相关:散点图中的点散布在从左下角到右上角的区域; ②负相关:散点图中的点散布在从左上角到右下角的区域. 2.回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程. (3)最小二乘法求回归直线方程y ^=b ^x +a ^时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.其中b ^是回归方程的斜率,a ^是回归方程在y 轴上的截距. ■名师点拨 (1)散点图的作用散点图形象地反映了各对数据的密切程度.根据散点图中点的分布趋势分析两个变量之间的关系,可直观地判断并得出结论.(2)回归直线的性质由a ^=y --b ^x -可知回归直线一定经过点(x -,y -),因此点(x -,y -)通常称为样本点的中心,其中,x -,y -分别是变量x 1,x 2,…,x n 和y 1,y 2,…,y n 的平均数.(3)线性相关关系强弱的定性分析线性相关关系的强弱体现在散点图中就是样本点越集中在某条直线附近,两变量的线性相关关系越强;样本点在某条直线附近越分散,两变量的线性相关关系越弱.判断正误(对的打“√”,错的打“×”) (1)线性回归方程必经过点(x -,y -).( )(2)对于方程y ^=b ^x +a ^,x 增加一个单位时,y 平均增加b ^个单位.( ) (3)样本数据中x =0时,可能有y =a ^.( ) (4)样本数据中x =0时,一定有y =a ^.( )解析:根据回归直线方程的意义知,(1)(2)都正确,而(3)(4)中,样本数据x =0时,y 的值可能为a ^,也可能不是a ^,故(3)正确.答案:(1)√ (2)√ (3)√ (4)×下列各图中所示的两个变量具有相关关系的是( )A .(1)(2)B .(1)(3)C .(2)(4)D .(2)(3)解析:选D.(1)为函数关系;(2)(3)为相关关系;(4)中,因为点分布得比较分散,两者之间无相关关系.5位学生的数学成绩和物理成绩如下表: 学科 A B C D E 数学 80 75 70 65 60 物理7066686462A .是函数关系B .是相关关系,但相关性很弱C .具有较好的相关关系,且是正相关D .具有较好的相关关系,且是负相关解析:选C.数学成绩x 和物理成绩y 的散点图如图所示.从图上可以看出数学成绩和物理成绩具有较好的相关关系,且成正相关. 设有一个回归方程为y ^=2-1.5x ,则变量x 每增加1个单位时,y 平均减少____________个单位.,解析:因为y ^=2-1.5x ,所以变量x 每增加1个单位时,y 1-y 2=[2-1.5(x +1)]-(2-1.5x )=-1.5,所以y 平均减少1.5个单位.答案:1.5相关关系的判断以下是在某地搜集到的不同楼盘新房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:房屋面积x(m2)11511080135105销售价格y(万元)24.821.619.429.222(2)判断新房屋的销售价格和房屋面积之间是否具有相关关系?如果有相关关系,是正相关还是负相关?【解】(1)数据对应的散点图如图所示:(2)通过以上数据对应的散点图可以判断,新房屋的销售价格和房屋的面积之间具有相关关系,且是正相关.相关关系的判断方法(1)两个变量x和y具有相关关系的判断方法①散点图法:通过散点图,观察它们的分布是否存在一定规律,直观地判断;②表格、关系式法:结合表格或关系式进行判断;③经验法:借助积累的经验进行分析判断.(2)判断两个变量x和y之间是否具有线性相关关系,常用的简便方法就是绘制散点图,如果发现点的分布从整体上看大致在一条直线附近,那么这两个变量就是线性相关的,注意不要受个别点的位置的影响.[易错警示]在解答本题过程中,易出现如下错误:虽然五点中有四点大致分布在一条直线附近,但第二个点离这条直线太远,所以两个变量不相关,导致错误的原因是没有看主流点,而过分关注了不影响大局的个别点.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图如图所示.由这个散点图可以判断()A.变量x与y正相关B.变量x与y不相关C.变量x与y负相关D.变量x与y是函数关系解析:选C.由这个散点图可以判断,变量x与y负相关,故选C.线性回归方程的求法下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 345 6y 2.534 4.5 (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y^=b^x+a^. 【解】(1)散点图如图.(2)x-=3+4+5+64=4.5,y-=2.5+3+4+4.54=3.5,∑i=14x i y i=3×2.5+4×3+5×4+6×4.5=66.5,∑i=14x2i=32+42+52+62=86,所以b ^=∑4i =1x i y i -4x -y-∑4i =1x 2i -4x-2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y --b ^x -=3.5-0.7×4.5=0.35. 所以所求的线性回归方程为y ^=0.7x +0.35.如果把例题中的y 的值2.5及4.5分别改为2和5,如何求回归直线方程? 解:散点坐标分别为(3,2),(4,3),(5,4),(6,5). 可验证这四点共线, 斜率k =3-24-3=1,所以直线方程为y -2=x -3, 即回归直线方程为y ^=x -1.求线性回归方程的步骤(1)计算平均数x -,y -.(5)用a ^=y --b ^x -,求a ^. (6)写出回归方程.某化工厂为预测某产品的回收率y ,需要研究它和原料有效成分含量x之间的相关关系,现取了8对观测值,计算得:则y 关于x 的回归直线方程是( )A.y ^=11.47+2.62x B.y ^=-11.47+2.62x C.y ^=2.62+11.47x D.y ^=11.47-2.62x解析:选A.利用题目中的已知条件可以求出x -=6.5,y -=28.5,然后利用回归直线方程的计算公式得b ^=∑8i =1x i y i -8x -y-∑8i =1x 2i -8x-2=1 849-8×6.5×28.5478-8×6.52≈2.62, a ^=y --b ^x -=11.47,因此回归直线方程为y ^=11.47+2.62x .线性回归方程的应用(2020·黑龙江省大庆铁人中学期末考试)某班主任为了对本班学生的月考成绩进行分析,从全班40名同学中随机抽取一个容量为6的样本进行分析.随机抽取6位同学的数学、物理分数对应如表:学生编号 1 2 3 4 5 6 数学分数x 60 70 80 85 90 95 物理分数y728088908595(1) (2)如果具有线性相关性,求出线性回归方程(系数精确到0.1);如果不具有线性相关性,请说明理由;(3)如果班里的某位同学数学成绩为50,请预测这位同学的物理成绩.【解】 (1)画出散点图:通过图象可以看出物理成绩y 与数学成绩x 之间具有线性相关性. (2)x -=16×(60+70+80+85+90+95)=80,y -=16×(72+80+88+90+85+95)=85,故b ^=0.6,a ^=37.故回归方程是y =0.6x +37. (3)当x =50时,解得y =67.故数学成绩为50,预测这位同学的物理成绩是67.利用线性回归方程解题的常见思路及注意点(1)利用回归直线过样本点的中心,可以求参数问题,参数可涉及回归方程或样本点数据.(2)利用回归方程中系数b ^的意义,分析实际问题.(3)利用回归直线进行预测,此时需关注两点:①所得的值只是一个估计值,不是精确值;②变量x 与y 成线性相关关系时,线性回归方程才有意义,否则即使求出线性回归方程也是毫无意义的,用其估计和预测的量也是不可信的.(2020·江西省临川第一中学期末考试)我国西部某贫困地区2011年至2017年农村居民家庭人均年收入y (千元)的数据如下表:年份 2011 2012 2013 2014 2015 2016 2017 年份代号x 1 2 3 4 5 6 7 人均年收入y2.93.33.64.44.85.25.9(2)利用(1)中的回归方程,预测该地区2019年农村居民家庭人均年收入将达到多少千元.解:(1)依题意x -=4,y -=4.3,从而b ^=0.5,a ^=y --b ^x -=4.3-0.5×4=2.3, 故所求线性回归方程为y ^=0.5x +2.3. (2)令x =9,得y ^=0.5×9+2.3=6.8.预测该地区在2019年农村居民家庭人均年收入为6.8千元.1.我们常说“吸烟有害健康”,吸烟与健康之间的关系是( ) A .正相关 B .负相关 C .无相关D .不确定解析:选B.烟吸得越多,则健康程度越差.2.关于回归直线方程y ^=a ^+b ^x 的叙述正确的是( ) ①反映y ^与x 之间的函数关系; ②反映y 与x 之间的函数关系; ③表示y ^与x 之间的不确定关系;④表示最接近y 与x 之间真实关系的一条直线. A .①② B .②③ C .③④ D .①④解析:选D.y ^=a ^+b ^x 表示y ^与x 之间的函数关系,而不是y 与x 之间的函数关系,它反映的关系最接近y 与x 之间的真实关系.故①④正确.3.在最小二乘法中,用来刻画各个样本点到直线y =a ^+b ^x 的“距离”的量是( ) A .|y i -y -| B .(y i -y -)2 C .|y i -(a ^+b ^x i )|D .[y i -(a ^+b ^x i )]2解析:选D.最小二乘法的定义明确给出,用[y i -(a ^+b ^x i )]2来刻画各个样本点与这条直线之间的“距离”(即二者之间的接近程度),用它们的和表示所有样本点与这条直线的接近程度.4.已知工厂加工零件的个数x 与花费时间y (h)之间的线性回归方程为y ^=0.01x +0.5,则加工200个零件大约需要________小时.解析:将200代入线性回归方程y ^=0.01x +0.5, 得y ^=2.5. 答案:2.5[A 基础达标]1.如图所示是具有相关关系的两个变量的一组数据的散点图,去掉哪个点后,两个变量的相关关系更明显( )A .DB .EC .FD .A解析:选C.A 、B 、C 、D 、E 五点分布在一条直线附近且贴近该直线,而F 点离得远,故去掉点F .2.(2020·江西省上饶市期末统考)某车间为了规定工时定额,需要确定加工零件所花费用的时间,为此进行了5次实验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程为y ^=7.8x +40.2.零件数x (个) 1 23 4 5 加工时间y (min)50677179A .55B .55.8C .59D .51解析:选 D.设表中模糊的数据为m .由表中的数据可得x -=1+2+3+4+55=3,y -=50+m +67+71+795=267+m5,又由回归直线的方程为y ^=7.8x +40.2,所以267+m 5=7.8×3+40.2,解得m =51.即表中模糊的数据为51.故选D.3.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关解析:选C.因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.4.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:选C.由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,从而b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x -·y-∑6i =1x 2i -6x-2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y --b ^x -=136-57×72=-13,所以b ^<b ′,a ^>a ′. 5.(2020·广西钦州市期末考试)若回归直线y ^=b ^x +a ^的斜率估值为1.23,样本中心点为(4,5),当x =2时,估计y 的值为____________.解析:因为回归直线y ^=b ^x +a ^的斜率估值为1.23,所以b ^=1.23,y ^=1.23x +a ^. 因为样本中心点为(4,5),所以5=1.23×4+a ^,a ^=0.08,y ^=1.23x +0.08, 代入x =2,y =1.23×2+0.08=2.54. 答案:2.546.(2020·湖北省宜昌市葛洲坝中学期末考试)某公司借助手机微信平台推广自己的产品,对今年前5个月的微信推广费用x 与利润额y (单位:百万元)进行了初步统计,得到下列表格中的数据:x 2 4 5 6 8 y304060p70经计算,月微信推广费用x 与月利润额y 满足线性回归方程y ^=6.5x +17.5,则p 的值为____________.解析:由题中数据可得x -=2+4+5+6+85=5,y -=30+40+60+p +705=200+p5.由线性回归方程y ^=6.5x +17.5经过样本中心(x -,y -), 有200+p 5=6.5×5+17.5,解得p =50.答案:507.对某台机器购置后的运营年限x (x =1,2,3,…)与当年利润y 的统计分析知具备线性相关关系,线性回归方程为y ^=10.47-1.3x ,估计该台机器使用________年最合算.解析:只要预计利润不为负数,使用该机器就算合算,即y ^≥0,所以10.47-1.3x ≥0,解得x ≤8.05,所以该台机器使用8年最合算.答案:88.(2020·湖南省张家界市期末联考)为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)的影响,对近五年该农产品的年产量和价格统计如表:x 1 2 3 4 5 y86542(1)求x -,y -;(2)求y 关于x 的线性回归方程y ^=b ^x +a ^; (3)若年产量为4.5吨,试预测该农产品的价格.解:(1)计算可得x -=1+2+3+4+55=3,y -=8+6+5+4+25=5.(2)b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5x-2=61-5×3×555-5×32=-1.4, 因为线性回归直线过(x -,y -),则a ^=y --b ^x -=5-(-1.4×3)=9.2, 故y 关于x 的线性回归方程是y ^=-1.4x +9.2. (3)当x =4.5时,y ^=-1.4×4.5+9.2=2.9(千元/吨).9.(2020·河北省石家庄市期末考试)在一段时间内,分5次测得某种商品的价格x (万元)和需求量y (吨)之间的一组数据为(1)根据上表数据,求出回归直线方程y =b x +a ;(2)试根据(1)中求出的回归方程预估当价格为1.9万元时,需求量大约是多少吨?(参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n (x )-2,a ^=y --b ^x -)解:(1)因为x -=15×9=1.8,y -=15×37=7.4,∑i =15 x i y i =62,∑i =15x 2i =16.6,所以 b ^=∑5i =1x i y i -5x -y-∑5i =1x 2i -5(x )-2=62-5×1.8×7.416.6-5×1.82=-11.5, a ^=y --b ^x -=7.4+11.5×1.8=28.1, 故y 对x 的线性回归方程为y ^=28.1-11.5x . (2)y =28.1-11.5×1.9=6.25(吨).所以如果价格为1.9万元,则需求量大约是6.25吨.[B 能力提升]10.对两个变量的四组数据进行统计,获得以下散点图,关于两个变量相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3解析:选A.由相关系数的定义以及散点图的含义,可知r 2<r 4<0<r 3<r 1.11.期中考试后,某校高三(9)班班主任对全班65名学生的成绩(单位:分)进行分析,得到数学成绩y 关于总成绩x 的回归直线方程为y ^=6+0.4x .由此可以估计:若2名同学的总成绩相差50分,则他们的数学成绩大约相差________分.解析:设两名同学的总成绩分别为x 1,x 2,则对应的数学成绩估计为y ^1=6+0.4x 1,y ^2=6+0.4x 2,所以|y ^1-y ^2|=|0.4(x 1-x 2)|=0.4×50=20.答案:2012.(2020·湖北省宜昌县域高中协同发展共同体期末考试)为研究冬季昼夜温差大小对某反季节大豆新品种发芽率的影响,某校课外兴趣小组记录了5组昼夜温差与100颗种子发芽数,得到如下资料:组号 1 2 3 4 5 温差x (℃) 10 11 13 12 8 发芽数y (颗)2325302616组数据中选取3组数据求出线性回归方程,再用没选取的2组数据进行检验.(1)若选取的是第2,3,4组的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^; (2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x-2,a ^=y --b ^x -)解:(1)由题意:x -=11+13+123=12,y -=25+30+263=27,b ^=∑3i =1 (x i -x -)(y i -y -)∑3i =1 (x i -x -)2=(x 1-x -)(y 1-y -)+(x 2-x -)(y 2-y -)+(x 3-x -)(y 3-y -)(x 1-x -)2+(x 2-x -)2+(x 3-x -)2=(11-12)×(25-27)+(13-12)×(30-27)+(12-12)×(26-27)(11-12)2+(13-12)2+(12-12)2=52, a ^=y --b ^x -=27-52×12=-3,故回归直线方程为y ^=52x -3.(2)当x =10时,y =52×10-3=22,|22-23|=1<2,当x =8时,y =52×8-3=17,|17-16|=1<2,所以(1)中所得的回归直线方程是可靠的.13.(选做题)(2019·黑龙江省牡丹江市第一高级中学期末考试)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i=xi,w-=18i=18w i.(1)根据散点图判断,y=a+bx与y=c+d x哪一个适宜作为年销售量y关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x、y的关系为z=0.2y-x.根据(2)的结果回答下列问题:(ⅰ)年宣传费x=49时,年销售量及年利润的预报值是多少?(ⅱ)年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(u n,v n),其回归线v=α+βu的斜率和截距的最小二乘估计分别为解:(1)由散点图可以判断,y=c+d x适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=x,先建立y关于w的线性回归方程.由于d=108.81.6=68,c^=y--d^w-=563-68×6.8=100.6,所以y关于w的线性回归方程为y^=100.6+68w,因此y关于x的回归方程为y^=100.6+68x.(3)(ⅰ)由(2)知,当x=49时,年销售量y的预报值y^=100.6+6849=576.6,年利润z的预报值z^=576.6×0.2-49=66.32.(ⅱ)根据(2)的结果知,年利润z的预报值z^=0.2(100.6+68x)-x=-x+13.6x+20.12.所以当x=13.62=6.8,即x=46.24时,z^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
第四节 变量间的相关关系、统计案例[考纲传真] 1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验的基本思想、方法及其初步应用.4.了解回归分析的基本思想、方法及简单应用.1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的这种相关关系称为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=.(3)通过求Q = (y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(5)相关指数:R 2=1-.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )(其中n =a +b +c +d ).[常用结论]1.从散点图观察相关性;(1)正相关:样本点分布在从左下角到右上角的区域; (2)负相关:样本点分布在从左上角到右下角的区域. 2.b ^的几何意义:体现平均增加或平均减少.3.线性回归方程y ^=b ^x +a ^一定过样本点的中心(—x ,—y ). 4.由回归直线求出的数据是估算值,不是精确值.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”) (1)相关关系与函数关系都是一种确定性的关系, 也是一种因果关系.( ) (2)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( )(4)由独立性检验可知,在犯错误的概率不超过1%的前提下认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )[答案] (1)× (2)√ (3)√ (4)×2.(教材改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A .回归分析B .均值与方差C .独立性检验D .概率C [“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.]3.(教材改编)已知变量x 与y 正相关,且由观测数据算得样本平均数—x =3,—y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4A [因为变量x 和y 正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A 满足.]4.下面是2×2列联表:则表中a ,b 的值分别为( )y 1 y 2 合计 x 1 a 21 73 x 222 2547合计 b 46 120A.94,72 C .52,74D .74,52C [∵a +21=73,∴a =52.又a +22=b ,∴b =74.]5.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:P (K 2≥k 0) 0.100 0.050 0.025 0.010 0.001k 02.7063.841 5.024 6.635 10.828A.0.1% C .99%D .99.9%C [因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.]相关关系的判断1.( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关C [因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.]2.甲、乙、丙、丁四位同学各自对A ,B 两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r 与残差平方和m 如下表:甲乙丙丁r 0.82 0.78 0.69 0.85 m 106 115 124 103则哪位同学的试验结果体现A ,B 两变量有更强的线性相关性( ) A .甲 B .乙 C .丙 D .丁D [在验证两个变量之间的线性相关关系时,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大;残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现了A ,B 两变量有更强的线性相关性.]3.(2019·泰安月考)x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.][规律方法] 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:时,正相关;时,负相关.线性回归分析及应用【例1】 (2018·全国卷Ⅱ)如图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为 y ^=99+17.5×9=256.5(亿元). (2)利用模型②得到的预测值更可靠. 理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势,2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.[规律方法] 线性回归分析问题的类型及解题方法 (1)求线性回归方程: ①利用公式,求出回归系数②待定系数法:利用回归直线过样本点中心求系数.(2)利用回归方程进行预测:,把回归直线方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关: 决定正相关还是负相关的是系数(2018·临沂期末)某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如下表:超市AB C D E F G广告费支出x i 1 246 11 13 19销售额y i19 32 40 44 52 53 54(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.参考数据:.参考公式:[解] (1)=2 794-7×8×42708-7×82=1.7,故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)∵0.75<0.93,∴二次函数回归模型更合适. 当x =3时,y ^=33.5.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.5万元.独立性检验及应用【例2】(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法(3)附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828,K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).[解](1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2的观测值k =200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[规律方法] 独立性检验的一般步骤 (1)根据样本数据制成2×2列联表; (2)根据公式K 2=,计算K 2的观测值k 的值;(3)查表比较K 2的观测值k 与临界值的大小关系,作统计判断.课程的选课意向进行调查.现从高一年级学生中随机抽取180名学生,其中男生105名;在这180名学生中选择社会科学类的男生、女生均为45名.(1)试问:从高一年级学生中随机抽取1人,抽到男生的概率约为多少?(2)根据抽取的180名学生的调查结果,完成下面的2×2列联表.并判断能否在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关?选择自然科学类 选择社会科学类 合计男生 女生 合计附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .P (K 2 ≥k 0) 0.500 0.400 0.250 0.150 0.100 0.050 0.025 0.010 0.005 0.001 k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828[解] (1)从高一年级学生中随机抽取1人,抽到男生的概率约为105180=712. (2)根据统计数据,可得2×2列联表如下:选择自然科学类 选择社会科学类 合计男生 60 45 105 女生 30 45 75 合计9090180则K 2的观测值为k =180×(60×45-30×45)2105×75×90×90=367≈5.142 9>5.024,所以能在犯错误的概率不超过0.025的前提下认为科类的选择与性别有关.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m 不超过m 第一种生产方式 第二种生产方式(3)根据(2)中的列联表, 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),P (K 2≥k 0) 0.050 0.010 0.001k 03.841 6.635 10.828[解] (1)理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.)(2)由茎叶图知m=79+812=80.列联表如下:(3)由于K2的观测值k=20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.。
2020年高中数学必修三第二章《统计》2.3.1变量之间的相关关系2.3.2两个变量的线性相关学习目标 1.了解变量间的相关关系,会画散点图;2.根据散点图,能判断两个变量是否具有相关关系;3.了解线性回归思想,会求回归直线的方程.知识点一变量间的相关关系思考1粮食产量与施肥量间的相关关系是正相关还是负相关?答案在施肥不过量的情况下,施肥越多,粮食产量越高,所以是正相关.思考2怎样判断一组数据是否具有线性相关关系?答案画出散点图,若点大致分布在一条直线附近,就说明这两个变量具有线性相关关系,否则不具有线性相关关系.梳理1.相关关系的定义变量间确实存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有随机性的,那么这两个变量之间的关系叫做相关关系,两个变量之间的关系分为函数关系和相关关系.2.散点图将样本中n个数据点(x i,y i)(i=1,2,…,n)描在平面直角坐标系中得到的图形叫做散点图.3.正相关与负相关(1)正相关:如果一个变量的值由小变大时,另一个变量的值也由小变大,这种相关称为正相关.(2)负相关:如果一个变量的值由小变大时,另一个变量的值由大变小,这种相关称为负相关.知识点二两个变量的线性相关思考任何一组数据都可以由最小二乘法得出线性回归方程吗?答案用最小二乘法求线性回归方程的前提是先判断所给数据是否具有线性相关关系(可利用散点图来判断),否则求出的线性回归方程是无意义的.梳理 回归直线的方程(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)线性回归方程:回归直线对应的方程叫做回归直线的方程,简称回归方程. (3)最小二乘法:求线性回归方程y ^=b ^x +a ^时,使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.⎩⎪⎨⎪⎧b ^=∑i =1n(x i-x )(y i-y )∑i =1n(x i-x )2=∑i =1nx i y i-n x y ∑i =1nx 2i-n x 2,a ^=y -b ^x ,其中,b ^是线性回归方程的斜率,a ^是线性回归方程在y 轴上的截距.类型一 相关关系的判断与应用 命题角度1 判断两个变量的相关性例1 为了研究质量对弹簧长度的影响,对6根相同的弹簧进行测量,所得数据如下:判断它们是否有相关关系,若有,判断是正相关还是负相关. 解 散点图如图:由散点图可以看出两个变量对应的点大致分布在一条直线附近,因此可以得出结论:质量与弹簧长度这两个变量具有相关关系,且它们是正相关关系.反思与感悟在研究两个变量之间是否存在某种关系时,必须从散点图入手,对于散点图,可以作出如下判断:(1)如果所有的样本点都落在某一函数曲线上,那么就用该函数来描述变量之间的关系,即变量之间具有函数关系;(2)如果所有的样本点都落在某一直线附近,那么变量之间就有线性相关关系;(3)如果散点图中的点的分布几乎没有什么规律,那么这两个变量之间不具有相关关系,即两个变量之间是相互独立的.跟踪训练1下表是某地的年降雨量与年平均气温的统计表,判断两者是否具有相关关系,求线性回归方程有意义吗?解以x轴为年平均气温,y轴为年降雨量,可得相应的散点图如图.因为图中各点并不在一条直线的附近,所以两者不具有线性相关关系,没必要用回归直线进行拟合,即使用公式法求出线性回归方程也是没有意义的.命题角度2函数关系与相关关系的区别与联系例2下列关系中,是相关关系的是________.①正方形的边长与面积之间的关系;②农作物的产量与施肥量之间的关系;③人的身高与年龄之间的关系;④降雪量与交通事故的发生率之间的关系.答案②④解析①中,正方形的边长与面积之间的关系是函数关系;②中,农作物的产量与施肥量之间不具有严格的函数关系,但具有相关关系;③中,人的身高与年龄之间的关系既不是函数关系,也不是相关关系,因为人达到一定年龄后,身高就不发生明显变化了,所以它们不具有相关关系;④中,降雪量与交通事故的发生率之间具有相关关系. 反思与感悟 相关关系与函数关系的区别与联系如表所示:跟踪训练2 下列图形中两个变量具有相关关系的是( )答案 C解析A 是一种函数关系;B 也是一种函数关系;C 中从散点图中可看出所有点看上去都在某条直线附近波动,具有相关关系,而且是一种线性相关;D 中所有的点在散点图中没有显示任何关系,因此变量间是不相关的. 类型二 回归直线的求解与应用例3 一台机器按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少随机器运转速度的变化而变化,下表为抽样试验的结果:(1)画出散点图;(2)如果y 对x 有线性相关关系,请画出一条直线近似地表示这种线性关系;(3)在实际生产中,若它们的近似方程为y =5170x -67,允许每小时生产的产品中有缺点的零件最多为10件,那么机器的运转速度应控制在什么范围内? 解 (1)散点图如图所示:(2)近似直线如图所示:(3)由y ≤10得5170x -67≤10,解得x ≤14.9,所以机器的运转速度应控制在14转/秒内.引申探究1.本例(3)中近似方程不变,若每增加一个单位的转速,生产有缺点的零件数近似增加多少? 解 因为y =5170x -67,所以当x 增加一个单位时,y 大约增加5170.2.本例(3)中近似方程不变,每小时生产有缺点的零件件数是7,估计机器的转速. 解 因为y =5170x -67,所以当y =7时,7=5170x -67,解得x ≈11.反思与感悟 求线性回归方程的一般步骤(1)收集样本数据,设为(x i ,y i )(i =1,2,…,n )(数据一般由题目给出). (2)作出散点图,确定x ,y 具有线性相关关系. (3)把数据制成表格x i ,y i ,x 2i ,x i y i . (4)计算x ,y,∑i =1nx 2i ,∑i =1nx i y i .(5)代入公式计算b ^,a ^,公式为⎩⎪⎨⎪⎧b ^=∑i =1nx i y i-n x y ∑i =1nx 2i-n x2,a ^=y -b ^x .(6)写出线性回归方程y ^=b ^x +a ^.跟踪训练3 (1)变量y 与x 满足线性回归方程y ^=b ^x +a ^,现在将y 的单位由厘米变为米,x的单位由毫米变为米,则在新的线性回归方程y ^=b ^*x +a ^*中,b ^*是b ^的____________倍.(2)为了均衡教育资源,加大对偏远地区的教育投入,调查了某地区若干户家庭的年收入x (单位:万元)和年教育支出y (单位:万元),调查显示年收入x 与年教育支出y 具有相关关系,并由调查数据得到y 对x 的线性回归方程为y ^=0.15x +0.2.由线性回归方程可知,家庭年收入每增加1万元,年教育支出平均增加________万元. 答案 (1)10 (2)0.15解析 (1)由回归系数公式知,当y 的值变为原来的10-2倍,x 的值变为原来的10-3倍时,b^*的值应为原来的10倍.(2)回归直线的斜率为0.15,所以家庭年收入每增加1万元,年教育支出平均增加0.15万元.1.设有一个线性回归方程为y ^=2-1.5x ,则变量x 增加1个单位时,y 平均( ) A .增加1.5个单位 B .增加2个单位 C .减少1.5个单位 D .减少2个单位答案 C2.由三点(3,10),(7,20),(11,24)确定的线性回归方程为( ) A.y ^=1.75x -5.75 B.y ^=1.75x +5.75 C.y ^=-1.75x +5.75 D.y ^=-1.75x -5.75答案 B解析 设线性回归方程为y ^=b ^x +a ^, 则b ^=x 1y 1+x 2y 2+x 3y 3-3x y x 21+x 22+x 23-3x2=3×10+7×20+11×24-3×7×189+49+121-3×49=1.75,a ^=y -b ^x =18-1.75×7=5.75. 故y ^=1.75x +5.75,故选B.3.某地区近10年居民的年收入x 与年支出y 之间的关系大致符合y ^=0.8x +0.1(单位:亿元),预计今年该地区居民收入为15亿元,则今年支出估计是________亿元. 答案 12.1解析 将x =15代入y ^=0.8x +0.1,得y ^=12.1.4.某市居民2012~2016年家庭年平均收入x (单位:万元)与年平均支出y (单位:万元)的统计资料如表所示:根据统计资料,居民家庭年平均收入的中位数是__________万元,家庭年平均收入与年平均支出有________线性相关关系. 答案 13 正解析 考查中位数的定义,奇数个时按大小顺序排列后中间一个是中位数,而偶数个时需取中间两数的平均数.由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.5.某5名学生的总成绩和数学成绩(单位:分)如表所示:(1)画出散点图;(2)求y 对x 的线性回归方程(结果保留到小数点后3位数字); (3)如果一个学生的总成绩为450分,试预测这个学生的数学成绩. 解 (1)散点图如图所示:(2)由题中数据计算可得x =391.6,y =67.8,∑i =15x 2i =770 654,∑i =15x i y i =133 548.代入公式得b ^=133 548-5×391.6×67.8770 654-5×391.62≈0.204,a ^=67.8-0.204×391.6≈-12.086,所以y 对x 的线性回归方程为y ^=-12.086+0.204x .(3)由(2)得当总成绩为450分时,y ^=-12.086+0.204×450≈80,即这个学生的数学成绩大约为80分.1.判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图.根据散点图,可以很容易看出两个变量是否具有相关关系,是不是线性相关,是正相关还是负相关. 2.求线性回归方程时应注意的问题(1)知道x 与y 成线性相关关系,无需进行相关性检验,否则应首先进行相关性检验,如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出线性回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的. (2)用公式计算a ^、b ^的值时,要先计算b ^,然后才能算出a ^.3.利用回归方程,我们可以进行估计和预测.若回归方程为y ^=b ^x +a ^,则x =x 0处的估计值为y ^0=b ^x 0+a ^.40分钟课时作业一、选择题1.某商品销售量y (件)与销售价格x (元/件)负相关,则其线性回归方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200 D.y ^=10x -200答案 A解析 x 的系数为负数,表示负相关,排除B 、D ,由实际意义可知x >0,y >0,C 中,散点图在第四象限无意义,故选A.2.根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A .逐年比较,2008年减少二氧化硫排放量的效果最显著B .2007年我国治理二氧化硫排放显现成效C .2006年以来我国二氧化硫年排放量呈减少趋势D .2006年以来我国二氧化硫年排放量与年份正相关 答案 D解析 由柱形图可知:A 、B 、C 均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,所以D 不正确.3.对变量x ,y 有观测数据(x i ,y i )(i =1,2,3,…,10),得散点图1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,3,…,10),得散点图2,由这两个散点图可以判断( )A .y 与x 正相关,v 与u 正相关B .y 与x 正相关,v 与u 负相关C .y 与x 负相关,v 与u 正相关D .y 与x 负相关,v 与u 负相关 答案 C解析 根据散点图直接进行判断.4.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 5.已知x 与y 之间的一组数据:若y 与x 线性相关,则y 与x 的回归直线y ^=b ^x +a ^必过( ) A .点(2,2) B .点(1.5,0) C .点(1,2) D .点(1.5,4)答案 D 解析 ∵x =0+1+2+34=1.5,y =1+3+5+74=4, ∴回归直线必过点(1.5,4).故选D. 6.已知x ,y 的取值如表所示:如果y 与x 线性相关,且线性回归方程为y ^=b ^x +132,则b ^等于( )A .-12B.12 C .-110D.110答案 A 解析 ∵x =2+3+43=3,y =6+4+53=5, ∴回归直线过点(3,5),∴5=3b ^+132,∴b ^=-12,故选A.二、填空题7.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到了下表中的数据,计算得回归方程为y ^=0.85x -0.25.由以上信息,可得表中c 的值为________.答案 6解析 x =3+4+5+6+75=5,y =2.5+3+4+4.5+c 5=14+c 5,代入回归方程中得14+c5=0.85×5-0.25,解得c =6.8.如图所示的五组数据(x ,y )中,去掉________后,剩下的四组数据相关性增强.答案 (4,10)解析 去掉点(4,10)后,其余四点大致在一条直线附近,相关性增强. 9.在一次试验中测得(x ,y )的四组数据如下:根据上表可得线性回归方程y ^=-5x +a ^,据此模型预报当x =20时,y 的值为________. 答案 26.5解析 x =16+17+18+194=17.5,y =50+34+41+314=39,∴回归直线过点(17.5,39), ∴39=-5×17.5+a ^, ∴a ^=126.5,∴当x =20时,y =-5×20+126.5=26.5.10.某工厂对某产品的产量与成本的资料分析后有如下数据:由表中数据得到的线性回归方程y ^=b ^x +a ^中b ^=1.1,预测当产量为9千件时,成本约为________万元. 答案 14.5解析 由表中数据得x =4,y =9,代入线性回归方程得a ^=4.6,∴当x =9时,y ^=1.1×9+4.6=14.5. 三、解答题11.某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求两变量之间的回归方程y ^=b ^x +a ^;(2)利用(1)中所求出的回归方程预测该地第6年的粮食需求量. 解 (1)由所给数据得 x =3,y =5.8,b ^=∑i =15(x i -x )(y i -y )∑i =15(x i -x )2=1.1,a ^=y -b ^x =2.5, ∴y ^=1.1x +2.5.故所求的回归方程为y ^=1.1x +2.5. (2)第6年的粮食需求量约为 y ^=1.1×6+2.5=9.1(万吨).12.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求月储蓄y (千元)关于月收入x (千元)的线性回归方程; (2)若该居民区某家庭的月收入为7千元,预测该家庭的月储蓄. 解 (1)由题意知n =10,x =1n ∑i =110x i =110×80=8,y =1n ∑i =110y i =110×20=2,又∑i =110x 2i -n x 2=720-10×82=80, ∑i =110x i y i -n x y =184-10×8×2=24,由此得b ^=2480=0.3,a ^=y -b ^x =2-0.3×8=-0.4, 故所求线性回归方程为y ^=0.3x -0.4.(2)将x =7代入线性回归方程,可以得到该家庭的月储蓄约为y ^=0.3×7-0.4=1.7(千元). 13.为了分析某高三学生的学习状态,对其下一阶段的学习提供指导性建议,现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩(单位:分).(1)他的数学成绩与物理成绩哪个更稳定?并说明理由;(2)已知该学生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少分,并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.解 (1)x =100+-12-17+17-8+8+127=100,y =100+-6-9+8-4+4+1+67=100,s 2数学=142,s 2物理=2507,因为s 2数学>s 2物理, 所以他的物理成绩更稳定.(2)由于x 与y 之间具有线性相关关系,经计算得b ^=0.5,a ^=100-0.5×100=50. 所以线性回归方程为y ^=0.5x +50. 当y =115时,x =130. 估计他的数学成绩是130分.建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高.。