变量间的相关关系及独立性检验(ppt 23页)
- 格式:ppt
- 大小:651.00 KB
- 文档页数:22
第3讲 变量间的相互关系与独立性检验◆高考导航·顺风启程◆[知识梳理]1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是 相关关系 ;与函数关系不同, 相关关系 是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为 正相关 ,点散布在左上角到右下角的区域内,两个变量的相关关系为 负相关 .2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有 线性相关关系 ,这条直线叫做 回归直线 .(2)回归方程为 y ^=b ^ x +a ^ ,其中b ^=ni =1x i y i -n x yn i =1x 2i -n x 2,a ^= y -b ^x .(3)通过求Q =ni =1(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0,表明两个变量 正相关 ; 当r <0,表明两个变量负相关 .r 的绝对值越接近于1,表明两个变量的线性相关性 越强 .r 的绝对值接近于0时,表明两个变量之间 越弱 .通常|r |大于 0.75 时,认为两个变量有很强的线性相关性.3.独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:K 2= n (ad -bc )(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).[知识感悟]1.线性回归直线方程的求法求解回归方程关键是确定回归系数a ^,b ^,因求解b ^的公式计算量太大,一般题目中给出相关的量,如x ,y,∑i =1nx 2i ,n i =1y 2i 等,便可直接代入求解.充分利用回归直线过样本中心点(x ,y ),即有y =b ^ x +a ^,可确定a .2.独立性检验思想的理解独立性检验的思想类似于反证法,即要确定“两个变量X 与Y 有关系”这一结论成立的可信度,首先假设结论不成立,即它们之间没有关系,也就是它们是相互独立的,利用概率的乘法公式可推知,(ad -bc )接近于零,也就是随机变量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )应该很小,如果计算出来的K 2的观测值k 不是很小,通过查表P (K 2≥k 0)的概率很小.又根据小概率事件不可能发生,由此判断假设不成立,从而可以肯定地断言X 与Y 之间有关系.[知识自测]1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )(4)某同学研究卖出的热饮杯数y 与气温x (℃)之间的关系,得回归方程y ^=-2.352x +147.767,则气温为2 ℃时,一定可卖出143杯热饮.( )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (6)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )[答案] (1)× (2)√ (3)√ (4)× (5)√ (6)×2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:A.0.1%C .99%D .99.9%[解析] 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.[答案] C3.下面是一个2×2列联表则表中a 、b [解析] 因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54. [答案] 52 54题型一 相关关系的判断(基础拿分题、自主练透)(1)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关,下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关[解析] 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.[答案] C(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3[解析] 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.[答案] A方法感悟判定两个变量正、负相关性的方法1.画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2.相关系数:r >0时,正相关;r <0时,负相关. 3.线性回归方程中:b ^>0时,正相关:b ^<0时,负相关. 【针对补偿】1.下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )[解析] 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.[答案] D2.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④[解析] 由线性回归方程y ^=b ^x +a ^知当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.[答案] D题型二 回归分析(重点保分题、共同探讨)(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.参考数据:7i =1y i =9.32,7i =1t i y i =40.17,7i =1(y i -y )2=0.55,7≈2.646.参考公式:相关系数r =n i =1(t i -t )(y i -y )n i =1(t i -t )27i =1(y i -y )2回归方程y ^=a ^+b ^ t 中斜率和截距最小二乘估计公式分别为b ^=ni =1(t i -t )(y i -y )ni =1(t i -t )2,a ^=y -b ^t .[解] (1)由折线图中数据和附注中参考数据得t =4,7i =1(t i -t )2=28,7i =1(y i -y )2=0.55,7i =1(t i -t )(y i -y )=7i =1t i y i -t7i =1y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99. 因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=7i =1 (t i-t )(y i -y )7i =1(t i -t )2=2.8928≈0.103. a ^=y -b ^t ≈1.331-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨.方法感悟1.正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键. 2.回归直线方程y ^=b ^x +a ^必过样本点中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.【针对补偿】3.某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:(1)根据2~5月份的数据,画出散点图,求出y 关于x 的线性回归方程y =b ^x +a ^; (2)若由线性回归方程得到的估计1~6月份与检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想?[解] (1)根据表中2~5月份的数据作出散点图,如图所示:计算得x =11,y =24,∑i =25x i y i =11×25+13×29+12×26+8×16=1 092,∑i =25x 2i =112+132+122+82=498,则b ^=∑i =25x i y i -4x y∑i =25x 2i -4x2=1 092-4×11×24498-4×112=187, a ^=y -b ^x =24-187×11=-307.故y 关于x 的线性回归方程为y ^=187x -307. (2)当x =10时,y ^=187×10-307=1507, 此时⎪⎪⎪⎪1507-22<2;当x =6时,y ^=187×6-307=787, 此时⎪⎪⎪⎪787-12<2.故所得的线性回归方程是理想的.题型三 独立性检测(重点保分题、共同探讨)(2017·课标Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg)某频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件:“旧养殖法的箱产量低于50 kg, 新养殖法的箱产量不低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)(精确到0.01) 附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[解] (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”由题意知P (A )=P (BC )=P (B )P (C )旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62新养殖法的箱产量不低于50 kg 的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P (C )的估计值为0.66因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表K 2=200×(62×66-34×38)100×100×96×104≈15.705由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).方法感悟 独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;(3)查表比较K 2与临界值的大小关系,作出统计判断. 【针对补偿】4.(2018·九江第一次统考)某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在30分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[解] (1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5, x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5, 从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得K 2=100×(15×25-15×45)60×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.◆牛刀小试·成功靠岸◆课堂达标(五十一)[A 基础巩固练]1.(2018·湖北七市联考)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴、y 轴的单位长度相同),用回归直线方程y ^=bx +a 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b 的值为1.25B .线性相关关系较强,b 的值为0.83C .线性相关关系较强,b 的值为-0.87D .线性相关关系较弱,无研究价值[解析] 由散点图可以看出两个变量所构成的点在一条直线附近,所以线性相关关系较强,且应为正相关,所以回归直线方程的斜率应为正数,且从散点图观察,回归直线方程的斜率应该比y =x 的斜率要小一些,综上可知应选B.[答案] B2.(2018·山东省青岛市数学一模试卷)已知变量x ,y 具有线性相关关系,它们之间的一组数据如下表所示,若y 关于x 的线性回归方程为y ^=1.3x -1,则m =______________.[解] 由题意,x =2.5,代入线性回归方程为y ^=1.3x -1,可得y =2.25, ∴0.1+1.8+m +4=4×2.25,∴m =3.1. 故答案为3.1. [答案] 3.13.(2018·兰州、张掖联考)对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其回归直线方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( )A.116B.18C.14D.12[解析] 依题意可知样本中心点为⎝⎛⎭⎫34,38,则38=13×34+a ^,解得a ^=18. [答案] B4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),算得K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”[解析] 根据独立性检验的定义,由K 2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.[答案] C5.(2017·山东)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑i =110x i =225,∑i =110y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170[解析] 由已知x =22.5,y =160,∴a ^=160-4×22.5=70,y =4×24+70=166,选C.[答案] C6.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:附:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系” [解析] 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”. [答案] C7.(2018·济宁二模)已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =______.[解析] 回归直线y ^=4x +242必过样本点的中心(x ,y ),而x =2+3+4+5+65=4,y =251+254+257+a +2665=1 028+a5,∴1 028+a5=4×4+242, 解得a =262. [答案] 2628.(2018·山东省济宁市二模试卷)为了解某班学生喜欢打篮球是否与性别有关,对本班50人进行了问卷调查,得到如下2×2列联表:性别有关(临界值参考表如下).>7.879,∴有99.5%的把握认为喜爱打篮球与性别有关. [答案] 99.59.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为______cm.[解析] 儿子和父亲的身高可列表如下:设回归直线方程y ^=a ^+b x ,由表中的三组数据可求得b =1,故a ^=y -b ^x =176-173=3,故回归直线方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.[答案] 18510.(2018·唐山一模)为了研究某种细菌在特定环境下随时间变化的繁殖情况,得如下实验数据:(1)求y 关于(2)利用(1)中的回归方程,预测t =8时,细菌繁殖个数. 附:回归直线的斜率和截距的最小二乘法估计公式分别为:b ^=ni =1 (t i -t )(y i -y )ni =1(t i -t )2,a ^=y -b ^t . [解] (1)由表中数据计算得,t =5,y =4,ni =1(t i -t )(y i -y )=8.5,ni =1(t i -t )2=10,b ^=ni =1(t i -t )(y i -y )ni =1(t i -t )2=0.85, a ^=y -b ^t =4-0.85×5=-0.25. 所以回归方程为y ^=0.85t -0.25. (2)将t =8代入(1)的回归方程中得 y ^=0.85×8-0.25=6.55.故预测t =8时,细菌繁殖个数为6.55千个.[B 能力提升练]1.为了考察两个变量x 和y 之间的线性相关性,甲、乙两位同学各自独立地做10次和15次试验,并且利用线性回归方程,求得回归直线分别为l 1和l 2,已知两个人在试验中发现对变量x 的观测数据的平均值都是s ,对变量y 的观测数据的平均值都是t ,那么下列说法正确的是( )A .l 1和l 2必定平行B .l 1与l 2必定重合C .l 1和l 2一定有公共点(s ,t )D .l 1与l 2相交,但交点不一定是(s ,t ) [解析] 注意到回归直线必经过样本中心点. [答案] C2.(2018·郑州预测)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13C.12D.23[解析] 依题意得x =16×(4+5+6+7+8+9)=132,y =16×(90+84+83+80+75+68)=80,又回归直线必经过样本中心点(x ,y ),于是有a =80+4×132=106,不等式4x+y -106<0表示的是回归直线的左下方区域.注意到在6个样本数据中,共有2个样本数据位于回归直线的左下方区域,因此所求的概率等于13.[答案] B3.以下四个命题,其中正确的序号是______.①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大.[解析] ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.[答案] ②③4.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得x 2≈3.918,已知P (x 2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”; q :若某人未使用该血清,那么他在一年中有95%的可能性得感冒; r :这种血清预防感冒的有效率为95%; s :这种血清预防感冒的有效率为5%. 则下列结论中,正确结论的序号是______. ①p ∧綈q ;②綈p ∧q ;③(綈p ∧綈q )∧(r ∨s ); ④(p ∨綈r )∧(綈q ∨s ).[解析] 本题考查了独立性检验的基本思想及常用逻辑用语.由题意,得x 2≈3.918,P (x 2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.由真值表知①④为真命题.[答案] ①④5.(2018·广西玉林、贵港联考)某市地铁即将于2016年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:与“认为价格偏高者”的月平均收入的差距是多少?(结果保留2位小数);(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )[解] (1)“x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元)(2)根据条件可得2×2列联表如下:K 2=50×(3×11-7×29)10×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.[C 尖子生专练](2018·保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d )[解] (1)由公式K 2=55×(20×20-10×5)230×25×25×30≈11.978>7.879,所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(2)设所抽样本中有m 个男生,则630=m20,得m =4,所以样本中有4个男生,2个女生,分别记作B 1,B 2,B 3,B 4,G 1,G 2.从中任选2人的基本事件有(B 1,B 2),(B 1,B 3),(B 1,B 4),(B 1,G 1),(B 1,G 2),(B 2,B 3),(B 2,B 4),(B 2,G 1),(B 2,G 2),(B 3,B 4),(B 3,G 1),(B 3,G 2),(B 4,G 1),(B 4,G 2),(G 1,G 2),共15个,其中恰有1个男生和1个女生的事件有(B 1,G 1),(B 1,G 2),(B 2,G 1),(B 2,G 2),(B 3,G 1),(B 3,G 2),(B 4,G 1),(B 4,G 2),共8个.所以恰有1个男生和1个女生的概率为815.。