2019大一轮高考总复习文数北师大版讲义:第11章 第04节 变量间的相关关系与统计案例 含答案 精品
- 格式:doc
- 大小:401.85 KB
- 文档页数:13
一、知识梳理1.相关性(1)线性相关若两个变量x和y的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的,此时可用一条直线来拟合.(2)非线性相关若两个变量x和y的散点图中,所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关,此时可用一条曲线来拟合.(3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的.2.最小二乘法(1)最小二乘法如果有n个点(x1,y1),(x2,y2),…,(x n,y n),可以用下面的表达式来刻画这些点与直线y=a +bx的接近程度:[y1—(a+bx1)]2+[y2—(a+bx2)]2+…+[y n—(a+bx n)]2,使得上式达到最小值的直线y=a+bx即为所求直线,这种方法称为最小二乘法.(2)线性回归方程线性回归方程为y=bx+a,其中b=错误!=错误!,a=错误!—b错误!.3.相关系数r(1)r=错误!=错误!.(2)当r>0时,称两个变量正相关.当r<0时,称两个变量负相关.当r=0时,称两个变量线性不相关.r的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r的绝对值越接近0,表明两个变量之间的线性相关程度越低.4.独立性检验设A,B为两个变量,每一个变量都可以取两个值,变量A:A1,A2=A1;变量B:B1,B2=B1,通过观察得到下表所示数据:则χ2=错误!,用它的大小来检验变量之间是否独立.1当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;2当χ2>2.706时,有90%的把握判定变量A,B有关联;3当χ2>3.841时,有95%的把握判定变量A,B有关联;4当χ2>6.635时,有99%的把握判定变量A,B有关联.常用结论1.求解线性回归方程的关键是确定回归系数a,b,应充分利用线性回归直线过样本中心点(错误!,错误!).2.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大.3.根据线性回归方程计算的y值,仅是一个预报值,不是真实发生的值.二、教材衍化1.为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()A.回归分析B.均值与方差C.独立性检验D.概率解析:选C.“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.2.下面是2×2列联表:y1y2合计x1a 2173x2222547合计b46120则表中a,b的值分别为(A.94,72B.52,50C.52,74D.74,52解析:选C.因为a+21=73,所以a=52.又a+22=b,所以b=74.3.某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:x681012y2356则y对xA.y=2.3x—0.7 B.y=2.3x+0.7C.y=0.7x—2.3D.y=0.7x+2.3解析:选C.因为错误!x i y i=6×2+8×3+10×5+12×6=158,错误!=错误!=9,错误!=错误!=4.所以b=错误!=0.7,a=4—0.7×9=—2.3.故线性回归直线方程为y=0.7x—2.3.故选C.一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.()(2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.()(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()(4)事件X,Y的关系越密切,由观测数据计算得到的χ2的观测值越大.()(5)通过线性回归方程y=bx+a可以估计和观测变量的取值和变化趋势.()答案:(1)×(2)√(3)√(4)√(5)√二、易错纠偏错误!错误!(1)混淆相关关系与函数关系;(2)对独立性检验χ2值的意义不清楚;(3)不知道线性回归直线必过样本点中心.1.两个变量的相关关系有1正相关,2负相关,3不相关,则下列散点图从左到右分别反映的变量间的相关关系是()A.123B.231C.213D.132解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是132.2.某医疗机构通过抽样调查(样本容量n=1000),利用2×2列联表和χ2统计量研究患肺病是否与吸烟有关.计算得χ2=4.453,经查阅临界值表知P(χ2≥3.841)≈0.05,现给出四个结论,其中正确的是()A.在100个吸烟的人中约有95个人患肺病B.若某人吸烟,那么他有95%的可能性患肺病C.有95%的把握认为“患肺病与吸烟有关”D.只有5%的把握认为“患肺病与吸烟有关”解析:选C.由已知数据可得,有1—0.05=95%的把握认为“患肺病与吸烟有关”.故选C.3.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程为y=0.67x+54.9.零件数x/个1020304050加工时间y/min62○758189解析:设表中那个模糊看不清的数据为m.由表中数据得错误!=30,错误!=错误!,所以样本点的中心为错误!,因为样本点的中心在线性回归直线上,所以错误!=0.67×30+54.9,解得m=68.答案:68相关关系的判断(自主练透)1.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图如图1,对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图如图2.由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关解析:选C.由散点图可得两组数据均线性相关,且图1的线性回归方程斜率为负,图2的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.2.某公司在上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:月份1月份2月份3月份4月份5月份6月份收入x12.314.515.017.019.820.6支出y5.635.755.825.896.116.18根据统计资料,则()A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系解析:选C.月收入的中位数是错误!=16,收入增加,支出增加,故x与y有正线性相关关系.3.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1解析:选C.对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r1>0;对于变量V 与U而言,V随U的增大而减小,故V与U负相关,即r2<0,故选C.错误!判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强.回归分析(多维探究)角度一线性回归方程及其应用(2020·福建福州模拟)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,是昆虫大量活动与繁殖的季节,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如表:日期2日7日15日22日30日温度x/℃101113128产卵数y/个2325302616m,n均不小于25”的概率;(2)科研人员确定的研究方案是:先从这五组数据中任选2组,用剩下的3组数据建立y关于x的线性回归方程,再对被选取的2组数据进行检验.(i)若选取的是3月2日与30日的两组数据,请根据3月7日、15日和22日这三天的数据,求出y关于x的线性回归方程;(ii)若由线性回归方程得到的估计数据与选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(i)中所得的线性回归方程是否可靠?附:线性回归直线的斜率和截距的最小二乘估计公式分别为b=错误!,a=错误!—b错误!【解】(1)依题意得,m,n的所有情况有{23,25},{23,30},{23,26},{23,16},{25,30},{25,26},{25,16},{30,26},{30,16},{26,16},共10个.设“m,n均不小于25”为事件A,则事件A包含的基本事件有{25,30},{25,26},{30,26},共3个.所以P(A)=错误!,即事件A的概率为错误!.(2)(i)由数据得错误!=12,错误!=27,错误!(x i—错误!)(y i—错误!)=5,错误!(x i—错误!)2=2,a=错误!—b错误!=27—错误!×12=—3,所以y关于x的线性回归方程为y=错误!x—3.(ii)由(i)知,y关于x的线性回归方程为y=错误!x—3,当x=10时,y=错误!×10—3=22,且|22—23|<2,当x=8时,y=错误!×8—3=17,且|17—16|<2.所以所得到的线性回归方程错误!=错误!x—3是可靠的.角度二相关系数及其应用某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X (单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y(千克)与使用某种液体肥料的质量x(千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r(精确到0.01),并据此判断是否可用线性回归模型拟合y与x 的关系.(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X限制,并有如下关系:周光照量X/小时30<X<5050≤X≤70X>70光照控制仪运行台数321元;若某台光照控制仪未运行,则该台光照控制仪周亏损1000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r=错误!,参考数据:错误!≈0.55,错误!≈0.95.【解】(1)由已知数据可得错误!=错误!=5,错误!=错误!=4.因为错误!(x i—错误!)(y i—错误!)=(—3)×(—1)+0+0+0+3×1=6,错误!=错误!=2错误!,错误!=错误!=错误!,所以相关系数r=错误!=错误!=错误!≈0.95.因为|r|>0.75,所以可用线性回归模型拟合y与x的关系.(2)由条件可得在过去50周里,当X>70时,共有10周,此时只有1台光照控制仪运行,每周的周总利润为1×3000—2×1000=1000(元).当50≤X≤70时,共有35周,此时有2台光照控制仪运行,每周的周总利润为2×3000—1×1000=5000(元).当30<X<50时,共有5周,此时3台光照控制仪都运行,每周的周总利润为3×3000=9 000(元).所以过去50周的周总利润的平均值为错误!=4600(元),所以商家在过去50周的周总利润的平均值为4600元.错误!线性回归分析问题的类型及解题方法(1)求线性回归方程1利用公式,求出回归系数b,a;2待定系数法:利用线性回归直线过样本点的中心求系数.(2)利用线性回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关;决定正相关还是负相关的是系数b.(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.(2020·江西南昌模拟)统计学中经常用环比、同比来进行数据比较.环比是指本期统计数据与上期比较,如7月与6月相比.环比增长率=错误!×100%,同比增长率=错误!×100%.下表是某地区近17个月来的消费者信心指数的统计数据:(1)1求该地区5月消费者信心指数的同比增长率(百分比形式下保留整数);2除1月外,该地区消费者信心指数月环比增长率为负数的有几个月?(2)由以上数据可判断,序号x与该地区消费者信心指数y具有线性相关关系,求出y关于x的线性回归方程y=bx+a(a,b保留2位小数),并依此预测该地区2018年6月的消费者信心指数(结果保留1位小数).参考数据与公式:y≈115,b a=y—bx.解:(1)1该地区5月消费者信心指数的同比增长率为错误!×100%≈10%.2若月环比增长率为负数,则本期数<上期数,从表中可以看出,2017年3月、6月、8月、2月、4月共5个月的月环比增长率为负数.(2)由已知,得b≈1.16,a=错误!—b错误!=104.56,所以线性回归方程为y=1.16x+104.56.当x=18时,y=125.4,故该地区6月的消费者信心指数约为125.4.独立性检验(师生共研)(2020·河南名校联盟高三“尖子生”调研(二))为了调查一款电视机的使用寿命(单位:年),研究人员对该款电视机进行了相应的调查,得到的数据如下图所示.并对不同年龄层的市民对这款电视机的购买意愿作出调查,得到的数据如下表所示.愿意购买该款电视机不愿意购买该款电视机合计40岁及以上800100040岁以下600合计1200(2)根据表中数据判断,是否有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关;(3)若按照电视机的使用寿命进行分层抽样,从使用寿命在[0,4)和[4,20]内的电视机中抽取5台,再从这5台中随机抽取2台进行配件检测,求被抽取的2台电视机的使用寿命都在[4,20]内的概率.附:χ2=错误!,n=a+b+c+d.P(χ2≥k)0.250.150.100.050.0250.010.0050.001k 1.3232.0722.7063.8415.0246.6357.87910.8284=7.76(年).(2)依题意,完善表格如下表所示,愿意购买该款电视机不愿意购买该款电视机合计40岁及以上800200100040岁以下4006001000合计12008002000故χ2=故有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关.(3)依题意知,抽取的5台电视机中使用寿命在[0,4)内的有1台,使用寿命在[4,20]内的有4台,则从5台电视机中随机抽取2台,所有的情况有C错误!=10(种),其中满足条件的有C错误!=6(种),故所求概率P=错误!=错误!.错误!(1)独立性检验的一般步骤1根据样本数据制成2×2列联表;2根据公式χ2=错误!计算K2的值;3查表比较χ2与临界值的大小关系,作出统计判断.(2)解独立性检验的应用问题的关注点1两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题;2两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解χ2.某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:附:χ2=错误!,解:理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(2)由茎叶图知m=错误!=80.列联表如下:超过m不超过m第一种生产方式155第二种生产方式515(3)由于χ2=错误!化非线性回归分析为线性回归分析某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.表中u i=错误!,错误!=错误!错误!i.(1)根据散点图判断:y=a+bx与y=c+错误!哪一个模型更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的线性回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)附:对于一组数据(ω1,υ1),(ω2,υ2),…,(ωn,υn),其线性回归直线υ=α+βω的斜率和截距的最小二乘估计分别为β,α=υ—βω.【解】(1)由散点图判断,y=c+错误!更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的线性回归方程.(2)令u=错误!,先建立y关于u的线性回归方程,由于d所以c=错误!—d·错误!=3.63—8.96×0.269≈1.22,所以y关于u的线性回归方程为y=1.22+8.96u,所以y关于x的线性回归方程为y=1.22+错误!.(3)假设印刷x千册,依题意得10x—(1.22+错误!)x≥78.840,所以x≥10,所以至少印刷10 000册才能使销售利润不低于78 840元.错误!对非线性回归分析问题可通过适当的换元转化为线性回归分析问题求解.某市一中学课外活动小组为了研究经济走势,对该市1996~的GDP(国内生产总值)相关数据进行了初步处理,得到下面的散点图及一些统计量的值.其中z i=ln y i,w i=ln x i.e6.42≈614.003,e6.63≈757.482,e6.84≈934.489,ln 24≈3.18,ln 25≈3.22,ln 26≈3.26.(1)根据散点图判断,y=a+bx,y=e c+dx与y=m+n ln x哪一个适合作为该市GDP值y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的线性回归方程;(3)试预测该市的GDP值.解:(1)由散点图可以判断,y=e c+dx适宜作为该市GDP值y关于年份代码x的回归方程类型.(2)令z=ln y,则z=c+dx,由参考数据得,所以z关于x的线性回归方程为z=1.38+0.21x,所以y关于x的线性回归方程为y=e1.38+0.21x.(3)由(2)可知,当x=25时,y=e1.38+0.21×25=e6.63≈757.482.所以预测该市GDP值约为757.482亿元.[基础题组练]1.根据如下样本数据:x345678y4.02.50.50.50.40.1得到的线性回归方程为A.a>0,b>0 B.a>0,b<0C.a<0,b>0 D.a<0,b<0解析:选B.根据给出的数据可发现:整体上y与x呈现负相关,所以b<0,由样本点(3,4.0)及(4,2.5)可知a>0,故选B.2.在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=错误!x+1上,则这组样本数据的样本相关系数为()A.—1B.0C.错误!D.1解析:选D.所有点均在直线上,则样本相关系数最大,即为1,故选D.3.(2020·山东德州模拟)已知某产品连续4个月的广告费x i(千元)与销售额y i(万元)(i=1,2,3,4)满足错误!x i=15,错误!y i=12.若广告费用x和销售额y之间具有线性相关关系,且回归直线方程为y=bx+a,b=0.6,当广告费用为5千元时,可预测销售额为(),A.3万元B.3.15万元C.3.5万元D.3.75万元,解析:选D.由已知错误!x i=15,错误!y i=12,得错误!=错误!=3.75,错误!=错误!=3,所以3=3.75×0.6+a,解得a=0.75.所以回归直线方程为y=0.6x+0.75.则当x=5时,y=3.75万元.故选D.4.千年潮未落,风起再扬帆,为实现“两个一百年”奋斗目标、实现中华民族伟大复兴的中国梦奠定坚实基础,某校积极响应国家号召,不断加大拔尖人才的培养力度,据不完全统计学生人数为63,据此模型预测该校今年被清华、北大等世界名校录取的学生人数为()A.111 B.117 C.118D.123解析:选B.因为错误!=53,错误!=103.5,所以a =错误!—错误!错误!=103.5—1.35×53=31.95,所以回归直线方程为y =1.35x +31.95.当x =63时,代入解得y =117,故选B.5.随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.由χ2=错误!,得χ2=错误!≈9.616. 参照下表,下列结论正确的是( A.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关” B.在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关” C.有99%以上的把握认为“生育意愿与城市级别有关” D.有99%以上的把握认为“生育意愿与城市级别无关”解析:选C.因为K 2≈9.616>6.635,所以有99%以上的把握认为“生育意愿与城市级别有关”,故选C.6.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且回归方程为y=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为________.解析:因为y与x具有线性相关关系,满足回归方程y=0.6x+1.2,该城市居民人均工资为x =5,所以可以估计该城市的职工人均消费水平y=0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为错误!=84%.答案:84%7.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号12345678数学成绩6065707580859095物理成绩7277808488909395根据以上信息,判断下列结论:1根据散点图,可以判断数学成绩与物理成绩具有线性相关关系;2根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;3从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高.其中正确的个数为________.解析:由散点图知,各点都分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故1正确,2错误;若甲同学的数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故3错误.综上,正确的个数为1.答案:18.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(x i,y i)(i =1,2,…,6)都在曲线y=bx2—错误!附近波动.经计算错误!x i=11,错误!y i=13,错误!x错误!=21,则实数b的值为________.解析:令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt—错误!,此时错误!=错误!=错误!,错误!=错误!=错误!,代入y=bt—错误!,得错误!=b×错误!—错误!,解得b=错误!.答案:错误!9.(2020·云南昆明诊断)某公司准备派出选手代表公司参加某职业技能挑战赛.经过层层选拔,最后集中在甲、乙两位选手在一项关键技能的区分上,选手完成该项挑战的时间越少越好.已知这两位选手在15次挑战训练中,完成该项关键技能挑战所用的时间t(单位:秒)及挑战失败(用“×”表示)的情况如表1:据表1中的数据,应用统计软件得表2:(2)若该公司只有一个参赛名额,根据以上信息,判断哪位选手代表公司参加职业技能挑战赛更合适?请说明你的理由.解:(1)当x=16时,t甲=—1.59×16+99.31=73.87(秒),t乙=—1.73×16+100.26=72.58(秒).(2)甲、乙两位选手完成关键技能挑战成功的次数都为10次,失败次数都为5次,所以,只需要比较他们完成关键技能挑战成功的情况即可,根据所给信息,结合(1)中预测结果,综合分析,选手乙代表公司参加技能挑战赛更合适,理由如下:因为在相同次数的挑战练习中,两位选手在关键技能挑战的完成次数和失败次数都分别相同,x甲>x,乙选手用时更短;乙由于S错误!<S错误!,虽然甲选手的发挥更稳定,但稳定在较大的平均数上,随着训练次数增加,甲、乙用时都在逐步减少,乙的方差大,说明乙进步更大;从(1)的计算结果t乙<t甲,进一步说明选手乙代表公司参加技能挑战赛更合适.10.(2020·辽宁五校模拟)进入二十一世纪以来,科技发展日新月异,工业生产更加依赖科技的发展,沈阳某企业积极进行升级,对现有设备进行改造,为了分析设备改造前后的效果,现从设备改造前后生产的大量产品中各抽取了200件产品作为样本,检测一项质量指标值,若该项质量指标值落在[20,40)内的产品视为合格品,否则为不合格品,图1是设备改造前的样本的频率分布直方图,表1是设备改造后的样本的频数分布表:图1:设备改造前的样本的频率分布直方图表1:设备改造后的样本的频数分布表与设备改造有关.附χ2=错误!解:(1)根据题意填写2×2列联表χ2=错误!所以有99%的把握认为该企业生产的这种产品的质量指标值与设备改造有关.(2)根据频率分布直方图和频数分布表知,设备改造前产品为合格品的概率为错误!=错误!,设备改造后产品为合格品的概率为错误!=错误!>错误!,显然设备改造后产品合格率更高,因此设备改造后性能更优.。
§11.1随机事件的概率1.随机事件和确定事件(1)在条件S下,一定会发生的事件,叫作相对于条件S的必然事件.(2)在条件S下,一定不会发生的事件,叫作相对于条件S的不可能事件.(3)必然事件与不可能事件统称为相对于条件S的确定事件.(4)在条件S下可能发生也可能不发生的事件,叫作相对于条件S的随机事件.(5)确定事件和随机事件统称为事件,一般用大写字母A,B,C…表示.2.频率与概率在相同的条件下,大量重复进行同一试验时,随机事件A发生的频率会在某个常数附近摆动,即随机事件A发生的频率具有稳定性.这时,我们把这个常数叫作随机事件A的概率,记作P(A).3.事件的关系与运算互斥事件:在一个随机试验中,我们把一次试验下不能同时发生的两个事件A与B称作互斥事件.事件A+B:事件A+B发生是指事件A和事件B至少有一个发生.对立事件:不会同时发生,并且一定有一个发生的事件是相互对立事件.4.概率的几个基本性质(1)概率的取值范围:0≤P(A)≤1.(2)必然事件的概率P(E)=1.(3)不可能事件的概率P(F)=0.(4)互斥事件概率的加法公式①如果事件A与事件B互斥,则P(A+B)=P(A)+P(B).②若事件A与事件A互为对立事件,则P(A)=1-P(A).知识拓展互斥事件与对立事件的区别与联系互斥事件与对立事件都是两个事件的关系,互斥事件是不可能同时发生的两个事件,而对立事件除要求这两个事件不同时发生外,还要求二者之一必须有一个发生,因此,对立事件是互斥事件的特殊情况,而互斥事件未必是对立事件.题组一思考辨析1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)事件发生的频率与概率是相同的.(×)(2)随机事件和随机试验是一回事.(×)(3)在大量重复试验中,概率是频率的稳定值.(√)(4)两个事件的和事件是指两个事件都得发生.(×)(5)对立事件一定是互斥事件,互斥事件不一定是对立事件.(√)(6)两互斥事件的概率和为1.(×)题组二教材改编2.一个人打靶时连续射击两次,事件“至少有一次中靶”的对立事件是()A.至多有一次中靶B.两次都中靶C.只有一次中靶D.两次都不中靶答案 D解析“至少有一次中靶”的对立事件是“两次都不中靶”.3.有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5),2;[15.5,19.5),4;[19.5,23.5),9;[23.5,27.5),18;[27.5,31.5),11;[31.5,35.5),12;[35.5,39.5),7;[39.5,43.5],3.根据样本的频率分布估计,数据落在[27.5,43.5]内的概率约是________. 答案 12解析 由条件可知,落在[27.5,43.5]内的数据有11+12+7+3=33(个),故所求概率约是3366=12.题组三 易错自纠4.将一枚硬币向上抛掷10次,其中“正面向上恰有5次”是( ) A .必然事件 B .随机事件 C .不可能事件 D .无法确定答案 B解析 抛掷10次硬币正面向上的次数可能为0~10,都有可能发生,正面向上5次是随机事件.5.从{1,2,3,4,5}中随机选取一个数a ,从{1,2,3}中随机选取一个数b ,则b >a 的概率是( ) A.45 B.35 C.25 D.15 答案 D解析 基本事件的个数为5×3=15,其中满足b >a 的有3种,所以b >a 的概率为315=15.6.(2018·济南模拟)从一箱产品中随机地抽取一件,设事件A ={抽到一等品},事件B ={抽到二等品},事件C ={抽到三等品},且已知P (A )=0.65,P (B )=0.2,P (C )=0.1,则事件“抽到的产品不是一等品”的概率为______. 答案 0.35解析 ∵事件A ={抽到一等品},且P (A )=0.65, ∴事件“抽到的产品不是一等品”的概率为 P =1-P (A )=1-0.65=0.35.题型一 事件关系的判断1.从装有两个白球和两个黄球的口袋中任取2个球,以下给出了四组事件: ①至少有1个白球与至少有1个黄球; ②至少有1个黄球与都是黄球; ③恰有1个白球与恰有1个黄球; ④恰有1个白球与都是黄球. 其中互斥而不对立的事件共有( )A .0组B .1组C .2组D .3组 答案 B解析 ①中“至少有1个白球”与“至少有1个黄球”可以同时发生,如恰好1个白球和1个黄球,故两个事件不是互斥事件;②中“至少有1个黄球”说明可以是1个白球和1个黄球或2个黄球,故两个事件不互斥;③中“恰有1个白球”与“恰有1个黄球”都是指有1个白球和1个黄球,故两个事件是同一事件;④中两事件不能同时发生,也可能都不发生,因此两事件是互斥事件,但不是对立事件,故选B.2.在5张电话卡中,有3张移动卡和2张联通卡,从中任取2张,若事件“2张全是移动卡”的概率是310,那么概率是710的事件是( )A .至多有一张移动卡B .恰有一张移动卡C .都不是移动卡D .至少有一张移动卡答案 A解析 至多有一张移动卡包含“一张移动卡,一张联通卡”,“两张全是联通卡”两个事件,它是“2张全是移动卡”的对立事件.3.口袋里装有1红,2白,3黄共6个形状相同的小球,从中取出两个球,事件A =“取出的两个球同色”,B =“取出的两个球中至少有一个黄球”,C =“取出的两个球中至少有一个白球”,D =“取出的两个球不同色”,E =“取出的两个球中至多有一个白球”.下列判断中正确的序号为____________.①A 与D 为对立事件;②B 与C 是互斥事件;③C 与E 是对立事件;④P (C +E )=1;⑤P (B )=P (C ). 答案 ①解析 当取出的两个球中一黄一白时,B 与C 都发生,②不正确;当取出的两个球中恰有一个白球时,事件C 与E 都发生,③不正确;显然A 与D 是对立事件,①正确;C +E 不一定为必然事件,P (C +E )≤1,④不正确;P (B )=45,P (C )=35,⑤不正确.思维升华 (1)准确把握互斥事件与对立事件的概念①互斥事件是不可能同时发生的事件,但可以同时不发生.②对立事件是特殊的互斥事件,特殊在对立的两个事件不可能都不发生,即有且仅有一个发生.(2)判断互斥、对立事件的方法判断互斥事件、对立事件一般用定义判断,不可能同时发生的两个事件为互斥事件;两个事件若有且仅有一个发生,则这两事件为对立事件,对立事件一定是互斥事件.题型二 随机事件的频率与概率典例(2017·全国Ⅲ)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:以最高气温位于各区间的频率估计最高气温位于该区间的概率. (1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;(2)设六月份一天销售这种酸奶的利润为Y (单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y 的所有可能值,并估计Y 大于零的概率.解 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表格数据知,最高气温低于25的频率为2+16+3690=0.6,所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6.(2)当这种酸奶一天的进货量为450瓶时,若最高气温不低于25,则Y =6×450-4×450=900;若最高气温位于区间[20,25),则Y =6×300+2(450-300)-4×450=300; 若最高气温低于20,则Y =6×200+2(450-200)-4×450=-100, 所以,Y 的所有可能值为900,300,-100.Y 大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为36+25+7+490=0.8.因此Y 大于零的概率的估计值为0.8. 思维升华 (1)概率与频率的关系频率反映了一个随机事件出现的频繁程度,频率是随机的,而概率是一个确定的值,通常用概率来反映随机事件发生的可能性的大小,有时也用频率作为随机事件概率的估计值. (2)随机事件概率的求法利用概率的统计定义求事件的概率,即通过大量的重复试验,事件发生的频率会逐渐趋近于某一个常数,这个常数就是概率.跟踪训练 (2016·全国Ⅱ)某险种的基本保费为a (单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:随机调查了该险种的200名续保人在一年内的出险情况,得到如下统计表:(1)记A 为事件:“一续保人本年度的保费不高于基本保费”,求P (A )的估计值;(2)记B 为事件:“一续保人本年度的保费高于基本保费但不高于基本保费的160%”,求P (B )的估计值;(3)求续保人本年度的平均保费的估计值.解 (1)事件A 发生当且仅当一年内出险次数小于2.由所给数据知,一年内出险次数小于2的频率为60+50200=0.55,故P (A )的估计值为0.55.(2)事件B 发生当且仅当一年内出险次数大于1且小于4.由所给数据知,一年内出险次数大于1且小于4的频率为30+30200=0.3,故P (B )的估计值为0.3.(3)由所给数据,得调查的200名续保人的平均保费为0.85a ×0.30+a ×0.25+1.25a ×0.15+1.5a ×0.15+1.75a ×0.10+2a ×0.05=1.192 5a .因此,续保人本年度平均保费的估计值为1.192 5a .题型三 互斥事件、对立事件的概率命题点1 互斥事件的概率典例经统计,在某储蓄所一个营业窗口等候的人数相应的概率如下:求:(1)至多2人排队等候的概率; (2)至少3人排队等候的概率.解 记“无人排队等候”为事件A ,“1人排队等候”为事件B ,“2人排队等候”为事件C ,“3人排队等候”为事件D ,“4人排队等候”为事件E ,“5人及5人以上排队等候”为事件F ,则事件A 、B 、C 、D 、E 、F 彼此互斥.(1)记“至多2人排队等候”为事件G ,则G =A +B +C , 所以P (G )=P (A +B +C )=P (A )+P (B )+P (C ) =0.1+0.16+0.3=0.56.(2)记“至少3人排队等候”为事件H , 则H =D +E +F ,所以P (H )=P (D +E +F )=P (D )+P (E )+P (F ) =0.3+0.1+0.04=0.44. 命题点2 对立事件的概率典例一盒中装有12个球,其中5个红球,4个黑球,2个白球,1个绿球.从中随机取出1球,求:(1)取出1球是红球或黑球的概率; (2)取出1球是红球或黑球或白球的概率. 解 方法一 (利用互斥事件求概率) 记事件A 1={任取1球为红球},A 2={任取1球为黑球},A 3={任取1球为白球},A 4={任取1球为绿球}, 则P (A 1)=512,P (A 2)=412=13,P (A 3)=212=16,P (A 4)=112.根据题意知,事件A 1,A 2,A 3,A 4彼此互斥,由互斥事件的概率公式,得 (1)取出1球是红球或黑球的概率为 P (A 1+A 2)=P (A 1)+P (A 2)=512+412=34.(2)取出1球是红球或黑球或白球的概率为 P (A 1+A 2+A 3)=P (A 1)+P (A 2)+P (A 3) =512+412+212=1112. 方法二 (利用对立事件求概率)(1)由方法一知,取出1球为红球或黑球的对立事件为取出1球为白球或绿球,即A 1+A 2的对立事件为A 3+A 4,所以取出1球为红球或黑球的概率为P (A 1+A 2)=1-P (A 3+A 4)=1-P (A 3)-P (A 4)=1-212-112=34.(2)因为A 1+A 2+A 3的对立事件为A 4, 所以P (A 1+A 2+A 3)=1-P (A 4)=1-112=1112.思维升华求复杂事件的概率的两种方法求概率的关键是分清所求事件是由哪些事件组成的,求解时通常有两种方法(1)将所求事件转化成几个彼此互斥的事件的和事件,利用概率加法公式求解概率.(2)若将一个较复杂的事件转化为几个互斥事件的和事件时,需要分类太多,而其对立面的分类较少,可考虑利用对立事件的概率公式,即“正难则反”.它常用来求“至少”或“至多”型事件的概率.跟踪训练某学校在教师外出家访了解学生家长对孩子的学习关心情况活动中,一个月内派出的教师人数及其概率如下表所示:(1)求有4人或5人外出家访的概率;(2)求至少有3人外出家访的概率.解(1)设派出2人及以下为事件A,3人为事件B,4人为事件C,5人为事件D,6人及以上为事件E,则有4人或5人外出家访的事件为事件C或事件D,C,D为互斥事件,根据互斥事件概率的加法公式可知,P(C+D)=P(C)+P(D)=0.3+0.1=0.4.(2)至少有3人外出家访的对立事件为2人及以下,所以由对立事件的概率可知,P=1-P(A)=1-0.1=0.9.用正难则反思想求对立事件的概率典例(12分)某超市为了解顾客的购物量及结算时间等信息,安排一名员工随机收集了在该超市购物的100位顾客的相关数据,如下表所示.已知这100位顾客中一次购物量超过8件的顾客占55%.(1)确定x,y的值,并估计顾客一次购物的结算时间的平均值;(2)求一位顾客一次购物的结算时间不超过...2分钟的概率.(将频率视为概率)思想方法指导若某一事件包含的基本事件多,而它的对立事件包含的基本事件少,则可用“正难则反”思想求解.规范解答解 (1)由已知得25+y +10=55,x +30=45, 所以x =15,y =20.[2分]该超市所有顾客一次购物的结算时间组成一个总体,所收集的100位顾客一次购物的结算时间可视为一个容量为100的简单随机样本,顾客一次购物的结算时间的平均值可用样本平均数估计,其估计值为 1×15+1.5×30+2×25+2.5×20+3×10100=1.9(分钟).[6分](2)记A 为事件“一位顾客一次购物的结算时间不超过2分钟”,A 1,A 2分别表示事件“该顾客一次购物的结算时间为2.5分钟”,“该顾客一次购物的结算时间为3分钟”,将频率视为概率,得P (A 1)=20100=15,P (A 2)=10100=110.[9分]P (A )=1-P (A 1)-P (A 2)=1-15-110=710.[11分]故一位顾客一次购物的结算时间不超过2分钟的概率为710.[12分]1.有一个游戏,其规则是甲、乙、丙、丁四个人从同一地点随机地向东、南、西、北四个方向前进,每人一个方向.事件“甲向南”与事件“乙向南”的关系为是( ) A .两事件是互斥但非对立事件 B .两事件是对立事件C .两事件的和事件是不可能事件D .两事件的积事件是必然事件 答案 A解析 由于每人一个方向,故“甲向南”意味着“乙向南”是不可能的,故是互斥事件,但不是对立事件.2.某袋中有编号为1,2,3,4,5,6的6个球(小球除编号外完全相同),甲先从袋中摸出一个球,记下编号后放回,乙再从袋中摸出一个球,记下编号,则甲、乙两人所摸出球的编号不同的概率是( ) A.15B.16C.56D.3536答案 C解析 设a ,b 分别为甲、乙摸出球的编号.由题意,摸球试验共有36种不同的结果,满足a =b 的基本事件共有6种.所以摸出编号不同的概率P =1-636=56.3.(2016·天津)甲、乙两人下棋,两人下成和棋的概率是12,甲获胜的概率是13,则甲不输的概率为( ) A.56 B.25 C.16 D.13答案 A解析 事件“甲不输”包含“和棋”和“甲获胜”这两个互斥事件,所以甲不输的概率为12+13=56. 4.(2017·湖南衡阳八中、长郡中学等十三校二模)同学聚会上,某同学从《爱你一万年》、《十年》、《父亲》、《单身情歌》四首歌中选出两首歌进行表演,则《爱你一万年》未被选取的概率为( ) A.13 B.12 C.23 D.56答案 B解析 分别记《爱你一万年》、《十年》、《父亲》、《单身情歌》为A 1,A 2,A 3,A 4,从这四首歌中选出两首歌进行表演的所有可能的结果为A 1A 2,A 1A 3,A 1A 4,A 2A 3,A 2A 4,A 3A 4,共6个,其中A 1未被选取的结果有3个,所以所求概率P =36=12.故选B.5.袋中装有3个白球,4个黑球,从中任取3个球,则①恰有1个白球和全是白球;②至少有1个白球和全是黑球;③至少有1个白球和至少有2个白球;④至少有1个白球和至少有1个黑球.在上述事件中,是对立事件的为( ) A .① B .② C .③ D .④答案 B解析 至少有1个白球和全是黑球不同时发生,且一定有一个发生.∴②中两事件是对立事件.6.掷一个骰子的试验,事件A 表示“出现小于5的偶数点”,事件B 表示“出现小于5的点”,若B 表示B 的对立事件,则一次试验中,事件A +B 发生的概率为( ) A.13 B.12 C.23 D.56答案 C解析 掷一个骰子的试验有6种可能的结果. 依题意知P (A )=26=13,P (B )=46=23,∴P (B )=1-P (B )=1-23=13,∵B 表示“出现5点或6点”,因此事件A 与B 互斥, 从而P (A +B )=P (A )+P (B )=13+13=23.7.(2017·武汉模拟)已知某运动员每次投篮命中的概率都为40%,现采用随机模拟的方法估计该运动员三次投篮恰有两次命中的概率:先由计算器产生0到9之间取整数值的随机数,指定1,2,3,4表示命中,5,6,7,8,9,0表示不命中;再以每三个随机数为一组,代表三次投篮的结果.经随机模拟产生了如下20组随机数:907 966 191 925 271 932 812 458 569 683 431 257 393 027 556 488 730 113 537 989据此估计,该运动员三次投篮恰有两次命中的概率为________. 答案 0.25解析 20组随机数中表示三次投篮恰好有两次命中的是191,271,932,812,393,其频率为520=0.25,以此估计该运动员三次投篮恰有两次命中的概率为0.25.8.若随机事件A ,B 互斥,A ,B 发生的概率均不等于0,且P (A )=2-a ,P (B )=4a -5,则实数a 的取值范围是________________. 答案 ⎝⎛⎦⎤54,43解析 由题意可知⎩⎪⎨⎪⎧0<P (A )<1,0<P (B )<1,P (A )+P (B )≤1,即⎩⎪⎨⎪⎧0<2-a <1,0<4a -5<1,3a -3≤1,解得⎩⎪⎨⎪⎧1<a <2,54<a <32,a ≤43,所以54<a ≤43.9.(2017·池州模拟)小明忘记了微信登录密码的后两位,只记得最后一位是字母A ,a ,B ,b 中的一个,另一位是数字4,5,6中的一个,则小明输入一次密码能够成功登陆的概率是______. 答案112解析 小明输入密码后两位的所有情况为(4,A ),(4,a ),(4,B ),(4,b ),(5,A ),(5,a ),(5,B ),(5,b ),(6,A ),(6,a ),(6,B ),(6,b ),共12种, 而能成功登陆的密码只有一种,故小明输入一次密码能够成功登陆的概率是112.10.经统计,在银行一个营业窗口每天上午9点钟排队等候的人数及相应概率如下表:则该营业窗口上午9点钟时,至少有2人排队的概率是________. 答案 0.74解析 由表格可得至少有2人排队的概率P =0.3+0.3+0.1+0.04=0.74.11.(2017·武汉调研)某鲜花店将一个月(30天)某品种鲜花的日销售量与销售天数统计如下表,将日销售量落入各组区间的频率视为概率.(1)求这30天中日销售量低于100枝的概率;(2)若此花店在日销售量低于100枝的时候选择2天做促销活动,求这2天恰好是在销售量低于50枝时的概率. 解 (1)设日销售量为x 枝, 则P (0≤x <50)=330=110,P (50≤x <100)=530=16,所以P (0≤x <100)=110+16=415.(2)日销售量低于100枝的共有8天,从中任选2天做促销活动,共有28种情况;日销售量低于50枝的共有3天,从中任选2天做促销活动,共有3种情况. 所以所求概率P =328.12.某商场有奖销售中,购满100元商品得1张奖券,多购多得.1 000张奖券为一个开奖单位,设特等奖1个,一等奖10个,二等奖50个.设1张奖券中特等奖、一等奖、二等奖的事件分别为A ,B ,C ,求: (1)P (A ),P (B ),P (C ); (2)1张奖券的中奖概率;(3)1张奖券不中特等奖且不中一等奖的概率. 解 (1)P (A )=11 000,P (B )=101 000=1100,P (C )=501 000=120.故事件A ,B ,C 的概率分别为11 000,1100,120. (2)1张奖券中奖包含中特等奖、一等奖、二等奖. 设“1张奖券中奖”这个事件为M ,则M =A +B +C . ∵A ,B ,C 两两互斥,∴P (M )=P (A +B +C )=P (A )+P (B )+P (C ) =1+10+501 000=611 000.故1张奖券的中奖概率为611 000. (3)设“1张奖券不中特等奖且不中一等奖”为事件N ,则事件N 与“1张奖券中特等奖或中一等奖”为对立事件,∴P (N )=1-P (A +B )=1-⎝⎛⎭⎫11 000+1100=9891 000. 故1张奖券不中特等奖且不中一等奖的概率为9891 000.13.某学校成立了数学、英语、音乐3个课外兴趣小组,3个小组分别有39,32,33个成员,一些成员参加了不止一个小组,具体情况如图所示.现随机选取一个成员,他属于至少2个小组的概率是________,他属于不超过2个小组的概率是________. 答案 35 1315解析 “至少2个小组”包含“2个小组”和“3个小组”两种情况,故他属于至少2个小组的概率为P =11+10+7+86+7+8+8+10+10+11=35.“不超过2个小组”包含“1个小组”和“2个小组”,其对立事件是“3个小组”. 故他属于不超过2个小组的概率是P =1-86+7+8+8+10+10+11=1315.14.袋中有12个小球,分别为红球、黑球、黄球、绿球,从中任取一球,取到红球的概率是13,取到黑球或黄球的概率是512,取到黄球或绿球的概率也是512,试求取到黑球、黄球和绿球的概率各是多少?解 方法一 从袋中选取一个球,记事件“摸到红球”、“摸到黑球”、“摸到黄球”、“摸到绿球”分别是A ,B ,C ,D ,则有P (A )=13,P (B +C )=P (B )+P (C )=512,P (C +D )=P (C )+P (D )=512,P (B +C +D )=P (B )+P (C )+P (D )=1-P (A )=1-13=23,解得P (B )=14,P (C )=16,P (D )=14, 因此取到黑球、黄球、绿球的概率分别是14,16,14.方法二 设红球有n 个,则n 12=13,所以n =4,即红球有4个. 又取到黑球或黄球的概率是512,所以黑球和黄球共5个. 又总球数是12,所以绿球有12-4-5=3(个).又取到黄球或绿球的概率也是512,所以黄球和绿球共5个,而绿球有3个,所以黄球有5-3=2(个).所以黑球有12-4-3-2=3(个). 因此取到黑球、黄球、绿球的概率分别是 312=14,212=16,312=14.15.某企业为了解下属某部门对本企业职工的服务情况,随机访问了50名职工.根据这50名职工对该部门的评分,绘制出的频率分布直方图如图所示,其中样本数据分组区间为[40,50),[50,60),…,[80,90),[90,100).频率分布直方图中a 的值为________;该企业的职工对该部门评分不低于80的概率为________;从评分在[40,60)的受访职工中,随机抽取2人,此2人的评分都在[40,50)的概率为________. 答案 0.006 0.4110解析 (1)因为(0.004+a +0.018+0.022×2+0.028)×10=1,所以a =0.006.(2)由所给频率分布直方图知,50名受访职工评分不低于80的频率为(0.022+0.018)×10=0.4,所以估计该企业职工对该部门评分不低于80的概率为0.4.(3)受访职工中评分在[50,60)的有50×0.006×10=3(人),记为A 1,A 2,A 3; 受访职工中评分在[40,50)的有50×0.004×10=2(人),记为B 1,B 2,从这5名受访职工中随机抽取2人,所有可能的结果共有10种,它们是{A 1,A 2},{A 1,A 3},{A 1,B 1},{A 1,B 2},{A 2,A 3},{A 2,B 1},{A 2,B 2},{A 3,B 1},{A 3,B 2},{B 1,B 2}.又因为所抽取2人的评分都在[40,50)的结果有1种,即{B 1,B 2},故所求的概率P =110.16.某人在如图所示的直角边长为4米的三角形地块的每个格点(指纵、横直线的交叉点以及三角形的顶点)处都种了一株相同品种的作物.根据历年的种植经验,一株该种作物的年收获量Y (单位:kg)与它的“相近”作物株数X 之间的关系如表所示:这里,两株作物“相近”是指它们之间的直线距离不超过1米.(1)完成下表,并求所种作物的平均年收获量;(2)在所种作物中随机选取一株,求它的年收获量至少为48 kg的概率.解(1)所种作物的总株数为1+2+3+4+5=15,其中“相近”作物株数为1的作物有2株,“相近”作物株数为2的作物有4株,“相近”作物株数为3的作物有6株,“相近”作物株数为4的作物有3株,列表如下:所种作物的平均年收获量为51×2+48×4+45×6+42×315=69015=46.(2)由(1)知,P(Y=51)=215,P(Y=48)=415.故在所种作物中随机选取一株,它的年收获量至少为48 kg的概率为P(Y≥48)=P(Y=51)+P(Y=48)=215+415=25.。
第四节 变量间的相关关系、统计案例[最新考纲] 1.会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归系数公式不要求记忆).3.了解回归分析的基本思想、方法及其简单应用.4.了解独立性检验(只要求2×2列联表)的思想、方法及其初步应用.1.相关性 (1)线性相关若两个变量x 和y 的散点图中,所有点看上去都在一条直线附近波动,则称变量间是线性相关的. (2)非线性相关若所有点看上去都在某条曲线(不是一条直线)附近波动,则称此相关为非线性相关的. (3)不相关如果所有的点在散点图中没有显示任何关系,则称变量间是不相关的. 2.最小二乘估计 (1)最小二乘法如果有n 个点(x 1,y 1),(x 2,y 2),…,(x n ,y n )可以用下面的表达式来刻画这些点与直线y =a +bx 的接近程度:[y 1-(a +bx 1)]2+[y 2-(a +bx 2)]2+…+[y n -(a +bx n )]2.使得上式达到最小值的直线y =a +bx 就是我们所要求的直线,这种方法称为最小二乘法. (2)线性回归方程方程y =bx +a 是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的线性回归方程,其中a,b 是待定参数.⎩⎪⎨⎪⎧b =∑ni =1x i-x y i-y ∑ni =1x i-x 2=∑ni =1x i y i -n x y ∑ni =1x 2i-n x2.a =y -b x .3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,(x ,y )称为样本点的中心.(3)相关系数r①r =∑i =1nx i y i -n xy∑i =1nx 2i -n x 2∑i =1ny 2i -n y 2;②当r>0时,称两个变量正相关. 当r<0时,称两个变量负相关. 当r =0时,称两个变量线性不相关. 4.独立性检验 若一个2×2列联表为:BAB 1 B 2 总计 A 1 a b a +b A 2 c d c +d 总计a +cb +dn =a +b +c +d则统计量χ2为: χ2=n ad -bc 2a +bc +d a +cb +d.(1)当χ2≤2.706时,可以认为变量A,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A,B 有关联. [常用结论]1.回归直线必过样本点的中心(x ,y ).2.当两个变量的相关系数|r|=1时,两个变量呈函数关系.一、思考辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( )(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.( ) (4)事件X,Y 关系越密切,则由观测数据计算得到的χ2的观测值越大.( ) [答案] (1)√ (2)√ (3)× (4)√二、教材改编1.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A .y =0.4x +2.3B .y =2x -2.4C .y =-2x +9.5D .y =-0.3x +4.4A [因为变量x 和y 正相关,排除选项C,D.又样本中心(3,3.5) 在回归直线上,排除B,选项A 满足.] 2.下面是2×2列联表:y 1 y 2 总计 x 1 a 21 73 x 2 22 25 47 总计b46120则表中a,b 的值分别为( ) A .94,72 B .52,50 C .52,74D .74,52 C [∵a+21=73,∴a=52.又a +22=b,∴b=74.]3.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P(χ2≥3.841)≈0.05,P(χ2≥5.024)≈0.025. 根据表中数据,得到χ2的观测值k =50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性约为______.5% [χ2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.]4.某同学家里开了一个小卖部,为了研究气温对某种冷饮销售量的影响,他收集了一段时间内这种冷饮每天的销售量y(杯)与当天最高气温x(℃)的有关数据,通过描绘散点图,发现y 和x 呈线性相关关系,并求得其回归方程y ^=2x +60.如果气象预报某天的最高气温为34 ℃,则可以预测该天这种饮料的销售量为__________杯.128 [由题意x =34时,该小卖部大约能卖出热饮的杯数y ^=2×34+60=128杯.]考点1 相关关系的判断判定两个变量正、负相关的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归直线方程中:b ^>0时,正相关;b ^<0时,负相关.1.已知变量x 和y 近似满足关系式y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关C [由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关.]2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3A [由相关系数的定义以及散点图可知r 2<r 4<0<r 3<r 1.]3.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =-3x +1上,则这组样本数据的样本相关系数为( )A .-3B .0C .-1D .1C [在一组样本数据的散点图中,所有样本点(x i ,y i )(i =1,2,…,n)都在直线y =-3x +1上,所以b =-3<0,即这组样本数据的两个变量负相关,且相关系数为- 1.故选C.]4.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y 是负相关关系;②在该相关关系中,若用y =c 1e c 2x拟合时的相关系数为r 1,用y ^=b ^x +a ^拟合时的相关指数为r 2,则|r 1|>|r 2|;③x,y 之间不能建立线性回归方程.①② [在散点图中,点散布在从左上角到右下角的区域,因此x,y 是负相关关系,故①正确;由散点图知用y =c 1e c 2x拟合比用y ^=b ^x +a ^拟合效果要好,则|r 1|>|r 2|,故②正确;x,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.]相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具有相关性.考点2 回归分析线性回归分析求线性回归直线方程的步骤(1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;(2)利用公式b ^=∑ni =1x i -xy i -y∑ni =1x i -x 2=∑ni =1x i y i -n x y∑ni =1x 2i-n x2,a ^=y -b ^x 求得回归系数; (3)写出回归直线方程.如图是某企业2012年至2018年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2012~2018.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2021年该企业的污水净化量; (3)请用数据说明回归方程预报的效果.参考数据:y =54,∑7i =1(t i -t )(y i -y )=21,14≈3.74,∑7i =1(y i -y ^i )2=94.参考公式:相关系数r =∑ni =1t i -ty i -y∑ni =1t i -t 2∑n i =1y i -y2,线性回归方程y ^=a ^+b ^t,b ^=∑ni =1 t i -ty i -y∑ni =1t i -t2,a ^=y -b ^t .反映回归效果的公式为:R 2=1-∑ni =1 y i -y ^i2∑ni =1y i -y2,其中R 2越接近于1,表示回归的效果越好. [解] (1)由折线图中的数据得,t =4,∑7i =1(t i -t )2=28,∑7i =1(y i -y )2=18,所以r =2128×18≈0.935.因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y =54,b ^=∑7i =1t i -ty i -y∑7i =1t i -t2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2021年对应的t =10代入得y ^=34×10+51=58.5,所以预测2021年该企业污水净化量约为58.5吨.(3)因为R 2=1-∑7i =1y i -y ^i 2∑7i =1y i -y2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.在线性回归分析中,只需利用公式求出回归直线方程并利用其进行预测即可(注意回归直线过样本点的中心(x ,y )),利用回归方程进行预测,常把线性回归方程看作一次函数,求函数值.[教师备选例题]某地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:年份x 2013 2014 2015 2016 2017 储蓄存款y(千亿元)56 7810为了研究计算的方便,工作人员将上表的数据进行了处理,t =x -2 012,z =y -5得到下表2:时间代号t1 2 3 4 5 z1 235(1)求z 关于t 的线性回归方程;(2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少? (附:对于线性回归方程y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a ^=y -b ^x )[解] (1)t =3,z =2.2,∑5i =1t i z i =45,∑5i =1t 2i =55,b ^=45-5×3×2.255-5×9=1.2,a ^=z -b ^t =2.2-3×1.2=-1.4,所以z ^=1.2t -1.4. (2)将t =x -2 012,z =y -5,代入z ^=1.2t -1.4, 得y -5=1.2(x -2 012)-1.4,即y ^=1.2x -2 410.8.(3)因为y ^=1.2×2 022-2 410.8=15.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.1.(2017·山东高考)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170C [∵∑10i =1x i =225,∴x =110∑10i =1x i =22.5.∵∑10i =1y i =1 600,∴y =110∑10i =1y i =160.又b ^=4,∴a ^=y -b ^x =160-4×22.5=70. ∴回归直线方程为y ^=4x +70.将x =24代入上式得y ^=4×24+70=166.故选C.]2.某产品的广告费用x 万元与销售额y 万元的统计数据如表:广告费用x(万元) 2 3 4 5 销售额y(万元)26m4954根据上表可得回归方程y ^=9x +10.5,则m 的值为( ) A .36 B .37 C .38D .39D [由回归方程的性质,线性回归方程过样本点的中心,则26+m +49+544=2+3+4+54×9+10.5,解得m =39.故选D.]可线性化的回归方程 可线性化的回归方程的求法(1)根据原始数据作出散点图. (2)根据散点图,选择恰当的拟合函数.(3)作恰当变换,将其转化成线性函数,求线性回归方程. (4)在(3)的基础上通过相应变换,即可得可线性化的回归方程.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑8i =1(x i -x )2∑8i =1(w i -w )2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )·(y i -y ) 46.6563 6.8289.81.61 469108.8表中w i =x i ,w]=18∑8i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x,y 的关系为z =0.2y -x.根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^u 的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .[解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6, 所以y 关于w 的线性回归方程为y ^=100.6+68w, 因此y 关于x 的回归方程为y ^=100.6+68x. (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x)-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.对于非线性回归分析问题,应先进行变量代换,求出代换后的回归直线方程,再求非线性回归方程.[教师备选例题]某地级市共有200 000名中小学生,其中有7%的学生在2017年享受了“国家精准扶贫”政策,在享受“国家精准扶贫”政策的学生中困难程度分为三个等次:一般困难、很困难、特别困难,且人数之比为5∶3∶2,为进一步帮助这些学生,当地市政府设立“专项教育基金”,对这三个等次的困难学生每年每人分别补助1 000元、1 500元、2 000元.经济学家调查发现,当地人均可支配收入较上一年每增加n%,一般困难的学生中有3n%会脱贫,脱贫后将不再享受“国家精准扶贫”政策,很困难的学生中有2n%转为一般困难,特别困难的学生中有n%转为很困难.现统计了该地级市2013年到2017年共5年的人均可支配收入,对数据初步处理后得到了如图所示的散点图和表中统计量的值,其中年份x 取13时代表2013年,x 与y(万元)近似满足关系式y =c 1·2c 2x,其中c 1,c 2为常数.(2013年至2019年该市中学生人数大致保持不变)yk∑5i =1(k i-k )2∑5i =1(y i-y ) ∑5i =1(x i -x )(y i -y )∑5i =1(x i -x )·(k i -k )2.31.23.14.621其中k i =log 2y i ,k =15∑5i =1k i .(1)估计该市2018年人均可支配收入;(2)求该市2018年的“专项教育基金”的财政预算大约为多少.附:①对于一组具有线性相关关系的数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线方程v ^=β^u +α^的斜率和截距的最小二乘估计分别为β^=∑ni =1u i -uv i -v∑ni =1u i -u2,α^=v -β^u .②参考数据:2-0.72-0.320.121.721.821.90.6 0.81.13.23.53.73[解] (1)因为x =15×(13+14+15+16+17)=15,所以∑5i =1(x i -x )2=(-2)2+(-1)2+02+12+22=10.由k =log 2y 得k =log 2c 1+c 2x,所以c 2=∑5i =1x i -xk i -k∑5i =1x i -x2=110, log 2c 1=k -c 2x =1.2-110×15=-0.3,所以c 1=2-0.3=0.8,所以y =0.8×2x10.当x =18时,y =0.8×21.8=0.8×3.5=2.8(万元). 即该市2018年人均可支配收入为2.8万元.(2)由题意知2017年时该市享受“国家精准扶贫”政策的学生有200 000×7%=14 000人, 一般困难、很困难、特别困难的中学生依次有7 000人、4 200人、2 800人,2018年人均可支配收入比2017年增长0.8×21.8-0.8×21.70.8×21.7=20.1-1=0.1=10%, 所以2018年该市特别困难的学生有2 800×(1-10%)=2 520人. 很困难的学生有4 200×(1-20%)+2 800×10%=3 640人, 一般困难的学生有7 000×(1-30%)+4 200×20%=5 740人.所以2018年的“专项教育基金”的财政预算大约为5 740×1 000+3 640×1 500+2 520×2 000=16 240 000(元)=1 624(万元).十九大报告指出,必须树立“绿水青山就是金山银山”的生态文明发展理念,这一理念将进一步推动新能源汽车产业的迅速发展.以下是近几年我国新能源汽车的年销量数据及其散点图(如图所示):年份 2013 2014 2015 2016 2017 年份代码x 1 2 3 4 5 新能源汽车的 年销量y/万辆1.55.917.732.955.6(1)请根据散点图判断y ^=b ^x +a ^与y ^=c ^x 2+d ^中哪个更适宜作为新能源汽车年销量y 关于年份代码x 的回归方程模型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程,并预测2020年我国新能源汽车的年销量.(精确到0.1)c ^=∑i =1nw i -wy i -y∑i =1nw i -w2,d ^=y -c ^w .附:令w i =x 2i .y∑5i =1(x i -x )2∑5i =1(w i-w )2∑5i =1(x i -x )·(y i -y ) ∑5i =1(w i -w )·(y i -y ) 22.7210374135.2851.2[解] (1)根据散点图得,y =c x 2+d 更适宜作为年销量y 关于年份代码x 的回归方程.(2)依题意得,w -=1+4+9+16+255=11,c ^=∑i =15w i -w-()y i-y -∑i =15w i -w -2=851.2374≈2.28, 则d ^=y --c ^w -=22.72-2.28×11=-2.36, ∴y ^=2.28x 2-2.36.令x =8,则y ^=2.28×64-2.36=143.56≈143.6, 故预测2020年我国新能源汽车的年销量为143.6万辆. 考点3 独立性检验1.比较几个分类变量有关联的可能性大小的方法(1)通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc|的大小判断:|ad -bc|越大,两变量有关联的可能性越大. 2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表. (2)根据公式χ2=n ad -bc 2a +ba +cb +dc +d计算χ2的观测值k.(3)比较观测值k 与临界值的大小关系,作统计推断.(2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如图所示的茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:超过m 不超过m第一种生产方式 第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:χ2=n ad -bc 2a +bc +d a +cb +d,n =a +b +c +d.P(χ2≥k)0.050 0.010 0.001 k3.8416.63510.828[解] (1)第二种生产方式的效率更高. 理由如下:(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可) (2)由茎叶图知m =79+812=80.列联表如下:超过m 不超过m第一种生产方式 15 5 第二种生产方式515(3)由于χ2=4015×15-5×5220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.独立性检验是判断两个分类变量之间是否有关系的一种方法.在判断两个分类变量之间是否有关系时,作出等高条形图只能近似地判断两个分类变量是否有关系,而独立性检验可以精确地得到可靠的结论.[教师备选例题](2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg 箱产量≥50 kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:P(χ2≥k)0.050 0.010 0.001k 3.841 6.635 10.828χ2=n ad-bc2a+b c+d a+c b+d.[解] (1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg的频率为(0.068+0.046+0.010+0.008)×5=0.66,故P(C)的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表:箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466χ2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).1.党的十九大报告明确提出:在共享经济等领域培育增长点、形成新动能.共享经济是公众将闲置资源通过社会化平台与他人共享,进而获得收入的经济现象.为考察共享经济对企业经济活跃度的影响,在四个不同的企业各取两个部门进行共享经济对比试验,根据四个企业得到的试验数据画出如下四个等高条形图,最能体现共享经济对该部门的发展有显著效果的图形是( )A BC DD [根据四个选项中的等高条形图可知,选项D 中共享与不共享的企业经济活跃度的差异较大,且最能体现共享经济对该部门的发展有显著效果,故选D.]2.(2019·全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异? 附:χ2=n ad -bc 2a +bc +d a +c b +d,P(χ2≥k)0.050 0.010 0.001 k3.8416.63510.828[解] (1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)χ2的观测值k =100×40×20-30×10250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.。
第一节 算法与程序框图1.算法在解决某类问题时,所要执行的一系列__可操作__或__可计算的步骤__.现代算法的作用之一是__使计算机能代替人完成某些工作__.2.算法框图中的符号意义3.框图的概念为了使算法结构更加清晰,可借助图来帮助描述算法.图的特点是__直观__、__清楚__,便于__检查和交流__.通常这样的图叫作框图.4.算法的基本结构提醒:1.辨明两个易误点(1)易混淆处理框与输入、输出框,处理框主要是赋值、计算,而输入、输出框只是表示一个算法输入或输出的信息.(2)易忽视循环结构中必有选择结构,其作用是控制循环进程,避免进入“死循环”,是循环结构必不可少的一部分.2.识别三种结构的关系顺序结构是每个算法结构都含有的,而对于循环结构有重复性,选择结构具有选择性没有重复性,并且循环结构中必定包含一个选择结构,用于确定何时终止循环体,循环结构和选择结构都含有顺序结构.1.判断下列结论的正误(正确的打“√”,错误的打“×”) (1)算法只能解决一个问题,不能重复使用.( ) (2)程序框图中的图形符号可以由个人来确定.( ) (3)输入框只能紧接开始框,输出框只能紧接结束框.( )(4)选择结构的出口有两个,但在执行时,只有一个出口是有效的.( ) 答案:(1)× (2)× (3)× (4)√2.(教材习题改编)给出如图算法框图,其功能是( )A .求a -b 的值B .求b -a 的值C .求|a -b |的值D .以上都不对解析:选C 由算法框图知其功能是求|a -b |的值.3.阅读如图所示的程序框图,运行相应的程序,输出s 的值等于( )A .-3B .-10C .0D .-2解析:选A 第一次循环:k =0+1=1,满足k <4,s =2×1-1=1; 第二次循环:k =1+1=2,满足k <4,s =2×1-2=0; 第三次循环:k =2+1=3,满足k <4,s =2×0-3=-3; 第四次循环:k =3+1=4,不满足k <4,故输出的s =-3. 4.(2018·济宁模拟)执行如图所示的程序框图,则输出的S 为( )A .-2B .12C .43D .3解析:选D 程序运行如下: S =3,k =1;S =43,k =2;S =12,k =3;S =-2,k =4; S =3,k =5;……发现此程序中的S 值4个一循环,2 017÷4=504……1,则输出的S =3,故选D .顺序结构与选择结构 [明技法]应用顺序结构和选择结构的注意点(1)顺序结构是最简单的算法结构,语句与语句之间、框与框之间是按从上到下的顺序进行的.(2)解决此类问题,只需分清运算步骤,赋值量及其范围进行逐步运算即可.(3)选择结构中条件的判断关键是明确选择结构的功能,然后根据“是”的分支成立的条件进行判断.(4)对选择结构,无论判断框中的条件是否成立,都只能执行两个分支中的一个,不能同时执行两个分支.[提能力]【典例】 (1)运行如图所示程序框图,若输入a ,b 的值分别为log 23和log 32,则输出M 的值是( )A .0B .1C .2D .-1解析:选C ∵log 23>log 32,即a >b ,故M =a ×b +1=log 23×log 32+1=2. (2)(2017·山东卷)执行两次如图所示的程序框图,若第一次输入的x 的值为7,第二次输入的x 的值为9,则第一次、第二次输出的a 的值分别为( )A .0,0B .1,1C .0,1D .1,0解析:选D 当x =7时,∵b =2,∴b 2=4<7=x . 又7不能被2整除,∴b =2+1=3.此时b 2=9>7=x ,∴退出循环,a =1,∴输出a =1. 当x =9时,∵b =2,∴b 2=4<9=x . 又9不能被2整除,∴b =2+1=3.此时b 2=9=x ,又9能被3整除,∴退出循环,a =0. ∴输出a =0.故选D . [刷好题]1.阅读如图所示的程序框图,运行相应的程序,若输入x 的值为1,则输出y 的值为( )A .2B .7C .8D .128解析:选C 由程序框图知,y =⎩⎪⎨⎪⎧2x,x ≥2,9-x ,x <2.∵输入x 的值为1,比2小,∴执行的程序要实现的功能为9-1=8,故输出y 的值为8.2.执行下面的程序框图,如果输入的t ∈[-1,3],则输出的s 属于( )A .[-3,4]B .[-5,2]C .[-4,3]D .[-2,5]解析:选A 由框图知s 是关于t 的分段函数s =⎩⎪⎨⎪⎧3t ,-1≤t <1,4t -t 2,1≤t ≤3, 当t ∈[-1,1)时,s ∈[-3,3);当t ∈[1,3]时,s =4t -t 2=4-(t -2)2∈[3,4],故s ∈[-3,4],故选A .循环结构 [析考情]循环结构是高考命题的一个热点问题,多以选择题、填空题的形式呈现,试题难度不大,多为容易题或中档题.[提能力]命题点1:求程序运行后的结果【典例1】 (2016·全国卷Ⅱ)中国古代有计算多项式值的秦九韶算法,如图是实现该算法的程序框图,执行该程序框图,若输入的x =2,n =2,依次输入的a 为2,2,5,则输出的S =( )A.7B.12C.17D.34解析:选C由框图可知,输入x=2,n=2,a=2,S=2,k=1,不满足条件;a=2,S=4+2=6,k=2,不满足条件;a=5,S=12+5=17,k=3,满足条件,输出S=17,故选C.命题点2:确定控制循环的变量【典例2】(2017·全国卷Ⅰ)如图所示的程序框图是为了求出满足3n-2n>1 000的最小偶数n,那么在和两个空白框中,可以分别填入()A.A>1 000和n=n+1 B.A>1 000和n=n+2C.A≤1 000和n=n+1 D.A≤1 000和n=n+2解析:选D因为题目要求的是“满足3n-2n>1 000的最小偶数n”,所以n的叠加值为2,所以内填入“n=n+2”.由程序框图知,当内的条件不满足时,输出n,所以内填入“A≤1 000”.故选D.命题点3:辨析程序框图的功能【典例3】如图所示的程序框图,该算法的功能是()A.计算(1+20)+(2+21)+(3+22)+…+(n+1+2n)的值B.计算(1+21)+(2+22)+(3+23)+…+(n+2n)的值C.计算(1+2+3+…+n)+(20+21+22+…+2n-1)的值D.计算[1+2+3+…+(n-1)]+(20+21+22+…+2n)的值解析:选C初始值k=1,S=0,第1次进入循环体时,S=1+20,k=2;当第2次进入循环体时,S=1+20+2+21,k=3,…;给定正整数n,当k=n时,最后一次进入循环体,则有S=1+20+2+21+…+n+2n-1,k=n+1,终止循环体,输出S=(1+2+3+…+n)+(20+21+22+…+2n-1),故选C.[悟技法]与循环结构有关问题的常见类型及解题策略(1)已知程序框图,求输出的结果,可按程序框图的流程依次执行,最后得出结果.(2)完善程序框图问题,结合初始条件和输出结果,分析控制循环的变量应满足的条件或累加、累乘的变量的表达式.(3)对于辨析程序框图功能问题,可将程序执行几次,即可根据结果作出判断.[刷好题]1.秦九韶是我国南宋时期的数学家,普州(现四川省安岳县)人,他在所著的《数书九章》中提出的多项式求值的秦九韶算法,至今仍是比较先进的算法.如图所示的程序框图给出了利用秦九韶算法求多项式值的一个实例,若输入n,x的值分别为3,2,则输出v的值为()A.35 B.20C.18 D.9解析:选C按照图中的程序计算,当i=2时,得v=4;当i=1时,得v=2×4+1=9;当i=0时,得v=2×9+0=18;当i=-1时,直接输出v=18,即输出的v值为18.2.(2017·全国卷Ⅱ)执行如图所示的程序框图,如果输入的a=-1,则输出的S=()A.2 B.3C.4 D.5解析:选B当K=1时,S=0+(-1)×1=-1,a=1,执行K=K+1后,K=2;当K=2时,S=-1+1×2=1,a=-1,执行K=K+1后,K=3;当K=3时,S=1+(-1)×3=-2,a=1,执行K=K+1后,K=4;当K=4时,S=-2+1×4=2,a=-1,执行K=K+1后,K=5;当K=5时,S=2+(-1)×5=-3,a=1,执行K=K+1后,K=6;当K=6时,S=-3+1×6=3,执行K=K+1后,K=7>6,输出S=3,结束循环.故选B.。
第一节 随机事件的概率1.随机事件的频率及特点(1)频率是一个变化的量,但在大量重复试验时,它又具有稳定性,在一个“常数”附近摆动.(2)随着试验次数的增加,随机事件发生的频率摆动的幅度具有越来越小的趋势. (3)随机事件的频率也可能出现偏离“常数”较大的情形,但是随着试验次数的增大,频率偏离“常数”的可能性会减小.2.随机事件的概率的定义在相同的条件下,大量重复进行同一试验时,随机事件A 发生的频率会在某个常数附近摆动,即随机事件A 发生的频率具有稳定性.这时这个常数叫作随机事件A 的概率,记作P (A ),有0≤P (A )≤1.3.互斥事件4.对立事件的概率在每一次试验中,相互对立的事件A 和事件A -不会同时发生并且一定有一个发生,其计算公式:P (A -)=1-P (A ).提醒:1.易将概率与频率混淆,频率随着试验次数变化而变化,而概率是一个常数. 2.互斥事件是不可能同时发生的两个事件,而对立事件除要求这两个事件不同时发生外,还要求二者之一必须有一个发生,因此,对立事件是互斥事件的特殊情况,而互斥事件未心是对立事件.1.判断下列结论的正误(正确的打“√”,错误的打“×”) (1)“下周六会下雨”是随机事件.( ) (2)事件发生的频率与概率是相同的.( ) (3)随机事件和随机试验是一回事.( )(4)在大量重复试验中,概率是频率的稳定值.( ) (5)两个事件的和事件是指两个事件同时发生.( )(6)对立事件一定是互斥事件,互斥事件不一定是对立事件.( ) 答案:(1)√ (2)× (3)× (4)√ (5)× (6)√ 2.若A 、B 为互斥事件,则P (A )+P (B )________1. 答案:≤3.(教材习题改编)从一副扑克牌(去掉大、小王,共52张)中随机选取1张,则 ①“这张牌是红心”和“这张牌是方块” ②“这张牌是红心”和“这张牌是K ” ③“这张牌是红色牌”和“这张牌是黑色牌” ④“这张牌是黑色牌”和“这张牌是方块” 在上述事件中,是对立事件的为________. 解析:在上述事件中,只有③是互斥且对立事件. 答案:③4.(2018·赤峰模拟)先后抛掷硬币三次,则至少一次正面朝上的概率是________. 答案:78随机事件及其频率与概率 [明技法]1.概率与频率的关系频率反映了一个随机事件出现的频繁程度,频率是随机的,而概率是一个确定的值,通常用概率来反映随机事件发生的可能性的大小,有时也用频率来作为随机事件概率的估计值.2.随机事件概率的求法利用概率的统计定义求事件的概率,即通过大量的重复试验,事件发生的频率会逐渐趋近于某一个常数,这个常数就是概率.[提能力]【典例】 假设甲、乙两种品牌的同类产品在某地区市场上销售量相等,为了解它们的使用寿命,现从这两种品牌的产品中分别随机抽取100个进行测试,结果统计如图所示:(1)估计甲品牌产品寿命小于200小时的概率;(2)这两种品牌产品中,某个产品已使用了200小时,试估计该产品是甲品牌的概率. 解:(1)甲品牌产品寿命小于200小时的频率为5+20100=14,所以估计甲品牌产品寿命小于200小时的概率为14.(2)根据抽样结果,寿命大于200小时的产品共有75+70=145(个),其中甲品牌产品是75个.所以在样本中,寿命大于200小时的产品是甲品牌的频率是75145=1529.所以估计已使用了200小时的该产品是甲品牌的概率为1529.[刷好题]1.给出下列命题,其中正确命题有________个.①有一大批产品,已知次品率为10%,从中任取100件,必有10件是次品;②做7次抛硬币的试验,结果3次出现正面,因此正面出现的概率是37;③随机事件发生的频率就是这个随机事件发生的概率.解析:①错,不一定是10件次品;②错,37是频率而非概率;③错,频率不等于概率,这是两个不同的概念.答案:02.某人在如图所示的直角边长为4 m 的三角形地块的每个格点(指纵、横直线的交叉点以及三角形的顶点)处都种了一株相同品种的作物.根据历年的种植经验,一株该种作物的年收获量Y (单位:kg)与它的“相近”作物株数X 之间的关系如下表所示.这里,两株作物“相近”是指它们之间的直线距离不超过1 m.(1)(2)的概率.解:(1)所种作物的总株数为1+2+3+4+5=15,其中“相近”作物株数为1的作物有2株,“相近”作物株数为2的作物有4株,“相近”作物株数为3的作物有6株,“相近”作物株数为4的作物有3株.列表如下:51×2+48×4+45×6+42×315=102+192+270+12615=69015=46 (kg).(2)由(1)知,P(Y=51)=215,P(Y=48)=415. 故在所种作物中随机选取一株,它的年收获量至少为48 kg的概率为P(Y≥48)=P(Y=51)+P(Y=48)=215+415=25.互斥事件与对立事件的判定[明技法]1.准确把握互斥事件与对立事件的概念(1)互斥事件是不可能同时发生的事件,但可以同时不发生.(2)对立事件是特殊的互斥事件,特殊在对立的两个事件不可能都不发生,即有且仅有一个发生.2.判别互斥、对立事件的方法判别互斥事件、对立事件一般用定义判断,不可能同时发生的两个事件为互斥事件;两个事件,若有且仅有一个发生,则这两事件为对立事件,对立事件一定是互斥事件.[提能力]【典例】判断下列给出的每对事件是否为互斥事件,是否为对立事件,并说明理由.从40张扑克牌(红桃、黑桃、方块、梅花点数从1~10各10张)中,任抽取1张.(1)“抽出红桃”与“抽出黑桃”;(2)“抽出红色牌”与“抽出黑色牌”;(3)“抽出的牌点数为5的倍数”与“抽出的牌点数大于9”.解:(1)是互斥事件,不是对立事件.理由是从40张扑克牌中任意抽取1张,“抽出红桃”和“抽出黑桃”是不可能同时发生的,所以是互斥事件.同时,不能保证其中必有一个发生,这是由于还可能抽出“方块”或“梅花”,因此,二者不是对立事件.(2)既是互斥事件,又是对立事件.理由是从40张扑克牌中任意抽取1张,“抽出红色牌”与“抽出黑色牌”两个事件不可能同时发生,且其中必有一个发生,所以它们既是互斥事件,又是对立事件.(3)不是互斥事件,当然不可能是对立事件.理由是从40张扑克牌中任意抽取1张,“抽出的牌点数为5的倍数”与“抽出的牌点数大于9”这两个事件可能同时发生,如抽得点数为10,因此,二者不是互斥事件,当然不可能是对立事件.[刷好题]某县城有甲、乙两种报纸供居民订阅,记事件A为“只订甲报”,事件B为“至少订一种报”,事件C为“至多订一种报”,事件D为“不订甲报”,事件E为“一种报纸也不订”.判断下列每对事件是不是互斥事件.如果是,再判断它们是不是对立事件.(1)A与C;(2)B与E;(3)B与D;(4)B与C;(5)C与E.解:(1)由于事件C“至多订一种报”中有可能只订甲报,即事件A与事件C有可能同时发生,故A与C不是互斥事件.(2)事件B“至少订一种报”与事件E“一种报纸也不订”是不可能同时发生的,故B 与E是互斥事件.由于事件B不发生可导致事件E一定发生,且事件E不发生会导致事件B一定发生,故B与E还是对立事件.(3)事件B“至少订一种报”中有可能只订乙报,即有可能不订甲报,也就是说事件B 发生,事件D也可能发生,故B与D不互斥.(4)事件B“至少订一种报”中有这些可能:“只订甲报”“只订乙报”“订甲、乙两种报”.事件C“至多订一种报”中有这些可能:“什么也不订”“只订甲报”“只订乙报”.由于这两个事件可能同时发生,故B与C不是互斥事件.(5)由(4)的分析,事件E“一种报纸也不订”只是事件C的一种可能,即事件C与事件E 有可能同时发生,故C 与E 不互斥.求互斥事件、对立事件的概率 [明技法]求复杂的互斥事件的概率的两种方法(1)直接求解法,将所求事件的概率分解为一些彼此互斥的事件的概率的和,运用互斥事件的概率求和公式计算.(2)间接求法,先求此事件的对立事件的概率,再用公式P (A )=1-P (A -),即运用逆向思维(正难则反).特别是“至多”、“至少”型题目,用间接求法就显得较简便.[提能力]【典例】 某商场有奖销售中,购满100元商品得1张奖券,多购多得,1 000张奖券为一个开奖单位.设特等奖1个,一等奖10个,二等奖50个.设1张奖券中特等奖、一等奖、二等奖的事件分别为A 、B 、C ,求:(1)P (A ),P (B ),P (C ); (2)1张奖券的中奖概率;(3)1张奖券不中特等奖且不中一等奖的概率. 解:(1)P (A )=11 000,P (B )=101 000=1100,P (C )=501 000=120.(2)因为事件A 、B 、C 两两互斥,所以P (A +B +C )=P (A )+P (B )+P (C )=11 000+1100+120=611 000.故一张奖券的中奖概率为611 000. (3)P (A +B )=1-P (A +B )=1-⎝⎛⎭⎫11 000+1100=9891 000. 故1张奖券不中特等奖且不中一等奖的概率为9891 000.[刷好题]根据以往统计资料,某地车主购买甲种保险的概率为0.5,购买乙种保险但不购买甲种保险的概率为0.3.(1)求该地1位车主至少购买甲、乙两种保险中的1种的概率; (2)求该地1位车主甲、乙两种保险都不购买的概率.解:记A 表示事件:该车主购买甲种保险;B 表示事件:该车主购买乙种保险但不购买甲种保险;C 表示事件:该车主至少购买甲、乙两种保险中的1种;D 表示事件:该车主甲、乙两种保险都不购买.(1)由题意得P(A)=0.5,P(B)=0.3,又C=A+B,所以P(C)=P(A+B)=P(A)+P(B)=0.5+0.3=0.8.(2)因为D与C是对立事件,所以P(D)=1-P(C)=1-0.8=0.2.。
第二节 随机抽样1.抽样调查及相关概念抽样调查是指从调查对象中按照一定的方法抽取__一部分__,进行调查或观测,获取数据,并以此对调查对象的某项指标作出推断.其中,调查对象的__全体__称为总体,__被抽取的一部分__称为样本.2.简单随机抽样定义:设一个总体含有N 个个体,随机地抽取n 个个体作为样本(n <N ),在抽取的过程中,要保证每个个体被抽到的__概率相同__,这样的抽样方法叫作简单随机抽样.常用方法:__抽签法__和__随机数表__. 3.分层抽样将总体按其__属性特征__分成若干类型(有时称作层),然后在每个类型中按照所占比例__随机__抽取一定的样本,这种抽样方法叫作分层抽样,有时也称为__类型抽样__.4.系统抽样系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照__简单随机__抽样抽取第一个样本,然后按__分组的间隔__(称为抽样距)抽取其他样本,这种抽样方法有时也叫__等距抽样__或__机械抽样__.5.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体__编号__;(2)确定__分段间隔k __,对编号进行__分段__.当N n (n 是样本容量)是整数时,取k =N n ;(3)在第1段用__简单随机抽样__确定第一个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号__l +k __,再加k 得到第3个个体编号__(l +2k )__,依次进行下去,直到获取整个样本.提醒:1.辨明两个易误点(1)简单随机抽样中易忽视样本是从总体中逐个抽取,是不放回抽样,且每个个体被抽到的概率相等.(2)分层抽样中,易忽视每层抽取的个体的比例是相同的,即样本容量n总体个数N.2.三种抽样方法的比较1.判断下列结论的正误(正确的打“√”,错误的打“×”)(1)在简单随机抽样中,某一个个体被抽到的可能性与第几次抽取有关,第一次抽到的可能性最大.()(2)在100件玩具中随机拿出一件,放回后再拿出一件,连续拿5次,是简单随机抽样.()(3)系统抽样适用于元素个数较多且分布均衡的总体.()(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.()(5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.()答案:(1)×(2)×(3)√(4)×(5)×2.在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是()A.总体B.个体C.样本的容量D.从总体中抽取的一个样本解析:选A由题目条件知,5 000名居民的阅读时间的全体是总体;其中1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.3.某科考队有男队员56人,女队员42人,用分层抽样的方法从全体队员中抽出一个容量为14的样本,则男、女队员各抽取的人数分别为( )A .6,8B .8,6C .9,5D .5,9解析:选B 男队员人数1498×56=8,女队员人数1498×42=6.4.某公司有员工500人,其中不到35岁的有125人,35~49岁的人有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工则应在这三个年龄段分别抽取人数为( )A .33 34 33B .25 56 19C .20 40 30D .30 50 20解析:选B 35岁以下:125×100500=25;35~49岁:280×100500=56;50岁以上:95×100500=19.简单随机抽样 [明技法]抽签法与随机数法的适用情况(1)抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况. (2)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.[提能力]【典例】 (1)下面的抽样方法是简单随机抽样的是( )A .在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2 709的为三等奖B .某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解学校机构改革的意见D.用抽签法从10件产品中选取3件进行质量检验解析:选D A、B是系统抽样,因为抽取的个体间的间隔是固定的;C是分层抽样,因为总体的个体有明显的层次;D是简单随机抽样.(2)下列关于简单随机抽样的说法,正确的是()①它要求被抽取样本的总体的个数有限;②它是从总体中逐个地进行抽取;③它是一种不放回抽样;④它是一种等可能性抽样,每次从总体中抽取一个个体时,不仅各个个体被抽取的可能性相等,而且在整个抽样过程中,各个个体被抽取的可能性也相等,从而保证了这种抽样方法的公平性.A.①②B.③④C.①②③D.①②③④解析:选D由简单随机抽样的特征可知:①②③④都正确.[刷好题]1.下列抽样试验中,适合用抽签法的是()A.从某厂生产的5 000件产品中抽取600件进行质量检验B.从某厂生产的两箱(每箱18件)产品中抽取6件进行质量检验C.从甲、乙两厂生产的两箱(每箱18件)产品中抽取6件进行质量检验D.从某厂生产的5 000件产品中抽取10件进行质量检验解析:选B因为A,D中总体的个体数较大,不适合用抽签法;C中甲、乙两厂生产的产品质量可能差别较大,因此未达到搅拌均匀的条件,也不适合用抽签法;B中总体容量和样本容量都较小,且同厂生产的产品可视为搅拌均匀了.2.(2018·新余模拟)某班对八校联考成绩进行分析,利用随机数表法抽取容量为7的样本时,先将70个同学按01,02,03,…,70进行编号,然后从随机数表第9行第9列的数开始向右读,则选出的第7个个体的编号是()(注:下面为随机数表的第8行和第9行)63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58 07 44 39 52 38 7933 21 12 34 29 78 64 56 07 82 52 42 07 44 38 15 51 00 13 42 99 66 02 79 54A.07 B.44C.15 D.51解析:选B从第9行第9列的数开始,按2位数向右读,大于70和重复的去掉.选出的数依次为29,64,56,07,52,42,44,故第7个个体的编号是44.故选B.系统抽样 [明技法]解决系统抽样问题的2个关键步骤(1)分组的方法应依据抽取比例而定,即根据定义每组抽取一个样本.(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.[提能力]【典例】 (1)在一次马拉松比赛中,35名运动员的成绩(单位:min)的茎叶图如图所示.3,若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .6解析:选B 由系统抽样可知,35人分为7组,每组5人,第1组成绩均大于151,最后两组成绩均小于139,所以成绩在[139,151]上的有4人.(2)“五一”国际劳动节期间,某超市举办了一次有奖购物促销活动.期间准备了一些有机会中奖的号码(分段为001~999),在公证部门的监督下按照随机抽样方法进行抽取,确定后两位为88的号码为本次的中奖号码.则这些中奖号码为:______________.解析:根据该问题提供的数据信息,可以发现本次活动的中奖号码是每隔一定的距离出现的,根据系统抽样的有关概念,可知该问题中是运用系统抽样法确定中奖号码的,其间隔数为100.所以,中奖号码依次为088,188,288,388,488,588,688,788,888,988.答案:088,188,288,388,488,588,688,788,888,988 [刷好题]1.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A . 11B .12C .13D .14解析:选B 由系统抽样定义可知,所分组距为84042=20,每组抽取一个,因为包含整数个组,所以抽取个体在区间[481,720]的数目为(720-480)÷20=12.2.将参加夏令营的600名学生按001,002,…,600进行编号.采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分别住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( )A .26,16,8B .25,17,8C .25,16,9D .24,17,9解析:选B 由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是3+12(k -1).令3+12(k -1)≤300,得k ≤1034,因此第Ⅰ营区被抽中的人数是25;令300<3+12(k -1)≤495,得1034<k ≤42,因此第Ⅱ营区被抽中的人数是42-25=17;第Ⅲ营区被抽中的人数为50-25-17=8.分层抽样 [刷好题]分层抽样是历年高考的重要考点之一,高考中常把分层抽样、频率分布、概率综合起来进行考查,反映了当前高考的命题方向.这类试题难度不大,但考查的知识面较为宽广,在解题中要注意准确使用所学知识,不然在一个点上的错误就会导致整体失误.[提能力]命题点1:与频率分布相结合问题【典例1】 某校从参加高三模拟考试的学生中随机抽取60名学生,将其数学成绩(均为整数)分成六组[90,100),[100,110),…,[140,150]后得到如图所示的部分频率分布直方图.观察图中的信息,回答下列问题.(1)求分数在[120,130)内的频率;(2)若在同一组数据中,将该组区间的中点值作为这组数据的平均分,据此估计本次考试的平均分;(3)用分层抽样的方法在分数段为[110,130)的学生中抽取一个容量为6的样本,将该样本看成一个总体,从中任取2人,求至多有1人在分数段[120,130)内的概率.解:(1)分数在[120,130)内的频率为1-(0.1+0.15+0.15+0.25+0.05)=1-0.7=0.3. (2)估计平均分为x -=95×0.1+105×0.15+115×0.15+125×0.3+135×0.25+145×0.05=121.(3)由题意,得[110,120)分数段的人数为60×0.15=9(人),,[120,130)分数段的人数为60×0.3=18(人).,∵用分层抽样的方法在分数段为[110,130)的学生中抽取一个容量为6的样本,∴需在[110,120)分数段内抽取2人,分别记为m ,n ;,在[120,130)分数段内抽取4人,分别记为a ,b ,c ,d .,设“从样本中任取2人,至多有1人在分数段[120,130)内”为事件A ,所有基本事件有(m ,n ),(m ,a ),(m ,b ),(m ,c ),(m ,d ),(n ,a ),(n ,b ),(n ,c ),(n ,d ),(a ,b ),(a ,c ),(a ,d ),(b ,c ),(b ,d ),(c ,d ),共15个,其中事件A 包含9个.∴P (A )=915=35.命题点2:与概率相结合问题【典例2】 某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:,文艺节目 新闻节目 总计 20至40岁 40 18 58 大于40岁 15 27 42 总计5545100(1)由表中数据直观分析,收看新闻节目的观众是否与年龄有关?(2)用分层抽样方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20至40岁的概率. 解:(1)因为在20至40岁的58名观众中有18名观众收看新闻节目,在大于40岁的42名观众中有27名观众收看新闻节目.所以,经直观分析,收看新闻节目的观众与年龄是有关的.(2)应抽取大于40岁的观众人数为,2745×5=35×5=3(名).(3)用分层抽样方法抽取的5名观众中,20至40岁的有2名(记为Y 1,Y 2),大于40岁的有3名(记为A 1,A 2,A 3).5名观众中任取2名,共有10种不同取法:,Y 1Y 2,Y 1A 1,Y 1A 2,Y 1A 3,Y 2A 1,Y 2A 2,Y 2A 3,A 1A 2,A 1A 3,A 2A 3.,设A 表示随机事件“5名观众中任取2名,恰有1名观众年龄为20至40岁”,则A 中的基本事件有6种:,Y 1A 1,Y 1A 2,Y 1A 3,Y 2A 1,Y 2A 2,Y 2A 3,,故所求概率为P (A )=610=35. [悟技法]进行分层抽样的相关计算时,常用到的2个关系 (1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比.[刷好题]某市化工厂三个车间共有工人1 000名,各车间男、女工人数如下表:,,.(1)求x的值;(2)现用分层抽样的方法在全厂抽取50名工人,问应在第三车间抽取多少名?解:(1)由x1 000=0.15,得x=150.(2)∵第一车间的工人数是173+177=350,,第二车间的工人数是100+150=250.∴第三车间的工人数是1 000-350-250=400.,设应从第三车间抽取m名工人,,则由m 400=501 000,得m=20.∴应在第三车间抽取20名工人.。
高考资源网版权所有,侵权必究!第四节 变量间的相关关系与统计案例,考点 高考试题考查内容核心素养 线性回归分析2017·全国卷Ⅰ·T19·12分相关系数、均值、标准差 数据分析独立性检验2017·全国卷Ⅱ·T18·12分 独立性检验、相互独立事件的概率、直方图 数据分析线性回归方程2016·全国卷Ⅲ·T18·12分 利用线性回归方程解决实际问题数据分析2015·全国卷Ⅰ·T19·12分 回归直线方程的求法和应用数据分析命题分析本节是高考考查的热点,主要考查回归分析,回归直线方程的求法及应用,独立性检验.多以解答题形式出现.1.相关性(1)散点图:在考虑两个量的关系时,为了对__变量__之间的关系有一个大致的了解,人们通常将__变量所对应__的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)曲线拟合:从散点图上可以看出,如果变量之间__存在着某种关系__,这些点会有一个__集中__的大致趋势,这种趋势通常可以用一条__光滑的曲线__来近似,这种近似的过程称为曲线拟合.(3)线性相关:若两个变量x 和y 的散点图中,所有点看上去都在__一条直线__附近波动,则称变量间是线性相关的.此时,我们可以用__一条直线__来近似.(4)非线性相关:若散点图上所有点看上去都在__某条曲线(不是一条直线)__附近波动,则称此相关为非线性相关的.此时,可以用__一条曲线__来拟合.(5)不相关:如果所有的点在散点图中__没有显示任何关系__,则称变量间是不相关的. 2.线性回归方程(1)最小二乘法:求回归直线使得样本数据中的点到它的__距离的平方和__最小,即求Q = i =1n(y i -(a +bx i ))2的最小值,而得到回归直线方程的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n).其回归方程为y =a +bx ,则⎩⎪⎨⎪⎧b =∑i =1n (x i -x -)(y i -y -)∑i =1n (x i-x -)2=∑i =1nx i y i -n x - y -∑i =1nx 2i -n x-2a =y --b x-其中,a 、b 是线性回归方程的__系数__. 3.相关系数r(1)r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n (y i -y -)2=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2∑i =1ny 2i -n y-2.(2)当r >0时,称两个变量__正相关__; 当r <0时,称两个变量__负相关__; 当r =0时,称两个变量__不相关__.r 的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r 的绝对值越接近于0时,表明两个变量之间的线性相关程度越低.4.独立性检验 (1)2×2列联表设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2=A 1;变量B :B 1,B 2=B 1,通过观察得到下表所示的数据:(2)选取统计量!!! χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )###,用它的大小来检验变量之间是否独立.①当χ2__≤2.706__时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的;②当χ2__>2.706__时,有90%的把握判定变量A ,B 有关联; ③当χ2__>3.841__时,有95%的把握判定变量A ,B 有关联; ④当χ2__>6.635__时,有99%的把握判定变量A ,B 有关联. 提醒:1.辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x -,y -)点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值). (3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数a ,b ,因求解b 的公式计算量太大,一般题目中给出相关的量,如x -,y -,∑i =1n x 2i ,∑i =1nx i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x -,y -),即有y -=b x -+a ,可确定a .1.判断下列结论的正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( )(3)通过回归方程y =bx +a 可以估计和观测变量的取值和变化趋势.( ) (4)任何一组数据都对应着一个回归直线方程.( )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案:(1)× (2)√ (3)√ (4)× (5)√2.(2015·湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 负相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 正相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关解析:选A 由回归直线方程定义知,x 与y 负相关.由y 与z 正相关,可设其回归直线为y =kz +b ,且k >0,所以x =-10kz -10b +10,则x 与z 负相关.3.(教材习题改编)已知x ,y 的取值如下表,从散点图可以看出y 与x 之间有线性相关关系,且回归方程为y =0.95x +a ,则a =( )A .3.25 C .2.2D .0解析:选B 由已知得x -=2,y -=4.5,因为回归方程经过点(x -,y -),所以a =4.5-0.95×2=2.6.4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确解析:选C 根据独立性检验的思想知C 项正确.相关关系的判断 [明技法]判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b >0时,正相关;b <0时,负相关. [提能力]【典例】 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y与x负相关且y=2.347x-6.423;②y与x负相关且y=-3.476x+5.648;③y与x正相关且y=5.437x+8.493;④y与x正相关且y=-4.326x-4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关系数的平方为r21,用y=bx+a拟合时的相关系数的平方为r22,则r21>r22;③x、y之间不能建立线性回归方程.解析:(1)b>0,正相关;b<0,负相关.(2)由相关关系定义知①②正确.答案:(1)D(2)①②[刷好题]1.(2018·资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是()A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析:选B 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B .2.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 变量Y 随X 的增大而增大,故Y 与X 正相关,所以r 1>0;变量V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以r 2<0<r 1.线性回归分析 [析考情]回归方程的求解与运用计算量大,主要是通过最小二乘法求解回归直线方程,并进行相应的估计预测,题型既有小题也有解答题,难度不大,另外非线性回归分析问题也应引起足够重视.[提能力]【典例】 (1)(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y =bx +a .已知∑i =110x i =225,∑i =110y i =1 600,b =4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170解析:选C ∵∑i =110x i =225,∴x -=110∑i =110x i =22.5.∵∑i =110y i =1 600,∴y -=110∑i =110y i =160.又b =4,∴a =y --b x -=160-4×22.5=70. ∴回归直线方程为y =4x +70.将x =24代入上式得y =4×24+70=166.故选C .(2)(2015·重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:①求y 关于t 的回归方程y =bt +a ;②用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 解:①列表计算如下:这里n =5,t -=1n ∑i =1n t i =155=3,y -=1n ∑i =1ny i =365=7.2.又l tt =∑i =1n t 2i -n t -2=55-5×32=10,l ty =∑i =1n t i y i -n t -y -=120-5×3×7.2=12,从而b =l ty l tt =1210=1.2,a =y --b t -=7.2-1.2×3=3.6,故所求回归方程为y =1.2t +3.6.②将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y =1.2×6+3.6=10.8(千亿元).[悟技法]1.回归直线方程中系数的2种求法 (1)利用公式,求出回归系数b ,a .(2)待定系数法:利用回归直线过样本点中心求系数.2.回归分析的2种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值. (2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数r . [刷好题](2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: (ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α=v -βu -.解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d =∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w , 因此y 关于x 的回归方程为y =100.6+68x . (3)(ⅰ)由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6, 年利润z 的预报值z =576.6×0.2-49=66.32. (ⅱ)根据(2)的结果知,年利润z 的预报值 z =0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.独立性检验 [析考情]近几年高考中对独立性检验的考查频率明显下降,题目多以解答题的形式出现,一般为容易题,多与概率、统计等内容综合考查.[提能力]【典例】 (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:,χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)记B表示事件“旧养殖法的箱产量低于50 kg”,C表示事件“新养殖法的箱产量不低于50 kg”.由题意知P(A)=P(BC)=P(B)P(C).旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,故P(B)的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表χ2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).[悟技法]1.比较几个分类变量有关联的可能性大小的方法(1)通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. 2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算χ2的观测值k .(3)比较k 与临界值的大小关系,作统计推断. [刷好题]1.(2018·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名.(1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系?(2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)由题意可得2×2列联表如下:根据2×2列联表中数据,得χ2的观测值为k =800×(60×500-100×140)2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.2.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得χ2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.。
第四节 变量间的相关关系与统计案例,考点 高考试题考查内容核心素养 线性回归分析2017·全国卷Ⅰ·T19·12分相关系数、均值、标准差 数据分析独立性检验2017·全国卷Ⅱ·T18·12分 独立性检验、相互独立事件的概率、直方图 数据分析线性回归方程2016·全国卷Ⅲ·T18·12分 利用线性回归方程解决实际问题数据分析2015·全国卷Ⅰ·T19·12分 回归直线方程的求法和应用数据分析命题分析本节是高考考查的热点,主要考查回归分析,回归直线方程的求法及应用,独立性检验.多以解答题形式出现.1.相关性(1)散点图:在考虑两个量的关系时,为了对__变量__之间的关系有一个大致的了解,人们通常将__变量所对应__的点描出来,这些点就组成了变量之间的一个图,通常称这种图为变量之间的散点图.(2)曲线拟合:从散点图上可以看出,如果变量之间__存在着某种关系__,这些点会有一个__集中__的大致趋势,这种趋势通常可以用一条__光滑的曲线__来近似,这种近似的过程称为曲线拟合.(3)线性相关:若两个变量x 和y 的散点图中,所有点看上去都在__一条直线__附近波动,则称变量间是线性相关的.此时,我们可以用__一条直线__来近似.(4)非线性相关:若散点图上所有点看上去都在__某条曲线(不是一条直线)__附近波动,则称此相关为非线性相关的.此时,可以用__一条曲线__来拟合.(5)不相关:如果所有的点在散点图中__没有显示任何关系__,则称变量间是不相关的. 2.线性回归方程(1)最小二乘法:求回归直线使得样本数据中的点到它的__距离的平方和__最小,即求Q = i =1n(y i -(a +bx i ))2的最小值,而得到回归直线方程的方法叫最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n).其回归方程为y =a +bx ,则⎩⎪⎨⎪⎧b =∑i =1n (x i -x -)(y i -y -)∑i =1n (x i-x -)2=∑i =1nx i y i -n x - y -∑i =1nx 2i -n x-2a =y --b x-其中,a 、b 是线性回归方程的__系数__. 3.相关系数r(1)r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n (y i -y -)2=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2∑i =1ny 2i -n y-2.(2)当r >0时,称两个变量__正相关__; 当r <0时,称两个变量__负相关__; 当r =0时,称两个变量__不相关__.r 的绝对值越接近于1,表明两个变量之间的线性相关程度越高;r 的绝对值越接近于0时,表明两个变量之间的线性相关程度越低.4.独立性检验 (1)2×2列联表设A ,B 为两个变量,每一个变量都可以取两个值,变量A :A 1,A 2=A 1;变量B :B 1,B 2=B 1,通过观察得到下表所示的数据:(2)选取统计量!!! χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )###,用它的大小来检验变量之间是否独立.①当χ2__≤2.706__时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的;②当χ2__>2.706__时,有90%的把握判定变量A ,B 有关联; ③当χ2__>3.841__时,有95%的把握判定变量A ,B 有关联; ④当χ2__>6.635__时,有99%的把握判定变量A ,B 有关联. 提醒:1.辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x -,y -)点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值). (3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数a ,b ,因求解b 的公式计算量太大,一般题目中给出相关的量,如x -,y -,∑i =1n x 2i ,∑i =1nx i y i 等,便可直接代入求解.充分利用回归直线过样本中心点(x -,y -),即有y -=b x -+a ,可确定a .1.判断下列结论的正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系去表示.( )(3)通过回归方程y =bx +a 可以估计和观测变量的取值和变化趋势.( ) (4)任何一组数据都对应着一个回归直线方程.( )(5)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案:(1)× (2)√ (3)√ (4)× (5)√2.(2015·湖北卷)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 负相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 正相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关解析:选A 由回归直线方程定义知,x 与y 负相关.由y 与z 正相关,可设其回归直线为y =kz +b ,且k >0,所以x =-10kz -10b +10,则x 与z 负相关.3.(教材习题改编)已知x ,y 的取值如下表,从散点图可以看出y 与x 之间有线性相关关系,且回归方程为y =0.95x +a ,则a =( )A .3.25 C .2.2D .0解析:选B 由已知得x -=2,y -=4.5,因为回归方程经过点(x -,y -),所以a =4.5-0.95×2=2.6.4.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A .若χ2>6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D .以上三种说法都不正确解析:选C 根据独立性检验的思想知C 项正确.相关关系的判断 [明技法]判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b >0时,正相关;b <0时,负相关. [提能力]【典例】 (1)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得线性回归方程,分别得到以下四个结论:①y 与x 负相关且y =2.347x -6.423; ②y 与x 负相关且y =-3.476x +5.648; ③y 与x 正相关且y =5.437x +8.493; ④y 与x 正相关且y =-4.326x -4.578.其中一定不正确的结论的序号是()A.①②B.②③C.③④D.①④(2)x和y的散点图如图所示,则下列说法中所有正确命题的序号为________.①x,y是负相关关系;②在该相关关系中,若用y=c1e c2x拟合时的相关系数的平方为r21,用y=bx+a拟合时的相关系数的平方为r22,则r21>r22;③x、y之间不能建立线性回归方程.解析:(1)b>0,正相关;b<0,负相关.(2)由相关关系定义知①②正确.答案:(1)D(2)①②[刷好题]1.(2018·资阳模拟)在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是()A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析:选B观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.2.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0B.0<r2<r1C .r 2<0<r 1D .r 2=r 1解析:选C 变量Y 随X 的增大而增大,故Y 与X 正相关,所以r 1>0;变量V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以r 2<0<r 1.线性回归分析 [析考情]回归方程的求解与运用计算量大,主要是通过最小二乘法求解回归直线方程,并进行相应的估计预测,题型既有小题也有解答题,难度不大,另外非线性回归分析问题也应引起足够重视.[提能力]【典例】 (1)(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y =bx +a .已知∑i =110x i =225,∑i =110y i =1 600,b =4.该班某学生的脚长为24,据此估计其身高为( )A .160B .163C .166D .170解析:选C ∵∑i =110x i =225,∴x -=110∑i =110x i =22.5.∵∑i =110y i =1 600,∴y -=110∑i =110y i =160.又b =4,∴a =y --b x -=160-4×22.5=70. ∴回归直线方程为y =4x +70.将x =24代入上式得y =4×24+70=166.故选C .(2)(2015·重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:①求y 关于t 的回归方程y =bt +a ;②用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 解:①列表计算如下:这里n =5,t -=1n ∑i =1n t i =155=3,y -=1n ∑i =1ny i =365=7.2.又l tt =∑i =1nt 2i -n t -2=55-5×32=10,l ty =∑i =1nt i y i -n t -y -=120-5×3×7.2=12,从而b =l ty l tt =1210=1.2,a =y --b t -=7.2-1.2×3=3.6,故所求回归方程为y =1.2t +3.6.②将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y =1.2×6+3.6=10.8(千亿元).[悟技法]1.回归直线方程中系数的2种求法 (1)利用公式,求出回归系数b ,a .(2)待定系数法:利用回归直线过样本点中心求系数. 2.回归分析的2种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值. (2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数r . [刷好题](2015·全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =18w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: (ⅰ)年宣传费x =49时,年销售量及年利润的预报值是多少? (ⅱ)年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β=∑i =1n(u i -u )(v i -v )∑i =1n(u i -u )2,α=v -βu -.解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d =∑i =18(w i -w )(y i -y )∑i =18(w i -w )2=108.81.6=68, c =y -d w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y =100.6+68w ,因此y 关于x 的回归方程为y =100.6+68x . (3)(ⅰ)由(2)知,当x =49时,年销售量y 的预报值y =100.6+6849=576.6, 年利润z 的预报值z =576.6×0.2-49=66.32. (ⅱ)根据(2)的结果知,年利润z 的预报值 z =0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z 取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.独立性检验 [析考情]近几年高考中对独立性检验的考查频率明显下降,题目多以解答题的形式出现,一般为容易题,多与概率、统计等内容综合考查.[提能力]【典例】 (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01). 附:,χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解:(1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表χ2=200×(62×66-34×38)2100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为 (0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).[悟技法]1.比较几个分类变量有关联的可能性大小的方法(1)通过计算χ2的大小判断:χ2越大,两变量有关联的可能性越大.(2)通过计算|ad -bc |的大小判断:|ad -bc |越大,两变量有关联的可能性越大. 2.独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )计算χ2的观测值k .(3)比较k 与临界值的大小关系,作统计推断. [刷好题]1.(2018·衡阳联考)2016年9月20日是第28个全国爱牙日,为了迎接此节日,某地区卫生部门成立了调查小组,调查“常吃零食与患龋齿的关系”,对该地区小学六年级800名学生进行检查,按患龋齿和不患龋齿分类,并汇总数据:不常吃零食且不患龋齿的学生有60名,常吃零食但不患龋齿的学生有100名,不常吃零食但患龋齿的学生有140名.(1)能否在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系?(2)4名卫生部门的工作人员随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率.附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)根据2×2列联表中数据,得χ2的观测值为k =800×(60×500-100×140)2160×640×200×600≈16.667>10.828.∴能在犯错误的概率不超过0.001的前提下,认为该地区学生常吃零食与患龋齿有关系. (2)设其他工作人员为丙和丁,4人分组的所有情况如下表.的有2种,故工作人员甲分到收集数据组,工作人员乙分到处理数据组的概率为P =26=13.2.某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生成绩分为6组,得到如下所示频数分布表.数学成绩与性别是否有关;(2)规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.附表及公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解:(1)x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5, x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5, 从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.(2)由频数分布表可知:在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:可得χ2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”.。