2015届高考数学二轮专题训练:专题七 第3讲 统计与统计案例
- 格式:doc
- 大小:544.42 KB
- 文档页数:16
第3讲 统计与统计案例考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题.1.随机抽样(1)简单随机抽样特点是从总体中逐个抽取.适用X 围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用X 围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取.适用X 围:总体由差异明显的几部分组成.2.常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距×频率组距=频率; ②各小长方形的面积之和等于1;③小长方形的高=频率组距,所有小长方形的高的和为1组距.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数数字特征 样本数据 频率分布直方图众数出现次数最多的数据取最高的小长方形底边中点的横坐标 中位数将数据按大小依次排列,处在最中间位置的一个数据(或最中间两个数据的平均数)把频率分布直方图划分左右两个面积相等的分界线与x 轴交点的横坐标 平均数样本数据的算术平均数每个小矩形的面积乘以小矩形底边中点的横坐标之和(2)方差:s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2].标准差:s =1n[x 1-x2+x 2-x2+…+x n -x2].4.变量的相关性与最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q = i =1n(y i -a -bx i )2最小时,得到线性回归方程y ^=b ^x +a ^的方法叫做最小二乘法. 5.独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +dn则K 2(χ2)=n ad -bc 2a +bc +d a +cb +d(其中n =a +b +c +d 为样本容量).热点一 抽样方法例1 (1)(2013·某某)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14(2)(2014·某某高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________.思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取的间隔相同;(2)分层抽样最重要的是各层的比例. 答案 (1)B (2)200 解析 (1)由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12. (2)本题属于分层抽样,设该学校的教师人数为x ,所以1603 200=160-150x ,所以x =200.思维升华 (1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个间隔相同;分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.(1)某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组有简单随机抽样方法抽取的为23,则高二应抽取的学生人数为( ) A .15 B .16 C .17 D .18(2)(2014·某某)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )A .200,20B .100,20C .200,10D .100,10 答案 (1)C (2)A解析 (1)由系统抽样方法,知按编号依次每30个编号作为一组,共分49组,高二学生的编号为496到988,在第17组到第33组内,第17组抽取的编号为16×30+23=503,为高二学生,第33组抽取的编号为32×30+23=983,为高二学生,故共抽取高二学生人数为33-16=17,故选C.(2)该地区中、小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A.热点二 用样本估计总体例2 (1)(2014·某某)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒X 压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )A.6 B.8 C.12 D.18(2)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是( )A.甲 B.乙C.甲乙相等 D.无法确定甲乙20.04123 6930.0596210.06293310.079640.08770.09246思维启迪(1)根据第一组与第二组的人数和对应频率估计样本总数,然后利用第三组的频率和无疗效人数计算;(2)直接根据公式计算方差.答案(1)C (2)A解析(1)志愿者的总人数为200.16+0.24×1=50,所以第三组人数为50×0.36=18,有疗效的人数为18-6=12.(2)x甲=(0.042+0.053+0.059+0.061+0.062+0.066+0.071+0.073+0.073+0.084+0.086+0.097)÷12≈0.068 9,x乙=(0.041+0.042+0.043+0.046+0.059+0.062+0.069+0.079+0.087+0.092+0.094+0.096)÷12≈0.067 5,s2=112[(0.042-0.068 9)2+(0.053-0.068 9)2+…+(0.097-0.068 9)2]≈0.000 212.s2=112[(0.041-0.067 5)2+(0.042-0.067 5)2+…+(0.096-0.067 5)2]≈0.000 429.所以甲、乙两地浓度的方差较小的是甲地.思维升华(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等. (2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.(1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.(2)(2014·某某)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( ) A .1+a,4 B .1+a,4+a C .1,4 D .1,4+a 答案 (1)10 (2)A解析 (1)由频率分布直方图可知: 0.100.40=2.5x ,所以x =10. (2)x 1+x 2+…+x 1010=1,y i =x i +a ,所以y 1,y 2,…,y 10的均值为1+a ,方差不变仍为4. 故选A.热点三 统计案例例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y 和房屋的面积x 的数据.房屋面积x /m 2115 110 80 135 105 销售价格y /万元24.821.618.429.222根据上表可得线性回归方程y ^=b ^x +a ^中的b ^=0.196 2,则面积为150 m 2的房屋的销售价格约为________万元.(2)(2014·某某)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表4A.成绩 B .视力 C 思维启迪 (1)回归直线过样本点中心(x ,y ); (2)根据列联表,计算K 2的值 答案 (1)31.244 2 (2)D解析 (1)由表格可知x =15(115+110+80+135+105)=109,y =15(24.8+21.6+18.4+29.2+22)=23.2.所以a ^=y -b ^x =23.2-0.196 2×109=1.814 2.所以所求线性回归方程为y ^=0.196 2x +1.814 2.故当x =150时,销售价格的估计值为y ^=0.196 2×150+1.814 2=31.244 2(万元). (2)A 中,a =6,b =14,c =10,d =22,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×6×22-14×10220×32×16×36=131 440. B 中,a =4,b =16,c =12,d =20,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×4×20-16×12220×32×16×36=637360. C 中,a =8,b =12,c =8,d =24,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×8×24-12×8220×32×16×36=1310. D 中,a =14,b =6,c =2,d =30,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×14×30-6×2220×32×16×36=3 757160. ∵131 440<1310<637360<3 757160, ∴与性别有关联的可能性最大的变量是阅读量.思维升华 (1)线性回归方程求解的关键在于准确求出样本点中心.回归系数的求解可直接把相应数据代入公式中求解,回归常数的确定则需要利用中心点在回归直线上建立方程求解;(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入K 2(χ2)计算公式求其值,根据K 2(χ2)取值X 围求解即可.(1)已知x 、y 取值如下表:x 0 1 4 5 6 8 y1.31.85.66.17.49.3从所得的散点图分析可知:y 与x 线性相关,且y ^=0.95x +a ^,则a ^等于( ) A .1.30 B .1.45 C .1.65 D .1.80(2)某研究机构为了研究人的脚的大小与身高之间的关系,随机抽测了20人,若“身高大于175厘米”的为“高个”,“身高小于等于175厘米”的为“非高个”,“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为“非大脚”.得以下2×2列联表:高个 非高个 总计 大脚 5 2 7 非大脚 1 12 13 总计61420(附:P (K 2>k ) 0.05 0.01 0.001k3.841 6.635 10.828)答案 (1)B (2)0.01解析 (1)依题意得,x =16×(0+1+4+5+6+8)=4,y =16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a ^必过样本点中心(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ^,由此解得a ^=1.45. (2)由题意得K 2=20×5×12-1×226×14×7×13≈8.802>6.635.而K 2>6.635的概率约为0.01,所以在犯错误的概率不超过0.01的前提下认为人的脚的大小与身高之间有关系.1.随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样.系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例”. 2.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1. (2)众数、中位数及平均数的异同:众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布. ①总体期望的估计,计算样本平均值x =1n ∑n i =1x i .②总体方差(标准差)的估计:方差=1n∑n i =1(x i-x )2,标准差=方差,方差(标准差)较小者较稳定.3.线性回归方程y ^=b ^x +a ^过样本点中心(x ,y ),这为求线性回归方程带来很多方便. 4.独立性检验(1)作出2×2列联表.(2)计算随机变量K 2(χ2)的值.(3)查临界值,检验作答.真题感悟1.(2014·某某)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.答案 24解析 底部周长在[80,90)的频率为0.015×10=0.15, 底部周长在[90,100)的频率为0.025×10=0.25,样本容量为60,所以树木的底部周长小于100 cm 的株数为(0.15+0.25)×60=24. 2.(2014·某某)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4 答案 A解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的线性回归方程进行检验,可以排除B ,故选A. 押题精练1.某地区对某路段公路上行驶的汽车速度实施监控,从中抽取50辆汽车进行测速分析,得到如图所示的时速的频率分布直方图,根据该图,时速在70 km/h 以下的汽车有________辆.答案 20解析 时速在70 km/h 以下的汽车所占的频率为0.01×10+0.03×10=0.4,共有0.4×50=20(辆).2.某教育在高三期末考试结束后,从某市参与考试的考生中选取600名学生对在此期间购买教辅资料的情况进行调研,得到如下数据:购买图书情况只买试题类只买讲解类试题类和讲解类都买人数240200160若该教育计划用分层抽样的方法从这600人中随机抽取60人进行座谈,则只买试题类的学生应抽取的人数为________. 答案 24解析 只买试题类的学生应抽取的人数为60×240600=24.3.下表提供了某厂节能减排技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:x 3 4 5 6 y2.5t44.5根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的值为________. 答案 3解析 ∵样本点中心为⎝⎛⎭⎪⎫4.5,11+t 4,∴11+t 4=0.7×4.5+0.35,解得t =3. 4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男 45 10 女3015附:P (K 2≥k 0)0.10 0.05 0.025 k 02.7063.8415.024K 2=n ad -bc 2a +bc +d a +cb +d参照附表,得到的正确结论是( )A .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 答案 C解析由公式可计算K2的观测值k=n ad-bc2a+b c+d a+c b+d=100×45×15-30×10255×45×75×25≈3.03>2.706,所以有90%以上的把握认为“该市民能否做到‘光盘’与性别有关”,故选C.(推荐时间:40分钟)一、选择题1.(2014·某某)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则( )A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3答案 D解析由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p1=p2=p3.2.某中学高中一年级有400人,高中二年级有320人,高中三年级有280人,现从中抽取一个容量为200人的样本,则高中二年级被抽取的人数为( )A.28 B.32C.40 D.64答案 D解析由已知,得样本容量为400+320+280=1 000,所以,高中二年级被抽取的人数为2001 000×320=64,选D.3.(2013·某某)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481A.08 BC.02 D.01答案 D解析 从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.4.为了了解某城市今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为120,则抽取的学生人数是( )A .240B .280C .320D .480 答案 D解析 由频率分布直方图知:学生的体重在65~75 kg 的频率为(0.012 5+0.037 5)×5=0.25,则学生的体重在50~65 kg 的频率为1-0.25=0.75. 从左到右第2个小组的频率为0.75×26=0.25.所以抽取的学生人数是120÷0.25=480.5.某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:x 16 17 18 19 y50344131由上表可得线性回归方程y ^=b x +a ^中的b ^=-4,据此模型预计零售价定为15元时,每天的销售量为( ) A .48个 B .49个 C .50个 D .51个 答案 B解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选B. 6.某校为了研究学生的性别和对待某一活动的态度(支持和不支持的两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系.”( ) 附:P(K2≥k0)0.1000.0500.0250.0100.001k0 2.706 3.841 5.024 6.63510.828% B.1%C.99% D.99.9%答案 C解析因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”,选C.7.某苗圃基地为了解基地内甲、乙两块地种植的同一种树苗的长势情况,从两块地各随机抽取了10株树苗,用茎叶图表示上述两组数据,对两块地抽取树苗的高度的平均数x甲,x乙和中位数y甲,y乙进行比较,下面结论正确的是( )A.x甲>x乙,y甲>y乙B.x甲<x乙,y甲<y乙C.x甲<x乙,y甲>y乙D.x甲>x乙,y甲<y乙答案 B二、填空题8.从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图).则这100名学生成绩的平均数、中位数分别为________.答案125,124解析由图可知(a+a-0.005)×10=1-(0.010+0.015+0.030)×10,解得a=0.025,则x =105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x,则0.01×10+0.03×10+0.025×(x-120)=0.5,解得x=124.9.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若记分员计算无误,则数字x应该是__________.答案 1解析 当x ≥4时,89+89+92+93+92+91+947=6407≠91,∴x <4,∴89+89+92+93+92+91+x +907=91,∴x =1.10.某小学对学生的身高进行抽样调查,如图,是将他们的身高(单位:厘米)数据绘制的频率分布直方图.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人,则从身高在[140,150]内的学生中选取的人数应为________.答案 3解析 由图可知,身高在[100,110),[110,120),[120,130),[130,140),[140,150]这五组的频率分别是0.05、0.35、10α、0.2、0.1,因为五组频率之和应为1,所以10α=0.3.根据分层抽样的知识,在[120,130),[130,140),[140,150]三组内的学生中取18人,则从身高在[140,150]内的学生中选取的人数应为18×0.10.3+0.2+0.1=3.三、解答题11.(2014·课标全国Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17=(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的线性回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12.某城市随机抽取一年(365天)内100天的空气质量指数API 的监测数据,结果统计如下: API [0,50] (50,100] (100,150] (150,200] (200,250](250,300] >300空气质量 优 良 轻微污染 轻度污染 中度污染中重度污染 重度污染 天数413183091115系式为:S =⎩⎪⎨⎪⎧0, 0≤w ≤1004w -400,100<w ≤3002 000, w >300,试估计在本年度内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?非重度污染 重度污染 合计 供暖季 非供暖季 合计100附:P (K 2≥k 0)0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0 1.3232.0722.7063.8415.0246.6357.87910.828K 2=n ad -bc 2a +bc +d a +cb +d.解 (1)设“在本年内随机抽取一天,该天经济损失S 大于200元且不超过600元”为事件A , 由200<S≤600,得150<w ≤250,频数为39, 所以P (A )=39100.(2)根据以上数据得到如下列联表:非重度污染重度污染合计 供暖季 22 8 30 非供暖季 63 7 70 合计8515100K 2的观测值k =100×63×8-22×7285×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.。
2015年高三复习高中数学统计案例习题(有详细答案)一.选择题(共15小题)1.(2014•四川模拟)为了解某地区中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单的随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样2.(2014•湖北模拟)某社区现有480个住户,其中中等收入家庭200户、低收入家庭160户,其他为高收入家庭.在建设幸福广东的某次分层抽样调查中,高收入家庭被抽取了6户,则该社区本次被抽取的总户数为()A.20 B.24 C.30 D.363.(2014•湖南一模)从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A.5,10,15,20,25 B.3,13,23,33,43 C.1,2,3,4,5 D.2,4,8,16,324.(2014•锦州一模)为了研究一片大约一万株树木的生长情况,随机测量了其中100株树木的底部周长(单位:cm),根据所得数据画出的样本频率分布直方图如图,那么在这片树木中底部周长大于100cm的株树大约中()A.3000 B.6000 C.7000 D.80005.(2014•许昌二模)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a n}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为()A.100 B.120 C.150 D.2006.(2014•云南模拟)已知一组数据如图所示,则这组数据的中位数是()A.27.5 B.28.5 C.27 D.287.(2014•青浦区三模)已知图1、图2分别表示A、B两城市某月1日至6日当天最低气温的数据折线图(其中横轴n表示日期,纵轴x表示气温),记A、B两城市这6天的最低气温平均数分别为和,标准差分别为s A和s B,则它们的大小关系是()A.>,sA>s B B.>,sA<s BC.<,sA<s BD.<,sA>s B8.(2014•天门模拟)如图是根据变量x,y的观测数据(x i,y i)(i=1,2,…10)得到的散点图,由这些散点图可以判断变量x,y具有相关关系的图是()A.①②B.①④C.②③D.③④9.(2014•邯郸二模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程,利用下表中数据推断a的值为()零件数x(个)10 20 30 40 50加工时间y(min)62 a 75 81 89A.68.2 B.68 C.69 D.6710.(2013•福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A.588 B.480 C.450 D.12011.(2013•陕西)对一批产品的长度(单位:mm)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上的为一等品,在区间[15,20)和区间[25,30)上的为二等品,在区间[10,15)和[30,35)上的为三等品.用频率估计概率,现从该批产品中随机抽取一件,则其为二等品的概率为()A.0.09 B.0.20 C.0.25 D.0.4512.(2013•辽宁)某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为[20,40),[40,60),[60,80),[80,100).若低于60分的人数是15人,则该班的学生人数是()A.45 B.50 C.55 D.6013.(2012•成都一模)某小区有125户高收入家庭、280户中等收入家庭、95户低收人家庭.现采用分层抽样的方法从中抽取100户,对这些家庭社会购买力的某项指标进行调查,则中等收入家庭中应抽选出的户数为()A.70 户B.17 户C.56 户D.25 户14.(2012•泸州一模)某校高三680名学生(其中男生360名、女生320名)在学术报告厅听了应考心理讲座,为了解有关情况,学校用分层抽样的方法抽取了一个样本,已知该样本中的女生人数为16名,那么该样本中的男生人数为()A.15 B.16 C.17 D.1815.(2012•绵阳二模)要从60人中抽取6人进行身体健康检查,现釆用分层抽样方法进行抽取,若这60人中老年人和中年人分别是40人,20人,则老年人中被抽取到参加健康检查的人数是()A.2人B.3人C.4人D.5人二.解答题(共15小题)16.为了了解学生的身体发育情况,某校对年满16周岁的60名男生的身高进行测量,其结果如下:身高(m)1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.68人数 2 1 4 2 3 4 2 7 6身高(m)1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77人数8 7 4 3 2 1 2 1 1(1)根据上表,估计这所学校,年满16周岁的男生中,身高不低于1.65m且不高于1.71m的约占多少?不低于1.63m 的约占多少?(2)将测量数据分布6组,画出样本频率分布直方图;(3)根据图形说出该校年满16周岁的男生在哪一范围内的人数所占的比例最大?如果年满16周岁的男生有360人,那么在这个范围的人数估计约有多少人?17.改革开放以来,我国高等教育事业有了突飞猛进的发展,有人记录了某村2001到2005年五年间每年考入大学的人数,为了方便计算,2001年编号为1,2002年编号为2,…,2005年编号为5,数据如下:年份(x) 1 2 3 4 5人数(y) 3 5 8 11 13求y关于x的回归方程=x+所表示的直线必经的点.18.甲、乙两位同学参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取4次,绘制成茎叶图如图:甲乙9 7 78 1 2 8 535(Ⅰ)从甲、乙两人的成绩中各随机抽取一个,求甲的成绩比乙高的概率;(Ⅱ)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.19.下表是某单位在2013年1﹣5月份用水量(单位:百吨)的一组数据:月份x 1 2 3 4 5用水量y 4.5 4 3 2.5 1.8(Ⅰ)若由线性回归方程得到的预测数据与实际检验数据的误差不超过0.05,视为“预测可靠”,通过公式得,那么由该单位前4个月的数据中所得到的线性回归方程预测5月份的用水量是否可靠?说明理由;(Ⅱ)从这5个月中任取2个月的用水量,求所取2个月的用水量之和小于7(单位:百吨)的概率.参考公式:回归直线方程是:,.20.某校高三数学竞赛初赛考试后,对考生的成绩进行统计(考生成绩均不低于90分,满分为150分),将成绩按如下方式分成六组,第一组[90,100)、第二组[100,110)…,第六组[140,150],如图为其频率分布直方图的一部分,若第四、五、六组的人数依次成等差数列,且第六组有4人.(Ⅰ)求第四和第五组频率,并补全频率分布直方图;(Ⅱ)若不低于120分的同学进入决赛,不低于140分的同学为种子选手,完成下面2×2列联表(即填写空格处的数据),并判断是否有99%的把握认为“进入决赛的同学成为种子选手与专家培训有关”.[120,140)[140,150]合计参加培训8 8未参加培训合计 4附:K2=P(K2≥k0)0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001K0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.82821.为了了解某中学高二女生的身高情况,该校对高二女生的身高进行了一次随机抽样测量,所得数据整理后列出了频率分布表如下:(单位:cm)(1)表中m、n、M、N所表示的数分别是多少?(2)绘制频率分布直方图;(3)估计该校女生身高小于162.5cm的百分比.22.某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100].(1)求x值;(2)(理科)从成绩不低于80分的学生中随机的选取2人,该2人中成绩在90以上(含90分)的人数记为ξ,求ξ的概率分布列及数学期望Eξ.(文)从从成绩不低于80分的学生中随机的选取3人,该3人中至少有2人成绩在90以上(含90分)的概率.23.某网站针对2014年中国好声音歌手A,B,C三人进行网上投票,结果如下观众年龄支持A 支持B 支持C20岁以下200 400 80020岁以上(含20岁)100 100 400(1)在所有参与该活动的人中,用分层抽样的方法抽取n人,其中有6人支持A,求n的值.(2)在支持C的人中,用分层抽样的方法抽取6人作为一个总体,从这6人中任意选取2人,求恰有1人在20岁以下的概率.24.某校100名学生期中考试数学成绩的频率分布直方图如图,其中成绩分组区间如下:组号第一组第二组第三组第四组第五组分组[50,60)[60,70)[70,80)[80,90)[90,100](Ⅰ)求图中a的值;(Ⅱ)根据频率分布直方图,估计这100名学生期中考试数学成绩的平均分;(Ⅲ)现用分层抽样的方法从第3、4、5组中随机抽取6名学生,将该样本看成一个总体,从中随机抽取2名,求其中恰有1人的分数不低于90分的概率?25.从某实验中,得到一组样本容量为60的数据,分组情况如下:(Ⅰ)求出表中m,a的值;分组5~15 15~25 25~35 35~45频数 6 2l m频率 a 0.05(Ⅱ)估计这组数据的平均数.26.某校高三文科分为四个班.高三数学调研测试后,随机地在各班抽取部分学生进行测试成绩统计,各班被抽取的学生人数恰好成等差数列,人数最少的班被抽取了22人.抽取出来的所有学生的测试成绩统计结果的频率分布条形图如图所示,其中120~130(包括120分但不包括130分)的频率为0.05,此分数段的人数为5人.(1)问各班被抽取的学生人数各为多少人?(2)求平均成绩;(3)在抽取的所有学生中,任取一名学生,求分数不小于90分的概率.27.在参加世界杯足球赛的32支球队中,随机抽取20名队员,调查其年龄为25,21,23,25,27,29,25,28,30,29,26,24,25,27,26,22,24,25,26,28.(1)填写下面的频率分布表(2)并画出频率分布直方图.(3)据此估计全体队员在哪个年龄段的人数最多?占总数的百分之几?分组频数频率20.5~22.522.5~24.524.5~26.526.5~28.528.5~30.5合计28.如图是调查某地某公司1000名员工的月收入后制作的直方图.(1)求该公司员工的月平均收入及员工月收入的中位数;(2)在收入为1000至1500元和收入为3500至4000元的员工中用分层抽样的方法抽取一个容量15的样本,员工甲、乙的月收入分别为1200元、3800元,求甲乙同时被抽到的概率.29.某市为了解全市居民日常用水量的分布情况,现采用抽样调查的方式,获得了n位居民某年的月均用水量(单位:t),样本统计结果如图表:(Ⅰ)分别求出x,n,y的值;(Ⅱ)若从样本中月均用水量在[5,6]内的5位居民a,b,c,d,e中任选2人作进一步的调查研究,求居民a被选中的概率.分组频数频率[0,1)25 y[1,2)0.19[2,3)50 x[3,4)0.23[4,5)0.18[5,6] 530.为了分析某次考试数学成绩情况,用简单随机抽样从某班中抽取25名学生的成绩(百分制)作为样本,得到频率分布表如下:分数[50,60)[60,70)[70,80)[80,90)[90,100]频数2 3 9 a 1频率0.08 0.12 0.36 b 0.04(Ⅰ)求样本频率分布表中a,b的值,并根据上述频率分布表,在下表中作出样本频率分布直方图;(Ⅱ)计算这25名学生的平均数及方差(同一组中的数据用该组区间的中点值作代表);(Ⅲ)从成绩在[50,70)的学生中任选2人,求至少有1人的成绩在[60,70)中的概率.参考答案与试题解析一.选择题(共15小题)1.(2014•四川模拟)为了解某地区中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是()A.简单的随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样考点:分层抽样方法.专题:阅读型.分析:若总体由差异明显的几部分组成时,经常采用分层抽样的方法进行抽样解答:解:我们常用的抽样方法有:简单随机抽样、分层抽样和系统抽样,而事先已经了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.了解某地区中小学生的视力情况,按学段分层抽样,这种方式具有代表性,比较合理.故选C.点评:本小题考查抽样方法,主要考查抽样方法,属基本题.2.(2014•湖北模拟)某社区现有480个住户,其中中等收入家庭200户、低收入家庭160户,其他为高收入家庭.在建设幸福广东的某次分层抽样调查中,高收入家庭被抽取了6户,则该社区本次被抽取的总户数为()A.20 B.24 C.30 D.36考点:分层抽样方法.专题:计算题.分析:根据社区里的高收入家庭户和高收入家庭户要抽取的户数,得到每个个体被抽到的概率,用求到的概率乘以低收入家庭户的户数,得到结果.解答:解:∵区现有480个住户,高收入家庭120户,抽取了6户∴每个个体被抽到的概率是∴该社区本次被抽取的总户数为=24,故选B.点评:本题考查分层抽样方法,这种题目类型是高考题目中一定会出现的题目,运算量不大,是一个必得分题目.3.(2014•湖南一模)从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()A.5,10,15,20,25 B.3,13,23,33,43 C.1,2,3,4,5 D.2,4,8,16,32考点:系统抽样方法.专题:计算题.分析:由系统抽样的特点知,将总体分成均衡的若干部分指的是将总体分段,分段的间隔要求相等,这时间隔一般为总体的个数除以样本容量.从所给的四个选项中可以看出间隔相等且组距为10的一组数据是由系统抽样得到的.解答:解:从50枚某型导弹中随机抽取5枚,采用系统抽样间隔应为=10,只有B答案中导弹的编号间隔为10,故选B.点评:一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本.4.(2014•锦州一模)为了研究一片大约一万株树木的生长情况,随机测量了其中100株树木的底部周长(单位:cm),根据所得数据画出的样本频率分布直方图如图,那么在这片树木中底部周长大于100cm的株树大约中()A.3000 B.6000 C.7000 D.8000考点:频率分布直方图.专题:概率与统计.分析:在频率分布表中,频数的和等于样本容量,频率的和等于1,每一小组的频率等于这一组的频数除以样本容量.频率分布直方图中,小矩形的面积等于这一组的频率.底部周长小于100cm的矩形的面积求和乘以样本容量即可.解答:解:由图可知:底部周长小于100cm段的频率为(0.01+0.02)×10=0.3,则底部周长大于100cm的段的频率为1﹣0.3=0.7那么在这片树木中底部周长大于100cm的株树大约10000×0.7=7000人.故选C.点评:本小题主要考查样本的频率分布直方图的知识和分析问题以及解决问题的能力.统计初步在近两年高考中每年都以小题的形式出现,基本上是低起点题.5.(2014•许昌二模)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a n}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为()A.100 B.120 C.150 D.200考点:频率分布直方图.专题:概率与统计.分析:根据直方图中的各个矩形的面积代表了频率,各个矩形面积之和为1,求出小长方形面积最大的一组的频率,再根据频数=频率×样本容量,求出频数即可.解答:解:∵直方图中的各个矩形的面积代表了频率,这5个小方形的面积由小到大构成等差数列{a n},a2=2a1,∴d=a1,a3=3a1,a4=4a1,a5=5a1根据各个矩形面积之和为1,则a1+a2+a3+a4+a5=15a1=1∴a1=,小长方形面积最大的一组的频率为a5=5×=根据频率=可求出频数=300×=100故选:A.点评:本题考查了频率、频数的应用问题,各小组频数之和等于样本容量,各小组频率之和等于1.6.(2014•云南模拟)已知一组数据如图所示,则这组数据的中位数是()A.27.5 B.28.5 C.27 D.28考点:众数、中位数、平均数.专题:概率与统计.分析:利用中位数的定义即可得出.解答:解:这组数据为16,17,19,22,25,27,28,30,30,32,36,40的中位数是=27.5.故选:A.点评:本题考查了中位数的定义及其计算方法,属于基础题.7.(2014•青浦区三模)已知图1、图2分别表示A、B两城市某月1日至6日当天最低气温的数据折线图(其中横轴n表示日期,纵轴x表示气温),记A、B两城市这6天的最低气温平均数分别为和,标准差分别为s A和s B,则它们的大小关系是()A.>,sA>s B B.>,sA<s BC.<,sA<s BD.<,sA>s B考点:众数、中位数、平均数.专题:概率与统计.分析:本题可以由折线图上的数据做出两个城市的平均气温和方差,也可以根据两个折线图的高低和变化的趋势即波动的大小,得到结果.解答:解:由折线图可知A市的平均气温是,B市的平均气温是=11.7,由折线图也可以看出B市的气温较高,可以看出B市的气温的变化不大,方差较小;故选D.点评:本题考查了折线图以及平均数和方差的求法;求两组数据的平均值和方差是研究数据常做的两件事,平均值反映数据的平均水平,而方差反映数据的波动大小,从两个方面可以准确的把握数据的情况.8.(2014•天门模拟)如图是根据变量x,y的观测数据(x i,y i)(i=1,2,…10)得到的散点图,由这些散点图可以判断变量x,y具有相关关系的图是()A.①②B.①④C.②③D.③④考点:散点图.专题:计算题.分析:通过观察散点图可以知道,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.解答:解:由题图③可知,y随x的增大而减小,各点整体呈下降趋势,x与y负相关,由题图④可知,u随v的增大而增大,各点整体呈上升趋势,u与v正相关.故选D.点评:本题考查散点图,是通过读图来解决问题,考查读图能力,粗略的反应两个变量之间的关系,是不是线性相关,是正相关还是负相关.9.(2014•邯郸二模)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,根据收集到的数据(如下表),由最小二乘法求得回归直线方程,利用下表中数据推断a的值为()零件数x(个)10 20 30 40 50加工时间y(min)62 a 75 81 89A.68.2 B.68 C.69 D.67考点:线性回归方程.专题:计算题;概率与统计.分析:由题意,将20代入可得68.2,故可能值为68.解答:解:由题意,y=0.68×20+54.6=68.2,又由表可知加工时间y(min)都是以整数记,故a可能为68,故选B.点评:本题考查了线性回归方程的应用及数学问题与实际问题的转化,属于基础题.10.(2013•福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为()A.588 B.480 C.450 D.120考点:频率分布直方图.专题:图表型.分析:根据频率分布直方图,成绩不低于60分的频率,然后根据频数=频率×总数可求出所求.解答:解:根据频率分布直方图,成绩不低于60(分)的频率为1﹣10×(0.005+0.015)=0.8.由于该校高一年级共有学生600人,利用样本估计总体的思想,可估计该校高一年级模块测试成绩不低于60(分)的人数为600×0.8=480人.故选B.点评:本小题主要考查频率、频数、统计和概率等知识,考查数形结合、化归与转化的数学思想方法,以及运算求解能力.11.(2013•陕西)对一批产品的长度(单位:mm)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上的为一等品,在区间[15,20)和区间[25,30)上的为二等品,在区间[10,15)和[30,35)上的为三等品.用频率估计概率,现从该批产品中随机抽取一件,则其为二等品的概率为()A.0.09 B.0.20 C.0.25 D.0.45考点:频率分布直方图.分析:在频率分布表中,频数的和等于样本容量,频率的和等于1,小矩形的面积等于这一组的频率,则所以面积和为1,建立等量关系即可求得长度在[25,30)内的频率即得.解答:解:设长度在[25,30)内的频率为a,根据频率分布直方图得:a+5×0.02+5×0.06+5×0.03=1⇒a=0.45.则根据频率分布直方图估计从该批产品中随机抽取一件,则其为二等品的概率为0.45.故选D.点评:本小题主要考查样本的频率分布直方图的知识和分析问题以及解决问题的能力.统计初步在近两年高考中每年都以小题的形式出现,基本上是低起点题.12.(2013•辽宁)某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为[20,40),[40,60),[60,80),[80,100).若低于60分的人数是15人,则该班的学生人数是()A.45 B.50 C.55 D.60考点:频率分布直方图.专题:概率与统计.分析:由已知中的频率分布直方图,我们可以求出成绩低于60分的频率,结合已知中的低于60分的人数是15人,结合频数=频率×总体容量,即可得到总体容量.解答:解:∵成绩低于60分有第一、二组数据,在频率分布直方图中,对应矩形的高分别为0.005,0.01,每组数据的组距为20则成绩低于60分的频率P=(0.005+0.010)×20=0.3,又∵低于60分的人数是15人,则该班的学生人数是=50.故选B.点评:本题考查的知识点是频率分布直方图,结合已知中的频率分布直方图,结合频率=矩形的高×组距,求出满足条件的事件发生的频率是解答本题的关键.13.(2012•成都一模)某小区有125户高收入家庭、280户中等收入家庭、95户低收人家庭.现采用分层抽样的方法从中抽取100户,对这些家庭社会购买力的某项指标进行调查,则中等收入家庭中应抽选出的户数为()A.70 户B.17 户C.56 户D.25 户考点:分层抽样方法.专题:概率与统计.分析:由分层抽样的计算方法:中等收入家庭的户数占总户数的比例再乘以要抽取的户数,即可得出答案.解答:解:由已知可得中等收入家庭中应抽选出的户数==56.故选C.点评:本题考查了分层抽样,掌握分层抽样的计算方法是解决问题的关键.14.(2012•泸州一模)某校高三680名学生(其中男生360名、女生320名)在学术报告厅听了应考心理讲座,为了解有关情况,学校用分层抽样的方法抽取了一个样本,已知该样本中的女生人数为16名,那么该样本中的男生人数为()A.15 B.16 C.17 D.18考点:分层抽样方法.专题:计算题.分析:设该样本中的男生人数为x,则由分层抽样的定义和方法可得=,由此解得x 的值.解答:解:设该样本中的男生人数为x,则由分层抽样的定义和方法可得=,解得x=18,故选D.点评:本题主要考查分层抽样的定义和方法,利用了总体中各层的个体数之比等于样本中对应各层的样本数之比,属于基础题.15.(2012•绵阳二模)要从60人中抽取6人进行身体健康检查,现釆用分层抽样方法进行抽取,若这60人中老年人和中年人分别是40人,20人,则老年人中被抽取到参加健康检查的人数是()A.2人B.3人C.4人D.5人考点:分层抽样方法.专题:计算题.分析:先求出每个个体被抽到的概率,用该层的个体数乘以每个个体被抽到的概率,就等于该层应抽取的个体数.解答:解:每个个体被抽到的概率等于=,老年人中被抽取到参加健康检查的人数是40×=4,故选C.点评:本题主要考查分层抽样的定义和方法,用每层的个体数乘以每个个体被抽到的概率等于该层应抽取的个体数,属于基础题.二.解答题(共15小题)16.为了了解学生的身体发育情况,某校对年满16周岁的60名男生的身高进行测量,其结果如下:身高(m)1.57 1.59 1.60 1.62 1.63 1.64 1.65 1.66 1.68人数 2 1 4 2 3 4 2 7 6身高(m)1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77人数8 7 4 3 2 1 2 1 1(1)根据上表,估计这所学校,年满16周岁的男生中,身高不低于1.65m且不高于1.71m的约占多少?不低于1.63m 的约占多少?(2)将测量数据分布6组,画出样本频率分布直方图;(3)根据图形说出该校年满16周岁的男生在哪一范围内的人数所占的比例最大?如果年满16周岁的男生有360人,那么在这个范围的人数估计约有多少人?考点:频率分布直方图;频率分布表.专题:概率与统计.分析:(1)根据上表求出身高不低于1.65m且不高于1.71m的频率与不低于1.63m的频率;(2)将测量数据分组,求频数与频率,列出频率分布表,画出频率分布直方图;(3)根据图形得出正确的结论以及估计结果.解答:解:(1)根据上表得,身高不低于1.65m且不高于1.71m的频率是=≈0.567,∴约占总体的56.7%;不低于1.63m的频率是1﹣=1﹣0.15=0.85,约占总体的85%;(2)将测量数据分布6组,∴=0.033,∴组距是0.04,计算频数与频率,列出频率分布表,如下;分组频数频率156.5﹣160.5 7 0.11160.5﹣164.5 9 0.15164.5﹣168.5 15 0.25168.5﹣172.5 22 0.37172.5﹣176.5 6 0.10176.5﹣180.5 1 0.02合计60 1.00画出样本频率分布直方图,如图所示;(3)根据图形知,该校年满16周岁的男生在168.5﹣172.5内的人数所占的比例最大,如果年满16周岁的男生有360人,那么在这个范围的人数估计约为360×0.37=133人.点评:本题考查了频率分布直方图的应用问题,也考查了列表和画图的能力,解题时应根据图中数据进行有关的计算,是基础题.17.改革开放以来,我国高等教育事业有了突飞猛进的发展,有人记录了某村2001到2005年五年间每年考入大学的人数,为了方便计算,2001年编号为1,2002年编号为2,…,2005年编号为5,数据如下:年份(x) 1 2 3 4 5人数(y) 3 5 8 11 13求y关于x的回归方程=x+所表示的直线必经的点.考点:回归分析的初步应用.专题:计算题;概率与统计.分析:求平均值,回归直线必过样本点的中心.解答:解:==3,==8,故回归方程=x+所表示的直线必经过点(3,8).点评:本题考查了回归分析,回归直线必过样本点的中心,同时考查了平均数的求法,属于基础题.18.甲、乙两位同学参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取4次,绘制成茎叶图如图:甲乙9 7 78 1 2 8 535(Ⅰ)从甲、乙两人的成绩中各随机抽取一个,求甲的成绩比乙高的概率;(Ⅱ)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由.考点:茎叶图;众数、中位数、平均数;极差、方差与标准差.专题:概率与统计.分析:(I)由茎叶图知甲乙两同学的成绩分别为:甲:82 81 79 88 乙:85 77 83 85.利用“列举法”及其古典概型的概率计算公式即可得出.(II)分别计算出甲乙的平均成绩及其方差即可得出.。
第 3 讲统计、统计事例自主学习导引真题感悟1.(2012·福建 )一支田径队有男女运动员98 人,此中男运动员有56 人,按男女比率用分层抽样的方法,从全体运动员中抽出一个容量为取的女运动员人数是 ________.28 的样本,那么应抽分析利用分层抽样的特色,按比率抽样去剖析.依题意,女运动员有98-56= 42(人 ).设应抽取女运动员x 人,依据分层抽样特x 28点,得42=98,解得 x=12.答案122.(2012·湖北 )容量为 20 的样本数据,分组后的频数以下表:分组[10,20)[20,30)[30,40)[40,50)[50,60)[60,70]频数234542则样本数据落在区间A. 0.35C. 0.55[10,40)的频次为B.0.45D.0.65分析依据频次的定义求解.由表知[10,40)的频数为2+3+4=9,9所以样本数据落在区间 [10.40)的频次为20= 0.45.答案B考题剖析统计与统计事例部分的高考试题难度一般不大,考察的内容多为抽样方法,用样本预计整体、线性回归剖析、独立性查验等,这种题目作为解答题出现时,常常与概率联合命题.网络建立高频考点打破考点一:抽样方法【例 1】(2012·中山模拟 )某校共有学生 2 000 名,各年级男、女学生人数如图表示,已知在全校学生中随机抽取 1 名,抽到高二级女生的概率是 0.19,现用分层抽样的方法 (按年级分层 )在全校学生中抽取 100 人,则应在高三级中抽取的学生人数为 ________.高一级高二级高三级女生385x y男生375360z[ 审题导引 ]据题意求出字母的值,依照分层抽样的规则计算.[规范解答 ]据题意得x=2 000×0.19=380,∴高三级的学生人数为 y+z= 2 000-385-375-380- 360=500,100∴在高三级中抽取的学生人数为500×2 000= 25.[答案]25【规律总结】抽样方法的选用注意分层抽样与系统抽样的计算方法,分层抽样是按比率抽样,比率的性质、方程的方法起主要作用;系统抽样第一是对整体分段的计算,注意分段时可能要排除一些个体,各段的间隔距离是同样的,但各段中抽取的个体便可有不一样的规则,要依据这些规则经过计算确定抽取的个体.【变式训练】1.某班级有 50 名学生,现要采纳系统抽样的方法在这 50 名学生中抽出 10 名学生,将这 50 名学生随机编号 1~50 号,并分组,第一组 1~ 5 号,第二组 6~10号,,第十组 46~50 号.若在第三组中抽得号码为 12 的学生,则在第八组中抽得号码为________的学生.分析因为组距为 5,所以所抽号码为 (8- 3)×5+12=37.答案37考点二:用样本预计整体【例 2】 (1)(2012·西城二模 )以下图是 1、2 两组各 7 名同学体重 (单位: kg)数据的茎叶图.设 1、2 两组数据的均匀数挨次为1和2,标准差挨次为 s1和 s2,那么(注:标准差= 1 1-2+ x2--2++ xn--2],s n[ x - x x x-, 2,, n 的均匀数此中 x 为 x1)x x----A. x1>x 2,s1>s2B. x1>x 2,s1<s2----C. x1<x 2,s1<s2D. x1<x 2,s1>s2(2)(2012·徐州模拟 )某年级 120 名学生在一次百米测试中,成绩所有介于 13 秒与18 秒之间.将测试结果分红 5 组: [13,14),[14,15), [15,16), [16,17), [17,18] ,获得以下图的频次散布直方图.假如从左到右的 5 个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩在 [16,18]的学生人数是 ________.[审题导引 ](1)依据茎叶图中的数据分别计算 - -22 ,而后比较大x1, x2,s,s1 2小;(2)依据直方图中各小矩形的面积和为1 计算出成绩在 [16,18]的频次,而后计算成绩在 [16,18]的学生人数.[规范解答 ] (1)由茎叶图知- 58+ 57+ 56+53+61+72+ 70 x 1= 7=61.21 2- 2 2 + - 2 -2 +-2 s 1=[(58 -61) +(5761)+ -61)61)+61)61)+7(56 (53(61(722299(70-61) ]= 7 ,-2 390 -- , s < s .122212(2)由频次散布直方图可知成绩在[16,18] 的学生的频次为6+ 3=1+3+7+6+3920,9所以成绩在 [16,18]的学生人数为 20× 120=54.[ 答案 ] (1)C (2)54 【规律总结】用样本预计整体时应注意的问题(1)理解在抽样拥有代表性的前提下,能够用样本的频次散布预计整体的频次分布,用样本的特色数预计整体的特色数,这是统计的基本思想;(2)反应样本数据散布的主要方式,一个是频次散布表,一个是频次散布直方图,要学会依据频次散布直方图预计整体的概率散布以及整体的特色数,特别是均值、众数和中位数;(3)要掌握好样本均值和方差的实质意义,并在详细的应用问题中会依据计算样本数据的均值和方差对实质问题做出解说;(4)茎叶图是表示样本数据散布的一种方法,其特色是保存了所有的原始数据,这是茎叶图的优势.【变式训练】2.(2012·义乌模拟 )在以下图的茎叶图中,乙组数据的中位数是________;若从甲、乙两组数据中分别去掉一个最大数和一个最小数后,两组数据的均匀数中较大的一组是 ________组.分析把乙组数据从小到大排,得 79,84,84,84,86,87,93,--故中位数是 84, x甲=84, x 乙=85,--∴x 乙> x 甲.答案 84乙3.(2012·杭州二模 )将容量为 n 的样本中的数据分红 6 组,若第一组至第六组数据的频次之比为 2∶3∶ 4∶ 6∶ 4∶ 1,且前三组数据的频数之和等于27,则 n 的值为A.70B.60C.50D.40分析据题意知2+3+4=27n,2+3+4+6+4+1∴n= 60.答案B考点三:线性回归剖析【例 3】某种设施的使用年限x 和维修花费 y( 万元 )有以下的统计数据, 如表所示x3 4 5 6y2.5344.5(1)画出上表数据的散点图;∧(2)请依据上表供给的数据,求出 y 对于 x 的线性回归方程 y = bx +a ; (3)预计使用年限为 10 年,维修花费是多少?[ 审题导引 ] (1)依据对应值构成点的坐标,画出各点即可;(2)直接套用求回归直线系数的公式,求出b ,a ;(3)依据求出的回归直线方程, 求当 x =10 时对应的 y 值,即便用年限为 10 年时,维修花费的预计值.[ 规范解答 ] (1)作出散点图以下图.442 2 22 2 =86,i =1 i ii = 1 i- - x = 4.5, y =3.5,66.5-4×4.5×3.5 66.5-63 b = 86-4× 4.52== 0.7,86-81-- = - × = ,a = y-b x3.5 0.74.5 0.35∧所以所求的回归方程为 y =0.7x + 0.35.∧(3)当 x =10 时, y =0.7×10+ 0.35=7.35,所以使用年限为 10 年,维修花费的预计值是7.35 万元.【规律总结】求线性回归剖析问题的方法(1)画出两个变量的散点图;(2)求回归直线方程;(3)用回归直线方程进行预告.此中求回归直线方程是重点.而求回归直线方程的最好方法是“ 最小二乘∧a 和b 的最法”,即对于线性回归模型 y=a+bx 来说,预计模型中的未知参数n--∑xi- x y i- yi =1好方法就是用最小二乘法,其计算公式为 b =n =- 2∑x i- xi =1n--∑ i i-n x y--i =1x yn, a= y -b x .∑2--2i=1x i n x[ 易错提示 ]固然由任何一组不完整同样的数据都能够求出回归直线方程,但只有拥有线性有关关系的一组数据才能获得存心义的回归直线方程,求出的方程才拥有实质价值.线性有关系数能够是正、负或零,线性有关系数为正时是正有关,为负时是负有关,反之也建立.【变式训练】4.(2012 ·深圳模拟 )某车间为了规定工时定额,需要确定加工部件所花销的时间,为此进行了 5 次试验.依据采集到的数据 (以下表 ),由最小二乘法求得回∧归方程 y=0.67x+54.9.现发现表中有一个数据模糊看不清,请你推测出该数据的值为________.-分析由表知 x =30,设模糊不清的数据为y,-1307+y则 y=5(62+ y+75+81+ 89)=5,--+54.9,∵y =0.67x307+ y即5=0.67×30+ 54.9,解得 y= 68.答案68考点四:独立性查验【例 4】有甲、乙两个班级进行数学考试,依照大于等于下为非优异统计成绩后,获得以以下联表.85 分为优异,85 分以优异非优异总计甲班乙班共计 1051030已知在所有105 人中随机抽取 1 人为优异的概率为2 7.(1)请达成上边的列联表.(2)依据列联表中的数据,若按95%的靠谱性要求,可否定为“成绩与班级有关系”?(3)若按下边的方法从甲班优异的学生中抽取一人:把甲班优异的10 名学生从 2 到 11 进行编号,先后两次投掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到 6 号或 10 号的概率.2[审题导引 ] 第 (1)问由题易知成绩优异的概率是7,则成绩优异的学生数是30,成绩非优异的学生数是 75,据此即能够达成列联表;第 (2)问依照独立性检验的原理进行判断;第 (3)问列举基本领件个数和随机事件含有的基本领件个数,依照古典概型的概率公式进行计算.[ 规范解答 ](1)列联表如表所示优异非优异总计甲班104555乙班203050共计3075105依据列联表中的数据,获得105× 10× 30-20×452k=≈6.109> 3.841,(2)55×50×30× 75所以有 95%的掌握以为“成绩与班级有关系”.(3)设 “抽到 6 号或 10 号”为事件 A ,先后两次投掷一枚均匀的骰子,出现的点数为 (x ,y).所有的基本领件有 (1,1),(1,2), (6,6),共 36 个.事件 A 包括的基本领件有 (1,5),(2,4),(3,3), (4,2),(5,1),(4,6),(5,5),(6,4),共 8 个,故8 2P(A)=36=9.【规律总结】独立性查验的一般步骤(1)依据样本数据列出 2×2 列联表,假定两个变量没关系;(2)依据公式 K 2=n ad -bc2计算 K 2的值;a +bc +d a +c b +d(3)比较 K 2 与临界值的大小关系作统计推测.【变式训练】5.(2012·南京模拟 )某研究小组为了研究中学生的身体发育状况,在某学校随机抽出 20 名 15 至 16 周岁的男生,将他们的身高和体重制成 2× 2 列联表,依据列 联表的数据,能够有 ________%的掌握以为该学校 15 至 16 周岁的男生的身高和 体重之间有关系 .超重不超重共计 偏高 4 1 5 不偏高 3 12 15 共计71320独立性查验临界值表:P(K 2≥k 0)0.025 0.010 0.005 0.001k 05.0246.6357.879 10.828独立性查验随机变量 K 2 值的计算公式:2K 2=n ad -bc.a +bc +d a +c b +d20 4×12-3×1 2分析 k =5× 15×7×13=5.934,依据临界值表可知有97.5%的掌握以为该学校 15 至 16 周岁的男生的身高和体重之间有关系.答案97.5名师押题高考【押题 1】依据下边频次散布直方图 (以下图 )预计样本数据的中位数、众数分别为A. 12.5,12.5B. 13,12.5C. 12.5,13D.14,12.5分析中位数是位于中间的数,故中位数是13,众数是12.5,中位数把图形的面积一分为二.答案B[ 押题依照 ]高考要求考生能经过样本的散布预计整体的散布;依据样本的特色数预计整体的特色数,考察考生的读图能力、归纳能力,故押本题.【押题 2】某高校从参加今年自主招生考试的学生中随机抽取50 名学生的成绩作为样本,得频次散布表以下:组号分组频数频次第一组[230,235)0.16第二组[235,240)①0.24第三组[240,245)15②第四组[245,250)100.20第五组[250,255]50.10共计50 1.00(1)写出表中地点①②处的数据;(2)为了选拔更优异的学生,高校决定在第三、四、五组顶用分层抽样法抽取6名学生进行第二轮查核,分别求出第三、四、五组参加查核的人数;(3)在(2)的前提下,高校决定在这 6 名学生中录取 2 名学生,求 2 人中起码有1人在第四组中的概率.分析(1)由题知地点①的数据是50×0.24=12,15地点②的数据是50= 0.30.15(2)第三组参加查核的人数为30×6=3;10第四组参加查核的人数为30×6=2;5第五组参加查核的人数为30×6=1.(3)设第三组的 3 名学生为 A、B、C,第四组的 2 名学生为 D、E,第五组的 1 名学生为 F,则从这 6 名学生中录取 2 名学生的方法有 AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共 15 种,而起码有 1 人是第四组的有 AD,AE,BD,BE,CD,CE,DE,DF ,EF,共 9 种.故所求的概9 3率 P=15=5.[ 押题依照 ]概率与统计相联合的解答题是高考的一个热门题型.本题考察了频率散布表、抽样方法、古典概型,突出了知识和能力的考察,故押本题.。
第三讲统计与统计案例[考情分析]统计部分在选择、填空题中的命题热点有随机抽样、用样本估计总体以及变量的相关性,难度较低.回归分析常在解答题中考查1.(2016·高考全国卷Ⅲ)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析:由图形可得各月的平均最低气温都在0℃以上,A正确;七月的平均温差约为10℃,而一月的平均温差约为5℃,故B正确;三月和十一月的平均最高气温都在10℃左右,基本相同,C正确,故D错误.答案:D2.(2015.高考全国Ⅰ卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2, (8)数据作了初步处理,得到下面的散点图及一些统计量的值.表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . 解析:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型. (2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑8i =1(w i -w )(y i -y )∑8i =1(w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6,年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.抽样方法[方法结论]三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n ,总体的个体数为N ,则用这三种方法抽样时,每个个体被抽到的概率都是nN.[题组突破]1.(2017·荆门调研)将参加数学竞赛决赛的500名学生编号为001,002,…,500,采用系统抽样的方法抽取一个容量为50的样本,且随机抽得的号码为003,这500名学生分别在三个考点考试,从001到200在第一考点,从201到355在第二考点,从356到500在第三考点,则第三考点被抽中的人数为( ) A .14 B .15 C .16D .21解析:系统抽样的样本间隔为50050=10,第一个号码为003,按照系统抽样的规则,抽到的号码依次为003,013,023,033,043,053,…,493,第三考点抽到的第一个号码为363,最后一个号码为493,由等差数列的通项公式得493=363+(n -1)×10,解得n =14,故选A. 答案:A2.工厂生产的A 、B 、C 三种不同型号的产品数量之比依次为2∶3∶5,为研究这三种产品的质量,现用分层抽样的方法从该工厂生产的A 、B 、C 三种产品中抽出样本容量为n 的样本,若样本中A 型产品有16件,则n 的值为________. 解析:由已知得n ×22+3+5=16,解得n =80.答案:80 [误区警示]利用系统抽样分段时,若分段间隔不为整数,应先随机剔除部分元素,再分组,但每个个体被抽到的概率仍为样本容量总体个数.此问题易忽视.用样本估计总体[方法结论]1.在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小矩形的面积表示,各小矩形的面积总和为1,因为在频率分布直方图中组距是一个固定值,所以各小矩形高的比也就是频率比. 2.当样本数据较少时,用茎叶图表示数据效果较好,要分清何为茎,何为叶,并明确其特征数字的含义. 3.特征数字(1)众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.在频率分布直方图中,众数的估计值是最高的矩形的中点的横坐标.(2)中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.在频率分布直方图中,把使左边和右边的直方图的面积相等的直线所对应的横坐标的估计值作为中位数的值.(3)平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ).在频率分布直方图中,平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(4)方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中s 为标准差.方差与标准差都反映了样本数据的稳定与波动、集中与离散的程度.s 2越小,样本数据的稳定性越高,波动越小.[典例] (1)如图所示,茎叶图记录了甲、乙两组各4名学生完成某道数学题的得分情况,该题满分为12分.已知甲、乙两组学生的平均成绩相同,乙组某个数据的个位数字模糊,记为x .则下列命题正确的是( )A .甲组学生的成绩比乙组稳定B .乙组学生的成绩比甲组稳定C .两组学生的成绩有相同的稳定性D .无法判断甲、乙两组学生的成绩的稳定性解析:x 甲=14×(9+9+11+11)=10,x 乙=14×(8+9+10+x +12)=10,解得x =1.又s 2甲=14×[(9-10)2+(9-10)2+(11-10)2+(11-10)2]=1,s 2乙=14×[(8-10)2+(9-10)2+(11-10)2+(12-10)2]=52,∴s 2甲<s 2乙,∴甲组学生的成绩比乙组稳定.选A. 答案:A(2)海尔公司的n 名员工参加“我是销售家”活动,他们的年龄在25岁至50岁之间.按年龄分组:第1组[25,30),第2组[30,35),第3组[35,40),第4组[40,45),第5组[45,50],由统计的数据得到的频率分布直方图如图所示.下表是年龄的频数分布表:②现要从年龄较小的第1,2,3组中用分层抽样的方法抽取6人,则年龄在第1,2,3组中抽取的人数分别是多少?③在②的条件下,从这6人中随机抽取2人参加“我是销售家”的彩排活动,求恰有1人的年龄在第3组的概率.解析:①由频率分布直方图可知年龄在[35,40)的频率为0.08×5=0.4,又其人数为100,所以100n =0.4,解得n =250.所以x =0.02×5×250=25.②因为第1,2,3组共有25+25+100=150(人),利用分层抽样在150人中抽取6人,则第1组抽取的人数为6×25150=1,第2组抽取的人数为6×25150=1,第3组抽取的人数为6×100150=4,所以年龄在第1,2,3组中分别抽取的人数为1,1,4.③由②可设第1组的1人为A ,第2组的1人为B ,第3组的4人分别为C 1,C 2,C 3,C 4,则从这6人中抽取2人的所有情况为{A ,B },{A ,C 1},{A ,C 2},{A ,C 3},{A ,C 4},{B ,C 1},{B ,C 2},{B ,C 3},{B ,C 4},{C 1,C 2},{C 1,C 3},{C 1,C 4},{C 2,C 3},{C 2,C 4},{C 3,C 4},共有15种情况. 其中恰有1人的年龄在第3组的所有情况为{A ,C 1},{A ,C 2},{A ,C 3},{A ,C 4},{B ,C 1},{B ,C 2},{B ,C 3},{B ,C 4},共有8种情况. 所以恰有1人的年龄在第3组的概率为815.[类题通法]1.用样本估计总体充分体现了数形结合思想的运用,主要考查利用茎叶图或频率分布直方图来估计总体. 2.利用频率分布直方图求众数、中位数与平均数利用频率分布直方图求众数、中位数和平均数时,易出错,应注意区分这三者,在频率分布直方图中:(1)最高的小长方形底边中点的横坐标即是众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.[演练冲关]空气质量指数(Air Quality Index ,简称AQI)是定量描述空气质量状况的无量纲指数.空气质量按照AQI 大小分为六级:0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.一环保人士记录去年某地某月10天的AQI 的茎叶图如图.利用该样本估计该地本月空气质量优良(AQI ≤100)的天数(按这个月总共30天计算)为( ) A .15 B .18 C .20D .24解析:从茎叶图中可以发现该样本中空气质量优的天数为2,空气质量良的天数为4,故该样本中空气质量优良的频率为610=35,估计该地本月空气质量优良的频率为35,从而估计该地本月空气质量优良的天数为30×35=18.选B.答案:B回归分析[方法结论]1.方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数,回归方程的截距和斜率分别为b ^=∑ni =1x i y i -nx - y-∑n i =1x 2i -n x 2,a ^=y -b ^x ,(x ,y )是样本中心点,回归直线过样本中心点.2.(1)正相关与负相关就看回归直线的斜率,斜率为正则为正相关,斜率为负则为负相关.(2)样本相关系数r 具有以下性质:r >0表示两个变量正相关,r <0表示两个变量负相关;|r |≤1,且|r |越接近于1,线性相关程度越强,|r |越接近于0,线性相关程度越弱.[典例]某家具厂对每日的原材料费支出与销售额之间的关系进行分析研究,12月1日~5日的原材料费支出x (单位:万元)与销售额y (单位:万元)之间有如下数据:选取的2组数据进行检验,(1)求选取的2组数据恰好是不相邻2天的数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^,并判断该线性回归方程是否可靠(若由线性回归方程得到的估计数据与所选取的检验数据的误差不超过2万元,则认为得到的线性回归方程是可靠的).解析:(1)设选取的2组数据恰好是不相邻2天的数据为事件A,5组数据分别记为a ,b ,c ,d ,e ,从5组数据中任选2组,总的基本事件有ab ,ac ,ad ,ae ,bc ,bd ,be ,cd ,ce ,de ,共10种, 事件A 包含的基本事件有ac ,ad ,ae ,bd ,be ,ce ,共6种, 所以P (A )=610=35.(2)x =11+13+123=12,y =25+30+263=27, ∑3i =1x i y i =11×25+13×30+12×26=977,∑3i =1x 2i =112+132+122=434, b ^=977-3×12×27434-3×122=52,a ^=y --b ^x =27-52×12=27-30=-3, 所以y 关于x 的线性回归方程为y ^=2.5x -3, 当x =10时,y ^=52×10-3=25-3=22;当x =8时,y ^=52×8-3=20-3=17;|23-22|=1<2,|17-16|=1<2,经检验估计数据与所选取的检验数据的误差均不超过2万元,所以该线性回归方程可靠. [类题通法]化归思想在回归分析的应用体现在以下两个方面(1)如果两个变量呈非线性相关关系,则可通过恰当的变换,将其转化成线性关系,再求线性回归方程.(2)利用回归直线方程可以进行预测与估计,但要注意回归直线方程表明的是两组数据之间的相关关系,而不是函数关系,所以利用该方程求出的数值都是估计值,而不是一个确定的数值.[演练冲关]某火锅店为了了解气温对营业额的影响,随机记录了该店1月份其中5天的日营业额y (单位:万元)与该地当日最低气温x (单位:℃)的数据,如下表:(1)求y 关于x 的回归方程y ^=b ^x +a ;(2)判断y 与x 之间是正相关还是负相关,若该地1月份某天的最低气温为6℃,用所求回归方程预测该店当日的营业额.解析:(1)x =15×(2+5+8+9+11)=7,y =15×(1.2+1+0.8+0.8+0.7)=0.9.∑5i =1x 2i =4+25+64+81+121=295,∑5i =1x i y i =2.4+5+6.4+7.2+7.7=28.7,∴b ^=∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2=28.7-5×7×0.9295-5×72=-2.850=-0.056,a ^=y -b ^x =0.9-(-0.056)×7=1.292. ∴回归方程为y ^=-0.056x +1.292.(2)∵b ^=-0.056<0,∴y 与x 之间是负相关. 当x =6时,y ^=-0.056×6+1.292=0.956. ∴该店当日的营业额约为9 560元.独立性检验与概率、统计的交汇考查[典例] (2017·贵阳模拟)2016年3月31日贵州省第十二届人民代表大会常务委员会第二十一次会议通过的《贵州省人口与计划生育条例修正案》全面开放二孩政策.为了解人们对于贵州省新颁布的“生育二孩放开”政策的热度,现在某市进行调查,对[5,65]岁的人群随机抽取了n 人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(1)求n ,p 的值;(2)根据以上统计数据填下面2×2列联表,并根据列联表的独立性检验,判断能否有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系?参考数据:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解析:(1)从[5,15)岁这一年龄段中抽取的人数为40.8=5,频率为0.010×10=0.1,∴n =50.1=50.由题可知,第二组的频率为0.2,∴第二组的人数为50×0.2=10,则p =510=0.5.(2)2×2列联表如下:K 2=50×(3×11-7×29)(3+7)(29+11)(3+29)(7+11)≈6.27<6.635,∴没有99%的把握认为以45岁为分界点的不同人群对“生育二孩放开”政策的支持度有关系. [类题通法]求解独立性检验应用交汇问题的模型(1)读懂列联表:明确列联表中的数据. (2)计算K 2:根据提供的公式计算K 2值.(3)作出判断:依据临界值与犯错误的概率得出结论.(4)计算随机变量的分布列、期望:利用给定数据分析变量取值,计算概率,得分布列后求期望.[演练冲关]1.(2017·石家庄模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.解析:由K 2=4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.答案:5%2.(2017·高考全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg ,新养殖法的箱产量不低于50 kg ”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)0.01). 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解析:(1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”. 由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66,故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2.(2)根据箱产量的频率分布直方图得列联表K 2=200×(62×66-34×38)100×100×96×104≈15.705. 由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5,箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5,故新养殖法箱产量的中位数的估计值为50+0.5-0.340.068≈52.35(kg).。
统计与统计案例2讲第年份A.12卷别考查内容及考题位置命题分析抽样方法(基础型)]系统抽样N总体容量为N,样本容量为n,则要将总体均分成n组,每组个(有零头时要先去掉).nN 若第一组抽到编号为k的个体,则以后各组中抽取的个体编号依次为k+,…,k+(n nN-1).n分层抽样按比例抽样,计算的主要依据是:各层抽取的数量之比=总体中各层的数量之比.[考法全练]1.福利彩票“双色球”中红色球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球号码为()81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 8506 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49D.C.0616解析:选C.被选中的红色球号码依次为17,12,33,06,32,22.所以第四个被选中的红色球号码为06,故选C.2.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为()A.73 B.78D.77.76C80解析:选B.样本的分段间隔为=5,所以13号在第三组,则最大的编号为13+(16-163)×5=78.故选B.3.某电视台在因特网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:最喜爱喜爱一般不喜欢1 6004 8007 2006 400电视台为了了解观众的具体想法和意见,打算从中抽选出100人进行更为详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽选出的人数分别为()A.25,25,25,25 B.48,72,64,16D.30,1024,36,32,820C.,40,1100,解析:选D.法一:因为抽样比为=20020 000所以每类人中应抽选出的人数分别为11118.×=故选D.,×7 200=36,6 400×=321 600=4 800×24,200200200200∶82,∶∶7 200一般、法二:最喜爱、喜爱、不喜欢的比例为4 800∶∶6 4001 600=69∶96,所以每类人中应抽选出的人数分别为,×100=24×10036=29+8++28+69++682×100=32,×100=8,故选D.6+9+8+26+9+8+2“双图”“五数”估计总体(基础型)统计中的5个数据特征众数:在样本数据中,出现次数最多的那个数据.(1).中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为(2) 偶数,就取中间两个数据的平均数作为中位数.1-).+x+…+x(3)平均数:样本数据的算术平均数,即x=(x n12n (4)方差与标准差:1---2222;x)]+…+(x-sx=[(x-x)(+x-x)n21n1---222]. )x--x)x-[(xx)+…+(+(sx=n12n 从频率分布直方图中得出有关数据的技巧频率频率,频率=组距×频率:频率分布直方图中横轴表示组数,纵轴表示. (1)组距组距(2)频率比:频率分布直方图中各小长方形的面积之和为1,因为在频率分布直方图中组距是一个固定值,所以各小长方形高的比也就是频率比,从而根据已知的几组数据个数比求有关值.(3)众数:最高小长方形底边中点的横坐标.(4)中位数:平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标.(5)平均数:频率分布直方图中每个小长方形的面积乘小长方形底边中点的横坐标之和.(6)性质应用:若纵轴上存在参数值,则根据所有小长方形的高之和×组距=1,列方程即可求得参数值.[考法全练]1.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量,如下表所示:用电量/度120 140 160 180 200户数25823则这20户家庭该月用电量的众数和中位数分别是()A.180,170B.160,180D.180,C.160170,160解析:选A.用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B,C;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A.2.(2018·贵阳模拟)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、) (分的学生人数是100~80,则成绩在40第四、第五小组,已知第二小组的频数是A.15 B.18D.20.25C解析:选A.根据频率分布直方图,得第二小组的频率是0.04×10=0.4,因为频数是40,40所以样本容量是100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,所以成0.4绩在80~100分的学生人数是100×0.15=15.故选A.3.(2018·武汉调研)某选手的7个得分去掉1个最高分,去掉1个最低分,剩余5个得分的平均数为91,如图,该选手的7个得分的茎叶图有一个数据模糊,无法辨认,在图中用x表示,则剩余5个得分的方差为()36116B. A.79D6.30C.1解析:选C.由茎叶图知,最低分为87分,最高分为99分.依题意得,×(87+93+9051222+(9091)+(93=×[(87-91)-=x×10++91)=91,解得x4.则剩余5个得分的方差s9+51222]=×(16+4+1+91)(91+-91)9)=6.故选C.91)--+(9454.“中国人均读书4.3本(包括网络文学和教科书),比韩国的11本、法国的20本、日本的40本、犹太人的64本少得多,是世界上人均读书最少的国家.”这个论断被各种媒体反复引用.出现这样的统计结果无疑是令人尴尬的.某小区为了提高小区内人员的读书兴趣,准备举办读书活动,并进一定量的书籍丰富小区图书站.由于不同年龄段的人看不同类型的书籍,为了合理配备资源,现对小区内看书人员进行年龄调查,随机抽取了40名读书者进行调查,将他们的年龄(单位:岁)分成6段:[20,30),[30,40),[40,50),[50,60),[60,后得到如图所示的频率分布直方图.80],[70,70).(1)求在这40名读书者中年龄分布在[40,70)的人数;(2)求这40名读书者的年龄的平均数和中位数.解:(1)由频率分布直方图知年龄在[40,70)的频率为(0.020+0.030+0.025)×10=0.75,故这40名读书者中年龄分布在[40,70)的人数为40×0.75=30.(2)这40名读书者年龄的平均数为25×0.05+35×0.10+45×0.20+55×0.30+65×0.25+75×0.10=54.设中位数为x,则0.005×10+0.010×10+0.020×10+0.030×(x-50)=0.5,解得x=55,故这40名读书者年龄的中位数为55.回归分析(综合型)[典型例题]命题角度一线性回归分析(2018·广州模拟)某地1~10岁男童年龄x(单位:岁)与身高的中位数y(单位:cm)(i ii=1,2,…,10)如下表:对上表的数据作初步处理,得到下面的散点图及一些统计量的值.(1)求y关于x的线性回归方程(线性回归方程系数精确到0.01);2的回归方程类型,他求得的回归方程x关于y更适宜作为r+qx+px=y某同学认为(2).^2+10.17x+68.07.经调查,该地11岁男童身高的中位数为y=-0.30x145.3 cm.与(1)中的线是性回归方程比较,哪个回归方程的拟合效果更好?^^^^附:回归方程y=a+bx中的斜率和截距的最小二乘估计公式分别为:b=n--)-y-x)(y ∑(x ii^-^-1i=,a=y-bx.n-2)∑-x (x i1i=10--∑(x-x)(y-y)566.85ii^i1=【解】(1)b==≈6.871≈6.87,1082.50-2)xx-(∑ii1=^-^-a=y-bx=112.45-6.871×5.5≈74.66,^所以y关于x的线性回归方程为y=6.87x+74.66.^^(2)若回归方程为y=6.87x+74.66,当x=11时,y=150.23.^2+10.17x+68.07,当x=11时,yy若回归方程为=-0.30x=143.64.|143.64-145.3|=1.66<|150.23-145.3|=4.93,^2+10.17x+68.07对该地11y所以回归方程=-0.30x岁男童身高中位数的拟合效果更好.求回归直线方程的关键及实际应用^^(1)关键:正确理解计算b,a的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.命题角度二非线性回归分析(2018·潍坊模拟)某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.811-表中u=,u=∑u.ii8x1i=i d(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费xy(单位:元)与印刷数量x(单位:千册)的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(回归系数的结果精确到0.01);(3)若该图书每册的定价为10元,则至少应该印刷多少册才能使销售利润不低于78 840元?(假设能够全部售出.结果精确到1)^^^附:对于一组数据(w,v),(w,v),…,(w,v),其回归直线v=α+βw的斜率和n2121nn--∑)-vw)(v (w-ii^^-^1i=,α==v-βw.截距的最小二乘估计分别为βn-2∑)w-w(i1i=d【解】(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷x数量x(单位:千册)的回归方程.1(2)令u=,先建立y关于u的线性回归方程,x8--)-y-u)(y∑(u7.049ii^1i=8.96,≈8.957≈由于d==80.787-2)u(u-∑i1i=^-^-所以c =y-d·u=3.63-8.957×0.269≈1.22,^所以y关于u的线性回归方程为y=1.22+8.96u,8.96^所以y关于x的回归方程为y=1.22+.x8.96??+1.22x≥78.840,10(3)假设印刷x 千册,依题意得x-??x所以x≥10,所以至少印刷10 000册才能使销售利润不低于78 840元.求非线性回归方程的步骤确定变量,作出散点图.(1) (2)根据散点图,选择恰当的拟合函数.变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归(3)方程.分析拟合效果:通过计算相关指数或画残差图来判断拟合效果.(4) 根据相应的变换,写出非线性回归方程.(5)命题角度三回归分析与正态分布的综合问题单位:天当中某商品的销售量y(兰州模拟)某地一商场记录了12月份某5 (2018·单位:℃)的相关数据,如下表:kg)与该地当日最高气温x(2 9 8 5 x 11128710y 8^^^ +a;的回归方程y=bx(1)试求y与x试用所6 ℃,x之间是正相关还是负相关;若该地12月某日的最高气温是y(2)判断与求回归方程预测这天该商品的销售量;-22近σ,其中μ近似取样本平均数xX~N(μ,σ,)12(3)假定该地月份的日最高气温2 <13.4).,试求P(3.8<似取样本方差sX 附:参考公式和有关数据nn----?∑∑)yx)(ynxy-(x-xy-iiii?^1ii1===b=?222∑∑)-x (x-nxx ,ii11ii==??-^^nn---x=yb-a2),则P(μ-σ<X<μ+σ)=0.682 7,且P((3.210≈3.2,≈1.8,若X~Nμ,σμ-2σ<X<μ+2σ)=0.954 5.n----【解】(1)由题意,x=7,y=9,∑xy-nxy=287-5×7×9=-28,iii1=n28-^^^--222=12.92.0.56)×7-y-bx=9(-a=-=-n∑x-x=2955×750,b=-0.56,=i501i=^ 12.92.x+y所以所求回归直线方程为=-0.56^代入回归方程可得,x=6x0.56<0(2)由b=-知,y与负相关.将^9.56=,12.9260.56y=-×+.kg9.56 即可预测当日该商品的销售量为1-2σ≈3.2,所以P(3.8<X<13.4)=P(μ-σ<7,X≈s<μ+2σ)=P(μ-知(3)由(1)μ≈x=21σ<X<μ+σ)+P(μ-2σ<X<μ+2σ)=0.818 6.22σ的意义情况下,记清正态分布的密度曲线,解决与正态分布有关的问题,在理解μ是一条关于μ对称的钟形曲线,很多问题都是利用图象的对称性解决的.[对点训练](2018·高考全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,…,17)建立模型①:^y=-30.4+13.5 t;根据2010年至2016年的数据(时间变量t的值依次为1,2,…,7)建立^模型②:y=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.^解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y=-30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为^y=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(以下2种理由,任选其一)(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资^额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y=99+17.5t得到的预②年以后的环境基础设施投资额的变化趋势,因此利用模型2010可以较好地描述.测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.统计案例(综合型)[典型例题](2018·福州模拟)某学校八年级共有学生400人,现对该校八年级学生随机抽取50名进行实践操作能力测试,实践操作能力测试结果分为四个等级水平,一、二等级水平的学生实践操作能力较弱,三、四等级水平的学生实践操作能力较强,测试结果统计如下表:等级水平一水平二水平三水平四/名男生6 8 4 12女生/名2864(1)根据表中统计的数据填写下面2×2列联表,并判断是否有95%的把握认为学生实践操作能力强弱与性别有关?实践操作能力较弱实践操作能力较强总计男生/名名女生/总计(2)现从测试结果为水平一的学生中随机抽取4名进行学习力测试,记抽到水平一的男生的人数为ξ,求ξ的分布列和数学期望.下面的临界值表供参考:2)bcad-n(2参考公式:K=,其中n=a+b+c+d.(a+b)(c+d)(a+c)(b+d)【解】(1)2×2列联表如下:实践操作能力较弱实践操作能力较强总计30 12 /男生名18/女生名20614 总计26 24 502)1814×(6×12-502252所以K==≈4.327>3.841.5230×20×26×24所以有95%的把握认为学生实践操作能力强弱与性别有关.(2)ξ的取值为0,1,2,3,4.32141234CC3CCC1C8C6664464P(ξ=0)==,P(ξ=1)==,P(ξ=2)==,P(ξ=3)==,P(ξ4444C14C21C7C351010101041C4=4)==.4C21010所以ξ的分布列为183418所以E(ξ)=0×+1×+2×+3×+4×==1.6.14217352105独立性检验的关键2,若2×2列联表没有列出来,要先列出此表.×2列联表准确计算K根据(1)22的观测值k越大,对应假设事件H成立的概率越小,H不成立的概率越大.(2)K 00[对点训练] (2018·高考全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式的把握认为两种生产方式的效率有差异?99%中的列联表,能否有(2)根据(3).2)-bcn(ad2=,附:K)b+dd)(a+c)(b(a+)(c+2≥kK) P(0.050 0.010 0.00110.8286.6353.841 k解:(1)第二种生产方式的效率更高.理由如下:(以下4种理由,任选其一)(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.79+81(2)由茎叶图知m==80.2列联表如下:超过m 不超过m第一种生产方式515第二种生产方式1552)5-5×1540×(×152(3)由于K==10>6.635,所以有99%的把握认为两种生产方20×20×20×20式的效率有差异.一、选择题1.某班对八校联考成绩进行分析,利用随机数法抽取样本时,先将60个同学按01,6列的数开始向右读,则选出的第5行第9进行编号,然后从随机数表第60,…,03,02.个个体是()(注:下表为随机数表的第8行和第9行)6301 6378 5916 9555 6719 9810 5071 7512 8673 5807 4439 5238 793321 1234 2978 6456 0782 5242 0744 3815 5100 1342 9966 0279 54A.07B.25D.52C.42解析:选D.依题意得,依次选出的个体分别是12,34,29,56,07,52,…因此选出的第6个个体是52.2.(2018·高考全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半解析:选A.法一:设建设前经济收入为a,则建设后经济收入为2a,则由饼图可得建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的.故选A.法二:因为0.6<0.37×2,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的.故选A.3.(2018·昆明模拟)AQI(Air Quality Index,空气质量指数)是报告每日空气质量的参数,描述了空气清洁或污染的程度.AQI共分六级,从一级优(0~50);二级良(51~100);三级轻度污染(101~150);四级中度污染(151~200);直至五级重度污染(201~300);六级严重污染(大于300).如图是昆明市2017年4月份随机抽取10天的AQI茎叶图,利用该样本估计)(月份空气质量优的天数为4年2018昆明市.A.3 B.4D.C.12214解析:选C.从茎叶图知10天中有4天空气质量为优,所以空气质量为优的频率为=1022,所以估计昆明市2018年4月份空气质量为优的天数为30×=12,故选C. 554.对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为()A.5 B.7D.50C.10解析:选D.根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50.5.(2018·桂林、白色、梧州、崇左、北海五市联考)如图是2017年第一季度五省GDP情况图,则下列陈述正确的是()①2017年第一季度GDP总量和增速均居同一位的省只有1个;②与去年同期相比,2017年第一季度五个省的GDP总量均实现了增长;③去年同期的GDP总量前三位是D省、B省、A省;④2016年同期A省的GDP总量也是第三位..②③④B .①②A.C.②④D.①③④解析:选B.①2017年第一季度GDP总量和增速均居同一位的省有2个,B省和C省的GDP总量和增速分别居第一位和第四位,故①错误;由图知②正确;由图计算2016年同期五省的GDP 总量,可知前三位为D省、B省、A省,故③正确;由③知2016年同期A省的GDP总量是第三位,故④正确.故选B.6.(一题多解)(2018·石家庄质量检测(二))某学校A、B两个班的数学兴趣小组在一次数学对抗赛中的成绩绘制茎叶图如下,通过茎叶图比较两个班数学兴趣小组成绩的平均值及标准差.①A班数学兴趣小组的平均成绩高于B班的平均成绩;②B班数学兴趣小组的平均成绩高于A班的平均成绩;③A班数学兴趣小组成绩的标准差大于B班成绩的标准差;④B班数学兴趣小组成绩的标准差大于A班成绩的标准差.其中正确结论的编号为()A.①③B.①④D.②④C.②③-:由于x=解析:选B.法一A11-=x92+82++95)=78,78+76+74++78+76+81+85+86+8862(53++64B1515--所66,所以x>x,++73+7374+70+83+82+91)=++(45+4851+53+56+6264+65BA以①正确.12222222278)++(74-78)(78+(78-s78)=-[(5378)-+(62-78)+(64-78)78)+(76-A152222222+(95-+(92-(88-78)+(82-+(76-78)78)+(81-78)+(85-78)(86+-78)78)+2]=121.678),12222222266)-++(62-66)-66)+(53-66)-+(5666)(64s=-[(4566)(48+-66)+(51B152222222+(9166)66)-+(82-66)+(73-66)+(74--+(7066)(83+-66)(73-+(6566)+-2]=175.2.66)22故s>s,B班的方差大,则B班的标准差也大,④正确,故选B.AB班的数学成绩较A班;B 班数学兴趣小组的平均成绩明显高于A由茎叶图可知,法二:B.班的方差、标准差较大,故选B班的数学成绩较分散,显然B稳定,大多在70~90分,二、填空题.给出下列四个命题:7名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量52①某班级一共有;46号同学在样本中,那么样本中另一位同学的编号为234的样本,已知7号、33号、为的平均数、众数、中位数都相同;4,5,3,3,②一组数据1,2 ;1,则其标准差为2,2,3的平均数为③若一组数据a,0,1^^^其中,bx④根据具有线性相关关系的两个变量的统计数据所得的回归直线方程为y=a+^-^-1.=,则b1,y=3a=2,x=.填序号)其中真命题有________(,故抽取的样本的编号分别134=在①中,由系统抽样知抽样的分段间隔为52÷解析:的平均数,5,3,4,①是假命题;在②中,数据1,23为7号、20号、33号、46号,故1中,因是真命题;在③,众数为3,都相同,故②4+5)=3,中位数为33为(1+2++3+6121)-[(-15,解得a=-1,故样本的方差为3为样本的平均数为1,所以a+0+1+2+=52222,标准差为2,故③是假命题;在]=2-1)④+(2-1)-+(31)(0+-1)中,回归直+(1^^--^^-^线方程为y=bx+2,又回归直线过点(x,y),把(1,3)代入回归直线方程y=bx+2,得b=1,故④是真命题.答案:②④8.(2018·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计数据表:购买食品的年 2.09 2.15 2.50 2.84 2.92x/万元支出费用购买水果和牛奶的1.25 1.30 1.50 1.70 1.75/万元年支出费用y^^^^^-^-根据上表可得回归直线方程y=bx+a,其中b=0.59,a=y-bx,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为________万元.2.09+2.15+2.50+2.84+2.92-解析:x==2.50(万元),51.25+1.30+1.50+1.70+1.75-y==1.50(万元),5.^^-^-^其中b=0.59,a=y-bx=0.025,y=0.59x+0.025,故年支出费用为3.00万元的家庭^购买水果和牛奶的年支出费用约为y=0.59×3.00+0.025=1.795万元.答案:1.7959.某同学在高三学年的五次阶段性考试中,数学成绩依次为110,114,121,119,126,则这组数据的方差是________.解析:因为对一组数据同时加上或减去同一个常数,方差不变,所以本题中可先对这5个数据同时减去110,得到新的数据分别为0,4,11,9,16,其平均数为8,根据方差公1222222]=30.8.-8)+(9-8)=[(0-8)-+(48)++(11-8)(16式可得s5答案:30.8三、解答题10.某校为了解高一学生周末的“阅读时间”,从高一年级中随机抽取了100名学生进行调查,获得了每人的周末“阅读时间”(单位:小时),按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成样本的频率分布直方图如图所示:(1)求图中a的值;(2)估计该校高一学生周末“阅读时间”的中位数;(3)用样本频率代替概率.现从全校高一年级随机抽取20名学生,其中有k名学生“阅读时间”在[1,2.5)内的概率为P(X=k),其中k=0,1,2,…,20.当P(X=k)最大时,求k的值.解:(1)由频率分布直方图可知,周末“阅读时间”在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]内的频率分别为0.08,0.20,0.25,0.07,0.04,0.02,所以1-(0.04+0.08+0.20+0.25+0.07+0.04+0.02)=0.5a+0.5a,解得a=0.30.(2)设该校高一学生周末“阅读时间”的中位数为m小时.因为前5组的频率之和为0.04+0.08+0.15+0.20+0.25=0.72>0.5,,0.47<0.5=0.20+0.15+0.08+0.04组的频率之和为4而前所以2≤m<2.5.由0.5×(m-2)=0.5-0.47,解得m=2.06.故可估计该校高一学生周末“阅读时间”的中位数为2.06小时.(3)设在取出的20名学生中,周末“阅读时间”在[1,2.5)内的有X人,则X服从二项分布,即X~B(20,0.6),所以恰好有k名学生周末“阅读时间”在[1,2.5)内的概率为P(X k20kk-(0.4)C(0.6),=k)=20其中k=0,1,2, (20)k20kk-)(0.4(0.6)3(21-kXP(=k)C)20=…,20.,,k=1,2设t==kk1k121---k2)0.40.6)-1()C(P(X=k20若t>1,则k<12.6,P(X=k-1)<P(X=k);若t<1,则k>12.6,P(X=k-1)>P(X=k).P(X=13)3×(21-13)12=又=<1,1313×)X=122P(所以当k=12时,P(X=k)最大.所以k的值为12.11.(2018·石家庄质量检测(二))随着网络的发展,网上购物越来越受到人们的喜爱,各大购物网站为增加收入,促销策略越来越多样化,促销费用也不断增加.下表是某购物网站2017年1~8月促销费用(单位:万元)和产品销量(单位:万件)的具体数据.月份 1 2 3 4 5 6 7 8x 促销费用18 2 133 61521104.541 3.5 1 3 5y产品销量2^^^(1)根据数据可知y与x具有线性相关关系,请建立y关于x的回归方程y=bx+a(系数精确到0.01);(2)已知6月份该购物网站为庆祝成立1周年,特制定奖励制度:以z(单位:件)表示日销量,z ∈[1 800,2 000),则每位员工每日奖励100元;z∈[2 000,2 100),则每位员工每日奖励150元;z∈[2 100,+∞),则每位员工每日奖励200元.现已知该网站6月份日销量z服从正态分布N(0.2,0.000 1),请你计算某位员工当月奖励金额总数大约多少元.(当月奖励金额总数精确到百分位).参考数据:882,=1y分别为第i个月的促销费用和产品销量,ix,∑∑xy=338.5x=1 308,其中,iiiii1ii1==2),则P(μ-σ<z<μ+σ)=0.682 7,P(μ-2σ,(服从正态分布若随机变量…,32,,8.zNμσ<z<μ+2σ)=0.954 5.--,3=y,11=x由题可知(1)解:n--yx-n∑xy338.5-8×11×374.5ii^^1i=得b==≈将数据代入b=0.219≈0.22.n3401218-×1 308-22∑x-ny i1i=^-^-a=y-bx=3-0.219×11≈0.59,^所以y关于x的回归方程为y=0.22x+0.59.(2)由6月份日销量z服从正态分布N(0.2,0.000 1),得0.954 5日销量在[1 800,2 000)的概率为=0.477 25,20.682 7日销量在[2 000,2 100)的概率为=0.341 35,21-0.682 7日销量在[2 100,+∞)的概率为=0.158 65,2所以每位员工当月的奖励金额大约为(100×0.477 25+150×0.341 35+200×0.158 65)×30=3 919.725≈3 919.73(元).12.(2018·南京模拟)某校为了推动数学教学方法的改革,学校将高一年级部分生源情况基本相同的学生分成甲、乙两个班,每班各40人,甲班按原有模式教学,乙班实施教学方法改革.经过一年的教学实验,将甲、乙两个班学生一年来的数学成绩取平均数,两个班学生的平均成绩均在[50,100],按照区间[50,60),[60,70),[70,80),[80,90),[90,100]进行分组,绘制成如下频率分布直方图,规定不低于80分(百分制)为优秀.(1)完成表格,并判断是否有90%以上的把握认为“数学成绩优秀与教学改革有关”;甲班乙班总计大于等于80分的人数分的人数小于80总计(2)从乙班[70,80),[80,90),[90,100]分数段中,按分层抽样随机抽取7名学生座谈,从中选3名学生发言,记来自[80,90)发言的人数为随机变量X,求X的分布列和数学期望.参数数据和公式:2≥k0.0250.05(PK 0.10 )0.k 2.706 3.841 5.024 02)bcad-n(2K=(a+b)(c+d)(a+c)(b+d)解:(1)补全表格如下:甲班乙班总计分的人数大于等于8032 2012 分的人数小于8048 28 2080 40 40总计2)×2020-2880×(12×2依题意得K=≈3.333>2.706,40×40×32×48故有90%以上的把握认为“数学成绩优秀与教学改革有关”.(2)从乙班[70,80),[80,90),[90,100]分数段中抽取的人数分别为2,3,2,依题意随机变量X的所有可能取值为0,1,2,3,1232131CCCCC124C18343344P(X=0)==,P(X=1)==,P(X=2)==,P(X=3)==,3333C35C35C35C357777其分布列如下表:418121459所以E(X)=0×+1×+2×+3×==.35353535357。
高考数学二轮复习专题突破—统计与统计案例1.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y 的频数分布表.(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01) 附:√74≈8.602.2.(2021·江西赣州二模改编)遵守交通规则,人人有责.“礼让行人”是我国《道路交通安全法》的明文规定,也是全国文明城市测评中的重要内容.《道路交通安全法》第47条明确规定:“机动车行经人行横道时,应当减速行驶;遇行人正在通过人行横道,应当停车让行.机动车行经没有交通信号的道路时,遇行人横过道路,应当避让.否则扣3分罚200元”.下表是2021年1至4月份我市某主干路口监控设备抓拍到的驾驶员不“礼让行人”行为统计数据:(1)请利用所给数据求不“礼让行人”驾驶员人数y 与月份x 之间的经验回归方程y ^=b ^x+a ^,并预测该路口2021年10月不“礼让行人”驾驶员的大约人数(四舍五入);(2)交警从这4个月内通过该路口的驾驶员中随机抽查50人,调查驾驶员不“礼让行人”行为与驾龄的关系,得到下表:依据小概率值α=0.10的独立性检验,分析“礼让行人”行为是否与驾龄有关.参考公式:b ^=∑i=1nx i y i -nx y ∑i=1nx i 2-nx2=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2.χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.(2021·河北石家庄二模改编)某地区在2020年底全面建成小康社会,随着实施乡村振兴战略规划,该地区农村居民的收入逐渐增加,可支配消费支出也逐年增加.该地区统计了2016~2020年农村居民人均消费支出情况,对有关数据处理后,制作如图1的折线图[其中变量y (单位:万元)表示该地区农村居民人均年消费支出,年份用变量t 表示,其取值依次为1,2,3,…].(1)由图1可知,变量y与t具有很强的线性相关关系,求y关于t的经验回归方程,并预测2021年该地区农村居民人均消费支出;2016~2020年该地区农村居民人均消费支出图1(2)在国际上,常用恩格尔系数(其含义是指食品类支出总额占个人消费支出总额的比重)来衡量一个国家和地区人民生活水平的状况.根据联合国粮农组织的标准:恩格尔系数在40%~50%为小康,30%~40%为富裕.已知2020年该地区农村居民平均消费支出构成如图2所示,预测2021年该地区农村居民食品类支出比2020年增长3%,从恩格尔系数判断2021年底该地区农村居民生活水平能否达到富裕生活标准.2020年该地区农村居民人均消费支出构成图2参考公式:经验回归方程y ^=b ^x+a ^中斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2=∑i=1nx i y i -nx y∑i=1nx i 2-nx 2,a ^=y −b ^x .4.(2021·山东潍坊一模)在对人体的脂肪含量和年龄之间的关系的研究中,科研人员获得了一些年龄和脂肪含量的简单随机样本数据(x i ,y i )(i=1,2,…,20,25<x i <65),其中x i 表示年龄,y i 表示脂肪含量,并计算得到∑i=120x i 2=48 280,∑i=120y i 2=15 480,∑i=120x i y i =27 220,x =48,y =27,√22≈4.7.(1)请用样本相关系数说明该组数据中y 与x 之间的关系可用线性回归模型进行拟合,并求y 关于x的经验回归方程y ^=a ^+b ^x (a ^,b ^的计算结果保留两位小数);(2)科学健身能降低人体脂肪含量,下表是甲、乙两款健身器材的使用年限(整年)统计表:某健身机构准备购进其中一款健身器材,以使用年限的频率估计概率,请根据以上数据估计,该机构选择购买哪一款健身器材,才能使用更长久?参考公式:样本相关系数r=∑i=1n(x i -x)(y i -y)√∑i=1n (x i -x)2√∑i=1n(y i -y)2=∑i=1nx i y i -nx y√∑i=1nx i 2-nx 2√∑i=1ny i 2-ny 2;对于一组具有线性相关关系的数据(x i ,y i )(i=1,2,…,n ),其经验回归直线y ^=b ^x+a ^的斜率和截距的最小二乘估计分别为:b ^=∑i=1n(x i -x)(y i -y)∑i=1n(x i -x)2,a ^=y −b ^x .答案及解析1.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为14+7100=0.21.产值负增长的企业频率为2100=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)y =1100(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30, s 2=1100[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.029 6, s=√0.029 6=0.02×√74≈0.17.所以,这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17. 2.解 (1)由表中数据易知:x =1+2+3+44=52,y =125+105+100+904=105,则b ^=∑i=14x i y i -4x y∑i=14x i 2-4x2=995−1 05030−25=-11,a ^=y −b ^ x =105-(-11)×52=132.5,故所求经验回归方程为y ^=-11x+132.5.令x=10,则y ^=-11×10+132.5=22.5≈23(人),预测该路口10月份不“礼让行人”的驾驶员大约人数为23. (2)零假设为H 0:“礼让行人”行为与驾龄无关.由表中数据可得χ2=50×(10×12−20×8)218×32×30×20≈0.23<2.706=x 0.10,依据小概率值α=0.10的独立性检验,没有充分证据推断H 0不成立,可以认为H 0成立,即认为“礼让行人”行为与驾龄无关.3.解 (1)由已知数据可求t =1+2+3+4+55=3, y =1.01+1.10+1.21+1.33+1.405=1.21,∑i=15t i 2=12+22+32+42+52=55,∑i=15t i y i =1×1.01+2×1.10+3×1.21+4×1.33+5×1.40=19.16,b ^=19.16−5×3×1.2155−5×32=1.0110=0.101,a ^=1.21-0.101×3=0.907,所求经验回归方程为y ^=0.101t+0.907. 当t=6时,y ^=0.101×6+0.907=1.513(万元),故2021年该地区农村居民人均消费支出约为1.513万元.(2)已知2021年该地区农村居民平均消费支出1.513万元,由图2可知,2020年该地区农村居民食品类支出为4 451元,则预测2021年该地区食品类支出为4 451×(1+3%)=4 584.53元,恩格尔系数=4 584.5315 130×100%≈30.3%∈(30%,40%),所以,2021年底该地区农村居民生活水平能达到富裕生活标准.4.解 (1)x 2=2 304,y2=729,∑i=120x i y i -20x y =1 300,∑i=120x i 2-20x 2=2 200,∑i=1ny i 2-20y 2=900,r=∑i=120x i y i -20x y√∑i=120x i 2-20x 2√∑i=1ny i 2-20y2≈0.92,因为y 与x 的样本相关系数接近1,所以y 与x 之间具有较强的线性相关关系,可用线性回归模型进行拟合.由题可得,b ^=∑i=120(x i -x)(y i -y)∑i=120(x i -x)2=∑i=120x i y i -20x y∑i=120x i 2-20x2=1322≈0.591,a ^=y −b ^ x =27-0.591×48≈-1.37,所以y ^=0.59x-1.37.(2)以频率估计概率,设甲款健身器材使用年限为X (单位:年).E (X )=5×0.1+6×0.4+7×0.3+8×0.2=6.6. 设乙款健身器材使用年限为Y (单位:年).E (Y )=5×0.3+6×0.4+7×0.2+8×0.1=6.1.因为E (X )>E (Y ),所以该健身机构购买甲款健身器材更划算.。
第3讲 变量间的相关关系与统计案例以选择题或填空题的形式考查回归分析及独立性检验中的基本思想方法及其简单应用. 【复习指导】高考在该部分的主要命题点就是回归分析和独立性检验的基础知识和简单应用.复习时要掌握好回归分析和独立性检验的基本思想、方法和基本公式.基础梳理1.相关关系的分类从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关. 2.线性相关从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线. 3.回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法. (2)回归方程:两个具有线性相关关系的变量的一组数据: (x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^,则⎩⎪⎨⎪⎧b ^=∑i =1n i-xi-y∑i =1ni-x 2=∑i =1nx i y i -n xy∑i =1nx 2i -n x 2,a ^=y -b ^ x .其中,b 是回归方程的斜率,a 是在y 轴上的截距. 4.样本相关系数r=∑i =1ni-xi-y∑i =1ni-x2∑i =1ni-y2,用它来衡量两个变量间的线性相关关系.(1)当r >0时,表明两个变量正相关; (2)当r <0时,表明两个变量负相关;(3)r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变量有很强的线性相关关系. 5.线性回归模型(1)y =bx +a +e 中,a 、b 称为模型的未知参数;e 称为随机误差. (2)相关指数用相关指数R 2来刻画回归的效果,其计算公式是:R 2= ,R 2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R 2表示解释变量对预报变量变化的贡献率,R 2越接近于1,表示回归效果越好. 6.独立性检验(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.(2)列出的两个分类变量的频数表,称为列联表.(3)一般地,假设有两个分类变量X 和Y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为: 2×2列联表计K 2=n ad -a +ba +c c +db +d(其中n =a +b +c +d 为样本容量),可利用独立性检验判断表来判断“x 与y 的关系”.这种利用随机变量K 2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个规律(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系. (2)当K 2≥3.841时,则有95%的把握说事A 与B 有关; 当K 2≥6.635时,则有99%的把握说事件A 与B 有关; 当K 2≤2.706时,则认为事件A 与B 无关. 三个注意(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K 2=3.841是判断是否有关系的临界值,K 2≤3.841应判断为没有充分证据显示事件A 与B 有关系,而不能作为小于95%的量化值来判断.双基自测1.(人教A 版教材习题改编)下面哪些变量是相关关系( ). A .出租车车费与行驶的里程 B .房屋面积与房屋价格 C .身高与体重D .铁块的大小与质量解析 A ,B ,D 都是函数关系,其中A 一般是分段函数,只有C 是相关关系. 答案 C2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v 有观测数据(u i 、v i )(i =1,2,…,10),得散点图(2).由这两个散点图可以判断( ).A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析 由题图(1)可知,各点整体呈递减趋势,x 与y 负相关;由题图(2)可知,各点整体呈递增趋势,u 与v 正相关. 答案 C3.(2012·南昌模拟)某商品销售量y (件)与销售价格x (元/件)负相关,则其回归方程可能是( ).A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200D.y ^=10x -200解析 因为销量与价格负相关,由函数关系考虑为减函数,又因为x ,y 不能为负数,再排除C ,故选A. 答案 A4.(2012·枣庄模拟)下面是2×2列联表:则表中a,b的值分别为(A.94,72 B.52,50 C.52,74 D.74,52解析∵a+21=73,∴a=52,又a+22=b,∴b=74.答案 C5.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).解析由观测值k=27.63与临界值比较,我们有99%的把握说打鼾与患心脏病有关.答案有关考向一相关关系的判断【例1】►山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):(1)(2)判断是否具有相关关系.[审题视点] (1)用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.(2)根据散点图,分析两个变量是否存在相关关系.解(1)散点图如图所示(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.【训练1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否考向二 独立性检验【例2】►(2010·全国新课标)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99%的把握认为该地区老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区老年人中,需要志愿者提供帮助的老年人的比例?说明理由. 附:K 2=n ad a +bc +d a +cb +d[审题视点] 第(2)问由a =40,b =30,c =160,d =270,代入公式可求K 2,由K 2的值与6.635比较断定.第(3)问从抽样方法说明.解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500=14%.(2)K 2=-270×430×200×300≈9.967.由于9.967>6.635,所以有99%的把握认为该地区老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,采用分层抽样方法,这要比采用简单随机抽样方法更好.独立性检验的步骤:(1)根据样本数据制成2×2列联表; (2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值;(3)比较K 2与临界值的大小关系作统计推断.【训练2】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: 甲厂:个分厂生产零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附 K 2=n a +bc +d a +cb +d, 0.05解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500×100%=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500×100%=64%.(2)K 2=500×500×680×320≈7.35>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.考向三 线性回归方程【例3】►(2012·菏泽模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)[审题视点] (2)问利用公式求a ^、b ^,即可求出线性回归方程. (3)问将x =100代入回归直线方程即可. 解 (1)由题设所给数据,可得散点图如图所示.(2)由对照数据,计算得: i =14x 2i =86,x =3+4+5+64=4.5(吨),y =2.5+3+4+4.54=3.5(吨).已知∑i =14x i y i =66.5,所以,由最小二乘法确定的回归方程的系数为:b ^=∑i =14x i y i -4x ·y∑i =14x 2i -4x 2=66.5-4×4.5×3.586-4×4.52=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35.因此,所求的线性回归方程为y ^=0.7x +0.35.(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为: 90-(0.7×100+0.35)=19.65(吨标准煤).在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.【训练3】 (2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x 的线性回归方程为( ).A .y =x -1B .y =x +1C .y =88+12xD .y =176解析 由题意得x =174+176+176+176+1785=176(cm),y =175+175+176+177+1775=176(cm),由于(x ,y )一定满足线性回归方程,经验证知选C. 答案 C阅卷报告15——数据处理不当导致计算错误而失分【问题诊断】 由于大多数省市高考要求不准使用计算器,而线性回归问题和独立性检验问题仍是近几年新课标高考的常考点,并且大多是考查考生的计算能力,就计算方面常有不少考生因计算出错而失分.【防范措施】 平时训练时首先养成勤于动手的习惯,亲自动手计算,再者考场上要保持心态放松,做题时细心认真,最终可减少错误的发生.【示例】►(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程y =bx +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量. 实录 (1)x =2 006,y =236+246+257+276+2865=260.2.b =--+--+---2+-2+-2+-2+-2+--+---2+-2+-2+-2+-2=6.2,错因 求b 时计算出错,b 值不准确.a =y -b x =260.2-6.2×2 006=-12 177. ∴y ^=6.2x -12 177.(2)y ^=6.2×2 012-12 177=297.4.正解 (1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:x =0,y =3.2, b =--+--+2×19+4×29-5×0×3.2-2+-2+22+42-5×02=26040=6.5,a =y -b x =3.2. 由上述计算结果,知所求回归直线方程为y -257=b (x -2 006)+a =6.5(x -2 006)+3.2, 即y ^=6.5(x -2 006)+260.2.①(2)利用直线方程①,可预测2012年的粮食需求量为6.5(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).。
专题八 概率与统计 第三讲 统计与统计案例——2023届高考理科数学大单元二轮复习练重点【新课标全国卷】1.在某次赛车中,50名参赛选手的成绩(单位:min )全部介于13到18之间(包括13和18).现将比赛成绩分为五组:第一组[13,14),第二组[14,15),…,第五组[17,18],其频率分布直方图如图所示.若成绩在[13,15)内的选手可获奖,则这50名选手中获奖的人数为( )A.11B.15C.35D.392.某学校组织学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为[)20,40,[)40,60,[)60,80,[]80,100.若低于60分的人数是15人,则参加英语测试的学生人数是( )A.45B.50C.55D.603.我国是一个农业大国,从事农业工作的人员有5.4亿,如图为某县农村从业人员年龄结构图,为了解该县从业人员在从事农业工作中的实际困难,以推进县乡村振兴工作,某调查机构计划从某县的所有从业人员中随机抽取20人展开某项调研,则所抽取的20人中恰有2人的年龄在20岁以下的概率约为( ) (170.90.167≈,180.90.15≈,190.90.135≈,200.90.122≈)A.0.25B.0.29C.0.32D.0.354.某校高一年级在某次数学测验中成绩不低于80分的所有考生的成绩统计表如下:A.在[90,100]内B.在(100,110]内C.在(110,120]内D.在(120,130]内5.若某同学连续3次考试的名次(3次考试均没有出现并列名次的情况)不低于第3名,则称该同学为班级的尖子生.根据甲、乙、丙、丁四位同学过去连续3次考试名次的数据,推断一定是尖子生的是( )A.甲同学:平均数为2,众数为1B.乙同学:平均数为2,方差小于1C.丙同学:中位数为2,众数为2D.丁同学:众数为2,方差大于16.2021年某省高考体育百米测试中,成绩全部介于12秒与18秒之间,抽取其中100个样本,将测试结果按如下方式分成六组:第一组[12,13),第二组[13,14),…,第六组[17,18],得到如下的频率分布直方图.则该100考生的成绩的平均数和中位数(保留一位小数)分别是( )A.15.2 15.3B.15.1 15.4C.15.1 15.3D.15.2 15.37.设样本数据1x ,2x ,…,10x 的平均数和方差分别为1和4,若i i y x a =+(a 为非零常数,1,2,,10i =),则1y ,2y ,…,10y 的平均数和方差分别为( ) A.1a +,4B.1a +,4a +C.1,4D.1,4a +8.已知变量x ,y 之间的一组数据如下表:若y 关于x 的线性回归方程为0.7y x a =+,则a =( ) A.0.1B.0.2C.0.35D.0.459.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归直线方程0.6754.9y x =+,表中有一个数据模糊不清,请你推断出该数据的值为( )C.68 10.第24届冬季奥林匹克运动会将于2022年在北京举办.为了解某城市居民对冰雪运动的关注情况,随机抽取了该市100人进行调查统计,得到如下22⨯列联表.参考公式:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.附表:A.该市女性居民中大约有5%的人关注冰雪运动B.该市男性届民中大约有95%的人关注冰雪运动C.有95%的把握认为该市居民是否关注冰雪运动与性别有关D.有99%的把握认为该市居民是否关注冰雪运动与性别有关11.一个项目由15个专家评委投票表决,剔除一个最高分96,一个最低分58后所得到的平均分为92,方差为16,那么原始得分的方差为_______.12.经市场调查,某款热销品的销售量y(万件)与广告费用x(万元)之间满足回归直线方程 3.5=+.若样本点中心为(45,35),则当销售量为52.5万件时,可估计投入y bx的广告费用为_________________万元.13.某学校为了制订治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:14.某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)8.602.15.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):1(优) (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的22⨯列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.附:2()()()()K a b c d a c b d =++++,)2kk答案以及解析1.答案:A解析:由题意可得,成绩在[13,15)内的频率为10.080.320.380.22---=.又本次赛车中,共50名参赛选手,所以这50名选手中获奖的人数为500.2211⨯=.故选A. 2.答案:B解析:根据频率分布直方图的特点可知,低于60分的频率是(0.0050.01)200.3+⨯=,则所求学生人数是15500.3=. 3.答案:B解析:由频率分布直方图可得20岁以下的农村从业人员的概率为0.1,所以从所有从业人员中抽取20人,其中恰有2人的年龄在20岁以下的概率为221820C (0.1)(0.9)0.2850.29≈≈,故选B. 4.答案:B解析:由表可知,及格的考生共有401512105284+++++=人,在[90,100]内有40人,在(100,110]内有15人,故及格的所有考生成绩的中位数在(100,110]内.5.答案:B解析:甲同学:若平均数为2,众数为1,则有一次名次应为4,故排除A ;乙同学:平均数为2,设乙同学3次考试的名次分别为1x ,2x ,3x ,则方差()()()2222123122213s x x x ⎡⎤=-+-+-<⎣⎦,则()()()2221232223x x x -+-+-<,所以1x ,2x ,3x 均不大于3,符合题意;丙同学:中位数为2,众数为2,有可能是2,2,4,不符合题意;丁同学:众数为2,方差大于1,有可能是2,2,6,不符合题意.故选B. 6.答案:C解析:100名考生成绩的平均数12.50.1013.50.1514.50.15x =⨯+⨯+⨯+15.50.3016.50.2517.50.0515.1⨯+⨯+⨯=.因为前三组频率直方图面积和为0.100.150.150.4++=,前四组频率直方图面积和为0.100.150.150.300.7+++=,所以中位数位于第四组内,设中位数为a ,则(15)0.300.1a -⨯=,解得15.3a ≈,故选C.7.答案:A解析:由题意知i i y x a =+,即()1210110110y x x x a x a a =⨯++++=+=+,方差{}222212101()()()10x a x a x s a x a x a x a ⎡⎤⎡⎤⎡⎤=⨯+-+++-++++-+⎣⎦⎣⎦⎣⎦()()()22212101410x x x x x x ⎡⎤=⨯-+-++-=⎢⎥⎣⎦. 故选A. 8.答案:C解析:本题考查线性回归方程截距的求解.因为11(3456) 4.5,(2.534 4.5) 3.544x y =+++==+++=,所以0.7 3.50.7 4.50.35a y x =-=-⨯=,故选C. 9.答案:C解析:设表中模糊看不清的数据为m .由表中数据得30x =, 3075m y +=,将30730,5m x y +==代入经验回归方程0.6754.9y x =+,得68m =.故选C. 10.答案:C解析:由22⨯列联表中的数据可得()22352515251004.167 3.84160405050K ⨯-⨯⨯=≈>⨯⨯⨯,因此,有95%的把握认为该市居民是否关注冰雪运动与性别有关.故选:C.11.答案:88解析:根据题意,设剔除最高分、最低分之后的13个数据为1a ,2a ,3a ,…,13a ,由这13个数据的平均分为92,方差为16, 知()1231319213a a a a ++++=,()()()222121319292921613a a a ⎡⎤-+-++-=⎣⎦, 解得123131196a a a a ++++=,2221213110240a a a +++=,对于原始得分96,58,1a ,2a ,3a ,…,13a , 其平均数()12313196589015a a a a a =++++++=,其方差为()(()22222212131(9690)(5890)9090)908815s a a a ⎤⎡=-+-+-+-++-=⎣⎦. 12.答案:70解析:本题考查线性回归方程.依题意,将(45,35)代入回归直线方程 3.5y bx =+(提示:回归直线必过样本点中心),得3545 3.5b =⨯+,解得0.7b =,所以回归直线方程为0.7 3.5y x =+.令0.7 3.552.5y x =+=,得70x =. 13.答案:99.5%解析:因为2250(2015510)8.33325253020χ⨯⨯-⨯=≈⨯⨯⨯,又()27.8790.0050.5%P χ==≥,所以我们有99.5%的把握认为“是否同意限定区域停车与家长的性别有关”.14.答案:(1)产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为20%(2)平均数与标准差的估计值分别为30%,17%解析:(1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为1470.21100+=.产值负增长的企业频率为20.02100=. 用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为20%. (2)1(0.1020.10240.30530.50140.707)0.30100y =⨯-⨯+⨯+⨯+⨯+⨯=, ()52222111(0.40)2(0.20)100100i i i s n y y=⎡=-=⨯-⨯+-⨯⎣∑222240530.20140.4070.0296⎤+⨯+⨯+⨯=⎦,0.020.17s .所以,这类企业产值增长率的平均数与标准差的估计值分别为30%,17%.15.答案:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:1(100203003550045)350100⨯+⨯+⨯=. (3)根据所给数据,可得22⨯列联表:根据列联表得25.82055457030K =≈⨯⨯⨯. 由于5.820 3.841>,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.。
【状元之路】2015版高考数学二轮复习 统计与统计案例专题训练(含解析)一、选择题1.(2014·四川卷)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本解析 由题目条件知5 000名居民的阅读时间的全体是总体;其中1名居民的阅读时间是个体;从5 000名居民某天的阅读时间中抽取的200名居民的阅读时间是从总体中抽取的一个样本,样本容量是200.答案 A2.(2014·重庆卷)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250解析 由分层抽样的特点可知703 500=n3 500+1 500,解之得n =100. 答案 A3.(2014·广东卷)为了解 1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( )A .50B .40C .25D .20解析 由系统抽样的定义知,分段间隔为1 00040=25.故答案为C .答案 C4.为了了解某校高三学生的视力情况,随机抽查了该校100名高三学生的视力情况,得到频率分布直方图,如图所示,由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a ,视力在4.6到5.0之间的学生人数为b ,则a ,b 的值分别为( )A .0.27,78B .0.27,83C .2.7,84D .2.7,83解析 前4组的频数成等比数列,由图知:第一组的频率是0.01,故第一组有1名学生;第二组的频率为0.03,故第二组有3名;所以第三组有9名,第四组有27名.所以后6组共87名学生,设最后一组人数为x ,则27+x 2×6=87,解得x =2,故公差d =2-275=-5,所以a =27100=0.27,倒数第二组人数为7,则b =87-2-7=78.故选A .答案 A5.对于下列表格所示的五个散点,已知求得的线性回归直线方程为y ^=0.8x -155.x 196 197 200 203 204 y1367m则实数m 的值为( A .8 B .8.2 C .8.4D .8.5解析 本题主要考查统计的相关知识,意在考查考生的运算求解能力.依题意得x -=15(196+197+200+203+204)=200,y -=15(1+3+6+7+m)=17+m 5,回归直线必经过样本中心点(x -,y -),于是有17+m5=0.8×200-155,由此解得m =8,选A .答案 A6.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男女总计爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n ad -bc 2a +bc +d a +cb +d算得,K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P(K 2≥k)0.050 0.010 0.001 k3.8416.63510.828A .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”C .有99%以上的把握认为“爱好该项运动与性别有关”D .有99%以上的把握认为“爱好该项运动与性别无关”解析 根据独立性检验的思想方法,正确选项为C . 答案 C 二、填空题7.从编号为0,1,2,…,79的80件产品中,采用系统抽样的方法抽取容量是5的样本,若编号为28的产品在样本中,则该样本中产品的最大编号为________.解析 根据系统抽样的特点,共有80个产品,抽取5个样品,则可得组距为805=16,又其中有1个为28,则与之相邻的为12和44,故所取5个依次为12,28,44,60,76,即最大的为76.答案 768.某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生人数是________.解析 因为(0.002+0.006+0.012)×10×200=40,40x =2003 000,所以x =600.故在该次数学考试中成绩小于60分的学生人数是600.答案 600 9.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.(1)若第1组抽出的号码为2,则所有被抽出职工的号码为________;(2)分别统计这5名职工的体重(单位:公斤),获得体重数据的茎叶图如图所示,则该样本的方差为________.解析 (1)由题意知被抽出职工的号码为2,10,18,26,34. (2)由茎叶图知5名职工体重的平均数x -=59+62+70+73+815=69,则该样本的方差s 2=15[(59-69)2+(62-69)2+(70-69)2+(73-69)2+(81-69)2]=62.答案 (1)2,10,18,26,34 (2)62 三、解答题10.(2014·课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数; (2)分别估计该市的市民对甲、乙两部门的评分高于90的概率; (3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解 (1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部分评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.11.(2014·课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表); (3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品80%”的规定?解 (1)(2)质量指标值的样本平均数为x -=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100. 质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.B级——能力提高组1.(2014·郑州一模)PM2.5是指大气中直径小于或等于 2.5微米的颗粒物,也称为可入肺颗粒物.如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是( )A.甲B.乙C.甲、乙相等D.无法确定解析从茎叶图上可以观察到:甲监测点的样本数据比乙监测点的样本数据更加集中,因此甲地浓度的方差较小.答案A2.(理)(2014·贵州六校联考)某校学习小组开展“学生语文成绩与外语成绩的关系”的课题研究,对该校高二年级800名学生上学期期末语文和外语成绩,按优秀和不优秀分类得结果:语文和外语都优秀的有60人,语文成绩优秀但外语不优秀的有140人,外语成绩优秀但语文不优秀的有100人.(1)能否在犯错概率不超过0.001的前提下认为该校学生的语文成绩与外语成绩有关系?(2)将上述调查所得的频率视为概率,从该校高二年级学生成绩中,有放回地随机抽取3名学生的成绩,记抽取的3个成绩中语文、外语两科成绩至少有一科优秀的个数为X,求X的分布列和期望E(X).解 (1)由题意得列联表:语文优秀 语文不优秀总计 外语优秀 60 100 160 外语不优秀140 500 640 总计200600800因为K 2=800×60×500-100×1402160×640×200×600≈16.667>10.828,所以能在犯错概率不超过0.001的前提下认为该校学生的语文成绩与外语成绩有关系. (2)由已知数据,语文、外语两科成绩至少一科为优秀的频率是38.则X ~B ⎝ ⎛⎭⎪⎫3,38, P(X =k)=C k 3⎝ ⎛⎭⎪⎫38k ⎝ ⎛⎭⎪⎫583-k,k =0,1,2,3.X 的分布列为X 0 1 2 3 P12551222551213551227512E(X)=3×38=98.2.(文)(2014·东北三校联考)某城市随机抽取一年(365天)内100天的空气质量指数API 的监测数据,结果统计如下:API[0,50] (50,100] (100,150] (150,200] (200,250] (250,300] >300 空气质量 优 良 轻微污染 轻度污染 中度污染中重度污染重度污染 天数413183091115式为S =⎩⎪⎨⎪⎧0,0≤w≤100,4w -400,100<w≤300,2 000,w>300,试估计在本年度内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?附:P(K2≥k0) 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k0 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828由200<S≤600,得150<w≤250,频数为39,所以P(A)=39100.(2)根据以上数据得到如下列联表:非重度污染重度污染合计供暖季22 8 30非供暖季63 7 70合计85 15 100K2的观测值为285×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.。
统计与统计案例1.(2014·某某高考)在“世界读书日”前夕,为了了解某地5 000名居民某天的阅读时间,从中抽取了200名居民的阅读时间进行统计分析.在这个问题中,5 000名居民的阅读时间的全体是( )A .总体B .个体C .样本的容量D .从总体中抽取的一个样本【解析】 5 000名居民的阅读时间的全体为总体,故选A.【答案】 A2.(2014·某某高考)某中学有高中生3 500人,初中生1 500人.为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为n 的样本,已知从高中生中抽取70人,则n 为( )A .100B .150C .200D .250【解析】 样本抽取比例为703 500=150,该校总人数为1 500+3 500=5 000,则n 5 000=150,故n =100,选A. 【答案】 A3.(2014·某某高考)根据如下样本数据x 3 4 5 6 7 8y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为y ^=bx +a ,则( )A .a >0,b >0B .a >0,b <0C .a <0,b >0D .a <0,b <0【解析】 回归直线方程过中心点(5.5,1.5),即1.5=5.5b +a ,由题意,两个变量负相关,b <0,∴a >0,故选B.【答案】 B4.(2014·某某高考)某车间20名工人年龄数据如下表:年龄(岁) 工人数(人)19 128 329 330 531 432 340 1合计 20(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.【解】 (1)由题可知,这20名工人年龄的众数是30,极差是40-19=21.(2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均数为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=12020i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.从近三年高考来看,该部分高考命题的热点考向为:1.随机抽样①随机抽样问题与实际生活紧密相连,是高考考查的热点之一.主要考查系统抽样中的确定和分层抽样中各层人数的确定.②多以选择题和填空题的形式呈现,属容易题.2.用样本估计总体①该考向重点考查样本特征数的计算,样本频率分布直方图和茎叶图等知识.特别是茎叶图是新课标中的新增内容,与实际生活联系密切,可方便处理数据,是高考中新的热点.②多以选择题、填空题的形式考查,有时也出现在解答题中,属容易题.3.线性回归分析①线性回归分析是新增内容,在现实生活中有着广泛的应用,应引起重视.②多以选择题、填空题的形式考查,有时也出现在解答题中,属中、低档题目.4.独立性检验①独立性检验也是新增内容,在现实生活中有着广泛的应用,近几年许多省的高考题涉及本考向,应引起关注.②既可以以选择题、填空题的形式考查,也可以以解答题的形式呈现,属中、低档题目.随机抽样【例1】 (1)(2014·某某高考)某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4∶5∶5∶6,则应从一年级本科生中抽取________名学生.(2)(2014·某某高考)为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本 ,则分段的间隔为( )A .50B .40C .25D .20【解析】 (1)由题意知应抽取人数为300×44+5+5+6=60. (2)由1 00040=25,可得分段的间隔为25.故选C. 【答案】 (1)60 (2)C【规律方法】解答与抽样方法有关的问题时应注意:(1)要深刻理解各种抽样方法的特点和实施步骤.(2)熟练掌握系统抽样中被抽个体的确定方法.(3)熟练掌握分层抽样中各层人数的计算方法.注意:抽样方法常和概率、频率分布直方图等知识结合在一起考查.[创新预测]1.(1)(2013·某某高考)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件、80件、60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=( )A.9 B.10 C.12 D.13(2)(2013·某某高考)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )7816657208026314070243699728019832049234493582003623486969387481A.08 B.07C.02 D.01【解析】(1)根据分层抽样的特点,用比例法求解.依题意得360=n120+80+60,故n=13.(2)由随机数表法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.【答案】(1)D (2)D用样本估计总体【例2】(2014·高考)从某校随机抽取100名学生,获得了他们一周课外阅读时间(单位:小时)的数据,整理得到数据分组及频数分布表和频率分布直方图:组号分组频数1[0,2) 62[2,4)83[4,6)174[6,8)225[8,10)256[10,12)127[12,14) 68[14,16) 29[16,18) 2合计100(1)从该校随机选取一名学生,试估计这名学生该周课外阅读时间少于12小时的概率;(2)求频率分布直方图中的a ,b 的值;(3)假设同一组中的每个数据可用该组区间的中点值代替,试估计样本中的100名学生该周课外阅读时间的平均数在第几组.(只需写出结论)【解】 (1)根据频数分布表,100名学生中课外阅读时间不少于12小时的学生共有6+2+2=10名,所以样本中的学生课外阅读时间少于12小时的频率是1-10100=0.9. 从该校随机选取一名学生,估计其课外阅读时间少于12小时的概率为0.9.(2)课外阅读时间落在组[4,6)的有17人,频率为0.17,所以a =频率组距=0.172=0.085. 课外阅读时间落在组[8,10)的有25人,频率为0.25,所以b =频率组距=0.252=0.125. (3)样本中的100名学生课外阅读时间的平均数在第4组.【规律方法】 1.用样本估计总体时应注意的问题:(1)理解在抽样具有代表性的前提下,可以用样本的频率分布估计总体的频率分布,用样本的特征数估计总体的特征数,这是统计的基本思想.(2)反映样本数据分布的主要方式,一个是频率分布表,一个是频率分布直方图.要学会根据频率分布直方图估计总体的概率分布以及总体的特征数,特别是均值、众数和中位数.2.样本数字特征及茎叶图:(1)要掌握好样本均值和方差的实际意义,并在具体的应用问题中会根据所计算出的样本数据的均值和方差对实际问题作出解释.(2)茎叶图是表示样本数据分布的一种方法,其特点是保留了所有的原始数据,这是茎叶图的优势.[创新预测]2.(1)(2013·某某高考)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为( )A .588B .480C .450D .120(2)(2013·某某高考)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:8 7 79 4 0 1 0 x 9 1则7A.1169 B.367C .36 D.677【解析】 (1)先求出频率,再求样本容量.不少于60分的学生的频率为(0.030+0.025+0.015+0.010)×10=0.8,∴该模块测试成绩不少于60分的学生人数应为600×0.8=480.故选B.(2)利用平均数为91,求出x 的值,利用方差的定义,计算方差.根据茎叶图,去掉1个最低分87,1个最高分99,则17[87+94+90+91+90+(90+x )+91]=91, ∴x =4.∴s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=367. 【答案】 (1)B (2)B线性回归分析【例3】 (2014·全国新课标Ⅱ高考)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:年份 2007 2008 2009 2010 2011 2012 2013年份代号t 1 2 3 4 5 6 7人均纯收入y 2.9 3.3 3.6 4.4 4.8 5.2 5.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=i =1n t i -t -y i -y -∑i =1n t i -t -2,a ^=y --b ^t -.【解】 (1)由所给数据计算得t -=17(1+2+3+4+5+6+7)=4, y -=17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3 ∑i =17(t i -t -)2=9+4+1+0+1+4+9=28,∑i =17 (t i -t -)(y i -y -)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17 t i -t-y i -y -∑i =17 t i -t-2=1428=0.5, a ^=y --b ^t -=4.3-0.5×4=2.3,所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(Ⅰ)中的回归方程,得y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.【规律方法】 进行线性回归分析时应注意的问题 (1)正确理解计算b ,a 的公式和准确的计算,是求回归直线方程的关键. (2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值. (3)在散点图中,若所有点大部分都集中在斜向上(自左向右看)的直线的附近,则为正相关;若大部分都集中在斜向下(自左向右看)的直线的附近,则为负相关.[创新预测]3.(2013·某某高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =110x 2i =720.(1)求家庭的月储蓄y 对月收入x 的线性回归方程y =bx +a ;(2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.附:线性回归方程y =bx +a 中,b =∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a =y -b x ,其中x ,y 为样本平均值.线性回归方程也可写为y ^=b ^x +a ^.【解】 (1)由题意知n =10,x =1n ∑i =1n x i =8010=8, y =1n ∑i =1n y i =2010=2, 又l xx =∑i =1nx 2i -n x 2=720-10×82=80,l xy =∑i =1nx i y i -n x y =184-10×8×2=24,由此得b =l xy l xx =2480=0.3,a =y -b x =2-0.3×8=-0.4, 故所求线性回归方程为y =0.3x -0.4.(2)由于变量y 的值随x 值的增加而增加(b =0.3>0),故x 与y 之间是正相关.(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元). 独立性检验【例4】 (2014·某某高考)某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生 喜欢甜品 不喜欢甜品 合计南方学生 60 20 80北方学生 10 10 20合计 70 30 100(1)惯方面有差异”;(2)已知在被调查的北方学生中有5名数学系的学生,其中2名喜欢甜品.现在从这5名学生中随机抽取3人,求至多有1人喜欢甜品的概率.附:χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2,P (χ2≥k ) 0.100 0.050 0.010 k2.7063.841 6.635【解】 (1)将2×2列联表中的数据代入公式计算,得χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2=100×60×10-20×10270×30×80×20=10021≈4.762. 由于4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.(2)从5名数学系学生中任取3人的一切可能结果所组成的基本事件空间Ω={(a 1,a 2,b 1),(a 1,a 2,b 2),(a 1,a 2,b 3),(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.其中a i 表示喜欢甜品的学生,i =1,2.b j 表示不喜欢甜品的学生,j =1,2,3.Ω由10个基本事件组成,且这些基本事件的出现是等可能的.用A 表示“3人中至多有1人喜欢甜品”这一事件,则A ={(a 1,b 1,b 2),(a 1,b 2,b 3),(a 1,b 1,b 3),(a 2,b 1,b 2),(a 2,b 2,b 3),(a 2,b 1,b 3),(b 1,b 2,b 3)}.事件A 是由7个基本事件组成,因而P (A )=710. 【规律方法】 1.独立性检验的关键是准确计算K 2(χ2),而计算k 2(χ2)时,要正确绘制2×2列联表.2.两个变量的独立性检验,在统计学中有着广泛的应用,学习时一定要结合实际问题,从现实中寻找例子,增强学习数学的动力.[创新预测]4.(2014·某某高考)某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K 2=n ad -bc 2a b c d a c b dP (K 2≥k 0) 0.10 0.05 0.010 0.005k 0 2.706 3.841 6.635 7.879【解】 (1)300×15 000=90,所以应收集90位女生的样本数据. (2)由题中频率分布直方图得1-2×(0.100+0.025)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的.所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表男生 女生 总计每周平均体育运动时间不超过4小时45 30 75 每周平均体育运动时间超过4小时165 60 225 总计 210 90 300结合列联表可算得K 2=300× 2 250275×225×210×90=10021≈4.762>3.841. 所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.[总结提升]失分盲点(1)混淆简单随机抽样、系统抽样、分层抽样的区别,不能正确地选择抽样方法.(2)不能正确地从频率分布直方图中提取相关的信息,混淆了频数与频率的差异.答题指导(1)看到抽样问题,想到三种抽样的定义以及适用X 围和三者的区别.(2)看到频率分布直方图,想到频数与频率的区别以及计算方法.方法规律(1)分层抽样:①抽样原则:分层抽样时,每层抽取的个体可以不一样多,但必须满足抽取n =n ·N N(i =1,2,…,k )个个体:②分层原则:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)利用统计量K 2进行独立性检验的步骤:①根据数据列出2×2列联表.②根据公式计算K 2的观测值k .③比较观测值k 与临界值表中相应的检验水平,作出统计判断.通过数据分析事物蕴含的规律1.数据的作用是为了说明实际问题中存在的问题,通过对数据的处理(如计算样本数据的均值、方差、极差、中位数、众数等),看出实际问题中蕴含的某种规律,根据规律的利弊确定未来的发展方向,这是数据处理的一个主要方面.2.在统计中通过对抽取的样本数据进行处理,根据样本估计总体的思想,可以对总体作出估计,从而对总体作出评价,给出令人信服的结论,这就是用数据说话.【典例】 (2014·全国新课标Ⅱ高考)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.【解】(1)由题中所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位数为75,所以该市的市民对甲部门评分的中位数的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位数为66+682=67,所以该市的市民对乙部门评分的中位数的估计值是67.(2)由题中所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由题中所给茎叶图知,市民对甲部门的评分的中位数高于对乙部门的评分的中位数,而且由题中茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.(注:考生利用其他统计量进行分析,结论合理的同样给分.)【规律感悟】样本数据的均值体现了一种整体的态势,样本数据的方差则说明了整体态势的稳定性,整体态势(均值)及其稳定性(方差)是样本数据的两个重要特征数.。
专题七 第一讲一、选择题1.(2014·山西省重点中学第三次四校联考)已知x 、y 的取值如下表所示:从散点图分析,y 与x 线性相关,且y =0.8x +a ,则a =( ) A .0.8 B .1 C .1.2 D .1.5[答案] B[解析] x =0+1+3+44=2,y =0.9+1.9+3.2+4.44=2.6,又因为回归直线y ^=0.8x +a 过样本中心点(2,2.6) 所以2.6=0.8×2+a ,解得a =1.2.(文)(2014·豫东、豫北十所名校联考)某厂生产A 、B 、C 三种型号的产品,产品数量之比为3∶2∶4,现用分层抽样的方法抽取一个样本容量为180的样本,则样本中B 型号的产品的数量为( )A .20B .40C .60D .80 [答案] B[解析] 由分层抽样的定义知,B 型号产品应抽取180×23+2+4=40件.(理)(2013·济南模拟)某全日制大学共有学生5600人,其中专科生有1300人,本科生有3000人,研究生1300人,现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本为280人,则应在专科生,本科生与研究生这三类学生中分别抽取( )A .65人,150人,65人B .30人,150人,100人C .93人,94人,93人D .80人,120人,80人[答案] A [解析]2805600=120,1300×120=65,3000×120=150,故选A. 3.(文)(2014·新乡、许昌、平顶山二调)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{a n }.已知a 2=2a 1,且样本容量为300,则小长方形面积最大的一组的频数为( )A .100B .120C .150 D. 200[答案] A[解析] 设公差为d ,则a 1+d =2a 1,∴a 1=d ,∴d +2d +3d +4d +5d =1,∴d =115,∴面积最大的一组的频率等于115×5=13.∴小长方形面积最大的一组的频数为300×13=100.(理)某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为“体育迷”,则图中x 的值为( )A .0.01B .0.02C .0.03D .0.04[答案] A[解析] 由题设可知(0.005+x +0.012+0.02+0.025+0.028)×10=1,解得x =0.01,选A. 4.(2014·东北三校二模)在某次测量中得到的A 样本数据如下:42,43,46,52,42,50,若B 样本数据恰好是A 样本数据每个都减5后所得数据,则A 、B 两样本的下列数字特征对应相同的是( )A .平均数B .标准差C .众数D .中位数 [答案] B[解析] 因为A 组数据为:42,43,46,52,42,50 B 组数据为:37,38,41,47,37,45.可知平均数、众数、中位数都发生了变化,比原来A 组数据对应量都减小了5,但标准差不发生变化,故选B.5.(2014·石家庄质检)等差数列x 1,x 2,x 3,…,x 9的公差为1,若以上述数据x 1,x 2,x 3,…,x 9为样本,则此样本的方差为( )A.203B.103 C .60 D .30[答案] A[解析] 令等差数列为1,2,3…9,则样本的平均值x =5, ∴S 2=19[(1-5)2+(2-5)2+…+(9-5)2]=609=203.6.(文)(2014·郑州市第二次质检)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13 C.12 D.23[答案] B[解析] x =4+5+6+7+8+96=132,y =90+84+83+80+75+686=80,∵回归直线过点(132,80),∴a =106,∴y ^=-4x +106,∴点(5,84),(9,68)在回归直线左下方,故所求概率P =26=13.(理)(2014·河北衡水中学二调)关于统计数据的分析,有以下几个结论,其中正确的个数为( )①利用残差进行回归分析时,若残差点比较均匀地落在宽度较窄的水平带状区域内,则说明线性回归模型的拟合精度较高;②将一组数据中的每个数据都减去同一个数后,期望与方差均没有变化;③调查剧院中观众观后感时,从50排(每排人数相同)中任意抽取一排的人进行调查是分层抽样法;④已知随机变量X 服从正态分布N (3,1),且P (2≤X ≤4)=0.682 6,则P (X >4)等于0.158 7 ⑤某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人.为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为15人.A .2B .3C .4D .5[答案] A[解析] ①④正确,②③⑤错误,⑤设样本容量为n ,则3501500=7n ,∴n =30,故⑤错.二、填空题7.(2014·吉林九校联合体二模)将某班的60名学生编号为:01,02,…,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是________.[答案] 16,28,40,52[解析] 依据系统抽样方法的定义得知,将这60名学生依次按编号每12人作为一组,即01~12、13~24、…、49~60,当第一组抽得的号码是04时,剩下的四个号码依次是16,28,40,52(即其余每一小组所抽出来的号码都是相应的组中的第四个号码).8.(2013·龙岩模拟)10名工人某天生产同一零件,生产的件数分别是10,12,14,14,14,15,15,16,16,17,设这10个数的中位数为a ,众数为b ,则a -b =________.[答案] 0.5[解析] 从数据中可以看出,众数b =14, 且中位数a =14+152=14.5,∴a -b =14.5-14=0.5.9.(2013·烟台质检)为了解某校高三学生身体状况,用分层抽样的方法抽取部分男生和女生的体重,将男生体重数据整理后,画出了频率分布直方图,已知图中从左到右前三个小组频率之比为,第二小组频数为12,若全校男、女生比例为,则全校抽取学生数为________.[答案] 80[解析] 第四小组和第五小组的频率之和是5×(0.0125+0.0375)=0.25,故前三个小组的频率之和是0.75,则第二小组的频率是0.25,则抽取的男生人数是12÷0.25=48人,抽取的女生人数是48×23=32人,全校共抽取80人.三、解答题10.(文)(2014·东北三省三校二模)某个团购网站为了更好地满足消费者需求,对在其网站发布的团购产品展开了用户调查,每个用户在使用了团购产品后可以对该产品进行打分,最高分是10分.上个月该网站共卖出了100份团购产品,所有用户打分的平均分作为该产品的参考分值,将这些产品按照得分分成以下几组:第一组[0,2),第二组[2,4),第三组[4,6),第四组[6,8),第五组[8,10],得到的频率分布直方图如图所示.(1)分别求第三,四,五组的频率;(2)该网站在得分较高的第三,四,五组中用分层抽样的方法抽取了6个产品作为下个月团购的特惠产品,某人决定在这6个产品中随机抽取2个购买,求他抽到的两个产品均来自第三组的概率.[解析] (1)第三组的频率是0.150×2=0.3;第四组的频率是0.100×2=0.2;第五组的频率是0.050×2=0.1(2)设“抽到的两个产品均来自第三组”为事件A ,由题意可知,从第三、四、五组中分别抽取3个,2个,1个.不妨设第三组抽到的是A 1,A 2,A 3;第四组抽到的是B 1,B 2;第五组抽到的是C 1,所含基本事件总数为:{A 1,A 2},{A 1,A 3},{A 2,A 3},{A 1,B 1},{A 1,B 2},{A 1,C 1},{A 2,B 1},{A 2,B 2},{A 2,C 1},{A 3,B 1},{A 3,B 2},{A 3,C 1},{B 1,B 2},{B 1,C 1},{B 2,C 1}所以P (A )=315=15.(理)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:(1)(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由;(3)若将频率视为概率,对甲同学在今后的3次数学竞赛成绩进行预测,记这3次成绩中高于80分的次数为ξ,求ξ的分布列及数学期望E (ξ).[解析] (1)作出茎叶图如下:(2)派甲参赛比较合适,理由如下:x -甲=18(70×2+80×4+90×2+8+9+1+2+4+8+3+5)=85x -乙=18(70×1+80×4+90×3+5+0+0+3+5+0+2+5)=85.S 2甲=18[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5S 2乙=18[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41∵x -甲=x -乙,S 2甲<S 2乙,∴甲的成绩较稳定,派甲参赛比较合适.注:本小题的结论及理由均不唯一,如果考生能从统计学的角度分析,给出其他合理回答,同样给分:如:从统计的角度看,甲获得85分以上(含85分)的概率P 1=38乙获得85分以上(含85分)的概率为P 2=48=12∵P 2>P 1,∴派乙参赛比较合适.(3)记“甲同学在一次数学竞赛中成绩高于80分”为事件A ,则P (A )=68=34,随机变量ξ的分布列为E (ξ)=0×164+1×964+2×2764+3×2764=94.(或E (ξ)=np =3×34=94)一、选择题11.(文)(2014·重庆理,3)已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4[答案] A[解析] 因为变量x 和y 正相关,所以回归直线的斜率为正,排除C 、D ;又将点(3,3.5)代入选项A 和B 的方程中检验排除B ,所以选A.(理)一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集数据如下:A .左上方B .左下方C .右上方D .右下方[答案] C[解析] ∵x -=45,y -=85,∴a +45b =85,∴a +45b -10>0,故点(a ,b )在直线x +45y -10=0的右上方,故选C.12.(2014·沈阳市质检)某高校进行自主招生,先从报名者中筛选出400人参加笔试,再按笔试成绩择优选出100人参加面试.现随机调查了24名笔试者的成绩,如下表所示:A.75 B.80C.85 D.90[答案] B[解析]由题可知,在24名笔试者中应选出6人参加面试.由表可得面试分数线大约为80.故选B.13.(2013·陕西文,5)对一批产品的长度(单位:毫米)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上为一等品,在区间[15,20)和[25,30)上为二等品,在区间[10,15)和[30,35]上为三等品.用频率估计概率,现从该批产品中随机抽取1件,则其为二等品的概率是()A.0.09 B.0.20C.0.25 D.0.45[答案] D[解析]解法1:用样本估计总体.在区间[15,20)和[25,30)上的概率为0.04×5+[1-(0.02+0.04+0.06+0.03)×5=0.45.解法2:由图可知,抽得一等品的概率P1=0.06×5=0.3;抽得三等品的概率为P3=(0.02+0.03)×5=0.25.故抽得二等品的概率为1-(0.3+0.25)=0.45.14.(2014·江西理,6)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()A .成绩B .视力C .智商D .阅读量[答案] D[解析] A 中,K 2=52×(6×22-10×14)220×32×16×36=131440;B 中,K 2=52×(4×20-12×16)220×32×16×36=637360;C 中,K 2=52×(8×24-8×12)220×32×16×36=1310;D 中,K 2=52×(14×30-2×6)220×32×16×36=3757160.因此阅读量与性别相关的可能性最大,所以选D.15.(文)某养兔场引进了一批新品种,严格按照科学配方进行喂养,四个月后管理员称其体重(单位:kg),将有关数据进行整理后分为五组,并绘制频率分布直方图(如图所示).根据标准,体重超过6kg 属于超重,低于5kg 的不够分量.已知图中从左到右第一、第三、第四、第五小组的频率分别为0.25、0.20、0.10、0.05,第二小组的频数为400,则该批兔子的总数和体重正常的频率分别为( )A .1000,0.50B .800,0.50C .800,0.60D .1000,0.60[答案] D[解析] 第二组的频率为1-0.25-0.20-0.10-0.05=0.40,所以兔子总数为4000.40=1000只,体重正常的频率为0.40+0.20=0.60.故选D.(理)(2014·山东理,7)为了研究某药品的疗效,选取若干名志愿者进行临床试验.所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,……,第五组.下图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )A .6B .8C .12D .18[答案] C[解析] 第一、二两组的频率为0.24+0.16=0.4 ∴志愿者的总人数为200.4=50(人).第三组的人数为:50×0.36=18(人) 有疗效的人数为18-6=12(人) 二、填空题16.(2013·辽宁文,16)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.[答案] 10[解析] 设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5,则x 1+x 2+x 3+x 4+x 55=7,(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)25=4,即5个整数平方和为20,x 1,x 2,x 3,x 4,x 5这5个数中最大数比7大,但不能超过10,因此最大为10,平方和20=0+1+1+9+9=(7-7)2+(8-7)2+(6-7)2+(10-7)2+(4-7)2. 因此参加的人数为4,6,7,8,10,故最大值为10,最小值为4.三、解答题17.(文)(2014·重庆文,17)20名学生某次数学考试成绩(单位:分)的频率分布直方图如下:(1)求频率分布直方图中a的值;(2)分别求出成绩落在[50,60)与[60,70)中的学生人数;(3)从成绩在[50,70)的学生中任选2人,求此2人的成绩都在[60,70)中的概率.[分析]由频率之和为1,求a,然后求出落在[50,60)和[60,70)中的人数,最后用列举法求古典概型的概率.[解析](1)∵组距为10,∴(2a+3a+6a+7a+2a)×10=200a=1,∴a=1200=0.005.(2)落在[50,60)中的频率为2a×10=20a=0.1,∴落在[50,60)中的人数为2.落在[60,70)中的学生人数为3a×10×20=3×0.005×10×20=3.(3)设落在[50,60)中的2人成绩为A1,A2,落在[60,70)中的3人为B1,B2,B3.则从[50,70)中选2人共有10种选法,Ω={(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3)}其中2人都在[60,70)中的基本事件有3个:(B1,B2),(B1,B3),(B2,B3),故所求概率p=310.(理)(2014·辽宁理,18)一家面包房根据以往某种面包的销售记录,绘制了日销售量的频率分布直方图,如图所示.将日销售量落入各组的频率视为概率,并假设每天的销售量相互独立.(1)求在未来连续3天里,有连续2天的日销售量都不低于100个且另1天的日销售量低于50个的概率;(2)用X表示在未来3天里日销售量不低于100个的天数,求随机变量X的分布列,期望E(X)及方差D(X).[解析](1)设A1表示事件“日销售量不低于100个”,A2表示事件“日销售量低于50个”,B表示事件“在未来连续3天是有连续2天日销售量不低于100个且另一天销售量低于50个”,因此P(A1)=(0.006+0.004+0.002)×50=0.6P(A2)=0.003×50=0.15,P(B)=0.6×0.6×0.15×2=0.108.(2)X可能取的值为0,1,2,3,相应的概率为P(X=0)=C03·(1-0.6)3=0.064,P(X=1)=C13·0.6(1-0.6)2=0.288.P(X=2)=C23·0.62(1-0.6)=0.432.P(X=3)=C33·0.63=0.216.分布列为因为X~B(3,0.6)所以期望E(X)=3×0.6=1.8,方差D(X)=3×0.6×(1-0.6)=0.72.18.(文)为加强中学生实践、创新能力和团队精神的培养,促进教育教学改革,郑州市教育局举办了全市中学生创新知识竞赛.某校举行选拔赛,共有200名学生参加,为了解成绩情况,从中选取50名学生的成绩(得分均为整数,满分为100分)进行统计.请你根据尚未完成的频率分布表,解答下列问题:(1)000,001,002,…,199,试写出第二组第一位学生的编号;(2)求出a 、b 、c 、d 、e 的值(直接写出结果),并作出频率分布直方图;(3)若成绩在85.5~95.5分的学生为二等奖,问参赛学生中获得二等奖的学生约为多少人. [解析] (1)004(2)a ,b ,c ,d ,e 的值分别为13,4,0.30,0.08,1. 频率分布直方图如下:(3)由样本中成绩在80.5~90.5的频数为18,成绩在90.5~100.5的频数为4,可估计成绩在85.5~95.5的人数为11人,故获得二等奖的学生约为20050×11=44人.(理)(2012·山西省高考联合模拟)为了了解某年级1000名学生的百米成绩情况,随机抽取了若干学生的百米成绩,成绩全部介于13s 与18s 之间,将成绩按如下方式分成五组:第一组[13,14);第二组[14,15);……;第五组[17,18].按上述分组方法得到的频率分布直方图如图所示,已知图中从左到右的前3个组的频率之比为,且第二组的频数为8.(1)将频率当作概率,求调查中随机抽取了多少个学生的百米成绩;(2)若从第一、五组中随机取出两个成绩,求这两个成绩的差的绝对值大于1秒的概率. [解析] (1)设图中从左到右前3个组的频率分别为3x,8x,19x 依题意,得3x +8x +19x +0.32×1+0.08×1=1,∴x =0.02,设调查中随机抽取了n 个学生的百米成绩,则8×0.02=8n ,∴n =50,∴调查中随机抽取了50个学生的百米成绩.(2)百米成绩在第一组的学生数为3×0.02×1×50=3,记他们的成绩为a 、b 、c 百米成绩在第五组的学生数有0.08×1×50=4,记他们的成绩为m 、n 、p 、q ,则从第一、五组中随机取出两个成绩,基本事件有{a ,b }、{a ,c }、{a ,m }、{a ,n }、{a ,p }、{a ,q }、{b ,c }、{b ,m }、{b ,n }、{b ,p }、{b ,q }、{c ,m }、{c ,n }、{c ,p }、{c ,q }、{m ,n }、{m ,p }、{m ,q }、{n ,p }、{n ,q }、{p ,q },共21个其中满足“成绩的差的绝对值大于1s ”所包含的基本事件有{a ,m }、{a ,n }、{a ,p }、{a ,q }、{b ,m }、{b ,n }、{b ,p }、{b ,q }、{c ,m }、{c ,n }、{c ,p }、{c ,q },共12个,所以P =1221=47.。
第3讲 统计与统计案例考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题.1.随机抽样(1)简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.(3)分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.2.常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距×频率组距=频率; ②各小长方形的面积之和等于1;③小长方形的高=频率组距,所有小长方形的高的和为1组距.(2)茎叶图在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数(2)方差:s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].标准差: s =1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 4.变量的相关性与最小二乘法(1)相关关系的概念、正相关和负相关、相关系数.(2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q =∑i =1n(y i-a -bx i )2最小时,得到线性回归方程y ^=b ^x +a ^的方法叫做最小二乘法. 5.独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是则K 2(χ2)=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 抽样方法例1 (1)(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14(2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例. 答案 (1)B (2)200解析 (1)由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12. (2)本题属于分层抽样,设该学校的教师人数为x ,所以1603 200=160-150x,所以x =200.思维升华(1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.(1)某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,…,1 470编号,若第1组有简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为()A.15 B.16 C.17 D.18(2)(2014·广东)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A.200,20 B.100,20C.200,10 D.100,10答案(1)C(2)A解析(1)由系统抽样方法,知按编号依次每30个编号作为一组,共分49组,高二学生的编号为496到988,在第17组到第33组内,第17组抽取的编号为16×30+23=503,为高二学生,第33组抽取的编号为32×30+23=983,为高二学生,故共抽取高二学生人数为33-16=17,故选C.(2)该地区中、小学生总人数为3 500+2 000+4 500=10 000,则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A.热点二用样本估计总体例2(1)(2014·山东)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为()A.6 B.8 C.12 D.18(2)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是()A.甲B.乙C.甲乙相等D.无法确定甲乙20.04123 6930.0596210.06293310.079640.08770.09246思维启迪(1)根据第一组与第二组的人数和对应频率估计样本总数,然后利用第三组的频率和无疗效人数计算;(2)直接根据公式计算方差.答案(1)C(2)A解析(1)志愿者的总人数为20(0.16+0.24)×1=50,所以第三组人数为50×0.36=18,有疗效的人数为18-6=12.(2)x甲=(0.042+0.053+0.059+0.061+0.062+0.066+0.071+0.073+0.073+0.084+0.086+0.097)÷12≈0.068 9,x乙=(0.041+0.042+0.043+0.046+0.059+0.062+0.069+0.079+0.087+0.092+0.094+0.096)÷12≈0.067 5,s2=112[(0.042-0.068 9)2+(0.053-0.068 9)2+…+(0.097-0.068 9)2]≈0.000 212.s2=112[(0.041-0.067 5)2+(0.042-0.067 5)2+…+(0.096-0.067 5)2]≈0.000 429.所以甲、乙两地浓度的方差较小的是甲地.思维升华(1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等.(2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.(1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.(2)(2014·陕西)设样本数据x 1,x 2,…,x 10的均值和方差分别为1和4,若y i =x i +a (a 为非零常数,i =1,2,…,10),则y 1,y 2,…,y 10的均值和方差分别为( ) A .1+a,4 B .1+a,4+a C .1,4D .1,4+a答案 (1)10 (2)A解析 (1)由频率分布直方图可知: 0.100.40=2.5x,所以x =10. (2)x 1+x 2+…+x 1010=1,y i =x i +a ,所以y 1,y 2,…,y 10的均值为1+a ,方差不变仍为4. 故选A.热点三 统计案例例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y 和房屋的面积x 的数据.根据上表可得线性回归方程y =b x +a 中的b =0.196 2,则面积为150 m 2的房屋的销售价格约为________万元.(2)(2014·江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表4A.成绩 B .视力 C 思维启迪 (1)回归直线过样本点中心(x ,y ); (2)根据列联表,计算K 2的值 答案 (1)31.244 2 (2)D解析 (1)由表格可知x =15(115+110+80+135+105)=109,y =15(24.8+21.6+18.4+29.2+22)=23.2.所以a ^=y -b ^x =23.2-0.196 2×109=1.814 2.所以所求线性回归方程为y ^=0.196 2x +1.814 2.故当x =150时,销售价格的估计值为y ^=0.196 2×150+1.814 2=31.244 2(万元).(2)A 中,a =6,b =14,c =10,d =22,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(6×22-14×10)220×32×16×36=131 440.B 中,a =4,b =16,c =12,d =20,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(4×20-16×12)220×32×16×36=637360.C 中,a =8,b =12,c =8,d =24,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(8×24-12×8)220×32×16×36=1310.D 中,a =14,b =6,c =2,d =30,a +b =20,c +d =32,a +c =16,b +d =36,n =52, K 2=52×(14×30-6×2)220×32×16×36=3 757160.∵131 440<1310<637360<3 757160, ∴与性别有关联的可能性最大的变量是阅读量.思维升华 (1)线性回归方程求解的关键在于准确求出样本点中心.回归系数的求解可直接把相应数据代入公式中求解,回归常数的确定则需要利用中心点在回归直线上建立方程求解;(2)独立性检验问题,要确定2×2列联表中的对应数据,然后代入K 2(χ2)计算公式求其值,根据K 2(χ2)取值范围求解即可.(1)已知x 、y 取值如下表:从所得的散点图分析可知:y 与x 线性相关,且y =0.95x +a ,则a 等于( ) A .1.30 B .1.45 C .1.65 D .1.80(2)某研究机构为了研究人的脚的大小与身高之间的关系,随机抽测了20人,若“身高大于175厘米”的为“高个”,“身高小于等于175厘米”的为“非高个”,“脚长大于42码”的为“大脚”,“脚长小于等于42码”的为“非大脚”.得以下2×2列联表:则在犯错误的概率不超过 (附:P (K 2>k ) 0.05 0.01 0.001 k3.8416.63510.828)答案 (1)B (2)0.01解析 (1)依题意得,x =16×(0+1+4+5+6+8)=4,y =16(1.3+1.8+5.6+6.1+7.4+9.3)=5.25;又直线y ^=0.95x +a ^必过样本点中心(x ,y ),即点(4,5.25),于是有5.25=0.95×4+a ^,由此解得a ^=1.45. (2)由题意得K 2=20×(5×12-1×2)26×14×7×13≈8.802>6.635.而K 2>6.635的概率约为0.01,所以在犯错误的概率不超过0.01的前提下认为人的脚的大小与身高之间有关系.1.随机抽样的方法有三种,其中简单随机抽样适用于总体中的个体数量不多的情况,当总体中的个体数量明显较多时要使用系统抽样,当总体中的个体具有明显的层次时使用分层抽样.系统抽样最重要的特征是“等距”,分层抽样,最重要的是各层的“比例”. 2.用样本估计总体(1)在频率分布直方图中,各小长方形的面积表示相应的频率,各小长方形的面积的和为1. (2)众数、中位数及平均数的异同:众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量.(3)当总体的个体数较少时,可直接分析总体取值的频率分布规律而得到总体分布;当总体容量很大时,通常从总体中抽取一个样本,分析它的频率分布,以此估计总体分布.①总体期望的估计,计算样本平均值x =1n ∑n i =1x i .②总体方差(标准差)的估计:方差=1n ∑ni =1 (x i -x )2,标准差=方差,方差(标准差)较小者较稳定.3.线性回归方程y ^=b ^x +a ^过样本点中心(x ,y ),这为求线性回归方程带来很多方便. 4.独立性检验(1)作出2×2列联表.(2)计算随机变量K 2(χ2)的值.(3)查临界值,检验作答.真题感悟1.(2014·江苏)为了了解一片经济林的生长情况,随机抽测了其中60株树木的底部周长(单位:cm),所得数据均在区间[80,130]上,其频率分布直方图如图所示,则在抽测的60株树木中,有________株树木的底部周长小于100 cm.答案 24解析 底部周长在[80,90)的频率为0.015×10=0.15, 底部周长在[90,100)的频率为0.025×10=0.25,样本容量为60,所以树木的底部周长小于100 cm 的株数为(0.15+0.25)×60=24.2.(2014·重庆)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4C.y ^=-2x +9.5 D.y ^=-0.3x +4.4答案 A解析 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标分别代入选项A 和B 中的线性回归方程进行检验,可以排除B ,故选A. 押题精练1.某地区对某路段公路上行驶的汽车速度实施监控,从中抽取50辆汽车进行测速分析,得到如图所示的时速的频率分布直方图,根据该图,时速在70 km/h 以下的汽车有________辆.答案 20解析 时速在70 km/h 以下的汽车所占的频率为0.01×10+0.03×10=0.4,共有0.4×50=20(辆).2.某教育出版社在高三期末考试结束后,从某市参与考试的考生中选取600名学生对在此期间购买教辅资料的情况进行调研,得到如下数据:的学生应抽取的人数为________. 答案 24解析 只买试题类的学生应抽取的人数为60×240600=24.3.下表提供了某厂节能减排技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y =0.7x +0.35,那么表中t 的值为________. 答案 3解析 ∵样本点中心为⎝⎛⎭⎫4.5,11+t 4,∴11+t 4=0.7×4.5+0.35,解得t =3.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )参照附表,得到的正确结论是( )A .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关” 答案 C解析 由公式可计算K 2的观测值k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(45×15-30×10)255×45×75×25≈3.03>2.706,所以有90%以上的把握认为“该市民能否做到‘光盘’与性别有关”,故选C.(推荐时间:40分钟)一、选择题1.(2014·湖南)对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则() A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3答案 D解析由于三种抽样过程中,每个个体被抽到的概率都是相等的,因此p1=p2=p3.2.某中学高中一年级有400人,高中二年级有320人,高中三年级有280人,现从中抽取一个容量为200人的样本,则高中二年级被抽取的人数为()A.28 B.32C.40 D.64答案 D解析由已知,得样本容量为400+320+280=1 000,所以,高中二年级被抽取的人数为2001 000×320=64,选D.3.(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08C.02 D.01答案 D解析从第1行第5列、第6列组成的数65开始由左到右依次选出的数为:08,02,14,07,01,所以第5个个体编号为01.4.为了了解某城市今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为120,则抽取的学生人数是()A .240B .280C .320D .480答案 D解析 由频率分布直方图知:学生的体重在65~75 kg 的频率为(0.012 5+0.037 5)×5=0.25, 则学生的体重在50~65 kg 的频率为1-0.25=0.75. 从左到右第2个小组的频率为0.75×26=0.25.所以抽取的学生人数是120÷0.25=480.5.某产品在某零售摊位上的零售价x (单位:元)与每天的销售量y (单位:个)的统计资料如下表所示:由上表可得线性回归方程y ^=b ^x +a 中的b =-4,据此模型预计零售价定为15元时,每天的销售量为( ) A .48个 B .49个 C .50个 D .51个答案 B解析 由题意知x =17.5,y =39,代入线性回归方程得a ^=109,109-15×4=49,故选B. 6.某校为了研究学生的性别和对待某一活动的态度(支持和不支持的两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有________的把握认为“学生性别与支持该活动有关系.”( ) 附:A.0.1% C .99% D .99.9%答案 C解析 因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”,选C.7.某苗圃基地为了解基地内甲、乙两块地种植的同一种树苗的长势情况,从两块地各随机抽取了10株树苗,用茎叶图表示上述两组数据,对两块地抽取树苗的高度的平均数x 甲,x 乙和中位数y 甲,y 乙进行比较,下面结论正确的是( ) A.x 甲>x 乙,y 甲>y 乙 B.x 甲<x 乙,y 甲<y 乙 C.x 甲<x 乙,y 甲>y 乙 D.x 甲>x 乙,y 甲<y 乙 答案 B 二、填空题8.从某中学高一年级中随机抽取100名同学,将他们的成绩(单位:分)数据绘制成频率分布直方图(如图).则这100名学生成绩的平均数、中位数分别为________.答案 125,124解析 由图可知(a +a -0.005)×10=1-(0.010+0.015+0.030)×10,解得a =0.025,则x =105×0.1+115×0.3+125×0.25+135×0.2+145×0.15=125.中位数在120~130之间,设为x ,则0.01×10+0.03×10+0.025×(x -120)=0.5,解得x =124.9.某校开展“爱我海西、爱我家乡”摄影比赛,9位评委为参赛作品A 给出的分数如茎叶图所示.记分员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x )无法看清,若记分员计算无误,则数字x 应该是__________. 答案 1解析 当x ≥4时,89+89+92+93+92+91+947=6407≠91,∴x <4,∴89+89+92+93+92+91+x +907=91,∴x =1.10.(2013·辽宁)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________. 答案 10解析 设5个班级中参加的人数分别为x 1,x 2,x 3,x 4,x 5, 则由题意知x 1+x 2+x 3+x 4+x 55=7,(x 1-7)2+(x 2-7)2+(x 3-7)2+(x 4-7)2+(x 5-7)2=20, 五个整数的平方和为20,则必为0+1+1+9+9=20, 由|x -7|=3可得x =10或x =4. 由|x -7|=1可得x =8或x =6.由上可知参加的人数分别为4,6,7,8,10, 故最大值为10. 三、解答题11.(2014·课标全国Ⅱ)某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表:(1)求(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入. 附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2,a ^=y -b ^t .解 (1)由所给数据计算得t =17(1+2+3+4+5+6+7)=4,y =17(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17=(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t )(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17(t i -t )(y i -y )∑i =17(t i -t )2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3,所求线性回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的线性回归方程,得y ^=0.5×9+2.3=6.8, 故预测该地区2015年农村居民家庭人均纯收入为6.8千元.12.某城市随机抽取一年(365天)内100天的空气质量指数API 的监测数据,结果统计如下:式为:S =⎩⎪⎨⎪⎧0, 0≤w ≤1004w -400,100<w ≤3002 000, w >300,试估计在本年度内随机抽取一天,该天经济损失S 大于200元且不超过600元的概率;(2)若本次抽取的样本数据有30天是在供暖季,其中有8天为重度污染.完成下面2×2列联表,并判断能否有95%的把握认为该市本年空气重度污染与供暖有关?附: K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ).解 (1)设“在本年内随机抽取一天,该天经济损失S 大于200元且不超过600元”为事件A , 由200<S ≤600,得150<w ≤250,频数为39, 所以P (A )=39100.(2)根据以上数据得到如下列联表:K 2的观测值k =100×(63×8-22×7)85×15×30×70≈4.575>3.841.所以有95%的把握认为空气重度污染与供暖有关.。