高三数学一轮精品复习学案:第十章 统计、统计案例
- 格式:doc
- 大小:343.63 KB
- 文档页数:11
2012版高三数学一轮精品复习学案:第十章 统计、统计案例10.3统计案例【高考目标导航】 一、考纲点击1.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;2.了解回归分析的基本思想、方法及其简单应用. 二、热点提示1.本部分主要内容是变量的相关性及其几种常见的统计方法.在高考中主要是以考查独立性检验、回归分析为主,并借助解决一些简单的实际问题来了解一些基本的统计思想;2.本部分在高考中多为选择、填空题,也有可能出现解答题,都为中低档题. 【考纲知识梳理】 1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示,其中a b 和为模型的未知数,e 称为随机误差.(3)样本点的中心在具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y 中,回归方程的截距和斜率的最小二乘估计公式分别为:121()()ˆˆˆˆ,.()niii nii x x y y bay bx x x ==--==--∑∑其中1111,,(,)n ni i i i x x y y x y n n ====∑∑称为样本点的中心.(4)相关系数①()()niix x y y r --=∑②当0r >时,表明两个变量正相关; 当0r <时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常||r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()nii y y =-∑(2)残差数据点和它回归直线上相应位置的差异 ()i i y y -是随机误差的效应,称 ii i e y y =-为残差. (3)残差平方和21()niii y y =-∑.(4)相关指数22121()()niii nii y y R y y ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率, 2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量. (3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注: 在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值,或者说2K 是一个随机变量,它在a ,b ,c ,d )取不同值时,2K 可能不同,而k 是取定一组数a ,b ,c ,d 后的一个确定的值.【要点名师透析】 (一)线性回归分析 ※相关链接※1.首先利用散点图判断两个变量是否线性相关.2.求回归方程 y bx a =+ .(1)线性回归方程中的截距 a 和斜率b都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.(2)回归方程y bx a =+ 中的b表示x 增加1个单位时y 的变化量为b.(3)可以利用回归方程 y bx a =+ 预报在x 取某一个值时y 的估计值.3.相关系数r利用相关系数r 来衡量两个变量之间的线性相关的强弱. 4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a =+ ).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值. ※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x 与进行相关性检验;(2)如果y x 与之间具有线性相关关系,求回归方程.(3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r ,判断是否具有相关关系. (2)再利用分工求出回归方程进行回归分析. 解答:(1)10101022221111066.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,10i i i ii i ii ix y x y x y x yx y x yr======≈===-==∑∑∑∑0.804.≈所以y x与之间具有很强的线性相关关系.(2)设回归方程为y bx a=+.由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i iiiix y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.a y bx=-=-⨯≈故所求的回归方程为:ˆ0.464635.97y x=+.(3)当x=73时,ˆ0.46467335.9769.9y=⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析※相关链接※1.非线性回归模型:当回归方程不是形如y bx a=+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n nx y x y x y,两个含有未知数的模型(1)(2)(,)(,)y f x a y g x b==和,其中a b和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b==和,其中ˆˆa b和分别是参数a b和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()n ni i i ii iQ y y Q y y===-=-∑∑和;(3)若(1)ˆQ<(2)ˆQ,则(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b==的效果比;反之,(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b==的效果不如的好.※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图; (2)描述解释变量x 与预报变量y 之间的关系; (3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析. 解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c xy c e =的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,z x =+则有 1.69 1.112ˆx y e +=.(3)则662211ˆˆ() 3.1643iiii i ey y ===-=∑∑,621ˆ()iii y y=-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效? 思路解析:(1)先由已知作出调查数据的列联表; (2)再根据列联表画出二维条形图,并进行分析; (3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,a b c d a b c d ====+=+=代入公式22()()()()()n ad bcKa b c d a c b d-=++++得221000(385146442)27.148052044956K⨯⨯-⨯=≈⨯⨯⨯。
第十章 ⎪⎪⎪统计与统计案例第一节 统 计突破点(一) 随机抽样1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样). 3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样. 4.三种抽样方法的比较1.抽签法的步骤第一步,将总体中的N 个个体编号; 第二步,将这N 个号码写在形状、大小相同的号签上; 第三步,将号签放在同一不透明的箱中,搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k 次; 第五步,将总体中与抽取的号签的编号一致的k 个个体取出. 2.随机数法的步骤第一步,将个体编号; 第二步,在随机数表中任选一个数开始;第三步,从选定的数开始,按照一定抽样规则在随机数表中选取数字,取足满足要求的数字就得到样本的号码.1、(1)以下抽样方法是简单随机抽样的是( )A .在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B .某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C .某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D .用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )A.08系统抽样的步骤(1)先将总体的N 个个体编号;(2)确定分段间隔k (k ∈N *),对编号进行分段.当N n (n 是样本容量)是整数时,取k =Nn ;(3)在第1段用简单随机抽样确定第1个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.2、(1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.用系统抽样法抽取样本,当Nn 不为整数时,取k =N n ⎡⎤⎢⎥⎣⎦,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.进行分层抽样的相关计算时,常利用以下关系式巧解: (1)样本容量n 总体的个数N =该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比=样本中这两层抽取的个体数之比.3、(1)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A .90 B .100 C .180D .300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n 的样本,其中甲种产品有18件,则样本容量n =( ) A .54 B .90 C .45D .126(3)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).篮球组 书画组 乐器组 高一 45 30 a 高二151020生中抽取30人,结果篮球组被抽出12人,则a 的值为________.分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同. (3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样. (4)抽样比=样本容量总体容量=各层样本数量各层个体数量.4、[考点一]某工厂的质检人员对生产的100件产品,采用随机数法抽取10件检查,对100件产品采用下面的编号方法①1,2,3,…,100; ②001,002,…,100; ③00,01,02,…,99; ④01,02,03,…,100. 其中正确的序号是( )A .②③④B .③④C .②③D .①②5、[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A ,B ,C 三所中学抽取60名教师进行调查,已知A ,B ,C 三所学校中分别有180,270,90名教师,则从C 学校中应抽取的人数为( ) A .10 B .12 C .18 D .246、[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( )A .10B .11C .12D .167、[考点三]某市有A 、B 、C 三所学校,共有高三文科学生1 500人,且A 、B 、C 三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B 校学生中抽取________人.8、[考点二]为了了解本班学生对网络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.突破点(二) 用样本估计总体1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点:茎叶图的优点是可以保留原始数据,而且可以随时记录,这对数据的记录和表示都能带来方便. 2.样本的数字特征 (1)众数、中位数、平均数(2)①标准差:样本数据到平均数的一种平均距离,(n s x x =++-②方差:标准差的平方s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x i (i =1,2,3,…,n )是样本数据,n 是样本容量,x 是样本平均数.③方差与标准差相比,都是衡量样本数据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均数、方差公式的推广:若数据x 1,x 2,…,x n 的平均数为x ,方差为s 2,则数据mx 1+a ,mx 2+a ,…,mx n +a 的平均数为m x +a ,方差为m 2s 2.9、(1)(2016·山东高考),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是( )A .56B .60C .120D .140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1来检验该表是否正确; (2)频率分布直方图的纵坐标是频率组距,而不是频率.2.与频率分布直方图计算有关的两个关系式 (1)频率组距×组距=频率; ( 2)频数样本容量=频率,此关系式的变形为频数频率=样本容量,样本容量×频率=频数.10、B进行对照试验,两种小麦各种植了25亩,所得亩产数据(单位:千克)如下.品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出数据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.11、(2016·北京高考)w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图.(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.12、(1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为17,乙组数据的平均数为17.4,则x ,y 的值分别为( )A.7,8 B .5,7 D .7,7(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:则713、甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:A .甲B .乙C .丙D .丁14、[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频数为( )A .0.25B .0.5C .20D .16 15、[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 12 2 23 34 45 5 56 67 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是( )A .3B .4C .5D .616、[考点一]某班50位学生期中考试数学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于( )A .0.12B .0.012C .0.18D .0.01817、[考点三·考法二]如图是某学校举行的运动会上七位评委为某体操项目打出的分数的茎叶统计图,去掉一个最高分和一个最低分后,所剩数据的平均数和方差分别为()7984464793A.84,4.84 B.84,1.6 C.85,1.6 D.85,418、[考点三·考法三]甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲108999乙1010799如果甲、乙两人中只有1人入选,则入选的最佳人选应是________.19、[考点三·考法一](2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.20、[考点三·考法二]某车间20名工人年龄数据如下表:(1)求这20名工人年龄的众数与极差;(2)以十位数为茎,个位数为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.[全国卷5年真题集中演练——明规律]21、(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个22、(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合理的抽样方法是()A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样23、(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125)频数62638228(1)(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?24、(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位数;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.25.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.5 2.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4服用B药的20位患者日平均增加的睡眠时间:3.2 1.7 1.90.80.9 2.4 1.2 2.6 1.3 1.4 1.60.5 1.80.6 2.1 1.1 2.5 1.2 2.70.5(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?[课时达标检测五十] 统计[练基础小题——强化运算能力]1.某学校为了了解某年高考数学的考试成绩,在高考后对该校1 200名考生进行抽样调查,其中有400名文科考生,600名理科考生,200名艺术和体育类考生,从中抽取120名考生作为样本,记这项调查为①;从10名家长中随机抽取3名参加座谈会,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是()A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法2.某校数学教研组为了解学生学习数学的情况,采用分层抽样的方法从高一600人、高二780人、高三n 人中,抽取35人进行问卷调查.已知高二被抽取的人数为13,则n=()A.660 B.720 C.780 D.8003.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为()A.93 B.123 C.137 D.1674.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为()A.①③B.①④C.②③D.②④5.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1)直方图中x的值为________;(2)在这些用户中,用电量落在区间[100,250)内的户数为________.[练常考题点——检验高考能力]6.从甲、乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲、乙两组数据的平均数分别为x甲、x乙,中位数分别为m甲、m乙,则()A.x甲<x乙,m甲>m乙B.x甲<x乙,m甲<m乙C.x甲>x乙,m甲>m乙D.x甲>x乙,m甲<m乙7.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C,则抽到的人中,做问卷B的人数为()A.7 B.9 C.10 D.158.如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在[30,35),[35,40),[40,45]的网民人数成递减的等差数列,则年龄在[35,40)的网民出现的频率为()A.0.04 B.0.06 C.0.2 D.0.39.10名工人某天生产同一零件,生产的零件数分别是15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有()A.a>b>c B.b>c>a C.c>a>b D.c>b>a 10.(2016·九江二模)已知一组数据x1,x2,…,x n的方差为2,若数据ax1+b,ax2+b,…,ax n+b(a>0)的方差为8,则a的值为()A.1 B. 2 C.2 D.411.(2017·邢台模拟)样本中共有五个个体,其值分别为0,1,2,3,m.若该样本的平均值为1,则其方差为()A.105 B.305 C. 2 D.212.某中学高三从甲、乙两个班中各选出7名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图所示,其中甲班学生成绩的众数是85,乙班学生成绩的中位数是83,则x+y的值为________.13.某公司300名员工2016年年薪情况的频率分布直方图如图所示,由图可知,员工中年薪在1.4~1.6万元的共有________人.14.某学校共有教师300人,其中中级教师有192人,高级教师与初级教师的人数比为5∶4.为了解教师专业发展需求,现采用分层抽样的方法进行调查,在抽取的样本中有中级教师64人,则该样本中的高级教师人数为________.15.某校甲、乙两个班级各有5名编号为1,2,3,4,5的学生进行投篮练习,每人投10次,投中的次数如表:学生1号2号3号4号5号甲班67787乙班676792216.为检查某工厂所生产的8万台电风扇的质量,抽查了其中20台的无故障连续使用时限(单位:小时)如下:248256232243188268278266289312274296288302295228287217329283(1)完成下面的频率分布表,并作出频率分布直方图;(2)估计8 万台电风扇中有多少台无故障连续使用时限不低于280小时;(3)用组中值(同一组中的数据在该组区间的中点值)估计样本的平均无故障连续使用时限.17.随着移动互联网的发展,与餐饮美食相关的手机应用软件层出不穷.现从使用A和B两款订餐软件的商家中分别随机抽取50个商家,对它们的“平均送达时间”进行统计,得到频率分布直方图如下:(1)试估计使用A款订餐软件的50个商家的“平均送达时间”的众数及平均数;(2)根据以上抽样调查数据,将频率视为概率,回答下列问题:①能否认为使用B款订餐软件“平均送达时间”不超过40分钟的商家达到75%?②如果你要从A和B两款订餐软件中选择一款订餐,你会选择哪款?说明理由.第二节统计案例突破点(一)回归分析1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线. (2)回归方程为y ^=b ^x +a ^,其中, a ^=y --b ^x -.(3)相关系数:当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.1、(1))(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r |越趋近于1相关性越强.1.求回归直线方程的步骤2.利用回归直线方程进行预测是对总体的估计,此估计值不是准确值.进行预测时,把自变量代入回归直线方程即可对因变量进行估计.2、(2017·山西四校联考)某地随着经济的发展,居民收入逐年增长,下表是该地某银行连续五年的储蓄存款(年底余额),如下表1:年份x 2011 2012 2013 2014 2015 储蓄存款y (千亿元)5678102:时间代号t1 2 3 4 5 z1235(1)求z 关于t (2)通过(1)中的方程,求出y 关于x 的回归方程;(3)用所求回归方程预测到2020年年底,该地储蓄存款额可达多少? (附:对于线性回归方程, a ^=y --b ^x -)2、[考点一]两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A .℃℃℃B .℃℃℃C .℃℃℃D .℃℃℃ 4、[考点一]为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点图(x 轴,y 轴的单位长度相同),用回归直线方程y ^=b ^x +a ^近似地刻画其相关关系,根据图形,以下结论最有可能成立的是( )A .线性相关关系较强,b ^的值为1.25B .线性相关关系较强,b ^的值为0.83 C .线性相关关系较强,b ^的值为-0.87 D .线性相关关系较弱,无研究价值5、[考点一]四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( )A .℃℃B .℃℃C .℃℃D .℃℃6、[考点二]已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________.7、[考点二]为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:(1)求y 关于x 的线性回归方程y =b x +a ;(2)若每吨该农产品的成本为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保留两位小数)突破点(二) 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=2()()()()()n ad bc a b c d a c b d -++++(其中n =a +b +c +d 为样本容量),可利用独立性检验判断表来判断“X与Y 的关系”.独立性检验的实际应用8、(2017·沈阳模拟)未发病 发病 总计 未注射疫苗 20 x A 注射疫苗 30 y B 总计5050100现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值;(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率? (3)能够有多大把握认为疫苗有效? 附:K 2=2()()()()()n ad bc a b c d a c b d -++++(其中n =a +b +c +d )P (K 2≥k 0) 0.05 0.01 0.005 0.001 k 03.8416.6357.87910.8289、通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下所示的2×2列联表:男女总计走天桥402060走斑马线203050总计6050110由K2=2()()()()()n ad bca b c d a c b d-++++≈7.8 附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828A.有99%以上的把握认为“选择过马路的方式与性别有关”B.有99%以上的把握认为“选择过马路的方式与性别无关”C.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D.在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”10、已知某班n名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a,b,c成等差数列,且成绩在[90,100]内的有6人.(1)求n的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879K2=()()()()()n ad bca b c d a c b d-++++[全国卷5年真题集中演练——明规律]。
第1讲 随机抽样【2013年高考会这样考】1.以选择题或填空题的形式考查随机抽样方法以及有关的计算.特别是对分层抽样的考查,几乎每年都出现在高考试题中.2.在解答题中与概率统计的有关问题相结合进行综合考查.【复习指导】1.本讲复习时,应准确理解三种抽样方法的定义,搞清它们之间的联系与区别,灵活选择恰当的抽样方法抽取样本.2.新课标高考近几年常将抽样方法与频率分布直方图、概率等相结合进行综合考查,因此,要加强这方面的训练.基础梳理1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本.(1)编号:先将总体的N 个个体编号;(2)分段:确定分段间隔k ,对编号进行分段,当N n (n 是样本容量)是整数时,取k =N n ;(3)确定首个个体:在第1段用简单随机抽样确定第一个个体编号l (l ≤k );(4)获取样本:按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ),依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.4.分层抽样的步骤(1)分层:将总体按某种特征分成若干部分;(2)确定比例:计算各层的个体数与总体的个体数的比;(3)确定各层应抽取的样本容量;(4)在每一层进行抽样(各层分别按简单随机抽样或系统抽样的方法抽取),综合每层抽样,组成样本.一条规律三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n ,总体的个体数为N ,则用这三种方法抽样时,每个个体被抽到的概率都是n N .三个特点(1)简单随机抽样的特点:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小;用简单随机抽样法抽出的个体带有随机性,个体间无固定间距.(2)系统抽样的特点:适用于元素个数很多且均衡的总体;各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.(3)分层抽样的特点:适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.双基自测1.(人教A 版教材习题改编)某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( ).A .33人,34人,33人B .25人,56人,19人C .30人,40人,30人D .30人,50人,20人 解析 因为125∶280∶95=25∶56∶19,所以抽取人数分别为:25人,56人,19人. 答案 B2.(2012·福州质检)为了了解全校240名学生的身高情况,从中抽取40名学生进行测量,下列说法正确的是( ).A .总体是240B .个体是每一个学生C .样本是40名学生D .样本容量是40解析 总体容量是240,总体是240名学生的身高;个体是每名学生的身高;样本是40名学生的身高;样本容量是40.答案 D3.(2012·昆明调研)下列说法中正确说法的个数是( ).①总体中的个体数不多时宜用简单随机抽样法;②在总体均分后的每一部分进行抽样时,采用的是简单随机抽样;③百货商场的抓奖活动是抽签法;④整个抽样过程中,每个个体被抽取的概率相等(有剔除时例外).A.1 B.2 C.3 D.4解析①②③显然正确,系统抽样无论有无剔除都是等概率抽样;④不正确.答案 C4.老师在班级50名学生中,依次抽取学号为5,10,15,20,25,30,35,40,45,50的学生进行作业检查,这种抽样方法是( ).A.随机抽样B.分层抽样C.系统抽样D.以上都不是解析因为所抽取学生的学号成等差数列,即为等距离抽样,属于系统抽样.答案 C5.(2011·天津)一支田径队有男运动员48人,女运动员36人,若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为________.解析抽取的男运动员的人数为2148+36×48=12.答案12考向一简单随机抽样【例1】►某车间工人加工一种轴承100件,为了了解这种轴承的直径,要从中抽取10件轴承在同一条件下测量,如何采用简单随机抽样的方法抽取样本?[审题视点] 考虑到总体中个体数较少,利用抽签法或随机数表法均可容易获取样本.须按这两种抽样方法的操作步骤进行.抽签法应“编号、制签、搅匀、抽取”;随机数表法应“编号、确定起始数、读数、取得样本”.解法一(抽签法)将100件轴承编号为1,2,…,100,并做好大小、形状相同的号签,分别写上这100个数,将这些号签放在一起,进行均匀搅拌,接着连续抽取10个号签,然后测量这10个号签对应的轴的直径.法二(随机数表法)将100件轴承编号为00,01,02,…,99,在随机数表中选定一个起始位置,如取第21行(见随机数表)第1个数开始,选取10个为68,34,30,13,70,55,74,30,77,40,这10件即为所要抽取的样本.(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀,一般地,当总体容量和样本容量都较小时可用抽签法.(2)随机数表中共随机出现0,1,2,…,9十个数字,也就是说,在表中的每个位置上出现各个数字的机会都是相等的.在使用随机数表时,如遇到三位数或四位数时,可从选择的随机数表中的某行某列的数字计起,每三个或每四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.【训练1】福利彩票的中奖号码是在1~36个号码中,选出7个号码来按规则确定中奖情况,这种从36个号码中选7个号的适宜的抽样方法是________.答案抽签法考向二系统抽样【例2】►用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为123,则第2组中应抽出个体的号码是________.[审题视点] 根据系统抽样的特点,确定组数和每组的样本数,写出每组抽取号码的表达式,确定第一组所抽取的号码数,代入公式即可求得第2组抽取样本的号码.解析由题意可知,系统抽样的组数为20,间隔为8,设第1组抽出的号码为x,则由系统抽样的法则可知,第n组抽出个体的号码应该为x+(n-1)×8,所以第16组应抽出的号码为x+(16-1)×8=123,解得x=3,所以第2组中应抽出个体的号码为3+(2-1)×8=11. 答案11(1)系统抽样的特点——机械抽样,又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.(2)系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.【训练2】从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是( ).A.5,10,15,20,25 B.3,13,23,33,43C.1,2,3,4,5 D.2,4,6,16,32解析间隔距离为10,故可能编号是3,13,23,33,43.答案 B考向三分层抽样【例3】►某市电视台在因特网上征集电视节目的现场参与观众,报名的共有1 2000人,分别来自4个城区,其中东城区2 400人,西城区4 600人,南城区3 800人,北城区1 200人,从中抽取60人参加现场节目,应当如何抽取?[审题视点] 因为地域有名显的差异,故采用分层抽样.解 因为:60∶1 2000=1∶200,所以2 400200=12,4 600200=23,3 800200=19,1 200200=6. 故从东城区中抽取12人,从西城中抽23人,从南城中抽19人,从北城区中抽6人.在分层抽样的过程中,为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即n i ∶N i =n ∶N .【训练3】 (2010·重庆)某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为( ).A .7B .15C .25D .35解析 由题意知,青年职工人数∶中年职工人数∶老年职工人数=350∶250∶150=7∶5∶3.由样本中青年职工为7人得样本容量为15.答案 B难点突破22——高考中抽样方法问题从近两年新课标高考试题可以看出高考主要是以选择题或填空题的形式考查抽样方法,难度并不大.其中重点考查分层抽样,其次是系统抽样.计算时应注意:分层抽样是按比例抽样,系统抽样首先是对总体分段的计算,注意分段时可能要排除一些个体,各段的间距是一样的.【示例1】► (2011·福建)某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为( ).【示例2】► (2011·山东)某高校甲、乙、丙、丁四个专业分别有150、150、400、300名学生.为了解学生的就业倾向,用分层抽样的方法从该校这四个专业共抽取40名学生进行调查,应在丙专业抽取的学生人数为________.【示例3】►(2010·湖北)将参加夏令营的600名学生编号为:001,002,…,600,采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为( ).A.26,16,8 B.25,17,8C.25,16,9 D.24,17,9。
1.统计图表统计图表是表达和分析数据的重要工具,常用的统计图表有条形统计图、扇形统计图、折线统计图、茎叶图等.2.数据的数字特征(1)众数、中位数、平均数众数:在一组数据中,出现次数最多的数据叫作这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数.平均数:样本数据的算术平均数,即x=错误!(x1+x2+…+x n).在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.(2)样本方差、标准差标准差s=错误!,其中x n是样本数据的第n项,n是样本容量,错误!是平均数.标准差是刻画数据的离散程度的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.3.用样本估计总体(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的频率分布,另一种是用样本的数字特征估计总体的数字特征.(2)在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小长方形的面积表示,各小长方形的面积总和等于1。
(3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且可以随时记录,方便表示与比较.【思考辨析】判断下面结论是否正确(请在括号中打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( √)(2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( ×)(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( √)(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( ×)(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √)(6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( ×)1.(2015·陕西)某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为()A.93 B.123C.137 D.167答案C解析由题干扇形统计图可得该校女教师人数为:110×70%+150×(1-60%)=137。
10.10 抽样方法总体分布的估计一、明确复习目标1.会用随机抽样、系统抽样、分层抽样等常用的抽样方法从总体中抽取样本2.会用样本频率分布去估计总体分布3.了解正态分布的意义及主要性质4.了解线性回归的方法和简单应用二.建构知识网络1.简单随机抽样:设一个总体的个体数为N.如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.⑴简单随机抽样的特点:逐个抽取,不放回抽样,各个个体被抽到的概率相等.简单随机抽样方法是其他更复杂抽样方法的基础.(2)简单随机抽样的两种方法:①抽签法:编号写签,搅拌均匀,逐个抽取.先后抽取概率均等.抽签法简便易行,适用于个体数不太多总体.②随机数表法:“三步曲”:第一步,将总体中的个体编号;第二步,选定开始的数字;第三步,获取样本号码2.系统抽样:当总体中的个体数较多时,可将总体分成均衡的几个部分,然后按预先定出的规则,从每一部分抽取一个个体,得到需要的样本,这种抽样叫做系统抽样.系统抽样的步骤:(总体中的个体的个数为N,样本容量为n)①采用随机的方式将总体中的个体编号.为简便起见,有时可直接采用个体所带有的号码,如考生的准考证号、街道上各户的门牌号,等等②确定分段(部分)的间隔k当Nn是整数时,k=Nn;当Nn不是整数时,先从总体中用简单随机抽样剔除一些个体,使剩下的总体中个体数N'能被n整除,取k=Nn'.③在第一段用简单随机抽样确定起始的个体编号l.④按照事先确定的规则抽取样本(通常是将l加上间隔k,得到第2个编号l+k,第3个编号l+2k,……)与简单随机抽样一样,系统抽样是等概率抽样,它是客观的、公平的.可以证明:当n不能整除N时,先刎除的个体与其它个体一样,被抽的概率也是1/N.3.分层抽样: 当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比例进行抽样,这种抽样叫做分层抽样,所分成的部分叫做层.简单随机抽样,系统抽样,分层抽样都是等概率抽样,简单随机抽样是基础,系统抽样的第一部分和分层抽样的每一层都采用简单随机抽样. 随机抽样、系统抽样、分层抽样都是不放回抽样4.频率分布:用样本估计总体,是研究统计问题的基本思想方法,样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的频率.所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布.可以用样本频率表、样本频率分布条形图或频率分布直方图来表示.5.总体分布:从总体中抽取一个个体,就是一次随机试验,从总体中抽取一个容量为n 的样本,就是进行了n 次试验,试验连同所出现的结果叫随机事件,所有这些事件的概率分布规律称为总体分布. 总体分布是不易知道的,通常用“样本频率分布估计总体分布”,这是统计的基本思想方法,样本容量越大,估计越精确.6.总体密度曲线:如果ξ是连续型随机变量,就把ξ的取值区间分组,当样本容量无限增大,分组的组距无限缩小,各组的频率就越接近于总体在相应各组取值的概率,那么频率分布直方图就会无限接近于一条光滑曲线,它反映了总体在各个范围内取值的概率.根据这条曲线,可求出总体在区间(a ,b )内取值的概率等于该区间上总体密度曲线与x 轴、直线x =a 、x =b 所围成曲边梯形的面积。
第二讲 用样本估计总体知识梳理·双基自测 知识梳理知识点一 用样本的频率分布估计总体分布 (1)频率分布表与频率分布直方图频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布规律,从中可以看到整个样本数据的频率分布情况.绘制频率分布直方图的步骤为:①_求极差__;②_决定组距与组数__;③_将数据分组__;④_列频率分布表__;⑤_画频率分布直方图__.(2)频率分布折线图顺次连接频率分布直方图中_各小长方形上端的中点__,就得到频率分布折线图. (3)总体密度曲线总体密度曲线反映了总体在各个范围内取值的百分比,它能提供更加精细的信息. 知识点二 茎叶图(1)茎叶图中茎是指_中间__的一列数,叶是从茎的_旁边__生长出来的数.(2)茎叶图的优点是可以_保留__原始数据,而且可以_随时__记录,这对数据的记录和表示都能带来方便.知识点三 样本的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数:x =_x 1+x 2+…+x nn__,反映了一组数据的平均水平.(4)标准差: s =_1n[x 1-x2+x 2-x2+…+x n -x2]__,反映了样本数据的离散程度.(5)方差:s 2=_1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]__,反映了样本数据的离散程度.重要结论(1)若一组数据x i (i =1,2,…,n)的平均数为x -,方差为s 2,则数据组ax i +b(i =1,2,…,n ,a ,b 为常数)的平均数为a x -+b ,方差为a 2·s 2.(2)频率分布直方图与众数、中位数与平均数的关系 ①最高的小长方形底边中点的横坐标即是众数.②中位数左边和右边的小长方形的面积和是相等的,均为12.③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.双基自测题组一 走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( √ ) (2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( × )(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( √ )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( × )(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ ) (6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( × ) 题组二 走进教材2.(P 81A 组T1改编)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( B )A .95,94B .92,86C .99,86D .95,91[解析]由茎叶图可知,此组数据由小到大排列依次76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B .3.(P 7T1)如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有_25__人.[解析]100×(0.5×0.5)=25(人).题组三走向高考4.(2020·新课标Ⅲ)设一组样本数据x1,x2,…,x n的方差为0.01,则数据10x1,10x2,…,10x n的方差为( C )A.0.01 B.0.1C.1 D.10[解析]∵样本数据x1,x2,…,x n的方差为0.01,∴根据任何一组数据同时扩大几倍方差将变为平方倍增长,∴数据10x1,10x2,…,10x n的方差为:100×0.01=1,故选C.5.(2020·天津)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( B )A.10 B.18C.20 D.36[解析]直径落在区间[5.43,5.47)的频率为(6.25+5)×0.02= 0.225,则被抽取的零件中,直径落在区间[5.43,5.47)内的个数为0.225×80 =18个,故选B.考点突破·互动探究考点一频率分布直方图——自主练透例1 (1)(2021·江西赣州十四县联考)中央电视台播出《中国诗词大会》火遍全国,下面是组委会在选拔赛时随机抽取的100名选手的成绩,按成绩分组,得到的频率分布表如下所示:组号分组频数频率第1组[160,165) 0.100笫2组[165,170) ①第3组[170,175) 20 ②第4组[175,180) 20 0.200第5组[180,185) 10 0.100合计100 1.00(ⅰ)请先求出频率分布表中①、②位置的相应数据,再完成频率分布直方图(用阴影表示).(ⅱ)为了能选拔出最优秀的选手,组委会决定在笔试成绩高的第3,4,5组中用分层抽样抽取5名选手进入第二轮面试,则第3,4,5组每组各抽取多少名选手进入第二轮面试?(ⅲ)在(ⅱ)的前提下,组委会决定在5名选手中随机抽取2名选手接受考官A面试,求第4组至少有一名选手被考官A面试的概率.(2)(2021·福建漳州质检)2018年9月的台风“山竹”对我国多个省市的财产造成重大损害,据统计直接经济损失达52亿元.某青年志愿者组织调查了某地区的50个农户在该次台风中造成的直接经济损失,将收集的损失数据分成五组:[0,2 000],(2 000,4 000],(4 000,6 000],(6 000,8 000],(8 000,10 000](单位:元),得到如图所示的频率分布直方图.(ⅰ)试根据频率分布直方图估计该地区每个农户的损失(同一组中的数据用该区间的中点值代表);(ⅱ)台风后该青年志愿者与当地政府向社会发出倡议,为该地区的农户捐款帮扶,现从这50户损失超过4 000元的农户中随机抽取2户进行重点帮扶,设抽出损失超过8 000元的农户数为X,求X的分布列和数学期望.[解析](1)(ⅰ)第1组的频数为100×0.100=10,所以①处应填的数为100-(10+20+20+10)=40, 从而第2组的频率为40100=0.400.②处应填的数为1-(0.1+0.4+0.2+0.1)=0.200. 频率分布直方图如图所示.(ⅱ)因为第3,4,5组共有50名选手,所以利用分层抽样在50名选手中抽取5名选手进入第二轮面试时,每组抽取的人数分别为:第3组:2050×5=2,第4组:2050×5=2,第5组:1050×5=1,所以第3,4,5组分别抽取2人,2人,1人进入第二轮面试. (ⅲ)记“第4组至少有一名选手被考官A 面试”为事件A , 则P(A)=C 12C 13+C 22C 25=710. ⎝ ⎛⎭⎪⎫或P A =1-P A -=1-C 23C 25=710 (2)(ⅰ)记每个农户的平均损失为x -元,则x -=1 000×0.3+3 000×0.4+5 000×0.18+7 000×0.06+9 000×0.06=33 601;(ⅱ)由频率分布直方图,可得损失超过 4 000元的农户共有(0.000 09+0.000 03+0.000 03)×2 000×50=15(户),损失超过8 000元的农户共有0.000 03×2 000×50=3(户),随机抽取2户,则X 的可能取值为0,1,2; 计算P(X =0)=C 212C 215=2235,P(X =1)=C 112C 13C 215=1235,P(X =2)=C 23C 215=135.所以X 的分布列为:X0 1 2P2235 1235 135数学期望为E(X)=0×2235+1×1235+2×135=25.名师点拨应用频率分布直方图时的注意事项用频率分布直方图解决相关问题时,应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布直方图有以下几个要点:(1)纵轴表示频率/组距;(2)频率分布直方图中各长方形高的比也就是其频率之比;(3)频率分布直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所有的小矩形的面积之和等于1,即频率之和为1.〔变式训练1〕(1)(2021·安徽“皖南八校”摸底)某校高三年级有400名学生,在一次数学测试中,成绩都在[80,130](单位:分)内,其频率分布直方图如图,则这次测试数学成绩不低于100分的人数为_220__.(2)(2021·山西适应性考试)某病毒引起的肺炎的潜伏期平均为7天左右,短的约2~3天,长的约10~14天,甚至有20余天.某医疗机构对400名确诊患者的潜伏期进行统计,整理得到以下频率分布直方图.根据该直方图估计:要使90%的患者显现出明显病状,需隔离观察的天数至少是( C )A .12B .13C .14D .15[解析] (1)根据频率分布直方图知: (2a +0.04+0.03+0.02)×10=1⇒a =0.005; 计算出数学成绩不低于100分的频率为: (0.03+0.02+0.005)×10=0.55;所以这次测试数学成绩不低于100分的人数为0.55×400=220人.(2)由题可知,第一,二,三,四,五组的频率分别为0.16,0.4,0.32,0.08,0.04. 因为前三组的频率和为0.88, 故要使90%的患者显现出明显病状,则需隔离观察的天数至少是:13+0.9-0.880.02=14,故选C .考点二 茎叶图——师生共研例2 (多选题)(2021·四川省乐山市调研改编)胡萝卜中含有大量的β-胡萝卜素,摄入人体消化器官后,可以转化为维生素A ,现从a ,b 两个品种的胡萝卜所含的β-胡萝卜素(单位mg)得到茎叶图如图所示,则下列说法正确的是( ABD )A .x a <x bB .a 的方差大于b 的方差C .b 品种的众数为3.31D .a 品种的中位数为3.27 [解析] 由茎叶图得:b 品种所含β-胡萝卜素普遍高于a 品种, ∴x a <x b ,故A 正确;a 品种的数据波动比b 品种的数据波动大, ∴a 的方差大于b 的方差,故B 正确; b 品种的众数为3.31与3.41,故C 错误; a 品种的数据的中位数为:3.23+3.312=3.27,故D 正确.名师点拨茎叶图的绘制及应用(1)茎叶图的绘制需注意:①“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;②重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.(2)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.〔变式训练2〕(2019·山东)如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 与y 的值分别为( A )A .3,5B .5,5C .3,7D .5,7[解析] 甲组数据的中位数为65,由甲、乙两组数据的中位数相等,得y =5.又甲、乙两组数据的平均值相等,∴15×(56+65+62+74+70+x)=15×(59+61+67+65+78),∴x =3.故选A . 考点三 样本数字特征——多维探究 角度1 样本数字特征与频率分布直方图例3 (1)如图所示是一样本的频率分布直方图,则由图形中的数据,可以估计众数与中位数分别是( B )A .12.5,12.5B .12.5,13C .13,12.5D .13,13[解析] 由频率分布直方图可知,众数为10+152=12.5,因为0.04×5=0.2,0.1×5=0.5,在频率分布直方图中,中位数左边和右边的面积相等,所以中位数在区间[10,15)内.设中位数为x ,则(x -10)×0.1=0.5-0.2,解得x =13.角度2 样本数字特征与茎叶图(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:⎪⎪⎪897 74 0 1 0 x 9 1则7个剩余分数的方差为_367__.[解析] 由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4,∴s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.角度3 样本数字特征的计算(3)(2021·湖北武汉、襄阳、荆门、宜昌四地六校考试联盟联考)已知某7个数据的平均数为5,方差为4,现又加入一个新数据5,此时这8个数的方差s 2为( C )A .52B .3C .72D .4[解析] 设某7个数据分别为a 1,a 2,…,a 7, 则由题意得a 1+a 2+…+a 7=5×7=35, (a 1-5)2+(a 2-5)2+…+(a 7-5)2=4×7=28, 加入新数据5后的平均数x -=35+58=5,方差s 2=a 1-52+a 2-52+…+a 7-52+5-528=288=72.故选C .名师点拨平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数,中位数,众数描述其集中趋势,方差和标准差描述其波动大小.〔变式训练3〕(1)(角度1)某小区共有1 000户居民,现对他们的用电情况进行调查,得到频率分布直方图如图所示,则该小区居民用电量的中位数为_155__,平均数为_156.8__.(2)(角度2)(2021·陕西西安八校联考)在一次技能比赛中,共有12人参加,他们的得分(百分制)茎叶图如图,则他们得分的中位数和方差分别为( B )A .89 54.5B .89 53.5C .87 53.5D .89 54(3)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x 1,x 2,x 3,…,x 100,它们的平均数为x -,方差为s 2:其中扫码支付使用的人数分别为3x 1+2,3x 2+2,3x 3+2,…,3x 100+2,它们的平均数为x -′,方差为s′2,则x -′,s′2分别为( C )A .3x -+2,3s 2+2 B .3x -,3s 2C .3x -+2,9s 2D .3x -+2,9s 2+2[解析] (1)中位数为:150+(170-150)×0.10.02×20=155.该组数据的平均数为x =0.005×20×120+0.015×20×140+0.020×20×160+0.005×20×180+0.003×20×200+0.002×20×220=156.8.(2)由题可知,中位数为:87+912=89,先求平均数:x -=78+79+84+86+87+87+91+94+98+98+99+9912=90,S 2=112[(-12)2+(-11)2+(-6)2+(-4)2+(-3)2+(-3)2+12+42+82+82+92+92]=53.5,故中位数为:89,方差为53.5,故选:B .(3)显然x -′=3x -+2,而每个数据上都加上或减去相同数不影响方差,但每个数据都乘以a ,则方差变为原方差的a 2倍,故选C .考点四 折线图——师生共研例4 (多选题)(2021·河南顶级名校模拟改编)如图是某地某月1日至15日的日平均温度变化的折线图,根据该折线图,下列结论不正确的是( BCD )A .连续三天日平均温度的方差最大的是7日,8日,9日三天B .这15天日平均温度的极差为15 ℃C .由折线图能预测16日温度要低于19 ℃D .由折线图能预测本月温度小于25 ℃的天数少于温度大于25 ℃的天数[解析] A 选项,日平均温度的方差的大小取决于日平均温度的波动的大小,7,8,9三日的日平均温度的波动最大,故日平均温度的方差最大,正确;B 选项,这15天日平均温度的极差为18 ℃,B 错;C 选项,由折线图无法预测16日温度是否低于19 ℃,故C 错误;D 选项,由折线图无法预测本月温度小于25 ℃的天数是否少于温度大于25 ℃的天数,故D 错误.故选B 、C 、D .名师点拨折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.〔变式训练4〕(多选题)甲乙两名同学在本学期的六次考试成绩统计如图,甲乙两组数据的平均值分别为x -甲、x -乙,则( BC )A .每次考试甲的成绩都比乙的成绩高B .甲的成绩比乙稳定C .x -甲一定大于x -乙D .甲的成绩的极差大于乙的成绩的极差[解析] 第二次考试甲的成绩比乙低,A 错;由图可知甲的成绩比乙的成绩波动小,B 正确,D 错;甲的平均成绩显然比乙的平均成绩高,C 正确;故选B 、C .名师讲坛·素养提升 高考与频率分布直方图例5 (2021·安徽省池州市期末)高三年级某班50名学生期中考试数学成绩的频率分布直方图如图所示,成绩分组区间为:[80,90),[90,100),[100,110),[110,120),[120,130),[130,140),[140,150].其中a ,b ,c 成等差数列且c =2a ,物理成绩统计如表.(说明:数学满分150分,物理满分100分)分组 [50,60) [60,70) [70,80) [80,90) [90,100]频数6920105(1)根据频率分布直方图,请估计数学成绩的平均分; (2)根据物理成绩统计表,请估计物理成绩的中位数;(3)若数学成绩不低于140分的为“优”,物理成绩不低于90分的为“优”,已知本班中至少有一个“优”同学总数为6人,从此6人中随机抽取3人.记X 为抽到两个“优”的学生人数,求X 的分布列和期望值.[解析] (1)根据频率分布直方图得, (a +b +2c +0.024+0.020+0.004)×10 =1, 又因a +c =2b ,c =2a ,解得a =0.008,b =0.012,c =0.016, 故数学成绩的平均分x -=85×0.04+95×0.12+105×0.16+115×0.2+125×0.24 +135×0.16+145×0.08=117.8(分),(2)总人数50分,由物理成绩统计表知,中位数在成绩区间[70,80), 所以物理成绩的中位数为75分.(3)数学成绩为“优”的同学有4人,物理成绩为“优”有5人,因为至少有一个“优”的同学总数为6名同学,故两科均为“优”的人数为3人,故X 的取值为0、1、2、3.P(X =0)=C 33C 36=120,P(X =1)=C 13C 23C 36=920,P(X =2)=C 23C 13C 36=920,P(X =3)=C 33C 36=120,所以分布列为:X 0 1 2 3 P120920920120∴期望值为E(X)=0×120+1×920+2×920+3×120=32.名师点拨(1)通过统计图可以很清楚地表示出各部分数量同总数之间的关系. (2)准确理解频率分布直方图的数据特点是解题关键. 〔变式训练5〕(2019·高考全国Ⅲ卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).[解析](1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05,乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.。
高三数学一轮精品复习学案:第十章统计、统计案例【知识特点】1.统计中所学的内容是数理统计中最基本的问题,通过这些内容主要来介绍相关的统计思想和方法,了解一些有关统计学的基本知识,并能够应用几个基本概念、基本公式来处理实际生活中的一些基本问题。
2.统计案例为新课标中新增内容,主要是通过案例体会运用统计方法解决实际问题的思想和方法。
增加了统计和统计案例后,使得高中数学的整个体系更加完善了,有利于开阔数学视野,丰富数学思想和方法。
【重点关注】1.从对新课标高考试题的分析可以发现,主要考查抽样方法、各种统计图表、样本数字特征等。
对这部分的考查主要以选择题和填空题的形式出现。
2.统计案例中的独立性检验和回归分析也会逐步在高考题中出现,难度不会太大,多数情况下是考查两种统计分析方法的简单知识,以选择题和填空题为主。
【地位与作用】《全国新课程标准高考数学考试大纲》中对考生能力要求明确界定为空间想象能力、抽象概括能力、推理论证能力、运算求解能力、数据处理能力以及应用意识和创新意识等六个方面,其中数据处理能力是首次提出的一个能力要求,这定义为:会收集数据、整理数据、分析数据,能从大量数据中抽取对研究问题有用的信息,并作出判断。
数据处理能力主要依据统计(高考考试大纲对知识点要求如下表所示)或统计案例中的方法对数据进行整理、分析,并解决给定的实际问题,对统计的要求已提升到能力的高度。
统计的思想方法广泛应用于自然科学和社会科学的研究中,统计的语言不仅是数学的语言,也是各学科经常引用的大众语言,统计知识是作为一个新时期公民所比备的知识。
统计学就是应用科学的方法收集、整理、分析、描述所要研究的数据资料,然后根据所得到的结果,进行推断或决策的一门实用性很强的科学。
统计这部分内容,在高中数学新课程中,主要分布在必修3第二章(约16课时)与选修2—3第三章(约9课时)。
相对于高中学生的认知水平和生活经历还相对不是很高,所以它只能属于非重点内容,所出的相关题目一般来说都相对比较简单。
但它紧密联系人们的生产生活实际,内容方法比较灵活,为命高考数学应用题提供了一个广阔的领域,将会越来越受到重视。
从最近几年各省份的高考信息统计可以看出,本单元命题呈现以下特点:1.考查题型以选择、填空为主,分值均占4%~8%,基本属于容易题;2.重点考查用样本估计总体,特别是频率分布直方图的应用,以及用样本的数字特征估计总体的数字特征,考查的知识是本章的重点内容;3.预计本章在今后的高考中仍将在“用样本估计总体”中命题,别外由于在2007年广东高考中出现了关于变量间的相关关系的解答题,这就需要引起对变量相关关系的重视.10.1随机抽样【高考目标定位】一、考纲点击1.理解随机抽样的必要性和重要性;2.会用简单随机抽样方法从总体中抽取样本;3.了解分层抽样和系统抽样方法.二、热点提示1.本节主要考查学生在应用问题中构造抽样模型、识别模型、收集数据等能力方法,是统计学中最基础的知识;2.本部分在高考试题中主要以选择题或填空题的形式出现,题目多为中低档题,重在考查抽样方法的应用.【考纲知识梳理】1.简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数法.2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本.(1)先将总体的N个个体编号;l+2k),依次进行下去,直到获取整个样本.体编号(3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定比例,从各层独立地抽取一定数量的个体将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.注:三种抽样方法的共同点和联系:(1)抽样过程中每个个体被抽取的机会均等;(2)系统抽样中在分段后确定第一个个体时采用简单随机抽样,分层抽样中各层抽样时采用简单随机抽样或系统抽样.【热点难点精析】(一)简单随机抽样※相关链接※简单随机抽样的特点:(1)抽取的个体数较少;(2)逐个抽取;(3)是不放回抽取;(4)是等可能抽取.注:抽签法适于总体中个体数较少的情况,随机数表法适用于总体中个体数较多的情况.第四步:从盒子中逐个抽取6个号签,并记录上面的编号;第五步:所得号码对应的志愿者,就是志愿小组的成员.随机数表法第一步:将24名学生编号,编号为01,02,03,……24;第二步:在随机数表中任选一数开始,按某一确定方向读数;第三步:凡不在01~24中的数或已读过的数,都跳过去不作记录,依次记录下得数; 第四步:找出号码与记录的数相同的学生组成志愿小组.(二)系统抽样※相关链接※系统抽样的特点(1)适用于元素个数很多且均衡的总体;(2)各个个体被抽到的机会均等;(3)总体分组后,在起始部分采用的是简单随机抽样;(4)如果总体容量N能被样本容量n整除,则抽样间隔为Nkn=,如果总体容量N不能被样本容量n整除,可随机地从总体中剔除余数,然后再按系统抽样的方法抽样.注:系统抽样的四个步骤可简记为“编号——分段——确定起始的个体号——抽取样本”.※例题解析※〖例〗某校高中三年级的295名学生已经编号为1,2,3,……,295,为了了解学生的学习情况,要按1:5的比例抽取一个样本,用系统抽样的方法进行抽取,并写出过程.思路解析:按比例分组→每组编号→用简单随机抽样确定每一组的学生编号→间隔相同抽取→组取.思路解析:(1)机构改革关系到名种人不同的利益;(2)不同层次的人员情况有明显差异,故采用分层抽样.解答:用分层抽样方法抽取.具体实施抽取如下:(1)∵20:100=1:5,∴10/5=2,70/5=14,20/5=4,∴从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人的人数较少,他们分别按1~10编号与1~20编号,然后采用抽签法分别抽取2人和4人;对一般干部70人采用00,01,02,,……,69编号,然后用随机数表法抽取14人。
(3)将2人,4人,14人的编号汇合在一起就取得了容量为20的样本.注:分层抽样的操作步骤及特点(1)操作步骤①将总体按一定标准进行分层;②计算各层的个体数与总体数的比,按各层个体数点总体数的比确定各层应抽取的样本容量;③在每层进行抽样(可用简单随机抽样或系统抽样).(2)特点①适用于总体由差异明显的几部分组成的情况;②更充分地反映了总体的情况;③等可能地抽样,每个个体被抽下马看花可能性都是nN.【感悟高考真题】解析:因为80020=故各层中依次抽取的人数分别是160820=,3201620=,2001020=,120620=答案:D3. (2010北京理数)(11)从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图)。
由图中数据可知a=。
若要从身高在[ 120 , 130),[130 ,140) , [140 , 150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140 ,150]内的学生中选取的人数应为。
答案:0.030 3【考点精题精练】一、选择题1.在简单随机抽样中,某一个个体被抽到的可能性(D)A、与第n次有关,第一次可能性最大B、与第n次有关,第一次可能性最小C、与第n次无关,与抽取的第n个样本有关D、与第n次无关,每次可能性相等2.对于简单随机抽样,每次抽到的概率(A )5.为了了解所加工的一批零件的长度,抽测了其中200个零件的长度,在这个问题中,200个零件的长度是( A )A、总体B、个体C、总体的一个样本D、样本容量6.为了分析高三年级的8个班400名学生第一次高考模拟考试的数学成绩,决定在8个班中每班随机抽取12份试卷进行分析,这个问题中样本容量是( B )A、 8B、400C、96 D 、96名学生的成绩7.为调查参加运动会的1000名运动员的年龄情况,从中抽查了100名运动员的年龄,就这个问题来说,下列说法正确的是( D )A.1000名运动员是总体B.每个运动员是个体C.抽取的100名运动员是样本D.样本容量是100解析:这个问题我们研究的是运动员的年龄情况,因此应选D。
答案:D8.甲校有3600名学生,乙校有5400名学生,丙校有1800名学生,为统计三校学生某方面的情况,计划采用分层抽样法,抽取一个样本容量为90人的样本,应在这三校分别抽取学生( B )A.30人,30人,30人B.30人,45人,15人C.20人,30人,10人D.30人,50人,10人解析:B;点评:根据样本容量和总体容量确定抽样比,最终得到每层中学生人数9.某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法分析:此题为抽样方法的选取问题.当总体中个体较多时宜采用系统抽样;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法.故选B.答案:B10.某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270;使用系统抽样时,将学生统一随机编号1,2,…,270,并将整个编号依次分为10段.如果抽得号码有下列四种情况:①7,34,61,88,115,142,169,196,223,250;②5,9,100,107,111,121,180,195,200,265;③11,38,65,92,119,146,173,200,227,254;④30,57,84,111,138,165,192,219,246,270;关于上述样本的下列结论中,正确的是()A.②、③都不能为系统抽样B.②、④都不能为分层抽样C.①、④都可能为系统抽样D.①、③都可能为分层抽样解析:D。
点评:采用什么样的抽样方法要依据研究的总体中的个体情况来定11.某学校为了解高一800名新入学同学的数学学习水平,从中随机抽取100名同学的中考数学成绩进行分析,在这个问题中,下列说法正确的是()(A)800名同学是总体(B)100名同学是样本(C)每名同学是个体(D)样本容量是100【解析】选D.据题意总体是指800名新入学同学的中考数学成绩,样本是指抽取的100名同学的中考数学成绩,个体是指每名同学的中考数学成绩,样本容量是100,故只有D正确.12.从编号为1~50的50枚最新研制的某种型号的导弹中随机抽取5枚来进行发射实验,若采用每部分选取的号码间隔一样的系统抽样方法,则所选取5枚导弹的编号可能是()(A)5,10,15,20,25(B)3,13,23,33,43(C)1,2,3,4,5(D)2,4,8,16,32【解析】选B.据题意从50枚中抽取5枚,故分段间隔k= =10,故只有B符合条件.二、填空题13.某中学为了了解高一学生的年龄情况,从所有的1 800名高一学生中抽出100名调查,则样本是______. 【解析】样本是指从总体中抽取的一部分个体,故本题中的样本是这100名同学的年龄.答案:这100名同学的年龄用表示元素i和j同时出现在样本中的概率,则1n= ; 所有 (1≤i<j≤的和等于 .【答案】4()m n m- , 6【解析】11111224(1)(1)4;(1)()(1)()m n mnm n mC C m n mPC C m m n m n m m n m----⋅---===⋅-----第二空可分:①当{},1,2,,i j m∈时,221mijmCPC==;②当,i j∈{}1,2,,m m n++时,1ijP=;③当{}1,2,,,i m∈ j∈{}1,2,,m m n++时,4()4()ijP m n mm n m=-⨯=-;所以114 6. ijP=++=点评:当总体中个体个数较多而差异又不大时可采用系统抽样。