平均数与频率分布直方图的关系
- 格式:ppt
- 大小:1.53 MB
- 文档页数:22
必修第二册第九章 统计知识点总结知识点一:简单随机抽样1. 全面调查和抽样调查2.简单随机抽样的概念放回简单随机抽样不放回简单随机抽样一般地,设一个总体含有N(N 为正整数)个个体,从中逐个抽取n (1≤n<N)个个体作为样本如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本3.抽签法先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.调查方式全面调查(普查)抽样调查定义对每一个调查对象都进行调查的方法,称为全面调查,又称普查根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为 抽样调查相关概念总体:在一个调查中,我们把调查对象的全体称为总体.个体:组成总体的每一个调查对象称为个体样本:把从总体中抽取的那部分个体 称为样本.样本量:样本中包含的个体数称为 样本量4.随机数法(1)定义:先把总体中的个体编号,用随机数工具产生已编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本,重复上述过程,直到抽足样本所需要的个体数.(2)产生随机数的方法:(i)用随机试验生成随机数;(ii)用信息技术生成随机数.5.总体均值和样本均值(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,Y N,则称Y=Y1+Y2+⋯+Y NN =1N∑i=1NY i为总体均值,又称总体平均数.(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数f i(i=1,2,…,k),则总体均值还可以写成加权平均数的形式Y=1N ∑i=1kf i Y i.(3)如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,y n,则称y=y1+y2+⋯+y nn =1n∑i=1ny i为样本均值,又称样本平均数.6.分层随机抽样的相关概念(1)分层随机抽样的定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.(2)比例分配:在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.(3)进行分层随机抽样的相关计算时,常用到的关系①样本容量n总体容量N =该层抽取的个体数该层的个体数;②总体中某两层的个体数之比等于样本中这两层抽取的个体数之比;③样本的平均数和各层的样本平均数的关系:w=mm+n x+nm+ny=MM+Nx+NM+Ny.1.画频率分布直方图的步骤(1)求极差:极差为一组数据中最大值与最小值的差;(2)决定组距与组数:当样本容量不超过100时,常分成5-12组,为方便起见,一般取等长组距,并且组距应力求“取整”;(3)将数据分组;(4)列频率分布表:一般分四列:分组、频数累计、频数、频率.其中频数合计应是样本容量,频率合计是⑥1;.(5)画频率分布直方图:横轴表示分组,纵轴表示频率组距=频率,各小长方形的面积的总和等于1.小长方形的面积=组距×频率组距2.其他统计图表统计图表主要应用扇形图直观描述各部分数据在全部数据中所占的比例条形图和直方图直观描述不同类别或分组数据的频数和频率反映统计对象在不同时间(或其他合适情形)的发展折线图变化情况1.第p百分位数:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.2.计算一组n个数据的第p百分位数的步骤第1步,按从小到大排列原始数据.第2步,计算i=n×p%.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.3.四分位数:第25百分位数,第50百分位数,第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.知识点四:总体集中趋势的估计1.众数、中位数和平均数的定义(1)众数:一组数据中出现次数最多的数.(2)中位数:一组数据按大小顺序排列后,处于中间位置的数.如果这组数据是偶数个,则取中间两个数据的平均数.(3)平均数:一组数据的和除以数据个数所得到的数.2.众数、中位数、平均数与频率分布直方图的关系(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.(3)众数:众数是最高小矩形底边的中点所对应的数据.2.众数、中位数、平均数与频率分布直方图的关系众数众数是最高小长方形底边的中点所对应的数据,表示样本数据的中心值中位数①在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数的值,但是有偏差;②表示样本数据所占频率的等分线平均数①平均数等于每个小长方形的面积乘小长方形底边中点的横坐标之和;②平均数是频率分布直方图的重心,是频率分布直方图的平衡点1.一组数据x1,x2,…,x n的方差和标准差数据x1,x2,…,x n的方差为1n ∑i=1n(x i-x)2=1n∑i=1nx i2-x2,标准差为√1n∑i=1n(x i-x)2.2.总体方差和总体标准差(1)总体方差和标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,Y N,总体的平均数为Y,则称S2= 1N ∑i=1N(Y i-Y)2为总体方差,S=√S2为总体标准差.(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数为f i(i=1,2,…,k),则总体方差为S2= 1N ∑i=1kf i(Y i-Y)2.3.样本方差和样本标准差如果一个样本中个体的变量值分别为y1,y2,…,y n,样本平均数为y,则称s2= 1n ∑i=1n(y i-y)2为样本方差,s=√s2为样本标准差.4.标准差的意义标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.5.分层随机抽样的方差设样本容量为n,平均数为x,其中两层的个体数量分别为n1,n2,两层的平均数分别为x1,x2,方差分别为s12,s22,则这个样本的方差为s2=n1n [s12+(x1-x)2]+n2n[s22+(x2-x)2].必修第二册第十章概率知识点总结知识点一:有限样本空间与随机事件1.随机试验的概念和特点(1)随机试验:我们把对随机现象的实现和对它的观察称为随机试验,简称试验,常用字母E表示.(2)随机试验的特点:(i)试验可以在相同条件下重复进行;(ii)试验的所有可能结果是明确可知的,并且不止一个;(iii)每次试验总是恰好出现这些可能结果中的一个,但事先不能确定出现哪一个结果.2.样本点和样本空间定义字母表示样本点我们把随机试验E的每个可能的基本结果称为样本点用ω表示样本点样本空间全体样本点的集合称为试验E的样本空间用Ω表示样本空间有限样本空间如果一个随机试验有n个可能结果ω1,ω2,…,ωn,则称样本空间Ω={ω1,ω2,…,ωn}为有限样本空间Ω={ω1,ω2,…,ωn}3.事件的类型我们将样本空间Ω的子集称为随机事件,简称事件,并把只包含一个样本点的事件称为基本事件.随机事件一般用大写字母A,B,C,…表示.在每次试验中,当且仅当A中某个样本点出现时,称为事件A发生.Ω作为自身的子集,包含了所有的样本点,在每次试验中总有一个样本点发生,所以Ω总会发生,我们称Ω为必然事件.而空集⌀不包含任何样本点,在每次试验中都不会发生,我们称⌀为不可能事件.必然事件与不可能事件不具有随机性.为了方便统一处理,将必然事件和不可能事件作为随机事件的两个极端情形.这样,每个事件都是样本空间Ω的一个子集.知识点二:事件的关系和运算1.包含关系定义一般地,若事件A 发生,则事件B 一定发生,我们就称事件B 包含事件A(或事件A 包含于事件B)含义 A 发生导致B 发生 符号表示B ⊇A(或A ⊆B)图形表示特殊情形如果事件B 包含事件A,事件A 也包含事件B,即B ⊇A 且A ⊇B,则称事件A 与事件B 相等,记作A=B2.并事件(和事件)定义一般地,事件A 与事件B 至少有一个发生,这样的一个事件中的样本点或者在事件A 中,或者在事件B 中,我们称这个事件为事件A 与事件B 的并事件(或 和事件)含义 A 与B 至少有一个发生符号表示A ∪B(或A+B)图形表示3.交事件(积事件)定义一般地,事件A 与事件B 同时发生,这样的一个事件中的样本点既在事件A中,也在事件B 中,我们称这样的一个事件为事件A 与事件B 的交事件(或积 事件)含义 A 与B 同时发生 符号表示A ∩B(或AB)图形表示4.互斥(互不相容)一般地,如果事件A与事件B不能同时发生,也就是说A∩B是一个不可能定义事件,即A∩B=⌀,则称事件A与事件B互斥(或互不相容)含义A与B不能同时发生符号表示A∩B=⌀图形表示5.互为对立一般地,如果事件A与事件B在任何一次试验中有且仅有一个发生,即A∪B=定义Ω,且A∩B=⌀,那么称事件A与事件B互为对立.事件A的对立事件记为A 含义A与B有且仅有一个发生符号表示A∩B=⌀,且A∪B=Ω图形表示6.清楚随机事件的运算与集合运算的对应关系有助于解决此类问题.符号事件的运算集合的运算A 随机事件集合A A的对立事件A的补集AB 事件A与B的交事件集合A与B的交集A∪B 事件A与B的并事件集合A与B的并集知识点三:古典概型1.古典概型的定义试验具有如下共同特征:(1)有限性:样本空间的样本点只有有限个;(2)等可能性:每个样本点发生的可能性相等.我们将具有以上两个特征的试验称为古典概型试验,其数学模型称为古典概率模型,简称古典概型.2.古典概型的概率计算公式一般地,设试验E是古典概型,样本空间Ω包含n个样本点,事件A包含其中的k个样本点,则定义事件A的概率P(A)= kn =n(A)n(Ω),其中n(A)和n(Ω)分别表示事件A和样本空间Ω包含的样本点个数.知识点四:概率的基本性质1.概率的基本性质性质1 对任意的事件A,都有P(A)≥0.性质2 必然事件的概率为1,不可能事件的概率为0,即P(Ω)=1,P(⌀)=0.性质3 如果事件A与事件B互斥,那么P(A∪B)=P(A)+P(B).性质4 如果事件A与事件B互为对立事件,那么P(B)=1-P(A),P(A)=1-P(B).性质5 如果A⊆B,那么P(A)≤P(B).性质6 设A,B是一个随机试验中的两个事件,我们有P(A∪B)=P(A)+P(B)-P(A∩B).知识点五:事件的相互独立性1.相互独立事件的定义:对任意两个事件A与B,如果P(AB)=P(A)P(B)成立,则称事件A 与事件B相互独立,简称为独立.2.相互独立事件的性质:当事件A,B相互独立时,则事件A与事件B相互独立,事件A与事件B相互独立,事件A与事件B相互独立.【提示】公式P(AB)=P(A)P(B)可以推广到一般情形:如果事件A1,A2,…,A n相互独立,那么这n个事件同时发生的概率等于每个事件发生的概率的积,即P(A1A2·…·A n)=P(A1)P(A2)·…·P(A n).3. 两个事件是否相互独立的判断方法(1)直接法:由事件本身的性质直接判定两个事件发生是否相互影响.(2)公式法:若P(AB)=P(A)P(B),则事件A,B为相互独立事件.4.求相互独立事件同时发生的概率的步骤:①首先确定各事件之间是相互独立的.②求出每个事件的概率,再求积.5.事件间的独立性关系已知两个事件A,B相互独立,它们的概率分别为P(A),P(B),则有事件表示概率A,B同时发生AB P(A)P(B)A,B都不发生A B P(A)P(B)A,B恰有一个发生(A B)∪(A B) P(A)P(B)+P(A)P(B)A,B中至少有一个发生(A B)∪(A B)∪(AB) P(A)P(B)+P(A)P(B)+P(A)P(B)A,B中至多有一个发生(A B)∪(A B)∪(A B) P(A)P(B)+P(A)P(B)+P(A)P(B)。
众数、平均数、中位数与频率分布直方图的关系
众数、平均数、中位数与频率分布直方图的关系,这一块知识点都不难,就是我们在平时的学习过程中不重视或者说不注意所以会导致有时候没有思路,不知道怎么操作,今天给大家详细介绍一下这种关系。
1、众数
众数在样本数据的频率分布直方图中就是最高矩形中点的横坐标大家通过上述图中,应该很明显,众数就是最高矩形中点的位置即为2.25
2、中位数
在样本中,有50%的个体小于或者等于中位数,同时也有50%的个体大于或者等于中位数,所以,在频率分布直方图中,在中位数的左边和右边直方图的面积是相等的。
从而我们可以根据这个来估算出中位数的大小值。
从上数频律分布直方图中,我们可以计算出来,大致的位置。
3、平均数
平均数是频率分布直方图的重心,他等于频率分布直方图中每个小矩形的面积(即落在改组中的频率)乘以小矩形底边中点的横坐标(组中值)之和。
今天比较忙,就先介绍到这里。
频率分布直方图
【知识点的认识】
1.频率分布直方图:在直角坐标系中,横轴表示样本数据,纵轴表示频率与组距的比值,将频率分布表中的各组频率的大小用相应矩形面积的大小来表示,由此画成的统计图叫做频率分布直方图.
2.频率分布直方图的特征
①图中各个长方形的面积等于相应各组的频率的数值,所有小矩形面积和为1.
②从频率分布直方图可以清楚地看出数据分布的总体趋势.
③从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹掉.
3.频率分布直方图求数据
①众数:频率分布直方图中最高矩形的底边中点的横坐标.
②平均数:频率分布直方图各个小矩形的面积乘底边中点的横坐标之和.
③中位数:把频率分布直方图分成两个面积相等部分的平行于y轴的直线横坐标.
【解题方法点拨】
绘制频率分布直方图的步骤:。
频率分布直方图
1.频率分布直方图
【知识点的认识】
1.频率分布直方图:在直角坐标系中,横轴表示样本数据,纵轴表示频率与组距的比值,将频率分布表中的各组频率的大小用相应矩形面积的大小来表示,由此画成的统计图叫做频率分布直方图.
2.频率分布直方图的特征
①图中各个长方形的面积等于相应各组的频率的数值,所有小矩形面积和为 1.
②从频率分布直方图可以清楚地看出数据分布的总体趋势.
③从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息被抹掉.
3.频率分布直方图求数据
①众数:频率分布直方图中最高矩形的底边中点的横坐标.
②平均数:频率分布直方图各个小矩形的面积乘底边中点的横坐标之和.
③中位数:把频率分布直方图分成两个面积相等部分的平行于y 轴的直线横坐标.
【解题方法点拨】
绘制频率分布直方图的步骤:。
第9题样本的数字特征一、原题呈现【原题】有一组样本数据1x ,2x ,…,n x ,由这组数据得到新样本数据1y ,2y ,…,n y ,其中i i y x c (1,2,,),i n c 为非零常数,则()A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样数据的样本极差相同【答案】CD【解析】因为i i y x c ,所以1111,n ni i i i x x y x c x c n n ,因为0c ,所以y x ,A 错误;设第一组中位数为k x ,则第二组的中位数为k k y x c ,0c ,所以k k y x ,B 错误;第一组数据的标准差s ,第二组数据的标准差s正确;若第一组数据的极差为max min x x ,则第二组数据的极差为max min max min max min ()()y y x c x c x x ,故D 正确;故选CD【就题论题】本题涉及到中位数、平均数、标准差及极差等样本的数字特征,题型是常规题型,考生在复习时训练的比较多,绝大部分考生都能得分.二、考题揭秘【命题意图】本题考查样本的数字特征,考查数据分析与数学运算的核心素养.难度:中等偏易.【考情分析】概率与统计是高考重点,在高考试卷中既有客观题又有解答题,由于该模块涉及知识点比较多,高考命题没有固定的热点,一般情况下,统计与概率、随机变量的分布列都会涉及,客观题至少会有2道.【得分秘籍】(1)众数、中位数、平均数①众数:一组数据中出现次数最多的数.②中位数:把一组数据按从小到大(或从大到小)的顺序排列,处在正中间位置的数(或中间两个数的平均数)叫做这组数据的中位数.③平均数:如果n 个数x 1,x 2,…,x n ,那么12nx x x x n叫做这n 个数的平均数.(2)三种数字特征的优缺点众数:优点:①体现了样本数据的最大集中点;②容易计算.缺点:它只能表达样本数据中很少的一部分信息,无法客观地反映总体特征.中位数:优点:①不受少数几个极端数据(即排序靠前或靠后的数据)的影响;②容易计算,便于利用中间数据的信息.缺点:对极端值不敏感.平均数:优点:是反映数据集中趋势的量.一般情况下可以反映出更多关于样本数据全体的信息.缺点:代表性不强,任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大.(3)极差、标准差、方差①一组数的极差指的是这组数的最大值减去最小值所得的差.②标准差是样本数据到平均数的一种平均距离,一般用s 表示,s ③方差是标准差的平方.(3)对方差与标准差概念的理解①标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.②标准差、方差的取值范围是:[0,+∞).“独立”与“互斥”的区别③因为方差与原始数据的单位相同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.(4)有关平均数、方差的一些结论若数据x 1,x 2,…,x n 的平均数为x ,方差为s 2.则ax 1,ax 2,…,ax n 的平均数为ax ,方差为a 2s 2.数据mx 1+a,mx 2+a,…,mx n +a 的平均数为mx a ,方差为m 2s 2.(5)标准差(方差)的两个作用①标准差(方差)较大,数据的离散程度较大;标准差(方差)较小,数据的离散程度较小.②在实际应用中,常常把平均数与标准差结合起来进行决策.在平均值相等的情况下,比较方差或标准差以确定稳定性.(6)众数、中位数、平均数与频率分布表、频率分布直方图的关系①众数:众数一般用频率分布表中频率最高的一小组的组中值来显示,即在样本数据的频率分布直方图中,最高矩形的底边中点的横坐标.②中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.③平均数:平均数在频率分布表中等于组中值与对应频率之积的和.【易错警示】(1)混淆标准差与方差(2)求数据的中位数时没有按照从小到大(或从大到小)的顺序排列.三、以例及类(以下所选试题均来自新高考Ⅰ卷地区2020年1-6月模拟试卷)一、单选题1.(2021福建省龙岩市高三三模)平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据的分布形态有关.如图所示的统计图,记这组数据的众数为M ,中位数为N ,平均数为P ,则()A .N M PB .M N PC .M P ND .P N M2.(2021广东省深圳市高三一模)2020年12月31日,国务院联防联控机制发布,国药集团中国生物的新冠病毒灭活疫苗已获药监局批准附条件上市,其保护效力达到世界卫生组织及药监局相关标准要求,现已对18至59岁的人提供.根据某地接种年龄样本的频率分布直方图(如图)估计该地接种年龄的中位数为()A .40B .39C .38D .373.(2021河北省邯郸市高三一模)构建德智体美劳全面培养的教育体系是我国教育一直以来努力的方向.某中学积极响应党的号召,开展各项有益于德智体美劳全面发展的活动.如图所示的是该校高三(1)、(2)班两个班级在某次活动中的德智体美劳的评价得分对照图(得分越高,说明该项教育越好).下列说法正确的是()A.高三(2)班五项评价得分的极差为1.5B.除体育外,高三(1)班的各项评价得分均高于高三(2)班对应的得分C.高三(1)班五项评价得分的平均数比高三(2)班五项评价得分的平均数要高D.各项评价得分中,这两班的体育得分相差最大4.(2021湖南省衡阳市高三下学期考前预测)俗话说:“一心不能二用”,意思是我们做事情要专心,那么,“一心”到底能否“二用”,某高二几个学生在学完《统计》后,做了一个研究,他们在本年级随机抽取男生和女生各100名,要求他们同时做一道数学题和英语听力题,然后将这些同学完成问题所用时间制成分布图如下,则下列说法正确的是()①男生“一心二用”所需平均时间平均值大于女生;②所有女生“一心二用”能力都强于男生;③女生用时众数小于男生;④男生“一心二用”能力分布近似于正态分布.A.①④B.②③C.①③D.①③④5.(2021江苏省南通市学科基地高三下学期高考全真模拟)甲、乙、丙、丁四人参加奥运会射击项目的选拔赛,四人的平均成绩和方差见下表甲乙丙丁平均成绩x/环9.08.98.69.0s环2 2.8 2.8 2.1 3.5方差2/如果从这四人中选择一人参加奥运会射击项目比赛,那么最佳人选是()A .甲B .乙C .丙D .丁6.(2021山东省泰安肥城市高三三模)已知某城市9月平均气温为28.5C ,如当月最热日和最冷日的平均气温相差不超过10C ,则该月平均气温在30C 及以上的日子最多有多少天?()A .24B .25C .26D .277.(2021江苏省六校高三下学期第四次适应性联考)学校组织开展劳动实践,高二某班15名学生利用假期时间前往敬老院、消防队等场所劳动服务.经统计,该15名学生的劳动服务时长平均为20小时,标准差为s .后来经核实,发现统计的甲、乙两名同学的劳动服务时长有误.甲同学的劳动服务时长实际为20小时,被误统计为15小时;乙同学的劳动服务时长实际为18小时,被误统计为23小时.更正后重新计算,得到标准差为1s ,则s与1s 的大小关系为()A .1s s B .1s s <C .1s s >D .无法判断8.(2021湖南省长沙市长郡中学高三下学期保温卷)已知某6个数据的平均数为4,方差为8,现加入2和6两个新数据,此时8个数据的方差为()A .8B .7C .6D .59.(2021湖北省武汉市华中师范大学附中高三下学期5月押题卷)为庆祝中国共产党成立100周年,A 、B 、C 、D 四个兴趣小组举行党史知识竞赛,每个小组各派10名同学参赛,记录每名同学失分(均为整数)情况,若该组每名同学失分都不超过7分,则该组为“优秀小组”,已知A 、B 、C 、D 四个小组成员失分数据信息如下,则一定为“优秀小组”的是()A .A 组中位数为2,极差为8B .B 组平均数为2,众数为2C .C 组平均数为1,方差大于0D .D 组平均数为2,方差为310.(2021河北省张家口市高三三模)某中学春季运动会上,12位参加跳高半决赛同学的成绩各不相同,按成绩从高到低取前6位进入决赛,如果小明知道了自己的成绩后,则他可根据其他11位同学成绩的哪个数据判断自己能否进入决赛()A .中位数B .平均数C .极差D .方差11.(2021福建省三明市高三三模)某市原来都开小车上班的唐先生统计了过去一年每一工作日的上班通行时间,并进行初步处理,得到频率分布表如下(T 表示通行时间,单位为分钟):通行时间1520T 2025T 2530T 3035T 3540T 频率0.10.30.30.20.1该市号召市民尽量减少开车出行,以绿色低碳的出行方式支持节能减排.唐先生积极响应政府号召,准备每天从骑自行车和开小车两种出行方式中随机选择一种.如果唐先生选择骑自行车,当天上班的通行时间为30分钟.将频率视为概率,根据样本估计总体的思想,对唐先生上班通行时间的判断,以下正确的是()A .开小车出行的通行时间的中位数为27.5分钟B .开小车出行两天的总通行时间少于40分钟的概率为0.01C .选择骑自行车比开小车平均通行时间至少会多耗费5分钟D .若选择骑自行车和开小车的概率相等,则平均通行时间为28.5分钟12.(2021湖北省武汉市高三下学期4月质量检测)一组数据由10个数组成,将其中一个数由4改为1,另一个数由6改为9,其余数不变,得到新的10个数,则新的一组数的方差相比原先一组数的方差的增加值为()A .2B .3C .4D .5二、多选题13.(2021福建省厦门市高三三模)记考试成绩Z 的均值为 ,方差为2 ,若Z 满足0.66()0.70P Z ,则认为考试试卷设置合理.在某次考试后,从20000名考生中随机抽取1000名考生的成绩进行统计,得到成绩的均值为63.5,方差为169,将数据分成7组,得到如图所示的频率分布直方图.用样本估计总体,则()A .本次考试成绩不低于80分的考生约为5000人B .0.03a C .本次考试成绩的中位数约为70D .本次考试试卷设置合理14.(2021广东省佛山市高三下学期二模)百年大计,教育为本.十四五发展纲要中,教育作为一个专章被提出.近日,教育部发布2020年全国教育事业统计主要结果.其中关于高中阶段教育(含普通高中、中等职业学校及其他适龄教育机构)近六年的在校规模与毛入学率情况图表及2020年高中阶段教育在校生结构饼图如下,根据图中信息,下列论断正确的有()(名词解释:高中阶段毛入学率≡在校生规模÷适龄青少年总人数×100%)A.近六年,高中阶段在校生规模与毛入学率均持续增长B.近六年,高中阶段在校生规模的平均值超过4000万人C.2019年,未接受高中阶段教育的适龄青少年不足420万D.2020年,普通高中的在校生超过2470万人15.(2021湖北省武汉市高三下学期5月质量检测)某学校为了促进学生德、智、体、美、劳全面发展,制订了一套量化评价标准.下表是该校甲、乙两个班级在某次活动中的德、智、体、美、劳的评价得分(得分越高,说明该项教育越好).下列说法正确的是()德智体美劳甲班9.59.599.58乙班9.599.598.5A.甲班五项得分的极差为1.5B.甲班五项得分的平均数高于乙班五项得分的平均数C.甲班五项得分的中位数大于乙班五项得分的中位数D.甲班五项得分的方差小于乙班五项得分的方差16.(2021江苏省南通等七市2021届高三下学期2月第一次调研)冬末春初,乍暖还寒,人们容易感冒发热.若发生群体性发热,则会影响到人们的身体健康,干扰正常工作生产.某大型公司规定:若任意连续7天,每天不5人体温高于37.3C ,则称没有发生群体性发热.下列连续7天体温高于37.3C 人数的统计特征数中,超过能判定该公司没有发生群体性发热的为()A.中位数为3,众数为2B.均值小于1,中位数为1C.均值为3,众数为4D.均值为2,三、填空题17.(2021山东省济南市高三二模)习近平总书记在党史学习教育动员大会上强调:“回望过往的奋斗路,眺望前方的奋进路,必须把党的历史学习好、总结好,把党的成功经验传承好、发扬好.”某党小组为响应习总书记号召,重温百年奋斗的恢弘史诗,以信仰之光照亮前行之路,组织开展党史学习教育知识竞赛活动,其中7名党员在这次活动中的成绩统计如图所示.则这7个成绩的中位数所对应的党员是______.18.(2021湖南省六校高三4月联考)在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志是“连续10日,每天新增疑似病例不超过7人”.已知过去10日,A、B、C三地新增疑似病例数据信息如下:A地:总体平均数为3,中位数为4;B地:总体平均数为2,总体方差为3;C地:总体平均数为1,总体方差大于0;则A、B、C三地中,一定没有发生大规模群体感染的是__________地.四、解答题19.(2021湖北省黄冈中学高三5月适应性考试)某乒乓球教练为了解某同学近期的训练效果,随机记录了该同学40局接球训练成绩,每局训练时教练连续发100个球,该同学每接球成功得1分,否则不得分,且每局训练结果相互独立,得到如图所示的频率分布直方图.(1)同一组数据用该区间的中点值作代表,①求该同学40局接球训练成绩的样本平均数x ;②若该同学的接球训练成绩X 近似地服从正态分布 ,100N ,其中 近似为样本平均数x ,求5464P X 的值;(2)为了提高该同学的训练兴趣,教练与他进行比赛.一局比赛中教练连续发100个球,该同学得分达到80分为获胜,否则教练获胜.若有人获胜达3局,则比赛结束,记比赛的局数为Y .以频率分布直方图中该同学获胜的频率作为概率,求 E Y .参考数据:若随机变量2~,N,则0.6827P , 220.9545P , 330.9973P .。
高一数学必修第二册第九章《统计》单元练习题卷11(共22题)一、选择题(共10题)1.天津市某中学组织高二年级学生参加普法知识考试(满分100分),考试成绩的频率分布直方图如图,数据(成绩)的分组依次为[20,40),[40,60),[60,80),[80,100],若成绩低于60分的人数是180,则考试成绩在区间[60,80)内的人数是( )A.180B.240C.280D.3202.关于频率分布直方图中小长方形的高的说法,正确的是( )A.表示该组上的个体在样本中出现的频率B.表示取某数的频率C.表示该组上的个体数与组距的比值D.表示该组上的个体在样本中出现的频率与组距的比值3.下列问题中,最适合用简单随机抽样方法抽样的是( )A.某学术厅有32排座位,每排有40个座位,座位号是1∼40,有一次报告会学术厅里坐满了观众,报告会结束以后听取观众的意见,要留下32名观众进行座谈B.从10台冰箱中抽取3台进行质量检验C.某学校有在编人员160人,其中行政人员16人,教师112人,后勤人员32人.教育部门为了解大家对学校机构改革的意见,要从中抽取容量为20的样本D.某乡农田有山地8000亩,丘陵12000亩,平地24000亩,洼地4000亩,现抽取农田480亩估计全乡农田平均产量4.演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分,1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )A.中位数B.平均数C.方差D.极差5.从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),⋯,[5.45,5.47],[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A.10B.18C.20D.366.10名工人生产某一零件,生产的件数分别是10,12,14,14,15,15,16,17,17,17.设其平均数为a,中位数为b,众数为c,则( )A.a>b>c B.b>c>a C.c>a>b D.c>b>a7.某班由编号为01,02,03,⋯,50的50名学生组成,现在要选取8名学生参加合唱团,选取方法是从如下随机数表的第1行第11列开始由左到右依次选取两个数字,则该样本中选出的第8名学生的编号为( )495443548217379323783035209623842634916450258392120676572355068877044767217633502583921206764954A.20B.23C.26D.348.在一次体育测试中,某班的6名同学的成绩(单位:分)分别为66,83,87,83,77,96.关于这组数据,下列说法错误的是( )A.众数是83B.中位数是83C.极差是30D.平均数是839.一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是A.12,24,15,9B.9,12,12,7C.8,15,12,5D.8,16,10,610.某学校随机抽取了部分学生,对他们每周使用手机的时间进行统计,得到如下的频率分布直方图.若从每周使用时间在[15,20),[20,25),[25,30)三组内的学生中用分层抽样的方法选取8人进行访谈,则应从使用时间在[20,25)内的学生中选取的人数为( )A.1B.2C.3D.4二、填空题(共6题)11.某次体检,8位同学的身高(单位:米)分别为 1.68,1.71,1.73,1.63,1.81,1.74,1.66,1.78,则这组数据的中位数是(米).12.为了了解高三学生的数学成绩,抽取了某班60名学生,将所得数据整理后,画出其频率分布直方图(如图所示),已知从左到右各长方形高的比为2:3:5:6:3:1,则该班学生数学成绩在(80,100)之间的学生人数是.13.校本课程的学分,统计如表.甲811141522乙67102324用s12,s22分别表示甲、乙两班抽取的5名学生学分的方差,计算两个班学分的方差,得s22=,并由此可判断成绩更稳定的班级是班.14.众数、中位数、平均数(1)众数、中位数、平均数的概念.①众数:在一组数据中,出现最多的数据(即频率分布最大值所对应的样本数据)叫这组数据的众数.若有两个或两个以上的数据出现得最多,且出现的次数一样,则这些数据都叫众数;若一组数据中每个数据出现的次数一样多,则没有众数.②中位数:将一组数据按大小依次排列,把处在位置的一个数据(或中间两个数据的平均数)叫这组数据的中位数.③平均数:指样本数据的算术平均数.即:x=.(2)众数、中位数、平均数与频率分布直方图的关系.众数众数是最高矩形的 所对应的数据,表示样本数据的中心值中位数①在频率分布直方图中,中位数左边和右边的直方图 相等,由此可以估计中位数的值,但是有偏差②表示样本数据所占频率的等分线平均数①平均数等于每个小长方形的面积乘以小长方形底边中点的横坐标之和②平均数是频率分布直方图的重心,是频率分布直方图的平衡点15.某学校高一、高二、高三年级的学生人数之比为3:3:4,现用分层随机抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取名学生.16.一汽车厂生产甲,乙,丙三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如下表(单位:辆):轿车甲轿车乙轿车丙舒适型100120z标准型300480600按类用分层抽样的方法在这个月生产的轿车中抽取50辆,其中有甲类轿车10辆,则z的值为,抽取的50辆车中,乙类舒适型的数量为.三、解答题(共6题)17.一个地区共有5个乡镇,人口3万人,其中人口比例为3:2:5:2:3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.18.作为北京副中心,通州区的建设不仅成为京津冀协同发展战略的关键节点,也肩负着医治北京市“大城市病”的历史重任,因此,通州区的发展备受啊目,2017年12月25日发布的《北京市通州区统计年鉴(2017)》显示:2016年通州区全区完成全社会固定资产投资939.9亿元,比上年增长17.4%,下面给出的是通州区2011∼2016年全社会固定资产投资及增长率,如图一.根据通州区统计局2018年1月25日发布:2017年通州区全区完成全社会固定资产投资1054.5亿元,比上年增长12.2%.(1) 在图二中画出2017年通州区全区完成全社会固定资产投资(柱状图),标出增长率并补全折线图;(2) 从2011∼2017这7年中随机选取续的2年份,求后一年份增长率高于前一年份增长率的概率;(3) 设2011∼2017这7年全社会固定资产投资总额的中位数为x0,平均数为x,比较x0与x的大小(写出结论即可).19.某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.(1) 求这次测试数学成绩的众数; (2) 求这次测试数学成绩的中位数.20. 某公交公司为了估计某线路公交公司发车的时间间隔,对乘客在这条线路上的某个公交车站等车的时间进行了调查,以下是在该站乘客候车时间的部分记录:等待时间(分钟)频数频率[0,3) 0.2[3,6) 0.4[6,9)5x [9,12)2y [12,15) 0.05合计z 1 (1) 求 x ,y ,z ;(2) 画出频率分布直方图及频率分布折线图; (3) 计算乘客平均等待时间的估计值.21. 某校从高一全体男生中用简单随机抽样抽取了 20 人测量出体重情况如下:(单位 kg )6556708266725486706258726460767280685866试估计该校高一男生的平均体重,以及体重在 60∼75 kg 之间的人数所占比例.22. 平均数、中位数、众数中,哪个量与样本的每一个数据有关,它有何缺点?答案一、选择题(共10题)1. 【答案】B【知识点】频率分布直方图2. 【答案】D,面积表示频率.【解析】频率分布直方图中小长方形的高是频率组距【知识点】频率分布直方图3. 【答案】B【知识点】简单随机抽样4. 【答案】A【解析】根据题意,从9个原始评分中去掉1个最高分,1个最低分,得到7个有效评分,7个有效评分与9个原始评分相比,最中间的一个数不变,即中位数不变.【知识点】样本数据的数字特征5. 【答案】B【解析】根据直方图,直径落在区间[5.43,5.47)之间的零件频率为:(6.25+5.00)×0.02=0.225,则区间[5.43,5.47)内零件的个数为:80×0.225=18.【知识点】频率分布直方图6. 【答案】D=14.7,【解析】依题意,得a=10+12+14+14+15+15+16+17+17+1710中位数b=15,众数c=17,故c>b>a.【知识点】样本数据的数字特征7. 【答案】D【解析】从样本中选出来的8名学生的编号分别为17,37,23,30,35,20,26,34.故该样本中选出的第8名学生的编号为34.【知识点】简单随机抽样8. 【答案】D【知识点】样本数据的数字特征9. 【答案】D【解析】高级职称应抽取:160×40800=8(人),中级职称应抽取:320×40800=16(人),初级职称应抽取:200×40800=10(人),其余人员:120×40800=6(人).【知识点】分层抽样10. 【答案】C【解析】由频率分布直方图可知:5×(0.01+0.02+a+0.04+0.04+0.06)=1,解得:a=0.03,即在[15,20),[20,25),[25,30)三组内的学生数之比为:4:3:1,则从每周使用时间在[15,20),[20,25),[25,30)三组内的学生中用分层抽样的方法选取8人进行访谈,则应从使用时间在[20,25)内的学生中选取的人数为38×8=3.【知识点】分层抽样、频率分布直方图二、填空题(共6题)11. 【答案】1.72【知识点】样本数据的数字特征12. 【答案】33【解析】数学成绩在(80,100)之间的学生人数是(520+620)×60=33.【知识点】频率分布直方图13. 【答案】62;甲【知识点】样本数据的数字特征14. 【答案】次数;最中间;1n(x1+x2+⋯+x n);中点;面积【知识点】样本数据的数字特征15. 【答案】15【解析】高二年级学生人数占总数的310,样本容量为50,则应从高二年级抽取的学生人数为50×310=15.【知识点】分层抽样16. 【答案】400;3【解析】由题意知抽样比为10100+300=140,则50100+300+120+480+z+600=140,解得z=400.可得甲,乙,丙三类车数量的比例为2:3:5,则乙类车抽到的数量为310×50=15,乙类车中,舒适型与标准型的数量比为1:4,所以舒适型的数量为15×15=3.【知识点】分层抽样三、解答题(共6题)17. 【答案】因为疾病与地理位置和水土均有关系,所以不同乡镇的发病情况差异明显,因而应采用分层抽样的方法.具体过程如下:(1)将3万人分成5层,一个乡镇为一层.(2)按照各乡镇的人口比例随机抽取各乡镇的样本:300×315=60( 人),300×215=40(人),300×515=100( 人),300×215=40( 人),300×315=60( 人).各乡镇分别用分层抽样抽取的人数分别为60,40,100,40,60.(3)将抽取的这300人组到一起,即得到一个样本.【知识点】分层抽样18. 【答案】(1) 由题意在图二中画出2017年通州区全区完成全社会固定资产投资(柱状图),标出增长率并补全折线图,如图.(2) 从2011∼2017这7年里,随机选取连续的2个年份,共6组,分别为:(2011,2012),(2012,2013),(2013,2014),(2014,2015),(2015,2016),(2016,2017),设事件A表示“随机选取续的2年份,后一年份增长率高于前一年份增长率”,则事件A包含的基本事件有2个,分别为:(2011,2012),(2015,2016),所以随机选取续的2年份,后一年份增长率高于前一年份增长率的概率P(A)=26=13.(3) x0<x.【知识点】频率与频数、样本数据的数字特征、频率分布直方图19. 【答案】(1) 由题干图知众数为70+802=75.(2) 由题干图知,设中位数为x,由于前三个矩形面积之和为0.4,第四个矩形面积为0.3,0.3+0.4>0.5,因此中位数位于第四个矩形内,得0.1=0.03(x−70),所以x≈73.3,即中位数为73.3.【知识点】频率分布直方图、样本数据的数字特征20. 【答案】(1) 由上面表格得0.2+0.4+x+y+0.05=1即x+y=0.35,又52=xy,所以x=0.25,y=0.1.又5z=x=0.25,所以z=20(2) 根据上一问做出的数据画出频率分步直方图.(3) 由频率分步直方图可以知道x=1.5×0.2+4.5×0.4+7.5×0.25+10.5×0.1+13.5×0.05=5.7,即乘客平均等待时间的估计值是5.7.【知识点】频率分布直方图、样本数据的数字特征、频率与频数21. 【答案】这20名男生的平均体重为65+56+70+⋯+68+58+6620=67.85(kg).20名男生中体重在60∼75kg之间的人数为12,故这20名男生体重在60∼75kg之间的人数所占比例为1220=0.6.所以佔计该校高一男生的平均体重约为67.85kg,体重在60∼75kg之间的人数所占比例约为0.6.【知识点】样本数据的数字特征22. 【答案】平均数与样本的每一个数据有关,它可以反映出更多的关于样本数据总体的信息,但是平均数受数据中极端值的影响较大.【知识点】样本数据的数字特征。
第九章统计9.1 随机抽样1. 全面调查与抽样调查( 1 )对每一个调查对象都进行调查的方法,称为全面调查,又称普查W .( 2 )在一个调查中,我们把调查对象的全体称为总体,组成总体的每一个调查对象称为个体W .( 3 )根据一定的目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查W .( 4 )把从总体中抽取的那部分个体称为样本W .( 5 )样本中包含的个体数称为样本量W .( 6 )调查样本获得的变量值称为样本的观测数据,简称样本数据 .2. 简单随机抽样( 1 )有放回简单随机抽样一般地,设一个总体含有 N ( N 为正整数)个个体,从中逐个抽取 n (1 ≤ n < N )个个体作为样本,如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做放回简单随机抽样 .( 2 )不放回简单随机抽样如果抽取是不放回的,且每次抽取时总体内未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样 .( 3 )简单随机抽样放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样 .( 4 )简单随机样本通过简单随机抽样获得的样本称为简单随机样本 .( 5 )简单随机抽样的常用方法实现简单随机抽样的方法很多,抽签法和随机数法是比较常用的两种方法 .■名师点拨( 1 )从总体中,逐个不放回地随机抽取 n 个个体作为样本,一次性批量随机抽取 n 个个体作为样本,两种方法是等价的 .( 2 )简单随机抽样中各个个体被抽到的机会都相等,从而保证了抽样的公平性 .3. 总体平均数与样本平均数( 1 )总体平均数① 一般地,总体中有 N 个个体,它们的变量值分别为 Y 1 , Y 2 ,… , Y N ,则称== Y i 为总体均值,又称总体平均数 .② 如果总体的 N 个变量值中,不同的值共有 k (k ≤ N )个,不妨记为 Y 1 , Y2 ,… , Y k ,其中 Y i 出现的频数 f i ( i = 1 , 2 ,… , k ),则总体均值还可以写成加权平均数的形式= f i Y i W .( 2 )样本平均数如果从总体中抽取一个容量为 n 的样本,它们的变量值分别为 y 1 , y 2 ,… , yn ,则称== y i 为样本均值,又称样本平均数 . 在简单随机抽样中,我们常用样本平均数去估计总体平均数 .4. 分层随机抽样( 1 )分层随机抽样一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层W .( 2 )比例分配在分层随机抽样中,如果每层样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配 .5. 分层随机抽样中的总体平均数与样本平均数( 1 )在分层随机抽样中,如果层数分为 2 层,第 1 层和第 2 层包含的个体数分别为 M 和 N ,抽取的样本量分别为 m 和 n . 我们用 X 1 , X 2 ,… , X M 表示第 1 层各个个体的变量值,用 x 1 , x 2 ,… , x m 表示第 1 层样本的各个个体的变量值;用 Y 1 , Y 2 ,… , Y N 表示第 2 层各个个体的变量值,用 y 1 , y 2 ,… ,y n 表示第 2 层样本的各个个体的变量值,则:① 第 1 层的总体平均数和样本平均数分别为== X i ,== x i .② 第 2 层的总体平均数和样本平均数分别为==Y i ,== y i .③ 总体平均数和样本平均数分别为=,=W .( 2 )由于用第 1 层的样本平均数可以估计第 1 层的总体平均数,用第 2 层的样本平均数可以估计第 2 层的总体平均数 . 因此我们可以用=+估计总体平均数 .( 3 )在比例分配的分层随机抽样中,==,可得+=+= . 因此,在比例分配的分层随机抽样中,我们可以直接用样本平均数估计总体平均数 .6. 获取数据的途径获取数据的基本途径有:( 1 )通过调查获取数据;( 2 )通过试验获取数据;( 3 )通过观察获取数据;( 4 )通过查询获取数据典型应用 1总体、样本等概念辨析题为了调查参加运动会的 1 000 名运动员的平均年龄,从中抽取了 100 名运动员进行调查,下面说法正确的是()A.1 000 名运动员是总体B. 每个运动员是个体C. 抽取的 100 名运动员是样本D. 样本量是 100【解析】根据调查的目的可知,总体是这 1 000 名运动员的年龄,个体是每个运动员的年龄,样本是抽取的 100 名运动员的年龄,样本量为 100. 故答案为D.【答案】 D此类题目要正确理解总体与个体的概念,要弄明白概念的实质,并注意样本与样本容量的不同,其中样本量为数目,无单位 .典型应用 2简单随机抽样的概念下面的抽样方法是简单随机抽样吗?为什么?( 1 )从无数个个体中抽取 50 个个体作为样本;( 2 )仓库中有 1 万支奥运火炬,从中一次抽取 100 支火炬进行质量检查;( 3 )某连队从 200 名党员官兵中,挑选出 50 名最优秀的官兵赶赴灾区开展救灾工作 .【解】( 1 )不是简单随机抽样 . 因为简单随机抽样要求被抽取的样本总体的个数是有限的 . ( 2 )不是简单随机抽样 . 虽然“ 一次性抽取” 和“ 逐个抽取” 不影响个体被抽到的可能性,但简单随机抽样要求的是“ 逐个抽取” . ( 3 )不是简单随机抽样 . 因为这 50 名官兵是从中挑选出来的,是最优秀的,每个个体被抽到的可能性不同,不符合简单随机抽样中“ 等可能抽样” 的要求 .要判断所给的抽样方法是否为简单随机抽样,关键是看它们是否符合简单随机抽样的定义,即简单随机抽样的四个特点 .典型应用 3抽签法及随机数法的应用某班有 50 名学生,要从中随机地抽出 6 人参加一项活动,请分别写出利用抽签法和随机数法抽取该样本的过程 .【解】( 1 )利用抽签法步骤如下:第一步:将这 50 名学生编号,编号为 01 , 02 , 03 ,… , 50.第二步:将 50 个号码分别写在纸条上,并揉成团,制成号签 .第三步:将得到的号签放在一个不透明的容器中,搅拌均匀 .第四步:从容器中逐一抽取 6 个号签,并记录上面的号码 .对应上面 6 个号码的学生就是参加该项活动的学生 .( 2 )利用随机数法步骤如下:第一步:将这 50 名学生编号,编号为 1 , 2 , 3 ,… , 50.第二步:用随机数工具产生 1 ~ 50 范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的学生进入样本 .第三步:重复第二步的过程,直到抽足样本所需人数 .对应上面 6 个号码的学生就是参加该项活动的学生 .( 1 )利用抽签法抽取样本时应注意以下问题:① 编号时,如果已有编号(如学号、标号等)可不必重新编号 . (例如该题中 50 名同学,可以直接利用学号)② 号签要求大小、形状完全相同 .③ 号签要搅拌均匀 .④ 抽取号签时要逐一、不放回抽取 .( 2 )利用随机数法抽取样本时应注意的问题:如果生成的随机数有重复,即同一编号被多次抽到,应剔除重复的编号并重新产生随机数,直到产生的不同编号个数等于样本所需的人数 .典型应用 4分层随机抽样中的有关计算( 1 )某单位共有老、中、青年职工 430 人,其中有青年职工 160 人,中年职工人数是老年职工人数的 2 倍,为了解职工身体状况,现采用分层随机抽样方法进行调查,在抽取的样本中有青年职工 32 人,则该样本中的老年职工的人数为W .( 2 )某高中学校为了促进学生个体的全面发展,针对学生发展要求,开设了富有地方特色的“ 泥塑” 与“ 剪纸” 两个社团,已知报名参加这两个社团的学生共有800 人,按照要求每人只能参加一个社团,各年级参加社团的人数情况如下表:高一年级高二年级高三年级泥塑 a b c剪纸x y z其中 x ∶ y ∶ z = 5 ∶ 3 ∶ 2 ,且“ 泥塑” 社团的人数占两个社团总人数的,为了了解学生对两个社团活动的满意程度,从中抽取一个 50 人的样本进行调查,则从高二年级“ 剪纸” 社团的学生中应抽取人 .【解析】( 1 )设该单位老年职工人数为 x ,由题意得 3 x = 430 - 160 ,解得 x = 90. 则样本中的老年职工人数为 90 × = 18.( 2 )法一:因为“ 泥塑” 社团的人数占总人数的,故“ 剪纸” 社团的人数占总人数的,所以“ 剪纸” 社团的人数为 800 × = 320 ;因为“ 剪纸” 社团中高二年级人数比例为==,所以“ 剪纸” 社团中高二年级人数为 320 × = 96.由题意知,抽样比为=,所以从高二年级“ 剪纸” 社团中抽取的人数为 96 × = 6.法二:因为“ 泥塑” 社团的人数占总人数的,故“ 剪纸” 社团的人数占总人数的,所以抽取的 50 人的样本中,“ 剪纸” 社团中的人数为 50 × = 20.又“ 剪纸” 社团中高二年级人数比例为==,所以从高二年级“ 剪纸” 社团中抽取的人数为 20 × = 6.【答案】( 1 ) 18 ( 2 ) 6分层随机抽样中有关计算的方法( 1 )抽样比== .( 2 )总体中某两层的个体数之比=样本中这两层抽取的个体数之比 .对于分层抽样中求某层个体数,或某层要抽取的样本个体数,都可以通过上面两个等量关系求解 .典型应用 5样本平均数的求法( 1 )甲在本次飞镖游戏中的成绩为 8 , 6 , 7 , 7 , 8 , 10 , 9 , 8 ,7 , 8. 求甲在本次游戏中的平均成绩 .( 2 )在了解全校学生每年平均阅读多少本文学经典名著时,甲同学抽取了一个容量为 10 的样本,并算得样本的平均数为 5 ;乙同学抽取了一个容量为 8 的样本,并算得样本的平均数为 6. 已知甲、乙两同学抽取的样本合在一起组成一个容量为 18 的样本,求合在一起后的样本均值 .【解】( 1 )甲在本次游戏中的平均成绩为= 7.8. ( 2 )合在一起后的样本均值为== .在分层随机抽样中,如果第一层的样本量为 m ,平均值为 x ;第二层的样本量为n ,平均值为 y ,则样本的平均值为 .9 . 2 用样本估计总体1 .频率分布表、频率分布直方图的制作步骤及意义2 .百分位数(1) 定义:一般地,一组数据的第 p 百分位数是这样一个值,它使得这组数据中至少有 p % 的数据小于或等于这个值,且至少有 ( 100 - p ) % 的数据大于或等于这个值.(2) 计算步骤:计算一组 n 个数据的第 p 百分位数的步骤:第 1 步,按从小到大排列原始数据.第 2 步,计算 i = n × p % .第 3 步,若 i 不是整数,而大于 i 的比邻整数为 j ,则第 p 百分位数为第 j 项数据;若 i 是整数,则第 p 百分位数为第 i 项与第 ( i + 1) 项数据的平均数.典型应用 1频率分布表、频率分布直方图、频率分布折线图的绘制角度一频率分布表、频率分布直方图的绘制为考查某校高二男生的体重,随机抽取 44 名高二男生,实测体重数据( 单位: kg ) 如下:57 , 61 , 57 , 57 , 58 , 57 , 61 , 54 , 68 , 51 , 49 , 64 , 50 , 48 ,65 , 52 , 56 , 46 , 54 , 49 , 51 , 47 , 55 , 55 , 54 , 42 , 51 , 56 ,55 , 51 , 54 , 51 , 60 , 62 , 43 , 55 , 56 , 61 , 52 , 69 , 64 , 46 ,54 , 48将数据进行适当的分组,并画出相应的频率分布直方图和频率分布折线图.【解】以 4 为组距,列表如下:分组频率累计频数频率[41.5 , 45.5 ) 2 0.045 5[45.5 , 49.5 ) 7 0.159 1[49.5 , 53.5 ) 8 0.18 1 8[53.5 , 57.5 ) 16 0.363 6[57.5 , 61.5 ) 5 0.113 6[61.5 , 65.5 ) 4 0.090 9[65.5 , 69.5 ) 2 0.045 5频率分布直方图和频率分布折线图如图所示.(1) 在列频率分布表时,极差、组距、组数有如下关系:① 若为整数,则=组数;② 若不为整数,则的整数部分+ 1 =组数.(2) 组距和组数的确定没有固定的标准,将数据分组时,组数力求合适,纵使数据的分布规律能较清楚地呈现出来,组数太多或太少,都会影响我们了解数据的分布情况,若样本容量不超过 100 ,按照数据的多少常分为 5 ~ 12 组,一般样本量越大,所分组数越多.角度二频率分布直方图的应用为了了解高一年级学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图 ( 如图所示 ) ,图中从左到右各小长方形面积之比为 2 ∶ 4 ∶ 17 ∶ 15 ∶ 9 ∶ 3 ,第二小组的频数为 12.(1) 第二小组的频率是多少?样本量是多少?(2) 若次数在 110 以上 ( 含 110 次 ) 为达标,则该校全体高一年级学生的达标率是多少?(3) 样本中不达标的学生人数是多少?(4) 第三组的频数是多少?【解】 (1) 频率分布直方图以面积的形式反映数据落在各小组内的频率大小,因此第二小组的频率为= 0.08.又因为第二小组的频率=,所以样本容量=== 150.(2) 由直方图可估计该校高一年级学生的达标率为 × 100% = 88 %.(3) 由 (1)(2) 知达标率为 88 % ,样本量为 150 ,不达标的学生频率为 1 - 0.88= 0.12.所以样本中不达标的学生人数为 150 × 0.12 = 18( 人 ) .(4) 第三小组的频率为= 0.34.又因为样本量为 150 ,所以第三组的频数为 150 × 0.34 = 51.频率分布直方图的应用中的计算问题(1) 小长方形的面积=组距 × =频率;(2) 各小长方形的面积之和等于 1 ;(3) =频率,此关系式的变形为=样本量,样本量 × 频率=频数.典型应用 2条形统计图为了丰富校园文化生活,某校计划在午间校园广播台播放“ 百家讲坛” 的部分内容.为了了解学生的喜好,抽取若干名学生进行问卷调查 ( 每人只选一项内容 ) ,整理调查结果,绘制统计图如图所示.请根据统计图提供的信息回答以下问题:(1) 求抽取的学生数;(2) 若该校有 3 000 名学生,估计喜欢收听易中天《品三国》的学生人数;(3) 估计该校喜欢收听刘心武评《红楼梦》的女学生人数约占全校学生人数的百分比.【解】 (1) 从统计图上可以看出,喜欢收听于丹析《庄子》的男生有 20 人,女生有 10 人;喜欢收听《故宫博物院》的男生有 30 人,女生有 15 人;喜欢收听于丹析《论语》的男生有 30 人,女生有 38 人;喜欢收听易中天《品三国》的男生有 64 人,女生有 42 人;喜欢收听刘心武评《红楼梦》的男生有 6 人,女生有 45 人.所以抽取的学生数为 20 + 10 + 30 + 15 + 30 + 38 + 64 + 42 + 6 + 45 =300( 人 ) .(2) 喜欢收听易中天《品三国》的男生有 64 人,女生有 42 人,共有 106 人,占所抽取总人数的比例为,由于该校有 3 000 名学生,因此可以估计喜欢收听易中天《品三国》的学生有× 3 000 = 1 060( 人 ) .(3) 该校喜欢收听刘心武评《红楼梦》的女学生人数约占全校学生人数的比例为× 100% = 15 %.(1) 绘制条形统计图时,第一步确定坐标系中横轴和纵轴上坐标的意义,第二步确定横轴上各部分的间距及位置,第三步根据统计结果绘制条形图.实际问题中,我们需根据需要进行分组,横轴上的分组越细,对数据的刻画(描述)就越精确.(2) 在条形统计图中,各个矩形图的宽度没有严格要求,但高度必须以数据为准,它直观反映了各部分在总体中所占比重的大小.典型应用 3折线统计图小明同学因发热而住院,下图是根据护士为他测量的体温所绘制的体温折线图.根据图中的信息,回答以下问题:(1) 护士每隔几小时给小明测量一次体温?( 2) 近三天来,小明的最高体温、最低体温分别是多少?(3) 从体温看,小明的病情是在恶化还是在好转?(4) 如果连续 36 小时体温不超过 37.2 摄氏度的话,可认为基本康复,那么小明最快什么出院?【解】 (1) 根据横轴表示的意义,可知护士每隔 6 小时给小明测量一次体温.(2) 从折线统计图中的最高点和最低点对应的纵轴意义,可知最高体温是 39.5 摄氏度,最低体温是 36.8 摄氏度.(3) 从图中可知小明的体温已经下降,并趋于稳定,因此病情在好转.(4)9 月 8 日 18 时小明的体温是 37 摄氏度.其后的体温未超过 37.2 摄氏度,自 9 月 8 日 18 时起计算,连续 36 小时后对应的时间为 9 月 10 日凌晨 6 时.因此小明最快可以在 9 月 10 凌晨 6 时出院.(1) 绘制折线统计图时,第一步,确定直角坐标系中横、纵坐标表示的意义;第二步,确定一个单位长度表示一定的数量,根据数量的多少描出各点;第三步,用直线段顺次连接即可.(2) 在折线统计图中,从折线的上升、下降可分析统计数量的增减变化情况,从陡峭程度上,可分析数据间相对增长、下降的幅度.典型应用 4扇形统计图下图是 A , B 两所学校艺术节期间收到的各类艺术作品的情况的统计图:(1) 从图中能否看出哪所学校收到的水粉画作品数量多?为什么?(2) 已知 A 学校收到的剪纸作品比 B 学校的多 20 件,收到的书法作品比 B 学校的少 100 件,请问这两所学校收到艺术作品的总数分别是多少件?【解】 (1) 不能.因为两所学校收到艺术作品的总数不知道.(2) 设 A 学校收到艺术作品的总数为 x 件, B 学校收到艺术作品的总数为 y 件,则解得即 A 学校收到艺术作品的总数为 500 件,B 学校收到艺术作品的总数为 600 件.(1) 绘制扇形统计图时,第一步计算各部分所占百分比以及对应圆心角的度数;第二步在圆中按照上述圆心角画出各个扇形并恰当标注.(2) 扇形统计图表示总体的各部分之间的百分比关系,但不同总量下的扇形统计图,其不同的百分比不可以作为比较的依据.典型应用 5百分位数的计算现有甲、乙两组数据如下表所示.序号1 2 3 4 5 6 7 8 9 11112131415161718192甲组1 2 2 2 2 3 3 3 5 5 6 6 8 8 9 11121313乙组0 0 0 0 1 1 2 3 4 5 6 6 7 7 11414141415试求甲、乙两组数的 25 % 分位数与 75 % 分位数.【解】因为数据个数为 20 ,而且 20 × 25 % = 5 , 20 × 75% = 15.因此,甲组数的 25 % 分位数为== 2.5 ;甲组数的 75 % 分位数为== 9.5.乙组数的 25 % 分位数为== 1 ,乙组的 75 % 分位数为== 12.求百分位数时,一定要将数据按照从小到大的顺序排列.9 . 3 统计案例公司员工的肥胖情况调查分析1 .平均数和中位数的特点(1) 样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变.(2) 中位数只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位数的改变.(3) 与中位数相比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感.2 .中位数、平均数与频率分布直方图的关系一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的 ( 图(1)) ,那么平均数和中位数应该大体上差不多;如果直方图在右边“ 拖尾” ( 图(2)) ,那么平均数大于中位数;如果直方图在左边“ 拖尾” ( 图 (3)) ,那么平均数小于中位数.也就是说,和中位数相比,平均数总是在“ 长尾巴” 那边.3 .众数的特点众数只利用了出现次数最多的那个值的信息.众数只能告诉我们它比其他值出现的次数多,但并未告诉我们它比别的数值多的程度.因此,众数只能传递数据中的信息的很少一部分,对极端值也不敏感.■名师点拨一般地,对数值型数据 ( 如用水量、身高、收入、产量等 ) 集中趋势的描述,可以用平均数、中位数;而对分类型数据 ( 如校服规格、性别、产品质量等级等 ) 集中趋势的描述,可以用众数.4 .总体方差与总体标准差如果总体中所有个体的变量值分别为 Y 1 , Y 2 ,… , Y N ,总体平均数为,则称 S 2 = __ ( Y i - ) 2 为总体方差, S =为总体标准差.与总体均值类似,总体方差也可以写成加权的形式.如果总体的 N 个变量值中,不同的值共有k ( k ≤ N ) 个,不妨记为 Y 1 , Y 2 ,… , Y k ,其中 Y i 出现的频数为 f i ( i = 1 , 2 ,… , k ) ,则总体方差为 S 2 = f i ( Y i - ) 2 .5 .样本方差与样本标准差如果一个样本中个体的变量值分别为 y 1 , y 2 ,… y n ,样本平均数为,则称 s 2 = ( y i - ) 2 为样本方差, s =为样本标准差.■名师点拨(1) 若 x 1 , x 2 , x 3 ,… , x n 的平均数为,方差为 s 2 那么 ax 1 + b ,ax 2 + b , ax 3 + b ,… , ax n + b 的平均数为′ = a + b ;方差s ′ 2 =a 2 s 2 .(2) 标准差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.显然,在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.典型应用 1众数、中位数、平均数的计算及应用某工厂人员及月工资构成如下:人员经理管理人员高级技工工人学徒合计月工资 ( 元 )22 000 2 500 2 200 2 000 1 000 29 700人数 1 6 5 10 1 23合计22 000 15 000 11 000 20 000 1 000 69 000(1) 指出这个表格中的众数、中位数、平均数;(2) 这个表格中,平均数能客观地反映该工厂的月工资水平吗?为什么?【解】 (1) 由表格可知,众数为 2 000 元.把 23 个数据按从小到大 ( 或从大到小 ) 的顺序排列,排在中间的数应是第 12 个数,其值为 2 200 ,故中位数为 2 200 元.平均数为 (22 000 + 15 000 + 11 000 + 20 000 + 1 000)÷23 = 69 000÷23 = 3 000( 元 ) .(2) 虽然平均数为 3 000 元 / 月,但由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平.(1) 如果样本平均数大于样本中位数,说明数据中存在较大的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中的极端数据信息,帮助我们作出决策.(2) 众数、中位数、平均数三者比较,平均数更能体现每个数据的特征,它是各个数据的重心.典型应用 2利用频率分布直方图求众数、中位数、平均数从高三抽出 50 名学生参加数学竞赛,由成绩得到如下的频率分布直方图.由于一些数据丢失,试利用频率分布直方图求:(1) 这 50 名学生成绩的众数与中位数;(2) 这 50 名学生的平均成绩.【解】 (1) 由众数的概念可知,众数是出现次数最多的数.在直方图中高度最高的小长方形的底边中点的横坐标即为所求,所以众数应为 75.由于中位数是所有数据中的中间值,故在频率分布直方图中体现的是中位数的左右两边频数应相等,即频率也相等,从而就是小矩形的面积和相等.因此在频率分布直方图中将所有小矩形的面积一分为二的垂直于横轴的直线与横轴交点的横坐标所对应的成绩即为所求.因为 0.004 × 10 + 0.006 × 10 + 0.02 × 10= 0.04 + 0.06 + 0.2 = 0.3 ,所以前三个小矩形面积的和为 0.3. 而第四个小矩形面积为 0.03 × 10 = 0.3 , 0.3 +0.3 > 0.5 ,所以中位数应位于第四个小矩形内.设其底边为 x ,高为 0.03 ,所以令 0.03 x = 0.2 ,得x ≈ 6.7 ,故中位数应约为 70 + 6.7 = 76.7.(2) 样本平均值应是频率分布直方图的“ 重心” ,即所有数据的平均值,即每个小矩形底边的中点的横坐标乘以每个小矩形的面积求和即可.所以平均成绩为 45 × (0.004 × 10) + 55 × (0.006 × 10) + 65 × (0.02 × 10) + 75 × (0.03 × 10) + 85 × (0.024 × 10) + 95 × (0.016 × 10) = 76.2.频率分布直方图的数字特征(1) 众数:众数一般用频率分布表中频率最高的一组的组中值来显示,即在样本数据的频率分布直方图中,最高矩形的底边中点的横坐标;(2) 中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等;(3) 平均数:平均数在频率分布表中等于组中值与对应频率之积的和.典型应用 3标准差、方差的计算及应用甲、乙两机床同时加工直径为 100 cm 的零件,为检验质量,从中抽取 6件测量数据为:甲: 99 100 98 100 100 103乙: 99 100 102 99 100 100(1) 分别计算两组数据的平均数及方差;(2) 根据计算说明哪台机床加工零件的质量更稳定.【解】 (1) 甲= × (99 + 100 + 98 + 100 + 100 + 103) = 100 ,乙= × (99 + 100 + 102 + 99 + 100 + 100) = 100 ,s = × [(99 - 100) 2 + (100 - 100) 2 + (98 - 100) 2 + (100 - 100) 2 +(100 - 100) 2 + (103 - 100) 2 ] =,s = × [(99 - 100) 2 + (100 - 100) 2 + (102 - 100) 2 + (99 - 100) 2 +(100 - 100) 2 + (100 - 100) 2 ] = 1.(2) 由 (1) 知甲=乙,比较它们的方差,因为 s > s ,故乙机床加工零件的质量更稳定.用样本的标准差、方差估计总体的方法(1) 用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据的平均数不相等时,需先分析平均水平,再计算标准差 ( 方差 ) 分析稳定情况.(2) 标准差、方差的取值范围是 [0 ,+∞ ) .(3) 因为标准差与原始数据的单位相同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.。