7.43、抽样方法与总体分布的估计
- 格式:ppt
- 大小:4.68 MB
- 文档页数:58
第59讲 抽样方法与总体的估计基础梳理1.简单随机抽样一般地,从个体数为N 的总体中逐个不放回地取出n 个个体作为样本(n <N ),如果每个个体都有相同的机会被取到,那么这样的抽样称为简单随机抽样.抽签法和随机数表法都是简单随机抽样. 2.系统抽样将总体平均分成几个部分,然后按照一定的规则,从每个部分中抽取一个个体作为样本,这样的抽样方法称为系统抽样. 3.分层抽样将总体中的个体按不同的特点分成层次比较分明的几部分,然后按各部分在总体中所占的比实施抽样,这种抽样方法叫分层抽样,所分成的各个部分称为“层”. 4.频率分布直方图(1)通常我们对总体作出的估计一般分成两种,一种是用样本的频率分布估计总体的分布,另一种是用样本的数字特征估计总体的数字特征.(2)在频率分布直方图中,纵轴表示频率组距,数据落在各小组内的频率用各小长方形的面积表示.各小长方形的面积总和等于1.(3)连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图,随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体分布的密度曲线,它能够更加精细的反映出总体在各个范围内取值的百分比.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留所有信息,而且可以随时记录,给数据的记录和表示都带来方便. 5.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.平均数:样本数据的算术平均数,即x -=1n(x 1+x 2+…+x n ).在频率分布直方图中,中位数左边和右边的直方图的面积应该相等. (2)样本方差、标准差 标准差s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2],其中x n 是样本数据的第n 项,n 是样本容量,x -是平均数.标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差. 三个特点(1)简单随机抽样的特点:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小;用简单随机抽样法抽出的个体带有随机性,个体间无固定间距.(2)系统抽样的特点:适用于元素个数很多且均衡的总体;各个个体被抽到的机会均等;总体分组后,在起始部分抽样时,采用简单随机抽样.(3)分层抽样的特点:适用于总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样. 对标准差与方差的理解标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,标准差、方差越小,数据的离散程度越小,因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的分散程度上是一样的,但在解决实际问题时,一般多采用标准差.考向一抽样方法【例1】►某单位有老年人28人,中年人54人,青年人81人,为了调查他们的身体状况,从他们中抽取容量为36的样本,最适合抽取样本的方法是____抽样.【训练1】某商场共有某品牌的奶粉210件,全部为三个批次的产品,其中A,B,C三个批次的产品数量成等差数列,现用分层抽样的方法抽取一个容量为60的样本,则应从B 批次产品中抽取的数量为________件.考向二频率分布直方图【例2】►某校从参加高一年级期中考试的学生中随机抽出60名学生,将其物理成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图所示的频率分布直方图,观察图形的信息,回答下列问题:(1)求分数在[70,80)内的频率,并补全这个频率分布直方图;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此估计本次考试中的平均分.2011·四川卷)有一个容量为66的样本,数据的分组及各组的频数如下:[11.5,15.5),2;[15.5,19.5),4;[19.5,23.5),9;[23.5,27.5),18;[27.5,31.5),11;[31.5,35.5),12;[35.5,39.5),7;[39.5,43.5),3.根据样本的频率分布估计,数据落在[31.5,43.5)的概率约是________【训练2】(2011·南京模拟)如图是样本容量为200的频率分布直方图,根据样本的频率分布直方图,估计样本数据落在[6,10]内的频数为________.考向三均值与方差【例3】►(2011·苏北四市调研)从某项综合能力测试中抽取10人的成绩,统计如下表,则这10人成绩的方差为________.分数5544332211人数33111133227.如图是根据2008年北京奥运会上甲、乙两名篮球运动员每场比赛的得分情况制作成的茎叶图,则甲、乙两名运动员中发挥得比较稳定的一名运动员是________.。
抽样方法与总体分布的估计【知识要点】1.简单随机抽样:设一个总体的个数为N 。
如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样。
实现简单随机抽样,常用抽签法和随机数表法2.系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样)。
系统抽样的步骤可概括为:(1)将总体中的个体编号。
采用随机的方式将总体中的个体编号;(2)将整个的编号进行分段。
为将整个的编号进行分段,要确定分段的间隔k .当n N 是整数时,nN k =;当n N 不是整数时,通过从总体中剔除一些个体使剩下的个体数N ´能被n 整除,这时nN k '=; (3)确定起始的个体编号。
在第1段用简单随机抽样确定起始的个体边号l ; (4)抽取样本。
按照先确定的规则(常将l 加上间隔k )抽取样本:k n l k l k l l )1(,,2,,-+⋅⋅⋅++。
3.分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层4、频率分布直方图、折线图与茎叶图样本中所有数据(或数据组)的频率和样本容量的比,就是该数据的频率。
所有数据(或数据组)的频率的分布变化规律叫做频率分布,可以用频率分布直方图、折线图、茎叶图来表示。
频率分布直方图:具体做法如下:(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图。
注:频率分布直方图中小正方形的面积=组距×组距频率=频率。
折线图:连接频率分布直方图中小长方形上端中点,就得到频率分布折线图。
总体密度曲线:当样本容量足够大,分组越多,折线越接近于一条光滑的曲线,此光滑曲线为总体密度曲线。
第77课 抽样方法与总体分布的估计一、教学目标1.了解简单随机抽样、系统抽样、分层抽样等抽样方法的特点及适用范围;2.会用简单随机抽样法、系统抽样法、分层抽样法从总体中抽取样本;3.会列样本频率分布表,会画频率分布直方图、折线图、茎叶图,体会它们的特点,会用样本的频率分布估计总体分布的规律. 二、基础知识回顾与梳理1、统计的基本思想是 .【教学建议】统计学的基本思想方法是用样本估计总体,即通过从总体中抽取一个样本,根据样本的情况去估计总体的相应情况.因此,样本的抽取是否得当,对于研究总体来说就十分关键.要突出抽样方法的重要性。
2、为了了解参加一次知识竞赛的1252名学生的成绩,决定采用系统抽样的方法抽取一个容量为50的样本,那么总体中应随机剔除的个体的数目是 .【教学建议】本题改编自课本习题,主要是如何处理样本容量不能整除总体容量的问题,而这是在实际操作中经常碰到的.答案为2.3、一工厂生产了某种产品16800件,它们来自甲、乙、丙3条生产线,为检查这批产品的质量,决定采用分层抽样的方法进行抽样,已知甲,乙,丙三条生产线抽取的个体数组成一个等差数列,则乙生产线生产了 件产品.【教学建议】由甲、乙、丙三条生产线抽取的个体数组成一个等差数列得出乙生产线生产的产品占13,从而得到答案为5600.4、在抽查某产品尺寸的过程中,将其尺寸分成若干组,[,]a b 是其中一组,抽查出的个体数在该组上的频率为m ,该组上的直方图的高为h ,则||a b = .【教学建议】矩形的高度表示每一组的频率除以组距,宽度则表示各组的组距,则答案为m h. 三、诊断练习1、教学处理:课前由学生自主完成4道小题,并要求将解题过程扼要地写在学习笔记栏.课前抽查批阅部分同学的解答,了解学生的思路及主要错误.点评时呈现典型错误,以纠正学生错误的认识.2、诊断练习点评题1:对总数为N 的一批零件抽取一个容量为30的样本,若每个零件被抽到的概率为0.25,则N 的值 为 .【分析与点评】简单随机抽样是在特定总体中抽取样本,总体中每一个个体被抽取的可能性是等同的,如果用从个体数为N 的总体中抽取一个容量为n 的样本,那么每个个体被抽取的可能性等于nN,易得答案为120.题2.用简单随机抽样方法从含有6个个体的总体中,抽取一个容量为2的样本,某一个体a “第一次被抽到的概率”、“第二次被抽到的概率”、“在整个抽样过程中被抽到”的概率分别是【分析与点评】简单随机抽样是在特定总体中抽取样本,总体中每一个个体被抽取的可能性是等同的,某一个体a “第一次被抽到的概率”为16、“第二次被抽到的概率”为16、“在整个抽样过程中被抽到”的概率是13题3.一个田径队,有男运动员56人,女运动员42人,比赛后,立即用分层抽样的方法,从全体队员中抽出一个容量为28的样本进行尿样兴奋剂检查,其中男运动员应抽 . 【分析与点评】根据男运动员在总体中的比例,不难得出抽取的人数为16名。
抽样方法与总体分布的估计在统计学中,抽样是指从总体中选取一部分个体进行观察和测量的过程。
抽样方法的选择是统计研究的重要环节,将直接影响到对总体分布的估计。
抽样方法一般分为概率抽样和非概率抽样两种。
概率抽样是指以确定的概率规则随机抽取样本,每个个体有确定的概率被选中,如简单随机抽样、分层抽样和系统抽样等。
非概率抽样是指个体被选入样本的概率不可确定,无法通过概率规则进行抽样,如方便抽样、判断抽样和定额抽样等。
简单随机抽样是一种常用的概率抽样方法,即从总体中抽取n个个体,每个个体被选中的概率相等。
简单随机抽样可以保证样本与总体之间的代表性,并且可以应用于任何样本容量的情况。
分层抽样则是将总体分成若干个层次,然后从各个层次中分别进行简单随机抽样。
这种方法可以保证各个层次在样本中的比例与总体中的比例相同,适用于当总体具有明显的层次结构时。
系统抽样是指按照一定间隔从总体中随机选择一个个体作为初始个体,然后以固定的间隔选择后续的个体,直到达到样本容量。
概率抽样方法是基于随机性的,可以使得抽样结果具有代表性,从而可以通过对样本数据的分析来推断总体的特征。
在进行总体分布的估计时,可以利用样本数据的统计量,如样本均值、样本方差等,对总体参数进行估计。
利用抽样数据进行总体分布的估计是统计学中的重要内容,旨在通过样本数据来推断总体的分布特征。
常见的对总体分布的估计方法包括点估计和区间估计。
点估计是指通过样本数据得到总体参数的一个估计值,常用的点估计方法包括最大似然估计和矩估计等。
最大似然估计是基于样本数据的似然函数,通过使似然函数最大化来得到总体参数的估计值。
矩估计是通过样本矩的特征来估计总体参数,如样本均值、样本方差等。
点估计方法可以对总体的分布参数进行估计,但无法提供估计值的准确度信息。
区间估计是对总体参数进行估计时,给出一个区间范围,该范围内有一定的置信度包含总体参数的真值。
常见的区间估计方法包括置信区间法和预测区间法。