抽样推断
- 格式:doc
- 大小:261.50 KB
- 文档页数:13
统计学中的抽样与推断在统计学中,抽样与推断是两个非常重要的概念和方法。
抽样是从总体中选择出一部分个体来进行观察和研究的过程,而推断则是根据样本的统计特征来对总体的特征进行推断和估计。
本文将从抽样方法、推断的基本原理和应用等方面进行阐述。
一、抽样方法抽样是进行统计研究的基础,良好的抽样方法能够保证样本的代表性和可靠性。
常见的抽样方法包括简单随机抽样、系统抽样、分层抽样和整群抽样等。
1. 简单随机抽样简单随机抽样是指从总体中随机选择出若干个体作为样本,每个个体被选中的概率相等且相互独立。
通过随机数表、随机数发生器等工具可以实现简单随机抽样。
2. 系统抽样系统抽样是按照一定的规则和间隔,从总体中选择个体作为样本。
例如,从一排座位上每隔固定的间隔选取个体作为样本。
3. 分层抽样分层抽样是将总体划分为若干个层次,然后从每个层次选择样本。
通过这种方法可以确保不同层次的个体在样本中的比例与总体中的比例保持一致。
4. 整群抽样整群抽样是将总体划分为若干个群体,然后从其中选择若干个群体作为样本。
这种抽样方法常用于人口调查或者地理区域的研究。
二、推断的基本原理推断是根据样本数据对总体的特征进行推断和估计的过程。
推断的基本原理包括参数估计和假设检验两方面。
1. 参数估计参数估计是通过样本数据对总体的参数进行估计。
常见的参数估计方法有点估计和区间估计。
点估计是通过样本数据得到总体参数的估计值,例如平均数的点估计是样本均值。
区间估计是通过样本数据得到总体参数的置信区间,可以对总体参数的范围进行估计。
2. 假设检验假设检验是通过样本数据对总体参数的假设进行检验。
常用的假设检验方法有单样本假设检验、两样本假设检验和方差分析等。
假设检验的基本步骤包括建立原假设和备选假设、选择适当的检验统计量、确定显著性水平和计算P值等。
三、抽样与推断的应用抽样与推断在实际问题中有着广泛的应用,特别是在市场调研、医学研究和社会科学等领域。
1. 市场调研市场调研是通过抽样方法对消费者的需求和偏好进行调查和研究。
统计学中的抽样与推断在统计学中,抽样与推断是非常重要的概念。
它们涉及到我们如何从一小部分样本中推断出整个总体的特征。
在这篇文章中,我们将讨论抽样的不同方法以及如何使用样本数据进行推断。
一、抽样方法在统计学中,我们通常使用以下三种抽样方法:1. 简单随机抽样这是最基本的抽样方法。
简单随机抽样意味着从总体中随机抽出样本,每个样本被抽样的概率相等。
这种方法可以确保样本的代表性。
例如,如果我们要调查一个城市的人口,我们可以从人口登记簿中随机抽取一定数量的人口作为样本。
2. 分层抽样分层抽样是把总体划分为若干个层次,然后从每个层次中随机抽取样本。
这个方法可以减小代表性偏差。
例如,如果我们要调查一个城市的人口,我们可以按照不同的年龄段对总体进行分层,然后从每个年龄段中随机抽取一定数量的人口作为样本。
3. 系统抽样这是从总体中按照一定的规则抽样。
例如,如果我们要调查一个工厂中的员工,我们可以按照员工的工号顺序每隔一定数量抽取一个员工作为样本。
二、样本统计量的计算在进行统计推断之前,我们需要先计算样本统计量。
样本统计量是样本数据的数量指标,可以代表总体的特征。
常见的样本统计量包括:1. 样本均值样本均值是样本数据的平均值。
它可以代表总体的平均值。
例如,我们可以从一个城市的人口中随机抽取一部分人口,计算他们的平均收入,这个平均收入就是样本均值。
2. 样本标准差样本标准差是样本数据的标准差。
它可以代表总体的方差。
例如,我们可以从一个工厂中随机抽取一部分产品,计算它们的重量,这个重量的标准差就是样本标准差。
三、参数估计我们通常使用抽样中的样本统计量来估计总体参数。
例如,我们可以使用样本均值来估计总体均值,使用样本标准差来估计总体标准差。
常见的参数估计方法包括:1. 点估计点估计是用样本统计量来估计总体参数的方法。
例如,我们可以使用样本均值来估计总体均值,使用样本标准差来估计总体标准差。
2. 区间估计区间估计是用一个区间来估计总体参数的方法。
统计中的抽样与推断统计学是研究如何收集、分析、解释和展示数据的学科。
在统计学中,抽样与推断是两个重要的概念。
抽样是指从总体中选取一部分个体进行研究或调查,而推断是根据抽样所得到的统计量对总体进行估计或判断。
本文将探讨抽样的方法和推断的步骤,以及它们在统计学中的应用。
一、抽样的方法1. 简单随机抽样简单随机抽样是指从总体中随机选择n个个体,每个个体被选择的机会相同。
例如,从一个班级的学生中随机选择10个学生进行问卷调查。
2. 系统抽样系统抽样是指按照一定的规则从总体中选择个体。
例如,从一个工厂的工人名单中每隔5个选择一个工人进行调查。
3. 分层抽样分层抽样是将总体分为若干个层次,然后从每个层次中随机选择一部分个体。
例如,将一个城市的人口按照年龄、性别等因素分层,然后从每个年龄组和性别组中随机选取一定数量的人进行调查。
4. 整群抽样整群抽样是将总体划分为若干个群体,然后随机选择部分群体进行调查。
例如,从一个城市的所有小区中随机选择几个小区进行调查。
二、推断的步骤1. 确定假设在进行推断之前,首先需要确定研究或调查的目的,并建立相应的假设。
假设是对总体参数(如总体均值、总体比例等)的猜想。
2. 构建抽样分布根据选择的抽样方法,从总体中抽取样本,根据样本数据计算所需的统计量。
然后,构建抽样分布,即该统计量的所有可能取值及其相应的概率分布。
3. 计算估计量根据样本数据计算估计量,即对总体参数的估计。
常用的估计量有样本均值、样本比例等。
4. 进行推断利用抽样分布和估计量,进行统计推断。
根据所建立的假设,使用统计方法计算置信区间、假设检验等,对总体参数进行估计或判断。
三、抽样与推断的应用1. 市场调研在市场调研中,抽样与推断常被用于估计市场规模、消费者需求等。
通过从目标市场中抽取一定数量的样本,然后根据样本数据进行推断,可以对整个市场的情况进行估计。
2. 医学研究在医学研究中,抽样与推断可以用于评估某种治疗方法的疗效、比较不同药物的效果等。
第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
第八章抽样推断第一节抽样推断的意义和作用一、抽样推断的概念抽样推断是在抽样调查的基础上利用样本的实际资料计算出的样本数据,并运用概率估计方法,推算总体相应的数量指标的一种统计分析方法。
大家知道,在计划经济条件下,统计为了达到对总体数量特征的认识,往往是采用对总体的所有单位进行全面调查。
但从转变为市场经济以后,对统计调查亦进行了改革,由以全面调查为主的调查方法,逐步转变为提倡和推广抽样调查。
这种调查方法,不同于全面调查,它是通过组织抽样调查取得部分单位的实际资料,来估计和判断总体的数量特征,以达到对现象总体的认识。
抽样推断,从其内涵来说,包括抽样调查和抽样推断两部分,前者着重调查,后者着重推断。
具体地说,所谓抽样调查,是指按照随机原则从调查对象的全部单位中抽取部分单位,进行调查,取得各项准确的数据;所谓抽样推断,是指运用数理统计原理,根据抽样调查资料,对研究对象全体的数量特征,作出具有可靠程度的估计和判断,以达到对现象总体正确认识的目的。
总之,抽样推断,不仅是一种科学的非全面的调查方法,而且是一种根据非全面调查资料,推算全面情况的统计研究方法。
抽样推断具有如下几个特点:1.按照随机原则,抽选调查单位,是抽样推断的前提。
抽样调查,这种非全面调查与其他非全面调查,如典型调查、重点调查等选择单位的方法完全不同。
典型调查、重点调查均由调查者有意识地选择调查单位,因而受调查者主观因素的影响。
这样取得的调查资料,不能用来对总体的数量特征进行统计推断。
抽样调查则是按随机原则抽选调查单位,完全排除调查者主观因素的影响。
这样调查的部分单位资料,可以用来推断总体的数量特征。
那么,什么是随机原则呢?随机原则就是在抽选调查单位时,保证总体中每个单位都有相等的中选可能性。
所以随机原则又称同等可能性原则。
这样,按随机原则抽取部分单位,就有更大的可能性使抽取出来的部分单位所构成的样本总体结构与调查总体结构相似,因而使样本总体对调查总体具有充分的代表性,抽样误差也就更小了。
第八章抽样推断【学习目标】通过本章的教学使学生了解抽样推断的概念及特点、作用;了解统计误差产生的原因;理解抽样误差的概念;熟念掌握在不同的抽样组织方式下抽样平均误差的计算方法;学会利用样本数据对总体参数进行点估计和区间估计;掌握必要抽样数目的确定方法。
为将来走上工作岗位进行抽样调查和推断打下基础。
【教学重点和难点】重点:区间估计难点:抽样平均误差的计算【案例导入】某省政府部门欲了解全省农民收入的平均水平。
该省幅员辽阔,人口众多,如果采用普查则工作量及调查费用将异常庞大。
一个可行的方法是在全省抽取部分农户进行调查,根据这部分调查所得收入数据资料去推断全省农民收入的平均水平。
某地为加强环境保护,加强水质监测,考察河水中某种污染物质是否超标。
显然对河水全部检验是不可能的,只能从河水中按照一定地点定时取样检验,根据检验结果推断河水中污染物是否超标。
某水泥厂加强产品质量控制和管理,需考察水泥标号是否达到规定标准,其方法是将水泥做成试块进行耐压试验。
由于这种试验是一种破坏性试验,显然不能把全部水泥都做成试块,只能从全部水泥中抽取部分进行试验。
从上面例子可以看出,在很多统计问题中,或者由于人力、物力、财力或时间限制,或者由于取得全部数据是不可能的,或者虽然能够取得全面数据但数据收集本身带有破坏性,我们不能收集全面数据,只能从中收集部分数据,依据这部分数据对所研究对象的数量特征或数量规律性进行推断。
这种依据部分观测取得的数据对整体的数量特征或数量规律性进行的推断称为统计推断。
第一节抽样推断中的基本概念一、抽样推断及其特点(一)抽样推断按照随机原则从总体中抽取部分单位进行观察,利用样本中的实际资料计算样本指标,并据以计算总体相应数量特征的一种统计分析方法。
包括统计调查,即对个体单位进行观察与搜集资料的方法,还包括统计分析,即对总体进行统计估计和分析的方法。
【案例8﹣1】某企业生产的5000个零件中,按照10%的比例,抽取500件进行检查,发现25件是废品,则废品率为(25/500)×100%=5%,采用抽样调查的结果,废品率是5%,来推算5000个零件的废品率,该方法即是抽样推断,抽取的500个零件就是样本。
(二)抽样推断的特点1. 按照随机原则抽取样本:总体中的各个单位是否入选样本,不受主观因素影响,保证总体中的每一单位都有相同的中选机会,剔除了人为主观因素,提高样本代表性。
2. 由样本数据推断总体特征:通过逻辑上的归纳推算实现了从特殊到一般,从部分到总体的认识,由获得的样本的实际数据,计算样本指标,推算总体指标。
3. 抽样误差可以估计:样本指标推断总体指标存在误差,这种误差可以事先估计,并能够控制这个误差范围。
抽样推断根据事先给定的误差允许范围设计,具有一定概率保证的估计和判断。
(三)抽样推断的作用1. 对不可能进行全面调查的又要了解的全面情况,用抽样方法,例如:灯泡寿命检查、人体验血、子弹质量检查等。
2. 不必要进行全面调查的对象,用抽样方法。
例如:全国大学生的心理状况调查、全国城乡居民收入调查等。
3. 应用抽样法可以对全面调查的结果加以补充或修正,例如:对普查的结果进行登记质量的抽样调查,修正结果等。
4. 用于生产过程中产品质量的检查与控制,例如:质量控制时一旦发现异常情况,可以及时采取措施,防止废品大量产生。
二、抽样推断中的基本概念(一)总体和样本 1. 总体总体——亦称全及总体,指所要认识的研究对象全体,它是由所研究范围内具有某种共同属性的全体单位所组成的集合体。
通常用N 表示,N 是很大的数。
2. 样本样本——又称子样,也称样本总体,它是全及总体中随机抽取出来的,作为代表这一总体的那部分单位组成的集合体。
样本中所包含的单位数称为样本容量,通常用n 表示,相对于N 来讲n 是很小的数(样本容量小于30的称为小样本,反之,则称为大样本)。
总体和样本,一个是整体,一个是部分,全及总体是我们的研究内容的对象,因此它是唯一的,确定的;而样本则是建立在随机基础上抽取出来的,所以每一次选样,都会选出不同的结果,所以它是变动的,不确定的。
(二)总体参数和统计量1. 总体参数——根据总体各单位的标志值或标志属性计算出来的(总体指标) 对于总体中的数量标志,常用的总体参数有总体标准差δ(或总体方差δ2)和总体平均数X ,其计算公式如下:δ=NX X ∑-2)(=∑∑-FFX X 2)(X =NX ∑=ΣXF /ΣF对于总体中的质量标志,常用的总体参数有总体成数和总体成数标准差(方差)来表示,总体成数某种性质的单位数在总体全部单位数中所占的比重。
即 p=(n1/n),则总体中不具有某种性质的 单位数在总体中所占的比重为:q=1-p如果品质标志有是非两种标志,将是定义为“1”;非定义为“0”。
成数的标准差的计算公式为:)1(P P -=δ2. 样本统计量——根据样本各单位标志值或标志属性计算出来的(样本指标),也称样本统计量样本统计量有:样本平均数x ,样本标准差,样本成数p ,样本成数标准差。
样本统计量是用来估计总体参数的,内容和计算方式是与总体参数一致的,但本质不同,总体参数是直接总体的实际数据是唯一的,确定的,固定的。
而统计量则是随着抽样的变化,样本的变化,其指标值也是处于不断的变化之中的。
(三)抽样误差的概念1. 统计误差统计工作的调查结果与实际情况的差别,抽样过程中,通常会产生两类误差:登记性误差与代表性误差。
2. 登记性误差在调查过程中,由于测量、登记、计算上的差错引起的误差,这类误差可以避免。
3. 代表性误差因样本的代表性不足所引起的误差,具备两种情况:(1)抽样过程中,没有按照随机原则取样,存在人为的主观因素,破坏了随机原则所造成的误差,称为系统性误差,可以避免。
(2)抽样过程中严格按照随机原则取样,由于样本指标代替总体指标所引起的误差,无法避免,是按照随机原则产生的,成为随机误差。
通常抽样误差就是随机误差。
抽样误差由于随机抽样的偶然因素所引起的,样本指标与总体指标之间的绝对离差即:平均指标的抽样误差为:x-X成数指标的抽样误差为:p -P第二节抽样组织方式、方法和抽样误差的计算一、抽样的组织方式根据统计研究的目的和研究对象的特点,抽样调查可以采用不同的组织方式,,在统计实践中,抽样调查的组织方式主要有以下四种,实际调查所用的方法通常可以是这四种方法的各种形式的组合。
(一)简单随机抽样简单随机抽样也称为单纯随机抽样。
从包含N个抽样单元的总体中抽取容量为n的简单随机样本,可以是从总体中逐个不放回地抽取n次,每次都是在尚未入样的单元中等概率抽取的,也可以是从总体中一次取得全部n个单元,只要保证全部可能的样本每个被抽到的概率都相等即可。
简单随机抽样是其他抽样方法的基础,因为它在理论上最容易处理,并且当总体包含的抽样单元数N不太大时实施并不困难。
但是当N很大时实施就很困难,主要是编制一个包含全部N个抽样单元的抽样框通常很不容易。
另外当N很大时所抽到的样本单元往往很分散,使调查极不方便。
因此在大规模的抽样调查中很少单独采用简单随机抽样。
(二)类型抽样类型抽样又成为分层抽样,将总体按照某一标志进行分组,在各组中按照随机原则抽取样本单位的组织方式。
通过分类,把总体中标志值比较接近的单位归为一组,使各组单位之间的差异程度缩小,分布比较均匀。
在各组中都要抽取样本单位,这样使样本分布更加接近于总体分布,提高样本的代表性,当总体各个单位差异较大时,采用类型抽样可以大大提高估计的精度。
类型抽样将总体按照某一标志进行分组,各组的单位数一般是不相同的,样本单位数在各组之间的分配一般有两种方法:1. 按照比例抽取样本数目,不考虑各组标志变异程度的大小,按各组的单位数占总体的的比重抽取样本数目。
2. 各组抽取的样本数目,按照各组标志变异程度来确定,变异程度大多抽一点,变异程度小少抽一点。
(三)等距抽样等距抽样又称机械抽样,它先将总体各单位按某一标志排队,然后以相等的间隔抽取样本单位的一种组织方式。
(四)整群抽样整群抽样是将总体各个单位划分为若干群,然后以群为单位从中随机抽取一些群,对选中群所有单位进行全面调查的抽样组织方式,整群抽样采用不重复抽样。
二、抽样方法1. 重复抽样——抽出一个单位,登记结果,又重新放回,参加下一次抽选,抽取的样本可能值为N n2. 不重复抽样——每次抽取一个单位就不再放回参加下一次抽选,其抽取的全部可能的样本个数为p N n三、抽样误差的分类及计算 (一)影响抽样误差的因素1.样本的单位数:其他条件不变的情况下,样本数越多,抽样误差越小,反之,抽样误差越大。
2.总体各单位标志值的差异程度:差异程度越大,抽样误差越大,反之,越小。
3.抽样方法:重复抽样误差大于不重复抽样的抽样误差。
4.抽样调查组织形式:相对而言,类型抽样和等距抽样误差小一些。
(二)抽样平均误差反映抽样误差一般水平的指标,通常用抽样平均数的标准差或抽样成数的标准差来作为衡量误差一般水平的尺度 1. 抽样平均数的平均误差(1)在重复抽样条件下,抽样平均数的平均误差,即:u x=nδ(2) 在不重复条件下,平均误差为:u x =nδ1--N nN 2. 抽样成数的平均误差 (1)重复抽样条件下 u p =n δ=np p )1(-(2)不重复抽样条件下p u =nδ1--N nN ( δ=p(1-p) )3. 重复抽样和不重复抽样条件下抽样平均误差的区别。
从上面的计算公式可看到,在其他条件相同的情况下,重复抽样和不重复抽样仅差一个修正因子的平方根()1(N n -。
由于,11<-nn所以不重复抽样的平均误差小于重复抽样的平均误差的N n -1倍。
Nn又称抽样比例或抽样强度。
(三)抽样极限误差样本指标与总体指标之间可允许的误差最大范围称为极限误差,或者说,是统计量与参数离差的最大范围,即:x ∆= x -X= p -P 可以变形为:x -X x ∆≤⇒x -x ∆≤X ≤x +x ∆p p P p p p P p ∆+≤≤∆-⇒∆≤-公式中,总体平均数和总体成数是未知的,需要我们用样本指标去估计,抽样极限误差的实际意义在于期望总体平均数X 落在(x -x ∆,x +x ∆)范围内,总体成数P 落在(p p ∆-,p p ∆+)范围内。
(三)抽样误差的概率度与置信度 1. 概率度概率度是以抽样平均误差为标准单位来衡量抽样极限误差而的到的相对数。
用极限误差除以平均误差所得到的反映相对误差程度的相对数t ,称为抽样误差的概率度。
即:uxxt ∆=uppt ∆=⨯=∆t x x u p u t p ⨯=∆p ∆t 的含义(概率度):表示误差范围为抽样平均误差的t 倍,t 是测量估计可靠程度的一个参数。