第5章抽样与参数统计。分析
- 格式:docx
- 大小:996.97 KB
- 文档页数:19
第五章 抽样推断抽样推断定义:是一种非全面调查,是按随机原则,从总体中抽取一部分单位进行调查,并以其结果对总体某一数量特征作出估计和推断的一种统计方法。
(一) 总体和样本在抽样推断中面临两个不同的总体,即全及总体和样本总体,全及总体也叫母体,简称总体。
全及总体的单位数用N 表示全及总体⎪⎩⎪⎨⎧⎩⎨⎧属性总体有限总体无限总体变量总体样本总体又叫抽样总体、子样,简称样本,样本总体的单位数称样本容量,用n 表示。
(二) 参数和统计量参数亦称全及指标,由于全及总体是唯一确定的,故根据全及总体计算的参数也是个定值 对于属性总体,可以有如下参数,全及总体成数p ,全及总体标准差)(2p p σσ方差 属性总体标准差:()p p p-=1σ统计量即样本指标设样本总体有n 个变量:n x x x x ,...,,,321 则:样本平均数 nx x ∑=(三) 样本容量与样本个数样本容量是指一个样本所包含的单位数,用n 来表示,一般地,样本单位数达到或超过30个的样本称为大样本,而在30个以下称为小样本。
社会经济统计的抽样推断多属于大样本,而科学实验的抽样观察则多取小样本。
样本个数又称样本可能数目,是指从全及总体中可能抽取的样本的个数。
一个总体可能抽取多少样本,与样本容量大小有关,也与抽样的方法有关。
在样本容量确定之后,样本的可能数目便完全取决于抽样方法。
抽样误差是抽样调查自身所固有的,不可避免的误差,虽然不能消除这种误差,但有办法进行计算,并能对其加以控制。
抽样平均误差越大,表示样本的代表性越低;抽样平均误差越小,表示样本的代表性越高。
在重复简单随机抽样时,样本平均数的抽样分布有数学期望值E(a)=a(a代表全及总体平均数,即X)X⇔。
样本平均数的平均数=总体平均数抽样平均误差=抽样标准误差=样本平均数的标准差(它反映抽样平均数与总体平均数的平均误差程度)例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用重复简单随机抽样的方法从全及总体中抽选出容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(15501700160015001400元=+++=X全及总体标准差()4500002=-=∑NX Xσ抽样平均误差x μ=nnσσ=2=)(0569.792*450000元=例题:某班组4个工人的月工资(N=4)分别是:1400元,1500元,1600元,1700元,现用不重复简单随机抽样的方法从全部总体中抽选容量大小为2的样本(n=2),求抽样平均误差?解:全及总体平均工资)(155041700160015001400元=+++==∑NXX全及总体标准差()4500002=-=∑NX Xσx μ=⎪⎭⎫ ⎝⎛--∙12N n N n σ=)(55.6414244*250000元=--∙例题:某电子元件厂,生产某型号晶体管,按正常生产试验,产品中属于一级品的占70%,现在从10000件晶体管中,抽取100件进行抽查检验,求一级品率的抽样平均误差? 解:已知:P=0.7 , P(1-P)=0.21在重复抽样的情况下,抽样平均误差为:()np p p -=1μ=%58.410021.0=在不重复抽样的情况下,抽样平均误差为:()⎪⎭⎫⎝⎛-∙-=N n n p p p 11μ=%56.410000*********.0=⎪⎭⎫ ⎝⎛-∙参数估计()()⎪⎪⎩⎪⎪⎨⎧→-==+≤≤是概率度是置信度,极限误差)样本指标总体指标极限误差—(样本指标区间估计:求不高的情况准确程度与可靠程度要点估计:适用于推断的t t F t F P α1例题:已知某车间某产品的合格率在某个置信度下的估计区间是(85%,95%),还已知样本容量为100,求置信度?解:显然p p ∆-=85%,p p ∆+=95%,即p=90%,p ∆=5%p ∆=μ⋅t μpt ∆=⇒=()()67.1100%901%90%51=-∙=-∆np p p ()t F =0.9052即置信度为90.51% ★求置信度,只需要求出t影响抽样数目的因素⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧∆样本单位不重置抽样可以少抽些单位,抽样需要多抽一些样本、在同等条件下,重置单位,则反之值越大,则多抽些样本、概率度则反之单位,的值大可以少抽些样本)、允许误差(极限误差越多,则反之值越大,必要抽样数目、总体标准差4321t x σ例题:某城市组织职工家庭生活抽样调查,职工家庭平均每户每月收入的标准差为11.50元,要求把握程度为95.45%,允许误差为1元,问需抽选多少户? 解:()t F =0.95452=⇒t , 元元,150.11=∆=x σxt n 222∆=σ=()户529150.1142=∙。
第5章抽样(8学时)第一节抽样的意义与作用一、抽样的概念1.总体总体(population)通常与构成它的元素共同定义:总体是构成它的所有元素的集合,元素则是构成总体的最基本单位。
2.样本样本(sample)就是从总体中按一定方式抽取出的—部分元素的集合。
或者说一个样本就是总体的一个子集。
3.抽样明白了总体和样本的概念,再来理解抽样的概念就十分容易了。
所谓抽样(sampling),指的是从组成某个总体的所有元素的集合中,按一定的方式选择或抽取一部分元素(即抽取总体的一个子集)的过程,或者说,抽样是从总体中按一定方式选择成抽取样本的过程。
4.抽样单位抽样单位(sampling unit)就是一次直接的抽样所使用的基本单位。
抽样单位与构成总体的元素有时是相同的,有时又是不同的。
5.抽样框抽样框(sampling frame)又称做抽样范围,它指的是一次直接抽样时总体中所有抽样单位的名单。
6.参数值参数值(parameter)也称为总体值,它是关于总体中某一变量的综合描述,或者说是总体中所有元素的某种特征的综合数量表现。
在统计中最常见的总体值是某一变量的平均值,7.统计值统计值(statistic)也称为样本值,它是关于样本中某一变量的综合描述,或者说是样本中所有元素的某种特征的综合数量表现。
样本值是从样本的所有元素中计算出来的,它是相应的总体值的估计量。
二、抽样的作用在社会研究中,抽样主要解决的是对象的选取问题,即如何从总体中选出一部分对象作为总体的代表的问题。
本章一开始我们就说过,一项社会研究若能对总体中的全部个体都进行了解,那当然是很好的。
但实际上广大研究人员在时间、经费、人力等方面遇到难题,甚至陷入困境,从而不得不在庞大的总体与有限的时间、人力、经费这二者之间寻求平衡。
以现代统计学和概率论为基础的现代抽样理论,以及不断发展、不断完善的各种抽样方法.正好适应了社会研究的发展和应用的需要,成为社会研究知识体系中必不可少的一部分内容。
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
第5章抽样分布与参数估计在统计学中,抽样分布与参数估计是重要的概念。
抽样分布是指从总体中随机抽取样本,计算样本统计量,然后将这些统计量进行分布的过程。
参数估计是通过样本数据对总体参数进行估计的方法。
首先,我们来了解抽样分布。
在统计学中,我们通常很难直接获得总体数据,因为总体数据往往很大,难以收集。
因此,我们采用抽样的方式来获取样本数据,并通过样本数据来推断总体特征。
抽样分布是指在重复抽取样本的过程中得到的统计量的分布。
抽样分布的中心趋于总体参数,而抽样分布的形状可以通过中心极限定理进行描述。
中心极限定理认为,当样本数量足够大时,样本均值的抽样分布近似服从正态分布,且均值等于总体均值。
这对于统计推断和参数估计具有重要意义。
其次,我们来了解参数估计的概念及其方法。
参数估计是指根据样本数据对总体参数进行估计的统计方法。
常见的参数包括总体均值、总体方差等。
参数估计可以分为点估计和区间估计两种方法。
点估计是指通过样本数据计算得到的单个数值来估计总体参数。
常用的点估计方法包括最大似然估计和矩估计。
最大似然估计是基于样本的观测值选择使得观测值出现的概率最大的参数值作为估计值的方法。
矩估计是通过样本矩与总体矩的对应关系来估计总体参数的方法。
区间估计是指对总体参数给出一个区间估计值,该区间包含了真实参数值的概率。
常用的区间估计方法包括置信区间估计和预测区间估计。
置信区间估计是通过样本数据计算得到的一个区间,可以包含真实参数值的概率。
置信区间的置信水平是指在多次重复抽样中,这个区间包含了真实参数值的概率。
预测区间估计是在给定自变量取值的情况下,通过样本数据对应的因变量的取值的一个区间估计。
总之,抽样分布与参数估计是统计学中重要的概念和方法。
通过抽样分布可以了解样本统计量的分布情况,而参数估计可以通过样本数据对总体参数进行估计。
这些概念和方法对于数据分析和决策具有重要的实际应用价值。
抽样与参数估计统计学实验报告抽样与参数估计统计学实验报告概述本实验以抽样与参数估计统计学为主题,研究了参数估计、抽样方法、统计识别等内容。
实验目的1. 熟悉参数估计和统计分析的基本原理和方法;2. 掌握抽样的基本原理,熟悉抽样方法的运用;3. 掌握统计模型识别的方法,进行统计分析和决策;实验介绍1. 参数估计:参数估计是统计分析过程中重要的一步,它是识别某个实际系统的一个重要参数,以此据估计出实际系统的精确参数,估计准确的参数是统计模型的建立的前提。
2. 抽样方法:抽样方法就是从一个总体中取样,所取样的水平表现出一定的代表性,从而能推算出总体的概况,抽样方法有分层抽样、系统抽样、整群抽样等多种。
3. 统计模型识别:是用统计技术进行模型识别,它是利用概率模型来分析数据,建立有效的模型,从而进行有效的分析。
数据分析1. 针对参数估计,我们使用假设检验,通过比较估计值和真实值,进行检验,从而得出参数的准确度。
2. 针对抽样方法,我们使用分层抽样,将总体划分成不同的层,可以更好地表征总体,进行有效抽样。
3. 针对统计模型识别,我们使用多种模型进行比较,根据其检验概率和显著性水平,选择出最有效的模型进行识别。
结论1. 通过假设检验,得出了参数估计的准确度;2. 通过分层抽样得出了较好的抽样结果;3. 通过多种模型进行比较,选择出最有效的模型进行识别。
建议在下次实验中,为了提高参数估计的精度,应该进行更加精细的假设检验;为了增加抽样的可靠性,应该采用更为严谨的抽样方法;此外,要多尝试不同的统计模型,以期得到更好的结果。
第五章抽样与参数估计学习内容一、抽样推断概述二、抽样分布及其应用三、常见的抽样分布四、参数估计五、区间估计的计算学习目标1. 了解抽样和抽样分布的基本概念。
2. 理解抽样分布与总体分布的关系。
3. 了解点估计的概念和估计量的优良标准。
4. 掌握总体均值、总体比例和总体方差的区间估计。
一、抽样推断概述①推断统计的内容②抽样推断的过程统计推断的基本假定a)总体看作是一个随机变量X,其概率分布为f(x)。
b)样本看作是n个独立的随机变量(X1, X2, …, X n),每个都具有与总体X相同的分布。
c)样本中每个个体必须取自同一总体, X1, X2, …, X n相互独立。
统计推断涉及的概念参数与统计量–参数:描述总体分布特征的量,如平均数μ,标准差σ。
–统计量:由样本观察值算出的量,如,S2,S。
–统计量是随机变量。
③抽样分布及其形成过程抽样分布(概念要点)所有样本指标(如均值、比例、方差等)所形成的分布称为抽样分布。
抽样分布是一种理论概率的分布。
抽样分布的结果来自容量相同的所有可能样本。
单选题样本平均数和总体平均数()– A、前者是一个确定值,后者是随机变量– B、前者是随机变量,后者是一个确定值– C、两者都是随机变量– D、两者都是确定值④抽样推断的理论基础(1)大数定律a)大数定律在统计中是指一切关于大量随机现象之平均结果稳定性的定理。
–尽管单个随机现象的具体表现不可避免地引起随机偏差,然而在大量随机现象共同作用时,由于这些随机偏差互相抵消、补偿和拉平,致使总的平均结果趋于稳定。
b)为整个推断统计提供了最基本的理论依据。
猜硬币赌局赌局1:–掷10次硬币,赌正面朝上的频率为0.4到0.6次。
赌局2:–掷100次硬币,赌正面朝上的频率0.4到0.6次。
赌局3:–掷1000次硬币,赌正面朝上的频率0.4到0.6次。
贝努利大数定律设n A是n次独立试验中事件A发生的频数; p表示事件A 在每次试验中发生的概率,则对于任意正数є有:切比雪夫大数定律(2)中心极限定理–设从均值为μ,方差为σ 2的一个任意总体中抽取容量为n的样本,当n充分大时,多次抽样得到的样本均值近似服从均值为μ、方差为σ2/n的正态分布。
(一)大数定律揭示了大量随机变量的平均结果,但并没有涉及到随机变量的分布规律。
(二)中心极限定理是指在一定的条件下,大量相互独立的随机现象的概率分布是以正态分布为极限的定理。
(三)中心极限定理则说明了许多随机变量的分布是正态或近似正态的。
棣莫弗-拉普拉斯定理a)随机变量X取A的概率为p、取非A的概率为q=1-p时,抽取n个单位组成样本。
b)A出现的次数k组成的随机变量叫做服从二项分布的随机变量。
二、抽样分布及其应用1. 样本均值的抽样分布现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。
所有样本的结果如下表:所有样本均值的均值和方差:式中:M为样本数目。
比较及结论:1. 样本均值的均值(数学期望)等于总体均值。
2. 样本均值的方差等于总体方差的1/n。
样本均值的分布与总体分布的比较在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。
一种理论概率分布。
推断总体均值μ的理论基础。
样本均值的抽样分布与中心极限定理当总体服从正态分布N ~ (μ,σ2)时,来自该总体的所有容量为n的样本的均值也服从正态分布,的数学期望为μ,方差为σ2/n,即~N(μ,σ2/n)。
核心结论:样本均值的数学期望;样本均值的方差样本均值的分布形式。
–与总体分布有关–总体为正态分布,抽样分布也为正态,与样本容量无关。
b)与样本量有关–总体不是正态分布,样本量越大(n≥30),抽样分布越接近正态分布。
抽样分布与总体分布的关系2. 样本比例的抽样分布比例:总体(或样本)中具有某种属性的单位与全部单位总数之比。
–不同性别的人与全部人数之比。
–合格品(或不合格品) 与全部产品总数之比。
1)容量相同的所有可能样本的样本比例的概率分布。
2)当样本容量很大时,样本比例的抽样分布可用正态分布近似。
3)是一种理论概率分布。
4)推断总体比例π的理论基础。
核心结论样本比例的数学期望:;样本比例的方差:–重复抽样3. 样本方差的抽样分布正态总体样本方差的抽样分布设总体服从正态分布N ~ (μ,σ2 ), X1,X2,…, X n为来自该正态总体的样本,则样本方差 s2的分布为:将χ2(n – 1)称为自由度为(n-1)的卡方分布。
样本方差抽样分布(χ2分布)的形成过程4. 抽样分布的应用[例1]BTL商店的经理想知道供货商给他的电视质量是否低于平均水平。
他的研究表明电视机置换时间的均值为8.2年,标准差为1.1年。
然后他随机抽取50台过去售出的电视机,发现这些电视机平均置换时间为7.8年。
计算这50个随机抽取的电视机的平均置换时间为7.8年或更短的概率。
[例2]《娱乐报道》杂志发起了一项旨在增加订阅的有奖活动。
在过去,收到有奖活动参与材料的人中有26%最终参与了竞赛,订阅了杂志。
当有奖活动的参与材料发放给500个随机挑选的住户时,估计新增订阅结果的数量在125~150(包括120和150)的概率。
抽样分布应用练习某高校学生的入学考试成绩均值μ为550分,标准差σ为250分,若从中随机抽取100名,求:–样本平均成绩的数学期望和标准差值–分析样本均值的抽样分布–样本平均成绩在520分到580分之间的概率有多大?–样本平均成绩小于580分的概率有多大?三、常见的抽样分布1. 正态分布a)正态分布的数理统计学概念。
如果随机变量(X)的概率密度函数为:,则该随机变量服从正态分布。
b)式中σ为总体标准差;μ为总体均数;π为圆周率,即3.14159···;e为自然对数的底,即2.71828···。
密度函数的特性对称性非负性2. 卡方分布设随机变量相互独立,且都服从标准正态分布,则随机变量:卡方分布的性质a)恒为正值。
b)卡方分布的期望值是自由度n,方差为2n。
c)卡方分布具有可加性。
卡方分布与正态分布的关系3. T分布a)不同的样本容量, t分布有所不同。
b)大致对称的钟型形状,但对于小样本,它显示出更大的方差(n/(n-2))。
c)分布的均值为 =0。
d)分布的标准差随着样本容量的变化而变化,但它是大于1的。
e)随着样本容的增大,趋近于标准正态分布。
当n>30时,二者之间的差异就很小了。
正态分布、卡方分布与T分布的关系多选题T分布具有以下特征()– A、均值取决于自由度,方差等于1– B、均值为零,方差小于1– C、均值为零,方差大于1– D、方差随自由度的增加而降低– E、方差随自由度的增加而增加4. F分布a)不对称性。
b)和卡方分布一样,分布的值也是非负的。
c)分布的准确形状取决于两个不同的自由度。
四、参数估计①参数估计的方法被估计的总体参数1. 点估计(概念要点)a)从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。
–例如: 用样本均值作为总体未知均值的估计值就是一个点估计。
b)点估计没有给出估计值接近总体未知参数程度的信息。
c)点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等。
2. 区间估计(概念要点)a)根据一个样本的观察值给出总体参数的估计范围。
b)给出总体参数落在这一区间的概率。
–例如: 总体均值落在50~70之间,置信度为 95%。
3. 置信区间 (confidence interval)a)统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间。
b)用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值。
c)我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个。
4. 置信水平a)总体未知参数落在区间内的概率。
b)表示为 (1 - α) %–α为显著性水平,是总体参数未在区间内的概率。
c)常用的置信水平值有 99%、95%、90%。
–相应的α为0.01、0.05、0.10。
置信区间与置信水平回顾:经验法则(落在总体均值某一区间内的样本)5. 影响区间宽度的因素a)数据的离散程度,用σ来测度。
b)样本容量c)置信水平 (1 - α),影响 Z 的大小。
1)有95%的样本均值会落在总体真值μ的1.96个标准差的范围之内。
2)有95%的样本均值所构造的1.96个标准差的区间会包括总体真值μ。
3)某个样本均值所构造的1.96个标准差的区间包含总体真值μ的概率约为95%。
6. 评价估计量的标准1)估计量——用于估计总体某一参数的随机变量。
–如样本均值,样本比例、样本中位数等。
–例如: 样本均值就是总体均值μ的一个估计量。
–如果样本均值 x = 3 ,则 3 就是μ的估计值。
2)理论基础是抽样分布。
无偏性:估计量抽样分布的数学期望等于被估计的总体参数。
有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效。
一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。
①无偏性是指()– A、抽样指标的平均数等于被估计的总体指标– B、当样本容量n充分大时,样本指标充分靠近总体指标– C、随着n的无限增大,样本指标与未知的总体指标之间的离差任意小的可能性趋于实际必然性– D、作为估计量的方差比其他估计量的方差小②若甲估计量的方差小于乙估计量的方差,则称()– A、甲是无偏估计量– B、乙是一致估计量– C、乙比甲有效– D、甲比乙有效五、区间估计的计算✧区间估计的内容✧区间估计的计算a)总体均值的区间估计b)总体比率的区间估计c)样本容量的确定1. 总体均值的区间估计(正态总体,方差σ2已知)a)假定条件–总体服从正态分布,且总体方差(σ2)已知。
–不是正态分布,可以由正态分布来近似 (n ≥30)。
b)使用正态分布统计量Z:c)总体均值μ在1-α置信水平下的置信区间为:[例]某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平长度为2 1 . 4 mm。
已知总体标准差σ =0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。
2. 总体均值的区间估计(正态分布,方差σ2未知,小样本)a)假定条件:–总体方差(σ2)未知。
–总体必须服从正态分布。
–小样本 (n < 30)。
b)使用 t 分布统计量:c)总体均值μ在1-α置信水平下的置信区间为:[例]从一个正态总体中抽取一个随机样本, n=25,其均值x = 50 ,标准差 s =8。
建立总体均值m 的95 %的置信区间。
[例]已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(小时)如下。