比率的区间估计
- 格式:pptx
- 大小:262.09 KB
- 文档页数:14
区间估计的基本原理证明区间估计是统计学中常用的一种估计方法,用于估计总体参数的范围。
其基本原理是根据样本数据得出的样本统计量,结合概率分布的性质,构造一个参数的置信区间,以达到对总体参数的估计。
设总体参数为θ,样本均值为x̄,标准差为σ,样本大小为n,置信水平为1-α。
则根据中心极限定理可以知道,当样本量足够大时,样本均值的抽样分布近似服从正态分布。
由此可以构造一个总体参数θ的置信区间,使其包含真实总体参数的概率为1-α。
下面我们来推导一下区间估计的基本原理。
1.样本均值的抽样分布近似正态分布:根据中心极限定理,当样本量足够大时,样本均值的抽样分布近似服从正态分布。
即:(x̄-θ)~N(0,σ²/n)2.构造总体参数θ的置信区间:根据正态分布的性质,可以得出:P(-z_(α/2)≤(x̄-θ)/σ√n≤z_(α/2))=1-α其中,z_(α/2)是标准正态分布的上侧面积为α/2的临界值。
即P(x̄-z_(α/2)σ√n≤θ≤x̄+z_(α/2)σ√n)=1-α这可以被理解为,以样本均值为中心,取样本均值±一个标准误差的范围作为置信区间,使得这个区间内的极端情况的概率为1-α。
3.构造置信区间的具体步骤:根据前面的推导,可以得到一个常用的构造置信区间的公式:x̄±z_(α/2)σ√n其中,x̄是样本均值,z_(α/2)是标准正态分布的上侧面积为α/2的临界值,σ是总体标准差,n是样本容量。
4.区间估计的实例:为了更好地理解区间估计的基本原理,我们可以通过一个实例来进行说明。
假设学校的学生身高总体均值未知,从该校随机抽取了100名学生,测量身高,得到样本均值为170cm,样本标准差为5cm。
现在我们希望利用这个样本来估计该校学生的平均身高。
假设置信水平为95%(α=0.05),则α/2=0.025、根据正态分布的性质,可以得到z_(0.025)=1.96(查表得到)。
根据上面的公式,可以得到置信区间为:170±1.96*(5/√100)=170±1.96*0.5=(169.02,170.98)因此,我们可以以95%的置信水平估计该校学生的平均身高在169.02cm和170.98cm之间。
四、关于比率的区间估计设总体p p B X ),,1(~未知, 要对p 进行估计。
又设n X X X ,,,21 是取自总体X 的样本。
由于:)1,0(~)1(N np p p P s -- (近似条件:()51,5≥-≥p n np )给定小概率()01.0,05.0α,查标准正态分布表,求出临界值2αZ ,使得:()αααααααα-=⎭⎬⎫⎩⎨⎧-+≤≤--⇒-=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧≤--≤-⇒=⎪⎪⎭⎪⎪⎬⎫⎪⎪⎩⎪⎪⎨⎧>--1)1()1( 1)1( 1 22222n p p Z P p np p Z P P Z n p n p P Z P Z n p p p P P s s s s即:p 的置信区间为⎥⎥⎦⎤⎢⎢⎣⎡-+--n P P Z P n P P Z P s s s s s s )1(,)1(22αα (近似!) 类似地,可建立置信度为()%1001α-的置信下界、置信上界如下:nP P Z P U n P P Z P L s s s s s s )1()1(-+=--=αααα例:从一批电子元件中随机抽取100只进行检验,测得一级品率为90%,以99%的置信水平估计该批元件一级品率的置信区间。
解:由中心极限定理知,当⎪⎭⎫⎝⎛-≥n p p p N P n s )1(,~,30时100,90.0==n P s58.201.02=−→−=ααZ从而:p 的置信区间为:⎥⎦⎤⎢⎣⎡⨯+⨯-1001.09.058.290.0,1001.09.058.290.0[]977.0,823.0=即:该批元件的一级品率p 位于0.823与0.977之间,其可靠性为99%。
五、样本容量的测定1) μ对X 的估计误差:nZ X σμα⋅≤-2(σ已知!)若使误差控制在0e ±,则:222222e Z n e Z n e nZ X σσσμααα⋅≥⇒⋅≥⇒≤⋅≤-2) 同样地: ()021e np p Z p P s ≤-⋅≤-α()2221e p p Z n -⋅≥α如果p 已知,或由先验知识已知p 的数值,则直接代入即可;否则,取5.0=p ,保证)1(p p -的数值最大。
第一章绪论1.描述统计(descriptive statistics)主要研究如何将实验或调查得到的大量数据进行图表整理或简缩成有代表性的数字(即统计量数),使其能客观、全面地反映这组数据的全貌,将其所提供的信息充分显现出来,为进一步统计分析和推论提供可能。
2.描述统计只限于对试验样本所得观测数据的统计分析,不考察其总体的特性。
3.推论统计(inferential statistics)是以描述统计为基础,从而解决由局部到全体的推论问题,即通过对一组统计量的计算分析,推论该组数据所代表的总体特性。
4.变量(variables):一个可以取不同数值的物体属性/事件。
5.事前无法预期结果的变量——随机变量6.观测值(原始取值):事后测定的某一结果。
7.概念理解:[涉及“实验”] 自变量(及其各水平)& 因变量(及相应的反应指标);[涉及“调查”,粗略对应于] 属性变量& 反应变量8.计数资料(count data):计算个数的数据,(如人口数,学校数,男女数等)9.计量资料(measurement data):借助于一定的测量工具或一定的测量标准而获得的数据(如分数,身高,体重,IQ)10.称名数据(nominal data):只区分属性或类别上的不同,只可计数,不能排序(性别,学科,职业)11.等级/顺序数据(ordinal data):可排序,但无相等单位,不能加减。
(等级评定,受教育程度,职称)12.等距数据(interval data):具有相等单位,无绝对零的数据,能加减不能乘除。
13.比率数据(ratio data):既表明量的大小,又具有相等单位,可以加减乘除,具有绝对零点。
14.称名数据和顺序数据合称为离散数据。
15.等距数据和比率数据合称为连续数据。
16.离散数据(discrete data)又称为不连续数据,这类数据在任何两个数据点之间所取的数据的个数是有限的。
17.连续数据(continuous data)指任意两个数据点之间都可以细分出无限多个大小不同的数值。
(二)区间估计区间估计是指用样本指标、抽样误差和概率所构造的区间以估计总体指标存在的可能范围。
在进行区间估计的时候,根据所给定的条件不同,总体平均数和总体成数的估计有两条模式可供选择: 第一套:给定置信度要求,去推算抽样误差的可能范围。
第二套:根据已给定的抽样误差范围,求出概率保证程度。
1. 总体平均数的区间估计按照第一套模式,根据置信度F t ()的要求,估计极限抽样误差的可能范围)(∆∆∆或p x ,并指出估计区间(置信区间)。
具体步骤是:(1)抽取样本,并根据调查所得的样本单位标志值,计算样本平均数x ;计算样本标准差;在大样本下用以代替总体标准差推算抽样平均误差μ。
(2)根据给定的置信度F t ()的要求,查《正态分布概率表》,求得概率度t 值。
(3)根据概率度t 和抽样平均误差μx 计算极限抽样误差的可能范围μxx t =∆,并据以计算置信区间的上下限。
例14 麦当劳餐馆在7周内抽查49位顾客的消费额(元)如下,求在概率95%的保证下,顾客平均消费额的置信区间。
15 24 38 26 30 42 1830 25 26 34 44 20 3524 26 34 48 18 28 4619 30 36 42 24 32 4536 21 47 26 28 31 4245 36 24 28 27 32 3647 35 22 24 32 46 26第一步:根据样本计算样本平均数和标准差:x x n ==∑32 (元) S n x x ==-∑2945().(元),用样本标准差代替总体标准差σ=945.(元) 样本平均误差 x n μσ===94549135..(元)第二步:根据给定的置信度F t ()=95%,查概率表得t =196. 第三步:根据概率度t 和抽样平均误差推算抽样极限误差的可能范围。
65.235.196.1=⨯==∆μxx t (元) 将μxx ,的值代入区间估计公式 )(65.34)(35.2965.23265.232元元≤≤+≤≤-+≤≤-∆∆X X x X x xx计算结果表明,以95%的概率保证,麦当劳餐馆顾客消费额在29.35~34.65元之间。
比率估计法简介在统计学中,比率估计法是一种用来估计总体比率的方法。
比率是指总体中某个特定类别的个体数与总体规模之间的比值。
比如,在人口统计学中,我们关心某个国家的男性和女性的比例;在市场调研中,我们关心某个产品的市场占有率。
比率估计法基于从总体中随机抽取样本的方法。
通过对样本的观察,我们可以利用样本中的比例来估计总体的比例。
比率估计法有多种形式,其中最常用的是点估计和区间估计。
点估计点估计是指根据样本数据,直接计算出总体比率的估计值。
估计值通常以样本比率的形式给出。
样本比率是指样本中满足某个条件的个体数与样本规模之间的比值。
点估计的优点是简单直接,可以通过简单的计算得到一个估计值。
但是,点估计的缺点是没有给出总体比率的不确定性程度,无法提供置信区间。
点估计的计算公式如下:p̂=x n其中,p̂为总体比率的估计值,x 为样本中满足条件的个体数,n 为样本规模。
区间估计区间估计是指根据样本数据,给出总体比率的估计区间。
估计区间包含了总体比率的真实值的可能范围。
区间估计的优点是可以提供总体比率的不确定性程度,使得我们可以评估估计值的可靠程度。
区间估计的缺点是计算较为复杂,需要使用统计方法进行推导。
区间估计的计算过程通常使用正态分布或二项分布进行,具体方法需要根据样本的具体情况进行选择。
在具体计算时,需要给定一个置信水平,通常为95%或99%。
置信水平是指给定样本数据,重复进行抽样和估计的过程中,估计区间包含真实值的比例。
区间估计的计算公式如下:p̂±Z √p̂(1−p̂)n其中,p̂为总体比率的估计值,Z 为与置信水平相对应的分位数,n 为样本规模。
总结比率估计法是一种用来估计总体比率的方法。
通过随机抽取样本,并对样本数据进行观察和统计,可以得到总体比率的估计值以及估计的不确定性程度。
点估计直接计算估计值,简单直接;区间估计则给出了估计区间,评估估计值的可靠程度。
比率估计法在统计学和市场调研中应用广泛,可以帮助我们了解总体的特征和趋势,做出合理的决策。
公式一1. 众数【MODE 】(1) 未分组数据或单变量值分组数据众数的计算未分组数据或单变量值分组数据的众数就是出现次数最多的变量值。
(2) 组距分组数据众数的计算对于组距分组数据,先找出出现次数最多的变量值所在组,即为众数所在组,再根据下面的公式计算计算众数的近似值。
下限公式: 1012M =L++i ∆⨯∆∆ 式中:0M 表示众数;L 表示众数的下线;1∆表示众数组次数与上一组次数之差;2∆表示众数组次数与下一组次数之差;i 表示众数组的组距。
上限公式:2012M =U-+i ∆⨯∆∆ 式中:U 表示众数组的上限。
2.中位数【MEDIAN 】(1)未分组数据中中位数的计算根据未分组数据计算中位数时,要先对数据进行排序,然后确定中位数的位置。
设一组数据按从小到大排序后为12N X X X ,,…,,中位数e M ,为则有:e N+M =X1()2当N 为奇数e N N +1221M =X +X 2⎛⎫⎛⎫⎪ ⎪⎝⎭⎝⎭⎧⎫⎪⎪⎨⎬⎪⎪⎩⎭ 当N 为偶数(2)分组数据中位数的计算分组数据中位数的计算时,要先根据公式N / 2 确定中位数的位置,并确定中位数所在的组,然后采用下面的公式计算中位数的近似值:式中:e M 表示中位数;L 表示中位数所在组的下限;m-1S 表示中位数所在组以下各组的累计次数;m f 表示中位数所在组的次数;d 表示中位数所在组的组距。
3.均值的计算【AVERAGE 】(1)未经分组均值的计算未经分组数据均值的计算公式为: 112n ++==nii x x x x x n n=∑…(2)分组数据均值计算分组数据均值的计算公式为: 11221121+++==+ki ik k i k kii x f x f x f x f x f f f f==+∑∑+4.几何平均数【GEOMEAN 】几何平均数是N 个变量值乘积的N 次方根,计算公式为: 式中:G 表示几何平均数;∏表示连乘符号。