抽样理论讲义-洪永泰
- 格式:doc
- 大小:960.00 KB
- 文档页数:44
抽样讲义壹、导论抽样得意思顾名思义,就就是从全体之中抽取一部分个体做为样本,借着对样本得观察,再对全体做出推论。
譬如说,我们想知道某个地区七岁到十二岁得小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或就是我们得商品检验单位想要知道有一批货柜得棒球就是不就是每一个都符合使用标准;或就是水库管理当局想要知道到底水库里有多少鱼。
在理论上,我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。
一、为什么要抽样?(一)因为要节省经费,(二)因为要节省时间。
这两个理由很容易了解,如果要访问全体,则所耗费得时间与经费就是相当可观得,而且有许多调查性质具有时间性,如果拖得太长就会失去时效。
例如想知道学生们对某一项考试得反应如何,就非得打铁趁热,在短时间内完成调查不可。
(三)因为要提高资料得准确性,这就是由于全体调查牵涉到相当大量而又繁杂得作业,动员不少人力、物力与行政管道,增加许多犯错得机会,导致取得得数据质量不佳,而抽样调查工作涉及得作业负担相对地轻松许多,参与人员因为较少,好控制,使得数据得品质也较好。
事实上联合国得专家们也发现,在一些教育较不发达得地区,人口普查得资料就不如抽样调查来得好。
(四)因为要取得较详尽得数据,譬如我们想要知道七岁到十二岁小孩得压岁钱流到那里去,如果进行全体调查得话,由于人力与物力得限制,我们只能针对每一个小孩取得一点点资料,但就是如果就是抽样调查,则因为调查对象不多,反而可以很从容得取得细节资料提供分析之用。
每十年一次得人口普查,除了全体都查之外,总就是还要再抽取少数样本做更详尽得访问就就是这个道理。
(五)因为要减轻损失,例如汽车车身得耐撞试验,罐头食品得安全检查,或就是电灯泡寿命得质量管理检验。
这些调查本身就具有破坏性,总不能每部汽车都撞一撞,或就是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目还要控制到越少越好。
抽樣理論培訓講義一.培訓目的讓檢查員熟悉抽樣檢驗的基本概念,熟練運樣抽樣方案。
二.培訓內容1.質量抽樣理論的創建美國貝爾實驗室分為過程控制組:學術負責人為休哈特,產品控制組:學術負責人道奇,前者創建SPC理論,後者創建了質量抽樣理論,美國軍方採用了此理論,從而現行之MIL-STD-105E為美國軍用抽樣標準。
2.抽樣的基本概念(1)樣本:是取自總體中的一個或每個個體,用於提供總體的信息並作為可能作出對總體的某種判定的基礎。
(2)抽樣:隨機抽取或組成樣本的過程為抽樣(SAMPLING INSPECTION)3.樣本數(大小):樣本中所包含的抽樣單位數目(SAMPIE SIZE)4.簡單隨機抽樣:從N個個體的總體中抽取n個個體的所有可能組合被抽取的概率都相同,舉例說明:已知實際不良率,求抽樣概率的計算公式P(n,r/p)=C r n Pr(1-p)n-r5.相關術語及定義(1)批:在一致條件下或按規定方式匯總起來的一定數量的個體。
批量:一批中包含的個體數量(2)缺陷:⏹致命缺陷(CRI):對使用維護產品或與此有關人員可能造成危害或不安全狀況的缺陷,或可能損壞重要的最終產品的基本功能的缺陷。
⏹嚴重缺陷(MAJ):不致於致命缺陷,能引起失效或顯著降低預期性能的缺陷。
⏹輕微缺陷(MIN):不顯著降低產品預期性能的缺陷,或偏離標準隻輕微影響產品的有效使用或操作的缺陷。
(3)抽樣檢驗的分類:⏹按檢驗數分:全檢,抽檢,免檢⏹按檢驗次數分:單次,雙次,多次,序貫,截尾⏹按檢驗程度分:減量,正常,加嚴一般開始使用正常檢驗正常檢驗-----嚴格檢驗:連續抽檢5批中有2批被拒收嚴格檢驗-----正常檢驗:連續5批允許,則調回正常檢驗-----減量檢驗:連續10批全被允收者⏹檢驗連續性:連續性,非連續性(4)MIL-STD-105E抽樣標準講解概念:AQL(Acceptable Quality Level)質量允收水準使用方法講解:⏹根據批量對應樣本大小⏹根據抽樣方案嚴重程度及AQL值對應AC RE⏹根據箭頭所指方向改變抽樣方案⏹舉例:來料10000PCS AQL=0.4求AC RE使用程序:⏹確立品質標準⏹規定檢查水平⏹AQL確定⏹確定樣本量⏹確定抽樣方案⏹查得AC RE。
抽样设计的理论与方法讲义引言抽样设计是统计学中重要的概念,它涉及到从一个总体中选取一局部样本来进行研究,以代表总体的特征。
抽样设计的正确性和有效性对于研究结果的可靠性至关重要。
本讲义将介绍抽样设计的理论和方法,帮助读者了解如何进行适宜的抽样设计以及如何评估抽样结果的可靠性。
一、抽样设计的根本概念1.1 总体和样本在抽样设计中,我们需要明确研究的总体和样本的概念。
总体是我们希望研究的对象的全体,而样本那么是从总体中选取的一局部个体。
样本应该具有代表性,能够反映总体的特征。
1.2 抽样误差抽样误差是指样本统计量与总体参数之间的差异。
抽样误差包括抽样偏差和抽样变异两个方面。
抽样偏差是由于样本选择方式的不同导致的误差,而抽样变异是由于随机性导致的误差。
二、抽样设计的方法2.1 简单随机抽样简单随机抽样是一种最根本的抽样方法,每个个体都有相同的概率被选中。
简单随机抽样的优点是易于实施,但在总体规模较大时,本钱较高。
在进行简单随机抽样时,可以使用随机数表或者计算机随机数生成器来选择样本。
2.2 分层抽样分层抽样是将总体划分为假设干个层次,并分别从每个层次抽取样本。
这种抽样方法的优势是可以更好地控制样本的代表性和效率。
在进行分层抽样时,需要确定适宜的层次划分规那么,并保证每个层次内部的可变性较小。
2.3 整群抽样整群抽样是将总体划分为假设干个群体,然后从每个群体中抽取所有的个体作为样本。
这种抽样方法的优势是可以减少样本选择的本钱,但可能会导致群体内的个体之间的相似性较高。
2.4 多阶段抽样多阶段抽样是将总体划分为假设干个阶段,然后依次进行抽样。
多阶段抽样的优势是可以灵巧地控制抽样过程,并确保样本的多样性。
在进行多阶段抽样时,需要注意每个阶段的抽样方法和样本数量。
2.5 效率优化的抽样设计除了以上介绍的常用抽样设计方法外,还有一些效率优化的抽样设计方法,例如系统抽样、整体重复抽样和分层整群抽样等。
这些方法都是为了在保证样本代表性的前提下,尽可能降低抽样的本钱和时间。
《抽样技术》第一篇概述第一章抽样调查概论第一节抽样调查的概念一.什么是抽样调查(一)什么是抽样调查抽样调查(survey sampling),也称样本调查,是非全面调查中的一种重要方法,它是按一定程序从所研究对象的全体(总体)中抽取一部分(样本),进行调查或观察,获取资料,并以此对总体的一定目标量(参数)做出推断(例如估计)。
本课程所指抽样调查为概率抽样。
(二)与非概率抽样比较1.非概率抽样是用主观的(非随机的)方法从总体中抽选单元,是一种快速、简易且节省的从总体中选取样本单元的方法。
由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出各个单元的入样概率。
从而无法得到总体目标量的可靠估计值及其抽样误差估计值。
优点:快速简便;费用相对较低不需要抽样框;对探索性研究和调查的设计开发很有用。
缺点:为了对总体进行推断,需要对样本的代表性做很强的假定;不可能得到可靠的估计值以及抽样误差估计值。
2.非概率抽样的种类随意抽样;自愿抽样;判断抽样;配额抽样。
3.判断抽样由专家有目的地抽选有代表性的样本。
它适用于探索性研究,如:抽选参加焦点座谈或深入访谈的人,但不宜用在试调查中。
4.配额抽样这是最常见的一种非概率抽样。
抽样要从各个子总体中选取特定数量的单元(配额)。
优点:所抽取样本结构接近总体结构,提高样本代表性,调查单位少缺点:难以估计误差,无法排除主观因素影响(三)抽样调查以概率论和随机原则为依据来选取样本,不受调查者主观因素的影响从而充分保证了样本的代表性。
(1)在调查单位的选取上,遵循随机原则1.随机原则:并不是随便,随机有严格的科学含义,可以用概率来描述,也不等同于等概率原则。
等概率抽取是随机抽取,但随机抽取并不限定必须是等概率抽取。
一般要求总体中每个单元均有一个非零的概率被抽中。
2.抽取样本单元要按照给定的入样概率通过一定的随机化程序来实现。
3.估计总体参数,要考虑入样概率。
4.随机原则的实施,并不排斥采取不同的抽样方式。
抽样理论与方法培训抽样理论与方法:帮助你正确进行样本调查摘要:抽样理论与方法在科学研究、市场调查、社会调查等领域中起着重要作用。
本文将介绍抽样理论与方法的基本概念、常见的抽样方法以及如何正确应用抽样方法进行数据收集。
通过学习本文,读者将能够更好地理解抽样的重要性,并能够灵活运用合适的抽样方法来解决实际问题。
第一部分:抽样理论与方法的概述1.1 什么是抽样?抽样是指从一个被研究对象的总体中选取一部分样本进行调查或研究,以期对整体进行推论。
抽样是现实中常用的研究手段,因为往往不可能对整个总体进行调查。
1.2 抽样的目的抽样的目的是为了获得可靠的、代表性的调查数据,并通过样本数据对总体进行推断和判断。
抽样方法的好坏将直接影响到研究结果的可信度和准确性。
第二部分:常见的抽样方法2.1 简单随机抽样简单随机抽样是最基本的抽样方法之一,它要求每个样本都有相同的机会被选中,且选中的样本是相互独立的。
这种方法通常用于总体结构均匀、规模较小的情况下。
2.2 系统抽样系统抽样是按照一定的规律从总体中选取样本,如每隔一定间隔选取一个样本。
这种方法简单、易实施,适用于总体结构不均匀、总体规模较大的情况。
2.3 分层抽样分层抽样将总体划分为若干层,并从每一层中独立地进行抽样。
这种方法能够更好地保证样本的代表性,特别适用于总体结构复杂的情况。
2.4 整群抽样整群抽样是将总体划分为若干群体,然后从其中选取部分群体进行抽样调查。
这种方法适用于群体内部差异较小、群体间差异较大的情况。
第三部分:正确应用抽样方法的注意事项3.1 确定样本容量在进行抽样方法选择时,要根据总体规模和研究目的合理确定样本容量。
样本容量过小会导致数据的失真,样本容量过大则浪费资源。
3.2 抽样过程的随机性在进行抽样时要保证随机性,避免主观选择样本,以免引入不确定性。
3.3 样本的代表性样本的代表性是评估抽样方法好坏的一个重要指标。
样本应能够真实反映总体的特征,避免因样本不具代表性而导致推论的偏差。
(抽样检验)第四章抽样理论和参数估计第四章抽样理论和参数估计知识引入1970年美国首次进行征兵抽签,组织者将19-25岁的适龄青年按年龄分组,使用编号001-366的等重量塑料球,001代表1月1日出生者,031代表1月31日…,366代表12月31日。
然后将所有塑料球放入滚筒中混合抽取号码,每组抽中号码对应生日的青年依次应征,直到人数足够为止。
之后,有记者指出此次抽签产生了严重的偏差,他们注意到,年末生的人似乎倾向于被抽到较前面的征兵顺序。
其结果就是壹堆12月份生的人去了越南战场。
后来,经过统计学家的分析,发现这种“偏差”确实存在;经过分析终于找到了原因,原来代表生日的号码塑料球是壹次按壹整个月份装入滚筒中混合的,加上又没有均匀混合;于是1月份的生日容易在滚筒底下,12月份的是最后才装进去,容易在上面。
在抽样术语中,经常能够听到“随机抽样”、“随机选择”这样的表述,“随机性”原则其实保证了总体中的每个个体被抽中的概率相等,因而被认为是保证各种抽签、选择过程公平、公正的壹个基本手段。
上述抽样就没有保证这种随机性。
在本章中,我们仍会见到,作为推断的基础,我们直接研究的样本是否“得当”对研究总体十分关键,能够通过壹定的抽样设计制定科学、合理、公正的抽样方法。
如上述随机性原则能够保证抽样能够使得样本和总体有相同的内部结构,也就是说有最大的可能使总体的某些特征在样本中得以再现。
本章在介绍必要的抽样概念和抽样方法基础上,重点介绍抽样分布理论,且对参数估计进行简要介绍。
第一节抽样和常用抽样方法壹、简单随机抽样抽样(sampling)或取样,在整个研究过程中位于数据收集之前,恰当的抽样设计是保证样本代表性的关键环节,是利用样本对总体进行假设检验或参数估计的基础。
抽样涉及到的壹些基本概念在绪论中均已介绍。
壹个合理可行的抽样设计,壹方面要求针对调查或实验研究的具体情况选择壹种适宜抽样方法;另壹方面应该根据调查研究所要求的精确度及经费状况确定样本容量。
抽样讲义洪永泰台湾大学政治学系壹、导论抽样的意思顾名思义,就是从全体之中抽取一部分个体做为样本,借着对样本的观察,再对全体做出推论。
譬如说,我们想知道某个地区七岁到十二岁的小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或是我们的商品检验单位想要知道有一批货柜的棒球是不是每一个都符合使用标准;或是水库管理当局想要知道到底水库里有多少鱼。
在理论上,我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。
一、为什么要抽样?(一)因为要节省经费,(二)因为要节省时间。
这两个理由很容易了解,如果要访问全体,则所耗费的时间和经费是相当可观的,而且有许多调查性质具有时间性,如果拖得太长就会失去时效。
例如想知道学生们对某一项考试的反应如何,就非得打铁趁热,在短时间内完成调查不可。
(三)因为要提高资料的准确性,这是由于全体调查牵涉到相当大量而又繁杂的作业,动员不少人力、物力和行政管道,增加许多犯错的机会,导致取得的数据质量不佳,而抽样调查工作涉及的作业负担相对地轻松许多,参与人员因为较少,好控制,使得数据的品质也较好。
事实上联合国的专家们也发现,在一些教育较不发达的地区,人口普查的资料就不如抽样调查来得好。
(四)因为要取得较详尽的数据,譬如我们想要知道七岁到十二岁小孩的压岁钱流到那里去,如果进行全体调查的话,由于人力和物力的限制,我们只能针对每一个小孩取得一点点资料,但是如果是抽样调查,则因为调查对象不多,反而可以很从容的取得细节资料提供分析之用。
每十年一次的人口普查,除了全体都查之外,总是还要再抽取少数样本做更详尽的访问就是这个道理。
(五)因为要减轻损失,例如汽车车身的耐撞试验,罐头食品的安全检查,或是电灯泡寿命的质量管理检验。
这些调查本身就具有破坏性,总不能每部汽车都撞一撞,或是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目还要控制到越少越好。
基础统计作业题目:机率与大小成比例抽样法(Probability Proportionate to Size Sampling)授课教授:黄文璋教授班级:统研所一年级学生姓名:林妙珊壹、何谓P.P.S.(Probability Proportionate to Size Sampling)抽样法P.P.S.抽样法,又称按规模大小成比例的机率抽样,是属於抽样方法中的不等机率抽样法,一般抽样单位没有大小的度量或分别,且每一个抽样单位被抽到的机会皆相同,是一般抽调所需的最合理条件。
但是如果遇到抽样单位是有大小的度量或分别,同时,又认为每一个抽样单位被抽到的机会相同下,因此反而认为「大小度量越大的抽样单位被抽到的机会就越大,大小度量越小的抽样单位被抽到的机会就越小」才合理的时候,会使每一个抽样单位被抽到的机会与该抽样单位的大小度量正好成正比的不等机率抽样。
P.P.S.抽样法是一种使用辅助信息,从而使每个抽样单位均有按其规模大小成比例被抽中机率的一种抽样方式。
在有限母体中,设抽样单位的大小为,若尚未被抽到过,则再抽时会被抽到的机率与成正比,此抽法则称为P.P.S.抽样法。
贰、P.P.S.抽样法的特点与优缺点特点:总体中含量大的部分被抽中的机率也大,可以提高样本的代表性。
优点:使用了辅助信息,减少抽样误差。
缺点:对辅助信息要求较高。
参、适用时机 1.需搜集到完整的母体名册。
2.样本收集成本低。
3.辅助变数要与主要变数有高度密切关系。
肆、名词解释 1.群体:指的是拥有研究者所要特性的实体。
2.母体:指的是所存在群体中某一特性的集合。
3.抽样单位:抽样单位是指在抽样的某些阶段中,排列在抽样架构名单上之个别概念。
Ex:如果要调查高雄大学学生的一个月平均生活费,我们可以直接用每一个学生当抽样单位,也可分两段,第一段的抽样单位是班,第二段针对抽到的班级再以人为抽样单位。
4.抽样架构:是指抽样单位整体之名单。
抽样讲义洪永泰台湾大学政治学系壹、导论抽样的意思顾名思义,就是从全体之中抽取一部分个体做为样本,借着对样本的观察,再对全体做出推论。
譬如说,我们想知道某个地区七岁到十二岁的小孩在除夕夜平均每人收了多少压岁钱,这些钱又跑到那里去了;或是我们的商品检验单位想要知道有一批货柜的棒球是不是每一个都符合使用标准;或是水库管理当局想要知道到底水库里有多少鱼。
在理论上,我们当然可以不厌其烦地针对母体所有成员一个一个观察以取得数据,但在实际上我们知道这很不容易做到,事实上在有些情况下我们还非得做抽样调查不可。
一、为什么要抽样?(一)因为要节省经费,(二)因为要节省时间。
这两个理由很容易了解,如果要访问全体,则所耗费的时间和经费是相当可观的,而且有许多调查性质具有时间性,如果拖得太长就会失去时效。
例如想知道学生们对某一项考试的反应如何,就非得打铁趁热,在短时间内完成调查不可。
(三)因为要提高资料的准确性,这是由于全体调查牵涉到相当大量而又繁杂的作业,动员不少人力、物力和行政管道,增加许多犯错的机会,导致取得的数据质量不佳,而抽样调查工作涉及的作业负担相对地轻松许多,参与人员因为较少,好控制,使得数据的品质也较好。
事实上联合国的专家们也发现,在一些教育较不发达的地区,人口普查的资料就不如抽样调查来得好。
(四)因为要取得较详尽的数据,譬如我们想要知道七岁到十二岁小孩的压岁钱流到那里去,如果进行全体调查的话,由于人力和物力的限制,我们只能针对每一个小孩取得一点点资料,但是如果是抽样调查,则因为调查对象不多,反而可以很从容的取得细节资料提供分析之用。
每十年一次的人口普查,除了全体都查之外,总是还要再抽取少数样本做更详尽的访问就是这个道理。
(五)因为要减轻损失,例如汽车车身的耐撞试验,罐头食品的安全检查,或是电灯泡寿命的质量管理检验。
这些调查本身就具有破坏性,总不能每部汽车都撞一撞,或是每个罐头都打开检查,这种情形非得进行抽样检验不可,而且样本数目还要控制到越少越好。
二、机率抽样与非机率抽样在谈抽样设计之前,让我们先厘清一下这里所谈的抽样是指机率抽样,也就是说:「在完整定义的母体之中,每一个个体都有一个不为零的中选机会」。
凡不属于这个定义范围的都是非机率抽样。
常见的非机率抽样方法,综合Kish(1965)和Cochran(1977)的说法,有下列几种:(一)偶遇样本(haphazard sample)或便利抽样(convenient sample),是碰到谁就选谁的抽样,做研究的人并不在乎调查对象是否有代表性,例如生物学家解剖青蛙,心理学家观察人们对声光刺激的反应,医生征求自愿者做药物反应的实验等等。
(二)立意选样(purposive sampling)或判断选样(judgment sampling),这是经由专家主观判断,立意选定他们认为「有代表性」的样本来观察。
例如人类学家或社会学家会选定一个或几个村庄来代表乡村地区,交通专家选定几个路口来计算交通流量,教育专家选定几个学校班级的学生来代表所有的学生等等。
(三)自愿样本(volunteer subjects),听任自动送上门来的人组成样本群。
(四)配额选样(quota sampling),依照母体的人口特征按比例分配样本数,在配额之内进行非机率抽样,也就是把调查对象依照特征分类后,根据各类别的百分比每类立意选样至额满为止。
例如某个地区七岁到十二岁的小孩之中,约有一半是男的,另一半是女的,有四分之一住在都市,四分之三住在乡村。
如果样本数是一千,则根据上述各类别的比例先算出各种特征交叉汇编后每一组合的配额,在配额内立意选出符合该类别的人即可。
这样做可以节省时间和资源,而又维持了样本的「代表性」。
(五)雪球抽样(snowballed sample ),先找到原始受访者,然后再从受访者所提供的信息找到其它受访者。
以上这些非机率抽样方法由于没有机率做推论基础,大多只能做描述性的用途,而不能对全体做科学的估计或验证理论的假设检定,因为它们提不出确切的误差数据,无法计算样本数据的准确程度。
贰、抽样的基本原理假设某个地区七岁到十二岁的小孩共有两百四十万人,如果我们要抽取一千个人来调查有关他们的压岁钱收入和支出情形,怎么抽才会「准」呢?用常识来判断,总要有一些都市人,一些乡下人,要男生,也要女生,要富豪子弟,也要清寒子弟等等。
这些顾虑都是担心万一抽得不好,变成瞎子摸象,整个推论就失效了。
在谈抽样原理之前,首先让我们先熟悉几个名词和符号。
一、 资料的中心点和离散程度:平均数和标准差大家都知道平均数是什么,它是所有个案观察值的总和除以累加的个案数,也就是我们通常说的一组资料的中心点。
我们把全体的平均数写成μ(念成mu )。
它的定义是:μ = (x 1 + x 2 + …+ x N ) / N ……………………………………(2.1)式中N是全体的总个案数,x i 是第 i 个个案的观察值。
其次一个名词是标准差σ(念成sigma ),是衡量一组资料中各个点和中心点之间的「标准距离」。
也就是衡量一组数据中各点的集中或离散程度。
它的定义是: N x x x N /])(...)()[(22221μμμσ-++-+-+= ………………………(2.2)从定义上来看,它是每一个点和中心点μ的差,平方后累加起来取平均数,再开根号还原。
平方的原因是要避免各点和中心点的差正负相抵。
二、正态分布和中央极限定理假设这个地区两百多万个七岁到十二岁小孩的压岁钱平均数是μ,标准差是σ。
现在我们要抽取一千个样本,从样本观察值来估计μ,一个很自然的选择是用样本的平数来估计,让我们把样本的平均数写成X (念成XBar ,Bar 是横杠的意思),它的定义是:x x x x n n =+++(...)/12 ………………………………………… (2.3) 式中n是样本数。
如果我们使用一套机率抽样的作业程序抽出一千人,取得他们的观察值后会得到一个平均数,把它写成x 1,表示是第一次抽样得到的结果。
现在把整个作业重做一遍,我们可能得到不同的一千个人,因为在机率抽样之下每个人都有中选的机会,重新做一遍就可能抽到不同的人。
我们把第二次抽样的结果写成x 2。
当然这个x 2不一定会和x 1相同,就像两颗子弹不会射中相同的一点一样。
如此一直做下去,如果我们做K次的话,会有x x x K 12,,...,一共有K个样本平均数。
在数学上有个中央极限定理,它的内容是:在样本数足够大的情况下,如果把这K个X 排起来,它们会形成正态分布,而这些样本平均数的平均数会等于μ,这些样本平均数的标准差会等于σ/n 。
什么是正态分布呢?它是一种钟形,以平均数为中心、左右对称的图形分布。
譬如说,全校同学的身高由低而高排列起来,会有少数人很矮或很高,大部分人集中在中间,而越靠近平均身高的人会越多,形成像钟形的样子。
事实上,我们可以利用正态分布的特性计算出身高在某一高度之间者到底有多少人。
这是因为根据正态分布,有68%的人会落在平均数左右一个标准差距离之内,有95%的人会落在平均数左右两个标准差之内,而有99.7%的人会落在平均数左右三个标准差范围之内的缘故。
三、点估计、区间估计、和信赖系数 根据中央极限定理,我们知道如果做很多次抽样的话会得到很多个X ,而这些X 排起来会形成正态分布,它们的平均数是μ,标准差是σ/n 。
换句话说,有68%的X 会落在μσ±/n 之间,有95%的X 会落在μσ±2/n 之间,有99.7%的X 会落在μσ±3n 之间。
把上述的说法稍为转换一下就变成:有68%的X n σ/会包含着μ,有95%的X n 2σ/会包含着μ,有99.7%的X n 3σ/会包含着μ,而这就是抽样和估计最根本的道理。
我们从全体之中以机率抽样方式抽取n个样本,取得样本观察值,计算它们的平均数X ,然后加减两倍的σ/n 得到一组上下区间,然后说:我们有95%的信心,这个上下区间一定会包含着全体的平均数μ。
如果我们仍不放心的话,可以用X 加减三倍的σ/n ,那么这组区间包含着μ的信赖度就有99.7%。
用样本平均数X 来估计全体的平均数μ称为点估计。
点估计命中目标的机会是很低的,因为只凭着少数样本观察值得到的结果要和全体的平均数吻合几乎是不可能的事,所以我们最好不要用点估计,而要用区间估计。
根据中央极限定理和正态分布的特性我们知道X n ±σ/这个区间包含着全体平均数μ的机会有68%,X n ±2σ/的机会有95%,而X n ±3σ/的机会有99.7%!真正可靠的估计势必要用区间估计,只有这样做我们才可以知道估计准确的程度,而这68%,95%,99.7%就称做是信赖系数。
说得更确切一点,以95%信赖系数为例,它的意思是:如果我们进行一百次独立的抽样估计,会有一百个样本平均数,也会有一百个区间估计,而这一百个区间估计里会有95个正确地包含着全体平均数μ。
实际上我们不会做一百次抽样,而是只做一次,所以说这一次抽样而来的区间估计会包含着μ的机会是95%,信赖系数越高,估计的区间也就越宽,这是高信赖系数所必须付出的代价。
譬如我们估计全国七岁到十二岁小孩的压岁钱平均数是在10元到1000元之间。
这个估计即使有99.7%的信赖度也没有什么用,因为这段区间实在太宽了,如果是100元到120元之间,而且信赖系数是99.7%,这就是个非常好的估计。
我们学习抽样方法就是要使这个信赖区间尽可能的缩小。
刚刚提到过一个好的估计必须既准又稳,我们用X 来估计μ,如果做很多次的话,会有很多个X 。
中央极限定理已经给我们保证,这些X 的平均数会等于μ,所以是「准」的估计已无问题,但是这些X 是否都靠近在一起,称得上是「稳」呢?这就要看这些X 的标准差了。
我们已经知道X 的标准差是σ/n ,其中σ是全体的标准差,n是样本数,把样本数加大会使得标准差变小,所以我们马上领悟到样本数越大,估计也就越稳。
其次,σ是全体数据的标准差,我们并不知道它到底是多少,在区间估计里我们也需要用到它,因此为了要知道估计的准确程度,连全体资料的σ也要一起估计才行。
至少有两种方法来估计σ,一是用样本观察值的标准差,它的定义是: S=/[()()...()]()x x x x x x n n 122221-+-++-- ………………… (2.4) 在数学上可以证明用S 2来估计σ2是合乎「准」的要求的,但是这个方法必须做完抽样,取得样本数据后才能派上用场,有时很不方便事前的规划和设计。
二是用速简方式,我们知道通常的数据若以平均数为中心,左右各三个标准差的距离大概可以网罗绝大部分的数据。
所以我们可以用常识判断,找出这组资料可能的最大数和最小数的差,再除以六,即是我们对σ的速简估计,因为从最小数到最大数之间大概有六个标准差的距离。