抽样分布及参数估计作业1
- 格式:doc
- 大小:28.00 KB
- 文档页数:1
第四章抽样分布与参数估计思考与练习一、单项选择题1.抽样平均误差与极限误差间的关系是( d )。
a. 抽样平均误差大于极限误差b. 抽样平均误差等于极限误差c. 抽样平均误差小于极限误差d. 抽样平均误差可能大于、等于或小于极限误差2.在其它条件不变的情况下,如果允许误差缩小为原来的二分之一,则样本容量( a )。
a. 扩大为原来的4倍b. 扩大为原来的2倍c. 缩小为原来的二分之一d. 缩小为原来的四分之一3.类型抽样影响抽样平均误差的方差是( b )。
a. 组间方差b. 组内方差c. 总方差d. 允许误差4.当样本单位数充分大时,样本估计量充分地靠近总体指标的可能性趋于1,称为抽样估计的( b )。
a.无偏性b.一致性c.有效性d.充分性二、多项选择题1.影响抽样平均误差的因素有( a b c d )。
a.总体标志变异程度b.样本容量c.抽样方式d.抽样的组织形式e.样本指标值的大小2.抽样估计的抽样平均误差(a c e)。
a.是不可避免要产生的b.是可以通过改进调查方法消除的c.是可以事先计算的d.只有调查结束之后才能计算e.其大小是可以控制的3.确定样本容量时,可用以下方法取得近似的总体方差估计值(a b c )。
a.参考以往调查的经验资料b.以试点调查的样本方差来估计c.在做成数估计时,用成数方差最大值0.25来代替d.假定总体不存在标志变异,方差为零三、计算题1.某市居民家庭人均年收入是服从μ=4 000元,σ=1 200元的正态分布,求该市居民家庭人均年收入:(1)在5 000~7 000元之间的概率;(2)超过8 000元的概率。
解:(1)1200,4000==σμ。
{}()()0.197055935.020325.09876.00062.08333.02}8333.0{1}5.2{2}5.2{1}8333.0{}5.2{}5.28333.0{}70005000{}70005000{=+-+=⎪⎪⎭⎫ ⎝⎛<+<--⎪⎪⎭⎫ ⎝⎛<+<-=<-<=<<=-<=-<-=<<z prob z prob z prob z prob z prob z prob z prob z x prob x prob σμσμσμ (2) {}{}{}00035.0333.32333.311333.31}333.3{}8000{}8000{=⎥⎥⎦⎤⎢⎢⎣⎡<+<--=<-=>=->=-=>z prob z prob z prob z prob z x prob x prob σμσμ2.某小组5个工人的周工资分别为140、160、180、200、220元,现在用重复抽样的方法从中抽出2个工人的工资构成样本。
抽样分布一、抽样分布的理论及定理 (一) 抽样分布抽样分布是统计推断的基础,它是指从总体中随机抽取容量为n 的若干个样本,对每一样本可计算其k 统计量,而k 个统计量构成的分布即为抽样分布,也称统计量分布或随机变量函数分布。
(二) 中心极限定理中心极限定理是用极限的方法所求的随机变量分布的一系列定理,其内容主要反映在三个方面。
1.如果总体呈正态分布,则从总体中抽取容量为n 的一切可能样本时,其样本均数的分布也呈正态分布;无论总体是否服从正态分布,只要样本容量足够大,样本均数的分布也接近正态分布。
2.从总体中抽取容量为n 的一切可能样本时,所有样本均数的均数(X μ)等于总体均数(μ)即μμ=X3.从总体中抽取容量为n 的一切可能样本时,所有样本均数的标准差(X σ)等于总体标准差除以样本容量的算数平方根,即n X σσ=中心极限定理在统计学中是相当重要的。
因为许多问题都使用正态曲线的方法。
这个定理适于无限总体的抽样,同样也适于有限总体的抽样。
中心极限定理不仅给出了样本均数抽样分布的正态性依据,使得大多数数据分布都能运用正态分布的理论进行分析,而且还给出了推断统计中两个重要参数(即样本均数X μ与样本标准差X σ)的计算方法。
(三)抽样分布中的几个重要概念1.随机样本。
统计学是以概率论为其理论和方法的科学,概率又是研究随机现象的,因此进行统计推断所使用的样本必须为随机样本(random sample )。
所谓随机样本是指按照概率的规律抽取的样本,2.抽样误差。
从总体中抽取容量为n 的k 个样本时,样本统计量与总体参数之间总会存在一定的差距,而这种差距是由于抽样的随机性所引起的样本统计量与总体参数之间的不同,称为抽样误差。
3.标准误。
样本统计量分布的标准差或某统计量在抽样分布上的标准差,符号SE 或Xσ表示。
根据中心极限定理其标准差为n X σσ=正如标准差越小,数据分布越集中,平均数的代表性越好。
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
第六章 抽样分布与参数估计习题答案一、单选1.B ;2.D ;3.D ;4.C ;5.A ;6.B ;7.C ;8.D ;9.A ;10.A 二、多选1.ADE ;2.ACDE ;3.ABCD ;4.ADE ;5.BCE6.ACD ;7.ACDE ;8.ACE ;9.BCE ;10.ABD 三、计算分析题1、解:n=10,小样本,由EXCEL 计算有:11.6498==S x ; (1)方差已知,由10596.14982⨯±=±nz x σα得,(494.9,501.1)(2)方差未知,由1011.62622.2498)1(2⨯±=-±nS n t x α得,(493.63,502.37)2、n=500为大样本,p=80/500=16%,则置信区间为 016.096.1%16500)16.01(16.096.1%16)1(2⨯±=-⨯±=-±n p p z p α=(14.4%,17.6%) 3、nx σσ=,由于大国抽取的样本容量大,则抽样平均误差小。
4、(1)3.10100103===nS x σ(小时);=-=-=100)95.01(95.0)1(n p p p σ 2.18%(2)=⨯±=±3.10211202x z x σα(1099.4,1140.6) ⨯±=±2%952p z p σα2.18%=(90.64,99.36)5、为简化起见,按照重复抽样形式计算 (1)∑∑=ff s Si22=22.292; 472.010072.4===nS x σ(2)93.0691472.096.1100691002±=⨯±=±nSz x α=(690.07,691.93) 6、由于总体标准差已知,则用标准状态分布统计量估计nz x σα2=∆(1)10160170102022=-===∆αασz nz x则58.12=αz ,有%29.94)58.1(=F α=1-94.29%=5.71%,则概率%58.88%71.5%29.941=-=-=α (2)=⇒⨯=⇒⨯=∆n n nz x 2096.142σα97(个)(3)=⇒⨯=⇒⨯=∆n nnz x 2096.122σα385(个)允许误差缩小一半,样本容量则为原来的4倍。
第五章抽样与抽样分布一、单项选择题(以下每小题各有四项备选答案,其中只有一项是正确的。
)1.抽样推断的主要目的是( )。
A.用统计量来推算总体参数B.对调查单位作深入研究C.计算和控制抽样误差D.广泛运用数学方法[答案] A[解析] 抽样调查是指从总体中按随机原则抽取部分单位作为样本,进行观察研究,并根据这部分单位的调查结果来推断总体,以达到认识总体的一种统计调查方法,因此,抽样推断的主要目的是用已知的统计量来推算未知的总体参数。
2.抽样调查中,无法消除的误差是( )。
A.抽样误差B.责任心误差C.登记误差D.系统性误差[答案] A[解析] 抽样误差是指在遵循了随机原则的条件下,不包括登记误差和系统性误差在内的,用样本指标代表总体指标而产生的不可避免的误差。
3.在其他条件相同的情况下,重复抽样的抽样平均误差和不重复抽样相比,( )。
A.前者一定小于后者B.前者一定大于后者C.两者相等D.前者可能大于,也可能小于后者[答案] B[解析] 以抽样平均数的抽样平均误差为例进行说明:在重复抽样条件下,抽样平均数的平均误差的计算公式:;在不重复抽样条件下,抽样平均数的平均误差的计算公式:。
因为,故。
4.拟分别对甲、乙两个地区大学毕业生在试用期的工薪收入进行抽样调查。
据估计甲地区大学毕业生试用期月工薪的方差要比乙区高出一倍。
在样本量和抽样方法相同的情况下,甲区的抽样误差要比乙区高( )。
A.41.4% B.42.4% C.46.8% D.48.8%[答案] A[解析] 假设乙地区的大学毕业生试用期月工薪的方差为σ2,甲地区的大学毕业生试用期月工薪的方差为2σ2,则:,那么,在样本量和抽样方法相同的,情况下,甲区的抽样误差要比乙区高=41.4%。
5.对某天生产的2000件电子元件的耐用时间进行全面检测,又抽取5%进行抽样复测,资料如表5-1所示。
表5-1耐用时间(小时) 全面检测(支) 抽样复测(支)3000以下3000~4000 4000~5000 50600990230505000以上总计36020018100规定耐用时间在3000小时以下为不合格品,则该电子元件合格率的抽样平均误差为( )。
第六章抽样估计题一、单项选择题1、抽样推断的基本内容是:A.参数估计B.假设检验C.参数估计和假设检验两方面D.数据的收集2、抽样平均误差的实质是A. 总体标准差B. 抽样总体的标准差C. 抽样总体方差D. 样本平均数(成数〉的标准差3、不重复抽样平均误差:A. 总是大于重复抽样平均误差B. 总是小于重复抽样平均误差C. 总是等于重复抽样平均误差D. 上情况都可能发生4、在其它条件不变的情况下,抽样单位数增加一半,抽样平差A. 缩小为原来的81.6%B. 缩小为原来的50%C. 缩小为原来的25%D.扩大为原来的四倍5、样本的形成是:A.随机的B.随意的C. 非随机的D.确定的6、抽样误差之所以产生是由于:A. 破坏了随机抽样的原则。
B. 抽样总体的结构不足以代表总体的结构。
C. 破坏了抽样的系统。
D.调查人员的素质。
7、抽样误差指的是:A. 代表性随机误差B. 非抽样误差C. 代表性误差D. 随机性误差8、抽样误差大小A. 可以事先计算,但不能控制B. 不可事先计算,但能控制C. 能够控制和消灭D.能够控制,但不能消灭9、随机抽出100个工人,占全体工人1%,工龄不到一年的比重为10%。
在概率为0.9545时,计算工龄不到一年的工人比重的极限抽样误差。
A.0.6%B. 6%C. 0.9%D. 3%10、根据抽样调查25个工厂(抽取2%)资料,采购阶段流动资金平均周转时间为52天,方差100,在概率为0.954时,计算流动资金平均周转时间的极限抽样误差。
A.0.8B.3.96C.4D.22611、根据某城市抽样调查225户,计算出户均储蓄额30000元,抽样平均误差800元,试问概率为90%,户均储蓄余额极限误差是多少?A.53.3B.1.65C.720D.132012、根据某市公共电话网100次通话情形抽样调查,知道每次通话平均持续时间为4分钟,均方差为2分钟。
在概率为0.9545时,计算每次通话平均持续时间的极限抽样误差。
第五章抽样调查及参数估计5.1 抽样与抽样分布5.2 参数估计的基本方法5.3 总体均值的区间估计5.4 总体比例的区间估计5.5 样本容量的确定一、简答题1.什么是抽样推断?用样本指标估计总体指标应该满足哪三个标准才能被认为是优良的估计?2.什么是抽样误差,影响抽样误差的主要因素有哪些?3.简述概率抽样的五种方式二、填空题1.抽样推断是在随机抽样的基础上,利用样本资料计算样本指标,并据以推算总体数量特征的一种统计分析方法。
2.从全部总体单位中随机抽选样本单位的方法有两种,即重复抽样和不重复抽样。
3.常用的抽样组织形式有简单随机抽样、类型抽样、等距抽样、整群抽样等四种。
4.影响抽样误差大小的因素有总体各单位标志值的差异程度、抽样单位数的多少、抽样方法和抽样调查的组织形式。
5.总体参数区间估计必须具备估计值、概率保证程度或概率度、抽样极限误差等三个要素。
6.从总体单位数为N的总体中抽取容量为n的样本,在重复抽样和不重复抽样条件下,可能的样本个数分别是______________和_____________。
7.简单随机_抽样是最基本的抽样组织方式,也是其他复杂抽样设计的基础。
8.影响样本容量的主要因素包括总体各单位标志变异程度_、__允许的极限误差Δ的大小、_抽样方法_、抽样方式、抽样推断的可靠程度F(t)的大小等。
三、选择题1.抽样调查需要遵守的基本原则是( B )。
A.准确性原则 B.随机性原则 C.代表性原则 D.可靠性原则2.抽样调查的主要目的是( A )。
A.用样本指标推断总体指标 B.用总体指标推断样本指标C.弥补普查资料的不足 D.节约经费开支3.抽样平均误差反映了样本指标与总体指标之间的( B )。
A.实际误差 B.实际误差的平均数C.可能的误差范围 D.实际的误差范围4.对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D )。
A.简单随机抽样 B.类型抽样 C.等距抽样 D.整群抽样5.在其他情况一定的情况下,样本单位数与抽样误差之间的关系是( B )。
第七章 抽样调查一、本章重点1.抽样调查也叫做抽样推断或参数估计,必须坚持随机抽样的原则。
它是一种非全面调查,其意义在于对总体的推断上,存在可控制性误差。
是一种灵活快捷的调查方式。
2.抽样调查有全及总体与样本总体之区分。
样本容量小于30时一般称为小样本。
对于抽样调查来讲全及总体的指标叫做母体参数,是唯一确定的未知的量,样本指标是根据样本总体各单位标志值计算的综合性指标,是样本的一个函数,是一个随机变量,抽样调查就是要用样本指标去估计相应的总体指标。
样本可能数目与样本容量有关也与抽样的方法有关。
抽样方法可以分为考虑顺序的抽样与不考虑顺序的抽样;重复抽样与不重复抽样。
3.大数定律、正态分布理论、中心极限定理是抽样调查的数理基础。
正态分布的密度函数有两个重要的参数(σ;x )。
它有对称性、非负性等特点。
中心极限定理证明了所有样本指标的平均数等于总体指标如X x E =)(。
推出了样本分布的标准差为:1--=N n N n x σμ。
4.抽样推断在逻辑上使用的是归纳推理的方法、在方法上使用的是概率估计的方法、存在着一定误差。
无偏性、一致性和有效性是抽样估计的优良标准。
抽样调查既有登记性误差,也有代表性误差,抽样误差是一个随机变量,而抽样的平均误差是一个确定的值。
抽样误差受总体标志值的差异程度、样本容量、抽样方法、抽样组织形式的影响。
在重复抽样下抽样的平均误差与总体标志值的差异程度成正比,与样本容量的平方根成反比即n x σμ=,不重复抽样的抽样平均误差仅与重复抽样的平均误差相差一个修正因子即N nn x -=1σμ。
在通常情况下总体的方差是未知的,一般要用样本的方差来代替。
把抽样调查中允许的误差范围称作抽样的极限误差x ∆或p ∆。
μt =∆,用抽样的平均误差来度量抽样的极限误差。
把抽样估计的把握程度称为抽样估计的置信度。
抽样的极限误差越大,抽样估计的置信度也越大。
抽样估计又可区分为点估计和区间估计。
统计学习题(抽样分布、参数估计)练习题第1章绪论(略)第2章统计数据的描述2.1某家商场为了解前来该商场购物的顾客的学历分布情况,随机抽取了100名顾客。
其学历表示为:1.初中;2.高中/中专;3.大专;4.本科及以上学历。
调查结果如下:4222434414 2244432422 3121441424 2332134344 3312424324 2322212244 2123333334 2343313232 4313434214 2242334121(1)制作一张频数分布表。
(2)绘制一张条形图,反映学历分布。
2.2为了解某电信客户对该电信公司的服务的满意度情况,某调查公司分别对两个地区的电信用户在以下五个方面对受访用户的满意情况进行了问卷调查得到的数据如下(表中数据为平均满意度打分,从1分到10分满意度依次递增):地区企业形象客户期望质量感知价值感知客户总体满意度A 8.269504 7.51773 9.2624117.9148948.411348B 7.447368 8.3684218.9736848.1052637.394737试用条形图反映将两地区的满意度情况。
2.3下面是一个班50个学生的经济学考试成绩:88569179699088718279 988534744810075956092 83646569996445766369 6874948167818453912484628183698429667594(1)对这50名学生的经济学考试成绩进行分组并将其整理成频数分布表,绘制直方图。
(2)用茎叶图将原始数据表现出来。
2.4如下数据反映的是某大学近视度数的情况,共120名受访同学,男女同学各60名。
男149 161761821310 80 951081414 0 144145151515161681882121 0 21211052121211116817521 0 356462121212121312121 0 2121212121375375383838 8 45566065120 30120 7521女120 3334537437538700 90700 60141516212121211517170 0 0 0 0 0 0 0 5 521 0 1752121214043451217517 8 181818518519195196202021 0 21212121212121333335 0 3636363840474865055(1)按近视度数分别对男女学生进行分组。
(抽样检验)抽样与参数估计最全版(抽样检验)抽样与参数估计抽样和参数估计推断统计:利⽤样本统计量对总体某些性质或数量特征进⾏推断。
从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。
这个调查例⼦是估计总体参数(某种意见的⽐例)的壹个过程。
估计(estimation)是统计推断的重要内容之壹。
统计推断的另壹个主要内容是本章第⼆节要介绍的假设检验(hypothesistesting)。
因此本节内容就是由样本数据对总体参数进⾏估计,即:学习⽬标:了解抽样和抽样分布的基本概念理解抽样分布和总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体⽐例和总体⽅差的区间估计第⼀节抽样和抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取壹部分元素(单位)进⾏调查,且根据样本数据所提供的信息来推断总体的数量特征。
总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量壹般将样本单位数不少于三⼗个的样本称为⼤样本,样本单位数不到三⼗个的样本称为⼩样本。
壹、抽样⽅法及抽样分布1、抽样⽅法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每壹个样本都有相同的机会(概率)被抽中。
注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,⼜可分为重复抽样和不重复抽样。
⽽且,根据抽样中是否排序,所能抽到的样本个数往往不同。
②、分层抽样:总体分成不同的“层”(类),然后在每壹层内进⾏抽样③、整群抽样:将壹组被调查者(群)作为壹个抽样单位④、等距抽样:在样本框中每隔壹定距离抽选壹个被调查者(2)⾮概率抽样:不是完全按随机原则选取样本①、⾮随机抽样:由调查⼈员⾃由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择壹群特定数⽬、满⾜特定条件的被调查者2、抽样分布壹般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。
简答题1、矩估计的推断思路如何?有何优劣?2、极大似然估计的推断思路如何?有何优劣?3、什么是抽样误差?抽样误差的大小受哪些因素影响?4、简述点估计和区间估计的区别和特点。
5、确定重复抽样必要样本单位数应考虑哪些因素?计算题1、对于未知参数的泊松分布和正态分布分别使用矩法和极大似然法进行点估计,并考量估计结果符合什么标准2、某学校用不重复随机抽样方法选取100名高中学生,占学生总数的10%,学生平均体重为50公斤,标准差为48.36公斤。
要求在可靠程度为95%(t=1.96)的条件下,推断该校全部高中学生平均体重的范围是多少?3、某县拟对该县20000小麦进行简单随机抽样调查,推断平均亩产量。
根据过去抽样调查经验,平均亩产量的标准差为100公斤,抽样平均误差为40公斤。
现在要求可靠程度为95.45%(t=2)的条件下,这次抽样的亩数应至少为多少?4、某地区对小麦的单位面积产量进行抽样调查,随机抽选25公顷,计算得平均每公顷产量9000公斤,每公顷产量的标准差为1200公斤。
试估计每公顷产量在8520-9480公斤的概率是多少?(P(t=1)=0.6827, P(t=2)=0.9545, P(t=3)=0.9973)5、某厂有甲、乙两车间都生产同种电器产品,为调查该厂电器产品的电流强度情况,按产量等比例类型抽样方法抽取样本,资料如下:样本容量(个)平均电流强度(安培)电流强度标准差(安培)合格率(%)甲车间20 1.5 0.8 90乙车间40 1.6 0.6 95试推断:(1)在95.45%(t=2)的概率保证下推断该厂生产的全部该种电器产品的平均电流强度的可能范围(2)以同样条件推断其合格率的可能范围(3)比较两车间产品质量6、采用简单随机重复和不重复抽样的方法在2000件产品中抽查200件,其中合格品190件,要求:(1)计算样本合格品率及其抽样平均误差(2)以95.45%的概率保证程度对该批产品合格品率和合格品数量进行区间估计。
【数据分析师Level1】3.抽样分布及参数估计【数据分析师 Level 1 】3.抽样分布及参数估计1.随机实验随机实验是概率论的⼀个基本概念。
概括的讲,在概率论中把符合下⾯三个特点的试验叫做随机试验可以在相同的条件下重复的进⾏每次试验的可能结果不⽌⼀个,并且能事先明确试验的所有可能结果进⾏⼀次试验之前不能确定哪⼀个结果会出现随机事件在概率论中,随机事件(或简称事件)指的是⼀个被赋予⼏率的事物的集合,也就是样本空间中的⼀个⼦集。
简单来说,在⼀次随机试验中,某个特定时间可能会出现也可能不会出现;但是当试验次数增多,我们可以观察到某种规律性的结果,就是随机事件。
随机变量设随机试验的样本空间S=e,X=X(e)S = {e},X=X(e)S=e,X=X(e)是定义在样本空间S上的单值实值函数,称X为随机变量2.正态分布的图像形式既然介绍变量的分布情况,就要介绍⼀下正态分布。
⾸先,正态分布是关于均值左右对称的,呈钟形,如下图所⽰。
其次,正态分布的均值和标准差具有代表性,只要知道其均值和标准差,这个变量的分布情况就完全知道了。
在正态分布中,均值=中位数=众数3.中⼼极限定理从均值为 µ\muµ,⽅差为σ2\sigma^2σ2的⼀个任意总体中抽取容量为n的样本,当n充分⼤时,样本均值的抽样分布近似服从均值为 µ\muµ ,⽅差为σ2n\frac{\sigma^2}{n}nσ2的正态分布根据中⼼极限定理,我们知道如果做很多次抽样的话会得到很多个样本均值,⽽这些样本均值排列起来会形成正态分布,他们的平均数是µ\muµ,标准差是σn\frac{\sigma}{\sqrt{n}}nσ换句话说,有约68% 的样本均值会落在 µ±σn\mu \pm \frac{\sigma}{\sqrt{n}}µ±nσ之间,有约 95 %的样本均值会落在 µ±2σn\mu \pm 2\frac{\sigma}{\sqrt{n}}µ±2nσ有约 99.7 %的样本均值会落在 µ±3σn\mu \pm 3\frac{\sigma}{\sqrt{n}}µ±3n σ把上述说法稍微转换⼀下就变成:有68 %的 x‾±σn\overline x \pm \frac{\sigma}{\sqrt{n}}x±nσ会包含着 µ\muµ有95 %的 x‾±2σn\overline x \pm 2\frac{\sigma}{\sqrt{n}}x±2nσ会包含着 µ\muµ有99.7 %的 x‾±3σn\overline x \pm 3\frac{\sigma}{\sqrt{n}}x±3nσ会包含着µ\muµ⽽这就是抽样和估计最根本的道理我们从全体之中以随机抽样⽅式抽取n个样本,取得样本观察值,计算它们的平均数 x‾\overline xx ,然后加减两倍的σn\frac{\sigma}{\sqrt{n}}nσ得到⼀组上下区间,然后说:我们有95 % 的信⼼,这个上下区间⼀定会包含着全体的平均数 µ\muµ。
抽样分布及参数估计作业1
一、某农副产品公司对某种名茶做随机重复抽样,抽检结果如下:
要求:1、计算样本平均数和抽样平均误差;
2、试以0.9973(Z=3)的概率保证程度,估计这批茶叶平均每包重量的置信区间;
3、若按质量规定,这种茶叶每包重量不得低于150克,试以95.45%(Z =2)的概率保证程度,估计这批茶叶每包重量不合格品率的范围。
二、从某学校参加英语等级考试的学生中随机抽取100名,考试成绩分组资料如下:
试以95.45%的可靠程度估计该校学生英语等级考试在75分以上的学生所占比重的范围。
(z=2)。