统计学 第 6 章 抽样与参数估计
- 格式:docx
- 大小:19.45 KB
- 文档页数:10
第六章参数估计6.1以每天每千克体重52 μmol 5-羟色胺处理家兔14天后,对血液中血清素含量的影响如下表[9]:y/(μg · L-1)s/(μg · L-1)n对照组 4.20 0.35 125-羟色胺处理组8.49 0.37 9建立对照组和5-羟色胺处理组平均数差的0.95置信限。
答:程序如下:options nodate;data common;alpha=0.05;input n1 m1 s1 n2 m2 s2;dfa=n1-1; dfb=n2-1;vara=s1**2; varb=s2**2;if vara>varb then F=vara/varb;else F=varb/vara;if vara>varb then Futailp=1-probf(F,dfa,dfb);else Futailp=1-probf(F,dfb,dfa);df=n1+n2-2;t=tinv(1-alpha/2,df);d=abs(m1-m2);lcldmseq=d-t*sqrt(((dfa*vara+dfb*varb)/(dfa+dfb))*(1/n1+1/n2));ucldmseq=d+t*sqrt(((dfa*vara+dfb*varb)/(dfa+dfb))*(1/n1+1/n2));k=vara/n1/(vara/n1+varb/n2);df0=1/(k**2/dfa+(1-K)**2/dfb);t0=tinv(1-alpha/2,df0);lcldmsun=d-t0*sqrt(vara/n1+varb/n2);ucldmsun=d+t0*sqrt(vara/n1+varb/n2);cards;12 4.20 0.35 9 8.49 0.37;proc print;id f;var Futailp alpha lcldmseq ucldmseq lcldmsun ucldmsun;title1 'Confidence Limits on the Difference of Means';title2 'for Non-Primal Data';run;结果见下表:Confidence Limits on the Difference of Meansfor Non-Primal DataF FUTAILP ALPHA LCLDMSEQ UCLDMSEQ LCLDMSUN UCLDMSUN1.11755 0.42066 0.05 3.95907 4.62093 3.95336 4.62664首先,方差是具齐性的。
一、选择题1、在用样本的估计量估计总体参数时,评价估计量的标准之一是使它与总体参数的离差越小越好。
这种评价标准称为(B)A、无偏性B、有效性C、一致性D、充分性2、根据一个具体的样本求出的总体均值95%的置信区间(D)A、以95%的概率包含总体均值B、有5%的可能性包含总体均值C、绝对包含总体均值D、绝对包含总体均值或绝对不包含总体均值3、估计量的无偏性是指(B)A、样本估计量的值恰好等于待估的总体参数B、所有可能样本估计值的期望值等于待估总体参数C、估计量与总体参数之间的误差最小D、样本量足够大时估计量等于总体参数4、下面的陈述中正确的是(C)A、95%的置信区间将以95%的概率包含总体参数B、当样本量不变时,置信水平越大得到的置信区间就越窄C、当置信水平不变时,样本量越大得到的置信区间就越窄D、当置信水平不变时,样本量越大得到的置信区间就越宽5、总体均值的置信区间等于样本均值加减估计误差,其中的估计误差等于所求置信水平的临界值乘以(A)A、样本均值的标准误差B、样本标准差C、样本方差D、总体标准差6、95%的置信水平是指(B)A、总体参数落在一个特定的样本所构造的区间内的概率为95%B、用同样的方法构造的总体参数的多个区间中,包含总体参数的区间的比例为95%C、总体参数落在一个特定的样本所构造的区间内的概率为5%D、用同样的方法构造的总体参数的多个区间中,包含总体参数的区间的比例为5%7、一个估计量的有效性是指(D)A、该估计量的期望值等于被估计的总体参数B、该估计量的一个具体数值等于被估计的总体参数C、该估计量的方差比其他估计量大D、该估计量的方差比其他估计量小8、一个估计量的一致性是指(C)A、该估计量的期望指等于被估计的总体参数B、该估计量的方差比其他估计量小C、随着样本量的增大该估计量的值越来越接近被估计的总体参数D、该估计量的方差比其他估计量大9、支出下面的说法哪一个是正确的(A)A、一个大样本给出的估计量比一个小样本给出的估计量更接近总体参数B、一个小样本给出的估计量比一个大样本给出的估计量更接近总体参数C 、一个大样本给出的总体参数的估计区间一定包含总体参数D 、一个小样本给出的总体参数的估计区间一定不包含总体参数10、用样本估计量的值直接作为总体参数的估计值,这一估计方法称为(A )A 、点估计B 、区间估计C 、无偏估计D 、有效估计11、将构造置信区间的步骤重复多次,其中包含总体参数真值的次数所占的比例称为(C )A 、置信区间B 、显著性水平C 、置信水平D 、临界值12、在总体均值和总体比例的区间估计中,估计误差由(C )A 、置信水平确定B 、统计量的抽样标准差确定C 、置信水平和统计量的抽样标准差确定D 、统计量的抽样方差确定13、在置信水平不变的条件下,要缩小置信区间,则(A )A 、需要增加样本量B 、需要减少样本量C 、需要保持样本量不变D 、需要改变统计量的抽样标准差14、估计一个正态总体的方差使用的分布是(C )A 、正态分布B 、t 分布C 、卡方分布D 、F 分布15、当正态总体的方差未知,且为小样本条件下,估计总体均值使用的分布是(B )A 、正态分布B 、t 分布C 、卡方分布D 、F 分布16、当正态总体的方差未知,在大样本条件下,估计总体均值使用的分布是(A )A 、正态分布B 、t 分布C 、卡方分布D 、F 分布17、在其他条件不变的条件下,要使估计时所需的样本量小,则应该(A )A 、提高置信水平B 、降低置信水平C 、使置信水平不变D 、使置信水平等于118、使用t 分布估计一个总体均值时,要求(D )A 、总体为正态分布且方差已知B 、总体为非正态分布C 、总体为非正态分布但方差已知D 、正态总体方差未知,且为小样本19、在大样本条件下,总体均值在(1-α)置信水平下的置信区间可以些为(C )A 、n t x σα2±B 、n s t x 2α±C 、n s z x 2α±D 、n s z x 22α±20、正态总体方差已知时,在小样本条件下,总体均值在α-1置信水平下的置信区间可以写为(C )A 、n z x 22σα±B 、n s t x 2α±C 、n z x σα2±D 、n t x σα2±21、正态总体方差未知时,在小样本条件下,总体均值在α-1置信水平下的置信区间可以写为(B )A 、n s z x 2α±B 、n s t x 2α±C 、n z x σα2±D 、n s z x 22α±22、指出下面的说法哪一个是正确的(A )A 、样本量越大,样本均值的抽样标准差就越小B 、样本量越大,样本均值的抽样标准差就越大C 、样本量越小,样本均值的抽样标准差就越小D 、样本均值的抽样标准差与样本量无关23、抽取一个样本量为100的随机样本,其均值为81=x ,标准差12=s 。
抽样与参数估计统计学实验报告抽样与参数估计统计学实验报告概述本实验以抽样与参数估计统计学为主题,研究了参数估计、抽样方法、统计识别等内容。
实验目的1. 熟悉参数估计和统计分析的基本原理和方法;2. 掌握抽样的基本原理,熟悉抽样方法的运用;3. 掌握统计模型识别的方法,进行统计分析和决策;实验介绍1. 参数估计:参数估计是统计分析过程中重要的一步,它是识别某个实际系统的一个重要参数,以此据估计出实际系统的精确参数,估计准确的参数是统计模型的建立的前提。
2. 抽样方法:抽样方法就是从一个总体中取样,所取样的水平表现出一定的代表性,从而能推算出总体的概况,抽样方法有分层抽样、系统抽样、整群抽样等多种。
3. 统计模型识别:是用统计技术进行模型识别,它是利用概率模型来分析数据,建立有效的模型,从而进行有效的分析。
数据分析1. 针对参数估计,我们使用假设检验,通过比较估计值和真实值,进行检验,从而得出参数的准确度。
2. 针对抽样方法,我们使用分层抽样,将总体划分成不同的层,可以更好地表征总体,进行有效抽样。
3. 针对统计模型识别,我们使用多种模型进行比较,根据其检验概率和显著性水平,选择出最有效的模型进行识别。
结论1. 通过假设检验,得出了参数估计的准确度;2. 通过分层抽样得出了较好的抽样结果;3. 通过多种模型进行比较,选择出最有效的模型进行识别。
建议在下次实验中,为了提高参数估计的精度,应该进行更加精细的假设检验;为了增加抽样的可靠性,应该采用更为严谨的抽样方法;此外,要多尝试不同的统计模型,以期得到更好的结果。
第6章抽样与参数估计第6章抽样与参数估计6.1抽样与抽样分布6.2参数估计的基本方法6.3总体均值的区间估计6.4总体比例的区间估计6.5样本容量的确定学习目标理解抽样方法与抽样分布估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准总体均值的区间估计方法总体比例的区间估计方法样本容量的确定方法参数估计在统计方法中的地位统计推断的过程6.1抽样与抽样分布什么是抽样推断概率捕样方法抽样分布抽样方法抽样方法概率抽样(probabilitysampling)也称随机抽样特点按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中每个单位被抽中的概率是已知的,或是可以计算出来的当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率简单随机抽样(simplerandomsampling)从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的最基本的抽样方法,是其它抽样方法的基础特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它辅助信息以提高估计的效率分层抽样(stratifiedsampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样(systematicsainplmg)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范闱内随机地抽取一个单位作为初始单位,然后按爭先规定好的规则确定其它样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难整群抽样(clustersampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差抽样分布总体中各元素的观察值所形成的分布分布通常是未知的可以假定它服从某种分布总体分布(populationdistribution)一个样本中各观察值的分布也称经验分布当样本容屋n逐渐增大时,样本分布逐渐接近总体的分布样本分布(sampledistribution)抽样分布的概念(samplingdistribution)抽样分布是指样本统计屋的分布,即把某种样本统计量看作一个随机变量,这个随机变屋的全部可能值构成的新的总体所形成的分布即为某种统计量的抽样分布.统计量:样本均值,样本比例,样本方差等样本统计量的概率分布是一种理论概率分布随机变量是样本统计量样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本提供了样本统计量长远稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据对抽样分布的理解抽样分布:即不是总体分布,也不是样本分布,是根据所有可能样本计算的统计量的全部可能取值形成的分布样本均值的抽样分布容量相同的所有町能样本的样本均值的概率分布一种理论概率分布进行推断总体均值的理论基础样本均值的抽样分布样本均值的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。
4个个体分别为xl=l、x2=2、x3=3、x4=4。
总体的均值、方差及分布如下均值和方差样本均值的抽样分布(例题分析)现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。
所有样本的结果为样本均值的抽样分布(例题分析)计算岀各样本的均值,如下表。
并给出样本均值的抽样分布样本均值的分布与总体分布的比较(例题分析)=2.502=1.25总体分布抽样分布-样本平均数的分布某班组5个工人的口工资为34、38、42、46、50元。
=422=32现用重置抽样的方法从5人中随机抽2个构成样本。
共有52=25个样本。
如右图。
验证了以下两个结论:抽样平均数的标准差反映所有的样本平均数与总体平均数的平均误差,称为抽样平均误差,用表示。
抽样分布—样本平均数的分布样本均值的抽样分布与中心极限定理当总体服从正态分布N〜(u,o2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为U,方差为02/no即X〜N@,o2/n)中心极限定理(centrallmiittheorem)中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分犬时,样本均值的抽样分布近似服从均值为u、方差为c2/n的正态分布中心极限定理(centrallimittheorem)非正态总体的均值的抽样分布趋于正态分布的过程补充:大数定理大数定理当样本容量n充分大时,可以用样本平均估计总体平均。
当试验次数n充分大时,可以用频率代替概率。
人数定理的意义:个别现象受偶然因素影响,但是,对总体的人量观察后进行平均,就能使偶然因素的影响相互抵消,从而使总体平均数稳定下来,反映出爭物变化的一般规律,这就是大数定理的意义。
极限定理:包扌舌大数定理与中心极限定理两类人数定理:体现偶然性与必然性的辨证关系,偶然性是必然性的表现形式.频率稳定于概率,均值稳定于数学期望.中心极限定理:研究在什么条件下,随机变量的和的分布可以近似正态分布.极限定理是我们作人量社会调查具有科学性之所在,它从理论上表明了抽样调查的科学性,也为抽样调查的定量分析奠定了基础.抽样分布与总体分布的关系样本均值的数学期望样本均值的方差重复抽样不重复抽样PI10说明样本均值的抽样分布的特征pl09(数学期望与方差)样本均值的抽样分布的特征(数学期望与方差)比较及结论:1.样本均值的均值(数学期塑)等于总体均值2.样本均值的方差等于总体方差的1/n样本比例的抽样分布总体(或样本)中具有某种属性的单位与全部单位总数之比不同性别的人与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例可表示为样本比例可表示为比例(piopoilion)容量相同的所有可能样本的样本比例的概率分布当样本容量很大时,样本比例的抽样分布可用正态分布近似一种理论概率分布推断总体总体比例的理论基础样本比例的抽样分布样本比例的数学期塑样本比例的方差重复抽样不重复抽样样本比例的抽样分布的特征(数学期望与方差)6.2参数估计的基本方法估计量与估计值点估计与区间估计评价估计量的标准估计量与估计值估计量:用于估计总体参数的随机变量如样本均值,样本比例、样本方差等例如:样本均值就是总体均值的一个估计量参数用表示,估计量用表示估计值:估计参数时计算出来的统计量的具体值如果样本均值x=80,则80就是总体参数的估计值估计量与估计值pill(estimator&estimatedvalue)点估计与区间估计参数估计的方法估计方法点估计区间估计一个总体参数的估计点估计(pointestimate)用样本的估计屋直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计例如:用两个样本均值之差直接作为总体均值之差的估计2.没有给出估计值接近总体参数程度的信息.实际中一次抽样,不可能指望样本估计屋恰好等于总体参数的值.区间估计(intervalestimate)在点估计的基础上,给出总体参数估计的一个区间范闱,该区间由样本统计量加减抽样误差而得到的根据样本统计屋的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度屋比如,某班级平均分数在75〜85之间,置信水平是95%评价估计量的标准无偏性(unbiasedness)无偏性:估计量抽样分布的数学期望等于被估计的总体参数有效性(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效一致性(consistency)一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数6.3总体均值的区间估计区间估计的基本原理正态总体或人样本的估计正态总体小样本的估计区间估计的基本原理区间估计的图示将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平表示为(1-为是总体参数未在区间内的比例常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10置信水平由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间置信区间(confidencemteival)置信区河与置信水平均值的抽样分布(1-)%区间包含了%的区间未包含用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希塑这个区间是人量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个参数区间估计参数区间估计的含义:估计总体参数的区间范闱,并给出区间估计成立的概率值。
其中:l-a(O<a<l)称为置信度:a是区间估计的显著性水平,其取值人小由实际问题确定,经常取1%、5%和10%o如何理解:例如抽取了1000个样本,根据每一个样本均构造了一个置信区间,,这样,由1000个样本构造的总体参数的1000个置信区间中,有95%的区间包含了总体参数的真值,而5%的置信区间则没有包含。
这里,95%这个值被称为置信水平(或置信度)。
一般地,将构造置区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平。
我们用95%的置信水平得到某班学生考试成绩的置信区间为60-80分,如何理解?错误的理解:60-80区间以95%的概率包含全班同学平均成绩的真值;或以95%的概率保证全班同学平均成绩的真值落在60-80分之间。
正确的理解:如果做了多次抽样(如100次),大概有95次找到的区间包含真值,有5次找到的区间不包枯真值。
真值只有一个,一个特定的区间“总是包含”或“绝对不包含”该真值。
但是,用概率可以知道在多次抽样得到的区间中大概有多少个区间包含了参数的真值。
如呆人家还是不能理解,那你们最好这样回答有关区间估计的结呆:该班同学平均成绩的置信区间是60-80分,置信度为95%。
区间估计估计未知参数所在的町能的区间。
评价准则随机区河置信度精确度随机区河包含(即可靠程度)越大越好。
的概率的平均长度(误差范围)越小越好一般形式或总体参数估计值误差范围A:一定倍数的抽样误差例如:抽样误差一定时,越大,概率(可靠性)大;随之增大,精确度就差。
总体均值的区间估计(正态总体、2已知,或非正态总体、大样本)总体均值的区间估计假定条件总体服从正态分布,方差(2)已知如果不是正态分布,可由正态分布来近似(n30)总体均值在1-置信水平下的置信区间为总体均值的区间估计(例题分析)【例】某种零件的长度服从正态分布,从某天生产一批零件中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。