实验报告4——SAS区间估计与假设检验
- 格式:doc
- 大小:3.38 MB
- 文档页数:9
概率论与数理统计实验实验3 参数估计假设检验实验目的实验内容直观了解统计描述的基本内容。
2、假设检验1、参数估计3、实例4、作业一、参数估计参数估计问题的一般提法X1, X2,…, Xn要依据该样本对参数作出估计,或估计的某个已知函数.现从该总体抽样,得样本设有一个统计总体,总体的分布函数向量). 为F(x, ),其中为未知参数( 可以是参数估计点估计区间估计点估计——估计未知参数的值区间估计——根据样本构造出适当的区间,使他以一定的概率包含未知参数或未知参数的已知函数的真?(一)、点估计的求法1、矩估计法基本思想是用样本矩估计总体矩.令设总体分布含有个m未知参数??1 ,…,??m解此方程组得其根为分别估计参数??i ,i=1,...,m,并称其为??i 的矩估计。
2、最大似然估计法(二)、区间估计的求法反复抽取容量为n的样本,都可得到一个区间,这个区间可能包含未知参数的真值,也可能不包含未知参数的真值,包含真值的区间占置信区间的意义1、数学期望的置信区间设样本来自正态母体X(1) 方差?? 2已知, ?? 的置信区间(2) 方差?? 2 未知, ?? 的置信区间2、方差的区间估计未知时, 方差?? 2 的置信区间为(三)参数估计的命令1、正态总体的参数估计设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:[muhat,sigmahat,muci,sigmaci] = normfit(X,alpha)此命令以alpha 为显著性水平,在数据X下,对参数进行估计。
(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计.例1、给出两列参数?? =10, ??=2正态分布随机数,并以此为样本值,给出?? 和?? 的点估计和区间估计命令:r=normrnd(10,2,100,2);[mu,sigm,muci,sigmci]=normfit(r);[mu1,sigm1,muci1,si gmci1]=normfit(r,0.01);mu=9.8437 9.9803sigm=1.91381.9955muci=9.4639 9.584310.2234 10.3762sigmci=1.68031.75202.2232 2.3181mu1=9.8437 9.9803sigm1=1.91381.9955muci1=9.3410 9.456210.3463 10.5043sigmci1=1.6152 1.68412.3349 2.4346例2、产生正态分布随机数作为样本值,计算区间估计的覆盖率。
第四章区间估计与假设检验本章主要介绍如何使用Excel中的相应功能来处理统计中区间估计与假设检验的问题。
第一节主要介绍常用分布函数临界值的如何取得;第二节介绍区间估计,其中包括手工法、CONFIDENCE函数法和表格法;第三节介绍假设检验,其中包括单总体和双总体的假设检验。
第一节临界值的取得Excel中没有直接求区间估计的程序,通常需要首先利用分布函数的逆函数求出临界值,然后用公式计算出置信区间。
Excel提供了五种抽样分布的逆函数,即标准正态分布的逆函数NORMSINV、非标准正态分布的逆函数NORMINV、T分布的逆函数TINV、2χ分布的逆函数CHIINV和F分布的逆函数FINV(具体可查阅第二章的函数表)。
使用这五种分布的逆函数不但可以代替查分布表,而且有时通过分布表也得不到的数值(例如T分布当自由度比较大时),也可简便、精确、迅速地求得。
下面具体说明这五种分布逆函数的使用。
1、求显著性水平为=α0.01,标准正态分布的上2/α分位点2/αZ,即双侧置信区间的临界值(因为标准正态分布为对称分布,故只需求一个临界值)。
打开NORMSINV函数对话框,在“Probability”框中输入0.995,即2/-=0.995,可1α得到结果为2.58(请读者自己思考为什么?),如图4.1所示。
以上操作也可以直接输入公式完成,在Excel窗口单击任一空单元格,输入“=NORMSINV(0.995)”,回车确认即可。
图4.1 NORMSINV函数对话框2、求显著性水平为=α0.01,自由度为10的T分布上2/α分位点2/αT,即双侧置信区间的临界值(T分布为对称分布,故也只需求一个临界值)。
打开TINV函数对话框,在“Probability”框中输入0.01(注意:与正态分布不同);在“Deg_freedom”框中输入10,即可得到相应结果为3.17,如图4.2所示。
同样,以上操作可以直接输入公式完成。
第4章参数估计和假设检验第四章参数估计与假设检验掌握参数估计和假设检验的基本思想是正确理解和应⽤其他统计推断⽅法的基础,后⾯将要学习的⽅差分析、⾮参数检验、回归分析、时间序列等统计推断⽅法都是在此基础上展开的。
需要特别指出的是,所有的统计推断都要以随机样本为基础。
如果样本是⾮随机的,统计推断⽅法就不适⽤了。
由于相关知识在先修课程中已经学习过,本章主要在回顾相关知识的基础上,补充讲解必要样本容量的计算、p值、参数估计和假设检验⽅法的软件操作和结果分析等内容。
本章的主要内容包括:(1)参数估计的基本思想和软件实现。
(2)简单随机抽样情况下样本容量的计算。
(3)假设检验的基本原理。
(4)假设检验中的p值。
(5)⼏种常⽤假设检验的软件实现。
第⼀节参数估计⼀、参数估计的基本概念参数估计是指利⽤样本信息对总体数字特征作出的估计。
例如,我们可以通过估计⼀部分产品的合格率对整批产品的合格率作出估计,通过调查⼀个样本的⼈⼝数来对全国的⼈⼝数作出估计,等等。
参数估计可以分为点估计和区间估计。
点估计是指根据样本数据给出的总体未知参数的⼀个估计值。
对总体参数进⾏估计的⽅法可以有多种,例如矩估计法、极⼤似然估计法等,得到的估计量(样本统计量)并不是唯⼀的。
例如我们可以使⽤样本均值对总体均值作出估计,也可以使⽤样本中位数对总体均值进⾏估计。
因此,在参数估计中我们需要对估计量的好坏作出评价,这就涉及到估计量的评价准则问题。
常⽤的估计量评价准则包括⽆偏性、有效性、⼀致性等。
⽆偏性是指估计量的数学期望与总体参数的真实值相等;有效性的含义是,在两个⽆偏估计量中⽅差较⼩的估计量较为有效,⽅差越⼩越有效;⼀致性是指随着样本容量的增⼤,估计量的取值应该越来越接近总体参数。
样本的随机性决定了估计结果的随机性。
由于每⼀个点估计值都来⾃于⼀个随机样本,所以总体参数真值刚好等于⼀个具体估计值的可能性极⼩。
区间估计的⽅法则以概率论为基础,在点估计的基础上给出了⼀个置信区间,并给出了这⼀区间包含总体真值的概率,⽐点估计提供了更多的信息。
课时授课计课次序号:10、课题:实验四回归分析SAS过程(1)统计推断与预测二、课型:上机实验三、目的要求:1.掌握利用SAS建立多元回归方程的方法;2.能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.四、教学重点:会对实际数据建立有效的多元回归模型;能对回归模型进行运用,对实际问题进行预测或控制.教学难点:多元回归模型的建立.五、教学方法及手段:传统教学与上机实验相结合.六、参考资料:《应用多元统计分析》,高惠璇编,北京大学出版社,2005;《使用统计方法与SAS系统》,高惠璇编,北京大学出版社, 2001;《多元统计分析》(二版),何晓群编,中国人民大学出版社, 2008;《应用回归分析》(二版),何晓群编,中国人民大学出版社, 2007;《统计建模与R软件》,薛毅编著,清华大学出版社,2007.七、作业:2.3 (单) 2.4八、授课记录:九、授课效果分析:实验四回归分析SAS过程(1)2学时、实验目的和要求掌握利用SAS建立多元回归方程的方法,掌握 PROC REG过程,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.二、实验内容1.P ROC REG过程般格式:PROC REG <DATA=SAS data set>;MODEL 因变量=回归变量/ <选项部分>其它选择语句OUTPUT OUT=SAS 数据集名关键字名=输出数据集中的变量名;RUN;(1)PROC REG 语句此语句是PROC REG 过程的必需语句,指出要进行分析的数据集.省略此项,统对最新建立的数据集进行分析.SAS 系(2)MODEL 语句中的选项部分该语句定义建模用的因变量、回归变量(自变量)、模型的选择及拟合结果输出的选择.在关键词“ Model ”之后,应指明因变量,等号后依次列出回归变量,每个变量间用空格分开.此语句的选项部分提供了最优模型的选择方法和其他拟合结果的输出选项,其中包括:1)选择合适的建立模型方法:SELECTION=name其中“ n ame” 可以是FORWARD (或F)、BACKWARD (或 B )、STE PWISE、RSQUARE 、ADJRSQ 、CP 等之一.SELECTION=FORWARD SLENTRY= 显著性水平向前选择最优模型法(FORWARD ):从仅含常数项的回归模型开始,逐个加入自变量,对每一个尚不在方程内的自变量按一定显著性水平,根据其一旦进入模型后对模型的贡献大小逐步引入方程,直至再没有对模型有显著贡献的自变量.“SLENTRY= 显著性水平”为自变量进入模型的控制水平,写在选择方法语句之后.若省去此句,则SAS 系统默认的水平为SLENTRY=0.05 .SELECTION=BACKWARD SLSTAY=显著性水平向后删除法(BACKWARD ):先建立包含全部自变量的线性回归模型,然后按一定 的显著性水平从模型中逐步剔除变量.缺省SLSTAY =0.1SELECTION=STEPWISE SLENTRY = 入选水平 SLSTAY=易9除水平 逐步回归法(STE PWISE ):按向前选择法(前进法)进入变量,再对模型内所有变量检验,看是否有因新变量引入而对模型的贡献变得不显著,若有就剔除,若无则保留, 直至方程内所有变量均显著.逐步法有两个控制水平,即选入水平( SLENTRY=入选水平)和剔除水平(SLSTAY=剔除水平),而且剔除水平应低于选入水平.缺省 SLENTRY =0.15 SLSTAY =0.1 5SELECTION=RSQUARE在所有可能的回归方程中用 R p 准则选择最优模型 的方法.在每一个给定的自变量2个数的水平上,打印出使 R p 达到最大的那个回归模型的拟合结果.SELECTION=ADJRSQ :修订的R :准则选择最优模型法. SELECTION=CP : C p 准则选择最优模型法.注意:以上方法只可在选项部分写出其中一种,不可并用.2)对模型选取细节的选项DETAILS :对模型选取方法 FORW ARD 、BACKWARD 、STEPWISE ,若打印出每一步引入和删除自变量及相关信息选用此项.如一个自变量选入模型时的偏 型的R 2值和一个自变量被剔除时模型R 2值及有关参数估计的信息.NOINT :取消回归模型的常数项,即拟合过原点的回归方程. 3)对估计细节内容的选择:在选项部分,还可以选择一个或多个 (中间用空格分开) 参数估计和拟合残差等相关内 容,常用的有:CORRB :输出参数估计的 相关系数矩阵,第i 行第j 列为与时相关系数估计. COVB :输出估计参数的 协方差矩阵,即MSE (X TX )-1.P :输出因变量拟合值、观测值、拟合残差.若已选 CLI 、CLM 、R ,无需该选项. R :输出有关残差及用于影响性分析的各量,包括拟合值的标准差、残差、学生化残差(残差除以标准差)及 Cook 距离(度量了当删除某观测值后,参数估计的总变化量)T X 厂注意:以上选择内容可以和最优模型选择方法并用于BACKWARD 、FORWARD 、STEPWISE 的模型选择方法, 模型的相应结果;对 RSQUARE 准则,只给出全模型的相应结果;对于F 值、模I :输出矩阵(XTX )d .输出形式为「(XSSE 」Model 语句的“选项部分”.对 以上估计细节内容只是最终选择ADJRSQ 和 CP 方法,给出具有最大 R ;和C p 值的模型的相应结果.(3) OUT PUT 语句一一建立SAS 的输出结果数据集 此语句建立一个与估计内容有关的 SAS数据集.语句格式为:OUTPUT OUT=SAS 数据集名 关键字名=输出数据集中的变量名;关键字名为需要的统计量名,它们有PREDICTED (或P ) =name :因变量拟合值,指定名称为 name ; RESIDUAL (或R ) =name :残差及指定的名称; STUDENT=name :标准化(或学生化)残差;L95M=name :因变量期望值的95%的置信区间的置信下限; U95M=name :因变量期望值的95%的置信上限; L95=name :因变量值的95%置信区间的置信下限; U95=name :因变量值的95%的置信区间的置信上限;COOKD ( COOK 氏D 值)=name : Cooki 距离,用于影响性分析的统计量; H=name :杠杆量,即X i (X T X )」x T , i =1,2,…,n,X i 是设计矩阵X 的第i 行; PRESS=name : d i (p)值,用以估计第i 组观测值对拟合值的影响; DFFITS=name :用以估计第i 组观测值对参数估计的影响; STDP=name :期望值的标准误差 STDR=name :残差的标准误差; STD I =name :预测值的标准误差;其中等号前的部分为输出语句的关键词,后面的 以上介绍了一些常用的选项•无论选项如何, 的参数估计值及其标准差,检验参数是否为零的验回归关系显著性的 F 统计量和P 值,复相关系数及其平方值等.2. 示例例1 (书上例2.3 )某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额丫与他们研究成果(论文、著作等)的质量指标X 1、从事研究工作时间 X 2、能 获得资助的指标 X 3 •为此按一定设计方案调查了24位此类型的数学家,得数据如书上表2.3所示.(1) 假设误差服从 N(0,b 2)分布,建立丫与X 1,X 2,X 3之间的线性回归方程并研究相 应的统计推断问题;name 飞等号前的变量指定一名称 PROC REG 过程总是自动输出相应模型t 统计量值及相应的 P 值•方差分析表、检(2)假设某位数学家的关于X i,X2,X3的值为(X oi,X o2,X o3)=(5.1,20,7.2),试预测他的年工资额并给出置信度为95%的置信区间.设丫与 X 1,X 2,X 3回归模型 丫 = * + P1X 1 +P 2X 2 + P 3X3+S 观测值满足 y i =p 0 + p 1 X i1 +p 2Xi2+ p3Xi3 +E i ,i =1,2,…,24(i =1,2"-,24)相互独立,且 S i ~ N(0,cr 2).£~ N(0, /1)SA 繇统回归分析的proc reg 过程进行统计推断程序:data exa mp2_3; input y x1-x3; cards33.2 3.5 9 6.1 40.35.3 206.438.7 5.1 18 7.4 46.8 5.8 33 6.7 41.44.2 31 7.537.5 6.0 13 5.9 39.0 6.8 25 6.0 40.75.5 30 4.030.1 3.1 5 5.8 52.9 7.2 47 8.3 38.2 4.5 25 5.0 31.8 4.9 11 6.4 43.38.0 23 7.644.1 6.5 35 7.0 42.86.6 39 5.033.6 3.7 21 4.434.2 6.2 7 5.5 48.0 7.0 40 7.0 38.0 4.0 35 6.0 35.9 4.5 23 3.5 40.45.9 33 4.936.8 5.6 27 4.3 45.24.8 34 8.0 35.1 3.9 15 5.0 run ;解:(1)建立回归模型进行统计推断其中1)proc reg data =exa mp 2 3; /*调用回归分析的reg 过程*/Sum of Mea nDF Squares SquareCorrected Total 23 SST=689.260001.75276 R-Square 0.9109 Depen de nt Mea n 39.50000Coeff Var 4.43735从方差分析表得出 c/2=MSE =3.0722 ;MSR H0真统计量F〜F (3, 20),其观测值F 0 =68.119MSEp = P H 0(F >F 0) =0.0001,拒绝H 0,认为Y 与X i ,X 2,X 3的线性回归关系是高度显著的.另外,由方差分析表给出宀磐二签勿9109,也表明线性回归关系高度显著・P arameter Estimates参数估计表model y=x1-x3/i; run ; /* 模型因变量 y,自变量x1、x2、 x3,输岀Hessian 矩阵*/ 2) 由方差分析表进行统计推断 An alysis of Varia nee方差分析表方差来源 自由度 平方和(SS ) Model Error 均方(MSp-1=3 SSR=627.81700 MSR=SSR/3=209.27233 F n-p=24-4=20 SSE=61.44300 MSE=SSE/20=3.072150=MSR/MSE检验 p 值 p 00=68.12 < 0001SourceF Value Pr > FRoot MSE Adj R-Sq 0.8975线性回归关系显著性检验:H 。
本讲自测(占一定期末成绩)1【单选题】在均数为μ,方差为σ^2的正态总体中随机抽样,每组样本含量n相等,z=(X-μ)/σx,则z≥1.96的概率是•A、P>0.05•B、P≤0.05•C、P≥0.025•D、P≤0.025正确答案:D 我的答案:C得分:0.0分2【单选题】下列 ______公式可用于估计95%样本均数分布范围。
•A、±1.96S•B、±1.96•C、μ±1.96•D、±t0.05正确答案:C 我的答案:C得分:3.3分3【单选题】将同类高血压病患者若干随机分成两组,一组给予传统医疗方法,另一组给予新医疗方法,以各组治疗前后血压的平均下降值为指标,比较两种医疗方法的效果。
关于该研究的设计要求,下列除以____外•A、两组受试对象相同•B、两组治疗方法不同•C、两组治疗效果不同•D、两组观察指标相同正确答案:C 我的答案:C得分:3.3分4【单选题】抽样误差主要指:•A、个体值和总体参数值之差•B、个体值和样本统计量值之差•C、样本统计量值和总体参数值之差•D、样本统计量值和样本统计量值之差•E、总体参数值和总体参数值之差正确答案:C 我的答案:C得分:3.3分5【单选题】假设检验的一般步骤中不包括以下哪一条•A、选定检验方法和计算检验统计量•B、确定P值和作出推断性结论•C、对总体参数的范围作出估计•D、计算P值•E、建立假设和确定检验水准正确答案:C 我的答案:C得分:3.3分6【单选题】要减少抽样误差,最切实可行的方法是•A、增加观察对象(样本含量)•B、控制个体变异•C、遵循随机化原则抽样•D、严格挑选研究对象正确答案:A 我的答案:A得分:3.3分7【单选题】下面哪一指标较小时可说明用样本均数估计总体均数的可靠性大?•A、变异系数•B、标准差•C、标准误•D、极差•E、四分位数间距正确答案:C 我的答案:C得分:3.3分8【单选题】在标准差与标准误的关系中,•A、二者均反映抽样误差大小•B、总体标准差增大时,总体标准误肯定也增大•C、样本例数增大时,样本标准差和标准误都减小•D、可信区间大小与标准差有关,而参考值范围与标准误有关•E、总体标准差一定时,增大样本例数会减小标准误正确答案:E 我的答案:E得分:3.3分9【单选题】两样本比较作z检验,差别有统计学意义时,P值越小说明•A、两样本均数差别越大•B、两总体均数差别越大•C、越有理由认为两总体均数不同越有理由认为两样本均数不同正确答案:C 我的答案:C得分:3.3分10【单选题】标准误越大,则表示此次抽样得到的样本均数•A、系统误差越大•B、可靠程度越高•C、抽样误差越大•D、可比性越差•E、代表性越好正确答案:C 我的答案:C得分:3.3分11【单选题】要减小抽样误差,通常的做法是()。