多元统计分析第三章
- 格式:pdf
- 大小:4.57 MB
- 文档页数:163
多元统计分析第三章假设检验与⽅差分析第3章多元正态总体的假设检验与⽅差分析从本章开始,我们开始转⼊多元统计⽅法和统计模型的学习。
统计学分析处理的对象是带有随机性的数据。
按照随机排列、重复、局部控制、正交等原则设计⼀个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进⾏统计推断,是⾃然科学和⼯程技术领域常⽤的⼀种研究⽅法。
由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论⽅法研究的出发点。
所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要⽤概率来表明其可靠程度。
统计推断的任务是“观察现象,提取信息,建⽴模型,作出推断”。
统计推断有参数估计和假设检验两⼤类问题,其统计推断⽬的不同。
参数估计问题回答诸如“未知参数θ的值有多⼤?”之类的问题,⽽假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。
本章主要讨论多元正态总体的假设检验⽅法及其实际应⽤,我们将对⼀元正态总体情形作⼀简单回顾,然后将介绍单个总体均值的推断,两个总体均值的⽐较推断,多个总体均值的⽐较检验和协⽅差阵的推断等。
3.1⼀元正态总体情形的回顾⼀、假设检验在假设检验问题中通常有两个统计假设(简称假设),⼀个作为原假设(或称零假设),另⼀个作为备择假设(或称对⽴假设),分别记为0H 和1H 。
1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来⾃总体),(2σµN 的样本,我们要检验假设100:,:µµµµ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有⼀个正确。
备择假设的意思是,⼀旦否定原假设0H ,我们就选择已准备的假设1H 。
当2σ已知时,⽤统计量nX z σµ-=在原假设0H 成⽴下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。
一、Bayes判别
打开examp5.2.3.sav数据表⇒分析⇒分类>⇒判别式…⇒在“判别分析”对话框中,将现金流量/总债务[x1]、净收入/总资产[x2]、流动资产/流动债务[x3]和流动资产/净销售额[x4]选入“自变量”列表框中;将组别[g]选入“分组变量”列表框中(见图1)→定义范围…→在弹出的“判别分析:定义范围”对话框中(见图2),作图中的输入→继续⇒统计…→在弹出的“判别分析:统计”对话框中(见图3),作图中的选择→继续;选择分类…→在弹出的“判别分析:分类”对话框中(见图4),作图中的选择→继续;选择保存…→在弹出的“判别分析:保存”对话框中(见图5),作图中的选择→继续⇒确定,生成图6和图7。
图1
图2
图3
图4
图5
图6
图7
注:Dis_1表示经判别归属的组,Dis1_1和Dis2_1分别表示归属第1组和第2组的后验概率。
二、Fisher判别
打开examp5.4.1.sav数据表⇒分析⇒分类>⇒判别式…⇒在“判别分析”对话框中,将花萼长[x1]、花萼宽[x2]、花瓣长[x3]和花瓣宽[x4]选入“自变量”列表框中;将组别[g]选入“分组变量”列表框中(见图1)→定义范围…,即弹出“判别分析…”对话框→在“最小”框中填入1,在“最大”框中填入3→继续⇒统计…→在弹出的“判别分析:统计”对话框中,选择“函数系数”一栏里的未标准化→继续;分类…→在弹出的“判别分析:分类”对话框中,选择“图”一栏里的合并组→继续⇒确定,生成图2。
图1
图2
图2(续1)
图2(续2)。
Equation Chapter 1 Section 1 Array《多元统计分析》Multivariate Statistical Analysis主讲:统计学院许启发()统计学院应用统计学教研室School of Statistics2004年9月第三章 判别分析【教学目的】1. 让学生了解判别分析的背景、基本思想; 2. 掌握判别分析的基本原理与方法; 3. 掌握判别分析的操作步骤和基本过程; 4. 学会应用聚类分析解决实际问题。
【教学重点】1. 注意判别分析与聚类分析的关系(联系与区别); 2. 阐述各种判别分析方法。
§1 概述一、什么是判别分析1.研究背景科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标()12,,,p X X X X '=来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。
当得到一个新样本观测值(或个体)的关于指标X 的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。
也就是说,判别分析(discriminant analysis )是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。
判别分析的应用十分广泛。
例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。
值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。
3.5 测量30名出生到3周岁婴幼儿的身高(x1)和体重(x2)数据如下表所示,其中男女各15名,假定这两组都服从正态总体分布且协方差阵相等,试在显著水平ɑ=0.05下检验男女婴幼儿的这两项指标是否有差异。
解:当协方差矩阵相等时(∑1=∑2),两个正态总体均值向量的检验H0:u1=u2,H1:u1!=u2在H0成立的条件下,这里m=n=15,p=2T0^2= 3.9604,F(2,27)=3.35,(m+n-2)*p/(m+n-p-1)*F(2,27)=6.9481T0^2= 3.9604 < 6.9481故接收H0两项指标没有差异3.6 1992美国总统的三位候选人为布什,佩罗特,克林顿。
从支持三位候选人的选民中分别抽去了20人,登记了他们的年龄段(x1)和受教育程度(x2)资料如下表所示:假定三组都服从多元正态分布,检验这三组的总体均值是否有显著性差异(ɑ=0.05)H0 :u1=u2=u3.H0成立时,∧=det(E)/det(T)服从wilks分布∧(p,n-k,k-1)这里p=2,n=60,k=3E=[53.5230 -14.4780-14.4780 59.9640]T =[66.8470 -18.9390-18.9390 63.0120]∧=det(E)/det(T)=0.7785由∧与F统计量的关系,统计量T,k-1=2,统计量T,知T=(n-k)-p+1/p*(1-sqrt(∧))/ sqrt(∧)=3.7343 T > F(2*p,2*(n-k-p+1))=F(4,112)≈2.450故拒绝H0认为这三组的总体均值有显著性差异。
(3.7)假定三组都服从多元正态分布,检验这两个指标的三次重复测定均值向量是否有显著性差异(ɑ=0.05)H0 :u1=u2=u3.H0成立时∧=det(E)/det(T)服从wilks分布∧(p,n-k,k-1)这里p=2,n=48,k=3,E=[18.4050 17.505017.5050 35.5500]T =[18.4240 17.531017.5310 35.7670]∧=det(E)/det(T)=0.9893由∧与F统计量的关系,k-1=2,统计量T知T=(n-k)-p+1/p*(1-sqrt(∧))/ sqrt(∧)=0.1187T < F(2*p,2*(n-k-p+1))=F(4,88)≈2.4850故接受H0认为这两个指标的三次重复测定均值向量没有显著性差异3.8 根据习题3.5中的数据,检验男性婴幼儿和女性婴幼儿的协差阵是否相等(ɑ=0.05)解:H0:∑1=∑2, H1: ∑1!=∑2这里n=30,k=2,V是汇聚组内矩阵,V(k)是第k组样本协方差阵,n1=n2=15,构造统计量如下:T=(n-k)*ln∣V∣-[(n1-1)*ln∣V(1)∣+(n2-1)*ln∣V(2)∣],∣V∣=240.0146, V(1)= 293.2290, V(2)= 190.7972, 故T=22.3321在H0成立的条件下,T近似服从分布X(f)^2/(1-D),D=(2*p^2+3*p-1)*(K+1)/6*(p+1)*(n-k)=0.1131,f=p*(p+1)*(k-1)/2=3, X(f)^2/(1-D)= 8.8116由于T=22.3321 > X(f)^2/(1-D)= 8.8116,故拒绝H0,认为男性婴幼儿和女性婴幼儿的协差阵不相等。