应用多元统计分析 北大版 第三章
- 格式:ppt
- 大小:968.00 KB
- 文档页数:99
第3章 多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。
统计学分析处理的对象是带有随机性的数据。
按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。
由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。
所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。
统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。
统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。
参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。
本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。
3.1一元正态总体情形的回顾一、 假设检验在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。
1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2σμN 的样本,我们要检验假设0100:,:μμμμ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。
备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。
当2σ已知时,用统计量nX z σμ-=在原假设0H 成立下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。
对于检验问题(3.1.1),我们制定这样一个检验规则(简称检验): 当αz z >时,拒绝0H ;当αz z ≤时,接受0H 。
第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。
例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。
在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。
总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。
上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。
如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。
显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。
而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。
在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。
为提高科学性、可靠性,通常需要定性与定量分析相结合。
实践证明,多元分析是实现做定量分析的有效工具。
3-8 假定人体尺寸有这样的一般规律,身高 (X1),胸围 (X2)和上半臂围 (X3)的平均尺寸比例是6:4:1,假设 X 1, , n 为来自总体 X = X1 , X 2 , X 3的随机样本,并设 X ~N , 。
试利用表 3.4 中男婴这一数据来检验其身高、胸围和上半臂围这三个尺寸变量是否符合这一规律(写出假设H0,并导出检验统计量)。
性别表 3.4某地区农村两周岁婴儿的体格测量数据身高 (X1)胸围 2 上半臂围3(X ) (X )男78 60.616.5男76 58.112.5男92 63.214.5男81 59.014.0男81 60.815.5男84 59.514.0女80 58.414.0女75 59.215.0女78 60.315.0女75 57.413.0女79 59.514.0女78 58.114.5女75 58.012.5女64 55.511.0女80 59.212.5解:设Y CX, X ~ N3( , ),Y ~ N2 (C ,C C)。
1 0 61, 2,1, 2,3分别为 X1, X 2, X3的样本均值。
则检验其中 C1 43三个变量是否符合规律的假设为H0 :C O2,H1:C O2。
检验统计量为F n 1 (p1) 1T 2 ~F ( p1,n p 1)(p 3, n 6) ,(n 1)(p 1)由样本值计算得:X =(82,60.2,14.5) ,及15840.2 2.5A= 40.215.86 6.55,2.5 6.559.5T 2n(n 1)(CX ) (CAC )-1 (CX )=47.1434,Fn 1 ( p 1) 1T 2= 2 T 2 18.8574 ,(n 1)( p 1)5对给定显著性水平=0.05 ,利用软件 SAS9.3 进行检验时,首先计算 p 值:p=P{ F ≥ 18.8574}=0.0091948。
因为 p 值=0.0091948<0.05,故否定 H 0 ,即认为这组男婴数据与人类的一般规律不一致。