五章 多元分析基础1
- 格式:doc
- 大小:629.00 KB
- 文档页数:13
胡平交大管院2008秋下1第一部分回顾与演进第一讲. 多元统计分析预备知识胡平交大管院2008秋下2主要内容第一讲. 多元统计分析预备知识•多元统计分析概述•多元数据的整理与描述•矩阵代数与随机向量•样本几何与随机抽样•离散数据的概率分布•多元正态分布•多元均值的推断和均值向量的比较一. 多元统计分析的概述概念:从包含许多变量的、同时测量值的数据中,集中获取信息的各种统计方法,称为多元分析。
多元方法的基本依据:多元正态分布的基本概率模型多元方法的应用1、数据简化或结构简化:在不损失有价值信息的情况下尽可能简单的将被研究的现象描述出来。
2、分类与分组:根据所测量的特征将一些类似的对象或变量分组。
3、变量间依赖性的研究4、预测:根据某些变量的观测值预测另一个或另一些变量的值。
5、假设的构造与检验一. 多元统计分析的概述胡平交大管院2008秋下5二.多元数据的整理与描述多元数据的基本结构初步概念:数据阵列:对研究对象(多元总体)的p 个特征(变量)进行记录,从而出现多元数据表示第k个变量在第j项(个体或实验单元)上或第j次试验中的观测值。
因此,p个变量的n 个观测值可以表示成:⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡⋯⋯np n n p p x x x x x x x x x 212222111211k j x 胡平交大管院2008秋下6描述统计量(1)样本均值设是第一个变量的n 个观测值,则这些测量值的算术平均数是如果这n 个测量值代表被观测的全部测量值集合的一个子集,则也称为第一个变量的样本均值。
12111,,n xx x ⋯⋯∑==nj j x n x 11111x二. 多元数据的整理与描述样本方差:对第k 个变量的n 个观测值定义为:为了表明方差在阵列中的位置,引入双下标记号:来表示由第个变量的测量值的方差,并有式子样本标准差:样本方差的平方根称为样本标准差。
∑=-=nj k jk k x x n s 122)(1iis i∑=-==n j k jk kk k x x n s s 122)(1pk ,,2,1⋯⋯=描述统计量(2)ii s 二. 多元数据的整理与描述样本协方差:度量第i 个变量和第k 个变量的n 对测量值线性结合由样本协方差给出:∑=--=nj k jk i ji ik x x x x n s 1))((1pk p i ,,2,1,,,2,1⋯⋯=⋯⋯=描述统计量(3)二.多元数据的整理与描述胡平交大管院2008秋下9样本相关系数:其中i=1,2,…,p , k=1,2,…,p注意:∑∑∑===----==nj k jknj i jinj k jk i ji kkiiik ik x xx xx x x x s s s r 12121)()())((kiik r r =描述统计量(4)二. 多元数据的整理与描述胡平交大管院2008秋下10样本相关系数性质:1、r 的值必定在-1与1之间。
第五章聚类分析5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n 个样本,对每个样本测得p 项指标〔变量的数据,已知每个样本属于k 个类别〔或总体中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品〔或变量进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品〔或变量聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2 试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品〔或变量先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品〔或变量总能聚到合适的类中。
5.3 对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n 个样本看作p 维空间的n 个点。
点之间的距离即可代表样品间的相似度。
常用的距离为 〔一闵可夫斯基距离:1/1()()pq qij ik jk k d q X X ==-∑q 取不同值,分为 〔1绝对距离〔1q = 〔2欧氏距离〔2q =〔3切比雪夫距离〔q =∞ 〔二马氏距离 〔三兰氏距离对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。
将变量看作p 维空间的向量,一般用 〔一夹角余弦 〔二相关系数5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则? 答:设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。
〔1. 最短距离法 〔2最长距离法 〔3中间距离法 其中 〔4重心法 〔5类平均法 〔6可变类平均法 其中β是可变的且β <1〔7可变法 22221()2kr kp kq pq D D D D ββ-=++其中β是可变的且β <1 〔8离差平方和法2222(1)()p q kr kp kq pq r rn n D D D D n n ββ=-++通常选择距离公式应注意遵循以下的基本原则:〔1要考虑所选择的距离公式在实际应用中有明确的意义。
第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。
例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。
在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。
总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。
上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。
如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。
显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。
而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。
在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。
为提高科学性、可靠性,通常需要定性与定量分析相结合。
实践证明,多元分析是实现做定量分析的有效工具。
多元统计分析(1)题目:多兀统计分析知识点研究生___________________________ 专业____________________________ 指导教师________________________完成日期2013年12月目录第一章绪论 (1)§.1什么是多元统计分析 (1)§.2多元统计分析能解决哪些实际问题 (2)§.3主要内容安排 (2)第二章多元正态分布 (2)弦.1基本概念 (2)弦.2多元正态分布的定义及基本性质 (8)1. (多元正态分布)定义 (9)2•多元正态变量的基本性质 (10)§2.3多元正态分布的参数估计X =(X1,X2^|,X p) (11)1•多元样本的概念及表示法 (12)2. 多元样本的数值特征 (12)3」和a 的最大似然估计及基本性质 (15)4.Wishart 分布 (17)第五章聚类分析 (18)§5.1什么是聚类分析 (18)§5.2距离和相似系数 (19)1 • Q—型聚类分析常用的距离和相似系数 (20)2. .......................................................................................................................................... R型聚类分析常用的距离和相似系数 (25)§5.3八种系统聚类方法 (26)1. 最短距离法 (27)2. 最长距离法 (30)3. 中间距离法 (32)4. 重心法 (35)5. 类平均法 (37)6. 可变类平均法 (38)7. 可变法 (38)8. 离差平方和法(Word方法) (38)第六章判别分析 (39)§5.1什么是判别分析 (39)§5.2距离判别法 (40)1、两个总体的距离判别法 (40)2•多总体的距离判别法 (45)§6.3费歇(Fisher)判别法 (46)1•不等协方差矩阵两总体Fisher判别法 (46)2•多总体费歇(Fisher)判别法 (51)§6.4贝叶斯(Bayes)判别法 (58)1•基本思想 (58)2•多元正态总体的Bayes判别法 (59)§6.5逐步判别法 (61)1. 基本思想 (61)2•引入和剔除变量所用的检验统计量 (62)3. .......................................................................................................................................... Bartlett 近似公式 (63)第一章绪论§ 1.1什么是多元统计分析在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。
多元统计分析讲义(第五章)本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.MarchEquation Chapter 1 Section 1《多元统计分析》Multivariate Statistical Analysis主讲:统计学院许启发()统计学院应用统计学教研室School of Statistics2004年10月第五章因子分析【教学目的】1.让学生了解因子分析的背景、基本思想;2.掌握因子分析的基本原理与方法;3.掌握因子分析的操作步骤和基本过程;4.学会应用因子分析解决实际问题。
【教学重点】1.因子旋转与因子得分;2.因子分析与主成分分析的联系与区别。
§1 概述一、引言1.问题提出(研究背景)在上一章,已经介绍了一种简化数据结构的方法——主成分分析法。
其基本目的是从尽可能多地占有原始数据的总变差出发来构造少数变量的线性组合变量——综合变量。
本章来讨论另外一种简化数据结构的方法——因子分析,它不同于主成分分析,可以看成是其推广形式。
在经济学、人口学、社会学、心理学、教育学等领域中,有许多基本特征,例如:“态度”、“认识”、“爱好”、“能力”、“智力”等,实际上是不可直接观测的量。
但是这些基本特征常常对事物的结果起着决定性作用。
比如学生通过考试得到英语、高等数学、大学物理、计算机、统计学、多元统计、数理统计、经济学等课程的成绩。
把每门课的成绩看作一个变量,显然这些变量必定受到一些共同因素的影响,比如全面智力,或者细分一点,如逻辑思维能力,形象思维能力和记忆力等,都是影响这些课程成绩的公共因素。
另外,每门课程的成绩还可能受自己特点因素的影响,如英语的语言能力、大学物理的动手实验能力、高等数学的推理能力等。
2.因子分析的产生1904年Charles Spearman发表《对智力测验得分进行统计分析》一文,标志着因子分析方法的产生。
第五章多元分布基础前面所介绍的统计分析分法(除方差分析、回归分析),大多是适用于一个变量的总体,一般称为一元统计分析方法。
但在许多实际问题如在工农业生产(提高产品质量、降低成本、提高农作物产量及改进品种等),国民经济和科学研究领域(经济管理、金融、气象、地质、生物、医学、航天技术等)中,常常要处理多个变量的观测数据,即要研究多维随机变量的分布、数字特征及变量间的关系。
如果仍用一元统计方法分别对每一个变量进行分析,这样往往忽视了各方面之间存在的相关性,一般来说会丢失很多信息,分析的结果不能客观全面地反映情况.如果说一元统计分析是研究一个随机变量统计规律性的数学方法,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的数学方法。
多元统计分析方法是以概率论、线性代数及一元统计方法为基础的数理统计学的一个分支。
随着计算机的发展,特别是统计软件的应用,多元统计分析方法才被广泛的应用到解决实际问题中,本身也得到了迅猛的发展。
5.1多元分布一、多元分布的概念 1. 分布函数定义5.1.1设)',,,(21p X X X =X 是一随机向量,它的(多元)分布函数是)(x F =),,,(21p x x x F =),,(11p p x x P ≤≤X X (5.1.1)式中,),,,('21p x x x x =p R ∈,并记成X ~),,,(21p x x x F多元分布函数的性质:Ⅰ),,,(21p x x x F 是每个变量x i (i =1,…, p )的非降右连续函数; Ⅱ1),,,(021≤≤p x x x F ;Ⅲ=-∞),,,(2p x x F ==-∞ ),,,(1p x x F ),,,(21-∞ x x F =0; Ⅳ1),,,(=∞∞∞ F 。
本章主要对连续型的多元分布进行讨论,离散型的的多元分布常用的有如:多项式分布、多元超几何分布。
2.两个常用的离散性多元分布(1)多项分布 (2)多元超几何分布3.多元分布密度函数定义5.1.2设X ~),,,(21p x x x F ,若存在一个非负的函数)(∙f ,使得p x x p p dt dt t t t f x x x F p121211),,,(),,,(⎰⎰∞-∞-=(5.1.2)对一切∈R P 成立,则称X (或)(x F )有分布密度)(∙f ,并称X 为连续型随机向量。
一个p 个变量的函数)(∙f 能作为R P中某个随机向量的分布密度,当且仅当4.边际分布二、多元变量的独立性定义5.1.3两个随机向量X 和Y 称为是相互独立的,若对一切y x ,成立。
若F ),(y x 为(X ,Y )的联合分布函数;)(x F X 和)(y F y 分别为X 和Y 的分布函数,则X 与Y 独立当且仅当F ),(y x = )(x F X )(y F y (5.1.3)若(X ,Y )有分布密度函数),(y x f ,用)(x f X 和)(y f Y 分别表示X 和Y 的分布密度,则X 和Y 独立当且仅当),(y x f =)(x f X )(y f Y (5.1.4)注意在上述定义中,X 和Y 的维数一般是不同的。
类似地,称k 个随机向量k X X X ,,,21 相互独立,若它们的联合分布等于各自分布的乘积。
由k X X X ,,,21 相互独立可以推知任何i X 与j X (i ≠j )独立,但是,若已知任何i X 与j X (i ≠j )独立,并不能推出k X X X ,,,21 相互独立。
三、随机向量的数字特征若矩阵Χ=)(X ij 的每个元素都是随机变量,则称Χ为随机矩阵,随机向量)',,,(21p X X X =X 可以看作只有一列的随机矩阵。
1. 数学期望(均值)q p ⨯阶随机矩阵Χ=)(X ij 的数学期望(均值)为=∈∀≥pR1)()( 0)( )(dx x f ii R x x f i p⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡==μμμμμμμμμpq p p qq pq p p q q ij E E E E E E E E E E E212222111211212222111211)()()()()()()()()())(()(X X X X X X X X X X X =μ(5.1.5) μ是一个 q p ⨯阶常数矩阵, 称为均值矩阵.当q=1时,便可以得到随机向量)',,,(21p X X X =X 的数学期望(均值).μ是一个p 维的向量,称为均值向量。
当A 、B 为常数矩阵时,由定义可立即推出如下性质:(1) )()(X X E E A A = (5.1.6) (2) B A B A )()(X X E E = (5.1.7) 证明(1)设A 为p m ⨯阶常数矩阵)(a ij)()(21212222111211112111121121212222111211X X E a a a a a a a a a a a a a a a E a a a a a a a a a E E p pq p p p p p j j mj p j j j p j j j p j j mj p j j j p j j j p pq p p p p ∙=⎪⎪⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛=∑∑∑∑∑∑======A A μμμμμμX X X X X X (2)设B 为 n ⨯1阶常数矩阵)(b ij 只需证明B B )()(X X E E =即可μX =⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=P P E E E E μμμ 2121)( )()()(X X X()()BB ∙=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=)()(212121222211121112122221112112121X X E b b b b b b b b b b b b b b b b b b b b b E b b b E E n p p n pp n n p n pp n n n pμμμμμμμμμμμμX X X X X X X X X X X X2. 协方差阵 设)',,,(21p X X X =X称它为p 维随机向量X 的自协方差阵,简称为X 的协方差阵。
称|COV (X ,X )|为X 的广义方差,它是协差阵的行列式之值。
随机向量X 和Y 的协差阵设)',,,(21p X X X =X 和)',,,(21q Y Y Y =Y 分别为p 维和q 维随机向量,它们之间的协方差阵定义为一个q p ⨯ 矩阵,其元素是),(Y X j i COV 即COV (X ,Y )=)),((Y X j i q p COV ⨯ i =1,…, p ;j =1,…,q (5.1.9)若COV (X ,Y )=0,称X 和Y 是不相关的。
协差阵的性质(1)随机向量X 的自协方差阵Σ是非负定的)8.1.5()())((),(/X X X X X X X V E E E COV =--==Σ)( )D( ),( ),( ),( )D( ),( ),( ),( )(D p 2122121211ij COV COV COV COV COV COV pp P P P P σ⨯=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=X X X X X X X X X X X X X X X),( ),( ),( ),( ),( ),( ),( ),( ),(p 212221212111⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=q P P q q COV COV COV COV COV COV COV COV COV Y X Y X Y X Y X Y X Y X Y X Y X Y X(2)当A 为常数矩阵,b 为常数向量时,A )(A b A 'X X V )(=+V (5.1.10) (3)当A 、B 为常数矩阵时,COV (A X ,B Y )=A COV (X ,Y )B / (5.1.11) (4)设n k k k ,,,21 是n 个常数,n X X X ,,,21 是n 个独立的p 维随机向量,则)()(121X X V k ik V i ni i ni i ∑∑--=(5.1.12)例5.1.1设随机向量)',,,(21p X X X =X 的数学期望和协方差阵分别为 )'7,2,5(-=μ,∑=⎪⎪⎪⎭⎫⎝⎛--2532391214 令X X X Y 321142+-=,X X Y 322-=,X X X Y 321323-+= 求)',,(321Y Y Y =Y 的数学期望和协方差阵 解 令 =A ⎪⎪⎪⎭⎫⎝⎛---231110412,则⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎭⎫ ⎝⎛---==x x x 321231110412X Y A⎪⎪⎪⎭⎫ ⎝⎛--=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫⎝⎛---==15940725231110412)(X Y E E A⎪⎪⎪⎭⎫⎝⎛----=⎪⎪⎪⎭⎫⎝⎛---⎪⎪⎪⎭⎫ ⎝⎛--⎪⎪⎪⎭⎫ ⎝⎛---==2199125691401262561264772143111022532391214231110412)(('A A X V V Y)例5.1.2设n 个p 维随机向量n X X X ,,,21 相互独立,μX =)(i E ,Σ=)(X i V ,则∑==ni i n11X X 的数学期望为μX =)(E ,协方差阵为ΣnV 1)(=X3、相关矩阵设X 和Y 是两个随机变量,他们的相关系数为),(Y X ρρ=设)',,,(21p X X X =X 和)',,,(21q Y Y Y =Y 分别为p 维和q 维随机向量,它们之间的相关矩阵定义为),(Y X ρ = )),((Y X j i q p ρ⨯ (5.1.14)若0),(=Y X ρ,则表示X 和Y 不相关.特别 当X =Y 时, ),(X X ρ称为随机向量X 的相关矩阵,记作)(ρj i p p ⨯=R 1,),(==ρρρi i j i j i X X ,X 的相关矩)(ρj i p p ⨯=R 与协方差阵()ij σ∑=有如下 关系V V 11--∑=R (5.1.15) 其中 ),,,(12211σσσpp diag V =,ij ρ与ij σ有如下关系ij ρ=(5.1.16)5.2总体、样本与常用统计量总体:研究对象的全体,是一个服从p 维分布的随机向量)',,,(21p X X X =X 。