五章 多元分析基础1
- 格式:doc
- 大小:629.00 KB
- 文档页数:13
胡平交大管院2008秋下1第一部分回顾与演进第一讲. 多元统计分析预备知识胡平交大管院2008秋下2主要内容第一讲. 多元统计分析预备知识•多元统计分析概述•多元数据的整理与描述•矩阵代数与随机向量•样本几何与随机抽样•离散数据的概率分布•多元正态分布•多元均值的推断和均值向量的比较一. 多元统计分析的概述概念:从包含许多变量的、同时测量值的数据中,集中获取信息的各种统计方法,称为多元分析。
多元方法的基本依据:多元正态分布的基本概率模型多元方法的应用1、数据简化或结构简化:在不损失有价值信息的情况下尽可能简单的将被研究的现象描述出来。
2、分类与分组:根据所测量的特征将一些类似的对象或变量分组。
3、变量间依赖性的研究4、预测:根据某些变量的观测值预测另一个或另一些变量的值。
5、假设的构造与检验一. 多元统计分析的概述胡平交大管院2008秋下5二.多元数据的整理与描述多元数据的基本结构初步概念:数据阵列:对研究对象(多元总体)的p 个特征(变量)进行记录,从而出现多元数据表示第k个变量在第j项(个体或实验单元)上或第j次试验中的观测值。
因此,p个变量的n 个观测值可以表示成:⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡⋯⋯np n n p p x x x x x x x x x 212222111211k j x 胡平交大管院2008秋下6描述统计量(1)样本均值设是第一个变量的n 个观测值,则这些测量值的算术平均数是如果这n 个测量值代表被观测的全部测量值集合的一个子集,则也称为第一个变量的样本均值。
12111,,n xx x ⋯⋯∑==nj j x n x 11111x二. 多元数据的整理与描述样本方差:对第k 个变量的n 个观测值定义为:为了表明方差在阵列中的位置,引入双下标记号:来表示由第个变量的测量值的方差,并有式子样本标准差:样本方差的平方根称为样本标准差。
∑=-=nj k jk k x x n s 122)(1iis i∑=-==n j k jk kk k x x n s s 122)(1pk ,,2,1⋯⋯=描述统计量(2)ii s 二. 多元数据的整理与描述样本协方差:度量第i 个变量和第k 个变量的n 对测量值线性结合由样本协方差给出:∑=--=nj k jk i ji ik x x x x n s 1))((1pk p i ,,2,1,,,2,1⋯⋯=⋯⋯=描述统计量(3)二.多元数据的整理与描述胡平交大管院2008秋下9样本相关系数:其中i=1,2,…,p , k=1,2,…,p注意:∑∑∑===----==nj k jknj i jinj k jk i ji kkiiik ik x xx xx x x x s s s r 12121)()())((kiik r r =描述统计量(4)二. 多元数据的整理与描述胡平交大管院2008秋下10样本相关系数性质:1、r 的值必定在-1与1之间。
第五章聚类分析5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n 个样本,对每个样本测得p 项指标〔变量的数据,已知每个样本属于k 个类别〔或总体中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品〔或变量进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品〔或变量聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2 试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品〔或变量先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品〔或变量总能聚到合适的类中。
5.3 对样品和变量进行聚类分析时,所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n 个样本看作p 维空间的n 个点。
点之间的距离即可代表样品间的相似度。
常用的距离为 〔一闵可夫斯基距离:1/1()()pq qij ik jk k d q X X ==-∑q 取不同值,分为 〔1绝对距离〔1q = 〔2欧氏距离〔2q =〔3切比雪夫距离〔q =∞ 〔二马氏距离 〔三兰氏距离对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。
将变量看作p 维空间的向量,一般用 〔一夹角余弦 〔二相关系数5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则? 答:设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。
〔1. 最短距离法 〔2最长距离法 〔3中间距离法 其中 〔4重心法 〔5类平均法 〔6可变类平均法 其中β是可变的且β <1〔7可变法 22221()2kr kp kq pq D D D D ββ-=++其中β是可变的且β <1 〔8离差平方和法2222(1)()p q kr kp kq pq r rn n D D D D n n ββ=-++通常选择距离公式应注意遵循以下的基本原则:〔1要考虑所选择的距离公式在实际应用中有明确的意义。
第五章多元分布基础前面所介绍的统计分析分法(除方差分析、回归分析),大多是适用于一个变量的总体,一般称为一元统计分析方法。
但在许多实际问题如在工农业生产(提高产品质量、降低成本、提高农作物产量及改进品种等),国民经济和科学研究领域(经济管理、金融、气象、地质、生物、医学、航天技术等)中,常常要处理多个变量的观测数据,即要研究多维随机变量的分布、数字特征及变量间的关系。
如果仍用一元统计方法分别对每一个变量进行分析,这样往往忽视了各方面之间存在的相关性,一般来说会丢失很多信息,分析的结果不能客观全面地反映情况.如果说一元统计分析是研究一个随机变量统计规律性的数学方法,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的数学方法。
多元统计分析方法是以概率论、线性代数及一元统计方法为基础的数理统计学的一个分支。
随着计算机的发展,特别是统计软件的应用,多元统计分析方法才被广泛的应用到解决实际问题中,本身也得到了迅猛的发展。
5.1多元分布一、多元分布的概念 1. 分布函数定义5.1.1设)',,,(21p X X X =X 是一随机向量,它的(多元)分布函数是)(x F =),,,(21p x x x F =),,(11p p x x P ≤≤X X (5.1.1)式中,),,,('21p x x x x =p R ∈,并记成X ~),,,(21p x x x F多元分布函数的性质:Ⅰ),,,(21p x x x F 是每个变量x i (i =1,…, p )的非降右连续函数; Ⅱ1),,,(021≤≤p x x x F ;Ⅲ=-∞),,,(2p x x F ==-∞ ),,,(1p x x F ),,,(21-∞ x x F =0; Ⅳ1),,,(=∞∞∞ F 。
本章主要对连续型的多元分布进行讨论,离散型的的多元分布常用的有如:多项式分布、多元超几何分布。
2.两个常用的离散性多元分布(1)多项分布 (2)多元超几何分布3.多元分布密度函数定义5.1.2设X ~),,,(21p x x x F ,若存在一个非负的函数)(∙f ,使得p x x p p dt dt t t t f x x x F p121211),,,(),,,(⎰⎰∞-∞-=(5.1.2)对一切∈R P 成立,则称X (或)(x F )有分布密度)(∙f ,并称X 为连续型随机向量。
一个p 个变量的函数)(∙f 能作为R P中某个随机向量的分布密度,当且仅当4.边际分布二、多元变量的独立性定义5.1.3两个随机向量X 和Y 称为是相互独立的,若对一切y x ,成立。
若F ),(y x 为(X ,Y )的联合分布函数;)(x F X 和)(y F y 分别为X 和Y 的分布函数,则X 与Y 独立当且仅当F ),(y x = )(x F X )(y F y (5.1.3)若(X ,Y )有分布密度函数),(y x f ,用)(x f X 和)(y f Y 分别表示X 和Y 的分布密度,则X 和Y 独立当且仅当),(y x f =)(x f X )(y f Y (5.1.4)注意在上述定义中,X 和Y 的维数一般是不同的。
类似地,称k 个随机向量k X X X ,,,21 相互独立,若它们的联合分布等于各自分布的乘积。
由k X X X ,,,21 相互独立可以推知任何i X 与j X (i ≠j )独立,但是,若已知任何i X 与j X (i ≠j )独立,并不能推出k X X X ,,,21 相互独立。
三、随机向量的数字特征若矩阵Χ=)(X ij 的每个元素都是随机变量,则称Χ为随机矩阵,随机向量)',,,(21p X X X =X 可以看作只有一列的随机矩阵。
1. 数学期望(均值)q p ⨯阶随机矩阵Χ=)(X ij 的数学期望(均值)为=∈∀≥pR1)()( 0)( )(dx x f ii R x x f i p⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡==μμμμμμμμμpq p p qq pq p p q q ij E E E E E E E E E E E212222111211212222111211)()()()()()()()()())(()(X X X X X X X X X X X =μ(5.1.5) μ是一个 q p ⨯阶常数矩阵, 称为均值矩阵.当q=1时,便可以得到随机向量)',,,(21p X X X =X 的数学期望(均值).μ是一个p 维的向量,称为均值向量。
当A 、B 为常数矩阵时,由定义可立即推出如下性质:(1) )()(X X E E A A = (5.1.6) (2) B A B A )()(X X E E = (5.1.7) 证明(1)设A 为p m ⨯阶常数矩阵)(a ij)()(21212222111211112111121121212222111211X X E a a a a a a a a a a a a a a a E a a a a a a a a a E E p pq p p p p p j j mj p j j j p j j j p j j mj p j j j p j j j p pq p p p p ∙=⎪⎪⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛⎪⎪⎪⎪⎪⎭⎫⎝⎛=∑∑∑∑∑∑======A A μμμμμμX X X X X X (2)设B 为 n ⨯1阶常数矩阵)(b ij 只需证明B B )()(X X E E =即可μX =⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=P P E E E E μμμ 2121)( )()()(X X X()()BB ∙=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎪⎪⎪⎪⎪⎭⎫⎝⎛=⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=)()(212121222211121112122221112112121X X E b b b b b b b b b b b b b b b b b b b b b E b b b E E n p p n pp n n p n pp n n n pμμμμμμμμμμμμX X X X X X X X X X X X2. 协方差阵 设)',,,(21p X X X =X称它为p 维随机向量X 的自协方差阵,简称为X 的协方差阵。
称|COV (X ,X )|为X 的广义方差,它是协差阵的行列式之值。
随机向量X 和Y 的协差阵设)',,,(21p X X X =X 和)',,,(21q Y Y Y =Y 分别为p 维和q 维随机向量,它们之间的协方差阵定义为一个q p ⨯ 矩阵,其元素是),(Y X j i COV 即COV (X ,Y )=)),((Y X j i q p COV ⨯ i =1,…, p ;j =1,…,q (5.1.9)若COV (X ,Y )=0,称X 和Y 是不相关的。
协差阵的性质(1)随机向量X 的自协方差阵Σ是非负定的)8.1.5()())((),(/X X X X X X X V E E E COV =--==Σ)( )D( ),( ),( ),( )D( ),( ),( ),( )(D p 2122121211ij COV COV COV COV COV COV pp P P P P σ⨯=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=X X X X X X X X X X X X X X X),( ),( ),( ),( ),( ),( ),( ),( ),(p 212221212111⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=q P P q q COV COV COV COV COV COV COV COV COV Y X Y X Y X Y X Y X Y X Y X Y X Y X(2)当A 为常数矩阵,b 为常数向量时,A )(A b A 'X X V )(=+V (5.1.10) (3)当A 、B 为常数矩阵时,COV (A X ,B Y )=A COV (X ,Y )B / (5.1.11) (4)设n k k k ,,,21 是n 个常数,n X X X ,,,21 是n 个独立的p 维随机向量,则)()(121X X V k ik V i ni i ni i ∑∑--=(5.1.12)例5.1.1设随机向量)',,,(21p X X X =X 的数学期望和协方差阵分别为 )'7,2,5(-=μ,∑=⎪⎪⎪⎭⎫⎝⎛--2532391214 令X X X Y 321142+-=,X X Y 322-=,X X X Y 321323-+= 求)',,(321Y Y Y =Y 的数学期望和协方差阵 解 令 =A ⎪⎪⎪⎭⎫⎝⎛---231110412,则⎪⎪⎪⎭⎫⎝⎛⎪⎪⎪⎭⎫ ⎝⎛---==x x x 321231110412X Y A⎪⎪⎪⎭⎫ ⎝⎛--=⎪⎪⎪⎭⎫ ⎝⎛-⎪⎪⎪⎭⎫⎝⎛---==15940725231110412)(X Y E E A⎪⎪⎪⎭⎫⎝⎛----=⎪⎪⎪⎭⎫⎝⎛---⎪⎪⎪⎭⎫ ⎝⎛--⎪⎪⎪⎭⎫ ⎝⎛---==2199125691401262561264772143111022532391214231110412)(('A A X V V Y)例5.1.2设n 个p 维随机向量n X X X ,,,21 相互独立,μX =)(i E ,Σ=)(X i V ,则∑==ni i n11X X 的数学期望为μX =)(E ,协方差阵为ΣnV 1)(=X3、相关矩阵设X 和Y 是两个随机变量,他们的相关系数为),(Y X ρρ=设)',,,(21p X X X =X 和)',,,(21q Y Y Y =Y 分别为p 维和q 维随机向量,它们之间的相关矩阵定义为),(Y X ρ = )),((Y X j i q p ρ⨯ (5.1.14)若0),(=Y X ρ,则表示X 和Y 不相关.特别 当X =Y 时, ),(X X ρ称为随机向量X 的相关矩阵,记作)(ρj i p p ⨯=R 1,),(==ρρρi i j i j i X X ,X 的相关矩)(ρj i p p ⨯=R 与协方差阵()ij σ∑=有如下 关系V V 11--∑=R (5.1.15) 其中 ),,,(12211σσσpp diag V =,ij ρ与ij σ有如下关系ij ρ=(5.1.16)5.2总体、样本与常用统计量总体:研究对象的全体,是一个服从p 维分布的随机向量)',,,(21p X X X =X 。