多元统计分析期末复习
- 格式:docx
- 大小:86.82 KB
- 文档页数:14
第一章:多元统计分析研究的内容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:二、多维随机变量的数字特征1、随机向量的数字特征随机向量X 均值向量:随机向量X 与Y 的协方差矩阵:当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。
随机向量X 与Y 的相关系数矩阵:2、均值向量协方差矩阵的性质(1).设X ,Y 为随机向量,A ,B 为常数矩阵E (AX )=AE (X );E (AXB )=AE (X )B;D(AX)=AD(X)A ’;Cov(AX,BY)=ACov(X,Y)B ’;(2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。
例2.见黑板三、多元正态分布的参数估计2、多元正态分布的性质(1).若 ,则E(X)= ,D(X)= . )',...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=qp ij r Y X ⨯=)(),(ρ),(~∑μP N X μ∑p X X X ,,,21特别地,当 为对角阵时, 相互独立。
(2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量,AX+d ~ . 即正态分布的线性函数仍是正态分布.(3).多元正态分布的边缘分布是正态分布,反之不成立.(4).多元正态分布的不相关与独立等价.例3.见黑板.三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面.(2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R(3) ,V分别是 和 的最大似然估计;(4)估计的性质是 的无偏估计; ,V分别是 和 的有效和一致估计; ;S~ , 与S相互独立;第五章 聚类分析:一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪ ⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
(),123设X=x x x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫ ⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
多元统计分析期末试题及答案————————————————————————————————作者:————————————————————————————————日期:22121212121~(,),(,),(,),,1X N X x x x x x x ρμμμμσρ⎛⎫∑==∑=⎪⎝⎭+-1、设其中则Cov(,)=____.10312~(,),1,,10,()()_________i i i i X N i W X X μμμ='∑=--∑L 、设则=服从。
()1234433,492,3216___________________X x x x R -⎛⎫ ⎪'==-- ⎪⎪-⎝⎭=∑、设随机向量且协方差矩阵则它的相关矩阵4、__________, __________,________________。
215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。
12332313116421(,,)~(,),(1,0,2),441,2142X x x x N x x x x x μμ-⎛⎫⎪'=∑=-∑=-- ⎪ ⎪-⎝⎭-⎛⎫+ ⎪⎝⎭、设其中试判断与是否独立?(),123设X=xx x 的相关系数矩阵通过因子分析分解为211X h =的共性方差111X σ=的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.1032013R ⎛⎫- ⎪⎛⎫⎛⎫⎪-⎛⎫ ⎪ ⎪⎪=-=-+ ⎪ ⎪ ⎪ ⎪⎝⎭ ⎪ ⎪ ⎪⎝⎭⎝⎭ ⎪ ⎪⎝⎭11262(90,58,16),82.0 4.310714.62108.946460.2,(5)( 115.6924)14.6210 3.17237.14.5X S μ--'=-⎛⎫ ⎪==-- ⎪ ⎪⎝⎭0、对某地区农村的名周岁男婴的身高、胸围、上半臂围进行测量,得相关数据如下,根据以往资料,该地区城市2周岁男婴的这三个指标的均值现欲在多元正态性的假定下检验该地区农村男婴是否与城市男婴有相同的均值。
第一章、多元正态分布的参数估计二、判断题1.多元分布函数是单调不减函数,而且是右连续的。
(√ )()x F 2.设是维随机向量,则服从多元正态分布的充要条件是:它的任何组合X p X 都是一元正态分布。
(X )()p R X ∈'αα3.是一个P 维的均值向量,当A 、B 为常数矩阵时,具有如下性质:μ(1)E (AX )=AE (X ) (2)E (AXB )=AE (X )B (√ )4.若P 个随机变量X1,…XP 的联合分布等于各自边缘分布的乘积,则称X1,…XP 是相互独立的。
(√ )5.一般情况下,对任何随机向量,协差阵是对称阵,也()'=p X X X ,,1 ∑是正定阵。
(X )6.多元正态向量的任意线性变换仍然服从多元正态分布。
()'=p X X X ,,1 (√)7.多元正态分布的任何边缘分布为正态分布,反之一样。
( X )8.多元样本中,不同样品之间的观测值一定是相互独立的。
(√)9.多元正态总体参数均值的估计量具有无偏性、有效性和一致性。
(√)μX 10.是的无偏估计。
( X )S n 1∑11.Wishart 分布是分布在维正态情况下的推广。
(√)2χp 12.若,,且相互独立,则样本离差阵()()∑,~μαp N X n ,,1 =α。
(√)()()()()()∑-'--=∑=,1~1n W X X X X S n p ααα13.若,为奇异矩阵,则。
( X )()∑,~n W X p C ()c c n W C CX p '∑',~第二章 多元正态分布均值向量和协差阵的检验二、判断题1.设,,,则称统计量的分布为()∑,~μp N X ()∑,~n W S p p n ≥X S X n T 12-'=非中心分布,记为。
( X )2HotellingT ()μ,,~22n p T T 2.在协差阵未知的情况下对均值向量进行检验,需要用样本协差阵去代∑S n1替。
一、填空题(20分)1、若),2,1(),,(~)(n N X p =∑αμα 且相互独立,则样本均值向量X2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。
3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。
4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。
5、设样品),2,1(,),,('21n i X X X X ip i i i ==,总体),(~∑μp N X ,对样品进行分类常用的距离有:明氏距离,马氏距离2()ijd M =)()(1j i j i x x x x -∑'--,兰氏距离()ij d L=6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。
7、一元回归的数学模型是:εββ++=x y 10,多元回归的数学模型是:εββββ++++=p p x x x y 22110。
8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。
9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。
二、计算题(60分)1、设三维随机向量),(~3∑μN X ,其中⎪⎪⎪⎭⎫⎝⎛=∑200031014,问1X 与2X 是否独立?),(21'X X 和3X 是否独立?为什么?解: 因为1),cov(21=X X ,所以1X 与2X 不独立。
把协差矩阵写成分块矩阵⎪⎪⎭⎫⎝⎛∑∑∑∑=∑22211211,),(21'X X 的协差矩阵为11∑因为12321),),cov((∑='X X X ,而012=∑,所以),(21'X X 和3X 是不相关的,而正态分布不相关与相互独立是等价的,所以),(21'X X 和3X 是独立的。
2、设抽了五个样品,每个样品只测了一个指标,它们分别是1 ,2 ,4.5 ,6 ,8。
多元统计分析期末考试考点The following text is amended on 12 November 2020.二名词解释1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
使类内对象的同质性最大化和类间对象的异质性最大化3、随机变量:是指的值无法预先确定仅以一定的可能性(概率)取值的量。
它是由于随机而获得的非确定值,是概率中的一个基本概念。
即每个分量都是随机变量的向量为随机向量。
类似地,所有元素都是随机变量的矩阵称为随机矩阵。
4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量三、计算题解:答:答:题型三解答题1、简述多元统计分析中协差阵检验的步骤答:第一,提出待检验的假设和H1;第二,给出检验的统计量及其服从的分布;第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。
2、简述一下聚类分析的思想答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。
把相似的样品或指标归为一类,把不相似的归为其他类。
直到把所有的样品(或指标)聚合完毕.3、多元统计分析的内容和方法答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1)主成分分析(2)因子分析(3)对应分析等2、分类与判别,对所考察的变量按相似程度进行分类。
多元统计分析期末复习第一章:多元统计分析研究的内容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系)(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:二、多维随机变量的数字特征1、随机向量的数字特征随机向量X均值向量:随机向量X与Y的协方差矩阵:当X=Y时Cov(X,Y) =D(X);当Cov( X,Y)=0,称X,Y不相关。
随机向量X与Y的相关系数矩阵:2、均值向量协方差矩阵的性质(1) .设X,Y为随机向量,A,B为常数矩阵E ( AX)二AE( X);E ( AXB =AE (X)B;D(AX)=AD(X)A ';Cov(AX,B Y)二ACov(X, Y)EX ' ( EX^EX?, , EX p) ( 2,…,P )'cov( X ,Y ) E ( X EX )( YEY )' (2) .若X,Y独立,则Cov(X,Y) =0,反之不成立.(X,Y) (r j)pq(3) .X的协方差阵D(X)是对称非负定矩阵。
例2.见黑板三、多元正态分布的参数估计2、多元正态分布的性质特别地,当为对角阵时,相互独立。
(2) .若,、为sxp阶常数矩阵,d为s阶向量,AX+ d?即正态分布的线性函数仍是正态分布.(3) .多元正态分布的边缘分布是正态分布,反之不成立.(4) .多元正态分布的不相关与独立■等价.,X pX ~ N p(,) '例3 .见黑板.N s( A d , A A )三、多元正态分布的参数估计⑴“为来自p兀总体X的(简单)样本”的理解---独立同截面.X(1),,X(n)(2)多兀分布样本的数字特征- —常见多兀统计量X n(X i,X2,,X p)' 1(X (i)X )( X (i) X )' —样本均值向量i 1X样本离差阵S = 样本协方差阵V = S ;样本相X X X ~ N p(,-)关阵R W p(n1,)X n(3) , V分别是和的最大似然估计;⑷估计的性质是的无偏估计;,V分别是和的有效和一致估计;S?,与S相互独立;第五章聚类分析:一、什么是聚类分析:聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
多元统计期末考试题及答案一、选择题(每题2分,共20分)1. 在多元线性回归中,如果一个变量的系数为0,这意味着什么?A. 该变量对因变量没有影响B. 该变量与因变量完全相关C. 该变量与因变量无关D. 该变量是多余的2. 主成分分析(PCA)的主要目的是什么?A. 减少数据的维度B. 增加数据的维度C. 找到数据的均值D. 找到数据的中位数3. 以下哪个不是聚类分析的优点?A. 可以揭示数据的内在结构B. 可以用于分类C. 可以减少数据的维度D. 可以找到数据的异常值4. 在因子分析中,如果一个因子的方差贡献率很低,这通常意味着什么?A. 该因子对数据的解释能力很强B. 该因子对数据的解释能力很弱C. 该因子是多余的D. 该因子是重要的5. 以下哪个是多元统计分析中常用的距离度量?A. 欧氏距离B. 曼哈顿距离C. 切比雪夫距离D. 所有以上选项二、简答题(每题10分,共30分)6. 解释什么是多元线性回归,并简述其在实际问题中的应用。
7. 描述主成分分析(PCA)的基本原理,并举例说明其在数据分析中的作用。
8. 简述聚类分析的过程,并讨论其在商业数据分析中的应用。
三、计算题(每题25分,共50分)9. 假设有以下数据集,包含两个变量X和Y,以及它们的观测值:| 观测 | X | Y |||||| 1 | 2 | 3 || 2 | 3 | 4 || 3 | 4 | 5 || 4 | 5 | 6 |请计算X和Y的协方差,并解释其意义。
10. 给定以下数据集,进行聚类分析,并解释聚类结果:| 观测 | 变量1 | 变量2 |||-|-|| 1 | 1.5 | 2.5 || 2 | 2.0 | 3.0 || 3 | 3.5 | 4.5 || 4 | 4.0 | 5.0 |多元统计期末考试题答案一、选择题1. A2. A3. C4. B5. D二、简答题6. 多元线性回归是一种统计方法,用于分析两个或两个以上的自变量(解释变量)与一个因变量之间的关系。
多元数据分析练习题第二章多元正态的参数估计一. 判断题(1)若∑∑=),,(~),,,(21μp T p N X X X X 是对角矩阵,则p X X X ,,,21 相互独立。
( )(2)多元正态分布的任何边缘分布为正态分布,反之也成立。
( )(3)对任意的随机向量T p X X X X ),,,(21 =来说,其协方差矩阵∑是对称矩阵,并且总是半正定的。
( )(4)对标准化的随机向量来说,它的协方差矩阵与原来变量的相关系数阵相同。
( ) (5)若),,(~),,,(21∑=μp T p N X X X X S X ,分别为样本均值和样本协差阵,则S nX 1,分别为∑,μ的无偏估计。
( ) 二.计算题1. 假设随机向量TX X X X ),,(321=的协方差矩阵为⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡---=∑9232443416,试求相关系数矩阵R 。
⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎣⎡----=131413112141211R 2. 假设随机向量Tx x x ),(21=的协方差矩阵为⎥⎦⎤⎢⎣⎡=∑20119,令212211,2x x y x x y -=+=,试求T y y y ),(21=的协方差矩阵。
⎥⎦⎤⎢⎣⎡--=∑2733603.假设⎥⎦⎤⎢⎣⎡---=∑5.005.05.015.0),,(~3A N X μ,其中T)1,2,1(-=μ,⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--=∑411121112,试求Ax y =的分布。
)2224,02(2⎪⎪⎭⎫ ⎝⎛--⎪⎪⎭⎫ ⎝⎛-N 三.证明题1.设)()2()1(,,,n X X X 是来自),(∑μp N 的随机样本,X 为样本均值。
试证明:μ=)(X E ,∑=nX D 1)(。
2.设)()2()1(,,,n X X X 是来自),(∑μp N 的随机样本,S n 11-为样本协差阵。
试证明:∑=-)11(S n E 。
3.证明:若p 维正态随机向量),,,(21'=p X X X X 的协差阵为对角矩阵,则X 的各分量是相互独立的随机变量。
多元统计分析期末复习 Document number:WTWYT-WYWY-BTGTT-YTTYU-2018GT第一章:多元统计分析研究的内容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:二、多维随机变量的数字特征1、随机向量的数字特征随机向量X 均值向量:随机向量X 与Y 的协方差矩阵:当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。
随机向量X 与Y 的相关系数矩阵:2、均值向量协方差矩阵的性质(1).设X ,Y 为随机向量,A ,B 为常数矩阵E (AX )=AE (X ); E (AXB )=AE (X )B;D(AX)=AD(X)A ’;Cov(AX,BY)=ACov(X,Y)B ’;(2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. )',...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=qp ij r Y X ⨯=)(),(ρ(3).X 的协方差阵D(X)是对称非负定矩阵。
例2.见黑板三、多元正态分布的参数估计2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。
(2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量,AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计(1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面.(2)多元分布样本的数字特征---常见多元统计量样本均值向量 =样本离差阵S= 样本协方差阵V= S ;样本相关阵R(3) ,V分别是 和 的最大似然估计;(4)估计的性质是 的无偏估计; ,V分别是 和 的有效和一致估计; ;S~ , 与S相互独立;第五章 聚类分析:一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
用于对事物类别不清楚,甚至事物总共可能有几类都不能确),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ∑μX)1,(~∑n N X P μ),1(∑-n W p X X定的情况下进行事物分类的场合。
聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)......Q-型聚类分析(样品)R-型聚类分析(变量)变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。
二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点)1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。
不改变样本间的相互位置,也不改变变量间的相关性。
2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。
经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。
3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。
经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。
4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。
它将具有指数特征的数据结构变换为线性数据结构。
三、样品间相近性的度量研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类;相似系数,性质越接近的变量或样品,它们的相似系数越接近于1或一l ,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。
样品之间的聚类即Q 型聚类分析,则常用距离(统计量)来测度样品之间的亲疏程度;而变量之间的聚类即R 型聚类分析,常用相似系数(统计量)来测度变量之间的亲疏程度。
1、距离的算法:明氏距离 兰氏距离 斜交空间距离 马氏距离 2、相似系数的算法:夹角余弦 相似系数3、样品分类和指标分类:对样品分类常用距离,对指标分类常用相似系数4、明氏(Minkowski )距离的两个缺点:①明氏距离的值与各指标的量纲有关,而各指标计量单位的选择有一定的人为性和随意性,各变量计量单位的不同不仅使此距离的实际意义难以说清,而且,任何一个变量计量单位的改变都会使此距离的数值改变从而使该距离的数值依赖于各变量计量单位的选择。
②明氏距离的定义没有考虑各个变量之间的相关性和重要性。
实际上,明考夫斯基距离是把各个变量都同等看待,将两个样品在各个变量上的离差简单地进行了综合.5、相似系数:通常所说相关系数,一般指变量间的相关系数,作为刻划样品间的相似关系也可类似给出定义,即第i 个样品与第j 个样品之间的相似系数定义为: 实际上,就是两个向量中心化后的夹角余弦6、距离和相似系数选择的原则:(1)所选择的亲疏测度指标在实际应用中应有明确的意义。
∑∑∑===----=p k p k j jk i ik pk j jk i ik ij x x x x x x x x 11221])(][)([))((γ(2)亲疏测度指标的选择要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。
(3)适当地考虑计算工作量的大小。
练习:1.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的___进行科学的分类.2.Q型聚类法是按___进行聚类,R型聚类法是按 ___进行聚类。
3.Q型聚类统计量是___,而R型聚类统计量通常采用___。
4.在聚类分析中需要对原始数据进行无量纲化处理,以消除不同量纲或数量级的影响,达到数据间可同度量的目的。
常用的无量纲化方法有以下几种:___、____、___。
5.Q型聚类方法有___、___、___、___等。
第六章判别分析:1.四种判别方法:距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。
2.贝叶斯Bayes判别法:距离判别方法简单实用,但没有考虑到每个总体出现的机会大小,即先验概率,没有考虑到错判的损失;Fisher判别法随着总体个数的增加,建立的判别式也增加,计算量加大,如果考虑各总体的重要性,问题会突出而简单许多。
既要考虑到各个总体出现的先验概率,又要考虑到错判造成的损失,Bayes判别就具有这些优点,其判别效果更加理想,应用也更广泛。
基本思想:总是假定对所研究的对象已有一定的认识,常用先验分布来认识它,然后,基于抽取的样本对先验概率作修正,得到后验概率,最后采用相应的判别准则(如误判率最小准则,后验概率最大准则等)进行判别。
Bayes判别法,对各类(总体)的分布有特定的要求,即已知先验概率和分布密度函数。
4.各判别法之间的联系:在正态等协方差阵及先验概率相等的条件下贝叶斯判别与距离判别等价;不加权的Fisher判别法等价于距离判别法练习:1.判别分析是要解决在研究对象已________的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。
2.用判别分析方法处理问题时,通常以_______作为衡量新样本点与各已知组别接近程度的指标。
3.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有_______、_________。
4.在p维空间Rp中,点与点之间的接近和疏远尺度用_______来衡量,最简单的就是________或__________。
5.类内样本点接近,类间样本点疏远的性质,可以通过_________与______的大小差异表现出来,而两者的比值能把不同的类区别开来。
这个比值越大,说明类与类间的差异越___,分类效果越___。
6.Fisher判别法是找一个由p个变量组成的______,使得各自组内点的____尽可能接近,而不同组间点的尽可能疏远。
简答题:1.判别分析的分类:距离判别法、费歇判别法、贝叶斯判别法、逐步判别法。
2.判别的基本思想:是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。
根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。
3.简述两个总体的判别及判别准则:基本思路:(1)统计模型:设G1,G2是两个不同的P 维已知总体,x=(x1,…,xp )T 是一个待判样品;(2)距离判别准则:(3)判别函数:4.简述Fisher 判别法及具体判别步骤:Fisher 判别的思想是投影,将k 组p 维数投影到某一个方向,使得他们的投影组与组之间尽可能的分开。
5.简述逐步判别基本原理: 逐步引入变量,每次把一个判别能力最强的变量引入,每引入一个新的变量,对老变量又逐个进行检验,如其判别能力因新变量的引入而变得不显着,应把它从判别式中剔除,最终建立的判别函数中仅保留判别能力显着的变量。
6.简述BAYES 判别分析与其它判别方法的优劣:(1)与距离判别的优劣比较:距离判别优于两个总体情况下的判别,对两个总体几乎没有任何要求,简捷,实用,易懂;距离判别法在多个总体时,没有考虑各总体出现的概率,对各个变量的重要性一视同仁,难免产生误判。
Bayes 判别法对的理论与方法严密而完善,对研究对象的信息利用充分,误判率大大降低,但计算较复杂。
(2)与Bayes判别法的比较:Bayes判别与Fisher判别的比较:对总体的分布要求不同;多个总体下,Fisher判别的计算量大,但均值向量共线性程度较好时,可以考虑用Fisher判别;各总体出现的重要性不同时应使用是Bayes判别。
第七章、主成分分析1.主成分分析就是设法将原来变量重新组合成一组新的相互无关的综合变量来代替原来的变量,并尽可能多地反映原来变量的信息。
数学表现为:Var (Yj )最大;cov(Yi ,Yj)=0;⎩⎨⎧>∈<∈)2,()1,(2)2,()1,(12222G x D G x D G x G x D G x D G x 若若2.主成分就是以协方差阵的特征向量为系数的线性组合,它们互不相关,其方差的特征根。