典型相关分析共26页
- 格式:ppt
- 大小:1.15 MB
- 文档页数:13
典型相关分析典型相关分析是一种统计学方法,用于研究两组变量之间的关系。
典型相关分析可以帮助我们了解这两组变量之间的相互关系以及它们是否能够彼此预测。
在本文中,我们将探讨典型相关分析的基本概念、应用场景、计算方法以及结果的解释和解读。
典型相关分析,又称为典型相关系数分析,是一种多变量统计技术,它可以在两组变量之间寻找最具相关性的线性组合,这个线性组合被称为典型变量。
典型相关分析的核心思想是将两组变量转化为一组最具相关性的综合变量,以便探索和解释它们之间的关系。
典型相关分析通常用于探索两组变量之间的关系,并确定是否存在一个或多个典型相关系数。
在许多实际应用中,这些变量可能代表相互关联的特征或维度,比如市场规模和销售额、学习时间和考试成绩等。
典型相关分析可以用于许多领域的研究。
例如,在市场研究中,我们可以使用典型相关分析来研究不同市场因素之间的关系,并确定市场的发展趋势。
在教育研究中,我们可以使用典型相关分析来研究学生的学习习惯和学术成绩之间的关系,以帮助教育者改进教学方法和学习环境。
接下来,我们将介绍典型相关分析的计算方法。
假设我们有两组变量X和Y,其中X包含p个变量,Y包含q个变量。
首先,我们计算X和Y的样本协方差矩阵SXX和SYY,以及它们之间的协方差矩阵SXY。
然后,我们对SXX和SYY进行特征值分解,得到它们的特征向量和特征值。
接下来,我们选择最大的r个特征值和对应的特征向量。
最后,我们计算典型相关系数以及典型变量。
结果的解释和解读是典型相关分析的最后一步。
典型相关系数的取值范围为-1到1,其中取值为1表示两组变量之间存在完全正相关的关系,取值为-1表示存在完全负相关的关系,取值为0表示两组变量之间不存在相关性。
此外,我们还可以通过检验统计量来判断典型相关系数是否显著。
总结起来,典型相关分析是一种统计学方法,用于研究两组变量之间的关系。
它可以帮助我们了解这两组变量之间的相互关系以及它们是否能够彼此预测。
摘要典型相关分析是多元统计分析的一个重要研究课题.它是研究两组变量之间相关的一种统计分析方法,能够有效地揭示两组变量之间的相互线性依赖关系.它借助主成分分析降维的思想,用少数几对综合变量来反映两组变量间的线性相关性质.目前它已经在众多领域的相关分析和预测分析中得到广泛应用. 本文首先描述了典型相关分析的统计思想,定义了总体典型相关变量及典型相关系数,并简要概述了它们的求解思路,然后深入对样本典型相关分析的几种算法做了比较全面的论述.根据典型相关分析的推理,归纳总结了它的一些重要性质并给出了证明,接着推导了典型相关系数的显著性检验.最后通过理论与实例分析两个层面论证了典型相关分析的应用于实际生活中的可行性与优越性.【关键词】典型相关分析,样本典型相关,性质,实际应用ABSTRACT The Canonical Correlation Analysis is an important studying topic of theMultivariate Statistical Analysis. It is the statistical analysis method which studies thecorrelation between two sets of variables. It can work to reveal the mutual linedependence relation availably between two sets of variables. With the help of thethought about the Principal Components we can use a few comprehensive variablesto reflect the linear relationship between two sets of variables. Nowadays It hasalready been used widely in the correlation analysis andforecasted analysis. This text describes the statistical thought of the Canonical Correlation Analysisfirstly and then defines the total canonical correlation variables and canonicalcorrelation coefficient and sum up their solution method briefly. After it I go deepinto discuss some algorithm of the sample canonical correlation analysis thoroughly.According to the reasoning of the Canonical Correlation Analysis sum up some of itsimportant properties and give the identification following it I infer the significancetesting about the canonical correlation coefficient. According to the analysis from thetheories and the application we can achieve the possibility and the superiority fromcanonical correlation analysis in the real life.【Key words】Canonical Correlation Analysis,Sample canonical correlation,Character,Practical applications 目录前言...............................................................1第1章典型相关分析的数学描述......................................2第2章典型变量与典型相关系数......................................3 2.1 总体典型相关................................................3 2.2 样本典型相关................................................4 2.2.1 第一对典型相关变量的解法...............................4 2.2.2 典型相关变量的一般解法.................................8 2.2.3 从相关矩阵出发计算典型相关.............................9第3章典型相关变量的性质.........................................11第4章典型相关系数的显著性检验...................................15第5章典型相关分析的计算步骤及应用实例...........................18 5.1 典型相关分析的计算步骤.....................................18 5.2 实例分析...................................................19结语..............................................................26致谢..............................................................27参考文献...........................................................28附录..............................................................29 西北第二民族学院学士学位论文前言典型相关分析Canonical Correlation Analysis CCA作为多元统计学的一个重要部分,是相关分析研究的一个主要内容.典型相关分析不仅其方法本身具有重要的理论意义,而且它还可以作为其他分析方法,如多重回归、判别分析和相应分析的工具,因此在多元分析方法中占有特殊的地位. 典型相关的概念是在两个变量相关的基础上发展起来的.我们知道,两个随机变量的相关关系可以用它们的简单相关系数来衡量;一个随机变量与一组随机变量之间的相关关系可以用复相关系数来衡量.但考虑一组随机变量与另一组随机变量的关系时,如果运用两个变量的相关关系,分别考虑第一组每个变量和第二组中每个变量的相关,或者运用复相关关系,考虑一组变量中的每个变量和另一组变量的相关,这样做比较繁琐,抓不住要领.因此,为了用比较少的变量来反映两组变量之间的相关关系,一种考虑的思路就是类似主成分分析,考虑两组变量的线性组合,从这两个线性组合中找出最相关的综合变量,通过少数几个综合变量来反映两组变量的相关性质,这样便引出了典型相关分析. 典型相关分析的基本思想是首先在每组变量中找出变量的线性组合,使其具有最大相关性,然后再在每组变量中找出第二对线性组合,使其分别与第一对线性组合不相关,而第二对本身具有最大的相关性,如此继续下去,直到两组变量之间的相关性被提取完毕为止.有了这样线性组合的最大相关,则讨论两组变量之间的相关,就转化为只研究这些线性组合的最大相关,从而减少研究变量的个数. 典型相关分析是由Hotelling 于1936 年提出的.就目前而言,它的理论己经比较完善,计算机的发展解决了典型相关分析在应用中计算方面的困难,成为普遍应用的进行两组变量之间相关性分析技术.如在生态环境方面,用典型相关理论对预报场与因子场进行分析,实现了短期气象预测;借助典型相关,分析了植被与环境的关系;在社会生活领域,应用典型相关分析了物价指标和影响物价因素的相关关系等等. 第1 页共33 页西北第二民族学院学士学位论文第1章典型相关分析的数学描述一般地,假设有一组变量X 1 X 2 X p 与另一组变量Y1 Y2 Yq ,我们要研究这两组变量之间的相关关系,如何给两组变量之间的相关性以数量的描述. 当p q 1 时,就是我们常见的研究两个变量X 与Y 之间的简单相关关系,其相关系数是最常见的度量,定义为:Cov X Y xy Var X Var Y 当p 1 q 1 (或q 1 p 1 )时,p 维随机向量X X 1 X 2 X p ,设X 11 12Y N p 1 ,,其中,11 是第一组变量的协方差阵,12 是21 22第一组与第二组变量的协方差阵,22 是第二组变量的协方差阵. 则称 1 2111 12R 为Y 与X 1 X 2 X p 的全相关系数,全相关系数用于度量一个随22机变量Y 与另一组随机变量X 1 X 2 X p 的相关系数. 当p q 1 时,利用主成分分析的思想,可以把多个变量与多个变量之间的相关化为两个新的综合变量之间的相关.也就是做两组变量的线性组合即U 1 X 1 2 X 2 p X p X V 1Y1 2Y2 q Yq Y其中,1 2 p 和1 2 q 为任意非零向量,于是我们把研究两组变量之间的问题化为研究两个变量U与V 之间的相关问题,希望寻求,使U ,V 之间最大可能的相关,我们称这种相关为典型相关,基于这种原则的分析方法就是典型相关分析. 第 2 页共33 页西北第二民族学院学士学位论文第2章典型变量与典型相关系数2.1 总体典型相关设有两组随机变量X X 1 X 2 X p Y Y1 Y2 Yq 分别为p维和q维随机向量,根据典型相关分析的思想,我们用X 和Y 的线性组合X 和Y 之间的相关性来研究两组随机变量X 和Y 之间的相关性.我们希望找到和,使得(‘ X Y)最大.由相关系数的定义Cov X Y X Y Var X Var Y 易得出对任意常数e f c d ,均有e X f c Y d X Y 这说明使得相关系数最大的X Y 并不唯一.因此,为避免不必要的结果重复,我们在求综合变量时常常限定Var X 1 ,Var Y 1 于是,我们就有了下面的定义:设有两组随机变量X X 1 X 2 X p ,XY Y1 Y2 Yq ,p q 维随机向量的均值向量为零,协方差阵0 (不Y妨设p q ).如果存在 1 11 p1 和 1 11 q1 ,使得在约束条件Var X 1 ,Var Y 1 下,1 X 1Y max X Y 则称1 X 1Y 是X Y 的典型相关变量,它们之间的相关系数称为典型相关系数;其他典型相关变量定义如下:定义了前k 1 对典型相关变量之后,第k 对典型相关变量定义为:如果存在k 1k pk 和k 1k qk ,使得⑴k X k Y 和前面的k 1 对典型相关变量都不相关;第 3 页共33 页西北第二民族学院学士学位论文⑵Var k X 1 ,Var k Y 1 ;⑶k X和k Y 的相关系数最大,则称k X和k Y 是X Y 的第k 对(组)典型相关变量,它们之间的相关系数称为第k 个典型相关系数(k 2p ).2.2 样本典型相关以上是根据总体情况已知的情形进行,而实际研究中,总体均值向量和协方差阵通常是未知的,因而无法求得总体的典型相关变量和典型相关系数,首先需要根据观测到的样本数据阵对进行估计.2.2.1 第一对典型相关变量的解法设总体Z X 1 X p Y1 Yq ,已知总体的n 次观测数据为:X t Z t (t 12 n ),Y t p q 1于是样本数据阵为x11 x12 x1 p y11 y12 y1q x x 22 x2 p y 21 y 22 y 2q 21 x n1 x n 2 x np y n1 yn2 y nq n p q 若假定Z N p q 则由参考文献【2】中定理 2.5.1 知协方差阵的最大似然估计为1 n n t 1 Z t Z Z t Z 1 n其中Z Z t ,样本协方差矩阵S 为:n t 1 S S12 S 11 S 21 S 22式中第 4 页共33 页西北第二民族学院学士学位论文1 n S11 n j 1 X j X X j X 1 n S12 X j X Y j Y n j 1 1 n S 21 Y j Y X j X n j 1 1 n S 22 n j 1 Y j Y Y j Y 1 n 1 n X Xj ,n j 1 Y Y j n j 1令U j X j ,V j Y j ,则样本的相关系数为n U j 1 j U V j V r U j V j n n U j 1 j U 2 V j 1 j V 2 1 n 1 n 1 n又因为:U U j n X j n X j X n j 1 j 1 j 1 1 n 1 n 1 n V n j 1 V j Y j Y j Y n j 1 n j 1 1 n 1 n SU jV j n j 1 U j U V j V X j X Y j Y S12 n j 1 1 n 1 n S U jU j n j 1 U j U U j U X j X X j X S11 n j 1 1 n 1 n S V jV j V j V V j V n Y j Y Y j Y S 22 n j 1 j 1所以S12 r U j V j S11 S 22 由于U j ,V j 乘以任意常数并不改变他们之间的相关系数,即不妨限定取标准化的U j 与V j ,即限定U j 及V j 的样本方差为1,故有:第 5 页共33 页西北第二民族学院学士学位论文SU jU j SV jV j 1 (2.2.1)则r U j V j S12 (2.2.2)于是我们要求的问题就是在(2.2.1)的约束条件下,求R p ,R q ,使得式(2.2.2)达到最大.这是条件极值的问题,由拉格朗日乘子法,此问题等价于求,,使S12 S11 1 S 22 1 (2.2.3)2 2达到最大.式中,,为拉格朗日乘数因子.对上式分别关于,求偏导并令其为0,得方程组:S12 S11 0 (2.2.4)S 21 S 22 0分别用,左乘方程(2.2.4)得S12 S11 S 21 S 22又S12 S 21所以S 21 S12 也就是说,正好等于线性组合U 与V 之间的相关系数,于是(2.2.4)式可写为:S12 S11 0 S11 S12 或0 (2.2.5)S 21 S 22 0 S 21 S 22而式(2.2.5)有非零解的充要条件是:S11 S12 0 (2.2.6).。
典型相关分析典型相关分析(Canonical correlation )又称规则相关分析,,所以简单相关和多元回归的解惑都是规则相关的特例。
典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关,而不是两个变量组个别变量之间的相关。
典型相关与主成分相关有类似,不过主成分考虑的是一组变量,而典型相关考虑的是两组变量间的关系,有学者将规则相关视为双管的主成分分析;因为它主要在寻找一组变量的成分使之与另一组的成分具有最大的线性关系。
典型相关模型的基本假设:两组变量间是线性关系,每对典型变量之间是线性关系,每个典型变量与本组变量之间也是线性关系;典型相关还要求各组内变量间不能有高度的复共线性。
典型相关两组变量地位相等,如有隐含的因果关系,可令一组为自变量,另一组为因变量。
典型相关会找出一组变量的线性组合**=i i j j X a x Y b y =∑∑与 ,称为典型变量;以使两个典型变量之间所能获得相关系数达到最大,这一相关系数称为典型相关系数。
i a 和j b 称为典型系数。
如果对变量进行标准化后再进行上述操作,得到的是标准化的典型系数。
典型变量的性质每个典型变量智慧与对应的另一组典型变量相关,而不与其他典型变量相关;原来所有变量的总方差通过典型变量而成为几个相互独立的维度。
一个典型相关系数只是两个典型变量之间的相关,不能代表两个变量组的相关;各对典型变量构成的多维典型相关,共同代表两组变量间的整体相关。
典型负荷系数和交叉负荷系数典型负荷系数也称结构相关系数,指的是一个典型变量与本组所有变量的简单相关系数,交叉负荷系数指的是一个典型变量与另一组变量组各个变量的简单相关系数。
典型系数隐含着偏相关的意思,而典型负荷系数代表的是典型变量与变量间的简单相关,两者有很大区别。
重叠指数如果一组变量的部分方差可以又另一个变量的方差来解释和预测,就可以说这部分方差与另一个变量的方差之间相重叠,或可由另一变量所解释。