主分量分析方法及
- 格式:ppt
- 大小:256.50 KB
- 文档页数:21
协方差矩阵——PCA的关键。
PCA的目的就是“降噪”和“去冗余”。
“降噪”的目的就是使保留下来的维度间的相关性尽可能小,而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。
那首先的首先,我们得需要知道各维度间的相关性以及个维度上的方差!那有什么数据结构能同时表现不同维度间的相关性以及各个维度上的方差呢?自然是非协方差矩阵莫属。
回忆下《浅谈协方差矩阵》的内容,协方差矩阵度量的是维度与维度之间的关系,而非样本与样本之间。
协方差矩阵的主对角线上的元素是各个维度上的方差(即能量),其他元素是两两维度间的协方差(即相关性)。
我们要的东西协方差矩阵都有了,先来看“降噪”,让保留下的不同维度间的相关性尽可能小,也就是说让协方差矩阵中非对角线元素都基本为零。
达到这个目的的方式自然不用说,线代中讲的很明确——矩阵对角化。
而对角化后得到的矩阵,其对角线上是协方差矩阵的特征值,它还有两个身份:首先,它还是各个维度上的新方差;其次,它是各个维度本身应该拥有的能量(能量的概念伴随特征值而来)。
这也就是我们为何在前面称“方差”为“能量”的原因。
也许第二点可能存在疑问,但我们应该注意到这个事实,通过对角化后,剩余维度间的相关性已经减到最弱,已经不会再受“噪声”的影响了,故此时拥有的能量应该比先前大了。
看完了“降噪”,我们的“去冗余”还没完呢。
对角化后的协方差矩阵,对角线上较小的新方差对应的就是那些该去掉的维度。
所以我们只取那些含有较大能量(特征值)的维度,其余的就舍掉即可。
PCA的本质其实就是对角化协方差矩阵.PCA的本质是对角化协方差矩阵,目的是让维度之间的相关性最小(降噪),保留下来的维度的能量最大(去冗余)。
PCA简介以及模型Web的发展产生了大量的数据,尤其是现在的互联网公司,集结了大量的用户信息。
,怎样从这些复杂混乱的数据中提取有用的信息才是重点。
我们举一个物理模型如图所示:当把一个弹簧球沿着X方向进行拉伸的时候,弹簧球会在X方向上进行来往复运动。
主成分分析法什么事主成分分析法:主成分分析(principal components analysis , PCA 又称:主分量分析,主成分回归分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。
它是一个线性变换。
这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。
主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。
这是通过保留低阶主成分,忽略高阶主成分做到的。
这样低阶成分往往能够保留住数据的最重要方面。
但是,这也不是一定的,要视具体应用而定。
主成分分析的基本思想:在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具同样,在科普效果评估的过程中也存在着这样的问题。
科普效果是很难具体量化的。
在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。
如上所述,主成分分析法正是解决这一问题的理想工具。
因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。
根据这一点,通过对原始变量相关矩阵内部结构的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线性拟合。
一、概述在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标(主成分)有以下几个特点:↓主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量。
↓主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息。
↓主成分之间应该互不相关通过主成分分析得出的新的综合指标(主成分)之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。
↓主成分具有命名解释性总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法。
二、基本原理主成分分析是数学上对数据降维的一种方法。
其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP (比如p 个指标),重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标。
那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关(信息不重叠)。
主成分分析方法在经济问题的研究中,我们常常会遇到影响此问题的很多变量,这些变量多且又有一定的相关性,因此我们希望从中综合出一些主要的指标,这些指标所包含的信息量又很多。
这些特点,使我们在研究复杂的问题时,容易抓住主要矛盾。
那么怎样找综合指标?主成分分析是将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标来代替原来指标的统计方法,也是数学上处理降维的一种方法. 一. 主成分分析法简介主成分分析是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法,又称主分量分析。
在实际问题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。
但是,在用统计分析方法研究这个多变量的课题时,变量个数太多就会增加课题的复杂性。
人们自然希望变量个数较少而得到的信息较多。
在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。
主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映问题的信息方面尽可能保持原有的信息。
信息的大小通常用离差平方和或方差来衡量。
主成分分析的基础思想是将数据原来的p 个指标作线性组合,作为新的综合指标(P F F F ,,,21 )。
其中1F 是“信息最多”的指标,即原指标所有线性组合中使)var(1F 最大的组合对应的指标,称为第一主成分;2F 为除1F 外信息最多的指标,即0),cov(21 F F 且)var(2F 最大,称为第二主成分;依次类推。
易知P F F F ,,,21 互不相关且方差递减。
实际处理中一般只选取前几个最大的主成分(总贡献率达到85%),达到了降维的目的。
主成分的几何意义:设有n 个样品,每个样品有两个观测变量,,21X X 二维平面的散点图。
n 个样本点,无论沿着1X 轴方向还是2X 轴方向,都有较大的离散性,其离散程度可以用1X 或2X 的方差表示。
主成分分析的基本思想主成分分析的主要作用及应用范围 主成分分析法的计算步骤 应用举例主成分分析(Principal Component Analysis,PCA )也称作主分量分析或者矩阵数据分析,是统计分析常用到的一种重要方法,在系统评价、故障诊断、质量管理和发展对策等许多方面都有应用。
它利用数理统计方法找出系统中的主要因素和各因素之间相互关系,由于系统的相互关联性,当出现异常情况时或对系统进行分析时,抓住几个主要技术参数的状态,就能把握系统的全局。
这几个参数反映了综合指标,也是系统的主要因素。
主成分分析法是通过研究指标体系的内在结构关系,从而将多个指标转化为互不相关的、包含原来指标大部分信息的少数几个指标,即主成份。
这种方法一方面可以减少研究总体指标的个数,另一方面因各主成份是相互独立的,可以减少指标提供信息的交叉和冗余,有利于分析评价。
此外,所确定的权数是基于数据分析得出的指标间内在的结构关系,客观性较好。
一般风险因素相互间存在交互作用,所设置的指标之间也往往不能相互独立。
所反应的信息也经常有重叠,同时指标能否真正全面反映企业风险本质以及各指标的影响程度也很难准确确定,因此可用系统分析法中的主成分分析法确定。
主成分分析的基本步骤 1.确定原始评价矩阵假定有M 个样本,每个样本P 个变量,构成一个P M >阶的数据矩阵为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=ij i i jj x x x x x x x x X 212222111211x 式(4.1) 2. 计算相关系数矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=-=iji i j j r r r r r r r r xx n R .....................r 11212222111211'式(4.2) ),,2,1,(p j i r ij =为原变量i X 与j X 的相关系数, ji ij r r =, 其计算式为∑∑∑==--=-----=nk nk j kj i kink j kj i kiij x x x xx x x xr 11221)()())(( 式(4.3)3.计算特征值与特征向量首先, 解特征方程0=-R I λ,求出特征值,并使其按大小顺序排列),,2,1(;0,,21m p p =≥≥≥≥λλλ。
把从混合信号中求出主分量(能量最大的成份)的方法称为主分量分析(PCA),而次分量(Minor Components,MCs)与主分量(Principal Components,PCs)相对,它是混合信号中能量最小的成分,被认为是不重要的或是噪声有关的信号,把确定次分量的方法称为次分量分析(MCA).PCA可以用于减少特征空间维数、确定变量的线性组合、选择最有用的变量、变量辨识、识别目标或是异常值分组等。
主分量子空间提供了从高维数据到低维数据在均方误差意义下的数据压缩,它能最大程度地减少方差。
由于PCA实际计算中只涉及到输入数据概率密度分布函数(Pdf)的二阶特性(协方差矩阵),所以解出的各主分量只互相正交(不相关),但并不满足相互独立。
而且信号的大部分重要特征往往包含在Pdf的高阶统计特性中,所以只有多变量观测数据是由高斯分布的源信号构成,PCA 方法才有效。
非线性PCA(NLPCA)即将高阶累积量引入标准的PCA中,是由芬兰学者Karhunen和Oja首先提出并将其应用于ICA。
它的可以完成对输入信号的盲分离。
高阶累积量是以隐含的方式引入计算的,采用自适应迭代方法便于工程实现。
标准的PCA基于信号的协方差矩阵仅能处理高斯信号,而NLPCA可以处理非高斯信号。
PCA(Principal Component Analysis),即主成分分析,主要用于数据降维。
对于一组样本的feature组成的多维向量,多维向量里的某些元素本身没有区分性,比如某个元素在所有的样本中都为1,或者与1差距不大,那么这个元素本身就没有区分性,用它做特征来区分,贡献会非常小。
所以我们的目的是找那些变化大的元素,即方差大的那些维,而去除掉那些变化不大的维,从而使feature留下的都是最能代表此元素的“精品”,而且计算量也变小了。
对于一个k维的feature来说,相当于它的每一维feature与其他维都是正交的(相当于在多维坐标系中,坐标轴都是垂直的),那么我们可以变化这些维的坐标系,从而使这个feature 在某些维上方差大,而在某些维上方差很小。