当前位置：文档之家› 田黄的数据成分分析

田黄的数据成分分析

田黄的矿物数据成份

——艺术品鉴定要有新思维——

懿珍拍卖王青平

上海、广州、北京地区古玩鉴定公司越来越多，但是田黄的数据成分又有几家公司有呢？

一、田黄及其种类

田黄又称田黄石（Field—yellow Stone），它是民间根据其产于福州寿山乡之水稻田底部呈黄色而得名，并非科学上的定名，因而它是一个商业的名称，就如同翡翠一样，它也是商业上的名称，而翡翠的科学上（矿物学）的名称是钠辉石（NaAlSi2O6）。

文献上记载，田黄石与明朝开国皇帝朱元章和清朝的乾隆皇帝均有一段佳话，因而受到他们的宠爱。此后，历朝历代的书画家在他的个人作品中，都以署印章为宽边，以表示此件作品是本人手迹，因此历作收藏家均以收藏到某名家的作品为荣，而身价倍增。

据《清?寿山石增谱》记载，寿山石的开采在我国五代时期就已经开始，其后在唐光启年间至南宋及清朝均陆续有开采，所采之田黄大多数供文人墨客及后皇宝刻章之用。

田黄石的颜色各式各样，主要有4种，即黄、白、红、黑，此外还有兰色。田黄之所以有不同颜色及因其成份中有色素离子（colour iron）的原因所致（这是矿物海陆空研究内容，在此不述）。但最常见颜色为黄色，例如：黄金黄，桂花黄、栗子黄、枇杷黄、银包金黄（表面呈白色，内部纯黄）等等。有所谓白黄者，其颜色为猪油白，水晶冻、金包银（表面呈黄色，内部纯白），至于红色者则有桔皮红、暗红、荔枝红、西瓜红、桃花红等等。也有所谓煨红色，我们认为此命名不太妥，此外还有艾叶绿，竹叶青、黑田（乌鸦黑、蟆皮黑），兰田（天兰色或天兰冻）都是少见的品种。

总之，田黄的颜色是多样的，有30—40种之多。收藏者往往不要以为田黄只有黄色一种，除黄色以外者均不是田黄的观点是值得商确的。

二、田黄的矿物成份

绝大多数田黄，其矿物成份多属层状硅酸盐矿物，根据我们对于民间收藏的田黄所做的红外吸收光谱及拉曼光谱分析，其中的矿物是：地开石、叶腊石、滑石、绿泥石等，前人研究的矿物还有高岭石，珍珠陶土（珍珠石）。田黄的矿物成份有单独的一种矿物（如地开石或叶腊石），也有某二种矿物多是中，低温热液交代——蚀变或选择性交代作用形成的，而且与火山活动或地热活动有成因上的关系?，不久前我们对田黄进行过红外及拉曼光谱研究?。

无论是民间所谓的青田石也好、寿山石也好，目前为止，它们都不会超出上述的层状矿物范围。有专家认为，田黄肯定是叶腊石，或肯是地开石，这些专家可能是只按照早先的矿物学工作者提供的矿物名称来得出的叶腊石（或地开石）的固有看法，然而随着鉴定技术日益精确，也有的田黄是由二种层状矿物组成的。从成矿条件上来讲，在同一矿区的同一块大的矿石（重量在数百公斤或数十公斤以上）中所采的样品，有的可能是一种矿物（地开石或叶腊石），有的就有二种矿物：叶腊石+伊利石、地开石+滑石、地开石+高铃石的或绿泥石+叶腊石等等，因为在自然界，叶腊石、地开石、绿泥石、滑石、伊利石等等层状矿物的成矿温度、压力等热力学条件都十分相似，加之它们都是层状结构，它们分别组合在一起是正常的，以某一种独立矿物存在也是可能的。但在大多数情况都是“你中有我，我中有你。”文献?中提供的X——光衍射曲线就是由二种层状矿物组成，只不是某一种层状矿物的含量多少而已。

随着高科技手段在文物鉴定上的运用，用“眼学”来鉴定文物将会逐渐退出历史舞台。当然，人们也不要反对“眼学”（经验）鉴定。目前在收藏界对新的高科手段是不太熟识，

主成分分析法matlab实现,实例演示

利用Matlab 编程实现主成分分析 1.概述 Matlab 语言是当今国际上科学界 (尤其是自动控制领域) 最具影响力、也是最有活力的软件。它起源于矩阵运算，并已经发展成一种高度集成的计算机语言。它提供了强大的科学运算、灵活的程序设计流程、高质量的图形可视化与界面设计、与其他程序和语言的便捷接口的功能。Matlab 语言在各国高校与研究单位起着重大的作用。主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。 1.1主成分分析计算步骤 ① 计算相关系数矩阵 ?? ? ???? ???? ?? ?=pp p p p p r r r r r r r r r R 2 122221 11211 （1）在（3.5.3）式中，r ij （i ，j=1，2，…，p ）为原变量的xi 与xj 之间的相关系数，其计算公式为 ∑∑∑===----= n k n k j kj i ki n k j kj i ki ij x x x x x x x x r 1 1 2 2 1 )() () )(( （2）因为R 是实对称矩阵（即r ij =r ji ），所以只需计算上三角元素或下三角元素即可。

② 计算特征值与特征向量首先解特征方程0=-R I λ，通常用雅可比法（Jacobi ）求出特征值 ),,2,1(p i i =λ，并使其按大小顺序排列，即0,21≥≥≥≥p λλλ ；然后分别求出对应于特征值i λ的特征向量),,2,1(p i e i =。这里要求i e =1，即112 =∑=p j ij e ，其中ij e 表示向量i e 的第j 个分量。 ③ 计算主成分贡献率及累计贡献率主成分i z 的贡献率为 ),,2,1(1 p i p k k i =∑=λ λ 累计贡献率为 ) ,,2,1(11 p i p k k i k k =∑∑==λ λ 一般取累计贡献率达85—95%的特征值m λλλ,,,21 所对应的第一、第二，…，第m （m ≤p ）个主成分。 ④ 计算主成分载荷其计算公式为 ) ,,2,1,(),(p j i e x z p l ij i j i ij ===λ （3）

主成分分析法总结

主成分分析法总结在实际问题研究中，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，人们会很自然地想到，能否在相关分析的基础上，用较少的新变量代替原来较多的旧变量，而且使这些较少的新变量尽可能多地保留原来变量所反映的信息？一、概述在处理信息时，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠，例如，高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性；学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。为了解决这些问题，最简单和最直接的解决方案是削减变量的个数，但这必然又会导致信息丢失和信息不完整等问题的产生。为此，人们希望探索一种更为有效的解决方法，它既能大大减少参与数据建模的变量个数，同时也不会造成信息的大量丢失。主成分分析正式这样一种能够有效降低变量维数，并已得到广泛应用的分析方法。主成分分析以最少的信息丢失为前提，将众多的原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点： ↓主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后，因子将可以替代原有变量参与数据建模，这将大大减少分析过程中的计算工作量。 ↓主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍，而是原有变量重组后的结果，因此不会造成原有变量信息的大量丢失，并能够代表原有变量的绝大部分信息。 ↓主成分之间应该互不相关通过主成分分析得出的新的综合指标（主成分）之间互不相关，因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题。 ↓主成分具有命名解释性总之，主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子，如何使因子具有一定的命名解释性的多元统计分析方法。主成分分析的具体步骤如下：（1）计算协方差矩阵计算样品数据的协方差矩阵：Σ=(s ij )p ?p ，其中 1 1()() 1n ij ki i kj j k s x x x x n ==---∑i ，j=1，2，…，p （2）求出Σ的特征值 i λ及相应的正交化单位特征向量i a Σ的前m 个较大的特征值λ1≥λ2≥…λm>0,就是前m 个主成分对应的方差，i λ对应的单位特征向量 i a 就是主成分Fi 的关于原变量的系数，则原变量的第i 个主成分Fi 为：

SPSS主成分分析操作步骤,详细的很啊^_^==

SPSS主成分分析操作步骤，详细的很啊^_^ SPSS在调用Factor Analyze过程进行分析时，SPSS会自动对原始数据进行标准化处理，所以在得到计算结果后指的变量都是指经过标准化处理后的变量，但SPSS不会直接给出标准化后的数据，如需要得到标准化数据，则需调用Descriptives过程进行计算。图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值，第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系，与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强，证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注：特征值在某种程度上可以被看成是表示主成分影响力度大小的指标，如果特征值小于1，说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大，因此一般可以用特征值大于1作为纳入标准。通过图表4（方差分解主成分提取分析）可知，提取2个主成分，即m=2，从图表5（初始因子载荷矩阵）可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷，说明第一主成分基本反映了这些指标的信息；人均GDP和农业增加值指标在第二主成分上有较高载荷，说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息，所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到，因为“Component Matrix”是指初始因子载荷矩阵，每一个载荷量表示主成分与对应变量的相关系数。用图表5（主成分载荷矩阵）中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入（可用复制粘贴的方法）到数据编辑窗口（为变量B1、B2），然后利用“TransformàCompute Variable”，在Compute Variable对话框中输入“A1=B1/SQR(7.22)” [注：第二主成分SQR后的括号中填1.235]，即可得到特征向量A1(见图表6)。同理，可得到特征向量A2。将得到的特征向量与标准化后的数据相乘，然后就可以得出主成分表达式[注：因本例只是为了说明如何在SPSS进行主成分分析，故在此不对提取的主成分进行命名，有兴趣的读者可自行命名]： F 1=0.353ZX 1 +0.042ZX 2 -0.041ZX 3 +0.364ZX 4 +0.367ZX 5 +0.366ZX 6 +0.352ZX 7 +0.364ZX 8+0.298ZX 9 +0.355ZX 10

主成分分析法精华讲义及实例

主成分分析类型：一种处理高维数据的方法。降维思想：在实际问题的研究中，往往会涉及众多有关的变量。但是，变量太多不但会增加计算的复杂性，而且也会给合理地分析问题和解释问题带来困难。一般说来，虽然每个变量都提供了一定的信息，但其重要性有所不同，而在很多情况下，变量间有一定的相关性，从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”，用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息，通过对新变量的分析达到解决问题的目的。一、总体主成分 1.1 定义设 X 1，X 2，…，X p 为某实际问题所涉及的 p 个随机变量。记 X=(X 1，X 2，…,Xp)T ，其协方差矩阵为 ()[(())(())], T ij p p E X E X X E X σ?∑==-- 它是一个 p 阶非负定矩阵。设 1111112212221122221122T p p T p p T p p p p pp p Y l X l X l X l X Y l X l X l X l X Y l X l X l X l X ?==+++? ==+++?? ??==+++? （1）则有 ()(),1,2,...,, (,)(,),1,2,...,. T T i i i i T T T i j i j i j V ar Y V ar l X l l i p C ov Y Y C ov l X l X l l j p ==∑===∑= （2）第 i 个主成分：一般地，在约束条件 1T i i l l =

及 (,)0,1,2,..., 1.T i k i k C ov Y Y l l k i =∑==- 下，求 l i 使 Var(Y i )达到最大，由此 l i 所确定的 T i i Y l X = 称为 X 1，X 2，…，X p 的第 i 个主成分。 1.2 总体主成分的计算设 ∑是12(,,...,) T p X X X X =的协方差矩阵，∑的特征值及相应的正交单位化特征向量分别为 120p λλλ≥≥≥≥ 及 12,,...,, p e e e 则 X 的第 i 个主成分为 1122,1,2,...,,T i i i i ip p Y e X e X e X e X i p ==+++= （3）此时 (),1,2,...,,(,)0,. T i i i i T i k i k V ar Y e e i p C ov Y Y e e i k λ?=∑==??=∑=≠?? 1.3 总体主成分的性质 1.3.1 主成分的协方差矩阵及总方差记 12(,,...,) T p Y Y Y Y = 为主成分向量，则 Y=P T X ，其中12(,,...,)p P e e e =，且 12()()(,,...,),T T p Cov Y Cov P X P P Diag λλλ==∑=Λ= 由此得主成分的总方差为 1 1 1 ()()()()(),p p p T T i i i i i i V ar Y tr P P tr P P tr V ar X λ ==== =∑=∑=∑= ∑∑∑ 即主成分分析是把 p 个原始变量 X 1，X 2，…，X p 的总方差

主成分分析法PCA的原理

主成分分析法原理简介 1.什么是主成分分析法主成分分析也称主分量分析，是揭示大样本、多变量数据或样本之间内在关系的一种方法，旨在利用降维的思想，把多指标转化为少数几个综合指标，降低观测空间的维数，以获取最主要的信息。在统计学中，主成分分析（principal components analysis, PCA）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。 2.主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。对同一个体进行多项观察时必定涉及多个随机变量X1，X2，…，X p，它们之间都存在着相关性，一时难以综合。这时就需要借助主成分分析来概括诸多信息的主要方面。我们希望有一个或几个较好的综合指标来概括信息，而且希望综合指标互相独立地各代表某一方面的性质。

主成分分析法实例

1、主成分法：用主成分法寻找公共因子的方法如下：假定从相关阵出发求解主成分，设有p 个变量，则可找出p 个主成分。将所得的p 个主成分按由大到小的顺序排列，记为1Y ，2Y ，…，P Y ，则主成分与原始变量之间存在如下关系： 11111221221122221122....................p p p p p p p pp p Y X X X Y X X X Y X X X γγγγγγγγγ=+++?? =+++??? ?=+++? 式中，ij γ为随机向量X 的相关矩阵的特征值所对应的特征向量的分量，因为特征向量之间彼此正交，从X 到Y 得转换关系是可逆的，很容易得出由Y 到 X 得转换关系为： 11112121212122221122....................p p p p p p p pp p X Y Y Y X Y Y Y X Y Y Y γγγγγγγγγ=+++?? =+++??? ?=+++? 对上面每一等式只保留钱m 个主成分而把后面的部分用i ε代替，则上式变为： 111121211 2121222221122................. ...m m m m p p p mp m p X Y Y Y X Y Y Y X Y Y Y γγγεγγγεγγγε=++++??=++++????=++++? 上式在形式上已经与因子模型相一致，且i Y （i=1,2，…，m ）之间相互独立，且i Y 与i ε之间相互独立，为了把i Y 转化成合适的公因子，现在要做的工作只是把主成分i Y 变为方差为1的变量。为完成此变换，必须将i Y 除以其标准差，由主成分分析的知识知其标准差即为特征根的平方根 i λ/i i i F Y λ=， 1122m m λγλγλγ，则式子变为：

主成分分析法及其在SPSS中的操作

一、主成分分析基本原理概念：主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看，这是一种降维处理技术。思路：一个研究对象，往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性，利用原变量之间的相关关系，用较少的新变量代替原来较多的变量，并使这些少数变量尽可能多的保留原来较多的变量所反应的信息，这样问题就简单化了。原理：假定有n 个样本，每个样本共有p 个变量，构成一个n ×p 阶的数据矩阵，记原变量指标为x 1，x 2，…，x p ，设它们降维处理后的综合指标，即新变量为 z 1，z 2，z 3，… ，z m (m ≤p)，则系数l ij 的确定原则： ①z i 与z j （i ≠j ；i ，j=1，2，…，m ）相互无关； ②z 1是x 1，x 2，…，x P 的一切线性组合中方差最大者，z 2是与z 1不相关的x 1，x 2，…，x P 的所有线性组合中方差最大者； z m 是与z 1，z 2，……，z m －1都不相关的x 1，x 2，…x P ，的所有线性组合中方差最大者。新变量指标z 1，z 2，…，z m 分别称为原变量指标x 1，x 2，…，x P 的第1，第2，…，第m 主成分。从以上的分析可以看出，主成分分析的实质就是确定原来变量x j （j=1，2 ，…， p ）在诸主成分z i （i=1，2，…，m ）上的荷载 l ij （ i=1，2，…，m ； j=1，2 ，…，p ）。 ?????? ? ???????=np n n p p x x x x x x x x x X 2 1 2222111211 ?? ??? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 22112222121212121111............

spss进行主成分分析及得分分析

spss进行主成分分析及得分分析 1 将数据录入spss 1. 2 数据标准化：打开数据后选择分析→描述统计→描述，对数据进行标准化，选中将标准化得分另存为变量： 2.3 进行主成分分析：选择分析→降维→因子分析，

3.4设置描述性，抽取，得分和选项：

4.5 查看主成分分析和分析：相关矩阵表明，各项指标之间具有强相关性。比如指标GDP总量与财政收入、固定资产投资总额、第二产业增加值、第三产业增加值、工业增加值的相关系数较大。这说明他们之间指标信息之间存在重叠，适合采用主成分分析法。（下表非完整呈现）

5.6 由Total Variance Explained（主成分特征根和贡献率）可知，特征根λ1=9.092，特征根λ2=1.150前两个主成分的累计方差贡献率达93.107%，即涵盖了大部分信息。这表明前两个主成分能够代表最初的11个指标来分析河南各个城市经济综合实力的发展水平，故提取前两个指标即可。主成分，分别记作F1、F2。 6.7

指标X1、X2、X3、X4、X5、X6、X7、X8、X9、X10在第一主成分上有较高载荷，相关性强。第一主成分集中反映了总体的经济总量。X11在第二主成分上有较高载荷，相关性强。第二主成分反映了人均的经济量水平。但是要注意：这个主成分载荷矩阵并不是主成分的特征向量，也就是说并不是主成分1和主成分2的系数，主成分系数的求法是：各自主成分载荷向量除以各自主成分特征值的算术平方根。

7.8 成分得分系数矩阵（因子得分系数）列出了强两个特征根对应的特征向量，即各主要成分解析表达式中的标准化变量的系数向量。故各主要成分解析表达式分别为：F1=0.32ZX11+0.33ZX12+0.31ZX13+0.31ZX14+0.32ZX15+0.32ZX16+0.32ZX17+0.32ZX18+0. 32ZX19+0.21ZX110+0.15ZX111 F2=8.46ZX21+0.02ZX22-0.02ZX23-0.20ZX24-0.23Z25-0.04ZX26-0.15ZX27-0.02ZX28+0.10Z X29+0.47ZX210+0.78ZX211 8.9 主成分的得分是相应的因子得分乘以相应的方差的算术平方根。即：主成分1得分=因子1得分乘以9.092的算术平方根主成分2得分=因子2得分乘以1.150的算术平方根例如郑州：主成分因子=FAC1_1*9.092的算术平方根=3.59386*9.092的算术平方根=10.83，将各指标的标准化数据带入个主成分解析表达式中，分别计算出2个主成分得分（F1、F2），再以个主成分的贡献率为全书对主成分得分进行加权平均，即：H=（82.672*F1+10.497*F2）/93.124，求得主成分综合得分。

主成分分析法介绍(高等教育)

主成分分析方法我们进行系统分析评估或医学上因子分析等时，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，我们就会很自然地想到，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息？事实上，这种想法是可以实现的，本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。假定有n 样本，每个样本共有p 个变量描述，这样就构成了一个n×p 阶的数据矩阵： 111212122212.....................p p n n np x x x x x x X x x x ?? ? ?= ? ? ??? (1)

如何从这么多变量的数据中抓住事物的内在规律性呢？要解决这一问题，自然要在p 维空间中加以考察，这是比较麻烦的。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标来代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息，同时它们之间又是彼此独立的。那么，这些综合指标（即新变量)应如何选取呢？显然，其最简单的形式就是取原来变量指标的线性组合，适当调整组合系数，使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为p x x x ,,21 ，它们的综合指标——新变量指标为 21,z z ，m z （m≤p)。则 )2.........(..........22112222121212121111??? ??? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 在（2)式中，系数l ij 由下列原则来决定：（1)z i 与 z j （i≠j；i ，j=1，2，…，m)相互无关；（2)z 1是x 1，x 2，…，x p 的一切线性组合中方差最大者；z 2是与z 1不相关的x 1，x 2，…，x p 的所有线性组合中方差最大者；……；z m 是与z 1，z 2，……z m-1都不相关的x 1，x 2，…，x p 的所有线性组合中方差最大者。

主成分分析案例

姓名：XXX 学号：XXXXXXX 专业：XXXX 用SPSS19软件对下列数据进行主成分分析： ……

一、相关性通过对数据进行双变量相关分析，得到相关系数矩阵，见表1。表1 淡化浓海水自然蒸发影响因素的相关性由表1可知：辐照、风速、湿度、水温、气温、浓度六个因素都与蒸发速率在0.01水平上显著相关。分析：各变量之间存在着明显的相关关系，若直接将其纳入分析可能会得到因多元共线性影响的错误结论，因此需要通过主成份分析将数据所携带的信息进行浓缩处理。二、KMO和球形Bartlett检验 KMO和球形Bartlett检验是对主成分分析的适用性进行检验。 KMO检验可以检查各变量之间的偏相关性，取值范围是0～1。KMO的结果越接近1，表示变量之间的偏相关性越好，那么进行主成分分析的效果就会越好。实际分析时，KMO统计量大于0.7时，效果就比较理想；若当KMO统计量小于0.5时，就不适于选用主成分分析法。 Bartlett球形检验是用来判断相关矩阵是否为单位矩阵，在主成分分析中，若拒绝各变量独立的原假设，则说明可以做主成分分析，若不拒绝原假设，则说明这些变量可能独立提供一些信息，不适合做主成分分析。

由表2可知： 1、KMO=0.631＜0.7，表明变量之间没有特别完美的信息的重叠度，主成分分析得到的模型又可能不是非常完善，但仍然值得实验。 2、显著性小于0.05，则应拒绝假设，即变量间具有较强的相关性。三、公因子方差公因子方差表示变量共同度。表示各变量中所携带的原始信息能被提取出的主成分所体现的程度。由表3可知：几乎所有变量共同度都达到了75%，可认为这几个提取出的主成分对各个变量的阐释能力比较强。四、解释的总方差解释的总方差给出了各因素的方差贡献率和累计贡献率。

主成分分析法介绍教学文稿

主成分分析法介绍

主成分分析方法我们进行系统分析评估或医学上因子分析等时，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，我们就会很自然地想到，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息？事实上，这种想法是可以实现的，本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。假定有n 样本，每个样本共有p 个变量描述，这样就构成了一个n×p 阶的数据矩阵： 11121212221 2 .....................p p n n np x x x x x x X x x x ?? ? ? = ? ? ??? (1)

如何从这么多变量的数据中抓住事物的内在规律性呢？要解决这一问题，自然要在p 维空间中加以考察，这是比较麻烦的。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标来代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息，同时它们之间又是彼此独立的。那么，这些综合指标（即新变量)应如何选取呢？显然，其最简单的形式就是取原来变量指标的线性组合，适当调整组合系数，使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为p x x x ,,21 ，它们的综合指标——新变量指标为 21,z z ，m z （m≤p)。则 )2.........(..........22112222121212121111??? ?? ? ?+++=+++=+++=p mp m m m p p p p x l x l x l z x l x l x l z x l x l x l z 在（2)式中，系数l ij 由下列原则来决定：（1)z i 与 z j （i≠j；i ，j=1，2，…，m)相互无关；（2)z 1是x 1，x 2，…，x p 的一切线性组合中方差最大者；z 2是与z 1不相关的x 1，x 2，…，x p 的所有线性组合中方差最大者；……；z m 是与z 1，z 2，……z m-1都

主成分分析PCA(含有详细推导过程以及案例分析matlab版)

主成分分析法(PCA) 在实际问题中，我们经常会遇到研究多个变量的问题，而且在多数情况下，多个变量之间常常存在一定的相关性。由于变量个数较多再加上变量之间的相关性，势必增加了分析问题的复杂性。如何从多个变量中综合为少数几个代表性变量，既能够代表原始变量的绝大多数信息，又互不相关，并且在新的综合变量基础上，可以进一步的统计分析，这时就需要进行主成分分析。 I. 主成分分析法(PCA)模型（一）主成分分析的基本思想主成分分析是采取一种数学降维的方法，找出几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。主成分分析所要做的就是设法将原来众多具有一定相关性的变量，重新组合为一组新的相互无关的综合变量来代替原来变量。通常，数学上的处理方法就是将原来的变量做线性组合，作为新的综合变量，但是这种组合如果不加以限制，则可以有很多，应该如何选择呢？如果将选取的第一个线性组合即第一个综合变量记为1F ，自然希望它尽可能多地反映原来变量的信息，这里“信息”用方差来测量，即希望)(1F Var 越大，表示1F 包含的信息越多。因此在所有的线性组合中所选取的1F 应该是方差最大的，故称1F 为第一主成分。如果第一主成分不足以代表原来p 个变量的信息，再考虑选取2F 即第二个线性组合，为了有效地反映原来信息，1F 已有的信息就不需要再出现在2F 中，用数学语言表达就是要求 0),(21=F F Cov ，称2F 为第二主成分，依此类推可以构造出第三、四……第p 个主成分。（二）主成分分析的数学模型对于一个样本资料，观测p 个变量p x x x ,,21，n 个样品的数据资料阵为： ??????? ??=np n n p p x x x x x x x x x X 21 222 21112 11()p x x x ,,21=

一组空气污染数据的主成分分析

一组空气污染数据的主成分分析【说明】下面的多元统计分析练习题摘自R.A. Johnson等编写的《应用多元统计分析（第五版）》，原书为：Richard A. Johnson and Dean W. Wichern. Applied Multivariate Statistical Analysis(5th Ed). Pearson Education, Inc. 2003。我看的是中国统计出版社（China Statistics Press）2003年发行的影印本。第一题为原书第1.6题，即第1章的第6题，第二题为原书第8.12题，即第8章的第12题。第二题用的是第一题的数据。 1 习题 1.6. The data in Table 1.5 are 42 measurements on air-pollution variables recorded at 12:00 noon in the Los Angeles area on different days. (a)Plot the marginal dot diagrams for all the variables. (b)Construct the x, S n, and R arrays, and interpret the entries in R. TABLE 1.5 AIR-POLLUTION DATA Wind (x1)Solar radiation (x2)CO (x3)NO (x4)NO2 (x5)O3 (x6)HC (x7) 8 98 7 2 12 8 2 7 107 4 3 9 5 3 7 103 4 3 5 6 3 10 88 5 2 8 15 4 6 91 4 2 8 10 3 8 90 5 2 12 12 4 9 84 7 4 12 15 5 5 72 6 4 21 14 4 7 82 5 1 11 11 3 8 64 5 2 13 9 4 6 71 5 4 10 3 3 6 91 4 2 12 7 3 7 72 7 4 18 10 3 10 70 4 2 11 7 3 10 72 4 1 8 10 3 9 77 4 1 9 10 3 8 76 4 1 7 7 3 8 71 5 3 16 4 4 9 67 4 2 13 2 3 9 69 3 3 9 5 3

R语言主成分分析的案例

R 语言主成分分析的案例
R 语言也介绍到案例篇了，也有不少同学反馈说还是不是特别明白一些基础的东西，希望能够有一些比较浅显的可以操作的入门。其实这些之前 SPSS 实战案例都不少，老实说一旦用上了开源工具就好像上瘾了，对于以前的 SAS、clementine 之类的可视化工具没有一点感觉了。本质上还是觉得要装这个、装那个的比较麻烦，现在用 R 或者 python 直接简单安装下，导入自己需要用到的包，活学活用一些命令函数就可以了。以后平台上集成 R、 python 的开发是趋势，包括现在 BAT 公司内部已经实现了。今天就贴个盐泉水化学分析资料的主成分分析和因子分析通过 R 语言数据挖掘的小李子：有条件的同学最好自己安装下 R，操作一遍。今有 20 个盐泉，盐泉的水化学特征系数值见下表.试对盐泉的水化学分析资料作主成分分析和因子分析.（数据可以自己模拟一份）
其中 x1:矿化度(g/L);

x2:Br?103/Cl; x3:K?103/Σ 盐; x4:K?103/Cl; x5:Na/K; x6:Mg?102/Cl; x7:εNa/εCl.
1.数据准备
导入数据保存在对象 saltwell 中 >saltwell<-read.table("c:/saltwell.txt",header=T) >saltwell
2.数据分析

1 标准误、方差贡献率和累积贡献率
>arrests.pr<- prcomp(saltwell, scale = TRUE) >summary(arrests.pr，loadings=TRUE)
2 每个变量的标准误和变换矩阵
>prcomp(saltwell, scale = TRUE)
3 查看对象 arests.pr 中的内容
>> str(arrests.pr)

主成分分析在STATA中的实现以及理论介绍

主成分分析在S T A T A 中的实现以及理论介绍文件编码（TTU-UITID-GGBKT-POIU-WUUI-0089）

第十二章主成分分析主成分分分析也称作主分量分析，是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想，在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分互不相关。Stata 对主成分分析的主要内容包括：主成分估计、主成分分析的恰当性（包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度）、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为： p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中，a 称为得分，b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵（或协方差矩阵）进行特征值分析。

Stata中可以通过负偏相关系数矩阵、负相关系数平方和KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性，则偏相关系数比较低。因此，如果矩阵中偏相关系数较高的个数比较多，说明某一些变量与另外一些变量的相关性比较低，主成分模型可能不适用。这时，主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标，是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高，表明变量的共性越强。如果偏相关系数相对于相关系数比较高，则KMO比较低，主成分分析不能起到很好的数据约化效果。根据Kaiser（1974），一般的判断标准如下：不能接受（unacceptable）;非常差（miserable）；，勉强接受（mediocre）；可以接受（middling）；，比较好（meritorious）；非常好（marvelous）。 SMC即一个变量与其他所有变量的复相关系数的平方，也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强，共性越强，主成分分析就越合适。

主成分分析法概念及例题

主成分分析法 [ 编辑 ] 什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在统计学中，主成分分析（ principal components analysis,PCA ）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。 [ 编辑 ] ， PCA ）又称：主分量分析，主成分回归分析法主成分分析（ principal components analysis

主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的，是解决这类题的理想工具。同样，在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。如上所述，主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。上述想法可进一步概述为：设某科普效果评估要素涉及个指标，这指标构成的维随机向量为。对作正交变换，令，其中为正交阵，的各分量是不相关的，使得的各分量在某个评估要素中的作用容易解释，这就使得我们有可能从主分量中选择主要成分，削除对这一要素影响微弱的部分，通过对主分量的重点分析，达到对原始变量进行分析的目的。的各分量是原始变量线性组合，不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系，主成分分析使我们能从错综复杂的科普评估要素的众多指标中，找出一些主要成分，以便有效地利用大量统计数据，进行科普效果评估分析，使我们在研究科普效果评估问题中，可能得到深层次的一些启发，把科普效果评估研究引向深入。例如，在对科普产品开发和利用这一要素的评估中，涉及科普创作人数百万人、科普作品发行量百万人、科普产业化（科普示范基地数百万人）等多项指标。经过主成分分析计算，最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标，变量数减少，并达到一定的可信度，就容易进行科普效果的评估。 [ 编辑] 主成分分析法的基本原理主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。 [ 编辑] 主成分分析的主要作用

主成分分析分析法

第四节主成分分析方法地理环境是多要素的复杂系统，在我们进行地理系统分析时，多变量问题是经常会遇到的。变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。因此，我们就会很自然地想到，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息？事实上，这种想法是可以实现的，本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。假定有 n 个地理样本，每个样本共有 p 个变量描述，这样就构成了一个 n ×p 阶的地理数据矩阵：如何从这么多变量的数据中抓住地理事物的内在规律性呢？要解决这一问题，自然要在 p 维空间中加以考察，这是比较麻烦的。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标来代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息，同时它们之间又是彼此独立的。那么，这些综合指标（即新变量）应如何选取呢？显然，其最简单的形式就是取原来变量指标的线性组合，适当调整组合系数，使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为 x 1，为 x 1，x 2，?， zm （m ≤p ）。则 x 2 ，?， x p ，它们的综合指标——新变量指标

在（2）式中，系数l ij 由下列原则来决定：（1）z1 2与z j（i ≠j ；i ，j=1 ，2，?，m）相互无关；（2）z 1是x1，x2，?，x p的一切线性组合中方差最大者；z2是与z1不相关的x1，x2，?，x p的所有线性组合中方差最大者；??；z m是与z1，z2，??z m-1 都不相关的x1，x2，?，x p的所有线性组合中方差最大者。这样决定的新变量指标z1，z2，?，zm分别称为原变量指标x1，x2，?，x p 的第一，第二，?，第m主成分。其中，z1在总方差中占的比例最大，z2，z3，?，z m的方差依次递减。在实际问题的分析中，常挑选前几个最大的主成分，这样既减少了变量的数目，又抓住了主要矛盾，简化了变量之间的关系。从以上分析可以看出，找主成分就是确定原来变量x j（j=1 ，2，?，p）在诸主成分z i （i=1 ，2，?，m）上的载荷l ij （i=1 ，2，?，m；j=1 ，2，?，p），从数学上容易知道，它们分别是x1，x2，?，x p的相关矩阵的m个较大的特征值所对应的特征向量。第二节主成分分析的解法主成分分析的计算步骤通过上述主成分分析的基本原理的介绍，我们可以把主成分分析计算步骤归纳如下：在公式（3）中，r ij （i ，j=1 ，2，?，p）为原来变量x i与x j的相关系数，其计算公式为因为R是实对称矩阵（即r ij =r ji ），所以只需计算其上三角元素或下三角元素即可。 1 计算相关系数矩阵 2 计算特征值与特征向量

主成分分析(SPSS)操作详细步骤

主成分分析在SPSS中的操作应用 SPSS在调用Factor Analyze过程进行分析时，SPSS会自动对原始数据进行标准化处理，所以在得到计算结果后指的变量都是指经过标准化处理后的变量，但SPSS不会直接给出标准化后的数据，如需要得到标准化数据，则需调用Descriptives过程进行计算。图表 3 相关系数矩阵

图表 4 方差分解主成分提取分析表主成分分析在SPSS中的操作应用(3) 图表 5 初始因子载荷矩阵

从图表3可知GDP与工业增加值，第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系，与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强，证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。注：特征值在某种程度上可以被看成是表示主成分影响力度大小的指标，如果特征值小于1，说明该主成分的解释力度还不如直接引入一个原变量的平均解释力度大，因此一般可以用特征值大于1作为纳入标准。通过图表4（方差分解主成分提取分析）可知，提取2个主成分，即m=2，从图表5（初始因子载荷矩阵）可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷，说明第一主成分基本反映了这些指标的信息；人均GDP和农业增加值指标在第二主成分上有较高载荷，说明第二主成分基本反映了人均GDP和农业增加值两个指标的信息。所以提取两个主成分是可以基本反映全部指标的信息，所以决定用两个新变量来代替原来的十个变量。但这两个新变量的表达还不能从输出窗口中直接得到，因为“Component Matrix”是指初始因子载荷矩阵，每一个载荷量表示主成分与对应变量的相关系数。用图表5（主成分载荷矩阵）中的数据除以主成分相对应的特征值开平方根便得到两个主成分中每个指标所对应的系数[2]。将初始因子载荷矩阵中的两列数据输入（可用复制粘贴的方法）到数据编辑窗口（为变量B1、B2），然后利用“TransformàCompute Variable”，在Compute Variable对话框中输入“A1=B1/SQR(7.22)” [注：第二主成分SQR后的括号中填1.235]，即可得到特征向量A1(见图表6)。同理，可得到特征向量A2。将得到的特征向量与标准化后的数据相乘，然后就可以得出主成分表达式[注：因本例只是为了说明如何在SPSS进行主成分分析，故在此不对提取的主成分进行命名，有兴趣的读者可自行命名]： F1=0.353ZX1+0.042ZX2-0.041ZX3+0.364ZX4+0.367ZX5+0.366ZX6+0.352ZX7+0.364ZX 8+0.298ZX9+0.355ZX10