SAS主成分分析
- 格式:ppt
- 大小:240.50 KB
- 文档页数:6
一、主成分分析1、数据引入PROC IMPORT OUT= WORK.shuruDA TAFILE= "E:\****\****\数据分析\试验\shouru.xls"DBMS=EXCEL2000 REPLACE;GETNAMES=YES;RUN;2、程序proc princomp data=shouru out=defen;var x1-x9;run;proc sort data=defen;by prin1 prin2;run;proc print data=defen;run;二、判别分析程序2.2方法1:先改变shuru 数据的结构,把待判的数据去掉,再引入数据data shouru1;input diqu $ x1-x9;cards;广东211.3 114 41.44 33.2 11.2 48.72 30.77 14.9 11.1西藏175.93 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0;run;proc discrim data=shourutestdata=shouru1 method=normallist all crosslist testlist;class leixing;var x1-x9;run;方法2:原shuru数据不变,直接判别,但此法虽可判断待判的两省属于那类,但无法给出误判率;proc discrim data=shouruout=a1outstat=a2 outcross=a3method=normallist all crosslist testlist;class leixing;var x1-x9;run;程序2.3proc discrim data=shourutestdata=shouru1 method=normallist all crosslist crossvalidate testlist;class leixing;var x1-x9;priors prop;run;三、聚类分析程序proc cluster data=yjshr method=sin outtree=y1 ;/*最短距离法*/ var x1-x9;run;proc tree data=y1 nclusters=3 out=z1;run;proc print data=z1;run;proc cluster data=yjshr method=com outtree=y2 ;/*最长距离法*/ var x1-x9;run;proc tree data=y2 nclusters=3 out=z2;run;proc print data=z2;run;proc cluster data=yjshr method=ave outtree=y3 ;/*类平均距离法*/ var x1-x9;run;proc tree data=y3 nclusters=3 out=z3;run;proc print data=z3;run;proc fastclus data=yjshr out=a1maxc=3 cluster=c distance list; /*快速聚类分三类情况*/ proc plot;plot x2*x1=c;run;。
SAS学习系列33.-主成分分析33. 主成分分析(一)原理一、基本思想主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。
其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。
在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。
如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2, 称为第二主成分。
为了有效地反映原有信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0. 依此类推可以构造出第三、第四、…、第p个主成分。
主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。
二、基本原理设有n个样品(多元观测值),每个样品观测p项指标(变量):X1,…,X p,得到原始数据资料阵:其中,X i = (x1i,x2i,…,x ni)T,i = 1, …, p.用数据矩阵X的p个列向量(即p个指标向量)X1,…,X p作线性组合,得到综合指标向量:简写成:F i = a1i X1 + a2i X2+…+a pi X p i = 1, …, p限制系数a i = (a1i,a2i,…,a pi)T为单位向量,即且由下列原则决定:(1)F i与F j互不相关,即COV(F i, F j)=a i T∑a i=0,其中∑为X 的协方差矩阵;(2)F1是X1,X2,…,X p的所有满足上述要求的线性组合中方差最大的,即F2是与F1不相关的X1,…,X p所有线性组合中方差最大的,…,F p是与F1,…,F p-1都不相关的X1,…,X p所有线性组合中方差最方向对应。
F1,F2,…,F p可以理解为p维空间中互相垂直的p 个坐标轴。
三、基本步骤1. 计算样品数据协方差矩阵Σ = (s ij)p p,其中2. 求出Σ的特征值及相应的特征向量λ1>λ2>…>λp>0, 及相应的正交化单位特征向量:则X的第i个主成分为F i= a i T X,i=1, …, p.3. 选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。
sas主成分分析sas主成分分析第七章主成分分析实验目的:熟悉并掌握主成分分析和因子分析的原理和在变量分类、综合评价、主成分回归等几个方面的应用,以及相应的SAS程序实现。
实验内容:对我国钢铁行业上市公司的财务绩效状况进行主成分分析,选择的财务指标共有以下几个:流动比率,速动比率,存货周转率,总资产周转率,净资产收益率,经营净利率,每股收益,净资产收益率增长率,股东权益增长率。
数据如下:完成以下工作:(1)选取累积贡献率>85%的前几个主成分,分别计算得分;并对选取的主成分进行解释;(2)对各上市公司的财务绩效进行综合评价;(3)利用选取的主成分得分,借助聚类分析过程对钢铁行业上市公司进行分类。
datazcf;inputname$x1-x9;cards;邯郸钢铁1.5510.9717.1650.88910.7689.2680.451-16.0246.122武钢股份2.1921.828.0880.97515.05411.1140.336-3.0392.588钢联股份1.2860.9418.0441.1247.3894.5990.205-59.988122.041宝钢股份0.9790.5718.130.6019.7428.780.205-17.6853.989莱钢股份1.3640.4975.0780.9314.1039.1370.523-24.26114.16西宁特钢1.4330.6721.4620.4716.4297.2680.1559.3493.027杭钢股份2.1081.4988.3731.41816.7567.9370.531-18.72513.662邢台轧辊2.11.5951.8830.3966.4848.9810.1325.275-1.061宁夏恒力1.3641.0641.8680.2787.46919.8420.201-35.19455.428凌钢股份1.7721.0617.8411.11912.8838.8040.5285.34310.107南钢股份1.8181.3928.8661.54612.8855.1530.409-7.0286.131酒钢宏兴1.4410.88410.1681.07112.8317.8250.36744.0376.686抚顺特钢0.9550.6523.4160.5097.1476.8510.193-8.0741.93安阳钢铁1.8931.3335.1070.9810.9497.9150.3500上海科技1.3131.1824.6430.5689.5499.4230.19935.6353.582沪昌特钢10.8139.536.5850.5671.1031.6560.01915.031-7.171山川股份1.2520.5851.4850.45110.34414.6930.209-1.6159.799浦东不锈6.1865.1212.3630.2650.7542.5130.013-45.439-1.176新华股份1.8171.3143.2910.7469.9249.0280.137-3.5771.985工益股份1.8091.2674.0460.8280.6950.450.011104.419-4.714马钢股份1.5841.0694.3180.5692.0032.1830.03235.279-12.487宝信软件3.5943.2015.0140.82114.669.7210.147126.91123.243北特钢1.3851.0922.6910.467-11.21-7.917-0.14853.839-11.058广钢股份0.8590.513.8840.7224.2472.6850.096-32.409-4.004;procprincompn=9out=prin;varX1-x9;run;procprintdata=prin;varprin1-prin9;run;主要输出结果:相关阵的特征值和特征向量EigenvalueDifferenceProportionCumulative13.626730451.710877240.40300.403021.915853210.519337180.21290.615831.396516020.349008540.15520.771041.047507480.371047740.11640.887450.676459740.478913290.07520.962660.197546440.106501190.02190.984570.091045260.044878480.01010.994680.046166770.043992140.00510.999890.002174630.00021.0000EigenvectorsPrin1Prin2Prin3Prin4Prin5Prin6Prin7Prin8Prin9x1-.2632570.5528190.3251720.0999320.0123340.1292890.077190-.0215500.697189x2-.2696730.5512290.3176490.0909930.0600930.065411-.0196680.049407-.709595x30.3207430.454750-.227474-.1958410.013020-.7729000.0382700.0086860.033825x40.3790330.331485-.342911-.1840840.0144020.490904-.3231210.4986720.026498x50.4608530.1052280.1235360.3670920.0903870.094185-.486791-.610331-.003691x60.308953-.1918380.4762280.4505290.202663-.228562-.0285870.5848690.042126x70.4802260.1255120.0219100.155827-.2454280.2558630.762567-.122168-.082054x8-.1693840.077314-.5106640.4440140.6759650.0353110.220767-.0214310.005659x90.210440-.0652010.347445-.5918860.6553280.1132300.140544-.1355950.001607由输出特征值可知,第一主成分的贡献率为40.30%,第二个主成分的.贡献率为61.58%,第三个主成分的贡献率为77.10%,前四个主成分累计贡献率为88.74%。
主成分分析与因子分析(三):使用SAS实现主成分分析-FACTOR过程上一系列文章介绍了使用PRINCOMP过程进行主成分分析。
今天,我们将介绍使用FACTOR过程进行主成分分析。
FACTOR 过程除了PROC PRINCOMP外,还可以使用PROC FACTOR来进行主成分分析。
事实上,在进行标准化后,二者的结果是一样的。
为了比较二者的结果,首先介绍如何对数据进行标准化。
SAS对数据的标准化是通过PROC STDIZE实现的,PROC STDIZE的一般形式如下:其中:•选项METHOD=指定用于标准化的方法,常见的标准化方法有MEAN、SUM、EUCLEN和STD。
•VAR语句指定数据集中用来进行主成分分析的变量,变量类型必须为数值型。
若该语句缺失,那么PROC FACTOR将分析数据集中的所有数值型变量。
标准化的计算方法如下:这里LOCATION和SCALE的值与标准化方法有关。
表12.3列举了一些常见的标准化方法的LOCATION和SCALE值。
有关其他方法具体参数值建议读者参考SAS官方帮助文档。
表12.3 常见标准化方法中的LOCATION值与SCALE值这里仅简单介绍PROC FACTOR中与主成分分析相关部分的选项,在后面使用PROC FACTOR进行因子分析时,会对其他选项进行介绍。
PROC FACTOR的语法如下:其中:•常见的选项有:“DATA=”用于指定输入数据集,“SIMPLE”输出常见的统计量,“CORR”输出原始变量的相关矩阵。
•VAR语句指定数据集中用于分析的变量。
例12.2:使用PROC FACTOR对数据集sashelp.cars进行主成分分析。
示例代码如下:输出结果中基本统计量与相关矩阵的部分如图12.8所示。
图12.8 使用PROC FACTOR进行主成分分析过程中输出基本统计量与相关矩阵同时,PROC FACTOR还输出了相关矩阵的特征值与解释的变异比例,这部分内容也和PROC PRINCOMP一致(如图12.9所示)。
目录主成分分析和主成分回归(附实际案例和sas代码) (2)1 主成分分析的主要思想 (2)2 主成分分析的定义 (2)3 案例基本情况介绍餐饮业零售额相关因素 (3)4 案例相关因素的介绍相关因素的具体数据 (3)5 影响餐饮业零售额因素的主成分分析 (4)6 主成分回归 (9)主成分分析和主成分回归(附实际案例和sas 代码)1 主成分分析的主要思想在进行高维数据系统分析时,通过主成分分析,可以在纷繁的指标变量描述下,了解影响这个系统存在与发展的主要因素。
主成分分析是1933年由霍特林首先提出来的。
在信息损失最小的前提下,将描述某一系统的多个变量综合成少数几个潜变量,从而迅速揭示系统形成的主要因素,并把原来高维空间降到低维子空间。
主成分分析是研究如何通过少数几个主成分来解释多变量的方差的分析方法,也就是求出少数几个主成分,使他们尽可能多地保留原始变量的信息,且彼此不相关它是一种数学变换方法,即把给定的一组变量通过线性变换,转换为一组不相关的变量,在这种变换中保持变量的总方差不变,同时具有最大总方差,称为第一主成分;具有次大方差,成为第二主成分。
依次类推。
若共有p 个变量,实际应用中一般不是找p 个主成分,而是找出个)(p m m <主成分就够了,只要这m 个主成分能够反映原来所有变量的绝大部分的方差。
2 主成分分析的定义设研究对象涉及P 个指标,分别用p X X X ,,21表示,这个指标构成P 维随机向量为)',,,(21p X X X X =。
设随机向量的均值为u ,协方差矩阵为Σ。
主成分分析就是对随机向量进行线性变换以形成新的综合变量,用i Z 表示,满足下式:1212,1,2,,i i i ip P Z u X u X u X i p =++⋅⋅⋅+= (1)为了使新的综合变量能够充分反映原来变量的信息,则i Z 的方差尽可能大且各个i Z 之间不相关。
由于没有限制条件方差可以任意大,设有线面的约束条件:222121,(1,2,)i i ip u u u i p ++⋅⋅⋅== (2)主成分则为满足条件的i Z 。
主成分分析实验报告实验内容:表1的数据是广东省各地市经济发展的基本数据,其中X1-城镇人口占常住人口比例(%),X2-固定资产投资(亿元),X3-人均可支配收入(元),X4-人均消费支出(元),X5-社会消费品零售总额(亿元),X6-第三产业占GDP百分比(%),X7-出口总额(亿美元),X8-人均地区生产总值(元)。
表1 安徽省各地市经济发展的基本数据城市X1X2X3X4X5X6X7X8广州82.532659.8527609.622820.93615.7760.9374.0588424.71189深圳1001709.1529244.521526.12567.9453.21619.7992022.45885珠海87.16410.5122858.617948.4404.4644.8177.8369652.80797汕头69.58291.913650.911659.5661.9639.540.1620282.83847佛山92.361470.5624577.919295.61408.7835245.7880391.16195韶关47.29356.516288.711467.6278.3645 5.7919490.55365河源40.5198.1512137.998054.92139.534.914.1313729.38507梅州46.2162.9813113.310365.7267.9839.3 6.7112528.23307惠州61.27758.972127817913.9491.137.8171.4935615.98569汕尾57289.4312560.218735.73282.0638.29.4813287.30274东莞86.391094.0833044.624269.9959.0751.2551.6759274.23927中山86.34545.6123088.3917414.7549.7639.4177.3662222.89651江门50.08492.0719003.7614262.87562.0734.279.4931915.39277阳江46.72239.4913075.219164.85305.383612.321999.29294湛江38.99393.2313665.210470.1559.9439.913.6516537.29201茂名37.5180.0113160.649764.1591.0543.1 5.3219853.45836肇庆44.89462.771506311030.3275.7843.720.322169.19445清远34.93841.2414314.799851.89303.5631.914.1522513.00645潮州62.1162.9812398.210758.29207.8937.618.718653.62032揭阳45.36393.513169.2410463.1341.4633.625.2514093.4095云浮50.2240.191321111383.48117.9133.7 6.1614128.88059利用主成分分析综合出适当的主成分及相应的主成分得分;利用上面的主成分得分对样品进行聚类分析,并给出适当的结论。
主成分分析与因子分析(二):使用SAS实现主成分分析--PRINCOMP过程上一系列文章介绍了主成分分析概述。
今天,我们将介绍使用PRINCOMP过程进行主成分分析。
在SAS中,某种统计方法可能可以通过多个过程步实现。
这时候有必要了解过程步之间的区别。
比如,主成分分析就可以通过PROC FACTOR或PROCPRINCOMP实现。
PRINCOMP过程使用PROC PRINCOMP进行主成分分析时,其输入可以是原始数据集、协方差矩阵或相关矩阵等,其输出数据集包含特征根、特征向量以及标准化或未标准化的主成分得分。
此外,使用者还可以通过ODS图像选项输出陡坡图(Scree Plot)、成分特征图(Component Pattern Plot)等图形,这些图形都是进行主成分分析的有用工具。
过程步PROC PRINCOMP的一般形式为:其中:•PROC PRINCOMP语句中常见的选项如表12.1所示。
•BY语句指定分组变量。
PROC PRINCOMP根据BY语句中的变量对原数据进行分组分析。
若BY语句中的变量多于一个,那么仅最后一个变量起作用。
该语句要求原始数据已按照BY语句中的变量排序。
•VAR 语句指定数据集中用来进行主成分分析的变量,这些指定变量类型必须为数值型。
表12.1 PROC PRINCOMP常见的选项及含义例12.1:数据集sashelp.cars包含不同型号的汽车的一些参数,共有15个变量以及428条观测,具体变量的含义如表12.2所示。
现在要根据数据集sashelp.cars中的变量MPG_City、MPG_Highway、Weight、Wheelbase以及 Length,对其进行主成分分析。
表12.2 数据集sashelp.cars中的变量具体信息示例代码如下:程序的输出结果中包含了数据集的一些简单统计量,具体如图12.3所示。
图12.3 数据集sashelp.cars的简单统计量紧接着是相关矩阵以及该矩阵对应的特征值,如图12.4所示。