14 SAS中对应分析(含因子分析、典型相关分析作业解答)
- 格式:ppt
- 大小:2.17 MB
- 文档页数:41
学生智力因子分析摘要:因子分析是指研究从变量群中提取共性因子的统计技术。
最早由英国心理学家C.E.斯皮尔曼提出。
他发现学生的各科成绩之间存在着一定的相关性,一科成绩好的学生,往往其他各科成绩也比较好,从而推想是否存在某些潜在的共性因子,或称某些一般智力条件影响着学生的学习成绩。
因子分析可在许多变量中找出隐藏的具有代表性的因子。
将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
本文通过对40名学生的12项智力指标进行因子分析,找出潜在的因子。
关键词:因子分析,潜在因子,智力一、背景分析二、研究目标某研究收集了40名学生的12项智力指标。
这12项指标分别为常识(x1)、类同(x2)、计算(x3)、词汇(x4)、理解(x5)、数字广度(x6)、填图(x7)、图片排列(x8)、积木(x9)、拼图(x10)、译码(x11)和迷津(x12)。
将原始数据经过标准化处理后,计算其相关系数矩阵,结果列在下表中,试进行探索性因子分析,找出潜在因子,并找出其支配的指标。
三、数据描述1.sas程序data ex17_2 (type=corr);infile cards missover; input _name_ $3. x1-x12; _type_='Corr';if _n_=1 then _type_='N'; else _type_='Corr';cards;df 40 40 40 40 40 40 40 40 40 40 40 40x1 1.000 . . . . . . . . . . .X2 0.6904 1.000 . . . . . . . . . .X3 0.4115 0.4511 1.000 . . . . . . . . .X4 0.4580 0.7068 0.4018 1.000 . . . . . . . .X5 0.5535 0.6620 0.4122 0.7119 1.000 . . . . . . .X6 0.3923 0.6317 0.4520 0.4583 0.5299 1.000 . . . . . .X7 0.1415 0.3009 0.2025 0.2665 0.2480 0.1590 1.000 . . . . . X8 0.0077 0.0344 0.1855 0.1065 0.0003 0.1100 0.3595 1.000 . . ..X9 0.2385 0.3523 0.3646 0.3644 0.3388 0.3982 0.5004 0.3314 1.000 .. .x10 0.0333 0.1726 0.1311 0.1757 0.1998 0.0342 0.5758 0.1420 0.28081.000 . .x11 0.0898 0.3878 0.2041 0.3191 0.3186 0.2914 0.2537 0.2025 0.39710.1468 1.000 .x12 0.2215 0.2427 0.4124 0.2169 0.1459 0.0985 0.4222 0.2156 0.50160.2286 0.0776 1.000;run;proc factor data=ex17_2 rotate=varimax reorder;var x1-x12;run;2.输出结果这是用主成分分析法提取初始公因子的第一部分结果,相关矩阵特征值总和为12 (指标数),前4个特征值都大于1,下面将根据这4个较大的特征值提取4个相应的初始公因子.含有4个公因子的初始公因子模型为:X1=0.63945F1-0.39857F2-0.30050F3-0.14330F4…X12=0.47558F1+ 0.44754F2 -0.58084F3+ 0.00825F4第1~第4个公因子能解释的方差分别为4.5719767、1.8813496、1.0527141和1.0214560。
SAS使用学习笔记(对应分析)1对应分析是不仅研究变量之间的关系、还要研究样品之间的关系。
它通过在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。
2对应分析例子下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。
各民族下面的小数是44种基因出现的频率。
基因型(JY)藏族(Z) 尼泊尔(N) 印度(Y) 汉族(H)。
程序:DATA b;INPUT jy $ 1-3 z 6-11 n 14-19 y 22-27 h 30-35;cards;A1 0.0308 0.01800.11900.0149A2 0.3333 0.10700.14800.3492A3 0.0204 0.01900.10100.0176A9 0.3037 0.27900.15600.1414A100.0409 0.01800.03900.0313A110.1354 0.42200.12600.2977A280.0000 0.01800.08300.0094A300.0413 0.00000.00000.0217A310.0518 0.03700.02200.0121A320.0000 0.01900.03900.0013A330.0000 0.06700.08300.0608B5 0.2828 0.11800.13400.0825B7 0.0000 0.01900.08000.0244B8 0.0102 0.01180.04500.0094B120.0102 0.03700.06600.0121B130.0102 0.07700.00600.0650B140.0000 0.00000.00600.0013B150.1923 0.25400.09600.1092B180.0050 0.02800.02200.0000B270.1067 0.00000.02600.0204B350.0626 0.05700.14800.0342B370.0102 0.01800.00900.0067B380.04650.0470 0.00300.0015B390.01020.0000 0.00900.0176B460.01020.00900.00000.1813B480.05720.15000.00300.0108B500.01020.01800.03700.0000B530.00500.0000 0.00600.0000B540.01530.00000.00000.0176B550.05720.02800.02600.0217B560.01020.00900.00600.0040B570.00500.01800.03900.0341B580.00000.06700.03300.0139B600.06260.02800.02200.0723B610.08990.00000.08300.1080B700.00500.00000.00800.0000C1 0.08990.03700.02300.1716C2 0.02040.00000.07300.0397C3 0.17980.10700.08300.3269C4 0.16510.07700.13400.0495C5 0.00000.00900.01600.0054C6 0.02560.24500.04500.0081C7 0.17120.21800.11900.1152C8 0.00500.00000.00400.0027;run;PROC CORRESP data=b OUTC=ccc;VAR z n y h;LABEL z='藏族'n='尼泊尔'y='印度'h='汉族';ID jy;RUN;DATA ccc;SET ccc;X=dim1;Y=dim2;XSYS ='2';YSYS ='2';TEXT =jy;SIZE =2;LABEL X='Dimension 1'Y='Dimension 2';keep X Y TEXT XSYS YSYS SIZE;RUN;PROC GPLOT DATA=ccc;SYMBOL1V=#;AXIS1LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;AXIS2LENGTH=5 IN ORDER=-1.3 TO 1.3 BY 0.2;PLOT Y*X=1 / ANNOTATE=ccc FRAME HAXIS=AXIS1VAXIS=AXIS2 HREF=0VREF=0;RUN;输出:The CORRESP ProcedureInertia and Chi-Square DecompositionSingular Principal Chi- CumulativeValue Inertia Square Percent Percent 8 16 24 32 40----+----+----+----+----+---0.42302 0.17895 1.83072 41.61 41.61 **************************0.39266 0.15418 1.57736 35.85 77.46 **********************0.31137 0.09695 0.99184 22.54 100.00 **************Total 0.43007 4.39992 100.00Degrees of Freedom = 129SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureRow CoordinatesDim1 Dim2A1 0.5878 0.8300A2 -0.4233 0.1209A3 0.5708 0.7845A9 0.0741 -0.1562A10 -0.0466 0.2818A11 0.0191 -0.3738A28 0.8269 0.8844A30 -0.7954 0.0516A31 0.1126 -0.1366A32 0.9506 0.5206A33 0.2931 0.1666B5 -0.0085 0.0766B7 0.5508 0.7576B8 0.5282 0.6647B12 0.6453 0.3736B13 -0.1439 -0.5749B14 0.6310 1.2240B15 0.1193 -0.3016B18 0.8250 -0.1198B27 -0.3381 0.2782B35 0.4306 0.4728B37 0.2494 -0.2481B38 0.1990 -0.6104B46 -1.2499 0.0376B48 0.4093 -0.9132B50 0.7714 0.4510B53 0.3664 0.8090B54 -0.9706 0.0684B55 -0.0427 0.0207B56 0.1278 -0.1051B57 0.0754 0.3742B58 0.6482 -0.3801B60 -0.4505 0.0137B61 -0.3745 0.4819B70 0.4748 0.9100C1 -0.7041 0.0091C2 0.0968 0.8397C3 -0.5193 0.0178C4 0.1452 0.2307C5 0.5711 0.3791C6 0.7305 -0.8444C7 0.1169 -0.1805C8 -0.1612 0.5353SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureSummary Statistics for the Row PointsQuality Mass InertiaA1 0.9966 0.0179 0.0431A2 0.9583 0.0916 0.0431A3 0.9744 0.0154 0.0347A9 0.3838 0.0860 0.0156A10 0.8715 0.0126 0.0027A11 0.6324 0.0959 0.0494A28 0.9068 0.0108 0.0406A30 0.5695 0.0062 0.0160A31 0.1562 0.0120 0.0056A32 0.9073 0.0058 0.0174A33 0.2820 0.0206 0.0193B5 0.0274 0.0603 0.0304B7 0.7996 0.0121 0.0308B8 0.9666 0.0075 0.0129B12 0.9043 0.0122 0.0175B14 0.9031 0.0007 0.0035B15 0.8864 0.0637 0.0176B18 0.9645 0.0054 0.0090B27 0.1832 0.0150 0.0364B35 0.9998 0.0295 0.0281B37 0.9998 0.0043 0.0012B38 0.5599 0.0096 0.0164B39 0.9636 0.0036 0.0040B46 0.6708 0.0196 0.1062B48 0.9847 0.0216 0.0511B50 0.9990 0.0064 0.0118B53 0.7205 0.0011 0.0027B54 0.9637 0.0032 0.0073B55 0.0150 0.0130 0.0045B56 0.3142 0.0029 0.0006B57 0.3852 0.0094 0.0083B58 0.7578 0.0111 0.0193B60 0.9902 0.0181 0.0086B61 0.9992 0.0275 0.0238B70 0.8576 0.0013 0.0036C1 0.9447 0.0314 0.0383C2 0.9242 0.0130 0.0234C3 0.9069 0.0681 0.0471C4 0.3959 0.0416 0.0182C5 0.6915 0.0030 0.0047C6 0.9669 0.0316 0.0949C7 0.9160 0.0609 0.0072C8 0.7360 0.0011 0.0011SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedurePartial Contributions to Inertia for the Row PointsDim1 Dim2A1 0.0345 0.0798A2 0.0918 0.0087A3 0.0281 0.0616A9 0.0026 0.0136A10 0.0002 0.0065A11 0.0002 0.0869A28 0.0412 0.0547A30 0.0218 0.0001A31 0.0009 0.0015A32 0.0293 0.0102A33 0.0099 0.0037B5 0.0000 0.0023B7 0.0204 0.0449B8 0.0116 0.0214B12 0.0285 0.0111B13 0.0018 0.0332B14 0.0016 0.0069B15 0.0051 0.0376B18 0.0204 0.0005B27 0.0096 0.0075B35 0.0306 0.0428B37 0.0015 0.0017B38 0.0021 0.0231B39 0.0059 0.0040B46 0.1711 0.0002B48 0.0202 0.1168B50 0.0212 0.0084B53 0.0008 0.0046B54 0.0169 0.0001B55 0.0001 0.0000B56 0.0003 0.0002B57 0.0003 0.0085B58 0.0261 0.0104B60 0.0205 0.0000B61 0.0215 0.0414B70 0.0016 0.0068C1 0.0871 0.0000C2 0.0007 0.0595C3 0.1026 0.0001C4 0.0049 0.0144C5 0.0054 0.0028C6 0.0944 0.1463C7 0.0047 0.0129C8 0.0002 0.0021SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureIndices of the Coordinates that Contribute Most to Inertia for the Row PointsDim1 Dim2 BestA1 2 2 2 A2 1 0 1 A3 2 2 2 A9 0 0 2 A10 0 0 2 A11 0 2 2 A28 2 2 2 A30 1 0 1 A31 0 0 2 A32 1 0 1 A33 0 0 1 B5 0 0 2 B7 0 2 2 B8 0 0 2 B12 1 0 1 B13 0 2 2 B14 0 0 2 B15 0 2 2 B18 0 0 1 B27 0 0 1 B35 2 2 2 B37 0 0 2 B38 0 0 2 B39 0 0 1 B46 1 0 1 B48 0 2 2 B50 0 0 1 B53 0 0 2 B54 0 0 1 B55 0 0 1 B56 0 0 1 B57 0 0 2 B58 1 0 1 B60 0 0 1 B61 2 2 2 B70 0 0 2 C1 1 0 1 C2 0 2 2 C3 1 0 1 C4 0 0 2 C5 0 0 1 C6 2 2 2 C7 0 0 2C8 0 0 2SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureSquared Cosines for the Row PointsDim1 Dim2A1 0.3329 0.6637A2 0.8860 0.0723A3 0.3373 0.6371A9 0.0705 0.3133A10 0.0232 0.8483A11 0.0016 0.6307A28 0.4230 0.4838A30 0.5671 0.0024A31 0.0632 0.0931A32 0.6979 0.2094A33 0.2131 0.0689B5 0.0003 0.0270B7 0.2765 0.5231B8 0.3742 0.5924B12 0.6773 0.2270B13 0.0341 0.5446B14 0.1896 0.7135B15 0.1198 0.7666B18 0.9445 0.0199B27 0.1092 0.0739B35 0.4533 0.5465B37 0.5025 0.4972B38 0.0538 0.5061B39 0.6037 0.3599B46 0.6702 0.0006B48 0.1647 0.8200B50 0.7445 0.2545B53 0.1227 0.5979B54 0.9589 0.0048B55 0.0122 0.0029B56 0.1874 0.1268B57 0.0150 0.3701B58 0.5639 0.1939B60 0.9893 0.0009B61 0.3762 0.6230B70 0.1835 0.6741C1 0.9445 0.0002C2 0.0121 0.9121C3 0.9058 0.0011C4 0.1123 0.2836C5 0.4801 0.2115C6 0.4139 0.5530C7 0.2707 0.6453C8 0.0612 0.6748SAS 系统 2008年05月04日星期日下午02时39分56秒 The CORRESP ProcedureColumn CoordinatesDim1 Dim2藏族 -0.2025 0.0083尼泊尔 0.3658 -0.5460印度 0.4529 0.5754汉族 -0.5915 0.0430Summary Statistics for the Column PointsQuality Mass Inertia藏族 0.1413 0.2629 0.1777尼泊尔 0.9737 0.2630 0.2713印度 0.9815 0.2274 0.2888汉族 0.7697 0.2468 0.2622Partial Contributions to Inertia for the Column PointsDim1 Dim2藏族 0.0602 0.0001尼泊尔 0.1967 0.5086印度 0.2606 0.4883汉族 0.4825 0.0030Indices of the Coordinates that Contribute Most to Inertia for the Column PointsDim1 Dim2 Best藏族 0 0 1尼泊尔 2 2 2印度 2 2 2汉族 1 0 1 Squared Cosines for the Column PointsDim1 Dim2藏族 0.1411 0.0002尼泊尔 0.3016 0.6721印度 0.3754 0.6060汉族 0.7657 0.0040说明:根据Column CoordinatesDim1 Dim2藏族 -0.2025 0.0083尼泊尔 0.3658 -0.5460印度 0.4529 0.5754汉族 -0.5915 0.0430,我们可以得到:藏族=-0.202490Dim1+0.008300Dim2尼泊尔= 0.365818Dim1-0.546045Dim2印度= 0.452903Dim1+0.575439Dim2汉族=-0.591500Dim1+0.042981Dim2在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量就是1个点,如Z(藏族)点的坐标为(-0.202490,0.008300)。
对应分析当A 与B 的取值较少时,把所得的数据放在一张列联表中,就可以很直观的对A 与B 之间及它们的各种取值之间的相关性作出判断,当ij P 较大时,则说明属性变量A 的第i 状态与B 的第j 状态之间有较强的依赖关系.但是,当A 或者B 的取值比较多时,就很难正确的作出判断,此时就需要利用降维的思想简化列联表的结构.几个基本定义:我们此处讨论因素A 有n 个水平,因素B 有p 个水平。
行剖面:当变量A 的取值固定为i 时(i=1,2,…,n ),变量B 的各个状态相对出现的概率情况,即:可以方便的把第i 行表示成在p 维欧氏空间中的一个点,其坐标为:),,,(..2.1i ip i i i i rip p p p p p p = ,i=1,2,… , n ,实际上,该坐标可以看成p 维超平面121=+++p x x x 上的点。
记n 个行剖面的集合为n(r)。
由于列联表行与列的地位是对等的,由上面行剖面的定义方法,可以很容易的定义列剖面。
列剖面:),,,(..2.1j njj j j j cjp p p p p p p = ,j=1,2,… , p,实际上,该坐标可以看成n 维超平面121=+++n x x x 上的点。
记p 个列剖面的集合为p(c)。
定义了行剖面和列剖面之后,我们看到属性变量A 的各个取值情况可以用p 维空间的n 个点来表示,而B 的不同取值情况可以用n 维空间上的p 个点来表示。
而对应分析就是利用降维思想,把A 的各个状态表现在一张二维图上,又把B 的各个状态表现在一张二维图上,且通过后面的分析可以看到,这两张二维图的坐标有着相同的含义,即可以把A 的各个取值与B 的各个取值同时在一张二维图上表示出来。
距离:通过行剖面与列剖面的定义,A 的不同取值可以利用P 维空间中的不同点表示,各个点的坐标分别为ri P (i=1,2,…,n )。
而B的不同取值可以用n 维空间中的不同点表示,各个点的坐标分别为cj P (j=1,2,…,p )。
SAS讲义十课因子分析第三十六课因子分析因子分析(Factor Analysis )是主成分分析的推广,它也是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
具体地说,就是要找出某个问题中可直接测量的、具有一定相关性的诸指标,如何受少数几个在专业中有意义,又不可直接测量到,且相对对立的因子支配的规律,从而可用诸指标的测定来间接确定诸因子的状态。
一、何为因子分析因子分析的目的是用有限个不可观察的潜在变量来解释原变量间的相关性或协方差关系。
在这里我们把不可观察的潜在变量称为公共因子(common factor )。
在研究样品时,每个样品需要检测很多指标,假设测得p 个指标,但是这p 个指标可能受到m (m ++++=++++=++++=pm pm p p p m m m m e f a f a f a X e f a f a f a X e f a f a f a X 2211222221212112121111 (36.1) 利用矩阵记号有111+=p m m P p e f A X (36.2)各个指标变量都受到i f 的影响,因此i f 称为公共因子,A 称为因子载荷矩阵,i e 是单变量i X 所特有的因子,称为i X 的特殊因子(unique factor )。
设1f ,2f ,…,m f 分别是均值为0,方差为1的随机变量,即m I f D =)(;特殊因子1e ,2e ,…,p e 分别是均值为0,方差为21d ,22d ,…,2p d 的随机变量,即D d d d e D p ==),,,diag()(22221 ;各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即j i e e Cov j i ≠=,0),(及0),(=f e Cov 。
错误!未定义书签。
是第j 个变量在第i 个公共因子上的负荷,从投影的角度看,ji a 就是j X 在坐标轴i f 上的投影。
第3章对应分析第1节方法的概述主成分分析、因子分析、变量聚类分析都是研究变量之间的相互关系。
有时,在某些实际问题中,既要研究变量之间的关系、还要研究样品之间的关系。
不仅如此,人们往往还希望能在同一个直角坐标系内同时表达出变量与样品两者之间的相互关系。
实现这一目的的方法,称为对应分析(Correspondence Analysis)。
对应分析,也称相应分析,它是列联表资料的加权主成分分析,用它去寻求列联表的行列变量之间联系的低维图示法。
此方法的关键是利用一种数据变换方法,使含有n个样品m个变量的原始数据矩阵变成另一个矩阵,并使R=Z'Z(分析变量之间关系的协方差矩阵)与Q=ZZ'(分析样品之间关系的协方差矩阵)具有相同的非零特征根,它们相应的特征向量之间也有密切的关系。
对协方差矩阵R、Q进行加权主成分分析或因子分析,分别能提取两个最重要的公因子R1、R2与Q1、Q2。
由于采取的是一种特殊变换方法,公因子R1与Q1在本质上是相同的,同理,R2与Q2在本质上也是相同的,故可用dim1作为R1、Q1的统一标志;用dim2作为R2、Q2的统一标志,于是可将(R1,Q1)和(R2,Q2)两组数据点在由(dim1,dim2)组成的同一个直角坐标系中。
这样,便于考察变量与样品之间的相互关系。
第2节对应分析中的变量变换方法设原始数据矩阵X=(xij)nm,i=1,2,…,n(n为样品数);j=1,2,…,m(m为变量数)。
又设xi.为第i行的合计、x.j为第j列的合计、x..为全部数据的合计,则变量变换的公式为:(6.3.1)由此变换产生出矩阵Z,即。
分别对R=Z'Z与Q=ZZ'进行加权主成分分析或因子分析,就实现了对应分析。
从这种变换可以看出:原始数据xij并非一定是频数,也可以是正实数。
这说明对应分析可以处理R×C列联表资料,也可处理适合作主成分分析、因子分析、聚类分析的资料。
第三十七课 典型相关分析典型相关分析(Canonical Correlation Analysis )是研究两组变量间相关关系的一种多元统计分析方法。
它能够揭示两组变量之间的内在联系,真正反映两组变量间的线性相关情况。
一、 典型相关分析我们研究过两个随机变量间的相关,它们可以用相关系数表示。
然而,在实际中常常会遇到要研究两组随机变量间),,,(21p x x x 和),,,(21q y y y 的相关关系问题。
),,,(21p x x x 和),,,(21q y y y 可能是完全不同的,但是它们的线性函数可能存在密切的关系,这种密切的关系能反映),,,(21p x x x 和),,,(21q y y y 之间的相关关系。
因此,就要找出),,,(21p x x x 的一个线性组合u 及),,,(21q y y y 的一个线性组合v ,希望找到的u 和v 之间有最大可能的相关系数,以充分反映两组变量间的关系。
这样就把研究两组随机变量间相关关系的问题转化为研究两个随机变量间的相关关系。
如果一对变量(u ,v )还不能完全刻画两组变量间的相关关系时,可以继续找第二对变量,希望这对变量在与第一对变量(u ,v )不相关的情况下也具有尽可能大的相关系数。
直到进行到找不到相关变量对时为止。
这便引导出典型相关变量的概念。
1. 典型相关系数与典型相关变量设有两组随机变量),,,(21p x x x 和),,,(21q y y y ,假定它们都已经标准化了,即p i x D x E i i ,,2,1= ,1=)(,0=)( ,q i y D y E i i ,,2,1= ,1=)(,0=)( ,若记:⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=p p y y y y x x x x 2121, 此时,它们的协方差矩阵(也是相关系数矩阵)为:R R R R R y x D yy xy yx xx =⎪⎪⎭⎫ ⎝⎛=⎪⎪⎭⎫ ⎝⎛ 其中,()()yx xy yy xx R R y x Cov R y D R x D ====),(,,实际上,我们要找:y m v x l u 1111,'='=使1u 和1v 的相关系数),(11v u ρ达到最大。
SPSS软件中对应分析对应分析当A 与B 的取值较少时,把所得的数据放在⼀张列联表中,就可以很直观的对A 与B 之间及它们的各种取值之间的相关性作出判断,当ij P 较⼤时,则说明属性变量A 的第i 状态与B 的第j 状态之间有较强的依赖关系.但是,当A 或者B 的取值⽐较多时,就很难正确的作出判断,此时就需要利⽤降维的思想简化列联表的结构.⼏个基本定义:我们此处讨论因素A 有n 个⽔平,因素B 有p 个⽔平。
⾏剖⾯:当变量A 的取值固定为i 时(i=1,2,…,n ),变量B 的各个状态相对出现的概率情况,即:可以⽅便的把第i ⾏表⽰成在p 维欧⽒空间中的⼀个点,其坐标为:),,,(..2.1i ip i i i i rip p p p p p p = ,i=1,2,… , n ,实际上,该坐标可以看成p 维超平⾯121=+++p x x x 上的点。
记n 个⾏剖⾯的集合为n(r)。
由于列联表⾏与列的地位是对等的,由上⾯⾏剖⾯的定义⽅法,可以很容易的定义列剖⾯。
列剖⾯:),,,(..2.1j njj j j j cjp p p p p p p = ,j=1,2,… , p,实际上,该坐标可以看成n 维超平⾯121=+++n x x x 上的点。
记p 个列剖⾯的集合为p(c)。
定义了⾏剖⾯和列剖⾯之后,我们看到属性变量A 的各个取值情况可以⽤p 维空间的n 个点来表⽰,⽽B 的不同取值情况可以⽤n 维空间上的p 个点来表⽰。
⽽对应分析就是利⽤降维思想,把A 的各个状态表现在⼀张⼆维图上,⼜把B 的各个状态表现在⼀张⼆维图上,且通过后⾯的分析可以看到,这两张⼆维图的坐标有着相同的含义,即可以把A 的各个取值与B 的各个取值同时在⼀张⼆维图上表⽰出来。
距离:通过⾏剖⾯与列剖⾯的定义,A 的不同取值可以利⽤P 维空间中的不同点表⽰,各个点的坐标分别为ri P (i=1,2,…,n )。
⽽B的不同取值可以⽤n 维空间中的不同点表⽰,各个点的坐标分别为cj P (j=1,2,…,p )。
因子分析的基本概念和步骤一、因子分析的意义在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面、完整的把握和认识。
例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的次数等。
虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物,但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合理的正比,反而会给统计分析带来很多问题,可以表现在:计算量的问题由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计算工作量。
虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容忽视的。
变量间的相关性问题收集到的诸多变量之间通常都会存在或多或少的相关性。
例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。
而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。
例如,多元线性回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生。
为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。
因子分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于20世纪初Karl Pearson和Charles Spearmen等人关于智力测验的统计分析。