主成分分析法在我国居民生活质量状况-多元统计分析
- 格式:doc
- 大小:551.50 KB
- 文档页数:15
多元统计分析
多元统计分析(multivariate statistical analysis)是指使用多种统计方法来分析多个变量之间关系的方法。
它是应用数学、
计算机和统计学原理对多个变量之间的相互关系展开的一种基于数
据挖掘的分析方法。
它通过对多个变量进行综合分析来发现数据隐
藏的规律和模式,以及变量之间的相关性和因果关系。
多元统计分析可以应用于许多领域,如社会科学、商业、医学、金融等。
其主要方法包括因子分析、主成分分析、聚类分析、回归
分析、判别分析等。
多元统计分析有助于提高数据分析的深度和广度,并在数据分
析上寻找新的解决方法。
同时,它也使得决策者更加理性地分析和
理解结果,以便做出更准确的决策。
统计学中的多元统计分析方法多元统计分析是统计学的一个重要分支,用于处理多个变量之间的关系和相互作用。
它提供了一种全面理解和解释数据的方式,使我们能够更好地理解现象和预测未来趋势。
在本文中,我们将介绍几种常见的多元统计分析方法,并讨论它们的应用场景和计算步骤。
一、主成分分析(Principal Component Analysis,PCA)主成分分析是一种无监督学习方法,用于降低数据维度并发现主要成分。
其目标是通过线性变换将高维数据转化为低维表示,以便更好地解释数据的方差。
主成分分析通过计算特征值和特征向量来确定主要成分,并将数据投影到这些主成分上。
主成分分析常用于数据降维和可视化。
二、因子分析(Factor Analysis)因子分析是一种用于统计数据降维和变量关系分析的方法。
它通过将一组观测变量解释为一组潜在因子来发现数据背后的结构。
因子分析可以帮助我们理解变量之间的相关性,发现潜在的构成因素,并将多个变量归纳为更少的几个因子。
因子分析在市场研究、心理学和社会科学等领域得到广泛应用。
三、判别分析(Discriminant Analysis)判别分析是一种监督学习方法,用于寻找最佳分类边界,并将数据点分配到不同的类别中。
判别分析通过计算组间方差和组内方差来确定最优的分类边界。
它常用于模式识别、生物医学和金融领域等。
通过判别分析,我们可以了解变量对于区分不同类别的贡献程度,并进行有效的样本分类。
四、聚类分析(Cluster Analysis)聚类分析是一种无监督学习方法,用于将相似的数据点组合成不同的类别或群集。
聚类分析通过度量数据点之间的相似性来揭示数据的内在结构。
常见的聚类方法包括K均值聚类和层次聚类。
聚类分析在市场细分、图像分析和生物学分类等领域具有重要应用。
五、回归分析(Regression Analysis)回归分析是一种用于建立变量之间关系模型的方法。
它通过拟合一个数学模型来预测一个或多个自变量对应因变量的值。
多元统计分析多元统计分析是一种用于处理和解释多维数据的方法。
它将多个变量同时考虑,并探索变量之间的关系和模式。
在许多领域,例如社会科学、医学研究和市场调查中,多元统计分析被广泛应用于数据分析和决策支持。
通过对大量数据进行综合分析,我们可以获得更准确的结论和洞察力,为问题的解决提供有力的支持。
1. 多元统计分析的基本概念和方法多元统计分析涉及许多不同的技术和方法。
其中一些包括主成分分析、因子分析、聚类分析、判别分析和多元回归分析。
这些方法可以帮助我们降维、识别变量间的关系、发现群组和预测未来趋势。
2. 主成分分析主成分分析是一种降维技术,可以将大量的变量转化为相对较少的几个无关变量,称为主成分。
通过这种方式,我们可以更好地理解数据,并减少冗余信息。
主成分分析通常用于数据可视化和探索性分析。
3. 因子分析因子分析是一种用于探索变量之间潜在关系的技术。
它可以帮助我们确定潜在因素,即变量背后的共同因素。
因子分析常用于市场研究,以确定产品特征或消费者态度的维度。
通过这种方式,我们可以对复杂的数据进行简化和解释。
4. 聚类分析聚类分析是一种将相似观测对象划分为群组的技术。
它基于变量间的相似性或距离度量,将观测对象聚合在一起,并形成具有相似特征的群组。
聚类分析常用于市场分割和客户分类。
5. 判别分析判别分析是一种用于预测和分类的技术。
它可以帮助我们从一系列的预测变量中确定哪些变量对于区分不同组别是最重要的。
判别分析常用于医学诊断、人力资源管理和贷款风险评估等领域。
6. 多元回归分析多元回归分析用于研究多个自变量对因变量的影响。
通过建立回归模型,我们可以理解各个变量对于因变量的相对重要性,并进行预测和解释。
总结:多元统计分析是一种强大的数据分析工具,可以帮助我们理解和解释复杂的多维数据。
通过运用各种分析方法,我们可以从大量的数据中发现模式和关系,并得出准确的结论和洞察力。
无论是在学术研究、商业决策还是社会科学领域,多元统计分析都发挥着重要的作用。
多元统计分析与主成分分析多元统计分析是一种分析多个变量之间关系的方法,通过统计模型来揭示不同变量之间的相关性和相互作用。
而主成分分析则是多元统计分析中的一种方法,用于降低变量维度和提取最重要的信息。
在多元统计分析中,我们常常面临大量的变量,而这些变量相互之间可能存在一定的相关性。
在这种情况下,我们需要找到一种方法来降低变量的维度,以便更好地理解和解释数据。
主成分分析就是一种能够帮助我们达到这一目标的方法。
主成分分析通过线性变换将原始的变量转化为一组新的变量,这些新的变量被称为主成分。
每个主成分代表了原始变量中的一部分信息,而且它们之间相互独立。
通过主成分分析,我们可以将变量的维度从原来的n维降低到k维,并保留了大部分的信息。
主成分分析的过程可以简单地分为以下几个步骤:1. 数据标准化:首先,我们需要对原始数据进行标准化处理,确保各个变量具有相同的量纲和可比性。
2. 计算相关矩阵:然后,我们计算原始数据中各个变量之间的相关系数矩阵,以评估它们之间的线性关系。
3. 求解特征值和特征向量:接下来,我们通过对相关矩阵进行特征值分解,求解出对应的特征值和特征向量。
4. 确定主成分数目:我们根据特征值的大小来确定需要保留的主成分数目。
通常我们选择特征值较大的前k个主成分,以保留较大比例的信息。
5. 计算主成分得分:在确定主成分数目后,我们计算每个观测值在各个主成分上的得分,得到一组新的主成分变量。
6. 解释主成分:最后,我们对每个主成分进行解释和解读,以理解它们所代表的原始变量的意义和权重。
通过主成分分析,我们可以简化多元统计分析的复杂性,并找到最具解释力的主成分来解释原始数据。
这种方法不仅可以应用于各种领域的数据分析,还可以帮助我们发现变量之间的潜在关联和主要影响因素。
总结起来,多元统计分析和主成分分析是一对不可或缺的分析工具。
多元统计分析可以帮助我们理解变量之间的关系,而主成分分析则可以降低变量的维度和提取关键信息。
多元统计分析实验报告多元统计分析实验报告一、引言多元统计分析是一种研究多个变量之间关系的统计方法,可以帮助我们更全面地了解数据集中的信息。
本实验旨在通过多元统计分析方法,探索不同变量之间的关系,并分析其对研究结果的影响。
二、数据收集与处理在本实验中,我们收集了一份关于学生学业成绩的数据集。
数据集包括学生的性别、年龄、家庭背景、学习时间、考试成绩等多个变量。
为了方便分析,我们对数据进行了清洗和预处理,包括删除缺失值、标准化处理等。
三、描述性统计分析在进行多元统计分析之前,我们首先对数据进行了描述性统计分析。
通过计算各变量的均值、标准差、最小值、最大值等统计量,我们对数据的整体情况有了初步的了解。
例如,我们发现男生和女生的平均成绩存在差异,家庭背景与学习时间之间存在一定的相关性等。
四、相关性分析为了探索不同变量之间的关系,我们进行了相关性分析。
通过计算各个变量之间的相关系数,我们可以了解它们之间的线性关系强弱。
通过绘制相关系数矩阵的热力图,我们可以直观地观察到各个变量之间的相关性。
例如,我们发现学习时间与考试成绩之间存在较强的正相关关系,而年龄与考试成绩之间的相关性较弱。
五、主成分分析主成分分析是一种常用的降维方法,可以将多个相关变量转化为少数几个无关的主成分。
在本实验中,我们应用主成分分析方法对数据进行了降维处理。
通过计算各个主成分的解释方差比例,我们可以确定保留的主成分个数。
通过绘制主成分得分图,我们可以观察到不同变量在主成分上的贡献程度。
例如,我们发现第一主成分主要与学习时间和考试成绩相关,而第二主成分主要与家庭背景和性别相关。
六、聚类分析聚类分析是一种将样本按照相似性进行分类的方法,可以帮助我们发现数据集中的潜在模式和群体。
在本实验中,我们应用聚类分析方法对学生进行了分类。
通过选择适当的聚类算法和距离度量,我们可以将学生分为不同的群体。
通过绘制聚类结果的散点图,我们可以观察到不同群体之间的差异。
多元统计分析随着社会的发展和科学的进步,数据分析的需求日益增长,而多元统计分析作为一种强大的统计工具,能够帮助我们更深入地理解数据背后的规律和关联性。
本文将介绍多元统计分析的概念、应用场景以及常用的方法。
一、多元统计分析概述多元统计分析是一种涉及多个变量之间关系的统计分析方法。
它可以通过分析数据集中多个变量之间的关联性,揭示出隐藏在数据背后的规律和结构,从而更好地理解数据以及作出推断和预测。
二、多元统计分析的应用场景1. 市场研究分析多元统计分析在市场研究领域有着广泛的应用。
例如,一家公司希望了解不同产品特征对消费者购买行为的影响,可以通过多元统计分析来确定哪些产品特征对消费者产生了积极的影响,从而制定出更加精准的市场策略。
2. 医学研究分析在医学领域,多元统计分析可以用于研究不同变量与疾病之间的关联性。
例如,通过对大量病例和对照组数据的分析,可以找到与某种疾病相关的风险因素,从而有针对性地预防和治疗疾病。
3. 社会科学研究分析社会科学研究中的数据通常包含多个变量,如人口、教育水平、收入等。
通过多元统计分析,可以了解不同变量之间的关系,从而对社会现象作出解释和预测。
三、常用的多元统计分析方法1. 主成分分析(PCA)主成分分析是一种用于降维的多元统计方法,它将原始的高维数据通过线性变换,转化为低维的主成分,从而保留了原始数据中的大部分信息。
主成分分析常用于数据可视化和特征选择。
2. 因子分析因子分析是一种用于探索数据内部结构的方法,它可以识别出数据集中的潜在因子,并将多个观测变量归纳为几个共同的因子。
因子分析在心理学、教育学等领域具有广泛的应用。
3. 判别分析判别分析是一种用于分类的多元统计方法,它通过寻找最佳的分割线,将不同类别的样本划分为不同的群组。
判别分析在模式识别和数据分类中具有重要的意义。
4. 聚类分析聚类分析是一种将相似样本归类到同一组的方法,通过测量样本之间的相似性或距离来实现。
聚类分析常用于数据分类、市场细分以及生物学、地理学等领域的研究。
一、什么是多元统计分析❖多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。
❖多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。
二、多元统计分析的内容和方法❖1、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1)主成分分析(2)因子分析(3)对应分析等❖2、分类与判别(归类问题)对所考察的变量按相似程度进行分类。
(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。
(2)判别分析:判别样本应属何种类型的统计方法。
例5:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。
考察指标有6个:1、X1:每千居民拥有固定电话数目2、X2:每千人拥有移动电话数目3、X3:高峰时期每三分钟国际电话的成本4、X4:每千人拥有电脑的数目5、X5:每千人中电脑使用率6、X6:每千人中开通互联网的人数❖3、变量间的相互联系一是:分析一个或几个变量的变化是否依赖另一些变量的变化。
(回归分析)二是:两组变量间的相互关系(典型相关分析)❖4、多元数据的统计推断点估计参数估计区间估计统 u检验计参数 t检验推 F检验断假设相关与回归检验卡方检验非参秩和检验秩相关检验❖1、假设检验的基本原理小概率事件原理❖ 小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。
反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。
❖ 2、假设检验的步骤 (1)提出一个原假设和备择假设❖ 例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cm (u=160cm )。
这种原假设也称为零假设( null hypothesis ),记为 H 0 。
应用多元统计分析实验报告一、研究目的下表1是2010年各地区6项重要指标的数据,这6项指标分别是:X1—城市用水普及率(%)X2—城市燃气普及率(%)X3—每万人拥有公共交通车辆(标台)X4—人均城市道路面积(平方米)X5—人均公园绿地面积(平方米)X6—每万人拥有公共厕所(座)表1 各地区城市设施水平指标本次实验的研究目的是根据这些指标用主成分分析法对各地区城市设施水平进行综合评价和排序,得出结论并提出建议。
二、研究过程从标准化数据出发,首先计算这些指标的主成分,然后通过主成分的大小进行排序。
1.利用SPSS进行因子分析表2和表3分别是特征根(方差贡献率)和因子载荷阵的信息。
表3 因子载荷阵2.利用因子分析结果进行主成分分析 ⑴.表4是特征向量的信息表4 特征向量矩阵 z1 z2 z3 z4 z5 z6 x1 0.52 0.35 (0.31) (0.00) 0.08 0.70 x2 0.58 0.09 (0.19) 0.45 (0.37) (0.53) x3 0.17 0.67 0.26 (0.36) 0.41 (0.39) x4 0.43 (0.32) 0.32 (0.66) (0.41) 0.03 x5 0.41 (0.51) 0.25 0.21 0.68 (0.01) x6 (0.01) 0.23 0.79 0.43 (0.24) 0.28⑵.利用主成分得分进行综合评价时,从特征向量可以写出所有6个主成分的具体形式:Y1=0.52X1+0.68X2+0.17X3+0.43X4+0.41X5-0.01X6Y2=0.35X1+0.09X2+0.67X3-0.32X4-0.51X5+0.23X6 Y3=-0.31X1-0.19X2+0.26X3+0.32X4+0.25X5+0.79X6 Y4=0.00X1+0.45X2-0.36X3-0.66X4+0.21X5+0.43X6 Y5=0.08X1-0.37X2+0.41X3-0.41X4+0.68X5-0.24X6 Y6=0.70X1-0.53X2-0.39X3+0.03X4-0.01X5+0.28X6⑶.以特征根为权,对6个主成分进行加权综合,得出各地区的综合得分及排序,具体数据见表5.综合得分的计算公式是6161Y Y Y ii ∑∑+⋯+=λλλλ三、结果说明从表5可以看出,北京、天津。
主成分分析法的应用
主成分分析法(Principal Component Analysis,简称PCA)是一种多元统计分析方法,它主要是用来分析一个或多个变量间的关系和潜在的结构关系。
它具有低维特征提取、线性和非线性的特征维度减少、数据可视化等多项优点,能够挖掘出原始数据内所存在的
内在关系,使得原始数据内信息内容降维有效表达,是用于正确理解原始数据量的有力工具。
PCA在实际应用中有很多方面的优势:
1、可以有效的进行特征维度的减少,由于数据的降维,可以有效的减少计算机计算
负荷;
2、能够给出较好的预测结果,由于PCA可以有效的提取出更多的信息,所以它在一
定程度上给出更好的预测结果,有时甚至优于传统的机器学习算法;
3、可以进行综合性的数据分析和可视化,给出各种数据之间较好的联系,让原始故
事更好地展示出来;
4、可以有效的进行特征相关性分析,让我们更快更准确的进行数据分析,以及能够
从大量原数据中提取出高质量的特征信息;
5、有助于减少变量之间的相互作用,PCA有助于减少变量之间的相关性,从而避免变量间的耦合性,从而更能把握变量的特征信息,从而更好的理解最佳预测模型,让数据分
析更精准。
以上就是PCA在实际应用中可能具备的优势,当然在不同行业也可能因业务特点不同
而有所差别。
因此,有必要在应用PCA前深入思考,结合具体实际,研究PCA在自己行业
应用中的优势。
第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。
例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。
在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。
总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。
上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。
如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。
显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。
而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。
在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。
为提高科学性、可靠性,通常需要定性与定量分析相结合。
实践证明,多元分析是实现做定量分析的有效工具。
几种多元统计分析方法及其在生活中的应用探讨作者:刘蓉娜来源:《青年与社会》2014年第22期【摘要】多元统计方法是利用数理统计的方法研究多种变量的方法,文章通过多元统计方法中的因子分析法、主成分分析法、聚类分析法,探讨多元统计方法在生活中的实际运用。
【关键词】多元统计分析;因子分析;主成分分析;聚类分析多元统计分析包含着简化数据结构、分类与判别问题、处理变量间相互关系、推断多数据的统计等主要内容。
在多元统计分析中,常见的统计方法有对应分析、回归分析、因子分析、聚类分析、主成分分析等种类。
多元统计分析应用范围广泛,在教育学、医学、气象学、环境科学和经济学等方面起着重要的数量与数据统计的作用。
以下简要介绍多元统计方法中的因子分析法、主成分分析法、聚类分析法三种分析方法在生活中的实际运用。
一、因子分析及其在学生成绩评级中的应用实例在生活中,对各种因素进行全面的考量,是系统分析问题和处理问题的关键,由于多元处理的问题时多变量的问题,在实际的考察中,每个因子的变量个数不一,因此,必须考量变量的个数和实际的关联性,在这种多元统计分析的前提下,因子分析法便应运而生。
因子分析主要研究的是相关矩阵与方阵之间的依赖关系,通过将多个变量转化成为可供考量的因子,实现因子和原始数据之间的关联。
因子分析的核心问题在于构造因子变量和对因子进行变量命名。
在因子分析的计算中,确定因子变量主要包括以下几步,首先将原始数据标准化,得到标准化的矩阵,通过矩阵特征向量,计算方差的贡献率,最终确定方差因子。
若此时方差因子的贡献率并不明显,可以巩固原指标的组合来求得因子的得分,得到综合得分的顺序。
例如,通过因子分析在学生成绩评价中的应用实例,直观化因子分析方法。
随机抽取5名学生,对其六门课程进行成绩统计。
如图所示:数学物理化学英语历史语文1 66 97 82 79 96 822 77 93 95 55 96 853 80 88 86 57 96 814 78 87 78 63 83 855 68 78 80 74 78 85通过因子分析得到相关矩阵图,在矩阵图中,通过因子的贡献率提取因子的个数,得到本例中的因子分析模型是:数学=-0.71F1+0.58F2;物理=-0.92F1+0.22F2;化学=-0.56F1+0.676F2;英语=-0.685F1+0.438F2;历史=-0.795F1+0.475F2;语文=-0.900F1+0.339F2;在因子的旋转与分析中,得到因子分析数据表,实现教学中对学生文理科因子划分的翔实依据,如表所示:数学物理化学语文历史英语 FACl_1 FACl_21 66 97 82 82 96 79 -.35356 .895732 77 93 95 85 96 55 -.54660 -1.028283 67 88 86 81 96 57 .48910 -.955084 80 87 78 85 83 63 -1.44276 .971465 78 78 80 85 78 74 1.32205 .29351二、主成分分析及其在学生评价中的应用实例主成分分析法的原理和因子分析法的工作原理相同,都是通过将多变量减少为可供考量的数据将数据的统计简单化。
《多元统计分析》课程设计报告 学生姓名: 峰 学 号: 090 090 鹤 090 学 院: 理学院 班 级: 数学0 题 目: 主成分分析法在我国居民生活质量状况
综合评价中的应用 指导教师: 辰 职称: 教 授
红 讲 师
2012 年 12 月 7 日 2
一、问题分析 1.1 问题及背景 人均GDP达到1000美元,标志着我国居民生活水平迈上了一个新台阶,我国经济步入了一个崭新的发展时期。然而,我国地域辽阔,人口众多,地区间经济发展很不平衡,城乡差距明显,经济发展的非均衡性已经严重威胁到我国经济的持续、健康发展。若不妥善处理,将会成为制约我国经济发展的瓶颈因素。事实上,东、中、西部地区的经济发展差距已是众所周知,并引起中央政府和有关部门的广泛重视。但在地区间经济发展差距的背后,东、中、西部地区居民的生活质量究竟存在着多大的差距却鲜为人知。随着生产力水平的不断提高,我国居民生活水平不断提高,生活质量也在不断改善。但是,受各地生产力发展水平不平衡的影响,我国各地居民的生活质量也表现为不平衡。利用主成分分析法对我国31个省市、自治区居民的生活状况进行评价分析。为全面分析各地居民生活状况,可选取如下指标体系进行反应:职工人均工资、人均居住面积、城市人均用水普及量、城市煤气普及量、人均拥有道路面积、人均绿地公共面积、批发零售贸易商品销售总额、旅游外汇收入。对我国居民生活质量问题的研究不仅是社会经济发展的客观要求,也是我国全面建设小康社会的迫切需要 城市居民生活质量的评价体系,是依据中国城市居民生活的特征,并参阅国内外生活质量评价研究的大量成果后构建的,集中体现了研究者的专业知识和对生活质量评价体系的理论构思,具有主观色彩,因此,有必要对理论遴选的评价指标进行隶属度分析、相关分析和辨别力分析等实证筛选,以增强评价指标的科学性、合理性和可操作性。 3
1.2 数据 图1 数据来源:《中国统计年鉴2009》 4
二、主成分分析方法基本原理 2.1 主成分分析定义 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。 2.2 主成分分析法方法简介
主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。又称主分量分析。在实际课题中,为了全面分析问题,往往提出很多与此有关的变量(或因素),因为每个变量都在不同程度上反映这个课题的某些信息。主成分分析首先是由K.皮尔森对非随机变量引入的,尔后H.霍特林将此方法推广到随机向量的情形。信息的大小通常用离差平方和或方差来衡量。主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用1F(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(1F)越大,表示1F包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称1F为第一主成分。如果第一主成分不足 5
以代表原来P个指标的信息,再考虑选取2F即选第二个线性组合,为了有效地反映原来信息,1F已有的信息就不需要再出现在2F中,用数学语言表达就是要求0)F,F(21Cov,则称2F为第二主成分,依此类推可以构造出第三、第四,„„,第P个主成分。 ppi22i11iXaXaXaFp其中m),1,(ia, ,a ,api2i1i为X的协方差阵Σ的特征值所对应的特征向量,P21X , ,X ,X是原始变量经过标准化处理的值,因为在实际应用中,往往存在指标的量纲不同,所以在计算之前须先消除量纲的影响,而将原始数据标准化,本文所采用的数据就存在量纲影响。
iaiaim21ijR,)a,a,(am)p(aA,R为相关系数矩阵,i、ia是相应的特征值和单位特征向量,0p21。 进行主成分分析主要步骤如下: 1. 指标数据标准化; 2. 指标之间的相关性判定; 3. 确定主成分个数m; 4. 主成分iF表达式; 5. 主成分iF命名; 其中Li为p维正交化向量,iZ之间互不相关且按照方差由大到小排列,则称iZ为X的第I个主成分。设X的协方差矩阵为Σ,则Σ必为半正定对称矩阵,求特征值i(按从大到小排序)及其特征向量,可以证明,i所对应的正交化特征向量,即为第I个主成分iZ所对应的系数向量iL,而iZ的方差贡献率定义为ji/,通常要求提取的主成分的数量k满足85.0/kj。
2.3主成分分析主要目的 主成分分析主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量。通常是选出比原始变量个数少,能解释大部分资料中的变异的几个新变量,即所谓主成分,并用以解释资料的综合性指标。由此可见,主成分分析实际上是一种降维方法。 6
三、问题求解 第一步:录入数据,有以下变量:职工人均工资,人均居住面积,城市人口用水普及量,城市煤气普及量,人均拥有道路面积,人均绿地公共面积,批发零售贸易商品销售总额,旅游外汇收入,见图2
图2 第二步:选择功能模块
图3 7
第三步:将变量添加到Varicrible 图4 第四步:输入信息
图5 8 图6
图7 9 图8
第五步:单击“OK”按钮,完成运算。
图9 10
四、结果分析 Communalities Initial Extraction 人均工资 1.000 .730
居住面积 1.000 .598
人均用水 1.000 .636
煤气普及 1.000 .794
人均道路 1.000 .776
人均绿地 1.000 .771
商品总额 1.000 .883
旅游外汇 1.000 .653
分析:第一列是列出八个原始变量,第二列是根据主成分分析初始解计算出变量共同度,第三列是是根据主成分分析最终解计算出变量共同度,这时由于因子变量个数少于原始变量个数,因此每个变量的共同度必然小于1。例如,第一行中0.730表示m个因子变量共同解释掉原始变量“人均工资”方差72.2%。
Total Variance Explained
Component Initial Eigenvalues Extraction Sums of Squared Loadings Rotation Sums of Squared Loadings Total % of Variance Cumulative % Total % of Variance Cumulative % Total % of Variance Cumulative %
1 3.955 49.438 49.438 3.955 49.438 49.438 3.874 48.419 48.419 2 1.886 23.581 73.019 1.886 23.581 73.019 1.968 24.600 73.019 3 .883 11.033 84.051 4 .463 5.783 89.834 5 .442 5.530 95.364 6 .230 2.874 98.239 7 .093 1.164 99.403 8 .048 .597 100.000 Extraction Method: Principal Component Analysis.
分析:上表为SAS输出结果,从上表可以看出特征值和和贡献率。从上表可以看出公共因子对原变量总体的描述情况。可以看出前2个公共因子的的贡献率达到73.019%,所以提取2个公共因子就可以反映原变量的大部分信息。