对应分析建模与应用
- 格式:doc
- 大小:391.00 KB
- 文档页数:11
对应分析建模与应用*
林海明1 林媛媛2
1.广东商学院经济贸易与统计学院
2.香港科技大学数学系
摘要:传统的对应分析是方法不唯一、没有模型的一种统计方法,其在满足对数据进行非线性预处理变换或应用主成分等的条件下,一些变量和样品失去了对应关系,导致结果粗略,甚至不解决问题。为了完善和发展对应分析,这里根据对应分析的目的,用数学建模方法,给出了相应数学公式,提出了对应分析模型,应用因子分析主成分法的因子分析图—将因子载荷图加到其因子得分图中的图,证明了:因子分析图是对应分析模型的图形解。给出了一个较清晰的分类标准,用理论和例说明了因子分析图的优良性。从而建立了对应分析的模型和优化理论。
关键词:对应分析;建模;因子分析图;应用
中图文分类号:O212 文献标识码:A
一、引言
数据的维数不大于3时,数据能显示在立体、平面或直线上,这有助于人们从图形中直观地看出样品的相异性(距离)、变量(指标)的相关性及其方向、变量对样品位置的贡献等特征。但常见的是,数据的维数大于3,这已不能用常规方法点图。自20世纪70年代以来,这一直是人们所关注的问题,人们想了不少办法。其研究的目的之一是:“将原始数据‘拟合’到一个低维坐标系中,使得由降维所引起的任何变形达到最小。”[1] 当变形是指样品的相异性(距离)或变量的相关性时,是多维标度变换;[1]多维标度变换现在已经成为一种广泛用于心理学、市场调查、社会学、政治学、物理学及生物学等领域的数据分析方法,但其局限性是仅反映样品的相异性或仅反映变量的相似性。当变形是同时指①样品的相异性(距离)、②变量的相关性及其方向和③变量对样品位置的贡献关系等时,这将是对应分析。显然,对应分析的理论和方法比多维标度变换更重要、更深入。
目前,国内外流行的对应分析有两个:其一是美国统计学教授R. A. Johnson等[1](2007) 给出的双重信息图,它是将数据阵作标准化的预处理变换,应用主成分分析降维,将变量的信息加到主成分值图中去,从图中可以看出样品之间是如何分组聚集的(无相关性),以及变量对样品位置的贡献;其二是法国统计学家J.P.Beozecri[2](1970)给出的对应分析(下称B氏方法),它是对数据阵作一类似“概率”的列联表,按独立性检验χ2统计量的一般项进行预处理变换,用主成分分析(或初始因子)降维,将变量和样品的主成分(或初始因子)点在同一张图上,使得问题的分析带来许多方便[3]。
以下内容涉及到指标(或称变量)方向,称越大越好的指标为正指标;称越大越不好的指标为负指标(取负数加一常数后有正向意义)或逆指标(取倒数乘一常数后有正向意义)。
现在说明传统对应分析法存在的不足:
例1 [1]表12.9列出了1995年美国25所大学本科办学情况的数据,指标为:X1-新生的平均SAT得分,X2-新生中在高中时期名列班上前10%的人数百分比,X3-报名者被接受入
*教育部人文社会科学研究规划基金项目资助,项目批准号:09YJA910002;教育部人文社会科学重点研究基地重大项目资助,项目批准号:2009JJD910001;广东省普通高校人文社科研究项目资助,项目批准号:10WYXM020;广东商学院科学研究重点项目资助,项目批准号:08ZD11001。
1
2
学的百分比,X 4-学生与教师的比例,X 5-估计的年费用,X 6-毕业率(%)。
X 1、X 2、X 5、X 6是正指标,X 3是负指标,X 4是逆指标。样品1-哈佛大学、2-普林斯顿大学、3-耶鲁大学、4-斯坦福大学,5-麻省理工学院是人们认为好的名校。
[1]有双重信息图1,其中横轴是第一主成分轴,纵轴是第二主成分轴,x i 为该方法的变量,编号为样品代码。给出了相近样品、变量对样品影响的一些分析,但没有注意:
(1)双重信息图1没有对负指标X 3和逆指标X 4进行正向变换、主成分分析不能旋转[5]
,使得变量相关性及其方向不清晰,一些变量失去了应有的方向和意义、一些样品失去了应有的位置特征。
在图1中,正指标X 1、X 5有正、负值(第四象限);逆指标X 4有负、正值(第二象限),即指标X 1、X 4、X 5失去了应有的方向和意义;好的名校5-麻省理工学院的坐标值有正、负值(第四象限)等,即样品5-麻省理工学院等失去了好的位置特征。
(2)B 氏方法没有对负指标X 3和逆指标X 4进行正向的变换,没有旋转功能,对数据阵的预处理变换不是线性变换(证明见后),其降维坐标系没有正向化,使得变量相关性及其方向同样不清晰,且数据变形太大。
通过SAS 9.0过程命令[4]
,用[2]表12.9的数据得图2,其中横轴是第一因子轴,纵轴是第二因子轴,x i 为该方法的相应变量,编号为样品代码。
在B 氏方法图2中,正指标X 1、X 2、X 6坐标值是负值(第三象限);负指标X 3坐标值是正值(第一象限);正指标X 5、逆指标X 4坐标值有正或有负值(第二或第四象限),即所有指标X 1-X 6失去了应有的方向和意义;名校1-哈佛大学、2-普林斯顿大学、4-斯坦福大学坐标值都是负值(第三象限);名校3-耶鲁大学、5-麻省理工学院坐标值是负、正值(第二象限);指标排20名之后的22-威斯康星大学、24-普度大学坐标值都是正值(第一象限)等,即很多样品失去了应有的位置特征。
(3)迄今对应分析没有模型。因为其没有目标的数学公式。
上述第(1)种情况经常出现,第(2)种情况具有普遍性,第(3)种情况是客观存在。为了完善和发展对应分析,重要的是要解决:
问题1 如何给出对应分析更好的数据阵预处理变换? 问题2 如何建立有旋转功能的对应分析模型及其理论?
据查,上述问题的研究是空白。这里对负指标、逆指标和适度指标进行正向化变换,根据对应分析的目的,用数学建模方法和因子分析主成分法的因子分析图,解决了上述问题。
DIMENSION 2
-0.4
-0.10.20.5
0.8
DIMENSION 1
-0.4
-0.1
0.20.5
0.8
图2 B 氏方法图
DIMENSION 2
-5.2
-4.9-4.6-4.3-4.0-3.7-3.4-3.1-2.8-2.5-2.2-1.9-1.6-1.3-1.0-0.7-0.4-0.10.20.50.81.11.41.72.02.32.62.9
DIMENSION 1
-5.2
-4.9
-4.6
-4.3
-4.0
-3.7
-3.4
-3.1
-2.8
-2.5
-2.2
-1.9
-1.6
-1.3
-1.0
-0.7
-0.4
-0.1
0.2
0.5
0.8
1.1
1.4
1.7
2.0
2.3
2.6
2.9
图1 双重信息图[1]