对应分析建模与应用

  • 格式:doc
  • 大小:391.00 KB
  • 文档页数:11

下载文档原格式

  / 11
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

对应分析建模与应用*

林海明1 林媛媛2

1.广东商学院经济贸易与统计学院

2.香港科技大学数学系

摘要:传统的对应分析是方法不唯一、没有模型的一种统计方法,其在满足对数据进行非线性预处理变换或应用主成分等的条件下,一些变量和样品失去了对应关系,导致结果粗略,甚至不解决问题。为了完善和发展对应分析,这里根据对应分析的目的,用数学建模方法,给出了相应数学公式,提出了对应分析模型,应用因子分析主成分法的因子分析图—将因子载荷图加到其因子得分图中的图,证明了:因子分析图是对应分析模型的图形解。给出了一个较清晰的分类标准,用理论和例说明了因子分析图的优良性。从而建立了对应分析的模型和优化理论。

关键词:对应分析;建模;因子分析图;应用

中图文分类号:O212 文献标识码:A

一、引言

数据的维数不大于3时,数据能显示在立体、平面或直线上,这有助于人们从图形中直观地看出样品的相异性(距离)、变量(指标)的相关性及其方向、变量对样品位置的贡献等特征。但常见的是,数据的维数大于3,这已不能用常规方法点图。自20世纪70年代以来,这一直是人们所关注的问题,人们想了不少办法。其研究的目的之一是:“将原始数据‘拟合’到一个低维坐标系中,使得由降维所引起的任何变形达到最小。”[1] 当变形是指样品的相异性(距离)或变量的相关性时,是多维标度变换;[1]多维标度变换现在已经成为一种广泛用于心理学、市场调查、社会学、政治学、物理学及生物学等领域的数据分析方法,但其局限性是仅反映样品的相异性或仅反映变量的相似性。当变形是同时指①样品的相异性(距离)、②变量的相关性及其方向和③变量对样品位置的贡献关系等时,这将是对应分析。显然,对应分析的理论和方法比多维标度变换更重要、更深入。

目前,国内外流行的对应分析有两个:其一是美国统计学教授R. A. Johnson等[1](2007) 给出的双重信息图,它是将数据阵作标准化的预处理变换,应用主成分分析降维,将变量的信息加到主成分值图中去,从图中可以看出样品之间是如何分组聚集的(无相关性),以及变量对样品位置的贡献;其二是法国统计学家J.P.Beozecri[2](1970)给出的对应分析(下称B氏方法),它是对数据阵作一类似“概率”的列联表,按独立性检验χ2统计量的一般项进行预处理变换,用主成分分析(或初始因子)降维,将变量和样品的主成分(或初始因子)点在同一张图上,使得问题的分析带来许多方便[3]。

以下内容涉及到指标(或称变量)方向,称越大越好的指标为正指标;称越大越不好的指标为负指标(取负数加一常数后有正向意义)或逆指标(取倒数乘一常数后有正向意义)。

现在说明传统对应分析法存在的不足:

例1 [1]表12.9列出了1995年美国25所大学本科办学情况的数据,指标为:X1-新生的平均SAT得分,X2-新生中在高中时期名列班上前10%的人数百分比,X3-报名者被接受入

*教育部人文社会科学研究规划基金项目资助,项目批准号:09YJA910002;教育部人文社会科学重点研究基地重大项目资助,项目批准号:2009JJD910001;广东省普通高校人文社科研究项目资助,项目批准号:10WYXM020;广东商学院科学研究重点项目资助,项目批准号:08ZD11001。

1

2

学的百分比,X 4-学生与教师的比例,X 5-估计的年费用,X 6-毕业率(%)。

X 1、X 2、X 5、X 6是正指标,X 3是负指标,X 4是逆指标。样品1-哈佛大学、2-普林斯顿大学、3-耶鲁大学、4-斯坦福大学,5-麻省理工学院是人们认为好的名校。

[1]有双重信息图1,其中横轴是第一主成分轴,纵轴是第二主成分轴,x i 为该方法的变量,编号为样品代码。给出了相近样品、变量对样品影响的一些分析,但没有注意:

(1)双重信息图1没有对负指标X 3和逆指标X 4进行正向变换、主成分分析不能旋转[5]

,使得变量相关性及其方向不清晰,一些变量失去了应有的方向和意义、一些样品失去了应有的位置特征。

在图1中,正指标X 1、X 5有正、负值(第四象限);逆指标X 4有负、正值(第二象限),即指标X 1、X 4、X 5失去了应有的方向和意义;好的名校5-麻省理工学院的坐标值有正、负值(第四象限)等,即样品5-麻省理工学院等失去了好的位置特征。

(2)B 氏方法没有对负指标X 3和逆指标X 4进行正向的变换,没有旋转功能,对数据阵的预处理变换不是线性变换(证明见后),其降维坐标系没有正向化,使得变量相关性及其方向同样不清晰,且数据变形太大。

通过SAS 9.0过程命令[4]

,用[2]表12.9的数据得图2,其中横轴是第一因子轴,纵轴是第二因子轴,x i 为该方法的相应变量,编号为样品代码。

在B 氏方法图2中,正指标X 1、X 2、X 6坐标值是负值(第三象限);负指标X 3坐标值是正值(第一象限);正指标X 5、逆指标X 4坐标值有正或有负值(第二或第四象限),即所有指标X 1-X 6失去了应有的方向和意义;名校1-哈佛大学、2-普林斯顿大学、4-斯坦福大学坐标值都是负值(第三象限);名校3-耶鲁大学、5-麻省理工学院坐标值是负、正值(第二象限);指标排20名之后的22-威斯康星大学、24-普度大学坐标值都是正值(第一象限)等,即很多样品失去了应有的位置特征。

(3)迄今对应分析没有模型。因为其没有目标的数学公式。

上述第(1)种情况经常出现,第(2)种情况具有普遍性,第(3)种情况是客观存在。为了完善和发展对应分析,重要的是要解决:

问题1 如何给出对应分析更好的数据阵预处理变换? 问题2 如何建立有旋转功能的对应分析模型及其理论?

据查,上述问题的研究是空白。这里对负指标、逆指标和适度指标进行正向化变换,根据对应分析的目的,用数学建模方法和因子分析主成分法的因子分析图,解决了上述问题。

DIMENSION 2

-0.4

-0.10.20.5

0.8

DIMENSION 1

-0.4

-0.1

0.20.5

0.8

图2 B 氏方法图

DIMENSION 2

-5.2

-4.9-4.6-4.3-4.0-3.7-3.4-3.1-2.8-2.5-2.2-1.9-1.6-1.3-1.0-0.7-0.4-0.10.20.50.81.11.41.72.02.32.62.9

DIMENSION 1

-5.2

-4.9

-4.6

-4.3

-4.0

-3.7

-3.4

-3.1

-2.8

-2.5

-2.2

-1.9

-1.6

-1.3

-1.0

-0.7

-0.4

-0.1

0.2

0.5

0.8

1.1

1.4

1.7

2.0

2.3

2.6

2.9

图1 双重信息图[1]