多元统计分析(何晓群 中国人民大学) 第一章
- 格式:ppt
- 大小:1.77 MB
- 文档页数:61
《多元统计分析》目录前言第一章基本知识﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍5 §1·1总体,个体与样本﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍5 §1·2样本数字特征与统计量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍6 §1·3一些统计量的分布﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍9 第二章统计推断﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍15 §2·1参数估计﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍15 §2·2假设检验﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍19 第三章方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍32 §3·1一个因素的方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍32 §3·2二个因素的方差分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍37 §3·3用方差分析进行地层对比﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍44 第四章回归分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49 §4·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49 §4·2回归方程的确定﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍49 §4·3相关系数及其显着性检验﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍52 §4·4回归直线的精度﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍55 §4·5多元回归分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍56 §4·6应用实例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍60 第五章逐步回归分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍65 §5·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍65 §5·2“引入”和“剔除”变量的标准﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍66 §5·3矩阵变换法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍67 §5·4回归系数,复相关系数和剩余标准差的计算﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍69 §5·5逐步回归计算方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍70§5·6实例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍74 第六章趋势面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍80 §6·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍80 §6·2图解汉趋势面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍81 §6·3计算法趋势面分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍83 第七章判别分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍90 §7·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍90 §7·2判别变量的选择﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍91 §7·3判别函数﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍92 §7·4判别方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍96 §7·5多类判别分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍104 第八章逐步判别分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110 §8·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110 §8·2变量的判别能力与“引入”变量的统计量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍110 §8·3矩阵变换与“剔除”变量的统计量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍113 §8·4计算步聚与实例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍115 第九章聚类分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍ 125 §9·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍125 §9·2数据的规格化(标准化)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍125 §9·3相似性统计量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍126 §9·4聚类分析方法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍131 §9·5实例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍134 §9·6最优分割法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍134 第十章因子分析﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍142 §10·1概述﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍142 §10·2因子的几何意义﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍143 §10·3因子模型﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍145§10·4初始因子载荷矩阵的求法﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍147 §10·5方差极大旋围﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍152 §10·6计算步聚﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍156 §10·7实例﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍157 附录﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍162 附录1标准正态分布函数量﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍162 附录2正态分布临界值u a表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍164 附录3t分布临界值t a表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍165 附录4(a)F分布临界值Fa表(a=0·1)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附录4(b)F分布临界值Fa表 (a=0·05) ﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附表4(c)F分布临界值Fa表(a=0·01)﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍附表5 x2分布临界值xa2表﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍﹍第一章基本知识§1·1总体、个体与样本总体(母体)、个体一(样本点)和样本(子样)是统计分析中常用的名词。
Equation Chapter 1 Section 1 Array《多元统计分析》Multivariate Statistical Analysis主讲:统计学院许启发(******************)统计学院应用统计学教研室School of Statistics2004年9月第一章绪论【教学目的】1.让学生了解什么是多元统计分析?它的发展与现状;2.让学生了解多元统计分析的主要范畴、功能;3.回顾相关的矩阵理论和多元正态分布理论;4.阐述多元数据的表示方法。
【教学重点】1.从一元到多元的过度;2.多元正态理论及其相关命题。
§1 引言一、什么是多元统计分析在实践中,常会碰到需要同时观测若干指标的问题。
例如衡量一个地区的经济发展水平:总产值、利润、效益、劳动生产率等;在医学诊断中,有病还是无病,需做多项检测:血压、体温、心跳、白血球等①。
提出问题:如何同时对多个随机变量的观测数据进行有效的分析和处理?有两种做法:分开研究;同时研究。
但前者会损失一定的信息量。
多元统计分析就是研究多个随机变量之间相互依赖关系以及内在统计规律的一门学科,利用其中的不同方法可对研究对象进行分类和简化。
二、多元统计分析的产生和发展1.1928年Wishert发表论文《多元正态总体样本协方差阵的精确分布》,是多元统计分析的开端;2.20世纪30年代,Fisher, Hotelling, 许宝碌等奠定了多元统计分析的理论基础;3.20世纪40年代,在心理学、教育学、生物学等方面有不少应用,但由于计算量大,发展受到限制;4.20世纪50年代中期,随着计算机的出现和发展,使多元分析方法在地质、气象、医学和社会学方面得到广泛应用;5.20世纪60年代,通过应用和实践又完善和发展了理论,使得它的应用范围更广;6.20世纪70年代初期,才在我国受到各个领域的极大关注,近30多年在理论上和应用上都取得了若干新进展。
三、多元统计分析的主要范畴(研究内容)在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和运行状态的数据信息。
第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。
例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。
在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。
总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。
上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。
如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。
显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。
而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。
在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。
为提高科学性、可靠性,通常需要定性与定量分析相结合。
实践证明,多元分析是实现做定量分析的有效工具。
何晓群《多元统计分析》第三版(2012)数据下载第一章[例2-1] 1999年财政部、国家经贸委、人事部和国家计委联合发布了《国有资本金效绩评价规则》。
其中,对竞争性工商企业的评价指标体系包括下面八大基本指标:净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率。
下面我们借助于这一指标体系对我国上市公司的运营情况进行分析,以下数据为35家上市公司2008年年报数据,这35家上市公司分别来自于电力、煤气及水的生产和供应业,房地行业,信息技术业,在后面各章中也经常以该数据为例进行分析。
一、均值向量的估计DESCRIPTIVESVARIABLES=v1 v2 v3 v4 v5 v6 v7 v8/STATISTICS=MEAN.Descriptive StatisticsN MeanV1 35 4.4940V2 35 2.6043V3 35 56.1046V4 35 .5037V5 35 1.2711V6 35 4.6326V7 35 -1.6983V8 35 5.528935Valid N(listwise)二、协方差阵的估计CORRELATIONSVARIABLES=v1 v2 v3 v4 v5 v6 v7 v8/PRINT=TWOTAIL NOSIG/STATISTICS XPROD/MISSING=PAIRWISE.第2章[例2-1] 1999年财政部、国家经贸委、人事部和国家计委联合发布了《国有资本金效绩评价规则》。
其中,对竞争性工商企业的评价指标体系包括下面八大基本指标:净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率。
下面我们借助于这一指标体系对我国上市公司的运营情况进行分析,以下数据为35家上市公司2008年年报数据,这35家上市公司分别来自于电力、煤气及水的生产和供应业,房地行业,信息技术业,在后面各章中也经常以该数据为例进行分析。
《多元统计分析》课程教课纲领(M utilvariate Analysis For Economics)一、课程基本信息1、课程类型:专业限选课2、课程学时:总学时643、学分: 34、合用专业:5、纲领执笔者:6、订正时间:二、课程教课目标多元统计分析引进数理统计的多元分析方法对社会经济现象进行多维度、深层次分析、刻画、综合的方法。
是以统计学方法中的综合指标法为基础,对现象用指标进行描绘,而后再考虑指标的引进与删除、指标的抽象与综合、样本的聚类和类间的差别、以及回归模型的成立等问题,能够对经济问题深入分析,纵向横向对照研究。
本课程在方法的数理推导上不作较高要求,主要弄清方法的原理和基本思路;要点是方法的适应范围、解决问题的实质是什么、各样方法之间的互相关系是什么、各样方法在计算机上怎么实现、特别在 SPSS 怎样操作、输出结果的数学意义是什么、经济上又怎样分析。
在掌握上述各基本问题此后,本课程侧重培育学生的口头表述能力和书面表达能力,口头上要能针对一个问题,提出解决思路,叙述门路和分析可能性,大概判断最后结果,必需上讲台讲。
多元统计分析是高年级专业课程,要为学生写作毕业论文和参加其余科研创作活动作好准备。
三、课程教课的基本要求第一章多元正态散布学生采集现象的多指标数据,简单考证大样本状况下绝大多数问题是可用多元正态散布来描绘现象的特色的。
第二章多元正态整体均值向量和协差阵的假定查验1.认识几个常有的统计查验量听从的概率散布;2.深刻理解样本统计量和依据明显性水平查表所得值之间的比较与最后接受或拒绝原假定之间的关系;3.学生必需举例说明均值向量查验在实质经济研究中的应用和其已知与未知的意义和存在性分析,理解两整体及多整体均值向量查验的应意图义;4.理解协方差阵查验的应意图义,特别要学会两个查验联合运用。
第三章聚类分析1.理解各样距离和相像系数的意义和其各样定义计算方法下表现出来的数目特征;2.理解 R型和 Q型聚类的差别和联系;3.深刻理解样本间距离计算与聚类时类间距离的规定之间的关系;掌握八种系统聚类法在实质应用中各自的特色和适应范围;4.选择一个问题,每人写出一篇对于聚类问题分析的小论文,论文在5000 字左右,要求有问题的提出、指标选择和数据采集,聚类分析结论等四个部分。