多元统计分析第三章聚类分析
- 格式:ppt
- 大小:543.50 KB
- 文档页数:49
2015——2016学年第一学期实验报告课程名称:多元统计分析实验项目:聚类分析实验类别:综合性□√设计性□验证性□专业班级:13统计班姓名:张淑娟学号:*********** 实验地点:总理楼60801实验时间:2015年11月25日星期三指导教师:*绩:一、实验数据、参考资料与实验目的实验数据来源于文件《聚类分析.rar》内的chapter 12,主要参考书为《spss统计分析从入门到精通.pdf》。
实验目的:1、掌握聚类分析的基本方法,主要有快速聚类、分层聚类、系统聚类和分层聚类等方法;2、至少应用所给数据进行两种及两种以上的聚类分析,并对其进行比较。
具体数据由自己选择。
二、SPSS操作方法或程序类平均法聚类操作方法:1、打开分析→分类→系统聚类,打开系统聚类分析对话框,将聚类指标选入变量栏中,将表示地区的变量选入注标个案栏。
2、点击绘制,选中谱系图,点击继续返回主对话框;3、再点击方法按钮,在聚类方法下拉菜单中选择组间连接法选项,返回主对话框,点击确定。
最短距离法聚类操作方法:1、2、同类平均法1、2;3、再点击方法按钮,在聚类方法下拉菜单中选择最短距离法选项,返回主对话框,点击确定。
最长距离法聚类操作方法:1、2、同类平均法1、2;3、再点击方法按钮,在聚类方法下拉菜单中选择最长距离法选项,返回主对话框,点击确定。
三、程序运行结果(不能截图,需要导出)指标的相关系数:相关性编号食品衣着燃料住房生活用品文化支出组别编号Pearson 相关性 1 -.720**-.387*-.136 -.743**-.710**-.687**.439*显著性(双侧).000 .042 .490 .000 .000 .000 .032 N 28 28 28 28 28 28 28 24食品Pearson 相关性-.720** 1 .518**.517**.778**.707**.613**-.680**显著性(双侧).000 .005 .005 .000 .000 .001 .000 N 28 28 28 28 28 28 28 24衣着Pearson 相关性-.387*.518** 1 .133 .579**.752**.181 -.593**显著性(双侧).042 .005 .501 .001 .000 .357 .002 N 28 28 28 28 28 28 28 24燃料Pearson 相关性-.136 .517**.133 1 .133 .210 .456*-.641**显著性(双侧).490 .005 .501 .500 .283 .015 .001 N 28 28 28 28 28 28 28 24住房Pearson 相关性-.743**.778**.579**.133 1 .843**.353 -.636**显著性(双侧).000 .000 .001 .500 .000 .065 .001 N 28 28 28 28 28 28 28 24生活用品Pearson 相关性-.710**.707**.752**.210 .843** 1 .336 -.697**显著性(双侧).000 .000 .000 .283 .000 .081 .000 N 28 28 28 28 28 28 28 24文化支出Pearson 相关性-.687**.613**.181 .456*.353 .336 1 -.439*显著性(双侧).000 .001 .357 .015 .065 .081 .032 N 28 28 28 28 28 28 28 24组别Pearson 相关性.439*-.680**-.593**-.641**-.636**-.697**-.439* 1 显著性(双侧).032 .000 .002 .001 .001 .000 .032N 24 24 24 24 24 24 24 24**. 在 .01 水平(双侧)上显著相关。
多元统计分析-聚类分析聚类分析是⼀个迭代的过程对于n个p维数据,我们最开始将他们分为n组每次迭代将距离最近的两组合并成⼀组若给出需要聚成k类,则迭代到k类是,停⽌计算初始情况的距离矩阵⼀般⽤马⽒距离或欧式距离个⼈认为考试只考 1,2⽐较有⽤的⽅法是3,4,5,8最喜欢第8种距离的计算 欧式距离 距离的⼆范数 马⽒距离 对于X1, X2均属于N(u, Σ) X1,X2的距离为 (X1 - X2) / sqrt(Σ)那么不同的聚类⽅法其实也就是不同的计算类间距离的⽅法1.最短距离法 计算两组间距离时,将两组间距离最短的元素作为两组间的距离2.最长距离法 将两组间最长的距离作为两组间的距离3.中间距离法 将G p,G q合并成为G r 计算G r与G k的距离时使⽤如下公式 D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq β是提前给定的超参数-0.25<=β<=04.重⼼法 每⼀组都可以看成⼀组多为空间中点的集合,计算组间距离时,可使⽤这两组点的重⼼之间的距离作为类间距离 若使⽤的是欧⽒距离 那么有如下计算公式 D2kr = n p/n r * D2kp + n q/n r * D2kq - (n p*n q / n r*n r ) * D2pq5.类平均法 两组之间的距离 = 组间每两个样本距离平⽅的平均值开根号 表达式为D2kr = n p/n r * D2kp + n q/n r * D2kq6.可变类平均法 可以反映合并的两类的距离的影响 表达式为D2kr = n p/n r *(1- β) * D2kp + n q/n r *(1- β) * D2kq + β*D2pq 0<=β<17.可变法 D2kr = (1- β)/2 * (D2kp + D2kq) + β*D2pq8.离差平⽅和法 这个⽅法⽐较实⽤ 就是计算两类距离的话,就计算,如果将他们两类合在⼀起之后的离差平⽅和 因为若两类本⾝就是⼀类,和本⾝不是⼀类,他们的离差平⽅和相差较⼤ 离差平⽅和:类中每个元素与这⼀类中的均值距离的平⽅之和 若统⼀成之前的公式就是 D2kr = (n k + n p)/(n r + n k) * D2kp + (n k + n q)/(n r + n k) -(n k)/(n r + n k) * * D2pq⼀些性质 除了中间距离法之外,其他的所有聚类⽅法都具有单调性 单调性就是指每次聚类搞掉的距离递增 空间的浓缩和扩张 D(A)>=D(B) 表⽰A矩阵中的每个元素都不⼩于B D(短) <= D(平) <= D(长) D(短,平) <= 0 D(长,平) >= 0 中间距离法⽆法判断。
多元统计分析——聚类分析——K-均值聚类(K-中值、K-众数)注意:有的时候我们可以结合各个聚类算法的特性进⾏聚类,层次聚类的特点是⽐较直观的确定聚成⼏类合适,K-均值聚类的特点在于速度,所以这个这个时候我们可以采⽤以下的步骤进⾏聚类:⼀、K-均值聚类K-均值聚类与层次聚类都是关于距离的聚类模型,关于层次聚类的介绍详见《》。
层次聚类的局限:在层次聚类中,⼀旦个体被分⼊⼀个族群,它将不可再被归⼊另⼀个族群(单向的过程,局部最优的解法)。
故现在介绍⼀个“⾮层次”的聚类⽅法——分割法(Partition)。
最常⽤的分割法是k-均值(k-Means)法。
1、聚类算法的两种常见运⽤场景发现异常情况:如果不对数据进⾏任何形式的转换,只是经过中⼼标准化或级差标准化就进⾏快速聚类,会根据数据分布特征得到聚类结果。
这种聚类会将极端数据单独聚为⼏类。
这种⽅法适⽤于统计分析之前的异常值剔除,对异常⾏为的挖掘,⽐如监控银⾏账户是否有洗钱⾏为、监控POS机是有从事套现、监控某个终端是否是电话卡养卡客户等等。
将个案数据做划分:出于客户细分⽬的的聚类分析⼀般希望聚类结果为⼤致平均的⼏⼤类(原始数据尽量服从正态分布,这样聚类出来的簇的样本点个数⼤致接近),因此需要将数据进⾏转换,⽐如使⽤原始变量的百分位秩、Turkey正态评分、对数转换等等。
在这类分析中数据的具体数值并没有太多的意义,重要的是相对位置。
这种⽅法适⽤场景包括客户消费⾏为聚类、客户积分使⽤⾏为聚类等等。
以上两种场景的⼤致步骤如下:聚类算法不仅是建模的终点,更是重要的中间预处理过程,基于数据的预处理过程,聚类算法主要应⽤于以下领域:图像压缩:在使⽤聚类算法做图像压缩过程时,会先定义K个颜⾊数(例如128种颜⾊、256种颜⾊),颜⾊数就是聚类类别的数量;K均值聚类算法会把类似的颜⾊分别放在K个簇中,然后每个簇使⽤⼀种颜⾊来代替原始颜⾊,那么结果就是有多少个簇,就⽣成了由多少种颜⾊构成的图像,由此实现图像压缩。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
多元统计实验报告设计题目:聚类分析聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。
基本思想:是根据事物本身的特性研究个体分类的方法;聚类原则:是同一类中的个体有较大的相似性,不同类中的个体差异很大系统聚类分析法一、分析数据1990年全国人口普查数据二、基本原理系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品或变量总能聚到合适的类中。
系统聚类的计算步骤:●对数据进行变换处理,消除量纲●构造n个类,每个类只包含一个样本计算●n个样本两两间的距离{dij}●合并距离最近的两类为一新类●计算新类与当前各类的距离,重复上一步●画聚类图●决定类的个数和类三、实验步骤①1、选择Analyze→Classify→Hierarchical Cluster,打开分层聚类分析主对话框;2、选择聚类分析变量点击向右的箭头按钮,将三个变量移到Variable栏中;3、选择标识变量,单击“地区”点击向右的箭头按钮,将其移入Label Case By栏中;4、选择聚类方法,单击Method…按钮,选择数值标准化法,Z-Score;选择聚类法Between-group linkage;距离测度采用Interval的Squared Euclidean distance;单击Continue按钮,返回主对话框;5、选择输出统计量,单击Statistics…按钮,打开Statistics子对话框。
选择输出Agglomeration Schedule、Proximity Matric,范围从3类到5类的聚类解,单击Continue按钮,返回主对话框;6、选择输出聚类图,单击Plots…按钮,打开Plots子对话框。
选择Dendrogram 树形图,单击Continue按钮,返回主对话框;7、点击OK按钮,显示结果清单。
2015——2016学年第一学期实验报告课程名称:多元统计分析实验项目:聚类分析实验类别:综合性□√设计性□验证性□专业班级:13统计班姓名:张淑娟学号:20134046030 实验地点:总理楼60801实验时间:2015年11月25日星期三指导教师:成绩:一、实验数据、参考资料与实验目的实验数据来源于文件《聚类分析.rar》内的chapter 12,主要参考书为《spss统计分析从入门到精通.pdf》。
实验目的:1、掌握聚类分析的基本方法,主要有快速聚类、分层聚类、系统聚类和分层聚类等方法;2、至少应用所给数据进行两种及两种以上的聚类分析,并对其进行比较。
具体数据由自己选择。
二、SPSS操作方法或程序类平均法聚类操作方法:1、打开分析→分类→系统聚类,打开系统聚类分析对话框,将聚类指标选入变量栏中,将表示地区的变量选入注标个案栏。
2、点击绘制,选中谱系图,点击继续返回主对话框;3、再点击方法按钮,在聚类方法下拉菜单中选择组间连接法选项,返回主对话框,点击确定。
最短距离法聚类操作方法:1、2、同类平均法1、2;3、再点击方法按钮,在聚类方法下拉菜单中选择最短距离法选项,返回主对话框,点击确定。
最长距离法聚类操作方法:1、2、同类平均法1、2;3、再点击方法按钮,在聚类方法下拉菜单中选择最长距离法选项,返回主对话框,点击确定。
三、程序运行结果(不能截图,需要导出)指标的相关系数:相关性编号食品衣着燃料住房生活用品文化支出组别编号Pearson 相关性 1 -.720**-.387*-.136 -.743**-.710**-.687**.439*显著性(双侧).000 .042 .490 .000 .000 .000 .032 N 28 28 28 28 28 28 28 24食品Pearson 相关性-.720** 1 .518**.517**.778**.707**.613**-.680**显著性(双侧).000 .005 .005 .000 .000 .001 .000 N 28 28 28 28 28 28 28 24衣着Pearson 相关性-.387*.518** 1 .133 .579**.752**.181 -.593**显著性(双侧).042 .005 .501 .001 .000 .357 .002 N 28 28 28 28 28 28 28 24燃料Pearson 相关性-.136 .517**.133 1 .133 .210 .456*-.641**显著性(双侧).490 .005 .501 .500 .283 .015 .001 N 28 28 28 28 28 28 28 24住房Pearson 相关性-.743**.778**.579**.133 1 .843**.353 -.636**显著性(双侧).000 .000 .001 .500 .000 .065 .001 N 28 28 28 28 28 28 28 24生活用品Pearson 相关性-.710**.707**.752**.210 .843** 1 .336 -.697**显著性(双侧).000 .000 .000 .283 .000 .081 .000 N 28 28 28 28 28 28 28 24文化支出Pearson 相关性-.687**.613**.181 .456*.353 .336 1 -.439*显著性(双侧).000 .001 .357 .015 .065 .081 .032 N 28 28 28 28 28 28 28 24组别Pearson 相关性.439*-.680**-.593**-.641**-.636**-.697**-.439* 1 显著性(双侧).032 .000 .002 .001 .001 .000 .032N 24 24 24 24 24 24 24 24**. 在 .01 水平(双侧)上显著相关。
多元统计分析——聚类分析多元统计分析中的聚类分析(Cluster Analysis)是一种将相似的个体或对象归为一类的数据分析方法。
聚类分析的目的是通过寻找数据中的相似性来识别或发现存在的模式和结构,可以帮助我们理解和解释数据中的复杂性。
聚类分析在许多领域中都得到了广泛的应用,例如市场细分、社会学、生物学、医学等。
聚类分析的基本原理是将数据样本根据其相似性归为不同的组或类。
相似性可以通过计算数据之间的距离或相似度来度量。
常用的距离度量方法有欧氏距离、曼哈顿距离、闵可夫斯基距离等,相似度度量方法有相关系数、夹角余弦等。
在聚类分析中,我们通常将相似的样本放在同一类别中,不相似的样本放在不同类别中。
聚类分析可以分为两种类型:层次聚类和划分聚类。
层次聚类是一种将数据样本分层次地组织成树状结构的聚类方法。
划分聚类则是将数据样本划分为预先确定的K个不重叠的类的聚类方法。
其中最常用的层次聚类算法有聚合法和分裂法,最常用的划分聚类算法是K均值算法。
聚类分析的基本步骤包括数据准备、相似度度量、类别划分和结果解释。
在数据准备阶段,需要选择合适的变量和样本。
相似度度量是聚类分析的核心,不同的距离或相似性度量方法可能会导致不同的聚类结构。
类别划分可以根据层次聚类算法或划分聚类算法来进行。
结果解释则是对聚类结果进行分析和解释,常用的方法包括聚类矩阵、平均距离图、树状图等。
聚类分析的优势在于能够帮助我们理解数据中的结构和模式,发现数据中的共性和差异性。
聚类分析可以为我们提供有关样本之间的关系和特征的重要信息。
此外,聚类分析还可以帮助我们进行市场细分和目标市场选择、发现新的疾病群和药物靶点等。
然而,聚类分析也存在一些局限性。
首先,聚类结果可能会受到初始聚类中心选择的影响。
其次,聚类结果的解释需要结合领域知识和专家判断,可能存在主观性。
此外,聚类分析对数据的样本大小和变量数目也有一定的要求,数据的维度增加会导致计算量的增加。
多元统计分析思考题第一章 回归分析1、回归分析是怎样的一种统计方法,用来解决什么问题答:回归分析作为统计学的一个重要分支,基于观测数据建立变量之间的某种依赖关系,用来分析数据的内在规律,解决预报、控制方面的问题;2、线性回归模型中线性关系指的是什么变量之间的关系自变量与因变量之间一定是线性关系形式才能做线性回归吗为什么答:线性关系是用来描述自变量x 与因变量y 的关系;但是反过来如果自变量与因变量不一定要满足线性关系才能做回归,原因是回归方程只是一种拟合方法,如果自变量和因变量存在近似线性关系也可以做线性回归分析;3、实际应用中,如何设定回归方程的形式答:通常分为一元线性回归和多元线性回归,随机变量y 受到p 个非随机因素x1、x2、x3……xp 和随机因素的影响,形式为:01p βββ⋅⋅⋅是p+1个未知参数,ε是随机误差,这就是回归方程的设定形式;4、多元线性回归理论模型中,每个系数偏回归系数的含义是什么答:偏回归系数01p βββ⋅⋅⋅是p+1个未知参数,反映的是各个自变量对随机变量的影响程度;5、经验回归模型中,参数是如何确定的有哪些评判参数估计的统计标准最小二乘估计法有哪些统计性质要想获得理想的参数估计值,需要注意一些什么问题答:经验回归方程中参数是由最小二乘法来来估计的;评判标准有:普通最小二乘法、岭回归、主成分分析、偏最小二乘法等;最小二乘法估计的统计性质:其选择参数满足正规方程组,1选择参数01ˆˆββ分别是模型参数01ββ的无偏估计,期望等于模型参数; 2选择参数是随机变量y 的线性函数要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大;6、理论回归模型中的随机误差项的实际意义是什么为什么要在回归模型中加入随机误差项建立回归模型时,对随机误差项作了哪些假定这些假定的实际意义是什么答:随机误差项的引入使得变量之间的关系描述为一个随机方程,由于因变量y 很难用有限个因素进行准确描述说明,故其代表了人们的认识局限而没有考虑到的偶然因素;7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系为什么答:不是,因果关系是由变量之间的内在联系决定的,回归模型的建立只是一种定量分析手段,无法判断变量之间的内在联系,更不能判断变量之间的因果关系;8、回归分析中,为什么要作假设检验检验依据的统计原理是什么检验的过程是怎样的答:因为即使我们已经建立起了模型,但是尚且不知这个回归方程是否能够比较好地反映所描述的变量之间的影响关系,必须进行统计学上的假设检验;假设性检验原理可以用小概率原理解释,通常认为小概率事件在一次试验中几乎不可能发生的,即对总体的某个假设是真实的,那么不支持这一个假设事件在一次试验中是几乎不可能发生的,要是这个事件发生了,我们就有理由怀疑这一假设的真实性,拒绝原假设;检验过程:1提出统计假设H0和H1;2构造一个与H相关的统计量,称其为检验统计量;3根据其显着性水平 的值,确定一个拒绝域;4作出统计决断;9、回归诊断可以大致确定哪些问题回归分析有哪些基本假定如果实际应用中不满足这些假定,将可能引起怎样的后果如何检验实际应用问题是否满足这些假定对于各种不满足假定的情形,分别采用哪些改进方法答:回归诊断解决:1回归方程的线性假定;2是否存在多重共线性;3误差项的正态性假定;4误差项的独立性假设;5误差项同方差假定;6是否存在数据异常;原基本假定H:1假设回归方程不显着;2假设回归系数不显着;引起后果:与模型误差相比,自变量对因变量的影响是不重要的模型误差太大、自变量对y的影响确实太小;如何检验:用F统计量或者P值法来检验方程的显着性;改进方法:1对于模型的误差太大,我们要想办法缩小误差,检查是否漏掉了重要的自变量,或检查自变量与y的非线性关系;2对于自变量对y影响较小,此时应该放弃回归分析方法;10、回归分析中的R2有何意义它能用来衡量模型优劣吗答:R2是回归平方和与总离差平方和之比,作为评判一个模型拟合度的标准,称为样本决定系数,其值越接近1,意味着模型的拟合优度越高;但是其不是衡量模型优劣唯一标准,增加自变量会使得自由度减少,因此需要引入自由度修正的复相关系数;这些都需要视具体的情况而定;11、如何确定回归分析中变量之间的交互作用存在交互作用时,偏回归系数的意义与不存在交互作用的情形下是否相同为什么答:交互作用是指因素之间联合搭配对试验指标的影响作用,存在交互作用是,偏回归系数肯定与不存在是的系数不同,毕竟变量之间有相互影响的关系;12、有哪些确定最优回归模型的准则如何选择回归变量答:1修正的复相关系数2aR达到最大;2预测平方和达到最小;3定义Cp 统计量值小,选择pC p小的回归方程;4赤池信息量达到最小;按照以上准则进行回归变量的选择;13、在怎样的情况下需要建立标准化的回归模型标准化回归模型与非标准化模型有何关系形式有否不同答:在多元线性回归分析中,由于涉及到的变量量纲不同,差别很大,需要对变量进行中心化和标准化,数据中心化处理相当于将坐标原点移至样本中心坐标系的平移不改变直线的斜率;标准化处理后建立的回归方程模型比非标准化的回归方程少一个常数项,系数存在关系;14、利用回归方法解决实际问题的大致步骤是怎样的答:1根据预测目标,确定自变量和因变量;2建立回归预测模型;3进行相关分析;4检验回归预测模型,计算预测误差;5计算并确定预测值;15、你能够利用哪些软件实现进行回归分析能否解释全部的软件输出结果答:目前会用的软件是SPSS和matlab,关于地球物理的软件如grapher也可以进行回归分析;对于SPSS的一些输出结果,还是不太理解;第二章判别分析1、判别分析的目的是什么答:在自然科学和社会科学研究中,研究对象用某种方法已经划分为若干类别,当得到一个新的样本数据时,要确定该样本属于已知的哪一类;2、有哪些常用的判别分析方法这些方法的基本原理或步骤是怎样的它们各有什么特点或优劣之处答:1距离判别法:根据已知分类数据,分别计算各类的重心,即是分类的均值;判别方法是—对于任意一个样品,若它与第i类的重心距离最近,就认为它来自第i类;特点是对各类数据分布并无特定的要求2Fisher判别法:其基本思想是投影,将k组m元数据投影到某一个方向,使得投影后组与组之间尽可能分开,其中利用了一元方差分析的思想导出判别函数;其特点是对总体的分布没有特殊要求,是处理概率分布未知的一种方法;3逐步判别法:逐步引入一个“最重要”的变量进入判别式,同时对先引入判别式的一些变量进行检验,如果判别能力随着引入新变量而变得不显着,则将它从判别式中剔除,直到没有新的变量能够进入,依然没有旧变量需要剔除为止;3、判别分析与回归分析有何异同之处答:1相同点:这两种方法都有关于数据预测的功能;不同点:这个估计太多了,一般来讲判别分析功能是将样品归类,回归分析是探究样品对因变量的变动影响;4、判别分析对变量与样本规模有何要求答:判别分析对总体分布没有要求,但是判别分析的假设之一是要求每一个变量不能是其他判别变量的线性组合,即不能存在多重共线性;5、如何度量判别效果有哪些影响判别效果的因素答:通过评价判别准则来度量判别效果,常用方法:1误判率回代法;2误判率交叉确认估计;影响因素是个总体之间的差异程度,各个总体之间差异越大,就越有可能建立有效的判别准则,如果差异太小,则判别分析的意义不大;当各个总体服从多元正态分布,我们可以根据各总体的均值向量是否相等进行统计检验;当然也可以检验各总体的协方差矩阵是否相等来采用判别函数;6、逐步判别是如何选择判别变量的基本思想或步骤是什么答:在判别分析中,并不是观测变量越多越好,而是选择主要变量进行判别分析,将各个变量在分析中起的不同作用,将影响力比较低的变量保留在判别式中,会增加干扰,影响效果;因此选择显着判别力的变量来建立判别式就是逐步判别法;基本思想:其与逐步回归法类似,都是采用“有进有出”的算法,即逐步引入一个“最重要”的变量进入判别式,同时对先引入的判别式进行检验,如果其判别能力随着新引入的变量显着性降低,则该因素应该被剔除,直到变量全部进入为止;7、判别分析有哪些现实应用举例说明;答:判别分析在实际中的应用无处不在;例如我们根据各种经济指标把各个国家分为发达国家和发展中国家,通过这些指标成功的判定了一个国家的经济发展水平;第三章聚类分析1、聚类分析的目的是什么与判别分析有何异同这种方法有哪些局限或欠缺答:把某些方面相似的东西进行归类,以便从中发现规律性,达到认识客观事物规律的目的;其与判别分析相同的地方是都是研究分组的问题;不同的是各自对于预先分组对象不一样,聚类分析是未知类别,判别分析是已知类别;2、有哪些常用的聚类统计量答:1Q型统计量:对样本进行聚类,用“距离”来描述样本之间的接近程度;R型统计量:对变量进行聚类,用“相似系数”来度量变量之间的近视程度;3、系统谱系聚类法的基本思想是怎样的它包含哪些具体方法答:先将待聚类的n个样品或变量各自看成一类,共有n类,然后按照事先选定的聚类方法计算每两类之间的聚类统计量,即某种距离或者相似系数,将关系最密切的两类并为一类,其余不变,即的n-1类,再按照前面的计算方法计算新类与其他类之间的距离或者相似系数,再将关系最密切的两类归为一类,其余不变,即得n-2类,继续下去,每次重复都减少一类,直到所有样品或者变量都归于一类;4、聚类分析对变量与样本规模有何要求有哪些因素影响分类效果要想减少不利因素的影响,可以采取哪些改进方法答:聚类分析要求其样本规模较大,需要变量之间相关性较弱,变量个数小于样本数;5、实际应用问题,如何确定分类数目答:按理来说聚类分析的分类数目是事先不知道的,但是在实际应用中,应该根据相关专业知识确定分类数目,结合聚类统计量参考确定,并使用误判定理具体分析;6、快速聚类法K—均值法的基本思想或步骤是怎样的答:如果待分类样品比较多,应先给出一个大概的分类,然后不断对其进行修正,一直到分类结果比较合理为止;7、有序样品的最优分别法的基本思想或步骤是怎样的答:将n个样品看成一类,然后根据分类的误差函数逐渐增加分类,寻求最优分割,用分段的方法找出使组内离差平方和最小的分割点;8、应用聚类分析解决实际问题的基本步骤是怎样的应该注意哪些方面的问题答:1n个变量样品各自成一类,一共有n类,计算两两之间的距离,构成一个对称矩阵;2选择这个对称矩阵中主对角元素以外的上或者下三角部分中的最小元素,合成的新类,并计算其与其他类之间的距离;3划去与新类有关的行和列,将新类与其余类别的距离组成新的n-1阶对称矩阵;4再重复以上步骤,直到n个样品聚为一个大类;5记录下合并类别的编号以及所对应的距离,绘制聚类图;6决定类的个数和聚类结果;第四章主成分分析与典型相关分析1、主成分分析的基本思想是什么在低维情况下,如何利用几何图形解释主成分的意义答:构造原始变量的适当线性组合,使其产生一系列互不相关的新变量,从中选出少量的几个新变量并使它们含有足够多的原始变量的信息,从而使这几个新变量代替原始变量分析问题和解决问题提供了可能;几何解释,可以借用平面上旋转坐标系方法来达到降维的目的;2、什么是主成分的贡献率与累计贡献率实际应用时,如何确定主成分的个数答:主成分中,描述第k个主成分提取的信息占据原来变量总信息的比重,称为第k个主成分的贡献率;若将前m个主成分提取的总信息的比重相加,称为主成分的累计贡献率;实际应用中,通常选取前m个主成分的累积贡献率达到一定的比列来确定主成分的个数;3、主成分有哪些基本性质答:1每一个主成分都是原始变量的线性组合;2主成分的数目大大小于原始变量的数目;3主成分保留了原始变量所包含的绝大部分信息;4各个主成分之间互不相关;4、对于任何情形的多个变量,都可以采取主成分方法降维吗为什么答:肯定不是,必须要满足适合主成分分析的要求才可以降维;举个简单的例子,其适用范围是各个变量之间应该具有比较强的相关性,如果多个变量均为各项同性,则主成分分析效果不明显;5、怎样的情况下需要计算标准化的主成分答:因为实际问题的变量有很多量纲,不同的量纲会引起各个变量的取值的分散程度差异较大,总体方差将主要受到方差较大的变量的控制;如果用协方差矩阵 求主成分,则优先照顾方差大的变量,可能会得到不合理的结果,因此为了消除量纲的影响,需要计算标准化的主成分;6、主成分有哪些应用答:它的主要作用是降维,因此应用范围比较广泛,举个例子,衡量一个城市的综合发展指数涉及到的变量参数相当多,但是如果运用主成分的思想,只需要考虑较少的变量样品就好,一般选择GDP指数、环境指数、人口、面积等;7、如何解释主成分的实际含义答:主成分的实际意义需要结合到实际应用中,其往往不是最终目的,重要的是利用降维的思想来综合分析原始信息,利用有限的主成分来解释规律,从而进行相关研究;8、典型相关分析的基本思想是什么有何实际用途答:是研究两组变量间的相互依赖关系,把两组变量之间的关系变为研究两个新变量的相关,而又不抛弃原来变量的信息;因为这两组变量所代表的内容不同,可以直接考虑其相关关系来反映两组变量之间的整体相关性;例如工厂考察使用原料质量对生产产品质量的影响,需要对产品各种各样质量指标与所使用的原料指标之间的相关关系进行评判;9、典型相关分析与回归分析、判别分析、主成分分析、因子分析有何关联试比较这些方法的异同之处;答:这是一个涉及面很大的问题,总的来讲这些方法的存在能够帮助我们对于客观数据现象的相关关系有一个更加深刻的了解,有的是对另外一种方向的优化与推广,有的本质思想与另外一种分析方法很接近,异同点可以根据教科书进行两两比对;10、典型相关分析有哪些基本假定答:线性假定影响典型相关分析的两个方面,首先任意两个变量间的相关系数是基于线性关系的;如果这个关系不是线性的,一个或者两个变量需要变换;其次,典型相关是变量间的相关,如果关系不是线性的,典型相关分析将不能测量到这种关系;11、如何解释典型相关函数的实际意义答:1典型权重标准化系数;2典型荷载结构系数;3典型交叉载荷;用以上三种参数来使多个变量与多个变量的相关性转化为两个变量的相关性;12、典型相关方法中冗余度分析的意义是什么答:冗余度主要说明典型变量对各组观测变量总方差的代表比例和解释比例;第五章因子分析与对应分析1、因子分析是怎样的一种统计方法它的基本目的和用途是什么答:其根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的相关性较低,每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构成为公共因子,对所研究的问题就可以用最少的个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一个分量;目的:利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子;用途:对变量进行分类,根据因子得分值在其轴所构成的空间中吧变量点画出来,从而分类;2、因子分子中的KMO统计量与巴特莱特球形性检验的目的是什么答:KMO统计量:通过比较各个变量之间简单相关系数和偏相关系数的大小判断变量间的相关性,相关性强时,偏相关系数远小于简单相关系数,KMO值接近1.一般KMO>非常适合做因子分析;而大于都可以,但是一下不适合;巴特莱特球形检验:用于检验相关矩阵是否是单位矩阵,及各个变量是否是独立的;它以变量的相关系数矩阵为出发地点,如果统计量数值较大,且相伴随的概率值小于用户给定的显着性水平,则应该拒绝原假设;反之,则认为相关系数矩阵可能是一个单位阵,不适合做因子分析;3、因子分析有哪些类型它们有何区别Q型因子分析与聚类分析有何异同答:Q型和R型两种;Q型:对样本进行因子分析,R型:对变量进行因子分析;Q型因子分析可以认为是考虑指标的重要性,保留哪些去掉哪些;Q型聚类分析考虑的是指标的相关性,哪几类指标可能组成一类,使得组内距离尽可能小,组间距离尽可能大; 4、因子分析中的变量类型是怎样的因子分析对变量数目有没有要求对样本规模有没有要求答:被描述的变量一般来讲都是可观测的随机变量;变量必须是标准化的;样品的数目大于变量的数目;5、因子分析有怎样的基本假定对样本特点或性质有何要求答:各个共同因子之间不相关,特殊因子之间也不相关,共同因子与特殊因子之间也不相关;样本之间相关性越强越好;6、因子分析模型中,因子载荷、变量共同度、方差贡献等统计量的统计意义是什么答:1因子载荷:指综合因子与公共因子的相关关系,表示其依赖公共因子的程度,反映了第i个变量对第j个公共因子的相对重要性,也是其间的密切程度,也是其公共因子的权;2变量共同度:指因子载荷矩阵中各行元素的平方和,表示x的第i个分量对于公共因子的每一个分量的共同依赖程度;3方差贡献:指因子载荷矩阵第j列各个元素的平方和,是衡量公共因子相对重要性的指标;7、因子分析与主成分分析有何区别与联系它们分别适用于怎样的情况答:联系:均是降维的处理变量样品的方法;区别:因子分析是把变量表示成各个因子的线性组合,而主成分分析是把主成分表示成变量的线性组合;因子分析重点是解释各个变量之间的协方差,主成分分析是解释变量的总方差;因子分析需要一些假定,共同因子之间不相关,特殊因子之间不相关,以上两者也不相关,而主成分分析不需要假设;因子分析中因子不是独特的,可以旋转得到不同的因子,主成分分析中对于给定的协方差和相关矩阵特殊值,成分是独特的;因子个数需要分析者指定,而主成分中成分的数量是一定的;8、如何确定公共因子数目如何解释公共因子的实际意义答:用方差累计贡献率,一般只要前几个达到80%即可,或者碎石图也可以确定;公共因子的含义,与实际问题相关,表示变量之间内部错综复杂的关联性;9、怎样的情况下,需要作因子旋转答:如果求出主因子解,但是主因子代表的变量不是很突出,容易使因子的含义模糊不清,需要做旋转;10、有哪些估计因子得分的方法因子得分的估计是普通意义下的参数估计吗为什么答:回归估计法、巴特莱特估计法、汤姆逊估计法;不是普通意义下的参数估计,需要用公共因子F用变量的线性组合来表示;11、对应分析的基本思想或原理是什么试举例说明它的应用;答:为了克服因子分析的不足之处,寻求R型和Q型变量的内在联系,将两者统一起来,将样品和变量反映到相同的坐标轴上进行解释;比如对某一行业的经济效益进行综合性评价,要研究企业与企业的信息,指标与指标的内部结构、企业与指标的内在联系,这三个方面是一个密不可分的整体;12、对应分析中总惯量的意义是什么答:代表总体两个变量相互联系的总信息量,可以反映某种变量特征属性的接近程度,及时对数据组分进行约束;。