《多元统计分析》第三章 判别分析
- 格式:pdf
- 大小:2.55 MB
- 文档页数:66
《多元统计实验》判别分析实验报告cbind(类别,newG,Z$post,Z$x)#合并原分类、回判分类回判后验概率及判别tab=table(类别,newG)#原分类和新分类列表比较tabsum(diag(prop.table(tab)))prenew=predict(ld,newdata=newdata)prenew#对三个待判样本进行判定cbind(prenew$class,prenew$post,prenew$x)#也可以按列合并在一起看二、实验结果分析5.5进行Fisher判别分析.若一位新客户的8个指标分别为(2 500, 1 500, 0,3, 2,3, 4, 1),试对该客户的信用度进行评价.以上输出结果中包括了lad()所用的公式、先验概率1、2、3、4、5 为:0.2941176 、0.1176471 、0.1764706 0.1764706 、0.2352941,各组均值向量、线性判别函数的系数。
输出所有分类组由输出结果可知第十二号样品为第四组的被误判给了第五组,且与距离判别法结果一致,最后对新客户的8个指标(2500,1500,0,3,2,3,4,1)进行判定。
说明:由$class可以看出该新用户被判入第一组,结果与距离判别法一致,对应的后验概率决定该新用户的归类组。
因此该新用户的信用度评价为一。
5.6试对表5-7中的数据进行Bayes判别分析并对8个待判样品的类别进行判定.由上结果可知,两个组别为一的被误判为第二组,第二组的三个被误判为第一组。
出现5个误判结果正确率为:0.9411765,误判错误的概率仍然较低。
Bayes判别法对八个待测样本的判定结果为:四个判给第一组,四个判给第二组,且Bayes 判别法是采用了新的后验概率,而不是先验概率。
因此判出概率相同。
判别分析Discriminant analysis 概念判断样品所属类别的一种多元统计分析方法,根据一批分类明确的样品资料在若干判别指标上的观测值,建立一个关于指标的判别函数和判别法则,使得按此法则来判断这批样品归属类别的正确率达到最高,进而对给定的新样品判断其所属的类别总体。
步骤(1)收集训练样本在定义类别时,单个类内的样本个数不能太少;组的个数不应大于判别变量的个数。
(2)建立判别函数Y b0b1 X1b2 X2bp XP(3)估计判别函数判别准则a:组重心间的距离作为组间差异的标准(两组/方差相近)判别准则b:组间离差平方和/组内离差平方和(即判别函数已解释平方和/未解释平方和)(4)检验判别函数检验判别准则(判别准则的最大值)λ=已解释离差平方和/未解释离差平方和Wilks'Lambda,“反向”评价指标=1/(1+λ),未解释离差平方和/总离差平方和(5)检验判别变量可利用Wilks'Lambda对每个判别变量单独检验其判别能力。
对于显著性检验,可使用F检验代替卡方检验。
(6)将新元素分类分类距离判别法又称最近邻方法基本思想样品和哪个总体距离最近(重心),就判它属哪个总体考虑常涉及多个变量间有相关性且量纲不同--马氏距离适用条件分布无特定的要求,适用于任意分布的资料分类两类总体的判别(协方差矩阵相等/不相等)多类总体的判别判别效果一般要求错判率小于0.1或0.2才有应用的价值。
错判率的估计有训练样本(回代考核)和新样本(前瞻考核)两种方法。
Fisher判别又称典则判别基本思想基本思想是投影,即将k组p维数据投影到某一个方向,使得投影后组与组之间尽可能地分开.借鉴方差分析的思想,即要求投影点的类间离差与类内离差之比最大适用条件分布无特定的要求,适用于任意分布的资料核心步骤计算组间离差阵B和组内离差阵E求特征根和特征向量特征值Eigenvalue:组间平方和与组内平方和之比值;典则相关系数:是组间平方和与总平方和之比的平方根;变换式。
判别分析:实验步骤:1.在SPSS窗口中选择:分析-分类-判别,将变量导入自变量框中,group导入分组变量中,选择定义范围,最小为1最大为3,并选择一起输入自变量,点击继续2.点击统计量,描述性中选择“均值”,“单变量”和”Box”,选择函数系数中的“Fisher”“未标准化”,矩阵中选择“组内相关”,点击继续3.点击分类点击继续4.点击“保存”,三个框均选中,点击继续5.点击确定实验结果分析:1.表1 组统计量看各个总体在均值等指标上的值是否接近,若接近说明各类之间在该指标差异不大表2表3 汇聚的组内矩阵若自变量之间存在高度相关,则判别分析价值不大,但并不严格,允许出现一定的相关表4 协方差矩阵的均等性的箱式检验检验结果p值>0.05时,说明协方差矩阵相等,可以进行bayes检验表5表7由表7可知,两个Fisher 判别函数分别为1123456212345674.99 1.861 1.6560.8770.7980.098 1.57929.4820.867 1.1550.3560.0890.0540.69y X X XX X X y X X X X X X =--+-+++=--+--++表8 结构矩阵该表是原始变量与典型变量(标准化的典型判别函数)的相关系数,相关系数的绝对值越大,说明原始变量与这个判别函数的相关性越强由表9可知各类别重心的位置,通过计算观测值与各重心的距离,距离最小的即为该观测值的分类。
第一类:11234565317.2143.9153.190.153.011.0189.3F X X X X X X =--+-+++2. 将各样品的自变量值代入上述三个Bayes 判别函数,得到函数值。
比较函数值,哪个函数值比较大就可以判断该样品判入哪一类下面是赠送的保安部制度范本,不需要的可以编辑删除谢谢!保安部工作制度一、认真贯彻党的路线、方针政策和国家的法津法规,按照####年度目标的要求,做好####的安全保卫工作,保护全体人员和公私财物的安全,保持####正常的经营秩序和工作秩序。
Equation Chapter 1 Section 1 Array《多元统计分析》Multivariate Statistical Analysis主讲:统计学院统计学院应用统计学教研室School of Statistics第三章 判别分析【教学目的】1. 让学生了解判别分析的背景、基本思想; 2. 掌握判别分析的基本原理与方法; 3. 掌握判别分析的操作步骤和基本过程; 4. 学会应用聚类分析解决实际问题。
【教学重点】1. 注意判别分析与聚类分析的关系(联系与区别); 2. 阐述各种判别分析方法。
§1 概述一、什么是判别分析1.研究背景科学研究中,经常会遇到这样的问题:某研究对象以某种方式(如先前的结果或经验)已划分成若干类型,而每一类型都是用一些指标()12,,,p X X X X '=来表征的,即不同类型的X 的观测值在某种意义上有一定的差异。
当得到一个新样本观测值(或个体)的关于指标X 的观测值时,要判断该样本观测值(或个体)属于这几个已知类型中的哪一个,这类问题通常称为判别分析。
也就是说,判别分析(discriminant analysis )是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法。
判别分析的应用十分广泛。
例如,在工业生产中,要根据某种产品的一些非破坏性测量指标判别产品的质量等级;在经济分析中,根据人均国民收入,人均工农业产值,人均消费水平等指标判断一个国家的经济发展程度;在考古研究中,根据挖掘的古人头盖骨的容量,周长等判断此人的性别;在地质勘探中,根据某地的地质结构,化探和物探等各项指标来判断该地的矿化类型;在医学诊断中,医生要根据某病人的化验结果和病情征兆判断病人患哪一种疾病,等等。
值得注意的是,作为一种统计方法,判别分析所处理的问题一般都是机理不甚清楚或者基本不了解的复杂问题,如果样本观测值的某些观测指标和其所属类型有必然的逻辑关系,也就没有必要应用判别分析方法了。
第六章 判别分析§6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。
在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。
例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。
总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多。
判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。