第十八章_判别分析
- 格式:ppt
- 大小:2.41 MB
- 文档页数:74
______________________________________________________________________________________________________________判别分析的基本原理和模型一、判别分析概述(一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法(一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i类的重心距离最近,就认为它来自精品资料第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211该总体的样本指标平均值为:()()()A x A x A x p 21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211该总体的样本指标平均值为:()()()B x B x B x p 21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21 ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
判别分析一、理论部分(一)判别分析概述判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。
近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。
1.什么是判别分析所谓的判别分析是根据观测到的某些指标对所研究的对象进行分类的一种多元统计分析方法。
判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。
潜在的应用包括预测产品的成功或失败,决定学生是否别录取,按职业兴趣对学生分组,确定某人信用风险的种类,预测一个公司是否成功。
这些都可以通过判别分析来实现。
2.判别分析的特点判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。
当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。
3.判别分析用用的领域判别分析的应用领域非常广泛,例如:(1)用户和非用户;(2)经常购买者和非经常购买者;(3)新用户、流失用户和忠实用户;(4)忠诚用户和非忠诚用户;(5)新产品早期使用者和后期使用者;(6)消费者心目中喜欢的品牌和不喜欢的品牌;(7)消费者对我们的品牌和竞争品牌的不同属性偏好;(8)偏好图;(9)市场细分;(10)新产品开发等;4.判别分析与聚类分析的比较判别分析和聚类分析是不同的,很多人不知道两者的区别,为更好阐明两者的区别在此做出比较:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
(1)基本思想不同聚类分析的基本思想。
我们所研究的样品或指标( 变量) 之间存在程度不同的相似性( 亲疏关系) , 于是根据一批样品的多个观测指标, 具体找出一些能够度量样品或指标之间相似程度的统计量, 以这些统计量作为划分类型的依据。
把一些相似程度较大的样品( 或指标) 聚合为一类, 把另外一些相似程度较大的样品( 或指标) 又聚合为另一类; 关系密切的聚合到一个小的分类单位, 关系疏远的聚合到一个大的分类单位, 直到把所有的样品(或指标)聚合完毕。
判别分析判别分析是一种常用的统计分析方法,根据观察或测量到若干变量值,判别研究对象属于哪一类的方法。
进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。
判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。
线性判别函数一般形式是1122...n n y a x a x a x =+++,y 为判别分数(判别值),n x 为反映研究对象特征的变量,n a 为各变量的判别系数。
典则判别分析:建立典则变量代替原始数据文件中指定的自变量。
典则变量是原始自变量的线性组合。
用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。
实验:实验数据见:判别分析2010.sav .例1:一个城市的居民家庭,按其有无割草机可分为两组,有割草机的记为一组为1π,没有割草机的一组记为2π,割草机工厂欲判断一些家庭是否购买割草机。
从1π和2π分别随机抽取12个样品,调查两项指标:1x =家庭收入,2x =房前屋后土地面积。
用y 作为二元被解释变量,有割草机的家庭用1表示,没有割草机的家庭用0表示,12,x x 作为解释变量。
实验步骤:打开判别分析2010.sav ,之后选择判别分析。
选择变量,定义范围分组变量:必须是离散变量,设置分类变量的范围选择变量:选择一部分符合条件的观测量进行判别函数的推导,而且有一个变量的某个值可以作为这些观测量的标识。
例如:新设一个变量group,选择group=1,则只有group=1的观测量参与判别函数的推导。
一起输入自变量:判别分析过程使用所有的自变量进行判别分析,建立全模型。
使用步进式方法:筛选能对观测量的特性提供丰富的信息的自变量进入判别分析。
在“方法”栏中作相应选择Wilks’lambda:每步都是Wilk的lambda统计量最小的进入判别函数。
未解释方差:每步都是各类不可解释的方差和最小的变量进入判别函数。
聚类分析(clustering analysis)一、聚类分析与判别分析将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。
已成为发掘海量基因信息的首选工具。
在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。
判别分析聚类分析二者都是研究分类问题的多元统计分析方法二、聚类对象类型聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。
例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。
(2)Q型聚类又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。
无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。
聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similarity coefficient)的定义。
1.R 型(指标)聚类的相似系数X 1,X 2,…,X m 表示m 个变量,R 型聚类常用简单相关系数的绝对值定义变量间的相似系数:绝对值越大表明两变量间相似程度越高。
同样也可考虑用Spearman 秩相关系数定义非正态变量X i 与X j 间的相似系数。
当变量均为定性变量时,可用列联系数定义类间的相似系数。
22()()(19-1)()()i i j j ij i i j j X X X X r X X X X --=--∑∑∑将n 例(样品)看成是m 维空间的n 个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。
2.Q 型(样品)聚类常用相似系数|| (19-4)ij i j d X X =-∑(2)绝对距离:绝对距离(Manhattan distance )2() (19-3)ij i j d X X =-∑(1)欧氏距离: 欧氏距离(Euclidean distance )2.Q 型(样品)聚类常用相似系数(3)Minkowski 距离:绝对距离是q=1时的Minkowski 距离;欧氏距离是q=2时的Minkowski 距离。
判别分析的原理及其操作1 判别分析的原理1.1 判别分析的涵义判别分析(Discriminant Analysis,简称DA)技术是由费舍(R.A.Fisher)于1936年提出的。
它是根据观察或测量到的若干变量值判断研究对象如何分类的方法。
具体地讲,就是已知一定数量案例的一个分组变量(grouping variable)和这些案例的一些特征变量,确定分组变量和特征变量之间的数量关系,建立判别函数(discriminant function),然后便可以利用这一数量关系对其他已知特征变量信息、但未知分组类型所属的案例进行判别分组。
沿用多元回归模型的称谓,在判别分析中称分组变量为因变量,而用以分组的其他特征变量称为判别变量(discriminant variable)或自变量。
判别分析技术曾经在许多领域得到成功的应用,例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病;体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养;还有动物、植物分类,儿童心理测验,地理区划的经济差异,决策行为预测等。
1.2 判别分析的假设条件判别分析的基本条件是:分组变量的水平必须大于或等于2,每组案例的规模必须至少在一个以上;各判别变量的测度水平必须在间距测度等级以上,即各判别变量的数据必须为等距或等比数据;各分组的案例在各判别变量的数值上能够体现差别。
判别分析对判别变量有三个基本假设。
其一是每一个判别变量不能是其他判别变量的线性组合。
否则将无法估计判别函数,或者虽然能够求解但参数估计的标准误很大,以致于参数估计统计性不显著。
其二是各组案例的协方差矩阵相等。
在此条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
其三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
1.3 判别分析的过程1.3.1 对已知分组属性案例的处理此过程为判别分析的第一阶段,也是建立判别分析基本模型的阶段,即分析和解释各组指标特征之间的差异,并建立判别函数。
第18章 判别分析判别分析,也就是根据观测数据对所研究的对象进行分类判别。
判别分析方法就是专门根据若干因素对预报对象进行分类的一种方法, 通过分析可以建立用于定性预报的数学模型。
例如,我们积累了某种病虫害各种发生状态的若干历史资料(样本),希望从中总结出分类的规律性(即判别公式),在以后的工作中遇到新的发生状态(样本)时,只要根据总结出来的判别公式判断它所属的类就行了。
在判别分析中,可从不同角度提出问题,故有不同的判别准则,常见如Fisher 判别和Bayes 判别。
第1节 两组判别1. 概述 在两组间进行判别分析的处理方法,基于统计上的费歇尔(Fisher)准则,即判别的结果应使两组间区别最大,使每组内的离散性最小。
在费歇尔准则下,确定线性判别函数y =c 1x 1+c 2x 2+…+c p x p ,其中 c 1, c 2, …, c p 为待求判别函数的系数。
以A 和B 代表两组总体,两组中各有一批抽样数据,每个样本有p 个变量(p 个判别指标)。
A 组有n A 个样本,各判别指标(变量)的平均值为x 1(A), x 2(A), …, x p (A)。
B 组有n B 个样本,各判别指标(变量)的平均值为x 1(B),x 2(B), …, x p (B) 。
若以y c x k k k p ()()A A ==∑1 表示A 组样本的重心,以y c x k k k p()()B B ==∑1表示B 组样本的重心,则两组间的离差可用(()())y y A B -2来表示,A 组内部离散程度和B 组内部离散程度分别以(()())y y i i n A A -=∑211和(()())y y i i n B B -=∑212 来表示,其中y i (A)=c x k ik k p ()A =∑1,y c x i k ik k p()()B B ==∑1。
要使两组间离差最大,必须使()())y y (A B -2最大;要使各组内的离散程度最小,必须使()())y y i i n (A A -=∑211+(()))y y i i n B (B -=∑212达到最小。