判别分析中Fisher判别法的应用
- 格式:doc
- 大小:491.00 KB
- 文档页数:14
Fisher判别分析及其应用田兵【期刊名称】《渭南师范学院学报》【年(卷),期】2014(000)023【摘要】判别分析法是根据所研究个体的观测值来构建一个综合标准用来推断个体属于已知种类中哪一类的方法。
Fisher判别分析法是一种非常重要而且应用极为广泛的判别分析法。
文章介绍了Fisher判别分析法的数学思想,详细阐述了在两个总体和多个总体情况下它的判别函数以及判别准则。
之后通过举例说明了Fisher判别分析法在解决实际问题中的具体应用。
%The method of discriminant analysis is a method that builds comprehensive standard according to individual observed value in order to distinguish individual belonging to a certain category.Fisher discriminant analysis is a very important and widely used method.The paper introduces the mathematics thought of Fisher discriminant analysis method, discriminant function and crite-rion.Then its application of specific problems is elucidated.【总页数】5页(P8-11,24)【作者】田兵【作者单位】包头师范学院《阴山学刊》编辑部,内蒙古包头014030【正文语种】中文【中图分类】O212.4【相关文献】1.荧光光谱法结合Fisher判别分析在西洋参鉴别中的应用 [J], 陈家伟;胡翠英;马骥2.Fisher判别分析法r在垦利M区块煤层识别中的应用 [J], 杨锋3.改进的正交边界Fisher判别分析及在人脸识别中的应用 [J], 盛诗曼4.Fisher判别分析法在渤中凹陷储层流体解释评价中的应用 [J], 马金鑫; 牛成民; 姬建飞; 袁胜斌5.Fisher判别分析在1型及2型糖尿病分类中的应用 [J], 司马明珠; 李全忠; 王延年因版权原因,仅展示原文概要,查看原文内容请购买。
费歇尔判别法费歇尔判别法(Fisher's Discriminant Analysis)是一种统计学中的方法,用于寻找两个或多个分类变量中最能有效区分它们的线性组合。
这种方法最初是由英国统计学家罗纳德·费歇尔(Ronald A. Fisher)在1936年所提出。
费歇尔判别法的目标是通过将数据投影到低维空间来确定样本类别之间最明显的分离平面。
这个方法假设所有数据员来自正态分布,这使得它的结果具有很高的概率。
此外,这种方法特别适用于小样本数据,在这种情况下,其它多变量方法往往受到数据不足或对角线矩阵估计的影响。
费歇尔判别法通过将多维数据投影到一维空间上,找到最能表示数据差异的线性变量。
具体步骤如下:1. 定义问题在进行费歇尔判别分析之前,首先需要定义问题。
这个问题可以是不同的变量之间的分类问题,或者是同一变量在不同条件下的分类问题。
例如,可以通过费歇尔判别分析找到两个组的区别,这两个组的特征可以用来预测其他类似两个组。
2. 构造分类变量在对数据进行投影之前,需要将分类变量定义为正态分布。
这种变量通常为两个或更多个。
3. 计算均值和方差计算每个分类变量的均值和方差,以用于后面的投影计算。
4. 计算类内离散度矩阵类内离散度矩阵是指每个类别内所有点与该类别均值之间的距离的累加和。
这个矩阵用来衡量类的内部分散程度,通常使用矩阵的矩阵乘法来进行计算。
5. 计算类间离散度矩阵类间离散度矩阵是指不同类别均值之间的距离的累加和。
这个矩阵用来衡量类别之间的分散程度,也通常使用矩阵的矩阵乘法来进行计算。
6. 计算特征值和特征向量计算类内离散度矩阵和类间离散度矩阵的特征值和特— 1 —征向量。
这些值可以使用线性代数中的方法计算。
一般来说,特征向量是正交(perpendicular)的。
7. 选取最大特征值从计算出的特征值中找到最大特征值,找到最大特征值所对应的特征向量。
这个特征向量就是数据的主要方向,也被称为“判别变量”。
Fisher判别是一种基于线性判别分析的分类方法,用于将样本分为不同的类别。
其基本步骤如下:
1. 确定判别变量:首先需要确定用于判别的变量,即用于分类的特征。
2. 计算判别函数:根据样本数据,计算出判别函数,即用于将样本分为不同类别的函数。
3. 确定判别类别:根据判别函数,将样本分为不同的类别。
4. 计算判别准确率:计算分类准确率,即正确分类的样本数与总样本数之比。
5. 优化判别函数:根据判别准确率,调整判别函数,以提高分类准确率。
6. 重复步骤3~5:重复以上步骤,直到达到所需的分类准确率。
在Fisher判别中,判别函数是基于Fisher线性判别的,即对于每个类别,计算出一个线性函数,使得属于该类别的样本与属于其他类别的样本的距离最大化。
这个过程可以通过矩阵运算和求导来实现。
总之,Fisher判别是一种基于线性判别分析的分类方法,其基本步骤包括确定判别变量、计算判别函数、确定判别类别、计算判别准确率、优化判别函数和重复步骤3~5,直到达到所需的分类准确率。
典则判别函数和fisher判别函数
典则判别函数和Fisher判别函数是模式分类中常用的两种算法。
它们都是通过选择合适的决策边界来对数据进行分类。
但是它们的实
现方式和应用场景有所不同。
典则判别函数是一种基于贝叶斯分类规则的判别函数。
它将数据
集分为多个类别,并计算每个类别的先验概率。
在观察到新的数据时,典则判别函数将计算各类别的后验概率并选择概率最大的类别作为分
类结果。
这种算法相对简单,但需要事先知道每个类别的先验概率。
Fisher判别函数则是一种基于判别分析的算法,它用于确定分类数据的最佳线性投影。
这个投影可以最大化类别之间的差异性,同时
最小化类别内部的差异性。
因此,Fisher判别函数在处理大量特征或
类别未知时效果更好。
它可以用于二分类和多分类问题,并且可以通
过聚类算法来确定类别数量。
总体而言,典则判别函数是一种简单而直接的方法,而Fisher
判别函数则更适合于处理高维数据和未知类别的情况。
但无论是哪种
算法,在实际应用中都需要根据具体的问题选择合适的算法,并根据
数据集进行调整。
判别分析公式Fisher线性判别二次判别判别分析是一种常用的数据分析方法,用于根据已知的类别信息,将样本数据划分到不同的类别中。
Fisher线性判别和二次判别是两种常见的判别分析方法,在实际应用中具有广泛的应用价值。
一、Fisher线性判别Fisher线性判别是一种基于线性变换的判别分析方法,该方法通过寻找一个合适的投影方向,将样本数据投影到一条直线上,在保持类别间离散度最大和类别内离散度最小的原则下实现判别。
其判别函数的计算公式如下:Fisher(x) = W^T * x其中,Fisher(x)表示Fisher判别函数,W表示投影方向的权重向量,x表示样本数据。
具体来说,Fisher线性判别的步骤如下:1. 计算类别内离散度矩阵Sw和类别间离散度矩阵Sb;2. 计算Fisher准则函数J(W),即J(W) = W^T * Sb * W / (W^T * Sw * W);3. 求解Fisher准则函数的最大值对应的投影方向W;4. 将样本数据投影到求得的最优投影方向上。
二、二次判别二次判别是基于高斯分布的判别分析方法,将样本数据当作高斯分布的观测值,通过估计每个类别的均值向量和协方差矩阵,计算样本数据属于每个类别的概率,并根据概率大小进行判别。
二次判别的判别函数的计算公式如下:Quadratic(x) = log(P(Ck)) - 0.5 * (x - μk)^T * Σk^-1 * (x - μk)其中,Quadratic(x)表示二次判别函数,P(Ck)表示类别Ck的先验概率,x表示样本数据,μk表示类别Ck的均值向量,Σk表示类别Ck的协方差矩阵。
具体来说,二次判别的步骤如下:1. 估计每个类别的均值向量μk和协方差矩阵Σk;2. 计算每个类别的先验概率P(Ck);3. 计算判别函数Quadratic(x);4. 将样本数据划分到概率最大的类别中。
判别分析公式Fisher线性判别和二次判别是常见的判别分析方法,它们通过对样本数据的投影或概率计算,实现对样本数据的判别。
Fisher 线性判别分析实验报告一、摘要Fisher 线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有性质:同类样本尽可能聚集在一起,不同类样本尽可能地远。
Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向w 和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。
二、算法的基本原理及流程图1 基本原理 (1) W 的确定各类样本均值向量 mi样本类内离散度矩阵iS 和总类内离散度矩阵wS12wS S S =+样本类间离散度矩阵bS在投影后的一维空间中,各类样本均值 T i i m '= W m样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W样本类间离散度 T b b S ' = W S WFisher 准则函数满足两个性质:投影后,各类样本内部尽可能密集,即总类内离散度越小越好。
T x S (x m)(x m ), 1,2iiii X i ∈=--=∑T 1212S (m m )(m m )b =--投影后,各类样本尽可能离得远,即样本类间离散度越大越好。
根据这个性质确定准则函数,根据使准则函数取得最大值,可求出w -1W = S(m - m)w12(2)阈值的确定实验中采取的方法:y = (m' + m') / 2012(3) Fisher线性判别的决策规则对于某一个未知类别的样本向量 x,如果y = W T x >y0, 则x∈w1否则x∈w22流程图方差标准化 (归一化处理)一个样本集中,某一个特征的均值与方差为:归一化:1 男女同学身高体重,训练数据和测试数据都是50当采用StudentData1作为训练数据,StudnetData2作为测试数据时当采用StudnetData2作为训练数据,StudentData2作为测试数据时2IonoSphere数据考虑到第一组数据训练数据多,下面的实验以第一组数据的训练数据作为训练数据,分别用其他组的测试数据进行测试从实验结果看,Fisher线性判别用于两类的判别决策时,拥有不错的效果,并且当有足量的训练数据时,效果更好。
1 绪论1.1课题背景随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。
多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。
判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。
潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。
它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。
而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。
通常用来判别某观测量是属于哪种类型。
在方法的具体实现上,采用国内广泛使用的统计软件SPSS(Statistical Product and Service Solutions),它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一1.2 Fisher判别法的概述根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
Fisher 判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):()j j xy=x∑C然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。
这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。
fisher判别法Fisher判别分析的基本思想:选取适当的投影方向,将样本数据进行投影,使得投影后各样本点尽可能分离开来,即:使得投影后各样本类内离差平方和尽可能小,而使各样本类间的离差平方和尽可能大。
为了克服“维数灾难”,人们将高维数据投影到低维空间上来,并保持必要的特征,这样,一方面数据点变得比较密集一些,另一方面,可以在低维空间上进行研究。
fisher判别法是判别分析的方法之一,它是借助于方差分析的思想,利用已知各总体抽取的样品的p维观察值构造一个或多个线性判别函数y=l′x其中l= (l1,l2…lp)′,x= (x1,x2,…,xp)′,使不同总体之间的离差(记为B)尽可能地大,而同一总体内的离差(记为E)尽可能地小来确定判别系数l=(l1,l2…lp)′。
数学上证明判别系数l恰好是|B-λE|=0的特征根,记为λ1≥λ2≥…≥λr>0。
所对应的特征向量记为l1,l2,…lr,则可写出多个相应的线性判别函数,在有些问题中,仅用一个λ1对应的特征向量l1所构成线性判别函数y1=l′1x不能很好区分各个总体时,可取λ2对应的特征向量l′2建立第二个线性判别函数y2=l′2x,如还不够,依此类推。
有了判别函数,再人为规定一个分类原则(有加权法和不加权法等)就可对新样品x判别所属。
Fisher判别法是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法,由Fisher在1936年提出。
该判别方法对总体的分布不做任何要求。
Fisher判别法是一种投影方法,把高维空间的点向低维空间投影。
在原来的坐标系下,可能很难把样品分开,而投影后可能区别明显。
一般说,可以先投影到一维空间(直线)上,如果效果不理想,在投影到另一条直线上(从而构成二维空间),依此类推。
每个投影可以建立一个判别函数。
第四节Fisher判别距离判别本节内容案例分析与R 软件实现3Fisher 判别函数的构造2Fisher 判别的基本思想1Fisher判别是1936年提出来的,该方法的主要思想是将多维数据投影到某个低维度方向上,投影的原则是将总体与总体之间尽可能的分开,然后再选择合适的判别规则,将新的样品进行分类判别。
Fisher判别函数的构建——多个总体情况费希尔于1936年发表的鸢尾花(Iris)数据,被广泛用于判别分析的例子。
数据是对3种鸢尾花:刚毛鸢尾花(第一组)、变色鸢尾花(第二组)和弗吉尼亚鸢尾花(第三组),各自抽取一个容量为50的样本。
在R软件中,可以直接调用命令iris来查看数据集Fisher判别又叫作线性判别分析(LDA),在R中,MASS这个包中,包含了LDA命令install.packages(“MASS”) # 安装MASS包library(MASS) # 调用MASS包,此时就可以调用Fisher判别了# 调用MASS包iris # 查看鸢尾花数据#Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.40.2setosa2 4.93 1.40.2setosa3 4.7 3.2 1.30.2setosa4 4.6 3.1 1.50.2setosa 55 3.6 1.40.2setosa6 5.4 3.9 1.70.4setosa7 4.6 3.4 1.40.3setosa 有四个关于花型的变量,和一个分类情况(部分)plot(iris$Sepal.Width,iris$Petal.Length,col =iris$Species)# 观察萼片宽度和花瓣长度两个变量下,鸢尾花种类的区分情况result <-lda(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.Width,data=iris)# 将分类结果保存到result中new <-data.frame(Sepal.Length=6.4,Sepal.Width=3.1,Petal.Length=4.7,Petal.Width=1.2) # 构建一个新的花朵数据pre <- predict(result,new) # 根据模型结果,对未知品种的花进行分类结果$`class`[1] versicolorLevels: setosa versicolor virginica在Levels的三个分类中,这朵未知品种的花被分到versicolor类中。
Fisher判别理论,编程步骤和优缺点1.理论判别分析是用于判别个体所属群体的一种统计方法,判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。
然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。
判别分析是一种应用性很强的统计数据分析方法。
Fisher判别(1)借助方差分析的思想构造一个线性判别函数:(2)确定判别函数系数时要求使得总体之间区别最大,而使每个总体内部的离差最小。
(3)从几何的角度看,判别函数就是p维向量X在某种方向上的投影。
使得变换后的数据同类别的点“尽可能聚在一起”,不同类别的点“尽可能分离”,以此达到分类的目的。
两类Fisher判别示意图(1)如果有多个类别, Fisher 判别可能需要两个或者更多的判别函数才能完成分类。
(2)一般来说判别函数的个数等于分类的个数减一。
(3)得到判别函数后,计算待判样品的判别函数值,根据判别函数的值计算待判样品到各类的重心的距离,从而完成分类。
2.编程步骤① 把来自两类21/w w 的训练样本集X 分成1w 和2w 两个子集1X 和2X 。
G1 G2X② 由∑∈=i k X x k ii x n M 1,2,1=i ,计算i M 。
③ 由T i X x k i k i M x M x S ik ))((--=∑=计算各类的类内离散度矩阵i S ,2,1=i 。
④ 计算类内总离散度矩阵21S S S w +=。
⑤ 计算w S 的逆矩阵1-w S 。
⑥ 由)(211*M M S w w -=-求解*w 。
3.优点(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后的样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离竟可能的远,同一类别的尽可能的集中分布。
(2)Fisher 方法可以直接求解法向量。
(3)Fisher 的线性判别不仅适用于确定性的模式分类器的训练,而且对于随机的模机也是适用的,Fisher 还可以推广到多类问题中去。
线性判别分析(LDA)准则:FIsher准则、感知机准则、最⼩⼆乘(最⼩均⽅误差)准则准则采⽤⼀种分类形式后,就要采⽤准则来衡量分类的效果,最好的结果⼀般出现在准则函数的极值点上,因此将分类器的设计问题转化为求准则函数极值问题,即求准则函数的参数,如线性分类器中的权值向量。
分类器设计准则:FIsher准则、感知机准则、最⼩⼆乘(最⼩均⽅误差)准则Fisher准则Fisher线性判别分析LDA(Linearity Distinction Analysis)基本思想:对于两个类别线性分类的问题,选择合适的阈值,使得Fisher准则函数达到极值的向量作为最佳投影⽅向,与投影⽅向垂直的超平⾯就是两类的分类⾯,使得样本在该⽅向上投影后,达到最⼤的类间离散度和最⼩的类内离散度。
Fisher线性判别并不对样本的分布进⾏任何假设,但在很多情况下,当样本维数⽐较⾼且样本数也⽐较多时,投影到⼀维空间后样本接近正态分布,这时可以在⼀维空间中⽤样本拟合正态分布,⽤得到的参数来确定分类阈值。
类间离差平⽅和最⼤,类内离差平⽅和最⼩的投影⽅向。
准则函数:组间离差平⽅和/组内离差平⽅和;准则:超过阈值?感知机准则基本思想:对于线性判别函数,当模式的维数已知时,判别函数的形式实际上就已经确定下来,线性判别的过程即是确定权向量 。
感知机是⼀种神经⽹络模型,其特点是随意确定判别函数初始值,在对样本分类训练过程中,针对分类错误的样本不断进⾏权值修正,逐步迭代直⾄最终分类符合预定标准,从⽽确定权向量值。
可以证明感知机是⼀种收敛算法,只要模式类别是线性可分的,就可以在有限的迭代步数⾥求出权向量的解。
优点:简单、便于实现。
缺点:结果不唯⼀,在线性不可分情况下不收敛。
给定初始权值向量,通过样本的训练分类过程逐渐修正权值直到最终确定。
准则函数:错分样本数,准则:错分样本数为0上述两个准则的区别和联系Fisher线性判别是把线性分类器的设计分为两步,⼀是确定最优⽅向,⼆是在这个⽅向上确定分类阈值;感知机则是通过不断迭代直接得到完整的线性判别函数。
1 绪论1.1课题背景随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。
多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。
判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。
潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。
它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。
而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。
通常用来判别某观测量是属于哪种类型。
在方法的具体实现上,采用国广泛使用的统计软件SPSS(Statistical Product and Service Solutions),它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一1.2 Fisher判别法的概述根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。
Fisher 判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):()j j x Cy=x∑然后应用这个线性函数把P 维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。
这个线性函数应该能够在把P 维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。
在这里借用了一元方差分析的思想,即依据组间均方差与组均方差之比最大的原则来进行判别。
1.3 算法优缺点分析优点:(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。
(2)Fisher 方法可直接求解权向量*w ;(3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去缺点:(1)如果21M M =,0*=w ,则样本线性不可分; 21M M ≠,未必线性可分; w S 不可逆,未必不可分。
(2)对线性不可分的情况,Fisher 方法无法确定分类2 实验原理2.1 线性投影与Fisher 准则函数各类在d 维特征空间里的样本均值向量:∑∈=ik X x kii xn M 1,2,1=i (2.5-2)通过变换w 映射到一维特征空间后,各类的平均值为:∑∈=ik Y y kii yn m 1,2,1=i (2.5-3)映射后,各类样本“类离散度”定义为:22()k ii k i y Y S y m ∈=-∑,2,1=i (2.5-4)显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类离散度越小越好。
因此,定义Fisher 准则函数:2122212||()F m m J w s s -=+ (2.5-5)使F J 最大的解*w 就是最佳解向量,也就是Fisher 的线性判别式。
2.2 求解*w从)(w J F 的表达式可知,它并非w 的显函数,必须进一步变换。
已知:∑∈=ik Y y kii yn m 1,2,1=i , 依次代入(2.5-1)和(2.5-2),有: i TX x kiT k X x Tii M wx n w x wn m ik ik ===∑∑∈∈)1(1,2,1=i (2.5-6)所以:221221221||)(||||||||M M w M w M w m m T T T -=-=-w S w w M M M M w b T T T =--=))((2121 (2.5-7)其中:T b M M M M S ))((2121--= (2.5-8)b S 是原d 维特征空间里的样本类离散度矩阵,表示两类均值向量之间的离散度大小,因此,b S 越大越容易区分。
将(2.5-6)i T i M w m =和(2.5-2)∑∈=ik X x kii xn M 1代入(2.5-4)2i S 式中:∑∈-=ik X x i T kT i M w xw S 22)(∑∈⋅--⋅=ik X x T i k i kT w M x M xw ))((w S w i T = (2.5-9)其中:T i X x k i ki M x M xS ik ))((--=∑=,2,1=i (2.5-10)因此:w S w w S S w S S w T T =+=+)(212221 (2.5-11)显然:21S S S w += (2.5-12)i S 称为原d 维特征空间里,样本“类离散度”矩阵。
w S 是样本“类总离散度”矩阵。
为了便于分类,显然i S 越小越好,也就是w S 越小越好。
将上述的所有推导结果代入)(w J F 表达式: 可以得到:)(211*M M S w w-=-λγ 其中,λγ是一个比例因子,不影响*w 的方向,可以删除,从而得到最后解: )(211*M M S w w -=- (2.5-18)*w 就使)(w J F 取得最大值,*w 可使样本由d 维空间向一维空间映射,其投影方向最好。
)(211*M M S w w -=-是一个Fisher 线性判断式。
这个向量指出了相对于Fisher 准则函数最好的投影线方向。
2.3 Fisher 算法步骤由Fisher 线性判别式)(211*M M S w w -=-求解向量*w 的步骤:① 把来自两类21/w w 的训练样本集X 分成1w 和2w 两个子集1X 和2X 。
② 由∑∈=ik X x kii xn M 1,2,1=i,计算i M 。
③ 由T i X x k i ki M x M xS ik ))((--=∑=计算各类的类离散度矩阵iS ,2,1=i。
④ 计算类总离散度矩阵21S S S w +=。
⑤ 计算w S 的逆矩阵1-wS 。
⑥ 由)(211*M M S w w -=-求解*w 。
3 实验目的应用统计方法解决模式识别问题的困难之一是维数问题,在低维空间行得通的方法,在高维空间往往行不通。
因此,降低维数就成为解决实际问题的关键。
Fisher 的方法,实际上涉及维数压缩。
如果要把模式样本在高维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。
问题的关键是投影之后原来线性可分的样本可能变得混杂在一起而无法区分。
在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。
如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher 法要解决的基本问题。
这个投影变换就是我们寻求的解向量*w本实验通过编制程序体会Fisher 线性判别的基本思路,理解线性判别的基本思想,掌握Fisher 线性判别问题的实质。
4 实验实例例题:根据我国东部沿海11个省市城镇居民家庭平均每人全年家庭收入的5个指标(工薪收入、经营净收入、财产性收入和转移性收入)数据将各省市城镇居民家庭分为高收入组和次高收入组,建立判别函数进而判定未分组省市的类别。
4.1数据录入通过国家统计局得到我国东部沿海11省市的城镇居民家庭平均每人全年家庭收入的5个指标(工薪收入、经营净收入、财产性收入和转移性收入)数据得到excel表格,并将11个省份划分为高收入组(代号为1)和次高收入组(代号为2),分类如图2-1组别,将其导入spss得到如图4-1所示:4-14.2进行Fisher判别分析在SPSS中进行如下操作:步骤一在analyze菜单中的classify子菜单中选择discriminant命令如4-2图所示。
4-2步骤二在如图4-3所示的discriminant analyze对话框中,从左侧变量的变量列表中选择“工薪收入”、“经营净收入”、“财产性收入”和“转移性收入”变量,使之添加到independents框中4-3步骤三选择“组别”变量使之添加到group ariable框中。
这时group ariable 框下的define range按钮变为可用,单击,弹出discriminant analyze:difine 对话框如图4-4所示,并在minium中输入1,在maximum中输入2.4-4步骤四在discriminant analyze对话框中单击statistics按钮,弹出discriminant analyze:statistics对话框,如图4-5所示。
4-5步骤五在discriminant analyze对话框中单击classify按钮弹出discriminant analyze:classification对话框,如图4-6所示4-6步骤六单击图4-3所示的discriminant analysis对话框中的ok键,完成操作。
4.3得到分析结果如表4-1所示可知只有一个判别函数:D1=2.94*城镇居民家庭总收入-1.892*工资性收入+0.943*经营性收入-1.322*财产性收入-1.112*转移性收入标准化的典型判别式函数系数由分析结果表4-2可知高收入组的Fisher 线性判别函数为:F1=0.025*城镇居民家庭总收入-0.018*工资性收入+0.014*经营性收入-0.064*财产性收入-0.009*转移性收入-105.381次高收入组的Fisher 判别函数为:F2=0.021*城镇居民家庭总收入-0.015*工资性收入+0.009*经营性收入-0.05*财产性收入-0.009*转移性收入-55.554。
函数1 城镇居民家庭总收入 2.940 工资性收入-1.892 经营性收入 .943 财产性收入 -1.322 转移性收入 -.112表4-1将初始数据代入判别函数可得到表4-3,可知判别函数对初始分组案例100%的进行了正确分类。
4.4应用Fisher 判别方程对未分组省份进行分组 由分析可知判别函数123452.94*X 1.892*X 0.943* 1.322* 1.112*D X X X =-+--(其中1X 2X 3X 4X 5X 分别代表城镇居民家庭总收入、工资性收入、经营性收入、财产性收入、转移性收入) 又有高收入组各项指标的均值X(1)= (24632.8,18453.4,1826.2 ,703.4 ,6592.4)次高收入组各项指标的均值X(2)= (16178.16667,11553.66667 ,1480.333333,489.5,4210.666667)代入判别函数可得Y(1)=30968.06 ,2Y()=21770.85进而可得()2,1c Y =25951.4将剩余的省份代入判别函数如表4-4所示表4-4根据表4-4判别函数值列与临界值25951.4比较可知:剩余未分类的省份都属于次高收入组。