当前位置:文档之家› 模式识别fisher线性判别作业

模式识别fisher线性判别作业

模式识别fisher线性判别作业
模式识别fisher线性判别作业

实验容使用FISHER线性判别来对树叶进行分类指导老师_王旭初_____

一.实验目的

利用FISHER线性判别函数来对桃树叶子和芒果树叶子进行分类,将这两者若干片树叶进行一定特点分类,做出函数图,使得我们容易分析这两者之间的异同。

二.数据获取方式

实验过程中将会使用到FISHER线性判别函数法,MATLAB实验仿真程序。通过实验MATLAB程序来设计一个FISHER线性判别分类器,将实验前收集到的两种树叶的若干片叶子的数据输入分类器,运行后得出一个分类仿真图形,从而可以得出其叶子间的异同点。

三.实验原理

Fisher线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有如下性质:同类样本尽可能聚集在一起,不同类的样本尽可能地远。

Fisher线性判别分析,就是通过给定的训练数据,确定投影方向W和阈值y0,即确定

线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。

线性判别函数的一般形式可表示成 0)(w X W X g T += 其中

?????

??=d x x X Λ1 ??????

? ??=d w w w W Λ21

根据Fisher 选择投影方向W 的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类样本投影尽可能密集的要求,用以评价投影方向W 的函数为:

2

2

2122

1~~)~~()(S S m m W J F +-= )(211

*m m S W W -=-

上面的公式是使用Fisher 准则求最佳法线向量的解,该式比较重要。另外,

该式这种形式的运算,我们称为线性变换,其中21m m -式一个向量,1

-W S 是W S 的逆矩阵,如21m m -是d 维,W S 和1-W S 都是d ×d 维,得到的*W 也是一个d 维的向量。

向量*W 就是使Fisher 准则函数)(W J F 达极大值的解,也就是按Fisher 准则将d 维X 空间投影到一维Y 空间的最佳投影方向,该向量*W 的各分量值是对原d 维特征向量求加权和的权值。

以上讨论了线性判别函数加权向量W 的确定方法,并讨论了使Fisher 准则函数极大的d 维向量*W 的计算方法,但是判别函数中的另一项0W 尚未确定,一般可采用以下几种方法确定0W 如

2

~~2

10m m W +-= 或者 m N N m N m N W ~~~2

12

2110=++-

= 或当1)(ωp 与2)(ωp 已知时可用

[]??????-+-+=2)(/)(ln 2

~~212

1210N N p p m m W ωω ……

当W0确定之后,则可按以下规则分类,

2

010ωω∈→->∈→->X w X W X w X W T

T

使用Fisher 准则方法确定最佳线性分界面的方法是一个著名的方法,尽管提出该方法的时间比较早,仍见有人使用。

(1)W 的确定

样本类离散度矩阵i

和总类离散度矩阵w S

T

x S (x m )(x m ), 1,2

i

i i i X i ∈=

--=∑

12w S S S =+

样本类间离散度矩阵b S

在投影后的一维空间中,各类样本均值T

i

i

m '= W

m 。样本类离散度和总类离

散度 T T i i w w S ' = W S W S ' = W S W 。样本类间离散度T

b

b S ' = W S W 。 Fisher 准则函数满足两个性质:

·投影后,各类样本部尽可能密集,即总类离散度越小越好。 ·投影后,各类样本尽可能离得远,即样本类间离散度越大越好。

根据这个性质确定准则函数,根据使准则函数取得最大值,可求出W :

-1w 12W = S (m - m ) 。

(2)阈值的确定

实验中采取的方法:012y = (m ' + m ') / 2。

(3)Fisher 线性判别的决策规则

对于某一个未知类别的样本向量x ,如果y=W T

·x>y0,则x ∈w1;否则x ∈w2。

四.实验步骤

(1)采集桃树叶子150片,采集芒果树叶子150片。测量这些叶子的长度,宽度,

T

1212S (m m )(m m )b =--

以及周长。

(2)将上述叶子的数据记录下来。

(3)使用matlab仿真实验工具设计一个fisher线性判别分类器。

(4)将记录下来的树叶的数据输入分类器,创建一个二维的分类参数,使用分类器对其进行特征分类。

(5)利用matlab仿真程序将分类的结果画出仿真图形,并做记录分析。

五.实验代码

六.实验结果

七. 心得体会

这次实验加深了我对课上学习到的模式识别原理与应用的知识的理解,提高了动手实践能力。的确上课时听过的容当时明白了但是却是一闪即过的,只有通过亲自动手实践才能够对于知识有真正深刻而完整的理解.

由于专业课程设计的问题,从前一点都没有接触过MATLAB这个工具,但在这次实验中,我通过自己学习、查找资料、与同学讨论交流的一系列过程最终也使用MATLAB完成了实验。在这个过程中,我不仅发现MATLAB是一个很便捷并且功能强大的工具,同时也锻炼了自己学习与实践、发现问题、分析问题、解决问题的能力。

另外,我认为相比其他的同学我收获的更多--面对任何新鲜事物不应当有畏难情绪,虽然开始时候学习很困难,实验过程中也出现了不少比较“低级”的错误,但只要踏下心来一步步的学习并且不断实验,无知不可怕,出现错误也不可怕,只要努力的通过各种途径尝试最终是完全可以完成任务的。

总而言之,这次实验让我们收获了知识、提高了实践能力也让我们对于科学研究产生了更深的兴趣,希望通过进一步学习逐步提高自己。

多元统计分析课后习题解答_第四章

第四章判别分析 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X= 和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时,

D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是 1 和 2, 对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2(X ,G 1)D 2(X ,G 2) X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ??? ''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X)

Fisher判别分析原理详解

Fisher判别分析原理详解 说起Fisher判别分析,不得不提到一个大神级人物! Ronald Aylmer Fisher (1890~1962) 英国统计学家和遗传学家 主要著作有:《根据孟德尔遗传方式的亲属间的相关》、《研究者用的统计方法》、《自然选择的遗传理论》、《试验设计》、《近交的理论》及《统计方法和科学推理》等。他一生在统计生物学中的功绩是十分突出的。 ?生平 1890年2月17日生于伦敦,1962年7月29日卒于澳大利亚阿德莱德。 1912年毕业于剑桥大学数学系,后随英国数理统计学家J.琼斯进修了一年统计力学。他担任过中学数学教师,1918年任罗坦斯泰德农业试验站统计试验室主任。 1933年,因为在生物统计和遗传学研究方面成绩卓著而被聘为伦敦大学优生学教授。 1943年任剑桥大学遗传学教授。

1957年退休。 1959年去澳大利亚,在联邦科学和工业研究组织的数学统计部作研究工作。 大神解决的问题 ?Fisher 线性判别函数的提出: 在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间可行的方法,在高维空间变得不可行。因此,降低维数就成为解决实际问题的关键。Fisher 的方法,就是解决维数压缩问题。 对xn的分量做线性组合可得标量 yn=wTxn,n=1,2,…,Ni 得到N个一维样本yn组成的集合。从而将多维转换到了一维。 考虑把d维空间中的数据点投影到一条直线上去的问题,需要解决的两个问题: (1)怎样找到最好的投影直线方向;(2)怎样向这个方向实现投影,这个投影变 换就是要寻求的解向量w*。这两个问题就是Fisher方法要解决的基本问题。?判别分析的一些基本公式 Fisher判别分析用于两类或两类以上间的判别,但常用于两类间判别。 Fisher判别函数表达式(多元线性函数式): 判别函数的系数是按照组内差异最小和组间差异最大同时兼顾的原则来确定判别函数的。 Fisher判别准则: 判别临界点: Fisher判别分析思想: 1. 类间差异大,类内变异小, 最大 2. 方差分析的思想:以下值最大 ?Fisher判别的原理 分析w1方向之所以比w2方向优越,可以归纳出这样一个准则,即向量w的方向选择应能使两类样本投影的均值之差尽可能大些,而使类内样本的离散程度尽可能小。这就是Fisher准则函数的基本思路。如下图:

模式识别最近邻和fisher分类matlab实验报告

一、Fisher 线性判别 Fisher 线性判别是统计模式识别的基本方法之一。它简单,容易实现,且计算量和存储量小,是实际应用中最常用的方法之一。Fisher 判别法Fisher 在1936年发表的论文中首次提出的线性判别法。Fisher 判别法的基本思想是寻找一个最好的投影,当特征向量x 从d 维空间映射到这个方向时,两类能最好的分开。这个方法实际上涉及到特征维数的压缩问题。 一维空间的Fisher 线性判别函数为: 2 1212 ()()F m m J w S S -= + (1) i m = ∑x N 1,i=1,2 (2) 2,1,)()(=--=∑∈i m x m x S T i x i i i ξ (3) 其中,1m 和2m 是两个样本的均值,1S ,2S 分别为各类样本的的类内离散度。投影方向w 为: )(211 m m S w w -=- (4) 12w S S S =+ (5) 在Fisher 判决函数中,分子反应了映射后两类中心的距离平方,该值越大,类间可分性越好;分母反应了两类的类内的离散度,其值越小越好;从总体上讲,()F J w 的值越大越好,在这种可分性评价标准下,使()F J w 达到最大值的w 即为最佳投影方向。

1.1、 Fisher线性判别实验流程图

1.2 Fisher线性判别mtalab代码 data=importdata('C:\Users\zzd\Desktop\data-ch5.mat'); data1=data.data; data2=https://www.doczj.com/doc/9e16887072.html,bel; sample1=data1(1:25,:); sample2=data1(51:75,:); sample=[sample1 sample2]; sp_l=data2(26:75); test1=data1(26:50,:); test2=data1(76:100,:); test=[test1 test2]; lth=zeros(50,50); sample_m1=mean(sample1); sample_m2=mean(sample2); m1=sample_m1'; m2=sample_m2'; sb=(m1-m2)*(m1-m2)'; s1=zeros(2); for n=1:25 temp = (sample1(n,:)'-m1)*(sample1(n,:)'-m1)'; s1=s1+temp; end; s2=zeros(2); for n=1:25 temp = (sample2(n,:)'-m2)*(sample2(n,:)'-m2)'; s2 = s2+temp; end; sw=s1+s2; vw=inv(sw)*(m1-m2); a_m1 = vw'*m1; a_m2 = vw'*m2; w0 = (a_m1+a_m2)/2;

Fisher判别分析

对案例中小企业的破产模型做Fisher判别分析 江义114113001059 一问题:对企业的运行状态利用Fisher判别进行分类 选取四个经济指标用于判断企业处于破产状态还是正常运行状态,具体数据如下,其中类别1表示破产状态,类别2表示正常运行状态 X1总负债率X2收益率指 标 X3短期 支付能 力 X4生产 效率指 标 类别 -0.45 -0.41 1.09 0.45 1 -0.56 -0.31 1.51 0.16 1 0.06 0.02 1.01 0.4 1 -0.07 -0.09 1.45 0.26 1 0.38 0.11 3.27 0.55 2 0.19 0.05 2.25 0.33 2 0.32 0.07 4.24 0.63 2 0.04 0.01 1.5 0.71 2 -0.06 -0.06 1.37 0.4 1 0.07 -0.01 1.37 0.34 2 -0.13 -0.14 1.42 0.44 1 0.15 0.06 2.23 0.56 2 0.16 0.05 2.31 0.2 2 0.29 0.06 1.84 0.38 带测定 0.54 0.11 2.33 0.48 带测定 二、程序如下:(R语言) > data=read.table("E:/bac/qiye.txt",header=T) > data1=c(rep(1,6),rep(2,7)) > data2=as.factor(data1) > data$class=data2 > attach(data) > names(data) [1] "X1" "X2" "X3" "X4" "class" > library(MASS) > data.lda=lda(class~X1+X2+X3+X4) > data.lda Call: lda(class ~ X1 + X2 + X3 + X4) Prior probabilities of groups: 1 2 0.4615385 0.5384615 Group means:

机器学习实验1-Fisher线性分类器设计

一、实验意义及目的 掌握Fisher分类原理,能够利用Matlab编程实现Fisher线性分类器设计, 熟悉基于Matlab算法处理函数,并能够利用算法解决简单问题。 二、算法原理 Fisher准则基本原理:找到一个最合适的投影周,使两类样本在该轴上投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。 内容: (1)尝试编写matlab程序,用Fisher线性判别方法对三维数据求最优方向w的通用函数(2)对下面表1-1样本数据中的类别w1和w2计算最优方向w (3)画出最优方向w 的直线,并标记出投影后的点在直线上的位置 (4)选择决策边界,实现新样本xx1=(-0.7,0.58,0.089),xx2=(0.047,-0.4,1.04)的分类 三、实验内容 (1)尝试编写matlab程序,用Fisher线性判别方法对三维数据求最优方向w的通用函数程序清单: clc clear all %10*3样本数据 w1=[-0.4,0.58,0.089;-0.31,0.27,-0.04;-0.38,0.055,-0.035;-0.15,0.53,0.011;- 0.35,.47,0.034;0.17,0.69,0.1;-0.011,0.55,-0.18;-0.27,0.61,0.12;-0.065,0.49,0.0012;- 0.12,0.054,-0.063]; w2=[0.83,1.6,-0.014;1.1,1.6,0.48;-0.44,-0.41,0.32;0.047,-0.45,1.4;0.28,0.35,3.1;- 0.39,-0.48,0.11;0.34,-0.079,0.14;-0.3,-0.22,2.2;1.1,1.2,-0.46;0.18,-0.11,-0.49]; W1=w1';%转置下方便后面求s1

多元统计分析课后习题解答_第四章知识讲解

第四章判别分析 4.1 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时, D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空 间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一 个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划 分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X , 要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ?? ?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

Fisher判别函数

Fisher 判别函数的使用具体步骤 Fisher 多类判别模型 假定事物由p 个变量描述, 即: x=(p x x x ,...,,21)T 该种事物有G 个类型, 从每个类型中顺次抽取p n n n ,...,,21个样品, 共计n= ∑=G i i 1 n 个样品。 即从第g 类取了g n 个样品, g=1,2,?, G, 第g 类的第i 个样品, 用向量: gi x =(pgi gi gi x x ,...,,x 21)T (1) ( 1) 式中, 第一个下标是变量号, 第二个下标是类型号,第三个下标是样品号。设判别函数为: T x p p v x v x v x v =+++=...y 2211 (2) 其中: V=(p v v v ,...,21)T 按照组内差异最小, 组间差异最大同时兼顾的原则, 来确定判别函数系数。(中间推导过程不在这里介绍了) 最终就有个判别函数:,y x V T j j =1,...,2,1s j = 一般只取前M=min(G- 1,p)个, 即: M j x v x v x v y p pj j j j ,...,2,1,...2211=+++= (3) 根据上述M 个判别函数, 可对每一个待判样品做出判别。 ),...,,(x 020100p x x x= 其过程如下: 1、把x0 代入式(3) 中每一个判别函数, 得到M 个数 ,,...,2,1,...y 202101j 0M j x v x v x v p pj j j =+++= 记:T M y y y y ),...,,(020100= 2、把每一类的均值代入式(3)得 G g y y y y G g M j x v x v x v y M g g g g pg pg g g g g j g ,...,2,1),,...,,(,...2,1,,...,2,1,...212211====+++= 3、计算:∑=-=M j j j g g y y D 1 2 02 )(,从这G 个值中选出最小值:)(min 212g G g h D D ≤≤=。这样就把0 x 判为h 类。

Fisher线性判别分析实验(模式识别与人工智能原理实验1)

实验1 Fisher 线性判别分析实验 一、摘要 Fisher 线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有如下性质:同类样本尽可能聚集在一起,不同类的样本尽可能地远。 Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向W 和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。 二、算法的基本原理及流程图 1 基本原理 (1)W 的确定 各类样本均值向量mi 样本类内离散度矩阵i S 和总类内离散度矩阵 w S [ 12w S S S =+ 样本类间离散度矩阵b S 在投影后的一维空间中,各类样本均值T i i m '= W m 。样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W 。样本类间离散度T b b S ' = W S W 。 Fisher 准则函数满足两个性质: ·投影后,各类样本内部尽可能密集,即总类内离散度越小越好。 ·投影后,各类样本尽可能离得远,即样本类间离散度越大越好。 根据这个性质确定准则函数,根据使准则函数取得最大值,可求出W : -1w 12W = S (m - m ) 。 (2)阈值的确定 实验中采取的方法:012y = (m ' + m ') / 2。 \ T x S (x m )(x m ), 1,2 i i i i X i ∈= --=∑T 1212S (m m )(m m )b =--

(3)Fisher线性判别的决策规则 对于某一个未知类别的样本向量x,如果y=W T·x>y0,则x∈w1;否则x∈w2。 2 流程图 方差标准化(归一化处理) 一个样本集中,某一个特征的均值与方差为: 归一化: 三、实验要求 寻找数据进行实验,并分析实验中遇到的问题和结论,写出实验报告。

FISHER线性判别MATLAB实现

Fisher线性判别上机实验报告 班级: 学号: 姓名:

一.算法描述 Fisher 线性判别分析的基本思想:选择一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,同时变换后的一维数据满足每一类内部的样本尽可能聚集在一起,不同类的样本相隔尽可能地远。 Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向W 和阈值w0, 即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。 线性判别函数的一般形式可表示成0)(w X W X g T += 其中 ????? ??=d x x X 1 ?????? ? ??=d w w w W 21 Fisher 选择投影方向W 的原则,即使原样本向量在该方向上的投影能兼顾类间分布尽可能分开,类内样本投影尽可能密集的要求。 如下为具体步骤: (1)W 的确定 样本类内离散度矩阵i 和总类内离散度矩阵w S 12w S S S =+ T x S (x m )(x m ), 1,2 i i i i X i ∈= --=∑

样本类间离散度矩阵b S 在投影后的一维空间中,各类样本均值T i i m '= W m 样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W 样本类间离散度T b b S ' = W S W Fisher 准则函数为 max 22 212 21~~)~~()(S S m m W J F +-= (2)阈值的确定 w 0 是个常数,称为阈值权,对于两类问题的线性分类器可以采用下属决策规则: 令) ()()(2 1 x x x g g g -=则: 如果g(x)>0,则决策w x 1∈;如果g(x)<0,则决策w x 2∈;如果g(x)=0,则可将x 任意分到某一类,或拒绝。 (3)Fisher 线性判别的决策规则 Fisher 准则函数满足两个性质: 1.投影后,各类样本内部尽可能密集,即总类内离散度越小越好。 2.投影后,各类样本尽可能离得远,即样本类间离散度越大越好。 根据这个性质确定准则函数,根据使准则函数取得最大值,可求出 W :-1w 12W = S (m - m ) 。 这就是Fisher 判别准则下的最优投影方向。 最后得到决策规则 若 P P m m w w w x x g T ) ()(2112 log ))(21()(大于或小于+-=,则 {1 2w w x ∈ T 1212S (m m )(m m ) b =--

费希尔判别法理论

费希尔判别 费希尔判别(或称典型判别)的基本思想是投影(或降维):用p维向量 x (X i,X2, X p)的少数几个线性组合(称为费希尔判别函数或典型变量) y i a i x, y2 a?x, y x (—般r明显小于p )来代替原始的p个变量 X i,X2, X p,以达到降维的目的,并根据这r个判别函数y i,y2, *对样品的归属做出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前三个判别函数作图,从直观的几何图像上区别各组。 在降维的过程中难免会有部分有用信息的损失,但只要使用的方法得当,我们可以最大限度地减少这种损失,从而保留尽可能多的有用信息,即关于能够反 点画于直角坐标系上,一组的样品点用“肿表示,另一组的样品点用“c”表示。 假定我们希望将二维空间的点投影到某个一维空间,即一条直线上,然后再对两组进行判别,则投影到不同的直线上,判别的效果一般是不同的。从图中可见,

如果两组的点都投影到直线 z 上则这两组的投影点在该直线上的分布几乎无任 何差异,他们完全混合在一起,我们无法将这两组的点区别开来, 这样的降维把 反应两组间差异的信息都给损失了, 显然是不可取的。事实上,最好的投影是投 影到直线y 上,因为它把两组的投影点很清楚地区分了开来, 这种降维把有关两 组差异的信息很好地保留了下来,几乎没有任何损失,如此就完全可以在一维的 直线上作判别分析。 我们现考虑在R p 中将k 组的p 维数据向量投影到某个具有最佳方向的 a 上, 即投影到a 上的点能最大限度地显现出各组之间的差异。 设来自组i 的p 维观测值为X j ,j=1,2, ,n i ,i=l,2, ,k ,将它们共同投影 到某一 p 维常数向量a 上,得到的投影点可分别对应线性组合 y j =a x 0, j=1,2, ,n i ,i=1,2, ,k 。这样,所有的p 维观测值就简化为一维观测值。下面 我们用%表示组i 中y j 的均值,y 表示所有组k 组的y 0的总均值,即 对于任一用来投影的a ,我们需要给出一个能反映组之间分离程度的度量 比较图 中的上、下半图,上半图三组均值之间的差异程度与下半图是相同的, 而前者组之间的分离程度却明显高于后者, 原因就在于前者的组内变差要远小于 后者,后者组之间有较多重叠。因此,可以考虑将组之间的分离程度度量为相对 其组内变差的组间变差。在以下的讨论中,我们需假定各组的协方差矩阵相同,n i j i y j a X i 式中n X i 1 ni x ij , n j 1 a X i 1 k - n i X i o n i 1 n i n

fisher判别式

Fisher 线性判别式 前面讲过的感知器准则、最小平方和准则属于用神经网络的方法解决分类问题。下面介绍一种新的判决函数分类方法。 由于线性判别函数易于分析,关于这方面的研究工作特别多。历史上,这一工作是从R.A.Fisher 的经典论文(1936年)开始的。我们知道,在用统计方法进行模式识别时,许多问题涉及到维数,在低维空间行得通的方法,在高维空间往往行不通。因此,降低维数就成为解决实际问题的关键。Fisher 的方法,实际上涉及维数压缩。 如果要把模式样本在高(d )维的特征向量空间里投影到一条直线上,实际上就是把特征空间压缩到一维,这在数学上容易办到。另外,即使样本在高维空间里聚集成容易分开的群类,把它们投影到一条任意的直线上,也可能把不同的样本混杂在一起而变得无法区分。也就是说,直线的方向选择很重要。 在一般情况下,总可以找到某个最好的方向,使样本投影到这个方向的直线上是最容易分得开的。如何找到最好的直线方向,如何实现向最好方向投影的变换,是Fisher 法要解决的基本问题。这个投影变换就是我们寻求的解向量* w 。 1.线性投影与Fisher 准则函数 在21/w w 两类问题中,假定有n 个训练样本),....,2,1(n k x k =其中1n 个样本来自i w 类型,2n 个样本来自j w 类型,21n n n +=。两个类型的训练样本分别构成训练样本的子集1X 和2X 。 令:k T k x w y =,n k ,...,2,1= (4.5-1) k y 是向量k x 通过变换w 得到的标量,它是一维的。实际上,对于给定的w ,k y 就是判决函数的值。 由子集1X 和2X 的样本映射后的两个子集为1Y 和2Y 。因为我们关心的是w 的方向,可以令1||||=w ,那么k y 就是k x 在w 方向上的投影。使1Y 和2Y 最容易区分开的w 方向正是区分超平面的法线方向。如下图: 图中画出了直线的两种选择,图(a)中,1Y 和2Y 还无法分开,而图(b)的选择可以使1Y 和2Y 区分开来。所以图(b)的方向是一个好的选择。 下面讨论怎样得到最佳w 方向的解析式。 各类在d 维特征空间里的样本均值向量: ∑∈= i k X x k i i x n M 1,2,1=i (4.5-2) 通过变换w 映射到一维特征空间后,各类的平均值为: ∑∈= i k Y y k i i y n m 1,2,1=i (4.5-3) 映射后,各类样本“类内离散度”定义为: 2 2 () k i i k i y Y S y m ∈= -∑ ,2,1=i (4.5-4) 显然,我们希望在映射之后,两类的平均值之间的距离越大越好,而各类的样本类内离散度越小越好。因此,定义Fisher

Fisher线性判别

3·4 Fisher线性判别 多维 T Fisher变换 T 利于分类的一维 对于线性判别函数 ( 3-4-1) 可以认为是矢量在以为方向的轴上的投影的倍。这里, 视作特征空间中的以为分量的一个维矢量 希望所求的使投影后,同类模式密聚,不同类模式相距较远。 求权矢量T 求满足上述目标的投影轴的方向和在一维空间中确定判别规则。 从另一方面讲,也是降维,特征提取与选择等问题的需要。(R.A.Fisher,1936) 下面我们用表示待求的。 图 (3-4-1) 二维模式向一维空间投影示意图 (1)Fisher准则函数 对两类问题,设给定维训练模式,其中有个和个模式分属 类和类。为方便,各类的模式又可分别记为和,于是,各类模式均值矢量为 ( 3-4-2) 各类类内离差阵和总的类内离差阵分别为 ( 3-4-3) ( 3-4-4) 我们取类间离差阵为

( 3-4-5) 作变换,维矢量在以矢量为方向的轴上进行投影 ( 3-4-6) 变换后在一维空间中各类模式的均值为 ( 3-4-7) 类内离差度和总的类内离差度为 ( 3-4-8) ( 3-4-9) 类间离差度为 ( 3-4-10) 我们希望经投影后,类内离差度越小越好,类间离差度越大越好,根据这个目标作准则函数 ( 3-4-11) 称之为Fisher准则函数。我们的目标是,求使最大。 (2)Fisher变换 将标量对矢量微分并令其为零矢量,注意到的分子、分母均为标量,利用二次型关于矢量微分的公式可得 ( 3-4-12) 令 可得 当时,通常是非奇异的,于是有

( 3-4-13) 上式表明是矩阵相应于本征值的本征矢量。对于两类问题,的秩为1,因此 只有一个非零本征值,它所对应的本征矢量称为Fisher最佳鉴别矢量。由式( 3-4-13)有 ( 3-4-14) 上式右边后两项因子的乘积为一标量,令其为,于是可得 式中为一标量因子。这个标量因子不改变轴的方向,可以取为1,于是有 ( 3-4-15) 此时的是使Fisher准则函数取最大值时的解,即是维空间到一维空间投影轴的最佳方向, ( 3-4-16) 称为Fisher变换函数。至此可以说解决了将维模式的分类转变为一维模式分类的问题。(3)Fisher判别规则 由于变换后的模式是一维的,因此判别界面实际上是各类模式所在轴上的一个点。可以根据训练模式确定一个阈值,Fisher判别规则为 ( 3-4-17) 判别阈值可取两个类心在方向上轴的投影的连线的中点作为阈值,即 ( 3-4-18) 容易得出 ( 3-4-19) 显然,这里是和连线的中点。 当考虑类的先验概率时,、应取下面的定义 ( 3-4-20)

Fisher线性判别分析实验(模式识别与人工智能原理实验1)

实验1 Fisher 线性判别分析实验 一、摘要 Fisher 线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有如下性质:同类样本尽可能聚集在一起,不同类的样本尽可能地远。 Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向W 和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。 二、算法的基本原理及流程图 1 基本原理 (1)W 的确定 各类样本均值向量mi 样本类内离散度矩阵i S 和总类内离散度矩阵w S 12w S S S =+ 样本类间离散度矩阵b S 在投影后的一维空间中,各类样本均值T i i m '= W m 。样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W 。样本类间离散度T b b S ' = W S W 。 Fisher 准则函数满足两个性质: ·投影后,各类样本内部尽可能密集,即总类内离散度越小越好。 ·投影后,各类样本尽可能离得远,即样本类间离散度越大越好。 根据这个性质确定准则函数,根据使准则函数取得最大值,可求出W : -1w 12W = S (m - m ) 。 (2)阈值的确定 实验中采取的方法:012y = (m ' + m ') / 2。 (3)Fisher 线性判别的决策规则 对于某一个未知类别的样本向量x ,如果y=W T ·x>y0,则x ∈w1;否则x ∈w2。 x 1 m x, 1,2 i i X i i N ∈= =∑T x S (x m )(x m ), 1,2 i i i i X i ∈= --=∑T 1212S (m m )(m m )b =--

判别分析中Fisher判别法的应用

1 绪论 1.1课题背景 随着社会经济不断发展,科学技术的不断进步,人们已经进入了信息时代,要在大量的信息中获得有科学价值的结果,从而统计方法越来越成为人们必不可少的工具和手段。多元统计分析是近年来发展迅速的统计分析方法之一,应用于自然科学和社会各个领域,成为探索多元世界强有力的工具。 判别分析是统计分析中的典型代表,判别分析的主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测一个公司是否成功;决定一个学生是否录取;在医疗诊断中,根据病人的多种检查指标判断此病人是否有某种疾病等等。它是在已知观测对象的分类结果和若干表明观测对象特征的变量值的情况下,建立一定的判别准则,使得利用判别准则对新的观测对象的类别进行判断时,出错的概率很小。而Fisher判别方法是多元统计分析中判别分析方法的常用方法之一,能在各领域得到应用。通常用来判别某观测量是属于哪种类型。在方法的具体实现上,采用国广泛使用的统计软件SPSS (Statistical Product and Service Solutions),它也是美国SPSS公司在20世纪80年代初开发的国际上最流行的视窗统计软件包之一 1.2 Fisher判别法的概述 根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等。Fisher 判别法是判别分析中的一种,其思想是投影,Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):()j j x C y = x∑

然后应用这个线性函数把P 维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P 维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组均方差之比最大的原则来进行判别。 1.3 算法优缺点分析 优点:(1)一般对于线性可分的样本,总能找到一个投影方向,使得降维后样本仍然线性可分,而且可分性更好即不同类别的样本之间的距离尽可能远,同一类别的样本尽可能集中分布。 (2)Fisher 方法可直接求解权向量*w ; (3)Fisher 的线性判别式不仅适用于确定性模式分类器的训练,而且对于随机模式也是适用的,Fisher 还可以进一步推广到多类问题中去 缺点: (1)如果21M M =,0*=w ,则样本线性不可分; 21M M ≠,未必线性可分; w S 不可逆,未必不可分。 (2)对线性不可分的情况,Fisher 方法无法确定分类 2 实验原理 2.1 线性投影与Fisher 准则函数 各类在d 维特征空间里的样本均值向量:

改进的Fisher判别法

文章编号:1000-2243(2006)04-0473-05 改进的Fisher判别方法 黄利文1,2,梁飞豹1 (1.福州大学数学与计算机科学学院,福建 福州 350002;2.泉州师范学院理工学院,福建 泉州 362000)摘要:对Fisher判别方法进行了改进,其主要思想是改变Fisher判别中以临界值为准则的判别方法,而以各总体的投影值所确定的正态分布的密度函数作为样品归类准则,并形成多次判别.例子表明,该方法优于Fisher判别方法. 关键词:Fisher判别;临界值;判别分析 中图分类号:O212 文献标识码:A Improvement Fisher discriminant analysis method HUANG Li - wen1,2, LIANG Fei - bao1 (1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou, Fujian 350002, China; 2. School of Science, Quanzhou Normal University, Quanzhou, Fujian 362000, China) Abstract: Has improved the Fisher discriminant method, its main thought is to change the method of Fisher discriminant taking critical value as criterion, but the normal distribution function which deter- mined by various ensembles projection value took the sample classification criterion, and forms the multi- variate discriminate method. The example indicates this method is superior to Fisher discriminant. Keywords : Fisher discriminant; critical value; discriminant analysis

Fisher判别和Mahalanobis距离判别比较研究

龙源期刊网 https://www.doczj.com/doc/9e16887072.html, Fisher判别和Mahalanobis距离判别比较研究 作者:吴江 来源:《宁波职业技术学院学报》2017年第05期 摘要:将Fisher判别与Mahalanobis距离判别作比较,研究二者的关系,得出结论并给出解释与证明。基于二者的比较给出一种简单的Fisher判别程序(基于MATLAB),并做数值实验加以论证。 关键词:数据;样本; Fisher判别; Mahalanobis距离 中图分类号: O 213.9 文献标志码: A 文章编号: 1671-2153(2017)05-0091-04 0 引言 判别方法是根据所研究个体的观测值构建一个综合标准来推断个体属于已知种类中的哪一类的方法[1]。判别方法有很多,Mahalanobis距离判别是最典型的判别方法,Fisher判别是最 常用的判别方法之一[2]。目前对于Mahalanobis距离判别和Fisher判别的比较研究比较缺乏。本文简要阐述了Mahalanobis距离判别和Fisher判别的内容,然后对其进行比较研究,得出一些结论并给出一种简单的Fisher判别程序。 由于Fisher判别不需要对样本进行检验,而且有一定的正确率,因此它在实际中得到了广泛的应用[3]。 Mahalanobis距离判别简称马氏距离判别,从统计学角度考虑,采用Mahalanobis距离来衡量总体之间的距离比采用欧式距离来衡量总体之间的距更为科学。 1 Fisher判别与Mahalanobis距离判别的关系 2 基于MATLAB的Fisher判别程序 在MATLAB中,Mahalanobis距离判别的程序可以调用函数 classify(sample,training,group,'mahalanobis') 来实现,其中“sample”表示待测样本,“training”表示训练样本,“group”表示分组,“mahalanobis”表示使用的距离是Mahalanobis距离。从定理1知道Fisher判别是一种将数据经过一个线性映射处理后的Mahalanobis距离判别,所以先编写一个映射程序再结合classify函数

第4章 判别分析实验讲义

实验项目四判别分析的计算机实现 一、实验内容、目标及要求 (一)实验内容 选取140家上市公司作为样本,其中70家为由于“财务状况异常”而被交易所对其股票实行特别处理(Special Treatment,简称ST)的公司,另外70家为财务正常的公司。为了研究上市公司发生财务困境的可能性,以“是否被ST”为分组变量,选择资产负债率、总资产周转率和总资产利润率几个财务指标作为判别分析变量,这三个指标分别从上市公司的偿债能力、资产管理能力和获利能力三个不同的角度反映了企业的财务状况。(数据略) (二)实验目标 贝叶斯判别、费希尔判别法的计算机操作及结果分析。 (三)实验要求 要求学生能熟练应用计算机软件进行判别分析并对结果进行分析,培养实际应用能力。 二、实验准备 (一)运行环境说明 电脑操作系统为Windows XP及以上版本,所需软件为SPSS 16.0。 (二)基础数据设置说明 将数据正确导入SPSS,设置相应的变量值。 三、实验基本操作流程及说明 (一)系统界面及说明 同实验一。

(二)操作步骤 1. 选择菜单项Analyze→Classify→Discriminate,打开Discriminate Analysis对话框,如图4-1。将分组变量st移入Grouping V ariable列表框中,将自变量x1-x3选入Independents 列表框中。 选择Enter independents together单选按钮,即使用所有自变量进行判别分析。若选择了Use stepwise method单选按钮,则可以根据不同自变量对判别贡献的大小进行变量筛选,此时,对话框下方的Method按钮被激活,可以通过点击该按钮设置变量筛选的方法及变量筛选的标准。 图4-1 Discriminate Analysis对话框 2. 单击Define Range按钮,在打开的Define Range子对话框中定义分组变量的取值范围。本例中分类变量的取值范围为0到1,所以在Minimum和Maximum输入框中分别输入0和1。单击Continue按钮,返回主对话框。 3. 如果不想使用全部的样本进行分析,单击Select按钮,则Discriminate Analysis对话框下方会跳出一个Selection Variable列表框,将一个选择变量移入Selection Variable列表框,并单击Rule按钮,设置选择条件。这样,只有满足选择条件的观测才能参与判别分析。 4. 单击Statistics按钮,在跳出的Statistics子对话框中指定输出的描述统计量和判别函数系数。该对话框中各选项的含义如下: Descriptives选项栏:输出原始数据的描述性统计量 ◆Means:输出各类中所有自变量的均值、组内标准差以及总样本的均值和标准差; ◆Univariate ANOV A:进行单因素方差分析,检验的原假设为不同类别中自变量的均 值不存在显著差异; ◆Box’s M:对各类的协方差矩阵是否相等进行检验。 Matrices选项栏:输出各种不同的协差阵和相关系数矩阵 ◆Within-groups correlation matrix:平均组内相关系数矩阵,它是由平均组内协差阵 计算得到的; ◆Within-groups covariance matrix:平均组内协差阵,它是由各组的协差阵平均后得 到的; ◆Separate-groups covariance matrix:分别输出各个类的协差阵; ◆Total covariance matrix:总体协差阵。 Function Coefficients选项栏:输出不同的判别函数系数 ◆Fisher’s:给出Bayes线性判别函数的系数。(注意:这个选项不是要给出Fisher判 别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判别函数值最大进

贝叶斯判别、费希尔判别法的计算机操作及结果分析

贝叶斯判别、费希尔判别法的计算机 操作及结果分析 一、实验内容、目标及要求 (一)实验内容 选取140家上市公司作为样本,其中70家为由于“财务状况异常”而被交易所对其股票实行特别处理(Special Treatment,简称ST)的公司,另外70家为财务正常的公司。为了研究上市公司发生财务困境的可能性,以“是否被ST”为分组变量,选择资产负债率、总资产周转率和总资产利润率几个财务指标作为判别分析变量,这三个指标分别从上市公司的偿债能力、资产管理能力和获利能力三个不同的角度反映了企业的财务状况。 (二)实验目标 贝叶斯判别、费希尔判别法的计算机操作及结果分析。 (三)实验要求 要求学生能熟练应用计算机软件进行判别分析并对结果进行分析,培养实际应用能力。 二、实验准备 (一)运行环境说明 电脑操作系统为Windows XP及以上版本,所需软件为SPSS 16.0。 (二)基础数据设置说明 将数据正确导入SPSS,设置相应的变量值。

三、实验基本操作流程及说明 (一)系统界面及说明 同实验一。 (二)操作步骤 1. 选择菜单项Analyze→Classify→Discriminate,打开Discriminate Analysis对话框,如图4-1。将分组变量st移入Grouping V ariable列表框中,将自变量x1-x3选入Independents 列表框中。 选择Enter independents together单选按钮,即使用所有自变量进行判别分析。若选择了Use stepwise method单选按钮,则可以根据不同自变量对判别贡献的大小进行变量筛选,此时,对话框下方的Method按钮被激活,可以通过点击该按钮设置变量筛选的方法及变量筛选的标准。 图4-1 Discriminate Analysis对话框 2. 单击Define Range按钮,在打开的Define Range子对话框中定义分组变量的取值范围。本例中分类变量的取值范围为0到1,所以在Minimum和Maximum输入框中分别输入0和1。单击Continue按钮,返回主对话框。 3. 如果不想使用全部的样本进行分析,单击Select按钮,则Discriminate Analysis对话框下方会跳出一个Selection Variable列表框,将一个选择变量移入Selection Variable列表框,并单击Rule按钮,设置选择条件。这样,只有满足选择条件的观测才能参与判别分析。 4. 单击Statistics按钮,在跳出的Statistics子对话框中指定输出的描述统计量和判别函数系数。该对话框中各选项的含义如下: Descriptives选项栏:输出原始数据的描述性统计量 ◆Means:输出各类中所有自变量的均值、组内标准差以及总样本的均值和标准差; ◆Univariate ANOV A:进行单因素方差分析,检验的原假设为不同类别中自变量的均 值不存在显著差异; ◆Box’s M:对各类的协方差矩阵是否相等进行检验。 Matrices选项栏:输出各种不同的协差阵和相关系数矩阵 ◆Within-groups correlation matrix:平均组内相关系数矩阵,它是由平均组内协差阵

相关主题
文本预览
相关文档 最新文档