fisher判别分析数据
- 格式:doc
- 大小:96.50 KB
- 文档页数:1
费歇尔判别法费歇尔判别法(Fisher's Discriminant Analysis)是一种统计学中的方法,用于寻找两个或多个分类变量中最能有效区分它们的线性组合。
这种方法最初是由英国统计学家罗纳德·费歇尔(Ronald A. Fisher)在1936年所提出。
费歇尔判别法的目标是通过将数据投影到低维空间来确定样本类别之间最明显的分离平面。
这个方法假设所有数据员来自正态分布,这使得它的结果具有很高的概率。
此外,这种方法特别适用于小样本数据,在这种情况下,其它多变量方法往往受到数据不足或对角线矩阵估计的影响。
费歇尔判别法通过将多维数据投影到一维空间上,找到最能表示数据差异的线性变量。
具体步骤如下:1. 定义问题在进行费歇尔判别分析之前,首先需要定义问题。
这个问题可以是不同的变量之间的分类问题,或者是同一变量在不同条件下的分类问题。
例如,可以通过费歇尔判别分析找到两个组的区别,这两个组的特征可以用来预测其他类似两个组。
2. 构造分类变量在对数据进行投影之前,需要将分类变量定义为正态分布。
这种变量通常为两个或更多个。
3. 计算均值和方差计算每个分类变量的均值和方差,以用于后面的投影计算。
4. 计算类内离散度矩阵类内离散度矩阵是指每个类别内所有点与该类别均值之间的距离的累加和。
这个矩阵用来衡量类的内部分散程度,通常使用矩阵的矩阵乘法来进行计算。
5. 计算类间离散度矩阵类间离散度矩阵是指不同类别均值之间的距离的累加和。
这个矩阵用来衡量类别之间的分散程度,也通常使用矩阵的矩阵乘法来进行计算。
6. 计算特征值和特征向量计算类内离散度矩阵和类间离散度矩阵的特征值和特— 1 —征向量。
这些值可以使用线性代数中的方法计算。
一般来说,特征向量是正交(perpendicular)的。
7. 选取最大特征值从计算出的特征值中找到最大特征值,找到最大特征值所对应的特征向量。
这个特征向量就是数据的主要方向,也被称为“判别变量”。
Abstractlinear discriminant(KFLD). A Weighted KFLD(WKFLD) method proposed newly try to reduce the effect raised by imbalance of samples and improve the classification performance. The results show that this approach is effective and feasible.(3)Propose an ensemble method which is based on different sampling proportions. This method does several under-samplings according to different proportions, and uses them to test on the orient data sets. We assign a high weight to those classifications which have a good performance; the other classifications with a poor performance will be assigned with a low weight. In the end, we do a weighted linear combination to these classifications.Key words: Imbalanced data; Over-sampling; Under-sampling; Cost-sensitive; One classifier; Feature Selection; Subspace;学位论文独创性声明本人郑重声明:1、坚持以“求实、创新”的科学精神从事研究工作。
判别分析公式Fisher线性判别二次判别判别分析是一种常用的数据分析方法,用于根据已知的类别信息,将样本数据划分到不同的类别中。
Fisher线性判别和二次判别是两种常见的判别分析方法,在实际应用中具有广泛的应用价值。
一、Fisher线性判别Fisher线性判别是一种基于线性变换的判别分析方法,该方法通过寻找一个合适的投影方向,将样本数据投影到一条直线上,在保持类别间离散度最大和类别内离散度最小的原则下实现判别。
其判别函数的计算公式如下:Fisher(x) = W^T * x其中,Fisher(x)表示Fisher判别函数,W表示投影方向的权重向量,x表示样本数据。
具体来说,Fisher线性判别的步骤如下:1. 计算类别内离散度矩阵Sw和类别间离散度矩阵Sb;2. 计算Fisher准则函数J(W),即J(W) = W^T * Sb * W / (W^T * Sw * W);3. 求解Fisher准则函数的最大值对应的投影方向W;4. 将样本数据投影到求得的最优投影方向上。
二、二次判别二次判别是基于高斯分布的判别分析方法,将样本数据当作高斯分布的观测值,通过估计每个类别的均值向量和协方差矩阵,计算样本数据属于每个类别的概率,并根据概率大小进行判别。
二次判别的判别函数的计算公式如下:Quadratic(x) = log(P(Ck)) - 0.5 * (x - μk)^T * Σk^-1 * (x - μk)其中,Quadratic(x)表示二次判别函数,P(Ck)表示类别Ck的先验概率,x表示样本数据,μk表示类别Ck的均值向量,Σk表示类别Ck的协方差矩阵。
具体来说,二次判别的步骤如下:1. 估计每个类别的均值向量μk和协方差矩阵Σk;2. 计算每个类别的先验概率P(Ck);3. 计算判别函数Quadratic(x);4. 将样本数据划分到概率最大的类别中。
判别分析公式Fisher线性判别和二次判别是常见的判别分析方法,它们通过对样本数据的投影或概率计算,实现对样本数据的判别。
Fisher 线性判别分析实验报告一、摘要Fisher 线性判别分析的基本思想:通过寻找一个投影方向(线性变换,线性组合),将高维问题降低到一维问题来解决,并且要求变换后的一维数据具有性质:同类样本尽可能聚集在一起,不同类样本尽可能地远。
Fisher 线性判别分析,就是通过给定的训练数据,确定投影方向w 和阈值y0,即确定线性判别函数,然后根据这个线性判别函数,对测试数据进行测试,得到测试数据的类别。
二、算法的基本原理及流程图1 基本原理 (1) W 的确定各类样本均值向量 mi样本类内离散度矩阵iS 和总类内离散度矩阵wS12wS S S =+样本类间离散度矩阵bS在投影后的一维空间中,各类样本均值 T i i m '= W m样本类内离散度和总类内离散度 T T i i w w S ' = W S W S ' = W S W样本类间离散度 T b b S ' = W S WFisher 准则函数满足两个性质:投影后,各类样本内部尽可能密集,即总类内离散度越小越好。
T x S (x m)(x m ), 1,2iiii X i ∈=--=∑T 1212S (m m )(m m )b =--投影后,各类样本尽可能离得远,即样本类间离散度越大越好。
根据这个性质确定准则函数,根据使准则函数取得最大值,可求出w -1W = S(m - m)w12(2)阈值的确定实验中采取的方法:y = (m' + m') / 2012(3) Fisher线性判别的决策规则对于某一个未知类别的样本向量 x,如果y = W T x >y0, 则x∈w1否则x∈w22流程图方差标准化 (归一化处理)一个样本集中,某一个特征的均值与方差为:归一化:1 男女同学身高体重,训练数据和测试数据都是50当采用StudentData1作为训练数据,StudnetData2作为测试数据时当采用StudnetData2作为训练数据,StudentData2作为测试数据时2IonoSphere数据考虑到第一组数据训练数据多,下面的实验以第一组数据的训练数据作为训练数据,分别用其他组的测试数据进行测试从实验结果看,Fisher线性判别用于两类的判别决策时,拥有不错的效果,并且当有足量的训练数据时,效果更好。
Fisher判别分析对案例中小企业的破产模型做Fisher判别分析江义114113001059一问题:对企业的运行状态利用Fisher判别进行分类选取四个经济指标用于判断企业处于破产状态还是正常运行状态,具体数据如下,其中类别1表示破产状态,类别2表示正常运行状态X1总负债率X2收益率指标X3短期支付能力X4生产效率指标类别-0.45 -0.41 1.09 0.45 1 -0.56 -0.31 1.51 0.16 10.06 0.02 1.01 0.4 1-0.07 -0.09 1.45 0.26 10.38 0.11 3.27 0.55 20.19 0.05 2.25 0.33 20.32 0.07 4.24 0.63 20.04 0.01 1.5 0.71 2-0.06 -0.06 1.37 0.4 10.07 -0.01 1.37 0.34 2-0.13 -0.14 1.42 0.44 10.15 0.06 2.23 0.56 20.16 0.05 2.31 0.2 20.29 0.06 1.84 0.38 带测定0.54 0.11 2.33 0.48 带测定二、程序如下:(R语言)> data=read.table("E:/bac/qiye.txt",header=T)> data1=c(rep(1,6),rep(2,7))> data2=as.factor(data1)> data$class=data2> attach(data)> names(data)[1] "X1" "X2" "X3" "X4" "class"> library(MASS)> data.lda=lda(class~X1+X2+X3+X4)> data.ldaCall:lda(class ~ X1 + X2 + X3 + X4)Prior probabilities of groups:1 20.4615385 0.5384615Group means:X1 X2 X3 X41 -0.07500000 -0.105000000 1.763333 0.35833332 0.07857143 -0.002857143 2.062857 0.4685714Coefficients of linear discriminants:LD1X1 -7.9358690X2 15.8747840X3 0.1653748X4 5.0408074>newdata=data.frame(X1=c(0.29,0.54),X2=c(0.06,0.11),X3=c(1.84, 2.33),X4=c(0.38,0.48))> predict(data.lda,newdata=newdata)三、运行结果$class[1] 1 1Levels: 1 2$posterior1 21 0.6249180 0.37508202 0.7540681 0.2459319$xLD11 -0.69812362 -1.3032372四、$class显示,最后两组数据均属于第一类别,如下表:X1 X2 X3 X4 类别0.29 0.06 1.84 0.38 10.54 0.11 2.33 0.48 1四、总结判别分析是多元统计分析中较为成熟的一种分类方法,根据已知类别的若干样本数据,总结出客观事物分类的规律性。
判别分析——Fisher判别Fisher判别和CANDISC过程(典型判别过程)简介应用举例:例5.3.2:对表5.2中的胃癌检验的生化指标值用FISHER判别的方法进行判别归类。
先调用CANDISC(典型判别)过程求出2个典型变量,然后再使用DISCRIM过程对15个观测进行判别归类。
SAS程序如下:data d522;input group x1-x4 @@;cards;1 228 134 20 11 1 245 134 10 401 200 167 12 27 1 170 150 7 81 100 167 20 142 225 125 7 142 130 100 6 12 2 150 117 7 62 120 133 10 26 2 160 100 5 103 185 115 5 19 3 170 125 6 43 165 142 5 3 3 135 108 2 123 100 117 7 2;proc candisc data=d522 out=can532 ncan=2 distance;class group; var x1-x4;run;proc gplot data=can532;plot can2*can1 = group;run;proc discrim data=can532 distance list;class group; var can1 can2;run;proc discrim data=can532 pool=no distance list;class group; var can1 can2;run程序解释说明:(1)proc candisc调用candisc(典型判别)分析过程,“out=can532”定义一个输出数据集 can532,包括输入数据集及典型变量。
(2)“ncan=2”要求系统仅计算2个典型变量(典型变量的个数不能超过变量个数和分类个数减1的最小值);(3)Gplot过程要求绘制两个典型变量的散点图,以便了解分类情况;(4)第三、四个过程以典型变量can1 can2为变量建立判别函数。