基于马氏距离模型的供应链交易成本判别分析
- 格式:pdf
- 大小:398.07 KB
- 文档页数:6
《多元统计实验》判别分析实验报告cbind(类别,newG,Z$post,Z$x)#合并原分类、回判分类回判后验概率及判别tab=table(类别,newG)#原分类和新分类列表比较tabsum(diag(prop.table(tab)))prenew=predict(ld,newdata=newdata)prenew#对三个待判样本进行判定cbind(prenew$class,prenew$post,prenew$x)#也可以按列合并在一起看二、实验结果分析5.5进行Fisher判别分析.若一位新客户的8个指标分别为(2 500, 1 500, 0,3, 2,3, 4, 1),试对该客户的信用度进行评价.以上输出结果中包括了lad()所用的公式、先验概率1、2、3、4、5 为:0.2941176 、0.1176471 、0.1764706 0.1764706 、0.2352941,各组均值向量、线性判别函数的系数。
输出所有分类组由输出结果可知第十二号样品为第四组的被误判给了第五组,且与距离判别法结果一致,最后对新客户的8个指标(2500,1500,0,3,2,3,4,1)进行判定。
说明:由$class可以看出该新用户被判入第一组,结果与距离判别法一致,对应的后验概率决定该新用户的归类组。
因此该新用户的信用度评价为一。
5.6试对表5-7中的数据进行Bayes判别分析并对8个待判样品的类别进行判定.由上结果可知,两个组别为一的被误判为第二组,第二组的三个被误判为第一组。
出现5个误判结果正确率为:0.9411765,误判错误的概率仍然较低。
Bayes判别法对八个待测样本的判定结果为:四个判给第一组,四个判给第二组,且Bayes 判别法是采用了新的后验概率,而不是先验概率。
因此判出概率相同。
如何用sas用马氏距离判别法进行判别分析马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。
它是一种有效的计算两个未知样本集的相似度的方法。
与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的。
(scale-invariant),即独立于测量尺度。
对于一个均值为协方差矩阵为∑的多变量向量,其马氏距离为
马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为∑的随机变量与的差异程度。
判别分析实际意义判别分析于聚类分析的功能差不多,区别在于,聚类分析之前,没有⼈知道具体的是怎么分的类,分了哪⼏⼤类。
⽽判别分析是已经把类别给分好,要做的是把没有分好类的数据观测,按照之前分好的类再进⾏分类。
这⾥不同于⽣活中常见的分类先有具体的分类逻辑(这⾥叫做判别函数)。
所以判别分的难点在于先由分好类的数据观测找到⼀个或者多个判别函数,然后对未进⾏分类的观测按照该判别公式进⾏分类。
进⾏判别分析需要满⾜的条件是:①每⼀个判别变量都不能是其他判别变量的线性组合②各个判别变量之间具有多元正态分布,即控制N-1个变量为固定值时,第N个变量满⾜正态分布③满⾜②条件时,使⽤参数法计算判别函数,否则使⽤⾮参数法计算判别函数。
判别分析⽅法距离判别法:D2(X)=(X-µ)2/σ2马⽒距离(⼴义平⽅距离):W(X)=D B2(X)-D A2(X)BAYES判别法:有先验概率,再有后验概率,最后还有错判概率FISHER判别法:投影法判别分析的实现PROC DISCRIM、PROC CANDISC 、PROC STEPDISC过程步实现PROC DISCRIM可以处理满⾜多元正态分布,也可以不满⾜该条件都可以处理。
若满⾜多元正态分布,则可以计算出⼀次或者⼆次的判别函数(在组间⽅差不相等的情况下)。
PROC CANDISC是专门进⾏典型判别分析的过程,基于分析数值变量(类似于主成分分析结果)。
能计算出最能描述组间差异的典型变量,然后结果仅给出典型变量和得分数据,后续要由PROC DISCRIM完成。
PROC STEPDISC逐步判别分析。
最有效的找出体现不同类别的变量。
DATA CARS_TYPES CARS_TEST;SET SASHELP.CARS;BY MAKE TYPE;WHERE TYPE IN("SUV","Sedan","Sports");IF FIRST.TYPE THEN DO;IF ORIGIN IN ("USA","Europe")THEN OUTPUT CARS_TYPES;ELSE OUTPUT CARS_TEST;END;RUN;PROC DISCRIM DATA=CARS_TYPES TESTDATA=CARS_TEST METHOD=NORMALPOOL=TEST DISTANCE LIST TESTOUT=CARS_RESULT;CLASS TYPE;VAR WEIGHT WHEELBASE LENGTH MPG_CITY ENGINESIZE;RUN;分析的数据集是CARS_TYPES,即是根据此数据集的分类结果找到判别函数(可能是⼀次函数,也可能是⼆次函数),然后⽤从待分类的数据集,的观测⽤该判别函数进⾏分类,进⽽得出结果。