马氏距离判别与贝叶斯判别
- 格式:docx
- 大小:20.85 KB
- 文档页数:9
《多元统计分析》MOOC3.4 贝叶斯判别——最大后验概率法王学民距离判别不合适的一个例子v 判别变量是英语六级考试成绩x (满分为710分)Øπ1(校研究生组):N 1=2000, μ1=500π2(校本科生组):N 2=8000, μ2=400Ø研究生组中x ≥500的有1000人,本科生组中x ≥500的有2000人。
Ø某该校学生的x =500,试判别该生归属哪一组。
Ø 12200080000.2,0.81000010000p p ====应考虑利用先验概率:最大后验概率法v 设有k 个组π1, π2,⋯, πk ,且组πi 的概率密度为f i (x ),样品x 来自组πi 的先验概率为p i ,i=1,2,⋯,k ,满足p 1+p 2 +⋯+p k =1。
则x 属于πi 的后验概率为v 最大后验概率法是采用如下的判别规则:()()()1|,1,2,,i i i k j j j p f P i kp f π===∑x x x ()()1,|max |l l i i kP P πππ≤≤∈=x x x 若v 例1(书中例5.3.1) 设有π1,π2和π3三个组,欲判别某样品x 0属于何组,已知p 1=0.05,p 2=0.65,p 3=0.30,f 1(x 0)=0.10, f 2(x 0)=0.63, f 3(x 0)=2.4。
现计算x 0属于各组的后验概率如下:所以应将x 0判为组π3。
()()()()()()()()()1101030122020301330303010.050.100.005|0.0040.050.100.650.630.30 2.4 1.13450.650.63|0.3611.13450.30 2.4|0.6351.1345i i i i i i i i i p f P p f p f P p f p f P p f πππ===⨯====⨯+⨯+⨯⨯===⨯===∑∑∑x x x x x x x x x皆为正态组的情形v 设πi ~N p (μi ,Σi ),Σi >0, i =1,2,⋯,k 。
马氏距离判别与贝叶斯判别《马氏距离判别与贝叶斯判别》实验报告姓名:学号:班级:一、目的:1.熟练掌握matlab软件进行距离判别贝叶斯判别的方法与步骤。
2.掌握判别分析的回代误判率与交叉误判率的编程。
3.掌握贝叶斯判别的误判率的计算。
二、内容:我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日4次同时抽取大气样品,测定其中含有的6种气体的浓度,前后共4天,每个取样点每种气体实测16次,计算每个取样点每种气体的平均浓度,数据见表1。
气体数据对应的污染地区分类见表1中最后一列。
现有两个取自该地区的4个气体样本,气体指标见表1中的后4行,试解决一下问题:1.判别两类总体的协方差矩阵是否相等,然后用马氏距离判别这4个未知气体样本的污染类别,并计算回代误判率与交叉误判率;若两类总体服从正太分布,第一类与第二类的先验概率分别为7/15、8/15,利用贝叶斯判别样本的污染分类。
2.先验概率为多少时,距离判别与贝叶斯判别相同?调整先验概率对判别结果的影响是什么?3.对第一类与第二类的先验概率分别为7/15、8/15,计算误判概率。
三、程序马氏距离判别:A=load('shiyan4.txt');x1=A([1:4 7 8 15],2:7);x2=A([5 6 9:14],2:7);m1=mean(x1);m2=mean(x2);n1=size(x1,1);n2=size(x2,1);s1=cov(x1);s2=cov(x2);p=6;s=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2);Q1=(n1-1)*(log(det(s))-log(det(s1))-p+trace(inv(s)*s1)); Q2=(n2-1)*(log(det(s))-log(det(s2))-p+trace(inv(s)*s2)); if Q1<chi2inv(0.95,21)&&q2<chi2inv(0.95,21)< p=""> disp('两组数据协方差相等')elsedisp('两组数据协方差不全相等')end; %判断两总体协方差是否相等%协方差不相等,马氏距离判别x=A(16:19,2:7);w=mahal(x,x1)-mahal(x,x2);for i=1:4if w(i)<=0disp(['第',num2str(i),'个样品污染类别为1']);elsedisp(['第',num2str(i),'个样品污染类别为2']);endend%计算回代误判率for i=1:n1d11(i)=mahal(x1(i,:),x1)-mahal(x1(i,:),x2);endfor i=1:n2d22(i)=mahal(x2(i,:),x2)-mahal(x2(i,:),x1);endn11=length(find(d11>0));n22=length(find(d22>0));p0=(n11+n22)/(n1+n2)%计算交叉误判率for i=1:n1B=x1([1:i-1,i+1:n1],:);n1=length(B(:,1));n2=length(x2(:,1));m1=mean(B);m2=mean(x2);S1=cov(B);S2=cov(x2);S=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2);Q1=(n1-1)*(log(det(S))-log(det(S1))-p+trace(inv(S)*S1));Q2=(n2-1)*(log(det(S))-log(det(S2))-p+trace(inv(S)*S2));if Q1<chi2inv(0.95,21)&&q2<chi2inv(0.95,21)< p="">D11(i)=(x1(i,:)-mean(B))*inv(S)*(x1(i,:)-mean(B))'-(x1(i,:)-mean(x2))*inv(S)*(x1(i,:)-mean(x2))';elseD11(i)=mahal(x1(i,:),x1)-mahal(x1(i,:),x2);end;endfor i=1:n2D=x2([1:i-1,i+1:n2],:);n1=length(x1(:,1));n2=length(D(:,1));S1=cov(x1);S2=cov(D);S=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2);Q1=(n1-1)*(log(det(S))-log(det(S1))-p+trace(inv(S)*S1));Q2=(n2-1)*(log(det(S))-log(det(S2))-p+trace(inv(S)*S2));if Q1<chi2inv(0.95,21)&&q2<chi2inv(0.95,21)< p="">D22(i)=(x1(i,:)-mean(B))*inv(S)*(x1(i,:)-mean(B))'-(x1(i,:)-mean(x2)) *inv(S)*(x1(i,:)-mean(x2))';elseD22(i)=mahal(x2(i,:),x1)-mahal(x2(i,:),x2);end;endN11=length(find(D11>0));N22=length(find(D22>0));p1=(N11+N22)/(n1+n2)贝叶斯判别:A=load('shiyan4.txt');x1=A([1:4 7 8 15],2:7);x2=A([5 6 9:14],2:7);n1=size(x1,1);n2=size(x2,1);s1=cov(x1) ;s2=cov(x2) ;p=2;s=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2);Q1=(n1-1)*(log(det(s))-log(det(s1))-p+trace(inv(s)*s1));Q2=(n2-1)*(log(det(s))-log(det(s2))-p+trace(inv(s)*s2));%判断两总体协方差是否相等if Q1<chi2inv(0.95,3)&&q2<chi2inv(0.95,3)< p="">disp('两组数据协方差相等')elsedisp('两组数据协方差不全相等')end;%判断两总体协方差是否相等%协方差不相等贝叶斯判别x=A(16:19,2:7);p1=7/15;p2=8/15;for i=1:4d1(i)=mahal(x(i,:),x1)-log(det(s1))-2*log(p1);d2(i)=mahal(x(i,:),x2)-log(det(s2))-2*log(p2);if d1(i)<=d2(i)disp(['第',num2str(i),'个样品污染类别为1']);elsedisp(['第',num2str(i),'个样品污染类别为2']);endend%计算回代误判率n11=0;n22=0;for i=1:n1d1(i,1)=(x1(i,:)-m1)*inv(s1)*(x1(i,:)-m1)'-log(det(s1))-2*log(p1);d1(i,2)=(x1(i,:)-m2)*inv(s2)*(x1(i,:)-m2)'-log(det(s2))-2*log(p2); for j=1:2if d1(i,j)==min(d1(i,:))&j~=1n11=n11+1;endendendfor i=1:n2d2(i,1)=(x2(i,:)-m1)*inv(s1)*(x2(i,:)-m1)'-log(det(s1))-2*log(p1);d2(i,2)=(x2(i,:)-m2)*inv(s2)*(x2(i,:)-m2)'-log(det(s2))-2*log(p2); for j=1:2if d2(i,j)==min(d2(i,:))&j~=2n22=n22+1;endendendp0=(n11+n22)/(n1+n2)%计算交叉误判率N11=0;N22=0;for k=1:n1A=x1([1:k-1,k+1:n1],:);N1=length(A(:,1));M1=mean(A,1);m2=mean(x2);s11=cov(A);s2=cov(x2);S1=((N1-1)*s11+(n2-1)*s2)/(N1+n2-k);for i=1:n1d11(i,1)=M1*inv(S1)*x1(i,:)'-1/2*M1*inv(S1)*M1'+log(p1);d11(i,2)=m2*inv(S1)*x1(i,:)'-1/2*m2*inv(S1)*m2'+log(p2); for j=1:2if d11(i,j)==min(d11(i,:))&j~=1N11=N11+1;endendendendfor k=1:n2B=x2([1:k-1,k+1:n2],:);N2=length(B(:,1));M2=mean(B,1);m1=mean(x1);s22=cov(B);s1=cov(x1);S2=((n1-1)*s1+(N2-1)*s22)/(n1+N2-k);for i=1:n2d22(i,1)=m1*inv(S2)*x2(i,:)'-1/2*m1*inv(S2)*m1'+log(p1);d22(i,2)=M2*inv(S2)*x2(i,:)'-1/2*M2*inv(S2)*M2'+log(p2);for j=1:2if d22(i,j)==min(d22(i,:))&j~=2N22=N22+1;endendendendp1=(N11+N22)/(n1+n2)四、结果马氏距离判别:两组数据协方差不全相等,第1、2个样品污染类别为1第3、4个样品污染类别为2,回代误判率p=0,交叉误判率p=0.5714。
距离判别法贝叶斯判别法和费歇尔判别法的异同距离判别法、贝叶斯判别法和费歇尔判别法是三种常见的分类方法。
它们都是基于已知类别的数据集,通过学习得到一个分类模型,然后用该模型对未知数据进行分类。
虽然它们都属于分类方法,但是它们之间还是存在一些异同点的。
一、距离判别法距离判别法是根据样本之间的距离来进行分类的方法。
具体地说,对于一个未知样本,计算它与每个已知类别中心之间的距离,然后将其归为距离最近的那个类别。
其中“中心”可以是类别内所有样本的平均值或者其他统计量。
优点:1. 简单易懂:距离判别法直观易懂,容易理解。
2. 计算简单:计算样本与中心之间的距离只需要进行简单的数学运算即可。
缺点:1. 对异常值敏感:由于距离判别法是基于样本之间的距离来进行分类,因此如果存在异常值,则可能会影响分类结果。
2. 需要提前确定中心:在使用距离判别法时需要提前确定每个类别的中心,而这个过程可能会比较困难。
二、贝叶斯判别法贝叶斯判别法是一种基于概率的分类方法。
它假设每个类别都服从某种概率分布,然后根据贝叶斯公式计算出每个类别对于给定样本的后验概率,最终将样本归为后验概率最大的那个类别。
优点:1. 可以处理多维特征:与距离判别法不同,贝叶斯判别法可以处理多维特征。
2. 对异常值不敏感:由于贝叶斯判别法是基于概率分布来进行分类的,因此对于一些异常值,它可以通过概率分布来进行修正。
缺点:1. 需要大量数据:由于贝叶斯判别法需要估计每个类别的概率分布,因此需要大量的数据才能得到准确的结果。
2. 对先验概率敏感:在使用贝叶斯判别法时需要提前确定每个类别的先验概率,而这个过程可能会比较困难。
三、费歇尔判别法费歇尔判别法是一种基于方差分析理论的分类方法。
它假设每个类别服从某种概率分布,然后根据方差分析的原理来计算每个类别对于给定样本的“可信度”,最终将样本归为“可信度”最高的那个类别。
优点:1. 可以处理多维特征:与距离判别法不同,费歇尔判别法可以处理多维特征。
判别分析--费希尔判别、贝叶斯判别、距离判别判别分析⽐较理论⼀些来说,判别分析就是根据已掌握的每个类别若⼲样本的数据信息,总结出客观事物分类的规律性,建⽴判别公式和判别准则;在遇到新的样本点时,再根据已总结出来的判别公式和判别准则,来判断出该样本点所属的类别。
1 概述三⼤类主流的判别分析算法,分别为费希尔(Fisher)判别、贝叶斯(Bayes)判别和距离判别。
具体的,在费希尔判别中我们将主要讨论线性判别分析(Linear Discriminant Analysis,简称LDA)及其原理⼀般化后的衍⽣算法,即⼆次判别分析(Quadratic Discriminant Analysis,简称QDA);⽽在贝叶斯判别中将介绍朴素贝叶斯分类(Naive Bayesian Classification)算法;距离判别我们将介绍使⽤最为⼴泛的K最近邻(k-Nearest Neighbor,简称kNN)及有权重的K最近邻( Weighted k-Nearest Neighbor)算法。
1.1 费希尔判别费希尔判别的基本思想就是“投影”,即将⾼维空间的点向低维空间投影,从⽽简化问题进⾏处理。
投影⽅法之所以有效,是因为在原坐标系下,空间中的点可能很难被划分开,如下图中,当类别Ⅰ和类别Ⅱ中的样本点都投影⾄图中的“原坐标轴”后,出现了部分样本点的“影⼦”重合的情况,这样就⽆法将分属于这两个类别的样本点区别开来;⽽如果使⽤如图8-2中的“投影轴”进⾏投影,所得到的“影⼦”就可以被“类别划分线”明显地区分开来,也就是得到了我们想要的判别结果。
原坐标轴下判别投影轴下判别我们可以发现,费希尔判别最重要的就是选择出适当的投影轴,对该投影轴⽅向上的要求是:保证投影后,使每⼀类之内的投影值所形成的类内离差尽可能⼩,⽽不同类之间的投影值所形成的类间离差尽可能⼤,即在该空间中有最佳的可分离性,以此获得较⾼的判别效果。
对于线性判别,⼀般来说,可以先将样本点投影到⼀维空间,即直线上,若效果不明显,则可以考虑增加⼀个维度,即投影⾄⼆维空间中,依次类推。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理数据的标准化是将数据按比例缩放,使之落入一个小的特定区间;在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权;其中最典型的就是0-1标准化和Z 标准化;2、欧氏距离与马氏距离的优缺点是什么欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离;在二维和三维空间中的欧氏距离的就是两点之间的距离;缺点:就大部分统计问题而言,欧氏距离是不能令人满意的;每个坐标对欧氏距离的贡献是同等的;当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离;当各个分量为不同性质的量时,“距离”的大小与指标的单位有关;它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求;没有考虑到总体变异对距离远近的影响;马氏距离表示数据的协方差距离;为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离;优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关;由标准化数据和中心化数据计算出的二点之间的马氏距离相同;马氏距离还可以排除变量之间的相关性的干扰;缺点:夸大了变化微小的变量的作用;受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出;3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关;如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离;4、如果正态随机向量12(,,)p X X X X '=的协方差阵为对角阵,证明X 的分量是相互独立的随机变量;解: 因为12(,,)p X X X X '=的密度函数为 又由于21222p σσσ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭Σ 则1(,...,)p f x x则其分量是相互独立;5.1y 和2y 是相互独立的随机变量,且1y ~)1,0(N ,2y ~)4,3(N ;(a )求21y 的分布;(b )如果⎥⎦⎤⎢⎣⎡-=2/)3(21y y y ,写出y y '关于1y 与2y 的表达式,并写出y y '的分布; (c )如果⎥⎦⎤⎢⎣⎡=21y y y 且y ~∑),(μN ,写出∑-'1y y 关于1y 与2y 的表达式,并写出∑-'1y y 的分布;解:a 由于1y ~)1,0(N ,所以1y ~)1(2χ; b 由于1y ~)1,0(N ,2y ~)4,3(N ;所以232-y ~)1,0(N ;故2221)23(-+='y y y y ,且y y '~)2(2χ第2章 均值向量和协方差阵的检验1、略2、试谈Wilks 统计量在多元方差分析中的重要意义;3、题目此略多元均值检验,从题意知道,容量为9的样本 ,总体协方差未知假设H0:0μμ= , H1:0μμ≠ n=9 p=5检验统计量/n-1)()(0102μμ-'-=-X S X n T 服从P,n-1的2T 分布 统计量2T 实际上是样本均值与已知总体均值之间的马氏距离再乘以nn-1,这个值越大,相等的可能性越小,备择假设成立时,2T 有变大的趋势,所以拒绝域选择2T 值较大的右侧部分,也可以转变为F 统计量零假设的拒绝区域 {n-p/n-1p}2T >,()p n p F α-1/102T >F5,45μ0= 2972 ’样本均值 ’样本均值-μ0’=协方差矩阵降维——因子分析——抽取Inter-Item Covariance Matrix人均GDP元三产比重%人均消费元人口增长%文盲半文盲%人均GDP元三产比重%人均消费元人口增长%文盲半文盲%协方差的逆矩阵计算:2T=9s^-1 ’F统计量=> 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显着差异;4、略第3章聚类分析1.、聚类分析的基本思想和功能是什么聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来;功能是把相似的研究对象归类;2、试述系统聚类法的原理和具体步骤;系统聚类是将每个样品分成若干类的方法,其基本思想是先将各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止; 具体步骤:1、对数据进行变换处理;不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的2、构造n个类,每个类只包含一个样本;3、计算n个样本两两间的距离ijd;4、合并距离最近的两类为一新类;5、计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4;6、画聚类图;7、决定类的个数,从而得出分类结果;3、试述K-均值聚类的方法原理;K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心均值类中,它是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组;步骤是把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中通常采用标准化数据或非标准化数据计算欧氏距离重新计算接受新样品的类和失去样品的类的形心;重复这一步直到各类无元素进出;4、试述模糊聚类的思想方法;模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,实质是根据研究对象本身的属性构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系;基本思想是要把需要识别的事物与模板进行模糊比较,从而得到所属的类别;简单地说,模糊聚类事先不知道具体的分类类别,而模糊识别是在已知分类的情况下进行的;模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面;它有两种基本方法:系统聚类法和逐步聚类法;该方法多用于定性变量的分类;5、略第4章判别分析1、应用判别分析应该具备什么样的条件答:判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差;对于判别分析有三个假设:1每一个判别变量不能是其他判别变量的线性组合;有时一个判别变量与另外的判别变量高度相关,或与其的线性组合高度相关,也就是多重共线性;2各组变量的协方差矩阵相等;判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显着性检验;3各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显着性检验值和分组归属的概率;2、试述贝叶斯判别法的思路;答:贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识先验概率分布,得到后验概率分布,各种统计推断都通过后验概率分布来进行;将贝叶斯判别方法用于判别分析,就得到贝叶斯判别;3、试述费歇判别法的基本思想;答:费歇判别法的基本思想是将高维数据点投影到低维空间上来,然而利用方差分析的思想选出一个最优的投影方向;因此,严格的说费歇判别分析本身不是一种判别方法,只是利用费歇统计量进行数据预处理的方法,以使更有利于用判别分析方法解决问题;为了有利于判别,我们选择投影方向a应使投影后的k个一元总体能尽量分开同一总体中的样品的投影值尽量靠近;k要做到这一点,只要投影后的k个一元总体均值有显着差异,即可利用方差分析的方法使组间平方和尽可能的大;则选取投影方向a使Δa达极大即可;4、什么是逐步判别分析答:具有筛选变量能力的判别方法称为逐步判别分析法;逐步判别分析法就是先从所有因子中挑选一个具有最显着判别能力的因子,然后再挑选第二个因子,这因子是在第一因子的基础上具有最显着判别能力的因子,即第一个和第二个因子联合起来有显着判别能力的因子;接着挑选第三个因子,这因子是在第一、第二因子的基础上具有最显着判别能力的因子;由于因子之间的相互关系,当引进了新的因子之后,会使原来已引入的因子失去显着判别能力;因此,在引入第三个因子之后就要先检验已经引入的因子是否还具有显着判别能力,如果有就要剔除这个不显着的因子;接着再继续引入,直到再没有显着能力的因子可剔除为止,最后利用已选中的变量建立判别函数;5、简要叙述判别分析的步骤及流程答:1研究问题:选择对象,评估一个多元问题各组的差异,将观测个体归类,确定组与组之间的判别函数;2设计要点:选择解释变量,样本量的考虑,建立分析样本的保留样本;3假定:解释变量的正态性,线性关系,解释变量间不存在多重共线性,协方差阵相等;4估计判别函数:联立估计或逐步估计,判别函数的显着性;5使用分类矩阵评估预测的精度:确定最优临界得分,确定准则来评估判对比率,预测精确的统计显着性;6判别函数的解释:需要多少个函数;评价单个函数主要从判别权重、判别载荷、偏F值几个方面;评价两个以上的判别函数,分为评价判别的函数和评价合并的函数;7判别结果的验证:分开样本或交叉验证,刻画组间的差异;6、略第5章主成分分析1、主成分的基本思想是什么在对某一事物进行实证研究时,为更全面、准确地反映事物的特征及其发展规律,往往考虑与其有关的多个指标,在多元统计中也称为变量;一方避免遗漏重要信息而考虑尽可能多的指标看,另一方面考虑指标的增多,又难以避免信息重叠;希望涉及的变量少,而得到的信息量有较多;主成分的基本思想是研究如何通过原来的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法;研究某一问题涉及的众多变量之间有一定的相关性,必然存在着支配作用的公共因素;通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个无关的综合指标主成分来代替原来的指标;通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标;最经典的做法就是用F1选取的第一个线性组合,即第一个综合指标的方差来表达,即VarF1越大,表示F1包含的信息越多;因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分,如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求CovF1,F2=0则称F2为第二主成分,依此类推可以构造出第三、第四······,第P个主成分;2、主成分在应用中的主要作用是什么作用:利用原始变量的线性组合形成几个综合指标主成分,在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾;通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量数据进行定量分析,解释变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入;主成分分析能降低所研究的数据空间的维数,有时可通过因子载荷aij的结论,弄清X变量间的某些关系,多维数据的一种图形表示方法,用主成分分析筛选变量,可以用较少的计算量来选择,获得选择最佳变量子集合的效果;3.由协方差阵出发和由相关阵出发求主成分有什么不同1由协方差阵出发设随即向量X=X1,X2,X3,……Xp’的协方差矩阵为Σ,1≥2≥……≥p为Σ的特征值,γ1,γ2,……γp为矩阵A各特征值对应的标准正交特征向量,则第i个主成分为Yi=γ1iX1+γ2iX2+……+γpiXp,i=1,2,……,p此时VARYi=i,COVYi,Yj=0,i≠j我们把X1,X2,X3,……Xp的协方差矩阵Σ的非零特征根1≥2≥……≥p>0向量对应的标准化特征向量γ1,γ2,……γp分别作为系数向量,Y1=γ1’X, Y2=γ2’X,……, Yp=γp’X分别称为随即向量X的第一主成分,第二主成分……第p主成分;Y的分量Y1,Y2,……,Yp依次是X的第一主成分、第二主成分……第p主成分的充分必要条件是:1Y=P’X,即P为p阶正交阵,2Y的分量之间互不相关,即DY=diag1,2,……,p,3Y的p个分量是按方差由大到小排列,即1≥2≥……≥p;2由相关阵出发对原始变量X进行标准化,Z=Σ^1/2^-1X-μ covZ=R原始变量的相关矩阵实际上就是对原始变量标准化后的协方差矩阵,因此,有相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则相一致的;λi,γi 分别表示相关阵R的特征根值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为:Yi=γi’Z=γi’Σ^1/2^-1X-μ在实际研究中,有时单个指标的方差对研究目的起关键作用,为了达到研究目的,此时用协方差矩阵进行主成分分析恰到好处;有些数据涉及到指标的不同度量尺度使指标方差之间不具有可比性,对于这类数据用协方差矩阵进行主成分分析也有不妥;相关系数矩阵计算主成分其优势效应仅体现在相关性大、相关指标数多的一类指标上;避免单个指标方差对主成分分析产生的负面影响,自然会想到把单个指标的方差从协方差矩阵中剥离,而相关系数矩阵恰好能达到此目的;4、略第6章因子分析1、因子分析与主成分分析有什么本质不同答:1因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成,因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊因子,以及公共因子和特殊因子的线性组合;主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量绝大部分变异的几组彼此不相关的新变量2因子分析中,把变量表示成各因子的线性组合,而主成分分析中,把主成分表示成各变量的线性组合3主成分分析中不需要有一些专门假设,因子分析则需要一些假设,因子分析的假设包括:各个因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关;4在因子分析中,提取主因子的方法不仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同;而主成分分析只能用主成分法提取;5主成分分析中,当给定的协方差矩阵或者相关矩阵的特征根唯一时,主成分一般是固定;而因子分析中,因子不是固定的,可以旋转得到不同的因子;6在因子分析中,因子个数需要分析者指定,结果随指定的因子数不同而不同;在主成分分析中,主成分的数量是一定的,一般有几个变量就有几个主成分; 7与主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量新的变量几乎带有原来所有变量的信息来进行后续的分析,则可以使用主成分分析;2、因子载荷ij a 的统计定义是什么它在实际问题的分析中的作用是什么答:1因子载荷ij a 的统计定义:是原始变量i X 与公共因子j F 的协方差,i X 与j F ),...,2,1;,...,2,1(m j p i ==都是均值为0,方差为1的变量,因此ij a 同时也是i X 与j F 的相关系数;(2)记),,...,2,1(...222212m j a a a g pjj j j =+++=则2j g 表示的是公共因子j F 对于X 的每一分量),...,2,1(p i X i =所提供的方差的总和,称为公共因子j F 对原始变量X 的方贡献,它是衡量公共因子相对重要性的指标;2j g 越大,表明公共因子j F 对i X 的贡献越大,或者说对X的影响作用就越大;如果因子载荷矩阵对A 的所有的),...,2,1(2m j g j =都计算出来,并按大小排序,就可以依此提炼出最有影响的公共因子;3、略第7章 对应分析1、试述对应分析的思想方法及特点;思想:对应分析又称为相应分析,也称R —Q 分析;是因子分子基础发展起来的一种多元统计分析方法;它主要通过分析定性变量构成的列联表来揭示变量之间的关系;当我们对同一观测数据施加R 和Q 型因子分析,并分别保留两个公共因子,则是对应分析的初步;对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来;它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性;另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数主因子以及分类的依据,是一种直观、简单、方便的多元统计方法;特点:对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来;它最大特点是能把众多的样品和众多的变量同时作到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性;另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数主因子以及分类的依据,是一种直观、简单、方便的多元统计方法;2、试述对应分析中总惯量的意义;总惯量不仅反映了行剖面集定义的各点与其重心加权距离的总和,同时与2x 统计量仅相差一个常数,而2x 统计量反映了列联表横联与纵联的相关关系,因此总惯量也反映了两个属性变量各状态之间的相关关系;对应分析就是在对总惯量信息损失最小的前提下,简化数据结构以反映两属性变量之间的相关关系;3、略 第8章 典型相关分析1、试述典型相关分析的统计思想及该方法在研究实际问题中的作用;答: 典型相关分析是研究两组变量之间相关关系的一种多元统计方法;用于揭示两组变 量之间的内在联系;典型相关分析的目的是识别并量化两组变量之间的联系;将两z |Uz |V 组变量相 关关系的分析转化为一组变量的线性组合与另一组变量线性组合之间的相关关系;基本思想:1在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数;即:X X 1, X 2, , , X p 、XX 1, X 2, , , X q 是两组相互关联的随机变量,分别在两组变量中选取若干有代表性的综合变量 U i 、Vi,使是原变量的线性组合;U i a 1X 1 a 2 X 2..... a P X P ≡ a ‘XV i b 1Y 1 b 2 Y 2 .... b q Y q ≡ b‘Y 在 D aX D bX 1 的条件下,使得 aX , bX 达到最大;2选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对;(3)如此继续下去,直到两组变量之间的相关性被提取完毕为此;其作用为:进行两组变量之间的相关性分析,用典型相关系数衡量两组变量之间的相关性;2、简述典型相关分析中冗余分析的内容及作用;答:典型型冗余分析的作用即分析每组变量提取出的典型变量所能解释的该组样本总方差的比 例,从而定量测度典型变量所包含的原始信息量;第一组变量样本的总方差为 t r R 11 p ,第二组变量样本的总方差为 t r R 22 q ;*A ˆz和*B ˆz 是样本典型相关系数矩阵,典型系数向量是矩阵的行向量, Z z z **A ˆU ˆ=,Z z z **B ˆV ˆ=前 r 对典型变量对样本总方差的贡献为则第一组样本方差由前 r 个典型变量解释的比例为:第二组样本方差由前 r 个典型变量解释的比例为:3、典型变量的解释有什么具体方法实际意义是什么答:主要使用三种方法:1典型权重标准相关系数:传统的解释典型函数的方法包括观察每个原始变量在它的典型变量中的典型权重,即标准化相关系数StandardizedCanonical Coefficients 的符号和大小;有较大的典型权重,则说明原始变量对它的典型变量的贡献较大,反之则相反;原始变量的典型权重有相反的符号说明变量之间存在一种反面关系,反之则有正面关系;但是这种解释遭到了很多批评;这些问题说明在解释典型相关的时候应慎用典型权重;(2)典型载荷结构系数:由于典型载荷逐步成为解释典型相关分析结果的基础;典型载荷分析,即典型结构分析Canonical Structure Analyse,是原始变量自变量或者因变量与它的典型变量间的简单线性相关系数;典型载荷反映原始变量与典型变量的共同方差,它的解释类似于因子载荷,就是每个原始变量对典型函数的相对贡献;(3)典型交叉载荷交叉结构系数:它的提出时作为典型载荷的替代,也属于典型结构分析;计算典型交叉载荷包括每个原始因变量与自变量典型变量直接相关,反之亦然;交叉载荷提供了一个更直接地测量因变量组与自变量组之间的关系的指标;实际意义:即使典型相关系数在统计上是显着的,典型根和冗余系数大小也是可接受的,研究者仍需对结果做大量的解释;这些解释包括研究典型函数中原始变量的相对重要性;4.、略。
马氏距离判别法马氏距离判别法是一种常见的分类算法,其基本思想是利用样本均值和协方差矩阵来计算样本之间的马氏距离,从而将不同类别的样本进行分类。
在实际应用中,马氏距离判别法常被用于模式识别、数据挖掘、图像处理等领域。
一、基本概念1. 马氏距离马氏距离是一种度量两个随机向量之间的距离的方法。
它考虑了各个分量之间的相关性,并且可以被看作是两个随机向量在协方差矩阵下的欧几里得距离。
2. 样本均值样本均值是指一个样本集合中所有数据的平均值。
在马氏距离判别法中,每个类别都有一个对应的样本均值。
3. 协方差矩阵协方差矩阵描述了不同维度之间的相关性。
它可以告诉我们一个变量与其他变量之间如何相互影响,并且可以被用来计算马氏距离。
二、算法流程1. 计算每个类别的样本均值和协方差矩阵首先,需要对每个类别的样本进行统计分析,计算出每个类别的样本均值和协方差矩阵。
这些统计量可以用来描述每个类别的数据分布情况。
2. 计算马氏距离对于一个新的样本,需要计算它与每个类别的样本均值之间的马氏距离。
马氏距离越小,则说明这个新样本越可能属于该类别。
3. 判别分类根据马氏距离大小,将新样本判定为属于其中一个类别。
三、优缺点1. 优点(1)考虑了各个特征之间的相关性,能够更准确地区分不同类别之间的数据;(2)适用于多维度数据处理,并且对异常值具有一定鲁棒性。
2. 缺点(1)需要计算每个类别的协方差矩阵,当特征维度较高时,计算复杂度较高;(2)对于不同类别之间具有相同特征分布情况时,效果不佳;(3)对于非正态分布或者存在噪声影响时,效果也不佳。
四、应用实例1. 图像分类马氏距离判别法可以被用于图像分类领域。
通过计算样本均值和协方差矩阵来描述每个类别的图像特征分布情况,从而实现对不同类别的图像进行分类。
2. 数据挖掘在数据挖掘领域,马氏距离判别法可以被用于异常检测和聚类分析等任务中。
通过计算不同样本之间的马氏距离来识别异常数据,并且可以将相似的数据进行聚类。
《马氏距离判别与贝叶斯判别》实验报告姓名:学号:班级:一、目的:1.熟练掌握matlab软件进行距离判别贝叶斯判别的方法与步骤。
2.掌握判别分析的回代误判率与交叉误判率的编程。
3.掌握贝叶斯判别的误判率的计算。
二、内容:我国山区某大型化工厂,在厂区及邻近地区挑选有代表性的15个大气取样点,每日4次同时抽取大气样品,测定其中含有的6种气体的浓度,前后共4天,每个取样点每种气体实测16次,计算每个取样点每种气体的平均浓度,数据见表1。
气体数据对应的污染地区分类见表1中最后一列。
现有两个取自该地区的4个气体样本,气体指标见表1中的后4行,试解决一下问题:1.判别两类总体的协方差矩阵是否相等,然后用马氏距离判别这4个未知气体样本的污染类别,并计算回代误判率与交叉误判率;若两类总体服从正太分布,第一类与第二类的先验概率分别为7/15、8/15,利用贝叶斯判别样本的污染分类。
2.先验概率为多少时,距离判别与贝叶斯判别相同?调整先验概率对判别结果的影响是什么?3.对第一类与第二类的先验概率分别为7/15、8/15,计算误判概率。
表1 大气样品数据表三、程序马氏距离判别:A=load('shiyan4.txt');x1=A([1:4 7 8 15],2:7);x2=A([5 6 9:14],2:7);m1=mean(x1);m2=mean(x2);n1=size(x1,1);n2=size(x2,1);s1=cov(x1);s2=cov(x2);p=6;s=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2);Q1=(n1-1)*(log(det(s))-log(det(s1))-p+trace(inv(s)*s1));Q2=(n2-1)*(log(det(s))-log(det(s2))-p+trace(inv(s)*s2));if Q1<chi2inv(0.95,21)&&Q2<chi2inv(0.95,21) disp('两组数据协方差相等')elsedisp('两组数据协方差不全相等')end; %判断两总体协方差是否相等%协方差不相等,马氏距离判别x=A(16:19,2:7);w=mahal(x,x1)-mahal(x,x2);for i=1:4if w(i)<=0disp(['第',num2str(i),'个样品污染类别为1']);elsedisp(['第',num2str(i),'个样品污染类别为2']);endend%计算回代误判率for i=1:n1d11(i)=mahal(x1(i,:),x1)-mahal(x1(i,:),x2); endfor i=1:n2d22(i)=mahal(x2(i,:),x2)-mahal(x2(i,:),x1); endn11=length(find(d11>0));n22=length(find(d22>0) );p0=(n11+n22)/(n1+n2)%计算交叉误判率for i=1:n1B=x1([1:i-1,i+1:n1],:);n1=length(B(:,1));n2=length(x2(:,1));m1=mean(B);m2=mean(x2);S1=cov(B);S2=cov(x2);S=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2);Q1=(n1-1)*(log(det(S))-log(det(S1))-p+trace(inv(S)*S1));Q2=(n2-1)*(log(det(S))-log(det(S2))-p+trace(inv(S)*S2));if Q1<chi2inv(0.95,21)&&Q2<chi2inv(0.95,21)D11(i)=(x1(i,:)-mean(B))*inv(S)*(x1(i,:)-mean(B))'-(x1(i,:)-mean(x2))*inv(S)*(x1(i,:)-mean(x2))';elseD11(i)=mahal(x1(i,:),x1)-mahal(x1(i,:),x2); end;endfor i=1:n2D=x2([1:i-1,i+1:n2],:);n1=length(x1(:,1));n2=length(D(:,1));S1=cov(x1);S2=cov(D);S=((n1-1)*S1+(n2-1)*S2)/(n1+n2-2);Q1=(n1-1)*(log(det(S))-log(det(S1))-p+trace(inv(S)*S1));Q2=(n2-1)*(log(det(S))-log(det(S2))-p+trace(inv(S)*S2));if Q1<chi2inv(0.95,21)&&Q2<chi2inv(0.95,21)D22(i)=(x1(i,:)-mean(B))*inv(S)*(x1(i,:)-mean(B))'-(x1(i,:)-mean(x2))*inv(S)*(x1(i,:)-mean(x2))';elseD22(i)=mahal(x2(i,:),x1)-mahal(x2(i,:),x2); end;endN11=length(find(D11>0));N22=length(find(D22>0) );p1=(N11+N22)/(n1+n2)贝叶斯判别:A=load('shiyan4.txt');x1=A([1:4 7 8 15],2:7);x2=A([5 6 9:14],2:7);n1=size(x1,1);n2=size(x2,1);s1=cov(x1) ;s2=co v(x2) ;p=2;s=((n1-1)*s1+(n2-1)*s2)/(n1+n2-2);Q1=(n1-1)*(log(det(s))-log(det(s1))-p+trace(inv(s)*s1));Q2=(n2-1)*(log(det(s))-log(det(s2))-p+trace(inv(s)*s2));%判断两总体协方差是否相等if Q1<chi2inv(0.95,3)&&Q2<chi2inv(0.95,3)disp('两组数据协方差相等')elsedisp('两组数据协方差不全相等')end;%判断两总体协方差是否相等%协方差不相等贝叶斯判别x=A(16:19,2:7);p1=7/15;p2=8/15;for i=1:4d1(i)=mahal(x(i,:),x1)-log(det(s1))-2*log(p1);d2(i)=mahal(x(i,:),x2)-log(det(s2))-2*log(p2);if d1(i)<=d2(i)disp(['第',num2str(i),'个样品污染类别为1']);elsedisp(['第',num2str(i),'个样品污染类别为2']);endend%计算回代误判率n11=0;n22=0;for i=1:n1d1(i,1)=(x1(i,:)-m1)*inv(s1)*(x1(i,:)-m1)'-log(det(s1))-2*log(p1);d1(i,2)=(x1(i,:)-m2)*inv(s2)*(x1(i,:)-m2)'-log(det(s2))-2*log(p2);for j=1:2if d1(i,j)==min(d1(i,:))&j~=1n11=n11+1;endendendfor i=1:n2d2(i,1)=(x2(i,:)-m1)*inv(s1)*(x2(i,:)-m1)'-log(det(s1))-2*log(p1);d2(i,2)=(x2(i,:)-m2)*inv(s2)*(x2(i,:)-m2)'-log(det(s2))-2*log(p2);for j=1:2if d2(i,j)==min(d2(i,:))&j~=2n22=n22+1;endendendp0=(n11+n22)/(n1+n2)%计算交叉误判率N11=0;N22=0;for k=1:n1A=x1([1:k-1,k+1:n1],:);N1=length(A(:,1));M1=mean(A,1);m2=mean(x2);s11=cov(A);s2=cov(x2);S1=((N1-1)*s11+(n2-1)*s2)/(N1+n2-k);for i=1:n1d11(i,1)=M1*inv(S1)*x1(i,:)'-1/2*M1*inv(S1)*M1'+log(p1);d11(i,2)=m2*inv(S1)*x1(i,:)'-1/2*m2*inv(S1)*m2'+log(p2);for j=1:2if d11(i,j)==min(d11(i,:))&j~=1 N11=N11+1;endendendendfor k=1:n2B=x2([1:k-1,k+1:n2],:);N2=length(B(:,1));M2=mean(B,1);m1=mean(x1);s22=cov(B);s1=cov(x1);S2=((n1-1)*s1+(N2-1)*s22)/(n1+N2-k);for i=1:n2d22(i,1)=m1*inv(S2)*x2(i,:)'-1/2*m1*inv(S2)*m1'+log(p1);d22(i,2)=M2*inv(S2)*x2(i,:)'-1/2*M2*inv(S2)*M2'+log(p2);for j=1:2if d22(i,j)==min(d22(i,:))&j~=2N22=N22+1;endendendendp1=(N11+N22)/(n1+n2)四、结果马氏距离判别:两组数据协方差不全相等,第1、2个样品污染类别为1第3、4个样品污染类别为2,回代误判率p=0,交叉误判率p=0.5714。
贝叶斯判别:两组数据协方差不全相等,第1、2个样品污染类别为1,第3、4个样品污染类别为2,回代误判率p=0,交叉误判率p=0.2667。