判别分析(第3节_贝叶斯判别法1)
- 格式:pdf
- 大小:828.43 KB
- 文档页数:35
判别分析专题5.1引言有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。
于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。
这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。
在科学研究和日常生活中,我们经常会遇到对观测到的样品数据进行判别分类的问题。
例如,在经济学中,可根据各国的人均国民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的所属类型;在人口学中,可根据平均预期寿命、经济水平和婴儿死亡率等因素来判定这个地区人口死亡水平的所属类型;在医学上,经常要根据患者的不同症状和化验结果等多项指标来诊断其患病类型;在气象学中,要根据最近的一些气象资料来判断明天是否会下雨;等等。
所有这些问题一般都可以应用统计学中的判别分析方法予以解决。
由于判定一个样品的归属一般需要依据样品的多项指标,其统计推断及分析也是按这些指标来进行的,所以将判别分析放在多元分析中讨论是合适的。
判别分析要解决的问题是在已知历史上用某些方法已把研究对象分成若干组的情况下,来判定新的观测样品应归属的组别。
从概率统计的角度来看,判别分析问题可以归结为:设有k 个组(或总体)k πππ,,,21 ,所有组的样品都测量了相同的p 个指标,可表示为一个p 维向量,这k 个组的分布函数分别是)(,),(),(21x F x F x F k ,均为p 元分布函数,对于给定一个新样品x ,要求判断它属于哪一组。
本章将介绍距离判别、贝叶斯(Bayes )判别和典型判别等几种常用的判别分析方法。
5.2距离判别一、马氏距离的概念通常情况下,我们所说的距离一般是指欧氏距离,即p 维欧氏空间p R 中两点),,,(21'=p x x x x 和),,,(21'=p y y y y 之间的平方距离度量为22222112)()()(),(p p y x y x y x y x d -++-+-=(5.2.1)但是在统计学,特别是在多元分析中,有时用欧氏距离显得不太合适,下面我们用一个例子来说明之。
判别分析距离判别分析距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个跖离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设X=(s……以n)'和Y = O1,……,%)'是从期望为|1=(血,……川Q '和方差阵Y= (Ou)>0的总体G抽得的两个观测值,则称X与Y之间的马氏距离为:y mxmd2 =(X-Y)样本X与G,之间的马氏距离定义为X与类重心间的距离,即:9护=(乂一地)丫7(乂一&)i = 1,2・・.・・.,k附注:1、马氏距离与欧式距离的关联:为=1,马氏距离转换为欧式距离;2、马氏距离与欧式距离的差异:马氏距离不受计暈单位的影响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵E相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。
故我们用马氏距离来给定判别规则,有:如/(y, J2(y, G2),<yeGp 如〃2(y, G2)<d2(y9 Gj待判,如=〃2(y,G2)沪(y,Gj=(y 2)' "(y 2)(y J' L(y J=y- 2y为一1角 + “;賞“2 -(y^1y-2y^1 + 冲?如) =2y 0一1 (" - 角)-("i + “2)尸(“i - “2)= 2[y —丫》-“2)2令"=1虽« = Z_1(//1-//2) = (a1,a2,-.-,a p yW(y) = (y - p)U = a f(y一p.)= a1(y1-/z1) + --- + a p(y p-/7p)= a'y _a'ji则前面的判别法则表示为y w Gp 如W (y) > 0,y e G2,如FT (y ) < 0o待判,如W(Y) = 0当忙“2和刀已知时, "1 2)是一个已知的P维向量,W (y)是y的线性函数,称为线性判别函数。
距离判别法、贝叶斯判别法和费歇尔判别法的比较分析距离判别法、贝叶斯判别法和费歇尔判别法是三种常见的判别方法,用于对数据进行分类和判别。
本文将对这三种方法进行比较分析,探讨它们的原理、特点和适用范围,以及各自的优势和局限性。
1. 距离判别法距离判别法是一种基于样本间距离的判别方法。
它的核心思想是通过计算待分类样本与各个已知类别样本之间的距离,将待分类样本归入距离最近的类别。
距离判别法常用的距离度量有欧氏距离、曼哈顿距离和马氏距离等。
优势:- 简单直观,易于理解和实现。
- 不依赖于概率模型,适用于各种类型的数据。
- 对异常值不敏感,具有较好的鲁棒性。
局限性:- 忽略了各个特征之间的相关性,仅考虑样本间的距离,可能导致分类效果不佳。
- 对数据的分布假设较强,对非线性分类问题表现较差。
- 对特征空间中的边界定义不明确。
2. 贝叶斯判别法贝叶斯判别法是一种基于贝叶斯理论的判别方法。
它通过建立样本的概率模型,计算待分类样本的后验概率,将其归入后验概率最大的类别。
贝叶斯判别法常用的模型包括朴素贝叶斯和高斯混合模型等。
优势:- 考虑了样本的先验概率和类条件概率,能够更准确地对样本进行分类。
- 可以灵活应用不同的概率模型,适用范围广。
- 在样本量不充足时,具有较好的鲁棒性和泛化能力。
局限性:- 对特征分布的假设较强,对非线性和非正态分布的数据表现较差。
- 需要估计大量的模型参数,对数据量要求较高。
- 对特征空间中的边界定义不明确。
3. 费歇尔判别法费歇尔判别法是一种基于特征选择的判别方法。
它通过选择能够最好地区分不同类别的特征,建立判别函数进行分类。
费歇尔判别法常用的特征选择准则有卡方检验、信息增益和互信息等。
优势:- 基于特征选择,能够提取最具有判别性的特征,减少了特征维度,提高了分类性能。
- 不对数据分布做假设,适用于各种类型的数据。
- 可以灵活选择不同的特征选择准则,满足不同的需求。
局限性:- 特征选择的结果可能受到特征相关性和重要性的影响,选择不准确会导致分类效果下降。
距离判别法、贝叶斯判别法和费歇尔判别法的异同引言在模式识别领域,判别分析是一种常用的方法,用于将数据样本划分到不同的类别中。
距离判别法、贝叶斯判别法和费歇尔判别法是判别分析中常见的三种方法。
本文将对这三种方法进行比较,探讨它们的异同。
一、距离判别法距离判别法是一种基于距离度量的判别分析方法。
它的基本思想是通过计算样本点与各个类别中心的距离,将样本划分到距离最近的类别中。
常见的距离判别法有欧氏距离判别法和马氏距离判别法。
1. 欧氏距离判别法欧氏距离判别法是一种简单直观的距离判别方法。
它通过计算样本点与各个类别中心之间的欧氏距离,将样本划分到距离最近的类别中。
算法步骤如下: 1. 计算各个类别的中心点,即各个类别样本点的均值向量。
2. 对于给定的待判样本点,计算其与各个类别中心点的欧氏距离。
3. 将待判样本点划分到距离最近的类别中。
2. 马氏距离判别法马氏距离判别法考虑了各个类别的协方差矩阵,相比于欧氏距离判别法更加准确。
它通过计算样本点与各个类别中心之间的马氏距离,将样本划分到距离最近的类别中。
算法步骤如下: 1. 计算各个类别的中心点,即各个类别样本点的均值向量。
2. 计算各个类别的协方差矩阵。
3. 对于给定的待判样本点,计算其与各个类别中心点之间的马氏距离。
4. 将待判样本点划分到距离最近的类别中。
二、贝叶斯判别法贝叶斯判别法是一种基于贝叶斯理论的判别分析方法。
它的基本思想是通过计算后验概率,将样本划分到具有最高后验概率的类别中。
常见的贝叶斯判别法有贝叶斯最小错误率判别法和贝叶斯线性判别法。
1. 贝叶斯最小错误率判别法贝叶斯最小错误率判别法是一种理论上最优的判别方法。
它通过计算后验概率,将样本划分到具有最高后验概率的类别中。
算法步骤如下: 1. 计算各个类别的先验概率。
2. 计算给定样本点在各个类别下的条件概率。
3. 计算给定样本点在各个类别下的后验概率。
4. 将待判样本点划分到具有最高后验概率的类别中。
判别分析距离判别分析距离判别的最直观的想法是计算样品到第i 类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设X =(x 1,……,x n )′和Y =(y 1,……,y m )′是从期望为μ=(μ1,……,μm )′和方差阵∑=(σij )m×m >0的总体G 抽得的两个观测值,则称X 与Y 之间的马氏距离为:d 2=(X −Y )′∑−1(X −Y)样本X 与G i 之间的马氏距离定义为X 与G i 类重心间的距离,即: d 2=(X −μi )′∑−1(X −μi ) i =1,2……,k附注:1、 马氏距离与欧式距离的关联:∑=I ,马氏距离转换为欧式距离;2、 马氏距离与欧式距离的差异:马氏距离不受计量单位的影响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵∑相同的p 维正态总体,对给定的样本Y ,判别一个样本Y 到底是来自哪一个总体,一个最直观的想法是计算Y 到两个总体的距离。
故我们用马氏距离来给定判别规则,有:()()()()ïîïíì=<Î<Î),(),(22121222222121G y d G y d G d G d G G d G d G 如待判,,,如,,,,如,y y y y y y )()()()(),(),(1112121222m m m m -¢---¢-=---y y y y y y SSG d G d 22211y y y μμμ12---'+'-'=∑∑∑--∑'=-)(221μμ1y )()(212μμμμ-∑'+-11)(])([221121y μμμμ-∑'+-=-)2(1111μμμ---∑'+∑'-∑'-11y y y当 μ1、μ2 和∑已知时,是一个已知的p 维向量,W (y )是y 的线性函数,称为线性判别函数。
36. 判别分析(一)基本原理判别分析,是用以判别个体所属类的一种统计方法。
其原理是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用该判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。
判别分析方法通常要给出一个判别指标(判别函数),同时还要指定一种判别规则。
一、距离判别法未知总体的样品x离哪个总体的距离最近,就判断它属于哪个总体。
1. 对于两个正态总体G1, G2距离选用马氏(Mahalanobis)距离:d2(x, G1) = (x-μ1)T∑1-1(x-μ1)d2(x, G2) = (x-μ2)T∑2-1(x-μ2)其中,μ1, μ2, ∑1, ∑2分别为总体G1, G22的均值和协差矩阵。
令W(x) = d2(x, G1) - d2(x, G2)称为判别函数,若∑1=∑2时,W(x)是线性函数,此时称为线性判别;若∑1≠∑2,W(x)是二次函数。
2. 多总体情况设有m个总体:G1, …, G m,其均值、协差阵分别为μi, ∑i. 对给定的样品x,按距离最近的准则对x进行判别归类:首先计算样品x到m个总体的马氏距离d i2(x), 然后进行比较,把x判归距离最小的那个总体,即若d h2(x) = min{ d i2(x) | i = 1,…,m},则x∈G h.二、Fisher线性函数判别法为了方便使用,需要寻找尽量简单的判别函数,其中在Fisher 准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别函数。
图1 Fisher线性判别分析示意图下面以两个总体为例来说明Fisher判别的思想。
设有两个总体G1、G2,其均值分别为μ1和μ2,协方差阵分别∑1和∑2,并假定∑1 = ∑2 = ∑,考虑线性组合:y = L T x。
通过寻求合适的L向量,使得来自两个总体的数据间的距离较大,而来自同一个总体数据间的差异较小。
为此,可以证明,当选L=c∑–1(μ1–μ2),其中c ≠ 0时,所得的投影即满足要求。
第三节Bayes判别本节内容贝叶斯公式最大后验概率准则最小平均误判代价准则Bayes判别的基本方法案例分析距离判别法的缺点第一,把总体等同看待,没有考虑到总体会以1不同的概率出现,认为判别方法与总体各自出现的概率的大小无关。
2第二,判别方法与错判之后所造成的损失无关,没有考虑误判之后所造成的损失差异。
贝叶斯(Bayes)公式贝叶斯统计的基本思想:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布进行,将贝叶斯思想用于判别分析,就得到贝叶斯判别。
某公司新入职雇员小王,小王是好员工还是坏员工大家都在猜测。
按人们先验的主观猜测,新人是好员工或坏员工的概率均为0.5。
坏员工总是无法按时完成工作,偶尔也可以顺利完成;好员工一般都能按时完成任务,但偶尔也会出现工作失误:一般好员工按时完成工作的概率为0.9,坏员工按时完成工作的概率为0.2。
近日,小王按时完成了一项工作任务,请问小王此时是好员工的概率有多大?“先验概率”是一种权重(比例),所谓“先验”,是指我们在抽样以前,就已经知道的 ;贝叶斯判别需要研究的“后验概率”,就是当样本X 已知时,它属于G i 的概率。
()i P G ()i P G X 由此,使用“最大后验概率准则”得到的贝叶斯判别规则为:1,()max ()≤≤∈=l l i i kX G P G X P G X 如果最大后验概率准则没有涉及误判的代价,因此,在各种误判代价明显不同的场合,该准则就失效了。
设有k 个总体 ,其各自的分布密度函数 互不相同,假设k 个总体各自出现的概率分别为 (先验概率), , 。
假设若将本来属于G i 总体的样品错判到总体G j 时造成的损失为, 。
在这样的情形下,对于新的样品X 判断其来自哪个总体。
问题12,,,k G G G ⋅⋅⋅()()()12,,,k f X f X f X ⋅⋅⋅12,,,k q q q ⋅⋅⋅0≥i q 11ki i q ==∑(|)C j i , 1.2,,=⋅⋅⋅i j k显然 、,对于任意的 成立。