距离判别法及其应用
- 格式:doc
- 大小:208.50 KB
- 文档页数:5
判别分析——距离判别、Bayes判别一、距离判别1、距离判别所用DISCRIM过程(一般判别过程)简介常用格式如下:PROC DISCRIM<options>;CLASS variable;V AR variable;RUN;常用语句说明:1.PROC DISCRIM语句语句一般格式:PROC DISCRIM <options>;表示调用DISCRIM过程,开始执行判别分析。
<options>选项一般有如下几类:数据集选项(1)DATA=SAS-data-set:指定分析的数据集,缺省为最新创建数据集;(2)TESTDATA=SAS-data-set:指定待分类的输入观测数据集。
(3)OUT=SAS-data-set:生成输出数据集,包括来自输入数据集的所有数据,后验概率以及每个观测被重复替换后所分入的类。
判别方法选项(1)MEIHOD=NORMAL|NPAR:确定导出分类准则的方法。
当指定方法为NORMAL时,导出的判别函数基于组内总体是正态分布的,而当指定的方法为NPAR时,导出的判别函数基于非参数方法,缺省时系统设定为正态。
(2)POOL=NO|TEST|YES:确定计算平方距离是以合计协方差阵还是组内协方差阵为基础。
缺省时系统规定采用合并协方差阵导出线性判别函数,此时系统暗含假定各组协方差阵相等;POOL=NO采用组内协方差阵导出线性判别函数,暗含假定各组协方差阵不相等;POOL=TEST,对组内协方差阵进行齐性检验,根据检验结果导出判别函数。
其它常用判别方法选项(1)LIST:列出每个观测重复替换分类结果。
(2)WCOV:输出组内协力差阵的估计。
(3)PCOV:合并类内协方差阵估计。
(4)DISTANCE:输出类均值之间的平方距离(5)SIMPLE:输出简单描述统计量。
2. CLASS语句一般格式为:CLASS variable;该语句规定进行判别分析的分类变量,可以是字符型的,也可以是数值型的。
判别分析距离判别分析距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个跖离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设X=(s……以n)'和Y = O1,……,%)'是从期望为|1=(血,……川Q '和方差阵Y= (Ou)>0的总体G抽得的两个观测值,则称X与Y之间的马氏距离为:y mxmd2 =(X-Y)样本X与G,之间的马氏距离定义为X与类重心间的距离,即:9护=(乂一地)丫7(乂一&)i = 1,2・・.・・.,k附注:1、马氏距离与欧式距离的关联:为=1,马氏距离转换为欧式距离;2、马氏距离与欧式距离的差异:马氏距离不受计暈单位的影响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵E相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。
故我们用马氏距离来给定判别规则,有:如/(y, J2(y, G2),<yeGp 如〃2(y, G2)<d2(y9 Gj待判,如=〃2(y,G2)沪(y,Gj=(y 2)' "(y 2)(y J' L(y J=y- 2y为一1角 + “;賞“2 -(y^1y-2y^1 + 冲?如) =2y 0一1 (" - 角)-("i + “2)尸(“i - “2)= 2[y —丫》-“2)2令"=1虽« = Z_1(//1-//2) = (a1,a2,-.-,a p yW(y) = (y - p)U = a f(y一p.)= a1(y1-/z1) + --- + a p(y p-/7p)= a'y _a'ji则前面的判别法则表示为y w Gp 如W (y) > 0,y e G2,如FT (y ) < 0o待判,如W(Y) = 0当忙“2和刀已知时, "1 2)是一个已知的P维向量,W (y)是y的线性函数,称为线性判别函数。
距离判别法贝叶斯判别法和费歇尔判别法的异同距离判别法、贝叶斯判别法和费歇尔判别法是三种常见的分类方法。
它们都是基于已知类别的数据集,通过学习得到一个分类模型,然后用该模型对未知数据进行分类。
虽然它们都属于分类方法,但是它们之间还是存在一些异同点的。
一、距离判别法距离判别法是根据样本之间的距离来进行分类的方法。
具体地说,对于一个未知样本,计算它与每个已知类别中心之间的距离,然后将其归为距离最近的那个类别。
其中“中心”可以是类别内所有样本的平均值或者其他统计量。
优点:1. 简单易懂:距离判别法直观易懂,容易理解。
2. 计算简单:计算样本与中心之间的距离只需要进行简单的数学运算即可。
缺点:1. 对异常值敏感:由于距离判别法是基于样本之间的距离来进行分类,因此如果存在异常值,则可能会影响分类结果。
2. 需要提前确定中心:在使用距离判别法时需要提前确定每个类别的中心,而这个过程可能会比较困难。
二、贝叶斯判别法贝叶斯判别法是一种基于概率的分类方法。
它假设每个类别都服从某种概率分布,然后根据贝叶斯公式计算出每个类别对于给定样本的后验概率,最终将样本归为后验概率最大的那个类别。
优点:1. 可以处理多维特征:与距离判别法不同,贝叶斯判别法可以处理多维特征。
2. 对异常值不敏感:由于贝叶斯判别法是基于概率分布来进行分类的,因此对于一些异常值,它可以通过概率分布来进行修正。
缺点:1. 需要大量数据:由于贝叶斯判别法需要估计每个类别的概率分布,因此需要大量的数据才能得到准确的结果。
2. 对先验概率敏感:在使用贝叶斯判别法时需要提前确定每个类别的先验概率,而这个过程可能会比较困难。
三、费歇尔判别法费歇尔判别法是一种基于方差分析理论的分类方法。
它假设每个类别服从某种概率分布,然后根据方差分析的原理来计算每个类别对于给定样本的“可信度”,最终将样本归为“可信度”最高的那个类别。
优点:1. 可以处理多维特征:与距离判别法不同,费歇尔判别法可以处理多维特征。
距离判别法及实例基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。
距离判别法,对各类(或总体)的分布,并无特定的要求。
1 两个总体的距离判别法设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。
今任取一个样品,实测指标值为),,(1'=p x x X Λ,问X 应判归为哪一类?首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则判别归类,则可写成:⎪⎩⎪⎨⎧=>∈<∈),(),( ,),(),(,),(),(,21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当 G 1总体: G 2总体:记2,1,),,()()(1)(='=i x x Xi p i i Λ如果距离定义采用欧氏距离,则可计算出1(,)D X G ==2(,)D X G ==然后比较),(1G X D 和),(2G X D 大小,按距离最近准则判别归类。
由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。
设)1(μ、)2(μ,)1(∑、)2(∑分别为G 1、G 2的均值向量和协方差矩阵。
如果距离定义采用马氏距离即2,1)()()(),()(1)()(2=-∑'-=-i X X G X D i i i i μμ这时判别准则可分以下两种情况给出: (1)当∑=∑=∑)2()1(时考察),(22G X D 及),(12G X D 的差,就有:)2(1)2()2(1112222),(),(μμμ-'--∑+∑'-∑'=-X X X X G X D G X D]2[)1(1)1()1(11μμμ-'--∑+∑'-∑'-X X X)()()(2)2()1(1)2()1()2()1(1μμμμμμ-∑'+--∑'=--X)()(212)2()1(1)2()1(μμμμ-∑'⎥⎦⎤⎢⎣⎡+-=-X令)(21)2()1(μμμ+=)()()()2()1(1μμμ-∑'-=-X X W则判别准则可写成:⎪⎩⎪⎨⎧==<<∈>>∈),(),(D 0)( ,),(),(D 0)(,),(),(D 0)(,12221222212221G X D G X X W G X D G X X W G X G X D G X X W G X 即当待判即当即当 当)2()1(,,μμ∑已知时,令),,()(1)2()1(1'∆-∑=-p a a a Λμμ则⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡--=-'='-=p p p x x a a X a a X X W μμμμM Λ ),,()()()(111)()(111p p p x a x a μμ-++-=Λ显然,W (X )是p x x ,,1Λ的线性函数,称W (X )为线性判别函数,a 为判别系数。
距离判别法及其应用一、什么是距离判别(一)定义距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。
距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。
(二)作用判别个体所属类型。
例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。
二、距离判别分析原理(一)欧氏距离欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。
大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。
从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。
在二维空间中其公式为:221221)()(y y x x d -+-=推广到n 维空间其公式为:21)(1i n i i y x d -=∑=(二)马氏距离在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。
设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本T m i x x x X },...,,{21=。
令μ=E(i X )(i=1,2, …,m),则总体均值向量为T m },,{21μμμμ⋅⋅⋅=。
总体G 的协方差矩阵为:]))([()(T G G E G COV μμ--==∑。
设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为:)()(),(12Y X Y X Y X d T -∑-=-样本X 与总体G 的马氏距离的平方定义为:)()(),(12μμ-∑-=-X X G X d T1.两总体距离判别。
距离判别法、贝叶斯判别法和费歇尔判别法的比较分析距离判别法、贝叶斯判别法和费歇尔判别法是三种常见的判别方法,用于对数据进行分类和判别。
本文将对这三种方法进行比较分析,探讨它们的原理、特点和适用范围,以及各自的优势和局限性。
1. 距离判别法距离判别法是一种基于样本间距离的判别方法。
它的核心思想是通过计算待分类样本与各个已知类别样本之间的距离,将待分类样本归入距离最近的类别。
距离判别法常用的距离度量有欧氏距离、曼哈顿距离和马氏距离等。
优势:- 简单直观,易于理解和实现。
- 不依赖于概率模型,适用于各种类型的数据。
- 对异常值不敏感,具有较好的鲁棒性。
局限性:- 忽略了各个特征之间的相关性,仅考虑样本间的距离,可能导致分类效果不佳。
- 对数据的分布假设较强,对非线性分类问题表现较差。
- 对特征空间中的边界定义不明确。
2. 贝叶斯判别法贝叶斯判别法是一种基于贝叶斯理论的判别方法。
它通过建立样本的概率模型,计算待分类样本的后验概率,将其归入后验概率最大的类别。
贝叶斯判别法常用的模型包括朴素贝叶斯和高斯混合模型等。
优势:- 考虑了样本的先验概率和类条件概率,能够更准确地对样本进行分类。
- 可以灵活应用不同的概率模型,适用范围广。
- 在样本量不充足时,具有较好的鲁棒性和泛化能力。
局限性:- 对特征分布的假设较强,对非线性和非正态分布的数据表现较差。
- 需要估计大量的模型参数,对数据量要求较高。
- 对特征空间中的边界定义不明确。
3. 费歇尔判别法费歇尔判别法是一种基于特征选择的判别方法。
它通过选择能够最好地区分不同类别的特征,建立判别函数进行分类。
费歇尔判别法常用的特征选择准则有卡方检验、信息增益和互信息等。
优势:- 基于特征选择,能够提取最具有判别性的特征,减少了特征维度,提高了分类性能。
- 不对数据分布做假设,适用于各种类型的数据。
- 可以灵活选择不同的特征选择准则,满足不同的需求。
局限性:- 特征选择的结果可能受到特征相关性和重要性的影响,选择不准确会导致分类效果下降。
一、统计学方法1.1 多元回归1、方法概述:在研究变量之间的相互影响关系模型时候,用到这类方法,具体地说:其可以定量地描述某一现象和某些因素之间的函数关系,将各变量的已知值带入回归方程可以求出因变量的估计值,从而可以进行预测等相关研究。
2、分类分为两类:多元线性回归和非线性线性回归;其中非线性回归可以通过一定的变化转化为线性回归,比如:y=lnx 可以转化为y=u u=lnx 来解决;所以这里主要说明多元线性回归应该注意的问题。
3、注意事项在做回归的时候,一定要注意两件事:(1)回归方程的显著性检验(可以通过sas 和spss 来解决)(2)回归系数的显著性检验(可以通过sas 和spss 来解决)检验是很多学生在建模中不注意的地方,好的检验结果可以体现出你模型的优劣,是完整论文的体现,所以这点大家一定要注意。
4、使用步骤:(1)根据已知条件的数据,通过预处理得出图像的大致趋势或者数据之间的大致关系;(2)选取适当的回归方程;(3)拟合回归参数;(4)回归方程显著性检验及回归系数显著性检验(5)进行后继研究(如:预测等)1.2 聚类分析1、方法概述该方法说的通俗一点就是,将n个样本,通过适当的方法(选取方法很多,大家可以自行查找,可以在数据挖掘类的书籍中查找到,这里不再阐述)选取m 聚类中心,通过研究各样本和各个聚类中心的距离Xij,选择适当的聚类标准,通常利用最小距离法(一个样本归于一个类也就意味着,该样本距离该类对应的中心距离最近)来聚类,从而可以得到聚类结果,如果利用sas 软件或者spss 软件来做聚类分析,就可以得到相应的动态聚类图。
这种模型的的特点是直观,容易理解。
2、分类聚类有两种类型:(1)Q型聚类:即对样本聚类;(2)R型聚类:即对变量聚类;通常聚类中衡量标准的选取有两种:(1)相似系数法(2)距离法聚类方法:(1)最短距离法(2)最长距离法(3)中间距离法(4)重心法(5)类平均法(6)可变类平均法(7)可变法(8)利差平均和法在具体做题中,适当选区方法;3、注意事项在样本量比较大时,要得到聚类结果就显得不是很容易,这时需要根据背景知识和相关的其他方法辅助处理。
距离判别法、贝叶斯判别法和费歇尔判别法的异同引言在模式识别领域,判别分析是一种常用的方法,用于将数据样本划分到不同的类别中。
距离判别法、贝叶斯判别法和费歇尔判别法是判别分析中常见的三种方法。
本文将对这三种方法进行比较,探讨它们的异同。
一、距离判别法距离判别法是一种基于距离度量的判别分析方法。
它的基本思想是通过计算样本点与各个类别中心的距离,将样本划分到距离最近的类别中。
常见的距离判别法有欧氏距离判别法和马氏距离判别法。
1. 欧氏距离判别法欧氏距离判别法是一种简单直观的距离判别方法。
它通过计算样本点与各个类别中心之间的欧氏距离,将样本划分到距离最近的类别中。
算法步骤如下: 1. 计算各个类别的中心点,即各个类别样本点的均值向量。
2. 对于给定的待判样本点,计算其与各个类别中心点的欧氏距离。
3. 将待判样本点划分到距离最近的类别中。
2. 马氏距离判别法马氏距离判别法考虑了各个类别的协方差矩阵,相比于欧氏距离判别法更加准确。
它通过计算样本点与各个类别中心之间的马氏距离,将样本划分到距离最近的类别中。
算法步骤如下: 1. 计算各个类别的中心点,即各个类别样本点的均值向量。
2. 计算各个类别的协方差矩阵。
3. 对于给定的待判样本点,计算其与各个类别中心点之间的马氏距离。
4. 将待判样本点划分到距离最近的类别中。
二、贝叶斯判别法贝叶斯判别法是一种基于贝叶斯理论的判别分析方法。
它的基本思想是通过计算后验概率,将样本划分到具有最高后验概率的类别中。
常见的贝叶斯判别法有贝叶斯最小错误率判别法和贝叶斯线性判别法。
1. 贝叶斯最小错误率判别法贝叶斯最小错误率判别法是一种理论上最优的判别方法。
它通过计算后验概率,将样本划分到具有最高后验概率的类别中。
算法步骤如下: 1. 计算各个类别的先验概率。
2. 计算给定样本点在各个类别下的条件概率。
3. 计算给定样本点在各个类别下的后验概率。
4. 将待判样本点划分到具有最高后验概率的类别中。
36. 判别分析(一)基本原理判别分析,是用以判别个体所属类的一种统计方法。
其原理是根据已掌握的一批分类明确的样品,建立一个较好的判别函数,使得用该判别函数进行判别时错判事例最少,进而能用此判别函数对给定的一个新样品判别它来自哪个总体。
判别分析方法通常要给出一个判别指标(判别函数),同时还要指定一种判别规则。
一、距离判别法未知总体的样品x离哪个总体的距离最近,就判断它属于哪个总体。
1. 对于两个正态总体G1, G2距离选用马氏(Mahalanobis)距离:d2(x,G1) = (x-μ1)T∑1-1(x-μ1)d2(x,G2) = (x-μ2)T∑2-1(x-μ2)其中,μ1, μ2, ∑1, ∑2分别为总体G1, G22的均值和协差矩阵。
令W(x) = d2(x,G1) - d2(x,G2)称为判别函数,若∑1=∑2时,W(x)是线性函数,此时称为线性判别;若∑1≠∑2,W(x)是二次函数。
2. 多总体情况设有m个总体:G1, …, G m,其均值、协差阵分别为μi, ∑i. 对给定的样品x,按距离最近的准则对x进行判别归类:首先计算样品x到m个总体的马氏距离d i2(x), 然后进行比较,把x判归距离最小的那个总体,即若d h2(x) = min{ d i2(x) | i = 1,…,m},则x∈G h.二、Fisher线性函数判别法为了方便使用,需要寻找尽量简单的判别函数,其中在Fisher 准则下的线性判别函数就是只利用总体的一、二阶矩就可求得的判别函数。
图1 Fisher线性判别分析示意图下面以两个总体为例来说明Fisher判别的思想。
设有两个总体G1、G2,其均值分别为μ1和μ2,协方差阵分别∑1和∑2,并假定∑1 = ∑2 = ∑,考虑线性组合:y = L T x。
通过寻求合适的L向量,使得来自两个总体的数据间的距离较大,而来自同一个总体数据间的差异较小。
为此,可以证明,当选L=c∑–1(μ1–μ2),其中c ≠ 0时,所得的投影即满足要求。
Matlab距离判别法一、引言距离判别法是一种常用的模式识别方法,通过计算不同类别样本之间的距离来判别新样本的类别。
在Matlab中,我们可以使用距离判别法来解决各种分类问题。
本文将详细介绍Matlab距离判别法的原理、实现步骤以及应用案例。
二、距离判别法原理距离判别法是一种基于距离度量的分类方法。
其核心思想是:对于给定的样本集合,计算待分类样本与每个类别样本之间的距离,然后将待分类样本划分到与其距离最近的类别中。
常用的距离度量方法包括欧氏距离、曼哈顿距离、切比雪夫距离等。
三、距离判别法的实现步骤在Matlab中,我们可以按照以下步骤实现距离判别法:1. 数据准备首先,我们需要准备好用于分类的样本数据。
通常,样本数据包括特征向量和类别标签两部分。
特征向量描述了样本的特征信息,类别标签表示了样本所属的类别。
2. 计算距离接下来,我们需要计算待分类样本与每个类别样本之间的距离。
在Matlab中,可以使用pdist2函数来计算两个矩阵之间的距离。
该函数支持多种距离度量方法,如欧氏距离、曼哈顿距离等。
3. 判别分类根据计算得到的距离,我们可以将待分类样本划分到与其距离最近的类别中。
通常,我们可以选择距离最小的类别作为判别结果。
4. 评估分类结果最后,我们需要评估距离判别法的分类结果。
可以使用各种性能评估指标,如准确率、召回率、F1值等,来衡量分类器的性能。
四、距离判别法的应用案例距离判别法在实际应用中具有广泛的应用。
下面以一个简单的案例来说明距离判别法的应用过程。
案例背景假设我们有一个花卉数据集,包含三种不同的花卉样本:山鸢尾、变色鸢尾和维吉尼亚鸢尾。
每个样本都有四个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。
数据准备首先,我们需要将花卉数据集准备好。
可以使用Matlab内置的数据集iris来获取花卉数据。
该数据集包含150个样本,每个样本有四个特征和一个类别标签。
计算距离接下来,我们可以使用pdist2函数来计算待分类样本与每个类别样本之间的距离。
马氏距离判别法马氏距离判别法是一种常见的分类算法,其基本思想是利用样本均值和协方差矩阵来计算样本之间的马氏距离,从而将不同类别的样本进行分类。
在实际应用中,马氏距离判别法常被用于模式识别、数据挖掘、图像处理等领域。
一、基本概念1. 马氏距离马氏距离是一种度量两个随机向量之间的距离的方法。
它考虑了各个分量之间的相关性,并且可以被看作是两个随机向量在协方差矩阵下的欧几里得距离。
2. 样本均值样本均值是指一个样本集合中所有数据的平均值。
在马氏距离判别法中,每个类别都有一个对应的样本均值。
3. 协方差矩阵协方差矩阵描述了不同维度之间的相关性。
它可以告诉我们一个变量与其他变量之间如何相互影响,并且可以被用来计算马氏距离。
二、算法流程1. 计算每个类别的样本均值和协方差矩阵首先,需要对每个类别的样本进行统计分析,计算出每个类别的样本均值和协方差矩阵。
这些统计量可以用来描述每个类别的数据分布情况。
2. 计算马氏距离对于一个新的样本,需要计算它与每个类别的样本均值之间的马氏距离。
马氏距离越小,则说明这个新样本越可能属于该类别。
3. 判别分类根据马氏距离大小,将新样本判定为属于其中一个类别。
三、优缺点1. 优点(1)考虑了各个特征之间的相关性,能够更准确地区分不同类别之间的数据;(2)适用于多维度数据处理,并且对异常值具有一定鲁棒性。
2. 缺点(1)需要计算每个类别的协方差矩阵,当特征维度较高时,计算复杂度较高;(2)对于不同类别之间具有相同特征分布情况时,效果不佳;(3)对于非正态分布或者存在噪声影响时,效果也不佳。
四、应用实例1. 图像分类马氏距离判别法可以被用于图像分类领域。
通过计算样本均值和协方差矩阵来描述每个类别的图像特征分布情况,从而实现对不同类别的图像进行分类。
2. 数据挖掘在数据挖掘领域,马氏距离判别法可以被用于异常检测和聚类分析等任务中。
通过计算不同样本之间的马氏距离来识别异常数据,并且可以将相似的数据进行聚类。
距离判别法及其应用
一、什么是距离判别
(一)定义
距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。
距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。
(二)作用
判别个体所属类型。
例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。
二、距离判别分析原理
(一)欧氏距离
欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。
大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。
从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。
在二维空间中其公式为:
221221)()(y y x x d -+-=
推广到n 维空间其公式为:
21)
(1i n i i y x d -=∑=
(二)马氏距离
在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。
设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本
T m i x x x X },...,,{21=。
令μ=E(i X )(i=1,2, …,m),则总体均值向量为
T m },,{21μμμμ⋅⋅⋅=。
总体G 的协方差矩阵为:
]))([()(T G G E G COV μμ--==∑。
设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为:
)()(),(12Y X Y X Y X d T -∑-=-
样本X 与总体G 的马氏距离的平方定义为:
)()(),(12μμ-∑-=-X X G X d T
1.两总体距离判别。
设有两总体1G 和2G 的均值分别为1μ和2μ,协方差矩阵分别为1∑和2∑(1∑,2∑>0),1⨯m X 是一个新样本,判断其
属于哪个总体。
定义1⨯m X 到1G 和2G 的距离为),(12G X d 和
),(22G X d ,则按如下判别规则进行判断:
1G X ∈,若),(12G X d ≤),(22G X d
2G X ∈,若),(22G X d ﹤),(12G X d
(1)当1∑=2∑时,该判别式可进行如下简化:
),(12G X d -),(22G X d =)()(111μμ-∑--X X T -)()(212μμ-∑--X X T
=-2)(221121μμμμ-∑⎪⎭⎫ ⎝
⎛+--T
X =)(2μ--X A T 其中)(2
121μμμ+=,)(211μμ-∑=-A 注意到实数的转置等于实数自身,故有
)(221121μμμμ-∑⎪⎭⎫ ⎝⎛+--T
X =()⎪⎭⎫ ⎝⎛+--∑-2)(21211μμμμX T 令
)()(μ-=X A X W T ,则判别规则就成为: 1G X ∈,若)(X W 0≥
2G X ∈,若)(X W ﹤0
在实际问题中,由于总体的均值、协方差矩阵通常是未知的,数据资料来自两个总体的训练样本,于是用样本的均值、样本的协方差矩阵代替总体的均值与协方差。
由于实际问题中只能得到两个样本的协方差矩阵1S ,2S ,因此当两个
总体协方差矩阵相等时如何确定总体的协方差矩阵S
2
)1()1(212211-+-+-=n n S n S n S
其中n1,n2分别为两个样本的容量。
(2)当1∑≠2∑时, ),(),()(2212G X d G X d X W -=
)()()()(21221111μμμμ-∑---∑-=-
-X X X X T T
判别规则为:
1G X ∈,若)(X W 0≥
2G X ∈,若)(X W ﹤0
例.设有两个二元总体G1和G2,从中分别抽取样本计算得到 ⎪⎪⎭⎫ ⎝⎛=∑⎪⎪⎭⎫ ⎝⎛-=⎪⎪⎭⎫ ⎝⎛=6.71.21.28.5ˆ,23,15)2()1(p X X
假设21∑=∑,试用距离判别法建立判别函数和规则。
样品T X )0,6(=应属于哪个总体。
解:)()'(),(111
12μμ-∑-=-X X G X D ⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-=-)1,5()0,6(6.71.21.28.5))1,5()0,6((1
4436602.0116.71.21.28.5)1,1(1=⎪⎪⎭
⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛-=- 673809.1)()'(),(212
22=-∑-=-μμX X G X D
由于),(22G X D >),(12G X D 所以X 属于1G 。
2.多总体的距离判别。
设有g 个m 维总体1G ,2G ,…,g G ,均值向量分别为1μ,2μ,…g μ,协方差矩阵分别为1∑,2∑,…,g ∑,则样本X 到各组的平方马氏距离是:
)()(),(12ααααμμ-∑-=-X X G X d T ,α=1,2,…g
判别规则为:i G X ∈ ,若),(min ),(212j g
j i G X d G X d ≤≤=
三、距离判别法的应用
距离判别法可以应用于医学、建设、环境、城镇规划等多个领域的工程项目中。
如距离判别法在类风湿性关节炎中医证候诊断中的应用,距离判别法相似矿区突水水源识别中的应用,在大气环境质量现状评价中的应用以及在城镇土地定级中的应用等。
在实际工程中,经常采用多总体的距离判断。
设有g 个m 维总体1G ,2G ,…,g G ,均值向量分别为1μ,2μ,…g μ,协方差矩阵分别为1∑,2∑,…,g ∑,任意给定一个m 维样本T m x x x X },...,,{21=。
假设1∑=2∑=…=g ∑=∑,则新样本到各j G 和i G 的马氏距离平方差为
)()](21[2),(),(12
2j i T j i i j x G x d G x d μμμμ-∑+-=--, 令)()](2
1[)(1j i T j i ij x x W μμμμ-∑+-=-。
利用各总体的训练样本对i μ和i ∑(i=1,2,…g )进行估计。
设)(1k x ,
)(2k x ,…,)(k nk x 为来自总体K G 的训练样本(k=1,2,…,g ),令
∑==k k n i k i n k x 1)(1ˆμ
(k=1,2,…,g ) T
k k i k n i k i k x x x x S k ))(()()()(1
)(∑== (k=1,2,…,g ) 利用k S 对∑的联合估计为
))(/(1ˆ21g S S S g n +⋯++-=∑
其中∑==g i i n
n 1,即训练样本的总数。