Bayes判别
- 格式:doc
- 大小:566.50 KB
- 文档页数:39
bayes判别法Bayes判别法Bayes判别法是一种基于贝叶斯定理的分类方法,它通过计算样本在各个类别下的后验概率来进行分类。
Bayes判别法在模式识别、机器学习和统计学等领域中得到了广泛应用。
一、贝叶斯定理贝叶斯定理是概率论中的一个重要定理,它描述了在已知某些条件下,某个事件发生的概率。
假设A和B是两个事件,P(A)和P(B)分别表示它们各自发生的概率,则有:P(A|B)=P(B|A)×P(A)/P(B)其中,P(A|B)表示在事件B发生的条件下事件A发生的概率,称为后验概率;P(B|A)表示在事件A发生的条件下事件B发生的概率,称为似然函数;P(A)和P(B)分别表示事件A和事件B独立发生的概率。
二、Bayes判别法原理Bayes判别法是一种基于贝叶斯定理的分类方法。
假设有n个样本,每个样本可以被分为k类。
对于一个新样本x,我们需要将其归入其中一类。
Bayes判别法采用后验概率最大化准则进行分类,即将x归为后验概率最大的那一类。
具体地,对于一个新样本x,我们需要计算其在每个类别下的后验概率P(ci|x),然后将x归为后验概率最大的那一类。
其中,ci表示第i类。
根据贝叶斯定理,我们可以将P(ci|x)表示为:P(ci|x)=P(x|ci)×P(ci)/P(x)其中,P(x|ci)表示在第i类下样本x出现的概率,称为类条件概率;P(ci)表示第i类出现的概率,称为先验概率;P(x)表示样本x出现的概率。
由于对于一个新样本来说,其出现的概率是相同的,因此可以忽略分母部分。
因此,我们只需要比较每个类别下的P(x|ci)×P(ci),并选择最大值所对应的类别作为分类结果。
三、Bayes判别法实现Bayes判别法可以通过训练样本来估计先验概率和类条件概率。
具体地,在训练阶段中,我们需要统计每个类别下每个特征取值出现的次数,并计算相应的先验概率和类条件概率。
具体地:1. 先验概率先验概率指在没有任何信息或者证据的情况下,每个类别出现的概率。
判别分析判别分析是用以判别个体所属群体的一种统计方法。
最常用的判别方法:距离判别法、Bayes 判别法、Fisher 判别法。
1、距离判别法最为直观,其想法简单自然,就是计算新样品x 到各组的距离,然后将该样品判为离它距离最近的那一组。
定义:设组π的均值为μ,协方差矩阵为∑,x 是一个样品(样本),称()()μμπ-∑'-=-x x x d 1),(为x 到总体π的马氏距离或统计距离。
判别准则:不妨假设有k 组,记为k ππ...1,,均值分别为k μμ...1,,协方差矩阵分别为k ∑∑...,1,,若),(min ),(212i ki l x d x d ππ≤≤=,则判断x 来自第l 组。
注1:若k ∑==∑...1,上述准则可以化简,如果不确定是否相等,可两种情况都试试,那种规则误判概率小选哪种。
注2:实际中k μμ...1,以及k ∑∑...,1,均未知,用估计量代替。
2、Bayes 判别法(1)最大后验概率准则设有k 个组k ππ...1,,且组i π的概率密度为()x f i ,样品x 来自组i π的先验概率为,,...,1,k i p i =且.11=∑=ki i p 利用Bayes 理论,x 属于i π的后验概率(即当样品x 已知时,它属于i π的先验概率)为()().,...,2,1,)(1k i x f p x f p x P k j j j i i i ==∑=π最大后验概率法是采用如下的判别规则:()x P x P x l ji l l πππ≤≤=∈1max )(,若. (2)最小平均误判代价准则()()()()∑∑≠=≤≤≠==∈ki j j j j k i j k l j j j l j i c x f p j l c x f p x 111m i n ,若π,其中)(j i c 表示将来自j π的x 判为i π的代价。
例:设有321,,πππ三个组,欲判别某样品0x 属于何组,已知()()().4.2,63.0,10.0,30.0,65.0,05.0030201321======x f x f x f p p p 计算:()()004.04.230.063.065.010.005.010.005.0)(1111=⨯+⨯+⨯⨯==∑=k j j j x f p x f p x P π ()361.02=x P π()635.03=x P π假定误判代价矩阵为95.4110063.065.020010.005.0:305.36504.230.01010.005.0:239.51604.230.02063.065.0:1=⨯⨯+⨯⨯==⨯⨯+⨯⨯==⨯⨯+⨯⨯=l l l 3、Fisher 判别基本思想:先对原始数据进行降维,然后对新数据使用距离判别法进行判别。
例:研究某年全国各地区农民家庭收支的分布规律,根据抽样调查资料进行分类,共抽取28个省、市、自治区的六个指标数据。
先采用聚类分析,将28个省、市、自治区分为三组。
北京、上海、广州3个城市属于待判样本。
(家庭收支.sav)1.选中判别分析,2.选择Fisher 即bayes判别分析方法,易混!!!3.确定组别4. 选择保存结果5. 模型检验(即判别准确率)重要结果分类函数系数类别1 2 3食品.480 .473 .429 衣着 1.612 1.354 .933 燃料 2.421 2.189 .777 住房.555 .335 .052 用品及其它 1.032 .580 .847 文化支出 5.387 5.446 4.317(常量) -117.620 -89.052 -53.616Fisher 的线性判别式函数按照案例顺序的统计量案例数目实际组最高组第二最高组判别式得分预测组P(D>d |G=g)P(G=g| D=d)到质心的平方Mahalanobis距离组P(G=g| D=d)到质心的平方Mahalanobis距离函数1函数2 p df初始 1 1 1 .320 2 1.000 2.282 2 .000 22.754 3.163 -2.7172 1 1 .799 2 1.000 .449 2 .000 17.611 3.559 -1.6593 1 2**.095 2 .688 4.705 1 .312 6.283 2.737 1.2754 1 1 .797 2 .984 .453 2 .016 8.670 2.855 -.5695 1 1 .504 2 1.000 1.372 2 .000 20.770 4.205 -1.4616 1 1 .313 2 .996 2.321 2 .004 13.305 1.847 -2.1317 2 2 .788 2 .986 .476 1 .011 9.482 .566 .5958 2 2 .405 2 .992 1.806 1 .008 11.456 1.756 1.9139 2 2 .532 2 .987 1.263 1 .013 9.942 1.645 1.60710 2 2 .451 2 .999 1.593 1 .001 15.008 1.358 2.26911 2 2 .826 2 .984 .383 1 .015 8.758 .816 .71812 2 2 .769 2 .994 .524 1 .006 10.742 1.252 1.52313 2 2 .378 2 .861 1.945 3 .139 5.594 -.611 .53914 2 2 .219 2 .639 3.034 3 .361 4.179 -1.036 .60515 2 2 .304 2 .941 2.379 3 .059 7.903 -.943 1.59616 2 2 .935 2 .997 .134 1 .003 12.046 .874 1.48517 3 3 .387 2 .994 1.899 2 .006 12.039 -1.570 -1.44818 3 3 .801 2 1.000 .443 2 .000 19.449 -3.157 -1.07619 3 3 .413 2 .991 1.767 2 .009 11.104 -1.531 -1.30320 3 3 .570 2 .984 1.124 2 .016 9.398 -1.635 -.84721 3 3 .880 2 .997 .255 2 .003 11.791 -2.562 -.12822 3 3 .826 2 .993 .383 2 .007 10.155 -2.282 -.14023 3 3 .130 2 1.000 4.077 2 .000 29.305 -4.643 -.18324 3 3 .078 2 .995 5.095 2 .005 15.558 -3.369 1.52625 3 3 .323 2 1.000 2.260 2 .000 25.638 -3.294 -1.98926 未分组的1 .0002 1.000 20.223 2 .000 62.899 7.054 -3.27827 未分组的1 .0002 1.000 82.160 2 .000 150.236 11.796 -3.63028 未分组的1 .0052 1.000 10.431 2 .000 25.808 5.621 .759交叉验证a 1 1 1 .349 6 1.000 6.707 2 .000 27.3012 1 1 .025 6 .999 14.400 2 .001 29.4123 1 2**.087 6 1.000 11.051 1 .000 37.7404 1 1 .233 6 .900 8.064 2 .100 12.4595 1 1 .136 6 1.000 9.738 2 .000 28.7186 1 1 .182 6 .975 8.851 2 .025 16.1797 2 2 .249 6 .945 7.850 1 .043 14.0428 2 2 .734 6 .984 3.575 1 .016 11.8079 2 2 .039 6 .880 13.285 1 .120 17.26810 2 2 .078 6 .996 11.349 1 .004 22.46511 2 2 .701 6 .967 3.819 1 .031 10.68312 2 2 .461 6 .984 5.669 1 .016 13.90313 2 3**.129 6 .703 9.898 2 .297 11.62214 2 3**.444 6 .684 5.820 2 .316 7.36815 2 2 .123 6 .635 10.047 3 .365 11.15116 2 2 .000 6 .878 35.006 1 .121 38.97317 3 3 .114 6 .955 10.252 2 .044 16.40718 3 3 .925 6 1.000 1.939 2 .000 20.37119 3 3 .288 6 .959 7.373 2 .041 13.67820 3 3 .652 6 .963 4.186 2 .037 10.70721 3 3 .526 6 .991 5.139 2 .009 14.63422 3 3 .834 6 .986 2.792 2 .014 11.30223 3 3 .101 6 1.000 10.616 2 .000 39.41124 3 3 .018 6 .917 15.261 2 .083 20.05725 3 3 .268 6 1.000 7.611 2 .000 32.555对初始数据来说,平方Mahalanobis 距离基于典则函数。
判别分析——距离判别、Bayes判别一、距离判别1、距离判别所用DISCRIM过程(一般判别过程)简介常用格式如下:PROC DISCRIM<options>;CLASS variable;V AR variable;RUN;常用语句说明:1.PROC DISCRIM语句语句一般格式:PROC DISCRIM <options>;表示调用DISCRIM过程,开始执行判别分析。
<options>选项一般有如下几类:数据集选项(1)DATA=SAS-data-set:指定分析的数据集,缺省为最新创建数据集;(2)TESTDATA=SAS-data-set:指定待分类的输入观测数据集。
(3)OUT=SAS-data-set:生成输出数据集,包括来自输入数据集的所有数据,后验概率以及每个观测被重复替换后所分入的类。
判别方法选项(1)MEIHOD=NORMAL|NPAR:确定导出分类准则的方法。
当指定方法为NORMAL时,导出的判别函数基于组内总体是正态分布的,而当指定的方法为NPAR时,导出的判别函数基于非参数方法,缺省时系统设定为正态。
(2)POOL=NO|TEST|YES:确定计算平方距离是以合计协方差阵还是组内协方差阵为基础。
缺省时系统规定采用合并协方差阵导出线性判别函数,此时系统暗含假定各组协方差阵相等;POOL=NO采用组内协方差阵导出线性判别函数,暗含假定各组协方差阵不相等;POOL=TEST,对组内协方差阵进行齐性检验,根据检验结果导出判别函数。
其它常用判别方法选项(1)LIST:列出每个观测重复替换分类结果。
(2)WCOV:输出组内协力差阵的估计。
(3)PCOV:合并类内协方差阵估计。
(4)DISTANCE:输出类均值之间的平方距离(5)SIMPLE:输出简单描述统计量。
2. CLASS语句一般格式为:CLASS variable;该语句规定进行判别分析的分类变量,可以是字符型的,也可以是数值型的。
实验十一Bayes判别实验目的和要求掌握Bayes判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS过程解决有关实际问题.实验要求:编写程序,结果分析.实验内容:5.4 5.5 选一题data examp5_4。
input group $ x1-x7 @@。
cards。
G1 6.6 39 1.0 6.0 6 0.12 20G1 6.6 39 1.0 6.0 12 0.12 20G1 6.1 47 1.0 6.0 6 0.08 12G1 6.1 47 1.0 6.0 12 0.08 12G1 8.4 32 2.0 7.5 19 0.35 75G1 7.2 6 1.0 7.0 28 0.30 30G1 8.4 113 3.5 6.0 18 0.15 75G1 7.5 52 1.0 6.0 12 0.16 40G1 7.5 52 3.5 7.5 6 0.16 40G1 8.3 113 0.0 7.5 35 0.12 180G1 7.8 172 1.0 3.5 14 0.21 45G1 7.8 172 1.5 3.0 15 0.21 45G2 8.4 32 2.0 9.0 10 0.35 75 G2 8.4 32 2.5 4.0 10 0.35 75 G2 6.3 11 4.5 7.5 3 0.20 15 G2 7.0 8 4.5 4.5 9 0.25 30 G2 7.0 8 6.0 7.5 4 0.25 30 G2 7.0 8 1.5 6.0 1 0.25 30 G2 8.3 161 1.5 4.0 4 0.08 70 G2 8.3 161 0.5 2.5 1 0.08 70 G2 7.2 6 3.5 4.0 12 0.30 30 G2 7.2 6 1.0 3.0 3 0.30 30 G2 7.2 6 1.0 6.0 5 0.30 30 G2 5.5 6 2.5 3.0 7 0.18 18 G2 8.4 113 3.5 4.5 6 0.15 75 G2 8.4 113 3.5 4.5 8 0.15 75 G2 7.5 52 1.0 6.0 6 0.16 40 G2 7.5 52 1.0 7.5 8 0.16 40 G2 8.3 97 0.0 6.0 5 0.15 180 G2 8.3 97 2.5 6.0 5 0.15 180 G2 8.3 89 0.0 6.0 10 0.16 180 G2 8.3 56 1.5 6.0 13 0.25 180 G2 7.8 172 1.0 3.5 6 0.21 45run。
§5.2Bayes 判别1. Bayes 判别的基本思想假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别.2. 两个总体的Bayes 判别 (1) 基本推导设概率密度为1()f x 和2()f x 的p 维总体12,G G 出现的先验概率为1122(),()p P G p P G ==(121p p +=)先验概率的取法: (i) 1212p p ==, (ii) 12121212,n n p p n n n n ==++,一个判别法 = 一个划分=12(,)R R =R1212,,p R R R R =⋃=⋂=∅R距离判别中112212{|(,)(,)}{|(,)(,)}R d G d G R d G d G =≤=>x x x x x x判别R 下的误判情况讨论21(2|1,)()d R P f =⎰R x x ,或12(1|2,)()d R P f =⎰R x x代价分别记为(2|1),(1|2),(1|1)0,(2|2)0c c c c ==, 在得新x 后, 后验概率为1111122()(|)()()p f P G p f p f =+x x x x2221122()(|)()()p f P G p f p f =+x x x x(i) 当(1|2)(2|1)c c c ==时, 最优划分是112212{:(|)(|)}{:(|)(|))}R P G P G R P G P G =≥⎧⎨=<⎩x x x x x x 两个总体的Bayes 的判别准则112212,(|)(|),(|)(|)G if P G P G G if P G P G ∈≥⎧⎨∈<⎩x x x x x x 此时, 有最小的误判概率*12(2|1,)(1|2,)p p P p P =+R R .因为21*1122()d ()d R R p p f p f =+⎰⎰x x x x111122(1()d )()d R R p f p f =-+⎰⎰x x x x()112211()()d R p p f p f =+-⎰x x x只有取12211{:()()}R p f p f =≤x x x 时, 才有最小. (ii) 当(1|2)(2|1)c c ≠时对1G 的误判平均损失: (1,)(2|1)(2|1,)l c P R =R , 对2G 的误判平均损失:(2,)(1|2)(1|2,)l c P R =R , 对整个误判的平均损失:12(1,)(2,)L p l p l =+R R12(2|1)(2|1,)(1|2)(1|2,)c p P R c p P R =⋅⋅+⋅⋅可证使L 最小的最优划分是1112221122{:(2|1)()(1|2)()}{:(2|1)()(1|2)()}R c p f c p f R c p f c p f =≥⎧⎨=<⎩x x x x x x 或112212{:(2|1)(|)(1|2)(|)}{:(2|1)(|)(1|2)(|))}R c P G c P G R c P G c P G =≥⎧⎨=<⎩x x x x x x 当12p p =时, 有112212{:(2|1)()(1|2)()}{:(2|1)()(1|2)()}R c f c f R c f c f =≥⎧⎨=<⎩x x x x x x 当12p p =, 且时(1|2)(2|1)c c c ==, 有 112212{:()()}{:()()}R f f R f f =≥⎧⎨=<⎩x x x x x x 相当于经典统计学中的似然比准则判别.(2) 两个正态总体的Bayes 判别 1) 12==ΣΣΣ的判别112212,()(),()()G if W W G if W W ∈≥⎧⎨∈<⎩x x x x x x 其中111222(),()T TW b W b ++x a x x a x ,及 111111111,2ln TT T b p --+-a μΣμΣμ122122221,2ln T T T b p --+-a μΣμΣμ 实用中, 用样本均值和样本协方差阵代.替.当1212p p ==时, 与距离判别等价. 如用后验概率来判别(或其估计), 则有112212,(|)(|),(|)(|)G if P G P G G if P G P G ∈≥⎧⎨∈≥⎩x x x x x x .1) 12≠ΣΣ的判别与距离判别的区别为广义平方距离函数21111111()()()ln 2ln((2|1))T d c p -=--+-x x μΣx μΣ,21222222()()()ln 2ln((1|2))T d c p -=--+-x x μΣx μΣ推导过程略.当 “三同”时, 与距离判别一样.(3) 误判概率的计算在12==ΣΣΣ下, 作简要讨论. 用广义距离2221()()d d -x x 可导出划分12{:()}{:()}R W d R W d =≥⎧⎨=≥⎩x x x x (^_^) 其中112()()()T W -=--x μμΣx μ, 21(1|2)ln (2|1)c p d c p =, 两个总体1G 与2G 的马氏平方距离可记为11212()()T λ-=--μμΣμμ经导, 对(^_^)的划分, 其误判率为*121p p p ΦΦ⎛⎫=+- ⎪⎝⎭ 随λ大而小.实用中, 用(1)(2)1(1)(2)ˆ()()T λ-=--x x S x x 代λ.当121/2p p ==时, 有*2112211ˆ2n n p n n ⎛⎫=+ ⎪⎝⎭当12,p p 按容量比例选取时, 即12121212,n n p p n n n n ==++ 有 *122112ˆn n p n n +=+ 误判率的回代估计.例5.3 预报春旱. 两个预报因子的观察值12,X X , 假设误报损失相同, 先验概率按比例. 由下表数据进行两总体的Bayes 判别.解 16/140.4286p ==, 28/140.5714p ==. 调用proc discrim 得12ln || 1.8053,ln || 3.6783S S =-=-(1)(2)25.31622.025,2.416 1.187x x ⎡⎤⎡⎤==--⎢⎥⎢⎥⎣⎦⎣⎦122.2130.6570.2730.063,0.6570.2690.0630.106S S --⎡⎤⎡⎤==--⎢⎥⎢⎥⎣⎦⎣⎦ 广义平方距离为(1,2j =)2()1()()()()ln 2ln j T j j jj j d p -=--+-x x x S x x S 后验概率为222ˆˆ0.5()0.5()1ˆ(|)e e j k d d j k P G --==∑x x x ,(1,2j =).回代判别结果如下略,误判率=0;若用交叉确认法, 则应按下式计算2()1()()()()()()()()ln 2ln j j j T j j x x x x j d p -=--+-x x x S x x S 逐个剔除, 交叉判别.有一错(10号被判错), 交叉确认估计*ˆ1/140.0714c p ==3. 多个总体的Bayes 判别(1) 一般讨论设概率密度为1~()k f x 的p 维总体1~k G 出现的先验概率为1~1~()k k p P G =, (11kj j p ==∑)先验概率的取法: (i) 1~1k p k =, 或(ii) 1~1~12k k k n p n n n =++,一个判别法= 一个划分=12{(,,,)}k R R R =R 判别准则 1,,kp j i j j R R R i j ==⋃=⋂=∅≠R判别R 下的误判情况讨论(|,)()d ,ji R P j i f j i =≠⎰R x x ,(1~)j k = 代价记为一个损失矩阵()(|)k k c j i ⨯(约定(|)0,1~c i i i k ==)常取(|)1,c j i i j =≠. 来自i G 判为其他总体的概率是(|,)j iP j i ≠∑R误判的概率*1(|,)ki i j i p p P j i =≠⎛⎫= ⎪⎝⎭∑∑R 使其最小, 得最优划分.当(|)c j i 不全相等时,将来自i G 判为其他总体的平均损失率1(|,)(|)ki j l P j i c j i ==∑R误判的平均损失率111(|,)(|)k kk i i i i i j L p l p P j i c j i ===⎛⎫== ⎪⎝⎭∑∑∑R应使其最小的划分R .进一步的讨论1) 当(|)1,c j i i j =≠时,因1(|,)1kj P j i R ==∑, 故(|,)1(|,)j iP j i P i i ≠=-∑R R从而有()()*111(|,)1()d ik ki R i i p P i i f ===-=-∑∑⎰R x x11()d iki R i f ==-∑⎰x x当1{:()max ()},1~i i i j j j kp f p f i k ≤≤===R x x x 时,12(,,,)k R R R =R 是使*p 最小的最优划分.又由Bayes 公式, 当出现样品x 时, 总体i G 的后验概率1~()(|)()i i i j jj kp f P G p f ==∑x x x故最优划分为1{:(|)max (|)}i i j j kR P G P G ≤≤==x x x , (1~i k =)当有多个时, 任选一个.2) 当(|),c j i i j ≠不全相等时,111(|,)(|)kkk i i i i i j L p l p P j i c j i ===⎛⎫== ⎪⎝⎭∑∑∑R11(|)()d jkk i i j i p c j i f ==⎛⎫= ⎪⎝⎭∑∑⎰R x x11(|)()d jkki i j i p c j i f ==⎛⎫= ⎪⎝⎭∑∑⎰R x x11()(|)()()d jkj iiki j j h x p c j i f h ==⎛⎫ ⎪⎝⎭∑∑⎰R x x x取划分为1{:()min ()},1~j j i i i kh p f j k ≤≤===R x x x可使L 达到最小. 若记1(|)(|)(|),1~kj i i H G c j i P G j k ===∑x x(当出现x 后,被判为来自j G 后验平均损失, 则有1{:(|)min (|)},1~j j i i kH G H G j k ≤≤===R x x x若有多个, 则任判一个.(2) 多个正态总体的Bayes 判别1) 对1,(|)0,i jc j i i j≠⎧=⎨=⎩的情况(i) 当12k ====ΣΣΣΣ时,设~(,)j p j G N μΣ(1~)j k =线性判别函数为()T j j j W b +x a x ,其中111,2ln j T T T j j jj j b p --+-a μΣμΣμ广义平方函数21()()()2ln T j j j j d p -=---x x μΣx μ,1~j k =后验概率22ˆˆ0.5()0.5()1(|)ee jk kd d j k P G --==∑x x x这时最优划分1{:()max ()}j j i i kR W W ≤≤==x x x1{:(|)max (|)}j i i kP G P G ≤≤==x x x (1~j k =)实用中, 用样本均值和样本协方差阵代替.(ii) 1~k Σ不全相等时, 设~(,)j p j j G N μΣ(1~)j k = 则有21()()()ln 2ln T j j j j j j d p -=--+-x x μΣx μΣ后验概率22ˆˆ0.5()0.5()1(|)ee jk kd d j k P G --==∑x x x ,(1~)j k =这时最优划分1{:(|)max (|)}j j i i kR P G P G ≤≤==x x x (1~j k =)实用中, 用2ˆ()j d x ,ˆ(|)jP G x 代替.2) 一般损失情况 计算(|),1~i P G j k =x 及1(|)(|)(|),1~kj i i H G c j i P G j k ===∑x x最优划分为1{:(|)min (|)},1~j j i i kH G H G j k ≤≤===R x x x例5.4 某学院招生时, 有两个参考指标1X : 平均学分指数; 2X 管理能力考试成绩;申请者分为3类: 1G 录取; 2G 不录取; 3G 待定. 近期有85位记录.(部分资料) 假定1) 各总体~正态分布;2) 先验概率按比例;3) 误判损失相同讨论在(i) 协方差阵相同; (ii) 协方差不全相同时; Bayes判别分析, 并给出误判率的回判法和交叉确认法估计值.若有一新申请者的资料13.12x=和2497x=, 在两种情况下各被判入哪类?解(i) 调用proc discrim过程, 得(部分)和**ˆˆ7/850.0824,8/850.094r c p p ====关于新样本0(3.12,497)T x =的后验概率10(|)0.2401P G x =, 20(|)0.0004,P G x =30(|)0.7578P G x =,故应该待定.(ii) 协方差不全相等时, 有和**ˆˆ3/850.03534/850.0471r c p p ====关于新样本0(3.12,497)T x =的后验概率10(|)0.5983P G x =, 20(|)0.0032,P G x =30(|)0.3985P G x =,当属1G 类(录取).总结前述内容均利用了所给定的全部p 个指标变量, 但并非指标变量越多, 判别效果就越好, 相反, 有时可能影响判别分析效果.因此,如回归分析一样,在判别分析中仍存在指标变量的选取问题,称为逐步判别法.限于本书特点,在此不再详述.有兴趣者可参见如[3]中第6章等.另外sA5系统的Proc stepdisc过程(参见[6])可用于逐步判别分析.。
判别分析--费希尔判别、贝叶斯判别、距离判别判别分析⽐较理论⼀些来说,判别分析就是根据已掌握的每个类别若⼲样本的数据信息,总结出客观事物分类的规律性,建⽴判别公式和判别准则;在遇到新的样本点时,再根据已总结出来的判别公式和判别准则,来判断出该样本点所属的类别。
1 概述三⼤类主流的判别分析算法,分别为费希尔(Fisher)判别、贝叶斯(Bayes)判别和距离判别。
具体的,在费希尔判别中我们将主要讨论线性判别分析(Linear Discriminant Analysis,简称LDA)及其原理⼀般化后的衍⽣算法,即⼆次判别分析(Quadratic Discriminant Analysis,简称QDA);⽽在贝叶斯判别中将介绍朴素贝叶斯分类(Naive Bayesian Classification)算法;距离判别我们将介绍使⽤最为⼴泛的K最近邻(k-Nearest Neighbor,简称kNN)及有权重的K最近邻( Weighted k-Nearest Neighbor)算法。
1.1 费希尔判别费希尔判别的基本思想就是“投影”,即将⾼维空间的点向低维空间投影,从⽽简化问题进⾏处理。
投影⽅法之所以有效,是因为在原坐标系下,空间中的点可能很难被划分开,如下图中,当类别Ⅰ和类别Ⅱ中的样本点都投影⾄图中的“原坐标轴”后,出现了部分样本点的“影⼦”重合的情况,这样就⽆法将分属于这两个类别的样本点区别开来;⽽如果使⽤如图8-2中的“投影轴”进⾏投影,所得到的“影⼦”就可以被“类别划分线”明显地区分开来,也就是得到了我们想要的判别结果。
原坐标轴下判别投影轴下判别我们可以发现,费希尔判别最重要的就是选择出适当的投影轴,对该投影轴⽅向上的要求是:保证投影后,使每⼀类之内的投影值所形成的类内离差尽可能⼩,⽽不同类之间的投影值所形成的类间离差尽可能⼤,即在该空间中有最佳的可分离性,以此获得较⾼的判别效果。
对于线性判别,⼀般来说,可以先将样本点投影到⼀维空间,即直线上,若效果不明显,则可以考虑增加⼀个维度,即投影⾄⼆维空间中,依次类推。
§5.2Bayes 判别1. Bayes 判别的基本思想假设已知对象的先验概率和“先验条件概率”, 而后得到后验概率, 由后验概率作出判别.2. 两个总体的Bayes 判别 (1) 基本推导设概率密度为1()f x 和2()f x 的p 维总体12,G G 出现的先验概率为1122(),()p P G p P G ==(121p p +=)先验概率的取法: (i)1212p p ==,(ii)12121212,n n p p n n n n ==++,一个判别法 = 一个划分=12(,)R R =R1212,,p R R R R =⋃=⋂=∅R距离判别中112212{|(,)(,)}{|(,)(,)}R d G d G R d G d G =≤=>x x x x x x判别R 下的误判情况讨论21(2|1,)()d R P f =⎰R x x ,或12(1|2,)()d R P f =⎰R x x代价分别记为(2|1),(1|2),(1|1)0,(2|2)0c c c c ==,在得新x 后, 后验概率为1111122()(|)()()p f P G p f p f =+x x x x2221122()(|)()()p f P G p f p f =+x x x x(i) 当(1|2)(2|1)c c c ==时, 最优划分是112212{:(|)(|)}{:(|)(|))}R P G P G R P G P G =≥⎧⎨=<⎩x x x x x x 两个总体的Bayes 的判别准则112212,(|)(|),(|)(|)G if P G P G G if P G P G ∈≥⎧⎨∈<⎩x x x x x x 此时, 有最小的误判概率*12(2|1,)(1|2,)p p P p P =+R R .因为21*1122()d ()d R R p p f p f =+⎰⎰x x x x111122(1()d )()d R R p f p f =-+⎰⎰x x x x()112211()()d R p p f p f =+-⎰x x x只有取12211{:()()}R p f p f =≤x x x 时, 才有最小.(ii) 当(1|2)(2|1)c c ≠时 对1G 的误判平均损失:(1,)(2|1)(2|1,)l c P R =R ,对2G 的误判平均损失:(2,)(1|2)(1|2,)l c P R =R ,对整个误判的平均损失:12(1,)(2,)L p l p l =+R R12(2|1)(2|1,)(1|2)(1|2,)c p P R c p P R =⋅⋅+⋅⋅可证使L 最小的最优划分是1112221122{:(2|1)()(1|2)()}{:(2|1)()(1|2)()}R c p f c p f R c p f c p f =≥⎧⎨=<⎩x x x x x x 或112212{:(2|1)(|)(1|2)(|)}{:(2|1)(|)(1|2)(|))}R c P G c P G R c P G c P G =≥⎧⎨=<⎩x x x x x x当12p p =时, 有112212{:(2|1)()(1|2)()}{:(2|1)()(1|2)()}R c f c f R c f c f =≥⎧⎨=<⎩x x x x x x 当12p p =, 且时(1|2)(2|1)c c c ==, 有 112212{:()()}{:()()}R f f R f f =≥⎧⎨=<⎩x x x x x x 相当于经典统计学中的似然比准则判别. (2) 两个正态总体的Bayes 判别1) 12==ΣΣΣ的判别112212,()(),()()G if W W G if W W ∈≥⎧⎨∈<⎩x x x x x x 其中111222(),()T TW b W b ++x a x x a x @@,及 111111111,2ln TTT b p --+-a μΣμΣμ@@ 122122221,2ln TT T b p --+-a μΣμΣμ@@实用中, 用样本均值和样本协方差阵代.替.当1212p p ==时, 与距离判别等价. 如用后验概率来判别(或其估计), 则有112212,(|)(|),(|)(|)G if P G P G G if P G P G ∈≥⎧⎨∈≥⎩x x x x x x .1) 12≠ΣΣ的判别与距离判别的区别为广义平方距离函数21111111()()()ln 2ln((2|1))T d c p -=--+-x x μΣx μΣ,21222222()()()ln 2ln((1|2))T d c p -=--+-x x μΣx μΣ推导过程略.当 “三同”时, 与距离判别一样.(3) 误判概率的计算在12==ΣΣΣ下, 作简要讨论. 用广义距离2221()()d d -x x 可导出划分12{:()}{:()}R W d R W d =≥⎧⎨=≥⎩x x x x (^_^) 其中112()()()T W -=--x μμΣx μ, 21(1|2)ln(2|1)c p d c p =,两个总体1G 与2G 的马氏平方距离可记为11212()()T λ-=--μμΣμμ经导, 对(^_^)的划分, 其误判率为*121p p p ΦΦ⎛⎫=+- ⎪⎝⎭随λ大而小. 实用中, 用(1)(2)1(1)(2)ˆ()()T λ-=--x x S x x 代λ.当121/2p p ==时, 有*2112211ˆ2n n pn n ⎛⎫=+ ⎪⎝⎭当12,p p 按容量比例选取时, 即12121212,n n p p n n n n ==++有*122112ˆn n pn n +=+误判率的回代估计.例5.3 预报春旱. 两个预报因子的观察值12,X X , 假设误报损失相同, 先验概率按比例. 由下表数据进行两总体的Bayes 判别.解16/140.4286p==,28/140.5714p==.调用proc discrim得12ln || 1.8053,ln || 3.6783S S =-=-(1)(2)25.31622.025,2.416 1.187x x ⎡⎤⎡⎤==--⎢⎥⎢⎥⎣⎦⎣⎦122.2130.6570.2730.063,0.6570.2690.0630.106S S --⎡⎤⎡⎤==--⎢⎥⎢⎥⎣⎦⎣⎦广义平方距离为(1,2j =)2()1()()()()ln 2ln j T j j j j j d p -=--+-x x xS x x S 后验概率为222ˆˆ0.5()0.5()1ˆ(|)e e jk d d jk P G --==∑x x x ,(1,2j =).回代判别结果如下略,误判率=0;若用交叉确认法, 则应按下式计算2()1()()()()()()()()ln 2ln j j j T j j x x x x j d p -=--+-x x x S x x S逐个剔除, 交叉判别.有一错(10号被判错), 交叉确认估计*ˆ1/140.0714cp==3. 多个总体的Bayes判别(1) 一般讨论设概率密度为1~() kf x的p维总体1~kG出现的先验概率为1~1~()k k p P G =, (11kj j p ==∑)先验概率的取法: (i) 1~1k p k=, 或(ii) 1~1~12k k k n p n n n =++L ,一个判别法= 一个划分=12{(,,,)}k R R R =R L 判别准则1,,kp j i j j R R R i j ==⋃=⋂=∅≠R判别R 下的误判情况讨论(|,)()d ,ji R P j i f j i =≠⎰R x x ,(1~)j k =代价记为一个损失矩阵()(|)k k c j i ⨯(约定(|)0,1~c i i i k ==)常取(|)1,c j i i j =≠.来自i G 判为其他总体的概率是(|,)j iP j i ≠∑R误判的概率*1(|,)ki i j i p p P j i =≠⎛⎫= ⎪⎝⎭∑∑R使其最小, 得最优划分.当(|)c j i 不全相等时,将来自i G 判为其他总体的平均损失率1(|,)(|)ki j l P j i c j i ==∑R误判的平均损失率111(|,)(|)kkk i i i i i j L p l p P j i c j i ===⎛⎫== ⎪⎝⎭∑∑∑R应使其最小的划分R .进一步的讨论1) 当(|)1,c j i i j =≠时,因1(|,)1kj P j i R ==∑, 故(|,)1(|,)j iP j i P i i ≠=-∑R R从而有()()*111(|,)1()d ik ki R i i p P i i f ===-=-∑∑⎰R x x11()d iki R i f ==-∑⎰x x当1{:()max ()},1~i i i j j j kp f p f i k ≤≤===R x x x 时,12(,,,)k R R R =R L 是使*p 最小的最优划分.又由Bayes 公式, 当出现样品x 时, 总体i G 的后验概率1~()(|)()i i i j jj kp f P G p f ==∑x x x故最优划分为1{:(|)max (|)}i i j j kR P G P G ≤≤==x x x , (1~i k =)当有多个时, 任选一个.2) 当(|),c j i i j ≠不全相等时,111(|,)(|)kkk i i i i i j L p l p P j i c j i ===⎛⎫== ⎪⎝⎭∑∑∑R11(|)()d jkk i i j i p c j i f ==⎛⎫= ⎪⎝⎭∑∑⎰R x x11(|)()d jkki i j i p c j i f ==⎛⎫= ⎪⎝⎭∑∑⎰R x x11()(|)()()d jkj i i ki j j h x p c j i f h ==⎛⎫ ⎪⎝⎭∑∑⎰R x x x @ 取划分为1{:()min ()},1~j j i i i kh p f j k ≤≤===R x x x可使L 达到最小. 若记1(|)(|)(|),1~kj i i H G c j i P G j k ===∑x x(当出现x 后,被判为来自j G 后验平均损失, 则有1{:(|)min (|)},1~j j i i kH G H G j k ≤≤===R x x x若有多个, 则任判一个. (2) 多个正态总体的Bayes 判别1) 对1,(|)0,i jc j i i j ≠⎧=⎨=⎩的情况(i)当12k ====ΣΣΣΣL 时,设~(,)j p j G N μΣ(1~)j k =线性判别函数为()T j j j W b +x a x @,其中111,2ln j T T T j j jj j b p --+-a μΣμΣμ@@ 广义平方函数21()()()2ln T j j j j d p -=---x x μΣx μ,1~j k =后验概率22ˆˆ0.5()0.5()1(|)ee jk kd d j k P G --==∑x x x这时最优划分1{:()max ()}j j i i kR W W ≤≤==x x x1{:(|)max (|)}j i i kP G P G ≤≤==x x x (1~j k =)实用中, 用样本均值和样本协方差阵代替. (ii)1~kΣ不全相等时, 设~(,)j p j j G N μΣ(1~)j k =则有21()()()ln 2ln T j j j j j j d p -=--+-x x μΣx μΣ后验概率22ˆˆ0.5()0.5()1(|)ee jk kd d j k P G --==∑x x x ,(1~)j k = 这时最优划分1{:(|)max (|)}j j i i kR P G P G ≤≤==x x x (1~j k =)实用中, 用2ˆ()j d x ,ˆ(|)jP G x 代替.2) 一般损失情况 计算(|),1~i P G j k =x 及1(|)(|)(|),1~kj i i H G c j i P G j k ===∑x x最优划分为1{:(|)min (|)},1~j j i i kH G H G j k ≤≤===R x x x例5.4 某学院招生时, 有两个参考指标1X : 平均学分指数; 2X 管理能力考试成绩;申请者分为3类: 1G 录取; 2G 不录取; 3G 待定.近期有85位记录.(部分资料)假定1) 各总体~正态分布;2) 先验概率按比例;3) 误判损失相同讨论在(i) 协方差阵相同; (ii) 协方差不全相同时;Bayes判别分析, 并给出误判率的回判法和交叉确认法估计值.若有一新申请者的资料13.12x=和2497x=, 在两种情况下各被判入哪类?解 (i) 调用proc discrim过程, 得(部分)和**ˆˆ7/850.0824,8/850.094r cpp ====关于新样本0(3.12,497)T x =的后验概率10(|)0.2401P G x =, 20(|)0.0004,P G x =30(|)0.7578P G x =,故应该待定.(ii) 协方差不全相等时, 有和**ˆˆ3/850.03534/850.0471r c p p ====关于新样本0(3.12,497)T x =的后验概率10(|)0.5983P G x =, 20(|)0.0032,P G x =30(|)0.3985P G x =,当属1G 类(录取). 总结前述内容均利用了所给定的全部p 个指标变量, 但并非指标变量越多, 判别效果就越好, 相反, 有时可能影响判别分析效果.因此,如回归分析一样,在判别分析中仍存在指标变量的选取问题,称为逐步判别法.限于本书特点,在此不再详述.有兴趣者可参见如[3]中第6章等.另外sA5系统的Proc stepdisc过程(参见[6])可用于逐步判别分析.。