四线性判别函数

格式：pdf
大小：782.25 KB
文档页数：64

下载文档原格式

ch41线性判别函数

几个基本参量（2）
一维Y空间
➢各类样本均值 m%
i
：m%i
1 Ni
yiYi
y,i 1,2
➢
样本类内离散度矩阵 S %
2 i
和总离散度矩阵
S% w
S% i2 (ym % i)2,i1,2； yYi
S%w S%12 S%22；
Fisher 准则函数
希望投影变换之后，在一维Y空间内，各类样
本尽可能的分得开，即两类均值之差越大越好；
线性分类器的设计步骤
设计线性分类器，就是利用训练集建立线性判别函数式d(x)=wT x+b，或是广义线性判别函数式。函数式中只含有两个未知的量，即权向量和惩罚项常数（阈值）。所以说线性分类器的设计过程，实质上就是寻找最优的权向量以及阈值常数。其步骤如下：
设计步骤：
1. 已知一组具有类别标记的样本集，训练
设有c个类别的模式识别问题(分类问题)， X{x1,L,xN}为训练集，每一类 i 中含有N i 个样本。因此定，义决：策规d i(则x)为：m k in||xxik||,k 1 ,L,N i 若则，决d策j(x)x m iin j di(x),i1 ,L,c
最近邻的改进之一
设有ቤተ መጻሕፍቲ ባይዱ类已知类别的样本(模式)，从每一类中选择一个标准样本，例如样本均值：
同时各类样本内部尽量密集，即类内离散度越小
越好。
定义函数：
JF(w)
(m%1 m%2)2 S%12 S%22
（4.23）
要使得该函数值尽可能的大，就是说使得其分母尽可能的小，同时使得其分子尽可能的大。
分析(4.23)
由于 m % iN 1 iy Y iyN 1 iy Y iw Tx w T(N 1 iy Y ix) w T m i

模式识别(4-1)

§4.2 Fisher线性判别
Fisher线性判别函数是研究线性判别函数中最有影响的方法之一。对线性判别函数的研究就是从R.A.Fisher在1936年发表的论文开始的。
§4.2 Fisher线性判别
设计线性分类器： g(x) wT x + w0
➢首先要确定准则函数； ➢然后再利用训练样本集确定该分类器的参数，以求使所确定的准则达到最佳。
w
x = xp + r w , g(x)= r w
x2
x p是x在H 上的投影向量 r是x到H的垂直距离
w 是w方向上的单位向量 w
w x
r
xp
x1
H: g=0
线性判别函数的几何意义
令 g(x) wT x w0 = r w
若x为原点，则g(x) w0
原点到超平面H的距离：r0
w0 w
w0 0 原点在H的正侧 w0 0 原点在H的负侧 w0 0 H通过原点
一些基本参量的定义
2.在一维Y空间
➢各类样本均值
1 mi Ni
y,
yYi
i 1, 2
➢ 样本类内离散度、总类内离散度和类间离散度
Si ( y mi )2, yYi
Sw S1 S2 Sb (m1 m2 )2
i 1, 2
§4.2 Fisher线性判别
根据Fisher选择投影方向w的原则：使原样本向量在该方向上的投影能兼顾：
mi
1 Ni
yYi
y
1 Ni
xX i
wT x =
wT mi ,
i 1, 2
Sb (m1 m2 )2 (wT m1 - wT m2 )2 = wT (m1 - m2 )(m1 - m2 )T w = wT Sbw

线性判别函数-Fisher

Fisher线性判别
问题中的维数问题
降低维数
把d维空间中的样本投影到一条直线上
Fisher线性判别
把同一组样本点向两个不同的方向作投影。（右图更易分开）
始于R.A.Fisher(1936年）
Fisher法解决的基本问题：
如何根据实际情况找到一条最好的、最易于分类的投影线。
d维到一维的数学变换
1
2
1
2
b
化简分母：
S~2 y m~ 2 wT x wT m 2
i
yYi
i
xX i
i
wT x m x m T w wT S w
xX i
i
i
i
S~2 S~2 wT S S w wT S w
1
2
1
2
w
w
b
w* S S 1 w* S m 1 m R
w
b
w
1
2
忽略比
w* R S 1 m m 例因子
w
1
2
w* S m 1 m
w
1
2
w*为准则函数的极大值解，即为X空间到Y空间的最佳投影方向。
根据变换公式：
y wT x , n 1,2,..., N
广义线性判别函数
在一维空间中，线性函数不能解决下述分类问题（黑红各代表一类数据），可见线性判别函数有一定的局限性。
为解决上述分类问题，我们建立一个二次判别函数
g(x)=(x–a)(x–b)
=c0+c1x + c2x*x 决策规则仍是：如果g(x)>=0，则判定x属

模式识别总结

13
模式识别压轴总结
另外，使用欧氏距离度量时，还要注意模式样本测量值的选取，应该是有效反映类别属性特征（各类属性的代表应均衡）。但马氏距离可解决不均衡（一个多，一个少）的问题。例如，取 5 个样本，其中有 4 个反映对分类有意义的特征 A，只有 1 个对分类有意义的特征 B，欧氏距离的计算结果，则主要体现特征 A。
信息获取预处理特征提取与选择聚类结果解释
1.4 模式识别系统的构成基于统计方法的模式识别系统是由数据获取，预处理，特征提取和选择，分类决策构成
2
模式识别压轴总结
1.5 特征提取和特征选择特征提取 (extraction)：用映射（或变换）的方法把原始特征变换为较少的新特征。特征选择(selection) ：从原始特征中挑选出一些最有代表性，分类性能最好的特征特征提取/选择的目的，就是要压缩模式的维数，使之便于处理。特征提取往往以在分类中使用的某种判决规则为准则，所提取的特征使在某种准则下的分类错误最小。为此，必须考虑特征之间的统计关系，选用适当的变换，才能提取最有效的特征。特征提取的分类准则：在该准则下，选择对分类贡献较大的特征，删除贡献甚微的特征。特征选择：从原始特征中挑选出一些最有代表性、分类性能最好的特征进行分类。从 D 个特征中选取 d 个,共 CdD 种组合。－典型的组合优化问题特征选择的方法大体可分两大类： Filter 方法：根据独立于分类器的指标 J 来评价所选择的特征子集 S，然后在所有可能的特征子集中搜索出使得 J 最大的特征子集作为最优特征子集。不考虑所使用的学习算法。 Wrapper 方法：将特征选择和分类器结合在一起，即特征子集的好坏标准是由分类器决定的，在学习过程中表现优异的的特征子集会被选中。

模式识别课件第四章线性判别函数

线性判别函数在语音识别中用于将语音信号转换为文本或命令。
详细描述
语音识别系统使用线性判别函数来分析语音信号的特征，并将其映射到相应的文本或命令。通过训练，线性判别函数能够学习将语音特征与对应的文本或命令关联起来，从而实现语音识别。
自然语言处理
总结词
线性判别函数在自然语言处理中用于文本分类和情感分析。
偏置项。
线性判别函数具有线性性质，即输出与输入特征向量之间是线性关系，可以通过权
重矩阵和偏置项来调整。
线性判别函数对于解决分类问题具有高效性和简洁性，尤其在特征之间线性可分的情况下。
线性判别函数与分类问题
线性判别函数广泛应用于分类问题，如二分类、多分类等。
在分类问题中，线性判别函数将输入特征向量映射到类别标签上，通过设置阈值或使用优化算法来确定分类边界。
THANKS
感谢观看
深度学习在模式识别中的应用
卷积神经网络
01
卷积神经网络特别适合处理图像数据，通过卷积层和池化层自
动提取图像中的特征。循环神网络02循环神经网络适合处理序列数据，如文本和语音，通过捕捉序
列中的时间依赖性关系来提高分类性能。
自编码器
03
自编码器是一种无监督的神经网络，通过学习数据的有效编码
来提高分类性能。
详细描述
自然语言处理任务中，线性判别函数被用于训练分类器，以将文本分类到不同的主题或情感类别中。通过训练，线性判别函数能够学习将文本特征映射到相应的类别上，从而实现对文本的分类和情感分析。
生物特征识别
总结词
线性判别函数在生物特征识别中用于身份验证和安全应用。
详细描述
生物特征识别技术利用个体的生物特征进行身份验证。线性判别函数在生物特征识别中用于分析和比较个体的生物特征数据，以确定个体的身份。这种技术广泛应用于安全和隐私保护领域，如指纹识别、虹膜识别和人脸识别等。

第4章线性分类器

用上列方程组作图如下：
软件工程专业
0 .5

1

0 .5

g1 ( x) g 2 ( x) g1 ( x) g 3 ( x)
2

g 2 ( x ) g1 ( x ) g 2 ( x) g 3 ( x)
1 .0
g1 ( x) g3 ( x) 0
g21 ( x) 2, g31 ( x) 1, g32 ( x) 1
g3 j ( x) 0 因为结论：所以X 属于ω 3类
5
2 判别区
x2 g 21 0
g 23 0

1判别区
g13 0

g23 ( x) 0
g12 ( x) 2, g13 ( x) 1, g 23 ( x) 1 g12 0
1
x1
边界
3
例如右上图：三类的分类问题，它们的边界线就是一个判别函数
用判别函数进行模式分类，取决两个因素：软件工程专业
判别函数的几何性质：线性与非线性判别函数的参数确定：判别函数形式+参数一类是线性判别函数：
线性判别函数：线性判别函数是统计模式识别的基本方法之一，简单且容易实现广义线性判别函数所谓广义线性判别函数就是把非线性判别函数映射到另外一个空间（高维）变成线性判别函数分段线性判别函数
模式识别
软件工程专业计算机与通信工程学院计算机与通信工程学院
第四章线性分类器
4.1 判别函数
假设对一模式X已抽取n个特征，表示为： X ( x1 , x2 , x3 ,..., xn )T
软件工程专业
x2
2

fisher判别函数

Fisher判别函数，也称为线性判别函数（Linear Discriminant Function），是一种经典的模式识别方法。

它通过将样本投影到一维或低维空间，将不同类别的样本尽可能地区分开来。

一、算法原理：Fisher判别函数基于以下两个假设：1.假设每个类别的样本都服从高斯分布；2.假设不同类别的样本具有相同的协方差矩阵。

Fisher判别函数的目标是找到一个投影方向，使得同一类别的样本在该方向上的投影尽可能紧密，而不同类别的样本在该方向上的投影尽可能分开。

算法步骤如下：(1)计算类内散度矩阵（Within-class Scatter Matrix）Sw，表示每个类别内样本之间的差异。

Sw = Σi=1 to N (Xi - Mi)(Xi - Mi)ᵀ，其中Xi 表示属于类别i 的样本集合，Mi 表示类别i 的样本均值。

(2)计算类间散度矩阵（Between-class Scatter Matrix）Sb，表示不同类别之间样本之间的差异。

Sb = Σi=1 to C Ni(Mi - M)(Mi - M)ᵀ，其中 C 表示类别总数，Ni 表示类别i 中的样本数量，M 表示所有样本的均值。

(3)计算总散度矩阵（Total Scatter Matrix）St，表示所有样本之间的差异。

St =Σi=1 to N (Xi - M)(Xi - M)ᵀ(4)计算投影方向向量w，使得投影后的样本能够最大程度地分开不同类别。

w= arg max(w) (wᵀSb w) / (wᵀSw w)，其中w 表示投影方向向量。

(5)根据选择的投影方向向量w，对样本进行投影。

y = wᵀx，其中y 表示投影后的样本，x 表示原始样本。

(6)通过设置一个阈值或使用其他分类算法（如感知机、支持向量机等），将投影后的样本进行分类。

二、优点和局限性：Fisher判别函数具有以下优点：•考虑了类别内和类别间的差异，能够在低维空间中有效地区分不同类别的样本。

模式识别习题及答案

第一章绪论1.什么是模式？具体事物所具有的信息。

模式所指的不是事物本身，而是我们从事物中获得的___信息__。

2.模式识别的定义？让计算机来判断事物。

3.模式识别系统主要由哪些部分组成？数据获取—预处理—特征提取与选择—分类器设计/ 分类决策。

第二章贝叶斯决策理论1.最小错误率贝叶斯决策过程？答：已知先验概率，类条件概率。

利用贝叶斯公式得到后验概率。

根据后验概率大小进行决策分析。

2.最小错误率贝叶斯分类器设计过程？答：根据训练数据求出先验概率类条件概率分布利用贝叶斯公式得到后验概率如果输入待测样本X ，计算X 的后验概率根据后验概率大小进行分类决策分析。

3.最小错误率贝叶斯决策规则有哪几种常用的表示形式？答：4.贝叶斯决策为什么称为最小错误率贝叶斯决策？答：最小错误率Bayes 决策使得每个观测值下的条件错误率最小因而保证了（平均）错误率最小。

Bayes 决策是最优决策：即，能使决策错误率最小。

5.贝叶斯决策是由先验概率和（类条件概率）概率，推导（后验概率）概率，然后利用这个概率进行决策。

模式识别(4-2)

有样本之和与 k 的乘积。
梯度下降算法求增广权向量
迭代修正过程：由于所有被a(k)错分类的样本必然都在以a(k)为法线的超平面的负侧，因而它们的总和也必然处于该侧。 a(k+1)修正时，就会使a(k+1) 向错分类向量和趋近，有可能使这些错分类向量之和穿过超平面，或至少朝有利方向变动。
§4.4 多类问题
因此一个比较合适的作法是将特征空间确实划分为C个决策域，共有C个判别函数 T
gi ( x) wi x wi 0 ,
i 1,..., c
每个决策域 Ri 按以下规则划分如果 gi ( x) max g j ( x),
j
j 1, 2, c ,则x i
因此落在Ri区域内的样本被划分成ω i类，如果发生gi(x)＝ gj(x)，即处于决策域的边界上，则作出拒绝决策。这种分类器被称为线性机器。

感知准则函数是五十年代由Rosenblatt提出的一种自学习判别函数生成方法，由于Rosenblatt企图将其用于脑模型感知器，因此被称为感知准则函数。其特点是随意确定的判别函数初始值，在对样本分类训练过程中逐步修正直至最终确定。
几个基本概念
1. 线性可分性
设样本d维特征空间中描述，则两类别问题中线性判别函数的一 T 般形式可表示成：
迭代次数1234直到在一个迭代过程中权向量相同，训练结束。
a=a6=(0,1,3,0)T
判别函数g(x)= aTy=-y2+3y3

感知器算法只对线性可分样本有收敛的解,对非线性可分样本集会造成训练过程的振荡,这是它的缺点.
本节总结
这一节对感知准则函数的讨论，只是很初步的，并且只讨论了线性可分的情况。

线性分类器

⑴感知准则函数 (perceptron criterion function) 定义
J p ( A)
Yy A
(- AT Y )
式中yA为被权向量A误分样本集合。只有yA＝f (空集)时，Jp (A) = 0，此时的A，即为所要的解向量A*。这函数最早用在脑模型感知器上，故称感知准则函数, 也是神经网络基础。 ⑵优化方法：梯度下降法函数Jp (A) 在某点Ak处梯度是一个向量
⑵ 广义线性判别函数的线性可分性 • N个d维向量的线性二分总数为： d
i 例如 N 4, d 2, 则 D(4,2) 2 C3 14
i D( N , d ) 2 C N -1 i 0
2
其实可能的分法有2N＝16种，2种不线性可分。
i 0
其可分概率为7/8。 • 线性可分的概率P(N,d) d D( N , d ) i P(N , d ) 21- N C N -1 2N i 0 d维空间的二分法线性划分，需要计算(d + 1)个加权系数，因此用N /(d + 1) 为坐标作概率图。N /(d + 1) 2线性分类能力强。
i 1
y1 1 式中 Y y2 x y3 x 2
a1 (即c0 ) A a2 (即c1 ) a3 (即c2 )
这里的g(x)称为广义线性判别函数。Y称为增广模式向量，A称为广义权向量。 • 高次判别函数都可变换化为广义线性函数。可用线性函数解决非线性问题，但变换增加了维数，如上例一维变三维。 • ATY不是x的线性函数，却是Y的线性函数。决策面方程 ATY =0 在Y空间为通过原点的超平面。
T

4.判别分析

判别分析判别分析（discriminant analysis）是一种分类技术。

它通过一个已知类别的“训练样本”来建立判别准则，并通过预测变量来为未知类别的数据进行分类。

判别分析的方法大体上有三类，即Fisher判别（线性判别）、Bayes判别和距离判别。

Fisher判别思想是投影降维，使多维问题简化为一维问题来处理。

选择一个适当的投影轴，使所有的样品点都投影到这个轴上得到一个投影值。

对这个投影轴的方向的要求是：使每一组内的投影值所形成的组内离差尽可能小，而不同组间的投影值所形成的类间离差尽可能大。

Bayes判别思想是根据先验概率求出后验概率，并依据后验概率分布作出统计推断。

距离判别思想是根据已知分类的数据计算各类别的重心，对未知分类的数据，计算它与各类重心的距离，与某个重心距离最近则归于该类。

接下来将通过例题展示不同的判别方法。

例1：在某市场抽取20种牌子的电视机中，5种畅销，8种平销，另外7种滞销。

按电视质量评分、功能评分和销售价格三项指标衡量，销售状态：1为畅销，2为平销，3为滞销。

数据集：d6.3> X=read.table("clipboard",header=T) #读取数据存入X中> plot(X$Q, X$C); #做横坐标为Q，纵坐标为C的散点图> text(X$Q, X$C, X$G,adj=-0.8,cex=0.75) #在上一句的散点图中为每个点加文本；Q,C,G表示依据Q和C加上G的文本名字；adj为调整文字与点距离的选项，+为向左，-为向右；cex为调整文字的大小；>plot(X$Q, X$P);text(X$Q, X$P, X$G,adj=-0.8,cex=0.75) #同上> plot(X$C, X$P);text(X$C, X$P, X$G,adj=-0.8,cex=0.75) #同上1.线性判别（等方差）R中线性判别和贝叶斯判别的函数为lda()。

线性判别分析LDA

N-LDA
N-LDA计算最优投影方向矩阵的方法如下：
①对Sw进行奇异值分解：
②从Uw中找出Sw的零空间null(Sw )：
上式中Uw1为Uw的前r1列， Uw2为Uw的后m-r1列，r1=rank(Sw)
N-LDA
③将原始数据集投影到此零空间中，计算零空间内数据集的类间散布矩阵 SB′：
④对SB′进行特征值分解：
y=wTx
其中w1，w2，…，wn 是待估计的未知系数。我们称上述线性函数是线性判别法的判别函数。
为了找到最有利于分类的的方向W，还需要建立一个准侧函数：
假设用来区分二分类的直线（投影函数)为：类别i的样本均值:
类别i投影后的均值为：
投影后，类别内点之间的分散程度（方差）为：最终我们可以得到一个下面的公式，称为准侧函数。
6~7 个月
7~8 个月 8~9 个月 9~10 个月
8.52
8.74 9.03 9.42
69.0
70.4 71.9 73.5
7.95
8.25 8.48 8.85
67.5
69.1 70.5 72.2
经典Fisher线性判别分析方法
LDA
LDA
LDA
Sw奇异问题的解决方法： ● R-LDA ● PCA+LDA ● N-LDA
⑤计算最优投影方向矩阵：
上式中UB′=(UB1′ ， UB2′)， UB1′为UB′的前r2列，UB2′为UB′的后r2列， r2=rank(SB′)。
N-LDA
N-LDA从Sw的零空间null(Sw )中寻求最优投影方向，在某些情况下，N-LDA求得的这个投影方向可以保证数据集在投影后的低维空间中类内散布值最小，但却不能保证类间散布值和类内散布值之比达到最大，或者说N-LDA求得的这个最优投影方向并不是实际最优的。这种现象产生的根本原因是N-LDA只从而的零空间null(Sw )中寻求最优投影方向，抛弃了品的非零空间range(Sw ) ，而事实是在一些情况下最优投影方向却恰恰存在于此品的非零空间 range(Sw ) 。

模式识别

模式识别[填空题]1模式识别系统的基本构成单元包括（）（）（）参考答案：模式采集；特征选择与提取；模式分类[填空题]2统计模式识别中描述模式的方法一般使用（）；句法模式识别中模式描述方法一般有（）、（）、（）。

参考答案：特征矢量；串；树；网[填空题]3影响层次聚类算法结果的主要因素有（）（）（）（）参考答案：计算模式距离的测度；聚类准则；类间距离门限；预定的类别数目[填空题]4线性判别函数的正负和数值大小的几何意义是（）（）参考答案：正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离[填空题]5感知器算法适用于（）的情况参考答案：线性可分[填空题]6在统计模式分类问题中，聂曼-皮尔逊判决准则主要用于（）情况；最小最大判别准则主要用于（）情况。

参考答案：某一种判决错误较另一种判决错误更为重要；先验概率未知的[多项选择题]7、影响聚类算法结果的主要因素有（）。

A. 已知类别的样本质量B. 分类准则C. 特征选取D. 模式相似性测度参考答案：B,C,D[多项选择题]8、影响基本K-均值算法的主要因素有（）。

A. 样本输入顺序B. 模式相似性测度C. 聚类准则D. 初始类中心的选取参考答案：A,B,D[多项选择题]9、在统计模式分类问题中，当先验概率未知时，可以使用（）。

A. 最小损失准则B. 最小最大损失准则C. 最小误判概率准则D. N-P判决参考答案：B,D[单项选择题]10、散度是根据（）构造的可分性判据。

A. 先验概率B. 后验概率C. 类概率密度D. 信息熵E. 几何距离参考答案：C[多项选择题]11、如果以特征向量的相关系数作为模式相似性测度，则影响聚类算法结果的主要因素有（）。

A.已知类别样本质量B.分类准则C.特征选取D.量纲参考答案：B,D[多项选择题]12、欧式距离具有（）A.平移不变性B.旋转不变性C.尺度缩放不变性D.不受量纲影响的特性参考答案：A,B[多项选择题]13、马式距离具有（）。

模式识别第4章线性判别函数

w1。
44
4.3 判别函数值的鉴别意义、权空间及解空间 4.3.2 权空间、解矢量与解空间
(3) 解空间
w1
先看一个简
单的情况。设一
维数据1，2属于
w0
1, -1，-2属
于2 求将1和
2区分开的w0 ，
w1。
45
4.3 判别函数值的鉴别意义、权空间及解空间 4.3.2 权空间、解矢量与解空间
(3) 解空间
53
第四章线性判别方法
4.1 用判别域界面方程分类的概念
有 4.2 线性判别函数监 4.3 判别函数值的鉴别意义、权空间及解空间督 4.4 Fisher线性判别分 4.5 一次准则函数及梯度下降法类 4.6 二次准则函数及其解法
4.7 广义线性判别函数
54
4.4 Fisher线性判别
这一工作是由R.A.Fisher在1936年的论文中所提出的，因此称为Fisher线性判别方法。
0123456789
x1
d23(x)为正
d32(x)为正 d12(x)为正 d21(x)为正
i j两分法例题图示
24
25
3、第三种情况（续）
d1(xr) d2(xr)
1
2
d1(xr ) d3(xr )
3
d2 (xr ) d3(xr )
多类问题图例（第三种情况）
26
27
上述三种方法小结:
8
4.2 线性判别函数
9
10
11
d3(xr) 0
不确定区域
r
xr xrxr xr xr
x2
?
d1(x) 0
1
2
3
x1 d2(xr ) 0

第3章--判别函数及几何分类法

d 12 0
d 13
0 IR
d 23 0
16
例3.3 一个三类问题，三个判决函数为： d12 ( X ) -x1 - x2 5 d13( X ) -x1 3
问模式 X [4,3]T 属于哪类？
d23( X ) -x1 x2
d12(X)=0 x2
d23(X)=0
解：计算得 d12 (X ) -2, d13(X ) -1, d23(X ) -1
0.5 d3 d1
3
d3 d2
1
x1
-
d2(X) -d3X 0
d32 ( X ) -d23 ( X )
判决界面如图所示。
24
例3.6 已知判决界面的位置和正负侧，分析三类模式的分布
区域。
x2
1
d1 ( X ) - d 3 X 0
-
d1
(
X
)
-d
2
X
0
3
-
2
O
x1
-
d2 (X ) - d3 X 0
如：对一个三类问题，如果d12 ( X ) 0 ， d13 ( X ) 0
则 X 1 类，而 d23 ( X ) 在判别 1类模式时不起作用。 15
d12(X)=0- x2
d 21 0
d 23 0
2
d 12 0 d 13 0
1
d23(X)=0
-
d 31 0 d 32 0
3
x1
-
d13(X)=0
别都分开。判决函数为：dij (X ) WijT X 。这里 d ji -dij 。
判别函数性质：
dij X 0, j i ; i, j 1,2,, M , 若 X i

[工学]模式识别第4章线性判别函数

感知器准则
• 梯度下降算法：对(迭代)向量沿某函数的负梯度方向修正，可较快到达该函数极小值。
J
p (a)
J p (a)
a
yY k
(y)
a(k 1) a(k ) rkJ p (a)
a(k ) rk y yY k
2021/8/26
27
算法(step by step)
感知器准则
1. 初值: 任意给定一向量初始值a(1)
y
x 1
x1,...,
xd
,1T
a
w
1
w1,...,
wd
,
w0
T
2021/8/26
10
引言
广义线性判别函数(4)
• 线性判别函数的齐次简化：
g(x) wTx w0 aT y
增广样本向量使特征空间增加了一维，但保持了样本间的欧氏距离不变，对于分类效果也与原决策面相同，只是在Y空间中决策面是通过坐标原点的，这在分析某些问题时具有优点，因此经常用到。
wT Sbw wT Sww
令 wT Sww c 0
定义Lagrange函数: L(w,) wT Sbw (wT Sww c)
令:
L( w, )
w
Sbw
Sww
0
Sw1Sbw w
w Sw1Sbw Sw1(m1 m2 )(m1 m2 )T w
Sw1(m1 m2 )R
w*
R
S w 1 ( m1
选择最佳准则
训练样本集
决策规则：判别函数
决策面方程
2021/8/26
4
引言
线性判别函数
• d维空间中的线性判别函数的一般形式：

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

J F ( w)有上界，最佳投影方向一定存在！
λ ( Sb ) max J F ( w) ≤ . λ ( St ) min
最小、最大的特征根。
λ ( S w ) min , λ ( Sb ) max 分别是矩阵 S , S 的 t b
4.1 Fisher线性判别

一定存在一个最优的
w ，满足：
T
L x L x M d L xn
d 1 d 2
4.2 最小平方误差准则

最小平方误差(MSE)方法的思想：对每个样本 xi ，设定一个“理想”的判别函数输出值 ci ，以最小平方误差为准则求最优投影方向 w （增广权向量 a ）。 T c = ( c , c , L , c ) . 令 1 2 n
4.2 最小平方误差准则
1 1 n 1 n T 2 J s ( a ) = ∑ ( g ( xi ) − ci ) = ∑ ( a z i − ci ) 2 N N i =1 N i =1 N N2 1 1 2 T a z c = 1* ( − ) + * ( a T z i − ci ) 2 ∑ ∑ i i N N 1 i∈I N N 2 i∈II
i = 1,2, L , n.
线性可分，当且仅当解为所有 ξ i
= 0。
4.3 最小错分样本数准则

Fisher判别与最小平方误差判别的准则函数考虑了所有的样本。最小错分样本数准则只考虑被错分的样本。
J (a ) = ( Za − c) − Za − c
T

2
.
c = (δ , Lδ )
T

称 S b = ( m1 − m2 )(m1 − m2 ) 类间离散度矩阵。称
T

St = S1 + S 2
类内总离散度矩阵。
w Sb w J F ( w) = T . w St w
T
4.1 Fisher线性判别

Fisher准则的合理性：
J F ( w) 只与投影方向有关，与 w 大小无关— kw 也是最优解，k 是若 w 是一个最优解，
4.1 Fisher线性判别
( µ1 − µ 2 ) J F ( w) = 2 2 σ1 + σ 2 ( w m1 − w m2 ) = T T w S1w + w S 2 w
T T 2 2
w (m1 − m2 )(m1 − m2 ) w . = T w ( S1 + S 2 ) w
T T
4.1 Fisher线性判别
2 T 2
xi ∈II
∑ (w
xi ∈II
T
xi + b − c− ) ( xi − m2 ))
2
= ∑ ( w ( xi − m1 )) +
∑ (w
T
2
= N1wT Σ1w + N 2 wT Σ 2 w = wT ( N1Σ1 + N 2 Σ 2 ) w = wT S w w.
与Fisher准则等价！
zi zi = − z i

xi ∈ ω1 . xi ∈ ω 2
i = 1,2, L , n.
要找增广权向量尽可能满足：
z i a > 0.
T
4.3 最小错分样本数准则

线性可分性：
线性可分
线性不可分
4.3 Байду номын сангаас小错分样本数准则

线性可分性的判断：

线性可分 — 若存在增广权向量对规范化的样本满足：
.
投影后数据的均值（ n1 , n2 是两类样本的个数）
n1 µ1 + n2 µ 2 . b= n1 + n2
4.2 最小平方误差准则(MSE)
4.2 最小平方误差准则

线性分类器的齐次表达式：

原始表达式：
T
g ( x) = w x + b = ∑ w x + b.
i i i =1

d
权、样本增广向量：
a = (b, w1 , w1 , L , w d )T , z = (1, x1 , x1 , L , x d )T .
4.2 最小平方误差准则

判别函数的齐次表达式：
g ( x) = a T z

样本的增广矩阵：
1 1 x1 1 1 x2 T Z = ( z1 , z 2 , L , z n ) = M M d 1 xn
2 T
2 T
i = 1,2.
i
=w
T
∑ ( x − m )( x − m )
i
w
= w Si w.
T
4.1 Fisher线性判别

Fisher准则函数：
( µ1 − µ 2 ) J F ( w) = 2 . 2 σ1 + σ 2
2
1
类间距总类内离散度
wopt = arg max J F ( w).
4.2 最小平方误差准则

与Bayes决策的关系：如果当样本数趋于无穷时，MSE的解以最小均方误差逼近Bayes判别函数：
P( x, ω1 ) − P( x, ω2 ) g 0 ( x) = P(ω1 | x) − P(ω2 | x) = P ( x)
c = (1L,1,−1L,−1)T
令 e 2 = ∫ [z T a − g 0 ( x)]2 P( x)dx ˆ = arg min e 2 = Z + c 则a
T +
T
Z ) 可逆.
a = ( Z Z ) Z c = Z c.
T
−1
Z + = ( Z T Z ) −1 Z T
是 Z 的最小二乘广义逆。
4.2 最小平方误差准则

与Fisher线性判别的关系：两类样本数分别为 N1 , N 2 ; N = N1 + N 2 .
令：
c = ( c+ , L , c+ , c− , L , c− ) T .

支持向量机(Support Vector Machine)

Cortes and Vapnik, 1995. 最大边界距离分类器。
任何不为零的常数。
4.1 Fisher线性判别

Fisher最佳投影方向的求解：

要求：
St = S1 + S 2 正定。
否则，存在投影方向
T
w ，使得
w St w = 0. 所有数据被投影到一点上！ J F ( w) 没有极大值。
4.1 Fisher线性判别

求出最佳投影方向上任何一个 w 即可。
{( xi , yi ), i = 1,2,L n}
x
g(x)
y

最简单的判别函数是线性函数，相应的分类面是超平面。
4.0 引言

线性判别函数（两类）： > 0 ω1 T g ( x) = w x + b < 0 ω 2

设计线性分类器的关键是给出估计w, 的准则。
g ( x) = 0 是分类面方程； w 是分类面的法向量； b 是分类面的偏移；
4.1 Fisher线性判别
•均值向量和离散度矩阵
1 mi = ∑ x N
i = 1,2
T
Si = ∑ ( x − mi )( x − mi )
(
)
i = 1,2
4.1 Fisher线性判别

原始数据与做 w 方向投影后数据统计量之间的关系：
µ i = w mi ,
T
σ i = ∑ ( w x − µi )
第四章线性判别函数

4.0 4.1 4.2 4.3 4.4
引言 Fisher线性判别最小平方误差准则最小错分样本数准则线性支持向量机（SVM）
4.0 引言
4.0 引言

Bayes决策尽管是最优决策，但实现困难。

模式识别的任务是分类，可直接设计判别函数 — 即分类面。
4.0 引言
平方误差和：
n 2 n T 2 2
J s (a ) = ∑ ( g ( xi ) − ci ) = ∑ (a zi − ci ) = Za − c
i =1 i =1
4.2 最小平方误差准则

增广权向量的求解：
∇J s (a ) = 2 Z T ( Za − c).
Z Za = Z c.
T T
一般样本数大于维数, ( Z
T
wopt =
c
λ
St (m1 − m2 ).
−1
4.1 Fisher线性判别

只关心投影的方向：
wopt = S t (m1 − m2 ) = ( S1 + S 2 ) (m1 − m2 ).
−1
−1
4.1 Fisher线性判别

分类阈值 b 的确定：

两类均值的中点：
b=

µ1 + µ 2
2
第一类第二类
同类样本对应相同值，投影方向 w 与Fisher判别器所得结果相同。
4.2 最小平方误差准则

解释：这时，最小平方误差相当于给定类间距的条件下，使类内距最小。
2 i i
Za − c = ∑ (a T zi − ci ) 2 =∑ ( wT xi + b − ci ) 2 = ∑ ( wT xi + b − c+ ) 2 +
w S t w = 1.
T

因为 S t 正定！

四线性判别函数

合集下载

ch41线性判别函数

模式识别(4-1)

线性判别函数-Fisher

模式识别总结

模式识别课件第四章线性判别函数

第4章线性分类器

fisher判别函数

模式识别习题及答案

模式识别(4-2)

线性分类器

4.判别分析

线性判别分析LDA

模式识别

模式识别第4章线性判别函数

第3章--判别函数及几何分类法

[工学]模式识别第4章线性判别函数

文档推荐

最新文档

四线性判别函数

合集下载

ch41线性判别函数

模式识别(4-1)

线性判别函数-Fisher

模式识别总结

模式识别课件第四章线性判别函数

第4章 线性分类器

fisher判别函数

模式识别习题及答案

模式识别(4-2)

线性分类器

4.判别分析

线性判别分析LDA

模式识别

模式识别第4章 线性判别函数

第3章--判别函数及几何分类法

[工学]模式识别 第4章 线性判别函数

文档推荐

最新文档

第4章线性分类器

模式识别第4章线性判别函数

[工学]模式识别第4章线性判别函数