第6章 判别分析
- 格式:pptx
- 大小:1.70 MB
- 文档页数:37
《机器学习》西⽠书习题第6章习题6.1 试证明样本空间中任意点 \(\boldsymbol{x}\) 到超平⾯ \((\boldsymbol{w}, b)\) 的距离为式 \((6.2)\) . 设超平⾯为 \(\ell(\boldsymbol{w}, b)\) , \(\boldsymbol{x}\) 在 \(\ell\) 上的投影为 \(\boldsymbol{x_0}\) , 离超平⾯的距离为 \(r\) . 容易得\[\boldsymbol{w}\perp \ell \]\[\boldsymbol{x} = \boldsymbol{x_0} + r\frac{\boldsymbol{w}}{||\boldsymbol{w}||} \]\[\boldsymbol{w}^\mathrm{T}\boldsymbol{x_0} + b = 0 \]则有\[\boldsymbol{x_0} = \boldsymbol{x} - r\frac{\boldsymbol{w}}{||\boldsymbol{w}||} \]\[\begin{aligned} \boldsymbol{w}^\mathrm{T}(\boldsymbol{x} - r\frac{\boldsymbol{w}}{||\boldsymbol{w}||}) + b &= 0\\ \boldsymbol{w}^\mathrm{T}\boldsymbol{x} -r\frac{\boldsymbol{w}^\mathrm{T}\boldsymbol{w}}{||\boldsymbol{w}||} + b &= 0\\ \boldsymbol{w}^\mathrm{T}\boldsymbol{x} - r\frac{||\boldsymbol{w}||^2}{||\boldsymbol{w}||} + b &= 0\\ \boldsymbol{w}^\mathrm{T}\boldsymbol{x} + b &= r\frac{||\boldsymbol{w}||^2}{||\boldsymbol{w}||}\\ \end{aligned}\]即得\[r = \frac{\boldsymbol{w}^\mathrm{T}\boldsymbol{x} + b}{||\boldsymbol{w}||} \]由于距离是⼤于等于 \(0\) 的, 所以结果再加上绝对值\[r = \frac{\left|\boldsymbol{w}^\mathrm{T}\boldsymbol{x} + b\right|}{||\boldsymbol{w}||}\tag{6.2} \]6.2 试使⽤ \(\mathrm{LIBSVM}\) , 在西⽠数据集 \(3.0\alpha\) 上分别⽤线性核和⾼斯核训练⼀个 \(\mathrm{SVM}\) , 并⽐较其⽀持向量的差别.6.3 选择两个 \(\mathrm{UCI}\) 数据集, 分别⽤线性核和⾼斯核训练⼀个 \(\mathrm{SVM}\) , 并与 \(\mathrm{BP}\) 神经⽹络和 \(\mathrm{C4.5}\) 决策树进⾏实验⽐较.6.4 试讨论线性判别分析与线性核⽀持向量机在何种条件下等价. 线性判别分析能够解决 \(n\) 分类问题, ⽽ \(\mathrm{SVM}\) 只能解决⼆分类问题, 如果要解决 \(n\) 分类问题要通过 \(\mathrm{OvR(One\ vs\ Rest)}\) 来迂回解决. 线性判别分析能将数据以同类样例间低⽅差和不同样例中⼼之间⼤间隔来投射到⼀条直线上, 但是如果样本线性不可分, 那么线性判别分析就不能有效进⾏, ⽀持向量机也是. 综上, 等价的条件是:数据有且仅有 2 种, 也就是说问题是⼆分类问题.数据是线性可分的.6.5 试述⾼斯核 \(\mathrm{SVM}\) 与 \(\mathrm{RBF}\) 神经⽹络之间的联系. 实际上都利⽤了核技巧, 将原来的数据映射到⼀个更⾼维的空间使其变得线性可分.6.6 试析 \(\mathrm{SVM}\) 对噪声敏感的原因. \(\mathrm{SVM}\) 的特性就是 "⽀持向量" . 即线性超平⾯只由少数 "⽀持向量" 所决定. 若噪声成为了某个 "⽀持向量" —— 这是⾮常有可能的. 那么对整个分类的影响是巨⼤的.反观对率回归, 其线性超平⾯由所有数据共同决定, 因此⼀点噪声并⽆法对决策平⾯造成太⼤影响.6.7 试给出试 \((6,52)\) 的完整 \(\mathrm{KKT}\) 条件.\(\mathrm{KKT}\) 条件:\[\begin{cases} \xi_i \geqslant 0\\ \hat{\xi}_i \geqslant 0\\ f(\boldsymbol{x}_i) - y_i - \epsilon - \xi_i \leqslant 0\\ y_i - f(\boldsymbol{x}_i) - y_i - \epsilon - \hat{\xi}_i \leqslant 0\\ \mu_i\geqslant 0\\ \hat{\mu}_i \geqslant 0\\ \alpha_i \geqslant 0\\ \hat{\alpha}_i \geqslant 0\\ \mu_i\xi_i = 0\\ \hat{\mu}_i\hat{\xi}_i = 0\\ \alpha_i(f(\boldsymbol{x}_i) - y_i - \epsilon - \xi_i) = 0\\ \hat{\alpha}_i(y_i - f(\boldsymbol{x}_i) - y_i - \epsilon - \hat{\xi}_i) = 0 \end{cases}\]6.8 以西⽠数据集 \(3.0\alpha\) 的 "密度" 为输⼊, "含糖率" 为输出, 试使⽤ \(\mathrm{LIBSVM}\) 训练⼀个 \(\mathrm{SVR}\).6.9 试使⽤核技巧推⼴对率回归, 产⽣ "核对率回归" . 可以发现, 如果使⽤対率损失函数 \(\ell_{log}\) 来代替式 \((6.29)\) 中的 \(0/1\) 损失函数, 则⼏乎就得到了対率回归模型 \((3.27)\) . 我们根据原⽂, 将损失函数换成 \(\ell_{log}\), 再使⽤核技巧, 就能实现 "核対率回归" .6.10* 试设计⼀个能显著减少 \(\mathrm{SVM}\) 中⽀持向量的数⽬⽽不显著降低泛化性能的⽅法. 可以将⼀些冗余的⽀持向量去除到只剩必要的⽀持向量. ⽐如在⼆维平⾯, 只需要 \(3\) 个⽀持向量就可以表达⼀个⽀持向量机, 所以我们将⽀持向量去除到只剩 \(3\) 个.更⼴泛的情况是, 若是 \(n\) 维平⾯, 那么只需要 \(n + 1\) 个⽀持向量就能表达⼀个⽀持向量机.资料推荐。
《应用多元分析》(第四版)JMP12.1的应用王学民说明:本文侧重于JMP12.1的菜单操作,其输出结果有许多与SAS9.3的输出结果相同或类似,对于这些部分本文未作输出说明,可参见《应用多元分析》(第四版,王学民编著)各章附录1(SAS的应用)或书中的有关例题。
读者首先进入上财教学网/,点击:教师主页→统计与管理学院→王学民→《应用多元分析》(第四版)配书资料下载,下载的资料中有一个“《应用多元分析》(第四版)Excel数据”文件夹,本文均从该文件夹中打开数据表。
在主窗口(见图1)中,选择文件 打开…,即出现如图2所示的“打开数据文件”窗口,选择窗口左边列表框中Excel数据所在的文件夹,双击窗口中的数据表名即出现“Excel 导入向导”窗口(见图3),在该窗口中点击导入,即可打开数据表。
图1图2图3第三章多元正态分布一、对例3.4.2进行相关分析等打开examp3.4.2.xlsx数据表(见图3.1)⇒选择分析⇒多元方法 >⇒多元,随即出现“多元与相关性”对话框(见图3.2)⇒选择x1,x2,x3,x4,x5,x6,x7,并点击Y,列(或将其拖入“Y,列”列表框内)⇒确定⇒在出现的“多元”窗口中(见图3.3),点击“多元”旁的红色小三角或在右边空白处点击右键,出现图中菜单,做该菜单中的选择可得相应的结果。
图3.1图3.2图3.3图3.3(续)注:“偏相关性”中的值是给定其他5个变量后求得的两个变量间的偏相关系数。
在图3.3(续)中,点击“散点图矩阵”旁的红色小三角菜单,做图中选择。
在图 3.3的菜单中,选择三维椭圆图,出现如图3.4所示的对话框,点击确定,得到可旋转的三维椭圆图,如图3.5所示。
图3.4图3.5二、对pic3.1.2.xlsx数据表作二元正态密度椭圆线打开pic3.1.2.xlsx数据表⇒分析⇒以X拟合Y⇒在图3.6中选择y→Y,响应;选择x →X,因子⇒确定⇒在随即出现的窗口中(见图3.7),点击“二元拟合”旁的红色小三角,做该图中菜单的选择⇒在弹出的对话框中(见图3.8),填入概率值→确定,重复操作,在图3.8中分别填入概率值:0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,0.95,0.99),生成图3.9。
第一章:多元统计分析研究的容(5点)1、简化数据结构(主成分分析)2、分类与判别(聚类分析、判别分析)3、变量间的相互关系(典型相关分析、多元回归分析)4、多维数据的统计推断5、多元统计分析的理论基础第二三章:二、多维随机变量的数字特征1、随机向量的数字特征随机向量X 均值向量:随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。
随机向量X 与Y 的相关系数矩阵:2、均值向量协方差矩阵的性质(1).设X ,Y 为随机向量,A ,B 为常数矩阵E (AX )=AE (X );E (AXB )=AE (X )B;D(AX)=AD(X)A ’;Cov(AX,BY)=ACov(X,Y)B ’;)',...,,(),,,(2121P p EX EX EX EX μμμ='= )')((),cov(EY Y EX X E Y X --=q p ij r Y X ⨯=)(),(ρ(2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立.(3).X 的协方差阵D(X)是对称非负定矩阵。
例2.见黑板三、多元正态分布的参数估计2、多元正态分布的性质(1).若 ,则E(X)= ,D(X)= .特别地,当 为对角阵时, 相互独立。
(2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量,AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立.(4).多元正态分布的不相关与独立等价.例3.见黑板.三、多元正态分布的参数估计(1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量样本均值向量 =样本离差阵S= 样本协方差阵V= S ;样本相关阵R(3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析:一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
第六章 判别分析§6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。
在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类.例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病.总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类.对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多.判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。