第6章机器学习
- 格式:pdf
- 大小:992.99 KB
- 文档页数:80
《机器学习》西⽠书习题第6章习题6.1 试证明样本空间中任意点 \(\boldsymbol{x}\) 到超平⾯ \((\boldsymbol{w}, b)\) 的距离为式 \((6.2)\) . 设超平⾯为 \(\ell(\boldsymbol{w}, b)\) , \(\boldsymbol{x}\) 在 \(\ell\) 上的投影为 \(\boldsymbol{x_0}\) , 离超平⾯的距离为 \(r\) . 容易得\[\boldsymbol{w}\perp \ell \]\[\boldsymbol{x} = \boldsymbol{x_0} + r\frac{\boldsymbol{w}}{||\boldsymbol{w}||} \]\[\boldsymbol{w}^\mathrm{T}\boldsymbol{x_0} + b = 0 \]则有\[\boldsymbol{x_0} = \boldsymbol{x} - r\frac{\boldsymbol{w}}{||\boldsymbol{w}||} \]\[\begin{aligned} \boldsymbol{w}^\mathrm{T}(\boldsymbol{x} - r\frac{\boldsymbol{w}}{||\boldsymbol{w}||}) + b &= 0\\ \boldsymbol{w}^\mathrm{T}\boldsymbol{x} -r\frac{\boldsymbol{w}^\mathrm{T}\boldsymbol{w}}{||\boldsymbol{w}||} + b &= 0\\ \boldsymbol{w}^\mathrm{T}\boldsymbol{x} - r\frac{||\boldsymbol{w}||^2}{||\boldsymbol{w}||} + b &= 0\\ \boldsymbol{w}^\mathrm{T}\boldsymbol{x} + b &= r\frac{||\boldsymbol{w}||^2}{||\boldsymbol{w}||}\\ \end{aligned}\]即得\[r = \frac{\boldsymbol{w}^\mathrm{T}\boldsymbol{x} + b}{||\boldsymbol{w}||} \]由于距离是⼤于等于 \(0\) 的, 所以结果再加上绝对值\[r = \frac{\left|\boldsymbol{w}^\mathrm{T}\boldsymbol{x} + b\right|}{||\boldsymbol{w}||}\tag{6.2} \]6.2 试使⽤ \(\mathrm{LIBSVM}\) , 在西⽠数据集 \(3.0\alpha\) 上分别⽤线性核和⾼斯核训练⼀个 \(\mathrm{SVM}\) , 并⽐较其⽀持向量的差别.6.3 选择两个 \(\mathrm{UCI}\) 数据集, 分别⽤线性核和⾼斯核训练⼀个 \(\mathrm{SVM}\) , 并与 \(\mathrm{BP}\) 神经⽹络和 \(\mathrm{C4.5}\) 决策树进⾏实验⽐较.6.4 试讨论线性判别分析与线性核⽀持向量机在何种条件下等价. 线性判别分析能够解决 \(n\) 分类问题, ⽽ \(\mathrm{SVM}\) 只能解决⼆分类问题, 如果要解决 \(n\) 分类问题要通过 \(\mathrm{OvR(One\ vs\ Rest)}\) 来迂回解决. 线性判别分析能将数据以同类样例间低⽅差和不同样例中⼼之间⼤间隔来投射到⼀条直线上, 但是如果样本线性不可分, 那么线性判别分析就不能有效进⾏, ⽀持向量机也是. 综上, 等价的条件是:数据有且仅有 2 种, 也就是说问题是⼆分类问题.数据是线性可分的.6.5 试述⾼斯核 \(\mathrm{SVM}\) 与 \(\mathrm{RBF}\) 神经⽹络之间的联系. 实际上都利⽤了核技巧, 将原来的数据映射到⼀个更⾼维的空间使其变得线性可分.6.6 试析 \(\mathrm{SVM}\) 对噪声敏感的原因. \(\mathrm{SVM}\) 的特性就是 "⽀持向量" . 即线性超平⾯只由少数 "⽀持向量" 所决定. 若噪声成为了某个 "⽀持向量" —— 这是⾮常有可能的. 那么对整个分类的影响是巨⼤的.反观对率回归, 其线性超平⾯由所有数据共同决定, 因此⼀点噪声并⽆法对决策平⾯造成太⼤影响.6.7 试给出试 \((6,52)\) 的完整 \(\mathrm{KKT}\) 条件.\(\mathrm{KKT}\) 条件:\[\begin{cases} \xi_i \geqslant 0\\ \hat{\xi}_i \geqslant 0\\ f(\boldsymbol{x}_i) - y_i - \epsilon - \xi_i \leqslant 0\\ y_i - f(\boldsymbol{x}_i) - y_i - \epsilon - \hat{\xi}_i \leqslant 0\\ \mu_i\geqslant 0\\ \hat{\mu}_i \geqslant 0\\ \alpha_i \geqslant 0\\ \hat{\alpha}_i \geqslant 0\\ \mu_i\xi_i = 0\\ \hat{\mu}_i\hat{\xi}_i = 0\\ \alpha_i(f(\boldsymbol{x}_i) - y_i - \epsilon - \xi_i) = 0\\ \hat{\alpha}_i(y_i - f(\boldsymbol{x}_i) - y_i - \epsilon - \hat{\xi}_i) = 0 \end{cases}\]6.8 以西⽠数据集 \(3.0\alpha\) 的 "密度" 为输⼊, "含糖率" 为输出, 试使⽤ \(\mathrm{LIBSVM}\) 训练⼀个 \(\mathrm{SVR}\).6.9 试使⽤核技巧推⼴对率回归, 产⽣ "核对率回归" . 可以发现, 如果使⽤対率损失函数 \(\ell_{log}\) 来代替式 \((6.29)\) 中的 \(0/1\) 损失函数, 则⼏乎就得到了対率回归模型 \((3.27)\) . 我们根据原⽂, 将损失函数换成 \(\ell_{log}\), 再使⽤核技巧, 就能实现 "核対率回归" .6.10* 试设计⼀个能显著减少 \(\mathrm{SVM}\) 中⽀持向量的数⽬⽽不显著降低泛化性能的⽅法. 可以将⼀些冗余的⽀持向量去除到只剩必要的⽀持向量. ⽐如在⼆维平⾯, 只需要 \(3\) 个⽀持向量就可以表达⼀个⽀持向量机, 所以我们将⽀持向量去除到只剩 \(3\) 个.更⼴泛的情况是, 若是 \(n\) 维平⾯, 那么只需要 \(n + 1\) 个⽀持向量就能表达⼀个⽀持向量机.资料推荐。
1.1机器学习:人脸识别、手写识别、信用卡审批。
不是机器学习:计算工资,执行查询的数据库,使用WORD。
2.1 Since all occurrence of “φ” for an attribute of the hypothesis results in a hypothesis which does not accept any instance,all these hypotheses are equal to that one where attribute is “φ”。
So the number of hypothesis is 4*3*3*3*3*3 +1 = 973.With the addition attribute Watercurrent, the number of instances = 3*2*2*2*2*2*3 = 288, the number of hypothesis = 4*3*3*3*3*3*4 +1 = 3889.Generally, the number of hypothesis = 4*3*3*3*3*3*(k+1)+1. 2。
3 Ans.S0= (φ,φ,φ,φ,φ,φ) v (φ,φ,φ,φ,φ,φ)G0 = (?, ?,?,?, ?, ?) v (?,?, ?,?, ?,?)Example 1:〈Sunny, Warm, Normal, Strong, Warm, Same, Yes>S1=(Sunny, Warm, Normal, Strong, Warm, Same) v (φ,φ,φ,φ,φ,φ)G1 = (?,?, ?,?, ?, ?) v (?,?,?, ?,?,?)Example 2: 〈Sunny, Warm, High, Strong, Warm, Same, Yes〉S2= {(Sunny, Warm, Normal, Strong, Warm, Same)v (Sunny, Warm, High, Strong, Warm, Same),(Sunny, Warm, ?, Strong, Warm, Same) v (φ,φ,φ,φ,φ,φ)}G2 = (?, ?, ?,?, ?, ?) v (?,?, ?,?, ?,?)Example 3: <Rainy, Cold, High, Strong, Warm, Change, No〉S3={(Sunny, Warm, Normal, Strong, Warm, Same)v (Sunny, Warm, High, Strong,Warm, Same),(Sunny, Warm,?, Strong, Warm, Same) v (φ,φ,φ,φ,φ,φ)}G3 = {(Sunny, ?, ?, ?, ?, ?) v (?, Warm, ?,?,?,?),(Sunny, ?, ?,?, ?, ?) v (?, ?,?,?,?, Same),(?, Warm, ?,?, ?,?) v (?, ?, ?, ?, ?, Same)}Example 4:〈Sunny, Warm, High, Strong, Cool, Change, Yes〉S4= {(Sunny, Warm,?, Strong, ?, ?) v (Sunny, Warm, High, Strong, Warm, Same), (Sunny, Warm, Normal, Strong, Warm, Same) v (Sunny, Warm, High, Strong, ?,?),(Sunny, Warm,?, Strong,?, ?) v (φ,φ,φ,φ,φ,φ),(Sunny, Warm, ?, Strong, Warm, Same)v (Sunny, Warm, High, Strong, Cool, Change)} G4 ={(Sunny,?, ?, ?, ?, ?) v (?, Warm,?,?, ?,?),(Sunny,?, ?,?, ?, ?) v (?, ?,?, ?, ?, Same),(?, Warm,?, ?, ?, ?) v (?, ?, ?,?,?, Same)}2.4 Ans. (a) S= (4,6,3,5)(b) G=(3,8,2,7)(c) e.g., (7,6), (5,4) (d) 4 points: (3,2,+), (5,9,+),(2,1,—),(6,10,-)2.6 Proof : Every member of VS H,D satisfies the right-hand side of expression 。
第6章特征的提取与选择
特征提取与选择是机器学习和模式识别领域的一个重要组成部分,它
用于改善获得的特征的性能。
特征提取和特征选择是特征工程的基础,目
的是通过提取有用的信息,优化特征以提高模型的性能。
特征提取和特征
选择有助于减少模型需要考虑的特征数量,更有效地使用数据,减少计算量,提高模型表现,控制过拟合,提高模型可解释性和改善可靠性。
现有的特征提取和特征选择方法可以分为基于深度学习的方法和基于
浅层学习的方法。
基于深度学习的方法基于深度神经网络来提取特征,它
可以自动从原始数据中提取出多层特征,从而以最佳方式捕捉数据的复杂性,为模型提供更好的表示能力。
但是,这种方法往往会带来高昂的计算
成本,并受到训练数据量的限制。
基于浅层学习的方法则是从原始数据中提取、过滤、转换和变换特征,它仅仅是用统计工具来量化每一个变量,以及建立不同特征之间的关系,
并基于关系筛选出最有效的特征。
它没有深度学习方法的计算成本高及数
据量受限的缺点,但是往往缺乏深度学习方法的表示能力。
对于特征的提取和选择,应该从相关特征的概念,特征工程的思想,
特征提取的方法,特征选择的方法等方面考虑。
机器学习原理教案第一章:机器学习概述1.1 课程简介本课程旨在介绍机器学习的基本概念、原理和主要算法,帮助学生了解机器学习在领域的应用和发展。
通过学习,学生将掌握机器学习的基本理论,具备运用机器学习算法解决实际问题的能力。
1.2 教学目标(1)了解机器学习的定义、发展历程和分类;(2)掌握监督学习、无监督学习和强化学习的基本概念;(3)了解机器学习的主要应用领域。
1.3 教学内容(1)机器学习的定义和发展历程;(2)机器学习的分类;(3)监督学习、无监督学习和强化学习的基本概念;(4)机器学习的主要应用领域。
1.4 教学方法采用讲授、案例分析和讨论相结合的教学方法,引导学生了解机器学习的基本概念,掌握各类学习的特点及应用。
1.5 教学资源(1)教材:《机器学习》;(2)课件;(3)网络资源。
1.6 教学评价通过课堂讨论、课后作业和小组项目等方式,评估学生对机器学习基本概念的理解和应用能力。
第二章:监督学习2.1 课程简介本章介绍监督学习的基本原理和方法,包括线性回归、逻辑回归、支持向量机等经典算法。
通过学习,学生将掌握监督学习的基本概念,了解不同算法的特点及应用。
2.2 教学目标(1)掌握监督学习的定义和特点;(2)了解线性回归、逻辑回归和支持向量机等基本算法;(3)学会运用监督学习算法解决实际问题。
2.3 教学内容(1)监督学习的定义和特点;(2)线性回归算法;(3)逻辑回归算法;(4)支持向量机算法;(5)监督学习在实际问题中的应用。
2.4 教学方法采用讲授、案例分析和上机实践相结合的教学方法,让学生深入了解监督学习的基本原理,熟练掌握相关算法。
2.5 教学资源(1)教材:《机器学习》;(2)课件;(3)上机实验教材;(4)网络资源。
2.6 教学评价通过上机实验、课后作业和课堂讨论等方式,评估学生对监督学习算法理解和应用能力。
第三章:无监督学习3.1 课程简介本章介绍无监督学习的基本原理和方法,包括聚类、降维等关键技术。
第二章模型评估与选择1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取150)2。
法应该是(C5002.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。
3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。
9.试述卡方检验过程。
第三章线性模型2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。
如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。
3.编程实现对率回归,并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。
/icefire_tyh/article/details/520689005.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。
周志华⽼师《机器学习》复习要点(持续更新)周志华⽼师《机器学习》复习要点第6章:⽀持向量机6.1 间隔与⽀持向量:1. 超平⾯的⽅程是什么?(设w与x都是列向量)同⼀个超平⾯是有⽆穷组(w,b)吗?什么变换可以由其中⼀组得到所有组?2. 超平⾯的⽅向由w完全确定吗?原点到超平⾯的距离由w决定还是w和b共同决定?3. 为什么对于超平⾯两侧的点的判别式的右侧可以直接令为正负1?4. 什么是⽀持向量?5. 当被优化⽬标被转化为1/2倍的w平⽅的时候,这个问题变成了什么规划问题?6.2 对偶问题:1. 拉格朗⽇乘数法针对的是什么优化问题?2. 引⼊乘⼦后,可以将d个变量和k个约束转化为什么问题?3. 什么是KKT条件?4. 什么时候需要引⼊KKT条件?5. 能不能快速写出m个等式约束和n个不等式约束的对偶问题对应的KKT条件?6. 对偶函数与主问题最优值的关系是什么?7. ⽆论主问题是不是凸优化问题,对偶问题⼀定都是凸优化问题吗?8. 什么是弱对偶性,什么是强对偶性,举出⼀种常见的满⾜强对偶性的主问题需要满⾜的条件?9. 对于基本的线性可分的SVM模型,KKT条件决定了SVM的什么性质?10. SMO算法的基本思路是什么?6.3 核函数:1. 什么是核函数?2. 为什么要引⼊核函数?3. 核函数⼀定存在吗?4. 有哪些常见的核函数?5. 核函数决定的⾼维特征空间可能是⽆穷维吗?6. 为什么说核函数的选择是SVM使⽤时最⼤的变数?7. 现实任务中,关于核函数的选择,我们应该在哪两个问题中做权衡,换句话说,⾼维空间内线性可分会不会是过拟合导致的?6.4 软间隔与正则化:1. 软间隔与松弛变量的关系是什么?2. 那些不满⾜约束条件的变量⼀开始是靠什么函数放进优化⽬标函数⾥的?3. 实际中我们应该使⽤它吗?4. 常见⽤于替代0,1符号变量的替代损失函数有哪些?5. SVM选择哪个?6. 之所以选择它是因为只有它保证了SVM的什么性质?7. 由软间隔与正则化引申出的此类机器学习模型的通⽤解释是什么?(结构风险最⼩化与经验风险最⼩化之间的权衡)8. L2范数倾向于使数据?9. ⽽L1和L0范数倾向于使数据?6.5 ⽀持向量回归:6.6 核⽅法:习题:第5章:神经⽹络5.3 误差反向传播算法:1. 多层前馈⽹络的输⼊层神经元个数与输出层神经元个数由什么决定?2. 对于输⼊层,隐含层,输出层分别有d,q,l个神经元的神经⽹络,⼀共有多少个参数需要确定?3. sigmoid⼀个关于求导的优良特性是?4. 恒定学习率的多层前馈⽹络的超参数有⼏个?5. 如何初始化⽹络权值和阈值?6. 能否有两个神经元的初始化的值相等?7. 能否快速写出单隐含层前馈神经⽹络的伪代码?8. 累积误差BP算法与标准BP算法的区别?优缺点?如何选择?9. 神经⽹络的强⼤表⽰能⼒同时带来的缺点是什么?10. ⼀般来说,解决这个问题的两种思路是?5.4 全局最⼩与局部极⼩:1. 常⽤的⽤来跳出局部极⼩值的技术有?5.5 ⼏种常见的其他神经⽹络:1. RBF⽹络是靠增加隐含层神经元还是增加隐含层数来实现逼近任意函数的?2. 什么是径向基函数?3. 训练RBF神经⽹络与普通的多层前馈⽹络有什么区别?4. ART⽹络5. SOM⽹络6. ⽹络级联7. Elman⽹络(RNN递归神经⽹络)。