机器学习复习重点

  • 格式:docx
  • 大小:84.23 KB
  • 文档页数:4

下载文档原格式

  / 4
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习复习重点

判断题(共30分,每题2分,打√或×)

1、如果问题本身就是非线性问题,使用支持向量机(SVM )是难以取得好的预测效果的。(×)

2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。(×)

3、深度学习中应该尽量避免过拟合。(×)

4、在随机森林Bagging 过程中,每次选取的特征个数为m ,m 的值过大会降低树之间的关联性和单棵树的分类能力。(×)

5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。(√)

6、在FCM 聚类算法中交替迭代优化目标函数的方法不一定得到最优解。(√)

7、在流形学习ISOMAP 中,测地距离即是欧氏距离。(×)

8、贝叶斯决策实质上是按后验概率进行决策的。(√)

9、非参数估计需要较大数量的样本才能取得较好的估计结果。(√)

10、不需要显示定义特征是深度学习的优势之一。(√)

判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;

问答题(共60分)

1、 从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。

监督参数估计:样本所属的类别和各类的类条件概率密度函数的形式是已知的,而表征概率密度函数的某些参数是未知的。

非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,要求判断出概率密度函数的某些参数。

非参数估计:已知样本所属类别,但未知各类的概率密度函数的形式,要求我们直接推断概率密度函数本身。

2、什么是k-近邻算法?

k-近邻算法的基本思想(3分):未知样本x ,根据度量公式得到距离x 最近的k 个样本。统计这k 个样本点中,各个类别的数量。数量最多的样本是什么类别,我们就把这个数据点定为什么类别。

,argmax (),K m n n n

x m k k n ω==是个样本中第类的样本个数

m 为所求类别。

3、 决策树的C4.5算法与ID3算法相比主要有哪些方面的改进?

1) 用信息增益比来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2) 增加了后剪枝操作。

3) 能够完成对连续属性的离散化处理;

4)能够处理属性存在不同损失的情况;

5)能够对不完整数据进行处理。

4、就您的理解,谈谈什么是集成学习?集成学习要想取得好的效果,应该满足的两个条件是什么?

集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。

集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。

必要条件:

被集成的各个基学习器(分类器)性能越高(分类正确率越高)越好。

各个基学习器(分类器)具有互补性,或者说互补性越大越好。

5、就您的理解,谈谈什么是半监督学习?请简要介绍Co-training的基本思想

半监督学习(Semi-supervised Learning)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。常用的半监督学习方法有co-training、self-training、S3VMS等。

Co-training 的基本思想:在两个分离的视图上,用有标记的样本训练两个不同的分类器,用这两个分类器分别对无标记的样本进行分类,得到的一定数量的标记样本在后续的训练分类中为对方所用。Co-training的原则是在不牺牲性能的前提下,尽量多的使用无标记数据,他的优点是无需人工干涉,自动的从无标记样本中学习到知识。

6、就您的理解,请分别概述何谓代价敏感性学习、何谓类别不平衡学习。

(1)不同错误的代价或者是后果是不一样的,甚至差别很大。

(2)不追求总的错误率最小,而是尽量避免代价大的分类错误,是代价敏感性学习的基本思想。

(3)在代价敏感性学习的思想下,要使分界面远离分类错误代价大的那一类,或者说尽量减少犯分类代价大的那类错误。

类别不平衡学习:类别不平衡问题是训练样本集其中一类的数量远小于另一类的数量。

在算法和数据方面,有各种解决方案。在数据层面,有各种重新采样的方法,如随机过采样,随机欠采样等。在算法层面,我们可以调整类别的损失,调整决策的阈值等。

7、试简述流型学习方法ISOMAP的基本思想及其优缺点。

保持数据点内在几何性质,即保持两点的测地线距离。

ISOMAP第一次提到了“测地距离”这一概念,将欧氏距离的概念引入到流形中去,将原来的普通算法映射到流形中,用“测地距离”来表示在流形中两点间的真实距离。

ISOMAP的优点:可以最大限度的保留原始数据的信息。缺点:适用范围有限,流形必须是内部平坦的;计算每两个点的距离,时间复杂度较大。

8、就您的理解,请概述何谓多标记学习。

对具有多个不同概念标记的对象进行有效地建模。学习系统通过对具有一组概念标记(label set)的训练例进行学习,以尽可能正确地对训练集之外示例的概念集合进行预测。

形式化地说,多标记学习的任务是从数据集{(x1,Y1), (x2,Y2),…,(xm,Ym)}中学得函数f:x

→2y ,其中xi ∈x 为一个示例而Yiy 为示例xi 所属的一组概念标记。

9、就您的理解,谈谈什么是聚类?请简要介绍您所熟悉的一种聚类方法。

聚类是将多个对象按照某种相似度的度量方式分成不同的组(簇)。

K-means 聚类:

算法过程:

选择K 个点作为初始质心

Repeat

将每个点指派到离它最近的质心,形成K 个簇

重新计算每个簇的质心

Until 簇不再发生变化或者达到最大迭代次数

计算题(共10分)

1、有如图所示的神经网络。 Squash function 为:,1()1,1x x f x x ≥⎧=⎨<⎩

,输入样本121,0x x ==,输出节点为z ,第k 次学习得到的权值为:

1112212212()0,()2,()2,()1,()1,()1w k w k w k w k T k T k ======。试求第k 次前向传播学习得到的输出节点值()z k ,请给出求解过程和结果。

计算如下:

第k 次训练的正向过程如下:

隐藏层结点的值

2

1111()()(0120)(0)1j j j y f w x f net f f ====⨯+⨯==∑

2

)2()0112()()(22122==⨯+⨯==∑==f f net f x w f y j j j

输出层结点的值