第二版机器学习答案
- 格式:docx
- 大小:137.26 KB
- 文档页数:5
机器学习模拟题与参考答案一、单选题(共114题,每题1分,共114分)1.机器学习这个术语是由( )定义的?A、Arthur SamuelB、Guido van RossumC、James GoslingD、以上都不是正确答案:A2.在一个线性回归问题中,我们使用 R 平方(R-Squared)来判断拟合度。
此时,如果增加一个特征,模型不变,则下面说法正确的是?A、如果 R-Squared 增加,则这个特征有意义B、如果R-Squared 减小,则这个特征没有意义C、仅看 R-Squared 单一变量,无法确定这个特征是否有意义。
D、以上说法都不对正确答案:C3.在SVM中, margin的含义是()A、损失误差B、间隔C、幅度D、差额正确答案:B4.下列哪种方法可以用来缓解过拟合的产生:( )。
A、正则化B、增加更多的特征C、以上都是D、增加模型的复杂度正确答案:A5.当数据分布不平衡时,我们可采取的措施不包括( )。
A、对数据分布较少的类别过采样B、对数据分布较多的类别欠采样C、对数据分布较少的类别赋予更大的权重D、对数据分布较多的类别赋予更大的权重正确答案:D6.同质集成中的个体学习器亦称()A、异质学习器B、同质学习器C、基学习器D、组件学习器正确答案:C7.以下哪些是无序属性()A、{小,中,大}B、闵可夫斯基距离C、{飞机,火车、轮船}D、{1,2,3}正确答案:C8.下列关于过拟合的说法错误的是A、过拟合是指模型在训练集上表现很好,但是在交叉验证集和测试集上表现一般B、解决过拟合可以采用Dropout方法C、解决过拟合可以采用参数正则化方法D、数据集扩增不能用来解决过拟合问题正确答案:D9.神经网络算法有时会出现过拟合的情况,那么采取以下哪些方法解决过拟合更为可行()。
A、减少训练数据集中数据的数量B、增大学习的步长C、为参数选取多组初始值,分别训练,再选取一组作为最优值D、设置一个正则项减小模型的复杂度正确答案:D10.下列是机器学习中降维任务的准确描述的为A、依据某个准则对项目进行排序B、将其映射到低维空间来简化输入C、预测每个项目的实际值D、对数据对象进行分组正确答案:B11.对于在原空间中线性不可分问题,支持向量机()。
第八章机器学习8.2答:(1)学习是一项复杂的智能活动,学习过程与推理过程是紧密相连的学习中所用的推理越多,系统的能力越强(2)机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问“机器”——计算机(电子,以后还可能是中子计算机、光子计算机或神经计算机等)8.3答:机器学习系统的结构及基本功能当监督环节为示教人时,为示教式学习系统;当监督环节为监督器时,为自学式学习系统。
①知识库存储(记忆)、积累知识·长期记忆(LTM)先验知识背景如事物的基本概念和定义、定律和公理,博弈的基本规则等·中期记忆(MTM)环境事物的各种具体知识·短期记忆(STM)环境变化的信息和数据事实库或“黑板②学习元学习系统的核心环节·采集环境信息息选例环节或直接采集·接受监督指导监督环节的示教、指导信息或评价准则·进行学习推理获得有关问题的解答和结论·修改知识库将推理结果输入知识库,对知识增删改③执行元识别、论证、决策、判定模式分类器、专家咨询解释系统、智能控制机构、机械手/人等如执行元行动结果直接引起环境的变化 “在线”学习系统机器人规划、生产过程控制、机器博弈等④监督环节人:示教者;监督器:评价准则或检验标准·工作执行效果评价——接受来自执行元环节的反馈信息,对系统的工作执行效果进行评价和检验·制定评价标准——接受来自环境变化的信息,制定和修订评价标准和检验标准·监督学习环节——根据评价和检验的结果,对学习环节进行示教、训练或指导·控制选例环节——根据环境变化信息及工作执行效果的反馈,控制选例环节,选取其它事例或样本⑤选例环节作用是从环境中选取有典型意义的事例或样本,作为系统的训练集或学习对象。
如挑选典型病历,以便提高学习效率,加速学习过程。
选例环节可以由人或机器来实现⑥环境系统获取知识和信息的来源,执行的对象和人物等。
机器学习(周志华)参考答案第一章 绪论(略)第二章模型评估与选择1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取150)2。
法应该是(C5002.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。
3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
Array4.试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。
9.试述卡方检验过程。
第三章线性模型2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。
如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。
3.编程实现对率回归,并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。
/icefire_tyh/article/details/520689005.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。
一、判断题(共30分,每题2分,打诚X)1、如果问题本身就是非线性问题,使用支持向量机(SVM )是难以取得好的预测效果的。
(X)2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。
(X)3、深度学习中应该尽量避免过拟合。
(X)4、在随机森林Bagging过程中,每次选取的特征个数为m, m的值过大会降低树之间的关联性和单棵树的分类能力。
(X)5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。
(V)6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解。
(V)7、在流形学习ISOMAP中,测地距离即是欧氏距离。
(X)8、贝叶斯决策实质上是按后验概率进行决策的。
(V)9、非参数估计需要较大数量的样本才能取得较好的估计结果。
(V)10、不需要显示定义特征是深度学习的优势之一。
(V)判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;尹老师没有给出问答题的参考答案是怕限制大家的思路,我简要给出答题思路,仅供大家参考。
我发现好几个问题直接百度就可以找到答案,大家不妨自己搜一下。
也可以看一下机器学习十大算法那个PDF文件。
Co-training和ensemble learning两个文件大家有时间可以看一下了解了解。
二、问答题(共60分)1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。
3种方法:监督参数估计、非监督参数估计、非参数估计这个可以参照第三章概率密度函数估计-1.ppt,写的不能再详细了。
监督参数估计:样本所属类别及类条件总体概率密度的形式已知,而表征概率密度函数的某些参数未知,需要根据样本集对总体分布中的某些参数进行估计。
非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,需要根据样本集对总体分布中的某些参数进行估计。
非参数估计:已知样本所属类别,未知总体概率密度的形式,需要依据样本集直接推断概率密度函数2、什么是k-近邻算法?K近邻算法,即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K 个实例(也就是K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
机器学习考试题目答案1.简描述机器学习概念?TomMitCheI1:"对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习J 我们遇到的大部分事情一般包括分类问题与回归问题。
如房价的预测,股价的预测等属于分类问题。
一般的处理过程是:首先,1)获取数据;2)提取最能体现数据的特征;3)利用算法建模;4)将建立的模型用于预测。
如人脸识别系统,首先我们获取到一堆人脸照片,首先,对数据进行预处理,然后提取人脸特征,最后用算法如SVM或者NN等。
这样,我们就建立了一个人脸识别系统,当输入一张人脸,我们就知道这张面孔是否在系统中。
这就是机器学习的整个流程,其次还包括寻找最优参数等。
机器学习主要分为:监督学习:数据集是有标签的,大部分机器学习模型都属于这一类别,包括线性分类器、支持向量机等等;无监督学习:跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要IabeI,比如著名的kmeans算法就是无监督学习应用最广泛的算法;半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;2.循环神经网络的基本原理?RNNS的目的是用来处理序列数据。
在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。
但是这种普通的神经网络对于很多问题却无能无力。
例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。
RNNS之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。
具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
第二章 模型评估与选择1.数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式。
一个组合问题,从500500正反例中分别选出150150正反例用于留出法评估,所以可能取法应该是(C 500150)2。
2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本数较多的类别(训练样本数相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行评估所得的结果。
10折交叉检验:由于每次训练样本中正反例数目一样,所以讲结果判断为正反例的概率也是一样的,所以错误率的期望是5050%。
留一法:如果留下的是正例,训练样本中反例的数目比正例多一个,所以留出的样本会被判断是反例;同理,留出的是反例,则会被判断成正例,所以错误率是100%。
3.若学习器A 的F1值比学习器B 高,试析A 的BEP 值是否也比B 高。
4.试述真正例率(TPR )、假正例率(FPR )与查准率(P )、查全率(R )之间的联系。
查全率: 真实正例被预测为正例的比例真正例率: 真实正例被预测为正例的比例显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例假正例率: 真实反例被预测为正例的比例两者并没有直接的数值关系。
第一章 绪论(略)机器学习(周志华)参考答案9.试述卡方检验过程。
第三章线性模型2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对数似然函数(式2)是凸的。
如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。
3.编程实现对率回归,并给出西瓜数据集3.0α上的结果/icefire_tyh/article/details/520688444.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。
/icefire_tyh/article/details/520689005.编程实现线性判别分析,并给出西瓜数据集3.0α上的结果。
1.1. Give three computer applications for which machine learning approaches seem appropriate and three for which they seem inappropriate. Pick applications that are not already mentioned in this chapter, and include a one-sentence justification for each.Ans.Machine learning: Face recognition, handwritten recognition, credit card approval.Not machine learning: calculate payroll, execute a query to database, use WORD.2.1. Explain why the size of the hypothesis space in the EnjoySport learning task is 973. How would the number of possible instances and possible hypotheses increase with the addition of the attribute WaterCurrent, which can take on the values Light, Moderate, or Strong? More generally, how does the number of possible instances and hypotheses grow with the addition of a new attribute A that takes on k possible values?Ans.Since all occurrence of “φ” for an attribute of the hypothesis results in a hypothesis which does not accept any instance, all these hypotheses are equal to that one where attribute is “φ”. So the number of hypothesis is 4*3*3*3*3*3 +1 = 973.With the addition attribute Watercurrent, the number of instances = 3*2*2*2*2*2*3 = 288, the number of hypothesis = 4*3*3*3*3*3*4 +1 = 3889.Generally, the number of hypothesis = 4*3*3*3*3*3*(k+1)+1.2.3. Consider again the EnjoySport learning task and the hypothesis space H described in Section 2.2. Let us define a new hypothesis space H' that consists of all pairwise disjunctions of the hypotheses in H. For example, a typical hypothesis in H' is (?, Cold, High, ?, ?, ?) v (Sunny, ?, High, ?, ?, Same) Trace the CANDIDATE-ELIMINATATION algorithm for the hypothesis space H' given the sequence of training examples from Table 2.1 (i.e., show the sequence of S and G boundary sets.)Ans.S0= (φ,φ,φ,φ,φ,φ) v (φ,φ,φ,φ,φ,φ)G0 = (?, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, ?)Example 1: <Sunny, Warm, Normal, Strong, Warm, Same, Yes>S1=(Sunny, Warm, Normal, Strong, Warm, Same)v (φ,φ,φ,φ,φ,φ)G1 = (?, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, ?)Example 2: <Sunny, Warm, High, Strong, Warm, Same, Yes>S2= {(Sunny, Warm, Normal, Strong, Warm, Same)v (Sunny, Warm, High, Strong, Warm, Same),(Sunny, Warm, ?, Strong, Warm, Same) v (φ,φ,φ,φ,φ,φ)}G2 = (?, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, ?)Example 3: <Rainy, Cold, High, Strong, Warm, Change, No>S3={(Sunny, Warm, Normal, Strong, Warm, Same)v (Sunny, Warm, High, Strong, Warm, Same),(Sunny, Warm, ?, Strong, Warm, Same) v (φ,φ,φ,φ,φ,φ)}G3 = {(Sunny, ?, ?, ?, ?, ?) v (?, Warm, ?, ?, ?, ?),(Sunny, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, Same),(?, Warm, ?, ?, ?, ?) v (?, ?, ?, ?, ?, Same)}Example 4: <Sunny, Warm, High, Strong, Cool, Change, Yes>S4= {(Sunny, Warm, ?, Strong, ?, ?) v (Sunny, Warm, High, Strong, Warm, Same),(Sunny, Warm, Normal, Strong, Warm, Same) v (Sunny, Warm, High, Strong, ?, ?),(Sunny, Warm, ?, Strong, ?, ?)v (φ,φ,φ,φ,φ,φ),(Sunny, Warm, ?, Strong, Warm, Same)v (Sunny, Warm, High, Strong, Cool, Change)}G4 = {(Sunny, ?, ?, ?, ?, ?) v (?, Warm, ?, ?, ?, ?),(Sunny, ?, ?, ?, ?, ?) v (?, ?, ?, ?, ?, Same),(?, Warm, ?, ?, ?, ?) v (?, ?, ?, ?, ?, Same)}2.4. Consider the instance space consisting of integer points in the x, y plane and the set of hypotheses H consisting of rectangles. More precisely, hypotheses are of the form a ≤x ≤ b, c ≤ y≤d, where a, b, c, and d can be any integers.(a) Consider the version space with respect to the set of positive (+) and negative (-) training examples shown below. What is the S boundary of the version space in this case? Write out the hypotheses and draw them in on the diagram.(b) What is the G boundary of this version space? Write out the hypotheses and draw them in.(c) Suppose the learner may now suggest a new x, y instance and ask the trainer for its classification. Suggest a query guaranteed to reduce the size of the version space, regardless of how the trainer classifies it. Suggest one that will not.(d) Now assume you are a teacher, attempting to teach a particular target concept (e.g., 3 ≤ x ≤ 5,2 ≤ y ≤ 9). What is the smallest number of training examples you can provide so that the CANDIDATE-ELIMINATION algorithm will perfectly learn the target concept?Ans. (a) S= (4,6,3,5) (b) G=(3,8,2,7) (c) e.g., (7,6), (5,4) (d) 4 points: (3,2,+), (5,9,+),(2,1,-),(6,10,-)2.6. Complete the proof of the version space representation theorem (Theorem 2.1).Proof: Every member of VS H,D satisfies the right-hand side of expression.Let h be an arbitrary member of VS H,D, then h is consistent with all training examples in D. Assuming h does not satisfy the right-hand side of the expression, it means ¬(∃s∈S)∃(g∈G)(g ≥ h ≥ s) = ¬(∃s∈S)∃(g∈G) (g ≥ h) ∧ (h ≥ s). Hence, there does not exist g from G so that g is more general or equal to h or there does not exist s from S so that h is more general or equal to s.If the former holds, it leads to an inconsistence according to the definition of G. If the later holds, itleads to an inconsistence according to the definition of S. Therefore, h satisfies the right-hand side of the expression. (Notes: since we assume the expression is not fulfilled, this can be only be if S or G is empty, which can only be in the case of any inconsistent training examples, such as noise or the concept target is not member of H.)。
一、单选题1、下列哪位是人工智能之父?()A.MarnivLeeMinskyB.HerbertA.SimonC.AllenNewellD.JohnCliffordShaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是()。
A.-致性假设B•划分C■泛化能力D•学习能力正确答案:D3、下列描述无监督学习错误的是()。
A.无标签B•核心是聚类C•不需要降维D•具有很好的解释性正确答案:C4、下列描述有监督学习错误的是()。
A.有标签B•核心是分类C•所有数据都相互独立分布D•分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?()A.经验归纳学习B■遗传算法C•联接学习D•强化学习正确答案:A6、混淆矩阵的假正是指()。
A.模型预测为正的正样本B•模型预测为正的负样本C•模型预测为负的正样本D•模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为()。
A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是()。
A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是()。
A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是()。
A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?()A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?()A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
单变量函数的梯度下降我们假设有一个单变量的函数函数的微分初始化,起点为学习率为根据梯度下降的计算公式我们开始进行梯度下降的迭代计算过程:如图,经过四次的运算,也就是走了四步,基本就抵达了函数的最低点,也就是山底多变量函数的梯度下降我们假设有一个目标函数:现在要通过梯度下降法计算这个函数的最小值。
我们通过观察就能发现最小值其实就是 (0,0)点。
但是接下来,我们会从梯度下降算法开始一步步计算到这个最小值!我们假设初始的起点为:初始的学习率为:函数的梯度为:进行多次迭代:我们发现,已经基本靠近函数的最小值点1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点”,他说了以下言论,请逐条判断是否准确。
1)回归和分类都是有监督学习问题[单选题] [必答题]○对○错参考答案:对。
解析:这道题只有一个同学做错。
本题考察有监督学习的概念。
有监督学习是从标签化训练数据集中推断出函数的机器学习任务。
有监督学习和无监督学习的区别是:机器学习算法的图谱如下:在回归问题中,标签是连续值;在分类问题中,标签是离散值。
具体差别请看周志华《机器学习》书中的例子,一看便懂:2.背景同上题。
请判断2)回归问题和分类问题都有可能发生过拟合 [单选题] [必答题]○对○错答案:对解析:这题有两个同学做错。
过拟合的英文名称是 Over-fitting(过拟合)。
为了说清楚“过”拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些点,找到一个已知形式未知参数的连续曲线或曲面来最大限度地逼近这些点。
一个直观的例子,是下面的电阻和温度的例子。
我们知道在物理学中,电阻和温度是线性的关系,也就是R=at+b。
现在我们有一系列关于“温度”和“电阻”的测量值。
一个最简单的思路,取两组测量值,解一个线性方程组,就可以求出系数a、b了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测量多次,得到多组的值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能地接近各个测量得到的点。
机器学习原理及应用练习题答案第一章机器研究概述1.机器研究研究什么问题,构建一个完整的机器研究算法需要哪些要素?机器研究主要研究如何选择统计研究模型,从大量已有数据中研究特定经验。
构建一个完整的机器研究算法需要三个方面的要素,分别是数据,模型,性能度量准则。
2.可以生成新数据的模型是什么,请举出几个例子可以生成新数据的模型是生成模型,典型的生成模型有朴素贝叶斯分类器、高斯混合模型、隐马尔可夫模型、生成对抗网络等。
3.监督研究、半监督研究和无监督研究是什么,降维和聚类属于哪一种?监督研究是指样本集合中包含标签的机器研究,无监督研究是无标签的机器研究,而半监督研究介于二者之间。
降维和聚类是无监督研究。
4.过拟合和欠拟合会导致什么后果,应该怎样避免?过拟合导致模型泛化能力弱,发生明显的预测错误,往往是由于数据量太少或模型太复杂导致,通过增加训练数据量,对模型进行裁剪,正则化的方式来缓解。
而欠拟合则会导致模型不能对数据进行很好地拟合,通常是由于模型本身不能对训练集进行拟合或者训练迭代次数太少,解决方法是对模型进行改进,设计新的模型重新训练,增加训练过程的迭代次数。
5.什么是正则化,L1正则化与L2正则化有什么区别?正则化是一种抑制模型复杂度的方法。
L1正则化能够以较大概率获得稀疏解,起到特征选择的作用,并且可能得到不止一个最优解。
L2正则化相比前者获得稀疏解的概率小的多,但得到的解更加平滑。
第二章逻辑回归与最大熵模型1.逻辑回归模型解决(B)A.回归问题B.分类问题C.聚类问题D.推理问题2.逻辑回归属于(B)回归A.概率性线性B.概率性非线性C.非概率性线性D.非概率性非线性3.逻辑回归不能实现(D)A.二分类B.多分类C.分类展望D.非线性回归4.以下关于最大熵模型的表述毛病的是(B)A.最大熵模型是基于熵值越大模型越稳定的假设B.最大熵模型使用最大熵原理中一般意义上的熵建模以此缩小模型假设空间C.通过定义最大熵模型的参数可以实现与多分类逻辑回归相同的作用D.最大熵模型是一种分类算法5.下列关于模型评价指标的表述错误的是(C)A.正确率、精确率、召回率以及AUC均是建立在殽杂矩阵的基础上B.在样本不平衡的条件下正确率并不能作为很好的指标来权衡结果C.正确率表示所有被展望为正的样本中实际为正的样本的概率D.普通来说,置信度阈值越高,召回率越低,而精确率越高6.简述逻辑回归的道理。
一、判断题(共30分,每题2分,打√或×)1、如果问题本身就是非线性问题,使用支持向量机(SVM)是难以取得好的预测效果的。
(×)2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。
(×)3、深度学习中应该尽量避免过拟合。
(×)4、在随机森林Bagging过程中,每次选取的特征个数为m,m的值过大会降低树之间的关联性和单棵树的分类能力。
(×)5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。
(√)6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解。
(√)7、在流形学习ISOMAP中,测地距离即是欧氏距离。
(×)8、贝叶斯决策实质上是按后验概率进行决策的。
(√)9、非参数估计需要较大数量的样本才能取得较好的估计结果。
(√)10、不需要显示定义特征是深度学习的优势之一。
(√)判断题为反扣分题目;答对得2分,不答得0分,答错得-2分;尹老师没有给出问答题的参考答案是怕限制大家的思路,我简要给出答题思路,仅供大家参考。
我发现好几个问题直接百度就可以找到答案,大家不妨自己搜一下。
也可以看一下机器学习十大算法那个PDF文件。
Co-training 和ensemble learning两个文件大家有时间可以看一下了解了解。
二、问答题(共60分)1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。
3种方法:监督参数估计、非监督参数估计、非参数估计这个可以参照第三章概率密度函数估计-1.ppt,写的不能再详细了。
监督参数估计:样本所属类别及类条件总体概率密度的形式已知,而表征概率密度函数的某些参数未知,需要根据样本集对总体分布中的某些参数进行估计。
非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,需要根据样本集对总体分布中的某些参数进行估计。
非参数估计:已知样本所属类别,未知总体概率密度的形式,需要依据样本集直接推断概率密度函数2、什么是k-近邻算法?K近邻算法,即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。
当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。
3、决策树的C4.5算法与ID3算法相比主要有哪些方面的改进?From ID3 to C4.5:1、用信息增益比来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;2、增加了后剪枝操作。
3、能够完成对连续属性的离散化处理;4、能够处理属性存在不同损失的情况;5、能够对不完整数据进行处理。
4、就您的理解,谈谈什么是集成学习?集成学习要想取得好的效果,应该满足的两个条件是什么?集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。
集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。
如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。
必要条件:被集成的各个基学习器(分类器)性能越高(分类正确率越高)越好。
各个基学习器(分类器)具有互补性,或者说互补性越大越好。
5、就您的理解,谈谈什么是半监督学习?请简要介绍Co-training的基本思想半监督学习是监督学习与无监督学习相结合的一种学习方法。
它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。
Co-training是将特征x分为互相独立的两个部分,分别训练两个分类器,用learner1分类未标记的数据,选取置信度高的结果放入标记的数据中,对新生成的数据集再训练learner2,同样将learner2产生的结果放入数据集中形成新的数据集,训练learner1,重复这个过程,最终两个分类器趋于相同的分类结果。
Co-training算法假设数据属性拥有两个充分冗余的视图,称之为view1 和view2。
算法基本流程是:首先在标记数据集L 的view1 和view2,分别上训练出两个分类器C1 和C2;然后从未标记数据集U 上随机的选取u 个示例放入集合U’中;分别用C1 和C2 对U’中的所有元素进行标记;接着从两个分类器标记结果中各取可信度最高的p 个正标记和n 个负标记放入L 中;最后从U 中选取2p+2n 个数据补充到U’中;重复上述过程直到满足截止条件。
6、就您的理解,请分别概述何谓代价敏感性学习、何谓类别不平衡学习。
(1)不同错误的代价或者是后果是不一样的,甚至差别很大。
(2)不追求总的错误率最小,而是尽量避免代价大的分类错误,是代价敏感性学习的基本思想。
(3)在代价敏感性学习的思想下,要使分界面远离分类错误代价大的那一类,或者说尽量减少犯分类代价大的那类错误。
代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。
不同的分类错误有不同的代价(cost),代价敏感学习的目标就是最小化总分类代价。
现实生活中,经常会存在这样的数据,即某一类别所包含的样本的数量远远小于其他类别所包含的样本数量,我们称这样的数据为类别不平衡数据。
在这些数据集中,人们主要关注的是小类样本的信息(少数类),但是传统的分类方法由于追求总体的准确率,很容易将全部样本判别为多数类,使得分类器在少数类样本上的效果变得很差。
这样误分的代价是巨大的。
类别不平衡数据的研究主要集中在两个个层面:对数据集的处理和对分类算法的改进。
对数据集的处理主要是用重采样的方法对数据集重构,改变原始数据集的分布,缩减其不平衡程度,主要方法有欠取样和过取样;对分类算法的改进主要是修改传统分类算法,使之适应类别不平衡数据分类,如代价敏感学习及基于Boosting的方法等。
7、试简述流型学习方法ISOMAP的基本思想及其优缺点。
ISOMAP就是把任意两点的测地距离作为流形的几何描述,用MDS理论框架理论上保持这个点与点之间的最短距离。
算法的关键在于利用样本向量之间的欧氏距离dx(i,j)计算出样本之间的测地距离dG(i,j),从而真实再现高维数据内在的非线性几何结构。
然后使用经典MDS 算法构造一个新的d维欧氏空间Y(d是降维空间的维数),最大限度地保持样本之间的欧式距离dY(i,j)与dG(i,j)误差最小,从而达到降维的目的。
ISOMAP的优点:可以最大限度的保留原始数据的信息;依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性缺点:适用范围有限,流形必须是内部平坦的;计算每两个点的距离,时间复杂度较大。
Isomap优点:(1)能处理非线性流形之类的高维数据;(2)全局优化;(3)不管输入空间是高度折叠的,还是扭曲的,或者弯曲的,Isomap仍然能全局优化低维的欧式表示;(4)Isomap能保证渐进地恢复到真实的维度。
Isomap缺点:(1)可能在数据拓扑空间是不稳定的,依赖的;(2)保证渐进恢复到非线性流形的几何结构的时候:当N增加的时候,点对距离提供更加接近于测地的距离,但是花更多计算时间;假如N是小的,测地距离将会非常不精确。
8、就您的理解,请概述何谓多标记学习。
多标记学习关注于如何对具有多个不同概念标记的对象进行有效地建模,在该框架下,学习系统通过对具有一组概念标记(label set)的训练例进行学习,以尽可能正确地对训练集之外示例的概念集合进行预测。
形式化地说,多标记学习的任务是从数据集{(x1,Y1), (x2,Y2),…,(xm,Ym)}中学得函数f:x→2y,其中xi∈x为一个示例而Yi y为示例xi所属的一组概念标记。
9、就您的理解,谈谈什么是聚类?请简要介绍您所熟悉的一种聚类方法。
聚类是将多个对象按照某种相似度的度量方式分成不同的组(簇)。
是一种无监督的学习方法,聚类的样本中没有类别y只有特征x,聚类的目的是找到每个样本x潜在的类别y,并将同类别y 的样本x 放在一起。
k-means 算法是一种很常见的聚类算法,它的基本思想是:通过迭代寻找k 个聚类的一种划分方案,使得用这k 个聚类的均值来代表相应各类样本时所得的总体误差最小。
其算法描述如下:选择K 个点作为初始质心Repeat将每个点指派到离它最近的质心,形成K 个簇重新计算每个簇的质心Until 簇不再发生变化或者达到最大迭代次数三、计算题(共10分)1、有如图所示的神经网络。
Squash function 为:,1()1,1x x f x x ≥⎧=⎨<⎩ ,输入样本121,0x x ==,输出节点为z ,第k 次学习得到的权值为:1112212212()0,()2,()2,()1,()1,()1w k w k w k w k T k T k ======。
试求第k 次前向传播学习得到的输出节点值()z k ,请给出求解过程和结果。
计算如下:第k 次训练的正向过程如下:隐藏层结点的值21111()()(0120)(0)1j j j y f w x f net f f ====⨯+⨯==∑2)2()0112()()(22122==⨯+⨯==∑==f f net f x w f y j j j输出层结点的值。