第二版机器学习答案
- 格式:docx
- 大小:137.26 KB
- 文档页数:5
2-1.变量,print和字符串格式化操作符。
启动交互式解释器,给一些变量赋值(字符串,数值等)并通过输入变量名显示他们的值。
再用prin t语句做同样的事。
这两者有何区别?也尝试着使用字符串格式操作符%,多做几次,慢慢熟悉它。
答案:对于一个字符串,在仅使用变量名时,输出的字符串是用单引号括起来了的。
这是为了让非字符串对象也能以字符串的方式显示在屏幕上,即它显示的是该对象的字符串表示,而不仅仅是字符串本身。
如果使用pr int命令,能使输出更加友好。
2-2.程序输出。
阅读下面的P ython脚本。
#!/usr/bin/env python1 +2 * 4(a)你认为这段脚本是用来做什么的?(b)你认为这段脚本会输出什么?(c)输入以上代码,并保存为脚本,然后运行它,它所做的与你的预期一样吗?为什么一样/不一样?(d)这段代码单独执行和在交互解释器中执行有何不同?试一下,然后写出结果。
(e)如何改进这个脚本,以便它能和你想象的一样工作?答案:(a)计算(b)输出9(c)不一样,不会有输出(d)在交互解释器中可以输出9(e)需添加一个p r int,即#!/usr/bin/env pythonprint 1 + 2 * 42-3.数值和操作符。
启动交互解释器,使用Pyth on对两个数值(任意类型)进行加、减、乘、除运算。
然后使用取余操作符来得到两个数相除的余数,最后使用乘方操作符求A数的B次方。
答案:当使用x/y形式进行除法运算时,如果x和y都是整形,那么运算的结果就是运算的整数部分。
>>> print10 / 33如果x和y中有一个是浮点数,那么会进行精确除法。
>>> print10 / 3.03.33333333333所谓地板除,采用x//y的形式,得到不大于结果的最大整数值,这个运算时与操作数无关的。
机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。
答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。
答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。
答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。
答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。
答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。
答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。
防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。
- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。
- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。
aws机器学习基础答案
一、单选题
1、下列哪位是人工智能之父?()
A.Lee Minsky
B.Herbert A.Simon
C.Allen
D.John Clifford Shaw
正确答案:A
2、根据王H的理解,下列不属于对问题空间W的统计描述是()。
A.一致性假设
B.划分
C.泛化能力
D.学习能力
正确答案:D
3、下列描述无监督学习错误的是().
A.无标签
B.核心是聚类
C.不需要降维
D.具有很好的解释性
正确答案:C
4.下列描述有监督学习错误的是()。
A.有标签
B.核心是分类
C.所有数据都相互独立分布
D.分类原因不透明
正确答案:C
5、下列那种归纳学习采用符号表示方式?()
A.经验归纳学习B遗传算法C联接学习D.强化学习
正确答案:A
二、判断题
1、关于EM算法的收敛性,EM算法理论上不能够保证收敛。
正确答案:×
2、关于EM算法的用途,EM算法只适用不完全数据的情形。
正确答案:×
3、JESSEN不等式等号成立的条件是:变量为常数。
正确答案:√
4、JESSEN不等式E(f(×))>=f(E(×)),左边部分大于等于右边部分的条件是函数f是凸函数,如果f是凹函数,左边部分应该是小于等于右边部分。
正确答案:√
5.EM算法因为是理论可以保证收敛的,所以肯定能够取得最优解。
正确答案:×。
python核心编程第二版答案python核心编程第二版答案【篇一:python核心编程第二版第4章习题答案】属性是什么?请简单的描述一下。
答案:所有的python对象都拥有三个特性:身份,类型和值。
身份:每一个对象都有一个唯一的身份标识自己,任何对象的身份可以使用内建函数id()来得到。
这个值可以被认为是该对象的内存地址。
类型:对象的类型决定了该对象可以保存什么类型的值,可以进行什么样的操作,以及遵循什么样的规则。
可以使用内建函数type()查看对象的类型。
在python中类型也是对象。
值:对象标识的数据项。
4-2.类型。
不可更改(immutable)指的是什么?python的哪些类型是可更改(mutable)的,哪些不是?答案:不可更改指对象创建以后值不可以更新。
immutable的类型:数字,字符串,元组mutable的类型:列表,字典4-3.类型。
哪些python类型是按照顺序访问的,他们和映射类型的不同是什么?答案:string,tuple,list是按照顺序访问的。
字典是映射访问。
字典中的元素,他们的索引并不使用顺序的数字偏移量取值,它的元素无序存放,通过一个唯一的键来访问。
4-4.type()。
内建函数type()作什么?type()返回的对象是什么?答案:内建函数type()返回任意ptrhon对象的数据类型,而不局限于标准类型。
type()返回的值是一个类型对象。
4-5.str()和repr()。
内建函数str()与repr()之间的不同是什么?哪一个等价于反引号(``)操作符?答案:内建函数str()和repr()或反引号操作符()可以方便的以字符串的方式获取对象的内容、类型、数值属性等信息。
str()函数得到的字符串可读性好,而repr()函数得到的字符串通常可以用来重新获得该对象,通常情况下obj == eval(repr(obj))这个等式是成立的。
这两个函数接受一个对象作为其参数,返回适当的字符串。
1:感知机学习算法原始形式迭代是________的。
A震荡B发散C约束D收敛A B C D•答案:D•正确2:机器学习的理论基础是__________A统计论B概率论C计算学习理论D推断论A B C D•答案:C•错误3:PR曲线中P代表的是__________A预测出正例的保证性B预测出正例的正确率A B•答案:B•错误4:支持向量机的学习策略是__________A间隔最小化B间隔最大化C间隔平均化D间隔随机化A B C D•答案:B•正确5:模型复杂度越大,训练误差__________ ,测试误差__________A增大减小B增大增大C减小增大D 减小减小A B C D•答案:C•错误6:多维缩放的主要特点有_______种A 2B 3C 4D 5A B C D•答案:B•正确7:EM算法的引入是因为概率模型中包含__________A观测变量B隐变量C随机变量D固定值A B C D•答案:B•正确8:神经网络作为一个计算模型的理论是在__________ 年提出的A 1941B 1942C 1943D 1944A B C D•答案:C•正确9:介绍了__________种自适应学习率算法A 3B 4C 5D 6A B C D•答案:A•错误10:概率图推断方法可以被分为__________ 类A 2B 3C 4D 5A B C D•答案:A•错误11:概率模型是一种将学习任务归结于计算变量的概率分布的描述框架A:对B:错•答案:A•正确12:没有免费的午餐定理原理称为“如无必要,勿增实体”。
A:对B:错•答案:B•错误13:神经网络的全称是人工神经网络A:对B:错•答案:A•正确14:流形学习可被用于可视化A:对B:错•答案:A•正确15:所有可能概念或模型的集合称为假设类A:对B:错•答案:B•错误16:机器学习方法三要素为__________A模型B策略C空间D算法A B C D•答案:ABD•正确17:隐马尔可夫模型的的三个基本问题__________A概率计算问题B迭代尺度问题C模型学习问题D预测问题A B C D•答案:ABD•错误18:贝叶斯网络是由__________ 结合而成的描述多元统计关系模型A图论B空间论C逼近论D概率论A B C D•答案:AD•正确19:监督学习方法分为__________A预测方法B生成方法C判别方法D总结方法A B C D•答案:BC•错误20:精确推断法主要包括__________A变量消去法B信念传播法C MCMC采样D变分推断法A B C D•答案:AB•错误。
第一章1.sigmoid函数的值域为?()。
答案:(0,1)2.哪些属于监督学习重要元素?()。
答案:学习模型;标注数据;损失函数3.分析不同变量之间存在关系的研究叫回归分析。
()答案:对4.强可学习和弱可学习是等价的。
()答案:对5.下面的说法正确的是()。
答案:逻辑回归只能处理二分类问题第二章1.下面的说法正确的是()。
答案:K均值聚类算法实质上是最小化每个类簇的方差。
2.哪一项是皮尔逊相关系数的性质?()。
答案:X与Y协方差的绝对值小于等于13.下面的说法正确的有()。
答案:EM算法分为求取期望和期望最大化两个步骤。
;在K均值聚类算法中,欧式距离与方差量纲相同。
4.K均值聚类属于监督学习。
()答案:错5.特征人脸方法的本质是用称为“特征人脸”的特征向量按照线性组合形式表达每一张原始人脸图像。
()答案:对第三章1.下列哪一项不是运用半监督学习的原因()。
答案:为获得更高的机器学习性能2.在半监督学习中下列哪种说法是错误的()。
答案:“聚类假设的推广,对输出值没有限制”属于聚类假设的范畴。
3.半监督学习方法有:()。
答案:生成方法;基于图表的半监督学习;半监督SVM4.在有标记数据极少的情形下往往比其他方法性能更好是半监督学习生成式方法流程的优点。
()答案:对5.基于图表的半监督学习不用占有太大内存。
()答案:错第四章1.下列说法正确的是()。
答案:感知机网络只有输入层/输出层,无隐藏层。
2.一元变量所构成函数f在x处的梯度为()答案:;3.常用的池化操作有::()。
答案:最大池化;平均池化4.One-hot向量可以刻画词与词之间的相似性()答案:错5.前馈神经网络中存在反馈。
()答案:错第五章1.下列说法错误的是()。
答案:循环神经网络不能处理任意长度的序列2.下列说法正确的是()。
答案:如果一个完全连接的RNN有足够数量的sigmoid型隐藏神经元,它可以以任意的准确率去近似任何一个非线性动力系统个。
XXXXXXXXX学院2020 至2021 学年第一学期《机器学习》期末考试试题评分标准(A卷)二、计算题(本题共5小题,满分50分)1.使用公式正确(2分)计算正确(2分)SSE = (-0.2)^2 + (0.4)^2 + (-0.8)^2 + (1.3)^2 + (-0.7)^2 = 3.022.(本小题8分)已知逻辑回归模型得到一组逻辑回归结果,要求:(1)假设阈值为0.6,写出预测结果。
(2分)(2)计算出损失函数的值(即真实值与预测值之间的损失值)。
(6分)样本1为正样本,损失为:1*log(0.4)样本2为负样本,损失为:(1-0)*log(1-0.65)样本3为负样本,损失为:(1-0)*log(1-0.2)样本4为正样本,损失为:1*log(0.8)样本5为正样本,损失为:1*log(0.7)(以上过程4分:公式错误1处1分,扣完2分为止,计算错误1处1分,扣完2分为止)总损失函数= log(0.4) + log(0.35) + log(0.8) + log(0.8) + log(0.7)或总损失函数= -(log(0.4) + log(0.35) + log(0.8) + log(0.8) + log(0.7))log以10为底结果= -1.2026 或1.2026log以2为底结果 = -3.9949 或 3.9949log以e为底结果 = -2.7691 或 2.7691(2分,其中公式1分,计算1分)3. (本小题10分)(表格内每空1分,共4分)P = 14/(14+2) = 7/8 = 0.875(2分)(公式和计算各1分)R = 14/(14+1) = 14/15 = 0.933(2分)(公式和计算各1分)F1 = 2*P*R/(P+R) = 28/31 = 0.903(2分)(公式和计算各1分)4.(1)(2分)(2)def standRegres(xArr,yArr):xMat = np.mat(xArr) (1分)yMat = np.mat(yArr).T (1分)xTx = xMat.T * xMat (1分)if np.linalg.det(xTx) == 0.0: (1分)print("矩阵为奇异矩阵,不能求逆")return (1分)ws = xTx.I * (xMat.T*yMat) (1分)return ws (1分)此外:格式3分,错一处扣一分,扣完为止5.我们需要最大化P(X|Ci)P(Ci),i=1,2。
机器学习理论与方法知到章节测试答案智慧树2023年最新同济大学第一章测试1.机器学习是研究发现数据模型的算法并利用这些模型做出决策。
()参考答案:对2.机器学习通常要经过数据选择,模型训练,模型优化矫正等过程。
()参考答案:对3.决策树模型是一种典型的聚类模型。
()参考答案:错4.决策树是随机森林模型的子结构。
()参考答案:对5.以下哪种情况适合使用SVM算法()。
参考答案:单细胞分类6.关于机器学习的基本流程,下列顺序正确的是()。
参考答案:建模—评价—改进7.监督式学习根据输出形式可分为()。
参考答案:分类和回归8.机器学习根据学习方式可分为()。
参考答案:监督学习;无监督学习;强化学习;半监督学习9.朴素贝叶斯适合下列哪种场景分析()。
参考答案:消费者细分;情感分析10.机器学习根据模型性质可分为()。
参考答案:非线性模型;线性模型第二章测试1.若非零矩阵A满足A=O,则A+E与A-E均可逆()参考答案:对2.矩阵的特征值为()参考答案:-13.设P(A)=0.4,P(B)=0.7,事件A,B相互独立,则P(B-A)=()参考答案:0.424.已知离散型随机变量X可取值{-3,-1,0,2},且取这些值的概率依次为,则b的取值为2 ()参考答案:对5.若随机变量X服从N(5,4)的分布,若P(X>c)=P(X<c),则c=()参考答案:56.事件A,B,C至少有一个发生可以表示为。
()参考答案:对7.事件A与B互不相容,是指P(AB)=P(A)P(B) 。
( )参考答案:对8.下列关于矩阵的运算法则正确的是()。
参考答案:(AB)C=A(BC);(A+B)C=AC+BC;(A t)t=A9.假设A和B都是同阶可逆矩阵,且A为对称矩阵,则下列等式成立的为()。
参考答案:(AB t)-1=A-1(B-1)t10.假设感染了新冠病毒的病人中感到身体发热的概率为0.88,病人感染新冠病毒的概率为0.001,病人发热的概率为0.02,则如果检测到一个病人发热,则判断他感染了新冠病毒的概率为()。
一、单选题1、在条件随机场(CRF)中,参数的学习通常使用哪种优化算法?()A.K-Means聚类B.梯度提升机(GBM)C.支持向量机(SVM)D.随机梯度下降(SGD)正确答案:D2、在概率无向图模型中,什么是团分解(Cluster Decomposition)?()A.一种通过节点之间的边传播信息,以更新节点的边缘概率的方法B.一种用于计算图的分割的算法C.一种将联合概率分布分解为多个局部概率分布的方法D.一种用于表示联合概率分布的无向树正确答案:C3、在数据不完备时,下列哪一种方法不是贝叶斯网络的参数学习方法()A.拉普拉斯近似B.最大似然估计方法C.蒙特卡洛方法D.高斯逼近正确答案:B4、在有向图模型中,什么是条件独立性?()A.给定父节点的条件下,子节点之间独立B.所有节点之间都独立C.所有节点的状态相互独立D.任意两个节点都是独立的正确答案:A5、在概率有向图模型中,节点表示什么?()A.变量B.参数C.条件概率D.边正确答案:A6、下列哪一项表示簇中样本点的紧密程度?()A.簇个数B.簇大小C.簇描述D.簇密度正确答案:D7、闵可夫斯基距离表示为曼哈顿距离时p为:()A.1B.2C.3D.4正确答案:A8、谱聚类与K均值聚类相比,对于什么样的数据表现更好?()A.低维数据B.高维数据C.线性可分数据D.高密度数据正确答案:B9、SVM适用于什么类型的问题?()A.既可用于线性问题也可用于非线性问题B.仅适用于回归问题C.仅适用于非线性问题D.仅适用于线性问题正确答案:A10、对于在原空间中线性不可分的问题,支持向量机()A.在原空间中寻找非线性函数划分数据B.无法处理C.利用核函数把数据映射到高维空间D.在原空间中寻找线性函数划分数据正确答案:C11、LDA主题模型中的alpha参数控制着什么?()A.单词分布的稀疏性B.文档-主题分布的稀疏性C.模型大小D.模型收敛速度正确答案:B12、LDA的全称是什么?()tent Dirichlet AllocationB.Linear Discriminant Analysistent Data AnalysisD.Lin Latent Dirichlet Allocation ear Data Algorithm正确答案:A13、以下对于梯度下降法中学习率lr的阐述,正确的是()A.lr小,收敛速度较快B.lr大,收敛速度较慢C.lr小,收敛速度较慢且较不易收敛D.lr大,收敛速度较快但可能导致不收敛正确答案:D14、在EM算法中,E代表期望,M代表()A.均值B.最大化C.最小化D.均方误差正确答案:B15、梯度下降中如何有效地捕捉到目标函数的全局最优?()A.调整学习速率B.增加模型复杂度C.使用梯度下降的变种算法D.增加训练样本量正确答案:C二、多选题1、下列机器学习常用算法中哪个属于分类算法?()A.K-meansB.最小距离分类器C.KNN(K近邻)D.逻辑回归正确答案:B、C、D2、下列关于决策树的说法正确的是?()A.CART使用的是二叉树B.其可作为分类算法,也可用于回归模型C.不能处理连续型特征D.它易于理解、可解释性强正确答案:A、B、D3、下列属于k近邻算法中常用的距离度量方法的是?()A.余弦相似度B.欧式距离C.曼哈顿距离D.闵可夫斯基距离正确答案:A、B、C、D4、下列属于深度模型的是?()A.DNNB.LightgbmC.LSTMD.Seq2Seq正确答案:A、C、D5、sklearn中RFECV方法分成哪两个部分?()A.RFEB.CVC.NLPD.MM正确答案:A、B6、以下关于蒙特卡洛方法描述正确的是()A.蒙特卡洛方法计算值函数可以采用First-visit方法B.蒙特卡洛方法方差很大C.蒙特卡洛方法计算值函数可以采用Every-visit方法D.蒙特卡洛方法偏差很大正确答案:A、B、C7、为什么循环神经网络可以用来实现自动问答,比如对一句自然语言问句给出自然语言回答()A.因为自动问答可以看成是一种序列到序列的转换B.因为循环神经网络能够处理变长输入C.因为循环神经网要比卷积神经网更强大D.因为卷积神经网络不能处理字符输入正确答案:A、B8、通常有哪几种训练神经网络的优化方法()A.梯度下降法B.随机梯度下降法C.小批量随机梯度下降法D.集成法正确答案:A、B、C9、隐马尔可夫模型的三个基本问题是()A.估值问题B.寻找状态序列C.学习模型参数D.状态更新正确答案:A、B、C10、在数据不完备时,贝叶斯网络的参数学习方法有()A.高斯逼近B.蒙特卡洛方法C.拉普拉斯近似D.最大似然估计方法正确答案:A、B、C11、基于约束的方法通过统计独立性测试来学习结点间的()A.独立性B.相关性C.依赖性D.完备性正确答案:A、B12、基于搜索评分的方法,关键点在于()A.确定合适的搜索策略B.确定评分函数C.确定搜索优先级D.确定选择策略正确答案:A、B13、条件随机场需要解决的关键问题有()A.特征函数的选择B.参数估计C.模型推断D.约束条件正确答案:A、B、C14、以下关于逻辑斯蒂回归模型的描述正确的是()A.针对分类的可能性进行建模,不仅能预测出类别,还可以得到属于该类别的概率B.直接对分类的可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题C.模型本质仍然是一个线性模型,实现相对简单D.逻辑斯蒂回归模型是线性回归模型正确答案:A、B、C、D15、LDA模型在做参数估计时,最常用的方法是()A.Gibbs采样方法B.变分推断C.梯度下降D.Beam search正确答案:A、B三、判断题1、关于EM算法的收敛性,EM算法理论上不能够保证收敛()正确答案:×2、多次运行,随机化初始点是对存在局部最优点的函数求解的一种方案()正确答案:√3、训练算法的目的就是要让模型拟合训练数据()正确答案:×4、循环神经网络按时间展开后就可以通过反向传播算法训练了()正确答案:√5、GIS算法的收敛速度由计算更新值的步长确定。
XXXXXXXXXXX 学院2020 至 2021 学年第 一 学期《机器学习》 期末考试试题评分标准(B 卷)一、单选题(本题共25小题,满分50分) 题号 1 2 3 4 5 6 7 8 9 10 答案 D A A B B A B C D C 题号 11 12 13 14 15 16 17 18 19 20 答案 B C C B C B B D D B 题号 21 22 23 24 25 答案DDBBA二、计算题(本题共5小题,满分50分) 1.(本小题4分,每错一处扣一分,扣完为止)2.(本小题8分) (1)(每空1分,共2分)clusterAssement数据 对应样本所在的簇的序号P1(第0簇质心)P2(第1簇质心)样本距离所在簇质心的距离平方dist (x,C i )2P41/第1簇2(2)P1 P3 P6属于第0簇(2分); P2 P4 P5属于第1簇。
(2分) (3)第一次迭代结束后,更新簇的质心,新的质心是什么?(2分) (2,5/3) (6,5)3. (本小题13分)岭回归算法实现。
(1)岭回归算法采用L2正则化来简化模型。
(1分)岭回归算法的损失函数是(1分)can breath under water?have flippers?not fishnot fishis fish0 11(2)(1分)(3)(10分)def ridgeRegres(xArr, yArr, lam):xMat = np.mat(xArr) (1分)yMat = np.mat(yArr).T(1分)xTx = xMat.T * xMat (1分)denom = xTx + np.eye(np.shape(xMat)[1]) * lam(2分)if np.linalg.det(denom) == 0.0: (1分)print(“矩阵为奇异矩阵,不能求逆") (1分)return (1分)ws = denom.I * (xMat.T * yMat) (1分)return ws (1分)4. (本小题15分)(1)写出KNN算法思想的基本步骤。
一、判断题(共30分,每题2分,打√或×) 1、如果问题本身就是非线性问题,使用支持向量机(SVM)是难以取得好的预测效果的。(×) 2、只要使用的半监督学习方法合适,利用100个标记样本和1000个无标记样本的预测效果,同样可以达到利用1100个标记样本使用监督学习方法的预测效果。(×) 3、深度学习中应该尽量避免过拟合。(×) 4、在随机森林Bagging过程中,每次选取的特征个数为m,m的值过大会降低树之间的关联性和单棵树的分类能力。(×) 5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。(√) 6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解。(√) 7、在流形学习ISOMAP中,测地距离即是欧氏距离。(×) 8、贝叶斯决策实质上是按后验概率进行决策的。(√) 9、非参数估计需要较大数量的样本才能取得较好的估计结果。(√) 10、不需要显示定义特征是深度学习的优势之一。(√)
判断题为反扣分题目;答对得2分,不答得0分,答错得-2分; 尹老师没有给出问答题的参考答案是怕限制大家的思路,我简要给出答题思路,仅供大家参考。我发现好几个问题直接百度就可以找到答案,大家不妨自己搜一下。也可以看一下机器学习十大算法那个PDF文件。Co-training 和ensemble learning两个文件大家有时间可以看一下了解了解。
二、问答题(共60分) 1、从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。 3种方法:监督参数估计、非监督参数估计、非参数估计 这个可以参照第三章 概率密度函数估计-1.ppt,写的不能再详细了。 监督参数估计:样本所属类别及类条件总体概率密度的形式已知,而表征概率密度函数的某些参数未知,需要根据样本集对总体分布中的某些参数进行估计。 非监督参数估计:已知总体概率密度函数形式,但未知样本所属类别,需要根据样本集对总体分布中的某些参数进行估计。 非参数估计:已知样本所属类别,未知总体概率密度的形式,需要依据样本集直接推断概率密度函数 2、什么是k-近邻算法? K近邻算法,即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。 是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。 当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 3、决策树的C4.5算法与ID3算法相比主要有哪些方面的改进? From ID3 to C4.5: 1、用信息增益比来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2、增加了后剪枝操作。 3、能够完成对连续属性的离散化处理; 4、能够处理属性存在不同损失的情况; 5、能够对不完整数据进行处理。 4、就您的理解,谈谈什么是集成学习?集成学习要想取得好的效果,应该满足的两个条件是什么? 集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。 集成学习的思路是在对新的实例进行分类的时候,把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类,以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决策。 必要条件: 被集成的各个基学习器(分类器)性能越高(分类正确率越高)越好。 各个基学习器(分类器)具有互补性,或者说互补性越大越好。 5、就您的理解,谈谈什么是半监督学习?请简要介绍Co-training的基本思想 半监督学习是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。 Co-training是将特征x分为互相独立的两个部分,分别训练两个分类器,用learner1分类未标记的数据,选取置信度高的结果放入标记的数据中,对新生成的数据集再训练learner2,同样将learner2产生的结果放入数据集中形成新的数据集,训练learner1,重复这个过程,最终两个分类器趋于相同的分类结果。 Co-training算法假设数据属性拥有两个充分冗余的视图,称之为 view1 和 view2。算法基本流程是:首先在标记数据集 L 的 view1 和 view2,分别上训练出两个分类器 C1 和 C2;然后从未标记数据集 U 上随机的选取 u 个示例放入集合 U’中;分别用C1 和 C2 对 U’中的所有元素进行标记;接着从两个分类器标记结果中各取可信度最高的 p 个正标记和 n 个负标记放入 L 中;最后从 U 中选取 2p+2n 个数据补充到 U’中;重复上述过程直到满足截止条件。
6、就您的理解,请分别概述何谓代价敏感性学习、何谓类别不平衡学习。 (1)不同错误的代价或者是后果是不一样的,甚至差别很大。 (2)不追求总的错误率最小,而是尽量避免代价大的分类错误,是代价敏感性学习的基 本思想。 (3)在代价敏感性学习的思想下,要使分界面远离分类错误代价大的那一类,或者说尽量减少犯分类代价大的那类错误。 代价敏感的学习方法是机器学习领域中的一种新方法,它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。不同的分类错误有不同的代价(cost),代价敏感学习的目标就是最小化总分类代价。 现实生活中,经常会存在这样的数据,即某一类别所包含的样本的数量远远小于其他类别所包含的样本数量,我们称这样的数据为类别不平衡数据。在这些数据集 中,人们主要关注的是小类样本的信息(少数类),但是传统的分类方法由于追求总体的准确率,很容易将全部样本判别为多数类,使得分类器在少数类样本上的效 果变得很差。这样误分的代价是巨大的。 类别不平衡数据的研究主要集中在两个个层面:对数据集的处理和对分类算法的改进。对数据集的处理主要是用重采样的方法对数据集重构,改变原始数据集的分布,缩减其不平衡程度,主要方法有欠取样和过取样;对分类算法的改进主要是修改传统分类算法,使之适应类别不平衡数据分类,如代价敏感学习及基于 Boosting的方法等。
7、试简述流型学习方法ISOMAP的基本思想及其优缺点。 ISOMAP就是把任意两点的测地距离作为流形的几何描述,用MDS理论框架理论上保持这个点与点之间的最短距离。算法的关键在于利用样本向量之间的欧氏距离dx(i,j)计算出样本之间的测地距离dG(i,j),从而真实再现高维数据内在的非线性几何结构。然后使用经典MDS算法构造一个新的d维欧氏空间Y(d是降维空间的维数),最大限度地保持样本之间的欧式距离dY(i,j)与dG(i,j)误差最小,从而达到降维的目的。 ISOMAP的优点:可以最大限度的保留原始数据的信息;依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性 缺点:适用范围有限,流形必须是内部平坦的;计算每两个点的距离,时间复杂度较大。 Isomap优点 : (1)能处理非线性流形之类的高维数据; (2)全局优化; (3)不管输入空间是高度折叠的,还是扭曲的,或者弯曲的,Isomap仍然能全局优化低维的欧式表示; (4)Isomap能保证渐进地恢复到真实的维度。 Isomap缺点 : (1)可能在数据拓扑空间是不稳定的,依赖的; (2)保证渐进恢复到非线性流形的几何结构的时候:当N增加的时候,点对距离提供更加接近于测地的距离,但是花更多计算时间;假如N是小的,测地距离将会非常不精确。 8、就您的理解,请概述何谓多标记学习。 多标记学习关注于如何对具有多个不同概念标记的对象进行有效地建模,在该框架下,学习系统通过对具有一组概念标记(label set)的训练例进行学习,以尽可能正确地对训练集之外示例的概念集合进行预测。形式化地说,多标记学习的任务是从数据集{(x1,Y1), (x2,Y2),…,(xm,Ym)}中学得函数f:x→2y,其中xi∈x为一个示例而Yiy为示例xi所属的一组概念标记。 9、就您的理解,谈谈什么是聚类?请简要介绍您所熟悉的一种聚类方法。 聚类是将多个对象按照某种相似度的度量方式分成不同的组(簇)。是一种无监督的学习方法,聚类的样本中没有类别y只有特征x,聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。 k-means算法是一种很常见的聚类算法,它的基本思想是:通过迭代寻找k个聚类的一种划分方案,使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。 其算法描述如下: 选择K个点作为初始质心 Repeat 将每个点指派到离它最近的质心,形成K个簇 重新计算每个簇的质心 Until 簇不再发生变化或者达到最大迭代次数
三、计算题(共10分) 1、有如图所示的神经网络。 Squash function为:,1()1,1xxfxx ,输入样本121,0xx,输出节点为z,第k次学习得到的权值为:
1112212212()0,()2,()2,()1,()1,()1wkwkwkwkTkTk。试求第k次前向传播学习
得到的输出节点值()zk,请给出求解过程和结果。
计算如下: 第k次训练的正向过程如下: 隐藏层结点的值
21111()()(0120)(0)1jjjyfwxfnetff
2)2()0112()()(22122ffnetfxwfyjjj
输出层结点的值