机器学习期末测试练习题3
- 格式:docx
- 大小:93.69 KB
- 文档页数:10
机器学习基础期末考试试题一、选择题(每题2分,共20分)1. 在机器学习中,下列哪个算法属于监督学习算法?A. 决策树B. K-meansC. 遗传算法D. 随机森林2. 以下哪个是线性回归的假设条件?A. 特征之间相互独立B. 特征与目标变量之间存在非线性关系C. 目标变量的误差项服从正态分布D. 所有特征都是类别型变量3. 支持向量机(SVM)的主要目标是什么?A. 找到数据点之间的最大间隔B. 减少模型的复杂度C. 增加模型的泛化能力D. 所有选项都正确4. 在深度学习中,卷积神经网络(CNN)通常用于处理哪种类型的数据?A. 音频数据B. 图像数据C. 文本数据D. 时间序列数据5. 交叉验证的主要目的是:A. 减少模型的过拟合B. 增加模型的复杂度C. 减少训练集的大小D. 增加模型的运行时间二、简答题(每题10分,共30分)6. 解释什么是过拟合,并给出一个避免过拟合的策略。
7. 描述随机森林算法的基本原理,并简述其相对于决策树的优势。
8. 解释梯度下降算法的工作原理,并说明为什么它在优化问题中如此重要。
三、计算题(每题25分,共50分)9. 假设你有一个线性回归模型,其目标函数为 \( J(\theta) =\frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 \),其中 \( h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2x_2 \)。
给定以下数据点:\[\begin{align*}x_1 & : [1, 2, 3] \\x_2 & : [1, 3, 4] \\y & : [2, 4, 5]\end{align*}\]请计算该模型的损失函数 \( J(\theta) \)。
10. 给定一个二分类问题的数据集,使用逻辑回归模型进行分类。
如果模型的决策边界是 \( w_1 x_1 + w_2 x_2 - \theta = 0 \),其中\( w_1 = 0.5 \),\( w_2 = -1 \),\( \theta = 0.5 \)。
模式识别与机器学习期末考查试卷研究生姓名:入学年份:导师姓名:试题1:简述模式识别与机器学习研究的共同问题和各自的研究侧重点。
答:(1)模式识别是研究用计算机来实现人类的模式识别能力的一门学科,是指对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。
主要集中在两方面,一是研究生物体(包括人)是如何感知客观事物的,二是在给定的任务下,如何用计算机实现识别的理论和方法。
机器学习则是一门研究怎样用计算机来模拟或实现人类学习活动的学科,是研究如何使机器通过识别和利用现有知识来获取新知识和新技能。
主要体现以下三方面:一是人类学习过程的认知模型;二是通用学习算法;三是构造面向任务的专用学习系统的方法。
两者关心的很多共同问题,如:分类、聚类、特征选择、信息融合等,这两个领域的界限越来越模糊。
机器学习和模式识别的理论和方法可用来解决很多机器感知和信息处理的问题,其中包括图像/视频分析(文本、语音、印刷、手写)文档分析、信息检索和网络搜索等。
(2)机器学习和模式识别是分别从计算机科学和工程的角度发展起来的,各自的研究侧重点也不同。
模式识别的目标就是分类,为了提高分类器的性能,可能会用到机器学习算法。
而机器学习的目标是通过学习提高系统性能,分类只是其最简单的要求,其研究更侧重于理论,包括泛化效果、收敛性等。
模式识别技术相对比较成熟了,而机器学习中一些方法还没有理论基础,只是实验效果比较好。
许多算法他们都在研究,但是研究的目标却不同。
如SVM 在模式识别中研究所关心的就是其对人类效果的提高,偏工程。
而在机器学习中则更侧重于其性能上的理论证明。
试题2:列出在模式识别与机器学习中的常用算法及其优缺点。
答:(1) K近邻法KNN算法作为一种非参数的分类算法,它已经广泛应用于分类、回归和模式识别等。
在应用KNN算法解决问题的时候,要注意的两个方面是样本权重和特征权重。
优缺点:非常有效,实现简单,分类效果好。
机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。
答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。
答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。
答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。
答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。
答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。
答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。
防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。
- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。
- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。
安徽农业大学机器学习期末考试试卷一、填空题1、工作过程中集中精力工作。
,不要喝酒,不要吃东西,。
如果你必须转移注意力到别的地方,必须停止设备。
2、各类铲刮作业都应低速行驶,角铲土和使用齿耙时必须用。
3、必须高度重视自己在工作中的安全责任。
以的安全意识投入4、如果将平地机放置在露天或不平整的场地上,最好用垫木将平地机架起,以使轮胎减载,然后将轮胎气压降低,并将轮胎遮挡起来,避免阳光直接照射。
5、一旦刮平操作开始后,可使用来改变"坡度跟踪控制器"的提升,这样可以使泥土被带出刮刀外。
6、转向时,或使用轴驱动轮转向时,不得,可使前轮倾斜以减少平地机转向半径,但在高速行驶时不得使用,以防出现急剧的反作用力。
7、做路拱时,先将路料堆放在路中央,使平地机刮刀前倾成角,稍提刀尾,平地机沿堆料中央匀速行驶,使路料沿刮刀向两侧移动。
8、如果用铰接式平地机左(右)倾平地时,使机架向右(左)饺接。
如果驱动轮打滑,则铰接角度,可以切土角度及侧推力。
9、发动机启动后,各仪表读数均应在规定值的范围内。
发动机运转时,不得操作,否则会造成发动机严重损坏。
10、使用平地机清除积雪时,应在轮,并应逐段探明路面的深坑、沟槽情况。
二、判断题1、一旦刮平操作开始后,可使用增减开关来改变"坡度跟踪控制器"的提升,这样可以使泥土被带出刮刀外。
( )2、在陡坡上作业时,不得使用饺接机架,以防止翻车造成严重的人机损伤。
在陡坡上来回进行作业时,刮刀伸出的方向应始终朝向上坡方向。
( )3、开始工作前,仔细检查设备的磨损标记和全部功能。
在接替前一个班时,询问工作条件和设备的功能。
( )4、使用平地机清除积雪时,应在轮胎上安装防滑链,并应逐段探明路面的深坑、沟槽情况。
( )5、严格按照手册规定的螺丝拧紧顺序与拧紧力矩对螺栓和螺母进行拧紧,可以稍微超过给定值。
( )6、在拆卸管路之前释放系统中的压力。
释放蓄能器中的压力。
机器学习考试试题一、选择题(每题 3 分,共 30 分)1、以下哪种情况不属于机器学习的应用场景?()A 图像识别B 自然语言处理C 传统的数值计算D 预测股票价格2、在监督学习中,如果预测值与真实值之间的差异较大,通常使用以下哪种方法来衡量模型的性能?()A 准确率B 召回率C 均方误差D F1 值3、下列哪种算法不是聚类算法?()A KMeansB 决策树C 层次聚类D 密度聚类4、对于一个过拟合的模型,以下哪种方法可以缓解?()A 增加训练数据量B 减少模型的复杂度C 增加正则化项D 以上都是5、以下关于特征工程的描述,错误的是?()A 特征工程是将原始数据转换为更有意义和有用的特征的过程B 特征选择是特征工程的一部分C 特征工程对于机器学习模型的性能影响不大D 特征缩放可以提高模型的训练效率6、在深度学习中,以下哪个不是常见的激活函数?()A Sigmoid 函数B ReLU 函数C Tanh 函数D Logistic 函数7、支持向量机(SVM)主要用于解决什么问题?()A 回归问题B 分类问题C 聚类问题D 降维问题8、以下哪种优化算法常用于神经网络的训练?()A 随机梯度下降(SGD)B 牛顿法C 共轭梯度法D 以上都是9、下面关于集成学习的说法,错误的是?()A 随机森林是一种集成学习算法B 集成学习可以提高模型的稳定性和泛化能力C 集成学习中的个体学习器必须是同一种类型的模型D 集成学习通过组合多个弱学习器来构建一个强学习器10、对于一个二分类问题,若混淆矩阵如下:||预测正例|预测反例||||||实际正例| 80 | 20 ||实际反例| 10 | 90 |则该模型的准确率是多少?()A 80%B 90%C 70%D 85%二、填空题(每题 3 分,共 30 分)1、机器学习中的有监督学习包括________、________和________等任务。
2、常见的无监督学习算法有________、________和________。
《机器学习》期末考试试卷附答案一、选择题(每题5分,共25分)1. 机器学习的主要目的是让计算机从数据中____,以实现某些任务或预测未知数据。
A. 抽取特征B. 生成模型C. 进行推理D. 分类标签答案:B. 生成模型2. K-近邻算法(K-NN)是一种____算法。
A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习答案:A. 监督学习3. 在决策树算法中,节点的分裂是基于____进行的。
A. 信息增益B. 基尼不纯度C. 均方误差D. 交叉验证答案:A. 信息增益4. 支持向量机(SVM)的主要目的是找到一个超平面,将不同类别的数据点____。
A. 完全分开B. 尽量分开C. 部分分开D. 不分开答案:B. 尽量分开5. 哪种优化算法通常用于训练深度学习模型?A. 梯度下降B. 牛顿法C. 拟牛顿法D. 以上都对答案:D. 以上都对二、填空题(每题5分,共25分)1. 机器学习可以分为监督学习、无监督学习和____学习。
A. 半监督B. 强化C. 主动学习D. 深度答案:A. 半监督2. 线性回归模型是一种____模型。
A. 线性B. 非线性C. 混合型D. 不确定型答案:A. 线性3. 在进行特征选择时,常用的评估指标有____、____和____。
A. 准确率B. 召回率C. F1 分数D. AUC 值答案:B. 召回率C. F1 分数D. AUC 值4. 神经网络中的激活函数通常用于引入____。
A. 非线性B. 线性C. 噪声D. 约束答案:A. 非线性5. 当我们说一个模型具有很好的泛化能力时,意味着该模型在____上表现良好。
A. 训练集B. 验证集C. 测试集D. 所有集答案:C. 测试集三、简答题(每题10分,共30分)1. 请简要解释什么是过拟合和欠拟合,并给出解决方法。
2. 请解释什么是交叉验证,并说明它的作用。
答案:交叉验证是一种评估模型泛化能力的方法,通过将数据集分成若干个互斥的子集,轮流用其中若干个子集作为训练集,其余子集作为验证集,对模型进行评估。
机器学习算法导论期末考试题
1、给人脸打上标签再让模型进行学习训练的方法,属于( )
A.强化学习
B.半监督学习
C.监督学习
D.无监督学习
正确答案: C
2.机器学习进行的第一步是( )
A.数据收集
B.特征提取
C.交叉验证
D.模型训练
正确答案: B
3、一般来说,在机器学习中,用计算机处理一幅的图像,维度是( )
A.上万维
B.二维
C.三维
D.一维
正确答案: A
4、在讲解“没有免费午餐定理”的时候,我们假设以上每一种情况出现的概率相同,请问这样的假设是基于如”下哪种经验?( )
A.实践经验
B.无经验
C.常识经验
D.学习经验
正确答案: B
二、多选题
1、在本课程中,我们把机器学习分成了哪几类?( )
A.自监督学习
B.传统监督学习
C.无监督学习
D.半监督学习
正确答案:B、C、D
2、以下哪些算法是非显著式编程?( )
A.编程实现扫地机器人的路径规划
B.编程判断医疗CT片中的病变区域
C.编程统计一个地区的GDP
D.编程求解棋盘上的八皇后问题
正确答案:A. B
3、下面哪几种机器学习的分类,完全不需要人工标注数据?( )
A.半监督学习
B.强化学习
C.无监督学习
D.监督学习
正确答案:B. C。
中国科学院大学课程编号:712008Z 试 题 专 用 纸 课程名称:机器学习任课教师:卿来云———-—-————-————-—————---———-—--————-——————--—-—姓名学号 成绩一、基础题(共36分)1、请描述极大似然估计MLE 和最大后验估计MAP 之间的区别。
请解释为什么MLE 比MAP 更容易过拟合。
(10分)2、在年度百花奖评奖揭晓之前,一位教授问80个电影系的学生,谁将分别获得8个奖项(如最佳导演、最佳男女主角等)。
评奖结果揭晓后,该教授计算每个学生的猜中率,同时也计算了所有80个学生投票的结果。
他发现所有人投票结果几乎比任何一个学生的结果正确率都高。
这种提高是偶然的吗?请解释原因。
(10分)3、假设给定如右数据集,其中A 、B 、C 为二值随机变量,y 为待预测的二值变量。
(a) 对一个新的输入A =0, B =0, C =1,朴素贝叶斯分类器将会怎样预测y ?(10分)(b) 假设你知道在给定类别的情况下A 、B 、C 是独立的随机变量,那么其他分类器(如Logstic回归、SVM 分类器等)会比朴素贝叶斯分类器表现更好吗?为什么?(注意:与上面给的数据集没有关系。
)(6分) 二、回归问题。
(共24分) 现有N 个训练样本的数据集(){}1,Ni i i x y ==,其中,i i x y 为实数.1. 我们首先用线性回归拟合数据。
为了测试我们的线性回归模型,我们随机选择一些样本作为训练样本,剩余样本作为测试样本。
现在我们慢慢增加训练样本的数目,那么随着训练样本数目的增加,平均训练误差和平均测试误差将会如何变化?为什么?(6分) 平均训练误差:A 、增加 B 、减小 平均测试误差:A 、增加 B 、减小2. 给定如下图(a)所示数据。
粗略看来这些数据不适合用线性回归模型表示。
因此我们采用如下模型:()exp i i i y wx ε=+,其中()~0,1i N ε。
一、单选题1、在条件随机场(CRF)中,参数的学习通常使用哪种优化算法?()A.K-Means聚类B.梯度提升机(GBM)C.支持向量机(SVM)D.随机梯度下降(SGD)正确答案:D2、在概率无向图模型中,什么是团分解(Cluster Decomposition)?()A.一种通过节点之间的边传播信息,以更新节点的边缘概率的方法B.一种用于计算图的分割的算法C.一种将联合概率分布分解为多个局部概率分布的方法D.一种用于表示联合概率分布的无向树正确答案:C3、在数据不完备时,下列哪一种方法不是贝叶斯网络的参数学习方法()A.拉普拉斯近似B.最大似然估计方法C.蒙特卡洛方法D.高斯逼近正确答案:B4、在有向图模型中,什么是条件独立性?()A.给定父节点的条件下,子节点之间独立B.所有节点之间都独立C.所有节点的状态相互独立D.任意两个节点都是独立的正确答案:A5、在概率有向图模型中,节点表示什么?()A.变量B.参数C.条件概率D.边正确答案:A6、下列哪一项表示簇中样本点的紧密程度?()A.簇个数B.簇大小C.簇描述D.簇密度正确答案:D7、闵可夫斯基距离表示为曼哈顿距离时p为:()A.1B.2C.3D.4正确答案:A8、谱聚类与K均值聚类相比,对于什么样的数据表现更好?()A.低维数据B.高维数据C.线性可分数据D.高密度数据正确答案:B9、SVM适用于什么类型的问题?()A.既可用于线性问题也可用于非线性问题B.仅适用于回归问题C.仅适用于非线性问题D.仅适用于线性问题正确答案:A10、对于在原空间中线性不可分的问题,支持向量机()A.在原空间中寻找非线性函数划分数据B.无法处理C.利用核函数把数据映射到高维空间D.在原空间中寻找线性函数划分数据正确答案:C11、LDA主题模型中的alpha参数控制着什么?()A.单词分布的稀疏性B.文档-主题分布的稀疏性C.模型大小D.模型收敛速度正确答案:B12、LDA的全称是什么?()tent Dirichlet AllocationB.Linear Discriminant Analysistent Data AnalysisD.Lin Latent Dirichlet Allocation ear Data Algorithm正确答案:A13、以下对于梯度下降法中学习率lr的阐述,正确的是()A.lr小,收敛速度较快B.lr大,收敛速度较慢C.lr小,收敛速度较慢且较不易收敛D.lr大,收敛速度较快但可能导致不收敛正确答案:D14、在EM算法中,E代表期望,M代表()A.均值B.最大化C.最小化D.均方误差正确答案:B15、梯度下降中如何有效地捕捉到目标函数的全局最优?()A.调整学习速率B.增加模型复杂度C.使用梯度下降的变种算法D.增加训练样本量正确答案:C二、多选题1、下列机器学习常用算法中哪个属于分类算法?()A.K-meansB.最小距离分类器C.KNN(K近邻)D.逻辑回归正确答案:B、C、D2、下列关于决策树的说法正确的是?()A.CART使用的是二叉树B.其可作为分类算法,也可用于回归模型C.不能处理连续型特征D.它易于理解、可解释性强正确答案:A、B、D3、下列属于k近邻算法中常用的距离度量方法的是?()A.余弦相似度B.欧式距离C.曼哈顿距离D.闵可夫斯基距离正确答案:A、B、C、D4、下列属于深度模型的是?()A.DNNB.LightgbmC.LSTMD.Seq2Seq正确答案:A、C、D5、sklearn中RFECV方法分成哪两个部分?()A.RFEB.CVC.NLPD.MM正确答案:A、B6、以下关于蒙特卡洛方法描述正确的是()A.蒙特卡洛方法计算值函数可以采用First-visit方法B.蒙特卡洛方法方差很大C.蒙特卡洛方法计算值函数可以采用Every-visit方法D.蒙特卡洛方法偏差很大正确答案:A、B、C7、为什么循环神经网络可以用来实现自动问答,比如对一句自然语言问句给出自然语言回答()A.因为自动问答可以看成是一种序列到序列的转换B.因为循环神经网络能够处理变长输入C.因为循环神经网要比卷积神经网更强大D.因为卷积神经网络不能处理字符输入正确答案:A、B8、通常有哪几种训练神经网络的优化方法()A.梯度下降法B.随机梯度下降法C.小批量随机梯度下降法D.集成法正确答案:A、B、C9、隐马尔可夫模型的三个基本问题是()A.估值问题B.寻找状态序列C.学习模型参数D.状态更新正确答案:A、B、C10、在数据不完备时,贝叶斯网络的参数学习方法有()A.高斯逼近B.蒙特卡洛方法C.拉普拉斯近似D.最大似然估计方法正确答案:A、B、C11、基于约束的方法通过统计独立性测试来学习结点间的()A.独立性B.相关性C.依赖性D.完备性正确答案:A、B12、基于搜索评分的方法,关键点在于()A.确定合适的搜索策略B.确定评分函数C.确定搜索优先级D.确定选择策略正确答案:A、B13、条件随机场需要解决的关键问题有()A.特征函数的选择B.参数估计C.模型推断D.约束条件正确答案:A、B、C14、以下关于逻辑斯蒂回归模型的描述正确的是()A.针对分类的可能性进行建模,不仅能预测出类别,还可以得到属于该类别的概率B.直接对分类的可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题C.模型本质仍然是一个线性模型,实现相对简单D.逻辑斯蒂回归模型是线性回归模型正确答案:A、B、C、D15、LDA模型在做参数估计时,最常用的方法是()A.Gibbs采样方法B.变分推断C.梯度下降D.Beam search正确答案:A、B三、判断题1、关于EM算法的收敛性,EM算法理论上不能够保证收敛()正确答案:×2、多次运行,随机化初始点是对存在局部最优点的函数求解的一种方案()正确答案:√3、训练算法的目的就是要让模型拟合训练数据()正确答案:×4、循环神经网络按时间展开后就可以通过反向传播算法训练了()正确答案:√5、GIS算法的收敛速度由计算更新值的步长确定。
一、单选题1、以下关于感知器算法与支持向量机算法说法有误的是A. 由于支持向量机是基于所有训练数据寻找最大化间隔的超平面,而感知器算法却是相对随意的找一个分开两类的超平面,因此大多数时候,支持向量机画出的分类面往往比感知器算法好一些。
B.支持向量机是把所有训练数据都输入进计算机,让计算机解全局优化问题C.感知器算法相比于支持向量机算法消耗的计算资源和内存资源更少 ,但是耗费的计算资源更多D. 以上选项都正确正确答案:C2、假设你在训练一个线性回归模型,有下面两句话:如果数据量较少,容易发生过拟合。
如果假设空间较小,容易发生过拟合。
关于这两句话,下列说法正确的是?A.1正确,2错误B.1和2都错误C.1和2都正确D.1错误,2正确正确答案:A3、下面哪一项不是比较好的学习率衰减方法?t 表示为epoch 数。
A.α=11+2∗tᵯ0 B. α=1√ᵆᵯ0C. α=0.95ᵆᵯ0D.α=e ᵆᵯ0正确答案:D4、你正在构建一个识别足球(y = 1)与篮球(y = 0)的二元分类器。
你会使用哪一种激活函数用于输出层?A.ReLUB. tanhC.sigmoidD. Leaky ReLU正确答案:C5、假设你建立一个神经网络。
你决定将权重和偏差初始化为零。
以下哪项陈述是正确的?A.第一个隐藏层中的每个神经元将在第一次迭代中执行相同的计算。
但经过一次梯度下降迭代后,他们将会计算出不同的结果。
B.第一个隐藏层中的每个神经元节点将执行相同的计算。
所以即使经过多次梯度下降迭代后,层中的每个神经元节点都会计算出与其他神经元节点相同的结果。
C.第一个隐藏层中的每一个神经元都会计算出相同的结果,但是不同层的神经元会计算不同的结果。
D.即使在第一次迭代中,第一个隐藏层的神经元也会执行不同的计算, 他们的参数将以各自方式进行更新。
正确答案:B6、某个神经网络中所有隐藏层神经元使用tanh激活函数。
那么如果使用np.random.randn(…,…)* 1000将权重初始化为相对较大的值。
一、单选题1、以下关于感知器算法与支持向量机算法说法有误的是A. 由于支持向量机是基于所有训练数据寻找最大化间隔的超平面,而感知器算法却是相对随意的找一个分开两类的超平面,因此大多数时候,支持向量机画出的分类面往往比感知器算法好一些。
B.支持向量机是把所有训练数据都输入进计算机,让计算机解全局优化问题C.感知器算法相比于支持向量机算法消耗的计算资源和内存资源更少,但是耗费的计算资源更多D. 以上选项都正确正确答案:C2、假设你在训练一个线性回归模型,有下面两句话:如果数据量较少,容易发生过拟合。
如果假设空间较小,容易发生过拟合。
关于这两句话,下列说法正确的是?A.1正确,2错误B.1和2都错误C.1和2都正确D.1错误,2正确正确答案:A3、下面哪一项不是比较好的学习率衰减方法?t表示为epoch数。
α0A.α=11+2∗tα0B. α=√tC. α=0.95tα0D.α=e tα0正确答案:D4、你正在构建一个识别足球(y = 1)与篮球(y = 0)的二元分类器。
你会使用哪一种激活函数用于输出层?A.ReLUB. tanhC.sigmoidD. Leaky ReLU正确答案:C5、假设你建立一个神经网络。
你决定将权重和偏差初始化为零。
以下哪项陈述是正确的?A.第一个隐藏层中的每个神经元将在第一次迭代中执行相同的计算。
但经过一次梯度下降迭代后,他们将会计算出不同的结果。
B.第一个隐藏层中的每个神经元节点将执行相同的计算。
所以即使经过多次梯度下降迭代后,层中的每个神经元节点都会计算出与其他神经元节点相同的结果。
C.第一个隐藏层中的每一个神经元都会计算出相同的结果,但是不同层的神经元会计算不同的结果。
D.即使在第一次迭代中,第一个隐藏层的神经元也会执行不同的计算,他们的参数将以各自方式进行更新。
正确答案:B6、某个神经网络中所有隐藏层神经元使用tanh激活函数。
那么如果使用np.random.randn(…,…)* 1000将权重初始化为相对较大的值。
会发生什么?A.这不会对训练产生影响。
只要随机初始化权重,梯度下降不受权重大小的影响。
B.这会导致tanh的输入也非常大,从而使梯度也变大。
因此,你必须将学习率α设置得非常小以防止发散。
这会减慢网络参数学习速度。
C.这会导致tanh的输入也非常大,从而使梯度接近于零,优化算法将因此变得缓慢。
D.这会导致tanh的输入也非常大,导致神经元被“高度激活”,从而加快了学习速度。
正确答案:C7、以下关于权重衰减说法正确的是?A.权重衰减通过赋予神经元某个权值从而避免梯度消失B.当数据集中有噪声时,权重衰减可以在训练中逐渐修正神经网络的权重C.权重衰减是一种正则化技术,通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制D.权重衰减是在训练过程中逐渐减少学习率正确答案:C8、当你增加正则化超参数λ时会发生什么?A. λ翻倍后会导致权重也翻倍B.使权重变得更小(趋近0)C.每次迭代的梯度下降走的步长更长D.使权重变得更大(远离0)正确答案:B9、对训练数据归一化的根本原因是?A.归一化也可以说是一种正则化处理,可以提升模型泛化能力B.让模型更快的收敛C.加快参数初始化过程D.更容易对数据进行可视化正确答案:B10、如果你训练的模型代价函数J随着迭代次数的增加,绘制出来的图如下,那么A.无论你在使用mini-batch还是批量梯度下降,看上去都是合理的B.如果你正在使用mini-batch梯度下降,那可能有问题;而如果你在使用批量梯度下降,那是合理的C.如果你正在使用mini-batch梯度下降,那看上去是合理的;而如果你在使用批量梯度下降,那可能有问题D.无论你在使用mini-batch还是批量梯度下降,都可能有问题正确答案:C11、下图中的曲线是由:梯度下降,动量梯度下降(β=0.5)和动量梯度下降(β=0.9)。
哪条曲线对应哪种算法?A.(1)是梯度下降;(2)是动量梯度下降(β=0.9);(3)是动量梯度下降(β=0.5)B.(1)是动量梯度下降(β=0.5);(2)是动量梯度下降(β=0.9);(3)是梯度下降C. (1)是动量梯度下降(β=0.5);(2) 是梯度下降; (3) 是动量梯度下降(β=0.9)D.都有可能正确答案:B12、关于Adam 算法,下列哪一个陈述是错误的?A.Adam 中的学习率超参数α通常需要调整B.Adam 优化算法常用于批量梯度下降法中,而不是用于随机(小批量)梯度下降法C.我们经常使用超参数的默认值 β1=0.9,β2=0.999,ϵ=10−8D.Adam 结合了Rmsprop 和动量的优点正确答案:B13、标准化公式z norm (i)=(i)√δ2+ϵ什么要使用ϵ?A.防止μ太小B.为了避免除零操作C.为了更准确地标准化D.为了加速收敛正确答案:B14、在训练了具有批标准化的神经网络之后,在用新样本评估神经网络性能时,应该A.跳过用μ和δ2值标准化的步骤,因为一个样本不需要标准化B.使用在训练期间,通过指数加权平均值得出的μ和δ2执行所需的标准化C.如果你在batch size为256的mini-batch上实现了批标准化,那么如果你要在一个测试样本上进行评估,你应该将这个例子重复256次,这样你就可以使用和训练时大小相同的mini-batch进行预测。
D.使用最后一个的mini-batch的μ和δ2值来执行所需的标准化正确答案:B15、以下关于ReLU函数说法错误的是:A.ReLU 函数的输出是非零中心化的,给后一层的神经网络引入偏置偏移,会影响梯度下降的效率B.ReLU 神经元在训练时比较容易“死亡”.在训练时,如果参数在一次不恰当的更新后,第一个隐藏层中的某个 ReLU 神经元在所有的训练数据上都不能被激活,那么这个神经元自身参数的梯度永远都会是0,在以后的训练过程中永远不能被激活.C. Leaky ReLU 在输入时,保持一个很小的梯度,这样当神经元非激活时也能有一个非零的梯度可以更新参数,这在一定程度上缓解了梯度消失问题D. 三个选项均正确正确答案:C二、多选题1、以下关于感知器算法说法正确的为A.只要是训练数据集线性可分,感知器算法就一定能收敛。
B.感知机学习算法存在许多的解,对同一个训练集来说,感知机初值的选择不同,最后得到的解就可能不同。
C.多层感知器是感知器的推广,克服了感知器不能对线性不可分数据进行识别的弱点。
D.当训练数据集线性不可分的情况下,袋式算法(Pocket Algorithm)使感知机也可以收敛于一个相对理想的解。
正确答案:A、B、C、D2、以下属于机器学习中用来防止过拟合的方法的是:A.权值衰减 Weight decayB.增加神经网络层数C.训练多个模型进行融合输出D.早停策略正确答案:A、C、D3、为什么最好的mini-batch的大小通常不是1也不是训练集总样本数m,而是介于两者之间?A.如果mini-batch的大小是1,那么你需要遍历整个训练集后才能更新一次参数B.如果mini-batch的大小是m,就是随机梯度下降,而这样做经常会比mini-batch慢C.如果mini-batch的大小是m,就是批量梯度下降。
你需要遍历整个训练集来更新参数D.如果mini-batch的大小是1,那么你将失去mini-batch将数据矢量化带来的的好处正确答案:C、D4、批标准化中关于γ和β的以下哪些陈述是正确的?A. γ和β的值确定了给定的批量归一化层的输出变量的均值和方差B.最佳值是γ=√δ2+ϵ,β=μC. γ和β是算法的超参数,我们通过随机采样进行调整D.它们的值可以通过Adam、AdaGrad或RMSprop优化算法来学习正确答案:A、D5、关于超参数优化的说法正确的有:A.超参数优化是一个组合优化问题,无法像一般参数那样通过梯度下降方法来优化B.评估一组超参数配置的时间代价非常高,从而导致一些优化方法(比如演化算法)在超参数优化中难以应用C.采用网格搜索会在不重要的超参数上进行不必要的尝试.一种在实践中比较有效的改进方法是对超参数进行随机组合,然后选取一个性能最好的配置D.神经架构搜索(NAS)也是神经网络超参数优化的一种方法。
它的原理是给定一个称为搜索空间的候选神经网络结构集合,用某种策略从中搜索出最优网络结构。
正确答案:A、B、C、D6、以下属于权重初始化方法的有?A.kaiming初始化B.均匀分布初始化(uniform)C.xavier 初始化D.高斯初始化(gaussian)正确答案:A、B、C、D7、神经网络中常见的超参数有?A.隐藏层数目B.正则化参数C.梯度下降法迭代的步数D.批大小正确答案:A、B、C、D8、现在我们增大批量梯度下降中的batch size超参数,与之前相比可能会发生什么变化?A.内存利用率提高了,大矩阵乘法的并行化效率提高。
B.跑完一次 epoch(全数据集)所需的迭代次数减少,对于相同数据量的处理速度进一步加快。
C.同样的模型要想达到相同的精度,其训练所花费的时间与增大前几乎相同。
D.一般来说 batch Size 越大,其确定的下降方向越准,引起训练loss震荡越小。
正确答案:A、B、D三、判断题1、sigmoid函数不是关于原点中心对称的,这会导致之后的网络层的输出也不是零中心的,进而影响梯度下降运作。
tanh激活函数解决了这个不足。
(√)2、Adagrad和RMSprop这两种自适应学习率的方式稍有差异,但主要思想都是基于历史的累计梯度去计算一个当前较优的学习率。
(√)3、在标准的随机梯度下降中,权重衰减正则化和ℓ2 正则化的效果相同.因此,权重衰减在一些深度学习框架中通过ℓ2 正则化来实现.但是,在较为复杂的优化方法(比如 Adam)中,权重衰减正则化和ℓ2 正则化并不等价。
(√)4、Xavier初始化是为了使得在经过多层网络后,信号不被过分放大或过分减弱,尽可能保持每个神经元的输入和输出的方差一致而提出的参数初始化方案。
(√)5、在线性模型的训练(比如感知器和Logistic回归)中,我们一般将参数全部初始化为 0.对于神经网络的训练也是如此。
(×) 6、Sigmoid激活函数会导致梯度消失现象;而Tanh激活函数不会。
(×)。