【中级】第8章 机器学习基础算法建模(8.4 集成学习算法)V1.1
- 格式:pptx
- 大小:532.60 KB
- 文档页数:41
1. 在机器学习中,监督学习的主要目标是:A) 从无标签数据中学习B) 从有标签数据中学习C) 优化模型的复杂度D) 减少计算资源的使用2. 下列哪种算法属于无监督学习?A) 线性回归B) 决策树C) 聚类分析D) 支持向量机3. 在机器学习模型评估中,交叉验证的主要目的是:A) 增加模型复杂度B) 减少数据集大小C) 评估模型的泛化能力D) 提高训练速度4. 下列哪项不是特征选择的方法?A) 主成分分析(PCA)B) 递归特征消除(RFE)C) 网格搜索(Grid Search)D) 方差阈值(Variance Threshold)5. 在深度学习中,卷积神经网络(CNN)主要用于:A) 文本分析B) 图像识别C) 声音处理D) 推荐系统6. 下列哪种激活函数在神经网络中最为常用?A) 线性激活函数B) 阶跃激活函数C) ReLUD) 双曲正切函数7. 在机器学习中,过拟合通常是由于以下哪种情况引起的?A) 模型过于简单B) 数据量过大C) 模型过于复杂D) 数据预处理不当8. 下列哪项技术用于处理类别不平衡问题?A) 数据增强B) 重采样C) 特征选择D) 模型集成9. 在自然语言处理(NLP)中,词嵌入的主要目的是:A) 提高计算效率B) 减少词汇量C) 捕捉词之间的语义关系D) 增加文本长度10. 下列哪种算法不属于集成学习方法?A) 随机森林B) AdaBoostC) 梯度提升机(GBM)D) 逻辑回归11. 在机器学习中,ROC曲线用于评估:A) 模型的准确性B) 模型的复杂度C) 模型的泛化能力D) 分类模型的性能12. 下列哪项不是数据预处理的步骤?A) 缺失值处理B) 特征缩放C) 模型训练D) 数据标准化13. 在机器学习中,L1正则化主要用于:A) 减少模型复杂度B) 增加特征数量C) 特征选择D) 提高模型精度14. 下列哪种方法可以用于处理时间序列数据?A) 主成分分析(PCA)B) 线性回归C) ARIMA模型D) 决策树15. 在机器学习中,Bagging和Boosting的主要区别在于:A) 数据处理方式B) 模型复杂度C) 样本使用方式D) 特征选择方法16. 下列哪种算法适用于推荐系统?A) K-均值聚类B) 协同过滤C) 逻辑回归D) 随机森林17. 在机器学习中,A/B测试主要用于:A) 模型选择B) 特征工程C) 模型评估D) 用户体验优化18. 下列哪种方法可以用于处理缺失数据?A) 删除含有缺失值的样本B) 使用均值填充C) 使用中位数填充D) 以上都是19. 在机器学习中,偏差-方差权衡主要关注:A) 模型的复杂度B) 数据集的大小C) 模型的泛化能力D) 特征的数量20. 下列哪种算法属于强化学习?A) Q-学习B) 线性回归C) 决策树D) 支持向量机21. 在机器学习中,特征工程的主要目的是:A) 减少数据量B) 增加模型复杂度C) 提高模型性能D) 简化数据处理22. 下列哪种方法可以用于处理多分类问题?A) 一对多(One-vs-All)B) 一对一(One-vs-One)C) 层次聚类D) 以上都是23. 在机器学习中,交叉熵损失函数主要用于:A) 回归问题B) 分类问题C) 聚类问题D) 强化学习24. 下列哪种算法不属于深度学习?A) 卷积神经网络(CNN)B) 循环神经网络(RNN)C) 随机森林D) 长短期记忆网络(LSTM)25. 在机器学习中,梯度下降算法的主要目的是:A) 减少特征数量B) 优化模型参数C) 增加数据量D) 提高计算速度26. 下列哪种方法可以用于处理文本数据?A) 词袋模型(Bag of Words)B) TF-IDFC) 词嵌入D) 以上都是27. 在机器学习中,正则化的主要目的是:A) 减少特征数量B) 防止过拟合C) 增加数据量D) 提高计算速度28. 下列哪种算法适用于异常检测?A) 线性回归B) 决策树C) 支持向量机D) 孤立森林(Isolation Forest)29. 在机器学习中,集成学习的主要目的是:A) 提高单个模型的性能B) 结合多个模型的优势C) 减少数据量D) 增加模型复杂度30. 下列哪种方法可以用于处理高维数据?A) 主成分分析(PCA)B) 特征选择C) 特征提取D) 以上都是31. 在机器学习中,K-均值聚类的主要目的是:A) 分类B) 回归C) 聚类D) 预测32. 下列哪种算法适用于时间序列预测?A) 线性回归B) ARIMA模型C) 决策树D) 支持向量机33. 在机器学习中,网格搜索(Grid Search)主要用于:A) 特征选择B) 模型选择C) 数据预处理D) 模型评估34. 下列哪种方法可以用于处理类别特征?A) 独热编码(One-Hot Encoding)B) 标签编码(Label Encoding)C) 特征哈希(Feature Hashing)D) 以上都是35. 在机器学习中,AUC-ROC曲线的主要用途是:A) 评估分类模型的性能B) 评估回归模型的性能C) 评估聚类模型的性能D) 评估强化学习模型的性能36. 下列哪种算法不属于监督学习?A) 线性回归B) 决策树C) 聚类分析D) 支持向量机37. 在机器学习中,特征缩放的主要目的是:A) 减少特征数量B) 提高模型性能C) 增加数据量D) 简化数据处理38. 下列哪种方法可以用于处理文本分类问题?A) 词袋模型(Bag of Words)B) TF-IDFC) 词嵌入D) 以上都是39. 在机器学习中,决策树的主要优点是:A) 易于理解和解释B) 计算效率高C) 对缺失值不敏感D) 以上都是40. 下列哪种算法适用于图像分割?A) 卷积神经网络(CNN)B) 循环神经网络(RNN)C) 随机森林D) 支持向量机41. 在机器学习中,L2正则化主要用于:A) 减少模型复杂度B) 增加特征数量C) 特征选择D) 提高模型精度42. 下列哪种方法可以用于处理时间序列数据的季节性?A) 移动平均B) 季节分解C) 差分D) 以上都是43. 在机器学习中,Bagging的主要目的是:A) 减少模型的方差B) 减少模型的偏差C) 增加数据量D) 提高计算速度44. 下列哪种算法适用于序列数据处理?A) 卷积神经网络(CNN)B) 循环神经网络(RNN)C) 随机森林D) 支持向量机45. 在机器学习中,AdaBoost的主要目的是:A) 减少模型的方差B) 减少模型的偏差C) 增加数据量D) 提高计算速度46. 下列哪种方法可以用于处理文本数据的情感分析?A) 词袋模型(Bag of Words)B) TF-IDFC) 词嵌入D) 以上都是47. 在机器学习中,支持向量机(SVM)的主要优点是:A) 适用于高维数据B) 计算效率高C) 对缺失值不敏感D) 以上都是48. 下列哪种算法适用于推荐系统中的用户行为分析?A) 协同过滤B) 内容过滤C) 混合过滤D) 以上都是49. 在机器学习中,交叉验证的主要类型包括:A) K-折交叉验证B) 留一法交叉验证C) 随机划分交叉验证D) 以上都是50. 下列哪种方法可以用于处理图像数据?A) 卷积神经网络(CNN)B) 循环神经网络(RNN)C) 随机森林D) 支持向量机51. 在机器学习中,梯度提升机(GBM)的主要优点是:A) 适用于高维数据B) 计算效率高C) 对缺失值不敏感D) 以上都是52. 下列哪种算法适用于异常检测中的离群点检测?A) 线性回归B) 决策树C) 支持向量机D) 孤立森林(Isolation Forest)53. 在机器学习中,特征提取的主要目的是:A) 减少特征数量B) 提高模型性能C) 增加数据量D) 简化数据处理答案:1. B2. C3. C4. C5. B6. C7. C8. B9. C10. D11. D12. C13. C14. C15. C16. B17. D18. D19. C20. A21. C22. D23. B24. C25. B26. D27. B28. D29. B30. D31. C32. B33. B34. D35. A36. C37. B38. D39. D40. A41. A42. D43. A44. B45. B46. D47. A48. D49. D50. A51. D52. D53. B。
机器学习中的集成学习算法一、集成学习简介集成学习(Ensemble Learning)是机器学习中的一种重要算法。
它的主要思想是将多个弱学习算法集合起来形成一个强学习算法。
二、集成学习分类按照分类器的生成方式可将集成学习分类为Bagging算法、Boosting算法和Stacking算法。
1. Bagging算法Bagging全称为Bootstrap AGGregating,是自举聚合的缩写。
它的基本思想是采用自助法来产生k个新的训练集,在每个训练集上训练出一个基学习器,然后将这k个基学习器的结果进行平均或多数表决等方式来得到最终的结果。
2. Boosting算法Boosting算法基本思想是将一系列弱分类器相互结合,构成一个强分类器的过程。
它的主要特点是每一轮都学习一个新的分类器,并使得之前所有分类器的分类准确率加权相加。
3. Stacking算法Stacking算法是一种用来组合多个学习器的方法。
与传统的集成学习方法不同,Stacking算法通过加入一个“次级学习器”来对多个基学习器进行组合,从而构建出一个强学习器。
三、集成学习的优点1. 集成学习可显著提高机器学习算法的准确率和性能,并且对于许多不同类型的学习算法均有效。
2. 集成学习能够减轻模型过拟合问题,提高模型鲁棒性和泛化能力。
3. 集成学习能够减少各个单个模型产生的误差或者偏差,从而提高模型的精度。
四、集成学习案例1. 随机森林(Random Forest)随机森林是一种集成学习方法,它基于决策树算法创建多个随机子集的基学习器,最终将这些基学习器合并成一个强学习器。
2. AdaBoostAdaBoost是一种常见的Boosting算法,它通过不断调整训练样本的权重来训练机器学习模型,从而提高模型准确率。
3. Gradient Boosting Machines(GBM)GBM也是一种常见的Boosting算法,它采用一种梯度下降算法来学习弱学习器的加权。
一、选择题1.在机器学习中,哪种算法常用于分类问题,通过构建决策树来进行预测?A.线性回归B.决策树算法(答案)C.K-means聚类D.主成分分析2.下列哪一项不是深度学习的常用框架?A.TensorFlowB.PyTorchC.Scikit-learn(答案)D.Keras3.在神经网络中,权重和偏置的初始值设置对训练过程有很大影响。
哪种初始化方法可以帮助避免梯度消失或爆炸问题?A.随机初始化B.Xavier/Glorot初始化(答案)C.全零初始化D.全一初始化4.以下哪项技术常用于自然语言处理(NLP)中的词嵌入表示?A.词袋模型B.TF-IDFC.Word2Vec(答案)D.One-hot编码5.在强化学习中,智能体(Agent)根据什么来选择动作?A.奖励函数(答案)B.状态转移概率C.动作空间大小D.环境模型6.下列哪一项不是卷积神经网络(CNN)的常用层?A.卷积层B.池化层C.全连接层D.循环层(答案)7.在机器学习的模型评估中,哪种方法可以用于评估分类模型的性能,通过计算真正例、假正例、真反例和假反例的数量?A.混淆矩阵(答案)B.ROC曲线C.交叉验证D.准确率8.以下哪个算法是基于实例的学习算法,通过计算新数据与训练集中每个数据点的相似度来进行分类或回归?A.K-近邻算法(答案)B.支持向量机C.神经网络D.决策树9.在自然语言处理中,哪种技术可以用于将句子或文档转换为固定长度的向量表示?A.词嵌入B.文本分类C.情感分析D.Sentence Embedding(答案)10.以下哪个术语用于描述在训练过程中,模型在训练集上的性能逐渐提高,但在测试集上的性能开始下降的现象?A.过拟合(答案)B.欠拟合C.交叉验证D.泛化能力。
集成学习算法总结1、集成学习概述1.1 集成学习概述集成学习在机器学习算法中具有较⾼的准去率,不⾜之处就是模型的训练过程可能⽐较复杂,效率不是很⾼。
⽬前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。
1.2 集成学习的主要思想集成学习的主要思想是利⽤⼀定的⼿段学习出多个分类器,⽽且这多个分类器要求是弱分类器,然后将多个分类器进⾏组合公共预测。
核⼼思想就是如何训练处多个弱分类器以及如何将这些弱分类器进⾏组合。
1.3、集成学习中弱分类器选择⼀般采⽤弱分类器的原因在于将误差进⾏均衡,因为⼀旦某个分类器太强了就会造成后⾯的结果受其影响太⼤,严重的会导致后⾯的分类器⽆法进⾏分类。
常⽤的弱分类器可以采⽤误差率⼩于0.5的,⽐如说逻辑回归、SVM、神经⽹络。
1.4、多个分类器的⽣成可以采⽤随机选取数据进⾏分类器的训练,也可以采⽤不断的调整错误分类的训练数据的权重⽣成新的分类器。
1.5、多个弱分类区如何组合基本分类器之间的整合⽅式,⼀般有简单多数投票、权重投票,贝叶斯投票,基于D-S证据理论的整合,基于不同的特征⼦集的整合。
2、Boosting算法2.1 基本概念Boosting⽅法是⼀种⽤来提⾼弱分类算法准确度的⽅法,这种⽅法通过构造⼀个预测函数系列,然后以⼀定的⽅式将他们组合成⼀个预测函数。
他是⼀种框架算法,主要是通过对样本集的操作获得样本⼦集,然后⽤弱分类算法在样本⼦集上训练⽣成⼀系列的基分类器。
他可以⽤来提⾼其他弱分类算法的识别率,也就是将其他的弱分类算法作为基分类算法放于Boosting 框架中,通过Boosting框架对训练样本集的操作,得到不同的训练样本⼦集,⽤该样本⼦集去训练⽣成基分类器;每得到⼀个样本集就⽤该基分类算法在该样本集上产⽣⼀个基分类器,这样在给定训练轮数 n 后,就可产⽣ n 个基分类器,然后Boosting框架算法将这 n个基分类器进⾏加权融合,产⽣⼀个最后的结果分类器,在这 n个基分类器中,每个单个的分类器的识别率不⼀定很⾼,但他们联合后的结果有很⾼的识别率,这样便提⾼了该弱分类算法的识别率。
图表目录图1知识工程发展历程 (3)图2 Knowledge Graph知识图谱 (9)图3知识图谱细分领域学者选取流程图 (10)图4基于离散符号的知识表示与基于连续向量的知识表示 (11)图5知识表示与建模领域全球知名学者分布图 (13)图6知识表示与建模领域全球知名学者国家分布统计 (13)图7知识表示与建模领域中国知名学者分布图 (14)图8知识表示与建模领域各国知名学者迁徙图 (14)图9知识表示与建模领域全球知名学者h-index分布图 (15)图10知识获取领域全球知名学者分布图 (23)图11知识获取领域全球知名学者分布统计 (23)图12知识获取领域中国知名学者分布图 (23)图13知识获取领域各国知名学者迁徙图 (24)图14知识获取领域全球知名学者h-index分布图 (24)图15 语义集成的常见流程 (29)图16知识融合领域全球知名学者分布图 (31)图17知识融合领域全球知名学者分布统计 (31)图18知识融合领域中国知名学者分布图 (31)图19知识融合领域各国知名学者迁徙图 (32)图20知识融合领域全球知名学者h-index分布图 (32)图21知识查询与推理领域全球知名学者分布图 (39)图22知识查询与推理领域全球知名学者分布统计 (39)图23知识查询与推理领域中国知名学者分布图 (39)图24知识表示与推理领域各国知名学者迁徙图 (40)图25知识查询与推理领域全球知名学者h-index分布图 (40)图26知识应用领域全球知名学者分布图 (46)图27知识应用领域全球知名学者分布统计 (46)图28知识应用领域中国知名学者分布图 (47)图29知识应用领域各国知名学者迁徙图 (47)图30知识应用领域全球知名学者h-index分布图 (48)图31行业知识图谱应用 (68)图32电商图谱Schema (69)图33大英博物院语义搜索 (70)图34异常关联挖掘 (70)图35最终控制人分析 (71)图36企业社交图谱 (71)图37智能问答 (72)图38生物医疗 (72)图39知识图谱领域近期热度 (75)图40知识图谱领域全局热度 (75)表1知识图谱领域顶级学术会议列表 (10)表2 知识图谱引用量前十论文 (56)表3常识知识库型指示图 (67)摘要知识图谱(Knowledge Graph)是人工智能重要分支知识工程在大数据环境中的成功应用,知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
2023年6月机器学习考试题及答案考试题目1. 什么是机器研究?2. 请简要说明监督研究和无监督研究的区别。
3. 什么是过拟合?如何避免过拟合?4. 请解释什么是决策树,并列举一些常用的决策树算法。
5. 什么是集成研究?列举两种常见的集成研究方法。
6. 请解释支持向量机(SVM)的工作原理。
7. 什么是深度研究?列举两个常用的深度研究模型。
8. 请简要介绍一下主成分分析(PCA)的原理和应用领域。
9. 什么是聚类分析?请列举一个常用的聚类算法。
10. 请说明机器研究中的特征选择方法。
答案1. 机器研究是一种人工智能的分支,旨在通过使用算法和统计模型,使计算机能够从数据中研究和改进,而无需明确编程。
它涉及让计算机从经验中自动研究,并利用研究到的知识来进行决策和预测。
3. 过拟合指模型在训练集上表现很好,但在新数据上表现较差的现象。
为了避免过拟合,可以采用以下方法:- 使用正则化技术,如L1正则化和L2正则化,限制模型的复杂度。
- 进行特征选择,排除一些对模型泛化能力影响较大的特征。
4. 决策树是一种基于树结构的分类和回归模型,它代表了对数据进行决策的过程。
常见的决策树算法包括ID3、C4.5和CART。
5. 集成研究是一种使用多个研究器进行组合预测的方法。
常见的集成研究方法包括随机森林和梯度提升树。
6. 支持向量机(SVM)是一种二分类模型,其工作原理是将数据映射到高维空间,在高维空间中找到一个最优超平面来分割不同类别的数据点。
7. 深度研究是一种基于神经网络的机器研究方法,它通过多层次的非线性变换来研究和表示数据。
常见的深度研究模型包括卷积神经网络(CNN)和循环神经网络(RNN)。
8. 主成分分析(PCA)是一种常用的降维技术,它通过线性变换将原始数据映射到低维空间,保留数据集中的主要特征。
主成分分析在数据预处理、图像处理和模式识别等领域有广泛的应用。
9. 聚类分析是一种将数据点划分为不同组别或类别的无监督研究方法。
机器学习笔试题汇总⽂章⽬录树1、在以下集成学习模型的调参中,哪个算法没有⽤到学习率learning rate? BA.XGboostB.随机森林Random ForestC.LightGBMD.Adaboost分析:其他三个都是基于梯度的算法,有梯度基本都有学习率,详细的可以去看看他们的更新公式。
2、在集成学习两⼤类策略中,boosting和bagging如何影响模型的偏差(bias)和⽅差(variance)?CA. boosting和bagging均使得⽅差减⼩B. boosting和bagging均使得偏差减⼩C. boosting使得偏差减⼩,bagging使得⽅差减⼩D. boosting使得⽅差减⼩,bagging使得偏差减⼩3、梯度提升决策树(GBDT)是在⼯业界和竞赛⾥最常⽤的模型之⼀,Xgboost和Lightgbm均是改进版的GBDT模型。
关于调整参数缓解过拟合,以下说法正确的是:C1、增⼤正则化参数2、减⼩树数量tree numbers3、减⼩⼦采样⽐例subsample4、增⼤树深度max_depthA.1、2、3B.1、2、4C.1、3、4D.2、3、4分析:树越多越不会过拟合;树的深度,越深代表模型越复杂,越容易过拟合;减⼩⼦采样⽐例subsample,类似神经⽹络⾥⾯的dropout,能缓解过拟合。
2叉和3叉的区别1、稳定不⼀样,⼆叉树鲁棒性更强2、3叉⾼阶组合少了,⼆叉树表达能⼒更强3、男⼥这种特证做三叉树不好做xgboost相对于GBDT的改进?lt相对于xgboost的改进?特征⼯程1、特征选择(Feature selection)对于机器学习任务是⼗分重要的,是解决维度灾难的有效⽅法。
以下关于特征选择算法的说法不正确的是? DA. 过滤式⽅法(Filter)通常是独⽴地选择特征,这可能会忽略特征组合之间的相关性。
B. 封装式⽅法(Wrapper)可能所选特征效果好,但是时间复杂度通常⾮常⾼。
机器学习中的集成学习算法机器学习是目前非常热门的研究领域。
在机器学习中,集成学习算法尤为重要。
集成学习算法是指通过将多个不同的学习算法结合起来,来提高模型的性能和泛化能力。
本文将会介绍集成学习算法的概念、分类以及具体应用等内容。
一、集成学习算法的概念集成学习算法是一种将多个分类器组合起来,以提高学习算法的性能和泛化能力的方法。
其根据不同的机器学习算法,通过实现不同的策略来改进分类器的准确性。
这些算法的主要目的是减少过拟合和提高鲁棒性,它们通过整合来自不同算法的信息,从而提高整体性能。
二、集成学习的分类根据集成学习算法的实现原理,可以将其划分为三类:bagging(套袋法)、boosting(提升法)和stacking(堆叠法)。
1. BaggingBagging是一种并行的集成学习方法。
它的原理是基于不同的训练集对分类器进行训练,并对结果进行平均(以分类问题为例),以提高分类器的准确性。
Bagging依赖于构造大量的分类器并将它们的结果合并,从而使得模型更具鲁棒性和泛化能力。
2. BoostingBoosting是目前应用最广泛的集成学习方法之一。
Boosting的工作原理是一种按序列引入数据的方法。
它的实现方法是生成一系列的基分类器,并将它们按照一定的权重组合来提高模型的准确性。
Boosting技术就是不断得学习如何在错误中提高模型的准确性的过程。
缺点是Boosting几乎总是会导致过度拟合问题,而且对训练数据过于敏感。
3. StackingStacking是一种堆叠的学习方法,它通过堆叠不同分类器的输出来构建一个新的分类器。
Stacking的实现方法是基于不同的学习算法来生成若干个分类器。
这些分类器由不同的特征子集和训练数据子集构成。
最终,在训练数据上生成的分类器组成一个新的分类器来提高分类的准确性。
三、集成学习算法的具体应用集成学习算法可以应用于各种机器学习问题,包括分类和回归。
以下是一些常见的应用:1. 图像识别图像识别是一个受欢迎的研究领域。
集成学习——机器学习(周志华)集成学习⽬录:个体和集成BoostingBagging与随机森林Bagging随机森林综合策略平均法投票法学习法多样性误差-分歧分解多样性度量多样性增强内容:个体和集成集成学习是通过构建并结合多个学习器来完成学习任务,如下图,集成学习通过将多个学习器结合,获得⽐单⼀学习器显著优越的泛化性能。
集成学习分为同质集成和异质集成,如果个体学习器全是⼀种算法称为同质集成,如果由不同算法⽣成,称为异质集成。
基学习器是对于同质集成说的。
要获得好的集成,个体学习器应该“好⽽不同”。
如下图,图1中每个分类器只有66.6%的精度,集成之后精度为100%,图2中集成之后性能没有提⾼,图3中每个分类器只有33.3%的精度,集成之后变得更糟。
⽬前集成学习⽅法⼤致分为两⼤类。
个体学习器间存在强依赖关系、必须串⾏⽣成得序列化⽅法(Boosting)个体学习器间不存在强依赖关系、可同时⽣成得并⾏化⽅法(Bagging和随机森林)BoostingBoosting的原理图如下Boosting族算法最著名得代表是Adaboost。
Adaboost算法流程如下,详细流程见,另外Bagging与随机森林BaggingBagging的原理图如下Bagging 采样出T 个含m 个训练样本的采样集,然后基于每个采样集训练出⼀个基学习器,再将这些及学习器进⾏结合。
采样的⽅法使⽤⾃助采样法。
从偏差-⽅差分解的⾓度看,Bagging 主要关注降低⽅差,因此它在不剪枝决策树、神经⽹络等易受样本扰动的学习器上效果更明显。
随机森林随机森林是Bagging 的⼀个扩展变体,是以决策树为及学习器构建Bagging 集成的基础上,进⼀步在决策树的训练过程中引⼊随机属性选择。
具体来说,传统决策树在选择划分属性时是在当前结点的属性集合(假定有d 个属性)中选择⼀个最优属性;⽽在RF 中,对基决策树的每个结点,先从该结点的属性集合中随机选择⼀个包含k 个属性的⼦集,然后再从这个⼦集中选择⼀个最优属性⽤于划分. 这⾥的参数k 控制了随机性的引⼊程度;若令k=dk = dk =d, 则基决策树的构建与传统决策树相同;若令k = 1 , 则是随机选择⼀个属性⽤于划分; ⼀般情况下,推荐值k=log2dk = log_2 dk =log2d 。
一、单选题1、下列哪位是人工智能之父?( )A.Marniv Lee MinskyB.HerbertA.SimonC.Allen NewellD.John Clifford Shaw正确答案:A2、根据王珏的理解,下列不属于对问题空间W的统计描述是( )。
A.一致性假设B.划分C.泛化能力D.学习能力正确答案:D3、下列描述无监督学习错误的是( )。
A.无标签B.核心是聚类C.不需要降维D.具有很好的解释性正确答案:C4、下列描述有监督学习错误的是( )。
A.有标签B.核心是分类C.所有数据都相互独立分布D.分类原因不透明正确答案:C5、下列哪种归纳学习采用符号表示方式?( )A. 经验归纳学习B.遗传算法C.联接学习D.强化学习正确答案:A6、混淆矩阵的假正是指( )。
A.模型预测为正的正样本B.模型预测为正的负样本C.模型预测为负的正样本D.模型预测为负的负样本正确答案:B7、混淆矩阵的真负率公式是为( )。
A.TP/(TP+FN)B.FP/(FP+TN)C.FN/(TP+FN)D.TN/(TN+FP)正确答案:D8、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,准确率是( )。
A.1/4B.1/2C.4/7D.4/6正确答案:B9、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,精确率是( )。
A.1/4B.1/2C.4/7D.2/3正确答案:C10、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,召回率是( )。
A.1/4B.1/2C.4/7D.2/3正确答案:D11、混淆矩阵中的TP=16,FP=12,FN=8,TN=4,F1-score是( )。
A.4/13B.8/13C.4/7D.2/30.00/2.00正确答案:B12、EM算法的E和M指什么?( )A.Expectation-MaximumB.Expect-MaximumC.Extra-MaximumD.Extra-Max正确答案:A13、EM算法的核心思想是?( )A.通过不断地求取目标函数的下界的最优值,从而实现最优化的目标。
机器学习基础
机器学习(Machine Learning)是一种人工智能,它通过学习从数据中获取规律来预测未来事件或做出决策,以提高系统表现或发现新特征的技术。
它介于统计学、信息论和数学之间,可以分为有监督的学习和无监督的学习两类。
机器学习的核心是学习,而学习本质上就是从数据中获取知识。
学习是机器学习的基础,它是通过训练数据来构建和完善机器预测、分析、决策、识别等能力的过程。
训练数据是机器学习的基础,不同的机器学习方法需要不同的训练数据格式和数量。
有监督的学习是从定义好的希望的输出中学习,它的核心是模型学习,模型学习通过参数估计,选择合适的模型,并根据训练数据的结果来更新模型。
比如有普通的线性回归、岭回归、决策树、支持向量机、神经网络等模型。
无监督的学习是在无定义输出的情况下学习,它旨在发现数据中的隐含特征,主要有数据挖掘、聚类分析、主成分分析等。
这类方法
可以自动将数据结构化,通过寻找隐含的关联性来作出预测分析和决策。
另外,还有机器学习的另一个重要内容,就是评估,它是评价机
器学习分析的过程,评估方法提供机器学习分析实现的可能性,以及
判断学习算法与实验结果之间的差异,这样可以判断是否能够满足其
实际应用的需求。
总的来说,机器学习是通过对数据进行学习、模型构建等步骤,
构建系统获取知识和技能,从反馈数据中得出结论,即预测未知领域
的预期表现的技术。
它是一个系统的应用程序,涉及的技术知识包括
机器学习算法、统计学、数学算法、信息技术、网络技术等多个方面。
机器学习在很多系统中都得到了广泛应用,是一种重要的人工智能技术。
2022机器学习专项测试试题及答案1.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。
()A.数据清洗A、数据清洗B.数据分析C.模型训练(正确答案)D.模型搭建2.机器翻译属于下列哪个领域的应用?() *A.自然语言系统(正确答案)A. 自然语言系统(正确答案)B.机器学习C.专家系统D.人类感官模拟3.为了解决如何模拟人类的感性思维, 例如视觉理解、直觉思维、悟性等, 研究者找到一个重要的信息处理的机制是()。
*A.专家系统B.人工神经网络(正确答案)C.模式识别D.智能代理4.要想让机器具有智能, 必须让机器具有知识。
因此, 在人工智能中有一个研究领域, 主要研究计算机如何自动获取知识和技能, 实现自我完善, 这门研究分支学科叫()。
*A. 专家系统A.专家系统B. 机器学习(正确答案)C. 神经网络D. 模式识别5.如下属于机器学习应用的包括()。
*A.自动计算, 通过编程计算 456*457*458*459 的值(正确答案)A. 自动计算,通过编程计算 456*457*458*459 的值(正确答案)A.自动计算,通过编程计算 456*457*458*459 的值(正确答案)B.文字识别, 如通过 OCR 快速获得的图像中出汉字, 保存为文本C.语音输入, 通过话筒将讲话内容转成文本D.麦克风阵列, 如利用灵云该技术实现远场语音交互的电视6.对于神经网络模型, 当样本足够多时, 少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小, 这属于()。
*A. 泛化能力A.泛化能力B. 容错能力(正确答案)C. 搜索能力D. 非线性映射能力7.下列选项不属于机器学习研究内容的是() *A. 学习机理A.学习机理B. 自动控制(正确答案)C. 学习方法D. 计算机存储系统8.机器学习的经典定义是: () *A.利用技术进步改善系统自身性能A. 利用技术进步改善系统自身性能B.利用技术进步改善人的能力C.利用经验改善系统自身的性能(正确答案)D.利用经验改善人的能力9.研究某超市销售记录数据后发现, 买啤酒的人很大概率也会购买尿布, 这种属于数据挖掘的那类问题()。