机器学习小测及答案
- 格式:docx
- 大小:249.37 KB
- 文档页数:4
机器学习第一阶段测试题一、选择题1.以下带佩亚诺余项的泰勒展开式错误的一项是(D)A.)x (o x !x !x e x 33231211++++= B.)x (o x *x x arcsin 33321++=C.)x (o x !x !x x sin 5535131++-= D.)x (o x !x !x cos 44241211+-+=分析:)x (o x !x !x cos 44241211++-=2.以下关于凸优化的说法错误的一项是(C )A.集合C 任意两点间线段均在集合C 内,则C 为凸集B.集合C 的凸包是能够包含C 的最小凸集C.多面体不一定是凸集D.线性变换能保持原集合的凸性分析:多面体是指有限半空间和超平面的交集,多面体一定是凸集3.以下说法错误的一项是(C )A.当目标函数是凸函数时,梯度下降法的解是全局最优解B.进行PCA 降维时需要计算协方差矩阵C.沿负梯度下降的方向一定是最优的方向D.利用拉格朗日函数能解带约束的优化问题分析:沿负梯度方向是函数值下降最快的方向但不一定是最优方向4.K-means 无法聚以下哪种形状样本?()A.圆形分布B.螺旋分布C.带状分布D.凸多边形分布分析:基于距离的聚类算法不能聚非凸形状的样本,因此选B5.若X 1,X 2,...X n 独立同分布于(2σ,μ),以下说法错误的是(C )A.若前n 个随机变量的均值,对于任意整数ε,有:B.随机变量的收敛到标准正态分布C.随机变量收敛到正态分布D.样本方差其中样本均值分析:A:大数定理概念;B、C:中心极限定理概念;C 错,应该收敛到正态分布D:样本的统计量公式二、公式推理题1.请写出标准正态分布的概率密度函数、期望、以及方差分析:概率密度函数:2221x e π)x (f -=;期望:0=)x (E ;方差:1=)x (D 2.请根据表中的分类结果混淆矩阵给出查准率(准确率)P 和查全率(召回率)R 的计算公式真实情况预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)分析:FP TP TP P +=,NF TP TP R +=三、简答题1.求函数y ln x )y ,x (f 32+=的梯度向量分析:)y)y ,x (f ,x )y ,x (f ()y ,x (f ∂∂∂∂=∇,所以答案为(2x,3/y)∑==n i i n X n Y 111=<-∞→}ε|μY {|P lim n n σn μn X Y n i i n -=∑=1∑==n i i n X Y 1)σ,μ(N 2∑=--=n i i )X X (n S 1211)σn ,μn (N 2∑==n i i X n X 112.列举你知道的无约束最优化方法(至少三个),并选一种方法进行详细介绍分析:梯度下降法,牛顿法,拟牛顿法,共轭梯度法...(介绍略)3.请简要叙述正则化项中的L1和L2方法分析:1正则化和L2正则化可以看做是损失函数的惩罚项。
人工智能机器学习技术练习(试卷编号141)1.[单选题]分类模型在进行训练时需要()A)训练集B)训练集与测试集C)训练集、验证集、测试集答案:C解析:2.[单选题]基于划分的聚类,说法正确的是()A)对分区个数敏感B)无法区分互斥的簇C)有利于寻找非球形簇答案:A解析:3.[单选题]现在有一份数据,你随机的将数据分成了n份,然后同时训练n个子模型,再将模型最后相结合得到一个强学习器,这属于boosting方法吗A)是B)不是C)不确定答案:B解析:4.[单选题]如果SVM模型欠拟合, 以下方法哪些可以改进模型 :A)增大惩罚参数C的值B)减小惩罚参数C的值C)减小核系数(gamma参数)答案:A解析:5.[单选题]假设下图是K-means算法的聚类结果,那么K的值为()A)1B)2C)3D)4答案:C解析:6.[单选题]下列关于DataFrame说法正确的是( )。
A)DataFrame结构是由索引和数据组成B)DataFrame的行索引位于最右侧C)创建一个DataFrame对象时需要指定索引D)DataFrame每列的数据类型必须是相同的答案:C解析:7.[单选题]某单位运用随机森林算法思想建立抢修热点模型。
该模型主要预测下期台区工单数量,构建抢修热点。
模型构建步骤如下:①将历史数据进行随机自助法重抽样,生成N个训练样本集;②将N个训练样本集分别做决策树,生成N棵决策树;③将N棵决策树随机构成随机森林;④未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运算,并计算出最终结果。
模型算法构建步骤合理的顺序是()。
A)①②③④B)①③②④C)④①②③D)④②①③答案:A解析:8.[单选题]AGNES是一种采用(__)策略的层次聚类算法。
A)自顶向下B)自底向上C)自左至右D)自右至左答案:B解析:9.[单选题]下面关于 Random Forest 和 Gradient Boosting Trees 说法正确的是?A)Random Forest 的中间树不是相互独立的,而 Gradient Boosting Trees 的中间树是相互独立的B)两者都使用随机特征子集来创建中间树C)在 Gradient Boosting Trees 中可以生成并行树,因为它们是相互独立的D)无论任何数据,Gradient Boosting Trees 总是优于 Random Forest答案:B解析:本题考查的是随机森林和梯度提升树(GBDT)的基本概率和区别。
第一章测试1.样本是连续型数据且有标签,我们采用()进行机器学习。
A:嵌入算法B:聚类算法C:分类算法D:回归算法答案:D2.在机器学习中,样本常被分成()。
A:训练集B:其它选项都有C:测试集D:评估集答案:B3.机器学习算法需要显示编程,具备归纳、总结等自学习能力。
()A:错B:对答案:A4.机器学习和人工智能、深度学习是一个概念,都是指机器模仿人类推理、学习能力。
()A:错B:对答案:A5.特征工程非常重要,在采用机器学习算法前,首先需要利用特征工程确定样本属性。
()A:错B:对答案:B第二章测试1.K近邻算法认为距离越近的相似度越高。
()A:对B:错答案:A2.K近邻算法中数据可以不做归一化,因为是否归一化对结果影响不大。
()A:错B:对答案:A3.K近邻算法中采用不同的距离公式对于结果没有影响。
()A:错答案:A4.在上面图中,K=5,绿色样本的类别是()。
A:红色三角形B:蓝色正方形C:不能确定D:绿色圆形答案:B5.在K近邻算法中,K的选择是()?A:越大越好B:与样本有关C:其它都不正确D:越小越好答案:B第三章测试1.下列()中两个变量之间的关系是线性的。
A:猫的皮毛颜色和体重B:人的工作环境和健康状况C:重力和质量D:女儿的身高和父亲的体重答案:C2.下列说法不正确的是()。
A:线性回归模型也可以解决线性不可分的情况B:回归用于预测输入变量和输出变量之间的关系C:回归就是数据拟合D:回归分析就是研究两个事物的相关性答案:C3.从某大学随机选择8名女大学生,其身高x(cm)和体重y(kg)的回归方程是y=0.849x-85.712,则身高172cm的女大学生,预测体重为()。
A:60.316kgB:大于60.316kgC:小于60.316kgD:其它都不正确答案:Asso中采用的是L2正则化。
()A:错B:对答案:A5.线性回归中加入正则化可以降低过拟合。
()A:错答案:B第四章测试1.以下说法正确的是()。
机器学习考试题目答案1.简描述机器学习概念?TomMitCheI1:"对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么我们称这个计算机程序在从经验E学习J 我们遇到的大部分事情一般包括分类问题与回归问题。
如房价的预测,股价的预测等属于分类问题。
一般的处理过程是:首先,1)获取数据;2)提取最能体现数据的特征;3)利用算法建模;4)将建立的模型用于预测。
如人脸识别系统,首先我们获取到一堆人脸照片,首先,对数据进行预处理,然后提取人脸特征,最后用算法如SVM或者NN等。
这样,我们就建立了一个人脸识别系统,当输入一张人脸,我们就知道这张面孔是否在系统中。
这就是机器学习的整个流程,其次还包括寻找最优参数等。
机器学习主要分为:监督学习:数据集是有标签的,大部分机器学习模型都属于这一类别,包括线性分类器、支持向量机等等;无监督学习:跟监督学习相反,数据集是完全没有标签的,主要的依据是相似的样本在数据空间中一般距离是相近的,这样就能通过距离的计算把样本分类,这样就完全不需要IabeI,比如著名的kmeans算法就是无监督学习应用最广泛的算法;半监督学习:半监督学习一般针对的问题是数据量超级大但是有标签数据很少或者说标签数据的获取很难很贵的情况,训练的时候有一部分是有标签的而有一部分是没有的;强化学习:一直激励学习的方式,通过激励函数来让模型不断根据遇到的情况做出调整;2.循环神经网络的基本原理?RNNS的目的是用来处理序列数据。
在传统的神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。
但是这种普通的神经网络对于很多问题却无能无力。
例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。
RNNS之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。
具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。
机器学习知到章节测试答案智慧树2023年最新三亚学院第一章测试1.下面哪句话是正确的()参考答案:增加模型的复杂度,总能减小训练样本误差2.评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题()参考答案:向模型中增加更多的特征3.以垃圾微信识别为例,Tom Mitchell的机器学习的定义中,任务T是什么?()参考答案:T是识别4.如何在监督式学习中使用聚类算法()?参考答案:在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征;首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法5.想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型()?参考答案:对训练集随机采样,在随机采样的数据上建立模型;使用PCA算法减少特征维度;尝试使用在线机器学习算法6.机器学习兴起于()。
参考答案:1990年;1980年7.监督学习包括是()。
参考答案:分类;回归8.机器学习可以对电子商务产品评价进行好评与差评分类。
()参考答案:对9.机器学习必备知识包括数学基础、心理学基础、算法设计基础、商业模式基础。
()参考答案:错10.机器学习是一门多学科交叉专业,涵盖____、____、近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。
参考答案:null第二章测试1.关于k-NN算法,以下哪个选项是正确的?参考答案:可用于分类和回归2.k-NN算法在测试时间而不是训练时间上进行了更多的计算。
参考答案:对3.假设算法是k最近邻算法,在下面的图像中,____将是k的最佳值。
参考答案:104.一个kNN分类器,该分类器在训练数据上获得100%的准确性。
而在客户端上部署此模型时,发现该模型根本不准确。
以下哪项可能出错了?注意:模型已成功部署,除了模型性能外,在客户端没有发现任何技术问题参考答案:可能是模型过拟合5.以下是针对k-NN算法给出的两条陈述,其中哪一条是真的?1、我们可以借助交叉验证来选择k的最优值2、欧氏距离对每个特征一视同仁参考答案:1和26.你给出了以下2条语句,发现在k-NN情况下哪个选项是正确的?1、如果k的值非常大,我们可以将其他类别的点包括到邻域中。
1、使用K-means算法得到了三个聚类中心,分别是[1,2],[-3,0],[4,2],现输入数据X=[3,1],则X属于第几类A.1B.3C. 2D.不能确定正确答案:B2、对一组无标签的数据X,使用不同的初始化值运行K-means算法50次,如何评测这50次聚类的结果哪个最优A.优化目标函数值最小的一组最优B.需要获取到数据的标签才能评测C.暂无方法D.最后一次运行结果最优正确答案:A3、下图是某个二维高斯混合模型的聚类结果,该GMM的输出矩阵的形式为A.对角阵且非单位矩阵B.普通方阵C.单位矩阵D.不能确定正确答案:A二、多选题1、以下关于PCA算法的描述正确的有哪些A.即使输入数据X各个维度上的数值相似度较高,依旧需要对其去均值B.使用PCA算法时,数据压缩后的维度M可以设置的偏小一点C.在使用PCA算法时,有可能陷入局部最小值,所以需要使用不同的初始化数值多次计算以获得更好的结果D.已知使用PCA算法压缩后的数据Y以及压缩矩阵A,但是无法大致还原压缩前的数据X正确答案:A、B2、有L个输入样本,每个样本的特征维度是N。
在设置压缩后的维度M时,以下哪些设置方式是合理的A.M = 0.1*NB.M= 0.1*LC.根据能量百分比准则,保留占据5%能量的M值D.根据能量百分比准则,保留占据95%能量的M值正确答案:A、D3、以下哪些是PCA算法可以解决的问题A.对维度较小的数据进行维度扩充B.对特征相关性较高的数据进行降维C.对维度大于3的数据进行可视化处理D.数据维度压缩正确答案:B、C、D4、以下关于K-means的说法正确的有A.初始化聚类中心时,一定要将各个聚类中心的坐标设置为相同的值B.该算法会存在陷入局部极值的情况,可以使用不同的初始化值,多次实验来解决该问题C.K值的选取往往需要依靠经验或者数据集的情况来确定D.因为该算法是无监督学习算法,所以不存在过拟合问题,所以K设置的越大,效果越好正确答案:B、C5、以下哪些特征选取方式是无监督的A.使用协方差矩阵抽取协方差值较高的特征B.使用卷积层,pooling层处理输入图像,得到降维后的特征图C.使用线性神经网络抽取特征D.使用PCA进行特征抽取正确答案:A、D三、判断题1、特征向量对[1,1,1,1],[1,-1,-1,1]有可能来自转换矩阵A。
一、单选题1、以下关于感知器算法与支持向量机算法说法有误的是A. 由于支持向量机是基于所有训练数据寻找最大化间隔的超平面,而感知器算法却是相对随意的找一个分开两类的超平面,因此大多数时候,支持向量机画出的分类面往往比感知器算法好一些。
B.支持向量机是把所有训练数据都输入进计算机,让计算机解全局优化问题C.感知器算法相比于支持向量机算法消耗的计算资源和内存资源更少,但是耗费的计算资源更多D. 以上选项都正确正确答案:C2、假设你在训练一个线性回归模型,有下面两句话:如果数据量较少,容易发生过拟合。
如果假设空间较小,容易发生过拟合。
关于这两句话,下列说法正确的是?A.1正确,2错误B.1和2都错误C.1和2都正确D.1错误,2正确正确答案:A3、下面哪一项不是比较好的学习率衰减方法?t表示为epoch数。
α0A.α=11+2∗tα0B. α=√tC. α=0.95tα0D.α=e tα0正确答案:D4、你正在构建一个识别足球(y = 1)与篮球(y = 0)的二元分类器。
你会使用哪一种激活函数用于输出层?A.ReLUB. tanhC.sigmoidD. Leaky ReLU正确答案:C5、假设你建立一个神经网络。
你决定将权重和偏差初始化为零。
以下哪项陈述是正确的?A.第一个隐藏层中的每个神经元将在第一次迭代中执行相同的计算。
但经过一次梯度下降迭代后,他们将会计算出不同的结果。
B.第一个隐藏层中的每个神经元节点将执行相同的计算。
所以即使经过多次梯度下降迭代后,层中的每个神经元节点都会计算出与其他神经元节点相同的结果。
C.第一个隐藏层中的每一个神经元都会计算出相同的结果,但是不同层的神经元会计算不同的结果。
D.即使在第一次迭代中,第一个隐藏层的神经元也会执行不同的计算,他们的参数将以各自方式进行更新。
正确答案:B6、某个神经网络中所有隐藏层神经元使用tanh激活函数。
那么如果使用np.random.randn(…,…)* 1000将权重初始化为相对较大的值。
2022机器学习专项测试试题及答案1.机器学习的流程包括:分析案例、数据获取、________和模型验证这四个过程。
()A.数据清洗A、数据清洗B.数据分析C.模型训练(正确答案)D.模型搭建2.机器翻译属于下列哪个领域的应用?() *A.自然语言系统(正确答案)A. 自然语言系统(正确答案)B.机器学习C.专家系统D.人类感官模拟3.为了解决如何模拟人类的感性思维, 例如视觉理解、直觉思维、悟性等, 研究者找到一个重要的信息处理的机制是()。
*A.专家系统B.人工神经网络(正确答案)C.模式识别D.智能代理4.要想让机器具有智能, 必须让机器具有知识。
因此, 在人工智能中有一个研究领域, 主要研究计算机如何自动获取知识和技能, 实现自我完善, 这门研究分支学科叫()。
*A. 专家系统A.专家系统B. 机器学习(正确答案)C. 神经网络D. 模式识别5.如下属于机器学习应用的包括()。
*A.自动计算, 通过编程计算 456*457*458*459 的值(正确答案)A. 自动计算,通过编程计算 456*457*458*459 的值(正确答案)A.自动计算,通过编程计算 456*457*458*459 的值(正确答案)B.文字识别, 如通过 OCR 快速获得的图像中出汉字, 保存为文本C.语音输入, 通过话筒将讲话内容转成文本D.麦克风阵列, 如利用灵云该技术实现远场语音交互的电视6.对于神经网络模型, 当样本足够多时, 少量输入样本中带有较大的误差甚至个别错误对模型的输入-输出映射关系影响很小, 这属于()。
*A. 泛化能力A.泛化能力B. 容错能力(正确答案)C. 搜索能力D. 非线性映射能力7.下列选项不属于机器学习研究内容的是() *A. 学习机理A.学习机理B. 自动控制(正确答案)C. 学习方法D. 计算机存储系统8.机器学习的经典定义是: () *A.利用技术进步改善系统自身性能A. 利用技术进步改善系统自身性能B.利用技术进步改善人的能力C.利用经验改善系统自身的性能(正确答案)D.利用经验改善人的能力9.研究某超市销售记录数据后发现, 买啤酒的人很大概率也会购买尿布, 这种属于数据挖掘的那类问题()。
机器学习测试题_北京光环大数据培训人工智能一直助力着科技发展,新兴的机器学习正推动着各领域的进步。
如今,机器学习的方法已经无处不在—从手机上的语音助手到商业网站的推荐系统,机器学习正以不容忽视的速度闯入我们的生活。
以下测试题可以粗略的检测你对机器学习的了解和掌握程度。
有对机器学习有兴趣的小伙伴可自行测试。
1.以下哪一种方法最适合在n(n>1)维空间中做异常点检测。
A 正态分布图B 盒图C 马氏距离D 散点图答案:C马氏距离是是一种有效的计算两个未知样本集的相似度的多元计量方法,以卡方分布为基础,表示数据的协方差距离。
与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是关联的)。
因此马氏距离常用于多元异常值检测。
2. 逻辑回归与多元回归分析有哪些不同?A. 逻辑回归预测某事件发生的概率B. 逻辑回归有较高的拟合效果C. 逻辑回归回归系数的评估D. 以上全选答案:D逻辑回归是用于分类问题,我们能计算出一个事件/样本的概率;一般来说,逻辑回归对测试数据有着较好的拟合效果;建立逻辑回归模型后,我们可以观察回归系数类标签(正类和负类)与独立变量的的关系。
3 bootstrap 数据的含义是:A. 有放回的从整体M中抽样m个特征B. 无放回的从整体M中抽样m个特征C. 有放回的从整体N中抽样n个样本D. 无放回的从整体N中抽样n个样本答案:C如果我们没有足够的数据来训练我们的算法,我们应该通过重复随机采样增加训练集合的大小4.”过拟合是有监督学习的挑战,而不是无监督学习”以上说法是否正确:A. 正确B. 错误答案:B我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数5.下列表述中,在k-fold交叉验证中关于选择K说法正确的是:A. 较大的K并不总是好的,选择较大的K可能需要较长的时间来评估你的结果B. 相对于期望误差来说,选择较大的K会导致低偏差(因为训练folds会变得与整个数据集相似)C. 在交叉验证中通过最小化方差法来选择K值D. 以上都正确答案:D较大的K意味着更小的偏差(因为训练folds的大小接近整个dataset)和更多的运行时间(极限情况是:留一交叉验证)。
中国科学院研究生院课程编号:712008Z 试 题 专 用 纸 课程名称:机器学习任课教师:卿来云———————————————————————————————————————————————姓名学号 成绩1. 判断题(20分,每小题2分)(1)给定n 个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n 的增加而减小。
(T )(2)当训练数据较少时更容易发生过拟合。
(T ) (3)回归函数A 和B ,如果A 比B 更简单,则A 几乎一定会比B 在测试集上表现更好。
(F ) (4)在核回归中,最影响回归的过拟合性和欠拟合之间平衡的参数为核函数的宽度。
(T ) (5)在AdaBoost 算法中,所有被错分的样本的权重更新比例相同。
(T ) (6)Boosting 的一个优点是不会过拟合。
(F )(7)梯度下降有时会陷于局部极小值,但EM 算法不会。
(F ) (8)SVM 对噪声(如来自其他分布的噪声样本)鲁棒。
(F )(9)Boosting 和Bagging 都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重。
(F ) (10)在回归分析中,最佳子集选择可以做特征选择,当特征数目较多时计算量大;岭回归和Lasso 模型计算量小,且Lasso 也可以实现特征选择。
(T )2、logistic 回归模型。
(20分,每小题10分)我们对如图1(a)所示的数据采用简化的线性logistic 回归模型进行两类分类,即()()()121122112211|,,1exp Y w w g w x w x w x w x ==+=+−−x P 。
(为了简化,我们不采用偏差0w 。
) 训练数据可以被完全分开(训练误差为0,如图1(b)所示的L 1)。
共 3 页 第1页图1(a) 2维训练数据。
图1(b) 数据点可以被L 1(实线)。
L 2、L 3和L 4是另外几个可能的决策(1) 考虑一个正则化的方法,即最大化()21221log |,,2Ni i i C y w w w =−∑x P 。
1、监督学习与无监督学习的主要区别是什么?分别列举应用两者的例子(或算法名称)。
2、在梯度下降算法中有时会出现梯度下降来回振荡,所需时间较长。
可以通过什么方法使
其收敛更快?
例如:原参数为:X1=size取值范围:0~200;X2=number取值范围:1~5
3、假设房价预测模型为:h(x)=Ѳ0+ Ѳ1X1+ Ѳ2X2,其中X1、X2分别为房间的开间、进深长度。
现在选择新的特征-房间面积X,得到新的学习算法。
已知训练集中面积与房价的关系如图所示:
请构造合适的多项式作为新的学习算法。
4、简述自己对欠拟合和过拟合的理解,必要时可画图辅助说明。
5、有如图曲线f(Ѳ)。
欲求f(Ѳ)=0时的Ѳ值,请用牛顿迭代法在图中画出两次迭代的
示意图。
Ѳ初始值取4.5。
6、请写出指数分布族的一般表达形式。
7、
用极大似然估计求算Ѳ使得最大。
简要写出推导步
8、简述对laplace平滑理解,可以举例说明;
9、按自己的理解简述参数学习算法和非参数学习算法的区别;
10、按自己的理解简述判别学习算法和生成算法的区别。
参考答案:并非标准答案,只要理解正确即可。
1、主要区别是监督学习中有属性的标签,而无监督学习则没有;
例子:监督学习——根据房价与房间面积对房价进行预测;
无监督学习——网页搜索将相关新闻聚在一起
算法:监督学习——支持向量机、线性回归决策树神经网络;
无监督学习——k-聚类等各种聚类方法、主成分分析
2、可利用特征缩放方法
例如:原参数为X1=size取值范围:0~200
X2=number取值范围:1~5
利用特征缩放方法后变为X1=size/200
X2=number/5
3、h(x)=Ѳ0+ Ѳ1 X+ Ѳ2 X2+ Ѳ3X3
4、首先欠拟合、过拟合没有明确的定义分界
明显的未充分利用数据,拟合结果不符合预期,甚至不能有效拟合训练集,我们可以认为欠拟合;考虑过多,超出自变量的一般含义维度,过多考虑噪声,会造成过拟合。
可以认为预测准确率、召回率都比理论上最佳拟合函数低很多,则为欠拟;训练集预测效果好,测试集预测效果差,则为过拟合。
或者简单的讲:对于特征集过小的情况,称之为欠拟合( under fitting );
对于特征集过大的情况,称之为过拟合( overfitting )
例如:给定一个数据集,根据x预测y.
最左边的函数为,并不能很好的拟合数据;
中间的加了一个额外的特性,函数为,稍微更好地
拟合了数据;
似乎我们增加越多的特性,拟合程度越好;但是增加太多的特性是很危险的,最右边的图是一个五阶的多项式,虽然很好的拟合了给定的数据集,但是这个并不是一个很好的预测函数。
欠拟合(underfitting):很明显有一些没有被模型捕获的结构,比如说最左边的图.
过拟合(overfitting):最右边的就是一个过拟合的例子.
因此说,特性的选择对于学习算法的性能来说是很重要的!!!
5、
两次迭代还得再往下画一步
6、若一类概率分布可以写成如下形式,那么它就属于指数分布族:
η - 自然参数,通常是一个实数
T(y) –充分统计量,通常,T(y)=y,实际上是一个概率分布的充分统计量(统计学知识)
对于给定的a,b,T三个函数,上式定义了一个以η为参数的概率分布集合,即改变η可以得到不同的概率分布
7、
令对Θ求导的值为零,求得Θ即可。
8、在统计上来说,在你有限的训练集中没有见过就认为概率是0是不科学的
为了上述问题,我们用laplace平滑来优化这个问题.
分子加1,分母加k(j的取值范围的大小)。
可以举适当的例子说明。
9、参数学习算法( parametric learning algorithm ):是一类有固定数目参数,以用来进行数据拟合的算法。
设该固定的参数集合为。
线性回归即使参数学习算法的一个例子
非参数学习算法(Non-parametric learning algorithm):参数数量会随 m (训练集大小)增长的算法。
通常定义为参数数量虽m线性增长。
换句话说,就是算法所需要的东西会随着训练集合线性增长,算法的维持是基于整个训练集合的,即使是在学习以后。
10、判别学习算法(discriminative learning algorithm):直接学习p(y|x)(比如说logistic回归)或者说是从输入直接映射到{0,1}.
生成学习算法(generative learning algorithm):对p(x|y)(和p(y))进行建模.
简单的来说,判别学习算法的模型是通过一条分隔线把两种类别区分开,而生成学习算法是对两种可能的结果分别进行建模,然后分别和输入进行比对,计算出相应的概率。