机器学习:七,线性判别函数
- 格式:ppt
- 大小:1.31 MB
- 文档页数:51
1、线性判别函数的正负和数值大小的几何意义2、支持向量机的判别函数,adaboost的判别函数3、什么是聂曼-皮尔逊判决准,什么是最小最大判决准则4、感知器算法特点5、什么是特征,什么是特征提取,什么是特征选择?6、分类和聚类有何区别?分别说出2-3种代表性算法7、Fisher算法的特点?8、数据预处理主要有哪些工作?9、什么是大数据,大数据有何特点?10、聚类中距离度量的方式有哪些,连续性数据和和二值数据分别怎么度量9、什么是Gini指数,其作用是什么?10、马式距离较之于欧式距离的优点11、关联规则的经典算法有哪些,各自的优缺点?12、什么是分类,什么是回归?分类的过程或步骤13、分类评价标准,怎么评价分类的优劣14、什么是数据,样本、什么是抽样15、什么是机器学习以及机器学习的一般步骤16. 样本属性的主要类型17.人工神经网络的激活函数有哪些?18.信息增益,在ID3算法中怎么用,表示什么含义19.二维数据三个混合项的高斯模型的概率密度方程20、什么是聚类?聚类分析有哪些主要距离度量方法21、什么是频繁项集22、关联规则的2大指标,支持度,可信度,(名词解释)23、什么是关联规则?怎样通过频繁K项集产生关联规则24、什么是贝叶斯网络及作用25、ID3算法及步骤26、神经网络的优缺点,bp网络的优缺点27、分工神经网络主要是模拟人脑的哪些能力?单层感知器有什么缺点?28、什么是过拟合,怎么解决过拟合?29、衡量模式识别与机器学习算法优劣的标准30、什么是有监督学习、什么无监督学习31、基于最小错误率的贝叶斯决策及基于最小风险的贝叶斯决策解决实际问题。
32、贝叶斯决策算法,最小风险贝叶斯、感知器算法、Apriori 算法、、K-中心算法、k-均值算法,等算法,步骤及伪代码。
实际问题示例:1、支持度20%,置信度20%,用Apriori 算法找出所有关联规则(要求完整步骤,写出所有的候选集,k 项集,及所有关联规则)2、识别鲈鱼和鲑鱼,其先验概率分别为 P(w 1)=0.9,P(w 2)=0.1,现有一待识别的鱼,其观察值为x ,从类条件概率密度分布曲线上查得1()0.6P x w =,4.0)(2=w x P ,并且已知011=λ,123λ=,121=λ,022=λ,分别写出自小风险和最小错误率的贝叶斯决策过程。
机器学习——基础整理(⼀)贝叶斯决策论;⼆次判别函数;贝叶斯错误率;⽣成式模型的参数⽅法本⽂简单整理了以下内容:(⼀)贝叶斯决策论:最⼩错误率决策、最⼩风险决策;经验风险与结构风险(⼆)判别函数;⽣成式模型;多元⾼斯密度下的判别函数:线性判别函数LDF、⼆次判别函数QDF(三)贝叶斯错误率(四)⽣成式模型的参数估计:贝叶斯学派与频率学派;极⼤似然估计、最⼤后验概率估计、贝叶斯估计;多元⾼斯密度下的参数估计(五)朴素贝叶斯与⽂本分类(挪到了下⼀篇博客)(⼀)贝叶斯决策论:最⼩风险决策(Minimum risk decision)贝叶斯决策论(Bayesian decision theory)假设模式分类的决策可由概率形式描述,并假设问题的概率结构已知。
规定以下记号:类别有c个,为\omega_1,\omega_2,...,\omega_c;样本的特征⽮量\textbf x\in\mathbb R^d;类别\omega_i的先验概率为P(\omega_i)(prior),且\sum_{i=1}^cP(\omega_i)=1;类别\omega_i对样本的类条件概率密度为p(\textbf x|\omega_i),称为似然(likelihood);那么,已知样本\textbf x,其属于类别\omega_i的后验概率P(\omega_i|\textbf x)(posterior)就可以⽤贝叶斯公式来描述(假设为连续特征):P(\omega_i|\textbf x)=\frac{p(\textbf x|\omega_i)P(\omega_i)}{p(\textbf x)}=\frac{p(\textbf x|\omega_i)P(\omega_i)}{\sum_{j=1}^cp(\textbfx|\omega_j)P(\omega_j)}分母被称为证据因⼦(evidence)。
后验概率当然也满⾜和为1,\sum_{j=1}^cP(\omega_j|\textbf x)=1。
第5章:线性判别函数第一部分:计算与证明1. 有四个来自于两个类别的二维空间中的样本,其中第一类的两个样本为(1,4)T 和(2,3)T ,第二类的两个样本为(4,1)T 和(3,2)T 。
这里,上标T 表示向量转置。
假设初始的权向量a=(0,1)T ,且梯度更新步长ηk 固定为1。
试利用批处理感知器算法求解线性判别函数g(y)=a T y 的权向量。
解:首先对样本进行规范化处理。
将第二类样本更改为(4,1)T 和(3,2)T . 然后计算错分样本集:g(y 1) = (0,1)(1,4)T = 4 > 0 (正确) g(y 2) = (0,1)(2,3)T = 3 > 0 (正确) g(y 3) = (0,1)(-4,-1)T = -1 < 0 (错分) g(y 4) = (0,1)(-3,-2)T = -2 < 0 (错分) 所以错分样本集为Y={(-4,-1)T , (-3,-2)T }.接着,对错分样本集求和:(-4,-1)T +(-3,-2)T = (-7,-3)T第一次修正权向量a ,以完成一次梯度下降更新:a=(0,1)T + (-7,-3)T =(-7,-2)T 再次计算错分样本集:g(y 1) = (-7,-2)(1,4)T = -15 < 0 (错分) g(y 2) = (-7,-2)(2,3)T = -20 < 0 (错分) g(y 3) = (-7,-2)(-4,-1)T = 30 > 0 (正确) g(y 4) = (-7,-2)(-3,-2)T = 25 > 0 (正确) 所以错分样本集为Y={(1,4)T , (2,3)T }.接着,对错分样本集求和:(1,4)T +(2,3)T = (3,7)T第二次修正权向量a ,以完成二次梯度下降更新:a=(-7,-2)T + (3,7)T =(-4,5)T 再次计算错分样本集:g(y 1) = (-4,5)(1,4)T = 16 > 0 (正确) g(y 2) = (-4,5)(2,3)T = 7 > 0 (正确) g(y 3) = (-4,5)(-4,-1)T = 11 > 0 (正确) g(y 4) = (-4,5)(-3,-2)T = 2 > 0 (正确)此时,全部样本均被正确分类,算法结束,所得权向量a=(-4,5)T 。
1. 问题之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。
回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。
我们可以使用PCA 来降维,但PCA没有将类别标签考虑进去,属于无监督的。
比如回到上次提出的文档中含有“learn”和“study”的问题,使用PCA后,也许可以将这两个特征合并为一个,降了维度。
但假设我们的类别标签y是判断这篇文章的topic是不是有关学习方面的。
那么这两个特征对y几乎没什么影响,完全可以去除。
再举一个例子,假设我们对一张100*100像素的图片做人脸识别,每个像素是一个特征,那么会有10000个特征,而对应的类别标签y仅仅是0/1值,1代表是人脸。
这么多特征不仅训练复杂,而且不必要特征对结果会带来不可预知的影响,但我们想得到降维后的一些最佳特征(与y关系最密切的),怎么办呢?2. 线性判别分析(二类情况)回顾我们之前的logistic回归方法,给定m个n维特征的训练样例(i从1到m),每个对应一个类标签。
我们就是要学习出参数,使得(g 是sigmoid函数)。
现在只考虑二值分类情况,也就是y=1或者y=0。
为了方便表示,我们先换符号重新定义问题,给定特征为d维的N个样例,,其中有个样例属于类别,另外个样例属于类别。
现在我们觉得原始特征数太多,想将d维特征降到只有一维,而又要保证类别能够“清晰”地反映在低维数据上,也就是这一维就能决定每个样例的类别。
我们将这个最佳的向量称为w(d维),那么样例x(d维)到w上的投影可以用下式来计算这里得到的y值不是0/1值,而是x投影到直线上的点到原点的距离。
当x是二维的,我们就是要找一条直线(方向为w)来做投影,然后寻找最能使样本点分离的直线。
如下图:从直观上来看,右图比较好,可以很好地将不同类别的样本点分离。
接下来我们从定量的角度来找到这个最佳的w。
首先我们寻找每类样例的均值(中心点),这里i只有两个由于x到w投影后的样本点均值为由此可知,投影后的的均值也就是样本中心点的投影。
Fisher判别函数,也称为线性判别函数(Linear Discriminant Function),是一种经典的模式识别方法。
它通过将样本投影到一维或低维空间,将不同类别的样本尽可能地区分开来。
一、算法原理:Fisher判别函数基于以下两个假设:1.假设每个类别的样本都服从高斯分布;2.假设不同类别的样本具有相同的协方差矩阵。
Fisher判别函数的目标是找到一个投影方向,使得同一类别的样本在该方向上的投影尽可能紧密,而不同类别的样本在该方向上的投影尽可能分开。
算法步骤如下:(1)计算类内散度矩阵(Within-class Scatter Matrix)Sw,表示每个类别内样本之间的差异。
Sw = Σi=1 to N (Xi - Mi)(Xi - Mi)ᵀ,其中Xi 表示属于类别i 的样本集合,Mi 表示类别i 的样本均值。
(2)计算类间散度矩阵(Between-class Scatter Matrix)Sb,表示不同类别之间样本之间的差异。
Sb = Σi=1 to C Ni(Mi - M)(Mi - M)ᵀ,其中 C 表示类别总数,Ni 表示类别i 中的样本数量,M 表示所有样本的均值。
(3)计算总散度矩阵(Total Scatter Matrix)St,表示所有样本之间的差异。
St =Σi=1 to N (Xi - M)(Xi - M)ᵀ(4)计算投影方向向量w,使得投影后的样本能够最大程度地分开不同类别。
w= arg max(w) (wᵀSb w) / (wᵀSw w),其中w 表示投影方向向量。
(5)根据选择的投影方向向量w,对样本进行投影。
y = wᵀx,其中y 表示投影后的样本,x 表示原始样本。
(6)通过设置一个阈值或使用其他分类算法(如感知机、支持向量机等),将投影后的样本进行分类。
二、优点和局限性:Fisher判别函数具有以下优点:•考虑了类别内和类别间的差异,能够在低维空间中有效地区分不同类别的样本。
1、线性判别函数的正负和数值大小的几何意义2、支持向量机的判别函数,adaboost的判别函数3、什么是聂曼-皮尔逊判决准,什么是最小最大判决准则4、感知器算法特点5、什么是特征,什么是特征提取,什么是特征选择?6、分类和聚类有何区别?分别说出2-3种代表性算法7、Fisher算法的特点?8、数据预处理主要有哪些工作?9、什么是大数据,大数据有何特点?10、聚类中距离度量的方式有哪些,连续性数据和和二值数据分别怎么度量9、什么是Gini指数,其作用是什么?10、马式距离较之于欧式距离的优点11、关联规则的经典算法有哪些,各自的优缺点?12、什么是分类,什么是回归?分类的过程或步骤13、分类评价标准,怎么评价分类的优劣14、什么是数据,样本、什么是抽样15、什么是机器学习以及机器学习的一般步骤16. 样本属性的主要类型17.人工神经网络的激活函数有哪些?18.信息增益,在ID3算法中怎么用,表示什么含义19.二维数据三个混合项的高斯模型的概率密度方程20、什么是聚类?聚类分析有哪些主要距离度量方法21、什么是频繁项集22、关联规则的2大指标,支持度,可信度,(名词解释)23、什么是关联规则?怎样通过频繁K项集产生关联规则24、什么是贝叶斯网络及作用25、ID3算法及步骤26、神经网络的优缺点,bp网络的优缺点27、分工神经网络主要是模拟人脑的哪些能力?单层感知器有什么缺点?28、什么是过拟合,怎么解决过拟合?29、衡量模式识别与机器学习算法优劣的标准30、什么是有监督学习、什么无监督学习31、基于最小错误率的贝叶斯决策及基于最小风险的贝叶斯决策解决实际问题。
32、贝叶斯决策算法,最小风险贝叶斯、感知器算法、Apriori 算法、、K-中心算法、k-均值算法,等算法,步骤及伪代码。
实际问题示例:1、支持度20%,置信度20%,用Apriori 算法找出所有关联规则(要求完整步骤,写出所有的候选集,k 项集,及所有关联规则)2、识别鲈鱼和鲑鱼,其先验概率分别为 P(w 1)=0.9,P(w 2)=0.1,现有一待识别的鱼,其观察值为x ,从类条件概率密度分布曲线上查得1()0.6P x w =,4.0)(2=w x P ,并且已知011=λ,123λ=,121=λ,022=λ,分别写出自小风险和最小错误率的贝叶斯决策过程。
《机器学习》课程教学大纲课程中文名称:机器学习课程英文名称:Machine Learning适用专业:计算机应用技术,管理科学与工程总学时:36 (讲课:28 ,实验:8 )学分:2大纲撰写人:大纲审核人:编写日期:一、课程性质及教学目的:本课程是面向计算机与信息工程学院研究生开设的专业基础课。
其教学重点是使学生掌握常见机器学习算法,包括算法的主要思想和基本步骤,并通过编程练习和典型应用实例加深了解;同时对机器学习的一般理论,如假设空间、采样理论、计算学习理论,以及无监督学习和强化学习有所了解。
二、对选课学生的要求:要求选课学生事先受过基本编程训练,熟悉C/C++或Matlab编程语言,具有多元微积分、高等代数和概率统计方面基本知识。
三、课程教学内容和要求(200字左右的概述,然后给出各“章”“节”目录及内容简介)1.决策论与信息论基础:a)损失函数、错分率的最小化、期望损失的最小化等b)相对熵、互信息2.概率分布:a)高斯分布、混合高斯分布、Dirichlet分布、beta分布等b)指数分布族:最大似然估计、充分统计量、共轭先验、无信息先验等c)非参数方法:核密度估计、近邻法3.回归的线性模型:a)线性基函数模型b)贝叶斯线性回归c)贝叶斯模型比较4.分类的线性模型:a)判别函数:二分类和多分类的Fisher线性判别b)概率生成模型:连续输入、离散特征5.核方法:a)对偶表示b)构造核函数c)径向基函数网络:Nadaraya-Watson模型d)高斯过程:高斯过程模型用于回归和分类、Laplace逼近、与神经网络的联系6.支持向量机:a)最大边缘分类器:历史回顾b)用于多分类和回归的支持向量机:几何背景、各种变种c)统计学习理论简介:Vapnik等人的工作7.图模型:a)贝叶斯网络b)Markov随机场:条件独立、因子分解c)图模型中的推断8.混合模型和期望最大化(Expectation Maximization,EM)算法(3学时):a)高斯混合模型的参数估计:最大似然估计、EM算法b)EM一般算法及其应用:贝叶斯线性回归9.隐Markov模型和条件随机场模型(3学时):a)隐Markov模型:向前-向后算法、Viterbi算法、Baum-Welch算法等b)条件随机场及其应用四、课程教学环节的学时安排和基本要求1.决策论与信息论基础(2学时):了解并掌握统计决策理论和信息论的基础知识。
《模式识别与机器学习》教学大纲Pattern Recognition and Machine Learning第一部分大纲说明1. 课程代码:2. 课程性质:学位必修课3. 学时/学分:40/34. 课程目标:模式识别与机器学习研究计算机识别物体的机理,该课程的学习将为数据分析与处理以及人工智能等领域的学习打下基础。
本课程主要分为两大部分,第一部分主要介绍模式识别,包括模式识别的基本概念、基本原理、典型方法、实用技术以及有关研究的新成果,其目的是使学生掌握模式识别的基本概念和基本原理,了解模式识别在图像分析、语音识别和音频分类等领域的具体应用、存在的问题和发展前景。
第二部分主要介绍机器学习,包括多项式回归、正则方程、逻辑回归、神经网络、深度置信网络、卷积神经网络等,通过教学使学生掌握机器学习的基础理论,以及无监督学习和强化学习等;熟悉常见机器学习的常用算法,以及算法的主要思想和运用方法,并通过编程实践和典型应用实例加深了解。
5. 教学方式:课堂讲授、自学与讨论、课堂上机与实例项目相结合6. 考核方式:考试7. 先修课程:概率论、数字信号处理9. 教材及教学参考资料:(一)教材:《模式识别》第4版,Sergios T等编,电子工业出版社边肇祺,张学工等编著,《机器学习》,Peter Flach. 人民邮电出版社, 2016.(二)教学参考资料:[1]《模式分类》(英文版·第2版), Richard O等编,机械工业出版社[2]《模式识别导论》,范九伦等编,西安电子科技大学出版社[3]《模式识别》第2版,边肇祺等编,清华大学出版社[4]《神经网络与机器学习(英文版·第3版)》. Haykin S. 机械工业出版社[5]《Deep Learning》. Ian Goodfellow, Yoshua Bengio and Aaron Courville. MIT Press第二部分教学内容和教学要求上篇模式识别第一章绪论教学内容:1.1模式与模式识别1.2模式识别的主要方法1.3监督模式识别与非监督模式识别1.4模式识别系统举例1.5模式识别系统的典型构成教学要求:了解模式识别的相关常识与概念,以及一些常用的研究方法。
机器学习:线性判别式分析(LDA)1.概述线性判别式分析(Linear Discriminant Analysis),简称为LDA。
也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引⼊模式识别和⼈⼯智能领域。
基本思想是将⾼维的模式样本投影到最佳鉴别⽮量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的⼦空间有最⼤的类间距离和最⼩的类内距离,即模式在该空间中有最佳的可分离性。
LDA与PCA都是常⽤的降维技术。
PCA主要是从特征的协⽅差⾓度,去找到⽐较好的投影⽅式。
LDA更多的是考虑了标注,即希望投影后不同类别之间数据点的距离更⼤,同⼀类别的数据点更紧凑。
但是LDA有两个假设:1.样本数据服从正态分布,2.各类得协⽅差相等。
虽然这些在实际中不⼀定满⾜,但是LDA被证明是⾮常有效的降维⽅法,其线性模型对于噪⾳的鲁棒性效果⽐较好,不容易过拟合。
2.图解说明(图⽚来⾃⽹络)可以看到两个类别,⼀个绿⾊类别,⼀个红⾊类别。
左图是两个类别的原始数据,现在要求将数据从⼆维降维到⼀维。
直接投影到x1轴或者x2轴,不同类别之间会有重复,导致分类效果下降。
右图映射到的直线就是⽤LDA⽅法计算得到的,可以看到,红⾊类别和绿⾊类别在映射之后之间的距离是最⼤的,⽽且每个类别内部点的离散程度是最⼩的(或者说聚集程度是最⼤的)。
3.图解LAD与PCA的区别(图⽚来⾃⽹络)两个类别,class1的点都是圆圈,class2的点都是⼗字。
图中有两条直线,斜率在1左右的这条直线是PCA选择的映射直线,斜率在 -1左右的这条直线是LDA选择的映射直线。
其余不在这两条直线上的点是原始数据点。
可以看到由于LDA考虑了“类别”这个信息(即标注),映射后,可以很好的将class1和class2的点区分开。
D与PCA的对⽐(1)PCA⽆需样本标签,属于⽆监督学习降维;LDA需要样本标签,属于有监督学习降维。
机器学习_温州大学中国大学mooc课后章节答案期末考试题库2023年1.GBDT由哪三个概念组成:( )参考答案:Regression Decision Tree(即 DT)_Gradient Boosting(即GB)_Shrinkage(缩减)2.对于非概率模型而言,可按照判别函数线性与否分成线性模型与非线性模型。
下面哪些模型属于线性模型?参考答案:K-means_k近邻_感知机3.逻辑回归分类的精度不够高,因此在业界很少用到这个算法参考答案:错误4.SMOTE算法是用了上采样的方法。
参考答案:正确5.支持向量是那些最接近决策平面的数据点参考答案:正确6.100万条数据划分训练集、验证集、测试集,数据可以这样划分:98%,1%,1% 。
参考答案:正确7.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。
参考答案:错误8.朴素贝叶斯法的基本假设是条件独立性。
参考答案:正确9.PCA投影方向可从最大化方差和最小化投影误差这两个角度理解。
参考答案:正确10.相关变量的相关系数可以为零,对吗?参考答案:正确11.Sigmoid函数的范围是(-1,1)参考答案:错误12.影响KNN算法效果的主要因素包括( )。
参考答案:决策规则_K的值_距离度量方式13.逻辑回归的特征一定是离散的。
参考答案:错误14.闵可夫斯基距离中的p取1或2时的闵氏距离是最为常用的,以下哪项是正确的:( )。
参考答案:闵可夫斯基空间不同于牛顿力学的平坦空间_p取1时是曼哈顿距离_p取2时是欧氏距离_p取无穷时是切比雪夫距离15.KNN算法的缺点包括以下几点?( )参考答案:计算复杂性高;空间复杂性高,尤其是特征数非常多的时候_可解释性差,无法给出决策树那样的规则_对训练数据依赖度特别大,当样本不平衡的时候,对少数类的预测准确率低16.两个向量的余弦相似度越接近1,说明两者越相似。
参考答案:正确17.k近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算法,可以用于分类,但不能用于回归方法。