机器学习大作业

  • 格式:doc
  • 大小:1.17 MB
  • 文档页数:26

下载文档原格式

  / 26
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

机器学习大作业

题目机器学习大报告

学院电子工程学院

专业

学生姓名

学号

目录

第一章机器学习的基本理论及算法 (3)

1.1机器学习的基本理论 (3)

1.1.1 机器学习的概念 (3)

1.1.2 机器学习的发展历程 (3)

1.1.3 机器学习的模型 (4)

1.2机器学习主要算法 (5)

1.2.1 决策树算法 (5)

1.2.2 人工神经网络 (6)

1.2.3贝叶斯学习算法 (7)

1.2.4 遗传算法 (8)

1.2.5 支持向量机 (9)

第二章支持向量机(SVM)原理 (11)

2.1 SVM的产生与发展 (11)

2.2 统计学习理论基础 (12)

2.3 SVM原理 (12)

2.3.1.最优分类面和广义最优分类面 (13)

2.3.2 SVM的非线性映射 (16)

2.3.3.核函数 (17)

第三章支持向量机的应用研究现状 (19)

3.1 应用概述 (19)

3.2支持向量机的应用 (19)

3.2.1 人脸检测、验证和识别 (19)

3.2.2说话人/语音识别 (20)

3.2.3 文字/手写体识别 (20)

3.2.4 图像处理 (20)

3.2.5 其他应用研究 (21)

第四章基于SVM的实例及仿真结果 (23)

4.1 16棋盘格数据分类 (23)

4.2 UCI中iris数据分类 (25)

第一章机器学习的基本理论及算法

1.1机器学习的基本理论

1.1.1 机器学习的概念

机器学习是人工智能的一个分支,是现代计算机技术研究一个重点也是热点问题。顾名思义,机器学习就是计算机模仿人类获取知识的模式,通过建立相应的模型,对外界输入通过记忆"归纳"推理等等方式,获得有效的信息和经验总结,进而不断的自我完善,提高系统的功能。目前,机器学习的定义尚不统一,不同专业背景的学者出于不同的立场,对于机器学习的看法是不同的。下面主要介绍两位机器学习专业研究者赋予机器学习的定义。兰利(ngley)认为:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。米切尔(T.M.Mitchell)在其著作《机器学习》中谈到“机器学习”关注的问题是“计算机程序如何随着经验积累自动提高自身的性能”,也就是主要指的是归纳学习,另外“分析学习和增强学习也是学习的一个不可或缺组成部分”。两位学者的观点类似,都把机器学习看成是计算机或人工智能的一个分支学科,都强调的是归纳学习算法。

机器学习在人工智能领域中是一个相对比较活跃的研究领域,其研究目的就是要促进机器像人样可以源源不断获取外界的知识,建立相关学习的理论,构建学习系统,并将这些发明应用于各个领域。

1.1.2 机器学习的发展历程

机器学习(machine learning)是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。作为人工智能研究的一个新崛起的分支,机器学习的发展历程大至可分为如下几个时期:

(1)热烈时期:20 世纪50 年代的神经模拟和决策理论技术,学习系统在运行时很少具有结构或知识。主要是建造神经网络和自组织学习系统, 学习表现为阈值逻辑单元传送信号的反馈调整。

(2)冷静时期:20 世纪60 年代早期开始研究面向概念的学习, 即符号学习。

使用的工具是语义网络或谓词逻辑, 不再是数值或者统计方法。在概念获取中, 学习系统通过分析相关概念的大量正例和反例来构造概念的符号表示。在这一阶段, 人们认识到学习是个复杂而循序渐进的过程; 如果不要任何初始知识,则学习系统无法学到高层次的概念。

(3)复兴时期:20 世纪70 年代中期, 研究活动日趋兴旺, 各种学习方法不断推出, 实验系统大量涌现, 1980 年在卡内基·梅隆大学( CMU) 召开的第一届机器学习专题研讨会, 标志着机器学习正式成为人工智能的一个独立研究领域。(4)蓬勃发展时期:从20 世纪80 年代中后期到现在, 可以认为机器学习研究进入一个新阶段, 已经趋向成熟。神经网络的复苏, 带动着各种非符号学习方法与符号学习并驾齐驱, 并且已超越研究范围, 进入到自动化及模式识别等领域, 掀起一场联结主义的热潮,各种学习方法开始继承, 多策略学习已经使学习系统愈具有应用价值, 开始从实验室走向应用领域。

1.1.3 机器学习的模型

机器学习系统主要由三个部分构成:环境、知识库和执行部分,如图1.1所示。环境是信息的提供者,它向智能系统的学习部分提供所需信息,学习部分利用所得信息对知识库进行修改,不断地完善知识库,从而促使执行部分更加有效地完成任务,同时执行部分再把信息反馈给学习部分。

图1.1

影响学习系统设计的最重要的因素是环境向系统提供的信息。知识库里存放的是指导执行部分动作的一般原则,但环境向学习系统提供的信息却是各种各样的。如果信息的质量较高,与一般原则的差别较小,则学习部分比较容易处理。如果向学习系统提供的是杂乱无章的指导执行具体动作的具体信息,则学习系统需要在获得足够数据之后,删除不必要的细节,进行总结推广,形成指导动作的一般原则,放入知识库。这样,学习部分的任务就比较繁重,设计起来也较为困难。

影响学习系统设计的第二个因素是知识库。知识的表示有多种形式,比如特征向量、一阶逻辑语句、产生式规则、语义网络和框架等。这些表示方式各有特点,在选择时要兼顾 4 个方面:表达能力强;易于推理;容易修改知识库;知识表示易于扩展。

学习系统在没有任何先验知识的前提下不能凭空获取知识,它需要环境为其提供一定的知识作为基础,然后对其进行扩展和完善,从而完成学习。整个学习系统的关键在于执行,从而确定了执行部分的核心地位。学习部分进行学习的目标就是改进和完善执行部分的动作。

1.2机器学习主要算法

1.2.1 决策树算法

决策树可看作一个树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很多,有ID3、C4.5、CART 等等。这些算法均采用自顶向下的贪婪算法,每个节点选择分类效果最好的属性将节点分裂为2个或多个子结点,继续这一过程直到这棵树能准确地分类训练集,或所有属性都已被使用过。下面简单介绍最常用的决策树算法—分类回归树(CART)。

分类回归树(CART)是机器学习中的一种分类和回归算法。设训练样本集L={x 1,x 2,…,x n ,Y}。其中,x i (i=1,2,…,n)称为属性向量;Y 称为标签向量或类别向量。当Y 是有序的数量值时,称为回归树;当Y 是离散值时,称为分类树。

在树的根节点t 1处,搜索问题集(数据集合空间),找到使得下一代子节点中数据集的非纯度下降最大的最优分裂变量和相应的分裂阈值。在这里非纯度指标用Gini 指数来衡量,它定义为:

2

()(/)(/)1[(/)]i j j i t p i t p j t p j t ≠==-∑∑

其中,i(t)是节点t 的Gini 指数,p(i/t)表示在节点t 中属于i 类的样本所占的比例,p(j/t)是节点t 中属于j 类的样本所占的比例。用该分裂变量和分裂阈值把根节点t 1分裂成t 2和t 3,如果在某个节点t i 处,不可能再有进一步非纯度的显著降低,则该节点t i 成为叶结点,否则继续寻找它的最优分裂变量和分裂阈值进行分裂。

相关主题