第3章分类与决策树
- 格式:ppt
- 大小:2.42 MB
- 文档页数:72
习题3(第三章 分类技术)1. 在决策树归纳中,选项有:(a)将决策树转化为规则,然后对结果规则剪枝,或(b)对决策树剪枝,然后将剪枝后的树转化为规则。
相对于(b),(a)的优点是什么? 解答:如果剪掉子树,我们可以用(b)将全部子树移除掉,但是用方法(a)的话,我们可以将子树的任何前提都移除掉。
方法(a)约束更少。
2. 在决策树归纳中,为什么树剪枝是有用的?使用分离的元组集评估剪枝有什么缺点?解答:决策树的建立可能过度拟合训练数据,这样就会产生过多分支,有些分支就是因为训练数据中的噪声或者离群点造成的。
剪枝通过移除最不可能的分支(通过统计学方法),来排除这些过度拟合的数据。
这样得到的决策树就会变得更加简单跟可靠,用它来对未知数据分类时也会变得更快、更精确。
使用分离的元组集评估剪枝的缺点是,它可能不能代表那些构建原始决策树的训练元组。
如果分离的元组集不能很好地代表,用它们来评估剪枝树的分类精确度将不是一个很好的指示器。
而且,用分离的元组集来评估剪枝意味着将使用更少的元组来构建和测试树。
3. 画出包含4个布尔属性A,B,C,D 的奇偶函数的决策树。
该树有可能被简化吗?解答:决策树如下,该树不可能被简化。
4. X 是一个具有期望Np 、方差Np(1-p)的二项随机变量,证明X/N 同样具有二项分布且期望为p 方差为p(1-p)/N 。
解答:令r=X/N ,因为X是二项分布,r同样具有二项分布。
期望,E[r] = E[X/N] = E[X]/N = (Np)/N = p; 方差,E[错误!未找到引用源。
] = E[错误!未找到引用源。
] = E[错误!未找到引用源。
]/错误!未找到引用源。
= Np(1-p)/错误!未找到引用源。
= p(1-p)/N5. 当一个数据对象同时属于多个类时,很难评估分类的准确率。
评述在这种情况下,你将A B C D Class T T T T T T T T F F T T F T F T T F F T T F T T F T F T F T T F F T T T F F F F F T T T F FTTFTF T F T TF T F F FF F T T TF F T F F F F F T F F F F F T使用何种标准比较对相同数据建立的不同分类器。
4.3 决策树/分类树(Decision or Classification Trees)
决策树是一个多阶段决策过程,它不是一次用样本的所有特征进
行决策,而是逐次地用各个特征分量进行决策。
例如,一个6维向量x
=
(x 1, x 2, x 3, x 4, x 5, x 6)T ,决策树如图4.5所示。
决策树的构造一般有下列3个步骤:
(1) 为每一个内部节点(Internal Node)选择划分规则。
(2) 确定终节点(Terminal Nodes)。
(3) 给终节点分配类别标签(Class Labels)。
例如,根据图 4.6a 所示的二维数据分布情况,可以画出图 4.6b 所示的决策树。
x 6<2
x 5<5
x 4<1 x 1<2
ω1 ω2
ω1
ω3 ω2 Yes No
Yes Yes
Yes No
No
No
图4.5 一个决策树示意图
我们可以利用决策树的原理来解决多类别问题,例如,用一个线性分类器(例如Fisher 分类器)解决多类别问题。
图4.6a 一个二维空间样本分布示例
图4.6b 对应的决策树
x k >b 2
x k <b 1
x i <a 2 x k >b 3 ω8
ω9 ω6
ω4
Yes No
Yes Yes
Yes
No
No No x i >a 1
ω10
ω1 Yes
No。
第3章分类与回归3.1简述决策树分类的主要步骤。
3.2给定决策树,选项有:(1)将决策树转换成规则,然后对结果规则剪枝,或(2)对决策树剪枝,然后将剪枝后的树转换成规则。
相对于(2),(1)的优点是什么?3.3计算决策树算法在最坏情况下的时间复杂度是重要的。
给定数据集D,具有m个属性和|D|个训练记录,证明决策树生长的计算时间最多为)⨯。
m⨯Dlog(D3.4考虑表3-23所示二元分类问题的数据集。
(1)计算按照属性A和B划分时的信息增益。
决策树归纳算法将会选择那个属性?(2)计算按照属性A和B划分时Gini系数。
决策树归纳算法将会选择那个属性?3.5证明:将结点划分为更小的后续结点之后,结点熵不会增加。
3.6为什么朴素贝叶斯称为“朴素”?简述朴素贝叶斯分类的主要思想。
3.7考虑表3-24数据集,请完成以下问题:(1)估计条件概率)|-C。
P)A(+|(2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号;(3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率)P,)C(+|(-P,A||(+P,)P,)A(+B|(-P。
|C(-P,)|)B(4)同(2),使用(3)中的条件概率(5)比较估计概率的两种方法,哪一种更好,为什么?3.8考虑表3-25中的一维数据集。
表3-25 习题3.8数据集根据1-最近邻、3-最近邻、5-最近邻、9-最近邻,对数据点x=5.0分类,使用多数表决。
3.9 表3-26的数据集包含两个属性X 与Y ,两个类标号“+”和“-”。
每个属性取三个不同值策略:0,1或2。
“+”类的概念是Y=1,“-”类的概念是X=0 and X=2。
(1) 建立该数据集的决策树。
该决策树能捕捉到“+”和“-”的概念吗?(2) 决策树的准确率、精度、召回率和F1各是多少?(注意,精度、召回率和F1量均是对“+”类定义)(3) 使用下面的代价函数建立新的决策树,新决策树能捕捉到“+”的概念么?⎪⎪⎪⎩⎪⎪⎪⎨⎧+=-=+--=+===j i j i j i j i C ,,10),(如果实例个数实例个数如果如果(提示:只需改变原决策树的结点。
第三章计划第一节计划的构成与作用一、计划的概念与特点计划是组织策划与安排未来一段时间内的目标,以及实现目标方案的一种活动。
计划的基本特点(一)目的性:有明确目的和目标(二)主导性:是一切管理活动的前提(三)普遍性:一切有组织的活动都必须有计划(四)效果性:计划质量、成本令人满意(见下图)(五)可行性一项可行计划至少应满足:1、不与国家法律抵触,不严重损害公共利益;2、有实施计划的资源保证;3、获得执行计划的有关方面的理解和支持;4、有备用方案和应变措施。
二、计划的构成与分类三、计划的作用计划是管理者进行指挥与协调的依据计划是管理者实施控制的标准计划是降低未来不确定性的手段计划也是激励士气的手段计划同样是资源有效配置的手段第二节计划的程序一、环境分析(一)组织与环境管理是一切组织活动必备的功能,其目标、方式、对象都是由组织内部因素决定的.任何一个组织的行为都不是孤立的,都要受自然条件、文化传统、政治制度、经济制度和科学技术等外部环境的影响和制约。
组织环境是对组织各种活动具有直接或间接作用的各种条件和因素的总和。
斯蒂芬·罗宾斯认为:环境是对组织绩效具有潜在影响的外部机构或力量。
(二)组织环境及环境因素的层次性分解1、环境的分类(1)一般环境(宏观环境)自然环境自然环境主要包括气候条件、时间、自然资源、地理条件等。
社会环境社会环境是指与组织活动相联系的各种社会条件和因素关系的总和。
主要是:文化环境经济环境政治环境技术环境。
文化环境文化环境是指由决定人们生活、生产方式的观念形态构成的影响组织活动的条件和因素总和。
通常学术界把下列内容视为文化环境的组成部分:①人们的生活方式;②个人从其所在群体中继承的社会遗产;③思想、感情、宗教和信仰的活动方式;④积累起来的知识学习;⑤社会组织、政治制度及经济关系;⑥教育水平和方式;⑦伦理道德与价值标准;⑧行为方式;⑨历史的积淀。
经济环境经济环境主要是由经济结构、经济发展水平、经济体制和宏观经济政策等四个要素的总和构成。
决策树分类算法⼀、决策树原理决策树是⽤样本的属性作为结点,⽤属性的取值作为分⽀的树结构。
决策树的根结点是所有样本中信息量最⼤的属性。
树的中间结点是该结点为根的⼦树所包含的样本⼦集中信息量最⼤的属性。
决策树的叶结点是样本的类别值。
决策树是⼀种知识表⽰形式,它是对所有样本数据的⾼度概括决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别。
决策树算法ID3的基本思想:⾸先找出最有判别⼒的属性,把样例分成多个⼦集,每个⼦集⼜选择最有判别⼒的属性进⾏划分,⼀直进⾏到所有⼦集仅包含同⼀类型的数据为⽌。
最后得到⼀棵决策树。
J.R.Quinlan的⼯作主要是引进了信息论中的信息增益,他将其称为信息增益(information gain),作为属性判别能⼒的度量,设计了构造决策树的递归算法。
举例⼦⽐较容易理解:对于⽓候分类问题,属性为:天⽓(A1) 取值为:晴,多云,⾬⽓温(A2) 取值为:冷,适中,热湿度(A3) 取值为:⾼,正常风 (A4) 取值为:有风,⽆风每个样例属于不同的类别,此例仅有两个类别,分别为P,N。
P类和N类的样例分别称为正例和反例。
将⼀些已知的正例和反例放在⼀起便得到训练集。
由ID3算法得出⼀棵正确分类训练集中每个样例的决策树,见下图。
决策树叶⼦为类别名,即P 或者N。
其它结点由样例的属性组成,每个属性的不同取值对应⼀分枝。
若要对⼀样例分类,从树根开始进⾏测试,按属性的取值分枝向下进⼊下层结点,对该结点进⾏测试,过程⼀直进⾏到叶结点,样例被判为属于该叶结点所标记的类别。
现⽤图来判⼀个具体例⼦,某天早晨⽓候描述为:天⽓:多云⽓温:冷湿度:正常风:⽆风它属于哪类⽓候呢?-------------从图中可判别该样例的类别为P类。
ID3就是要从表的训练集构造图这样的决策树。
实际上,能正确分类训练集的决策树不⽌⼀棵。
Quinlan的ID3算法能得出结点最少的决策树。
ID3算法:⒈对当前例⼦集合,计算各属性的信息增益;⒉选择信息增益最⼤的属性A k;⒊把在A k处取值相同的例⼦归于同⼀⼦集,A k取⼏个值就得⼏个⼦集;⒋对既含正例⼜含反例的⼦集,递归调⽤建树算法;⒌若⼦集仅含正例或反例,对应分枝标上P或N,返回调⽤处。
管理学原理教案(首页)管理学原理课程教案(续页)三、影响决策的主要因素1.环境因素2.决策者因素3.组织文化4.时间因素任务二一、定性决策方法(一)头脑风暴法头脑风暴(brain storming)法又称智力激励法、BS法。
它是由美国创造学家A.F.奥斯本于1939年首次提出、1953年正式发表的一种激发创造性思维的方法。
它通过小型会议的组织形式,将对解决某一问题有兴趣的人集中在一起,在自由愉快、畅所欲言的气氛中,自由交换想法或点子,以此激发与会者创意及灵感,使各种设想在相互碰撞中激起脑海的创造性“风暴”。
这种方法适合于解决那些比较单一、严格确定的问题。
1.头脑风暴法实施的原则1.1提出不同的意见1.2追求数量1.3禁止批评和评论请他们再次发表意见。
2.4如此反复多次,最后形成代表专家组意见的方案。
3.运用该方法要注意的问题3.1资选择适当的专家3.2 确定适当的专家人数3.3拟好意见调查表(四)哥顿法哥顿法主要是通过会议形式,根据主持人的引导,让与会者进行讨论,但会议的根本目的是什么,真正需要研究的问题是什么,实际上只有主持人自己知道,其他与会者都不知晓。
这样做的目的是使与会者避免受思维定势的约束,使大家能跳出框框去思考,充分发挥群体智慧以实现方案的创新。
哥顿法有两个基本观点,一是“变陌生为熟悉”,即运用熟悉的方法处理陌生的问题;二是“变熟悉为陌生”,即运用陌生的方法处理熟悉的问题。
二、定量决策方法(一)确定型决策方法1.盈亏平衡分析法2.企业经营安全状况分析(二)风险型决策方法1.决策树的构成2.决策树的计算方法3.单级决策树4.多级决策树管理学原理课程教案(尾页)。
基于专家知识的决策树分类概述基于知识的决策树分类是基于遥感影像数据及其他空间数据,通过专家经验总结、简单的数学统计和归纳方法等,获得分类规则并进行遥感分类。
分类规则易于理解,分类过程也符合人的认知过程,最大的特点是利用的多源数据。
如图1所示,影像+DEM就能区分缓坡和陡坡的植被信息,如果添加其他数据,如区域图、道路图土地利用图等,就能进一步划分出那些是自然生长的植被,那些是公园植被。
图1.JPG图1 专家知识决策树分类器说明图专家知识决策树分类的步骤大体上可分为四步:知识(规则)定义、规则输入、决策树运行和分类后处理。
1.知识(规则)定义规则的定义是讲知识用数学语言表达的过程,可以通过一些算法获取,也可以通过经验总结获得。
2.规则输入将分类规则录入分类器中,不同的平台有着不同规则录入界面。
3.决策树运行运行分类器或者是算法程序。
4.分类后处理这步骤与监督/非监督分类的分类后处理类似。
知识(规则)定义分类规则获取的途径比较灵活,如从经验中获得,坡度小于20度,就认为是缓坡,等等。
也可以从样本中利用算法来获取,这里要讲述的就是C4.5算法。
利用C4.5算法获取规则可分为以下几个步骤:(1)多元文件的的构建:遥感数据经过几何校正、辐射校正处理后,进行波段运算,得到一些植被指数,连同影像一起输入空间数据库;其他空间数据经过矢量化、格式转换、地理配准,组成一个或多个多波段文件。
(2)提取样本,构建样本库:在遥感图像处理软件或者GIS软件支持下,选取合适的图层,采用计算机自动选点、人工解译影像选点等方法采集样本。
(3)分类规则挖掘与评价:在样本库的基础上采用适当的数据挖掘方法挖掘分类规则,后基于评价样本集对分类规则进行评价,并对分类规则做出适当的调整和筛选。
这里就是C4.5算法。
4.5算法的基本思路基于信息熵来“修枝剪叶”,基本思路如下:从树的根节点处的所有训练样本D0开始,离散化连续条件属性。
计算增益比率,取GainRatio(C0)的最大值作为划分点V0,将样本分为两个部分D11和D12。