决策树1
- 格式:ppt
- 大小:28.04 MB
- 文档页数:42
决策树的三种算法一、决策树算法的简单介绍决策树算法就像是一个超级智能的树状决策指南。
你可以把它想象成一棵倒着长的树,树根在上面,树枝和树叶在下面。
它的任务呢,就是根据不同的条件来做出各种决策。
比如说,你想决定今天穿什么衣服,天气就是一个条件,如果天气冷,你可能就选择穿厚衣服;如果天气热,那薄衣服就比较合适啦。
决策树算法在很多地方都超级有用,像预测一个人会不会买某个商品,或者判断一个邮件是不是垃圾邮件之类的。
二、决策树的三种算法1. ID3算法这个算法就像是一个很会找重点的小机灵鬼。
它主要是根据信息增益来构建决策树的。
啥是信息增益呢?就是通过计算某个属性带来的信息量的增加。
比如说,在判断一个水果是苹果还是香蕉的时候,颜色这个属性可能就有很大的信息增益。
如果一个水果是红色的,那它是苹果的可能性就比较大。
ID3算法会优先选择信息增益大的属性来作为树的节点,这样就能更快更准地做出决策啦。
不过呢,这个算法也有个小缺点,就是它比较容易对噪声数据敏感,就像一个很敏感的小娃娃,稍微有点风吹草动就可能受到影响。
2. C4.5算法C4.5算法就像是ID3算法的升级版。
它在ID3算法的基础上做了一些改进。
它不仅仅考虑信息增益,还考虑了信息增益率。
这就好比是一个更加全面考虑的智者。
通过考虑信息增益率,它能够更好地处理那些属性值比较多的情况。
比如说,在一个数据集中有一个属性有很多很多不同的值,C4.5算法就能比ID3算法更好地处理这种情况,不会轻易地被这种复杂情况给弄晕。
而且C4.5算法还能够处理连续的属性值,这就像是它多了一项特殊的技能,让它在更多的情况下都能发挥作用。
3. CART算法CART算法又有自己的特点。
它使用的是基尼系数来选择属性进行划分。
基尼系数就像是一个衡量公平性的小尺子,在决策树这里,它是用来衡量数据的纯度的。
如果基尼系数越小,说明数据越纯,就越容易做出准确的决策。
CART算法既可以用于分类问题,就像前面说的判断水果是苹果还是香蕉这种,也可以用于回归问题,比如预测房价之类的。
分类分析--决策树(经典决策树、条件推断树)分类分析--决策树决策树是数据挖掘领域中的常⽤模型。
其基本思想是对预测变量进⾏⼆元分离,从⽽构造⼀棵可⽤于预测新样本单元所属类别的树。
两类决策树:经典树和条件推断树。
1 经典决策树经典决策树以⼀个⼆元输出变量(对应威斯康星州乳腺癌数据集中的良性/恶性)和⼀组预测变量(对应九个细胞特征)为基础。
具体算法如下:(1) 选定⼀个最佳预测变量将全部样本单元分为两类,实现两类中的纯度最⼤化(即⼀类中良性样本单元尽可能多,另⼀类中恶性样本单元尽可能多)。
如果预测变量连续,则选定⼀个分割点进⾏分类,使得两类纯度最⼤化;如果预测变量为分类变量(本例中未体现),则对各类别进⾏合并再分类。
(2) 对每⼀个⼦类别继续执⾏步骤(1)。
(3) 重复步骤(1)~(2),直到⼦类别中所含的样本单元数过少,或者没有分类法能将不纯度下降到⼀个给定阈值以下。
最终集中的⼦类别即终端节点(terminal node)。
根据每⼀个终端节点中样本单元的类别数众数来判别这⼀终端节点的所属类别。
(4) 对任⼀样本单元执⾏决策树,得到其终端节点,即可根据步骤3得到模型预测的所属类别。
上述算法通常会得到⼀棵过⼤的树,从⽽出现过拟合现象。
结果就是,对于训练集外单元的分类性能较差。
为解决这⼀问题,可采⽤10折交叉验证法选择预测误差最⼩的树。
这⼀剪枝后的树即可⽤于预测。
R中的rpart包⽀持rpart()函数构造决策树,prune()函数对决策树进⾏剪枝。
下⾯给出判别细胞为良性或恶性的决策树算法实现。
(1)使⽤rpart()函数创建分类决策树:#⽣成树:rpart()函数可⽤于⽣成决策树library(rpart)set.seed(1234)dtree <- rpart(class ~ ., data=df.train, method="class",parms=list(split="information"))#rpart() 返回的cptable值中包括不同⼤⼩的树对应的预测误差,因此可⽤于辅助设定最终的树的⼤⼩。
决策树名词解释决策树(DecisionTree)是一种常见的数据挖掘技术,也称为决策树分类(Decision Tree Classification)。
决策树是一种以树状结构表示数据的模型,它可以用来描述一组数据集的概念,它可以用来作出决策。
策树是一种数据挖掘的常用算法,它可以用于分类、回归任务,以及关联规则建模,它可以帮助智能系统理解数据,从而实现更好的决策。
决策树的基本原理很简单,它是一种将每个属性值与实例的关联转换成树形结构的方法。
在这种树形结构中,每个节点存储关联属性的值,从而决定一个决策。
策树通常用于研究一组已知数据,它可以用来预测未知数据的结果,也可以用来归类数据,从而发现数据的规律性。
决策树的建立有很多步骤,但是大致可以分为以下几个步骤:(1)数据集准备:首先,需要对数据集进行预处理,将数据分成训练集和测试集。
(2)决策树划分:根据训练集中的特征属性,将数据集划分为不同的分支,并且不断划分,直到达到决策树模型所需要的精度或停止条件为止。
(3)估属性:根据训练集中的数据,选择最优的划分属性,用于对训练集进行划分。
(4)决策树剪枝:新建的决策树可能过度拟合训练数据,这会使训练出来的决策树在测试数据上的表现变差,因此,需要使用剪枝算法,来减少决策树的过拟合现象。
(5)测试:根据训练好的决策树,对测试集数据进行分类,统计测试集分类正确率,从而对决策树进行评估。
决策树在实际应用中可以用于社会决策分析、企业决策分析、关联规则挖掘等应用场景,但是决策树也有若干缺点。
其一,决策树生成过程中属性之间的关系可能非线性,而决策树假设属性之间的关系是线性的,因此可能导致决策树模型的准确性不足。
其二,决策树的剪枝操作可能会过度剪枝,也影响模型的准确性。
总之,决策树是一种常用的数据挖掘技术,它可以用于推理和预测数据,它可以用来帮助智能系统理解数据,从而改善决策效率。
但是,因为决策树的局限性,仍然需要其他的数据挖掘技术来提高决策的准确性。
决策树决策树法(Decision Tree)决策树(decision tree)一般都是自上而下的来生成的。
每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。
决策树就是将决策过程各个阶段之间的结构绘制成一张箭线图,我们可以用下图来表示。
选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。
从根到叶子节点都有一条路径,这条路径就是一条“规则”。
决策树可以是二叉的,也可以是多叉的。
对每个节点的衡量:1) 通过该节点的记录数2) 如果是叶子节点的话,分类的路径3) 对叶子节点正确分类的比例有些规则的效果可以比其他的一些规则要好。
决策树的构成要素[1]决策树的构成有四个要素:(1)决策结点;(2)方案枝;(3)状态结点;(4)概率枝。
如图所示:总之,决策树一般由方块结点、圆形结点、方案枝、概率枝等组成,方块结点称为决策结点,由结点引出若干条细支,每条细支代表一个方案,称为方案枝;圆形结点称为状态结点,由状态结点引出若干条细支,表示不同的自然状态,称为概率枝。
每条概率枝代表一种自然状态。
在每条细枝上标明客观状态的内容和其出现概率。
在概率枝的最末稍标明该方案在该自然状态下所达到的结果(收益值或损失值)。
这样树形图由左向右,由简到繁展开,组成一个树状网络图。
决策树对于常规统计方法的优缺点优点:1)可以生成可以理解的规则;2)计算量相对来说不是很大;3) 可以处理连续和种类字段;4) 决策树可以清晰的显示哪些字段比较重要。
缺点:1) 对连续性的字段比较难预测;2) 对有时间顺序的数据,需要很多预处理的工作;3) 当类别太多时,错误可能就会增加的比较快;4) 一般的算法分类的时候,只是根据一个字段来分类。
决策树的适用范围[1]科学的决策是现代管理者的一项重要职责。
我们在企业管理实践中,常遇到的情景是:若干个可行性方案制订出来了,分析一下企业内、外部环境,大部分条件是己知的,但还存在一定的不确定因素。
决策树基本原理1决策树简介决策树(Decision Tree)是一种通过将特征属性划分为若干类别,以用于决策的有监督学习算法。
决策树往往被用于分类与回归问题,比如预测一个样本是病人还是健康,以及估算一个样本的字段。
特征属性与特征值之间通过层级结构进行连接,构造出来的形式结构被称之为决策树。
2决策树的基本原理决策树的基本原理是人工智能估计技术,这种技术把一个复杂问题分割成以特征属性值为基础的可解决问题,从而实现这个复杂问题的求解。
它结合了决策处理、规则推导和数据挖掘技术,可以对大量复杂数据进行有效的监督处理。
为了了解决特定问题,决策树建立了一个模型,即基于特征属性值建立一颗树形结构,以表示该空间的分布情况。
通过大量的数据,模型会遍历每个可能的结果,并逐步进行归纳,从而构建出一个精准的决策树模型。
所有的结论其实都是来源于有监督学习算法所得的结果,一旦构建完成,该模型就可以用来预测新数据的结果。
3决策树的应用决策树是一种广泛应用于人工智能中构建模型的有效方法。
它把复杂的决策问题转换为一种简单易懂的模型,可以帮助不同领域的决策者有效预测结果。
特别是在面对数据量巨大,存在大量缺失值和噪声数据的情况时,决策树常常被当做精炼有效的模型。
用于分类预测的决策树常常用来构建企业管理系统,能够根据不同的特征属性,如客户背景,贷款条件,客户需求等,快速生成优化模型,用于决策和预测,以帮助企业更好地协调内部资源,实现精准营销。
4总结决策树是人工智能估计技术,运用决策处理、规则推导和数据挖掘技术,把复杂的决策问题拆解为简单易懂的模型,用于分类预测,进行企业管理和精准营销等方面,对于面对复杂问题的解决极具价值。
《机器学习(周志华)》笔记--决策树(1)--决策树模型、决策树简史、基本流程⼀、决策树模型 决策树(decision tree)是⼀种常⽤的机器学习⽅法,是⼀种描述对实例进⾏分类的树形结构。
决策树是⼀种常⽤的机器学习⽅法,以⼆分类为例,假设现在我们要对是否买西⽠进⾏判断和决策,我们会问⼀些问题,根据回答,我们决断是买还是不买,或者还拿补丁主意,这时会继续问问题,直到可以确定为⽌。
决策树基于“树”结构进⾏决策: (1)内部结点:属性 (2)分⽀:属性值 (3)p叶结点:分类结果 学习过程:通过对训练样本的分析来确定“划分属性”(即内部结点所对应的属性) 预测过程:将测试⽰例从根结点开始,沿着划分属性所构成的“判定测试序列”下⾏,直到叶结点 学习的过程就是通过划分属性构建决策树的过程,预测过程就是将测试样本从根节点开始,沿着划分属性构成的“判定序列”下⾏,直到叶结点。
结构举例: 从代码⾓度来看,决策树其实可以看成是⼀堆if-else语句的集合,例如引例中的决策树完全可以看成是如下代码:if isRed:if isCold:if hasSeed:print("buy")else:print("don't buy")else:if isCheap:print("buy")else:print("don't buy")else:print("don't buy") 由决策树的根结点(root node)到叶结点(leaf node)的每⼀条路径构建⼀条规则:路径上内部结点的特征对应着规则的条件,⽽叶结点的类对应着规则的结论。
决策树的路径或其对应的if-then规则集合具有⼀个重要的性质:互斥并且完备。
这就是说,每⼀个实例都被⼀条路径或⼀条规则所覆盖,⽽且只被⼀条路径或⼀条规则所覆盖。
决策树是一种决策支持工具,它由决策结点、方案枝、状态结点、概率枝四个构成要素组成。
1. 决策结点
决策结点表示决策的点,根据问题的不同而设定的不同,通常用圆圈表示。
在人力资源管理中,决策结点可以是招聘、离职、调岗等决策点。
2. 方案枝
方案枝是从决策结点延伸出的箭头,表示可供选择的方案,通常用直线表示。
在人力资源管理中,方案枝可以是招聘途径、离职方式、调岗方案等。
3. 状态结点
状态结点是从方案枝延伸出的箭头,表示可能出现的状态,通常用小方框表示。
在人力资源管理中,状态结点可以是招聘后的员工表现、离职后的员工反馈等。
4. 概率枝
概率枝是从状态结点延伸出的箭头,表示每个状态出现的概率,通常用小圆圈表示。
在人力资源管理中,概率枝可以是员工表现好的概率、员工反馈不满意的概率等。
决策树预测项目期望值,做出风险决策什么是决策树决策树是一种运用树状网络图形,根据期望(损益)值决策准则进行项目战略决策分析的工具。
决策树的作用能有效地对风险型项目进行战略决策分析;运用树状网络图直观、方便、易操作;是一种定量的决策分析工具,可以有效地解决多级(序贯)决策问题。
怎么做决策树由以下四部分组成,如下图:☐决策节点 方案节点—树枝✧树梢决策树图—图11.画出决策树A 先画一决策节点“☐”;B 从决策节点引出方案分枝,分枝上注明方案名或代号;C 方案分枝的末端画上方案节点“ ”;D 从每个方案节点引出状态分枝“—”,分枝上注明状态名、代号及其出现的概率;C 树梢末画上结果节点“△”,旁边注明相应的损益值。
提示:按照从左到右的顺序画决策树,画决策树的过程本身就是一个对决策问题进一步深入探索的过程。
例:某计算机制造商为开发一种市场需要的新产品考虑筹建一个分厂。
经过调查研究取得以下有关资料:决策树---表1决策树—图22.计算各方案的期望值损益值按从右到左的顺序计算期望损益值,并将结果标注在相应的状态节点处。
点⑤:[100*0.9+(-20)*0.1]*7(年)=616点②:(-20)*0.1*7(年)=140100*0.7*3(年)+616*0.7+(-20)*0.3*3(年)+(-140)*0.3-300(建大厂投资)=281.2点⑧:(40*0.9+30*0.1)*7(年)=273点⑨:[95*0.9+(-20)*0.1]*7(年)-200(扩建投资)=384.5 因384.5>273,说明扩建方案好;划掉不扩建方案,并将点9的期望值转移到点6处.点⑦:30*1.0*7(年)=210点③:40*0.7*3(年)+384.5*0.7+30*0.3*3(年)+210*0.3-120(建小厂投资)=323.2带有期望损益值的决策树:(单位:万元)见下页图决策树—图33.确定最优方案选择收益期望值最大(或损失值最小)的方案作为最优方案,并将期望值标在决策节点处。
决策树(DecisionTree)的理解及优缺点决策树的理解 决策树是⼀种机器学习的⽅法。
决策树的⽣成算法有ID3, C4.5和CART等。
决策树是⼀种树形结构,其中每个内部节点表⽰⼀个属性上的判断,每个分⽀代表⼀个判断结果的输出,最后每个叶节点代表⼀种分类结果。
决策树是⼀种⼗分常⽤的分类⽅法,需要监管学习(有教师的Supervised Learning),监管学习就是给出⼀堆样本,每个样本都有⼀组属性和⼀个分类结果,也就是分类结果已知,那么通过学习这些样本得到⼀个决策树,这个决策树能够对新的数据给出正确的分类。
这⾥通过⼀个简单的例⼦来说明决策树的构成思路:给出如下的⼀组数据,⼀共有⼗个样本(学⽣数量),每个样本有分数,出勤率,回答问题次数,作业提交率四个属性,最后判断这些学⽣是否是好学⽣。
最后⼀列给出了⼈⼯分类结果。
然后⽤这⼀组附带分类结果的样本可以训练出多种多样的决策树,这⾥为了简化过程,我们假设决策树为⼆叉树,且类似于下图: 通过学习上表的数据,可以设置A,B,C,D,E的具体值,⽽A,B,C,D,E则称为阈值。
当然也可以有和上图完全不同的树形,⽐如下图这种的:所以决策树的⽣成主要分以下两步,这两步通常通过学习已经知道分类结果的样本来实现。
1. 节点的分裂:⼀般当⼀个节点所代表的属性⽆法给出判断时,则选择将这⼀节点分成2个⼦节点(如不是⼆叉树的情况会分成n个⼦节点)2. 阈值的确定:选择适当的阈值使得分类错误率最⼩(Training Error)。
⽐较常⽤的决策树有ID3,C4.5和CART(Classification And Regression Tree),CART的分类效果⼀般优于其他决策树。
下⾯介绍具体步骤。
ID3:由增熵(Entropy)原理来决定那个做⽗节点,那个节点需要分裂。
对于⼀组数据,熵越⼩说明分类结果越好。
熵定义如下:Entropy=- sum [p(x_i) * log2(P(x_i) ]其中p(x_i) 为x_i出现的概率。
简述决策树决策的基本步骤决策树是一种常见的机器学习算法,可用于处理分类和回归问题。
它通过一系列的决策和条件判断来构建一个树状的决策流程,以帮助我们做出决策。
下面将详细介绍决策树决策的基本步骤。
1.数据收集和准备:决策树的第一步是收集相关的数据集,并对其进行预处理和准备工作。
这包括消除缺失值、处理异常值、标准化数据等。
决策树算法对于缺失值和异常值比较敏感,因此需要特别注意数据的准确性和完整性。
2.特征选择:在构建决策树时,需要选择合适的特征来作为决策的依据。
特征选择的目标是找到能够最好地划分数据的特征。
常用的特征选择方法包括信息增益、信息增益比、基尼系数等。
选择合适的特征可以提高决策树的准确性和泛化能力。
3.构建决策树:在选择了合适的特征后,就可以开始构建决策树了。
决策树的构建过程是一个递归的过程,从根节点开始,根据选定的特征和数据集,逐步构建出一棵完整的决策树。
构建决策树的关键是确定决策的分支点和条件,直到满足终止条件为止。
常用的决策树构建算法有ID3、C4.5、CART等。
4.决策树的剪枝:决策树的构建可能会导致过拟合的问题,为了防止决策树过于复杂和过拟合现象的发生,需要对决策树进行剪枝。
决策树剪枝的目标是通过降低决策树复杂度,减少不必要的分支和节点,提高模型的泛化能力。
常用的剪枝算法有预剪枝和后剪枝两种方法。
5.决策:当决策树构建完成后,就可以使用它来进行新数据的决策了。
将新数据输入决策树,一步一步地沿着决策路径进行判断和选择,直到达到叶节点,即可得到最终的决策结果。
决策树的决策过程简单明了,易于解释和理解。
6.模型评估与优化:决策树模型的准确性和泛化能力是评估模型好坏的指标。
可以使用交叉验证等方法对模型进行评估。
如果模型的表现不理想,可以考虑调整特征选择、决策树构建算法、剪枝算法等参数和方法,以优化模型的性能。
总结:决策树决策的基本步骤包括数据收集和准备、特征选择、构建决策树、决策树的剪枝、决策、模型评估与优化等。
决策树的原理及优缺点分析决策树(Decision Tree)是一种常用的机器学习算法,它采用树结构来对数据进行建模与预测。
决策树的原理是通过学习历史数据的特征和目标值之间的关系,然后利用学到的模型来对未知数据进行分类或回归。
决策树的主要优点包括:1. 简单易懂:决策树的模型结构直观,易于理解和解释,即使没有机器学习背景的人也能轻松理解它的决策过程。
2. 适用性广:决策树能够处理各种类型的数据,包括连续型、离散型和混合型的特征。
3. 可解释性强:决策树的分裂过程可以通过特征的重要性排序来解释,从而帮助人们了解数据集的特征重要性和模型决策过程。
4. 处理高维数据:决策树能够有效地处理高维数据集,因为它在每个节点上选择最具区分度的特征进行分裂,能够较好地处理特征的选择和特征的组合。
5. 对缺失值和异常值不敏感:决策树算法能够自动处理缺失值,不需要人为地对缺失值进行处理。
决策树也存在一些缺点:1. 容易过拟合:决策树很容易过度学习训练数据的细节,导致在测试数据上表现不佳。
过拟合问题可以通过剪枝等方法来缓解。
2. 不稳定性:当输入数据发生少量变化时,决策树可能会产生较大的变化。
这是因为决策树是基于特征选择的,而特征选择本身存在一定的随机性。
3. 忽略特征间的相关性:决策树的特征选择是通过计算每个特征的信息增益或基尼系数等指标来选择的,它只考虑了特征与目标变量之间的关系,而忽略了特征之间的相关性。
4. 处理连续特征困难:决策树通常只能处理离散特征,对于连续型特征需要进行离散化处理,这可能造成信息损失。
为了改进决策树的缺点,有很多变种的决策树算法被提出,如随机森林、梯度提升决策树等。
这些算法通过集成学习、剪枝等手段来提高模型的泛化能力和稳定性,同时还可以处理更复杂的问题。
总结起来,决策树是一种简单、直观且易于理解的机器学习算法,适用于各种类型的数据,具有良好的可解释性和处理高维数据的能力。
然而,决策树容易过拟合和不稳定,对连续特征处理不便,需要在实际应用中进行优化和改进,或者使用其他决策树算法来取得更好的性能。
决策树评估方法(一)决策树评估什么是决策树决策树是一种基于树形结构的分类模型,其树节点代表一个属性或特征,树枝代表其可能的结果,最终的叶子节点则代表分类的结果。
决策树评估指标为了评估一个决策树分类模型的性能,可以使用以下指标:准确率准确率是分类正确的样本数占总样本数的比例。
召回率召回率是正类被正确分类的比例。
F1-ScoreF1-Score是准确率和召回率的加权平均值,考虑了精确度和完整度。
AUCAUC是ROC曲线下面的面积。
ROC曲线指的是以假阳性率(False Positive Rate)为横轴,以真阳性率(True Positive Rate)为纵轴的曲线。
AUC的取值范围为0.5-1,数值越大,分类器的性能越好。
决策树评估方法常见的决策树评估方法如下:K折交叉验证将数据集划分为K份,每次取其中一份作为验证集,剩下的K-1份作为训练集,交替进行K次。
留一法交叉验证将数据集划分为N份,每次取其中一份作为验证集,剩下的N-1份作为训练集,重复N次。
自助法从原始数据集中有放回地重复抽取样本,得到M个新数据集。
将每个新数据集用于训练,剩下的样本用于测试。
结论决策树评估是评估分类模型性能的重要手段,可以用多种指标和方法进行评估。
使用合适的方法和指标,可以有效地评估决策树模型的性能,找到问题并加以解决。
接下来,我们来逐一介绍这些评估方法的优缺点。
K折交叉验证优点:•可以有效利用数据集,每个样本都会被用于验证和训练。
•偏差(Bias)减小,方差(Variance)增加,可以更好地评估模型的泛化能力。
•迭代K次,取平均值,可以一定程度上减小模型评估的随机性。
缺点:•计算量较大,需要重复K次训练和验证。
•可能会有一些数据偏差,如果不是很平衡的数据集,一些情况下某些类别的数据可能会全部分到训练集或中测试集。
留一法交叉验证优点:•对于小数据集,留一法每次只选一个样本作为验证集,其余样本作为训练集,可以保证不浪费太多数据。
决策树计算公式(一)决策树的相关计算公式1. 信息增益(Information Gain)•信息增益是衡量使用某个属性对样本进行划分后,所得到的信息不确定性减少的程度。
信息增益越大,说明使用该属性进行划分能获得更多的信息。
•计算公式为:[信息增益](其中:–[信息熵]( 是数据集 D 的信息熵,衡量数据集的不确定性。
–[条件熵]( 是在特征 A 的条件下,数据集 D 的概率分布的熵,表示在已知特征 A 的情况下,数据集 D 的不确定性。
2. 基尼指数(Gini Index)•基尼指数是衡量样本集中元组的不确定性的度量方式。
基尼指数越小,说明样本集中的元组属于同一类别的概率越大。
•计算公式为:[基尼指数](其中:–[p_k]( 是样本集 D 中属于第 k 类样本的概率。
– c 是样本集的类别数。
3. 信息增益率(Gain Ratio)•信息增益率是在信息增益的基础上对属性划分进行了修正,避免因为某个属性取值较多而对信息增益造成偏好。
•计算公式为:[信息增益率](其中:–[IV(A)]( 是特征 A 的固有值,表示属性 A 取值的多样性。
示例说明:假设我们要构建一个决策树模型,希望利用年龄、性别和教育背景等特征来预测一个人是否会购买某种商品。
我们有以下样本数据集:ID | 年龄 | 性别 | 教育背景 | 是否购买 ||—-|——|——||| | 1 | 青年 | 男性 | 高中 | 否 | | 2 |中年 | 男性 | 大学 | 是 | | 3 | 老年 | 女性 | 大学 | 是 | | 4 | 老年 | 男性 | 大学 | 否 | | 5 | 青年 | 女性 | 高中 | 否 | |6 | 中年 | 女性 | 大学 | 是 | |7 | 青年 | 女性 | 大学 | 否 | |8 | 中年 | 男性 | 高中 | 是 |首先,我们计算数据集的信息熵 [H(D)]( [p_是]( 和 [p_否]( [H(D)=-(p_是_2(p_是)+p_否_2(p_否))](计算可得[H(D)]( ≈ 。
emv决策树公式(一)EMV决策树公式简介EMV决策树是一种用于决策分析的工具,用于评估不同决策方案的预期价值。
EMV代表了每个决策方案的预期货币价值,通过比较不同方案的EMV值,可以选择最优的决策方案。
相关公式EMV计算公式EMV的计算公式如下:EMV = P1 * V1 + P2 * V2 + … + Pn * Vn其中,Pi代表事件i发生的概率,Vi代表事件i对应的价值。
期望价值计算公式期望价值的计算公式如下:EV = P1 * V1 + P2 * V2 + … + Pn * Vn其中,Pi代表事件i发生的概率,Vi代表事件i对应的价值。
期望误差计算公式期望误差的计算公式如下:EE = |EMV - EV|其中,EMV代表决策方案的经验价值,EV代表决策方案的期望价值。
示例解释假设我们要在投资股市和买入债券之间做出决策。
我们有两个可能的情景,分别是股市上涨和股市下跌。
我们对每个情景的概率和价值进行了评估。
情景1:股市上涨 - 概率: - 价值:1000情景2:股市下跌 - 概率: - 价值:-500根据上述情景和相关的公式,我们可以计算出每个决策方案的EMV和EV,并计算出期望误差。
假设我们选择投资股市和买入债券两个决策方案,计算如下:股市投资方案: EMV = * 1000 + * (-500) = 400 EV = * 1000 + * (-500) = 400 EE = |400 - 400| = 0买债券方案: EMV = * 0 + * (-500) = -200 EV = * 0 + * (-500) = -200 EE = |-200 - (-200)| = 0根据计算结果,我们可以看出两个决策方案的EMV和EV相等,且期望误差为0。
这说明在这种情况下,无论选择哪个决策方案,预期价值和经验价值都是相同的。
结论EMV决策树公式是一种帮助决策分析的工具,通过计算每个决策方案的EMV和EV,可以选择最优的决策方案。