当前位置:文档之家› 决策树决策表练习试题与参考包括答案.doc

决策树决策表练习试题与参考包括答案.doc

决策树决策表练习试题与参考包括答案.doc
决策树决策表练习试题与参考包括答案.doc

1.某厂对一部分职工重新分配工作,分配原则是:

⑴年龄不满 20 岁,文化程度是小学者脱产学习,文化程度是中学者当电工;

⑵年龄满 20 岁但不足 50 岁,文化程度是小学或中学者,男性当钳工,女性当车工;文化程度是大专者,当技术员。

⑶年龄满 50 岁及 50 岁以上,文化程度是小学或中学者当材料员,文化程度是大专者当技术员。

要求:做出决策表。

条件及行 1 2 3 4 5 6 7 8 9 10 11 12

动说明

年龄≤20 ≤ 20 ≤ 20 ≤20 ≤20 ≤ 20 (20,50 (20,50 (20,50 (20,50 (20,50 (20,50

] ] ] ] ] ]

文化程度小学小学中学中学大专大专小学小学中学中学大专大专性别男女男女男女男女男女男女

脱产学习√√

电工√√

钳工√√

车工√√

材料员

技术员√√

条件及行13 14 15 16 17 18

动说明

年龄≥50 ≥ 50 ≥ 50 ≥50 ≥50 ≥ 50

文化程度小学小学中学中学大专大专

性别男女男女男女

脱产学习

电工

钳工

车工

材料员√√√√

技术员√√

优化后的决策表如下:

条件及行 1 2 3 4 5 7 8 9 10 11 12

动说明

年龄≤20 ≤20 (20,50] (20,50] (20,50] (20,50] (20,50] (20,50] ≥50 ≥ 50 ≥ 50

文化程度小学中学小学小学中学中学大专大专小学中学大专

性别- - 男女男女男女- - -

脱产学习√√

电工

钳工√√

车工√√

材料员√√

技术员√√√

2、试画出某企业库存量监控处理的判断树。

若库存量≤ 0,按缺货处理;若库存量≤库存下限,按下限报警处理;若库存量>库存下限,而又≤储备定额,则按订货处理;

若库存量>库存下限,而又>储备定额,则按正常处理;若库存量≥

库存上限,又>储备定额,则按上限报警处理。

≥库存上限上限报警

>储备定额

<库存上限正常处理

>库存下限

> 0≤储备定额订货处理

≤库存下限下限报警库存量

≤ 0缺货处理3某货运站收费标准如下:

若收件地点在本省,则快件 6 元/公斤,慢件 4 元/公斤;

若收件地点在外省,则在25 公斤以内(包括25 公斤),快件 8 元/公斤,慢件 6 元/公斤;而超过25 公斤时,快件 10 元/公斤,慢件8元/公斤;

画出决策表和决策树:

决策表:

条件组合

1 2 3 4 5 6 7 8

条件活动说明

地点本省本省本省本省外省外省外省外省重量

25 公斤以25 公斤以25 公斤以25 公斤以25 公斤以25 公斤以25 公斤以25 公斤以

内内外外内内外外邮寄方式快件慢件快件慢件快件慢件快件慢件

4 元 / 公斤√√

6 元 / 公斤√√√

8 元 / 公斤√√

10 元/ 公斤√

优化后的结果如下所示:

条件组合

1 2 3 4 5 6

条件活动说明

地点本省本省外省外省外省外省

重量- -

25 公斤以25 公斤以25 公斤以25 公斤以

内内外外

邮寄方式快件慢件快件慢件快件慢件

4 元 / 公斤√

6 元 / 公斤√√

8 元 / 公斤√√

10 元/ 公斤√

决策树:

地点规格重量收费金额

快件6元本省

慢件4元

收费

≤ 25斤8元快件

外省>25斤10元

≤25斤6元慢件

>25斤8元

造价师案例辅导:决策树(法)概念考试试卷

造价师案例辅导:决策树(法)概念考试试卷 一、单项选择题(共25题,每题2分,每题的备选项中,只有1个事最符合题意) 1、工程竣工后,由于洪水等不可抗力造成的损坏,承担包修费用的单位是__。A.施工单位 B.设计单位 C.建设单位 D.监理单位 2、在国产离心泵的型号表示法中,100D45×8表示__。 A.泵的流量100m3/h,单级扬程45m水柱,8级分段多级离心水泵 B.泵的流量为45×8=360m3/h,扬程为100m的多级式离心水泵 C.泵的入口直径为100mm,单级扬程为45m水柱,8级分段式多级离心水泵D.泵的入口直径为100mm,总扬程为45m水柱,8段多级离心水泵 3、解决价值工程的研究对象这个问题是在价值工程活动中__环节完成。 A.对象选择和收集资料 B.对象选择和功能定义 C.功能定义和功能整理 D.收集资料和功能定义 4、安全阀的阀座内径应()。 A.视情况确定 B.等于25mm C.大于25mm D.小于25mm 5、根据《建设工程施工合同(示范文本)》的规定,工程进度款支付内容包括合同中规定的__。 A.初始收入 B.初始收入加因合同变更构成的收入 C.初始收入加因合同变更、索赔、奖励等构成的收入 D.初始收入加因合同变更、索赔、奖励等构成的收入减应扣回的预付款 6、关于施工组织设计表述正确的是()。 A.施工组织设计主要用于项目管理 B.施工组织设计由设计单位编制 C.“标后设计”由企业管理层在合同签订之前完成 D.“标前设计”是规划性设计,由项目管理层编制 7、功能评价的目标是()。 A.找出低价值功能区域 B.找出高价值功能区域 C.找出产品使用功能 D.找出产品美学功能 8、__是指技术工种劳动定额内不包括而在预算定额内又必须考虑的用工。A.额外用

R语言-决策树算法知识讲解

R语言-决策树算法

决策树算法 决策树定义 首先,我们来谈谈什么是决策树。我们还是以鸢尾花为例子来说明这个问题。 观察上图,我们判决鸢尾花的思考过程可以这么来描述:花瓣的长度小于 2.4cm的是setosa(图中绿色的分类),长度大于1cm的呢?我们通过宽度来判别,宽度小于1.8cm的是versicolor(图中红色的分类),其余的就是 virginica(图中黑色的分类) 我们用图形来形象的展示我们的思考过程便得到了这么一棵决策树: 这种从数据产生决策树的机器学习技术叫做决策树学习, 通俗点说就是决策树,说白了,这是一种依托于分类、训练上的预测树,根据已知预测、归类未来。 前面我们介绍的k-近邻算法也可以完成很多分类任务,但是他的缺点就是含义不清,说不清数据的内在逻辑,而决策树则很好地解决了这个问题,他十分好理解。从存储的角度来说,决策树解放了存储训练集的空间,毕竟与一棵树的存储空间相比,训练集的存储需求空间太大了。 决策树的构建 一、KD3的想法与实现 下面我们就要来解决一个很重要的问题:如何构造一棵决策树?这涉及十分有趣的细节。 先说说构造的基本步骤,一般来说,决策树的构造主要由两个阶段组成:第一阶段,生成树阶段。选取部分受训数据建立决策树,决策树是按广度优先建立直到每个叶节点包括相同的类标记为止。第二阶段,决策树修剪阶段。用剩余数据检验决策树,如果所建立的决策树不能正确回答所研究的问题,我们要对决策树进行修剪直到建立一棵正确的决策树。这样在决策树每个内部节点处进行属性值的比较,在叶节点得到结论。从根节点到叶节点的一条路径就对应着一条规则,整棵决策树就对应着一组表达式规则。 问题:我们如何确定起决定作用的划分变量。 我还是用鸢尾花的例子来说这个问题思考的必要性。使用不同的思考方式,我们不难发现下面的决策树也是可以把鸢尾花分成3类的。 为了找到决定性特征,划分出最佳结果,我们必须认真评估每个特征。通常划分的办法为信息增益和基尼不纯指数,对应的算法为C4.5和CART。 关于信息增益和熵的定义烦请参阅百度百科,这里不再赘述。 直接给出计算熵与信息增益的R代码:

决策树ID3算法在高校教师教育技术培训中的应用研究

决策树ID3算法在高校教师教育技术培训中的应用研究 摘要: 高校教师教育技术培训存在培训形式单一、内容安排不够合理、评价体系不够健全等问题。针对参训教师在知识层次、学科背景、思想意识等方面存在的差异,应坚持“先分类后培训”的思想,以学校教师历年参训情况构造ID3决策树,利用分类技术从中挖掘出一些潜在的、隐藏的知识,为将来参训教师的分类、培训的具体实施做好充分的准备工作。实验表明,该方法具有一定的可行性。 关键词:高校教师教育技术培训;决策树ID3算法;应用 信息技术的迅猛发展引起了教育的深刻变革。为此,提高教师的信息素养已成为推动我国高等教育信息化建设的必由之路。高教司于2000年发出的《关于开展高校教师教育技术培训工作的通知》(高教司【2000】79号)[1]中指出,“教育技术培训”是“新世纪教改工程”和“现代远程教育工程”的重要组成部分,是深化教学改革、提高教学质量的重要举措。 常熟理工学院自2001年6月开始,对教师进行教育技术培训,2003年1月起申报江苏省教育技术培训点,次年申报成功。2007年,学校正式下发的《常熟理工学院讲师等中级职称资格条件》(常理工[2007]73号)第二章第七条规定:教师申报教学系列、思政系列的中级职称应参加学校现代教育技术培训并取得合格证书。近几年来,学校先后举办了十期教师教育技术中级培训班,共400多名中青年教师参加了培训,极大地提高了教师的多媒体教学水平,加快了学校信息化建设的步伐。 一、高校教师教育技术培训存在的问题 教师教育技术培训的研究对象是教学过程与教学资源,研究范畴包括对教学过程的设计以及教学资源的开发、应用、管理与评价。目前,各高校的教师教育技术培训工作虽已取得了一定的成绩,但从培训的实际效果来看,仍存在着一些问题,主要表现在以下三个方面。 1.培训时间安排不够合理 目前,教师教育培训基本采用集体面授的方式。由于参训教师自身所承担的教学工作和科研任务比较繁重,很难抽出一段相对集中的时间来参加教育技术培训。为解决上述矛盾,高校通常会选择利用寒暑假时间安排培训,这需要牺牲培训教师和参训教师的许多休息时间,容易引发不满情绪,严重影响了教师参训的积极性,极大地降低了培训效果。 2.培训内容安排不科学 由于培训内容是根据全校教师需求统一安排的,基本没有考虑到参训教师自身所具备的知识层次、学科背景、思想意识等方面的差异,因此很难体现学科差别。各学科教师混合在一起集中学习,导致理论知识讲解过多而与教学实际联系较少,参训教师难以从根本上真正掌握教育技术。 3.考核方式单一,培训评价体系不健全 目前,高校教师培训采取的考核方式往往比较单一,通常以参加理论考试或者提交相关论文、作业等作为培训的最终考核结果。此外,各级培训机构大多未能及时地对培训过程做出评价,同时缺少参训教师的自我评价环节,因而不利于教育技术培训工作的后续支持和进一步开展。如此看来,建立和完善培训评价体系显得尤为重要,这也是建立教师培训长效机制的关键所在。 二、分类技术与决策树ID3 算法的相关理论

决策树练习题

决策树作业题 公司拟建一预制构件厂,一个方案就是建大厂,需投资300万元,建成后如销路好每年可获利100 万元,如销路差,每年要亏损20万元,该方案的使用期均为10年;另一个方案就是建小厂,需投资170 万元,建成后如销路好,每年可获利40万元,如销路差每年可获利30万元;若建小厂,则考虑在销路好的情况下三年以后再扩建,扩建投资130万元,可使用七年,每年盈利85万元。假设前3年销路好的概率就是0、7,销路差的概率就是0、3,后7年的销路情况完全取决于前3年;为了适应市场的变化,投资者又提出了第三个方案,即先小规模投资160万元,生产3年后,如果销路差,则不再投资,继续生产7年;如果销路好,则再作决策就是否再投资140万元扩建至大规模(总投资300万元),生产7年。前3 年与后7年销售状态的概率见表16,大小规模投资的年损益值同习题58。试用决策树法选择最优方案。 表16 销售概率表 项目前3年销售状态概率后7年销售状态概率好差好差 销路差0、7 0、3 0、9 0、1 决策树例题 1.某投资者预投资兴建一工厂,建设方案有两种:①大规模投资300万元;②小规模投资160万元。两个 方案的生产期均为10年,其每年的损益值及销售状态的规律见下表。试用决策树法选择最优方案。 (2)计算各状态点的期望收益值 节点②:[100*0、7+(-20)*0、3]*10-300=340;

节点③:[60*0、7+20*0、3]*10-160=320; 将各状态点的期望收益值标在圆圈上方。 (3)决策 比较节点②与节点③的期望收益值可知,大规模投资方案优于小规模投资方案,故应选择大规模投资方案,用符号“//”在决策树上“剪去”被淘汰的方案。 2.某项目有两个备选方案A与B,两个方案的寿命期均为10年,生产的产品也完全相同,但投资额及年 净收益均不相同。A方案的投资额度为500万元,其年净收益在产品销售好时为150万元,销售差时为50万元;B方案的投资额度为300万元,其年净收益在产品销售好时为100万元,销售差时为10万元,根据市场预测,在项目寿命期内,产品销路好时的可能性为70%,销路差的可能性为30%,试根据以上资料对方案进行比较。 3、公司拟建一预制构件厂,一个方案就是建大厂,需投资300万元,建成后如销路好每年可获利100万元,如销路差,每年要亏损20万元,该方案的使用期均为10年;另一个方案就是建小厂,需投资170万元,建成后如销路好,每年可获利40万元,如销路差每年可获利30万元;若建小厂,则考虑在销路好的情况下三年以后再扩建,扩建投资130万元,可使用七年,每年盈利85万元。假设前3年销路好的概率就是0、7,销路差的概率就是0、3,后7年的销路情况完全取决于前3年;试用决策树法选择方案。 解:这个问题可以分前3年与后7年两期考虑,属于多级决策类型,如图所示。

Clementine决策树CHAID算法

CHAID算法(Chi-Square Automatic Interaction Detection) CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。 不同于C&R树和QUEST节点,CHAID分析可以生成非二进制树,即有些分割有两个以上的分支。 CHAID模型需要一个单一的目标和一个或多个输入字段。还可以指定重量和频率领域。 CHAID分析,卡方自动交互检测,是一种用卡方统计,以确定最佳的分割,建立决策树的分类方法。 1.CHAID方法(卡方自动交叉检验) CHAID根据细分变量区分群体差异的显著性程度(卡方值)的大小顺序,将消费者分为不同的细分群体,最终的细分群体是由多个变量属性共同描述的,因此属于多变量分析。 在形式上,CHAID非常直观,它输出的是一个树状的图形。 1.它以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续 变量,如年龄,收入要定义成分类或有序变量)进行分类,计算分类的卡方值(Chi-Square-Test)。如果 几个变量的分类均显著,则比较这些分类的显著程度(P值的大小),然后选择最显著的分类法作为子节点。 2.CHIAD可以自动归并自变量中类别,使之显著性达到最大。 3.最后的每个叶结点就是一个细分市场 CHAID 自动地把数据分成互斥的、无遗漏的组群,但只适用于类别型资料。 当预测变量较多且都是分类变量时,CHAID分类最适宜。 2.CHAID分层的标准:卡方值最显著的变量 3.CHAID过程:建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对 于这些群体再根据其它的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。 4.CHAID的一般步骤 -属性变量的预处理 -确定当前分支变量和分隔值 属性变量的预处理: -对定类的属性变量,在其多个分类水平中找到对目标变量取值影响不显著的分类,并合并它们; -对定距型属性变量,先按分位点分组,然后再合并具有同质性的组; -如果目标变量是定类变量,则采用卡方检验 -如果目标变量为定距变量,则采用F检验 (统计学依据数据的计量尺度将数据划分为三大类,即定距型数据(Scale)、定序型数据(Ordinal)和定类型数据(Nominal)。定距型数据通常指诸如身高、体重、血压等 的连续性数据,也包括诸如人数、商品件数等离散型数据;定序型数据具有内在固有大 小或高低顺序,但它又不同于定距型数据,一般可以数值或字符表示。如职称变量可以 有低级、中级和高级三个取值,可以分别用1、2、3等表示,年龄段变量可以有老、中、青三个取值,分别用A、B、C表示等。这里无论是数值型的1、2、3还是字符型的A、B、C,都是有大小或高低顺序的,但数据之间却是不等距的。因为低级和中级职称之间的差距与中级和高级职称之间的差距是不相等的;定类型数据是指没有内在固定大小或高低 顺序,一般以数值或字符表示的分类数据。) F检验:比较两组数据的方差2s, 2 2 s F s 大 小 ,假设检验两组数据没有显著差异,FF表,拒绝原假设,两组数据存在显著差异。属性变量预处理的具体策略

基于粗糙集—决策树的上市公司财务预警

□财会月刊· 全国优秀经济期刊□·26 ·2012.6下旬一、有关财务危机预测的研究方法 财务危机预测模型是由Beaver 最早提出来的,之后许多预测方法被用于公司财务危机预测研究。 20世纪60年代主要是Beaver 和Altman 分别采用单变量判别分析和多变量判别分析进行财务危机预警研究。 20世纪80年代,Ohlson 首先将Logistic 模型应用于财务预警领域,20世纪90年代神经网络又被引入财务危机预测。20世纪80年代,Frydman 等将决策树引入了财务预警研究中,决策树(DT )在解决分类问题上具有简单和易于理解的优点。 决策树是一种对大量数据集进行分类的非常有效的方法,通过决策树的构造模型,从大量信息中挖掘有效的数据,提取有价值的分类规则,从而获得有用的知识,帮助决策者准确预测。它的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。 根据决策树增长的方法不同,学者们提出了很多经典的决策树算法。1986年J .R.Quinlan 提出了决策树ID3算法,有人在此基础上提出了一些改进的SLIQ 、SPRINT 、CHAID 等一些算法。 这些算法运用也被运用到财务预警方面。姚靠华、陈晓红(2007)运用这些算法对我国上市公司的财务预警问题进行了研究。 1982年Z.Pawlak 教授提出了粗糙集理论,运用粗糙集的方法可以对属性进行约简,把粗糙集的知识运用到决策树上,国内外学者提出了很多不同的建树方法并应用到很多领域。2001年赵卫东、李旗号运用粗糙集知识对决策树进行了优化,通过引入粗糙集理论中可分辨的概念给出一种方法,这种方法通过优化降低了树的高度。 2009年Iftikhar U.Sikder 和Toshinori Munakata 的基于粗糙集和决策树对低地震活动前兆因素的描述,他们运用粗糙集和决策树的方法,使用了信息增益和熵产生一系列规则,对地震进行预警。 运用决策树方法形成一系列规则,对训练数据集进行分类,然后根据形成的规则对训练数据集之外的数据进行分类,应用在财务领域,可以对财务进行预警。本文运用建造决策树的一种新方法,通过实证研究,对国内制造业上市公司进行财务预警分析。 二、基于变精度加权平均粗糙度的决策树生成算法 (一)对象聚类 系统聚类也称为层次聚类,是聚类分析中广泛应用的一种方法。聚类分析是建立在某种优化意义下,对样品或指标(变量)之间存在的相似性进行比较,将“相近似”的对象归并成类的一种方法。 本文使用SPSS16.0对138家制造业公司进行分类,聚类步骤如下: 1.数据标准化。系统聚类首先要对各个原始数据进行一些相互比较运算,而各个原始数据往往由于量纲不同而影响这种比较和运算。因此,需要对原始数据进行必要的变换处理,以消除量纲不同造成的影响。 数据处理主要是对各个数据进行标准化,数据的标准化是将数据按比例缩放,使之落入一个小的特定区间,方法如下: 对于一个正向指标X i ,假定当它取值大于或者等于α时为最佳,此时,把它所有取值等于或者大于α的值标准化后取值为1; 同理,假定当X i 的取值小于或者等于β时为最差,标准化后取值为0;取值为区间(β,α)的数据δ,标准化之后为:(δ-β)/(α-β)。 2.计算聚类统计量。根据变换以后的数据计算得到聚类统计量。它用来表明各样品或变量间的关系相似或者近似程度。 常用的统计量有距离和相似系数两大类。本文使用欧式距离计算聚类统计量。欧式距离计算方法如下: 假设每个样品有p 个指标,用y ij 表示第i 个样品的第j 个指标,d ij 表示第i 个样品与第j 个样品之间的距离,欧式距离可表示为: d ij =[(y ik -y jk )2]1/2(1) 基于粗糙集—决策树的上市公司财务预警 刘澄(博士生导师) 胡巧红孙莹 (北京科技大学东凌经济管理学院北京100083) 【摘要】传统的财务预警研究往往把企业财务状况分成ST 和非ST 两类,过于笼统。为此本文首先运用聚类的方法把138家制造业上市公司分为财务状况健康、良好、一般、预警和危机5个层次,这使得对企业财务预警的研究更贴合实际,并且使实证研究结果更加准确。然后运用粗糙集中的变精度加权平均粗糙度来构造决策树的改进算法,对这些公司进行分类,进而提出公司财务状况预警的规则,这样生成的决策树财务预警规则防噪声能力更强,分类效果更好。 【关键词】决策树粗糙集财务预警 ∑ p k=1

决策树算法介绍(DOC)

3.1 分类与决策树概述 3.1.1 分类与预测 分类是一种应用非常广泛的数据挖掘技术,应用的例子也很多。例如,根据信用卡支付历史记录,来判断具备哪些特征的用户往往具有良好的信用;根据某种病症的诊断记录,来分析哪些药物组合可以带来良好的治疗效果。这些过程的一个共同特点是:根据数据的某些属性,来估计一个特定属性的值。例如在信用分析案例中,根据用户的“年龄”、“性别”、“收入水平”、“职业”等属性的值,来估计该用户“信用度”属性的值应该取“好”还是“差”,在这个例子中,所研究的属性“信用度”是一个离散属性,它的取值是一个类别值,这种问题在数据挖掘中被称为分类。 还有一种问题,例如根据股市交易的历史数据估计下一个交易日的大盘指数,这里所研究的属性“大盘指数”是一个连续属性,它的取值是一个实数。那么这种问题在数据挖掘中被称为预测。 总之,当估计的属性值是离散值时,这就是分类;当估计的属性值是连续值时,这就是预测。 3.1.2 决策树的基本原理 1.构建决策树 通过一个实际的例子,来了解一些与决策树有关的基本概念。 表3-1是一个数据库表,记载着某银行的客户信用记录,属性包括“姓名”、“年龄”、“职业”、“月薪”、......、“信用等级”,每一行是一个客户样本,每一列是一个属性(字段)。这里把这个表记做数据集D。 银行需要解决的问题是,根据数据集D,建立一个信用等级分析模型,并根据这个模型,产生一系列规则。当银行在未来的某个时刻收到某个客户的贷款申请时,依据这些规则,可以根据该客户的年龄、职业、月薪等属性,来预测其信用等级,以确定是否提供贷款给该用户。这里的信用等级分析模型,就可以是一棵决策树。在这个案例中,研究的重点是“信用等级”这个属性。给定一个信用等级未知的客户,要根据他/她的其他属性来估计“信用等级”的值是“优”、“良”还是“差”,也就是说,要把这客户划分到信用等级为“优”、“良”、“差”这3个类别的某一类别中去。这里把“信用等级”这个属性称为“类标号属性”。数据集D中“信用等级”属性的全部取值就构成了类别集合:Class={“优”,

决策树归纳的理论介绍_光环大数据培训

https://www.doczj.com/doc/d58192317.html, 决策树归纳的理论介绍_光环大数据培训 光环大数据培训机构了解到,什么是分类? 银行贷款员需要分析数据,以便搞清楚哪些贷款申请者是“安全”那些是“有风险”的。销售经理需要数据分析,以便帮助他猜测哪些顾客会购买计算机。再或者医学研究人员需要分析乳腺癌数据,以便预测病人应当接受三种治疗中的哪一种。在上面的例子中,数据分析任务都是分类,都需要构造一个模型来预测一个类别型数据。譬如安全或者不安全、会购买与不会购买、那种治疗都是类别型。分类是一种重要的数据分析形式,它提取刻画重要数据类的模型,用来预测(离散的、无序的)类标号。 决策树是一种类似于流程图的树结构,其中,每个内部节点(非树叶节点)表示在一个属性上的测试,每个分支代表该测试的一个输出,而每个树叶节点(或终端节点)存放一个类标号。树的最顶层节点是根节点。 比如我们想要决定要不要给一个用户贷款,第一个分裂准则可以定义为age 年龄,年龄底下有三个分枝,Youth,middle_aged和Senior。年轻人中再以是否为大学生作为一个分裂节点,如果是学生就给贷款,yes就是这条枝子上的叶子节点,也就是最后的类标号。 数据分类过程:a) 学习,及建立树的阶段。用分类算法分析训练数据,学

https://www.doczj.com/doc/d58192317.html, 习的模型以分类规则(Splitting criterian)或者叫属性选择度量形式提供; b) 分类。检验数据用于评估分类规则的准确率,如果准确率是可以接受的,则规则用于新的数据元组分类。 属性选择度量是一种选择分裂标准,把给定类标记的训练元组的数据分区D “最好地”划分成单独类的启发方式,比如量——信息增益、增益率和基尼指数。 1、用信息增益进行决策树归纳 看不懂公式可以直接看下面例子 该度量基于Claude Shannon在研究消息的值或“信息内容”的信息论方面的先驱工作。设计节点N代表或存放分区D的元组。选择具有最高信息增益的属性作为节点N的分裂属性。该属性使结果分区中对元组分类所需要的信息量最小,并反映这些分区中的最小随机性或“不纯性”。这种方法使得对一个对象的分类所需要的期望测试数目最小,并确保找到一颗简单的(但不必是最简单的)树。 现在我们假设要按某属性A划分D中的元组,其中属性A根据训练数据的观测具有v个不同的值{a1,a2, …, av}。理想情况下我们希望该划分产生的元组的准确分类,即我们希望每个分区都是纯的。然而这些分区多半是不纯的(例如,分区可能包含来自不同类而不是来自单个类的元组)。为了得到准确的分类,我们需要下式度量:

决策树习题练习(答案)

决策树习题练习答案 1.某投资者预投资兴建一工厂,建设方案有两种:①大规模投资300万元;②小规模投资160万元。两个方案的生产期均为10年,其每年的损益值及销售状态的规律见表15。试用决策树法选择最优方案。 【解】(1)绘制决策树,见图1; (2)计算各状态点的期望收益值 节点②:[] 10300340()???-=1000.7+(-20)0.3万元 节点③:[]10160320()???-=600.7+200.3万元 将各状态点的期望收益值标在圆圈上方。 (3)决策 比较节点②与节点③的期望收益值可知,大规模投资方案优于小规模投资方案,故应选择大规模投资方案,用符号“//”在决策树上“剪去”被淘汰的方案。 表1 各年损益值及销售状态

2.某项目有两个备选方案A和B,两个方案的寿命期均为10年,生产的产品也完全相同,但投资额及年净收益均不相同。A方案的投资额为500万元,其年净收益在产品销售好时为150万元,,销售差时为50万元;B方案的投资额为300万元,其年净收益在产品销路好时为100万元,销路差时为10万元,根据市场预测,在项目寿命期内,产品销路好时的可能性为70%,销路差的可能性为30%,试根据以上资料对方案进行比选。已知标准折现率i c=10%。 【解】(1)首先画出决策树 此题中有一个决策点,两个备用方案,每个方案又面临着两种状态,因此可以画出其决策树如图18。 (2)然后计算各个机会点的期望值 机会点②的期望值=150(P/A,10%,10)×0.7+(-50)(P/A,10%,10)×0.3=533(万元) 机会点③的期望值=100(P/A,10%,10)×0.7+10(P/A,10%,10)×0.3=448.5(万元) 最后计算各个备选方案净现值的期望值。 方案A的净现值的期望值=533-500=33(万元)方案B的净现值的期望值=448.5-300=148.5(万元)因此,应该优先选择方案B。 3.接习题1,为了适应市场的变化,投资者又提出了第三个方案,即先小规模投资160万元,生产3年后,如果销路差,则不再投资,继续生产7年;如果销路好,则再作决策是否再投资140万元扩建至大规模(总投资300万元),生产7年。前3年和后7年销售状态的概率见表16,大小规模投资的年损益值同习题58。试用决策树法选择最优方案。 表2 销售概率表

决策树练习题计算题

计算题 1.为生产甲产品,小行星公司设计了两个基本方案:一是建大工厂,二是建小工厂。如果销路好,3年以后考虑扩建。建大工厂需投资300万元,建小工厂需投资160万元,3年后扩建另需投资140万元。扩建后可使用7年,其年度损益值与大工厂相同。每种自然状态的预测概率及年度损益值如下表: 前 3 年 后 7 年

根据上述资料试用决策树法做出决策。 2、计算题(15分)

答:建大厂收益=581-300=281 建小厂收益=447-160=287 所以应选择建小厂方案。 3.山姆公司的生产设备已经落后,需要马上更新。公司有人认为,目前产品销路增长,应在更新设备的同时扩大再生产的规模。但也有人认为,市场形势尚难判断,不如先更新设备,3年后再根据形势变化考虑扩大再生产的规模问题。这样,该公司就面临着两个决策方案。决策分析的有关资料如下: A、现在更新设备,需投资35万元, 3年后扩大生产规模,另需投资40万元。 B、现在更新设备的同时扩大再生产的规模,需投资60万元。 C、现在只更新设备,在销售情况良好时,每年可获利6万元;在销售情况不好时,每年可获利4、5万元。 D、如果现在更新与扩产同时进行,若销售情况好,

前3年每年可获利12万元;后7年每年可获利15万元;若销售情况不好,每年只获利3万元。 E、每种自然状态的预测概率如下表 前 3 年 后 7 年 根据上述资料试用决策树法做出决策。

答案:

结点7收益值=0、85×7 × 15+0、15 ×7 ×3=92、4(万元) 结点8收益值=0、85×7 ×6+0、15 ×7 ×4、5=40、4(万元) 结点9收益值=0、1×7 × 15+0、9 ×7 ×3=29、4(万元) 结点10收益值=0、1×7 × 6+0、9 ×7 ×4、5=32、6(万元) 结点1收益值=0、7×[52、4+(3 × 6)]+0、3 ×[32、6+(3 × 4、5)]=63、1(万元) 结点2收益值=0、7×[92、4+(3 × 12)]+0、3 ×[29、4+(3 × 3)]=101、4(万元) 答:用决策树法进行决策应选择更新扩产方案,可获得收益41、4万元。 4. 某厂准备生产Y种新产品,对未来的销售前景预测不准,可能出现高需求、中需求、低需求三种自然状态。组织有三个方案可供选择:新建一个车间;扩建原有车间; 对原有车间的生产线进行局部改造。三个方案在5年内的经济效益见下表(单位:万元): 0 1 请分别用悲观决策法、乐观决策法、最

流程图 决策表 决策树习题及答案

1、已知产品出库管理的过程是:仓库管理员将提货人员的零售出库单上的数据登记到零售出库流水账上,并每天将零售出库流水账上当天按产品名称、规格分别累计的数据记入库存账台。请根据出库管理的过程画出它的业务流图。 产品出库管理业务流图 2、设产品出库量的计算方法是:当库存量大于等于提货量时,以提货量作为出库量;当库存量小于提货量而大于等于提货量的10%时,以实际库存量作为出库量;当库存量小于提货量的10%时,出库量为0(即提货不成功)。请表示出库量计算的决策树。 3、有一工资处理系统,每月根据职工应发的工资计算个人收入所得税,交税额算法如下: 若职工月收入=<800元,不交税; 若800职工<职工月收入=<1300元,则交超过800元工资额的5%;

若超过1300元,则交800到1300元的5%和超过1300元部分 的10%。 试画出计算所得税的决策树和决策表。 1、解:(1)决策树 设X为职工工资,Y为职工应缴税额。 X<=800 ——Y=0 某工资处理系统8001300 ——Y=(1300-800)*5%+(X-1300)*10% (2)决策表 4、某货运站的收费标准如下: (1) 收费地点在本省,则快件每公斤6元,慢件每公斤4元; (2) 收费地点在外省,则在25公斤以内(含25公斤)快件每公斤8 元,慢件每公斤6元;如果超过25公斤时,快件每公斤10元,慢件 每公斤8元 试根据上述要求,绘制确定收费标准的决策表,并配以简要文字说明。 答:在货运收费标准中牵涉条件的有:本省、外省之分,有快、慢件之分,对于外省运件以25公斤为分界线,故货运站收费标准决策表的条件有三个,执行的价格有四档:4元/公斤、6元/公斤、8元/公斤、10元/公斤,从而可得某货运站的收费标准执行判断表如下表格所示。 收费标准判断表

决策树决策表练习

1、某运输公司收取运费的标准如下: ①本地客户每吨5元。 ②外地客户货物重量W在100吨以(含),每吨8元。 ③外地客户货物100吨以上时,距离L在500公里以(含)超过部分每吨增加7元,距离500公里以上时,超过部分每吨再增加10元。 试画出决策树、决策表,反映运费策略。 2、邮寄包裹收费标准如下: 若收件地点在1000公里以,普通件每公斤2元,挂号件每公斤3元;若收件地点在1000公里以外,普通件每公斤2.5元,挂号件每公斤3.5元,若重量大于30公斤,超重部分每公斤加收0.5元。绘制收费标准的决策树和决策表(重量用W表示)。 3、某工厂对一部分职工重新分配工作,其原则如下: 年龄不满20岁,文化程度为小学脱产学习,文化程度是中学的为电工。年龄满20岁但不足50岁,文化程度为小学或中学,男性为钳工,女性为车工;文化程度是大学的为技术员。年龄满50岁及50岁以上,文化程度是小学或中学的为材料员;文化程度是大学的为技术员。请画出处理职工分配政策(以文化程度为基准)的决策表、决策树。

4、某学校对教职工拟定奖励策略如下:(1)高级职称且教学评估优秀的奖励1000元,教学效果评估合格的奖励800元;(2)中级职称且教学评估优秀的奖励800元,教学效果评估合格的奖励500元;(3)初级职称且教学评估优秀的奖励500元。要求画出奖励策略的决策树。 5、某用电量计费系统记费如下:如果按固定价格方法记帐,对耗电量小于100度(不包含100度)的情况,按每月最低费用收费。超过100度时,就按A类计费办法收费。如果按可变价格方法记帐,则对100度以下(不包含100度)耗电量,按A类计费办法收费,超过100度时按B类计费办法收费。画出上述说明的决策树。 6、某金融部门的贷款发放最高限额问题描述如下: 对于固定资产超过500万元(含500万元)的企业:·如果无不良还款记录,低于3年期(含3年)的贷款最高限额为100万元; ·如果有不良还款记录,低于3年期(含3年)的贷款最高限额为50万元。 对于固定资产低于500万元的企业: ·如果无不良还款记录,低于3年期(含3年)的贷款最高限额为60万元;

决策树例题例题

决策树问题 问题类型:录音讲座 某房地产开发公司对某一地块有两种开发方案。 A方案:一次性开发多层住宅45000m2建筑面积,需投入总成本费用(包括前期开发成本、施工建造成本和销售成本,下同)9000万元,开发时间(包括建造、销售时间,下同)为18个月. B方案:将该地块分成东、西两区分两期开发。一期在东区先开发高层住宅36000m2,建筑面积,需投入总成本费用8100万元,开发时间为15个月。二期开发时,如果一期销路好,且预计二期销售率可达100%(售价和销量同一期),则在西区继续投入总成本费用8100万元开发高层住宅36000m2建筑面积;如果一期销路差,或暂停开发,或在西区改为开发多层住宅22000m2建筑面积,需投入总成本费用4600万元,开发时间为15个月。 两方案销路好和销路差时的售价和销量情况汇总于表2.1。 根据经验,多层住宅销路好的概率为0.7,高层住宅销路好的概率为0.6。暂停开发每季损失10万元。季利率为2%。 表2.1 表2.2 问题: 1.两方案销路好和销路差情况下分期计算季平均销售收入各为多少万元?(假定销售收入在开发时间内均摊) 2.绘制两级决策的决策树。 3.试决定采用哪个方案。 注:计算结果保留两位小数。 答案:

问题1 计算季平均销售收入: A方案开发多层住宅: 销路好:4.5x4800x100%÷6=3600(万元) 销路差:4.5x4300x80%÷6:2580(万元) B方案一期: 开发高层住宅:销路好:3.6x5500x100%÷5=3960(万元) 销路差:3.6x5000X70%÷5:2520(万元) B方案二期: 开发高层住宅:3.6~5500x100%÷5=3960(万元) 开发多层住宅:销路好:2.2x4800x100%÷5=2112(万元) 销路差:2.2x4300x80%÷5=1513.6(万元) [问题2]画两级决策树:

(完整word版)项目管理实战利器之八——决策树分析和EMV

项目管理实战利器之八——决策树分析和EMV 作者: 楼政 一、决策者的工具包 “决策就是从多种方案中选择一个行动方针的认知过程。每一个决策过程都会产生一个最终选择。”这是在维基百科所阐述的。但它没有说的是,有些决策必须为未来发生的结果而做出。有数种工具可以用来帮助做出复杂的决策,即决策树分析和预期货币价值。 二、预期货币价值(EMV,Expected Monetary Value) EMV是一种对概率和各种可能情景影响所做的平衡。以下两种方案,哪一种会提供更大的潜在收益呢? 方案1 最好的情景(Best case):盈利$180,000的概率为20%。 BC=20%*$180,000=$3 6,000 最坏的情景(Worst case):损失- $20,000的概率为 15%。 WC= 15%*(- $ 20,000)=-$3,000 最可能的情景(Most likely case):盈利$75,000元 的概率为65%。 MLC= 65%*$75,000 = $48,750 Total EMV = BC+WC+MLC = $36,000+(-$3,000)+$48,750=$81,750 方案2 最好的情景(Best case):盈利$200,000的概率为15%。BC=15%*$200,000=$30,00 最坏的情景(Worst case):盈利$15,000的概率为25%。WC= 25%*$15,000 = $ 3,750 最可能的情景(Most likely case):盈利$45,000元的概 率为60%。 MLC= 60%*$ 45,000 = $ 27,000 Total EMV = BC+WC+MLC = $30,000+$3,750+$27,000=$60,750 你选择哪种方案?当然选方案一,因为它具有更高的EMV为$81,750。 三、决策树分析(Decision Tree Analysis) 在决策树分析中,一个问题被描述为一个图表,这个图表显示了所有可能行动、事件和回报(成果),在一段时期内不同的时间点对上述内容必须作出的选择。 制造业的一个实例

管理信息系统应用题-流程图-决策树-等。

管理信息系统应用题 1.请根据以下订货业务处理过程画出管理业务流程图: 采购员从仓库收到缺货通知单后,查阅订货合同单,若已订货,则向供货单位发出催货请求;否则填写订货单送供货单位;供货单位发出货物后,立即向采购员发出取货通知单。 解: 订货业务处理流程图

2.请将下列决策处理过程用以决策树及决策表表示出来。 铁路货运收费标准如下: (1)若收货地点在本省以内,快件每公斤5元,慢件每公斤3元。 (2)若收货地点在外省,且重量小于或等于20公斤,快件每公斤7元,慢件每公斤5元;反之,若重量大于20公斤,超重部分每公斤加收1.5元。 解:决策树如下: 决策表如下:

3. 用图书、作者两个实体及其属性和联系构建E -R 图,并转化为关系数据模型。 答:E -R 图如下: 转换成的关系数据模型如下: 图书(ISBN ,书名,出版社,价格) 作者(身份证号,姓名,出生地) 写作(ISBN ,身份证号,定稿时间) 4. 试根据以下储蓄所取款过程画出数据流程图:储户将填好的取款单及存折交储蓄所,经查对存款账,将不合格的存折和取款单退回储户,合格的存折和取款单被送交取款处理,处理时要修改存款账户和现金账,处理的结果是将存折、利息单和现金交储户,同时将取款单存档。 图书 作者 写作 出版社 ISBN 书名 姓名 出生地 身份证号 定稿时间 价格 N M

5.某企业负责处理订货单的部门每天能收到 40 份左右的来自顾客的订货单,订货单上的项目包括订货单编号、顾客编号、产品编号、数量、订货日期、交货日期等。假定这些订单由:“订货单处理”处理逻辑进行处理。试根据这一业务情况写出数据字典中的“订货单”数据流定义。 数据流名称:订货单 编号DFO01 简述:顾客送来的订货单 数据流来源:“顾客”外部实体 数据流去向:“订货单处理”处理逻辑 数据流组成:订货单编号 + 顾客编号 + 产品编号 + 数量 + 订货日期 +交货日期 流通量:40份左右/天 6.试根据下述情况制出表格分配图。 采购部门准备的采购单为一式四份:第 1 张送供货方;第 2 张送交收货部门,用于登入待收货登记册;第 3 张交会计部门作应付款处理,记入应付账;第 4 张留在采购部门备查。 采购部门财会部门

机器学习--决策树(ID3)算法及案例

机器学习--决策树(ID3)算法及案例 1基本原理 决策树是一个预测模型。它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,每个分支路径代表某个可能的属性值,每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。一般情况下,决策树由决策结点、分支路径和叶结点组成。在选择哪个属性作为结点的时候,采用信息论原理,计算信息增益,获得最大信息增益的属性就是最好的选择。信息增益是指原有数据集的熵减去按某个属性分类后数据集的熵所得的差值。然后采用递归的原则处理数据集,并得到了我们需要的决策树。 2算法流程 检测数据集中的每个子项是否属于同一分类: If 是,则返回类别标签; Else 计算信息增益,寻找划分数据集的最好特征 划分数据数据集 创建分支节点(叶结点或决策结点) for 每个划分的子集 递归调用,并增加返回结果到分支节点中

return 分支结点 算法的基本思想可以概括为: 1)树以代表训练样本的根结点开始。 2)如果样本都在同一个类.则该结点成为树叶,并记录该类。 3)否则,算法选择最有分类能力的属性作为决策树的当前结点. 4 )根据当前决策结点属性取值的不同,将训练样本根据该属性的值分为若干子集,每个取值形成一个分枝,有几个取值形成几个分枝。匀针对上一步得到的一个子集,重复进行先前步骤,递归形成每个划分样本上的决策树。一旦一个属性只出现在一个结点上,就不必在该结点的任何后代考虑它,直接标记类别。 5)递归划分步骤仅当下列条件之一成立时停止: ①给定结点的所有样本属于同一类。 ②没有剩余属性可以用来进一步划分样本.在这种情况下.使用多数表决,将给定的结点转换成树叶,并以样本中元组个数最多的类别作为类别标记,同时也可以存放该结点样本的类别分布[这个主要可以用来剪枝]。 ③如果某一分枝tc,没有满足该分支中已有分类的样本,则以样本的多数类生成叶子节点。 算法中2)步所指的最优分类能力的属性。这个属性的选择是本算法种的关键点,分裂属性的选择直接关系到此算法的优劣。 一般来说可以用比较信息增益和信息增益率的方式来进行。 其中信息增益的概念又会牵扯出熵的概念。熵的概念是香农在研究信息量方面的提出的。它的计算公式是: Info(D)=-p1log(p1)/log(2.0)-p2log(p2)/log(2.0)-p3log(p3)/log(2.0)+...-pNlog(pN) /log(2.0) (其中N表示所有的不同类别)

(精选)管理学决策树习题及答案

注意答卷要求: 1.统一代号:P 为利润,C 为成本,Q 为收入,EP 为期望利润 2.画决策树时一定按照标准的决策树图形画,不要自创图形 3.决策点和状态点做好数字编号 4.决策树上要标出损益值 某企业似开发新产品,现在有两个可行性方案需要决策。 I 开发新产品A ,需要追加投资180万元,经营期限为5年。此间,产品销路好可获利170万元;销路一般可获利90万元;销路差可获利-6万元。三种情况的概率分别为30%,50%,20%。 II.开发新产品B ,需要追加投资60万元,经营期限为4年。此间,产品销路好可获利100万元;销路一般可获利50万元;销路差可获利20万元。三种情况的概率分别为60%,30%,10%。 (1)画出决策树 销路好 0.3 170 90 -6 100 50 20

(2)计算各点的期望值,并做出最优决策 求出各方案的期望值: 方案A=170×0.3×5+90×0.5×5+(-6)×0.2×5=770(万元) 方案B=100×0.6×4+50×0.3×4+20×0.1×4=308(万元) 求出各方案的净收益值: 方案A=770-180=590(万元) 方案B=308-60=248(万元) 因为590大于248大于0 所以方案A最优。 某企业为提高其产品在市场上的竞争力,现拟定三种改革方案:(1)公司组织技术人员逐渐改进技术,使用期是10年;(2)购买先进技术,这样前期投入相对较大,使用期是10年;(3)前四年先组织技术人员逐渐改进,四年后再决定是否需要购买先进技术,四年后买入技术相对第一年便宜一些,收益与前四年一样。预计该种产品前四年畅销的概率为0.7,滞销的概率为0.3。如果前四年畅销,后六年畅销的概率为0.9;若前四年滞销,后六年滞销的概率为0.1。相关的收益数据如表所示。 (1)画出决策树 (2)计算各点的期望值,并做出最优决策 投资收益 表单位:万元 解(1)画出决策树,R为总决策,R1为二级决策。

决策树练习题

决策树作业题 公司拟建一预制构件厂,一个方案是建大厂,需投资300万元,建成后如销路好每年可获利100万元,如销路差,每年要亏损20万元,该方案的使用期均为10年;另一个方案是建小厂,需投资170万元,建成后如销路好,每年可获利40万元,如销路差每年可获利30万元;若建小厂,则考虑在销路好的情况下三年以后再扩建,扩建投资130万元,可使用七年,每年盈利85万元。假设前3年销路好的概率是0.7,销路差的概率是0.3,后7年的销路情况完全取决于前3年;为了适应市场的变化,投资者又提出了第三个方案,即先小规模投资160万元,生产3年后,如果销路差,则不再投资,继续生产7年;如果销路好,则再作决策是否再投资140万元扩建至大规模(总投资300万元),生产7年。前3年和后7年销售状态的概率见表16,大小规模投资的年损益值同习题58。试用决策树法选择最优方案。 表16 销售概率表 决策树例题 1.某投资者预投资兴建一工厂,建设方案有两种:①大规模投资300万元;②小规模投资160万元。两 个方案的生产期均为10年,其每年的损益值及销售状态的规律见下表。试用决策树法选择最优方案。

(2)计算各状态点的期望收益值 节点②:[100*0.7+(-20)*0.3]*10-300=340; 节点③:[60*0.7+20*0.3]*10-160=320; 将各状态点的期望收益值标在圆圈上方。 (3)决策 比较节点②与节点③的期望收益值可知,大规模投资方案优于小规模投资方案,故应选择大规模投资方案,用符号“//”在决策树上“剪去”被淘汰的方案。 2.某项目有两个备选方案A和B,两个方案的寿命期均为10年,生产的产品也完全相同,但投资额 及年净收益均不相同。A方案的投资额度为500万元,其年净收益在产品销售好时为150万元,销售差时为50万元;B方案的投资额度为300万元,其年净收益在产品销售好时为100万元,销售差时为10万元,根据市场预测,在项目寿命期内,产品销路好时的可能性为70%,销路差的可能性为30%,试根据以上资料对方案进行比较。

相关主题
文本预览
相关文档 最新文档