决策树实例计算
- 格式:doc
- 大小:389.00 KB
- 文档页数:14
决策树算法介绍(DOC)3.1 分类与决策树概述3.1.1 分类与预测分类是⼀种应⽤⾮常⼴泛的数据挖掘技术,应⽤的例⼦也很多。
例如,根据信⽤卡⽀付历史记录,来判断具备哪些特征的⽤户往往具有良好的信⽤;根据某种病症的诊断记录,来分析哪些药物组合可以带来良好的治疗效果。
这些过程的⼀个共同特点是:根据数据的某些属性,来估计⼀个特定属性的值。
例如在信⽤分析案例中,根据⽤户的“年龄”、“性别”、“收⼊⽔平”、“职业”等属性的值,来估计该⽤户“信⽤度”属性的值应该取“好”还是“差”,在这个例⼦中,所研究的属性“信⽤度”是⼀个离散属性,它的取值是⼀个类别值,这种问题在数据挖掘中被称为分类。
还有⼀种问题,例如根据股市交易的历史数据估计下⼀个交易⽇的⼤盘指数,这⾥所研究的属性“⼤盘指数”是⼀个连续属性,它的取值是⼀个实数。
那么这种问题在数据挖掘中被称为预测。
总之,当估计的属性值是离散值时,这就是分类;当估计的属性值是连续值时,这就是预测。
3.1.2 决策树的基本原理1.构建决策树通过⼀个实际的例⼦,来了解⼀些与决策树有关的基本概念。
表3-1是⼀个数据库表,记载着某银⾏的客户信⽤记录,属性包括“姓名”、“年龄”、“职业”、“⽉薪”、......、“信⽤等级”,每⼀⾏是⼀个客户样本,每⼀列是⼀个属性(字段)。
这⾥把这个表记做数据集D。
银⾏需要解决的问题是,根据数据集D,建⽴⼀个信⽤等级分析模型,并根据这个模型,产⽣⼀系列规则。
当银⾏在未来的某个时刻收到某个客户的贷款申请时,依据这些规则,可以根据该客户的年龄、职业、⽉薪等属性,来预测其信⽤等级,以确定是否提供贷款给该⽤户。
这⾥的信⽤等级分析模型,就可以是⼀棵决策树。
在这个案例中,研究的重点是“信⽤等级”这个属性。
给定⼀个信⽤等级未知的客户,要根据他/她的其他属性来估计“信⽤等级”的值是“优”、“良”还是“差”,也就是说,要把这客户划分到信⽤等级为“优”、“良”、“差”这3个类别的某⼀类别中去。
计算题一1.为生产甲产品,小行星公司设计了两个基本方案:一是建大工厂,二是建小工厂。
如果销路好3年以后考虑扩建。
建大工厂需投资300万元,建小工厂需投资160万元,3年后扩建另需投资140万元扩建后可使用7年,其年度损益值与大工厂相同。
每种自然状态的预测概率及年度损益值如下表:四、计算题(15分)精品文档就在这里各类专业好文档,值得你下载,教育,管理,论文,制度,方案手册,应有尽有581-300=281581大厂287-160447-160=2870、3扩-140不扩2590、970 90、1X 10X 71X 10X 7=701=3X 0、7X 100+616X0、7+3X 0、3X(-20)+0、3X(-140)2=3X 0、7X 40+476X0、7+3X 0、3X 10+0.3X 70=447答:建大厂收益=581-300=281建小厂收益=447-160=287 所以应选择建小厂方案。
山姆公司的生产设备已经落后,需要马上更新。
公司有人认为,目前产品销路增长,应在更新设备的同时扩大再生产的规模。
但也有人认为,市场形势尚难判断,不如先更新设备,3年后再根据形势变化考虑扩大再生产的规模问题。
这样,该公司就面临着两个决策方案。
决策分析的有关资料如下: A 、现在更新设备,需投资35万元,3年后扩大生产规模,另需投资40万元。
B 、现在更新设备的同时扩大再生产的规模,需投资60万元。
0、0、70、I X(-20)X 71、0l X 7X(-20)二1400、1476°、90、9X 100X 76160、9..0、9X 100X 7 \小厂-300616 -1400、70、3 447 0、10、1X(-20)X 70、9X 40X 7-C、现在只更新设备,在销售情况良好时,每年可获利6万元;在销售情况不好时,每年可获利4、5万元。
D、如果现在更新与扩产同时进行,若销售情况好,前3年每年可获利12万元;后7年每年可获利15万元;若销售情况不好,每年只获利3万元。
决策树例题经典案例决策树是一种常用的机器学习算法,它能够通过构建一棵树来对数据进行分类或者回归预测。
决策树通过对每个样本的特征进行划分,从而逐步构建树结构,最终得到一棵用于分类或者回归的决策树。
下面我们来看一个经典的决策树例题。
假设我们有一个数据集,包含了一些二分类问题的样本,每个样本有两个特征,特征1表示是否有房产(是/否),特征2表示是否有工作(是/否)。
我们的目标是通过这两个特征来预测样本的类别(是/否)。
我们可以根据这个问题构建一个决策树。
首先,我们需要选择一个特征来进行划分。
通常我们选择的划分特征是能够最大程度地将样本分开的特征。
在这个例子中,我们可以选择特征1作为划分特征。
然后,我们将特征1的取值分别为“是”和“否”的样本分成两个子集。
对于特征1取值为“是”的样本,我们可以看到它们的类别都为“是”,所以我们可以将其划分为一个叶子节点,并且将类别设为“是”。
对于特征1取值为“否”的样本,我们需要选择另一个特征来划分。
同样地,我们选择特征2作为划分特征。
对于特征2取值为“是”的样本,我们可以看到它们的类别有一部分为“是”,一部分为“否”,所以我们还需要继续划分。
我们选择特征1作为再次划分的特征。
对于特征2取值为“否”的样本,我们可以看到它们的类别都为“否”,所以我们可以将其划分为一个叶子节点,并且将类别设为“否”。
对于特征2取值为“是”,特征1取值为“否”的样本,我们可以看到它们的类别全部为“否”,所以我们可以将其划分为一个叶子节点,并且将类别设为“否”。
最后,我们得到的决策树如下:特征1是|--- 类别:是特征1否|--- 特征2是| |--- 类别:是||--- 特征2否|--- 类别:否通过这个决策树,我们可以根据样本的特征值来进行预测。
例如,对于一个样本,特征1为“是”,特征2为“否”,按照决策树的规则,我们可以预测该样本的类别为“否”。
决策树是一种直观、易于解释的机器学习算法,它能够根据数据集的特征进行分类或者预测,对于解决一些简单的二分类问题非常有效。
决策树算法例题
一、决策树基本概念与原理
决策树是一种基于树结构的分类与回归模型。
它通过一系列的问题对数据进行划分,最终得到叶子节点对应的分类结果或预测值。
决策树的构建过程通常采用自上而下、递归划分的方法。
二、决策树算法实例解析
以一个简单的决策树为例,假设我们要预测一个人是否喜欢户外运动。
已知特征:性别、年龄、是否喜欢晒太阳。
可以通过以下决策树划分:
1.根据性别划分,男性为喜欢户外运动,女性为不喜欢户外运动。
2.若性别为男性,再根据年龄划分,年龄小于30分为喜欢户外运动,大于30分为不喜欢户外运动。
3.若性别为女性,无论年龄如何,均分为喜欢户外运动。
通过这个决策树,我们可以预测一个人是否喜欢户外运动。
三、决策树算法应用场景及优缺点
1.应用场景:分类问题、回归问题、关联规则挖掘等。
2.优点:易于理解、可解释性强、泛化能力较好。
3.缺点:容易过拟合、对噪声敏感、构建过程耗时较长。
四、实战演练:构建决策树解决实际问题
假设我们要预测房价,已知特征:面积、卧室数量、卫生间数量、距市中心距离。
可以通过构建决策树进行预测:
1.选择特征:根据相关性分析,选择距市中心距离作为最佳划分特征。
2.划分数据集:将数据集划分为训练集和测试集。
3.构建决策树:采用递归划分方法,自上而下构建决策树。
4.模型评估:使用测试集评估决策树模型的预测性能。
通过以上步骤,我们可以运用决策树算法解决实际问题。
决策树计算方法例题讲解决策树是一种常用的机器学习算法,用于分类和回归问题。
它通过构建一棵树形结构来进行决策,每个内部节点表示一个特征,每个叶子节点表示一个类别或一个数值。
下面我将通过一个具体的例题来详细讲解决策树的计算方法。
假设我们有一个数据集,其中包含了一些水果的特征(颜色、形状、纹理)以及对应的标签(是否为橙子)。
我们希望通过这些特征来构建一个决策树模型,能够根据水果的特征预测其是否为橙子。
首先,我们需要将数据集划分为训练集和测试集。
训练集用于构建决策树模型,测试集用于评估模型的性能。
1.特征选择在构建决策树之前,我们需要选择一个特征作为根节点。
常用的特征选择方法有信息增益、信息增益比、基尼指数等。
这里我们使用信息增益来选择特征。
信息增益衡量了在给定特征条件下,类别的不确定性减少的程度。
具体计算信息增益的步骤如下:-计算整个数据集的熵(entropy):-首先,统计每个类别的样本数量。
-然后,计算每个类别的概率,并求和。
-最后,根据概率计算整个数据集的熵。
-对于每个特征,计算其对应的信息增益:-首先,针对该特征的每个取值,将数据集划分为不同的子集。
-然后,计算每个子集的熵和权重,并求和。
-最后,用整个数据集的熵减去子集的熵和权重的乘积,得到信息增益。
选择具有最大信息增益的特征作为根节点。
2.构建决策树选择完根节点后,我们需要递归地构建决策树。
具体步骤如下:-对于每个内部节点,选择一个最佳的特征作为其子节点。
-将数据集根据该特征的不同取值划分为多个子集。
-对于每个子集,如果所有样本都属于同一类别,则将该子集设为叶子节点,并标记为该类别。
-否则,继续递归地构建决策树,直到满足停止条件(如达到预定深度或无法继续划分)。
3.决策树的剪枝构建完决策树后,我们需要进行剪枝操作,以避免过拟合现象。
剪枝可以通过预剪枝和后剪枝来实现。
-预剪枝:在构建决策树的过程中,在划分子集之前,先进行验证集的测试,如果测试结果不好,则停止划分,将当前节点设为叶子节点。
计算题一 1.为生产甲产品,小行星公司设计了两个基本方案:一是建大工厂,二是建小工厂。
如果销路好,3年以后考虑扩建。
建大工厂需投资300万元,建小工厂需投资160万元,3年后扩建另需投资140万元。
扩建后可使用7年,其年度损益值与大工厂相同。
每种自然状态的预测概率及年度损益值如下表:前 3 年后 7 年根据上述资料试用决策树法做出决策。
四、计算题(15分)答:建大厂收益=581-300=281建小厂收益=447-160=287所以应选择建小厂方案。
二山姆公司的生产设备已经落后,需要马上更新。
公司有人认为,目前产品销路增长,应在更新设备的同时扩大再生产的规模。
但也有人认为,市场形势尚难判断,不如先更新设备,3年后再根据形势变化考虑扩大再生产的规模问题。
这样,该公司就面临着两个决策方案。
决策分析的有关资料如下:A、现在更新设备,需投资35万元, 3年后扩大生产规模,另需投资40万元。
B、现在更新设备的同时扩大再生产的规模,需投资60万元。
C、现在只更新设备,在销售情况良好时,每年可获利6万元;在销售情况不好时,每年可获利4、5万元。
D、如果现在更新与扩产同时进行,若销售情况好,前3年每年可获利12万元;后7年每年可获利15万元;若销售情况不好,每年只获利3万元。
E、每种自然状态的预测概率如下表前 3 年后 7 年根据上述资料试用决策树法做出决策。
答案:结点7收益值=0、85×7 × 15+0、15 ×7 ×3=92、4(万元)结点8收益值=0、85×7 ×6+0、15 ×7 ×4、5=40、4(万元)结点9收益值=0、1×7 × 15+0、9 ×7 ×3=29、4(万元)结点10收益值=0、1×7 × 6+0、9 ×7 ×4、5=32、6(万元)结点1收益值=0、7×[52、4+(3 × 6)]+0、3 ×[32、6+(3 × 4、5)]=63、1(万元)结点2收益值=0、7×[92、4+(3 × 12)]+0、3 ×[29、4+(3 × 3)]=101、4(万元)答:用决策树法进行决策应选择更新扩产方案,可获得收益41、4万元。
三某厂准备生产Y种新产品,对未来的销售前景预测不准,可能出现高需求、中需求、低需求三种自然状态。
组织有三个方案可供选择:新建一个车间;扩建原有车间;对原有车间的生产线进行局部改造。
三个方案在5年内的经济效益见下表(单位:万元):0 1请分别用悲观决策法、乐观决策法、最大最小后悔决策法做出决策。
悲观决策法指当存在几种自然状态的情况下,宁可把情况估计得坏一些,从中选择一个收益最大的方案,决策稳妥可靠。
按此准则,在低需求的自然状态下,5年内新建方案亏损160万,扩建方案保本,改造方案获利80万。
改造方案最佳。
乐观决策法:新建E=(0、7X600)+(1-0、7)X(-160)=372(万元)扩建E=(0、7X400)+ (1-0、7)X0=280 (万元)改造E=(0、7X300)+ (1-0、7)X80=234 (万元)比较结果,新建方案最佳。
最大最小后悔决策,是用后悔值计算表进行计算的:后悔值计算表答:扩建方案的后悔值最小,即为最优方案。
四山姆公司生产丁种产品,现有三个方案供选择。
(1)建立新车间大量生产;(2)改造原有车间,达到中等产量;(3)利用原有设备,小批量生产。
市场对该产品的需求情况有如下四种可能:A、需求量很大;B、需求稍好;C、需求较差;D、需求量较小。
根据市场调查和市场预测,各个方案在四种可能需求情况下的利润(单位:元)如下页表所示:请分别用悲观决策法、乐观决策法(设定乐观系数为0、6)和最大最小后悔决策法进行决策。
答案悲观决策法指当存在几种自然状态的情况下,宁可把情况估计得坏一些,从中选择一个收益最大的方案,决策稳妥可靠。
按此准则,应选择方案(3)乐观决策法:(1)0、6X800,000+0、4X(-700,000)=200,000(2)0、6X550,000+0、4X(-240,000)=234,000(3)0、6X310,000+0、4X(-10,000)=182,000最大最小后悔决策法:根据计算乐观决策的结果应选择方案(2)五某公司为满足某地区对某一产品的需求设计了三个方案:第一个方案是新建一个大工厂,需投资320万元;第二个方案是新建一个小工厂,需投资140万元;第三方案是先投资140万元建造一个小工厂,三年以后,如果销路好再考虑扩建,扩建需追加投资200万元,收益与新建大工厂方案相同。
根据预测该产品在前三年销路好的概率为0.7,销路差的概率为0.3。
如果前三年销路好,后七年销路好的概率为0.9,销路差的概率为0.1;如果前三年的铺路差,则后七年的销路必定差。
每个方案的收益如下表所示。
试画出决策树图并做出方案决策。
1、画出决策树图2、计算出每个方案的综合损益期望值。
先算出⑤⑥⑦⑧⑨⑩的期望值:结点⑤= [0.9*160+0.1*(-40 )]*7 =980结点⑥=[1.0*(-40)]*7=-280结点⑦= [0.9 * 80+0.1 * 20]*7 =518结点⑧= (1.0*20)* 7 =140结点⑨= (1.0*20)* 7 =140⑼是决策点,先计算结点11、12的期望值,以确定该不该扩建结点11=[0.9 *160+0.1 * (-40 )]*7-200=780:结点12= [0.9 * 80+0.1 * 20]*7 =518舍去不扩建方案。
⑼=780。
求出三个方案的综合损益期望值。
结点② = [(0.7*160+0.3*(-40) ]*3+[0.7*980+O.3*(-280) ]-320=582(万元)结点③ =[(0.7*80+0.3*20) ]*3+[0.7*518+O.3*140]-140=450.6(万元)结点④=[(0.7*80+0.3*20) ]*3+[0.7*780+O.3*140 ]-140=634((万元)3、比较方案按照综合损益期望值的大小进行评价,则先建小工厂,后扩大工厂方案优于其他方案,可选为决策方案。
六1、某工厂生产的某种产品有三种技术可行方案:大批生产、中批生产和小批生产。
按照市场调查与预测,该产品未来在市场上销售状况(自然状态)可能有四种:很好、较好、较差和很差,但这四种状态发生的概率均不能事先知道。
预测各个可行性方案计划期内在各种自然状态下的损益情况如下表所示:某厂生产在各种自然状态下的损益表:试用最小最大后悔值法进行决策应采取那种方案。
1、(8分)最大最小后悔决策是通过后悔值计算表计算的。
后悔值计算表:通过后悔值计算Array表计算,最大后悔值中的最小后悔值是20,对应的方案是扩建方案,所以,最优方案是扩建方案。
答:用最大最小后悔决策法决策应当选择扩建方案。
2、(7分)根据公式固定成本C1X0 =单位售价P—单位变动成本C2600 000=300 — 150= 4000(双)答:该皮鞋的年保本产量(盈亏平衡点)应为 4000双。
七1 某企业计划生产某种产品,预计单位产品售价为800元,单位变动成本(如材料费、计件工资等)500元,年固定成本(设备折旧、企业管理费、广告费等)600000元,问该产品的年保本产量(盈亏平衡点)应为多少件?(7分)2 某企业准备生产一种新产品,未来的销售情况可能会有三种状态:畅销、稍好、滞销。
现有三种生产方案可供选择:大批生产、中批生产、小批生产,各种方案在各种销售状态下的收益值(万元)如下表:请用最大最小后悔值法,选择你的决策方案(8分)1、根据公式固定成本C1X0 =单位售价P —单位变动成本C2600 000=800 — 500= 2000(件)答:该产品的年保本产量(盈亏平衡点)应为2000件。
2、最大最小后悔决策是通过后悔值计算表计算的。
后悔值计算表:由表、决策方案为最大最小后悔值20所对应的方案是中批生产方案。
答:用最大最小后悔决策法决策应选择中批生产方案。
八1、乐天公司计划年度目标利润30万元,已知报告年度固定成本10万元,单位变动成本60元,销售单价80元,请确定该公司计划年度产量指标(件)?(7分)?2、华美莱公司准备生产甲种新产品,对未来3年市场预测资料如下:企业现在有两个方案可以选择:(1)新建一个新产品生产车间,投资需140万元;(2)扩建原有车间,投资需60万元。
两个方案在不同自然状态下的年收益如下表(单位:万元):根据上述资料试用决策树法做出决策。
(8分)1、(7分)已知:目标利润PZ=30万元;固定成本C1=10万元;单位变动成本C2=60元;销售单价P=80元解:实现目标利润销售额Y Z =(C1+PZ )/(1- C2/P )=(10+30)/(1-60/80)=160(万元) 该公司计划年度产量指标=1600000/80=20000(件) 答:该公司计划年度产量指标为20000件。
2、(8分)根据资料自然状态1=3[(0、3X170)+(0、5X90)]=288自然状态2=3[(0、3X100)+(0、5X50)+0、2X20)]=177答:用决策树法九1某企业准备生产一种新产品,未来的销售情况可能会有三种状态:畅销、平销、滞销。
现有三种生产方案可供选择:新建、扩建、改建,各种方案在各种销售状态下的收益值(万元)如下表:请用最大最小后悔值法,选择你的决策方案1、(8分)最大最小后悔决策是通过后悔值计算表计算的。
后悔值计算表:最大最小后悔值20所对应的方案是扩建方案。
答:运用最大最小后悔值法应选择扩建方案。
2、(7分)已知:目标利润PZ=640万元;固定成本C1=2000万元;单位变动成本C2=1.2万元;销售单价P=1.6万元求:该厂计划年度产量指标(台)?计划年度产量指标=(C1+PZ)/(1- C2/P)=(2000+640)/(1-1、2/1、6-)/1.6=6600(台)答:该厂计划年度产量指标为6600台。
十大华工厂的生产设备已经落后,需要马上更新。
公司有人认为,目前产品销路增长,应在更新设备的同时扩大再生产的规模。
但也有人认为,市场形势尚难判断,不如先更新设备,3年后再根据形势变化考虑扩大再生产的规模问题。
这样,该公司就面临着两个决策方案。
决策分析的有关资料如下:A、现在更新设备,需投资35万元, 3年后扩大生产规模,另需投资40万元。
B、现在更新设备的同时扩大再生产的规模,需投资60万元。
C、现在只更新设备,在销售情况良好时,每年可获利6万元;在销售情况不好时,每年可获利4、5万元。