分类与回归树

  • 格式:pptx
  • 大小:721.79 KB
  • 文档页数:9

下载文档原格式

  / 9
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

3
分类与回归树(CART) CART)
找出起始的分隔: 找出起始的分隔 最好的分隔变量是能够降低一个数据组的 分散度,而且降得最多。换言之,我们希望以 下这个式子最大化:
分散度(分隔前)-﹝分散度( 分散度(分隔前)-﹝分散度(分隔后左边子集 )- 合)+分散度(分隔后右边子集合)﹞ )+分散度(分隔后右边子集合) 分散度
8
分类与回归树(CART) CART)Hale Waihona Puke Baidu
将代价列入考虑 :
我们讨论至此,只使用错误率作为评估一个分支树良莠的依据。然而, 在许多应用上,错误分类的代价依数据类别不同而有异。 当然在医疗诊断上,一个错误的阴性诊断(negative)也许会比错误的阳 性诊断(positive)伤害更大。在进行癌症抹片检查时,误诊为性也许只会带 来更多的检查,但误诊为阴性却可能让病情恶化。我们可以把问题列入考虑, 以一个使用加权方式将错误分类的机率加倍的代价函数,来取代错误率。
2
分类与回归树(CART) CART)
找出起始的分隔: 找出起始的分隔 用来评估一个分隔数的衡量标准是分散度 (diversity)。对于一组数据的『分散度指标』 (index of diversity)有多种计算方式。不论哪 一种,分散度指标很高,表示这个组合中包含 平均分配到多个类别,而分散度指标很低则表 示一个单一类别的成员居优势。
判定树基本观念
1
分类与回归树(CART) CART)
分类与回归树 (Classification And Regression Trees,CART) CART算法是建构判定树 时最常用的算法之一。自 从1984年布里曼(L. Brieman)与其同僚发表 这种方法以来,就一直机 械学习实验的要素。
9
三分种分散度衡量法: 三分种分散度衡量法: • min{P(c1), P(c2) } • 2P(c1)P(c2 ) •〔P(c1)logP (c1)〕+〔P(c2)logP (c2)〕
4
分类与回归树(CART) CART)
计算每个节点的错误率: 计算每个节点的错误率: 每一个叶部如今都分配到一个类别以及一个 错误率。回顾前图,图中选取了从根部到标示为 『女性』的叶部路径。该节点是一个叶部节点, 表示找不到任何分隔变量可以显著的降低其分散 性。然而,这并不表示所有祗达这个叶部的资料 都属于同一类。使用简单机率的定义,我们可以 看到11个叶部中有9个是正确分类。这告诉我们, 以这个训练组而言,抵达这个节点的资料是女性 的机率为0.818。相对的,这个叶部的错误率10.818就是0.812。
5
分类与回归树(CART) CART)
计算整个判定树的错误率: 计算整个判定树的错误率: 整个判定树的错误率是所有叶部错误率的加 权总数。每一个叶部的错误率乘上数据抵达叶部 的机率(分配到资料的比例),加起来的总数就是 整个判定树的错误率。
6
分类与回归树(CART) CART)
7
分类与回归树(CART) CART)