- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
其中每个元组表示一个实例, 前面的数字为实例序号, 后面的字母为实例的决策项保险类别(下同)。另外, 为了简洁, 在下面的决策树中我们用“小”、“中”、 “大”分别代表“<21”、 “≥21且≤25”、 “> 25”这三个年龄段。
显然, S中各实例的保险类别取值不完全一样, 所以需 要将S分类。对于S, 我们按属性“性别”的不同取值将 其分类。 由表1可见, 这时S应被分类为两个子集:
机器学习
学习是人类获取知识的重要途径和自然智 能的重要标志,机器学习则是机器获取知 识的重要途径和人工智能的重要标志。
1
什么是机器学习
• 是寻找一种对自然/人工主题、现象或活动可预测
且/或可执行的机器理解方法
2
什么是机器学习
• 研究计算机怎样模拟或实现人类(动物)的学习行
为,以获取新的知识或技能
S1= {(3,C), (4,B), (7,C), (8,B), (11,B), (12,B)} S2={(1,C), (2,C), (5,A), (6,A), (9,A), (10,A)} 于是, 我们得到以性别作为根节点的部分决策树 (见图4(a))。
考察S1和S2,可以看出,在这两个子集中,各实 例的保险类别也不完全相同。这就是说,还需要对S1 和S2进行分类。对于子集S1,我们按“年龄段”将其 分类;同样,对于子集S2,也按“年龄段”对其进行 分类(注意:对于子集S2,也可按属性“婚状”分 类)。分别得到子集S11, S12, S13和S21, S22, S23。于 是,我们进一步得到含有两层节点的部分决策树(如
关系的对应结果,即决策。例如图1就是一棵决策树。其中,A, B, C代表属性,ai, bj, ck代表属性值,dl代表对应的决策。处 于同一层的属性(如图中的B, C)可能相同,也可能不相同, 所有叶子节点(如图中的dl ,l=1,2,…, 6)所表示的决策中
也可能有相同者。
由图1不难看出,一棵决策树上从根节点到每一个叶子节 点的分枝路径上的诸“属性-值”对和对应叶子节点的决策, 刚好就构成一个产生式规则:诸“属性-值”对的合取构成规 则的前提,叶子节点的决策就是规则的结论。例如,图1中从 根节点A到叶子节点d2的这一条分枝路径就构成规则:
决策树学习是一种归纳学习。由于一棵决策树就 表示了一组产生式规则, 因此决策树学习也是一种规 则学习。特别地, 当规则是某概念的判定规则时,这种 决策树学习也就是一种概念学习。
决策树学习的基本方法和步骤是:
首先,选取一个属性, 按这个属性的不同取值对实例 集进行分类; 并以该属性作为根节点,以这个属性的诸取 值作为根节点的分枝, 进行画树。
图4(b)所示)。
注意到,这时除了S12和S13外,其余子集中各实例的保 险类别已完全相同。所以,不需再对其进行分类,而每 一个子集中那个相同的保险类别值就可作为相应分枝的 叶子节点。添上这些叶子节点,我们又进一步得到发展 了的部分决策树(如图4(c)所示)。
接着对S12和S13,按属性“婚状”进行分类(也只能 按“婚状”进行分类)。由于所得子集S121, S121和S131, S132中再都只含有一个实例,因此无需对它们再进行分类。 这时这4个子集中各自唯一的保险类别值也就是相应分枝 的叶子节点。添上这两个叶子节点,就得到如图4(d)所 示的决策树。
然后,考察所得的每一个子类, 看其中的实例的结论 是否完全相同。如果完全相同, 则以这个相同的结论作 为相应分枝路径末端的叶子节点; 否则, 选取一个非父 节点的属性, 按这个属性的不同取值对该子集进行分类, 并以该属性作为节点, 以这个属性的诸取值作为节点的 分枝, 继续进行画树。 如此继续,直到所分的子集全都 满足: 实例结论完全相同, 而得到所有的叶子节点为止。 这样, 一棵决策树就被生成。下面我们进一步举例说明。
• 半监督学习
是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少 量的标注样本和大量的未标注样本进行训练和分类的问题。输入数据不可靠, 依据权重的调整进行训练。
• 强化学习
利用某一表示“奖/惩”的全局信号,衡量与强化输入相关的局部决策如 何。(输入\输出之间没有固定的函数)
5
监督学习
•决策树(简单
问题)
•人工神经网络
(大量样本)
•支持向量机
(小样本)
决策树学习
决策树学习
1.什么是决策树
决策树(decision tree)也称判定树,它是由对象的若干 属性、属性值和有关决策组成的一棵树。其中的节点为属性 (一般为语言变量),分枝为相应的属性值(一般为语言值)。 从同一节点出发的各个分枝之间是逻辑“或”关系;根节点为 对象的某一个属性;从根节点到每一个叶子节点的所有节点和 边,按顺序串连成一条分枝路径,位于同一条分枝路径上的各 个“属性-值”对之间是逻辑“与”关系,叶子节点为这个与
表1 汽车驾驶保险类别划分实例集
可以看出,该实例集中共有12个实例,实例中的性别、年 龄段和婚状为3个属性, 保险类别就是相应的决策项。 为表述方便起见, 我们将这个实例集简记为
S={(1,C), (2,C), (3,C), (4,B), (5,A), (6,A), (7,C), (8,B), (9,A), (10,A), (11,B), (12,B)}
(A= a1)∧(B = b2) => d2
而不同分枝路径所表示的 2 飞机起飞的简单决策树
例1 图3所示是一个描述“兔子”概念的决策树。 图 3 “兔子”概念的决策树
2. 怎样学习决策树
决策树是一种知识表示形式, 构造决策树可以由 人来完成, 但也可以由机器从一些实例中总结、归纳 出来, 即由机器学习而得。 机器学习决策树也就是所 说的决策树学习。
• 重新组织已有的知识结构使之不断改善自身的性能 • 是人工智能的核心,是使计算机具有智能的根本途径 • 其应用遍及人工智能的各个领域,它主要使用归纳、
综合而不是演绎
3
机器学习的一个形象描述
4
机器学习的一般泛型
• 监督学习
必须预先知道学习的期望结果,并依此按照某一学习规则来修正权值。知 道输入数据,知道结果,用函数预测个例 无监督学习,不知道结果,根据数据特征分类