G(A a ) I( is 1 ,n s 2 ,.s m .) .E ,(A )
具有高信息增益的属性,是给定集合中具有高区分度 的属性。所以可以通过计算S中样本的每个属性的信 息增益,来得到一个属性的相关性的排序。
age youth youth middle_aged senior senior senior middle_aged youth youth senior youth middle_aged middle_aged senior
buys_computer = “yes” IF age = “senior” AND credit_rating = “fair” THEN buys_computer =
“no”
可伸缩性与决策归纳树
分类挖掘是一个在统计学和机器学习的领域也 被广为研究的问题,并提出了很多算法,但是 这些算法都是内存驻留的
分类和预测
分类 VS. 预测
分类和预测是两种数据分析形式,用于提取描 述重要数据类或预测未来的数据趋势 的模型
分类:
预测类对象的分类标号(或离散值) 根据训练数据集和类标号属性,构建模型来分类现有数据
,并用来分类新数据
预测:
建立连续函数值模型 比如预测空缺值,或者预测顾客在计算机设备上的花费
4. 对测试属性每个已知的值,创建一个分支, 并以此划分元组
5. 算法使用同样的过程,递归的形成每个划分 上的元组决策树。一旦一个属性出现在一个 节点上,就不在该节点的任何子节点上出现
6. 递归划分步骤停止的条件
划分D(在N节点提供)的所有元组属于同一类 没有剩余属性可以用来进一步划分元组——使用多数表决 没有剩余的样本 给定分支没有元组,则以D中多数类创建一个树叶