数据挖掘课程报告

  • 格式:doc
  • 大小:88.55 KB
  • 文档页数:9

下载文档原格式

  / 9
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

绪论

数据挖掘是信息技术自然演化的结果,是指从大量数据中抽取挖掘出来隐含未知的、有价值的模式或规律等知识的复杂过程。

(1)数据是对客观事物记录下来的、可以鉴别的符号,这些符号不仅指数字,而且包括字符、文字、图形等等;数据经过处理仍然是数据。处理数据是为了便于更好地解释,只有经过解释,数据才有意义,才成为信息;可以说信息是经过加工以后、并对客观世界产生影响的数据。

(2)信息(1nformation) 是对客观世界各种事物的特征的反映,是关于客观事实的可通讯的知识。

(3)所谓知识,就是反映各种事物的信息进入人们大脑,对神经细胞产生作用后留下的痕迹。知识是由信息形成的。(4)在管理过程中,同一数据,每个人的解释可能不同,其对决策的影响可能不同。结果,决策者利用经过处理的数据做出决策,可能取得成功,也可能失败,这里的关键在于对数据的解释是否正确,即:是否正确地运用知识对数据做出解释,以得到准确的信息。

数据

(1)数据类型:

左边这张图中包含bool,string,int三种类型。

一个数据集中的所有数据对象都具有相同的数值属性集,则数据对象可以看作多维空间的点,每个维代

表描述对象的一个不同属性

行:对象

列:属性

(2)数据质量

(3)数据预处理

(4)相似度和相异度的度量

聚类和分类

在这里主要学习和应用了决策树的知识。

决策树的结构一棵决策树是这样一棵树,该树的每个非终端点均表示被考察数据项目的一个测试或决策。根据测试结果,选择某个分支。为了分类一个特定数据项目,我们从根结点开始,一直向下判定,直到到达一个终端结点(或叶子)为止。当到达一个终端结点时,一个决策树便形成了。决策树是运用于分类的一种类似于流程图的树结构[9]。其中的每个内部节点(internal node)代表对某个属性的一次测试,一条边代表一个测试结果,叶子(leaf)代表某个类(class)或者类的分布(class distribution)。最上面的节点是根结点。

这就是一颗简单的决策树。

决策树的特性:

决策树有很多的优点,是实际应用和学术研究领域最普遍采用的方法之一。主要特点有:

1.灵活性决策树不需要对数据的分布进行任何假设,它是非参数方法。事例空间被分成子空间,每一个子空间适用于不同的模型。一棵决策树能完全包含一个事例空间,如果有足够的数据,它能近似任意函数的最优贝叶斯错误率。

2.健壮性对单变量经过单调转换后的输入,单变量树的输出是不变的。例如,对x,log2x,或者作为第j个输入变量,会产生同样结构的树。因此没有必要考虑输入变量的转换式。另外由于对内部属性进行了选择,相对于有不相关输入变量的情况,而产生的树更加具有健壮性。

3.可解释性全面的和复杂的决策可以通过一系列简单和局部的决策近似取得。所有的决策都是用来描述该问题的属性值上的。决策树具有这两个特性,具有可理解性和可解释性,它们是决策树被广泛使用的原因。

4.速度决策树算法采用自上而下,分而治之,不需要回溯战略的一种贪婪算法。时间复杂是与例子的数目成线性关系的

同样,决策树也面对一些问题:

1.分块分块使得数据被分成较小的子集。假定每次分枝数据都分成相等大小的数目,那决策树所要测试的属性的复杂度不大于O(logn)。在有许多相关属性的情形下,这是理想的结果。

2.复制子树的复制指的是在不同的分枝复制相同的属性测试。由

于属性间存在相关性项性(一个结果可由多个条件决定),例如,布尔函数f=X1X2+X3X4中属性X1和X2,或者属性X3属性X4间不是相互独立的,而是存在相关性;另外该布尔函数有多个乘积项X1X2和X3X4。出现这种情况时,生成的决策树会有子树复制问题。复制现象导致决策树理解,同时还导致分块问题:当树很大时,会造成数据集的划分越来越小,从而性能越差。

3.缺值决策树是一种层次测试方法,如果某个属性值未知的话,就会难以决定下一步分枝,因此必须使用特殊的机制来处理缺值的问题。4.连续属性决策树算法的瓶颈是对连续属性的处理。在这种情况下,要在每一个节点对每一个属性进行一系列的操作。有学者认为处理许多的连续属性的操作占决策树构造过程70%的时间。5.不稳定性训练集的小的变化能引起最终的树发生很大的变化。在每一个节点,分枝度量准则对属性进行排列并选择最好的属性进行排序。如果有两个以上的属性具有相同的排序值,则训练集数据的小的变化就能改变排序,该节点下面的子树就会发生变化。这种递归的分枝战略表明对于每个产生的分枝,数据集基于测试属性被分割,在进行了一些分割后,通常就只有非常少的数据进行决策,因此靠近叶节点做出的决策就没有在根节点附近做出的决策可靠。

聚类

聚类类型:

层次聚类:簇具有子簇;嵌套簇的集族,组织成一课树

划分聚类:将数据对象集划分成不重叠的子集,使每个数据对象恰在一个子集中

在学习聚类的时候主要使用了k-means算法;

k-means

1:先将每个对象作为一个簇;

2:然后这些簇根据某些准则被一步步地合并;两个簇间的相似度由这两个不同簇中距离最近的数据点对的相似度来确定。

3:重复上述过程直到所有的对象最终满足簇数目

总结

在这个信息化的时代,处理大量混乱而又复杂的数据的一个很好的方法是分类,在分类技术的发展过程中,流行的几个技术是贝叶斯分类、神经网络、遗传算法和决策树等。与神经网络和贝叶斯分类比较,决策树更容易被人们理解。而且,训练一个神经网络将花费大量的时间和进行上千次的迭代,生成决策树则要有效得多,因此,适用于大的训练集。另外决策树生成算法除了包含在训练数据中的信息外不要求其他的信息(例如,领域知识或数据/类的概率分布的预知信息),且决策树还表现出很好的分类精确度。并且,与其它分类方法比起来,决策树算法的基础理论清晰、更加容易被人们理解、能够直接显示出数据所具有的特点以及数据之间的相互关系,并具有较好的分类预测能力,因此对决策树算法的研究有着重要的研究价值和实际意义