当前位置:文档之家› 数据挖掘概念与技术原书第3版(范明 、孟小峰绎)第一章课后习题

数据挖掘概念与技术原书第3版(范明 、孟小峰绎)第一章课后习题

数据挖掘概念与技术原书第3版(范明 、孟小峰绎)第一章课后习题
数据挖掘概念与技术原书第3版(范明 、孟小峰绎)第一章课后习题

1.9习题

1.1 什么是数据挖掘?在你的回答中,强调以下问题:

(a)它是又一种广告宣传吗?

(b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗?

(c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。

(d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。

答:简单地说,数据挖掘其实就是从大量的数据中发现有用的信息,它是从大量数据中挖掘有趣模式和知识的过程。数据挖掘不是一种广告宣传,而是身处在信息时代数据如此庞大的今天,我们对由海量的数据转化为有用信息的迫切需要,所以它是信息技术自然进化的结果,而不是一种广告宣传。

数据挖掘也不是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用,它涉及到了很多领域的技术,比如统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、神经网络、高性能计算、算法以及许多应用领域的大量技术。

数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,所以急需一种新型的技术去获取有用的信息,当时计算机领域的人工智能也取得了巨大进展,进入了机器学习的阶段,人们就将两者结合起来,用数据库管理系统存储数据,用计算机分析数据,这两者的结合就促就以这一门新兴的学科,所以数据挖掘不是机器学习研究进化的结果,而是结合了机器学。

数据挖掘的步骤包括:(1)数据收集;(2)数据清洗、脱敏;(3)数据存储;(4)数据分析;(5)数据可视化。

1.2数据仓库与数据库有何不同?他们有哪相似之处?

答:数据库是按照数据结构来组织、存储和管理数据的仓库,它是以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度的特点、是与应用程序彼此独立的数据集合。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。

不同处:(1)数据库是面向事务的设计,数据仓库是面向主题设计的。

(2)数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。

(3)数据库设计是尽量避免冗余,数据仓库在设计是有意引入冗余。

(4)数据库是为捕获数据而设计,数据仓库是为分析数据而设计。

相似处:两者都是数据的集合。

1.3定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子答:特征化:目标类数据的一般特性或特征的汇总。例如:汇总某年级学生的基本特征,结果可能会高分段成绩信息,是否挂科等信息。

区分:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

例如:购买化妆品的顾客70%在20~40岁之间,受过大学教育,而不经常购买化妆品的

顾客60%要么年龄太小要么年龄太大,没有受过大学教育。

关联和相关性:两个变量之间的相关性,从给定的数据集中发现频繁出现的频繁模式知识。例如:超市将啤酒和尿不湿放到一起。

分类:找出和区分数据类或概念地模型,以便能够使用模型预测类标号未知的对象的类标号。例如:学生的成绩分为高等、中等、低等。

回归:用来预测缺失或难以获得的数值数据值,而不是离散的类标号。例如:商品质量与用户满意度之间的因果关系。

聚类:将观测组织成类分层结构,把类似的事件组织在一起。例如:将一些特征相似的症状结合起来可能预示一种特定的疾病。

离群点分析:数据集中可能包含一些数据对象,它们与数据的一般行为或模型不一致,这些数据对象是离群点,离群点数据的分析就是离群点分析。例如:将正常的付款数额与一个消费数额极大的账号进行离群点分析,可能发现信用卡诈骗。

1.4给出一个例子,其中数据挖掘对于工商企业的成功是至关重要的。该工商企业需要什么数据挖掘功能(例如,考虑可以挖掘何种类型的模式)?这种模式能够通过简单的查询处理或统计分析得到吗?

答:如淘宝网,需要根据消费者的性别、年龄、职业、收入水平、兴趣爱好等进行关联性分析,给不同的消费者推荐不同类型,不同类别的商品。可以考虑关联和相关性的数据挖掘方法。这种模式不能通过简单的查询处理或统计分析获得,因为每天人们在淘宝网上浏览的信息都非常多,如果仅仅通过简单的查询处理或统计分析,是不能够完成这项工作的。

1.5 解释区分和分类、特征化和类聚、分类和回归的区别与相似处。

(1)区分和分类的区别与相似处

区别:区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较,而分类是找出和区分数据类或概念地模型,以便能够使用模型预测类标号未知的对象的类标号。

相似处:都是都数据分析的方法

(2)特征化和类聚的区别与相似处

区别:特征化是目标类数据的一般特性或特征的汇总。聚类是将观测组织成类分层结构,把类似的事件组织在一起。特征化强调的是对数据进行汇总,而聚类强调把类似的事件组织在一起,而不是将其汇总在一起。

相似处:处理的数据都要是有相似之处的。

(3)分类和回归的区别与相似处

区别:分类是找出和区分数据类或概念地模型,以便能够使用模型预测类标号未知的对象的类标号。回归是用来预测缺失或难以获得的数值数据值,而不是离散的类标号。分类预测类别是离散的、无序的标号,而回归是建立连续值函数模型。

相似处:都是对数据进行预测。

1.6根据你的观察,描述一个可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?

答:建立一个周期性的知识类型,在不同的时间段,数据都会进行更新,修改,变化等,这个就需要一种新的数据挖掘技术。

1.7离群点经常被当做噪声丢弃。然而,一个人的垃圾可能是另一个人的宝贝。列如,信用

卡交易中的异常可能帮助我们检测信用卡的欺诈使用。以欺诈检测为例,提出两种可以用来检测离群点的方法,并讨论哪种方法更可靠。

(1)基于近邻性的检验方法,包括基于距离和基于密度的方法,如果一个人的信用卡消费情况与他近邻的消费情况差异太大,这说明他是离群点。(2)基于类聚的方法,基于类聚的方法通过考察对象与簇之间的关系检测离群点,离群点是一个对象,它属于小的偏远簇,或不属于任何一个簇,如果一个人的消费情况与所有人的消费情况不一样,则说明这个人就是信用卡诈骗。

1.8描述三个关于数据挖掘方法和用户交互问题的数据挖掘挑战。

(1)数据挖掘的过程是高度交互的,用户访问网页非常灵活,这就需要构建灵活的用户界面和探索式挖掘环境。

(2)结合背景知识:应该把背景知识、约束、规则和关于所研究领域的其他信息结合到发现过程中。

(3)数据挖掘结果的表示和可视化:数据挖掘系统如何生动、灵活地提供数据挖掘结果,使所发现的知识容易理解,也是数据挖掘的一大挑战

1.9与挖据少量数据(例如,几百个元祖的数据集合)相比,挖掘海量数据(例如,数十亿个元祖)的主要挑战是什么?

(1)可伸缩性;在处理大量的数据时,必定要求算法等技术的可伸缩性。

(2)高维性;随着数据的不断膨胀,数据的属性也在不断地增加,具有时间和空间分量的数据集也趋向于高维度,这也需要数据分析的方法更加地复杂。

(3)异种数据和复杂数据;随州信息技术的不断进步,人们接触的数据也越来越多样化和复杂化。

(4)数据的安全性也是挖掘海量数据的一大挑战。

1.10概述在诸如流/传感器数据分析、时空数据分析或生物信息学等某个特定应用领域中的数据挖掘的主要挑战。

主要挑战:由于现有的技术条件有限,对于流/传感器的数据分析、时空数据分析、生物信息学等领域的数据挖掘来说,如何找寻挖掘这些数据的技术和方法,如何处理、分析这些数据对于数据挖掘来说是一项巨大的挑战。

(完整版)数据挖掘概念课后习题答案

第 1 章 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。 使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所 有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩 (GPA:Grade point a ve r s ge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比 较。例如,具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最 终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75%是四年级 计算机科学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。 例如,一个数据挖掘系统可能发现的关联规则为: m a j or(X,“c omput i ng s c i e nc e”) ?owns(X, “pe r s ona l c omput e r”) [s uppor t=12%,c on f i d e nc e=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12%(支持度)主修计算机科学并且拥有一台 。 个人计算机。这个组一个学生拥有一台个人电脑的概率是98%(置信度,或确定度) ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或,而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的 功能) 相似性是他们都是预测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用是 预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数 据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分 析、序列或周期模式匹配、和基于相似性的数据分析 1.9 列举并描述说明数据挖掘任务的五种原语。 五种原语是: ?任务相关数据:这种原语指明给定挖掘所处理的数据。它包括指明数据库、数据库表、或 数据仓库,其中包括包含关系数据、选择关系数据的条件、用于探索的关系数据的属性或 维、关于修复的数据排序和分组。 ?挖掘的数据类型:这种原语指明了所要执行的特定数据挖掘功能,如特征化、区分、关 联、分类、聚类、或演化分析。同样,用户的要求可能更特殊,并可能提供所发现的模式必 须匹配的模版。这些模版或超模式(也被称为超规则)能被用来指导发现过程。 ?背景知识:这种原语允许用户指定已有的关于挖掘领域的知识。这样的知识能被用来指导 知识发现过程,并且评估发现的模式。关于数据中关系的概念分层和用户信念是背景知识的 形式。 ?模式兴趣度度量:这种原语允许用户指定功能,用于从知识中分割不感兴趣的模式,并且 被用来指导挖掘过程,也可评估发现的模式。这样就允许用户限制在挖掘过程返回的不感兴 趣的模式的数量,因为一种数据挖掘系统可能产生大量的模式。兴趣度测量能被指定为简易 性、确定性、适用性、和新颖性的特征。 ?发现模式的可视化:这种原语述及发现的模式应该被显示出来。为了使数据挖掘能有效地

数据挖掘

一、数据挖掘概述 1、数据挖掘 定义:通过自动或半自动化的工具对大量的数据进行探索和分析的过程,其目的是发现其中有意义的模式和规律。 ——数据挖掘是一门技能,不是一种现成的产品。 2、数据挖掘能做什么 6种方法:分类(classification)、估计(estimation)、预测(prediction)、组合或关联法则(affinity grouping or association rules)、聚类(clustering)、描述与可视化(description and visualization) 前三种方法属于直接的数据挖掘,目标是应用可得到的数据建立模型,用其他可得到的数据来描述我们感兴趣某一变量。 后三种方法属于间接的数据挖掘,没有单一的目标变量,目标是在所有变量中发现某些联系。 1)分类:其特点是先对不同的类别加以定义,并由预先分类的样本构成训练集。任务是建立一个模型并应用这一模型对未分类数据进行分类。分类处理的是离散的结果。 2)估计处理的是连续的结果。 3)组合法的任务是确认哪些事物会一起出现。 4)聚类的任务是将相似的事物分成一类,差异较大的事物分在不同的类中。聚类与分类的区别是聚类并不依赖于事先确定好的组别。 3、技术层面的数据挖掘 1)算法与技巧 2)数据 3)建模实践 二、数据挖掘方法论:互动循环系统 1、数据挖掘的两种类型 一种是自上而下的方法,称之为有监督的数据挖掘方法,当明确知道要搜索的目标时,可以是用这种方法。 一种是自下而上的方法,称之为无监督的数据挖掘方法,实际就是让数据解释自己。此方法是在数据中寻找模式,然后把产生的结果留给使用者去判断其中哪些模式重要。 数据挖掘的结果通常是这两种方法的结合。 1)有监督的数据挖掘 黑匣子模型:使用一个或多个输入值产生一个输出的模型。我们并不关心模型如何运作,那只是黑盒子,我们只关心可能的最优结果。 我们根据已知事例,分析其相关资料,将分析结果用在从未联络的潜在客户,这样的模型称之为预测模型。预测模型使用历史记录来计算某些相应结果中的得分。成功预测的要领之一是拥有足够支持结果的数据来训练模型。 2)无监督的数据挖掘 半透明模型:有时需要使用模型能够得到与数据相关的重要信息,我们也需要了解模型的运作细节,这就好比一组半透明的盒子。 2、数据挖掘的互动循环过程 数据挖掘的互动过程是一种高层次的流程,由四个重要的业务过程所构成: 理解业务问题; 将数据转换成可执行的结果;

数据挖掘概念与技术-课后题答案汇总

数据挖掘概念与技术-课后题答案汇总

数据挖掘——概念概念与技术 Data Mining Concepts and Techniques 习题解答 Jiawei Han Micheline Kamber 著 范明孟晓峰译

目录

第 1 章 引言 1.1 什么是数据挖掘?在你的回答中,针对以下问题: 1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测 聚 类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功 能的例子。 解答: ? 特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征 可 被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特 征包括作为一种高的年级平均成绩(GPA :Grade point aversge) 的信息, 还有所修的课程的最大数量。 ? 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一 般 特性进行比较。例如,具有高 GPA 的学生的一般特性可被用来与具有 低 GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的 轮廓,就像具有高 GPA 的学生的 75%是四年级计算机科学专业的学生, 而具有低 G PA 的学生的 65%不是。 ? 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特 征 值的 条 件。 例 如, 一 个数 据 挖掘 系 统可 能 发现 的 关联 规 则为 : major(X, “ c omputing science ”) owns(X, “personal computer ” ) [support=12%, confid ence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生 拥有 一 台个人电脑的概率是 98%(置信度? 分类与预测不同,因为前者的作用是构

数据挖掘试卷一

数据挖掘整理(熊熊整理-----献给梦中的天涯) 单选题 1.下面哪种分类方法是属于神经网络学习算法?() A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2.置信度(confidence)是衡量兴趣度度量( A )的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3.用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4.数据归约的目的是() A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5.下面哪种数据预处理技术可以用来平滑数据,消除数据噪声? A.数据清理 B.数据集成 C.数据变换 D.数据归约 6.假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?(B) A 第一个 B 第二个 C 第三个 D 第四个 7.下面的数据操作中,()操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8.关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9.下列哪个描述是正确的?() A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习

数据仓库与数据挖掘课后习题答案

数据仓库与数据挖掘课后习 题答案 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据仓库与数据挖掘 第一章课后习题 一:填空题 1)数据库中存储的都是数据,而数据仓库中的数据都是一些历史的、存档的、归纳的、计算的数据。 2)数据仓库中的数据分为四个级别:早起细节级、当前细节级、轻度综合级、高度综合级。 3)数据源是数据仓库系统的基础,是整个系统的数据源泉,通常包括业务数据和历史数据。 4)元数据是“关于数据的数据”。根据元数据用途的不同将数据仓库的元数据分为技术元数据和业务元数据两类。 5)数据处理通常分为两大类:联机事务处理和联机事务分析 6)Fayyad过程模型主要有数据准备,数据挖掘和结果分析三个主要部分组成。 7)如果从整体上看数据挖掘技术,可以将其分为统计分析类、知识发现类和其他类型的数据挖掘技术三大类。 8)那些与数据的一般行为或模型不一致的数据对象称做孤立点。 9)按照挖掘对象的不同,将Web数据挖掘分为三类:web内容挖掘、web结构挖掘和web使用挖掘。 10)查询型工具、分析型工具盒挖掘型工具结合在一起构成了数据仓库系统的工具层,它们各自的侧重点不同,因此适用范围和针对的用户也不相同。 二:简答题 1)什么是数据仓库数据仓库的特点主要有哪些 2) 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。 主要特点:面向主题组织的、集成的、稳定的、随时间不断变化的、数据的集合性、支持决策作用 3)简述数据挖掘的技术定义。 从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。 4)什么是业务元数据? 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够读懂数据仓库中的数据 5)简述数据挖掘与传统分析方法的区别。 本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。 6)简述数据仓库4种体系结构的异同点及其适用性。 a.虚拟的数据仓库体系结构 b.单独的数据仓库体系结构

数据挖掘概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER 数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA :Grade point aversge) 的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如, 具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75% 是四年级计算机科学专业的学生,而具有低GPA 的学生的65% 不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “ computing science ” ) ? owns(X, “ personal computer ” ) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的 学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98% (置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 年龄频率 1~5200 5~15450 15~20300 20~501500 50~80700 80~11044 计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194 ;N/2=1597

数据仓库与数据挖掘教程(第2版) 陈文伟版课后习题答案(非常全)

第一章作业 1.数据库与数据仓库的本质差别是什么?书P2 (1)数据库用于事务处理,数据仓库用于决策分析。(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。(3)数据仓库的数据是大量数据库的集成。(4)对数据库的操作比较明确,操作数量较小。对数据仓库操作不明确,操作数据量大。 2.从数据库发展到数据仓库的原因是什么?书P1 (1)数据库数据太多,信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。(2)异构环境数据的转换和共享。随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。(3)利用数据进行事物处理转变为利用数据支持决策。 3.举例说明数据库与数据仓库的不同。 比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。但是要对这些独立数据库进行决策分析就很复杂了。因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。 4. OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。 5. OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。 6. OLTP OLAP 细节性数据综合性数据 当前数据历史数据 经常更新不更新,但周期性刷新 一次性处理的数据量小一次处理的数据量大 对响应时间要求高响应时间合理 面向应用,事务驱动面向分析,分析驱动 7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。 8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。 9.元数据不仅仅是数据仓库的字典,而且还是数据仓库本身功能的说明数据,是整个数据仓库的核心。数据字典是关于数据库中数据的描述,而不是数据本身,数据字典是数据库的元数据。 10 .数据仓库的定义是什么? 答:(1)W.H.Inmon对数据仓库的定义:数据仓库是面向主题的,集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。 (2)SAS软件研究所的观点:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有限的决策支持。 从数据仓库定义可以看出,数据仓库是明确为决策支持服务的,而数据库是为事务处理服务的。

数据挖掘概念与技术-课后题答案汇总汇总

数据挖掘——概念概念与技术 Data Mining Concepts and T echniques 习题答案 第1章引言 1.1 什么是数据挖掘?在你的回答中,针对以下问题: 1.2 1.6 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测 聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据 挖掘功能的例子。 解答: ?特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓, 这些特征包括作为一种高的年级平均成绩(GPA:Grade point aversge) 的信息,还有所修的课程的最大数量。 ?区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如,具有高GPA 的学生的一般特性可被用来 与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一 般可比较的轮廓,就像具有高GPA 的学生的75%是四年级计算机科 学专业的学生,而具有低GPA 的学生的65%不是。 ?关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则 为: major(X, “c omputing science”) owns(X, “personal computer”) [support=12%, c onfid e nce=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学 生拥有一台个人电脑的概率是98%(置信度,或确定度)。 ?分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的 或无效的、并且通常是数字的数据值。它们的相似性是他们都是预 测的工具:分类被用作预测目标数据的类的标签,而预测典型的应用 是预测缺失的数字型数据的值。 ?聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 ?数据延边分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测, 这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和 基于相似性的数据分析 1.3 1.9 列举并描述说明数据挖掘任务的五种原语。 解答: 用于指定数据挖掘任务的五种原语是:

数据挖掘过程中的预处理阶段

数据挖掘过程中的预处理阶段 整个数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅占总工作量的10%左右[1]。经过预处理的数据,不但可以节约大量的空间和时间,而且得到的挖掘结果能更好地起到决策和预测作用。 一般的,数据预处理分为4个步骤,本文把对初始数据源的选择作为数据预处理过程中的一个步骤,即共分为5个步骤。因为,如果在数据获得初期就有一定的指导,则可以减少数据获取的盲目性以及不必要噪声的引入且对后期的工作也可节约大量的时间和空间。整个预处理过程见下图: 1 初始源数据的获取 研究发现,通过对挖掘的错误结果去寻找原因,多半是由数据源的质量引起的。因此,原始数据的获取,从源头尽量减少错误和误差,尤其是减少人为误差,尤为重要。首先应了解任务所涉及到的原始数据的属性和数据结构及所代表的意义,确定所需要的数据项和数据提取原则,使用合适的手段和严格的操作规范来完成相关数据的获取,由于这一步骤涉及较多相关专业知识,可以结合专家和用户论证的方式尽量获取有较高含金量(预测能力)的变量因子。获取过程中若涉及到多源数据的抽取,由于运行的软硬件平台不同,对这些异质异构数据库要注意数据源的连接和数据格式的转换。若涉及到数据的保密,则在处理时应多注意此类相关数据的操作且对相关数据作备注说明以备查用。

2 数据清理 数据清理 数据清理是数据准备过程中最花费时间、最乏味,但也是最重要的步骤。该步骤可以有效减少学习过程中可能出现相互矛盾情况的问题。初始获得的数据主要有以下几种情况需要处理: 1)含噪声数据。处理此类数据,目前最广泛的是应用数据平滑技术。1999年,Pyle系统归纳了利用数据平滑技术处理噪声数据的方法,主要有:①分箱技术,检测周围相应属性值进行局部数据平滑。②利用聚类技术,根据要求选择包括模糊聚类分析或灰色聚类分析技术检测孤立点数据,并进行修正,还可结合使用灰色数学或粗糙集等数学方法进行相应检测。③利用回归函数或时间序列分析的方法进行修正。④计算机和人工相结合的方式等。 对此类数据,尤其对于孤立点或异常数据,是不可以随便以删除方式进行处理的。很可能孤立点的数据正是实验要找出的异常数据。因此,对于孤立点应先进入数据库,而不进行任何处理。当然,如果结合专业知识分析,确信无用则可进行删除处理。 2)错误数据。对有些带有错误的数据元组,结合数据所反映的实际问题进行分析进行更改或删除或忽略。同时也可以结合模糊数学的隶属函数寻找约束函数,根据前一段历史趋势数据对当前数据进行修正。 3)缺失数据。①若数据属于时间局部性的缺失,则可采用近阶段数据的线性插值法进行补缺;若时间段较长,则应该采用该时间段的历史数据恢复丢失数据。若属于数据的空间缺损则用其周围数据点的信息来代替,且对相关数据作备注说明,以备查用。②使用一个全局常量或属性的平均值填充空缺值。③使用回归的方法或使用基于推导的贝叶斯方法或判定树等来对数据的部分属性进行修复④忽略元组。 4)冗余数据。包括属性冗余和属性数据的冗余。若通过因子分析或经验等方法确信部分属性的相关数据足以对信息进行挖掘和决策,可通过用相关数学方法找出具有最大影响属性因子的属性数据即可,其余属性则可删除。若某属性的部分数据足以反映该问题的信息,则其余的可删除。若经过分析,这部分冗余数据可能还有他用则先保留并作备注说明。

数据挖掘第三版第十章课后习题答案

简略介绍如下聚类方法:划分方法、层次方法。每种给出两个例子。 (1)划分方法:给定一个有N个对象的集合,划分方法构造数据的K个分区,每一个分区表示一个簇,且K≤N。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。 使用这个基本思想的算法有:K-MEANS 算法、K-MEDOIDS 算法、CLARANS 算法。 (2)层次方法:这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。 代表算法有:BIRCH 算法、CURE 算法、CHAMELEON 算法等。 假设数据挖掘的任务是将如下的8个点(用(x, y)代表位置)聚类为3个簇。 A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)距离函数是欧氏距离。假设初始我们选择A1、B1和C1分别为每个簇的中心,用k-均值算法给出: (a)在第一轮执行后的3个簇中心。 (b)最后的3个簇。 (a)第一轮后, 三个新的簇为(1){A1} (2){B1,A3,B2,B3,C2} (3){C1,A2} 簇中心分别为(1) (2, 10), (2) (6, 6), (3) , . (b)最后3个簇为(1) {A1,C2,B1}, (2) {A3,B2,B3}, (3) {C1,A2}. k-均值和k-中心点算法都可以进行有效的聚类。 (a)概述k-均值和k-中心点相比较的优缺点。 (b)概述这两种方法与层次聚类方法(如AGNES)相比有何优缺点。 (a)当存在噪声和离群点时, k-中心点算法比k-均值具有更强的鲁棒性。因为在中心点不像均值那样容易受离群值或其他极端值影响。但是, 它的计算开销更大。 (b)k-均值和k-中心点都是划分方法。这种划分方法分优点是,可以撤销之前的聚类步骤(通过迭代迁移), 不像层次方法, 一旦执行了拆分或合并, 就不能做出调整。层次方法的这种弱点可能使产生的聚类的质量受到影响。 划分方法找球形簇的效果很好。一般来说,对于中小型数据库, 结果聚类的质量很好。他们需要提前知道簇的数量可以被认为是一个弱点。层次聚类方法可以自动确定集群的数量。然而,他们难以扩展,因为每个分裂或合并的决定可能要求大量对象或集群的检查和评价。然而, 层次方法可以与其他聚类方法集成, 改进聚类, 如BIRCH, ROCK, 和Chameleon. 聚类已经被认为是一种具有广泛应用的、重要的数据挖掘任务。对如下每种情况给出一个应用实例:

数据挖掘概念与技术word版

摘要 随着计算机和网络的发展,对于大数据需要数据分析,在分析数据的时候,数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。本文主要综述了数据挖掘中常用的一些关联规则,分类和聚类的算法。 关键字:数据挖掘;分类;聚类;关联规则

1 引言 1.1 数据挖掘介绍 近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等[1]。 数据挖掘出现于20世纪80年代后期,是数据库研究中一个很有应用价值的新领域,是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术.数据挖掘作为一种技术,它的生命周期正处于沟坎阶段,需要时间和精力去研究、开发和逐步成熟,并最终为人们所接受。20世纪80年代中期,数据仓库之父W.H.In-mon在《建立数据仓库》(Building the Data Warehouse)一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、时变的以及非易失的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程—对分布在企业内部各处的业务数据的整合、加工和分析的过程。传统的数据库管理系统(database management system,DBMS)的主要任务是联机事务处理(on-line transaction processing,OLTP);而数据仓库则是在数据分析和决策方面提供服务,这种系统被称为联机分析处理(on-line analyticalprocessing,OLAP).OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为OLTP已不能满足终端用户对数据库查询分析的需要,结构化查询语言(structured query language,SQL)对数据库进行的简单查询也不能满足用户分析的需求.用户的决策分析需要对关系数据库进行大量计算才能得到结果,因此Codd提出了多维数据库和多维分析的概念[2]。 数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1) 数据准备,(2)数据挖掘,(3) 结果表达和解释。数据挖掘可以与用户或知识库交互。 数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化

数据挖掘习题及解答-完美版

数据挖掘习题及解答■完美版

Data Mi ning Take Home Exam 学号: xxxx ____________ 姓名:XXX 1. (20分)考虑下表的数据集。 顾客ID 性别车型衬衣尺码类 1 家用小C0 d 2 运动中C0 3 运动中C0 4 运动大C0 5 运动加大C0 6 运动加大C0 7 运动小C0 8 运动小C0 9 运动中C0 10 豪华大C0 11 家用大C1 12 家用加大C1 13 家用中C1 14 豪华加大C1 15 豪华小C1 16 豪华小C1 17 豪华中C1 18 豪华中C1 19 豪华中C1 20 豪华大C1 (1)计算整个数据集的Gini指标值。 (2)计算属性性别的Gini指标值 (3)计算使用多路划分属性车型的Gini指标值 (4)计算使用多路划分属性衬衣尺码的Gini 指标值 (5)下面哪个属性更好,性别、车型还是衬衣尺码?为什么? 解:(1) Gini=1-(10/20)八2-(10/20)八2=0.5 Gi ni=[{1-(6/10)八2-(4/10)八2}*1/2]*2=0.48

Gi ni={1-(1/4)2-(3/4)2}*4/20+{1-(8/8)2-(0/8)八2}*8/20+{1-(1/8)八2-(7/8)八2}*8/20 =26/160=0.1625 Gini={1-(3/5)2-(2/5)2}*5/20+{1-(3/7)2-(4/7)2}*7/20+[{1-(2/4)八2-(2/4)八2}*4/2 0]*2=8/25+6/35=0.4914 ⑸ 比较上面各属性的Gini值大小可知,车型划分Gini值0.1625最小,即使用车型属性更好。 2. (20分)考虑下表中的购物篮事务数据集 (1)将每个事务ID视为一个购物篮,计算项集{e} ,{b,d}和{b,d,e}的支持度。 (2)使用(1)的计算结果,计算关联规则{b,d} -{e和{e} -{b,d}的置信度。 (3)将每个顾客ID作为一个购物篮,重复(1)。应当将每个项看作一个二元变量(如果一个项在顾客的购买事务中至少出现一次,则为1,否则,为0) (4)使用(3)的计算结果,计算关联规则{b,d} -{e和{e} -{b,d}的置信度。答:(1)由上表计数可得{ e }的支持度为8/10=0.8; { b, d }的支持度为2/10=0.2; {b,d,e}的支持度为2/10=0.2。 (2)c[{b,d} —{e}]=2/8=0.25;c[{e} —{b,d}]=8/2=4。

数据挖掘概念与技术-第1章

数据挖掘概念与技术(原书第3版) 第一章课后习题及解答 1.9习题 1.1什么是数据挖掘?在你的回答中,强调以下问题: (a)它是又一种广告宣传吗? (b)它是一种从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用吗? (c)我们提出了一种观点,说数据挖掘是数据库技术进化的结果。你认为数据挖掘也是机器学习研究进化的结果吗?你能基于该学科的发展历史提出这一观点吗?针对统计学和模式识别领域,做相同的事。 (d)当把数据挖掘看做知识发现过程时,描述数据挖掘所涉及的步骤。 答: 狭义的数据挖掘是知识发现过程中的一个步骤,广义的数据挖掘通常用来表示整个知识发现过程,我们一般采用广义的观点:数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、WEB、其他信息存储库或动态地流入系统的数据。 a.它不是一种广告宣传,它基于实际的需求,提供从数据中发现知识的工具。 b.数据挖掘不是从数据库、统计学、机器学习和模式识别发展而来的技术的简单转换或应用,它可以看做是信息技术的自然进化,是一些相关学科和应用领域的交汇点。 c. 数据挖掘是数据库技术进化的结果,也是机器学习、统计学和模式识别领域技术进化的结果。 机器学习是一个快速成长的学科,这一领域中的监督学习、无监督学习、半监督学习和主动学习问题,与数据挖掘高度相关,数据挖掘和机器学习有许多相似之处,对于分类和聚类任务,机器学习研究通常关注模型的准确率。除准确率之外,数据挖掘研究非常强调挖掘方法在大型数据集上的有效性和可伸缩性,以及处理复杂数据类型的方法,开发新的非传统的方法。 统计学研究数据的收集、分析、解释和表示。数据挖掘和统计学具有天然联系。(1)统计模型是一组数学函数,它们利用随机变量及其概率分布刻画目标类对象的行为,可以是数据挖掘的结果,也可以是数据挖掘任务的基础。(2)统计学研究开发一些使用数据和统计模型进行预测和预报的工具,描述统计可以帮助理解数据;推理统计学用某种方式对数据建模,可以解释观测中的随机性和确定性,并用来提取关于所考察的过程中或总体的结论。(3)统计假设检验使用实验数据进行统计判决,可以用来验证数据挖掘结果。 模式识别领域??? d. 当把数据挖掘看做知识发现过程时,数据挖掘包括以下几个步骤:(1)在数据库中进行数据清理和数据集成;(2)在数据仓库中进行数据选择和数据变换;(3)数据挖掘,使用智能方法提取数据模式;(4)进行模式评估和知识表示 1.2数据库与数据仓库有何不同?它们有哪些相似之处? 答: 数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组管理和存取数据的软件程序组成。关系数据库是表的汇集,可以通过数据库查询访问,是数据挖掘的最常见、最丰富的信息源,因此它是我们数据挖掘研究的一种主要数据形式。 数据仓库是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些

数据挖掘概念与技术习题答案-第3章

数据挖掘概念与技术(原书第3版) 第三章课后习题及解答 习题 数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。提出数据质量的两个其他尺度。 答: 数据的质量依赖于数据的应用。 准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了。 一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响。 数据质量的另外三个尺度是时效性,可解释性,可信性。 在现实世界的数据中,某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。 答:对于有缺失值的元组,当前有6种处理的方法: (1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。 (2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通。 (3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“u nknown”或-)替换。如果缺失值都用“u nknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“u nknown”。因此,尽管该方法简单,但是并不十分可靠。 (4)使用属性的中心度量(如均值或中位数)填充缺失值:第2章讨论了中心趋势度量,它们指示数据分布的“中间”值。对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数。。 (5)使用与给定元组属同一类的所有样本的属性均值或中位数 (6)使用最可能的值填充缺水值:可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。 在习题中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70. (a)使用深度为3的箱,用箱均值光滑以上的数据。说明你的步骤,讨论这种技术对给定数据的效果。 答:首先将排好序的age数据划分到大小为3的等频的箱中,如下:

数据挖掘课后答案

第一章 1.6 (1)数据特征化是目标类数据的一般特性或特征的汇总。 例如,在某商店花费1000元以上的顾客特征的汇总描述是:年龄在40—50岁、有工作和很好的信誉等级。 (2)数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。 例如,高平均分数的学生的一般特点,可与低平均分数的学生的一般特点进行比较。由此产生的可能是一个相当普遍的描述,如平均分高达75%的学生是大四的计算机科学专业的学生,而平均分低于65%的学生则不是。 (3)关联和相关分析是指在给定的频繁项集中寻找相关联的规则。 例如,一个数据挖掘系统可能会发现这样的规则:专业(X,“计算机科学”)=>拥有(X,”个人电脑“)[support= 12%,confidence = 98%],其中X是一个变量,代表一个学生,该规则表明,98%的置信度或可信性表示,如果一个学生是属于计算机科学专业的,则拥有个人电脑的可能性是98%。12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。 (4)分类和预测的不同之处在于前者是构建了一个模型(或函数),描述和区分数据类或概念,而后者则建立了一个模型来预测一些丢失或不可用的数据,而且往往是数值,数据集的预测。它们的相似之处是它们都是为预测工具:分类是用于预测的数据和预测对象的类标签,预测通常用于预测缺失值的数值数据。 例如:某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别,此时用到的则是分类;当研究某只股票的价格走势时,会根据股票的历史价格来预测股票的未来价格,此时用到的则是预测。 (5)聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。聚类还便于分类法组织形式,将观测组织成类分层结构,把类似的事件组织在一起。 例如:世界上有很多种鸟,我们可以根据鸟之间的相似性,聚集成n类,其中n可以认为规定。 (6)数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。这可能包括时间相关数据的特征化、区分、关联和相关分、分类、预测和聚类,这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于相似性的数据分析。 例如:假设你有纽约股票交易所过去几年的主要股票市场(时间序列)数据,并希望投资高科技产业公司的股票。股票交易数据挖掘研究可以识别整个股票市场和特定的公司的股票的演变规律。这种规律可以帮助预测股票市场价格的未来走向,帮助你对股票投资做决策。 1.11 一种是聚类的方法,另一种是预测或回归的方法。 (1)聚类方法:聚类后,不同的聚类代表着不同的集群数据。这些数据的离群点,是不属于任何集群。在各种各样的聚类方法当中,基于密度的聚类可能是最有效的。 (2)使用预测或回归技术:构建一个基于所有数据的概率(回归)模型,如果一个数据点的预测值有很大的不同给定值,然后给定值可考虑是异常的。 用聚类的方法来检查离群点更为可靠,因为聚类后,不同的聚类代表着不同的集群数据,离群点是不属于任何集群的,这是根据原来的真实数据所检查出来的离群点。而用预测或回归方法,是通过构建一个基于所有数据的(回归)模型,然后根据预测值与原始数据的值比较,当二者相差很大时,就将改点作为离群点处理,这对所建立的模型有很大的依赖性,另

数据挖掘复习题

第一章 1.数据挖掘的定义? 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源? 关系数据库 数据仓库 事务数据库 高级数据 3.数据挖掘的常用方法? 聚类分析 决策树 人工神经网络 粗糙集 关联规则挖掘 统计分析 4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容? 5.数据挖掘与数据仓库的关系?(联系和区别) 联系: 数据仓库为数据挖掘提供了更好的、更广泛的数据源; 数据仓库为数据挖掘提供了新的支持平台; 数据仓库为更好地使用数据挖掘工具提供了方便; 数据挖掘为数据仓库提供了更好的决策支持; 数据挖掘对数据仓库的数据组织提出了更高的要求; 数据挖掘为数据仓库提供了广泛的技术支持。 区别: 数据仓库是存数据,数据挖掘是用数据。 第二章 1.数据仓库的定义 数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策制定过程 2.数据仓库数据的四大基本特征: 面向主题的 集成的 不可更新的 随时间变化的 3.数据仓库体系结构有3个独立的数据层次:

信息获取层、信息存储层、信息传递层 4.粒度的定义?它对数据仓库有什么影响? (1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多; (2) 影响存放在数据仓库中的数据量大小; 影响数据仓库所能回答查询问题的细节程度。 5.在数据仓库中,数据按照粒度从小到大可分为死哥级别: 早期细节级、当前细节级、轻度细节级和高度细节级。 6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。 7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型 8.数据仓库涉及步骤 概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库的生成、数据仓库的使用和维护 9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。 10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。 第三章 1.联机事务处理与联机分析处理的区别? 联机事务处理(On-Line Transaction Processing,OLTP) 作为数据管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。 联机分析处理(On-Line Analytical Processing,OLAP) 是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。 2.OLAP的主要特征 快速性、可分析性、多维性、信息性。 3. 钻取Drill/Roll up , Drill down 改变维的层次,变换分析的粒度。 分向上钻取和向下钻取。 向上钻取:在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数。 向下钻取:从汇总数据深入到细节数据进行观察或增加新维。 4.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多为数据结构组织的OLAP实现。 5.OLAP根据其数据存储格式可分为三类: 关系OLAP、多维OLAP、混合OLAP 6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余 的数据。 7.OLAP的衡量标准 (1)透明性准则 OLAP在体系结构中的位置和数据源对用户是透明的。 (2)动态的稀疏矩阵处理准则 对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图; (3)维的等同性准则 每一数据维在数据结构和操作能力上都是等同的。

相关主题
文本预览
相关文档 最新文档