数据仓库与数据挖掘教程(第2版)第六章 数据挖掘原理
- 格式:ppt
- 大小:3.77 MB
- 文档页数:50
第一章作业1.数据库与数据仓库的本质差别是什么?书P2(1)数据库用于事务处理,数据仓库用于决策分析。
(2)数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据。
(3)数据仓库的数据是大量数据库的集成。
(4)对数据库的操作比较明确,操作数量较小。
对数据仓库操作不明确,操作数据量大。
2.从数据库发展到数据仓库的原因是什么?书P1(1)数据库数据太多,信息贫乏。
如何将大量的数据转化为辅助决策信息成为了研究热点。
(2)异构环境数据的转换和共享。
随着各类数据库产品的增加,异构环境的数据也逐渐增加,如何实现这些异构环境数据的转换的共享也成了研究热点。
(3)利用数据进行事物处理转变为利用数据支持决策。
3.举例说明数据库与数据仓库的不同。
比如,银行中储蓄业务要建立储蓄数据库,信用卡要建立信用卡数据库,贷款业务要建立贷款数据库,这些数据库方便了银行的事务处理。
但是要对这些独立数据库进行决策分析就很复杂了。
因此可以把这些数据库中的数据存储转化到数据仓库中,方便进行决策。
4.OLTP(On Line Transaction Processing,联机事物处理)是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。
OLAP(On Line Analytical Processing,联机分析处理)是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。
5.OLTP是用户的数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。
6.OLTP OLAP细节性数据综合性数据当前数据历史数据经常更新不更新,但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用,事务驱动面向分析,分析驱动7.包括数据项、数据结构、数据流、数据存储和处理过程五个部分。
8.定义为关于数据的数据,描述数据仓库中数据及其环境的数据。
第六章作业1.数据挖掘与知识发现两个概念有什么不同?P116知识发现被认为是从数据中发现有用知识的整个过程。
数据挖掘被认为是知识发现过程中的一个特定步骤,它用专门算法从数据中抽取模式。
2.知识发现过程由哪三部分组成?每部分的工作是什么?P116KDD过程可以概括为三个子步骤:数据准备、数据挖掘和结果的解释和评价。
数据准备:数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换。
数据选取的目的是确定发现任务的操作对象,即目标数据,它是根据用户的需要从原始数据库中抽取的一组数据。
数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换(如把连续值数据转换为离散型的数据,以便于符号归纳;或是把离散型的转换为连续值型的,以便于神经网络归纳)等。
当数据开采的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时完成了。
数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量个数。
数据挖掘:数据挖掘是利用一系列方法或算法从数据中获取知识。
按照数据挖掘任务的不同,数据挖掘方法分类分为聚类、分类、关联规则发现等。
结果的解释和评价:数据挖掘阶段发现的模式,经过用户或机器的评估,可能存在冗余或无关的模式,这时需要将其剔除;也有可能模式不满足用户要求,这时则需要让整个发现过程退回到发现阶段之前,如重新选取数据、采用新的数据变换方法、设定新的数据挖掘参数值,甚至换一种挖掘算法(如当发现任务是分类时,有多种分类方法,不同的方法对不同的数据有不同的效果)。
另外,由于KDD最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为用户易懂的另一种表示,如把分类决策树转换为“if...then...”规则。
3.数据挖掘的对象有哪些?他们各自的特点是什么?P1181.关系数据库特点:(1)数据动态性(2)数据不完全性(3)数据噪声(4)数据冗余性(5)数据稀疏性(6)海量数据2.文本特点:(1)关键词或特征提取(2)相似检索(3)文本聚类(4)文本数据3.图像与视频数据特点:(1)图像与视频特征提取(2)基于内容的相似检索(3)视频镜头的编辑与组织4.web数据(1)异构数据集成和挖掘(2)半结构化数据模型抽取4.1).关联分析若两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。
数据仓库与数据挖掘教程(第2版)陈⽂伟版课后部分习题答案第⼀章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库⽤于事务处理,数据仓库⽤于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据⼜保存当前的数据;数据仓库的数据是⼤量数据库的集成;对数据库的操作⽐较明确,操作数据量少,对数据仓库操作不明确,操作数据量⼤。
数据库是细节的、在存取时准确的、可更新的、⼀次操作数据量⼩、⾯向应⽤且⽀持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、⼀次操作数据量⼤、⾯向分析且⽀持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、⼀次性处理的数据量⼩、对响应时间要求⾼且⾯向应⽤,事务驱动;OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、⼀次处理的数据量⼤、响应时间合理且⾯向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引⼊了“元数据”的概念,它不仅仅是数据仓库的字典,⽽且还是数据仓库本⾝信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、⼯资等),进⾏数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进⾏定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是⼀种存储技术,它能适应于不同⽤户对不同决策需要提供所需的数据和信;数据挖掘研究各种⽅法和技术,从⼤量的数据中挖掘出有⽤的信息和知识。
数据仓库与数据挖掘都是决策⽀持新技术。
但它们有着完全不同的辅助决策⽅式。
在数据仓库系统的前端的分析⼯具中,数据挖掘是其中重要⼯具之⼀。
它可以帮助决策⽤户挖掘数据仓库的数据中隐含的规律性。
数据库数据挖掘的说明书1. 引言数据库数据挖掘是一种应用数据挖掘技术的方法,旨在从大规模数据中提取出隐藏的模式、关联和知识。
本说明书将介绍数据库数据挖掘的概念、原理、方法和应用,以帮助用户正确理解和使用这一技术。
2. 数据库数据挖掘概述数据库数据挖掘是在大型数据库中发现有意义的信息、隐含的知识和隐藏模式的过程。
它基于数据挖掘技术,利用数据挖掘算法和统计学方法,从数据集中提取有用的信息。
数据库数据挖掘有助于组织和分析大规模数据,并发现其中的规律和趋势,进而进行有效决策和预测。
3. 数据库数据挖掘的原理(这里可以继续分小节,但不用标明“小节一”、“小节二”)3.1 数据预处理在进行数据挖掘之前,需要进行数据预处理,包括数据清洗、数据集成、数据变换和数据规约等。
数据预处理的目标是消除数据中的噪声和冗余,提高数据的质量和可用性。
3.2 数据挖掘算法数据库数据挖掘常用的算法包括分类、聚类、关联规则挖掘等。
分类算法可以将数据集根据某种属性进行划分,聚类算法可以将数据集聚类成若干个簇,关联规则挖掘可以发现数据集中的相关性。
3.3 模型评估与选择在数据挖掘过程中,需要对挖掘得到的模型进行评估和选择,以保证模型的准确性和可靠性。
常用的评估指标包括准确率、召回率、F1值等。
4. 数据库数据挖掘的方法4.1 监督学习监督学习是一种通过给定的样本数据来训练模型,并根据训练得到的模型对新数据进行预测的方法。
常用的监督学习算法包括决策树、支持向量机、朴素贝叶斯等。
4.2 无监督学习无监督学习是一种不需要给定样本标签的学习方法,它通过对数据的聚类、降维等操作,从中发现数据之间的内在关系和结构。
常用的无监督学习算法包括K均值聚类、主成分分析等。
5. 数据库数据挖掘的应用数据库数据挖掘在众多领域都有广泛的应用。
例如,在商业领域,可以利用数据挖掘来进行市场分析、用户行为预测和个性化推荐;在医疗领域,可以利用数据挖掘来进行疾病预测和诊断支持。