《数据仓库与数据挖掘技术》第1章:数据仓库与数据挖掘概述
- 格式:pdf
- 大小:218.62 KB
- 文档页数:31
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
数据仓库与数据挖掘技术第1章数据仓库与数据挖掘概述1.1数据仓库引论11.1.1为什么要建立数据仓库11.1.2什么是数据仓库21.1.3数据仓库的特点71.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤111.1.5分析数据仓库的内容121.2数据挖掘引论131.2.1为什么要进行数据挖掘131.2.2什么是数据挖掘181.2.3数据挖掘的特点211.2.4数据挖掘的基本过程与步骤221.2.5分析数据挖掘的内容261.3数据挖掘与数据仓库的关系281.4数据仓库与数据挖掘的应用311.4.1数据挖掘在零售业的应用311.4.2数据挖掘技术在商业银行中的应用361.4.3数据挖掘在电信部门的应用401.4.4数据挖掘在贝斯出口公司的应用421.4.5数据挖掘如何预测信用卡欺诈421.4.6数据挖掘在证券行业的应用43思考练习题一441.1.1为什么要建立数据仓库数据仓库的作用建立数据仓库的好处1.1.2 什么是数据仓库1.数据仓库的概念W.H.Inmon在《Building the Data Warehouse》中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。
”即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。
“DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。
”“DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。
即与企业定义的时间区段相关,面向主题且不可更新的数据集合。
”数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。
这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。
数据仓库是大量有关公司数据的数据存储。
仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of businessreengineering)。
定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。
数据仓库的定义综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。
2.与数据仓库相关的几个概念数据(data)是一组表示数量、行动和目标的非随机的可以鉴别的符号,是对客观事物记录下来的,可以鉴别的符号。
这些符号包括数字、字符、文字、图形、图像、声音。
操作数据原子数据汇总数据特定查询响应查询响应 汇总数据 原子数据 操作数据 数据仓库环境数据类型的分类元数据是指用来描述数据仓库数据库内容的数据。
以后将详细讨论元数据。
数据库是一组内部相关联的数据集合。
其中关系数据库是表的集合,每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记录组成。
数据库管理系统(DBMS)是用来管理和存取数据库的一组软件。
该软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分布的数据访问,数据的一致性和安全性。
数据库系统是一个由硬件、软件、数据库和管理人员组成的复杂系统。
随着信息技术不断的发展,对数据处理的技术和人们对数据的需求也在不断的进化,如图1.2所示的数据库系统及相关技术的演化。
数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。
为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。
数据库系统及相关技术的演化数据收集和数据库创建((20世纪60年代或更早)数据库管理系统 (20世纪70年代)层次和网状数据库系统关系数据O L T P原始处理数据建模工具:E R 模型索引和数据组织技术:B +树,散列查询语言:S Q L 等用户界面:表单、报告等 查询处理和查询优化事务处理:恢复和并发控制等联机事务处理高级数据库管理系统 (20世纪80年代中期~现在)数据仓库与数据挖掘 (20世纪80年代后期~现在)基于W e b 的数据库系统(20世纪90年代~现在)新一代综合信息系统(2000年~现在)高级数据模型:扩充关系、面向对象、对象关系、演绎面向应用:空间的、时间的、多媒体的、主动的、科学的知识库基于X M L 的数据库系统W e b 挖掘数据挖掘和知识发现数据仓库技术和O L A P图 1.2 数据库系统及相关技术的演化1.1.3 数据仓库的特点❿1.主题与面向主题❿2.数据仓库数据的集成性❿3.数据仓库数据的不可更新性❿4.DW数据的时态性1.1.4 数据进入数据仓库的基本过程与建立数据仓库的步骤❿1.数据进入数据仓库的基本过程操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。
❿2.建立数据仓库的步骤1)收集和分析业务需求;2)建立数据模型和数据仓库的物理设计;3)定义数据源;4)选择数据仓库技术和平台;5)从操作型数据库中提取、转换和净化数据到数据仓库;6)选择访问和报表工具;7)选择数据库连接软件;8)选择数据分析和数据展示软件;9)更新数据仓库;1.1.5 分析数据仓库的内容支持管理需求支持日常操作一次操作数据量大一次操作数据最小面向分析面向应用分析驱动事务驱动一个时刻操作一人集合一个时刻操作一单元对性能要求宽松对性能要求高完全不同的生命周期(CLDS )生命周期符合SDLC 操作需求事先不知道操作需求事先可知道不更新可更新代表过去的数据在存取期间是准确的综合的,或提炼的细节的分析型数据操作型数据操作型数据和分析型数据的区别1.2.1 为什么要进行数据挖掘❿1.数据挖掘的作用❿数据挖掘解决诸如欺诈甄别(fraud detection)、保留客户(customer retention)、消除摩擦(attrition)、数据库营销(database marketing)、市场细分(market segmentation)、风险分析(risk analysis)、亲和力分析(affinity analysis)、客户满意度(customersatisfaction)、破产预测(bankruptcy prediction)、职务分析(portfolio analysis)等业务问题提供了有效的方法。
2.数据挖掘的背景(1)数据挖掘的商业背景(2)数据挖掘的技术背景(3)数据挖掘的社会背景3.数据挖掘对企业的影响由于投资更加准确而增加了收入获得的收益金融分析员通过数据挖掘建立预测模型以识别出历史上曾引起过市场被动的因素所具有的模式解决方案改进预测市场波动的能力,在金融市场建模中得到广泛应用。
如何采用神经网络方法提高金融增益和在采用数据挖掘技术建立股票市场模型。
业务问题金融业由于减少欺诈造成的费用而增加了利润获得的收益业务人员通过数据挖掘建立预测模型识别出哪些赔偿要求最可能具有欺诈性解决方案减少保险欺诈案件的发生数量业务问题保险业由于将直接信函发送给正确的客户而增加了销售额获得的收益销售人员通过数据挖掘建立的预测模型以了解哪些人最有可能对直接信函作出响应解决方案增加对直接信函(direct mail )的响应率业务问题零售业1.2.2 什么是数据挖掘1.数据挖掘概念定义1 G.Piatetsky Shapior,W.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。
定义2 有人简单认为,数据挖掘就是数据库中知识的发现。
定义3 有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。
定义4 有人认为,数据挖掘就是从大量数据中提取或挖掘知识。
定义5 Fayyad等在“知识发现96国际会议上”认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。
这种观点将数据挖掘的对象局限于数据库。
定义6 数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。
综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。
2.数据挖掘的分类同类共性广义知识、特征型知识、属性差别知识、关联型知识、预测型知识、离群型知识、按挖掘知识的反映事物之间的性质分类原始层次、高层次和多层次按挖掘知识的抽象层次分类模糊和粗集方法、人工神经网络、遗传算法、决策树、最近邻技术、规则归纳、可视化技术按采用的技术分类关联规则、分类规则、聚类规则、趋势分析、偏差分析、模式分析、特征规则、总结规则按挖掘的规则类关系型、事务型、面向对象型、主动型、空间型、文本型、多媒体、异构数据库按挖掘的数据库分类描述式数据挖掘、预测式数据挖掘按数据分析的角度分类直接数据挖掘、间接数据挖掘按数据挖掘方法的直接性类别分类标准❿3.与数据挖掘相关的几个概念1)直接数据挖掘利用可用的数据建立一个模型,模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,分类、估值、预言属于直接数据挖掘。
2)间接数据挖掘不是选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系。
相关性分组或关联规则、聚集、描述和可视化属于间接数据挖掘。
3)描述式数据挖掘以简洁概要的方式描述数据,并提供数据的有意义的一般知识。
4)预测式数据挖掘分析数据,建立一个或一组模型,并试图预测新数据集的行为。
❿3.与数据挖掘相关的几个概念(续)5)数据库查询工具和数据挖掘工具之间的差异查询工具能帮助用户从数据库数据中找到新的、有意义的事实。
这类问题是查询所要访问的是对象是否在某一特定的位置。
这与目前数据库系统中大部分的查询操作是相似的。
通过这类问题使你可以确定对象将到达的位置。
6)信息7)知识(knowledge)8)数据、信息与知识的转化关系识别、检测、表达 转变、处理获取、创造 对象数据知识信息图1.3 数据、信息与知识的关系1.2.3 数据挖掘的特点1)处理的数据规模十分庞大;2)由于用户不能形成精确的查询要求,因此需要靠DM技术来寻找其可能感兴趣的东西;3)DM对数据的迅速变化做出快速响应,以提供决策支持信息;4)DM既要发现潜在规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据更新;5)DM中规则的发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。