数据仓库、联机分析处理与数据挖掘
- 格式:doc
- 大小:218.00 KB
- 文档页数:6
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
数据挖掘课程大纲课程名称:数据挖掘/ Data Mining课程编号:242023授课对象:信息管理与信息系统专业本科生开课学期:第7学期先修课程:C语言程序设计、数据库应用课程属性:专业教育必修课总学时/学分:48 (含16实验学时)/3执笔人:编写日期:一、课程概述数据挖掘是信息管理与信息系统专业的专业基础课。
课程通过介绍数据仓库和数据挖掘的相关概念和理论,要求学生掌握数据仓库的建立、联机分析以及分类、关联规那么、聚类等数据挖掘方法。
从而了解数据收集、分析的方式,理解知识发现的过程,掌握不同问题的分析和建模方法。
通过本课程的教学我们希望能够使学生在理解数据仓库和数据挖掘的基本理论基础上,能在SQL Server 2005平台上,初步具备针对具体的问题,选择合适的数据仓库和数据挖掘方法解决现实世界中较复杂问题的能力。
Data mining is a professional basic course of information management and information system. Through introducing the related concepts and theories of data warehouse and data mining, it requests students to understand the approaches for the establishment of data warehouse, on-line analysis, classification, association rules, clustering etc. So as to get familiar with the methods of data collection and analysis, understand the process of knowledge discovery, and master the analysis and modeling method of different problems. Through the teaching of this course, students are expected to be equipped with the basic theory of data warehouse and data mining, and the ability to solve complex real life problems on the platform of SQL Server 2005 by selecting the appropriate data warehouse and data mining approaches.二、课程目标1. 了解数据仓库的特点和建立方法;2.学会联机分析;3.掌握分类、关联规那么、聚类等数据挖掘方法;4.理解知识发现的过程。
第三章作业1.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么。
P40联机分析处理是共享多维信息的快速分析。
它体现在四个特征:(1)快速性(2)可分析性(3)多维性(4)信息性2.OLAP准则中的主要准则有哪些?P41(1)多维概念视图(2)透明性(3)可访问性(4)一直稳定的报表性能(5)客户/服务器体系结构(6)维的等同性(7)动态的系数矩阵处理(8)多用户支持能力(9)非限定的跨维操作(10)直观的数据操作(11)灵活的报表生成(12)不受限制的维和聚集层次3. 什么是维?关系数据库是二维数据吗?如何理解多维数据?P43维是人们观察数据的特定角度。
关系数据库不是二维数据,只是通过二维关系表示了数据的多维概念。
多维数据就是从多个特定角度来观察特定的变量。
4.MDDB(Multi Dimensional Database, 多维数据库)是以多维的方式组织数据,即以维作为坐标系,采用类似于数组的形式存储数据。
RDBMS(relational database management system,关系型数据库管理系统)通过数据、关系和对数据的约束三者组成的数据模型来存放和管理数据MDDB特点:1.数据库中的元素具有相同的数值2.多维数据库表达清晰,3.占用存储少RDBMS的特点:1.数据以表格的形式出现2.每行为各种记录名称3.每列为记录名称所对应的数据域4.许多的行和列组成一张表单5.若干的表单组成database5.1.数据存取速度ROLAP服务器需要将SQL语句转化为多维存储语句,临时“拼合”出多维数据立方体。
因此,ROLAP的响应时间较长。
MOLAP在数据存储速度上性能好,响应速度快。
2.数据存储的容量ROLAP使用的传统关系数据库的存储方法,在存储容量上基本没有限制。
MOLAP通常采用多平面叠加成立体的方式存放数据。
当数据量超过操作系统最大文件长度时,需要进行数据分割。
多维数据库的数据量级难以达到太大的字节级。
数据仓库、联机分析处理与数据挖掘08广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的内容:⏹数据仓库技术(Data Warehouse,DW)⏹联机分析处理技术(On-line Analytical Processing,OLAP)⏹数据挖掘技术(Data Mining,DM)数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。
数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。
因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中,以提高信息系统相应的能力。
但是,这三种技术之间确实存在着一定的联系性和互补性,把它们结合起来,就可以使它们的能力更充分地发挥出来。
这样就形成了一种决策支持系统的架构,即DW+OLAP+DM。
1、数据仓库技术⑴概述数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。
它从大量的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据聚合在一种特殊的格式中。
数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合。
其中,“主题”是指用户使用数据仓库辅助决策时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。
“面向主题”就是指数据仓库中的信息是按主题组织的,按主题来提供信息。
“集成的”是指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理,是相互一致的、具有代表性的数据。
“随时间变化”是指数据仓库中存储的是一个时间段的数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。
一般数据仓库内的数据时限为5到10年,数据量也比较大。
“信息本身相对稳定”是指数据一旦进入数据仓库,一般情况下将被长期保留,变更很少。
⑵数据仓库组织和管理数据的方法与普通数据库的不同点主要表现在三个方面:①它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。
②数据仓库是多维的,即数据仓库中数据的组织方式有多层的行和列。
③它支持决策处理,不同于普通的事务处理。
⑶数据仓库需要的数据库技术的支持:①并行数据库技术:数据仓库中的数据量很大,一般要达到GB级,有的甚至要到TB 级。
对于处理如此大规模的数据,使用并行技术对提高运行效率是很有帮助的。
②高性能的数据库服务器:传统数据库的应用是操作型的,而数据仓库的应用是分析性的,它需要有高性能的数据库服务器配合工作,对DBMS核心的性能也有更高的要求。
③数据库互操作技术:数据仓库的数据来源多种多样,可能来自数据库,也可能来自文件系统。
即使都来自数据库,这些数据库也往往是异构的。
为了从这些异构数据源中定期抽取、转换和集成所需要的数据存入库中,异构数据源之间的互操作技术是必需的。
2、联机分析处理技术联机分析处理是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。
联机分析处理是一种自上而下、不断深入的分析工具,在用户提出问题或假设之后,它负责提取出关于此问题的详细信息,并以一种比较直观的方式呈现给用户。
联机分析处理技术的发展速度很快,在数据仓库的概念提出不久,联机分析处理的理论及相应工具就被相继推出了。
联机分析处理要求按多维方式组织企业的数据。
多维数据库的发展使决策分析中的数据结构和分析方法相分离,才有可能研制出通用而灵活的分析工具,并使分析工具产品化。
决策分析需要从不同的角度观察分析数据,以多维数据为核心的多维数据分析是决策的主要内容。
多维数据库是以多维方式组织数据的。
目前,联机分析处理的工具可分为两类:一类是基于多维数据库的,另一类是基于关系数据库的。
两者的相同点是基本数据源仍是数据库和数据仓库,都是基于关系数据模型的,都向用户显示多维数据视图;不同点在于,前者把分析所需的数据从数据仓库中抽取出来,物理地组织成多维数据库,而后者则是利用关系表来模拟多维数据,并不是物理地生成多维数据库。
3、数据挖掘技术数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜在的关联,发现被忽略的要素,而这些对预测趋势和决策行为也许是十分有用的。
从数据库的角度看,数据挖掘就是这样一个过程,它从数据库的数据中识别出有效的、新颖的、具有潜在效用的并最终可理解的信息(如规则、约束等)的非平凡过程。
非平凡是一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐含的、未知的和可能有用的信息。
从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、统计学和数据库技术等多种技术,能高度自动地分析企业原有的数据,进行归纳推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业决策者调整市场策略,从而减少风险、辅助做出正确的决策。
它是提高商业和科学决策过程中的质量和效率的一种新方法。
数据挖掘和联机分析处理都可以在数据仓库的基础上对数据进行分析,以辅助决策。
其中,联机分析处理还是一种传统的决策支持方法,即,在某个假设的前提下通过数据查询和分析来验证和否定这个假设,所以联机分析处理是一种验证性的分析。
与联机分析处理不同,数据挖掘是数据驱动的,是一种真正的知识发现方法。
使用数据挖掘工具,用户不必提出确切的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建立新的业务模型,帮助决策者调整市场策略,并找到正确的决策,这显然有利于发现未知的事实。
从数据分析深度的角度看,联机分析处理位于较低的层次,而数据挖掘则处于较深的层次。
所以,联机分析处理和数据挖掘的主要差别就在于是否能自动地进行数据分析。
4、决策支持系统在传统的决策支持系统中,数据库、模型库和知识库往往被独立地设计和实现,因而缺乏内在的统一性。
而以数据仓库为中心、事务处理和数据挖掘为手段的新方案很好地解决了这个问题。
如图4.18所示⑴数据仓库解决了数据不统一的问题。
数据仓库自底层数据库收集大量事务级数据的同时,对数据进行集成、转换和综合,形成面向全局的数据视图,形成整个系统的数据基础。
⑵联机分析处理从数据仓库中的集成数据出发,构建面向分析的多维数据模型,利用这个带有普遍性的数据分析模型,用户可以使用不同的方法,从不同的角度对数据进行分析,实现了分析方法和数据结构的分离。
⑶数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在模式,并以这种模式为基础自动做出预测。
数据挖掘反过来又可以为联机分析处理提供分析的模式。
正是由于数据仓库、联机分析处理和数据挖掘这三种技术的联系性和互补性,使他们从不同的角度为决策支持服务。
随着企业竞争的日益加剧,这种新型的决策支持系统解决方案将受到越来越多的企业的青睐。
4.5.3 数据库技术与电子商务数据库技术对电子商务的支持是全方位的,从底层的数据基础到上层的应用都涉及到数据库技术。
其结构如图4.19所示。
从图中可以看出,数据库技术对于电子商务的支持可以概括为以下几部分:1、数据的收集、存储和组织这是传统数据库系统的主要功能,对于参与电子商务的企业而言,数据的来源不仅仅是企业内部管理信息系统,还包括大量的外部数据。
数据是企业的重要资源,是决策的依据,是进行各种生产经营活动的基础和结果。
2、决策支持这就要用到前面所提到的数据仓库解决方案。
这时数据库中存储的数据依然是决策的依据。
决策关系到企业未来成败的关键。
电子商务系统如果缺少好的决策支持功能,一方面是对电子商务海量数据资源的一种浪费,另一方面也是对从事电子商务的企业的一种损失。
3、对EDI的支持EDI是电子商务重要的组成部分,要想成功地实现EDI,企业的基础设施建设是关键,而数据库系统的建设是其中重要的一环。
如果有良好的数据库系统的支持,就可以实现应用到应用的EDI过程。
这一过程是企业内部的管理信息系统依据业务情况自动产生EDI订单,并传输给贸易伙伴;而对方传来的EDI单证也可以由系统自动解释,并存入相应的数据库,整个过程无需人工干预。
因此,业务数据库和EDI系统之间的接口就变得非常重要。
这个接口的功能可以概括为:⑴提供标准的信息格式定义。
⑵与数据库管理系统的无关性。
⑶自动抽取数据库中的相关数据转换为Edi单证格式。
⑷自动抽取EDI单证的关键数据存储到数据库中。
在这一过程中,可以设立一个EDI数据库专门用于有关EDI数据的处理。
这样的管理方式简单明了,但如果数据库之间的沟通不顺畅,就可能产生数据不一致的现象。
4、Web数据库随着WWW的不断发展,越来越多的企业加入到Web中来。
当前许多企业纷纷在Web上开发自己的主页来介绍自己的产品和服务。
有的网页不仅有琳琅满目的产品信息和优惠的价格,还配有详细的专家评论,牢牢抓住了网上用户的心理。
企业不仅可以通过Web发布自己的信息,同时也可以收集顾客的需求信息。
这样给双方都带来了好处。
对于企业而言,它不仅可以用相对低的成本介绍和展示其产品和服务,也可以获得准确的客户需求信息。
对于顾客而言,浏览网页省时省力,而且可以及时把要求反映给厂家,定制出自己喜欢的产品。
而且,访问Web都是通过浏览器,这样就统一了界面,有利于行业标准化。
Web数据库是一个新兴事物,Web与数据库的结合,主要是源于两者各自的优势和缺陷。
⑴ Web的特点Web上数据量大、类型多、缺乏组织和管理。
目前Web中字节量的增长速度达到每月15%以上。
因为Web的链接资源是非官方的,所以Web的数据缺少规范。
目前Web上的数据主要由静态HTML表达,其优点是表现能力强,链点跳转灵活,与平台无关。
但由于Web页面结构自由性大,致使Web上的信息又多又混乱。
就管理角度而言,Web的数据管理只相当于20世纪70年代的文件管理水平。
而且HTML文件动态更新特性差,用户很难得到最新的消息反馈。
⑵数据库技术的特点当前的数据库管理系统已发展到相当成熟的阶段,能高效、高质、安全地管理数据。
与Web相比,数据库管理系统显得严谨而灵活不足。
Web与数据库结合,可以集Web和数据库的诸优点于一身。
前端有界面友好的Web浏览器,后台则由成熟的数据库技术作支撑。
这样无疑会给企业一个良好的应用环境。
数据库是企业管理信息系统中用来管理信息的工具,所以数据库技术是渗透在其中,无处不在的。
电子商务作为新型的企业经营管理模式,当然也离不开数据库技术的支持。
如今,数据库技术正在为推进电子商务应用发挥巨大的作用,将来随着数据库技术飞速地发展,它一定会为优化企业管理模式做出巨大的贡献。