数据仓库与数据挖掘概述
- 格式:ppt
- 大小:1.68 MB
- 文档页数:58
数据仓库与数据挖掘技术解析在现代信息化的时代,数据已经成为了一种非常重要的资产。
在这些海量的数据之中,有很多有价值的信息被隐藏其间。
这就需要我们使用数据仓库与数据挖掘技术,通过对数据的分析和挖掘,向我们呈现出内在有价值的数据信息,帮助我们更好地理解数据,并从中发现我们需要的信息。
一、什么是数据仓库?在这个信息时代,数据已经成为企业不可缺少的一部分。
数据仓库是一个专门用于存储数据的系统。
它是一个集成的数据存储库,可以提供数据分析、数据挖掘、Web 搜索和企业报告等功能,以帮助企业快速响应客户需求、创造商业价值。
数据仓库是一个面向主题、集成、时间相对稳定和可刷新的数据存储库,用于支持企业智能化决策的整个过程。
面向主题: 数据仓库是围绕企业内关键业务件建立的,如销售、供应、市场等;集成: 数据仓库可集成不同来源的数据;时间相对稳定: 数据仓库存储的数据相对长周期,如一年或更长;可刷新: 数据仓库是可刷新的,数据可以通过批处理或实时方式更新。
二、数据仓库的重要性数据仓库非常重要,因为它提供了企业知识管理的基础。
企业知识管理是智能化决策和企业的长期成功的基础。
数据仓库可以帮助企业了解他们的客户、业务和市场动态。
由于大量的数据每天产生,数据仓库是必要的,以便企业能够应对不断变化的市场需求和管理信息的日益复杂的挑战。
数据仓库的另一个重要方面是它可以帮助企业洞察和理解他们的客户。
通过数据仓库分析数据可以确定客户的购买模式、使用历史和趋势,以及他们对于企业的反应。
这有助于企业制定更好的战略、优化点,以更好地满足客户需求。
三、数据挖掘技术数据挖掘是一种从大量数据中提取信息、关系和模式的技术。
数据挖掘不是单纯的筛选和过滤数据,而是在数据中寻找隐含的知识和模式。
如同羊毛出在羊身上,这些我们不曾发现过的、规律性强的数据关联,本身就是数据中蕴藏的财富。
数据挖掘使用抽样、统计分析、模型构建等技术,将庞大、复杂的数据库处理成有价值的信息,一方面为业务提供帮助,一方面成为指导企业决策的可靠的数据来源。
数据仓库与数据挖掘区别随着数据的日益增长和应用需求的扩大,数据仓库和数据挖掘成为了越来越重要的领域。
这两个领域虽然有时被混淆在一起,但其实有很大的区别。
本文将深入探讨数据仓库和数据挖掘的区别。
一、数据仓库是什么首先我们来看数据仓库是什么。
数据仓库是一个专门存储企业级数据的系统。
它是一个集中管理和众多决策支持工具的数据中心,可以提供企业数据的历史标准记录和解决方案。
数据仓库包括一个或多个数据源、抽取转换加载程序、集成部分和元数据信息。
在数据仓库中,业务数据从各个操作性/事务型系统收集、清洗、集成并存储,为后期的分析使用提供了数据资源。
数据仓库通常能够支持复杂、高级、决策性的业务分析,而传统的操作数据系统通常只支持简单的查询和记录事务。
二、数据挖掘是什么接下来我们了解一下数据挖掘。
数据挖掘是一种从数据中发掘隐藏模式、关系和规律的过程,可以通过应用统计分析、机器学习、聚类分析以及其它相关技术进行自动化发现。
数据挖掘是在海量、复杂、异构、不确定的数据中获取有用知识的一种方法。
数据挖掘与统计学不同之处在于,统计学更加关注于数据分布、统计量以及推断。
而数据挖掘更加关心的是数据的预测建模、分类和聚类。
数据挖掘还可以探索数据,从而寻找实现业务目标的方案。
在数据挖掘中,数据不仅用于构建模型,还广泛应用于商业分析、客户关系管理、市场探测以及其它领域。
三、数据仓库和数据挖掘的区别数据仓库和数据挖掘经常被误解,认为是相同的领域。
然而,两者之间有很大的区别。
首先,数据仓库旨在存储和管理各种类型的数据。
而数据挖掘旨在从这些数据源中提取有用、有影响的业务信息。
因此,可以说数据仓库是数据挖掘的基础。
其次,数据仓库主要是为数据分析提供数据,而数据挖掘旨在构建更深入的分析和预测模型。
数据仓库会使业务分析师获得简单易懂的答案,而数据挖掘技术能发现隐藏的模式和规律,发掘数据中的未知信息。
另外,数据仓库主要是为企业的管理团队和商业分析师提供数据资源。
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
数据仓库与数据挖掘
(DataWarehouseandDataMining)
总学时:48学时理论:48学时实验(上机、实习等):。
学时
学分:3
课程主要内容:
数据仓库(DW)与数据挖掘(DM)是20世纪90年代中期兴起的新技术。
数据仓库用于决策分析,数据挖掘用于从数据库中发现知识。
数据仓库和数据挖掘的结合为决策支持系统(DSS)开辟了新方向,它们也是商业智能(B1)的主要技术。
数据仓库与数据挖掘是计算机专业的选修课程,本课程主要讲述:数据仓库的基本概念、原理及应用;各类数据挖掘的分类、原理与方法。
介绍数据仓库的概念、特征、存贮结构及数据分析的手段。
重点介绍数据挖掘中的分类挖掘、聚类挖掘、关联规则挖掘的概念、原理、方法及应用特征。
简单介绍WEB挖掘、空间数据挖掘、时序数据挖掘等的基本原理与方法。
同时,结合高级语言与SQ1编写锻炼学习者在数据库中对数据进行提取与分析能力。
先修课程:
≪C语言程序设计》、《离散数学》、《数据结构》、《数据库系统原理》、《操作系统原理》等。
适用专业:
计算机科学与技术
教材:
MargaretH.Dunham著,郭崇慧等译.《数据挖掘教程》.北京:清华大学出版社,2005教学参考书:
[1]范明等译.《数据挖掘概念与技术》.北京:机械工业出版社,2008。
数据仓库与数据挖掘的关系数据仓库与数据挖掘是两个在大数据时代中非常重要的概念和实践领域。
数据仓库是一个集中存放、管理和组织企业各种数据的系统,它通过将分散在不同源头的数据进行集成,并且对数据进行清洗和转换,最终形成一个可用于数据分析和决策制定的统一数据视图。
而数据挖掘则是通过从大规模数据中发现隐藏的模式、关联规则、趋势和未知知识的过程。
数据仓库和数据挖掘之间有着紧密的关系。
数据仓库是数据挖掘的基础和源头,数据挖掘则是从数据仓库中提取有价值的信息和知识的工具和方法。
数据仓库提供了数据挖掘所需的大规模、集成、清洗和预处理的数据,而数据挖掘则通过在数据仓库中进行数据分析和模式发现,帮助企业探索并发现隐藏在数据中的知识和智慧。
可以说,数据仓库是数据挖掘的核心和基础设施。
首先,数据仓库提供了数据挖掘所需的数据基础。
在数据仓库中,企业可以将来自不同部门、不同系统的数据进行集成和融合,将分散的数据变成统一的数据视图,为数据挖掘提供了一个全面而丰富的数据源。
数据仓库还对数据进行了清洗和转换,去除了冗余、不完整和错误的数据,提高了数据的质量和可用性。
这样,数据挖掘就能够基于高质量的数据进行分析和挖掘,得到准确、可靠的结果。
其次,数据仓库为数据挖掘提供了数据的快速和高效访问。
数据仓库采用了多维数据模型和数据立方体等技术,可以对数据进行多维度的组织和存储,快速地响应用户的查询和分析需求。
通过数据仓库,数据挖掘人员可以方便地进行数据的切片、切块和钻取等操作,发现数据中的规律性和关联性,并进行深入的探索和分析。
数据仓库还提供了对历史数据的保存和查询功能,使得数据挖掘可以对历史数据进行回溯和分析,帮助企业发现过去的趋势和规律,为未来的决策提供参考和支持。
再者,数据仓库与数据挖掘之间互为补充,相互促进。
数据挖掘可以从数据仓库中发现隐藏的模式和知识,为企业决策提供有力的支持。
而数据挖掘的结果和发现也可以反过来指导数据仓库的设计和建设。
第1章数据挖掘和数据仓库概述1.1数据挖掘引论1.1.1数据挖掘的由来1.1.2数据挖掘的定义图1-1数据挖掘的过程1. 确定业务对象2. 数据准备3. 数据挖掘4. 结果分析与知识同化1.1.3数据挖掘的功能1. 概念描述2. 关联分析3. 分类与预测4. 聚类分析5. 偏差分析1.1.4数据挖掘的常用方法1. 聚类分析2. 决策树数据仓库与数据挖掘技术3. 人工神经网络4. 粗糙集5. 关联规则挖掘6. 统计分析1.2数据仓库引论1.2.1数据仓库的产生与发展1.2.2数据仓库的定义1.2.3数据仓库与数据挖掘的联系与区别1. 数据仓库与数据挖掘的联系2. 数据仓库与数据挖掘的区别1.3数据挖掘的应用1.3.1数据挖掘的应用领域1. 金融业2. 保险业3. 科学研究4. 市场营销5. 客户关系管理6. 其他领域1.3.2数据挖掘案例1. 竞技运动中的数据挖掘2. 超市中的数据挖掘3. 站点访问量分析中的数据挖掘4. 通过数据挖掘进行个性化服务数据仓库与数据挖掘技术5. “体育精品”体育用品公司1.4常用数据挖掘工具1.4.1数据挖掘工具的种类1. 按使用方式分类2. 按数据挖掘技术分类3. 按应用范围分类1.4.2评价数据挖掘工具优劣的指标1.4.3常用数据挖掘工具1. SPSS图1-2SPSS界面2. SAS数据仓库与数据挖掘技术图1-3SAS界面3. SQL Sever 2005图1-4Microsoft SQL Server 2005数据挖掘平台界面4. Weka数据仓库与数据挖掘技术图1-5Weka界面5. MA TLAB图1-6MATLAB的界面习题11. 数据挖掘技术涉及哪些技术领域?2. 数据挖掘的源数据是否必须是数据仓库的数据?可以有哪些来源?数据仓库与数据挖掘技术3. 数据挖掘的具体功能有哪些?4. 数据挖掘技术主要包含哪几种?5. 数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?6. 数据挖掘可以应用在哪些领域?7. 数据库与数据仓库的本质区别是什么?8. 举例说明数据挖掘与数据仓库的关系。
数据仓库和数据挖掘技术的应用随着科技的飞速发展,数据已成为企业的最宝贵的财富之一。
在大数据时代,数据分析和挖掘的技术变得越来越重要。
数据仓库和数据挖掘技术在商业、医疗、零售等各个领域得到广泛的应用。
什么是数据仓库?数据仓库是指集成了企业内不同业务系统中数据并进行分类、整理、存储、维护等一系列工作的过程。
它不仅将数据整合起来,还能帮助企业更好、更快速地理解和处理数据,为企业提供决策支持。
在人工智能时代,数据仓库显得尤为重要。
通过对不同来源的数据的收集展示和分析,企业可以更好的理解自己,获得更多商业价值的信息。
什么是数据挖掘技术?数据挖掘是指从海量数据中寻找隐藏信息的过程。
在数据挖掘技术中,我们能够对透过预处理后的数据进行分析和挖掘,从中发现隐藏在数据背后的信息,探求数据背后的规律,实现对数据的快速定位和提取。
数据挖掘技术是一种非常强大的工具,它可以帮助企业更好、更准确地预测消费者需求,提供更优质的服务和产品,并且最终能够提升企业的运营效率和收益。
在商业领域中,数据仓库和数据挖掘技术被广泛应用。
其中之一是商业智能。
商业智能是利用数据仓库平台与数据挖掘技术来提升企业的营销、生产及销售效率的一种解决方案。
通过它,企业可以快速分析、比较和评估数据,帮助企业更好地预测市场需求,提供更好的客户体验,实现数字化转型。
另外,在医疗领域,数据仓库和数据挖掘技术的应用也越来越广泛。
通过对于患者数据的收集和分类整理,医疗机构能够快速了解患者的病情,以及一些只有笔记本能够发现的潜在的疾病风险。
在医疗判断和治疗方面,数据挖掘能够实现快速定位,以及提供个人化和更为有效的治疗方法,为患者带来更好的治疗效果。
在社交软件中,数据挖掘技术也可以提供更为个性化的推荐和服务。
通过分析用户的行为和习惯,社交软件可以更加精准地预测用户的喜好和取向。
这样能够帮助社交软件为用户提供更准确的推荐、更个性化的服务内容,实现提高用户体验的目的。
结论在当今大数据时代,数据仓库和数据挖掘技术的应用范围越来越广泛。
数据仓库与数据挖掘教学大纲一、课程简介数据仓库与数据挖掘是现代信息技术领域的重要课程之一,旨在培养学生在大数据时代处理和分析海量数据的能力。
本课程通过理论与实践相结合的教学方式,介绍数据仓库和数据挖掘的基本概念、原理、方法和技术,培养学生的数据分析和决策能力。
二、课程目标1. 理解数据仓库和数据挖掘的基本概念和原理;2. 掌握数据仓库和数据挖掘的基本方法和技术;3. 能够独立设计和构建数据仓库系统;4. 能够运用数据挖掘技术进行数据分析和决策支持。
三、课程内容1. 数据仓库基础1.1 数据仓库概述- 数据仓库的定义和特点- 数据仓库与传统数据库的区别1.2 数据仓库架构- 数据仓库的组成部分- 数据仓库的层次结构1.3 数据仓库建模- 维度建模与事实建模- 星型模型和雪花模型2. 数据仓库设计与实施2.1 数据仓库设计方法- 需求分析和数据模型设计- 数据抽取、转换和加载2.2 数据仓库实施技术- 数据仓库的物理存储结构- 数据仓库的查询与优化3. 数据挖掘基础3.1 数据挖掘概述- 数据挖掘的定义和应用领域 - 数据挖掘的主要任务和过程 3.2 数据预处理- 数据清洗、集成、转换和规约 - 数据规范化和属性选择3.3 数据挖掘算法- 分类与预测算法- 聚类与关联规则算法4. 数据挖掘应用4.1 数据挖掘在市场营销中的应用4.2 数据挖掘在金融风控中的应用4.3 数据挖掘在医疗决策中的应用四、教学方法1. 理论讲授:通过课堂讲解,介绍数据仓库与数据挖掘的基本概念、原理和方法。
2. 实践操作:通过实际案例和实验,引导学生运用数据仓库和数据挖掘技术进行数据分析和决策支持。
3. 讨论与互动:组织学生进行小组讨论和案例分析,促进学生之间的交流和合作。
五、考核方式1. 平时成绩:包括课堂参与、作业完成情况等。
2. 实验报告:根据实验内容和结果撰写实验报告。
3. 期末考试:对课程的理论知识进行考核。
六、参考教材1. 《数据仓库与数据挖掘导论》刘洪涛2. 《数据仓库与数据挖掘技术与应用》张荣华3. 《数据挖掘:概念与技术》周志华七、教学团队本课程由经验丰富的教师团队授课,团队成员包括数据仓库与数据挖掘领域的专家和从业者,具备扎实的理论基础和丰富的实践经验。
数据仓库与数据挖掘数据仓库与数据挖掘是现代信息技术领域中重要的概念和技术,它们在数据管理和分析方面起着关键作用。
本文将详细介绍数据仓库与数据挖掘的定义、原理、应用以及相关技术。
一、数据仓库的定义与原理数据仓库是一个用于存储和管理大量结构化和非结构化数据的系统,它将来自多个数据源的数据进行提取、转换和加载,以便进行高效的查询和分析。
数据仓库的主要特点包括:集成性、主题性、稳定性和可扩展性。
数据仓库的建立通常经历以下几个步骤:1. 数据提取:从各个数据源中提取数据,并进行清洗和转换,以确保数据的一致性和准确性。
2. 数据加载:将清洗和转换后的数据加载到数据仓库中,并进行索引和分区,以提高查询效率。
3. 数据建模:根据业务需求,设计和构建数据仓库的逻辑模型,包括维度模型和事实模型。
4. 数据查询与分析:通过使用数据仓库中的数据,进行复杂的查询和分析,以获取有价值的信息和洞察。
二、数据挖掘的定义与原理数据挖掘是从大量数据中发现隐藏的模式、关联和知识的过程。
它是通过应用统计学、机器学习和人工智能等技术,从数据中提取实用的信息,以支持决策和预测。
数据挖掘的主要任务包括:1. 分类:将数据分为不同的类别,以预测新数据的分类。
2. 聚类:将数据分为不同的群组,以发现数据中的相似模式。
3. 关联规则挖掘:发现数据中的相关关系和规律。
4. 预测:基于历史数据,预测未来的趋势和结果。
数据挖掘的过程通常包括以下几个步骤:1. 数据预处理:对原始数据进行清洗、转换和集成,以提高数据质量和一致性。
2. 特征选择:选择最具代表性和相关性的特征,以减少数据维度和提高模型的准确性。
3. 模型构建:选择合适的数据挖掘算法,并使用训练数据构建预测模型。
4. 模型评估:通过使用测试数据集,评估模型的性能和准确性。
5. 模型应用:将训练好的模型应用于新的数据,以进行预测和决策支持。
三、数据仓库与数据挖掘的应用数据仓库与数据挖掘在各个领域都有广泛的应用,包括市场营销、金融、医疗、电子商务等。
数据仓库与数据挖掘教学大纲一、课程简介数据仓库与数据挖掘是现代数据分析与决策的重要工具。
本课程旨在介绍数据仓库与数据挖掘的基本概念、原理、方法和应用,培养学生对大数据的处理和分析能力,以及利用数据挖掘技术进行数据驱动决策的能力。
二、课程目标1. 掌握数据仓库与数据挖掘的基本概念和原理。
2. 熟悉数据仓库与数据挖掘的常用方法和技术。
3. 能够应用数据仓库与数据挖掘技术进行数据预处理和特征选择。
4. 能够利用数据挖掘技术进行数据分类、聚类、关联规则挖掘等任务。
5. 能够利用数据仓库与数据挖掘技术解决实际问题并进行数据驱动决策。
三、教学内容与安排1. 数据仓库概述- 数据仓库的定义与特点- 数据仓库的架构与组成- 数据仓库的设计与实现2. 数据预处理- 数据清洗与去噪- 数据集成与转换- 数据规约与变换3. 特征选择与降维- 特征选择的概念与方法- 特征降维的概念与方法- 特征选择与降维的应用案例4. 数据分类与回归- 决策树算法- 朴素贝叶斯算法- 支持向量机算法- 逻辑回归算法5. 数据聚类- K均值聚类算法- 层次聚类算法- 密度聚类算法- 谱聚类算法6. 关联规则挖掘- 关联规则的定义与表示- 关联规则挖掘的算法与应用 - 关联规则挖掘的评估与优化7. 数据挖掘实践- 数据挖掘工具的介绍与使用- 实际数据挖掘项目案例分析- 数据挖掘结果的解释与应用四、教学方法与评价方式1. 教学方法- 理论讲授:通过课堂讲解介绍数据仓库与数据挖掘的基本概念、原理和方法。
- 实践操作:通过实验和案例分析,让学生掌握数据仓库与数据挖掘的实际应用技能。
- 课堂讨论:通过课堂讨论,促进学生对数据仓库与数据挖掘的理解和思量。
- 课程项目:设计数据挖掘项目,培养学生的数据分析和解决实际问题的能力。
2. 评价方式- 平时成绩:包括课堂表现、作业完成情况等。
- 实验报告:要求学生完成数据仓库与数据挖掘实验,并撰写实验报告。
- 期末考试:考察学生对数据仓库与数据挖掘的理论知识和应用能力。
第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
●OLAP技术的有关概念:多维数据集、维度、度量值和多维分析;●OLAP根据其存储数据的方式可分为三类:ROLAP、MOLAP、HOLAP6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。
8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主;以分析为主;以预测模型为主;以运营导向为主;以实时数据仓库、自动决策为主。
11、什么是数据仓库?数据仓库的特点主要有哪些?数据仓库通常是指一个数据库环境,而不是支一件产品,它是提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中通常不方便得到。
数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。