数据挖掘第二章——认识数据(1)2
- 格式:ppt
- 大小:1.09 MB
- 文档页数:126
第2章数据仓库2.1数据仓库的基本概念1. 数据仓库的数据是面向主题的数据仓库与数据挖掘技术图2-1主题间的重叠关系2. 数据仓库的数据是集成的3. 数据仓库的数据是不可更新的数据仓库与数据挖掘技术4. 数据仓库的数据是随时间不断变化的图2-2数据仓库体系结构2.2数据仓库的体系结构数据仓库与数据挖掘技术图2-3数据仓库数据组织结构2.2.1元数据1. 元数据在数据仓库中的作用2. 元数据的使用3. 元数据的分类4. 元数据的内容2.2.2粒度的概念1. 按时间段综合数据的粒度2. 样本数据库2.2.3分割问题1. 分割的优越性2. 数据分割的标准3. 分割的层次2.2.4数据仓库中的数据组织形式1. 简单堆积结构图2-4简单堆积结构数据组织形式2. 轮转综合结构数据仓库与数据挖掘技术图2-5轮转综合结构数据组织形式3. 简单直接结构图2-6简单直接结构数据组织形式4. 连续结构图2-7连续结构数据组织形式数据仓库与数据挖掘技术2.3数据仓库的数据模型2.3.1概念数据模型图2-8商品、顾客和供应商E-R图2.3.2逻辑数据模型2.3.3物理数据模型2.3.4高层数据模型、中间层数据模型和低层数据模型1. 高层数据模型2. 中间层数据模型3. 低层数据模型数据仓库与数据挖掘技术2.4数据仓库设计步骤图2-9数据仓库设计步骤2.4.1概念模型设计1. 界定系统边界2. 确定主要的主题域3. 实例2.4.2技术准备工作2.4.3逻辑模型设计1. 分析主题域2. 划分粒度层次3. 确定数据分割策略4. 定义关系模式5. 定义记录系统2.4.4物理模型设计1. 确定数据的存储结构数据仓库与数据挖掘技术2. 确定索引策略3. 确定数据存放位置4. 确定存储分配2.4.5数据仓库的生成1. 接口设计2. 数据装入2.4.6数据仓库的使用和维护1. 开发DSS应用图2-10DSS应用开发步骤2. 进一步理解需求,改善系统,维护数据仓库图2-11William H.Inmon数据仓库设计步骤数据仓库与数据挖掘技术2.5利用SQL Server 2005构建数据仓库图2-12使用Visual Studio 2005系统新建项目图2-13新建Analysis Services项目图2-14新建数据源数据仓库与数据挖掘技术图2-15新建数据源向导图2-16选择如何连接数据源图2-17连接管理器图2-18连接管理器连接测试成功窗口图2-19选择已经连接的数据库作为数据源图2-20选择连接数据源的凭证图2-21新建数据源向导完成图2-22右击新建数据源视图图2-23新建数据源视图向导图2-24选择视图的数据源图2-25选择表和视图图2-26完成新建数据源视图向导图2-27新建多维数据集图2-28多维数据集向导图2-29选择生成多维数据集的方法图2-30选择多维数据集的数据源视图图2-31检测事实数据表和维度表图2-32标示事实表和维度表图2-33选择度量值图2-34扫描维度图2-35查看维度结构图2-36完成多维数据集向导图2-37创建完成数据仓库界面习题21. 如何理解数据仓库是面向主题的、集成的、不可更改的和是随时间不断变化的。
数据仓库与数据挖掘教程(第2版)课后习题答案第二章1. 什么是数据仓库?它与传统数据库有什么不同?答:数据仓库是一个面向主题、集成、稳定、可学习的数据集合,用于支持企业决策制定和决策支持系统。
与传统数据库相比,数据仓库更注重数据的整合和大数据的处理能力,以支持更高级别的数据分析和决策。
2. 什么是元数据?有哪些类型?答:元数据指描述数据仓库中数据的数据,用于描述数据的含义、格式、内容、质量、来源、使用和存储等方面的信息。
元数据有三种类型:技术元数据、业务元数据和操作元数据。
3. 数据仓库的架构有哪些组成部分?请简述各组成部分的作用。
答:数据仓库的架构主要包括数据源、数据抽取、清理和转换、存储和管理、元数据管理、查询和分析等几个组成部分。
- 数据源:指数据仓库的数据来源,可以是事务处理系统、外部数据源、第三方提供商等。
- 数据抽取、清理和转换:将数据从各种不同的来源抽取出来并转化为简单、标准的格式,以便进行加工和分析。
- 存储和管理:将经过抽取、转换和清洗后的数据存储在数据仓库中并进行管理,查找、更新和删除等操作。
- 元数据管理:对数据仓库中的元数据进行管理,并将其存储在元数据存储库中。
- 查询和分析:通过各种查询和分析工具来进行数据挖掘、分析和报告。
4. 请列出数据仓库中的三种主要数据类型。
答:数据仓库中的三种主要数据类型包括事实数据、维度数据和元数据。
5. 请列出数据仓库的三种不同的操作类型。
答:数据仓库的三种不同的操作类型包括基础操作、加工操作和查询操作。
6. 数据挖掘的定义是什么?答:数据挖掘是一种通过分析大量数据来发现有意义模式、趋势和关联的过程。
它是既包含统计学、机器学习和数据库技术的交叉学科,又包含更广泛的知识和业务领域。
7. 请列出数据挖掘中的四个主要任务。
答:数据挖掘中的四个主要任务包括描述性数据挖掘、预测性数据挖掘、关联数据挖掘和分类和聚类。
8. 数据仓库中经常使用OLAP分析方式,您了解OLAP是什么吗?答: OLAP是一种面向主题的数据分析方式,可以帮助用户对快速变化的数据进行多维分析和决策支持。
1.1什么是数据挖掘?(a)它是一种广告宣传吗?(d)它是一种从数据库、统计学、机器学和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出一种观点,说数据挖掘是数据库进化的结果,你认为数据挖掘也是机器学习研究进化的结果吗?你能结合该学科的发展历史提出这一观点吗?针对统计学和模式知识领域做相同的事(d)当把数据挖掘看做知识点发现过程时,描述数据挖掘所涉及的步骤答:数据挖掘比较简单的定义是:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。
数据挖掘不是一种广告宣传,而是由于大量数据的可用性以及把这些数据变为有用的信息的迫切需要,使得数据挖掘变得更加有必要。
因此,数据挖掘可以被看作是信息技术的自然演变的结果。
数据挖掘不是一种从数据库、统计学和机器学习发展的技术的简单转换,而是来自多学科,例如数据库技术、统计学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成。
数据库技术开始于数据收集和数据库创建机制的发展,导致了用于数据管理的有效机制,包括数据存储和检索,查询和事务处理的发展。
提供查询和事务处理的大量的数据库系统最终自然地导致了对数据分析和理解的需要。
因此,出于这种必要性,数据挖掘开始了其发展。
当把数据挖掘看作知识发现过程时,涉及步骤如下:数据清理,一个删除或消除噪声和不一致的数据的过程;数据集成,多种数据源可以组合在一起;数据选择,从数据库中提取与分析任务相关的数据;数据变换,数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘,基本步骤,使用智能方法提取数据模式;模式评估,根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识1.3定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。
《知识发现与数据挖掘》教学大纲Knowledge Discovery and Data Mining第一部分大纲说明1. 课程代码:1030812082. 课程性质:专业非学位课3. 学时/学分:20/24. 课程目标和任务:数据挖掘是一门新兴的交叉性学科,在很多重要领域,数据挖掘技术发挥着重要作用,如地球科学领域、矿业工程领域、生物工程工程、商业领域、金融和保险领域等。
本课程课程主要讲授数据挖掘技术的基本原理、方法、算法,具体包括:数据挖掘技术内涵、数据特征、聚类分析,关联规则分析、分类等,以及数据挖掘技术在地矿领域的应用。
通过本课程的学习,使研究生掌握数据挖掘技术的基本原理、方法和算法,了解数据挖掘技术的研究与应用热点、数据挖掘技术能够解决的问题和今后研究与应用的发展方向,以及如何利用数据挖掘技术解决实际问题。
5. 教学方式:课堂教学6. 考核方式:考查7. 先修课程:掌握一定的计算机基础知识9. 教材及教学参考资料:(一)教材:Pang-Ning Tan, Michael Steinbach and Vipin Kumar.《Introduction to Data Mining》,北京:人民邮电出版社,2006(二)教学参考资料:Jia-Wei Han and Micheline Kamber.《数据挖掘概念与技术》,北京:机械工业出版社,2003第二部分教学内容和教学要求第一章数据挖掘概述1.1 教学目的与要求重点讲解数据挖掘的起源、数据挖掘过程与功能,以及面临的主要问题。
1.2 教学内容理解和掌握数据挖掘的基本概念、数据挖掘过程以及数据挖掘功能;了解数据挖掘的应用和面临的问题;重点是对数据挖掘能够解决的问题和解决问题思路有清晰的认识。
1.2.1 什么是数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。
数据挖掘:是从大量数据中发现有趣(非平庸的、隐含的、先前未知、潜在实用)模式,这些数据可以存放在数据库,数据仓库或者其他信息存储中。
挖掘流程:(1)学习应用域(2)目标数据创建集(3)数据清洗和预处理(4)数据规约和转换(5)选择数据挖掘函数(总结、分类、回归、关联、分类) (6)选择挖掘算法(7)找寻兴趣度模式(8)模式评估和知识展示(9)使用挖掘的知识概念/类描述:一种数据泛化形式,用汇总的、简洁的和精确的方法描述各个类和概念,通过 (1) 数据特征化:目标类数据的普通特性或者特征的汇总; (2) 数据区分:将目标类数据的普通特性与一个或者多个可比较类进行比较; (3)数据特征化和比较来得到。
关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起浮现的条件,通常要满足最小支持度阈值和最小置信度阈值。
分类:找出能够描述和区分数据类或者概念的模型,以便能够使用模型预测类标号未知的对象类,导出的模型是基于训练集的分析。
导出模型的算法:决策树、神经网络、贝叶斯、(遗传、粗糙集、含糊集)。
预测:建立连续值函数模型,预测空缺的或者不知道的数值数据集。
孤立点:与数据的普通行为或者模型不一致的数据对象。
聚类:分析数据对象,而不考虑已知的类标记。
训练数据中不提供类标记,对象根据最大化类内的相似性和最小化类间的原则进行聚类或者分组,从而产生类标号。
第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。
从一个或者多个数据源采集信息,存放在一个一致的模式下,并且通常驻留在单个站点。
数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。
面向主题:排除无用数据,提供特定主题的简明视图。
集成的:多个异构数据源。
时变的:从历史角度提供信息,隐含时间信息。
非易失的:和操作数据的分离,只提供初始装入和访问。
联机事务处理OLTP:主要任务是执行联机事务和查询处理。
联系分析处理OLAP:数据仓库系统在数据分析和决策方面为用户或者‘知识工人’提供服务。