数据仓库与挖掘第五章数据挖掘概述[1]
- 格式:ppt
- 大小:637.00 KB
- 文档页数:38
绪论单元测试1.数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。
()A:错B:对答案:B第一章测试1.图挖掘技术在社会网络分析中扮演了重要的角色。
()A:错B:对答案:B2.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
( )A:对B:错答案:A3.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。
()A:错B:对答案:B4.建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?( )A:建模描述B:预测建模C:寻找模式和规则D:根据内容检索答案:B5.以下哪些学科和数据挖掘有密切联系?( )A:矿产挖掘B:统计C:计算机组成原理D:人工智能答案:BD第二章测试1.下面哪个不属于数据的属性类型:( )A:区间B:标称C:序数答案:D2.在上题中,属于定量的属性类型是:( )A:序数B:标称C:相异D:区间答案:D3.只有非零值才重要的二元属性被称作:( )A:离散属性B:对称属性C:非对称的二元属性D:计数属性答案:C4.以下哪种方法不属于特征选择的标准方法: ( )A:包装B:抽样C:嵌入D:过滤答案:B5.离群点可以是合法的数据对象或者值。
()A:对B:错答案:A第三章测试1.下面哪些属于可视化高维数据技术 ( )A:矩阵B:散布图C:Chernoff脸D:平行坐标系E:星形坐标答案:ACDE2.下面哪种不属于数据预处理的方法? ( )A:变量代换B:估计遗漏值C:离散化D:聚集答案:B3.联机分析处理包括以下哪些基本分析功能? ( )A:分类C:切块D:聚类E:转轴答案:BCE4.检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测。
A:密度B:邻近度C:聚类技术D:统计方法答案:D5.离散属性总是具有有限个值。
()A:错B:对答案:A第四章测试1.数据仓库系统的组成部分包括数据仓库,仓库管理,数据抽取,分析工具等四个部分. ( )A:对B:错答案:B2.数据仓库中间层OLAP服务器只能采用关系型OLAP ()A:对B:错答案:B3.下面列出的条目中,哪些是数据仓库的基本特征: ( )A:数据仓库是面向事务的B:数据仓库的数据是反映历史变化的C:数据仓库的数据是集成的D:数据仓库是面向主题的E:数据仓库的数据是相对稳定的答案:BDE4.以下各项均是针对数据仓库的不同说法,你认为正确的有()。
知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息,是汇总的。
5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。
知识点二可以挖掘什么数据1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳,以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念,称为类/概念描述7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。
面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。
形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。
结果描述可以用广义关系或者规则(也叫特征规则)提供。
9.用规则表示的区分描述叫做区分规则。
10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
数据挖掘是20世纪90年代中期兴起的决策支持新技术,是基于大规模数据库的决策支持系统的核心,它是从数据库中发现知识的核心技术。
数据挖掘能够对数据库中的数据进行分析,以获得对数据更加深入的了解。
数据挖掘技术经历了三个演变时期。
第一时期称为机器学习时期,在这时期人们将已知的并且已经成功解决的事例输入计算机,由计算机对输入的事例进行总结产生相应的规则,在把总结出来的这些规则应用于实践;第二时期称为神经网络技术时期,这一时期人们关注的重点主要是在知识工程领域,向计算机输入代码是知识工程的重要特征,然而,专家们在这方面取得的成果并不理想,因为它投资大、效果差。
第三时期称为KDD时期,即数据挖掘现阶段所处的时期。
它是在20世纪80年代神经网络理论和机器学习理论指导下进一步发展的成果。
当时的KDD全称为数据库知识发现。
它一般是指从样本数据中寻找有用信息或联系的全部方法,如今人们已经接受这个名称,并用KDD这个词来代替数据挖掘的全部过程。
这里我们需要指出的是数据挖掘只是整个KDD过程中的一个重要过程。
数据仓库技术的发展促进了数据挖掘的发展,因为数据仓库技术为数据挖掘提供了原动力。
但是,数据仓库并不是数据挖掘的唯一源泉,数据挖掘不但可以从数据库中提取有用的信息,而且还可以从其它许多源数据中挖掘有价值的信息。
数据挖掘(Data Mining,DM),也称数据库中知识发现(knowlegde discovery in database,KDD),就是从大量的、不完全的、有噪声的、模糊的及随机的实际数据中提取隐含在其中的、未知的、但又是潜在有用的信息和知识的过程。
现在与之相应的有很多术语,如数据分析、模式分析、数据考古等。
我们从数据挖掘的定义中可以看出它包含了有几层意义:所使用的样本数据一般要求是有代表性的、典型的、可靠的;在样本数据中发现的规律是我们需要的;在样本数据中发现的规律能够被我们理解、接受、运用。
数据挖掘过程从数据库中发现知识,简称KDD,是20世纪80年代末开始的,现在人们把KDD 过程可定义为从数据集中识别出有效的、新颖的、潜在有用的,以及最终可以理解的模式的高级处理过程[14]。
数据仓库与数据挖掘
(DataWarehouseandDataMining)
总学时:48学时理论:48学时实验(上机、实习等):。
学时
学分:3
课程主要内容:
数据仓库(DW)与数据挖掘(DM)是20世纪90年代中期兴起的新技术。
数据仓库用于决策分析,数据挖掘用于从数据库中发现知识。
数据仓库和数据挖掘的结合为决策支持系统(DSS)开辟了新方向,它们也是商业智能(B1)的主要技术。
数据仓库与数据挖掘是计算机专业的选修课程,本课程主要讲述:数据仓库的基本概念、原理及应用;各类数据挖掘的分类、原理与方法。
介绍数据仓库的概念、特征、存贮结构及数据分析的手段。
重点介绍数据挖掘中的分类挖掘、聚类挖掘、关联规则挖掘的概念、原理、方法及应用特征。
简单介绍WEB挖掘、空间数据挖掘、时序数据挖掘等的基本原理与方法。
同时,结合高级语言与SQ1编写锻炼学习者在数据库中对数据进行提取与分析能力。
先修课程:
≪C语言程序设计》、《离散数学》、《数据结构》、《数据库系统原理》、《操作系统原理》等。
适用专业:
计算机科学与技术
教材:
MargaretH.Dunham著,郭崇慧等译.《数据挖掘教程》.北京:清华大学出版社,2005教学参考书:
[1]范明等译.《数据挖掘概念与技术》.北京:机械工业出版社,2008。
1。
数据挖掘数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
〔技术角度的定义〕数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。
〔商业角度的定义〕数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。
2.空间数据库空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。
空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。
3.分类分类指通过分析一个类别已知的数据集的特征来建立一组模型,该模型可用以预测类别未知的数据项的类别.该分类模型可以表现为多种形式:分类规则(IF—THEN),决策树或者数学公式,乃至神经网络.4。
聚类分析聚类分析又称为“同质分组”或者“无监督的分类",指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。
相似性可以由用户或者专家定义的距离函数加以度量。
5.数据集成:指将多个数据源中的数据整合到一个一致的存储中6.数据仓库数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理人员的决策.7。
数据粒度粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。
8。
数据分割数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理.9.OLAP基本思想联机分析处理(OnLine Analysis Processing,OLAP)在数据仓库系统中,联机分析处理是重要的数据分析工具.OLAP的基本思想是从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。
OLAP是独立于数据仓库的一种技术概念当OLAP与数据仓库结合时,OLAP的数据源为数据仓库,数据仓库的大量数据是根据多维方式组织的.10.OLAP联机分析处理(OLAP)是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。