数据仓库复习题
- 格式:doc
- 大小:57.00 KB
- 文档页数:6
数据库题库含参考答案一、单选题(共98题,每题1分,共98分)1.在数据库应用系统生命周期模型中,规划与分析阶段的输出结果不包括()。
A、项目计划书B、需求规范说明书C、可行性分析报告D、系统范围与边界正确答案:B2.下列哪些属性不适合建立索引?()。
A、经常岀现在GROUP BY子句中的属性B、经常参与连接操作的属性C、经常出现在WHERE子句中的属性D、经常需要进行更新操作的属性正确答案:D3.下列属于数据仓库特点的是()。
A、一次处理的数据量小B、综合性和提炼性数据C、面向操作人员,支持日常操作D、重复性的、可预测的处理正确答案:B4.下述哪一个SQL语句用于实现数据存取的安全机制()。
A、COMMITB、ROLLBACKC、GRANTD、CREATE TABLE正确答案:C5.有教师表(教师号,姓名,职称.所在系)和授课表(教师号,课程号,授课学年,授课时数),同一门课程可由多个教师讲授,同一个教师也可讲授多门课程,査询从未被“教授”讲授过的课程的课程号,正确的语句是()。
A、SELECT课程号FROM授课表a JOIN教师表bON a 教师号=b.教师号WHERE职称!='教授'B、SELECT课程号FROM授课表a RIGHTOUTTER JOIN教师表bONa.教师号=b.教师号C、SELECT课程号FROM授课表WHERE课程号NOT IN (SELECT课程号FROM授课表a JOIN授课表b ON a 教师号=b.教师号WHERE职称!='教授')D、SELECT课程号FROM授课表WHERE课程号IN (SELECT课程号FROM授课表a JOIN授课表b ON a 教师号=b.教师号WHERE职称!=,教授,)正确答案:D6.下列有关范式的叙述中正确的是()。
A、如果关系模式RG 1NF,且R中主属性完全函数依赖于码,则R是2NFB、如果关系模式RG3NF, X、YCU,若X—Y,则R是BCNFC、如果关系模式ReBCNF,若X一一Y (Y4X)是平凡的多值依赖,则R 是4NFD、—个关系模式如果属于4NF,则一定属于BCNF;反之不成立正确答案:D7.下列说法正确的是( )。
数据仓库资料一、简答1、什么是元数据?元数据如何分类?请叙述元数据的作用。
答:元数据与数据字典类似,类似于电话黄页,是数据仓库数据本身信息的数据。
元数据的类型:1)操作性元数据2)抽取和转换元数据3)最终用户元数据元数据的作用:元数据负责连接数据仓库的所有部分,并为最终用户提供向导:1)易于数据仓库数据的理解2)保证数据质量3)提高系统的应用的适用度和可适展性4)便于信息交换。
2、数据仓库项目与OLTP系统项目有什么不同?答:存储数据不同:OLTP存储的是操作性数据,数据仓库中存储的是分析性数据对数据处理不同:OLTP是以传统的数据为中心进行企业日常处理,而数据仓库中的数据被用于分析背后的关联,为企业决策提供可靠的依据。
面向的使用人员不同:OLTP使用人员通常是企业中的具体操作员,处理的数据通常是企业业务细节信息,其目标是实现企业的业务运营。
而数据仓库的使用人员是企业中的高层,或是工程师,其中包含的信息是企业的宏观信息而非具体细节,其目的是为企业决策者提供支持。
3、MOLAP和ROLAP模型之间的本质区别是什么?列出它们的一些相同点。
答:本质区别:MOLAP是基于多维数据库来存储OLAP分析所需要的数据,数据以多维方式存储,并以多维视图方式显示,而ROLAP的底层数据库是关系数据库。
相同点:1)数据都作为关系表存储再数据仓库中2)都能获得一定成都的汇总数据3)都是从数据仓库存储器中访问数据4、什么是星型模式?什么是雪花模型?它由哪些表组成?答:星型模式:一种多维数据关系,由一个事实表和一组维表组成,每个维度表表达一个维,所有维度字段组成事实表的复合主键,事实表中的非主键属性称为事实,汇总出来的数值型数据大都是文字,时间等类型的数据。
雪花模式:它是对星型模式的一种扩展,比如日期,地区等多层次的维度的扩展,可类似扩展,是对星型模式进行规范化处理的产物,从消除数据冗余,从而使事实表,字段数和总长度降低。
一、填空题(15分)1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
数据仓库-期末考试复习题复思考题(重点)一、单项选择题1)一般信息管理中,采用哪种方式的概念模型最多A。
ce模型B.实体-关系模型C.02O模型D.B/S模型(2)在关系表中,下列哪种属性不能承担主列关键字(Key)?A.身份证号B.银行卡号C.加密电文D.企业标识码(3)数据仓库的生命周期中,不包含下列哪个阶段?A.规划分析阶段B.设计实施阶段C.使用维护阶段D.反馈提升阶段(4)多维切片是指:A.在多个维度上观察全员操作B.多个成员的操作片段C.旋转数据集的部分维度D.在线分析或联机分析(5)一般信息管理中,采用哪种方式的分布式物理模型最多A。
ce模型 B.实体-关系模型C.02O模型D.B/S模型(6)在关系表中,下列哪种属性可以成为外键(Key)?A.客户信用程度B.银行卡行号C.加密的身份证号D.实体商户地址(7)数据仓库的生命周期中,不包含下列哪个阶段排在第三阶段?A.规划分析阶段 B.设计实施阶段 C.使用维护阶段D.反馈提升阶段(8)多维报表是指:A.在多个维度上观察全员操作B.分歧维度花式分歧叠加展示C.旋转数据集的部分维度D.在线阐发或联机阐发(9)数据表的多维索引的感化是:A.使数据表更节省存储空间B.加快数据存储速率C.表格花式美观大方C.加快数据查找效率10)de布局中的MAP职能是?A.钻取B.汇聚C.分发D.结晶11)下列哪种客户需求能够直接成为数据堆栈的多维报表?A.客户销售业绩清单B.客户根本名册C.客户关系图表D.客户反馈信息(12)数据堆栈开辟强调哪种主体特征?A.信息安全性B.业务流程C.操作事务性D.数据实时性(13)数据仓库与数据库系统相比,更加提倡:A.空间换时间B.数据范式更严格C.冗余度更小C.更加适用于分布式结构(14)透视表属于OLAP中的哪种能力范畴?A.存储本领B.展示本领C.稳定性本领D.安全性本领(15)OLAP的系统布局分为:A.胖客户端系统和瘦客户端系统B。
数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部份 ( C )A.数据、模型、技术C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识D.建模能力、算法与技术、领域知识)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)A.OLAP 事务量大,但事务内容比较简单且重复率高B.OLAP 的最终数据来源与 OLTP 不一样C.OLTP 面对的是决策人员和高层管理人员D.OLTP 以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 会萃D. 估计遗漏值6. 在 ID3 算法中信息增益是指(A.信息的溢出程度C.熵增加的程度最大D )B.信息的增加效益D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8. 以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻觅最佳决策树是 NP 彻底问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12. 设 X={1,2,3}是频繁项集,则可由X 产生( C )个关联规则。
数据仓库试题一、选择题1. 数据仓库是一种用于存储、管理和分析大量数据的系统,其特点是()a) 存储海量数据b) 支持多维分析c) 支持实时查询d) 执行事务处理2. 下列哪项不是数据仓库的核心组件?a) 数据提取和转换(ETL)工具b) 数据集市c) 数据库管理系统d) 数据挖掘工具3. 数据仓库的建设过程中,以下哪项工作应该放在最后进行?a) 数据提取和清洗b) 数据建模c) 数据存储和加载d) 数据分析4. 在数据仓库中,维度模型和事实模型分别用于描述的是()a) 数据之间的关系b) 数据的粒度c) 数据的来源d) 数据的格式5. 下列哪个是数据仓库的主要目标之一?a) 实时交互式数据查询b) 高效的事务处理c) 存储大量数据d) 实现负载均衡二、填空题6. 数据仓库的架构通常包括三层,分别是()、()和()层。
7. 数据仓库的难点之一是数据的(),因为数据来自多个不同的系统和部门。
8. 数据仓库的存储技术包括()和()两种常见的方式。
9. 数据仓库建设过程中,将源数据转换为适合分析的数据称为()。
10. 数据仓库的数据分析可以采用多种方法,其中()分析是一种常见的方法。
三、简答题11. 数据仓库与传统的关系型数据库有何区别?12. 数据仓库的优势是什么?它在实际应用中有哪些场景?13. 数据仓库建设过程中的ETL过程是什么意思?它的作用是什么?14. 数据仓库中,维度模型和事实模型各自是如何描述数据的?15. 请简要说明数据仓库的架构和主要组件。
四、解答题16. 数据仓库的设计和建设步骤有哪些?请结合实际案例进行说明。
17. 请解释数据仓库中的数据清洗操作,并举例说明其重要性。
18. 请描述数据仓库的存储技术中,列式存储和行式存储的特点,并比较它们的优缺点。
五、实操题19. 假设你是某公司的数据分析员,请你根据实际需求,设计一个适合该公司业务的数据仓库架构,并简要说明其关键组件和数据流程。
第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
1、数据挖掘来源于机器学习。
2、数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
3、元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据库的核心。
4、Codd将数据分析模型分为四类:绝对模型、解释模型、思考模型和公式化。
5、数据立方体是在所有可能组合的维上进行分组聚集运算的总和。
6、数据质量是数据仓库的成败关键。
7、概括分析是探索者分析过程的第一步。
8、数据仓库的物理模型设计是对逻辑模型设计的数据模型确定物理存储结构和存取方法。
9、自组织网络以ART 模型、Kohonen 模型为代表,属于聚类。
10、预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。
11、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
12、SOI Server SSAS 提供了所有业务数据的同意整合试图,可以作为传统报表和数据挖掘、在线分析处理、关键性能指示器积分卡的基础。
13、数据仓库的概念模型(定义)通常采用信息包图法来进行设计。
14、关联规则是发现大量数据中项集之间的关联关系。
经典算法包括:Apriori算法;DD算法;FP-Growth算法。
15、分类器设计阶段包含划分数据集、分类器构造、分类器测试。
16、雪花模型是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
17、数据处理通常分为两大类:联机事务处理(OLTP)、联机分析处理(OLAP)。
18、数据抽取的两个常见类型是静态抽取和增量抽取。
19、维度表一般由主键、分类层次和描述属性组成。
20、ROLAP 是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
21、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储、数据管理和数据表现等。
22、KDD(知识发现)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。
书 P2,PPT_P8)从大量的、不彻底的、有噪声的、含糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在实用的信息和知识的过程。
关系数据库、数据仓库、事务数据库、高级数据等、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等书 P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。
书 P6-7,PPT_P45-46联系: 1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。
3,数据仓库为更好地使用数据挖掘工具提供了方便4,数据挖掘对数据仓库提供了更好的决策支持。
5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。
~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出实用的信息和知识。
数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。
面向主题的、集成的、不可更新的、随时间变化的。
信息获取层、信息存储层、信息传递层。
(1)是指数据仓库的数据单位中保存数据细化或者综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。
(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查问询题的细节程度。
早期细节级、当前细节级、轻度细节级和高度细节级。
可按日期、地域、业务领域、或者按多个分割标准的组合,但普通包括日期项。
概念数据模型、逻辑数据模型、物理数据模型(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护数据装入时,并非一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。
考试时间5月24日,上午9:00-11:00地点:SY207题目来自于收集的照的照片,可能不太准确,还有一些看不清,大家看着复习。
能整理出答案最好了^_^~一、概念题(40分)请将如下概念串起来,描述概念之间的关系,每个概念不必单独解释。
企业信息系统架构、基础业务系统、数据仓库、数据挖掘、机器学习、RDBMS、HADOOP、Oracle、大数据、DB2、关系型数据库、多维分析引擎、数据集成、数据模型、元数据、决策支持系统二、简答题(共5道题,共计60分)1.如下两个图标分别是操纵系统环境与数据仓库环境在一天内的硬件资源典型使用率模式,横坐标是时间,纵坐标是使用率(0-100%)1)请说明为什么这两种环境的硬件资源使用率会有如此不同?(5分)2)请说明这种现象对企业信息系统架构设计的影响?(5分)2.在数据仓库环境的数据体系建设过程中,进行粒度设计时要考虑的因素有哪儿些?粒度分析为什么要与技术环境评估同时进行。
(12分)3.对于企业中常见的孤岛式信息系统架构和蜘蛛网信息系统利用架构,请完成如下要求:1)分别值出这两种架构产生的主要原因;2)指出这两种架构中存在的主要问题;3)给出解决这些问题的常见方案。
(15分)4.设有如下数据仓库的数据模型设计**,请(6)建立企业全局数据视图;(7)确定每个主题包含的实体集以及每个实体集的属性集;(8)确定粒度层次;(9)确定索引结构;(10)确定存储分配;(11)分析确定数据来源。
(11分)5.假设有3年的销售数据,有如下两种存储方案:方案1:在数据库系统中用户看的表只有一个,但是有6个分区,每半年一个物理分区。
方案2:在数据库系统中有6个独立的表,分别存储近三年的数据。
1)这两种方案哪个是数据库系统层分区,哪种是应用层分区?各有什么优缺点。
(8)2)数据分区对数据归档、数据清除有什么影响?(4)。
第一章概述1.数据挖掘的定义?(书P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。
5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。
3,数据仓库为更好地使用数据挖掘工具提供了方便4,数据挖掘对数据仓库提供了更好的决策支持。
5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。
~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
第二章数据仓库1.数据仓库的定义数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。
2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。
3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。
4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。
(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。
5.在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。
6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。
7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8.数据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。
10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。
第三章联机分析处理技术1.联机事务处理与联机分析处理的区别?联机事务处理(OLTP)作为数据管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。
联机分析处理(OLAP)是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。
2.OLAP的主要特征快速性、可分析性、多维性、信息性。
3.钻取Drill/Roll up,Drill down改变维的层次,变换分析的粒度。
分向上钻取和向下钻取。
向上钻取:在某一维上将低层次的细节数据概括到高层的汇总数据,或者减少维数。
向下钻取:从汇总数据深入到细节数据进行观察或增加新维。
4.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
5.OLAP根据其数据存储格式可分为三类:关系OLAP(ROLAP)、多维OLAP(MOLAP)和混合OLAP(HOLAP)。
6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
7.OLAP的衡量标准(1)透明性准则:——OLAP在体系结构中的位置和数据源对用户是透明的。
(2)动态的稀疏矩阵处理准则:——对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图。
(3)维的等同性准则:——每一数据维在数据结构和操作能力上都是等同的。
第四章数据预处理1.数据预处理的方法——数据清洗、数据集成、数据变换、数据规约等。
2.分箱方法——统一权重、统一区间、最小熵、用户自定义区间。
3.数据平滑处理方法——按平均值、按边界值、按中值4.数据规范化定义?规范化的常用方法有哪些?(1)将数据按比例缩放,使之落入一个特定的区域,如[0,1],称为规范化/标准化。
(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范化。
5.数据规约从大数据集中得到其规约表示——小数据集规约的目的是减少原始数据量;可以在小数据集上得到与原始数据相同的挖掘结果。
6. 下面是一个超市某种商品连续24个月的销售数据(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用统一权重、统一区间和自定义区间方法对数据分箱,并对分箱后的数据采用平均值、边界值或中值等方法进行平滑。
解:15,16,16,17,17,18,19,20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,27统一权重:设权重为6,表示每箱6个记录,分四箱:箱1: 15,16,16,17,17,18 箱2:19,20,20,20,21,21箱3: 21,22,22,23,23,23 箱4: 24,24,25,26,26,27边界:箱1: 15,15,15,18,18,18 箱2:19,19,19,21,21,21箱3: 21,21,21,23,23,23 箱4: 24,24,24,27,27,27统一区间:每个箱子宽度为(27-15)/4=3,区间[15,18)、[18,21)、[21,24)、[24,27):箱1: 15,16,16,17,17 箱2:18,19,20,20,20箱3: 21,21,21,22,22,23,23,23 箱4: 24,24,25,26,26,27中值:箱1: 16,16,16,16,16 箱2:20,20,20,20,20箱3: 22,22,22,22,22,22,22,22 箱4: 25.5, 25.5, 25.5, 25.5, 25.5, 25.5第五章关联规则方法1.关联规则挖掘的任务?找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup和最小置信度min_con的规则。
2.关联规则挖掘问题分哪两个步骤?(1)找出D中所有的频繁项集;(2)从频繁项集中产生关联规则。
3.Apriori性质:频繁项集的所有非空子集也都必须是频繁的;这是频繁项集的先验知识;可以减少候选频繁项集的数量。
4.负边界:负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的。
5.数据库如下图所示,如果设定最小支持度s=40%,置信度c=70%,计算该数据库中的频繁频繁项集:L1,L2,L3,即{i1}、{i2}、{i3}、{i5}、{i1,i3}、{i2,i3}、{i2,i5}、{i,i5}、{i2,i3,i5}。
负边界:{i1,i2},{i1,i5}。
第六章决策树方法1.决策树的基本概念:适用于离散值属性、连续值属性;采用自项向下的规约方法产生一个类似于流程图的树结构;在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。
2.决策树的优点进行分类器设计时,决策树分类方法所需时间相对较少;决策树的分类模型是树型结构,简单直观,比较符合人类的理解方式;可以讲决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解。
3.决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号的数据进行分类时的准确性。
第八章人工神经网络方法1.神经网络直所以能胜任一些复杂的工作,是因为它有学习的能力。
2.具有较好的泛华能力是神经网络设计的评价指标之一。
3.BP神经网络的拓扑结构分为多个层次:输入层、隐含层、输出层。
4.神经网络进行学习实际上就是学习其连接的权值。
5.BP神经网络学习过程由信号的正向传播与误差的反响传播两个过程组成。
6.在线训练:每处理一个训练实例,就更新一次权重。
7.离线训练:把所有训练实例都处理一遍之后,再更新权重。
8.利用梯度下降法更新权重易于陷入局部极小值,从而无法得到最优解。
9.BP神经网络的优点和缺点(1)BP神经网络的优点:抗噪性能好;既能处理连续数据,也能处理类别型数据;在多个领域有成功应用;既适合有监督学习,也适合无监督学习;具有较好的泛化能力;具有较好的逼近非线性映射的能力;具有较好的容错性。
(2)BP神经网络的缺点:缺乏可解释性;可能无法找到优解;可能存在过学习问题(overfitting);收敛速度慢。
第九章聚类分析1.聚类分析定义把一个给定的数据对象集合分成不同的簇;在同一个簇(或类)中,对象之间具有相似性;不同簇(或类)的对象之间具有较高的相宜性。
2.聚类分析方法通常分为哪些方法?基于划分方法;基于层次的方法;基于密度的方法;基于网格的方法;谱聚类方法3.数据挖掘技术对聚类分析的要求有哪几个方面?(1)可伸缩性(适用于增长的大数据集);(2)处理不同类型属性的能力(支持多种类型属性的数据集);(3)发现任意形状聚类的能力(除了球形聚类外,能划分出任意形状聚类);(4)减小对先验知识和用户自定义参数的依赖性;(5)处理噪声数据的能力(对孤立点、缺失值。
错误数据等噪声数据的抗干扰性);(6)可解释性和实用性(降维,可视化显示)。
4.K平均方法与K中心点方法比较(1)当存在噪声和离群点时,K中心点方法比K均值方法更加鲁棒。
(2)K中心点方法的执行代价比K平均方法要高。
(3)两种方法都要用户指定簇的数目K。
5.聚类分析中最常用的距离有欧几里得距离,曼哈坦距离、明可夫斯基距离等。
6.基于划分的聚类算法有K中心点方法和K平均方法等单选题举例1.决策树中不包含以下哪种结点(C)A.根结点B.内部结点C.外部结点D.叶结点2.某超市研究销售记录数据后发现,买啤酒的人很大概率也会买尿布,这种属于数据挖掘的哪类问题?(A)A.关联规则发现B.聚类C.分类D.自然语言处理3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4.当不知道数据所带标签(类别)时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联分析D.决策树分析5.什么是KDD?(A)A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现判断题举例1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。