数据仓库复习题
- 格式:doc
- 大小:57.00 KB
- 文档页数:6
数据库题库含参考答案一、单选题(共98题,每题1分,共98分)1.在数据库应用系统生命周期模型中,规划与分析阶段的输出结果不包括()。
A、项目计划书B、需求规范说明书C、可行性分析报告D、系统范围与边界正确答案:B2.下列哪些属性不适合建立索引?()。
A、经常岀现在GROUP BY子句中的属性B、经常参与连接操作的属性C、经常出现在WHERE子句中的属性D、经常需要进行更新操作的属性正确答案:D3.下列属于数据仓库特点的是()。
A、一次处理的数据量小B、综合性和提炼性数据C、面向操作人员,支持日常操作D、重复性的、可预测的处理正确答案:B4.下述哪一个SQL语句用于实现数据存取的安全机制()。
A、COMMITB、ROLLBACKC、GRANTD、CREATE TABLE正确答案:C5.有教师表(教师号,姓名,职称.所在系)和授课表(教师号,课程号,授课学年,授课时数),同一门课程可由多个教师讲授,同一个教师也可讲授多门课程,査询从未被“教授”讲授过的课程的课程号,正确的语句是()。
A、SELECT课程号FROM授课表a JOIN教师表bON a 教师号=b.教师号WHERE职称!='教授'B、SELECT课程号FROM授课表a RIGHTOUTTER JOIN教师表bONa.教师号=b.教师号C、SELECT课程号FROM授课表WHERE课程号NOT IN (SELECT课程号FROM授课表a JOIN授课表b ON a 教师号=b.教师号WHERE职称!='教授')D、SELECT课程号FROM授课表WHERE课程号IN (SELECT课程号FROM授课表a JOIN授课表b ON a 教师号=b.教师号WHERE职称!=,教授,)正确答案:D6.下列有关范式的叙述中正确的是()。
A、如果关系模式RG 1NF,且R中主属性完全函数依赖于码,则R是2NFB、如果关系模式RG3NF, X、YCU,若X—Y,则R是BCNFC、如果关系模式ReBCNF,若X一一Y (Y4X)是平凡的多值依赖,则R 是4NFD、—个关系模式如果属于4NF,则一定属于BCNF;反之不成立正确答案:D7.下列说法正确的是( )。
数据仓库资料一、简答1、什么是元数据?元数据如何分类?请叙述元数据的作用。
答:元数据与数据字典类似,类似于电话黄页,是数据仓库数据本身信息的数据。
元数据的类型:1)操作性元数据2)抽取和转换元数据3)最终用户元数据元数据的作用:元数据负责连接数据仓库的所有部分,并为最终用户提供向导:1)易于数据仓库数据的理解2)保证数据质量3)提高系统的应用的适用度和可适展性4)便于信息交换。
2、数据仓库项目与OLTP系统项目有什么不同?答:存储数据不同:OLTP存储的是操作性数据,数据仓库中存储的是分析性数据对数据处理不同:OLTP是以传统的数据为中心进行企业日常处理,而数据仓库中的数据被用于分析背后的关联,为企业决策提供可靠的依据。
面向的使用人员不同:OLTP使用人员通常是企业中的具体操作员,处理的数据通常是企业业务细节信息,其目标是实现企业的业务运营。
而数据仓库的使用人员是企业中的高层,或是工程师,其中包含的信息是企业的宏观信息而非具体细节,其目的是为企业决策者提供支持。
3、MOLAP和ROLAP模型之间的本质区别是什么?列出它们的一些相同点。
答:本质区别:MOLAP是基于多维数据库来存储OLAP分析所需要的数据,数据以多维方式存储,并以多维视图方式显示,而ROLAP的底层数据库是关系数据库。
相同点:1)数据都作为关系表存储再数据仓库中2)都能获得一定成都的汇总数据3)都是从数据仓库存储器中访问数据4、什么是星型模式?什么是雪花模型?它由哪些表组成?答:星型模式:一种多维数据关系,由一个事实表和一组维表组成,每个维度表表达一个维,所有维度字段组成事实表的复合主键,事实表中的非主键属性称为事实,汇总出来的数值型数据大都是文字,时间等类型的数据。
雪花模式:它是对星型模式的一种扩展,比如日期,地区等多层次的维度的扩展,可类似扩展,是对星型模式进行规范化处理的产物,从消除数据冗余,从而使事实表,字段数和总长度降低。
一、填空题(15分)1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。
2.元数据是描述数据仓库内数据的结构和建立方法的数据。
根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。
3.OLAP技术多维分析过程中,多维分析操作包括切片、切块、钻取、旋转等。
4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出范围的两端。
5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。
二、多项选择题(10分)6.在数据挖掘的分析方法中,直接数据挖掘包括(ACD)A 分类B 关联C 估值D 预言7.数据仓库的数据ETL过程中,ETL软件的主要功能包括(ABC)A 数据抽取B 数据转换C 数据加载D 数据稽核8.数据分类的评价准则包括( ABCD )A 精确度B 查全率和查准率C F-MeasureD 几何均值9.层次聚类方法包括( BC )A 划分聚类方法B 凝聚型层次聚类方法C 分解型层次聚类方法D 基于密度聚类方法10.贝叶斯网络由两部分组成,分别是( A D )A 网络结构B 先验概率C 后验概率D 条件概率表三、计算题(30分)11.一个食品连锁店每周的事务记录如下表所示,其中每一条事务表示在一项收款机业务中卖出的项目,假定sup min=40%,conf min=40%,使用Apriori算法计算生成的关联规则,标明每趟数据库扫描时的候选集和大项目集。
(15分)解:(1)由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1,计算其支持度,取出支持度小于sup min的项集,形成1-频繁集L1,如下表所示:(2)组合连接L1中的各项目,产生2-候选集C2,计算其支持度,取出支持度小于sup min的项集,形成2-频繁集L2,如下表所示:至此,所有频繁集都被找到,算法结束,所以,confidence({面包}→{花生酱})=(4/5)/(3/5)=4/3> conf minconfidence({ 花生酱}→{面包})=(3/5)/(4/5)=3/4> conf min所以,关联规则{面包}→{花生酱}、{ 花生酱}→{面包}均是强关联规则。
数据仓库-期末考试复习题复思考题(重点)一、单项选择题1)一般信息管理中,采用哪种方式的概念模型最多A。
ce模型B.实体-关系模型C.02O模型D.B/S模型(2)在关系表中,下列哪种属性不能承担主列关键字(Key)?A.身份证号B.银行卡号C.加密电文D.企业标识码(3)数据仓库的生命周期中,不包含下列哪个阶段?A.规划分析阶段B.设计实施阶段C.使用维护阶段D.反馈提升阶段(4)多维切片是指:A.在多个维度上观察全员操作B.多个成员的操作片段C.旋转数据集的部分维度D.在线分析或联机分析(5)一般信息管理中,采用哪种方式的分布式物理模型最多A。
ce模型 B.实体-关系模型C.02O模型D.B/S模型(6)在关系表中,下列哪种属性可以成为外键(Key)?A.客户信用程度B.银行卡行号C.加密的身份证号D.实体商户地址(7)数据仓库的生命周期中,不包含下列哪个阶段排在第三阶段?A.规划分析阶段 B.设计实施阶段 C.使用维护阶段D.反馈提升阶段(8)多维报表是指:A.在多个维度上观察全员操作B.分歧维度花式分歧叠加展示C.旋转数据集的部分维度D.在线阐发或联机阐发(9)数据表的多维索引的感化是:A.使数据表更节省存储空间B.加快数据存储速率C.表格花式美观大方C.加快数据查找效率10)de布局中的MAP职能是?A.钻取B.汇聚C.分发D.结晶11)下列哪种客户需求能够直接成为数据堆栈的多维报表?A.客户销售业绩清单B.客户根本名册C.客户关系图表D.客户反馈信息(12)数据堆栈开辟强调哪种主体特征?A.信息安全性B.业务流程C.操作事务性D.数据实时性(13)数据仓库与数据库系统相比,更加提倡:A.空间换时间B.数据范式更严格C.冗余度更小C.更加适用于分布式结构(14)透视表属于OLAP中的哪种能力范畴?A.存储本领B.展示本领C.稳定性本领D.安全性本领(15)OLAP的系统布局分为:A.胖客户端系统和瘦客户端系统B。
数据仓库与数据挖掘技术复习资料一、单项选择题1. 数据挖掘技术包括三个主要的部份 ( C )A.数据、模型、技术C.数据、建模能力、算法与技术2.关于基本数据的元数据是指: ( D B.算法、技术、领域知识D.建模能力、算法与技术、领域知识)A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;B.基本元数据包括与企业相关的管理方面的数据和信息;C.基本元数据包括日志文件和简历执行处理的时序调度信息;D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。
3. 关于 OLAP 和 OLTP 的说法,下列不正确的是: ( A)A.OLAP 事务量大,但事务内容比较简单且重复率高B.OLAP 的最终数据来源与 OLTP 不一样C.OLTP 面对的是决策人员和高层管理人员D.OLTP 以应用为核心,是应用驱动的4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务? ( C )A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘5.下面哪种不属于数据预处理的方法? ( D )A.变量代换B.离散化C. 会萃D. 估计遗漏值6. 在 ID3 算法中信息增益是指(A.信息的溢出程度C.熵增加的程度最大D )B.信息的增加效益D.熵减少的程度最大7. 以下哪个算法是基于规则的分类器 ( A )A. C4.5B. KNNC. BayesD. ANN8. 以下哪项关于决策树的说法是错误的( C )A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻觅最佳决策树是 NP 彻底问题9. 假设收入属性的最小与最大分别是 10000 和 90000,现在想把当前值 30000 映射到区间[0,1], 若采用最大-最小数据规范方法,计算结果是( A )A. 0.25B. 0.375 D. 0.510. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D )A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D.渐进抽样11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离? ( B)A. 分类B.聚类C. 关联分析D. 隐马尔可夫链12. 设 X={1,2,3}是频繁项集,则可由X 产生( C )个关联规则。
数据仓库试题一、选择题1. 数据仓库是一种用于存储、管理和分析大量数据的系统,其特点是()a) 存储海量数据b) 支持多维分析c) 支持实时查询d) 执行事务处理2. 下列哪项不是数据仓库的核心组件?a) 数据提取和转换(ETL)工具b) 数据集市c) 数据库管理系统d) 数据挖掘工具3. 数据仓库的建设过程中,以下哪项工作应该放在最后进行?a) 数据提取和清洗b) 数据建模c) 数据存储和加载d) 数据分析4. 在数据仓库中,维度模型和事实模型分别用于描述的是()a) 数据之间的关系b) 数据的粒度c) 数据的来源d) 数据的格式5. 下列哪个是数据仓库的主要目标之一?a) 实时交互式数据查询b) 高效的事务处理c) 存储大量数据d) 实现负载均衡二、填空题6. 数据仓库的架构通常包括三层,分别是()、()和()层。
7. 数据仓库的难点之一是数据的(),因为数据来自多个不同的系统和部门。
8. 数据仓库的存储技术包括()和()两种常见的方式。
9. 数据仓库建设过程中,将源数据转换为适合分析的数据称为()。
10. 数据仓库的数据分析可以采用多种方法,其中()分析是一种常见的方法。
三、简答题11. 数据仓库与传统的关系型数据库有何区别?12. 数据仓库的优势是什么?它在实际应用中有哪些场景?13. 数据仓库建设过程中的ETL过程是什么意思?它的作用是什么?14. 数据仓库中,维度模型和事实模型各自是如何描述数据的?15. 请简要说明数据仓库的架构和主要组件。
四、解答题16. 数据仓库的设计和建设步骤有哪些?请结合实际案例进行说明。
17. 请解释数据仓库中的数据清洗操作,并举例说明其重要性。
18. 请描述数据仓库的存储技术中,列式存储和行式存储的特点,并比较它们的优缺点。
五、实操题19. 假设你是某公司的数据分析员,请你根据实际需求,设计一个适合该公司业务的数据仓库架构,并简要说明其关键组件和数据流程。
第一章数据仓库与数据挖掘概述无习题第二章数据仓库概述一.判断题在分析型处理产生后,数据处理的环境由原来的以单一数据库为中心的数据环境发展为以数据仓库为基础的体系化环境。
在事务型(操作型)数据处理下,数据处理的环境主要是以单一数据库为中心的数据环境。
数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术.面向应用,是数据仓库区别于传统的操作型数据库的关键特征。
一个数据仓库是通过集成多个异种数据源来构造的。
由于在数据仓库中只进行数据的初始装载和查询操作,所以,数据一旦进入数据仓库,就是稳定的,基本上不会被更新。
数据立方体必须是3维的。
在数据仓库中,概念分层定义了一个映射序列,可以将低层概念映射到更一般的高层概念。
方体的格,是在单个维上定义的映射序列,可以将低层概念映射到更一般的高层概念。
雪花模型通过在每个维表基础上,增加附加维表的方式来降低星型模型中可能会存在的冗余现象。
在事实星座模型中,有且仅能有一个事实表。
在数据仓库的设计过程中,要坚持“数据驱动和需求驱动双驱动,且以需求驱动为中心”的原则。
二.单选题在以下人员中,被誉为“数据仓库之父”的是:()(知识点:数据仓库的基本概念;易)A. H.Inmon B. E.F.Codd C. Simon D. Pawlak以下关于数据仓库的说法正确的是:()(知识点:数据仓库的基本概念;难)A. 数据仓库中的数据只能来源于组织内部的操作型数据库B. 数据仓库是为应对事务型数据处理的需要而产生的C. 数据仓库是面向主题的,这是其区别于操作型数据库的关键特征D. 数据仓库必须是面向企业全局的,不能以部门为单位建立数据仓库以下哪项不是“信息包图”中的元素?()(知识点:数据仓库的三级模型;难)A. 维度B. 维的概念层次及相应层次上的数量C. 度量D. 方体的格以下哪项不属于数据仓库的逻辑模型?()(知识点:数据仓库的三级模型;中)A. 星型模型B. 雪花模型C. 度量模型D. 事实星座模型在数据仓库的设计过程中,下列描述正确的是()(知识点:数据仓库的设计;难)A. 数据仓库是“数据驱动+需求驱动”双驱动,但必须以需求驱动为中心B. 数据仓库主要面向分析型处理环境,在设计时很难完全明确用户的需求C. 数据仓库与数据库一样,其数据主要来自于企业的业务流程D. 数据仓库的设计目标是要提高事务处理的性能下面哪项关于星型模型的说法是不正确的:()(知识点:数据仓库的三级模型;难)A. 有一个事实表,且事实表中的属性由指向各个维表的外键和一些相应的度量数据组成B. 有一组小的附属表,称为维表,且每维一个维表C. 事实表的每个字段都是事实度量字段D. 由于每维只能建立一个维表,使得维表中有些信息会产生冗余在数据仓库的概念模型中,通过()来实现数据从客观世界到主观认识的映射。
1、数据挖掘来源于机器学习。
2、数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中决策制定过程。
3、元数据描述了数据仓库的数据和环境,遍及数据仓库的所有方面,是整个数据库的核心。
4、Codd将数据分析模型分为四类:绝对模型、解释模型、思考模型和公式化。
5、数据立方体是在所有可能组合的维上进行分组聚集运算的总和。
6、数据质量是数据仓库的成败关键。
7、概括分析是探索者分析过程的第一步。
8、数据仓库的物理模型设计是对逻辑模型设计的数据模型确定物理存储结构和存取方法。
9、自组织网络以ART 模型、Kohonen 模型为代表,属于聚类。
10、预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。
11、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
12、SOI Server SSAS 提供了所有业务数据的同意整合试图,可以作为传统报表和数据挖掘、在线分析处理、关键性能指示器积分卡的基础。
13、数据仓库的概念模型(定义)通常采用信息包图法来进行设计。
14、关联规则是发现大量数据中项集之间的关联关系。
经典算法包括:Apriori算法;DD算法;FP-Growth算法。
15、分类器设计阶段包含划分数据集、分类器构造、分类器测试。
16、雪花模型是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
17、数据处理通常分为两大类:联机事务处理(OLTP)、联机分析处理(OLAP)。
18、数据抽取的两个常见类型是静态抽取和增量抽取。
19、维度表一般由主键、分类层次和描述属性组成。
20、ROLAP 是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
21、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储、数据管理和数据表现等。
22、KDD(知识发现)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。
书 P2,PPT_P8)从大量的、不彻底的、有噪声的、含糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在实用的信息和知识的过程。
关系数据库、数据仓库、事务数据库、高级数据等、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等书 P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。
书 P6-7,PPT_P45-46联系: 1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。
3,数据仓库为更好地使用数据挖掘工具提供了方便4,数据挖掘对数据仓库提供了更好的决策支持。
5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。
~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出实用的信息和知识。
数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。
面向主题的、集成的、不可更新的、随时间变化的。
信息获取层、信息存储层、信息传递层。
(1)是指数据仓库的数据单位中保存数据细化或者综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。
(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查问询题的细节程度。
早期细节级、当前细节级、轻度细节级和高度细节级。
可按日期、地域、业务领域、或者按多个分割标准的组合,但普通包括日期项。
概念数据模型、逻辑数据模型、物理数据模型(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护数据装入时,并非一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。
考试时间5月24日,上午9:00-11:00地点:SY207题目来自于收集的照的照片,可能不太准确,还有一些看不清,大家看着复习。
能整理出答案最好了^_^~一、概念题(40分)请将如下概念串起来,描述概念之间的关系,每个概念不必单独解释。
企业信息系统架构、基础业务系统、数据仓库、数据挖掘、机器学习、RDBMS、HADOOP、Oracle、大数据、DB2、关系型数据库、多维分析引擎、数据集成、数据模型、元数据、决策支持系统二、简答题(共5道题,共计60分)1.如下两个图标分别是操纵系统环境与数据仓库环境在一天内的硬件资源典型使用率模式,横坐标是时间,纵坐标是使用率(0-100%)1)请说明为什么这两种环境的硬件资源使用率会有如此不同?(5分)2)请说明这种现象对企业信息系统架构设计的影响?(5分)2.在数据仓库环境的数据体系建设过程中,进行粒度设计时要考虑的因素有哪儿些?粒度分析为什么要与技术环境评估同时进行。
(12分)3.对于企业中常见的孤岛式信息系统架构和蜘蛛网信息系统利用架构,请完成如下要求:1)分别值出这两种架构产生的主要原因;2)指出这两种架构中存在的主要问题;3)给出解决这些问题的常见方案。
(15分)4.设有如下数据仓库的数据模型设计**,请(6)建立企业全局数据视图;(7)确定每个主题包含的实体集以及每个实体集的属性集;(8)确定粒度层次;(9)确定索引结构;(10)确定存储分配;(11)分析确定数据来源。
(11分)5.假设有3年的销售数据,有如下两种存储方案:方案1:在数据库系统中用户看的表只有一个,但是有6个分区,每半年一个物理分区。
方案2:在数据库系统中有6个独立的表,分别存储近三年的数据。
1)这两种方案哪个是数据库系统层分区,哪种是应用层分区?各有什么优缺点。
(8)2)数据分区对数据归档、数据清除有什么影响?(4)。
数据库练习题库(含答案)一、单选题(共98题,每题1分,共98分)1.在需求分析阶段,结构化分析和建模方法是一种较为有效的需求分析方法,下列不属于结构化分析和建模方法优点的是()。
A、可避免过早陷入具体细节B、从局部或子系统开始分析问题,便于建模人员了解业务模型C、图形对象不涉及太多技术术语,便于用户理解模型D、用图形化的模型能直观表示系统功能正确答案:B2.DBMS通过加锁机制允许用户并发访问数据库,这属于DBMS提供的()。
A、数据定义功能B、数据操纵功能C、数据库运行管理与控制功能D、数据库建立与维护功能正确答案:C3.关于数据划分策略,下述说法错误的是()。
A、散列划分釆用某种散列函数,以数据的划分属性作为函数参数,计算数据应存储的磁盘序号B、范围划分根据某个属性的取值,将数据划分为n个部分,分别存储到不同磁盘上C、范围划分有利于范围查询和点查询,但也可能会引起数据分布不均匀及并行处理能力下降问题D、轮转法划分能保证元组在多个磁盘上的平均分配,并具有较高的点查询和范围查询正确答案:D4.存取方法设计属于数据库设计的()阶段的设计任务。
A、逻辑结构设计B、概念结构设计C、系统需求分析D、物理结构设计正确答案:D5.将新插入的记录存储在文件末尾,并使记录随机地分布在文件物理存储空间中的文件结构是()。
A、散列文件B、堆文件C、索引文件D、聚集文件正确答案:B6.关于"死锁”,下列说法中正确的是()。
A、在数据库操作中防止死锁的方法是禁止两个用户同时操作数据库B、只有出现并发操作时,才有可能出现死锁C、当两个用户竞争相同资源时不会发生死锁D、死锁是操作系统中的问题,数据库操作中不存在正确答案:B7.关于数据库应用系统的需求分析工作,下列说法正确的是()。
A、在需求分析阶段,系统需求分析员要与用户充分沟通,并做出各类用户视图B、通过需求分析过程,需要确定出整个应用系统的目标、任务和系统的范围说明C、数据操作响应时间、系统吞吐量、最大并发用户数都是性能需求分析的重要指标D、数据需求分析的主要工作是要辩识出数据处理中的数据处理流程正确答案:C8.如果一个系统定义为关系系统,则它必须( )oA、支持关系数据库B、支持选择、投影和连接运算C、A和B均成立D、A、B都不需要正确答案:C9.联机分析处理包括以下()基本分析功能。
数据仓库与数据挖掘考试试题
1. 简答题
a) 数据仓库的定义是什么?
b) 数据挖掘的基本任务有哪些?
c) 数据清洗在数据挖掘中的作用是什么?
2. 选择题
请从以下选项中选择正确答案:
a) 数据仓库的主要特点是:
A. 面向主题
B. 面向过程
C. 面向对象
D. 面向细节
b) 数据挖掘的主要方法包括:
A. 分类
B. 聚类
C. 关联分析
D. 回归分析
c) 数据清洗的过程包括:
A. 数据标准化
B. 数据去重
C. 数据缺失值处理
D. 数据转换
3. 算法题
使用Apriori算法来进行关联规则挖掘,假设有以下购物篮数据集:{牛奶,面包,尿布}
{可乐,面包,尿布}
{牛奶,可乐,尿布}
{牛奶,面包,可乐}
请按照步骤描述如何使用Apriori算法来找出频繁项集和关联规则。
4. 应用题
某电商网站的用户行为数据包括用户ID、商品ID、购买时间等字段,试设计一个数据挖掘任务,根据历史数据预测用户未来可能购买
的商品。
请描述具体的数据处理流程和算法选择,以及如何评估模型
的准确性。
5. 论述题
数据仓库和数据挖掘在实际应用中的价值和意义是什么?结合具体案例或行业来说明,并探讨未来数据仓库和数据挖掘的发展方向。
以上为数据仓库与数据挖掘考试试题的内容,希望您认真针对每个问题进行回答,考试时间为2小时,请自行安排时间和注意事项,祝您考试顺利!。
复习题一、填空题:1、三类经典的数据模型是_________、_________和_________。
其中,________目前应用最广泛。
2、_________模型是面向信息世界的,它是按用户的观点对数据和信息建模;________模型是面向计算机世界的,它是按计算机系统的观点对数据建摸。
3、关系模型的实体完整性是指______________________________。
在关系模型中,候选码是指_______________________,全码是指_________________________。
4、设Ei 为关系代数表达式,根据关系代数等价变换规则,(E1×E2)×E3 ≡ __________,若选择条件F只涉及E1中的属性,则σF(E1×E2)≡____________。
5、数据依赖是关系中属性间的相互关联,最重要的数据依赖有两种,即_____依赖和多值依赖。
6、在关系规范化过程中,将1NF转化为2NF,要消除______________________,若一个关系模式R∈2NF,并且消除了非主属性对码的传递依赖,则R∈__NF。
7、数据库的保护措施有________控制、_________控制、_________控制和数据库恢复等。
8、事务是并发控制的基本单位,事务的四个性质是_______性、_______性、_______性和________性。
9、并发控制的主要方法是封锁,封锁的类型有两种,即________锁和_______锁。
10、故障恢复的基本手段有____________和_________________。
11、DBMS的中文全称是___________。
12、数据管理的发展经历了人工管理阶段、_________阶段和________阶段。
13、数据库系统的三级模式分别是___________,___________和_________。
数据仓库复习题1.数据仓库的概念:数据仓库是一个面向主题的、集成的、非易失的,随时间变化的用来支持管理人员决策的数据集合。
数据仓库包含粒度化的企业数据。
数据仓库是体系结构化的核心;是决策支持系统处理的基础,是数据可重用性和一致性的基础。
2.粒度的概念:粒度指的是数据仓库中数据单元的细节程度或综合程度的级别。
细节程度越高,粒度级别就越低,查询范围越广泛;相反,细节程度越低,粒度级别就越高,查询范围越少。
3.操作型环境与数据仓库环境的硬件利用模式:操作型处理中有多个波峰和波谷,但总的来说,存在相对静态的且可预测稳定的硬件利用模式;数据仓库环境中利用的是二元模式。
要么利用全部硬件,要么根本不用硬件。
4.自然演化式体系结构化环境的四个层次:操作层、原子/数据仓库层、部门层、个体层。
其各个职能是:数据操作层只保存原始数据并且服务于高性能事务处理领域;数据仓库层存储不更新的原始数据,此外一些导出数据也在此存放;数据的部门层几乎只存放导出数据;数据个体层中完成大多数启发式分析。
5.自然演化式体系结构化环境的核心即两种基本数据:原始数据和导出数据6.数据仓库开发生命周期:数据仓库开发生命周期是CLDS(常称为“螺旋式”开发方法)。
CLDS是由数据开始,得到数据后,将数据集成。
然后,检验数据存在什么偏差。
之后,针对数据写程序,分析程序的执行结果,最后,系统需求才得到理解。
一旦系统需求得到理解,就需要对系统的设计进行调整,然后针对不同的数据集开始新的开发周期。
7.自然演化式体系结构的问题的描述及原因:自然演化式体系结构的问题有:数据可信性、生产率问题、无法将数据转化为信息、方法的变迁、体系结构化环境、体系结构化环境中的数据集成、用户是谁。
其原因是:数据无时间基准、数据算法上的差异、抽取的多层次问题、外部数据问题、无公共起始数据源。
8.数据仓库的结构的阐述:数据仓库环境中数据存在着不同的细节级:早期细节级(通常是存储在备用海量存储器上)、当前细节级、轻度综合数据级(数据集市级)以及高度综合数据级。
《数据仓库与数据挖掘》复习大纲三、简答题(5×6分=30分)四、分析计算题(3×10分=30分)考试范围:第一讲数据挖掘概述考点:1、数据挖掘、知识发现(KDD)基本概念;2、数据挖掘的过程;3、数据挖掘过技术的三个主要部分。
复习参考题:一、填空题(1)数据库中的知识挖掘(KDD)包括以下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。
(2)数据挖掘的性能问题主要包括:算法的效率、可扩展性和并行处理。
(3)当前的数据挖掘研究中,最主要的三个研究方向是:统计学、数据库技术和机器学习。
(4)在万维网(WWW)上应用的数据挖掘技术常被称为:WEB挖掘。
(5)孤立点是指:一些与数据的一般行为或模型不一致的孤立数据。
二、单选题(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:BA、所涉及的算法的复杂性;B、所涉及的数据量;C、计算结果的表现形式;D、是否使用了人工智能技术(2)孤立点挖掘适用于下列哪种场合?DA、目标市场分析B、购物篮分析C、模式识别D、信用卡欺诈检测(3)下列几种数据挖掘功能中,( D )被广泛的应用于股票价格走势分析。
A. 关联分析B.分类和预测C.聚类分析D. 演变分析(4)下面的数据挖掘的任务中,( B )将决定所使用的数据挖掘功能。
A、选择任务相关的数据B、选择要挖掘的知识类型C、模式的兴趣度度量D、模式的可视化表示(5)下列几种数据挖掘功能中,(A )被广泛的用于购物篮分析。
A、关联分析B、分类和预测C、聚类分析D、演变分析(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( B)。
A.关联分析B.分类和预测C. 演变分析D. 概念描述(7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( C )。
A.关联分析B.分类和预测C.聚类分析D. 孤立点分析E. 演变分析(8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( E )A.关联分析B.分类和预测C. 孤立点分析D. 演变分析E. 概念描述三、简答题1、何谓数据挖掘?它有哪些方面的功能?答:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。
一、选择题第一章:商务智能基本概念1.商务智能在企业管理中所发挥的作用主要体现在(B)等方面。
P4A.创造B.理解 C.分析 D.挖掘2.数据仓库则是商务智能的(A),使建立于数据仓库基础之上的商务智能可以更专注于商务信息的提取和商务知识的发现。
A.数据基础 B.文件汇集 C.分析基础 D.支持框架3.企业的数据空间由于历史原因会构成一个错综复杂的数据“蜘蛛网”,数据“蜘蛛网”的存在导致了企业决策的(D)。
P7A.一致 B.正确 C.混乱D.错误4.与数据库相比较,数据仓库内的数据是(D)。
P8A.动态变化的 B.随时更新的C.基本维持不变的 D.静态的、历史的5.数据仓库的基本功能包含(A),数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。
P17A.数据抽取 B.数据选择 C.数据更新 D.数据添加6.由于数据仓库要分析事务的发展趋势,因此在将数据加载到数据仓库之前必须完成数据的(C)设置,是数据具有时间属性。
P20A.时间排序 B.年月日 C.时间戳 D.时分秒7.选择数据挖掘工具时,一半需要参照的评价标准有:模式种类的数量、解决复杂问题的能力、(A)、数据获取能力等。
P36A.操作性能 B.数据处理速度 C.数据传输速度 D.模式的类型8.数据挖掘过程中的挖掘模型构建是指挖掘目标,(A)。
P40A.设计挖掘算法模型 B.选择一个合适的挖掘算法C.对挖掘算法进行评价 D.对挖掘模式的类型进行评价9.由于数据仓库主要用于对管理决策提供支持,因此其响应时间(C)。
A.必须在数秒内完成 B.限定在毫秒级C.可能长达数小时 D.可能长达数年10.目前的商务智能体系架构主要有比尔·恩门的信息工厂、扎克曼的企业架构、美国数据仓库研究院的商务智能架构和加特纳公司的商务智能框架等。
但是这些架构均包含了商务分析、(D)、数据挖掘和数据仓库4部分。
P5A.DM B.DW C.OLTP D.OLAP第二章:数据仓库开发模型1.概念世界中的整体对应到计算机世界中的(B)。
数据仓库与数据挖掘简答题资料1.数据库与数据仓库的本质差别?《第一章》答:a.数据库是用于事务处理,数据仓库用于决策分析;b.数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;c.数据仓库的数据是大量数据库的集成;d.对数据库的操作比较明确,操作数据量少。
对数据仓库操作不明确,操作数据量大。
e.数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面相分析且支持决策。
2.联机分析处理(OLAP)的简单定义是什么?它体现的特征是什么?《第三章》联机分析处理简单定义:即OLAP是共享多维信息的快速分析。
体现了4个特征:a.快速性:用户对OLAP的快速反应能力有很高的要求。
b.可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。
c.多维性:多维性是OLAP的特点,系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层次维的完全支持。
d.信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统都应能及时获得信息,并且管理大容量信息。
3.数据仓库两类用户有什么本质的不同?《第五章》数据仓库的用户有两类:信息使用者和探索者。
信息使用者是使用数据仓库的大量用户,信息使用者以一种可预测、重复性的方式使用数据仓库。
探索者完全不同于信息使用者,他们有一个完全不可预测的、非重复性的数据使用模式。
探索者查看海量详细数据,而概括数据则会妨碍探索者的数据分析。
探索者经常查看历史数据,且查看时间比使用者长的多。
探索者的任务是寻找公司数据内隐含的价值并且根据过去的事件努力预测未来决策的结果。
探索者是典型的数据挖掘者。
4.信息论的基本原理是什么?《第七章》一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)组成的。
信息论把通信过程看做是在随机干扰的环境中传递信息的过程。
第一章概述1.数据挖掘的定义?(书P2,PPT_P8)从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
2.数据挖掘的源是否必须是数据仓库的数据?可以有哪些来源?(PPT_P14)关系数据库、数据仓库、事务数据库、高级数据等3.数据挖掘的常用方法?(P4、PPT_P29)聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4.数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容?(书P2-3,PPT_P17-19)确定业务对象、数据准备、数据挖掘、结果分析与知识同化。
5.数据挖掘与数据仓库的关系(联系和区别)?书P6-7,PPT_P45-46联系:1,数据仓库为数据挖掘提供了更好的,更广泛的数据源2,数据仓库韦数据挖掘提供了新的支持平台。
3,数据仓库为更好地使用数据挖掘工具提供了方便4,数据挖掘对数据仓库提供了更好的决策支持。
5,数据挖掘对数据仓库的数据组织提出了更高的要求6,数据挖掘还为数据仓库提供了广泛的技术支持区别:数据仓库是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同用户的不同决策需要提供所需的数据和信息。
~~数据挖掘是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
第二章数据仓库1.数据仓库的定义数据仓库——是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策定制过程。
2.数据仓库数据的四大基本特征:面向主题的、集成的、不可更新的、随时间变化的。
3.数据仓库体系结构有三个独立的数据层次:信息获取层、信息存储层、信息传递层。
4.粒度的定义?它对数据仓库有什么影响?(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别。
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多。
(2)影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度。
5.在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度细节级。
6.数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项。
7.数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8.数据仓库设计步骤(1)概念模型设计(2)技术准备工作(3)逻辑模型设计(4)物理模型设计(5)数据仓库的生成(6)数据仓库的使用和维护9.数据装入时,并不是一次就将准备装入的数据全部装入数据仓库,而是按照逻辑模型设计中所确定和分析的主题域,先装入并生成某一主题域。
10.建立数据仓库的步骤并不是一成不变的,但最终应该满足用户的分析需求。
第三章联机分析处理技术1.联机事务处理与联机分析处理的区别?联机事务处理(OLTP)作为数据管理手段,主要用于事务处理,但它对分析处理一直不能令人满意。
联机分析处理(OLAP)是决策支持系统的有机组成部分,利用存储在数据仓库中的数据完成各种分析操作,并以直观易懂的形式将分析结果返回给决策分析人员。
2.OLAP的主要特征快速性、可分析性、多维性、信息性。
3.钻取Drill/Roll up,Drill down改变维的层次,变换分析的粒度。
分向上钻取和向下钻取。
向上钻取:在某一维上将低层次的细节数据概括到高层的汇总数据,或者减少维数。
向下钻取:从汇总数据深入到细节数据进行观察或增加新维。
4.ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
5.OLAP根据其数据存储格式可分为三类:关系OLAP(ROLAP)、多维OLAP(MOLAP)和混合OLAP(HOLAP)。
6.雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。
7.OLAP的衡量标准(1)透明性准则:——OLAP在体系结构中的位置和数据源对用户是透明的。
(2)动态的稀疏矩阵处理准则:——对任意给定的稀疏矩阵,存在且仅存在一个最优的物理视图。
(3)维的等同性准则:——每一数据维在数据结构和操作能力上都是等同的。
第四章数据预处理1.数据预处理的方法——数据清洗、数据集成、数据变换、数据规约等。
2.分箱方法——统一权重、统一区间、最小熵、用户自定义区间。
3.数据平滑处理方法——按平均值、按边界值、按中值4.数据规范化定义?规范化的常用方法有哪些?(1)将数据按比例缩放,使之落入一个特定的区域,如[0,1],称为规范化/标准化。
(2)常用方法:最小-最大规范化、零-均值规范化、小数定标规范化。
5.数据规约从大数据集中得到其规约表示——小数据集规约的目的是减少原始数据量;可以在小数据集上得到与原始数据相同的挖掘结果。
6. 下面是一个超市某种商品连续24个月的销售数据(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17使用统一权重、统一区间和自定义区间方法对数据分箱,并对分箱后的数据采用平均值、边界值或中值等方法进行平滑。
解:15,16,16,17,17,18,19,20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,27统一权重:设权重为6,表示每箱6个记录,分四箱:箱1: 15,16,16,17,17,18 箱2:19,20,20,20,21,21箱3: 21,22,22,23,23,23 箱4: 24,24,25,26,26,27边界:箱1: 15,15,15,18,18,18 箱2:19,19,19,21,21,21箱3: 21,21,21,23,23,23 箱4: 24,24,24,27,27,27统一区间:每个箱子宽度为(27-15)/4=3,区间[15,18)、[18,21)、[21,24)、[24,27):箱1: 15,16,16,17,17 箱2:18,19,20,20,20箱3: 21,21,21,22,22,23,23,23 箱4: 24,24,25,26,26,27中值:箱1: 16,16,16,16,16 箱2:20,20,20,20,20箱3: 22,22,22,22,22,22,22,22 箱4: 25.5, 25.5, 25.5, 25.5, 25.5, 25.5第五章关联规则方法1.关联规则挖掘的任务?找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup和最小置信度min_con的规则。
2.关联规则挖掘问题分哪两个步骤?(1)找出D中所有的频繁项集;(2)从频繁项集中产生关联规则。
3.Apriori性质:频繁项集的所有非空子集也都必须是频繁的;这是频繁项集的先验知识;可以减少候选频繁项集的数量。
4.负边界:负边界中的项集是非频繁的,但每个项集的所有子集都是频繁的。
5.数据库如下图所示,如果设定最小支持度s=40%,置信度c=70%,计算该数据库中的频繁频繁项集:L1,L2,L3,即{i1}、{i2}、{i3}、{i5}、{i1,i3}、{i2,i3}、{i2,i5}、{i,i5}、{i2,i3,i5}。
负边界:{i1,i2},{i1,i5}。
第六章决策树方法1.决策树的基本概念:适用于离散值属性、连续值属性;采用自项向下的规约方法产生一个类似于流程图的树结构;在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。
2.决策树的优点进行分类器设计时,决策树分类方法所需时间相对较少;决策树的分类模型是树型结构,简单直观,比较符合人类的理解方式;可以讲决策树中到达每个叶节点的路径转换为IF—THEN形式的分类规则,这种形式更有利于理解。
3.决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝,以提高对未知类标号的数据进行分类时的准确性。
第八章人工神经网络方法1.神经网络直所以能胜任一些复杂的工作,是因为它有学习的能力。
2.具有较好的泛华能力是神经网络设计的评价指标之一。
3.BP神经网络的拓扑结构分为多个层次:输入层、隐含层、输出层。
4.神经网络进行学习实际上就是学习其连接的权值。
5.BP神经网络学习过程由信号的正向传播与误差的反响传播两个过程组成。
6.在线训练:每处理一个训练实例,就更新一次权重。
7.离线训练:把所有训练实例都处理一遍之后,再更新权重。
8.利用梯度下降法更新权重易于陷入局部极小值,从而无法得到最优解。
9.BP神经网络的优点和缺点(1)BP神经网络的优点:抗噪性能好;既能处理连续数据,也能处理类别型数据;在多个领域有成功应用;既适合有监督学习,也适合无监督学习;具有较好的泛化能力;具有较好的逼近非线性映射的能力;具有较好的容错性。
(2)BP神经网络的缺点:缺乏可解释性;可能无法找到优解;可能存在过学习问题(overfitting);收敛速度慢。
第九章聚类分析1.聚类分析定义把一个给定的数据对象集合分成不同的簇;在同一个簇(或类)中,对象之间具有相似性;不同簇(或类)的对象之间具有较高的相宜性。
2.聚类分析方法通常分为哪些方法?基于划分方法;基于层次的方法;基于密度的方法;基于网格的方法;谱聚类方法3.数据挖掘技术对聚类分析的要求有哪几个方面?(1)可伸缩性(适用于增长的大数据集);(2)处理不同类型属性的能力(支持多种类型属性的数据集);(3)发现任意形状聚类的能力(除了球形聚类外,能划分出任意形状聚类);(4)减小对先验知识和用户自定义参数的依赖性;(5)处理噪声数据的能力(对孤立点、缺失值。
错误数据等噪声数据的抗干扰性);(6)可解释性和实用性(降维,可视化显示)。
4.K平均方法与K中心点方法比较(1)当存在噪声和离群点时,K中心点方法比K均值方法更加鲁棒。
(2)K中心点方法的执行代价比K平均方法要高。
(3)两种方法都要用户指定簇的数目K。
5.聚类分析中最常用的距离有欧几里得距离,曼哈坦距离、明可夫斯基距离等。
6.基于划分的聚类算法有K中心点方法和K平均方法等单选题举例1.决策树中不包含以下哪种结点(C)A.根结点B.内部结点C.外部结点D.叶结点2.某超市研究销售记录数据后发现,买啤酒的人很大概率也会买尿布,这种属于数据挖掘的哪类问题?(A)A.关联规则发现B.聚类C.分类D.自然语言处理3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘4.当不知道数据所带标签(类别)时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A.分类B.聚类C.关联分析D.决策树分析5.什么是KDD?(A)A.数据挖掘与知识发现B.领域知识发现C.文档知识发现D.动态知识发现判断题举例1.数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。