数据仓库习题答案
- 格式:doc
- 大小:211.50 KB
- 文档页数:6
数据库题库含参考答案一、单选题(共98题,每题1分,共98分)1.在数据库应用系统生命周期模型中,规划与分析阶段的输出结果不包括()。
A、项目计划书B、需求规范说明书C、可行性分析报告D、系统范围与边界正确答案:B2.下列哪些属性不适合建立索引?()。
A、经常岀现在GROUP BY子句中的属性B、经常参与连接操作的属性C、经常出现在WHERE子句中的属性D、经常需要进行更新操作的属性正确答案:D3.下列属于数据仓库特点的是()。
A、一次处理的数据量小B、综合性和提炼性数据C、面向操作人员,支持日常操作D、重复性的、可预测的处理正确答案:B4.下述哪一个SQL语句用于实现数据存取的安全机制()。
A、COMMITB、ROLLBACKC、GRANTD、CREATE TABLE正确答案:C5.有教师表(教师号,姓名,职称.所在系)和授课表(教师号,课程号,授课学年,授课时数),同一门课程可由多个教师讲授,同一个教师也可讲授多门课程,査询从未被“教授”讲授过的课程的课程号,正确的语句是()。
A、SELECT课程号FROM授课表a JOIN教师表bON a 教师号=b.教师号WHERE职称!='教授'B、SELECT课程号FROM授课表a RIGHTOUTTER JOIN教师表bONa.教师号=b.教师号C、SELECT课程号FROM授课表WHERE课程号NOT IN (SELECT课程号FROM授课表a JOIN授课表b ON a 教师号=b.教师号WHERE职称!='教授')D、SELECT课程号FROM授课表WHERE课程号IN (SELECT课程号FROM授课表a JOIN授课表b ON a 教师号=b.教师号WHERE职称!=,教授,)正确答案:D6.下列有关范式的叙述中正确的是()。
A、如果关系模式RG 1NF,且R中主属性完全函数依赖于码,则R是2NFB、如果关系模式RG3NF, X、YCU,若X—Y,则R是BCNFC、如果关系模式ReBCNF,若X一一Y (Y4X)是平凡的多值依赖,则R 是4NFD、—个关系模式如果属于4NF,则一定属于BCNF;反之不成立正确答案:D7.下列说法正确的是( )。
1、商务智能包括哪些核心技术?A.计算机技术B.数据挖掘C.数据仓库D.数据库正确答案:B、C2、将商务智能从一种想法变为企业实际应用的主要技术包括哪些?A.数据存储B.电子商务C.计算机软件D.计算机硬件正确答案:A、C、D3、数据和信息之间的关系正确的是一下哪些选项?A.数据是加工过的信息B.信息是数据C.数据和信息没有关系D.信息是加工过的数据正确答案:B、D4、设计数据库的目的是为了解决数据的存储和访问等基本问题,数据库在设计之初就要考虑满足以下操作。
A.大数据量访问B.批量数据读写C.多用户访问正确答案:C、D5、分析数据包括以下哪些内容?A.细节数据B.外部数据C.企业内部数据D.当前业务数据正确答案:A、B、C、D6、分析型数中有冗余是因为以下哪些原因?A.减少存储空间B.提高查询效率C.减少细节数据D.减少算计量正确答案:B、D7、在事务型处理环境下,操作具有以下哪些特点?A.响应时间短B.多是过程重复操作C.经常进行删除、增加、更新操作D.操作次数少正确答案:A、B、C8、数据仓库有哪些特点?A.数据随时间而变化B.面向主题C.数据不常改变正确答案:A、B、C、D9、以下说法哪些是正确的?A.服务于决策支持B.数据仓库建设有明确的起、止时间C.数据仓库是一个数据集合D.数据仓库建设是一个过程正确答案:A、C、D10、数据集成主要完成以下哪些工作?A.模型设计B.数据转换C.消除数据冲突D.多数据源数据抽取正确答案:B、C、D二、判断题1、管理就是决策,决策是企业管理的核心。
正确答案:对2、分析数据来自于某一个指定的业务数据库,并通过批量读取的方式写入数据仓库。
正确答案:错3、数据越详细具体包含的信息也就越多,因此,分析型数据应该是明细数据。
正确答案:错4、当前的数据才能代表最新的信息,因此,分析型数据应该是当前数据而不是历史数据。
正确答案:错5、在数据库设计时使用范式约减的目的是为了:防止出现数据的更新、查找、删除异常,同时减少数据的冗余。
数据库系统原理练习题库(附参考答案)一、单选题(共100题,每题1分,共100分)1.属于数据库结构设计阶段的是A、程序设计B、功能设计C、事务设计D、逻辑结构设计正确答案:D2.人工管理阶段,计算机主要应用于A、数据集成B、科学计算C、过程控制D、故障恢复正确答案:B3.下列关于数据控制语言的说法中,正确的是A、REVOKE语句用于授予权限B、GRANT语句用于收回权限C、数据控制语言主要用于数据执行流程管理D、数据控制语言包括的主要SQL语句是GRANT和REVOKE正确答案:D4.下列属于关联分析算法的是A、AprioriB、GMMC、RedisD、HBase正确答案:A5.同一数据被反复存储的情况是A、删除异常B、插入异常C、更新异常D、数据冗余正确答案:D6.产生数据不一致的主要原因是并发操作破坏了事务的A、持续性B、一致性C、原子性D、隔离性正确答案:D7.DBMS提供【】来严格地定义模式。
A、模式描述语言B、子模式描述语言C、内模式描述语言D、程序设计语言正确答案:A8.关系数据库以【】作为数据的逻辑模型。
A、二维表B、关系C、关系模型D、数据库正确答案:C9.关于调用存储过程的说法,错误的是A、可以从交互式界面调用B、可以使用CALL语句来调用存储过程C、可以由嵌入式SQL调用D、不是所有的SQL接口都能调用存储过程正确答案:D10.可唯一标识实体的属性集称为A、键B、实体型C、域D、属性正确答案:A11.目的是为可实际运行的应用程序设计提供依据与指导,并作为设计评价的基础的是A、设计评价B、编制应用程序设计说明C、模型转换D、子模式设计正确答案:B12.在使用游标的过程中,需要注意的事项不包括A、游标不能单独在查询操作中使用B、在一个BEGIN···END语句块中每一个游标的名字并不是唯一的C、游标是被SELECT语句检索出来的结果集D、在存储过程或存储函数中可以定义多个游标正确答案:B13.对关系的描述不正确的是A、关系中的元组次序可交换B、关系可以嵌套定义C、关系是一张二维表D、关系是一个集合正确答案:B14.下列关于MySQL的说法中,正确的是A、在MySQL中,一个关系对应多个基本表B、在MySQL中,一个或多个基本表对应一个存储文件C、在MySQL中,一个表只能有一个索引D、在MySQL中,索引不能存放在存储文件中正确答案:B15.关系数据库是以【】的形式组织数据。
一、多选题1、物理模型设计包括以下哪些步骤?A.实体转换成对应的表B.建立表之间的连接C.确定列类型D.属性转换成列正确答案:A、B、C、D2、在物理模型设计阶段除了考虑数据结构之外,还需要考虑以下哪些问题?A.维护代价B.存储时间C.字段类型D.字段大小正确答案:A、B3、以下哪种关于元数据的说法是错误的?A.元数据也有数据类型B.元数据是细节数据C.元数据是综合数据D.元数据是定义数据的数据正确答案:A、B、C4、元数据的使用者主要包括以下人员。
A.开发人员B.业务人员C.分析人员D.管理员正确答案:A、D5、数据仓库的数据抽取方法中,从逻辑抽取角度可以分为以下哪几种方式?A.相对抽取B.绝对抽取C.全量抽取D.增量抽取正确答案:C、D6、以下哪些内容是数据转换阶段需要完成的工作?A.数据分离B.数据合并C.数据转化D.数据类型确定正确答案:A、B、C7、以下哪些内容是数据转换的主要类型?A.字段导出B.特征集合转化C.日期时间转化D.信息合并正确答案:A、B、C、D8、在进行数据仓库中的数据装载时,如果遇到装载的数据和数据仓库中已有数据重复,常用的处理方法以下哪些是正确的?A.增加一条新记录B.覆盖(更新)原有记录C.丢弃新纪录D.合并新记录和已有记录正确答案:A、B、C、D9、以下对数据集市的特点描述中,哪些是正确的?A.数据源少B.主题少C.建设周期短D.只能满足部门级应用正确答案:A、B、C、D10、以下哪些方法可以用来实施数据仓库?A.自顶向下,总体规划,分步实施B.“big-bang“,爆炸式C.自底向上D.分项并举正确答案:A、B、C二、判断题1、数据库和数据仓库的的设计都以需求驱动为原则正确答案:错2、与数据库的设计相同,数据仓库的设计也是三级模型结构。
正确答案:对3、概念模型设计的核心是将实际需求机型高度的抽象和概括。
正确答案:对4、数据清洗就是消除数据源中不符合规范的数据的过程。
数据仓库试题一、选择题1. 数据仓库是一种用于存储、管理和分析大量数据的系统,其特点是()a) 存储海量数据b) 支持多维分析c) 支持实时查询d) 执行事务处理2. 下列哪项不是数据仓库的核心组件?a) 数据提取和转换(ETL)工具b) 数据集市c) 数据库管理系统d) 数据挖掘工具3. 数据仓库的建设过程中,以下哪项工作应该放在最后进行?a) 数据提取和清洗b) 数据建模c) 数据存储和加载d) 数据分析4. 在数据仓库中,维度模型和事实模型分别用于描述的是()a) 数据之间的关系b) 数据的粒度c) 数据的来源d) 数据的格式5. 下列哪个是数据仓库的主要目标之一?a) 实时交互式数据查询b) 高效的事务处理c) 存储大量数据d) 实现负载均衡二、填空题6. 数据仓库的架构通常包括三层,分别是()、()和()层。
7. 数据仓库的难点之一是数据的(),因为数据来自多个不同的系统和部门。
8. 数据仓库的存储技术包括()和()两种常见的方式。
9. 数据仓库建设过程中,将源数据转换为适合分析的数据称为()。
10. 数据仓库的数据分析可以采用多种方法,其中()分析是一种常见的方法。
三、简答题11. 数据仓库与传统的关系型数据库有何区别?12. 数据仓库的优势是什么?它在实际应用中有哪些场景?13. 数据仓库建设过程中的ETL过程是什么意思?它的作用是什么?14. 数据仓库中,维度模型和事实模型各自是如何描述数据的?15. 请简要说明数据仓库的架构和主要组件。
四、解答题16. 数据仓库的设计和建设步骤有哪些?请结合实际案例进行说明。
17. 请解释数据仓库中的数据清洗操作,并举例说明其重要性。
18. 请描述数据仓库的存储技术中,列式存储和行式存储的特点,并比较它们的优缺点。
五、实操题19. 假设你是某公司的数据分析员,请你根据实际需求,设计一个适合该公司业务的数据仓库架构,并简要说明其关键组件和数据流程。
数据仓库与数据挖掘习题答案第1章数据仓库的概念与体系结构1。
面向主题的,相对稳定的。
2。
技术元数据,业务元数据。
3。
联机分析处理OLAP。
4. 切片(Slice),钻取(Drill—down和Roll—up等)。
5。
基于关系数据库。
6。
数据抽取,数据存储与管理。
7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。
8。
可更新的,当前值的.9。
接近实时。
10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主.11。
答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持.数据仓库的特点包含以下几个方面:(1)面向主题。
操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。
主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。
(2)集成的.面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。
而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。
也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义.(3)相对稳定的。
操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。
数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。
数据库系统原理练习题+答案一、单选题(共100题,每题1分,共100分)1、下列不属于数据定义语言包括的SQL语句的是A、DELETEB、ALTERC、CREATED、DROP正确答案:A2、下列关于MySQL的说法中,错误的是A、MySQL是一个RDBMSB、MySQL具有客户/服务器体系结构C、MySQL 由美国MySQL AB公司开发D、许多中、小型网站为了降低网站总体拥有成本而选择MySQL作为网站数据库正确答案:C3、下列关于存储函数与存储过程的说法中,错误的是A、存储过程可以拥有输出参数B、可以直接对存储函数进行调用,且不需要使用CALL语句C、存储过程中必须包含一条RETURN语句D、对存储过程的调用,需要使用CALL语句正确答案:C4、数据库设计的重要目标包括A、研究构造数据库B、良好的数据库性能C、数据库行为设计D、数据库结构设计正确答案:B5、在图存储数据库中,【】保存与结点相关的信息。
A、结点B、属性C、边D、联系正确答案:B6、主要反映应用部门原始业务处理的工作流程的是A、数据流程图B、数据操作特征表C、操作过程说明书D、任务分类表正确答案:A7、MySQL的用户账号及相关信息都存储在一个名为【】的MySQL数据库中。
A、rootB、mysqlC、adminD、user正确答案:B8、数据库管理系统是计算机的A、数据库系统B、数据库C、应用软件D、系统软件正确答案:D9、在图存储数据库中,【】用来连接结点。
A、属性B、边C、结点D、联系正确答案:B10、将数据库系统与现实世界进行密切地、有机地、协调一致地结合的过程是A、数据库设计的内容B、数据库设计方法C、数据库生命周期D、数据库设计正确答案:D11、控制数据在一定的范围内有效或要求数据之间满足一定的关系,保证输入到数据库中的数据满足相应的约束条件,以确保数据有效、正确是指A、故障恢复B、并发控制C、数据安全性D、数据完整性正确答案:D12、属于数据库结构设计阶段的是A、程序设计B、逻辑结构设计C、功能设计D、事务设计正确答案:B13、属于数据库实现与操作阶段的是A、概念设计B、数据库的修改与调整C、逻辑设计D、物理设计正确答案:B14、使用存储过程的好处不包括A、高性能B、存储过程可作为一种安全机制来确保数据库的安全性C、良好的封装性D、可增加网络流量正确答案:D15、使用存储过程的好处不包括A、可增强SQL语言的功能和灵活性B、移植性好C、存储过程可作为一种安全机制来确保数据的完整性D、良好的封装性正确答案:B16、下列不属于数据库系统三级模式结构的是A、内模式B、模式C、外模式D、数据模式正确答案:D17、在多表连接查询的连接类型中,最常用的是A、左连接B、内连接C、右连接D、交叉连接正确答案:B18、数据库的核心是A、概念模式B、内部模式C、外部模式D、存储模式正确答案:A19、表中的行,也称作A、分量B、属性C、超码D、记录正确答案:D20、同一数据被反复存储的情况是A、插入异常B、数据冗余C、更新异常D、删除异常正确答案:B21、SQL提供了【】进行数据查询,该功能强大、使用灵活。
数据库练习题库(含答案)一、单选题(共98题,每题1分,共98分)1.在需求分析阶段,结构化分析和建模方法是一种较为有效的需求分析方法,下列不属于结构化分析和建模方法优点的是()。
A、可避免过早陷入具体细节B、从局部或子系统开始分析问题,便于建模人员了解业务模型C、图形对象不涉及太多技术术语,便于用户理解模型D、用图形化的模型能直观表示系统功能正确答案:B2.DBMS通过加锁机制允许用户并发访问数据库,这属于DBMS提供的()。
A、数据定义功能B、数据操纵功能C、数据库运行管理与控制功能D、数据库建立与维护功能正确答案:C3.关于数据划分策略,下述说法错误的是()。
A、散列划分釆用某种散列函数,以数据的划分属性作为函数参数,计算数据应存储的磁盘序号B、范围划分根据某个属性的取值,将数据划分为n个部分,分别存储到不同磁盘上C、范围划分有利于范围查询和点查询,但也可能会引起数据分布不均匀及并行处理能力下降问题D、轮转法划分能保证元组在多个磁盘上的平均分配,并具有较高的点查询和范围查询正确答案:D4.存取方法设计属于数据库设计的()阶段的设计任务。
A、逻辑结构设计B、概念结构设计C、系统需求分析D、物理结构设计正确答案:D5.将新插入的记录存储在文件末尾,并使记录随机地分布在文件物理存储空间中的文件结构是()。
A、散列文件B、堆文件C、索引文件D、聚集文件正确答案:B6.关于"死锁”,下列说法中正确的是()。
A、在数据库操作中防止死锁的方法是禁止两个用户同时操作数据库B、只有出现并发操作时,才有可能出现死锁C、当两个用户竞争相同资源时不会发生死锁D、死锁是操作系统中的问题,数据库操作中不存在正确答案:B7.关于数据库应用系统的需求分析工作,下列说法正确的是()。
A、在需求分析阶段,系统需求分析员要与用户充分沟通,并做出各类用户视图B、通过需求分析过程,需要确定出整个应用系统的目标、任务和系统的范围说明C、数据操作响应时间、系统吞吐量、最大并发用户数都是性能需求分析的重要指标D、数据需求分析的主要工作是要辩识出数据处理中的数据处理流程正确答案:C8.如果一个系统定义为关系系统,则它必须( )oA、支持关系数据库B、支持选择、投影和连接运算C、A和B均成立D、A、B都不需要正确答案:C9.联机分析处理包括以下()基本分析功能。
一.选择题:1. 在数据管理技术的发展过程中,经历了人工管理阶段、文件系统阶段和数据库系统阶段。
在这几个阶段中,数据独立性最高的是下列哪个阶段?()A.数据库系统B.文件系统C.人工管理D.数据项管理答案:A (7)2. 在数据库中存储的是()A.数据以及数据之间的联系B.数据模型C.数据D.信息答案:A (8)3. 存储在计算机内有结构的数据的集合称为()A.数据库系统B.数据库C.数据库管理系统D.数据结构答案:B (8)4. 下述关于数据库系统的正确叙述是()A.数据库系统中数据的一致性是指数据类型一致B.数据库系统避免了一切冗余C.数据库系统减少了数据冗余D.数据库系统比文件系统能管理更多的数据答案:C (11)5. 在数据库中,下列说法不正确的是()A.数据库避免了一切数据的重复B.若系统是完全可以控制的,则系统可确保更新时的一致性C.数据库中的数据可以共享D.数据库减少了数据冗余答案:A (11)6. 可以减少相同数据重复存储的现象是()A.记录B.数据库C.文件D.字段答案:B (11)7. 数据库具有程序结构化、最小的冗余度和较高的()A.程序与数据独立性B.程序与数据完整性C.程序与数据可靠性D.程序与数据一致性答案:A (12)8. 数据库系统的数据独立性是指()A.不会因为数据的变化而影响应用程序B.不会因为系统数据存储结构与数据逻辑结构的变化而影响应用程序C.不会因为存储策略的变化而影响存储结构D.不会因为某些存储结构的变化而影响其他的存储结构答案:B (12)9. 不是数据管理方式的是()A.文件管理B.数据库管理C.Web数据管理D.图片管理答案:D (3)10. 不是数据管理基本部分是()A.数据扩展B.数据组织C.数据交换D.数据保护答案:A (4)二.填空题1. 数据库是长期存储在计算机内、有______________的、可共享的数据集合。
答案:组织(8)2. 数据库是长期存储在计算机内、有组织的、可的数据集合。
习题参考答案第1章习题参考答案一、选择题1. C2. B3. D4. C5. D6. A7. A8. B9. D、10. B 11. C 12. D 13. A 14. D 15. B二、填空题1. 数据库系统2. 关系3. 物理独立性4. 操作系统5. 数据库管理系统(DBMS)6. 多对多7. 独立性8. 完整性控制9. 逻辑独立性10. 关系模型11. 概念结构(逻辑)12. 树有向图二维表嵌套和递归13. 宿主语言(或主语言)14. 数据字典15. 单用户结构主从式结构分布式结构客户/服务器结构浏览器/服务器结构第2章习题参考答案一、选择题1. A2. C3. C4. B5. B6. C7. B8. D9. C 10. A 11. B 12. A 13. A 14. D 15. D二、填空题1. 选择(选取)2. 交3. 相容(或是同类关系)4. 并差笛卡尔积选择投影5. 并差交笛卡尔积6. 选择投影连接7. σf(R)8. 关系代数关系演算9. 属性10. 同质11. 参照完整性12. 系编号系名称,电话,办公地点13. 元组关系域关系14. 主键外部关系键15. R和S没有公共的属性三、简答7.σtno=’T1’(T)*TC*C)(1)∏cno,cn(σage>18∧Sex=’男’ (S))(2)∏sno,sn,dept(σtn=’李力’(T)*TC*C)(3)∏cno,cn,ct(σsno=’s1’(S)*SC*C)(4)∏cno,cn,score(σsn=’钱尔’(S)*SC*∏cno,cn(C)) (5)∏cno,cn,score(σtn=’刘伟’(T)*TC)(6)∏sn,cno(S*SC)÷∏cno(σsn=’李思’(S))*C)(7)∏cno,cn(C)-∏cno,cn(SC*((8)∏cno,cn,sno(C*SC)÷∏sno(S)σcno=’c1’∨cno=’c2’ (SC)) (9)∏sno,sn,cno(S*SC)*∏cno((10)∏sno,sn,cno(S*SC)÷∏cno(C)第3章习题参考答案一、填空题1.结构化查询语言(Structured Query Language)2.数据查询、数据定义、数据操纵、数据控制3.外模式、模式、内模式4.数据库、事务日志5.NULL/NOT NULL、UNIQUE约束、PRIMARY KEY约束、FOREIGNKEY约束、CHECK约束6.聚集索引、非聚集索引7.连接字段8.行数9.定义10.系统权限、对象权限11.基本表、视图12.(1)INSERT INTO S VALUES('990010','李国栋','男',19)(2)INSERT INTO S(No,Name) VALUES('990009', '陈平')(3)UPDATE S SET Name='陈平' WHERE No='990009'(4)DELETE FROM S WHERE No='990008'(5)DELETE FROM S WHERE Name LIKE '陈%'13.CHAR(8) NOT NULL14.o=o15.ALTER TABLE StudentADDSGrade CHAR(10)二、选择题1. B2. A3. C4. B5. C6. C7. B8. D9. A 10. D第4章习题参考答案一、选择题1. B2. B3. D4. B5. C6. D7. B8. D9. C 10. A二、填空题1. 超键(或超码)2. 正确完备3. 属性集X的闭包X +函数依赖集F的闭包F +4. 平凡的函数依赖自反性5. {AD→C} φ6. 2NF 3NF BCNF7. 无损连接保持函数依赖8. AB BC BD9. B→φB→B B→C B→BC10. B→C A→D D→C11. AB1NF12. AD3NF三、简答题1、2、3、4、5、解(1)根据F对属性分类:L类属性:BD。
数据库模拟练习题及答案一、单选题(共90题,每题1分,共90分)1、在SQLServer 2000中,若希望数据库用户ACCT具有创建数据库对象的权限,较为合适的实现方法是()。
A、使ACCT只在db_ddladmin角色中B、使ACCT只在db_creator角色中C、使ACCT只在db_owner角色中D、使ACCT只在public角色中正确答案:B2、数据库概念设计是面向企业或组织中的数据需求的。
下列有关概念模型设计的说法中,错误的是()。
A、分析和定义实体集中的每一个实例,并用有意义的符号或文字分别描述它们B、从一个联系的两端(两个方向)确定实体集之间联系的基数,并把联系的基数标注在模型中C、按照具有相同属性特征原则对客观事物进行分类,在分类的基础上概括命名,得到实体集D、要保证一个实体集中定义的每一个属性有意义、不重名正确答案:A3、关于数据库系统中的数据的静态转储和动态转储机制,下述说法正确的是()。
A、静态转储时允许其他事务访问数据库B、静态转储能够保证数据库的可用性C、动态转储时允许在转储过程中其他事务对数据进行存取和修改D、动态转储无法保证数据库的可用性正确答案:C4、在需求分析阶段,结构化分析和建模方法是一种较为有效的需求分析方法,下列不属于结构化分析和建模方法优点的是()。
A、图形对象不涉及太多技术术语,便于用户理解模型B、用图形化的模型能直观表示系统功能C、从局部或子系统开始分析问题,便于建模人员了解业务模型D、可避免过早陷入具体细节正确答案:C5、下列关于数据仓库的叙述中,()是不正确的。
A、数据仓库前端分析工具中包括报表工具B、数据仓库中间层OLAP服务器只能采用关系型OLAPC、数据仓库通常釆用三层体系结构D、底层的数据仓库服务器一般是一个关系型数据库系统正确答案:B6、在数据库应用系统生命周期模型中,作为系统总体设计阶段输入的是()。
A、技术可行性分析报告和需求规范说明书B、软硬件选型和配置设计C、数据库应用系统体系结构设计D、应用软件总体设计正确答案:A7、文件系统与数据库系统的重要区别是数据库系统具有()。
数据仓库第三章作业1.按列存储时面向分析的大数据存储平台一种常见的解决方案,请查阅资料学习,完成以下任务:(1). 说明按列存储方式在存储与使用方面的优点,并通过案例给出图示说明原因;(2). 说明何种类型的数据更适合用于列存储。
答:数据库从逻辑上说,可以分为:●关系型数据库●非关系型数据库从物理(存储)视角来看,可以分为:●按行存储●按列存储行存储和列存储的主要区别在于,列存储将所有记录中相同字段的数据聚合存储,而行存储将每条记录的所有字段的数据聚合存储,如图1所示:图1 行列存储的差别对比为了更好的理解列存储,下面的例子能够很好的说明列存储的实际意义。
列式数据库以行、列的二维表的形式存储数据,但是却以一维字and Firstname)及工资(Salary).这个表存储在电脑的内存(RAM)和存储(硬盘)中,行式数据库把一行中的数据值串在一起存储起来,然后再存储下一行的数据,以此类推。
1,Smith,Joe,40000;2,Jones,Mary,50000;3,Johnson,Cathy,44000;列式数据库把一列中的数据值串在一起存储起来,然后再存储下一列的数据,以此类推。
1,2,3;Smith,Jones,Johnson;Joe,Mary,Cathy;40000,50000,44000;列存储相对于行存储有几下优点:1.极高的装载速度(最高可以等于所有硬盘IO 的总和,基本是极限了)2.适合大量的数据而不是小数据3.实时加载数据仅限于增加(删除和更新需要解压缩Block 然后计算然后重新压缩储存)4.高效的压缩率(一个字段的数据聚集存储),不仅节省储存空间也节省计算内存和CPU.5.非常适合做聚合操作.(2)一般来说,列存储适合OLAP这种场合,数据仓库,数据挖掘等查询密集型应用。
相对来说,不适合用在OLTP,或者更新操作,尤其是插入、删除操作频繁的场合。
2. 空间换时间是各行各业解决时间效率最常见的解决方案,在数据仓库设计中,请列举出至少三种以上空间换时间的技术方案,并说明提高效率的原因。
一、选择题【数据库系统的概述】1、数据库(DB)、数据系统(DBS)、数据管理系统(DBMS)之间关系是(C)A、DB包含DBS和DBMSB、DBMS包含DB和DBSC、DBS包含DB和DBMSD、没有任何关系2数据库系统的核心是(B)A、数据模型B、数据库管理系统C、数据库D、数据库管理员3、数据独立性是数据库技术的重要特点之一。
所谓数据独立性是指(D)A、数据与程序独立存放B、不同的数据被存在不同的文件中C、不同的数据只能被对应的应用的程序所使用D、以上三种说法都不对4、用树形结构表示实体之间的联系的模型是(C)A、关系模型B、网状模型C、层次模型D、以上三个都是5、“商品”与“顾客”两个实体之间的联系一般是(D)A、一对一B、一对多C、多对一D、多对多6、在E-R图中,用来表示实体的是(A)A、矩形B、椭圆形C、菱形D、三角形7、在数据库管理系统提供的数据语言中,负责数据的模式定义与数据的物理存取构建的是(A)A、数据定义语言B、数据转换语言C、数据操纵语言D、数据控制语言8、数据库系统的三级模式结构中,下列不属于三级结构的是(B)A、内模式B、抽象模式C、外模式D、概念模式9、在数据库管理系统提供的语言中,负责数据的完整性、安全性的定义与检查以及并发控制、故障恢复功能的是(D)A、数据定语言B、数据转换语言C、数据操纵语言D、数据控制语言10、下面关于数据系统叙述正确的是(B)A、数据库系统避免了一切冗余B、数据库系统减少了数据冗余C、数据库系统文件能管理更多的数据D、数据库系统中数据的一致性是指数据类型的一致11下列叙述中,错误的是(C)A、数据库技术的根本目标是要解决数据共享的问题B、数据库设计是指设计一个能满足用户要求,性能良好的数据库C、数据库系统中,数据的物理结构必须与逻辑结构一致D、数据库系统时一个独立的系统,但是需要操作系统的支持12、在数据库管理系统提供的数据语言中,负责数据的查询及增删改等操作的是(D)A、数据定义语言B、数据转换语言C、数据控制语言D、数据操纵语言13、下列关于数据库的描述中,正确的是(A)A、数据库是一个结构化的数据结合B、数据库是一个关系C、数据库是一个DBF文件D、数据库是一个组文件14、在数据库的三级模式结构中,描述数据库中全体数据的全局逻辑结构和特征的是(D)A、外模式B、内模式C、存储模式D、模式15、(B)是存储在计算机内有结构的数据的集合。
一、选择题1、数据仓库是随时间变化的,下面的描述不正确的是:A、数据仓库随时间变化不断增加新的数据内容。
B、捕捉到的新数据会覆盖原来的快照。
C、数据仓库随时间变化不断删去旧的数据内容。
D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合。
答案: B2、关于基本数据的元数据是指:A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。
B、基本元数据包括与企业相关的管理方面的数据和信息。
C、基本元数据包括日志文件和建立执行处理的时序调度信息。
D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息。
答案: A3、下面有关数据粒度的描述不正确的是:A、粒度是指数据仓库小数据单元的详细程度和级别。
B、数据越详细,粒度就越小,级别也就越高。
C、数据综合度越高,粒度就越大,级别也就越高。
D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。
答案: B4、有关数据仓库的开发特点,不正确的描述是:A、数据仓库开发要从数据出发。
B、数据仓库使用的需求在开发出去就要明确。
C、数据仓库的开发是一个不断循环的过程,是启发式的开发。
D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据的分析和处理更灵活,且没有固定的模式。
答案: B5、RAID技术具有容错能力,能够满足对存储能力、性能和可靠性不断提高的要求。
其实,实现原理是将数据写入多张磁盘中,如果—张磁盘发生故障,就从其他存放冗余数据的磁盘上访问数据。
有关RAID不同级别的描述不正确的是:A、在RAID 0这一级别上,数据记录通过在多组驱动器的扇区上交错地分布着实现,没有奇偶校验,不提供任何冗余。
B、RAID 1称为镜像。
在这一级别上,数据被冗余地写入成对的驱动器中,可以独立地从每个驱动器提取该数据。
这种方法没有什么缺点,是备份时候经常用到的技术。
C、RAID 3数据记录在成组驱动器上,位交错,只有一个驱动器仍有奇偶校验信息。
第一章
1.为什么不能依靠传统的业务处理系统进行决策分析?(P1-3)
2.在将数据源中的数据加载到数据仓库之前需要完成那些工作?为什么要进行这些工作?(数据准备P13-14 另外加“抽取”)
3.(选做)如果创建一个数据仓库,主要是分析关于客户的人口统计(收入、家庭人口、家庭位置、爱好等)。
数据仓库的目的在于将特定的产品推销给合适的潜在客户群。
这个数据仓库应该从哪些地方获取数据源,数据仓库的体系结构应该包含哪些部分。
(P12,8)
4.从数据挖掘与数据库、统计学、机器学习的关系来讨论什么是数据挖掘?
5.在数据挖掘过程中需要涉及到哪些过程?(P31-35)
(1). 确定挖掘对象
清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.
(2)数据准备
1) 数据的选择:选择出适用于数据挖掘应用的数据.
2) 数据的预处理:研究数据的质量, 并确定将要进行的挖掘操作的类型.、(3) 模型的构建:建立一个分析模型.这个分析模型是针对挖掘算法建立的。
(4)数据挖掘:对所得到的经过转换的数据进行挖掘.
(5)结果分析:解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.
(6)知识的应用:将分析所得到的知识集成到业务信息系统的组织结构中去,使其在实际的管理决策分析中得到应用
6.在现实中有哪些人需要使用数据挖掘技术来帮助他的工作? (P35)
第二章
名词解释;
维:关于一个组织想要记录的透视或实体。
维表:对维各个属性的描述。
事实:数值的度量。
事实表: 包括事实的名称或度量,以及每个相关维表的关键字。
元数据: 数据的数据,可以对数据仓库中的各种数据进行详细的描述与说明,说明每个数据的上下关系,使每个数据具有符合现实的真实含义,使用户可以了解这些数据之间的关系.
粒度:数据仓库中数据单元的详细程度和级别.
星型模型: 最常用的数据仓库设计结构的实现模式。
使数据仓库形成了一个集成系统,为用户提供分析服务对象。
核心是事实表,围绕事实表的是维度表。
通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。
雪花模型:对星型模型的冗余的维度表进一步分解,对星型模型中的维度表进行了规范化处理。
问答:
1.简述olap 与oltp的区别;
Olap:在线分析处理;oltp:联机事务处理。
PAGE 5
⏹ 2.在一般的信息管理中采用哪些概念模型来描述信息处理的对象,这些概
念数据模型是否适合数据仓库的开发环境?
略答:一般的业务处理系统中广泛采用实体-关系模型(ERD)来描述信息处理的对象,但它无法表述数据仓库中所需要的分析数据、描述数据和细节数据之间的关系,无法反映出时间属性的存在和作用,更无法表现出数据的导出关系,因要对其进行修改,得到星型模型或雪花模型。
(CRUD矩阵在数据仓库的高层模型中反应实体的生成、引用、
更新和删除不属于概念模型的范畴)
⏹ 3.航空公司希望能够分析在其服务旅客中的常客旅行趋势,这样可以为公
司正确定位航空市场中的常客市场。
并且希望能够跟踪不同航线上旅客的季节变化情况和增长,并跟踪在不同航班上所消费的食品和饮料情况,这样可以帮助航空公司安排不同航线上的航班和食品供应。
现在所面对的任务是为其设计一个数据仓库的概念模型、逻辑模型和物理数据模型。
PAGE 5
PAGE 5
事实表:
消费事实表(旅客编号ID int12,航班编号ID int12,食物编号ID
int12,饮料编号ID int12,季节ID int12,乘坐次数int12,旅客类型
char 2,食物消费数量int 4,食品消费金额float 8,初次乘坐时间
datatime 8)
维表:
(1)旅客基本情况表(编号int12, 姓名char12, 证件类型chat12 , 证件号char18, 职业char12, 收入smallmoney 4, 乘坐季节datatime
8)
(2)旅客变动情况表(编号int12,省char20,市char20,县char20,街道char20 ,邮编int 6, 联系方式varchar 50)
(3)食品消费情况表(食品编号int12, 名称char12, 类别char 2, 数量int 4)
(4)饮料消费情况表饮料编号int12, 名称char12, 类别char 2, 数量int 4)
(5)航班情况表(航班号char12, 航线号char12, 飞行里程int4, 始发站char10, 目的地char 10, 时间datatime 8)
4.为建立第3题中的数据仓库,需要哪些元数据?这些元数据在不同的阶PAGE 5
段应该发挥什么作用?
略答:元数据:旅客基本信息,初次乘坐时间,食品消费情况,航班情况等初次乘坐时记录其编号,便于以后查询和修改
每次乘坐时记录航班状况和食品消费状况
作用:p56-58
第三章
1.为什么说数据仓库的开发是一个不断循环、逐步提升的开发过程?(P67)
2.数据仓库的生命周期应该包含哪几个阶段?需要完成哪些工作?(P65)
数据仓库的生命周期开发过程:(要求展开)
⑴规划分析阶段:规划与确定需求、开发概念模型、开发逻辑模型;
⑵设计实施阶段:设计体系结构、数据库与元数据设计、数据抽取转换与加
载、开发中间件、填充与测试数据仓库;
⑶使用维护阶段:数据仓库应用、数据仓库维护、数据仓库评价。
数据仓库的生命周期开发特点:
(1)数据仓库开发是从数据出发的;
(2)数据仓库使用的需求不能在开发初期明确;
(3)数据仓库的开发是一个不断循环的启发式过程。
3.在数据仓库的需求分析中需要对哪些人员进行需求调查,应该调查哪些内容?(P73)
4.请为购买商品趋势分析设计一个数据仓库的星型模型,并给出维表的层次结构。
(P78图3.4,维表层次P75 表3-1 )
5.在数据仓库的开发过程中需要对哪些模型进行评审,不同模型的评审内容有哪些?(概念模型P80,逻辑模型P90,物理模型P95)
第四章
名词解释:
维(p106):决策分析的角度或出发点
多维数据集(p107):数据立方体或超立方体。
上卷(p110):从较低层次的数据开始沿某一个维的概念分层向上归约,得到概
括性的数据
下钻(p110):从较高层次的数据开始沿某一个维的概念分层向下或引入新的维来实现,得到细节数据;
多维的切片(p109):在某两个维上取一定区间的维成员或全部维成员,而其余的维上选定一个维成员的操作。
多维的切块(p110):在切片的基础上,进一步确定各个维成员的区间得到的片段体,即由多个切片叠合起来的。
旋转(p110):对多维数据集改变其显示得维方向,得到不同视角的数据
多维OLAP(MOLAP) (p114):基于多维数据库存储方式建立起来的OLAP
关系OLAP(ROLAP) (p118):基于关系数据库存储方式建立起来的OLAP
问答:
1.什么是OLAP?OLAP是一种技术?还是一种数据库?(p105)
PAGE 5
在线分析处理或联机分析处理,是一个应用广泛的数据仓库使用技术。
它可以根
据分析人员的要求,快速、灵活地对大量数据进行复杂的查询处理,并以直观的、Array容易理解的形式将查询结构提供给决策人员。
2.OLAP的系统结构是怎样的?这种结构在进行在线分析时有什么特点?
(p113-114)
OLAP的系统结构分为瘦客户端系统和胖客户端系统。
胖客户端系统:将多维数据存储于客户端和OLAP服务器,这种系统由于客户在进行在线分析处理时,需要将数据加载到客户端,容易产生网络瓶
颈。
瘦客户端系统:多维数据集不存储在客户端,存在OLAP服务器中,这在网络中所需传输的只是分析处理后的结果,而不是多维数据集。
3.MOLAP和ROLAP在OLAP的数据存储中各有什么特点?在什么情况下,
选择MOLAP?在什么情况下,选择ROLAP?
(p122-123 MOLAP:将数据和聚合都存储于多维数据结构中。
ROLAP:将数据和聚合都存储于关系数据结构中;
如果需要建立一个大型的,功能复杂的企业级数据仓库可选择
ROLAP,如果建立一个目标单一维数不是很多的数据集市,MOLAP是
一个较好的选择。
)
4.OLAP中的数据切片和切块是如何实现的?(p109-110)
5.OLAP中的钻取操作可以用来为哪些决策提供帮助?(钻取操作即沿着某一个
维的概念分层向下或引入新的维来实现,能从数据仓库中的高层数据开始逐步向
底层数据探索,了解组成概括数据的具体细节.)
PAGE 5。