数据仓库(简答题复习资料整理)
- 格式:doc
- 大小:162.00 KB
- 文档页数:6
数据库简答题数据库是一种用于存储和管理数据的系统。
它可以提供有效的数据组织和快速的数据访问。
下面是一些与数据库相关的简答题:1. 什么是数据库管理系统(DBMS)?数据库管理系统是一种软件,用于管理数据库的创建、使用和维护。
它提供了一种访问数据库的接口,并允许用户进行数据的插入、修改、删除和查询操作。
常见的DBMS包括MySQL、Oracle、SQL Server等。
2. 请解释什么是关系型数据库?关系型数据库是以表格形式组织数据的数据库。
它利用关系模型来描述数据之间的关系,表格中的每一行表示一个实体,每一列表示一个属性。
关系型数据库使用结构化查询语言(SQL)进行数据的管理和操作。
3. 什么是主键?它的作用是什么?主键是一种唯一标识表格中每一行数据的列。
它的作用是保证数据的唯一性和完整性,能够快速找到和区分每一条记录。
主键可以由一个或多个列组成,在表格中不能重复。
4. 请解释什么是外键?它的作用是什么?外键是一种用于建立表格之间关联关系的列。
它是另一张表格的主键,用来引用其他表格中的数据。
外键的作用是维护数据的完整性,确保相关表格之间的关系一致。
5. 什么是索引?它的作用是什么?索引是一种用于提高数据库查询效率的数据结构。
它类似于书的目录,可以快速定位和访问数据。
数据库查询时会先根据索引找到相关的数据位置,然后再进行数据的读取。
索引可以加快数据的查询速度,但同时也会增加数据的存储和维护成本。
6. 数据库的三范式是什么?为什么要遵循三范式?数据库的三范式是一种设计数据库的规范。
它包括第一范式(1NF)、第二范式(2NF)和第三范式(3NF)。
遵循三范式可以提高数据库的设计和管理效率,降低数据冗余和数据不一致的风险。
- 第一范式(1NF)要求数据表格中的每一列都是不可再分的基本数据单元,每一行数据应为唯一。
- 第二范式(2NF)要求每个非主键列完全依赖于主键。
- 第三范式(3NF)要求非主键列之间不能存在传递依赖。
数据仓库知识点总结一、数据仓库概念数据仓库是一个用来集成、清洗、存储和管理企业数据的系统,以支持企业决策制定、分析和商业智能服务。
它是一个面向主题的、集成的、时间性的、非易失的数据集合,用于支持企业决策。
数据仓库是企业数据管理的重要组成部分,它与操作型数据处理系统相辅相成。
数据仓库以不同的视角和角度组织数据,帮助企业管理者对企业整体情况进行全面分析和评估。
二、数据仓库的特点1. 面向主题:数据仓库与传统数据库相比,更加侧重对业务应用的支持,主要面向业务应用的主题而不是基本事务数据,以方便企业管理者进行更好的分析和决策。
2. 集成性:数据仓库集成了来自不同数据源的数据,将数据统一管理,并且进行了数据清洗和转换,确保数据的一致性和准确性。
3. 时态性:数据仓库中的数据具有时间性,可以保存历史数据,能够支持分析历史数据的趋势和变化。
4. 非易失性:数据仓库中的数据不会丢失,可以持久保存,并且根据需要定期备份,确保数据的安全和可靠。
5. 大数据量和复杂性:数据仓库通常包含大量的数据,并且数据之间的关系复杂,需要采用专门的数据模型和处理方法来管理和分析。
6. 以支持决策为目标:数据仓库的目标是为企业管理者提供数据支持,帮助他们更好地了解企业的经营状况和趋势,以支持企业决策。
三、数据仓库架构数据仓库架构包括了多个重要组成部分,主要包括数据提取、数据清洗、数据转换、数据加载、元数据管理和数据查询分析等。
1. 数据提取:数据提取是指从各个数据源中将需要的数据提取出来,数据源可以包括企业内部的数据库、文件系统、应用系统等,也可以包括外部数据源,如公共数据等。
2. 数据清洗:数据清洗是指对提取的数据进行清洗和规范,包括去重、校验、纠错、转换等处理,以确保数据的准确性和一致性。
3. 数据转换:数据转换是指对清洗后的数据进行格式转换、相关联和整合,以便于数据仓库的统一管理和分析。
4. 数据加载:数据加载是将转换后的数据载入数据仓库中,通常包括全量加载和增量加载两种方式,以确保数据的及时性和准确性。
一、题型简答题、选择题、填空题、设计题、操作题、命令题。
二、考核范围第1、2、3、4、5、11、12章第1章信息是对现实世界中事物的存在特征、运动形态以及不同事物间的相互联系等多种属性的描述,通过抽象形成概念。
信息是关于事物以及事物间联系的知识。
信息一般分三类:事物的静态属性信息、动态属性信息、事物间的内在联系信息。
表达信息的符号记录就是数据。
数据是信息的载体,信息是数据的内涵。
计算机是处理数据的。
作为数据的符号在计算机中都转换成二进制符号“0”和“1”保存和处理。
数据处理指对数据收集、整理、组织、存储、维护、加工、查询和传输的过程。
为实现特定数据处理目标所需要的所有各种资源的总和称为数据处理系统。
一般情况下,主要指硬件设备、软件环境与开发工具、应用程序、数据集合、相关文档等数据库指长期存储在计算机存储设备上结构化、可共享、相关联的数据集合。
数据库系统是指在计算机中引入数据库后的系统构成,由计算机软硬件、数据库、DBMS、应用程序以及数据库管理员(DBA)和数据库用户构成。
核心是数据库和DBMS数据库管理系统是专门处理数据库的软件,数据库的所有工作,包括数据库的定义、数据的录入、查询、输出,及数据库的维护和安全保护,都通过DBMS 完成,是数据库系统的核心。
数据库设计的定义:对于给定的应用环境,设计构造最优的数据库结构,建立数据库及其应用系统,使之能有效地存储数据,对数据进行操作和管理,以满足用户各种需求的过程。
数据库设计采用的基本方法是结构化设计方法,这种方法将开发过程看成一个生命周期,也称为生命周期法。
其核心思想是将开发设计过程分成若干个步骤,主要包括:系统需求调查与分析、概念设计、逻辑设计、物理设计、实施与测试、运行维护等几个阶段。
数据模型,是对客观世界的事物以及事物之间联系的形式化描述,有层次模型、网状模型、关系模型三种。
概念模型面向用户,使用用户易于理解的概念、符号、表达方式来描述事物及其联系,它与任何实际DBMS都没有关联;同时,概念模型又易于向DBMS支持的数据模型转化。
一.1.试述关系模型的参照完整性规则?参照完整性规则:若属性(或属性组)F 是基本关系R 的外码,它与基本关系S 的主码Ks 相对应(基本关系 R 和S 不一定是不同的关系),则对于 R 中每个元组在 F 上的值必须为:取空值(F 的每个属性值均为空值)或者等于 S 中某个元组的主码值。
评分标准:指明 F 是 R 的外码,与 S 的主码对应 1 分;参照完整性两条规则各 1分。
2.试述视图的作用?(1)视图能够简化用户的操作。
(1 分)(2)视图使用户能以多种角度看待同一数据。
(1 分)(3)视图对重构数据库提供了一定程度的逻辑独立性。
(1 分)(4)视图能够对机密数据提供安全保护。
(1 分)评分标准:意思表达正确即可给分。
3.登记日志文件时必须遵循什么原则?两条原则:(1)登记的次序严格按并发事务执行的时间次序。
(1 分)(2)必须先写日志文件,后写数据库。
(2 分)评分标准:意思表达正确即可给分二.1. 试述数据、数据库、数据库管理系统、数据库系统的概念。
数据:描述事物的符号记录。
(1 分)数据库:长期存储在计算机内的、有组织的、可共享的数据集合。
(1 分)数据库管理系统:是位于用户与操作系统之间的具有数据定义、数据操纵、数据库的运行管理、数据库的建立和维护功能的一层数据管理软件。
(1 分)数据库系统:在计算机系统中引入数据库后的系统,一般由数据库、数据库管理系统(及其开发工具)、应用系统、数据库管理员和用户构成。
(1 分)评分标准:四个基本概念各 1 分,意思表达正确即可给分。
2.说明视图与基本表的区别和联系。
视图是从一个或几个基本表导出的表,它与基本表不同,是一个虚表,数据库中只存放视图的定义,而不存放视图对应的数据,这些数据存放在原来的基本表中,当基本表中的数据发生变化,从视图中查询出的数据也就随之改变(2 分)。
视图一经定义就可以像基本表一样被查询、删除,也可以在一个视图之上再定义新的视图,但是对视图的更新操作有限制(1 分)。
数据仓库资料一、简答1、什么是元数据?元数据如何分类?请叙述元数据的作用。
答:元数据与数据字典类似,类似于电话黄页,是数据仓库数据本身信息的数据。
元数据的类型:1)操作性元数据2)抽取和转换元数据3)最终用户元数据元数据的作用:元数据负责连接数据仓库的所有部分,并为最终用户提供向导:1)易于数据仓库数据的理解2)保证数据质量3)提高系统的应用的适用度和可适展性4)便于信息交换。
2、数据仓库项目与OLTP系统项目有什么不同?答:存储数据不同:OLTP存储的是操作性数据,数据仓库中存储的是分析性数据对数据处理不同:OLTP是以传统的数据为中心进行企业日常处理,而数据仓库中的数据被用于分析背后的关联,为企业决策提供可靠的依据。
面向的使用人员不同:OLTP使用人员通常是企业中的具体操作员,处理的数据通常是企业业务细节信息,其目标是实现企业的业务运营。
而数据仓库的使用人员是企业中的高层,或是工程师,其中包含的信息是企业的宏观信息而非具体细节,其目的是为企业决策者提供支持。
3、MOLAP和ROLAP模型之间的本质区别是什么?列出它们的一些相同点。
答:本质区别:MOLAP是基于多维数据库来存储OLAP分析所需要的数据,数据以多维方式存储,并以多维视图方式显示,而ROLAP的底层数据库是关系数据库。
相同点:1)数据都作为关系表存储再数据仓库中2)都能获得一定成都的汇总数据3)都是从数据仓库存储器中访问数据4、什么是星型模式?什么是雪花模型?它由哪些表组成?答:星型模式:一种多维数据关系,由一个事实表和一组维表组成,每个维度表表达一个维,所有维度字段组成事实表的复合主键,事实表中的非主键属性称为事实,汇总出来的数值型数据大都是文字,时间等类型的数据。
雪花模式:它是对星型模式的一种扩展,比如日期,地区等多层次的维度的扩展,可类似扩展,是对星型模式进行规范化处理的产物,从消除数据冗余,从而使事实表,字段数和总长度降低。
简述数据仓库的组成简答题数据仓库是一个重要的数据管理和分析系统,它能够帮助组织或企业收集、存储、管理和分析各种类型的数据,以便更好地了解客户、业务运营和市场走势。
以下是关于数据仓库的一些常见问题及其回答:1. 什么是数据仓库?它的作用是什么?答:数据仓库是一个集中式的数据存储系统,它主要用于收集、存储、管理和分析各种类型的数据,包括结构化数据和非结构化数据,如文本、图像、音频和视频等。
数据仓库的作用是帮助组织或企业更好地了解客户、业务运营和市场走势,以便更好地做出决策。
2. 数据仓库的组成部分是什么?答:数据仓库的组成部分包括:- 数据源:数据源是指从各种数据来源收集的数据,如数据库、文件、网络等。
- 数据清洗和转换:数据清洗和转换是指对数据进行清洗和标准化,以便更好地存储和访问数据。
- 数据集成:数据集成是指将清洗和转换后的数据集成到一个数据仓库中。
- 数据存储:数据存储是指将数据仓库中的数据存储到磁盘或其他存储设备中。
- 数据分析和挖掘:数据分析和挖掘是指使用机器学习和数据挖掘技术对数据进行分析和挖掘,以便更好地了解客户和市场。
3. 数据仓库的优缺点是什么?答:数据仓库的优点包括:- 集中数据存储和管理:数据仓库可以将各种类型的数据集中存储和管理,以便更好地管理和访问数据。
- 支持业务分析和决策:数据仓库可以使用数据分析和挖掘技术,支持组织或企业进行业务分析和决策。
- 提高数据质量和准确性:数据仓库可以使用数据清洗和转换技术,提高数据质量和准确性。
数据仓库的缺点包括:- 需要大量的存储和计算资源:数据仓库需要占用大量的存储和计算资源,需要大量的投资。
- 难以扩展和维护:数据仓库需要仔细的规划和设计,以便易于扩展和维护,需要大量的时间和精力。
- 难以清洗和转换:数据仓库中可能存在大量的数据清洗和转换问题,需要花费大量的时间和精力来处理。
1.数据管理的不同发展阶段及其特点(1)人工管理特点:数据的管理者:应用程序,数据不保存数据面向的对象:某一应用程序数据的共享程度:无共享、冗余度极大数据的独立性:不独立,完全依赖于程序数据的结构化:无结构数据控制能力:应用程序自己控制(2)文件系统特点:数据的管理者:文件系统,数据可长期保存数据面向的对象:某一应用程序数据的共享程度:共享性差、冗余度大数据的结构化:记录内有结构,整体无结构数据的独立性:独立性差,数据的逻辑结构改变必须修改应用程序数据控制能力:应用程序自己控制(3)数据库系统特点: 数据的管理者:DBMS数据面向的对象:现实世界数据的共享程度:共享性高数据的独立性:高度的物理独立性和一定的逻辑独立性数据的结构化:整体结构化数据控制能力:由DBMS统一管理和控制2.标准SQL中定义的事务隔离级别及其特点●未授权读取,也称为读未提交(Read Uncommitted):允许脏读取,但不允许更新丢失。
如果一个事务已经开始写数据,则另外一个数据则不允许同时进行写操作,但允许其他事务读此行数据。
该隔离级别可以通过“排他写锁”实现。
●授权读取,也称为读提交(Read Committed):允许不可重复读取,但不允许脏读取。
这可以通过“瞬间共享读锁”和“排他写锁”实现。
读取数据的事务允许其他事务继续访问该行数据,但是未提交的写事务将会禁止其他事务访问该行。
●可重复读取(Repeatable Read):禁止不可重复读取和脏读取,但是有时可能出现幻影数据。
这可以通过“共享读锁”和“排他写锁”实现。
读取数据的事务将会禁止写事务(但允许读事务),写事务则禁止任何其他事务。
●序列化(Serializable):提供严格的事务隔离。
它要求事务序列化执行,事务只能一个接着一个地执行,但不能并发执行。
如果仅仅通过“行级锁”是无法实现事务序列化的,必须通过其他机制保证新插入的数据不会被刚执行查询操作的事务访问到。
数据库简答题整理数据库是计算机系统中的一个重要组成部分,用于存储、管理和提取数据。
在使用和设计数据库的过程中,常常会涉及到一些与数据库相关的概念、术语和技术。
以下是对一些常见数据库相关问题的简洁解答整理:1. 什么是数据库?数据库是按照一定的数据模型组织、存储和管理数据的集合。
它可以对数据进行高效的存取、操作和管理,并提供了一种结构化的方式来存储和组织数据。
常见的数据库管理系统有MySQL、Oracle、SQL Server等。
2. 数据库系统的三级模式是什么?数据库系统的三级模式是外模式、概念模式和内模式。
- 外模式是用户看到和使用的数据库的局部观点,它描述了用户所关心的数据的逻辑结构和访问方式。
- 概念模式是数据库的全局观点,它描述了整个数据库中的数据逻辑结构以及数据之间的联系。
- 内模式是数据库在物理存储层面上的观点,它描述了数据在磁盘或其他存储介质上的存储方式和访问方法。
3. 数据库范式有哪些?数据库范式是用于规范数据库中关系模式的设计原则。
常见的数据库范式有第一范式(1NF)、第二范式(2NF)、第三范式(3NF)等。
这些范式分别定义了不同的依赖和函数依赖关系约束,目的是优化数据的存储和消除冗余。
4. 什么是主键和外键?主键是用于唯一标识表中每一条记录的字段,它具有唯一性和非空性。
主键可以是单个字段或多个字段的组合。
外键是表中的一个字段,它与其他表的主键建立关联关系。
外键用于实现表与表之间的数据完整性和一致性。
5. 数据库事务是什么?有哪些特性?数据库事务是一组被视为单个逻辑单位的操作,要么全部执行成功,要么全部不执行。
数据库事务具有四个特性,即原子性、一致性、隔离性和持久性。
- 原子性:事务中的所有操作要么全部成功,要么全部失败,不会出现部分操作成功、部分操作失败的情况。
- 一致性:事务执行前后,数据应满足约束和规定的完整性条件。
- 隔离性:正在执行的事务对其他事务是隔离的,不会相互干扰。
数据仓库考试必看数据仓库复习1.信息的特征,医学信息与医学知识,医学决策⽀持系统;数据仓库的基本特征,数据组织基本特征,数据组织⽅式,数据集市,数据仓库系统的逻辑层次,数据装载,元数据;信息的特征语法特征:信息的语法特征包括信息的语法、存储和传递的描述对应的即“数据”语义特征:信息的语义特征表述的是信息的具体含义语⽤特征:信息的语⽤特征是针对信息的⽬的性⽽⾔,为⼀定的⽬的的服务,以减少不确定性1.数据仓库模型选取,数据仓库开发模式(课件⾥的数据仓库设计过程,概要,逻辑,物理好好看);2.OLAP的分类,OLAP与OLTP的联系与区别;MDX语⾔(与SQL的区别,⾃⾝的语法要素弄清楚);3.医学数据的组织(特点看看),医学数据仓库的设计(临床数据的新特点看看),医学数据仓库的管理(⾥⾯的各⼩点看看)PS:这些全是标题,⾄于哪句话是考到的,⼤家多看看!问答题也在⾥⾯!综合题在最近给PPT(最新的那⼀份)⾥!医学信息:是医学科学领域的信息,涉及医学、药物学、卫⽣学和医学管理等专门知识。
依据信息的语义特征和语⽤特征,医学信息可以解释为:⼀、医学信息是医学、医疗卫⽣、药物学和医学管理学为信息内容的;⼆,医学信息的处理依赖于以计算机技术为核⼼的信息技术。
医学知识:数据是信息的载体,是信息的语法表述。
经过解释的数据演化为信息,⽽对信息进⾏加⼯,集成为知识。
反过来,知识⼜指导数据解释。
医学知识有两种类型:⼀种是来⾃于医学⽂献,称为科学知识;另⼀种来⾃于临床专家,称为经验知识。
决策⽀持模型医学决策⽀持系统:医学知识应⽤到某⼀患者特定问题,提出具有最佳费⽤/效果⽐的解决⽅案的计算机系统。
医疗卫⽣中的决策模型主要有定量决策⽀持模型和定性决策⽀持模型两类定量模型的数据源主要取⾃于病⼈资料定性模型采⽤的特征⼀般有专家提出决策⽀持系统的类型:决策模型定量模型定性模型指导性模型贝叶斯法真值法决策树推理模型⾃动模型模糊集合布尔逻辑⾮参数划分专家系统神经⽹络数理逻辑评论式系统数据仓库的基本特征数据仓库的数据是⾯向主题的数据仓库的数据是集成的数据仓库的数据是⾮易失的数据仓库的数据是随时间不断变化的。
1.说出数据库系统有哪几部分组成?数据, 软件, 硬件, 人员2.试述SQL语言的功能。
SQL语言是一种数据库查询和程序设计语言, 用于存取数据以及查询更新和管理关系数据库系统。
3.SQL提供的基本数据类型有哪些?每种举两个例子。
1.数值型(int bit)2.字符串型(char vachar)3.日期时间类型(datetime small datetime)4.货币类型(money small money)5.简述Where子句与Having子句的区别。
Having是筛选组, 而where是筛选记录, 分组筛选的时候应having;其它情况用where, 视图定义以及基本表区别。
试图是一个或几个基本表(或试图)导出的表。
他与基本表不同, 是一个虚表, 可以和基本表一样能被查询, 被删除, 但对试图的增、删、改操作则有一定限制。
6.简述视图的定义以及与基本表的区别。
视图是一个或几个基本表(或试图)导出的表。
他与基本表不同, 是一个虚表, 可以和基本表一样能被查询, 被删除, 但对试图的增、删、改操作则有一定限制。
7.试叙述数据库系统的三级模式结构及二级映象功能。
三级模式结构: 外模式、模式、内模式二级映像是为了在内部实现三个模式所对应三个抽象层次的联系和转换。
8.简述数据库系统如何实现应用程序与数据物理独立性和逻辑独立性。
模式/内模式映像保证了数据的物理独立性, 将由内模式变化所带来的影响与概念模式隔离开来外模式/模式的映像保证了数据的逻辑独立性, 将由概念模式变化所带来的影响与外模式隔离开来9.试述数据库设计的基本步骤。
1.需求分析阶段2.概念结构设计阶段3.逻辑结构设计阶段4.数据库物理设计阶段5.数据库实施阶段6.数据库运行与维护阶段10.解释E-R图并说明其三要素。
实体、联系、属性。
实体: 现实世界可以区别于其他是对象的“事件”或“物件”联系: 实体各属性之间所具有的关系。
属性: 一个实体集所具有的共同性质。
数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。
(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
一、名词解释:1、数据仓库:是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程;2、数据挖掘:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可以理解的模式的过程;简单的说是从大量数据中提取或挖掘知识,又被称为数据库中的知识发现。
3、操作数据存储:是一种DW的混合形式,它面向主题的、及时的、最近的和集成的信息,用于支持企业的日常的全局应用和决策制定,其中数据可以作为DW的通用数据源。
4、OLAP:是数据库系统主要应用,支持复杂的分析操作,侧重决策支持,且提供直观易懂的结果。
5、商业智能:是数据仓库(DW)、联机分析处理(OLAP)、数据挖掘等技术与资源管理系统ERP结合起来应用于商业活动实际过程中,实现了技术服务于决策的目的。
二、简答题:1、试叙述数据仓库系统与传统数据库系统的区别:(1)、操作型数据库中的数据针对事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的;(2)、操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是并构的,而数据仓库中的数据在对原有分期的数据库数据做抽取、清理的基础上经过系统的加工、汇总和整理得到的;(3)、操作型数据库中的数据通常实时更新,数据根据需要及时发生变化,数据仓库的数据主要用于决策分析,对涉及的数据操作主要是数据查询和定期更细,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存;(4)、操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史单位,因此总是包括一个时间维,以便可以研究趋势和变化。
1,解释数据,数据库,数据库系统,数据库管理系统三个概念。
数据:数据是描述事物的符号记录。
数据库是指长期存储于计算机内的、有组织的、可共享的数据集合。
(1分)DBMS是指位于用户与OS之间的一层数据管理软件,它位用户或应用程序提供访问DB的方法。
(1分)DBS是实现有组织的、动态的存储大量关联数据、方便多用户访问的计算机硬件、软件和数据资源组成的系统,即采用数据库技术的计算机系统。
(2分)2,数据库的三大要素?答,一,数据结构,二数据操作,三数据的完整性约束条件。
2 .试述文件系统与数据库系统的区别和联系。
答;文件系统与数据库系统的区别是:文件系统面向某一应用程序,共享性差,冗余度大,数据独立性差,记录内有结构,整体无结构,由应用程序自己控制。
数据库系统面向现实世界,共享性高,冗余度小,具有较高的物理独立性和一定的逻辑独立性,整体结构化,用数据模型描述,由数据库管理系统提供数据的安全性、完整性、并发控制和恢复能力。
文件系统与数据库系统的联系是:文件系统与数据库系统都是计算机系统中管理数据的软件。
解析文件系统是操作系统的重要组成部分;而DBMS 是独立于操作系统的软件。
但是DBMS 是在操作系统的基础上实现的;数据库中数据的组织和存储是通过操作系统中的文件系统来实现的。
3,试述视图和基本表之间的联系和区别?(1)视图和基本表在概念上等同,他们都是关系。
(1分)(2)基本表是本身独立存在的表。
视图是从一个或几个基本表(或视图)中导出的表,它与基本表不同,是一个虚表。
数据库中只存放视图的定义,而不存放视图对应的数据,这些数据仍然放在原来的基本表中。
(3分4,数据库的完整性概念与数据库的安全性概念有什么区别和联系?数据的完整性和安全性是两个不同的概念,但是有一定的联系。
前者是为了防止数据库中存在不符合语义的数据,防止错误信息的输入和输出,即所谓垃圾进垃圾出所造成的无效操作和错误结果。
(2分)后者是保护数据库防止恶意的破坏和非法的存取。
一、选择题第一章:商务智能基本概念1.商务智能在企业管理中所发挥的作用主要体现在(B)等方面。
P4A.创造B.理解 C.分析 D.挖掘2.数据仓库则是商务智能的(A),使建立于数据仓库基础之上的商务智能可以更专注于商务信息的提取和商务知识的发现。
A.数据基础 B.文件汇集 C.分析基础 D.支持框架3.企业的数据空间由于历史原因会构成一个错综复杂的数据“蜘蛛网”,数据“蜘蛛网”的存在导致了企业决策的(D)。
P7A.一致 B.正确 C.混乱D.错误4.与数据库相比较,数据仓库内的数据是(D)。
P8A.动态变化的 B.随时更新的C.基本维持不变的 D.静态的、历史的5.数据仓库的基本功能包含(A),数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。
P17A.数据抽取 B.数据选择 C.数据更新 D.数据添加6.由于数据仓库要分析事务的发展趋势,因此在将数据加载到数据仓库之前必须完成数据的(C)设置,是数据具有时间属性。
P20A.时间排序 B.年月日 C.时间戳 D.时分秒7.选择数据挖掘工具时,一半需要参照的评价标准有:模式种类的数量、解决复杂问题的能力、(A)、数据获取能力等。
P36A.操作性能 B.数据处理速度 C.数据传输速度 D.模式的类型8.数据挖掘过程中的挖掘模型构建是指挖掘目标,(A)。
P40A.设计挖掘算法模型 B.选择一个合适的挖掘算法C.对挖掘算法进行评价 D.对挖掘模式的类型进行评价9.由于数据仓库主要用于对管理决策提供支持,因此其响应时间(C)。
A.必须在数秒内完成 B.限定在毫秒级C.可能长达数小时 D.可能长达数年10.目前的商务智能体系架构主要有比尔·恩门的信息工厂、扎克曼的企业架构、美国数据仓库研究院的商务智能架构和加特纳公司的商务智能框架等。
但是这些架构均包含了商务分析、(D)、数据挖掘和数据仓库4部分。
P5A.DM B.DW C.OLTP D.OLAP第二章:数据仓库开发模型1.概念世界中的整体对应到计算机世界中的(B)。
数据的定义:描述事物的符号记录数据库的定义:数据库(Database,简称DB)是长期储存在计算机内、有组织的、可共享的大量数据集合DBMS的定义:数据库管理系统(Database Management System,简称DBMS):位于用户与操作系统之间的一层数据管理软件(系统软件)。
DBMS的用途:(1)科学地组织和存储数据(2)高效地获取和维护数据DBMS的主要功能:(1)数据定义功能:提供数据定义语言(DDL)定义数据库中的数据对象(2)数据操纵功能:提供数据操纵语言(DML) ,实现对数据库的基本操作(查询、插入、删除和修改)。
(3)数据库的运行管理:在数据库建立、运用和维护时对数据库进行统一控制,以保证数据的完整性、安全性、并在多用户同时使用数据库时进行并发控制,且在数据库系统发生故障后对系统进行恢复。
(4)数据库的建立和维护功能(实用程序):数据库数据批量装载、数据库转储、恢复、数据库的重组织、性能监视等(5)数据库系统(Database System,简称DBS):指在计算机系统中引入数据库后的系统在不引起混淆的情况下常常把数据库系统简称为数据库数据库系统的构成(1)数据库(2)数据库管理系统(及其开发工具)应用系统数据库管理员(DBA)和用户数据管理是指对数据的组织、分类、编码、存储、检索和维护。
数据管理技术的发展过程人工管理阶段特点:(1) 数据不保存(2) 系统没有专用的软件对数据进行管理(3) 数据不共享(4) 数据不具有独立性文件系统阶段特点:(1)数据以文件形式长期保存(2)数据由文件系统统一管理(3)应用程序直接访问数据文件(4)数据的存取基本上以记录为单位缺点:(1)数据冗余度大(2) 数据独立性低(2)数据一致性差数据库系统阶段特点:(1)数据共享性高、冗余少(2)数据结构化(3)数据独立性高(4)由DBMS进行统一的数据控制功能A)数据的安全性(security)控制B) 数据的完整性(integrity)控制C) 并发(concurrency)控制D) 数据恢复(recovery)数据模型分成两个不同的层次:(1)概念模型(概念层数据模型,也称信息模型):它是按用户的观点来对数据和信息建模。
一、选择题1、数据仓库是随时间变化的,下面的描述不正确的是:A、数据仓库随时间变化不断增加新的数据内容。
B、捕捉到的新数据会覆盖原来的快照。
C、数据仓库随时间变化不断删去旧的数据内容。
D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合。
答案: B2、关于基本数据的元数据是指:A、基本元数据包括与数据源、数据仓库、数据集市和应用程序等结构相关的信息。
B、基本元数据包括与企业相关的管理方面的数据和信息。
C、基本元数据包括日志文件和建立执行处理的时序调度信息。
D、基本元数据包括关于装载和更新处理、分析处理以及管理方面的信息。
答案: A3、下面有关数据粒度的描述不正确的是:A、粒度是指数据仓库小数据单元的详细程度和级别。
B、数据越详细,粒度就越小,级别也就越高。
C、数据综合度越高,粒度就越大,级别也就越高。
D、粒度的具体划分将直接影响数据仓库中的数据量以及查询质量。
答案: B4、有关数据仓库的开发特点,不正确的描述是:A、数据仓库开发要从数据出发。
B、数据仓库使用的需求在开发出去就要明确。
C、数据仓库的开发是一个不断循环的过程,是启发式的开发。
D、在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据的分析和处理更灵活,且没有固定的模式。
答案: B5、RAID技术具有容错能力,能够满足对存储能力、性能和可靠性不断提高的要求。
其实,实现原理是将数据写入多张磁盘中,如果—张磁盘发生故障,就从其他存放冗余数据的磁盘上访问数据。
有关RAID不同级别的描述不正确的是:A、在RAID 0这一级别上,数据记录通过在多组驱动器的扇区上交错地分布着实现,没有奇偶校验,不提供任何冗余。
B、RAID 1称为镜像。
在这一级别上,数据被冗余地写入成对的驱动器中,可以独立地从每个驱动器提取该数据。
这种方法没有什么缺点,是备份时候经常用到的技术。
C、RAID 3数据记录在成组驱动器上,位交错,只有一个驱动器仍有奇偶校验信息。
数据仓库(简答题复习资料)(1)数据仓库概念和特点 P12-14数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。
数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。
首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据仓库的功能和特性1 面向主题2 数据的集成性3 数据的稳定性(非易失性)4 数据随时间变化的特性5 多维性数据是带有时间轴的→数据是多维的→形成立方体(Cube)见书P52(2)数据库与数据仓库的区别简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
单从概念上讲,有些晦涩。
任何技术都是为应用服务的,结合应用可以很容易地理解。
以银行业务为例。
数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。
数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。
比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。
如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。
显然,银行的交易量是巨大的,通常以百万甚至千万次来计算。
事务系统是实时的,这就要求时效性,客户存一笔钱需要几十秒是无法忍受的,这就要求数据库只能存储很短一段时间的数据。
而分析系统是事后的,它要提供关注时间段内所有的有效数据。
这些数据是海量的,汇总计算起来也要慢一些,但是,只要能够提供有效的分析数据就达到目的了。
数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库”。
那么,数据仓库与传统数据库比较,有哪些不同呢?让我们先看看W.H.Inmon关于数据仓库的定义:面向主题的、集成的、与时间相关且不可修改的数据集合。
“面向主题的”:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。
这一点,类似于传统农贸市场与超市的区别—市场里面,白菜、萝卜、香菜会在一个摊位上,如果它们是一个小贩卖的;而超市里,白菜、萝卜、香菜则各自一块。
也就是说,市场里的菜(数据)是按照小贩(应用程序)归堆(存储)的,超市里面则是按照菜的类型(同主题)归堆的。
“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。
数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。
决策中,时间属性很重要。
同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。
“不可修改”:数据仓库中的数据并不是最新的,而是来源于其它数据源。
数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。
因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。
数据仓库的出现,并不是要取代数据库。
目前,大部分数据仓库还是用关系数据库管理系统来管理的。
可以说,数据库、数据仓库相辅相成、各有千秋。
(3)元数据 P16元数据模型 P102-107①分类②作用③收集和维护④作用(4)数据集市 P17(5)操作数据存储ODS P33-39①概念②应用---OLTP、OLAP、DB-ODS-DWODS定义ODS是Operational Data Store的简称,翻译成操作数据存储。
ODS是数据仓库体系结构的一部分,可以根据需要选择是否采用ODS。
它具备数据仓库的部分特征和OLTP的部分特征。
ODS是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于即时性的、操作性的、集成的全局信息的需求。
常常被作为数据仓库的过渡。
作为一个中间层次,它既不是联机事务处理,也算不上高层决策分析,是不同于 DB 的一种新的数据环境,是数据仓库扩展后得到的一个混合形式。
ODS支持对数据的联机修改——增、删与更新等操作。
ODS特点面向主题的(与数据仓库类似)集成的(与数据仓库类似)可变的数据可以联机改变,包括增、删及更新等操作。
数据是当前细节级或接近当前的数据在存取时刻是最新的数据是最近一段时间之前得到的。
ODS和数据仓库的异同相同点:面向主题的,集成的不同点:DW是静态数据,而ODS中的数据是动态的、可更新的设计目标不同,ODS的设计目标是快速执行针对全局信息的少量数据的简单查询工作,这同数据仓库中的大数据量复杂查询截然不同。
数据内容不同,ODS存储当前或者近期的数据,DW存储历史性数据。
ODS就像你的短期记忆,仅仅记录你的近期信息,而数据仓库就像长期记忆一样,存储相对长久一些的信息数据容量不同,ODS数据容量级别较小,DW的数据容量很大ODS类别I 类ODS,与应用系统的数据延迟为1~2秒,实时或近似实时II 类ODS,与应用系统的数据延迟为2~4小时III 类ODS,与应用系统的数据延迟为12~24小时IV 类ODS,数据仓库中部分决策分析数据回流至ODS中不同ODS类别的特点数据延迟时间越短,ODS建设难度越高。
其中I 类ODS的建设难度最高,建设成本也是最高的。
而且由于I 类ODS的实时性,对于技术的要求与其它类型ODS也有所不同,一般来讲需要用到EAI技术,但随着当前企业对数据仓库的实时性要求越来越高,相信I 类ODS会变得越来越重要。
通常在企业应用架构中,ODS是一个可选件,但一旦需要用到ODS的功能,那么ODS本身就将变得极为重要。
目前应用的比较多的是IV 类ODS,因为一旦将决策分析结果加载到ODS中,重要决策信息的高性能联机支持将成为可能。
ODS在体系结构中的几种作用在业务系统和数据仓库之间形成一个隔离层一般的数据仓库应用系统都具有非常复杂的数据来源,这些数据存放在不同的地理位置、不同的数据库、不同的应用之中,从这些业务系统对数据进行抽取并不是一件容易的事。
ODS用于存放从业务系统直接抽取出来的数据,这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致,因此在抽取过程中极大降低了数据转化的复杂性,而主要关注数据抽取的接口、数据量大小、抽取方式等方面的问题。
转移一部分业务系统细节查询的功能在数据仓库建立之前,大量的报表、分析是由业务系统直接支持的,在一些比较复杂的报表生成过程中,对业务系统的运行产生相当大的压力。
ODS的数据从粒度、组织方式等各个方面都保持了与业务系统的一致,那么原来由业务系统产生的报表、细节数据的查询自然能够从ODS中进行,从而降低业务系统的查询压力。
完成数据仓库中不能完成的一些功能一般来说,带有ODS的数据仓库体系结构中,DW层所存储的数据都是进行汇总过的数据,并不存储每笔交易产生的细节数据,但是在某些特殊的应用中,可能需要对交易细节数据进行查询,这时就需要把细节数据查询的功能转移到ODS来完成,而且ODS的数据模型按照面向主题的方式进行存储,可以方便地支持多维分析等查询功能。
在一个没有ODS层的数据仓库应用系统体系结构中,数据仓库中存储的数据粒度是根据需要而确定的,但一般来说,最为细节的业务数据也是需要保留的,实际上也就相当于ODS,但与ODS所不同的是,这时的细节数据不是“当前、不断变化的”数据,而是“历史的,不再变化的”数据。
ODS数据模型设计数据调研对与业务系统关联的数据进行调研,弄清楚现有业务系统对应的数据逻辑模型和物理模型确定数据范围确定数据范围实际上是对ODS进行主题划分的过程,这种划分是基于对业务系统的调研的基础上而进行的,并不十分关心整个数据仓库系统上端应用需求,但是需要把上端应用需求与ODS数据范围进行验证,以确保应用所需的数据都已经从业务系统中抽取出来,并且得到了很好的组织。
一般来讲,主题的划分是以业务系统的信息模型为依据的,设计者需要综合各种业务系统的信息模型,并进行宏观的归并,得到企业范围内的高层数据视图,并加以抽象,划定几个逻辑的数据主题范围。
在这个阶段,以ER模型表示数据主题关系最为恰当。
根据数据范围进行进一步的数据分析和主题定义在第一步中定义出来了企业范围内的高层数据视图,以及所收集到的各种业务系统的资料,在这一步中,需要对大的数据主题进行分解,并进行主题定义,直到每个主题能够直接对应一个主题数据模型为止。
在这个阶段,将把第一步生成的每个ER图中的实体进行分解,分解的结果仍以ER表示为佳。
定义主题元素定义维维名称,名称应该能够清晰表示出这个维的业务含义。
维成员,也就是这个维所代表的具体的数据维层次,维成员之间的隶属与包含的层次关系,每个层次需要定义名称定义度量度量名称,名称应该能够清晰标书这个度量的业务含义定义主题主题名称和含义,说明该主题主要包含哪些数据,用于什么分析;主题所包含的维和度量;主题的事实表,以及事实表的数据。
定义粒度主题中事实表的数据粒度说明,这种粒度可以通过对维的层次限制加以说明,也可以通过对事实表数据的业务细节程度进行说明。
定义存储期限主题中事实表中的数据存储周期。
迭代,归并维、度量的定义在ODS中,因数据来自于多个系统,数据主题划分时虽然对数据概念进行了一定程度上的归并,但具体的业务代码所形成的各个维、以及维成员等还需要进一步进行归并,把概念统一的维定义成一个维,不允许同一个维存在不同的实体表示(象不同的业务系统中一样)。
ODS系统设计ODS数据抽取转换层数据转换层由各种转换工具及抽取程序组成,主要完成从源数据系统到ODS系统的数据转换、净化和载入ODS数据访问中间件ODS系统中间件的一个关键组成部分就是网络中间件。
中间件的主要作用是提供用户和ODS系统数据之间的无缝连接,同时还提供了系统应用程序接口,允许应用程序同本地或异地ODS系统进行通信。
另一方面,在DB-ODS-DW三层结构中,中间件也是将ODS中的信息与DW系统中的信息相关联的一条途径。
物理实现定义每个主题的数据抽取周期、抽取时间、抽取方式、数据接口,抽取流程和规则。