数据仓库的特征
- 格式:doc
- 大小:21.50 KB
- 文档页数:2
2022年内蒙古科技大学信息管理与信息系统专业《数据库概论》科目期末试卷B(有答案)一、填空题1、____________、____________、____________和是计算机系统中的三类安全性。
2、数据库内的数据是______的,只要有业务发生,数据就会更新,而数据仓库则是______的历史数据,只能定期添加和刷新。
3、关系模型由______________、______________和______________组成。
4、有两种基本类型的锁,它们是______和______。
5、如图所示的关系R的候选码为;R中的函数依赖有;R属于范式。
一个关系R6、在一个关系R中,若每个数据项都是不可再分割的,那么R一定属于______。
7、关系代数运算中,基本的运算是______________、______________、______________、______________和______________。
8、数据库系统是利用存储在外存上其他地方的______来重建被破坏的数据库。
方法主要有两种:______和______。
9、设有关系模式R(A,B,C)和S(E,A,F),若R.A是R的主码,S.A是S的外码,则S.A的值或者等于R中某个元组的主码值,或者______取空值,这是规则,它是通过______和______约束来实现的。
10、关系数据库中基于数学的两类运算是______________和______________。
二、判断题11、在SQL中,ALTERTABLE语句中MODIFY用于修改字段的类型和长度等,ADD用于添加新的字段。
()12、在CREATEINDEX语句中,使CLUSTERED来建立簇索引。
()13、数据库的数据项之间无联系,记录之间存在联系。
()14、有了外模式/模式映象,可以保证数据和应用程序之间的物理独立性。
()15、标准SQL语言能用于所有类型的关系数据库系统。
2022年南阳师范学院计算机网络技术专业《数据库原理》科目期末试卷A(有答案)一、填空题1、在数据库系统封锁协议中,一级协议:“事务在修改数据A前必须先对其加X锁,直到事务结束才释放X锁”,该协议可以防止______;二级协议是在一级协议的基础上加上“事务T在读数据R之前必须先对其加S锁,读完后即可释放S锁”,该协议可以防止______;三级协议是在一级协议的基础上加上“事务T在读数据R之前必须先对其加S锁,直到事务结束后才释放S锁”,该协议可以防止______。
2、SQL Server中数据完整性包括______、______和______。
3、从外部视图到子模式的数据结构的转换是由______________实现;模式与子模式之间的映象是由______________实现;存储模式与数据物理组织之间的映象是由______________实现。
4、关系模型由______________、______________和______________组成。
5、数据库系统是利用存储在外存上其他地方的______来重建被破坏的数据库。
方法主要有两种:______和______。
6、数据库管理系统的主要功能有______________、______________、数据库的运行管理以及数据库的建立和维护等4个方面。
7、在设计局部E-R图时,由于各个子系统分别有不同的应用,而且往往是由不同的设计人员设计,所以各个局部E-R图之间难免有不一致的地方,称为冲突。
这些冲突主要有______、______和______3类。
8、以子模式为框架的数据库是______________;以模式为框架的数据库是______________;以物理模式为框架的数据库是______________。
9、数据管理技术经历了______________、______________和______________3个阶段。
10、某在SQL Server 2000数据库中有两张表:商品表(商品号,商品名,商品类别,成本价)和销售表(商品号,销售时间,销售数量,销售单价)。
数据仓库的源数据类型数据仓库是一个用于集成、存储和分析大量结构化和非结构化数据的系统。
数据仓库的构建过程中,源数据的类型是一个关键因素。
不同类型的源数据需要采用不同的处理方法和技术,以确保数据仓库的稳定性和高效性。
下面将介绍几种常见的数据仓库源数据类型及其特点。
1. 关系型数据库数据关系型数据库是最常见的数据仓库源数据类型之一。
它包括表格、行和列的结构化数据。
关系型数据库源数据通常使用SQL语言进行查询和操作。
这种类型的数据具有结构化、可查询和可扩展的特点,适合于大部份数据仓库应用场景。
2. 文件数据文件数据是指以文件形式存储的数据,包括文本文件、CSV文件、XML文件等。
文件数据通常是非结构化或者半结构化的,不同于关系型数据库的表格结构。
在数据仓库中使用文件数据时,需要进行数据清洗和转换,以便将其转化为结构化数据,以便进行进一步的分析和挖掘。
3. 日志数据日志数据是记录系统、应用程序或者设备活动的数据。
它包含了各种操作、错误、事件和状态信息。
日志数据通常以文本文件的形式存在,也可以存储在关系型数据库中。
在数据仓库中使用日志数据时,可以通过提取和解析日志信息,了解系统的运行状况、性能和异常情况,以便进行问题排查和优化。
4. 多媒体数据多媒体数据包括图片、音频、视频等非文本类型的数据。
在数据仓库中使用多媒体数据时,需要将其转化为可存储和分析的形式,例如将图片转化为特征向量,将音频转化为频谱数据。
多媒体数据的处理通常需要使用特定的算法和工具,以便进行图象识别、语音识别等任务。
5. 流数据流数据是指实时生成的数据流,例如传感器数据、交易数据等。
流数据以连续的方式产生,并且需要实时处理和分析。
在数据仓库中使用流数据时,需要使用流处理技术,例如Apache Kafka、Apache Flink等,以保证数据的实时性和准确性。
以上是几种常见的数据仓库源数据类型,每种类型的数据都有其特点和处理方法。
在构建数据仓库时,需要根据实际需求选择合适的数据类型,并采用相应的技术和工具进行处理和管理,以实现对数据的高效利用和分析。
数据仓库概要设计数据仓库(Data Warehouse)是指把企业分散在不同数据库中的数据统一整合到一个数据库中进行存储和管理,并对这些数据进行分析和管理的一种数据库应用系统。
数据仓库的建设是企业信息化建设的重要组成部分,是企业对内部外部信息资源进行整合、挖掘和利用最有效的平台之一。
因此,进行数据仓库的概要设计是非常重要的一步。
1.数据仓库概述数据仓库,是一个能够存储大量历史数据的集合体,使得企业能够快速地进行数据分析、查询和决策。
数据仓库通常包括存储、管理和查询技术。
数据仓库的设计是基于自底向上的过程,通过收集各种应用中的数据来建立。
数据仓库的需求分析是设计的第一个步骤,通过需求分析可以把握到数据的来源、数据的主要特征、数据的处理方法、数据的处理效果等。
2.数据仓库的工作过程a.数据的收集数据收集的目的是获取各个分散在企业内部外部的数据源,并把这些数据源整合成数据集。
数据收集包括了跟踪源数据、数据的标准化、数据的清洗、数据的转换等。
b.数据的整合数据整合意味着将不同的数据源集成到一起,通常是通过ETL工具来实现。
ETL(Extract, Transform, Load)工具的主要功能是提取、转换和加载。
c.数据的存储数据仓库的存储方式一般有两种:关系型数据库和非关系型数据库。
d.数据的查询与分析数据仓库的用户可以通过BI工具(Business Intelligence)来进行数据的查询、分析和报表生成。
3.数据仓库的概要设计步骤a.数据仓库设计的第一步是需求分析,需求分析的目的是明确数据仓库的目标、范围和需求。
需求分析应该包括数据仓库的使用者、数据仓库所需数据的类型、数据的来源、数据的质量要求等。
b.数据仓库的概念设计是在需求分析的基础上,开始进行数据仓库的抽象模型的设计。
概念设计包括了数据仓库的模型设计、元数据的设计等。
c.数据仓库的逻辑设计是在概念设计的基础上,开始进行数据仓库的逻辑结构的设计。
数据库、数据仓库、大数据平台、数据中台、数据湖对比分析一、概况层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。
本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:•数据▪什么是大数据▪数据分析与数据挖掘的区别是什么•数据库▪什么是数据库▪数据库中的分布式事务理论•数据仓库▪什么是数据仓库▪什么是数据集市▪数据库与数据仓库的区别是什么•大数据平台▪什么是大数据平台▪什么是大数据开发平台•数据中台▪什么是数据中台▪数据仓库与数据中台的区别与联系•数据湖▪什么是数据湖▪数据仓库与数据湖有什么区别与联系希望本文对你有所帮助,烦请读者诸君分享、点赞、转发。
二、数据什么是大数据?麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增长的时代,业务需求增长促进技术迭代,技术满足需求后又形成闭环促进业务持续增长,从而形成一个闭环。
数据分析与数据挖掘的区别是什么?数据分析可以分为广义的数据分析和狭义的数据分析。
广义的数据分析就包括狭义的数据分析和数据挖掘。
我们在工作中经常常说的数据分析指的是狭义的数据分析。
三、数据库据库什么是数据库?数据库是按照数据结构来组织、存储和管理数据的仓库。
是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。
根据数据存储的方式不同,可以将数据库分为三类:分别为行存储、列存储、行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata等;行列混合存储的数据库代表产品有TiDB,ADB for Mysql等。
1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库.8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储.9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多.5、使用星型模式可以从一定程度上提高查询效率。
第一章当今全球商企中的信息系统一、信息系统的目的1、运行良好.提高企业运行的效率,提高生产率(辅以企业流程改造)2、新产品、新服务、新的企业模式。
改进传统产品,信息产品,服务信息化3、顾客与供应商关系亲密4、改进决策。
丰富决策的所需的信息,决策支持系统5、竞争优势.决策正确,及时响应,产品质优价廉6、长期储存效率二、什么是信息系统?1、信息系统:相互联结的部件的集合,可以进行信息的收集、处理、存储和分发,以支持一个组织的决策制定和控制,还可以帮助进行问题分析和创造新产品。
数据--信息——智能-—知识——智慧2、信息系统的三个维度:组织维、管理维、技术维第二章全球电子企务一、企业过程(业务流程):指如何来组织、协调工作的进行,并专注与生产有价值的产品或服务。
二、企业信息系统类型(一)业务处理系统(TPS):帮助操作管理者掌握组织的基本活动和交易,如销售、收款、现金存款、工厂物流等。
这个层次系统的主要目的是回答日常问题及追踪记录组织内所有交易状况。
为回答该类问题,信息必须正确、实时并易于取得。
(二)管理信息系统和决策支持系统管理信息系统(MIS):帮助中层主管监督、控制、决策以及管理。
主要回答类似组织是否正常运行的问题,一般做出定期报告。
决策支持系统(DSS):支持中层管理的非程序性决策。
需要面对一些不是很明确、也不较不结构化的信息要求,一般回答“如果……会怎么样……”之类的问题:如果12月份的销售量增长2倍,对生产日程安排有什么影响?(三)高层支持系统(ESS):帮助高层主管出来战略性议题及企业长期的趋势,这些趋势包括公司内部及外部的环境变化.主要考虑如何让组织能适应未来外部环境的变化.第三章信息系统、组织、管理和战略一、组织奉行效率原则:用有限的投入得到最大的产出二、组织的特性1、办事规程和企业过程2、组织政治3、组织文化4、组织的环境5、组织的结三、信息系统对组织和商业企业的影响(一)经济影响改变了资本成本和信息成本,可以替代其他资本。
2022年广西大学网络工程专业《数据库原理》科目期末试卷A(有答案)一、填空题1、在SQL Server 2000中,新建了一个SQL Server身份验证模式的登录账户LOG,现希望LOG在数据库服务器上具有全部的操作权限,下述语句是为LOG授权的语句,请补全该语句。
EXEC sp_addsrvrolemember‘LOG’,_____;2、在VB 6.0中,已经用Adobel连接到数据库,并已绑定到数据库中的某个关系表,现要通过此控件向表中插入数据,需要用到Adobel.Recordset的_____方法和Update方法,使用Adobel.Recordset的_____方法可以使当前行指针在结果集中向前移动一行。
3、在SQL语言中,为了数据库的安全性,设置了对数据的存取进行控制的语句,对用户授权使用____________语句,收回所授的权限使用____________语句。
4、SQL语言的数据定义功能包括______、______、______和______。
5、采用关系模型的逻辑结构设计的任务是将E-R图转换成一组______,并进行______处理。
6、数据仓库主要是供决策分析用的______,所涉及的数据操作主要是______,一般情况下不进行。
7、在数据库系统封锁协议中,一级协议:“事务在修改数据A前必须先对其加X锁,直到事务结束才释放X锁”,该协议可以防止______;二级协议是在一级协议的基础上加上“事务T在读数据R之前必须先对其加S锁,读完后即可释放S锁”,该协议可以防止______;三级协议是在一级协议的基础上加上“事务T在读数据R之前必须先对其加S锁,直到事务结束后才释放S 锁”,该协议可以防止______。
8、安全性控制的一般方法有____________、____________、____________、和____________视图的保护五级安全措施。
9、“为哪些表,在哪些字段上,建立什么样的索引”这一设计内容应该属于数据库设计中的______阶段。
数据库系统原理试题+答案一、单选题(共100题,每题1分,共100分)1、数据库管理系统是计算机的A、系统软件B、数据库系统C、数据库D、应用软件正确答案:A2、下列关于触发器的说法中,错误的是A、在删除一个表的同时,不会自动地删除该表上的触发器B、为了修改一个触发器,必须先删除它,然后再重新创建C、在触发器的创建中,每个表每个事件每次只允许一个触发器D、触发器不能更新或覆盖正确答案:A3、下列关于MySQL的说法中,错误的是A、MySQL是一个RDBMSB、MySQL具有客户/服务器体系结构C、MySQL 由美国MySQL AB公司开发D、许多中、小型网站为了降低网站总体拥有成本而选择MySQL作为网站数据库正确答案:C4、在MySQL中,实体完整性是通过【】来实现的。
A、键约束B、主键约束C、主键约束和候选键约束D、候选键约束正确答案:C5、使用存储过程的好处不包括A、良好的封装性B、存储过程可作为一种安全机制来确保数据的完整性C、可增强SQL语言的功能和灵活性D、移植性好正确答案:D6、下列关于SQL的说法中,错误的是A、SQL是 SQL Server 2000专有的语言B、掌握SQL可以帮助用户与几乎所有的关系数据库进行交互C、SQL简单易学D、SQL是一种强有力的语言正确答案:A7、事务的持续性是指A、事务中包括的所有操作要么都做,要么都不做B、事务一旦提交,对数据库的改变是永久的C、一个事务内部的操作及使用的数据对并发的其他事务是隔离的D、事务执行完毕后将数据库从一个一致性状态转变到另一个一致性状态正确答案:B8、当对各种约束进行命名后,就可以使用【】语句来更新与列或表有关的各种约束。
A、CREATE TABLEB、ALTER TABLEC、SELECT TABLED、DELETE TABLE正确答案:B9、对多用户的并发操作加以控制和协调是指A、数据集成B、数据共享C、故障恢复D、并发控制正确答案:D10、标明不同任务的功能及使用状况的是A、数据操作特征表B、数据流程图C、任务分类表D、操作过程说明书正确答案:C11、在数据库中,产生数据不一致的根本原因是A、没有严格的数据保护B、未对数据进行严格的控制C、数据冗余D、数据存储量太大正确答案:C12、关系模型的组成不包括A、数据结构B、数据完整性C、数据一致性D、关系操作正确答案:C13、若D1={a1,a2,a3},D2={1,2,3},则D1XD2集合中共有【】个元组。
数据仓库的源数据类型数据仓库是一个用于集成、存储和管理企业各种数据的系统。
为了构建一个高效的数据仓库,我们需要对源数据进行分类和标准化。
源数据类型是指数据仓库中所使用的数据源的种类和特征。
下面是对数据仓库的源数据类型的详细描述。
1. 结构化数据:结构化数据是指具有明确定义数据结构的数据,通常存储在关系型数据库中。
这些数据具有清晰的表结构和列定义,可以通过SQL查询进行访问和分析。
例如,客户订单、销售记录和员工信息等都属于结构化数据。
2. 半结构化数据:半结构化数据是指具有一定结构但不符合传统关系型数据库模式的数据。
这些数据通常以XML、JSON或HTML等格式存储,并且具有标签或标记来描述数据的结构和关系。
半结构化数据的例子包括日志文件、电子邮件和Web页面。
3. 非结构化数据:非结构化数据是指没有明确定义结构的数据,通常以文本形式存在。
这些数据没有明确的模式或格式,难以通过传统的关系型数据库进行存储和查询。
非结构化数据的例子包括文档、图像、音频和视频等。
4. 内部数据:内部数据是指由组织内部生成和收集的数据。
这些数据通常包括企业资源计划(ERP)系统、客户关系管理(CRM)系统和人力资源管理(HRM)系统等内部业务系统生成的数据。
内部数据对于企业的经营决策和业务分析非常重要。
5. 外部数据:外部数据是指从外部来源获取的数据,这些数据可以帮助企业了解市场趋势、竞争对手和行业动态等信息。
外部数据可以来自公共数据集、第三方数据供应商或互联网上的开放数据。
例如,市场调研数据、社交媒体数据和天气数据等都属于外部数据。
6. 实时数据:实时数据是指在发生事件或交易时立即生成的数据。
这些数据具有即时性和高频率性,需要实时地进行处理和分析。
实时数据的例子包括传感器数据、交易数据和网络日志等。
7. 历史数据:历史数据是指过去一段时间内生成的数据,用于回顾和分析过去的业务活动和趋势。
历史数据通常用于预测和决策支持。
1.以下不是数据仓库基本特征的是()。
[答案:B]A.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的2.第一个提出大数据概念的公司是()。
[答案:A]A.麦肯锡公司B.谷歌公司C.微软公司D.脸谱公司3.基础设施即服务的英文简称是()。
[答案:A]A.IaaSB.PaaSC.SaaS4.()是Microsoft Office的核心组件。
[答案:D]A.SQLB.WORDC.PPTD.EXCEL5.MspReduce中的Map和Reduce函数使用()进行输入输出。
[答案:A]A.key/value对B.随机数值C.其他计算结果6.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画?() [答案:D]A.ggplot2workC.ggmapsD.animation7.GFS中的文件切分成()的块进行存储。
[答案:B]A.32MBB.64MBC.128MBD.1G8.大数据的最显著特征是()。
[答案:A]A.数据规模大B.数据类型多样C.数据处理速度快D.数据价值密度高9.下列哪个R语言扩展包可以创建带有点和边的网络图?()[答案:B]A.ggplot2workC.ggmapsD.animation10.大数据的特点不包含()。
[答案:D]A.数据体量大B.价值密度高C.处理速度快D.数据不统一11.下面哪一项不是中国发展大数据产业的基础?()[答案:D]A.信息化积累了丰富的数据资源B.大数据技术创新取得明显突破C.大数据应用推动势头良好D.大数据产业支撑薄弱12.数据仓库是随着时间变化的,下列不正确的是()。
[答案:C]A.数据仓库随时间变化不断增加新内容B.捕捉到的新数据会覆盖原来的快照C.数据仓库随事件变化不断删去旧的数据内容D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合13.数据产生方式变革中数据产生方式是被动的主要是来自哪个阶段?()[答案:A]A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段14.购物篮问题是()的典型案例。
数据仓库的特征
1、数据仓库的数据是面向主题的
与传统数据库面向应用进行数据组织的特点相对应,数据仓库中的数据是面向主题进行组织的。
什么是主题呢?首先,主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。
在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。
面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。
所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据组织的方式具有
更高的数据抽象级别。
2、数据仓库的数据是集成的
数据仓库的数据是从原有的分散的数据库数据抽取来的。
在前面的表1中我们已经看到,操作型数据与DSS分析型数据之间差别甚大。
第一,数据仓库的每一个主题所对应的源数据在原有的各分散数据库中有许多重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一起;第二,数据仓库中的综合数据不能从原有的数据库系统直接得到。
因此在数据进入数据仓库之前,必然要经过统一与综合,这一步是数据仓库建设中最关键、最复杂的一步,所要完成的工作有:
(1)要统一源数据中所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。
(2)进行数据综合和计算。
数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。
3、数据仓库的数据是不可更新的
数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。
数据仓库的数据反映的是一段相当长的时间内历史数据的内容,是不同时点的数据库快照的集合,以及基于这些快照进行统计、综合和重组的导出数据,而不是联机处理的数据。
数据库中进行联机处理的数据经过集成输入到数据仓库中,一旦数据仓库存放的数据已经超过数据仓库的数据存储期限,这些数据将从当前的数据仓库中删去。
因为数据仓库只进行数据查询操作,所以数据仓库管理系统相比数据库管理系统而言要简单得多。
数据库管理
系统中许多技术难点,如完整性保护、并发控制等等,在数据仓库的管理中几乎可以省去。
但是由于数据仓库的查询数据量往往很大,所以就对数据查询提出了更高的要求,它要求采用各种复杂的索引技术;同时由于数据仓库面向的是商业企业的高层管理者,他们会对数据查询的界面友好性和数据表示提出更高的要求。
4、数据仓库的数据是随时间不断变化的
数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库的用户进行分析处理时是不进行数据更新操作的。
但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据生存周期中,所有的数据仓库数据都是永远不变的。
数据仓库的数据是随时间的变化而不断变化的,这是数据仓库数据的第四个特征。
这一特征表现在以下3方面:
(1)数据仓库随时间变化不断增加新的数据内容。
数据仓库系统必须不断捕捉OLTP数据库中变化的数据,追加到数据仓库中去,也就是要不断地生成OLTP数据库的快照,经统一集成后增加到数据仓库中去;但对于确实不再变化的数据库快照,如果捕捉到新的变化数据,则只生成一个新的数据库快照增加进去,而不会对
原有的数据库快照进行修改。
(2)数据仓库随时间变化不断删去旧的数据内容。
数据仓库的数据也有存储期限,一旦超过了这一期限,过期数据就要被删除。
只是数据仓库内的数据时限要远远长于操作型环境中的数据时限。
在操作型环境中一般只保存有60~90天的数据,而在数据仓库中则需要保存较长时限的数据(如5~10年),以适应DSS进行趋势分析的要求。
(3)数据仓库中包含有大量的综合数据,这些综合数据中很多跟时间有关,如数据经常按照时间段进行综合,或隔一定的时间片进行抽样等等。
这些数据要随着时间的变化不断地进行重新综合。
因此,数据仓库的数据特征都包含时间项,以标明数据的历史时期。