数据库技术演变
- 格式:pdf
- 大小:757.48 KB
- 文档页数:19
数据库技术的历史及未来的发展趋势综述数据库技术的历史源远流长,发展历程令人叹为观止。
1960年代,IBM发明了第一个关系型数据库系统,称为“System R”,它是数据库技
术的开端。
其后,Oracle公司发布了第一款商业关系型数据库系统,标
志着数据库技术开始普及。
20世纪90年代,除了关系型数据库之外,还
出现了全文检索引擎和对象/关系型数据库。
如今,企业级的数据库技术
有Oracle、MySQL、DB2等,而NoSQL也正在普及,比如MongoDB、Redis 等。
未来,数据库技术将继续得到发展。
首先,企业级的数据库技术将朝
着可伸缩、分布式和高可用性发展,以应对海量数据的存储和管理。
此外,容量大、存储结构复杂和数据量庞大的流数据,以及易于使用、安全可靠
和数据可视化的云数据库,也将受到广泛关注。
总之,数据库技术仍将是
未来重要的发展方向,深入了解其核心原理,将有助于进一步推动数据库
发展。
百年荣耀:数据库技术在我国的发展历程
随着信息化的加速推进,数据库技术在我国逐渐崭露头角,并经
历了五个阶段的发展历程。
首先是上世纪六十年代,我国开展了计算机信息处理实验室的研究,开始接触数据库技术。
随着时代的发展,实验室成为了科研机构,数据库技术的研究也不断深入。
其次,到了上世纪七十年代,逐渐形成了较为完备的理论体系和
实现技术,开展了数据库管理系统的开发工作。
这一时期我们开发了
自主知识产权的国产数据库软件——卡萨帝数据库。
再次,上世纪八十年代,我国开展了计算机产业化的全面部署。
尤其是在国防领域和工业部门的大力推动下,数据库技术得到了飞速
发展。
并逐渐开始走向市场化,市场需求不断增加,企业争相研发数
据库软件。
第四,到了上世纪九十年代,随着计算机在全球范围内的应用普及,互联网和电子商务行业的发展,数据库技术的应用变得越来越广泛。
而我们则把重点放在了应用领域的拓展上,推广了法律、金融等
新领域的数据库应用。
最后,进入二十一世纪,随着云计算、大数据等技术的迅速崛起,数据库技术也面临了新的挑战。
因此,我们加强了研发,推出了德班
数据库和极标数据库等,满足了各种不同类型用户的需求。
总结来说,数据库技术在我国历经了不同的发展阶段,随着时代
的变迁与技术的发展而不断完善。
而随着我国发展的全球性变革,未
来数据库技术的发展可以预见,我们期待并相信在不久的将来,数据
库技术将再次创造属于自己的百年辉煌。
数据库技术的演化与趋势随着信息化时代的到来,数据库技术也在不断的发展与演化,从早期的简单文件管理系统到关系型数据库、非关系型数据库(NoSQL),再到混合型数据库。
本文将从历史的角度出发,探讨数据库技术的发展历程、现状和未来趋势。
一、数据库技术发展历史早期的文件管理系统是基于文件的,每个文件都包含了一组数据,这种系统简单易用,但是不具备搜索功能,数据的管理和安全性都受到限制。
60年代中期IBM公司开发了一种叫做IMS (Information Management System)的层次型数据库,它基于层级结构进行数据管理,拓展了文件系统的缺陷,但不具备容错和扩展性。
引擎SAP开发出了另一种形式的数据库,即关系型数据库(RDBMS),和IMS相比,它完美地解决了数据安全性和管理问题。
90年代,物理学家Jim Grey提出了分布式数据库理论及ACID原则,加上互联网的普及,数据库技术迎来了崭新的时代。
不久之后,业界发现关系型数据库在某些场景下表现不佳,比如高并发、刻度不确定等情况。
为此,工程师们又开发出了一种新型的数据库,即NoSQL,相比关系型数据库,非关系型数据库在可扩展性、高并发、海量数据等方面表现更为出色。
近年来,混合型数据库也逐渐兴起,综合了传统的关系型数据库以及NoSQL的技术。
二、当前数据库技术现状1.关系型数据库技术在当前的数据库领域中,关系型数据库仍然占据主流地位。
MySQL、Oracle、SQL Server等商业关系型数据库领域的巨头仍然在市场上占据主导地位,尤其是企业级应用中,仍然是首选。
相较于非关系型数据库,关系型数据库熟悉度高、底层特性稳定,优化方案和功能完备,对安全性和数据一致性要求高的应用也更合适。
2.NoSQL数据库技术NoSQL是Non-Relational SQL(不仅仅是SQL)的缩写。
主要是为了解决传统关系型数据库所面对的高并发、大容量等限制的问题而诞生的。
文献综述通信工程数据库综述摘要:“数据库”概念最早出现在20世纪中叶,当时美军为作战指挥需要将收集到的各种情报存储在计算机中,并且称之为—数据库。
而DBMS是数据库主要的工作模式之一,下面我们会介绍他的工作方式,而基于VB的网络数据库将是我们这次课题的主要研究对象。
关键词:数据库;DBMS;Microsoft SQL Server1、引言数据库技术产生于20世纪60年代,经历了格式化数据库(以层次和网状数据库为代表),经典数据库(以关系数据库和后关系数据库为代表)和新型数据库(以对象数据库和XML数据库等为代表)的三代发展演变。
40多年来,数据库技术的重要性和意义已经被人们所认识与理解。
首先数据库技术已经形成相对完整成熟的科学理论体系,成为现代计算机信息处理系统的重要基础与技术核心,造就了C.W.Bachman、E.F.Codd和J.Gray三位图灵大奖得主;其次,数据库带动和形成了一个巨大的软件产业——数据库管理系统产品和相关技术工具与解决方案,对经济发展起着极大的冲击和推动作用,表现出非凡的生产力效应;再者,数据库研究和开发领域的各项成就推动了其他众多计算机理论与应用领域的进步,对于这些领域的发展起到了巨大的支撑作用,成为各种计算机信息系统的核心内容与技术基础。
进入新世纪,数据库系统及应用技术越来越得到人们的重视和关注,强化数据库基础教育与应用训练显得非常必要和十分迫切。
IEEE/ACM颁布的CC2005(Computing Curricula2005)将数据管理和实践列为大学计算机教学全部5个方向(计算机工程CE、计算机科学CS、信息系统IS、信息技术IT和软件工程RE)的必须内容。
2、数据库系统概述“数据库”概念最早出现在20世纪中叶,当时美军为作战指挥需要将收集到的各种情报存储在计算机中,并且称之为—数据库。
起初只是将其简单看作一个个存储数据文件的电子容器。
随着数据库管理技术的发展,人们沿用并逐步引申了数据库概念,给予这个名词以更为合理与深层的意义。
数据库技术演进历程数据库技术是计算机科学中的一支重要分支,它扮演着信息管理和数据处理的重要角色。
数据库技术不仅是现代信息化建设的重要基础,也是各行各业都无法缺失的核心技术。
随着计算机技术的不断发展,数据库技术也在不断演进和创新,经历了从简单存储和检索数据到支持并发操作和复杂数据分析的历程。
本文将以数据库技术演进历程为主题,从数据库发展的不同阶段进行介绍。
一、存储式文件系统早在计算机技术出现之初,数据的存储和处理主要依赖存储式文件系统。
这种系统使用以文件夹和文件方式存储和组织数据,但是存储式文件系统不能为数据之间建立关联,不能支持数据之间的多样化关联和查询操作,这种方式很难满足不同业务需求的信息处理需求。
二、层次式数据库系统层次式数据库系统(Hierarchical database system)是数据库技术的第一步演进,它于20世纪60年代草创。
层次式数据库系统使用树形式存储数据,树形结构上下级关系紧密,数据是借助横向的索引管理的,同级节点之间没有任何关系。
层次式数据库系统可以快速地查找和检索共享数据,但是这种数据模型比较死板,不能满足复杂的数据处理需求,因此逐渐落后,被新型数据结构代替。
三、网状式数据库系统在层次式数据库系统后,网状数据库模型(Network database)于20世纪60年代末、70年代初期被提出,这一技术模型支持数据之间自定义关联,实现了更加复杂的数据处理的需求,但是缺点也很明显,数据关系繁杂、不易操作等因素,使得这种数据模型在实际使用并不十分可行,迅速被新技术代替。
四、关系型数据库系统到了20世纪70年代中期,关系型数据库系统(Relational database system)被提出,这一技术模型使用表格的形式存储数据,将数据划分为列和行,这种方式可以方便地存在关联数据,并且相比之前的模型更适合业务处理的需求。
现年,关系型数据库系统已经成为数据处理领域的主流技术,按如下方式运作:1. 数据库的表格化存储、检索和查询功能。
大数据的发展历程大数据的发展历程是一个跨越了数十年的漫长旅程,它见证了从数据的初步收集到如今数据驱动决策的转变。
这个历程可以大致分为几个阶段:1. 早期数据收集与处理在计算机和信息技术的早期,数据的收集和处理非常有限。
数据主要来源于手工记录和简单的自动化系统。
这个阶段的数据量相对较小,处理速度慢,主要用于基本的统计分析。
2. 数据库和数据仓库的出现随着计算机技术的发展,数据库管理系统(DBMS)和数据仓库开始出现。
这些技术使得数据的存储、检索和分析变得更加高效。
企业开始利用这些工具来管理大量的数据,并从中提取有价值的信息。
3. 互联网的兴起与数据量的爆炸式增长20世纪90年代末,互联网的普及带来了数据量的爆炸式增长。
网页、社交媒体、在线交易等都成为了数据的重要来源。
这个阶段,数据的收集和分析开始变得更加复杂,需要更先进的技术和算法来处理。
4. 大数据技术的诞生21世纪初,随着数据量的不断增加,传统的数据处理技术已经无法满足需求。
这时,大数据技术应运而生,包括分布式存储系统(如Hadoop)、实时数据处理框架(如Apache Storm)和非传统数据库(如NoSQL数据库)。
这些技术的出现,使得处理大规模数据集成为可能。
5. 机器学习和人工智能的融合近年来,大数据与机器学习、人工智能技术的结合越来越紧密。
通过机器学习算法,可以从大量数据中自动学习和发现模式,而人工智能则进一步使得数据分析更加智能和自动化。
这不仅提高了数据处理的效率,也使得数据驱动的决策更加精准。
6. 数据治理和隐私保护随着大数据应用的广泛,数据治理和隐私保护成为了重要的议题。
企业和组织需要确保数据的安全、合规和道德使用。
数据治理框架和隐私保护法规的建立,对于保护个人隐私和数据安全至关重要。
7. 数据驱动的决策和业务模式如今,大数据已经成为许多企业和组织决策的核心。
通过分析数据,企业能够更好地理解市场趋势、消费者行为和业务流程,从而做出更加明智的决策。
大数据技术的发展演变及其特点大数据技术的发展演变及其特点随着信息技术的快速发展,大数据技术成为当今社会的热点。
从最初的数据库管理、数据仓库到现在的云计算、人工智能,大数据技术经历了长足的发展。
本文将探讨大数据技术的发展演变及其特点。
1. 数据的快速增长近年来,随着互联网的普及和移动设备的普及,数据量呈现爆炸式增长。
用户在社交媒体、移动应用、网上购物等各种场景下产生大量数据。
根据国际数据公司(IDC)的统计,到2025年全球数据总量将达到175ZB,这意味着数据量将以指数级的速度增长。
对于传统的数据存储和处理技术来说,面对如此巨大的数据量是难以应对的。
因此,需要使用更先进的大数据技术来处理和分析这些大规模的数据。
2. 新一代数据库技术传统的关系型数据库已经无法满足大数据时代的需求。
为了应对大数据的存储和处理需求,新一代的数据库技术应运而生。
例如,NoSQL(not only SQL)数据库采用非关系型的数据模型,具有高可扩展性和灵活性,可以处理大规模的非结构化数据。
此外,新型的列式数据库、图数据库等也逐渐流行起来。
这些新一代的数据库技术带来了更高效的数据存储、快速的查询速度以及更好的可扩展性。
3. 云计算和并行计算云计算技术的出现也对大数据技术的发展起到了巨大的推动作用。
云计算可以提供弹性的计算和存储资源,为大数据的处理和分析提供了更好的基础设施。
另外,云计算也降低了大数据处理的成本,让更多的企业可以使用大数据技术来实现创新和发展。
并行计算也是大数据技术的一个重要特点。
由于大数据的处理需要大量的计算资源,传统的串行计算方式已经无法满足需求。
并行计算可以将大数据分成多个小块,并行处理,大大提高了数据处理和分析的效率。
并行计算技术的发展也在很大程度上推动了大数据技术的发展。
4. 数据挖掘和机器学习大数据技术的另一个重要特点是数据挖掘和机器学习的应用。
通过对大数据进行挖掘和分析,可以发现其中的规律和模式,为企业的决策提供更有力的支持。
数据库技术发展简史
数据库技术的发展从最早的手工处理,一直到现在世界上最先进的分
布式数据库系统,是一个漫长而又充满变化的过程。
早期的数据库技术源
自20世纪50年代,当时,人们开始开发具有存储能力的实时联机处理系统,以满足企业对处理和存储数据的需求。
1960年,数据库技术开始迅速发展,IBM公司开发了第一个商业数据
库系统IMS,它是基于网络数据库模型的。
IBM在此之后又推出了IDMS和DB2等系统,这些都是基于概念数据库模型的。
1970年,芝加哥大学的数据库研究小组开发了“关系数据库模型”,这是一种新型的数据库管理技术,使用它可以更加方便地存储和检索数据,而且可以有效地适应用户的变化需求。
1980年代,关系数据库技术发展迅速,开发出了许多新的数据库产品,其中最知名的是艾伦·图灵奖获得者弗兰克·埃文斯创建的“Oracle”。
在他推出Oracle之前,数据库管理系统中存在的许多缺陷
得到了有效的解决,包括:运行效率低,存储空间不够,安全性差,失败
恢复能力差等。
1990年代,信息技术技术的发展越来越快,计算机硬件系统性能也
有了长足的进步。
数据库技术的新发展数据库技术的新发展内容摘要:随着计算技术和计算机网络的发展,计算机应用领域迅速扩展,数据库应用领域也在不断地扩大。
探讨数据库的新发展主要指出数据库技术发展三阶段,介绍了数据库技术发展的最新动态特征和几种主流数据库,以及在发展过程中需注意的一些问题。
并在此基础上,指出数据库技术未来的发展趋势等等。
关键词:数据库;新发展;分布式数据库;面向对象数据库正文:一.数据库的发展简史(数据库发展的三个阶段)数据库技术是计算机科学技术中发展最快的领域之一,也是应用最广的技术之一,产生于20世纪60年代中期,到今天为止仅仅40多年的历史,却已经历了3代演变:A、第一代数据库系统——层次和网状数据库系统;层次数据库是数据库系统的先驱,而网状数据库则是数据库概念、方法、技术的奠基。
它们是数据库技术中研究得最早的两种数据库系统。
层次模型对应于有根定向有序树,而网状模型对业领域的取大成功刺激了其他领域对数据库技术需求的迅速增长。
随着用户应用需求的提高、硬件技术的发展和Internet/Intranet提供的丰富多彩的多媒体交流方式,促进了数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等相互渗透,互相结合,成为当前数据库技术发展的主要特征,形成了数据库新技术。
新一代数据库系统以更丰富的数据模型和更强大的数据管理功能为特征,满足了更加广泛复杂的新应用的要求。
其基本特征为:第三代数据库系统应支持数据管理、对象管理和知识管理;必须保持或继承第二代数据库系统的技术;必须对其他系统开放。
二.数据库新技术的全新特性和动态混合数据快速发展数据应用的主要开发平台将转换到XML 化的操作语义。
随着服务组件体系结构SOA(Service Component Architecture)和多种新型Web应用的普及,XML数据库将完成一个从文档到数据的转变。
同时,“XML数据/对象实体”的映射技术也将得到广泛应用。
数据库技术发展历史以及地理信息系统数据库技术的未来发展趋势数据库技术从诞生到现在, 在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域, 吸引越来越多的研究者加入。
数据库的诞生和发展给计算机信息管理带来了一场巨大的革命。
三十多年来, 国内外已经开发建设了成千上万个数据库,它已经成为企业、部门乃至个人的日常工作、生产和生活的基础设施。
同时,随着应用的扩展和深人,数据库的数量和规模越来越大,数据库的研究领域也已经大大地拓广和深化了。
数据库技术发展历史大致可分为:一、摇篮和萌芽阶段:首先使用DataBase一词的是美国系统发展公司为美国海军基地在60年代研制数据中引用。
1963年,C·W·Bachman设计开发的IDS(Integrate Data Store)系统开始投入运行,它可以为多个COBOL程序共享数据库。
1968年,网状数据库系统TOTAL等开始出现。
1969年,IBM公司Mc Gee等人开发的层次式数据库系统的IMS系统发表,它可以让多个程序共享数据库。
1969年10月,CODASYL数据库研制者提出了网络模型数据库系统规范报告DBTG,使数据库系统开始走向规范化和标准化。
正因为如此,许多专家认为数据库技术起源于20世纪60年代末。
数据库技术的产生来源于社会的实际需要,而数据技术的实现必须有理论作为指导,系统的开发和应用又不断地促进数据库理论的发展和完善。
二、发展阶段:20世纪80年代大量商品化的关系数据库系统问世并被广泛的推广使用,既有适应大型计算机系统的,也有适用与中、小型和微型计算机系统的。
这一时期分布式数据库系统也走向使用。
1970年,IBM公司San Jose研究所的E ·F ·Code发表了题为“大型共享数据库的数据关系模型”论文,开创了数据库的关系方法和关系规范化的理论研究。
关系方法由于其理论上的完美和结构上的简单,对数据库技术的发展起了至关重要的作用,成功地奠定了关系数据理论的基石。
数据库技术发展历程回顾地理科学学院地理信息科学专业2015级曾琳琳数据库(Databases,简称DB)是指长期保存在计算机的存储设备上、并按照某种模型组织起来的、可以被各种用户或应用共享的数据的集合。
数据库管理系统(Database Management Systems,简称DBMS)是指提供各种数据管理服务的计算机软件系统,这种服务包括数据对象定义、数据存储与备份、数据访问与更新、数据统计与分析、数据安全保护、数据库运行管理以及数据库建立和维护等。
自从计算机问世以后,就有了处理数据、管理数据的需求,由此,计算机技术新的研究分支数据库技术应运而生。
随着计算机应用领域的不断拓展和多媒体技术的发展,数据库已是计算机科学技术中发展最快、应用最广泛的重要分支之一。
目前,数据库技术已相当成熟,被广泛应用于各行各业中,成为现代信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。
数据库技术从理论研究到原型开发与技术攻关,再到实际产品研制和应用,形成了良性循环,成为计算机领域的成功典范,也吸引了学术界和工业界众多的科技人员,使得数据库研究日新月异,新技术、新系统层出不穷,科技队伍也不断壮大。
数据库技术产生于20世纪60年代中期,到今天为止仅仅40多年的历史,却已经历了3代演变。
从20世纪70年代流行的层次、网状数据库系统到80年代的关系数据库,在很多领域都取得了巨大的成功;随着应用领域的不断扩展,关系数据库的限制和不足日益显现出来,面向对象技术的出现,使得面向对象数据库系统成为数据库系统领域研究和发展的新方向。
数据库技术与网络技术、人工智能技术、面向对象技术、并行计算技术、多媒体技术等的相互融合,为数据库技术的应用开拓了更广阔的空间。
40年前,第一代的数据库第一次实现了数据管理与应用逻辑的分离,采用层次结构来描述数据,是层次型数据库(IMS)。
第二代数据库奠基于上世纪70年代 Codd博士提出的关系型理论以及SQL语言的发明。
数据库发展与展望数据库技术是计算机科学技术中发展最快、应用最广泛领域之一, 它是计算机信息系统与应用程序关键技术和关键基础。
自从20世纪50年代中期计算机应用由科学计算扩展到数据处理, 数据库技术关键性也日益被大家所认识。
时至今日, 数据库技术已经形成了比较完善理论体系和实用技术, 成为计算机科学一个关键分支。
接下来我就简明叙述数据库发展及其展望。
1.数据库技术发展1.1数据库技术发展四个阶段伴随使用计算机进行数据管理技术不停发展, 数据库技术经历了人工管理、文件系统、数据库系统和Internet时代四个发展阶段。
1.1.1人工管理阶段时代背景: 20世纪40年代至50年代中期, 计算机外部设备只有磁带机、卡片机和纸带穿孔机, 而没有直接存取磁盘设备, 也没有操作系统, 只有汇编语言, 计算机关键用于关键科学计算, 数据处理采取批处理方法。
人工管理数据特点:1)数据不保留因为当初数据关键用于科学计算, 数据管理规模小, 加上计算机硬件、软件条件有限, 通常不需要将数据长久保留, 计算完成后就将数据撤走。
2)没有专门软件系统对数据进行管理因为没有专门软件系统对数据进行管理。
所以应用程序设计者不仅要要求数据逻辑结构, 而且还要设计物理结构, 即要设计数据存放结构、存取方法和输入输出方法等。
3)数据不共享数据面向应用程序, 一组数据只能对应一个程序, 多个应用程序包含一些相同数据时, 也必需各自定义, 造成程序间大量冗余。
4)数据不独立数据和程序之间不含有独立性, 假如数据存放结构改变, 则程序需要做对应修改。
1.1.2文件系统阶段时代背景: 从20世纪50年代中期到69年代中期, 计算机不仅用于科学计算, 同时也开始用以信息处理, 硬件方面有了很大改善, 出现了磁盘、磁鼓等直接存放设备。
软件方面出现了高级语言和操作系统, 且操作系统中出现了专门数据管理软件。
优点:1)数据以文件形式可长久保留下来2)由文件系统管理数据3)文件形式多样化4)程序与数据间有一定独立性由专门软件即文件系统进行数据管理, 程序和数据间由软件提供存取方法进行转换, 数据存放发生改变不一定影响程序运行。
数据库技术发展和展望(一)发展历程数据库技术最初产生于20世纪60年代中期,特别是到了20世纪60年代后期,随着计算机管理数据的规模越来越大,应用越来越广泛。
数据库技术也在不断地发展和提高,先后经历了第一代的网状、层次数据库系统;第二代的关系数据库系统;第三代的以面向对象模型为主要特征的数据库系统。
第一代数据库的代表是1969年IBM公司研制的层次模型的数据库管理系统IMS和70年代美国数据库系统语言协商CODASYL下属数据库任务组DBTG提议的网状模型。
层次数据库的数据模型是有根的定向有序树,网状模型对应的是有向图。
这两种数据库奠定了现代数据库发展的基础。
第二代数据库的主要特征是支持关系数据模型。
这一理论是在20世纪70年代由时任IBM研究员的E.F.Codd博士提出的。
关系数据库系统管理的数据,其结构较为简单,数据本身以二维表的形式进行存储;表之间的数据联系是通过一个表的码与另一个表的码的连接来实现。
关系数据库系统为其管理的数据提供并发控制、应急恢复和可伸缩性等功能。
值得注意的是关系数据库最重要的特征不是其存储和读取数据的能力,而是关系数据库系统提供的强大的查询功能以及提供的十分方便、易于使用的非过程化查询语言SQL,这些优点使得关系型数据库得到广泛的应用。
第三代数据库产生于80年代,随着科学技术的不断进步,不同领域的数据库应用提出了更多新的数据管理的需求,关系型数据库已经不能完全满足需求,于是数据库技术的研究和发展进入了新时代。
其主要特点是:在保持和继承了第二代关系数据库技术的同时,将面向对象的思想、方法和技术引入数据库。
在面向对象技术和数据库技术相结合的过程中,基本上是沿着两种途径发展的:一种实现途径是建立纯粹的面向对象数据库管理系统,这种途径往往是以一种面向对象语言为基础,增加数据库的功能,主要是支持持久对象和实现数据共享。
面向对象的数据库不仅在处理多媒体等数据类型时可以做到游刃有余,而且在应用系统开发速度和维护等方面有着极大的优越性。
第1章决策支持系统的发展信息系统领域是一个“不成熟”的领域。
“不成熟”这个词通常具有消极的含义,因而公开使用这个词不得不多加小心。
但是从历史的观点来看的确如此。
如果我们将信息处理的历史与其他技术领域的历史进行比较的话,就没有争议了。
我们知道古埃及的象形文字主要是当时的帐房先生用来表示所欠法老谷子的多少。
当漫步在罗马市区,我们就置身于两千多年前土木工程师所设计的街道与建筑物之间。
同样,许多其他的领域也可追溯到远古时代。
因为信息处理领域只是从6 0年代初期才出现的,所以,历史地来看,信息处理领域是不成熟的。
信息处理领域的年轻性表现之一就是其倾向于面面俱到。
有这样一种说法,如果细节都正确了,那么我们就可以坐享其成。
这就好象是说,若我们知道如何铺水泥、如何钻孔、如何安装螺母与螺栓,就不必操心桥梁的外型与用途了。
如此态度会驱使一个成熟的土木工程师发疯的。
数据仓库的历史是伴随某种发展过程开始的,在此发展过程中,业界中人士所考虑的是投入更大的力量。
更大规模的体系结构正在被勾勒出来—在这种体系结构中数据仓库处于中心地位。
最好从一种广阔的视角去观察这个体系结构,而不是从某种细节去认识。
1.1 演化有趣的是,决策支持系统( D S S)处理是一个漫长而复杂的演化进程的结果,而且它仍在继续演化。
D S S处理的起源可以追溯到计算机发展的初期。
图1 -1表明了从2 0世纪6 0年代初期直到1 980年的D S S处理的演化进程。
在6 0年代初期,创建运行于主文件上的单个应用是计算领域的主要工作。
这些应用的特点表现在报表和程序,常用的是C O B O L语言。
穿孔卡是当时常用的介质。
主文件存放在磁带文件上。
磁带适合于廉价地存放大容量数据,但缺点是需要顺序地访问。
事实上,我们常说,在磁带文件的一次操作中,1 00%的记录都要被访问到,但是只有5 %或更少的记录是真正需要的。
此外,访问整条磁带的文件可能要花去2 0~30分钟时间,这取决于文件上是什么数据及当前正在做什么处理。
大约在6 0年代中期,主文件和磁带的使用量迅速膨胀。
很快,处处都是主文件。
随着主文件数量的增长,出现大量冗余数据。
主文件的迅速增长和数据的巨大冗余引出了一些严重问题:■需要在更新数据时保持数据的一致性。
■程序维护的复杂性。
■开发新程序的复杂性。
■支持所有主文件需要的硬件数量。
简言之,属于介质本身固有缺陷的主文件的问题成为发展的障碍。
如果仍然只用磁带作为存储数据的唯一介质,那么难以想象现在的信息处理领域会是什么样子。
图1-1体系化环境的早期演化阶段如果除了磁带文件以外没有别的东西可以存储大量数据,那么世界上将永远不会有大型、快速的预定系统,AT M 系统,以及其他系统。
而事实上,在除磁带文件之外的种种介质上存储和管理数据的能力,为采用不同的处理方式和更强有力的处理类型开辟了道路,从而把技术人员和商务人员前所未有地聚集到一起。
1.2 直接存取存储设备的产生到了1 970年,一种存储和访问数据的新技术出现了。
这就是 2 0世纪7 0年代见到的磁盘存1 9601 9651 9701 9751980• 复杂性• 维护• 开发• 数据的一致性• 硬件很多主文件!!!主文件,报表D A S DD B M S 数据库—所有处理的单一数据源联机高性能事务处理个人计算机第四代程序设计语言技术t x 处理M I S /D S S单一数据库服务于完成所有目的储,或者称之为直接存取存储设备( D A S D)。
磁盘存储从根本上不同于磁带存储,因为D A S D 上的数据能够直接存取。
D A S D就不需要经过第1条记录,第2条记录……,第n条记录,才能得到第n +1条记录。
一旦知道了第n +1条记录的地址,就可以轻而易举地直接访问它。
进而,找到第n +1条记录需要的时间比起扫描磁带的时间少得多。
事实上,在 D A S D上定位记录的时间是以毫秒( m s)来计量的。
随D A S D而来的是称之为数据库管理系统( D B M S)的一种新型系统软件。
D B M S的目的是使程序员在D A S D上方便地存储和访问数据。
另外,D B M S关心的是在D A S D上存储、索引数据等任务。
随着D A S D和D B M S的出现,解决主文件系统问题的一种技术解决方案应运而生。
“数据库”的思想就是D B M S的产物。
纵观主文件系统所导致的混乱以及主文件系统累积的大量冗余数据,就不会奇怪为什么把数据库定义为—所有处理工作的单一数据源。
但这一领域的发展并未在1 970年停止。
到7 0年代中期,联机事务处理开始取代数据库。
通过终端和合适的软件,技术人员发现更快速地访问数据是可能的—这就开辟了一种全新的视野。
采用高性能联机事务处理,计算机可用来完成以前无法完成的工作。
当今,计算机可用于建立预定系统、银行柜员系统、工业控制系统,等等。
如果仍然滞留在磁带文件系统时代,那么今天我们认为理所当然的大多数系统就不可能存在了。
1.3 个人计算机/第四代编程语言技术到了8 0年代,一些更新颖的技术开始涌现出来,比如个人计算机( P C)和第四代编程语言( 4G L)。
最终用户开始扮演一种以前无法想象的角色—直接控制数据和系统,这超出了对传统数据处理人员的界定。
随着P C与4 G L技术的发展,诞生了一种新思想,即除了高性能联机事务处理之外,对数据可以做更多的处理。
管理信息系统( M I S)—(早期被如此称呼)也可能实现了。
M I S如今称为D S S,是用来产生管理决策的处理过程。
以前,数据和技术不能一并用来导出详细的操作型决策。
一种新的思想体系开始出现,即一个单一的数据库既能用作操作型的高性能事务处理,同时又用作 D S S分析处理。
图1 -1表明了这种单一数据库的范例。
1.4 进入抽取程序大型联机高性能事务处理问世后不久,就开始出现一种称为“抽取”处理的程序(见图 1 -2),这种程序并不损害已有系统。
抽取程序是所有程序中最简单的程序。
它搜索整个文件或数据库,使用某些标准选择合乎限制的数据,并把数据传到其他文件或数据库中。
抽取程序很快就流行起来,并渗透到信息处理环境中。
至少有两个理由可以用来解释它为什么受到欢迎:■因为用抽取程序能将数据从高性能联机事务处理方式中转移出来,所以在需要总体分析数据时就与联机事务处理性能不发生冲突。
■当用抽取程序将数据从操作型事务处理范围内移出时,数据的控制方式就发生了转变。
最终用户一旦开始控制数据,他(她)就最终“拥有”了这些数据。
由于这些原因(以及其他众多原因),抽取处理很快就无处不在。
到了9 0年代已有了很多抽取程序,如图1 -3所示。
1 985抽取程序从一些参数开始,根据参数条件的满足搜索文件,然后将数据拖到别处抽取处理为什么要进行抽取处理?•性能•控制图1-2 抽取处理的特性1.5 蜘蛛网图1 -3显示抽取处理的蜘蛛网开始形成。
起初只是抽取,随后是抽取之上的抽取,接着是在此基础上的再次抽取,如此等等。
对于一个大公司,每天进行多达45 000次的抽取不是没有听说过的。
贯穿于公司或组织的这种抽取处理模式很常见,以致得到一个专有名称。
这种由失控的抽取过程产生的结构被称为“自然演化体系结构”—当一个组织以放任自流的态度处理整个硬、软件体系结构时,就会发生这种情况。
组织越庞大,越成熟,自然演化体系结构问题就变得越严重。
从总体上看,抽取程序形成了蜘蛛网,这正是自然演化(或“传统系统”)体系结构的另一个名称。
1.6 自然演化体系结构的问题与自然演化体系结构相关联的困难到底是什么呢?问题很多,主要有:■数据可信性。
■生产率。
■数据转化为信息的不可行性。
1.6.1数据缺乏可信性以上问题之首是数据缺乏可信性,如图1 -4所示。
两个部门向管理者呈送报表,一个部门说业绩下降了1 5%,另一个部门说业绩上升了1 0%。
两个部门的结论不但不吻合,而且相去甚远。
另外,两个部门的工作也很难协调。
除非十分细致地编制了文档,否则对任何应用目的而言,协调是不可能的。
1 990传统系统环境自然演化的体系结构(或称为“蜘蛛网”)图1-3 抽取处理广泛采用必然是件好事情当管理者收到这两张报表时,他们不知如何是好。
管理者面临着根据政策和个人意志做决定的状况。
这是在自然演化体系结构中可信性危机的一个实例。
这种危机很广泛存在,而且是可以预想得到的,为什么?有五个理由可以解释危机的可预测性(见图1 -4),它们是:■数据无时基。
■数据算法上的差异。
■抽取的多层次。
■外部数据问题。
■无起始公共数据源。
图1-4 在自然演化体系结构中缺乏数据可信性图1 -5显示一个部门在星期日晚上提取分析所需的数据,而另一个进行分析的部门在星期三下午就抽取了数据。
有任何理由相信对某一天抽取的数据样本进行的分析与对另一天抽取的数据样本进行的分析可能相同吗?当然不能!公司内的数据总是在变的。
任何在不同时刻抽取出来用于分析的数据集之间只是大致相同。
在自然演化体系结构中,数据可信性危机具有可预见性的第二个理由是算法上的差异。
部门A+ 10%部门B -1 5%•数据无时基•数据算法上的差异•抽取的多层次•外部数据问题•无起始公共数据源比如,一个部门选择所有的老帐号作分析。
而另一个部门选择所有大帐号作分析。
在有老帐号的顾客和有大帐号的顾客之间存在必要的相关性吗?可能没有。
那么分析结果大相径庭就没有什么可大惊小怪的了。
可信性危机可预见性的第三个理由是前两个理由的扩展。
每次新的抽取结束,因为时间和算法上的差异,抽取结果就可能出现差异。
对一个公司而言,从数据进入公司系统到决策者准备好分析所采用的数据,经过八层或九层抽取不是罕见的。
缺乏可信性的第四个理由是由外部数据引起的问题。
利用当今在P C 层次上的技术很容易从外部数据源取得数据。
在图1 -5所示的例子中,一个分析人员从《华尔街日报》取得数据放入分析流中,而另一个分析人员从《商业周刊》中取得数据。
分析人员在取得数据之时所做的第一件事就是从大量外部数据中抽出所需要的部分。
数据一旦进入P C ,就不再属于《华尔街日报》了,而简单地变成了可能出自于任何数据源的普通数据。
并且,从《华尔街日报》取得数据的分析人员对从《商业周刊》中取得的数据是一无所知的,反之亦然。
这就不足为怪,外部数据导致自然演化体系结构中的数据缺乏可信性。
导致数据缺乏可信性的最后一个因素是通常没有一个公共的起始数据源。
部门A 的分析工部门A+ 10%部门B -1 5%• 星期三下午• 大账号无公共起始数据源华尔街日报商业周刊• 缺乏一致性• 没有同输入外部数据的其他人协调•星期日晚•老账号多层抽取多层抽取图1-5 自然演化体系结构中可信性危机可预见性的原因作源于文件X Y Z,部门B的分析工作源于数据库A B C。