第一章 从数据库到数据仓库
- 格式:ppt
- 大小:592.50 KB
- 文档页数:56
第一章习题参考答案1.选择题(1)数据库(DB)、数据库系统(DBS)、数据库管理系统(DBMS)三者之间的关系是(A)。
A.DBS包括DB和DBMS B.DBMS包括DB和DBSC.DB包括DBS和DBMS D.DBS就是DB,也就是DBMS (2)设有部门和职员两个实体,每个职员只能属于一个部门,一个部门可以有多名职员,则部门与职员实体之间的联系类型是(B)。
A.m:n B.1:m C.m:k D.1:1(3)对于“关系”的描述,正确的是( D)。
A.同一个关系中允许有完全相同的元组B.同一个关系中元组必须按关键字升序存放C.在一个关系中必须将关键字作为该关系的第一个属性D.同一个关系中不能出现相同的属性名(4)E-R图用于描述数据库的(A)。
A.概念模型B.数据模型C.存储模型D.逻辑模型(5)在关系模型中,一个关键字(C)。
A.可以由多个任意属性组成B.至多由一个属性组成C.可以由一个或者多个其值能够唯一表示该关系模式中任何元组的属性组成D.可以由一个或者多个任意属性组成(6)现有如下关系:患者(患者编号,患者姓名,性别,出生日期,单位)医疗(患者编号,患者姓名,医生编号,医生姓名,诊断日期,诊断结果)其中,医疗关系中的外关键字是(A)。
A.患者编号B.患者姓名C.患者编号和患者姓名D.医生编号和患者编号(7)一个关系只有一个(D)。
A.候选关键字B.外部关键字C.组合关键字D.主关键字(8)下列标识符可以作为局部变量使用的是(C)。
A.[@Myvar] B.My var C.@Myvar D.@My var (9)Transact-SQL支持的一种程序结构语句是(A)。
A.BEGIN…E ND B.IF…T HEN…ELSEC.DO CASE D.DO WHILE(10)字符串常量使用(A)作为定界符。
A.单引号B.双引号C.方括号D.花括号2.填空题(1)数据库是在计算机系统中按照一定的方式组织、存储和应用的(数据集合)。
面向应用领域的数据库新技术数据库技术被应用到特定的领域中,出现了工程数据库,地理数据库,统计数据库、科学数据库、空间数据库等多种数据库,使数据库领域中新的技术内容层出不穷。
一、数据仓库传统的数据库技术是以单一的数据资源为中心,进行各种操作型处理。
操作型处理也叫事务处理,是指对数据库联机地日常操作,通常是对一个或一组记录的查询和修改,主要是为企业的特定应用服务的,人们关心的是响应时间,数据的安全性和完整性。
分析型处理则用于管理人员的决策分析。
例如:DSS,EIS和多维分析等,经常要访问大量的历史数据。
于是,数据库由旧的操作型环境发展为一种新环境:体系化环境。
体系化环境由操作型环境和分析型环境(数据仓库级,部门级,个人级)构成。
数据仓库是体系化环境的核心,它是建立决策支持系统(DSS)的基础。
1.从数据库到数据仓库具体来说,有以下原因使得事务处理环境不适宜DSS应用⑴事务处理和分析处理的性能特性不同在事务处理环境中,用户的行为特点是数据的存取操作频率高而每次操作处理的时间短,因此,系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间,OLTP (联机事务处理)是这种环境下的典型应用。
在分析处理环境中,某个DSS应用程序可能需要连续运行几个小时,从而消耗大量的系统资源。
将具有如此不同处理性能的两种应用放在同一个环境中运行显然是不适当的。
⑵数据集成问题DSS需要集成的数据。
全面而正确的数据是有效的分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。
因此,DSS不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。
而事务处理的目的在于使业务处理自动化,一般只需要与本部门业务有关的当前数据,对整个企业范围内的集成应用考虑很少。
当前绝大部分企业内数据的真正状况是分散而非集成的,这些数据不能成为一个统一的整体。
对于需要集成数据的DSS应用来说,必须自己在应用程序中对这些纷杂的数据进行集成。
管理信息系统总结第⼀章信息系统概论●信息技术对市场和企业运作模式的影响经济全球化-导致:全球市场的管理、控制和竞争;全球性⼯作团队、采购、⽣产、供应、技术⽀持和售后服务;–企业渴望:通过ISIS所提供的信息沟通、分析功能进⾏快捷的信息交换和辅助决策;克服地理位置分散、信息共享和协调困难的局⾯,在全球范围内进⾏贸易,在世界市场中进⾏采购,向世界各地⽤户提供服务。
⼯业经济向知识和信息经济的转变–信息和知识劳动者逐渐取代体⼒劳动者–新兴服务业–新的知识与信息密集型组织–新的知识与信息密集产品–知识在传统产品制造中的应⽤得到加强●企业组织的变⾰传统的企业组织:层级式、集权、结构化新型的企业组织:扁平化、分权、弹性●管理模式的变⾰(制造业为例)物料需求计划MRP:⽣产过程中的缺料问题,降低了库存制造资源计划MRPII:物流和资⾦流的集成和统⼀管理准时⽣产制JIT:消除⽆效作业,按需⽣产企业资源计划ERP:对物料、劳⼒、设备资⾦等全⾯计划供应链管理SCM:控制供应商-制造商-销售商建⽴合作伙伴,剥离⾮核⼼业务,抓要害●信息系统的概念从系统的⾓度定义信息系统信息系统是⼀系列相互关联的可以收集(输⼊)、操作和存储(处理)、传播(输出)数据和信息,并提供反馈机制以实现其⽬标的元素或组成部分的集合。
数据:⼀串原始资料,代表组织中或是周遭所发⽣事件的记录,尚未整理成⼈们能了解和使⽤的格式信息:数据已被整理成对⼈⽽⾔有意义且有⽤的格式。
Meaningful知识:被理解、发现、知道的对事物认识的⼀组规则、规律,辅助决策。
Useful从企业的⾓度定义信息系统从企业⾓度看,信息系统是⼀个基于信息技术的,为了应对环境造成的挑战⽽⽣成的组织和管理的解决⽅案。
-为对抗外在环境挑战,基于信息技术⽽建⽴的组织与管理上的解决⽅案。
-企业信息价值链中获取、转换与传播信息等⼀系列增值活动的⼀部分。
●组织的关键要素员⼯: 管理者,知识⼯作者,数据⼯作者,⽣产或服务⼈员结构: 组织结构图,专家组,产品,地理位置作业程序: 标准作业程序 (SOP, ⾏动规则))政治: 不同层级的利益与观点,冲突与妥协⽂化: ⾏为习惯,⾏事风格,价值观商业功能:销售和市场:销售产品或服务⽣产制造:⽣产产品或服务财务:管财(现⾦、股票、债券)会计:记账(收据、退款、⽀票付款等)⼈⼒资源:⼈员招聘、培训和管理等层级:⾼层主管: 负责公司产品与服务的长远战略规划中层管理者: 执⾏⾼层主管计划作业管理者: 负责监控公司的⽇常⼯作●信息系统的社会技术视⾓透视—组织和信息系统如何相互影响、配合、依赖第⼆章信息系统应⽤体系●经营管理活动可以分成3个层次-作业计划与控制层(简称作业层)-管理控制和战术计划层(简称管理层)负责实施组织的⽬标,对组织内部的各种资源进⾏有效的利⽤,计划并控制组织的活动,对计划实施的情况进⾏检查,以确保⽬标的实现-战略计划层(简称战略层)确定组织的⽬标、制定实现该⽬标的长远政策和发展⽅向,并负责与外部环境进⾏联系组织内信息系统—按组织阶层分类注: 这个图特别重要,不同领域不同层次的功能,会出题!!1.TPS(Transaction Processing System)事务:是指组织的基本业务活动。
第一章1,数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
2,人工智能(Artific ial Intelli gence)它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。
3,机器学习(Machine Learnin g)是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
4,知识工程(Knowled ge Enginee ring)是人工智能的原理和方法,对那些需要专家知识才能解决的应用难题提供求解的手段。
5,信息检索(Informa tion Retriev al)是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。
6,数据可视化(Data Visuali zation)是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
7,联机事务处理系统(OLTP)实时地采集处理与事务相连的数据以及共享数据库和其它文件的地位的变化。
在联机事务处理中,事务是被立即执行的,这与批处理相反,一批事务被存储一段时间,然后再被执行。
8, 联机分析处理(OLAP)使分析人员,管理人员或执行人员能够从多角度对信息进行快速一致,交互地存取,从而获得对数据的更深入了解的一类软件技术。
8,决策支持系统(decisio n support)是辅助决策者通过数据、模型和知识,以人机交互方式进行半结构化或非结构化决策的计算机应用系统。
第一章总则第一条为规范数据仓库建设管理工作,确保数据仓库建设质量,提高数据仓库应用效果,促进企业信息化建设,特制定本制度。
第二条本制度适用于企业内部数据仓库建设过程中的组织、规划、实施、维护等各个环节。
第三条数据仓库建设应遵循以下原则:1. 面向业务:以企业业务需求为导向,确保数据仓库满足企业决策分析需求。
2. 集成性:整合企业内外部数据资源,实现数据共享和交换。
3. 可扩展性:适应企业业务发展,满足未来数据增长需求。
4. 安全性:确保数据仓库运行稳定,保障数据安全。
第二章组织与管理第四条企业成立数据仓库建设领导小组,负责数据仓库建设的总体规划和决策。
第五条设立数据仓库管理部门,负责数据仓库建设过程中的日常管理工作,包括:1. 制定数据仓库建设方案;2. 组织项目实施;3. 监督项目进度;4. 确保项目质量;5. 做好数据仓库维护工作。
第六条数据仓库建设应成立项目组,负责具体实施工作,项目组由以下人员组成:1. 项目经理:负责项目整体规划、协调和监督;2. 技术负责人:负责技术选型、系统设计、开发与测试;3. 业务负责人:负责业务需求分析、数据质量监控;4. 运维负责人:负责数据仓库运维保障。
第三章数据仓库规划与设计第七条数据仓库规划应包括以下内容:1. 需求分析:明确企业业务需求,确定数据仓库主题;2. 数据模型设计:根据需求分析,设计数据仓库模型;3. 技术选型:选择合适的数据库、工具和技术;4. 系统架构设计:确定数据仓库系统架构,包括硬件、软件、网络等。
第八条数据仓库设计应遵循以下原则:1. 面向主题:围绕企业业务主题进行数据组织;2. 集成性:确保数据来源的多样性和一致性;3. 可扩展性:适应业务发展,满足未来数据增长需求;4. 易用性:便于用户查询、分析和使用。
第四章数据仓库实施与运维第九条数据仓库实施应包括以下步骤:1. 数据抽取:从源系统中抽取所需数据;2. 数据清洗:对抽取的数据进行清洗,确保数据质量;3. 数据转换:将清洗后的数据进行转换,满足数据仓库需求;4. 数据加载:将转换后的数据加载到数据仓库中;5. 系统测试:对数据仓库进行功能测试、性能测试和安全性测试。
第一章总则第一条为规范银行数据仓库的开发、管理、维护和使用,确保数据仓库的稳定、高效、安全运行,提高数据质量,特制定本制度。
第二条本制度适用于银行内部所有涉及数据仓库的项目、团队和个人。
第三条本制度遵循以下原则:1. 规范化:数据仓库的开发、管理、维护和使用应遵循规范化的流程和标准。
2. 安全性:确保数据仓库的数据安全,防止数据泄露、篡改和丢失。
3. 可靠性:确保数据仓库的稳定运行,提高数据质量,为业务决策提供有力支持。
4. 可扩展性:适应业务发展和技术进步,满足不同业务场景的需求。
第二章数据仓库流程第四条数据仓库流程主要包括以下阶段:1. 需求分析对业务需求进行调研和分析,明确数据仓库的建设目标、数据范围、功能需求等。
2. 数据建模根据需求分析结果,设计数据仓库的数据模型,包括概念模型、逻辑模型和物理模型。
3. 数据抽取从源系统中抽取数据,进行数据清洗、转换和集成。
4. 数据加载将清洗、转换后的数据加载到数据仓库中。
5. 数据维护对数据仓库进行日常维护,包括数据更新、备份、恢复等。
6. 数据查询与分析为用户提供数据查询和分析服务,支持业务决策。
第三章规范与标准第五条数据仓库命名规范1. 数据库、表、字段等命名应遵循统一的命名规则,易于理解和记忆。
2. 命名应避免使用特殊字符和缩写,确保唯一性和可读性。
第六条 ETL开发规范1. ETL开发人员应遵循ETL开发规范,确保ETL过程的正确性和稳定性。
2. ETL脚本应具有良好的可读性和可维护性,便于调试和修改。
第七条数据质量规范1. 数据仓库的数据质量应符合相关标准,确保数据准确、完整、一致。
2. 定期对数据质量进行检查,发现问题及时整改。
第四章管理与维护第八条数据仓库管理1. 数据仓库管理员负责数据仓库的日常管理,包括数据备份、恢复、监控等。
2. 数据仓库管理员应定期对数据仓库进行性能优化,提高数据查询效率。
第九条数据维护1. 数据维护人员负责数据仓库的数据维护工作,包括数据更新、备份、恢复等。
数据仓库技术简介数据仓库是近年来兴起的一种新的数据库应用。
在各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品是,业界掀起了数据库热。
比如INFORMIXGONGSIDE公司的数据仓库解决方案;ORACLE公司的数据仓库解决方案;Sybase公司的交互式数据仓库解决方案等等。
这同时也引起了学术界的极大兴趣,国际上许多重要的学术会议,如超大型数据库国际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,简记为DW)、联机分析处理(On-Line Analytical Processing,简记为OLAP)、数据挖掘(Data Mining, 简记为DM)的论文。
对我国许多企业而言,在建立或发展自己的信息系统常常困扰于这样的问题:为什么要在原有的数据库上建立数据仓库?数据仓库能否代替传统的数据库?怎样建立数据仓库?等等。
本章将简要介绍一下用到的数据仓库技术背景,并在下一章结合数据清理系统设计实例,更深一步阐述数据仓库技术在现实中的重大意义一.从数据库到数据仓库传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。
操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全性和完整性;分析型处理则用于管理人员的决策分析,经常要访问大量的历史数据。
而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。
操作型处理和分析型处理的分离成为必然。
近年来,随着数据库技术的应用和发展,人们尝试对DB中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术(Data Warehousing,简称DW)。
数据仓库简介数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW)、操作型数据库(ODS)和数据市集(DataMart)o数据仓库主要工作的对象为多维数据,因此又称为多维数据库。
1.数据仓库的概念数据仓库领域的权威W.H.Inmon给出了数据仓库的一个简短而全面的定义:数据仓库是一个面向主题、集成、时变、非易失的数据集合,是支持管理部门的决策过程。
根据该定义,数据仓库具备以下四个关键特征:1.1面向主题(SUbjeCtOriented)的数据集合数据仓库通常围绕一些主题,如产品“、嘲售商“、嘴费者等KS行组织。
数据仓库关注的是决策者的数据建模与分析,而不针对日常操作和事务的处理。
因此,数据仓库提供了特定主题的简明视图,排除了对于决策无用的数据。
1.2集成(Imegrated)的数据集合数据仓库通常是结合多个异种数据源构成的,异种数据源可能包括关系数据库、面向对象数据库、文本数据库、Web数据库、一般文件等。
1.3时变(TimeVariam)的数据集合数据存储从历史的角度提供信息,数据仓库中包含时间元素,它所提供的信息总是与时间相关联的。
数掘仓库中存储的是一个时间段的数据,而不仅仅是某一个时刻的数据。
1.4非易失(NOnVoIatile)的数据集合数据仓库总是与操作环境下的实时应用数据物理地分离存放,因此不需要事务处理、恢复和并发控制机制。
数据仓库里的数据通常只需要两种操作:初始化载入和数据访问,因此其数据相对稳定,极少或根本不更新。
综上所述,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。
数据仓库也常常被视为一种体系结构,通过将异种数据源中的数据集成在一起而构成,支持结构化和专门的查询、分析报告和决策制定。
2数据仓库的类型数据仓库的类型根据数据仓库所管理的数据类型和它们所解决的企业问题范围,一般可将数据仓库分为下列3种类型:企业数据仓库(EDW),操作型数据库(ODS)和数据市集(DataMart)。
数据仓库第⼀章数据仓库概念数据仓库(英语:Data Warehouse,简称数仓、DW),是⼀个⽤于存储、分析、报告的数据系统。
数据仓库的⽬的是构建⾯向分析的集成化数据环境,为企业提供决策⽀持(Decision Support)。
数据仓库本⾝并不“⽣产”任何数据,其数据来源于不同外部系统;同时数据仓库⾃⾝也不需要“消费”任何的数据,其结果开放给各个外部应⽤使⽤,这也是为什么叫“仓库”,⽽不叫“⼯⼚”的原因。
第⼆章场景案例数据仓库为何⽽来?先下结论:为了分析数据⽽来,分析结果给企业决策提供⽀撑。
信息总是⽤作两个⽬的:操作型记录的保存和分析型决策的制定。
数据仓库是信息技术长期发展的产物。
下⾯以中国⼈寿保险公司(chinalife)发展为例,阐述数据仓库为何⽽来?2.1 操作型记录的保存中国⼈寿保险(集团)公司下辖多条业务线,包括:⼈寿险、财险、车险,养⽼险等。
各业务线的业务正常运营需要记录维护包括客户、保单、收付费、核保、理赔等信息。
联机事务处理系统(OLTP)正好可以满⾜上述业务需求开展, 其主要任务是执⾏联机事务和查询处理。
其基本特征是前台接收的⽤户数据可以⽴即传送到后台进⾏处理,并在很短的时间内给出处理结果。
关系型数据库是OLTP典型应⽤,⽐如:Oracle、Mysql、SQL Server等。
2.2 分析型决策的制定随着集团业务的持续运营,业务数据将会越来越多。
由此也产⽣出许多运营相关的困惑:能够确定哪些险种正在恶化或已成为不良险种?能够⽤有效的⽅式制定新增和续保的政策吗?理赔过程有欺诈的可能吗?现在得到的报表是否只是某条业务线的?集团整体层⾯数据如何?为了能够正确认识这些问题,制定相关的解决措施,瞎拍桌⼦是肯定不⾏的。
最稳妥办法就是:基于业务数据开展数据分析,基于分析的结果给决策提供⽀撑。
也就是所谓的数据驱动决策的制定。
然后,⾯临下⼀个问题:在哪⾥进⾏数据分析?数据库可以吗?2.3 OLTP环境开展分析可⾏吗?结论:可以,但是没必要。
《数据仓库》课程大纲课程名称:数据仓库英文名称: Data Warehouse课程编号: 01507759学时学分: 36/2课程性质:选修课开课单位: 软件学院适用专业:计算机应用技术预修课程:数据库原理及应用、数据结构、软件工程大纲执笔人:宋旭东开课学期:春教学方式:主讲(多媒体教室)、上机、研讨考核方式:开卷、上机操作一、课程目的与要求本课程的目的主要是让学生在硕士学习期间掌握建立数据仓库的原理和方法,从理论上掌握数据仓库、OLAP联机分析的基本概念、原理、主要算法及应用系统解决方案,通过本课程的学习,可以充分了解智能信息处理的核心思想、掌握数据仓库应用系统分析与设计的方法和实现规律。
本课程的重点是按循序渐进的方法如何建立自己的数据仓库,并运用到实际中。
重点掌握制定数据仓库策略,规划数据仓库项目,评估规划的完整性,设计数据仓库,数据仓库建模,选择适当的结构架构,构造一个有实用价值的数据仓库。
二、教学内容及学时安排第一章数据仓库的概念2学时一、数据仓库的定义二、数据仓库的特点三、数据集市及其特点四、数据仓库的应用第二章数据仓库的架构8学时一、数据仓库的体系架构二、数据仓库的功能模块三、数据提取四、数据转换五、数据清理六、数据加载七、数据运算八、数据呈现第三章 OLAP与多维数据库设计8学时一、什么OLAP二、OLAP的特点三、OLAP的分类四、多维数据库特点五、维度六、度量七、层次八、关系第四章数据仓库建模8学时一、颗粒与粒度二、数据仓库中的数据类型三、临时表、汇总表、当前表、历史表四、维表五、事实表六、星型结构七、雪花型结构第五章数据仓库项目管理4学时一、数据仓库项目的特点二、建立数据仓库的当前困惑三、数据仓库项目失败的原因分析四、数据仓库项目成功的关键因素五、数据仓库项目的角色配置六、数据仓库项目的开发模式第六章数据仓库实例与设计练习6学时一、需求与业务分析二、多维数据模型设计三、数据仓库数据模型设计三、教材及主要参考书1、Harjingder S.GILL著,王仲谋等译,《数据仓库—客户服务器计算指南》,清华大学出版社,19972、W.H.Inmon著,王志海译,《数据仓库》,机械工业出版社,20003、Michael J.Corey著, 陈越等译,《Oracle8数据仓库分析、构建实用指南》,机械工业出版社,20004、Eric Sperley著,陈武等译,《企业数据仓库:规划、建立与实现》,人民邮电出版社,20005、W.H.Inmon著,王天佑译,《数据仓库管理》,机械工业出版社,20026、Joyce Bischoff著,成栋译,《数据仓库技术》,电子工业出版社,20017、飞思科技产品研发中心编著,《Oracle 9i 数据仓库构建技术》,电子工业出版社,20038、王珊著,《数据仓库技术与联机分析处理》,清华大学出版社,20029、史忠植著,《知识发现》,清华大学出版社,200210、陈京民编著,《数据仓库与数据挖掘技术》,电子工业出版社,2002。