第三章数据仓库开发应用过程
- 格式:ppt
- 大小:1.70 MB
- 文档页数:82
叙述数据仓库的开发流程下载温馨提示:该文档是我店铺精心编制而成,希望大家下载以后,能够帮助大家解决实际的问题。
文档下载后可定制随意修改,请根据实际需要进行相应的调整和使用,谢谢!并且,本店铺为大家提供各种各样类型的实用资料,如教育随笔、日记赏析、句子摘抄、古诗大全、经典美文、话题作文、工作总结、词语解析、文案摘录、其他资料等等,如想了解不同资料格式和写法,敬请关注!Download tips: This document is carefully compiled by theeditor. I hope that after you download them,they can help yousolve practical problems. The document can be customized andmodified after downloading,please adjust and use it according toactual needs, thank you!In addition, our shop provides you with various types ofpractical materials,such as educational essays, diaryappreciation,sentence excerpts,ancient poems,classic articles,topic composition,work summary,word parsing,copy excerpts,other materials and so on,want to know different data formats andwriting methods,please pay attention!数据仓库的开发流程一般包括以下几个步骤:1. 需求分析:与业务部门沟通,了解他们的需求和业务目标。
数据仓库之路FAQFAQ目录一、与数据仓库有关的几个概念31.1目录3二、数据仓库产生的原因9三、数据仓库体系结构图11四、数据仓库设计124.1数据仓库的建模124.2数据仓库建模的十条戒律:13五、数据仓库开发过程145.1数据模型的容145.2数据模型转变到数据仓库145.3数据仓库开发成功的关键15六、数据仓库的数据采集166.1后台处理176.2中间处理176.3前台处理186.4数据仓库的技术体系结构18 6.5数据的有效性检查206.6清除和转换数据216.7简单变换226.8清洁和刷洗246.9集成256.10聚集和概括276.11移动数据28七、如何建立数据仓库307.1数据仓库设计317.2数据抽取模块327.3数据维护模块33一、与数据仓库有关的几个概念1.1目录☐Datawarehouse☐Datamart☐OLAP☐ROLAP☐MOLAP☐ClientOLAP☐DSS☐ETL☐Adhocquery☐EIS☐BPR☐BI☐Datamining☐CRM☐MetaDataData warehouse本世纪80年代中期,“数据仓库之父”William H.Inmon先生在其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。
与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业部各处的业务数据的整合、加工和分析的过程。
而不是一种可以购买的产品。
Data mart即数据集市,或者叫做“小数据仓库”。
如果说数据仓库是建立在企业级的数据模型之上的话。
那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。
数据集市可以在一定程度上缓解访问数据仓库的瓶颈。
OLAP联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。
数据库应用系统的开发基础步骤
数据库应用系统的开发基础步骤包括以下几个方面:
1.需求分析:分析用户需求,了解用户的业务流程,确定数据库应用系统的功能和特性。
2.数据库设计:选择合适的数据库管理系统,建立数据库,设计数据库结构,确定数据字典和数据关系的建立方式。
3.编写程序:根据需求分析和数据库设计,编写数据库应用程序,包括用户界面、数据输入输出、查询统计等功能。
4.测试与调试:对数据库应用系统进行测试和调试,以保证其运行效率、数据完整性和安全性。
5.上线运行:将数据库应用系统部署到生产环境中,并进行正式运行和维护。
6.系统更新与维护:根据系统运行情况和用户反馈意见,不断进行系统更新和维护,提高系统的稳定性、性能和功能。
数据仓库技术的搭建步骤与流程数据仓库技术是现代企业管理中至关重要的一环,它通过将企业内部的各种数据进行整合和分析,帮助企业管理层做出更加准确和科学的决策。
在实际应用中,搭建一个稳定高效的数据仓库需要经历一系列的步骤与流程。
本文将从需求分析、数据抽取、数据清洗、数据转换和数据加载等方面详细阐述数据仓库技术的搭建步骤与流程。
需求分析阶段是数据仓库技术构建的第一步。
在这个阶段,企业需要清晰明确自己的需求和目标,明确数据仓库将用于何种用途,以及需要哪些关键指标来支撑决策。
此外,还要考虑数据的粒度和数据更新频率等因素。
通过一系列的讨论和沟通,确定了数据仓库的需求和目标后,接下来进行数据抽取的工作。
数据抽取是数据仓库搭建过程中的关键步骤。
在这个阶段,首先需要明确从哪些数据源抽取数据。
根据需求分析阶段的结果,确定需要抽取的数据源,并建立与源系统的连接。
然后,通过编写抽取逻辑和抽取脚本,将需要的数据从源系统中抽取出来,通常采用的方法有全量抽取和增量抽取。
通过数据抽取,将企业需要的数据从源系统中提取到数据仓库的暂存区。
数据清洗是确保数据质量的关键步骤。
在数据抽取过程中,由于不同的源系统格式、数据粒度、业务规则的不同等原因,数据可能存在错误、重复、缺失等问题。
因此,在数据抽取后需要对数据进行清洗和去重的处理。
首先,通过数据质量评估的方法,对抽取的数据进行评估,发现数据质量问题。
然后,根据问题的种类和严重程度,采取不同的数据清洗策略进行处理,包括数据去重、数据填充、数据变换等。
通过数据清洗的过程,可以提高数据的准确性和完整性,为后续的数据分析提供可靠的基础。
数据转换是将数据从暂存区转换成可用于分析和决策的形式的过程。
在这个阶段,需要对数据进行一系列的转换操作,例如数据合并、数据关联、数据归约等。
通过建立数据模型和定义数据仓库的维度和指标,将数据转换为适合分析和决策的形式,便于用户进行数据查询和分析。
数据加载是将数据转换后的结果加载到数据仓库的最后一步。
三、数据仓库组件以及开发流程核⼼组件数据仓库的核⼼组件有四个:各源数据库,ETL,数据仓库,前端应⽤。
如下图所⽰:1. 业务系统业务系统包含各种源数据库,这些源数据库既为业务系统提供数据⽀撑,同时也作为数据仓库的数据源(注:除了业务系统,数据仓库也可从其他外部数据源获取数据);2. ETLETL分别代表:提取extraction、转换transformation、加载load。
其中提取过程表⽰操作型数据库搜集指定数据,转换过程表⽰将数据转化为指定格式并进⾏数据清洗保证数据质量,加载过程表⽰将转换过后满⾜指定格式的数据加载进数据仓库。
数据仓库会周期不断地从源数据库提取清洗好了的数据,因此也被称为"⽬标系统";3. 前端应⽤和操作型数据库⼀样,数据仓库通常提供具有直接访问数据仓库功能的前端应⽤,这些应⽤也被称为BI(商务智能)应⽤;数据集市(data mart)数据集市可以理解为是⼀种"⼩型数据仓库",它只包含单个主题,且关注范围也⾮全局。
数据集市可以分为两种,⼀种是独⽴数据集市(independent data mart),这类数据集市有⾃⼰的源数据库和ETL架构;另⼀种是⾮独⽴数据集市(dependent data mart),这种数据集市没有⾃⼰的源系统,它的数据来⾃数据仓库。
当⽤户或者应⽤程序不需要/不必要/不允许⽤到整个数据仓库的数据时,⾮独⽴数据集市就可以简单为⽤户提供⼀个数据仓库的"⼦集"。
数据仓库开发流程数据仓库的开发流程和数据库的⽐较相似,因此本⽂仅就其中区别进⾏分析。
下图为数据仓库的开发流程:较之数据库系统开发,数据仓库开发只多出ETL⼯程部分。
然⽽这⼀部分极有可能是整个数据仓库开发流程中最为耗时耗资源的⼀个环节。
因为该环节要整理各⼤业务系统中杂乱⽆章的数据并协调元数据上的差别,所以⼯作量很⼤。
在很多公司都专门设有ETL⼯程师这样的岗位,⼤的公司甚⾄专门聘请ETL专家。