数据仓库理论学习笔记
- 格式:ppt
- 大小:1.41 MB
- 文档页数:59
数据仓库(简答题复习资料)(1)数据仓库概念和特点 P12-14数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,它用于支持企业或组织的决策分析处理。
数据仓库是为了便于多维分析和多角度展现而将数据按特定的模式进行存储所建立起来的关系型数据库,它的数据基于OLTP源系统。
首先,用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据仓库的功能和特性1 面向主题2 数据的集成性3 数据的稳定性(非易失性)4 数据随时间变化的特性5 多维性数据是带有时间轴的→数据是多维的→形成立方体(Cube)见书P52(2)数据库与数据仓库的区别简而言之,数据库是面向事务的设计,数据仓库是面向主题设计的。
数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。
数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。
维是看问题的角度,比如时间,部门,维表放的就是这些东西的定义,事实表里放着要查询的数据,同时有维的ID。
单从概念上讲,有些晦涩。
任何技术都是为应用服务的,结合应用可以很容易地理解。
以银行业务为例。
数据库是事务系统的数据平台,客户在银行做的每笔交易都会写入数据库,被记录下来,这里,可以简单地理解为用数据库记帐。
数据仓库是分析系统的数据平台,它从事务系统获取数据,并做汇总、加工,为决策者提供决策的依据。
比如,某银行某分行一个月发生多少交易,该分行当前存款余额是多少。
如果存款又多,消费交易又多,那么该地区就有必要设立ATM了。
第八章行政信息第一节行政信息概述信息资源:狭义指限于信息本身的文献资源或数据资源,或者各种媒介和形式的信息集合,包括文字影像印刷品等。
广义指以信息本身为核心,包括与信息相关的人员、设备技术资金和信息资源管理体制等各种要素总称。
行政信息:作为信息资源的组成部分,是政府部门及其授权的公共组织等在依法履行职能过程中制作或获取的、以一定形式记录与保存的信息,以及制作或获取信息的技术、设备、网络、人才资源和信息化管理体制。
信息资源管理的含义(管理者学说管理过程说系统方法说管理活动说)是一种系统的管理思想和办法,是一种基于信息技术的、为满足信息需求而实施的集约化管理活动,包括对信息活动要素(信息、人员、技术设备、资金等)的规划、组织、控制和协调,以实现资源的最佳配置和提高资源的开发利用水平。
信息资源管理的层次:微观(最基层政务部门信息机构)中观(地区行业为对象)宏观(战略管理)信息资源管理的要素核心任务是兼顾信息资源现有配置与管理状况的条件下,让分散异构信息资源系统实现无缝整合并在新的信息交换与共享平台上开发应用,实现信息资源德最大数值。
结构(架构设计为主线)组织(CIO主管)环境(各种技术框架及规范)服务(借助平台实现功能)技术(支撑平台)行政信息管理:是一种集成性和综合性的管理活动,是政府部门为了实现行政目标,以现代信息技术为手段,对行政信息进行采集、加工、存储、交换共享、开发利用和服务,对信息活动各要素(信息、组织机构、人员、设施、资金、技术等)进行规划、预算、组织、协调、指导、培训和控制,以实现行政信息的合理配置、有效地满足政府部门自身和社会信息需求的活动过程。
行政信息管理的目标:实现行政信息的科学管理是基础目标;实现行政信息的有效利用是根本性目标,实现行政信息的合理开发是直接目标,促进行政管理正常运转、经济良性运行和社会和谐发展是终极性目标。
产生与发展:20世纪中叶行政信息管理标准化分类与分级中国的标准化含义:在经济技术科学及管理等社会实践中,对重复性事务和概念通过制定发布和实施标准来达到统一,以获得最佳秩序和社会效益。
维度建模读书笔记1.概念∙数据仓库受业务驱动的最终目标∙数据仓库体系的主要构件∙维度建模在数据仓库展示环节方面的重要性∙事实表和维度表术语∙有关维度建模的讹传∙数据仓库构建需要避免的常见错误2.业务问题∙公司有堆积如山的数据,可就是不能访问∙需要以各种方式随心所欲的切割数据∙如何使业务人员能够简单快捷地得到所需形式的数据∙将什么是重要内容显示出来∙同样的业务运作机理却以不同的编号展示出来∙希望用信息来支持更有事实依据的决策制定过程3.数据仓库的目标∙数据仓库必须是组织机构的信息变得容易存取标识方面容易易懂永无止境的组合方式数据的分离和合并∙数据仓库必须一致地展示组织机构的信息数据的完整性数据的一致性∙数据仓库必须具有广泛的适应性和便于修改新增、修改、老化不会导致现有数据或应用无效描述性数据修改必须考虑适当性∙数据仓库必须发挥安全壁垒作用以保护信息资产∙数据仓库必须在推进有效决策方面承担最基本的角色∙数据仓库可为业务群体接受4.数据仓库建造者的职责∙在业务范围、工作职责和计算机性能等方面多为用户考虑∙确定业务用户想在数据仓库帮助下想要做出什么样的决策∙标定那些使用数据仓库进行效能高而作用大的决策制定的最佳用户∙寻找潜在的新用户并让他们了解数据仓库∙选取那些从机构海量数据中挑出的最有成效和最富有实际意义的数据子集在数据仓库中进行展示∙适应用户对相关处理概况的感性认识,将用户接口和应用做的简单并且是模板驱动的∙跨部门一致性地标注数据,确保数据是准确的、可信的∙持续不断的对数据的准确性和提交报告的内容进行监控∙搜罗新的数据来源,持续不断地调整数据仓库以适应数据概况修改、需求支持和业务优先权的调整等方面的需要∙抽取一部分在使用数据仓库进行业务决策方面具有良好声誉的实现,并用这些成功的例子对人员、软件和硬件配备与选购是否合理做出评判∙按通行的方式发布数据5.数据聚集 Extact Transformation Load同时创建聚集用的规范化结构和展示用的维度,意味着数据要被处理两次一次用于规范化数据库一次用于针对维度模型6.规范化数据库应该出现么为支持聚集过程而创建一个规范化数据库是可以接受的,但这不是我们的最终目的,规范化结构必须远离用户查询,这些结构会对可理解性和性能造成损害,只要数据库支持查询和展示服务,就应该作为数据仓库展示环节的一部分加以考虑,但默认情况下,规范化数据库被排除在展示环节之外,数据展示环节应该被严格限定是维度的7.展示环节∙数据应该以维度形式进行展示、存储和访问“在不同的市场销售我们的产品,随时对销售业绩进行评估”=时间、市场、产品、业绩--从业务需求中探索维度将设计目标放在用户的易理解性、查询的高性能性和修改的灵活性等方面对数据进行封装∙原子数据对于经受住无法预期的特殊用户的查询攻击考验是必需的数据中心可能含有用于提高性能的概要数据或聚合值,但如果没有维度形式的基本粒度数据的支持,则提交这些概要数据的效率是不高的仅仅在维度模型中存储概要数据,而将原子数据固定在规范化模型中,这样的做法完全不可接受∙所有数据中心必须采用共同的维度和实施来建造,即要求它们是一致的。
干货:数据仓库基础知识(全)1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。
分别是:数据仓库技术、Hadoop。
当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:2、数据仓库和数据库的区别?从目标、用途、设计来说。
1)数据库是面向事务处理的,数据是由日常的业务产生的,并且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一定的规则转换得到的,用于分析和决策;2)数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的是历史数据;3)数据库设计一般符合三范式,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查询。
3、如何构建数据仓库?数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本。
1)调研:业务调研、需求调研、数据调研2)划分主题域:通过业务调研、需求调研、数据调研最终确定主题域3)构建总线矩阵、维度建模总线矩阵:把总线架构列表形成矩阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交叉点上打上标记表示该业务处理过程与该维度相关(交叉探查)4)设计数仓分层架构5)模型落地6)数据治理4、什么是数据中台?数据中台是通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助的成本,也是差异化竞争的优势所在。
学习笔记之数据仓库的各种表预热:我们先从⼏个物理概念⼊⼿理解什么是流量,存量,增量(1)存量:系统在某⼀时点时的所保有的数量;(2)流量:是指在某⼀段时间内流⼊/流出系统的数量(3)增量:是指在某⼀段时间内系统中保有数量的变化(4)增量 = 流⼊量--流出量(5)本期期末存量 = 上期期末存量+本期内增量全量表:每天的所有的最新状态的数据全量表没有分区,表中的数据时前⼀天的所有数据,⽐如说今天是24号,那么全量表⾥⾯拥有的数据是23号的所有数据,每次往全量表⾥⾯写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截⽌到当前最新的、全量的数据。
(1)全量表,有⽆变化,都要报(2)每次上报的数据都是所有的数据(变化的+没有变化的)快照表那么要能查到历史数据情况⼜该怎么办呢?这个时候快照表就派上⽤途了,快照表是有时间分区的,每个分区⾥⾯的数据都是分区时间对应的前⼀天的所有全量数据,⽐如说当前数据表有3个分区,24号,25号,26号。
其中,24号分区⾥⾯的数据就是从历史到23号的所有数据,25号分区⾥⾯的数据就是从历史到24号的所有的数据,以此类推。
但是这样也有⼀个问题,就是数据量⼤的时候,其实每个分区都存储了许多重复的数据,⾮常的浪费存储空间。
于是乎,拉链表就出来了。
在介绍拉链表之前,我们先介绍⼀下增量表。
增量表:新增数据,增量数据是上次导出之后的新数据增量表,就是记录每天新增数据的表,⽐如说,从24号到25号新增了哪些数据改变了哪些数据,这些都会存储在增量表的25号分区⾥⾯。
上⾯说的快照表的25号分区和24号分区(都是t+1),实际时间分别对应26号和25号),它俩的数据相减就是实际时间25号到26号有变化的、增加的数据,也就相当于增量表⾥⾯25号分区的数据。
(1)记录每次增加的量,⽽不是总量(2)流量是指在⼀定时间内的增量(3)流量⼀般设计成增量表(⽇报-常⽤、⽉报);(4)流量和存量的区别:流量是增量;存量是总量;(5)增量表,只报变化量,⽆变化不⽤报拉链表拉链表,它是⼀种维护历史状态,以及最新状态数据的⼀种表。
数据仓库算法总结事务处理环境不适宜DSS 应用的原因:(1)事务处理和分析处理的性能特性不同(2)数据集成问题(3)历史数据问题(4)数据的综合问题数据仓库数据的四个基本特征:(1)数据仓库的数据是面向主题的(2)数据仓库的数据是集成的(3)数据仓库的数据是不可更新的(4)数据仓库的数据是随时间不断变化数据仓库定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的(时变的)、不可修改的(非易失的)数据集合,用于支持管理决策。
支持度若D 中的事务包含A ∪B(即A 和B 二者)的百分比为s ,则称关联规则A —>B 的支持度为s 。
即:support (A ⇒B)=P(A ∪ B)可信度/置信度若D 中包含A 的事务同时也包含B 的百分比为c ,则称关联规则A ⇒B 的置信度/可信度为c 。
即: confidence(A ⇒B)=P(B|A) = support(A ∪B)/support(A)频繁项集项集的出现频率是包含项集的事物数,简称项集的频率。
项集满足最小支持度阈值minsup :如果项集的出现频率大于或等于minsup 与D 中事物总数的乘积。
满足最小支持阈值的项集就称为频繁项集 (或大项集)。
频繁k 项集的集合记为Lk 。
定理( Apriori 性质)频繁项集的所有非空子集都必须也是频繁的。
任何非频繁项集的超级一定也是非频繁的Apriori 算法具体做法:对于所研究的事务数据库D ,首先找出频繁1-项集的集合,记为L1 ;再用L1找频繁2-项集的集合L2 ;再用L2找L3 …如此下去,直到不能找到频繁k-项集为止。
找每个Lk 需要一次数据库扫描。
如何实现用Lk-1找Lk.连接步:为找Lk ,通过Lk-1与Lk-1连接产生候选k-项集的集合。
该候选项集的集合记作Ck ,执行元组总数的元组数和包含B A =L 1L 1扫描D ,对每个候选计数比较候选支持度计数由L 1产生候选C 2扫描D,对每个候选计数Lk-1与Lk-1的连接:如果他们前(k-2)个项相同,则可连接。
第一章数据仓库与数据挖掘概述1.数据库与数据仓库的本质差别是什么?答:数据库用于事务处理,数据仓库用于决策分析;数据库保持事务处理的当前状态,数据仓库既保存过去的数据又保存当前的数据;数据仓库的数据是大量数据库的集成;对数据库的操作比较明确,操作数据量少,对数据仓库操作不明确,操作数据量大。
数据库是细节的、在存取时准确的、可更新的、一次操作数据量小、面向应用且支持管理;数据仓库是综合或提炼的、代表过去的数据、不更新、一次操作数据量大、面向分析且支持决策。
6.说明OLTP与OLAP的主要区别。
答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动; OLAP针对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。
8.元数据的定义是什么?答:元数据(metadata)定义为关于数据的数据(data about data),即元数据描述了数据仓库的数据和环境。
9.元数据与数据字典的关系什么?答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。
18.说明统计学与数据挖掘的不同。
答:统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。
数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。
19.说明数据仓库与数据挖掘的区别与联系。
答:数据仓库是一种存储技术,它能适应于不同用户对不同决策需要提供所需的数据和信;数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。
数据仓库与数据挖掘都是决策支持新技术。
但它们有着完全不同的辅助决策方式。
在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。
它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。
数据仓库和数据挖掘的结合对支持决策会起更大的作用。
1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3、数据处理通常分成两大类:联机事务处理和联机分析处理。
4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储于管理和数据表现等。
7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库.8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储.9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。
10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。
2、抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。
因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。
3、数据抽取的两个常见类型是静态抽取和增量抽取。
静态抽取用于最初填充数据仓库,增量抽取用于进行数据仓库的维护。
4、粒度是对数据仓库中数据的综合程度高低的一个衡量。
粒度越小,细节程度越高,综合程度越低,回答查询的种类越多.5、使用星型模式可以从一定程度上提高查询效率。
第1章数据仓库的概念与体系结构1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。
3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。
4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。
5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。
6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。
7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。
8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。
9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。
10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。
11.什么是数据仓库?数据仓库的特点主要有哪些?答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。
数据仓库的特点包含以下几个方面:(1)面向主题。
知识点一数据仓库1.数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
2.数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。
3.数据仓库围绕主题组织4.数据仓库基于历史数据提供消息,是汇总的。
5.数据仓库用称作数据立方体的多维数据结构建模,每一个维对应于模式中的一个或者一组属性,每一个单元存放某种聚集的度量值6.数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据7.提供提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理,允许在不同的抽象层提供数据,这种操作适合不同的用户角度8.OLAP例子包括下钻和上卷,允许用户在不同的汇总级别上观察数据9.多维数据挖掘又叫做探索式多维数据挖掘OLAP 风格在多维空间进行数据挖掘,允许在各种粒度进行多维组合探查,因此更有可能代表知识的有趣模式。
知识点二可以挖掘什么数据1.大量的数据挖掘功能,包括特征化和区分、频繁模式、关联和相关性分析挖掘、分类和回归、聚类分析、离群点分析2.数据挖掘功能用于指定数据挖掘任务发现的模式,分为描述性和预测性3.描述性挖掘任务刻画目标数据中数据的一般性质4.预测性挖掘任务在当前数据上进行归纳,以便做出预测5.数据可以与类或概念相关联6.用汇总、简洁、精确的表达描述类和概念,称为类/ 概念描述7.描述的方法有数据特征化(针对目标类)、数据区分(针对对比类)、数据特征化和区分8.数据特征化用来查询用户指定的数据,上卷操作用来执行用户控制的、沿着指定维的数据汇总。
面向属性的归纳技术可以用来进行数据的泛化和特征化,而不必与用户交互。
形式有饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。
结果描述可以用广义关系或者规则(也叫特征规则)提供。
9.用规则表示的区分描述叫做区分规则。
10.数据频繁出现的模式叫做频繁模式,类型包括频繁项集、频繁子项集(又叫频繁序列)、频繁子结构。
数据库应用技术(数据仓库与数据挖掘复习提纲)说明:考试形式:闭卷考试题型:填空、选择、判断、名词解释、简答题、综合题。
(由于试题是随机从试题库中抽取,有可能抽取的试题中不会全部包含上述的所有题型)另外:本提纲仅针对试题中的名词解释、简答题和综合题提供复习参考,不包括填空、选择、判断等其它题型的参考。
一、名词解释:1、数据仓库:是面向主题的、综合的、不同时间的、稳定的数据的集合,用以支持经营管理中的决策制定过程;2、数据挖掘:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可以理解的模式的过程;简单的说是从大量数据中提取或挖掘知识,又被称为数据库中的知识发现。
3、操作数据存储:是一种DW的混合形式,它面向主题的、及时的、最近的和集成的信息,用于支持企业的日常的全局应用和决策制定,其中数据可以作为DW的通用数据源。
4、OLAP:是数据库系统主要应用,支持复杂的分析操作,侧重决策支持,且提供直观易懂的结果。
5、商业智能:是数据仓库(DW)、联机分析处理(OLAP)、数据挖掘等技术与资源管理系统ERP结合起来应用于商业活动实际过程中,实现了技术服务于决策的目的。
二、简答题:1、试叙述数据仓库系统与传统数据库系统的区别:(1)、操作型数据库中的数据针对事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的;(2)、操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是并构的,而数据仓库中的数据在对原有分期的数据库数据做抽取、清理的基础上经过系统的加工、汇总和整理得到的;(3)、操作型数据库中的数据通常实时更新,数据根据需要及时发生变化,数据仓库的数据主要用于决策分析,对涉及的数据操作主要是数据查询和定期更细,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存;(4)、操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史单位,因此总是包括一个时间维,以便可以研究趋势和变化。
数据模型管理学习笔记1.数据分类数据:对客观事物的记录(1)主数据是关于业务实体的数据,描述组织内的“物”,如人、地点、用户、产品等。
在企业中存在很多IT系统,然而主数据信息是需要跨系统流转的,所以主数据是企业中记录数据的核心。
(2)交易数据描述组织业务运营过程中的内部或外部“事件”。
交易数据也可以理解为主数据中的对象产生的一些行为数据,如销售订单、通话记录等。
(3)统计分析数据是对企业业务活动进行统计分析的数值型数据,即指标,如用户数、销售额等。
用户数是对主数据中存在的用户进行统计,销售额是对交易销售行为的订单、额度进行统计。
(4)参考数据是将其他数据进行分类或进行目录整编的数据,参考数据值是几个允许值之一。
参考数据也可以理解为码值,是为了对一些数据定义进行解释和规范的。
例如,用户等级可以分为A、B、C三级,但是单纯从A、B、C并不能看出具体的用户等级是怎样的,参考数据可以帮助公司规定A等级用户代表优质用户,B等级用户代表一般用户,C等级用户代表大众用户。
参考数据的制定可以参考国际标准、行业标准或公司内部标准。
(5)元数据是描述数据的数据,帮助理解、获取、使用数据,分为技术元数据、业务元数据等。
2.数据建模数据架构的基本概念数据模型介绍(1)建模技术:借助模型来分析、设计应用系统的技术。
(2)模型:现实世界中某些事物的一种抽象表示。
(3)抽象:抽取事物的本质特性,忽略事物的其他次要因素(4)建模:是理解、分析、开发或改造事物原型的一种常用手段数据建模基础(1)概念模型(CDM)描述预设范围内的业务需求:以实体—关系(Entity-Relationship, E-R)理论为基础,通过主题域形式描述概念化的结构。
(2)逻辑模型(LDM)是详细的业务解决方案:对概念模型的进一步细化,通过关键数据属性描述更多的业务细节。
(3)物理模型(PDM)是详细的技术解决方案:将逻辑模型转换成数据库的设计表达,涉及数据库中的表、数据类型、字段长度等信息。
(一)SAP BW 全称Business Information Warehouse,在版本3.5之后又称SAP Business Intelligence.处于SAP Netweaver整体架构当中的Information Integration这一层,与之并列的还有主数据管理(Master Data Management)和知识管理(Knowledge Management),这一块所谓的Information Integration,就是从企业的底层数据到最高表现层之间的一层分析的部分。
但是它又不完全是在进行分析,因为这一层本身,也包含了数据挖掘(Data Warehousing),商务智能平台(BI Platform),商务智能表现(BI Suite)三个细的层次。
或许对BW的精确解释,就是如何能让企业的商务活动,变得高效和便捷的关键一步吧。
SAP Business Intelligence is an enterprise-class, complete, open and integrated solution that delivers actionable insight. 呵呵,自己解释不清楚的时候,只能抄一句讲义上的定义了。
不过这个定义还是基本准确的。
基本上阐述了BW的功能和应用对象。
BW的最底层,Data Warehousing。
传说中的数据仓库,这一层里面主要完成的任务包括,ETL流程(Extraction,Transformation,Loading),数据仓库管理和商业建模三块内容。
其中的ETL流程,通过各种途径和方法,把种类繁多的元数据进行处理,清洗,从而转化为系统所需的统一格式的数据类型,便于之后所有的需要。
是BW中非常基础非常关键的一步。
之后的数据仓库管理,则将这些数据根据种类,划分成主数据,PSA,ODS Objects等不同的类型,加以管理。
商业建模则是数据仓库中比较难很快掌握的内容,这块内容,基本上是和客户的需求紧密联系,并根据需求建立合适高效的模型。
·数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。
·数据仓库的特点–面向主题–集成–相对稳定–反映历史变化数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。
数据仓库,Data Warehouse,可简写为DW。
数据仓库之父Bill Inmon在1991年出版的“Building the Data Warehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
◆面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。
◆集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
◆相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
◆反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。