数据仓库基础.ppt
- 格式:ppt
- 大小:632.50 KB
- 文档页数:40
数据仓库建设规划图文前言数据仓库是企业决策的基础,能够帮助企业把分散的数据整合到一起,降低数据的冗余度和不一致度,并保证决策者及时准确地获取到有关于企业业务运营的信息。
而数据仓库建设规划是实现数据仓库建设的前提和保障。
本文将会介绍数据仓库建设规划的概述,及其在数据仓库建设过程中的具体应用。
数据仓库建设规划概述数据仓库建设规划是指基于业务战略、IT战略和企业治理要求,论证和分析数据仓库建设的目标、范围、基础设施、资源和人员安排,并制定全面和长期的数据仓库建设计划。
其目的是为了实现数据资产的价值最大化和企业业务分析的高效率开展。
具体来说,数据仓库建设规划包括以下几个方面的内容:1.数据仓库技术路线:在数据仓库建设过程中,需要选择哪些技术工具和平台,以及如何实现数据仓库的集成、存储、处理、管理和交互。
2.数据仓库的目标和范围:需要明确数据仓库的主要业务需求、数据需求以及数据质量标准,以便为数据仓库的整体架构和实施过程提供全面规划。
3.数据仓库基础设施:包括硬件基础设施、数据库应用软件、网络等设备和工具及相应的安全机制。
4.数据仓库资源和人员安排:需要评估数据仓库建设所需的人员和资源并计划并安排相应的人力、物力和财务方面的资源。
数据仓库建设规划的应用数据仓库建设规划对数据仓库的建设和运营都具有重要的作用。
在数据仓库建设过程中,数据仓库建设规划可以帮助企业在设计、实施和维护数据仓库过程中,更加全面、科学、系统地规划和部署数据仓库,从而提高数据仓库的建设效率,提高数据质量,提升企业的运营效率及决策水平。
具体来说,数据仓库建设规划可以体现在以下几个方面:1.业务需求分析:对不同类型的业务需求进行分析,确立数据仓库构建的业务模型和应用领域范畴。
借助业务分析工具和方法,对业务流程进行挖掘、建模和优化,设计出符合企业需要且便于数据获取和分析的数据模型。
2.技术实现:结合现有的IT设施和企业计算机软件系统,根据不同业务和应用领域制定数据仓库架构,并选择合适的技术工具和开发平台,如Hadoop、Hive、Spark等,以及各种开发框架、编程语言和库。
数据仓库基础知识1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。
分别是:数据仓库技术、Hadoop。
当数据为结构化数据,来自传统的数据源,则采用数据仓库技术来存储和处理这些数据,如下图:2、数据仓库和数据库的区别?从目标、用途、设计来说。
1)数据库是面向事务处理的,数据是由日常的业务产生的,并且是频繁更新的;数据仓库是面向主题的,数据来源多样化,经过一定的规则转换得到的,用于分析和决策;2)数据库一般用来存储当前事务性数据,如交易数据;数据仓库一般存储的是历史数据;3)数据库设计一般符合三范式,有最大的精确度和最小的冗余度,有利于数据的插入;数据仓库设计一般不符合三范式,有利于查询。
3、如何构建数据仓库?数据仓库模型的选择是灵活的,不局限与某种模型方法;数据仓库数据是灵活的,以实际需求场景为导向;数仓设计要兼顾灵活性、可扩展性、要考虑技术可靠性和实现成本。
1)调研:业务调研、需求调研、数据调研2)划分主题域:通过业务调研、需求调研、数据调研最终确定主题域3)构建总线矩阵、维度建模总线矩阵:把总线架构列表形成矩阵形式,行表示业务处理过程,即事实,列表示一致性的维度,在交叉点上打上标记表示该业务处理过程与该维度相关(交叉探查)4)设计数仓分层架构5)模型落地6)数据治理4、什么是数据中台?数据中台是通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
这些服务和企业的业务有较强关联性,是企业所独有且能复用的,他是企业业务和数据的积淀,其不仅能降低重复建设,减少烟囱式协助的成本,也是差异化竞争的优势所在。
DB2安装使用手册——数据仓库开发系列培训讲师:赵坚密日期:2013年7月26日目录1.DB2服务器安装 (4)1.1.前提条件 (4)1.2.DB2软件安装 (4)1.3.创建数据库管理服务器 (8)1.4.创建实例 (8)1.5.修改/etc/services文件 (8)1.6.设置环境变量 (8)1.6.1.修改.bash_profile (8)1.6.2.设置服务名称 (8)1.6.3.设置注册变量 (9)1.7.启动实例 (9)2.创建数据库 (10)2.1.创建数据库 (10)2.2.创建缓冲池(8K) (10)2.3.创建系统临时表空间(8K) (10)2.4.创建数据表空间(8K) (10)2.5.创建数据库用户 (11)2.6.设置数据库参数 (11)3.创建Schema (12)3.1.创建表格 (12)3.2.创建视图 (12)4.初始化数据导入 (13)4.1.公共数据导入 (13)4.2.用户数据导入 (13)5.DB2数据库日常操作 (14)5.1.启动和关闭数据库实例 (14)5.2.启动和关闭DAS (14)5.3.连接和断开数据库实例 (14)5.4.连接和断开数据库 (14)5.5.客户端连接配置 (14)5.6.查看数据库字符集 (14)5.7.断开所有用户连接 (15)5.8.执行批处理脚本 (15)5.9.导入导出数据 (15)5.10.查看数据库版本 (15)5.11.显示当前活动数据库 (15)5.12.显示当前用户拥有的表和视图 (15)6.DB2卸载 (16)6.1.删除所有数据库 (16)6.2.停止管理服务器 (16)6.3.停止所有DB2实例 (16)6.4.除去管理服务器 (17)6.5.除去所有DB2实例 (17)6.6.卸载DB2安装文件 (17)6.7.删除DB2所有用户 (17)6.8.删除DB2所有用户组 (18)6.9.删除/HOME目录下DB2用户目录 (18)6.10.重新引导服务器 (18)1.DB2服务器安装1.1. 前提条件123、查看/etc/hosts文件,确认主机名和IP已经设置。
1BIBusiness Intelligence,即商业智能,商务智能综合企业所有沉淀下来的信息,用科学的分析方法,为企业领导提供科学决策信息的过程。
BOSS业务运营支撑系BPM企业绩效管理BPR业务流程重整CRM客户关系管理CUBE立方体DM(Datamart)数据集市数据仓库的子集,它含有较少的主题域且历史时间更短数据量更少,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库。
DM(DataMine)数据挖掘DSS决策支持系统EDM企业数据模型3ERPEnterprise Resourse Planning企业资源规划。
它是一个以管理会计为核心的信息系统,识别和规划企业资源,从而获取客户订单,完成加工和交付,最后得到客户付款。
换言之,ERP将企业内部所有资源整合在一起,对八个采购、生产、成本、库存、分销、运输、财务、人力资源进行规划,从而达到最佳资源组合,取得最佳效益。
4ETL数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。
构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
KDD数据库中知识发现5 KPI企业关键业绩指标(KPI:KeyProcessIndication)是通过对组织内部流程的输入端、输出端的关键参数进行设置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可操作的工作目标的工具,是企业绩效管理的基础。
LDM逻辑数据模型6 MDD多维数据库(Multi Dimesional Database,MDD)可以简单地理解为:将数据存放在一个n维数组中,而不是像关系数据库那样以记录的形式存放。
因此它存在大量稀疏矩阵,人们可以通过多维视图来观察数据。
多维数据库增加了一个时间维,与关系数据库相比,它的优势在于可以提高数据处理速度,加快反应时间,提高查询效率。