辨析数仓、大数据、数据中台的实质(内附21张架构图)
- 格式:docx
- 大小:2.32 MB
- 文档页数:17
数据中台(架构篇)声明:本⽂归属所有。
@⼀⼨HUI在上⼀篇⽂章中主要介绍了建设数据中台要建设哪些内容、建设的步骤以及建设过程中需要遵循⼀定的规范并符合公司的战略。
也提及到了阿⾥巴巴数据中台的全景图,有了上⾯的基础,现在更能⽅便的理解数据中台的架构了。
先来回顾下数据中台的概念。
数据中台是⼀套可持续“让企业的数据⽤起来”的机制,是⼀种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施⽅法论⽀撑,构建的⼀套持续不断把数据变成资产并服务于业务的机制。
数据中台是处于业务前台和技术后台的中间层,是对业务提供的数据能⼒的抽象和共享的过程,数据中台通过将企业的数据变成数据资产,并提供数据能⼒组件和运⾏机制,形成聚合数据接⼊、集成、清洗加⼯、建模处理、挖掘分析,并以共享服务的⽅式将数据提供给业务端使⽤,从⽽与业务产⽣联动,⽽后结合业务系统的数据⽣产能⼒,最终构建数据⽣产>消费>再⽣的闭环,通过这样持续使⽤数据、产⽣智能、反哺业务从⽽实现数据变现的系统和机制。
数据中台功能定位数据中台的功能定位是完成公司内部数据能⼒的抽象、共享和复⽤,因此,数据中台的架构必须围绕这三个功能来设计。
与传统的⼤数据平台不同,数据中台搭建于⼤数据平台及数据仓库之上,将⼤数据平台和数据仓库所实现的功能以通⽤数据能⼒的形式提供给企业的所有部门。
因此,单从功能上来讲,⼤数据平台实现具体的数据能⼒,数据仓库是业务建模、数据治理发⽣的地⽅,⽽数据中台则需要把⼤数据平台、数据仓库的数据和接⼝组织起来,通过打通数据提升数据能⼒,通过共享提⾼全局使⽤效率。
因此数据中台的架构设计应该考虑如何有效地完成抽象、共享和复⽤的功能。
数据中台的建设应该贯穿数据处理的全⽣命周期,即从原始数据到最后产⽣数据价值的整个流程,且整个流程都处于数据中台的管理之下。
下图显⽰了从原始数据到实现数据价值的完整流程,其中每⼀步都是数据中台建设需要考虑的:数据发现/探索,数据采集/导⼊,数据建模/治理,数据转换/分析,数据发现/探索,数据采集/导⼊,数据建模/治理,数据转换/分析数据中台要做的就是把上述流程在全局标准化、规范化,让这个流程产⽣的结果和能⼒能够在全局共享和复⽤。
一文读懂数据中台架构建设体系图文详解(建议收藏)最新版一文读懂数据中台架构建设体系图文分析(建议收藏)当前,大部分企业不再建设从源数据采集到分析应用的烟囱式系统,更倾向于数据集中采集、存储,并应用分层建设。
这种方式一方面有利于应用系统的快速部署,另一方面也保证了数据的集中管理与运营,体现数据的资产、资源属性。
数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷问题。
数据中台是国内学者提出的概念,起始于XXX的“大中台、小前台”概念。
XXX的中台是从管理的角度出发,以XXX集中数据搜索,技术及产品,数据共享等多个部门的功能。
其他组织或企业建设数据中台不一定需要成立XXX,但是数据集中治理与提升数据价值转换效率的思路是一致的。
01—数据中台通用体系架构不同的企业对数据有不同的需求。
企业数据应用不断更新迭代,企业的中台系统也需要不断变化。
从数据处理与数据治理两个维度出发,可以设计一个解耦的数据中台体系架构。
该数据中台体系架构具有一定的柔性。
1可按照企业应用需求进行组合,或者对单个模块进行扩充,能满意大多数企业数据中台建设的需求。
数据中台体系架构示例数据中台的通用体系架构如图2所示。
该中台体系架构以减少功能冗余和提高功能复用为原则,把数据中台解耦为6个可以分别独立建设、演进的功能子系统。
2数据结构与数据处理子系统是数据中台体系架构的核心,数据治理是提升数据价值的重要手段。
该数据中台体系架构的通用性表现在以下几点。
该数据中台体系架构综合考虑了数据中台的各种要素,参考这个架构进行建设可以有效晋升数据资产价值,供应数据及服务的共享。
参考这个数据中台体系架构,企业可以一次规划、分步实施。
首先建设处理子系统及数据存储子系统,然后根据业务发展需求,逐步补充数据采集、数据安全及数据治理子系统。
该数据中台由6个解耦的子系统组成。
企业在立项建设时可以灵活组合,每个子系统零丁招标建设,也可以把多个子系统归并招标建设。
数据中台最核心的是OneData体系。
这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,出于分析性报告和决策支持目的而创建。
数据中台是一个数据集成平台,它不仅仅是为数据分析挖掘而建,它更重要的功能是作为各个业务的数据源,为业务系统提供数据和计算服务。
数据中台的本质就是“数据仓库+数据服务中间件”。
中台构建这种服务时是考虑到可复用性的,每个服务就像一块积木,可以随意组合,非常灵活,有些个性化的需求在前台解决,这样就避免了重复建设,既省时、省力,又省钱。
在二战时期,美军是以庞大的军队为单位作战;到了越战时,以营为单位作战;到了中东战斗的时候,以7人或者11人的极小班排去作战,这就是今天具备最强核心竞争力和打击能力的组织。
而美军之所以能灵活作战,敢放这么小的团队到前方,是因为有非常强的中台能力,这些能力包括战斗直升机、舰炮远程支援、战术导弹系统、战斗机支援体系等,这些能力能支持小团队快速做判断,并且引领整个炮火覆盖和定点清除。
而对比今天多变的市场竞争环境,企业也正在寻找像美军一样具备创新性、灵活性的中台能力。
今天我们就从以下几个方面来说说数据中台:1.数据中台产生的历史背景2.数据中台对企业有什么价值3.到底什么是数据中台4.数据中台与数据库、数据湖和BI有什么区别5.企业搭建数据中台需要注意什么6.企业如何使用数据中台一、数据中台产生的历史背景数据从软件诞生的那一天开始就存在,但是,数据并不是第一天就被存储和利用的。
在信息化时代,企业早期通过流程来进行生产和管理,流程是预先设计好的,然后在设计好的流程中产生了数据。
比如现在销售部门依赖于CRM(客户关系管理平台),售后部门主要看客服系统,市场营销部门关心微信平台,数据分析团队使用各类数据分析工具…在这个过程中,各个企业分别都在用不同的方式来尽可能的利用数据产生的价值。
企业数字化转型或者信息化建设过程中,不可避免的都会产生大量的数据,而继ERP、MES与PDM等企业信息化三驾马车建设完成之后,迎面而来的就是数据治理,关于数字化、信息化的区别见数据化、信息化、数字化和智能化之间联系和区别解析(建设收藏),而数据治理的载体无非是数据仓库、数据湖与数据中台等内容,前几天我们发布了一篇关于辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)的文章,今天我们来看下几个概念的区别与联系:我们谈论数据中台之前,我们也听到过数据平台、数据仓库、数据湖的相关概念,它们都与数据有关系,但他们和数据中台有什么样的区别,下面我们将围绕数据平台、数据仓库、数据湖和数据中台的区别进行介绍。
数据仓库数据仓库(Data Warehouse),也称为企业数据仓库,它是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合存储系统,它将来自不同来源的结构化数据聚合起来,用于业务智能领域的比较和分析,数据仓库是包含多种数据的存储库,并且是高度建模的。
数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。
数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
数据仓库的作用主要体现在企业决策、分析、计划和响应以下几个方面:数据仓库针对实时数据处理和非结构化数据处理能力较弱,以及在业务在预警预测等方面应用有一定的限制。
数据湖数据湖(Data Lake)是Pentaho公司CTO James Dixon提出来一种数据存储理念—即在系统或存储库中以自然格式存储数据的方法。
数据湖作为一个集中的存储库,可以在其中存储任意规模的结构化和非结构化数据。
在数据湖中,可以存储不需要对其进行结构化的数据,这样就可以运行不同类型的分析。
下面的定义是维基百科所给出的“数据湖”定义。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数据库、数据仓库、大数据平台、数据中台、数据湖对比分析一、概况层出不穷的新技术、新概念、新应用往往会对初学者造成很大的困扰,有时候很难理清楚它们之间的区别与联系。
本文将以数据研发相关领域为例,对比分析我们工作中高频出现的几个名词,主要包括以下几个方面:•数据▪什么是大数据▪数据分析与数据挖掘的区别是什么•数据库▪什么是数据库▪数据库中的分布式事务理论•数据仓库▪什么是数据仓库▪什么是数据集市▪数据库与数据仓库的区别是什么•大数据平台▪什么是大数据平台▪什么是大数据开发平台•数据中台▪什么是数据中台▪数据仓库与数据中台的区别与联系•数据湖▪什么是数据湖▪数据仓库与数据湖有什么区别与联系希望本文对你有所帮助,烦请读者诸君分享、点赞、转发。
二、数据什么是大数据?麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
我们再往深处思考一下,为什么会有大数据(大数据技术)?其实大数据就是在这个数据爆炸增长的时代,业务需求增长促进技术迭代,技术满足需求后又形成闭环促进业务持续增长,从而形成一个闭环。
数据分析与数据挖掘的区别是什么?数据分析可以分为广义的数据分析和狭义的数据分析。
广义的数据分析就包括狭义的数据分析和数据挖掘。
我们在工作中经常常说的数据分析指的是狭义的数据分析。
三、数据库据库什么是数据库?数据库是按照数据结构来组织、存储和管理数据的仓库。
是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。
一般而言,我们所说的数据库指的是数据库管理系统,并不单指一个数据库实例。
根据数据存储的方式不同,可以将数据库分为三类:分别为行存储、列存储、行列混合存储,其中行存储的数据库代表产品有Oracle、MySQL、PostgresSQL等;列存储的数据代表产品有Greenplum、HBASE、Teradata等;行列混合存储的数据库代表产品有TiDB,ADB for Mysql等。
10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)作为一名数据小白,在日常讲授和杂务工作中经常会接触到数据。
随着用户数据与金融业务数据的不断累加,数据管理与处理愈发重要。
本篇文章中,无名氏将一文说明数据库、数据仓库、数据湖、数据中台的区别与联系。
作为数据相关的产品小白,在日常学习工作中经常能或者听到大家在讨论数据库,数据仓库,数据集市,数据库数据湖还有最近比较火的数据中台,似乎这些名词都与数据存在着联系,查阅各类相关书籍,大部分书籍中的内容过于专业晦涩难懂。
那么这结合我积累的相关方面知识,向大家介绍一下上述这些名词的与联系,以及在各类企业及业务范围上的适用范围,如有不准确的地方,希望大家进行指正。
相信大部分有些许技术背景的都对数据库有一定的了解,数据库是“按照数据结构来组织、存储和管理数据的仓库”,一般分为“关系型数据库”与“非关系型数据库”。
1.关系型数据库实际上回顾过去的数据库一共有三种模型,即层次模型,网状模型,关系模型。
(1)首先层次模型的数据结构为树状结构,即是一种上下级的社团组织层级关系组织数据的一种方式:(2)带状模型的数据结构为网状网状结构,即将每个数据节点与其他很多节点都连接起来:(3)关系模型的数据结构可以看做是一个二维表格,任何数据都可以通过行号与列号来唯一确定:由于相比于层次模型和网状模型,关系模型理解和使用最简单,最终基于关系型最后数据库在各行各业应用了起来。
关系模型的数学方法第一卷涉及到关系,元组,属性,笛卡尔积,域等等令人头秃的高等数学术语,这里大家如果感兴趣可以看看相关的文献,我就不放出来催眠大家了,尽管数学原理比较复杂,但如果用事务平时学习工作的具体事务举例,就相对容易理解。
我们以某公司的员工信息表为例,该公司的员工信息可以用一个表格存起来。
并且定义如下:同时部门ID对应这另一个职能部门表:我们可以通过给定一个政府部门部门名称,查到一条部门的记录,根据部门ID,又可以记述查到该部门下的员工记录,这样三维的表格就通过ID映射建立了“一对多”的关系。
全面解读数据中台、数据仓库和数据湖如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生。
这些数据需要被存储起来并且能够被方便的分析和利用。
随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。
1.1 数据库关系数据库本质上是一个二元关系,说的简单一些,就是一个二维表格,对普通人来说,最简单的理解就是一个Excel表格。
这种数据库类型,具有结构化程度高,独立性强,冗余度低等等优点,一下子就促进了计算机的发展。
1.2 操作型数据库和分析型数据库随着关系数据库理论的提出,诞生了一系列经典的RDBMS,如Oracle,MySQL,SQL Server等。
这些RDBMS被成功推向市场,并为社会信息化的发展做出的重大贡献。
然而随着数据库使用范围的不断扩大,它被逐步划分为两大基本类型:操作型数据库主要用于业务支撑。
一个公司往往会使用并维护若干个操作型数据库,这些数据库保存着公司的日常操作数据,比如商品购买、酒店预订、学生成绩录入等;分析型数据库主要用于历史数据分析。
这类数据库作为公司的单独数据存储,负责利用历史数据对公司各主题域进行统计分析;那么为什么要"分家"?在一起不合适吗?能不能构建一个同样适用于操作和分析的统一数据库?答案是NO。
一个显然的原因是它们会"打架"…如果操作型任务和分析型任务抢资源怎么办呢?再者,它们有太多不同,以致于早已"貌合神离"。
接下来看看它们到底有哪些不同吧。
1.3 操作型数据库 VS 分析型数据库因为主导功能的不同(面向操作/面向分析),两类数据库就产生了很多细节上的差异。
数据仓库数据平台与数据中台对比在大数据时代,凡是AI类项目的落地,都需要具备数据、算法、场景、计算力四个基本元素,缺一不可。
处理大数据已经不能仅仅依靠计算力就能够解决问题,计算力只是核心的基础,还需要结合不同的业务场景与算法相互结合,沉淀出一个完整的智能化平台。
数据中台就是以云计算为数据智能提供的基础计算力为前提,与大数据平台提供的数据资产能力与技术能力相互结合,形成数据处理的能力框架赋能业务,为企业做到数字化、智能化运营。
目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用,强调技术对于业务的推动作用,但在商业领域落地的层面上,更多时候技术的发展和演进都是需要跟着业务走,技术的发展和进步需要基于业务方的需求与数据场景应用化的探索来反向推动。
这个也就是为什么最近知乎、脉脉都在疯传阿里在拆“大中台”?个人猜想,原因是没有真正理解中台的本质,其实阿里在最初建设数据中台的目的主要是为了提升效率和解决业务匹配度问题,最终达到降本增效,所以说“拆”是假的,在“拆”的同时一定在“合”,“拆”的一个方面是企业战略布局层面上的规划,架构升级,如果眼界不够高,格局不够大,看到的一定只是表面;另一方面不是由于组织架构庞大而做“拆”的动作,而是只有这样才能在效率和业务匹配度上,做到最大利益化的解耦。
数据中台出现的意义在于降本增效,是用来赋能企业沉淀业务能力,提升业务效率,最终完成数字化转型。
前一篇数据中台建设的价值和意义,提到过企业需要根据自身的实际情况,打造属于自己企业独有的中台能力。
因为,数据中台本身绝对是不可复制的,从BCG矩阵的维度结合各家市场资源、市场环境、市场地位以及业务方向来看,几乎所有企业的战略目标都是不一样的。
如果,有人说能把中台卖给你、对于中台的解读只讲技术,不讲业务,只讲产品,不讲业务,不以结合企业业务目标来解决效率和匹配度为目的的都有耍流氓嫌疑。
数据中台的使命和愿景是让数据成为如水和电一般的资源,随需获取,敏捷自助,与业务更多连接,使用更低成本,通过更高效率的方式让数据极大发挥价值,推动业务创新与变革。
数据中台技术架构解读目录前言 (3)一当前关于“中台”问题研究存在诸多问题 (3)二科学界定“数据中台”问题的基本原则 (7)三小数据是理解数据中台的关键 (11)前言数据中台最近特别火,之前还在炒概念,现在突然就看到有的企业已经宣传自家的数据中台了,有的企业向外介绍如何构建自己的数据中台,利用数据中台打造数据驱动的经营能力。
大家热衷于讨论什么是“数据中台”,并且还有“有一千个企业,就有一千个数据中台”的说法,但大家真的都理解了什么是数据中台了吗?本文基于笔者的个人思考,首先介绍了当前关于“中台”问题研究存在的3个主要问题,然后从3个方面说明了科学界定数据中台的基本原则,最后指出小数据是理解数据中台的关键,以更加科学合理的角度使读者更加清晰、全面的认识数据中台。
”一当前关于“中台”问题研究存在诸多问题Supercell,芬兰移动游戏巨头,成立于2010年,拥有《部落冲突》、《卡通农场》、《海岛奇兵》、《皇室战争》和《荒野乱斗》等全球热门游戏。
据说,2015年12月马云亲自率队到Supercell公司进行商务拜访,马云对Supercell的高效运营无比感慨,将其经营秘密概括为中台战略,要求阿里巴巴按照“大中台、小前台”的组织原则进行公司架构改革。
不管上述“中台”的马云说是否属实,但“中台”的概念确实在近年来不断发酵并从去年开始流行起来,日益成为行业共识,但大家对如何认识这个共识还没有达成一致意见,同时当前关于“中台”问题的研究还存在诸多问题。
1.1对数据中台的定义不清目前关于数据中台的定义很多,笔者根据网上数据中台相关著作或文章,搜集了一些对数据中台的定义,供读者参考,如下表所示。
表1 网上关于数据中台的定义从上表这些定义来看,人们对于中台的解释还是很不一致的,有的定义甚至还谈不上是严格的定义,充其量只能说是对其某方面属性的简单描述,还谈不上是对其本质属性的界定。
1.2缺乏明确的数据中台架构模型阿里巴巴从2009年就开始建设共享业务事业部,已经为中台战略在转型过程中将会面临的组织间业务协作、业务核心能力的沉淀、组织KPI考核等方面都做了很好的实践和经验沉淀,阿里巴巴共享业务事业部的架构图也被阿里的人看作是解读阿里中台战略最常用的一个图,讨论阿里中台战略的时候都会用到。
大数据平台功能架构大数据平台的功能架构包括数据中台功能架构和数据仓库功能架构。
数据中台是指将企业各个部门的数据集中管理并提供数据服务的平台,而数据仓库是指用于存储和管理大量结构化数据的系统。
下面将详细介绍这两个功能架构。
一、数据中台功能架构数据中台主要包括数据采集、数据存储、数据处理和数据服务四个功能模块。
1.数据采集:数据采集模块负责从各个部门的数据源中采集数据,并将其标准化和清洗。
数据采集可以通过多种方式实现,例如ETL工具、API接口、日志收集器等。
采集到的数据包括结构化数据和非结构化数据。
2. 数据存储:数据存储模块用于存储经过清洗和处理后的数据。
通常会采用分布式存储技术,例如Hadoop、HBase、Cassandra等。
这些技术可以实现大规模数据的高效存储和管理。
3.数据处理:数据处理模块负责对存储在数据中台中的数据进行分析和处理。
常用的数据处理技术包括批处理、流处理和机器学习等。
数据处理可以用于数据挖掘、预测分析、图像识别等任务。
4.数据服务:数据服务模块提供对数据的高效访问和查询。
通过提供API接口和查询语言,可以使不同部门和系统能够方便地访问和使用中台的数据资源。
此外,数据服务还可以提供数据共享和数据协同功能,帮助企业实现数据的整合和共享。
数据仓库主要包括数据抽取、数据转换、数据加载和数据查询四个功能模块。
1.数据抽取:数据抽取模块负责从各个业务系统中将数据抽取到数据仓库中。
抽取的数据可以是全量数据或增量数据,也可以根据需求进行筛选和过滤。
数据抽取可以通过ETL工具、数据库连接器等方式实现。
2.数据转换:数据转换模块对抽取的数据进行清洗、整合和转换。
清洗可以包括去除重复数据、填补缺失值、修复错误数据等操作;整合可以将来自不同数据源的数据进行统一格式化;转换可以将数据从一种结构转换为另一种结构,例如将数据从关系型数据库转换为多维模型。
3.数据加载:数据加载模块将经过转换的数据加载到数据仓库中。
辨析数仓、大数据、数据中台的实质本人断断续续从事数据仓库约有五六年经验,在移动公司前三年是负责数据仓库项目实施,后四年开发搞大数据平台,见证了从传统数据仓库转型到大数据平台的全历程,见证了大数据平台从0到1的全部过程,包括第一个MPP 数据集市、第一个Hadoop集群项目、第一个流式数据处理项目,第一个完整的大数据平台的融合和构建,混搭式大数据平台的融合构建,大数据平台的迁移等等,我所经历的大数据平台从规模说大不大说小不小,每天处理数据量将近20T(实时处理月10T左右),总集群约300台(其中Hadoop节点约200台),总容量约8P,实际使用容量约5P;包括了从数据仓库到大数据平台数据模型的重构,数据模型的拓展;也包括了大数据平台提供各种对内应用的规划,和向外提供大数据应用。
因此对数据仓库和大数据平台的优缺点、各自存在的问题、疑惑、发展方向,也算有一定的认知,包括对新生的数据中台的发展方向,结合自己过往的经验,谈谈自己的一些想法。
1什么是数据中台?说实在的,互联网是制造新名词的地方,现在各种新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑;企业层面的有数字化转型、互联网经济,数字经济、数字平台;平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱;技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…在比拼新经济的过程中,其实比拼的是流量也就是用户,但流量不等于用户,用户也不完全等同于流量;有了流量和用户,就等于比拼了对用户的话语权。
各种互联网概念也是如此,单纯从传统的数据仓库或是大数据平台而言,金融或通信运营商在数据治理、数据管理、企业模型、应用效能、高可靠性上做的绝对不比BAT差的,但这些行业有着国企的内敛、同时承担了太多的安全、隐私、稳定要求,空有用户和数据,却很难对外发挥应有的作用,导致在整个信息技术行业内的话语权不高;互联网公司在对数据使用的灵活性、技术的前瞻性、经济效益的引导性、适度容错方面做的远远超出其他行业,所以行业之间的相互吸收和借鉴也是值得探讨的。
新名词的推出,要被大众所能接受,在背后是要有话语权支撑的,而目的当然只有利益了,也不排除个别技术人员自己美好的想法和初衷。
回到正文,不管怎么说,数据中台这个概念已逐步火了起来,但数据中台是什么?1、数据中台是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。
2、数据中台是一套可持续“让企业的数据用起来”的机制,一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制。
3、数据中台连接数据前台和后台,突破数据局限,为企业提供更灵活、高效、低成本的数据分析挖掘服务,避免企业为满足具体某部门某种数据分析需求而投放大量高成本、重复性的数据开发成本。
4、数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。
5、数据中台,包括平台、工具、数据、组织、流程、规范等一切与企业数据资产如何用起来所相关的。
以上概念是从互联网上搜索并拷贝出来的,总的来说中台也好,数据中台也好,还缺乏一个标准的定义,仅从字面上理解,数据中台是解决如何用好数据的问题,既然是概念,数据中台也被赋予了很多扩大的外延,也上升到了数据的采集、计算、存储、加工和数据治理等方面,这就和传统的大数据平台在功能和作用上产生了很大的重叠;而大数据平台又是从数据仓库发展起来的。
那到底这三者的关系是怎么样的呢?个人认为数据中台就是数据服务化,服务化的核心是数据模型化和服务组件化,服务化的基础是大数据平台。
2数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和全局信息共享。
所谓主题:是指用户使用数据仓库进行决策时所关心的重点方面,如:收入、客户、销售渠道等;所谓面向主题,是指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。
所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。
所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。
通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库的主题建模思想是:1. 面向主题:采用范式模型理论中的主题划分方法对业务数据进行分类。
2. 一致性保证:采用维度模型理论中的总线结构思想,建立统一的一致性维度表和一致性事实表来保证一致性。
3. 数据质量保证:无论范式建模还是维度建模都非常重视数据质量问题,综合使用两个理论中的方法保证数据质量。
4. 效率保证:合理采取维度退化、变化维、增加冗余等方法,保证数据的计算和查询效率。
中国移动的经营分析系统数据仓库基础数据反映了省级经营分析系统涉及的中国移动核心数据,包括参与人、事件、服务、资源、帐务、营销和财务七大主题域,并依据实体-关系理论,遵照第三范式进行建模。
汇总数据来源于对基础数据中的常用指标数据进行轻量汇总,并对关键业务实体进行标准化处理。
汇总数据服务于信息子层,用以减少数据转换步骤,提高数据提供的效率。
信息子层是经营分析系统加工后的结果数据,通过数据封装服务,对外提供统一的信息视图。
汇总数据逻辑模型体现了基础数据中部分数据的轻度汇总。
汇总数据逻辑模型的设计采用自底而上和自顶向下两种方法相结合,首先将清单等汇总形成清单汇总,然后对应信息子层的数据需求,设计个人客户、集团客户、他网客户等主题的汇总。
信息子层逻辑模型的设计采用自顶向下方法,通过分析数据封装和业务规范的需求,形成基础数据视图(如KPI、报表)、个人客户、集团客户、家庭客户、他网客户、产品、渠道、终端、校园客户、垃圾短信客户、网络和营销资源统一视图。
信息子层逻辑模型的设计采用自顶向下方法,通过分析数据封装和业务规范的需求,形成基础数据视图(如KPI、报表)、个人客户、集团客户、家庭客户、他网客户、产品、渠道、终端、校园客户、垃圾短信客户、网络和营销资源统一视图。
数据集市是?数据集市将数据仓库中的数据按照不同角度进行组织和存储,主要面向地市分公司或者特定业务部门、特定需求的业务,建立相应的应用专题。
数据集市的特点是数据粒度较粗,数据采取星型或雪花型结构,较少保留历史数据,便于访问分析和快速查询。
数据集市具有面向特定用户群、合理的查询响应时间、便于扩展的特点。
数据集市目前细分为地市数据集市和专业数据集市,其中专业数据集市又分为增值业务数据集市、集团客户数据集市和互联网数据集市。
数据集市通常是数据仓库的子集;它等数据通常来自数据仓库–尽管还可以来自其他来源。
数据集市的数据专门针对特定的用户社区,以便他们能够快速找到所需的数据。
通常,数据保存在那里用于特定用途,例如财务分析。
数据湖是什么?数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。
数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。
数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。
如果没做好企业数据模型构建,我个人认为数据湖是懒人数仓。
3大数据平台大数据平台是什么?企业级大数据平台实现结构化、半结构化和非结构化数据统一存储计算功能,通过数据封装提供服务功能,提供自助报表工具,面向市场、网络以及企业外部提供服务。
•数据采集中心:负责采集多样化数据。
•数据计算存储中心:负责对数据进行加工、转换和汇总等工作,并将数据加载到不同的存储系统中。
•开放共享中心:统一数据服务接口。
•数据管理中心:负责系统数据的元数据、数据质量、数据模型和数据安全管理。
•运营管控中心:负责系统运行任务的编排、调度,以及设备、平台和应用的全景运维监控视图。
随着平台厂家和应用厂家的分离,应用的凸显,为了实现数据价值,以数据应用为中心构建企业数据模型,为实现内外部应用支撑,又建设了开放共享平台,提供数据服务和Open API服务,为了支持多应用厂家协作开发,又提供了多租户管理,安全管理、数据目录管理。
但在构建过程上缺乏标准化,大家看看是不是这就是数据中台的雏形。
3什么是数据中台?数据中台是数据服务工厂。
数据中台对于业务的价值是“加速从数据到价值的过程,提高企业的响应能力“。
数据中台对是聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念。
后文是对数据仓库、大数据平台、数据中台的一些总结性的架构材料,也是对自己这些年来的一些汇总和思考吧,看懂了前面的文字,后面的各种架构图也就无需赘述了。
数据仓库硬件架构数据仓库包括了文件服务器、调度服务器、数据仓库服务器、数据集市服务器、邮件服务器、4A认证服务器、应用服务器、数据备库,后来发展到分布式调度、MPP,都是一点点演进出来的。
数据仓库功能架构数据仓库技术架构第一个Hadoop平台硬件架构每天接入5T上网信令1、小机+数据库计算存储能力不足2、小机+数据库扩容成本太高3、单机文件采集吞吐量不足主要是为了解决海量离线数据的计算和存储,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储。
Hadoop管理和存储集群:负责海量数据存储和计算分布式文件采集集群:负责海量数据的文件采集分布式ETL调度集群:负责海量数据的ETL编排和调度应用服务器:负责应用系统的构建MySQL服务器:负责报表层数据的存储。
第一个流式处理平台硬件架构每天接入7T上网信令+5T位置信令1、对信令的实时采集2、对信令的实时计算3、对信令的实时事件捕捉主要是为了解决海量实时数据的流式采集和计算,在Hadoop集群中实现明细数据、汇总数据存储,在mysql中实现报表数据存储;并通过实时事件处理集群实现流式事件的匹配。
Kafka集群:负责将信令数据或数据库日志数据转入消息队列供下游消费实时事件处理集群:负责获取消息队列数据,并进行数据实时统计和实时计算实时服务集群:负责将实时事件数据放入redis缓存中,并结合静态数据进行结果输出。
▍大数据平台系统规划▍数据中台结论数据仓库实现了企业数据模型的构建,大数据平台解决了海量、实时数据的计算和存储问题,数据中台要解决什么呢?数据如何安全的、快速的、最小权限的、且能够溯源的被探测和快速应用的问题。