大数据之路 阿里巴巴大数据实践PPT
- 格式:pptx
- 大小:3.70 MB
- 文档页数:28
【PPT】四横三纵,阿⾥巴巴全域数据建设在2017杭州·云栖⼤会-阿⾥⼤数据分论坛上,阿⾥巴巴数据技术及产品部⾼级技术专家张磊发表了主题为《阿⾥巴巴全域数据建设》的演讲,分享了阿⾥在⼤数据领域沉淀的技术能⼒和应⽤实践。
阿⾥巴巴数据技术及产品部定位阿⾥数据中台:以全域⼤数据建设为中⼼,技术上覆盖整个⼤数据从采集、加⼯、服务、消费的全链路的各个环节,对内对外提供服务。
丰富的⼤数据⽣态组件,构成了阿⾥的核⼼数据能⼒,通过⼤数据⽣态组件,可以迅速的提升数据应⽤的迭代能⼒,⼈⼈都有可能成为⼤数据专家。
在全域数据建设过程中,还构建了阿⾥巴巴OneData体系作为⼤数据标准化规范,从⽅法论到落地实践;从对指标定义、数据研发、数据服务的⼝径管理到数据规范定义、模型规范定义、研发流程的规范化;每个环节均有对应⼯具进⾏严格保障,并做到⽅便管理、问题追溯。
数据中台-阿⾥数据技术及产品部定位2016年阿⾥巴巴集团提出中台概念,阿⾥巴巴数据技术及产品部承载了集团数据中台的⼯作,其核⼼就是建设全域⼤数据。
◎从内容上看,我们管理和运维着阿⾥巴巴集团最核⼼的基础数据;◎从技术上看,我们覆盖了从数据采集、计算加⼯到数据服务、数据应⽤等数据链路上的每⼀个环节,为阿⾥⽣态内外的业务、⽤户、中⼩企业提供全链路、全渠道的数据服务。
举个例⼦,被⼤家熟知的双11当天可见炫酷数据⼤屏就是由我们部门负责的。
【阿⾥数据中台全景图】上图是阿⾥数据中台的全景图,从这个图中我们可以看见实际上阿⾥数据中台在架构的组成上,呈现了⼀个“四横三纵”的结构,底层的基础设施来⾃于阿⾥云平台。
◎先来讲四横——整张架构图从下往上看,最下⾯这块内容主要从数据采集和接⼊为⾓度,按照业态接⼊数据(⽐如淘宝、天猫、盒马等),我们把这些数据抽取到计算平台;接着通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中⼼”;再基于公共数据中⼼在上层根据业务需求去建设:消费者数据体系、企业数据体系、内容数据体系等;经过深度加⼯后,数据就可以发挥其价值被产品、业务所⽤;最后通过统⼀的数据服务中间件“OneService”提供统⼀数据服务。
阿⾥巴巴⼤数据之路——数据技术篇⼀、整体架构 从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层 数据采集层:以DataX为代表的数据同步⼯具和同步中⼼ 数据计算层:以MaxComputer为代表的离线数据存储和计算平台 数据服务层:以RDS为代表的数据库服务(接⼝或者视图形式的数据服务) 数据应⽤层:包含流量分析平台等数据应⽤⼯具⼆、数据采集(离线数据同步) 数据采集主要分为⽇志采集和数据库采集。
⽇志采集暂略(参考书籍原⽂)。
我们主要运⽤的是数据库采集(数据库同步)。
通常情况下,我们需要规定原业务系统表增加两个字段:创建时间、更新时间(或者⾄少⼀个字段:更新时间) 数据同步主要可以分为三⼤类:直连同步、数据⽂件同步、数据库⽇志解析同步 1.直连同步 通过规范好的接⼝和动态连接库的⽅式直接连接业务库,例如通过ODBC/JDBC进⾏直连 当然直接连接业务库的话会对业务库产⽣较⼤压⼒,如果有主备策略可以从备库进⾏抽取,此⽅式不适合直接从业务库到数仓的情景 2.数据⽂件同步 从源系统⽣成数据⽂本⽂件,利⽤FTP等传输⽅式传输⾄⽬标系统,完成数据的同步 为了防⽌丢包等情况,⼀般会附加⼀个校验⽂件,校验⽂件包含数据量、⽂件⼤⼩等信息 为了安全起见还可以加密压缩传输,到⽬标库再解压解密,提⾼安全性 3.数据库⽇志同步 主流数据库都⽀持⽇志⽂件进⾏数据恢复(⽇志信息丰富,格式稳定),例如Oracle的归档⽇志 (数据库相关⽇志介绍,参考:) 4.阿⾥数据仓库同步⽅式 1)批量数据同步 要实现各种各样数据源与数仓的数据同步,需要实现数据的统⼀,统⼀的⽅式是将所有数据类型都转化为中间状态,也就是字符串类型。
以此来实现数据格式的统⼀。
产品——阿⾥DataX:多⽅向⾼⾃由度异构数据交换服务产品,产品解决的主要问题:实现跨平台的、跨数据库、不同系统之间的数据同步及交互。
产品简介: 开源地址: 更多的介绍将会通过新开随笔进⾏介绍!(当然还有其他主流的数据同步⼯具例如kettle等!) 2)实时数据同步 实时数据同步强调的是实时性,基本原理是通过数据库的⽇志(MySQL的bin-log,Oracle的归档⽇志等)实现数据的增量同步传输。