大数据模型构建平台介绍v1.0图文.ppt38
- 格式:ppt
- 大小:1.85 MB
- 文档页数:31
大数据系统体系架构(含图示)目录• 1 大数据体系架构图• 2 数据采集层• 3 数据计算层• 4 数据服务层• 5 数据应用层1 大数据体系架构图2 数据采集层1.阿里的的日志采集包括两大体系: Aplus.JS是Web端的日志采集技术方案,UserTrack是APP端的日志采集技术方案;2.在采集技术基础上,阿里用面向各个场景的埋点规范,来满足通用浏览、点击、特殊交互、APP事件、H5及APP里的H5和Native日志数据打通等多种业务场景;3.同时建立了一套高性能、高可靠性的数据传输体系,完成数据从生产业务端到大数据系统的传输;4.在传输方面,采用TimeTunnel(TT),它既包括数据库的增量数据传输,也包括日志数据的传输;作为数据传输服务的基础架构,既支持实时流式计算,也支持各种时间窗口的批量计算;5.另外,通过数据同步工具(DataX和同步中心,其中同步中心是基于DataX易用性封装的)直连异构数据库(备库)来抽取各种时间窗口的数据;3 数据计算层1.数据只有被整合和计算,才能被用于洞察商业规律,挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的;2.阿里的数据计算层包括两大体系:数据存储及计算云平台(离线计算平台 MaxCompute和实时计算平台StreamCompute )和数据整合及管理体系(“OneData ”);3.从数据计算频率角度来看,阿里数据仓库可以分为离线数据仓库和实时数据仓库。
离线数据仓库主要是指传统的数据仓库概念,数据计算频率主要以天(或小时、周和月)为单位,例如每天凌晨处理上一天的数据;但是随着业务的发展特别是交易过程的缩短,用户对数据产出的实时性要求逐渐提高,所以阿里的实时数据仓库应运而生,“双11 ”实时数据直播大屏,就是实时数据仓库的一种典型应用;4.阿里的数据仓库的数据加工链路遵循分层理念,包括操作数据层( Operational DataStore, ODS)、明细数据层( Data Warehouse Detail , DWD)、汇总数据层( Data Warehouse Summary, DWS )和应用数据层( Application Data Store, ADS )。