大数据分析工具

  • 格式:docx
  • 大小:18.34 KB
  • 文档页数:2

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

大数据分析工具

概述

大数据可以概括为4个V,数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值密度低(Veracity)。大数据作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析也应运而生。

谷歌自始至终都认为数据是越多越好,用谷歌产品研发总监Peter Norvig的话就是:更多的数据胜过更好的算法。大数据领袖谷歌,于2003年起发布一系列论文:《The Google File System 》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》战火被点燃,从此进入大数据时代。2010年,谷歌又发布了论文:《Dremel: Interactive Analysis of Web Scale Datasets》。2012年,谷歌再次发表两篇论文:《F1 - The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business》、《Spanner: Google's Globally-Distributed Database》。

工具介绍

开源大数据生态圈

1、Hadoop HDFS、Hadoop MapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。Hadoop MapReduce不适合实时计算:任务分配Server不会将信息Push到计算Node,而是让计算Node 通过心跳去Pull任务。基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行。类似的JVM进程启停有5、6次之多。Reduce Task只能在所有Map Task完成之后才能启动。

2. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

一体机数据库/数据仓库

IBM PureData(Netezza), Oracle Exadata, SAP Hana等等。

数据仓库

Teradata AsterData, EMC GreenPlum, HP Vertica 等等。

数据集市

QlikView、Tableau 、国内永洪科技Yonghong Data Mart 等等。

前端展现

用于展现分析的前端开源工具有JasperSoft,Pentaho, Spagobi, Openi, Birt等等。

用于展现分析商用分析工具有Cognos, BO, Microsoft, Oracle,Microstrategy,QlikView、Tableau 、国内永洪科技Yonghong Z-Suite等等。

Yonghong Z-Suite

大数据底层技术:

1. 分布式计算

2. 分布式通信

3. 内存计算

4. 列存储

5. 库内计算

大数据BI系统并不仅仅是数据展现

1. 要能够掌握情况、分析问题、找到答案。

2. 前端系统的交互和分析能力要强大:过滤(Filter)、钻取(Drill)、刷取(Brush)、缩放(Zoom)、关联(Associate)、变换(Transform)、动态计算(Dynamic Calculation)、链接(Link)。

3. 数据挖掘、预测将变成重要的需求。

性能—最重要的功能?

1. 性能需要衡量交付一个BI应用的整体周期及难易程度。

2. 谨慎采用Cache、Preaggregation等不合乎直觉的技术:优化效果不稳定;难以管理,可能失去控制。

3. 性能最好不以牺牲粒度(Granularity)达到:粒度越细越好。

4. 海量数据,实时处理。

建设方向

1. 业务驱动优于数据驱动。

2. 自助式(Self-Service)的大数据BI系统。

建设原则

1. 敏捷开发原则(ADP):Agile Development Principle. 好系统不是一蹴而就,先切入进去再持续迭代。

2. 开闭原则(OCP):Open to Extension, Close to Modification. 减少BI应用对数据层的污染。

3. 依赖倒置原则(DIP):Dependency Inversion Principle. 合理架构,降低数据与应用之间的依赖度。

4. 里氏替换原则(LSP):Liskov Substitution Principle. 开放标准,使各模块的替换性好。