CDH-HDP-MAPR-DKH-星环组件比较

格式：docx
大小：25.94 KB
文档页数：7

下载文档原格式

/ 7

从CDH和HDP到CDP看大数据平台架构的演进

从CDH和HDP到CDP看大数据平台架构的演进近年来，随着大数据技术的快速发展，大数据平台架构也经历了多次演进。

本文将从CDH和HDP这两个代表性的大数据平台产品，再到CDP这种全新的架构，来探讨大数据平台架构的发展脉络。

一、CDH和HDP的出现CDH（Cloudera's Distribution Including Apache Hadoop）和HDP （Hortonworks Data Platform）是业内最早出现的两种大数据平台产品。

它们的出现可以追溯到大数据技术初期，主要基于Apache Hadoop生态系统。

首先，CDH和HDP基于分布式文件系统HDFS（Hadoop Distributed File System），可以高效地存储和管理海量数据。

同时，它们还具备了处理大数据的计算框架MapReduce，使得用户可以方便地进行数据分析和处理。

其次，CDH和HDP还包含了其他一些核心组件，如HBase、Hive和Pig等。

这些组件能够满足用户在实际应用中的不同需求，从而构建出完整的大数据处理和分析平台。

然而，随着大数据技术的不断发展和用户需求的不断增加，CDH和HDP在某些方面已经显现出一些不足之处，这也推动了大数据平台架构的演进。

二、大数据平台的演进：从CDH和HDP到CDPCDP（Cloudera Data Platform）是近年来新兴的大数据平台架构，它对传统的CDH和HDP进行了全面升级和优化。

首先，CDP将传统的HDFS分布式文件系统升级为CDS（Cloudera Data Storage）。

相比于HDFS，CDS具有更高的可靠性和扩展性，能够更好地应对大规模数据存储和管理的需求。

其次，CDP引入了SDX（Shared Data Experience）的概念。

SDX能够提供统一的数据安全和管理，确保数据在不同的组件和应用之间的一致性和可靠性。

这一点在多租户环境下特别重要，可以减少管理工作的复杂性。

Hadoop 生态系统介绍

Hadoop 生态系统介绍Hadoop生态系统是一个开源的大数据处理平台，它由Apache基金会支持和维护，可以在大规模的数据集上实现分布式存储和处理。

Hadoop生态系统是由多个组件和工具构成的，包括Hadoop 核心，Hive、HBase、Pig、Spark等。

接下来，我们将对每个组件及其作用进行介绍。

一、Hadoop核心Hadoop核心是整个Hadoop生态系统的核心组件，它主要由两部分组成，一个是Hadoop分布式文件系统（HDFS），另一个是MapReduce编程模型。

HDFS是一个高可扩展性的分布式文件系统，可以将海量数据存储在数千台计算机上，实现数据的分散储存和高效访问。

MapReduce编程模型是基于Hadoop的针对大数据处理的一种模型，它能够对海量数据进行分布式处理，使大规模数据分析变得容易和快速。

二、HiveHive是一个开源的数据仓库系统，它使用Hadoop作为其计算和存储平台，提供了类似于SQL的查询语法，可以通过HiveQL 来查询和分析大规模的结构化数据。

Hive支持多种数据源，如文本、序列化文件等，同时也可以将结果导出到HDFS或本地文件系统。

三、HBaseHBase是一个开源的基于Hadoop的列式分布式数据库系统，它可以处理海量的非结构化数据，同时也具有高可用性和高性能的特性。

HBase的特点是可以支持快速的数据存储和检索，同时也支持分布式计算模型，提供了易于使用的API。

四、PigPig是一个基于Hadoop的大数据分析平台，提供了一种简单易用的数据分析语言（Pig Latin语言），通过Pig可以进行数据的清洗、管理和处理。

Pig将数据处理分为两个阶段：第一阶段使用Pig Latin语言将数据转换成中间数据，第二阶段使用集合行处理中间数据。

五、SparkSpark是一个快速、通用的大数据处理引擎，可以处理大规模的数据，支持SQL查询、流式数据处理、机器学习等多种数据处理方式。

CDH-HDP-MAPR-DKH-星环组件比较

38、Transwarp Inceptor
简介：由Apache Spark改写，Transwarp Inceptor交互式分析引擎提供高速SQL分析和R语言数据挖掘能力，可帮助企业建立高速可扩展的数据仓库和/ 或数据集市，结合多种报表工具提供交互式数据分析、即时报表和可视化能力。星环开发。
29、Tez
简介：Tez支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分形成一个大的DAG作业。
30、Apache Drill
简介：Apache Drill是一个低延迟的分布式海量数据（涵盖结构化、半结构化以及嵌套数据）交互式查询引擎，使用ANSI SQL兼容语法。
36、Sahara
简介：Sahara旨在为用户提供简单部署Hadoop集群的能力，提供在OpenStack上快速配置和部署Hadoop集群的能力。
37、Myriad0.1.0
简介：Myriad是一个Mesos框架用来动态扩展YARN集群，并支持运行Hadoop应用，如Spark和非Hadoop应用，如Node.js、Memcached、RoR等。
14、Cloudera Manager
简介：CDH集群安装管理工具。Cloudera开发。
15、kafka
简介：消息队列组件。已经开源。
16、Storm
简介：流数据处理组件。
17、Elasticsearch
简介：基于Lucene的全文搜索服务器。已开源。
18、ESSQL
简介：基于Elasticsearch的SQL工具，大快开发。
2、Hbase
简介：键-值非关系型数据库，apache社区开源。是Google的Bigtable一个开源的实现。

大数据平台：HDP，CDH

⼤数据平台：HDP，CDH
HDP:
(1) 介绍：
HDP全称叫做Hortonworks Data Platform。

Hortonworks数据平台是⼀款基于Apache Hadoop的是开源数据平台，提供⼤数据云存储，⼤数据处理和分析等服务。

该平台是专门⽤来应对多来源和多格式的数据，并使其处理起来能变成简单、更有成本效益。

HDP还提供了⼀个开放，稳定和⾼度可扩展的平台，使得更容易地集成Apache Hadoop的数据流业务与现有的数据架构。

该平台包括各种的Apache Hadoop项⽬以及Hadoop分布式⽂件系统（HDFS）、MapReduce、Pig、Hive、HBase、Zookeeper和其他各种组件，使Hadoop的平台更易于管理，更加具有开放性以及可扩展性。

（2）平台架构：
CDH:
（1）介绍：
Cloudera版本（Cloudera Distribution Hadoop，简称“CDH”），还有其他的版本，⽬前中国公司我发现⽤的CDH版本较多。

（2）平台架构：
HDP与CDH对⽐：
tips:
1. CDH⽀持的存储组件更丰富
2. HDP⽀持的数据分析组件更丰富
3. HDP对多维分析及可视化有了⽀持，引⼊Druid和Superset
4. HDP的HBase数据使⽤Phoenix的jdbc查询；CDH的HBase数据使⽤映射Hive到Impala的jdbc查询，但分析数据可以存储Impala内部
表，提⾼查询响应
5. 多维分析Druid纳⼊集群，会⽅便管理；但可视化⼯具Superset可以单独安装使⽤
6. CDH没有时序数据库，HDP将Druid作为时序数据库使⽤。

hadoop的生态体系及各组件的用途

hadoop的生态体系及各组件的用途
Hadoop是一个生态体系，包括许多组件，以下是其核心组件和用途：
1. Hadoop Distributed File System (HDFS)：这是Hadoop的分布式文件系统，用于存储大规模数据集。

它设计为高可靠性和高吞吐量，并能在低成本的通用硬件上运行。

通过流式数据访问，它提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

2. MapReduce：这是Hadoop的分布式计算框架，用于并行处理和分析大规模数据集。

MapReduce模型将数据处理任务分解为Map和Reduce两个阶段，从而在大量计算机组成的分布式并行环境中有效地处理数据。

3. YARN：这是Hadoop的资源管理和作业调度系统。

它负责管理集群资源、调度任务和监控应用程序。

4. Hive：这是一个基于Hadoop的数据仓库工具，提供SQL-like查询语言和数据仓库功能。

5. Kafka：这是一个高吞吐量的分布式消息队列系统，用于实时数据流的收集和传输。

6. Pig：这是一个用于大规模数据集的数据分析平台，提供类似SQL的查询语言和数据转换功能。

7. Ambari：这是一个Hadoop集群管理和监控工具，提供可视化界面和集群配置管理。

此外，HBase是一个分布式列存数据库，可以与Hadoop配合使用。

HBase 中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

cloudera data platform使用

cloudera data platform使用（原创版）目录1.Cloudera Data Platform 简介2.Cloudera Data Platform 的主要组件3.Cloudera Data Platform 的应用场景4.Cloudera Data Platform 的优势与不足5.总结正文【1.Cloudera Data Platform 简介】Cloudera Data Platform（CDP）是 Cloudera 公司推出的一款大数据平台，它集成了数据存储、数据处理、数据分析和机器学习等多种功能，帮助企业实现数据的采集、存储、处理、分析和应用。

CDP 的目标是让企业能够更加高效地管理和利用海量数据，从而实现数据驱动的业务决策。

【2.Cloudera Data Platform 的主要组件】CDP 由以下几个主要组件构成：1.Cloudera Manager：Cloudera Manager 是 CDP 的管理界面，通过它，用户可以对整个平台进行监控、管理和配置。

2.Cloudera Data Platform (CDH)：CDH 是 CDP 的核心组件，它集成了 Hadoop、Spark、Hive、Pig、Flink 等大数据处理技术，提供了丰富的数据处理和分析功能。

3.Cloudera Data Warehouse (CDW)：CDW 是 CDP 的数据仓库组件，它提供了高效的数据存储和查询功能，支持 SQL 查询和机器学习模型的训练。

4.Cloudera Analytics Platform (CAP)：CAP 是 CDP 的数据分析和机器学习组件，它提供了可视化的数据分析工具和丰富的机器学习算法，支持实时和离线的数据分析。

5.Cloudera Collaborative Data Platform (CCP)：CCP 是 CDP 的数据共享和协作组件，它提供了安全的数据共享和协作功能，支持多种数据格式和协议。

Hadoop生态圈各个组件简介

Hadoop⽣态圈各个组件简介Hadoop是⼀个能够对⼤量数据进⾏分布式处理的软件框架。

具有可靠、⾼效、可伸缩的特点。

Hadoop的核⼼是HDFS和MapReduce,HDFS还包括YARN。

1.HDFS(hadoop分布式⽂件系统)是hadoop体系中数据存储管理的他是⼀个基础。

它是⼀个⾼度容错的的系统，能检测和应对硬件故障。

client:切分⽂件，访问HDFS，与之交互，获取⽂件位置信息，与DataNode交互，读取和写⼊数据。

namenode:master节点，在hadoop1.x中只有⼀个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。

DataNode：slave节点，存储实际的数据，汇报存储信息给namenode.secondary namenode:辅助namenode,分担其⼯作量：定期合并fsimage和fsedits,推送给namenode;紧急情况下和辅助恢复namenode,但其并⾮namenode的热备。

2.mapreduce(分布式计算框架)mapreduce是⼀种计算模型，⽤于处理⼤数据量的计算。

其中map对应数据集上的独⽴元素进⾏指定的操作，⽣成键-值对形式中间，reduce则对中间结果中相同的键的所有的值进⾏规约，以得到最终结果。

jobtracker：master节点，只有⼀个管理所有作业，任务/作业的监控，错误处理等，将任务分解成⼀系列任务，并分派给tasktracker. tacktracker:slave节点，运⾏map task和reducetask;并与jobtracker交互，汇报任务状态。

map task:解析每条数据记录，传递给⽤户编写的map()执⾏，将输出结果写⼊到本地磁盘（如果为map-only作业，则直接写⼊HDFS）。

reduce task:从map的执⾏结果中，远程读取输⼊数据，对数据进⾏排序，将数据分组传递给⽤户编写的reduce函数执⾏。

大数据处理中的常用工具和技术

大数据处理中的常用工具和技术随着互联网的快速发展，大数据处理已经成为了一个热门的话题。

在日常生活中，我们不断产生的数据量无处不在，如何有效地处理和分析这些海量数据成为了一个重要的挑战。

在大数据处理中，有许多常用的工具和技术可以帮助我们更好地处理和分析数据。

接下来，我将介绍一些常见的工具和技术。

1. Hadoop: Hadoop是一个开源的分布式计算平台，可以用于存储和处理大规模的数据。

它基于MapReduce算法，分为HDFS（Hadoop分布式文件系统）和MapReduce两个主要组件。

Hadoop提供了高性能、高可靠性的数据处理和存储能力，被广泛应用于大数据分析中。

2. Spark: Spark是另一个流行的大数据处理框架，它提供了内存计算的能力，相比于Hadoop更快速和高效。

Spark支持多种编程语言，如Java、Scala和Python，提供了丰富的API，方便用户处理和分析大数据。

3. SQL: SQL是结构化查询语言，用于管理和操作关系型数据库。

对于大数据处理来说，SQL仍然是一种很重要的工具。

许多大数据处理框架都支持使用SQL来查询和分析数据，比如Hive和Impala。

此外，还有一些专门用于大数据处理的SQL引擎，如Apache Drill和Presto。

4. NoSQL数据库: NoSQL数据库是一种非关系型数据库，在大数据处理中得到了广泛应用。

NoSQL数据库可以存储和处理非结构化或半结构化的数据，比如文档、键值对和图数据。

常见的NoSQL数据库包括MongoDB、Cassandra和Redis。

5.数据仓库:数据仓库是一个用于存储和管理大量结构化数据的数据库系统。

数据仓库可以提供快速的数据查询和分析，它通过将数据存储在专门的硬件设备上，并使用特定的存储和索引技术，提高数据的读写性能。

常见的数据仓库包括Teradata、Snowflake和Amazon Redshift。

6.数据可视化工具:数据可视化工具用于将大数据转换为可视化图表和仪表盘，以便更直观地展示和分析数据。

Hadoop三大核心组件及应用场景分析

Hadoop三大核心组件及应用场景分析Hadoop是一个开源的分布式计算平台，拥有良好的可扩展性和容错性，已成为大数据处理领域的领导者。

Hadoop的三大核心组件包括Hadoop分布式文件系统（HDFS）、MapReduce和YARN，本文将分别介绍它们的特点和应用场景。

一、HDFSHDFS是Hadoop分布式文件系统，是Hadoop的存储层。

它的设计灵感来源于Google的GFS（Google File System）。

HDFS将文件分割成块（Block）并存储在集群的不同节点上，块的大小通常为128MB。

这样，大文件可以并发地读取和写入，加快了数据处理的速度。

同时，HDFS具有高可靠性，它能够自动将数据复制到不同节点上，从而避免节点故障时数据的丢失。

HDFS常用于处理海量数据，例如日志分析、数据挖掘等。

在日志分析中，HDFS可以存储大量的日志数据，MapReduce处理日志数据并生成相应的统计结果。

在数据挖掘中，HDFS可以存储大量的原始数据，MapReduce处理数据并生成分析报告。

二、MapReduceMapReduce是Hadoop的计算框架，是Hadoop的处理层。

它的设计灵感来源于Google的MapReduce。

MapReduce将计算分解成两个过程：Map（映射）和Reduce（归约）。

Map过程将数据分割成小块并交给不同的节点处理，Reduce过程将不同节点处理的结果汇总起来生成最终的结果。

MapReduce适用于大规模的数据处理、批量处理和离线处理等场景。

例如，某电商公司需要对每个用户的操作行为进行分析，并生成商品推荐列表。

这种场景下，可以将用户的操作行为数据存储在HDFS中，通过MapReduce对数据进行分析和聚合，得到每个用户的偏好和行为模式，最终为用户生成相应的商品推荐列表。

三、YARNYARN（Yet Another Resource Negotiator）是Hadoop的资源管理框架，能够为分布式计算集群提供高效的资源管理和调度功能。

Hadoop生态圈的技术架构解析

Hadoop生态圈的技术架构解析Hadoop是一个开源的分布式计算框架，它可以处理大规模数据集并且具有可靠性和可扩展性。

Hadoop生态圈是一个由众多基于Hadoop技术的开源项目组成的体系结构。

这些项目包括Hadoop 组件以及其他与Hadoop相关的组件，例如Apache Spark、Apache Storm、Apache Flink等。

这些组件提供了不同的功能和服务，使得Hadoop生态圈可以满足各种不同的需求。

Hadoop生态圈的技术架构可以分为以下几层：1.基础设施层基础设施层是Hadoop生态圈的底层技术架构。

这一层包括操作系统、集群管理器、分布式文件系统等。

在这一层中，Hadoop 的核心技术——分布式文件系统HDFS（Hadoop Distributed File System）占据了重要位置。

HDFS是一种高度可靠、可扩展的分布式文件系统，它可以存储大规模数据集，通过将数据划分成多个块并存储在不同的机器上，实现数据的分布式存储和处理。

此外，Hadoop生态圈还使用了一些其他的分布式存储系统，例如Apache Cassandra、Apache HBase等。

这些系统提供了高可用性、可扩展性和高性能的数据存储和访问服务。

2.数据管理层数据管理层是Hadoop生态圈的中间层技术架构。

这一层提供了数据管理和数据处理的服务。

在这一层中，MapReduce框架是Hadoop生态圈最为重要的组件之一。

MapReduce框架是一种用于大规模数据处理的程序模型和软件框架，它可以将数据分解成多个小任务进行计算，并在分布式环境下执行。

MapReduce框架提供了自动管理任务调度、数据分片、容错等功能，可以处理大规模的数据集。

除了MapReduce框架，Hadoop生态圈中还有其他一些数据管理和数据处理技术，例如Apache Pig、Apache Hive、Apache Sqoop等。

这些组件提供了从数据提取、清洗和转换到数据分析和报告等各个方面的服务。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、组件比较：
二、组件简介：
1、Hadoop
简介：集群基础组件，分为存储（HDFS）和计算（Mapreduce）两大部分。

apache社区开源。

技术来源于2、Hbase
简介：键-值非关系型数据库，apache
3、Zookeeper
4、Spark
简介：内存计算框架，伯克利首先提出，现已开源。

5、Hive
简介：基于HDFS的SQL工具，facebook开发，后开源。

6、Hue
简介：图形化集群工具，cloudera开发，后开源。

7、Impala
简介：基于HDFS的SQL工具，cloudera开发，后开源。

8、Sqoop
简介：用于关系型数据库与NOSQL数据库之间的数据导入导出。

Cloudera开发，已开源。

9、Flume
简介：用于数据流的导入， Cloudera开发，已开源。

10、Oozie
简介：工作流系统，用于提交、监控集群作业。

Cloudera开发，已开源。

11、Solr
简介：基于Lucene的全文搜索服务器。

已开源。

12、Isilon
简介：基于OneFs操作系统的存储产品，美国赛龙公司开发，后属于EMC，一种集群存储方案。

13、K-V store indexer
简介：为HBase到solr的索引中间件，为NGDATA公司开发，已开源。

14、Cloudera Manager
简介：CDH集群安装管理工具。

Cloudera开发。

15、kafka
简介：消息队列组件。

已经开源。

16、Storm
简介：流数据处理组件。

17、Elasticsearch
简介：基于Lucene的全文搜索服务器。

已开源。

18、ESSQL
简介：基于Elasticsearch的SQL工具，大快开发。

19、DK-NLP
简介：自然语言处理组件。

大快开发，已开源。

20、DK-SPIDER
简介：分布式爬虫组件。

大快开发。

21、DKM
简介：集群安装管理工具。

大快开发。

22、DK-DMYSQL
简介：分布式MYSQL组件，大快改写。

23、Apache Falcon
简介：Falcon 是一个面向Hadoop的、新的数据处理和管理平台,设计用于数据移动、数据管道协调、生命周期管理和数据发现。

24、Apache Knox
简介：Apache knox是一个访问hadoop集群的restapi网关，它为所有rest访问提供了一个简单的访问接口点。

25、Apache Phoenix
简介：Phoenix 是HBase的SQL驱动。

26、Apache Pig
简介：Pig定义了数据流语言Pig Latin，它是MapReduce编程抽象。

27、Apache Ranger
简介：ranger是一个hadoop集群权限框架，提供操作、监控、管理复杂的数据权限，它提供一个集中的管理机制，管理基于yarn的hadoop生态圈的所有数据权限。

28、Apache Slider
简介：Slider 是一个 YARN 应用，用于发布已有的分布式应用到 YARN 上，并对这些应用进行监控以及根据需要调整规模。

29、Tez
简介：Tez支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分形成一个大的DAG 作业。

30、Apache Drill
简介：Apache Drill是一个低延迟的分布式海量数据（涵盖结构化、半结构化以及嵌套数据）交互式查询引擎，使用ANSI SQL兼容语法。

31、MapR-DB
简介：MapR开发
32、MapR Streams
简介：MapR开发
33、Mahout
简介：机器学习算法库，现已停止更新。

34、HttpFS
简介：Cloudera开发的基于http协议的HDFS操作组件。

35、Sentry
简介：Apache Sentry 是Cloudera公司发布的一个Hadoop开源组件，截止目前还是Apache的孵化项目，它提供了细粒度级、基于角色的授权以及多租户的管理模式。

36、Sahara
简介：Sahara旨在为用户提供简单部署Hadoop集群的能力，提供在OpenStack上快速配置和部署Hadoop集群的能力。

37、Myriad 0.1.0
简介：Myriad是一个Mesos框架用来动态扩展YARN集群，并支持运行Hadoop应用，如Spark和非Hadoop应用，如Node.js、Memcached、RoR等。

38、Transwarp Inceptor
简介：由Apache Spark改写，Transwarp Inceptor交互式分析引擎提供高速SQL分析和R语言数据挖掘能力，可帮助企业建立高速可扩展的数据仓库和/ 或数据集市，结合多种报表工具提供交互式数据分析、即时报表和可视化能力。

星环开发。

39、Transwarp Hyperbase
简介：Transwarp Hyperbase实时数据库是建立在Apache HBase基础之上，融合了多种索引技术、分布式事务处理、全文实时搜索、图形数据库在内的实时NoSQL数据库。

星环开发。

40、Transwarp Stream
简介：Transwarp Stream实时流处理引擎提供了强大的流计算表达能力，支持复杂的应用逻辑，生产系统的消息通过实时消息队列进入计算集群，在集群内以流水线方式被依次处理，完成数据转换、特征提取、策略检查、分析告警等复杂服务计算，最终输出到Hyperbase 等存储集群，实时生成告警页面、实时展示页面等。

星环开发。

41、Apache Ambari
简介：Ambari 创建、管理、监视 Hadoop 的集群，是为了让 Hadoop 以及相关的大数据软件更容易使用的一个web工具。

CDH-HDP-MAPR-DKH-星环组件比较

合集下载

从CDH和HDP到CDP看大数据平台架构的演进

Hadoop 生态系统介绍

CDH-HDP-MAPR-DKH-星环组件比较

大数据平台：HDP，CDH

hadoop的生态体系及各组件的用途

cloudera data platform使用

Hadoop生态圈各个组件简介

大数据处理中的常用工具和技术

Hadoop三大核心组件及应用场景分析

Hadoop生态圈的技术架构解析

文档推荐

最新文档