hadoop基本概念

格式：pdf
大小：834.94 KB
文档页数：10

hadoop基本概念
一、hadoop基本概念
hadoop包括两个核心组成：
HDFS：分布式文件系统，存储海量的数据
MapReduce：并行处理框架，实现任务分解和调度。

整个HDFS三个重要角色：NameNode、DataNode和Client。

NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。

NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。

Client就是需要获取分布式文件系统文件的应用程序。

MapReduce 是现今一个非常流行的分布式计算框架，它被设计用于并行计算海量数据。

第一个提出该技术框架的是Google 公司，而Google 的灵感则来自于函数式编程语言，如LISP，Scheme，ML 等。

MapReduce 框架的核心步骤主要分两部分：Map 和Reduce。

当你向MapReduce 框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map 任务，然后分配到不同的节点上去执行，每一个Map 任务处理输入数据中的一部分，当Map 任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce 任务的输入数据。

Reduce 任务的主要目标就是把前面若干个Map 的输出汇总到一起并输出。

二、hadoop运行机制
关于hadoop的运行机制，这里由于笔者还没真正弄透彻，只是知道一个大致的处理思想。

下面就贴几张比较形象的图片：HDFS：
文件写入：
Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

文件读取：
Client向NameNode发起文件读取的请求。

NameNode返回文件存储的DataNode的信息。

Client读取文件信息。

文件Block复制：
NameNode发现部分文件的Block不符合最小复制数或者部分DataNode失效。

通知DataNode相互复制Block。

DataNode开始直接相互复制。

MapReduce工作原理：
一切都是从最上方的user program开始的，user program链接了MapReduce库，实现了最基本的Map函数和Reduce 函数。

MapReduce库先把user program的输入文件划分为M份（M为用户定义），每一份通常有16MB到64MB，如图左方所示分成了split0~4(文件块)；然后使用fork将用户进程拷贝到集群内其它机器上。

user program的副本中有一个称为master，其余称为worker，master是负责调度的，为空闲worker分配作业（Map作业或Reduce作业），worker数量可由用户指定的。

被分配了Map作业的worker，开始读取对应文件块的输入数据，Map作业数量是由M决定的，和split一一对应；Map
作业(包含多个map函数)从输入数据中抽取出键值对，每一个键值对都作为参数传递给map函数，map函数产生的中间键值对被缓存在内存中。

缓存的中间键值对会被定期写入本地磁盘。

主控进程知道Reduce的个数，比如R个（通常用户指定）。

然后主控进程通常选择一个哈希函数作用于键并产生0~R-1个桶编号。

Map任务输出的每个键都被哈希起作用，根据哈希结果将Map的结果存放到R个本地文件中的一个（后来每个文件都会指派一个Reduce任务）。

master通知分配了Reduce作业的worker它负责的分区在什么位置。

当Reduce worker把所有它负责的中间键值对都读过来后，先对它们进行排序，使得相同键的键值对聚集在一起。

因为不同的键可能会映射到同一个分区也就是同一个Reduce 作业（谁让分区少呢），所以排序是必须的。

reduce worker遍历排序后的中间键值对，对于每个唯一的键，都将键与关联的值传递给reduce函数，reduce函数产生的输出会添加到这个分区的输出文件中。

当所有的Map和Reduce作业都完成了，master唤醒正版的user program，MapReduce函数调用返回user program 的代码。

所有执行完毕后，MapReduce输出放在了R个分区的输出文件中（分别对应一个Reduce作业）。

用户通常并不需要合并这R个文件，而是将其作为输入交给另一个MapReduce程序处理。

整个过程中，输入数据是来自底层分布式文件系统（GFS）的，中间数据是放在本地文件系统的，最终输出数据是写入底层分布式文件系统（GFS）的。

而且我们要注意Map/Reduce 作业和map/reduce函数的区别：Map作业处理一个输入数据的分片，可能需要调用多次map函数来处理每个输入键值对；Reduce作业处理一个分区的中间键值对，期间要对每个不同的键调用一次reduce函数，Reduce作业最终也对应一个输出文件。

函数说明pid_t fork( void)
一个现有进程可以调用fork函数创建一个新进程。

由fork创建的新进程被称为子进程。

fork函数被调用一次但返回两次。

两次返回的唯一区别是子进程中返回0值而父进程中返回子进程ID。

子进程是父进程的副本，它将获得父进程数据空间、堆、栈等资源的副本。

注意，子进程持有的是上述存储空间的“副本”，这意味着父子进程间不共享这些存储空间。

三、单词统计源码分析
这里，笔者搭建一个简单的maven项目，添加hadoop依赖，将hadoop src下的单词计数代码迁移过来，稍作修改，结构如下：
pom.xml：
相关的解释已在注解中标明。

然后，运行mvn package便可打成jar包，再将此包上传到服务器，这里笔者放在200服务器的/root目录下。

四、运行单词统计并查看作业运行状态
启动hadoop后，运行hadoop jar /root/qyk_hadoop_1_wordcount-0.0.1-SNAPSHOT.jar input output，可以看到：
，
然后，运行hadoop fs -cat output/*，查看统计结果：
，最后访问http://172.31.26.200:50030/可以查看此次job运行的情况：
还可以点击查看任务运行详情：
本文作者：qiyongkang。

Hadoop - 介绍

FS/namespace/meta ops
Clint
NameNode
Second NameNode
Namespace backup
Heartbeats,balancing,replication etc
DataNode
Data serving
DataNode
DataNode
DataNode
DataNode
Google 云计算
MapReduce BigTable Chubby
GFS
Hadoop可以做什么？
案例1：我想知道过去100年中每年的最高温度分别是多少？
这是一个非常典型的代表，该问题里边包含了大量的信息数据。
针对于气象数据来说，全球会有非常多的数据采集点，每个采集点在24小时中会以不同的频率进行采样，并且以每年持续365 天这样的过程，一直要收集 100年的数据信息。然后在这 100年的所有数据中，抽取出每年最高的温度值，最终生成结果。该过程会伴随着大量的数据分析工作，并且会有大量的半结构化数据作为基础研究对象。如果使用高配大型主机（ Unix环境）计算，完成时间是以几十分钟或小时为单位的数量级，而通过 Hadoop完成，在合理的节点和架构下，只需要“秒”级。
HIVE
ODBC Command Line JDBC Thrift Server Metastore Driver （Compiler,Optimizer,Executor ） Hive 包括
元数据存储（Metastore）驱动（Driver）
查询编译器（Query Compiler）
1. HDFS（Hadoop分布式文件系统）
HDFS：源自于Google的GFS论文，发表于2003年10月， HDFS是GFS克隆版。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。 Client：切分文件；访问HDFS；与NameNode交互，获取文件位置信息；与DataNode交互，读取和写入数据。 NameNode：Master节点，在hadoop1.X中只有一个，管理HDFS的名称空间和数据块映射信息，配置副本策略，处理客户端请求。 DataNode：Slave节点，存储实际的数据，汇报存储信息给NameNode。 Secondary NameNode：辅助NameNode，分担其工作量；定期合并fsimage和fsedits，推送给NameNode；紧急情况下，可辅助恢复NameNode，但Secondary NameNode并非NameNode的热备。

hadoop 毕业论文

hadoop 毕业论文Hadoop技术在大数据处理中的应用摘要：随着社会信息的不断发展，数据的规模越来越庞大，传统数据处理方法已经无法满足这样的需求，这时候大数据处理技术应运而生。

而Hadoop作为大数据领域中的重要技术之一，受到了越来越多的关注。

本文主要介绍了Hadoop的概念、工作原理及其在大数据处理中的应用，也探讨了Hadoop在未来的发展方向。

关键词：Hadoop；大数据处理；MapReduce；分布式文件系统一、引言随着科技和信息技术的迅速发展，我们产生的数据越来越多，数据量大，类型多，处理难度大。

在过去，大数据处理主要采用的是传统的关系型数据库方法，这种方式已经无法满足当今信息日益增长的需求，于是大数据处理技术应运而生。

随着大数据处理技术的逐渐成熟，颇受市场的青睐和社会的重视。

而Hadoop就是大数据处理技术中的一项重要技术，速度快、可扩展性好、可靠性高等特点受到了广泛关注。

本文将主要介绍Hadoop的基本概念，工作原理及其在大数据处理中的应用。

二、Hadoop的基本概念Hadoop是一个开源的分布式计算平台，可以有效地处理大数据，同时它也是一种分布式文件系统，可以在廉价商用计算机上实现分布式存储和计算。

它由Apache基金会开发和维护，其最初的设计目的是为了解决大规模数据集的计算问题。

Hadoop通常被分成两个主要的部分：Hadoop分布式文件系统(HDFS)和MapReduce。

1、Hadoop分布式文件系统(HDFS)HDFS是Hadoop的分布式文件系统，是一种设计用来在廉价硬件上存储大量数据的算法。

HDFS的设计架构采取了主从式的方式，通常被称为一个“NameNode+DataNode”的结构。

- NameNode: 管理文件系统的命名空间，维护文件系统中每个文件和目录的元数据信息；- DataNode：存储数据的节点。

在HDFS中，文件通常被分成若干个数据块进行存储，一个文件可以划分成很多数据块，并分发到不同的DataNode上，DataNode会在本地磁盘上存储这些数据块。

黑马程序员hadoop笔记

黑马程序员hadoop笔记Hadoop是当前最流行的大数据处理框架之一，具备高可靠性、高扩展性和高效性等特点。

本文将全面介绍Hadoop的相关内容，包括其基本概念、架构设计、应用场景以及使用方法等。

1. Hadoop的基本概念Hadoop是一个开源的分布式计算平台，其核心由Hadoop分布式文件系统（HDFS）和MapReduce计算框架组成。

HDFS采用主从架构，支持海量数据的分布式存储和处理；MapReduce则是一种分布式计算模型，提供了高效的数据处理能力。

2. Hadoop的架构设计Hadoop采用了分布式存储和计算的架构设计，主要包括主节点（NameNode）和多个工作节点（DataNode）组成。

主节点负责管理整个系统的元数据信息，存储在内存中，而工作节点则负责存储和计算任务的执行。

3. Hadoop的应用场景Hadoop广泛应用于大规模数据处理和分析领域。

它可以处理各种类型的数据，包括结构化数据、半结构化数据和非结构化数据等。

常见的应用场景包括日志分析、推荐系统、搜索引擎和数据仓库等。

4. Hadoop的使用方法使用Hadoop进行数据处理通常需要编写MapReduce程序，它由Mapper和Reducer两个组件组成。

Mapper负责将输入数据切分成若干键值对，然后执行相应的逻辑处理；Reducer负责对Mapper的输出结果进行归纳和聚合。

在编写MapReduce程序时，我们需要定义数据的输入和输出路径，并指定Mapper和Reducer的逻辑处理方式。

通过Hadoop提供的命令行工具和API，可以方便地操作Hadoop集群，提交任务并监控任务的执行状态。

本文对Hadoop的概念、架构设计、常见应用场景和使用方法进行了简要介绍。

Hadoop作为一种强大的大数据处理框架，具备高可靠性和高扩展性，适用于处理大规模数据和复杂计算任务。

通过深入学习和掌握Hadoop的知识，我们可以更好地应对现实中的数据挑战，并开展相关的数据分析和应用开发工作。

hadoop基本架构和工作原理

hadoop基本架构和工作原理Hadoop是一个分布式开源框架，用于处理海量数据。

它能够使用廉价的硬件来搭建集群，同时还提供了高度可靠性和容错性。

Hadoop基本架构包括Hadoop Common、Hadoop Distributed File System （HDFS）和Hadoop MapReduce三个部分，下面将详细介绍Hadoop的工作原理。

1. Hadoop CommonHadoop Common是整个Hadoop架构的基础部分，是一个共享库，它包含了大量的Java类和应用程序接口。

Hadoop集群的每一台机器上都要安装Hadoop Common，并保持相同版本。

2. HDFSHadoop Distributed File System（HDFS）是Hadoop的分布式文件存储部分。

它的目的是将大型数据集分成多个块，并且将这些块在集群中的多个节点间分布式存储。

HDFS可以实现高度可靠性，因为它将每个块在存储节点之间备份。

HDFS可以在不同的节点中进行数据备份，这确保了数据发生故障时，可以轻松恢复。

3. MapReduceHadoop MapReduce是一种编程模型，用于处理大型数据集。

它将处理任务分成两个主要阶段，即Map阶段和Reduce阶段。

在Map阶段，MapReduce将数据集分成小块，并将每个块分配给不同的节点进行处理。

在Reduce阶段，结果被聚合，以生成最终的输出结果。

总的来说，MapReduce作为Hadoop的核心组件，负责对数据集进行处理和计算。

它充当的角色是一个调度员，它会将不同的任务分发到集群中的不同节点上，并尽力保证每个任务都可以获得足够的计算资源。

Hadoop采用多种技术来提供MapReduce的分布式计算能力，其中包括TaskTracker、JobTracker和心跳机制等。

TaskTracker是每个集群节点的一个守护程序，负责处理MapReduce任务的具体实现。

下载提示

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

hadoop基本概念

合集下载

Hadoop - 介绍

hadoop 毕业论文

黑马程序员hadoop笔记

hadoop基本架构和工作原理

文档推荐

最新文档