Hadoop MapReduce教程

格式：doc
大小：195.00 KB
文档页数：28

下载文档原格式

/ 28

hadoop命令及使用方法

hadoop命令及使用方法Hadoop是一个分布式计算框架，用于存储和处理大规模数据集。

下面是一些常用的Hadoop命令及其使用方法：1. hdfs命令：- hdfs dfs -ls <路径>：列出指定路径下的文件和目录。

- hdfs dfs -mkdir <路径>：创建一个新的目录。

- hdfs dfs -copyFromLocal <本地路径> <HDFS路径>：将本地文件复制到HDFS 上。

- hdfs dfs -copyToLocal <HDFS路径> <本地路径>：将HDFS上的文件复制到本地。

- hdfs dfs -cat <文件路径>：显示HDFS上的文件内容。

2. mapred命令：- mapred job -list：列出当前正在运行的MapReduce作业。

- mapred job -kill <job_id>：终止指定的MapReduce作业。

3. yarn命令：- yarn application -list：列出当前正在运行的应用程序。

- yarn application -kill <application_id>：终止指定的应用程序。

4. hadoop fs命令（与hdfs dfs命令功能相似）：- hadoop fs -ls <路径>：列出指定路径下的文件和目录。

- hadoop fs -cat <文件路径>：显示HDFS上的文件内容。

- hadoop fs -mkdir <路径>：创建一个新的目录。

- hadoop fs -put <本地文件路径> <HDFS路径>：将本地文件复制到HDFS上。

- hadoop fs -get <HDFS路径> <本地文件路径>：将HDFS上的文件复制到本地。

Mapreduce实例——去重

Mapreduce实例——去重"数据去重"主要是为了掌握和利⽤并⾏化思想来对数据进⾏有意义的筛选。

统计⼤数据集上的数据种类个数、从⽹站⽇志中计算访问地等这些看似庞杂的任务都会涉及数据去重。

MaprReduce去重流程如下图所⽰：数据去重的最终⽬标是让原始数据中出现次数超过⼀次的数据在输出⽂件中只出现⼀次。

在MapReduce流程中，map的输出<key,value>经过shuffle过程聚集成<key,value-list>后交给reduce。

我们⾃然⽽然会想到将同⼀个数据的所有记录都交给⼀台reduce机器，⽆论这个数据出现多少次，只要在最终结果中输出⼀次就可以了。

具体就是reduce的输⼊应该以数据作为key，⽽对value-list则没有要求（可以设置为空）。

当reduce接收到⼀个<key,value-list>时就直接将输⼊的key复制到输出的key中，并将value设置成空值，然后输出<key,value>。

实验环境Linux Ubuntu 14.04jdk-7u75-linux-x64hadoop-2.6.0-cdh5.4.5hadoop-2.6.0-eclipse-cdh5.4.5.jareclipse-java-juno-SR2-linux-gtk-x86_64实验内容现有⼀个某电商⽹站的数据⽂件，名为buyer_favorite1，记录了⽤户收藏的商品以及收藏的⽇期，⽂件buyer_favorite1中包含（⽤户id，商品id，收藏⽇期）三个字段，数据内容以"\t"分割，由于数据很⼤，所以为了⽅便统计我们只截取它的⼀部分数据，内容如下：1. ⽤户id 商品id 收藏⽇期2. 10181 1000481 2010-04-04 16:54:313. 20001 1001597 2010-04-07 15:07:524. 20001 1001560 2010-04-07 15:08:275. 20042 1001368 2010-04-08 08:20:306. 20067 1002061 2010-04-08 16:45:337. 20056 1003289 2010-04-12 10:50:558. 20056 1003290 2010-04-12 11:57:359. 20056 1003292 2010-04-12 12:05:2910. 20054 1002420 2010-04-14 15:24:1211. 20055 1001679 2010-04-14 19:46:0412. 20054 1010675 2010-04-14 15:23:5313. 20054 1002429 2010-04-14 17:52:4514. 20076 1002427 2010-04-14 19:35:3915. 20054 1003326 2010-04-20 12:54:4416. 20056 1002420 2010-04-15 11:24:4917. 20064 1002422 2010-04-15 11:35:5418. 20056 1003066 2010-04-15 11:43:0119. 20056 1003055 2010-04-15 11:43:0620. 20056 1010183 2010-04-15 11:45:2421. 20056 1002422 2010-04-15 11:45:4922. 20056 1003100 2010-04-15 11:45:5423. 20056 1003094 2010-04-15 11:45:5724. 20056 1003064 2010-04-15 11:46:0425. 20056 1010178 2010-04-15 16:15:2026. 20076 1003101 2010-04-15 16:37:2727. 20076 1003103 2010-04-15 16:37:0528. 20076 1003100 2010-04-15 16:37:1829. 20076 1003066 2010-04-15 16:37:3130. 20054 1003103 2010-04-15 16:40:1431. 20054 1003100 2010-04-15 16:40:16要求⽤Java编写MapReduce程序，根据商品id进⾏去重，统计⽤户收藏商品中都有哪些商品被收藏。

阐述mapreduce的map函数输入输出格式

阐述mapreduce的map函数输入输出格式MapReduce 是一种编程模型，用于处理和生成大数据集。

在 MapReduce 中，数据集被分成小块，然后由多个 map 任务并行处理。

这些 map 任务的输出再经过 shuffle 和 sort，然后由 reduce 任务处理。

MapReduce 的 Map 函数的输入和输出格式如下：
1. 输入格式：
Map 函数的输入通常是一个键值对（key-value）的集合。

键和值可以是任何数据类型，但最常见的是字符串。

例如，一个简单的 MapReduce 任务可能处理文本文件，其中每行都是一个值，整行的内容作为键。

2. 输出格式：
Map 函数的输出也是键值对（key-value）的集合。

这些键值对会被排序和分区，然后传递给 Reduce 函数。

Map 函数输出的键值对的键会被用作Reduce 函数的输入键。

例如，考虑一个简单的单词计数任务。

Map 函数的输入可能是一个句子（作为键）和文本文件中的行（作为值）。

Map 函数的输出可能是每个单词（作为键）和该单词的出现次数（作为值）。

在 MapReduce 的执行过程中，Map 函数的输出会经过 shuffle 和 sort 阶段，以便相同的键值对能够被聚集在一起并传递给相应的 Reduce 任务。

mapreduce的map阶段和reduce阶段

mapreduce的map阶段和reduce阶段MapReduce是一个用于大数据处理的计算模型和编程框架，最初由Google公司开发并推出。

MapReduce的基本思想是利用并行计算和分布式存储的特点，将大规模的数据集分成若干个小部分，通过Map 函数将这些小部分独立地处理成一系列键值对，并通过Reduce函数合并这些键值对，形成最终的结果。

在MapReduce中，每个Map任务和Reduce任务都是独立的计算单元，可以在分布式计算集群中并行地执行，从而以极高的性能和可伸缩性处理海量数据。

MapReduce的Map阶段和Reduce阶段是这个计算模型的核心，下面分别进行详细的解释。

1. Map阶段在MapReduce中，Map阶段的主要作用是将原始数据抽象为一系列键值对，并输出到Reduce阶段进行处理。

在具体的实现中，Map函数会将输入的数据映射到一组中间结果中，并将这些结果输出到Reduce函数中处理。

Map函数的输入和输出都是键值对形式的数据，其中输入通常是一条记录，输出通常是若干个键值对。

Map函数的实现通常是通过编写一个Map任务，并将这个任务分发到MapReduce框架的计算节点中执行。

在Map任务中，会对每条输入数据进行处理，将它分解成若干个键值对，并输出到Reduce函数进行处理。

在具体的实现中，Map任务的输入可以来源于分布式文件系统中的一个或多个数据块，输出可以保存到分布式文件系统中的一个或多个文件中。

2. Reduce阶段在MapReduce中，Reduce阶段的主要作用是将Map阶段输出的中间结果进行合并，并输出最终的计算结果。

在具体的实现中，Reduce 函数会接收Map阶段输出的一组键值对，并将它们分组处理成一组新的键值对，形成最终的输出结果。

Reduce函数的实现通常是通过编写一个Reduce任务，并将这个任务分发到MapReduce框架的计算节点中执行。

在Reduce任务中，会对所有输入数据进行汇总和合并处理，并输出最终的结果。

《Hadoop大数据开发实战》教学教案(全)

《Hadoop大数据开发实战》教学教案（第一部分）一、教学目标1. 理解Hadoop的基本概念和架构2. 掌握Hadoop的安装和配置3. 掌握Hadoop的核心组件及其作用4. 能够搭建简单的Hadoop集群并进行基本的操作二、教学内容1. Hadoop简介1.1 Hadoop的定义1.2 Hadoop的发展历程1.3 Hadoop的应用场景2. Hadoop架构2.1 Hadoop的组成部分2.2 Hadoop的分布式文件系统HDFS2.3 Hadoop的计算框架MapReduce3. Hadoop的安装和配置3.1 Hadoop的版本选择3.2 Hadoop的安装步骤3.3 Hadoop的配置文件解读4. Hadoop的核心组件4.1 NameNode和DataNode4.2 JobTracker和TaskTracker4.3 HDFS和MapReduce的运行原理三、教学方法1. 讲授法：讲解Hadoop的基本概念、架构和组件2. 实践法：引导学生动手实践，安装和配置Hadoop，了解其运行原理3. 讨论法：鼓励学生提问、发表观点，共同探讨Hadoop的应用场景和优缺点四、教学准备1. 教师准备：熟悉Hadoop的安装和配置，了解其运行原理2. 学生准备：具备一定的Linux操作基础，了解Java编程五、教学评价1. 课堂参与度：学生提问、回答问题的积极性2. 实践操作：学生动手实践的能力，如能够独立完成Hadoop的安装和配置3. 课后作业：学生完成课后练习的情况，如编写简单的MapReduce程序4. 综合评价：结合学生的课堂表现、实践操作和课后作业，综合评价学生的学习效果《Hadoop大数据开发实战》教学教案（第二部分）六、教学目标1. 掌握Hadoop生态系统中的常用组件2. 理解Hadoop数据存储和处理的高级特性3. 学会使用Hadoop进行大数据处理和分析4. 能够运用Hadoop解决实际的大数据问题七、教学内容1. Hadoop生态系统组件7.1 YARN的概念和架构7.2 HBase的概念和架构7.3 Hive的概念和架构7.4 Sqoop的概念和架构7.5 Flink的概念和架构（可选）2. Hadoop高级特性8.1 HDFS的高可用性8.2 HDFS的存储策略8.3 MapReduce的高级特性8.4 YARN的资源管理3. 大数据处理和分析9.1 Hadoop在数据处理中的应用案例9.2 Hadoop在数据分析中的应用案例9.3 Hadoop在机器学习中的应用案例4. Hadoop解决实际问题10.1 Hadoop在日志分析中的应用10.2 Hadoop在网络爬虫中的应用10.3 Hadoop在图像处理中的应用八、教学方法1. 讲授法：讲解Hadoop生态系统组件的原理和应用2. 实践法：引导学生动手实践，使用Hadoop进行数据处理和分析3. 案例教学法：分析实际应用案例，让学生了解Hadoop在不同领域的应用九、教学准备1. 教师准备：熟悉Hadoop生态系统组件的原理和应用，具备实际操作经验2. 学生准备：掌握Hadoop的基本操作，了解Hadoop的核心组件十、教学评价1. 课堂参与度：学生提问、回答问题的积极性2. 实践操作：学生动手实践的能力，如能够独立完成数据处理和分析任务3. 案例分析：学生分析实际应用案例的能力，如能够理解Hadoop在不同领域的应用4. 课后作业：学生完成课后练习的情况，如编写复杂的MapReduce程序或使用Hadoop生态系统组件进行数据处理5. 综合评价：结合学生的课堂表现、实践操作、案例分析和课后作业，综合评价学生的学习效果重点和难点解析一、Hadoop的基本概念和架构二、Hadoop的安装和配置三、Hadoop的核心组件四、Hadoop生态系统组件五、Hadoop数据存储和处理的高级特性六、大数据处理和分析七、Hadoop解决实际问题本教案涵盖了Hadoop的基本概念、安装配置、核心组件、生态系统组件、数据存储和处理的高级特性，以及大数据处理和分析的实际应用。

前端大数据实践利用Hadoop与Spark进行数据处理与分析的教程

前端大数据实践利用Hadoop与Spark进行数据处理与分析的教程大数据在现代信息技术中扮演着至关重要的角色，而前端开发人员可以通过利用Hadoop和Spark来进行数据处理和分析，从而更好地满足不断增长的信息需求。

本教程将指导你如何使用Hadoop和Spark进行前端大数据实践。

一、概述随着互联网的迅猛发展，前端应用程序收集到的数据量不断增加。

为了更好地处理和分析这些海量数据，使用Hadoop和Spark是一个明智的选择。

Hadoop是一个优秀的开源框架，可以分布式存储和处理大规模数据集。

而Spark则提供了快速的数据处理和分析能力，能够高效地处理前端收集到的海量数据。

二、环境搭建与配置在开始使用Hadoop和Spark之前，我们需要先搭建和配置相应的环境。

首先，确保你的机器上已经安装了Java开发环境。

然后，下载并安装Hadoop和Spark的最新版本。

根据官方文档配置相关参数，确保Hadoop和Spark可以正常运行。

接下来，创建一个适当的文件夹结构，以便存储和管理你的数据。

三、数据准备在进行数据处理和分析之前，需要准备好相应的数据集。

可以使用Web日志、用户行为数据等前端收集到的数据作为样本。

确保数据集包含足够的样本量和多样性，以便进行准确和有意义的分析。

四、数据预处理在将数据加载到Hadoop和Spark中进行处理和分析之前，需要进行数据预处理。

这一步骤包括数据清洗、去除重复项、处理异常值等。

可以使用Hadoop的MapReduce来实现数据预处理的任务。

五、数据处理与分析一旦数据完成预处理，就可以使用Hadoop和Spark进行数据处理和分析了。

Hadoop的分布式文件系统（HDFS）可以存储海量数据，而Hadoop的MapReduce框架可以进行数据处理和计算。

利用Spark的强大功能，我们可以进行更复杂的数据处理和分析任务，如数据聚合、数据挖掘、机器学习等。

可以编写相应的MapReduce程序或Spark应用程序，使用它们来处理和分析前端收集到的大数据。

hadoop用法之mapreduce的应用场景

hadoop⽤法之mapreduce的应⽤场景本节和⼤家⼀起学习⼀下Hadoop，通过它的实际应⽤来向⼤家展⽰它的功能，从⽽使读者更容易了解，希望通过本节的介绍⼤家对Hadoop 有初步的了解。

Hadoop最佳实践1.简介Hadoop是Apache⾃由软件基⾦会资助的顶级项⽬，致⼒于提供基于map-reduce计算模型的⾼效、可靠、⾼扩展性分布式计算平台。

2.Map-Reduce应⽤场景作为⼀种受限的分布式计算模型，Map-Reduce计算模型有其擅长的领域，也有其不擅长的⽅⾯：条款1：map-reduce计算模型适⽤于批处理任务，即在可接受的时间内对整个数据集计算某个特定的查询的结果，该计算模型不适合需要实时反映数据变化状态的计算环境。

条款2：map-reduce计算模型是以“⾏”为处理单位的，⽆法回溯已处理过的“⾏”，故每⾏⽇志都必须是⼀个独⽴的语义单元，⾏与⾏之间不能有语义上的关联。

条款3：相对于传统的关系型数据库管理系统，Map-Reduce计算模型更适合于处理半结构化或⽆结构话的数据。

因为Map-Reduce计算模型是在处理的时候对数据进⾏解释的，这就意味着输⼊的Key和Value可以不是数据本⾝固有的属性，Key、Value 的选择完全取决于分析数据的⼈。

条款4：Map-Reduce是⼀个线性可扩展模型，服务器越多，处理时间越短。

以下是同⼀个任务在不同机器数下获得的测试结果：3.任务调度优化⾸先对⼀些术语进⾏⼀下说明。

Job是⼀组客服端想要完成的⼯作，包括输⼊数据，map-reduce程序以及配置信息，Hadoop通过将Job划分为⼀些task来执⾏，task⼜分为maptask和reducetask。

如何调度Hadoop任务才能充分发挥集群中所有服务器的能⼒呢？条款5：每个Job的输⼊⽂件不宜过⼤，也不宜过⼩。

⽂件过⼤会造成reduce任务分布不均匀，导致reducetime的不可预知性，⽽⼤量的⼩⽂件则会严重影响Hadoop的性能。

hadoop的基本操作命令

hadoop的基本操作命令Hadoop是目前最流行的分布式计算框架之一，其强大的数据处理能力和可扩展性使其成为企业级应用的首选。

在使用Hadoop时，熟悉一些基本操作命令是必不可少的。

以下是Hadoop的基本操作命令：1. 文件系统命令Hadoop的文件系统命令与Linux系统类似，可以用于管理Hadoop的文件系统。

以下是一些常用的文件系统命令：- hdfs dfs -ls：列出文件系统中的文件和目录。

- hdfs dfs -mkdir：创建一个新目录。

- hdfs dfs -put：将本地文件上传到Hadoop文件系统中。

- hdfs dfs -get：将Hadoop文件系统中的文件下载到本地。

- hdfs dfs -rm：删除文件系统中的文件或目录。

- hdfs dfs -du：显示文件或目录的大小。

- hdfs dfs -chmod：更改文件或目录的权限。

2. MapReduce命令MapReduce是Hadoop的核心计算框架，用于处理大规模数据集。

以下是一些常用的MapReduce命令：- hadoop jar：运行MapReduce作业。

- hadoop job -list：列出所有正在运行的作业。

- hadoop job -kill：终止正在运行的作业。

- hadoop fs -copyFromLocal：将本地文件复制到Hadoop文件系统中。

- hadoop fs -copyToLocal：将Hadoop文件系统中的文件复制到本地。

- hadoop fs -rmr：删除指定目录及其所有子目录和文件。

3. YARN命令YARN是Hadoop的资源管理器，用于管理Hadoop集群中的资源。

以下是一些常用的YARN命令：- yarn node -list：列出所有节点的状态。

- yarn application -list：列出所有正在运行的应用程序。

- yarn application -kill：终止正在运行的应用程序。

5.7 MapReduce 示例演示——WordCount[共3页]

133 这种方式，ResourceManager 不需要杀死ApplicationMaster 和重新运行应用程序，应用程序可以通过ResourceManager 简单地重新同步到出现故障前的状态。

ResourceManager 恢复其运行状态时利用了所有NodeManager 向其发送的Container 的状态信息。

当ResourceManager 重启后进行同步时，NodeManager 不会杀死Container ，它会继续管理Container ，重新向ResourceManager 注册并发送Container 的状态信息。

ResourceManager 通过Container 的信息重建Container 实例和相关的应用程序的调度状态。

与此同时，ApplicationMaster 需要重新发送未完成的资源请求给ResourceManager ，因为ResourceManager 在重启时可能会丢失这些未完成的请求。

ResourceManager 的重启功能默认是关闭的，可以通过在yarn-site.xml 中设置yarn.resourcemanager.recovery.enabled 属性为true 来打开该功能。

开启重启功能后必须指定用于状态存储的类，默认为org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemResource Manag--erStateStore （基于HDFS 的实现），可以通过设置yarn.resourcemanager.store.class 属性改变其为基于ZooKeeper 的实现。

5.6.5 日志文件Hadoop MapReduce 日志分为两部分，一部分是服务日志，一部分是作业日志。

YARN 系统的服务日志包括ResourceManager 日志和各个NodeManager 日志，它们的日志位置如下。

一种适用于Hadoop MapReduce环境的数据预取方法

Ａｂｓｔｒａｃｔ：ＤｕｅｔＯｔｈｅｄａｔａｄｅｐｅｎｄｅｎｃｙａｎｄｔｈｅｓｐｅｃｉａｌｔａｓｋｅｘｅｃｕｔｉｏｎｍｏｄｅｉｎＭａｐＲｅｄｕｃｅｅｎｖｉｒｏｎｍｅｎｔｓ，
ｒｅｄｕｃｅｔａｓｋｓａｌｗａｙｓｃａｕｓｅｍａｓｓｉｖｅｒｅｍｏｔｅｄａｔａａｃｃｅｓｓｄｅｌａｙａｎｄｕｎｎｅｃｅｓｓａｒｙｒｅｓｏｕｒｃｅｃｏｍｐｅｔｉｔｉｏｎ，ｗｈｉｃｈｄｅｇｒａｄｅｓｔｈｅｓｙｓｔｅｍｐｅｒｆｏｒｍａｎｃｅ．Ｔｏｓｏｌｖｅｔｈｅｐｅｒｆｏｒｍａｎｃｅｐｒｏｂｌｅｍ，ｗｅｐｒｏｐｏｓｅａｐｒｅ — ｆｅｔｃｈｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｐｒｅ－ｓｃｈｅｄｕｌｉｎｇ．Ｔｈｅｍｅｔｈｏｄｈｉｄｅｓｔｈｅｒｅｍｏｔｅｄａｔａａｃｃｅｓｓｄｅｌａｙｂｙｐｒｅ — ｆｅｔｃｈｉｎｇ，ａｎｄｃｏｎｔｒｏｌｓｔｈｅ
（１．ＳｈｅｎｚｈｅｎＩｎｓｔｉｔｕｔｅｏｆＡｄｖａｎｃｅｄＴｅｃｈｎｏｌｏｇｙ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅ，Ｓｈｅｎｚｈｅｎ５１８０５５，Ｃｈｉｎａ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop Map/Reduce教程目的这篇教程从用户的角度出发，全面地介绍了Hadoop Map/Reduce框架的各个方面。

先决条件请先确认Hadoop被正确安装、配置和正常运行中。

更多信息见：∙Hadoop快速入门对初次使用者。

∙Hadoop集群搭建对大规模分布式集群。

概述Hadoop Map/Reduce是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。

一个Map/Reduce 作业（job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式处理它们。

框架会对map的输出先进行排序，然后把结果输入给reduce任务。

通常作业的输入和输出都会被存储在文件系统中。

整个框架负责任务的调度和监控，以及重新执行已经失败的任务。

通常，Map/Reduce框架和分布式文件系统是运行在一组相同的节点上的，也就是说，计算节点和存储节点通常在一起。

这种配置允许框架在那些已经存好数据的节点上高效地调度任务，这可以使整个集群的网络带宽被非常高效地利用。

Map/Reduce框架由一个单独的master JobTracker 和每个集群节点一个slave TaskTracker共同组成。

master负责调度构成一个作业的所有任务，这些任务分布在不同的slave上，master监控它们的执行，重新执行已经失败的任务。

而slave仅负责执行由master指派的任务。

应用程序至少应该指明输入/输出的位置（路径），并通过实现合适的接口或抽象类提供map和reduce函数。

再加上其他作业的参数，就构成了作业配置（job configuration）。

然后，Hadoop的job client提交作业（jar包/可执行程序等）和配置信息给JobTracker，后者负责分发这些软件和配置信息给slave、调度任务并监控它们的执行，同时提供状态和诊断信息给job-client。

虽然Hadoop框架是用Java TM实现的，但Map/Reduce应用程序则不一定要用 Java 来写。

∙Hadoop Streaming是一种运行作业的实用工具，它允许用户创建和运行任何可执行程序（例如：Shell工具）来做为mapper和reducer。

∙Hadoop Pipes是一个与SWIG兼容的C++ API （没有基于JNI TM技术），它也可用于实现Map/Reduce应用程序。

输入与输出Map/Reduce框架运转在<key, value> 键值对上，也就是说，框架把作业的输入看为是一组<key, value> 键值对，同样也产出一组 <key, value> 键值对做为作业的输出，这两组键值对的类型可能不同。

框架需要对key和value的类(classes)进行序列化操作，因此，这些类需要实现Writable接口。

另外，为了方便框架执行排序操作，key类必须实现WritableComparable接口。

一个Map/Reduce 作业的输入和输出类型如下所示：(input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3> (output)例子：WordCount v1.0在深入细节之前，让我们先看一个Map/Reduce的应用示例，以便对它们的工作方式有一个初步的认识。

WordCount是一个简单的应用，它可以计算出指定数据集中每一个单词出现的次数。

这个应用适用于单机模式，伪分布式模式或完全分布式模式三种Hadoop安装方式。

源代码WordCount.java1. package org.myorg;2.3. import java.io.IOException;4. import java.util.*;5.6. import org.apache.hadoop.fs.Path;7. import org.apache.hadoop.conf.*;8. import org.apache.hadoop.io.*;9. import org.apache.hadoop.mapred.*;10. import org.apache.hadoop.util.*;11.12. public class WordCount {13.14. public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {15. private final static IntWritable one = new IntWritable(1);16. private Text word = new Text();17.18. public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {19. String line = value.toString();20. StringTokenizer tokenizer = new StringTokenizer(line);21. while (tokenizer.hasMoreTokens()) {22. word.set(tokenizer.nextToken());23. output.collect(word, one);24. }25. }26. }27.28. public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {29. public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {30. int sum = 0;31. while (values.hasNext()) {32. sum += values.next().get();33. }34. output.collect(key, new IntWritable(sum));35. }36. }37.38. public static void main(String[] args) throws Exception {39. JobConf conf = new JobConf(WordCount.class);40. conf.setJobName("wordcount");41.42. conf.setOutputKeyClass(Text.class);43. conf.setOutputValueClass(IntWritable.class);44.45. conf.setMapperClass(Map.class);46. conf.setCombinerClass(Reduce.class);47. conf.setReducerClass(Reduce.class);48.49. conf.setInputFormat(TextInputFormat.class);50. conf.setOutputFormat(TextOutputFormat.class);51.52. FileInputFormat.setInputPaths(conf, new Path(args[0]));53. FileOutputFormat.setOutputPath(conf, new Path(args[1]));54.55. JobClient.runJob(conf);57. }58. }59.用法假设环境变量HADOOP_HOME对应安装时的根目录，HADOOP_VERSION对应Hadoop 的当前安装版本，编译WordCount.java来创建jar包，可如下操作：$ mkdir wordcount_classes$ javac -classpath ${HADOOP_HOME}/hadoop-${HADOOP_VERSION}-core.jar -d wordcount_classes WordCount.java$ jar -cvf /usr/joe/wordcount.jar -C wordcount_classes/ .假设：∙/usr/joe/wordcount/input - 是HDFS中的输入路径∙/usr/joe/wordcount/output - 是HDFS中的输出路径用示例文本文件做为输入：$ bin/hadoop dfs -ls /usr/joe/wordcount/input//usr/joe/wordcount/input/file01/usr/joe/wordcount/input/file02$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file01Hello World Bye World$ bin/hadoop dfs -cat /usr/joe/wordcount/input/file02Hello Hadoop Goodbye Hadoop运行应用程序：$ bin/hadoop jar /usr/joe/wordcount.jar org.myorg.WordCount/usr/joe/wordcount/input /usr/joe/wordcount/output输出是：$ bin/hadoop dfs -cat /usr/joe/wordcount/output/part-00000Bye 1Goodbye 1Hadoop 2Hello 2World 2应用程序能够使用-files选项来指定一个由逗号分隔的路径列表，这些路径是task的当前工作目录。

使用选项-libjars可以向map和reduce的classpath中添加jar包。