大数据培训零基础教学 Hadoop模式与搭建的相关问题

格式：docx
大小：32.40 KB
文档页数：4

下载文档原格式

Hadoop大数据开发基础教案Hadoop介绍教案

Hadoop大数据开发基础教案Hadoop介绍教案第一章：Hadoop概述1.1 课程目标了解Hadoop的定义、发展历程及应用场景掌握Hadoop的核心组件及其作用理解Hadoop在大数据领域的优势1.2 教学内容Hadoop的定义与发展历程Hadoop的核心组件：HDFS、MapReduce、YARN Hadoop的应用场景与优势1.3 教学方法讲解与案例分析相结合互动提问，巩固知识点1.4 课后作业简述Hadoop的发展历程及其在大数据领域的优势。

第二章：HDFS（分布式文件系统）2.1 课程目标掌握HDFS的架构与工作原理了解HDFS的优势与局限性掌握HDFS的常用操作命令2.2 教学内容HDFS的架构与工作原理HDFS的优势与局限性HDFS的常用操作命令：hdfs dfs, hdfs dfsadmin2.3 教学方法讲解与实践操作相结合案例分析，理解HDFS的工作原理2.4 课后作业利用HDFS命令练习文件的与。

第三章：MapReduce编程模型3.1 课程目标掌握MapReduce的基本概念与编程模型理解MapReduce的运行原理与执行过程学会使用MapReduce解决大数据问题3.2 教学内容MapReduce的基本概念：Mapper、Reducer、Shuffle与Sort MapReduce的编程模型：Map阶段、Shuffle阶段、Reduce阶段MapReduce的运行原理与执行过程3.3 教学方法讲解与编程实践相结合剖析经典MapReduce案例，理解编程模型3.4 课后作业编写一个简单的MapReduce程序，实现单词计数功能。

第四章：YARN（资源管理器）4.1 课程目标掌握YARN的基本概念与架构了解YARN的工作原理与调度策略掌握YARN的资源管理与优化方法4.2 教学内容YARN的基本概念与架构YARN的工作原理与调度策略YARN的资源管理与优化方法4.3 教学方法讲解与案例分析相结合实操演练，掌握YARN的资源管理方法4.4 课后作业分析一个YARN集群的资源使用情况，提出优化方案。

解决Hadoop使用中常见的问题

解决Hadoop使用中常见的问题在大数据时代，Hadoop已经成为了处理海量数据的重要工具。

然而，随着Hadoop的普及，一些常见的问题也随之出现。

本文将探讨这些问题并提供解决方案，帮助用户更好地使用Hadoop。

一、数据丢失问题在使用Hadoop时，数据丢失是一个常见的问题。

这可能是由于硬件故障、网络问题或软件错误引起的。

为了解决这个问题，我们可以采取以下措施：1. 数据备份：在Hadoop集群中，数据通常会被复制到多个节点上。

这样，即使一个节点发生故障，数据仍然可以从其他节点中恢复。

因此，我们应该确保数据的备份策略已经正确配置。

2. 定期监控：通过监控Hadoop集群的状态，我们可以及时发现并解决数据丢失的问题。

可以使用一些监控工具，如Ambari、Ganglia等，来实时监控集群的健康状况。

二、任务执行时间过长问题在处理大规模数据时，任务执行时间过长是一个普遍存在的问题。

这可能是由于数据倾斜、节点负载不均衡等原因引起的。

为了解决这个问题，我们可以采取以下措施：1. 数据倾斜处理：当某个任务的输入数据不均匀地分布在各个节点上时，会导致某些节点的负载过重，从而影响整个任务的执行效率。

我们可以通过数据倾斜处理算法，如Dynamic Partitioning、Salting等，将数据均匀地分布到各个节点上，从而提高任务的执行效率。

2. 节点负载均衡：通过调整Hadoop集群的配置，我们可以实现节点负载的均衡。

例如，可以使用Hadoop的资源管理器（ResourceManager）来动态分配任务给各个节点，从而使得节点的负载更加均衡。

三、数据安全问题随着大数据的快速发展，数据安全问题变得尤为重要。

在Hadoop中，数据安全主要包括数据的保密性和完整性。

为了解决这个问题，我们可以采取以下措施：1. 数据加密：我们可以使用Hadoop提供的加密功能来保护数据的机密性。

可以使用Hadoop的加密文件系统（HDFS Encryption）来对数据进行加密，从而防止未经授权的访问。

基于Hadoop的大数据处理平台搭建与部署

基于Hadoop的大数据处理平台搭建与部署一、引言随着互联网和信息技术的快速发展，大数据已经成为当今社会中不可或缺的重要资源。

大数据处理平台的搭建与部署对于企业和组织来说至关重要，而Hadoop作为目前最流行的大数据处理框架之一，其搭建与部署显得尤为重要。

本文将介绍基于Hadoop的大数据处理平台搭建与部署的相关内容。

二、Hadoop简介Hadoop是一个开源的分布式存储和计算框架，能够高效地处理大规模数据。

它由Apache基金会开发，提供了一个可靠、可扩展的分布式系统基础架构，使用户能够在集群中使用简单的编程模型进行计算。

三、大数据处理平台搭建准备工作在搭建基于Hadoop的大数据处理平台之前，需要进行一些准备工作： 1. 硬件准备：选择合适的服务器硬件，包括计算节点、存储节点等。

2. 操作系统选择：通常选择Linux系统作为Hadoop集群的操作系统。

3. Java环境配置：Hadoop是基于Java开发的，需要安装和配置Java环境。

4. 网络配置：确保集群内各节点之间可以相互通信。

四、Hadoop集群搭建步骤1. 下载Hadoop从Apache官网下载最新版本的Hadoop压缩包，并解压到指定目录。

2. 配置Hadoop环境变量设置Hadoop的环境变量，包括JAVA_HOME、HADOOP_HOME等。

3. 配置Hadoop集群编辑Hadoop配置文件，包括core-site.xml、hdfs-site.xml、mapred-site.xml等，配置各个节点的角色和参数。

4. 启动Hadoop集群通过启动脚本启动Hadoop集群，可以使用start-all.sh脚本启动所有节点。

五、大数据处理平台部署1. 数据采集与清洗在搭建好Hadoop集群后，首先需要进行数据采集与清洗工作。

通过Flume等工具实现数据从不同来源的采集，并进行清洗和预处理。

2. 数据存储与管理Hadoop提供了分布式文件系统HDFS用于存储海量数据，同时可以使用HBase等数据库管理工具对数据进行管理。

[大数据运维]第28讲：Hadoop平台常见故障汇总以及操作系统性能调优

[⼤数据运维]第28讲：Hadoop平台常见故障汇总以及操作系统性能调优第28讲：Hadoop 平台常见故障汇总以及操作系统性能调优⾼俊峰（南⾮蚂蚁）Hadoop ⽇常运维问题及其解决⽅法1.如何下线⼀个 datanode 节点?当⼀个 datanode 节点所在的服务器故障或者将要退役时，你需要在 Hadoop 中下线这个节点，下线⼀个 datanode 节点的过程如下。

（1）修改 hdfs-site.xml ⽂件如下选项，找到 namenode 节点配置⽂件 /etc/hadoop/conf/hdfs-site.xml：<property><name>dfs.hosts.exclude</name><value>/etc/hadoop/conf/hosts-exclude</value></property>（2）修改 hosts-exclude ⽂件执⾏如下操作，在 hosts-exclude 中添加需要下线的 datanode 主机名：vi /etc/hadoop/conf/hosts-exclude172.16.213.188（3）刷新配置在 namenode 上以 hadoop ⽤户执⾏下⾯命令，刷新 hadoop 配置：[hadoop@namenodemaster ~]$hdfs dfsadmin -refreshNodes（4）检查是否完成下线执⾏如下命令，检查下线是否完成：[hadoop@namenodemaster ~]$hdfs dfsadmin -report也可以通过 NameNode 的 50070 端⼝访问 Web 界⾯，查看 HDFS 状态，需要重点关注退役的节点数，以及复制的块数和进度。

2.某个 datanode 节点磁盘坏掉怎么办？如果某个 datanode 节点的磁盘出现故障，那么该节点将不能进⾏写⼊操作，并导致 datanode 进程退出，针对这个问题，你可以如下解决：⾸先，在故障节点上查看 /etc/hadoop/conf/hdfs-site.xml ⽂件中对应的 dfs.datanode.data.dir 参数设置，去掉故障磁盘对应的⽬录挂载点；然后，在故障节点上查看 /etc/hadoop/conf/yarn-site.xml ⽂件中对应的 yarn.nodemanager.local-dirs 参数设置，去掉故障磁盘对应的⽬录挂载点；最后，重启该节点的 DataNode 服务和 NodeManager 服务即可。

《Hadoop大数据开发实战》教学教案(全)

《Hadoop大数据开发实战》教学教案（第一部分）一、教学目标1. 理解Hadoop的基本概念和架构2. 掌握Hadoop的安装和配置3. 掌握Hadoop的核心组件及其作用4. 能够搭建简单的Hadoop集群并进行基本的操作二、教学内容1. Hadoop简介1.1 Hadoop的定义1.2 Hadoop的发展历程1.3 Hadoop的应用场景2. Hadoop架构2.1 Hadoop的组成部分2.2 Hadoop的分布式文件系统HDFS2.3 Hadoop的计算框架MapReduce3. Hadoop的安装和配置3.1 Hadoop的版本选择3.2 Hadoop的安装步骤3.3 Hadoop的配置文件解读4. Hadoop的核心组件4.1 NameNode和DataNode4.2 JobTracker和TaskTracker4.3 HDFS和MapReduce的运行原理三、教学方法1. 讲授法：讲解Hadoop的基本概念、架构和组件2. 实践法：引导学生动手实践，安装和配置Hadoop，了解其运行原理3. 讨论法：鼓励学生提问、发表观点，共同探讨Hadoop的应用场景和优缺点四、教学准备1. 教师准备：熟悉Hadoop的安装和配置，了解其运行原理2. 学生准备：具备一定的Linux操作基础，了解Java编程五、教学评价1. 课堂参与度：学生提问、回答问题的积极性2. 实践操作：学生动手实践的能力，如能够独立完成Hadoop的安装和配置3. 课后作业：学生完成课后练习的情况，如编写简单的MapReduce程序4. 综合评价：结合学生的课堂表现、实践操作和课后作业，综合评价学生的学习效果《Hadoop大数据开发实战》教学教案（第二部分）六、教学目标1. 掌握Hadoop生态系统中的常用组件2. 理解Hadoop数据存储和处理的高级特性3. 学会使用Hadoop进行大数据处理和分析4. 能够运用Hadoop解决实际的大数据问题七、教学内容1. Hadoop生态系统组件7.1 YARN的概念和架构7.2 HBase的概念和架构7.3 Hive的概念和架构7.4 Sqoop的概念和架构7.5 Flink的概念和架构（可选）2. Hadoop高级特性8.1 HDFS的高可用性8.2 HDFS的存储策略8.3 MapReduce的高级特性8.4 YARN的资源管理3. 大数据处理和分析9.1 Hadoop在数据处理中的应用案例9.2 Hadoop在数据分析中的应用案例9.3 Hadoop在机器学习中的应用案例4. Hadoop解决实际问题10.1 Hadoop在日志分析中的应用10.2 Hadoop在网络爬虫中的应用10.3 Hadoop在图像处理中的应用八、教学方法1. 讲授法：讲解Hadoop生态系统组件的原理和应用2. 实践法：引导学生动手实践，使用Hadoop进行数据处理和分析3. 案例教学法：分析实际应用案例，让学生了解Hadoop在不同领域的应用九、教学准备1. 教师准备：熟悉Hadoop生态系统组件的原理和应用，具备实际操作经验2. 学生准备：掌握Hadoop的基本操作，了解Hadoop的核心组件十、教学评价1. 课堂参与度：学生提问、回答问题的积极性2. 实践操作：学生动手实践的能力，如能够独立完成数据处理和分析任务3. 案例分析：学生分析实际应用案例的能力，如能够理解Hadoop在不同领域的应用4. 课后作业：学生完成课后练习的情况，如编写复杂的MapReduce程序或使用Hadoop生态系统组件进行数据处理5. 综合评价：结合学生的课堂表现、实践操作、案例分析和课后作业，综合评价学生的学习效果重点和难点解析一、Hadoop的基本概念和架构二、Hadoop的安装和配置三、Hadoop的核心组件四、Hadoop生态系统组件五、Hadoop数据存储和处理的高级特性六、大数据处理和分析七、Hadoop解决实际问题本教案涵盖了Hadoop的基本概念、安装配置、核心组件、生态系统组件、数据存储和处理的高级特性，以及大数据处理和分析的实际应用。

《hadoop基础》课件——第三章 Hadoop集群的搭建及配置

19
Hadoop集群—文件监控
http://master:50070
20
Hadoop集群—文件监控
http://master:50070
21
Hadoop集群—文件监控
http://master:50070
22
Hadoop集群—任务监控
http://master:8088
23
Hadoop集群—日志监控
http://master:19888
24
Hadoop集群—问题 1.集群节点相关服务没有启动？
1. 检查对应机器防火墙状态； 2. 检查对应机器的时间是否与主节点同步；
25
Hadoop集群—问题
2.集群状态不一致，clusterID不一致？ 1. 删除/data.dir配置的目录； 2. 重新执行hadoop格式化；
准备工作：
1.Linux操作系统搭建完好。 2.PC机、服务器、环境正常。 3.搭建Hadoop需要的软件包（hadoop-2.7.6、jdk1.8.0_171）。 4.搭建三台虚拟机。（master、node1、node2）
存储采用分布式文件系统 HDFS，而且，HDFS的名称节点和数据节点位于不同机器上。
2、vim编辑core-site.xml，修改以下配置： <property>
<name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/soft/hadoop-2.7.6/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property>

大数据分析实训课程学习总结利用Hadoop和Spark进行大规模数据处理的技巧与策略

大数据分析实训课程学习总结利用Hadoop 和Spark进行大规模数据处理的技巧与策略近年来，随着信息时代的发展，大数据成为了各行各业不可忽视的重要资源。

为了充分利用大数据的价值，我报名参加了一门名为“大数据分析实训”的课程。

在这门课程中，我们学习了如何使用Hadoop和Spark这两个强大的工具来进行大规模数据处理，并掌握了一些技巧与策略。

在接下来的内容中，我将对这门课程所学知识进行总结和回顾。

首先，在课程的初期，我们对Hadoop进行了学习和实践。

Hadoop是一个开源的分布式计算平台，可以处理大规模数据集并将其分成若干个小任务进行处理。

在使用Hadoop进行大规模数据处理时，我们需要了解和掌握以下一些技巧和策略。

第一，合理的数据切分策略。

Hadoop适合处理大规模的数据，但是如果数据集过大，会严重影响计算性能。

因此，我们需要将数据集合理地切分成小块，以便能够并行地进行处理。

在切分数据时，可以考虑根据关键字段进行划分，使得同一组数据能够被分到同一个节点上进行计算，提高效率。

第二，数据本地性原则。

Hadoop的一个核心思想就是将计算移动到数据所在的节点上，以减少数据的传输和网络带宽的开销。

因此，在编写Hadoop程序时，我们要尽量保证数据和计算在同一节点上进行，尽量避免跨节点的数据传输。

第三，合理配置和调优。

Hadoop的性能和稳定性很大程度上取决于其配置和参数设置。

我们需要根据数据集的规模和计算需求，对Hadoop集群进行合理的配置和调优，以获得更好的性能和效果。

接下来，我们学习了Spark这个快速、通用的大数据处理引擎。

相比于Hadoop，Spark具有更高的计算速度和更强大的内存管理能力，可以用于实时数据处理、机器学习、图计算等多种场景。

在使用Spark进行大规模数据处理时，我们需要注意以下几点技巧和策略。

首先，合理选择RDD和DataFrame。

RDD是Spark的基本数据结构，而DataFrame则是Spark 2.0之后新引入的数据结构，相比于RDD，DataFrame具有更高效的内存管理和优化能力。

Hadoop使用常见问题以及解决方法

Hadoop使用常见问题以及解决方法1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer：程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。

修改办法：修改2个文件。

/etc/security/limits.confvi /etc/security/limits.conf加上：* soft nofile 102400* hard nofile 409600$cd /etc/pam.d/$sudo vi login添加 session required /lib/security/pam_limits.so针对第一个问题我纠正下答案：这是reduce 预处理阶段shuffle时获取已完成的map的输出失败次数超过上限造成的，上限默认为5。

引起此问题的方式可能会有很多种，比如网络连接不正常，连接超时，带宽较差以及端口阻塞等。

通常框架内网络情况较好是不会出现此错误的。

2：Too many fetch-failuresAnswer:出现这个问题主要是结点间的连通不够全面。

1) 检查、/etc/hosts要求本机ip对应服务器名要求要包含所有的服务器ip + 服务器名2) 检查 .ssh/authorized_keys要求包含所有服务器（包括其自身）的public key3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现reduce=0% Answer:结合第二点，然后修改conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=40004：能够启动 datanode ，但无法访问，也无法结束的错误在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的.dir 这一namenode用来存放NameNode持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data .dir的路径DataNode存放块数据的本地文件系统路径的目录也删除。

《Hadoop系统搭建及项目实践》课后习题答案

项目1 Hadoop基础知识1.Hadoop是由哪个项目发展来的？答：2002年，开源组织Apache成立开源搜索引擎项目Nutch，但在Nutch开发过程中，始终无法有效地将计算任务分配到多台计算机上。

2004年前后，Google陆续发表三大论文GFS、MapReduce和BigTable。

于是Apache在其Nutch里借鉴了GFS和MapReduce思想，实现了Nutch版的NDFS和MapReduce。

但Nutch项目侧重搜索，而NDFS和MapReduce则更像是分布式基础架构，因此，2006年，开发人员将NDFS和MapReduce移出Nutch，形成独立项目，称为Hadoop。

2.Hadoop主要有哪些版本？答：目前Hadoop的发行版除了Apache的开源版本之外，还有华为发行版、Intel发行版、Cloudera发行版(CDH)、Hortonworks发行版（HDP）、MapR等，所有这些发行版均是基于Apache Hadoop衍生出来的。

Apache Hadoop版本分为两代，第一代Hadoop称为Hadoop 1.0，第二代Hadoop称为Hadoop 2.0。

第一代Hadoop包含三个大版本，分别是0.20.x，0.21.x和0.22.x，其中，0.20.x 最后演化成1.0.x，变成了稳定版，而0.21.x和0.22.x增加了NameNode HA等新的重大特性。

第二代Hadoop包含两个版本，分别是0.23.x和2.x，它们完全不同于Hadoop 1.0，是一套全新的架构，均包含HDFS Federation和YARN两个系统，相比于0.23.x，2.x增加了NameNodeHA和Wire-compatibility两个重大特性。

3.简要描述Hadoop的体系结构，分析1.x与2.x版本间的区别。

答：Hadoop 2.x相比Hadoop 1.x最大的变化是增加了YARN组件，YARN是一个资源管理和任务调度的框架，主要包含三大模块：ResourceManager（RM）、NodeManager（NM）和ApplicationMaster（AM）。

hadoop大数据培训零基础学习hadoop-北京尚学堂

北京尚学堂提供问题导读：1.hadoop编程需要哪些基础？2.hadoop编程需要注意哪些问题？3.如何创建mapreduce程序及其包含几部分？4.如何远程连接eclipse，可能会遇到什么问题？5.如何编译hadoop源码？阅读此篇文章，需要些基础下面两篇文章尚学堂_肖斌_hadoop经典视频教程/2015/down_0526/41.html尚学堂云计算极限班-云计算培训/html/cloud/如果看过的话，看这篇不成问题，此篇讲hadoop编程篇。

hadoop编程，hadoop是一个Java框架，同时也是编程的一次革命，使得传统开发运行程序由单台客户端（单台电脑）转换为可以由多个客户端运行（多台机器）运行，使得任务得以分解，这大大提高了效率。

hadoop既然是一个Java框架，因为我们必须要懂Java，网上有大量的资料，所以学习Java不是件难事。

但是学到什么程度，可能是我们零基础同学所关心的。

语言很多情况下都是相通的，如果你是学生，还处于打基础的阶段，那么难度对于你来说还是不小的。

1.初学者要求必须有理论基础，并且能够完成一个小项目，最起码能够完成几个小例子，例如图书馆里等。

初学者基本的要求：（1）懂什么是对象、接口、继续、多态（2）必须熟悉Java语法（3）掌握一定的常用包（4）会使用maven下载代码（5）会使用eclipse，包括里面的快捷键，如何打开项目传统程序员，因为具有丰富的编程经验，因此只要能够掌握开发工具：（1）会使用maven下载代码（2）会使用eclipse，包括里面的快捷键，如何打开项目（3）简单熟悉Java语法上面的只是基础，如果想开发hadoop，还需要懂得下面内容（1）会编译hadoop（2）会使用hadoop-eclipse-plugin插件，远程连接集群（3）会运行hadoop程序。

上面列出大概的内容，下面我们具体说一些需要学习的内容。

无论是传统开发人员还是学生，零基础下面都是需要掌握的：我们就需要进入开发了。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据培训零基础教学Hadoop模式与搭建的相关问题
刚刚结束了大数据Hadoop的相关教学，诚如前辈所言，确实是最重要且最难的一部分课程。

在老师事先打好预防针的前提下，可以说是聚精会神，全身关注的完成了这部分知识的学习，当然后期仍然需要投入大量的时间进行巩固性学习和挖掘。

大数据培训课上，理论和操作性的知识点很多，尤其在近期学习的Hadoop集群的搭建问题上，小细节，小难点拼频频出现，所以，今天集中总结以下笔记，希望对各位同学有所帮助。

ps：以下不涉及完全分布式，只说明单机版和伪分布式。

一、hadoop本地模式和伪分布式模式之间的区别
1.单机(非分布式)模式。

这种模式在一台单机上运行，没有分布式文件系统，而是直接读写本地操作系统的文件系统。

2.伪分布式运行模式。

这种模式也是在一台单机上运行，但用不同的Java进程模仿分布式运行中的各类结点: (NameNode,DataNode,JobTracker,TaskTracker,SecondaryNameNode)。

请注意分布式运行中的这几个结点的区别：从分布式存储的角度来说，集群中的结点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode
的备份；从分布式应用的角度来说，集群中的结点由一个JobTracker和若干个TaskTracker 组成，JobTracker负责任务的调度，TaskTracker负责并行执行任务。

TaskTracker必须运行在DataNode上，这样便于数据的本地计算。

JobTracker和NameNode则无须在同一台机器上。

一个机器上，既当namenode，又当datanode,或者说既是jobtracker,又是tasktracker。

没有所谓的在多台机器上进行真正的分布式计算，故称为"伪分布式"。

二，hadoop本地模式的搭建
1.首先需要一台客户机。

2.安装jdk。

1)首先在客户机根目录root文件夹下建立tools文件夹：root> mkdir tools。

2)用远程连接工具连接客户机，拖拽压缩包到客户机 root/tools/目录下
3) 解压jdk到/etc/local下：tar -zxvf jdk-8u152-linux-x64.tar.gz -C /usr/local/
3.安装hadoop
1) 拖拽压缩包到客户机root/rools 目录下。

2)解压hadoop到etc/local/下：tar -zxvf hadoop-2.7.2.tar.gz -C /usr/local/。

4.配置环境变量
hadoop> vi /etc/profile
export JAVA_HOME=/usr/local/jdk1.8.0_152
export HADOOP_HOME=/usr/local/hadoop-2.7.2/
export CLASSPATH=.；JAVA_HOME/lib/dt.jar；JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bi
PATH；HADOOP_HOME/bin；
HADOOP_HOME/sbin/；
5. hadoop version
java –version。

以上两项，都能正常显示除版本号，即为环境搭建成功，以上步骤为本地模式搭建成功！
三，hadoop伪分布式模式的搭建（以上五部到配置环境搭建成功为基础）
1..配置集群
1）配置：hadoop-env.sh。

Linux 系统中获取jdk 的安装路径：/usr/local/jdk1.8.0_15并修改JAVA_HOME 路径为：export JAVA_HOME=/opt/module/jdk1.8.0_144
2）配置：core-site.xml
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop101:9000</value>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
3）配置：hdfs-site.xml

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4）启动集群。

格式化namenode（第一次启动时格式化，以后就不要总格式化）[qianfeng@hadoop101 hadoop-2.7.2]$ bin/hdfs namenode –format。

启动namenode。

[qianfeng@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start namenode。

启动datanode。

[qianfeng@hadoop101 hadoop-2.7.2]$ sbin/hadoop-daemon.sh start datanode
5）查看集群是否成功。

[qianfeng@hadoop101 hadoop-2.7.2]$ jps。

13586 NameNode。

13668 DataNode。

13786 Jps。

//正常应该启动这三个进程6）查看产生的log日志。

当前目录：/usr/local/hadoop-2.7.2/logs>ls。

.log
.out
.log
.out
SecurityAuth-root.audit
cat hadoop-qianfeng-datanode-hadoop101.log
以上步骤即为伪分布式搭建成功！
最好，想留下几句话，告诫未来可能来到好程序员的学弟学妹们:没有攻不下的山头，没有打不赢的仗。

成大事者从不说“不”，分秒必争，用有限的时间赢得一个机会，五个月的时光足以成就脱胎换骨的你！。