当前位置：文档之家› Hadoop集群环境安装及配置手册

Hadoop集群环境安装及配置手册

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop 分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。

对于Hadoop的集群来讲，可以分成两大类角色：Master和Salve。一个HDFS 集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作；集群中的DataNode管理存储的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的从节点上。主节点监控它们的执行情况，并且重新执行之前的失败任务；从节点仅负责由主节点指派的任务。当一个Job被提交时，JobTracker接收到提交作业和配置信息之后，就会将配置信息等分发给从节点，同时调度任务并监控TaskTracker的执行。

从上面的介绍可以看出，HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持，MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成了Hadoop分布式集群的主要任务。

第一章．系统环境配置1．1 添加hadoop用户和组

1.2 关闭防火墙及SELinux

1.2.1关闭防火墙

禁止自启动

1.2.2关闭SELinux

将/etc/sysconfig/selinux文件中的SELINUX=enforcing 改为SELINUX=disabled 即

然后在执行如下命令：

setenforce 0

getenforce

1.3 Java安装

1.3.1 下载地址：https://www.doczj.com/doc/f05118960.html,/technetwork/java/javase/index.html

1.3.2 安装

(1). 解压

tar zxvf jdk-7u25-linux-x64.tar.gz

(2). 将解压之后复制到希望安装的路径

cp –fR jdk1.7.0_25 /usr/local

(3). 配置Java运行环境

在/etc/profile后面追加配置，具体配置如下：

(4). 验证Java运行环境

1.4 Hadoop安装

1.4.1 下载地址：https://www.doczj.com/doc/f05118960.html,/common/releases.html

1.4.2 安装

(1). 解压

tar zxvf hadoop-1.2.1.tar.gz

(2). 将解压之后复制到希望安装的路径

cp –fR hadoop-1.2.1 /usr/local

chown –R hadoop:hadoop hadoop #将文件夹"hadoop"读权限分配给hadoop用户

(3). 配置Hadoop运行环境

在/etc/profile后面追加配置，具体配置如下：

(4). 验证Hadoop运行环境

第二章．Hadoop集群配置

Hadoop集群有三种运行模式，分别为单机模式，伪分布模式，完全分布式模式。单机模式和伪分布式模式的配置基本相同，本文档将重点介绍，在此基础上给出完全分布式模式搭建还需要的工作。

1.单机模式（只有Master节点）

单机模式是Hadoop的默认模式。在该模式下无需运行任何守护进程，所有程序都在单个JVM上执行。该模式主要用于开发调试MapReduce程序的应用逻辑。

2.伪分布模式（Master和Slaver在同一机器上）

在伪分布模式下，Hadoop守护进程运行在一台机器上，模拟一个小规模的集群。该模式在单机模式的基础上增加了代码调试功能，允许你检查NameNode，DataNode，JobTracker，TaskTracker等模拟节点的运行情况。

3.完全分布式模式（存在Slaver节点和Master节点不在同一机器上）

单机模式和伪分布模式均用于开发与调试的目的。真实Hadoop集群的运行采用的是全分布模式。

2.1 配置集群模式

2.1.1修改/etc/sysconfig/network文件

2.1.2修改/etc/hosts文件

2.1.3 使修改生效

2.1.4验证修改

2.2 SSH无密码验证配置

2.2.1 Root用户修改/etc/ssh/sshd_config文件

2.2.2 配置

(1). 切换到hadoop用户

(2). 生成无密码RSA秘钥对

在Master节点上把id_rsa.pub追加到授权的key里面去(2.2.1节)

（3）. 重启SSH服务

service sshd restart

最好将sshd设为开机启动：chkconfig sshd --level 12345 on

2.2.

3. 验证登陆

完全分布式模式下，Slaver节点不仅需要同样上述的操作，还需要将Master节点的~/.ssh/ id_rsa.pub文件追加到自己的~/.ssh/authorized_keys文件的后面，然后Master节点还需要通过ssh Slaver进行验证。

2.3 修改配置文件

2.3.1 配置Hadoop运行环境：$HADOOP_HOME/conf/hadoop-env.sh

2.3.2配置HDFS

而这个目录在每次重启后都会被干掉，必须重新执行format才行，否则会出错。

2.3.3 配置MapReduce

而这个目录在每次重启后都会被干掉，必须重新执行format才行，否则会出错。

（2）.配置$HADOOP_HOME/conf/masters文件

将localhost 替换为Master

（3）. 配置$HADOOP_HOME/conf/slaves文件（Master主机特有）

将所有slaver节点加入此文件

2.4 启动和验证

2.4.1格式化HDFS文件系统

hadoop namenode –format

2.4.2 启动hadoop

2.4.3 验证Hadoop

（1）.工具验证

(2). 用"hadoop dfsadmin -report"验证

(3).网页访问验证

job tracker的web管理地址：Master：50030

NameNode web管理地址: Master:50070

第三章．常见问题解答

3.1 关于Warning: $HADOOP_HOME is deprecated.

Hadoop官网解释说：从1.x版本起，HADOOP_HOME环境变量由

HADOOP_PREFIX这个环境变量替代。$HADOOP_HOME/bin/hadoop-config.sh 中有这么一条

因此对应的解决方案有：

解决方案一：编辑/etc/profile文件，去掉HADOOP_HOME的变量设定

解决方案二：编辑/etc/profile文件，添加一个环境变量

export HADOOP_HOME_WARN_SUPPRESS=1

解决方案三：编辑"hadoop-config.sh"文件，把上面的"if - fi"功能注释掉（不建议）。

3.2 解决"no datanode to stop"问题

当我停止Hadoop时发现” no datanode to stop”,原因是每次namenode format会重新创建一个namenodeId，而tmp/dfs/data下包含了上次format下的id，namenode format清空了namenode下的数据，但是没有清空datanode下的数据，导致启动时失败，所要做的就是每次fotmat前，清空tmp一下的所有目录。

解决方案一[丢弃集群上的所有数据]：

(1)先删除"/usr/hadoop/tmp" [hadoop.tmp.dir]

rm -rf /usr/hadoop/tmp

(2)创建"/usr/hadoop/tmp"文件夹

mkdir /usr/hadoop/tmp

(3)删除"/tmp"下以"hadoop"开头文件

rm -rf /tmp/hadoop*

(4)重新格式化hadoop

hadoop namenode -format

(5)启动hadoop

start-all.sh

解决方案二[保留数据]：

(1)修改每个Slave的namespaceID使其与Master的namespaceID一致,或者

(2)修改Master的namespaceID使其与Slave的namespaceID一致。

该"namespaceID"位于"/usr/hadoop/tmp/dfs/data/current/VERSION"文件中;

例如：查看"Master"下的"VERSION"文件

3.3 安全模式导致的错误

错误：org.apache.hadoop.dfs.SafeModeException: Cannot delete ..., Name node is in safe mode

在分布式文件系统启动的时候，开始的时候会有安全模式，当分布式文件系统处于安全模式的情况下，文件系统中的内容不允许修改也不允许删除，直到安全模式结束。安全模式主要是为了系统启动的时候检查各个DataNode上数据块的有效性，同时根据策略必要的复制或者删除部分数据块。运行期通过命令也可以进入安全模式。在实践过程中，系统启动的时候去修改和删除文件也会有安全模式不允许修改的出错提示，只需要等待一会儿即可。

解决方案是：关闭安全模式

hadoop dfsadmin -safemode leave

3.4 SSH无密钥登录失败问题

(1) ssh登陆加入-v选项

ssh -v localhost

(2). 分析ssh日志

tail /var/log/secure -n 20

注意：~/.ssh/authorized_keys权限需要为600权限，对应的hadoop文件夹需要700权限。

第四章．hadoop集群默认配置和常用配置

5.1常用的端口配置

HDFS端口

5.2 MapReduce端口

其他端口

5.3集群目录配置

5.4其他配置

Hadoop配置参数建议

Hadoop配置参数建议流量三期程序和Hive脚本需要运行在Hadoop集群上，本文档用于对Hadoop的参数提出建议。如果Hadoop集群是我们自己管理的，可以参考文档里建议的参数进行配置；如果Hadoop集群不由我们管理，我们只是集群资源的用户，可以通过给流量三期Job或者Hive 脚本指定Hadoop参数来调整程序的运行方式。需要注意的是，通过编辑配置文件来设置Hadoop参数的方式，只适用于独立安装的Hadoop2.X、CDH4.X和CDH5.X，不适用于通过Athena大数据管理平台安装的CDH，因为Athena要求必须使用Web界面修改Hadoop的配置，不允许直接编辑Hadoop的配置文件。 Hadoop的参数有数百个，其中绝大多数都应该使用默认值，本文档只对可能需要修改的参数进行说明。对于文档没有列出的参数，如果没有特殊需要，不建议修改，避免出现难以定位的问题。 Hadoop参数可以分成三类，分别是Linux环境变量、集群配置变量和作业配置变量,下面对各类变量分别说明。一、Linux环境变量 Linux环境变量用来配置各个Hadoop守护进程的行为，包括Yarn的ResourceManager 进程、Yarn的NodeManager进程、HDFS的NameNode进程、HDFS的Secondary NameNode 进程、HDFS的DataNode进程和Hadoop Job History Server进程等。 Hadoop在启动各个守护进程时会通过环境变量的值来确定进程的行为，所以环境变量一般在启动Hadoop前设置才有意义。设置方式是在Hadoop启动或者重启前，编辑Hadoop配置文件目录下的hadoop-env.sh、mapred-env.sh和yarn-env.sh文件。这三个文件是shell脚本，并且mapred-env.sh和yarn-env.sh 的优先级高于hadoop-env.sh，也就是说如果在mapred-env.sh和hadoop-env.sh中设置了同一个环境变量，Hadoop会使用mapred-env.sh中的变量值。下面是Hadoop比较重要的环境变量：

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。本教程由厦门大学数据库实验室出品，转载请注明。本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop，并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。继续下一步配置前，请先完成上述流程的前 4 个步骤。网络配置假设集群所用的节点都位于同一个局域网。如果使用的是虚拟机安装的系统，那么需要更改网络连接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在VirturalBox 中的设置如下图。此外，如果节点的系统是在虚拟机中直接复制的，要确保各个节点的Mac 地址不同（可以点右边的按钮随机生成MAC 地址，否则IP 会冲突）：

Hadoop集群MYSQL的安装指南

前言本篇主要介绍在大数据应用中比较常用的一款软件Mysql，我相信这款软件不紧紧在大数据分析的时候会用到，现在作为开源系统中的比较优秀的一款关系型开源数据库已经被很多互联网公司所使用，而且现在正慢慢的壮大中。在大数据分析的系统中作为离线分析计算中比较普遍的两种处理思路就是：1、写程序利用 mapper-Reducer的算法平台进行分析；2、利用Hive组件进行书写Hive SQL进行分析。第二种方法用到的Hive组件存储元数据最常用的关系型数据库最常用的就是开源的MySQL了，这也是本篇最主要讲解的。技术准备 VMware虚拟机、CentOS 6.8 64 bit、SecureCRT、VSFTP、Notepad++ 软件下载我们需要从Mysql官网上选择相应版本的安装介质，官网地址如下： MySQL下载地址：https://www.doczj.com/doc/f05118960.html,/downloads/

默认进入的页面是企业版，这个是要收费的，这里一般建议选择社区开源版本，土豪公司除外。

然后选择相应的版本，这里我们选择通用的Server版本，点击Download下载按钮，将安装包下载到本地。下载完成，上传至我们要安装的系统目录。这里，需要提示下，一般在Linux系统中大型公用的软件安装在/opt目录中，比如上图我已经安装了Sql Server On linux，默认就安装在这个目录中，这里我手动创建了mysql目录。将我们下载的MySQL安装介质，上传至该目录下。

安装流程 1、首先解压当前压缩包，进入目录 cd /opt/mysql/ tar -xf mysql-5.7.16-1.el7.x86_64.rpm-bundle.tar 这样，我们就完成了这个安装包的解压。 2、创建MySql超级管理用户这里我们需要单独创建一个mySQL的用户，作为MySQL的超级管理员用户，这里也方便我们以后的管理。 groupaddmysql 添加用户组 useradd -g mysqlmysql 添加用户 id mysql 查看用户信息。

hadoop2.7.2 伪分布式安装

hadoop：建立一个单节点集群伪分布式操作安装路径为：/opt/hadoop-2.7.2.tar.gz 解压hadoop: tar -zxvf hadoop-2.7.2.tar.gz 配置文件 1. etc/hadoop/hadoop-env.sh export JAVA_HOME=/opt/jdk1.8 2. etc/hadoop/core-site.xml fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir file:/opt/hadoop-2.7.2/tmp 3. etc/hadoop/hdfs-site.xml https://www.doczj.com/doc/f05118960.html,.dir file:/opt/hadoop-2.7.2/dfs/name dfs.datanode.data.dir file:/opt/hadoop-2.7.2/dfs/data dfs.replication 1 dfs.webhdfs.enabled true

Hadoop-0.20.2详细安装及疑难问题

安装 2011年4月4日 10:13 Hadoop-0.20.2安装使用 1、Cygwin 安装 ssh 2、按照以下的文档配置ssh 在Windows上安装Ha doop教程.pdf 3、几个配置文件的配置 3.1、conf/core-site.xml https://www.doczj.com/doc/f05118960.html, hdfs://localhost:9000 true hadoop.tmp.dir /workspace/temp/hadoop/tmp/hadoop- ${https://www.doczj.com/doc/f05118960.html,} true 3.2、conf/hdfs-site.xml dfs.replication 1 true https://www.doczj.com/doc/f05118960.html,.dir /workspace/temp/hadoop/data/hadoop/name true

dfs.data.dir /workspace/temp/hadoop/data/hadoop/data true 3.3、conf/mapred-site.xml mapred.job.tracker localhost:9001 true 3.4、conf/hadoop-env.sh export JAVA_HOME=D:/workspace/tools/jdk1.6 4、解决启动的时候 ClassNotFound： org.apache.hadoop.util.PlatformName 将 %hadoop_home%\bin\hadoop-config.sh中的第190行修改为如下： JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m -classpath ${HADOOP_COMMON_HOME}/hadoop-common-0.21.0.jar org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"` 5、命令

Hadoop全分布式安装配置

Hadoop全分布式安装配置一实验目的： 1、了解Hadoop的体系结构、组成； 2、熟练掌握Hadoop的配置、安装方法； 3、通过安装Hadoop了解Hadoop的原理；二实验内容：集群包含三个安装了Linux操作系统的节点。将其中的一个节点作为NameNode，另外两个节点作为DataNode，安装之前先利用ping命令，确认三个节点之间的网络互通，即可以互相ping通。假设三个节点IP地址如下，实际的集群节点IP地址可以不同。 NameNode：192.168.198.2 主机名：master DataNode1：192.168.198.3 主机名：slaver1 DataNode2：192.168.198.4 主机名：slaver2 三实验环境：在申请的虚拟服务器上安装了VMWare Workstation虚拟3个Ubuntu14.04系统。四安装配置过程： 1、安装Vmware WorkStation软件下载安装Vmware WorkStation12.0软件。 2、在虚拟机上安装linux操作系统在Vmware WorkStation12.0中创建一个Ubuntu14.04系统。拷贝镜像文件复制出三个系统。分别为master、slaver1、slaver2。 3、配置hosts、hostname文件

在三台机器上配置相同的hosts文件（1）修改hosts sudo gedit /etc/hosts 192.168.198.200 master 192.168.198.199 slave1 192.168.198.198 slave2 （2）修改hostname sudo gedit /etc/hostname 4、配置ip地址配置ip：sudo gedit /etc/network/interfaces slave2 auto eth0 iface eth0 inet static address 192.168.198.198 gateway 192.168.198.107 netmask 255.255.255.0 slave1 auto eth0 iface eth0 inet static address 192.168.198.199 gateway 192.168.198.107 netmask 255.255.255.0 master auto eth0 iface eth0 inet static address 192.168.198.200 gateway 192.168.198.107 netmask 255.255.255.0

centos下hadoop2.6.0配置

Hadoop-2.6.0配置前面的部分跟配置Hadoop-1.2.1的一样就可以，什么都不用变，完全参考文档1即可。下面的部分就按照下面的做就可以了。 hadoop-2.6.0的版本用张老师的。下面的配置Hadoop hadoop-2.6.0的部分 1.修改hadoop- 2.6.0/etc/hadoop/hadoop-env.sh，添加JDK支持： export JAVA_HOME=/usr/java/jdk1.6.0_45 如果不知道你的JDK目录，使用命令echo $JAVA_HOME查看。 2.修改hadoop-2.6.0/etc/hadoop/core-site.xml 注意：必须加在节点内 hadoop.tmp.dir /home/hadoop/hadoop-2.6.0/tmp Abase for other temporary directories. https://www.doczj.com/doc/f05118960.html, hdfs://master:9000 3.修改hadoop-2.6.0/etc/hadoop/hdfs-site.xml https://www.doczj.com/doc/f05118960.html,.dir /home/hadoop/hadoop-2.6.0/dfs/name Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently. dfs.data.dir /home/hadoop/hadoop-2.6.0/dfs/data Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks. dfs.replication 1 4.修改hadoop-2.6.0/etc/hadoop/mapred-site.xml

hadoop2.2集群配置

Hadoop集群在linux下配置第一部分Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。下载地址:https://www.doczj.com/doc/f05118960.html,/hadoop/common/hadoop-2.2.0/ 如下图所示，下载红色标记部分即可。第二部分集群环境搭建 1、这里我们搭建一个由两台机器组成的集群： 10.11.1.67 tan/123456 yang 10.11.1.57 tan/123456 ubuntu 1.1 上面各列分别为IP、user/passwd、hostname 1.2 Hostname可以在/etc/hostname中修改 1.3 这里我们为每台机器新建了一个账户tan.这里需要给每个账户分配sudo的权限。（切换到root账户，修改/etc/sudoers文件，增加：tan ALL=(ALL) ALL ） 2、修改/etc/hosts 文件，增加两台机器的ip和hostname的映射关系 10.11.1.67 yang 10.11.1.57 ubuntu 3、打通yang到ubuntu的SSH无密码登陆 3.1 安装ssh 一般系统是默认安装了ssh命令的。如果没有，或者版本比较老，则可以重新安装： sudo apt-get install ssh 3.2设置local无密码登陆

安装完成后会在~目录（当前用户主目录，即这里的/home/tan）下产生一个隐藏文件夹.ssh（ls -a 可以查看隐藏文件）。如果没有这个文件，自己新建即可（mkdir .ssh）。具体步骤如下： 1、进入.ssh文件夹 2、 ssh-keygen -t rsa 之后一路回车（产生秘钥） 3、把id_rsa.pub 追加到授权的key 里面去（cat id_rsa.pub >> authorized_keys） 4、重启SSH 服务命令使其生效:service ssh restart 此时已经可以进行ssh localhost的无密码登陆【注意】：以上操作在每台机器上面都要进行。 3.3设置远程无密码登陆这里只有yang是master，如果有多个namenode，或者rm的话则需要打通所有master 都其他剩余节点的免密码登陆。（将yang的authorized_keys追加到ubuntu的authorized_keys）进入yang的.ssh目录 scp authorized_keys tan@ubuntu:~/.ssh/ authorized_keys_from_yang 进入ubuntu的.ssh目录 cat authorized_keys_from_yang >> authorized_keys 至此，可以在yang上面ssh tan@ubuntu进行无密码登陆了。 4、安装jdk 注意：这里选择下载jdk并自行安装，而不是通过源直接安装（apt-get install） 4.1、下载jdk（https://www.doczj.com/doc/f05118960.html,/technetwork/java/javase/downloads/index.html） 4.1.1 对于32位的系统可以下载以下两个Linux x86版本（uname -a 查看系统版本） 4.1.2 64位系统下载Linux x64版本(即x64.rpm和x64.tar.gz) 4.2、安装jdk（这里以.tar.gz版本，32位系统为例）安装方法参https://www.doczj.com/doc/f05118960.html,/javase/7/docs/webnotes/install/linux/linux-jdk.html 4.2.1 选择要安装java的位置，如/usr/目录下，新建文件夹java(mkdir java) 4.2.2 将文件jdk-7u40-linux-i586.tar.gz移动到/usr/java 4.2.3 解压：tar -zxvf jdk-7u40-linux-i586.tar.gz 4.2.4 删除jdk-7u40-linux-i586.tar.gz（为了节省空间）

hadoop集群完整配置过程详细笔记

本文为笔者安装配置过程中详细记录的笔记 1．下载hadoop hadoop-2.7.1.tar.gz hadoop-2.7.1-src.tar.gz 64位linux需要重新编译本地库 2．准备环境 Centos6.4 64位，3台 hadoop0 192.168.1.151namenode hadoop1 192.168.1.152 datanode1 Hadoop2 192.168.1.153 datanode2 1）安装虚拟机： vmware WorkStation 10，创建三台虚拟机，创建时，直接建立用户ha,密码111111.同时为root密码。网卡使用桥接方式。安装盘、 2). 配置IP.创建完成后，设置IP,可以直接进入桌面，在如下菜单下配置IP,配置好后，PING 确认好用。 3)更改三台机器主机名切换到root用户，更改主机名。 [ha@hadoop0 ~]$ su - root Password: [root@hadoop0 ~]# hostname hadoop0 [root@hadoop0 ~]# vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop0 以上两步后重启服务器。三台机器都需要修改。 4）创建hadoop用户由于在创建虚拟机时，已自动创建，可以省略。否则用命令创建。

5）修改hosts文件 [root@hadoop0 ~]# vi /etc/hosts 127.0.0.1 localhostlocalhost.localdomain localhost4 localhost4.localdomain4 ::1localhostlocalhost.localdomain localhost6 localhost6.localdomain6 192.168.1.151 hadoop0 192.168.1.152 hadoop1 192.168.1.153 hadoop2 此步骤需要三台机器都修改。 3．建立三台机器间，无密码SSH登录。 1）三台机器生成密钥，使用hadoop用户操作 [root@hadoop0 ~]# su– ha [ha@hadoop0 ~]$ ssh -keygen -t rsa 所有选项直接回车，完成。以上步骤三台机器上都做。 2）在namenode机器上，导入公钥到本机认证文件 [ha@hadoop0 ~]$ cat ~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys 3）将hadoop1和hadoop2打开/home/ha/.ssh/ id_rsa.pub文件中的内容都拷贝到hadoop0的/home/ha /.ssh/authorized_keys文件中。如下： 4）将namenode上的/home/ha /.ssh/authorized_keys文件拷贝到hadoop1和hadoop2的/home/ha/.ssh文件夹下。同时在三台机器上将authorized_keys授予600权限。 [ha@hadoop1 .ssh]$ chmod 600 authorized_keys 5）验证任意两台机器是否可以无密码登录，如下状态说明成功，第一次访问时需要输入密码。此后即不再需要。 [ha@hadoop0 ~]$ ssh hadoop1 Last login: Tue Aug 11 00:58:10 2015 from hadoop2 4．安装JDK1.7 1）下载JDK（32或64位），解压 [ha@hadoop0 tools]$ tar -zxvf jdk-7u67-linux-x64.tar.gz 2）设置环境变量（修改/etx/profile文件）， export JAVA_HOME=/usr/jdk1.7.0_67 export CLASSPATH=:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin 3）使环境变量生效，然后验证JDK是否安装成功。

hadoop2.6基于yarn安装配置详解

Hadoop2.6配置详解在hadoop2.0中通常由两个NameNode组成，一个处于active状态，另一个处于standby状态。Active NameNode对外提供服务，而Standby NameNode则不对外提供服务，仅同步active namenode的状态，以便能够在它失败时快速进行切换。这里还配置了一个zookeeper集群，用于ZKFC（DFSZKFailoverController）故障转移，当Active NameNode挂掉了，会自动切换Standby NameNode为standby状态hadoop-2.2.0中依然存在一个问题，就是ResourceManager只有一个，存在单点故障，hadoop-2.6解决了这个问题，有两个ResourceManager，一个是Active，一个是Standby，状态由zookeeper进行协调 hadoop2.0官方提供了两种HDFS HA的解决方案，一种是NFS，另一种是QJM（由cloudra提出，原理类似zookeeper）。这里我使用QJM完成。主备NameNode之间通过一组JournalNode同步元数据信息，一条数据只要成功写入多数JournalNode即认为写入成功。通常配置奇数个JournalNode 1安装前准备 1.1示例机器 192.168.0.10 hadoop1 192.168.0.20 hadoop2 192.168.0.30 hadoop3 192.168.0.40 hadoop4 每台机器都有一个hadoop用户，密码是hadoop 所有机器上安装jdk1.7。在hadoop2，hadoop3，hadoop4上安装Zookeeper3.4集群。 1.2配置ip与hostname 用root用户修改每台机器的hosts

hadoop集群部署之双虚拟机版

1、采用一台机器开两个虚拟机的方式构成两台电脑的环境，用root登录。分别查看其IP地址：输入# ifconfig，可得主机IP：192.168.1.99；分机为：192.168.1.100。 2、在两台机器上的/etc/hosts均添加相应的主机名和IP地址：这里主机名命名为shenghao，分机名命名为slave：保存后重启网络： 3、两台机器上均创立hadoop用户（注意是用root登陆） # useradd hadoop # passwd hadoop 输入111111做为密码登录hadoop用户：注意，登录用户名为hadoop，而不是自己命名的shenghao。 4、ssh的配置进入centos的“系统→管理→服务器设置→服务，查看sshd服务是否运行。在所有的机器上生成密码对： # ssh-keygen -t rsa 这时hadoop目录下生成一个.ssh的文件夹，可以通过# ls .ssh/来查看里面产生的私钥和公钥：id_rsa和id_rsa.pub。更改.ssh的读写权限： # chmod 755 .ssh 在namenode上（即主机上）

进入.ssh，将id_rsa.pub直接复制为authorized_keys（namenode的公钥）： # cp id_rsa.pub authorized_keys 更改authorized_keys的读写权限： # chmod 644 authorized_keys 【这个不必须，但保险起见，推荐使用】然后上传到datanode上（即分机上）： # scp authorized_keys hadoop@slave:/home/hadoop/.ssh # cd .. 退出.ssh文件夹这样shenghao就可以免密码登录slave了：然后输入exit就可以退出去。然后在datanode上（即分机上）：将datanode上之前产生的公钥id_rsa.pub复制到namenode上的.ssh目录中，并重命名为slave.id_rsa.pub，这是为了区分从各个datanode上传过来的公钥，这里就一个datanode，简单标记下就可。 # scp -r id_rsa.pub hadoop@shenghao:/home/hadoop/.ssh/slave.id_rsa.pub 复制完毕，此时，由于namenode中已经存在authorized_keys文件，所以这里是追加，不是复制。在namenode上执行以下命令，将每个datanode的公钥信息追加: # cat slave.id_rsa.pub >> authorized_keys 这样，namenode和datanode之间便可以相互ssh上并不需要密码：然后输入exit就可以退出去。 5、hadoop的集群部署配置hadoop前一定要配置JDK，请参考相关资料，这里就不赘述了。将下载好的hadoop-0.19.0.tar.gz文件上传到namenode的/home/hadoop/hadoopinstall 解压文件： # tar zxvf hadoop-0.19.0.tar.gz 在/erc/profile的最后添加hadoop的路径： # set hadoop path export HADOOP_HOME=/home/hadoop/hadoopinstall/hadoop-0.20.2 export PATH=$HADOOP_HOME/bin:$PATH 之后配置hadoop/conf中的4个文件：

hadoop3安装和配置

hadoop3.0.0安装和配置1.安装环境硬件：虚拟机操作系统：Centos 7 64位 IP：192.168.0.101 主机名：dbp JDK：jdk-8u144-linux-x64.tar.gz Hadoop：hadoop-3.0.0-beta1.tar.gz 2.关闭防火墙并配置主机名 [root@dbp]#systemctl stop firewalld #临时关闭防火墙 [root@dbp]#systemctl disable firewalld #关闭防火墙开机自启动 [root@dbp]#hostnamectl set-hostname dbp 同时修改/etc/hosts和/etc/sysconfig/network配置信息 3.配置SSH无密码登陆 [root@dbp]# ssh-keygen -t rsa #直接回车 [root@dbp]# ll ~/.ssh [root@dbp .ssh]# cp id_rsa.pub authorized_keys [root@dbp .ssh]# ssh localhost #验证不需要输入密码即可登录

4.安装JDK 1、准备jdk到指定目录 2、解压 [root@dbp software]# tar–xzvf jdk-8u144-linux-x64.tar.gz [root@dbp software]# mv jdk1.8.0_144/usr/local/jdk #重命名4、设置环境变量 [root@dbp software]# vim ~/.bash_profile 5、使环境变量生效并验证 5.安装Hadoop3.0.0 1、准备hadoop到指定目录 2、解压

Hadoop集群搭建(二)HDFS_2017

Hadoop集群搭建(二)HDFS HDFS只是Hadoop最基本的一个服务，很多其他服务，都是基于HDFS 展开的。所以部署一个HDFS集群，是很核心的一个动作，也是大数据平台的开始。安装Hadoop集群，首先需要有Zookeeper才可以完成安装。如果没有Zookeeper，请先部署一套Zookeeper。另外，JDK以及物理主机的一些设置等。都请参考下文： Hadoop集群搭建(一) Zookeeper 下面开始HDFS的安装 HDFS主机分配 1.19 2.168.67.101 c6701 --Namenode+datanode 2.192.168.67.102 c6702 --datanode 3.192.168.67.103 c6703 --datanode 1. 安装HDFS，解压hadoop- 2.6.0-EDH-0u2.tar.gz 我同时下载2.6和2.7版本的软件，先安装2.6，然后在执行2.6到2.7的升级步骤 https://www.doczj.com/doc/f05118960.html,eradd hdfs 2.echo "hdfs:hdfs"| chpasswd 3.su - hdfs

4.cd /tmp/software 5.tar -zxvf hadoop-2. 6.0-EDH-0u2.tar.gz -C /home/hdfs/ 6.mkdir -p /data/hadoop/temp 7.mkdir -p /data/hadoop/journal 8.mkdir -p /data/hadoop/hdfs/name 9.mkdir -p /data/hadoop/hdfs/data 10.chown -R hdfs:hdfs /data/hadoop 11.chown -R hdfs:hdfs /data/hadoop/temp 12.chown -R hdfs:hdfs /data/hadoop/journal 13.chown -R hdfs:hdfs /data/hadoop/hdfs/name 14.chown -R hdfs:hdfs /data/hadoop/hdfs/data 15.$ pwd 16./home/hdfs/hadoop-2.6.0-EDH-0u2/etc/hadoop 2. 修改core-site.xml对应的参数 1.$ cat core-site.xml 2.<configuration> 3. 4.<property> 5.<name>fs.defaultFS</name> 6.<value>hdfs://ns</value> 7.</property> 8.

hadoop安装简要过程和相关配置文件

Hadoop安装简要过程及配置文件 1、机器准备 ①、Linux版操作系统centos 6.x ②、修改主机名，方便配置过程中记忆。修改文件为： /etc/sysconfig/network 修改其中的HOSTNAME即可 ③、配置局域网内，主机名与对应ip，并且其中集群中所有的机器的文件相同，修改文件为 /etc/hosts 格式为： 10.1.20.241 namenode 10.1.20.242 datanode1 10.1.20.243 datanode2 2、环境准备 ①、配置ssh免密码登陆，将集群中master节点生成ssh密码文件。具体方法： 1）、ssh-keygen -t rsa 一直回车即可,将会生成一份 ~/.ssh/ 文件夹，其中id_rsa为私钥文件 id_rsa.pub公钥文件。 2）、将公钥文件追加到authorized_keys中然后再上传到其他slave节点上追加文件： cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 上传文件： scp ~/.ssh/authorized_keys root@dananode:~/.ssh/ 3）、测试是否可以免密码登陆：ssh 主机名或局域网ip ②、配置JDK ③、创建hadoop用户 groupadd hadoop useradd hadoop -g hadoop 4)、同步时间 ntpdate https://www.doczj.com/doc/f05118960.html, 5）、关闭防火墙 service iptables stop 3、安装cdh5 进入目录/data/tools/ (个人习惯的软件存储目录，你可以自己随便选择)； wget "https://www.doczj.com/doc/f05118960.html,/cdh5/one-click-install/redhat/ 6/x86_64/cloudera-cdh-5-0.x86_64.rpm" yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm 添加cloudera仓库验证： rpm --importhttps://www.doczj.com/doc/f05118960.html,/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

Hadoop集群部署方案

目录 1.网络拓扑 (1) 2.软件安装 (1) 2.1.修改主机名 (1) 2.2.修改host文件 (1) 2.3.创建Hadoop 用户 (2) 2.4.禁用防火墙 (2) 2.5.设置ssh登录免密码 (2) 2.6.安装hadoop (4) 3.集群配置 (5) 3.1.修改脚本 (5) 3.1.1................................................ hadoop-env.sh 5 3.1.2................................................... y arn-env.sh 5 3.2.配置文件 (5) 3.2.1................................................ core-site.xml 5 3.2.2................................................ hdfs-site.xml 7 3.2.3.............................................. mapred-site.xml 10 3.2. 4................................................ yarn-site.xml 11 3.2.5.配置datanode 14 3.3.创建目录 (14)

4.启动zk集群 (14) 5.启动hadoop (14) 5.1.启动所有节点journalnode (14) 5.2.格式化h1 namenode (15) 5.3.在h1上格式化ZK (15) 5.4.启动h1的namenode，zkfc (16) 5.5.启动h2上namenode (16) 5.6.同步h1上的格式化数据到h2 (16) 5.7.启动 HDFS (17) 5.8.启动 YARN (18) 5.9.启动h2 ResourceManager (18) 5.10........................................ h4上启动 JobHistoryServer 19 5.11.......................................... 查看ResourceManager状态19 6.浏览器访问 (19) https://www.doczj.com/doc/f05118960.html,node管理界面 (19) 6.1.1............................... http://192.168.121.167:50070 19 6.1.2............................... http://192.168.121.168:50070 20 6.2.ResourceManager管理界面 (20) 6.2.1............................... http://192.168.121.167:8088/ 21 6.2.2............................... http://192.168.121.168:8088/ 21 6.3.JournalNode HTTP 服务 (21) 6.3.1............................... http://192.168.121.167:8480/ 21 6.4.Datanode HTTP服务 (22)

Hadoop的安装与配置及示例wordcount的运行

Hadoop的安装与配置及示例程序 wordcount的运行目录前言 (1) 1 机器配置说明 (2) 2 查看机器间是否能相互通信（使用ping命令） (2) 3 ssh设置及关闭防火墙 (2) 1）fedora装好后默认启动sshd服务，如果不确定的话可以查一下[garon@hzau01 ~]$ service sshd status (3) 2）关闭防火墙（NameNode和DataNode都必须关闭） (3) 4 安装jdk1.6(集群中机子都一样) (3) 5 安装hadoop(集群中机子都一样) (4) 6 配置hadoop (4) 1）配置JA V A环境 (4) 2）配置conf/core-site.xml、conf/hdfs-site.xml、conf/mapred-site.xml文件 (5) 3）将NameNode上完整的hadoop拷贝到DataNode上，可先将其进行压缩后直接scp 过去或是用盘拷贝过去 (7) 4）配置NameNode上的conf/masters和conf/slaves (7) 7 运行hadoop (7) 1）格式化文件系统 (7) 2）启动hadoop (7) 3）用jps命令查看进程，NameNode上的结果如下： (8) 4）查看集群状态 (8) 8 运行Wordcount.java程序 (8) 1）先在本地磁盘上建立两个文件f1和f2 (8) 2）在hdfs上建立一个input目录 (9) 3）将f1和f2拷贝到hdfs的input目录下 (9) 4）查看hdfs上有没有f1,f2 (9) 5)执行wordcount（确保hdfs上没有output目录） (9) 6）运行完成，查看结果 (9) 前言最近在学习Hadoop，文章只是记录我的学习过程，难免有不足甚至是错误之处，请大家谅解并指正！Hadoop版本是最新发布的Hadoop-0.21.0版本，其中一些Hadoop命令已发生变化，为方便以后学习，这里均采用最新命令。具体安装及配置过程如下：