当前位置:文档之家› hadoop hbase集群搭建 详细手册V0.9

hadoop hbase集群搭建 详细手册V0.9

hadoop hbase集群搭建 详细手册V0.9
hadoop hbase集群搭建 详细手册V0.9

Hadoop,ZooKeeper,HBase分布式搭建前提准备

注:

hbase的安装需要hadoop和zookeeper和hbase,生产环境下需要将zookeeper独立安装,hbase软件选择cloudera的cdh3u0,这样不会出现版本不兼容等问题。apache的版本需要重新编译hadoop0.20.2-appender版以保证没有数据丢失。

1、机器集群结构分布

使用8台曙光服务器搭建集群,ip为 *.*.83.1-8,hostname为hadoop-node1到hadoop-node8,其中

机器名 IP 所安装的程序

hadoop-node1 49.123.83.1hadoop namenode / hbase HMaster

hadoop-node2 *.*.83.2 hadoop datanode / hbase HRegionServer

hadoop-node3 *.*.83.3 hadoop datanode / hbase HRegionServer

hadoop-node4 *.*.83.4 hadoop datanode / hbase HRegionServer

hadoop-node5 *.*.83.5 hadoop datanode / hbase HRegionServer

hadoop-node6 *.*.83.6 hadoop datanode HRegionServer zookeeper hadoop-node7 *.*.83.7 hadoop datanode HRegionServer zookeeper hadoop-node8 *.*.83.8 hadoop secondNamenode / hbase HMaster zookeeper

2.硬件环境:

8台曙光服务器,cpu8核,每台机器都有两个500GB硬盘。

操作系统:SUSE enterprise 11

操作系统分区:

硬盘1:sda

/boot 400MB

/Swap 10GB

/ 余下的sda空间

硬盘2:/sdb2 都挂载在/sdb2上

3.提前准备相关软件

Jdk:jdk-6u30-linux-x64.bin

Hadoop:hadoop-0.20.2-cdh-3u**

Zookeeper:zookeeper-3.3.5-cdh3u**

Hbase:hbase-0.906-c*******

详细操作:

当前用户hadoop

/home/hadoop/app

/app/hadoop/hadoop1.0.0/

/app/hbase/hbase0.92.0/

/app/zookeeper/zoookeeper3.3.4/

Step1 安装SUSE及搭建基本环境

1.操作系统具体安装可以随意,尽量保证每台机器一致,如每台的机器名,和ip配

置都要符合上面所规划,这样方便之后的操作

2.在所有机器上,创建hadoop用户

3.保证每台suse服务器上的ssh服务都已经启动

4.在每台机器上/home/hadoop/下新建如下一些目录/program/java; /app/hadoop;

/app/hbase; /app/zookeeper; /app/zookeeperdata

5.将相应的软件上传到实体机,

6.在hadoop-node1上解压hadoop和hbase

# tar zxvf hadoop-0.20.2-cdh3u0.tar.gz

# tar zxvf hbase-0.90.1-cdh3u0.tar.gz

7.hadoop-node6在上解压zookeeper

# tar zxvf zookeeper-3.3.3-cdh3u0.tar.gz

8.在节点1-5,8上修改/etc/profile

export JAVA_HOME=/home/hadoop/program/java/jdk1.6.0_30

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$CLASSPATH

export HADOOP_HOME=/home/hadoop/app/hadoop/hadoop-0.20.2-cdh3u4

export HBASE_HOME=/home/hadoop/app/hbase/hbase-0.90.6-cdh3u4

9.在节点6,7上修改/etc/profile

export JAVA_HOME=/home/hadoop/program/java/jdk1.6.0_30

export OOKEEPER_HOME=/home/hadoop/app/zookeeper/zookeeper-3.3.5-cdh3u4

export PATH=$JAVA_HOME/bin:$ZOOKEEPER_HOME/conf:$PATH

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$CLASSPATH

10.ssh免密码登录

用hadoop用户登录所有机器,在/home/hadoop/下建立.ssh目录;

运行 # ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

这样会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。

# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

拷贝authorized_keys到2 到8

#scp/home/hadoop/.ssh/authorized_keys hadoop@*.*.83.2:/home/hadoop/.ssh/……

#scp/home/hadoop/.ssh/authorized_keys hadoop@*.*.83.8:/home/hadoop/.ssh/

11.修改hosts文件,每一台实体机配置都如下

# sudo vim /etc/hosts

从1登录1,2…8用hostname(hadoop-nodeX),第一次需要确认,以后就可以直接登录。

# ssh hadoop-node1

# ssh hadoop-node2

# ssh hadoop-node3

# ssh hadoop-node4

# ssh hadoop-node5

# ssh hadoop-node6

# ssh hadoop-node7

# ssh hadoop-node8

部分操作截图:

1.上传jdk 最好是使用64系统

2.上传hadoop,hbase,zookeeper

Step2 安装JDK

1.#cd java

2.#chmod +x jdk-6u30-linux-x64.bin

3../jdk-6u24-linux-x6

4.bin

Hadoop 安装

1.在节点1和节点8上分别都创建/data

mkdir /home/hadoop/data

2.在节点2和5上分别都创建 /disk1,/disk2,/disk3

即mkdir /home/hadoop/disk1 disk2 disk3

3.vim /home/hadoop/app/hadoop/hadoop-0.20.2-cdh3u0/conf/hadoop-env.sh

4.修改/home/hadoop/app/hadoop/hadoop-0.20.2-cdh3u0/conf/core-site.xml

添加,截图如下:

5.修改/home/hadoop/app/hadoop/hadoop-0.20.2-cdh3u0/conf/hdfs-site.xml

截图:

6.vi home/hadoop/app/hadoop/hadoop-0.20.2-cdh3u0/conf/mapred-site.xml 截图:

7.修改/home/hadoop/app/hadoop/hadoop-0.20.2-cdh3u0/conf/masters

截图:

8.修改/home/hadoop/app/hadoop/hadoop-0.20.2-cdh3u0/conf/slaves

截图:

9.很关键的一步:

拷贝节点1的hadoop到2-5,8

#scp –r ./hadoop-0.20.2-c**/ hadoop@*.*.*.2:/home/hadoop/app/hadoop/…

#scp –r ./hadoop-0.20.2-c**/ hadoop@*.*.*.5:/home/hadoop/app/hadoop/

10.格式化hadoop文件系统

# hadoop namenode –format

11.启动hadoop,在1上运行

# start-all.sh

注:运行jps 查看各个节点运行情况截图:

节点1(主节点):

节点2或3、4、5(数据节点):

节点6或7 (Zookeeper节点):

节点8(secondName和Hbase Master节点):

查看集群状态:http://*.*.83.1:50070/dfshealth.jsp

查看集群状态:http://*.*.83.1:50030/dfshealth.jsp

Zookeeper 安装

1. 在节点6,7上创建/home/hadoop/zookeeperdata目录

修改6的/home/hadoop/app/zookeeper/zookeeper-3.3.3-cdh3u0/conf/zoo.cfg

2. 拷贝6的zookeeper到7

# scp –r ./zookeeper-3.3.3-*/ hadoop@*.*.*.7:/home/hadoop/app/zookeeper/

3.在6,7的/home/hadoop/zookeeperdata目录下建myid文件,内容分别为1,2,3

启动zookeeper,

4.在6,7上分别执行

# zkServer.sh start

5.启动后可以使用

# zkServer.sh status

查看状态

Hbae 安装

1.在节点1上修改/home/hadoop/app/hbae/hbase-0.90.1-cdh3u0/conf/hbase-env.sh

export JAVA_HOME=/home/hadoop/program/java/jdk1.6.0_30

export HBASE_MANAGES_ZK=false

2.在节点1上修改/home/hadoop/app/hbase/hbase-0.90.1-cdh3u0/conf/hbase-site.xml

hbase.rootdir

hdfs://hadoop-node1:9000/hbase

hbase.cluster.distributed

true

hbase.master.port

60000

hbase.zookeeper.quorum

hadoop-node6,hadoop-node7

3. 在1上修改/home/hadoop/app/hbase/hbase-0.90.1-cdh3u0/conf/regionservers

在regionservers中添加如下内容:

hadoop-node2

hadoop-node3

hadoop-node4

hadoop-node5

4.拷1的hbase到2,3,4,5 8

# scp -r ./hbase-0.90.1-cdh**/ hadoop@*.*.*.2:/home/hadoop/app/hbae/…..

5. 启动hbase

在节点1上执行

# start-hbase.sh

6.启动hbase的第二个HMaster

在节点8上上执行

# hbase-daemon.sh start master

7. 查看Region Server:

http://*.*.83.1:60030/regionserver.jsp

8. 查看ZK:

http://*.*.83.1:60010/zk.jsp

注:

启动顺序

1.hadoop

2.zookeeper

3.hbase

4.第二个HMaster

停止顺序

1.第二个HMaster, kill-9删除

2.hbase

3.zookeeper

4.hadoop

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群,默认读者已经掌握了Hadoop 的单机伪分布式配置,否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。 本教程由厦门大学数据库实验室出品,转载请注明。本教程适合于原生Hadoop 2,包括Hadoop 2.6.0, Hadoop 2.7.1 等版本,主要参考了官方安装教程,步骤详细,辅以适当说明,保证按照步骤来,都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。 为了方便新手入门,我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分,可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境,但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。 环境 本教程使用Ubuntu 14.04 64位作为系统环境,基于原生Hadoop 2,在Hadoop 2.6.0 (stable)版本下验证通过,可适合任何Hadoop 2.x.y 版本,例如Hadoop 2.7.1,Hadoop 2.4.1 等。 本教程简单的使用两个节点作为集群环境: 一个作为Master 节点,局域网IP 为192.168.1.121;另一个作为Slave 节点,局域网IP 为192.168.1.122。 准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop,并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍,请前往查看,不再重复叙述。 继续下一步配置前,请先完成上述流程的前 4 个步骤。 网络配置 假设集群所用的节点都位于同一个局域网。 如果使用的是虚拟机安装的系统,那么需要更改网络连接方式为桥接(Bridge)模式,才能实现多个节点互连,例如在VirturalBox 中的设置如下图。此外,如果节点的系统是在虚拟机中直接复制的,要确保各个节点的Mac 地址不同(可以点右边的按钮随机生成MAC 地址,否则IP 会冲突):

hadoop集群部署之双虚拟机版

1、采用一台机器开两个虚拟机的方式构成两台电脑的环境,用root登录。 分别查看其IP地址:输入# ifconfig,可得主机IP:192.168.1.99;分机为:192.168.1.100。 2、在两台机器上的/etc/hosts均添加相应的主机名和IP地址: 这里主机名命名为shenghao,分机名命名为slave: 保存后重启网络: 3、两台机器上均创立hadoop用户(注意是用root登陆) # useradd hadoop # passwd hadoop 输入111111做为密码 登录hadoop用户: 注意,登录用户名为hadoop,而不是自己命名的shenghao。 4、ssh的配置 进入centos的“系统→管理→服务器设置→服务,查看sshd服务是否运行。 在所有的机器上生成密码对: # ssh-keygen -t rsa 这时hadoop目录下生成一个.ssh的文件夹, 可以通过# ls .ssh/来查看里面产生的私钥和公钥:id_rsa和id_rsa.pub。 更改.ssh的读写权限: # chmod 755 .ssh 在namenode上(即主机上)

进入.ssh,将id_rsa.pub直接复制为authorized_keys(namenode的公钥): # cp id_rsa.pub authorized_keys 更改authorized_keys的读写权限: # chmod 644 authorized_keys 【这个不必须,但保险起见,推荐使用】 然后上传到datanode上(即分机上): # scp authorized_keys hadoop@slave:/home/hadoop/.ssh # cd .. 退出.ssh文件夹 这样shenghao就可以免密码登录slave了: 然后输入exit就可以退出去。 然后在datanode上(即分机上): 将datanode上之前产生的公钥id_rsa.pub复制到namenode上的.ssh目录中,并重命名为slave.id_rsa.pub,这是为了区分从各个datanode上传过来的公钥,这里就一个datanode,简单标记下就可。 # scp -r id_rsa.pub hadoop@shenghao:/home/hadoop/.ssh/slave.id_rsa.pub 复制完毕,此时,由于namenode中已经存在authorized_keys文件,所以这里是追加,不是复制。在namenode上执行以下命令,将每个datanode的公钥信息追加: # cat slave.id_rsa.pub >> authorized_keys 这样,namenode和datanode之间便可以相互ssh上并不需要密码: 然后输入exit就可以退出去。 5、hadoop的集群部署 配置hadoop前一定要配置JDK,请参考相关资料,这里就不赘述了。 将下载好的hadoop-0.19.0.tar.gz文件上传到namenode的/home/hadoop/hadoopinstall 解压文件: # tar zxvf hadoop-0.19.0.tar.gz 在/erc/profile的最后添加hadoop的路径: # set hadoop path export HADOOP_HOME=/home/hadoop/hadoopinstall/hadoop-0.20.2 export PATH=$HADOOP_HOME/bin:$PATH 之后配置hadoop/conf中的4个文件:

如何基于Docker快速搭建多节点Hadoop集群

如何基于Docker快速搭建多节点Hadoop集群 Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节点数的Hadoop集群。 Docker最核心的特性之一,就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后,开发了接近最小化的Hadoop镜像,并且支持快速搭建任意节点数的Hadoop集群。 一. 项目简介 GitHub: kiwanlau/hadoop-cluster-docker 直接用机器搭建Hadoop集群是一个相当痛苦的过程,尤其对初学者来说。他们还没开始跑wordcount,可能就被这个问题折腾的体无完肤了。而且也不是每个人都有好几台机器对吧。你可以尝试用多个虚拟机搭建,前提是你有个性能杠杠的机器。 我的目标是将Hadoop集群运行在Docker容器中,使Hadoop开发者能够快速便捷地在本机搭建多节点的Hadoop集群。其实这个想法已经有了不少实现,但是都不是很理想,他们或者镜像太大,或者使用太慢,或者使用了第三方工具使得使用起来过于复杂。下表为一些已知的Hadoop on Docker项目以及其存在的问题。 我的项目参考了alvinhenrick/hadoop-mutinode项目,不过我做了大量的优化和重构。alvinhenrick/hadoop-mutinode项目的GitHub主页以及作者所写的博客地址如下: GitHub:Hadoop (YARN) Multinode Cluster with Docker

Hadoop集群安装详细步骤

Hadoop集群安装详细步骤|Hadoop安装配置 文章分类:综合技术 Hadoop集群安装 首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。 Hadoop在windows下还未经过很好的测试,所以笔者推荐大家在linux(cent os 5.X)下安装使用。 准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh、rsync和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。可以使用yum install rsync来安装rsync。一般来说ssh是默认安装到系统中的。Jdk1.6的安装方法这里就不多介绍了。 确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.1.111、192.168.1.112和192.168.1.113(下文简称111,112和113),且都使用root用户。 下面是在linux平台下安装Hadoop的过程: 在所有服务器的同一路径下都进行这几步,就完成了集群Hadoop软件的安装,是不是很简单?没错安装是很简单的,下面就是比较困难的工作了。 集群配置

根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由 NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。 Hadoop的DFS需要确立NameNode与DataNode角色,一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色,一般JobTracker与NameNode共用一台机器作为master,而TaskTracker与DataNode同属于slave。至于NameNode/DataNode和JobTracker/TaskTracker的概念这里就不多讲了,需要了解的可以参看相关文档。 在这里我们使用111作为NameNode与JobTracker,其它两台机器作为DataNode和TaskTracker,具体的配置如下: 环境的配置 在$HADOOP_HOME/conf/hadoop-env.sh中定义了Hadoop启动时需要的环境变量设置,其中我们至少需要配置JAVA_HOME(Jdk的路径)变量;另外我们一般还需要更改HADOOP_LOG_DIR(Hadoop的日志路径)这个变量,默认的设置是“export HADOOP_LOG_DIR=${HADOOP_HOME}/logs”,一般需要将其配置到一个磁盘空间比较大的目录下。 Hadoop核心程序配置 Hadoop 包括一组默认配置文件($HADOOP_HOME/src目录下的 core/core-default.xml, hdfs/hdfs-default.xml 和 mapred/mapred-default.xml),大家可以先好好看看并理解默认配置文件中的那些属性。虽然默认配置文件能让Hadoop核心程序顺利启动,但对于开发人员来说一般需要自己的来设置一些常规配置以满足开发和业务的需求,所以我们需要对默认配置文件的值进行覆盖,具体方法如下。 $HADOOP_HOME/conf/core-site.xml是Hadoop的核心配置文件,对应并覆盖core-default.xml中的配置项。我们一般在这个文件中增加如下配置: Core-site.xml代码 1. 2. 3. 4. https://www.doczj.com/doc/d16454667.html, 5. hdfs://192.168.1.111:9000 6. 7.

Hadoop集群搭建(二)HDFS_2017

Hadoop集群搭建(二)HDFS HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS 展开的。所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始。 安装Hadoop集群,首先需要有Zookeeper才可以完成安装。如果没有Zookeeper,请先部署一套Zookeeper。另外,JDK以及物理主机的一些设置等。都请参考下文: Hadoop集群搭建(一) Zookeeper 下面开始HDFS的安装 HDFS主机分配 1.19 2.168.67.101 c6701 --Namenode+datanode 2.192.168.67.102 c6702 --datanode 3.192.168.67.103 c6703 --datanode 1. 安装HDFS,解压hadoop- 2.6.0-EDH-0u2.tar.gz 我同时下载2.6和2.7版本的软件,先安装2.6,然后在执行2.6到2.7的升级步骤 https://www.doczj.com/doc/d16454667.html,eradd hdfs 2.echo "hdfs:hdfs"| chpasswd 3.su - hdfs

4.cd /tmp/software 5.tar -zxvf hadoop-2. 6.0-EDH-0u2.tar.gz -C /home/hdfs/ 6.mkdir -p /data/hadoop/temp 7.mkdir -p /data/hadoop/journal 8.mkdir -p /data/hadoop/hdfs/name 9.mkdir -p /data/hadoop/hdfs/data 10.chown -R hdfs:hdfs /data/hadoop 11.chown -R hdfs:hdfs /data/hadoop/temp 12.chown -R hdfs:hdfs /data/hadoop/journal 13.chown -R hdfs:hdfs /data/hadoop/hdfs/name 14.chown -R hdfs:hdfs /data/hadoop/hdfs/data 15.$ pwd 16./home/hdfs/hadoop-2.6.0-EDH-0u2/etc/hadoop 2. 修改core-site.xml对应的参数 1.$ cat core-site.xml 2.<configuration> 3.<!--指定hdfs的nameservice为ns --> 4.<property> 5.<name>fs.defaultFS</name> 6.<value>hdfs://ns</value> 7.</property> 8.<!--指定hadoop数据临时存放目录-->

Hadoop集群部署方案

Hadoop集群部署方案

目录 1.网络拓扑 (1) 2.软件安装 (1) 2.1.修改主机名 (1) 2.2.修改host文件 (1) 2.3.创建Hadoop 用户 (2) 2.4.禁用防火墙 (2) 2.5.设置ssh登录免密码 (2) 2.6.安装hadoop (4) 3.集群配置 (5) 3.1.修改脚本 (5) 3.1.1................................................ hadoop-env.sh 5 3.1.2................................................... y arn-env.sh 5 3.2.配置文件 (5) 3.2.1................................................ core-site.xml 5 3.2.2................................................ hdfs-site.xml 7 3.2.3.............................................. mapred-site.xml 10 3.2. 4................................................ yarn-site.xml 11 3.2.5.配置datanode 14 3.3.创建目录 (14)

4.启动zk集群 (14) 5.启动hadoop (14) 5.1.启动所有节点journalnode (14) 5.2.格式化h1 namenode (15) 5.3.在h1上格式化ZK (15) 5.4.启动h1的namenode,zkfc (16) 5.5.启动h2上namenode (16) 5.6.同步h1上的格式化数据到h2 (16) 5.7.启动 HDFS (17) 5.8.启动 YARN (18) 5.9.启动h2 ResourceManager (18) 5.10........................................ h4上启动 JobHistoryServer 19 5.11.......................................... 查看ResourceManager状态19 6.浏览器访问 (19) https://www.doczj.com/doc/d16454667.html,node管理界面 (19) 6.1.1............................... http://192.168.121.167:50070 19 6.1.2............................... http://192.168.121.168:50070 20 6.2.ResourceManager管理界面 (20) 6.2.1............................... http://192.168.121.167:8088/ 21 6.2.2............................... http://192.168.121.168:8088/ 21 6.3.JournalNode HTTP 服务 (21) 6.3.1............................... http://192.168.121.167:8480/ 21 6.4.Datanode HTTP服务 (22)

hadoopq集群搭建

疑难小结 1:HDFS进入安全模式: Name node is in safemode mode 退出安全模式, 执行命令: hadoop dfsadmin -safemode leave 2:INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-Java classes where applicable -- hadoop的本地库加载失败。 检查native库的版本信息,32bit的版本和64bit的版本在不匹配的机器上会加载失败,检查的命令是file native库依赖的glibc的版本问题。如果在高版本gcc(glibc)的机器上编译的native库,放到低版本的机器上使用,会由于glibc版本不一致导致该错误。 3: maps to localhost, but this does not map back 解决: 原因: 因为DNS服务器把 192.168.x.x 的地址都反向解析成 localhost ,而DNS服务器不是自己的,不能改。 办法: 编辑ssh 客户端的 /etc/hosts 文件,把出问题的IP 地址和主机名加进去,就不会报这样的错了。 4: jps命令正常,但是8088端口的WEB页面无法访问 解决方案: 检查一下防火墙和selinux状态, 将防火墙和selinux关闭 防火墙: service iptables status 永久修改: 修改/etc/selinux/config文件中设置SELINUX=disabled ,然后重启服务器。 5: 8088端口访问正常,但是看不到datanode节点 解决方案: 可能出现的问题和解决方案: 1.8080端口没有打开, 手动启动yarn 2.8080端口被其他进程占用, kill掉占用该端口的进程, 然后重启yarn

Hadoop集群架构搭建分析

Hadoop集群架构搭建分析 一、概述 1、集群在6台机器上搭建完成,IP与hostname设置如下: 10.8.3.240 namenode 10.8.3.246 datanode1 10.8.3.239 datanode2 10.8.3.249 datanode3 10.8.3.238 datanode4 10.8.3.251 datanode5 2、软件安装描述: Hadoop Zookeeper HBase MongoDB namenode √√√datanode1 √√ datanode2 √√ datanode3 √√ datanode4 √√ datanode5 √ 3、进程运行描述 namenode datanode1datanode2datanode3datanode4datanode5 NameNode√ DataNode√√√√√JobTracker√ TaskTracker√√√√√HMaster√ HRegionServer√ √ Secondary NameNode HQuorumPeer √√√ 注: (1)NameNode、DataNode、SecondaryNameNode是hdfs进程 (2)JobTracker、TaskTracker是mapreducer进程 (3)HMaster、HRegionServer是HBase进程 (4)HQuorumPeer是Zookeeper进程

1、设置IP 修改/etc/sysconfig/network-scripts/ifcfg-eth0文件:DEVICE=eth0 --网卡名称 BOOTPROTO=static --获取静态IP HW ADDR=00:E0:4C:F8:3B:CE --机器MAC地址 IPADDR=10.8.3.240 --IP NETMASK=255.255.255.0 --子网掩码 NETWORK=10.8.3.254 --默认网关 ONBOOT=yes 2、设置hostname 在所有机器的/etc/hosts 文件下添加: 10.8.3.240 namenode 10.8.3.246 datanode1 10.8.3.239 datanode2 10.8.3.249 datanode3 10.8.3.238 datanode4 10.8.3.251 datanode5 注:为了使机器辨别到hostname,必须重启机器。

hadoop.集群搭建详解

hadoop2.2.0集群搭建 PS:apache提供的hadoop-2.2.0的安装包是在32位操作系统编译的,因为hadoop依赖一些C++的本地库,所以如果在64位的操作上安装 hadoop-2.2.0就需要重新在64操作系统上重新编译 1.准备工作:(参考伪分布式搭建) 1.1修改Linux主机名 1.2修改IP 1.3修改主机名和IP的映射关系 1.4关闭防火墙 1.5ssh免登陆 1.6.安装JDK,配置环境变量等 2.集群规划:

PS: 在hadoop2.0中通常由两个NameNode组成,一个处于active 状态, 另一个处于standby状态。Active NameNode对外提供服务, 而Standby NameNode则不对外提供服务,仅同步active namenode 的状态,以便能够在它失败时快速进行切换。 hadoop2.0官方提供了两种HDFS HA的解决方案,一种是NFS,另一种是QJM。这里我们使用简单的QJM。在该方案中, 主备NameNode之间通过一组JournalNode同步元数据信息, 一条数据只要成功写入多数JournalNode即认为写入成功。 通常配置奇数个JournalNode

这里还配置了一个zookeeper集群,用于ZKFC (DFSZKFailoverController)故障转移,当Active NameNode挂 掉了,会自动切换Standby NameNode为standby状态3.安装步骤: 3.1.安装配置zooekeeper集群 3.1.1解压 tar -zxvf zookeeper-3.4.5.tar.gz -C /cloud/ 3.1.2修改配置 cd /cloud/zookeeper-3.4.5/conf/ cp zoo_sample.cfg zoo.cfg vim zoo.cfg 修改:dataDir=/cloud/zookeeper-3.4.5/tmp 在最后添加: server.1=hadoop01:2888:3888 server.2=hadoop02:2888:3888 server.3=hadoop03:2888:3888 保存退出 然后创建一个tmp文件夹

第2课-Hadoop3.1分布式集群安装

Hadoop3.1.0伪分布式集群环境安装 【实验名称】 Hadoop3.1.0伪分布式集群环境安装 【实验目的】 (1)熟悉掌握Hadoop项目体系结构及其组成原理,通过对各个组件的学习掌握各个组件的运行机制和原理。 (2)能够搭建大数据hadoop底层平台,熟练掌握Hadoop平台的安装和hadoop常用命令使用方法; 【实验要求】 要求实验结束时,已构建出以下HDFS集群: 1.hadoop1上部署主服务NameNode; 2.hadoop2、hadoop3上部署从服务DataNode; 【实验环境】 实验设备包括3台Linux虚拟机、实验所需安装包

【实验步骤】 1.基础环境准备 1.1 集群规划 本节实验搭建hadoop分布式集群环境,通过三台hadoop主机建立整个hadoop3.1.0集群,其中hadoop1作为主节点(NameNode),hadoop2和hadoop3作为数据节点(DataNode)。平台提供已安装好系统的Linux虚拟机,底层系统为centos6.8 X64。

1.2 系统准备 本实验中,Linux系统已经准备好,包括安装Linux系统以及安装vmware Tools等操作。 软件安装包存放于/opt/hadoop-package目录下 1.3 网络配置 为每个Hadoop主机配置相应的IP地址,每台的操作方法相同。IP地址根据实验环境进行配置,如果实验环境使用的是动态IP地址则可以跳过网络配置部分,进入下一步操作。如果有疑问请联系授课老师 1.3.1修改网络配置文件 1、首先,确保在root用户下进行操作。通过vi命令修改网络配置文件[root@localhost ~]# vi /etc/sysconfig/network-scripts/ifcfg-eth0 2、然后按i键进入编辑模式,我们需要将其中的BOOTPROTO=dhcp改为BOOTPROTO=static意思是设置为静态IP,将ONBOOT=no改为ONBOOT=yes意思是将网卡设置为开机启用,同时在文字下方添加如下命令:IPADDR=172.16.16.108 #静态IP GATEWAY=172.16.16.254 #默认网关 NETMASK=255.255.255.0 #子网掩码 DNS1=114.114.114.114 #DNS 配置

Hadoop3.0.0完全分布式集群搭建过程

Hadoop3.0.0完全分布式集群搭建过程1.选取两台服务器(CentOS系统64位) 192.168.33.181 主节点 192.168.33.182 从节点 之后的操作如果是用普通用户操作的话也必须知道root用户的密码,因为有些操作是得用root用户操作。如果是用root用户操作的话就不存在以上问题。 我是用root用户操作的。 2.修改hosts文件 修改两台服务器的hosts文件。 vi /etc/hosts 在原文件的基础最后面加上: 192.168.33.181 Master 192.168.33.182 Slave1 修改完成后保存执行如下命令。 source /etc/hosts 3.ssh无密码验证配置 3.1修改ssh配置文件"/etc/ssh/sshd_config"的下列内容,将以下内容的注释去掉: RSAAuthentication yes # 启用 RSA 认证 PubkeyAuthentication yes # 启用公钥私钥配对认证方式 AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径(和上面生成的文件同) 重启ssh服务,才能使刚才设置有效。

service sshd restart 验证无密码登录本机是否成功。 ssh localhost 3.1在Master上生成密钥: ssh-keygen -t rsa -P '' 将Master上密钥拷贝至Slave1 ssh-copy-id Slave1 ssh命令测试是否连接成功 ssh Slave1 exit #退出 重复上述操作,在Slave1上生成密钥: ssh-keygen -t rsa -P '' 将Slave1上密钥拷贝至Master ssh-copy-id Slave1 3.6ssh命令测试是否连接成功 ssh Master exit #退出 4.安装基础环境(JAVA和SCALA环境) 4.1 Java1.8环境搭建 1)下载jdk-8u144-linux-x64.tar.gz解压 tar -zxvf jdk-8u144-linux-x64.tar.gz 2)添加Java环境变量,在/etc/profile中添加:export JAVA_HOME=/usr/local/jdk1.8.0_144

hadoop学习笔记(一、hadoop集群环境搭建)

Hadoop集群环境搭建1、准备资料 虚拟机、Redhat6.5、hadoop-1.0.3、jdk1.6 2、基础环境设置 2.1配置机器时间同步 #配置时间自动同步 crontab -e #手动同步时间 /usr/sbin/ntpdate https://www.doczj.com/doc/d16454667.html, 1、安装JDK 安装 cd /home/wzq/dev ./jdk-*****.bin 设置环境变量 Vi /etc/profile/java.sh 2.2配置机器网络环境 #配置主机名(hostname) vi /etc/sysconfig/network #修第一台hostname 为master hostname master

#检测 hostname #使用setup 命令配置系统环境setup

#检查ip配置 cat /etc/sysconfig/network-scripts/ifcfg-eth0 #重新启动网络服务 /sbin/service network restart #检查网络ip配置 /sbin/ifconfig 2.3关闭防火墙

2.4配置集群hosts列表 vi /etc/hosts #添加一下内容到vi 中 2.5创建用户账号和Hadoop部署目录和数据目录 #创建hadoop 用户 /usr/sbin/groupadd hadoop

#分配hadoop 到hadoop 组中 /usr/sbin/useradd hadoop -g hadoop #修改hadoop用户密码 Passwd hadoop #创建hadoop 代码目录结构 mkdir -p /opt/modules/hadoop/ #修改目录结构权限拥有者为为hadoop chown -R hadoop:hadoop /opt/modules/hadoop/ 2.6生成登陆密钥 #切换到Hadoop 用户下 su hadoop cd /home/hadoop/ #在master、node1、node2三台机器上都执行下面命令,生成公钥和私钥 ssh-keygen -q -t rsa -N "" -f /home/hadoop/.ssh/id_rsa cd /home/hadoop/.ssh #把node1、node2上的公钥拷贝到master上 scp /home/hadoop/.ssh/ id_rsa.pub hadoop@master:/home/hadoop/.ssh/node1_pubkey scp /home/hadoop/.ssh/ id_rsa.pub hadoop@master:/home/hadoop/.ssh/node2_pubkey #在master上生成三台机器的共钥 cp id_rsa.pub authorized_keys cat node1_pubkey >> authorized_keys cat node2_pubkey >> authorized_keys rm node1_pubkey node2_pubkey #吧master上的共钥拷贝到其他两个节点上 scp authorized_keys node1: /home/hadoop/.ssh/ scp authorized_keys node1: /home/hadoop/.ssh/ #验证 ssh master ssh node1 ssh node2 没有要求输入密码登陆,表示免密码登陆成功

Windows环境下Hadoop开发环境配置

Windows环境下Hadoop开发环境配置 一、事先准备 1)Hadoop集群环境搭建 已经用三台虚拟机(操作系统为ubuntu 10.0.4)搭建完成一个hadoop分布式集群,分别是hadoop1: 192.168.201.104,hadoop2: 192.168.201.54和hadoop3: 192.168.201.100 ,其中hadoop1为namenode,其余为datanode。 2)windows安装JDK和eclipse 过程从略,需要注意应安装与hadoop集群所用JDK兼容的版本。本例中,hadoop集群安装的是64位的JDK-8.0.20,因此Windows下选择64位的JDK-8.0.65,eclipse版本为支持64位的Kepler Service Release 2。 3)hadoop安装包解压 将搭建hadoop集群的安装包拷贝并解压到windows开发机器的某个目录下,本例中的安装包为hadoop-2.6.1.tar.gz,解压到D:\hadoop-2.6.1目录。 4)hadoop for eclipse插件包下载 下载hadoop for eclipse插件。由于本例中hadoop集群为hadoop2,插件也必须是2.x 版本。本例中插件包为:hadoop-eclipse-plugin-2.2.0。 二、配置eclipse 1)拷贝插件包 将插件包拷贝至eclipse安装目录的plugin目录下,然后重启eclipse。 2)配置hadoop安装路径 打开"Window"--"Prefrences",此时左侧会出现"Hadoop Map/Reduce"选项,将其配置为hadoop安装包解压后的目录。 3)配置Map/Reduce Locations 打开"Window"--"Perspectives"--"Open Perspective"--"Other ...",在弹出窗口中选择"Map/Reduce",点击"OK"。

Hadoop集群搭建

Hadoop集群搭建 Master机的ip地址假定为192.168.1.1 slaves1的假定为192.168.1.2 slaves2的假定 为192.168.1.3 各台机器的用户同为redmap,hadoop 根目录为:/hadoop(即直接在filesystem里装得hadoop) (1) 192.168.1.1 redmap-master 作为Namenode, JobTracker, SecondaryNameNode (2) 192.168.1.2 redmap-slaves1 作为Datanode, TaskTracker (3) 192.168.1.3 redmap-slaves2 作为Datanode, TaskTracker 配置 首先,需要配置各个机器间的相互访问: 1、按照上面的设置修改各台机器的host文件和hostname文件,保证机器可正常通信。在master 机上的hosts文件(相关部分)为: 127.0.0.1 localhost 192.168.1.1 redmap-master 192.168.1.2 redmap-slaves1 192.168.1.3 redmap-slaves2 2、配置ssh的自动登陆(在master机上): $ ssh-keygen -t dsa -P ” -f ~/.ssh/id_dsa 完成后会在~/.ssh/生成两个文件:id_dsa 和id_dsa.pub。 再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys文件): $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 完成后可以实现无密码登录本机: $ ssh localhost 3、把master上的id_dsa.pub 文件追加到2和3的authorized_keys 内( 以slaves1节点为例): #拷贝master的id_dsa.pub文件(在master号机器上执行) $ scp id_dsa.pub redmap@192.168.1.2:/home/maple/ 注:(只需在主节点上运行ssh-kegen程序。其他节点的目录结构创建后,将刚才在主节点创建的keys通过scp拷贝到从节点的同样的目录上。)

hadoop大数据平台分布式集群环境搭建安装规划

hadoop大数据平台分布式集群环境搭建安装规划Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功。但对新手来说,运行环境搭建不成功的概率还蛮高的。 在之前的分享文章中给hadoop新手入门推荐的大快搜索DKHadoop发行版,在运行环境安装方面的确要比其他的发行版hadoop要简单的多,毕竟DKHadoop是对底层重新集成封装的,对与研究hadoop尤其是入门级新手来说是非常友好的一个发行版!关于DKHadoop的安装留在后面再给大家分享,本篇就跟大家聊一聊关于【hadoop分布式集群环境搭建规划】。 1、分布式机器架构图:

其中机器1主节点,机器2从节点,机器3、机器4等都是计算节点。当主节点宕机后从节点代替主节点工作,正常状态是从节点和计算节点一样工作。这种架构设计保证数据完整性。 首先我们保证每台计算节点上分别有一个DataNode节点和NodeManager节点。因为都是计算节点,真正干活的。在数量上我们要保证。那么NameNode和ResourceManager是两个非常重要的管理者,我们客户端的请求,第一时间与NameNode 和ResourceManager打交道。NameNode负责管理HDFS文件系统的元数据,客户端不管是读文件还是写文件,都要首先找到NameNode获取文件的元数据,再进行文件的操作。ResourceManager也是如此,它负责管理集群中的资源和任务调度,你也可以把它视为“大数据操作系统”。客户端能否提交应用并运行,就看你的ResourceManager是否正常。2、达到多大规模的数据,才值得用大数据的方式来处理? 第一,从数据量角度,但是并无确定的答案,一般定性角度来说,你觉得这个数据量单机处理不了,比如内存限制,时间过久等,就用集群,但是要降低时间,你的处理逻辑必须能分布式处理,定量就是一般数据或者未来的数据量会达到PB级别(可能GB)或以上就要用分布式,当然前提也是你的处理逻辑可以进行分布式。 第二,从算法角度,或者处理逻辑的时间复杂度来说,比如虽然你的数据记录不是很多,但是你的算法或者处理逻辑的时间复杂度是n的平方,甚至更高,同时你的算法可以进行分布式设计,那么就考虑用分布式,比如你的记录虽然只有1w, 但是时间复杂度确是n的平方,那么你想想单机要多久,要是你的算法可以进行分布式处理,那么就考虑用分布式。 3、制约大数据处理能力的几个问题 a、网络带宽 网络是联接计算机的纽带,这个纽带当然越宽越好,这样可以在计算机资源许可的情况

hadoop集群配置范例及问题总结

HADOOP-0.20.203.003.0分布式集群配置 硬件环境 1.虚拟机VMWare Workstation 2.两台机器均安装ubuntu11,采用桥接模式,需要两个物理ip地址,下面用192.168.1.100 和192.168.1.101代替,NAT模式无法实现ubuntu内ping通主机 3.java jdk1.6.0_31 https://www.doczj.com/doc/d16454667.html,node:192.168.1.100 namenode datanode:192.168.1.101 datanode 注意:三台机器dns 和默认网关必须一致。登陆密码一致最好。而且务必三台机器互相ping通主机,即主机名和ip解析正确。若ping不通,修改/etc/hosts文件,使用sudo vi /etc/hosts 命令,设置如下(namenode): 192.168.1.100namenode 192.168.1.101datanode Datanode(datanode)的设置为: 192.168.1.100 namenode 192.168.1.101 datanode 本集群将namenode和jobtracker 设置成一台机器即namenode。 在Hadoop中,主机名不要包含下划线“_”,但可以有横线“-”。否则启动hadoop时报错:ERROR https://www.doczj.com/doc/d16454667.html,Node: java.io.IOException: Incomplete HDFS URI, no host: hdfs://namenode:9000 Incomplete HDFS URI 使用hostname命令查看主机名,修改主机名: 主机名存放在/etc/hostname文件中,编辑hostname文件,在文件中输入新的主机名并保存该文件即可。注销重新登录。 本集群在Root用户下安装 配置ssh 安装ssh:sudo apt-get install openssh-server openssh-client,若以安装,继续以下步骤 开启命令:service ssh restart。必须配置SSH使用无密码公钥来进行免密码登陆各个节点。 本集群设置如下: 在namenode节点上根目录下执行: [root@namenode root]$ssh-keygen –t rsa 一路回车,遇到y/n 选择y。即在默认目录下/root/.ssh/生成 id_rsa 和id_rsa.pub 2个文件,第一个为私钥,第二个为公钥。 [root@namenode root]$cd .ssh 进入.ssh目录下,将id_rsa.pub 复制给authorized_keys文件,并给予权限。 [root@namenode root]$cp id_rsa.pub authorized_keys

相关主题
文本预览
相关文档 最新文档