Hadoop2.4、Hbase0.98、Hive集群安装配置手册
- 格式:pdf
- 大小:1.33 MB
- 文档页数:25
Hadoop学习之Hbase安装安装需注意:1、安装环境:Centos6.6 64位,2G内存(在虚拟机下安装Centos系统)。
Jdk版本:1.7.0_71Hadoop版本:2.5.1Hbase版本:0.98.72、Hadoop环境:节点名用户名IP地址master gznc 192.168.1.100slave01 gznc 192.168.1.101slave02 gznc 192.168.1.1021、把下载好的Hbase安转包上传或者移动到主节点的gznc目录下。
2、解压Hbase的安装包,命令如下:3、配置Hbase环境变量(备注:slave01(节点)也要配置),命令如下:在末尾添加以下代码:4、使环境变量生效,命令如下:5、进入Hbase安装目录下的conf文件夹,命令如下:6、配置hbase-env.sh文件,命令如下:找到JAVA_HOME和HBASE_CLASSPATH和HBASE_MANAGES_ZK配置选项,先把前面的“#”号去掉,在“=”号后添加以下代码:jdk安转目录:Hbase安装路径:使用自带的zookeeper的管理集群:7、配置hbase-site.xml文件,命令如下:添加以下代码:8、配置节点列表:删掉localhost,更改为自己的电脑的节点的主机名(hostname),有几个节点就填写几个,一个节点名独占一行(备注:如果不知道主机名,可以打开终端输入“hostname”,就可以查看)。
如下图:9、在主节点(master)为从节点(slave01)配置HMaster的备用节点,backup-masters文件本身不存在,命令执行完成后会自动生成:添加以下类容:10、把主节点hbase文件复制到从节点,命令如下:11、启动hbase,输入jps查看各个进程的情况,命令如下:启动hbase:查看主节点进程:从节点进程:12、进入hbase(在hbase安装目录的bin目录下输入“habse shell”):13、输入“help”查看hbase提供的功能:14、查看hbaseRegionserver运行状态,命令如下:15、查看当前用户:16、Enjoy!如需转载,请注明出处。
hadoop+HBase+ZooKeeper+Hive完全分布式集群部署安装1. 系统环境1.1. 软件版本下表为本系统环境所安装的软件的版本信息:软件类别版本下载地址Hadoop官⽹zookeeper官⽹hbase官⽹hive官⽹1.2. ⽹络配置总共7台服务器和⼀个VIP,详细信息如下:(主机名看下是否合法和能ping通,如果未配置dns强烈建议⽤IP,或者在每台机器hosts⽂件写上所有IP的主机名)主机名IP地址备注hadoop001192.168.63.201hadoop002192.168.63.202hadoop003192.168.63.203hadoop004192.168.63.204hadoop005192.168.63.205hadoop006192.168.63.206hadoop007192.168.63.207hadoop192.168.63.200设置Hadoop的VIP2. ⽬的掌握hadoop的安装和部署HDFS,Hbase,Hive等组件。
3. Hadoop简介Hadoopt是⼀个基础架构,由Apache基⾦会开发。
⽤户可以在不了解分布式底层细节的情况下,开发分布式程序。
充分利⽤集群的威⼒⾼速运算和存储。
Hadoop实现了⼀个(Hadoop Distributed File System),简称HDFS。
HDFS有着⾼容错性的特点,并且设计⽤来部署在低廉的硬件上。
⽽且它提供⾼传输率来访问的数据,适合那些有着超⼤数据集的应⽤程序。
HDFS放宽了POSIX的要求,这样可以流的形式访问⽂件系统中的数据。
详细介绍请参见:4. HDFS安装部署。
4.1. 安装准备4.1.1. 机器准备本例stage2环境如下:IP地址HDFS Zookeeper Hbase Hive192.168.63.201Namenode-Hmaster hive192.168.63.202Namenode(second)-Hmaster hive192.168.63.203Datanode1zookeeper HRegionServerhive192.168.63.203Datanode1zookeeper HRegionServerhive192.168.63.204Datanode2zookeeper HRegionServerhive192.168.63.205Datanode3zookeeper HRegionServerhive192.168.63.206Datanode4-HRegionServerhive192.168.63.207Datanode5-HRegionServerhiveNameNode:是Master节点,是⼤领导。
hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。
它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。
本文旨在介绍Hadoop集群安装配置的主要操作步骤。
在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。
Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。
主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。
这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。
为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。
主要的操作步骤包括以下几个方面:1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。
2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。
然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。
3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。
这些配置文件会影响到集群的整体运行方式和资源分配策略。
4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。
从节点的配置主要包括核心配置和数据节点配置。
5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。
启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。
通过完成以上这些操作步骤,我们就可以成功搭建一个Hadoop集群,并开始进行大数据的处理和分析工作了。
当然,在实际应用中,还会存在更多的细节和需要注意的地方,我们需要根据具体的场景和需求进行相应的调整和扩展。
一、说明网络上有很多关于hadoop hbase hive的安装说明,按照其方法,总是有问题,记录下完整的安装过程,以供参考。
A操作系统是 ubuntu12.10二、安装jdk, hadoop, ssh server的方法参考文章《ubuntu操作记录》下面是具体内容:1.安装ubuntu之后,增加root 用户 sudo passwd ;2.ifconfig查看网络配置;/etc/network/interfaces3.网络配置文件:netifa /etc/sysconfig/network4、安装ssh5.sudo apt-get ssh-server;6、jdk安装sudo mo ./jdk.bin /opt/chmod u+x jdk.binsudo ./jkd.bin或 sh ./jdk.bin6.配置jdk;/etc/profile#set java environmentexport JAVA_HOME=/opt/jdk1.6.0_24(=前后没有空格)export CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME/bin:$PATHumask 022/etc/environmentPATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/ga mesc"CLASSPATH="/opt/jdk1.6.0_24/lib"JAVAHOME="/opt/jdk1.6.0_24"7. shutdown –r now重启之后,显示java安装成功。
7、ssh设置$ apt-get install ssh$ ssh-keygen -t rsa -f ~/.ssh/id_rsa$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys$ ssh localhost(认证没有通过)在上面的问题中应该回答yes,继续,就可以ssh匿名登录了。
云计算实验——Hadoop和Hbase的安装使用作者:中国云计算论坛云计算_龙竹(aiken)E-mail:brucexu1988@ 欢迎访问中国云计算:1 准备工作1.1 安装VMware(网上可以下载,按照步骤一步一步地安装即可);1.2 安装SSH secure client1.3 在虚拟机中启动打开Hadoop虚拟机文件,修改IP地址和Hostname,具体方法如下:(1)在Linux操作系统启动后,右击鼠标,打开终端“open terminal”;(2)配置ip地址,输入指令:“gedit /etc/sysconfig/network-scripts/ifcfg-eth0”;(3)按“回车键”,进入配置Ip的窗口。
(4)修改BOOTPRO,“BOOTPRO=static”;(5)设置ip地址:“IPADDR=192.168.10.152”(根据自己的需要配置);(6)保存(ctrl+s),退出;(7)配置Hostname,输入指令“gedit /etc/sysconfig/network”;(8)按“回车键”,进入配置Hostname的窗口。
(9)将Hostname修改为“sev152”(根据自己的需要配置);(10)保存(ctrl+s),退出;(11)重启:输入指令“reboot”。
1.4检查IP和Hostname是否配置完好(1)重新启动后,右击鼠标,打开终端“open terminal”;(2)检查IP ,输入指令:“ip addr show”;如图1.1所示显示,ip地址已经被修改。
图1 .1 IP地址检查(3)检查Hostname ,使用指令“ping sev152”(sev152是刚刚自己配置的主机名);如图1.2所示,主机名修改无误。
图1.2 检查Hostname(4)按“ctrl+c”快捷键,退出“ping”;2 安装SSH打开SSH Secure Shell,点击“Quick Connect”,会跳出如图2.1所示的窗口,在Host Name 中输入刚刚所配置的Ip地址:“192.168.10.152”,然后单击“connect”。
HadoopHBaseHiveOozie安装使用文档目录Hadoop-2.0 HA 解决方案安装文档 (1)1.安装NFS并配置共享目录 (2)2.修改hadoop安装目录下etc/hadoop/core-site.xml (4)3.修改hdfs-site.xml (4)Node格式化 (6)5.HDFS (HA) 的初始化 (7)6.zkfc格式化 (7)7.HDFS(HA) 的管理 (7)8.验证hadoop-2.0 HA高可用是否成功 (7)HBase 安装文档 (10)一、环境简介 (10)二、安装步骤 (10)1.解压安装包 (10)2. 修改配置文件hbase-site.xml (10)3. 修改配置文件regionservers (11)4. 修改配置文件hbase-evn.sh (11)5. 使用scp命令将HBase主目录复制到另外三台服务器相同的路径下: (11)6.对每台服务器进行时间同步 (11)7. 启动HBase (12)8.验证是否成功启动 (12)9.关闭HBase (13)Hive安装文档 (14)一、环境简介 (14)二、安装步骤 (14)1. 为Hive创建mysql用户及数据库,并赋予足够的权限 (14)2. 解压Hive安装包 (14)3. 生成配置文件 (14)4. 修改配置文件 (15)5. 下载、安装mysql驱动 (15)6. 验证Hive安装 (16)三、Hive的连接 (16)1.使用jdbc连接Hive数据库 (16)2使用HBase连接Hive数据库 (17)Oozie安装使用文档 (20)一、环境简介 (20)二、安装步骤 (20)1. 解压Tomcat安装包 (20)2. 验证Tomcat安装 (20)3.为Oozie创建mysql用户及数据库,并赋予足够的权限 (21)4.解压Oozie安装包 (21)5.添加环境变量 (21)6.修改配置文件 (21)7.安装mysql驱动 (22)8.在mysql上为Oozie创建数据库模式 (22)9.安装Oozie Web控制台 (22)10. 启动Oozie (22)11. 查看Web控制台 (22)12. 关闭Oozie (23)三、使用范例 (23)1解压Oozie自带的examples包 (23)2.将解压出的examples文件夹上传至hadoop存储环境的根文件夹下 (23)3. 修改Hadoop的core-site.xml配置文件 (23)4.修改map-reduce job的job.properties文件 (24)5. 执行map-reduce job (24)保密级别:研发部内部Hadoop-2.0 HA 解决方案安装文档版本:v1.0发布日期:2012年8月21日1.安装NFS并配置共享目录NFS是Network File System的简写,即网络文件系统.网络文件系统是FreeBSD支持的文件系统中的一种,也被称为NFS. NFS允许一个系统在网络上与它人共享目录和文件。
hadoop配置总结看了这么久的书,第一次配置,本来以为会很顺利,结果整整配置了一天,好算在群里的兄弟和通过百度搞定。
现在记录流水日志36 master203 204 205 206 207 208 218 是slave所需软件包创建hadoop用户和组groupadd hadooptail /etc/group #看新添加的组的IDuseradd hadoop -g 502passwd hadoop #密码是 ku6.ABC123id hadoopcd /home/hadoop/mkdir softwarecd software在36上执行复制安装包到/home/hadoop/software目录下scp /home/hadoop/software/* root@10.1.121.201:/home/hadoop/software scp ./jdk-6u20-linux-x64.bin root@10.1.121.205:/home/hadoop/software scp ./jdk-6u20-linux-x64.bin root@10.1.121.207:/home/hadoop/software scp ./jdk-6u20-linux-x64.bin root@10.1.121.208:/home/hadoop/software安装Jdkcd /home/hadoop/software./jdk-6u20-linux-x64.binmv jdk1.6.0_20 /usr/local/jdk1.6.0_20ln -s /usr/local/jdk1.6.0_20/bin/java /usr/bin/java然后输入 java -version 看java的版本安装hadoopscp ./hadoop-0.20.2.tar.gz root@10.1.121.205:/home/hadoop/software scp ./hadoop-0.20.2.tar.gz root@10.1.121.207:/home/hadoop/software scp ./hadoop-0.20.2.tar.gz root@10.1.121.208:/home/hadoop/softwaretar -xzvf hadoop-0.20.2.tar.gzchown -R hadoop:hadoop hadoop-0.20.2mv hadoop-0.20.2 /usr/local/hadoop安装rsynctar -xzvf rsync-3.0.7.tar.gzcd rsync-3.0.7./configuremake && make installcd ..配置ssh无密码登陆su hadoopcd ~mkdir -p ./.ssh/chmod 700 .sshchmod 700 ~ssh-keygen -t rsamv ~/.ssh/id_rsa.pub ~/.ssh/authorized_keysscp ~/.ssh/* 10.1.121.205:~/.ssh/scp ~/.ssh/* 10.1.121.207:~/.ssh/scp ~/.ssh/* 10.1.121.208:~/.ssh/mkdir -p /home/hadoop/hadoopDatachown hadoop:hadoop /home/hadoop/hadoopDataln -s /usr/local/hadoop/bin/hadoop /usr/bin/hadoop设置配置文件同步scp /usr/local/hadoop/conf/* 10.1.121.201:/usr/local/hadoop/conf/ scp /usr/local/hadoop/conf/* 10.1.121.203:/usr/local/hadoop/conf/ scp /usr/local/hadoop/conf/* 10.1.121.204:/usr/local/hadoop/conf/scp /usr/local/hadoop/conf/* 10.1.121.205:/usr/local/hadoop/conf/ scp /usr/local/hadoop/conf/* 10.1.121.206:/usr/local/hadoop/conf/ scp /usr/local/hadoop/conf/* 10.1.121.207:/usr/local/hadoop/conf/ scp /usr/local/hadoop/conf/* 10.1.121.208:/usr/local/hadoop/conf/ scp /usr/local/hadoop/conf/* 10.1.121.218:/usr/local/hadoop/conf/设置HOSTS在每台机器上设置hostNamehostname hadoopSlave20310.1.121.36 hadoopMaster10.1.121.36 hadoopJobTacker10.1.121.201 hadoopSlave20110.1.121.203 hadoopSlave20310.1.121.204 hadoopSlave20410.1.121.205 hadoopSlave20510.1.121.206 hadoopSlave20610.1.121.207 hadoopSlave20710.1.121.208 hadoopSlave20810.1.121.218 hadoopSlave218格式化并启动系统su hadoopcd /usr/local/hadoop/bin./hadoop namenode -format./start-dfs.sh./start-mapred.sh测试./hadoop fs -mkdir myn./hadoop fs -put ../ivy.xml /ivy2.xml./hadoop fs -ls /./hadoop fs -lsr /./hadoop fs -cat /ivy2.xml./hadoop fs -put /data/hdfs_collect/pvdata/20100607/yannian.log/pgv/dayRawLog/./hadoop fs -tail /pgv/dayRawLog/yannian.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0/pgv/dayRawLog/001.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/002.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/003.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/004.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/005.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/006.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/007.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/008.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/009.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/010.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/011.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/012.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/013.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/014.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/015.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/016.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/017.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/018.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/019.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/020.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/021.log./hadoop fs -put /data/hdfs_collect/pvdata/20100607/20100607.hash0 /pgv/dayRawLog/022.log总结1 ssh的给配反了,导致耽误很多时间2.HOST的设置后面的域名移动要写两个好怪啊3.访问要通过 hosts或nameServer来访问,不能再配置文件中直接设置IP4.每次重新格式化后一定要删除hadoop_tmp目录下的所有文件5.日志文件很有版主信息6.多使用JPS查看状态,还有http的接口7.在每台机器上设置hostNamehttp://59.151.121.36:50070http://59.151.121.36:5003010.1.121.36 hadoopMaster hadoopMaster10.1.121.36 hadoopJobTacker hadoopJobTacker10.1.121.201 hadoopSlave201 hadoopSlave20110.1.121.203 hadoopSlave203 hadoopSlave20310.1.121.204 hadoopSlave204 hadoopSlave20410.1.121.205 hadoopSlave205 hadoopSlave20510.1.121.206 hadoopSlave206 hadoopSlave20610.1.121.207 hadoopSlave207 hadoopSlave20710.1.121.208 hadoopSlave208 hadoopSlave20810.1.121.218 hadoopSlave218 hadoopSlave21810.1.121.36 hadoopMaster10.1.121.36 hadoopJobTacker10.1.121.201 hadoopSlave20110.1.121.203 hadoopSlave20310.1.121.204 hadoopSlave20410.1.121.205 hadoopSlave20510.1.121.206 hadoopSlave20610.1.121.207 hadoopSlave20710.1.121.208 hadoopSlave20810.1.121.218 hadoopSlave218hive配置手记tar -xzvf hive-0.4.1-bin.tar.gzmv hive-0.4.1-bin /usr/local/hivechown hadoop:hadoop /usr/local/hive/ -Rsu hadoopmkdir -p /home/hadoop/hiveDatacd /usr/local/hive/bin/vi hive-config.shexport HIVE_HOME=/usr/local/hiveexport HADOOP_HOME=/usr/local/hadoopexport JAVA_HOME=/usr/local/jdk1.6.0_20cd /usr/local/hadoopbin/hadoop fs -mkdir /tmpbin/hadoop fs -mkdir /user/hive/warehousebin/hadoop fs -chmod g+w /tmpbin/hadoop fs -chmod g+w /user/hive/warehousevi hive-default.xml<property><name>hive.exec.scratchdir</name><value>/home/hadoop/hiveData/hive-${}</value><description>Scratch space for Hive jobs</description></property>测试cd /usr/local/hive/bin/./hiveCREATE TABLE pokes (foo INT, bar STRING);SHOW TABLES;CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); SHOW TABLES '.*s';DROP TABLE pokes;DESCRIBE invites;。
Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装⼿册Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装⼿册前⾔: (3)⼀. Hadoop安装(伪分布式) (4)1. 操作系统 (4)2. 安装JDK (4)1> 下载并解压JDK (4)2> 配置环境变量 (4)3> 检测JDK环境 (5)3. 安装SSH (5)1> 检验ssh是否已经安装 (5)2> 安装ssh (5)3> 配置ssh免密码登录 (5)4. 安装Hadoop (6)1> 下载并解压 (6)2> 配置环境变量 (6)3> 配置Hadoop (6)4> 启动并验证 (8)前⾔:⽹络上充斥着⼤量Hadoop1的教程,版本⽼旧,Hadoop2的中⽂资料相对较少,本教程的宗旨在于从Hadoop2出发,结合作者在实际⼯作中的经验,提供⼀套最新版本的Hadoop2相关教程。
为什么是Hadoop2.2.0,⽽不是Hadoop2.4.0本⽂写作时,Hadoop的最新版本已经是2.4.0,但是最新版本的Hbase0.98.1仅⽀持到Hadoop2.2.0,且Hadoop2.2.0已经相对稳定,所以我们依然采⽤2.2.0版本。
⼀. Hadoop安装(伪分布式)1. 操作系统Hadoop⼀定要运⾏在Linux系统环境下,⽹上有windows下模拟linux环境部署的教程,放弃这个吧,莫名其妙的问题多如⽜⽑。
2. 安装JDK1> 下载并解压JDK我的⽬录为:/home/apple/jdk1.82> 配置环境变量打开/etc/profile,添加以下内容:export JAVA_HOME=/home/apple/jdk1.8export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar 执⾏source /etc/profile ,使更改后的profile⽣效。
Hadoop 及hive 集群配置安装文档安装说明:1)首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
2)Hadoop在windows下还未经过很好的测试,所以目前只能在linux,unix环境下安装。
3)为了避免出现权限方面的问题,请使用root用户登录安装。
4)要使用hive必须先安装Hadoop环境,所以我们的安装步骤以Hadoop为先。
5)首先登录进入master机,然后再进入slave机,两者的对hadoop安装配置顺序是一致的。
对于hive的安装与相关配置只在master机器上。
6)本文档中使用了jdk1.6,rsync3.0,hadoop-0.20.2,hive-0.6.0的tar包,要想安装Hadoop 请从相关网站下载。
机器情况:机器型号:HP Praliant DL380服务器* 2机器IP:10.17.36.34 (master机)10.17.36.33(slave机)操作系统:Red Hat Enterprise 5.5(linux)HADOOP环境:hapoop-0.20.2HIVE环境:hive-0.6.0-bin准备工作:准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh、rsync 和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
SSH:一般在安装系统后已经存在,可以用rpm –qa openssh-server检查是否已经安装。
如未安装可以在系统光盘寻找openssh-server-4.3p2-16.el5.i386.rpm安装。
rsync:rsync-3.0.8pre1.tarJDK:这里的JDK版本至少是1.5,本次实验的版本是1.6开始安装:第一步:安装JDK1.6LINUX下安装JDK1.6.doc第二步:安装HADOOP环境安装文件:hadoop-0.20.2.tar.gz下面是在linux平台下安装Hadoop的过程:这里注意最后一步,最好把HADOOP_HOME写入/etc/profile中然后注销,重新用root用户登录:vi /etc/profile在profile末尾写入以下两行export HADOOP_HOME=/opt/hadoop/hadoop-0.20.2export HADOOP_HOME第三步:配置SSH如果事先不存在authorized_keys,先要执行命令:touch ~/.ssh/authorized_keys经过以上步骤,我们的无密码访问就配置好了,可以通过如下命令进行验证:第四步:配置Hadoop相关文件对$HADOOP_HOME/src文件下的core-site.xml,hdfs-site.xml, mapred-site.xml进行如下的配置:(红色字体为添加部分)Core-site.xml代码:<configuration><property><!-- 用于dfs命令模块中指定默认的文件系统协议--><name></name><value>hdfs://10.17.36.34:9000</va lue></property></configuration>Hdfs-site.xml代码:<configuration><property><!-- DFS中存储文件命名空间信息的目录--><name>.dir</name><value>/opt/hadoop/data/.dir</value> </property><property><!-- DFS中存储文件数据的目录--><name>dfs.data.dir</name><value>/opt/hadoop/data/dfs.data.dir</value> </property><property><!-- 是否对DFS中的文件进行权限控制(测试中一般用false)--><name>dfs.permissions</name><value>false</value></property></configuration>Mapred-site.xml代码:<configuration><property><!-- 用来作JobTracker的节点的(一般与NameNode 保持一致) --><name>mapred.job.tracker</name><value>10.18.36.33:9001</value></property><property><!-- map/reduce的系统目录(使用的HDFS的路径)--><name>mapred.system.dir</name><value>/system/mapred.system.dir</value></property><property><!-- map/reduce的临时目录(可使用“,”隔开,设置多重路径来分摊磁盘IO)--><name>mapred.local.dir</name><value>/opt/hadoop/data/mapred.local.dir< /value></property></configuration>主从配置:在$HADOOP_HOME/conf目录中存在masters和slaves这两个文件,用来做Hadoop的主从配置。
伪分布式安装Hadoop+zookeeper+hive+hbase安装配置1.安装JDK,配置环境JAVA环境变量export JAVA_HOME=/usr/lib/java-1.6.0/jdk1.6.0_37export PATH=$PATH:$JAVA_HOME/binexport CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/libexport HADOOP_INSTALL=/usr/hadoop/hadoop-1.0.3export PATH=$PATH:$HADOOP_INSTALL/binexport JAVA_HOME=/user/local/jdk1.6.0_27export JRE_HOME=/user/local/jdk1.6.0_27/jreexport ANT_HOME=/user/local/apache-ant-1.8.2export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH2.安装Hadoop-1.0.32.1.下载hadoop文件,地址为:/coases.html,下载完成后解压hadoop-1.0.3.tar.gzsudo tar -xzf hadoop-1.0.3.tar.gz2.2.配置Hadoop环境变量export HADOOP_INSTALL=/user/local/hadoop-1.0.3export PATH=$PATH:$HADOOP_INSTALL/bin激活profile文件:[root@localhost etc]# chmod +x profile[root@localhost etc]# source profile[root@localhost etc]# hadoop version2.3.查看hadoop版本[root@localhost ~]# hadoop versionHadoop 1.0.3Subversionhttps:///repos/asf/hadoop/common/branches/branch-1.0 -r 1335192Compiled by hortonfo on Tue May 8 20:31:25 UTC 2012From source with checksum e6b0c1e23dcf76907c5fecb4b832f3be输入 hadoop version命令后输入下图,则安装hadoop成功2.4.修改配置文件a)解压hadoop-1.0.3/hadoop-core-1.0.3.jarb)去解压后的hadoop-core-1.0.3文件夹下,复制文件core-default.xml,hdfs-default.xml,mapred-default.xml三个文件到hadoop-1.0.3/conf/下,删除hadoop-1.0.3/conf/文件夹下的core-site.xml,hdfs-site.xml,mapred-site.xml,将复制过来的三个文件的文件名中的default修改为sitec)在hadoop-1.0.3文件夹同级创建文件夹hadoop,打开core-site.xml文件,修改属性节点下的name节点为hadoop.tmp.dir对应的value节点,修改为/user/local/${}/hadoop/hadoop-${},这样hadoop生成的文件会放入这个文件夹下.修改name节点为对应的value节点,修改为hdfs://localhost:9000/打开mapred-site.xml文件,修改property节点下name为mapred.job.tracker对应的的value,改为:localhost:90013.安装ssh1.执行命令安装ssh:sudo apt-get install ssh2.基于空口令创建一个新SSH密钥,以启用无密码登陆a)ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa执行结果:b)cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys3.测试ssh localhost测试结果:输入yes再次输入ssh localhost:成功之后,就不需要密钥4.格式化HDFS文件系统输入指令:hadoop namenode –format[root@localhost ~]# hadoop namenode –format13/07/17 14:26:41 INFO Node: STARTUP_MSG:STARTUP_MSG: Starting NameNodeSTARTUP_MSG: host = localhost.localdomain/127.0.0.1STARTUP_MSG: args = [–format]STARTUP_MSG: version = 1.0.3STARTUP_MSG: build =https:///repos/asf/hadoop/common/branches/branch-1.0 -r 1335192; compiled by 'hortonfo' on Tue May 8 20:31:25 UTC 2012Usage: java NameNode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]13/07/17 14:26:41 INFO Node: SHUTDOWN_MSG:SHUTDOWN_MSG: Shutting down NameNode at localhost.localdomain/127.0.0.15.启动和终止守护进程启动和终止HDFS和MapReduce守护进程,键入如下指令启动start-all.sh(start-dfs.sh,start-mapred.sh)出错了,JAVA_HOME is not set需要修改文件,打开hadoop-1.0.3/conf/ hadoop-env.sh将红线以内部分注释解开,修改为本机JAVA_HOME再次执行启动命令start-all.sh停止stop-all.sh(stop-dfs.sh,stop-mapred.sh)到此,hadoop就已经安装完成了6.Hadoop文件系统6.1.查看hadoop所有块文件执行命令:hadoop fsck / -files –blocks执行结果:此结果显示,hadoop文件系统中,还没有文件可以显示本机出错,出错原因:datanode没有启动,具体见evernote笔记。
Hadoop集群的搭建和配置Hadoop是一种分布式计算框架,它可以解决大数据处理和分析的问题。
Hadoop由Apache软件基金会开发和维护,它支持可扩展性、容错性、高可用性的分布式计算,并且可以运行在廉价的硬件设备上。
Hadoop集群的搭建和配置需要多个步骤,包括安装Java环境、安装Hadoop软件、配置Hadoop集群、启动Hadoop集群。
以下是这些步骤的详细说明。
第一步:安装Java环境Hadoop运行在Java虚拟机上,所以首先需要安装Java环境。
在Linux系统下,可以使用以下命令安装Java环境。
sudo apt-get install openjdk-8-jdk在其他操作系统下,安装Java环境的方式可能有所不同,请查阅相应的文档。
第二步:安装Hadoop软件Hadoop可以从Apache官方网站上下载最新版本的软件。
下载后,解压缩到指定的目录下即可。
解压缩后的目录结构如下:bin/:包含了Hadoop的可执行文件conf/:包含了Hadoop的配置文件lib/:包含了Hadoop的类库文件sbin/:包含了Hadoop的系统管理命令share/doc/:包含了Hadoop的文档第三步:配置Hadoop集群配置Hadoop集群需要编辑Hadoop的配置文件。
其中最重要的是hadoop-env.sh、core-site.xml、hdfs-site.xml和mapred-site.xml。
hadoop-env.sh:这个文件定义了Hadoop集群的环境变量。
用户需要设置JAVA_HOME、HADOOP_HOME等环境变量的值。
core-site.xml:这个文件定义了Hadoop文件系统的访问方式。
用户需要设置、hadoop.tmp.dir等参数的值。
hdfs-site.xml:这个文件定义了Hadoop分布式文件系统的配置信息。
用户需要设置.dir、dfs.data.dir等参数的值。
Hadoop,ZooKeeper,HBase,hive(HQL) 安装步骤Hadoop安装:首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
Hadoop在windows下还未经过很好的测试,所以推荐大家在linux(cent os 6.X)下安装使用。
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
可以使用yum install rsync来安装rsync。
一般来说ssh是默认安装到系统中的。
Jdk1.6的安装方法下载linux版本的java,#mkdir /usr/java#cd /usr/java#chmod a+x jdk-6u27-linux-i586.bin#./jdk-6u27-linux-i586.bin安装完成后,设臵环境变量:在etc/profile中设臵#export JAVA_HOME=/usr/java/jdk1.6.0_27#exportCLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOM E/lib/tools.jar#export PATH=$PATH:$JAVA_HOME/bin设臵完成后,使用reboot或者source /etc/profile确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.0.141、192.168.0.142和192.168.0.143(下文简称141,142和143),且都使用root用户。
这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。
Host配臵一个很简单的测试办法就是ping一下主机名,比如在ww-1上ping ww-2,如果能ping通就OK!若不能正确解析,可以修改/etc/hosts文件,如果该台机器作Namenode用,则需要在hosts文件中加上集群中所有机器的IP地址及其对应的主机名;如果该台机器作Datanode用,则只需要在hosts文件中加上本机IP地址和Namenode机器的IP地址。
Hadoop和Hive的安装配置hadoop安装指南/hive安装指南Hadoop集群需要一台机器作为主节点,其余都是从节点。
配置单元只需要在主节点中安装和配置。
配置hadoopHadoop的配置相对简单。
下面详细介绍安装和配置步骤。
要配置Hadoop 0,请以版本20.2为例。
(1)从hadoop官网上下载hadoop-0.20.2.tar.gz文件,并解压产生hadoop-0.20.2目录,将该目录到/opt/hadoop目录下(如果你解压缩到了其它目录中,注意后面要相应的修改配置项)。
输入命令以建立$ln-shadow-0.20.2hadoop的软连接(其优点是,如果使用其他版本的Hadoop,则无需重新配置)(2)hadoop和hive都需要机器名。
用hostname命令修改本机的机器名,例如修改10.10.10.1的机器名为hadoop139需要键入#hostnamehadoop1修改/etc/hosts文件,添加hadoop集群中所有的机器名和ip地址的对应关系。
master节点和所有slave节点一定都要添加,否则会出问题。
例如在我的所有hadoop机器的/etc/hosts文件都添加10.10.10.1 Hadoop 110。
10.10.2 Hadoop 210。
10.10.3 ADOP310。
10.10.4hadoop410。
10.10.5 Hadoop 510。
10.10.6 Hadoop 610。
10.10.7 Hadoop 7(3)由于主节点的机器需要在没有密码的情况下登录到所有从节点,因此所有机器都需要以下配置。
在本文中hadoop1是master节点。
打开/etc/SSH/sshd_uu-Config文件以确保SSH不使用SSH2协议,或者将所有协议2修改为协议1。
如果修改了该文件,用servicesshdrestart命令重启一下ssh服务。
键入以下命令#cd~/.ssh/#ssh-keygen-trsa1-c\#身份。
Hadoop、Zookeeper、Hbase、Hive集群安装配置手册运行环境机器配置虚机CPU E5504*2 (4核心)、内存 4G、硬盘25G进程说明QuorumPeerMain ZooKeeper ensemble member DFSZKFailoverController Hadoop HA进程,维持NameNode高可用 JournalNode Hadoop HA进程,JournalNode存储EditLog,每次写数据操作有大多数(>=N+1)返回成功时即认为该次写成功,保证数据高可用 NameNode Hadoop HDFS进程,名字节点DataNode HadoopHDFS进程, serves blocks NodeManager Hadoop YARN进程,负责 Container 状态的维护,并向 RM 保持心跳。
ResourceManager Hadoop YARN进程,资源管理 JobTracker Hadoop MR1进程,管理哪些程序应该跑在哪些机器上,需要管理所有 job 失败、重启等操作。
TaskTracker Hadoop MR1进程,manages the local Childs RunJar Hive进程HMaster HBase主节点HRegionServer HBase RegionServer, serves regions JobHistoryServer 可以通过该服务查看已经运行完的mapreduce作业记录应用 服务进程 主机/hostname 系统版本mysql mysqld10.12.34.14/ Centos5.810.12.34.15/h15 Centos5.8 HadoopZookeeperHbaseHiveQuorumPeerMainDFSZKFailoverControllerNameNodeNodeManagerRunJarHMasterJournalNodeJobHistoryServerResourceManagerDataNodeHRegionServer10.12.34.16/h16 Centos5.8 HadoopZookeeperHbaseHiveDFSZKFailoverControllerQuorumPeerMainHMasterJournalNodeNameNodeResourceManagerDataNodeHRegionServerNodeManager10.12.34.17/h17 Centos5.8 HadoopZookeeperHbaseHiveNodeManagerDataNodeQuorumPeerMainJournalNodeHRegionServer环境准备1.关闭防火墙15、16、17主机:# service iptables stop2.配置主机名a) 15、16、17主机:# vi /etc/hosts添加如下内容:10.12.34.15 h1510.12.34.16 h1610.12.34.17 h17b) 立即生效15主机:# /bin/hostname h1516主机:# /bin/hostname h1617主机:# /bin/hostname h173. 创建用户15、16、17主机:# useraddhduser密码为hduser# chown -R hduser:hduser /usr/local/4.配置SSH无密码登录a)修改SSH配置文件15、16、17主机:# vi /etc/ssh/sshd_config打开以下注释内容:#RSAAuthentication yes#PubkeyAuthentication yes#AuthorizedKeysFile .ssh/authorized_keysb)重启SSHD服务15、16、17主机:# service sshd restartc)切换用户15、16、17主机:# su hduserd)生成证书公私钥15、16、17主机:$ ssh‐keygen ‐t rsae)拷贝公钥到文件(先把各主机上生成的SSHD公钥拷贝到15上的authorized_keys文件,再把包含所有主机的SSHD公钥文件authorized_keys拷贝到其它主机上)15主机:$cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys16主机:$cat ~/.ssh/id_rsa.pub | ssh hduser@h15 'cat >> ~/.ssh/authorized_keys'17主机:$cat ~/.ssh/id_rsa.pub | ssh hduser@h15 'cat >> ~/.ssh/authorized_keys'15主机:# cat ~/.ssh/authorized_keys | ssh hduser@h16 'cat >> ~/.ssh/authorized_keys'# cat ~/.ssh/authorized_keys | ssh hduser@h17 'cat >> ~/.ssh/authorized_keys'5.Mysqla) Host10.12.34.14:3306b) username、passwordhduser@hduserZookeeper使用hduser用户# su hduser安装(在15主机上)1.下载/apache/zookeeper/2.解压缩$ tar ‐zxvf /zookeeper‐3.4.6.tar.gz ‐C /usr/local/配置(在15主机上)1.将zoo_sample.cfg重命名为zoo.cfg$ mv /usr/local/zookeeper‐3.4.6/conf/zoo_sample.cfg /usr/local/zookeeper‐3.4.6/conf/zoo.cfg2.编辑配置文件$ vi /usr/local/zookeeper‐3.4.6/conf/zoo.cfga)修改数据目录dataDir=/tmp/zookeeper修改为dataDir=/usr/local/zookeeper‐3.4.6/datab)配置server添加如下内容:server.1=h15:2888:3888server.2=h16:2888:3888server.3=h17:2888:3888server.X=A:B:C说明:X:表示这是第几号serverA:该server hostname/所在IP地址B:该server和集群中的leader交换消息时所使用的端口C:配置选举leader时所使用的端口3.创建数据目录$ mkdir /usr/local/zookeeper‐3.4.6/data4.创建、编辑文件$ vi /usr/local/zookeeper‐3.4.6/data/myid添加内容(与zoo.cfg中server号码对应):1在16、17主机上安装、配置1.拷贝目录$ scp ‐r /usr/local/zookeeper‐3.4.6/ hduser@10.12.34.16:/usr/local/$ scp ‐r /usr/local/zookeeper‐3.4.6/ hduser@10.12.34.17:/usr/local/2.修改myida)16主机$ vi /usr/local/zookeeper‐3.4.6/data/myid1 修改为2b)17主机$ vi /usr/local/zookeeper‐3.4.6/data/myid1修改为3启动$ cd /usr/local/zookeeper‐3.4.6/$./bin/zkServer.sh start查看状态:$./bin/zkServer.sh statusHadoop使用hduser用户# su hduser安装(在15主机上)一、安装Hadoop1.下载/apache/hadoop/common/2.解压缩$ tar ‐zxvf /hadoop‐2.4.0.tar.gz ‐C /usr/local/二、 编译本地库,主机必须可以访问internet。
官网下载的hadoop‐2.4.0.tar.gz所带的本地库为32位(使用# file /usr/local/hadoop‐2.4.0/lib/native/libhadoop.so查看,如内容为:/usr/local/hadoop-2.4.0/lib/native/libhadoop.so: ELF 32-bit LSB s hared object, Intel 80386, version 1 (SYSV), not stripped),导致无法使用本地库(WARN util.NativeCodeLoader: Unable to load native‐hadoop library for your platform... using builtin‐java classes where applicable),需要自行编译64位本地库,也可以直接使用随文档附件native.zip,使用方法参见替换32位本地库,该本地库是在centos5.8环境下编译的,因此需注意实际环境。
1.使用root用户$ su root2.安装zlib/b)解压缩# tar ‐zxvf /zlib‐1.2.8.tar.gz ‐C /c)进入目录# cd /zlib‐1.2.8d)安装# ./configure# make# make install3.安装openssla)下载/source/b)解压缩# tar ‐zxvf openssl‐1.0.1i.tar.gzc)进入目录# cd openssl‐1.0.1id)安装# ./config# make# make installe)使用当前ssl# ln ‐s /usr/local/ssl/include/openssl/ /usr/include/openssl4.安装JDKa)下载/technetwork/java/javase/downloadsb)解压缩# tar ‐zxvf /jdk‐6u25‐linux‐x64.tar.gz ‐C /usr/local/c)配置环境变量# vi /etc/profile添加以下内容:JAVA_HOME=/usr/local/jdk1.6.0_25CLASSPATH=$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib/rt.jarPATH=$JAVA_HOME/bin:$PATH:$HOME/bin:$JAVA_HOME/jre/bin立即生效:# source /etc/profile5.安装anta)下载/bindownload.cgib)解压缩# tar ‐zxvf /usr/local/apache‐ant‐1.9.4‐bin.tar.gz ‐C /usr/local/6.安装mavena)下载/download.cgi# tar ‐zxvf apache‐maven‐3.2.3‐bin.tar.gz ‐C /usr/local/7.添加ant、maven环境变量a)添加到profile# vi /etc/profile添加内容如下:export ANT_HOME=/usr/local/apache‐ant‐1.9.4export MAVEN_HOME=/usr/local/apache‐maven‐3.2.3export PATH=$PATH:$ANT_HOME/bin:$MAVEN_HOME/binb)立即生效:# source /etc/profile8.安装protobufa)下载https:///p/protobuf/downloads/listb)解压缩# tar ‐zxvf /protobuf‐2.5.0.tar.gz ‐C /c)进入目录# cd /protobuf‐2.5.0d)安装# ./configure# make# make install9.验证ant、maven、protobufa)ant# ant ‐versionb)maven# mvn ‐vc)protobuf# protoc ‐‐version10.安装cmakea)下载/download/b)解压缩# tar ‐zxvf /cmake‐3.0.2.tar.gz ‐C /c)进入目录# cd /cmake‐3.0.2d)安装# ./bootstrap# make# make install11.hadoop源码包a)下载/apache/hadoop/common/hadoop‐2.4.0/b)解压缩# tar ‐zxvf /hadoop‐2.4.0‐src.tar.gz ‐C /12.编译本地库a)进入hadoop源码目录# cd /hadoop‐2.4.0‐srcb)下载所需资源# mvn clean install ‐DskipTestsc)编译# mvn package ‐Pdist,native ‐DskipTests ‐Dtar编译成功d)替换32位本地库用/hadoop‐2.4.0‐src/hadoop‐dist/target/hadoop‐2.4.0/lib/下的native目录替换掉/usr/local/hadoop‐2.4.0/lib下的native目录e)重新生成快捷方式# rm ‐rf /usr/local/hadoop‐2.4.0/lib/native/libhadoop.so# rm ‐rf /usr/local/hadoop‐2.4.0/lib/native/libhdfs.so# ln ‐s /usr/local/hadoop‐2.4.0/lib/native/libhadoop.so.1.0.0/usr/local/hadoop‐2.4.0/lib/native/libhadoop.so# ln ‐s /usr/local/hadoop‐2.4.0/lib/native/libhdfs.so.0.0.0/usr/local/hadoop‐2.4.0/lib/native/libhdfs.sochown -R hduser:hduser /usr/local/# chown ‐R hduser:hduser /usr/local/hadoop‐2.4.0/lib/native/配置(在15主机上)使用hduser用户# su hduser1.配置JDK环境a)hadoop‐env.sh$ vi /usr/local/hadoop‐2.4.0/etc/hadoop/hadoop‐env.shexport JAVA_HOME=${JAVA_HOME}修改为export JAVA_HOME=/usr/local/jdk1.6.0_25b)yarn‐env.sh$ vi /usr/local/hadoop‐2.4.0/etc/hadoop/yarn‐env.sh# export JAVA_HOME=/home/y/libexec/jdk1.6.0/修改为export JAVA_HOME=/usr/local/jdk1.6.0_252.修改core‐site.xml$vi /usr/local/hadoop‐2.4.0/etc/hadoop/core‐site.xml在<configuration></configuration>之间添加如下内容:<property><name>fs.defaultFS</name><value>hdfs://ns1</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop‐2.4.0/tmp</value></property><property><name>ha.zookeeper.quorum</name><value>h15:2181,h16:2181,h17:2181</value></property><property><name>io.native.lib.available</name><value>true</value><description>Should native hadoop libraries, if present, be used.</description></property>3.修改hdfs‐site.xml$vi /usr/local/hadoop‐2.4.0/etc/hadoop/hdfs‐site.xml在<configuration></configuration>之间添加如下内容:<property><name>hbase.rootdir</name><value>hdfs://ns1/hbase</value></property><property><name>services</name><value>ns1</value></property><property><name>nodes.ns1</name><value>nn1,nn2</value></property><property><name>node.rpc‐address.ns1.nn1</name><value>h15:9000</value></property><property><name>node.http‐address.ns1.nn1</name><value>h15:50070</value></property><property><name>node.rpc‐address.ns1.nn2</name><value>h16:9000</value></property><property><name>node.http‐address.ns1.nn2</name><value>h16:50070</value></property><property><name>node.shared.edits.dir</name><value>qjournal://h15:8485;h16:8485;h17:8485/ns1</value></property><property><name>dfs.journalnode.edits.dir</name><value>/usr/local/hadoop‐2.4.0/journal</value></property><property><name>dfs.ha.automatic‐failover.enabled</name><value>true</value></property><property><name>dfs.client.failover.proxy.provider.ns1</name><value>node.ha.ConfiguredFailoverProxyProvider</val ue></property><property><name>dfs.ha.fencing.methods</name><value>sshfence</value></property><property><name>dfs.ha.fencing.ssh.private‐key‐files</name><value>/home/hduser/.ssh/id_rsa</value></property>4.修改mapred‐site.xmla)将mapred‐site.xml.template重命名为mapred‐site.xml$mv /usr/local/hadoop‐2.4.0/etc/hadoop/mapred‐site.xml.template /usr/local/hadoop‐2.4.0/etc/hadoop/mapred‐site.xmlb)修改mapred‐site.xml$vi /usr/local/hadoop‐2.4.0/etc/hadoop/mapred‐site.xml在<configuration></configuration>之间添加如下内容:<property><name></name><value>yarn</value></property><!‐‐ mapreduce jobhistory config‐‐><property><name>mapreduce.jobhistory.address</name><value>h15:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>h15:19888</value></property><property><name>mapreduce.jobhistory.joblist.cache.size</name><value>20000</value></property>5.修改yarn‐site.xml$vi /usr/local/hadoop‐2.4.0/etc/hadoop/yarn‐site.xml在<configuration></configuration>之间添加如下内容:<!‐‐ nodemanager config ‐‐><property><name>yarn.nodemanager.aux‐services</name><value>mapreduce_shuffle</value></property><!‐‐ resourcemanager config ‐‐><property><name>yarn.resourcemanager.connect.retry‐interval.ms</name><value>2000</value></property><property><name>yarn.resourcemanager.ha.enabled</name><value>true</value></property><property><name>yarn.resourcemanager.ha.automatic‐failover.enabled</name><value>true</value></property><property><name>yarn.resourcemanager.ha.automatic‐failover.embedded</name><value>true</value></property><property><name>yarn.resourcemanager.cluster‐id</name><value>yarn‐cluster</value></property><property><name>yarn.resourcemanager.ha.rm‐ids</name><value>rm1,rm2</value></property><property><name>yarn.resourcemanager.scheduler.class</name><value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</ value></property><property><name>yarn.resourcemanager.recovery.enabled</name><value>true</value></property><property><name>yarn.app.mapreduce.am.scheduler.connection.wait.interval‐ms</name><value>5000</value></property><!‐‐ ZKRMStateStore config ‐‐><property><name>yarn.resourcemanager.store.class</name><value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</va lue></property><property><name>yarn.resourcemanager.zk‐address</name><value>h15:2181,h16:2181,h17:2181</value></property><property><name>yarn.resourcemanager.zk.state‐store.address</name><value>h15:2181,h16:2181,h17:2181</value></property><!‐‐ applications manager interface ‐‐><property><name>yarn.resourcemanager.address.rm1</name><value>h15:23140</value></property><property><name>yarn.resourcemanager.address.rm2</name><value>h16:23140</value></property><!‐‐ scheduler interface ‐‐><property><name>yarn.resourcemanager.scheduler.address.rm1</name><value>h15:23130</value></property><property><name>yarn.resourcemanager.scheduler.address.rm2</name><value>h16:23130</value></property><!‐‐ RM admin interface ‐‐><property><name>yarn.resourcemanager.admin.address.rm1</name><value>h15:23141</value></property><property><name>yarn.resourcemanager.admin.address.rm2</name><value>h16:23141</value></property><!‐‐ RM resource‐tracker interface ‐‐><property><name>yarn.resourcemanager.resource‐tracker.address.rm1</name> <value>h15:23125</value></property><property><name>yarn.resourcemanager.resource‐tracker.address.rm2</name> <value>h16:23125</value></property><!‐‐ RM web application interface ‐‐><property><name>yarn.resourcemanager.webapp.address.rm1</name><value>h15:23188</value></property><property><name>yarn.resourcemanager.webapp.address.rm2</name><value>h16:23188</value></property><property><name>yarn.resourcemanager.webapp.https.address.rm1</name><value>h15:23189</value></property><property><name>yarn.resourcemanager.webapp.https.address.rm2</name><value>h16:23189</value></property>6.修改slaves$ vi /usr/local/hadoop‐2.4.0/etc/hadoop/slaves内容如下:h15h16h17在16、17主机上安装1.拷贝目录:15主机:$ scp ‐r /usr/local/hadoop‐2.4.0/ hduser@10.12.34.16:/usr/local/$ scp ‐r /usr/local/hadoop‐2.4.0/ hduser@10.12.34.17:/usr/local/初始化1.确保zookeeper已经启动2.进入目录$ cd /usr/local/hadoop‐2.4.0/3.创建命名空间15主机:$./bin/hdfs zkfc ‐formatZK4.启动 journalnode15、16、17主机:$./sbin/hadoop‐daemon.sh start journalnode5.格式化namenode和journalnode目录15主机:$./bin/hadoop namenode ‐format ns16.启动主namenode进程15主机:$./sbin/hadoop‐daemon.sh start namenode7.格式化备namenode(格式化目录,而元数据则从主namenode拷贝)并启动备namenode进程16主机:$./bin/hdfs namenode –bootstrapStandby$./sbin/hadoop‐daemon.sh start namenode8.启动ZKFC15、16主机:$./sbin/hadoop-daemon.sh start zkfc9.启动datanode15、16、17主机:$./sbin/hadoop-daemon.sh start datanode启动进入目录$ cd /usr/local/hadoop‐2.4.0/一、启动HDFS1.启动 journalnode15、16、17主机:$ ./sbin/hadoop‐daemon.sh start journalnode2.启动namenode15、16主机:$./sbin/hadoop‐daemon.sh start namenode3.启动datanode15、16、17主机:$ ./sbin/hadoop-daemon.sh start datanode4.启动ZKFC15、16主机:$./sbin/hadoop-daemon.sh start zkfc二、启动Yarn1.启动resourcemanager15、16主机:$./sbin/yarn‐daemon.sh start resourcemanager2. 启动nodemanager15、16、17主机:$ ./sbin/yarn‐daemon.sh start nodemanager三、启动mapreduce jobhistory15主机:$ ./sbin/mr-jobhistory-daemon.sh start historyserver验证一、 HDFS1.Active节点,使用浏览器访问http://10.12.34.15:50070/2. StandBy节点,使用浏览器访问http://10.12.34.16:50070/二、Yarn1.Active节点,使用浏览器访问http://10.12.34.15:23188/cluster/cluster2. StandBy节点a) 使用浏览器访问http://10.12.34.16:23188b) 使用浏览器访问http://10.12.34.16:23188/cluster/cluster三、Jobhistory使用浏览器访问http://10.12.34.15:19888Hbase使用hduser用户# su hduser安装(在15主机上)1.下载/apache‐mirror/hbase/2.解压缩$ tar ‐zxvf /hbase‐0.98.5‐hadoop2‐bin.tar.gz ‐C /usr/local/配置(在15主机上)1.修改hbase‐env.sh$ vi /usr/local/hbase‐0.98.5‐hadoop2/conf/hbase‐env.sha)配置JDK# export JAVA_HOME=/usr/java/jdk1.6.0/修改为export JAVA_HOME=/usr/local/jdk1.6.0_25b)禁用自带zookeeper# export HBASE_MANAGES_ZK=true修改为export HBASE_MANAGES_ZK=false2.修改hbase‐site.xml$ vi /usr/local/hbase‐0.98.5‐hadoop2/conf/hbase‐site.xml在<configuration></configuration>之间添加如下内容:<property><name>hbase.rootdir</name><value>hdfs://ns1/hbase</value></property><property><name>hbase.cluster.distributed</name><value>true</value></property><property><name>hbase.master</name><value>h15:60000</value></property><property><name>hbase.master.port</name><value>60000</value></property><property><name>hbase.zookeeper.quorum</name><value>h15,h16,h17</value></property><property><name>hbase.zookeeper.property.clientPort</name><value>2181</value><description>property from zookeeper zoo.cfg.</description></property>3.新增文件hdfs‐site.xml拷贝hadoop的hdfs‐site.xml:$ cp /usr/local/hadoop‐2.4.0/etc/hadoop/hdfs‐site.xml /usr/local/hbase‐0.98.5‐hadoop2/conf/4.新增文件core‐site.xml拷贝hadoop的core‐site.xml:$ cp /usr/local/hadoop‐2.4.0/etc/hadoop/core‐site.xml /usr/local/hbase‐0.98.5‐hadoop2/conf/5.新增文件backup‐masters$ vi /usr/local/hbase‐0.98.5‐hadoop2/conf/backup‐masters内容如下:h166.修改regionservers$ vi /usr/local/hbase‐0.98.5‐hadoop2/conf/regionservers内容如下:h15h16h17在16、17主机上安装1.拷贝目录15主机:$ scp ‐r /usr/local/hbase‐0.98.5‐hadoop2/ hduser@10.12.34.16:/usr/local/$ scp ‐r /usr/local/hbase‐0.98.5‐hadoop2/ hduser@10.12.34.17:/usr/local/启动1.在15主机上$ cd /usr/local/hbase‐0.98.5‐hadoop2/$./bin/start‐hbase.sh验证hadoop hdfs[hduser@h15 hadoop‐2.4.0]$ ./bin/hadoop fs ‐ls hdfs://10.12.34.15:9000/Found 4 itemsdrwxr‐xr‐x ‐ hduser supergroup 0 2014‐09‐10 16:30 hdfs://10.12.34.15:9000/hbasedrwxr‐xr‐x ‐ hduser supergroup 0 2014‐09‐05 13:31 hdfs://10.12.34.15:9000/hivedrwx‐‐‐‐‐‐ ‐ hduser supergroup 0 2014‐09‐05 13:32 hdfs://10.12.34.15:9000/tmpdrwxr‐xr‐x ‐ hduser supergroup 0 2014‐09‐05 11:42 hdfs://10.12.34.15:9000/user验证 证 Hbase Hi ive 注:在 15,16,17 分别执行以 以下所有步骤,并且在 14 4 上安装 MYS SQL 数据库,mysql 安装过程 就不 不详述了,常 常规安装即可 可。