hadoop安装简要过程和相关配置文件
- 格式:doc
- 大小:62.50 KB
- 文档页数:9
Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
Hadoop在windows下还未经过很好的测试,所以笔者推荐大家在linux(cent os 5.X)下安装使用。
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh、rsync和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
可以使用yum install rsync来安装rsync。
一般来说ssh是默认安装到系统中的。
Jdk1.6的安装方法这里就不多介绍了。
确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.1.111、192.168.1.112和192.168.1.113(下文简称111,112和113),且都使用root用户。
下面是在linux平台下安装Hadoop的过程:在所有服务器的同一路径下都进行这几步,就完成了集群Hadoop软件的安装,是不是很简单?没错安装是很简单的,下面就是比较困难的工作了。
集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。
Hadoop的DFS需要确立NameNode与DataNode角色,一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。
另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色,一般JobTracker与NameNode共用一台机器作为master,而TaskTracker与DataNode同属于slave。
hadoop安装流程简单描述英文回答:Hadoop is an open-source software framework for distributed storage and processing of large datasets. It is designed to scale from single servers to thousands of machines, each offering local computation and storage. Here is a simple description of the installation process for Hadoop.Step 1: System Requirements.Before installing Hadoop, make sure your system meets the minimum requirements. Hadoop runs on Java, so you needto have Java Development Kit (JDK) installed on your system. Additionally, you will need a Unix-based system such as Linux or macOS.Step 2: Download Hadoop.Go to the official Apache Hadoop website and download the latest stable release of Hadoop. Choose the versionthat is compatible with your system and download the binary distribution.Step 3: Configure Environment Variables.After downloading Hadoop, set the environment variables in your system. This includes setting the JAVA_HOMEvariable to the location where JDK is installed and adding the Hadoop bin directory to the PATH variable.Step 4: Configure Hadoop.Next, you need to configure Hadoop by editing the configuration files. The core-site.xml, hdfs-site.xml, and mapred-site.xml files need to be configured to specify the Hadoop cluster settings, such as the file system and job tracker.Step 5: Start Hadoop Services.Once the configuration is done, you can start the Hadoop services. This includes starting the Hadoop Distributed File System (HDFS) and the Yet Another Resource Negotiator (YARN) services using the start-dfs.sh andstart-yarn.sh scripts respectively.Step 6: Verify Installation.To verify that Hadoop is installed and running correctly, you can run some sample commands such as creating a directory in HDFS, uploading a file, and running a MapReduce job.Step 7: Additional Configurations.Depending on your specific requirements, you may need to make additional configurations such as setting up security, adding nodes to the cluster, or tuning the performance settings.That's a simple overview of the Hadoop installation process. With these steps completed, you should have abasic Hadoop setup ready for storing and processing large datasets.中文回答:Hadoop是一个用于分布式存储和处理大型数据集的开源软件框架。
Hadoop的安装与配置建立一个三台电脑的群组,操作系统均为Ubuntu,三个主机名分别为wjs1、wjs2、wjs3。
1、环境准备:所需要的软件及我使用的版本分别为:Hadoop版本为0.19.2,JDK版本为jdk-6u13-linux-i586.bin。
由于Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户。
所以在三台主机上都设置一个用户名为“wjs”的账户,主目录为/home/wjs。
a、配置三台机器的网络文件分别在三台机器上执行:sudo gedit /etc/network/interfaceswjs1机器上执行:在文件尾添加:auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行:在文件尾添加:auto eth1iface eth1 inet staticaddress 192.168.137.3(wjs3上是address 192.168.137.4)gateway 192.168.137.1netmask 255.255.255.0b、重启网络:sudo /etc/init.d/networking restart查看ip是否配置成功:ifconfig{注:为了便于“wjs”用户能够修改系统设置访问系统文件,最好把“wjs”用户设为sudoers(有root权限的用户),具体做法:用已有的sudoer登录系统,执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行:wjsALL=(ALL)ALL,保存并退出。
}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析,在/etc/hosts中添加:192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务,因此必须确保安装Hadoop的各个节点之间网络的畅通,网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析(包括它自己)。
Hadoop配置文档Hadoop配置文档一.先决条件1. 确保在集群中的每个节点上都安装了所有必需软件:sun-JDK,ssh,Hadoop;2. Java1.5以上版本,必须安装,选择Sun公司发行的Java版本,各个机器统一版本;3. ssh 必须安装,并且保证一直运行,以便用Hadoop脚本管理远程端Hadoop守护进程。
4. Hadoop版本统一,采用Hadoop2.2.0版本,其中64位系统环境需要对Hadoop重新编译,目前找到已经编译好的native文件,替换掉Hadoop2.2.0/lib/中native的文件即可。
二.实验环境(以两台机器为例)1. 准备工作准备机器:一台master,一台slave,配置机器/etc/hosts保证分各台机器之间可以互访,其中master机器需要添加本机和所有slave机器的IP和hostname,其他机器之需要将自己的IP和hostname添加进去,建立映射关系即可。
映射关系添加如下:192.168.0.12 node1(master)192.168.0.09 node2(slave1)2. 安装JDK2.1 安装JDK,从官网下载sun的JDK1.5以上版本,解压保存在系统目录下,例如/usr/local/java。
为了方便配置,保证各台机器路径相同(不是必须的,只是为了后面配置方便尽量少的修改文件)。
2.2 设置环境变量,打开/etc/profile,命令(sudo gedit /etc/profile)。
在最后面添加如下内容:export JAVA_HOME=/usr/local/java/jdk1.7.0_40(这里的版本号1.7.40)export CLASSPATH=.:$JAVA_HOME/lib.tools.jarexport PATH=$JAVA_HOME/bin:$PATH2.3 最后使修改的文件生效:source /etc/profile2.4 验证JDK是否成功:java -version(查看安装成功的jdk版本)确保在当前用户下能够使用的jdk,否则后面不能通过。
hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。
它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。
本文旨在介绍Hadoop集群安装配置的主要操作步骤。
在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。
Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。
主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。
这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。
为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。
主要的操作步骤包括以下几个方面:1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。
2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。
然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。
3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。
这些配置文件会影响到集群的整体运行方式和资源分配策略。
4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。
从节点的配置主要包括核心配置和数据节点配置。
5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。
启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。
通过完成以上这些操作步骤,我们就可以成功搭建一个Hadoop集群,并开始进行大数据的处理和分析工作了。
当然,在实际应用中,还会存在更多的细节和需要注意的地方,我们需要根据具体的场景和需求进行相应的调整和扩展。
Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware,用于支撑Linux系统。
2、在VMware上安装Ubuntu系统。
3、安装Hadoop前的准备工作:安装JDK和SSH服务。
4、配置Hadoop。
5、为了方便开发过程,需安装eclipse。
6、运行一个简单的Hadoop程序:WordCount.java注:在win7系统上,利用虚拟工具VMware建立若干个Linux系统,每个系统为一个节点,构建Hadoop集群。
先在一个虚拟机上将所有需要配置的东西全部完成,然后再利用VMware 的克隆功能,直接生成其他虚拟机,这样做的目的是简单。
二、所需软件1、VMware:VMware Workstation,直接百度下载(在百度软件中心下载即可)。
2、Ubuntu系统:ubuntu-15.04-desktop-amd64.iso,百度网盘:/s/1qWxfxso注:使用15.04版本的Ubuntu(其他版本也可以),是64位系统。
3、jdk:jdk-8u60-linux-x64.tar.gz,网址:/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注:下载64位的Linux版本的jdk。
4、Hadoop:hadoop-1.2.1-bin.tar.gz,网址:/apache/hadoop/common/hadoop-1.2.1/注:选择1.2.1版本的Hadoop。
5、eclipse:eclipse-java-mars-1-linux-gtk-x86_64.tar.gz,网址:/downloads/?osType=linux注:要选择Linux版本的,64位,如下:6、hadoop-eclipse-plugin-1.2.1.jar,这是eclipse的一个插件,用于Hadoop的开发,直接百度下载即可。
三、安装过程1、安装VMware。
简述hadoop安装步骤简述hadoop安装步骤安装步骤:1、安装虚拟机系统,并进⾏准备⼯作(可安装- ⼀个然后克隆)2.修改各个虚拟机的hostname和host3.创建⽤户组和⽤户4、配置虚拟机⽹络,使虚拟机系统之间以及和host主机之间可以通过相互ping通。
5.安装jdk和配置环境变量,检查是否配置成功6、配置ssh,实现节点间的⽆密码登录ssh node1/2指令验证时候成功7、master 配置hadoop,并将hadoop⽂件传输到node节点8、配置环境变量,并启动hadoop, 检查是否安装成功,执⾏wordcount检查是否成功。
⼆.HDFS作⽤是什么Hadoop分布式⽂件系统(HDFS)是指被设计成适合运⾏在通⽤硬件(commodity hardware)上的分布式⽂件系统(Distributed File System)。
它和现有的分布式⽂件系统有很多共同点。
但同时,它和其他的分布式⽂件系统的区别也是很明显的。
HDFS是⼀个⾼度容错性的系统,适合部署在廉价的机器上。
HDFS能提供⾼吞吐量的数据访问,⾮常适合⼤规模数据集上的应⽤。
HDFS放宽了⼀部分POSIX约束,来实现流式读取⽂件系统数据的⽬的。
HDFS在最开始是作为Apache Nutch搜索引擎项⽬的基础架构⽽开发的。
HDFS是Apache Hadoop Core项⽬的⼀部分。
HDFS有着⾼容错性(fault-tolerant)的特点,并且设计⽤来部署在低廉的(low-cost)硬件上。
⽽且它提供⾼吞吐量(high throughput)来访问应⽤程序的数据,适合那些有着超⼤数据集(large data set)的应⽤程序。
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)⽂件系统中的数据。
三.常⽤的Hadoop FS Shell命令有哪些及其作⽤1.调⽤Hadoop的⽂件系统Shell(FileSystem Shell)的命令格式:语法:hadoop fs <args>:前提是位置位于hadoop/bin下,其中fs是参数,表⽰FS Shell,<args>是fs的⼦命令2.使⽤FS Shell命令⾏管理⽂件:mkdir -创建⽬录语法:hadoop fs -mkdir <paths>例⼦:hadoop fs -mkdir /user:在HDFS中创建"/user"⽬录hadoop fs -mkdir /user/hadoop:在HDFS中创建"/user/hadoop"⽬录hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2:在HDFS中同时创建"/user/hadoop/dir1"和"/user/hadoop/dir2",⽬录ls -查看列表⽂件语法:hadoop fs -ls <args>如果是⽂件,则按照如下格式返回⽂件信息:⽂件名<副本数> ⽂件⼤⼩修改⽇期修改时间权限⽤户ID 组ID如果是⽬录,则返回它直接⼦⽂件的⼀个列表cat -查看⽂件语法:hadoop fs -cat URI <URI...>:输出路径指定⽂件的内容例⼦:hadoop fs -cat /input2/file1.txt /input2/file2.txt:在HDFS中查看input2⽬录下的file1.txt和file2.txt的⽂件内容put -从本地⽂件系统中复制⼀个或多个⽂件到HDFS(外部命令)语法:hadoop fs -put <localsrc>...<dst>其中localsrc只能是本地⽂件,dst只能是HDFS⽂件,且不受fs.defaultFS属性影响。
hadoop安装步骤1.准备Linux环境1.0先将虚拟机的⽹络模式选为NAT1.1修改主机名 hostnamectl set-hostname server11.2修改IP 修改配置⽂件⽅式(修改的是⽹卡信息 ip a 查看⽹卡),第⼀次启动时没有ip的,需要将⽹卡配置之中 ONBOOT=yes, 然后重启⽹络vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE="eth0"BOOTPROTO="static"###HWADDR="00:0C:29:3C:BF:E7"IPV6INIT="yes"NM_CONTROLLED="yes"ONBOOT="yes"TYPE="Ethernet"UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"IPADDR="192.168.1.101"###NETMASK="255.255.255.0"###GATEWAY="192.168.1.1"###1.3修改主机名和IP的映射关系(每台机器都要有)192.168.33.101 server1192.168.33.102 server2192.168.33.103 server31.4关闭防⽕墙#查看防⽕墙状态service iptables status#关闭防⽕墙service iptables stop#查看防⽕墙开机启动状态chkconfig iptables --list#关闭防⽕墙开机启动chkconfig iptables off1.5 关闭linux服务器的图形界⾯:vi /etc/inittab1.6重启Linuxreboot2.安装JDK#创建⽂件夹mkdir /home/hadoop/app#解压tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app2.3将java添加到环境变量中(如果在 .bashrc 之中配置了java环境变量,hadoop 是不需要指定 JAVA_HOME,如果在 /etc/profile 需要指定,因为 ssh 默认不会加载 /et/profile) vim ~/.bashrc#在⽂件最后添加export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585export PATH=$PATH:$JAVA_HOME/bin#刷新配置source ~/.bashrc3.安装hadoop2.4.1(要保证以下⽂件都有读写权限)先上传hadoop的安装包到服务器上去/home/hadoop/分布式需要修改5个配置⽂件3.1配置hadoopvim hadoop-env.shexport JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585第⼆个:core-site.xml<!-- 指定HADOOP所使⽤的⽂件系统schema(URI),HDFS的⽼⼤(NameNode)的地址 --><property><name>fs.defaultFS</name><value>hdfs://server1:9000</value><!--hadoop 的默认⽤户--><property><name>er</name><value>master</value></property><!--datanode.data.dir 存储⽂件⽬录, .dir 元数据,namenode.edits.dir ⽇志⽬录三者都依赖于此⽬录--> <property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.7.0/data/tmp</value></property>第三个:hdfs-site.xml<!--其他⽤户使⽤hdfs 操作⽂件,是否进⾏验证!--><property><name>dfs.permissions</name><value>false</value></property>第四个:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)<property><name></name><value>yarn</value></property><!--⽇志页⾯的显⽰ ip:port--><property><name>mapreduce.jobhistory.address</name><value>sserver1:10020</value></property><!--运⾏ yarn 任务跳转的页⾯--><property><name>mapreduce.jobhistory.webapp.address</name><value>server1:19888</value></property>第五个:yarn-site.xml<property><name>yarn.resourcemanager.hostname</name><value>server1</value></property><!-- reducer获取数据的⽅式,⼀种辅助 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--开启⽇志聚集--><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!--⽇志存放的时间(s)--><property><name>yarn.log-aggregation.retain-seconds</name><value>100000</value></property>第六个 salves(代表着 DataNode个数, 在sbin/slaves 之中 ssh 遍历连接)server1server2server33.2将hadoop添加到环境变量vim /etc/proflieexport JAVA_HOME=/usr/java/jdk1.7.0_65export HADOOP_HOME=/master/hadoop-2.4.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile3.3 将 app ⽂件夹配置到其他的节点之上(节点信息与master配置信息是⼀样的)scp -r app/ hdp-node-01:/home/slave3.4 格式化namenode(是对namenode进⾏初始化)hdfs namenode -format (hadoop namenode -format)3.5启动hadoop先启动HDFSsbin/start-dfs.shsbin/start-yarn.sh3.6验证是否启动成功使⽤jps命令验证27408 NameNode28218 Jps27643 SecondaryNameNode28066 NodeManager27803 ResourceManager27512 DataNodehttp://192.168.1.101:50070 (HDFS管理界⾯)http://192.168.1.101:8088 (MR管理界⾯)4.配置ssh免登陆#⽣成ssh免登陆密钥#进⼊到我的home⽬录cd ~ssh-keygen -t rsa #四个回车#执⾏完这个命令后,会⽣成两个⽂件id_rsa(私钥)、id_rsa.pub(公钥)# master ,authorized_keys ⽂件(新⽣成)ssh-copy-id -i ~/.ssh/id_rsa.pub localhost#slave, authorized_keys ⽂件(新⽣成),此处是在 /etc/hosts 写⼊的(集群是相同的⽤户名) ssh-copy-id -i ~/.ssh/id_rsa.pub server15,注:更改⽂件夹权限更改⽂件夹权限# 切换超级权限su# 当前⽂件夹所有的⽤户与组chown -R hadoop:hadoop *。
Hadoop安装、配置指南一、环境1、软件版本Hadoop:hadoop-0.20.2.Hive:hive-0.5.0JDK:jdk1.6以上版本2、配置的机器:主机[服务器master]:192.168.10.121 hadoop13从机[服务器slaves]:192.168.10.68 hadoop4在本文中,在命令或二、先决条件1、配置host:打开/etc/host文件,添加如下映射192.168.10.121 hadoop13 hadoop13192.168.10.68 hadoop4 hadoop42、配置SSH自动登陆1)以ROOT用户,登陆到[服务器master]上执行,如下操作:ssh-keygen -t rsa //一路回车cd ~/.sshcat id_rsa.pub >> authorized_keysscp -r ~/.ssh [服务器slaves]:~/2)以ROOT用户,登陆到[服务器slaves]上执行,如下操作:scp -r ~/.ssh [服务器master]:~/3)测试SSH是否配置成功在主服务器中执行如下命令:ssh [服务器master]ssh 192.168.10.68成功显示结果:Last login: Thu Aug 26 14:11:27 2010 from 在从服务器中执行如下命令:ssh [服务器slaves]ssh 192.168.10.121成功显示结果Last login: Thu Aug 26 18:23:58 2010 from 三、安装hadoop1、JDK安装,解压到/usr/local/jdk1.6.0_17,并配置/etc/profile环境export JAVA_HOME=/usr/local/jdk/jdk1.7.0export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATHexport CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jarJDK路径:/usr/local/jdk/jdk1.7.0export JAVA_HOME=/usr/local/jdk/jdk1.7.0export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATHexport CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar/usr/local/jdk/jdk1.7.02、下载Hadoop 并解压到[服务器master]的/root/zwmhadoop目录下tar zxvf hadoop-0.20.2.tar.gz四、配置hadoop1.配置主机[服务器master]到zwm hadoop/hadoop-0.20.2/ hadoop 目录下,修改以下文件:1)配置conf/hadoop-env.sh文件,在文件中添加环境变量,增加以下内容:export JAVA_HOME=/usr/local/jdk1.6.0_17export HADOOP_HOME=/root/zwmhadoop/hadoop-0.20.2/2)配置conf/core-site.xml文件,增加以下内容<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name></name><value>hdfs://192.168.10.121:9000</value>//你的namenode的配置,机器名加端口<description>The nam e of the default file system. Either the literal string "local" o r a host:port for DFS.</description></property></configuration>3)配置conf/hdfs-site.xml文件,增加以下内容<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>hadoop.t m p.dir</name><value>/root/zwmhadoop/t m p</value>//Hadoop的默认临时路径,这个最好配置,然后在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的t mp目录即可。
Hadoop安装简要过程及配置文件1、机器准备①、Linux版操作系统centos 6.x②、修改主机名,方便配置过程中记忆。
修改文件为:/etc/sysconfig/network 修改其中的HOSTNAME即可③、配置局域网内,主机名与对应ip,并且其中集群中所有的机器的文件相同,修改文件为 /etc/hosts格式为:10.1.20.241 namenode10.1.20.242 datanode110.1.20.243 datanode22、环境准备①、配置ssh免密码登陆,将集群中master节点生成ssh密码文件。
具体方法:1)、ssh-keygen -t rsa 一直回车即可,将会生成一份 ~/.ssh/ 文件夹,其中id_rsa为私钥文件 id_rsa.pub公钥文件。
2)、将公钥文件追加到authorized_keys中然后再上传到其他slave节点上追加文件: cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys上传文件: scp ~/.ssh/authorized_keys root@dananode:~/.ssh/3)、测试是否可以免密码登陆:ssh 主机名或局域网ip②、配置JDK③、创建hadoop用户groupadd hadoopuseradd hadoop -g hadoop4)、同步时间ntpdate 5)、关闭防火墙service iptables stop3、安装cdh5进入目录/data/tools/ (个人习惯的软件存储目录,你可以自己随便选择);wget "/cdh5/one-click-install/redhat/ 6/x86_64/cloudera-cdh-5-0.x86_64.rpm"yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm添加cloudera仓库验证:rpm--import/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera4、安装hdfs与mapreduce①、安装hdfs:1)、节点分配由于只有1台 namenode节点,它负责监管所有的datanode节点,即可为master节点,其余的均为datanode节点,则主机规划为:Master安装 namenode其余的slave安装 datanode2)、节点安装Master安装:sudo yum clean all; sudo yum install hadoop-hdfs-namenode Slave安装:sudo yum clean all; sudo yum install hadoop-hdfs-datanode②、MRv2安装1)、节点分配由于在MRv2中运用了yarn对节点的管理则在mapreduce的分配中需要一个 resourcemanager节点对所有节点进行管理,以及运用nodemanager 对每一个datanode进行管理,由于只有一个resourcemanager节点,可以考虑将其放在master节点上(可以任意选择,即可以放在datanode上) Master安装:resourcemanager、mapreduce、historyserverSlave安装:nodemanager、mapruduce2)、节点安装Master节点:Sudo yum clean all; sudo yum installhadoop-yarn-resourcemanagerSudo yum clean all; sudo yum install hadoop-mapreduceSudo yum clean all; sudo yum isntall hadoop-mapreduce-historyserver Slave节点:Sudo yum clean all; sudo yum install hadoop-yarn-nodemanagerSudo yum clean all; sudo yum install hadoop-mapreduce③、hadoop客户端安装即该节点可以用shell脚本与hdfs进行交互以及job提交Sudo yum clean all; sudo yum install hadoop-client④、MRv1安装1)、节点分配由于在MRv1中是运用Tracker对资源进行管理,所以在集群中需要有一个JobTracker对所有资源进行管理,其余的节点都为TaskTracker对单几点进行管理。
Master安装:jobTrackerSlave 安装:taskTracker2)、节点安装Master节点:sudo yum clean all; sudo yum installhadoop-0.20-mapreduce-jobtrackerSlave 节点:Sudo yum clean all; sudo yum installhadoop-0.20-mapreduce-tasktracker5、配置文件的修改:①、hdfs文件配置core-site.xml文件<property><name>fs.defaultFS</name><value>hdfs://master节点主机名或ip:8020</value></property>hdfs-site.xml文件<configuration><property><name>.dir</name><value>/var/lib/hadoop-hdfs/cache/hdfs/dfs/name</value>//namnode储存名字空间及汇报日志的位置,其中所属用户及用户组为:hdfs:hdfs,读写执行权限为:drwx------</property><property><name>dfs.datanode.data.dir</name><value>/data/cache1/dfs/dn/</value>//datanode储存数据块的位置,其中权限跟上面的namenode相同</property><property><name>dfs.replication</name><value>2</value> // 表示文件储存备份数</property></configuration>②、MRv2 yarn文件配置yarn-site.xml文件(红色ip为安装resourcemanager的ip)<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><description>List of directories to store localized filesin.</description><name>yarn.nodemanager.local-dirs</name><value>/var/lib/hadoop-yarn/cache/${}/nm-local-dir</value></property><property><name>yarn.resourcemanager.address</name><value>10.1.20.241:8032</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>10.1.20.241:8030</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>10.1.20.241:8088</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>10.1.20.241:8031</value></property><property><name>yarn.resourcemanager.admin.address</name><value>10.1.20.241:8033</value></property><property><description>Where to store container logs.</description><name>yarn.nodemanager.log-dirs</name><value>/var/log/hadoop-yarn/containers</value></property><property><description>Where to aggregate logs to.</description><name>yarn.nodemanager.remote-app-log-dir</name><value>hdfs://master主机名或ip/var/log/hadoop-yarn/apps</value> //这里是存放路径,不是本地路径,如果是本地路径,nodemanager将会无限死掉</property><property><description>Classpath for typical applications.</description><name>yarn.application.classpath</name><value>$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,$HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,$HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,$HADOOP_YARN_HOME/*,$HADOOP_YARN_HOME/lib/*</value></property></configuration>③、MRv1文件配置mapred.xml文件<!--property><name></name><value>yarn</value>//Mapreduce MRV1与MRV2版本,如果是yarn则选择</property--><property><name>mapred.job.tracker</name><value>hdfs://jobtracker主机名或ip:8020</value></property><property><name>mapred.local.dir</name><value>/data/1/mapred/local</value>//Tasktracker运行mapreduce时临时储存位置和中间输出目录,文件所有者及用户组权限:mapred:hadoop,读写执行权限为drwxr-xr-x</property>6、安装过程中出现的问题:1)、由于本地目录权限问题,导致nodemanager无法正常启动2)、先配置MRV2后再配置MRV1时,注意环境变量需要改成MRV1(即需要执行 export HADOOP_MAPRED_HOME=/usr/lib/hadoop-0.20-mapreduce或者在/etc/hadoop/conf/下新建hadoop-env.sh文件添加exportHADOOP_MAPRED_HOME=/usr/lib/hadoop-0.20-mapreduce)。