当前位置：文档之家› hadoop大数据平台分布式集群环境搭建安装规划

hadoop大数据平台分布式集群环境搭建安装规划

hadoop大数据平台分布式集群环境搭建安装规划Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情，因为你可能花费了很久的时间在搭建运行环境，最终却不知道什么原因无法创建成功。但对新手来说，运行环境搭建不成功的概率还蛮高的。

在之前的分享文章中给hadoop新手入门推荐的大快搜索DKHadoop发行版，在运行环境安装方面的确要比其他的发行版hadoop要简单的多，毕竟DKHadoop是对底层重新集成封装的，对与研究hadoop尤其是入门级新手来说是非常友好的一个发行版！关于DKHadoop的安装留在后面再给大家分享，本篇就跟大家聊一聊关于【hadoop分布式集群环境搭建规划】。

1、分布式机器架构图：

其中机器1主节点，机器2从节点，机器3、机器4等都是计算节点。当主节点宕机后从节点代替主节点工作，正常状态是从节点和计算节点一样工作。这种架构设计保证数据完整性。

首先我们保证每台计算节点上分别有一个DataNode节点和NodeManager节点。因为都是计算节点，真正干活的。在数量上我们要保证。那么NameNode和ResourceManager是两个非常重要的管理者，我们客户端的请求，第一时间与NameNode 和ResourceManager打交道。NameNode负责管理HDFS文件系统的元数据，客户端不管是读文件还是写文件，都要首先找到NameNode获取文件的元数据，再进行文件的操作。ResourceManager也是如此，它负责管理集群中的资源和任务调度，你也可以把它视为“大数据操作系统”。客户端能否提交应用并运行，就看你的ResourceManager是否正常。2、达到多大规模的数据，才值得用大数据的方式来处理？

第一，从数据量角度，但是并无确定的答案，一般定性角度来说，你觉得这个数据量单机处理不了，比如内存限制，时间过久等，就用集群，但是要降低时间，你的处理逻辑必须能分布式处理，定量就是一般数据或者未来的数据量会达到PB级别（可能GB）或以上就要用分布式，当然前提也是你的处理逻辑可以进行分布式。

第二，从算法角度，或者处理逻辑的时间复杂度来说，比如虽然你的数据记录不是很多，但是你的算法或者处理逻辑的时间复杂度是n的平方，甚至更高，同时你的算法可以进行分布式设计，那么就考虑用分布式，比如你的记录虽然只有1w, 但是时间复杂度确是n的平方，那么你想想单机要多久，要是你的算法可以进行分布式处理，那么就考虑用分布式。

3、制约大数据处理能力的几个问题

a、网络带宽

网络是联接计算机的纽带，这个纽带当然越宽越好，这样可以在计算机资源许可的情况

下，在单位时间内传输更多的数据，让计算机处理更多的数据。现在企业网络中，普遍采用的多是百兆网络，也有千兆，万兆虽然有，但是用得不多。

b、磁盘

所有数据，不管它从哪里来，最终都要存进不同的硬盘里面，或者闪存盘。闪存盘的读写效率比硬盘高得多，但是缺点也明显：价格贵、容量小。现在的存储介质主要还是硬盘，硬盘有顺序读写和随机读写两种模型。顺序读写是磁头沿着磁道，好象流水线一样，有规律的向前滚动进行。随机读写是磁头跳跃着，找到磁道上留空的地方，把数据写进去。很明显，顺序读写比随机读写效率高，所以系统架构师在设计大数据存储方案时，都是以顺序读写为主要选择。

c、计算机的数量

分布式的集群环境下，计算机的规模当然越大越好。这样在数据等量的情况下，计算机数量越多，分配给每台计算机的数据越少，处理效率自然就高了。但是计算机的数量也不是可以无限增加，集群对计算机规模的容纳有一个峰值，超过这个峰值，再提升就很困难，处理不好还会下降。原因主要来自木桶短板效应、边界效应、规模放大效应。根据多年前的一个测试，当时以Pentium 3和Pentium 4芯片为基础平台，配合100M网络，在上面运行LAXCUS大数据系统。当达到千台计算机的规模时，瓶颈开始显露出来。如果现在用新的X86芯片，加上更高速的网络，应该是能够容纳更多的计算机。

d、代码质量

这不是关键问题，但是是企业必须关注的一个问题。这和程序员编写的计算机代码质量有关。实际上，每个大数据产品都是半成品，它们只是提供了一个计算框架，要实际应用到企业生产中，里面还有大量业务编码需要程序员来实现。要使大数据应用达到高质量，技术负责人要做好前期设计，清楚和规范业务流程，程序员拿到方案后，用统一格式编写代码。

这是双方互相配合的过程。或者说，要做好协同和协调的事情。

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。本教程由厦门大学数据库实验室出品，转载请注明。本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop，并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。继续下一步配置前，请先完成上述流程的前 4 个步骤。网络配置假设集群所用的节点都位于同一个局域网。如果使用的是虚拟机安装的系统，那么需要更改网络连接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在VirturalBox 中的设置如下图。此外，如果节点的系统是在虚拟机中直接复制的，要确保各个节点的Mac 地址不同（可以点右边的按钮随机生成MAC 地址，否则IP 会冲突）：

hadoop2.7.2 伪分布式安装

hadoop：建立一个单节点集群伪分布式操作安装路径为：/opt/hadoop-2.7.2.tar.gz 解压hadoop: tar -zxvf hadoop-2.7.2.tar.gz 配置文件 1. etc/hadoop/hadoop-env.sh export JAVA_HOME=/opt/jdk1.8 2. etc/hadoop/core-site.xml fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir file:/opt/hadoop-2.7.2/tmp 3. etc/hadoop/hdfs-site.xml https://www.doczj.com/doc/9112191331.html,.dir file:/opt/hadoop-2.7.2/dfs/name dfs.datanode.data.dir file:/opt/hadoop-2.7.2/dfs/data dfs.replication 1 dfs.webhdfs.enabled true

hadoop集群部署之双虚拟机版

1、采用一台机器开两个虚拟机的方式构成两台电脑的环境，用root登录。分别查看其IP地址：输入# ifconfig，可得主机IP：192.168.1.99；分机为：192.168.1.100。 2、在两台机器上的/etc/hosts均添加相应的主机名和IP地址：这里主机名命名为shenghao，分机名命名为slave：保存后重启网络： 3、两台机器上均创立hadoop用户（注意是用root登陆） # useradd hadoop # passwd hadoop 输入111111做为密码登录hadoop用户：注意，登录用户名为hadoop，而不是自己命名的shenghao。 4、ssh的配置进入centos的“系统→管理→服务器设置→服务，查看sshd服务是否运行。在所有的机器上生成密码对： # ssh-keygen -t rsa 这时hadoop目录下生成一个.ssh的文件夹，可以通过# ls .ssh/来查看里面产生的私钥和公钥：id_rsa和id_rsa.pub。更改.ssh的读写权限： # chmod 755 .ssh 在namenode上（即主机上）

进入.ssh，将id_rsa.pub直接复制为authorized_keys（namenode的公钥）： # cp id_rsa.pub authorized_keys 更改authorized_keys的读写权限： # chmod 644 authorized_keys 【这个不必须，但保险起见，推荐使用】然后上传到datanode上（即分机上）： # scp authorized_keys hadoop@slave:/home/hadoop/.ssh # cd .. 退出.ssh文件夹这样shenghao就可以免密码登录slave了：然后输入exit就可以退出去。然后在datanode上（即分机上）：将datanode上之前产生的公钥id_rsa.pub复制到namenode上的.ssh目录中，并重命名为slave.id_rsa.pub，这是为了区分从各个datanode上传过来的公钥，这里就一个datanode，简单标记下就可。 # scp -r id_rsa.pub hadoop@shenghao:/home/hadoop/.ssh/slave.id_rsa.pub 复制完毕，此时，由于namenode中已经存在authorized_keys文件，所以这里是追加，不是复制。在namenode上执行以下命令，将每个datanode的公钥信息追加: # cat slave.id_rsa.pub >> authorized_keys 这样，namenode和datanode之间便可以相互ssh上并不需要密码：然后输入exit就可以退出去。 5、hadoop的集群部署配置hadoop前一定要配置JDK，请参考相关资料，这里就不赘述了。将下载好的hadoop-0.19.0.tar.gz文件上传到namenode的/home/hadoop/hadoopinstall 解压文件： # tar zxvf hadoop-0.19.0.tar.gz 在/erc/profile的最后添加hadoop的路径： # set hadoop path export HADOOP_HOME=/home/hadoop/hadoopinstall/hadoop-0.20.2 export PATH=$HADOOP_HOME/bin:$PATH 之后配置hadoop/conf中的4个文件：

hadoop伪分布式搭建2.0

1. virtualbox安装 1. 1. 安装步骤 1. 2. virtualbox安装出错情况 1. 2.1. 安装时直接报发生严重错误 1. 2.2. 安装好后，打开Vitualbox报创建COM对象失败，错误情况1 1. 2.3. 安装好后，打开Vitualbox报创建COM对象失败，错误情况2 1. 2.4. 安装将要成功，进度条回滚，报“setup wizard ended prematurely”错误 2. 新建虚拟机 2. 1. 创建虚拟机出错情况 2. 1.1. 配制好虚拟光盘后不能点击OK按钮 3. 安装Ubuntu系统 3. 1. 安装Ubuntu出错情况 3. 1.1. 提示VT-x/AMD-V硬件加速在系统中不可用 4. 安装增强功能 4. 1. 安装增强功能出错情况 4. 1.1. 报未能加载虚拟光盘错误 5. 复制文件到虚拟机 5. 1. 复制出错情况 5. 1.1. 不能把文件从本地拖到虚拟机 6. 配置无秘登录ssh 7. Java环境安装 7. 1. 安装Java出错情况 7. 1.1. 提示不能连接 8. hadoop安装 8. 1. 安装hadoop的时候出错情况 8. 1.1. DataNode进程没启动 9. 开机自启动hadoop 10. 关闭服务器（需要时才关） 1. virtualbox安装 1. 1. 安装步骤 1.选择hadoop安装软件中的VirtualBox-6.0.8-130520-Win

2.双击后进入安装界面，然后直接点击下一步 3.如果不想把VirtualBox安装在C盘，那么点击浏览

如何基于Docker快速搭建多节点Hadoop集群

如何基于Docker快速搭建多节点Hadoop集群 Docker最核心的特性之一，就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后，开发了接近最小化的Hadoop镜像，并且支持快速搭建任意节点数的Hadoop集群。 Docker最核心的特性之一，就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后，开发了接近最小化的Hadoop镜像，并且支持快速搭建任意节点数的Hadoop集群。一. 项目简介 GitHub: kiwanlau/hadoop-cluster-docker 直接用机器搭建Hadoop集群是一个相当痛苦的过程，尤其对初学者来说。他们还没开始跑wordcount，可能就被这个问题折腾的体无完肤了。而且也不是每个人都有好几台机器对吧。你可以尝试用多个虚拟机搭建，前提是你有个性能杠杠的机器。我的目标是将Hadoop集群运行在Docker容器中，使Hadoop开发者能够快速便捷地在本机搭建多节点的Hadoop集群。其实这个想法已经有了不少实现，但是都不是很理想，他们或者镜像太大，或者使用太慢，或者使用了第三方工具使得使用起来过于复杂。下表为一些已知的Hadoop on Docker项目以及其存在的问题。我的项目参考了alvinhenrick/hadoop-mutinode项目，不过我做了大量的优化和重构。alvinhenrick/hadoop-mutinode项目的GitHub主页以及作者所写的博客地址如下： GitHub：Hadoop (YARN) Multinode Cluster with Docker

Hadoop云计算平台搭建最详细过程(共22页)

Hadoop云计算平台及相关组件搭建安装过程详细教程 ——Hbase+Pig+Hive+Zookeeper+Ganglia+Chukwa+Eclipse等一．安装环境简介根据官网，Hadoop已在linux主机组成的集群系统上得到验证，而windows平台是作为开发平台支持的，由于分布式操作尚未在windows平台上充分测试，所以还不作为一个生产平台。Windows下还需要安装Cygwin，Cygwin是在windows平台上运行的UNIX模拟环境，提供上述软件之外的shell支持。实际条件下在windows系统下进行Hadoop伪分布式安装时，出现了许多未知问题。在linux系统下安装，以伪分布式进行测试，然后再进行完全分布式的实验环境部署。Hadoop完全分布模式的网络拓补图如图六所示：（1）网络拓补图如六所示：图六完全分布式网络拓补图（2）硬件要求：搭建完全分布式环境需要若干计算机集群，Master和Slaves 处理器、内存、硬盘等参数要求根据情况而定。（3）软件要求操作系统64位版本:

并且所有机器均需配置SSH免密码登录。二． Hadoop集群安装部署目前，这里只搭建了一个由三台机器组成的小集群，在一个hadoop集群中有以下角色：Master和Slave、JobTracker和TaskTracker、NameNode和DataNode。下面为这三台机器分配IP地址以及相应的角色： ——master，namenode，jobtracker——master（主机名） ——slave，datanode，tasktracker——slave1（主机名） ——slave，datanode，tasktracker——slave2（主机名）实验环境搭建平台如图七所示：

Hadoop集群安装详细步骤

Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术 Hadoop集群安装首先我们统一一下定义，在这里所提到的Hadoop是指Hadoop Common，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。 Hadoop在windows下还未经过很好的测试，所以笔者推荐大家在linux（cent os 5.X）下安装使用。准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件：ssh、rsync和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。可以使用yum install rsync来安装rsync。一般来说ssh是默认安装到系统中的。Jdk1.6的安装方法这里就不多介绍了。确保以上准备工作完了之后我们就开始安装Hadoop软件，假设我们用三台机器做Hadoop集群，分别是：192.168.1.111、192.168.1.112和192.168.1.113（下文简称111，112和113），且都使用root用户。下面是在linux平台下安装Hadoop的过程：在所有服务器的同一路径下都进行这几步，就完成了集群Hadoop软件的安装，是不是很简单？没错安装是很简单的，下面就是比较困难的工作了。集群配置

根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由 NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。 Hadoop的DFS需要确立NameNode与DataNode角色，一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色，一般JobTracker与NameNode共用一台机器作为master，而TaskTracker与DataNode同属于slave。至于NameNode/DataNode和JobTracker/TaskTracker的概念这里就不多讲了，需要了解的可以参看相关文档。在这里我们使用111作为NameNode与JobTracker，其它两台机器作为DataNode和TaskTracker，具体的配置如下：环境的配置在$HADOOP_HOME/conf/hadoop-env.sh中定义了Hadoop启动时需要的环境变量设置，其中我们至少需要配置JAVA_HOME（Jdk的路径）变量；另外我们一般还需要更改HADOOP_LOG_DIR（Hadoop的日志路径）这个变量，默认的设置是“export HADOOP_LOG_DIR=${HADOOP_HOME}/logs”，一般需要将其配置到一个磁盘空间比较大的目录下。 Hadoop核心程序配置 Hadoop 包括一组默认配置文件（$HADOOP_HOME/src目录下的 core/core-default.xml, hdfs/hdfs-default.xml 和 mapred/mapred-default.xml），大家可以先好好看看并理解默认配置文件中的那些属性。虽然默认配置文件能让Hadoop核心程序顺利启动，但对于开发人员来说一般需要自己的来设置一些常规配置以满足开发和业务的需求，所以我们需要对默认配置文件的值进行覆盖，具体方法如下。 $HADOOP_HOME/conf/core-site.xml是Hadoop的核心配置文件，对应并覆盖core-default.xml中的配置项。我们一般在这个文件中增加如下配置： Core-site.xml代码 1. 2. 3. 4. https://www.doczj.com/doc/9112191331.html, 5. hdfs://192.168.1.111:9000 6. 7.

在windows下安装hadoop

在windows下通过安装cygwin模拟linux环境，然后再安装hadoop，是一种简单方便的方式。首先是搭建cygwin环境：一、安装cygwin 二、安装sshd服务三、启动sshd服务四、配置ssh无密码登录一、此处无话可说，按照网上的文档，选择必要的组件即可。二、 1 以管理员身份运行cygwin 2 输入：ssh-host-config 有关键的两步：*** Query: Do you want to use a different name? (yes/no)选择yes *** Query: Create new privileged user account 'cyg_server'? (yes/no) 选择yes 创建的用户名最好为新的用户名，密码最好与windows用户的密码一致三、在开始菜单运ervices.msc或其他手段进入服务列表，找到cygwin sshd服务，查看属性是否为上一步的用户名登陆的，否则更改之。此时可能不能启动，需要在计算机右击“管理”，用户和组的管理中将上面的用户加入管理员的组，即授予管理员权限。四、此时使用ssh服务，即输入：ssh localhost会要求输入密码，若显示为“last login:......”则说明已经正确安装ssh服务并且可以启动。接下来是配置ssh的无密码登陆： 1输入：ssh-keygen （一直回车，一般是三次回车） 2 输入：cd ~/.ssh 3 输入：cp id_rsa.pub authorized_keys 此时输入exit退出cygwin，再次以管理员身份进入cygwin，输入ssh localhost，若没有要求输入密码便显示“last login.....”则说明成功了。接下来是安装Hadoop：一、安装JDK 二、下载hadoop及配置hadoop环境三、格式化namenode 四、启动hadoop

Hadoop集群搭建(二)HDFS_2017

Hadoop集群搭建(二)HDFS HDFS只是Hadoop最基本的一个服务，很多其他服务，都是基于HDFS 展开的。所以部署一个HDFS集群，是很核心的一个动作，也是大数据平台的开始。安装Hadoop集群，首先需要有Zookeeper才可以完成安装。如果没有Zookeeper，请先部署一套Zookeeper。另外，JDK以及物理主机的一些设置等。都请参考下文： Hadoop集群搭建(一) Zookeeper 下面开始HDFS的安装 HDFS主机分配 1.19 2.168.67.101 c6701 --Namenode+datanode 2.192.168.67.102 c6702 --datanode 3.192.168.67.103 c6703 --datanode 1. 安装HDFS，解压hadoop- 2.6.0-EDH-0u2.tar.gz 我同时下载2.6和2.7版本的软件，先安装2.6，然后在执行2.6到2.7的升级步骤 https://www.doczj.com/doc/9112191331.html,eradd hdfs 2.echo "hdfs:hdfs"| chpasswd 3.su - hdfs

4.cd /tmp/software 5.tar -zxvf hadoop-2. 6.0-EDH-0u2.tar.gz -C /home/hdfs/ 6.mkdir -p /data/hadoop/temp 7.mkdir -p /data/hadoop/journal 8.mkdir -p /data/hadoop/hdfs/name 9.mkdir -p /data/hadoop/hdfs/data 10.chown -R hdfs:hdfs /data/hadoop 11.chown -R hdfs:hdfs /data/hadoop/temp 12.chown -R hdfs:hdfs /data/hadoop/journal 13.chown -R hdfs:hdfs /data/hadoop/hdfs/name 14.chown -R hdfs:hdfs /data/hadoop/hdfs/data 15.$ pwd 16./home/hdfs/hadoop-2.6.0-EDH-0u2/etc/hadoop 2. 修改core-site.xml对应的参数 1.$ cat core-site.xml 2.<configuration> 3. 4.<property> 5.<name>fs.defaultFS</name> 6.<value>hdfs://ns</value> 7.</property> 8.

Hadoop入门—Linux下伪分布式计算的安装与wordcount的实例展示

开始研究一下开源项目hadoop，因为根据本人和业界的一些分析，海量数据的分布式并行处理是趋势，咱不能太落后，虽然开始有点晚，呵呵。首先就是安装和一个入门的小实例的讲解，这个恐怕是我们搞软件开发的，最常见也最有效率地入门一个新鲜玩意的方式了，废话不多说开始吧。本人是在ubuntu下进行实验的，java和ssh安装就不在这里讲了，这两个是必须要安装的，好了我们进入主题安装hadoop： 1.下载hadoop-0.20.1.tar.gz： https://www.doczj.com/doc/9112191331.html,/dyn/closer.cgi/hadoop/common/ 解压：$ tar –zvxf hadoop-0.20.1.tar.gz 把Hadoop 的安装路径添加到环/etc/profile 中: export HADOOP_HOME=/home/hexianghui/hadoop-0.20.1 export PATH=$HADOOP_HOME/bin:$PATH 2.配置hadoop hadoop 的主要配置都在hadoop-0.20.1/conf 下。 (1)在conf/hadoop-env.sh 中配置Java 环境(namenode 与datanode 的配置相同)： $ gedit hadoop-env.sh $ export JAVA_HOME=/home/hexianghui/jdk1.6.0_14 3.3)配置conf/core-site.xml, conf/hdfs-site.xml 及conf/mapred-site.xml(简单配置，datanode 的配置相同) core-site.xml: hadoop.tmp.dir /home/yangchao/tmp A base for other temporary directories. https://www.doczj.com/doc/9112191331.html, hdfs://localhost:9000 hdfs-site.xml:( replication 默认为3，如果不修改，datanode 少于三台就会报错)

Hadoop集群部署方案

目录 1.网络拓扑 (1) 2.软件安装 (1) 2.1.修改主机名 (1) 2.2.修改host文件 (1) 2.3.创建Hadoop 用户 (2) 2.4.禁用防火墙 (2) 2.5.设置ssh登录免密码 (2) 2.6.安装hadoop (4) 3.集群配置 (5) 3.1.修改脚本 (5) 3.1.1................................................ hadoop-env.sh 5 3.1.2................................................... y arn-env.sh 5 3.2.配置文件 (5) 3.2.1................................................ core-site.xml 5 3.2.2................................................ hdfs-site.xml 7 3.2.3.............................................. mapred-site.xml 10 3.2. 4................................................ yarn-site.xml 11 3.2.5.配置datanode 14 3.3.创建目录 (14)

4.启动zk集群 (14) 5.启动hadoop (14) 5.1.启动所有节点journalnode (14) 5.2.格式化h1 namenode (15) 5.3.在h1上格式化ZK (15) 5.4.启动h1的namenode，zkfc (16) 5.5.启动h2上namenode (16) 5.6.同步h1上的格式化数据到h2 (16) 5.7.启动 HDFS (17) 5.8.启动 YARN (18) 5.9.启动h2 ResourceManager (18) 5.10........................................ h4上启动 JobHistoryServer 19 5.11.......................................... 查看ResourceManager状态19 6.浏览器访问 (19) https://www.doczj.com/doc/9112191331.html,node管理界面 (19) 6.1.1............................... http://192.168.121.167:50070 19 6.1.2............................... http://192.168.121.168:50070 20 6.2.ResourceManager管理界面 (20) 6.2.1............................... http://192.168.121.167:8088/ 21 6.2.2............................... http://192.168.121.168:8088/ 21 6.3.JournalNode HTTP 服务 (21) 6.3.1............................... http://192.168.121.167:8480/ 21 6.4.Datanode HTTP服务 (22)

实验3 Hadoop安装与配置2-伪分布式

实验报告封面课程名称： Hadoop大数据处理课程代码： JY1124 任课老师：宁穗实验指导老师: 宁穗实验报告名称：实验3 Hadoop安装与配置2 学生：学号：教学班：递交日期：签收人：我申明，本报告的实验已按要求完成，报告完全是由我个人完成，并没有抄袭行为。我已经保留了这份实验报告的副本。申明人(签名): 实验报告评语与评分：评阅老师签名：

一、实验名称：Hadoop安装与配置二、实验日期：2015年9 月25 日三、实验目的： Hadoop安装与配置。四、实验用的仪器和材料：安装环境:以下两个组合之一 1.硬件环境：存ddr3 4G及以上的x86架构主机一部系统环境：windows 、linux或者mac os x 软件环境：运行vmware或者virtualbox (2) 存ddr 1g及以上的主机两部及以上五、实验的步骤和方法：本次实验重点在ubuntu中安装jdk以及hadoop。一、关闭防火墙 sudo ufw disable iptables -F 二、jdk的安装 1、普通用户下添加grid用户

2、准备jdk压缩包，把jdk压缩包放到以上目录（此目录可自行设置） 3、将jdk压缩包解压改名改名为jdk：mv jdk1.7.0_45 jdk 移动到/usr目录下：mv jdk /usr（此目录也可自行设置，但需与配置文件一致）4、设置jdk环境变量此采用全局设置方法，更改/etc/profile文件 sudo gedit /etc/profile 添加（根据情况自行设置） export JA VA_HOME=/usr/jdk export JRE_HOME=/usr/ jdk/jre export CLASSPATH=.:$JA V A_HOME/lib:$JRE_HOME/lib:$CLASSPATH export PA TH=$JA V A_HOME/bin: $JRE_HOME/ bin: $PATH 然后保存。 5、检验是否安装成功 java -version 二、ssh免密码 1、退出root用户，su grid 生成密钥 ssh-keygen –t rsa

hadoopq集群搭建

疑难小结 1：HDFS进入安全模式: Name node is in safemode mode 退出安全模式, 执行命令: hadoop dfsadmin -safemode leave 2：INFO util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-Java classes where applicable -- hadoop的本地库加载失败。检查native库的版本信息，32bit的版本和64bit的版本在不匹配的机器上会加载失败，检查的命令是file native库依赖的glibc的版本问题。如果在高版本gcc（glibc）的机器上编译的native库，放到低版本的机器上使用，会由于glibc版本不一致导致该错误。 3： maps to localhost, but this does not map back 解决：原因: 因为DNS服务器把 192.168.x.x 的地址都反向解析成 localhost ，而DNS服务器不是自己的，不能改。办法: 编辑ssh 客户端的 /etc/hosts 文件，把出问题的IP 地址和主机名加进去，就不会报这样的错了。 4： jps命令正常，但是8088端口的WEB页面无法访问解决方案：检查一下防火墙和selinux状态, 将防火墙和selinux关闭防火墙: service iptables status 永久修改：修改/etc/selinux/config文件中设置SELINUX=disabled ，然后重启服务器。 5： 8088端口访问正常，但是看不到datanode节点解决方案：可能出现的问题和解决方案: 1.8080端口没有打开, 手动启动yarn 2.8080端口被其他进程占用, kill掉占用该端口的进程, 然后重启yarn

hadoop安装最终版

一．在Microsoft Windows XP操作系统下,安装Ubuntu 8.04 lts server版本+ xubuntu桌面到VMware虚拟机上 1.下载ubuntu server 及xubuntu 1)Ubuntu 8.04 server: http://119.147.41.16/down?cid=A97349CDC5DF51672F26FCABACBF5BC5AF9AF89D &t=2&fmt=&usrinput=ubuntu 8.04&dt=1&ps=0_0&rt=0kbs&plt=0 2)Xubuntu: 可不下，不用桌面 http://119.147.41.16/down?cid=DADD7F929F5F442A7881C2B382865468B70B8AA5 &t=2&fmt=&usrinput=xubuntu&dt=1002002&ps=0_0&rt=0kbs&plt=0 3)VMware http://119.147.41.16/down?cid=9BAA5720718DE23B4F7312C915E8028E71779B39 &t=2&fmt=-1&usrinput=Vmware&dt=2056000&redirect=no 2.本人硬件环境(参考) CPU: 2 core 4.12G Memory: 2G ddr3 Mainboard Chip : Intel p43d3 Graphic Chip : N Geoforce 9600gs0 3.本人软件环境(参考) OS : Microsoft windows xp sp3 VM: vmware5.5.1.19175 Linux: Ubuntu linux 8.04 lts server(iso) + xubuntu (ISO) 4.设置虚拟环境 1)安装VMware ：略(出现警告仍然继续，sn: E8HFE-5MD6N-F25DC-4WRNQ, 可不汉化) 2)打开VMware Workstation软件，点击“file”菜单，选择“new”－“virtual machine” 命令 3)弹出新建虚拟机向导，点击“下一步”按钮 4)在“virtual machine configuration”中，选择第二项“custom”单选项目，点击 “下一步”按钮 5)在“virtual machine format”中，选择第一项“new - Workstation 5”单选项目，点击“下一步”按钮 6)之后将询问虚拟机的操作系统，我们在“guest operating system”中选择“Linux”，在下面的版本中选择“Ubuntu”，点击“下一步”按钮 7)这时询问虚拟机的名称和保存目录，请根据自己的需要进行设置。在此我使用 d:\\My Virtual Machines\Ubuntu，点击“下一步”按钮 8)虚拟处理器数，选择“one”，点击“下一步”按钮。（我是双核心处理器，所以有这个项目） 9)这时提示分配虚拟机内存，请根据自己物理内存实际情况进行设置，建议至少分配128MB内存，如果物理内存数量允许，推荐设置256MB内存。我的物理内存是2GB，在此我使用虚拟机推荐的内存数量384MB，点击“下一步”按钮 10)网络连接类型。如果不想让虚拟机访问，请选择“不使用网络连接”。如果需要访问网络，请根据自己的情况设置，在此我推荐使用第二项“NAT”，这个选项让虚拟机使用宿主计算机的IP访问网络，宿主计算机将共享网络给虚拟机。点击“下一步”按钮

Hadoop集群架构搭建分析

Hadoop集群架构搭建分析一、概述 1、集群在6台机器上搭建完成，IP与hostname设置如下： 10.8.3.240 namenode 10.8.3.246 datanode1 10.8.3.239 datanode2 10.8.3.249 datanode3 10.8.3.238 datanode4 10.8.3.251 datanode5 2、软件安装描述： Hadoop Zookeeper HBase MongoDB namenode √√√datanode1 √√ datanode2 √√ datanode3 √√ datanode4 √√ datanode5 √ 3、进程运行描述 namenode datanode1datanode2datanode3datanode4datanode5 NameNode√ DataNode√√√√√JobTracker√ TaskTracker√√√√√HMaster√ HRegionServer√ √ Secondary NameNode HQuorumPeer √√√ 注： (1)NameNode、DataNode、SecondaryNameNode是hdfs进程 (2)JobTracker、TaskTracker是mapreducer进程 (3)HMaster、HRegionServer是HBase进程 (4)HQuorumPeer是Zookeeper进程

1、设置IP 修改/etc/sysconfig/network-scripts/ifcfg-eth0文件：DEVICE=eth0 --网卡名称 BOOTPROTO=static --获取静态IP HW ADDR=00:E0:4C:F8:3B:CE --机器MAC地址 IPADDR=10.8.3.240 --IP NETMASK=255.255.255.0 --子网掩码 NETWORK=10.8.3.254 --默认网关 ONBOOT=yes 2、设置hostname 在所有机器的/etc/hosts 文件下添加： 10.8.3.240 namenode 10.8.3.246 datanode1 10.8.3.239 datanode2 10.8.3.249 datanode3 10.8.3.238 datanode4 10.8.3.251 datanode5 注：为了使机器辨别到hostname，必须重启机器。

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13完全安装手册

Hadoop2.2.0+Hbase0.98.1+Sqoop1.4.4+Hive0.13 完全安装手册

前言： (3) 一. Hadoop安装（伪分布式） (4) 1. 操作系统 (4) 2. 安装JDK (4) 1> 下载并解压JDK (4) 2> 配置环境变量 (4) 3> 检测JDK环境 (5) 3. 安装SSH (5) 1> 检验ssh是否已经安装 (5) 2> 安装ssh (5) 3> 配置ssh免密码登录 (5) 4. 安装Hadoop (6) 1> 下载并解压 (6) 2> 配置环境变量 (6) 3> 配置Hadoop (6) 4> 启动并验证 (8)

前言：网络上充斥着大量Hadoop1的教程，版本老旧，Hadoop2的中文资料相对较少，本教程的宗旨在于从Hadoop2出发，结合作者在实际工作中的经验，提供一套最新版本的Hadoop2相关教程。为什么是Hadoop2.2.0，而不是Hadoop2.4.0 本文写作时，Hadoop的最新版本已经是2.4.0，但是最新版本的Hbase0.98.1仅支持到Hadoop2.2.0，且Hadoop2.2.0已经相对稳定，所以我们依然采用2.2.0版本。

一. Hadoop安装（伪分布式） 1. 操作系统 Hadoop一定要运行在Linux系统环境下，网上有windows下模拟linux环境部署的教程，放弃这个吧，莫名其妙的问题多如牛毛。 2. 安装JDK 1> 下载并解压JDK 我的目录为：/home/apple/jdk1.8 2> 配置环境变量打开/etc/profile，添加以下内容： export JAVA_HOME=/home/apple/jdk1.8 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar 执行source /etc/profile ，使更改后的profile生效。执行以下命令，赋予JDK运行的权限： chmod 777 /home/apple/jdk1.8/bin/* chmod 777 /home/apple/jdk1.8/lib/*

hadoop伪分布式安装方法

hadoop 伪分布式安装方法 [日期：2014-04-30] 来源：51CTO 作者：晓晓 [字体：大中小] 接触Hadoop 也快两年了，也一直没自己总结过安装教程，最近又要用hadoop ，需要自己搭建一个集群来进行试验，所以就利用这个机会来写个教程以备以后自己使用，也用来和大家一起探讨。要安装Hadoop 先安装其辅助环境 java Ubuntu 下java 的安装与配置将java 安装在指定路径方便以后查找使用。 Java 安装 1）在/home/xx （也就是当前用户）目录下，新建java1.xx 文件夹：mkdir /home/xx/java1.xx （文件名上表明版本号，方便日后了解java 版本） 2）进入/home/xx/java1.xx 目录下，运行安装指令：sudo /home/xx /jdk-6u26-linux-i586.bin ，则生成文件夹jdk1.6.0_26，如果感觉名字太长，可以对其重命名：mv jdk1.6.0_26 jdk 也可以使用sudoapt-get install 软件包来安装java 。如果想卸载java 使用命令sudo rm -rf /home/x x/java1.6/jdk1.6（安装目录）配置环境变量进入profile 文件添加环境配置，命令为sudo gedit /etc/profile 在文件的末尾添加 1 2 3 4 5 6 7 JAVA_HOME=/home/xx/java1.xx/jdk JRE_HOME=/home/xx /java1.xx/jdk/jre PATH=$JAVA_HOME/bin:$JRE_HOME/bin: $PATH export JAVA_HOME export JRE_HOME export CLASSPATH export PATH 完成以上配置后重启电脑然后检验java 是否安装成功在终端输入java –version 后显示说明java 安装成功。 Java 安装成功后接着进入正题进行Hadoop 的安装，本文先进行Hadoop 的伪分布安装随后会继续更新完全分布的安装过程。本文使用的Hadoop 版本是hadoop-0.20.2，将hadoop-0.20.2.tar.gz 移至当前用户目录下进行解压t ar –zxvf hadoop-0.20.2.tar.gz 然后配置hadoop 的环境变量，其配置方法和java 的配置方法一样，在profile 中写入HADOOP_HOME =/home/xx/hadoop Java 和hadoop 的配好的环境变量如图