当前位置：文档之家› vmware虚拟机下hadoop集群安装过程

vmware虚拟机下hadoop集群安装过程

Hadoop俗称分布式计算，最早作为一个开源项目，最初只是来源于谷歌的两份白皮书。然而正如十年前的Linux一样，虽然Hadoop最初十分简单，但随着近些年来大数据的兴起，其也获得了一个充分体现价值的舞台。这也正是业内普遍将Hadoop看做是下一个Linux的原因。

一．基于vmware的hadoop环境简述

本文介绍基于多台vmware虚拟机来安装hadoop集群的过程及方法，通过这个小的集群让您在本地电脑上就可以研究hadoop的相关工作过程，有人会有疑问在小的虚拟机集群上研究的结果，写的程序能否在大集群上工作正常？可以肯定的没问题的。

Hadoop的一个特性是线性增长特性，即当前数量情况下，处理时间是1，若是数据量加倍，后处理时间加倍，若是在这种情况下，处理能力也加倍则处理时间也是1.

正常情况hadoop需要较多的服务器才能搭建，但是我们在家里学习如何去找那么服务器，解决办法可以找几台pc机，在pc机上安装linux系统就可以了。

当然我们还有更简单的办法，就是找一台高性能的电脑，在电脑上安装虚拟机软件，里面创建若干台虚拟机，然后让这些虚拟机构成一个小的内部局域网络，在这个网络上我们安装linux软件，java软件，安装hadoop程序，我们就可以创建一个简单hadoop的研究系统，进行软件的开发调试，在这个小的分布式集群上开发的程序可以无缝移植到相同版本的hadoop（不同hadoop的版本兼容性不是很好，特别是低版本同高版本，他们的api 也有些许变化）集群中。

如下是在笔者笔记本上构建的一个hadoop的虚拟机系统，相关网络拓扑结构如下：

虚拟机0，机器名称：db，ip：192.168.186.10

虚拟机1，机器名称：red，ip：192.168.186.11

虚拟机2，机器名称：mongdb，ip：192.168.186.12

虚拟机3，机器名称：nginx，ip：192.168.186.13

如上图，4台虚拟机通过一个虚拟的交换机互联，开发机器也连接到这个虚拟交换机上，虚拟的交换机同adsl相连接，这样整个系统都可以直接上网了。

下面是几个虚拟机的典型配置，如下：

Db的配置，如上，这个机器的内存配置比较高，这个机器是机器的master服务器，需要较多的内存。因此配置了1.3g内存。

下面是red的配置，mongdb及nginx的配置同这个机器配置相同，配置如下：

这个机器的配置同db机器配置相同，仅仅是内存小了些，这里内存是188m，作为调试环境已经足够用了。

二．基于vmware虚拟机环境配置

1.网卡的Ip地址配置

采用静态ip配置方式，防止重新启动后dhcp分配新的ip后，造成不必要的混乱。配置如下：

2.Hosts文件配置

[root@db ~]# cat /etc/hosts

# Do not remove the following line, or various programs

# that require network functionality will fail.

127.0.0.1 localhost.localdomain localhost ::1 localhost6.localdomain6 localhost6

192.168.186.10 db

192.168.186.11 red

192.168.186.12 mongdb

192.168.186.13 nginx

需要确保每一台机器的hosts文件配置如上图所示。

简便配置方法，在配置一台机器后，可以编写脚本实现自动将hosts文件复制到多台机器上。脚本如下：

[root@db ~]# cat update_hosts.sh

#!/bin/sh

for host in red mongdb nginx;do

echo $host

scp /etc/hosts root@${host}:/etc/

done

[root@db ~]#

主要这个脚本要在root下编写，然后赋予可以执行的权限（chmod a+x *.sh）, 然后在root权限下执行。脚本会自动完成hosts文件的复制工作。

上面过程完成后，分别登录每一台机器，把每一个服务器都ping一下，若是不通，在仔细检查一下。

3.Java配置

在每个虚拟机服务器上检查是否正确安装了java，是否配置了java的环境变量等

如上图，1处输入java -version，然后应该输出类似2处的输出，标识java已经正确安装了

同时采用3处的命令，env | grep JA V A_HOME 来检查环境变量是否正确配置了，若是没有配置java的环境变量则需要进行配置

若是您java还有安装请用下面命令安装

yum install java-1.7.0-openjdk

然后用下面命令配置环境变量。

vi /etc/profile

打开编辑的文件后，在文件最后面添加如下内容

JA V A_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.25/jre

JRE_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.25/jre

PATH=$PATH:$JA V A_HOME/bin

CLASSPATH=.:$JA V A_HOME/lib/dt.jar:$JA V A_HOME/lib/tools.jar

export JA VA_HOME JRE_HOME PATH CLASSPATH

保存退出，最后运行下面命令，使配置生效

source /etc/profile

然后再次测试上面的过程，看看是否符合相关需要。如果您还没做到到网络搜索一下吧。

4.ssh免登录功能配置

Hadoop通过ssh进行相关管理工作，主要是hadoop的管理脚本通过ssh远程对各个服务器进行相关的管理，包括启动，停止等。

关于如何配置ssh的免密码登录，请参考下面文章的相关部分：

Hadoop1.2.1 Pseudo-Distributed伪分布模式配置

https://www.doczj.com/doc/b413999958.html,/hadoop1-2-1-pseudo-distributed-wei-fen-bu-mo-shi-pei-zhi.html

5.关闭相关的防火墙

Hadoop程序在工作过程中，各个节点间有很多程序要进行通信，因此我们需要对防火墙做些处理，保证这些访问能正常工作。我们这里采用最简单的办法是关闭研究用集群虚拟机的全部防火墙.

在虚拟机中，启动setup程序

选择防火墙工作这一项

在下面的对话框中，选择如下特殊颜色的区域的相关选项，最后选择ok推出

6.下载hadoop程序

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu_CentOS

Hadoop集群安装配置教程_Hadoop2.6.0_Ubuntu/CentOS 本教程讲述如何配置Hadoop 集群，默认读者已经掌握了Hadoop 的单机伪分布式配置，否则请先查看Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置。本教程由厦门大学数据库实验室出品，转载请注明。本教程适合于原生Hadoop 2，包括Hadoop 2.6.0, Hadoop 2.7.1 等版本，主要参考了官方安装教程，步骤详细，辅以适当说明，保证按照步骤来，都能顺利安装并运行Hadoop。另外有Hadoop安装配置简略版方便有基础的读者快速完成安装。为了方便新手入门，我们准备了两篇不同系统的Hadoop 伪分布式配置教程。但其他Hadoop 教程我们将不再区分，可同时适用于Ubuntu 和CentOS/RedHat 系统。例如本教程以Ubuntu 系统为主要演示环境，但对Ubuntu/CentOS 的不同配置之处、CentOS 6.x 与CentOS 7 的操作区别等都会尽量给出注明。环境本教程使用Ubuntu 14.04 64位作为系统环境，基于原生Hadoop 2，在Hadoop 2.6.0 (stable)版本下验证通过，可适合任何Hadoop 2.x.y 版本，例如Hadoop 2.7.1，Hadoop 2.4.1 等。本教程简单的使用两个节点作为集群环境: 一个作为Master 节点，局域网IP 为192.168.1.121；另一个作为Slave 节点，局域网IP 为192.168.1.122。准备工作 Hadoop 集群的安装配置大致为如下流程: 1.选定一台机器作为Master 2.在Master 节点上配置hadoop 用户、安装SSH server、安装Java 环境 3.在Master 节点上安装Hadoop，并完成配置 4.在其他Slave 节点上配置hadoop 用户、安装SSH server、安装Java 环境 5.将Master 节点上的/usr/local/hadoop 目录复制到其他Slave 节点上 6.在Master 节点上开启Hadoop 配置hadoop 用户、安装SSH server、安装Java 环境、安装Hadoop 等过程已经在Hadoop安装教程_单机/伪分布式配置或CentOS安装Hadoop_单机/伪分布式配置中有详细介绍，请前往查看，不再重复叙述。继续下一步配置前，请先完成上述流程的前 4 个步骤。网络配置假设集群所用的节点都位于同一个局域网。如果使用的是虚拟机安装的系统，那么需要更改网络连接方式为桥接（Bridge）模式，才能实现多个节点互连，例如在VirturalBox 中的设置如下图。此外，如果节点的系统是在虚拟机中直接复制的，要确保各个节点的Mac 地址不同（可以点右边的按钮随机生成MAC 地址，否则IP 会冲突）：

教你如何用VMware虚拟机安装系统

教你如何使用VMware虚拟机安装系统（ghost xp）图文教程 [朦~.胧制作] Email：huil0925@https://www.doczj.com/doc/b413999958.html, 一、准备准备好虚拟机，我的版本是VMware? Workstation 7.1.1，还有xp系统网上都有下载。二、新建虚拟机系统打开虚拟机软件后，文件----新建----虚拟机，弹出一个窗口如下我们按默认选择就行了下一步：选择第二项，然后浏览，选择你下载的xp系统的位置，然后下一步

在版本里面有很多系统类别，我们可以下载相应的系统来安装下一步，Easy Install信息可以不填，直接下一步：在位置里我们可以选择这个系统在硬盘里的位置注意：默认设置会让该虚拟机系统在硬盘里的大小动态增加，请确保所在硬盘的可用空间（>=10GB）如果只是装来玩玩，可以小一点下一步：因为这里做教程，我在最大硬盘大小设置为20GB，大家可以根据需要设置

下一步，去掉前面的勾，然后点完成。三、硬件条件设置接下来设置内存处理器 CD/DVD 网络适配器双击这些项目，会弹出设置窗口配置可以根据自己电脑配置来设置内存小了，虚拟机系统会比较卡，内存大了，本身的电脑会卡 Cpu设置也根据自己电脑配置网络一般选桥接，系统装好后可以上网不行的话改NET，或选其他，自己试试确保CD/DVD里是你下载的系统的路径！四、安装现在开始安装系统可以点击工具栏中的三角形符号启动启动后鼠标点击窗口内中心区域，意思是进入虚拟机，此时鼠标箭头会消失，然后快速按F2进入BIOS设置出现VMware图标时！！要快，如果点了鼠标箭头还在，那就连续点击如果要回到主机（你的电脑界面）同时按住ctrl和alt键

hadoop2.7.2 伪分布式安装

hadoop：建立一个单节点集群伪分布式操作安装路径为：/opt/hadoop-2.7.2.tar.gz 解压hadoop: tar -zxvf hadoop-2.7.2.tar.gz 配置文件 1. etc/hadoop/hadoop-env.sh export JAVA_HOME=/opt/jdk1.8 2. etc/hadoop/core-site.xml fs.defaultFS hdfs://localhost:9000 hadoop.tmp.dir file:/opt/hadoop-2.7.2/tmp 3. etc/hadoop/hdfs-site.xml https://www.doczj.com/doc/b413999958.html,.dir file:/opt/hadoop-2.7.2/dfs/name dfs.datanode.data.dir file:/opt/hadoop-2.7.2/dfs/data dfs.replication 1 dfs.webhdfs.enabled true

VM虚拟机安装及其系统安装教程

VM虚拟机基础普及+下载.汉化序列号+VM虚拟机下安装GHOST系统（图文教程） 9 VM6.0.2.59824虚拟机下载.汉化.注册码+主机和虚拟机同时上网的详细教程一.虚拟机软件可以在一台电脑上模拟出来若干台PC，每台PC可以运行单独的操作系统而互不干扰，可以实现一台电脑“同时”运行几个操作系统，还可以将这几个操作系统连成一个网络。我最喜欢用的虚拟机是VMware。二.使用虚拟机的好处 1、如果要在一台电脑上装多个操作系统，不用虚拟机的话，有两个办法：一是装多个硬盘，每个硬盘装一个操作系统。这个方法比较昂贵。二是在一个硬盘上装多个操作系统。这个方法不够安全，因为硬盘MBR是操作系统的必争之地，搞不好会几个操作系统同归于尽。而使用虚拟机软件既省钱又安全，对想学linux和unix的朋友来说很方便。 2、虚拟机可以在一台机器上同时运行几个操作系统，是SOHO开发一族的必备工具。有了虚拟机，在家里只需要一台电脑，或出差时只带着一个笔记本，就可以调试C/S、B/S的程序了。 3、利用虚拟机可以进行软件测试。三.使用虚拟机的硬件要求虚拟机毕竟是将两台以上的电脑的任务集中在一台电脑上，所以对硬件的要求比较高，主要是CPU、硬盘和内存。目前的电脑CPU多数是PIII以上，硬盘都是几十G，这样的配置已经完全能满足要求。关键是内存。内存的需求等于多个操作系统需求的总和。现在的内存已经很便宜，也不成为问题了。推荐使用1G以上内存。四. vmware-tools 这个东西必须要知道是什么 VMware-tools说穿了就是Vmware提供的增强虚拟显卡和硬盘性能、以及同步虚拟机与主机时钟的驱动程序 VM-TOOLS 这个安装很简单一直点下一步就行了五.如果你更多的喜欢用键盘来操作的话，你可以在下面表格中找到方便的快捷键。如果你已经改变了参数设置中的热键组合，请你用你所设置的快捷键替代这个快捷键表格中的Ctrl-Alt快捷键快捷键执行命令

hadoop2.2集群配置

Hadoop集群在linux下配置第一部分Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。下载地址:https://www.doczj.com/doc/b413999958.html,/hadoop/common/hadoop-2.2.0/ 如下图所示，下载红色标记部分即可。第二部分集群环境搭建 1、这里我们搭建一个由两台机器组成的集群： 10.11.1.67 tan/123456 yang 10.11.1.57 tan/123456 ubuntu 1.1 上面各列分别为IP、user/passwd、hostname 1.2 Hostname可以在/etc/hostname中修改 1.3 这里我们为每台机器新建了一个账户tan.这里需要给每个账户分配sudo的权限。（切换到root账户，修改/etc/sudoers文件，增加：tan ALL=(ALL) ALL ） 2、修改/etc/hosts 文件，增加两台机器的ip和hostname的映射关系 10.11.1.67 yang 10.11.1.57 ubuntu 3、打通yang到ubuntu的SSH无密码登陆 3.1 安装ssh 一般系统是默认安装了ssh命令的。如果没有，或者版本比较老，则可以重新安装： sudo apt-get install ssh 3.2设置local无密码登陆

安装完成后会在~目录（当前用户主目录，即这里的/home/tan）下产生一个隐藏文件夹.ssh（ls -a 可以查看隐藏文件）。如果没有这个文件，自己新建即可（mkdir .ssh）。具体步骤如下： 1、进入.ssh文件夹 2、 ssh-keygen -t rsa 之后一路回车（产生秘钥） 3、把id_rsa.pub 追加到授权的key 里面去（cat id_rsa.pub >> authorized_keys） 4、重启SSH 服务命令使其生效:service ssh restart 此时已经可以进行ssh localhost的无密码登陆【注意】：以上操作在每台机器上面都要进行。 3.3设置远程无密码登陆这里只有yang是master，如果有多个namenode，或者rm的话则需要打通所有master 都其他剩余节点的免密码登陆。（将yang的authorized_keys追加到ubuntu的authorized_keys）进入yang的.ssh目录 scp authorized_keys tan@ubuntu:~/.ssh/ authorized_keys_from_yang 进入ubuntu的.ssh目录 cat authorized_keys_from_yang >> authorized_keys 至此，可以在yang上面ssh tan@ubuntu进行无密码登陆了。 4、安装jdk 注意：这里选择下载jdk并自行安装，而不是通过源直接安装（apt-get install） 4.1、下载jdk（https://www.doczj.com/doc/b413999958.html,/technetwork/java/javase/downloads/index.html） 4.1.1 对于32位的系统可以下载以下两个Linux x86版本（uname -a 查看系统版本） 4.1.2 64位系统下载Linux x64版本(即x64.rpm和x64.tar.gz) 4.2、安装jdk（这里以.tar.gz版本，32位系统为例）安装方法参https://www.doczj.com/doc/b413999958.html,/javase/7/docs/webnotes/install/linux/linux-jdk.html 4.2.1 选择要安装java的位置，如/usr/目录下，新建文件夹java(mkdir java) 4.2.2 将文件jdk-7u40-linux-i586.tar.gz移动到/usr/java 4.2.3 解压：tar -zxvf jdk-7u40-linux-i586.tar.gz 4.2.4 删除jdk-7u40-linux-i586.tar.gz（为了节省空间）

Hadoop集群MYSQL的安装指南

前言本篇主要介绍在大数据应用中比较常用的一款软件Mysql，我相信这款软件不紧紧在大数据分析的时候会用到，现在作为开源系统中的比较优秀的一款关系型开源数据库已经被很多互联网公司所使用，而且现在正慢慢的壮大中。在大数据分析的系统中作为离线分析计算中比较普遍的两种处理思路就是：1、写程序利用 mapper-Reducer的算法平台进行分析；2、利用Hive组件进行书写Hive SQL进行分析。第二种方法用到的Hive组件存储元数据最常用的关系型数据库最常用的就是开源的MySQL了，这也是本篇最主要讲解的。技术准备 VMware虚拟机、CentOS 6.8 64 bit、SecureCRT、VSFTP、Notepad++ 软件下载我们需要从Mysql官网上选择相应版本的安装介质，官网地址如下： MySQL下载地址：https://www.doczj.com/doc/b413999958.html,/downloads/

默认进入的页面是企业版，这个是要收费的，这里一般建议选择社区开源版本，土豪公司除外。

然后选择相应的版本，这里我们选择通用的Server版本，点击Download下载按钮，将安装包下载到本地。下载完成，上传至我们要安装的系统目录。这里，需要提示下，一般在Linux系统中大型公用的软件安装在/opt目录中，比如上图我已经安装了Sql Server On linux，默认就安装在这个目录中，这里我手动创建了mysql目录。将我们下载的MySQL安装介质，上传至该目录下。

安装流程 1、首先解压当前压缩包，进入目录 cd /opt/mysql/ tar -xf mysql-5.7.16-1.el7.x86_64.rpm-bundle.tar 这样，我们就完成了这个安装包的解压。 2、创建MySql超级管理用户这里我们需要单独创建一个mySQL的用户，作为MySQL的超级管理员用户，这里也方便我们以后的管理。 groupaddmysql 添加用户组 useradd -g mysqlmysql 添加用户 id mysql 查看用户信息。

VMware虚拟机安装过程之教程

一虚拟机VMware的安装 1、准备工作 1.需要软件VMware (文中使用的版本:VMware-WorkStation6.0.2) 最新推荐系统下载地址: https://www.doczj.com/doc/b413999958.html,/soft/1/15/14468.html 2.需要系统镜像一个.(文中版本:深度XP SP2 V5.10) 新系统下载地址: GHOSTXP SP3 电脑城2010 元宵纯净版 2、开始安装 1.打开压缩包，发现里面有几个批处理，运行其中的“安装.bat”，即出现下图界面，等待完成后，就可以选择安装相关服务。即下图内容：

2.这个图（上图）中，选择1和3即可。1是连接网络必须。 3.注意看安装完成后的正确提示。

4.这样，虚拟机就部署完成了。 5.第一次运行该虚拟机,应该选择"新建虚拟机",安装工作环境也就是操作系统! 6.接下去就到了选择虚拟机的配置,"经典"和"自定义",其中"自定义"包含了"硬件兼容性"\"内存配置"等等繁多的设置,我想,有足够理由让新手选择"经典"作为安装配置,继续下去~(选"经典") 7.这里要求选择你即将安装的操作系统类型以及相应版本.根据前面的准备工作,我们选择 Windows系列--XP专业版,如图,(注意别选到X64了....),继续"下一步",

8.这里要求选择添加的网络连接方式.我们选择默认的第1个内容,也就是"桥接".(关于网络的连接方式区别,后面将会详细说明.),继续"下一步",

9.这里已经是这个配置的最后一个选择了.看图说明..... 二虚拟机VMware的使用 1、开始使用 1.第一次使用虚拟机未必就真的这么简单?没错...不过还有些设置和大家了解下. 其中如画面,我们先点击"编辑虚拟机设置",发现弹出的内容似曾相识,原来就是刚才的右边界面,

VMware虚拟机安装过程

VMware虚拟机安装过程安装介绍: VMware Workstation虚拟机是一个在Windows或Linux计算机上运行的应用程序，它可以模拟一个基于x86的标准PC环境。这个环境和真实的计算机一样，都有芯片组、CPU、内存、显卡、声卡、网卡、软驱、硬盘、光驱、串口、并口、USB控制器、SCSI控制器等设备，提供这个应用程序的窗口就是虚拟机的显示器。在使用上，这台虚拟机和真正的物理主机没有太大的区别，都需要分区、格式化、安装操作系统、安装应用程序和软件，总之，一切操作都跟一台真正的计算机一样。安装过程下面通过例子，介绍使用VMware Workstation创建虚拟机的方法与步骤。 1.运行VMware Workstation 6，单击“File→New→Virtual Machine”命令，进入创建虚拟机向导，或者直接按“Crtl+N”快捷键同样进入创建虚拟机向导。 2.在弹出的欢迎页中单击“下一步”按钮。 3.在“Virtual machine configuration”选项区域内选择“Custom”单选按钮。 4.在Choose the Virtual Machine Hardware Compatibility页中，选择虚拟机的硬件格式，可以在Hardware compatibility下拉列表框中，在VMware Workstation 6、VMware Workstation 5或VMware Workstation 4三者之间进行选择。通常情况下选择Workstation 6的格式，因为新的虚拟机硬件格式支持更多的功能，选择好后单击“下一步”按钮。 5.在Select a Guest Operating System对话框中，选择要创建虚拟机类型及要运行的操作系统，这里选择Windows 2000 Professional操作系统，单击“下一步”按钮。 6.在Name the Virtual Machine对话框中，为新建的虚拟机命名并且选择它的保存路径。 7.在Processors选项区域中选择虚拟机中CPU的数量，如果选择Two，主机需要有两个CPU或者是超线程的CPU。 8.在Memory for the Virtual Machine页中，设置虚拟机使用的内存，通常情况下，对于Windows 98及其以下的系统，可以设置64MB；对于Windows 2000/XP，最少可以设置96MB；对于Windows 2003，最低为128MB；对于Windows Vista虚拟机，最低512MB。 9.在Network Type页中选择虚拟机网卡的“联网类型” 选择第一项，使用桥接网卡（VMnet0虚拟网卡），表示当前虚拟机与主机（指运行VMware Workstation软件的计算机）在同一个网络中。选择第二项，使用NAT网卡（VMnet8虚拟网卡），表示虚拟机通过主机单向访问主机及主机之外的网络，主机之外的网络中的计算机，不能访问该虚拟机。选择第三项，只使用本地网络（VMnet1虚拟网卡），表示虚拟机只能访问主机及所有使用VMnet1虚拟网卡的虚拟机。主机之外的网络中的计算机不能访问该虚拟机，也不能被该虚拟机所访问。选择第四项，没有网络连接，表明该虚拟机与主机没有网络连接。 10.在Select I/O Adapter Type页中，选择虚拟机的SCSI卡的型号，通常选择默认值即可。

hadoop集群部署之双虚拟机版

1、采用一台机器开两个虚拟机的方式构成两台电脑的环境，用root登录。分别查看其IP地址：输入# ifconfig，可得主机IP：192.168.1.99；分机为：192.168.1.100。 2、在两台机器上的/etc/hosts均添加相应的主机名和IP地址：这里主机名命名为shenghao，分机名命名为slave：保存后重启网络： 3、两台机器上均创立hadoop用户（注意是用root登陆） # useradd hadoop # passwd hadoop 输入111111做为密码登录hadoop用户：注意，登录用户名为hadoop，而不是自己命名的shenghao。 4、ssh的配置进入centos的“系统→管理→服务器设置→服务，查看sshd服务是否运行。在所有的机器上生成密码对： # ssh-keygen -t rsa 这时hadoop目录下生成一个.ssh的文件夹，可以通过# ls .ssh/来查看里面产生的私钥和公钥：id_rsa和id_rsa.pub。更改.ssh的读写权限： # chmod 755 .ssh 在namenode上（即主机上）

进入.ssh，将id_rsa.pub直接复制为authorized_keys（namenode的公钥）： # cp id_rsa.pub authorized_keys 更改authorized_keys的读写权限： # chmod 644 authorized_keys 【这个不必须，但保险起见，推荐使用】然后上传到datanode上（即分机上）： # scp authorized_keys hadoop@slave:/home/hadoop/.ssh # cd .. 退出.ssh文件夹这样shenghao就可以免密码登录slave了：然后输入exit就可以退出去。然后在datanode上（即分机上）：将datanode上之前产生的公钥id_rsa.pub复制到namenode上的.ssh目录中，并重命名为slave.id_rsa.pub，这是为了区分从各个datanode上传过来的公钥，这里就一个datanode，简单标记下就可。 # scp -r id_rsa.pub hadoop@shenghao:/home/hadoop/.ssh/slave.id_rsa.pub 复制完毕，此时，由于namenode中已经存在authorized_keys文件，所以这里是追加，不是复制。在namenode上执行以下命令，将每个datanode的公钥信息追加: # cat slave.id_rsa.pub >> authorized_keys 这样，namenode和datanode之间便可以相互ssh上并不需要密码：然后输入exit就可以退出去。 5、hadoop的集群部署配置hadoop前一定要配置JDK，请参考相关资料，这里就不赘述了。将下载好的hadoop-0.19.0.tar.gz文件上传到namenode的/home/hadoop/hadoopinstall 解压文件： # tar zxvf hadoop-0.19.0.tar.gz 在/erc/profile的最后添加hadoop的路径： # set hadoop path export HADOOP_HOME=/home/hadoop/hadoopinstall/hadoop-0.20.2 export PATH=$HADOOP_HOME/bin:$PATH 之后配置hadoop/conf中的4个文件：

VMware虚拟机使用图解

如何配置安装好的VMware虚拟机全程图解本文简介：下面将把VMware Workstation软件的完整使用过程分为：建立一个新的虚拟机、配置安装好的虚拟机、配置虚拟机的网络这三个部分，使用的是最新的VMware4。 VMware Workstation是VMware公司的专业虚拟机软件，可以虚拟现有任何操作系统，而且使用简单、容易上手。现如今有很多人都拥有电脑，但多数人都只有一两台，想组建一个自己的局域网或者是做个小规模的实验一台机器是不够的，最少也要个两三台，可为了这再买电脑就太不值了。好在有许多虚拟机可以帮我们解决这个问题。虚拟机可以在一台电脑上虚拟出很多的主机，只要真实主机的配置足够就可以。下面将把VMware Workstation软件的完整使用过程分为：建立一个新的虚拟机、配置安装好的虚拟机、配置虚拟机的网络这三个部分，使用的是最新的VMware4。一、安装建立一个新的虚拟机首先让大家看看VMware的界面 2.我们来建立一个新的虚拟机向导

3.选择普通安装或者是自定义。这里大家选自定义，后面可以自行规划设备，内存和硬盘容量 4.选择想要虚拟的系统

5.给虚拟机起个名字，指定它的存放位置 6.分配内存大小

7.网络设置模式。这里比较复杂，安装的时候可以先随便选一个，装好后也可以改，但千万不要选最后一个，否则你将无法创建网络了。关于这三者之间的区别和怎样使用虚拟机连接到internet会在后面介绍。 8.创建一块磁盘。当第一次建立虚拟机时，请选择第一项，第二项适用于建立第二个或更多虚拟机，即使用已经建立好的虚拟机磁盘，这样可以减少虚拟机占用的真实磁盘空间。第三项则允许虚拟机直接读写磁盘空间，比较危险，所以适合熟悉使用磁盘的高级用户，如果操作失误会把真实磁盘里的内容删掉的。

腾讯大规模Hadoop集群实践

腾讯大规模Hadoop集群实践发表于2014-02-19 21:26| 21878次阅读| 来源《程序员》| 45条评论| 作者翟艳堂《程序员》杂志2014年2月刊hadoop集群腾讯分布式计算数据存储云计算大数据TDW 摘要：TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面，介绍了TDW 在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。 TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。 TDW服务覆盖了腾讯绝大部分业务产品，单集群规模达到4400台，CPU总核数达到10万左右，存储容量达到100PB；每日作业数100多万，每日计算量4PB，作业并发数2000左右；实际存储数据量80PB，文件数和块数达到6亿多；存储利用率83%左右，CPU利用率85%左右。经过四年多的持续投入和建设，TDW已经成为腾讯最大的离线数据处理平台。 TDW的功能模块主要包括：Hive、MapReduce、HDFS、TDBank、Lhotse等，如图1所示。TDW Core 主要包括存储引擎HDFS、计算引擎MapReduce、查询引擎Hive，分别提供底层的存储、计算、查询服务，并且根据公司业务产品的应用情况进行了很多深度订制。TDBank负责数据采集，旨在统一数据接入入口，提供多样的数据接入方式。Lhotse任务调度系统是整个数据仓库的总管，提供一站式任务调度与管理。

Hadoop集群搭建(二)HDFS_2017

Hadoop集群搭建(二)HDFS HDFS只是Hadoop最基本的一个服务，很多其他服务，都是基于HDFS 展开的。所以部署一个HDFS集群，是很核心的一个动作，也是大数据平台的开始。安装Hadoop集群，首先需要有Zookeeper才可以完成安装。如果没有Zookeeper，请先部署一套Zookeeper。另外，JDK以及物理主机的一些设置等。都请参考下文： Hadoop集群搭建(一) Zookeeper 下面开始HDFS的安装 HDFS主机分配 1.19 2.168.67.101 c6701 --Namenode+datanode 2.192.168.67.102 c6702 --datanode 3.192.168.67.103 c6703 --datanode 1. 安装HDFS，解压hadoop- 2.6.0-EDH-0u2.tar.gz 我同时下载2.6和2.7版本的软件，先安装2.6，然后在执行2.6到2.7的升级步骤 https://www.doczj.com/doc/b413999958.html,eradd hdfs 2.echo "hdfs:hdfs"| chpasswd 3.su - hdfs

4.cd /tmp/software 5.tar -zxvf hadoop-2. 6.0-EDH-0u2.tar.gz -C /home/hdfs/ 6.mkdir -p /data/hadoop/temp 7.mkdir -p /data/hadoop/journal 8.mkdir -p /data/hadoop/hdfs/name 9.mkdir -p /data/hadoop/hdfs/data 10.chown -R hdfs:hdfs /data/hadoop 11.chown -R hdfs:hdfs /data/hadoop/temp 12.chown -R hdfs:hdfs /data/hadoop/journal 13.chown -R hdfs:hdfs /data/hadoop/hdfs/name 14.chown -R hdfs:hdfs /data/hadoop/hdfs/data 15.$ pwd 16./home/hdfs/hadoop-2.6.0-EDH-0u2/etc/hadoop 2. 修改core-site.xml对应的参数 1.$ cat core-site.xml 2.<configuration> 3. 4.<property> 5.<name>fs.defaultFS</name> 6.<value>hdfs://ns</value> 7.</property> 8.

【单子】给你一台电脑复制机---VMware虚拟机安装使用教程

【单子】给你一台电脑复制机---VMware虚拟机安装使用教程 ZOL硬件论坛单子前言：相信很多新手朋友有这样的经历，看到一个新的系统，很想装上去试一试，看看好不好，但又不想破坏现在正在使用的系统，有没有其他的电脑。又或者说，我们想要组一个局域网，来做一些网络实验，但只有一台电脑，没有搭建的平台，实验无法进行，又或者…………………于是，虚拟机就出现了。扫盲：虚拟机，就是在硬件电脑上，虚拟N台不同配置（CPU一样）的电脑，自由搭配配置的高低。而今天的主角----vmware，是现今最流行，使用人数最多的虚拟机软件。 =====================我是低调的分割线 =======================

第一步：我们先下载最新的VMware（简称VM）PS：大家不一定要下载我推荐的这个，可以自己去下载别的。比如汉化版的 Vmware，最新版本为7.1，下载地址： https://www.doczj.com/doc/b413999958.html,/down?cid=174CBBB2E9281E84B1B38FE8B69F7 87BAFF8F9B7 Vmware7.1汉化包下载地址（这个直接复制到迅雷）： http://110.96.193.10:9203/731339DA45F4530F00C40C772C94B23C34EA 04E492B39010/https://www.doczj.com/doc/b413999958.html,/month_1006/1006012150c2c618a6397ef4 7a.rar =====================我是低调的分割线 ======================= 第二步：安装VM，安装汉化包补丁双击安装VM

Hadoop集群部署方案

目录 1.网络拓扑 (1) 2.软件安装 (1) 2.1.修改主机名 (1) 2.2.修改host文件 (1) 2.3.创建Hadoop 用户 (2) 2.4.禁用防火墙 (2) 2.5.设置ssh登录免密码 (2) 2.6.安装hadoop (4) 3.集群配置 (5) 3.1.修改脚本 (5) 3.1.1................................................ hadoop-env.sh 5 3.1.2................................................... y arn-env.sh 5 3.2.配置文件 (5) 3.2.1................................................ core-site.xml 5 3.2.2................................................ hdfs-site.xml 7 3.2.3.............................................. mapred-site.xml 10 3.2. 4................................................ yarn-site.xml 11 3.2.5.配置datanode 14 3.3.创建目录 (14)

4.启动zk集群 (14) 5.启动hadoop (14) 5.1.启动所有节点journalnode (14) 5.2.格式化h1 namenode (15) 5.3.在h1上格式化ZK (15) 5.4.启动h1的namenode，zkfc (16) 5.5.启动h2上namenode (16) 5.6.同步h1上的格式化数据到h2 (16) 5.7.启动 HDFS (17) 5.8.启动 YARN (18) 5.9.启动h2 ResourceManager (18) 5.10........................................ h4上启动 JobHistoryServer 19 5.11.......................................... 查看ResourceManager状态19 6.浏览器访问 (19) https://www.doczj.com/doc/b413999958.html,node管理界面 (19) 6.1.1............................... http://192.168.121.167:50070 19 6.1.2............................... http://192.168.121.168:50070 20 6.2.ResourceManager管理界面 (20) 6.2.1............................... http://192.168.121.167:8088/ 21 6.2.2............................... http://192.168.121.168:8088/ 21 6.3.JournalNode HTTP 服务 (21) 6.3.1............................... http://192.168.121.167:8480/ 21 6.4.Datanode HTTP服务 (22)

如何基于Docker快速搭建多节点Hadoop集群

如何基于Docker快速搭建多节点Hadoop集群 Docker最核心的特性之一，就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后，开发了接近最小化的Hadoop镜像，并且支持快速搭建任意节点数的Hadoop集群。 Docker最核心的特性之一，就是能够将任何应用包括Hadoop打包到Docker镜像中。这篇教程介绍了利用Docker在单机上快速搭建多节点 Hadoop集群的详细步骤。作者在发现目前的Hadoop on Docker项目所存在的问题之后，开发了接近最小化的Hadoop镜像，并且支持快速搭建任意节点数的Hadoop集群。一. 项目简介 GitHub: kiwanlau/hadoop-cluster-docker 直接用机器搭建Hadoop集群是一个相当痛苦的过程，尤其对初学者来说。他们还没开始跑wordcount，可能就被这个问题折腾的体无完肤了。而且也不是每个人都有好几台机器对吧。你可以尝试用多个虚拟机搭建，前提是你有个性能杠杠的机器。我的目标是将Hadoop集群运行在Docker容器中，使Hadoop开发者能够快速便捷地在本机搭建多节点的Hadoop集群。其实这个想法已经有了不少实现，但是都不是很理想，他们或者镜像太大，或者使用太慢，或者使用了第三方工具使得使用起来过于复杂。下表为一些已知的Hadoop on Docker项目以及其存在的问题。我的项目参考了alvinhenrick/hadoop-mutinode项目，不过我做了大量的优化和重构。alvinhenrick/hadoop-mutinode项目的GitHub主页以及作者所写的博客地址如下： GitHub：Hadoop (YARN) Multinode Cluster with Docker

Hadoop集群安装详细步骤

Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术 Hadoop集群安装首先我们统一一下定义，在这里所提到的Hadoop是指Hadoop Common，主要提供DFS（分布式文件存储）与Map/Reduce的核心功能。 Hadoop在windows下还未经过很好的测试，所以笔者推荐大家在linux（cent os 5.X）下安装使用。准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件：ssh、rsync和Jdk1.6（因为Hadoop需要使用到Jdk中的编译工具，所以一般不直接使用Jre）。可以使用yum install rsync来安装rsync。一般来说ssh是默认安装到系统中的。Jdk1.6的安装方法这里就不多介绍了。确保以上准备工作完了之后我们就开始安装Hadoop软件，假设我们用三台机器做Hadoop集群，分别是：192.168.1.111、192.168.1.112和192.168.1.113（下文简称111，112和113），且都使用root用户。下面是在linux平台下安装Hadoop的过程：在所有服务器的同一路径下都进行这几步，就完成了集群Hadoop软件的安装，是不是很简单？没错安装是很简单的，下面就是比较困难的工作了。集群配置

根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由 NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。 Hadoop的DFS需要确立NameNode与DataNode角色，一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色，一般JobTracker与NameNode共用一台机器作为master，而TaskTracker与DataNode同属于slave。至于NameNode/DataNode和JobTracker/TaskTracker的概念这里就不多讲了，需要了解的可以参看相关文档。在这里我们使用111作为NameNode与JobTracker，其它两台机器作为DataNode和TaskTracker，具体的配置如下：环境的配置在$HADOOP_HOME/conf/hadoop-env.sh中定义了Hadoop启动时需要的环境变量设置，其中我们至少需要配置JAVA_HOME（Jdk的路径）变量；另外我们一般还需要更改HADOOP_LOG_DIR（Hadoop的日志路径）这个变量，默认的设置是“export HADOOP_LOG_DIR=${HADOOP_HOME}/logs”，一般需要将其配置到一个磁盘空间比较大的目录下。 Hadoop核心程序配置 Hadoop 包括一组默认配置文件（$HADOOP_HOME/src目录下的 core/core-default.xml, hdfs/hdfs-default.xml 和 mapred/mapred-default.xml），大家可以先好好看看并理解默认配置文件中的那些属性。虽然默认配置文件能让Hadoop核心程序顺利启动，但对于开发人员来说一般需要自己的来设置一些常规配置以满足开发和业务的需求，所以我们需要对默认配置文件的值进行覆盖，具体方法如下。 $HADOOP_HOME/conf/core-site.xml是Hadoop的核心配置文件，对应并覆盖core-default.xml中的配置项。我们一般在这个文件中增加如下配置： Core-site.xml代码 1. 2. 3. 4. https://www.doczj.com/doc/b413999958.html, 5. hdfs://192.168.1.111:9000 6. 7.

在VMware虚拟机中安装redhat linux操作系统图解

在VMware虚拟机中安装redhat linux操作系统图解最初在学linux时，在虚拟机上安装linux的确花了不少时间，遇到了不少问题，随着linux学习的深入，我也曾在虚拟机上安装了Ubuntu，还尝试了在电脑上直接安装redhat.现在总结了一下自己遇到的一些问题，以及我逛百度知道时网友遇到的问题，以RedHat Linux 5企业版在VMware虚拟机上的安装做一个详细一点的图解教程，希望可以给刚接触linux的朋友一点帮助 (由于图片太多，我将该教程分为上，下来两部分进行讲解)。一.准备安装所需要的软件： 1.VMware虚拟机的下载和安装在我的博客中已经提到，这里就不再详细阐述。 2.先推荐一个redhat的下载地址，RedHat Linux 5企业版： https://www.doczj.com/doc/b413999958.html,/content，这个比较全面，但是也比较大（2.68G），如果自己有合适的linux安装版本，可以不使用这个。二.在VMware虚拟机为RedHat Linux创建新的虚拟机： 1.打开虚拟机，选择新建虚拟机：

2.下一步：

3.选择自定义（这里选择典型可能会在安装过程中出现一个硬件找不到的错误，所以推荐选择自定义），然后点下一步： 4.下一步：

5.操作系统选择linux，版本不用修改： 6.命名，并选择虚拟操作系统的存放位置（位置所在硬盘空间最好大于5G）：

7.下一步： 8.给虚拟机分配内存（这个自己看情况，我的电脑内存是512，给虚拟机分配了256）

9.选择虚拟机网络类型（推荐使用桥接网络） 10.下一步