hadoop安装简要过程和相关配置文件
- 格式:doc
- 大小:62.50 KB
- 文档页数:9
Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
Hadoop在windows下还未经过很好的测试,所以笔者推荐大家在linux(cent os 5.X)下安装使用。
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh、rsync和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
可以使用yum install rsync来安装rsync。
一般来说ssh是默认安装到系统中的。
Jdk1.6的安装方法这里就不多介绍了。
确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.1.111、192.168.1.112和192.168.1.113(下文简称111,112和113),且都使用root用户。
下面是在linux平台下安装Hadoop的过程:在所有服务器的同一路径下都进行这几步,就完成了集群Hadoop软件的安装,是不是很简单?没错安装是很简单的,下面就是比较困难的工作了。
集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。
Hadoop的DFS需要确立NameNode与DataNode角色,一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。
另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色,一般JobTracker与NameNode共用一台机器作为master,而TaskTracker与DataNode同属于slave。
hadoop安装流程简单描述英文回答:Hadoop is an open-source software framework for distributed storage and processing of large datasets. It is designed to scale from single servers to thousands of machines, each offering local computation and storage. Here is a simple description of the installation process for Hadoop.Step 1: System Requirements.Before installing Hadoop, make sure your system meets the minimum requirements. Hadoop runs on Java, so you needto have Java Development Kit (JDK) installed on your system. Additionally, you will need a Unix-based system such as Linux or macOS.Step 2: Download Hadoop.Go to the official Apache Hadoop website and download the latest stable release of Hadoop. Choose the versionthat is compatible with your system and download the binary distribution.Step 3: Configure Environment Variables.After downloading Hadoop, set the environment variables in your system. This includes setting the JAVA_HOMEvariable to the location where JDK is installed and adding the Hadoop bin directory to the PATH variable.Step 4: Configure Hadoop.Next, you need to configure Hadoop by editing the configuration files. The core-site.xml, hdfs-site.xml, and mapred-site.xml files need to be configured to specify the Hadoop cluster settings, such as the file system and job tracker.Step 5: Start Hadoop Services.Once the configuration is done, you can start the Hadoop services. This includes starting the Hadoop Distributed File System (HDFS) and the Yet Another Resource Negotiator (YARN) services using the start-dfs.sh andstart-yarn.sh scripts respectively.Step 6: Verify Installation.To verify that Hadoop is installed and running correctly, you can run some sample commands such as creating a directory in HDFS, uploading a file, and running a MapReduce job.Step 7: Additional Configurations.Depending on your specific requirements, you may need to make additional configurations such as setting up security, adding nodes to the cluster, or tuning the performance settings.That's a simple overview of the Hadoop installation process. With these steps completed, you should have abasic Hadoop setup ready for storing and processing large datasets.中文回答:Hadoop是一个用于分布式存储和处理大型数据集的开源软件框架。
Hadoop的安装与配置建立一个三台电脑的群组,操作系统均为Ubuntu,三个主机名分别为wjs1、wjs2、wjs3。
1、环境准备:所需要的软件及我使用的版本分别为:Hadoop版本为0.19.2,JDK版本为jdk-6u13-linux-i586.bin。
由于Hadoop要求所有机器上hadoop的部署目录结构要相同,并且都有一个相同的用户名的帐户。
所以在三台主机上都设置一个用户名为“wjs”的账户,主目录为/home/wjs。
a、配置三台机器的网络文件分别在三台机器上执行:sudo gedit /etc/network/interfaceswjs1机器上执行:在文件尾添加:auto eth0iface eth0 inet staticaddress 192.168.137.2gateway 192.168.137.1netmask 255.255.255.0wjs2和wjs3机器上分别执行:在文件尾添加:auto eth1iface eth1 inet staticaddress 192.168.137.3(wjs3上是address 192.168.137.4)gateway 192.168.137.1netmask 255.255.255.0b、重启网络:sudo /etc/init.d/networking restart查看ip是否配置成功:ifconfig{注:为了便于“wjs”用户能够修改系统设置访问系统文件,最好把“wjs”用户设为sudoers(有root权限的用户),具体做法:用已有的sudoer登录系统,执行sudo visudo -f /etc/sudoers,并在此文件中添加以下一行:wjsALL=(ALL)ALL,保存并退出。
}c、修改三台机器的/etc/hosts,让彼此的主机名称和ip都能顺利解析,在/etc/hosts中添加:192.168.137.2 wjs1192.168.137.3 wjs2192.168.137.4 wjs3d、由于Hadoop需要通过ssh服务在各个节点之间登陆并运行服务,因此必须确保安装Hadoop的各个节点之间网络的畅通,网络畅通的标准是每台机器的主机名和IP地址能够被所有机器正确解析(包括它自己)。
Hadoop配置文档Hadoop配置文档一.先决条件1. 确保在集群中的每个节点上都安装了所有必需软件:sun-JDK,ssh,Hadoop;2. Java1.5以上版本,必须安装,选择Sun公司发行的Java版本,各个机器统一版本;3. ssh 必须安装,并且保证一直运行,以便用Hadoop脚本管理远程端Hadoop守护进程。
4. Hadoop版本统一,采用Hadoop2.2.0版本,其中64位系统环境需要对Hadoop重新编译,目前找到已经编译好的native文件,替换掉Hadoop2.2.0/lib/中native的文件即可。
二.实验环境(以两台机器为例)1. 准备工作准备机器:一台master,一台slave,配置机器/etc/hosts保证分各台机器之间可以互访,其中master机器需要添加本机和所有slave机器的IP和hostname,其他机器之需要将自己的IP和hostname添加进去,建立映射关系即可。
映射关系添加如下:192.168.0.12 node1(master)192.168.0.09 node2(slave1)2. 安装JDK2.1 安装JDK,从官网下载sun的JDK1.5以上版本,解压保存在系统目录下,例如/usr/local/java。
为了方便配置,保证各台机器路径相同(不是必须的,只是为了后面配置方便尽量少的修改文件)。
2.2 设置环境变量,打开/etc/profile,命令(sudo gedit /etc/profile)。
在最后面添加如下内容:export JAVA_HOME=/usr/local/java/jdk1.7.0_40(这里的版本号1.7.40)export CLASSPATH=.:$JAVA_HOME/lib.tools.jarexport PATH=$JAVA_HOME/bin:$PATH2.3 最后使修改的文件生效:source /etc/profile2.4 验证JDK是否成功:java -version(查看安装成功的jdk版本)确保在当前用户下能够使用的jdk,否则后面不能通过。
hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。
它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。
本文旨在介绍Hadoop集群安装配置的主要操作步骤。
在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。
Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。
主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。
这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。
为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。
主要的操作步骤包括以下几个方面:1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。
2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。
然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。
3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。
这些配置文件会影响到集群的整体运行方式和资源分配策略。
4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。
从节点的配置主要包括核心配置和数据节点配置。
5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。
启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。
通过完成以上这些操作步骤,我们就可以成功搭建一个Hadoop集群,并开始进行大数据的处理和分析工作了。
当然,在实际应用中,还会存在更多的细节和需要注意的地方,我们需要根据具体的场景和需求进行相应的调整和扩展。
Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware,用于支撑Linux系统。
2、在VMware上安装Ubuntu系统。
3、安装Hadoop前的准备工作:安装JDK和SSH服务。
4、配置Hadoop。
5、为了方便开发过程,需安装eclipse。
6、运行一个简单的Hadoop程序:WordCount.java注:在win7系统上,利用虚拟工具VMware建立若干个Linux系统,每个系统为一个节点,构建Hadoop集群。
先在一个虚拟机上将所有需要配置的东西全部完成,然后再利用VMware 的克隆功能,直接生成其他虚拟机,这样做的目的是简单。
二、所需软件1、VMware:VMware Workstation,直接百度下载(在百度软件中心下载即可)。
2、Ubuntu系统:ubuntu-15.04-desktop-amd64.iso,百度网盘:/s/1qWxfxso注:使用15.04版本的Ubuntu(其他版本也可以),是64位系统。
3、jdk:jdk-8u60-linux-x64.tar.gz,网址:/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注:下载64位的Linux版本的jdk。
4、Hadoop:hadoop-1.2.1-bin.tar.gz,网址:/apache/hadoop/common/hadoop-1.2.1/注:选择1.2.1版本的Hadoop。
5、eclipse:eclipse-java-mars-1-linux-gtk-x86_64.tar.gz,网址:/downloads/?osType=linux注:要选择Linux版本的,64位,如下:6、hadoop-eclipse-plugin-1.2.1.jar,这是eclipse的一个插件,用于Hadoop的开发,直接百度下载即可。
三、安装过程1、安装VMware。
简述hadoop安装步骤简述hadoop安装步骤安装步骤:1、安装虚拟机系统,并进⾏准备⼯作(可安装- ⼀个然后克隆)2.修改各个虚拟机的hostname和host3.创建⽤户组和⽤户4、配置虚拟机⽹络,使虚拟机系统之间以及和host主机之间可以通过相互ping通。
5.安装jdk和配置环境变量,检查是否配置成功6、配置ssh,实现节点间的⽆密码登录ssh node1/2指令验证时候成功7、master 配置hadoop,并将hadoop⽂件传输到node节点8、配置环境变量,并启动hadoop, 检查是否安装成功,执⾏wordcount检查是否成功。
⼆.HDFS作⽤是什么Hadoop分布式⽂件系统(HDFS)是指被设计成适合运⾏在通⽤硬件(commodity hardware)上的分布式⽂件系统(Distributed File System)。
它和现有的分布式⽂件系统有很多共同点。
但同时,它和其他的分布式⽂件系统的区别也是很明显的。
HDFS是⼀个⾼度容错性的系统,适合部署在廉价的机器上。
HDFS能提供⾼吞吐量的数据访问,⾮常适合⼤规模数据集上的应⽤。
HDFS放宽了⼀部分POSIX约束,来实现流式读取⽂件系统数据的⽬的。
HDFS在最开始是作为Apache Nutch搜索引擎项⽬的基础架构⽽开发的。
HDFS是Apache Hadoop Core项⽬的⼀部分。
HDFS有着⾼容错性(fault-tolerant)的特点,并且设计⽤来部署在低廉的(low-cost)硬件上。
⽽且它提供⾼吞吐量(high throughput)来访问应⽤程序的数据,适合那些有着超⼤数据集(large data set)的应⽤程序。
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)⽂件系统中的数据。
三.常⽤的Hadoop FS Shell命令有哪些及其作⽤1.调⽤Hadoop的⽂件系统Shell(FileSystem Shell)的命令格式:语法:hadoop fs <args>:前提是位置位于hadoop/bin下,其中fs是参数,表⽰FS Shell,<args>是fs的⼦命令2.使⽤FS Shell命令⾏管理⽂件:mkdir -创建⽬录语法:hadoop fs -mkdir <paths>例⼦:hadoop fs -mkdir /user:在HDFS中创建"/user"⽬录hadoop fs -mkdir /user/hadoop:在HDFS中创建"/user/hadoop"⽬录hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2:在HDFS中同时创建"/user/hadoop/dir1"和"/user/hadoop/dir2",⽬录ls -查看列表⽂件语法:hadoop fs -ls <args>如果是⽂件,则按照如下格式返回⽂件信息:⽂件名<副本数> ⽂件⼤⼩修改⽇期修改时间权限⽤户ID 组ID如果是⽬录,则返回它直接⼦⽂件的⼀个列表cat -查看⽂件语法:hadoop fs -cat URI <URI...>:输出路径指定⽂件的内容例⼦:hadoop fs -cat /input2/file1.txt /input2/file2.txt:在HDFS中查看input2⽬录下的file1.txt和file2.txt的⽂件内容put -从本地⽂件系统中复制⼀个或多个⽂件到HDFS(外部命令)语法:hadoop fs -put <localsrc>...<dst>其中localsrc只能是本地⽂件,dst只能是HDFS⽂件,且不受fs.defaultFS属性影响。
hadoop安装步骤1.准备Linux环境1.0先将虚拟机的⽹络模式选为NAT1.1修改主机名 hostnamectl set-hostname server11.2修改IP 修改配置⽂件⽅式(修改的是⽹卡信息 ip a 查看⽹卡),第⼀次启动时没有ip的,需要将⽹卡配置之中 ONBOOT=yes, 然后重启⽹络vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE="eth0"BOOTPROTO="static"###HWADDR="00:0C:29:3C:BF:E7"IPV6INIT="yes"NM_CONTROLLED="yes"ONBOOT="yes"TYPE="Ethernet"UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"IPADDR="192.168.1.101"###NETMASK="255.255.255.0"###GATEWAY="192.168.1.1"###1.3修改主机名和IP的映射关系(每台机器都要有)192.168.33.101 server1192.168.33.102 server2192.168.33.103 server31.4关闭防⽕墙#查看防⽕墙状态service iptables status#关闭防⽕墙service iptables stop#查看防⽕墙开机启动状态chkconfig iptables --list#关闭防⽕墙开机启动chkconfig iptables off1.5 关闭linux服务器的图形界⾯:vi /etc/inittab1.6重启Linuxreboot2.安装JDK#创建⽂件夹mkdir /home/hadoop/app#解压tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app2.3将java添加到环境变量中(如果在 .bashrc 之中配置了java环境变量,hadoop 是不需要指定 JAVA_HOME,如果在 /etc/profile 需要指定,因为 ssh 默认不会加载 /et/profile) vim ~/.bashrc#在⽂件最后添加export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585export PATH=$PATH:$JAVA_HOME/bin#刷新配置source ~/.bashrc3.安装hadoop2.4.1(要保证以下⽂件都有读写权限)先上传hadoop的安装包到服务器上去/home/hadoop/分布式需要修改5个配置⽂件3.1配置hadoopvim hadoop-env.shexport JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585第⼆个:core-site.xml<!-- 指定HADOOP所使⽤的⽂件系统schema(URI),HDFS的⽼⼤(NameNode)的地址 --><property><name>fs.defaultFS</name><value>hdfs://server1:9000</value><!--hadoop 的默认⽤户--><property><name>er</name><value>master</value></property><!--datanode.data.dir 存储⽂件⽬录, .dir 元数据,namenode.edits.dir ⽇志⽬录三者都依赖于此⽬录--> <property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.7.0/data/tmp</value></property>第三个:hdfs-site.xml<!--其他⽤户使⽤hdfs 操作⽂件,是否进⾏验证!--><property><name>dfs.permissions</name><value>false</value></property>第四个:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)<property><name></name><value>yarn</value></property><!--⽇志页⾯的显⽰ ip:port--><property><name>mapreduce.jobhistory.address</name><value>sserver1:10020</value></property><!--运⾏ yarn 任务跳转的页⾯--><property><name>mapreduce.jobhistory.webapp.address</name><value>server1:19888</value></property>第五个:yarn-site.xml<property><name>yarn.resourcemanager.hostname</name><value>server1</value></property><!-- reducer获取数据的⽅式,⼀种辅助 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--开启⽇志聚集--><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!--⽇志存放的时间(s)--><property><name>yarn.log-aggregation.retain-seconds</name><value>100000</value></property>第六个 salves(代表着 DataNode个数, 在sbin/slaves 之中 ssh 遍历连接)server1server2server33.2将hadoop添加到环境变量vim /etc/proflieexport JAVA_HOME=/usr/java/jdk1.7.0_65export HADOOP_HOME=/master/hadoop-2.4.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile3.3 将 app ⽂件夹配置到其他的节点之上(节点信息与master配置信息是⼀样的)scp -r app/ hdp-node-01:/home/slave3.4 格式化namenode(是对namenode进⾏初始化)hdfs namenode -format (hadoop namenode -format)3.5启动hadoop先启动HDFSsbin/start-dfs.shsbin/start-yarn.sh3.6验证是否启动成功使⽤jps命令验证27408 NameNode28218 Jps27643 SecondaryNameNode28066 NodeManager27803 ResourceManager27512 DataNodehttp://192.168.1.101:50070 (HDFS管理界⾯)http://192.168.1.101:8088 (MR管理界⾯)4.配置ssh免登陆#⽣成ssh免登陆密钥#进⼊到我的home⽬录cd ~ssh-keygen -t rsa #四个回车#执⾏完这个命令后,会⽣成两个⽂件id_rsa(私钥)、id_rsa.pub(公钥)# master ,authorized_keys ⽂件(新⽣成)ssh-copy-id -i ~/.ssh/id_rsa.pub localhost#slave, authorized_keys ⽂件(新⽣成),此处是在 /etc/hosts 写⼊的(集群是相同的⽤户名) ssh-copy-id -i ~/.ssh/id_rsa.pub server15,注:更改⽂件夹权限更改⽂件夹权限# 切换超级权限su# 当前⽂件夹所有的⽤户与组chown -R hadoop:hadoop *。
Hadoop安装、配置指南一、环境1、软件版本Hadoop:hadoop-0.20.2.Hive:hive-0.5.0JDK:jdk1.6以上版本2、配置的机器:主机[服务器master]:192.168.10.121 hadoop13从机[服务器slaves]:192.168.10.68 hadoop4在本文中,在命令或二、先决条件1、配置host:打开/etc/host文件,添加如下映射192.168.10.121 hadoop13 hadoop13192.168.10.68 hadoop4 hadoop42、配置SSH自动登陆1)以ROOT用户,登陆到[服务器master]上执行,如下操作:ssh-keygen -t rsa //一路回车cd ~/.sshcat id_rsa.pub >> authorized_keysscp -r ~/.ssh [服务器slaves]:~/2)以ROOT用户,登陆到[服务器slaves]上执行,如下操作:scp -r ~/.ssh [服务器master]:~/3)测试SSH是否配置成功在主服务器中执行如下命令:ssh [服务器master]ssh 192.168.10.68成功显示结果:Last login: Thu Aug 26 14:11:27 2010 from 在从服务器中执行如下命令:ssh [服务器slaves]ssh 192.168.10.121成功显示结果Last login: Thu Aug 26 18:23:58 2010 from 三、安装hadoop1、JDK安装,解压到/usr/local/jdk1.6.0_17,并配置/etc/profile环境export JAVA_HOME=/usr/local/jdk/jdk1.7.0export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATHexport CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jarJDK路径:/usr/local/jdk/jdk1.7.0export JAVA_HOME=/usr/local/jdk/jdk1.7.0export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PATHexport CLASSPATH=$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar/usr/local/jdk/jdk1.7.02、下载Hadoop 并解压到[服务器master]的/root/zwmhadoop目录下tar zxvf hadoop-0.20.2.tar.gz四、配置hadoop1.配置主机[服务器master]到zwm hadoop/hadoop-0.20.2/ hadoop 目录下,修改以下文件:1)配置conf/hadoop-env.sh文件,在文件中添加环境变量,增加以下内容:export JAVA_HOME=/usr/local/jdk1.6.0_17export HADOOP_HOME=/root/zwmhadoop/hadoop-0.20.2/2)配置conf/core-site.xml文件,增加以下内容<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name></name><value>hdfs://192.168.10.121:9000</value>//你的namenode的配置,机器名加端口<description>The nam e of the default file system. Either the literal string "local" o r a host:port for DFS.</description></property></configuration>3)配置conf/hdfs-site.xml文件,增加以下内容<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>hadoop.t m p.dir</name><value>/root/zwmhadoop/t m p</value>//Hadoop的默认临时路径,这个最好配置,然后在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的t mp目录即可。
➢3.10.2.进程➢JpsMaster节点:namenode/tasktracker(如果Master不兼做Slave, 不会出现datanode/TasktrackerSlave节点:datanode/Tasktracker说明:JobTracker 对应于NameNodeTaskTracker 对应于DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:jobclient,JobTracker与TaskTracker。
1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker创建每个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行2、JobTracker是一个master服务,软件启动之后JobTracker接收Job,负责调度Job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。
一般情况应该把JobTracker部署在单独的机器上。
3、TaskTracker是运行在多个节点上的slaver服务。
TaskTracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务。
TaskTracker都需要运行在HDFS的DataNode上3.10.3.文件系统HDFS⏹查看文件系统根目录:Hadoop fs–ls /。
1、设置共享文件夹在VMWare中安装好Linux操作系统,并自动配置好VMWare tools后。
需要设置共享文件夹以便与windows系统互相传输文件。
首先打开虚拟机的设置选项在选项标签里选择共享文件夹将其切换为总是启用然后点“添加”选择主机文件夹路径(就是所要共享的文件目录)最后确定完成,重新启动虚拟机之后在你虚拟机中的Computer下的/mnt/hgfs中就可以看到共享的文件夹2、安装并配置JDK从Oracle官方网站下载Linux版JDK这里下载32位系统的LinuxJDK。
下载后将文件导入到虚拟机中(使用共享文件夹)然后将里面的内容解压缩放到自己的某一个目录中,这里放在Document下。
之后需要配置环境变量。
在命令行中输入,gedit ~/.bashrc在打开的记事本中添加以下内容:保存之后输入source ~/.bashrc 来运行设置好的信息如果输入javac和java命令能够看到信息,就表示配置成功3、配置SSH安全连接因为Hadoop分布式系统是需要进行远程数据连接的,因此需要在Linux系统中配置免密码的远程安全连接(SSH)首先安装ssh工具,在终端中输入以下命令来完成sudo apt-get install ssh这时需要输入密码进行确认,之后会提示需要一定的磁盘空间,是否确认,输入(Y)确认。
然后等待安装即可。
安装后输入ssh命令,能够提示出信息,表示安装完成然后需要进行无密码登录配置,需要生成秘钥,在终端里通过以下命令完成ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsacat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys之后输入ssh localhost,会提示是否确定要免密码登录,输入yes然后再次输入ssh localhost,会提示出登录成功的信息,以及登录时间。
1.下载并安装安装sshsudo apt-get install openssh-server openssh-client3.搭建vsftpd#sudo apt-get update#sudo apt-get install vsftpd配置参考???????????????????的开始、关闭和重启$sudo /etc/vsftpd start?? #开始$sudo /etc/vsftpd stop??? #关闭$sudo /etc/vsftpd restart?? #重启4.安装sudo chown -R hadoop:hadoop /optcp /soft/ /optsudo vi /etc/profilealias untar='tar -zxvf'sudo source /etc/profilesource /etc/profileuntar jdk*环境变量配置# vi /etc/profile●在profile文件最后加上# set java environmentexport JAVA_HOME=/opt/export CLASSPATH=.:$JAVA_HOME/lib/:$JAVA_HOME/lib/export PATH=$JAVA_HOME/bin:$PATH配置完成后,保存退出。
●不重启,更新命令#source /etc/profile●测试是否安装成功# Java –version?其他问题:出现unable to resolve host 解决方法参考??开机时停在 Starting sendmail 不动了的解决方案参考? 安装软件时出现 E: Unable to locate package vsftpd 参考? vi/vim 使用方法讲解--------------------------------------------克隆master虚拟机至node1 、node2分别修改master的主机名为master、node1的主机名为node1、node2的主机名为node2 (启动node1、node2系统默认分配递增ip,无需手动修改)分别修改/etc/hosts中的ip和主机名(包含其他节点ip和主机名)---------配置ssh免密码连入hadoop@node1:~$ ssh-keygen -t dsa -P ''-f ~/.ssh/id_dsaGenerating public/private dsa key pair.Created directory '/home/hadoop/.ssh'.Your identification has been saved in/home/hadoop/.ssh/id_dsa.Your public key has been saved in/home/hadoop/.ssh/.The key fingerprint is:SHA256:B8vBju/uc3kl/v9lrMqtltttttCcXgRkQPbVoU hadoop@node1The key's randomart image is:+---[DSA 1024]----+|....|| o+.E .||. oo +||..++||o +. o ooo +||=o.. o. ooo. o.||*o....+=o .+++.+|+----[SHA256]-----+hadoop@node1:~$ cd .sshhadoop@node1:~/.ssh$ ll总用量16drwx------ 2 hadoop hadoop 4096 Jul 24 20:31 ./drwxr-xr-x 18 hadoop hadoop 4096 Jul 2420:31../-rw------- 1 hadoop hadoop 668 Jul 24 20:31 id_dsa-rw-r--r-- 1 hadoop hadoop 602 Jul 24 20:31hadoop@node1:~/.ssh$ cat >> authorized_keyshadoop@node1:~/.ssh$ ll总用量20drwx------ 2 hadoop hadoop 4096 Jul 24 20:32 ./drwxr-xr-x 18 hadoop hadoop 4096 Jul 2420:31../-rw-rw-r-- 1 hadoop hadoop 602 Jul 24 20:32 authorized_keys-rw------- 1 hadoop hadoop 668 Jul 24 20:31 id_dsa-rw-r--r-- 1 hadoop hadoop 602 Jul 24 20:31单机回环ssh免密码登录测试hadoop@node1:~/.ssh$ ssh localhostThe authenticity of host'localhost ()' can't be established.ECDSA key fingerprint is SHA256:daO0dssyqt12tt9yGUauImOh6tt6A1SgxzSfSmpQqJVEiQTxas.Are you sure you want to continue connecting (yes/no) yesWarning: Permanently added 'localhost'(ECDSA)to the list of known hosts.Welcome to Ubuntu (GNU/Linux x86_64)* Documentation: packages can be updated.178 updates are security updates.New release' LTS' available.Run 'do-release-upgrade'to upgrade to it.Last login: Sun Jul 2420:21:392016fromhadoop@node1:~$ exit注销Connection to localhost closed.hadoop@node1:~/.ssh$出现以上信息说明操作成功,其他两个节点同样操作让主结点(master)能通过SSH免密码登录两个子结点(slave)hadoop@node1:~/.ssh$ scp hadoop@master:~/.ssh/./The authenticity of host'master ()' can't be established.ECDSA key fingerprint is SHA256:daO0dssyqtt9yGUuImOh646A1SgxzSfatSmpQqJVEiQTxas.Are you sure you want to continue connecting (yes/no) yesWarning: Permanently added 'master,'(ECDSA)to the list of known hosts.hadoop@master's password:100%603 s 00:00 hadoop@node1:~/.ssh$ cat >> authorized_keys如上过程显示了node1结点通过scp命令远程登录master结点,并复制master的公钥文件到当前的目录下,这一过程需要密码验证。
Hadoop分布式文件系统的配置与使用教程Hadoop分布式文件系统(Hadoop Distributed File System,简称HDFS)是一种适用于大数据处理的可靠、安全且高扩展性的分布式文件系统。
它能够将大容量的数据分散存储在集群的多台计算机上,并提供高效的数据访问方式。
本文将为您提供关于Hadoop 分布式文件系统的配置和使用教程。
**1. 配置Hadoop集群**首先,我们需要准备一个Hadoop集群,该集群包括主节点和若干个从节点。
主节点负责协调和管理整个集群,而从节点则负责存储和处理数据。
2. 安装Hadoop在配置Hadoop集群之前,我们需要将Hadoop安装在每个节点上。
您可以从Hadoop官方网站下载最新版本的Hadoop。
下载完成后,解压缩文件并将其移动到您选择的安装目录。
3. 配置Hadoop集群文件在配置Hadoop集群之前,您需要对一些配置文件进行修改。
这些配置文件位于Hadoop的安装目录中的“etc/hadoop”文件夹中。
以下是一些需要注意的主要配置文件:- core-site.xml: 设置Hadoop核心属性,如HDFS的命名节点和文件系统的URI。
- hdfs-site.xml: 配置HDFS的属性,如数据块大小、副本数量等。
- mapred-site.xml:配置Hadoop MapReduce属性,如MapReduce框架的任务分配方式等。
- yarn-site.xml:配置Hadoop资源管理器(YARN)属性,如内存和CPU分配等。
配置完成后,将这些文件复制到Hadoop集群的每个节点。
4. 格式化文件系统在配置完成后,我们需要格式化HDFS文件系统以准备存储数据。
在主节点上, 打开终端并使用以下命令格式化文件系统:```hadoop namenode -format```5. 启动Hadoop集群在所有节点上启动Hadoop集群。
首先进入Hadoop的安装目录并输入以下命令:```start-dfs.sh```这个命令将启动HDFS服务。
Hadoop,ZooKeeper,HBase,hive(HQL) 安装步骤Hadoop安装:首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
Hadoop在windows下还未经过很好的测试,所以推荐大家在linux(cent os 6.X)下安装使用。
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
可以使用yum install rsync来安装rsync。
一般来说ssh是默认安装到系统中的。
Jdk1.6的安装方法下载linux版本的java,#mkdir /usr/java#cd /usr/java#chmod a+x jdk-6u27-linux-i586.bin#./jdk-6u27-linux-i586.bin安装完成后,设臵环境变量:在etc/profile中设臵#export JAVA_HOME=/usr/java/jdk1.6.0_27#exportCLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOM E/lib/tools.jar#export PATH=$PATH:$JAVA_HOME/bin设臵完成后,使用reboot或者source /etc/profile确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.0.141、192.168.0.142和192.168.0.143(下文简称141,142和143),且都使用root用户。
这里有一点需要强调的就是,务必要确保每台机器的主机名和IP地址之间能正确解析。
Host配臵一个很简单的测试办法就是ping一下主机名,比如在ww-1上ping ww-2,如果能ping通就OK!若不能正确解析,可以修改/etc/hosts文件,如果该台机器作Namenode用,则需要在hosts文件中加上集群中所有机器的IP地址及其对应的主机名;如果该台机器作Datanode用,则只需要在hosts文件中加上本机IP地址和Namenode机器的IP地址。
hadoop安装教程1、VMware安装我们使⽤Vmware 14的版本,傻⽠式安装即可。
(只要)双击如过2.安装xshell双击3.安装镜像:解压centos6.5-empty解压双击打开CentOS6.5.vmx如果打不开,在cmd窗⼝中输⼊:netsh winsock reset 然后重启电脑。
进⼊登录界⾯,点击other⽤户名:root密码:root然后右键open in terminal输⼊ifconfig 回车查看ip地址打开xshell点击链接如果有提⽰,则接受输⼊⽤户名:root输⼊密码:root4.xshell连接虚拟机打开虚拟机,通过ifconfig查看ip5.安装jkd1.解压Linux版本的JDK压缩包mkdir:创建⽬录的命令rm -rf ⽬录/⽂件删除⽬录命令cd ⽬录进⼊指定⽬录rz 可以上传本地⽂件到当前的linux⽬录中(也可以直接将安装包拖到xshell窗⼝)ls 可以查看当前⽬录中的所有⽂件tar 解压压缩包(Tab键可以⾃动补齐⽂件名)pwd 可以查看当前路径⽂档编辑命令:vim ⽂件编辑命令i:进⼊编辑状态Esc(左上⾓):退出编辑状态:wq 保存并退出:q! 不保存退出mkdir /home/software #按习惯⽤户⾃⼰安装的软件存放到/home/software⽬录下cd /home/software #进⼊刚刚创建的⽬录rz 上传jdk tar包 #利⽤xshell的rz命令上传⽂件(如果rz命令不能⽤,先执⾏yum install lrzsz -y ,需要联⽹) tar -xvf jdk-7u51-linux-x64.tar.gz #解压压缩包2.配置环境变量1)vim /etc/profile2)在尾⾏添加#set java environmentJAVA_HOME=/home/software/jdk1.8.0_65JAVA_BIN=/home/software/jdk1.8.0_65/binPATH=$JAVA_HOME/bin:$PATHCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport JAVA_HOME JAVA_BIN PATH CLASSPATHEsc 退出编辑状态:wq #保存退出注意JAVA_HOME要和⾃⼰系统中的jdk⽬录保持⼀致,如果是使⽤的rpm包安装的jdk,安装完之后jdk的根⽬录为:/usr/java/jdk1.8.0_111,也可以通过命令:rpm -qal|grep jdk 来查看⽬录3)source /etc/profile使更改的配置⽴即⽣效4)java -version查看JDK版本信息。
Hadoop安装简要过程及配置文件1、机器准备①、Linux版操作系统centos 6.x②、修改主机名,方便配置过程中记忆。
修改文件为:/etc/sysconfig/network 修改其中的HOSTNAME即可③、配置局域网内,主机名与对应ip,并且其中集群中所有的机器的文件相同,修改文件为 /etc/hosts格式为:10.1.20.241 namenode10.1.20.242 datanode110.1.20.243 datanode22、环境准备①、配置ssh免密码登陆,将集群中master节点生成ssh密码文件。
具体方法:1)、ssh-keygen -t rsa 一直回车即可,将会生成一份 ~/.ssh/ 文件夹,其中id_rsa为私钥文件 id_rsa.pub公钥文件。
2)、将公钥文件追加到authorized_keys中然后再上传到其他slave节点上追加文件: cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys上传文件: scp ~/.ssh/authorized_keys root@dananode:~/.ssh/3)、测试是否可以免密码登陆:ssh 主机名或局域网ip②、配置JDK③、创建hadoop用户groupadd hadoopuseradd hadoop -g hadoop4)、同步时间ntpdate 5)、关闭防火墙service iptables stop3、安装cdh5进入目录/data/tools/ (个人习惯的软件存储目录,你可以自己随便选择);wget "/cdh5/one-click-install/redhat/ 6/x86_64/cloudera-cdh-5-0.x86_64.rpm"yum --nogpgcheck localinstall cloudera-cdh-5-0.x86_64.rpm添加cloudera仓库验证:rpm--import/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera4、安装hdfs与mapreduce①、安装hdfs:1)、节点分配由于只有1台 namenode节点,它负责监管所有的datanode节点,即可为master节点,其余的均为datanode节点,则主机规划为:Master安装 namenode其余的slave安装 datanode2)、节点安装Master安装:sudo yum clean all; sudo yum install hadoop-hdfs-namenode Slave安装:sudo yum clean all; sudo yum install hadoop-hdfs-datanode②、MRv2安装1)、节点分配由于在MRv2中运用了yarn对节点的管理则在mapreduce的分配中需要一个 resourcemanager节点对所有节点进行管理,以及运用nodemanager 对每一个datanode进行管理,由于只有一个resourcemanager节点,可以考虑将其放在master节点上(可以任意选择,即可以放在datanode上) Master安装:resourcemanager、mapreduce、historyserverSlave安装:nodemanager、mapruduce2)、节点安装Master节点:Sudo yum clean all; sudo yum installhadoop-yarn-resourcemanagerSudo yum clean all; sudo yum install hadoop-mapreduceSudo yum clean all; sudo yum isntall hadoop-mapreduce-historyserver Slave节点:Sudo yum clean all; sudo yum install hadoop-yarn-nodemanagerSudo yum clean all; sudo yum install hadoop-mapreduce③、hadoop客户端安装即该节点可以用shell脚本与hdfs进行交互以及job提交Sudo yum clean all; sudo yum install hadoop-client④、MRv1安装1)、节点分配由于在MRv1中是运用Tracker对资源进行管理,所以在集群中需要有一个JobTracker对所有资源进行管理,其余的节点都为TaskTracker对单几点进行管理。
Master安装:jobTrackerSlave 安装:taskTracker2)、节点安装Master节点:sudo yum clean all; sudo yum installhadoop-0.20-mapreduce-jobtrackerSlave 节点:Sudo yum clean all; sudo yum installhadoop-0.20-mapreduce-tasktracker5、配置文件的修改:①、hdfs文件配置core-site.xml文件<property><name>fs.defaultFS</name><value>hdfs://master节点主机名或ip:8020</value></property>hdfs-site.xml文件<configuration><property><name>.dir</name><value>/var/lib/hadoop-hdfs/cache/hdfs/dfs/name</value>//namnode储存名字空间及汇报日志的位置,其中所属用户及用户组为:hdfs:hdfs,读写执行权限为:drwx------</property><property><name>dfs.datanode.data.dir</name><value>/data/cache1/dfs/dn/</value>//datanode储存数据块的位置,其中权限跟上面的namenode相同</property><property><name>dfs.replication</name><value>2</value> // 表示文件储存备份数</property></configuration>②、MRv2 yarn文件配置yarn-site.xml文件(红色ip为安装resourcemanager的ip)<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><description>List of directories to store localized filesin.</description><name>yarn.nodemanager.local-dirs</name><value>/var/lib/hadoop-yarn/cache/${}/nm-local-dir</value></property><property><name>yarn.resourcemanager.address</name><value>10.1.20.241:8032</value></property><property><name>yarn.resourcemanager.scheduler.address</name><value>10.1.20.241:8030</value></property><property><name>yarn.resourcemanager.webapp.address</name><value>10.1.20.241:8088</value></property><property><name>yarn.resourcemanager.resource-tracker.address</name><value>10.1.20.241:8031</value></property><property><name>yarn.resourcemanager.admin.address</name><value>10.1.20.241:8033</value></property><property><description>Where to store container logs.</description><name>yarn.nodemanager.log-dirs</name><value>/var/log/hadoop-yarn/containers</value></property><property><description>Where to aggregate logs to.</description><name>yarn.nodemanager.remote-app-log-dir</name><value>hdfs://master主机名或ip/var/log/hadoop-yarn/apps</value> //这里是存放路径,不是本地路径,如果是本地路径,nodemanager将会无限死掉</property><property><description>Classpath for typical applications.</description><name>yarn.application.classpath</name><value>$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/*,$HADOOP_COMMON_HOME/lib/*,$HADOOP_HDFS_HOME/*,$HADOOP_HDFS_HOME/lib/*,$HADOOP_MAPRED_HOME/*,$HADOOP_MAPRED_HOME/lib/*,$HADOOP_YARN_HOME/*,$HADOOP_YARN_HOME/lib/*</value></property></configuration>③、MRv1文件配置mapred.xml文件<!--property><name></name><value>yarn</value>//Mapreduce MRV1与MRV2版本,如果是yarn则选择</property--><property><name>mapred.job.tracker</name><value>hdfs://jobtracker主机名或ip:8020</value></property><property><name>mapred.local.dir</name><value>/data/1/mapred/local</value>//Tasktracker运行mapreduce时临时储存位置和中间输出目录,文件所有者及用户组权限:mapred:hadoop,读写执行权限为drwxr-xr-x</property>6、安装过程中出现的问题:1)、由于本地目录权限问题,导致nodemanager无法正常启动2)、先配置MRV2后再配置MRV1时,注意环境变量需要改成MRV1(即需要执行 export HADOOP_MAPRED_HOME=/usr/lib/hadoop-0.20-mapreduce或者在/etc/hadoop/conf/下新建hadoop-env.sh文件添加exportHADOOP_MAPRED_HOME=/usr/lib/hadoop-0.20-mapreduce)。