hadoop搭建伪分布式集群步骤
- 格式:docx
- 大小:3.92 KB
- 文档页数:5
hadoop伪分布式集群搭建与安装(ubuntu系统)1:Vmware虚拟软件⾥⾯安装好Ubuntu操作系统之后使⽤ifconfig命令查看⼀下ip;2:使⽤Xsheel软件远程链接⾃⼰的虚拟机,⽅便操作。
输⼊⾃⼰ubuntu操作系统的账号密码之后就链接成功了;3:修改主机的名称vi /etc/hostname和域名和主机映射对应的关系 vi /etc/hosts,改过之后即⽣效,⾃⼰可以ping⼀下,我这⾥ip对应master,⽐如ping master之后发现可以ping通即可;(centos操作系统修改主机名命令:vi /etc/sysconfig/network,修改内容为HOSTNAME=master)4:修改过主机名称和主机名与ip对应的关系之后;开始上传jdk,使⽤filezilla这个⼯具将jdk⽂件以及其他⽂件上传到ubuntu操作系统中;⿏标左击选中想要上传的⽂件拖到右边即可,如下所⽰:上传成功之后可以检查⼀下,这⾥默认上传到root⽬录下⾯;显⽰已经上传成功即可;5:上传之后创建⼀个⽂件夹⽤于存放上传的⽂件或者压缩包;记住-C是⼤写,⼩写的-c会报错,见下⾯的测试结果;解压缩之后可以进到⾃⼰创建的hadoop⽬录下⾯看看效果,确定已经解压缩了;6:解压缩jdk之后开始将java添加到环境变量中(ubuntu操作系统中配置jdk的环境变量):进去之后按shift+g到最后⾯,到最前⾯双击g,点击a/s/i这三个任意⼀个字母进⼊命令⾏模式,可以对配置⽂件进⾏修改;配置的⽅式有很多种,这只是其中⼀种。
配置好jdk之后可以测试⼀下是否配置成功,如下图,如果没有使⽤source /etc/profile刷新配置是⽆法测试成功的;使⽤source /etc/profile刷新配置之后查看java的版本即可以查看出来;这⾥出了⼀点⼩插曲,我的linux版本的jdk第⼀次好像不能⽤,报了错,以为没配置好呢,后来才发现是jdk错了,所以这⾥都⼩⼼点;7:开始上传hadoop和解压缩hadoop;上传和上传jdk⼀样的做法,这⾥不做多叙述;查看hadoop的⽬录:hadoop-2.4.1/share/hadoop⾥⾯是核⼼jar包;8:解压缩之后开始配置hadoop,找到如下所⽰的路径;修改如下⼏个配置⽂件;详细修改见如下配置所⽰:修改的第⼀个配置⽂件,hadoop-env.sh;修改的内容如下所⽰:主要修改就是jdk的JAVA_HOME;如果忘记⾃⼰jdk的⽬录可以执⾏命令echo $JAVA_HOME复制⼀下结果即可;修改第⼆个配置⽂件:core-site.xml;修改的内容如下所⽰:因为是伪分布式,所以节点配置直接配置主机名了;<!-- 指定HADOOP所使⽤的⽂件系统schema(URI),HDFS的⽼⼤(NameNode)的地址 --><property><name>fs.defaultFS</name><value>hdfs://master:9000</value></property><!-- 指定hadoop运⾏时产⽣⽂件的存储⽬录 --><property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop-2.4.1/tmp</value></property>修改第三个配置⽂件:hdfs-site.xml修改的内容如下所⽰:<!-- 指定HDFS副本的数量 --><property><name>dfs.replication</name><value>1</value></property>修改第四个配置⽂件:⾸先将mapred-site.xml.template修改为mapred.site.xml,然后就将开始修改配置⽂件;修改内容如下所⽰:1 <!-- 指定mr运⾏在yarn上 -->2 <property>3 <name></name>4 <value>yarn</value>5 </property>修改第五个配置⽂件:yarn-site.xml;修改的内容如下所⽰:⾄此配置基本结束;<!-- 指定YARN的⽼⼤(ResourceManager)的地址 --><property><name>yarn.resourcemanager.hostname</name><value>master</value></property><!-- reducer获取数据的⽅式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>修改第六个配置⽂件:vi slaves修改的内容即是⾃⼰的主机名称:9:查看⼀下ubuntu下⾯的防⽕墙的状态和关闭开启防⽕墙:下图所⽰分别是关闭防⽕墙,查看防⽕墙的状态,开始防⽕墙和查看防⽕墙的状态;10:为了执⾏hadoop命令⽅便,同样配置⼀下hadoop的环境变量;同样vi /etc/profile ,配置如下所⽰:配置保存之后记得source /etc/profile刷新配置;11:格式化namenode(是对namenode进⾏初始化)执⾏格式化命令后看到successfully表⽰格式化成功;12:启动hadoop,先启动HDFS,sbin/start-dfs.sh;再启动YARN,sbin/start-yarn.sh;启动过程中输出⼤概三次yes和密码;输⼊即可;13:验证是否启动成功,使⽤jps命令验证;查看有⼏个进程;分别是启动start-dfs.sh和start-yarn.sh的效果;14:搭建好伪分布式集群之后可以在window访问集群的web服务;注意:如果在window浏览器⽆法访问的时候(jps正常启动),这个时候估计是linux操作系统的防⽕墙的问题:service iptables stop : 关闭防⽕墙service iptables status : 查看防⽕墙的状态service iptables start : 开启防⽕墙15:简单测试⼀下,将⼀个⽂件上传到hdfs上⾯,如下所⽰:假如你这样书写hadoop fs -put jdk-7u65-linux-i586.tar.gz hdfs://master:9000这个9000后⾯没有这个/那么你在浏览器是看不到任何⽂件的;去web服务查看效果如下所⽰:就是刚刚上传的⽂件;16:将⽂件从hdfs分布式集群中下载下来:效果如下所⽰:17:使⽤hadoop⾃带的mapreduce程序来测试mapreduce的效果:计算圆周率的程序;简单使⽤⼀下mapreduce,以计算单词的个数为例;创建⼀个count.txt⽤于测试⾥⾯的单词重复的次数:因为数据是在集群上⾯跑的,所以⽂件要放到集群上⾯;⾸先需要创建⼀个⽂件夹,⽤于存放⽂件;创建好的⽂件夹可以在web服务器⾥⾯查看,如下所⽰:将新建的count.txt⽂件放到input⽂件夹⾥⾯,如下所⽰:开始使⽤mapreduce的⾃带案例进⾏单词重读测试:可以查询执⾏之后出现的结果:也可以直接去web服务器查看执⾏的结果;可以使⽤命令查看执⾏的结果,如下所⽰:HDFS的⼤体实现的思想:1:hdfs是通过分布式集群来存储⽂件,为客户端提供了⼀个便捷的访问⽅式,就是⼀个虚拟的⽬录结构2:⽂件存储到hdfs集群中去的时候是被切分成block块的3:⽂件的block存放在若⼲台datanode节点上的4:hdfs⽂件系统中的⽂件于真实的block之间有映射关系,由namenode管理5:每⼀个block在集群中会存储多个副本,好处是可以提⾼数据的可靠性,还可以提供访问的吞吐量;18:hdfs常使⽤的命令:1 hadoop fs 显⽰hadoop 的fs的功能 2 hadoop fs -ls / 列举某⽬录下⾯的⽂件夹3 hadoop fs -lsr 列举某⽬录下⾯的⽂件夹及其⽂件夹⾥⾯的⽂件4 hadoop fs -mkdir /user/hadoop 在user⽂件夹下⾯创建⼀个hadoop⽂件夹5 hadoop fs -put a.txt /user/hadoop/ 将a.txt⽂件上传到user⽂件夹下⾯的hadoop⽂件夹下⾯6 hadoop fs -get /user/hadoop/a.txt / 获取到user⽂件夹下⾯的hadoop⽂件夹下⾯的a.txt⽂件7 hadoop fs -cp /原路径 /⽬标路径 拷贝⽂件,从原路径拷贝到⽬标路径 8 hadoop fs -mv /原路径 /⽬标路径 从原路径移动到⽬标路径9 hadoop fs -cat /user/hadoop/a.txt 查看a.txt⽂件⾥⾯的内容10 hadoop fs -rm /user/hadoop/a.txt 删除user⽂件夹下⾯的hadoop⽂件夹下⾯的a.txt⽂件11 hadoop fs -rm -r /user/hadoop/a.txt 递归删除,⽂件夹和⽂件12 hadoop fs -copyFromLocal /本地路径 /⽬的路径 与hadoop fs -put功能类似。
1. virtualbox安装1. 1. 安装步骤1. 2. virtualbox安装出错情况1. 2.1. 安装时直接报发生严重错误1. 2.2. 安装好后,打开Vitualbox报创建COM对象失败,错误情况11. 2.3. 安装好后,打开Vitualbox报创建COM对象失败,错误情况21. 2.4. 安装将要成功,进度条回滚,报“setup wizard ended prematurely”错误2. 新建虚拟机2. 1. 创建虚拟机出错情况2. 1.1. 配制好虚拟光盘后不能点击OK按钮3. 安装Ubuntu系统3. 1. 安装Ubuntu出错情况3. 1.1. 提示VT-x/AMD-V硬件加速在系统中不可用4. 安装增强功能4. 1. 安装增强功能出错情况4. 1.1. 报未能加载虚拟光盘错误5. 复制文件到虚拟机5. 1. 复制出错情况5. 1.1. 不能把文件从本地拖到虚拟机6. 配置无秘登录ssh7. Java环境安装7. 1. 安装Java出错情况7. 1.1. 提示不能连接8. hadoop安装8. 1. 安装hadoop的时候出错情况8. 1.1. DataNode进程没启动9. 开机自启动hadoop10. 关闭服务器(需要时才关)1. virtualbox安装1. 1. 安装步骤1.选择hadoop安装软件中的VirtualBox-6.0.8-130520-Win2.双击后进入安装界面,然后直接点击下一步3.如果不想把VirtualBox安装在C盘,那么点击浏览4.直接把最前面的C改成D注意:安装路径中不能有中文如果只有一个C盘,那么这里就不用改动了5.然后直接点击下一步就行了6.这个界面直接点下一步就行7.网络界面的时候直接点“是”就行8.然后点击安装9.在用户账户控制里面点击“是”10.安装完成出现如下界面,点击完成就行11.然后出现如下界面1. 2. virtualbox安装出错情况1. 2.1. 安装时直接报发生严重错误1. 右键点击此电脑,选择管理2. 选择服务和应用程序下面的服务3. 查看如下两个服务的状态4. 如果不是显示的正在运行,那么右键点击服务,然后启动它5. 启动好这两个服务过后,再重新安装VirtulBox1. 2.2. 安装好后,打开Vitualbox报创建COM对象失败,错误情况1这种错误也有可能是没有启用硬件虚拟化,以下是常用笔记本启用虚拟化技术的方法1. 惠普笔记本启用虚拟化功能2. 戴尔笔记本启用虚拟化功能3. 联想笔记本启用虚拟化功能4. 华硕笔记本启用虚拟化功能5. 其他品牌电脑可以按如下方式到百度中搜索电脑品牌怎么启用虚拟化技术1. 2.3. 安装好后,打开Vitualbox报创建COM对象失败,错误情况2这种可能是你的路径中有中文。
Mapreduce程序设计报告姓名:学号:题目:Hadoop系统伪分布搭建和运行1、实验环境联想pc机虚拟机:VM 10.0操作系统:Centos 6.4Hadoop版本:hadoop 1.2.1Jdk版本:jdk-7u252、系统安装步骤:2.1安装配置SSH在CentOs中,已经安装ssh与sshd,可用which命令查看打开终端,在终端中中键入:ssh -keygen -t rsa生成无密码密钥对,询问其保存路径时直接回车采用默认路径。
生成的密钥对:id_rsa和id_rsa.pub,默认存储在"/home/hadoop/.ssh"目录下。
接着将id_rsa.pub追加到授权的key里面去cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys2.2 安装JDK:打开终端,输入命令mkdir /usr/java //建立java文件夹//复制JDK文件夹包cd /usr/java //进入jdk文件夹tar –zxvf jdk-7u25-linux-x64.tar.gz //解压jdk文件mv jdk1.7.0_25 jdk //重新命名jdk文件夹rm –rf jdk-7u25-linux-x64.tar.gz //删除jkd压缩包2.3配置JDK环境变量使用root权限进行操作,输入命令:vim /etc/profile按i进入编辑,在文件的最后,添加环境变量语句:按esc,接着按:wq保存退出,执行命令source /etc/profile 使环境变量生效使用命令java -version检测环境变量是否配置成功。
要是出现以上情况,说明jdk配置成功。
2.4安装Hadoop打开终端,输入命令cp /home/tzj/hadoop/hadoop-1.2.1.tar /usr #复制hadoop安装包到usr目录cd /usr #进入"/usr"目录tar –zxvf hadoop-1.2.1.tar.gz #解压"hadoop-1.2.1.tar.gz"安装包mv hadoop-1.2.1 hadoop #将"hadoop-1.2.1"文件夹重命名"hadoop"mkdir /usr/hadoop/tmp #在hadoop文件夹下创建tmp文件夹chown –R tzj:tzj hadoop #将文件夹"hadoop"读权限分配给hadoop用户rm –rf hadoop-1.0.0.tar.gz #删除"hadoop-1.0.0.tar.gz"安装包2.5hadoop配置(1)使用root权限进行操作,输入命令:vim /etc/profile按i进入编辑,在文件的最后,添加环境变量语句:按esc,接着按:wq保存退出,执行命令source /etc/profile 使环境变量生效(2)配置hadoop-env.sh在文本最后添加# set java environmentexport JAVA_HOME=/jdk1.7.0_25(3)配置core-site.xml在文本最后添加:<configuration><property><name>hadoop.tmp.dir</name><value>/usr/hadoop/tmp</value>(备注:请先在/usr/hadoop 目录下建立tmp 文件夹)<description>A base for other temporary directories.</description> </property><!-- file system properties --><property><name></name></property></configuration>(4)配置hdfs-site.xml在文本最后添加:<configuration><property><name>dfs.replication</name><value>1</value>(备注:replication 是数据副本数量,默认为3,salve少于3台就会报错) </property><configuration>(5)配置mapred-site.xml在文本最后添加:<configuration><property><name>mapred.job.tracker</name></property></configuration>2.6启动hadoop和验证(1)格式化hdfs文件系统hadoop namenode -format(2)启动hadoop2.7启动hadoopstart-all.sh启动守护程序,使用以下方式进行验证:(1)使用自带的JPS验证启动情况。
超详细!CentOS7+Hadoop3.0.0搭建伪分布式集群超详细!CentOS 7 + Hadoop3.0.0 搭建伪分布式集群ps:本⽂的步骤已⾃实现过⼀遍,在正⽂部分避开了旧版教程在新版使⽤导致出错的内容,因此版本⼀致的情况下照搬执⾏基本不会有⼤错误。
如果按本⽂步骤进⾏的时候出事了,可以⿏标选中博客页⾯右侧的⽬录导航看看最后⼀部分的意外出事的坑点解决⽅案。
主机环境准备准备linux主机环境⼀、安装虚拟机⼀、安装虚拟机下载地址:(附:)系统iso:基本上就是下⼀步下⼀步这种简单的默认安装就好了。
除了在安装过程中配置分区的时候可能需要⼿动分区,然后选择标准分区即可。
装好后,修改内存,因为不需要图形界⾯,所以只给个512M内存也没问题。
并更改⽹络适配器为VMnet8(NAT)。
附上NAT⽅式的⼯作原理(CentOS和Windows这两台机⼦通过虚拟⽹关互联,虚拟⽹关由VMware workstation⽣成,在Windows上会⽣成⼀个虚拟⽹卡VMnet8,这个⽹卡地址和本机的物理⽹卡没有关系)⼆、⽹络配置⼆、⽹络配置在VMware workstation的菜单编辑 -> 虚拟⽹络编辑器可以查看和修改虚拟⽹关地址。
然后打开控制⾯板的⽹络连接查看VMnet8的IP地址如图,在我这台机⼦上:虚拟⽹关地址 192.168.216.1VMnet8 IP地址 192.168.216.2运⾏虚拟机,进⾏⽹络配置:1.输⼊ip addr看到我的⽹卡叫做ens332.输⼊ls /etc/sysconfig/network-scripts/看到⽹卡ip信息的配置⽂件名叫做ifcfg-ens333.输⼊cat /etc/sysconfig/network-scripts/ifcfg-ens33查看,可以发现虽然BOOTPROTO=dhcp,但是ONBOOT=no(下⾯4-6步纯属实验性质可忽视,直接开始第7步)4.输⼊vi /etc/sysconfig/network-scripts/ifcfg-ens33将ONBOOT=no修改为yes,在此之前要先进⼊root模式chmod 777 ⽂件名把⽂件改为可写状态。
hadoop伪分布式搭建(2)需要hadoop安装包,xshell,Linux的jdk,百度搜索下载即可打开xshell,点击⽂件,新建名称随意,主机填写虚拟机的IP地址(虚拟机要先开机),协议选择ssh输⼊⽤户名密码之类的即可连接虚拟机。
之后可以通过是shell命令来对虚拟机进⾏操作先创建两个⽂件夹⼀个⽤来放压缩包⼀个⽤来放软件,代码:mkdir app (存放软件)mkdir soft(存放压缩包)再点击⽂件新建⼀个连接:这次上⾯选择SFTP(⽤于传⽂件)其他照着前⾯填就⾏通过cd命令进⼊soft⽬录,再将压缩包拖进来即可会到ssh协议建⽴的选项卡,通过cd命令进⼊soft⽬录通过ll命令查看,即可看到安装包通过tar命令将两个压缩包解压到同级⽬录app中这样,我们jdk和Hadoop就安装ok了,接下⾥的就是配置问题了。
通过命令sudo vim /etc/profile 配置环境变量如图配置JAVA_HOME,HADOOP_HOME填写⾃⼰安装的⽬录其他照着填即可最后是Hadoop的五个配置⽂件了,配置⽅法如下:先进⼊Hadoop的etc⽬录的hadoop⽬录下:通过ll命令即可查看⽂件我们需要配置五个⽂件:hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xml1hadoop-env.shvim hadoop-env.shexport JAVA_HOME=/usr/java/jdk1.7.0_652core-site.xml<property><name>fs.defaultFS</name><value>hdfs://hadoop00:9000</value></property><!-- 指定hadoop运⾏时产⽣⽂件的存储⽬录 --> <property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop-2.4.1/tmp</value> </property>3hdfs-site.xml<!-- 指定HDFS副本的数量 --><property><name>dfs.replication</name><value>1</value></property>4mapred-site.xmlmv mapred-site.xml.template mapred-site.xml vim mapred-site.xml<!-- 指定mr运⾏在yarn上 --><property><name></name><value>yarn</value></property>5yarn-site.xml<!-- 指定YARN的⽼⼤(ResourceManager)的地址 --><property><name>yarn.resourcemanager.hostname</name><value>hadoop00:9000</value></property><!-- reducer获取数据的⽅式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>按照上⾯配置即可,通过vi命令进⼊⽂件,将对应的代码填在对应对接的<configrutation></configrutation>中即可.。
Hadoop运⾏模式之本地伪分布式模式Hadoop运⾏模式包括:本地模式、伪分布式模式以及完全分布式模式。
⼀、本地运⾏模式1、官⽅Grep案例1、创建在hadoop-2.7.2⽂件下⾯创建⼀个input⽂件夹[root@centos7 hadoop2.7]# mkdir input2、将Hadoop的xml配置⽂件复制到input[root@centos7 hadoop2.7]# cp etc/hadoop/*.xml input3、执⾏share⽬录下的MapReduce程序[root@centos7 hadoop2.7]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+' 4、查看输出结果[root@centos7 hadoop2.7]# cat output/*2、官⽅WordCount案例1、创建在hadoop-2.7.2⽂件下⾯创建⼀个wcinput⽂件夹[root@centos7 hadoop2.7]# mkdir wcinput2、在wcinput⽂件下创建⼀个wc.input⽂件[root@centos7 hadoop2.7]# cd wcinput[root@centos7 wcinput]# touch wc.input3、编辑wc.input⽂件[root@centos7 wcinput]# vim wc.input在⽂件中输⼊如下内容hadoop yarnhadoop mapreduceatguiguatguigu保存退出::wq!4、回到Hadoop⽬录/opt/module/hadoop-2.7.25、执⾏程序[root@centos7 hadoop2.7]# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput wcoutput 6、查看结果[root@centos7 hadoop2.7]# cat wcoutput/part-r-00000atguigu 2hadoop 2mapreduce 1yarn 1⼆、伪分布式运⾏模式1、启动HDFS并运⾏MapReduce程序(1)配置集群步骤⼀:配置:/opt/software/hadoop2.7/etc/hadoop/hadoop-env.shLinux系统中获取JDK的安装路径:[root@centos7 sbin]# echo $JAVA_HOME/opt/software/jdk1.8修改 JAVA_HOME 路径:export JAVA_HOME=/opt/software/jdk1.8步骤⼆:配置:core-site.xml<!-- 指定HDFS中NameNode的地址 --><property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value></property><!-- 指定Hadoop运⾏时产⽣⽂件的存储⽬录 --><property> <name>hadoop.tmp.dir</name> <value>/opt/software/hadoop2.7/data/tmp</value></property>步骤三:配置:hdfs-site.xml<!-- 指定HDFS副本的数量 --><property><name>dfs.replication</name><value>1</value></property>(2)启动集群步骤⼀:格式化NameNode(第⼀次启动时格式化,以后就不要总格式化)[root@centos7 hadoop2.7]# bin/hdfs namenode -format步骤⼆:启动NameNode[root@centos7 hadoop2.7]# sbin/hadoop-daemon.sh start namenode步骤三:启动DataNode[root@centos7 hadoop2.7]# sbin/hadoop-daemon.sh start datanode(3)查看集群(a)查看是否启动成功[root@centos7 hadoop2.7]# jps6967 DataNode6905 NameNode7004 Jps注意:jps是JDK中的命令,不是Linux命令。
1.Hadoop集群搭建(单机伪分布式)>>>加磁盘1)⾸先先将虚拟机关机2)选中需要加硬盘的虚拟机:右键-->设置-->选中硬盘,点击添加-->默认选中硬盘,点击下⼀步-->默认硬盘类型SCSI(S),下⼀步-->默认创建新虚拟磁盘(V),下⼀步-->根据实际需求,指定磁盘容量(单个或多个⽂件⽆所谓,选哪个都⾏),下⼀步。
-->指定磁盘⽂件,选择浏览,找到现有虚拟机的位置(第⼀次出现.vmdk⽂件的⽂件夹),放到⼀起,便于管理。
点击完成。
-->点击确定。
3) 可以看到现在选中的虚拟机有两块硬盘,点击开启虚拟机。
这个加硬盘只是在VMWare中,实际⼯作中直接买了硬盘加上就可以了。
4)对/dev/sdb进⾏分区df -h 查看当前已⽤磁盘分区fdisk -l 查看所有磁盘情况磁盘利⽤情况,依次对磁盘命名的规范为,第⼀块磁盘sda,第⼆块为sdb,第三块为sdc。
可以看到下图的Disk /dev/sda以第⼀块磁盘为例,磁盘分区的命名规范依次为sda1,sda2,sda3。
同理也会有sdb1,sdb2,sdb3。
可以参照下图的/dev/sda1。
下⾯的含义代表sda盘有53.7GB,共分为6527个磁柱,每个磁柱单元Units的⼤⼩为16065*512=8225280 bytes。
sda1分区为1-26号磁柱,sda2分区为26-287号磁柱,sda3为287-6528号磁柱下⾯的图⽚可以看到,还未对sdb磁盘进⾏分区fdisk /dev/sdb 分区命令可以选择m查看帮助,显⽰命令列表p 显⽰磁盘分区,同fdisk -ln 新增分区d 删除分区w 写⼊并退出选w直接将分区表写⼊保存,并退出。
mkfs -t ext4 /dev/sdb1 格式化分区,ext4是⼀种格式mkdir /newdisk 在根⽬录下创建⼀个⽤于挂载的⽂件mount /dev/sdb1 /newdisk 挂载sdb1到/newdisk⽂件(这只是临时挂载的解决⽅案,重启机器就会发现失去挂载)blkid /dev/sdb1 通过blkid命令⽣成UUIDvi /etc/fstab 编辑fstab挂载⽂件,新建⼀⾏挂载记录,将上⾯⽣成的UUID替换muount -a 执⾏后⽴即⽣效,不然的话是重启以后才⽣效。
Hadoop伪分布式安装流程一、说明Hadoop的运行模式有三种:第一种是单机模式(local mode)此模式不需要运行任何守护进程(daemon),所有的程序都运行在一个JVM上。
在这种模式下调试和测试较方便,所以通常情况下在这种模式下进行开发测试,是应用开发阶段采用的模式。
第二种是伪分布模式(pseudo-distributed mode)模拟分布式,单机上运行Hadoop守护进程。
开发测试阶段采用的模式。
第三种是完全分布式(fully-distributed mode)Hadoop守护进程运行在一个分布的集群上。
这种模式需要关注的是各组件属性的正确配置和完整的启动Hadoop守护进程。
GNU/Linux是Hadoop产品开发和运行的平台。
Hadoop已在有四千个节点的GNU/Linux 主机组成的集群系统上得到验证。
Windows平台是作为开发平台支持的。
由于分布式操作尚未在Windows平台上充分测试,所以还不作为一个生产平台被支持。
所需软件包括:JDK1.6及以上版本,必须安装,建议选择Sun公司发行的Java版本。
SSH 必须安装并且保证sshd服务一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。
安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。
以Hadoop2.0为例。
集群里的一台机器被指定为NameNode,另一台不同的机器被指定为ResourceManager。
这些机器是Master。
余下的机器即作为DataNode也作为NodeManager。
这些机器是Slaves。
通常使用HADOOP_HOME指定Hadoop的安装的根路径。
要求集群里的所有机器的HADOOP_HOME路径相同。
就是把Hadoop安装在相同的路径下。
伪分布式模拟了分布式Hadoop集群的一些功能。
通常运用在测试环境,并且不是并行的。
但是,小规模的Hadoop安装提供了学习Hadoop基础的简单方法。
Hadoop的伪分布式安装和部署的流程1、准备⼯作下载⼀些⽤到的命令yum install -y vimyum install -y lrzszyum install net-tools⽬录约定/opt #⼯作⽬录/opt/install #安装包/opt/softwar #软件包/opt/other #其它/opt/test #测试cd /optmkdir install software other test #新建⽬录JDK安装cd /opt/install #进⼊安装包⽬录rz jdk-8u221-linux-x64.tar.gz #上传JDKtar -zxvf jdk-8u221-linux-x64.tar.gz #解压JDKmv jdk1.8.0_221 jdk1.8 #改名为JDK1.8mv jdk1.8 ../software #移动到/opt/software⽬录配置jdk环境变量vim /etc/profile #编辑环境变量JAVA_HOME=/opt/software/jdk1.8 #添加JAVA_HOME变量CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarPATH=$PATH:$JAVA_HOME/binsource /etc/profile #⽣效配置修改主机名vim /etc/hostname #编辑主机名hdp01 #主机名以hdp01为例修改主机映射vim /etc/hosts #编辑主机映射192.168.0.32 hdp01 #主机的ip对应主机名配置免密登录ssh-keygen #⽣成公钥ssh-copy-id hdp01 #设置⾃⼰为免密登录2、下载安装伪分布式hadoop安装cd /opt/install #进⼊安装包⽬录rz hadoop-2.7.7.tar.gz #上传hadooptar -zxvf hadoop-2.7.7.tar.gz #解压hadoopmv hadoop-2.7.7 ../software #移动到/opt/software⽬录修改hadoop的6个配置⽂件cd /opt/software/hadoop-2.7.7/etc/hadoop #进⼊配置⽂件⽬录hadoop-env.shvim hadoop-env.sh #编辑配置⽂件hadoop-env.shexport JAVA_HOME=/opt/software/jdk1.8 #修改25⾏export HADOOP_CONF_DIR=/opt/software/hadoop-2.7.7/etc/hadoop #修改33⾏core-site.xmlvim core-site.xml #编辑配置⽂件core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://hdp01:9000</value> #hdp01为主机名</property><property><name>hadoop.tmp.dir</name><value>/opt/software/hadoop-2.7.7/tmp</value></property></configuration>hdfs-site.xmlvim hdfs-site.xml #编辑配置⽂件hdfs-site.xml<configuration><property><name>dfs.replication</name><value>1</value></property></configuration>mapred-site.xmlcp mapred-site.xml.template mapred-site.xml #拷贝例⼦vim mapred-site.xml #编辑配置⽂件mapred-site.xml<configuration><property><name></name><value>yarn</value></property></configuration>yarn-site.xmlvim yarn-site.xml #编辑配置⽂件yarn-site.xml<configuration><property><name>yarn.resourcemanager.hostname</name><value>hdp01</value> #hdp01为主机名</property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>slavesvim slaves #编辑配置⽂件slaveshdp01 #主机名配置hadoop的环境变量vim /etc/profile #编辑环境变量JAVA_HOME=/opt/software/jdk1.8CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarHADOOP_HOME=/opt/software/hadoop-2.7.7PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source /etc/profile #⽣效配置格式化⽂件系统hadoop namenode -format运⾏服务器start-all.sh #开启stop-all.sh #关闭查看系统端⼝netstat -nltup。
Hadoop伪分布式安装步骤(hadoop0.20.2版本)最近在学习hadoop,⾃⼰下了个视频教程,他的教学版本是hadoop0.20.2版本,现在的最新版本都到了3.0了,版本虽然有点⽼,但是还是学了⼀下,觉得有借鉴的价值。
不废话了,开始介绍:先说⼀下环境:ubuntu14.04,其中要装上ssh open-server服务,装上jdk环境。
伪分布式模式安装和配置步骤如下图:详细步骤1 ⾸先把⽂件导⼊linux系统(我⽤的ubuntu虚拟机,hadoop-0.20.2.tar.gz安装包放在了桌桌⾯)。
⾸先把这个安装包放在/opt⽬录下,并解压:2 配置相关⽂件hadoop-env.sh⽂件配置(版本不同,⽂件位置可能不⼀样,hadoop0.20.2在/conf下)core-site.xml (/conf下)修改hdfs-site.xmlhdfs-site.xml配置⽂件中还有其他⼀些配置,此次配置没有⽤到,如下图:mapred-site.xml配置下图是mapred-site.xml其他⼀些配置,此次没⽤到,列到这⾥:注意:由于我布置的是伪分布式,只有⼀个节点(即本机),所以core-site.xml和mapred-site.xml两个配置⽂件中的相关ip地址是localhost,如果完全分布式部署,是要写相应的IP的。
另外,9000和9001是hadoop缺省端⼝,⼀般没必要修改。
ssh设置⾸先进⼊/root然后按照下图输⼊(让每个节点之间互通免密码)这样就⼤功告成啦完全分布式安装⼤致步骤如下:1 配置host⽂件2 简历hadoop运⾏账号3 配置ssh免密码连接4 下载hadoop并解压5 配置namenode,修改site⽂件6 配置hadoop-env.sh7 配置master和slaves⽂件8 向各节点复制hadoop9 格式化namenode10 启动hadoop11 ⽤jps检查阁后台进程是否成功启动后续:以上都是基于hadoop0.20.2版本的,属于⽐较过时的东西,推荐⼀个⼤神总结的hadoop2.6.0的安装和配置,写的很详细,⽽且也是正确的。
Hadoop伪分布式搭建步骤说明:搭建环境是VMware10下⽤的是Linux CENTOS 32位,Hadoop:hadoop-2.4.1 JAVA :jdk7 32位;本⽂是本⼈在⽹络上收集的HADOOP系列视频所附带的课堂笔记(这⾥直接抄过来的),记录备忘。
补充:1、虚拟机的⽹络配置,桥接模式:相当于虚拟机与实体机公⽤⼀个⽹卡,所以这种模式下的虚拟机需要联⽹的话,需要跟实体机⼀个⽹段和⽹关。
NAT模式:实体机相当于⼀个路由器,虚拟机相当于⼀个内⽹。
开始前让我们简单修改下LINUX系统的JDK;⼀般情况下,我们都要将linux⾃带的OPENJDK卸载掉,然后安装SUN的JDK(下⾯的代码来源⽹络,请注意真实⾃⼰环境)<1> 查看已经安装的JAVA版本信息# java -version⼀般将获得如下信息:java version "1.6.0"OpenJDK Runtime Environment (build 1.6.0-b09)OpenJDK 64-Bit Server VM (build 1.6.0-b09, mixed mode)<2>查看jdk的信息# rpm -qa|grep java⼀般将获得如下信息:java-1.4.2-gcj-compat-1.4.2.0-40jpp.115java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5<3> 卸载# yum -y remove java java-1.4.2-gcj-compat-1.4.2.0-40jpp.115# yum -y remove java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5然后,就是真正安装HADOOP伪分布的过程,本⼈亲测成功。
1.准备Linux环境(IP仅作参考)1.0 点击VMware快捷⽅式,右键打开⽂件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置⽹段:192.168.1.0 ⼦⽹掩码:255.255.255.0 -> apply -> ok回到windows --> 打开⽹络和共享中⼼ -> 更改适配器设置 -> 右键VMnet1 -> 属性 -> 双击IPv4 -> 设置windows的IP:192.168.1.100 ⼦⽹掩码:255.255.255.0 -> 点击确定在虚拟软件上 --My Computer -> 选中虚拟机 -> 右键 -> settings -> network adapter -> host only -> ok1.1 修改主机名vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=itcast ### 这⾥就不修改,也让读者知道真正的作者来源1.2 修改IP 两种⽅式: 第⼀种:通过Linux图形界⾯进⾏修改(强烈推荐) 进⼊Linux图形界⾯ -> 右键点击右上⽅的两个⼩电脑 -> 点击Edit connections -> 选中当前⽹络System eth0 -> 点击edit按钮 -> 选择IPv4 -> method选择为manual -> 点击add按钮 -> 添加IP:192.168.1.101 ⼦⽹掩码:255.255.255.0 ⽹关:192.168.1.1 -> apply 第⼆种:修改配置⽂件⽅式(屌丝程序猿专⽤)vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE="eth0"BOOTPROTO="static" ###HWADDR="00:0C:29:3C:BF:E7"IPV6INIT="yes"NM_CONTROLLED="yes"ONBOOT="yes"TYPE="Ethernet"UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"IPADDR="192.168.1.101" ###NETMASK="255.255.255.0" ###GATEWAY="192.168.1.1" ###1.3 修改主机名和IP的映射关系vim /etc/hosts192.168.1.101 itcast1.4 关闭防⽕墙#查看防⽕墙状态service iptables status#关闭防⽕墙service iptables stop#查看防⽕墙开机启动状态chkconfig iptables --list#关闭防⽕墙开机启动chkconfig iptables off1.5 重启Linux reboot2.安装JDK2.1 上传alt+p 后出现sftp窗⼝(使⽤的SecureCRT),然后put d:\xxx\yy\ll\jdk-7u_65-i585.tar.gz2.2 解压jdk#创建⽂件夹mkdir /home/hadoop/app#解压tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app2.3 将java添加到环境变量中vim /etc/profile#在⽂件最后添加export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585export PATH=$PATH:$JAVA_HOME/bin#刷新配置source /etc/profile3.安装hadoop2.4.1先上传hadoop的安装包到服务器上去/home/hadoop/ 注意:hadoop2.x的配置⽂件$HADOOP_HOME/etc/hadoop 伪分布式需要修改5个配置⽂件3.1 配置hadoop 第⼀个:hadoop-env.shvim hadoop-env.sh#第27⾏export JAVA_HOME=/usr/java/jdk1.7.0_65第⼆个:core-site.xml<!-- 指定HADOOP所使⽤的⽂件系统schema(URI),HDFS的⽼⼤(NameNode)的地址 --><property><name>fs.defaultFS</name><value>hdfs://weekend-1206-01:9000</value></property><!-- 指定hadoop运⾏时产⽣⽂件的存储⽬录 --><property><name>hadoop.tmp.dir</name><value>/home/hadoop/hadoop-2.4.1/tmp</value></property>第三个:hdfs-site.xml hdfs-default.xml<!-- 指定HDFS副本的数量 --><property><name>dfs.replication</name><value>1</value></property>第四个:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)vim mapred-site.xml<!-- 指定mr运⾏在yarn上 --><property><name></name><value>yarn</value></property>第五个:yarn-site.xml<!-- 指定YARN的⽼⼤(ResourceManager)的地址 --><property><name>yarn.resourcemanager.hostname</name><value>weekend-1206-01</value></property><!-- reducer获取数据的⽅式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>3.2 将hadoop添加到环境变量vim /etc/proflieexport JAVA_HOME=/usr/java/jdk1.7.0_65export HADOOP_HOME=/itcast/hadoop-2.4.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source /etc/profile3.3格式化namenode(是对namenode进⾏初始化)hdfs namenode -format (hadoop namenode -format)3.4启动hadoop#先启动HDFSsbin/start-dfs.sh#再启动YARNsbin/start-yarn.sh3.5验证是否启动成功使⽤jps命令验证# jps27408 NameNode28218 Jps27643 SecondaryNameNode28066 NodeManager27803 ResourceManager27512 DataNode#http://192.168.1.101:50070 (HDFS管理界⾯)#http://192.168.1.101:8088 (MR管理界⾯)4.配置ssh免登陆#⽣成ssh免登陆密钥#进⼊到我的home⽬录cd ~/.sshssh-keygen -t rsa (四个回车)执⾏完这个命令后,会⽣成两个⽂件id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免登陆的机器上ssh-copy-id localhost最后,HADOOP就可以正常启动了。
完全分布式和伪分布式
完全分布式和伪分布式是Hadoop集群的两种运行模式。
伪分布式集群、完全分布式搭建步骤详情:
1.伪分布式模式介绍:特点是在一台机器上安装,使用的是分布式思想,即分布式文件系统,非本地文件系统。
Hdfs 涉及到的相关守护进程都运行在一台机器上,都是独立的java进程。
用途比Standalone mode 多了代码调试功能,允许检查内存使用情况,以及其他的守护进程交互。
2.完全分布式介绍:完全分布式和伪分布式类似,区别在于伪分布式只有一个节点,然而完全分布式可以有多个节点,各节点的配置相同.完全分布式的部署如下更改数据持久物理层目录高可用namenode分散datanode格式化namenode启动集群验证进程启动WEB UI。
Hadoop集群伪分布式模式的实现详解1、Hadoop依赖软件Hadoop基于Java语言开发,因此其运行严重依赖于JDK(Java Development Kit),并且Hadoop的许多功能依赖于Java 6及以后的版本才提供的特性。
Hadoop可以良好地运行于经过测试的各JDK,如Sun JDK、OpenJDK、Oracle JRockit、IBM JDK各自实现的某些版本。
但迄今为止,HotSpot JVM仍是性能最好且与Hadoop搭配运行最稳定的实现。
/hadoop/HadoopJavaVersions页面给出了Hadoop目前几大著名企业实现的Hadoop集群中所使用的JDK版本,Hortonworks已经为JDK 1.6.0_31在RHEL5/CentOS5、RHEL6/CentOS6、SLES11运行Hadoop、HBase、Pig, Hive、HCatalog、Oozie、Sqoop等进行了认证。
建议参考它们的测试结果进行选择。
在选择安装版本,Sun JDK有几种不同格式的安装包,其使用及功能上并没有区别;但如果在安装Hadoop使用CDH的RPM格式的包的话,它们依赖于RPM格式的JDK,不过,ASF提供的RPM包并没有定义任何外在的依赖关系,因此,其可以使用基于任何方式安装配置的JDK,但这也意味着得手动解决依赖关系。
无论如何,一个生产环境的Hadoop集群应该运行在64位的操作系统上,JDK等也要使用相应的64位版本,否则,单JVM进程将无法使用大于2GB 以上的内存。
除了JDK之外,Hadoop集群的正常运行还可能根据实际环境依赖于其它的一些软件以实现集群的维护、监控及管理等。
这些软件诸如cron、ntp、ssh、postfix/sendmail及rsync 等。
cron通常用于在Hadoop集群中过期的临时文件、归档压缩日志等定期任务的执行;ntp 则用于为集群的各节点实现时间同步;ssh并非是必须的,但在MapReduce或HDFS的master 节点上一次性启动整个集群时通过要用到ssh服务;postfix/sendmail则用于将cron的执行结果通知给管理员;rsync可用于实现配置文件的同步等。
hadoop伪分布式集群搭建步骤1. 关闭防⽕墙2. 安装JDK3. 修改主机名。
Hadoop要求主机名中不能出现-或者_vim /etc/sysconfig/network修改HOSTNAME保存退出,重新⽣效:source /etc/sysconfig/network4. 将主机名和IP进⾏映射vim /etc/hosts例如:10.42.169.138 hadoop1385. 重启:reboot6. 需要配置节点的免密互通(远程登录)ssh-keygenssh-copy-id root@hadoop138ssh hadoop1387.下载安装hadoop安装包wget 指定地址tar -xvf 压缩⽂件名8. 进⼊安装⽬录的⼦⽬录etc/hadoop下cd etc/hadoop9. 修改hadoop-env.sh(配置java和hadoop的环境变量)vim hadoop-env.sh修改JAVA_HOME以及HADOOP_CONF_DIR的值export JAVA_HOME=/home/presoftware/jdk1.8export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop重新⽣效source hadoop-env.sh10. 修改core-site.xmlvim core-site.xml添加:<!-- ⽤于指定NameNode所在节点的 --><property><name>fs.defaultFS</name><value>hdfs://hadoop138:9000</value></property><!-- 指定数据的存储⽬录 --><property><name>hadoop.tmp.dir</name><value>/home/software/hadoop-2.7.1/tmp</value></property>11. 修改hdfs-site.xml(配置副本数量)vim hdfs-site.xml添加:<property><name>dfs.replication</name><value>1</value></property>12. 复制⽂件(为mapreduce配置yarn组件)cp mapred-site.xml.template mapred-site.xml修改mapred-site.xmlvim mapred-site.xml添加<property><name></name><value>yarn</value></property>13.为yarn组件配置主机名修改yarn-site.xml:vim yarn-site.xml添加:<property><name>yarn.resourcemanager.hostname</name><value>hadoop01</value></property><property><!--为nodemanager提供⾃⼰的服务--><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>14. 修改slaves:vim slaves添加当前节点的主机名15. 修改环境变量:vim /etc/profile添加:export HADOOP_HOME=/home/software/hadoop-2.7.1export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin重新⽣效:source /etc/profile16. 第⼀次启动Hadoop需要进⾏⼀次格式化:hadoop namenode -format17. 启动Hadoop:start-all.sh如果启动成功,会出现6个进程:JpsNameNodeDataNodeSecondaryNameNodeResourceManagerNodeManagerHadoop在启动的时候,如果多次格式化,那么启动的时候⼀定会缺少NameNode或者DataNode中的⼀个--- 如果出现这个问题,那么删除hadoop安装⽬录下的tmp⽬录,然后重新格式化,重新启动登录到可视化界⾯:10.42.169.138:50070。
Hadoop是一个能够处理大规模数据的分布式系统框架,它能够在集裙中运行并管理大量的数据。
在学习和使用Hadoop时,搭建一个伪分布式环境是非常有必要的。
伪分布式环境搭建流程如下:1. 准备环境在开始搭建Hadoop伪分布式环境之前,首先需要安装并配置好Java 环境。
Hadoop是基于Java开发的,所以Java环境是必不可少的。
2. 下载Hadoop首先在官全球信息站下载Hadoop的最新版本,然后解压到指定的目录。
解压后的目录就是Hadoop的安装目录。
3. 配置Hadoop环境变量在解压得到的Hadoop安装目录中,找到etc/hadoop目录,这是Hadoop的配置文件目录。
在该目录下,打开hadoop-env.sh文件,设置JAVA_HOME变量为你的Java安装路径。
4. 配置Hadoop的核心文件在etc/hadoop目录下,打开core-site.xml文件,设置Hadoop的核心配置信息。
包括Hadoop的基本参数、HDFS的URL位置区域等。
5. 配置Hadoop的HDFS文件系统同样在etc/hadoop目录下,打开hdfs-site.xml文件,设置Hadoop的HDFS配置信息。
包括数据的存储路径、副本数量等。
6. 配置Hadoop的MapReduce框架在etc/hadoop目录下,打开mapred-site.xml.template文件,设置Hadoop的MapReduce配置信息。
包括MapReduce框架的工作目录、框架的框架数据存储路径等。
7. 配置Hadoop的主节点和从节点在etc/hadoop目录下,打开slaves文件,配置Hadoop的主节点和从节点信息。
可以设置本地主机为主节点,也可以配置其他从节点的IP位置区域。
8. 格式化HDFS在命令行中输入命令:hdfs namenode -format,即可格式化HDFS 文件系统。
这一步是为了清空HDFS文件系统中的旧数据,重新初始化HDFS。
Hadoop(⼆)搭建伪分布式集群前⾔ 前⾯只是⼤概介绍了⼀下Hadoop,现在就开始搭建集群了。
我们下尝试⼀下搭建⼀个最简单的集群。
之后为什么要这样搭建会慢慢的分享,先要看⼀下效果吧!⼀、Hadoop的三种运⾏模式(启动模式)1.1、单机模式(独⽴模式)(Local或Standalone Mode) -默认情况下,Hadoop即处于该模式,⽤于开发和调式。
-不对配置⽂件进⾏修改。
-使⽤本地⽂件系统,⽽不是分布式⽂件系统。
-Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同⼀个进程的不同部分来执⾏的。
-⽤于对MapReduce程序的逻辑进⾏调试,确保程序的正确。
1.2、伪分布式模式(Pseudo-Distrubuted Mode) -Hadoop的守护进程运⾏在本机机器,模拟⼀个⼩规模的集群 -在⼀台主机模拟多主机。
-Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同⼀台机器上运⾏,是相互独⽴的Java进程。
-在这种模式下,Hadoop使⽤的是分布式⽂件系统,各个作业也是由JobTraker服务,来管理的独⽴进程。
在单机模式之上增加了代码调试功能,允许检查内存使⽤情况,HDFS输⼊输出, 以及其他的守护进程交互。
类似于完全分布式模式,因此,这种模式常⽤来开发测试Hadoop程序的执⾏是否正确。
-修改3个配置⽂件:core-site.xml(Hadoop集群的特性,作⽤于全部进程及客户端)、hdfs-site.xml(配置HDFS集群的⼯作属性)、mapred-site.xml(配置MapReduce集群的属性) -格式化⽂件系统1.3、全分布式集群模式(Full-Distributed Mode) -Hadoop的守护进程运⾏在⼀个集群上 -Hadoop的守护进程运⾏在由多台主机搭建的集群上,是真正的⽣产环境。
hadoop搭建伪分布式集群步骤
Hadoop是一个开源的分布式计算框架,可以处理大规模数据集的并行计算。
搭建伪分布式集群是学习Hadoop的第一步,本文将介绍搭建伪分布式集群的步骤。
步骤一:安装Java环境
Hadoop是基于Java开发的,所以首先需要安装Java环境。
可以从Oracle官网下载最新版本的JDK,并按照官方文档进行安装。
步骤二:下载Hadoop
在官方网站上下载Hadoop的稳定版本。
下载后解压缩到指定目录,我们假设解压缩后的目录为/home/hadoop/hadoop。
步骤三:配置Hadoop环境变量
打开终端,运行以下命令编辑环境变量配置文件:
```
$ sudo nano ~/.bashrc
```
在文件末尾添加如下内容:
```
export HADOOP_HOME=/home/hadoop/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
```
保存并退出文件,然后运行以下命令使环境变量生效:
```
$ source ~/.bashrc
```
步骤四:配置Hadoop核心文件
进入Hadoop的安装目录,找到conf目录下的hadoop-env.sh文件,使用文本编辑器打开该文件,并修改JAVA_HOME的值为Java的安装路径。
保存并退出文件。
步骤五:配置Hadoop的核心文件
进入Hadoop的安装目录,找到conf目录下的core-site.xml文件,使用文本编辑器打开该文件,添加以下内容:
```
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
```
保存并退出文件。
步骤六:配置Hadoop的HDFS文件系统
进入Hadoop的安装目录,找到conf目录下的hdfs-site.xml文件,使用文本编辑器打开该文件,添加以下内容:
```
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
```
保存并退出文件。
步骤七:配置Hadoop的YARN资源管理器
进入Hadoop的安装目录,找到conf目录下的yarn-site.xml文件,使用文本编辑器打开该文件,添加以下内容:
```
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-
services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value> </property>
</configuration>
```
保存并退出文件。
步骤八:格式化HDFS文件系统
运行以下命令格式化HDFS文件系统:
```
$ hdfs namenode -format
```
步骤九:启动Hadoop集群
运行以下命令启动Hadoop集群:
```
$ start-dfs.sh
$ start-yarn.sh
```
步骤十:验证Hadoop集群是否正常运行
运行以下命令查看Hadoop集群的状态:
```
$ jps
```
如果输出结果中包含NameNode、DataNode、ResourceManager、NodeManager等进程,则表示Hadoop集群已成功启动。
至此,伪分布式集群的搭建已完成。
通过以上步骤,你可以在单台机器上模拟出一个分布式的Hadoop环境,进行开发和学习。
总结:
本文介绍了使用Hadoop搭建伪分布式集群的步骤,包括安装Java 环境、下载Hadoop、配置Hadoop环境变量、配置Hadoop核心文件、配置Hadoop的HDFS文件系统、配置Hadoop的YARN资源管理器、格式化HDFS文件系统、启动Hadoop集群以及验证Hadoop集群是否正常运行。
通过这些步骤,你可以快速搭建一个本地的Hadoop环境,进行分布式计算的学习和开发。