hadoop搭建与eclipse开发环境设置
- 格式:docx
- 大小:454.92 KB
- 文档页数:19
基于Eclipse的Hadoop应用开发环境的配置/s/blog_537770820100byho.html基于Eclipse的Hadoop应用开发环境的配置配置好了Hadoop运行环境,下一步就要配置,开发环境了。
实际上开发环境很好配置,网上很多的帖子,都指向了IBM提供的Hadoop开发工具,这个工具很好用。
大家打开这个网址,很容易就能Step by step搞定,/tech/mapreducetools。
但是细心的读者不难发现,这个工具似乎是个绝版,到现在似乎还是停留在2007年3月23日呢,而且其支持的Eclipse也是3.3的,Hadoop更是0.17的。
很多人在forum上还抱怨,安装上这个工具后,报出错误:Refresh DFS Children has encountered a problem:Refreshing DFS node failed: 1。
呵呵,这个问题我也遇到了,我也很郁闷。
我心里也在骂IBM这帮官僚如此不思进取。
这两天我在装载Hadoop Core的Examples测试,由于想要多了解些Hadoop,于是就打开了Hadoop的每个子目录,在打开/hadoop-0.19.0 /contrib/意外发现了eclipse-plugin,心里不禁窃喜,不知道是不是IBM的这个工具的升级版移到这里还是其他什么原因,工具不是在这里吗?只不过与以前不同,是个jar包!我把hadoop-0.19.0-eclipse-plugin.jar,拷贝到eclipse-SDK- 3.4-win32\eclipse\plugins下面,启动eclipse,居然真的安装成功了,真的是该工具的升级版,也没有了那个错误!真的是很意外!界面是这样滴,选择Window->Open Perspective,可见到一个窗口,里面有一个小象图标:Map/Reduce,点击它,会打开一个新的Perspective。
hadoop搭建与eclipse开发环境设置――邵岩飞1.Ubuntu 安装安装ubuntu11.04 desktop系统。
如果是虚拟机的话,这个无所谓了,一般只需要配置两个分区就可以。
一个是\另一个是\HOME 文件格式就用ext4就行了。
如果是实机的话建议在分配出一个\SWAP分区。
如果嫌麻烦建议用wubi安装方式安装。
这个比较傻瓜一点。
2.Hadoop 安装hadoop下载到阿帕奇的官方网站下载就行,版本随意,不需要安装,只要解压到适当位置就行,我这里建议解压到$HOME\yourname里。
3.1 下载安装jdk1.6如果是Ubuntu10.10或以上版本是不需要装jdk的,因为这个系统内置openjdk63.2 下载解压hadoop不管是kubuntu还是ubuntu或者其他linux版本都可以通过图形化界面进行解压。
建议放到$HOME/youraccountname下并命名为hadoop.如果是刚从windows系统或者其它系统拷贝过来可能会遇到权限问题(不能写入)那么这就需要用以下命令来赋予权限。
sudo chown –R yourname:yourname [hadoop]例如我的就是:sudo chown –R dreamy:dreamy hadoop之后就要给它赋予修改权限,这就需要用到:sudo chmod +X hadoop3.3 修改系统环境配置文件切换为根用户。
●修改环境配置文件/etc/profile,加入:你的JAVA路径的说明:这里需要你找到JAVA的安装路径,如果是Ubuntu10.10或10.10以上版本,则应该在/usr/bin/java这个路径里,这个路径可能需要sudo加权限。
3.4 修改hadoop的配置文件●修改hadoop目录下的conf/hadoop-env.sh文件加入java的安装根路径:●把hadoop目录下的conf/core-site.xml文件修改成如下:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>hadoop.tmp.dir</name><value>/hadoop</value></property><property><name></name><value>hdfs://ubuntu:9000</value></property><property><name>dfs.hosts.exclude</name><value>excludes</value></property><property>●把hadoop目录下的conf/ hdfs-site.xml文件修改成如下:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>dfs.data.dir</name><value>/hadoop/data</value></property><property><name>dfs.replication</name><value>3</value></property></configuration>●把hadoop目录下的conf/ mapred-site.xml文件修改成如下:注意:别忘了hadoop.tmp.dir,.dir,dfs.data.dir参数,hadoop存放数据文件,名字空间等的目录,格式化分布式文件系统时会格式化这个目录。
eclipse hadoop开发环境配置win7下安装hadoop完成后,接下来就是eclipse hadoop开发环境配置了。
具体的操作如下:一、在eclipse下安装开发hadoop程序的插件安装这个插件很简单,haoop-0.20.2自带一个eclipse的插件,在hadoop目录下的contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar,把这个文件copy到eclipse的eclipse\plugins目录下,然后启动eclipse就算完成安装了。
这里说明一下,haoop-0.20.2自带的eclipse的插件只能安装在eclipse 3.3上才有反应,而在eclipse 3.7上运行hadoop程序是没有反应的,所以要针对eclipse 3.7重新编译插件。
另外简单的解决办法是下载第三方编译的eclipse插件,下载地址为:/p/hadoop-eclipse-plugin/downloads/list由于我用的是Hadoop-0.20.2,所以下载hadoop-0.20.3-dev-eclipse-plugin.jar.然后将hadoop-0.20.3-dev-eclipse-plugin.jar重命名为hadoop-0.20.2-eclipse-plugin.jar,把它copy到eclipse的eclipse\plugins目录下,然后启动eclipse完成安装。
安装成功之后的标志如图:1、在左边的project explorer 上头会有一个DFS locations的标志2、在windows -> preferences里面会多一个hadoop map/reduce的选项,选中这个选项,然后右边,把下载的hadoop根目录选中如果能看到以上两点说明安装成功了。
二、插件安装后,配置连接参数插件装完了,启动hadoop,然后就可以建一个hadoop连接了,就相当于eclipse里配置一个weblogic的连接。
eclipse配置hadoop-eclipse-plugin(版本hadoop2.7.3)
.
版权声明:本文为博主原创文章,未经博主允许不得转载。
1:首先下载hadoop2.7.3
2:下载Hadoop-eclipse-plugin-2.7.3.jar(注:自己百度,可以下载csdn上有下载)
3:下载eclipse-mars-2
4:eclipse中安装hadoop-eclipse-plugin-2.7.3.jar插件。
(注:自己百度,把包导入到eclipse 的安装目录的plugins下重启eclipse就可以了)
5:打开eclipse,然后点击eclipse菜单Window-->Show View-->Other 窗口,选择MapReducer Locations,如下图所示:
添加完毕后在视图区域中出现MapReduce视图,同时在视图区域右上方出现蓝色小象的添加按钮,如下图所示
6:新建Hadoop Location
点击蓝色小象新增按钮,提示输入MapReduce和HDFS Master相关信息,其中:Lacation Name:为该位置命名,能够识别该,可以随意些;
MapReduce Master:与$HADOOP_DIRCONF/mapred-site.xml配置保持一致;
HDFS Master:与$HADOOP_DIRCONF/core-site.xml配置保持一致
User Name:登录hadoop用户名,可以随意填写
7:配置完毕后,在eclipse的左侧DFS Locations出现CentOS HDFS的目录树,该目录为HDFS文件系统中的目录信息:。
Had oop安装及基于Eclipse的开发环境部署1、Had oop-1.2.1安装1.1 Hadoop安装工具1、操作系统:Win7系统2、虚拟机软件:VMware Workstation 103、Linux系统安装包:ubuntukylin-14.04-desktop-i386.iso(32位)4、JDK包:jdk-8u45-linux-i586.gz5、Hadoop-1.2.1程序安装包(非源码):/apache/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz 1.2Hadoop安装步骤(部分详细内容可参见《Hadoop安装指南》)1、Ubuntu虚拟机安装(建议安装32位Ubuntu操作系统)2、Windows与linux之间的共享文件夹设置,实现windows与linux之间的文件共享;具体设置如下图:设置完成后,可以看到一个共享文件夹,通过该文件夹可以实现windows与linux之间的文件共享;该共享文件夹默认在linux系统的/mnt/hgfs目录下。
3、ssh安装(ubuntu默认没有安装ssh,需要通过apt-get install 进行安装,这里建议暂时不要生成公钥)4、网络连接配置;网络连接配置的主要目的是保证能够使用Xshell等工具链接虚拟机进行操作。
由于采用NAT模式没有连接成功,本文建议使用自定义的虚拟网络进行连接,具体步骤及设置如下:1)本地虚拟网络IP设置;具体设置如图(可以根据自己的情况设置IP(如192.168.160.1),该IP将作为虚拟机的网关):2)虚拟机网络适配器设置;建议采用自定义虚拟网络连接,设置如下:3)虚拟机网络IP设置;主要目的是设置自定义的IP、网关等;具体设置流程如下:4)当网络连接设置完成后,使用Ubuntu:service networking restart(centOS:service network restart)命令重启虚拟机网络服务;注意,重启网络服务后,建议在本机的DOS环境下ping一下刚刚在虚拟机中设置的IP地址,如果ping不通,可能是网卡启动失败,可以使用ifconfig eth0 up命令启动网卡(eh0是网卡名称,可以在网路连接设置中查看网卡名称)。
Cygwin的安装1.先在/install.html上下载安装文件打开后双击setup.exe安装。
如下图:2. 直接点击下一步后如下图:图中有三个选项,意思一看就懂啊。
这里直选择下一步3.直接点击下一步后如下图:这里是要选择安装路径,设置在哪里都可以。
没有特殊要求。
4. 设置好路径后下一步进入下图:这是设置Cygwin安装文件的目录。
先安装的exe只是个引导它需要自己下载安装文件。
设置这个目录就是存储这些文件的。
5.设置好后下一步进入下图:这里是你网络的链接方式,第一个是直接链接,第二个是使用IE代理,第三个使用你指定的HTTP/FTP代理。
你要根据你自己的情况选择。
通常选第一个如不好使则查看你的联网是否使用了代理用了就选下面两个中的一个。
6.设置好后下一步进入下图:选择其中一个url用作下载的站点。
我选第一就行挺快的。
你的不行可以试试别的。
也可以在下面的User URL中添加url写完地址一点Add就加入到上面的url列表中了。
然后选择你自己加入的url即可。
如果自己加入可以尝试一下这个url:/pub/。
然后点击下一步进行安装文件的下载,需要点时间。
如果点击下一步后出现这个错误Internal Error: gcrypt library error 60 illegal tag。
就是上一步网络选择的问题或者选择的url不能下载。
自己可以尝试改动一下。
正常下载的话也可能出现一个警告窗口如下图:点击确定即可。
随即会进入下图。
7. 来到此图就要开始进行一些配置了。
选择一下要安装的包。
如下图:首先:选择其中的Base Default,通常这里的包都已经选择上了。
你要确保sed已选择上,这样你可以在eclipse中使用hadoop了。
如下图这样即可:其次:选择Devel Default,将其中的subversion选中第一个即可。
如下图:最后:选择Net default包,将其中的openssh及openssl选上。
windows7+eclipse+hadoop2.5.2环境配置一.hadoop集群环境配置参考我的前一篇文章(ubuntu + hadoop2.5.2分布式环境配置)但本人配置时还修改了如下内容(由于你的环境和我的可能不一致,可以在后面出现相关问题后再进行修改):a.在master节点上(ubuntu-V01)修改hdfs-site.xml加上以下内容<property><name>dfs.permissions</name><value>false</value></property>旨在取消权限检查,原因是为了解决我在windows机器上配置eclipse连接hadoop服务器时,配置map/reduce连接后报以下错误,org.apache.hadoop.security.AccessControlException: Permission denied:b.同样在master节点上(ubuntu-V01)修改hdfs-site.xml加上以下内容<property><name>dfs.web.ugi</name><value>jack,supergroup</value></property>原因是运行时,报如下错误WARN org.apache.hadoop.security.ShellBasedUnixGroupsMapping: got exception trying to get groups for user jack应该是我的windows的用户名为jack,无访问权限更多权限配置可参看官方说明文档:HDFS权限管理用户指南/docs/r1.0.4/cn/hdfs_permissions_guide.html配置修改完后重启hadoop集群:hadoop@ubuntu-V01:~/data$./sbin/stop-dfs.shhadoop@ubuntu-V01:~/data$./sbin/stop-yarn.shhadoop@ubuntu-V01:~/data$./sbin/start-dfs.shhadoop@ubuntu-V01:~/data$./sbin/start-yarn.sh二.windows基础环境准备windows7(x64),jdk,ant,eclipse,hadoop1.jdk环境配置jdk-6u26-windows-i586.exe安装后好后配置相关JAVA_HOME环境变量,并将bin目录配置到path2.eclipse环境配置eclipse-standard-luna-SR1-win32.zip解压到D:\eclipse\目录下并命名eclipse-hadoop3.ant环境配置apache-ant-1.9.4-bin.zip解压到D:\apache\目录下,配置环境变量ANT_HOME,并将bin目录配置到path4.下载hadoop-2.5.2.tar.gz5.下载hadoop-2.5.2-src.tar.gz6.下载hadoop2x-eclipse-plugin7.下载hadoop-common-2.2.0-bin分别将hadoop-2.5.2.tar.gz、hadoop-2.5.2-src.tar.gz、hadoop2x-eclipse-plugin、hadoop-common-2.2.0-bin下载解压到F:\hadoop\目录下8.修改本地hosts文件,加入如下内容:192.168.1.112 ubuntu-V01三、编译hadoop-eclipse-plugin-2.5.2.jar配置1.添加环境变量HADOOP_HOME=F:\hadoop\hadoop-2.5.2\追加环境变量path内容:%HADOOP_HOME%/bin2.修改编译包及依赖包版本信息修改F:\hadoop\hadoop2x-eclipse-plugin-master\ivy\libraries.propertieshadoop.version=2.5.2jackson.version=1.9.133.ant编译F:\hadoop\hadoop2x-eclipse-plugin-master\src\contrib\eclipse-plugin>ant jar -Dversion=2.5.2 -Declipse.home=D:\eclipse\eclipse-hadoop\eclipse -Dhadoop.home=F:\hadoop\hadoop-2.5.2编译好后hadoop-eclipse-plugin-2.5.2.jar会在F:\hadoop\hadoop2x-eclipse-plugin-master\build\contrib\eclipse-plugin目录下四、eclipse环境配置1.将编译好的hadoop-eclipse-plugin-2.5.2.jar拷贝至eclipse的plugins目录下,然后重启eclipse2.打开菜单Window--Preference--Hadoop Map/Reduce进行配置,如下图所示:3.显示Hadoop连接配置窗口:Window--Show View--Other-MapReduce Tools,如下图所示:4.配置连接Hadoop,如下图所示:查看是否连接成功,能看到如下信息,则表示连接成功:五、hadoop集群环境添加测试文件(如果已有则无需配置)a.dfs上创建input目录hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop fs -mkdir -p inputb.把hadoop目录下的README.txt拷贝到dfs新建的input里hadoop@ubuntu-V01:~/data/hadoop-2.5.2$bin/hadoop fs -copyFromLocal README.txt input六、创建一个Map/Reduce Project1.新建项目File--New--Other--Map/Reduce Project 命名为MR1,然后创建类org.apache.hadoop.examples.WordCount,从hadoop-2.5.2-src中拷贝覆盖(F:\hadoop\hadoop-2.5.2-src\hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples\WordCount.java)2.创建log4j.properties文件在src目录下创建log4j.properties文件,内容如下:log4j.rootLogger=debug,stdout,Rlog4j.appender.stdout=org.apache.log4j.ConsoleAppenderyout=org.apache.log4j.PatternLayoutyout.ConversionPattern=%5p - %m%nlog4j.appender.R=org.apache.log4j.RollingFileAppenderlog4j.appender.R.File=mapreduce_test.loglog4j.appender.R.MaxFileSize=1MBlog4j.appender.R.MaxBackupIndex=1yout=org.apache.log4j.PatternLayoutyout.ConversionPattern=%p %t %c - %m%n.codefutures=DEBUG3.解决ng.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)异常问题(由于你的环境和我的可能不一致,可以在后面出现相关问题后再进行修改)拷贝源码文件org.apache.hadoop.io.nativeio.NativeIO到项目中然后定位到570行,直接修改为return true;如下图所示:七、windows下运行环境配置(如果不生效,则需要重启机器)需要hadoop.dll,winutils.exe我是直接拷贝F:\hadoop\hadoop-common-2.2.0-bin-master\bin目录下内容覆盖F:\hadoop\hadoop-2.5.2\bin八、运行project在eclipse中点击WordCount.java,右键,点击Run As—>Run Configurations,配置运行参数,即输入和输出文件夹hdfs://ubuntu-V01:9000/user/hadoop/input hdfs://ubuntu-V01:9000/user/hadoop/output如下图所示:注意:如果output目录已经存在,则删掉或换个名字,如output01,output02 。
Win7+Eclipse+Hadoop2.6.4开发环境搭建Hadoop开发环境搭建⼀、软件准备JDK:jdk-7u80-windows-x64.exeEclipse:eclipse-jee-mars-2-win32-x86_64.zipHadoop:hadoop-2.6.4.tar.gzHadoop-Src:hadoop-2.6.4-src.tar.gzAnt:apache-ant-1.9.6-bin.zipHadoop-Common:hadoop2.6(x64)V0.2.zip (2.4以后)、(hadoop-common-2.2.0-bin-master.zip)Hadoop-eclipse-plugin:hadoop-eclipse-plugin-2.6.0.jar⼆、搭建环境1. 安装JDK执⾏“jdk-7u80-windows-x64.exe”,步骤选择默认下⼀步即可。
2. 配置JDK、Ant、Hadoop环境变量解压hadoop-2.6.4.tar.gz、apache-ant-1.9.6-bin.zip、hadoop2.6(x64)V0.2.zip、hadoop-2.6.4-src.tar.gz到本地磁盘,位置任意。
配置系统环境变量JAVA_HOME、ANT_HOME、HADOOP_HOME,并将这些环境变量的bin⼦⽬录配置到path变量中。
将hadoop2.6(x64)V0.2下的hadoop.dll和winutils.exe复制到HADOOP_HOME/bin⽬录下。
3. 配置Eclipse将hadoop-eclipse-plugin-2.6.0.jar复制到eclilpse的plugins⽬录下。
启动eclipse,并设置好workspace。
插件安装成功的话,启动之后可以看到如下内容:4. 配置hadoop打开“window”-“Preferenes”-“Hadoop Mep/Reduce”,配置到Hadoop_Home⽬录。
hadoop搭建与eclipse开发环境设置――刘刚1.Windows下eclipse开发环境配置1.1 安装开发hadoop插件将hadoop安装包hadoop\contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse的插件目录plugins下。
需要注意的是插件版本(及后面开发导入的所有jar包)与运行的hadoop一致,否则可能会出现EOFException异常。
重启eclipse,打开windows->open perspective->other->map/reduce 可以看到map/reduce开发视图。
1.2 设置连接参数打开windows->show view->other-> map/reduce Locations视图,在点击大象后弹出的对话框(General tab)进行参数的添加:参数说明如下:Location name:任意map/reduce master:与mapred-site.xml里面mapred.job.tracker设置一致。
DFS master:与core-site.xml里设置一致。
User name: 服务器上运行hadoop服务的用户名。
然后是打开“Advanced parameters”设置面板,修改相应参数。
上面的参数填写以后,也会反映到这里相应的参数:主要关注下面几个参数::与core-site.xml里设置一致。
mapred.job.tracker:与mapred-site.xml里面mapred.job.tracker设置一致。
dfs.replication:与hdfs-site.xml里面的dfs.replication一致。
hadoop.tmp.dir:与core-site.xml里hadoop.tmp.dir设置一致。
hadoop.job.ugi:并不是设置用户名与密码。
HadoopEclipse开发环境搭建This document is from my evernote, when I was still at baidu, I have a complete hadoop development/Debug environment. But at that time, I was tired of writing blogs. It costsme two day’s spare time to recovery from where I was stoped. Hope the blogs will keep on. Still cherish the time speed there, cause when doing the same thing at both differenttime and different place(company), the things are still there, but mens are no more than the same one. Talk too much, Let’s go on.在,已经搭建好了⼀个⽤于开发/测试的haoop集群,在这篇⽂章中,将介绍如何使⽤eclipse作为开发环境来进⾏程序的开发和测试。
2.) 在Eclipse的Windows->Preferences中,选择Hadoop Map/Reduce,设置好Hadoop的安装⽬录,这⾥,我直接从linux的/home/hadoop/hadoop-1.0.3拷贝过来的,点击OK按钮:3.) 新建⼀个Map/Reduce Project4.) 新建Map/Reduce Project后,会⽣成如下的两个⽬录, DFS Locations和suse的Java⼯程,在java⼯程中,⾃动加⼊对hadoop包的依赖:5.)是⽤该插件建⽴的⼯程,有专门的视图想对应:6.)在Map/Reduce Locations中,选择Edit Hadoop Location…选项,Map/Recuce Master和 DFS Master的设置:7.)在Advanced parameters中,设置Hadoop的配置选项,将dfs.data.dir设置成和linx环境中的⼀样,在Advanced parameters中,将所有与路径相关的都设置成对应的Linux路径即可:8.)将Hadoop集群相关的配置设置好后,可以在DFS location中看到Hadoop集群上的⽂件,可以进⾏添加和删除操作:9.)在⽣成的Java⼯程中,添加Map/Reduce程序,这⾥我添加了⼀个WordCount程序作为测试:10.)在Java⼯程的Run Configurations中设置WordCount的Arguments,第⼀个参数为输⼊⽂件在hdfs的路径,第⼆个参数为hdfs的输出路径:11.)设置好Word Count的RunConfiguration后,选择Run As-> Run on Hadoop:12.) 在Console中可以看到Word Count运⾏的输出⽇志信息:13.)在DFS Location中可以看到,Word Count在result⽬录下⽣成的结果:14.)进⾏Word Count程序的调试,在WordCount.java中设置好断点,点击debug按钮,就可以进⾏程序的调试了:⾄此, Hadoop+Eclipse的开发环境搭建完成。
hadoop搭建与eclipse开发环境设置1.前言简单的总结,希望帮助大家,Hadoop的版本是基于0.X的1.1 目标目的很简单,为进行研究与学习,部署一个hadoop运行环境,并搭建一个hadoop开发与测试环境。
具体目标是:✓在ubuntu系统上部署hadoop✓在windows 上能够使用eclipse连接ubuntu系统上部署的hadoop进行开发与测试1.2 软硬件要求注意:Hadoop版本和Eclipse版本请严格按照要求。
现在的hadoop最新版本是hadoop-0.20.203,我在windows上使用eclipse(包括3.6版本和3.3.2版本)连接ubuntu上的hadoop-0.20.203环境一直没有成功。
但是开发测试程序是没有问题的,不过需要注意权限问题。
如果要减少权限问题的发生,可以这样做:ubuntu上运行hadoop的用户与windows上的用户一样。
1.3环境拓扑图ubuntu 192.168.69.231ubuntu2192.168.69.233 ubuntu1192.168.69.2322.Ubuntu 安装安装ubuntu11.04 server系统,具体略。
我是先在虚拟机上安装一个操作系统,然后把hadoop也安装配置好了,再克隆二份,然后把主机名与IP修改,再进行主机之间的SSH配置。
如果仅作为hadoop的运行与开发环境,不需要安装太多的系统与网络服务,或者在需要的时候通过apt-get install进行安装。
不过SSH服务是必须的。
3.Hadoop安装以下的hadoop安装以主机ubuntu下进行安装为例。
3.1 下载安装jdk1.6安装版本是:jdk-6u26-linux-i586.bin,我把它安装拷贝到:/opt/jdk1.6.0_263.2 下载解压hadoop安装包是:hadoop-0.20.2.tar.gz。
3.3 修改系统环境配置文件切换为根用户。
修改主机文件/etc/hostname每台机器都不一样如ubuntu1就修改为ubuntu13.4 修改hadoop的配置文件切换为hadoop用户。
●修改hadoop目录下的conf/hadoop-env.sh文件加入java的安装根路径:●把hadoop目录下的conf/core-site.xml文件修改成如下:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>hadoop.tmp.dir</name><value>/hadoop</value><description>A base for other temporary directories.</description></property><property><name></name><value>hdfs://ubuntu:9000</value><description>The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation. The uri's scheme determines the config property (fs.SCHEME.impl) naming theFileSystem implementation class. The uri's authority is used to determine the host, port, etc. for a filesystem.</description></property><!—这段不要--><property><name>dfs.hosts.exclude</name><value>excludes</value></property><property>把hadoop目录下的conf/ hdfs-site.xml文件修改成如下:<?xml version="1.0"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><!-- Put site-specific property overrides in this file. --><configuration><property><name>dfs.data.dir</name><value>/hadoop/data</value><description>Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, typically on different devices. Directories that do not exist are ignored.</description></property><property><name>dfs.replication</name><value>3</value><description>Default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.</description></property></configuration>注意:别忘了hadoop.tmp.dir,.dir,dfs.data.dir参数,hadoop存放数据文件,名字空间等的目录,格式化分布式文件系统时会格式化这个目录。
这里指向了/hadoop,所以也要创建这个目录,并且用户归属也是hadoop:hadoop。
3.5 分发hadoop安装文件我使用VMWare的克隆功能,将主机ubuntu完全克隆两份:ubuntu1和ubuntu2,并修改相应的主机名和IP地址,这样就可以简单地保持hadoop环境基本配置相同。
如果是安装在实体物理机上,把在ubuntu安装的jdk,系统配置文件/etc/host,/etc/profile,hadoop安装目录拷贝到ubuntu1和ubuntu2相应的目录。
3.6 SSH配置无密码验证配置然后一直按[Enter]键,按默认的选项生成密钥对保存在.ssh/id_rsa文件中。
从ubuntu向ubuntu1和ubuntu2发起SSH连接,第一次登录时需要输入密码,以后就不需要了。
我们只需要配置从master向slaves发起SSH连接不需要密码就可以了,但这样只能在master(即在主机ubuntu)启动或关闭hadoop服务。
3.7 运行hadoop使用Hadoop用户。
首先说明,hadoop命令和参数都是大小写敏感的,该用大写时用大写,用小写时用小写,否则会执行错误。
停止hadoop守护进程是:在ubuntu1上查看运行的进程:其它命令请参考相关资料。
在windows上通过WEB查看hadoop相关信息。
访问:http://ubuntu:50030可以查看JobTracker的运行状态:访问:http://ubuntu:50070可以查看NameNode及整个分布式文件系统的状态等:3.8 运行WordCount实例WordCount是hadoop自带的实例,统计一批文本文件中各单词出现的资料,输出到指4.Windows下eclipse开发环境配置4.1 系统环境配置在windows上通过WEB查看hadoop相关信息。
4.2安装开发hadoop插件将hadoop安装包hadoop\contrib\eclipse-plugin\hadoop-0.20.2-eclipse-plugin.jar拷贝到eclipse的插件目录plugins下。
需要注意的是插件版本(及后面开发导入的所有jar包)与运行的hadoop一致,否则可能会出现EOFException异常。
重启eclipse,打开windows->openperspective->other->map/reduce 可以看到map/reduce开发视图。
4.3 设置连接参数打开windows->show view->other->map/reduce Locations视图,在点击大象后弹出的对话框(General tab)进行参数的添加:参数说明如下:Location name:任意map/reduce master:与mapred-site.xml里面mapred.job.tracker设置一致。
DFS master:与core-site.xml里设置一致。
User name: 服务器上运行hadoop服务的用户名。
然后是打开“Advanced parameters”设置面板,修改相应参数。
上面的参数填写以后,也会反映到这里相应的参数:主要关注下面几个参数::与core-site.xml里设置一致。