hadoopa安装
- 格式:pdf
- 大小:256.80 KB
- 文档页数:10
简单梳理Hadoop安装流程
今儿个咱们来简单梳理下Hadoop的安装流程,让各位在四川的兄弟姐妹也能轻松上手。
首先,你得有个Linux系统,比如说CentOS或者Ubuntu,这点很重要。
然后在系统上整个Java环境,Hadoop 是依赖Java运行的。
把JDK下载安装好后,记得配置下环境变量,就是修改`/etc/profile`文件,把Java的安装路径加进去。
接下来,你需要在系统上整个SSH服务,Hadoop集群内部的通信要用到。
安好SSH后,记得配置下无密钥登录,省得每次登录都要输密码,多麻烦。
Hadoop的安装包可以通过官方渠道下载,也可以在网上找现成的。
下载好安装包后,解压到你的安装目录。
然后就开始配置Hadoop的环境变量,跟配置Java环境变量一样,也是在
`/etc/profile`文件里加路径。
配置Hadoop的文件是重点,都在Hadoop安装目录下的`etc/hadoop`文件夹里。
有`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`这些文件需要修改。
比如`core-site.xml`里要设置HDFS的地址和端口,`hdfs-site.xml`里要设置临时目录这些。
最后,就可以开始格式化HDFS了,用`hdfs namenode-format`命令。
然后启动Hadoop,用`start-all.sh`脚本。
如果一
切配置正确,你就可以用`jps`命令看到Hadoop的各个进程在运行了。
这整个过程看似复杂,但只要你跟着步骤来,注意配置文件的路径和内容,相信你也能轻松搞定Hadoop的安装。
Hadoop集群安装详细步骤亲测有效第一步:准备硬件环境- 64位操作系统,可以是Linux或者Windows-4核或更高的CPU-8GB或更高的内存-100GB或更大的硬盘空间第二步:准备软件环境- JDK安装:Hadoop运行需要Java环境,所以我们需要先安装JDK。
- SSH配置:在主节点和从节点之间建立SSH连接是Hadoop集群正常运行的前提条件,所以我们需要在主节点上生成SSH密钥,并将公钥分发到从节点上。
第四步:配置Hadoop- core-site.xml:配置Hadoop的核心参数,包括文件系统的默认URI和临时目录等。
例如,可以将`hadoop.tmp.dir`设置为`/tmp/hadoop`。
- hdfs-site.xml:配置Hadoop分布式文件系统的参数,包括副本数量和块大小等。
例如,可以将副本数量设置为`3`。
- yarn-site.xml:配置Hadoop的资源管理系统(YARN)的参数。
例如,可以设置YARN的内存资源分配方式为容器的最大和最小内存均为1GB。
- mapred-site.xml:配置Hadoop的MapReduce框架的参数。
例如,可以设置每个任务容器的内存限制为2GB。
第五步:格式化Hadoop分布式文件系统在主节点上执行以下命令,格式化HDFS文件系统:```hadoop namenode -format```第六步:启动Hadoop集群在主节点上执行以下命令来启动Hadoop集群:```start-all.sh```此命令将启动Hadoop的各个组件,包括NameNode、DataNode、ResourceManager和NodeManager。
第七步:测试Hadoop集群可以使用`jps`命令检查Hadoop的各个进程是否正常运行,例如`NameNode`、`DataNode`、`ResourceManager`和`NodeManager`等进程都应该在运行中。
Hadoop集群安装详细步骤|Hadoop安装配置文章分类:综合技术Hadoop集群安装首先我们统一一下定义,在这里所提到的Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。
Hadoop在windows下还未经过很好的测试,所以笔者推荐大家在linux(cent os 5.X)下安装使用。
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh、rsync和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。
可以使用yum install rsync来安装rsync。
一般来说ssh是默认安装到系统中的。
Jdk1.6的安装方法这里就不多介绍了。
确保以上准备工作完了之后我们就开始安装Hadoop软件,假设我们用三台机器做Hadoop集群,分别是:192.168.1.111、192.168.1.112和192.168.1.113(下文简称111,112和113),且都使用root用户。
下面是在linux平台下安装Hadoop的过程:在所有服务器的同一路径下都进行这几步,就完成了集群Hadoop软件的安装,是不是很简单?没错安装是很简单的,下面就是比较困难的工作了。
集群配置根据Hadoop文档的描述“The Hadoop daemons are N ameNode/DataNode and JobTracker/TaskTracker.”可以看出Hadoop核心守护程序就是由NameNode/DataNode 和JobTracker/TaskTracker这几个角色构成。
Hadoop的DFS需要确立NameNode与DataNode角色,一般NameNode会部署到一台单独的服务器上而不与DataNode共同同一机器。
另外Map/Reduce服务也需要确立JobTracker和TaskTracker的角色,一般JobTracker与NameNode共用一台机器作为master,而TaskTracker与DataNode同属于slave。
hadoop安装流程简单描述英文回答:Hadoop is an open-source software framework for distributed storage and processing of large datasets. It is designed to scale from single servers to thousands of machines, each offering local computation and storage. Here is a simple description of the installation process for Hadoop.Step 1: System Requirements.Before installing Hadoop, make sure your system meets the minimum requirements. Hadoop runs on Java, so you needto have Java Development Kit (JDK) installed on your system. Additionally, you will need a Unix-based system such as Linux or macOS.Step 2: Download Hadoop.Go to the official Apache Hadoop website and download the latest stable release of Hadoop. Choose the versionthat is compatible with your system and download the binary distribution.Step 3: Configure Environment Variables.After downloading Hadoop, set the environment variables in your system. This includes setting the JAVA_HOMEvariable to the location where JDK is installed and adding the Hadoop bin directory to the PATH variable.Step 4: Configure Hadoop.Next, you need to configure Hadoop by editing the configuration files. The core-site.xml, hdfs-site.xml, and mapred-site.xml files need to be configured to specify the Hadoop cluster settings, such as the file system and job tracker.Step 5: Start Hadoop Services.Once the configuration is done, you can start the Hadoop services. This includes starting the Hadoop Distributed File System (HDFS) and the Yet Another Resource Negotiator (YARN) services using the start-dfs.sh andstart-yarn.sh scripts respectively.Step 6: Verify Installation.To verify that Hadoop is installed and running correctly, you can run some sample commands such as creating a directory in HDFS, uploading a file, and running a MapReduce job.Step 7: Additional Configurations.Depending on your specific requirements, you may need to make additional configurations such as setting up security, adding nodes to the cluster, or tuning the performance settings.That's a simple overview of the Hadoop installation process. With these steps completed, you should have abasic Hadoop setup ready for storing and processing large datasets.中文回答:Hadoop是一个用于分布式存储和处理大型数据集的开源软件框架。
hadoop集群安装配置的主要操作步骤-概述说明以及解释1.引言1.1 概述Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据集。
它提供了高度可靠性、容错性和可扩展性的特性,因此被广泛应用于大数据处理领域。
本文旨在介绍Hadoop集群安装配置的主要操作步骤。
在开始具体的操作步骤之前,我们先对Hadoop集群的概念进行简要说明。
Hadoop集群由一组互联的计算机节点组成,其中包含了主节点和多个从节点。
主节点负责调度任务并管理整个集群的资源分配,而从节点则负责实际的数据存储和计算任务执行。
这种分布式的架构使得Hadoop可以高效地处理大规模数据,并实现数据的并行计算。
为了搭建一个Hadoop集群,我们需要进行一系列的安装和配置操作。
主要的操作步骤包括以下几个方面:1. 硬件准备:在开始之前,需要确保所有的计算机节点都满足Hadoop的硬件要求,并配置好网络连接。
2. 软件安装:首先,我们需要下载Hadoop的安装包,并解压到指定的目录。
然后,我们需要安装Java开发环境,因为Hadoop是基于Java 开发的。
3. 配置主节点:在主节点上,我们需要编辑Hadoop的配置文件,包括核心配置文件、HDFS配置文件和YARN配置文件等。
这些配置文件会影响到集群的整体运行方式和资源分配策略。
4. 配置从节点:与配置主节点类似,我们也需要在每个从节点上进行相应的配置。
从节点的配置主要包括核心配置和数据节点配置。
5. 启动集群:在所有节点的配置完成后,我们可以通过启动Hadoop 集群来进行测试和验证。
启动过程中,我们需要确保各个节点之间的通信正常,并且集群的各个组件都能够正常启动和工作。
通过完成以上这些操作步骤,我们就可以成功搭建一个Hadoop集群,并开始进行大数据的处理和分析工作了。
当然,在实际应用中,还会存在更多的细节和需要注意的地方,我们需要根据具体的场景和需求进行相应的调整和扩展。
Hadoop详细安装过程一、本文思路1、安装虚拟化PC工具VMware,用于支撑Linux系统。
2、在VMware上安装Ubuntu系统。
3、安装Hadoop前的准备工作:安装JDK和SSH服务。
4、配置Hadoop。
5、为了方便开发过程,需安装eclipse。
6、运行一个简单的Hadoop程序:WordCount.java注:在win7系统上,利用虚拟工具VMware建立若干个Linux系统,每个系统为一个节点,构建Hadoop集群。
先在一个虚拟机上将所有需要配置的东西全部完成,然后再利用VMware 的克隆功能,直接生成其他虚拟机,这样做的目的是简单。
二、所需软件1、VMware:VMware Workstation,直接百度下载(在百度软件中心下载即可)。
2、Ubuntu系统:ubuntu-15.04-desktop-amd64.iso,百度网盘:/s/1qWxfxso注:使用15.04版本的Ubuntu(其他版本也可以),是64位系统。
3、jdk:jdk-8u60-linux-x64.tar.gz,网址:/technetwork/java/javase/downloads/jdk8-downloads-2133151.html注:下载64位的Linux版本的jdk。
4、Hadoop:hadoop-1.2.1-bin.tar.gz,网址:/apache/hadoop/common/hadoop-1.2.1/注:选择1.2.1版本的Hadoop。
5、eclipse:eclipse-java-mars-1-linux-gtk-x86_64.tar.gz,网址:/downloads/?osType=linux注:要选择Linux版本的,64位,如下:6、hadoop-eclipse-plugin-1.2.1.jar,这是eclipse的一个插件,用于Hadoop的开发,直接百度下载即可。
三、安装过程1、安装VMware。
hadoop安装以及配置启动命令本次安装使⽤的Hadoop⽂件是badou学院的Hadoop1.2.1.tar.gz,以下步骤都是在此版本上进⾏。
1、安装,通过下载tar.gz⽂件安装到指定⽬录2、安装好后需要配置Hadoop集群配置信息: 在hadoop的conf路径中的masters中添加master(集群机器主的hostname)在slaves中添加集群的slave的hostname名称名称对应的是各⾃机器的hostname这样通过hosts⽂件中配置的域名地址映射可以直接找到对应的机器 a、core-site.xml 在xml⽂件中添加<property><name>hadoop.tmp.dir</name><value>/usr/local/src/hadoop.1.2.1/tmp</value></property> <property><name></name><value>hdfs://192.168.79.10:9000</value></property> c、hdfs-site.xml 在⽂件中添加<property><name>dfs.replication</name><value>3</value></property><!-- 复制节点数 --> d、hadoop-env.xml 在⽂件中添加export JAVA_HOME=/usr/local/src/jdk1.6.0_45 步骤2配置好后将当前hadoop⽂件夹复制到集群中其他机器上,只需要在对应机器上修改其对应的ip、port、jdk路径等信息即可搭建集群3、配置好Hadoop环境后需要测试环境是否可⽤: a、⾸先进⼊Hadoop的安装⽬录,进⼊bin⽬录下,先将Hadoop环境初始化,命令:./hadoop namenode -format b、初始化之后启动Hadoop,命令:./start_all.sh c、查看Hadoop根⽬录下的⽂件,命令:./hadoop fs -ls/ d、上传⽂件,命令:./hadoop fs -put ⽂件路径 e、查看⽂件内容,命令:./hadoopo fs -cat hadoop⽂件地址注意:在安装Hadoop环境时先安装好机器集群,使得⾄少3台以上(含3台)机器之间可以免密互相登录(可以查看上⼀篇的linux的ssh免密登录)执⾏Python⽂件时的部分配置/usr/local/src/hadoop-1.2.1/bin/hadoop/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar。
简述hadoop安装步骤简述hadoop安装步骤安装步骤:1、安装虚拟机系统,并进⾏准备⼯作(可安装- ⼀个然后克隆)2.修改各个虚拟机的hostname和host3.创建⽤户组和⽤户4、配置虚拟机⽹络,使虚拟机系统之间以及和host主机之间可以通过相互ping通。
5.安装jdk和配置环境变量,检查是否配置成功6、配置ssh,实现节点间的⽆密码登录ssh node1/2指令验证时候成功7、master 配置hadoop,并将hadoop⽂件传输到node节点8、配置环境变量,并启动hadoop, 检查是否安装成功,执⾏wordcount检查是否成功。
⼆.HDFS作⽤是什么Hadoop分布式⽂件系统(HDFS)是指被设计成适合运⾏在通⽤硬件(commodity hardware)上的分布式⽂件系统(Distributed File System)。
它和现有的分布式⽂件系统有很多共同点。
但同时,它和其他的分布式⽂件系统的区别也是很明显的。
HDFS是⼀个⾼度容错性的系统,适合部署在廉价的机器上。
HDFS能提供⾼吞吐量的数据访问,⾮常适合⼤规模数据集上的应⽤。
HDFS放宽了⼀部分POSIX约束,来实现流式读取⽂件系统数据的⽬的。
HDFS在最开始是作为Apache Nutch搜索引擎项⽬的基础架构⽽开发的。
HDFS是Apache Hadoop Core项⽬的⼀部分。
HDFS有着⾼容错性(fault-tolerant)的特点,并且设计⽤来部署在低廉的(low-cost)硬件上。
⽽且它提供⾼吞吐量(high throughput)来访问应⽤程序的数据,适合那些有着超⼤数据集(large data set)的应⽤程序。
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)⽂件系统中的数据。
三.常⽤的Hadoop FS Shell命令有哪些及其作⽤1.调⽤Hadoop的⽂件系统Shell(FileSystem Shell)的命令格式:语法:hadoop fs <args>:前提是位置位于hadoop/bin下,其中fs是参数,表⽰FS Shell,<args>是fs的⼦命令2.使⽤FS Shell命令⾏管理⽂件:mkdir -创建⽬录语法:hadoop fs -mkdir <paths>例⼦:hadoop fs -mkdir /user:在HDFS中创建"/user"⽬录hadoop fs -mkdir /user/hadoop:在HDFS中创建"/user/hadoop"⽬录hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2:在HDFS中同时创建"/user/hadoop/dir1"和"/user/hadoop/dir2",⽬录ls -查看列表⽂件语法:hadoop fs -ls <args>如果是⽂件,则按照如下格式返回⽂件信息:⽂件名<副本数> ⽂件⼤⼩修改⽇期修改时间权限⽤户ID 组ID如果是⽬录,则返回它直接⼦⽂件的⼀个列表cat -查看⽂件语法:hadoop fs -cat URI <URI...>:输出路径指定⽂件的内容例⼦:hadoop fs -cat /input2/file1.txt /input2/file2.txt:在HDFS中查看input2⽬录下的file1.txt和file2.txt的⽂件内容put -从本地⽂件系统中复制⼀个或多个⽂件到HDFS(外部命令)语法:hadoop fs -put <localsrc>...<dst>其中localsrc只能是本地⽂件,dst只能是HDFS⽂件,且不受fs.defaultFS属性影响。
hadoop安装步骤1.准备Linux环境1.0先将虚拟机的⽹络模式选为NAT1.1修改主机名 hostnamectl set-hostname server11.2修改IP 修改配置⽂件⽅式(修改的是⽹卡信息 ip a 查看⽹卡),第⼀次启动时没有ip的,需要将⽹卡配置之中 ONBOOT=yes, 然后重启⽹络vim /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE="eth0"BOOTPROTO="static"###HWADDR="00:0C:29:3C:BF:E7"IPV6INIT="yes"NM_CONTROLLED="yes"ONBOOT="yes"TYPE="Ethernet"UUID="ce22eeca-ecde-4536-8cc2-ef0dc36d4a8c"IPADDR="192.168.1.101"###NETMASK="255.255.255.0"###GATEWAY="192.168.1.1"###1.3修改主机名和IP的映射关系(每台机器都要有)192.168.33.101 server1192.168.33.102 server2192.168.33.103 server31.4关闭防⽕墙#查看防⽕墙状态service iptables status#关闭防⽕墙service iptables stop#查看防⽕墙开机启动状态chkconfig iptables --list#关闭防⽕墙开机启动chkconfig iptables off1.5 关闭linux服务器的图形界⾯:vi /etc/inittab1.6重启Linuxreboot2.安装JDK#创建⽂件夹mkdir /home/hadoop/app#解压tar -zxvf jdk-7u55-linux-i586.tar.gz -C /home/hadoop/app2.3将java添加到环境变量中(如果在 .bashrc 之中配置了java环境变量,hadoop 是不需要指定 JAVA_HOME,如果在 /etc/profile 需要指定,因为 ssh 默认不会加载 /et/profile) vim ~/.bashrc#在⽂件最后添加export JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585export PATH=$PATH:$JAVA_HOME/bin#刷新配置source ~/.bashrc3.安装hadoop2.4.1(要保证以下⽂件都有读写权限)先上传hadoop的安装包到服务器上去/home/hadoop/分布式需要修改5个配置⽂件3.1配置hadoopvim hadoop-env.shexport JAVA_HOME=/home/hadoop/app/jdk-7u_65-i585第⼆个:core-site.xml<!-- 指定HADOOP所使⽤的⽂件系统schema(URI),HDFS的⽼⼤(NameNode)的地址 --><property><name>fs.defaultFS</name><value>hdfs://server1:9000</value><!--hadoop 的默认⽤户--><property><name>er</name><value>master</value></property><!--datanode.data.dir 存储⽂件⽬录, .dir 元数据,namenode.edits.dir ⽇志⽬录三者都依赖于此⽬录--> <property><name>hadoop.tmp.dir</name><value>/opt/modules/hadoop-2.7.0/data/tmp</value></property>第三个:hdfs-site.xml<!--其他⽤户使⽤hdfs 操作⽂件,是否进⾏验证!--><property><name>dfs.permissions</name><value>false</value></property>第四个:mapred-site.xml (mv mapred-site.xml.template mapred-site.xml)<property><name></name><value>yarn</value></property><!--⽇志页⾯的显⽰ ip:port--><property><name>mapreduce.jobhistory.address</name><value>sserver1:10020</value></property><!--运⾏ yarn 任务跳转的页⾯--><property><name>mapreduce.jobhistory.webapp.address</name><value>server1:19888</value></property>第五个:yarn-site.xml<property><name>yarn.resourcemanager.hostname</name><value>server1</value></property><!-- reducer获取数据的⽅式,⼀种辅助 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!--开启⽇志聚集--><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!--⽇志存放的时间(s)--><property><name>yarn.log-aggregation.retain-seconds</name><value>100000</value></property>第六个 salves(代表着 DataNode个数, 在sbin/slaves 之中 ssh 遍历连接)server1server2server33.2将hadoop添加到环境变量vim /etc/proflieexport JAVA_HOME=/usr/java/jdk1.7.0_65export HADOOP_HOME=/master/hadoop-2.4.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbinsource /etc/profile3.3 将 app ⽂件夹配置到其他的节点之上(节点信息与master配置信息是⼀样的)scp -r app/ hdp-node-01:/home/slave3.4 格式化namenode(是对namenode进⾏初始化)hdfs namenode -format (hadoop namenode -format)3.5启动hadoop先启动HDFSsbin/start-dfs.shsbin/start-yarn.sh3.6验证是否启动成功使⽤jps命令验证27408 NameNode28218 Jps27643 SecondaryNameNode28066 NodeManager27803 ResourceManager27512 DataNodehttp://192.168.1.101:50070 (HDFS管理界⾯)http://192.168.1.101:8088 (MR管理界⾯)4.配置ssh免登陆#⽣成ssh免登陆密钥#进⼊到我的home⽬录cd ~ssh-keygen -t rsa #四个回车#执⾏完这个命令后,会⽣成两个⽂件id_rsa(私钥)、id_rsa.pub(公钥)# master ,authorized_keys ⽂件(新⽣成)ssh-copy-id -i ~/.ssh/id_rsa.pub localhost#slave, authorized_keys ⽂件(新⽣成),此处是在 /etc/hosts 写⼊的(集群是相同的⽤户名) ssh-copy-id -i ~/.ssh/id_rsa.pub server15,注:更改⽂件夹权限更改⽂件夹权限# 切换超级权限su# 当前⽂件夹所有的⽤户与组chown -R hadoop:hadoop *。
简单梳理hadoop安装流程Hadoop is an open-source software framework used for storing and processing large datasets on clusters of commodity hardware. Hadoop has gained popularity due to its ability to handle massive amounts of data in a distributed computing environment.Hadoop的一个重要特点是可以在廉价硬件上进行大规模数据的存储和处理,因此广受欢迎。
Before you start installing Hadoop, it is essential to check that your system meets the requirements. You will need a Linux system, as Hadoop is primarily designed to run on Unix-based operating systems. Additionally, you should have Java installed on your system since Hadoop is written in Java.在安装Hadoop之前,需要确保系统符合要求,首先需要一台Linux系统,因为Hadoop主要设计用于运行在基于Unix的操作系统上。
此外,系统还需要安装Java,因为Hadoop是用Java编写的。
The installation process of Hadoop can be quite complex, as it involves setting up various configurations and dependencies. However, there are several resources available online that can guideyou through the installation process step by step. It is crucial to follow these instructions carefully to ensure a successful installation. Hadoop的安装过程可能会相当复杂,因为涉及设置各种配置和依赖关系,但是网上有许多资源可以逐步引导您完成安装过程。
DATAGURU
专业数据分析社区
辅课之Hadoop
集群安装
本课内容
Hadoop集群规划
样板机安装(VirtualBox) Hadoop集群安装和配置
Hadoop源码编译
Hadoop集群规划
NameNode
–Hadoop1(192.168.1.171 4G Memory, 30GHD) DataNode
–Hadoop1(192.168.1.171 4G Memory, 30GHD)–Hadoop2(192.168.1.172 4G Memory, 30GHD)–Hadoop3(192.168.1.173 4G Memory, 30GHD) 客户端
–wyy(192.168.1.170,物理机)
软件版本
–Java 7UP21
–Hadoop2.2.0
–集群布置前考虑到以后要使用Hbase、Spark等
CentOS安装(注意点java、开发组件、NTP校对)
Ip地址设置、服务设置(开启ssh、关闭防火墙和其他无用服务)、切换文本启动 修改Selinux(/etc/sysconfig/selinux)
修改文件句柄数(/etc/security/limits.conf) //** HBase使用–hadoop - nofile 32768
–hadoop soft/hard nproc 32000
修改登录配置文件(/etc/pam.d/login )
–session required pam_limits.so
sshd_config配置(/etc/ssh/sshd_config)
/etc/hosts配置(/etc/hosts)
增加hadoop组和hadoop用户
–增加组 groupadd -g 1000 hadoop
–增加用户 useradd -u 2000 -g hadoop hadoop
–增加安装目录 mkdir -p /app/hadoop
Java安装
scala安装
环境变量
–export JAVA_HOME=/usr/java/jdk1.7.0_21
–export JRE_HOME=/usr/java/jdk1.7.0_21/jre
–export SCALA_HOME=/app/scala2104
–export HADOOP_COMMON_HOME=/app/hadoop/hadoop220
–export HADOOP_CONF_DIR=/app/hadoop/hadoop220/etc/hadoop
–export YARN_CONF_DIR=/app/hadoop/hadoop220/etc/hadoop
–export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
–export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${SCALA_HOME}/bin:${HADOOP_ COMMON_HOME}/bin:${HADOOP_COMMON_HOME}/sbin:$PATH
hadoop文件部署
–配置slaves
–配置core-site.xml
–配置hdfs-site.xml
–配置yarn-site.xml
–配置mapred-site.xml
–配置hadoop-env.sh
hadoop集群安装
样板虚拟机复制
–/etc/udev/rules.d/70-persistent-net.rules
–/etc/sysconfig/network
–/etc/sysconfig/network-scripts/ifcfg-eth0
ssh无密码登录设置
–用ssh-keygen -t rsa生成公钥
–用ssh 机器名 cat /home/hadoop/.ssh/id_rsa.pub>>authorized_keys 合成公钥–修改authorized_keys文件属性为600,并发放给各节点
–用ssh 机器名 date 验证
Hadoop集群启动
–格式化hadoop NN
–启动HDFS和YARN
–上传文件并测试
–UI监控
–客户端验证
hadoop源码编译
编译工具安装
–yum -y install lzo-devel zlib-devel gcc autoconf automake libtool –Ant 1.9.2
–Maven 3.0.5
–ProtocolBuffer 2.5.0(编译安装)
–findbugs 2.0.2
–CMake 2.8.6(编译安装)
打补丁
编译
–mvn clean package -DskipTests -Pdist,native,docs -Dtar
部署文件的位置在hadoop-dist/target/hadoop-2.2.0.tar.gz
文件共享
虚拟机样板文件和编译工具共享
–/s/1dDmqK4h#dir/path=%2Fdeploy
–虚拟机样板文件 hadoop1.ova
–编译工具文件 hadoop_compile.tar.gz
–hadoop配置文件和补丁文件 hadoop_conf.tar.gz
–编译过的hadoop部署文件 hadoop-2.2.0.tar.gz
Cloudera
–Cloudera QuickStart VM
–/content/support/en/downloads/download-components/d ownload-products.html?productID=F6mO278Rvo
Thanks
FAQ时间
DATAGURU专业数据分析社区。