当前位置：文档之家› Hadoop试题库完整

Hadoop试题库完整

1. 以下哪一项不属于Hadoop可以运行的模式___C___。

A. 单机（本地）模式

B. 伪分布式模式

C. 互联模式

D. 分布式模式

2. Hadoop的作者是下面哪一位__B____。

A. Martin Fowler

B. Doug cutting

C. Kent Beck

D. Grace Hopper

3. 下列哪个程序通常与NameNode 在同一个节点启动__D___。

A. TaskTracker

B. DataNode

C. SecondaryNameNode

D. Jobtracker

4. HDFS 默认Block Size的大小是___B___。

A.32MB

B.64MB

C.128MB

D.256M

5. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPU

B. 网络

C. 磁盘IO

D. 内存

6. 下列关于MapReduce说法不正确的是_____C_。

A. MapReduce是一种计算框架

B. MapReduce来源于google的学术论文

C. MapReduce程序只能用java语言编写

D. MapReduce隐藏了并行计算的细节，方便使用

8. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是__D____。

A．一次写入，少次读

B．多次写入，少次读

C．多次写入，多次读

D．一次写入，多次读

9. HBase依靠__A____存储底层数据。

A. HDFS

B. Hadoop

C. Memory

D. MapReduce

10. HBase依赖___D___提供强大的计算能力。

A. Zookeeper

B. Chubby

C. RPC

D. MapReduce

11. HBase依赖___A___提供消息通信机制

A. Zookeeper

B. Chubby

C. RPC

D. Socket

12. 下面与HDFS类似的框架是___C____？

A. NTFS

B. FAT32

C. GFS

D. EXT3

13. 关于SecondaryNameNode 下面哪项是正确的___C___。

A. 它是NameNode 的热备

B. 它对内存没有要求

C. 它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间

D. SecondaryNameNode 应与NameNode 部署到一个节点

14. 大数据的特点不包括下面哪一项___D___。

A. 巨大的数据量

B. 多结构化数据

C. 增长速度快

D. 价值密度高

HBase测试题

1. HBase来源于哪一项？C

A The Google File System

B MapReduce

C BigTable

D Chubby

2. 下面对HBase的描述哪些是正确的？B、C、D

A 不是开源的

B 是面向列的

C 是分布式的

D 是一种NoSQL数据库

3. HBase依靠（）存储底层数据A

A HDFS

B Hadoop

C Memory

D MapReduce

4. HBase依赖（）提供消息通信机制A

A Zookeeper

B Chubby

C RPC

D Socket

5. HBase依赖（）提供强大的计算能力D

A Zookeeper

B Chubby

C RPC

D MapReduce

6. MapReduce与HBase的关系，哪些描述是正确的？B、C

A 两者不可或缺，MapReduce是HBase可以正常运行的保证

B 两者不是强关联关系，没有MapReduce，HBase可以正常运行

C MapReduce可以直接访问HBase

D 它们之间没有任何关系

7. 下面哪些选项正确描述了HBase的特性？A、B、C、D

A 高可靠性

B 高性能

C 面向列

D可伸缩

8. 下面与Zookeeper类似的框架是？D

A Protobuf

B Java

C Kafka

D Chubby

9. 下面与HDFS类似的框架是？C

A NTFS

B FAT32

C GFS

D EXT3

10. 下面哪些概念是HBase框架中使用的？A、C

A HDFS

B GridFS

C Zookeeper

D EXT3

第二部分：HBase核心知识点

11. LSM含义是？A

A 日志结构合并树

B 二叉树

C 平衡二叉树

D 基于日志结构的合并树

12. 下面对LSM结构描述正确的是？A、C

A 顺序存储

B 直接写硬盘

C 需要将数据Flush到磁盘

D 是一种搜索平衡树

13. LSM更能保证哪种操作的性能？B

A 读

B 写

C 随机读

D 合并

14. LSM的读操作和写操作是独立的？A

A 是。

B 否。

C LSM并不区分读和写

D LSM中读写是同一种操作

15. LSM结构的数据首先存储在（）。B

A 硬盘上

B 内存中

C 磁盘阵列中

D 闪存中

16 HFile数据格式中的Data字段用于（）。A

A 存储实际的KeyValue数据

B 存储数据的起点

C 指定字段的长度

D 存储数据块的起点

17 HFile数据格式中的MetaIndex字段用于（）。D

A Meta块的长度

B Meta块的结束点

C Meta块数据内容

D Meta块的起始点

18 HFile数据格式中的Magic字段用于（）。A

A 存储随机数，防止数据损坏

B 存储数据的起点

C 存储数据块的起点

D 指定字段的长度

19 HFile数据格式中的KeyValue数据格式，下列选项描述正确的是（）。A、D

A 是byte[]数组

B 没有固定的结构

C 数据的大小是定长的

D 有固定的结构

20 HFile数据格式中的KeyValue数据格式中Value部分是（）。C

A 拥有复杂结构的字符串

B 字符串

C 二进制数据

D 压缩数据

第三部分：HBase高级应用介绍

31 HBase中的批量加载底层使用（）实现。A

A MapReduce

B Hive

C Coprocessor

D Bloom Filter

32. HBase性能优化包含下面的哪些选项？A、B、C、D

A 读优化

B 写优化

C 配置优化

33. Rowkey设计的原则，下列哪些选项的描述是正确的？A、B、C

A 尽量保证越短越好

B 可以使用汉字

C 可以使用字符串

D 本身是无序的

34. HBase构建二级索引的实现方式有哪些？A、B

A MapReduce

B Coprocessor

C Bloom Filter

D Filter

35. 关于HBase二级索引的描述，哪些是正确的？A、B

A 核心是倒排表

B 二级索引概念是对应Rowkey这个“一级”索引

C 二级索引使用平衡二叉树

D 二级索引使用LSM结构

36. 下列关于Bloom Filter的描述正确的是？A、C

A 是一个很长的二进制向量和一系列随机映射函数

C 有一定的误算率

D 可以在Bloom Filter中删除元素

第四部分：HBase安装、部署、启动

37. HBase官方版本可以安装在什么操作系统上？A、B、C

A CentOS

B Ubuntu

C RedHat

D Windows

38. HBase虚拟分布式模式需要（）个节点？A

A 1

B 2

C 3

D 最少3个

39. HBase分布式模式最好需要（）个节点？C

A 1

B 2

C 3

D 最少

关于hadoop的选择题

1、Doug Cutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是

A．Hadoop

B．Nutch

C．Lucene

D．Solr

答案：D

2、配置Hadoop时，JAVA_HOME包含在哪一个配置文件中

A．hadoop-default.xml

B．hadoop-env.sh

C．hadoop-site.xml

D．configuration.xsl

答案：B

知识点：hadoop配置

3、Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括A．conf-site.xml

B．mapred-site.xml

C．core-site.xml

D．hdfs-site.xml

答案：A

知识点：hadoop配置

4、HDFS默认的当前工作目录是/user/$USER，https://www.doczj.com/doc/ff9428136.html,的值需要在哪个配置文件内说明

A. mapred-site.xml

B. core-site.xml

C. hdfs-site.xml

D. 以上均不是

答案：B

知识点：hadoop配置

5、关于Hadoop单机模式和伪分布式模式的说法，正确的是

A．两者都起守护进程，且守护进程运行在一台机器上

B．单机模式不使用HDFS，但加载守护进程

C．两者都不与守护进程交互，避免复杂性

D．后者比前者增加了HDFS输入输出以及可检查内存使用情况

答案：D

知识点：hadoop配置

6、下列关于Hadoop API的说法错误的是

A．Hadoop的文件API不是通用的，只用于HDFS文件系统B．Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的C．FileStatus对象存储文件和目录的元数据D．FSDataInputStream是java.io.DataInputStream的子类

答案：A

//HDFS

7、HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件：A．日志

B．命名空间镜像

C．两者都是

答案：C

知识点：

8、HDFS的namenode保存了一个文件包括哪些数据块，分布在哪些数据节点上，这些信息也存储在硬盘上。

A．正确

B．错误

答案：B

知识点：在系统启动的时候从数据节点收集而成的

9、Secondary namenode就是namenode出现问题时的备用节点

A．正确

B．错误

答案：B

知识点：它和元数据节点负责不同的事情。其主要功能就是周期性将元数据节点的命名空间镜像文件和修改日志合并，以防日志文件过大。合并过后的命名空间镜像文件也在Secondary namenode保存了一份，以防namenode失败的时候，可以恢复。

10、出现在datanode的VERSION文件格式中但不出现在namenode的VERSION文件格式中的是

A. namespaceID

B. storageID

C. storageType

D. layoutVersion

答案：B

知识点：其他三项是公有的。layoutVersion是一个负整数，保存了HDFS的持续化在硬盘上的数据结构的格式版本号；namespaceID是文件系统的唯一标识符，是在文件系统初次格式化时生成的；storageType表示此文件夹中保存的是数据节点的类型

11、Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，

返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块

A．Client

B．Namenode

C．Datanode

D．Secondary namenode

答案：A

知识点：HDFS文件写入

12、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是

A．一次写入，少次读写

B．多次写入，少次读写

C．一次写入，多次读写

D．多次写入，多次读写

答案：C

知识点：HDFS特性

13、HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括

A．利用SequenceFile、MapFile、Har等方式归档小文件

B．多Master设计

C．Block大小适当调小

D．调大namenode内存或将文件系统元数据存到硬盘里

答案：D

知识点：HDFS特性

14、关于HDFS的文件写入，正确的是

A．支持多用户对同一文件的写操作

B．用户可以在文件任意位置进行修改

C．默认将文件块复制成三份存放

D．复制的文件块默认都存在同一机架上

答案：C

知识点：在HDFS的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加操作。默认三份文件块两块在同一机架上，另一份存放在其他机架上。

15、Hadoop fs中的-get和-put命令操作对象是

A．文件

B．目录

C．两者都是

答案：C

知识点：HDFS命令

16、Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是A．安全模式目的是在系统启动时检查各个DataNode上数据块的有效性B．根据策略对数据块进行必要的复制或删除

C．当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式D．文件系统允许有修改

答案：D

知识点：HDFS安全模式

//MapReduce

17、MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是

A．实现Writable接口的类是值

B．实现WritableComparable接口的类可以是值或键

C．Hadoop的基本类型Text并不实现WritableComparable接口D．键和值的数据类型可以超出Hadoop自身支持的基本类型

答案：C

18、以下四个Hadoop预定义的Mapper实现类的描述错误的是A．IdentityMapper实现Mapper，将输入直接映射到输出B．InverseMapper实现Mapper，反转键/值对C．RegexMapper实现Mapper，为每个常

规表达式的匹配项生成一个(match, 1)对

D．TokenCountMapper实现Mapper，当输入的值为分词时，生成(taken, 1)对

答案：B

知识点：InverseMapper实现Mapper

19、下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是

A．FSDataInputStream扩展了DataInputStream以支持随机读

B．为实现细粒度并行，输入分片(Input Split)应该越小越好

C．一台机器可能被指派从输入文件的任意位置开始处理一个分片

D．输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割

答案：B

知识点：每个分片不能太小，否则启动与停止各个分片处理所需的开销将占很大一部分执行时间

20、针对每行数据内容为”Timestamp Url”的数据文件，在用JobConf对象conf 设置conf.setInputFormat(WhichInputFormat.class)来读取这个文件时，WhichInputFormat应该为以下的

A．TextInputFormat

B．KeyValueTextInputFormat

Hadoop大数据平台架构与实践--基础篇

Hadoop大数据平台架构与实践--基础篇大数据时代已经到来，越来越多的行业面临着大量数据需要存储以及分析的挑战。Hadoop，作为一个开源的分布式并行处理平台，以其高扩展、高效率、高可靠等优点，得到越来越广泛的应用。本课旨在培养理解Hadoop的架构设计以及掌握Hadoop的运用能力。导师简介 Kit_Ren，博士，某高校副教授，实战经验丰富，曾担任过大型互联网公司的技术顾问，目前与几位志同道合的好友共同创业，开发大数据平台。课程须知本课程需要童鞋们提前掌握Linux的操作以及Java开发的相关知识。对相关内容不熟悉的童鞋，可以先去《Linux达人养成计划Ⅰ》以及《Java入门第一季》进行修炼～～你能学到什么？ 1、Google的大数据技术 2、Hadoop的架构设计 3、Hadoop的使用 4、Hadoop的配置与管理大纲一览第1章初识Hadoop 本章讲述课程大纲，授课内容，授课目标、预备知识等等，介绍Hadoop的前世今生，功能与优势第2章 Hadoop安装本章通过案例的方式，介绍Hadoop的安装过程，以及如何管理和配置Hadoop 第3章 Hadoop的核心-HDFS简介本章重点讲解Hadoop的组成部分HDFS的体系结构、读写流程，系统特点和HDFS

的使用。第4章 Hadoop的核心-MapReduce原理与实现本章介绍MapReduce的原理，MapReduce的运行流程，最后介绍一个经典的示例WordCount 第5章开发Hadoop应用程序本章介绍在Hadoop下开发应用程序，涉及多个典型应用，包括数据去重，数据排序和字符串查找。课程地址：https://www.doczj.com/doc/ff9428136.html,/view/391

hadoop基本操作指令

Hadoop基本操作指令假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop，默认认为Hadoop环境已经由运维人员配置好直接可以使用启动与关闭启动Hadoop 1. 进入HADOOP_HOME目录。 2. 执行sh bin/start-all.sh 关闭Hadoop 1. 进入HADOOP_HOME目录。 2. 执行sh bin/stop-all.sh 文件操作 Hadoop使用的是HDFS，能够实现的功能和我们使用的磁盘系统类似。并且支持通配符，如*。查看文件列表查看hdfs中/user/admin/aaron目录下的文件。 1. 进入HADOOP_HOME目录。 2. 执行sh bin/hadoop fs -ls /user/admin/aaron 这样，我们就找到了hdfs中/user/admin/aaron目录下的文件了。我们也可以列出hdfs中/user/admin/aaron目录下的所有文件（包括子目录下的文件）。 1. 进入HADOOP_HOME目录。 2. 执行sh bin/hadoop fs -lsr /user/admin/aaron 创建文件目录查看hdfs中/user/admin/aaron目录下再新建一个叫做newDir的新目录。 1. 进入HADOOP_HOME目录。 2. 执行sh bin/hadoop fs -mkdir /user/admin/aaron/newDir 删除文件删除hdfs中/user/admin/aaron目录下一个名叫needDelete的文件 1. 进入HADOOP_HOME目录。 2. 执行sh bin/hadoop fs -rm /user/admin/aaron/needDelete 删除hdfs中/user/admin/aaron目录以及该目录下的所有文件

hadoop基本命令_建表-删除-导数据

HADOOP表操作 1、hadoop简单说明 hadoop 数据库中的数据是以文件方式存存储。一个数据表即是一个数据文件。hadoop目前仅在LINUX 的环境下面运行。使用hadoop数据库的语法即hive语法。（可百度hive语法学习）通过s_crt连接到主机。使用SCRT连接到主机，输入hive命令，进行hadoop数据库操作。 2、使用hive 进行HADOOP数据库操作

3、hadoop数据库几个基本命令 show datebases; 查看数据库内容; 注意：hadoop用的hive语法用“;”结束，代表一个命令输入完成。 usezb_dim; show tables;

4、在hadoop数据库上面建表； a1: 了解hadoop的数据类型 int 整型; bigint 整型，与int 的区别是长度在于int; int，bigint 相当于oralce的number型，但是不带小数点。 doubble 相当于oracle的numbe型,可带小数点； string 相当于oralce的varchar2(),但是不用带长度； a2: 建表，由于hadoop的数据是以文件有形式存放，所以需要指定分隔符。 create table zb_dim.dim_bi_test_yu3(id bigint,test1 string,test2 string)

row format delimited fields terminated by '\t' stored as textfile; --这里指定'\t'为分隔符 a2.1 查看建表结构: describe A2.2 往表里面插入数据。由于hadoop的数据是以文件存在，所以插入数据要先生成一个数据文件，然后使用SFTP将数据文件导入表中。

Hadoop大数据平台介绍

Hadoop是什么 Apache Hadoop is an open source software framework for storage and large scale processing of data-sets on clusters of commodity hardware

Hadoop名字的由来 Hadoop was created by Doug Cutting and Mike Cafarella in 2005 Named the project after son's toy elephant

从移动数据到移动算法

Hadoop的核心设计理念?可扩展性 ?可靠性

相对于传统的BI 架构转变数据仓库电子表格视觉化工具数据挖掘集成开发工具数据集市企业应用工具传统文件日志社交& 网络遗留系统结构化非结构化音视频数据应用非关系型数据库内存数据库NO SQL 应用 Nod e Nod e Nod e Hadoop * Web Apps MashUps 导出/导入INSIGHTS 消费Create Map 存储/计算实时数据处理通道（Spark,Storm)数据交换平台数据存储计算平台数据访问层Kafka Flume Goldengat e Shareplex ..传感器传感器

hadoop 的适用场景小数据+ 小计算量OLTP 业务系统：ERP/CRM/EDA 大数据+ 小计算量如全文检索，传统的ETL 小数据+大计算量D a t a Compute 数据计算实时性

Hadoop 学习笔记

Hadoop 在Hadoop上运行MapReduce命令实验jar：WordCount.jar 运行代码：root/……/hadoop/bin/hadoop jar jar包名称使用的包名称input(输入地址) output(输出地址) 生成测试文件：echo -e "aa\tbb \tcc\nbb\tcc\tdd" > ceshi.txt 输入地址：/data2/u_lx_data/qiandongjun/eclipse/crjworkspace/input 输出地址：/data2/u_lx_data/qiandongjun/eclipse/crjworkspace/output 将测试文件转入输入文件夹：Hadoop fs -put ceshi.txt /data2/u_lx_data/qiandongjun/eclipse/crjworkspace/input/ceshi.txt 运行如下代码：hadoop jar /data2/u_lx_data/qiandongjun/eclipse/crjworkspace/WordCount.jar WordCount /data2/u_lx_data/qiandongjun/eclipse/crjworkspace/input/ceshi.txt /data2/u_lx_data/qiandongjun/eclipse/crjworkspace/output Hadoop架构 1、HDFS架构 2、MapReduce架构 HDFS架构（采用了Master/Slave 架构） 1、Client --- 文件系统接口，给用户调用 2、NameNode --- 管理HDFS的目录树和相关的的文件元数据信息以及监控DataNode的状态。信息以“fsimage”及“editlog”两个文件形势存放 3、DataNode --- 负责实际的数据存储，并将数据定期汇报给NameNode。每个节点上都安装一个DataNode 4、Secondary NameNode --- 定期合并fsimage和edits日志，并传输给NameNode （存储基本单位为block） MapReduce架构（采用了Master/Slave 架构） 1、Client --- 提交MapReduce 程序并可查看作业运行状态 2、JobTracker --- 资源监控和作业调度 3、TaskTracker --- 向JobTracker汇报作业运行情况和资源使用情况（周期性），并同时接收命令执行操作 4、Task --- (1)Map Task (2)Reduce Task ——均有TaskTracker启动 MapReduce处理单位为split，是一个逻辑概念 split的多少决定了Map Task的数目，每个split交由一个Map Task处理 Hadoop MapReduce作业流程及生命周期一共5个步骤 1、作业提交及初始化。JobClient将作业相关上传到HDFS上，然后通过RPC通知JobTracker，

Hadoop大数据平台-测试报告及成功案例

Hadoop大数据平台测试报告及成功案例

目录 1技术规范书应答书 ................................. 错误！未定义书签。2技术方案建议 ......................................... 错误！未定义书签。3测试及验收 ............................................. 错误！未定义书签。4项目实施与管理 ..................................... 错误！未定义书签。5人员资质与管理 ..................................... 错误！未定义书签。6技术支持及保修 ..................................... 错误！未定义书签。7附录 ......................................................... 错误！未定义书签。

1.1 大数据平台测试报告 1.1.1某银行Cloudera CDH 性能测试测试某银行现有HODS在支撑行内业务方面已经遇到瓶颈。希望通过搭建基于Hadoop 的历史数据平台(新HODS)，以提升平台运行效率及数据覆盖面，支撑未来大数据应用，满足未来业务发展需求。本次POC测试的主要目的是验证Hadoop商业发行版(EDH) 是否可以满足某银行HODS应用特点，主要考察点包括： ?验证产品本身的易用性、可扩展性，主要涉及集群的部署、运维、监控、升级等； ?验证产品对安全性的支持，包括认证、授权、审计三大方面； ?验证产品对资源分配的控制与调度； ?验证Hadoop基本功能，包括可靠性、稳定性、故障恢复等； ?验证Hadoop子系统(包括HDFS、HBase、Hive、Impala等) 的性能、使用模式、设计思想、迁移代价等。 1.1.1.1基础设施描述 1.1.1.1.1硬件配置硬件配置分为两类：管理节点(master node) 与计算节点(worker node)。管理节点配置(2) CPU Intel? Xeon? E5-2650 v3 2.3GHz,25M Cache,9.60GT/s QPI,Turbo,HT,10C/20T (105W) Max Mem 2133MHz (40 vcore) 内存16GB RDIMM, 2133MT/s, Dual Rank, x4 Data Width (128GB) 网络Intel X520 DP 10Gb DA/SFP+ Server Adapter, with SR Optics

(完整版)hadoop例题

选择题 1、关于MapReduce的描述错误的是（） A、MapReduce框架会先排序map任务的输出 B、通常，作业的输入输出都会被存储在文件系统中 C、通常计算节点和存储节点是同一节点 D、一个Task通常会把输入集切分成若干独立的数据块 2、关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（） A、安装linux或者在Windows下安装Cgywin B、安装java C、安装MapReduce D、配置Hadoop参数 3、关于基于Hadoop的MapReduce编程的环境配置，下面哪一步是不必要的（） A、配置java环境变量 B、配置Hadoop环境变量 C、配置Eclipse D、配置ssh 4、下列说法错误的是（） A、MapReduce中maperconbiner reducer 缺一不可 B、在JobConf中InputFormat参数可以不设 C、在JobConf中MapperClass参数可以不设

D、在JobConf中OutputKeyComparator参数可以不设 5、下列关于mapreduce的key/value对的说法正确的是（） A、输入键值对不需要和输出键值对类型一致 B、输入的key类型必须和输出的key类型一致 C、输入的value类型必须和输出的value类型一致 D、输入键值对只能映射成一个输出键值对 6、在mapreduce任务中，下列哪一项会由hadoop系统自动排序（） A、keys of mapper's output B、values of mapper's output C、keys of reducer's output D、values of reducer's output 7、关于mapreduce框架中一个作业的reduce任务的数目，下列说法正确的是（） A、由自定义的Partitioner来确定 B、是分块的总数目一半 C、可以由用户来自定义，通过JobConf.setNumReducetTask(int)来设定一个作业中reduce的任务数目 D、由MapReduce随机确定其数目 8、MapReduce框架中，在Map和Reduce之间的combiner的作用是（） A、对Map的输出结果排序 B、对中间过程的输出进行本地的聚集

Hadoop 集群基本操作命令-王建雄-2016-08-22

Hadoop 集群基本操作命令列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help （注：一般手动安装hadoop大数据平台，只需要创建一个用户即可，所有的操作命令就可以在这个用户下执行；现在是使用ambari安装的dadoop大数据平台，安装过程中会自动创建hadoop生态系统组件的用户，那么就可以到相应的用户下操作了，当然也可以在root用户下执行。下面的图就是执行的结果，只是hadoop shell 支持的所有命令，详细命令解说在下面，因为太多，我没有粘贴。）显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name （注：可能有些命令，不知道什么意思，那么可以通过上面的命令查看该命令的详细使用信息。例子：这里我用的是hdfs用户。）注：上面的两个命令就可以帮助查找所有的haodoop命令和该命令的详细使用资料。

创建一个名为 /daxiong 的目录 $ bin/hadoop dfs -mkdir /daxiong 查看名为 /daxiong/myfile.txt 的文件内容$ bin/hadoop dfs -cat /hadoop dfs -cat /user/haha/part-m-00000 上图看到的是我上传上去的一张表，我只截了一部分图。注：hadoop fs <..> 命令等同于hadoop dfs <..> 命令（hdfs fs/dfs）显示Datanode列表 $ bin/hadoop dfsadmin -report

$ bin/hadoop dfsadmin -help 命令能列出所有当前支持的命令。比如： -report：报告HDFS的基本统计信息。注：有些信息也可以在NameNode Web服务首页看到运行HDFS文件系统检查工具(fsck tools) 用法：hadoop fsck [GENERIC_OPTIONS] [-move | -delete | -openforwrite] [-files [-blocks [-locations | -racks]]] 命令选项描述检查的起始目录。 -move 移动受损文件到/lost+found -delete 删除受损文件。 -openforwrite 打印出写打开的文件。 -files 打印出正被检查的文件。 -blocks 打印出块信息报告。 -locations 打印出每个块的位置信息。 -racks 打印出data-node的网络拓扑结构。打印版本信息用法：hadoop version 运行集群平衡工具。管理员可以简单的按Ctrl-C来停止平衡过程(balancer)

hadoop常用命令

启动Hadoop ?进入HADOOP_HOME目录。 ?执行sh bin/start-all.sh 关闭Hadoop ?进入HADOOP_HOME目录。 ?执行sh bin/stop-all.sh 1、查看指定目录下内容 hadoopdfs –ls [文件目录] eg: hadoopdfs –ls /user/wangkai.pt 2、打开某个已存在文件 hadoopdfs –cat [file_path] eg:hadoopdfs -cat /user/wangkai.pt/data.txt 3、将本地文件存储至hadoop hadoopfs –put [本地地址] [hadoop目录] hadoopfs –put /home/t/file.txt /user/t (file.txt是文件名) 4、将本地文件夹存储至hadoop hadoopfs –put [本地目录] [hadoop目录] hadoopfs –put /home/t/dir_name /user/t (dir_name是文件夹名) 5、将hadoop上某个文件down至本地已有目录下hadoopfs -get [文件目录] [本地目录] hadoopfs –get /user/t/ok.txt /home/t 6、删除hadoop上指定文件 hadoopfs –rm [文件地址] hadoopfs –rm /user/t/ok.txt 7、删除hadoop上指定文件夹（包含子目录等）hadoopfs –rm [目录地址] hadoopfs –rmr /user/t

8、在hadoop指定目录内创建新目录 hadoopfs –mkdir /user/t 9、在hadoop指定目录下新建一个空文件使用touchz命令： hadoop fs -touchz /user/new.txt 10、将hadoop上某个文件重命名使用mv命令： hadoop fs –mv /user/test.txt /user/ok.txt （将test.txt重命名为ok.txt） 11、将hadoop指定目录下所有内容保存为一个文件，同时down至本地hadoopdfs –getmerge /user /home/t 12、将正在运行的hadoop作业kill掉 hadoop job –kill [job-id] 1、列出所有Hadoop Shell支持的命令 $ bin/hadoopfs -help 2、显示关于某个命令的详细信息 $ bin/hadoopfs -help command-name 3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir 这条命令会显示作业的细节信息，失败和终止的任务细节。 4、关于作业的更多细节，比如成功的任务，以及对每个任务的所做的尝试次数等可以用下面的命令查看 $ bin/hadoop job -history all output-dir 5、格式化一个新的分布式文件系统： $ bin/hadoopnamenode -format 6、在分配的NameNode上，运行下面的命令启动HDFS： $ bin/start-dfs.sh bin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。 7、在分配的JobTracker上，运行下面的命令启动Map/Reduce： $ bin/start-mapred.sh bin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动TaskTracker守护进程。 8、在分配的NameNode上，执行下面的命令停止HDFS： $ bin/stop-dfs.sh

Hadoop命令大全

Hadoop命令大全 Hadoop配置： Hadoop配置文件core-site.xml应增加如下配置，否则可能重启后发生Hadoop 命名节点文件丢失问题： hadoop.tmp.dir /home/limingguang/hadoopdata 环境变量设置：为了便于使用各种命令，可以在.bashrc文件中添加如下内容： export JAVA_HOME=/home/limingguang/jdk1.7.0_07 export HADOOP_HOME=/home/limingguang/hadoop-1.0.3 export HIVE_HOME=/home/limingguang/hive-0.9.0 export MAHOUT_HOME=/home/limingguang/mahout-distribution-0.7 export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$MAHOUT_HOME/bin: $PATH export HADOOP_HOME_WARN_SUPPRESS=1 具体目录请更改为安装目录，HADOOP_HOME_WARN_SUPPRESS变量为抑制HADOOP_HOME变量重复时的告警。常用命令：

1、列出所有Hadoop Shell支持的命令 $ bin/hadoop fs -help 2、显示关于某个命令的详细信息 $ bin/hadoop fs -help command-name 3、用户可使用以下命令在指定路径下查看历史日志汇总 $ bin/hadoop job -history output-dir 这条命令会显示作业的细节信息，失败和终止的任务细节。 4、关于作业的更多细节，比如成功的任务，以及对每个任务的所做的尝试次数等可以用下面的命令查看 $ bin/hadoop job -history all output-dir 5、格式化一个新的分布式文件系统： $ bin/hadoop namenode -format 6、在分配的NameNode上，运行下面的命令启动HDFS： $ bin/start-dfs.sh bin/start-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上启动DataNode守护进程。 7、在分配的JobTracker上，运行下面的命令启动Map/Reduce： $ bin/start-mapred.sh bin/start-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves 文件的内容，在所有列出的slave上启动TaskTracker守护进程。 8、在分配的NameNode上，执行下面的命令停止HDFS： $ bin/stop-dfs.sh bin/stop-dfs.sh脚本会参照NameNode上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止DataNode守护进程。 9、在分配的JobTracker上，运行下面的命令停止Map/Reduce： $ bin/stop-mapred.sh bin/stop-mapred.sh脚本会参照JobTracker上${HADOOP_CONF_DIR}/slaves文件的内容，在所有列出的slave上停止TaskTracker守护进程。 10、启动所有 $ bin/start-all.sh 11、关闭所有 $ bin/stop-all.sh DFSShell 10、创建一个名为 /foodir 的目录 $ bin/hadoop dfs -mkdir /foodir 11、创建一个名为 /foodir 的目录 $ bin/hadoop dfs -mkdir /foodir 12、查看名为 /foodir/myfile.txt 的文件内容 $ bin/hadoop dfs -cat /foodir/myfile.txt

hadoop提交作业分析

Hadoop提交作业流程分析 bin/hadoop jar mainclass args …… 这样的命令，各位玩Hadoop的估计已经调用过NN次了，每次写好一个Project或对Project做修改后，都必须打个Jar包，然后再用上面的命令提交到Hadoop Cluster上去运行，在开发阶段那是极其繁琐的。程序员是“最懒”的，既然麻烦肯定是要想些法子减少无谓的键盘敲击，顺带延长键盘寿命。比如有的人就写了些Shell脚本来自动编译、打包，然后提交到Hadoop。但还是稍显麻烦，目前比较方便的方法就是用Hadoop eclipse plugin，可以浏览管理HDFS，自动创建MR程序的模板文件，最爽的就是直接Run on hadoop了，但版本有点跟不上Hadoop的主版本了，目前的MR模板还是的。还有一款叫Hadoop Studio的软件，看上去貌似是蛮强大，但是没试过，这里不做评论。那么它们是怎么做到不用上面那个命令来提交作业的呢不知道没关系，开源的嘛，不懂得就直接看源码分析，这就是开源软件的最大利处。我们首先从bin/hadoop这个Shell脚本开始分析，看这个脚本内部到底做了什么，如何来提交Hadoop作业的。因为是Java程序，这个脚本最终都是要调用Java来运行的，所以这个脚本最重要的就是添加一些前置参数，如CLASSPATH等。所以，我们直接跳到这个脚本的最后一行，看它到底添加了那些参数，然后再

逐个分析（本文忽略了脚本中配置环境参数载入、Java查找、cygwin 处理等的分析）。 #run it exec "$JAVA"$JAVA_HEAP_MAX $HADOOP_OPTS -classpath "$CLASSPATH"$CLASS "$@" 从上面这行命令我们可以看到这个脚本最终添加了如下几个重要参数：JAVA_HEAP_MAX、HADOOP_OPTS、CLASSPATH、CLASS。下面我们来一个个的分析（本文基于Cloudera Hadoop 分析）。首先是JAVA_HEAP_MAX，这个就比较简单了，主要涉及代码如下：JAVA_HEAP_MAX=-Xmx1000m # check envvars which might override default args if [ "$HADOOP_HEAPSIZE" !="" ];then #echo"run with heapsize $HADOOP_HEAPSIZE" JAVA_HEAP_MAX="-Xmx""$HADOOP_HEAPSIZE""m" #echo$JAVA_HEAP_MAX fi

(完整版)hadoop常见笔试题答案

Hadoop测试题一．填空题，1分（41空），2分（42空）共125分 1.(每空1分) datanode 负责HDFS数据存储。 2.(每空1分)HDFS中的block默认保存 3 份。 3.(每空1分)ResourceManager 程序通常与NameNode 在一个节点启动。 4.(每空1分)hadoop运行的模式有：单机模式、伪分布模式、完全分布式。 5.(每空1分)Hadoop集群搭建中常用的4个配置文件为：core-site.xml 、hdfs-site.xml 、mapred-site.xml 、yarn-site.xml 。 6.(每空2分)HDFS将要存储的大文件进行分割，分割后存放在既定的存储块中，并通过预先设定的优化处理，模式对存储的数据进行预处理，从而解决了大文件储存与计算的需求。 7.(每空2分)一个HDFS集群包括两大部分，即namenode 与datanode 。一般来说，一个集群中会有一个namenode 和多个datanode 共同工作。 8.(每空2分) namenode 是集群的主服务器，主要是用于对HDFS中所有的文件及内容数据进行维护，并不断读取记录集群中datanode 主机情况与工作状态，并通过读取与写入镜像日志文件的方式进行存储。 9.(每空2分) datanode 在HDFS集群中担任任务具体执行角色，是集群的工作节点。文件被分成若干个相同大小的数据块，分别存储在若干个datanode 上，datanode 会定期向集群内namenode 发送自己的运行状态与存储内容，并根据namnode 发送的指令进行工作。 10.(每空2分) namenode 负责接受客户端发送过来的信息，然后将文件存储位置信息发送给client ，由client 直接与datanode 进行联系，从而进行部分文件的运算与操作。 11.(每空1分) block 是HDFS的基本存储单元，默认大小是128M 。 12.(每空1分)HDFS还可以对已经存储的Block进行多副本备份，将每个Block至少复制到 3 个相互独立的硬件上，这样可以快速恢复损坏的数据。 13.(每空2分)当客户端的读取操作发生错误的时候，客户端会向namenode 报告错误，并请求namenode 排除错误的datanode 后，重新根据距离排序，从而获得一个新的的读取路径。如果所有的datanode 都报告读取失败，那么整个任务就读取失败。14.(每空2分)对于写出操作过程中出现的问题，FSDataOutputStream 并不会立即关闭。客户端向Namenode报告错误信息，并直接向提供备份的datanode 中写入数据。备份datanode 被升级为首选datanode ，并在其余2个datanode 中备份复制数据。 NameNode对错误的DataNode进行标记以便后续对其进行处理。 15.(每空1分)格式化HDFS系统的命令为：hdfs namenode –format 。 16.(每空1分)启动hdfs的shell脚本为：start-dfs.sh 。 17.(每空1分)启动yarn的shell脚本为：start-yarn.sh 。 18.(每空1分)停止hdfs的shell脚本为：stop-dfs.sh 。 19.(每空1分)hadoop创建多级目录（如：/a/b/c）的命令为：hadoop fs –mkdir –p /a/b/c 。 20.(每空1分)hadoop显示根目录命令为：hadoop fs –lsr 。 21.(每空1分)hadoop包含的四大模块分别是：Hadoop common 、HDFS 、

基于Hadoop的大数据平台实施——整体架构设计

基于Hadoop的大数据平台实施——整体架构设计大数据的热度在持续的升温，继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的公司或组织，至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据，说真的，到目前为止就和云计算一样，让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面，但是您至少要保持清醒的头脑，认真仔细的慎问一下自己，我们公司真的需要大数据吗? 做为一家第三方支付公司，数据的确是公司最最重要的核心资产。由于公司成立不久，随着业务的迅速发展，交易数据呈几何级增加，随之而来的是系统的不堪重负。业务部门、领导、甚至是集团老总整天嚷嚷的要报表、要分析、要提升竞争力。而研发部门能做的唯一事情就是执行一条一条复杂到自己都难以想象的SQL语句，紧接着系统开始罢工，内存溢出，宕机........简直就是噩梦。OMG!please release me!!! 其实数据部门的压力可以说是常人难以想象的，为了把所有离散的数据汇总成有价值的报告，可能会需要几个星期的时间或是更长。这显然和业务部门要求的快速响应理念是格格不入的。俗话说，工欲善其事，必先利其器。我们也该鸟枪换炮了......。网上有一大堆文章描述着大数据的种种好处，也有一大群人不厌其烦的说着自己对大数据的种种体验，不过我想问一句，到底有多少人多少组织真的在做大数据?实际的效果又如何?真的给公司带来价值了?是否可以将价值量化?关于这些问题，好像没看到有多少评论会涉及，可能是大数据太新了(其实底层的概念并非新事物，老酒装新瓶罢了)，以至于人们还沉浸在各种美妙的YY中。做为一名严谨的技术人员，在经过短暂盲目的崇拜之后，应该快速的进入落地应用的研究中，这也是踩着“云彩”的架构师和骑着自行车的架构师的本质区别。说了一些牢骚话，

Hadoop入门教程(四)MR作业的提交监控、输入输出控制及特性使用-北京尚学堂

北京尚学堂提供上次课讲到MR重要运行参数，本次继续为大家讲解MapReduce相关提交作业并监控 JobClient是用户作业与JobTracker交互的主要接口，它提供了提交作业，跟踪作业进度、访问任务报告及logs、以及获取MR集群状态信息等方法。提交作业流程包括： ?检查作业的输入输出 ?计算作业的输入分片(InputSplit) ?如果需要，为DistributedCache设置必须的账户信息 ?将作业用到的jar包文件和配置信息拷贝至文件系统（一般为HDFS）上的MR系统路径中 ?提交作业到JobTracker，并可监控作业状态作业历史(Job History)文件会记录在https://www.doczj.com/doc/ff9428136.html,er.location指定的位置，默认在作业输出路径下的logs/history/路径下。因此历史日志默认在mapred.output.dir/logs/history下。用户可以将https://www.doczj.com/doc/ff9428136.html,er.location值设置为none来不记录作业历史。使用命令来查看历史日志: 1 $hadoop job -history output-dir 上面命令会显示作业的详细信息、失败的被kill的任务（tip）的详细信息。使用下面命令可以查看作业更详细的信息： 1 $hadoop job -history all output-dir 可以使用OutputLogFilter从输出路径中过滤日志文件。一般，我们创建应用，通过JobConf设置作业的各种属性，然后使用JobClient提交作业并监控进度。作业控制有时可能需要一个作业链完成复杂的任务。这点是可以轻松实现的，因为作业输出一般都在分布式文件系统上，作业输出可以当做下个作业的输入，这样就形成了链式作业。这种作业成功是否依赖于客户端。客户端可以使用以下方式来控制作业的执行： ?runJob(JobConf):提交作业并仅在作业完成时返回 ?submitJob(JobConf):提交作业后立即返回一个RunningJob的引用，使用它可以查询作业状态并处理调度逻辑。 ?JobConf.setJobEndNotificationURI(String):设置作业完成时通知你也可以使用Oozie来实现复杂的作业链。作业输入下面讲作业输入的内容。 InputFormat描述MR作业的输入信息。InputFormat有以下作用: 1.验证作业的输入信息

Hadoop最全面试题整理(附目录)

Hadoop面试题目及答案(附目录) 选择题 1.下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 答案C datanode 2. HDfS 中的block 默认保存几份？ a)3 份b)2 份c)1 份d)不确定答案A 默认3 份 3.下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 答案D 分析：hadoop 的集群是基于master/slave 模式，namenode 和jobtracker 属于master，datanode 和tasktracker 属于slave，master 只有一个，而slave 有多个SecondaryNameNode 内存需求和NameNode 在一个数量级上，所以通常secondaryNameNode（运行在单独的物理机器上）和NameNode 运行在不同的机器上。 JobTracker 和TaskTracker JobTracker 对应于NameNode，TaskTracker 对应于DataNode，DataNode 和NameNode 是针对数据存放来而言的，JobTracker 和TaskTracker 是对于MapReduce 执行而言的。mapreduce 中几个主要概念，mapreduce 整体上可以分为这么几条执行线索：jobclient，JobTracker 与TaskTracker。 1、JobClient 会在用户端通过JobClient 类将应用已经配置参数打包成jar 文件存储到hdfs，并把路径提交到Jobtracker,然后由JobTracker 创建每一个Task（即MapTask 和ReduceTask）并将它们分发到各个TaskTracker 服务中去执行。 2、JobTracker 是一个master 服务，软件启动之后JobTracker 接收Job，负责调度Job 的每一个子任务task 运行于TaskTracker 上，并监控它们，如果发现有失败的task 就重新运行它。一般情况应该把JobTracker 部署在单独的机器上。 3、TaskTracker 是运行在多个节点上的slaver 服务。TaskTracker 主动与JobTracker 通信，接收作业，并负责直接执行每一个任务。TaskTracker 都需要运行在HDFS 的DataNode 上。 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 答案C Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 答案：B 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络c)磁盘IO d)内存答案：C 磁盘首先集群的目的是为了节省成本，用廉价的pc 机，取代小型机及大型机。小型机和大型机

Hadoop大数据平台-建设要求及应答方案

Hadoop大数据平台建设要求及应答方案

目录 2技术规范书应答书 (2) 2.1业务功能需求 (4) 2.1.1系统管理架构 (4) 2.1.2数据管理 (12) 2.1.3数据管控 (26) 2.1.4数据分析与挖掘 (27) 2.2技术要求 (30) 2.2.1总体要求 (30) 2.2.2总体架构 (31) 2.2.3运行环境要求 (32) 2.2.4客户端要求 (35) 2.2.5数据要求 (36) 2.2.6集成要求 (36) 2.2.7运维要求 (37) 2.2.8性能要求 (49) 2.2.9扩展性要求 (50) 2.2.10可靠性和可用性要求 (52) 2.2.11开放性和兼容性要求 (57) 2.2.12安全性要求 (59)

1大数据平台技术规范要求高度集成的Hadoop平台：一个整体的数据存储和计算平台，无缝集成了基于Hadoop 的大量生态工具，不同业务可以集中在一个平台内完成，而不需要在处理系统间移动数据；用廉价的PC服务器架构统一的存储平台，能存储PB级海量数据。并且数据种类可以是结构化，半结构化及非结构化数据。存储的技术有SQL及NoSQL，并且NoSQL能提供企业级的安全方案。CDH提供统一的资源调度平台，能够利用最新的资源调度平台YARN分配集群中CPU,内存等资源的调度，充分利用集群资源；多样的数据分析平台–能够针对不用的业务类型提供不同的计算框架，比如针对批处理的MapReduce计算框架；针对交互式查询的Impala MPP查询引擎；针对内存及流计算的Spark框架；针对机器学习，数据挖掘等业务的训练测试模型；针对全文检索的Solr搜索引擎项目中所涉及的软件包括： ?Hadoop软件（包括而不限于Hadoop核心） ?数据采集层：Apache Flume, Apache Sqoop ?平台管理：Zookeeper, YARN ?安全管理：Apache Sentry ?数据存储：HDFS, HBase, Parquet ?数据处理：MapReduce, Impala, Spark ?开发套件：Apache Hue, Kite SDK ?关系型数据库系统：SAP HANA企业版 ?ETL工具：SAP Data Services 数据管控系统的二次开发量如下： ?主数据管理功能通过二次开发的方式实现主数据管理功能，并集成甲方已有的主数据管理系统。