Hadoop期中考试 测试

  • 格式:docx
  • 大小:14.90 KB
  • 文档页数:5

下载文档原格式

  / 5
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hadoop期中考试

1.单选题(每个分,共20分)

(1)Mapreduce擅长哪个领域的计算( A )。

A. 离线批处理

B. DAG计算

C. 流式计算

D. 实时计算

(2)关于MapReduce原理,下面说法错误的是( D )。

A. 分为Map和Reduce两个阶段

B. Map阶段由一系列Map任务组成

C. Reduce阶段由一系列Reduce任务组成

D. Map阶段与Reduce阶段没有任何依赖关系

(3)HDFS默认副本数是( C )。

A. 1

B. 2

C. 3

D. 4

(4)不属于HDFS架构组成部分是( D )。

A. NameNode

B. Secondary NameNode

C. DataNode

D. TaskTracker(Hadoop MapReduce 的组件)

★(5)关于Block和Split两个概念,下面说法错误的是( C )。

A. Block是HDFS中最小的数据存储单位

B. Split是MapReduce中最小的计算单元

C. Block是Split是一一对应关系(默认是一一对应的)

D. Block和Split之间对应关系是任意的,可由用户控制

(6)以下不属于Hadoop内核的组成部分的是( C )。

A. HDFS

B. MapReduce

C. HBase

D. YARN

(7)不属于HBase中的术语的是( D )。

A. Column

B. Column Family

C. Row Key

D. Meta

(8)下面关于Hive,说法错误的是( A )。

A. Hive支持所有标准SQL语法

B. Hive底层采用的计算引擎是MapReduce(目前支持Spark、Tez等)

C. Hive提供的HQL语法,与传统SQL很类似

D. Hive Server可采用MySQL存储元数据信息

(9)通常而言,一个标准的生产环境(考虑成本、效益等)中,Zookeeper实例个数不可能是( B )。

A. 3

B. 4

C. 5

D. 7

(10)Flume的主要作用是( C )。

A. 数据处理和分析

B. 数据存储

C. 数据收集

D. 网络爬虫

(11)HBase支持多语言(比如C++、Python等)访问,为实现该功能,它采用的开源软件是( C )。

A. protobuf

B. 自定义网络协议

C. thrift

D. avro

(12)关于HDFS和HBase,说法错误的是( D )。

A.HDFS不能随机读写,HBase可以

B.HDFS适合存储大文件,HBase可以存储小文件

C.HBase底层采用了HDFS

D.HDFS和HBase无直接关系

(13)YARN和MapReduce的关系是( A )。

A. MapReduce是一个计算框架,可运行在YARN之上

B.YARN是一个计算框架,可运行在MapReduce之上

C.MapReduce和YARN无直接关系

D.以上回答均不正确

★★★(14)关于MapReduce中的数据本地性,下面方法正确的是(A B )。

A.Map Task和Reduce Task都会考虑数据本地性

B.只有Map Task会考虑数据本地性(Reduce阶段是从Map阶段拉取Shuffle数据的)

C.只有Reduce Task会考虑数据本地性

D.Map Task和Reduce Task都不考虑数据本地性

(15)与Hive相比,Presto主要优势是( C )。

A.利用MapReduce进行分布式计算,更加高效

B.完全分布式计算,可以充分利用集群资源

C.MPP架构,全内存计算

D.有很强的容错性

(16)下面哪种存储格式是Hive中常用的列式存储格式( D )。

A. Text File

B. Sequence File

C. Parquet

D. ORC

★(17) 下面哪个信息不会存储在HBase的一个cell(E C )。

A. row key

B. column family名称

C. 表名

D. 列名

E. 版本号

F. cell值

数据存储冗余,非常耗费空间

(18)默认情况下,一个MapReduce作业(处理的数据HDFS上的一个目录)的map task个数是由( B )决定的。

A. 目录中文件个数

B. 目录对应的block数目

C. 默认个数是1

D. 用户自己指定

HDFS,Block默认大小为128MB。

一个Block文件只能来自于一个文件。

查看一个文件有多少个Block的命令:hdfs fsck /input –files –blocks -locations

(19)Hive和Presto支持标准SQL吗(B D)

A. 都支持

B. 都不支持

C. Hive支持,Presto不支持

D. Hive不支持,Presto支持

(20)既然有了Hive,还需要用MapReduce编写程序处理数据吗( B )

A. 不需要

B. 需要

2.多选题(每个4分,共20分)

(1)关于HDFS,说法正确的是(ABC )

A.不存在NameNode单点故障问题

B.一个集群可存在多个NameNode对外提供服务

C.HDFS HA和Federation是它的两大特色

D.不能存储小文件

(2)关于Kafka,说法正确的是(BCD )

A.是一个分布式key/value存储系统

B.由producer、broker和consumer等角色构成

C.通过zookeeper进行服务协调

D.消息可以存成多个副本以达到容错的目标

(3)关于MapReduce,说法正确的是(ACD )

A.MapReduce具有容错性,一台节点挂掉不会导致整个应用程序运行失败

B.所有MapReduce程序公用一个ApplicationMaster

C.MapReduce程序可以运行在YARN之上(也可以运行在本地)

D.MapReduce是Hive默认的计算引擎

(4)用户可使用哪几种语言开发MapReduce应用程序(ABCD )

A.C++

B.Java

C.PHP

D.Go

(5)下面哪几个属于YARN自带的资源调度器(BCD )

A.Deadline Scheduler

B.FIFO(先进先出)

C.Capacity Scheduler(容错调度系统)

相关主题