C3. Hadoop体系架构
- 格式:pdf
- 大小:2.95 MB
- 文档页数:30
Hadoop、Hbase测试题一、选择题(共15题,每题4分,共60分)1. 以下哪一项不属于Hadoop可以运行的模式______。
A. 单机(本地)模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位______。
A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同一个节点启动_____。
A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的大小是______。
5. 下列哪项通常是集群的最主要瓶颈______。
A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是______。
A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节,方便使用7. HDFS文件系统中一个gzip文件大小75MB,客户端设置Block的大小为默认,请问此文件占用几个Block______。
A. 1B. 2C. 3D. 48. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 ______。
A.一次写入,少次读B.多次写入,少次读C.多次写入,多次读D.一次写入,多次读9. HBase依靠______存储底层数据。
A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖______提供强大的计算能力。
A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖______提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是_______A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下面哪项是正确的______。
习题一、选择题1.下列有关 Hadoop 的说法正确的是( ABCD )。
A .Hadoop 最早起源于 NutchB .Hadoop 中HDFS 的理念来源于谷歌发表的分布式文件系统( GFS )的论文C .Hadoop 中 MapReduce 的思想来源于谷歌分布式计算框架 MapReduce 的论文D.Hadoop 是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个开源的软件框架2.使用 Hadoop 的原因是( ABCD )。
A.方便:Hadoop 运行在由普通商用机器构成的大型集群上或者云计算服务上B.稳健:Hadoop 致力于在普通商用硬件上运行,其架构假设硬件会频繁失效,Hadoop 可以从容地处理大多数此类故障C .可扩展:Hadoop 通过增加集群节点,可以线性地扩展以处理更大的数据集D.简单:Hadoop 允许用户快速编写高效的并行代码3.Hadoop 的作者是( B )。
A .Martin FowlerB .Doug CuttingC .Kent BeckD .Grace Hopper4.以下关于大数据特点的描述中,不正确的是( ABC )。
A .巨大的数据量B .多结构化数据C .增长速度快D .价值密度高二、简答题1.Hadoop 是一个什么样的框架?答:Hadoop 是一款由Apache 基金会开辟的可靠的、可伸缩的分布式计算的开源软件。
它允许使用简单的编程模型在跨计算机集群中对大规模数据集进行分布式处理。
2.Hadoop 的核心组件有哪些?简单介绍每一个组件的作用。
答:核心组件有 HDFS 、MapReduce 、YARN 。
HDFS ( Hadoop Distributed File Sy,st doop 分布式文件系统)是 Hadoop 的核心组件之一,作为最底层的分布式存储服务而存在。
它是一个高度容错的系统,能检测和应对硬件故障,可在低成本的通用硬件上运行。
行政管理学校-Hadoop大数据技术基础期末考试姓名:学号:一、填空题Hadoop是一个开源的分布式计算框架,主要用于________和________大规模数据集的计算。
在Hadoop集群中,NameNode负责存储和管理文件系统的________ HDFS采用的默认块大小是________M字节HDFS的设计目标之一是提供高________的数据访问性能HDFS的副本放置策略旨在将副本分散存放在不同的________中HDFS中的数据块是以________的方式存储在分布式文件系统中使用HDFS的Java API进行文件读取时,可以使用________类来读取文件内容MapReduce是一种________编程模型,用于处理和分析大规模数据集在MapReduce中,________阶段用于将Mapper的输出结果进行分区和排序Hadoop集群中的________负责资源的管理和作业的调度二、单项选择题1、Hadoop主要用于什么目的?a.分布式计算和处理大型数据集b.图形设计和图像编辑c. 网页开发和托管d. 数据库管理和管理员工作2、Hadoop的哪个组件负责以分布式方式存储和管理数据?a.HDFSb.MapReducec. YARNd. Hive3、Hadoop集群的主要目的是什么?a.提供容错性和高可用性b.对大型数据集进行复杂计算c.创建用于云计算的虚拟机d.使用Java开发Web应用程序4、HDFS如何确保Hadoop集群中的数据可靠性?a.将数据复制到多个节点b.压缩数据以节省存储空间c.加密数据以确保安全性d.将数据均匀分布在集群中5、使用HDFS的Java API与HDFS进行交互通常使用哪种编程语言?a.Pythonb.Javac.C++d.Ruby6、Hadoop中的MapReduce的核心概念是什么?a.将数据分成小块并并行处理它们b.将多个数据集合并为一个统一的视图c.在分布式文件系统中存储和检索数据d.对流式数据进行实时分析7、Hadoop中负责资源管理和作业调度的组件是什么?a.HDFSb.MapReducec.YARNd.Pig8、HDFS的默认复制因子是多少?a.1b.2c.3d.49、Hadoop中用于查询和分析存储在HDFS中的大型数据集的组件是什么?a.HBaseb.Hivec.Sqoopd.Flume10、Hadoop中的YARN是什么意思?a.Yet Another Resource Negotiator(另一种资源协调器)b.Yet Another Replication Node(另一个复制节点)c.Yet Another Routing Network(另一个路由网络)d.Yet Another Redundant Name(另一个冗余命名)11、Hadoop中的Secondary NameNode的作用是什么?a.维护Hadoop集群的整体状态和配置信息b.提供备份存储以保护数据安全c.负责资源管理和作业调度d.用于处理故障恢复和元数据操作12、Hadoop中用于将关系型数据库与Hadoop生态系统集成的工具是什么?a.HBaseb.Pigc.Hived.Sqoop13、在Hadoop中,MapReduce的输入数据格式可以是什么类型?a.文本文件b.图像文件c.视频文件d.仅限JSON文件14、Hadoop中的JobTracker的作用是什么?a.将任务分配给集群中的节点并监控任务执行情况b.存储和管理Hadoop集群中的数据c.提供资源管理和作业调度功能d.处理MapReduce作业的输出数据15、Hadoop中的Hive是什么?a.一种分布式文件系统b.一种用于数据处理的编程模型c.一种用于数据仓库和查询的工具d.一种用于并行计算的编程框架16、Hadoop中的NameNode负责什么任务?a.存储和管理数据块的副本b.负责作业调度和资源管理c.负责整个文件系统的元数据管理d.处理MapReduce作业的输入数据17、Hadoop中的HBase是什么?a.一种分布式数据库b.一种编程模型和执行环境c.一种用于数据可视化的工具d.一种用于机器学习的框架18、Hadoop中的MapReduce框架基于哪个编程模型?a.关系型数据库模型b.面向对象编程模型c.函数式编程模型d.批处理模型19.关于Hadoop的以下哪个说法是正确的?a.Hadoop是关系型数据库管理系统。
Hadoop基础(习题卷8)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在Java中,<? version="1.0" encoding=”UTF-8”>这行声明该文档采用了什么编码标准A)GB2312B)ANSIC)ISO-8859-1D)UTF-8答案:D解析:2.[单选题]关于hadoop集群描述正确的是( )A)hadoop集群组件之间通过RPC通信协议B)hadoop集群NameNode节点越多越好C)hadoop集群使用Namenode存储元数据D)以上都正确答案:A解析:3.[单选题]HDFS 默认 Block SizeA)32MBB)64MBC)128MBD)240MB答案:B解析:4.[单选题]下面属于Hadoop特点的是()A)低价值密度B)低吞吐量C)高容错D)高成本答案:C解析:5.[单选题]编写MapReduce必须继承()类A)ConfiguredB)DonfiguredC)AonfiguredD)Writable答案:A解析:6.[单选题]在Java中,File类提供的方法中,哪个方法可以获取一个目录下所有子文件对象D)listFiles()答案:D解析:7.[单选题]HDFS结构不包括________。
A)Master体系结构B)主从服务器C)元数据服务器D)存储服务器答案:A解析:8.[单选题]下列哪一项不属于数据库事务具有ACID四性?A)间断性B)原子性C)一致性D)持久性答案:A解析:9.[单选题]客户端从Zookeeper获取Region的存储位置信息后,直接在_______上读写数据。
A)ZookeeperB)HMasterC)Region ServerD)HLog答案:C解析:10.[单选题]对NodeManager服务描述不正确的是( )A)NodeManager负责单节点资源管理和使用B)NodeManager管理当前节点的ContainerC)向ResourceManager汇报本节点上的资源使用情况D)NodeManager服务器不需要与ResourceManager通信答案:D解析:11.[单选题]下面对分区描述的过程正确的是( )A)merge是将多个溢写文件合并到一个文件B)merge过程不可能有Combiner处理C)缓冲区的作用不大D)以上都不正确答案:A解析:12.[单选题]云计算发展对产业的影响对一般企业和机构来说主要是( )。
Hadoop基础(试卷编号151)1.[单选题]下列关于Hadoop和Spark说法错误的是()。
A)二者都支持流式计算B)二者都支持批量计算C)二者都支持机器学习D)二者都支持SQL语句查询答案:A解析:2.[单选题]测试 Sqoop 是否能够正常连接 MySQL 数据库命令是( )A)sqoop list-database --connect jdbc:mysql://127.0.0.1:3306/ --username root - PB)sqoop list-databases --connection jdbc:mysql://127.0.0.1:3306/ --username root - PC)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root -LD)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root - P答案:D解析:3.[单选题]下面哪个命令是用来定义shell的全局变量:A)exportfsB)aliasC)exportsD)export答案:D解析:4.[单选题]关于Hadoop下列说法错误的是()A)HDFS采用了Master/Slave的架构模型B)Namenode负责维护文件系统的命名空间C)Datanode执行比如打开、关闭、重命名文件操作D)HDFS暴露了文件系统的命名空间,允许用户以文件的形式在上面存储数据答案:C解析:5.[单选题]关干HiveSQL运行原理,描述不正确的选项有?(A)C)对于selectcount(*)fromtable操作,一定会启reduce任务D)对于select*fromtable语句不会启MapReduce答案:A解析:6.[单选题]调用Zookeeper对象创建的节点,不包括()。
Hadoop基础(习题卷3)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]大数据的简单算法与小数据的复杂算法相比()A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中,不是CouchDB的复制中的特点是:A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件,正确的shell命令是()。
A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中,一个线程如果调用了sleep()方法,能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是,时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。
A)核心解析:7.[单选题]_______模式,只适合于Hive简单试用及单元测试。
A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是()。
A)hive学习成本低,支持标准的SQL语法B)hive运行效率低,延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因()A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信,所有集群的IP必须设置成静态IP,防止机器重启之后而找不到机器的情况,那么IP地址配置需要修改那个文件()A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是?A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)DataNode之间都是独立的,相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。
Hadoop基础(习题卷11)第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在文件属性中, 文件的权限用第( )列字符表示。
A)1-5B)2-10C)3-9D)1-8答案:B解析:2.[单选题]下列______不是云计算三层架构的概括。
A)IaaSB)PaaSC)SaaPD)SaaS答案:C解析:3.[单选题]验证java运行环境是否安装成功,使用哪个命令查看java版本,若出现版本号则表示 安装成功()A)java-versionB)java-ipconfigC)java-editionD)java-Release答案:A解析:4.[单选题]在Hadoop官方的示例程序包hadoop-maprecduceexamples-2.6.4.jar中,封装了一些常用的测试模块。
可以获得文件中单词长度的中位数的模块是(C)。
A)wordcountB)wordmeanC)wordmedianD)wordstandarddeviation答案:C解析:5.[单选题]在 MapReduce 中 Shuffle 的主要作用是( )A)将数据进行拆分B)对映射后的数据进行排序, 然后输入到 ReducerC)经过映射后的输出数据会被排序, 然后每个映射器会进 行分区D)通过实现自定义的 Partitioner 来指定哪些数据进入哪个Reducer答案:B解析:B)HTTPSC)SSHD)ClientProtocol答案:C解析:7.[单选题]关于ApplicationMaster组件描述错误的是()。
A)与资源管理器协商获取资源B)与节点管理器通信以启动或停止具体的任务C)监控应用程序所有任务的状态D)定时向资源管理器汇报资源使用情况答案:A解析:8.[单选题]SecondaryNameNode 是对主NameNode的一个补充,他会定期地执行对HDFS元数据的检查点。
当前设计仅允许每个HDFS只有()SecondaryNameNode节点。
Cl oud computing 理论测试题目答案说明:1、搜索时如果找不到可先尝试去掉英文部分,只搜索中文,可能是中英文间空格问题。
2、如果碰到“下面说法错误的是()”,直接搜索选项,也仅有此类题可搜索任意选项,绿色部分为正确选项。
3、红色部分为错误选项,本人到100后就没心情继续刷了,后继者继续努力吧,据说现有300-400道题,助教打算近期再添加100多题……4、改进后上传前,你可以在此部分表明更新信息、姓名和日期,但不要抹杀前人的努力,切记!(10-本-白玉欣2012/4/20)1. 请问在Hadoop体系结构中,按照由下到上顺序,排列正确的是()mon MapReduce Pig2. 关于Datanode的描述错误的是()D.文件的副本系数由Datanode 储存3.关于MapReduce的描述错误的是()D. 一个MapReduce任务(Task)通常会把输入集切分成若干独立的数据块4. Hive查询语言和SQL的一个不同之处关于HDFS 命令错误的是()C. cp:返回到上一级目录5. 配置hbase过程中,下面那个文件没有改动。
A.hbase-default.xml6. hbase表格中行关键字对应的列值最少有几个?D.任意个7. 客户端发现域服务器崩溃之后与__交互来处理问题.B.hbasemaster8. Hive最重视的性能是可测量性,延展性,__和对于输入格式的宽松匹配性。
B. 容错性9. hbase中存储的数据类型是__。
B.byte10. INT整数型有多少个字节__。
NOT D. 8 byteNot bc11. Hive提供了基于SQL并使得熟悉SQL的用户能够查询数据的__。
A.QL12. 下面哪一个对于Hive查询语言的命令的描述是错误的__。
C.SHOW PARTITIONS page_view:列出表格page_view 的所有的分隔。
如果该表格没有被分隔,那么什么也不做。
大数据试卷三年级【含答案】专业课原理概述部分一、选择题(每题1分,共5分)1. 下列哪项不是大数据的主要特征?A. 数据量巨大B. 数据类型单一C. 处理速度快D. 价值密度低答案:B2. 在大数据分析中,哪个阶段涉及从大量数据中提取有用信息?A. 数据收集B. 数据存储C. 数据处理D. 数据挖掘答案:D3. 以下哪种技术常用于大数据存储?A. SQL数据库B. NoSQL数据库C. 文件存储D. 以上都对答案:D4. Hadoop的核心组件不包括以下哪个?A. HDFSB. MapReduceC. SparkD. YARN答案:C5. 下列哪个不是大数据处理的基本步骤?A. 数据采集B. 数据清洗C. 数据可视化D. 数据传输答案:D二、判断题(每题1分,共5分)1. 大数据的5V特征包括:Volume, Variety, Velocity, Value, Veracity。
(正确)2. 数据挖掘是从大量数据中提取有用信息的过程。
(正确)3. 在大数据分析中,数据预处理比数据挖掘更重要。
(错误)4. Hadoop是一个开源的大数据处理框架。
(正确)5. 大数据只适用于大型企业。
(错误)三、填空题(每题1分,共5分)1. 大数据的5V特征包括:________、________、________、________、________。
答案:Volume、Variety、Velocity、Value、Veracity2. 在大数据处理中,________阶段涉及从大量数据中提取有用信息。
答案:数据挖掘3. Hadoop的核心组件包括:________、________、________。
答案:HDFS、MapReduce、YARN4. 大数据处理的四个基本步骤是:________、________、________、________。
答案:数据采集、数据清洗、数据处理、数据可视化5. 大数据的三个主要来源是:________、________、________。
第一章大数据概述1. ____________________ 互联网的发展分为个阶段。
A.一 B.三 C.二 D.四2. 下列不属于大数据特点的是()。
D.价值密度高A. 种类和来源多样化B.数据量巨大C.分析处理速度快3. _________________ 互联网发展的第个时代为智能互联网。
A. 3.0B.4.0C.1.0D.2.04. 关于大数据叙述不正确的一项是()。
A. 大数据=“海量数据” +“复杂类型的数据”B. 大数据是指在一定时间对内容抓取、管理和处理的数据集合C. 大数据可以及时有效的分析海量的数据D. 数据包括结构化数据、半结构化数据、结构化数据。
5. 下列数据换算正确的一项为()。
A. 1YB=1024EBB. 1TB=1024MBC. 1PB==1024EBD. 1024ZB=1EB6. ___________________________ 结构化数据的表现形式为。
A. 文本B.视图C.二维表D.查询7. ________________________ 结构化的数据,先有,再有.A. 数据结构B. 结构数据C. 内容结构D. 结构内容8. ________________________ 结构化的数据,先有,再有.A. 数据结构B. 结构数据C. 内容结构D. 结构内容9. ______________________ 软件是大数据的。
A.核心B.部件C.引擎D.集合10. 大数据技术不包括()。
A.数据计算B.数据存储C.数据冗余D.数据采集11.大数据的特点不包括()。
A.数量大B.类型少C.速度快D.价值高第二章Hadoop 简介1. ______________________________________ 下列对云栈架构层数不正确的一项为A. 三层云栈架构B. 四层云栈架构C. 五层云栈架构D. 六层云栈架构2. _________ 下列不是云计算三层架构的概括。