C3. Hadoop体系架构

格式：pdf
大小：2.95 MB
文档页数：30

下载文档原格式

/ 30

Hadoop和Hbase测试题

Hadoop、Hbase测试题一、选择题（共15题，每题4分，共60分）1. 以下哪一项不属于Hadoop可以运行的模式______。

A. 单机（本地）模式B. 伪分布式模式C. 互联模式D. 分布式模式2. Hadoop的作者是下面哪一位______。

A. Martin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper3. 下列哪个程序通常与 NameNode 在同一个节点启动_____。

A. TaskTrackerB. DataNodeC. SecondaryNameNodeD. Jobtracker4. HDFS 默认 Block Size的大小是______。

5. 下列哪项通常是集群的最主要瓶颈______。

A. CPUB. 网络C. 磁盘IOD. 内存6. 下列关于MapReduce说法不正确的是______。

A. MapReduce是一种计算框架B. MapReduce来源于google的学术论文C. MapReduce程序只能用java语言编写D. MapReduce隐藏了并行计算的细节，方便使用7. HDFS文件系统中一个gzip文件大小75MB，客户端设置Block的大小为默认,请问此文件占用几个Block______。

A. 1B. 2C. 3D. 48. HDFS是基于流数据模式访问和处理超大文件的需求而开发的，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，适合的读写任务是 ______。

A．一次写入，少次读B．多次写入，少次读C．多次写入，多次读D．一次写入，多次读9. HBase依靠______存储底层数据。

A. HDFSB. HadoopC. MemoryD. MapReduce10. HBase依赖______提供强大的计算能力。

A. ZookeeperB. ChubbyC. RPCD. MapReduce11. HBase依赖______提供消息通信机制A. ZookeeperB. ChubbyC. RPCD. Socket12. 下面与HDFS类似的框架是_______A. NTFSB. FAT32C. GFSD. EXT313. 关于 SecondaryNameNode 下面哪项是正确的______。

Hadoop应用开发与案例实战课后习题参考答案1-10章全书章节练习题答案题库

习题一、选择题1．下列有关 Hadoop 的说法正确的是( ABCD )。

A ．Hadoop 最早起源于 NutchB ．Hadoop 中HDFS 的理念来源于谷歌发表的分布式文件系统( GFS )的论文C ．Hadoop 中 MapReduce 的思想来源于谷歌分布式计算框架 MapReduce 的论文D．Hadoop 是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个开源的软件框架2．使用 Hadoop 的原因是( ABCD )。

A．方便：Hadoop 运行在由普通商用机器构成的大型集群上或者云计算服务上B．稳健：Hadoop 致力于在普通商用硬件上运行，其架构假设硬件会频繁失效，Hadoop 可以从容地处理大多数此类故障C ．可扩展：Hadoop 通过增加集群节点，可以线性地扩展以处理更大的数据集D．简单：Hadoop 允许用户快速编写高效的并行代码3．Hadoop 的作者是( B )。

A ．Martin FowlerB ．Doug CuttingC ．Kent BeckD ．Grace Hopper4．以下关于大数据特点的描述中，不正确的是( ABC )。

A ．巨大的数据量B ．多结构化数据C ．增长速度快D ．价值密度高二、简答题1．Hadoop 是一个什么样的框架？答：Hadoop 是一款由Apache 基金会开辟的可靠的、可伸缩的分布式计算的开源软件。

它允许使用简单的编程模型在跨计算机集群中对大规模数据集进行分布式处理。

2．Hadoop 的核心组件有哪些？简单介绍每一个组件的作用。

答：核心组件有 HDFS 、MapReduce 、YARN 。

HDFS ( Hadoop Distributed File Sy，st doop 分布式文件系统)是 Hadoop 的核心组件之一，作为最底层的分布式存储服务而存在。

它是一个高度容错的系统，能检测和应对硬件故障，可在低成本的通用硬件上运行。

行政管理学校-Hadoop大数据技术基础期末考试

行政管理学校-Hadoop大数据技术基础期末考试姓名：学号：一、填空题Hadoop是一个开源的分布式计算框架，主要用于________和________大规模数据集的计算。

在Hadoop集群中，NameNode负责存储和管理文件系统的________ HDFS采用的默认块大小是________M字节HDFS的设计目标之一是提供高________的数据访问性能HDFS的副本放置策略旨在将副本分散存放在不同的________中HDFS中的数据块是以________的方式存储在分布式文件系统中使用HDFS的Java API进行文件读取时，可以使用________类来读取文件内容MapReduce是一种________编程模型，用于处理和分析大规模数据集在MapReduce中，________阶段用于将Mapper的输出结果进行分区和排序Hadoop集群中的________负责资源的管理和作业的调度二、单项选择题1、Hadoop主要用于什么目的?a.分布式计算和处理大型数据集b.图形设计和图像编辑c. 网页开发和托管d. 数据库管理和管理员工作2、Hadoop的哪个组件负责以分布式方式存储和管理数据?a.HDFSb.MapReducec. YARNd. Hive3、Hadoop集群的主要目的是什么?a.提供容错性和高可用性b.对大型数据集进行复杂计算c.创建用于云计算的虚拟机d.使用Java开发Web应用程序4、HDFS如何确保Hadoop集群中的数据可靠性?a.将数据复制到多个节点b.压缩数据以节省存储空间c.加密数据以确保安全性d.将数据均匀分布在集群中5、使用HDFS的Java API与HDFS进行交互通常使用哪种编程语言?a.Pythonb.Javac.C++d.Ruby6、Hadoop中的MapReduce的核心概念是什么?a.将数据分成小块并并行处理它们b.将多个数据集合并为一个统一的视图c.在分布式文件系统中存储和检索数据d.对流式数据进行实时分析7、Hadoop中负责资源管理和作业调度的组件是什么?a.HDFSb.MapReducec.YARNd.Pig8、HDFS的默认复制因子是多少?a.1b.2c.3d.49、Hadoop中用于查询和分析存储在HDFS中的大型数据集的组件是什么?a.HBaseb.Hivec.Sqoopd.Flume10、Hadoop中的YARN是什么意思?a.Yet Another Resource Negotiator（另一种资源协调器）b.Yet Another Replication Node（另一个复制节点）c.Yet Another Routing Network（另一个路由网络）d.Yet Another Redundant Name（另一个冗余命名）11、Hadoop中的Secondary NameNode的作用是什么?a.维护Hadoop集群的整体状态和配置信息b.提供备份存储以保护数据安全c.负责资源管理和作业调度d.用于处理故障恢复和元数据操作12、Hadoop中用于将关系型数据库与Hadoop生态系统集成的工具是什么?a.HBaseb.Pigc.Hived.Sqoop13、在Hadoop中，MapReduce的输入数据格式可以是什么类型?a.文本文件b.图像文件c.视频文件d.仅限JSON文件14、Hadoop中的JobTracker的作用是什么?a.将任务分配给集群中的节点并监控任务执行情况b.存储和管理Hadoop集群中的数据c.提供资源管理和作业调度功能d.处理MapReduce作业的输出数据15、Hadoop中的Hive是什么?a.一种分布式文件系统b.一种用于数据处理的编程模型c.一种用于数据仓库和查询的工具d.一种用于并行计算的编程框架16、Hadoop中的NameNode负责什么任务?a.存储和管理数据块的副本b.负责作业调度和资源管理c.负责整个文件系统的元数据管理d.处理MapReduce作业的输入数据17、Hadoop中的HBase是什么?a.一种分布式数据库b.一种编程模型和执行环境c.一种用于数据可视化的工具d.一种用于机器学习的框架18、Hadoop中的MapReduce框架基于哪个编程模型?a.关系型数据库模型b.面向对象编程模型c.函数式编程模型d.批处理模型19.关于Hadoop的以下哪个说法是正确的?a.Hadoop是关系型数据库管理系统。

Hadoop基础(习题卷8)

Hadoop基础(习题卷8)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]在Java中，<? version="1.0" encoding=”UTF-8”>这行声明该文档采用了什么编码标准A)GB2312B)ANSIC)ISO-8859-1D)UTF-8答案:D解析:2.[单选题]关于hadoop集群描述正确的是（）A)hadoop集群组件之间通过RPC通信协议B)hadoop集群NameNode节点越多越好C)hadoop集群使用Namenode存储元数据D)以上都正确答案:A解析:3.[单选题]HDFS 默认 Block SizeA)32MBB)64MBC)128MBD)240MB答案:B解析:4.[单选题]下面属于Hadoop特点的是（）A)低价值密度B)低吞吐量C)高容错D)高成本答案:C解析:5.[单选题]编写MapReduce必须继承（）类A)ConfiguredB)DonfiguredC)AonfiguredD)Writable答案:A解析:6.[单选题]在Java中，File类提供的方法中，哪个方法可以获取一个目录下所有子文件对象D)listFiles()答案:D解析:7.[单选题]HDFS结构不包括________。

A)Master体系结构B)主从服务器C)元数据服务器D)存储服务器答案:A解析:8.[单选题]下列哪一项不属于数据库事务具有ACID四性？A)间断性B)原子性C)一致性D)持久性答案:A解析:9.[单选题]客户端从Zookeeper获取Region的存储位置信息后，直接在_______上读写数据。

A)ZookeeperB)HMasterC)Region ServerD)HLog答案:C解析:10.[单选题]对NodeManager服务描述不正确的是( )A)NodeManager负责单节点资源管理和使用B)NodeManager管理当前节点的ContainerC)向ResourceManager汇报本节点上的资源使用情况D)NodeManager服务器不需要与ResourceManager通信答案:D解析:11.[单选题]下面对分区描述的过程正确的是( )A)merge是将多个溢写文件合并到一个文件B)merge过程不可能有Combiner处理C)缓冲区的作用不大D)以上都不正确答案:A解析:12.[单选题]云计算发展对产业的影响对一般企业和机构来说主要是（）。

Hadoop基础(试卷编号151)

Hadoop基础(试卷编号151)1.[单选题]下列关于Hadoop和Spark说法错误的是（）。

A)二者都支持流式计算B)二者都支持批量计算C)二者都支持机器学习D)二者都支持SQL语句查询答案:A解析:2.[单选题]测试 Sqoop 是否能够正常连接 MySQL 数据库命令是( )A)sqoop list-database --connect jdbc:mysql://127.0.0.1:3306/ --username root - PB)sqoop list-databases --connection jdbc:mysql://127.0.0.1:3306/ --username root - PC)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root -LD)sqoop list-databases --connect jdbc:mysql://127.0.0.1:3306/ --username root - P答案:D解析:3.[单选题]下面哪个命令是用来定义shell的全局变量：A)exportfsB)aliasC)exportsD)export答案:D解析:4.[单选题]关于Hadoop下列说法错误的是（）A)HDFS采用了Master/Slave的架构模型B)Namenode负责维护文件系统的命名空间C)Datanode执行比如打开、关闭、重命名文件操作D)HDFS暴露了文件系统的命名空间，允许用户以文件的形式在上面存储数据答案:C解析:5.[单选题]关干HiveSQL运行原理，描述不正确的选项有?(A)C)对于selectcount（*）fromtable操作，一定会启reduce任务D)对于select*fromtable语句不会启MapReduce答案:A解析:6.[单选题]调用Zookeeper对象创建的节点,不包括()。

Hadoop基础(习题卷3)

Hadoop基础(习题卷3)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]大数据的简单算法与小数据的复杂算法相比（）A)更有效B)相当C)不具备可比性D)无效答案:A解析:2.[单选题]下列选项中，不是CouchDB的复制中的特点是：A)使用优先列表B)复制过程是逐步进行C)允许分区复制D)支持智能文档模式答案:A解析:3.[单选题]从HDFS下载文件，正确的shell命令是（）。

A)-getB)-appendToFileC)-putD)-copyFromLocal答案:A解析:4.[单选题]关于HDFS集群中的DataNode的描述不正确的是?A)存储客户端上传的数据的数据块B)一个DataNode上存储的所有数据块可以有相同的C)DataNode之间可以互相通信D)响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑答案:B解析:5.[单选题]在Java中，一个线程如果调用了sleep()方法，能唤醒它的方法是A)notify()B)resume()C)run()D)以上都不是，时间到了会自动继续执行答案:D解析:6.[单选题]软件是大数据的_________。

A)核心解析:7.[单选题]_______模式，只适合于Hive简单试用及单元测试。

A)单用户模式B)多用户模式C)多用户远程模式D)单用户远程模式答案:A解析:8.[单选题]下列关于Hive描述错误的是（）。

A)hive学习成本低，支持标准的SQL语法B)hive运行效率低，延迟高C)HQL的表达能力有限D)Hive支持迭代计算答案:D解析:9.[单选题]下面哪个选项不是我们需要Hadoop的主要原因（）A)我们需要处理PB级别的数据B)为每个应用建立一个可靠的系统是很昂贵的C)几乎每天都有结点坏掉D)把一个任务分割成多个子任务的方式是不好的答案:D解析:10.[单选题]为了让集群中的机器能够正常通信，所有集群的IP必须设置成静态IP，防止机器重启之后而找不到机器的情况，那么IP地址配置需要修改那个文件（）A)ifcfg-loB)network-functionsC)ifcfg-ens33D)network-functions-ipv6答案:C解析:11.[单选题]Spark生态系统组件Spark Streaming的应用场景是？A)基于历史数据的数据挖掘B)图结构数据的处理C)基于历史数据的交互式查询D)基于实时数据流的数据处理答案:D解析:12.[单选题]关于HDFS集群中的DataNode的描述不正确的是？A)DataNode之间都是独立的，相互之间不会有通信B)存储客户端上传的数据的数据块C)响应客户端的所有读写数据请求，为客户端的存储和读取数据提供支撑13.[单选题]Hadoop2.x版本中的数据块大小默认是多少? ()A)64MB)128MC)256MD)512M答案:B解析:14.[单选题]HDFS分布式文件系统的特点为____________。

Hadoop基础(习题卷11)

Hadoop基础(习题卷11)第1部分：单项选择题，共54题，每题只有一个正确答案,多选或少选均不得分。

1.[单选题]在文件属性中，文件的权限用第( )列字符表示。

A)1-5B)2-10C)3-9D)1-8答案:B解析:2.[单选题]下列______不是云计算三层架构的概括。

A)IaaSB)PaaSC)SaaPD)SaaS答案:C解析:3.[单选题]验证java运行环境是否安装成功，使用哪个命令查看java版本，若出现版本号则表示安装成功（）A)java-versionB)java-ipconfigC)java-editionD)java-Release答案:A解析:4.[单选题]在Hadoop官方的示例程序包hadoop-maprecduceexamples-2.6.4.jar中，封装了一些常用的测试模块。

可以获得文件中单词长度的中位数的模块是(C)。

A)wordcountB)wordmeanC)wordmedianD)wordstandarddeviation答案:C解析:5.[单选题]在 MapReduce 中 Shuffle 的主要作用是（）A)将数据进行拆分B)对映射后的数据进行排序, 然后输入到 ReducerC)经过映射后的输出数据会被排序，然后每个映射器会进行分区D)通过实现自定义的 Partitioner 来指定哪些数据进入哪个Reducer答案:B解析:B)HTTPSC)SSHD)ClientProtocol答案:C解析:7.[单选题]关于ApplicationMaster组件描述错误的是（）。

A)与资源管理器协商获取资源B)与节点管理器通信以启动或停止具体的任务C)监控应用程序所有任务的状态D)定时向资源管理器汇报资源使用情况答案:A解析:8.[单选题]SecondaryNameNode 是对主NameNode的一个补充，他会定期地执行对HDFS元数据的检查点。

当前设计仅允许每个HDFS只有（）SecondaryNameNode节点。

Cloudcomputing_理论测试题目答案(最新更新)

Cl oud computing 理论测试题目答案说明：1、搜索时如果找不到可先尝试去掉英文部分，只搜索中文，可能是中英文间空格问题。

2、如果碰到“下面说法错误的是（）”，直接搜索选项，也仅有此类题可搜索任意选项，绿色部分为正确选项。

3、红色部分为错误选项，本人到100后就没心情继续刷了，后继者继续努力吧，据说现有300-400道题，助教打算近期再添加100多题……4、改进后上传前，你可以在此部分表明更新信息、姓名和日期，但不要抹杀前人的努力，切记！（10-本-白玉欣2012/4/20）1. 请问在Hadoop体系结构中，按照由下到上顺序，排列正确的是（）mon MapReduce Pig2. 关于Datanode的描述错误的是（）D.文件的副本系数由Datanode 储存3.关于MapReduce的描述错误的是（）D. 一个MapReduce任务（Task）通常会把输入集切分成若干独立的数据块4. Hive查询语言和SQL的一个不同之处关于HDFS 命令错误的是（）C. cp：返回到上一级目录5. 配置hbase过程中，下面那个文件没有改动。

A.hbase-default.xml6. hbase表格中行关键字对应的列值最少有几个？D.任意个7. 客户端发现域服务器崩溃之后与__交互来处理问题.B.hbasemaster8. Hive最重视的性能是可测量性，延展性，__和对于输入格式的宽松匹配性。

B. 容错性9. hbase中存储的数据类型是__。

B.byte10. INT整数型有多少个字节__。

NOT D. 8 byteNot bc11. Hive提供了基于SQL并使得熟悉SQL的用户能够查询数据的__。

A.QL12. 下面哪一个对于Hive查询语言的命令的描述是错误的__。

C.SHOW PARTITIONS page_view：列出表格page_view 的所有的分隔。

如果该表格没有被分隔，那么什么也不做。

大数据试卷三年级【含答案】

大数据试卷三年级【含答案】专业课原理概述部分一、选择题（每题1分，共5分）1. 下列哪项不是大数据的主要特征？A. 数据量巨大B. 数据类型单一C. 处理速度快D. 价值密度低答案：B2. 在大数据分析中，哪个阶段涉及从大量数据中提取有用信息？A. 数据收集B. 数据存储C. 数据处理D. 数据挖掘答案：D3. 以下哪种技术常用于大数据存储？A. SQL数据库B. NoSQL数据库C. 文件存储D. 以上都对答案：D4. Hadoop的核心组件不包括以下哪个？A. HDFSB. MapReduceC. SparkD. YARN答案：C5. 下列哪个不是大数据处理的基本步骤？A. 数据采集B. 数据清洗C. 数据可视化D. 数据传输答案：D二、判断题（每题1分，共5分）1. 大数据的5V特征包括：Volume, Variety, Velocity, Value, Veracity。

（正确）2. 数据挖掘是从大量数据中提取有用信息的过程。

（正确）3. 在大数据分析中，数据预处理比数据挖掘更重要。

（错误）4. Hadoop是一个开源的大数据处理框架。

（正确）5. 大数据只适用于大型企业。

（错误）三、填空题（每题1分，共5分）1. 大数据的5V特征包括：________、________、________、________、________。

答案：Volume、Variety、Velocity、Value、Veracity2. 在大数据处理中，________阶段涉及从大量数据中提取有用信息。

答案：数据挖掘3. Hadoop的核心组件包括：________、________、________。

答案：HDFS、MapReduce、YARN4. 大数据处理的四个基本步骤是：________、________、________、________。

答案：数据采集、数据清洗、数据处理、数据可视化5. 大数据的三个主要来源是：________、________、________。

(完整版)hadoop习题册

第一章大数据概述1. ____________________ 互联网的发展分为个阶段。

A．一 B.三 C.二 D.四2. 下列不属于大数据特点的是（）。

D.价值密度高A. 种类和来源多样化B.数据量巨大C.分析处理速度快3. _________________ 互联网发展的第个时代为智能互联网。

A. 3.0B.4.0C.1.0D.2.04. 关于大数据叙述不正确的一项是（）。

A. 大数据=“海量数据” +“复杂类型的数据”B. 大数据是指在一定时间对内容抓取、管理和处理的数据集合C. 大数据可以及时有效的分析海量的数据D. 数据包括结构化数据、半结构化数据、结构化数据。

5. 下列数据换算正确的一项为（）。

A. 1YB=1024EBB. 1TB=1024MBC. 1PB==1024EBD. 1024ZB=1EB6. ___________________________ 结构化数据的表现形式为。

A. 文本B.视图C.二维表D.查询7. ________________________ 结构化的数据，先有,再有.A. 数据结构B. 结构数据C. 内容结构D. 结构内容8. ________________________ 结构化的数据，先有,再有.A. 数据结构B. 结构数据C. 内容结构D. 结构内容9. ______________________ 软件是大数据的。

A.核心B.部件C.引擎D.集合10. 大数据技术不包括（）。

A.数据计算B.数据存储C.数据冗余D.数据采集11.大数据的特点不包括（）。

A.数量大B.类型少C.速度快D.价值高第二章Hadoop 简介1. ______________________________________ 下列对云栈架构层数不正确的一项为A. 三层云栈架构B. 四层云栈架构C. 五层云栈架构D. 六层云栈架构2. _________ 下列不是云计算三层架构的概括。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

维护 Hadoop 集群的配置和命名信息，并提供分布式锁同步功能和群组管理功能第7页
基于Hadoop的海量数据处理框架
平台管理层：确保整个数据处理平台平稳安全运行的保障，包括配置管理、运行监控、故障管理、性能优化、安全管理等在内的功能。数据分析层：提供一些高级的分析工具给数据分析人员，以提高他们的生产效率。编程模型层：为大规模数据处理提供一个抽象的并行计算编程模型，以及为此模型提供可实施的编程环境和运行环境。数据存储层：提供分布式、可扩展的大量数据表的存储和管理能力，强调的是在较低成本的条件下实现海量数据表的管理能力。文件存储层：利用分布式文件系统技术，将底层数量众多且分布在不同位置的通过网络连接的各种存储设备组织在一起，通过统一的接口向上层应用提供对象级文件访问服务能力。数据集成层：系统需要处理的数据来源，包括私有的应用数据、存放在数据库中的数据、被分析系统运行产生的日志数据等，这些数据具有结构多样、类型多变的特点。

– 协调作业的执行 – 仅有一个
MapTask，ReduceTask
– 具体执行Map和Reduce任务的程序
第10页
Hadoop核心 – 运行机制
① MapReduce程序启动作业 ② JobClient从JobTracker获得作业ID ③ JobClient将代码和配置存入HDFS ④ JobClient向JobTracker提交此作业
EXT2
第13页
Hadoop数据存储 – 感受HBase
文件
表
第14页
Hadoop数据分析 – Hive和Pig
第15页
Hadoop数据分析 – Hive
来源： Ashish Thusoo, Joydeep Sen Sarma, et al., Facebook, “Hive: A Warehousing Solution over A Map-Reduce Framework”, Proceedings of the VLDB Endowment, Aug. 2009. Why Hive？（/）
2008
第5页
Hadoop发展历程
第6页
Hadoop技术族
Hive
数据仓库工具，将结构化数据文件映射为库表，并提供强大的类 SQL查询功能
HBase
分布式的、面向列的数据库，是一个适合于非结构化海量数据存储的数据库
Pig
适合海量数据分析的脚本语言工具，包括了一个数据分析语言和支持的运行环境

TaskTracker – 任务控制 – 一个或多个 Map或Reduce 任务 – 维持心跳
– 管理者，命名空间，维护文件树及文件和目录的元数据 – 命名空间镜像文件、编辑日志文件、数据块与DN的对应
– NameNode备份 – 与NN定时通信 – 保存元数据快照 – 故障切换
– 与NameNode 定时通信 – 保存元数据快照 – 故障切换
第11页
⑨ TaskRunner在新Java虚拟机中创建出 MapTask或ReduceTask进行运算， MapTask和ReduceTask会定时向 TaskRunner报告进度，直到任务完成
Hadoop数据存储 – HBase
第12页
Hadoop数据存储 – Why HBase？
来源： Fay Chang, Jeffrey Dean, et. al., Bigtable: A Distributed Storage System for Structured Data, Seventh Symposium on Operating System Design and Implementation, 2006. Why HBase？（/book/architecture.html#arch.overview）
– Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. – Pig's language layer currently consists of a textual language called Pig Latin. – Pig vs. Hive：数据准备 vs. 数据呈现
第19页
Hadoop数据集成
第ቤተ መጻሕፍቲ ባይዱ0页
Hadoop数据集成 – HCatalog
来源： Hortonworks，2010年3月提出，2011年5月发布。
Why HCatalog？（/hcatalog/ ）
– Apache HCatalog is a table and storage management service for data created using Apache Hadoop.
第3页
Hadoop的由来
当老二干不过老大时，怎么办？
免费+开源
vs.
vs.
Hadoop的由来
Doug Cutting + Google论文 + Yahoo！支持
Doug Cutting Nutch, Lucene创始人 Hadoop创始人挣扎在如何使Nutch满足Web-Scale要求 2002
Common
整体架构提供基础支撑性功能，主要包括了文件系统、 RPC 和数据串行化库
Chukwa
分布式数据收集和分析工具集，用于显示、监控、分析大型分布式系统的运行数据
HCatalog
提供共享数据模版和数据类型的机制，并对数据表进行抽象以便于进行数据整合
HDFS
构建于廉价计算机集群之上的分布式文件系统，低成本、高可靠性、高吞吐量
第16页
Hadoop数据分析 – 感受Hive
代码
SQL
SELECT * FROM log WHERE date > 2012-12-01 DISTRIBUTE BY date SORT BY date ASC, host ASC;
第17页
Hadoop数据分析 – Pig
来源： Christopher Olston, Benjamin Reed, Utkarsh Srivastava, et al., Yahoo!, "Pig Latin: A Not-so-foreign Language for Data Processing", ACM SIGMOD, 2008. Why Pig？（/）
Providing a shared schema and data type mechanism. Providing a table abstraction so that users need not be concerned with where or how their data is stored.
⑦ JobTracker将Map任务和Reduce任务分配到空闲的TaskTracker节点 ⑧ TaskTracker从HDFS取出数据存入本地磁盘，并启动一个TaskRunner准备运行任务
⑤ JobTracker将作业放入队列中等待调度
⑥ JobTracker从HDFS中取出代码和配置，并创建对应数量的Map任务和Reduce任务
2003
参考GFS论文，在Nutch中实现NDFS 参考MapReduce论文，实现并移植Nutch 加入Yahoo!并扩充，建立Hadoop项目 2004 2004 2005 2006 2006
发表GFS论文
发表MapReduce论文
发表BigTable、Chubby论文
Hadoop成为Apache顶级项目
– Hive is a data warehouse system for Hadoop that facilitates easy data summarization, ad-hoc queries, and the analysis of large datasets stored in Hadoop compatible file systems. Hive provides a mechanism to project structure onto this data and query the data using a SQL-like language called HiveQL. – 数据库 vs. 数据仓库：存取（面向事务） vs. 分析（面向主题）
MapReduce
分布式编程模型和软件框架，用于在集群上编写对海量数据处理的并行化程序
Ambari
安装、管理和监控 Hadoop 集群的 Web 界面工具。目前已支持大部分组件的管理
Sqoop
在 Hadoop 与传统数据库间进行数据交换的工具，支持两者之间的数据导入和导出
ZooKeeper
海量数据处理中的云计算
C3. Hadoop体系架构
北京邮电大学信息与通信工程学院 2014年春季学期
上节问题
问题：
– 对Google的三大核心技术任意一个的最重要技术特点进行研究
要求：
– 详细讲解该特点，并说明为什么是最重要的
第2页
本节目录
Hadoop发展历程基于Hadoop的海量数据处理架构 Hadoop技术组件介绍 Hadoop实战
– HDFS is a distributed file system that is well suited for the storage of large files. It's documentation states that it is not, however, a general purpose file system, and does not provide fast individual record lookups in files. – HBase, on the other hand, is built on top of HDFS and provides fast record lookups (and updates) for large tables. – This can sometimes be a point of conceptual confusion. HBase internally puts your data in indexed "StoreFiles" that exist on HDFS for high-speed lookups.