大数据技术Hadoop面试题_西安光环大数据培训机构
- 格式:pdf
- 大小:372.73 KB
- 文档页数:13
hadoop常见面试问题
以下是一些Hadoop常见的面试问题:
1. Hadoop是什么?它在大数据领域中的作用是什么?
2. Hadoop的核心组件有哪些?它们各自的作用是什么?
3. HDFS是什么?它有哪些特点和优势?
4. MapReduce是什么?它是如何工作的?
5. YARN是什么?它在Hadoop中的作用是什么?
6. 在Hadoop中如何处理数据倾斜?有哪些常见的数据倾斜问题需要避免?
7. Hadoop集群的部署和配置需要注意哪些问题?
8. 如何优化Hadoop集群的性能?有哪些常见的性能调优方法?
9. 在Hadoop中如何进行数据迁移?有哪些常见的迁移策略?
10. 如何进行Hadoop的安全性配置和管理?有哪些常见的安全措施需要采取?
11. Hadoop和Spark的区别和联系是什么?在什么情况下应该选择Hadoop或Spark?
12. 在Hadoop中如何进行数据清洗和预处理?有哪些常用的工具和库可以使用?
13. 如何使用Hadoop进行机器学习和数据挖掘?有哪些常见的算法和应用场景?
14. Hadoop的版本演进和兼容性问题需要注意哪些方面?
15. 你如何在Hadoop上进行大数据实时流处理?有哪些常用的流处理框架可以选择和使用?。
大数据行业面试题目及答案一、概述大数据行业在近年来迅速发展,对于求职者来说,面试是进入这个行业的重要一步。
本文将为大家介绍一些常见的大数据行业面试题目及其答案,希望能够帮助大家更好地准备与应对面试。
二、技术问题1. 什么是大数据?大数据的特点是什么?大数据是指规模庞大、复杂度高且难以通过传统方式进行处理的数据集合。
其特点包括数据量巨大、多样性、高速度和价值密度低。
2. 大数据处理的常用方法有哪些?常用的大数据处理方法包括分布式存储与计算、数据挖掘和机器学习、并行计算和分布式文件系统等。
3. 请介绍一下Hadoop生态系统。
Hadoop生态系统是由Apache基金会开发和维护的一套开源大数据处理平台。
它包括HDFS(分布式文件系统)、MapReduce(分布式计算框架)和YARN(资源管理器)等核心组件。
4. 什么是MapReduce?它的工作原理是什么?MapReduce是一种分布式计算模型,其工作原理基于分治法和函数式编程思想。
它将任务分解成多个子任务,并通过Map和Reduce两个阶段完成数据的处理和计算。
5. 数据清洗在大数据处理中的重要性是什么?数据清洗是指通过对数据集进行去噪、去重、填充缺失值等处理,使数据变得规整、干净、可用。
在大数据处理过程中,数据清洗是确保数据质量和结果准确性的重要步骤。
三、业务问题1. 你认为大数据对于企业有哪些价值?大数据可帮助企业进行市场分析、精准营销、客户关系管理、商业智能等方面的工作,提升企业的运营效率和决策能力,创造更大的商业价值。
2. 在大数据分析中,常用的数据挖掘技术有哪些?常用的数据挖掘技术包括分类、聚类、关联规则挖掘、预测和异常检测等。
3. 请介绍一下数据湖(Data Lake)的概念和作用。
数据湖是指以一种原始、未经加工和结构化的方式存储大量数据的存储库。
它可以集中存储各种类型和格式的数据,为数据科学家和分析师提供快速而灵活的查询和访问,以支持数据分析和决策。
大数据Hadoop面试题(附答案解析)在大数据开发岗位的需求下,工资待遇水涨船高,不少编程人员在面对职业瓶颈期的时候,会选择转编程方向发展。
你是否已经意识这是你人生中的一个重要转机?能不能抓住这个时代的机遇,就在于你对大数据信息的应用和获取。
而如何成为大数据时代的弄潮儿,掌握当下最紧缺的软件技能是关键!谷歌、阿里巴巴、百度、京东都在急需掌握hadoop技术的大数据人才!无论你精通大数据的哪一项类,都将在未来职场脱颖而出!传智播客上海校区为大家准备了一些面试问题,希望可以帮助到大家更多大数据知识请关注传智播客上海校区或登录传智播客官网了解更多视频01单选题1、下面哪个程序负责HDFS数据存储?a)NameNodeb)Jobtrackerc)Datanoded)econdaryNameNodee)taktracker答案Cdatanode2、HDfS中的block默认保存几份?a)3份b)2份c)1份d)不确定答案A默认3份a)MartinFowlerb)KentBeckc)Dougcutting答案CDougcutting4、下列哪个程序通常与NameNode在一个节点启动?a)SecondaryNameNodeb)DataNodeb)DataNodec)TakTrackerd)Jobtrac ker答案:D此题分析:hadoop的集群是基于mater/lave模式,namenode和jobtracker属于mater,datanode和taktracker属于lave,mater只有一个,而lave 有多个SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常econdary,NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。
JobTracker和TakTracker,JobTracker对应于NameNode,TakTracker对应于DataNode,DataNode和NameNode是针对数据存放来而言的,JobTracker和TakTracker是对于MapReduce执行而言的,mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:obclient,JobTracker与TakTracker。
Hadoop面试题目及答案Hadoop面试45个题目及答案1.Hadoop集群可以运行的3个模式?单机(本地)模式伪分布式模式全分布式模式2. 单机(本地)模式中的注意点?在单机模式(standalone)中不会存在守护进程,所有东西都运行在一个JVM上。
这里同样没有DFS,使用的是本地文件系统。
单机模式适用于开发过程中运行MapReduce程序,这也是最少使用的一个模式。
3. 伪分布模式中的注意点?伪分布式(Pseudo)适用于开发和测试环境,在这个模式中,所有守护进程都在同一台机器上Hadoop被安装在cd/usr/lib/hadoop-0.20/。
8. Namenode、Job tracker和task tracker 的端口号是?Namenode,70;Job tracker,30;Task tracker,60。
9. Hadoop的核心配置是什么?Hadoop的核心配置通过两个xml文件来完成:1,hadoop-default.xml;2,hadoop-site.xml。
这些文件都使用xml格式,因此每个xml中都有一些属性,包括名称和值,但是当下这些文件都已不复存在。
10. 那当下又该如何配置?Hadoop现在拥有3个配置文件:1,core-site.xml;2,hdfs-site.xml;3,mapred-site.xml。
这些文件都保存在conf/子目录下。
11. RAM的溢出因子是?溢出因子(Spill factor)是临时文件中储存文件的大小,也就是Hadoop-temp目录。
12. fs.mapr.working.dir只是单一的目录?fs.mapr.working.dir只是一个目录。
13. hdfs-site.xml的3个主要属性?.dir决定的是元数据存储的路径以及DFS的存储方式(磁盘或是远端)dfs.data.dir决定的是数据存储的路径fs.checkpoint.dir用于第二Namenode 14. 如何退出输入模式?退出输入的方式有:1,按ESC;2,键入:q(如果你没有输入任何当下)或者键入:wq(如果你已经输入当下),并且按下Enter。
大数据方案面试题目及答案一、题目:请根据以下情景描述,设计一个大数据方案,提供可行的解决方案,并解释其实施步骤和相关技术工具。
情景描述:某互联网公司拥有海量用户,每天生成的数据量庞大,包括用户行为数据、服务器日志、社交网络数据等。
该公司希望通过对这些大数据进行挖掘,为产品改进、用户画像、市场营销等方面提供支持。
要求:1. 分析并说明如何收集、存储和处理这些大数据。
2. 提出针对以上数据的应用场景,并描述需要采用的技术工具。
3. 阐述如何保证数据安全和隐私保护。
二、解决方案:1. 数据收集、存储和处理针对大数据的收集,可以使用流式处理技术,如Apache Kafka,用于高吞吐量的实时数据流处理。
通过构建数据管道,将各种数据源的数据实时导入到数据湖中,例如Hadoop分布式文件系统(HDFS)。
对于大数据的存储,可以采用分布式存储系统,如Hadoop的HBase,用于高可靠性的海量数据存储和快速检索。
数据可以按照数据类型和业务需求进行合理划分和存储,提高查询效率。
大数据的处理可以采用Apache Spark进行分布式计算和数据处理。
Spark提供了强大的数据分析和机器学习库,可用于处理海量数据,实现复杂的数据挖掘任务。
2. 应用场景和技术工具场景一:用户行为数据分析通过收集用户行为数据,使用Spark的机器学习库进行用户画像分析。
可以运用聚类算法、关联规则挖掘等技术,发现用户的兴趣偏好和行为习惯,为产品改进和个性化推荐提供支持。
场景二:服务器日志监控使用Kafka实时收集服务器日志,并将数据导入HBase进行存储。
通过Spark Streaming技术对日志数据进行实时监控和异常检测,及时发现并解决服务器故障。
场景三:社交网络数据分析收集社交网络平台上的用户数据,使用GraphX图计算引擎进行社交网络分析。
通过建立用户关系图,分析用户社交圈子、影响力等,为精准的社交推荐和营销提供依据。
3. 数据安全和隐私保护为了保证数据的安全性和隐私保护,可以采取以下措施:- 数据加密:对敏感数据进行加密处理,确保数据在传输和存储过程中不被窃取。
大数据面试题一、数据处理1. 介绍一下MapReduce的工作原理。
MapReduce是一种用于并行处理大规模数据集的编程模型。
它包含两个主要阶段:Map阶段和Reduce阶段。
在Map阶段,输入数据被划分为多个独立的片段,在每个片段上运行Map函数,将输入键值对映射为中间键值对。
在Reduce阶段,中间键值对按键排序并传递到Reduce函数,最终生成最终的键值对输出。
MapReduce采用分布式计算的方式,通过多台计算机协同工作来处理大规模数据集。
2. 什么是Hadoop?它的核心组件有哪些?Hadoop是一个Apache基金会下的开源分布式存储和计算框架。
它的核心组件包括Hadoop Distributed File System(HDFS)用于存储大数据,以及MapReduce用于并行计算。
另外,Hadoop还包括YARN(Yet Another Resource Negotiator)用于集群资源管理和任务调度。
二、数据分析1. 什么是数据清洗?为什么在数据分析中数据清洗至关重要?数据清洗是指在数据分析过程中,通过识别和纠正不准确、不完整、不一致或不准确的数据的过程。
数据清洗至关重要是因为原始数据可能包含大量错误或无效的信息,如果不进行清洗,这些错误数据可能会导致分析结果不准确或失真。
通过数据清洗,可以提高数据的质量,确保分析结果的准确性和可靠性。
2. 请简要介绍一下关联规则挖掘算法。
关联规则挖掘算法是一种用于发现数据集中不同属性之间关系的算法。
其中最常用的算法是Apriori算法,它通过寻找频繁项集和生成强关联规则来发现数据集中的规律。
关联规则挖掘可以帮助分析师了解数据中不同属性之间的关联性,发现隐藏的模式,进而制定有效的业务策略。
三、数据存储1. 什么是NoSQL数据库?与传统的关系型数据库有什么区别?NoSQL数据库是一种非关系型的数据库系统,不同于传统的关系型数据库,它不遵循固定的模式和结构,能够更灵活地存储和处理不同类型的数据。
大数据工程师面试题及答案在大数据领域,对工程师的要求越来越高。
以下是一些常见的大数据工程师面试题及答案,希望能为您的面试准备提供一些帮助。
一、基础知识1、请简要介绍一下 Hadoop 生态系统中的主要组件。
答案:Hadoop 生态系统主要包括 HDFS(分布式文件系统)用于存储大规模数据;YARN(资源管理框架)负责资源的分配和调度;MapReduce(分布式计算框架)用于处理大规模数据的计算任务。
此外,还有 Hive(数据仓库工具)、HBase(分布式数据库)、Sqoop(数据导入导出工具)等组件。
2、什么是数据仓库?与数据库有什么区别?答案:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。
数据库主要用于事务处理,强调实时性和一致性;而数据仓库侧重于数据分析和决策支持,数据量大、结构复杂,存储历史数据。
二、数据处理和分析1、如何处理数据倾斜问题?答案:数据倾斜通常是指某些键值的分布不均匀,导致某些任务处理的数据量远大于其他任务。
可以通过对倾斜的键进行加盐处理,或者使用 Combiner 函数在 Map 端进行局部聚合来缓解。
还可以对数据进行重新分区,或者调整并行度等方式来解决。
2、请介绍一下 Spark 的核心概念,如 RDD、DataFrame 和 Dataset。
答案:RDD(弹性分布式数据集)是 Spark 的基础数据结构,具有不可变、可分区、可并行操作等特点。
DataFrame 类似于关系型数据库中的表,具有列名和数据类型。
Dataset 是 DataFrame 的扩展,提供了类型安全和面向对象的编程接口。
三、数据存储1、介绍一下 HBase 的架构和工作原理。
答案:HBase 基于 Hadoop 的 HDFS 存储数据,采用主从架构。
HMaster 负责管理表的元数据,HRegionServer 负责存储和管理实际的数据。
数据按照行键进行排序和存储,通过 Region 进行划分和管理。
hadoop面试题Hadoop是一个开源的分布式计算框架,被广泛应用于大数据处理。
在面试中,掌握Hadoop的基本概念和技术非常重要。
下面是一些常见的Hadoop面试题,希望能够帮助你更好地准备面试。
1. 什么是Hadoop?它的核心组件有哪些?Hadoop是一个由Apache开发的开源分布式计算框架。
它的核心组件包括Hadoop Distributed File System (HDFS)、YARN (Yet Another Resource Negotiator)和MapReduce。
2. 请简要介绍一下HDFS的特点和工作原理。
HDFS是Hadoop的分布式文件系统,具有高容错性、高吞吐量和高扩展性等特点。
它的工作原理是将大文件切分成多个数据块并存储在不同的服务器上,通过复制机制实现数据的冗余和容错。
3. YARN是什么?它的作用是什么?YARN是Hadoop的资源管理系统,负责集群中的资源分配和作业调度。
它允许多个计算框架共享集群资源,并提供了更好的资源利用率和作业运行效率。
4. MapReduce是Hadoop的一个核心概念,请解释一下Map和Reduce的作用。
MapReduce是一种编程模型,用于处理大规模数据集的并行计算。
Map负责将输入数据转化为键值对的形式,并进行数据处理和转换,而Reduce则负责对Map输出的结果进行汇总和整理。
5. Hadoop中的数据本地性是什么意思?为什么它很重要?数据本地性是指计算任务在执行时尽可能地处理位于相同节点或相邻节点上的数据。
这样可以减少数据传输的开销,提高作业的执行效率。
6. Hadoop的副本复制是如何工作的?为什么要进行副本复制?Hadoop通过将数据切分为多个数据块,并进行多次复制来实现副本复制。
这样可以提高数据的可靠性和容错性,保证即使某台服务器发生故障,数据仍然可用。
7. 请解释一下Hadoop中的数据倾斜问题。
数据倾斜指的是在进行数据处理时,某些特定键值对的数据量过大,导致某些节点的负载过重。
大数据面试题及答案在大数据领域求职面试中,面试官通常会提问一系列与大数据相关的问题,以了解应聘者对于大数据概念、技术和应用的理解。
本文将列举一些常见的大数据面试题,并提供相应的答案,帮助读者更好地准备和应对大数据面试。
一、大数据的定义及特征1. 请简要解释什么是大数据?大数据指的是规模庞大、结构复杂、速度快速增长的数据集合。
这些数据量大到无法使用传统的数据处理工具进行存储、管理和分析。
2. 大数据有哪些特征?大数据的特征主要包括4个方面:数据量大、数据来源多样、数据处理速度快、数据结构复杂。
3. 大数据的应用领域有哪些?大数据在多个领域都有应用,包括但不限于金融、电子商务、物流、医疗、社交媒体、智能交通、城市管理等。
二、大数据处理及存储技术4. 大数据的处理流程是怎样的?大数据的处理流程通常包括数据获取、数据存储、数据清洗、数据分析和数据可视化等环节。
5. 大数据存储有哪些技术?常见的大数据存储技术包括关系型数据库、NoSQL数据库、分布式文件系统如Hadoop HDFS等。
6. 请简要介绍Hadoop框架。
Hadoop是一个开源的分布式计算框架,它包括Hadoop Distributed File System(HDFS)和MapReduce计算模型。
HDFS用于大规模数据的存储,而MapReduce用于数据的处理和计算。
三、大数据分析与挖掘7. 大数据分析的流程是怎样的?大数据分析的流程通常包括数据预处理、数据挖掘、模型建立、模型评估和结果应用等环节。
8. 大数据分析常用的算法有哪些?大数据分析常用的算法包括关联规则挖掘、聚类分析、分类算法、回归算法、时序分析等。
9. 请简要介绍机器学习和深度学习在大数据分析中的应用。
机器学习和深度学习是大数据分析中常用的技术手段,它们可以通过训练模型从大数据中学习,并根据学习结果进行预测、分类和优化等任务。
四、大数据安全与隐私10. 大数据安全存在哪些风险?大数据安全面临的风险包括数据泄露、数据篡改、数据丢失、隐私保护等问题。
Hadoop常见面试题Hadoop是一个分布式计算框架,常常在大数据领域被广泛应用。
在Hadoop的学习和应用过程中,了解常见的面试题目是必要的。
本文将整理并回答一些Hadoop常见面试题,帮助读者更好地准备相关面试。
一、Hadoop的介绍和原理Hadoop是由Apache基金会开发的一个开源框架,用于可靠地存储和处理大规模数据集。
其核心思想是将数据和计算分布在大量的计算机集群上,使得计算能够并行进行,提高了处理大数据的效率和可靠性。
1. Hadoop的核心组件是什么?Hadoop的核心组件包括Hadoop分布式文件系统(HDFS)和Hadoop分布式计算框架(MapReduce)。
2. Hadoop的工作原理是什么?Hadoop的工作原理是将大数据集切分成小的数据块,并将这些数据块分散存储在不同的计算节点上。
计算节点在自己的本地存储上执行相应的计算任务,并将结果返回给主节点。
主节点协调整个任务的调度和数据交换过程。
二、Hadoop常用工具和组件除了核心组件,Hadoop还具有许多相关的工具和组件,用于辅助开发和管理Hadoop集群。
1. Hadoop的相关工具有哪些?Hadoop的相关工具包括Hive、Pig、HBase、Sqoop、Flume等。
其中,Hive是一种基于Hadoop的数据仓库,Pig是一种数据流语言和执行环境,HBase是一个NoSQL数据库,Sqoop是用于Hadoop和关系型数据库之间传输数据的工具,而Flume是用于数据收集、聚合和移动的工具。
2. Hadoop的高可用性和故障恢复机制是怎样的?Hadoop的高可用性和故障恢复机制主要依赖于主节点和备份节点的机制。
当主节点出现故障时,备份节点会接管主节点的工作,并从其他存储节点中恢复数据。
同时,Hadoop还通过数据备份机制确保数据的持久性和可靠性。
三、Hadoop集群的部署和调优Hadoop集群的部署和调优是保证其高效运行和良好性能的关键。
大数据技术Hadoop面试题_西安光环大数据培训机构1. 下面哪个程序负责 HDFS 数据存储。
答案C datanodea)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2. HDfS 中的 block 默认保存几份? 答案A默认3分a)3 份b)2 份c)1 份d)不确定3. 下列哪个程序通常与 NameNode 在一个节点启动?答案Da)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker此题分析:hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一个,而slave有多个SecondaryNameNode内存需求和NameNode在一个数量级上,所以通常secondary NameNode(运行在单独的物理机器上)和NameNode运行在不同的机器上。
JobTracker和TaskTrackerJobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几个主要概念,mapreduce整体上可以分为这么几条执行线索:obclient,JobTracker与TaskTracker。
1、JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar 文件存储到hdfs,并把路径提交到Jobtracker,然后由JobTracker创建每一个Task(即MapTask和ReduceTask)并将它们分发到各个TaskTracker服务中去执行。
2、JobTracker是一个master服务,软件启动之后JobTracker接收Job,负责调度Job的每一个子任务task运行于TaskTracker上,并监控它们,如果发现有失败的task就重新运行它。
一般情况应该把JobTracker部署在单独的机器上。
3、TaskTracker是运行在多个节点上的slaver服务。
TaskTracker主动与JobTracker通信,接收作业,并负责直接执行每一个任务。
TaskTracker都需要运行在HDFS的DataNode上。
4. Hadoop 作者答案C Doug cuttinga)Martin Fowlerb)Kent Beckc)Doug cutting5. HDFS 默认 Block Size 答案:Ba)32MBb)64MBc)128MB(因为版本更换较快,这里答案只供参考)6. 下列哪项通常是集群的最主要瓶颈:答案:C磁盘a)CPUb)网络c)磁盘IOd)内存该题解析:首先集群的目的是为了节省成本,用廉价的pc机,取代小型机及大型机。
小型机和大型机有什么特点?1.cpu处理能力强2.内存够大所以集群的瓶颈不可能是a和d3.网络是一种稀缺资源,但是并不是瓶颈。
4.由于大数据面临海量数据,读写数据都需要io,然后还要冗余数据,hadoop一般备3份数据,所以IO就会打折扣。
7. 关于 SecondaryNameNode 哪项是正确的?答案Ca)它是 NameNode 的热备b)它对内存没有要求c)它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间d)SecondaryNameNode 应与 NameNode 部署到一个节点。
多选题:8. 下列哪项可以作为集群的管理?答案:ABDa)Puppetb)Pdshc)Cloudera Managerd)Zookeeper9. 配置机架感知的下面哪项正确:答案ABCa)如果一个机架出问题,不会影响数据读写b)写入数据的时候会写到不同机架的 DataNode 中c)MapReduce 会根据机架获取离自己比较近的网络数据10. Client 端上传文件的时候下列哪项正确?答案Ba)数据经过 NameNode 传递给 DataNodeb)Client 端将文件切分为 Block,依次上传c)Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作该题分析:Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
11. 下列哪个是 Hadoop 运行的模式:答案ABCa)单机版b)伪分布式c)分布式12. Cloudera 提供哪几种安装 CDH 的方法?答案:ABCDa)Cloudera managerb)Tarballc)Yumd)Rpm判断题:13. Ganglia 不仅可以进行监控,也可以进行告警。
(正确)分析:此题的目的是考Ganglia的了解。
严格意义上来讲是正确。
ganglia 作为一款最常用的Linux环境中的监控软件,它擅长的的是从节点中按照用户的需求以较低的代价采集数据。
但是ganglia在预警以及发生事件后通知用户上并不擅长。
最新的ganglia已经有了部分这方面的功能。
但是更擅长做警告的还有Nagios。
Nagios,就是一款精于预警、通知的软件。
通过将Ganglia和Nagios 组合起来,把Ganglia采集的数据作为Nagios的数据源,然后利用Nagios来发送预警通知,可以完美的实现一整套监控管理的系统。
14. Block Size 是不可以修改的。
(错误)分析:它是可以被修改的Hadoop的基础配置文件是hadoop-default.xml,默认建立一个Job的时候会建立Job的Config,Config首先读入hadoop-default.xml的配置,然后再读入hadoop-site.xml的配置(这个文件初始的时候配置为空),hadoop-site.xml中主要配置需要覆盖的hadoop-default.xml的系统级配置。
15. Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop 支持。
(错误)分析:Nagios是集群监控工具,而且是云计算三大利器之一16. 如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。
(错误)分析:SecondaryNameNode是帮助恢复,而不是替代,如何恢复,可以查看.17. Cloudera CDH 是需要付费使用的。
(错误)分析:第一套付费产品是Cloudera Enterpris,Cloudera Enterprise在美国加州举行的 Hadoop 大会 (Hadoop Summit) 上公开,以若干私有管理、监控、运作工具加强 Hadoop 的功能。
收费采取合约订购方式,价格随用的 Hadoop 叢集大小变动。
18. Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。
(错误)分析:rhadoop是用R语言开发的,MapReduce是一个框架,可以理解是一种思想,可以使用其他语言开发。
19. Hadoop 支持数据的随机读写。
(错)分析:lucene是支持随机读写的,而hdfs只支持随机读。
但是HBase可以来补救。
HBase提供随机读写,来解决Hadoop不能处理的问题。
HBase自底层设计开始即聚焦于各种可伸缩性问题:表可以很“高”,有数十亿个数据行;也可以很“宽”,有数百万个列;水平分区并在上千个普通商用机节点上自动复制。
表的模式是物理存储的直接反映,使系统有可能提高高效的数据结构的序列化、存储和检索。
20. NameNode 负责管理 metadata,client 端每次读写请求,它都会从磁盘中读取或则会写入 metadata 信息并反馈 client 端。
(错误)此题分析:NameNode 不需要从磁盘读取 metadata,所有数据都在内存中,硬盘上的只是序列化的结果,只有每次 namenode 启动的时候才会读取。
1)文件写入Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
2)文件读取Client向NameNode发起文件读取的请求。
21. NameNode 本地磁盘保存了 Block 的位置信息。
(个人认为正确,欢迎提出其它意见)分析:DataNode是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode。
NameNode返回文件存储的DataNode的信息。
Client读取文件信息。
22. DataNode 通过长连接与 NameNode 保持通信。
( )这个有分歧:具体正在找这方面的有利资料。
下面提供资料可参考。
首先明确一下概念:(1).长连接Client方与Server方先建立通讯连接,连接建立后不断开,然后再进行报文发送和接收。
这种方式下由于通讯连接一直存在,此种方式常用于点对点通讯。
(2).短连接Client方与Server每进行一次报文收发交易时才进行通讯连接,交易完毕后立即断开连接。
此种方式常用于一点对多点通讯,比如多个Client连接一个Server.23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。
(错误)分析:hadoop只能阻止好人犯错,但是不能阻止坏人干坏事24. Slave 节点要存储数据,所以它的磁盘越大越好。
(错误)分析:一旦Slave节点宕机,数据恢复是一个难题25. hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。
(错误)26. Hadoop 默认调度器策略为 FIFO(正确)27. 集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行。
(错误)分析:首先明白什么是RAID,可以参考百科磁盘阵列。
这句话错误的地方在于太绝对,具体情况具体分析。
题目不是重点,知识才是最重要的。
因为hadoop 本身就具有冗余能力,所以如果不是很严格不需要都配备RAID。