《大数据技术原理与操作应用》第1章习题答案
- 格式:doc
- 大小:118.53 KB
- 文档页数:5
第一章大数据概述单选题1、第一次信息化浪潮主要解决什么问题?B(A)信息传输(B)信息处理(C)信息爆炸(D)信息转换2、下面哪个选项属于大数据技术的“数据存储和管理”技术层面的功能?A(A)利用分布式文件系统、数据仓库、关系数据库等实现对结构化、半结构化和非结构化海量数据的存储和管理(B)利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析(C)构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全(D)把实时采集的数据作为流计算系统的输入,进行实时处理分析3、在大数据的计算模式中,流计算解决的是什么问题?D(A)针对大规模数据的批量处理(B)针对大规模图结构数据的处理(C)大规模数据的存储管理和查询分析(D)针对流数据的实时计算4、大数据产业指什么?A(A)一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合(B)提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业(C)提供数据分享平台、数据分析平台、数据租售平台等服务的企业(D)提供分布式计算、数据挖掘、统计分析等服务的各类企业5、下列哪一个不属于大数据产业的产业链环节?A(A)数据循环层(B)数据源层(C)数据分析层(D)数据应用层6、下列哪一个不属于第三次信息化浪潮中新兴的技术?A(A)互联网(B)云计算(C)大数据(D)物联网7、云计算平台层(PaaS)指的是什么?A(A)操作系统和围绕特定应用的必需的服务(B)将基础设施(计算资源和存储)作为服务出租(C)从一个集中的系统部署软件,使之在一台本地计算机上(或从云中远程地)运行的一个模型(D)提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务8、下面关于云计算数据中心的描述正确的是:A(A)数据中心是云计算的重要载体,为各种平台和应用提供运行支撑环境(B)数据中心就是放在企业内部的一台中心服务器(C)每个企业都需要建设一个云计算数据中心(D)数据中心不需要网络带宽的支撑9、下列哪个不属于物联网的应用?D(A)智能物流(B)智能安防(C)环保监测(D)数据清洗10、下列哪项不属于大数据的发展历程?D(A)成熟期(B)萌芽期(C)大规模应用期(D)迷茫期多选题1、第三次信息化浪潮的标志是哪些技术的兴起?BCD(A)个人计算机(B)物联网(C)云计算(D)大数据2、信息科技为大数据时代提供哪些技术支撑?ABC(A)存储设备容量不断增加(B)网络带宽不断增加(C)CPU 处理能力大幅提升(D)数据量不断增大3、大数据具有哪些特点?ABCD(A)数据的“大量化”(B)数据的“快速化”(C)数据的“多样化”(D)数据的“价值密度比较低”4、下面哪个属于大数据的应用领域?ABCD(A)智能医疗研发(B)监控身体情况(C)实时掌握交通状况(D)金融交易5、大数据的两个核心技术是什么?AC(A)分布式存储(B)分布式应用(C)分布式处理(D)集中式存储6、云计算关键技术包括什么?ABCD(A)分布式存储(B)虚拟化(C)分布式计算(D)多租户7、云计算的服务模式和类型主要包括哪三类?ABC(A)软件即服务(SaaS)(B)平台即服务(PaaS)(C)基础设施即服务(IaaS)(D)数据采集即服务(DaaS)8、物联网主要由下列哪些部分组成的?ABCD(A)应用层(B)处理层(C)感知层(D)网络层9、物联网的关键技术包括哪些?ABC(A)识别和感知技术(B)网络与通信技术(C)数据挖掘与融合技术(D)信息处理一体化技术10、大数据对社会发展的影响有哪些?ABC(A)大数据成为一种新的决策方式(B)大数据应用促进信息技术与各行业的深度融合(C)大数据开发推动新技术和新应用的不断涌现(D)大数据对社会发展没有产生积极影响第二章大数据处理架构Hadoop单选题1、下列哪个不属于Hadoop的特性?A(A)成本高(B)高可靠性(C)高容错性(D)运行在Linux平台上2、Hadoop框架中最核心的设计是什么?A(A)为海量数据提供存储的HDFS和对数据进行计算的MapReduce(B)提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务(C)Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中(D)Hadoop被视为事实上的大数据处理标准3、在一个基本的Hadoop集群中,DataNode主要负责什么?D(A)负责执行由JobTracker指派的任务(B)协调数据计算任务(C)负责协调集群中的数据存储(D)存储被拆分的数据块4、Hadoop最初是由谁创建的?B(A)Lucene(B)Doug Cutting(C)Apache(D)MapReduce5、下列哪一个不属于Hadoop的大数据层的功能?C(A)数据挖掘(B)离线分析(C)实时计算(D)BI分析6、在一个基本的Hadoop集群中,SecondaryNameNode主要负责什么?A(A)帮助NameNode收集文件系统运行的状态信息(B)负责执行由JobTracker指派的任务(C)协调数据计算任务(D)负责协调集群中的数据存储7、下面哪一项不是Hadoop的特性?B(A)可扩展性高(B)只支持少数几种编程语言(C)成本低(D)能在linux上运行8、在Hadoop项目结构中,HDFS指的是什么?A(A)分布式文件系统(B)分布式并行编程模型(C)资源管理和调度器(D)Hadoop上的数据仓库9、在Hadoop项目结构中,MapReduce指的是什么?A(A)分布式并行编程模型(B)流计算框架(C)Hadoop上的工作流管理系统(D)提供分布式协调一致性服务10、下面哪个不是Hadoop1.0的组件:(C)(A)HDFS(B)MapReduce(C)YARN(D)NameNode和DataNode多选题1、Hadoop的特性包括哪些?ABCD(A)高可扩展性(B)支持多种编程语言(C)成本低(D)运行在Linux平台上2、下面哪个是Hadoop2.0的组件?AD(A)ResourceManager(B)JobTracker(C)TaskTracker(D)NodeManager3、一个基本的Hadoop集群中的节点主要包括什么?ABCD(A)DataNode:存储被拆分的数据块(B)JobTracker:协调数据计算任务(C)TaskTracker:负责执行由JobTracker指派的任务(D)SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息4、下列关于Hadoop的描述,哪些是正确的?ABCD(A)为用户提供了系统底层细节透明的分布式基础架构(B)具有很好的跨平台特性(C)可以部署在廉价的计算机集群中(D)曾经被公认为行业大数据标准开源软件5、Hadoop集群的整体性能主要受到什么因素影响?ABCD(A)CPU性能(B)内存(C)网络(D)存储容量6、下列关于Hadoop的描述,哪些是错误的?AB(A)只能支持一种编程语言(B)具有较差的跨平台特性(C)可以部署在廉价的计算机集群中(D)曾经被公认为行业大数据标准开源软件7、下列哪一项不属于Hadoop的特性?AB(A)较低可扩展性(B)只支持java语言(C)成本低(D)运行在Linux平台上第三章分布式文件系统HDFS单选题1、分布式文件系统指的是什么?A(A)把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群(B)用于在Hadoop与传统数据库之间进行数据传递(C)一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统(D)一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据2、下面哪一项不属于计算机集群中的节点?B(A)主节点(Master Node)(B)源节点(SourceNode)(C)名称结点(NameNode)(D)从节点(Slave Node)3、在HDFS中,默认一个块多大?A(A)64MB(B)32KB(C)128KB(D)16KB4、下列哪一项不属于HDFS采用抽象的块概念带来的好处?C(A)简化系统设计(B)支持大规模文件存储(C)强大的跨平台兼容性(D)适合数据备份5、在HDFS中,NameNode的主要功能是什么?D(A)维护了block id 到datanode本地文件的映射关系(B)存储文件内容(C)文件内存保存在磁盘中(D)存储元数据6、下面对FsImage的描述,哪个是错误的?D(A)FsImage文件没有记录每个块存储在哪个数据节点(B)FsImage文件包含文件系统中所有目录和文件inode的序列化形式(C)FsImage用于维护文件系统树以及文件树中所有的文件和文件夹的元数据(D)FsImage文件记录了每个块具体被存储在哪个数据节点7、下面对SecondaryNameNode第二名称节点的描述,哪个是错误的?A(A)SecondaryNameNode一般是并行运行在多台机器上(B)它是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间(C)SecondaryNameNode通过HTTPGET方式从NameNode上获取到FsImage和EditLog文件,并下载到本地的相应目录下(D)SecondaryNameNode是HDFS架构中的一个组成部分8、HDFS采用了什么模型?B(A)分层模型(B)主从结构模型(C)管道-过滤器模型(D)点对点模型9、在Hadoop项目结构中,HDFS指的是什么?A(A)分布式文件系统(B)流数据读写(C)资源管理和调度器(D)Hadoop上的数据仓库10、下列关于HDFS的描述,哪个不正确?D(A)HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能(B)HDFS采用了主从(Master/Slave)结构模型(C)HDFS采用了冗余数据存储,增强了数据可靠性(D)HDFS采用块的概念,使得系统的设计变得更加复杂多选题1、HDFS要实现以下哪几个目标?ABC(A)兼容廉价的硬件设备(B)流数据读写(C)大数据集(D)复杂的文件模型2、HDFS特殊的设计,在实现优良特性的同时,也使得自身具有一些应用局限性,主要包括以下哪几个方面?BCD(A)较差的跨平台兼容性(B)无法高效存储大量小文件(C)不支持多用户写入及任意修改文件(D)不适合低延迟数据访问3、HDFS采用抽象的块概念可以带来以下哪几个明显的好处?ACD(A)支持大规模文件存储(B)支持小规模文件存储(C)适合数据备份(D)简化系统设计4、在HDFS中,名称节点(NameNode)主要保存了哪些核心的数据结构?AD(A)FsImage(B)DN8(C)Block(D)EditLog5、数据节点(DataNode)的主要功能包括哪些?ABC(A)负责数据的存储和读取(B)根据客户端或者是名称节点的调度来进行数据的存储和检索(C)向名称节点定期发送自己所存储的块的列表(D)用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间6、HDFS的命名空间包含什么?BCD(A)磁盘(B)文件(C)块(D)目录7、下列对于客服端的描述,哪些是正确的?ABCD(A)客户端是用户操作HDFS最常用的方式,HDFS在部署时都提供了客户端(B)HDFS客户端是一个库,暴露了HDFS文件系统接口(C)严格来说,客户端并不算是HDFS的一部分(D)客户端可以支持打开、读取、写入等常见的操作8、HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了哪些明显的局限性?ABCD(A)命名空间的限制(B)性能的瓶颈(C)隔离问题(D)集群的可用性9、HDFS数据块多副本存储具备以下哪些优点?ABC(A)加快数据传输速度(B)容易检查数据错误(C)保证数据可靠性(D)适合多平台上运行10、HDFS具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?BCD(A)数据源太大(B)数据节点出错(C)数据出错(D)名称节点出错第四章分布式数据库HBase单选题1、下列关于BigTable的描述,哪个是错误的?A(A)爬虫持续不断地抓取新页面,这些页面每隔一段时间地存储到BigTable里(B)BigTable是一个分布式存储系统(C)BigTable起初用于解决典型的互联网搜索问题(D)网络搜索应用查询建立好的索引,从BigTable得到网页2、下列选项中,关于HBase和BigTable的底层技术对应关系,哪个是错误的?B(A)GFS与HDFS相对应(B)GFS与Zookeeper相对应(C)MapReduce与Hadoop MapReduce相对应(D)Chubby与Zookeeper相对应3、在HBase中,关于数据操作的描述,下列哪一项是错误的?C(A)HBase采用了更加简单的数据模型,它把数据存储为未经解释的字符串(B)HBase操作不存在复杂的表与表之间的关系(C)HBase不支持修改操作(D)HBase在设计上就避免了复杂的表和表之间的关系4、在HBase访问接口中,Pig主要用在哪个场合?D(A)适合Hadoop MapReduce作业并行批处理HBase表数据(B)适合HBase管理使用(C)适合其他异构系统在线访问HBase表数据(D)适合做数据统计5、HBase中需要根据某些因素来确定一个单元格,这些因素可以视为一个“四维坐标”,下面哪个不属于“四维坐标”?B(A)行键(B)关键字(C)列族(D)时间戳6、关于HBase的三层结构中各层次的名称和作用的说法,哪个是错误的?A(A)Zookeeper文件记录了用户数据表的Region位置信息(B)-ROOT-表记录了.META.表的Region位置信息(C).META.表保存了HBase中所有用户数据表的Region位置信息(D)Zookeeper文件记录了-ROOT-表的位置信息7、下面关于主服务器Master主要负责表和Region的管理工作的描述,哪个是错误的?D(A)在Region分裂或合并后,负责重新调整Region的分布(B)对发生故障失效的Region服务器上的Region进行迁移(C)管理用户对表的增加、删除、修改、查询等操作(D)不支持不同Region服务器之间的负载均衡8、HBase只有一个针对行健的索引,如果要访问HBase表中的行,下面哪种方式是不可行的?B(A)通过单个行健访问(B)通过时间戳访问(C)通过一个行健的区间来访问(D)全表扫描9、下面关于Region的说法,哪个是错误的?C(A)同一个Region不会被分拆到多个Region服务器(B)为了加快访问速度,.META.表的全部Region都会被保存在内存中(C)一个-ROOT-表可以有多个Region(D)为了加速寻址,客户端会缓存位置信息,同时,需要解决缓存失效问题多选题1、关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase?ABCD(A)Hadoop可以很好地解决大规模数据的离线批量处理问题,但是,受限于Hadoop MapReduce编程框架的高延迟数据处理机制,使得Hadoop无法满足大规模数据实时处理应用的需求上(B)HDFS面向批量访问模式,不是随机访问模式(C)传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(D)传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间2、HBase与传统的关系数据库的区别主要体现在以下哪几个方面?ABCD(A)数据类型(B)数据操作(C)存储模式(D)数据维护3、HBase访问接口类型包括哪些?ABCD(A)Native Java API(B)HBase Shell(C)Thrift Gateway(D)REST Gateway4、下列关于数据模型的描述,哪些是正确的?ABCD(A)HBase采用表来组织数据,表由行和列组成,列划分为若干个列族(B)每个HBase表都由若干行组成,每个行由行键(row key)来标识(C)列族里的数据通过列限定符(或列)来定位(D)每个单元格都保存着同一份数据的多个版本,这些版本采用时间戳进行索引5、HBase的实现包括哪三个主要的功能组件?ABC(A)库函数:链接到每个客户端(B)一个Master主服务器(C)许多个Region服务器(D)廉价的计算机集群6、HBase的三层结构中,三层指的是哪三层?ABC(A)Zookeeper文件(B)-ROOT-表(C).META.表(D)数据类型7、以下哪些软件可以对HBase进行性能监视?ABCD(A)Master-status(自带)(B)Ganglia(C)OpenTSDB(D)Ambari8、Zookeeper是一个很好的集群管理工具,被大量用于分布式计算,它主要提供什么服务?ABC(A)配置维护(B)域名服务(C)分布式同步(D)负载均衡服务9、下列关于Region服务器工作原理的描述,哪些是正确的?ABCD(A)每个Region服务器都有一个自己的HLog 文件(B)每次刷写都生成一个新的StoreFile,数量太多,影响查找速度(C)合并操作比较耗费资源,只有数量达到一个阈值才启动合并(D)Store是Region服务器的核心10、下列关于HLog工作原理的描述,哪些是正确的?ABCD(A)分布式环境必须要考虑系统出错。
第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。
2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。
3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。
4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。
5.数据研究经历了哪4个阶段答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。
6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。
7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。
大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。
8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
第1章答案一、单选题1.C2.B3.D4.C5.C6.B7.C8.A9.A 10.D11.B12.A13.B14.C15.C二、多选题1.BE2.ACD 3.ABCD4.ABCDE5.AD6.ABD 7.ABC 8.AB 三、判断题1.√2.×3.×4.√5.√6.×7.×8.×第2章答案一、单选题1.D2.B3.B二、多选题1.ABCE2.ABD三、填空题HDFS MapReduce分布式存储分布式处理数据节点名称节点集群资源管理器(ClusterManager)工作节点(Worker)任务控制节点(Driver)进程(Executor)动作转换第3章答案一、单选题1.B 2.B3.A4.C5.A 6.D7.C8.B二、多选题1.BC2. BD三、判断题1. ×2. ×3. √4. ×5. ×6. ×7. ×8. ×第4章一、单选题1.B2.A3.C4.D二、多选题1.CD2.ABC三、判断题1.×2.√3.×4.×5.√6.×四、思考题biner和partition的作用:Combiner分为map端和reduce端,作用是把同一个key的键值对合并在一起。
Combiner函数把一个map函数产生的多个<key, value>对合并成一个新的<key2,value2>,并将新的<key2,value2>作为输入reduce函数中。
这个value2亦可称为values,因为有多个。
合并的目的是减少网络传输。
partition是分割map每个节点的结果,按照key分别映射给不同的reduce,也即把Map得到的结果按key值进行归类。
2.开发MapReduce程序时可以去掉reduce:由于MapReduce计算输入和输出都是基于HDFS文件,所以大多数公司的做法是把mysql或sqlserver的数据导入HDFS,计算完后再导出到常规的数据库中,这是MapReduce不够灵活的地方之一。
大数据技术原理与应用第1章大数据概述1单选(2分)第三次信息化浪潮的标志是:A.个人电脑的普及B.云计算、大数据、物联网技术的普及C.虚拟现实技术的普及D.互联网的普及正确答案:B你选对了2单选(2分)就数据的量级而言,1PB数据是多少TB?A.2048B.1000C.512D.1024正确答案:D你选对了3单选(2分)以下关于云计算、大数据和物联网之间的关系,论述错误的是:A.云计算侧重于数据分析B.物联网可借助于云计算实现海量数据的存储C.物联网可借助于大数据实现海量数据的分析D.云计算、大数据和物联网三者紧密相关,相辅相成正确答案:A你选对了4单选(2分)以下哪个不是大数据时代新兴的技术:A.SparkB.HadoopC.HBaseD.MySQL正确答案:D你选对了5单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:A.MapReduceB.DremelC.StormD.Pregel正确答案:A你选对了6单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:A.GraphXB.S4C.ImpalaD.Hive正确答案:B你选对了7单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:A.PregelB.StormC.CassandraD.Flume正确答案:A你选对了8单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:A.HDFSB.S4C.DremelD.MapReduce正确答案:C你选对了9多选(3分)数据产生方式大致经历三个阶段,包括:A.运营式系统阶段B.感知式系统阶段C.移动互联网数据阶段D.用户原创内容阶段正确答案:ABD你选对了10多选(3分)大数据发展三个阶段是:A.低谷期B.成熟期C.大规模应用期D.萌芽期正确答案:BCD你选对了11多选(3分)大数据的特性包括:A.价值密度低B.处理速度快C.数据类型繁多D.数据量大正确答案:ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历哪几种范式:A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案:ABCD你选对了13多选(3分)大数据带来思维方式的三个转变是:A.效率而非精确B.相关而非因果C.精确而非全面D.全样而非抽样正确答案:ABD你选对了14多选(3分)大数据主要有哪几种计算模式:B.图计算C.查询分析计算D.批处理计算正确答案:ABCD你选对了15多选(3分)云计算的典型服务模式包括三种:A.SaaSB.IaaSC.MaaSD.PaaS正确答案:ABD你选对了第2章大数据处理架构Hadoop1单选(2分)启动hadoop所有进程的命令是:A.start-dfs.shB.start-all.shC.start-hadoop.shD.start-hdfs.sh正确答案:B你选对了2单选(2分)以下对Hadoop的说法错误的是:A.Hadoop是基于Java语言开发的,只支持Java语言编程B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算D.Hadoop的核心是HDFS和MapReduce正确答案:A你选对了3单选(2分)以下哪个不是Hadoop的特性:A.成本高B.支持多种编程语言C.高容错性正确答案:A你选对了4单选(2分)以下名词解释不正确的是:A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现正确答案:B你选对了5多选(3分)以下哪些组件是Hadoop的生态系统的组件:A.HBaseB.OracleC.HDFSD.MapReduce正确答案:ACD你选对了6多选(3分)以下哪个命令可用来操作HDFS文件:A.hadoop fsB.hadoop dfsC.hdfs fsD.hdfs dfs正确答案:ABD你选对了第3章分布式文件系统HDFS1单选(2分)HDFS的命名空间不包含:A.字节B.文件C.块D.目录正确答案:A你选对了2单选(2分)对HDFS通信协议的理解错误的是:A.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的正确答案:D你选对了3单选(2分)采用多副本冗余存储的优势不包含:A.保证数据可靠性B.容易检查数据错误C.加快数据传输速度D.节约存储空间正确答案:D你选对了4单选(2分)假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:A.start-dfs.sh,stop-hdfs.shB.start-hdfs.sh,stop-hdfs.shC.start-dfs.sh,stop-dfs.shD.start-hdfs.sh,stop-dfs.sh正确答案:C你选对了5单选(2分)分布式文件系统HDFS采用主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫 :A.名称节点,主节点B.从节点,主节点C.名称节点,数据节点D.数据节点,名称节点正确答案:C你选对了6单选(2分)下面关于分布式文件系统HDFS的描述正确的是:A.分布式文件系统HDFS是Google Bigtable的一种开源实现B.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现C.分布式文件系统HDFS比较适合存储大量零碎的小文件D.分布式文件系统HDFS是一种关系型数据库正确答案:B你选对了7多选(3分)以下对名称节点理解正确的是:A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中正确答案:ACD你选对了8多选(3分)以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点用来存储具体的文件内容C.数据节点的数据保存在磁盘中D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作正确答案:BCD你选对了9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:A.集群的可用性B.性能的瓶颈C.命名空间的限制D.隔离问题正确答案:ABCD你选对了10多选(3分)以下HDFS相关的shell命令不正确的是:A.hadoop dfs mkdir <path>:创建<path>指定的文件夹B.hdfs dfs -rm <path>:删除路径<path>指定的文件C.hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D.hadoop fs -ls <path>:显示<path>指定的文件的详细信息正确答案:AC你选对了第4章分布式数据库HBase1单选(2分)HBase是一种数据库A.行式数据库B.关系数据库C.文档数据库D.列式数据库正确答案:D你选对了2单选(2分)下列对HBase数据模型的描述错误的是:A.每个HBase表都由若干行组成,每个行由行键(row key)来标识B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D.HBase列族支持动态扩展,可很轻松地添加一个列族或列正确答案:C你选对了3单选(2分)下列说法正确的是:A.如果不启动Hadoop,则HBase完全无法使用B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等正确答案:D你选对了4单选(2分)在HBase数据库中,每个Region的建议最佳大小是:A.2GB-4GBB.100MB-200MBC.500MB-1000MBD.1GB-2GB正确答案:D你选对了5单选(2分)HBase三层结构的顺序是:A.Zookeeper文件,.MEATA.表,-ROOT-表B.-ROOT-表,Zookeeper文件,.MEATA.表C.Zookeeper文件,-ROOT-表,.MEATA.表D..MEATA.表,Zookeeper文件,-ROOT-表正确答案:C你选对了6单选(2分)客户端是通过级寻址来定位Region:A.三B.二C.一D.四正确答案:A你选对了7单选(2分)关于HBase Shell命令解释错误的是:A.create:创建表B.put:向表、行、列指定的单元格添加数据C.list:显示表的所有数据D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案:C你选对了8多选(3分)下列对HBase的理解正确的是:A.HBase是针对谷歌BigTable的开源实现B.HBase是一种关系型数据库,现成功应用于互联网服务领域C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件D.HBase多用于存储非结构化和半结构化的松散数据正确答案:AD你选对了9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.数据索引C.数据模型D.存储模式正确答案:ABCD你选对了10多选(3分)访问HBase表中的行,有哪些方式:A.通过某列的值区间B.全表扫描C.通过一个行健的区间来访问D.通过单个行健访问正确答案:BCD你选对了第5章 NoSQL数据库1单选(2分)下列关于NoSQL数据库和关系型数据库的比较,不正确的是:A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言C.NoSQL数据库的可扩展性比传统的关系型数据库更好D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性正确答案:A你选对了2单选(2分)以下对各类数据库的理解错误的是:A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等B.文档数据库的数据是松散的,XML和JSON 文档等都可作为数据存储在文档数据库中C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱D.HBase数据库是列族数据库,可扩展性强,支持事务一致性正确答案:D你选对了3单选(2分)下列数据库属于文档数据库的是:A.MySQLB.RedisC.MongoDBD.HBase正确答案:C你选对了4单选(2分)NoSQL数据库的三大理论基石不包括:A.最终一致性B.BASEC.ACIDD.CAP正确答案:C你选对了5多选(3分)关于NoSQL数据库和关系数据库,下列说法正确的是:A.NoSQL数据库可支持超大规模数据存储,具有强大的横向扩展能力B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库C.大多数NoSQL数据库很难实现数据完整性D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础正确答案:ACD你选对了6多选(3分)NoSQL数据库的类型包括:A.键值数据库B.列族数据库C.文档数据库D.图数据库正确答案:ABCD你选对了7多选(3分)CAP是指:A.一致性B.可用性C.持久性D.分区容忍性正确答案:ABD你选对了8多选(3分)NoSQL数据库的BASE特性是指:A.软状态B.持续性C.最终一致性D.基本可用正确答案:ACD你选对了第6章云数据库1单选(2分)下列Amazon的云数据库属于关系数据库的是:A.Amazon SimpleDBB.Amazon DynamoDBC.Amazon RDSD.Amazon Redshift正确答案:C你选对了2单选(2分)下列关于UMP系统的说法不正确的是:A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例C.UMP系统是低成本和高性能的MySQL云数据库方案D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务正确答案:D你选对了3多选(3分)UMP依赖的开源组件包括A.LVSB.ZooKeeperC.MnesiaD.RabbitMQ正确答案:ABCD你选对了4多选(3分)在UMP系统中,Zookeeper主要发挥的作用包括:A.监控所有MySQL实例B.负责集群负载均衡C.提供分布式锁,选出一个集群的“总管”D.作为全局的配置服务器正确答案:ACD你选对了5多选(3分)UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志B.数据访问IP白名单C.SSL数据库连接D.SQL拦截正确答案:ABCD你选对了第7章 MapReduce1单选(2分)下列说法错误的是:A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveD.不同的Map任务之间不能互相通信正确答案:B你选对了2单选(2分)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应是下面哪种形式:A.<"hello",1,1>、<"hadoop",1>和<"world",1>B.<"hello",2>、<"hadoop",1>和<"world",1>C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>D.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>正确答案:D你选对了3单选(2分)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:A.<"hello",<1,1>><"hadoop",1><"world",1>B.<"hello",1><"hello",1><"hadoop",1><"world",1>C.<"hello",1,1><"hadoop",1><"world",1>D.<"hello",2><"hadoop",1><"world",1>正确答案:B你选对了4多选(3分)下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好B.前者相比后者学习起来更难C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:ABCD你选对了5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:A.JobTrackerB.TaskTrackerC.ClientD.Task正确答案:ABCD你选对了第8章 Hadoop再探讨1单选(2分)下列说法正确的是:A.HDFS HA可用性不好B.第二名称节点是热备份C.HDFS HA提供高可用性,可实现可扩展性、系统性能和隔离性D.第二名称节点无法解决单点故障问题正确答案:D你选对了2单选(2分)HDFS Federation设计不能解决“单名称节点”存在的哪个问题:A.单点故障问题B.HDFS集群扩展性C.性能更高效D.良好的隔离性正确答案:A你选对了3多选(3分)下列哪些是Hadoop1.0存在的问题:A.抽象层次低B.表达能力有限C.开发者自己管理作业之间的依赖关系D.执行迭代操作效率低正确答案:ABCD你选对了下列对Hadoop各组件的理解正确的是:A.Oozie:工作流和协作服务引擎B.Pig:处理大规模数据的脚本语言C.Kafka:分布式发布订阅消息系统D.Tez:支持DAG作业的计算框架正确答案:ABCD你选对了5多选(3分)对新一代资源管理调度框架YARN的理解正确的是:A.YARN既是资源管理调度框架,也是一个计算框架B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster正确答案:BCD你选对了第9章数据仓库Hive1单选(2分)下列有关Hive和Impala的对比错误的是:A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划B.Hive与Impala使用相同的元数据C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此正确答案:D你选对了2单选(2分)下列关于Hive基本操作命令的解释错误的是:A.create table if not exists usr(id bigint,name string,age int);//如usr表不存在,创建表usr,含三个属性id,name,ageB.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表C.create database userdb;//创建数据库userdbD.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案:B你选对了下列说法正确的是:A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上B.数据仓库Hive不需要借助于HDFS就可完成数据的存储C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D.HiveQL语法与传统的SQL语法很相似正确答案:ACD你选对了4多选(3分)Impala主要由哪几个部分组成:A.HiveB.ImpaladC.State StoreD.CLI正确答案:BCD你选对了5多选(3分)以下属于Hive的基本数据类型是:A.BINARYB.STRINGC.FLOATD.TINYINT正确答案:ABCD你选对了第10章 Spark1单选(2分)Spark SQL目前暂时不支持下列哪种语言:A.PythonB.JavaC.ScalaD.Lisp正确答案:D你选对了2单选(2分)RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:A.groupByB.filterC.countD.map正确答案:C你选对了3单选(2分)下列说法错误的是:A.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架StormB.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算C.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARND.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换正确答案:D你选对了4单选(2分)下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:A.filter(func):筛选出满足函数func的元素,并返回一个新的数据集B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集C.count():返回数据集中的元素个数D.take(n):返回数据集中的第n个元素正确答案:D你选对了5单选(2分)下列大数据处理类型与其对应的软件框架不匹配的是:A.复杂的批量数据处理:MapReduceB.基于历史数据的交互式查询:ImpalaC.基于实时数据流的数据处理:StormD.图结构数据的计算:Hive正确答案:D你选对了6多选(3分)Apache软件基金会最重要的三大分布式计算系统开源项目包括:A.OracleB.HadoopC.StormD.Spark正确答案:ABC你选对了7多选(3分)Spark的主要特点包括:A.运行模式多样B.运行速度快C.通用性好D.容易使用正确答案:ABCD你选对了8多选(3分)下列关于Scala的说法正确的是:A.Scala运行于Java平台,兼容现有的Java程序B.Scala具备强大的并发性,支持函数式编程C.Scala是一种多范式编程语言D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言正确答案:ABCD你选对了9多选(3分)Spark的运行架构包括:A.运行作业任务的工作节点 Worker NodeB.每个工作节点上负责具体任务的执行进程 ExecutorC.每个应用的任务控制节点 DriverD.集群资源管理器 Cluster Manager正确答案:ABCD你选对了第11章流计算1单选(2分)流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:A.降低B.不确定C.不变D.升高正确答案:A你选对了2单选(2分)Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做A.SpoutB.BoltC.TupleD.Topology正确答案:D你选对了3多选(3分)对于一个流计算系统来说,它应达到如下哪些需求:A.海量式B.高性能C.分布式D.实时性正确答案:A、B、C、D你选对了4多选(3分)数据采集系统的基本架构包括哪些部分:A.ControllerB.StoreC.AgentD.Collector正确答案:B、C、D你选对了5多选(3分)以下哪些是开源的流计算框架:A.Facebook PumaB.Yahoo! S4C.IBM InfoSphere StreamsD.Twitter Storm正确答案:B、D你选对了6多选(3分)下面哪几个属于Storm中的Stream Groupings的分组方式:A.按照字段分组B.广播发送C.随机分组D.全局分组正确答案:A、B、C、D你选对了第12章 Flink1单选(2分)以下哪个不是Flink的优势:A.同时支持高吞吐、低延迟、高性能B.不支持增量迭代C.同时支持流处理和批处理D.支持有状态计算正确答案:B你选对了2单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.FlinkMLC.GellyD.CEP正确答案:C你选对了3多选(3分)下面关于Flink的说法正确的是:A.Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B.Flink可以同时支持实时计算和批量计算C.Flink不是Apache软件基金会的项目D.Flink是Apache软件基金会的5个最大的大数据项目之一正确答案:A、B、D你选对了4多选(3分)Flink的主要特性包括:A.精确一次的状态一致性保障B.批流一体化C.精密的状态管理D.事件时间支持正确答案:A、B、C、D你选对了5多选(3分)下面论述正确的是:A.Spark Streaming通过采用微批处理方法实现高吞吐和容错性,但是牺牲了低延迟和实时处理能力B.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态C.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink 可满足要求D.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理正确答案:A、B、C、D你选对了6多选(3分)Flink常见的应用场景包括:A.数据流水线应用B.事件驱动型应用C.地图应用D.数据分析应用正确答案:A、B、D你选对了7多选(3分)Flink核心组件栈分为哪三层:A.物理部署层B.Runtime核心层C.Core层D.API&Libraries层正确答案:A、B、D你选对了8多选(3分)Flink有哪几种部署模式:A.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上B.YARN集群模式C.Standalone集群模式D.Local模式正确答案:A、B、C、D你选对了9多选(3分)Flink系统主要由两个组件组成,分别为:A.JobManagerB.JobSchedulerC.TaskSchedulerD.TaskManager正确答案:A、D你选对了10多选(3分)在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:A.DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)B.Table APIC.状态化的数据流接口D. SQL正确答案:A、B、C、D你选对了第13章图计算1单选(2分)Pregel是一种基于模型实现的并行图处理系统:A.TSPB.STPC.BSPD.SBP正确答案:C你选对了2单选(2分)谷歌在后Hadoop时代的新“三驾马车”不包括:A.CaffeineB.DremelC. PregelD.Hama正确答案:D你选对了3多选(3分)下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:A.HamaB.GiraphC.PregelD.Neo4j正确答案:A、B、C你选对了4多选(3分)以下关于Pregel图计算框架说法正确的是:A.通常只对满足交换律和结合律的操作才会开启Combiner功能B.Pregel采用检查点机制来实现容错C.对于全局拓扑改变,Pregel采用了惰性协调机制D.Aggregator提供了一种全局通信、监控和数据查看的机制正确答案:A、B、C、D你选对了第14章大数据在不同领域的应用1单选(2分)下列说法错误的是:A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品B.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法erCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品erCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化正确答案:B你选对了2多选(3分)推荐方法包括哪些类型:A.专家推荐B.协同过滤推荐C.基于内容的推荐D.基于统计的推荐正确答案:A、B、C、D你选对了期末试卷1单选(2分)数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:A.运营式系统阶段B.感知式系统阶段C.数据流阶段D.用户原创内容阶段正确答案:C你选对了2单选(2分)第三次信息化浪潮的发生标志是以下哪种技术的普及:A.互联网B.CPUC.物联网、云计算和大数据D.个人计算机正确答案:C你选对了3单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.CEPC. GellyD. FlinkML正确答案:C你选对了4单选(2分)Hadoop的两大核心是和A.MapReduce; HBaseB. HDFS; HBaseC.HDFS; MapReduceD.GFS; MapReduce正确答案:C你选对了5单选(2分)HDFS默认的一个块大小是A.64MBB.8KBC. 32KBD.16KB正确答案:A你选对了6单选(2分)在分布式文件系统HDFS中,负责数据的存储和读取:A.数据节点B.第二名称节点C.名称节点D.主节点正确答案:A你选对了7单选(2分)上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:A.hdfs dfs -put /path file.txtB.hadoop dfs -put /path file.txtC.hdfs fs -put file.txt /pathD.hdfs dfs -put file.txt /path正确答案:D你选对了8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:A.hadoop fs -mkdir -p /test/dirB.hdfs fs -mkdir -p /test/dirC.hadoop dfs -mkdir /test/dirD.hdfs dfs *mkdir -p /test/dir正确答案:A你选对了9单选(2分)下列有关HBase的说法正确的是:A.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库B.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库C.HBase是一种NoSQL数据库。
【最新整理,下载后即可编辑】第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。
2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。
3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。
4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。
5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。
6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。
7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。
大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。
8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS 是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
第一章单选题1、下列选项中,最早提出“大数据”这一概念的是()。
•A、贝恩•B、麦肯锡•C、吉拉德•D、杰弗逊参考答案:B答案解析:暂无解析2、下列选项中,哪一项是研究大数据最重要的意义()。
•A、分析•B、统计•C、测试•D、预测参考答案:D答案解析:研究大数据,最重要的意义是预测。
3、Hadoop1.0中,Hadoop内核的主要组成是()。
•A、HDFS和MapReduce•B、HDFS和Yarn•C、Yarn•D、MapReduce和Yarn参考答案:A答案解析:Hadoop1.0中,Hadoop内核的主要是由HDFS和MapReduce两个系统组成。
4、在HDFS中,用于保存数据的节点是()。
•B、datanode•C、secondaryNode•D、yarn参考答案:B答案解析:暂无解析多选题1、下列选项中,属于Google提出的处理大数据的技术手段有()。
•A、MapReduce•B、MySQL•C、BigTable•D、GFS参考答案:A,C,D答案解析:Google提出了三个处理大数据的技术手段,分别是MapReduce、BigTable和G FS。
2、下列选项中,属于Hadoop优势的有()。
•A、扩容能力强•B、可靠性•C、低效率•D、高容错性参考答案:A,B,D答案解析:Hadoop具有扩展能力强、成本低、高效率、可靠性、高容错性的优势。
3、下列选项中,属于Hadoop版本系列的有()。
•A、Hadoop4•B、Hadoop2•C、Hadoop1参考答案:B,C,D答案解析:Hadoop主要分为Hadoop1、Hadoop2、Hadoop3三个系列的多个版本。
判断题1、大数据提供的是一些描述性的信息,而创新还是需要人类自己实现。
•对•错参考答案:对答案解析:暂无解析2、JobTracker只负责执行TaskTracker分配的计算任务。
•对•错参考答案:错答案解析:TaskTracker只负责执行JobTracker分配的计算任务。
第一章1.试述信息技术发展史上的3次信息化浪潮及具体容。
2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创容阶段,感知式系统阶段。
3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。
4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。
5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种式。
6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。
7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。
大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。
8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
大数据第一章课后题黎狸1. 试述信息技术发展史上的3次信息化浪潮及其具体内容。
第一次信息化浪潮1980年前后个人计算机开始普及,计算机走入企业和千家万户。
代表企业:Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等。
第二次信息化浪潮1995年前后进入互联网时代。
代表企业:雅虎,谷歌阿里巴巴,百度,腾讯。
第三次信息浪潮2010年前后,云计算大数据,物联网快速发展,即将涌现一批新的市场标杆企业。
2. 试述数据产生方式经历的几个阶段。
经历了三个阶段:运营式系统阶段数据伴随一定的运营活动而产生并记录在数据库。
用户原创内容阶段Web2.0时代。
感知式系统阶段物联网中的设备每时每刻自动产生大量数据。
3. 试述大数据的4个基本特征。
数据量大(Volume)据类型繁多(Variety)处理速度快(Velocity)价值密度低(Value)4. 试述大数据时代的“数据爆炸”特性。
大数据摩尔定律:人类社会产生的数据一直都在以每年50%的速度增长,即每两年就增加一倍。
5. 科学研究经历了那四个阶段?实验比萨斜塔实验理论采用各种数学,几何,物理等理论,构建问题模型和解决方案。
例如:牛一,牛二,牛三定律。
计算设计算法并编写相应程序输入计算机运行。
数据以数据为中心,从数据中发现问题解决问题。
6. 试述大数据对思维方式的重要影响。
全样而非抽样效率而非精确相关而非因果7. 大数据决策与传统的基于数据仓库的决策有什么区别?数据仓库以关系数据库为基础,在数据类型和数据量方面存在较大限制。
大数据决策面向类型繁多的,非结构化的海量数据进行决策分析。
8. 举例说明大数据的具体应用。
汽车行业大数据和物联网技术无人汽车互联网行业分析客户行为,进行商品推介和有针对性的广告投放。
城市管理智能交通环保检测城市规划和智能安防生物医学流行病预测智慧医疗健康管理解读DNA个人生活分析个人生活行为习惯,提供周到的个性化服务9. 举例说明大数据的关键技术数据采集数据存储和管理数据处理分析数据安全与隐私保护10. 大数据产业包含哪些层面?IT基础设施层数据源层数据管理层数据分析层数据平台层数据应用层11. 定义并解释一下术语:云计算,物联网。
大数据技术原理与应用林子雨课后习题答案第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。
2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。
3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。
4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。
5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。
6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。
7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。
大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。
8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
第一章
单选题
1、下列选项中,最早提出“大数据”这一概念的是()。
•A、贝恩
•B、麦肯锡
•C、吉拉德
•D、杰弗逊
参考答案:
B
答案解析:
暂无解析
2、下列选项中,哪一项是研究大数据最重要的意义()。
•A、分析
•B、统计
•C、测试
•D、预测
参考答案:
D
答案解析:
研究大数据,最重要的意义是预测。
3、Hadoop1.0中,Hadoop内核的主要组成是()。
•A、HDFS和MapReduce
•B、HDFS和Yarn
•C、Yarn
•D、MapReduce和Yarn
参考答案:
A
答案解析:
Hadoop1.0中,Hadoop内核的主要是由HDFS和MapReduce两个系统组成。
4、在HDFS中,用于保存数据的节点是()。
•B、datanode
•C、secondaryNode
•D、yarn
参考答案:
B
答案解析:
暂无解析
多选题
1、下列选项中,属于Google提出的处理大数据的技术手段有()。
•A、MapReduce
•B、MySQL
•C、BigTable
•D、GFS
参考答案:
A,C,D
答案解析:
Google提出了三个处理大数据的技术手段,分别是MapReduce、BigTable和G FS。
2、下列选项中,属于Hadoop优势的有()。
•A、扩容能力强
•B、可靠性
•C、低效率
•D、高容错性
参考答案:
A,B,D
答案解析:
Hadoop具有扩展能力强、成本低、高效率、可靠性、高容错性的优势。
3、下列选项中,属于Hadoop版本系列的有()。
•A、Hadoop4
•B、Hadoop2
•C、Hadoop1
参考答案:
B,C,D
答案解析:
Hadoop主要分为Hadoop1、Hadoop2、Hadoop3三个系列的多个版本。
判断题
1、大数据提供的是一些描述性的信息,而创新还是需要人类自己实现。
•对
•错
参考答案:
对
答案解析:
暂无解析
2、JobTracker只负责执行TaskTracker分配的计算任务。
•对
•错
参考答案:
错
答案解析:
TaskTracker只负责执行JobTracker分配的计算任务。
3、大数据在医疗行业中可以有效控制疾病的发生。
•对
•错
参考答案:
错
答案解析:
在医疗行业中,大数据可以有效预防预测疾病。
4、在HDFS中,namenode用于决定数据存储到哪一个datanode节点上。
•对
•错
参考答案:
对
答案解析:
暂无解析
5、Hadoop是Apache顶级的开源项目。
•对
•错
参考答案:
对
答案解析:
暂无解析
6、Hadoop的开源社区版比较著名的是Cloudera公司的CDH版本。
•对
•错
参考答案:
错
答案解析:
Hadoop的商业版比较著名的是Cloudera公司的CDH版本。
填空题
1、马云曾经说过未来的时代将不是IT时代,而是【】时代。
参考答案:
【DT】
答案解析:
暂无解析
2、【】中引入了资源管理框架Yarn。
参考答案:
【Hadoop2.x】
答案解析:
暂无解析
3、大数据的四大特征是体量大(Volume)、【】、速度快(Velocity)和【】。
参考答案:
【多样(Varity)】【价值(Value)】
答案解析:
暂无解析
4、在Hadoop1.x版本中,MapReduce是由一个【】和多个TaskTracker组成。
参考答案:
【JobTracker】
答案解析:
暂无解析
5、大数据在金融行业中的具体表现为【】、【】、决策支持、服务创新以及产品创新。
参考答案:
【精准营销】【风险管控】
答案解析:
暂无解析
6、大数据的分为【】、非结构话数据和【】。
参考答案:
【结构化数据】【半结构化数据】
答案解析:
大数据的分为结构化数据、非结构话数据以及半结构化数据。
简答题
1、简述大数据在零售行业应用的具体表现。
参考答案:
大数据在零售行业的具体表现有三个,分别是精准定位零售行业市场、支撑行业收益管理以及挖掘零售业新需求。
答案解析:
暂无解析
2、简述Hadoop生态体系常见的子系统。
参考答案:
Hadoop生态体系中常见的子系统有HDFS分布式文件系统、MapReduce分布式计算框架、Yarn资源管理框架、Sqoop数据迁移工具、Mahout数据挖掘算法库、H Base分布式存储系统、Zookeeper分布式协作服务、Hive基于Hadoop的数据仓库以及Flume日志收集工具。
答案解析:
暂无解析。