大数据技术及应用题库
- 格式:doc
- 大小:55.50 KB
- 文档页数:27
大数据技术及应用题库单选题:1从大量数据中提取知识的过程通常称为(A)。
a. . 数据挖掘b. . 人工智能c. . 数据清洗d. . 数据仓库2下列论据中,能够支撑“大数据无所不能”的观点的是(A)。
A、互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧3数据仓库的最终目的是(D)。
a. . 收集业务需求b. . 建立数据仓库逻辑模型c. . 开发数据仓库的应用分析d. . 为用户和业务部门提供决策支持4大数据处理技术和传统的数据挖掘技术最大的区别是(A)。
a. . 处理速度快(秒级定律)b. . 算法种类更多c. . 精度更高d. . 更加智能化5大数据的起源是(C)。
a. . 金融b. . 电信c. . 互联网d. . 公共管理6大数据不是要教机器像人一样思考。
相反,它是(A)。
a. . 把数学算法运用到海量的数据上来预测事情发生的可能性b. . 被视为人工智能的一部c. . 被视为一种机器学习d. . 预测与惩罚7人与人之间沟通信息、传递信息的技术,这指的是(D)。
a. . 感测技术b. . 微电子技术c. . 计算机技术d. . 通信技术8数据清洗的方法不包括(D)。
a. . 缺失值处理b. . 噪声数据清除c. . 一致性检查d. . 重复数据记录处理9. 下列关于舍恩伯格对大数据特点的说法中,错误的是(D)A. 数据规模大B. 数据类型多样C. 数据处理速度快D. 数据价值密度高10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是(D)。
a. . 富数据b. . 贫数据c. . 繁数据d. . 大数据11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的(D)。
a. . 新一代信息技术b. . 新一代服务业态c. . 新一代技术平台d. . 新一代信息技术和服务业态12万维网之父是(C)A. 彼得·德鲁克B. 舍恩伯格C. 蒂姆·伯纳斯—李D. 斯科特·布朗13下列演示方式中,不属于传统统计图方式的是(D)。
大数据技术原理与应用第1章大数据概述1单选(2分)第三次信息化浪潮的标志是:A.个人电脑的普及B.云计算、大数据、物联网技术的普及C.虚拟现实技术的普及D.互联网的普及正确答案:B你选对了2单选(2分)就数据的量级而言,1PB数据是多少TB?A.2048B.1000C.512D.1024正确答案:D你选对了3单选(2分)以下关于云计算、大数据和物联网之间的关系,论述错误的是:A.云计算侧重于数据分析B.物联网可借助于云计算实现海量数据的存储C.物联网可借助于大数据实现海量数据的分析D.云计算、大数据和物联网三者紧密相关,相辅相成正确答案:A你选对了4单选(2分)以下哪个不是大数据时代新兴的技术:A.SparkB.HadoopC.HBaseD.MySQL正确答案:D你选对了5单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:A.MapReduceB.DremelC.StormD.Pregel正确答案:A你选对了6单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:A.GraphXB.S4C.ImpalaD.Hive正确答案:B你选对了7单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:A.PregelB.StormC.CassandraD.Flume正确答案:A你选对了8单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:A.HDFSB.S4C.DremelD.MapReduce正确答案:C你选对了9多选(3分)数据产生方式大致经历三个阶段,包括:A.运营式系统阶段B.感知式系统阶段C.移动互联网数据阶段D.用户原创内容阶段正确答案:ABD你选对了10多选(3分)大数据发展三个阶段是:A.低谷期B.成熟期C.大规模应用期D.萌芽期正确答案:BCD你选对了11多选(3分)大数据的特性包括:A.价值密度低B.处理速度快C.数据类型繁多D.数据量大正确答案:ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历哪几种范式:A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案:ABCD你选对了13多选(3分)大数据带来思维方式的三个转变是:A.效率而非精确B.相关而非因果C.精确而非全面D.全样而非抽样正确答案:ABD你选对了14多选(3分)大数据主要有哪几种计算模式:B.图计算C.查询分析计算D.批处理计算正确答案:ABCD你选对了15多选(3分)云计算的典型服务模式包括三种:A.SaaSB.IaaSC.MaaSD.PaaS正确答案:ABD你选对了第2章大数据处理架构Hadoop1单选(2分)启动hadoop所有进程的命令是:A.start-dfs.shB.start-all.shC.start-hadoop.shD.start-hdfs.sh正确答案:B你选对了2单选(2分)以下对Hadoop的说法错误的是:A.Hadoop是基于Java语言开发的,只支持Java语言编程B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算D.Hadoop的核心是HDFS和MapReduce正确答案:A你选对了3单选(2分)以下哪个不是Hadoop的特性:A.成本高B.支持多种编程语言C.高容错性正确答案:A你选对了4单选(2分)以下名词解释不正确的是:A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现正确答案:B你选对了5多选(3分)以下哪些组件是Hadoop的生态系统的组件:A.HBaseB.OracleC.HDFSD.MapReduce正确答案:ACD你选对了6多选(3分)以下哪个命令可用来操作HDFS文件:A.hadoop fsB.hadoop dfsC.hdfs fsD.hdfs dfs正确答案:ABD你选对了第3章分布式文件系统HDFS1单选(2分)HDFS的命名空间不包含:A.字节B.文件C.块D.目录正确答案:A你选对了2单选(2分)对HDFS通信协议的理解错误的是:A.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的正确答案:D你选对了3单选(2分)采用多副本冗余存储的优势不包含:A.保证数据可靠性B.容易检查数据错误C.加快数据传输速度D.节约存储空间正确答案:D你选对了4单选(2分)假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:A.start-dfs.sh,stop-hdfs.shB.start-hdfs.sh,stop-hdfs.shC.start-dfs.sh,stop-dfs.shD.start-hdfs.sh,stop-dfs.sh正确答案:C你选对了5单选(2分)分布式文件系统HDFS采用主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫 :A.名称节点,主节点B.从节点,主节点C.名称节点,数据节点D.数据节点,名称节点正确答案:C你选对了6单选(2分)下面关于分布式文件系统HDFS的描述正确的是:A.分布式文件系统HDFS是Google Bigtable的一种开源实现B.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现C.分布式文件系统HDFS比较适合存储大量零碎的小文件D.分布式文件系统HDFS是一种关系型数据库正确答案:B你选对了7多选(3分)以下对名称节点理解正确的是:A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中正确答案:ACD你选对了8多选(3分)以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点用来存储具体的文件内容C.数据节点的数据保存在磁盘中D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作正确答案:BCD你选对了9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:A.集群的可用性B.性能的瓶颈C.命名空间的限制D.隔离问题正确答案:ABCD你选对了10多选(3分)以下HDFS相关的shell命令不正确的是:A.hadoop dfs mkdir <path>:创建<path>指定的文件夹B.hdfs dfs -rm <path>:删除路径<path>指定的文件C.hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D.hadoop fs -ls <path>:显示<path>指定的文件的详细信息正确答案:AC你选对了第4章分布式数据库HBase1单选(2分)HBase是一种数据库A.行式数据库B.关系数据库C.文档数据库D.列式数据库正确答案:D你选对了2单选(2分)下列对HBase数据模型的描述错误的是:A.每个HBase表都由若干行组成,每个行由行键(row key)来标识B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D.HBase列族支持动态扩展,可很轻松地添加一个列族或列正确答案:C你选对了3单选(2分)下列说法正确的是:A.如果不启动Hadoop,则HBase完全无法使用B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等正确答案:D你选对了4单选(2分)在HBase数据库中,每个Region的建议最佳大小是:A.2GB-4GBB.100MB-200MBC.500MB-1000MBD.1GB-2GB正确答案:D你选对了5单选(2分)HBase三层结构的顺序是:A.Zookeeper文件,.MEATA.表,-ROOT-表B.-ROOT-表,Zookeeper文件,.MEATA.表C.Zookeeper文件,-ROOT-表,.MEATA.表D..MEATA.表,Zookeeper文件,-ROOT-表正确答案:C你选对了6单选(2分)客户端是通过级寻址来定位Region:A.三B.二C.一D.四正确答案:A你选对了7单选(2分)关于HBase Shell命令解释错误的是:A.create:创建表B.put:向表、行、列指定的单元格添加数据C.list:显示表的所有数据D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案:C你选对了8多选(3分)下列对HBase的理解正确的是:A.HBase是针对谷歌BigTable的开源实现B.HBase是一种关系型数据库,现成功应用于互联网服务领域C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件D.HBase多用于存储非结构化和半结构化的松散数据正确答案:AD你选对了9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.数据索引C.数据模型D.存储模式正确答案:ABCD你选对了10多选(3分)访问HBase表中的行,有哪些方式:A.通过某列的值区间B.全表扫描C.通过一个行健的区间来访问D.通过单个行健访问正确答案:BCD你选对了第5章 NoSQL数据库1单选(2分)下列关于NoSQL数据库和关系型数据库的比较,不正确的是:A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言C.NoSQL数据库的可扩展性比传统的关系型数据库更好D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性正确答案:A你选对了2单选(2分)以下对各类数据库的理解错误的是:A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等B.文档数据库的数据是松散的,XML和JSON 文档等都可作为数据存储在文档数据库中C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱D.HBase数据库是列族数据库,可扩展性强,支持事务一致性正确答案:D你选对了3单选(2分)下列数据库属于文档数据库的是:A.MySQLB.RedisC.MongoDBD.HBase正确答案:C你选对了4单选(2分)NoSQL数据库的三大理论基石不包括:A.最终一致性B.BASEC.ACIDD.CAP正确答案:C你选对了5多选(3分)关于NoSQL数据库和关系数据库,下列说法正确的是:A.NoSQL数据库可支持超大规模数据存储,具有强大的横向扩展能力B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库C.大多数NoSQL数据库很难实现数据完整性D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础正确答案:ACD你选对了6多选(3分)NoSQL数据库的类型包括:A.键值数据库B.列族数据库C.文档数据库D.图数据库正确答案:ABCD你选对了7多选(3分)CAP是指:A.一致性B.可用性C.持久性D.分区容忍性正确答案:ABD你选对了8多选(3分)NoSQL数据库的BASE特性是指:A.软状态B.持续性C.最终一致性D.基本可用正确答案:ACD你选对了第6章云数据库1单选(2分)下列Amazon的云数据库属于关系数据库的是:A.Amazon SimpleDBB.Amazon DynamoDBC.Amazon RDSD.Amazon Redshift正确答案:C你选对了2单选(2分)下列关于UMP系统的说法不正确的是:A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例C.UMP系统是低成本和高性能的MySQL云数据库方案D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务正确答案:D你选对了3多选(3分)UMP依赖的开源组件包括A.LVSB.ZooKeeperC.MnesiaD.RabbitMQ正确答案:ABCD你选对了4多选(3分)在UMP系统中,Zookeeper主要发挥的作用包括:A.监控所有MySQL实例B.负责集群负载均衡C.提供分布式锁,选出一个集群的“总管”D.作为全局的配置服务器正确答案:ACD你选对了5多选(3分)UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志B.数据访问IP白名单C.SSL数据库连接D.SQL拦截正确答案:ABCD你选对了第7章 MapReduce1单选(2分)下列说法错误的是:A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveD.不同的Map任务之间不能互相通信正确答案:B你选对了2单选(2分)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应是下面哪种形式:A.<"hello",1,1>、<"hadoop",1>和<"world",1>B.<"hello",2>、<"hadoop",1>和<"world",1>C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>D.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>正确答案:D你选对了3单选(2分)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:A.<"hello",<1,1>><"hadoop",1><"world",1>B.<"hello",1><"hello",1><"hadoop",1><"world",1>C.<"hello",1,1><"hadoop",1><"world",1>D.<"hello",2><"hadoop",1><"world",1>正确答案:B你选对了4多选(3分)下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好B.前者相比后者学习起来更难C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:ABCD你选对了5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:A.JobTrackerB.TaskTrackerC.ClientD.Task正确答案:ABCD你选对了第8章 Hadoop再探讨1单选(2分)下列说法正确的是:A.HDFS HA可用性不好B.第二名称节点是热备份C.HDFS HA提供高可用性,可实现可扩展性、系统性能和隔离性D.第二名称节点无法解决单点故障问题正确答案:D你选对了2单选(2分)HDFS Federation设计不能解决“单名称节点”存在的哪个问题:A.单点故障问题B.HDFS集群扩展性C.性能更高效D.良好的隔离性正确答案:A你选对了3多选(3分)下列哪些是Hadoop1.0存在的问题:A.抽象层次低B.表达能力有限C.开发者自己管理作业之间的依赖关系D.执行迭代操作效率低正确答案:ABCD你选对了下列对Hadoop各组件的理解正确的是:A.Oozie:工作流和协作服务引擎B.Pig:处理大规模数据的脚本语言C.Kafka:分布式发布订阅消息系统D.Tez:支持DAG作业的计算框架正确答案:ABCD你选对了5多选(3分)对新一代资源管理调度框架YARN的理解正确的是:A.YARN既是资源管理调度框架,也是一个计算框架B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster正确答案:BCD你选对了第9章数据仓库Hive1单选(2分)下列有关Hive和Impala的对比错误的是:A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划B.Hive与Impala使用相同的元数据C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此正确答案:D你选对了2单选(2分)下列关于Hive基本操作命令的解释错误的是:A.create table if not exists usr(id bigint,name string,age int);//如usr表不存在,创建表usr,含三个属性id,name,ageB.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表C.create database userdb;//创建数据库userdbD.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案:B你选对了下列说法正确的是:A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上B.数据仓库Hive不需要借助于HDFS就可完成数据的存储C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D.HiveQL语法与传统的SQL语法很相似正确答案:ACD你选对了4多选(3分)Impala主要由哪几个部分组成:A.HiveB.ImpaladC.State StoreD.CLI正确答案:BCD你选对了5多选(3分)以下属于Hive的基本数据类型是:A.BINARYB.STRINGC.FLOATD.TINYINT正确答案:ABCD你选对了第10章 Spark1单选(2分)Spark SQL目前暂时不支持下列哪种语言:A.PythonB.JavaC.ScalaD.Lisp正确答案:D你选对了2单选(2分)RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:A.groupByB.filterC.countD.map正确答案:C你选对了3单选(2分)下列说法错误的是:A.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架StormB.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算C.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARND.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换正确答案:D你选对了4单选(2分)下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:A.filter(func):筛选出满足函数func的元素,并返回一个新的数据集B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集C.count():返回数据集中的元素个数D.take(n):返回数据集中的第n个元素正确答案:D你选对了5单选(2分)下列大数据处理类型与其对应的软件框架不匹配的是:A.复杂的批量数据处理:MapReduceB.基于历史数据的交互式查询:ImpalaC.基于实时数据流的数据处理:StormD.图结构数据的计算:Hive正确答案:D你选对了6多选(3分)Apache软件基金会最重要的三大分布式计算系统开源项目包括:A.OracleB.HadoopC.StormD.Spark正确答案:ABC你选对了7多选(3分)Spark的主要特点包括:A.运行模式多样B.运行速度快C.通用性好D.容易使用正确答案:ABCD你选对了8多选(3分)下列关于Scala的说法正确的是:A.Scala运行于Java平台,兼容现有的Java程序B.Scala具备强大的并发性,支持函数式编程C.Scala是一种多范式编程语言D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言正确答案:ABCD你选对了9多选(3分)Spark的运行架构包括:A.运行作业任务的工作节点 Worker NodeB.每个工作节点上负责具体任务的执行进程 ExecutorC.每个应用的任务控制节点 DriverD.集群资源管理器 Cluster Manager正确答案:ABCD你选对了第11章流计算1单选(2分)流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:A.降低B.不确定C.不变D.升高正确答案:A你选对了2单选(2分)Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做A.SpoutB.BoltC.TupleD.Topology正确答案:D你选对了3多选(3分)对于一个流计算系统来说,它应达到如下哪些需求:A.海量式B.高性能C.分布式D.实时性正确答案:A、B、C、D你选对了4多选(3分)数据采集系统的基本架构包括哪些部分:A.ControllerB.StoreC.AgentD.Collector正确答案:B、C、D你选对了5多选(3分)以下哪些是开源的流计算框架:A.Facebook PumaB.Yahoo! S4C.IBM InfoSphere StreamsD.Twitter Storm正确答案:B、D你选对了6多选(3分)下面哪几个属于Storm中的Stream Groupings的分组方式:A.按照字段分组B.广播发送C.随机分组D.全局分组正确答案:A、B、C、D你选对了第12章 Flink1单选(2分)以下哪个不是Flink的优势:A.同时支持高吞吐、低延迟、高性能B.不支持增量迭代C.同时支持流处理和批处理D.支持有状态计算正确答案:B你选对了2单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.FlinkMLC.GellyD.CEP正确答案:C你选对了3多选(3分)下面关于Flink的说法正确的是:A.Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B.Flink可以同时支持实时计算和批量计算C.Flink不是Apache软件基金会的项目D.Flink是Apache软件基金会的5个最大的大数据项目之一正确答案:A、B、D你选对了4多选(3分)Flink的主要特性包括:A.精确一次的状态一致性保障B.批流一体化C.精密的状态管理D.事件时间支持正确答案:A、B、C、D你选对了5多选(3分)下面论述正确的是:A.Spark Streaming通过采用微批处理方法实现高吞吐和容错性,但是牺牲了低延迟和实时处理能力B.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态C.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink 可满足要求D.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理正确答案:A、B、C、D你选对了6多选(3分)Flink常见的应用场景包括:A.数据流水线应用B.事件驱动型应用C.地图应用D.数据分析应用正确答案:A、B、D你选对了7多选(3分)Flink核心组件栈分为哪三层:A.物理部署层B.Runtime核心层C.Core层D.API&Libraries层正确答案:A、B、D你选对了8多选(3分)Flink有哪几种部署模式:A.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上B.YARN集群模式C.Standalone集群模式D.Local模式正确答案:A、B、C、D你选对了9多选(3分)Flink系统主要由两个组件组成,分别为:A.JobManagerB.JobSchedulerC.TaskSchedulerD.TaskManager正确答案:A、D你选对了10多选(3分)在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:A.DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)B.Table APIC.状态化的数据流接口D. SQL正确答案:A、B、C、D你选对了第13章图计算1单选(2分)Pregel是一种基于模型实现的并行图处理系统:A.TSPB.STPC.BSPD.SBP正确答案:C你选对了2单选(2分)谷歌在后Hadoop时代的新“三驾马车”不包括:A.CaffeineB.DremelC. PregelD.Hama正确答案:D你选对了3多选(3分)下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:A.HamaB.GiraphC.PregelD.Neo4j正确答案:A、B、C你选对了4多选(3分)以下关于Pregel图计算框架说法正确的是:A.通常只对满足交换律和结合律的操作才会开启Combiner功能B.Pregel采用检查点机制来实现容错C.对于全局拓扑改变,Pregel采用了惰性协调机制D.Aggregator提供了一种全局通信、监控和数据查看的机制正确答案:A、B、C、D你选对了第14章大数据在不同领域的应用1单选(2分)下列说法错误的是:A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品B.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法erCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品erCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化正确答案:B你选对了2多选(3分)推荐方法包括哪些类型:A.专家推荐B.协同过滤推荐C.基于内容的推荐D.基于统计的推荐正确答案:A、B、C、D你选对了期末试卷1单选(2分)数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:A.运营式系统阶段B.感知式系统阶段C.数据流阶段D.用户原创内容阶段正确答案:C你选对了2单选(2分)第三次信息化浪潮的发生标志是以下哪种技术的普及:A.互联网B.CPUC.物联网、云计算和大数据D.个人计算机正确答案:C你选对了3单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.CEPC. GellyD. FlinkML正确答案:C你选对了4单选(2分)Hadoop的两大核心是和A.MapReduce; HBaseB. HDFS; HBaseC.HDFS; MapReduceD.GFS; MapReduce正确答案:C你选对了5单选(2分)HDFS默认的一个块大小是A.64MBB.8KBC. 32KBD.16KB正确答案:A你选对了6单选(2分)在分布式文件系统HDFS中,负责数据的存储和读取:A.数据节点B.第二名称节点C.名称节点D.主节点正确答案:A你选对了7单选(2分)上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:A.hdfs dfs -put /path file.txtB.hadoop dfs -put /path file.txtC.hdfs fs -put file.txt /pathD.hdfs dfs -put file.txt /path正确答案:D你选对了8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:A.hadoop fs -mkdir -p /test/dirB.hdfs fs -mkdir -p /test/dirC.hadoop dfs -mkdir /test/dirD.hdfs dfs *mkdir -p /test/dir正确答案:A你选对了9单选(2分)下列有关HBase的说法正确的是:A.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库B.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库C.HBase是一种NoSQL数据库。
大数据考试题目及答案一、单项选择题(每题2分,共20分)1. 大数据技术的核心目标是处理哪种类型的数据?A. 结构化数据B. 半结构化数据B. 非结构化数据D. 所有上述数据类型答案:D2. 在大数据分析中,以下哪个算法主要用于聚类分析?A. 决策树B. 神经网络C. K-meansD. 线性回归答案:C3. Hadoop的核心组件包括以下哪个?A. SparkB. HiveC. HBaseD. MapReduce答案:D4. 数据挖掘中的“关联规则”通常与哪位学者的名字联系在一起?A. 马斯洛B. 纳维斯C. 阿普拉姆D. 汉斯答案:B5. 大数据的“4V”特性不包括以下哪一项?A. 体量大B. 速度快C. 价值高D. 成本高答案:D6. 在大数据架构中,数据湖主要用于存储什么类型的数据?A. 仅结构化数据B. 仅非结构化数据C. 结构化和非结构化数据D. 仅半结构化数据答案:C7. 下列哪项不是大数据分析的常见应用场景?A. 市场分析B. 风险管理C. 客户细分D. 纸质文档打印答案:D8. 大数据技术可以有效地处理“数据孤岛”问题,这主要是指:A. 数据的物理隔离B. 数据的逻辑隔离C. 数据的格式不统一D. 数据的存储位置分散答案:B9. 在大数据环境下,以下哪个数据库更适合处理非关系型数据?A. MySQLB. OracleC. MongoDBD. SQL Server答案:C10. 大数据的实时分析通常依赖于哪种技术?A. 数据仓库B. 批处理C. 流处理D. 数据挖掘答案:C二、多项选择题(每题3分,共15分)11. 大数据的存储技术包括以下哪些选项?(多选)A. 云存储B. 分布式文件系统C. 关系型数据库D. NoSQL数据库答案:A B D12. 在大数据的生态系统中,以下哪些组件是常见的?(多选)A. HadoopB. SparkC. MongoDBD. Excel答案:A B C13. 大数据的分析过程通常包括哪些步骤?(多选)A. 数据采集B. 数据清洗C. 数据可视化D. 数据丢弃答案:A B C14. 以下哪些因素会影响大数据的性能?(多选)A. 数据的规模B. 数据的处理速度C. 数据的存储格式D. 数据的来源答案:A B C15. 在大数据安全领域,以下哪些措施是重要的?(多选)A. 数据加密B. 访问控制C. 数据备份D. 系统防火墙答案:A B C D三、简答题(每题10分,共20分)16. 请简述大数据的“4V”特性是什么?答案:大数据的“4V”特性指的是体量大(Volume)、速度快(Velocity)、类型多(Variety)、价值高(Value)。
1、(单选,4分)大数据起源于()A、金融B、电信C、互联网D、医疗答案:C※:大数据应用技术专题(练习)2、(单选,4分)第一个提出大数据概念的公司是()A、微软B、谷歌C、麦肯锡D、亚马逊答案:C※:大数据应用技术专题(练习)3、(单选,4分)()规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理。
A、贫数据B、大数据C、富数据D、繁数据答案:B※:大数据应用技术专题(练习)4、(单选,4分)大数据的本质是()A、数据收集B、数据挖掘C、数据关联D、洞察价值答案:D※:大数据应用技术专题(练习)5、(单选,4分)大数据的最显著特征()A、数据规模大B、数据类型多C、数据处理速度快D、数据价值密度高答案:A※:大数据应用技术专题(练习)6、(单选,4分)海军人员通过对前人航海日志的分析,绘制了新的航海路线图,标明大风与洋流可能发生的地点。
这一操作体现大数据思维中的()A、在数据基础上倾向与全体数据而不是抽样数据B、在数据规模上强调相对数据而不是绝对数据C、在分析效果上更讲究效率而不是绝对精确D、在分析方法上更注重相关分析而不是因果分析答案:D7、(单选,4分)下列对大数据特点的说法中,错误的是()A、数据规模大B、数据价值密度高C、数据类型多样D、数据处理速度快答案:B※:大数据应用技术专题(练习)8、(单选,4分)当前社会中,最为突出的大数据环境是()A、互联网B、物联网C、综合国力D、自然资源答案:A※:大数据应用技术专题(练习)9、(单选,4分)下列关于大数据中计算机存储容量单位的说法中,错误的是()A、1KB<1MB<1TBB、基本单位是字节(Byte)C、一个汉字需要2个字节的存储空间D、容纳一个英文字符需要2个字节答案:D※:大数据应用技术专题(练习)10、(单选,4分)计算机存储容量单位换算中,错误的是()A、1KB=1024ByteB、1MB=1024KBC、1TB=1024MBD、1PB=1024TB答案:C※:大数据应用技术专题(练习)11、(单选,4分)大数据时代,数据使用的关键是()A、数据收集B、数据存储C、数据分析D、数据再利用答案:D※:大数据应用技术专题(练习)12、(单选,4分)下列论据中,能够支撑“大数据无所不能”的观点是()A、“互联网+医疗”打破传通的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧答案:A※:大数据应用技术专题(练习)13、(单选,4分)13.支撑大数据业务的基础是()A、数据应用B、数据科学C、数据人才D、数据硬件答案:A※:大数据应用技术专题(练习)14、(单选,4分)下列关于数据生命周期管理的核心认识中,错误的是()A、数据产生被删除销毁过程中,具有多个不同的数据存储阶段B、在不同的数据存在阶段,数据的价值是不同的C、根据数据的价值的不同应该对数据采取不同的管理策略D、数据生命周期管理最终关注的是社会效益答案:D※:大数据应用技术专题(练习)15、(单选,4分)15.当前大数据技术的基础是由()首先提出的A、微软B、百度C、谷歌D、亚马逊答案:C※:大数据应用技术专题(练习)16、(单选,4分)大数据处理流程不包括()A、数据采集B、数据导入和预处理C、数据挖掘与分析D、数据业务统计答案:D※:大数据应用技术专题(练习)17、(单选,4分)17.数据清洗清洗的方法不包括()A、缺失值处理B、噪声数据清除C、一致性检查D、重复数据记录处理答案:D※:大数据应用技术专题(练习)18、(单选,4分)数据仓库的最终目的是()A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持答案:D※:大数据应用技术专题(练习)19、(单选,4分)当前大数据技术的基础不包括()A、分布式文件系统B、分布式并行计算C、关系型数据库D、分布式数据库答案:C※:大数据应用技术专题(练习)20、(单选,4分)云计算使用信息的存储是一个()的方式,它会大大地节约网络成本。
大数据技术及应用题库单选题:1从大量数据中提取知识的过程通常称为(A)。
a. . 数据挖掘b. . 人工智能c. . 数据清洗d. . 数据仓库2下列论据中,能够支撑“大数据无所不能”的观点的是(A)。
A、互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧3数据仓库的最终目的是(D)。
a. . 收集业务需求b. . 建立数据仓库逻辑模型c. . 开发数据仓库的应用分析d. . 为用户和业务部门提供决策支持4大数据处理技术和传统的数据挖掘技术最大的区别是(A)。
a. . 处理速度快(秒级定律)b. . 算法种类更多c. . 精度更高d. . 更加智能化5大数据的起源是(C)。
a. . 金融b. . 电信c. . 互联网d. . 公共管理6大数据不是要教机器像人一样思考。
相反,它是(A)。
a. . 把数学算法运用到海量的数据上来预测事情发生的可能性b. . 被视为人工智能的一部c. . 被视为一种机器学习d. . 预测与惩罚7人与人之间沟通信息、传递信息的技术,这指的是(D)。
a. . 感测技术b. . 微电子技术c. . 计算机技术d. . 通信技术8数据清洗的方法不包括(D)。
a. . 缺失值处理b. . 噪声数据清除c. . 一致性检查d. . 重复数据记录处理9. 下列关于舍恩伯格对大数据特点的说法中,错误的是(D)A. 数据规模大B. 数据类型多样C. 数据处理速度快D. 数据价值密度高10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是(D)。
a. . 富数据b. . 贫数据c. . 繁数据d. . 大数据11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的(D)。
a. . 新一代信息技术b. . 新一代服务业态c. . 新一代技术平台d. . 新一代信息技术和服务业态12万维网之父是(C)A. 彼得·德鲁克B. 舍恩伯格C. 蒂姆·伯纳斯—李D. 斯科特·布朗13下列演示方式中,不属于传统统计图方式的是(D)。
大数据技术及应用题库单选题:1从大量数据中提取知识的过程通常称为(A)。
a. . 数据挖掘b. . 人工智能c. . 数据清洗d. . 数据仓库2下列论据中,能够支撑“大数据无所不能”的观点的是(A)。
A、互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧3数据仓库的最终目的是(D)。
a. . 收集业务需求b. . 建立数据仓库逻辑模型c. . 开发数据仓库的应用分析d. . 为用户和业务部门提供决策支持4大数据处理技术和传统的数据挖掘技术最大的区别是(A)。
a. . 处理速度快(秒级定律)b. . 算法种类更多c. . 精度更高d. . 更加智能化5大数据的起源是(C)。
a. . 金融b. . 电信c. . 互联网d. . 公共管理6大数据不是要教机器像人一样思考。
相反,它是(A)。
a. . 把数学算法运用到海量的数据上来预测事情发生的可能性b. . 被视为人工智能的一部c. . 被视为一种机器学习d. . 预测与惩罚7人与人之间沟通信息、传递信息的技术,这指的是(D)。
a. . 感测技术b. . 微电子技术c. . 计算机技术d. . 通信技术8数据清洗的方法不包括(D)。
a. . 缺失值处理b. . 噪声数据清除c. . 一致性检查d. . 重复数据记录处理9. 下列关于舍恩伯格对大数据特点的说法中,错误的是(D)A. 数据规模大B. 数据类型多样C. 数据处理速度快D. 数据价值密度高10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是(D)。
a. . 富数据b. . 贫数据c. . 繁数据d. . 大数据11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的(D)。
a. . 新一代信息技术b. . 新一代服务业态c. . 新一代技术平台d. . 新一代信息技术和服务业态12万维网之父是(C)A. 彼得·德鲁克B. 舍恩伯格C. 蒂姆·伯纳斯—李D. 斯科特·布朗13下列演示方式中,不属于传统统计图方式的是(D)。
大数据技术及应用题库单选题:1从大量数据中提取知识的过程通常称为(A)。
a。
数据挖掘b。
人工智能c. . 数据清洗d。
数据仓库2下列论据中,能够支撑“大数据无所不能”的观点的是(A)。
A、互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧3数据仓库的最终目的是(D)。
a。
收集业务需求b。
. 建立数据仓库逻辑模型c. . 开发数据仓库的应用分析d. 。
为用户和业务部门提供决策支持4大数据处理技术和传统的数据挖掘技术最大的区别是(A). a。
处理速度快(秒级定律)b. . 算法种类更多c. . 精度更高d. 。
更加智能化5大数据的起源是(C)。
a。
. 金融b. . 电信c. 。
互联网d。
. 公共管理6大数据不是要教机器像人一样思考。
相反,它是(A)。
a。
. 把数学算法运用到海量的数据上来预测事情发生的可能性b。
. 被视为人工智能的一部c。
. 被视为一种机器学习d. . 预测与惩罚7人与人之间沟通信息、传递信息的技术,这指的是(D)。
a. 。
感测技术b。
微电子技术c. 。
计算机技术d。
. 通信技术8数据清洗的方法不包括(D).a. . 缺失值处理b。
. 噪声数据清除c. 。
一致性检查d. . 重复数据记录处理9。
下列关于舍恩伯格对大数据特点的说法中,错误的是(D)A。
数据规模大 B. 数据类型多样C。
数据处理速度快 D. 数据价值密度高10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是(D)。
a. 。
富数据b。
. 贫数据c. 。
繁数据d. 。
大数据11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的(D)。
a. 。
新一代信息技术b。
新一代服务业态c。
. 新一代技术平台d. . 新一代信息技术和服务业态12万维网之父是(C)A。
大数据技术原理与应用第一卷一:判断题(每小题5分)1:对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。
因此,大数据收集的信息量要尽量精确。
A:对B:错答案:B2:Spark是一个高效的分布式计算系统,它有MapReduce所有优点,同时性能与Hadoop一样高。
A:对B:错答案:B3:信息生命周期管理是据生命周期管理的来源,最早由英国企业提出。
A:对B:错答案:B4:简单随机抽样,是从总体N 个对象中任意抽取n 个对象作为样本,最终以这些样本作为调查对象。
在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。
A:对B:错答案:B5:大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,确定判断事件必然会发生。
A:对B:错答案:B二:单选题(每小题5分)6:数据清洗的方法不包括______A缺失值处理B噪声数据清除C一致性检查D重复数据记录处理答案:D7:大数据的基本特征不包括______A数据量大B数据类型繁多C处理速度快D价值密度高答案:D8:HDFS中当前block大小为128M,如果当前要上传到HDFS中的文件大小为300M,那么在存储时会分配_______个block进行存储A1 B2 C3 D4答案:C9:下列______程序通常与NameNode在一个节点启动A SecondNameNodeB DataNodeC TaskTrackerD JobTracker答案:D10:配置Hadoop时,JAVA_HOME包含在______配置文件中A hadoop-default.xmlB hadoop-env.shC hadoop-site.xmlD configuration.xs答案:B11:在数据生命周期管理实践中______是执行方法A数据存储和备份规范B数据管理和维护C数据价值发觉和利用D数据应用开发和管理答案:B12:HBase系统基本架构中主服务器Master的作用是______A包含访问HBase的接口,同时在缓存中维护着已经访问过的Region位置信息,用来加快后续数据访问过程B可以帮助选举出一个Master作为集群的总管,并保证在任何时刻总有唯一一个Master在运行C主要负责表和Region的管理工作D是HBase中最核心的模块,负责维护分配给自己的Region,并响应用户的读写请求答案:C13:Hadoop具有特性不包括______A高可靠性B高效性C高可扩展性D低容错性,答案:D14:YARN的http端口默认是______A80 B8080 C 8090 D8088答案:D15:大数据时代,数据使用的关键是______A数据收集B数据存储C数据分析D数据再利用答案:D三:多选题(每小题5分)16:大数据人才整体上需要具备______等核心知识A数学与统计知识B计算机相关知识C马克思主义哲学知识D市场运营管理知识E在特定业务领域的知识答案:ABE17:下列关于数据生命周期管理的核心认识中,正确的是______A数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段B在不同的数据存在阶段,数据的价值是不同的C根据数据价值的不同应该对数据采取不同的管理策略D数据生命周期管理旨在产生效益的同时,降低生产成本答案:ABC18:数据研究经历了几种范式,包括______A实验B理论C计算D数据答案:ABCD19:按照涉及自变量的多少,可以将回归分析分为______A线性回归分析B非线性回归分析C一元回归分析D多元回归分析答案:CD20:大数据产业发展特点______A规模较大B规模较小C增速较快D增速缓慢E多产业交叉融合答案:ACE第二卷一:判断题(每小题5分)1:HDFS能提供高吞吐量的数据访问,非常适合于大规模数据集上的应用。
1. 大数据的核心特征不包括以下哪一项?A. 大量性B. 高速性C. 多样性D. 单一性2. Hadoop生态系统中,用于数据仓库的组件是?A. HBaseB. HiveC. PigD. Zookeeper3. 在数据挖掘中,以下哪种技术主要用于分类?A. 聚类分析B. 关联规则C. 决策树D. 回归分析4. 大数据处理框架Apache Spark的核心抽象是?A. RDDB. DataFrameC. DatasetD. GraphX5. 以下哪个不是NoSQL数据库的类型?A. 键值存储B. 文档存储C. 关系数据库D. 图数据库6. 在Hadoop中,负责数据存储的组件是?A. HDFSB. MapReduceC. YARND. Oozie7. 大数据分析中,以下哪个步骤通常最先进行?A. 数据清洗B. 数据可视化C. 数据建模D. 数据收集8. 以下哪个编程语言常用于大数据处理?A. PythonB. RubyC. SwiftD. Perl9. 在Spark中,用于处理实时数据流的组件是?A. Spark SQLB. Spark StreamingC. MLlibD. GraphX10. 以下哪个工具不是用于大数据可视化的?A. TableauB. Power BIC. ExcelD. D3.js11. 在数据仓库中,ETL过程指的是?A. 提取、转换、加载B. 加密、传输、登录C. 编辑、测试、发布D. 评估、培训、学习12. 以下哪个是大数据处理中的批处理技术?A. Spark StreamingB. KafkaC. MapReduceD. Storm13. 在Hadoop中,负责资源管理的组件是?A. HDFSB. MapReduceC. YARND. Oozie14. 大数据技术中,以下哪个不是数据存储技术?A. HBaseB. CassandraC. MongoDBD. MapReduce15. 在数据分析中,以下哪个方法用于发现数据中的异常值?A. 聚类分析B. 关联规则C. 异常检测D. 回归分析16. 以下哪个是大数据技术中的内存计算框架?A. HadoopB. SparkC. FlinkD. Storm17. 在数据仓库设计中,以下哪个模型用于表示数据的关系?A. 星型模型B. 雪花模型C. 实体-关系模型D. 维度模型18. 以下哪个不是大数据分析的应用领域?A. 金融B. 医疗C. 教育D. 农业19. 在Spark中,以下哪个组件用于机器学习?A. Spark SQLB. Spark StreamingC. MLlibD. GraphX20. 以下哪个是大数据技术中的流处理框架?A. HadoopB. SparkC. FlinkD. Storm21. 在数据分析中,以下哪个方法用于预测未来趋势?A. 聚类分析B. 关联规则C. 时间序列分析D. 回归分析22. 以下哪个是大数据技术中的图计算框架?A. HadoopB. SparkC. FlinkD. GraphX23. 在数据仓库中,以下哪个步骤用于将数据从源系统转移到数据仓库?A. 数据提取B. 数据转换C. 数据加载D. 数据清洗24. 以下哪个不是大数据技术的优势?A. 提高决策效率B. 降低成本C. 增加数据冗余D. 增强数据洞察力25. 在数据分析中,以下哪个方法用于发现数据中的模式?A. 聚类分析B. 关联规则C. 异常检测D. 回归分析26. 以下哪个是大数据技术中的列存储数据库?A. HBaseB. CassandraC. MongoDBD. HDFS27. 在数据仓库中,以下哪个步骤用于将数据转换为适合分析的格式?A. 数据提取B. 数据转换C. 数据加载D. 数据清洗28. 以下哪个不是大数据技术的挑战?A. 数据安全B. 数据隐私C. 数据冗余D. 数据质量29. 在数据分析中,以下哪个方法用于发现数据中的关联?A. 聚类分析B. 关联规则C. 异常检测D. 回归分析30. 以下哪个是大数据技术中的键值存储数据库?A. HBaseB. CassandraC. MongoDBD. HDFS31. 在数据仓库中,以下哪个步骤用于将数据加载到数据仓库中?A. 数据提取B. 数据转换C. 数据加载D. 数据清洗32. 以下哪个不是大数据技术的应用场景?A. 个性化推荐B. 风险管理C. 数据备份D. 智能分析33. 在数据分析中,以下哪个方法用于将数据分组?A. 聚类分析B. 关联规则C. 异常检测D. 回归分析34. 以下哪个是大数据技术中的文档存储数据库?A. HBaseB. CassandraC. MongoDBD. HDFS35. 在数据仓库中,以下哪个步骤用于将数据从源系统提取出来?A. 数据提取B. 数据转换C. 数据加载D. 数据清洗36. 以下哪个不是大数据技术的特点?A. 数据量大B. 数据种类多C. 数据处理速度快D. 数据处理精度低37. 在数据分析中,以下哪个方法用于预测数值?A. 聚类分析B. 关联规则C. 异常检测D. 回归分析38. 以下哪个是大数据技术中的图存储数据库?A. HBaseB. CassandraC. MongoDBD. Neo4j39. 在数据仓库中,以下哪个步骤用于将数据清洗干净?A. 数据提取B. 数据转换C. 数据加载40. 以下哪个不是大数据技术的应用领域?A. 零售B. 制造C. 娱乐D. 军事41. 在数据分析中,以下哪个方法用于发现数据中的异常?A. 聚类分析B. 关联规则C. 异常检测D. 回归分析42. 以下哪个是大数据技术中的内存数据库?A. HBaseB. CassandraC. MongoDBD. Redis43. 在数据仓库中,以下哪个步骤用于将数据转换为适合分析的格式?A. 数据提取B. 数据转换C. 数据加载D. 数据清洗44. 以下哪个不是大数据技术的优势?A. 提高决策效率B. 降低成本C. 增加数据冗余D. 增强数据洞察力45. 在数据分析中,以下哪个方法用于发现数据中的模式?A. 聚类分析B. 关联规则C. 异常检测D. 回归分析46. 以下哪个是大数据技术中的列存储数据库?A. HBaseB. CassandraC. MongoDBD. HDFS47. 在数据仓库中,以下哪个步骤用于将数据加载到数据仓库中?A. 数据提取C. 数据加载D. 数据清洗48. 以下哪个不是大数据技术的应用场景?A. 个性化推荐B. 风险管理C. 数据备份D. 智能分析49. 在数据分析中,以下哪个方法用于将数据分组?A. 聚类分析B. 关联规则C. 异常检测D. 回归分析50. 以下哪个是大数据技术中的文档存储数据库?A. HBaseB. CassandraC. MongoDBD. HDFS答案:1. D2. B3. C4. A5. C6. A7. D8. A9. B10. C11. A12. C13. C14. D15. C16. B17. C18. D19. C20. D21. C22. D23. A24. C25. A26. B27. B28. C29. B30. A31. C32. C33. A34. C35. A36. D37. D38. D39. D40. D41. C42. D43. B44. C45. A46. B47. C48. C49. A50. C。
大数据技术原理与应用第1章大数据概述1单选(2分)第三次信息化浪潮的标志是:A.个人电脑的普及B.云计算、大数据、物联网技术的普及C.虚拟现实技术的普及D.互联网的普及正确答案:B你选对了2单选(2分)就数据的量级而言,1PB数据是多少TB?A.2048B.1000C.512D.1024正确答案:D你选对了3单选(2分)以下关于云计算、大数据和物联网之间的关系,论述错误的是:A.云计算侧重于数据分析B.物联网可借助于云计算实现海量数据的存储C.物联网可借助于大数据实现海量数据的分析D.云计算、大数据和物联网三者紧密相关,相辅相成正确答案:A你选对了4单选(2分)以下哪个不是大数据时代新兴的技术:A.SparkB.HadoopC.HBaseD.MySQL正确答案:D你选对了5单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:A.MapReduceB.DremelC.StormD.Pregel正确答案:A你选对了6单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:A.GraphXB.S4C.ImpalaD.Hive正确答案:B你选对了7单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:A.PregelB.StormC.CassandraD.Flume正确答案:A你选对了8单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:A.HDFSB.S4C.DremelD.MapReduce正确答案:C你选对了9多选(3分)数据产生方式大致经历三个阶段,包括:A.运营式系统阶段B.感知式系统阶段C.移动互联网数据阶段D.用户原创内容阶段正确答案:ABD你选对了10多选(3分)大数据发展三个阶段是:A.低谷期B.成熟期C.大规模应用期D.萌芽期正确答案:BCD你选对了11多选(3分)大数据的特性包括:A.价值密度低B.处理速度快C.数据类型繁多D.数据量大正确答案:ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历哪几种范式:A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案:ABCD你选对了13多选(3分)大数据带来思维方式的三个转变是:A.效率而非精确B.相关而非因果C.精确而非全面D.全样而非抽样正确答案:ABD你选对了14多选(3分)大数据主要有哪几种计算模式:A.流计算B.图计算C.查询分析计算D.批处理计算正确答案:ABCD你选对了15多选(3分)云计算的典型服务模式包括三种:A.SaaSB.IaaSC.MaaSD.PaaS正确答案:ABD你选对了第2章大数据处理架构Hadoop1单选(2分)启动hadoop所有进程的命令是:A.start-dfs.shB.start-all.shC.start-hadoop.shD.start-hdfs.sh正确答案:B你选对了2单选(2分)以下对Hadoop的说法错误的是:A.Hadoop是基于Java语言开发的,只支持Java语言编程B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算D.Hadoop的核心是HDFS和MapReduce正确答案:A你选对了3单选(2分)以下哪个不是Hadoop的特性:A.成本高B.支持多种编程语言C.高容错性D.高可靠性正确答案:A你选对了4单选(2分)以下名词解释不正确的是:A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现正确答案:B你选对了5多选(3分)以下哪些组件是Hadoop的生态系统的组件:A.HBaseB.OracleC.HDFSD.MapReduce正确答案:ACD你选对了6多选(3分)以下哪个命令可用来操作HDFS文件:A.hadoop fsB.hadoop dfsC.hdfs fsD.hdfs dfs正确答案:ABD你选对了第3章分布式文件系统HDFS1单选(2分)HDFS的命名空间不包含:A.字节B.文件C.块D.目录正确答案:A你选对了2单选(2分)对HDFS通信协议的理解错误的是:A.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的正确答案:D你选对了3单选(2分)采用多副本冗余存储的优势不包含:A.保证数据可靠性B.容易检查数据错误C.加快数据传输速度D.节约存储空间正确答案:D你选对了4单选(2分)假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:A.start-dfs.sh,stop-hdfs.shB.start-hdfs.sh,stop-hdfs.shC.start-dfs.sh,stop-dfs.shD.start-hdfs.sh,stop-dfs.sh正确答案:C你选对了5单选(2分)分布式文件系统HDFS采用主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫 :A.名称节点,主节点B.从节点,主节点C.名称节点,数据节点D.数据节点,名称节点正确答案:C你选对了6单选(2分)下面关于分布式文件系统HDFS的描述正确的是:A.分布式文件系统HDFS是Google Bigtable的一种开源实现B.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现C.分布式文件系统HDFS比较适合存储大量零碎的小文件D.分布式文件系统HDFS是一种关系型数据库正确答案:B你选对了7多选(3分)以下对名称节点理解正确的是:A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中正确答案:ACD你选对了8多选(3分)以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点用来存储具体的文件内容C.数据节点的数据保存在磁盘中D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作正确答案:BCD你选对了9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:A.集群的可用性B.性能的瓶颈C.命名空间的限制D.隔离问题正确答案:ABCD你选对了10多选(3分)以下HDFS相关的shell命令不正确的是:A.hadoop dfs mkdir <path>:创建<path>指定的文件夹B.hdfs dfs -rm <path>:删除路径<path>指定的文件C.hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D.hadoop fs -ls <path>:显示<path>指定的文件的详细信息正确答案:AC你选对了第4章分布式数据库HBase1单选(2分)HBase是一种数据库A.行式数据库B.关系数据库C.文档数据库D.列式数据库正确答案:D你选对了2单选(2分)下列对HBase数据模型的描述错误的是:A.每个HBase表都由若干行组成,每个行由行键(row key)来标识B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D.HBase列族支持动态扩展,可很轻松地添加一个列族或列正确答案:C你选对了3单选(2分)下列说法正确的是:A.如果不启动Hadoop,则HBase完全无法使用B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等正确答案:D你选对了4单选(2分)在HBase数据库中,每个Region的建议最佳大小是:A.2GB-4GBB.100MB-200MBC.500MB-1000MBD.1GB-2GB正确答案:D你选对了5单选(2分)HBase三层结构的顺序是:A.Zookeeper文件,.MEATA.表,-ROOT-表B.-ROOT-表,Zookeeper文件,.MEATA.表C.Zookeeper文件,-ROOT-表,.MEATA.表D..MEATA.表,Zookeeper文件,-ROOT-表正确答案:C你选对了6单选(2分)客户端是通过级寻址来定位Region:A.三B.二C.一D.四正确答案:A你选对了7单选(2分)关于HBase Shell命令解释错误的是:A.create:创建表B.put:向表、行、列指定的单元格添加数据C.list:显示表的所有数据D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案:C你选对了8多选(3分)下列对HBase的理解正确的是:A.HBase是针对谷歌BigTable的开源实现B.HBase是一种关系型数据库,现成功应用于互联网服务领域C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件D.HBase多用于存储非结构化和半结构化的松散数据正确答案:AD你选对了9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.数据索引C.数据模型D.存储模式正确答案:ABCD你选对了10多选(3分)访问HBase表中的行,有哪些方式:A.通过某列的值区间B.全表扫描C.通过一个行健的区间来访问D.通过单个行健访问正确答案:BCD你选对了第5章 NoSQL数据库1单选(2分)下列关于NoSQL数据库和关系型数据库的比较,不正确的是:A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言C.NoSQL数据库的可扩展性比传统的关系型数据库更好D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性正确答案:A你选对了2单选(2分)以下对各类数据库的理解错误的是:A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等B.文档数据库的数据是松散的,XML和JSON 文档等都可作为数据存储在文档数据库中C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱D.HBase数据库是列族数据库,可扩展性强,支持事务一致性正确答案:D你选对了3单选(2分)下列数据库属于文档数据库的是:A.MySQLB.RedisC.MongoDBD.HBase正确答案:C你选对了4单选(2分)NoSQL数据库的三大理论基石不包括:A.最终一致性B.BASEC.ACIDD.CAP正确答案:C你选对了5多选(3分)关于NoSQL数据库和关系数据库,下列说法正确的是:A.NoSQL数据库可支持超大规模数据存储,具有强大的横向扩展能力B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库C.大多数NoSQL数据库很难实现数据完整性D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础正确答案:ACD你选对了6多选(3分)NoSQL数据库的类型包括:A.键值数据库B.列族数据库C.文档数据库D.图数据库正确答案:ABCD你选对了7多选(3分)CAP是指:A.一致性B.可用性C.持久性D.分区容忍性正确答案:ABD你选对了8多选(3分)NoSQL数据库的BASE特性是指:A.软状态B.持续性C.最终一致性D.基本可用正确答案:ACD你选对了第6章云数据库1单选(2分)下列Amazon的云数据库属于关系数据库的是:A.Amazon SimpleDBB.Amazon DynamoDBC.Amazon RDSD.Amazon Redshift正确答案:C你选对了2单选(2分)下列关于UMP系统的说法不正确的是:A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例C.UMP系统是低成本和高性能的MySQL云数据库方案D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务正确答案:D你选对了3多选(3分)UMP依赖的开源组件包括A.LVSB.ZooKeeperC.MnesiaD.RabbitMQ正确答案:ABCD你选对了4多选(3分)在UMP系统中,Zookeeper主要发挥的作用包括:A.监控所有MySQL实例B.负责集群负载均衡C.提供分布式锁,选出一个集群的“总管”D.作为全局的配置服务器正确答案:ACD你选对了5多选(3分)UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志B.数据访问IP白名单C.SSL数据库连接D.SQL拦截正确答案:ABCD你选对了第7章 MapReduce1单选(2分)下列说法错误的是:A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveD.不同的Map任务之间不能互相通信正确答案:B你选对了2单选(2分)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应是下面哪种形式:A.<"hello",1,1>、<"hadoop",1>和<"world",1>B.<"hello",2>、<"hadoop",1>和<"world",1>C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>D.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>正确答案:D你选对了3单选(2分)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:A.<"hello",<1,1>><"hadoop",1><"world",1>B.<"hello",1><"hello",1><"hadoop",1><"world",1>C.<"hello",1,1><"hadoop",1><"world",1>D.<"hello",2><"hadoop",1><"world",1>正确答案:B你选对了4多选(3分)下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好B.前者相比后者学习起来更难C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:ABCD你选对了5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:A.JobTrackerB.TaskTrackerC.ClientD.Task正确答案:ABCD你选对了第8章 Hadoop再探讨1单选(2分)下列说法正确的是:A.HDFS HA可用性不好B.第二名称节点是热备份C.HDFS HA提供高可用性,可实现可扩展性、系统性能和隔离性D.第二名称节点无法解决单点故障问题正确答案:D你选对了2单选(2分)HDFS Federation设计不能解决“单名称节点”存在的哪个问题:A.单点故障问题B.HDFS集群扩展性C.性能更高效D.良好的隔离性正确答案:A你选对了3多选(3分)下列哪些是Hadoop1.0存在的问题:A.抽象层次低B.表达能力有限C.开发者自己管理作业之间的依赖关系D.执行迭代操作效率低正确答案:ABCD你选对了4多选(3分)下列对Hadoop各组件的理解正确的是:A.Oozie:工作流和协作服务引擎B.Pig:处理大规模数据的脚本语言C.Kafka:分布式发布订阅消息系统D.Tez:支持DAG作业的计算框架正确答案:ABCD你选对了5多选(3分)对新一代资源管理调度框架YARN的理解正确的是:A.YARN既是资源管理调度框架,也是一个计算框架B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster正确答案:BCD你选对了第9章数据仓库Hive1单选(2分)下列有关Hive和Impala的对比错误的是:A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划B.Hive与Impala使用相同的元数据C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此正确答案:D你选对了2单选(2分)下列关于Hive基本操作命令的解释错误的是:A.create table if not exists usr(id bigint,name string,age int);//如usr表不存在,创建表usr,含三个属性id,name,ageB.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表C.create database userdb;//创建数据库userdbD.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案:B你选对了3多选(3分)下列说法正确的是:A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上B.数据仓库Hive不需要借助于HDFS就可完成数据的存储C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D.HiveQL语法与传统的SQL语法很相似正确答案:ACD你选对了4多选(3分)Impala主要由哪几个部分组成:A.HiveB.ImpaladC.State StoreD.CLI正确答案:BCD你选对了5多选(3分)以下属于Hive的基本数据类型是:A.BINARYB.STRINGC.FLOATD.TINYINT正确答案:ABCD你选对了第10章 Spark1单选(2分)Spark SQL目前暂时不支持下列哪种语言:A.PythonB.JavaC.ScalaD.Lisp正确答案:D你选对了2单选(2分)RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:A.groupByB.filterC.countD.map正确答案:C你选对了3单选(2分)下列说法错误的是:A.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架StormB.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算C.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARND.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换正确答案:D你选对了4单选(2分)下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:A.filter(func):筛选出满足函数func的元素,并返回一个新的数据集B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集C.count():返回数据集中的元素个数D.take(n):返回数据集中的第n个元素正确答案:D你选对了5单选(2分)下列大数据处理类型与其对应的软件框架不匹配的是:A.复杂的批量数据处理:MapReduceB.基于历史数据的交互式查询:ImpalaC.基于实时数据流的数据处理:StormD.图结构数据的计算:Hive正确答案:D你选对了6多选(3分)Apache软件基金会最重要的三大分布式计算系统开源项目包括:A.OracleC.StormD.Spark正确答案:ABC你选对了7多选(3分)Spark的主要特点包括:A.运行模式多样B.运行速度快C.通用性好D.容易使用正确答案:ABCD你选对了8多选(3分)下列关于Scala的说法正确的是:A.Scala运行于Java平台,兼容现有的Java程序B.Scala具备强大的并发性,支持函数式编程C.Scala是一种多范式编程语言D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言正确答案:ABCD你选对了9多选(3分)Spark的运行架构包括:A.运行作业任务的工作节点 Worker NodeB.每个工作节点上负责具体任务的执行进程 ExecutorC.每个应用的任务控制节点 DriverD.集群资源管理器 Cluster Manager正确答案:ABCD你选对了第11章流计算1单选(2分)流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:A.降低B.不确定C.不变正确答案:A你选对了2单选(2分)Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做A.SpoutB.BoltC.TupleD.Topology正确答案:D你选对了3多选(3分)对于一个流计算系统来说,它应达到如下哪些需求:A.海量式B.高性能C.分布式D.实时性正确答案:A、B、C、D你选对了4多选(3分)数据采集系统的基本架构包括哪些部分:A.ControllerB.StoreC.AgentD.Collector正确答案:B、C、D你选对了5多选(3分)以下哪些是开源的流计算框架:A.Facebook PumaB.Yahoo! S4C.IBM InfoSphere StreamsD.Twitter Storm正确答案:B、D你选对了6多选(3分)下面哪几个属于Storm中的Stream Groupings的分组方式:A.按照字段分组B.广播发送C.随机分组D.全局分组正确答案:A、B、C、D你选对了第12章 Flink1单选(2分)以下哪个不是Flink的优势:A.同时支持高吞吐、低延迟、高性能B.不支持增量迭代C.同时支持流处理和批处理D.支持有状态计算正确答案:B你选对了2单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.FlinkMLC.GellyD.CEP正确答案:C你选对了3多选(3分)下面关于Flink的说法正确的是:A.Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B.Flink可以同时支持实时计算和批量计算C.Flink不是Apache软件基金会的项目D.Flink是Apache软件基金会的5个最大的大数据项目之一正确答案:A、B、D你选对了4多选(3分)Flink的主要特性包括:A.精确一次的状态一致性保障B.批流一体化C.精密的状态管理D.事件时间支持正确答案:A、B、C、D你选对了5多选(3分)下面论述正确的是:A.Spark Streaming通过采用微批处理方法实现高吞吐和容错性,但是牺牲了低延迟和实时处理能力B.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态C.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink 可满足要求D.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理正确答案:A、B、C、D你选对了6多选(3分)Flink常见的应用场景包括:A.数据流水线应用B.事件驱动型应用C.地图应用D.数据分析应用正确答案:A、B、D你选对了7多选(3分)Flink核心组件栈分为哪三层:A.物理部署层B.Runtime核心层C.Core层D.API&Libraries层正确答案:A、B、D你选对了8多选(3分)Flink有哪几种部署模式:A.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上B.YARN集群模式C.Standalone集群模式D.Local模式正确答案:A、B、C、D你选对了9多选(3分)Flink系统主要由两个组件组成,分别为:A.JobManagerB.JobSchedulerC.TaskSchedulerD.TaskManager正确答案:A、D你选对了10多选(3分)在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:A.DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)B.Table APIC.状态化的数据流接口D. SQL正确答案:A、B、C、D你选对了第13章图计算1单选(2分)Pregel是一种基于模型实现的并行图处理系统:A.TSPB.STPC.BSPD.SBP正确答案:C你选对了2单选(2分)谷歌在后Hadoop时代的新“三驾马车”不包括:A.CaffeineB.DremelC. PregelD.Hama正确答案:D你选对了3多选(3分)下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:A.HamaB.GiraphC.PregelD.Neo4j正确答案:A、B、C你选对了4多选(3分)以下关于Pregel图计算框架说法正确的是:A.通常只对满足交换律和结合律的操作才会开启Combiner功能B.Pregel采用检查点机制来实现容错C.对于全局拓扑改变,Pregel采用了惰性协调机制D.Aggregator提供了一种全局通信、监控和数据查看的机制正确答案:A、B、C、D你选对了第14章大数据在不同领域的应用1单选(2分)下列说法错误的是:A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品B.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法erCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品erCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化正确答案:B你选对了2多选(3分)推荐方法包括哪些类型:A.专家推荐B.协同过滤推荐C.基于内容的推荐D.基于统计的推荐正确答案:A、B、C、D你选对了期末试卷1单选(2分)数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:A.运营式系统阶段B.感知式系统阶段C.数据流阶段D.用户原创内容阶段正确答案:C你选对了2单选(2分)第三次信息化浪潮的发生标志是以下哪种技术的普及:A.互联网B.CPUC.物联网、云计算和大数据D.个人计算机正确答案:C你选对了3单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.CEPC. GellyD. FlinkML正确答案:C你选对了4单选(2分)Hadoop的两大核心是和A.MapReduce; HBaseB. HDFS; HBaseC.HDFS; MapReduceD.GFS; MapReduce正确答案:C你选对了5单选(2分)HDFS默认的一个块大小是A.64MBB.8KBC. 32KBD.16KB正确答案:A你选对了6单选(2分)在分布式文件系统HDFS中,负责数据的存储和读取:A.数据节点B.第二名称节点C.名称节点D.主节点正确答案:A你选对了7单选(2分)上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:A.hdfs dfs -put /path file.txtB.hadoop dfs -put /path file.txtC.hdfs fs -put file.txt /pathD.hdfs dfs -put file.txt /path正确答案:D你选对了8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:A.hadoop fs -mkdir -p /test/dirB.hdfs fs -mkdir -p /test/dirC.hadoop dfs -mkdir /test/dirD.hdfs dfs *mkdir -p /test/dir正确答案:A你选对了9单选(2分)下列有关HBase的说法正确的是:A.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库B.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库C.HBase是一种NoSQL数据库D.HBase数据库表可以设置该表任意列作为索引正确答案:C你选对了10单选(2分)已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math}:88},其id 作为行键,其中,在插入数学成绩88分时,正确的命令是:A.put 'student','score:math','88'B.put 'student','2015001','score:math','88'C.put 'student','2015001','math','88'D.put 'student','2015001','88'正确答案:B你选对了11单选(2分)NoSQL数据库的三大理论基石不包括:A.ACIDB.最终一致性C.BASED.CAP正确答案:A你选对了12单选(2分)在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):A.<"hello",1,1>、<"bigdata",1>和<"hadoop",1>B. <"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>C.<"hello",2>、<"bigdata",1>和<"hadoop",1>D.<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>正确答案:D你选对了13单选(2分)假设已经配置好PATH环境变量,启动Hadoop的命令是:A.start-hdfs.shB.start-fs.shC.start-dfs.shD.start-hadoop.sh正确答案:C你选对了14单选(2分)下列说法错误的是:A.HDFS Federation使得HDFS的命名服务能够水平扩展B.第二名称节点是热备份,而HDFS HA不是热备份C.HDFS HA可以解决单点故障问题D.第二名称节点无法解决单点故障问题正确答案:B你选对了15单选(2分)。
大数据考试试题及答案一、单选题(每题2分,共10题)1. 大数据的4V特征不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Visualization(可视化)答案:D2. Hadoop生态系统中,用于存储的组件是?A. HBaseB. HiveC. HDFSD. YARN答案:C3. 以下哪个不是大数据技术?A. SparkB. HadoopC. NoSQLD. SQL答案:D4. 在大数据中,用于处理非结构化数据的技术是?A. MapReduceB. HiveC. PigD. MongoDB答案:D5. 大数据的分析过程通常不包括以下哪一步?A. 数据收集B. 数据清洗C. 数据存储D. 数据销毁答案:D二、多选题(每题3分,共5题)1. 大数据技术可以应用于以下哪些领域?A. 金融B. 医疗C. 教育D. 娱乐答案:ABCD2. 以下哪些是Hadoop生态系统的组成部分?A. HDFSB. MapReduceC. HiveD. Spark答案:ABCD3. 大数据的存储技术包括?A. 云存储B. 分布式文件系统C. 内存数据库D. 传统关系型数据库答案:ABC4. 大数据的分析工具包括?A. RB. PythonC. SASD. Excel答案:ABC5. 大数据的安全性问题包括?A. 数据泄露B. 数据篡改C. 非法访问D. 数据丢失答案:ABCD三、判断题(每题1分,共5题)1. 大数据技术只能处理结构化数据。
(错误)2. 大数据的实时性要求非常高,因此对速度的要求非常高。
(正确)3. 大数据技术可以完全替代传统的数据库技术。
(错误)4. 大数据的分析结果可以用于预测未来趋势。
(正确)5. 大数据技术的应用不需要考虑数据隐私和安全问题。
(错误)四、简答题(每题5分,共2题)1. 请简述大数据技术在商业智能中的应用。
答:大数据技术在商业智能中的应用包括客户行为分析、市场趋势预测、供应链优化、库存管理等。
1)请阐述什么是大数据?大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2)大数据对当今世界有哪些影响?大数据是一种新兴的产业,从提出概述至今不断在推动着世界经济的转型和进一步的发展。
如法国政府在2013年投入近1150万欧元,用于7个大数据市场研发项目。
目的在于通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。
法国政府在《数字化路线图》中列出了五项将大力支持的战略性高新技术,大数据就是其中一项。
综上所述,从各种各样的大数据中,快速获得有用的信息的能力,就是大数据技术。
这种技术已经对人们的产生和生活方式有了极大的影响,并且还在快速的发展中,不会停下来。
3)大数据有哪些框架?按照对所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类:批处理系统、流处理系统和混合处理系统。
4)企业应当如何应对大数据时代的挑战?大数据在许多企业应用程序中的确扮演着相当重要的角色,大数据的应用对于企业带来的好处有以下几点:(1)结合各种传统企业数据对大数据进行分析和提炼,带给企业更深入透彻的洞察力。
它可以带来更高的生产力,更大的创新和更强的竞争地位。
(2)正确的数据分析可以帮助企业做出明智的业务经营决策的工具。
这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。
而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的决策。
(3)促进企业决策流程:增进企业的资讯整合与资讯分析的能力,汇总公司内、外部的资料,整合成有效的决策资讯,让企业经理人大幅增进决策效率与改善决策品质,很大程度上影响了企业的经营和绩效。
5)大数据和云计算的联系和区别是什么?如果将云计算与大数据进行一些比较,最明显的区分在两个方面:第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。
大数据应用技术专题(练习)1、(单选,4分)大数据起源于()A、金融B、电信C、互联网D、医疗答案:C2、(单选,4分)第一个提出大数据概念的公司是()A、微软B、谷歌C、麦肯锡D、亚马逊答案:C3、(单选,4分)()规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理。
A、贫数据B、大数据C、富数据D、繁数据答案:B4、(单选,4分)大数据的本质是()A、数据收集B、数据挖掘C、数据关联D、洞察价值答案:D5、(单选,4分)大数据的最显著特征()A、数据规模大B、数据类型多C、数据处理速度快D、数据价值密度高答案:A6、(单选,4分)海军人员通过对前人航海日志的分析,绘制了新的航海路线图,标明大风与洋流可能发生的地点。
这一操作体现大数据思维中的()A、在数据基础上倾向与全体数据而不是抽样数据B、在数据规模上强调相对数据而不是绝对数据C、在分析效果上更讲究效率而不是绝对精确D、在分析方法上更注重相关分析而不是因果分析答案:D7、(单选,4分)下列对大数据特点的说法中,错误的是()A、数据规模大B、数据价值密度高C、数据类型多样D、数据处理速度快答案:B8、(单选,4分)当前社会中,最为突出的大数据环境是()A、互联网B、物联网C、综合国力D、自然资源答案:A9、(单选,4分)下列关于大数据中计算机存储容量单位的说法中,错误的是()A、1KB<1MB<1TBB、基本单位是字节(Byte)C、一个汉字需要2个字节的存储空间D、容纳一个英文字符需要2个字节答案:D10、(单选,4分)计算机存储容量单位换算中,错误的是()A、1KB=1024ByteB、1MB=1024KBC、1TB=1024MBD、1PB=1024TB 答案:C11、(单选,4分)大数据时代,数据使用的关键是()A、数据收集B、数据存储C、数据分析D、数据再利用答案:D12、(单选,4分)下列论据中,能够支撑“大数据无所不能”的观点是()A、“互联网+医疗”打破传通的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧答案:A13、(单选,4分)13. 支撑大数据业务的基础是()A、数据应用B、数据科学C、数据人才D、数据硬件答案:A14、(单选,4分)下列关于数据生命周期管理的核心认识中,错误的是()A、数据产生被删除销毁过程中,具有多个不同的数据存储阶段B、在不同的数据存在阶段,数据的价值是不同的C、根据数据的价值的不同应该对数据采取不同的管理策略D、数据生命周期管理最终关注的是社会效益答案:D15、(单选,4分)15. 当前大数据技术的基础是由()首先提出的A、微软B、百度C、谷歌D、亚马逊答案:C16、(单选,4分)大数据处理流程不包括()A、数据采集B、数据导入和预处理C、数据挖掘与分析D、数据业务统计答案:D17、(单选,4分)17. 数据清洗清洗的方法不包括()A、缺失值处理B、噪声数据清除C、一致性检查D、重复数据记录处理答案:D18、(单选,4分)数据仓库的最终目的是()A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持答案:D19、(单选,4分)当前大数据技术的基础不包括()A、分布式文件系统B、分布式并行计算C、关系型数据库D、分布式数据库答案:C20、(单选,4分)云计算使用信息的存储是一个()的方式,它会大大地节约网络成本。
大数据考试试题及答案一、选择题(每题2分,共20分)1. 大数据的4V特性不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Validity(有效性)答案:D2. Hadoop生态系统中,用于数据存储的是以下哪个组件?A. HBaseB. HiveC. HDFSD. Pig答案:C3. 下列哪个选项不是大数据技术?A. 数据挖掘B. 数据清洗C. 机器学习D. 数据库管理答案:D4. 在大数据时代,以下哪个不是数据来源?A. 社交媒体B. 传感器C. 传统数据库D. 人工录入答案:D5. 下列哪个不是大数据的分析工具?A. RB. PythonC. ExcelD. Hadoop答案:C6. 以下哪个不是大数据的典型应用场景?A. 客户行为分析B. 金融欺诈检测C. 天气预报D. 个人隐私保护答案:D7. 在大数据架构中,以下哪个不是数据湖的概念?A. 存储原始数据B. 数据格式多样化C. 数据实时分析D. 数据集中存储答案:C8. 以下哪个不是大数据的挑战?A. 数据安全B. 数据存储C. 数据隐私D. 数据共享答案:D9. 在大数据技术中,以下哪个不是分布式计算框架?A. SparkB. HadoopC. FlinkD. Oracle答案:D10. 下列哪个不是大数据的分析方法?A. 描述性分析B. 预测性分析C. 规范性分析D. 比较性分析答案:D二、填空题(每题2分,共10分)1. 大数据技术可以处理的数据类型包括结构化数据、半结构化数据和______数据。
答案:非结构化2. Hadoop的核心组件包括______和MapReduce。
答案:HDFS3. 在大数据领域,______是一种用于实时数据流处理的框架。
答案:Apache Kafka4. 大数据的分析过程通常包括数据采集、数据存储、______和数据可视化。
答案:数据分析5. 机器学习是大数据技术中的一个重要组成部分,它包括监督学习、无监督学习和______学习。
1 / 27下载文档可编辑 大数据技术及应用题库 单选题: 1从大量数据中提取知识的过程通常称为(A)。 a. . 数据挖掘 b. . 人工智能 c. . 数据清洗 d. . 数据仓库
2下列论据中,能够支撑“大数据无所不能”的观点的是(A)。 A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧
3数据仓库的最终目的是(D)。 a. . 收集业务需求 b. . 建立数据仓库逻辑模型 c. . 开发数据仓库的应用分析 d. . 为用户和业务部门提供决策支持
4大数据处理技术和传统的数据挖掘技术最大的区别是(A)。 2 / 27下载文档可编辑
a. . 处理速度快(秒级定律) b. . 算法种类更多 c. . 精度更高 d. . 更加智能化
5大数据的起源是(C)。 a. . 金融 b. . 电信 c. . 互联网 d. . 公共管理
6大数据不是要教机器像人一样思考。相反,它是(A)。 a. . 把数学算法运用到海量的数据上来预测事情发生的可能性 b. . 被视为人工智能的一部 c. . 被视为一种机器学习 d. . 预测与惩罚
7人与人之间沟通信息、传递信息的技术,这指的是(D)。 a. . 感测技术 b. . 微电子技术 c. . 计算机技术 d. . 通信技术 3 / 27下载文档可编辑
8数据清洗的方法不包括(D)。 a. . 缺失值处理 b. . 噪声数据清除 c. . 一致性检查 d. . 重复数据记录处理
9. 下列关于舍恩伯格对大数据特点的说法中,错误的是(D) A. 数据规模大 B. 数据类型多样 C. 数据处理速度快 D. 数据价值密度高
10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是(D)。 a. . 富数据 b. . 贫数据 c. . 繁数据 d. . 大数据
11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的(D)。 a. . 新一代信息技术 b. . 新一代服务业态 4 / 27下载文档可编辑
c. . 新一代技术平台 d. . 新一代信息技术和服务业态
12万维网之父是(C) A. 彼得·德鲁克 B. 舍恩伯格 C. 蒂姆·伯纳斯—李 D. 斯科特·布朗
13下列演示方式中,不属于传统统计图方式的是(D)。 A、柱形图 B、饼状图 C、曲线图 D、网络图
14当前社会中,最为突出的大数据环境是(A)。 A、互联网 B、物联网 C、综合国力 D、自然资源
15可以对大数据进行深度分析的工具是(C)。 A、浅层神经网络 B、Scala C、深度学习 5 / 27下载文档可编辑
D、MapReduce 16大数据的起源是(C)。 A、金融 B、电信 C、互联网 D、公共管理
17智慧城市的构建,不包含(C)。 A、数字城市 B、物联网 C、联网监控 D、云计算
18大数据的4V特征中的Volume是指(D)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大
19大数据的4V特征中的Variety是指(C)。 A、价值密度低 6 / 27下载文档可编辑
B、处理速度快 C、数据类型繁多 D、数据体量巨大
20大数据的4V特征中的Velocity是指(B)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大
21下列关于大数据的分析理念的说法中,错误的是(D)。 A、在数据基础上倾向于全体数据而不是抽样数据 B、在分析方法上更注重相关分析而不是因果分析 C、在分析效果上更追究效率而不是绝对精确 D、在数据规模上强调相对数据而不是绝对数据
22大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行(B)。 A、数据信息 B、专业化处理 C、速度处理 D、内容处理 7 / 27下载文档可编辑
23大数据的核心就是(B)。 A、告知与许可 B、预测 C、匿名化 D、规模化
24人与人之间沟通信息、传递信息的技术,这指的是(D)。 A、感测技术 B、微电子技术 C、计算机技术 D、通信技术
25大数据的最显著特征是(A)。 A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高
28大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的(D)。 A、新一代信息技术 8 / 27下载文档可编辑
B、新一代服务业态 C、新一代技术平台 D、新一代信息技术和服务业态
29 下列关于普查的缺点的说法中,正确的是(A)。 A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象 B. 误差不易被控制 C. 对样本的依赖性比较强 D. 评测结果不够稳定
30 下列关于聚类挖掘技术的说法中,错误的是(B) A不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B需求同类数据的内容相似度尽可能小 C要求不同类数据的内容相似度尽可能小 D与分类挖掘技术相似的是,都是要对数据进行分类处理
31假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是(A)关系,而吸烟和肺癌则是(A)关系。 A因果;相关 B相关;因果 C并列;相关 D因果;并列
32下列关于数据交易市场的说法中,错误的是(C) 9 / 27下载文档可编辑
A数据交易市场是大数据产业发展到一定程度的产物 B商业化的数据交易活动催生了多方参与的第三方数据交易市场 C数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助 D数据交易市场是大数据资源化的必然产物
33下列关于计算机存储容量单位的说法中,错误的是(C) A 1KB<1MB<1GB B 基本单位是字节(Byte) C 一个汉字需要一个字节的存储空间 D 一个字节能够容纳一个英文字符
34当前大数据技术的基础是由(C)首先提出的 A微软 B百度 C谷歌 D阿里巴巴
35下列国家的大数据发展行动中,集中体现“重视基础,首度先行”的国家是(D) A美国 B日本 C中国 D韩国
36可以对大数据进行深度分析的平台工具是(C) A传统的机器学习和数据分析工具 B第二代机器学习工具 C第三代机器学习工具 D未来机器学习工具 10 / 27下载文档可编辑
37智能健康手环的应用开发,体现了(D)的数据采集技术的应用 A统计报表 B网络爬虫 C API接口 D传感器
38过一系列处理,在基本保持原始数据完整性的基础上,减小数据规模的是(C) A数据清洗 B数据融合 C数据规约 D数据挖掘
39制成大数据业务的基础是(A) A数据科学 B数据应用 C数据硬件 D数据人才
40面向用户提供大数据一站式部署方案,包括数据中心和服务器等硬件、数据分析应用软件及技术运维支持等多方面内容的大数据商业模式是(A) A大数据解决方案模式 B大数据信息分类模式 C大数据处理服务模式 D大数据资源提供模式
41美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的(B) 11 / 27下载文档可编辑
A在数据基础上倾向于全体数据而不是抽样数据 B在分析方法上更注重相关分析而不是因果分析 C在分析效果上更追究效率而不是绝对精确 D在数据规模上强调相对数据而不是绝对数据
42根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是(C) A数据管理人员 B数据分析员 C研究科学家 D软件开发工程师
43.(D)反映数据的精细化程度,越细化的数据,价值越高。 A规模 B活性 C关联度 D颗粒度
44.下列关于数据重组的说法中,错误的是(A) A数据重组是数据的重新产生和重新采集 B数据重组能够使数据焕发新的光芒 C数据重组实现的关键在于多源数据融合和数据集成 D数据重组有利于实现新颖的数据模式创新 12 / 27下载文档可编辑
45 在数据生命周期管理实践中,(B)是执行方法。 A数据存储和备份规范 B数据管理和维护 C数据价值发觉和利用 D数据应用开发和管理
46 下列关于网络用户行为的说法中,错误的是(C) A网络公司能够捕捉到用户在其网站上的所有行为 B用户离散的交互痕迹能够为企业提升服务质量提供参考 C数字轨迹用完即自动删除 D用户的隐私安全很难得以规范保护
47 Mac OS系统的开发者是(C) A微软公司 B惠普公司 C苹果公司 DIBM公司
48 大数据时代,数据使用的关键是(D) A数据收集 B数据存储 C数据分析 D数据再利用