10-大数据分析与内存计算-第4章
- 格式:pptx
- 大小:612.54 KB
- 文档页数:15
Spark大数据技术与应用智慧树知到课后章节答案2023年下山西职业技术学院山西职业技术学院绪论单元测试1.大数据的起源是以下哪个领域()A:互联网 B:金融 C:公共管理 D:电信答案:互联网第一章测试1.与MapReduce相比,Spark更适合处理以下哪种类型的任务()A:较少迭代次数的长任务 B:较少迭代次数的短任务 C:较多迭代次数的短任务 D:较多迭代次数的长任务答案:较多迭代次数的短任务2.Standalone模式下配置Spark集群时,master节点的工作端口号需要在conf文件夹下的哪个文件指明()A:regionserver B:slaves C:spark-defaults.conf D:spark-env.sh答案:spark-env.sh3.以下关于SPARK中的spark context,描述错误的是:()A:可以控制dagsheduler组件 B:可以控制task scheduler组件 C:控制整个application的生命周期 D:SparkContext为Spark的主要入口点答案:控制整个application的生命周期4.以下对Spark中Work的主要工作描述错误的是()A:不会运行业务逻辑代码 B:会运行业务逻辑代码 C:管理当前节点内存 D:接收master分配过来的资源指令答案:会运行业务逻辑代码5.配置Standalone模式下的Spark集群,Worker节点需要在conf文件夹下的哪个文件中指明()A:spark-env.sh B:spark-defaults.conf C:slaves D:regionserver答案:slaves6.Spark支持的分布式部署方式中哪个是错误的()A:Spark on local B:spark on YARN C:spark on mesos D:standalone答案:Spark on local7.Spark单机伪分布式模式,它的特点是在一台节点上既有Master服务,又有Worker服务()A:对 B:错答案:对8.在部署Spark独立模式时,配置spark内部通信的端口为()A:16010 B:7070 C:9870 D:7077答案:70779.在部署Spark独立模式时,配置spark的web端口为()A:7077 B:8080 C:9870 D:4040答案:707710.Spark的bin目录是spark运行脚本目录,该目录中包含了加载spark的配置信息,提交作业等执行命令的脚本()A:错 B:对答案:对第二章测试1.valrdd=sc.parallelize(1 to 10).filter(_%2== 0)rdd.collect上述代码的执行结果为()A:Array(1, 3, 5,7,9) B:Array(2, 4, 6, 8, 10) C:Array(1,2,3,4,5,6,7,8,9,10)D:Array(1,10)答案:Array(2, 4, 6, 8, 10)2.下面哪个操作是窄依赖()A:filter B:sort C:group D:join答案:filter3.下面哪个操作肯定是宽依赖()A:map B:sample C:flatMap D:reduceByKey答案:reduceByKey4.以下操作中,哪个不是Spark RDD编程中的操作。
云计算与大数据技术知到章节测试答案智慧树2023年最新北京联合大学绪论单元测试1.下列哪些应用属于大数据技术的应用()。
参考答案:音视频网站上通过分析注册用户的浏览习惯,为用户推送感兴趣的音视频。
;手机银行或网上银行在用户画像基础上,对用户群进行定位,挖掘潜在金融服务需求。
;政务领域中的智慧城市建设,如智慧交通、智慧医疗、智慧教育等。
;电商网站上对注册用户浏览信息记录、分析、挖掘,为用户推送感兴趣的商品。
2.日常我们用到的云服务器、钉钉办公软件、百度网盘等应用都是云计算服务厂商提供的云计算服务。
()参考答案:对第一章测试1.云计算的服务模式包括()。
参考答案:平台即服务;软件即服务;基础设施即服务2.云计算的劣势有()。
参考答案:风险被集中;数据泄密的环节增多;严重依赖网络3.云计算部署模型有()。
参考答案:公有云;私有云;混合云4.云计算是把有形的产品(网络设备、服务器、存储设备、各种软件等)转化为服务产品(IaaS,PaaS,SaaS),并通过网络让人们远程在线使用。
()参考答案:对5.云计算是一种计算模式,能够提供随时随地、便捷的、随需应变的网络接入,访问可配置的计算资源共享池。
()参考答案:对第二章测试1.虚拟化技术主要用于云计算物理资源的池化,物理资源不包括()。
参考答案:操作系统2.虚拟技术特性有()。
参考答案:隔离;封装;分区;相对于硬件独立3.虚拟化的益处包括()。
参考答案:实现节能减排;实现动态负载均衡;实现资源最优利用;通过系统自愈功能提升可靠性4.个人PC上使用比较多的虚拟化工具有()。
参考答案:Virtual Box;VMware Workstation5.虚拟化是一项技术,而云是一种环境或服务。
()参考答案:对6.虚拟化的主要功能是把单个资源抽象成多个给用户使用,而云计算则是帮助不同部门或公司访问一个自动置备的资源池。
()参考答案:对第三章测试1.开放系统的存储类型分为内置存储和外挂存储,其中外挂存储可分为()。
大数据技术原理与应用第1章大数据概述1单选(2分)第三次信息化浪潮的标志是:A.个人电脑的普及B.云计算、大数据、物联网技术的普及C.虚拟现实技术的普及D.互联网的普及正确答案:B你选对了2单选(2分)就数据的量级而言,1PB数据是多少TB?A.2048B.1000C.512D.1024正确答案:D你选对了3单选(2分)以下关于云计算、大数据和物联网之间的关系,论述错误的是:A.云计算侧重于数据分析B.物联网可借助于云计算实现海量数据的存储C.物联网可借助于大数据实现海量数据的分析D.云计算、大数据和物联网三者紧密相关,相辅相成正确答案:A你选对了4单选(2分)以下哪个不是大数据时代新兴的技术:A.SparkB.HadoopC.HBaseD.MySQL正确答案:D你选对了5单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:A.MapReduceB.DremelC.StormD.Pregel正确答案:A你选对了6单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:A.GraphXB.S4C.ImpalaD.Hive正确答案:B你选对了7单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:A.PregelB.StormC.CassandraD.Flume正确答案:A你选对了8单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:A.HDFSB.S4C.DremelD.MapReduce正确答案:C你选对了9多选(3分)数据产生方式大致经历三个阶段,包括:A.运营式系统阶段B.感知式系统阶段C.移动互联网数据阶段D.用户原创内容阶段正确答案:ABD你选对了10多选(3分)大数据发展三个阶段是:A.低谷期B.成熟期C.大规模应用期D.萌芽期正确答案:BCD你选对了11多选(3分)大数据的特性包括:A.价值密度低B.处理速度快C.数据类型繁多D.数据量大正确答案:ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历哪几种范式:A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案:ABCD你选对了13多选(3分)大数据带来思维方式的三个转变是:A.效率而非精确B.相关而非因果C.精确而非全面D.全样而非抽样正确答案:ABD你选对了14多选(3分)大数据主要有哪几种计算模式:B.图计算C.查询分析计算D.批处理计算正确答案:ABCD你选对了15多选(3分)云计算的典型服务模式包括三种:A.SaaSB.IaaSC.MaaSD.PaaS正确答案:ABD你选对了第2章大数据处理架构Hadoop1单选(2分)启动hadoop所有进程的命令是:A.start-dfs.shB.start-all.shC.start-hadoop.shD.start-hdfs.sh正确答案:B你选对了2单选(2分)以下对Hadoop的说法错误的是:A.Hadoop是基于Java语言开发的,只支持Java语言编程B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算D.Hadoop的核心是HDFS和MapReduce正确答案:A你选对了3单选(2分)以下哪个不是Hadoop的特性:A.成本高B.支持多种编程语言C.高容错性正确答案:A你选对了4单选(2分)以下名词解释不正确的是:A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现正确答案:B你选对了5多选(3分)以下哪些组件是Hadoop的生态系统的组件:A.HBaseB.OracleC.HDFSD.MapReduce正确答案:ACD你选对了6多选(3分)以下哪个命令可用来操作HDFS文件:A.hadoop fsB.hadoop dfsC.hdfs fsD.hdfs dfs正确答案:ABD你选对了第3章分布式文件系统HDFS1单选(2分)HDFS的命名空间不包含:A.字节B.文件C.块D.目录正确答案:A你选对了2单选(2分)对HDFS通信协议的理解错误的是:A.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的正确答案:D你选对了3单选(2分)采用多副本冗余存储的优势不包含:A.保证数据可靠性B.容易检查数据错误C.加快数据传输速度D.节约存储空间正确答案:D你选对了4单选(2分)假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:A.start-dfs.sh,stop-hdfs.shB.start-hdfs.sh,stop-hdfs.shC.start-dfs.sh,stop-dfs.shD.start-hdfs.sh,stop-dfs.sh正确答案:C你选对了5单选(2分)分布式文件系统HDFS采用主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫 :A.名称节点,主节点B.从节点,主节点C.名称节点,数据节点D.数据节点,名称节点正确答案:C你选对了6单选(2分)下面关于分布式文件系统HDFS的描述正确的是:A.分布式文件系统HDFS是Google Bigtable的一种开源实现B.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现C.分布式文件系统HDFS比较适合存储大量零碎的小文件D.分布式文件系统HDFS是一种关系型数据库正确答案:B你选对了7多选(3分)以下对名称节点理解正确的是:A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中正确答案:ACD你选对了8多选(3分)以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点用来存储具体的文件内容C.数据节点的数据保存在磁盘中D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作正确答案:BCD你选对了9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:A.集群的可用性B.性能的瓶颈C.命名空间的限制D.隔离问题正确答案:ABCD你选对了10多选(3分)以下HDFS相关的shell命令不正确的是:A.hadoop dfs mkdir <path>:创建<path>指定的文件夹B.hdfs dfs -rm <path>:删除路径<path>指定的文件C.hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D.hadoop fs -ls <path>:显示<path>指定的文件的详细信息正确答案:AC你选对了第4章分布式数据库HBase1单选(2分)HBase是一种数据库A.行式数据库B.关系数据库C.文档数据库D.列式数据库正确答案:D你选对了2单选(2分)下列对HBase数据模型的描述错误的是:A.每个HBase表都由若干行组成,每个行由行键(row key)来标识B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D.HBase列族支持动态扩展,可很轻松地添加一个列族或列正确答案:C你选对了3单选(2分)下列说法正确的是:A.如果不启动Hadoop,则HBase完全无法使用B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等正确答案:D你选对了4单选(2分)在HBase数据库中,每个Region的建议最佳大小是:A.2GB-4GBB.100MB-200MBC.500MB-1000MBD.1GB-2GB正确答案:D你选对了5单选(2分)HBase三层结构的顺序是:A.Zookeeper文件,.MEATA.表,-ROOT-表B.-ROOT-表,Zookeeper文件,.MEATA.表C.Zookeeper文件,-ROOT-表,.MEATA.表D..MEATA.表,Zookeeper文件,-ROOT-表正确答案:C你选对了6单选(2分)客户端是通过级寻址来定位Region:A.三B.二C.一D.四正确答案:A你选对了7单选(2分)关于HBase Shell命令解释错误的是:A.create:创建表B.put:向表、行、列指定的单元格添加数据C.list:显示表的所有数据D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案:C你选对了8多选(3分)下列对HBase的理解正确的是:A.HBase是针对谷歌BigTable的开源实现B.HBase是一种关系型数据库,现成功应用于互联网服务领域C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件D.HBase多用于存储非结构化和半结构化的松散数据正确答案:AD你选对了9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.数据索引C.数据模型D.存储模式正确答案:ABCD你选对了10多选(3分)访问HBase表中的行,有哪些方式:A.通过某列的值区间B.全表扫描C.通过一个行健的区间来访问D.通过单个行健访问正确答案:BCD你选对了第5章 NoSQL数据库1单选(2分)下列关于NoSQL数据库和关系型数据库的比较,不正确的是:A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言C.NoSQL数据库的可扩展性比传统的关系型数据库更好D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性正确答案:A你选对了2单选(2分)以下对各类数据库的理解错误的是:A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等B.文档数据库的数据是松散的,XML和JSON 文档等都可作为数据存储在文档数据库中C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱D.HBase数据库是列族数据库,可扩展性强,支持事务一致性正确答案:D你选对了3单选(2分)下列数据库属于文档数据库的是:A.MySQLB.RedisC.MongoDBD.HBase正确答案:C你选对了4单选(2分)NoSQL数据库的三大理论基石不包括:A.最终一致性B.BASEC.ACIDD.CAP正确答案:C你选对了5多选(3分)关于NoSQL数据库和关系数据库,下列说法正确的是:A.NoSQL数据库可支持超大规模数据存储,具有强大的横向扩展能力B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库C.大多数NoSQL数据库很难实现数据完整性D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础正确答案:ACD你选对了6多选(3分)NoSQL数据库的类型包括:A.键值数据库B.列族数据库C.文档数据库D.图数据库正确答案:ABCD你选对了7多选(3分)CAP是指:A.一致性B.可用性C.持久性D.分区容忍性正确答案:ABD你选对了8多选(3分)NoSQL数据库的BASE特性是指:A.软状态B.持续性C.最终一致性D.基本可用正确答案:ACD你选对了第6章云数据库1单选(2分)下列Amazon的云数据库属于关系数据库的是:A.Amazon SimpleDBB.Amazon DynamoDBC.Amazon RDSD.Amazon Redshift正确答案:C你选对了2单选(2分)下列关于UMP系统的说法不正确的是:A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例C.UMP系统是低成本和高性能的MySQL云数据库方案D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务正确答案:D你选对了3多选(3分)UMP依赖的开源组件包括A.LVSB.ZooKeeperC.MnesiaD.RabbitMQ正确答案:ABCD你选对了4多选(3分)在UMP系统中,Zookeeper主要发挥的作用包括:A.监控所有MySQL实例B.负责集群负载均衡C.提供分布式锁,选出一个集群的“总管”D.作为全局的配置服务器正确答案:ACD你选对了5多选(3分)UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志B.数据访问IP白名单C.SSL数据库连接D.SQL拦截正确答案:ABCD你选对了第7章 MapReduce1单选(2分)下列说法错误的是:A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveD.不同的Map任务之间不能互相通信正确答案:B你选对了2单选(2分)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应是下面哪种形式:A.<"hello",1,1>、<"hadoop",1>和<"world",1>B.<"hello",2>、<"hadoop",1>和<"world",1>C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>D.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>正确答案:D你选对了3单选(2分)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:A.<"hello",<1,1>><"hadoop",1><"world",1>B.<"hello",1><"hello",1><"hadoop",1><"world",1>C.<"hello",1,1><"hadoop",1><"world",1>D.<"hello",2><"hadoop",1><"world",1>正确答案:B你选对了4多选(3分)下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好B.前者相比后者学习起来更难C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:ABCD你选对了5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:A.JobTrackerB.TaskTrackerC.ClientD.Task正确答案:ABCD你选对了第8章 Hadoop再探讨1单选(2分)下列说法正确的是:A.HDFS HA可用性不好B.第二名称节点是热备份C.HDFS HA提供高可用性,可实现可扩展性、系统性能和隔离性D.第二名称节点无法解决单点故障问题正确答案:D你选对了2单选(2分)HDFS Federation设计不能解决“单名称节点”存在的哪个问题:A.单点故障问题B.HDFS集群扩展性C.性能更高效D.良好的隔离性正确答案:A你选对了3多选(3分)下列哪些是Hadoop1.0存在的问题:A.抽象层次低B.表达能力有限C.开发者自己管理作业之间的依赖关系D.执行迭代操作效率低正确答案:ABCD你选对了下列对Hadoop各组件的理解正确的是:A.Oozie:工作流和协作服务引擎B.Pig:处理大规模数据的脚本语言C.Kafka:分布式发布订阅消息系统D.Tez:支持DAG作业的计算框架正确答案:ABCD你选对了5多选(3分)对新一代资源管理调度框架YARN的理解正确的是:A.YARN既是资源管理调度框架,也是一个计算框架B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster正确答案:BCD你选对了第9章数据仓库Hive1单选(2分)下列有关Hive和Impala的对比错误的是:A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划B.Hive与Impala使用相同的元数据C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此正确答案:D你选对了2单选(2分)下列关于Hive基本操作命令的解释错误的是:A.create table if not exists usr(id bigint,name string,age int);//如usr表不存在,创建表usr,含三个属性id,name,ageB.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表C.create database userdb;//创建数据库userdbD.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案:B你选对了下列说法正确的是:A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上B.数据仓库Hive不需要借助于HDFS就可完成数据的存储C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D.HiveQL语法与传统的SQL语法很相似正确答案:ACD你选对了4多选(3分)Impala主要由哪几个部分组成:A.HiveB.ImpaladC.State StoreD.CLI正确答案:BCD你选对了5多选(3分)以下属于Hive的基本数据类型是:A.BINARYB.STRINGC.FLOATD.TINYINT正确答案:ABCD你选对了第10章 Spark1单选(2分)Spark SQL目前暂时不支持下列哪种语言:A.PythonB.JavaC.ScalaD.Lisp正确答案:D你选对了2单选(2分)RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:A.groupByB.filterC.countD.map正确答案:C你选对了3单选(2分)下列说法错误的是:A.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架StormB.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算C.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARND.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换正确答案:D你选对了4单选(2分)下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:A.filter(func):筛选出满足函数func的元素,并返回一个新的数据集B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集C.count():返回数据集中的元素个数D.take(n):返回数据集中的第n个元素正确答案:D你选对了5单选(2分)下列大数据处理类型与其对应的软件框架不匹配的是:A.复杂的批量数据处理:MapReduceB.基于历史数据的交互式查询:ImpalaC.基于实时数据流的数据处理:StormD.图结构数据的计算:Hive正确答案:D你选对了6多选(3分)Apache软件基金会最重要的三大分布式计算系统开源项目包括:A.OracleB.HadoopC.StormD.Spark正确答案:ABC你选对了7多选(3分)Spark的主要特点包括:A.运行模式多样B.运行速度快C.通用性好D.容易使用正确答案:ABCD你选对了8多选(3分)下列关于Scala的说法正确的是:A.Scala运行于Java平台,兼容现有的Java程序B.Scala具备强大的并发性,支持函数式编程C.Scala是一种多范式编程语言D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言正确答案:ABCD你选对了9多选(3分)Spark的运行架构包括:A.运行作业任务的工作节点 Worker NodeB.每个工作节点上负责具体任务的执行进程 ExecutorC.每个应用的任务控制节点 DriverD.集群资源管理器 Cluster Manager正确答案:ABCD你选对了第11章流计算1单选(2分)流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:A.降低B.不确定C.不变D.升高正确答案:A你选对了2单选(2分)Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做A.SpoutB.BoltC.TupleD.Topology正确答案:D你选对了3多选(3分)对于一个流计算系统来说,它应达到如下哪些需求:A.海量式B.高性能C.分布式D.实时性正确答案:A、B、C、D你选对了4多选(3分)数据采集系统的基本架构包括哪些部分:A.ControllerB.StoreC.AgentD.Collector正确答案:B、C、D你选对了5多选(3分)以下哪些是开源的流计算框架:A.Facebook PumaB.Yahoo! S4C.IBM InfoSphere StreamsD.Twitter Storm正确答案:B、D你选对了6多选(3分)下面哪几个属于Storm中的Stream Groupings的分组方式:A.按照字段分组B.广播发送C.随机分组D.全局分组正确答案:A、B、C、D你选对了第12章 Flink1单选(2分)以下哪个不是Flink的优势:A.同时支持高吞吐、低延迟、高性能B.不支持增量迭代C.同时支持流处理和批处理D.支持有状态计算正确答案:B你选对了2单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.FlinkMLC.GellyD.CEP正确答案:C你选对了3多选(3分)下面关于Flink的说法正确的是:A.Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B.Flink可以同时支持实时计算和批量计算C.Flink不是Apache软件基金会的项目D.Flink是Apache软件基金会的5个最大的大数据项目之一正确答案:A、B、D你选对了4多选(3分)Flink的主要特性包括:A.精确一次的状态一致性保障B.批流一体化C.精密的状态管理D.事件时间支持正确答案:A、B、C、D你选对了5多选(3分)下面论述正确的是:A.Spark Streaming通过采用微批处理方法实现高吞吐和容错性,但是牺牲了低延迟和实时处理能力B.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态C.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink 可满足要求D.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理正确答案:A、B、C、D你选对了6多选(3分)Flink常见的应用场景包括:A.数据流水线应用B.事件驱动型应用C.地图应用D.数据分析应用正确答案:A、B、D你选对了7多选(3分)Flink核心组件栈分为哪三层:A.物理部署层B.Runtime核心层C.Core层D.API&Libraries层正确答案:A、B、D你选对了8多选(3分)Flink有哪几种部署模式:A.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上B.YARN集群模式C.Standalone集群模式D.Local模式正确答案:A、B、C、D你选对了9多选(3分)Flink系统主要由两个组件组成,分别为:A.JobManagerB.JobSchedulerC.TaskSchedulerD.TaskManager正确答案:A、D你选对了10多选(3分)在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:A.DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)B.Table APIC.状态化的数据流接口D. SQL正确答案:A、B、C、D你选对了第13章图计算1单选(2分)Pregel是一种基于模型实现的并行图处理系统:A.TSPB.STPC.BSPD.SBP正确答案:C你选对了2单选(2分)谷歌在后Hadoop时代的新“三驾马车”不包括:A.CaffeineB.DremelC. PregelD.Hama正确答案:D你选对了3多选(3分)下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:A.HamaB.GiraphC.PregelD.Neo4j正确答案:A、B、C你选对了4多选(3分)以下关于Pregel图计算框架说法正确的是:A.通常只对满足交换律和结合律的操作才会开启Combiner功能B.Pregel采用检查点机制来实现容错C.对于全局拓扑改变,Pregel采用了惰性协调机制D.Aggregator提供了一种全局通信、监控和数据查看的机制正确答案:A、B、C、D你选对了第14章大数据在不同领域的应用1单选(2分)下列说法错误的是:A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品B.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法erCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品erCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化正确答案:B你选对了2多选(3分)推荐方法包括哪些类型:A.专家推荐B.协同过滤推荐C.基于内容的推荐D.基于统计的推荐正确答案:A、B、C、D你选对了期末试卷1单选(2分)数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:A.运营式系统阶段B.感知式系统阶段C.数据流阶段D.用户原创内容阶段正确答案:C你选对了2单选(2分)第三次信息化浪潮的发生标志是以下哪种技术的普及:A.互联网B.CPUC.物联网、云计算和大数据D.个人计算机正确答案:C你选对了3单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.CEPC. GellyD. FlinkML正确答案:C你选对了4单选(2分)Hadoop的两大核心是和A.MapReduce; HBaseB. HDFS; HBaseC.HDFS; MapReduceD.GFS; MapReduce正确答案:C你选对了5单选(2分)HDFS默认的一个块大小是A.64MBB.8KBC. 32KBD.16KB正确答案:A你选对了6单选(2分)在分布式文件系统HDFS中,负责数据的存储和读取:A.数据节点B.第二名称节点C.名称节点D.主节点正确答案:A你选对了7单选(2分)上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:A.hdfs dfs -put /path file.txtB.hadoop dfs -put /path file.txtC.hdfs fs -put file.txt /pathD.hdfs dfs -put file.txt /path正确答案:D你选对了8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:A.hadoop fs -mkdir -p /test/dirB.hdfs fs -mkdir -p /test/dirC.hadoop dfs -mkdir /test/dirD.hdfs dfs *mkdir -p /test/dir正确答案:A你选对了9单选(2分)下列有关HBase的说法正确的是:A.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库B.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库C.HBase是一种NoSQL数据库。
尚硅谷大数据技术之Hadoop(生产调优手册)(作者:尚硅谷大数据研发部)版本:V3.3第1章HDFS—核心参数1.1 NameNode内存生产配置1)NameNode内存计算每个文件块大概占用150byte,一台服务器128G内存为例,能存储多少文件块呢?128 * 1024 * 1024 * 1024 / 150Byte ≈9.1亿G MB KB Byte2)Hadoop2.x系列,配置NameNode内存NameNode内存默认2000m,如果服务器内存4G,NameNode内存可以配置3g。
在hadoop-env.sh文件中配置如下。
HADOOP_NAMENODE_OPTS=-Xmx3072m3)Hadoop3.x系列,配置NameNode内存(1)hadoop-env.sh中描述Hadoop的内存是动态分配的# The maximum amount of heap to use (Java -Xmx). If no unit # is provided, it will be converted to MB. Daemons will# prefer any Xmx setting in their respective _OPT variable.# There is no default; the JVM will autoscale based upon machine # memory size.# export HADOOP_HEAPSIZE_MAX=# The minimum amount of heap to use (Java -Xms). If no unit # is provided, it will be converted to MB. Daemons will# prefer any Xms setting in their respective _OPT variable.# There is no default; the JVM will autoscale based upon machine # memory size.# export HADOOP_HEAPSIZE_MIN=HADOOP_NAMENODE_OPTS=-Xmx102400m(2)查看NameNode占用内存[atguigu@hadoop102 ~]$ jps3088 NodeManager2611 NameNode3271 JobHistoryServer2744 DataNode3579 Jps[atguigu@hadoop102 ~]$ jmap -heap 2611Heap Configuration:MaxHeapSize = 1031798784 (984.0MB)(3)查看DataNode占用内存[atguigu@hadoop102 ~]$ jmap -heap 2744Heap Configuration:MaxHeapSize = 1031798784 (984.0MB)查看发现hadoop102上的NameNode和DataNode占用内存都是自动分配的,且相等。
最新资料欢迎阅读2020 智慧树知到《大数据算法》章节测试[ 完好答案 ]智慧树知到《大数据算法》章节测试答案1.以下对于大数据的特色 , 表达错误的选项是 () 。
答案:速度慢A、速度慢B、多元、异构C、数据规模大D、鉴于高度剖析的新价值2.在《法华经》中 , “那由他”描绘的“大”的数目级是 () 。
答案: 10A 、10B、10C、10D、1083.以下选项中 , 大数据波及的领域中包含 () 。
答案:交际网络计算机艺术医疗数据A、交际网络B、医疗数据C、计算机艺术D、医疗数据4.大数据的应用包含 () 。
答案:介绍科学研究展望商业情报剖析A、展望B、介绍C、商业情报剖析D、科学研究5.当前 , 对于大数据已有公认确实定定义。
×6.大数据种类众多 , 在编码方式、数据格式、应用特色等方面都存在差别。
()√1.大数据求解计算问题过程的第三步一般是() 。
答案:算法设计与剖析A、判断可计算否B、判断能行可计算否C、算法设计与剖析D、用计算机语言实现算法2.在大数据求解计算问题中 , 判断能否为能行可计算的要素包含() 。
答案:资源拘束数据量时间拘束A、数据量B、资源拘束C、速度拘束D、时间拘束3.大数据求解计算问题过程的第一步是确立该问题能否可计算。
√4.大数据计算模型与一般小规模计算模型同样 , 都使用的是图灵机模型。
√1.资源拘束包含 () 。
答案:网络带宽外存 CPU内存A、CPUB、网络带宽C、内存D、外存2.大数据算法能够不是 () 。
答案:精准算法串行算法内存算法A、云计算B、精准算法C、内存算法D、串行算法3.大数据算法是在给定的时间拘束下 , 以大数据为输入 , 在给定资源拘束内能够生成知足给定拘束结果的算法。
×4.MapReduce 是一种比较好实现大数据算法的编程架构 , 在生产中获取宽泛应用。
Hadoop生态中的大数据处理与分析第一章介绍Hadoop生态Hadoop是由Apache基金会开发的一个开源Java框架,用于处理大数据。
Hadoop生态系统是由许多不同的组件组成的,包括Hadoop文件系统(HDFS)、MapReduce、Hive、Pig、HBase等。
每个组件都有不同的目的和特点。
Hadoop生态系统为大数据处理提供了一整套完备的工具。
在Hadoop生态系统中,MapReduce是最常用的一项工具,它提供了分布式的数据处理功能。
在大数据处理中,MapReduce通常用于将大量数据分解为不同的小块,并在不同的节点间并行运算和处理。
第二章大数据的处理与分析大数据处理和分析是指处理大量数据并提取有用信息的过程。
大数据处理和分析可以帮助企业了解其业务、排除风险和改进业务决策。
但是,对于大数据的处理和分析来说,非结构化数据和半结构化数据是一个巨大的挑战。
这时候Hadoop生态系统可以帮助企业解决这个问题。
Hadoop生态系统的组件,如Hive、Pig、Spark和Storm等可以处理非常大的数据集,并提供高效的并行计算。
这些工具可以从海量的数据中提取有用的信息。
Hive和Pig可以将非结构化数据转换成结构化数据,并通过SQL查询进行分析。
Spark和Storm可以通过Stream Processing技术进行数据分析和处理。
Hadoop生态系统可以帮助企业在分析和处理大数据时提高效率并节省成本。
第三章 Hadoop生态系统的组件1. Hadoop文件系统(HDFS)HDFS是Hadoop生态系统中的核心组件,用于存储和管理大量数据。
在HDFS中,数据被分解为多个块,并分布在不同的服务器上,使得数据存储和处理更加高效。
HDFS提供了高可靠性、高可用性和高扩展性。
HDFS可以容错处理所有的节点故障,同时支持横向扩展。
2. MapReduceMapReduce是Hadoop生态系统中最常用的一项组件,用于分布式计算。
大数据导论商丘工学院智慧树知到答案2024年第一章测试1.大数据的前沿技术是()。
A:数据定义B:数据结构.C:数据处理D:数据分析答案:D2.大数据赖以生存的土壤是()。
A:互联网B:前沿技术C:物联网D:网络信息答案:A3.第三次信息化浪潮的标志是哪些技术的兴起?( )A:云计算B:大数据C:个人计算机D:物联网答案:ABD4.以下是大数据存储面临的挑战的选项是( )。
A:数据问题B:管理问题C:应用问题D:系统问题答案:BCD5.信息科技为大数据时代提供哪些技术支撑?( )A:网络带宽不断增加B:CPU 处理能力大幅提升C:存储设备容量不断增加D:数据量不断增大答案:ABC6.大数据产业指的是什么()。
A:一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合B:提供分布式计算、数据挖掘、统计分析等服务的各类企业C:提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业D:提供数据分享平台、数据分析平台、数据租售平台等服务的企业答案:A7.万维网之父是 ( )。
A:蒂姆●伯纳斯-李B:彼得●德鲁克C:舍恩伯格D:斯科特布朗答案:A8.以下哪一项不属于大数据的特征()。
A:数据价值密度高B:单位处理数据的速度高C:数据类型复杂D:数据量大答案:A9.大数据存储的特点与挑战有( )。
A:成本问题B:容量问题C:安全问题D:延迟问题答案:ABCD10.大数据可以帮助发现规律,大数据可以帮助解释现象,大数据可以帮助预测未来。
()A:对 B:错答案:A第二章测试1.大数据的最显著特征是( )。
A:数据类型多样B:数据价值密度高C:数据处理速度快D:数据规模大答案:D2.下列不属于 Google云计算平台技术架构的是()。
A:结构化数据表 BigTableB:分布式锁 ChubbyC:并行数据处理 MapReduceD:弹性云计算 EC2答案:D3.物联网的全球发展形势可能提前推动人类进入“智能时代”,也称()。
绗竴绔?1銆?011骞撮害鑲敗鐮旂┒闄㈡彁鍑虹殑澶ф暟鎹畾涔夋槸锛氬ぇ鏁版嵁鏄寚鍏跺ぇ灏忚秴鍑轰簡甯歌鏁版嵁搴撳伐鍏疯幏鍙栥€佸偍瀛樸€佺鐞嗗拰锛? 锛夎兘鍔涚殑鏁版嵁闆嗐€?A:璁$畻B:璁块棶C:搴旂敤D:鍒嗘瀽绛旀: 鍒嗘瀽2銆佺敤4V鏉ユ鎷ぇ鏁版嵁鐨勭壒鐐圭殑璇濓紝涓€鑸槸鎸囷細Value銆乂elocity 銆乂olume鍜岋紙锛夈€?A:VarietyB:VainlyC:VagaryD:Valley绛旀: Variety3銆佸ぇ鏁版嵁鍒嗘瀽鍥涗釜鏂归潰鐨勫伐浣滀富瑕佹槸锛氭暟鎹垎绫汇€侊紙锛夈€佸叧鑱旇鍒欐寲鎺樺拰鏃堕棿搴忓垪棰勬祴銆?A:鏁版嵁缁熻B:鏁版嵁璁$畻C:鏁版嵁鑱氱被D:鏁版嵁娓呮礂绛旀: 鏁版嵁鑱氱被4銆佹柊娴拰浜笢鑱斿悎鎺ㄥ嚭鐨勫ぇ鏁版嵁鍟嗗搧鎺ㄨ崘锛屾槸鐢变含涓滅洸鐩帹閫佸埌褰撳墠娴忚鏂版氮缃戠珯鐨勭敤鎴风殑椤甸潰涓婄殑銆?A:瀵?B:閿?绛旀: 閿?5銆佺洰鍓嶇殑澶ф暟鎹鐞嗘妧鏈彧鑳藉鐞嗙粨鏋勫寲鏁版嵁銆?A:瀵?B:閿?绛旀: 閿?绗簩绔?1銆佹垜浠父鐢ㄧ殑寰蒋Office濂椾欢涓殑Access鏁版嵁搴撹蒋浠剁殑鏁版嵁搴撴枃浠舵牸寮忓悗缂€鍚嶆槸锛? 锛夈€?A:mdfB:mdbC:dbfD:xls绛旀: mdb2銆佸ぇ澶氭暟鏃ュ織鏂囦欢鐨勫悗缂€鍚嶆槸锛? 锛夈€?A:txtB:csvC:xmlD:log绛旀: log3銆佹湰璇剧▼閲嶇偣浠嬬粛鐨剋eka杞欢鐨勪笓鏈夋枃浠舵牸寮忔槸锛? 锛夈€?A:MongoDBB:ARFFC:valueD:key map绛旀: ARFF4銆佹暟鎹竻娲楀伐浣滅殑鐩殑涓昏鏄瑙e喅鏁版嵁鐨勫畬鏁存€с€佸敮涓€鎬с€佸悎娉曟€у拰锛? 锛夈€?A:涓撲笟鎬?B:鎺掍粬鎬?C:涓€鑷存€?D:鍏变韩鎬?绛旀: 涓€鑷存€?5銆佸叓鐖奔杞欢鐨勨€滆嚜瀹氫箟閲囬泦鈥濆伐浣滄柟寮忎笅锛岄渶瑕佸湪杞欢閲岃緭鍏ヤ竴涓紙锛夋潵浣滀负閲囬泦鐨勭洰鏍囥€?A:鐢佃瘽鍙风爜B:鍏抽敭璇?C:缃戦〉鍦板潃D:鐢ㄦ埛鍚?绛旀: 缃戦〉鍦板潃6銆佸叓鐖奔杞欢鐨勯噰闆嗚鍒欏彲浠ラ€氳繃鏂囦欢鐨勫舰寮忔潵瀵煎叆鎴栬€呭鍑猴紝杩欑鏂囦欢鐨勫悗缂€鍚嶆槸锛? 锛夈€?A:otdB:jpgC:pngD:gif绛旀: otd7銆丒xcel鍙互閫氳繃鈥滄暟鎹湁鏁堟€р€濇寜閽搷浣滄潵瑙勮寖鏁版嵁杈撳叆鐨勮寖鍥淬€?A:瀵?B:閿?绛旀: 瀵?8銆丒xcel涓嶈兘瀵煎叆txt鎴朿sv鏍煎紡鐨勬枃浠躲€?A:瀵?B:閿?绛旀: 閿?9銆佸叓鐖奔杞欢鍙兘瀵硅蒋浠跺唴寤轰簡鈥滅畝鏄撻噰闆嗏€濊鍒欑殑缃戠珯閲囬泦鏁版嵁銆?A:瀵?B:閿?绛旀: 閿?10銆佸叓鐖奔杞欢杩涜鑷畾涔夐噰闆嗘椂锛岄渶瑕佷簡瑙e缃戦〉鐨勯〉闈㈢粨鏋勩€?A:瀵?B:閿?绛旀: 瀵?绗笁绔?1銆佷娇鐢―BSCAN绠楁硶瀵归涪灏捐姳鏁版嵁闆嗭紙Iris.arff锛夎繘琛岃仛绫伙紝灏唀psilon鍙傛暟璁剧疆涓?.2锛? minPoints鍙傛暟璁剧疆涓?锛屽拷鐣lass灞炴€э紝閭d箞灏嗗舰鎴愶紙锛変釜绨囥€?A: 1B: 2C: 3D: 4绛旀: 32銆佷娇鐢‥M绠楁硶瀵瑰ぉ姘旀暟鎹泦锛坵eather.numeric.arff锛夎繘琛岃仛绫伙紝灏唍umClusters璁剧疆涓?锛屽嵆绨囨暟涓?锛屽叾浠栧弬鏁颁繚鎸侀粯璁ゅ€硷紝蹇界暐class灞炴€э紝浠庣粨鏋滀腑鍙煡锛屼笅鍒楅€夐」涓紝锛? 锛夋槸閿欒鐨勩€?A: 妯″瀷鐨勬渶澶т技鐒朵及璁″€兼槸-7.18B: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠?5娆?C: 绗洓涓皣鐨勫厛楠屾鐜囨槸0.14D: 绗洓涓皣鐨勫疄渚嬫暟涓?绛旀: 绗洓涓皣鐨勫疄渚嬫暟涓?3銆佷娇鐢⊿impleKMeans绠楁硶瀵瑰ぉ姘旀暟鎹泦锛坵eather.numeric.arff锛夎繘琛岃仛绫伙紝淇濇寔榛樿鍙傛暟锛屽嵆3涓皣浠ュ強娆ф皬璺濈銆傞€夋嫨play灞炴€т负蹇界暐灞炴€э紝浠庣粨鏋滀腑鍙煡锛屼笅鍒楅€夐」涓紝锛? 锛夋槸閿欒銆?A: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠e洓娆?B: 浜х敓浜嗕笁涓腑蹇冪偣C: 鑱氬悎涓?涓皣锛屽垎鍒湁7锛?锛?涓疄渚?D: 骞虫柟鍜岃宸负8.928绛旀: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠e洓娆?4銆佷娇鐢ㄧ嚎鎬у洖褰掞紙LinearRegression锛夊垎绫诲櫒鍜岀敤M5P鍒嗙被鍣ㄥcpu.arff鍒嗗埆杩涜鍒嗙被锛岀敱鍏惰緭鍑虹殑璇樊鎸囨爣鍙煡锛? 锛夈€?A: LinearRegression鐨勬爣鍑嗚宸瘮M5P鐨勬爣鍑嗚宸皬B: LinearRegression鐨勫钩鍧囩粷瀵硅宸瘮M5P鐨勫钩鍧囩粷瀵硅宸皬C: LinearRegression鐨勭浉瀵硅宸瘮M5P鐨勭浉瀵硅宸皬D: LinearRegression鐨勫钩鍧囨柟鏍硅宸瘮M5P鐨勫钩鍧囨柟鏍硅宸ぇ绛旀: LinearRegression鐨勫钩鍧囨柟鏍硅宸瘮M5P鐨勫钩鍧囨柟鏍硅宸ぇ5銆佸垹鍘籧pu.arff鏁版嵁鏂囦欢涓殑CACH灞炴€у悗锛屼娇鐢∕5P鍒嗙被鍣ㄦ瀯寤烘柟妗堬紝鍦ㄧ粨鏋滀腑锛屽埌杈綥M2鐨勫疄渚嬫暟鏈夛紙锛変釜銆?A: 165B: 21C: 23D: 30绛旀: 216銆佹牴鎹甁48鍒嗙被鍣ㄨ缁僿eather.nominal.arff鎵€鐢熶骇鐨勫喅绛栨爲锛屽綋outlook=sunny锛泃emperature=cool锛沨umidity =high锛泈indy=TRUE鏃讹紝鍒嗙被鐨勭粨鏋滄槸锛?锛夈€?A: YesB: NoC: 娌℃湁缁撴灉D: 鏃犳硶鍒嗙被绛旀: No7銆佹牴鎹甁48鍒嗙被鍣ㄨ缁僫ris.arff鎵€鐢熶骇鐨勫喅绛栨爲锛屽綋sepallength=4.4锛泂epalwidth=3.0锛沺etallength=1.3锛沺etalwidth=0.2鏃讹紝鍒嗙被鐨勭粨鏋滄槸锛? 锛夈€?A: Iris-setosaB: Iris-versicolorC: Iris-virginicaD: 鏃犳硶鍒嗙被绛旀: Iris-setosa8銆佸叧浜嶹eka绂绘暎鍖栬鏄庢纭殑鏄紙锛夈€?A: 绂绘暎鍖栨槸灏嗘暟鍊煎睘鎬ц浆鎹负瀛楃涓插瀷灞炴€?B: 鏈夌洃鐫g鏁e寲鏈変袱绉嶇瓑瀹藉拰绛夐鏂规硶C: 绛夊绂绘暎鍖栨槸浣垮疄渚嬪垎甯冨潎鍖€鐨?D: 绂绘暎鍖栧寘鎷棤鐩戠潱绂绘暎鍖栧拰鏈夌洃鐫g鏁e寲绛旀: 绂绘暎鍖栧寘鎷棤鐩戠潱绂绘暎鍖栧拰鏈夌洃鐫g鏁e寲9銆佷互涓嬶紙锛変笉鏄疻eka鐨勬暟鎹被鍨嬨€?A: numericB: nominalC: stringD: decimal绛旀: decimal10銆佸叧浜嶹eka鐨勬枃浠剁被鍨嬫弿杩伴敊璇殑鏄紙锛夈€?A: Weka鍙互鎵撳紑鏂囦欢鏍煎紡鏈?arff銆?csv銆?xlsxB: Weka澶勭悊鐨勬暟鎹泦绫讳技浜庡叧绯绘暟鎹簱妯瀹炰緥锛岀珫琛屽睘鎬?C: arff鏄疉SCII鏂囦欢锛屽彲浠ョ敤Word绛夋枃鏈紪杈戝櫒鎵撳紑鏌ョ湅D: @relation 瀹氫箟鏁版嵁闆嗗悕绉帮紝@data涔嬪悗鍛堢幇瀹炰緥锛屾瘡涓€琛屽氨鏄竴涓疄渚?绛旀: Weka鍙互鎵撳紑鏂囦欢鏍煎紡鏈?arff銆?csv銆?xlsx11銆佷互涓嬪睘浜庡叧鑱斿垎鏋愮殑鏄紙锛夈€?A: CPU鎬ц兘棰勬祴B: 璐墿绡垎鏋?C: 鑷姩鍒ゆ柇楦㈠熬鑺辩被鍒?D: 鑲$エ瓒嬪娍寤烘ā绛旀: 璐墿绡垎鏋?12銆佸ぇ鏁版嵁鏃朵唬鐨勫埌鏉ワ紝浣挎垜浠棤娉曚汉涓哄湴鍘诲彂鐜版暟鎹腑鐨勫ゥ濡欙紝涓庢鍚屾椂锛屾垜浠洿搴旇娉ㄩ噸鏁版嵁涓殑鐩稿叧鍏崇郴锛岃€屼笉鏄洜鏋滃叧绯汇€傚叾涓紝鏁版嵁涔嬮棿鐨勭浉鍏冲叧绯诲彲浠ラ€氳繃浠ヤ笅锛? 锛夌畻娉曠洿鎺ユ寲鎺樸€?A: K-meansB: Bayes NetworkC: C4.5D: Apriori绛旀: Apriori13銆佹煇瓒呭競鐮旂┒閿€鍞邯褰曟暟鎹悗鍙戠幇锛屼拱鍟ら厭鐨勪汉寰堝ぇ姒傜巼涔熶細璐拱灏垮竷锛岃繖绉嶅睘浜庢暟鎹寲鎺樼殑锛? 锛夐棶棰樸€?A: 鍏宠仈瑙勫垯鍙戠幇B: 鑱氱被C: 鍒嗙被D: 鑷劧璇█澶勭悊绛旀: 鍏宠仈瑙勫垯鍙戠幇14銆佸湪杩涜鑷姩閫夋嫨灞炴€ф椂锛屽繀椤昏绔嬩袱涓璞★紝鍏朵腑纭畾浣跨敤浠€涔堟柟娉曚负姣忎釜灞炴€у瓙闆嗗垎閰嶄竴涓瘎浼板€肩殑瀵硅薄鏄笅闈㈢殑锛? 锛夈€?A: 鎼滅储鏂规硶B: 灞炴€ц瘎浼板櫒C: 鍏冨垎绫诲櫒D: 瑙勫垯鎸栨帢绛旀: 灞炴€ц瘎浼板櫒15銆佷互涓嬪睘浜庡睘鎬х┖闂寸殑鎼滅储鏂规硶鐨勬槸锛?锛夈€?A: GainRatioAttributeEvalB: BestFirstC: PrincipalComponentsD: SymmetricalUncertAttributeEval绛旀: BestFirst16銆佸湪weka杞欢鎺㈢储鑰呯晫闈腑锛屽埄鐢╒isualize鏍囩椤甸€氳繃鏇存敼鍚勪釜鍙傛暟鏉ヨ繘琛屾暟鎹泦鐨勫彲瑙嗗寲灞炴€ц缃悗锛岄渶瑕佸崟鍑讳互涓嬶紙锛夋寜閽紝鎵€鏈夋洿鏀规墠浼氱敓鏁堛€?A: Select AttributeB: SubSampleC: UpdateD: Fast scrolling绛旀: Update17銆佺粰瀹氬叧鑱旇鍒橝B锛屾剰鍛崇潃锛氳嫢A鍙戠敓锛孊涔熶細鍙戠敓銆?A:瀵?B:閿?绛旀: 閿?18銆佹敮鎸佸害鏄閲忓叧鑱旇鍒欓噸瑕佹€х殑涓€涓寚鏍囥€?A:瀵?B:閿?绛旀: 瀵?19銆丷anker鏂规硶鏃㈠彲浠ョ敤浜庡崟涓睘鎬ц瘎浼板櫒锛屽張鍙互鐢ㄤ簬灞炴€у瓙闆嗚瘎浼板櫒銆?A:瀵?B:閿?绛旀: 閿?20銆佸埄鐢╳eka杞欢杩涜鏁版嵁鍙鍖栨椂锛岀敤鎴峰彲浠ラ€夋嫨绫诲埆灞炴€у鏁版嵁鐐圭潃鑹诧紝濡傛灉绫诲埆灞炴€ф槸鏍囩О鍨嬶紝鍒欐樉绀轰负褰╄壊鏉°€?A:瀵?B:閿?绛旀: 閿?绗洓绔?1銆佽礉鍙舵柉缃戠粶涓殑鑺傜偣浠h〃锛? 锛夈€?A:鍙橀噺B:闅忔満杩囩▼C:闅忔満鍙橀噺D:闅忔満鍑芥暟绛旀: 闅忔満鍙橀噺2銆佽礉鍙舵柉缃戠粶涓紝鑺傜偣闇€缁欏嚭姒傜巼鍒嗗竷鎻忚堪锛屽浜庣鏁e瀷闅忔満鍙橀噺鑰岃█锛屽彲浠ョ敤锛? 锛夌殑褰㈠紡琛ㄧず銆?A:鏉′欢姒傜巼瀵嗗害鍑芥暟B:姝f€佸垎甯?C:鏉′欢姒傜巼琛?D: 鍧囧寑鍒嗗竷绛旀: 鏉′欢姒傜巼琛?3銆佽礉鍙舵柉缃戠粶涓妭鐐逛箣闂寸殑杈逛唬琛紙锛夈€? A:闅忔満鍏崇郴B:姒傜巼鍥犳灉C:缁勫悎鍏崇郴D:闅忔満缁撴灉绛旀: 闅忔満鍏崇郴4銆佽礉鍙舵柉缃戠粶淇濆瓨鐨勬枃浠舵牸寮忔槸( )銆?A:XML BIFB:DOCXC: TXTD:XLS绛旀: XML BIF5銆佷笅闈紙锛変笉鏄弽鍚戜紶鎾缁忕綉缁滅殑缁撴瀯銆? A:杈撳叆灞?B:闅愬惈灞?C:璁$畻灞?D:杈撳嚭灞?绛旀: 璁$畻灞?6銆佺缁忕綉缁滀腑鐨勮妭鐐逛唬琛紙锛夈€?A:婵€鍔卞彉閲?B:婵€鍔卞嚱鏁?C:闅忔満鍙橀噺D:闅忔満鍑芥暟绛旀: 婵€鍔卞嚱鏁?7銆佷笅鍒楋紙锛変笉鏄父瑙佺殑婵€鍔卞嚱鏁般€?A:绾挎€у嚱鏁?B:Sigmoid鍑芥暟C:闃堝€煎嚱鏁?D:姝e鸡鍑芥暟绛旀: 姝e鸡鍑芥暟8銆佸湪璐濆彾鏂綉缁滅紪杈戠晫闈㈡椂锛屽鏋滆妭鐐圭殑鍚嶇О娌℃硶瀹屽叏鏄剧ず锛岄渶瑕佷粠锛? 锛夎彍鍗曢」杩涜璋冩暣銆?A:Tools|SetDataB:View|Zoom OutC:View|Zoom InD:Tools|Layout绛旀: Tools|Layout9銆乄EKA涓€夋嫨绁炵粡缃戠粶鍒嗙被鍣ㄦ搷浣滄椂锛屽簲璇ラ€夋嫨锛? 锛夈€?A:rules鏉$洰涓嬬殑PARTB:functions鏉$洰涓嬬殑SGD鍒嗙被鍣?C:functions鏉$洰涓嬬殑MultilayerPerceptron鍒嗙被鍣?D:榛樿鐨勫垎绫诲櫒绛旀: functions鏉$洰涓嬬殑MultilayerPerceptron鍒嗙被鍣?10銆佷笅闈㈠叧浜嶱ackage Manager瀹夎鍚庣殑鐩綍璇存槑涓嶆纭殑鏄紙锛夈€?A:doc瀛愮洰褰曞瓨鏀続PI鏂囨。
第一章测试1.数据,就是所有能输入到计算机,并被计算机程序处理的符号的总称为()。
A:对B:错答案:A2.大数据的4V特征包括()。
A:种类繁多B:规模庞大C:变化频繁D:价值巨大但价值密度低答案:ABCD3.2TB数据等于多少GB()。
A:1024B:2048C:2000D:1000答案:B4.大数据包含下面类型()。
A:非结构化数据B:结构化数据C:纯文本数据D:半结构化数据答案:ABCD5.大数据的生命周期一般会经历这么几个阶段()。
A:可视化B:采集与预处理C:分析与挖掘D:存储与管理答案:ABCD6.大数据平台的基本架构,从技术架构的角度,可划分为这几个层次()。
A:服务封装层B:数据处理层C:数据存储层D:数据采集层答案:ABCD7.linux系统中cd命令的作用是()。
A:移动文件或修改文件名B:将源文件复制至目标文件C:进入指定目录D:删除一个目录中的一个或多个文件答案:C8.vi编辑器的操作模式共分为()。
A:输入模式B:命令模式C:底线命令模式D:编辑模式答案:BCD第二章测试1.Flume的Agent包含这些组成部分()。
A:SinkB:EventC:SourceD:Channel答案:ACD2.Event由这两部分组成()。
A:BodyB:HeadC:ArrayD:K-V答案:AB3.Source是Flume中事件的源头,负责接收数据到Flume Agent,可以处理多种类型、多种格式的数据()A:对B:错答案:A4.Channel是位于Source和Sink之间的缓冲区,对Source和Sink进行一对一处理()A:错B:对答案:A5.在Flume的配置文件中,对某个目录下文件进行监控的命令是()。
A:flume-ngB:/bin/bash -cC:execD:tail -f答案:D第三章测试1.以下说法有误的是()。
A:“元数据”中不包含真正的文件数据B:分布式存储系统需要考虑数据的分块问题C:分布式存储系统可以实现数据容灾D:传统单机存储方式扩容成本较低答案:D2.Hadoop 2.x中HDFS默认的block的大小为()。
绗竴绔?1銆?011骞撮害鑲敗鐮旂┒闄㈡彁鍑虹殑澶ф暟鎹畾涔夋槸锛氬ぇ鏁版嵁鏄寚鍏跺ぇ灏忚秴鍑轰簡甯歌鏁版嵁搴撳伐鍏疯幏鍙栥€佸偍瀛樸€佺鐞嗗拰锛? 锛夎兘鍔涚殑鏁版嵁闆嗐€?A:璁$畻B:璁块棶C:搴旂敤D:鍒嗘瀽绛旀: 鍒嗘瀽2銆佺敤4V鏉ユ鎷ぇ鏁版嵁鐨勭壒鐐圭殑璇濓紝涓€鑸槸鎸囷細Value銆乂elocity 銆乂olume鍜岋紙锛夈€?A:VarietyB:VainlyC:VagaryD:Valley绛旀: Variety3銆佸ぇ鏁版嵁鍒嗘瀽鍥涗釜鏂归潰鐨勫伐浣滀富瑕佹槸锛氭暟鎹垎绫汇€侊紙锛夈€佸叧鑱旇鍒欐寲鎺樺拰鏃堕棿搴忓垪棰勬祴銆?A:鏁版嵁缁熻B:鏁版嵁璁$畻C:鏁版嵁鑱氱被D:鏁版嵁娓呮礂绛旀: 鏁版嵁鑱氱被4銆佹柊娴拰浜笢鑱斿悎鎺ㄥ嚭鐨勫ぇ鏁版嵁鍟嗗搧鎺ㄨ崘锛屾槸鐢变含涓滅洸鐩帹閫佸埌褰撳墠娴忚鏂版氮缃戠珯鐨勭敤鎴风殑椤甸潰涓婄殑銆?A:瀵?B:閿?绛旀: 閿?5銆佺洰鍓嶇殑澶ф暟鎹鐞嗘妧鏈彧鑳藉鐞嗙粨鏋勫寲鏁版嵁銆?A:瀵?B:閿?绛旀: 閿?绗簩绔?1銆佹垜浠父鐢ㄧ殑寰蒋Office濂椾欢涓殑Access鏁版嵁搴撹蒋浠剁殑鏁版嵁搴撴枃浠舵牸寮忓悗缂€鍚嶆槸锛? 锛夈€?A:mdfB:mdbC:dbfD:xls绛旀: mdb2銆佸ぇ澶氭暟鏃ュ織鏂囦欢鐨勫悗缂€鍚嶆槸锛? 锛夈€?A:txtB:csvC:xmlD:log绛旀: log3銆佹湰璇剧▼閲嶇偣浠嬬粛鐨剋eka杞欢鐨勪笓鏈夋枃浠舵牸寮忔槸锛? 锛夈€?A:MongoDBB:ARFFC:valueD:key map绛旀: ARFF4銆佹暟鎹竻娲楀伐浣滅殑鐩殑涓昏鏄瑙e喅鏁版嵁鐨勫畬鏁存€с€佸敮涓€鎬с€佸悎娉曟€у拰锛? 锛夈€?A:涓撲笟鎬?B:鎺掍粬鎬?C:涓€鑷存€?D:鍏变韩鎬?绛旀: 涓€鑷存€?5銆佸叓鐖奔杞欢鐨勨€滆嚜瀹氫箟閲囬泦鈥濆伐浣滄柟寮忎笅锛岄渶瑕佸湪杞欢閲岃緭鍏ヤ竴涓紙锛夋潵浣滀负閲囬泦鐨勭洰鏍囥€?A:鐢佃瘽鍙风爜B:鍏抽敭璇?C:缃戦〉鍦板潃D:鐢ㄦ埛鍚?绛旀: 缃戦〉鍦板潃6銆佸叓鐖奔杞欢鐨勯噰闆嗚鍒欏彲浠ラ€氳繃鏂囦欢鐨勫舰寮忔潵瀵煎叆鎴栬€呭鍑猴紝杩欑鏂囦欢鐨勫悗缂€鍚嶆槸锛? 锛夈€?A:otdB:jpgC:pngD:gif绛旀: otd7銆丒xcel鍙互閫氳繃鈥滄暟鎹湁鏁堟€р€濇寜閽搷浣滄潵瑙勮寖鏁版嵁杈撳叆鐨勮寖鍥淬€?A:瀵?B:閿?绛旀: 瀵?8銆丒xcel涓嶈兘瀵煎叆txt鎴朿sv鏍煎紡鐨勬枃浠躲€?A:瀵?B:閿?绛旀: 閿?9銆佸叓鐖奔杞欢鍙兘瀵硅蒋浠跺唴寤轰簡鈥滅畝鏄撻噰闆嗏€濊鍒欑殑缃戠珯閲囬泦鏁版嵁銆?A:瀵?B:閿?绛旀: 閿?10銆佸叓鐖奔杞欢杩涜鑷畾涔夐噰闆嗘椂锛岄渶瑕佷簡瑙e缃戦〉鐨勯〉闈㈢粨鏋勩€?A:瀵?B:閿?绛旀: 瀵?绗笁绔?1銆佷娇鐢―BSCAN绠楁硶瀵归涪灏捐姳鏁版嵁闆嗭紙Iris.arff锛夎繘琛岃仛绫伙紝灏唀psilon鍙傛暟璁剧疆涓?.2锛? minPoints鍙傛暟璁剧疆涓?锛屽拷鐣lass灞炴€э紝閭d箞灏嗗舰鎴愶紙锛変釜绨囥€?A: 1B: 2C: 3D: 4绛旀: 32銆佷娇鐢‥M绠楁硶瀵瑰ぉ姘旀暟鎹泦锛坵eather.numeric.arff锛夎繘琛岃仛绫伙紝灏唍umClusters璁剧疆涓?锛屽嵆绨囨暟涓?锛屽叾浠栧弬鏁颁繚鎸侀粯璁ゅ€硷紝蹇界暐class灞炴€э紝浠庣粨鏋滀腑鍙煡锛屼笅鍒楅€夐」涓紝锛? 锛夋槸閿欒鐨勩€?A: 妯″瀷鐨勬渶澶т技鐒朵及璁″€兼槸-7.18B: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠?5娆?C: 绗洓涓皣鐨勫厛楠屾鐜囨槸0.14D: 绗洓涓皣鐨勫疄渚嬫暟涓?绛旀: 绗洓涓皣鐨勫疄渚嬫暟涓?3銆佷娇鐢⊿impleKMeans绠楁硶瀵瑰ぉ姘旀暟鎹泦锛坵eather.numeric.arff锛夎繘琛岃仛绫伙紝淇濇寔榛樿鍙傛暟锛屽嵆3涓皣浠ュ強娆ф皬璺濈銆傞€夋嫨play灞炴€т负蹇界暐灞炴€э紝浠庣粨鏋滀腑鍙煡锛屼笅鍒楅€夐」涓紝锛? 锛夋槸閿欒銆?A: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠e洓娆?B: 浜х敓浜嗕笁涓腑蹇冪偣C: 鑱氬悎涓?涓皣锛屽垎鍒湁7锛?锛?涓疄渚?D: 骞虫柟鍜岃宸负8.928绛旀: 杩欑粍鏁版嵁鐢ㄧ畻娉曡凯浠e洓娆?4銆佷娇鐢ㄧ嚎鎬у洖褰掞紙LinearRegression锛夊垎绫诲櫒鍜岀敤M5P鍒嗙被鍣ㄥcpu.arff鍒嗗埆杩涜鍒嗙被锛岀敱鍏惰緭鍑虹殑璇樊鎸囨爣鍙煡锛? 锛夈€?A: LinearRegression鐨勬爣鍑嗚宸瘮M5P鐨勬爣鍑嗚宸皬B: LinearRegression鐨勫钩鍧囩粷瀵硅宸瘮M5P鐨勫钩鍧囩粷瀵硅宸皬C: LinearRegression鐨勭浉瀵硅宸瘮M5P鐨勭浉瀵硅宸皬D: LinearRegression鐨勫钩鍧囨柟鏍硅宸瘮M5P鐨勫钩鍧囨柟鏍硅宸ぇ绛旀: LinearRegression鐨勫钩鍧囨柟鏍硅宸瘮M5P鐨勫钩鍧囨柟鏍硅宸ぇ5銆佸垹鍘籧pu.arff鏁版嵁鏂囦欢涓殑CACH灞炴€у悗锛屼娇鐢∕5P鍒嗙被鍣ㄦ瀯寤烘柟妗堬紝鍦ㄧ粨鏋滀腑锛屽埌杈綥M2鐨勫疄渚嬫暟鏈夛紙锛変釜銆?A: 165B: 21C: 23D: 30绛旀: 216銆佹牴鎹甁48鍒嗙被鍣ㄨ缁僿eather.nominal.arff鎵€鐢熶骇鐨勫喅绛栨爲锛屽綋outlook=sunny锛泃emperature=cool锛沨umidity =high锛泈indy=TRUE鏃讹紝鍒嗙被鐨勭粨鏋滄槸锛?锛夈€?A: YesB: NoC: 娌℃湁缁撴灉D: 鏃犳硶鍒嗙被绛旀: No7銆佹牴鎹甁48鍒嗙被鍣ㄨ缁僫ris.arff鎵€鐢熶骇鐨勫喅绛栨爲锛屽綋sepallength=4.4锛泂epalwidth=3.0锛沺etallength=1.3锛沺etalwidth=0.2鏃讹紝鍒嗙被鐨勭粨鏋滄槸锛? 锛夈€?A: Iris-setosaB: Iris-versicolorC: Iris-virginicaD: 鏃犳硶鍒嗙被绛旀: Iris-setosa8銆佸叧浜嶹eka绂绘暎鍖栬鏄庢纭殑鏄紙锛夈€?A: 绂绘暎鍖栨槸灏嗘暟鍊煎睘鎬ц浆鎹负瀛楃涓插瀷灞炴€?B: 鏈夌洃鐫g鏁e寲鏈変袱绉嶇瓑瀹藉拰绛夐鏂规硶C: 绛夊绂绘暎鍖栨槸浣垮疄渚嬪垎甯冨潎鍖€鐨?D: 绂绘暎鍖栧寘鎷棤鐩戠潱绂绘暎鍖栧拰鏈夌洃鐫g鏁e寲绛旀: 绂绘暎鍖栧寘鎷棤鐩戠潱绂绘暎鍖栧拰鏈夌洃鐫g鏁e寲9銆佷互涓嬶紙锛変笉鏄疻eka鐨勬暟鎹被鍨嬨€?A: numericB: nominalC: stringD: decimal绛旀: decimal10銆佸叧浜嶹eka鐨勬枃浠剁被鍨嬫弿杩伴敊璇殑鏄紙锛夈€?A: Weka鍙互鎵撳紑鏂囦欢鏍煎紡鏈?arff銆?csv銆?xlsxB: Weka澶勭悊鐨勬暟鎹泦绫讳技浜庡叧绯绘暟鎹簱妯瀹炰緥锛岀珫琛屽睘鎬?C: arff鏄疉SCII鏂囦欢锛屽彲浠ョ敤Word绛夋枃鏈紪杈戝櫒鎵撳紑鏌ョ湅D: @relation 瀹氫箟鏁版嵁闆嗗悕绉帮紝@data涔嬪悗鍛堢幇瀹炰緥锛屾瘡涓€琛屽氨鏄竴涓疄渚?绛旀: Weka鍙互鎵撳紑鏂囦欢鏍煎紡鏈?arff銆?csv銆?xlsx11銆佷互涓嬪睘浜庡叧鑱斿垎鏋愮殑鏄紙锛夈€?A: CPU鎬ц兘棰勬祴B: 璐墿绡垎鏋?C: 鑷姩鍒ゆ柇楦㈠熬鑺辩被鍒?D: 鑲$エ瓒嬪娍寤烘ā绛旀: 璐墿绡垎鏋?12銆佸ぇ鏁版嵁鏃朵唬鐨勫埌鏉ワ紝浣挎垜浠棤娉曚汉涓哄湴鍘诲彂鐜版暟鎹腑鐨勫ゥ濡欙紝涓庢鍚屾椂锛屾垜浠洿搴旇娉ㄩ噸鏁版嵁涓殑鐩稿叧鍏崇郴锛岃€屼笉鏄洜鏋滃叧绯汇€傚叾涓紝鏁版嵁涔嬮棿鐨勭浉鍏冲叧绯诲彲浠ラ€氳繃浠ヤ笅锛? 锛夌畻娉曠洿鎺ユ寲鎺樸€?A: K-meansB: Bayes NetworkC: C4.5D: Apriori绛旀: Apriori13銆佹煇瓒呭競鐮旂┒閿€鍞邯褰曟暟鎹悗鍙戠幇锛屼拱鍟ら厭鐨勪汉寰堝ぇ姒傜巼涔熶細璐拱灏垮竷锛岃繖绉嶅睘浜庢暟鎹寲鎺樼殑锛? 锛夐棶棰樸€?A: 鍏宠仈瑙勫垯鍙戠幇B: 鑱氱被C: 鍒嗙被D: 鑷劧璇█澶勭悊绛旀: 鍏宠仈瑙勫垯鍙戠幇14銆佸湪杩涜鑷姩閫夋嫨灞炴€ф椂锛屽繀椤昏绔嬩袱涓璞★紝鍏朵腑纭畾浣跨敤浠€涔堟柟娉曚负姣忎釜灞炴€у瓙闆嗗垎閰嶄竴涓瘎浼板€肩殑瀵硅薄鏄笅闈㈢殑锛? 锛夈€?A: 鎼滅储鏂规硶B: 灞炴€ц瘎浼板櫒C: 鍏冨垎绫诲櫒D: 瑙勫垯鎸栨帢绛旀: 灞炴€ц瘎浼板櫒15銆佷互涓嬪睘浜庡睘鎬х┖闂寸殑鎼滅储鏂规硶鐨勬槸锛?锛夈€?A: GainRatioAttributeEvalB: BestFirstC: PrincipalComponentsD: SymmetricalUncertAttributeEval绛旀: BestFirst16銆佸湪weka杞欢鎺㈢储鑰呯晫闈腑锛屽埄鐢╒isualize鏍囩椤甸€氳繃鏇存敼鍚勪釜鍙傛暟鏉ヨ繘琛屾暟鎹泦鐨勫彲瑙嗗寲灞炴€ц缃悗锛岄渶瑕佸崟鍑讳互涓嬶紙锛夋寜閽紝鎵€鏈夋洿鏀规墠浼氱敓鏁堛€?A: Select AttributeB: SubSampleC: UpdateD: Fast scrolling绛旀: Update17銆佺粰瀹氬叧鑱旇鍒橝B锛屾剰鍛崇潃锛氳嫢A鍙戠敓锛孊涔熶細鍙戠敓銆?A:瀵?B:閿?绛旀: 閿?18銆佹敮鎸佸害鏄閲忓叧鑱旇鍒欓噸瑕佹€х殑涓€涓寚鏍囥€?A:瀵?B:閿?绛旀: 瀵?19銆丷anker鏂规硶鏃㈠彲浠ョ敤浜庡崟涓睘鎬ц瘎浼板櫒锛屽張鍙互鐢ㄤ簬灞炴€у瓙闆嗚瘎浼板櫒銆?A:瀵?B:閿?绛旀: 閿?20銆佸埄鐢╳eka杞欢杩涜鏁版嵁鍙鍖栨椂锛岀敤鎴峰彲浠ラ€夋嫨绫诲埆灞炴€у鏁版嵁鐐圭潃鑹诧紝濡傛灉绫诲埆灞炴€ф槸鏍囩О鍨嬶紝鍒欐樉绀轰负褰╄壊鏉°€?A:瀵?B:閿?绛旀: 閿?绗洓绔?1銆佽礉鍙舵柉缃戠粶涓殑鑺傜偣浠h〃锛? 锛夈€?A:鍙橀噺B:闅忔満杩囩▼C:闅忔満鍙橀噺D:闅忔満鍑芥暟绛旀: 闅忔満鍙橀噺2銆佽礉鍙舵柉缃戠粶涓紝鑺傜偣闇€缁欏嚭姒傜巼鍒嗗竷鎻忚堪锛屽浜庣鏁e瀷闅忔満鍙橀噺鑰岃█锛屽彲浠ョ敤锛? 锛夌殑褰㈠紡琛ㄧず銆?A:鏉′欢姒傜巼瀵嗗害鍑芥暟B:姝f€佸垎甯?C:鏉′欢姒傜巼琛?D: 鍧囧寑鍒嗗竷绛旀: 鏉′欢姒傜巼琛?3銆佽礉鍙舵柉缃戠粶涓妭鐐逛箣闂寸殑杈逛唬琛紙锛夈€? A:闅忔満鍏崇郴B:姒傜巼鍥犳灉C:缁勫悎鍏崇郴D:闅忔満缁撴灉绛旀: 闅忔満鍏崇郴4銆佽礉鍙舵柉缃戠粶淇濆瓨鐨勬枃浠舵牸寮忔槸( )銆?A:XML BIFB:DOCXC: TXTD:XLS绛旀: XML BIF5銆佷笅闈紙锛変笉鏄弽鍚戜紶鎾缁忕綉缁滅殑缁撴瀯銆? A:杈撳叆灞?B:闅愬惈灞?C:璁$畻灞?D:杈撳嚭灞?绛旀: 璁$畻灞?6銆佺缁忕綉缁滀腑鐨勮妭鐐逛唬琛紙锛夈€?A:婵€鍔卞彉閲?B:婵€鍔卞嚱鏁?C:闅忔満鍙橀噺D:闅忔満鍑芥暟绛旀: 婵€鍔卞嚱鏁?7銆佷笅鍒楋紙锛変笉鏄父瑙佺殑婵€鍔卞嚱鏁般€?A:绾挎€у嚱鏁?B:Sigmoid鍑芥暟C:闃堝€煎嚱鏁?D:姝e鸡鍑芥暟绛旀: 姝e鸡鍑芥暟8銆佸湪璐濆彾鏂綉缁滅紪杈戠晫闈㈡椂锛屽鏋滆妭鐐圭殑鍚嶇О娌℃硶瀹屽叏鏄剧ず锛岄渶瑕佷粠锛? 锛夎彍鍗曢」杩涜璋冩暣銆?A:Tools|SetDataB:View|Zoom OutC:View|Zoom InD:Tools|Layout绛旀: Tools|Layout9銆乄EKA涓€夋嫨绁炵粡缃戠粶鍒嗙被鍣ㄦ搷浣滄椂锛屽簲璇ラ€夋嫨锛? 锛夈€?A:rules鏉$洰涓嬬殑PARTB:functions鏉$洰涓嬬殑SGD鍒嗙被鍣?C:functions鏉$洰涓嬬殑MultilayerPerceptron鍒嗙被鍣?D:榛樿鐨勫垎绫诲櫒绛旀: functions鏉$洰涓嬬殑MultilayerPerceptron鍒嗙被鍣?10銆佷笅闈㈠叧浜嶱ackage Manager瀹夎鍚庣殑鐩綍璇存槑涓嶆纭殑鏄紙锛夈€?A:doc瀛愮洰褰曞瓨鏀続PI鏂囨。
电信大学(大数据、5G、云计算)考试题库(含答案)单选题(总共176题)1.中国电信获得的5G频率资源()A、3400Mz-3500MzB、3500Mz-3600MzC、2125Mz-2675MzD、4800Mz-4900Mz答案:A2.目前,5GFR2频段支持的最大带宽是:()A、100MHzB、200MHzC、400MHzD、800MHz答案:C3.常见的存储类型为块存储、文件存储、对象存储。
其中块存储设备使用的协议为fibrechannel和()。
A、iscsiB、smbC、cifsD、https答案:A4.4.统⼀数据访问层(UDAL)包括以下几个部分():1)LVS2)DBProxy3)GiSe rver4)ctg-udal-admin5)Migration6)TeleDbA、123456B、12345C、23456D、2346答案:B5.按照功能和用途服务器分类不包括以下哪项()A、邮件服务器B、小型服务器C、DHCP服务器D、代理服务器答案:B6.()是全球5G中低频部署的最主流频段A、1.8GHzB、2.1GHzC、2.6GHzD、3.5GHz答案:D7.PaaS理解正确的是()A、基础设施即服务B、平台即服务C、软件即服务D、人才及服务答案:B8.关于专属云(网络独享型)、私有云描述正确的()A、专属云(网络独享型)支持根据客户需求进行架构设计B、专属云(网络独享型)提供用户独享的软件、硬件设备C、专属云(网络独享型)建设由企业提供或指定第三方提供集成服务D、私有云仅支持部署在企业IDC答案:B9.以下哪些场景不适合使用天翼云桌面产品的是()A、部署企业官网B、企业办公C、电教室用机D、酒店客房用机答案:A10.机架式服务器的主要内部组件不包含以下那项()A、内存B、扩展插槽C、显卡D、CPU处理器答案:C11.以下哪类客户群使用专属云的概率最低()A、互联网初创企业B、互联网企业C、政府D、民营企业答案:A12.不属于天翼云网融合产品/服务的是()A、云专线B、VPN连接C、云间高速D、SD-WAN答案:B13.是什么技术可以让运营商在一个硬件基础设施中切分出多个虚拟的端到端网络()A、网络切片技术B、网络优化技术C、网络隔离技术D、网络传输技术答案:A14.关于统一PaaS平台IaaS资源生命周期管理,下列说法错误的是()A、支持加载、分配、回收的资源设备过程跟踪管理B、全面对接IaaS,但不支持裸机初始化,网络资源初始化C、支持面向组件资源分配回收,根据组件规格、部署要求参数进行资源自动分配D、资源余量管理:动态采集余量信息,支持资源再分配,提升利用率答案:B15.5G无线帧长是()msA、5B、10C、20D、40答案:B16.以下那两项通用技术在2G/3G/4G/5G网络中均存在()A、移动性管理,用户数据管理B、计费单元,策略管理C、用户数据管理,网络切片选择D、鉴权功能,网络切片选择答案:A17.以下攻击类型中哪个不属于网络攻击?()A、人身攻击B、ddos攻击C、SYN攻击D、CC攻击答案:A18.中国电信提出的企业上云不包括以下那一项()A、网络上云B、业务上云C、IT系统上云D、终端电脑上云答案:D19.大数据是指不用随机分析法这样的捷径,而采用()的方法A、所有数据B、绝大部分数据C、适量数据D、少量数据答案:A20.SA组网情况下,为保证语音(EPSFallBack到4G)结束后,能够立即返回5 G,需要采用哪种技术()A、FastReturnB、空闲态重选C、CSFBD、SRVCC答案:A21.关于SecondaryNameNode哪项是正确的?A、它是NameNode的热备B、它对内存没有要求C、他的目的使帮助NameNode合并编辑日志,减少NameNode启动时间D、SecondaryNameNode应与NameNode部署到一个节点答案:C22.HDFS中的block默认保存几份?A、3份B、2份C、1份D、不确定答案:A23.天翼云关系型数据库不支持以下哪项功能()A、手动备份B、自动备份C、手动恢复备份数据D、自动恢复备份数据答案:D24.以下哪个事件是有关于网络安全的()A、多地医院系统被入侵,数据被加密勒索B、天翼云防御了一起流量高达500Gbps的DDOS攻击C、Uber打车代金券补贴活动被黄牛作弊刷单套现D、京东用户信息数据被内部员工泄密事件答案:B25.关于天翼云SD-WAN架构描述,不正确的是()A、天翼云SD-WAN采用业务平面、控制平面、转发平面三层体系架构部署B、业务平面为用户提供全功能的业务操作界面C、控制平面可实现订单编排、网络配置管理等控制功能D、转发平面提供对POP点、智能网关的监控、管理等功能答案:D26.下列哪个程序通常与NameNode在一个节点启动?A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、JobTracker答案:D27.关于天翼云桌面与传统PC相比的优势描述不准确的是()A、云桌面的虚机支持热迁移,当底层的物理服务器故障,可以随时迁移到其它服务器上,保障了服务的连续性B、云桌面用户可以在4G、5G、有线、WIFI等环境随时随地接入桌面,实现移动办公C、企业购买云桌面的成本较购买传统PC低很多D、云桌面硬件的维护由天翼云提供,可以降低企业的运维成本答案:C28.SQL语言通常称为()A、结构化查询语言B、结构化控制语言C、结构化定义语言D、结构化操纵语言答案:A29.5G基站的CU和DU之间的传输属于5G传送网的()部分A、以下都不是B、回传C、前传D、中传答案:D30.以下哪项防护方法不属于主机安全防护?()A、身份鉴别B、数据保密C、访问控制D、资源控制答案:B31.5G的SA/NSA组网模式是以()划分的A、无线是否采用双连接的模式B、核心是否有EPCC、网络信号强度D、随机划分答案:A32.大数据基于云计算进行数据的分析,那么云计算按照提供的服务类型进行分类,包括IaaS、PaaS、()A、XenB、SaaSC、KVMD、Docker答案:B33.未来基础设施,是朝哪个方向发展?()A、中心机房B、主机托管C、云D、物理机答案:C34.关于企业应用开发云道平台,哪一个不属于自动化测试特点()A、可积累B、可模拟C、可重复D、可追朔答案:B35.5G网络毫米波使用的频段为()A、26GHzB、3.8GHzC、4.9GHzD、2.6GHz答案:A36.对于Python研发人员,常用的集成开发工具是()?B、EclipseC、PyCharmD、VisualStudio答案:C37.以下哪一项属于非结构化数据()A、视频监控数据B、企业ERP数据C、财务系统数据D、日志数据答案:A38.数据仓库软件Hive的计算引擎采用的是什么?A、PregelB、SparkC、MapReduceD、Dryad答案:C39.TCP/IP模型由以下层次构成()A、物理层、数据链路层、网络层、传输层、会话层、表示层、应用层B、网络接口层、互联网层、传输层、应用层C、物理层、数据链路层、网络层D、局域网层、广域网层、互联网层40.对新一代BSS3.0描述不正确的是()A、以客户为中心B、市场使能C、企业赋能D、一线赋能答案:C41.以下哪一项不是对云改的理解()A、改云B、改网C、改体制D、改机制答案:C42.根据电信客户的特征对客户进行打标分类主要用到()算法A、分类B、聚类C、降维D、回归答案:B43.关于对象存储与传统存储对比优势描述不正确的是()A、对象存储可提供更低的访问延时B、对象存储可提供更大的容量C、对象存储提供更高的可用性及可靠性D、对象存储提供更大的吞吐能力答案:A44.中国电信IPRAN综合网管是一套免厂家网管就能满足对全网网元直管模式,实现IPRAN集约化运维,系统能对设备网络配置()A、配置自动生成并下发B、配置自动生成、需手工下发C、配置手工生成并自动下发D、配置手工生成并需手工完成下发答案:A45.关于专属云存储独享型描述正确的是()A、计算物理隔离、存储逻辑隔离、网络逻辑隔离B、计算逻辑隔离、存储逻辑隔离、网络逻辑隔离C、计算物理隔离、存储物理隔离、网络逻辑隔离D、计算物理隔离、存储物理隔离、网络物理隔离答案:C46.对于4/5G互操作过程中AMF和MME之间通过()接口进行通信A、N14B、N4C、N26D、S10答案:C47.IT上云先行先试,率先上云的是()A、BSS3.0B、OSSC、MSSD、PaaS答案:A48.MapReduce中默认把输入文件按照多少MB来划分?A、16B、32C、64答案:C49.以下关于集成开发环境正确的是?()A、集成开发环境不包括编辑器B、集成开发环境不包括编译器C、集成开发环境包括代码编辑器、编译器、调试器和图形用户界面工具D、集成开发环境不包括用户界面工具答案:C50.天翼云桌面支持多种外设接入,并支持通过策略进行外设管理,以下关于外设控制描述不正确的()A、可以将客户端本地的各类驱动器/文件夹选择性的映射到云桌面,且只允许从驱动器向云桌面单向数据传输B、虚拟桌面通过映射客户端的USB端口,实现USB的外设支持C、剪贴板重定向可以实现从“终端向虚拟桌面”或“虚拟桌面向终端”的单向拷贝或者双向拷贝D、支持将客户端本地的打印机资源选择性映射到云桌面,以方便云桌面利用客户端的打印机资源答案:A51.当前社会中,最为突出的大数据环境是()A、互联网B、物联网C、综合国力D、自然资源答案:A52.中国电信NSA组网采用的是()架构A、option3aB、option3C、option4D、option3x答案:D53.以下哪些描述不属于应用安全的范畴?()A、某政府网站被挂上黄赌毒信息B、某电商网站经常被恶意爬虫爬取重要信息,导致网站打开慢C、某业务服务器操作系统版本补丁未能及时更新,导致服务器被黑D、某公司业务系统有常见漏洞,被黑客利用后获取了系统后台权限答案:C54.以下关于统一PaaS平台提供能力描述不正确的项目是()A、统一管理组件开通相关的计算、存储、网络资源,自动初始化资源配置,实现面向组件的资源自动分配与回收,提升资源利用效率B、采用租户管理体系,实现面向租户的组件实例、资源、数据隔离C、集成自研组件、商用组件、原生系列组件的开通、变更、扩缩容、查询等核心能力D、集成组件控制台,支持一站式组件订购,自动完成组件安装、配置工作答案:C55.某超市研究销售记录数据后发现,买面包的人很大概率会购买啤酒,这种属于数据挖掘的哪类问题?()A、关联规则发现B、聚类C、分类D、自然语言处理答案:A56.统一PaaS平台的全网公共管理区,外部系统通过全网公共管理区的(),访问各资源池组件实例信息A、接入层B、网关层C、能力开放服务D、PaaS服务层答案:C57.共建共享承载网互联点,采用()方式进行eBGP对接A、OptionAB、OptionBC、OptionC答案:A58.目前,5G上行支持最高调制阶数为()A、256QAMB、64QAMC、QPSKD、16QAM答案:A59.天翼云能提供的IaaS层基础资源池不包含哪一项()A、CPUB、内存C、硬盘D、组件答案:D60.MapReduce是一种编程模型,主要思想来自于哪种编程语言A、面向对象编程B、函数式编程C、面向方面编程答案:B61.()反映数据的精细化程度,越细化的数据,价值越高B、活性C、关联度D、颗粒度答案:D62.大数据时代,数据使用的关键是()A、数据收集B、数据存储C、数据分析D、数据再利用答案:D63.下列属于IT全面上云外部条件成熟的是()A、上云人才队伍培养完毕B、国内政策利好,推动企业上云C、基本建立IT上云运营维护体系D、云计算市场萎靡答案:B64.以下()的工作速度最应尽量与CPU的速度相匹配。
第一章单元测试1、单选题:下列哪个表述是错误的?选项:A:在芯片里运行的程序可以是汇编语言编写。
B:在芯片里运行的程序可以是C语言编写。
C:在芯片里运行的程序可以是面向对象语言编写。
D:在芯片里运行的程序可以是二进制语言编写。
答案: 【在芯片里运行的程序可以是面向对象语言编写。
】2、单选题:以下哪一种不是计算机操作系统?选项:A:LinuxB:OracleC:iOSD:Android答案: 【iOS】3、单选题:微软对Windows界面的开发主要受到哪家公司的启发?选项:A:苹果B:施乐C:3MD:IBM答案: 【苹果】4、单选题:Windows和Linux或者iOS和Android之间的最大区别在于什么?选项:A:思想:前者封闭后者开源B:速度:前者快后者慢C:用户体验:前者优后者差D:价格:前者贵后者便宜答案: 【思想:前者封闭后者开源】5、多选题:医疗领域如何利用大数据?选项:A:个性化医疗B:临床决策支持C:社保资金安全D:用户行为分析答案: 【个性化医疗;临床决策支持;社保资金安全;用户行为分析】6、判断题:现在非结构化数据已经占人类数据量的25%。
选项:A:对B:错答案: 【错】7、判断题:大数据与云计算结合起来将给世界带来一场深刻的管理技术革命与社会治理创新。
选项:A:对B:错答案: 【对】8、单选题:Python是一种面向对象、()计算机程序设计语言。
选项:A:编译型B:解释型答案: 【解释型】9、判断题:ASCII码使用一个字节编码。
选项:A:对B:错答案: 【对】10、判断题:GBK是只用来编码汉字的,GBK全称《汉字内码扩展规范》,使用双字节编码。
选项:A:对B:错答案: 【对】第二章单元测试人类科学主要经过了经验科学、理论科学、计算科学、数据科学四个阶段。
选项:A:对B:错答案: 【对】2、单选题:大数据的利用过程是()。
选项:A:采集-挖掘-清洗-统计B:采集-清洗-挖掘-统计C:采集-清洗-统计-挖掘D:采集-统计-清洗-挖掘答案: 【采集-清洗-统计-挖掘】3、判断题:信息只有通过反思、启发和学习等过程被每个个体予以有效处理,才能有用。