大数据测试题

格式：docx
大小：83.40 KB
文档页数：4

下载文档原格式

高级大数据测试题及答案

高级大数据测试题及答案一、选择题（每题5分，共20分）1. 在大数据环境下，以下哪个选项不是Hadoop生态系统的组成部分？A. HBaseB. HiveC. SparkD. MongoDB答案：D2. 在Spark中，RDD的全称是什么？A. Resilient Distributed DatabaseB. Resilient Distributed DatasetC. Resilient Distributed Data StructureD. Resilient Distributed Data Stream答案：B3. 下列哪个选项是Hadoop的分布式文件系统？A. HDFSB. GFSC. ZFSD. NFS答案：A4. 在大数据技术中，以下哪个不是数据清洗的常见步骤？A. 去除重复B. 缺失值处理C. 数据转换D. 数据加密答案：D二、填空题（每题5分，共20分）1. Hadoop的两个主要组件是________和________。

答案：HDFS、MapReduce2. 在Spark中，________操作可以将多个RDDs合并为一个。

答案：union3. 用于数据挖掘的机器学习算法中，________算法是一种监督学习算法。

答案：决策树4. 在大数据存储中，________是一种用于存储半结构化数据的文件格式。

答案：JSON三、简答题（每题10分，共40分）1. 请简述Hadoop的MapReduce工作原理。

答案：Hadoop的MapReduce工作原理包括两个主要步骤：Map阶段和Reduce阶段。

在Map阶段，输入数据被分割成多个独立的数据块，每个数据块由一个Map任务处理。

Map任务读取数据块，将数据映射成键值对形式，然后输出中间结果。

在Reduce阶段，Map阶段输出的中间结果被分组，每个组由一个Reduce任务处理。

Reduce任务对同一键的值进行聚合操作，最终输出最终结果。

大数据技术与数据分析测试选择题 61题

1. 大数据的4V特征不包括以下哪一项？A. VolumeB. VelocityC. VarietyD. Visibility2. 以下哪个工具不是用于大数据处理的？A. HadoopB. SparkC. ExcelD. Kafka3. 在数据分析中，以下哪种方法最常用于预测分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析4. Hadoop生态系统中的HDFS是用来做什么的？A. 数据处理B. 数据存储C. 数据查询D. 数据可视化5. 以下哪个是NoSQL数据库的例子？A. MySQLB. PostgreSQLC. MongoDBD. Oracle6. 数据仓库的主要目的是什么？A. 实时数据处理B. 数据分析和报告C. 数据存储D. 数据加密7. 在数据分析中，PCA是什么的缩写？A. Principal Component AnalysisB. Primary Component AlgorithmC. Predictive Component AnalysisD. Progressive Component Algorithm8. 以下哪个编程语言最常用于数据分析？A. JavaB. PythonC. C++D. Ruby9. 在数据可视化中，以下哪种图表最适合展示时间序列数据？A. 饼图B. 条形图C. 折线图D. 散点图10. 以下哪个是大数据分析平台？A. TableauB. Microsoft ExcelC. Google AnalyticsD. AWS Redshift11. 数据挖掘的主要目的是什么？A. 数据清洗B. 数据存储C. 发现数据中的模式和关系D. 数据可视化12. 在机器学习中，监督学习与非监督学习的主要区别是什么？A. 监督学习需要标签数据，非监督学习不需要B. 监督学习不需要标签数据，非监督学习需要C. 监督学习用于分类，非监督学习用于回归D. 监督学习用于回归，非监督学习用于分类13. 以下哪个算法是用于分类的？A. K-MeansB. Linear RegressionC. Decision TreeD. PCA14. 在数据分析中，以下哪个步骤通常最先进行？A. 数据清洗B. 数据可视化C. 数据建模D. 数据收集15. 以下哪个是数据湖的定义？A. 一个用于存储大量结构化数据的数据库B. 一个用于存储大量非结构化数据的数据库C. 一个用于存储大量半结构化数据的数据库D. 一个用于存储大量实时数据的数据库16. 在数据分析中，以下哪个工具最常用于数据清洗？A. RB. SQLC. PythonD. Excel17. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas18. 在数据分析中，以下哪个方法最常用于异常检测？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析19. 以下哪个是数据科学家的主要职责？A. 数据存储B. 数据清洗C. 数据分析和模型构建D. 数据可视化20. 在数据分析中，以下哪个工具最常用于数据可视化？A. TableauB. SQLC. PythonD. Excel21. 以下哪个是用于大数据处理的实时数据流处理平台？A. HadoopB. SparkC. KafkaD. Hive22. 在数据分析中，以下哪个方法最常用于客户细分？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析23. 以下哪个是用于大数据处理的分布式文件系统？A. HDFSB. S3C. GFSD. Azure Blob Storage24. 在数据分析中，以下哪个方法最常用于预测销售额？A. 回归分析C. 关联分析D. 描述性分析25. 以下哪个是用于大数据处理的分布式数据库？A. MongoDBB. MySQLC. PostgreSQLD. Oracle26. 在数据分析中，以下哪个方法最常用于市场篮分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析27. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas28. 在数据分析中，以下哪个方法最常用于文本挖掘？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析29. 以下哪个是用于大数据处理的分布式存储系统？A. HDFSB. S3C. GFSD. Azure Blob Storage30. 在数据分析中，以下哪个方法最常用于时间序列分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析31. 以下哪个是用于大数据处理的分布式查询引擎？A. HiveB. SparkC. KafkaD. Hadoop32. 在数据分析中，以下哪个方法最常用于情感分析？B. 聚类分析C. 关联分析D. 描述性分析33. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas34. 在数据分析中，以下哪个方法最常用于推荐系统？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析35. 以下哪个是用于大数据处理的分布式存储系统？A. HDFSB. S3C. GFSD. Azure Blob Storage36. 在数据分析中，以下哪个方法最常用于网络分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析37. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas38. 在数据分析中，以下哪个方法最常用于图像分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析39. 以下哪个是用于大数据处理的分布式存储系统？A. HDFSB. S3C. GFSD. Azure Blob Storage40. 在数据分析中，以下哪个方法最常用于语音分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析41. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas42. 在数据分析中，以下哪个方法最常用于社交网络分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析43. 以下哪个是用于大数据处理的分布式存储系统？A. HDFSB. S3C. GFSD. Azure Blob Storage44. 在数据分析中，以下哪个方法最常用于生物信息学分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析45. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas46. 在数据分析中，以下哪个方法最常用于金融分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析47. 以下哪个是用于大数据处理的分布式存储系统？A. HDFSB. S3C. GFSD. Azure Blob Storage48. 在数据分析中，以下哪个方法最常用于医疗分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析49. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas50. 在数据分析中，以下哪个方法最常用于能源分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析51. 以下哪个是用于大数据处理的分布式存储系统？A. HDFSB. S3C. GFSD. Azure Blob Storage52. 在数据分析中，以下哪个方法最常用于零售分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析53. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas54. 在数据分析中，以下哪个方法最常用于电信分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析55. 以下哪个是用于大数据处理的分布式存储系统？A. HDFSB. S3D. Azure Blob Storage56. 在数据分析中，以下哪个方法最常用于制造业分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析57. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas58. 在数据分析中，以下哪个方法最常用于物流分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析59. 以下哪个是用于大数据处理的分布式存储系统？A. HDFSB. S3C. GFSD. Azure Blob Storage60. 在数据分析中，以下哪个方法最常用于教育分析？A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析61. 以下哪个是用于大数据处理的分布式计算框架？A. TensorFlowB. SparkC. Scikit-learnD. Pandas答案1. D2. C3. A4. B5. C6. B7. A9. C10. D11. C12. A13. C14. D15. B16. B17. B18. B19. C20. A21. C22. B23. A24. A25. A26. C27. B28. B29. A30. A31. A32. B33. B34. C35. A36. B37. B38. B39. A40. B41. B42. B43. A44. B45. B46. A47. A48. B49. B50. A51. A52. B53. B54. B55. A56. B57. B59. A60. B61. B。

大数据测试试卷及答案 82分

∙ 1.大数据的本质是（）。

（单选题1分）得分：0分o A.挖掘o B.搜集o C.洞察o D.联系∙ 2.以下选项中，不属于信息时代的定律的是（单选题1分）得分：1分o A.麦特卡尔夫定律o B.吉尔德定律o C.达律多定律o D.摩尔定律∙ 3.2008年以后，第（）信息传输技术：传输2亿路信号。

（单选题1分）得分：0分o A.二代o B.四代o C.一代o D.三代∙ 4.由于有了现代信息技术的支撑，研制一个新型号的航天器，周期缩减到（）以内。

（单选题1分）得分：1分o A.6个月o B.12个月o C.18个月o D.24个月∙ 5.根据周琦老师所讲，高德交通信息服务覆盖全国高速（）以上。

（单选题1分）得分：1分o A.70%o B.90%o C.50%o D.60%∙ 6.阿兰·图灵在哪一年提出图灵测试的概念？（单选题1分）得分：1分o A.1950年o B.1952年o C.1955年o D.1954年∙7.（）指利用计算机处理信息的技术，是现代信息技术的核心。

（单选题1分）得分：1分o A.感测技术o B.通信技术o C.计算机技术o D.微电子技术∙8.淘宝网正式进入台湾市场是在哪一年？（单选题1分）得分：1分o A.2011年o B.2009年o C.2010年o D.2012年∙9.第一个提出大数据概念的公司是（单选题1分）得分：1分o A.脸谱公司o B.谷歌公司o C.麦肯锡公司o D.微软公司∙10.社会成员或者用户之间社会成员之间共同参与信息的处理、信息的分享、信息的传播，这个活动就叫（）。

（单选题1分）得分：1分o A.社会计算o B.云计算o C.高强度计算o D.政府计算∙11.根据周琦老师所讲，高德交通日均采集数十亿定位请求，系统处理月均（）公里驾驶里程覆盖。

（单选题1分）得分：1分o A.50亿o B.100亿o C.80亿o D.150亿∙12.习近平总书记在2016年几月主持召开了网络安全和信息化工作座谈会？（单选题1分）得分：1分o A.2月o B.3月o C.5月o D.4月∙13.未来农业信息化将会取得新突破：在空间上，农业信息化从点状示范向（）开发，从区域覆盖向全面推进的格局演变。

大数据技术考试试题

大数据技术考试试题一、选择题（共 20 题，每题 3 分）1、以下不属于大数据特点的是（）A 数据量大B 数据类型多样C 处理速度快D 价值密度高2、大数据的处理流程不包括（）A 数据采集B 数据存储C 数据分析D 数据销毁3、以下哪种数据库适合处理大规模的结构化数据（）A NoSQL 数据库B 关系型数据库C 文档数据库D 图数据库4、 Hadoop 生态系统中的核心组件不包括（）A HDFSB MapReduceC HBaseD Spark5、以下关于数据清洗的说法，错误的是（）A 可以去除重复数据B 可以处理缺失值C 目的是提高数据质量D 不会改变数据的原始内容6、数据挖掘的主要任务不包括（）A 分类B 聚类C 关联规则挖掘D 数据可视化7、以下哪种算法常用于数据分类（）A KMeans 算法B Apriori 算法C 决策树算法D PageRank 算法8、在大数据处理中，数据仓库的作用是（）A 存储原始数据B 进行数据预处理C 支持复杂的查询和分析D 实时处理数据9、以下关于云计算与大数据关系的描述，正确的是（）A 云计算是大数据的前提B 大数据是云计算的应用C 云计算为大数据提供了计算能力D 大数据必须依托云计算才能发展10、以下哪种技术可以用于实时数据处理（）A HiveB FlumeC StormD Sqoop11、数据隐私保护的方法不包括（）A 数据加密B 数据匿名化C 数据备份D 访问控制12、以下关于数据可视化的说法，错误的是（）A 可以帮助用户更好地理解数据B 只能展示二维数据C 要遵循简洁明了的原则D 可以发现数据中的隐藏模式13、大数据在医疗领域的应用不包括（）A 疾病预测B 药物研发C 医疗设备管理D 医生培训14、以下哪种工具常用于大数据的采集（）A KafkaB TensorFlowC DockerD Redis15、数据仓库中的星型模型和雪花模型的主要区别在于（）A 数据存储方式B 数据查询效率C 数据结构复杂度D 数据更新频率16、以下关于大数据安全的描述，错误的是（）A 大数据安全主要关注数据的保密性B 大数据安全包括网络安全和系统安全C 大数据安全需要考虑用户认证和授权D 大数据安全需要防范内部人员的违规操作17、以下哪种技术可以用于大数据的分布式存储（）A MongoDBB MySQLC HDFSD Oracle18、数据挖掘中的关联规则挖掘，最常用的算法是（）A FPGrowth 算法B C45 算法C ID3 算法D EM 算法19、以下关于大数据分析的说法，正确的是（）A 大数据分析一定能得出准确的结论B 大数据分析主要依赖人工进行C 大数据分析需要结合业务背景D 大数据分析的结果不需要验证20、以下不属于大数据应用场景的是（）A 智能交通B 在线教育C 小型企业的财务管理D 精准营销二、简答题（共 5 题，每题 8 分）1、简述大数据的 4V 特征。

大数据测试题

大数据测试题大数据测试题1、简介1.1 背景1.2 目的1.3 范围2、测试环境2.1 硬件要求2.2 软件要求2.3 数据源2.4 测试工具3、功能测试3.1 数据采集3.1.1 数据源接入3.1.2 数据提取3.2 数据存储3.2.1 数据存储格式选择 3.2.2 数据安全性3.3 数据处理3.3.1 数据清洗3.3.2 数据转换3.4 数据分析3.4.1 数据统计3.4.2 数据可视化4、性能测试4.1 数据处理速度4.2 数据存储容量4.3 数据处理并发性能5、安全性测试5.1 数据隐私保护5.2 数据传输加密5.3 用户权限管理6、兼容性测试6.1 不同数据源测试 6.2 不同操作系统测试6.3 不同浏览器测试7、可靠性测试7.1 数据完整性7.2 数据可恢复性7.3 系统稳定性8、容错性测试8.1 异常数据处理8.2 网络故障处理8.3 节点故障处理9、用户体验测试9.1 界面易用性9.2 操作流程顺畅性9.3 响应速度10、扩展性测试10.1 数据规模扩展10.2 节点增加10.3 组件插件增加11、结果分析11.1 功能测试结果11.2 性能测试结果11.3 安全性测试结果 11.4 兼容性测试结果 11.5 可靠性测试结果 11.6 容错性测试结果 11.7 用户体验测试结果11.8扩展性测试结果12、结论附件:- 测试计划- 测试用例- 测试数据注释:- 数据采集：从不同的数据源中提取数据并进行清洗和转换的过程。

- 数据存储：将处理后的数据存储在适当的格式中，以供后续分析使用。

- 数据处理：对采集到的数据进行清洗、转换和计算等处理过程。

- 数据分析：通过统计和可视化等手段对数据进行分析和展示。

- 性能测试：测试系统在大数据处理方面的性能表现，包括速度、容量和并发性能等。

- 安全性测试：测试系统对数据安全和隐私保护的能力。

- 兼容性测试：测试系统在不同环境和配置下的兼容性。

- 可靠性测试：测试系统在长时间运行和异常情况下的稳定性和可恢复性。

大数据趣味测试题及答案

大数据趣味测试题及答案
1. 什么是大数据？
A. 大量的数据
B. 能够被分析的数据
C. 需要特定技术处理的数据
D. 以上都是
答案：D
2. 大数据的四个V分别代表什么？
A. 体积、速度、多样性、价值
B. 体积、速度、多样性、可视化
C. 体积、速度、价值、可视化
D. 速度、多样性、价值、可视化
答案：A
3. 以下哪个不是大数据技术？
A. Hadoop
B. Spark
C. SQL
D. NoSQL
答案：C
4. 大数据在哪个行业中应用最广泛？
A. 金融
B. 医疗
C. 教育
D. 以上都是
答案：D
5. 大数据可以用于预测什么？
A. 股市趋势
B. 消费者行为
C. 疾病爆发
D. 以上都是
答案：D
6. 以下哪个是大数据的存储技术？
A. 数据库
B. 文件系统
C. 内存
D. 以上都是
答案：D
7. 大数据的分析方法主要包括哪些？
A. 描述性分析
B. 诊断性分析
C. 预测性分析
D. 以上都是
答案：D
8. 大数据的实时分析技术通常被称为什么？
A. 批处理
B. 流处理
C. 机器学习
D. 深度学习
答案：B
9. 大数据的安全性主要面临哪些挑战？
A. 数据泄露
B. 数据篡改
C. 非法访问
D. 以上都是
答案：D
10. 以下哪个是大数据的可视化工具？
A. Tableau
B. Excel
C. PowerPoint
D. Word
答案：A。

大数据考试题及答案

1、下面哪个理论描述了亚马逊的商业模式（）（单选题)A。

长尾理论B.二八定律C。

六度空间理论D。

冰山理论回答正确2、大数据的核心是（）（单选题)A.告知与许可B.预测C.匿名化D.规模化回答正确3、下面哪一项不属于大数据系统的必备要素（ ) （单选题)A.云平台B。

物联网C。

数据D.数据库回答正确4、下面哪项关联不属于购物篮分析（）（单选题)A.啤酒和尿布B.湿巾和烧烤C。

咖啡和咖啡伴侣D。

飓风和蛋挞回答正确5、大数据所带来的思维变革不包括（ )(单选题）A。

不是随机样本而是全体数据B.。

不是精确性而是混杂性C.。

不是因果关系而是相关关系D。

不是歧视而是平等回答正确6、大数据元年是指( ）（单选题）A.2010年B。

2011年C。

2012年D.2013年回答正确7、关于大数据在国家治理中作用,以下理解不正确的是（）（单选题)A.大数据的应用能够杜绝抗生素的滥用B。

大数据的运用能够提升应急管理的快速反应C。

大数据的运用能够维护社会治安D.大数据的运用有利于实现以人为本的社会管理回答正确8、信息时代的三大定律不包括（）(单选题）A.摩尔定律B.吉尔德定律C。

达律多定律D。

麦特卡尔夫定律回答正确9、2009年，甲型H1N1流感在全球爆发，谷歌测算出的数据与官方最后的数据相关性非常接近，达到了（）（单选题)A.67％B.77％C。

97％。

D。

87%10、第一个将大数据上升为国家战略的国家是（）(单选题)A。

中国B。

美国C.英国D.法国回答正确11、相比于政府1.0，政府2。

0具有哪些特征( ) (多选题）A。

侧重于“以政府为中心"B.侧重于“以公众为中心”C。

政府扮演单一和主导性的角色D.吸纳多元主体的参与回答正确12、大数据带来的挑战有哪些（ ) （多选题)A.会导致数据盲点B。

危及个人隐私C.造成群体歧视D.产生庞大能耗回答正确13、要消除信息孤岛,需要从以下哪几个方面着手（ ) （多选题）A.进行纵向信息系统整合B.进行水平的电子政务信息系统整合C。

大数据技术与大数据分析测试选择题 59题

1. 大数据的“3V”模型不包括以下哪个维度？A. 速度B. 多样性C. 价值D. 体积2. Hadoop生态系统中，用于数据仓库的组件是？A. HBaseB. HiveC. PigD. Spark3. 在数据分析中，OLAP代表什么？A. Online Analytical ProcessingB. Online Application ProgrammingC. Offline Analytical ProcessingD. Offline Application Programming4. 以下哪个不是NoSQL数据库的类型？A. 键值存储B. 文档存储C. 关系型数据库D. 图形数据库5. 数据挖掘中的分类算法不包括以下哪种？A. 决策树B. 神经网络C. 关联规则D. 聚类分析6. 在Hadoop中，哪个组件负责数据的存储？A. HDFSB. MapReduceC. YARND. Hive7. 以下哪个工具不是用于大数据处理的？A. Apache KafkaB. Microsoft ExcelC. Apache StormD. Apache Flink8. 数据可视化工具Tableau主要用于什么？A. 数据存储B. 数据分析C. 数据清洗D. 数据传输9. 在数据分析中，ETL代表什么？A. Extract, Transform, LoadB. Encrypt, Transfer, LoadC. Extract, Transfer, LoadD. Encrypt, Transform, Load10. 以下哪个是大数据分析的步骤？A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏11. 在机器学习中，监督学习与非监督学习的主要区别是什么？A. 监督学习需要标签数据，非监督学习不需要B. 监督学习不需要标签数据，非监督学习需要C. 监督学习用于分类，非监督学习用于回归D. 监督学习用于回归，非监督学习用于分类12. 以下哪个是Apache Spark的核心组件？A. RDDB. HDFSC. YARND. Hive13. 在数据分析中，PCA代表什么？A. Principal Component AnalysisB. Primary Component AnalysisC. Partial Component AnalysisD. Public Component Analysis14. 以下哪个不是数据仓库的特征？A. 集成性B. 时变性C. 非易失性D. 实时性15. 在数据分析中，RFM模型不包括以下哪个维度？A. 最近一次购买时间B. 购买频率C. 购买金额D. 购买产品种类16. 以下哪个是用于大数据处理的流处理框架？A. Apache KafkaB. Apache HadoopC. Apache CassandraD. Apache Hive17. 在数据分析中，A/B测试主要用于什么？A. 数据清洗B. 数据可视化C. 数据比较D. 数据存储18. 以下哪个是大数据分析的挑战？A. 数据质量B. 数据安全C. 数据处理速度D. 所有上述选项19. 在数据分析中，K-means算法属于哪一类算法？A. 分类算法B. 回归算法C. 聚类算法D. 关联规则算法20. 以下哪个是用于大数据分析的编程语言？A. PythonB. HTMLC. CSSD. JavaScript21. 在数据分析中，SQL代表什么？A. Structured Query LanguageB. Standard Query LanguageC. Simple Query LanguageD. System Query Language22. 以下哪个是大数据分析的步骤？A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏23. 在机器学习中，监督学习与非监督学习的主要区别是什么？A. 监督学习需要标签数据，非监督学习不需要B. 监督学习不需要标签数据，非监督学习需要C. 监督学习用于分类，非监督学习用于回归D. 监督学习用于回归，非监督学习用于分类24. 以下哪个是Apache Spark的核心组件？A. RDDB. HDFSC. YARND. Hive25. 在数据分析中，PCA代表什么？A. Principal Component AnalysisB. Primary Component AnalysisC. Partial Component AnalysisD. Public Component Analysis26. 以下哪个不是数据仓库的特征？A. 集成性B. 时变性C. 非易失性D. 实时性27. 在数据分析中，RFM模型不包括以下哪个维度？A. 最近一次购买时间B. 购买频率C. 购买金额D. 购买产品种类28. 以下哪个是用于大数据处理的流处理框架？A. Apache KafkaB. Apache HadoopC. Apache CassandraD. Apache Hive29. 在数据分析中，A/B测试主要用于什么？A. 数据清洗B. 数据可视化C. 数据比较D. 数据存储30. 以下哪个是大数据分析的挑战？A. 数据质量B. 数据安全C. 数据处理速度D. 所有上述选项31. 在数据分析中，K-means算法属于哪一类算法？A. 分类算法B. 回归算法C. 聚类算法D. 关联规则算法32. 以下哪个是用于大数据分析的编程语言？A. PythonB. HTMLC. CSSD. JavaScript33. 在数据分析中，SQL代表什么？A. Structured Query LanguageB. Standard Query LanguageC. Simple Query LanguageD. System Query Language34. 以下哪个是大数据分析的步骤？A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏35. 在机器学习中，监督学习与非监督学习的主要区别是什么？A. 监督学习需要标签数据，非监督学习不需要B. 监督学习不需要标签数据，非监督学习需要C. 监督学习用于分类，非监督学习用于回归D. 监督学习用于回归，非监督学习用于分类36. 以下哪个是Apache Spark的核心组件？A. RDDB. HDFSC. YARND. Hive37. 在数据分析中，PCA代表什么？A. Principal Component AnalysisB. Primary Component AnalysisC. Partial Component AnalysisD. Public Component Analysis38. 以下哪个不是数据仓库的特征？A. 集成性B. 时变性C. 非易失性D. 实时性39. 在数据分析中，RFM模型不包括以下哪个维度？A. 最近一次购买时间B. 购买频率C. 购买金额D. 购买产品种类40. 以下哪个是用于大数据处理的流处理框架？A. Apache KafkaB. Apache HadoopC. Apache CassandraD. Apache Hive41. 在数据分析中，A/B测试主要用于什么？A. 数据清洗B. 数据可视化C. 数据比较D. 数据存储42. 以下哪个是大数据分析的挑战？A. 数据质量B. 数据安全C. 数据处理速度D. 所有上述选项43. 在数据分析中，K-means算法属于哪一类算法？A. 分类算法B. 回归算法C. 聚类算法D. 关联规则算法44. 以下哪个是用于大数据分析的编程语言？A. PythonB. HTMLC. CSSD. JavaScript45. 在数据分析中，SQL代表什么？A. Structured Query LanguageB. Standard Query LanguageC. Simple Query LanguageD. System Query Language46. 以下哪个是大数据分析的步骤？A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏47. 在机器学习中，监督学习与非监督学习的主要区别是什么？A. 监督学习需要标签数据，非监督学习不需要B. 监督学习不需要标签数据，非监督学习需要C. 监督学习用于分类，非监督学习用于回归D. 监督学习用于回归，非监督学习用于分类48. 以下哪个是Apache Spark的核心组件？A. RDDB. HDFSC. YARND. Hive49. 在数据分析中，PCA代表什么？A. Principal Component AnalysisB. Primary Component AnalysisC. Partial Component AnalysisD. Public Component Analysis50. 以下哪个不是数据仓库的特征？A. 集成性B. 时变性C. 非易失性D. 实时性51. 在数据分析中，RFM模型不包括以下哪个维度？A. 最近一次购买时间B. 购买频率C. 购买金额D. 购买产品种类52. 以下哪个是用于大数据处理的流处理框架？A. Apache KafkaB. Apache HadoopC. Apache CassandraD. Apache Hive53. 在数据分析中，A/B测试主要用于什么？A. 数据清洗B. 数据可视化C. 数据比较D. 数据存储54. 以下哪个是大数据分析的挑战？A. 数据质量B. 数据安全C. 数据处理速度D. 所有上述选项55. 在数据分析中，K-means算法属于哪一类算法？A. 分类算法B. 回归算法C. 聚类算法D. 关联规则算法56. 以下哪个是用于大数据分析的编程语言？A. PythonB. HTMLC. CSSD. JavaScript57. 在数据分析中，SQL代表什么？A. Structured Query LanguageB. Standard Query LanguageC. Simple Query LanguageD. System Query Language58. 以下哪个是大数据分析的步骤？A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏59. 在机器学习中，监督学习与非监督学习的主要区别是什么？A. 监督学习需要标签数据，非监督学习不需要B. 监督学习不需要标签数据，非监督学习需要C. 监督学习用于分类，非监督学习用于回归D. 监督学习用于回归，非监督学习用于分类答案1. C2. B3. A4. C5. D6. A7. B8. B9. A10. A11. A12. A13. A14. D15. D16. A17. C18. D19. C20. A21. A22. A23. A24. A25. A26. D27. D28. A29. C30. D31. C32. A33. A34. A35. A36. A37. A38. D39. D40. A41. C42. D43. C44. A45. A46. A47. A48. A49. A50. D51. D52. A53. C54. D55. C56. A57. A58. A59. A。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

光环国际大数据测试题
姓名_______ 成绩________
一、单选题（每题2分，共15题）
1、当前大数据技术的基础是由（）首先提出的
A. 微软
B. 百度
C. 谷歌
D. 阿里巴巴
2、大数据的起源是（）
A. 金融
B. 电信
C. 互联网
D. 公共管理
3、（）反映数据的精细化程度，越细化的数据，价值越高。

A. 规模
B. 活性
C. 关联度
D. 颗粒度
4、数据清洗的方法不包括（）
A. 缺失值处理
B. 噪声数据清除
C. 一致性检查
D. 重复数据记录处理
5、当程序经过编译或者汇编以后，形成了一种由机器指令组成的集合，被称为（）
A. 源程序
B. 目标程序
C. 可执行程序
D. 非执行程序
6、大数据的核心就是（）
A. 告知与许可
B. 预测
C. 匿名化
D. 规模化
7、大数据不是要教机器像人一样思考。

相反，它是（）
A.把数学算法运用到海量的数据上来预测事情发生的可能性。

B.被视为人工智能的一部分
C.被视为一种机器学习
D.预测与惩罚
8、当前社会中，最为突出的大数据环境是（）
A.互联网
B.物联网
C.综合国力
D.自然资源
9、以下哪些技术为大数据常用框架或技术（多选）（）。

A.Hadoop
B.Spark
C.Hbase
D.Linux
10、云计算按照服务类型大致可分为以下类（多选）（）
A.IaaS
B.PaaS
C.SaaS
D.效用计算
11、下列哪个语句在Python中是非法的？（）
A.x=y=z=1
B.x=(y=z+1)
C.x,y=y,x
D.x+=y
12、关于数据的潜在价值，说法正确的是（多选）（）
A. 数据的真实价值就像漂浮在海洋中的冰山，第一眼只能看到冰山一角，
而绝大部分则隐藏在表面之下。

B. 判断数据的价值需要考虑到未来它可能被使用的各种方式，而非仅仅考
虑其目前的用途。

C. 在基本用途完成后，数据的价值仍然存在，只是处于休眠状态
D. 数据的价值是其所有可能用途的总和
13、下列不是Java语言面向对象的特点（）
A.封装
B.继承
C.跨平台
D.多态
14、大数据人才整体上需要具备（多选）（）等核心知识
A.数学与统计知识
B.计算机相关知识
C.马克思主义哲学知识
D.市场运营管理知识
15、观察下图，其中问号选择（）
16、在Python中，下列哪种说法是错误的 ( D )
A、除字典类型外，所有标准对象均可以用于布尔测试
B、空字符串的布尔值是False
C、空列表对象的布尔值是False
D、值为0的任何数字对象的布尔值是False
17、ArrayList类的底层数据结构是( A )
A、数组结构
B、链表结构
C、哈希表结构
D、红黑树结构
18、Java中覆盖与重载的关系是：（ A ）。

A、覆盖只有发生在父类与子类之间，而重载可以发生在同一个类中
B、覆盖方法可以不同名，而重载方法必须同名
C、final修饰的方法可以被覆盖，但不能被重载
D、覆盖与重载是同一回事
19、下面关于进程、线程的说法不正确的是（ C ）。

A、进程是程序的一次动态执行过程。

一个进程在其执行过程中，可以产生
多个线程——多线程，形成多条执行线索。

B、线程是比进程更小的执行单位，是在一个进程中独立的控制流，即程序
内部的控制流。

线程本身不能自动运行，栖身于某个进程之中，由进程
启动执行。

C、Java多线程的运行与平台无关。

D、对于单处理器系统，多个线程分时间片获取CPU或其他系统资源来运行。

对于多处理器系统，线程可以分配到多个处理器中，从而真正的并发执
行多任务。

20、请问下列哪些类是定义在java.io包中的抽象类( ABD ) （多选）
A. InputStream
B. OutputStream
C. PrintStream
D. Reader
E. FileInputStream
F. FileWriter
二、填空题（共10题，每题2分）
16、数据库的三大范式______、______、______
17、Linux下__________________命令把某一个文件下的所有的文件分发到其他的机器上。

18、Linux用_______命令查看cpu,硬盘，内存的信息。

19、Java的三大体系分别是______、______、______
20、Java中的变量可分为两种数据类型，分别是______和______。

21、在java中，byte类型数组占_____个字节，short类型数据占____个字节，int类型数据占____个字节，long类型数据占____个字节
22、Python中的可变数据类型有_______，不可变数据类型有_________ 。

23、Python提供了两个对象身份比较操作符_____和______来测试两个变量是否指向同一个对象，也可以通过内建函数_______来测试对象的类型。

24、队列的实现是_______，消费的顺序是________。

25、hadoop的角色中_______负责管理元数据信息、________做namenode冷备份、________主要做储存数据的、_________管理任务、_________执行任务。

三、判断题（每题1分，共10题）
26、数据化就是数字化，是相互等同的关系。

( )
27、即使数据用于基本用途的价值会减少，但潜在价值却依然强大。

（）
28、对于大型、中等、小型规模的公司而言，大数据对中等规模的公司帮助最大。

( )
29、大数据的核心思想就是用规模剧增来改变现状。

（）
30、一般而言，分布式数据库是指物理上分散在不同地点，但在逻辑上是统一的
数据库。

因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。

（）
31、对于大数据而言，最基本、最重要的要求就是减少错误、保证质量。

因此，
大数据收集的信息量要尽量精确。

（）
32、简单随机抽样，是从总体N个对象中任意抽取n个对象作为样本，最终以这
些样本作为调查对象。

在抽取样本时，总体中每个对象被抽中为调查样本的概率可能会有差异。

（）
33、大数据预测能够分析和挖掘出人们不知道或没有注意到的模式，确定判断事
件必然会发生。

（）
34、Java 和 c都是面向对象的程序设计语言。

（）
35、Hadoop 支持数据的随机读写。

( )
36、Java 静态初始化器是在其所属的类对象实例化时由系统自动调用执行。

（ F ）
37、Java 线程间通信可通过共享数据使线程互相交流，也可通过线程控制方法使线程互相等待。

（ T ）
38、在Python中除字典类型外，所有标准对象均可以用于布尔测试（ T ）
39、40XL是Python合法的标识符（ F ）
40、Java中map集合的value值可以重复（ T ）
四、问答题（每题10分，共4题）
36、简述大数据技术的特点。

37、说下你理解的大数据，以及知道的大数据相关的一些技术和框架；谈谈你对hadoop 的一些理解,包括哪些组件。

38、明一家过一座桥，过桥时是黑夜，所以必须有灯。

现在小明过桥要1秒，小明的弟弟要3秒，小明的爸爸要6秒，小明的妈妈要8秒，小明的爷爷要12秒。

每次此桥最多可过两人，而过桥的速度依过桥最慢者而定，而且灯在点燃后30秒就会熄灭。

问：小明一家如何过桥
39、有7克、2克砝码各一个，天平一只，如何只用这些物品三次将140克的盐分成50、90克各一份？
40、多线程实现交替打印1到20？
41、写出你所知道的所有能遍历list和map集合的方法
42、一行把[1,2,3,1,2,3] 中的重复元素剔除。

大数据测试题

合集下载

高级大数据测试题及答案

大数据技术与数据分析测试选择题 61题

大数据测试试卷及答案 82分

最新2020年最新公需科目《大数据》测试题库(含参考答案)

大数据技术考试试题

大数据测试题

最新大数据测试题

大数据趣味测试题及答案

大数据考试题及答案

大数据技术与大数据分析测试选择题 59题

文档推荐

最新文档

大数据测试题

合集下载

高级大数据测试题及答案

大数据技术与数据分析测试 选择题 61题

大数据测试 试卷及答案 82分

最新2020年最新公需科目《大数据》测试题库(含参考答案)

大数据技术考试试题

大数据测试题

最新大数据测试题

大数据趣味测试题及答案

大数据考试题及答案

大数据技术与大数据分析测试 选择题 59题

文档推荐

最新文档

大数据技术与数据分析测试选择题 61题

大数据测试试卷及答案 82分

大数据技术与大数据分析测试选择题 59题