当前位置：文档之家› 大数据面试题

大数据面试题

12. MyISAM 和InnoDB 存储引擎的区别

11. 事务的隔离机制，mysql 默认是哪一级

10. 主键和唯一索引的区别

9. Mysql 查询优化？

8. 为啥mysql 索引要用B+树而MongoDB 用B 树？

哪些支持hash 索引？

7. mysql 索引，哪些索引？实现原理？哪些存储引擎支持B 树索引， 6. 数据倾斜

哪些能正常工作，读写数据？region 分裂？

5. hbase 的ha ，zookeeper 在其中的作用，master 宕机的时候， 4. hbase master 和regionserver 的交互

3. hbase 读数据过程

2. hbase 和传统数据库的区别

1. mapreduce 过程

大数据面试题

23. spark 运行原理，从提交一个jar 到最后返回结果，整个过程 22. spark 运行架构

QJM 中用到的分布式一致性算法（就是paxos 算法）

21. hadoop namenode 的ha ，主备切换实现原理，日志同步原理，使用场景

20. paxos 协议，multi-paxos ，zab ，raft 各种分布式协议内容， 19. zookeeper 实现原理，zab 协议以及原子广播协议

量排序

18. 用mapreduce 实现一个存储kv 数据的文件，对里面的v 进行全 17. 用mapreduce 实现两表join

16. mapreduce 实现二次排序

semi join 你可以通过什么算法去优化？

15. mapreduce 支持哪些join ，map 端？reduce 端？semi join ？锁，表锁是怎么实现的？

14. mysql 中的各种锁，乐观锁，悲观锁（排他锁，共享锁）；行 13. mysql 查询优化，慢查询怎么去定位？

35. spark 数据倾斜

34. gc 算法

33. 类加载机制

32. synchronized 与lock 区别

31. callable runnable 区别

30. spark rdd 、dataframe 、dataset 区别

面分别说明

29. spark2.0做出了哪些优化？tungsten 引擎？cpu 与内存两个方 28. spark 的内存管理机制，spark1.6前后对比分析

什么影响？ ha ，driver 的ha,task 的ha,在容错的时候对集群或是task 有

27. spark 的各种ha ，master 的ha ，worker 的ha ，executor 的

26. spark 的各种shuffle ，与mapreduce 的对比

25. spark rpc ，spark2.0为啥舍弃了akka ，而用netty?

什么算法实现？

24. spark 的stage 划分是怎么实现的？拓扑排序？怎么实现？还有

景。 shuffle 中各个阶段用到的排序算法把这几种排序算法的使用场 38. 各种排序算法，时间复杂度，空间复杂度，spark 和hadoop 中

37. spark 内存管理

36. spark shuffle

性能测试模拟笔试题目(一)new

软件性能测试模拟笔试题目（一）注：本试卷中题目所涉及性能测试工具如无特殊说明则均为LoadRunner。一、简答题（2*10=20分） 1.客户交付一个性能测试项目，请阐述你的实施流程。 2.解释5个常用的性能指标的名称与具体含义。 3.写出5个Loadrunner中常用函数，并对其中2个举例说明用法。 4.简述LoadRunner的工作原理？ 5.什么是集合点？设置集合点有什么意义？LoadRunner中设置集合点的函数是哪个？ 6.HTML-based script与URL-based script的脚本有什么区别？ 7.如何设置LaodRunner才能让集合点只对一半的用户生效？ 8.LoadRunner的Controller组件中Pacing参数的作用是什么？ 9.LoadRunner中如何监控Windows资源？ 10.如果让QALoad模拟LoadRunner中只对关注的性能点进行迭代测试，你有什么好方法？二、选择题（2*5=10分） 1.During the run of a scenario, which LoadRunner component stores the performance monitoring data? A. Analysis B. Controller C. File server D. Load generator/host 2.Where are the results stored during the run of a scenario? A. Analysis B. Controller C. Utility server D. Load generator 3. A script was recorded with an average think time for an advanced user. An advanced user pauses 5 seconds between clicks. A first-time user pauses an average of 10 seconds between clicks. How can you modify the think time run-time settings to emulate a first-time user? A. Set the think time to s recorded B. Set the think time to multiply the recorded think time by 4 C. Set the think time to a random percentage between 150% - 250% D. Set the think time to replay as recorded, but limit the think time to 10 seconds 4.Which HTTP error code indicates that an individual business process is failing under load or the web application itself has crashed? A.200 B. 403 C. 401 D. 500 5.What is an intersection point in a business process? A. Scenario B. Rendezvous C. Transaction D. Service level agreement 三、LoadRunner工具使用题：（10*2=20分） 1.web系统中，username参数表为file类型，表中有12个值，分别A、B、C、D、E、F、G、 H、I、J、K、L。测试场景中虚拟并发用户数设为4，迭代次数设为3，参数中Select next row 与Update value on分别为(Sequential, Each Iteration)与(Unique, Once)时，写出迭代3次的取值情况。

最全大数据程序员面试题库

最全大数据程序员面试题库大数据开发面试题库，千锋讲师总结了很多，经过总结学生在面试中遇到的问题，还有讲师多年的经验精心编制。就是要宠千锋学生到底，不仅教授你专业的大数据技术，更要让你从容的面对面试官，在众多的竞争者中脱颖而出。好了，废话不多说，直接上题库。。。。。。 1.scala 语言有什么特点，什么是函数式编程？有什么优点 2.scala 伴生对象有什么作用 3.scala 并发编程是怎么弄得，你对actor 模型怎么理解有何优点 4.scala case class 有什么重要 5.scala akka 框架有没有接触过，有什么重要 6.scala 为什么设计var 和val 7.SDD,DAG,Stage怎么理解？ 8.宽依赖窄依赖怎么理解？ 9.Stage是基于什么原理分割task的？ 10.血统的概念

11.任务的概念 12.容错方法 13.粗粒度和细粒度 14.Spark优越性 15.Spark为什么快 16.Transformation和action是什么？区别？举几个常用方法 17.SDD怎么理解 18.spark 作业提交流程是怎么样的，client和cluster 有什么区别，各有什么作用 19.spark on yarn 作业执行流程，yarn-client 和yarn cluster 有什么区别 20.spark streamning 工作流程是怎么样的，和storm 比有什么区别 21.spark sql 你使用过没有，在哪个项目里面使用的 22.spark 机器学习和spark 图计算接触过没，，能举例说明你用它做过什么吗？ 23.spark sdd 是怎么容错的，基本原理是什么？大数据时代，中国IT环境也将面临重新洗牌，不仅仅是企业，更是程序员们转型可遇而不可求的机遇。随着互联网时代的迅猛发展，大数据全面融入了现代社会的生产、生活中，并将大大改变全球的经济。大数据，它其实不仅仅是一种技术，更是战略资源。千锋不仅仅注重学生的专业技能培训，还注重学生的素质培养，开班第一天起，每节课的课前十分钟分享，锻炼学员的沟通表达能力，在工作中减少沟通成

软件性能测试岗位常见面试题

软件性能测试岗位常见面试题一、基础篇 1、较为完整的性能测试的流程一个完整的性能测试流程 2、性能测试的基础理论、常见术语性能测试常见术语浅析 3、性能测试模型、类型常见的性能测试类型、性能测试模型 4、HTTP、TCP协议相关知识 HTTP协议入门系列 5、连接池、线程相关知识连接池和线程二、工具篇

①、Jmeter的工作原理是什么？ ②、常用的元件、插件有哪些？各自的作用是什么？ ③、几个典型的场景，如何基于jmeter设计测试脚本？比如：参数化、关联、控制TPS、接口加密验签、阶梯式加压、集合点、检查点等； ④、是否会二次开发？如果会，怎么二次开发的（介绍大概过程和原因）？ 2、Loadrunner 3、其他开源/商业性能测试工具比如：Ngrinder、Locust、Wrk、Artillery等； 4、前端、服务器、数据库性能监测工具三、系统架构篇 1、服务集群 2、负载均衡负载均衡原理、实现方式 3、容量规划 4、缓存应用缓存原理、缓存优点、缓存命中、缓存穿透、多层缓存 4、分布式框架分布式的特点、面临的挑战：CAP理论（数据一致性、服务可用性、分区容错性） 5、全链路压测四、服务器&中间件篇 1、JVM JVM原理、启动参数配置、堆栈原理、垃圾回收原理、OOM原因和表现 2、Tomcat 配置、使用方法、启动参数配置

配置、使用方法 4、Dubbo 服务注册、消息队列 5、RabbitMQ/Kafka 本身的特点、生产者、消费者如何管理五、数据库篇 1、锁 2、索引 3、读写分离 4、分库分表六、方案篇 1、设计性能测试方案需要考虑哪些问题？时间成本、人力成本、环境&脚本可复用性、实现难度 2、针对某些情况，你会如何设计、优化方案？七、案例篇 1、如何测试MQ？ 2、压测中TPS上不去的原因分析？ 3、测试环境和生产环境服务器配比如何选择？服务器配置版本保持一致，容量测试后等量代换、考虑边际递减效应、容灾方案4、发现瓶颈，如何分析？自上而下，从局部到整体，瓶颈分析粒度

大数据工程师面试题

大数据工程师面试题大数据工程师面试，对于很多人来说应该都不陌生了吧，虽说大数据就业前景很好，但想要成功进入名企，并不是一件容易的事情，不仅仅需要专业的技能，还需要你在面试的时候认真准备一下。面试的时候，我们会遇到各种各样的问题，千锋讲师今天就先讲解一下面试经常会遇到的问题，Hadoop是如何工作的？ Hadoop是一个分布式文件系统（Hadoop Distributed File System），简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理。所以说Hadoop解决了大数据如何存储的问题，因而在大数据培训机构中是必须学习的课程，也是面试中面试官非常注重的一个技术点。 Hadoop是如何工作的？ Hadoop是从Google文件系统发源而来，并且他是一个用Java开发的跨平台的应用。核心组件有: Hadoop Common，拥有其他模块所依赖的库和基础

工具，Hadoop分布式文件系统(HDFS)，负责存储，Hadoop YARN，管理计算资源，和Hadoop MapReduce，负责处理的过程。 Hadoop把文件拆成小块并且把他们分发给集群中的节点。然后，它使用打包的代码分发到节点上并行处理数据。这意味着可以处理数据的速度会比使用传统的体系结构的更快。一个典型的Hadoop集群都会有主节点和从节点或者叫工作节点。主节点有一个任务跟踪器，任务调度，名字节点和数据节点组成。从节点通常作为一个数据节点和任务调度器，不过特殊的场景下程序可能只有数据节点然后在其他的从节点进行处理计算。在大的Hadoop集群中，通常会使用一个专用的名字节点来管理HDFS节点的文件系统索引信息，这防止了文件系统的数据丢失和损坏。千锋教育拥有一支的强师队伍，在教学研究方面，我们老师不断的推陈出新，探索更新的教学方式，结合时代所需不断更新课程大纲，加强学生对于知识的理解和运用。千锋讲师对于大数据行业时刻保持一定的敏感性和前瞻性，定期与各大企业的技术官交流分析，掌握大数据的发展动向，不仅仅可以帮助同学们更好的学习大数据技术，还会预测一些大数据工程师面试题，为同学们的就业之路披荆斩棘。关键词：大数据工程师面试题

应届生进入大数据领域面试题大全

应届生进入大数据领域面试题大全如今参加大数据培训学习大数据开发技术的小伙伴越来越多，因为现在就是大数据时代，所以想要加入到大数据领域的人越来越多，对于刚入门大数据领域的小伙伴来说，如果敲响企业的大门就很重要了，本篇文章小编给大家分享一下应届生进入大数据领域有哪些大数据面试题，对小伙伴感兴趣的小伙伴可以来了解一下哦。 1、频繁项集、频繁闭项集、最大频繁项集之间的关系是：(C) A、频繁项集频繁闭项集=最大频繁项集 B、频繁项集= 频繁闭项集最大频繁项集 C、频繁项集频繁闭项集最大频繁项集 D、频繁项集= 频繁闭项集= 最大频繁项集 2、考虑下面的频繁3-项集的集合：{1，2，3}，{1，2，4}，{1，2，5}，{1，3，4}，{1，3，5}，{2，3，4}，{2，3，5}，{3，4，5}假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含(C) A、1，2，3，4 B、1，2，3，5 C、1，2，4，5 D、1，3，4，5 3、在图集合中发现一组公共子结构，这样的任务称为( B ) A、频繁子集挖掘 B、频繁子图挖掘 C、频繁数据项挖掘

D、频繁模式挖掘 4、下面选项中t不是s的子序列的是( C ) A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}> B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}> C、s=<{1,2},{3,4}> t=<{1},{2}> D、s=<{2,4},{2,4}> t=<{2},{4}> 5、下列__(A)__不是将主观信息加入到模式发现任务中的方法。 A、与同一时期其他数据对比 B、可视化 C、基于模板的方法 D、主观兴趣度量 6、下列度量不具有反演性的是(D) A、系数 B、几率 C、Cohen度量 D、兴趣因子 7、以下哪些算法是分类算法，(B) A，DBSCAN

大数据面试题试卷

大数据面试题及答案汇总版

第1部分选择题 1.1 Hadoop选择题 1.1.1 HDFS 1．下面哪个程序负责 HDFS 数据存储？A．NameNode B．Jobtracker C．Datanode D．secondaryNameNode E．tasktracker 2. HDFS 中的 block 默认保存几份？ A．3份 B．2份 C．1份 D．4份 3. 下列哪个程序通常与NameNode 在一个节点启动？ A. SecondaryNameNode B．DataNode C．TaskTracker D. Jobtracker 4. HDFS 默认 Block Size（新版本）

A. 32MB B．64MB C．128MB D．256MB 5. Client 端上传文件的时候下列哪项正确 A. 数据经过 NameNode 传递给 DataNode B．Client端将文件切分为Block，依次上传 C．Client 只上传数据到一台DataNode，然后由 NameNode 负责Block 复制工作 6. 下面与 HDFS 类似的框架是？ A．NTFS B．FAT32 C．GFS D．EXT3 7. 的 8. 的 1.1.2 集群管理 1. 下列哪项通常是集群的最主要瓶颈 A. CPU B．网络 C．磁盘IO

D．存 2. 关于SecondaryNameNode 哪项是正确的？ A．它是 NameNode 的热备 B．它对存没有要求 C．它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间 D．SecondaryNameNode 应与 NameNode 部署到一个节点 3. 下列哪项不可以作为集群的管理？ A. Puppet B．Pdsh C．ClouderaManager D．Zookeeper 4. 配置机架感知的下面哪项正确 A. 如果一个机架出问题，不会影响数据读写 B．写入数据的时候会写到不同机架的 DataNode 中 C．MapReduce 会根据机架获取离自己比较近的网络数据 5. 下列哪个是 Hadoop 运行的模式 A. 单机版B．伪分布式C．分布式 6. Cloudera 提供哪几种安装 CDH 的方法 A. Cloudera manager B．Tarball C．Yum D．Rpm 7. 1.2 Hbase选择题 1.2.1 Hbase基础

大数据hadoop面试题-企业项目实战

大数据hadoop面试题-企业项目实战大数据技术逐渐被企业所重视，其带来的益处其实是可以被无限放大的，要知道，现在的市场都是，得数据者得天下！而数据的获得还是要靠大数据技术的，Hadoop作为大数据技术的一个重要技术点，在面试大数据工程师的时候是肯定要被问及的，千锋小编整理一些关于大数据Hadoop的面试题，预祝每一位大数据工程师都能找到自己理想的工作。 1、在Hadoop中定义的主要公用InputFormat中，默认是哪一个？（A） A、TextInputFormat B、KeyValueInputFormat C、SequenceFileInputFormat 2、下面哪个程序负责HDFS 数据存储？（C） https://www.doczj.com/doc/6c7256808.html,Node B.JobTracker C.DataNode

D.SecondaryNameNode E.tasktracker 3、HDFS 中的block 默认保存几份？（A） A.3 份 B.2 份 C.1 份 D.不确定 4、下列哪个程序通常与NameNode 在一个节点启动？（D） A.SecondaryNameNode B.DataNode C.TaskTracker D.JobTracker 解析：hadoop的集群是基于master/slave模式，namenode和jobtracker 属于master，datanode和tasktracker属于slave，master只有一个，而slave 有多个. SecondaryNameNode内存需求和NameNode在一个数量级上，所以通常secondary NameNode（运行在单独的物理机器上）和NameNode 运行在不同的机器上。 JobTracker对应于NameNode,TaskTracker对应于DataNode. DataNode和NameNode是针对数据存放来而言的.JobTracker和TaskTracker是对于MapReduce执行而言的. mapreduce中几个主要概念，mapreduce 整体上可以分为这么几条执行

性能测试面试题附答案范文

1、哪个函数是用来截取虚拟用户脚本中的动态值？（手工关联） Web_reg_save_param 2、你如何识别系统瓶颈？从TPS指标分析（即系统每秒处理可处理事务数）当前随着用户数的增长其系统每秒可处理的事务数是否也会增长 3、think_time有什么用？ Think_time作用主要有以下几种： 1）降低当前运行时压力，缓解对应用服务器所造成的压力 2）模拟真实生产用户操作，考察对服务器所造成的影响 4、一般什么时候开始进行性能测试被测系统的正常业务流程通过，即集成测试通过后。 5、进行参数化的目的 1）减少脚本的大小 2）提供不同的值以提高执行脚本的能力，从而更加真实的模拟生产环境的数据 6、容量测试方法中为什么要以逐步递增的的方式进行虚拟用户数随着负载时间的延长而增加，可以帮助确定系统响应时间减慢的准确时间点以及准确用户数 7、假设在测试过程中发现某些事务的响应时间过长，但分析应用服务、数据库服务以及网络都属于正常现象，问题可能出现的原因 1）LR客户端机器是否已无法承载当前运行压力导致LR无法及时获取从服务端返回的信息2）Think_time（即思考时间）是否已忽略 3）确定当前被测系统架构，是否为在每次测试过程中清除缓存所导致 8、如何发现应用服务的相关问题？ 1）通过某些事务的运行，判断是否在应用代码层未进行调优导致事务响应事件过长 2）通过实时监控工具（nmon等）监控分析： a)系统在运行过程其CPU是否稳定运行或CPU耗用是否过高 b)在系统运行过程中其内存是否存在内存泄露现象 3）打开应用相应日志，分析在运行过程中是否存在交易报错并获取错误原因查看是否由于代码原因导致交易错误发生 9、如何发现数据库的相关问题？ 1）通过运行某些相应的已获取的SQL语句，判断是否由于数据库索引所导致的事务响应过长的问题发生 2）通过实时监控工具(nmon等)监控分析: a)在系统运行过程中CPU是否可稳定运行或CPU耗用过高； b)在系统运行过程中其内存是否存在内存泄露等现象。

面试题目

一·主观题 1.你认为app测试过程中,相对于web,要更多注意哪些测试点?或者说app测试和 web测试有哪些不同之处? 答：1、“点击加载更多”的分页处理技术，是否有重复的数据，数据显示是否完整，到达最后一页后是否还有数据进行显示； 2、数据的排序方式； 2、界面跳转是否正确； 3、出现异常情况是否有提示，是否跳转到已经设定好的默认页面，如断网情况下，显示网络未连接，数据加载失败，或者如果此页面没有数据显示，显示友好提示信息； 4、图片处理的地方，是否容易出现程序崩溃现象，主要是图片压缩机制； 5、前台展示的数据，后台进行变动（增、删、改），是否是实时更新还是app一开始运行再进行加载； 6、前台主动发出请求，后台数据库中是否存在相应的数据同时包括数据的关联性（商家的会员进行下订单，数据库中生成一条订单的记录的同时，生成一条积分记录，该会员的积分进行相应的变化）； 7、手机app网络环境测试重点：主要是针对2G、3G、4G、wifi三种网络环境进行测试； 8、手机app兼容性测试：主要是针对android各个系统版本进行测试，及测试屏幕分辨率进行测试； 2.请说明 Android手机和oS手机,系统有什么区别? 答：安卓是开源的，苹果ios是闭源的 1、两者运行机制不同：IOS采用的是沙盒运行机制，安卓采用的是虚拟机运行机制。 2、两者后台制度不同：IOS中任何第三方程序都不能在后台运行；安卓中任何程序都能在后台运行，直到没有内存才会关闭。 3、IOS中用于UI指令权限最高，安卓中数据处理指令权限最高。 3.请试着说明一下黑盒测试，白盒测试，单元测试，集成测试，系统测试，验收测试的区别和联系答：黑盒测试：把测试对象当成一个黑盒子，测试人员完全不考虑逻辑结构和内部特性，只依据程式的需求说明书来检查程式的功能是否满足它的功能说明。白盒测试：把测试对象当成一个透明的盒子，允许测试人员利用程序内部逻辑结构及相关信息，设计或选择测试用例，对程式所有逻辑路径进行测试。单元测试：白盒测试的一种，对软件设计中的单元模块进行测试。集成测试：在单元测试的基础上，对单元模块之间的连接和组装进行测试。系统测试：在所有都考虑的情况下，对系统进行测试。验收测试：第三方进行的确认软件满足需求的测试。 4.你认为性能测试工作的目的是什么？做好性能测试工作的关键是什么答：性能测试的目的--- 1）评估系统的能力----测试中得到的负荷和响应时间数据可被用于验证所计划的模型的能力，并帮助作出决策。 2）识别体系中的弱点----受控的负荷被增加到一个极端水平，并突破它，从而修复体系的

软件测试工程师经典面试题目

软件测试工程师面试题汇总测试技术面试题 (5) 1、什么是兼容性测试？兼容性测试侧重哪些方面？ (5) 2、我现在有个程序，发现在Windows上运行得很慢，怎么判别是程序存在问题还是软硬件系统存在问题？ (5) 3、测试的策略有哪些？ (5) 4、正交表测试用例设计方法的特点是什么？ (5) 5、描述使用bugzilla缺陷管理工具对软件缺陷（BUG）跟踪的管理的流程？ (5) 6、你觉得bugzilla在使用的过程中，有什么问题？ (5) 7、描述测试用例设计的完整过程？ (6) 8、单元测试的策略有哪些？ (6) 9、LoadRunner分哪三部分？ (6) 10、LoadRunner进行测试的流程? (6) 什么是并发？在lordrunner中，如何进行并发的测试？集合点失败了会怎么样？ (6) 12、使用QTP做功能测试，录制脚本的时候，要验证多个用户的登录情况/查询情况，如何操作？ (6) 13、QTP中的Action有什么作用？有几种？ (6) 14、TestDirector有些什么功能，如何对软件测试过程进行管理？ (7) 15、你所熟悉的软件测试类型都有哪些？请试着分别比较这些不同的测试类型的区别与联系（如功能测试、性能测试......）？ .. (7) 16、条软件缺陷（或者叫Bug）记录都包含了哪些内容？如何提交高质量的软件缺陷（Bug）记录？ (8) 17、Beta测试与Alpha测试有什么区别？ (8) 18、软件的评审一般由哪些人参加？其目的是什么？ (8) 19、测试活动中，如果发现需求文档不完善或者不准确，怎么处理？ (8) 20、阶段评审与项目评审有什么区别？ (8) 21、阐述工作版本的定义？ (8) 22、什么是桩模块？什么是驱动模块？ (8) 23、什么是扇入？什么是扇出？ (8) 24、你认为做好测试计划工作的关键是什么？ (8) 25、你认为做好测试用例工作的关键是什么？ (9) 26、简述一下缺陷的生命周期？ (9) 27、软件的安全性应从哪几个方面去测试？ (9) 28、软件配置管理工作开展的情况和认识？ (9) 29、你觉得软件测试通过的标准应该是什么样的？ (10) 30、引入测试管理的含义？ (10) 31、一套完整的测试应该由哪些阶段组成？ (10) 32、单元测试的主要内容？ (10) 33、集成测试也叫组装测试或者联合测试，请简述集成测试的主要内容？ (10) 34、简述集成测试与系统测试关系？ (10) 35、软件测试的文档测试应当贯穿于软件生命周期的全过程，其中用户文档是文档测试的重点。那么软件系统的用户文档包括哪些？ (10) 36、软件系统中除用户文档之外，文档测试还应该关注哪些文档？ (10) 37、简述软件系统中用户文档的测试要点？ (11) 38、单元测试主要内容是什么？ (11) 39、如何理解强度测试？ (13) 40、如何理解压力、负载、性能测试测试？ (13) 41、什么是系统瓶颈？ (13) 42、文档测试主要包含什么内容？ (13)

大数据常见面试题

大数据常见面试题经历了水深火热的大数据学习，终于拨开云雾见天明了，但你离成功总是还差了一步，那就是拿到大数据工程师的Offer。在电脑旁奋斗了无数个日夜，代码敲了无数遍，项目整改了无数遍，只为了得到一份自己满意的高薪资高待遇的Offer。但这个收获不仅仅需要你学到娴熟的大数据技术，还需要在面试之前精心准备，了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等，除此之外，多看一些大数据面试题也是很有必要的，给自己涨涨经验。千锋小编虽然不能帮你调查你理想企业的发展状况，但大数据常见面试题早已经为你准备好了，需要的尽快收入囊中吧！ 1.scala 语言有什么特点，什么是函数式编程？有什么优点 2.scala 伴生对象有什么作用 3.scala 并发编程是怎么弄得，你对actor 模型怎么理解有何优点 4.Spark如何处理结构化数据，Spark如何处理非结构话数据？ 5.Spark性能优化主要有哪些手段？

6.对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里？ 7.对于算法是否进行过自主的研究设计？ 8.简要描述你了解的一些数据挖掘算法与内容 9.怎么用spark做数据清洗 10.跟我聊聊spark的应用，商场里广告投放，以及黄牛检测 11.spark读取数据，是几个Partition呢？hdfs几个block 就有几个Partition？ 12.Mogodb和hbase的区别 13.开发中遇到的问题 14.HIVE的优化 15.linux的启动顺序 16.编译好的scala程序，运行时还需要scala环境吗 17.Write a java program to implement Stack in java. 18.Linkedlist和ArrayList的区别 19.hadoop中combiner的作用 20.用mr设计一个分组排重计数算法 21.用MapReduce找出存在公共好友的两个人 22.hdfs存储机制 23.MapReduce原理 24.hadoop运行原理 25.hadoop 的namenode 宕机,怎么解决 26.Hbase 的特性,以及你怎么去设计rowkey 和columnFamily ,怎么去

大数据技术Hadoop面试题

大数据技术Hadoop面试题,看看你能答对多少？单项选择题 1. 下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的block 默认保存几份？ a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于SecondaryNameNode 哪项是正确的？ a)它是NameNode 的热备 b)它对内存没有要求 c)它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 d)SecondaryNameNode 应与NameNode 部署到一个节点多选题： 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper

9. 配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写 b)写入数据的时候会写到不同机架的DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过NameNode 传递给DataNode b)Client 端将文件切分为Block，依次上传 c)Client 只上传数据到一台DataNode，然后由NameNode 负责Block 复制工作 11. 下列哪个是Hadoop 运行的模式 a)单机版 b)伪分布式 c)分布式 12. Cloudera 提供哪几种安装CDH 的方法 a)Cloudera manager b)Tar ball c)Yum d)Rpm 判断题： 13. Ganglia 不仅可以进行监控，也可以进行告警。（） 14. Block Size 是不可以修改的。（） 15. Nagios 不可以监控Hadoop 集群，因为它不提供Hadoop 支持。（） 16. 如果NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。（） 17. Cloudera CDH 是需要付费使用的。（） 18. Hadoop 是Java 开发的，所以MapReduce 只支持Java 语言编写。（） 19. Hadoop 支持数据的随机读写。（） 20. NameNode 负责管理metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入metadata 信息并反馈client 端。（） 21. NameNode 本地磁盘保存了Block 的位置信息。（） 22. DataNode 通过长连接与NameNode 保持通信。（） 23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（） 24. Slave 节点要存储数据，所以它的磁盘越大越好。（） 25. hadoop dfsadmin –report 命令用于检测HDFS 损坏块。（） 26. Hadoop 默认调度器策略为FIFO（） 27. 集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（） 28. 因为HDFS 有多个副本，所以NameNode 是不存在单点问题的。（） 29. 每个map 槽就是一个线程。（） 30. Mapreduce 的input split 就是一个block。（） 31. NameNode 的Web UI 端口是50030，它通过jetty 启动的Web 服务。（） 32. Hadoop 环境变量中的HADOOP_HEAPSIZE 用于设置所有Hadoop 守护线程的内存。它默认是200 GB。（） 33. DataNode 首次加入cluster 的时候，如果log 中报告不兼容文件版本，那需要NameNode执行“Hadoop namenode -format”操作格式化磁盘。（）【编辑推荐】没有数据分析大数据什么也不是...... 大数据告诉你，真正的白富美的生活是怎样的呢？

大数据面试题

1、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为300M。 s 遍历文件b，采取和a相同的方式将url分别存储到1000个小文件（记为）。这样处理后，所有可能相同的url都在对应的小文件（）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。s 求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。2、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。方案1： s、顺序读取10个文件，按照hash(query)的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。s、找一台内存在2G左右的机器，依次对用hash_map(query, query_count)

性能测试人员面试经典技术问题

1.请问什么是性能测试、负载测试、压力测试？性能测试：对一个软件系统而言，包括执行效率、资源占用、系统稳定性、安全性兼容性、可扩展性等。负载测试：通过逐步加压的方式来确定系统的处理能力，确定系统能承受的各项阀值。压力测试：逐步增加负载，使系统某些资源达到饱和甚至失效的测试。 2.请分别针对性能测试、负载测试和压力测试试举一个简单的例子？性能测试例子：公司开发了一个小型项目管理系统，上线前需要做负载、压力、大数据量、强度测试等。负载测试：逐步加压，从而得到“响应时间不超过10秒”，“服务器平均CPU利用率低于85%”等指标阀值。 “服务器平均CPU利用率高于90%” 压力测试：逐步加压，从而使“响应时间超过10秒”，等指标来确定系统能承受的最大负载量。 3.请例举出常用的性能测试工具，并指出这些工具的优缺点？ LoadRunner，录制脚本快捷操作简便，需要一定的学习时间，有采购成本。 4.请问您是如何得到性能测试需求？怎样针对需求设计、分析是否达到需求？在查看需求文档，从中提取性能测试需求，与用户交流，了解实际使用情况。结合业务信息设计操作场景总结出需测试的性能关键指标。执行用例后根据提取关键性能指标来分析是否满足性能需求。 5.什么时候可以开始执行性能测试？在产品相对比较稳定，功能测试结束后。灵活性比较强。 6.什么是集合点？设置集合点有什么意义？LoadRunner中设置集合点的函数是哪个？集合点可以控制各个Vuser以便在同一时刻执行任务。借助集合点，可以再LoadRunner中实现真正意义上的并发。 lr_rendezvous()

7.性能测试时，是不是必须进行参数化？为什么要创建参数？LoadRunner中如何创建参数？ 8是。模拟用户真实的业务操作。创建参数列表，用参数替换固定的文本。 8.您了解关联吗？如何找出哪里需要关联？请给一些您所在项目的实例。了解。使用LoadRunner自动关联功能。手动关联：录制两份相同操作步骤的脚本，找出不同的部分进行判断。一个项目管理系统，每次登录后服务器都自动分配一个sessionID以便之后每次表单提交后验证。 9.您如何调试LoadRunner脚本？设置断点、增加log。 10.在LoadRunner中如何编写自定义函数？请给出一个您在以前项目中编写的函数。 11.请问您是如何理解LoadRunner中集合点、事务以及检查点等概念？集合点：可以控制各个Vuser以便在同一时刻执行任务，可实现真正意义上的并发。事务：事务是用来度量服务器响应时间的操作集。检查点：在回放脚本期间搜索特定内容，从而验证服务器响应内容的正确性。 12.如何应用LoadRunner进行性能测试？使用虚拟用户生成器创建脚本，使用控制器设定场景、运行脚本，使用分析器分析运行后得到的数据。 13.LoadRunner中思考时间有什么作用？用户执行两个连续操作期间等待的时间。模拟用户真实的使用情况。 14.LoadRunner中如何实现多用户并发操作，需要进行哪些设置？设置集合点来实现，在脚本中加入lr_rendezvous()，然后可以在控制器中设定集结百分

大数据工程师笔试题

链表排序 Java： class Node{ Int value; Node next; } C++: struct Node{ int nValue; Node* pNext; } 请实现如下函数对任意给定链表按照其中的value字段排序 Java: Node sortList(Node head); C++: Node* sortList(Node* pHead); 解答：编写归并排序迭代器 java： class MergeIterator implements Iterator{ Public MergeIterator(Iterator a,Iterator b){} Public boolean hasNext(){} Public Integer next(){} } 测试用例： Class MockIterator implements Iterator{ Int current,step,endValue; Public MockIterator(int step,int endValue){ this.step=step; This.endValue=endValue; This.current=endValue%step; } Public boolean hasNext(){return this.current < this.endValue;} Public Integer next(){return this.current += this.step;} } Iterator it=new MergeIterator(new MockIterator(2,10),new MockIterator(2,9)); //输出2 3 4 5 6 7 8 9 10 C++： Struct Iterator{ Virtual bool hasNext()=0; Virtual int next()=0;

大数据面试题剖析讲课稿

单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker

4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认 Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于 SecondaryNameNode 哪项是正确的? a)它是 NameNode 的热备 b)它对内存没有要求

c)它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 d)SecondaryNameNode 应与 NameNode 部署到一个节点多选题 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper 9. 配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写 b)写入数据的时候会写到不同机架的 DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过 NameNode 传递给 DataNode b)Client 端将文件切分为 Block，依次上传

性能测试人员面试经典技术问题

性能测试人员面试经典技术问题请分别针对性能测试、负载测试和压力测试试举一个简单的例子? 性能测试例子：公司开发了一个小型项目管理系统，上线前需要做负载、压力、大数据量、强度测试等。负载测试：逐步加压，从而得到“响应时间不超过10秒”，“服务器平均CPU利用率低于85%”等指标阀值。压力测试：逐步加压，从而使“响应时间超过10秒”，“服务器平均CPU利用率高于90%”等指标来确定系统能承受的最大负载量。 2.请问什么是性能测试、负载测试、压力测试? 性能测试：对一个软件系统而言，包括执行效率、资源占用、系统稳定性、安全性兼容性、可扩展性等。负载测试：通过逐步加压的方式来确定系统的处理能力，确定系统能承受的各项阀值。压力测试：逐步增加负载，使系统某些资源达到饱和甚至失效的测试。 3.请例举出常用的性能测试工具，并指出这些工具的优缺点? LoadRunner，录制脚本快捷操作简便，需要一定的学习时间，有采购成本。 4.请问您是如何得到性能测试需求?怎样针对需求设计、分析是否达到需求? 在查看需求文档，从中提取性能测试需求，与用户交流，了解实际使用情况。结合业务信息设计操作场景总结出需测试的性能关键指标。执行用例后根据提取关键性能指标来分析是否满足性能需求。 5.什么时候可以开始执行性能测试? 在产品相对比较稳定，功能测试结束后。灵活性比较强。 6.什么是集合点?设置集合点有什么意义?LoadRunner中设置集合点的函数是哪个? 集合点可以控制各个Vuser以便在同一时刻执行任务。借助集合点，可以再LoadRunner中实现真正意义上的并发。 lr_rendezvous() 7.性能测试时，是不是必须进行参数化?为什么要创建参数?LoadRunner中如何创建参数? 8是。模拟用户真实的业务操作。

大数据面试

大数据面试：面对众多的offer，该如何选择大数据的就业前景，相信就不用小编多赘述了吧，从千锋大数据培训班毕业的学生平均每个人都能拿到2到3个大数据岗位的offer，由此可见，各大企业对于大数据技术人才的渴求真的是求贤若渴！那面对众多企业向我们抛来的橄榄枝，我们该如何选择呢？首先先解决大家都比较困惑两点，一是薪资问题，二如何选择公司。一、薪资问题其实对于刚毕业几年的大学生来说，不要太看重薪资，除非薪资的差距是在数量级间的差距，如果只是几千块的差距这个不算差距，现在的工资并不代表你未来的工资，学会投资自己看未来，成长性好的员工未来的收益差距是在数量级，比如几年后，同学A的薪水比另外一个同学B的薪水高上百万都是非常正常的。其次要学会比较薪水。收到Offer时，首先要知道薪酬福利的组成，比如月薪，年终奖，期权，商业保险，补贴等。不要单纯的比较月薪，而是综合比较年薪和福利。A同学月薪比B低几千，但是A同学年薪和福利加在一起可能比B同学高好几倍。除了期权外，福利上主要关注以下几点：（1）公积金，等你买房或

退休的时候可以取出来，这个我认为可以算在薪水里；（2）补贴，不同的公司补贴不一样，大致有住房补贴，异地补贴，汽油补贴，餐补等。另外补贴有个期限，是一年还是几年，这个也要问清楚。（3）商业保险，过节费等。二、如何选择公司我自己也经历过几个不同类型的公司，小型私企，大型私企，大型国企，互联网企业。从我的经历来看，如果你想学技术可以选择互联网公司，外企和创业公司，如果你想做管理，可以选择创业公司和中大型私企。我总结了一下各种类型公司的状态，仅供参考：三、其他问题 1、某某公司的招聘我是否应该参加？如果有时间尽量参加，好处很多，第一拿到offer越多选择就多，也有和想去的公司谈offer的资本。其次是参加了一些面试也能意识到自己的不足，比如先去意愿不强的企业面试，发现自己的不足后回来复习，再继续面试。 2、选择大公司还是小公司？