当前位置：文档之家› 大数据常见面试题

大数据常见面试题

经历了水深火热的大数据学习，终于拨开云雾见天明了，但你离成功总是还差了一步，那就是拿到大数据工程师的Offer。

在电脑旁奋斗了无数个日夜，代码敲了无数遍，项目整改了无数遍，只为了得到一份自己满意的高薪资高待遇的Offer。但这个收获不仅仅需要你学到娴熟的大数据技术，还需要在面试之前精心准备，了解自己要应聘的企业发展状况、自己应聘岗位的技术要求等等，除此之外，多看一些大数据面试题也是很有必要的，给自己涨涨经验。

千锋小编虽然不能帮你调查你理想企业的发展状况，但大数据常见面试题早已经为你准备好了，需要的尽快收入囊中吧！

1.scala 语言有什么特点，什么是函数式编程？有什么优点

2.scala 伴生对象有什么作用

3.scala 并发编程是怎么弄得，你对actor 模型怎么理解有何优点

4.Spark如何处理结构化数据，Spark如何处理非结构话数据？

5.Spark性能优化主要有哪些手段？

6.对于Spark你觉得他对于现有大数据的现状的优势和劣势在哪里？

7.对于算法是否进行过自主的研究设计？

8.简要描述你了解的一些数据挖掘算法与内容

9.怎么用spark做数据清洗

10.跟我聊聊spark的应用，商场里广告投放，以及黄牛检测

11.spark读取数据，是几个Partition呢？hdfs几个block 就有几个Partition？

12.Mogodb和hbase的区别

13.开发中遇到的问题

14.HIVE的优化

15.linux的启动顺序

16.编译好的scala程序，运行时还需要scala环境吗

17.Write a java program to implement Stack in java.

18.Linkedlist和ArrayList的区别

19.hadoop中combiner的作用

20.用mr设计一个分组排重计数算法

21.用MapReduce找出存在公共好友的两个人

22.hdfs存储机制

23.MapReduce原理

24.hadoop运行原理

25.hadoop 的namenode 宕机,怎么解决

26.Hbase 的特性,以及你怎么去设计rowkey 和columnFamily ,怎么去

建一个table

27.Redis,传统数据库,hbase,hive 每个之间的区别(问的非常细)

28.说下对hadoop 的一些理解,包括哪些组件

29.详细讲解下你流式实时计算的项目部署以及收集的结果情况

30.实时流式计算框架,几个人,多长时间,细节问题,包括讲flume ,kafka ,storm 的各个的组件组成,你负责那一块,如果需要你搭建你可以完成么?

需要更多大数据学习或者面试资料的同学，来千锋教育免费领取了！

性能测试模拟笔试题目(一)new

软件性能测试模拟笔试题目（一）注：本试卷中题目所涉及性能测试工具如无特殊说明则均为LoadRunner。一、简答题（2*10=20分） 1.客户交付一个性能测试项目，请阐述你的实施流程。 2.解释5个常用的性能指标的名称与具体含义。 3.写出5个Loadrunner中常用函数，并对其中2个举例说明用法。 4.简述LoadRunner的工作原理？ 5.什么是集合点？设置集合点有什么意义？LoadRunner中设置集合点的函数是哪个？ 6.HTML-based script与URL-based script的脚本有什么区别？ 7.如何设置LaodRunner才能让集合点只对一半的用户生效？ 8.LoadRunner的Controller组件中Pacing参数的作用是什么？ 9.LoadRunner中如何监控Windows资源？ 10.如果让QALoad模拟LoadRunner中只对关注的性能点进行迭代测试，你有什么好方法？二、选择题（2*5=10分） 1.During the run of a scenario, which LoadRunner component stores the performance monitoring data? A. Analysis B. Controller C. File server D. Load generator/host 2.Where are the results stored during the run of a scenario? A. Analysis B. Controller C. Utility server D. Load generator 3. A script was recorded with an average think time for an advanced user. An advanced user pauses 5 seconds between clicks. A first-time user pauses an average of 10 seconds between clicks. How can you modify the think time run-time settings to emulate a first-time user? A. Set the think time to s recorded B. Set the think time to multiply the recorded think time by 4 C. Set the think time to a random percentage between 150% - 250% D. Set the think time to replay as recorded, but limit the think time to 10 seconds 4.Which HTTP error code indicates that an individual business process is failing under load or the web application itself has crashed? A.200 B. 403 C. 401 D. 500 5.What is an intersection point in a business process? A. Scenario B. Rendezvous C. Transaction D. Service level agreement 三、LoadRunner工具使用题：（10*2=20分） 1.web系统中，username参数表为file类型，表中有12个值，分别A、B、C、D、E、F、G、 H、I、J、K、L。测试场景中虚拟并发用户数设为4，迭代次数设为3，参数中Select next row 与Update value on分别为(Sequential, Each Iteration)与(Unique, Once)时，写出迭代3次的取值情况。

最全大数据程序员面试题库

最全大数据程序员面试题库大数据开发面试题库，千锋讲师总结了很多，经过总结学生在面试中遇到的问题，还有讲师多年的经验精心编制。就是要宠千锋学生到底，不仅教授你专业的大数据技术，更要让你从容的面对面试官，在众多的竞争者中脱颖而出。好了，废话不多说，直接上题库。。。。。。 1.scala 语言有什么特点，什么是函数式编程？有什么优点 2.scala 伴生对象有什么作用 3.scala 并发编程是怎么弄得，你对actor 模型怎么理解有何优点 4.scala case class 有什么重要 5.scala akka 框架有没有接触过，有什么重要 6.scala 为什么设计var 和val 7.SDD,DAG,Stage怎么理解？ 8.宽依赖窄依赖怎么理解？ 9.Stage是基于什么原理分割task的？ 10.血统的概念

11.任务的概念 12.容错方法 13.粗粒度和细粒度 14.Spark优越性 15.Spark为什么快 16.Transformation和action是什么？区别？举几个常用方法 17.SDD怎么理解 18.spark 作业提交流程是怎么样的，client和cluster 有什么区别，各有什么作用 19.spark on yarn 作业执行流程，yarn-client 和yarn cluster 有什么区别 20.spark streamning 工作流程是怎么样的，和storm 比有什么区别 21.spark sql 你使用过没有，在哪个项目里面使用的 22.spark 机器学习和spark 图计算接触过没，，能举例说明你用它做过什么吗？ 23.spark sdd 是怎么容错的，基本原理是什么？大数据时代，中国IT环境也将面临重新洗牌，不仅仅是企业，更是程序员们转型可遇而不可求的机遇。随着互联网时代的迅猛发展，大数据全面融入了现代社会的生产、生活中，并将大大改变全球的经济。大数据，它其实不仅仅是一种技术，更是战略资源。千锋不仅仅注重学生的专业技能培训，还注重学生的素质培养，开班第一天起，每节课的课前十分钟分享，锻炼学员的沟通表达能力，在工作中减少沟通成

数据库面试题及答案

数据库面试题 1 1. 在一个查询中，使用哪一个关键字能够除去重复列值？答案：使用distinct关键字 2. 什么是快照？它的作用是什么？答案：快照Snapshot是一个文件系统在特定时间里的镜像，对于在线实时数据备份非常有用。快照对于拥有不能停止的应用或具有常打开文件的文件系统的备份非常重要。对于只能提供一个非常短的备份时间而言，快照能保证系统的完整性。 3. 解释存储过程和触发器答案：存储过程是一组Transact-SQL语句，在一次编译后可以执行多次。因为不必重新编译Transact-SQL语句，所以执行存储过程可以提高性能。触发器是一种特殊类型的存储过程，不由用户直接调用。创建触发器时会对其进行定义，以便在对特定表或列作特定类型的数据修改时执行。 4. SQL Server是否支持行级锁，有什么好处？答案：支持动态行级锁定 SQL Server 2000动态地将查询所引用的每一个表的锁定粒度调整到合适的级别。当查询所引用的少数几行分散在一个大型表中时，优化数据并行访问的最佳办法是使用粒度锁，如行锁。但是，如果查询引用的是一个表中的大多数行或所有行，优化数据并行访问的最佳办法可以是锁定整个表，以尽量减少锁定开销并尽快完成查询。 SQL Serve 2000通过为每个查询中的每个表选择适当的锁定级别，在总体上优化了数据并发访问。对于一个查询，如果只引用一个大型表中的几行，则数据库引擎可以使用行级锁定；如果引用一个大型表的几页中的多行，则使用页级锁定；如果引用一个小型表中的所有行，则使用表级锁定。 5. 数据库日志干什么用，数据库日志满的时候再查询数据库时会出现什么情况。答案：每个数据库都有事务日志，用以记录所有事务和每个事务对数据库所做的修改。 6. 存储过程和函数的区别？答案：存储过程是用户定义的一系列SQL语句的集合，涉及特定表或其它对象的任务，用户可以调用存储过程，而函数通常是数据库已定义的方法，它接收参数并返回某种类型的值并且不涉及特定用户表 7. 事务是什么？答案：事务是作为一个逻辑单元执行的一系列操作，一个逻辑工作单元必须有四个属性，称为 ACID（原子性、一致性、隔离性和持久性）属性，只有这样才能成为一个事务： (1) 原子性事务必须是原子工作单元；对于其数据修改，要么全都执行，要么全都不执行。

软件性能测试岗位常见面试题

软件性能测试岗位常见面试题一、基础篇 1、较为完整的性能测试的流程一个完整的性能测试流程 2、性能测试的基础理论、常见术语性能测试常见术语浅析 3、性能测试模型、类型常见的性能测试类型、性能测试模型 4、HTTP、TCP协议相关知识 HTTP协议入门系列 5、连接池、线程相关知识连接池和线程二、工具篇

①、Jmeter的工作原理是什么？ ②、常用的元件、插件有哪些？各自的作用是什么？ ③、几个典型的场景，如何基于jmeter设计测试脚本？比如：参数化、关联、控制TPS、接口加密验签、阶梯式加压、集合点、检查点等； ④、是否会二次开发？如果会，怎么二次开发的（介绍大概过程和原因）？ 2、Loadrunner 3、其他开源/商业性能测试工具比如：Ngrinder、Locust、Wrk、Artillery等； 4、前端、服务器、数据库性能监测工具三、系统架构篇 1、服务集群 2、负载均衡负载均衡原理、实现方式 3、容量规划 4、缓存应用缓存原理、缓存优点、缓存命中、缓存穿透、多层缓存 4、分布式框架分布式的特点、面临的挑战：CAP理论（数据一致性、服务可用性、分区容错性） 5、全链路压测四、服务器&中间件篇 1、JVM JVM原理、启动参数配置、堆栈原理、垃圾回收原理、OOM原因和表现 2、Tomcat 配置、使用方法、启动参数配置

配置、使用方法 4、Dubbo 服务注册、消息队列 5、RabbitMQ/Kafka 本身的特点、生产者、消费者如何管理五、数据库篇 1、锁 2、索引 3、读写分离 4、分库分表六、方案篇 1、设计性能测试方案需要考虑哪些问题？时间成本、人力成本、环境&脚本可复用性、实现难度 2、针对某些情况，你会如何设计、优化方案？七、案例篇 1、如何测试MQ？ 2、压测中TPS上不去的原因分析？ 3、测试环境和生产环境服务器配比如何选择？服务器配置版本保持一致，容量测试后等量代换、考虑边际递减效应、容灾方案4、发现瓶颈，如何分析？自上而下，从局部到整体，瓶颈分析粒度

应届生进入大数据领域面试题大全

应届生进入大数据领域面试题大全如今参加大数据培训学习大数据开发技术的小伙伴越来越多，因为现在就是大数据时代，所以想要加入到大数据领域的人越来越多，对于刚入门大数据领域的小伙伴来说，如果敲响企业的大门就很重要了，本篇文章小编给大家分享一下应届生进入大数据领域有哪些大数据面试题，对小伙伴感兴趣的小伙伴可以来了解一下哦。 1、频繁项集、频繁闭项集、最大频繁项集之间的关系是：(C) A、频繁项集频繁闭项集=最大频繁项集 B、频繁项集= 频繁闭项集最大频繁项集 C、频繁项集频繁闭项集最大频繁项集 D、频繁项集= 频繁闭项集= 最大频繁项集 2、考虑下面的频繁3-项集的集合：{1，2，3}，{1，2，4}，{1，2，5}，{1，3，4}，{1，3，5}，{2，3，4}，{2，3，5}，{3，4，5}假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含(C) A、1，2，3，4 B、1，2，3，5 C、1，2，4，5 D、1，3，4，5 3、在图集合中发现一组公共子结构，这样的任务称为( B ) A、频繁子集挖掘 B、频繁子图挖掘 C、频繁数据项挖掘

D、频繁模式挖掘 4、下面选项中t不是s的子序列的是( C ) A、s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}> B、s=<{2,4},{3,5,6},{8}> t=<{2},{8}> C、s=<{1,2},{3,4}> t=<{1},{2}> D、s=<{2,4},{2,4}> t=<{2},{4}> 5、下列__(A)__不是将主观信息加入到模式发现任务中的方法。 A、与同一时期其他数据对比 B、可视化 C、基于模板的方法 D、主观兴趣度量 6、下列度量不具有反演性的是(D) A、系数 B、几率 C、Cohen度量 D、兴趣因子 7、以下哪些算法是分类算法，(B) A，DBSCAN

大数据面试题试卷

大数据面试题及答案汇总版

第1部分选择题 1.1 Hadoop选择题 1.1.1 HDFS 1．下面哪个程序负责 HDFS 数据存储？A．NameNode B．Jobtracker C．Datanode D．secondaryNameNode E．tasktracker 2. HDFS 中的 block 默认保存几份？ A．3份 B．2份 C．1份 D．4份 3. 下列哪个程序通常与NameNode 在一个节点启动？ A. SecondaryNameNode B．DataNode C．TaskTracker D. Jobtracker 4. HDFS 默认 Block Size（新版本）

A. 32MB B．64MB C．128MB D．256MB 5. Client 端上传文件的时候下列哪项正确 A. 数据经过 NameNode 传递给 DataNode B．Client端将文件切分为Block，依次上传 C．Client 只上传数据到一台DataNode，然后由 NameNode 负责Block 复制工作 6. 下面与 HDFS 类似的框架是？ A．NTFS B．FAT32 C．GFS D．EXT3 7. 的 8. 的 1.1.2 集群管理 1. 下列哪项通常是集群的最主要瓶颈 A. CPU B．网络 C．磁盘IO

D．存 2. 关于SecondaryNameNode 哪项是正确的？ A．它是 NameNode 的热备 B．它对存没有要求 C．它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间 D．SecondaryNameNode 应与 NameNode 部署到一个节点 3. 下列哪项不可以作为集群的管理？ A. Puppet B．Pdsh C．ClouderaManager D．Zookeeper 4. 配置机架感知的下面哪项正确 A. 如果一个机架出问题，不会影响数据读写 B．写入数据的时候会写到不同机架的 DataNode 中 C．MapReduce 会根据机架获取离自己比较近的网络数据 5. 下列哪个是 Hadoop 运行的模式 A. 单机版B．伪分布式C．分布式 6. Cloudera 提供哪几种安装 CDH 的方法 A. Cloudera manager B．Tarball C．Yum D．Rpm 7. 1.2 Hbase选择题 1.2.1 Hbase基础

sql数据库基础面试题复习试题考试题_全

不定项选择题（针对以下题目，请选择最符合题目要求的答案，每道题有一项或二项正确答案。针对每一道题目，所有答案都选对，则该题得分，所选答案错误或不能选出所有答案，则该题不得分。题量为50道，每题2分，总分为100分。）第一章 1、是SQLServer数据库的主数据文件的扩展名。（选择一项） A、.sql B、.mdb C、.ldf D、.mdf 2、在SQL Server 2005中，有系统数据库和用户数据库，下列不属于系统数据库的是（）。（选择一项） A、master B、pubs C、model D、msdb 3、当安装完SQL Server2005数据库时,系统默认当前的超级管理员是( ) （选择一项） A、sa B、master C、administrator D、super 4、在使用SQL Server2005数据库时，有时需要将本机的数据库移动到其他机器上，恢复成对应的数据库使用。移动数据库分两步进行，应包括（）和附加数据库（选择一项）A、分离数据库 B、删除数据库 C、新建数据库 D、合并数据库 5、在SQL Server2005中，附加数据库操作是指（）（选择一项） A、把SQL Server 数据库文件保存为其他数据文件 B、根据数据库物理文件中的信息，把数据库在SQL Server 2005中恢复 C、把所有该数据库表的数据清空 D、把数据库删除掉 6、某单位由不同的部门组成，不同的部门每天都会生产一些报告、报表等数据，以为都采用纸张的形式来进行数据的保存和分类，随着业务的发展，这些数据越来越多，管理这些报告越来越费力，此时应考虑（）（选择一项） A、由多个人来完成这些工作 B、在不同的部门中，由专门的人员去管理这些数据 C、采用数据库系统来管理这些数据 D、把这些数据统一成一样的格式 7、在SQL Server 2005中，对于数据库的定义正确的是（）（选择一项） A、数据库是用来描述事物的符号记录 B、数据库是位于用户与操作系统之间的一层数据管理软件

大数据工程师面试题

大数据工程师面试题大数据工程师面试，对于很多人来说应该都不陌生了吧，虽说大数据就业前景很好，但想要成功进入名企，并不是一件容易的事情，不仅仅需要专业的技能，还需要你在面试的时候认真准备一下。面试的时候，我们会遇到各种各样的问题，千锋讲师今天就先讲解一下面试经常会遇到的问题，Hadoop是如何工作的？ Hadoop是一个分布式文件系统（Hadoop Distributed File System），简称HDFS。Hadoop是一个能够对大量数据进行分布式处理的软件框架，以一种可靠、高效、可伸缩的方式进行数据处理。所以说Hadoop解决了大数据如何存储的问题，因而在大数据培训机构中是必须学习的课程，也是面试中面试官非常注重的一个技术点。 Hadoop是如何工作的？ Hadoop是从Google文件系统发源而来，并且他是一个用Java开发的跨平台的应用。核心组件有: Hadoop Common，拥有其他模块所依赖的库和基础

工具，Hadoop分布式文件系统(HDFS)，负责存储，Hadoop YARN，管理计算资源，和Hadoop MapReduce，负责处理的过程。 Hadoop把文件拆成小块并且把他们分发给集群中的节点。然后，它使用打包的代码分发到节点上并行处理数据。这意味着可以处理数据的速度会比使用传统的体系结构的更快。一个典型的Hadoop集群都会有主节点和从节点或者叫工作节点。主节点有一个任务跟踪器，任务调度，名字节点和数据节点组成。从节点通常作为一个数据节点和任务调度器，不过特殊的场景下程序可能只有数据节点然后在其他的从节点进行处理计算。在大的Hadoop集群中，通常会使用一个专用的名字节点来管理HDFS节点的文件系统索引信息，这防止了文件系统的数据丢失和损坏。千锋教育拥有一支的强师队伍，在教学研究方面，我们老师不断的推陈出新，探索更新的教学方式，结合时代所需不断更新课程大纲，加强学生对于知识的理解和运用。千锋讲师对于大数据行业时刻保持一定的敏感性和前瞻性，定期与各大企业的技术官交流分析，掌握大数据的发展动向，不仅仅可以帮助同学们更好的学习大数据技术，还会预测一些大数据工程师面试题，为同学们的就业之路披荆斩棘。关键词：大数据工程师面试题

数据库笔试题 - 答案

XXXX感谢您对本套试题的回答，首先请您填写上您的姓名(____________),本套试题将作为XXXX入职的参考，多谢您的重视。本套试题分三部分：填空题（10分）、选择题（20分），SQL 基础题（30）、简答题（20）、综合题（30）。时间60分钟，满分110分。一、填空题(每题2分，共10分) 1. 索引字段值不唯一，应该使用的索引类型为( 普通索引 ) 2. 只有满足联接条件的记录才包含在查询结果中，这种联接为( 内联接) 3. E-R模型的组成包括那些元素( 实体 )( 属性)( 关系) 4. 事务所具有的特性有( 原子性)( 一致性)( 隔离性)( 持久性) 5、结构化程序设计的三种基本逻辑结构是（顺序结构)，（选择结构），（循环结构）。二、选择提(每题1分，共20分) 1、在删除整表数据，同时保留表结构时，采用（ C ）的效率比（ A ）要高； A. delete B. drop table C. truncate Table 2、数据库管理系统中，能实现对数据库中的数据进行插入/修改/删除的功能称为（C）; A.数据定义功能 B.数据管理功能 C.数据操作功能 D.数据控制功能 3、2 4、在关系模型中，实现"关系中不允许出现相同的元组"的约束是通过(B)。 A：候选键B：主键C：外键D：超键 4、数据库管理系统DBMS S是（ D）; A.信息管理的应用软件 B.数据库系统+应用程序 C.管理中的数据库 D.管理数据的软件 5、关系数据库中，实现表与表之间的联系是通过（B）。 A、实体完整性规 B、参照完整性规则 C、用户自定义的完整性 D、值域 6、设有部门和职员两个实体，每个职员只能属于一个部门，一个部门可以有多名职员，则部门与职员实体之间的联系类型(B)。 A、m：n B、1：m C、m：1 D、1：1 7、设有课程和学生两个实体，每个学生可以选修多个课程，一个课程可以有多名学生选修，则课程与学生实体之间的联系类型( A )。 A、m：n B、1：m C、m：1 D、1：1 8、如果一个班只能有一个班长，而且一个班长不能同时担任其它班的班长，班级和班长两个实体之间的关系属于（D）。 A、m：n B、1：m C、m：1 D、1：1 9、索引字段值不唯一，应该选择的索引类型为( B )。 A：主索引 B：普通索引C：候选索引D：唯一索引 10、如果指定参照完整性的删除规则为"级联"，则当删除父表中的记录时( C )。 A：系统自动备份父表中被删除记录到一个新表中 B：若子表中有相关记录，则禁止删除父表中记录 C：会自动删除子表中所有相关记录

性能测试面试题附答案范文

1、哪个函数是用来截取虚拟用户脚本中的动态值？（手工关联） Web_reg_save_param 2、你如何识别系统瓶颈？从TPS指标分析（即系统每秒处理可处理事务数）当前随着用户数的增长其系统每秒可处理的事务数是否也会增长 3、think_time有什么用？ Think_time作用主要有以下几种： 1）降低当前运行时压力，缓解对应用服务器所造成的压力 2）模拟真实生产用户操作，考察对服务器所造成的影响 4、一般什么时候开始进行性能测试被测系统的正常业务流程通过，即集成测试通过后。 5、进行参数化的目的 1）减少脚本的大小 2）提供不同的值以提高执行脚本的能力，从而更加真实的模拟生产环境的数据 6、容量测试方法中为什么要以逐步递增的的方式进行虚拟用户数随着负载时间的延长而增加，可以帮助确定系统响应时间减慢的准确时间点以及准确用户数 7、假设在测试过程中发现某些事务的响应时间过长，但分析应用服务、数据库服务以及网络都属于正常现象，问题可能出现的原因 1）LR客户端机器是否已无法承载当前运行压力导致LR无法及时获取从服务端返回的信息2）Think_time（即思考时间）是否已忽略 3）确定当前被测系统架构，是否为在每次测试过程中清除缓存所导致 8、如何发现应用服务的相关问题？ 1）通过某些事务的运行，判断是否在应用代码层未进行调优导致事务响应事件过长 2）通过实时监控工具（nmon等）监控分析： a)系统在运行过程其CPU是否稳定运行或CPU耗用是否过高 b)在系统运行过程中其内存是否存在内存泄露现象 3）打开应用相应日志，分析在运行过程中是否存在交易报错并获取错误原因查看是否由于代码原因导致交易错误发生 9、如何发现数据库的相关问题？ 1）通过运行某些相应的已获取的SQL语句，判断是否由于数据库索引所导致的事务响应过长的问题发生 2）通过实时监控工具(nmon等)监控分析: a)在系统运行过程中CPU是否可稳定运行或CPU耗用过高； b)在系统运行过程中其内存是否存在内存泄露等现象。

大数据hadoop面试题-企业项目实战

大数据hadoop面试题-企业项目实战大数据技术逐渐被企业所重视，其带来的益处其实是可以被无限放大的，要知道，现在的市场都是，得数据者得天下！而数据的获得还是要靠大数据技术的，Hadoop作为大数据技术的一个重要技术点，在面试大数据工程师的时候是肯定要被问及的，千锋小编整理一些关于大数据Hadoop的面试题，预祝每一位大数据工程师都能找到自己理想的工作。 1、在Hadoop中定义的主要公用InputFormat中，默认是哪一个？（A） A、TextInputFormat B、KeyValueInputFormat C、SequenceFileInputFormat 2、下面哪个程序负责HDFS 数据存储？（C） https://www.doczj.com/doc/2d13742532.html,Node B.JobTracker C.DataNode

D.SecondaryNameNode E.tasktracker 3、HDFS 中的block 默认保存几份？（A） A.3 份 B.2 份 C.1 份 D.不确定 4、下列哪个程序通常与NameNode 在一个节点启动？（D） A.SecondaryNameNode B.DataNode C.TaskTracker D.JobTracker 解析：hadoop的集群是基于master/slave模式，namenode和jobtracker 属于master，datanode和tasktracker属于slave，master只有一个，而slave 有多个. SecondaryNameNode内存需求和NameNode在一个数量级上，所以通常secondary NameNode（运行在单独的物理机器上）和NameNode 运行在不同的机器上。 JobTracker对应于NameNode,TaskTracker对应于DataNode. DataNode和NameNode是针对数据存放来而言的.JobTracker和TaskTracker是对于MapReduce执行而言的. mapreduce中几个主要概念，mapreduce 整体上可以分为这么几条执行

数据库面试题答案

数据库 SQL面试题 1）谈一下数据库的索引的原理，如何发挥作用的？针对插入操作索引会起正面作用么？索引类似于书的目录，主要用于提高查询效率，也就是按条件查询的时候，先查询索引，再通过索引找到相关的数据，索引相当于记录了对某个关键词，指定到不同的文件，或者文件里的不同位置的结构索引会降低数据更新的效率，当插入、修改、删除时会引起索引结构的更新 2) 数据库表里如果数据行数很多，做分页查询，SQL如何书写？ 3) 说说group by, having是做什么的，举一个group by的例子 4) 说说外连接和连接的区别 5) 事务是什么概念，举例说明 6) 一个表：emp(，性别，年龄，工作类型，领导，工资，部门) a) 列出每个部门的最高工资和最低工资 Select max(工资),min(工资) from emp group by部门 b) 列出各部门’工作类型’为’普通职员’的最低和最高工资 Select max(工资),min(工资) from emp group by部门 Where工作类型=’普通职员’ c) 列出高于本部门平均工资的员工，工资，部门 select ，工资，部门 from emp e1 where工资>( select avg(工资) from emp e2 where e2. 部门=e1.部门 ) 存储过程和函数的区别是什么？答：存储过程是用户定义的一系列SQL语句的集合，涉及特定表或其他对象的任务，用户可以调用存储过程。而函数通常是数据库已定义的方法，它接受参数并返回某种类型的值，并且不涉及特定用户表。 4.事务是什么？答：事务是作为一个逻辑单元执行的一系列操作。一个逻辑工作单元必须有4个属性，称为ACID(原子性、一致性、隔离性和持久性)属性，只有这样才能称为一个事务。 5.游标的作用是什么？如何知道游标已经到了最后？答：游标用于定位结果集的行。通过判断全局变量FETCH_STATUS可以判断其是否到了最后。通常此变量不等于0表示出错或到了最后。

软件测试工程师经典面试题目

软件测试工程师面试题汇总测试技术面试题 (5) 1、什么是兼容性测试？兼容性测试侧重哪些方面？ (5) 2、我现在有个程序，发现在Windows上运行得很慢，怎么判别是程序存在问题还是软硬件系统存在问题？ (5) 3、测试的策略有哪些？ (5) 4、正交表测试用例设计方法的特点是什么？ (5) 5、描述使用bugzilla缺陷管理工具对软件缺陷（BUG）跟踪的管理的流程？ (5) 6、你觉得bugzilla在使用的过程中，有什么问题？ (5) 7、描述测试用例设计的完整过程？ (6) 8、单元测试的策略有哪些？ (6) 9、LoadRunner分哪三部分？ (6) 10、LoadRunner进行测试的流程? (6) 什么是并发？在lordrunner中，如何进行并发的测试？集合点失败了会怎么样？ (6) 12、使用QTP做功能测试，录制脚本的时候，要验证多个用户的登录情况/查询情况，如何操作？ (6) 13、QTP中的Action有什么作用？有几种？ (6) 14、TestDirector有些什么功能，如何对软件测试过程进行管理？ (7) 15、你所熟悉的软件测试类型都有哪些？请试着分别比较这些不同的测试类型的区别与联系（如功能测试、性能测试......）？ .. (7) 16、条软件缺陷（或者叫Bug）记录都包含了哪些内容？如何提交高质量的软件缺陷（Bug）记录？ (8) 17、Beta测试与Alpha测试有什么区别？ (8) 18、软件的评审一般由哪些人参加？其目的是什么？ (8) 19、测试活动中，如果发现需求文档不完善或者不准确，怎么处理？ (8) 20、阶段评审与项目评审有什么区别？ (8) 21、阐述工作版本的定义？ (8) 22、什么是桩模块？什么是驱动模块？ (8) 23、什么是扇入？什么是扇出？ (8) 24、你认为做好测试计划工作的关键是什么？ (8) 25、你认为做好测试用例工作的关键是什么？ (9) 26、简述一下缺陷的生命周期？ (9) 27、软件的安全性应从哪几个方面去测试？ (9) 28、软件配置管理工作开展的情况和认识？ (9) 29、你觉得软件测试通过的标准应该是什么样的？ (10) 30、引入测试管理的含义？ (10) 31、一套完整的测试应该由哪些阶段组成？ (10) 32、单元测试的主要内容？ (10) 33、集成测试也叫组装测试或者联合测试，请简述集成测试的主要内容？ (10) 34、简述集成测试与系统测试关系？ (10) 35、软件测试的文档测试应当贯穿于软件生命周期的全过程，其中用户文档是文档测试的重点。那么软件系统的用户文档包括哪些？ (10) 36、软件系统中除用户文档之外，文档测试还应该关注哪些文档？ (10) 37、简述软件系统中用户文档的测试要点？ (11) 38、单元测试主要内容是什么？ (11) 39、如何理解强度测试？ (13) 40、如何理解压力、负载、性能测试测试？ (13) 41、什么是系统瓶颈？ (13) 42、文档测试主要包含什么内容？ (13)

大数据技术Hadoop面试题

大数据技术Hadoop面试题,看看你能答对多少？单项选择题 1. 下面哪个程序负责HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的block 默认保存几份？ a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与NameNode 在一个节点启动？ a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于SecondaryNameNode 哪项是正确的？ a)它是NameNode 的热备 b)它对内存没有要求 c)它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 d)SecondaryNameNode 应与NameNode 部署到一个节点多选题： 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper

9. 配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写 b)写入数据的时候会写到不同机架的DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过NameNode 传递给DataNode b)Client 端将文件切分为Block，依次上传 c)Client 只上传数据到一台DataNode，然后由NameNode 负责Block 复制工作 11. 下列哪个是Hadoop 运行的模式 a)单机版 b)伪分布式 c)分布式 12. Cloudera 提供哪几种安装CDH 的方法 a)Cloudera manager b)Tar ball c)Yum d)Rpm 判断题： 13. Ganglia 不仅可以进行监控，也可以进行告警。（） 14. Block Size 是不可以修改的。（） 15. Nagios 不可以监控Hadoop 集群，因为它不提供Hadoop 支持。（） 16. 如果NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。（） 17. Cloudera CDH 是需要付费使用的。（） 18. Hadoop 是Java 开发的，所以MapReduce 只支持Java 语言编写。（） 19. Hadoop 支持数据的随机读写。（） 20. NameNode 负责管理metadata，client 端每次读写请求，它都会从磁盘中读取或则会写入metadata 信息并反馈client 端。（） 21. NameNode 本地磁盘保存了Block 的位置信息。（） 22. DataNode 通过长连接与NameNode 保持通信。（） 23. Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（） 24. Slave 节点要存储数据，所以它的磁盘越大越好。（） 25. hadoop dfsadmin –report 命令用于检测HDFS 损坏块。（） 26. Hadoop 默认调度器策略为FIFO（） 27. 集群内每个节点都应该配RAID，这样避免单磁盘损坏，影响整个节点运行。（） 28. 因为HDFS 有多个副本，所以NameNode 是不存在单点问题的。（） 29. 每个map 槽就是一个线程。（） 30. Mapreduce 的input split 就是一个block。（） 31. NameNode 的Web UI 端口是50030，它通过jetty 启动的Web 服务。（） 32. Hadoop 环境变量中的HADOOP_HEAPSIZE 用于设置所有Hadoop 守护线程的内存。它默认是200 GB。（） 33. DataNode 首次加入cluster 的时候，如果log 中报告不兼容文件版本，那需要NameNode执行“Hadoop namenode -format”操作格式化磁盘。（）【编辑推荐】没有数据分析大数据什么也不是...... 大数据告诉你，真正的白富美的生活是怎样的呢？

大数据面试题

1、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为300M。 s 遍历文件b，采取和a相同的方式将url分别存储到1000个小文件（记为）。这样处理后，所有可能相同的url都在对应的小文件（）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。s 求每对小文件中相同的url时，可以把其中一个小文件的url存储到hash_set中。然后遍历另一个小文件的每个url，看其是否在刚才构建的hash_set中，如果是，那么就是共同的url，存到文件里面就可以了。方案2：如果允许有一定的错误率，可以使用Bloom filter，4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloom filter映射为这340亿bit，然后挨个读取另外一个文件的url，检查是否与Bloom filter，如果是，那么该url应该是共同的url（注意会有一定的错误率）。2、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。方案1： s、顺序读取10个文件，按照hash(query)的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。s、找一台内存在2G左右的机器，依次对用hash_map(query, query_count)

数据库笔试题及标准答案,常见数据库面试题

数据库笔试卷及答案第一套一.选择题 1. 下面叙述正确的是______。 A、算法的执行效率与数据的存储结构无关 B、算法的空间复杂度是指算法程序中指令(或语句)的条数 C、算法的有穷性是指算法必须能在执行有限个步骤之后终止 D、以上三种描述都不对 2. 以下数据结构中不属于线性数据结构的是______。A、队列B、线性表C、二叉树D、栈 3. 在一棵二叉树上第5层的结点数最多是______。A、8 B、16 C、32 D、15 4. 下面描述中，符合结构化程序设计风格的是______。 A、使用顺序、选择和重复(循环)三种基本控制结构表示程序的控制逻辑 B、模块只有一个入口，可以有多个出口 C、注重提高程序的执行效率 D、不使用goto语句 5. 下面概念中，不属于面向对象方法的是______。 A、对象 B、继承 C、类 D、过程调用 6. 在结构化方法中，用数据流程图(DFD)作为描述工具的软件开发阶段是______。 A、可行性分析 B、需求分析 C、详细设计 D、程序编码 7. 在软件开发中，下面任务不属于设计阶段的是______。 A、数据结构设计 B、给出系统模块结构 C、定义模块算法 D、定义需求并建立系统模型 8. 数据库系统的核心是______。 A、数据模型 B、数据库管理系统 C、软件工具 D、数据库 9. 下列叙述中正确的是______。 A、数据库是一个独立的系统，不需要操作系统的支持 B、数据库设计是指设计数据库管理系统 C、数据库技术的根本目标是要解决数据共享的问题 D、数据库系统中，数据的物理结构必须与逻辑结构一致 10. 下列模式中，能够给出数据库物理存储结构与物理存取方法的是______。 A、内模式 B、外模式 C、概念模式 D、逻辑模式 11. Visual FoxPro数据库文件是______。 A、存放用户数据的文件 B、管理数据库对象的系统文件 C、存放用户数据和系统的文件 D、前三种说法都对 12. SQL语句中修改表结构的命令是______。 A、MODIFY TABLE B、MODIFY STRUCTURE C、ALTER TABLE D、ALTER STRUCTURE 13. 如果要创建一个数据组分组报表，第一个分组表达式是"部门"，第二个分组表达式是"性别"，第三个分组表达式是"基本工资"，当前索引的索引表达式应当是______。 A、部门+性别+基本工资 B、部门+性别+STR(基本工资) C、STR(基本工资)+性别+部门 D、性别+部门+STR(基本工资) 14. 把一个工程编译成一个应用程序时，下面的叙述正确的是______。 A、所有的工程文件将组合为一个单一的应用程序文件 B、所有工程的包含文件将组合为一个单一的应用程序文件

性能测试人员面试经典技术问题

1.请问什么是性能测试、负载测试、压力测试？性能测试：对一个软件系统而言，包括执行效率、资源占用、系统稳定性、安全性兼容性、可扩展性等。负载测试：通过逐步加压的方式来确定系统的处理能力，确定系统能承受的各项阀值。压力测试：逐步增加负载，使系统某些资源达到饱和甚至失效的测试。 2.请分别针对性能测试、负载测试和压力测试试举一个简单的例子？性能测试例子：公司开发了一个小型项目管理系统，上线前需要做负载、压力、大数据量、强度测试等。负载测试：逐步加压，从而得到“响应时间不超过10秒”，“服务器平均CPU利用率低于85%”等指标阀值。 “服务器平均CPU利用率高于90%” 压力测试：逐步加压，从而使“响应时间超过10秒”，等指标来确定系统能承受的最大负载量。 3.请例举出常用的性能测试工具，并指出这些工具的优缺点？ LoadRunner，录制脚本快捷操作简便，需要一定的学习时间，有采购成本。 4.请问您是如何得到性能测试需求？怎样针对需求设计、分析是否达到需求？在查看需求文档，从中提取性能测试需求，与用户交流，了解实际使用情况。结合业务信息设计操作场景总结出需测试的性能关键指标。执行用例后根据提取关键性能指标来分析是否满足性能需求。 5.什么时候可以开始执行性能测试？在产品相对比较稳定，功能测试结束后。灵活性比较强。 6.什么是集合点？设置集合点有什么意义？LoadRunner中设置集合点的函数是哪个？集合点可以控制各个Vuser以便在同一时刻执行任务。借助集合点，可以再LoadRunner中实现真正意义上的并发。 lr_rendezvous()

7.性能测试时，是不是必须进行参数化？为什么要创建参数？LoadRunner中如何创建参数？ 8是。模拟用户真实的业务操作。创建参数列表，用参数替换固定的文本。 8.您了解关联吗？如何找出哪里需要关联？请给一些您所在项目的实例。了解。使用LoadRunner自动关联功能。手动关联：录制两份相同操作步骤的脚本，找出不同的部分进行判断。一个项目管理系统，每次登录后服务器都自动分配一个sessionID以便之后每次表单提交后验证。 9.您如何调试LoadRunner脚本？设置断点、增加log。 10.在LoadRunner中如何编写自定义函数？请给出一个您在以前项目中编写的函数。 11.请问您是如何理解LoadRunner中集合点、事务以及检查点等概念？集合点：可以控制各个Vuser以便在同一时刻执行任务，可实现真正意义上的并发。事务：事务是用来度量服务器响应时间的操作集。检查点：在回放脚本期间搜索特定内容，从而验证服务器响应内容的正确性。 12.如何应用LoadRunner进行性能测试？使用虚拟用户生成器创建脚本，使用控制器设定场景、运行脚本，使用分析器分析运行后得到的数据。 13.LoadRunner中思考时间有什么作用？用户执行两个连续操作期间等待的时间。模拟用户真实的使用情况。 14.LoadRunner中如何实现多用户并发操作，需要进行哪些设置？设置集合点来实现，在脚本中加入lr_rendezvous()，然后可以在控制器中设定集结百分