当前位置:文档之家› 数据分析笔试题目及答案解析

数据分析笔试题目及答案解析

数据分析笔试题目及答案解析

数据分析笔试题目及答案解析

——第1题——

1. 从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为?

A. 简单随机抽样

B. 分层抽样

C. 系统抽样

D. 整群抽样

答案:A

——第2题——

2. 一组数据,均值中位数众数,则这组数据

A. 左偏

B. 右偏

C. 钟形

D. 对称

答案:B

「题目解析」

分布形状由众数决定,均值大于众数的化,说明峰值在左边,尾巴在右边,所以右偏。偏态是看尾巴在哪边。

——第3题——

3. 对一个特定情形的估计来说,置信水平越低,所对应的置信区间?

A. 越小

B. 越大

C. 不变

D. 无法判断

答案:A

「题目解析」

根据公式,Z减小,置信区间减小。

——第4题——

4.关于logistic回归算法,以下说法不正确的是?

A. logistic回归是当前业界比较常用的算法,用于估计某种事物的可能性

B. logistic回归的目标变量可以是离散变量也可以是连续变量

C. logistic回归的结果并非数学定义中的概率值

D. logistic回归的自变量可以是离散变量也可以是连续变量

答案:B

「题目解析」

逻辑回归是二分类的分类模型,故目标变量是离散变量,B错;

logisitc回归的结果为“可能性”,并非数学定义中的概率值,不可以直接当做概率值来用,C对。

——第5题——

5.下列关于正态分布,不正确的是?

A. 正态分布具有集中性和对称性

B. 期望是正态分布的位置参数,描述正态分布的集中趋势位置

C. 正态分布是期望为0,标准差为1的分布

D. 正态分布的期望、中位数、众数相同

答案:C

「题目解析」

N(0,1)是标准正态分布。

——第6题——

6. 以下关于关系的叙述中,正确的是?

A. 表中某一列的数据类型可以同时是字符串,也可以是数字

B. 关系是一个由行与列组成的、能够表达数据及数据之间联系的二维表

C. 表中某一列的值可以取空值null,所谓空值是指安全可靠或零

D. 表中必须有一列作为主关键字,用来惟一标识一行

E. 以上答案都不对

答案:B

「题目解析」

B. 关系是一张二维表,表的每一行对应一个元组,每一列对应一个域,由于域可以相同,所以必须对每列起一个名字,来加以区分,这个名字称为属性。

——第7题——

7. 想要了解一个地区人群的一般收入水平,以下什么指标不能使用?

A. 方差

B. 几何平均数

C. 众数

D. 中位数

E. P值

答案:B E

「题目解析」

几何平均数:几何平均数是对各变量值的连乘积开项数次方根。求几何平均数的方法叫做几何平均法。如果总水平、总成果等于所有阶段、所有环节水平、成果的连乘积总和时,求各阶段、各环节的一般水平、一般成果,要使用几何平均法计算几何平均数,而不能使用算术平均法计算算术平均数。根据所拿握资料的形式不同,其分为简单几何平均数和加权几何平均数两种形式。

——第8题——

8. 以下属于聚类算法的是?

A. ARIMA

B. 朴素贝叶斯

C. 支持向量机

D. K-MEANS

答案:D

「题目解析」

A.时间序列

B.C. 分类模型

D 聚类

——第9题——

9. 样本中各观察值均加5后?

A. 方差加25

B. 标准差加5

C. 均值加5

D. 中值加5

答案:C D

「题目解析」

样本中各观察值均加5后,标准差和方差不变,均值和中值加5。因为标准差反映数据的离散程度,所有观察值相同的变化,对波动没有影响。举个例子,样本中3个观察值都为1,则方差为0。样本中每个观察值均加5,变成3个5,方差还是0。

——第10题——

10. 一批零件共10个,其中有3个不合格品,从中一个一个不放回取出,则第三次才取得不合格品的概率是?(填小数)

答案:0.175

「题目解析」

(7/10) __ (6/9) __ (3/8) = 0.175

——第11题——

11. 某业务线的营业收入为:200,220,250,300,320万元,则平均增长量为?万元

答案:30

「题目解析」

平均增长量 = 累计增长量 / (时间数列项数-1)=(320-200)/(5-1)=30 误区:是除以4 不是5

第12题——

14. 经一番研究后,我们开发出了一个新的商品详情页中’相关商品’模块的算法,并且打算通过AB Test(50%用户保留原先的算法逻辑为控制组,50%用户使用新的算法逻辑为实验组)来进行评估。假如你是此次实验的数据分析师,请问你会怎么评估控制组和实验组的表现?请按重要性列出最重要的三个指标并给出你的分析过程。

「题目解析」

相关商品的点击率=相关商品链接点击次数/当前页面浏览次数

相关商品的____率=____行为发生次数/相关商品浏览行为次数

当前商品与相关商品一同____的概率=共同____/当前商品____

第13题——

13. 请写sql语句:

想要了解班级内同学的考试情况,现有一张成绩表表名为A,每行都包含以下内容(已知表中没有重复内容,但所有的考试结果都录入在了同一张表中,一个同学会有多条考试结果):

student_id,course_name,score

现在需要知道:

每门课程得到成绩的同学人数

每门课程的平均成绩

如果对于每门课程来说,60分以下为不及格,高于60为及格,统计每门课程及格和不及格的人数

「题目解析」

官方答案:

1.2.select course_name ,count(distinct student_id) as

student_num ,avg(score) as avg_scorefrom Agroup by 1

3.select course_name ,case when score 60 then 不及格 else 及格 end as level ,count(student_id) as student_numfrom Agroup by 1,2 参考答案第3问

selectcourse_name,case when score 60 then 不及格else 及格 end as level,count(student_id) as student_numfrom Agroup by 1,2 我的代码:

-- 我的答案,第三问

SELECT course_name, SUM(CASE WHEN score = 60 THEN 1 ELSE 0 END ) AS 及格,SUM(CASE WHEN score 60 THEN 1 ELSE 0 END) AS 不及格FROM AGROUP BY course_name;

数据分析笔试试题及答案

1、异常值是指什么请列举1种识别连续型变量异常值的方法

异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.

常见的异常值检验方法如下:基于统计的方法基于距离的方法基于密度的方法基于聚类的方法基于偏差的方法基于深度的方法

t检验:按照t分布的实际误差分布范围来判别异常值,首先剔除一个可疑值,然后按t分布来检验剔除的值是否为异常值。

狄克逊检验法:假设一组数据有序x1

格拉布斯检验法:与狄克逊检验法思想一样,其检验公式为:

指数分布检验:

SPSS和R语言中通过绘制箱图可以找到异常值,分布在箱边框外部;

2、什么是聚类分析聚类算法有哪几种请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组

(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类

(numerical taxonomy)。聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有:

K-pototypes算法,K-Means算法,CLARANS算法(划分方法),BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法),CLIQUE算法(综合了基于密度和基于网格的算法);

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:

(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;

(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;

(3)重新计算每个(有变化)聚类的均值(中心对象);

(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,

计算的复杂度为 O(NKt),其中N是数据对象的数目,K是聚类中心,t是迭代的次数。

缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。 3.数据标准化技术

是将数据按比例缩放,使之落入一个小的特定区间。去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。常用的方法有:

(1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即

4.缺失值处理方法

1) 直接丢弃含缺失数据的记录

如:个案剔除法,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。 2)补缺

A. 用平均值来代替所有缺失数据:均值替换法,均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。

B. K -最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。

C.用预测模型来预测每一个缺失数据:该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。如:回归替换法,该方法也有诸多弊端,第一,容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺

失信息的增多而变得更加严重。第二,研究者必须假设存在缺失值所在的变量与其他变量存在线性关系,很多时候这种关系是不存在的。

数据分析师常见的7道面试题及答案

1、海量日志数据,提取出某日访问百度次数最多的那个IP。

首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。

或者如下阐述:

算法思想:分而治之+Hash

1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;

2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP 地址;

3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hashmap,同时记录当前出现次数最多的那个IP地址;

4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;

2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。

假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。

典型的TopK算法,还是在这篇*里头有所阐述,

文中,给出的最终算法是:

第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27);

第二步、借助堆这个数据结构,找出TopK,时间复杂度为N‘logK。

即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N)+N’__O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。

或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。

3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。

方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。

如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。

对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie

树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最小

堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。

4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求你按照query的频度排序。

还是典型的TOPK算法,解决方案如下:

方案1:

顺序读取10个文件,按照hash(query)的结果将query写入到另外10个文件(记为)中。这样新生成的文件每个的大小大约也1G(假设hash函数是随机的)。

找一台内存在2G左右的机器,依次对用hash_map(query,query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件(记为)。

对这10个文件进行归并排序(内排序与外排序相结合)。

方案2:

一般query的总量是有限的,只是重复的次数比较多而已,可能对于所有的query,一次性就可以加入到内存了。这样,我们就可以采用trie树/hash_map 等直接来统计每个query出现的次数,然后按出现次数做快速/堆/归并排序就可以了。

方案3:

与方案1类似,但在做完hash,分成多个文件后,可以交给多个文件来处理,采用分布式的架构来处理(比如MapReduce),最后再进行合并。

5、给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?

方案1:可以估计每个文件安的大小为5G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。

遍历文件a,对每个url求取hash(url)00,然后根据所取得的值将url分别存储到1000个小文件(记为a0,a1,…,a999)中。这样每个小文件的大约为300M。

遍历文件b,采取和a相同的方式将url分别存储到1000小文件(记为

b0,b1,…,b999)。这样处理后,所有可能相同的url都在对应的小文件

(a0vsb0,a1vsb1,…,a999vsb999)中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小文件中相同的url即可。

求每对小文件中相同的url时,可以把其中一个小文件的url存储到

hash_set中。然后遍历另一个小文件的每个url,看其是否在刚才构建的

hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。

方案2:如果允许有一定的错误率,可以使用Bloomfilter,4G内存大概可以表示340亿bit。将其中一个文件中的url使用Bloomfilter映射为这340亿bit,然后挨个读取另外一个文件的url,检查是否与Bloomfilter,如果是,那么该url应该是共同的url(注意会有一定的错误率)。

Bloomfilter日后会在本BLOG内详细阐述。

6、在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。

方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存2^32__2bit=1GB内存,还可以接受。然后扫描这2.5亿个整数,查看Bitmap中相对应位,如果是00变01,01变10,10保持不变。所描完事后,查看bitmap,把对应位是01的整数输出即可。

方案2:也可采用与第1题类似的方法,进行划分小文件的方法。然后在小文件中找出不重复的整数,并排序。然后再进行归并,注意去除重复的元素。

7、腾讯面试题:给40亿个不重复的unsignedint的整数,没排过序的,然后再给一个数,如何快速判断这个数是否在那40亿个数当中?

与上第6题类似,我的第一反应时快速排序+二分查找。以下是其它更好的方法:

方案1:oo,申请512M的内存,一个bit位代表一个unsignedint值。读入40亿个数,设置相应的bit位,读入要查询的数,查看相应bit位是否为1,为1表示存在,为0表示不存在。

方案2:这个问题在《编程珠玑》里有很好的描述,大家可以参考下面的思路,探讨一下:

又因为2^32为40亿多,所以给定一个数可能在,也可能不在其中;

这里我们把40亿个数中的每一个用32位的二进制来表示

假设这40亿个数开始放在一个文件中。

数据分析笔试题目及答案解析

数据分析笔试题目及答案解析 数据分析笔试题目及答案解析 ——第1题—— 1. 从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为? A. 简单随机抽样 B. 分层抽样 C. 系统抽样 D. 整群抽样 答案:A ——第2题—— 2. 一组数据,均值中位数众数,则这组数据 A. 左偏 B. 右偏 C. 钟形 D. 对称 答案:B 「题目解析」

分布形状由众数决定,均值大于众数的化,说明峰值在左边,尾巴在右边,所以右偏。偏态是看尾巴在哪边。 ——第3题—— 3. 对一个特定情形的估计来说,置信水平越低,所对应的置信区间? A. 越小 B. 越大 C. 不变 D. 无法判断 答案:A 「题目解析」 根据公式,Z减小,置信区间减小。 ——第4题—— 4.关于logistic回归算法,以下说法不正确的是? A. logistic回归是当前业界比较常用的算法,用于估计某种事物的可能性 B. logistic回归的目标变量可以是离散变量也可以是连续变量 C. logistic回归的结果并非数学定义中的概率值 D. logistic回归的自变量可以是离散变量也可以是连续变量 答案:B 「题目解析」

逻辑回归是二分类的分类模型,故目标变量是离散变量,B错; logisitc回归的结果为“可能性”,并非数学定义中的概率值,不可以直接当做概率值来用,C对。 ——第5题—— 5.下列关于正态分布,不正确的是? A. 正态分布具有集中性和对称性 B. 期望是正态分布的位置参数,描述正态分布的集中趋势位置 C. 正态分布是期望为0,标准差为1的分布 D. 正态分布的期望、中位数、众数相同 答案:C 「题目解析」 N(0,1)是标准正态分布。 ——第6题—— 6. 以下关于关系的叙述中,正确的是? A. 表中某一列的数据类型可以同时是字符串,也可以是数字 B. 关系是一个由行与列组成的、能够表达数据及数据之间联系的二维表 C. 表中某一列的值可以取空值null,所谓空值是指安全可靠或零 D. 表中必须有一列作为主关键字,用来惟一标识一行 E. 以上答案都不对

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map 进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP 中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把100

数据分析经典测试题及答案解析

数据分析经典测试题及答案解析 一、选择题 1.关于数据-4,1,2,-1,2,下面结果中,错误的是( ) A .中位数为1 B .方差为26 C .众数为2 D .平均数为0 【答案】B 【解析】 【分析】 【详解】 A .∵从小到大排序为-4,-1,,1,2,2,∴中位数为1 ,故正确; B .41212 05 x -++-+= = , ()()()()2 2 2 2 2401010202 265 5 s --+--+-+-?= = ,故不正确; C .∵众数是2,故正确; D .41212 05 x -++-+==,故正确; 故选B. 2.某射击俱乐部将11名成员在某次射击训练中取得的成绩制成如图所示的条形统计图,由图可知,11名成员射击成绩的众数和中位数分别是( ) A .8,9 B .8,8 C .8,10 D .9,8 【答案】B 【解析】 分析:中位数,因图中是按从小到大的顺序排列的,所以只要找出最中间的一个数(或最中间的两个数)即可,本题是最中间的那个数;对于众数可由条形统计图中出现频数最大或条形最高的数据写出. 详解:由条形统计图知8环的人数最多, 所以众数为8环, 由于共有11个数据, 所以中位数为第6个数据,即中位数为8环, 故选B . 点睛:本题主要考查了确定一组数据的中位数和众数的能力.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数

字即为所求.如果是偶数个,则找中间两个数的平均数. 3.某学校组织学生进行社会主义核心价值观的知识竞赛,进入决赛的共有20名学生,他们的决赛成绩如下表所示: 那么20名学生决赛成绩的众数和中位数分别是( ) A .85,90 B .85,87.5 C .90,85 D .95,90 【答案】B 【解析】 试题解析:85分的有8人,人数最多,故众数为85分; 处于中间位置的数为第10、11两个数, 为85分,90分,中位数为87.5分. 故选B . 考点:1.众数;2.中位数 4.某单位招考技术人员,考试分笔试和面试两部分,笔试成绩与面试成绩按6:4记入总成绩,若小李笔试成绩为80分,面试成绩为90分,则他的总成绩为( ) A .84分 B .85分 C .86分 D .87分 【答案】A 【解析】 【分析】 按照笔试与面试所占比例求出总成绩即可. 【详解】 根据题意,按照笔试与面试所占比例求出总成绩: 64 8090841010? +?=(分) 故选A 【点睛】 本题主要考查了加权平均数的计算,解题关键是正确理解题目含义. 5.在某次训练中,甲、乙两名射击运动员各射击10发子弹的成绩统计图如图所示,对于 本次训练,有如下结论:①22 s s >甲乙;②22 s s <甲乙;③甲的射击成绩比乙稳定;④乙的射 击成绩比甲稳定.由统计图可知正确的结论是( )

数据分析师常见的道笔试题目及答案

数据分析师常见的道笔试 题目及答案 LELE was finally revised on the morning of December 16, 2020

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB 个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N 为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。

SHEIN数据分析经理岗位笔试题目含笔试技巧

SHEIN 数据分析经理岗位笔试题目(精选) 以下是SHEIN公司数据分析经理岗位的笔试题目: 一、选择题(每个问题有四个选项,请选择非常佳答案) 1. 在以下四个数据分析工具中,哪一个非常适合进行实时数据监测和分析? A. Tableau B. Power BI C. Python D. Excel 参考答案:B. Power BI。Power BI具有强大的实时数据监测和分析功能,能够快速创建可视化和仪表板,从而帮助用户更好地理解数据。 2. 下列哪项技术非常常用于处理大数据? A. 云计算 B. 人工智能 C. 区块链 D. 虚拟现实

参考答案:A. 云计算。云计算提供了大规模、高可靠性的存储和计算能力,能够处理大数据并实现数据共享。 3. 以下哪个数据库类型非常适合用于电子商务数据分析? A. 关系型数据库 B. 非关系型数据库 C. 分布式数据库 D. 内存数据库 参考答案:A. 关系型数据库。关系型数据库可以有效地处理结构化数据,并支持事务处理和数据完整性,适用于电子商务数据分析。 4. 以下哪个算法非常适合进行时间序列预测? A. 决策树算法 B. KNN算法 C. 随机森林算法 D. 长短期记忆网络(LSTM)算法 参考答案:D. 长短期记忆网络(LSTM)算法。LSTM是一种适用于时间序列预测的神经网络算法,能够捕捉时间序列数据的长期依赖关系并做出预测。 5. 在以下三个数据可视化工具中,哪一个非常适合呈现多维度的数据?

A. Excel B. Tableau C. Power BI D. Python 参考答案:C. Power BI。Power BI是一种专门的数据可视化工具,具有丰富的图表类型和数据处理能力,能够很好地呈现多维度的数据。 6. 下列哪个数据清洗方法非常适用于处理缺失值? A. 删除法 B. 插值法 C. 平均数填充法 D. 中位数填充法 参考答案:B. 插值法。插值法可以通过插值估算缺失值,从而保持数据集的完整性和代表性。 7. 在数据分析过程中,以下哪个步骤是非常后进行的? A. 数据清洗 B. 数据可视化 C. 数据建模 D. 数据归纳

中科曙光数据分析工程师岗位笔试题目含笔试技巧

中科曙光 数据分析工程师岗位笔试题目(精选) 以下是15个中科曙光公司数据分析工程师岗位的笔试题目: 一、选择题 1. 在以下四个数据分析工具中,哪一个非常适合进行大数据处理? A) Excel B) Python C) Tableau D) SharePoint 参考答案:B) Python。Python是一种多功能语言,适用于大数据处理,而Excel 和Tableau更适合于可视化展示,SharePoint则更侧重于文档管理和协作。 2. 下列哪个数据库类型是分布式数据库? A) SQL Server B) MySQL C) Cassandra D) MongoDB 参考答案:C) Cassandra。Cassandra是一种NoSQL分布式数据库,而SQL Server和MySQL是关系型数据库,MongoDB是一种分布式文档数据库。3. 下面哪个算法是用于聚类的?

A) KNN算法 B) 二分搜索算法 C) 快速排序算法 D) 以上都是 参考答案:A) KNN算法。KNN算法是一种常用的聚类算法,而二分搜索算法和快速排序算法是排序算法。 4. 在数据分析过程中,下列哪个步骤是在数据清洗之后? A) 数据探索 B) 数据清洗 C) 数据规整 D) 数据建模 参考答案:A) 数据探索。在数据分析过程中,数据清洗是唯二步,之后是数据探索、数据规整和数据建模。 5. 下面哪个数据类型非常适合表示百分比? A) 整数 B) 浮点数 C) 文本 D) 日期 参考答案:B) 浮点数。浮点数可以精确地表示小数,包括百分比。整数只能表示整数,文本和日期不适合表示百分比。 6. 下列哪个数据可视化工具支持多种数据可视化类型? A) Power BI

数据分析师笔试试题及答案

数据分析师笔试试题及答案 1. 问题1 问题描述:请解释什么是数据清洗,并举例说明。 答案:数据清洗是指对原始数据进行处理和转换,以修复、删除或调整数据中的错误、不完整性和不一致性。数据清洗的目的是提高数据质量,使其适合进一步的分析和应用。 例如,假设有一个销售数据表,其中一列记录了销售数量。在数据清洗过程中,我们发现有些销售数量为负数,这是不合理的。我们可以通过将这些负数值修复为零或删除这些记录来进行数据清洗。 2. 问题2 问题描述:请解释什么是数据可视化,并列举一些常用的数据可视化工具。

答案:数据可视化是将数据以图表、图形或其他视觉形式呈现,以帮助人们更好地理解数据的含义和趋势。通过数据可视化,我们 可以更直观地发现数据的模式、关联和异常。 以下是一些常用的数据可视化工具: - Tableau:一种流行的商业化数据可视化工具,具有强大的交 互性和灵活性。 - Power BI:微软公司开发的数据分析和可视化工具,集成了 丰富的数据连接、数据清洗和可视化功能。 - Python的Matplotlib和Seaborn库:Python编程语言中的两个 常用数据可视化库,提供了各种绘图函数和工具。 - R语言的ggplot2包:R语言中的一个常用数据可视化包,提 供了高度可定制的图形语法。 3. 问题3 问题描述:请解释什么是相关系数,并说明其在数据分析中的 应用。

答案:相关系数是用来衡量两个变量之间线性关系强度的统计指标。它的取值范围从-1到1,其中-1表示完全负相关,1表示完全正相关,0表示无相关性。 在数据分析中,相关系数可以用来帮助我们理解和分析变量之间的关系。它可以用于以下方面: - 探索两个变量之间的关联是否存在及其强度; - 筛选出与目标变量最相关的自变量; - 在建立模型时,用于衡量变量之间的多重共线性。 请注意,相关系数只能测量线性关系,对于非线性关系无法有效衡量。 4. 问题4 问题描述:请解释什么是A/B测试,并说明其在数据分析和决策中的作用。 答案:A/B测试是一种比较两种或多种变体的实验设计方法,用于确定哪种变体在某一指标上表现更好。通常,A/B测试将用户

数据分析笔试题目

数据分析笔试题目 在数据分析领域,笔试题目是一种常见的评估方法。通过笔试题目,雇主可以了解应聘者的数据分析能力、逻辑思维和解决问题的能力。 本文将为您提供一些常见的数据分析笔试题目及其解答,帮助您更好 地准备笔试。 题目一:销售数据分析 一家电商公司需要分析其销售数据,以帮助制定销售策略和预测未 来销售额。以下是该公司最近一年的月销售额数据,请根据数据回答 以下问题: 月份销售额(万元) 1 120 2 150 3 180 4 130 5 160 6 200 7 220 8 190 9 210

11 260 12 280 1. 请计算该公司在整个年度内的总销售额。 2. 请计算该公司的月均销售额。 3. 请计算该公司年销售额的增长率。 解答: 1. 该公司在整个年度内的总销售额为120 + 150 + 180 + 130 + 160 + 200 + 220 + 190 + 210 + 230 + 260 + 280 = 2340 万元。 2. 该公司的月均销售额为总销售额除以12个月,即2340 / 12 = 195 万元。 3. 该公司年销售额的增长率为(年度最后一个月销售额 - 年度第一个月销售额)/ 年度第一个月销售额,即(280 - 120)/ 120 = 1.33,即增长率为133%。 题目二:用户行为分析 某社交媒体平台希望分析用户的行为数据,以改善用户体验和提高用户留存率。以下是一个用户在一周内的登录行为数据,请根据数据回答以下问题: 日期登录次数

周二 12 周三 10 周四 18 周五 20 周六 16 周日 14 1. 请计算该用户在这一周内的平均每天登录次数。 2. 请计算该用户在这一周内的最高单日登录次数。 3. 请计算该用户周三相比于周一的登录次数变化率。 解答: 1. 该用户在这一周内的平均每天登录次数为(15 + 12 + 10 + 18 + 20 + 16 + 14)/ 7 = 15次。 2. 该用户在这一周内的最高单日登录次数为20次。 3. 该用户周三相比于周一的登录次数变化率为(周三登录次数 - 周一登录次数)/ 周一登录次数,即(10 - 15)/ 15 = -0.33,即变化率为-33%。

数据分析笔试题及答案

数据分析笔试题及答案 一、概述 数据分析是一种通过收集、整理、分析和解释数据,以发现有用信息、指导决策和解决问题的过程。在现代信息时代,随着大数据的兴起,数据分析变得越来越重要。本文将提供一些常见的数据分析笔试题,并给出相应的答案。 二、问题一:何为数据清洗? 数据清洗是指对收集来的数据进行处理,以发现并处理数据中存在的错误、缺失值、离群值等问题,保证数据的质量和可靠性。数据清洗的步骤包括:数据收集、数据检查、数据处理和数据验证。 答案: 1. 数据收集:从不同的数据源收集数据,并将其保存到一个统一的数据集中。 2. 数据检查:对数据集进行初步检查,发现数据中存在的问题,如重复数据、错误数据等。 3. 数据处理:对检查出的问题进行处理,如删除重复数据、修正错误数据、填补缺失值等。 4. 数据验证:对处理后的数据进行再次检查,确保数据质量和可信度。 三、问题二:什么是数据可视化?

数据可视化是指使用图表、图形、地图等形式将数据以可视化的方 式呈现出来,以便更好地理解和分析数据。通过数据可视化,人们可 以更直观地看到数据中存在的模式、趋势和关联关系。 答案: 数据可视化的优点包括: 1. 更直观:通过图表、图形等形式,数据可视化使得数据变得更加 直观,更容易理解和分析。 2. 更易记:与简单的数据表格相比,图表更容易被人们记住,能够 更好地传递信息。 3. 更易传播:通过分享图表和图形,人们能够更轻松地将数据的见 解传播给他人。 4. 更有说服力:数据可视化能够通过图形的形式更有说服力地呈现 数据,有效地支持决策。 四、问题三:什么是回归分析? 回归分析是一种用于确定变量之间关系的统计方法。通过回归分析,可以建立一个数学模型,来描述自变量与因变量之间的关系,以及预 测因变量的数值。 答案: 回归分析的步骤包括: 1. 收集数据:收集自变量和因变量的相关数据。

大数据笔试题及答案

大数据笔试题及答案 大数据技术的兴起和发展已经成为当今世界的热点话题。随着人们对数据的需求和对数据分析的重视,大数据相关岗位的需求也日益增加。因此,在求职和升职过程中,大数据笔试已成为各大公司选拔人才的重要环节。本文将介绍几道常见的大数据笔试题目,并提供答案供参考。 题目一:请解释什么是大数据?并列举大数据的特点。 答案:大数据是指庞大且复杂的数据集合,无法使用传统的数据管理和分析方法进行处理。大数据的特点包括以下几点: 1. 大量性:大数据通常以TB、PB甚至EB为单位衡量,数据量巨大。 2. 高速性:大数据的产生速度非常快,需要实时或近实时地对数据进行处理和分析。 3. 多样性:大数据来源多样,可以包括结构化数据、半结构化数据和非结构化数据等多种形式。 4. 核心价值:大数据蕴含着重要的商业价值和创新机会,可以为企业决策和业务发展提供有力支持。 题目二:请简述Hadoop的原理和应用场景。

答案:Hadoop是一种分布式计算框架,基于Google的MapReduce 和Google文件系统的研究成果。其核心是Hadoop分布式文件系统(HDFS)和分布式计算框架(MapReduce)。 Hadoop的原理是将一个大任务划分为多个小任务,分布式地在多 台计算机上进行计算。MapReduce将计算任务分为Map阶段和Reduce 阶段,通过将数据分片并在多个节点上并行计算,提高了计算效率。 Hadoop的应用场景包括大数据分析、数据挖掘、机器学习等领域。它可以处理海量的数据,并通过分布式处理提高了数据的处理速度和 计算效率。 题目三:请简述Spark的特点和优势。 答案:Spark是一种快速、通用、可扩展的大数据处理引擎。其特 点和优势如下: 1. 快速:Spark使用内存计算,相比传统的基于磁盘的计算框架, 速度更快。同时,Spark还支持迭代计算和交互式查询,适用于需要实 时计算的场景。 2. 通用:Spark提供了丰富的API,支持多种编程语言(如Java、Scala、Python等),可以处理大部分数据处理和分析需求。 3. 可扩展:Spark可以方便地与其他大数据技术(如Hadoop、Hive 等)集成,可以在集群中进行水平扩展,适用于处理大规模数据。

星辉游戏数据分析岗位笔试题目含笔试技巧

星辉游戏 数据分析岗位笔试题目(精选) 以下是15个星辉游戏公司数据分析岗位的笔试题目: 一、选择题(每个问题有四个选项,请选择非常合适的答案) 1. 在下列四个游戏公司中,哪一个是星辉游戏公司的竞争对手? A. 网易游戏 B. 腾讯游戏 C. 暴雪娱乐 D. 微软游戏 参考答案:B. 腾讯游戏。因为腾讯游戏也是国内的一家知名游戏公司,与星辉游戏公司存在竞争关系。 2. 一般情况下,游戏公司的收入来源主要来自于哪里? A. 游戏内购买 B. 游戏广告 C. 游戏版权销售 D. 游戏开发成本

参考答案:A. 游戏内购买。游戏内购买是游戏公司的主要收入来源,包括游戏内的道具、角色、皮肤等。 3. 在进行游戏数据分析时,以下哪个指标不是非常重要的? A. 日活跃用户数 B. 付费用户数 C. 次日留存率 D. 游戏时长 参考答案:D. 游戏时长。虽然游戏时长可以反映游戏的吸引力和用户黏性,但在一些特定情况下,例如游戏的类型和设计,游戏时长并不是非常重要的指标。 4. 下列哪个数据可以用来评估游戏的用户黏性? A. 日活跃用户数 B. 新增用户数 C. 卸载用户数 D. 活跃用户数 参考答案:A. 日活跃用户数。日活跃用户数可以反映游戏的用户黏性,即每天有多少用户会登录游戏并参与游戏。 5. 在进行游戏数据分析时,以下哪个方法是经常使用的?

A. 聚类分析 B. 可视化分析 C. A/B测试 D. 相关性分析 参考答案:C. A/B测试。A/B测试是一种常用的数据分析方法,可以用来比较两种不同方案的效果,从而找到非常佳方案。在游戏开发中,A/B测试经常被用来测试不同游戏设计的可行性和效果。 6. 在一个网络游戏中,以下哪个角色对于游戏数据分析师来说是非常重要的? A. 游戏策划师 B. 游戏设计师 C. 游戏运营师 D. 游戏客服 参考答案:C. 游戏运营师。游戏运营师负责游戏的日常运营,包括数据分析、用户运营等,对于游戏数据分析师来说是非常重要的。 7. 下列哪个数据可以用来评估游戏的用户满意度? A. 卸载率 B. 投诉率 C. 活跃用户数

大数据笔试题试题及答案

大数据笔试题试题及答案 1、以下哪种操作能够实现实体完整性() [单选题] A、减少数据冗余 B、设置唯一键 C、设置外键(正确答案) D、设置主键 2、关于SecondaryNameNode 哪项是正确的() [单选题] A、它的目的是帮助NameNode合并并编辑日志,减少NameNode启动时间(正确答案) B、它对内存没有要求 C、它是NameNode的热备 D、SecondaryNameNode应与NameNode部署到一个节点 3、更新数据表中的记录用以下哪一项() [单选题] A、UPDATE(正确答案) B、UPDATES C、DELETE D、INSERT 4、以下哪项不是事务的特性() [单选题] A、唯一性 B、原子性

C、一致性 D、持久性 E.可靠性(正确答案) 5、返回字符串长度的函数是() [单选题] A、length(正确答案) B、left C、long D、len 6、一个字符串类型的值能存储最大容量是() [单选题] A、1G B、512MB(正确答案) C、128MB D、256MB 7、关于DATETIME与TIMESTAMP两种数据类型的描述,错误的是()[单选题] A、 TIMESTAMP可以自动记录当前日期时间 B、两者值的范围不一样 C、两者占用空间不一样 D、两者值的范围一样(正确答案) 8、以下语句错误的是() [单选题] A、alter table emp delete column addcolumn;(正确答案) B、alter table emp add column addcolumn int;

携程数据分析师岗位笔试题目含笔试技巧

携程 数据分析师岗位笔试题目(精选)以下是携程公司数据分析师岗位的笔试题目: 一、选择题(每个问题四个选项,请选择正确的答案) 1. 在下列数据分析工具中,非常常用于处理大数据的是哪一个? A. Excel B. Tableau C. Power BI D. SPSS (答案:B. Tableau) 2. 下列哪一项不是数据分析的主要步骤? A. 数据收集 B. 数据清洗 C. 数据可视化 D. 数据储存 (答案:D. 数据储存不是数据分析的主要步骤) 3. 以下哪一项对于确定数据集的规模无关紧要?

A. 数据的来源和类型 B. 数据的精度和深度 C. 数据的时间范围和更新频率 D. 数据的颜色和形状 (答案:D. 数据的颜色和形状对于确定数据集的规模无关紧要) 4. 在处理结构化数据时,以下哪种方法是非常佳选择? A. 文本分析 B. 语音识别 C. 图像分析 D. 时间序列分析 (答案:D. 时间序列分析在处理结构化数据时是非常佳选择) 5. 如果数据集中存在大量缺失值,以下哪种处理方法非常合适? A. 删除含有缺失值的数据行 B. 用均值填充缺失值 C. 用中位数填充缺失值 D. 用随机数填充缺失值 (答案:A. 删除含有缺失值的数据行是处理大量缺失值的非常合适方法) 6. 下列哪一项不是机器学习在数据分析中的应用? A. 分类预测

B. 聚类分析 C. 关联规则挖掘 D. 时间序列预测 (答案:D. 时间序列预测不是机器学习在数据分析中的应用) 7. 对于确定数据质量,以下哪种方法非常有效? A. 统计检验 B. 可视化检验 C. 假设检验 D. 以上所有选项都是有效的 (答案:D. 以上所有选项都是有效的) 8. 当需要将大量数据进行可视化时,以下哪种数据可视化工具非常为合适? A. Power BI B. Tableau C. Excel D. Python Matplotlib (答案:B. Tableau) 9. 当数据分析师在进行数据分析时,以下哪个因素非常可能影响他们的结论? A. 数据的不确定性 B. 数据收集的准确性

海信集团控股数据分析师岗位笔试题目含笔试技巧之一

海信集团控股股份有限公司 数据分析师岗位笔试题目(精选) 一、选择题/问答题 1. 以下哪个数据库管理系统非常常用于存储和查询大型数据集? A. MySQL B. Oracle C. Microsoft SQL Server D. PostgreSQL 答案:C 2. 以下哪个数据可视化工具能够提供非常详细的报告和分析? A. Tableau B. Power BI C. Excel D. Google Sheets 答案:A 3. 你希望通过线性回归分析来预测一个产品的销售量,以下哪个变量应该被用作自变量? A. 广告投入

B. 产品价格 C. 市场竞争 D. 季节 答案:D 4. 下列哪个操作可以将数据从Excel表格导入到MySQL数据库? A. ETL B. ELT C. ERP D. ERT 答案:A 5. 在对客户满意度进行调查时,以下哪个度量指标是非常合适的? A. 频率 B. 周期 C. 强度 D. 种类 答案:C 6. 假设你正在使用Python进行数据分析,以下哪个库非常常用于处理大数据? A. NumPy B. Pandas

C. Matplotlib D. Scikit-learn 答案:B 7. 你希望在数据集中搜索特定类型的错误或者异常值,以下哪个方法非常有效? A. T-test B. ANOVA C. Chi-squared test D. Outlier detection 答案:D 8. 以下哪个数据库查询语言主要用于大规模数据处理和数据分析? A. SQL B. NoSQL C. XML D. JSON 答案:B 9. 你希望建立一个模型来预测股票价格,以下哪个算法非常适合? A. 线性回归 B. 支持向量机

京东数据分析师岗位笔试题目含笔试技巧

京东 数据分析师岗位笔试题目(精选) 京东公司数据分析师岗位笔试题目 一、选择题(每个问题有四个选项,请选择正确的答案) 1. 在下列数据类型中,用于存储连续型数据的是哪个? A. 整数 B. 字符 C. 浮点数 D. 布尔值 参考答案:C. 浮点数。浮点数是一种存储连续型数据的途径,常用于表示具有小数部分的数值。 2. 下列哪个数据库类型是关系型数据库? A. MongoDB B. MySQL C. Redis D. HBase

参考答案:B. MySQL。关系型数据库是使用关系模型来组织和存储数据的数据库。MySQL是一种广泛使用的关系型数据库。 3. 在进行数据分析时,哪个方法常用来找出数据中的异常值? A. 均值滤波 B. 中位数平滑 C. 箱线图 D. 小波变换 参考答案:C. 箱线图。箱线图是一种可视化工具,常用来识别和显示数据集中的异常值,即那些远离数据中心的值。 4. 下列哪个数据分析工具是开源的? A. Excel B. Tableau C. Python D. MATLAB 参考答案:C. Python。Python是一种广泛使用的开源编程语言,常用于数据分析、数据科学等领域。 5. 在数据分析中,哪个算法常用来进行分类任务?

A. K-means聚类 B. 决策树分类 C. 朴素贝叶斯分类 D. 支持向量机分类 参考答案:B. 决策树分类。决策树是一种常见的分类算法,它通过构建一棵树状结构来进行分类预测。 6. 下列哪个数据库操作是用于数据查询的? A. INSERT B. UPDATE C. DELETE D. SELECT 参考答案:D. SELECT。SELECT是数据库中的一种查询操作,用于从数据库中检索数据。 7. 数据预处理过程中的主要步骤有几个? A. 3个 B. 4个 C. 5个 D. 6个

因诺资产数据分析师岗位笔试题目含笔试技巧

因诺资产 数据分析师岗位笔试题目(精选)因诺资产公司数据分析师岗位笔试题目 一、选择题(每个问题有四个选项,请选择正确的答案) 1. 在下列数据分析工具中,用于数据预处理的是哪个? A. Excel B. Python C. Tableau D. SQL 参考答案:B. Python 2. 以下哪个方法是用于异常值检测的常见技术? A. 聚类分析 B. 关联规则分析 C. 卡方检验 D. Z-score方法 参考答案:D. Z-score方法

3. 在对销售数据进行时间序列分析时,以下哪个方法可以用来预测未来销售趋势? A. 线性回归 B.ARIMA模型 C. K-means聚类 D. 逻辑回归 参考答案:B.ARIMA模型 4. 以下哪个数据库适合进行大数据分析? A. MySQL B. Oracle C. Hadoop D. Access 参考答案:C. Hadoop 5. 数据分析师在处理数据时,以下哪个原则是必须要遵循的? A. 完整性原则 B. 准确性原则 C. 随机性原则

D. 可比性原则 参考答案:B. 准确性原则 6. 如果一个数据集中的数值型数据分布非常不均匀,那么我们应当采取哪种数据预处理技术? A. 数据编码 B. 数据标准化 C. 数据均衡化 D. 数据清理 参考答案:C. 数据均衡化 7. 下列哪个数据分析工具,能对数据可视化进行丰富的定制和操作? A. MATLAB B. PowerBI C. Tableau D. Excel 参考答案:C. Tableau 8. 在处理多变量数据集时,我们通常使用哪种主成分分析方法来降低数据的维

东方集团数据分析师岗位笔试题目含笔试技巧之三

东方集团有限公司 数据分析师岗位笔试题目(精选) 以下15个东方集团有限公司数据分析师岗位的笔试题目,包括10个选择题/问答题和5个问答题: 一、选择题/问答题(提供答案) 1. 在Excel中,可以使用哪个函数进行VLOOKUP匹配? A. COUNTIF B. VLOOKUP C. SUMIF D. AVERAGEIF 答案:B 2. 下列哪个数据库管理系统支持关系型数据库? A. Access B. Oracle C. SQL Server D. MySQL 答案:B 3. 数据分析中,我们需要提取数据的主要特征并进行描述。请问下列哪个图表适合用于显示两个变量之间的关系?

B. 折线图 C. 散点图 D. 饼图 答案:C 4. 在Python中,我们可以使用哪个库来处理Excel文件? A. NumPy B. Pandas C. Matplotlib D. Scikit-learn 答案:B 5. 下列哪个数据库属于非关系型数据库? A. Oracle B. MySQL C. MongoDB D. SQL Server 答案:C 6. 在数据分析中,我们经常需要清洗数据。下列哪种数据清洗方法可以用来处理缺失值? A. 删除 B. 均值填充 C. 中位数填充

答案:B 7. 下列哪个算法是用于分类问题的? A. 决策树算法 B. K-均值算法 C. 快速排序算法 D. Dijkstra算法 答案:A 8. 在Python中,我们可以使用哪个库来进行数据可视化? A. NumPy B. Pandas C. Matplotlib D. Scikit-learn 答案:C 9. 下列哪个数据库管理系统是开源的? A. Oracle B. SQL Server C. MySQL D. PostgreSQL 答案:C 10. 在数据分析中,我们经常需要计算数据的集中趋势。下列哪个统计量可以用来计算数据的集中趋势?

数据分析基础测试题附答案解析

数据分析基础测试题附答案解析 一、选择题 1.一组数据1,5,7,x的众数与中位数相等,则这组数据的平均数是()A.6 B.5 C.4.5 D.3.5 【答案】C 【解析】 若众数为1,则数据为1、1、5、7,此时中位数为3,不符合题意; 若众数为5,则数据为1、5、5、7,中位数为5,符合题意, 此时平均数为1557 4 +++ = 4.5; 若众数为7,则数据为1、5、7、7,中位数为6,不符合题意; 故选C. 2.已知一组数据:6,2,8,x,7,它们的平均数是6.则这组数据的中位数是()A.7 B.6 C.5 D.4 【答案】A 【解析】 分析:首先根据平均数为6求出x的值,然后根据中位数的概念求解. 详解:由题意得:6+2+8+x+7=6×5,解得:x=7,这组数据按照从小到大的顺序排列为:2,6,7,7,8,则中位数为7. 故选A. 点睛:本题考查了中位数和平均数的知识,将一组数据按照从小到大(或从大到小)的顺序排列,如果数据的个数是奇数,则处于中间位置的数就是这组数据的中位数;如果这组数据的个数是偶数,则中间两个数据的平均数就是这组数据的中位数;平均数是指在一组数据中所有数据之和再除以数据的个数. 3.多多班长统计去年1~8月“书香校园”活动中全班同学的课外阅读数量(单位:本),绘制了如图折线统计图,下列说法正确的是() A.极差是47 B.众数是42 C.中位数是58 D.每月阅读数量超过40的有4个月 【答案】C

【解析】 【分析】 根据统计图可得出最大值和最小值,即可求得极差;出现次数最多的数据是众数;将这8个数按大小顺序排列,中间两个数的平均数为中位数;每月阅读数量超过40的有2、3、4、5、7、8,共六个月. 【详解】 A、极差为:83-28=55,故本选项错误; B、∵58出现的次数最多,是2次, ∴众数为:58,故本选项错误; C、中位数为:(58+58)÷2=58,故本选项正确; D、每月阅读数量超过40本的有2月、3月、4月、5月、7月、8月,共六个月,故本选项错误; 故选C. 4.在只有15人参加的演讲比赛中,参赛选手的成绩各不相同,若选手要想知道自己是否进入前8名,只需要了解自己的成绩以及全部成绩的( ) A.平均数B.中位数C.众数D.以上都不对 【答案】B 【解析】 【分析】 此题是中位数在生活中的运用,知道自己的成绩以及全部成绩的中位数就可知道自己是否进入前8名. 【详解】 15名参赛选手的成绩各不相同,第8名的成绩就是这组数据的中位数, 所以选手知道自己的成绩和中位数就可知道自己是否进入前8名. 故选B. 【点睛】 理解平均数,中位数,众数的意义. 5.某学校组织学生进行社会主义核心价值观的知识竞赛,进入决赛的共有20名学生,他们的决赛成绩如下表所示: 那么20名学生决赛成绩的众数和中位数分别是( ) A.85,90 B.85,87.5 C.90,85 D.95,90 【答案】B 【解析】

相关主题
文本预览
相关文档 最新文档