当前位置：文档之家› 数据分析经典测试题及答案

数据分析经典测试题及答案

一、选择题

1．某校九年级数学模拟测试中，六名学生的数学成绩如下表所示，下列关于这组数据描述正确的是（）

姓名小红小明小东小亮小丽小华

成绩（分）110106109111108110

A．众数是110 B．方差是16

C．平均数是109.5 D．中位数是109

【答案】A

【解析】

【分析】

根据众数、中位数的概念求出众数和中位数，根据平均数和方差的计算公式求出平均数和方差．

【详解】

解：这组数据的众数是110，A正确；

x=×（110+106+109+111+108+110）＝109，C错误；

= [（110﹣109）2+（106﹣109）2+（109﹣109）2+（111﹣109）2+（108﹣109）2+

（110﹣109）2]＝8

，B错误；

中位数是109.5，D错误；

故选A．

【点睛】

本题考查的是众数、平均数、方差、中位数，掌握它们的概念和计算公式是解题的关键．

2．多多班长统计去年1～8月“书香校园”活动中全班同学的课外阅读数量（单位：本），绘制了如图折线统计图，下列说法正确的是（）

A．极差是47 B．众数是42

C．中位数是58 D．每月阅读数量超过40的有4个月

【答案】C

【解析】

【分析】

根据统计图可得出最大值和最小值，即可求得极差；出现次数最多的数据是众数；将这8个数按大小顺序排列，中间两个数的平均数为中位数；每月阅读数量超过40的有2、3、4、5、7、8，共六个月．

【详解】

A、极差为：83-28=55，故本选项错误；

B、∵58出现的次数最多，是2次，

∴众数为：58，故本选项错误；

C、中位数为：（58+58）÷2=58，故本选项正确；

D、每月阅读数量超过40本的有2月、3月、4月、5月、7月、8月，共六个月，故本选项错误；

故选C．

3．如图，是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图，下面关于该班50名同学一周锻炼时间的说法错误的是（）

A．平均数是6

B．中位数是6.5

C．众数是7

D．平均每周锻炼超过6小时的人数占该班人数的一半

【答案】A

【解析】

【分析】

根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数，由图可知锻炼时间超过6小时的有20+5＝25人．即可判断四个选项的正确与否．

【详解】

A、平均数为1

×（5×7+18×6+20×7+5×8）＝6.46，故本选项错误，符合题意；

B、∵一共有50个数据，

∴按从小到大排列，第25，26个数据的平均值是中位数，

∴中位数是6.5，故此选项正确，不合题意；

C、因为7出现了20次，出现的次数最多，所以众数为：7，故此选项正确，不合题意；

D、由图可知锻炼时间超过6小时的有20+5＝25人，故平均每周锻炼超过6小时的人占总数的一半，故此选项正确，不合题意；

故选A．

【点睛】

此题考查了中位数、众数和平均数的概念等知识，中位数是将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（最中间两个数的平均数），叫做这组数据的中位数，如果中位数的概念掌握得不好，不把数据按要求重新排列，就会错误地将这组数据最中间的那个数当作中位数．

4．某射击运动员在训练中射击了10次，成绩如图所示：

下列结论不正确的是（）

A．众数是8 B．中位数是8 C．平均数是8.2 D．方差是1.2

【答案】D

【解析】

【分析】

首先根据图形数出各环数出现的次数，在进行计算众数、中位数、平均数、方差.

【详解】

根据图表可得10环的2次，9环的2次，8环的3次，7环的2次，6环的1次.所以可得

众数是8，中位数是8，平均数是102+92+83+72+61

=8.2

?????

方差是

22222

2(108.2)2(98.2)3(88.2)2(78.2)(68.2)

1.56

?-+?-+?-+?-+-

故选D

【点睛】

本题主要考查统计的基本知识，关键在于众数、中位数、平均数和方差的概念.特别是方差的公式.

5．2018年国务院机构改革不再保留国家卫生和计划生育委员会，组建国家卫生健康委员会，在修正人口普查数据中的低龄人口漏登后，我们估计了1982-2030年育龄妇女情

况.1982年中国15-49岁育龄妇女规模为2.5亿，到2011年达3.8亿人的峰值，2017年降至3.5亿，预计到2030年将降至3.0亿.则数据2.5亿、3.8亿、3.5亿、3.0亿的中位数、

平均数、方差分别是( ) A ．3.25亿、3.2亿、0.245 B ．3.65亿、3.2亿、0.98 C ．3.25亿、3.2亿、0.98 D ．3.65亿、3亿、0.245

【答案】A 【解析】【分析】

根据中位数、平均数的定义和方差公式分别进行解答即可．【详解】

把数据2.5亿、3.8亿、3.5亿、3.0亿按从小到大的顺序排列为：2.5亿，3.亿，3.5亿，3.8亿，最中间的两个数是3.0亿和3.5亿，所以，这组数据的中位数为：3.0+3.5

=3.252

亿平均数为：

2.5+

3.8+3.5+3.0

=3.24

亿；

方差为：S 2=14×[(2.5-3.2)2+(3.8-3.2)2+(3.5-3.2)2+(3.0-3.2)2]= 1

×(0.49+0.36+0.09+0.04)=0.245 故选A. 【点睛】

本题考查了中位数、平均数和方差，中位数是将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（或最中间两个数的平均数）；一般地设n 个数据，x 1，x 2，…x n 的平均数为x ，则方差S 2=

()()()222

121n x x x x x x n ??-+-+?+-?

?．

6．某篮球运动员在连续7场比赛中的得分（单位：分）依次为23，22，20，20，20，25，18．则这组数据的众数与中位数分别是（） A ．20分，22分 B ．20分，18分 C ．20分，22分 D ．20分，20分

【答案】D 【解析】【分析】

根据众数和中位数的概念求解可得．【详解】

数据排列为18，20，20，20，22，23，25，则这组数据的众数为20，中位数为20．故选：D ．【点睛】

此题考查众数和中位数，解题关键在于掌握一组数据中出现次数最多的数据叫做众数．将一组数据按照从小到大（或从大到小）的顺序排列，如果数据的个数是奇数，则处于中间位置的数就是这组数据的中位数．如果这组数据的个数是偶数，则中间两个数据的平均数就是这组数据的中位数．

7．在创建平安校园活动中，九年级一班举行了一次“安全知识竞赛”活动，第一小组6名同学的成绩（单位：分）分别是：87，91，93，87，97，96，下列关于这组数据说正确的是（）

A．中位数是90 B．平均数是90 C．众数是87 D．极差是9

【答案】C

【解析】

【分析】

根据中位数、平均数、众数、极差的概念求解．

【详解】

解：这组数据按照从小到大的顺序排列为：87，87，91，93，96，97，

则中位数是（91+93）÷2=92，

平均数是（87+87+91+93+96+97）÷6=915

，

众数是87，

极差是97﹣87=10．

故选C．

【点睛】

本题考查了中位数、平均数、众数、极差的知识，掌握各知识点的概念是解答本题的关键．

8．某校在中国学生核心素养知识竞赛中，通过激烈角逐，甲、乙、丙、丁四名同学胜出，他们的成绩如表：

如果要选出一个成绩较好且状态稳定的同学去参加市级比赛，应选（）

A．丁B．丙C．乙D．甲

【答案】B

【解析】

【分析】

先比较平均数得到甲和丙成绩较好，然后比较方差得到丙的状态稳定，即可决定选丙去参赛．

【详解】

∵甲、丙的平均数比乙、丁大，

∴甲和丙成绩较好，

∵丙的方差比甲的小，

∴丙的成绩比较稳定，

∴丙的成绩较好且状态稳定，应选的是丙，

故选：B．

【点睛】

本题考查了方差：一组数据中各数据与它们的平均数的差的平方的平均数，叫做这组数据的方差；方差是反映一组数据的波动大小的一个量，方差越大，则平均值的离散程度越大，稳定性也越小；反之，则它与其平均值的离散程度越小，稳定性越好．也考查了平均数的意义．

9．一组数据3、2、1、2、2的众数，中位数，方差分别是：（）

A．2，1，2 B．3，2，0.2 C．2，1，0.4 D．2，2，0.4

【答案】D

【解析】

【分析】

根据众数，中位数，方差的定义计算即可.

【详解】

将这组数据重新由小到大排列为：12223

、、、、

平均数为：12223

++++

2出现的次数最多，众数为：2中位数为：2

方差为：

()()()()()

22222

1222222232

0.4

-+-+-+-

故选：D

【点睛】

本题考查了确定数据众数，中位数，方差的能力，解题的关键是熟悉它们的定义和计算方法.

10．（11·大连）某农科院对甲、乙两种甜玉米各用10块相同条件的试验田进行试验，

得到两个品种每公顷产量的两组数据，其方差分别为s甲2＝0.002、s乙2＝0.03，则 ( ) A．甲比乙的产量稳定B．乙比甲的产量稳定

C．甲、乙的产量一样稳定D．无法确定哪一品种的产量更稳定

【答案】A

【解析】

【分析】方差是刻画波动大小的一个重要的数字.与平均数一样，仍采用样本的波动大小去估计总体的波动大小的方法，方差越小则波动越小，稳定性也越好.

【详解】因为s2

甲＝0.002

乙

＝0.03，

所以，甲比乙的产量稳定.

故选A

【点睛】本题考核知识点：方差. 解题关键点：理解方差意义.

11．某鞋店一天卖出运动鞋12双，其中各种尺码的鞋的销售量如下表：则这12双鞋的尺码组成的一组数据中，众数和中位数分别是（）

A．25，25 B．24.5，25 C．25，24.5 D．24.5，24.5

【答案】A

【解析】

试题分析：根据众数和中位数的定义求解可得．

解：由表可知25出现次数最多，故众数为25；

12个数据的中位数为第6、7个数据的平均数，故中位数为2525

=25，

故选：A．

12．下列说法正确的是（）

A．要调查人们对“低碳生活”的了解程度，宜采用普查方式

B．一组数据：3，4，4，6，8，5的众数和中位数都是3

C．必然事件的概率是100%，随机事件的概率是50%

D．若甲组数据的方差S甲2=0.128，乙组数据的方差是S乙2=0.036，则乙组数据比甲组数据稳定

【答案】D

【解析】

A、由于涉及范围太广，故不宜采取普查方式，故A选项错误；

B、数据3，4，4，6，8，5的众数是4，中位数是4.5，故B选项错误；

C、必然事件的概率是100%，随机事件的概率是50%，故C选项错误；

D、方差反映了一组数据的波动情况，方差越小数据越稳定，故D选项正确．

故选D．

13．立定跳远是体育中考选考项目之一，体育课上老师记录了某同学的一组立定跳远成绩如表：

则下列关于这组数据的说法，正确的是（）

A．众数是2.3 B．平均数是2.4

C．中位数是2.5 D．方差是0.01

【答案】B

【解析】

【分析】

一组数据中出现次数最多的数据叫做众数；

平均数是指在一组数据中所有数据之和再除以数据的个数．它是反映数据集中趋势的一项指标；

将一组数据按照从小到大（或从大到小）的顺序排列，如果数据的个数是奇数，则处于中间位置的数就是这组数据的中位数．如果这组数据的个数是偶数，则中间两个数据的平均数就是这组数据的中位数；

一组数据中各数据与它们的平均数的差的平方的平均数，叫做这组数据的方差．

【详解】

这组数据中出现次数最多的是2.4，众数是2.4，选项A不符合题意；

∵（2.3+2.4+2.5+2.4+2.4）÷5

＝12÷5

＝2.4

∴这组数据的平均数是2.4，

∴选项B符合题意．

14．在趣味运动会“定点投篮”项目中，我校七年级八个班的投篮成绩（单位：个）分别为：24，20，19，20，22，23，20，22．则这组数据中的众数和中位数分别是（）A．22个、20个B．22个、21个C．20个、21个D．20个、22个

【答案】C

【解析】

【分析】

找中位数要把数据按从小到大的顺序排列，位于最中间的一个数或两个数的平均数为中位数，众数是一组数据中出现次数最多的数据，注意众数可以不止一个．

【详解】

在这一组数据中20出现了3次，次数最多，故众数是20；

把数据按从小到大的顺序排列：19，20，20，20，22，22，23，24，

处于这组数据中间位置的数20和22，那么由中位数的定义可知，这组数据的中位数是21．

故选C．

【点睛】

本题为统计题，考查众数与中位数的意义，中位数是将一组数据从小到大(或从大到小)重新排列后，最中间的那个数(最中间两个数的平均数)，叫做这组数据的中位数，如果中位数的概念掌握得不好，不把数据按要求重新排列，就会出错．

15．某中学篮球队12名队员的年龄如表：

关于这12名队员年龄的数据，下列说法正确的是（）

A．中位数是14.5 B．年龄小于15岁的频率是

5 12

C．众数是5 D．平均数是14.8

【答案】A

【解析】

【分析】

根据表中数据，求出这组数据的众数、频率、中位数和平均数即可．【详解】

解：A、中位数为第6、7个数的平均数，为1415

＝14.5，此选项正确；

B、年龄小于15岁的频率是151

122

=，此选项错误；

C、14岁出现次数最多，即众数为14，此选项错误；

D、平均数为：131145154162175

1212

?+?+?+?

，此选项错误；

【点睛】

本题考查了众数、中位数、平均数与频率的计算问题，是基础题．解题的关键是掌握众数、中位数、平均数与频率的定义进行解题.

16．为考察两名实习工人的工作情况，质检部将他们工作第一周每天生产合格产品的个数整理成甲，乙两组数据，如下表：

关于以上数据，说法正确的是（）

A．甲、乙的众数相同B．甲、乙的中位数相同

C．甲的平均数小于乙的平均数D．甲的方差小于乙的方差

【答案】D

【解析】

【分析】

分别根据众数、中位数、平均数、方差的定义进行求解后进行判断即可得.

【详解】

甲：数据7出现了2次，次数最多，所以众数为7，排序后最中间的数是7，所以中位数是7，

26778

=65

x ++++甲，

()()()()()222222

1S =26666767865???-+-+-+-+-?

?甲=4.4，

乙：数据8出现了2次，次数最多，所以众数为8，排序后最中间的数是4，所以中位数是4， 23488

=55

x 乙++++，

()()()()()222222

1S =25354585855乙???-+-+-+-+-?

?=6.4，

所以只有D 选项正确，故选D. 【点睛】

本题考查了众数、中位数、平均数、方差，熟练掌握相关定义及求解方法是解题的关键.

17．某校九年级开展“光盘行动”宣传活动，各班级参加该活动的人数统计结果如下表，对于这组统计数据，下列说法中正确的是（）

A ．平均数是58

B ．中位数是58

C ．极差是40

D ．众数是60

【答案】A 【解析】

分别根据平均数，中位数，极差，众数的计算方法计算即可作出判断

平均数是指在一组数据中所有数据之和再除以数据的个数，因此，这组数据的平均数是：

526062545862

586

+++++=．

中位数是一组数据从小到大（或从大到小）重新排列后，最中间的那个数（最中间两个数的平均数）．由此将这组数据重新排序为52，54，58，60，62，62，∴中位数是按从小到大排列后第3，4个数的平均数为：59．

根据一组数据中的最大数据与最小数据的差叫做这组数据的极差的定义，这组数据的极差

是： 62－52=10．

众数是在一组数据中，出现次数最多的数据，这组数据中，出现次数最多的是62，故这组数据的众数为62．

综上所述，说法正确的是：平均数是58．故选A ．

18．一组数据-2，3，0，2，3的中位数和众数分别是（） A ．0，3 B ．2，2

C ．3，3

D ．2，3

【答案】D 【解析】【分析】

根据中位数和众数的定义解答即可．【详解】

将这组数据从小到大的顺序排列为：﹣2，0，2，3，3，最中间的数是2，则中位数是2；在这一组数据中3是出现次数最多的，故众数是3．故选D ．【点睛】

本题考查了众数与中位数的意义．将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（或最中间两个数的平均数）叫做这组数据的中位数；如果中位数的概念掌握得不好，不把数据按要求重新排列，就会出错．

19．某班统计一次数学测验成绩的平均分与方差，计算完毕以后才发现有位同学的分数还未登记，只好重新算一次．已知原平均分和原方差分别为x ，2s ，新平均分和新方差分别为1x ，2

1s ，若此同学的得分恰好为x ，则（） A ．1x x <，2

1s s = B ．1x x =，22

1s s > C ．1x x =，2

1s s < D ．1x x =，2

1s s =

【答案】B 【解析】【分析】

根据平均数和方差的公式计算比较即可．【详解】

设这个班有n 个同学,数据分别是a 1,a 2,…a i …,a n ，第i 个同学没登录，第一次计算时总分是(n?1)x ，方差是s 2=

n -[(a 1?x)2+…(a i?1?x)2+(a i+1?x)2+…+(a n ?x)2] 第二次计算时, x =

()1n x x n

-+=x ，

方差s 12=

n [(a 1?x)2+…(a i?1?x)2+(a i ?x)2+(a i+1?x)2+…+(a n ?x)2]=1n n

-s 2，故2

1s s >，故选B ．【点睛】

此题主要考查平均数和方差的计算，解题的关键是熟知其计算方法．

20．已知一组数据a ，b ，c 的平均数为5，方差为4，那么数据a ﹣2，b ﹣2，c ﹣2的平均数和方差分别是.（） A ．3，2 B ．3，4

C ．5，2

D ．5，4

【答案】B 【解析】

试题分析：平均数为

（a?2 + b?2 + c?2 ）=

（3×5-6）=3；原来的方差：

；新的方差：

，故选

考点：平均数；方差.

【分析】数据的分析单元测试题含答案供参考

【关键字】分析第二十章《数据的分析》单元测试题一、选择题） 1．为了了解参加某运动会的200名运动员的年龄情况，从中抽查了20名运动员的年龄，就这个问题来说，下面说法正确的是（） A．200名运动员是总体B．每个运动员是总体 C．20名运动员是所抽取的一个样本D．样本容量是20 2．一城市准备选购一千株高度大约为的某种风景树来进行街道绿化，?有四个苗圃生产基地投标（单株树的价格都一样）．?采购小组从四个苗圃中都任意抽查了20株树苗的高度，得到的数据如下： A．甲苗圃的树苗B．乙苗圃的树苗; C．丙苗圃的树苗D．丁苗圃的树苗3．将一组数据中的每一个数减去50后，所得新的一组数据的平均数是2，?则原来那组数据的平均数是（） A．50 B．．48 D．2 4．一个射手连续射靶22次，其中3次射中10环，7次射中9环，9次射中8环，3次射中7环．则射中环数的中位数和众数分别为（） A．8，9 B．8，．8．5，8 D．8．5，9 5．为鼓励市民珍惜每一滴水，某居委会表扬了100个节约用水模范户，8月份节约用水的情况如下表：那么，8月份这100（） A．1.5t B．1.20t C．1.05t D．1t 6．已知一组数据-2，-2，3，-2，-x，-1的平均数是-0.5，?那么这组数据的众数与中位数分别是（） A．-2和3 B．-2和．-2和-1 D．-2和-1.5 7．方差为2的是（） A．1，2，3，4，5 B．0，1，2，3，5 C．2，2，2，2，2 D．2，2，2，3，3 8．甲、乙两班举行电脑汉字输入速度比赛，?参赛学生每分钟输入汉字的个数经统计计算后结果如下表：（1）甲、乙两班学生成绩的平均水平相同；（2）乙班优秀的人数多于甲班优秀的人数；（每分钟输入汉字≥150个为优秀）（3）甲班成绩的波动情况比乙班成绩的波动小

《数据分析》练习题

《数据分析》练习题 1.一个地区某月前两周从星期一到星期五各天的最低气温依次是(单位:℃):x 1, x 2, x 3, x 4, x 5和x 1+1, x 2+2, x 3+3, x 4+4, x 5+5,若第一周这五天的平均最低气温为7℃,则第二周这五天的平均最低气温为。 2.有10个数据的平均数为12，另有20个数据的平均数为15，那么所有这30个数据的平均数是( ) A ．12 B. 15 C. 1 3.5 D. 14 3.一组数据8,8,x ,6的众数与平均数相同，那么这组数据的中位数是（） A. 6 B. 8 C.7 D. 10 4.某校在一次考试中，甲乙两班学生的数学成绩统计如下：请根据表格提供的信息回答下列问题：（1）甲班众数为分，乙班众数为分，从众数看成绩较好的是班；（2）甲班的中位数是分，乙班的中位数是分；（3）若成绩在80分以上为优秀，则成绩较好的是班；、（4）甲班的平均成绩是分，乙班的平均成绩是分，从平均分看成绩较好的是班. 5.在方差的计算公式 ()()()222 21210120202010 s x x x ??= -+-+???+-??中，数字10和20分别表示的意义可以是( ) A ．数据的个数和方差 B ．平均数和数据的个数 C ．数据的个数和平均数 D ．数据组的方差和平均数 6..如果将所给定的数据组中的每个数都减去一个非零常数，那么该数组的（） A.平均数改变，方差不变 B.平均数改变，方差改变 C.平均输不变，方差改变 D.平均数不变，方差不变 7..已知7,4,3,,321x x x 的平均数是6，则_____________321=++x x x . 8..已知一组数据-3，-2，1，3，6，x 的中位数为1，则其方差为 . 9..已知一组数据x 1,x 2,x 3,x 4,x 5的平均数是2，方差是 3 1 ，那么另一组数据3x 1－2,3x 2－2,3x 3－2, 3x 4－2,3x 5－2的平均数是和方差分别是 . 10..关于一组数据的平均数、中位数、众数，下列说法中正确的是（） A.平均数一定是这组数中的某个数 B. 中位数一定是这组数中的某个数 C.众数一定是这组数中的某个数 D.以上说法都不对分数 50 60 70 80 90 100 人数甲 1 6 12 11 15 5 乙 3 5 15 3 13 11

数据分析笔试题

数据分析笔试题一、编程题（每小题20分）（四道题任意选择其中三道）有一个计费表表名jifei 字段如下：phone(8位的电话号码)，month（月份），expenses （月消费，费用为0表明该月没有产生费用）下面是该表的一条记录：64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。按照要求写出满足下列条件的sql语句： 1、查找2010年6、7、8月有话费产生但9、10月没有使用并（6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来（截止到10月31日）所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。（A、B 分别代表1—9中任意的一个数字） 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码（结果不能出现重复）二、逻辑思维题（每小题10分）须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡，均是60元的价格成交的。其中一张赚了20%，另一张赔了20%，问他总体是盈利还是亏损，盈/亏多少？ 2、有个农场主雇了两个小工为他种小麦，其中A是一个耕地能手，但不擅长播种；而B 耕地很不熟练，但却是播种的能手。农场主决定种10亩地的小麦，让他俩各包一半，于是A从东头开始耕地，B从西头开始耕。A耕地一亩用20分钟，B却用40分钟，可是B播种的速度却比A快3倍。耕播结束后，庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么？ 4、烧一根不均匀的绳，从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子，问如何用烧绳的方法来计时一个小时十五分钟呢？（绳子分别为A 、B、C、D、E、F 。。。。。来代替）

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案导读：探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验，欢迎参考阅读。 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址; 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。July、2011.04.27); 第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N) + N’*O(logK)，(N为1000万，N’为300万)。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000 个小文件(记为x0，x1，…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等)，并取出出现频率最大的100个词(可以用含100 个结点的最小堆)，并把

深圳市高级中学二年级数学下册第一单元《数据收集整理》单元测试题(含答案解析)

深圳市高级中学二年级数学下册第一单元《数据收集整理》单元测试题（含答案解析）一、选择题 1．李兵和王芳做“石头、剪刀、布”的游戏。下面是李兵画“正”字记录的自己游戏的结果。那么王芳赢了（）次。 A. 14 B. 6 C. 8 2．下面是三（1）班男生1分钟跳绳测试的成绩统计图。男生达标成绩是110个，达标的人数是（）人。 A. 25 B. 20 C. 18 3．选一选种类连环画故事书科技书其他人数(人)181284 A.连环画 B.故事书 C.科技书 D.其他（2）喜欢（）的人数最少。 A.连环画 B.故事书 C.科技书 D.其他（3）喜欢故事书的比喜欢连环画的少（）人。 A.10 B.6 C.4 D.8 （4）喜欢连环画的和喜欢科技书的一共（）人。 A.30 B.20

C.26 D.12 4．心心幼儿园新进了一批玩具。玩具个数（个）812610 心心幼儿园新进的玩具一共有（）个。 A. 20 B. 36 C. 18 D. 26 5．某班24名男生参加50米跑测试成绩如下图：从上图中可以看出，得（）的人最多。 A. 优秀 B. 良好 C. 合格 D. 不合格6．学校有8个班参加了回收废报纸活动。第一天回收废报纸43千克；第二天回收废报纸38千克；第三天回收废报纸39千克。平均每天回收废报纸（）千克。 A. 39 B. 40 C. 41 D. 42 7．要反映长沙市一周内每天的最高气温的数据情况，宜采用（）。 A. 条形统计图 B. 扇形统计图 C. 统计表 D. 频数分布直方图 8．下图中三角形有几个？（） A. 5个 B. 3个 C. 4个 9．2012年伦敦奥运会金牌情况统计表。国家中国英国美国巴西数量（块）38294612 A. 中国 B. 英国 C. 美国 D. 巴西10．喜欢( )小组的人数最少。

数据分析期末试题及答案

数据分析期末试题及答案一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)的数据，试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解： 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系上图是以人均GDP(x1)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。尝试多种模型后采用曲线估计，得出表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间基本呈正线性关系。上图是以疫苗接种率(x3)为横轴，地区平均寿命(y)为纵轴的散点图，由图可知，他们之间没有呈线性关系。 x）为横轴，地区平均寿命(y)为纵轴的散点图，上图是以疫苗接种率(x3)的三次方（3 3 由图可知，他们之间呈正线性关系所以可以采用如下的线性回归方法分析。

2.线性回归先用强行进入的方式建立如下线性方程设Y=β0+β1*（Xi1）+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi（i=1.2……22）相互独立，都服从正态分布N（0，σ^2）且假设其等于方差 R值为0.952，大于0.8，表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)一起表示出来。建立总体性的假设检验提出假设检验H0：β1=β2=β3=0，H1,：其中至少有一个非零得如下方差分析表上表是方差分析SAS输出结果。由表知，采用的是F分布，F=58.190，对应的检验概率P值是0.000.，小于显著性水平0.05，拒绝原假设，表示总体性假设检验通过了，平均寿命(y)与人均GDP(x1)、成人识字率(x2)，一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

数据分析笔试题全解

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度

招行-DW-BI-数据面试题及答案

DW/BI 数据库面试题一、基础题 1. 2.描述Tablespace和Datafile之间的关系. 3.描述日志的作用. 4. 5.

7. 8. 9.FACT Table上需要建立何种索引？二、SQL试题

1.有一张表T（F1，F2，F3，F4），要根据字段F2排序后取第8-16条记录显示，请写出SQL。 2.指出下面SQL语句的执行顺序： select a.column1 , COUNT(*) AS CountValue, SUM(b.column3) AS SumValue from TableAainnerjoinTableB b on a.column1 = b.column1 and a.column2 = 1 where b.column3 = 10 group by a.column1 having COUNT(*)> 10 order by a.column1 1. From 2. ON 3. INNER JOIN 4. WHERE 5. GROUP BY 6. having 7. SELECT8. ORDER BY 三、DW/BI 试题 1.描述ROLAP、MOLAP、HOLAP的区别与优势。

3.描述一下DW设计架构，及ETL设计方法。 4.描述你所熟悉的数据模型，如一些行业的模型，实际参与的设计及主题。财务数据模型，主要是凭证，会计科目，供应商，客户，等主事实表就是会计分录、凭证等。因为凭证有表头和表体。所以事实表由两个表组成，一个是存储表头一个是表体。会计科目、供应商、客户是作为单独维度表。其他维度作为辅助维度存储在在一张表中。

2020-2021八年级数学数据的分析单元测试题

一、选择题(每小题4分，共36分) 1、为了解我校八年级800名学生期中数学考试情况，从中抽取了200名学生的数学成绩进行统计.下列判断：①这种调查方式是抽样调查；②800名学生是总体；③每名学生的期中考试数学成绩是个体；④200名学生是总体的一个样本；⑤200名学生是样本容量.其中正确的判断有（） A.1个 B.2个 C.3个 D.4个 2、人数相同的八年级甲、乙两班学生在同一次数学单元测试，班级平均分和方差如下：80==乙甲x x ，2402=甲 s ，1802=乙s ，则成绩较为稳定的班级是（） A.甲班 B.乙班 C.两班成绩一样稳定 D.无法确定 3 这组数据的中位数和众数别是（） A.24，25 B.24.5，25 C.25，24 D.23.5，24 4、在学校对学生进行的晨检体温测量中，学生甲连续10天的体温与36℃的上下波动数据为0.2，0.3，0.1，0.1，0，0.2，0.1，0.1，0, 0.1，则在这10天中该学生的体温波动数据中不正确的是（）

A.平均数为0.12 B.众数为0.1 C.中位数为 0.1 D. 方差为0.02 5、甲、乙、丙、丁四人的数学测验成绩分别为90分、90 分、x分、80分，若这组数据的众数与平均数恰好相等，则这组数据的中位数是（） A.100分 B.95分 C.90分 D.85分 6、已知三年四班全班35人身高的算术平均数与中位数都是 150厘米，但后来发现其中有一位同学的身高登记错误，误将160厘米写成166厘米，正确的平均数为a厘米，中位数为b厘米关于平均数a的叙述，下列何者正确（） A.大于158 B.小于158 C.等于158 D.无法确定 7、在上题中关于中位数b的叙述。下列何者正确（） A.大于158 B.小于158 C.等于158 D.无法确定 8、已知一组数据1、2、y的平均数为4，那么（） A.y=7 B.y=8 C.y=9 D.y=10 9、若一组数据a1，a2，…，a n的方差是5，则一组新数据2a1，2a2，…，2a n的方差是（） A.5 B.10 C.20 D.50 二、填空题(每空3分，共45分) 10、数学期末总评成绩由作业分数，课堂参与分数，期考分数三部分组成，并按3：3：4的比例确定。已知小明的期考80分，作业90分，课堂参与85分，则他的总评成绩为________

2016年数据分析面试常见问题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理； 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址； 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址； 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP； 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：

第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计（之前写成了排序，特此订正。July、2011.04.27）；第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N）+ N’*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map 等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。 4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个

20、第二十章《数据的分析》单元测试题(含答案)-

第二十章《数据的分析》单元测试题一、选择题） 1．为了了解参加某运动会的200名运动员的年龄情况，从中抽查了20名运动员的年龄，就这个问题来说，下面说法正确的是（） A．200名运动员是总体B．每个运动员是总体 C．20名运动员是所抽取的一个样本D．样本容量是20 2．一城市准备选购一千株高度大约为2m的某种风景树来进行街道绿化，?有四个苗圃生产基地投标（单株树的价格都一样）．?采购小组从四个苗圃中都任意抽查了20株树苗的高度，得到的数据如下：请你帮采购小组出谋划策，应选购（） A．甲苗圃的树苗B．乙苗圃的树苗; C．丙苗圃的树苗D．丁苗圃的树苗 3．将一组数据中的每一个数减去50后，所得新的一组数据的平均数是2，?则原来那组数据的平均数是（）A．50 B．52 C．48 D．2 4．一个射手连续射靶22次，其中3次射中10环，7次射中9环，9次射中8环，3次射中7环．则射中环数的中位数和众数分别为（） A．8，9 B．8，8 C．8．5，8 D．8．5，9 5 那么，8月份这100 A．1.5t B．1.20t C．1.05t D．1t 6．已知一组数据-2，-2，3，-2，-x，-1的平均数是-0.5，?那么这组数据的众数与中位数分别是（） A．-2和3 B．-2和0.5 C．-2和-1 D．-2和-1.5 7．方差为2的是（） A．1，2，3，4，5 B．0，1，2，3，5 C．2，2，2，2，2 D．2，2，2，3，3 8 某同学根据上表分析得出如下结论：（1）甲、乙两班学生成绩的平均水平相同；（2）乙班优秀的人数多于甲班优秀的人数；（每分钟输入汉字≥150个为优秀）（3）甲班成绩的波动情况比乙班成绩的波动小上述结论中正确的是（） A．（1）（2）（3）B．（1）（2）C．（1）（3）D．（2）（3） 9．某校把学生的纸笔测试、实践能力、成长纪录三项成绩分别按50%、20%?、?30%的比例计入学期总评成绩，90分以上为优秀．甲、乙、?丙三人的各项成绩如下表（单位：分），学期总评成绩优秀的是（）

21个必知数据科学面试题和答案

21个必知数据科学题和答案 2016-03-10分类：其他最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门，获得了一月的阅读量排行首位。但是这些问题并没有提供答案，所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问，是20个问题里没有的。下面是答案。 Q1.解释什么是正则化，以及它为什么有用。回答者：Matthew Mayo 正则化是添加一个调优参数的过程模型来引导平滑以防止过拟合。(参加KDnuggets文章《过拟合》) 这通常是通过添加一个常数到现有的权向量。这个常数通常要么是L1(Lasso)要么是L2(ridge)，但实际上可以是任何标准。该模型的测算结果的下一步应该是将正则化训练集计算的损失函数的均值最小化。 Xavier Amatriain在这里向那些感兴趣的人清楚的展示了L1和L2正则化之间的比较。图1.Lp球:p的值减少,相应的L-p空间的大小也会减少。 Q2.你最崇拜哪些数据科学家和创业公司？回答者：Gregory Piatetsky 这个问题没有标准答案，下面是我个人最崇拜的12名数据科学家，排名不分先后。 Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他们对神经网络的坚持不懈的研究，和开启了当前深度学习的革命。 Demis Hassabis，因他在DeepMind的杰出表现——在Atari游戏中实现了人或超人的表现和最近Go的表现。来自datakind的Jake Porway和芝加哥大学DSSG的Rayid Ghani因他们让数据科学对社会产生贡献。 DJ Patil，美国第一首席数据科学家，利用数据科学使美国政府工作效率更高。 Kirk D. Borne，因其在大众传媒中的影响力和领导力。

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？ 9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在

所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？ 19、如何你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？ 20、如果有几个客户查询ORACLE数据库的效率很低。为什么？你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？ 21、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？ 22、什么是哈希表碰撞攻击？怎么避免？发生的频率是多少？ 23、如何判别mapreduce过程有好的负载均衡？什么是负载均衡？ 24、请举例说明mapreduce是如何工作的？在什么应用场景下工作的很好？云的安全问题有哪些？ 25、（在内存满足的情况下）你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？ 26、为什么朴素贝叶斯差？你如何使用朴素贝叶斯来改进爬虫检验算法？ 27、你处理过白名单吗？主要的规则？（在欺诈或者爬行检验的情况下） 28、什么是星型模型？什么是查询表？

数据分析岗面试题

数据分析岗面试题 It was last revised on January 2, 2021

数据分析岗面试题1、表：table1(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列表，显示班级，成绩两个字段。 2、有一个表table1有两个字段FID，Fno，字都非空，写一个SQL语句列出该表中一个FID对应多个不同的Fno的纪录。 Fid Fno 101 a1001 101 a1001 102 a1002 102 a1003 103 a1004 104 a1005 104 a1006 105 a1007 105 a1007 105 a1007 3、有员工表empinfo ( Fempno varchar2(10) not null pk, Fempname varchar2(20) not null, Fage number not null, Fsalary number not null ); 假如数据量很大约1000万条；写一个你认为最高效的SQL，用一个SQL计算以下四种人： fsalary>9999 and fage > 35 fsalary>9999 and fage < 35 fsalary <9999 and fage > 35 fsalary <9999 and fage < 35 每种员工的数量； 4、 Sheet1: sheet2： Sheet1、sheet2是Excel中两个表，sheet2中记录了各产品类别下面对应的产品编码，现要在sheet1 C列中对应A列产品编码所对应的产品类别，请写出公式。

毕业生笔试题：阿里巴巴数据分析笔试题

《毕业生：阿里巴巴数据分析师笔试题》最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（https://www.doczj.com/doc/b32690111.html,）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。答案在最后，可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么？请列举1种识别连续型变量异常值的方法？二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。三、根据要求写出SQL 表A结构如下： Member_ID（用户的ID，字符型） Log_time（用户访问页面时间，日期型（只有一天的数据）） URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）四、销售数据分析根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师， a)从数据中，你看到了什么问题？你觉得背后的原因是什么？ b)如果你的老板要求你提出一个运营改进计划，你会怎么做？五、用户调研某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题： a)试验需要为决策提供什么样的信息？ b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线——————————————— 一、异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。【点评】考察的内容是统计学基础功底。二、聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后

数据分析经典测试题含答案解析

数据分析经典测试题含答案解析一、选择题 1．某校九年级数学模拟测试中，六名学生的数学成绩如下表所示，下列关于这组数据描述正确的是（） A．众数是110 B．方差是16 C．平均数是109.5 D．中位数是109 【答案】A 【解析】【分析】根据众数、中位数的概念求出众数和中位数，根据平均数和方差的计算公式求出平均数和方差．【详解】解：这组数据的众数是110，A正确； 1 6 x=×（110+106+109+111+108+110）＝109，C错误； 21 S 6 = [（110﹣109）2+（106﹣109）2+（109﹣109）2+（111﹣109）2+（108﹣109）2+ （110﹣109）2]＝8 3 ，B错误；中位数是109.5，D错误；故选A．【点睛】本题考查的是众数、平均数、方差、中位数，掌握它们的概念和计算公式是解题的关键． 2．一组数据2，x，6，3，3，5的众数是3和5，则这组数据的中位数是（） A．3 B．4 C．5 D．6 【答案】B 【解析】【分析】由众数的定义求出x=5，再根据中位数的定义即可解答．【详解】解：∵数据2，x，3,3,5的众数是3和5， ∴x=5，

则数据为2、3、3、5、5、6，这组数据为35 2 =4．故答案为B．【点睛】本题主要考查众数和中位数，根据题意确定x的值以及求中位数的方法是解答本题的关键． 3．如图，是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图，下面关于该班50名同学一周锻炼时间的说法错误的是（） A．平均数是6 B．中位数是6.5 C．众数是7 D．平均每周锻炼超过6小时的人数占该班人数的一半【答案】A 【解析】【分析】根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数，由图可知锻炼时间超过6小时的有20+5＝25人．即可判断四个选项的正确与否．【详解】 A、平均数为1 50 ×（5×7+18×6+20×7+5×8）＝6.46，故本选项错误，符合题意； B、∵一共有50个数据， ∴按从小到大排列，第25，26个数据的平均值是中位数， ∴中位数是6.5，故此选项正确，不合题意； C、因为7出现了20次，出现的次数最多，所以众数为：7，故此选项正确，不合题意； D、由图可知锻炼时间超过6小时的有20+5＝25人，故平均每周锻炼超过6小时的人占总数的一半，故此选项正确，不合题意；故选A．【点睛】此题考查了中位数、众数和平均数的概念等知识，中位数是将一组数据从小到大（或从大到小）重新排列后，最中间的那个数（最中间两个数的平均数），叫做这组数据的中位数，如果中位数的概念掌握得不好，不把数据按要求重新排列，就会错误地将这组数据最中间的那个数当作中位数．

数据分析岗面试题

数据分析岗面试题-标准化文件发布号：（9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据分析岗面试题 1、表：table1(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列表，显示班级，成绩两个字段。 2、有一个表table1有两个字段FID，Fno，字都非空，写一个SQL语句列出 Fno的纪录。 3、有员工表empinfo 4、( 5、Fempno varchar2(10) not null pk, 6、Fempname varchar2(20) not null, 7、Fage number not null, 8、Fsalary number not null 9、); 10、假如数据量很大约1000万条；写一个你认为最高效的SQL，用一个SQL 计算以下四种人： 11、fsalary>9999 and fage > 35 12、fsalary>9999 and fage < 35 13、fsalary <9999 and fage > 35 14、fsalary <9999 and fage < 35 15、每种员工的数量； 4、

Sheet1: sheet2： Sheet1、sheet2是Excel中两个表，sheet2中记录了各产品类别下面对应的产品编码，现要在sheet1 C列中对应A列产品编码所对应的产品类别，请写出公式。 5、某商品零售公司有100万客户资料数据（客户数据信息包括客户姓名、电话、地址、购买次数、购买时间、购买金额、购买产品种类等等），现要从中抽取10万客户，对这些客户发送目录手册，为了能使这批手册产生的利润最大，从已有的客户数据信息，我们应该如何挑选这10万个客户？

电子商务数据分析试卷及答案3

《电子商务数据分析》试卷班级： _______________ 姓名：_______________________ 一、填空题（共10 题，每题 1 分。） 1．单击生意参谋上方导航栏中的“ __________ ”超链接可进入实时直播版块，此功能会将店铺的实时数据、来源、榜单、访客等数据进行汇总显示。 2．要选定相邻的多张工作表，先单击所需的第一张工作表的标签，并按住____________ 键不放，然后单击要选定的最后一张工作表的标签即可。 3．选择单元格区域，录入相应的数据后，按_____________________ 键可将选择的每个单元格中录入相同数据。 4．进入生意参谋后，单击顶部导航栏中的“ ___________ ”版块即可配置竞争对手，并对竞店、竞品和竞争品牌进行分析。 5 ．提高转化率是提高销售额最有效的途径，计算公式为： 6．外链出现的方式有直接链接和__________ 两种。 7．若要输入分数，则应在前面加上_____________________ 。 8．筛选是一种用于查找符合条件的数据的快速方法，Excel中有 ________ 和___________ 两种方法。 9． _____________ 是指利用各种电商平台和工具对数据的分析功能，直接观察出数据的发展趋势，找出异常数据，对消费者进行分群等。 10．行业稳定性涉及 ________ 和极差两个指标。二、单项选择题（共10 题，每题 1 分。） 1．用于收集市场信息并进行整理与分析，提出可行的市场推广方案，再跟据收集到的信息进行市场推广活动的效果评估，做好市场推广预算，控制活动成本，完善市场推广方案的数据分析岗位是（）。 A．推广类岗位 B．客服类岗位 C．采编类岗位 D．美工类岗位 2．在Excel 中，已知某单元格的格式为000.00，值为23.785，则显示的内容为（）。A．23.78 B．23.79 C．23.785 D．023.79 3．采用（）定价策略可能会带来价格竞争。 A．基于成本的定价

大数据面试题剖析讲课稿

单项选择题 1. 下面哪个程序负责 HDFS 数据存储。 a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2. HDfS 中的 block 默认保存几份? a)3 份 b)2 份 c)1 份 d)不确定 3. 下列哪个程序通常与 NameNode 在一个节点启动? a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker

4. Hadoop 作者 a)Martin Fowler b)Kent Beck c)Doug cutting 5. HDFS 默认 Block Size a)32MB b)64MB c)128MB 6. 下列哪项通常是集群的最主要瓶颈 a)CPU b)网络 c)磁盘 d)内存 7. 关于 SecondaryNameNode 哪项是正确的? a)它是 NameNode 的热备 b)它对内存没有要求

c)它的目的是帮助NameNode 合并编辑日志，减少NameNode 启动时间 d)SecondaryNameNode 应与 NameNode 部署到一个节点多选题 8. 下列哪项可以作为集群的管理工具 a)Puppet b)Pdsh c)Cloudera Manager d)d)Zookeeper 9. 配置机架感知的下面哪项正确 a)如果一个机架出问题，不会影响数据读写 b)写入数据的时候会写到不同机架的 DataNode 中 c)MapReduce 会根据机架获取离自己比较近的网络数据 10. Client 端上传文件的时候下列哪项正确 a)数据经过 NameNode 传递给 DataNode b)Client 端将文件切分为 Block，依次上传