当前位置：文档之家› 2011阿里巴巴数据挖掘笔试

2011阿里巴巴数据挖掘笔试

2011Alibaba数据分析师（实习）试题解析

投稿人/作者: wrchow 发布时间：2012-04-30 11:48:03 投稿到ChinaKDD

一、异常值是指什么？请列举1种识别连续型变量异常值的方法？

异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。

Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。

未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。

二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。

聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分

析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。

聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

其流程如下：

（1）从n个数据对象任意选择k 个对象作为初始聚类中心；

（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；

（3）重新计算每个（有变化）聚类的均值（中心对象）；

（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。

优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为

O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

缺点：1. K 是事先给定的，但非常难以选定；2. 初始聚类中心的选择对聚类结果有较大的影响。

三、根据要求写出SQL

表A结构如下：

Member_ID（用户的ID，字符型）

Log_time（用户访问页面时间，日期型（只有一天的数据））

URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）

create table B as select Member_ID, min(Log_time), URL from A group by Member_ID ;

四、销售数据分析

以下是一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师，

a) 从数据中，你看到了什么问题？你觉得背后的原因是什么？

b) 如果你的老板要求你提出一个运营改进计划，你会怎么做？

表如下：一组每天某网站的销售数据

a) 从这一周的数据可以看出，周末的销售额明显偏低。这其中的原因，可以从两个角度来看：站在消费者的角度，周末可能不用上班，因而也没有购买该产品的欲望；站在产品的角度来看，该产品不能在周末的时候引起消费者足够的注意力。

b) 针对该问题背后的两方面原因，我的运营改进计划也分两方面：一是，针对消费者周末没有购买欲望的心理，进行引导提醒消费者周末就应该准备好该产品；二是，通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。

五、用户调研

某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题：

a) 试验需要为决策提供什么样的信息？

c) 按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。

b) 根据三类客户的数量，采用分层比例抽样；

需要采集的数据指标项有：客户类别，改进计划前周消费次数，改进计划后周消费次数；

选用统计方法为：分别针对A、B、C三类客户，进行改进前和后的周消费次数的，两独立样本T-检验（two-sample t-test）。

阿里数据分析笔试题

2016阿里巴巴数据分析师职位笔试题目阿里巴巴作为全球领先的小企业电子商务公司，招聘阿里巴巴数据分析师职位都会出些什么笔试题目呢?咱们一起看看。一、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test(是以Frank E. Grubbs命名的)，又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下： (1)从n个数据对象任意选择k 个对象作为初始聚类中心;

阿里巴巴笔试题+解析(完整)

阿里巴巴面试题 1、 20个阿里巴巴B2B技术部的员工被安排为4排，每排5个人，我们任意选其中4人送给他们一人一本《effective c++》，那么我们选出的4人都在不同排的概率为： A、 5^4*5!*15!/20! B、 4^5*5!*15!/20! C、 5^4*4!*16!/20! D、 4^5*4!*16!/20! 2、若有序表的关键字序列为（b,c,d,e,f,g,q,r,s,t），则在二分查找关键字b的过程中，先后进行的关键字依次为： A、f,c,b B、f,d,b C、g,c,b D、g,d,b 3、 perl里面声明：open（FILE,mode，file）; 操作的描述，下列哪项不正确？ A、 FILE可以用变量$file来代替 B、 mode可以和file写在一起，例如：open（FILE, ‘>file’） C、 mode为+<的时候，只可以读文件，不能写文件（既可以读也可以写） D、 mode可以省略不写 4、有一个虚拟存储系统，若进程在内存中占3页（开始时内存为空），若采用先进先出（FIFO）页面淘汰算法，当执行如下访问页号序列后1，2，3，4，5,1，2，5，1，2，3，4，5，会发生多少缺页？ A、7 B、8 C、9 D、10 5、设有一个顺序栈S，元素s1、s2、s3、s4、s5、s6依次进栈，如果6个元素的出栈顺序为s2、s3、s4、s 6、s5、s1，则顺序栈的容量至少应为多少？ A、2 B、3 C、4 D、5 6、下列关于文件索引结构的叙述中，哪一个是错误的？ A、采用索引结构，逻辑上连续的文件存放在连续的物理块中 B、系统为每个文件建立一张索引表 C、索引结构的优点是访问速度快，文件长度可以动态变化 D、索引结构的缺点是存储开销大 7、在ASC算法team日常开发中，常常面临一些数据结构的抉择，令人纠结。目前大家在策划一个FBI项目（Fast Binary Indexing），其中用到的词汇有6200条，词汇长度在10-15之间，词汇字符是英文字母，区分大小写。请在下面几个数据结构中选择一个使检索速度最快的： A、二叉搜索树，比较函数开销：1次运算/每字符 B、哈希表，hash算法开销：10次运算/每字符 C、链表，比较函数开销：1次运算/每字符 D、 TRIE树，寻找子节点开销：1次运算/每字符 8、【0、2、1、4、3、9、5、8、6、7】是以数组形式存储的最小堆，删除堆顶元素0后的结果是（） A、【2、1、4、3、9、5、8、6、7】 B、【1、2、5、4、3、9、8、6、7】

阿里巴巴数据产品经理工作(总结篇) _0

[ 产品经理] 阿里巴巴数据产品经理工作(总结篇) 2015-3-17 17:07| 发布者: 猫儿来自: 阿里巴巴PD | 关键词： PD（指产品经理，下同）本身就是在做牛做马，关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。科普： PD：对于WEB产品设计人员而言，它的意思是“产品设计人员”，即produce designer。 PD：在IT企业中，一般是Product Director(产品主管)或Project Director(项目主管)的意思一. 如何做一个好的数据产品经理？

PD（指产品经理，下同）本身就是在做牛做马，关系圈异常复杂。数据PD也不例外。而且打交道的人更多。以下是我用PPT绘制的数据产品经理关系圈。如果你也做过数据产品的产品经理（好拗口），相信也有同感。既然要和这么多人打交道，要推动数据产品的上线，数据产品经理自然有着一定的要求。我的体会如下——也借此去鞭策自己在朝这个方向努力： 1.要极其熟悉公司业务及动向。所以要了解公司的商业模式、战略、以及业务流程、要考核的各种指标，以及指标背后的业务含义等。这一点，再了解都不够。 2.要了解数据分析。好的数据PD，即使不做数据PD，也应该是个数据分析师。数据PD 的一大要务就是将数据分析做成可复制，可自动运转的系统。虽然有数据分析师们围绕在自己周围，但是自己也要清楚业务的问题，分别要看什么数据，或者当数据出现后，意味着业务出现了什么问题或者会出现什么问题。这一点，要向最好的数据分析师们看齐。

3. 要了解数据仓库及商务智能。这两个关键词背后都是庞大的体系，恐怕我短短半年的转岗时间太短，虽然能够对别人讲解一通商务智能产品的架构。嘴里虽然会抛出若干个类似于汇总，钻取，度量，指标，维度，缓慢变化维，层次，属性，仪表盘等等术语，但是也不支持多几层的知识钻取，遇到异常问题，也不知道该从什么地方分析原因。幸而身边有数据仓库的同事，可以多多学习。这一点，没有天花板。而商务智能，做为一门学科，起源于20世纪90年代，它的出发点是帮助用户更好地获取决策信息，最初商务智能的动机是为用户提供自助式的信息获取方式，这样，用户就可以不用依赖于IT部门去获取定制的报表。（引自《信息仪表盘》一书P41）。而如今，商务智能除了提供信息，更主要的是降低用户获取数据的门槛，提升数据的实时性等方面。从降低用户获取数据的门槛一个方向，我们就可以做很多事情，比如如何设计信息仪表盘（designing of information dashboard）？如何让数据以更亲和的更直观的方式展示（数据可视化）？如何能够让用户离线访问？如何能够实现警戒数据的主动发送？这一点上，花多少功夫都不多。 4. 要精通数据产品开发流程。数据开发+产品开发。数据PD的最终目的是要做数据产品。这里要拆开看，其一，数据产品本身也是在线可供用户实现的产品，既然是产品，产品的整套研发思路和普通的产品没有太大区别，用户是谁，他们需求是什么，满足需求需要什么feature list，每个feature list的资源评估以及优先级如何，产品的生命周期如何？这是产品开发。然后他是个数据产品，意味着这比普通的产品，多了更多的要求。在数据这个内核之外，它需要各种feature list，如订阅，搜索，自定义，短信接口，邮件接口等。但是数据这个内核，也需要一套数据开发流程。比如：数据源——是否足够，是否稳定——数据PD需要足够了解目前的业务处理系统建设情

阿里数据整合及数据管理体系解读

前段时间给大家推荐了《大数据之路--阿里巴巴大数据实践》，这本书确实内容非常详实，全是干货，值得反复品味。刚刚看完第9章，讲的是数据整合及管理体系，觉得非常好，设计得非常精妙，只看看觉得还不能深刻理解，遂做个读书笔记按照自己理解重构整理一遍，同时补充上自己的解读分享给大家，推荐给准备搭建数据产品或者数据平台的人。传统企业的业务变化相对不快，但使用一般的表格文档来管理数据过程也已经越来越困难，更何况互联网这样迅速变化的业务，做好数据整理及管理的难度可想而知，但阿里的数据团队还是形成了完成的方法体系，并把其工具化。也只有完备方法体系下构建的工具能满足复杂的数据管理需求。阿里大数据建设方法论的核心就是，从业务架构设计到模型设计，从数据研发到数据服务，做到数据可管理、可追溯、可规避重复建设。目标是建设统一的、规范的数据接入层（ODS ）和数据中间层（DWD和 DWS ），通过数据服务和数据产品，完成服务于阿里巴巴的大数据系统建设。所以数据管理体系是包含具体的方法论以及相关的产品两个部分，通过产品把方法论固化为标准的流程和操作，达到数据管理的目的。数据体系架构数据管理体系包括了业务板块划分、数据域提炼、业务过程梳理、原子指标/度量定义、派生指标定义及管理，维度分析整理以及数据模型的设计。通过下面的体系架构图来看看数据体系建设的过程、以及每一步做什么和如何做。另外，如何定义每个术语的涵义，准确定义术语非常关键，有时候描述不清楚复杂的流程、场景最根本是因为对其中的一些概念没有非常很好的厘清。

业务板块：根据业务的属性划分出相对独立的业务板块，业务板块间指标和业务重叠性较低，比如电商板块涵盖淘宝、天猫、天猫国际、 B2B 系，金融板块涵盖支付宝、花呗、蚂蚁微贷等。业务板块非常宏观, 可以想象成贾不死的 7大生态。规范定义：结合行业的数据仓库建设经验和阿里数据自身的特点，设计出的一套过程方法和数据规范命名体系，规范定义将用于模型设计中。规范定义指以维度建模作为理论基础，构建总线矩阵，划分和定义数据域、业务过程、原子指标 /度量、修饰类型、修饰词、时间周期、派生指标规则，下图是它们之间的关系, 以及具体实例。规范定义实例修矗型维度 ▼ . 1 ▼ ■ T 楼饰词戶子洁标! 岖廈隱性! 1 嚴生拦标 <■- 一一 _ 子指标十対刖息割十幔茶词 1 J ----- 1… 二二 — — — — | — --- ---- na ___ —.1 —— —j T V r* .m _ J — * ?■ — — — 一一一 — 1 ir ' 疋总事实表［杷明唧审冥聚合的事寰表】 ( 明鉅車寬袁盘原始板度的明堀救据）（把逍担鍵度轲理化的霍表:. ___ t.. ivritw ■近1夫通址奄的丫 *TTff ］（1 009 P*V..WTfl 支讨督糾 P*v _a*Tit 喙巧茗呼 t 金tt 古式

数据分析笔试题

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下：首先从n个数据对象任意选择k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。其流程如下：（1）从n个数据对象任意选择k 个对象作为初始聚类中心；（2）根据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并根据最小距离重新对相应对象进行划分；（3）重新计算每个（有变化）聚类的均值（中心对象）；（4）循环（2）、（3）直到每个聚类不再发生变化为止（标准测量函数收敛）。优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为O(NKt)，其中N是数据对象的数目，t是迭代的次数。一般来说，K<

百一测评——2015年阿里巴巴校园招聘在线笔试题目

职业技能题库&在线云笔试平台https://www.doczj.com/doc/ee16423851.html, 试卷名称：2015年阿里巴巴校园招聘在线笔试题目试卷描述：在线考试、招聘笔试、微信考试试卷链接：https://www.doczj.com/doc/ee16423851.html,/paperDetail?paperId=40473 试卷限时：50分钟一.不定项项选择题每题分值：5分是否题目乱序：是是否选项乱序：是是否可回溯：是难度：中 1.[不定项]通过算法生成的随机数是“伪随机”的，也就是说，在设定好第一个数之后，后面的数字的序列是确定的，并且经过一个非常大的循环会回到第一个数的状态，然后周而复始。显然，摇号、抽奖的程序是不能通过伪随机数来实现的。现实中常常基于某种热噪声来实现真正的随机数。假定某热噪声是标准正态分布，那么能否将它转换成(0,1)区间上的均匀分布______? A. 忽略测量和计算误差，可以转换为(0,1)区间上的均匀分布。 B. 无法转换为(0,1)区间上的均匀分布。 C. 信息不足，无法判断。 D. 借助伪随机数生成算法可以转换为(0,1)区间上的均匀分布。 E. 仅仅靠伪随机数生成算法，就可以生成(0,1)区间上的均匀分布 F. 以上说法都不对。

职业技能题库&在线云笔试平台https://www.doczj.com/doc/ee16423851.html, 答案：A 2.[不定项]在一个童话世界里，任意两个人之间要么是朋友关系，要么是敌人关系，不存在其他关系及没有关系的情况。并且，如果A和B是朋友关系，B和C是朋友关系，那么A 和C必然是朋友关系。那么关于这个童话世界中的人群的说法错误的是：______? A. 可能只有1个人群，这个人群内部是朋友关系。 B. 可能有2个人群，人群内部是朋友关系，人群之间是敌人关系。 C. 可能有3个及以上个人群，人群内部是朋友关系，人群之间是敌人关系。 D. 如果存在多个人群，并且人群内部是朋友关系，人群之间是敌人关系，那么这些人群必然是差不多大小的。 E. 选项B中的情况可以是其中一个人群只有一个人，另外一个人群可以由很多人。 F. 这样一个世界里朋友关系是比较不容易发生变化的。答案：D 3.[不定项]12321能被写成______种两个质数相加的形式。 A. 0 B. 1 C. 2 D. 3 E. 4 F. 5 答案：A 4.[不定项]在小端序的机器中，如果

阿里巴巴笔试题答案

第一题选C，不解释吧，按位与就行第二题选D，不解释，2*3*sizeof(int*)=48（64位机器上是8字节一个指针）第三题选C，我不确定，不过，应该是的第四题选D，明显考的是补码第5题选D，果断访问错误（这是Java的代码）第6题选B，大家都懂第7题果断A啊第8题果断是B，不解释，大家懂第9题是B，’0’不是’\0’，这个要注意第10题果断是Fibonacci，显然是C，前几个是0，1，2，3，5，8，13，21 第11题选B，计算量是2^35，现在计算机的主频是2^30，所以差不多是几秒的事第12题是B，显然有n=4N1+3N3+2N2+N1+1=N4+n3+n2+n1，所以N0=82，不解释第13题果断是D，这个老题目了，不解释第14题是C，二分查找嘛，大家都会，不解释第15题是Fulkerson算法，算出来是46，每一次选一个增广路径即可，直接选不出来为止第16题选185，显然，它给了120块钱(楼主二了)和一个物品（值65元），所以亏损185 这个题目楼主是这样想的，结果二了第17题是2，不解释Fermart小定理，2^6 mod 7= 1，所以2^100=2^4=16=2 mod 7 第18题，我觉得是B，不知道对不对，这个不会第19题，算得不太精细，选了A，不确定。第20题C，概率与级数运算，不解释第21题，果断B，D，malloc，new申请到的是Virtual Memory，不过，windows里面还真可以申请到物理内存，用的是VirtualAllocEx API即可

第22题B,C肯定对，D不确定，感觉是对的，不过，没敢选第23题，其实就是解n^14<10^16，解出n<= 13，所以选14，15（我是推出n<10^(8/7)然后算出n<=13 第24题，D，因为选出第一个是白的，所以位于A的概率是2/3 第25，不可能，需要2.8*10^8 bit，而蓝牙只能传2.4*10^7bit所以一帧需要0.2S 第26题(mnlogn)不解释，归并而已第27题显然是17分钟第28，错两个地方1，没考虑只有一个数，2，可能死循环（给你数组0，2，3让查找1）楼主两个都想到了，写的时候忘记了写1，悲剧第29题，果断SkipList，地球人懂的O(PLogpN)

2014年阿里巴巴数据分析师笔试题

2014年3月29日阿里巴巴数据分析师（北京）一、10道填空，每题3分 1、小松鼠采到了100颗坚果要运回家。家离放坚果的地方有100米远。小松鼠每次最多运50颗。BUT！小松鼠很馋。。。每走2米就要吃一颗坚果。。。问小松鼠最多能运回家多少颗坚果？ A 0 B 10 C 25 D50 答案：应该是25颗吧！（先运50颗50米，吃了25颗，返回去，回去的途中没吃的了，再运50颗到50米的地方，又吃了25颗，再把剩下的运回家，又吃25颗，还剩25颗。）吐槽一下，题目应该说明：小松鼠足够聪明，至少比参加考试的人聪明。。。 2、标号12345的5个球，一次取两个，和为3或者6的概率是多少？答案：0.3。不解释。 3、考了LOGISTIC回归。 4、聚类分析法，k_means。 5、其他条件相同，置信水平越低，则置信区间上下限差值越() A.越大 B.越小 C.为0 D不确定应该是B吧。 6、precision、ecall、ROC。剩下的不记得了。二、三道题，每题10分。 1、已知每10万人中有1人得艾滋病。现在有一种检查，如果被测者患病则一定能查出来。如果被测者没病，有1%的测试出错也显示阳性。现在一个人检查结果是阳性。问真正得病的概率？答案：貌似所有的讲全概率公式的书上都有这道题。 2、SQL 两张表合并，主键是USER_ID，然后把深圳市、广州市，大于16岁的，发生在2013年12月的一项挑出来加起来。不会SQL的话就写思路。我就不会。。。。。。 3、层次分析法AHP的含义，具体步骤。并举一个适合用层次分析法的案例。三、两道题，每题20分。 1、淘宝上有一些小众但是品位高的店铺，怎么把他们筛选出来捏？ 2、双十一的时候，商家会发优惠券，从商家和平台两个角度设计评价指标，并分析指标不同结果应该对应怎样的措施。资料：优惠券分两种：满200减50，满300减100. 发放日期：10月15-11月10 使用日期：11月11 希望对大家有所帮助！

2015校招-阿里巴巴在线笔试题目

1、某团队有 2/5的人会写Java程序，有3/4的人会写C++程序，这个团队里同时会写Java和C++的最少有______人。 3 4 5 8 15 20 2、下列结构中，______必须随机存取实现。栈队列数组单链表二叉树堆 3、在一个单链表中，q的前一个节点为p，删除q所指向节点，则执行______。delete q; q->next=p->next;delete p; p->next=q->next;delete p; p->next=q->next;delete q; delete p; q->next=p->next;delete q 4、带头结点的单链表head为空的判定条件是：______。 head==NULL head->next==NULL head->next==head head!=NULL *head==NULL *(head->next)==NULL 5、甲乙两路发车间隔均为10分钟的公交车发车时刻分钟数个位分别为1和9，那么对于一个随机到达的乘客，ta乘坐甲车的概率为： 0.1 0.2 0.3 0.4 0.5 0.9 6、硬币游戏：连续扔硬币，直到某一人获胜。A获胜条件是先正后反，B获胜是出现连续两次反面，问AB游戏时A获胜概率是______。 1/6 1/4

1/2 2/3 3/4 7、棋盘上共有2020个格子，从1开始顺序编号。棋子初始放在第1格，通过扔骰子决定前进格子数，扔出x点就前进x格。骰子有6面，分别对应1至6；质量均匀。当棋子到达2014或超过2014，游戏结束。那么，棋子刚好到达2014的概率与______最接近。 2/3 1/2 1/3 2/7 1/6 1/7 8、“秘密”是一款在朋友圈内匿名交流的SNS平台。假定每个人只能看到朋友发的帖子，却不知道具体是谁发的；并且朋友关系是对称的，即如果A是B的朋友，那么B也是A的朋友。某好事者希望知道一篇帖子具体是谁发的，他通过找几个好友看看他们是否是这个帖子楼主的朋友，从而求“交集”，推断楼主是谁。朋友圈是指彼此互为朋友的人群。什么样的楼主容易被发现真实身份？朋友很多的楼主。朋友很少的楼主。发负能量帖子的楼主。有很多个小朋友圈的楼主。发正能量帖子的楼主。只有一个大朋友圈的楼主。 9、H同学每天乘公交上学，早上睡过头或遇到堵车都会迟到；H早上睡过头概率为0.2，路上遇到堵车概率为0.5；若某天早上H迟到了，那么以下推测正确的有______。今天H早上睡过头了今天H早上睡过头的概率为0.2 今天H早上睡过头的概率大于0.2 今天H早上遇到堵车了今天H早上遇到堵车的概率为0.5 今天H早上遇到堵车的概率小于0.5 10、一个合法的表达式由()包围，()可以嵌套和连接，如(())()也是合法表达式；现在有6对()，它们可以组成的合法表达式的个数为______。 15 30 64 132 256 360 11、下列结构中，______必须随机存取实现栈队列

毕业生笔试题：阿里巴巴数据分析笔试题

《毕业生：阿里巴巴数据分析师笔试题》最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（https://www.doczj.com/doc/ee16423851.html,）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。答案在最后，可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么？请列举1种识别连续型变量异常值的方法？二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。三、根据要求写出SQL 表A结构如下： Member_ID（用户的ID，字符型） Log_time（用户访问页面时间，日期型（只有一天的数据）） URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）四、销售数据分析根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师， a)从数据中，你看到了什么问题？你觉得背后的原因是什么？ b)如果你的老板要求你提出一个运营改进计划，你会怎么做？五、用户调研某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题： a)试验需要为决策提供什么样的信息？ b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线——————————————— 一、异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。【点评】考察的内容是统计学基础功底。二、聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后

阿里巴巴 2015校园招聘笔试试题——产品经理岗

2015年阿里巴巴校招产品经理笔试题目【业务性产品经理（商业领域）笔试题】（开放题，每人选做其中五道即可） 1.如果让你作天猫、淘宝7月某类目销量分析，你会怎么做？现在大家都在讲O2O，清谈一下你对O2O的理解以及对客户的价值所在，并且以商家的角度，描述一下你观察到的他们的核心痛点有哪些？ 2.如果你手上的资源短期只能解决一个痛点的话，你会怎么来选择？为什么？后期的优先级是怎么排列的？ 3.如果让你设计一款相册APP，代替系统自带的相册功能，你会怎么设计，列举主要功能（先分析原生相册的不足，用户需求痛点，然后描述下界面设计，并说明为什么用户要使用你的产品） 4.如何验证一个产品优化方案是否有效选择旅游、商品、理财、食品、体育其中一类，设计一个你觉得有需求且目前没有得到较好满足的功能，可以是一款小而美的产品，也可以是承载在某一款产品上的功能你最喜欢的互联网公司，其都有哪些优缺点，如何改进？ 5.最近扶梯安全事故频发，你是扶梯公司ceo，你怎么改善产品，怎么运营，怎么利润最大化？设计一个果汁饮料，竞品有哪些，如何进行竞品分析？如何检测o2o 线下服务质量？ 6.设计一个B2C营销盛典的页面，包括H5游戏。写出主要设计思路。分析淘宝中的 “淘抢购”频道的用户群体，用户需求，用户使用特性等等要设计一款果汁饮料，做竞品分析。写出主要的竞争对手有哪些，并说明主要思路规划一款预订理发的

APP假如您现在需要为一家企业做一款社交软件，请描述一个完整的产品规划到实施的过程包括哪些部分。 7.如果我是一个风投，现在要给你一笔费用和一个团队。请设计一个针对南美市场的跨境电商产品。请说明你需要多少费用和什么样的团队，将在一年内将这个产品做到什么样，达成什么目标？ 8.假设美国亚马逊网站7-8月的网站访客流量比6月下降了10%，如果你是亚马逊网站的流量分析产品经理，请解释分析下这个现象。 9.如果你是上门服务O2O的产品经理你将通过何种方式保证上门服务的质量现在大型超市食品类柜台经常有试吃活动请谈谈顾客是怎样的消费心理，这对用户的购买率是否有影响？为什么？ 10.如果有一位没用任何营销技能，甚至不能说话的销售员，你是否愿意让他/她去试吃柜台为用户服务，这对用户的购买率是否有影响？为什么？ 11.淘宝目前的哪个业务你觉得最受人吐槽，为什么以及如果做好了会怎么样。为老人设计打车软件你熟悉的社交软件相较于其他社交软件的优劣势对天猫淘宝7月份某类目商品销量进行分析。 12.说出你喜欢的获取互联网资讯的途径，比如app，微信微博等，并分析其核心竞争力你自己是否有产品的经历？如果有，需求是如何发现的？解决了什么问题？假如你是一个村支书，村里目前修路需要占用一部分土地，部门村民对被占用土地的赔偿金额感到不满，鼓动了一批民众到工地闹事，已经演变成聚众事件，你将如何解决？【阿里巴巴校招运营专员笔试题】

阿里巴巴数据分析

图一：整体变化时间序列数据图从图中可以看出：阿里巴巴的总资产、流动资产、非流动资产2012年~2015年呈现出了明显同步增长趋势；股东权益2012年~2013年减少，2013年~2015年开始大幅增长；营业收入、营业成本、毛利润2012年~2015年增长基本保持稳定，稳中有涨。整体分析: 从资产构成来看，流动资产所占总资产的比重在逐年下降，止2015年为55.63%，而构成流动资产的现金部分占总资产比重则在2014年~2015年开始上涨达到49.33%。通过分析说明尽管阿里巴巴的流动资产占总资产比重下降，但仍高于非流动资产所占比重，在合理范围内。总资产及现金较大幅度的增加表明企业占有的经济资源增加，经营规模扩大，资产流动性增强。

从股东权益变化来看2012年~2013年随着资产的增长，股东权益却呈下降趋势，说明资产的增长主要是来源于负债的增加，而2013年~2015年股东权益的大幅增长可以说明阿里巴巴意识到高负债带来了高风险，转而采取了较稳健的财务政策。图二：偿债能力时间序列数据图从图中可以看出： 2012年~2013年资产负债率呈现大幅增长，而从2013年~2015年该比率发生扭转开始平稳下降。偿债能力分析：从资产负债率变化的角度来看，该比率在2012年-2013年大幅增加，这可能导致债权人的权益无法得到保障，因为资产负债率越高，说明企业的长期偿债能力就越弱，债权人的保证程度就越弱。而该比率从2013年~2015年的平稳下降说明企业也意识到高债务的严重性并及时采取了相应的行动，进行资产结构优化，从而降低负债带来的企业风险，提高了债权人的保证程度。

2017阿里巴巴招聘笔试题

2017阿里巴巴招聘笔试题 1、iBatis相比JDBC优势的优势有哪些? 答：简单易上手、开发速度快、面向对象，数据库可移植。 (此处应该将优缺点一起分析，才是满意得到回答) 延伸学习： MyBatis和iBatis的区别： ibatis本是apache的一个开源项目，2010年这个项目由apache software foundation 迁移到了google code，并且改名为mybatis (1)Mybatis实现了接口绑定，使用更加方便：在ibatis2.x中我们需要在DAO的实现类中指定具体对应哪个xml映射文件，而Mybatis实现了DAO接口与xml映射文件的绑定， (2)对象关系映射的改进，效率更高 iBatis：优点 : 代码量减少、简单易上手、SQL语句和代码分离(便于修改)、数据库可移植缺点：SQL语句需要自己写、参数只能有一个 Hibernate：优点：对象关系数据库映射、完全面向对象、提供缓存机制、HQL编程缺点：不能灵活使用原生SQL、无法对SQL优化、全表映射效率低下、N+1的问题 JDBC、iBatis、Hibernate明显对比： JDBC更为灵活，更加有效率，系统运行速度快。但是代码繁琐复杂，有的时候用了存储过程就不方便数据库移植了。 hibernate，iBatis 关系数据库框架，开发速度快，更加面向对象，可以移植更换数据库，但影响系统性能。 JDBC:手动手动写sql，不能直接传入一个对象、不能直接返回一个对象。 iBatis的特点:半自动化手动写sql，能直接传入一个对象、能直接返回一个对象。

Hibernate:全自动不写sql,自动封装，能直接传入一个对象、能直接返回一个对象。 2、PrepareStatement相比statement，有哪些优点? 答： (1)直接使用Statement，驱动程序一般不会对sql语句作处理而直接交给数据库; 使用PreparedStament，形成预编译的过程，并且会对语句作字符集的转换(至少在sql server)中如此。如此，有两个好处：对于多次重复执行的语句，使用PreparedStament效率会更高一点，并且在这种情况下也比较适合使用batch;另外，可以比较好地解决系统的本地化问题。 (2)PreparedStatement还能有效的防止危险字符的注入，也就是sql注入的问题。(但是必须使用“对?赋值的方法”才管用) 3、TCP/IP对应于OSI七层模型的哪些层? 答： OSI七层模型分别是：应用层、表示层、会话层、传输层、网络层、数据链路层和物理层。 TCP/IP协议不是TCP和IP协议的合称，而是指因特网整个TCP/IP协议族。从协议分层模型方面来看，TCP/IP由四个层次组成：网络接口层、网络层、传输层和应用层。延伸学习：应用层：由用户自己规定，只要形成的消息能与表示层接口。这包括各机互访协议，分布式数据库协议等。表示层：是在满足用户需求的基础上，尽可能的节省传输费用而设置的。如文本压缩、常用词转换、加密、变更文件格式等。这就是说，只要能表示用户所需的信息，形式上可以改变，并尽可能形成标准格式，以利于传送。对话层：是为用户之间对话的进行而设置的，这包括建立和拆除对话，确定对话对象。如不是授权的对话者，就不予送出信息，以达到可靠的要求，这一层也可与传输层合并。传输层：就是使主机之间或信源和信宿之间能互通信息。这一层因此也可以被称为源--宿层或端--端层，这一般是主机操作系统的一部分。它负责把上一层

2017阿里巴巴年度零售情况分析

“2017年已划上句号，2018崭新的一年已经开始！根据数据统计显示：2017年阿里中国零售平台GMV规模达46350亿，同比增长30%。其中，天猫跟淘宝网分别达到21090亿及25260亿，同比分别增长43.9%及20%！数据来源：云观咨询、中商产业研究院整理受益于中国电子商务的高速发展，阿里巴巴中国零售平台近几年在自身基数已经非常大的情况下GMV还保持着相当不错的增长！并且能在2016年以21%的增幅处于最低谷的时期，还能够快速调整过来并在2017年交出近30%的增长成绩，GMV突破4.5万亿，实在不易！同期中国社会消费品零售总额2016年约33.23万亿，2017年预估约36.65万亿增长约10.3%，阿里中国零售平台GMV增长领跑社零近3倍，占比社零约12.6%！预测阿里巴巴将在2019年底完成1万亿美元的目标

数据来源：云观咨询、中商产业研究院整理在2012年1月阿里将原来的淘宝商城正式更名为现天猫的时候，这将注定是中国电子商务尤其是B2C发展历程当中重要的一件大事！同时天猫也迎来了高速发展的黄金时期，五年时间，由2000亿到2万亿规模翻了近10倍！在2016年短暂的增长低谷后，2017年加紧大力完善菜鸟网络，发力天猫超市等，补足了以往短板的物流板块，从而2017年消费电子及快速消费品等品类得以爆发增长，再加上新零售模式软硬件的进一步完善，线上线下系统等对接的进一步成熟，唤醒了服饰等传统龙头品类的第二春，多方面发力从而拉动了2017年整体44%的增长！天猫自身体量首次突破2万亿大关，并且占比阿里中国零售平台整体份额由2012年的22.6%升至2017年的45.5%，如不出意外2018年天猫就将占据半壁江山！

2015阿里c研发工程师在线笔试题

1, 抽屉里有100个红球、100个蓝球、100个黄球、100个橙球，现在每个人过来随机抽一个球，最多___77_个人抽完之后，能保证一定集齐20个相同颜色的球。(最坏情况) 37 45 77 50 48 21 2, 如下SQL语句中，____可能返回null值。 (1) select count(*) from t1; (2) select max(col1) from t1; (3) select concat('max=',max(col1)) from t1; (1)可能，(2)和(3)不可能 (2)可能，(1)和(3)不可能 (3)不可能，(1)和(2)可能 (1)不可能，(2)和(3)可能都不可能都可能 3, 小赵和小钱二人分别从寝室和图书馆同时出发，相向而行。过了一段时间后二人在中途相遇，小赵继续向图书馆前进，此时：若小钱继续向寝室前进，则当小赵到达图书馆时，小钱离寝室还有600米；若小钱立即折返向图书馆前进，则当小赵到达图书馆是，小钱离图书馆还有150米。那么图书馆与寝室间的距离是____。 1300m 1250m 800m 1050m 1100m 900m 4, 将整数序列（7-2-4-6-3-1-5）按所示顺序构建一棵二叉排序树a（亦称二叉搜索树），之后将整数8按照二叉排序树规则插入树a中，请问插入之后的树a 中序遍历结果是____。 1-2-3-4-5-6-7-8 7-2-1-4-3-6-5-8 1-3-5-2-4-6-7-8 1-3-5-6-4-2-8-7 7-2-8-1-4-3-6-5 5-6-3-4-1-2-7-8 5, 设int a=1,x=2; 执行语句a=x>1?5*x:(x=7); 后，变量a和x的值分别是____。 a=1 x=2 a=1 x=10 a=5 x=7 a=10 x=2 a=10 x=10 a=2 x=10

数据分析师笔试题目

网易数据分析专员笔试题目一、基础题 1、中国现在有多少亿网民？ 2、百度花多少亿美元收购了91无线？ 3、app store排名的规则和影响因素 4、豆瓣fm推荐算法 5、列举5个数据分析的博客或网站二、计算题 1、关于简单移动平均和加权移动平均计算 2、两行数计算相关系数。（2位小数，还不让用计算器，反正我没算） 3、计算三个距离，欧几里德，曼哈顿，闵可夫斯基距离三、简答题 1、离散的指标，优缺点 2、插补缺失值方法，优缺点及适用环境 3、数据仓库解决方案，优缺点 4、分类算法，优缺点 5、协同推荐系统和基于聚类系统的区别四、分析题关于网易邮箱用户流失的定义，挑选指标。然后要构建一个预警模型。

五、算法题记不得了，没做。。。反正是决策树和神经网络相关。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？

9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？

文档之家