当前位置：文档之家› 数据分析面试题1

数据分析面试题1

Excel数据分析统计

使用Excel可以完成很多专业软件才能完成的数据统计、分析工作，比如：直方图、相关系数、协方差、各种概率分布、抽样与动态模拟、总体均值判断，均值推断、线性、非线性回归、多元回归分析、时间序列等。本专题将教您完成几种最常用的专业数据分析工作。注意：所有操作将通过Excel“分析数据库”工具完成，如果您没有安装这项功能，请依次选择“工具”-“加载宏”，在安装光盘中加载“分析数据库”。加载成功后，可以在“工具”下拉菜单中看到“数据分析”选项。直方图某班进行期中考试后，需要统计各分数段人数，并给出频数分布和累计频数表的直方图以供分析。以往手工分析的步骤是先将各分数段的人数分别统计出来制成一张新的表格，再以此表格为基础建立数据统计直方图。使用Excel可以直接完成此任务。 [具体方法] 描述统计某班进行期中考试后，需要统计成绩的平均值、区间，并给出班级内部学生成绩差异的量化标准，借此来作为解决班与班之间学生成绩的参差不齐的依据。要求得到标准差等统计数值。样本数据分布区间、标准差等都是描述样本数据范围及波动大小的统计量，统计标准差需要得到样本均值，计算较为繁琐。这些都是描述样本数据的常用变量，使用Excel 数据分析中的“描述统计”即可一次完成。[具体方法] 排位与百分比排位某班级期中考试进行后，按照要求仅公布成绩，但学生及家长要求知道排名。故欲公布成绩排名，学生可以通过成绩查询到自己的排名，并同时得到该成绩位于班级百分比排名(即该同学是排名位于前“X%”的学生)。排序操作是Excel的基本操作， Excel“数据分析”中的“排位与百分比排位”可以使这个工作简化，直接输出报表。[具体方法]

保研经历复旦微电子(转)

保研经历——复旦微电子（转）接到复旦的接收函已经是研究生报名的最后一天，把接收函送到学校教务处，顺利拿到校验码，完成网上报名后，我的保研的生涯终于告一段落。现在把我的经验总结一下，希望对以后保研的师弟师妹有帮助。从大三上我就决定保研，从之前的成绩来看，拿到保研资格应该没有什么问题。所以我也没有怎么准备，现在看来也不是太好，下面有说在大三下自己很被动。既然觉得自己没有太大的问题，大三下跑去台湾交换了半年，虽然自己有懵懵懂懂想过自己想走那个方向，但是一直没有清晰的方向，在台湾的这半年，帮助我决定了我保研的专业和方向，所以真的很庆幸自己在合适的时间做了一件合适的事情。等我回到学校时候，已经是大三下学期末了。一回到学校，便开始准备保研的事情。这时候才发现自己很被动。看着自己保外的同学都参加了清华北大交大的夏令营，自己一点都没有开始，心里十分着急。这时候开始看保研论坛，看自己喜欢的学校。因为想学IC设计，一开始选择了中科院的微电子所和微系统所，对于复旦微电子还是很不自信，觉得自己不是很够资格，所以不大敢去想。从台湾回来不久，大概7月中旬，学校便开始做保研资格认定的工作。这里要好好赞一下我的学校——中山大学。中大对保外的政策是相

当开明，保外和保内是分开排队的，也就是说保外和保内有固定的名额，只要选择了保外，就只需要跟选择保外的同学竞争。保研认定的时候出现了小插曲，因为学校认定工作开展地比较早，我在大三下学期在台湾的成绩还没来得寄回来，自己很是着急，没想到去台湾交换会害得自己没了保研的资格，当时想着要是不行的话，就去工作算了。还好学校最后还是出了公告，对大三去交换的同学，保研认定的成绩不算大三下学期。我就这样顺利拿到保外的资格。难怪有个师兄后来和我说，你真的要好好谢谢中大，一个这么开明自由的学校，为你提供了这么多机会。后来看到其他学校的同学拿到offer后却得不到保外资格，最后保不了研。拿到保研的资格后，便开始去招生学校网申。一开始申请中科院的微电子所和微系统所两家研究所。这时候觉得自己并没有什么科研的经历，虽有一些项目经历，不过获奖也不多，心里觉得很没底。所以7月下旬便回到学校找个了与自己保研专业方向相关的老师，进了他的研究室开始做一点科研方面的东西，最后这个老师也成了我毕业设计的老师。整整八月份都待在学校，其中又有一段时间，跟着老师去了一家公司帮忙解决一个项目的问题。整个八月份都在忙，在实验室在忙学习理论和用matlab仿真，在公司忙着写verilog代码和检测代码debug做测试。想着回想起那段时间，每天都靠着信念去努力的。从台湾大半年，回到广州就开始

数据分析笔试题

数据分析笔试题一、编程题（每小题20分）（四道题任意选择其中三道）有一个计费表表名jifei 字段如下：phone(8位的电话号码)，month（月份），expenses （月消费，费用为0表明该月没有产生费用）下面是该表的一条记录：64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。按照要求写出满足下列条件的sql语句： 1、查找2010年6、7、8月有话费产生但9、10月没有使用并（6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来（截止到10月31日）所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。（A、B 分别代表1—9中任意的一个数字） 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码（结果不能出现重复）二、逻辑思维题（每小题10分）须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡，均是60元的价格成交的。其中一张赚了20%，另一张赔了20%，问他总体是盈利还是亏损，盈/亏多少？ 2、有个农场主雇了两个小工为他种小麦，其中A是一个耕地能手，但不擅长播种；而B 耕地很不熟练，但却是播种的能手。农场主决定种10亩地的小麦，让他俩各包一半，于是A从东头开始耕地，B从西头开始耕。A耕地一亩用20分钟，B却用40分钟，可是B播种的速度却比A快3倍。耕播结束后，庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么？ 4、烧一根不均匀的绳，从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子，问如何用烧绳的方法来计时一个小时十五分钟呢？（绳子分别为A 、B、C、D、E、F 。。。。。来代替）

数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案导读：探索性数据分析侧重于在数据之中发现新的特征，而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验，欢迎参考阅读。 1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计，然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址; 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录(这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。)，请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O(N)的时间内用Hash表完成统计(之前写成了排序，特此订正。July、2011.04.27); 第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O(N) + N’*O(logK)，(N为1000万，N’为300万)。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10 个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000 个小文件(记为x0，x1，…x4999)中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等)，并取出出现频率最大的100个词(可以用含100 个结点的最小堆)，并把

如何利用excel做数据分析(上下)

网站分析中专业的工具除了Google Analytics, Adobe Sitecatalyst, Webtrends, 腾讯分析和百度统计等外，我想最常用的数据处理工具就是Excel了，Excel里头最基础的就是运算和图表的制作，稍微高级一点就是函数和数据透视表的使用了，当然你可能还会想到VBA和宏，但估计很少高手会使用这些高级的功能。那对于高级的数据分析而言，也就是涉及统计学的专业分析方法和原理的时候，是不是就一定得求助于SPSS,SAS这类专业的分析工具呢？数据分析从低级到高级层次的跳跃过程中有没有可以起承接作用的工具呢？其实是有的，这就是Excel的数据分析功能。貌似最近比较火的两本Excel书籍《谁说菜鸟不会数据分析》和《让Excel飞》都没有涉及这部分的内容。高级的数据分析会涉及回归分析、方差分析和T检验等方法，不要看这些内容貌似跟日常工作毫无关系，其实往高处走，MBA的课程也是包含这些内容的，所以早学晚学都得学，干脆就提前了解吧，请查看以下内容。在使用之前，首先得安装Excel的数据分析功能，默认情况下，Excel是没有安装这个扩展功能的，安装如下所示： 1）鼠标悬浮在Office按钮上，然后点击【Excel选项】： 2）找到【加载项】，在管理板块选择【Excel加载项】,然后点击【转到】：

3）选择【分析工具库】，点击【确定】： 4）安装完后，就可以【数据】板块看到【数据分析】功能，如下所示：

安装完后，首先来了解一下回归分析的内容。一、回归分析在详细进行回归分析之前，首先要理解什么叫回归？实际上，回归这种现象最早由英国生物统计学家高尔顿在研究父母亲和子女的遗传特性时所发现的一种有趣的现象：身高这种遗传特性表现出”高个子父母，其后代身高也高于平均身高；但不见得比其父母更高，到一定程度后会往平均身高方向发生’回归’”。这种效应被称为”趋中回归”。现在的回归分析则多半指源于高尔顿工作的那样一整套建立变量间的数量关系模型的方法和程序。这里的自变量是父母的身高，因变量是子女的身高。百度百科对于回归分析的定义是: 回归分析（regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛： 1）回归分析按照涉及的自变量的多少，可分为一元回归分析和多元回归分析； 2）按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。这里举个电商的例子：电子商务的转换率是一定的，网站访问数一般正比对应于销售收入，现在要建立不同访问数情况下对应销售的标准曲线，用来预测搞活动时的销售收入，如下所示：

复旦微电子保研面试题

首先老师先叫我读了一段关于互补数字系统的英文，然后说说自己的idea，我读了2分钟，好像说不出个什么东西来，就blabla两句就结束了。。。。然后又用英文说自己在本科阶段学过的东西。。。。也是blabla几句，后来还好老师问我在lab做过的research，然后就滔滔不绝如江水了。。。。后来的几个问题都是和这个research有关的，由于时间问题就叫我画了一个与非门，问了想去什么方向。。就出来了。。。。下面保持队形。。。模电的: 正反馈震荡条件(我忘记答相位的条件了...) 负反馈对增益和带宽的影响运放一般是开环的还是闭环的数电的: 同步电路跟异步电路的区别(我答错了..应该是触发沿的区别,不是频率的区别...不过后来王sir来接话圆场了,赞王sir~) 然后洪sir问了d触发器异步和同步的区别，这个知道。还有至少几个触发器才能5分频。我答了3个。后面两个问题，一个是mos管的延迟时间，我不会。随便说了个0。1ns。然后，工艺老师说多晶硅和单晶硅做器件哪个速度快。然后猜错了，我说是多晶硅。就这么多。然后问我digital device&signal 和analog device&signal 的区别并举一个例子然后问dsp的优点答auto-id lab digital design 数字设计流程逻辑综合做了哪些事情有几种逻辑功能仿真方法后仿有哪些东西哪些影响因素最后问cad有没兴趣英语部分大家都差不多，后面问了振荡器相关，电流/压负反馈、串/并联负反馈作用并挑个画图，然后问了FPGA是啥，目前的特征尺寸到多少了，最后存储器有些啥。谈项目然后具体问问项目中的细节（电阻用哪种之类的）英语刘冉问目前大规模投产的特征尺寸是多少，我说90nm，然后他说知不知道INTEL投产的是多少，我说45nm，然后又问估计32nm什么时候投产，再问做小的话有什么问题，我说po wer consumption然后问leakage current主要是为什么，我说是charge sharing effect和 DIBL,然后问gate current我说可以用HIGH-K 就结束了因为我在英语过程中谈到我是电工转来的，洪sir就说既然是从电工转来的那就问一个关于高频的问题（我汗，高频跟电工有关系吗，而且我没准备过高频，好在问题简单），高频电路有什么问题，我就说寄生电容云云。

数据分析笔试题全解

从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识 1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一起来看看数据分析的职业要求。一、异常值是指什么？请列举1种识别连续型变量异常值的方法？异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’ test（是以Frank E. Grubbs命名的），又叫maximum normed residual test，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。点评：考察的内容是统计学基础功底。二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchical method）、划分方法（partitioning method）、基于密度的方法（density-based method）、基于网格的方法（grid-based method）、基于模型的方法（model-based method）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差(标准差)作为标准测度

招行-DW-BI-数据面试题及答案

DW/BI 数据库面试题一、基础题 1. 2.描述Tablespace和Datafile之间的关系. 3.描述日志的作用. 4. 5.

7. 8. 9.FACT Table上需要建立何种索引？二、SQL试题

1.有一张表T（F1，F2，F3，F4），要根据字段F2排序后取第8-16条记录显示，请写出SQL。 2.指出下面SQL语句的执行顺序： select a.column1 , COUNT(*) AS CountValue, SUM(b.column3) AS SumValue from TableAainnerjoinTableB b on a.column1 = b.column1 and a.column2 = 1 where b.column3 = 10 group by a.column1 having COUNT(*)> 10 order by a.column1 1. From 2. ON 3. INNER JOIN 4. WHERE 5. GROUP BY 6. having 7. SELECT8. ORDER BY 三、DW/BI 试题 1.描述ROLAP、MOLAP、HOLAP的区别与优势。

3.描述一下DW设计架构，及ETL设计方法。 4.描述你所熟悉的数据模型，如一些行业的模型，实际参与的设计及主题。财务数据模型，主要是凭证，会计科目，供应商，客户，等主事实表就是会计分录、凭证等。因为凭证有表头和表体。所以事实表由两个表组成，一个是存储表头一个是表体。会计科目、供应商、客户是作为单独维度表。其他维度作为辅助维度存储在在一张表中。

保研面试常见英文问题复习进程

-----hometown where are you from? how long have you lived there? how do you like it? why?因为她breeds me just like a mother breed her child，and she is really beautiful. do you live near here? where about?no，700kilometers from here what do you think are the good points about living in this city? ------family could you tell us sth. about you family? what does your family usually do for the weekend? what do you think about living together with your parents? ------leisure do you have any hobbies? how did you become interested in the hobbies? ------study/work why do you choose to study at our institute? why do you want to go to graduate school instead of finding a job? what are your favorite subjects? what kind of job did you do? have you ever worked during the vacation? why do you want to go back to study instead of going on with your work? what qualifications are needed in order to do your job well? what did you enjoy most about your campus life? ------future plans what do you expect to achieve during your study if you are enrolled into this institute? do you think english is important for your future plans? in what aspects is it important? part b interlocutor(问话者)： ------now i’d like you to talk about sth. for abo ut 3 minutes. here is a list of topics(将一组话题或问题递给学生)，pls read the topics and choose one from the list you like to talk about. you’ll have 5 minutes to prepare for your talk.(5 分钟后)could you tell me what you want to talk about? all right, you’ll hav e 3 minutes to give your talk. would you begin?(the interloculor may intervene only when necessary) topics/questions(只列举了一部分话题) ------give your comment on the statement that “a part-time job is an important experience that every college student shou ld have.” ------use specific examples to set forth your views on the saying “haste makes waste”.

2016年数据分析面试常见问题

1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述：算法思想：分而治之+Hash 1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理； 2.可以考虑采用“分而治之”的思想，按照IP地址的Hash(IP)24值，把海量IP日志分别存储到1024个小文件中。这样，每个小文件最多包含4MB个IP地址； 3.对于每一个小文件，可以构建一个IP为key，出现次数为value的Hash map，同时记录当前出现次数最多的那个IP地址； 4.可以得到1024个小文件中的出现次数最多的IP，再依据常规的排序算法得到总体上出现次数最多的IP； 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的Top K算法，还是在这篇文章里头有所阐述，文中，给出的最终算法是：

第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成统计（之前写成了排序，特此订正。July、2011.04.27）；第二步、借助堆这个数据结构，找出Top K，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N）+ N’*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)P00，然后按照该值存到5000个小文件（记为x0,x1,…x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map 等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。 4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个

保研面试问题及答案

保研面试问题及答案 1.注意你的穿着有一句最最最俗的话叫“人靠衣妆马靠鞍，狗配铃铛跑的欢”，面试时的穿着的确对你会有一定 * ，一套得体的衣服无疑会增添你的印象分。当然，在学校里，没有必要搞的特别正式，没有必要西装革履，打个领带，整个发型什么的。但是，切记不可太随便，有的同学拿着水壶，背着书包，下身穿个短裤，上身穿个球服什么的，趿拉着拖鞋，好像上一刻还在中二什么地方上自习呢，而且准备面试完了接着去上。这显然给人一种不重视对方的感觉，显然是不行的。 2.注意你的举止 3.诚实守信还是那句话，知之为知之，不知为不知，是知也。一个理工学科的人，最重要的就是这一点。千万不可弄虚作假，虚情假意，这是最让人讨厌的。当然，这种面试，专业的知识应该不是很多，但是如果人家问到，一定要如实回答。 4.千万不要过分紧张，要懂得调节气氛紧张是必然的，但是千万不要过分的紧张，导致你说不出话或者大脑反应迟钝就不好了，这样的话，即使你做了很多的工作，但是由于你无法充分的表达，也很难受到别人的重视。当你紧张的时候，一定要学会缓解紧张的方法，比如自嘲什么的，你的镇定自若才能充分的展现你的才华和风度。 5.不要冷场，不要过分的追求问题的答案

这种面试，一般都会问你一些对某些事情的看法，比如你为什么要读研啊?还有的就是通过你的自我介绍，比如说你喜欢古典音乐，人家可能就会问你对古典音乐的理解啊，什么是古典音乐啊?这些问题都没有正确答案的，关键你要言之成理。最好要有一套自己的体系，始终围绕着自己的体系来阐述问题，这样就能把别人的提问变成对自己的充分展示了。所以，有的时候学些哲学还是很有用的。 6.最好可以开启一个话题 7.注意时间任何人的面试都是有时间限制的，在规定的时间内阐述了你想阐述的内容就足够了，不要有太多的奢望，当然，如果人家愿意跟你多交流的话，当然是求之不得的了。第一部分：一段英文介绍，然后一个老师会用英语问一个问题，主要是针对你的英文介绍的东西来的，我感觉这个主要是测试你是否听得懂英文的，如果你能听懂他的问题，回答起来就很容易。比如我前面的一个美女说她参加过gmat考试，老师的问题就是你gmat考了多少分，总分多少?我在介绍中说我参加过电商大赛，老师就用英语问我那个比赛你们做了些什么。这样看来，如果你介绍的都是真实的，你经历过的，并且你听懂了英语问题，回答起来是完全没问题的。第二部分：老师会针对你之前填写的推免表格提问，也是和经历有关的。我的建议是，自己的经历一定要真实，并且自己很了解的才往简历上写，如果你只是挂名参加了一个项目，但并没在项目中做什么事，这种经历最好不要写，老师万一问到，结果你一问三不知，这

21个必知数据科学面试题和答案

21个必知数据科学题和答案 2016-03-10分类：其他最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门，获得了一月的阅读量排行首位。但是这些问题并没有提供答案，所以KDnuggets的小编们聚在一起写出了这些问题的答案。我还加了一个特别提问——第21问，是20个问题里没有的。下面是答案。 Q1.解释什么是正则化，以及它为什么有用。回答者：Matthew Mayo 正则化是添加一个调优参数的过程模型来引导平滑以防止过拟合。(参加KDnuggets文章《过拟合》) 这通常是通过添加一个常数到现有的权向量。这个常数通常要么是L1(Lasso)要么是L2(ridge)，但实际上可以是任何标准。该模型的测算结果的下一步应该是将正则化训练集计算的损失函数的均值最小化。 Xavier Amatriain在这里向那些感兴趣的人清楚的展示了L1和L2正则化之间的比较。图1.Lp球:p的值减少,相应的L-p空间的大小也会减少。 Q2.你最崇拜哪些数据科学家和创业公司？回答者：Gregory Piatetsky 这个问题没有标准答案，下面是我个人最崇拜的12名数据科学家，排名不分先后。 Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他们对神经网络的坚持不懈的研究，和开启了当前深度学习的革命。 Demis Hassabis，因他在DeepMind的杰出表现——在Atari游戏中实现了人或超人的表现和最近Go的表现。来自datakind的Jake Porway和芝加哥大学DSSG的Rayid Ghani因他们让数据科学对社会产生贡献。 DJ Patil，美国第一首席数据科学家，利用数据科学使美国政府工作效率更高。 Kirk D. Borne，因其在大众传媒中的影响力和领导力。

谈用Excel做数据分析(doc 19页)

用Excel做数据分析——回归分析 2006-12-04 14:02作者：大鸟原创出处：天极软件责任编辑：still 在数据分析中，对于成对成组数据的拟合是经常遇到的，涉及到的任务有线性描述，趋势预测和残差分析等等。很多专业读者遇见此类问题时往往寻求专业软件，比如在化工中经常用到的Origin和数学中常见的MATLAB等等。它们虽很专业，但其实使用Excel就完全够用了。我们已经知道在Excel自带的数据库中已有线性拟合工具，但是它还稍显单薄，今天我们来尝试使用较为专业的拟合工具来对此类数据进行处理。点这里看专题：用Excel完成专业化数据统计、分析工作注：本功能需要使用Excel扩展功能，如果您的Excel尚未安装数据分析，请依次选择“工具”-“加载宏”，在安装光盘支持下加载“分析数据库”。加载成功后，可以在“工具”下拉菜单中看到“数据分析”选项实例某溶液浓度正比对应于色谱仪器中的峰面积，现欲建立不同浓度下对应峰面积的标准曲线以供测试未知样品的实际浓度。已知8组对应数据，建立标准曲线，并且对此曲线进行评价，给出残差等分析数据。这是一个很典型的线性拟合问题，手工计算就是采用最小二乘法求出拟合直线的待定参数，同时可以得出R的值，也就是相关系数的大小。在Excel中，可以采用先绘图再添加趋势线的方法完成前两步的要求。选择成对的数据列，将它们使用“X、Y散点图”制成散点图。在数据点上单击右键，选择“添加趋势线”-“线性”，并在选项标签中要求给出公式和相关系数等，可以得到拟合的直线。

在选项卡中显然详细多了，注意选择X、Y对应的数据列。“常数为零”就是指明该模型是严格的正比例模型，本例确实是这样，因为在浓度为零时相应峰面积肯定为零。先前得出的回归方程虽然拟合程度相当高，但是在x=0时，仍然有对应的数值，这显然是一个可笑的结论。所以我们选择“常数为零”。 “回归”工具为我们提供了三张图，分别是残差图、线性拟合图和正态概率图。重点来看残差图和线性拟合图。在线性拟合图中可以看到，不但有根据要求生成的数据点，而且还有经过拟和处理的预测数据点，拟合直线的参数会在数据表格中详细显示。本实例旨在提供更多信息以起到抛砖引玉的作用，由于涉及到过多的专业术语，请各位读者根据实际，在具体使用中另行参考各项参数，此不再对更多细节作进一步解释。

保研面试技巧【完整篇】

保研面试技巧【完整篇】面试过程一般可以分为三个环节：一、自我介绍，二、老师提问，三、让你提问，回答你提出的问题。第三个环节有时候有，有时候没有，取决于老师的习惯和他对你兴趣，当然也不能说他不问这个问题就表明他对你不感兴趣，总的来说，这个环节不是每个人都会遇到，前两个环节是面试的重头细和容易出彩的地方，可以说，得环节一二者得天下老师在提问环节所提的问题，一是根据你的书面简历和你的自我介绍提出，比如，你说你做过电子设计大赛，老师就会请你介绍一下你们的作品，你做的哪部分，遇到些什么问题，怎么样解决的。了解这个领域的老师，还会问一些更专业的问题，比如送入单片机的方波如果峰值不够怎么办、用三5芯片怎么样搭建过零器等等;二是根据你所学的专业课，提出一些基础性的问题，比如，学光电子的同学，老师可能会问产生激光的三要素、激光的特点、光相干的条件等等，总之，所提的问题都是基础性的、基于课本的问题;三是了解学生的品性、心理素质等，比如，我就遇到老师提问说你遇到困难情绪不好的时候怎么办，你在课余一般做哪些事等等，这类问题是老师随意问的，没有规律性，参考自己前面面试的同学所遇到的问题，揣摩一下老师的心思。老师还会问某门课怎么考这么低啊之类的问题，甚至有的老师会在你回答问题的时候，故意做出叹气、摇头等动作，这时，你一定要沉着冷静，不要被他干扰，自信

地把自己要说的话娓娓道来。你的书面简历和你的自我介绍，很大程度上决定了你在第二个环节所要回答的问题，因此，你的书面简历和自我介绍，一定要言之有物，一定要老师根据你的陈述所提的问题，你可以逻辑清晰且语言流畅地表达出来。了解了面试的这个特点，你就可以细心地打造你的书面简历和自我介绍，来掌握老师要问的问题，进而掌控面试的全过程，变身面试达人。 2 面试技巧自我介绍的技巧前面已经说过了，这里所说的是表达上的技巧。 (一)逻辑清晰回答问题时，一定要注意有逻辑性，并且条理和思路一定要清晰，不要乱扯，比如自我介绍时，要这样说：我想分三方面来介绍我自己，一是课程学习，二是科研和比赛，三是学生工作，balabala(分别介绍)，而不要这样：我成绩很好，我当过学生会主席，我参加过**比赛，我得过**奖学金如果老师问的问题自己准备过，当然很幸运，但是如果没有准备过，也一定不要慌张，给自己一点的时间稍做思考，再进行回答。稍做思考是一门学问，有的学生在面试的时候问是急于回答老师的问题，往往在老师刚提出问题就回答，而给出的回答往往差强人意。要记住，面试不仅仅是老师在问你在答，而是一种交流和互

数据分析师面试常见的77个问题

数据分析师面试常见的77个问题 2013-09-28数据挖掘与数据分析随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。 1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。 2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？ 3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？ 4、什么是：协同过滤、n-grams, map reduce、余弦距离？ 5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？ 6、如何设计一个解决抄袭的方案？ 7、如何检验一个个人支付账户都多个人使用？ 8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？ 9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在

所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？ 10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？ 11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？ 12、你最喜欢的编程语言是什么？为什么？ 13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。 14、SAS, R, Python, Perl语言的区别是？ 15、什么是大数据的诅咒？ 16、你参与过数据库与数据模型的设计吗？ 17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？ 18、你喜欢TD数据库的什么特征？ 19、如何你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？ 20、如果有几个客户查询ORACLE数据库的效率很低。为什么？你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？ 21、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？ 22、什么是哈希表碰撞攻击？怎么避免？发生的频率是多少？ 23、如何判别mapreduce过程有好的负载均衡？什么是负载均衡？ 24、请举例说明mapreduce是如何工作的？在什么应用场景下工作的很好？云的安全问题有哪些？ 25、（在内存满足的情况下）你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？ 26、为什么朴素贝叶斯差？你如何使用朴素贝叶斯来改进爬虫检验算法？ 27、你处理过白名单吗？主要的规则？（在欺诈或者爬行检验的情况下） 28、什么是星型模型？什么是查询表？

微电子一些面试问题资料讲解学习

亚稳态 Setup/hold time 是测试芯片对输入信号和时钟信号之间的时间要求。建立时间是指触发器的时钟信号上升沿到来以前，数据稳定不变的时间。输入信号应提前时钟上升沿（如上升沿有效）T时间到达芯片，这个T就是建立时间-Setup time.如不满足setup time,这个数据就不能被这一时钟打入触发器，只有在下一个时钟上升沿，数据才能被打入触发器。保持时间是指触发器的时钟信号上升沿到来以后，数据稳定不变的时间。如果hold time不够，数据同样不能被打入触发器。建立时间(Setup Time)和保持时间（Hold time）。建立时间是指在时钟边沿前，数据信号需要保持不变的时间。保持时间是指时钟跳变边沿后数据信号需要保持不变的时间。如果不满足建立和保持时间的话，那么DFF将不能正确地采样到数据，将会出现亚稳态(metastability)的情况。如果数据信号在时钟沿触发前后持续的时间均超过建立和保持时间，那么超过量就分别被称为建立时间裕量和保持时间裕量。在数字集成电路中，触发器要满足setup/hold的时间要求。当一个信号被寄存器锁存时，如果信号和时钟之间不满足这个要求，Q端的值是不确定的，并且在未知的时刻会固定到高电平或低电平。这个过程称为亚稳态

（Metastability）。一些关于微电子方面的笔试题（zz) 1.FPGA和ASIC的概念，他们的区别。（未知） FPGA是可编程ASIC。 ASIC:专用集成电路，它是面向专门用途的电路，专门为一个用户设计和制造的。根据一个用户的特定要求，能以低研制成本，短、交货周期供货的全定制，半定制集成电路。与门阵列等其它ASIC(Application Specific IC)相比，它们又具有设计开发周期短、设计制造成本低、开发工具先进、标准产品无需测试、质量稳定以及可实时在线检验等优点. 2.建立时间是指触发器的时钟信号上升沿到来以前，数据稳定不变的时间。输入信号应提前时钟上升沿（如上升沿有效）T时间到达芯片，这个T就是建立时间-Setup time.如不满足setup time,这个数据就不能被这一时钟打入触发器，只有在下一个时钟上升沿，数据才能被打入触发器。保持时间是指触发器的时钟信号上升沿到来以后，数据稳定不变的时间。如果hold time不够，数据同样不能被打入触发器。建立时间是指在时钟边沿前，数据信号需要保持不变的时

数据分析岗面试题

数据分析岗面试题 It was last revised on January 2, 2021

数据分析岗面试题1、表：table1(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列表，显示班级，成绩两个字段。 2、有一个表table1有两个字段FID，Fno，字都非空，写一个SQL语句列出该表中一个FID对应多个不同的Fno的纪录。 Fid Fno 101 a1001 101 a1001 102 a1002 102 a1003 103 a1004 104 a1005 104 a1006 105 a1007 105 a1007 105 a1007 3、有员工表empinfo ( Fempno varchar2(10) not null pk, Fempname varchar2(20) not null, Fage number not null, Fsalary number not null ); 假如数据量很大约1000万条；写一个你认为最高效的SQL，用一个SQL计算以下四种人： fsalary>9999 and fage > 35 fsalary>9999 and fage < 35 fsalary <9999 and fage > 35 fsalary <9999 and fage < 35 每种员工的数量； 4、 Sheet1: sheet2： Sheet1、sheet2是Excel中两个表，sheet2中记录了各产品类别下面对应的产品编码，现要在sheet1 C列中对应A列产品编码所对应的产品类别，请写出公式。

毕业生笔试题：阿里巴巴数据分析笔试题

《毕业生：阿里巴巴数据分析师笔试题》最近，网上放出了IT大佬们的一些考题出来，让人竞相争看，倒地这些大牛公司的择贤条件是如何的呢？大圣众包（https://www.doczj.com/doc/5713437743.html,）威客平台从网上整理了阿里巴巴招募数据分析师实习生的一道笔试题，让大家提前试试水。答案在最后，可不要提前偷看哦。 ———————————————问题分割线——————————————— 一、异常值是指什么？请列举1种识别连续型变量异常值的方法？二、什么是聚类分析？聚类算法有哪几种？请选择一种详细描述其计算原理和步骤。三、根据要求写出SQL 表A结构如下： Member_ID（用户的ID，字符型） Log_time（用户访问页面时间，日期型（只有一天的数据）） URL（访问的页面地址，字符型）

要求：提取出每个用户访问的第一个URL（按时间最早），形成一个新表（新表名为B，表结构和表A一致）四、销售数据分析根据某一家B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在5种产品上，如果你是这家公司的分析师， a)从数据中，你看到了什么问题？你觉得背后的原因是什么？ b)如果你的老板要求你提出一个运营改进计划，你会怎么做？五、用户调研某公司针对A、B、C三类客户，提出了一种统一的改进计划，用于提升客户的周消费次数，需要你来制定一个事前试验方案，来支持决策，请你思考下列问题： a)试验需要为决策提供什么样的信息？ b)按照上述目的，请写出你的数据抽样方法、需要采集的数据指标项，以及你选择的统计方法。

———————————————答案分割线——————————————— 一、异常值（Outlier）是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。 Grubbs’test（是以FrankE.Grubbs命名的），又叫maximumnormedresidualtest，是一种用于单变量数据集异常值识别的统计检测，它假定数据集来自正态分布的总体。未知总体标准差σ，在五种检验法中，优劣次序为：t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。【点评】考察的内容是统计学基础功底。二、聚类分析（clusteranalysis）是一组将研究对象分为相对同质的群组（clusters）的统计分析技术。聚类分析也叫分类分析（classificationanalysis）或数值分类（numericaltaxonomy）。聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类分析计算方法主要有：层次的方法（hierarchicalmethod）、划分方法（partitioningmethod）、基于密度的方法（density-basedmethod）、基于网格的方法（grid-basedmethod）、基于模型的方法（model-basedmethod）等。其中，前两种算法是利用统计学定义的距离进行度量。 k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后