(完整word版)数据分析笔试题分析(word文档良心出品)
- 格式:doc
- 大小:47.51 KB
- 文档页数:9
数据分析笔试题目及答案解析数据分析笔试题目及答案解析——第1题——1. 从含有N个元素的总体中抽取n个元素作为样本,使得总体中的每一个元素都有相同的机会(概率)被抽中,这样的抽样方式称为?A. 简单随机抽样B. 分层抽样C. 系统抽样D. 整群抽样答案:A——第2题——2. 一组数据,均值中位数众数,则这组数据A. 左偏B. 右偏C. 钟形D. 对称答案:B「题目解析」分布形状由众数决定,均值大于众数的化,说明峰值在左边,尾巴在右边,所以右偏。
偏态是看尾巴在哪边。
——第3题——3. 对一个特定情形的估计来说,置信水平越低,所对应的置信区间?A. 越小B. 越大C. 不变D. 无法判断答案:A「题目解析」根据公式,Z减小,置信区间减小。
——第4题——4.关于logistic回归算法,以下说法不正确的是?A. logistic回归是当前业界比较常用的算法,用于估计某种事物的可能性B. logistic回归的目标变量可以是离散变量也可以是连续变量C. logistic回归的结果并非数学定义中的概率值D. logistic回归的自变量可以是离散变量也可以是连续变量答案:B「题目解析」逻辑回归是二分类的分类模型,故目标变量是离散变量,B错;logisitc回归的结果为“可能性”,并非数学定义中的概率值,不可以直接当做概率值来用,C对。
——第5题——5.下列关于正态分布,不正确的是?A. 正态分布具有集中性和对称性B. 期望是正态分布的位置参数,描述正态分布的集中趋势位置C. 正态分布是期望为0,标准差为1的分布D. 正态分布的期望、中位数、众数相同答案:C「题目解析」N(0,1)是标准正态分布。
——第6题——6. 以下关于关系的叙述中,正确的是?A. 表中某一列的数据类型可以同时是字符串,也可以是数字B. 关系是一个由行与列组成的、能够表达数据及数据之间联系的二维表C. 表中某一列的值可以取空值null,所谓空值是指安全可靠或零D. 表中必须有一列作为主关键字,用来惟一标识一行E. 以上答案都不对答案:B「题目解析」B. 关系是一张二维表,表的每一行对应一个元组,每一列对应一个域,由于域可以相同,所以必须对每列起一个名字,来加以区分,这个名字称为属性。
数据分析笔试题及答案一、选择题(每题2分,共10分)1. 数据分析中,以下哪个指标不是描述性统计指标?A. 平均数B. 中位数C. 标准差D. 相关系数答案:D2. 在进行数据清洗时,以下哪项操作不是必要的?A. 处理缺失值B. 去除异常值C. 转换数据类型D. 增加数据量答案:D3. 以下哪个工具不是数据分析常用的软件?A. ExcelB. RC. PythonD. Photoshop答案:D4. 假设检验中,P值小于显著性水平α,我们通常认为:A. 拒绝原假设B. 接受原假设C. 无法判断D. 结果不可靠答案:A5. 以下哪个不是时间序列分析的特点?A. 趋势性B. 季节性C. 随机性D. 稳定性答案:D二、简答题(每题5分,共15分)1. 请简述数据可视化的重要性。
答案:数据可视化是数据分析中的重要环节,它能够帮助分析者直观地理解数据的分布、趋势和模式。
通过图表、图形等形式,可以更清晰地展示数据之间的关系,便于发现数据中的规律和异常点,从而为决策提供支持。
2. 描述数据挖掘中的“关联规则”是什么,并给出一个例子。
答案:关联规则是数据挖掘中用来发现变量之间有趣关系的一种方法,特别是变量之间的频繁模式、关联、相关性。
例如,在超市购物篮分析中,关联规则可能揭示“购买了牛奶的顾客中有80%也购买了面包”。
3. 解释什么是“数据的维度”以及它在数据分析中的作用。
答案:数据的维度指的是数据集中可以独立变化的属性或特征。
在数据分析中,维度可以帮助我们从不同角度观察和理解数据,进行多维度的分析和比较,从而获得更全面的数据洞察。
三、计算题(每题10分,共20分)1. 给定一组数据:2, 3, 4, 5, 6, 7, 8, 9, 10,请计算这组数据的平均数和标准差。
答案:平均数 = (2+3+4+5+6+7+8+9+10) / 9 = 5.5标准差 = sqrt(((2-5.5)^2 + (3-5.5)^2 + ... + (10-5.5)^2) / 9) ≈ 2.87232. 如果一家公司在过去5年的年销售额分别为100万、150万、200万、250万和300万,请计算该公司年销售额的复合年增长率(CAGR)。
数据分析考试题一、选择题1. 数据分析的目的是什么?A. 发现数据中的模式和趋势B. 验证假设和推断数据之间的关系C. 帮助管理决策和业务优化D. 所有选项都是正确的2. 哪种图表最适合用于展示时间序列数据?A. 饼图B. 条形图C. 散点图D. 折线图3. 以下哪个指标可以用于衡量数值型数据的集中趋势?A. 方差B. 标准差C. 中位数D. 相关系数4. 以下哪个指标可以用于衡量分类变量之间的关联性?A. 方差分析B. 卡方检验C. 盖尔回归D. 多元回归5. 如果数据集中有缺失值,下面哪个方法可以用来处理缺失值?A. 删除包含缺失值的观测B. 用平均值或中位数填充缺失值C. 使用回归模型预测缺失值D. 所有选项都是正确的二、简答题1. 请说明数据清洗的步骤或过程。
数据清洗的步骤包括以下几个方面:1) 检查数据的完整性,确保数据集没有缺失值或错误的数据项。
2) 处理数据中的异常值,通常采用删除或替换的方法对异常值进行处理。
3) 对缺失值进行处理,可以选择删除包含缺失值的观测,或者用平均值、中位数等填充缺失值。
4) 标准化数据,将数据统一按照一定规则进行转换,以提高数据的比较性和可解释性。
5) 去除重复值,确保数据集中不含有重复的数据项。
6) 对数据进行转换和处理,如对时间数据进行格式化、对分类数据进行编码等。
2. 请说明相关系数的作用和计算方法。
相关系数用于衡量两个数值型变量之间的线性关系强度,其取值范围为-1到1。
相关系数越接近于1或-1,表示两个变量之间的线性关系越强;相关系数接近于0则表示两个变量之间无线性关系。
计算相关系数的方法常用的有皮尔逊相关系数和斯皮尔曼相关系数。
皮尔逊相关系数适用于两个连续变量之间的关系,并假设数据呈正态分布;斯皮尔曼相关系数适用于两个有序变量或者两个非连续变量之间的关系。
3. 请简述回归分析的原理及其在数据分析中的应用。
回归分析用于研究一个或多个自变量对一个因变量的影响程度。
招聘大数据分析师笔试题与参考答案(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、大数据分析师在进行数据分析时,以下哪个工具通常用于数据清洗和预处理?A、SQLB、TableauC、PythonD、Hadoop2、在大数据分析中,以下哪个算法通常用于聚类分析?A、决策树B、K-meansC、支持向量机D、神经网络3、在数据分析中,当我们需要从数据集中随机选取一部分样本进行分析时,这通常被称为:A. 数据清洗B. 数据采样C. 数据建模D. 数据可视化4、假设你正在使用Python的pandas库来处理一个DataFrame对象df,其中包含一列名为’Age’。
如果想要筛选出年龄大于等于18且小于60的所有记录,以下哪段代码是正确的?A. df[(df['Age'] > 18) and (df['Age'] < 60)]B. df[df['Age'] >= 18 & df['Age'] < 60]C. df[(df['Age'] >= 18) & (df['Age'] < 60)]D. df[df['Age'].between(18, 60)]5、题干:在数据挖掘中,以下哪个算法通常用于分类任务?A. K-means聚类B. Apriori算法C. 决策树D. KNN算法6、题干:以下哪个指标通常用于衡量数据集的分布均匀性?A. 偏度B. 方差C. 标准差D. 熵7、在数据分析中,当我们提到数据的“离群值”(Outliers)时,它指的是什么?A. 数据集中的最大值和最小值B. 与大多数数据有显著差异的数据点C. 丢失或缺失的数据D. 不符合预期模式的数据8、在大数据项目实施过程中,哪一项活动通常不属于数据分析师的核心职责?A. 清洗和预处理原始数据B. 设计数据库结构C. 应用统计模型进行预测D. 解释模型输出以指导业务决策9、以下哪项不是大数据分析中常用的数据存储技术?A. Hadoop HDFSB. NoSQL数据库C. 关系型数据库D. 关键字存储 10、在数据分析中,以下哪个术语通常用来描述数据集的规模大小?A. 数据量B. 数据质量C. 数据维度D. 数据粒度二、多项选择题(本大题有10小题,每小题4分,共40分)1、下列哪些技能对于大数据分析师来说至关重要?A. 数据挖掘技术B. SQL数据库查询语言C. 数据可视化工具使用(如Tableau)D. 熟悉数据隐私保护法E. 了解硬件工程原理2、在处理大数据时,以下哪些方法可以用来减少计算资源的消耗?A. 数据压缩B. 数据采样C. 增加冗余字段D. 使用分布式计算框架E. 提高数据的维度3、以下哪些工具或技术是大数据分析中常用的数据处理和分析工具?()A. HadoopB. PythonC. SQLD. R语言E. Excel4、在大数据分析中,以下哪些是常用的数据可视化工具?()A. TableauB. Power BIC. MatplotlibD. D3.jsE. Google Charts5、在处理大数据时,以下哪些技术可以用来解决数据存储和计算中的挑战?A. Hadoop MapReduceB. SQL数据库C. NoSQL数据库D. SparkE. Excel6、下列哪些是数据预处理步骤的一部分?A. 数据清洗B. 数据集成C. 数据转换D. 数据挖掘E. 数据可视化7、以下哪些技术或工具是大数据分析师在数据预处理阶段常用的?()A. ETL工具(如Apache Nifi、Talend)B. 数据清洗和转换工具(如Pandas、OpenRefine)C. 数据库管理系统(如MySQL、Oracle)D. 数据可视化工具(如Tableau、Power BI)8、以下哪些方法可以帮助大数据分析师提高数据挖掘的准确性和效率?()A. 特征选择和工程B. 使用先进的机器学习算法C. 数据降维D. 交叉验证9、以下哪些工具或技术是大数据分析师在工作中常用的?()A. HadoopB. SparkC. SQLD. PythonE. Tableau 10、以下关于数据清洗的说法,正确的是?()A. 数据清洗是数据分析的重要步骤之一。
招聘数据分析经理笔试题及解答(某大型集团公司)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、在数据分析过程中,为了评估新推出的市场策略是否有效,最适合使用以下哪种统计方法?A、描述性统计分析B、相关性分析C、因果推断分析D、聚类分析2、假设我们正在分析客户满意度调查数据,并希望找出哪些因素最显著地影响了客户对产品的整体满意度评分。
此时应该采用哪种统计模型?A、逻辑回归模型B、线性回归模型C、决策树模型D、主成分分析模型3、某公司2019年的销售额为5000万元,2020年销售额同比增长了10%,2021年销售额同比增长了15%,那么2021年该公司的销售额是多少?选项:A. 6250万元B. 5750万元C. 5375万元D. 6000万元4、在数据分析中,以下哪个指标用于衡量数据的准确性和可靠性?选项:A. 假设检验B. 相关性系数C. 标准差D. 指数平滑5、在进行数据预处理时,对于数据集中缺失值的处理方法不包括以下哪一项?A. 删除含有缺失值的数据行或列B. 使用统计方法填补缺失值,如均值、中位数等C. 利用机器学习算法预测缺失值D. 忽略缺失值的存在继续分析6、假设你需要评估两个模型的性能,模型A的准确率为90%,模型B的准确率为95%。
在选择更好的模型时,仅凭准确率这一指标是否足够?为什么?A. 足够,因为准确率越高,模型越好B. 不足,因为还需要考虑其他性能指标如精确率、召回率等C. 足够,因为不需要考虑其他因素D. 不足,因为需要了解数据集的类别分布情况7、某公司近三年的销售额分别为:2019年1000万元,2020年1200万元,2021年1500万元。
若要计算三年的平均增长率,以下哪个公式是正确的?A. (1500 - 1000) / 1000B. (1500 / 1000) ^ (1/3) - 1C. (1500 / 1200) / (1200 / 1000)D. 1500 / (1000 * 3)8、某电商平台的用户活跃度数据如下:男性用户占比40%,女性用户占比60%,其中男性用户中活跃用户占比80%,女性用户中活跃用户占比70%。
数学分析复习题及答案一.单项选择题1. 已知, 则=()A. B. C. D.2. 设, 则()A. B. C. D.3. ()A. B. C. D.4. 下列函数在内单调增加的是()A. B. C. D.二、填空题1. 设函数2.3.在处连续, 则三、判断题1. 若函数在区间上连续, 则在上一致连续。
()2. 实轴上的任一有界无限点集至少有一个聚点。
()3.设为定义在上的单调有界函数, 则右极限存在。
()四、名词解释1. 用的语言叙述函数极限的定义2. 用的语言叙述数列极限的定义五、计算题1. 根据第四题第1小题证明2. 根据第四题第2小题证明3. 设, 求证存在, 并求其值。
4.证明:在上一致连续, 但在上不一致连续。
5. 证明: 若存在, 则6. 证明: 若函数在连续, 则与也在连续, 问: 若在或在上连续, 那么在上是否必连续。
一、1.D 2.C 3.B 4.C二、1. 2. 3.三、1.× 2.√ 3.√四、1.函数极限定义: 设函数在点的某个空心邻域内有定义, 为定数。
, , 当时, , 则。
2.数列极限定义:设为数列, 为定数, , , 当时, 有, 则称数列收敛于。
五、1.证明:, , 当时, ;得证。
2.证明:令, 则, 此时, ,, , 当时,3.证明:⑴,⑵)1)(1(1111111----+++-=+-+=-n n n n n n n n n n x x x x x x x x x x 而, 由数学归纳法可知, 单调增加。
综合⑴, ⑵可知存在,设, 则由解得=A 215+(负数舍去)4.证明: 先证在上一致连续。
, 取, 则当且有时, 有 []δ•''+'≤''-'''+'=''-'x x x x x x x f x f ))(()()(εε<+⋅++≤)(2)1(2b a b a故2)(x x f =在[]b a ,上一致连续。
数据分析1、下列哪个不属于大数据的特点。
()A.多样性B.有效性C.高速性D.规模性2、企业展开数据分析,流程正确的是()。
A.梳理数据分析思路,明确数据分析目的,数据收集,数据处理,数据分析,数据展示B.明确数据分析目的,梳理数据分析思路,数据收集,数据处理,数据分析,数据展示C.明确数据分析目的,梳理数据分析思路,数据处理,数据收集,数据分析,数据展示D.明确数据分析目的,梳理数据分析思路,数据收集,数据处理,数据展示,数据分析3、某渠道引入了1万个客户,单个客户2元,最终有4000个最终留存了下来,单个留存客户成本为()。
A.1B.10C.2D.54、流量价值计算公式正确的是()。
A.流量价值= 转化率×客单价B.流量价值= 流量产生的交易金额/ 成交客户数C.以上都不对D.流量价值= 转化率×客单价×单个客户留存成本5、评估转化效果的最终指标是()。
A.点击率B.下单支付转化率C.支付转化率D.下单转化率6、例如某网店的女士T恤类目下80个款式,平均每个款式有4个颜色,5个尺码,其类目深度为()个SKU。
A.80B.320C.400D.16007、某网店昨日访客数是100000人,支付客户数为10000人,销售额600000元,该网店昨日客单价为()。
A.6元/人B.60元/人C.600000元/人D.以上都不对8、例如某网店的女士T恤类目下60个款式,平均每个款式有3个颜色,4个尺码,其类目深度为()个SKU。
得分/总分A.720C.240D.129、某网店昨日访客数是2000人,支付客户数为500人,销售额50000元,该网店昨日客单价为()。
A.25元/人B.100元/人C.50000元/人D.以上都不对10、新客户比例大于客户流失率,说明()。
A.以上都不对B.店铺处于下滑衰退的阶段C.店铺处于成熟稳定阶段D.店铺处于发展成长阶段11、对于网店来说,()才是最有价值的客户。
数据分析师常见的道笔试题目及答案LELE was finally revised on the morning of December 16, 2020数据分析师常见的7道笔试题目及答案导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
以下是由小编为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
注意到IP是32位的,最多有个2^32个IP。
同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。
然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述:算法思想:分而治之+Hash地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。
这样,每个小文件最多包含4MB个IP地址;3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址;4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。
假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。
一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。
),请你统计最热门的10个查询串,要求使用的内存不能超过1G。
典型的Top K算法,还是在这篇文章里头有所阐述,文中,给出的最终算法是:第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。
本文部分内容来自网络整理,本司不为其真实性负责,如有异议或侵权请及时联系,本司将立即删除!== 本文为word格式,下载后可方便编辑和修改! ==数据分析师常见的7道笔试题目及答案导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。
以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。
1、海量日志数据,提取出某日访问百度次数最多的那个IP。
首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。
注意到IP是32位的,最多有个2^32个IP。
同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。
然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。
或者如下阐述:算法思想:分而治之+Hash1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理;2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。
这样,每个小文件最多包含4MB个IP地址;3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址;4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP;2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。
假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。
一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。
),请你统计最热门的10个查询串,要求使用的内存不能超过1G。
典型的Top K算法,还是在这篇文章里头有所阐述,文中,给出的最终算法是:第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。
数据分析师笔试题1. 数据分析师的角色和职责数据分析师在现代信息时代扮演着重要的角色,其职责主要包括收集、清洗、分析和解释数据,为企业提供决策支持和业务优化的建议。
他们需要具备数理统计、编程和业务洞察等多种技能,以准确解读数据并为企业带来商业价值。
2. 常见的数据分析工具和技术数据分析师需要熟练掌握各种数据分析工具和技术,以更好地处理和分析大规模的数据。
以下是一些常见的数据分析工具和技术:a) SQL:结构化查询语言(SQL)是用于管理和处理关系数据库的核心语言,数据分析师可以使用SQL进行数据提取、转换和加载(ETL)操作,以便进行后续分析。
b) Python/R:Python和R是两种常用的编程语言,它们在数据分析和统计建模方面拥有丰富的生态系统和库。
数据分析师通常使用Python或R编写脚本来进行数据处理和统计分析。
c) Excel:Excel是一款功能强大的电子表格软件,广泛用于数据分析和可视化。
数据分析师可以使用Excel进行数据整理、汇总和绘图,以便更好地理解和展示数据。
d) 数据可视化工具:数据可视化工具如Tableau、Power BI等能够将数据转化为直观、易于理解的图表和仪表盘。
数据分析师可以使用这些工具来展示分析结果,帮助业务决策。
3. 数据收集和清洗数据分析的第一步是收集和清洗数据,确保数据的完整性和准确性。
数据分析师需要了解数据来源,并进行数据抽取和转换操作,以便获得一致的数据格式和结构。
常见的数据收集方式包括调查问卷、日志文件、数据库和社交媒体等。
数据清洗是清除数据中的错误、重复、不完整或不一致的过程。
数据分析师需要使用各种技术和工具来处理缺失值、异常值和重复值,确保数据的质量和可靠性。
4. 数据分析和解释在数据清洗完成后,数据分析师可以开始对数据进行分析和解释。
这包括统计分析、机器学习、数据挖掘和预测建模等技术手段。
数据分析师需要根据业务需求选择合适的方法,探索数据背后的模式、关联和趋势。
从互联网巨头数据挖掘类招聘笔试题目看我们还差多少知识1 从阿里数据分析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题,从笔试题的几个要求我们一起来看看数据分析的职业要求。
一、异常值是指什么?请列举1种识别连续型变量异常值的方法?异常值(Outlier)是指样本中的个别值,其数值明显偏离所属样本的其余观测值。
在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。
Grubbs’ test(是以Frank E. Grubbs命名的),又叫maximum normed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。
未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
点评:考察的内容是统计学基础功底。
二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。
聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。
聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类分析计算方法主要有:层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。
其中,前两种算法是利用统计学定义的距离进行度量。
k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
一般都采用均方差(标准差)作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
其流程如下:(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心;(2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分;(3)重新计算每个(有变化)聚类的均值(中心对象);(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。
优点:本算法确定的K 个划分到达平方误差最小。
当聚类是密集的,且类与类之间区别明显时,效果较好。
对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。
一般来说,K<<N,t<<N 。
缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。
点评:考察的内容是常用数据分析方法,做数据分析一定要理解数据分析算法、应用场景、使用过程、以及优缺点。
三、根据要求写出SQL表A结构如下:Member_ID(用户的ID,字符型)Log_time(用户访问页面时间,日期型(只有一天的数据))URL(访问的页面地址,字符型)要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ;点评:SQL语句,简单的数据获取能力,包括表查询、关联、汇总、函数等。
四、销售数据分析以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?表如下:一组每天某网站的销售数据a) 从这一周的数据可以看出,周末的销售额明显偏低。
这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。
b) 针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。
点评:数据解读能力,获取数据是基本功,仅仅有数据获取能力是不够的,其次是对数据的解读能力。
五、用户调研某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:a) 试验需要为决策提供什么样的信息?c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
b) 根据三类客户的数量,采用分层比例抽样;需要采集的数据指标项有:客户类别,改进计划前周消费次数,改进计划后周消费次数;选用统计方法为:分别针对A、B、C三类客户,进行改进前和后的周消费次数的,两独立样本T-检验(two-sample t-test)。
点评:业务理解能力和数据分析思路,这是数据分析的核心竞争力。
综上所述:一个合格的数据分析应该具备统计学基础知识、数据分析方法、数据获取、数据解读和业务理解、数据分析思想几个方面能力,即将成为数据分析师的亲们,你们准备好了吗?2 从腾讯(数据挖掘方向)笔试题目看技术储备笔试内容:1. 历:已知中序遍历顺序以及前序遍历顺序,求后序遍历顺序2.SQL语句:找出QQset中最小的QQ号码3.encodeURI&URL传播的转义结果4.36辆车,6条跑道,无计时器,最少几次比赛可以选出前三5.Windows/Linux下判断远程地址为某主机监听的某端口是都开放的命令是?6.html 网站cookie7.cookie功能8.哈希冲突9.哪些http方法对于服务端和用户是安全的10.二维数组内存地址计算11.附加题:推导线性最小二乘法过程12.附加题:概率计算(这个相当简单啦)13.模型过拟合与哪些因素有关,写出理由3 从百度(数据挖掘工程师)笔试题目看技术储备一. 简答题1. new 和 malloc 的区别。
2. hash冲突是指什么?怎么解决?给两种方法,写出过程和优缺点。
3. 命中的概率是 0.25,若要至少命中一次的概率不小于 0.75,则至少需要几次?二. 算法设计题1. 用C/C++写一个归并排序。
数据结构为struct Node{int v; Node *next};接口为 Node * merge_sort(Node *);2. 设计S型层次遍历树的算法,比如根节点是第一层,第二层从左至右遍历,第三层从右至左遍历,第四层再从左至右遍历,以此类推。
举例:应依次输出 1 2 3 6 5 4 7 8 9。
3. 一个url文件,每行是一个url地址,可能有重复。
(1)统计每个url的频次,设计函数实现实现。
(2)设有10亿url,平均长度是20,现在机器有8G内存,怎么处理,写出思路。
三. 系统设计题自然语言处理中的中文分词问题,前向最大匹配算法(FMM)。
注:题目举例说明了FMM的基本思想。
(1)设计字典的数据结构 struct dictnote。
(2)用C/C++实现FMM,可选接口为int FMM(vectoriLetters, dictnode *iRoot, vector*oResults);其中 iLetters 为待分词的句子,比如 {“小”,“明”,“今”,“天”,“买”,“了”,“i”,“p”,“o”,“n”,“e”,“6”},iRoot 是字典, oResults 保存输出结果,即分词的位置。
也可以自己设计接口。
(3)收集了一些手机品牌的字典,如{iphone, 诺基亚}。
现在要求查找包含这些手机品牌的网页,比如包含 iphone6, 诺基亚 9973 等。
怎么修改FMM实现这个功能,可以写伪代码。
4 从搜狐(数据挖掘算法工程师)笔试题目看技术储备笔试1,类的继承2,资源互斥下的死锁3,一维数组,元素为指针,指针指向一个参数为Int,返回值为int的函数4,进程间的通信方式5, Const标志符常量一定要?6, String的普通构造函数,拷贝构造函数,赋值函数,析构函数7, Strcpy函数8, N个不同数的全排列,打印所有全排列9, Sizeof(char name[]=”hello”)10,继承的转换(子类可以转换成基类,基类不能转换成子类,多继承下同一子类的基类间不能相互转换)5 从网易(数据挖掘研究员)笔试题目看技术储备笔试1,字符串匹配的算法复杂度(主串N,字串M)N+M2,排序算法的稳定性(快速排序为非稳定)3,平衡二叉树的插入4, 20个亿整数的两个集合a与b,求a与b的交集,内存为4Gb5,在N个无序数中找K个最小值6,页面文件的逻辑地址位(8个1024字放内32帧内存里)7,计算机网络各层应用连接8,哪一种模式不关心算法Abstract Factory:提供一个创建一系列相关或相互依赖对象的接口,而无需指定它们具体的类。
(使用得非常频繁。
)Adapter:将一个类的接口转换成客户希望的另外一个接口。
A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。
Bridge:将抽象部分与它的实现部分分离,使它们都可以独立地变化。
Builder:将一个复杂对象的构建与它的表示分离,使得同样的构建过程可以创建不同的表示。
Chain of Responsibility:为解除请求的发送者和接收者之间耦合,而使多个对象都有机会处理这个请求。
将这些对象连成一条链,并沿着这条链传递该请求,直到有一个对象处理它。
Command:将一个请求封装为一个对象,从而使你可用不同的请求对客户进行参数化;对请求排队或记录请求日志,以及支持可取消的操作。
Composite:将对象组合成树形结构以表示“部分-整体”的层次结构。
它使得客户对单个对象和复合对象的使用具有一致性。
Decorator:动态地给一个对象添加一些额外的职责。
就扩展功能而言,它比生成子类方式更为灵活。
Facade:为子系统中的一组接口提供一个一致的界面, F a c a d e模式定义了一个高层接口,这个接口使得这一子系统更加容易使用。