苏宁算法管培生数据挖掘方向面试汇总

格式：pdf
大小：1.06 MB
文档页数：12

下载文档原格式

/ 12

苏宁集团工程师面试题总结有答案80%参考精品篇

本题库是苏宁集团工程师面试-内部真实评分标准，-内部真实面试案例，后面有工程师考试试卷和答案。

物超所值，学会本文面试通过率提高80%苏宁集团面试经验总结精品篇:苏宁集团是4轮面试一面组长，会问到一些这样问题，为什么会离职，为什么来苏宁集团婚姻状况，与此同时有没有想问面试官的问题。

二面经理，偏向于部门业务服务。

有业务上的试卷需要考试。

三面经理，这一轮会谈到一些业务目标和工作中可能出现的一些问题。

大概聊一下工作的想法，部门的价值和目标，对这个岗位的期望等等以及苏宁集团和行业的情况。

聊天的内容与面试者个人有关，可多可少。

(二三是交叉面试防止作弊)，四面职业通道委员会，这一轮的面试非常专业，为技术专家面，目的是定级。

确定你面试者的水平大概在什么位置。

直接影响后面的收入。

各个击中要害。

不要想着有简单跳过的部分。

在介绍工作内容的过程中，要先介绍自己在组织团队所处的位置，发挥的作用，工作绩效等，条例要清楚。

这一轮的面试专业性最强。

最后是HR谈薪资的部分，因为行业都有规则，所以时间不会太长。

5面背景调查，主要是面试者在填写简历时提供的名字和联系方式，其中包含领导。

HR最后offer。

步骤四、五、六每个一个星期，比如三面完后得到职业通道委员会的面试的通知约一周，四面完后，得到通过与否的消息是一个星期。

如果某一步一个星期多没消息，那就是没戏了。

面试的重点分享：面试的气氛需要注意的：1面试不能一脸严肃，显得很紧张，要适当微笑。

给面试官的印象好。

2面试官提问的问题，不能对抗反驳提问。

即使面试官的问题比较苛刻。

细节决定成败，面试如同相亲，面试官会注意到每个细节，身上有没有烟味，头发是不是整齐，说话条例要清晰，一定要集中精神，面试等待的时候也不能看手机。

自我介绍的时候要强调身体健康可以加班。

可以在最后自己介绍的时候，表示出强烈的来工作，一展抱负的意思。

让面试官感受你的积极一面。

面试最重要的3点1要高度认同面试公司的工作文化和理念。

2018年苏宁面试经验-实用word文档 (4页)

本文部分内容来自网络整理，本司不为其真实性负责，如有异议或侵权请及时联系，本司将立即删除！== 本文为word格式，下载后可方便编辑和修改！ ==苏宁面试经验面试经验篇一上上周六投的苏宁，上周二收到电话通知，说是第二天笔试，听说苏宁笔试是行测啊，从来没做过行测题的我赶快找了一份卷子刚做了一半，晚上就熄灯了，没办法，只能硬着头皮去了，听天由命吧。

第二天生怕迟到，5点半起床，折腾了一遍到考试地点才7点，离考试还有一个半小时呢。

于是转了一转，果然是理工类的学校，一路上没碰到几个女生，走到机械工程学院的时候看到清一色的男生穿着清一色的蓝色工作服，咦，这里面有工厂不成?一想不对，看看他们有的还背着书包，那就应该是他们学院的“院服”了。

嗯，这样颜色的衣服耐脏，而且布料也耐磨，经济适用啊。

本来一进学校就找到了第一教学楼，也就是我的考试地点，本来以为就围着这栋楼周边转一转，结果人没转多远，把原来回去的路给忘了，其实我一点也不吃惊，我天生路痴，而且痴得厉害。

在东张西望的时候，遇到一个向我问路的，我刚想解释我不是这个学校的，他说他想去第一教学楼，我自己还在找呢。

再一问，原来他也是来苏宁笔试的，于是，开始变成我跟着他跑了，问了一个本校生，他轻轻的一指，唉，原来就在我们就站在那栋楼的门口，再次佩服下自己的智商。

一个200人的教室到快考试的时候已经坐的满满的了。

一男一女负责发卷子，不过事先要填一个职位申请表，上面具体到你所做过的学生工作，社会工作的证明人的联系方式什么的(可以不填啦)。

不过苏宁真的是在准备录用前给你学校里的辅导员老师打电话的，就是简单求证下你的表现。

卷子发下来，100道题，90分钟，难度不大，全部是单选题。

我应聘的是管理类，考完就结束了，但是投资，财会之类的还要加试1个小时左右的专业知识。

紧紧张张的做完卷子，检查下差不多就要交卷了。

出门坐车回家喽。

昨天打电话让我今天下午去总部面试，我也是征询了下已经面试过的同学的经验，说是自我介绍和对苏宁的了解。

数据挖掘算法面试题

数据挖掘算法面试题一、介绍数据挖掘是一种从大规模数据集中提取出有用模式和信息的技术。

在当今信息爆炸的时代，数据挖掘技术的应用越来越广泛。

在数据科学领域，算法面试题是评估一个数据挖掘工程师技能水平的重要环节。

本篇文章将介绍一些常见的数据挖掘算法面试题，并分享解答思路和算法实现。

二、分类算法面试题1. 决策树决策树是一种常用的分类算法。

面试中，可能会遇到以下问题：面试题1：请解释决策树算法的基本原理。

面试题2：如何选择最佳的划分特征？面试题3：如何处理连续型特征？面试题4：如何处理缺失值？2. 朴素贝叶斯朴素贝叶斯是一种基于贝叶斯定理的简单概率分类器。

面试中，可能会遇到以下问题：面试题1：请解释朴素贝叶斯算法的基本原理。

面试题2：朴素贝叶斯算法的假设是什么？面试题3：如何处理连续型特征？面试题4：如何处理缺失值？3. 支持向量机支持向量机是一种二分类模型，通过构建最优超平面实现分类。

面试中，可能会遇到以下问题：面试题1：请解释支持向量机算法的基本原理。

面试题2：如何处理多类分类问题？面试题3：支持向量机算法是否适用于处理大规模数据集？面试题4：如何处理缺失值？三、聚类算法面试题1. K均值聚类K均值聚类是一种常用的聚类算法。

面试中，可能会遇到以下问题：面试题1：请解释K均值聚类算法的基本原理。

面试题2：如何选择最佳的簇数K？面试题3：K均值聚类算法是否对初始聚类中心敏感？面试题4：如何处理缺失值？2. 层次聚类层次聚类是一种自底向上（或自顶向下）的聚类算法。

面试中，可能会遇到以下问题：面试题1：请解释层次聚类算法的基本原理。

面试题2：如何选择合适的聚类簇数？面试题3：层次聚类算法的时间复杂度如何？面试题4：如何处理缺失值？四、关联规则挖掘面试题1. 频繁项集挖掘频繁项集挖掘是一种用于发现数据集中频繁出现的物品组合的方法。

面试中，可能会遇到以下问题：面试题1：请解释频繁项集挖掘算法的基本原理。

面试题2：如何选择最佳的最小支持度阈值？面试题3：频繁项集挖掘算法的时间复杂度如何？面试题4：如何处理缺失值？2. 关联规则挖掘关联规则挖掘是基于频繁项集的结果，发现物品间的关联关系。

数据挖掘岗面试题目(3篇)

第1篇一、基础知识1. 请简述数据挖掘的基本概念和目的。

2. 请列举数据挖掘的主要应用领域。

3. 请说明数据挖掘的流程和步骤。

4. 请解释什么是数据预处理，其重要性是什么？5. 请列举数据预处理的主要方法。

6. 请解释什么是特征工程，其重要性是什么？7. 请列举特征工程的主要方法。

8. 请解释什么是机器学习，请列举几种常见的机器学习算法。

9. 请解释什么是监督学习、无监督学习和半监督学习。

10. 请解释什么是分类、回归和聚类。

11. 请解释什么是模型评估，请列举几种常见的模型评估指标。

12. 请解释什么是决策树，请列举决策树的分类方法。

13. 请解释什么是随机森林，请列举随机森林的优点。

14. 请解释什么是支持向量机（SVM），请列举SVM的分类方法。

15. 请解释什么是神经网络，请列举神经网络的分类方法。

16. 请解释什么是深度学习，请列举深度学习的应用领域。

17. 请解释什么是K-means算法，请列举K-means算法的优缺点。

18. 请解释什么是层次聚类，请列举层次聚类的分类方法。

19. 请解释什么是关联规则挖掘，请列举关联规则挖掘的算法。

20. 请解释什么是时间序列分析，请列举时间序列分析的方法。

二、编程能力1. 请用Python实现以下功能：（1）读取CSV文件，提取其中指定列的数据；（2）对提取的数据进行排序；（3）将排序后的数据写入新的CSV文件。

2. 请用Python实现以下功能：（1）使用Pandas库对数据集进行数据预处理；（2）使用NumPy库对数据进行特征工程；（3）使用Scikit-learn库对数据进行分类。

3. 请用Python实现以下功能：（1）使用TensorFlow库实现一个简单的神经网络模型；（2）使用PyTorch库实现一个简单的神经网络模型；（3）对模型进行训练和评估。

4. 请用Python实现以下功能：（1）使用Scikit-learn库实现一个SVM分类器；（2）对分类器进行训练和评估；（3）调整SVM分类器的参数，以提高分类效果。

数据挖掘常见面试题与参考答案简析

数据挖掘常见⾯试题与参考答案简析机器学习⽅⾯:1、⽀撑平⾯-和⽀持向量交互的平⾯,分割平⾯---⽀持平⾯中间⾯也就是最优分类平⾯2、SVM不是定义损失,⽽是定义⽀持向量之间的距离⽬标函数3、正则化参数对⽀持向量数的影响1、LR的形式:h(x)=g(f(x)) 其中x为原数据,f(x)为线性/⾮线性回归得到的值,也叫判定边界 g()为Sigmod函数,最终h(x)输出的范围为(0,1)LR对样本分布敏感LR是loss最优化求出的 NB是跳过统计Loss最优,直接得出权重的 NB⽐LR多了⼀个条件独⽴假设 LR属于判别模型 NB是⽣成模型两者都可以处理⾮线性的问题;LR和SVM最初都是针对⼆分类问题的,SVM最⼤化间隔平⾯,LR极⼤似然估计,SVM只能输出类别,不能输出概率,两者LOSS function 不同,LR的可解释性更强,SVM⾃带有约束的正则化LR只能⽤于处理⼆分类,⽽Sigmod对于所有的输⼊,得到的输出接近0或者 1Sigmod存在的问题,梯度消失、他的输出不是关于原点对称的导致收敛速度⾮常慢,计算⾮常耗时间Tanh激活桉树存在的问题:梯度消失,计算耗时,但是其输出的是中⼼对称的Relu:其输出不关于原点对称:反向传播时,输⼊的神经元⼩于0时,会有梯度消失问题,当x=0是,该点的梯度不存在(没有定义) Relu问题:权重初始化不当,出事学习率设置的⾮常⼤SVM对偶问题的获得⽅法：将原问题的⽬标函数L和约束条件构造拉格朗⽇函数，再对L中原参数和lambda、miu分别求导，并且三种导数都等于0；再将等于0的三个导数带⼊原⽬标函数中，即可获得对偶问题的⽬标函数关系：原问题的最⼤值相对于对偶问题的最⼩值KKT条件是思考如何把约束优化转化为⽆约束优化à进⽽求约束条件的极值点决策树对训练属性有很好的分类能⼒；但对位置的测试数据未必有好的分类能⼒，泛化能⼒弱，即发⽣过拟合防⽌过拟合的⽅法：剪枝（把⼀些相关的属性归为⼀个⼤类，减少决策树的分叉）；随机森林L1正则化可以实现稀疏（即截断），使训练得到的权重为0；l1正则会产⽣稀疏解，正则化就是对loss进⾏惩罚（加了正则化项之后，使loss不可能为0,lambda越⼤惩罚越⼤-->lambda较⼩时，约束⼩，可能仍存在过拟合；太⼤时，使loss值集中于正则化的值上）正则化使⽤⽅法：L1/L2/L1+L2如果是离线的话，L1正则可以有稀疏解，batch⼤点应该也有帮助，在线的解决思路有ftrl,rds,robots,还有阿⾥的mlr。

2021年苏宁面试经验(2)

苏宁面试经验(2)
苏宁面试经验
&还可以用作位运算符，当&操作符两边的表达式不是boolean类型时，&表示按位与操作，我们通常使用0x0f来与一个整数进行&运算，来获取该整数的最低4个bit位，例如，0x31 & 0x0f的结果为0x01。

备注：这道题先说两者的共同点，再说出&&和&的特殊之处，并列举一些经典的例子来表明自己理解透彻深入、实际经验丰富。

4、在J ___A中如何跳出当前的多重嵌套循环?
在Java中，要想跳出多重循环，可以在外面的循环语句前定义一个标号，然后在里层循环体的代码中使用带有标号的break 语句，即可跳出外层循环。

例如，
ok:
for(int i=0;i<10;i++)
for(int j=0;j<10;j++)
System.out.println(“i=” + i + “,j=” + j);
if(j == 5) break ok;
另外，我个人通常并不使用标号这种方式，而是让外层的循环条件表达式的结果可以受到里层循环体代码的控制，例如，要在二维数组中查找到某个数字。

int arr[][] = {{1,2,3},{4,5,6,7},{9}};
boolean found = false;
for(int i=0;i {
for(int j=0;j {
System.out.println(“i=” + i + “,j=” + j);
if(arr[i][j] == 5)
found = true;
break;
模板,内容仅供参考。

数据挖掘面试

数据挖掘⾯试问题⼀：你简历中上过的数据挖掘、机器学习等课程，是学校的研究⽣课程还是⾃⼰单独学习的；回答道：研究⽣课程有学习，⾃⼰单独私下也有学习1、监督学习和⽆监督学习的区别？分类回归⼀般属于哪种？聚类属于哪种？请举例你知道的相关有监督学习和⽆监督学习算法1：监督学习和⽆监督学习的区别在于：监督学习数据样本是带有标签的，⽽⽆监督学习的数据样本是没有标签的；分类回归⼀般属于监督学习，聚类是⽆监督学习；⽆监督学习⼤致⼜有层次聚类、核密度聚类等（本⼈对⽆监督研究并不是很深⼊，⼤致答了）常见的监督学习：KNN、决策树（后⾯陆续问到决策树有⼏种，区别是什么）、SVM（后续问到常⽤的核函数有哪些）、随机森林、xgboost、朴素贝叶斯、逻辑回归、神经⽹络；⽆监督学习主要有：K-means，基于密度聚类、基于谱聚类、ISO-Forest接触的等等2、⽣成式模型和判别式模型的区别2：判别式模型建模过程主要是依靠代价准则函数，通过代价准则函数，拟合出⼀个最优判别⽅程，进⾏判别，⽽⽣成式模型主要是依靠挖掘数据的内在规则（因此数据量要求也⾼），⽣成⼀个概率估计；例如逻辑回归和朴素贝叶斯，前者是判别模型，后者是⽣成模型3、你对集成算法有了解吗？为什么集成要求的是弱分类器，弱分类器的定义是什么？⽽不能是强分类器？GBDT和xgboost的区别是什么？3：对集成学习有⼀定的了解；弱分类器（这个貌似没有严格的理论定义），⼤致的意思就是分类性能较弱的⼀类分类器；集成学习可以是⼀类强分类器的集合，但是强分类器的话，可能每个分类器都拟合的很好，充分挖掘了数据的内在信息，因此⽆法实现多样性，使得集成之后的性能也就是近似于若⼲个强分类器中的⼀个，⽽没有达到我们需要的再次进化分类器性能的⽬的；⾄于GBDT和RF的区别在于：GBDT 是⼀个串⾏建树的过程，是boost算法，通过⽣成下⼀棵决策树，来拟合数据集，使得模型在训练过程中尽量的减少bias；⽽RF是⼀个bagging算法，通过并⾏训练，⽣成模型，最后结果输出⼦树的投票结果4、问了⼀下第⼀篇论⽂的⼀些细节东西4：这⾥略过5、现在开始问⼀下数据结构和JAVA相关的东西（没怎么学过，以下问题简答⼀下，怕误导⼈，⼤家看看就好）；数据结构⾥⾯你了解哪些数据结构，Java的继承、多态、重载、Java序列化和反序列化你讲解⼀下5：了解过链表、数组、队列、树、堆栈等；JAVA重载是可以命名若⼲个函数名⼀样的函数，但是由于函数输⼊类型不⼀样，使得我们可以通过输⼊类型来载⼊需要的函数模块；⾄于继承，就是⼦类继承⽗类，使得⼦类能够继承和使⽤⽗类的⼀些功能和变量（再难⼀点估计就向上转型和向下转型了，不过没问）；多态是指⼀个对象能够有多种表现形式？序列化就是将对象转化为字节序的过程，将字节序转化为对象的过程即反序列化；作⽤在于，通过序列化之后，能够将数据从内存中存⼊到磁盘进⾏保存，应对⾼并发情况，减⼩内存的压⼒；6、Python常⽤的数据结构有哪些；举例说⼀下，然后⼜问到DataFrame的⽤途，List 和Set 区别，如何对List去重6:Python数据结构：array、list、set、tuple、dict、(DataFrame、Series)属于Pandas；DataFrame存在⼀些内置函数，如merge等，能够⽅便的进⾏数据处理和数据分析，plot函数能够⽅便进⾏数据展⽰，List去重就是：list(set(list))7、链表和数组的区别，哪个放连续内存，哪个可以放不连续内存，插⼊时哪个更快7：链表有指针，能够让上⼀位数据指到下⼀位，⽽数组是不存在这些的，相当于⼀整块数组，因此数组放连续内存，⽽链表可以放在不连续内存，因此指针的存在，插⼊时链表应该更快的；8、深度学习了解吗？CNN了解吗8：了解⼀些，做过⼀个⼈脸识别在项⽬，后⾯没深问，不清楚9、Linux查看内存，查看磁盘空间9：忘记复习这块了，在公司也没怎么常⽤，看内存可以⽤ps，top；磁盘空间df，⽂件使⽤内存du；10、如何在HDFS上看数据10：Hadoop fs -text -----|less；Hadoop fs -head or -tail ; Hadoop fs -cat11、项⽬是离线的还是Streaming，数据量有多少，数据存放在哪⾥？输出到哪⾥？11：离线的项⽬，在Spark下训练好，上线的，数据量⼤概在500W条，每条450W维度，存储格式Libsvm，存在在Hive，输出到HDFS上⾯12、碧桂园智慧城市⾥⾯⽤到了什么AI技术12：是⼀个调研⼯作，在沟通中，暂时没有具体落地13、有什么想问的吗?13.1：我有什么不⾜？回答：公司规定，不能说，⽆果13.2：部门的数据研发主要⼲什么；多端数据/实时数据流/数据挖掘.......了解清楚了14：⾯试结束了，⼀个⼩时，后⾯觉得没考我代码，来了⼀个补⼑，三个问题14.1、实现⼀个环形buffer类接⼝，插⼊数据和读数据、14.2、⽤加法实现乘除减操作14.3、⼆分查找代码早上发过去了，刚才收到消息，功能都实现了，但是有⼀些⼩问题：命名问题（环形接⼝）、异常抓取和处理问题（乘除减法问题）、边界问题（⼆分查找）；毕竟还是年轻，有些问题考虑还不是很周到，有待加强！三段代码贴在后⾯了。

应用大数据面试题目(3篇)

第1篇随着大数据技术的飞速发展，越来越多的企业开始重视大数据的应用，并将其作为提升企业竞争力的重要手段。

为了帮助求职者更好地准备应用大数据的面试，以下将提供一系列面试题目，涵盖大数据的核心概念、技术架构、数据处理、分析应用等多个方面。

一、大数据核心概念1. 请简要介绍大数据的五个V（Volume、Velocity、Variety、Veracity、Value）及其对大数据处理的影响。

2. 什么是Hadoop？请列举Hadoop的主要组件及其功能。

3. 解释MapReduce编程模型的工作原理，并说明其在处理大数据时的优势。

4. 什么是数据仓库？请描述数据仓库的基本架构和功能。

5. 什么是数据湖？它与数据仓库有什么区别？二、大数据技术架构1. 请列举大数据技术栈中常用的开源框架，并简要介绍它们的作用。

2. 什么是Spark？请说明Spark的架构和主要特性。

3. 什么是Flink？请描述Flink与Spark的主要区别。

4. 什么是Hive？请介绍Hive的架构和功能。

5. 什么是Kafka？请说明Kafka在数据处理中的作用。

三、数据处理与分析1. 请描述数据清洗的步骤和常见方法。

2. 什么是数据脱敏？请列举几种数据脱敏技术。

3. 什么是数据压缩？请介绍几种常用的数据压缩算法。

4. 什么是数据挖掘？请列举几种常见的数据挖掘算法。

5. 什么是机器学习？请介绍几种常见的机器学习算法。

四、大数据应用场景1. 请举例说明大数据在金融行业的应用场景。

2. 请举例说明大数据在医疗行业的应用场景。

3. 请举例说明大数据在零售行业的应用场景。

4. 请举例说明大数据在交通行业的应用场景。

5. 请举例说明大数据在政府领域的应用场景。

五、大数据项目经验1. 请描述你参与过的最大规模的大数据项目，包括项目背景、目标、技术选型、实施过程和成果。

2. 请描述你在项目中遇到的技术难题及其解决方案。

3. 请描述你在项目中如何进行数据治理和质量管理。

【参考文档】苏宁面试问题及答案-范文word版 (9页)

本文部分内容来自网络整理，本司不为其真实性负责，如有异议或侵权请及时联系，本司将立即删除！== 本文为word格式，下载后可方便编辑和修改！ ==苏宁面试问题及答案回答好面试题是苏宁销售人员求职者敲开企业大门的拍门砖。

下面是小编分享给大家的苏宁面试问题及答案，希望对大家有帮助。

单选题(10小题，每题1分，共10分)1. 关于普通销售必有订单模式说法正确的是( B )a) 必有订单模式，报价单为必选单据，订单需参照报价单生成b) 必有订单模式，发货单必须参照订单生成c) 必有订单模式，发票必须参照订单生成d) 必有订单模式，发票可以手工增加2. 普通销售业务，关于退货流程，说法不正确的是( C )a) 退货单可以参照订单生成，也可以参照发货单生成b) 退货单参照发货单生成，再参照退货单生成红字发票c) 红字发票可以参照发货单生成d) 红字发票可以参照退货单或订单生成3. 以下说法不正确的是( A )a) 库存生成出库单时，销售发票复核后生成的发货单，为未审核状态b) 销售生成出库单时，销售发票复核后，自动生成发货单c) 销售生成出库单时，销售发票复核后，自动生成销售出库单d) 库存生成出库单时，销售出库单只能参照发货单生成4. 关于分期收款业务，说法正确的是( A )a) 分期收款业务，只能先发货后开票b) 分期收款业务，可以手工增加销售发票c) 分期收款业务，可以使用先开票后发货的销售模式d) 分期收款业务，没有必有订单业务的控制选项5. 取价方式为价格政策时，存货调价单上同一存货有两笔记录，一笔数量下限为10，批发价为5元;一笔数量下限为0，批发价为8元。

在不勾“按数量阶梯取价”的情况下，销售订单数量为10，销售订单上自动带出得单价是多少?( C)a) 0b) 5c) 8d) 106. 关于委托代销业务，说法正确的是( A )a) 委托代销业务，只能先发货后开票b) 委托代销业务，可以手工增加销售发票c) 委托代销业务，可以使用先开票后发货的销售模式d) 委托代销业务，没有必有订单业务的控制选项GLCJ01-总账-产品培训课-初级难度7.代垫费用单业务，说法正确的是( C )a) 代垫费用单可以无后续单据b) 代垫费用单一定无后续单据c) 代垫费用单可以生成其他应收单d) 代垫费用单可以生成其他应付单8.销售订单数量为7个，允许超订单发货，出库超额上限为3，订货超额上限为4，发货超额上限为5，则发货单上允许保存的最大数量为( D )a) 21b) 28c) 35d) 429.销售订单上数量为100，含税单价为10，税率为17，税额为145.3。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

2019秋招初试：在苏宁总部面试的，大约50分钟，一个面试官，面试官很和蔼。

（最好带点纸和笔，后面会推公式，我面试时面试官只剩下一张白纸了）1、数据清洗：分别是缺失值(missing value)，异常值(离群点),去重处理(Duplicate Data)以及噪音数据的处理。

缺失值：1）在缺失率少且属性重要程度低的情况下，若属性为数值型数据则根据数据分布情况简单的填充即可，例如：若数据分布均匀，则连续值使用均值对数据进行填充即可，离散值用众数填充；若数据分布倾斜，使用中位数填充不高：直接删除。

（Pandas.isnull():元素级别的判断，把对应的所有元素的位置都列出来，元素为空或者NA就显示True，否则就是False、panda.dropna,指定删除某行某列、Pandas.fillna():缺失值填充）。

异常值：1、 pandas的describe方法就可以实现，通过数据集描述性统计，发现是否存在不合理的值，即异常值。

2、基于正态分布的离群点检测、3、聚类。

1>删除异常值----明显看出是异常且数量较少可以直接删除2>不处理---如果算法对异常值不敏感则可以不处理，但如果算法对异常值敏感，则最好不要用这种方法，如基于距离计算的一些算法，包括kmeans，knn之类的。

3>平均值替代----损失信息小，简单高效。

4>视为缺失值----可以按照处理缺失值的方法来处理去重处理：一是排序，二是计算相似度。

目前在做竞赛过程中主要是用duplicated方法进行判断，然后将重复的样本进行简单的删除处理。

噪音数据：分箱法（用“近邻”样本光滑有序数值）和回归法（找出真实值与带有噪声的观测值之间的关系）2、特征选择过滤式选择：选择与目标变量相关性强的特征，缺点：没有考虑特征之间的关联作用。

包裹式选择：把特征的选择看做特征的子集，然后用模型进行评估。

嵌入式选择：根据模型选择特征重要性3、解释什么是降维，在哪里会用到降维，它的好处是什么？降维是指通过保留一些比较重要的特征，去除一些冗余的特征，减少数据特征的维度。

而特征的重要性取决于该特征能够表达多少数据集的信息，也取决于使用什么方法进行降维。

降维的好处是：（1）节省存储空间；（2）加速计算速度（比如在机器学习算法中）（3）去除一些冗余的特征，比如降维后使得数据不会既保存平方米和平方英里的表示地形大小的特征；（4）将数据维度降到2维或者3维使之能可视化，便于观察和挖掘信息。

（5）特征太多或者太复杂会使得模型过拟合。

4、列举几个常用的python分析数据包及其作用？数据处理和分析：NumPy, SciPy, PandasNumPy：支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。

SciPy：一个用于数学、科学、工程领域的常用软件包，可以处理插值、积分、优化、图像处理、常微分方程数值解的求解、信号处理等问题。

(.mat)Pandas：基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。

pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

(.csv)机器学习：SciKit、TensorFlow、keras、pytorch可视化： Matplotlib, Seaborn5、你所了解到的分类算法？（这个面试官主要考察了很基础的机器学习算法，深度学习方面没有问，他比较强调越是简单的算法越是易于用于商业）有监督：逻辑回归算法：即可以看做是回归算法，也可以看作是分类算法，通常用来解决分类问题，主要是二分类问题，对于多分类问题并不适合，也可以通过一定的技巧变形来间接解决。

面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。

贝叶斯（Bayes）分类算法：是一类利用概率统计知识进行分类的算法，如朴素贝叶斯（Naive Bayes）算法。

这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。

k-近邻(kNN，k-Nearest Neighbors)算法：是一种基于实例的分类方法。

该方法就是找出与未知样本x距离最近的k个训练样本，看这k个样本中多数属于哪一类，就把x归为那一类。

支持向量机（Support Vector Machine ,SVM）的主要思想是：建立一个最优决策超平面，使得该平面两侧距离该平面最近的两类样本之间的距离最大化，从而对分类问题提供良好的泛化能力。

神经网络（Artificial Neural Networks，ANN）：神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。

训练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。

无监督：聚类算法：k-means,DBSCANk均值聚类算法:是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

聚类中心以及分配给它们的对象就代表一个聚类。

每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。

这个过程将不断重复直到满足某个终止条件。

关联规则：关联分类方法挖掘形如condset→C的规则，其中condset是项(或属性-值对)的集合，而C是类标号，这种形式的规则称为类关联规则（classassociation rules，CARS）。

关联分类方法一般由两步组成：第一步用关联规则挖掘算法从训练数据集中挖掘出所有满足指定支持度和置信度的类关联规则；第二步使用启发式方法从挖掘出的类关联规则中挑选出一组高质量的规则用于分类。

（不会就不要提）6. 如何权衡偏差和方差？Bias：描述的是预测值与真实值之间的差距。

用来衡量模型对特定样本实例预测的一致性（或说变化）。

Variance：描述的是预测值的变化范围，离散程度，也就是离其真实值的距离。

用来从总体上衡量预测值与实际值之间的差异。

对于一个非线性分类问题而言（如XOR），简单的线性分类器（无维度空间映射）由于自身特性并不能较好地进行类别划分，model会出现较大的偏差；而决策树模型作为非线性分类器，能较好的拟合训练样本，偏差值较小，但若模型过于拟合训练样本，测试样本出现了训练样本考虑不周的情况，则容易出现预测误差，即方差值较高。

对于一个model而言，泛化误差越小越好，可以通过一些方法来减小上述的偏差和方差。

例如，常见的random forest通过采样和融合多棵决策树来减小泛化误差。

想象你开着一架黑鹰直升机，得到命令攻击地面上一只敌军部队，于是你连打数十梭子，结果有一下几种情况:1.子弹基本上都打在队伍经过的一棵树上了，连在那棵树旁边等兔子的人都毫发无损，这就是方差小（子弹打得很集中），偏差大（跟目的相距甚远）。

2.子弹打在了树上，石头上，树旁边等兔子的人身上，花花草草也都中弹，但是敌军安然无恙，这就是方差大（子弹到处都是），偏差大（同1）。

3.子弹打死了一部分敌军，但是也打偏了些打到花花草草了，这就是方差大（子弹不集中），偏差小（已经在目标周围了）。

4.子弹一颗没浪费，每一颗都打死一个敌军，跟抗战剧里的八路军一样，这就是方差小（子弹全部都集中在一个位置），偏差小（子弹集中的位置正是它应该射向的位置）。

方差，是形容数据分散程度的，算是“无监督的”，客观的指标，偏差，形容数据跟我们期望的中心差得有多远，算是“有监督的”，有人的知识参与的指标。

7、Xgboost:集成算法，Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。

因为XGBoost是一种提升树模型，所以它是将许多树模型集成在一起，形成一个很强的分类器。

而所用到的树模型则是CART回归树模型。

（决策树自身有一些惩罚相）（重点考察）8、Adaboost:（我说了解一点，没多说）9、GBDT 模型（我说不会，他很耐心的给我简单的介绍了下，感动）GBDT（gradient boosting desicion tree）是由boosting tree 演变过来的，而boosting tree可以认为是Adaboost的一般方法，也就是说二分类问题的Adaboost模型是损失函数为指数损失函数的boosting tree模型，回归问题的Adaboost模型是损失函数为平方损失函数的boosting tree模型。

GBDT的关键点就是利用损失函数的负梯度去模拟（代替）残差，这样对于一般的损失函数，只要其一阶可导就行。

这里用到了损失函数的一阶导数来得到残差也就是接下来的tree要去拟合的值（记住这里是一阶导数）。

10、推到逻辑回归公式？？？（损失函数、参数跟新，大概推到了一下）11、推荐系统（如果想给面试官留下更深印象，多深究一下，多看这方面的书籍，毕竟推荐系统商业价值很大，我只是了解，没有实际操作过）协同过滤：很好理解，基于用户相似度基于物品相似度（相似度：欧几里得距离、皮尔逊相似度），可使用surprise库中的knnbasic实现隐语义：不好解释，不知道P、Q值表达什么含义，就像神经网络一样，可解释性差。

SVD12、协同过滤与隐语义的区别：指标：召回率：推荐的一些商品，成功的有几个覆盖率：nike裤子----nike鞋子、衣服、多样性：两个多个商品# 载入movielens-100k数据集，一个经典的公开推荐系统数据集数据集说明：1997-9-19到1998-4-22，在七个月内从电影网站收集而来。

data_df = pd.read_csv(file_path, sep='\t', header=None, names=['user','item','rating','timestamp'])item_df = pd.read_csv(os.path.expanduser('~/.surprise_data/ml-100k/ml-100k/u.item'), sep='|', encoding='ISO-8859-1', header=None, names=['mid','mtitle']+[x for x in range(22)])# 每列都转换为字符串类型data_df = data_df.astype(str)item_df = item_df.astype(str)# 电影id到电影标题的映射item_dict = { item_df.loc[x, 'mid']: item_df.loc[x, 'mtitle'] for x in range(len(item_df)) 其中比较重要的文件有：u.data，u.item。

管理培训生面试技巧

页数:7
京东管培生培养

页数:6
京东管培生培养

页数:5
应聘管培生的自我介绍

页数:4
运营类管培生面试技巧

页数:14
物流管培生——【京东笔试面试精品资源】

页数:3
联合利华管理培训生面试经验分享记

页数:6
2018-2019-京东面试笔试题目-精选word文档 (3页)

页数:4
高露洁管培生面试经验分享

页数:4
吉百利面试题管培生面试

页数:2

苏宁算法管培生数据挖掘方向面试汇总

合集下载

苏宁集团工程师面试题总结有答案80%参考精品篇

2018年苏宁面试经验-实用word文档 (4页)

数据挖掘算法面试题

数据挖掘岗面试题目(3篇)

数据挖掘常见面试题与参考答案简析

2021年苏宁面试经验(2)

数据挖掘面试

推荐算法相关面试题目(3篇)

应用大数据面试题目(3篇)

【参考文档】苏宁面试问题及答案-范文word版 (9页)

文档推荐

最新文档

苏宁算法管培生数据挖掘方向面试汇总

合集下载

苏宁集团工程师面试题总结有答案80%参考精品篇

2018年苏宁面试经验-实用word文档 (4页)

数据挖掘 算法面试题

数据挖掘岗面试题目(3篇)

数据挖掘常见面试题与参考答案简析

2021年苏宁面试经验(2)

数据挖掘面试

推荐算法相关面试题目(3篇)

应用大数据面试题目(3篇)

【参考文档】苏宁面试问题及答案-范文word版 (9页)

文档推荐

最新文档

数据挖掘算法面试题