百度业务运营部数据分析岗位分析

  • 格式:doc
  • 大小:29.00 KB
  • 文档页数:3

下载文档原格式

  / 8
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

业务运营部_数据分析师(产品运营)

所属部门: 百度工作地点: 北京市招聘人数: 若干公司: 百度职位类别: 产品发布时间: 2016-04-11

工作职责:

-对百度重点行业的行业现状、核心企业、市场动态、发展趋势、互联网营销推广等做深入分析,形成数据研究报告

-解读分析报告,并根据分析结论,与运营一起商讨运营策略

-运用数据分析手段,对百度的客户行业和属性形成自己的分类方式

职责要求:

-大三或者研一、研二在校生,数学、计算机或者统计学专业,对行业市场有一定的了解

-理解统计学和数据挖掘算法原理,了解数据仓库思想,会写SQL,熟悉spss、sas,R等数据挖掘软件之一

-熟练使用EXCEL,能够处理大量的数据

-了解决策树、聚类、逻辑回归,关联分析、SVM,贝叶斯等数据挖掘算法

-能够保证每周至少四个工作日的实习时间

重点解析这个岗位中职责要求里的重点技术要求:

-理解统计学和数据挖掘算法原理,了解数据仓库思想,会写SQL,熟悉spss、sas,R等数据挖掘软件之一

-熟练使用EXCEL,能够处理大量的数据

-了解决策树、聚类、逻辑回归,关联分析、SVM,贝叶斯等数据挖掘算法

提取其中的关键词:统计学、数据挖掘算法、数据仓库、SQL、SPSS、SAS、R、excel、决策树、聚类、逻辑回归、关联分析、SVM、贝叶斯,然后大致的分类:

一、数据挖掘算法:(百科:)

数据挖掘:是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

数据挖掘算法:是根据数据创建数据挖掘模型的一组试探法和计算。为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。

算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

数据挖掘十大算法

概念补充:

决策树算法:决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法。所分析的数据样本是集成为一个树根,经过层层分枝,最终形成若干个节点,每个节点代表一个结论。

聚类:将观察对象的群体按照相似性和相异性进行不同群组的划分。

聚类分析的算法有:划分的方法(K-means)、层次的方法(依次让最相似的数据对象两两合并)、基于密度的方法、基于网格的方法、基于模型的方法。

1)(分类算法)

是一个决策树算法,它是决策树核心算法ID3的改进算法。决策树构造方法就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。ID3以信息熵和信息增益度为衡量的标准,从而实现对数据的归纳分类。ID3计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。克服了用信息增益选择属性时偏向选择取值多的属性的不足。在树构造过程中进行剪枝,在构造决策树的时候,对于那些挂着几个元素的节点,干脆不考虑最好,不然很容易导致overfitting。对非离散数据都能处理,这个其实就是一个个式,看对于连续型的值在哪里分裂好。也就是把连续性的数据转化为离散的值进行处理。能够对不完整数据进行处理,寻找一个代替数据来填充。

算法优点:产生的分类易于理解,准确率高;

缺点:a)构造树过程中,需对数据集进行多次的顺序扫描和排序,导致算法低效;

b)只适合于能够驻留于内存的数据集,当数据集大得无法再内存中容纳时,程序无法运行。2)CART(Classification and Regression Tree,分类与回归树)(分类算法)

CART也是一种决策树算法,着眼于总体优化。相对于那些实现一个节点下面有多个子树的多元分类,CART 只是分类两个子树,这样实现起来稍稍简便些。所以说CART算法生成的决策树是结构简洁的二叉树。

3)KNN(K Nearest Neighbours,K最邻近) (分类算法)

从训练样本中找出K个与其最相近的样本,是Top-K个训练样本出来,看这K个样本中哪个类别的多些,则待判定的值(或:抽样)就属于这个类别。

缺点:a)K值需要预先设定,不能自适应;

b)当样本不平衡时,如某个类的样本容量很大,而其他类样本量小时,可能导致输入的新样本的K 个邻居中大容量的样本占多数。

该算法适用于样本容量较大的类域进行自动分类。

4)Naive Bayes(朴素贝叶斯NB)(分类算法)

是基于贝叶斯定理和特征条件独立假设的分类方法。它的基础是概率问题。分类原理:通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即:该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。

5)Support Vector Machine(支持向量机SVM) (统计学习算法)

SVM是基于分类边界的方法。就是想找一个分类得最”好”的分类线/分类面(最近的一些两类样本到这个”线”的距离最远),将空间中的点按其分类聚集在不同的区域。常用的工具包是LibSVM、SVMLight、MySVM。

原理:将低维空间的点映射到高维空间,使它们成为线性可分,再使用线性划分原理来判断分类边界。6)EM(期望最大化)(统计学习算法)

基于模型的聚类方法,在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量。例如:假设数据是由几个高斯分布组成的,所以最后就是要求几个高斯分布的参数。通过先假设几个值,然后通过反复迭代,以期望得到最好的拟合。

优点:计算结果稳定、准确;

缺点:计算复杂、收敛慢,不适合大规模计算。

7)Apriori(关联分析)

一种挖掘关联规则的算法,用于挖掘其内含的、未知的却又实际存在的数据关系。不知道为什么,一提高关联规则我就想到购物篮数据。核心:基于两阶段频集思想的递推算法。

两个阶段:a)寻找频繁项集;(支持度)

b)由频繁项集找出关联规则。(可信度)

缺点:a)在每一步产生候选项集时,循环产生的组合过多,没有排除不应参与组合的元素;