python数据分析与挖掘

  • 格式:docx
  • 大小:20.97 KB
  • 文档页数:4

下载文档原格式

  / 4
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

经过数据探索与数据预处理,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立模型,包括:分类与预测、聚类分析、关联规则、时序模式和偏差检测等。

分类与预测

分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值。

分类

分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别。分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便的计算,所以分类属于有监督的学习。

分类算法分两步:第一步是学习,通过归纳分析训练样本集来建立分类模型得到分类规则;第二步是分类,先用已知的测试样本集评估分类规则的准确率,如果可以接受,则用该模型对未知标号的待测样本集进行预测。

预测

预测是指建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。

预测模型也分两步,第一步是通过训练集建立预测属性的函数模型;第二步在模型通过检验后进行预测或控制。

常用分类与预测算法

聚类分析

与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。与分类模型需要使用有类标记样本构成的训练数据不同,聚类模型可以建立在无类标记的数据上,是一种非监督的学习方法。

聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将其划分为若干组,划分的原则是组内距离最小化而组间(外部)距离最大化。

常用聚类分析算法

关联规则

关联规则分析是数据挖掘中最活跃的研究方法之一,目的是在一个数据集中找出各项之间的关联关系,而这种关系并没有在数据中直接表示出来。

比如一个常见的例子,在美国,一般都是男士下班后顺便去买尿布,而他们通常会顺带买啤酒,那么超市就把啤酒摆放在靠近婴儿尿布的位置,满足了客户的体验,更提高了业绩。就是通过大量的历史数据的分析,得到这两种商品之前的密切关联,因而做出上面的决

时序模式

对于时间序列,首先要进行预处理,拿到一个观测值序列,首先要对它的纯随机性和平稳性进行检验。根据检验结果可以将序列分为不同的类型,对不同类型的序列会采取不同的分析方法。总的来说,时间序列分析,就是给定一个已被观测了的时间序列,预测该序列的未来值。

常用的时间序列模型有:平滑法、趋势拟合法、组合模式、AR模型、MA模型、ARMA模型、ARIMA模型等。