分类工具spss Clementine的介绍
- 格式:pdf
- 大小:191.01 KB
- 文档页数:2
分类工具spss Clementine 的介绍
数据挖掘的工具平台有很多,常见的有Spss Clementine 、Weka 、Matlab 等。本研究采用的是Spss Clementine 12.0汉化版,下面简单介绍Clementine 工具。
Clementine 软件充分利用了计算机系统的运算能力和图形展示能力,将方法、应用与工具紧密地结合在一起,是解决数据挖掘的理想工具。它不但集成了诸多计算机学科中机器学习的优秀算法,同时也综合了一些行之有效的数学统计分析方法,成为内容最为全面,功能最为强大、使用最为方便的数据挖掘工具。由于其界面友好、操作简便,十分适合普通人员快速实现对数据的挖掘,使其大受用户欢迎,已经连续多年雄踞数据挖掘工具之首[96]。操作使用Clementine 的目的是建立数据流,即根据数据挖掘的实际需要选择节点,一次连接节点建立数据流,不断修改和调整流中节点的参数,执行数据流,最终完成相应的数据挖掘任务。Clementine 数据流建立的一般思路如图3-4所示:
(1)建立数据源。将数据源读入数据到Clementine 中,并根据需要将多个数据集成合并在一起。这些节点位于整个数据流的开始部分,相应的节点安排在数据源(Sources )和字段选项(Field Ops )选项卡中。
(2)数据理解。这里,数据理解中的评估数据质量主要指的是数据缺失和数据异常状况,并选择恰当的方法对其进行修正调整。浏览数据包括:以表格的形式按照统一的顺序浏览数据内容,或对数据汇总后再浏览。相应的节点安排在字段选项(Field Ops )、输出(Output )和记录字段(Record Ops )选项卡中。
(3)数据准备。这里,数据准备中的变量变换和派生是将现有变量变换为满足后续建模要求的类型和分布等,以及在现有的数据基础上得到的含义更丰富的新数据。数据精简主要是指样本随机选取和条件选取、变量离散化和降维等。数据筛选是为后续的模型构建的样本平衡处理和样本集划分服务。
(4)建立模型。建立模型首先是要对数据进行基本分析,可利用统计图形和统计量相建立模型数据准备数据理解建立数据源浏览数据评估模型
评估数据质量
读入数据集成数据变量变换和派生观察变量相关性建立多个模型数据筛选
图3-4Clementine 数据流建立的一般过程
结合的方式分析各变量之间的关系。数据的深入分析主要是建立多个模型,对各个模型进行分析对比,选出较为理想的模型,并得出合理的结论。相应的节点在图形(Graphs)、输出(Output)和模型(Modeling)选项卡中。
本文所使用的Clementine12.0(汉化版)的主窗口除了菜单和工具栏之外,主要有数据流编辑区、节点工具箱窗口、流管理窗口和项目管理窗口,如图3-5所示。
图3-5Clementine(汉化版)主窗口