当前位置:文档之家› Weka[2] Classifier类

Weka[2] Classifier类

Weka[2] Classifier类
Weka[2] Classifier类

weka中文教程

WEKA 3-5-5 Explorer 用户指南 原文版本 3.5.5 翻译王娜 校对 C6H5NO2 Pentaho 中文讨论组 QQ 群:12635055 论坛:https://www.doczj.com/doc/bd10357280.html,/bipub/index.asp https://www.doczj.com/doc/bd10357280.html,/ 目录 1 启动WEKA (3) Explorer (5) 2 WEKA 2.1 标签页 (5) 2.2 状态栏 (5) 按钮 (5) 2.3 Log 状态图标 (5) 2.4 WEKA 3 预处理 (6) 3.1 载入数据 (6) 3.2 当前关系 (6) 3.3 处理属性 (7) 3.4 使用筛选器 (7) 4 分类 (10) 4.1 选择分类器 (10) 4.2 测试选项 (10) 4.3 Class属性 (11) 4.4 训练分类器 (11) 4.5 分类器输出文本 (11) 4.6 结果列表 (12) 5 聚类 (13) 5.1 选择聚类器(Clusterer) (13) 5.2 聚类模式 (13) 5.3 忽略属性 (13) 5.4 学习聚类 (14) 6 关联规则 (15) 6.1 设定 (15) 6.2 学习关联规则 (15) 7 属性选择 (16) 7.1 搜索与评估 (16) 7.2 选项 (16) 7.3 执行选择 (16) 8 可视化 (18)

8.1 散点图矩阵 (18) 8.2 选择单独的二维散点图 (18) 8.3 选择实例 (19) 参考文献 (20)

启动WEKA WEKA中新的菜单驱动的 GUI 继承了老的 GUI 选择器(类 weka.gui.GUIChooser)的功能。它的MDI(“多文档界面”)外观,让所有打开的窗口更加明了。 这个菜单包括六个部分。 1.Program z LogWindow打开一个日志窗口,记录输出到 stdout或stderr的内容。在 MS Windows 那样的 环境中,WEKA 不是从一个终端启动,这个就比较有 用。 z Exit关闭WEKA。 2.Applications 列出 WEKA 中主要的应用程序。 z Explorer 使用 WEKA 探索数据的环境。(本 文档的其它部分将详细介绍这个环境) z Experimenter 运行算法试验、管理算法方案 之间的统计检验的环境。 z KnowledgeFlow 这个环境本质上和 Explorer 所支持的功能是一样的,但是它有一个可以拖放 的界面。它有一个优势,就是支持增量学习 (incremental learning)。 z SimpleCLI 提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行 WEKA 命令。 3.Tools 其他有用的应用程序。 z ArffViewer一个 MDI 应用程序,使用电子 表格的形式来查看 ARFF 文件。 z SqlViewer一个 SQL 工作表,用来通过 JDBC 查询数据库。 z EnsembleLibrary 生成集成式选择 (Ensemble Selection)[5] 所需设置的界面。 4.Visualization WEKA 中数据可视化的方法。 z Plot作出数据集的二维散点图。 z ROC显示预先保存的 ROC 曲线。

Weka_数据挖掘软件使用指南

Weka 数据挖掘软件使用指南 1.Weka简介 该软件是WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过https://www.doczj.com/doc/bd10357280.html,/ml/weka得到。Weka作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看Weka的接口文档。在Weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2.Weka启动 打开Weka主界面后会出现一个对话框,如图: 主要使用右方的四个模块,说明如下: ?Explorer:使用Weka探索数据的环境,包括获取关联项,分类预测,聚簇等; ?Experimenter:运行算法试验、管理算法方案之间的统计检验的环境; ?KnowledgeFlow:这个环境本质上和Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习; ?SimpleCLI:提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行Weka命令(某些情况下使用命令行功能更好一些)。 3.主要操作说明 点击进入Explorer模块开始数据探索环境。 3.1主界面 进入Explorer模式后的主界面如下:

3.1.1标签栏 主界面最左上角(标题栏下方)的是标签栏,分为五个部分,功能依次是: ?Preprocess(数据预处理):选择和修改要处理的数据; ?Classify(分类):训练和测试关于分类或回归的学习方案; ?Cluster(聚类):从数据中学习聚类; ?Associate(关联):从数据中学习关联规则; ?Select attributes(属性选择):选择数据中最相关的属性; ?Visualize(可视化):查看数据的交互式二维图像。 3.1.2载入、编辑数据 标签栏下方是载入数据栏,功能如下: ?Open file:打开一个对话框,允许你浏览本地文件系统上的数据文件(.dat); ?Open URL:请求一个存有数据的URL 地址; ?Open DB:从数据库中读取数据; ?Generate:从一些数据生成器中生成人造数据。 3.1.3其他界面说明 接下来的主界面中依次是Filter(筛选器),Currtent relation(当前关系)、Attributes(属性信息)、Selected attribute(选中的属性信息)以及Class(类信息),分别介绍如下: ?Filter 在预处理阶段,可以定义筛选器来以各种方式对数据进行变换。Filter 一栏用于对各种筛选器进行必要设置。Filter一栏的左边是一个Choose 按钮。点击这个按钮就可选择Weka中的某个筛选器。用鼠标左键点击这个choose左边的显示框,将出现GenericObjectEditor对话框。用鼠标右键点击将出现一个菜单,你可从中选择,要么在GenericObjectEditor对话框中显示相关属性,要么将当前的设置字符复制到剪贴板。 ?Currtent relation 显示当前打开的数据文件的基本信息:Relation(关系名),Instances(实例数)以及Attributes (属性个数)。

WEKA入门教程

WEKA入门教程 2007-04-26 16:40 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过https://www.doczj.com/doc/bd10357280.html,/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。 --整理自https://www.doczj.com/doc/bd10357280.html,/computers/common/info.asp?id=29304 2. 数据格式 巧妇难为无米之炊。首先我们来看看WEKA所用的数据应是什么样的格式。 跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是图1那样的一个二维的表格。 图1 新窗口打开

这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。图1中一共有14个实例,5个属性,关系名称为“weather”。 WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。图1所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件,在WEKA安装目录的“data”子目录下可以找到。 代码: % ARFF file for the weather data with some numric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data % % 14 instances % sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes

weka算法参数整理

1.关联算法 1.1.Aprior算法 1.1.1.Apriori算法weka参数界面 概要 实现Apriori关联规则挖掘算法,挖掘出给定参数条件下的关联规则。此迭代的减少最小支持度直到发现设定最小置信度下的规则数目。

1.1. 2.Apriori算法参数配置说明 英文名称中文翻译默认值取值范围参数说明 car分类关联分析False False返回常规的关联分析规则 True返回指定分类属性的关联规则 classIndex分类属性索引-1{-1,[1,N]}int-1代表最后一列,设置的数字代表相应的列作为分类属性;Car为True时生效。delta delta0.05(0,1)每次迭代upperBoundMinSupport减少的数值,直到最小支持度或设定规则数目。lowerBoundMinSupport最小支持度下限0.1(0,upperBoundMinSupport)迭代过程中最小支持度的下限。 metricType度量类型confidence Confidence(置信度)规则项集数目占规则前件数目比例;car为True,metricType只能用confidence。 Lift(提升度)>1P(A,B)/P(A)P(B);规则前件和规则后件同时发生的概率除以分布单独发生的概率之积;Lift=1时表示A和B独立,数值越大前后件关联性越强。 Leverage(杠杆率)P(A,B)-P(A)P(B);Leverage=0时A和B独立,数值越大A和B的关联性越强。 Conviction(确信度)P(A)P(!B)/P(A,!B)(!B表示B没有发生)Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大,A、B越关联。 minMetric最小度量值0.9根据metricType取值不同Confidence(0,1);lift>1;leverage>0;conviction(0,1) numRules规则数目10[1,+∞]int关联算法产生规则的数目 outputItemSets输出项集False False不输出频繁项集 True输出频繁项集 removeAllMissingCols移除空列False False不移除所有值都缺失的列 True移除所有值都缺失的列 significanceLevel显著性水平-1?(0,1)χ2检验的显著性水平,-1则不进行检验。(仅适用于置信度度量)treatZeroAsMissing按照缺失值处理零False False不按照缺失值的相同方式处理零(标称型的第一个值) True按照缺失值的相同方式处理零(标称型的第一个值)upperBoundMinSupport最小支持度上限1(lowerBoundMinSupport,1]迭代过程中最小支持度的上限;迭代过程中从该值开始降低。

WEKA实验教程

WEKA 3-5-3 Experimenter 指南 原文版本3.5.3 原文链接 翻译王娜 校对 C6H5NO2 Pentaho 中文讨论组 QQ 群:12635055 论坛:https://www.doczj.com/doc/bd10357280.html,/bipub/index.asp David Scuse Peter Reutemann June 8, 2006 1 简介 (1) 2 标准试验 (2) 2.1 简单模式 (2) 2.1.1 新试验 (2) 2.1.2 结果的目的文件 (2) 2.1.3 试验类型 (4) 2.1.4 数据集 (5) 2.1.5 迭代控制 (6) 2.1.6 算法 (6) 2.1.7 保存设置 (8) 2.1.8 运行试验 (8) 2.2 高级模式 (9) 2.2.1 定义试验 (9) 2.2.2 运行试验 (12) 2.2.3 改变试验参数 (13) 2.2.4 其他结果的产生 (19) 3 远程试验 (23) 3.1 准备 (23) 3.2 数据库服务器设置 (23) 3.3 远程引擎安装 (23) 3.4 配置 Experimenter (24) 3.5 疑难问题解答 (24) 4 分析结果 (25) 4.1 设置 (25) 4.2 保存结果 (28) 4.3 改变基准算法 (28) 4.4 统计显著性 (29) 4.5 描述性检验 (29) 4.6 排序检验 (29) 5 参考文献 (30) 1简介 Weka 试验(Experiment)环境可以让用户创建,运行,修改和分析算法试验,这也许比单独的分 析各个算法更加方便。例如,用户可创建一次试验,在一系列数据集上运行多个算法(schemes),然

weka配置教程

一、WEKA的安装 在WEKA的安装文件中有weka-3-6-9.exe和weka-3-6-9jre.exe,这两个软件我们安装一个即可,这里主要介绍weka-3-6-9.exe的安装步骤 1.安装Java运行环境 下载jdk-7u21-windows-i586.exe(最新版)安装包,双击安装包进行安装,根 据安装向导提示,点击下一步即可,安装完成以后可以通过命令提示符输入java –version 进行验证,若出现如下图所示,表示安装成功。 2.配置环境变量 右击我的电脑,点击属性,出现如下界面:、

选择高级——>环境变量,如图所示: 出现环境变量配置界面:

双击Path,然后出现编辑系统变量窗口: 在变量值编辑框中,将光标移动至最后,添加一个分号“;”,然后将java的jdk安装路径追加到编辑框最后,我的系统中安装路径为:C:\Program Files\Java\jdk1.7.0_21\bin,所以在编辑框最后写入:“; C:\Program Files\Java\jdk1.7.0_21\bin”,即可完成环境变量的配置。

3.weka-3-6-9.exe 双击此文件开始进行安装,在出现的窗口中点击Next,然后点击I Agree,再点击Next,此时出现如下窗口,Browse左边的区域是WEKA的默认安装路径,我们可以点击Browse选择我们想要安装WEKA的位置,然后点击窗口下方的NEXT,也可以不点击Browse直接将WEKA安装到默认的目录下,即直接点击窗口下方的NEXT,在新出现的窗口中点击Install开始安装,等待几秒种后点击Next, 在新窗口中会有一个Start Weka单选框(默认情况下是选中的),如果我们想安装完成后就启动WEKA,那么我们就直接点击新窗口下方的FINISH 完成安装,如果我们不想立即启动WEKA可以单击Start Weka前面的单选框,然后点击FINISH即可完成安装,此时WEKA已经安装到我们的电脑中。 二、WEKA的启动 在开始程序中找到WEKA3.7.0(注意版本不同名称也不同,但都是叫WEKA……),选择WEKA3.7(with console),出现下图即安装成功:

weka

https://www.doczj.com/doc/bd10357280.html,/ml/weka/ https://www.doczj.com/doc/bd10357280.html,/~ml/weka/index.html https://www.doczj.com/doc/bd10357280.html,/~ml/weka/ https://www.doczj.com/doc/bd10357280.html,/ucp.php?mode=login 原创]WEKA入门教程 由C6H5NO2? 2006年 11月 19日 16:03 目录 1. 简介顶楼 2. 数据格式顶楼 3.数据准备 1楼 4. 关联规则(购物篮分析) 1楼 5. 分类与回归 2楼 6. 聚类分析 2楼 Weka入门教程,来自 https://www.doczj.com/doc/bd10357280.html,/viewtopic.php?f=2&t=9。转载请注明出处。 1. 简介

WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过 https://www.doczj.com/doc/bd10357280.html,/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka 小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。 --整理自 https://www.doczj.com/doc/bd10357280.html,/computers/common/info.asp?id=2930 4

WEKA汉化教程PDF.pdf

WEKA汉化教程

图1

这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。图1中一共有14个实例,5个属性,关系名称为“weather”。 WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。图1所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件,在WEKA安装目录的“data”子目录下可以找到。 代码: % ARFF file for the weather data with some numric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data % % 14 instances % sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes

weka文档

WEKA入门教程 https://www.doczj.com/doc/bd10357280.html,/ 1.简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过https://www.doczj.com/doc/bd10357280.html,/ml/weka得到。同时weka 也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。 2.数据格式 巧妇难为无米之炊。首先我们来看看WEKA所用的数据应是什么样的格式。跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是图1那样的一个二维的表格。 这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),

相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Relation)。图1中一共有14个实例,5个属性,关系名称为“weather”。WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。图1所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件,在WEKA安装目录的“data”子目录下可以找到。代码: 全选 % ARFF file for the weather data with some numric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data % % 14 instances % sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes

WEKA 教程 SPSS 教程

实验1:数据挖掘工具研究 班级:计算机082 姓名:张睿卿 指导老师:董一鸿老师

目录 1Weka 1.1Weka简介 1.2Weka应用方法 1.3Weka操作数据集 1.3.1预处理 1.3.1.1打开Explore 1.3.1.2载入数据 1.3.1.3处理属性 1.3.1.4使用筛选器 1.3.1.5数据离散化 1.3.2分类与回归 1.3. 2.1准备工作 1.3. 2.2训练分类器 1.3. 2.3模型应用 1.3.3聚类 1.3.4关联 1.3.5属性选择 1.3.6可视化 2SPSS 2.1SPSS简介 2.2SPSS应用方法 2.3SPSS操作数据集 2.3.1打开数据集 2.3.2预处理 2.3.2.1数据属性 2.3.2.2绘制直方图 2.3.2.3按要求统计分析 2.3.3聚类 2.3.4回归 3Weka vs. SPSS Weka简述 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过https://www.doczj.com/doc/bd10357280.html,/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。

Weka是基于java,用于数据挖掘和知识分析一个平台。来自世界各地的java爱好者们都可以把自己的算法放在这个平台上,然后从海量数据中发掘其背后隐藏的种种关系。 Weka的应用方法 Applications: Explorer 使用WEKA 探索数据的环境。 Experimenter 运行算法试验、管理算法方案之间的统计检验的环境。 KnowledgeFlow 这个环境本质上和Explorer所支持的功能是一样的,但是它有一个可以拖放的界面。它有一个优势,就是支持增量学习(incremental learning)。 SimpleCLI 提供了一个简单的命令行界面,从而可以在没有自带命令行的操作系统中直接执行WEKA 命令。 Weka操作数据集 1、预处理 1.1 点击Explorer,出现对话框

weka使用教程

WEKA使用教程 目录 1. 简介 2. 数据格式 3.数据准备 4. 关联规则(购物篮分析) 5. 分类与回归 6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过https://www.doczj.com/doc/bd10357280.html,/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEK A的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。 如果想自己实现数据挖掘算法的话,可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情。 2005年8月,在第11届ACM SIGKDD国际会议上,怀卡托大学的Weka小组荣获了数据挖掘和知识探索领域的最高服务奖,Weka系统得到了广泛的认可,被誉为数据挖掘和机器学习历史上的里程碑,是现今最完备的数据挖掘工具之一(已有11年的发展历史)。Weka的每月下载次数已超过万次。 --整理自https://www.doczj.com/doc/bd10357280.html,/computers/common/info.asp?id=29304 2. 数据格式 巧妇难为无米之炊。首先我们来看看WEKA所用的数据应是什么样的格式。 跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是图1那样的一个二维的表格。

图1 新窗口打开 这里我们要介绍一下WEKA中的术语。表格里的一个横行称作一个实例(Instance),相当于统计学中的一个样本,或者数据库中的一条记录。竖行称作一个属性(Attrbute),相当于统计学中的一个变量,或者数据库中的一个字段。这样一个表格,或者叫数据集,在WEKA看来,呈现了属性之间的一种关系(Rela tion)。图1中一共有14个实例,5个属性,关系名称为“weather”。 WEKA存储数据的格式是ARFF(Attribute-Relation File Format)文件,这是一种ASCII文本文件。图1所示的二维表格存储在如下的ARFF文件中。这也就是WEKA自带的“weather.arff”文件,在WEK A安装目录的“data”子目录下可以找到。 Code: % ARFF file for the weather data with some numric features % @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data % % 14 instances % sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes rainy,65,70,TRUE,no overcast,64,65,TRUE,yes sunny,72,95,FALSE,no sunny,69,70,FALSE,yes rainy,75,80,FALSE,yes sunny,75,70,TRUE,yes overcast,72,90,TRUE,yes overcast,81,75,FALSE,yes rainy,71,91,TRUE,no 需要注意的是,在Windows记事本打开这个文件时,可能会因为回车符定义不一致而导致分行不正常。推荐使用UltraEdit这样的字符编辑软件察看ARFF文件的内容。 下面我们来对这个文件的内容进行说明。 识别ARFF文件的重要依据是分行,因此不能在这种文件里随意的断行。空行(或全是空格的行)将被忽

相关主题
文本预览
相关文档 最新文档