数据挖掘实验报告二

  • 格式:doc
  • 大小:17.00 KB
  • 文档页数:2

下载文档原格式

  / 2
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

实验二

一、基本原理

分类算法是解决分类问题的方法,是数据挖掘、机器学习和模式识别中一个重要的研究领域。分类算法通过对已知类别训练集的分析,从中发现分类规则,以此预测新数据的类别。分类算法的应用非常广泛,银行中风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测以及软件项目中的应用等。

二、实验目的:

掌握CART决策树构建分类模型。

三、实验内容

对所有窃漏电用户及真诚用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识,按窃漏电评价指标进行处理并选取其中291个样本数据,得到专家样本,使用CART决策树实现分类预测模型。

注意:数据的80%作为训练样本,剩下的20%作为测试样本。

四、实验步骤

1、对数据进行预处理

2、把数据随机分为两部分,一部分用于训练,一部分用于测试。

分成testData和trainData文件即测试数据和训练数据数据的80%作为训练样本,剩下的20%作为测试样本。

3、使用tree包里的tree函数以及训练数据构建CART决策树模型,使用predict函

数和构建的CART决策树模型分别对训练数据和测试数据进行分类。

4、使用nnet包里面的nnet函数以及训练数据构建神经网络模型,使用predict函数

和构建的神经网络模型分别对训练数据和测试数据进行分类。

5、对比分析CART决策树和神经网络模型对数据处理的结果。

五、实验结果

六、思考与分析

尝试采用神经网络对数据进行分类,并与CART决策树的结果进行比较。

答:与神经网络相比,决策树可以很好地处理非数值型的数据,但是决策树对连续的数

据(比如连续的数值型数据)不太擅长。