基于C5.0决策树进行分类预测
- 格式:doc
- 大小:226.00 KB
- 文档页数:7
《数据挖掘》
课程论文
基于C5.0决策树进行分类预测
任课教师姓名
所在学院专业名称
论文提交日期所在高等院校
2012年06月01日
1、引言
随着高校招生规模的扩人和信息化程度的提高,社会调查机构以及高校管理机关搜集了大量数据,这些数据中蕴涵有人量有价值的规律,挖掘这些规律并应于招生,教育资源的合理利用方面,可促进教育事业的良好发展,使其科学化、合理化、系统化,将数据挖掘技术应用于高校等级划分排名上,可以客观的评价一所学校的竞争力,为高校自身提供了改进的参考,为国家对高等教育事业进行政策制定提供了可靠依据,同时为广大高考毕业生填报志愿提供了参考。对高校自身的改革和发展的培养等方面具有重要的作用和意义。
国内已有部分研究者以C5.0决策树为数据处理模型面向高校综合等级排名信息开展了数据挖掘工作,应用于高等院校评价、高校管理决策、教学资源决策、毕业生就业指导、个性化人才培养等领域,向决策者、高校和同学提供信息支持,有利于推动学校资源的优化和建设的全面发展。本文尝试将C5.0挖掘技术应用于高校评级,发现高校各种资源之间的相关性规律。以发现的规律为依据,分析学校各种资源配置,提出有针对性的高校评级信息,以提高高校建设的预知性,为同学合理地选择报考学校、高校自身性建设提供了参考依据。
因评级预测信息具有很强的针对性,简单地应用C5.0挖掘技术难以解决问题。为此,本文开展了以下工作:提出了一种基于C5.0决策树的预测评级模型,以系统地进行评级预警分析,以现实数据为数据源,开展实验研究。验证所提出的模型和方法的有效性。
2.C5.0 决策树算法
(1)决策树是一种类似于流程图的树结构,其结构是一棵倒置的树,它主要围绕生长和剪枝两大核心问题展开.决策树获取的知识用树的形式表示出来,其中包括分类树和回归树,分类或预测的结果均体现在决策树的叶节点上.分类树叶节点所含样本中,其输出变量的众数类别就是分类结果;回归树叶节点所含样本中,其输出变量的平均值就是预测结果.决策树直观易懂且其归纳学习和分类步骤简单快速,并且具有很好的准确率.
(2)C5.0算法
最为典型的决策树学习算法是 ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树.C4.5 是改进后的原始决策树分析 ID3 算法,而C5.0 与 C4.5
不同之处在于 C5.0 可以处理多种数据类型,包括了日期(date)、时间(times)、时间戳(timestamps)、序列(discrete attributes)等等.除了处理数据部分丢失的问题,C5.0 还可以将部分属性标记为不适合,以使得分析时仍能保持资料的完整性.
C5.0可用来处理数值型或分类型的资料,它的分类预测是基于逻辑的,即通过对输入变量取值的布尔比较实现对输出变量的分类预测,在众多的输出变量中选择一个当前最佳的分组变量,并从分组变量的众多取值中找到一个最佳的分割点.且为了清楚的表示分析结果,可用决策树(decision trees)或是 if- then 的关系显示.
C5.0 基本算法可以描述如下,设R 是非标称属性集;C 是标称属性;S 是训练集;()trees 是决策树生成的函数:
),,(S C R trees // 函数返回值类型为决策树
{
/ ***************** 相关定义 ********************
*{}m j d j ,,2,1| =为属性D 的值;
*}{m j S j ,,2,1| =为S 的子集,分别包含属性D 的不同值d ;
******************************************************/ if (S 为空) then 返回单一失败节点;
if (R 包含的记录的标称属性值均相同) then 返回具有该标称属性值的单一节点;
if (R 为空) then 返回用S 的最常见值赋值的单一节点;/* 此时为出 错,记录没有被适当分类 */
在R 中找寻具有最大信息增益的属性D ;
;
生成一棵以D 为根的树,分支为m d d d ,,,21 ;
递归调用函数 });
,},{(,);,},{();,},{(21m S C D R trees S C D R trees S C D R trees ---
3.基于C5.0算法的决策树构造
3.1数据预处理
本文原始数据为2011年全国师范类大学的综合各项的测评分数,对其综合资源、成果、学生情况、教师资源、物资资源进行统计分析,
观察是否有缺失值,观察后发现在数据中,发现资源和成果两项缺失值过多,所以不对着两项进行处理..将处理后的数据记录到一个EXCEL文件中,作为分析数据源.
3.2 建立决策树并分析
本文利用这些数据,来建立综合、学生情况、声誉、教师资源、物资资源和学校等级的关系决策树模型,从而对决策树模型的建立与挖掘工程进行详细的分析.
挖掘过程采用SPSS Clementine作为工具,在Clementine中建立的挖掘模型,如图1所示.
图一数据挖掘模型
由于经过决策树分析的数据是历史数据,因此,需要检验这些决策是否能套用在参加考研的分析中,所以所建立的模型分为训练数据和测试数据,训练数据是在产生决策规则的过程中,用于进行训练决策规则的数据,训练错误率指的是在决策规则产生后,将这些训练数据放到决策规则中发生错误的比率(及实际资料的分类与按决策规则进行分类的结果不同);测试数据是已经产生决策规则后,用来进行测试新决策规则属于原本的训练数据集,测试错误率则是指使用测试数据后产生的错误比率.这两种错误率将会在决策规则验证时作为各种不同分析的比较指标..在该模型中将训练数据、测试数据分别占50%,则训练样本个数大约为40个,测试样本个数大约为40个,数据分区如图2所示:
图二C5.0结果分析