C4_5决策树法在高校贫困生认定中的应用
- 格式:pdf
- 大小:218.86 KB
- 文档页数:4
决策树算法在大学生就业指导中的应用近年来,随着我国教育体制逐渐升级完善,高校规模不断扩大,受教育人数也日益增加。
在高等教育趋于大众化的同时,大学毕业生的就业形势已然不再乐观。
为了分析影响大学毕业生就业的主要因素,我们利用数据挖掘技术中的决策树分类算法,挖掘出与大学生就业相关的若干规律,通过总结归纳提出加强学生实践能力教育机制改革的意见,并依据分类规则帮助高校制定适应社会需求的人才培养计划。
同时建议在校大学生应有意识地提高计算机水平与英语水平,增强自身的竞争力,促进就业,提高毕业生就业率和就业满意程度。
1.1 研究背景随着科技的不断进步,尤其是计算机信息技术的迅猛发展,可获得的数据量在过去十几年当中急剧增长,随之也产生了海量的存储数据信息。
我们正处于一个信息爆炸的时代,对数据的处理方式也不能在满足于原始的收集与查询,更需要不断地从中寻找潜在的变化规律,用过去的信息预测未来的发展方向,为决策提供指导依据。
目前我国的高等教育逐步趋于大众化,大学毕业生人数整体增长幅度惊人。
但是在国民素质不断提高这一喜闻乐见的社会现象背后,是对就业形势日益严峻的恐慌,高等教育不再是就业的保障,铁饭碗制度在激烈的竞争环境中已经逐渐被新的社会规则淘汰。
一毕业就失业,成了学生跨出大学校门后就不断萦绕在耳边的魔咒。
怎样强化毕业生的核心竞争力,使其被招聘单位认可、顺利就业,已成为一个突出问题。
在此种情况下,各大高校为了提高学校毕业生的就业率和就业质量,也加强了收集和筛选有效信息,为毕业生提供就业咨询与指导,招开校园招聘会等,但有些高校还是缺乏实际效果。
如果能从高校毕业生信息中找到一定的规律,继而有针对性的因材施教,提高学生的综合能力,同时在学生毕业时能够给予有效的就业指导,那将对提高学生的就业率和就业质量起到事半功倍的效果。
然而传统的查询和筛选手段己经远远不能够处理如此庞大的毕业生就业信息。
因此,如何能够从毕业生的相关就业信息中挖掘出潜在的有助于就业指导的信息成为一个迫切需要解决的问题。
c4.5算法典型应用场景
C4.5算法是一种常用的分类算法,主要用于基于特征的离散决策树的学习。
它可以用来处理大多数的数据挖掘问题,如:信用评估,决策支持,工程控制等。
C4.5算法可以有效避免欠拟合和过拟合的问题,使用它来预测新数据,准确率更高。
C4.5算法有非常多的应用场景,下面我们通过一些简单的示例来看看C4.5算法的典型运用:
1、调查分析:为了更清晰地了解某种现象,常常使用C4.5算法对已经有的数据做分析,以便更快地搞懂这种现象的根源所在及其特征。
2、投资决策:在实际投资决策中,使用C4.5算法研究投资各变量之间的关系,从而把握投资风险。
3、医学诊断:C4.5算法在医学上的应用,可以从特征中建立医学特征继电器及决策树,以帮助医生更加快捷准确的诊断病症。
4、金融信贷:金融机构在发放信贷时,C 4.5算法可以用来评估申请者的信用档案,从而保证信贷的安全性。
5、控制系统:C4.5算法可以用于控制系统,它可以建立一系列事先定义好的规则,帮助控制调节目标参数。
6、产品分类:C4.5算法可以用来计算数据集中不同产品分类的得分,来判断出给定的样本数据应该属于哪个分类,从而帮助企业快速准确地分类它的产品数据。
7、自然语言处理:C4.5算法也可以应用于自然语言处理领域。
通过识别句子中特定单词,我们可以用该方法计算出一句话属于什么类别,例如销售、客服或者咨询。
综上所述,可以看出C4.5算法有着广泛的应用场景,不仅可以应用于投资决策、调查分析和金融信贷,还可以应用于医学诊断、控制系统、产品分类以及自然语言处理等诸多领域,可谓是功能强大。
决策树算法在高校招生中的应用研究近年来,随着人工智能技术的快速发展,决策树算法越来越被应用于各种领域,其中包括高校招生。
决策树算法的优点是能够自动分析大量的数据,并且生成一种易于理解的决策模型,这对高校招生来说有着极大的意义。
一、什么是决策树算法决策树算法是一种基于树状结构的机器学习方法,它在数据挖掘和模式识别中得到了广泛的应用。
决策树将数据分成多个小的决策单位,每一步决策都基于一个特定的条件或特征,最终生成一棵树状结构,其中每个节点都是一个判断条件,每个叶子节点都是一种决策结果。
二、决策树算法在高校招生中的应用在高校招生中,决策树算法可以帮助招生委员会预测和决定学生的录取结果。
举例来说,当一个学生填写了一份入学申请表时,学校可以根据表格中的各项数据,以及历史数据中最优录取结果的分析,自动生成一颗决策树模型。
模型的叶子节点会给出一些决策建议,例如,该生应该被录取还是不应该被录取,该生应该被安排在哪个专业等等。
三、决策树算法的优点首先,决策树算法可以根据历史数据和运算能力,快速生成一套模型,找出最佳的决策方案。
这里所说的“历史数据”,既包括过去学生的背景,也包括过去学校的入学和录取标准;“运算能力”指的是机器学习的算法和计算机性能。
其次,决策树算法生成的模型是易于理解和解释的。
最终的决策是基于一些关键因素和明确的决策条件而作出的。
这样可以让招生委员会更好地理解录取决策的过程,并作出更准确、合理的决策。
最后,决策树算法具有一定的自动化程度。
招生委员会只需提供有关学生的一些关键数据,就可以自动生成一套决策模型。
这样可以节省招生委员会的时间和精力,并减少人为因素对决策结果可能会造成的干扰。
四、决策树算法的缺点当然,在应用时,决策树算法也有其局限。
首先,一颗决策树的复杂度可能很高,这会导致算法需要处理大量的数据。
如果没有足够的历史数据或者计算能力,算法生成的模型可能不够准确。
其次,在解释生成的模型时,可能会遇到一些困难。
决策树在学生评价中的应用经验在多年的幼儿教育工作中,我积累了一些经验,发现决策树在学生评价中具有很大的应用价值。
决策树是一种常见的数据挖掘算法,它可以将大量复杂的数据进行分类和归纳,帮助我们更好地理解和评价学生。
我将分享我在幼儿教育工作中运用决策树的实践经验。
一、学生行为分类二、学绩预测学生的成绩预测是教育工作者关注的重点之一。
通过决策树,我们可以将学生的背景信息(如家庭环境、学习习惯等)作为决策树的节点,进而预测学生的成绩。
例如,我们可以构建一个决策树,将“家庭作业完成情况”、“课堂参与度”等特征作为节点,通过这些节点的组合来预测学生的成绩。
这样,教师就可以提前发现可能出现成绩下滑的学生,并采取相应的干预措施。
三、学生满意度调查在幼儿教育中,学生的满意度调查是非常重要的。
通过决策树,我们可以将学生的反馈信息(如教学方法、课堂氛围等)作为决策树的节点,从而判断学生的满意度。
例如,我们可以构建一个决策树,将“教学方法”、“课堂互动”等特征作为节点,通过这些节点的组合来判断学生的满意度。
这样,学校就可以根据学生的反馈结果,调整教学策略,提高学生的满意度。
四、学生流失预测学生流失是幼儿园教育中的一大问题。
通过决策树,我们可以将学生的各种特征(如家庭背景、学习成绩等)作为决策树的节点,从而预测哪些学生有可能流失。
例如,我们可以构建一个决策树,将“家庭经济状况”、“家长参与度”等特征作为节点,通过这些节点的组合来预测学生的流失概率。
这样,学校就可以提前采取措施,防止学生流失。
决策树在幼儿教育学生评价中的应用具有很大的潜力。
通过决策树,我们可以对学生进行有效的分类、预测和分析,为教育工作者提供有针对性的建议和干预措施。
然而,需要注意的是,决策树的应用并非万能,它只是学生评价的一个工具。
在实际应用中,教师还需要结合自己的经验和专业知识,综合考虑各种因素,才能做出更加准确的判断和决策。
在未来的工作中,我将继续探索决策树在幼儿教育中的应用,为提高教育质量贡献力量。
研究C4.5算法在高职学校成绩分析中的应用1 引言我们平时所以提到的成绩分析一般都是从试卷的难易程度、及格率、优秀率等方面进行的,这种方法只限于对该课程教学效果的评价,却无法得知学生成绩优劣是由哪些因素造成的。
而且对于学校教学管理来讲,学生成绩数据还非常庞大。
如何快速且准确地对学生成绩进行分析,研究影响学生成绩的主要因素,如何指导学生合理规划,提高成绩就显得尤为重要了。
本文对江苏省徐州医药高等职业学校14级部分学生学习《全国计算机等级考试一级教程》情况进行了详细的调查研究,并通过数据挖掘中的决策树技术对学生成绩的进行分析,从中找到影响学生学习成绩的因素以及这些因素反映的相关问题,从而提高教学质量。
2 C4.5决策树算法C4.5算法是由J.Ross Quinlan在ID3的基础上提出的,是ID3的改进算法。
C4.5算法的核心思想是利用信息熵原理,选择信息增益率最大的属性作为分类属性,递归地构造决策树的分枝,完成决策树的构造【2】。
C4.5算法分类速度快,精度高,是目前比较完善的一种决策树算法。
C4.5算法用信息增益率来选择属性,克服了用信息增益选择属性时的多选和重复,避免了拟合的发生。
C4.5算法是以信息增益率为衡量标准。
通过计算出各样本的信息熵、条件熵来来获得信息增益率。
选择信息增益率最大的属性作为决策树的结点。
3 C4.5算法在学生成绩分析中的应用C4.5算法在成绩分析的流程分为以下六个步骤:属性选择、数据收集、数据预处理、模型建立、提取有用信息和模型评价。
3.1 属性选择本文以2014级部分学生国家计算机一级考试成绩为例,选取课程兴趣,学习基础,理论知识掌握,完成模拟测试程度,学习习惯等基本情况来分析与计算机一级考试成绩的关系,从而得到影响计算机考试成绩的主要因素,为学生的计算机学习提供帮助和指导。
3.2 数据收集和数据预处理学生基本情况信息数据结构由学生的学号、姓名、专业、班级、性别等属性信息组成。
c4.5决策树例题决策树是一种常见的机器学习算法,用于分类和预测任务。
C4.5是决策树算法的一种改进版本,可以处理具有多个特征和多个类别的数据集。
下面是一个关于购买电子产品的例题,展示C4.5决策树的具体步骤:假设我们要根据以下属性来预测一个人是否会购买电子产品:1.年龄:青年、中年、老年2.收入:低、中、高3.学历:中学、大学、研究生4.信用等级:差、一般、良好、优秀我们有一个包含以下训练数据的数据集:以下是C4.5决策树的具体步骤:步骤1:计算初始熵计算每个可能的类别的初始熵。
在这个例子中,购买电子产品的可能类别是是和否,因此初始熵为:H(D) = -((6/10) * log2(6/10) + (4/10) * log2(4/10)) ≈ 0.971步骤2:计算每个属性的信息增益计算每个属性的信息增益(即使用该属性进行划分后的熵的减少量)。
对于每个属性,计算其每个可能值的条件熵,并将其与初始熵进行比较来计算信息增益。
具体步骤如下:a) 对于属性"年龄",计算其各个值的条件熵:•年龄=青年:购买(2是, 2否),条件熵=-((2/4) * log2(2/4) + (2/4) * log2(2/4)) = 1.0•年龄=中年:购买(3是, 1否),条件熵=-((3/4) * log2(3/4) + (1/4) * log2(1/4)) ≈ 0.811•年龄=老年:购买(1是, 1否),条件熵=-((1/2) * log2(1/2) + (1/2) * log2(1/2)) = 1.0然后,计算年龄属性的信息增益:Gain(年龄) = H(D) - ((4/10) *1.0 + (4/10) * 0.811 + (2/10) * 1.0) ≈ 0.124b) 对于属性"收入",计算其各个值的条件熵:•收入=低:购买(1是, 1否),条件熵=-((1/2) * log2(1/2) + (1/2) * log2(1/2)) = 1.0•收入=中:购买(3是, 1否),条件熵=-((3/4) * log2(3/4) + (1/4) * log2(1/4)) ≈ 0.811•收入=高:购买(2是, 2否),条件熵=-((2/4) * log2(2/4) + (2/4) * log2(2/4)) = 1.0然后,计算收入属性的信息增益:Gain(收入) = H(D) - ((2/10) * 1.0 + (4/10) * 0.811 + (4/10) * 1.0) ≈ 0.291c) 对于属性"学历",计算其各个值的条件熵:•学历=中学:购买(1是, 1否),条件熵=-((1/2) * log2(1/2) + (1/2) * log2(1/2)) = 1.0•学历=大学:购买(3是, 2否),条件熵=-((3/5) * log2(3/5) + (2/5) * log2(2/5)) ≈ 0.971•学历=研究生:购买(3是, 1否),条件熵=-((3/4) * log2(3/4) + (1/4) * log2(1/4)) ≈ 0.811然后,计算学历属性的信息增益:Gain(学历) = H(D) - ((2/10) *1.0 + (5/10) * 0.971 + (3/10) * 0.811) ≈ 0.128d) 对于属性"信用等级",计算其各个值的条件熵:•信用等级=差:购买(0是, 1否),条件熵=0•信用等级=一般:购买(1是, 1否),条件熵=-((1/2) * log2(1/2) + (1/2) * log2(1/2)) = 1.0•信用等级=良好:购买(2是, 1否),条件熵=-((2/3) * log2(2/3) + (1/3) * log2(1/3)) ≈ 0.918•信用等级=优秀:购买(3是, 1否),条件熵=-((3/4) * log2(3/4) + (1/4) * log2(1/4)) ≈ 0.811然后,计算信用等级属性的信息增益:Gain(信用等级) = H(D) - ((1/10) * 0 + (2/10) * 1.0 + (3/10) * 0.918 + (4/10) * 0.811) ≈ 0.115步骤3:选择信息增益最大的属性作为当前节点的划分属性根据信息增益,选择信息增益最大的属性作为当前节点的划分属性。
一、概述决策树分类算法是数据挖掘和机器学习领域中常用的算法之一,它可以用于对数据进行分类和预测。
其中C4.5算法是决策树分类算法中的一种经典方法,它采用了信息增益作为划分属性的标准,具有较好的泛化能力和分类精度。
在实际应用中,C4.5算法被广泛应用于各种领域,本文将介绍C4.5算法的具体应用场景。
二、金融领域1. 信用评分在金融领域,银行和信用卡机构经常需要对客户的信用进行评分,以判断其是否具有偿还借款的能力。
C4.5算法可以根据客户的个人信息、贷款记录和其他相关数据构建决策树模型,用于预测客户的信用水平,帮助金融机构做出信贷决策。
2. 欺诈检测另外,C4.5算法也可以在金融领域用于欺诈检测。
金融交易中存在大量的欺诈行为,通过分析交易数据和客户行为特征,C4.5算法可以构建欺诈检测模型,帮助金融机构及时发现和防范欺诈风险。
三、医疗领域1. 疾病诊断在医疗领域,C4.5算法可以应用于疾病的诊断预测。
通过对医疗数据进行分析,包括患者的症状、体征、生化指标等信息,利用C4.5算法可以建立疾病的分类模型,帮助医生进行疾病诊断和预测,提高诊断的准确性和效率。
2. 药物治疗预测C4.5算法也可以用于预测患者对药物治疗的反应。
通过分析患者的遗传信息、生理特征和药物治疗记录等数据,C4.5算法可以构建个性化的药物治疗模型,帮助医生选择最适合患者的治疗方案,提高治疗效果。
四、市场营销领域1. 客户分类在市场营销领域,企业需要对客户进行分类,以制定针对不同客户裙体的营销策略。
C4.5算法可以根据客户的消费行为、偏好信息、地理位置等数据构建客户分类模型,帮助企业对客户进行精细化管理和营销。
2. 产品推荐C4.5算法还可以用于产品推荐。
通过分析客户的购物历史、浏览行为和偏好信息,C4.5算法可以构建产品推荐模型,帮助企业向客户推荐符合其偏好的产品,提高销售额和客户满意度。
五、交通领域1. 交通流量预测在交通领域,C4.5算法可以应用于交通流量的预测。
决策树算法在高职学生学业目标评价中的应用研究作者:***来源:《电脑知识与技术》2023年第24期关键词:决策树算法;数据挖掘;高职学生;学业目标评价;学业指导中图分类号:TP311 文献标识码:A文章编号:1009-3044(2023)24-0170-040 引言数据挖掘技术是一门在大数据背景下基于统计学、计算机科学和人工智能等多个领域生成的交叉学科,它从海量数据中筛选出有应用价值和研究价值的信息数据,深层次地分析多维度的信息数据的特点,揭示不同类別信息数据之间的内在关联,从而为决策者提供决策支持。
数据挖掘技术包括关联规则挖掘、K-Means聚类分析、贝叶斯分类分析、人工神经网络分析、决策树分类分析等[1]。
决策树算法作为当前应用最广的数据挖掘算法之一,能够对数据进行分类和预测,其中C4.5算法理论清晰、方法简单、学习能力强,是数据挖掘和机器学习领域中一个有效的数据处理工具[2]。
本文通过使用C4.5决策树算法对影响高职学生学业目标评价的各项因素及内在关联进行数据挖掘与深入分析,提取分类规则并联系教学管理工作实际提出建议,以期为开展高职学生的学业指导工作提供决策基础和数据参考。
1 决策树算法决策树算法是一种典型的分类方法,是一种类似于流程图的树状结构,其中心思想是IF-THEN的规则,用于数值型因变量的预测和离散型因变量的分类[3]。
通过构造决策树,可以发现数据当中蕴涵着的分类规则,它能够表示人们为了做出某种决策而进行的一系列判断过程,生成一套“在什么条件下会得到什么结果”的规则。
决策树算法简单直观、易解释,在实际应用中有着其他算法难以比肩的速度优势。
一般情况下,一棵决策树包含一个根节点、若干个决策节点和若干个叶节点[4]:整棵决策树最顶端的节点被称为根节点,包含样本全集;每个决策节点表示一种特征或属性,包含数据集中满足从根节点到该节点所有条件的数据的集合;每个叶节点代表一种可能的分类结果,如果数据被包含在该叶节点中,则属于该类别。
第21卷第3期河南教育学院学报(自然科学版)Vol.21No.32012年9月Journal of Henan Institute of Education (Natural Science Edition )Sep.2012收稿日期:2012-05-05基金项目:河南省科技厅科技攻关计划项目(122102210227)作者简介:马伟杰(1982—),男,河南郑州人,郑州航空工业管理学院计算机科学与应用系教师.doi :10.3969/j.issn.1007-0834.2012.03.009C4.5决策树法在高校贫困生认定中的应用马伟杰(郑州航空工业管理学院计算机科学与应用系,河南郑州450015)摘要:准确认定贫困生资格,是高校公平、公正、合理分配国家资助资源的先决条件.将数据挖掘的决策树方法引入高校贫困生资格认证分析中,利用C4.5算法创建决策树,挖掘学生信息和贫困种类关系的历史数据,建立学生信息—贫困种类智能评价模型.通过实验仿真发现,C4.5决策树算法取得了较为理想的分类预测效果.关键词:C4.5算法;决策树;贫困生认定中图分类号:TP301.6文献标识码:A文章编号:1007-0834(2012)03-0027-040引言高校贫困生认定是一项每年必须重复的烦琐而又重要的工作,其准确性直接影响到高校贫困生资助的效益与效率,影响到高等教育机会的公平与均等,是关系到和谐校园建设的大事.如何对贫困生做出科学、有效的认定已是高校在学生资助实践过程中必须解决的首要问题,也是目前助学体系中亟待解决的研究课题之一[1].决策树是判断给定样本与某种属性相关联的决策过程的一种表示方法,从数据中生成分类器的一个特别有效的方法是生成一棵决策树,该方法广泛应用于数据挖掘和机器学习等领域,用来解决与分类相关的问题.决策树表示法是应用最广泛的逻辑方法之一.目前生成决策树方法的算法主要有3种:CART 算法,ID3算法,C4.5算法,其中C4.5算法具有分类速度快且精度高的特点,是发展得比较完善的一种决策树算法[1].1C4.5决策树算法C4.5算法是构造决策树分类器的一种有效算法,并最终可以形成产生式规则.C4.5算法的输入是一张关系表,由若干不同的属性及若干数据元组(称为训练样本)组成.属性分为两部分:一部分作为判定对象属性(判定树中的非叶节点);另一部分作为分类对象属性(判定树中的叶节点).C4.5算法采用信息熵的方法,比较各个判定对象属性的信息增益率的大小,选择信息增益率最大的属性进行分类,递归生成一个判定树[2].设|S |为训练集S 的样本总数,共有m 类样本C i (i =1,2,3,…,m ),|C i |为类C i 中的样本数,设P i =|C i |/|S |是任意样本属于C i 的概率,训练样本分类属性的总信息熵E (S 1,S 2,…,S m )的计算公式为E (S 1,S 2,…,S m )=-∑mi =1(p i *log 2(pi )).(1)设属性A 具有v 个不同值{a 1,a 2,…,a v },可以用属性A 将S 划分为v 个子集{S 1,S 2,…,S v },其中S j 包含S 中这样一些样本,它们在A 上具有值a j (j =1,2,…,v ).设|S ij |为S i 类中C j 的样本数,以属性A 为分类所需的期望熵E (A )的计算公式为E (A )=∑vj =1(|S 1j |+|S 2j |+…+|S mj |)*E (S 1j ,S 2j ,…,S mj )/|S |.(2)属性A 相对于类别集合C 的信息增益Gain (C ,A )的计算公式为Gain (C ,A )=E (S 1,S 2,…,S m )-E (A ).(3)属性A 相对于类别集合C 的信息增益率GainRatio (C ,A )的计算公式为28河南教育学院学报(自然科学版)2012年GainRatio(C,A)=Gain(C,A)/E(S1,S2,…,Sm).(4)上述描述中,假设对象属性的值是离散的.如果对象属性的值是连续的,则要经过离散化处理,首先寻找该连续型属性的最小值MIN和最大值MAX,再设置区间[MIN,MAX]的m个等分断点A i(i=1,2,…,m),Ai=MIN+i*(MAX-MIN)/m.(5)分别计算把[MIN,A i]和[A i,MAX](i=1,2,…,m)作为区间时的信息增益值Gain([MIN,MAX],A i),并进行比较,选取信息增益值最大的A k作为该连续属性的断点,把属性值设置为[MIN,A k]和[A k,MAX].C4.5算法是一个循环、递归的过程,核心部分的描述如下[3-5].DecisionTree C45(R,C,S)/*参数:R表示判定对象属性,C表示目标属性,S表示训练集*/{if(S为空)return NULL;if(S包含目标属性的值都相同)return具有该值的结点;if(R为空)return具有S中出现最频繁的目标属性值的结点;for(R中的属性R[i]){if(R[i]的取值是连续的)/*根据公式(5)进行离散化处理*/{A1=min(R[i]);/*A1为R i的最小值*/A m =max(R[i]);/*Am为R i的最大值*/for(j=2;j<m;j++)Aj =A1+j*(Am-A1)/m;/*m为类的数量,可手工设定*/计算基于{<=A j,>A j}分类的最大增益Gain(R[i],S);}获取R中最大增益Gain(D,S)的属性D;{d[j]|j=1,2,…,m}为属性D的取值;{s[j]|j=1,2,…,m}为与S相对应的包含属性D相应取值d[j]的训练集;return(以D为根,D射出的弧为d[1],d[2],…,d[m]的决策树);/*递归得到包含属性D相应取值d[j]的各个子决策树*/for(i-1;i<=m;i++)C45(R-D,C,S[i]);}}2C4.5算法在高校贫困生认定中的应用2.1问题定义与数据预处理贫困生的认定,一方面要根据学生个人情况,同时还要结合每位学生的家庭情况和其他突发情况(如自然灾害、突发变故等).根据学生的个人情况、家庭情况以及突发情况,建立分类预测模型对贫困种类进行评价,即:通过C4.5算法进行数据挖掘,获得分类规律———学生信息与贫困种类之间的关系,并推导出分类规则———贫困种类智能评价模型.我们对计算机系2009级45名学生2010—2011学年的信息建立数据表,进行分析和处理,其中包括学生基本信息、学生父母的基本情况、学生父母经济情况、学生家庭的债务情况及贫困种类.通过数据清洗、数据转换、数据集成、数据规约,去掉数据集中的噪声和不相关的信息,将数据源的数据类型与值转换成统一的格式.对数据进行的预处理主要有:(1)对贫困种类属性的处理.贫困生层次一般可分为3个级别:一般困难、困难和特困.(2)定义学生父母的基本情况.根据实际情况,将父母的基本情况分为5类:双亡、单亲、双残、一方残疾、健康.(3)定义学生父母经济情况.根据实际情况,将父母经济情况分为3类:均无经济来源(A)、一方有收入但很低(B)、均有收入但很低(C).(4)定义学生家庭的债务情况.根据实际情况,将学生家庭的债务情况定义为有欠债且无偿还能力(A)和无欠债两类(B).数据预处理完成后,得到贫困生信息表,如表1所示(仅显示部分记录).第3期马伟杰:C4.5决策树法在高校贫困生认定中的应用29表1数据转换后的贫困生信息特征集(部分)Tab.1The information feature set of needy college students after data converted(partly)学号父母情况经济情况债务情况贫困种类091006105健康C B一般困难091006106健康C A困难091006108一方残疾B A特困091006118双亡A A特困091006202一方残疾B A特困091006215健康C B一般困难091006322健康C A困难091007115健康C B一般困难091007121单亲B A特困091007205健康C B一般困难091007210健康C B一般困难091007313健康C A困难……………随机抽取预处理后的数据(共48个数据)2/3的数据,即32个数据样本,作为C4.5算法的训练集,剩下的1/3的数据,即16个数据样本,作为测试集[6].2.2构造决策树数据预处理后,开始归纳决策树,此过程使用数据预处理得到的训练集.根据前述的C4.5算法,将父母情况、经济情况、债务情况作为算法的对象属性,将贫困种类作为目标属性,利用信息增益率的定义将属性进行排列,具有最高信息增益率的属性选作给定集合的测试属性.创建一个根节点,并以该属性标记,对属性的每个值创建分枝,然后递归建树,可构造一棵决策树,算法具体处理过程如下.训练样本数据集S中,共有32个元组,其中贫困种类属性(属性值为:一般困难,困难,特困)每个属性值所对应的子集中元组个数分别为S1=23,S2=8,S3=17,为了计算每一个决策属性的信息增益,首先利用公式计算集合S分类的总信息熵E(S1,S2,S3)=E(23,8,17)=-2348log22348-848log2848-1748log21748=1.471.然后计算每一个决策属性的期望信息熵.对属性“父母情况”,当父母情况=“双亡”时,E(S11,S21,S31)=-01log21-1log21-11log211=0;当父母情况=“单亲”时,E(S12,S22,S32)=-05log25-5log25-55log255=0;当父母情况=“双残”时,E(S13,S23,S33)=-03log23-3log23-33log233=0;当父母情况=“一方残疾”时,E(S14,S24,S34)=-08log28-8log28-88log288=0;当父母情况=“健康”时,E(S15,S25,S35)=-2331log22331-831log2831-0 31log231=0.561.由此得出父母情况的熵值E(FM)=148E(S11,S21,S31)+548E(S12,S22,S32)+348E(S13,S23,S33)+848E(S14,S24,S34)+3148E(S15,S25,S35)=0.363.因此“父母情况”的信息增益Gain(FM)=E(S1,S2,S3)-E(FM)=1.108,属性“父母情况”的信息增益率GainRatio(FM)=Gain(FM)/E(S1,S2,S3)=0.753.同理,得到属性“经济情况”、“债务情况”的信息增益律分别为GainRatio(JJ)=0.566,GainRatio(ZW)=0.381.由于属性“父母情况”具有最大的信息增益率值,故而选择该属性作为决策树的根节点.对于每一个分支,重复上述步骤生成决策树.如图1所示.因篇幅有限,只画出第一层次单位的决策树[7-8].30河南教育学院学报(自然科学版)2012年图1C4.5算法构造贫困生认定决策树Fig.1Decision tree of determination of needy college students constructed by C4.5algorithm2.3分类规则提取从决策树中提取一般困难、困难、特困的分类规则如下.1)if父母情况=“健康”and经济情况=“均有收入但很低”and债务情况=“无欠债”then一般困难;2)if父母情况=“健康”and经济情况=“均有收入但很低”and债务情况=“有欠债且无偿还能力”then困难;3)if父母情况=“双亡”or“单亲”or“双残”or“一方残疾”then特困.3结束语在目前手工方式进行贫困生认定效率低的情况下,提出了关于贫困生认定的数据挖掘模型,引入数据挖掘理论中的决策树算法,对高校贫困生认定系统中的数据进行分析.实验表明应用此数据挖掘算法构造简单、能正确分类,处理速度较快.参考文献[1]何文秀.数据挖掘技术在高校就业工作中的应用研究[J].现代计算机:专业版,2008(3):16-18.[2]王欣.基于数据挖掘的高校学生培养及就业指导研究[D].成都:西南交通大学,2006.[3]司晓梅.数据挖掘中关联规则的研究及应用[D].武汉:武汉理工大学,2007.[4]王伟鸣.教育信息的关联规则挖掘[D].上海:上海海运学院,2003.[5]丁智斌,袁方董,贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机系统应用,2006(4):33-36.[6]黎仁国.数据挖掘技术在贫困生评定中的应用[J].内江师范学院学报,2010(4):17-19.[7]邵兴江.数据挖掘在教育信息化中的应用空间分析[EB/OL].2008-01-08[2012-05-06].http://www.zjedu.org/xdjyjs/ 107/64781thm.[8]HAN J.FreeSpan:Frequent parttem-projected sequential pattern mining[C]//Proc2000Int Conf Knowledge Discovery and Data Mining.Bos-ton,2000:355-359.Application of C4.5Algorithm on Determinationof Needy College StudentsMA Wei-jie(Department of Computer Science and Application,Zhengzhou Institute of Aeronautic Industry Management,Zhengzhou450015,China)Abstract:The accurate identification of needy students was the prerequisite to allocate the funding resources to students impartially,fairly and reasonably.The data mining method of decision tree was introduced to analyze the types of needy college students.Intelligent evaluation model for needy college students based on C4.5decision tree algorithm was established by the historical data of students information and types of poverty.Through the simulation experiment,the results demonstrated that C4.5decision tree algorithm can obtain good results of classification.Key words:C4.5algorithm;decision tree;determination of needy college students。