基于关联规则挖掘的高校成绩分析研究_李莹莹
- 格式:pdf
- 大小:1.38 MB
- 文档页数:2
关联规则挖掘在学生成绩分析中的应用研究翁锦琳【摘要】研究数据挖掘领域中的关联规则及其在学生成绩分析中的应用.设计并实现学生成绩关联规则分析系统,利用该系统对学生成绩进行分析,得出学生不同课程之间的联系及不同课程对总成绩的影响,从而为教学工作提供指导作用.%The topic of this paper is about the research in association rules in data mining and its application in the analysis of students' marks.In this paper we design and realize a students' score association rules analysis system,with which we analyze the students' marks and obtain the link between different courses and the effects of different courses on total score so as to provide guidance to the teaching.【期刊名称】《宁德师范学院学报(自然科学版)》【年(卷),期】2012(024)002【总页数】5页(P201-205)【关键词】数据挖掘;关联规则;支持度;置信度;Apriori算法【作者】翁锦琳【作者单位】福州大学数学与计算机学院,福建福州350108 古田县第一中学,福建古田355200【正文语种】中文【中图分类】TP311.13目前,数据挖掘已经广泛地应用于商业、金融业、电信业等各个行业,但在教育上的应用还不是特别广泛.本文将数据挖掘中的关联规则应用到学生成绩分析中,从而对教学及管理工作起到指导作用.学生成绩,作为评价学生学习成果的一项重要指标,能够客观、真实地反映学生的学习效果和教师的教学质量.但是目前对学生成绩的分析,主要还停留在基本统计分析上,比如平均分、标准差、名次、分段人数统计等,而且主要还停留在某一门课程成绩以及总分的评估上,而对各个学科成绩之间的关联、各个学科成绩与总分名次的关联以及同一门课程各模块内容之间的得分关联等却没有做详细的分析.而分析这些关联有助于发现许多隐藏在其中的规律,对学生以后的学习方法、教师的教学手段和学校的教学计划起到良好的指导作用.数据挖掘方法主要包括关联规则发现、分类、聚类分析、泛化和预测、决策树、神经网络、粗糙集等.关联规则挖掘是数据挖掘中的一种重要方法,它主要用于发现存在于大量数据之间的关联性,从而描述一个事物某些属性同时出现的规律和模式[1].在1993年,Agrawal等人[2]首次提出了关联规则的概念.其一般定义如下:J={I1,I2,…,Im}是一项目集,D是一事务数据库,其中每个事务T哿J.每个事务都有一个标识符,称之为TID.若A是项目集,当且仅当A哿T时,就说事务T 包含A.一条关联规则就是形如A=>B的蕴涵式,其中AJ,BJ且A∩B=.如果D中包含A∪B的比例是s,就称关联规则A=>B在D中的支持度为s,也可以表示为概率P(A∪B);如果D中包含A的情况下同时包含B的比例是c,则说关联规则A=>B的置信度为c,表示为条件概率P(B|A).即Support(A=>B)=P (A∪B),Confidence(A=>B)=P(B|A).支持度(support)和置信度(confidence)两个阈值是描述关联规则的两个重要概念.关联规则的支持度反映了该规则在数据库中的重要性和代表性,而它的置信度则表明了整个规则的正确度,即可信程度.在挖掘关联规则时,必须要指定一个最小支持度(min-support)和最小置信度(min-confidence),如果某条规则同时满足最小支持度和最小置信度,则称它为强关联规则.一般来说,只有强关联规则才可能是有意义的关联规则,也就是笔者要挖掘的规则.关联规则挖掘主要分为两步[1]:(1)找出所有的频繁项集;(2)产生强关联规则.1.2.1 找出所有的频繁项集求出数据库中所有的频繁项集及相应的支持度计数.项的集合称为项集,满足最小支持度的项集为频繁项集,支持度计数是指项集出现的频率,而支持度是指项集出现的概率,即支持度=支持度计数/总的事务数.关联规则挖掘最有名的算法是Agrawal和Strikant提出的经典的Apriori算法[3].另一个重要的算法是Han提出的FP-growth算法[4].后面还有许多学者提出了不同的改进算法.Apriori算法的基本思想是通过多次扫描数据库来产生频繁项集.FP-growth算法通过扫描两次数据库建立一棵称为FP-tree的频繁模式树,通过对FP-tree的挖掘来获得频繁项集.Apriori算法需多次扫描数据库并产生大量的候选项集,而FP-growth算法只需扫描两次数据库,但是当事务数据库较大时,将整棵FP-tree放入内存比较困难.下面简要介绍一下Apriori算法的基本思想:(1)先寻找所有的频繁1-项集的集合L1(2)由频繁(k-1)-项集的集合L(k-1)生成候选k-项集的集合C(k).它包括连接步和剪枝步.① 连接步:对于任意两个 L(k-1)的不同项集l1和l2,若满足条件(l1[1]=l2[1])∩(l1[2]=l2[2])∩…∩(l1[k-2]=l2[k-2])∩(l1[k-1]<2[k-1]),则进行连接操作,c=l1[1]l1[2]…l1[k-2]l1[k-1]l2[k-1].(假定l1、l2中的项已按字典序排好,条件l1[k-1]<2[k-1]仅仅是为了保证不产生重复)② 剪枝步:随着k的增大由连接步产生的C(k)可能会越来越大,为了提高算法的效率,可以压缩C(k),即剪枝.具体来说,可以对连接步产生的c作一个判断:如果c的某一(k-1)-子项集不在L(k-1)中,则它不可能是频繁项,不必加入C(k)中,否则才将c加入C(k)中.这里的依据是Apriori性质:“频繁项集的所有非空子集必定是频繁的”.(3)扫描事务数据库,计算出C(k)中的每个候选项集c的支持度计数c.count. (4)频繁k-项集的集合L(k)={c|c.count/事务数≥minsupport,c∈C (k)}.//C(k)中支持度大于等于最小支持度minisupport的项集加入L(k)中. (5)返回第(2)步,直到L(k-1)为空.(6)L(K)(K=1,2,3,…)即为所求的频繁项集的集合.Apriori有许多改进算法,如使用散列技术压缩要考察的候选k-项集Ck(k>1)、事务压缩(压缩未来迭代扫描的事务数)、抽样(对给定数据的子集挖掘)、动态项集计数(在扫描的不同点添加候选项集).1.2.2 产生强关联规则由频繁项集产生关联规则,这些关联规则必满足最小支持度,如果同时满足最小置信度,则为强关联规则,也就是所要挖掘的关联规则.该步骤比较简单,将一个频繁项集A划分成两个非空的子集B和A-B,所有满足最小置信度的B=>(A-B))即是所要生成的规则.算法如下:利用VisualC++开发工具编写一个简单的学生成绩关联规则分析系统,数据库采用ACESS.图1为该系统的数据流图,反映了该系统的功能及数据流向.以笔者所在中学高三理科学生今年省质检考试数据为样本作实验分析.该原始成绩见表1(共502条数据,这里只列出部分,为了保护隐私,将学号、姓名、班级等内容清除).在做成绩关联规则分析前,要先进行一些必要的参数设置.本例中,设置参数如图2所示.1999年Pyle提出在数据挖掘过程中增加数据预处理过程,同时强调了数据预处理重要性:数据预处理占数据挖掘时间的60%.数据预处理包含了数据清理、数据集成、数据选择、数据变换等过程.(1)数据清理.主要是清除一些不用的信息,比如缺考的学生数据将影响数据挖掘结果的准确性,要将这些记录清理掉.(2)数据集成.主要是将不同的数据源组合在一起(本例较简单,只有一个数据源).另外为了研究学生单科成绩对总分的贡献,必须加一列“总分”,并计算这一列的值.(3)数据选择.从数据库中提取与分析任务相关的数据.本例中与分析任务相关的数据为所有考生的所有课程成绩及总分成绩数据,而姓名、班级、学号、性别等字段信息与本次分析任务无关,无需选择.当然,如果你只想分析部分课程,就只要选择相应的课程就行了.(4)数据变换.数据变换的主要任务,是将数据规格化,转换为特定的格式,以便于算法的实现.本例中笔者将总分编号为0,语、数、英、理、化、生课程编号分别为1、2、3、4、5、6.还要将成绩离散化,按名次分为A、B、C三等(即好,中,差,因为每次考试难度不一样,各科的难度也不一样,各科的满分也不一样,如果用分数线划分等级则不太准确,所以可以按名次来划分等级),如1A表示语文成绩为A,1B表示数学成绩为B,0C表示总分为C.这样分析的项目将会有21个,即0A、0B、0C、1A、1B、1C、……、6A、6B、6C.预处理后的布尔型事务表如图3(只列出部分):例如图中编号为2的学生总分成绩为A,语文成绩为A,数学成绩为A,英语成绩为B,物理成绩为A,化学成绩为A,生物成绩为A.对于本例而言,由于是按名次来划分等级,则任一个科目A、B、C各约1/3,所以本例中最大的支持度也不会超过33%,在设置最小支持度时不宜设置过大.关联规则挖掘包含找出频繁项集、产生关联规则两步,前面已简要介绍了关联规则挖掘相关算法与步骤,这里不再累述.在产生频繁项集时,本系统使用Apriori的一种改进算法,使用了散列技术来压缩要考察的候选项目集,从而提高了算法效率.本次试验最小支持度设为20%,最小置信度设为60%.程序运行结果如图4.最终产生了39条强关联规则.对产生的关联规则作分析,从而得出其中的一些规律.(1)5A=>0A,2A=>0A,4A=>0A,3A=>0A、6A=>0A这几条规则的置信度分别为 0.760、0.758、0.725、0.696、0.633,可见数、理、化三科成绩为 A的同学总分也为A的概率在70%以上,英语也在70%左右,生物63%,在60%最小置信度下语文没有形成强关联规则.可见数、理、化、英这四科对总分的贡献最大,其实从教学实践中也看到了,因为这几个科目拉分相对都比较大,特别是数、理、化三科,因而造成了它们对总分排名的影响很大.(2)0A=>5A、0A=>2A、0A=>4A、0A=>3A、0A=>6A 这几条规则的置信度分别为 0.778、0.731、0.725、0.701、0.659,可见总分成绩好的学生大部分是各科都非常好.(3)而2C=>0C、3C=>0C、4C=>0C、5C=>0C、6C=>0C这几条规则的置信度也都很高.这说明如果有某科目考得特别低(等级为C),则整体成绩为低(等级为C)的概率很高,所以教学中要特别注意学生的弱势科目,一旦学生有弱势科目,则在平常的学习过程中就必须多花时间弥补.另外(2C,4C)=>0C,(0C,2C)=>4C,(0C,4C)=>2C 的置信度分别为 0.910、0.828、0.783,可见数学、物理成绩低与总分低的关系是特别大的.这点与实际也是相符的,因为数学与物理相对较难,而且每道题的分值也比较大,如果学不好,就容易造成较低的分数,从而影响总分名次.所以如果数学、物理成绩较低的同学一定要特别注意弥补这两科的不足.(4)前面三点所列的规则中,语文科目(编号为1)并没有形成强关联规则,可见语文科目在本次考试中对总分的影响稍弱一些,这个也是与语文科目本身的特点有关.(5)2A=>5A、2A=>4A这两条规则的置信度也都在0.65左右,可见学好数学对物理、化学是很有帮助的.所以学校要特别重视数学课程的教学.(6)另外,在学生成绩关联规则分析系统中,置信度稍低的规则不一定完全没有用.在本例中,如果将置信度适当降低(比如降低到0.4),如果有发现类似(2A,4A)=>3C的情况,就能够说明偏科现象较严重,教学上在这方面就要引起注重. 另外,在实际应用中,可以将学生平时的表现行为等特征与成绩作关联分析,或者分析同一个科目各个模块的关联,从而产生更多有用的规则.当然,本例只是笔者所在学校其中一次考试的分析结果,也许某些规则不具有普遍意义,因此可以通过对多个学校的多次考试的分析来验证某些规则的正确性.本例是关联规则挖掘在基础教育中的应用.而关联规则在高校学生成绩分析中的应用价值也是非常大的,比如高校中同专业的不同课程往往有很大的相关性,那么通过分析关联规则,可以合理地安排这些课程的顺序,对学校制定教学计划提供依据.又如可以分析基础课与专业课之间的相关性,这样就能知道哪些基础课起的作用较大,因而在教学安排上应该对这些基础课程多安排学时.另外在分析时,要特别注意最小支持度与最小置信度的选择,以免产生无用的信息或错失有用的信息.【相关文献】[1](加)韩家炜,堪博.数据挖掘:概念与技术 [M].范明,孟小峰,译.北京:机械工业出版社,2007.[2]R.Agrawal,T.Imielinski,A.N.Swami.Mining Association Rules between Sets of Items in Large Databases [J].In Proc.Of the ACM SIGMOD Intl.Conf.on Management of Data (SIGMOD'93),1993:207-216[3]R.Agrawal,R.Strikant.Fast Algorithms for Mining Association Rules[J].In Proc.Of the20th Intl.Conf.on Very Large Data Bases(VLDB'94),1994:487-499[4]J.Han,J.Pei,Y.Yin.Mining Frequent Patterns without Candidate Generation[J].InProc.of the ACM SIGMOD Int.Conf.on Management of Data(SIGMOD'00),2000:1-12. [5]文拯.关联规则算法的研究 [D].武汉:中南大学,2009.[6]Pyle D.Data Preparation for Data Mining[M].San Francisco,CA:Morgan Kaufmann Publishers Inc,1999:540.。
2019,55(17)1引言近些年来,随着高校的不断扩招,进入高校的学生数量急剧增长。
由于大学生活与中学生活有着较大差别,学生进入大学后将面临着生活方式、学习方法等多方面的转变。
由于不擅长独立自主地学习,或是不能适应繁重的课业压力,每年都有一定数量的学生出现考试不及格、留级,甚至退学的现象,严重影响了学生的未来发展。
学校管理者也尝试一些方式对学生加以指导和管理,但是,由于各种因素的影响,学校管理者很难及时发现存在问题,也不能给学生带来具有针对性的引导。
据相关研究发现[1-4],学生的成绩反映了学生在一段时间内的学习状况,当学生在一段时间内没有花费足够的精基于聚类和关联算法的学生成绩挖掘与分析郭鹏,蔡骋西北农林科技大学信息工程学院,陕西杨陵712100摘要:针对某高校信息工程学院学生的学习状况和培养方案的改进需求,以2008—2014级信息工程学院本科生课程成绩为研究对象,提出一种基于改进K -means 和引入兴趣度的Apriori 的学生课程成绩分析方法。
采用改进的K -means 算法对成绩信息进行离散化处理,采用引入兴趣度的Apriori 算法进行挖掘并根据得到的课程之间的关联规则绘制课程关系网络图,对课程间的关联关系、衔接关系以及课程的重要程度进行分析。
应用所述方法进行挖掘能够减少大量没有意义的规则,提高了挖掘结果的准确性,挖掘所得到的结果不仅能够为教学方案的设计和改进提供一定的参考信息,还有助于提高学校的教学质量和学生的学习质量。
关键词:数据挖掘;成绩分析;关联规则;聚类文献标志码:A 中图分类号:TP391doi :10.3778/j.issn.1002-8331.1902-0223郭鹏,蔡骋.基于聚类和关联算法的学生成绩挖掘与分析.计算机工程与应用,2019,55(17):169-179.GUO Peng,CAI Cheng.Data mining and analysis of students ’score based on clustering and association puter Engineering and Applications,2019,55(17):169-179.Data Mining and Analysis of Students ’Score Based on Clustering and Association Algorithm GUO Peng,CAI ChengCollege of Information Engineering,Northwest A&F University,Yangling,Shaanxi 712100,ChinaAbstract :In order to meet the needs of the improvement of the students ’learning status and training scheme reform in the college of information engineering of a university,taking the course scores of undergraduates in the college of information engineering from 2008to 2014as the objects of study,a method which combines the Apriori algorithm with interest and the improved K -means is proposed to analyze students ’grades.First of all,this research uses the improved K -means to discretize the scores.Then,Apriori algorithm with the degree of interest is adopted for data mining.According to the association rules between courses and the drawing of network diagram of course relations,this research analyzes the relationship among courses and the importance of courses.Finally,the method can reduce a lot of meaningless rules and improves the accuracy of mining results.And the results obtained by using the method can not only provide some reference information for the design and improvement of teaching programs,but also help to improve the teaching quality of schools and students ’learning quality.Key words :data mining;score analysis;association rule;clustering基金项目:西北农林科技大学信息工程学院教学与管理改革项目(No.YJG2015020)。
关联规则挖掘中Apriori算法的研究与改进李雪斌;朱艳琴;罗喜召【期刊名称】《电脑知识与技术》【年(卷),期】2009(005)019【摘要】该文在时关联规则挖掘中Apriori算法的深入研究和分析的基础上,发现并指出了该算法存在的不足,并对其进行以下三方面改进:改善候选项集支持度的计算方法;缩小候选项集的生成规模;减少对数据库的扫描次数.实验结果表明,改进算法性能得到了明显提高.%On the basis of deep research and analysis of Apriori algorithm in association rule mining, the paper discovers some shortages of the algorithm, and then improves it from three aspects: Firsdy, the calculation method of support in candidate frequent itemsets is improved;Secondly, the scale of candidate frequent itemsets is reduced; In the end, the numbers of scanned database are decreased. The experiment results of the improved algorithm show that the improved algorithm is more efficient than the original.【总页数】3页(P5084-5085,5098)【作者】李雪斌;朱艳琴;罗喜召【作者单位】苏州大学计算机科学与技术学院,江苏,苏州,215006;苏州大学计算机科学与技术学院,江苏,苏州,215006;苏州大学计算机科学与技术学院,江苏,苏州,215006【正文语种】中文【中图分类】TP311【相关文献】1.关联规则挖掘中Apriori算法的研究与改进 [J], 马廷斌;徐芬2.关联规则挖掘中对Apriori算法的一种改进研究 [J], 孔芳;钱雪忠3.关联规则挖掘中Apriori算法的研究与改进 [J], 崔贯勋;李梁;王柯柯;苟光磊;邹航4.关联规则挖掘中对Apriori算法的一种改进研究 [J], 刘以安;羊斌5.关联规则挖掘中Apriori算法的研究与改进 [J], 李雪斌;朱艳琴;罗喜召因版权原因,仅展示原文概要,查看原文内容请购买。
置信度是解释X出现的情况下,为条件概率。
例如,组织胚胎学优秀的情况下,系统解剖学也是优秀的概率。
置信度(Confidencenumber图1 Apriori算法参数设置图2 Apriori算法下的关联规则5 C4.5算法在系统解剖学上的预测决策树是一种预测模型,分别由节点、分之和叶节点三部分组成。
C4.5决策树算法由Ross Quinlan教授在1993年基于改进的ID3算法提出[5]。
C4.5决策树算法将实例通过属性值逐步判别为某个类别标签,基于从上到下的递归分治策略,以信息熵增益最大的属性作为树的根节点,为每个可能的属性值创建分支,将实例分成多个子集[6]。
本文通过C4.5算法预测分析系统解剖学,采用十折交叉验证的方式评估模型,不断调整minNumObj获得最佳决策树模型,决策树结果及模型正确率如图3、图4 所示。
图3 C4.5决策树结果图图4 C4.5模型正确预测率6 实验结果分析本次研究中收集了右江民族医学院2016级临床专业学生,在基础医学所学的12门医学基础课程的成绩数据信息,通过预处理筛选无效实例后,得到540个数据实例。
通过第三章的方案进行数据预处理,应用Apriori算法和C4.5决策树算法建立相关模型,并从模型结果中提取出规则结论。
通过Apriori算法建立模型,产生了21条关联规则,如图2所示,并不是所有挖掘出的关联规则都有意义[7]。
例如,某个学科考得差导致另一学科考得好。
只有整理和筛选以上关联规则,才能得到最后的挖掘结果。
第一,病理学的成绩受医学微生物学、医学寄生虫学、医用化学和人体组织胚胎学几门课程的影响。
病理学是基础医学和基础课程中,人体组织胚胎学、医学微生物学和人体免疫学对预测目标课程系统解剖学成绩的贡献度最大。
如果系统解剖学成绩较差的学生,应针对上述三门课程合理安排补习计划。
7 结 语本文借助开源免费的WEKA数据挖掘平台,挖掘了右江民族医学院学生的基础医学课程成绩。
基于关联规则挖掘的高校成绩分析研究摘要:本文通过对本校某年级学生成绩进行分析,主要应用数据挖掘中的关联规则和apriori算法,挖掘出一些合理的课程关联规则,将这些规则运用到教学管理中,可以指导学生选课和合理的设置课程,为高校的教学管理提供参考。
关键词:数据挖掘;关联规则;成绩管理中图分类号:tp311.13努力提高学生的成绩和学生素质是每一所高校的目标,随着高校的办学规模的扩大、办学层次多样化,随着社会的发展,影响学生学习成绩的因素也越来越多,学生成绩分析就更加重要。
目前教务管理系统中收集了大量的学生成绩数据,管理者大都采用传统的统计报表形式,对这些数据的处理还停留在数据录入、简单的数据备份和查询阶段,有很大的局限性。
数据挖掘技术在许多领域,如商业、金融业以及企业的生产、市场营销等一些盈利行业都得到了广泛的应用,但在非盈利行业教育领域的应用相对还较少,将数据挖掘技术引入到教务管理信息系统中,对教务管理系统中的学生成绩数据进行分析,从大量数据存在的关系、规则中研究学生成绩,预测成绩发展趋势,从而能够更好地指导教师排课和学生选课,对学生管理工作有的放矢,提高授课和学习效果能起到非常重要的作用。
本文主要使用数据挖掘技术中的关联规则进行高校学生成绩分析,以找出课程之间的关联关系,指导学生选课和合理的设置课程。
1 数据挖掘关联算法1.1 数据挖掘数据挖掘是一个应用数据分析工具从大量数据中发现以前未知的和隐蔽的信息,以及数据之间关系的研究领域。
这些工具包括统计模型,数学算法和机器学习方法。
综合了多学科内容的数据挖掘,把原来对知识的简单应用,比如学生成绩的操作及简单查询等方面扩展到了对知识信息的深度提取运用,比如从现有的学生信息数据库中挖掘对学生成绩有影响的属性信息,帮助学校合理调整教学计划,提高教学质量。
出于对此类应用的需求,使数据挖掘这门前沿学科吸引了各个领域的研究者。
数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有自动预测趋势和行为、关联分析、聚类、概念描述(决策树方法、遗传算法)及偏差检测。
Ed uca tion Scien ce刍议师范院校如何为地方经济建设服务梁剑莹华南师范大学科技处,广东广州510631摘要通过对我国师范院校所面临的形势和背景,分析师范院校在产学研道路种存在的问题,并进行剖析,初步给出了一些如何让师范院校更好地为地方经济建设服务的建议。
关键词产学研结合;高校为地方经济建设服务中图分类号F287 文献标识码A文章编号1674-6708(2010)15-0140-02Abs t r a c t S om e te nta tive s ugg e s tions is pr opos e d for be tte r de ve lopme nt of loca l e c onomy tha t provided by norma l unive rsitie s through the a na lysis of the situa tion of C hine s e norm a l u nive r sitie s’situa tion a nd the hindra nc e of de ve lopm e nt of inte gra tion of production,te a ching,a nd re se arc h.Ke yw o r ds inte gra tion of pr oduc tion;te a c h ing;a nd re s e a rch;the se rvic e for loc a l e c onomy provide d by high sc hool现今社会的发展形势,当前的社会已经不能满足于高校仅仅发展教学和科研而不实现成果转化的现状了。
在全国都在强调发挥科技支撑引领作用的大潮流下,作为高等院校,走与企业合作的道路,走产学研的道路已经是大势所趋[1]。
特别是我国发挥科技支撑引领作用,积极推进科研成果转化能力,以此成果抵抗此次国际金融危机这一事实,强而有力的说明了加强科研成果转化能力的必要性和不可抗拒性。
关联规则算法在成绩分析中的应用探讨作者:肖小甜来源:《新课程》2022年第16期虽然成绩不是评价学生的唯一标准,但学生的成绩中还是隐藏着很多信息。
对这些信息进行收集、整理和分析,可以深层次挖掘学生成绩的产生背景,如学生学习态度、学生学习兴趣、家庭教育基础、课堂教学质量等,进而对学生学习影响因素、教师教学有效性形成进一步了解。
关联规则算法是一种数据分析手段,其在教学领域中应用时,可以通过分析学生成绩而找出教师与学生的各项问题,以及问题产生的根源或影响因素。
这样一来,便能为当前教学分析工作提供依据,帮助教育工作者及学校进行教育决策的优化调整,进而提升教师教学质量与学生成绩。
一、关联规则算法的含义关联规则的含义就是通过调查单一数据与其他数据之间的联系,从而探寻二者的依赖关系,并生成所有的影响因素,分析外界各项影响因素。
一般来说,普遍用支持度与置信度两个参数描述关联规则的属性,通过分析频繁项集计算相互之间的置信度。
现实中常见的关联规则算法的应用是在商场中的捆绑销售,分析消费者在购买一项产品的同时,普遍购买较多的另一项产品,从而将二者进行捆绑,并剔除其他的无用信息。
在教学中运用关联规则算法时,学生的成绩就类似商场消费者的消费记录,可以通过收集整理的成绩数据,分析影响学生成绩的关联因素。
在学生成绩的收集过程中,除了应详细收集学生的各个科目成绩外,为达到分析目的,还应对学生的家庭情况、学生兴趣、学校等种种因素进行收集。
其中,家庭因素包括家庭氛围、父母教育期望与受教育程度,学生特征应包括学习主动性、心理情况、网络沉迷度,学校因素包括师生关系、教师教学态度、班级学习氛围、学习结构等。
之后,再结合关联规则算法分析结果,对现有的教学方法、教学效率、教学质量进行评价反思,并进一步调整育人思路、完善教学模式、优化教学方案。
二、基于关联规则算法分析学生成绩通过关联规则算法分析学生成绩时,应从学生各个科目的成绩进行着手,充分收集学生的语文、数学、英文、理科综合、文科综合的学习成绩,清除出空缺数值,再通过数据的泛化与挖掘处理结果,最后从结果可得知在学生的学习成绩中,很多学生受到偏科因素的影响,在政治、历史成绩较差时,语文成绩也一般,在物理、化学科目较差时,数学成绩也一般,因此对于这种情况,教师应加强对这种连带反应的教学关注度,分析课程之间存在的关联性,并在发现学生有科目较差时,应积极查找学生其他科目的成绩,注重对学生偏向科目整体的教育,而不应仅仅拘泥于单一科目。
关联规则是诸如
,,并且。
规则的支持度
和置信度是两个规则兴趣度量值,它们分别表示发现规则
图1 教务管理系统不同角度分析
教务管理系统中收集了大量的学生成绩数据,如学
生相关可包含学号、姓名、性别、班级、年级、分数等,
教师相关可包含教师号、性别、科目、学历、职称、教龄◆
图2 学生成绩信息初始表
Apriori算法只能处理布尔变量,需把数值型数据转换为由项集组成的事务数据表。
因为挖掘的是各课程之间的优秀关系,同样使用创建命名计算的方法,成绩在60分以上的置为“及格”,表示事务中存在该项,将成绩字段值
图3 创建命名计算后数据视图
2.2 数据分析。
根据数据特点和应用需要,设定最小支持度20%,最小置信度60%。
算法参数:Min_ Support=0.2,Min_Probability=0.6。
图4 专业课成绩的关联挖掘概率及重要性显示图4显示了满足要求的关联规则,显示的规则已经按照概率排序,规则从上到下顺序编号为1-7。
这些规则的概率和重要性分数。
重要性(Importance)也称为兴趣度分数或者增益,设计重要性分数的额目的是测试规则的有。