关联规则在学生成绩分析中的应用

格式：pdf
大小：174.52 KB
文档页数：4

下载文档原格式

关联规则挖掘在学生成绩分析中的应用研究

关联规则挖掘在学生成绩分析中的应用研究翁锦琳【摘要】研究数据挖掘领域中的关联规则及其在学生成绩分析中的应用.设计并实现学生成绩关联规则分析系统,利用该系统对学生成绩进行分析,得出学生不同课程之间的联系及不同课程对总成绩的影响,从而为教学工作提供指导作用.%The topic of this paper is about the research in association rules in data mining and its application in the analysis of students＇ marks.In this paper we design and realize a students＇ score association rules analysis system,with which we analyze the students＇ marks and obtain the link between different courses and the effects of different courses on total score so as to provide guidance to the teaching.【期刊名称】《宁德师范学院学报（自然科学版）》【年(卷),期】2012(024)002【总页数】5页(P201-205)【关键词】数据挖掘;关联规则;支持度;置信度;Apriori算法【作者】翁锦琳【作者单位】福州大学数学与计算机学院,福建福州350108 古田县第一中学,福建古田355200【正文语种】中文【中图分类】TP311.13目前，数据挖掘已经广泛地应用于商业、金融业、电信业等各个行业，但在教育上的应用还不是特别广泛.本文将数据挖掘中的关联规则应用到学生成绩分析中，从而对教学及管理工作起到指导作用.学生成绩，作为评价学生学习成果的一项重要指标，能够客观、真实地反映学生的学习效果和教师的教学质量.但是目前对学生成绩的分析，主要还停留在基本统计分析上，比如平均分、标准差、名次、分段人数统计等，而且主要还停留在某一门课程成绩以及总分的评估上，而对各个学科成绩之间的关联、各个学科成绩与总分名次的关联以及同一门课程各模块内容之间的得分关联等却没有做详细的分析.而分析这些关联有助于发现许多隐藏在其中的规律，对学生以后的学习方法、教师的教学手段和学校的教学计划起到良好的指导作用.数据挖掘方法主要包括关联规则发现、分类、聚类分析、泛化和预测、决策树、神经网络、粗糙集等.关联规则挖掘是数据挖掘中的一种重要方法，它主要用于发现存在于大量数据之间的关联性，从而描述一个事物某些属性同时出现的规律和模式[1].在1993年，Agrawal等人[2]首次提出了关联规则的概念.其一般定义如下：J={I1，I2，…，Im}是一项目集，D是一事务数据库，其中每个事务T哿J.每个事务都有一个标识符，称之为TID.若A是项目集，当且仅当A哿T时，就说事务T 包含A.一条关联规则就是形如A=>B的蕴涵式，其中AJ，BJ且A∩B=.如果D中包含A∪B的比例是s，就称关联规则A=>B在D中的支持度为s，也可以表示为概率P（A∪B）；如果D中包含A的情况下同时包含B的比例是c，则说关联规则A=>B的置信度为c，表示为条件概率P（B|A）.即Support（A=>B）=P （A∪B），Confidence（A=>B）=P（B|A）.支持度（support）和置信度（confidence）两个阈值是描述关联规则的两个重要概念.关联规则的支持度反映了该规则在数据库中的重要性和代表性，而它的置信度则表明了整个规则的正确度，即可信程度.在挖掘关联规则时，必须要指定一个最小支持度（min-support）和最小置信度（min-confidence），如果某条规则同时满足最小支持度和最小置信度，则称它为强关联规则.一般来说，只有强关联规则才可能是有意义的关联规则，也就是笔者要挖掘的规则.关联规则挖掘主要分为两步[1]：（1）找出所有的频繁项集；（2）产生强关联规则.1.2.1 找出所有的频繁项集求出数据库中所有的频繁项集及相应的支持度计数.项的集合称为项集，满足最小支持度的项集为频繁项集，支持度计数是指项集出现的频率，而支持度是指项集出现的概率，即支持度=支持度计数/总的事务数.关联规则挖掘最有名的算法是Agrawal和Strikant提出的经典的Apriori算法[3].另一个重要的算法是Han提出的FP-growth算法[4].后面还有许多学者提出了不同的改进算法.Apriori算法的基本思想是通过多次扫描数据库来产生频繁项集.FP-growth算法通过扫描两次数据库建立一棵称为FP-tree的频繁模式树，通过对FP-tree的挖掘来获得频繁项集.Apriori算法需多次扫描数据库并产生大量的候选项集，而FP-growth算法只需扫描两次数据库，但是当事务数据库较大时，将整棵FP-tree放入内存比较困难.下面简要介绍一下Apriori算法的基本思想：（1）先寻找所有的频繁1-项集的集合L1（2）由频繁（k-1）-项集的集合L（k-1）生成候选k-项集的集合C（k）.它包括连接步和剪枝步.① 连接步：对于任意两个 L（k-1）的不同项集l1和l2，若满足条件（l1[1]=l2[1]）∩（l1[2]=l2[2]）∩…∩（l1[k-2]=l2[k-2]）∩（l1[k-1]<2[k-1]），则进行连接操作，c=l1[1]l1[2]…l1[k-2]l1[k-1]l2[k-1].（假定l1、l2中的项已按字典序排好，条件l1[k-1]<2[k-1]仅仅是为了保证不产生重复）② 剪枝步：随着k的增大由连接步产生的C（k）可能会越来越大，为了提高算法的效率，可以压缩C（k），即剪枝.具体来说，可以对连接步产生的c作一个判断：如果c的某一（k-1）-子项集不在L（k-1）中，则它不可能是频繁项，不必加入C（k）中，否则才将c加入C（k）中.这里的依据是Apriori性质：“频繁项集的所有非空子集必定是频繁的”.（3）扫描事务数据库，计算出C（k）中的每个候选项集c的支持度计数c.count. （4）频繁k-项集的集合L（k）={c|c.count/事务数≥minsupport，c∈C （k）}.//C（k）中支持度大于等于最小支持度minisupport的项集加入L（k）中. （5）返回第（2）步，直到L（k-1）为空.（6）L（K）（K=1，2，3，…）即为所求的频繁项集的集合.Apriori有许多改进算法，如使用散列技术压缩要考察的候选k-项集Ck（k>1）、事务压缩（压缩未来迭代扫描的事务数）、抽样（对给定数据的子集挖掘）、动态项集计数（在扫描的不同点添加候选项集）.1.2.2 产生强关联规则由频繁项集产生关联规则，这些关联规则必满足最小支持度，如果同时满足最小置信度，则为强关联规则，也就是所要挖掘的关联规则.该步骤比较简单，将一个频繁项集A划分成两个非空的子集B和A-B，所有满足最小置信度的B=>（A-B））即是所要生成的规则.算法如下：利用VisualC++开发工具编写一个简单的学生成绩关联规则分析系统，数据库采用ACESS.图1为该系统的数据流图，反映了该系统的功能及数据流向.以笔者所在中学高三理科学生今年省质检考试数据为样本作实验分析.该原始成绩见表1（共502条数据，这里只列出部分，为了保护隐私，将学号、姓名、班级等内容清除）.在做成绩关联规则分析前，要先进行一些必要的参数设置.本例中，设置参数如图2所示.1999年Pyle提出在数据挖掘过程中增加数据预处理过程，同时强调了数据预处理重要性：数据预处理占数据挖掘时间的60%.数据预处理包含了数据清理、数据集成、数据选择、数据变换等过程.（1）数据清理.主要是清除一些不用的信息，比如缺考的学生数据将影响数据挖掘结果的准确性，要将这些记录清理掉.（2）数据集成.主要是将不同的数据源组合在一起（本例较简单，只有一个数据源）.另外为了研究学生单科成绩对总分的贡献，必须加一列“总分”，并计算这一列的值.（3）数据选择.从数据库中提取与分析任务相关的数据.本例中与分析任务相关的数据为所有考生的所有课程成绩及总分成绩数据，而姓名、班级、学号、性别等字段信息与本次分析任务无关，无需选择.当然，如果你只想分析部分课程，就只要选择相应的课程就行了.（4）数据变换.数据变换的主要任务，是将数据规格化，转换为特定的格式，以便于算法的实现.本例中笔者将总分编号为0，语、数、英、理、化、生课程编号分别为1、2、3、4、5、6.还要将成绩离散化，按名次分为A、B、C三等（即好，中，差，因为每次考试难度不一样，各科的难度也不一样，各科的满分也不一样，如果用分数线划分等级则不太准确，所以可以按名次来划分等级），如1A表示语文成绩为A，1B表示数学成绩为B，0C表示总分为C.这样分析的项目将会有21个，即0A、0B、0C、1A、1B、1C、……、6A、6B、6C.预处理后的布尔型事务表如图3（只列出部分）：例如图中编号为2的学生总分成绩为A，语文成绩为A，数学成绩为A，英语成绩为B，物理成绩为A，化学成绩为A，生物成绩为A.对于本例而言，由于是按名次来划分等级，则任一个科目A、B、C各约1/3，所以本例中最大的支持度也不会超过33%，在设置最小支持度时不宜设置过大.关联规则挖掘包含找出频繁项集、产生关联规则两步，前面已简要介绍了关联规则挖掘相关算法与步骤，这里不再累述.在产生频繁项集时，本系统使用Apriori的一种改进算法，使用了散列技术来压缩要考察的候选项目集，从而提高了算法效率.本次试验最小支持度设为20%，最小置信度设为60%.程序运行结果如图4.最终产生了39条强关联规则.对产生的关联规则作分析，从而得出其中的一些规律.（1）5A=>0A，2A=>0A，4A=>0A，3A=>0A、6A=>0A这几条规则的置信度分别为 0.760、0.758、0.725、0.696、0.633，可见数、理、化三科成绩为 A的同学总分也为A的概率在70%以上，英语也在70%左右，生物63%，在60%最小置信度下语文没有形成强关联规则.可见数、理、化、英这四科对总分的贡献最大，其实从教学实践中也看到了，因为这几个科目拉分相对都比较大，特别是数、理、化三科，因而造成了它们对总分排名的影响很大.（2）0A=>5A、0A=>2A、0A=>4A、0A=>3A、0A=>6A 这几条规则的置信度分别为 0.778、0.731、0.725、0.701、0.659，可见总分成绩好的学生大部分是各科都非常好.（3）而2C=>0C、3C=>0C、4C=>0C、5C=>0C、6C=>0C这几条规则的置信度也都很高.这说明如果有某科目考得特别低（等级为C），则整体成绩为低（等级为C）的概率很高，所以教学中要特别注意学生的弱势科目，一旦学生有弱势科目，则在平常的学习过程中就必须多花时间弥补.另外（2C，4C）=>0C，（0C，2C）=>4C，（0C，4C）=>2C 的置信度分别为 0.910、0.828、0.783，可见数学、物理成绩低与总分低的关系是特别大的.这点与实际也是相符的，因为数学与物理相对较难，而且每道题的分值也比较大，如果学不好，就容易造成较低的分数，从而影响总分名次.所以如果数学、物理成绩较低的同学一定要特别注意弥补这两科的不足.（4）前面三点所列的规则中，语文科目（编号为1）并没有形成强关联规则，可见语文科目在本次考试中对总分的影响稍弱一些，这个也是与语文科目本身的特点有关.（5）2A=>5A、2A=>4A这两条规则的置信度也都在0.65左右，可见学好数学对物理、化学是很有帮助的.所以学校要特别重视数学课程的教学.（6）另外，在学生成绩关联规则分析系统中，置信度稍低的规则不一定完全没有用.在本例中，如果将置信度适当降低（比如降低到0.4），如果有发现类似（2A，4A）=>3C的情况，就能够说明偏科现象较严重，教学上在这方面就要引起注重. 另外，在实际应用中，可以将学生平时的表现行为等特征与成绩作关联分析，或者分析同一个科目各个模块的关联，从而产生更多有用的规则.当然，本例只是笔者所在学校其中一次考试的分析结果，也许某些规则不具有普遍意义，因此可以通过对多个学校的多次考试的分析来验证某些规则的正确性.本例是关联规则挖掘在基础教育中的应用.而关联规则在高校学生成绩分析中的应用价值也是非常大的，比如高校中同专业的不同课程往往有很大的相关性，那么通过分析关联规则，可以合理地安排这些课程的顺序，对学校制定教学计划提供依据.又如可以分析基础课与专业课之间的相关性，这样就能知道哪些基础课起的作用较大，因而在教学安排上应该对这些基础课程多安排学时.另外在分析时，要特别注意最小支持度与最小置信度的选择，以免产生无用的信息或错失有用的信息.【相关文献】[1]（加）韩家炜，堪博.数据挖掘：概念与技术 [M].范明，孟小峰，译.北京：机械工业出版社，2007.[2]R.Agrawal，T.Imielinski，A.N.Swami.Mining Association Rules between Sets of Items in Large Databases [J].In Proc.Of the ACM SIGMOD Intl.Conf.on Management of Data （SIGMOD'93），1993：207-216[3]R.Agrawal，R.Strikant.Fast Algorithms for Mining Association Rules[J].In Proc.Of the20th Intl.Conf.on Very Large Data Bases（VLDB'94），1994：487-499[4]J.Han，J.Pei，Y.Yin.Mining Frequent Patterns without Candidate Generation[J].InProc.of the ACM SIGMOD Int.Conf.on Management of Data（SIGMOD'00），2000：1-12. [5]文拯.关联规则算法的研究 [D].武汉：中南大学，2009.[6]Pyle D.Data Preparation for Data Mining[M].San Francisco，CA：Morgan Kaufmann Publishers Inc，1999:540.。

关联规则在高校成绩分析中的应用

９６
福
建电
脑
２１００年第６期
关联规则在高校成绩分析中的应用
罗浩．罗许练
（州学院，东】为了有效利用教务管理系统学生成绩数据库中的隐藏信息，分析公共必修课与专业必修课之间的关系．：本
文首先将学生成绩表通过数据清理、据集成和数据规约等手段转换成布尔型数据，着运用关联规则对数据进行分析。数接并通过一个实例说明其有效性。由于每名学生都有数十门公共必修课和专业必修课成绩．成绩是衡量学生是否掌握所学知识的主要标志．也是评估直接利用这些数据分析公共必修课对专业必修课的影响变得不教学质量的重要依据。有的高校教务管理系统中，般仅有成太现实。因此，文将必修课成绩分为以下六类：现一本绩的输入输出及简单的查询．很少涉及对成绩的分析．往是而往１数学类：等数学、形代数、率论与数理统计：）高线概海量成绩数据以多种形式存储于计算机上。结果．集在数据库收
２英语类：学英语１大学英语２大学英语３大学英语４）大、、、：中的成绩数据变成了” 据坟墓 ”一得再访问的数据档案教数一难３思政类：想道德与法律基础、国近现代史纲要、克１思中马学管理部门的决策常常不是基于这些成绩数据中所隐含的信思主义基本原理：息。是基于管理者的直觉。而４体育类：共体育１公共体育２公共体育３公共体育４１公、、、：随着数据挖掘技术的成熟及应用领域的不断扩展．不少高５计算机类：算机基础、ＢＡｃｓ：１计Ｖ、ｃｅｓ校研究人员已开始研究将数据挖掘技术应用于高校教学管理６专业类：专业的所有专业必修课）该中，将对提高教学管理水平起到了很好的促进作用。用数据这利在数据挖掘之前求得每名学生各类别的总分．使得需要进

关联规则挖掘在学生素质测评中的应用

前沿的研究方向之一，已引起了国际人工智能和数
据库等领域专家与学者的广泛关注。关联规则是当前数据挖掘研究的主要模式之一，侧重于确定数据中不同领域之间的联系，找出满足给定支持度和可信度阈值的多个域之间的依赖关系［１Ｊ。
程度。用户可以定义二个阈值，要求数据挖掘系统所生成的规则的支持度和可信度都不小于给定的
数据挖掘是指从大型数据库或数据仓库中提支持度Ｓ１０１０＝．．＝８／０００１８取隐含的、先前未知的、对决策者有潜在价值的知
从语义的角度来分析，规则的可信度表示这条
识和规则。数据挖掘是人工智能和数据库发展相结规则的正确程度；支持度表示用这条规则可以推出合的产物，目前国际上数据库和信息决策系统最百分之几的目，是标即这一规则对于整体数据的重要
Ｐ八Ｐ八… 八ｐｑ八ｑ＾… ＾ｑｌ２ｌ２
２数据库数据结构
某市开发的素质测评系统由六个数据库组成学生基本档案数据库，内含姓名、别、性出生年
月、民族、籍贯、政治面目、类别、本人简历、家庭住址、父母情况、毕业后去向等项目，此库在三年中基
运动与健康数据库，内含身高、体重、胸围、肺与健康成绩为Ｂ则规则学习能力成绩为好就有运活量、，视力、血色素、上臂围、营养状况等各项生理动与健康成绩为相对较差可信度Ｃ１０３００，指标以及体育课诸项达标测试成绩。＝８／＝．０６此库每学年更
阈值。
这样，我们就用蕴含式，支持度和可信度唯一标识了每一个挖掘出来的关联规则。例如，我们可以这样表示上面提到的例子：

关联规则在成绩分析中的应用

２２．关联规则挖掘的Ａｒｒ算法ｐｉｉｏ
关联规则的挖掘过程主要被分解为下面两
步：
层搜索的迭代算法，ｋ项集用于探索（＋）项一ｋ１一集。其基本思想是（骤）步：
首先，通过扫描数据集，产生一个大的候
选数据项集，并计算每个候选数据项发生的次
数，然后基于预先给定的最小支持度生成频繁卜项集的集合，该集合记作；
摘
要：文章简要介绍了数据挖掘技术的概念、挖掘过程及关联规则，并对在校大学生各科期末
成绩进行关联规则挖掘分析，找出它们之间的内在联系为教学管理和改革提供依据。关键字：数据挖掘；关联规则；成绩分析
随着计算机工具应用普及和网络技术的发
④ 数据挖掘（ａａＭｉｉｇ，它是知识挖掘Ｄｔｎｎ）
的一个基本步骤，其作用就是利用智能方法挖掘数据模式或规律知识； ⑤模式评估（ａｔｒｖｌａｉｎ，其作用ＰｔｅｎＥａｕｔ）ｏ就是根据一定评估标准（ｔｅｔｇＭｅｓｒｓＩｅｓｉａｕｅ）ｎｒｎ从
第２第２Ｏ卷期２１年７月００
临沧师范高等专科学校学报
Ｊｕｎｌｏｉｃｎａｈｒ＇ｌｇｏｒａｆＬｎａｇＴｅｃｅｓＣｏｌｅｅ
Ｖ０．２０１Ｎｏ．２
Ｊｌ２１ｕｙ．００
关联规则在成绩分析中的应用
李佐军（临沧师范高等专科学校信息科学与技术系，云南临沧６７０）７００

Apriori算法研究及其在学生成绩分析中的应用

２Ａｆｆ算法的描述、ｐｏｉｉ
一
。
该算法利用了一个层次顺序搜索的循环方法来完成频繁项与本校实际教学计划是一致的。同理我们还可以用这种关联分
集的挖掘工作。这一循环方法就是利用ｋ项集来产生ｒ＋１项析方法挖掘出更多科目问的联系．从而合理的安排学校教学计一ｋ１一
ｆ１算最大强项集Ｌ中的各个关联关系的置信度，取出７计提置信度大于最置信持度，兴趣度大于１的规则．即有效关联规
学得好的同学，机接口技术、片机也会取得好的成绩，就微单也是计算机组成与结构是其他两门课的前导课程。同样ＳＬ成绩ＱＲＡｒｗｌ在１９．ｇａａ等９４年提出了关联规则挖掘Ａｆｒ算法好的同学．据库系统概论、机接１术也能取得好成绩。即ｐｏｉｉ数微３技是发现事务数据库中频繁项集的最有影响的数据挖掘算法之计算机组成与结构、ＱＳＬ应该先于其他三门课学习。样的结论这
统成绩数据库中学生各门学科的考试成绩进行挖掘．就能从这４、果解释结些海量数据中挖掘出隐藏在数据背后的有用规则或关系．帮助学计划

Apriori算法在学生成绩分析中的应用

关联规则挖掘的步骤为：１）找出所有频繁项集；２）由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度。
ｓｔｕｄｅｎｔｓ．
Ｋｅｙｗｏｒｄｓ：Ａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓ；ＴｈｅＡｐｒｉｏｒｉａｌｇｏｒｉｔｈｍ；ｇｒａｄｅａｎａｌｙｓｉｓ
随着信息技术与计算机网络的迅速发展，网络考试系统逐渐取代了传统的考试模式，在考试系统中，存储了大量的学生成绩数据，如何有效利用这些宝贵数据，提取其中隐藏的有价值的信息对指导高校学生培养有着重要意义。该文使用关联规则的Ａｐｒｉ — ｏｒｉ算法对我校计算机专业考试成绩分析，挖掘出某些课程对其他课程的影响程度，找出知识之间的联系，指导学科教学计划与课
Ａｂｓｔｒａｃｔ：ＴｈｅＡｐｒｉｏｒｉａｌｇｏｒｉｔｈｍｏｆｔｈｅａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓａｒｅａｐｐｌｉｅｄｔｏｔｈｅｅｘａｍｉｎａｔｉｏｎｓｙｓｔｅｍ．Ｂｙａｎａｌｙｚｉｎｇｔｈｅｃａｎｄｉｄａｔｅｓｒｅ — ｓｕｈｓｏｆｅａｃｈｃｏｕｒｓｅ，ｔｈｅｐａｐｅｒｉｆｎｄｏｕｔｔｈｅｒｅｌａｔｉｏｎｂｅｔｗｅｅｎｔｈｅｃｏｕｒｓｅｓ，ａｎｄｐｒｏｖｉｄｅｄｇｕｉｄａｎｃｅａｎｄｓｕｇｇｅｓｔｉｏｎｓｆｏｒｔｅａｃｈｅｒｓａｎｄ

关联规则分析在学生成绩管理中的应用

子集支持度计数的递增顺序排列，这样即使１项一集很大的情况下，将只产生较少的候选２项集，也一
常购买的商品摆放在一起）。
关联规则问题可以分解为以下两个子问题：
２项集再产生更少的候选３项集等等，从而提高一一
摘要：介绍了数据挖掘中的关联规则分析的概念、点和常用算法，利用改进的Ａｆｆ算法对高职高专特并ｐｏｉｉ
院校信息技术公共课考试成绩进行了分析指导。
关键词：关联规则分析；数据挖掘；Ａｆｆ算法ｐｏｉｉ
用符号Ｆ表示第六章部分的分数，分段概括
为：（一０分）（于６）６ｌ，小分。根据上述方法对表１中的数据进行预处理后，果如表２所示。结
表２预处理后的成绩
它们连接，同时合并相同事务ＴＤ，成２项集的Ｉ生一
另一个指向后１项集的头结点。每个项结点＋一
ｈｍｏｅｅｎｄ也有两个指针，一个指向事务集的第一个事务，一个指向下一个项结点。务结点ＴＤ有一另事Ｉ个指针，它指向下一个事务结点，体如图１示。具所
２１年００
４月
宁波职业技术学院学报
ＪｕａｆＮｉｇｏＰｌｔｃｎｃｏｒｌｏｎｂｏｙｅｈｉｎ

关联规则挖掘在学生成绩分析中的应用

⑤ 规则ＭＮ在事务集Ｄ中的置信度（ｃｏｎｉｆｄｅｎｃｅ）是指同时包含Ｍ和Ｎ的交易数与包含Ｍ的交
易数之比，它是条件概率Ｐ（ＮＩＭ），记为ｃｏｎｉｆｄｅｎｃｅ（Ｍ＝＝＞Ｎ）．
⑥ 为了使挖掘出的关联规则更有意义，需要设定两个阈值：最小支持度和最小置信度．最小支持度表
学校每学期都要对学生的学习情况进行考核，考核的试卷成绩积累了大量数据，但对这些数据的处理
往往只是保留存档或进行简单的统计运算．而这些数据背后隐含的信息恰恰正是教学管理所不可或缺的．
２关联规则的基本概念
２．１基本概念
④ 关联规则是形如Ｍ＝＝＞Ｎ的蕴涵式，其中ＭＩ，ＮＩ，并且ＭＡＮ＝．规则Ｍ＝＝＞Ｎ在Ｄ中的支
持度（ｓｕｐｐｏｒｔ）是指同时包含Ｍ和Ｎ的事务数与所有事务数之比，它是概率Ｐ（ＭＵＮ），记作ｓｕｐｐｏｒｔ（Ｍ＝＝＞Ｎ）．
①设Ｉ＝｛ｉｉ，ｉ２，…，ｉ｝是项的集合．Ｄ是数据库事务Ｔ的集合，Ｔ是项的集合，并且ＴＩ．每个事务
都有唯一的标识，记作ＴＩＤ．设Ｍ是Ｉ中一个项集，如果ＭＴ，那么称事务Ｔ包含Ｍ．
②项的集合称为项集．包含ｋ个项的项集称为ｋ．项集．如ｆ英语，高数）为２一项集． ⑨ 项集出现的频率是指包含该项集的事务数，简称为项集的频率或支持计数．

关联规则算法思政案例

关联规则算法思政案例关联规则算法是一种常用的数据挖掘方法，它用于发现数据集中项与项之间的相关关系。

在思政教育案例中，我们可以利用关联规则算法来分析学生的学习行为、思想倾向等方面的关系，从而提供科学的教育指导和决策支持。

下面是一些关联规则算法在思政案例中的应用示例：1. 学习成绩与课外活动参与度的关系：通过分析学生的学习成绩与其参与课外活动的关系，可以发现是否存在学生在参与课外活动过多或过少时学习成绩下降的趋势，进而为学校和家长提供指导。

2. 思想倾向与社交媒体使用的关系：通过分析学生的思想倾向与其在社交媒体上的言论和行为的关系，可以发现是否存在思想倾向与社交媒体使用之间的相关性，进而为学校和教师提供针对性的思想教育和引导。

3. 思政教育课程内容与学生兴趣的关系：通过分析学生对思政教育课程内容的兴趣与其学习成绩的关系，可以发现是否存在学生对某些思政教育课程内容的偏好，进而为学校和教师提供优化课程设置的建议。

4. 思政教育活动参与度与团队合作能力的关系：通过分析学生在思政教育活动中的参与度与其在团队合作中的表现的关系，可以发现是否存在活动参与度与团队合作能力之间的关联，进而为学校和教师提供加强团队合作培养的方法和策略。

5. 思政教育培训与学生综合素质的关系：通过分析学生参加思政教育培训的情况与其综合素质的提升情况的关系，可以发现是否存在参加思政教育培训对学生综合素质提升的影响，进而为学校和教师提供培训内容和方式的优化建议。

6. 思政教育资源利用与学生学习动力的关系：通过分析学生对思政教育资源的利用程度与其学习动力的关系，可以发现是否存在资源利用与学习动力之间的相关性，进而为学校和教师提供合理配置资源的建议。

7. 思政教育中的道德修养与学生品德形成的关系：通过分析学生在思政教育中的道德修养与其品德形成的关系，可以发现是否存在道德修养与品德形成之间的关联，进而为学校和教师提供更好的思政教育方法和策略。

8. 思政教育对学生创新能力的影响：通过分析学生接受思政教育后的创新能力的提升情况，可以发现是否存在思政教育对学生创新能力的积极影响，进而为学校和教师提供创新教育的指导和支持。

关联规则在毕业设计成绩分析中的应用

现在很多学校都在使用各种信息管理软件管理学校事务及学生信息，但如果只把数据存人到系统中，行简单的查询、进统计工作，不是对其有效的利用，这些数据就成为一个待开发的“ 宝藏 ” 我们要对学生数。据库中的大量数据进行抽取、换、转分析和其它模型化处理，中提取从出辅助教育决策的关键性数据，利用这些数据理性地分析学校各方面工作成效以及学生培养过程中的得失，获得有利于学生管理的决策和促进管理发展的有价值的信息，是现阶段学校信息管理中十分重要的工作。１关联规则的概述．１１关联规则的定义．关联规则是指从信息数据库中找出项目集和对象集的频繁模式，得出项目集中项目的相关性。描述相关性的关联规则可以反映数据项之间的密切程度或关系。设Ｉ｛，，ｍ｝＝ｉｉ …ｉ是数据项集合（ｌ２项集）其中的元素称为项（ｔｍ），ｉ，ｅ任务相关数据Ｄ是数据库事务Ｔｒｓｃｏ）（ａａｔｎｔｎｉ的集合，每个事务Ｔ则是项的集合，并且Ｔ∈Ｉ。每个事务由事务符ＴＤ标识。ＡＩ，Ｂ为两个项集，事务Ｔ包含Ａ当且仅当ＡＴ；其关联规则的蕴含式如下：Ａ￣Ｂｓｃ其中［１，ＡＣＩＢ３＝，则ＡＢ在事务集Ｄ中成立，且具有支持度ｓ，ｃＩＡｆＢｌ规并和置信度ｃ。支持度ｓ表示事务在规则中出现的频率。
Ａ１ＤｌＡ２Ｄ２ｊＡ３Ｄ３
支持度
０３－３Ｏ２．２【２）Ｏ６．７
利用关联数据挖掘算法处理数据得出教师学历与学生毕业设计成绩优秀率的支持度及置信度，满足最小支持度和最小置信度要求的关

关联规则在学生成绩分析中的应用

、
关联规则的概念
若两个或多个变量取值之间存在某种规律性，就称为关联［。最常见的关联规则是应用在超市购１］
持度阈值和最小置信度阈值，只有支持度和置信度都分别大于最小支持度阂值和最小置信度阂值的
Ｖｏ．。．１９Ｎｏ１
Ｍａ．２０８ｒ０
２００８年３月
关联规则在学生成绩分析中的应用
严华陈文菁，
（．１福建医科大学数理计算机教学部，福建福州３００￣．５１８２福建医科大学教务处，福建福州３００）５１８
还没有一种量化的分析。此外，学期安排课程的每
多少，也会影响学生的学习效果。本文使用关联规
则算法，医科大学临床本科的学生成绩进行分对
件概率ＰＢｉ（Ａ）
ｓｐｏｔＡ＝Ｂ一ＰＡＵＢｕｐｒ（＞）（）ｃｎｉｅｃ（＝Ｂ＝ＰＢｌｏｆｎｅＡ＞）（ｄＡ）
事务包含ＡＵＢ的百分比，是概率ＰＡＵＢ。它（）规则ＡＢ在事务集中具有置信度Ｃ，如果Ｄ中包
含Ａ的事务同时也包含Ｂ的百分比是Ｃ。这是条
学好，肯定会影响到后续专业课程的学习。但哪些课程会影响到后续课程，以及哪些课程联系密切，
一

关联规则在学生成绩分析处理中的应用

（中学院计算机科学与技术学院，晋山西晋中０００）３６０
摘
要：生成绩对学生评价非常重要，找出影响学生成绩的一些因素间的关联关系，学为
依据数据挖掘关联规则中的Ｆ－ｇｏｈ算法，运用ｓｅｖｒ２０ＰｒｗｔＱＬＳｒｅ０５中Ａｎｌｓｅｖｃｓ工具ａｉＳｒｉｅｙｓ对收集到的学生成绩数据集进行挖掘分析，望发现影响学生成绩的因素间的联系，其进期将
行改善并应用于教学实践中，利于提升教学质量，高学生成绩．有提关键词：联规则；据导入；Ｐｒｗｔ关数Ｆ —ｇｏｈ算法；ａｓｅｖｃ￣目ＡｎｌｉＳｒｉｅ项ｙｓ
中图分类号：３１ＴＰ１文献标志码：Ａ文章编号：６３８８２１）３０６３１７－１ｏ（０１０一Ｏ７ —０
吴
・
华（９８）女，１８一，山西临汾人，中学院计算机科学与技术学院．晋
７・６
武丽芬
吴
华
关联规则在学生成绩分析处理中的应用
输入：Ｐｔｅ输出：Ｆ —ｒ．ｅ所有频繁集．
Ｆ－ｒｗｈｔｅａＰｇｏｔ（ｅ，）ｒ
ｒｗｈ算法描述如下：ｇｏｔ
（）一根据输入交易记录集建立Ｆ — ｅ，Ｐｔｅ步骤为：ｒ输入：易记录集Ｄ，交最小支持度ｓｐｕ输出：ＰｔｅＦ —ｒ．ｅ ① 将数据库Ｄ扫描一遍，得到频繁项的集合Ｆ和每个频繁项的支持度，再将Ｆ按支持度递降排序记为

关联规则在学生成绩分析中的应用

２１数据准备．
以我校某班学生６期所有课程的成绩为数据对象。为方便挖掘，只考虑软件课程的成绩，其余的学
属性都清理掉，这样可减少数据处理的数量，从而提高工作效率。处理之后的软件课程成绩数据集中数据的属性主要有Ｃ语言、计算机基础、Ｃ＋＋、离散数学、数据结构、操作系统、数据库原理、软件工
・３７・５
关联规则在学生成绩分析中的应用
刘红梅（江大学长计算机科学学院，湖北荆州４０３３２４）
［摘要］对学生成绩数据库进行综合整理，应用动态划分的数据离散化方法，生成了高质量的数据集。采
用关联规则对学生成绩进行挖掘，获取了有实际参考价值的规则集合，得到了对教学工作有指导意义的
长江大学学报（自然科学版）２０年１月第５第４：理工０８２卷期Ｊｕｎｌｆａｇｚｎｖｒｉ（ａｃＥｉｏｒａｏｎｔＵｉｓｙＮｔｉｄｔＹｅｅｔＳ）Ｄｃ２０。Ｖ１５Ｎ．：ＳｉＥｇｅ．０８ｏ．ｏ４ｃ＆ｎ
・
３８・５
长江大学学报（然科学版）自
２集和关联规则．
当支持度设置为不同的大小，产生的频繁项的数目也不同。因此，如何设定支持度，必须慎重考虑。在确定了频繁项集挖掘算法和支持度之后，就可以对已经离散化处理后的数据集进行挖掘了。３采用动态划分方法离散化后的数据，用Ａｐｒｒ法进行挖掘。当最小支持度域值设置为０１］ｏｉ算ｏ．时，最小置信度域值设置为０９．，挖掘的ｌ集为３一项Ｏ个，２项集１４个，３项集６一９一Ｏ个，４项集２个，产一生６７条关联规则［如图２所示。３

数据挖掘技术在成绩分析中的应用

消费电子
计算机科学ＣｏｎｓｕｍｅｒＥｌｅｃｔｒｏｎｉｃｓＭａｇａｚｉｎｅ２０１３年１Ｏ月下
数据挖掘技术在成绩分析中的应用
吴梨梨
（福州英华职业学院计算机系，福州３５００１８）摘要：在学生成绩管理系统中，学生成绩是一个重要的组成部分，体现了教师的教学水平以及学生的学习情况。如何合理利用这些成绩数据，从中找出能够影响成绩高低的因素，对提高教学质量有着非常重要的作用。利用数据挖掘的关联规则算法可以科学的分析出影响成绩变化的主要因素。关键词：成绩分析；数据挖掘；关联规则中图分类号：ＴＰ３１１．１３文献标识码：Ａ文章编号：１６７４ — ７７１２（２０１３）２０ — ０１１２ — ０１随着高职院校的不断扩招，生源质量在下降，生源的数量也在逐步出现萎缩。在这种情况下，如何有效的利用现有的教学资源，改善教学质量，使人才的培养质量得到进一步的提高，在逆境中成长，是每一所高职院校面临的重大挑战。目前各个高职院校的教务管理基本上都是采用基于数据库的教务管理系统软件。教务软件在这么多年的应用中积累了大量的数据，学生的成绩信息在教务软件的数据库中就大量的存在。般情况下，成绩数据仅仅只是作为一种备份数据存放于数据库中，大部分只是进行简单的查询修改操作等，对于数据之间潜在的联系，影响成绩的因素等这些信息，我们却无从得知，并没有做到充分的利用这些数据。利用数据挖掘技术，我们可以从这些成绩数据中挖掘出可以指导我们教学的、有意义的信息，主要表现在：（１）可以全面地认识学生的学习状况。对学生学习成绩的全面分析，不仅能够获得学生学习的整体情况，还可以了解学生对具体课程内容的掌握情况。（２）可以分析课程之间的相关性。分析各个专业的核心课程，可以了解学生对这些课程的理解情况，以及学生在这些课程中的得分情况，找出课程之间的联系，还可以对排课情况进行指导。（３）可以分析入学成绩对在校学习情况的影响。跟踪学生在本专业的学习情况，结合入学的成绩，找出入学成绩对专业相关课程的影口Ｉ句Ｊ隋况，从而指导学生的专业学习。数据挖掘的概念与技术（一）什么是数据挖掘。数据挖掘是一门涉及面很广的交叉学科，受到了各种不同领域的专家学者的关注，关于数据挖掘的定义也有非常多种，但归纳起来数据挖掘主要就是从大量的没有经过处理的数据中发现未知的有价值的规律的过程。（二）数据挖掘的过程。数据挖掘的过程一般由五个阶段组成：（１）定义问题，明确数据挖掘的目的是什么。（２）数据准备，包括要选择什么样的数据以及对选择到的数据如何进行预处理等。（３）数据挖掘，根据数据的特点，选择合适的数据挖掘算法，在已经处理过的数据上进行数据挖掘。（４）结果分析，对数据挖掘的结果进行合理的解释，给出能够被用户所接受的知识。（５）知识运用，将数据挖掘出来的结果应用到相应的领域中。数据挖掘的过程并不是一个简单的按流程完成任务的过程，在数据挖掘的过程中往往会出现循环往复，精益求精的过程。例如，在任务过程中发现之前选择的数据不是很好或者对数据的预处理没有达到我们的效果，那么这个时候我们就需要重新对数据进行选择或者重新对数据进行处理直到达到我们的效果。（三）常用的数据挖掘方法。数据挖掘技术是一门交叉学科，充分结合了人工智能与机器学习的特点，因此如聚类分析，决策树，统计分析等在机器学习，模式识别，人工智能等这些领域中的一些常规技术经过改进，大部分都可以作为数据挖掘的方法进行使用。模糊集方法，关联规则方法，遗传算法，神经网络方法，覆盖正例排斥反例方法，决策树方法，统计分析方法和粗集理论方法等都是数据挖掘技术中常用的方法。二、成绩分析中的数据挖掘方法成绩分析中主要是采用关联规则算法作为数据挖掘的方法。关联是指两个或两个以上的事务间存在着某种的规律性，数据关联是数据库中普遍存在的可被发现且重要的知识。关

关联规则在学生成绩管理系统中的应用

关联规则在学生成绩管理系统中的应用作者：王利军,胡敏来源：《电脑知识与技术》2011年第04期摘要：关联规则是数据挖掘的重要的组成部分之一。

利用关联规则的Apriori算法，以学生成绩数据库为研究对象，挖掘课程之间的良好关系，为教学管理部门设置安排课程提供理论指导。

关键词：数据挖掘；关联规则；Apriori算法中图分类号：TP311文献标识码：A文章编号：1009-3044(2011)04-0730-02Application of Association Rules in Student Achievement Management SystemWANG Li-jun, HU Min(Computer and Information School, Hefei University of Technology, Hefei 230009, China)Abstract: Association rules is an important area of data mining.Adopts Apriori algorithm of association rules and makes use of the database of students' achievement as research object,to mine the correlationship of courses,it gives teaching administration department a theoretical advise to arrange course.Key words: data mining; association rules; Apriori algorithm高校学生成绩管理系统中存储了大量的学生成绩信息，但目前对学生成绩的处理仅停留在的数据保存、查询及简单的统计阶段，并没有对成绩数据进行深入地挖掘分析，发挥其应有的作用。

关联规则算法在学生成绩分析中的应用

Ｂａｅ，９４４７９．ｓｓ１９：８ —４９
【］ｉｉｎＭｉｅｉｅａｅ数据挖掘概念与技术【．明，３ＪａＨａ，ｃｌＫｍｂｒｗｅｈｎＭ】范
孟小峰，．机械工业出版社，０．等译北京：２７０
信息系统工程Ｉ２１０００５２
集Ｌ
１引言
随着计算机技术和Ｉｔｒｅ技术的迅速发展，数据资源日益ｎｅｎｔ丰富。在学校的教学成绩管理系统中，己经积累了大量的学生成绩数据。这些数据只是堆积在系统中，没有得到有效利用，教师和学生都只能通过简单的统计或排序等方法获得数据表面的信息。
＝
关联规则挖掘时研究 “ 么与什么相伴 ” ，这些方法又称什为购物篮分析。设Ｉ为一个由ｍ个项目组成的集合Ｉ，ｉ，ｉ）＿， … ，称Ｉ为项
目集（ｅｅ）ｉｍｓｔ，则交易Ｔｔ为由Ｉ的项组成的Ｉ集，即ＴＩ中的子Ｃ。与＿集合的定义一样，交易中同样不存在重复的元素。记Ｄ为交易（ａｓｃｉｎ的集合，其中每个交易以一个交易ｔｎａｔ）ｒｏＴ标识号表示在其数据库中的唯一性，记为ＴＤ。设× Ｉ是一个Ｉ中项的集合，如果× ，那么称交易Ｔ含Ｘｇ包。
所有非空子集均是频繁的。 ② 一个非频繁项集的任～超集必定是非频繁项集。２．３关联规则算法在学生成绩分析中的应用（第一次迭代，求１项集，每项都是候选１项集＃Ｃ１）一一９的成员。算法比较简单，只要对每项出现的次数进行计数即可。（设最小支持数为２ｍｉｓｐ２９２）．ｎｕ＝／，可以确定频繁１项 — 一

关联规则在高校学生成绩分析中的应用

ｒｅｌａｔｉｏｎｓｂｅｔｗｅｅｎｔｈｅｃｏｕｒｓｅｓｗｉｌｌｂｅｆｏｕｎｄｏｕｔ，ｗｈｉｃｈｃａｎｂｅｕｓｅｄｔｏｇｕｉｄｅｔｈｅｔｅａｃｈｉｎｇｐｌａｎｎｉｎｇａｎｄ
计算机专业的考试成绩进行分析，挖掘出某些课程对其他课程的影响程度，找出课程之间的联系，指导学科教学计划与课时安排，促进教学质量的提高。关键词：关联规则；Ａｐｒｉｏｒｉ算法；成绩分析
中图分类号：ＴＰ３０１．６文献标志码：Ａ文章编号：１６７１ — ４６７９（２０１３）０３ — ００６７ — ０４
ａｌｇｏｒｉｔｈｍｔｏｔｈｅｅｘａｍｉｎａｔｉｏｎｓｙｓｔｅｍ．Ｔｈｒｏｕｇｈａｎａｌｙｓｉｓｏｎｔｈｅｅｘａｍｉｎａｔｉｏｎｒｅｓｕｌｔｓｏｆｃｏｍｐｕｔｅｒｍａｊｏｒｉｎ
学习是一个循序渐进的过程，前一阶段知识的
积累会对后一阶段的学习效果产生一定影响，比如
“ 数据丰富，信息匮乏” 的局面，人们对从这些数据
中挖掘相应的关联知识越来越感兴趣，数据挖掘技
Ａｐｐｌｉｃａｔｉｏｎｏｆａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓｔｏｔｈｅｃｏｌｌｅｇｅ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

度阈值[3 ] 。
二、关联规则算法
Ap riori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法 ,算法使用频繁项集性质的先验知识 :即频繁项集的所有非空子集都必须也是频繁的 ,算法由两个步骤组成 :频繁 K 项集记做 L K 。 (一) 连接步为找 L K ,通过 L K- 1 与自己连接产生候选 K 项集的集合 ,该候选项集的集合记作 CK 。设 l 1 和 l2 是 l K- 1 中的项集。记号 li [ j ]表示 li 的第 j 项。执行连接 l K- 1 l K- 1 ,其中 l K- 1 的元素是可连接的 ,如果它们前 ( k - 2) 个项相同。连接 l1 和 l2 产生的结果项集是 l1 [ 1 ]l1 [ 2 ] …l1 [ k - 1 ]l2 [ k - 1 ] 。 (二) 剪枝步 CK 是 L K 的超集 : 它的成员可以是也可以不是频繁的 ,但所有的频繁 K 项集都包含在 CK 中。扫描数据库 , 确定 CK 中每个候选的计数 , 从而确定
计算 :
co nfidence ( A ] B ) = P ( A | B )
=
s
u
p sLeabharlann port_count ( A u pport_count
(
∪
A)
B)
其中 ,support_co unt (A ∪B) 是包含项集 A ∪
B 的事务数 ,suppo rt_co unt ( A) 是包含项集 A 的事
— 47 —
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
第 9 卷第 1 期
福建医科大学学报 (社会科学版)
2007 年 3 月
分以上记为 1 ;80～90 分记为 2 ;80 分以下记为 3 。将每门课程编号 :如 :细胞生物学记为 A ;有机化学记为 B ;医用物理学记为 C ……。则 A1 表示 : 细胞生物学在 90 分以上 ;B2 表示 :有机化学在 80 ～90 分 ; C3 表示 : 医用物理学在 80 分以下 ……。这样 ,学生成绩库被转换成包含多个项的表。由于姓名和学分与分析目标无关 ,也予以剔除。使用一个转换程序 ,将原始表转换成如下形式 (表 2) :
严华等 :关联规则在学生成绩分析中的应用
关联规则才是有实际意义的。关联规则挖掘即是
在已知数据库 D 中产生支持度与置信度分别大于给定的阈值的所有关联规则。
(二) 关联规则的挖掘步骤
关联规则的挖掘是一个两步的过程[2] : (1) 找出所有频繁项集。项的集合称为项集 ,包含 K 个项的项集称为 K 项集。项集的出现频率是包含项集的事务数 ,又称为支持度计数。满足最小支持计数的项集称为频繁项集 ; (2) 由频繁项集产生强关联规则 ,这些规则必须满足最小支持度和最小置信度。一旦由数据库 D 中的事务找出频繁项集 ,由它们产生强关联规则是很容易的。置信度用下式
务数。根据该式 ,关联规则可以产生 : (1) 对于每个
频繁项集 l ,产生 l 的所有非空子集 ; (2) 对于 l 的每
个非空子集
s
,如果
s u p port_count ( l) s u pport_count ( s)
≥min _ co nf ,
则输出规则 s ] (l - s) 。其中 min_co nf 是最小置信
随着计算机存储技术的飞速发展 ,各行各业都收集了大量的数据。但如果缺乏有效的分析工具 , 这些数据往往难得再被人们访问和利用。如何从这些数据中发现潜在的知识 ,日渐成为人们感兴趣的话题。数据挖掘是指从大量的数据中提取有用的知识 ,在许多应用领域显示出巨大的潜力。目前常用的数据挖掘方法有 : 关联规则分析、序列模式分析、分类分析、聚类等。学习是一个循序渐进的过程 ,其与课程之间有一定的关联和前后顺序关系。如果基础课程没有学好 ,肯定会影响到后续专业课程的学习。但哪些课程会影响到后续课程 ,以及哪些课程联系密切 , 还没有一种量化的分析。此外 ,每学期安排课程的多少 ,也会影响学生的学习效果。本文使用关联规则算法 ,对医科大学临床本科的学生成绩进行分析。通过对考试成绩进行挖掘分析 ,发现有几门课程与将来专业课的成绩密切相关 ,教师可以应用这些知识指导学生 ,如重要的基础课应安排较多的时间 ,从而为将来专业课的学习打好基础 ; 针对关联度较小的课程安排适当的时间 ,以便学生有效地安排好自己的大学生活。
(1. 福建医科大学数理计算机教学部 ,福建福州 350108 ;2. 福建医科大学教务处 ,福建福州 350108)
摘要 :采用关联规则的 ap riori 算法 ,对医科大学学生四年中各门课程的成绩进行分析 ,从而发现课程之间的联系和基础课程对专业课程的影响 ,为教务部门安排课程提供参考。关键词 :数据挖掘 ;关联规则 ;成绩分析中图分类号 :O29 文献标识码 :A 文章编号 :100924784 (2008) 0120046204
support (A ] B) = P (A ∪B) co nfidence (A ] B) = P (B| A) 支持度是对关联规则重要性的描述 ,而置信度是对关联规则准确性的描述。支持度高说明该关联规则在所有事务中的代表性高 , 置信度高说明该关联规则的可信度高。有些关联规则置信度虽然高 ,但是支持度低 ,说明该关联规则不具有代表性。为了挖掘出具有代表性的关联规则 , 规定了最小支持度阈值和最小置信度阈值 , 只有支持度和置信度都分别大于最小支持度阈值和最小置信度阈值的
第 9 卷第 1 期 2008 年 3 月
福建医科大学学报 (社会科学版) Journal of Fujian Medical university (Social Science Editio n)
Vol. 9 ,No . 1 Mar. 2008
关联规则在学生成绩分析中的应用
严华1 ,陈文菁2
表 1 学生成绩表
姓名
学号
陈路 1100302001
王小玲 1100302002
…
…
细胞生物学
80 75 …
有机化学
85 70 …
医用 …
物理学
73
…
78 …
(一) 数据的整理 Ap rio ri 算法只能处理布尔变量 ,因此在应用算法挖掘关联规则之前 , 需要先对原始数据进行处理 ,把数值型数据转换为由项集组成的事务数据库。首先需要把关系数据库中的数值属性离散化 , 以便能应用到算法中。离散的过程如下 :成绩在 90
收稿日期 :2008202228 作者简介 :严华 (1967 - ) ,女 ,讲师。
— 46 —
© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved.
三、利用关联规则算法分析成绩表
本文采用福建医科大学 2002 级临床本科学生的成绩库 ,共 408 条数据。原始表中包含了 4 年中所有基础课和专业课 ,以及实习的成绩。我们的目的是要找出哪些基础课与专业课的成绩之间存在较强的关联 ,有些无关的项可能会影响挖掘结果。因此 ,除去凭常识已知的与专业课程关联度不大的课程 ,如政治经济学、毛泽东思想等。实习分用一个总平均分表示。经过筛选后 ,共选择 28 个课程作为分析字段 ,部分数据显示如下 (表 1) 。
L K 。然而 CK可能很大 ,这样所涉及的计算量就很大。为了压缩 CK ,可以用散列技术。 Ap rio ri 算法描述如下 : 输入 :交易数据库 D ,最小支持阈值 min_sup 输出 :D 中的频繁项集 L L1 = find_f requent_12itemset s (D) ; fo r ( k = 2 ; L K- 1 ≠ ; k + + ) { Ck = ap rio ri _ gen ( L K- 1 , min _ sup ) ;/ / 新的候选集 for each t ransactio ns t ∈D {/ / 扫描 D 计数 Ct = subset (Ck ,t) ;/ / 事务 t 中包含的候选集 fo r each candidates c ∈Ct c. co unt + + ; } L k = {c ∈Ck | c. co unt Ε min_sup} } ret ur n L = ∪kL k
一、关联规则的概念
若两个或多个变量取值之间存在某种规律性 , 就称为关联[1] 。最常见的关联规则是应用在超市购
物篮的分析。通过数据分析可以了解顾客的购买习惯 ,了解哪些商品频繁地被顾客同时购买 ,从而帮助零售商有选择地安排货物 , 制定合理的销售策略。 (一) 基本概念设 I = {i1 ,i2 , …im }是项的集合 ,设任务相关的数据 D 是数据库事务的集合 ,其中每个事务 T 是项的集合 ,使 T Α I。设 A 是一个项集 ,事务 T 包含 A 当且仅当 A Α T 。关联规则是形如 A ] B 的蕴涵式 ,其中 A < I ,B < I ,并且 A ⌒B = 。规则 A ] B 在事务集 D 中成立 ,具有支持度 S ,其中 S 是 D 中事务包含 A ∪B 的百分比 ,它是概率 P ( A ∪B) 。规则 A ] B 在事务集中具有置信度 C ,如果 D 中包含 A 的事务同时也包含 B 的百分比是 C。这是条件概率 P (B| A)
表 2 离散化的数据
编号细胞生物学有机化学医用物理学 …

关联规则在学生成绩分析中的应用

合集下载

关联规则挖掘在学生成绩分析中的应用研究

关联规则在高校成绩分析中的应用

关联规则挖掘在学生素质测评中的应用

关联规则在成绩分析中的应用

Apriori算法研究及其在学生成绩分析中的应用

Apriori算法在学生成绩分析中的应用

关联规则分析在学生成绩管理中的应用

关联规则挖掘在学生成绩分析中的应用

关联规则算法思政案例

关联规则在毕业设计成绩分析中的应用

关联规则在学生成绩分析中的应用

关联规则在学生成绩分析处理中的应用

关联规则在学生成绩分析中的应用

数据挖掘技术在成绩分析中的应用

关联规则在学生成绩管理系统中的应用

关联规则算法在学生成绩分析中的应用

关联规则在高校学生成绩分析中的应用

文档推荐

最新文档