基于k—means聚类算法的试卷成绩分析研究

格式：doc
大小：34.00 KB
文档页数：8

下载文档原格式

基于K- means聚类算法成绩分析的应用探究

计算机科学科技创新导报 Science and Technology Innovation Herald90在现代信息化被广泛应用的时代，在我们日常教学中，面对错综复杂的学生成绩信息和各种各样的学习方法和学习方式，针对学生不及格的课程成绩信息群体，我们传统的数据分析有一定的局限性，通常还是停留在简单的统计、查询和汇总等层面，往往对这些数据背后的深一层原因无所了解，而聚类分析通过数据挖掘技术对这个数据群体进行处理，通过聚类、划分、分群，将有助于学校从堆积如山的数据中，发掘有利于教学的具有针对性的信息。

利用聚类分析方法能从数据中找出相关的特征或模式，可以帮助学校针对不学生的学习状况，制定针对性的教学策略，对学生信息聚类和分组可以帮助改善学生学习成绩，并且可以根据此数据信息预测将来的成绩趋势，辅助学校进行教学管理。

1 聚类分析数据挖掘的方法中聚类是对记录分组，把相似的记录放在一个类别里。

聚类和分类的区别是聚类不依赖于预先定义好的类，不需要训练集。

聚类分析中，首先需要确定基本聚类分析原则，在各聚集内部数据对象间之间，追求的是相似度最大化。

而在各聚集对象之间，追求的是相似度最小化。

在进行聚类分析时，聚类分析所获得的组可视为同类别的归属，也可视为该类归属的数据对象集合。

聚类分析已经在模式识别图像处理、市场分析和数据分析等领域得到了广泛应用。

2 K-means聚类算法学生成绩挖掘分析主要目标是针对学生成绩数据进行聚类分析，挖掘出数据隐含的不同学生群体信息。

而K-m e a n s 聚类算法是数据挖掘基于划分最经典的聚类方法，也是易于实现的算法。

主要思想是首先初始化K个聚类簇中心，使用一定的准则将所有样本点分到不同的K个簇中；接着计算现有的K个簇的质心，确定新的簇心。

一直循环迭代，直到簇心的移动距离小于某个给定的阈值。

如果初始簇心选择不好时，K—m e a n s 的结果会很差，所以一般是多DOI：10.16660/ k i.1674-098X.2016.03.090基于K-means聚类算法成绩分析的应用探究张贵元（东莞理工学校广东东莞 523000）摘要：数据挖掘是在海量的数据中寻找模式或规则的过程。

基于k-means聚类算法的研究

第２卷１
第７期
计算机技Biblioteka 术与发展Ｃ０ＭＰＥＲＥＣＨＮＯＬＵＴＴＯＧＹＡＮＤＤＥＶＥＬＯＰＭＥＮ１ ’
Ｖ０．１Ｎｏ７１２．
２１年７月０１
Ｊｌ２１ｕｙ０１
基于ｋｍｅｎ — ａｓ聚类算法的研究
黄韬，刘胜辉，艳娜谭
ＨＵＡＮＧｏ，ＵｈｎＴａＬＩＳｅｇ－ｈｉＴＡＮｎ－ｎｕ，Ｙａａ
（ｃ．ｆｏｕｃ．ｎｅｈ－ｒｉＵｉ．ｆＳｉａｄＴｃ．Ｈｂｎ１０８。ｈｎ）Ｓｈｏｍｐ￣ｒｉａｄＴｃ．Ｈａｎｎｖｏｃ．ｅｈ，ａｉ５００ＣｉａＣＳｂｎｒ
（尔滨理工大学计算机科学与技术学院，哈黑龙江哈尔滨１０８）５００
摘要：析研究聚类分析方法，多种聚类分析算法进行分析比较，分对讨论各自的优点和不足，同时针对原ｋｍａｓ法－ｅｎ算
的聚类结果受随机选取初始聚类中心的影响较大的缺点，出一种改进算法。通过将对数据集的多次采样，提选取最终较
中图分类号：Ｐ０．Ｔ３１６文献标识码：Ａ文章编号：７ —２Ｘ（０１０ — ０４０１３６９２１）７０５ — ４６
Ｒｅｅｒｈｏｕｔｒｎｇｒｔｍｓｄｏ－ａｓｓａｃｆＣｌｓｅｉｇＡｌｏｉｈＢａｅｎＫｍｅｎ
ＡｂｔａｔＡｎｌｚｎｅｅｒｈｔｅｍｅｏｆｃｕｔｒａａｙｉ－ａｙｅａｄｃｍｐｒｎｉｄｆａｇｒｔｍｓｏｌｓｅｎｙｉ。ｉｕｓｓｒｃ：ａｙｅａｄｒｓａｃｈｔｄｏｌｓｅｌｓｓａｌｚｎｏａｅｍａｙｋｎｓｏｏｉｈｎｎｌｈｆｃｕｔｒａａｓｓｄｓｓｌｃｍｅｒｒｓｅｔｅｓｅｇｓａｄｗｅｋｅｓｓＡｔｔｅｓｍｅｔｉｅｐｃｖｔｎｔｎａｎｓ．ａｉｉｒｈｅｈｍｅ。ｃｏｄｎｏｔｅｗｅｋｎｓｓｏｅｃｕｔｒｒｓｌｆｏｇｎａｃｒｉｇｔａｅｓｆｔｌｓｅｅｕｔｏｒｉａｋ－ｍｅｓａｇ－ｈｅｈｉｌｎａｌｏｒｈａｉｉｎｉｃｔｉｆｕｎｅｂｌｃｉｇｔｅｉｉａｌｔｒｃｎｅｓｒｄｍｌａｍｏｉｅｇｒｔｍｓｐｏｏｅＴｏｇｋｎａｐｅｉｒｓｓｇｆａｎｅｃｙｓｅｔｎｔｃｕｓｅｔｒａｏｙ。ｄｆｄａｏｉｔｉｎｌｅｎｈｉｌｅｎｉｌｈｉｒｐｓｄ．ｈｒｕｈｔｉｇｓａｍｌｍａｙｔｓｔａａｓｔｃｏｓｎｕｅｏｌｓｅｅｔｒｂｒｇｄｗｎｔｅｉａｔｆｉｉａｌｓｅｅｔｒｏｉｒｅｇｒｔｍｒａｌ．ｎｍｅｄｔｅ，ｈｏｅｆａｓｐｒｒｃｕｔｒｃｎｅ－ｉｏｍｐｃｔｌｃｕｔｒｃｎｅｓｔｍｐｏｖｄａｏｈｇｅｔｉｏｉｌｉｎｈｏｎｉｌｉｙＳｍｕｔｎｏｓｙ－ｔｅｉｉａｔｓｓａｄｄｚｄｏｅｔｅｉｉａｌｓｅｅｔｒｉｓｌｃｅｉｌｅｕｌｈｎｔｄａｉｔｎａｉｅｎｃｔｃｕｔｒｎｅｓｅｅｔｄ，ｍａｅｌｓｅｆｅｔｍｐｏｅｔｅｍｏ．ｔ — ａｉｌａｈｎｉｌｃｋｓｃｕｔｒｅｃｒｖｄｆｈｒｒＤｅｅｉｕｒｅｃｉｗｏｔｍｒｇｕｅａｇｒｈＨｋ－ａｓｔｒｕｈｔｅｄｔｆＵＣＩｄｔｔｔｅｒｓｌｓｏａｎｌｉｍｅｈｏｇｈａｅｏｎａａｓ。ｕｔｈｗｓｔｔＨｋ－ａｓａｇｒｔｍｓｍｏｒｍｉｅｔｉｒｖｅｈｅｈｍｅｏｉｎｌｈｉｒｐｏｎｎｍｐｅｏｏｄｈｎｎｔｌｋｔａｉｉａ —ｍｅｓａｇｒｔｍｉｌｓｅｆｅｔａｄｉＳｕｆｌｏｏｆｒｎｅｔｅａｖｉｅｄｉｎａｌｏｈｉｎｃｕｔｒｅｆ，ｃｎｔｓｕｆｒｃｎｅｃｏｒｌｔｅｆｌ．ｅｅｉＫｅｒｓｄｔｎｎｃｕｓｒｇａｇｒｔｍ；ｍｅｓａｇｒｈｙｗｏｄ：ａａｍｉｇ；ｌｔｉｏｉｉｅｎｌｈｋ— ａｏｉｍｎｌｔ

基于K-means算法的学生试卷成绩分析

中图分类号：Ｐ１Ｔ３１文献标识码：Ａ
学生考试成绩是学生学习成果的显性体现，是针对性制定教学策略的重要依据．在日常教学中，生了大量反映学生学习成效的数据— — 学产
别、图像分割和机器视觉等领域Ｉ笔者将聚类分２】．析技术应用于学生成绩分析和等级评定，希望从数据中发现某些规律，为制定有效的教学策略提
ｍ，＝ … ．；ｊ１，ｊｋ
Ｒｅａｐｅｔ
２基于Ｋ— ａｓ聚类算法的聚类过ｍｅｎ
程和结论分析
２１数据来源．
．
心会根据聚类中现有的数据点被重新计算．这个
过程会反复迭代，直至满足某个终止条件为止．
Ｋｍａｓ算法能对大型数据集进行高效分类，－ｅｎ
且适合于对数值型数据进行聚类，其计算复杂性
为Ｏｔｍ）其中，为迭代次数，为聚类数，（ｎ，Ｋｔｍ为
特征属性数，为待分类对象数，通常，ｍ＜．，
面存在相似性．因此，这种成绩细分方法并没有真
正起到区分不同成绩等级的作用．聚类分析技术是数据挖掘及模式识别等研究
并且，聚类确定了数据集中所有数据的归属＿４］．聚类算法大致分成层次化聚类算法、划分式聚类算法、基于密度和网格的聚类算法和其他聚类算
１个类簇内的实体是相似的，不同类簇的实体是不相似的；１个类簇是测试空间中点的会聚，同类簇的任意２个点间的距离小于不同类簇的任意２个点间的距离：类簇可以描述为１个包含密度相对较高点集的多维空间中的连通区域，它们借助包含密

数据挖掘中的聚类技术在学生成绩分析中的应用

数据挖掘中的聚类技术在学生成绩分析中的应用［摘要］本文针对在大类招生背景下北京科技大学经济管理学院2005级学生的考试成绩，应用数据挖掘技术分析分专业前学生成绩与专业及分专业后课程学习之间可能存在的潜在的联系。

首先进行数据预处理以保证数据挖掘结果的质量和提高数据挖掘的效率；然后根据分专业前的课程成绩对学生进行聚类，并分析各类的成绩特征；最后以信息管理与信息系统专业为例，分析各类学生在分专业后的优势课程和较弱课程。

［关键词］数据挖掘；聚类；学生成绩分析doi:10.3969/j.issn.1673-0194.2009.15.0141 引言本科按学科大类招生已在部分高校实施，这些高校按一级或二级学科进行招生，在经过约两年的统一基础培养后，由学生结合就业、兴趣等选择具体专业方向，开始专业课程及实践课程的学习直至毕业［1］。

本文研究数据挖掘技术在大类招生背景下学生成绩分析中的应用，数据来源于北京科技大学经济管理学院2005级学生前5个学期的成绩，其中前4个学期为分专业前的成绩，第5个学期为分专业后的成绩。

通过观察这些数据可以发现如下特点：①成绩分布在0~100之间，且各个分数段的密度不同，其中成绩取值在70~90分之间的比例非常大；②分专业前的课程数量很多，且其中的某些课程与专业选择相关性很小；③部分课程存在得分普遍较高或得分普遍较低的现象；④分专业前的课程主要包括：高等数学I、概率与数理统计、外语I、线性代数、计算机基础、会计学、财政金融学、管理信息系统、马克思主义哲学、军事理论、体育I等46门课程；⑤分专业后各专业课程不同。

为了保证数据挖掘结果的质量，提高数据挖掘的效率，需要进行净化、集成、精简、应用变换等数据预处理。

之后，再进行聚类及进一步的分析。

2 数据预处理2.1 数据净化数据净化是清除数据源中不正确、不完整等不能达到数据挖掘质量要求的数据，从而提高数据的质量，得到更正确的数据挖掘结果。

在本研究所针对的学生成绩数据中，遇到的主要数据净化问题是空值问题。

基于k_means聚类算法的试卷成绩分析研究

第39卷第4期河南大学学报(自然科学版)Vol.39　No.4 2009年7月Journal of Henan University(Natural Science)J ul.2009基于k2means聚类算法的试卷成绩分析研究谭庆(洛阳师范学院信息技术学院,河南洛阳471022)摘　要:研究了k2means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k2means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.关键词:数据挖掘;聚类;k2means算法;试卷成绩中图分类号:TP311 文献标志码:A文章编号:1003-4978(2009)04-0412-04Analysis and R esearch of G rades of Examination PaperB ased on K2means Clustering AlgorithmTAN Qing(A cadem y of I nf ormation Technolog y,L uoy ang N ormal Universit y,L uoy ang Henan471022,China)Abstract:This paper researches the k2means clustering algorithm and applies it to the analysis of the grade data of examination paper of higher education school’s students.Firstly,it preprocesses the data before mining.Then,it uses the k2means algorithm to cluster students’grades of examination paper and gives evaluation.The obtained knowledge can be applied in to guiding the students and teachers in treir study and teaching.K ey w ords:data mining;clustering;k2means algorithm;grades of examination paper0　引言传统的数据分析方法是统计分析法,该方法只是对事实的验证,描述已经发生的事实,难以发现数据中存在的关系和规律,也难以根据现有的数据预测未来的发展趋势.由于它缺乏挖掘数据背后知识的手段,因而导致了“数据爆炸但知识贫乏”的现象[1].面对这一挑战,数据挖掘(Data Mining,DM)[2]和知识发现(Knowledge Discovery in Database,KDD)技术应运而生,并逐渐显示出了强大的生命力.在高校中,考试成绩是评估教学质量的重要依据[3],也是评估学生是否掌握好所学知识的重要方式.试卷分析是考试过程的一个重要环节.聚类是深层次的数据信息分析方法,将聚类[4]技术应用于试卷成绩分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系[5].1　k2means聚类算法给定一个包含n个数据对象的数据集,以及要生成的簇的数目k,一个划分类的算法将数据对象组织成k个划分(k≤n),其中每个划分代表一个簇.通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是“相似的”,而不同簇中的对象是“相异的”.最著名且最常用的基于划分的方法是k2means算法.k2means算法的处理流程是:首先随机地选择k个对象,每个对象代表一个簇的初始均值或中心.对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最相似的簇.然后计算每个簇的新均值.这个过程不断重复,直到准则函数收敛.　收稿日期:2008212230　基金项目:河南省科技攻关资助项目(0524220059)　作者简介:谭庆(1977-),男,河南洛阳人,讲师,硕士.主要研究方向:数据挖掘和程序设计.谭庆:基于k2means聚类算法的试卷成绩分析研究413通常k2means算法的准则函数采用平方误差准则,定义为:E=∑k i=1∑p∈C i|p-m i|2.(1)其中E是数据集中所有对象的平方误差的总和,p是给定的数据对象,m i是簇C i的平均值(p和m i都是多维的).这个准则的作用是使生成的簇尽可能地紧凑和独立.对处理大型数据集而言,k2means算法是相对可伸缩的和高效的,因为算法的复杂度为O(ntk),并且k 和t通常都远远小于n.这里n是数据对象的个数,k是簇的个数,t是迭代的次数.2　基于k2means聚类算法的试卷成绩分析目前,在高校管理中,特别是对学生的试卷管理工作中,普遍存在的问题是学生试卷成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份、查询及简单统计阶段.对于学生取得这些成绩的原因往往无法了解,使得这些数据还不能发挥它应有的作用.如何利用这些数据理性地分析教学中各方面的成效得失以及找到有关影响学生学习成绩的因素是广大教师们共同关心的问题.聚类是深层次的数据信息分析方法.将聚类技术应用于对试卷成绩的分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系.通过聚类分析,其评价结果能给教学带来前所未有的收获和惊喜.本文着重讨论了k2means聚类算法在试卷成绩数据中的应用,得出一些有趣的知识,对教学质量的提高起到积极的促进作用,以此来帮助教学工作的顺利进行.学生试卷成绩的划分类别分析评价属于聚类数据挖掘.选用的模型是典型的划分方法k2means算法模型,无需高昂的代价收集和标记大量训练元组集或模式.首先,基于数据的相似性把数据集合划分成组,然后给这些数量相对较少的组指定标号.这种基于聚类的过程的另一个优点是可以适应变化,并且能够挑选出区分不同组的有用特征.2.1　数据预处理数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要占去挖掘过程中70%的工作量.经验表明,如果数据准备工作做得非常细致,在模型建立阶段就会节省大量的精力.1)数据集成数据集成就是将来自多个数据源的数据合并到一起.本研究中,成绩数据库中包括了学生的平时作业成绩及课程的考试成绩.这个数据库由教师在教学过程中产生.将数据采集得到的多个数据库文件,利用数据库技术生成学生试卷成绩分析基本数据库.随机抽取一个年级学生的一学期的课程(如电路基础、离散数学、数据库、C语言程序设计、马克思主义哲学、英语和体育)的成绩,如表1所示.xh为学生学号,k1为电路基础的成绩,k2为离散数学的成绩,k3为数据库的成绩,k4为C语言程序设计的成绩,k5为马克思主义哲学的成绩,k6为英语的成绩,k7为体育的成绩.表1　学生试卷成绩分析基本数据表Tab.1　Basic data sheet of analysis of students’examination paper gradesxh k1k2k3k4k5k6k7011114001优868460756280011114002良707560716073011114003良778071696078011114004良858160727375011114005优878871787578011114006良637860626570011114007良628185686271011114008及687487707078011114009良767860636980011114010及807460636085011114011良617460706477…………………… 2)数据清理数据清理的主要工作就是填补遗漏的数据值[6,7].在学生试卷成绩分析基本数据库及调查表中我们看　河南大学学报(自然科学版),2009年,第39卷第4期414到,有一些我们感兴趣的属性缺少属性值,对于这些空缺,可以使用数据清理技术来填补.有很多种方法可以为属性填写空缺值,比如:忽略元组、人工填写空缺值、使用一个全局常量填充空缺值等.在本例中,采用忽略元组的方法删除退学、休学、转学、没有参加考试或有大量的空缺项的学生的记录.对于其他个别空缺,因为总记录数不算太多,且空缺值较少,采用人工填充的方法处理.填充原则是使用该记录其他属性的平均值填充此空缺值.经过数据清理后,总记录数为146条.3)数据转换数据转换主要是对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘.在对学生试卷成绩进行聚类分析挖掘时,需要数值型数据,所以应把学生试卷成绩表的数据转换成数值型按通常的百分制表示.因为电路基础课程评的是等级分,所以将“优”转换为“90”,“良”转换为“80”,“中”转换为“70”,“及”转换为“60”,“差”转换为“0”.其他课程本身就使用百分制,无需再转换.接下来采用最小—最大规范化方法将百分制成绩规范化到[0,1]上.将表1转化为聚类算法便于处理的格式,如表2所示.表2　聚类分析数据表Tab.2　Data sheet of clustering analysisxh k1k2k3k4k5k6k7 011114001 1.00000000.8593750.75000000.55844160.68852460.70588240.55555560111140020.66666670.60937500.54545450.55844160.62295080.66666670.36111110111140030.66666670.7187500.65909090.70129870.59016390.66666670.50000000111140040.66666670.8437500.68181820.55844160.63934430.92156860.4166667011114005 1.00000000.8750000.84090910.70129870.73770490.96078430.50000000111140060.66666670.5000000.61363640.55844160.47540980.76470590.27777780111140070.66666670.4843750.68181820.88311690.57377050.70588240.305555601111400800.5781250.52272730.90909090.60655740.86274510.5000000111140090.66666670.7031250.61363640.55844160.49180330.84313730.555555601111401000.7656250.52272730.55844160.49180330.66666670.69444440111140110.66666670.4687500.52272730.55844160.60655740.74509800.4722222……………………2.2　k2means聚类算法的应用与结果分析本文实验环境是P42.4GHz,512MB内存,Windows XP专业版操作系统.k2means聚类算法在Visual C++ 6.0环境下用C++语言实现.将表2中总共146条记录作为k2means聚类分析的数据,给定聚类数为3.运行k2means算法程序后,将146条记录聚类成3簇,最后各簇均值数据如表3所示.表3　各簇均值数据表Tab.3　Data sheet of every cluster’s meank1k2k3k4k5k6k7簇1均值0.88235294130.80637254900.73618538330.70308123220.67952426870.75124951950.3039215687簇2均值00.45863970590.51470588240.56493506460.55255544840.64186851230.5163398694簇3均值0.69945355220.57223360660.56184798800.63189269710.58747648490.70202507250.4972677595 通过对实验结果的分析可以得出,簇1中的学生都是考试成绩较好的,簇2中的学生考试成绩较低,簇3中的学生考试成绩介于簇1和簇2之间.簇1中包含51条记录,占总数的35%;簇2中包含34条记录,占总数的23%;簇3中包含61条记录,占总数的42%.也就是说,约有35%的学生考试成绩较好,约有42%的学生考试成绩中等,约有23%的学生考试成绩较差.较差的学生比例有些高,在今后教学中,要更加关注簇2中的学生,帮助他们提高学习成绩.簇2均值中的k1值为0,说明电路基础课程得到最低分的学生都在此簇中.另外也说明电路基础课程评为等级分不够合理,这样最低等级分的学生k1值都会为0.在今后的教学中,电路基础课程应采用百分制,这样才能更好地、比较精确地打分.簇1均值中的k1—k6的值在3个簇的均值中都是最高的,但k7的值却是3个簇的均值中最低的.这说明簇1中的学生除体育外的其他课程成绩都较好,但体育成绩较差.在今后教学中,应注意督促那些成绩较好的学生上好体育课,多参加课外活动,多锻炼身体.谭庆:基于k2means聚类算法的试卷成绩分析研究415 3　结束语本文研究了k2means聚类算法,并将此算法应用于试卷成绩分析中.首先对数据进行了预处理,然后使用k2means算法,对学生试卷成绩进行划分类别分析评价.针对不同类别的学生,提出了相应的教学建议,指导学生的学习和今后的教学工作.参考文献:[1]U M Fayyad,G Piatesky2Shapiro,P Smyth.From data mining to knowledge discovery:An overview qdvances in knowledgediscovery and data mining[R].Califonia:AAA I/MIT Press,1996.[2]J ain A K,Murty M N,Flynn P J.Data clustering:A survey[J].ACM Comput.Surv.,1999(31):264-323.[3]Jin Hanjun,Wang Xiaorong,Wang Yanlin,et al.Study and application of genetic algorithm in computer test construction[C]//Proceedings of ISCIT,2005[C].Beijing:Beijing University of Posts and Telecommunications Press,2005.[4]Han Jiawei,Micheline Kamber.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2007.[5]马希荣,孙华志.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):51-54.[6]Mehmed Kantardzic.数据挖掘———概念、模型、方法和算法[M].北京:清华大学出版社,2003.[7]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版社,2003.责任编辑:党兰学。

利用K-means聚类分析技术分析学生成绩

利用K-means聚类分析技术分析学生成绩摘要：数据挖掘是在海量的数据中寻找模式或规则的过程。

数据聚类则是数据挖掘中的一项重要技术，就是将数据对象划分到不同的类或者簇中，使得属于同簇的数据对象相似性尽量大，而不同簇的数据对象相异性尽量大。

目前数据挖掘技术在商业、金融业等方面都得到了广泛的应用，而在教育领域的应用较少，随着高校招生规模的扩大，在校学生成绩分布越来越复杂，除了传统成绩分析得到的一些结论外，还有一些不易发现的信息隐含其中，因而把数据挖掘技术引入到学生成绩分析中，有利于针对性地提高教学质量。

本论文就是运用数据挖掘中的聚类分析学生成绩的，利用学生在选择专业前的各主要学科的成绩构成，对数据进行选择，预处理，挖掘分析等。

运用聚类算法分析学生对哪个专业的强弱选择，从而为具有不同成绩特征的同学在专业选择及分专业后如何开展学习提供一定的参考意见。

关键字：数据挖掘聚类分析学生成绩分析Abstract：Data mining is a process that in the vast amounts of data looking for patterns or rules. Data clustering is an important data mining technology for people to understand and explore the inherent relationship between things. Clustering is to partition data objects into different categories, or clusters, making the similarity with the clusters of data as large as possible. While the dissimilarity of different clusters of data as large as possible.Nowadays data mining technology is widely used in business and finance. But it is less used in education field. With the increase of enrollment in universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analysis, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data structure of main subject before the students specialized in choice of mode, pretreatment and data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and give some reference opinions after students of different grades choose their majors.Keywords :Data Mining , Clustering Technology , Students' Achievement1.概述1.1背景随着我国经济的发展，网络已被应用到各个行业，人们对网络带来的高效率越来越重视，然而大量数据信息给人们带来方便的同时，也随之带来了许多新问题，大量数据资源的背后隐藏着许多重要的信息，人们希望能对其进行更深入的分析，以便更好地利用这些数据，从中找出潜在的规律。

基于K—means算法的学生综合测评成绩分析

设分析为主。侧重于理论知识．在理论上的研究比较
多．对现实使用数据集中出现的数据特征和区别考虑得比较少Ｉ６ｊ。聚类分析作为数据挖掘中的一种重要技术．越来越广泛地应用于数据库领域
评学生素质。文献『采用德育、１１专业、身体、心理、展发五个指标评价，文献『３用思想道德素质、２１智育素质（知识能力素质）身心素质和发展能力素质（、文体活动活动创新素质）指标进行测评．并将指标细分为多个二级指标。测评采用演化算法ｌ模糊综合评价［多元统ｌｌ、４１、计分析法嘲等得到有效权值．将数据项按权值求和得到量化的分数测评值若遇推优同分冲突时。则以小数精
度或管理者的认知来确定．这些量化评定方法不能深
１１主要聚类算法．
聚类可以通过数据库中字段属性的数据类型和应用聚类进行操作的对象特点等选择算法常见的聚类算法有：基于划分的聚类算法、于层次的聚类算法、基
（）４重新计算每个（有变化）聚类的均值（中心对象）直至新平均值等于上次迭代的平均值，．算法结束。
作者简介：陈英（９７）女，士，师，究方向为数据挖掘、生管理１７一，硕讲研学
０现计机２１１代算０．１１
ＳＵＮｎＢｉｇ
／
（ｏｅｅｏｆｍａｏ，ｕｎｄｎｃａｎｅｓｙＺａｊｎ２０２ＣｌｇｆｎｏｔｎＧａｇｏｇＯｅｎＵｉｒｉ，ｈｎｉｇ５４２）ｌＩｒｉｖｔａ

K-means聚类算法的研究共3篇

K-means聚类算法的研究共3篇K-means聚类算法的研究1K-means聚类算法的研究聚类是数据挖掘和统计分析领域中非常重要的方法，它能够从大量的数据中抽象出有意义的类别。

K-means聚类算法是一个经典的聚类算法，它的思想简单而有效，广泛应用于数据分析、图像处理、生物信息学等领域。

本文将从算法原理、优缺点、应用及改进等方面进行研究和探讨。

一、算法原理K-means算法是一种基于距离的聚类算法，其基本原理是将数据点划分到k个不同的簇中，使得簇内的数据点尽可能相似，而簇间的数据点尽可能不同。

具体步骤如下：1. 随机选择k个中心点（centroid）作为初始的聚类中心。

2. 对于每个数据点，计算其到各个聚类中心的距离，并将其归类到距离最近的簇中。

3. 对于每个簇，重新计算其聚类中心，即为该簇内所有数据点的平均值。

4. 重复执行步骤2和3，直到聚类中心不再改变，或达到预设的迭代次数。

二、优缺点K-means算法具有以下优缺点：优点：1. 算法简单、易于实现和理解，计算速度快，适用于大规模数据。

2. 对于点密集的数据集，聚类效果较好。

3. 可以很好地处理凸型和球型簇。

缺点：1. K值需要事先确定，不确定时需要多次试验，计算量大。

2. 算法容易陷入局部最优解，结果不稳定，可能需要多次运行来得到最优解。

3. 对于噪声和离群点的敏感度较高。

三、应用K-means算法适用于以下数据挖掘任务：1. 分类问题：根据数据的属性特征将其划分到不同的组别，如客户分群、市场分析等。

2. 图像分割：将图像中的像素点划分到不同的区域，实现图像分割。

3. 地质勘探：对地面的物质进行分离和分类，例如岩性分类、照片过滤等。

4. 生物信息学：对基因序列进行聚类分析，以发现有共性的基因序列。

四、改进K-means算法有许多改进算法，尝试解决其缺点和不足，如以下算法：1. K-means++算法：改进了初始聚类中心的选择方法，使得聚类结果更加稳定和准确。

聚类算法分析及其在学生成绩分中的应用

本科学生毕业论文（设计）题目聚类算法分析及其在学生成绩分析中的应用学院数学计算机科学学院专业计算机科学与技术学生姓名陶彬贤学号0715206指导教师伍长荣职称副教授论文子数6564完成日期2011 年 4 月15 日论文题目聚类算法分析及其在学生成绩分析中的应用_________学生姓名、学院：陶彬贤数学计算机科学学院中文摘要（300字左右）数据挖掘就是从大量的、不完全的、模糊的、随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在有用的信息和知识的过程。

数据挖掘的方法有很多，聚类分析是目前最有应用前景的数据分析方法之一，因为聚类分析能作为一个独立的工具来获得数据分布的情况，观察每一个簇的特点，并能集中的对特定的某些簇作进一步的分析。

对学生原始成绩进行等级评定是教学管理中的重要环节，利用聚类算法可以对学生成绩进行有效的等级划分。

K_mea ns算法是划分式聚类算法的一种，文中运用K means算法对学生成绩进行了聚类并对结果加以分析。

关键词（3〜5个）：聚类算法；K means；学生成绩分析英文题目Cluster ng algorithms and Applicati on of Clusteri ng algorithms instude nts' performa nee an alysis学生姓名、学院（英文）：Taob in xia n, school of mathematics&computer scie nee 英文摘要Data mi ning extract those implicit but pote ntially useful in formatio n from a lot of in complete, fuzzy and ran dom data.There are many ways of data mi ning .Clusteri ng an alysis is one of the most applicatio n prospect of data an alysis method.because the cluster an alysis can be used as an in depe ndent tool to get data distributi on, observe every cluster characteristic, and can focus on certain cluster for furtheranalysis.Ranking of the student original scores is an important link of teaching ing clustering algorithm can repartition the student achievement effectively.k_mea ns algorithm is a partiti on type of clusteri ng algorith m.ln this paper K_means algorithm is used to cluster the stude nt achieveme nt and the result has bee n analysed.英文关键词Clustering algorithms；k _means； students' performanee analysis目录第一章引言..................................................... 3.第二章聚类分析技术与K_mean翼法 . (3)2.1聚类的定义 (3)2.2聚类算法的分类 (3)第三章聚类技术在学生成绩分析中的应用 (5)3.1学生成绩传统划分 (5)3.2 k_means算法描述[10] (5)3.3 k-means聚类算法实现流程图 (6)3.4 K_mea ns算法对学生成绩分析 (6)3.5程序实现................................................ 7.3.6传统方法与K_means算法的比较 (9)结论........................................................... 9.参考文献：..................................................... 9.致谢......................................................... 1.0聚类算法分析及其在学生成绩分析中的应用陶彬贤，数计学院摘要：数据挖掘就是从大量的、不完全的、模糊的、随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在有用的信息和知识的过程。

基于全局k-means算法的高校学生成绩分析

最具应用前景的成绩分析方法之一，该方法的优点在于其结论形式简明、直观，容易从中发现隐含的规律。 K-means［3-4］算法是一种重要的聚类算法，由 McQueen 在 1976 年提出。K-means 算法的目标是将 N 维的 M 个点划分为 K 个簇，使准确率和召回率达到最大值。K-means 算法主要有两个缺点：（1）对簇的数目进行先验固定；（2）随机选择初始聚类中心。本文将全局 K-means 算法应用于成绩分
收稿日期：2018-12-11 基金项目：吉林省科技发展计划自然科学基金资助项目（20160101260JC）；吉林省教育厅资助项目（JJKH20181164KJ）作者简介：谷欣超（1976-），男，硕士，讲师，E-mail：guxinchao@
（1.School of Computer Science and Technology，Changchun University of Science and Technology，Changchun 130022； 2.Changchun Normal University，Changchun 130032）
Abstract：Unsupervised clustering algorithm is used to evaluate and analyze student’s scores. Within the interval of the number of clusters given， the score classification results under different cluster numbers is obtained by the global k-means algorithm clustering the student’s grade data. The optimal number of clustering can be determined automatically combined with the clustering validity index to realize the unsupervised classification of students' multi-subject score data. The experimental results show that the method can find the difference between clustering results of different grades；the main factors affected the data distribution is revealed and the influence of all the attributes of the data is balanced on the final analysis results and the problem that the result of manual analysis is easy to produce large deviation is avoided. It plays an important role in guiding students' elective courses，adjusting teachers’personal teaching methods，improving the quality of school teaching and improving students’score. Key words：cluster analysis；K-means algorithm；global K-means；score analysis

基于标准偏移量的学生成绩 K-means聚类分析算法研究

基于标准偏移量的学生成绩 K-means聚类分析算法研究孙菲;张健沛;董野;任福栋;于涛;郭春平【摘要】针对利用距离差聚类分析算法分析学生学科成绩不够准确的问题，提出了利用标准差计算标准偏移量构建目标函数的K-means聚类分析算法，给出了初始聚类中心选取办法和算法的描述及处理流程；实验结果分析可得，利用标准偏移量构建的学生成绩K-means聚类分析算法，符合对学生成绩按学科类别聚类分析的特性要求；该算法能够较好的实现学科成绩高度关联属性的聚类分析结果。

%For the clustering analysis algorithm using distance difference is not quite accurate for analyzing the scores of students, the K-means clustering analysis algorithm is put forward using standard offset to establish objective function, and the description of algorithm and the method of selecting the initial cluster centers are given as well. It is concluded that the K-means clustering analysis algorithm established by using standard offset conform to the unique requirement of clustering analysis for classification of student scores by subject.【期刊名称】《齐齐哈尔大学学报（自然科学版）》【年(卷),期】2015(000)002【总页数】8页(P57-64)【关键词】标准偏移量;标准差;K-means聚类分析算法;成绩分析【作者】孙菲;张健沛;董野;任福栋;于涛;郭春平【作者单位】齐齐哈尔高等师范专科学校计算机系，黑龙江齐齐哈尔 161005;哈尔滨工程大学计算机科学与技术学院，哈尔滨 150001;齐齐哈尔市招生考试办公室，黑龙江齐齐哈尔 161006;齐齐哈尔市招生考试办公室，黑龙江齐齐哈尔161006;齐齐哈尔高等师范专科学校计算机系，黑龙江齐齐哈尔 161005;齐齐哈尔高等师范专科学校计算机系，黑龙江齐齐哈尔 161005【正文语种】中文【中图分类】TP301.6对学生成绩按学科聚类分析，能够根据学科特点进行类别划分，使符合相应类别特点的学生划归为一类。

班级学生成绩聚类分析报告

班级学生成绩聚类分析报告1. 引言学生成绩是评价学生学习成果的一个重要指标。

通过对学生成绩进行聚类分析可以帮助我们理解学生成绩之间的关系，发现不同学生群体之间的特点和差异，为教育教学提供参考。

本报告旨在对某班级学生成绩进行聚类分析，并探讨聚类结果的意义。

2. 数据准备本次分析使用的数据是某班级学生的成绩数据，包括数学、语文、英语三门课程的成绩。

共有50个学生的成绩数据，每位学生的成绩用一个向量表示，该向量的维度为3。

下表给出了前5位学生的成绩数据示例：学生编号数学成绩语文成绩英语成绩S1 85 90 75S2 72 80 82S3 96 91 93S4 68 75 78S5 92 88 853. 聚类分析方法聚类分析是一种将样本根据其相似性进行分组的方法。

在本次分析中，我们使用K-means算法对学生成绩进行聚类。

K-means算法通过将样本划分到K个聚类中心，使得各个样本到所属聚类中心的距离最小化，来实现聚类的目标。

4. 聚类分析过程在进行聚类分析之前，需要先确定K值，即要将样本分成几个聚类。

我们通过手肘法确定K值。

手肘法通过绘制不同K值下的聚类误差平方和（SSE）与K值的关系图，找到误差平方和变动趋势明显变缓的拐点作为合适的K值。

本次分析中，我们尝试了K从1到10的值，计算了对应的SSE，并绘制了SSE与K值的关系图。

观察到当K=3时，SSE的变化趋势明显变缓，因此我们选择K=3作为合适的聚类数量。

接下来，我们使用K-means算法将学生成绩进行聚类。

在聚类过程中，我们随机选择了3个初始聚类中心，并迭代计算每个样本与各个聚类中心的距离，将其划分到距离最近的聚类中心。

5. 聚类结果分析经过聚类分析，我们将学生成绩分成了3个聚类，分别为聚类1、聚类2和聚类3。

下图给出了聚类结果的可视化效果：![聚类结果图](cluster.png)从上图可以看出，不同聚类之间存在明显的差异。

我们对每个聚类的特点进行分析如下：- 聚类1: 该聚类中的学生在数学和语文成绩上表现较为突出，英语成绩相对较低。

基于Clementine的初中信息技术课程考试成绩分析研究

２１年第７期０１
福
建电
脑
１７０
基于Ｃｅｅｔｅ１ｎｎ的初中信息技术课程考试成绩分析研究ｍｉ
廖荣平
（广东省河源市龙川县通衢中学广东河源５７７１３６）
【摘要】影响初级中学信息技术课程考试成绩的原因复杂，：定性因素和定量因素并存，用传统的采分析模型和算法较难得出有用结论。针对上述问题。用Ｃｌｎｉｅ软件中的ＫＭｅｎ聚类模块对学生考采ｅｔｍｅｎ — ａｓ
象尽可能相似．而不同簇中的对象尽可能相异．通过聚准备、立模型、型评估到最终结果部署的数据挖掘建模类。人们可以发现数据分布的一些特征Ｈ。ＫＭｅｎ算全过程Ｃｅｎｎ均可实现．此外Ｃｅｎｉｅ支持 — ａｓｌｍｅｆｅｉｌｍｅｔ还ｎ
试试卷成绩进行分类评价。提出了采用可视化的数据挖掘工具处理初中信息技术课程考试数据的解决方法，通过实例验证其有效性，为实施个性化教学和素质教育提供参考。
【键词】信息技术课程；类分析；ｌｎｉｅＫ— ａｓ类关：聚Ｃｅｔ；Ｍｅｎ聚ｍｅｎ
一
款可视化的数据挖掘软件．它拥有以下特点嘲：
的解决方法．通过实例验证其有效性。并
１聚类模型与软件、１ — ａｓ．ＫＭｅｎ聚类算法１
１丰富和有效的模型算法。ｌｍｎｉｅ含了数据）Ｃｅｅｔ包ｎ的可视化、测、类、类、联、列等的数据挖掘预分聚关序

基于聚类分析的学生成绩分析

第11卷第2期2018年3月清远职业技术学院学报Journal of Qingyuan PolytechnicVol. 11 , No.2Mar. 2018基于聚类分析的学生成绩分析陈喜华\黄海宁\黄沛杰2(1.广州工商学院教务处，广东广州510850;.华南农业大学数字与信息学院，广东广州610642)摘要：利用K-Means聚类分析算法，并借助SPSS Modeler软件，对学生成绩进行深层次分析，挖掘出学生各门课程成绩的分布情况，并预测课程的重要性，以便更好地实施教学改革、提高教学质量以及学生的学习效果。

关键词：聚类分析;K-Means算法;SPSS Modeler;成绩分析中图分类号:G642.0 文献标识码:A1引言目前，对学生成绩进行划分等级，通常是基于绝对分数来划分。

例如，成绩不小于90分为优秀或者A级，成绩不小于80分为良好或者B级，以此类推。

这种方法虽然简单易行，且应用广泛，但存在一定的弊端。

因为学生的成绩容易受试题难度和阅卷教师的主观因素影响，因此，这种简单的方法并不能反映学生成绩的动态分布情况，这样的评价方式也有失公平，不适合用来评价教师的教学效果。

而利用聚类分析便能更加合理的对学生成绩进行划分。

2聚类分析概述2.1聚类分析的概念聚类分析(ClusterAnalysis)就是把一组数据集按照某种相似度函数或相似性规则划分成不同类别的过程，这些类别被称为类[1]。

同类中对象属性相似度较高，不同类中对象属性差异性比较明显。

常用的聚类分析算法有K-Means算法。

一般通过比较样本数据的属性值的相似程度（差异程度)来判断不同数据是否在同一个类中，在聚类分析中，通常需要计算各个属性值之间的距离，若距文章编号：1674-4896(2018)02-064-07离小于设定的阈值，就把样本数据划分为同一类，如果超过设定的阈值，则划分为其他不同的类。

通常使用明氏距离来计算，其计算公式如2.1所示。

K_Means算法在计算机等级考试成绩分析中的应用

算法在计算机等级考试成绩分析中的应用作者：曾旭司马宇来源：《软件导刊》2012年第11期摘要：讨论了数据挖掘技术在计算机等级考试评分系统中的应用。

利用聚类分析对考生的得分情况进行分析，得到了各类学生对考题的掌握情况。

所得结论对提高考生的过级率以及教师后续教学工作的开展均具有一定的指导意义。

关键词：数据挖掘；聚类分析；计算机等级考试；KMeans中图分类号：TP301 文献标识码：A 文章编号：16727800（2012）011001903________________________________________基金项目：贵州省科学技术基金资助项目（黔科合J字LKZ[2011]22号）作者简介：曾旭（1981-），女，硕士，遵义医学院医学信息工程系讲师，研究方向为信息安全、密码学、数据挖掘；司马宇（1979-），男，硕士，遵义医学院网络技术中心讲师，研究方向为网络安全、信息管理系统。

0 引言数据挖掘是从大量数据中发现有趣模式，其中数据可以存放在数据库、数据仓库或其它信息库中。

这是一个年轻的跨学科领域，源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。

其它有贡献的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理和许多应用领域，如商务、经济学和生物信息学。

数据挖掘的类型很多，如总结规则挖掘、关联规则挖掘、分类规则挖掘、聚类规则挖掘、预测分析、趋势分析和偏差分析等。

其中，聚类分析已经广泛应用于市场研究、模式识别、数据分析和图像处理等领域。

1 聚类分析聚类是将数据集划分为若干组的过程，并使得同一个组内的数据对象具有较高的相似性，而不同组中的数据对象具有较低的相似性。

聚类是一种无指导的学习过程，事先不知道样本类别，也不知道类别个数。

1.1 数据结构大多数聚类算法采用数据矩阵和相异度矩阵作为数据结构。

数据矩阵是一个对象—属性结构。

它由n个对象组成，是利用p个属性来进行n个对象的描述。

k-means silhouette_score得分评估

k-means silhouette_score得分评估摘要：1.介绍K-means聚类算法2.介绍Silhouette Score评分标准3.计算Silhouette Score的步骤4.评估K-means聚类结果的优劣5.实际应用案例及优化策略正文：在数据挖掘和机器学习中，K-means聚类算法是一种广泛应用的的无监督学习方法。

它通过迭代计算数据点之间的距离，将相似的数据点划分到同一类别中。

然而，如何评估K-means聚类结果的优劣呢？这时，Silhouette Score （轮廓系数）就派上用场了。

Silhouette Score是一种评价聚类效果的指标，它的计算方法如下：1.对于每个数据点，计算它与同一类别其他数据点的平均距离（a）。

2.计算该数据点与所有其他类别数据点的平均距离（b）。

3.Silhouette Score = a - b。

得分越高，说明聚类效果越好。

在实际应用中，我们可以根据Silhouette Score对不同的聚类结果进行比较，选择得分最高的作为最优聚类结果。

然而，如何计算Silhouette Score呢？下面是详细的计算步骤：1.初始化聚类中心。

2.计算每个数据点到各个聚类中心的距离。

3.将数据点划分到距离最近的聚类中心所在的类别。

4.计算每个类别的内部平均距离。

5.计算每个数据点到其他类别数据点的平均距离。

6.计算Silhouette Score。

在实际应用中，我们可以通过调整聚类参数（如类别数量、初始聚类中心等），获得不同的聚类结果，并计算对应的Silhouette Score。

通过比较不同聚类结果的Silhouette Score，我们可以找到最优的聚类方案。

需要注意的是，K-means聚类算法的结果容易受到初始聚类中心的影响。

为了提高聚类结果的稳定性，我们可以采用多次随机初始化聚类中心的方法，取多次实验中Silhouette Score平均值较高的聚类结果。

基于K-Means聚类的数据分析

现代制造技术与装备82017第4期　总第245期1　K-Means 聚类算法概述1.1　内涵K-Means 算法是对对象元素之间差异问题检测的聚类算法。

它主要是从所有的样本对象中选择出K 个元素作为最开始的聚类目标，之后按照规则算法要求，对剩下元素和目标中心元素之间距离进行分析，根据计算的数值确定元素和中心元素之间的关系。

K-Means 聚类算法流程操作，如图1所示。

图1　K-Means 聚类算法图1.2　局限K-Means 聚类算法包括划分法、层次法和基于模型的算法。

这些算法的缺点是对样本数据进行了假设处理，而这种假设处理方式无法在大数据收集和整理中发挥作用。

同时，K-Means 聚类算法能够挖掘的聚类个数依赖用户指定的参数信息，使用上对用户要求过高。

2　基于MapReduce 分布式K-Means 聚类数据优化分析2.1　初始阶段聚类中心优化传统K-Means 算法中心的选择具有很强的随意性，使得算法在获得局部最优值时会停止。

K-Means 聚类算法研究的重点之一是获得算法的终止最优解。

应用Canopy 聚类能够对中心初始数据进行优化，对于在各个集群中的数据子集，可以应用Canopy 算法计算产生多个局部中心，之后应用局部中心获得全局中心数据的集合。

2.2　迭代优化K-Means 聚类的迭代优化过程需要计算数据对象到每一个簇中心的距离，并对簇中心所属类型进行标注。

创建Canopy 聚类时，需要保证划分后的簇至少包含这个簇的一个元素，每一个数据点都需要落在Canopy 上。

K-Means 聚类结果示意图，如图2所示，实现圈代表的是重叠之后的canopy。

实际上，数据点分布在虚线圈的五个簇中。

在这五个簇中，每一个至少包含一个canopy。

簇A 例外，被两个canopy 包含。

根据canopy 的基础上，对分布在现有站点数据子集独享进行分析，通过Map 函数计算出Canopy 聚类和哪一个簇的中心距离近。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于k—means聚类算法的试卷成绩分析研究第39卷第4期2009年7月河南大学(自然科学版)JournalofHenanUniversity(NaturalScience)V o1.39NO.4Ju1.2009基于k—means聚类算法的试卷成绩分析研究谭庆'(洛阳师范学院信息技术学院,河南洛阳471022)摘要:研究_rk-means聚类算法,并将此算法应用于高校学生试卷成绩分析中.首先对数据进行了预处理,然后使用k-means算法,对学生试卷成绩进行分类评价.用所获得的结果指导学生的学习和今后的教学工作.关键词:数据挖掘;聚类;k-means算法;试卷成绩中圈分类号:TP311文献标志码:A文章编号:1003—4978(2009)04—0412—04 AnalysisandResearchofGradesofExaminationPaper BasedonK—meansClusteringAlgorithmTANQing(Acaderny.l,InformationTechnologY,LuoyangNormalUniversity,LuoyangHenan47102 2,China)Abstract:Thispaperresearcheslhekmeansclusteringalgorithmandappliesittotheanalysiso fthegradedataof examinationpaperofhighereducationschoolSstudents.Firstly,itpreprocessesthedatabefor eminingThen,itusesthek—meansalgorithmtoclusterstudentsgradesofexaminationpaperandgivesevaluation.Theobt ained knowledgecanbeappliedintoguidingthesludentsandteachersintreirstudyandteaching. Keywords:datamining;clustering;kmeansalgorithm;gradesofexaminationpaper0引言传统的数据分析方法是统计分析法,该方法只是对事实的验证,描述已经发生的事实,难以发现数据中存在的关系和规律,也难以根据现有的数据预测未来的发展趋势.由于它缺乏挖掘数据背后知识的手段,因而导致了"数据爆炸但知识贫乏"的现象.面对这一挑战,数据挖掘(DataMining,DM)l和知识发现(KnowledgeDiscoveryinDatabase,KDD)技术应运而生,并逐渐显示出了强大的生命力.在高校中,考试成绩是评估教学质量的重要依据』,也是评估学生是否掌握好所学知识的重要方式.试卷分析是考试过程的一个重要环节.聚类是深层次的数据信息分析方法,将聚类们技术应用于试卷成绩分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之问隐藏的内在联系【.1k—means聚类算法给定一个包含个数据对象的数据集,以及要生成的簇的数目是,一个划分类的算法将数据对象组织成k个划分(是≤),其中每个划分代表一个簇.通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对象是"相似的",而不同簇中的对象是"相异的".最着名且最常用的基于划分的方法是k—means算法.k—means算法的处理流程是:首先随机地选择k个对象,每个对象代表一个簇的初始均值或中心.对剩余的每个对象,根据其与各个簇均值的距离,将它指派到最相似的簇.然后计算每个簇的新均值.这个过程不断重复,直到准则函数收敛. 收稿日期:2008—123O基金项目:河南省科技攻关资助项F1(0524220059)作者简介:谭J灭(1977一),男,河南洛阳人,讲师,硕士.主要研究方向:数据挖掘和程』设计谭庆:基于kTmeans聚类算法的试卷成绩分析研究413通常k—means算法的准则函数采用平方误差准则,定义为:E一>:>:...,I一ml.(1)''一'— (i)其中E是数据集中所有对象的平方误差的总和,是给定的数据对象,m是簇c的平均值(p和m都是多维的).这个准则的作用是使生成的簇尽可能地紧凑和独立.对处理大型数据集而言,k—means算法是相对可伸缩的和高效的,因为算法的复杂度为0(ntk),并且是和t通常都远远小于.这里是数据对象的个数,k是簇的个数,t是迭代的次数.2基于k—means聚类算法的试卷成绩分析目前,在高校管理中,特别是对学生的试卷管理工作中,普遍存在的问题是学生试卷成绩数据量过于庞大,但目前对这些数据的处理还停留在初级的数据备份,查询及简单统计阶段.对于学生取得这些成绩的原因往往无法了解,使得这些数据还不能发挥它应有的作用.如何利用这些数据理性地分析教学中各方面的成效得失以及找到有关影响学生学习成绩的因素是广大教师们共同关心的问题. 聚类是深层次的数据信息分析方法.将聚类技术应用于对试卷成绩的分析无疑是非常有益的,它可以全面地分析考试结果与各种因素之间隐藏的内在联系.通过聚类分析,其评价结果能给教学带来前所未有的收获和惊喜.本文着重讨论了k—means聚类算法在试卷成绩数据中的应用,得出一些有趣的知识,对教学质量的提高起到积极的促进作用,以此来帮助教学工作的顺利进行.学生试卷成绩的划分类别分析评价属于聚类数据挖掘.选用的模型是典型的划分方法k—means算法模型,无需高昂的代价收集和标记大量训练元组集或模式.首先,基于数据的相似性把数据集合划分成组,然后给这些数量相对较少的组指定标号.这种基于聚类的过程的另一个优点是可以适应变化,并且能够挑选出区分不同组的有用特征.2.1数据预处理数据的预处理是数据挖掘过程中一个非常重要的环节,一般需要占去挖掘过程中7O的工作量.经验表明,如果数据准备工作做得非常细致,在模型建立阶段就会节省大量的精力. 1)数据集成数据集成就是将来自多个数据源的数据合并到一起.本研究中,成绩数据库中包括了学生的平时作业成绩及课程的考试成绩.这个数据库由教师在教学过程中产生.将数据采集得到的多个数据库文件,利用数据库技术生成学生试卷成绩分析基本数据库.随机抽取一个年级学生的一学期的课程(如电路基础,离散数学,数据库,C语言程序设计,马克思主义哲学,英语和体育)的成绩,如表1所示. 为学生学号,k.为电路基础的成绩,k.为离散数学的成绩,k.为数据库的成绩,k为C 语言程序设计的成绩,走.为马克思主义哲学的成绩,为英语的成绩,k为体育的成绩.表1学生试卷成绩分析基本数据表Tab.1Basicdatasheetofanalysisofstudentsexaminationpapergrades2)数据清理数据清理的主要工作就是填补遗漏的数据值.在学生试卷成绩分析基本数据库及调查表中我们看b一∞踮‰一∞∞∞∞乜一∞够鹪一∞∞∞n∞踮盯∞∞∞一跗踞一%踮盯略∞一优良良良优良良及良及良123456789OlOOOOOOOOO11OOOOOOOOOOO444444444【lI【【llIII【【Il【__lIIll}}lI!}llOOOOOOOOOOO414河南大学(自然科学版),2009年,第39卷第4期到,有一些我们感兴趣的属性缺少属性值,对于这些空缺,可以使用数据清理技术来填补.有很多种方法可以为属性填写空缺值,比如:忽略元组,人工填写空缺值,使用一个全局常量填充空缺值等.在本例中,采用忽略元组的方法删除退学,休学,转学,没有参加考试或有大量的空缺项的学生的记录.对于其他个别空缺,因为总记录数不算太多,且空缺值较少,采用人工填充的方法处理.填充原则是使用该记录其他属性的平均值填充此空缺值.经过数据清理后,总记录数为146条.3)数据转换数据转换主要是对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘.在对学生试卷成绩进行聚类分析挖掘时,需要数值型数据,所以应把学生试卷成绩表的数据转换成数值型按通常的百分制表示.因为电路基础课程评的是等级分,所以将"优"转换为"90","良"转换为"80","中"转换为"70","及"转换为"6O","差"转换为"0".其他课程本身就使用百分制,无需再转换.接下来采用最小一最大规范化方法将百分制成绩规范化到[0,1]上.将表1转化为聚类算法便于处理的格式,如表2所示.表2聚类分析数据表Tab.2Datasheetofclusteringanalysis2.2k—means聚类算法的应用与结果分析本文实验环境是P42.4GHz,512MB内存,WindowsXP专业版操作系统.k—means 聚类算法在VisualC++6.0环境下用C++语言实现.将表2中总共146条记录作为k—means聚类分析的数据,给定聚类数为3.运行k—means算法程序后,将146条记录聚类成3簇,最后各簇均值数据如表3所示.表3各簇均值数据表Tab.3Datasheetofeveryclustersmean通过对实验结果的分析可以得出,簇1中的学生都是考试成绩较好的,簇2中的学生考试成绩较低,簇3中的学生考试成绩介于簇1和簇2之间.簇1中包含51条记录,占总数的35;簇2中包含34条记录,占总数的23;簇3中包含6】条记录,占总数的42%.也就是说,约有35的学生考试成绩较好,约有42的学生考试成绩中等,约有23的学生考试成绩较差.较差的学生比例有些高,在今后教学中,要更加关注簇2中的学生,帮助他们提高学习成绩.簇2均值中的k.值为0,说明电路基础课程得到最低分的学生都在此簇中.另外也说明电路基础课程评为等级分不够合理,这样最低等级分的学生k值都会为0.在今后的教学中,电路基础课程应采用百分制,这样才能更好地,比较精确地打分.簇1均值中的k.一是的值在3个簇的均值中都是最高的,但尼的值却是3个簇的均值中最低的.这说明簇1中的学生除体育外的其他课程成绩都较好,但体育成绩较差.在今后教学中,应注意督促那些成绩较好的学生上好体育课,多参加课外活动,多锻炼身体.谭庆:基于k—means聚类算法的试卷成绩分析研究4153结束语本文研究了k—means聚类算法,并将此算法应用于试卷成绩分析中.首先对数据进行了预处理,然后使用k—means算法,对学生试卷成绩进行划分类别分析评价.针对不同类别的学生,提出了相应的教学建议,指导学生的学习和今后的教学工作.参考文献:[1]uMFayyad,GPiatesky—Shapiro,PSmyth.Fromdataminingtoknowledgediscovery:Anoverviewqdvancesinknow ledgediscoveryanddatamining[R].Califonia:AAAI/MITPress,1996.[2]JainAK,MurtyMN,FlynnPJ.Dataclustering:Asurvey[J].ACMComput.Surv.,1999(31 ):264—323.[3]JinHanjun,WangXiaorong,WangYanlin,eta1.Studyandapplicationofgeneticalgorith mincomputertestconstruction[c]//ProceedingsofISCIT,2005[c].Beijing:BeijingUniversityofPostsandTelecommunica tionsPress,2005.[4]HanJiawei,MichelineKamber.数据挖掘概念与技术[M].2版.北京:机械工业出版社,2007.[5]马希荣,孙华志.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):5l一54.[6]MehmedKantardzic.数据挖掘——概念,模型,方法和算法[M].北京:清华大学出版社,2003.[7]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:水利水电出版社,2003.责任编辑:党兰学。