当前位置:文档之家› 国外作文自动评分系统评述及启示

国外作文自动评分系统评述及启示

国外作文自动评分系统评述及启示
国外作文自动评分系统评述及启示

第117期2007年10月

外语电化教学

CAFLE

No.117

Oct.2007国外作文自动评分系统评述及启示

梁茂成,文秋芳

(北京外国语大学中国外语教育研究中心,北京100089)

?鬣杠昕有主膏自负?

摘要:本文依据语言测试领域的作文评分要素,对国外具有代表性的三种作文自动评分系统进行评介和比较,指出这些评分系统在训练及作文的人工评分方法和机器评分效度等方面存在的问题,并分析这些作文自动评分系统为我国自主开发作文自动评分系统所提供的借鉴作用。

关键词:作文自动评分;模型;评分要素;信度;效度

中图分类号:H319.3文献标识码:A文章编号:1001-5795(2007)10-0018-0007

作文是大规模语言考试(如TOEFL,GRE,IELTS等)中的一种必备题型。通过作文可以检测应试者综合运用语言的能力。然而,大规模作文阅卷面临两大难题:其一,阅卷需要耗费大量人力、物力等资源;其二,评判作文质量具有很强的主观性,阅卷的信度(pliability)和效度(validity)不强(Johnsonetal,1991)。近几十年来,随着计算机硬件和软件性能快速提高,自然语言处理等技术获得了长足的发展,国外一批作文自动评分系统相继问世,这两个长期困扰大规模作文阅卷的难题有望得到解决。

本文对国外最具代表性的三种作文自动评分系统进行述评。这三种系统是:PEG(PmjeetEssayGrade)、IEA(IntelligentEssayAssessor)和E—rater。PEG重语言形式,IEA重作文内容,E—rater则既重形式又重内容。一般说来,作文评分应形式和内容并重,围绕作文的语言质量、内容质量和篇章结构质量三个主要方面进行(Blok&deGlopper,1992;Purves.1985;Weigle,2002;梁茂成,2005),然而这三种系统侧重各有不同,在这三个方面的分析力度也存在很大差异。通过对比分析,笔者力图揭示这些作文自动评分系统的优势与劣势,以期对开发我国学生作文自动评分系统有所启示。I国外作文自动评分系统述评

1.1PEG.一个重语言形式的评分系统

PEG于1966年由美国杜克大学(UniversityofDuke)的EllisPage等人开发(Daigon,1966;rage,1966)。PEG的设计者们认为,计算机程序没有必要理解作文内容,大规模考试中尤其如此(Shermiseta1.。2001)。因此,他们在其网站上公开申明:“PEG不能理解作文的内容”(http://134.68.49.185/PEG-DEMO/)。

在PEG的开发者看来,作文质量的诸要素是作文的内在因素,无法直接测量,因此,最为合乎逻辑的方法是从作文文本中提取一些能够间接反映作文质量的文本表层特征项(surfacefeatures)。Page首先收集了一部分人工评分后的作文(训练集),利用当时并不发达的自然语言处理技术,从作文中提取若干个文本特征项(textfeatures),并在这些文本特征项与人工评分之间进行相关性分析。然后,Page选择与人工评分相关的文本特征项作为自变量,把人工评分作为因变量,进行多元回归分析,得到回归方程。回归方程为每一个变量确定了beta值,这样,在对新的作文进行评分时,PEG只需要提取这些变量,并把beta值代人回归

作者简舟:粱茂成:男,博士,教授。研究方向:应用语言学厦计算语言学。

文秋芳:女,教授。研究方向:语言学覆应用语言擎。

收稿日期:2007-01.1.5’

基金项目:本研究得到教育部人文社科项目(编号06JA740007)和中国外语教育研究中心重大研究项目的资助,在此一井致谢。?18?

 

墨蕉盛:笙!垦盐堡墨自塑堡坌墨丝塑垄垦生至

方程之中+就可以预测出这些作文的得分。经过开发者的多年努力,PEG“目前的程序中使用很多复杂的变量”(Page&Peterson,1995)。遗憾的是,对这些所谓“复杂的变量”,PEG的开发者们没有详细报告,展现给我们的仅是一个“黑匣子”(Kaplaneta1.,1998)。比较Page和Peterson(1995)和Page(1968)的变量列表,他们的确增加了几个冠以代码的新变量,其中部分变量可能的确比早期的更加复杂,但PEG的理论基础和工作原理没有发生根本的变化(Page,1994)。

由此看来,PEG实现作文自动评分有三个步骤:变量提取、多元回归分析和把多元回归得到的hem值代入计算机程序换算出作文得分(Chung&O'Neil,1997;Page,1994)。

概括起来,PEG的技术大体包括两方面:其一,PEG使用的统计方法是多元线性回归,以此来确定各变量的beta值,这样,基于训练集作文而构建的统计模型便可以用来为新的作文进行自动评分。这一技术合理而容易理解,后期出现的作文自动评分系统大多采用这一技术。其二,自然语言处理技术是PEG提取变量的主要方法。基于这两种技术,PEG取得了很好的评分效果。有关PEG的技术报告中申明,PEG的评分结果与人工评分结果十分一致。据Page(1994)和Page和Peterson(1995)报告,PEG在1994年的实验中取得了很好的结果,多元回归系数(multipleR)达到了R=0.877。

i.2lEA.一个重内容的评分系统

IEA(IntelligentEssayAssessor)是一种基于潜伏语义分析(LatentSemanticAnalysis)的作文自动评分系统,由美国科罗拉多大学的ThomasLandauer等学者开发。与PEG显著不同的是,IEA的设计者们在其网站上申明:“IEA是唯一能够测量语义和作文内容的程序”(http://tsacolorado.edu)。据IEA的设计者们报告,潜伏语义分析主要分析文本的内容和学生作文中所传达的知识,而不是作文的风格或语言(Foltzetal,1998)。

根据Landauer和Dumais(1997)的描述,潜伏语义分析既是一种理论,也是一种技术。这种理论认为,在文本中隐藏着一个潜在的语义结构(senlantiestrac?tura).这一潜在的语义结构正是所有词汇(潜伏语义分析称之为“词汇项”,即temm)的语义之和(Dumaiseta1.,1982)。然而,由于自然语言中存在大量的多词同义(synonymy)和一词多义(polysemy)现象,常常使得语义结构带有大量的干扰信息(noise)。从技术的角度看,潜伏语义分析是一种矢量空间模型(VectorSpaceModel,VSM)技术,但与一般的矢量空间模型相比.这种技术能够通过减少维数(dimensionality)的方法(Landauer&Dumais,1997;桂诗春,2003),有效地过滤干扰信息,提取数据中的潜在语义结构(Chung&0’Neil,1997)。潜在语义结构可以通过一个词汇项一文档矩阵(terlll-by—documentmatrix)来代表,矩阵中的每~行代表一个词汇项,每一列代表一个文档,而矩阵的每一个单元格中填人对应词汇项在对应文档中出现的频数。

使用矩阵代表潜在语义结构的好处,是对矩阵可以进行一种称之为奇异值分解(SingularValueDecem—position。SYD)的矩阵运算,通过该运算,原来的矩阵可以被分解成为三个不同的矩阵。减少维数后,对这三个矩阵进行进一步的运算,可以重建一个矩阵。重建后的矩阵因为使用了较少的维数,与原来的矩阵相比,可以更好地代表潜在语义结构。该矩阵保持了原来矩阵中最重要的语义联想关系(associationpattern.s),同时又排除了大量的干扰信息(Decrwestexeta1.,1990;Dumaiseta1.,1982;Landauereta1.,1998)。

将潜伏语义分析用于学生作文自动评分时,待评分的作文与预先选定的范文(训练集)被视作为矢量,对矢量进行比较之后,可以得到每一篇待评分{乍文与范文在内容上的相似度得分(similarityscore)。该得分被直接视为机器评分或经过转换后得到机器评分(Foltzeta1.,1999)。根据Landauereta1.(2000)的报告,该系统所评出的作文得分与人工评分之间的相关性达到r=0.85。

1.3E-rater.一个模块结构的混合评分系统

E.rater是由美国教育考试处(EducationalTestingService,ETS)于20世纪90年代开发,其目的是评估GMAT考试中的作文质量(Bursteineta1.,1998a;1998b;1998e)。据Bursteineta1.(2001)、Coheneta1.(2003)和Valenfieta1.(2003)的描述,E-rater自1999年以来已经进人操作阶段,至2003年,共评定作文750,000篇。

E.rater的开发者们声称,他们的作文评分系统利用了多种技术,其中包括统计技术、矢量空间模型技术和自然语言处理技术(Valenfieta1.2003)。凭借这些技术,E-rater不光能够像PEG那样评判作文的语言质量,还能够像IEA那样评判作文的内容质量。除此之外,E.rater还对作文的篇章结构进行分析。

与PEG相类似,E—rater的评分方法基于线性回归

?19?

 

鲞垄盛:釜!垦盐堡叁自堂堂坌墨堕堡堡垦生至表l三种作文评分系统比较

模型(Powersel:a1.2000)。E-later围绕三个主要方面对作文的质量进行分析和评判,Burstein等人把这三个方面称作为模块(BurRtein&Mareu,2000)。E.rater的第一个模块为话语(discourse)结构(亦即篇章结构)分析模块,主要靠在文本中搜索“Insummary”、“Incoil-clusion”等提示词(cuewords)的方法得以实现(Burst-eineta1.,1998b)。E-rater的第二个模块为句法多样性(syntacticvariety)分析模块,根据作文中句子结构的多样性来评判作文的质量。显然,该模块的目的是分析作文的语言质量。E-rater的第三个模块为内容(content)分析模块。在这一模块中,E—rater通过矢量空间模型,观察作文中是否包含了足够的与作文题目高度相关的主题词。

E?rater的三个模块中分别包括哪些变量,有关报告一直含糊其辞(或许是出于商业方面的考虑)。Ku.kith(2000)报告说E—later可以提取100多个变量,Powerseta1.(2000)声称E—rater可以提取50多个变量,而AttalJ和Burstein(2004:5)的报告则说最新版本的E—rater“依据有关理论对写作能力的若干方面给予考虑”,只提取12个变量。

综合以上介绍不难看出,E?later在自动评分过程中力求兼顾作文的内容和语言形式,是一种混合的自动评分系统。根据Bursteinetal。(2001)和Valentieta1.(2003)的研究报告,E-rater与人工评分之间的一致性o(agreement)一直高于97%。

1.4现有作文自动评分系统比较

表l总结了以上三种系统的分析重点、内核技术、长处和不足。

PEG只测量作文中的语言质量,不顾及作文内容和篇章结构,其评分效度显然值得质疑。由于PEG的开发者坚信文本的形式特征对作文质量的解释能力,而计算机无法也没必要分析作文的内容质量,因此他们只运用自然语言处理技术提取变量,并通过多元回.20?归的统计技术预测作文的得分。随着近几十年来自然语言处理技术的发展,PEG近来版本中的变量提取技术可能更为复杂,但总体上说,PEG的作文评分仍旧完全依赖作文形式特征(即语言)的提取。

IEA注重对作文内容的分析,利用信息检索中的潜伏语义分析法进行作文的自动评分。客观地说,这是作文自动评分的一个重大突破,但由于该方法只能对作文内容进行评价,置作文的语言质量于不顾,难免令人对评分效度质疑。据称IEA近来也在试图从作文中提取一些体现语言质量的变量(Landaueret81.,2003),如拼写错误等,但IEA对作文语言质量的测量效果远远比不上其对作文内容质量的测量效果。IEA原本设计为评价本族语作文所用,因此重内容、轻形式的做法后果可能不那么严重,但如果用于评测外语学习者的作文。其信度和效度就很难达到完美。

与前两种系统相比,E—later显然考虑到了更多的作文评分要素,因此更加符合写作测试的要求。从某种意义上来说,E-later与PEG,十分相似,它们都使用自然语言处理技术从训练集作文文本中提取若干变量,并通过回归分析来确定所有变量对作文质量的预测能力。与此同时,E—rater与IEA也存在一定的相似之处,两者都使用矢量空间模型技术对作文的内容质量进行分析。E—rater的独到之处在于,它没有像PEG那样忽视对作文内容的分析,也没有像lEA那样将作文的语言质量置之于不顾。除此之外。E—later对作文的篇章结构质量也给予了一定的考虑。由此可见,E.1ater在评分过程中考虑到了作文质量的更多方面,更大程度地模拟了人工评分的过程,也更多地使用了其它学科的技术,因而与另外两种系统相比,评分信度和

●现有的大部分机器评分系统的研究报告中一般都通过计算相关性的方珐报告评分的信度.但E—rsatz一直采用完全及相邻呀合百分辜(percente,t,tetoplut-adj∞封nag"ten世nt)的方{击报告评分的信度。

 

鲞蕉盛:量!旦盐堡圭自垫堡坌垒丝堑垄垦壁至

效度可能更高。

然而,E?rater的自动评分技术也并非无懈可击。首先,其语言质量分析模块对语言质量的若干方面的分析显然不够全面。众所周知,对学生作文中语言质量的分析应该包括词汇、句法、语言的准确性等多个方面,而E—rater对语言质量的分析主要考虑的只是作文中的句法多样性,这势必会影响机器评分的效度。其次,与IEA相比,E—rater的内容质量分析模块显然尚有提高的余地。E—rater与lEA所使用的矢量空间模型技术的不同之处,在于两者同是信息检索技术,但前者是一种基于主题词分析的技术,而后者使用的潜伏语义分析法则是一种降维(dimensionalltyreduction)技术(参见Chtmg&O’Nell,1997)。若干研究(如Deer-westereta1.,1990;Dumaiseta1.,1982;Fol乜eta1.,1998;Landauereta1.,1998等)表明,潜伏语义分析法的降维技术可以有效地去除文本中的干扰信息,对处理多词同义和一词多义具有良好的效果。据称,为了提高搜索效果,大名鼎鼎的搜索引擎Ooogle都使用了潜伏语义分析法(http://www.searchenginejoumal.corn/index.php?p=1296),E—rat.er对作文内容的分析方法未免略显落伍。我们认为,lEA对作文内容的分析方法值得借鉴。第三,E—rater的篇章结构分析模块靠搜索作文中的Inconclusion等话语标记语,容易被考生识破,导致不利的反拨作用(washbackeffect)。

综合以上分析,PEG的语言分析技术值得弘扬,lEA以内容分析技术见长,而E-rater的模块分析方法更符合语言测试的要求,但三种系统同时也存在各自的不足之处。

2国外作文自动评分系统的启示

作文自动评分是一种十分复杂的技术,需要合理利用多学科的技术,结合语言测试理论,才能达到理想的效果。对以上三种作文自动评分系统的分析和比较为我们开发自主的作文自动评分系统提供了以下启示:

2.1应最大限度地提高训练集作文人工评分的信度作文自动评分的目的是利用多学科技术有效地模拟人工评分,以达到快速评定作文质量的目的。因此,在对计算机评分模型进行训练时,训练集作文人工评分的信度至关重要。只有有效地模拟具有较高信度的人工评分,计算机评分才有意义。

根据Barrett(2001)和Stemler(2004)的研究,评分员间的信度达到r=0.70左右才是可以接受的,但现有作文评分系统在对训练集作文进行人工评分时常常达不到这样的信度要求,可能使得计算机评分模型很难模拟到人工评分的精髓。

根据Page(2003)的研究报告,在PEG最早的一次实验中,4名人工评分员的评分信度介于r=0.44和r=o.57之问,平均值仅为r=O.547;在PEG1994年的实验中,5名人工评分员的评分信度介于r=0.389和r=o.581之间,平均值仅为r=0.489;即便是在信度最高的1995年的实验中,5名评分员的评分信度也只介于r=O.550和r=0.748之间,信度平均值也只达到r=O.647。可见,尽管PEG的评分与人工评分之间具有较高的一致性,其训练集作文的人工评分信度明显偏低。在lEA所进行的几次实验中,所评分的作文并非来源于学生的语言测试,而主要是以英语为本族语的学生历史学、心理学等学科的论文(Landauereta1.,2003),人工评分也主要以论文的内容是否准确为依据,且研究者对评分过程并未作任何说明。E—rater的评分依据是ETS相关考试中的评分量表,但因其信度报告不采用传统的相关性分析,而使用容易夸大信度(Stcmler,2004)的完全及相邻吻合百分率,故而很难用统计学方法衡量其评分信度的优劣。但根据Page(1994)年的报告,E鸭考试中,人工评分员间的信度一般介于r=0.50和r=0.60之间,显然也并不高。

为了使得计算机评分模型能够更好地模拟人工评分,我们有必要在训练集作文的人工评分方面多下功夫。语言测试领域的作文评分方法主要有整体评分(holisticsc埘rIg)和分析型评分(analyticalscoring)两种,后者虽耗时费力,但更有利于提高评分信度(Wei-gle,2002)。根据以上三种评分系统的研究报告.在对这些评分系统的评分模型进行训练的过程中,系统所模拟的人工评分大多并非出自于分析型评分。我们认为,分析型评分虽然耗时费力,但若组织为数不多的几名资深评分员采用分析型评分方法对训练集作文进行精细评分,以相对较小的投入对计算机评分模型加以训练,换取大规模考试中较高的评分信度,理所当然是值得的。

2.2机器评分模型的模块结构应与测试学理论相吻合。以提高机器评分的效度

评价对学生作文的评分是否合理,所需考察的另一个方面是评分的效度(Bachman,1990;McNamera,1996)。如上文所述,对作文进行评分一般至少需要从作文的语言质量、内容质量和篇章结构质量三个主要方面对作文的整体质量加以衡量。

?21?

 

以上三种作文自动评分系统在评分过程中并未能够很好地兼顾这三个主要方面,因而评分的结构效度(constructvalidity)值得质疑。PEG虽然对作文的语言质量有着较强的分析能力,但忽略了作文的内容质量和篇章结构质量,因而其评分结果存在较大的效度问题。与此相类似,IEA突出了评分过程中作文内容的重要性,但忽略了作文的语言质量和篇章结构质量,显然也存在较大的效度问题。与这两种系统相比,E-rat-er虽然以其模块结构兼顾了作文质量的三个主要方面,但每个模块的分析能力尚可进一步提高。

使用计算机对学生作文进行自动评分,应该最大限度地模拟人工评分过程,考虑作文的语言质量、内容质量和篇章结构质量等评分要素,同时对这些要素进行周密的细化,从作文文本中提取最能够体现这些方面的文本特征项,以充分提高机器评分的效度。

2.3评分模型中的内核技术问题

内核技术是机器评分模型能否有效预测作文整体质量的关键。上文评述的三种作文自动评分系统的设计都利用了多种现代技术,主要包括统计技术、自然语言处理技术和信息检索技术;但由于所使用的技术及其成熟程度不同,各系统的分析能力也因此存在较大差异,对作文评分结果必然产生较大影响。在构建我国自主的作文评分模型时,应该对以上三个系统的合理技术进行充分利用,同时摒弃其中不合理的部分。

多元回归的统计技术已经成为作文自动评分系统中的基本技术。从作文文本中提取多个文本特征项作为自变量,以人工评分作为因变量,通过多元回归分析的方法为待评分作文进行自动评分,这种方法直接、易于理解且便于操作(Chung&O’Neil,1997)。PEG和E.rater从问世以来一直使用这种统计技术,且IEA的最新发展(Landaueretal,,2003)表明其设计者们也正在考虑在其产品的技术内核中融人多元回归的统计技术。可见,多元回归的统计技术已经成为作文自动评分中的基本技术,在构建我国自主的学生作文评分系统时应可以借鉴。

能否合理利用自然语言处理技术,从学生作文文本中挖掘对作文的语言质量和篇章结构质量具有解释力的变量,此项技术利用得好坏关系到作文自动评分系统的成败,需要做很多细致的工作。自然语言处理技术的最新发展为提高作文自动评分模型对作文质量的预测能力提供了有力的技术保障。正是由于自然语言处理技术对作文自动评分系统至关重要,PEG以自然语言处理技术作为立足之本,E-rater也以自然语言?22?处理技术作为其提取变量的重要途径,而且两种系统都取得了令人鼓舞的效果。然而,由于现有作文评分系统中的大部分变量对外保密,我们要开发自己的作文自动评分系统,就有必要从语言测试理论出发,利用自然语言处理技术反复尝试多种文本特征项,力争挖掘出能更直接地反映作文水平的变量(Kukich,2000)。

作文自动评分中利用信息检索技术的主要目的是为了分析学生作文的内容质量。从以上三种评分系统看,PEG完全忽略了对作文内容的分析,因而其评分效度受到了学界的质疑(Chung&O’Neff,1997)。IEA和E-rater在分析作文内容时都使用了信息检索技术,所不同的是E.1ater的内容分析技术基于作文中的主题词,而IEA利用了潜伏语义分析法,有效地解决了同义词问题和一次多义问题,从而极大地提高了作文内容的分析效果(Chung&O’Neil,1997)。从已有的研究看,将信息检索技术应用于作文内容的自动分析是一种可行的方法,但基于主题词的内容分析法有着显而易见的弱点。为了最大限度地提高作文内容分析的效果,作文评分系统中有必要融人最先进的信息检索技术。

因为自动分词的准确性是汉语自然语言处理中的瓶颈问题之一。对汉语作文进行自动评分,变量可能更难以挖掘,这需要国内自然语言处理界同仁的不断努力。由于英语不需要自动分词,而英语作文自动评分系统的开发对提高我国大规模英语考试的效率,对减少资源消耗意义重大,因此我国开发自主的英语作文评分系统既具有较大的可行性,又有必要性。

3结论

作文自动评分系统在对评分模型进行训练时,应该使用分析型评分方法以提高作文评分的信度,同时应充分结合语占测试领域的理论,围绕作文的语言质量、内容质量和篇章结构质量对作文进行人工评分,并以所得到的评分对自动评分模型进行训练,以提高机器评分的效度。

由于所使用的核心技术的不同,国外现有的作文自动评分系统对作文质量诸方面的分析能力存在较大差异。一个合理的作文自动评分系统应该充分利用统计技术、自然语言处理技术、信息检索技术及其它可能利用的技术,从作文文本中挖掘能够直接反映作文质量的文本特征项作为变量,有效地提高评分模型对作文质量的预测能力。

 

分析国外现有作文自动评分系统的得与失。对开automatedessaysconng[c].PaperpresentedattheIAEA发我国自主的作文自动评分系统具有十分重要的意29thA一血Conference-Manchester,u‘,2003?

义。通过计算机对学生作文进行自动评分是一个复杂

[10]Daigon,AtComputergradingof8喇8heomposition[J]_

的过程,需要总结前人的经验并不断汲取新的理念、开8“dj8“Joumal55.1,1966:46—52’

燮篓嬲曼尊譬懋娑懈具翌n嵋=慧?=:’=三篡:测力的变量,保证机器评分的信度和效度。口=:二n毒:二fj;:::::’of忆A。。二:s耐唧for

参考文献InformationScience,41,391—407?1990

[12]Dumais.S.,Furaas,G,Landauer,T.Deerwester,S.&

[1]Attali,Y.andBurstein,J.AutomatedessayscoringwithE?Harshm∞,R.UsinRLatentSemantic

Analysi8toImprove

raterV-2,0[A].PaperpresentedmtheConfemnce0ftheAccesBtoTextualInformation[J].Machine

Studies,1982,

InternationalAssociationforEducationalAssessment

17.87—107.

(n】认),Ph/laddphia.June13—18,2004.[13]Foltz,P.W.,Ⅺn乜ch.W&Land且uer,T.K.The[2]Bachmm,LF.Fundamentalconsiderationsinlanguageme∞u∞memoftextualcohemncewithLatentSemanticA-tmfing【M].OxfordandNewY诎:OxfordUniversitynalysl8[J].DiscourseProc∞Ⅻ.1998,25,285—308.Press,1990.[14】Foltz,P.W.,1..aham,D.,&Landauer,T.K.TheIntel一[3]Blnk,H.,anddeGlopper,K.1992.姆scalewritingligentEssayAsse8sor:ApplicatlomtoEducationalTechn01.atmcssmcftt[A].InLVerhoevenandJtH.A.LDeJongo科[J].InteracfiveMultimediBEl曲onlcJour蚰IofCom_(eds.).11.eoonstructoflan伊啦proficiency[C].Amster-puter-EnhancedLeanung,1999,1(2).

dam/Philadelphia:JohnBenjamms,1992:101—111?【15]Kaplan,R.M.,Wolff,S.E.,BumteinJ.,LuC.,

[4]Bmstein,J.C..Kuldch,K.,Wolff,S..La,c.,Chodor-

Rock。D.A.,&Kaplan,B.A.Scoringessay8automall.scoringusingahyb谢featureidentificationtechnique[A].94—21P),Ptinceton,NJ:EducanonalTestingService。

InTheProceedingsoftheannualmeetingoftheAssociation1998.

Chodoww,M.E,ufichlngautomated∞ofingusingdiscourseScoring.IEEEIntelligentSystems[C],September/Otto-

TestingService,1998c(Ede),Proceedingsofthe18thinternationalACMSIGIRM.Towardsautomaticclassificationofdiscourseelementsintrleval[c].1997.

cern口fortheStudyofEvaluation,1997.(eds.),TheDebate011AutomatedEssayScoring.IEEE 

scoringandannotationofessays

withtheIntelligentEssayautomatedandhumanessay

scoring(R](GRE

BoardRe.

Assessor[A]InShemfis,M.D.&Burstein.J.(eds.).

searchReport

98—08aR).PIincm,NJ:Educatiohal

Automated

EssayScoring:ACross-Diseiplinal3”Perspective

TestingSe而ce.2000.

[C]LawrctrzeErlheumAssociates,Mahwah,ⅣJ.,

[2s]PLLrⅧt

A,C.Insearchof

an

internationallyvalidscheme

2003:87—112

forscoring

compositions[J].CollegeComposition

and

[22]McNamara,T.MeasuringSecond

Language

Performance

Communication.1985,35,426—438.

[M].AddisonWesleyLongmanLimited:NewYork,

[29]Shennis,M.,Mzumara,H.R.,Olson,J.肌dHarIing-

1996?ton,S.On-lineGradingofStudentEssays:PEGgoes

Off

[23]Page.E.B,Gradingessays

bycomputer:Progressreport

theWorldWideWeb[J].Assessment&Evaluationin

[A].In

Educational

TestingService(Ed.),Proceedings

Higher

Education。2001,26(3):.

0fthe

InvitationalCooference

on

TestingProblems[C].

[30]Stemhr,S.E.AⅧp“s∞0fCOI'mEtSUB,consistency,

NewYork

City:Princeton,NJ:EducationalTestingServ-

andmeasurementapproaches

to

estimatinginterraterrells-

ice.1966:87—10.

bility[J].Practical.A日Ⅻ8mnt,Beseamh&Evaluation,

[24]Page,E.B.TheUseoftheComputerinAnMyzingStudent

2004。9(4).

Essays[J]Im'l胁.Education,V01.14,1968:210—223.

[31]Valeafi,S.,Neff,F.andCucehlardll,A.Anoverviewd

[25]Page,E.B

Newcomputergradingofstudentprose,using

current

research

on

automatedessaygrading[J].Journalof

modemconceptsandsoftware[盯.JournalofExperimental

Information

TechnologyEducation.Volume2.2003.

Education,1994.62(2):127—142.

[32]Weigle,S.C.Assessingwriting[M].Cambridge

Unlversi-

[26]Page,E,&Peterson.N.S.TheComputer

MovesintoE矗_tyPI"I!Sfl:Cambridge.2002.

say

Scoring:Updating

the

AncientText[J].Phi

Deha

[33]桂诗春.潜伏语义分析的理论及其应用[J].现代外语,

KappanMarch.1995:56I一565.

2003,(1).

[27]Powet*,D.E.,BtL培tein,J.C.,Chodorow,M.,

[34]梁茂成.中国学生英语作文自动评分模型的构建[D].

Fowles,M.E.,&KukichK.Comparingthevalidityof

南京大学博士学位论文,2005.

ACriticalReviewandImplicationsofSomeAutomatedEssayScoringSystems

HANGMoo?ck愕,WENQiu-fang

(NationalResearchCentreforFomignLanguage

Education,BeijingForeignStudies

University,Beijing100089,China)

Abstract:Thi5papereV8luat∞andcomparesthreerepresentativeautomatedessayscoringsystemsagainstthe

major

assessmentcriteriainessayscoringinthefieldoflanguagetesting.OntIlebasisofthecomparisonandtheevaluation.

thepaperarguesthatthesesystemshavereliabilityproblemswiththehuman—assignedscores

usedfortrainingtheirmod.

els.aswellas

validityproblemswiththescorestheyassign.11lepaperalsoanalyzestheimplicationsthatthethreesys.

terns

offer.ne

studyshedsimportantlight

on

thedevelopmentof

an

automatedessayscoringsysteminChina

Keywords:AutomatedEssayScoring;Model;Assessment

Criteria;Reliability;Validity

 

国外作文自动评分系统评述及启示

作者:梁茂成, 文秋芳, LIANG Mao-cheng, WEN Qiu-fang

作者单位:北京外国语大学,中国外语教育研究中心,北京,100089

刊名:

外语电化教学

英文刊名:COMPUTER-ASSISTED FOREIGN LANGUAGE EDUCATION

年,卷(期):2007,""(5)

被引用次数:5次

参考文献(35条)

1.Attali Y.Burstein J Automated essay scoring with Erater V.

2.0 2004

2.Bachman L F Fundamental considerations in language testing 1990

3.Blok H.de Glopper K Large scale writing assessment 1992

4.Burstein J C.Kukich K.Wolff S.Lu,C. Chodorow,M. Braden-Harder,L. Harris,M.D Automated scoring using a hybrid feature identification technique 1998

5.Burstein J C.Kukich K.Wolff S E.Lu,C. Chodorow,M Enriching automated scoring using discourse marking 1998

6.Burstein J.Kukich K.Braden-Harder L.Chodorow,M. ,Hua,S. Kaplan,B Computer analysis of essay content for automatic score prediction:A prototype automated scoring system for GMAT analytical writing assessment.[Research Report RR-98-15.] 1998

7.Burstein J C.Marcu D.Andreyev S.Chodorow,M Towards automatic classification of discourse elements in essays 2001

8.Chung G.O'Neil H Jr Methodological approaches to online scoring of essays[Report No.CSE-TR-461] 1997

9.Cohen Y.Ben-Simon A.Hovav M The effect of specific language features on the complexity of systems for automated essay scoring 2003

10.Daigon A Computer grading of English composition 1966(01)

11.Deerwester S.Dumais S T.Furnas G https://www.doczj.com/doc/5d14310217.html,ndauer,T.K. Harshman,R Indexing by Latent Semantic Analysis 1990

12.Dumais S.Furnas https://www.doczj.com/doc/5d14310217.html,ndauer T.Deerwester,S. Harshman,R Using Latent Semantic Analysis to Improve Access to Textual Information 1982

13.Foltz P W.Kintsch https://www.doczj.com/doc/5d14310217.html,ndauer T K The measurement of textual coherence with Latent Semantic Analysis 1998

14.Foltz P https://www.doczj.com/doc/5d14310217.html,ham https://www.doczj.com/doc/5d14310217.html,ndauer T K The Intelligent Essay Assessor:Applications to Educational Technology 1999(02)

15.Kaplan R M.Wolff S E.Burstein J.Lu C. Rock,D.A. Kaplan,B.A Scoring essays automatically using surface features[GRE Board Report No.94-21P] 1998

16.Kukich K Beyond automated essay scoring 2000

https://www.doczj.com/doc/5d14310217.html,ndauer T K.Foltz P https://www.doczj.com/doc/5d14310217.html,ham D Anintroduction to Latent Semantic Analysis 1998

https://www.doczj.com/doc/5d14310217.html,ndauer T https://www.doczj.com/doc/5d14310217.html,ham D.Rehder B M.E.Schreiner How well can passage mean`ng be derived without using word order? A comparison of latent semantic analysis and humans 1997

https://www.doczj.com/doc/5d14310217.html,ndauer T.Dumais S A solution to Plato's problem:The Latent Semantic Analysis theory of the acquisition,induction,and representation of knowledge 1997

https://www.doczj.com/doc/5d14310217.html,ndauer T https://www.doczj.com/doc/5d14310217.html,ham D.Foltz p W The Intelligent Essay Assessor 2000

https://www.doczj.com/doc/5d14310217.html,ndauer T https://www.doczj.com/doc/5d14310217.html,ham D.Foltz P W Automated scoring and annotation of essays with the Intelligent Essay Assessor 2003

22.McNamara T Measuring Second Language Performance 1996

23.Page E B Crading essays by computer:Progress report 1966

24.Page E B The Use of the Computer in Analyzing Student Essays 1968

25.Page E B New computer grading of student prose,using modern concepts and software 1994(02)

26.Page E.Peterson N S The Computer Moves into Essay Scoring:Updating the Ancient Text 1995

27.Powers D E.Burstein J C.Chodorow M.Fowles,M.E. Kukich K Comparing the validity of automated and human essay scoring[GRE Board Research Report 98 -08aR] 2000

28.Purves A C In search of an internationally valid scheme for scoring compositions 1985

29.Shermis M.Mzumara H R.Olson J.Harrington,S On-line Grading of Student Essays:PEG goes on the World Wide Web 2001(03)

30.Stemler S E A comparison of consensus,consistency,and measurement approaches to estimating interrater reliability 2004(04)

31.Valenti S.Neri F.Cucchiarelli A An overview of current research on automated essay grading 2003

32.Weigle S C Assessing writing 2002

33.桂诗春潜伏语义分析的理论及其应用[期刊论文]-现代外语 2003(01)

34.梁茂成中国学生英语作文自动评分模型的构建 2005

35.现有的大部分机器评分系统的研究报告中一般都通过计算相关性的方法报告评分的信度,但E-rater一直采用完全及相邻吻合百分率(percent exact-plus-adjacent agreement)的方法报告评分的信度

相似文献(3条)

1.学位论文崔爱国特征选择方法对英文作文自动评分性能影响的研究2009

英文作文自动评分是一项使用计算机进行作文评分的新技术。该项技术的研究起始于20世纪60年代。至今已经有多个国家开发出针对英文的作文自动评分系统,如E-rater等等。在目前中国此方面正属于研究之中。在当代大学英语四、六级考试是一项规模宏大的标准化考试。考试阅卷工作量大,很难保证阅卷评分的准确性和客观性,随着参考人数的增多,这一问题日显突出。面向大学英语写作的自动作文评分研究存在不少难题,如:评分标准、针对性、通用性等。自动评分要以人工评分为准,并结合写作教学理论;评分要考虑中国学生写作特点,使评价具有针对性。目前的自动化考试系统对客观题目均实现了自动判分,但对作文的自动评分仍有待研究。

本文从语料库中抽取同一主题的作文作为系统的语料,根据作文分值的不同,将不同分值的作文划分到不同的类别。文中用到了两种不同的方法来实现对作文的评分-Boosting算法和线性回归方法。抽取相关作文的特征,根据提取的特征,利用向量空间模型来表示每一篇作文,然后利用TF-IDF、IG和CHI方法对抽取的特征进行筛选,删除作文中比所设阈值小的特征,再利用三种文本分类算法(朴素贝叶斯、K近邻和支持向量机)来作为分量分类器。文中用Boosting算法、线性回归的方法,对待测作文进行分类,得出作文的最后类别或分值。通过实验表明,不同的特征提取方法,对最终的结果存在不同影响,线性回归的评分结果比boosting方法稍好,进一步证明了该方法的可行性。

关键词:自动作文评分;特征提取;向量空间模型;boosting;线性回归

2.期刊论文葛诗利.陈潇潇.GE Shi-li.CHEN Xiao-xiao大学英语作文自动评分研究中的问题及对策-山东外语教

学2009,30(3)

面向大学英语写作教学的自动作文评分研究存在四个难题:评分标准、针对性、通用性和人机界面的划分.自动评分要以人工评分为准,并结合写作教学理论;评分要考虑中国学生写作特点,使评价具有针对性;为了构建一次训练多次使用的通用评分模型,语言使用和内容需分别处理;作文评分必须有人参与,适当的人机界面能充分发挥机器和人的长处,使自动评分高效而准确.

3.学位论文李斌基于文本分类技术的英语作文自动评分研究2009

在中国,每年举行两次的全国大学英语四、六级考试是一项规模宏大的标准化考试。考试阅卷工作量大,很难保证阅卷评分的准确性和客观性,随着参考人数的增多,这一问题日显突出。目前的自动化考试系统对客观题目均实现了自动判分,如选择题、填空题等,大大的减轻了考试的阅卷工作量。但对作文的自动评分仍有待研究。

本文通过对影响作文得分的因素、特征提取方法、文本分类等相关工作的研究,提出了一种利用文本分类技术对英语作文进行评分的研究方法。

首先,从《中国学习者英语语料库》中抽取同一主题的作文作为系统的语料,根据作文分值的不同,将作文划分到不同的类别,将对作文的评分问

两个方面,通过文档频率、信息增益和χ2统计方法,通过设置不同的阈值来提取相关特征;基于语言学的特征包括浅层文本特征(如:作文中单词的数量、句子的数目、单词的长度等)和复杂的语言学特征(如:句法结构特征、词性特征等)。然后,利用三种经典的分类器(朴素贝叶斯、K近邻、支持向量机)根据提取的特征分别对作文进行分类(评分)。最后,利用分类器融合技术对各分量分类器进行融合,根据分量分类器的输出结果,通过投票和基于栈的融合技术得出最终分类结果。实验表明,采用多分类器融合技术以后,系统的分类准确率有了一定的提高。同时,也证明了利用文本分类的方法对作文进行评分的可行性。

引证文献(5条)

1.陈红校本大学英语写作教研辅助平台的设计构想及理论基础[期刊论文]-外语界 2009(1)

2.文秋芳.秦颖.江进林英语考试翻译自动评分中双语对齐技术的应用[期刊论文]-外语电化教学 2009(1)

3.王永红.Wu Zhaoqiang同伴在线作文互评浅析[期刊论文]-中国水运(理论版) 2007(12)

4.孟凡娜.辜向东简短问答题计算机辅助评分系统的设计与实验[期刊论文]-外语电化教学 2010(1)

5.吴迪近十年国内英语测试研究述评[期刊论文]-大连理工大学学报(社会科学版) 2009(4)

本文链接:https://www.doczj.com/doc/5d14310217.html,/Periodical_wydhjx200705004.aspx

授权使用:中国科学院自动化研究所(中科院自动化研究所),授权号:ac560694-f4ba-4988-a7e0-9dba0119dee5

下载时间:2010年7月21日

英语作文自动评分系统的制作技术

本技术公开了一种英语作文自动评分系统,涉及作文批改技术领域,包括作文读取模块、作文评判模块、人工评分模块、机器评分模块、评分输出模块和权重修改模块,所述作文评判模块电连接所述作文读取模块、所述人工评分模块、所述机器评分模块、所述评分输出模块和所述权重修改模块,所述权重修改模块电连接所述机器评分模块。本技术不仅能够自动对英语作文进行评分,总结出错地方、给出改正意见,而且各项评分标准的比重也可以由操作者自行设定,同时还能够自由设置人工评分和机器评分的比重,适应于多种英语作文的自动评分情况。 技术要求 1.一种英语作文自动评分系统,其特征在于,包括作文读取模块、作文评判模块、人工评分模块、机器评分模块、评分输出模块和权重修改模块,所述作文评判模块电连接所述 作文读取模块、所述人工评分模块、所述机器评分模块、所述评分输出模块和所述权重 修改模块,所述权重修改模块电连接所述机器评分模块; 所述作文读取模块用于识别英语作文、并进行字数统计和格式检查;所述人工评分模块 用于通过人工对英语作文进行评分;所述机器评分模块用于通过系统内的多项评分标准 自动对英语作文进行评分;所述作文评判模块用于对英语作文进行综合评价,并按照人 工评分比重和机器评分比重计算英语作文最终得分;所述评分输出模块用于输出最终评 分并总结错误、给出修改建议;所述权重修改模块用于修改所述机器评分模块内的多项 评分标准的权重系数。

作文识别模块、字数统计模块和格式检查模块,所述作文识别模块用于识别读取出英语作文,所述字数统计模块用于统计英语作文字数,所述格式检查模块用于对英语作文进行格式检查。 3.如权利要求1所述的一种英语作文自动评分系统,其特征在于,所述机器评分模块包括拼写检查模块、语法检查模块、单词高级度模块、要点覆盖模块、整体美观模块和评分汇总模块,所述拼写检查模块、所述语法检查模块、所述单词高级度模块、所述要点覆盖模块、所述整体美观模块均与所述评分汇总模块电连接; 所述拼写检查模块用于对英语作文的单词拼写进行检查,所述语法检查模块用于对英语作文的语法进行检查,所述单词高级度模块用于对英语作文的高级度进行判别,所述要点覆盖模块用于对英语作文的要点覆盖程度进行判别,所述整体美观模块用于对英语作文整体美观程度进行判别,所述评分汇总模块用于汇总所述拼写检查模块、所述语法检查模块、所述单词高级度模块、所述要点覆盖模块和所述整体美观模块的各项比重得分并计算出最终得分。 4.如权利要求3所述的一种英语作文自动评分系统,其特征在于,所述评分汇总模块内的评判公式为: 汇总得分=拼写检查得分*拼写检查权重+语法检查得分*语法检查权重+单词高级度得分*单词高级度权重+要点覆盖得分*要点覆盖权重+整体美观得分*整体美观权重。 5.如权利要求4所述的一种英语作文自动评分系统,其特征在于,所述拼写检查权重、所述语法检查权重、所述单词高级度权重、所述要点覆盖权重和所述整体美观权重均由操作者自行设置且满足总和等于1。 6.如权利要求1所述的一种英语作文自动评分系统,其特征在于,所述评分输出模块包括错误总结模块、改正建议模块和评分结果模块,所述错误总结模块用于对英语作文中出现的错误进行总结,所述改正建议模块用于针对英语作文中出现的错误给出改正建议,所述评分结果模块用于输出英语作文的最终结果。

英语作文评分标准

英语作文评分标准 TTA standardization office【TTA 5AB- TTAK 08- TTA 2C】

一、评分标准 一档文 17-20分:写出全部内容要点,层次清楚、语言流畅,有句式变化,有复杂结构(至少2-3个),基本无语法错误(1-2个错误),或有少量由于使用复杂结构而引起的语法或拼写错误,但不影响意义理解。 二档文13-16分:基本写出全部内容要点,层次清楚、语言流畅,有少量语法错误(3-4个错误)。 三档文9-12分:写出大部分内容要点,语言基本通顺,有一些语法和拼写错误,基本不影响意思表达。 四档文5-8分:写出一半左右有关内容要点,语言不太通顺,语法结构单调、错误较多,只有少数句子可读,影响理解。 五档文0-4分:词不达意,不知所云;只有2-3个短语可读。 二、评分说明 1、短语及句子结构不对,人称、时态、语态误用,均为大错。一处大错扣1分。 2、通篇人称、时态、标点错误,统扣2分。 3、拼写、标点符号、冠词、介词等方面的错误为小错。3个小错相当于1处大错。 4、相同错误,只扣一次。 5、词数不足60词扣2分。 6、文中若出现自己及学校等真实名称扣3分。 7、书写潦草,卷面不清,乃至影响阅卷,扣2分。 三、评分标准 一档文 17-20分:写出全部内容要点,层次清楚、语言流畅,有句式变化,有复杂结构(至少2-3个),基本无语法错误(1-2个错误),或有少量由于使用复杂结构而引起的语法或拼写错误,但不影响意义理解。 二档文13-16分:基本写出全部内容要点,层次清楚、语言流畅,有少量语法错误(3-4个错误)。 三档文9-12分:写出大部分内容要点,语言基本通顺,有一些语法和拼写错误,基本不影响意思表达。 四档文5-8分:写出一半左右有关内容要点,语言不太通顺,语法结构单调、错误较多,只有少数句子可读,影响理解。 五档文0-4分:词不达意,不知所云;只有2-3个短语可读。 四、评分说明 8、短语及句子结构不对,人称、时态、语态误用,均为大错。一处大错扣1分。 9、通篇人称、时态、标点错误,统扣2分。 10、拼写、标点符号、冠词、介词等方面的错误为小错。3个小错相当于1处大错。 11、相同错误,只扣一次。 12、词数不足60词扣2分。 13、文中若出现自己及学校等真实名称扣3分。 14、书写潦草,卷面不清,乃至影响阅卷,扣2分。 五、评分标准 一档文 17-20分:写出全部内容要点,层次清楚、语言流畅,有句式变化,有复杂结构(至少2-3个),基本无语法错误(1-2个错误),或有少量由于使用复杂结构而引起的语法或拼写错误,但不影响意义理解。 二档文13-16分:基本写出全部内容要点,层次清楚、语言流畅,有少量语法错误(3-4个错误)。 三档文9-12分:写出大部分内容要点,语言基本通顺,有一些语法和拼写错误,基本不影响意思表达。 四档文5-8分:写出一半左右有关内容要点,语言不太通顺,语法结构单调、错误较多,只有少数句子可读,影响理解。 五档文0-4分:词不达意,不知所云;只有2-3个短语可读。 六、评分说明 15、短语及句子结构不对,人称、时态、语态误用,均为大错。一处大错扣1分。 16、通篇人称、时态、标点错误,统扣2分。 17、拼写、标点符号、冠词、介词等方面的错误为小错。3个小错相当于1处大错。 18、相同错误,只扣一次。 19、词数不足60词扣2分。 20、文中若出现自己及学校等真实名称扣3分。 21、书写潦草,卷面不清,乃至影响阅卷,扣2分。

大学英语六级英语作文评分方法

大学英语六级英语作文评分方法 大学英语六级考试作文的目的旨在考核学生英语书面表达的能力。作文考试时间为30分钟,要求写出不少于120个词的短文。六级考试作文的出题方式有:命题作文,看图画或图表作文,根据所给文章(英文或中文)写出文章摘要或大意,给出关键词作文章。考试的作文内容为社会、文化或日常生活的一般常识,不涉及知识面过广、专业性太强的内容。对作文的要求是:切题,文理通顺,表达正确,意思连贯,无重大语言错误。下面介绍六级考试作文的评分原则和标准,并通过五份样卷作一个详细说明。 (一)、作文评分原则 1.CET是检查考生是否达到大学英语教学大纲规定的六级教学要求,对作文的评判应以此要求为准则。 2.CET作文题采用总体评分方法。阅卷人员就总的印象给出奖励分,而不是按语言点的错误数目扣分。 3.从内容和语言两个方面对作文进行综合评判。内容和语言是一个统一体,作文应表达题目所规定的内容,而内容要通过语言来表达。要考虑作文是否切题,是否充分表达思想,也要考虑是否用英语清楚而确切地表达思想,也就

是要考虑语言上的错误是否造成理解上的障碍。 4.避免趋中倾向。该给高分的给高分,包括满分;该给低分的给低分,包括0分,一名阅卷人员在所阅的全部作文卷中不应只给中间的几种分数。 (二)、作文评分标准 1.本题满分为15分。 2.阅卷标准共分五等:2分、5分、8分、11分及14分。各有标准样卷一至二份。 3.阅卷人员根据阅卷标准,对照样卷评分,若认为与某一份数(如8分)相似,即定为该分数(即8分);若认为稍优或稍劣于该分数,即可加一分(即9分)或减一分(即7分),但不得加或减半分。 4.评分标准:2分……条理不清,思路紊乱,语言支离破碎或在部分句子均有错误,且多数为严重错误。5分……基本切题。表达思想不清楚,连贯性差。有较多的严重语言错误。8分……基本切题。有些地方表达思想不够清楚,文字勉强连贯;语言错误相当多,其中有一些是严重错误。11分……切题。表达思想清楚,文字连贯,但有少量语言错误。14分……切题。表达思想清楚,文字通顺,连贯性好。基本上无语言错误,仅有个别小错误。[注:白卷,作文与题目毫不相关,或只有几个孤立的词而无法表达思想,则给0 分。] 累记字数CET6 100-119

英语作文电脑智能自动评分系统的使用和启示

英语作文电脑智能自动评分系统的使用和启示 英语作文电脑智能自动评分系统的使用和启示内容简介: 英语作文电脑智能自动评分系统的使用和启示 在英语作文教学中,对学生作文进行批改一直被师生共识为提高写作能力的有效手段。但是,考虑到时间、精力、作文收发等方面,又不得不承认效率不高。在大规模语言考试中,作文又是必不可少的题 论文格式论文范文毕业论文 英语作文电脑智能自动评分系统的使用和启示 在英语作文教学中,对学生作文进行批改一直被师生共识为提高写作能力的有效手段。但是,考虑到时间、精力、作文收发等方面,又不得不承认效率不高。在大规模语言考试中,作文又是必不可少的题型,阅卷工作量和阅卷的信度等问题一直以来都不能让我们如意。针对这一难题,电脑智能自动评分系统提供了可以信赖、值得期盼的解决方案。在PEG、IEA、E-rater、冰果、MY Aess、IntelliMetri等几种智能评分系统中,选取IntelliMetri系统进行研究,对其评价标准进行理论分析,对其所评分的作文进行跟踪评析,发现其通过对学生作文按照若干评分标准问题进行回应和打分的方法能够快速、有效地解决了作文评分的效率问题,可靠性和准确性不亚于人工评分的水平,完全可以作为人工评分的补充手段。由此看来,智能评分系统的发展值得期盼。

一、IntelliMetri系统概述IntelliMetri系统发布于1998年1月,是第一个提供给教育机构的智能作文评分软件,相比传统的人工评阅具有许多优点,如: 准确度大于个人评分,尤其大于单人人工评分;提供即时反馈等等。发布以后,系统得到了广泛的应用。IntelliMetri系统作为一个智能评分系统,充分模拟了人工评分的过程。系统开发时经过了大量的测试培训,即不断通过人工纠正其自动认定的给分点,直至契合。值得提出的是,系统不是将所有的给分点简单地相加,而是通过分析给分点之间的聚合关系,模拟人工从整体上看待作文并给出判断,这一点上跟人工评分的过程是一致的。对于每一个给分点刺激和提示,IntelliMetri系统创建了一个独特的解决方案,主要的给分点、次要的给分点、聚群给分点和分散给分点,都有不同的分数赋值。每一个刺激或提示,这相当于人工阅卷时我们先将作文的得分点做上标记,然后回过头来审视通篇看所有的这些给分点是否形成整体,主题是否突出,连贯是否流畅。正因为如此,IntelliMetri系统能够实现令人满意的高匹配的评阅结果。 二、IntelliMetri系统评分依据IntelliMetri系统的评分依据主要根据其对作文进行的300多个变量的分析,这些变量包括语义学、造句法等与主题有关的一切因素,其数量和认定的准确度还在发展当中。概括起来,IntelliMetri系统评分依据从宏观到微观具有几个方面功能特征: 首先是聚焦度(Fous)和整体性(Unit),系统高度关注指向写作目的的聚焦度和一致性,对给分点的聚合关系赋值有统筹考虑,同时,也不排斥出现的单个观点的出现,注意到意义的关联度,做到点

大学英语作文评分标准[1](2020年九月整理).doc

作文评分标准 本题满分为15分。 2.阅卷标准共分五等:2分、5分、8分、11分及14分。各有标准样卷一至二份。 3.阅卷人员根据阅卷标准,对照样卷评分,若认为与某一份数(如8分)相似,即定为该分数(即8分);若认为稍优或稍劣于该分数,即可加一分(即9分)或减一分(即7分),但不得加或减半分。 4.评分标准:2分……条理不清,思路紊乱,语言支离破碎或在部分句子均有错误,且多数为严重错误。5分……基本切题。表达思想不清楚,连贯性差。有较多的严重语言错误。8分……基本切题。有些地方表达思想不够清楚,文字勉强连贯;语言错误相当多,其中有一些是严重错误。11分……切题。表达思想清楚,文字连贯,但有少量语言错误。14分……切题。表达思想清楚,文字通顺,连贯性好。基本上无语言错误,仅有个别小错误。[注:白卷,作文与题目毫不相关,或只有几个孤立的词而无法表达思想,则给0分。] [注] 1.如题目中给出主题句,起始句,结束句,均不得计入所写字数 2.只写一段者:0~4分;只写两段者:0~9分(指规定三段的作文) 长度计分标准: 91~100词: 扣1分 81~90词: 扣2.5分 71~80词: 扣4分 61~70词: 扣6分 60词以下: 扣8分 3.为了便于阅卷人员掌握评分标准,现将各档作文分相当于百分制的得分,列表如下,称为得分率。其中9分的得分率为60(相当于百分制的60分)。 作文分15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 得分率100 94 87 80 74 67 60 54 47 40 34 27 20 14 7 经原国家教委批准,四、六级考试已从1997年6月份起采用“作文最低”制计算成绩,其中足见国家对提高大学英语写作能力的重视程度。按规定,考生作文若为0分,无论其总分是否高于60分,均作不及格处理;若其作文分高于0分,低于6分,报导成绩时,需从总分中减去6分,再加上实得作文分。也就是说,要从总分中减去实得作文分与6分之间的差额部分。 评分标准分五个档次,14分,11分、8分、5分、2分,它分两个档次,14分上可以给到15,下可以给到13,8分上可以给到9分,下可以给到7分,5分上可以给多6分,下可以给到4分,2分上可以给到3分,下可以给到1分,这就是从1到15它分了五个档次。这五个档次我们再可以分三大档,14分和11分的这算是两个合起来,叫一大档,这大档的它相同点是内容切题,文字连贯,条理清楚,这是14分和11分它的相同点,也就是说只要你达到内容切题,文字连贯,条理清楚,你就可以得到11分以上的这么一个分数。 11分和14分两个档之间区别在什么地方?在于用词上,你的用词是不

英语作文评分方法

评分标准 在评分时,主要针对三个方面进行评估:语言、内容和文采。 *语言考查英语表达是否正确,包括单词拼写、标点符号、词汇搭配、句子的语法结构是否正确等。 *内容考查文章内容是否得当,要求包括:主题明确、结构清晰、内容切题、语言精练等。 *文采考查语言的丰富性和连贯性,要求包括:恰当运用所学的英语单词、词组和各类句型,以及句子之间的合理过渡。 写作中存在的不足 考生在写作中,普遍存在着以下三个方面的不足: * 语言不规范 英语句子必须有谓语动词,要使用正确的语态和时态。动词、名词、介词、副词也有各自特定的搭配。另外,句子中若有多个谓语,必须用并列连词或者从句来处理。但考生由于受中文语法习惯的影响,对这方面的概念比较淡薄,导致语法错误以及不符合英语习惯的Chinglish(中式英文)出现。 * 句型单一,简单句偏多 英语是讲究形式的语言,但考生往往过于注重把所思所想用英语翻译出来,导致千篇一律地用简单句和主动语态,忽略了句型的变化和逻辑关系的表达。 *谋篇能力不足 考生拿到题目,经常是想到哪里就写到哪里,对文章的内容没有事先做筛选和安排,不注意文章的层次和句子间的逻辑关系,有时甚至缺乏主题句,使得文章主题不明确。 写作“五步曲” 针对上述问题以及中考作文的评分标准,考生可运用以下五步应对中考英语写作: 第一步审题 主要包括以下几方面的内容: 1. 确定文章的体裁 中考英语写作以记叙文为主,但有时会要求考生在文章最后发表观点,即我们所说的“夹叙夹议”。 2. 确定文章的格式要求 中考英语写作有时会要求考生写书信或日记,这一类的应用文都有其相应的格式要求。如书信的开篇必须有称呼(Dear...),结束必须有谦称(Yours,),正文的第一段一般写“收到来信很高兴”、“抱歉很久没写信”或者“很高兴给你写信”之类的话,而正文最后一段一般写“期待你的来信”或者“祝你..”等内容。日记在正文前必须写日期、星期和天气。 3. 明确题目要求,确定必写内容 考题有时会对内容有详细的文字要求,如2002年上海卷题目为“My Favorite Thing(s)”,在题目要求中明确注明要考生描写该事物,说明其来历,并阐述最喜爱它的理由。而有时题目的要求则比较隐晦,如2005年上海卷题目为“Growing Pains and Gains”,虽然没有对必写的内容做明确的文字说明,但是很显然,pains和gains是必写的,缺一不可。 另外,考题有时会通过图画给出提示。这种情况下,考生必须首先弄清楚图画是仅供参考还是文章的必写内容。此外,对于记叙文,有6个要素是必备的,即“时间(when)、地点(where)、人物(who)、发生什么事(what)、发生原因(why)、怎样进行(how)”。 4. 确定文章的字数 若文章字数不够,会被扣去相应的分数;字数过多,又会浪费答题时间,所以建议考生把篇幅控制在80~100 词。相应的,文章的句子数量建议控制在8~10句。

国外作文自动评分系统评述及启示

第117期2007年10月 外语电化教学 CAFLE No.117 Oct.2007国外作文自动评分系统评述及启示 梁茂成,文秋芳 (北京外国语大学中国外语教育研究中心,北京100089) ?鬣杠昕有主膏自负? 摘要:本文依据语言测试领域的作文评分要素,对国外具有代表性的三种作文自动评分系统进行评介和比较,指出这些评分系统在训练及作文的人工评分方法和机器评分效度等方面存在的问题,并分析这些作文自动评分系统为我国自主开发作文自动评分系统所提供的借鉴作用。 关键词:作文自动评分;模型;评分要素;信度;效度 中图分类号:H319.3文献标识码:A文章编号:1001-5795(2007)10-0018-0007 作文是大规模语言考试(如TOEFL,GRE,IELTS等)中的一种必备题型。通过作文可以检测应试者综合运用语言的能力。然而,大规模作文阅卷面临两大难题:其一,阅卷需要耗费大量人力、物力等资源;其二,评判作文质量具有很强的主观性,阅卷的信度(pliability)和效度(validity)不强(Johnsonetal,1991)。近几十年来,随着计算机硬件和软件性能快速提高,自然语言处理等技术获得了长足的发展,国外一批作文自动评分系统相继问世,这两个长期困扰大规模作文阅卷的难题有望得到解决。 本文对国外最具代表性的三种作文自动评分系统进行述评。这三种系统是:PEG(PmjeetEssayGrade)、IEA(IntelligentEssayAssessor)和E—rater。PEG重语言形式,IEA重作文内容,E—rater则既重形式又重内容。一般说来,作文评分应形式和内容并重,围绕作文的语言质量、内容质量和篇章结构质量三个主要方面进行(Blok&deGlopper,1992;Purves.1985;Weigle,2002;梁茂成,2005),然而这三种系统侧重各有不同,在这三个方面的分析力度也存在很大差异。通过对比分析,笔者力图揭示这些作文自动评分系统的优势与劣势,以期对开发我国学生作文自动评分系统有所启示。I国外作文自动评分系统述评 1.1PEG.一个重语言形式的评分系统 PEG于1966年由美国杜克大学(UniversityofDuke)的EllisPage等人开发(Daigon,1966;rage,1966)。PEG的设计者们认为,计算机程序没有必要理解作文内容,大规模考试中尤其如此(Shermiseta1.。2001)。因此,他们在其网站上公开申明:“PEG不能理解作文的内容”(http://134.68.49.185/PEG-DEMO/)。 在PEG的开发者看来,作文质量的诸要素是作文的内在因素,无法直接测量,因此,最为合乎逻辑的方法是从作文文本中提取一些能够间接反映作文质量的文本表层特征项(surfacefeatures)。Page首先收集了一部分人工评分后的作文(训练集),利用当时并不发达的自然语言处理技术,从作文中提取若干个文本特征项(textfeatures),并在这些文本特征项与人工评分之间进行相关性分析。然后,Page选择与人工评分相关的文本特征项作为自变量,把人工评分作为因变量,进行多元回归分析,得到回归方程。回归方程为每一个变量确定了beta值,这样,在对新的作文进行评分时,PEG只需要提取这些变量,并把beta值代人回归 作者简舟:粱茂成:男,博士,教授。研究方向:应用语言学厦计算语言学。 文秋芳:女,教授。研究方向:语言学覆应用语言擎。 收稿日期:2007-01.1.5’ 基金项目:本研究得到教育部人文社科项目(编号06JA740007)和中国外语教育研究中心重大研究项目的资助,在此一井致谢。?18?

作文自动评分总结

李艳老师和葛诗利老师《大学英语作文自动评分中分级词表的效度研究》中提出了作文分级词表的思想,而这可以通过改进或者调整已有的词表来获得。 目前自然语言处理中准确率最高的、也是最基本的研究就是词汇分析,词汇分析一般包括词长分布、词汇分布和词汇丰富性等。 词汇分布:一篇作文中的词汇占某一分级词表每个级别词汇的比例。Laufer&Nation的3个级别的词表。 CLEC中国学习者英语语料库 SPSS软件包的单因素方差分析(ANOV A) SPSS多元线性回归 分数档的精确率和召回率,总体准确率和误判率 个分数精确率=本为X档作文并且被评为X档作文的数量/所有被评为X档作文的总数*100 精确率越高,说明作文被评为该分数档的可信度越高 Laufer&Nation 以词族为计算单位,词频概貌 文秋芳以类符为计算单词,称为词频广度 倪岚以形符为计算单位词频分布 准确率都是30%左右 徐剑和梁茂成《对集中英汉机器翻译系统的测评》 翻译系统在译文输出方面已经比较成熟,源语言的语义识别方面还不如人意。 80年代,机器翻译研究863智能型英汉翻译系统—“译星一号” 评估标准:系统功能,操作的难易度及译文质量(包括译文的忠实度、译语的可懂度和译文的可接受性) 欧共体评估:识别(译文的得懂度、忠实度、连贯度、有用性、读取速度和译文的可接受性)和语言方面(句子结构和语义的连贯性、词汇评价、翻译错误) 可懂度、忠实度和译文的可接受性 梁茂成和李刚《英汉机器翻译中人称代词的处理》徐州师范大学外语系 汉语术语分析语,词序、虚词等来表达各种语法关系; 英语属于综合语,通过词本身的形态变化来表示 英语中人称代词的使用频率要远远高于汉语 汉语属于孤立性语言,英语为粘着性语言 原因: 1.汉语表示所属关系的物主代词往往可以省略 2.英语中大量使用反身代词 反身代词:(译星对反身代词处理较为得当) 1.英语较汉语大量使用反身代词 2.汉语反身代词具有独立的指称功能,英语则依附于其他代词或名次,无独立的指称功能。英汉第二人称代词的差异 You是你还是你们? 英语代词的预指功能 人称代词在机器翻译中的处理 1.调整语法信息库(代词的主要作用是代替名词) 2.条件句

高考英语作文评分标准细则 评分标准是什么

高考英语作文评分标准细则评分标准是什么 高考英语作文评分标准是什么 第五档(很好):(21~25分) 1.完全完成了试题规定的任务。 2.覆盖所有内容要点。 3.应用了较多的语法结构和词汇。 4.语法结构或词汇方面有些许错误,但为尽力使用较复杂结构或较高级词汇所致;具备较强的语言运用能力。 5.有效地使用了语句间的连接成分,使全文结构紧凑。 6.完全达到了预期的写作目的。 第四档(好):(16~20分) 1.完全完成了试题规定的任务。 2.虽漏掉1、2个次重点,但覆盖所有主要内容。 3.应用的语法结构和词汇能满足任务的要求。 4.语法结构或词汇方面应用基本准确,些许错误主要是因尝试较复杂语法结构或词汇所致。 5.应用简单的语句间的连接成分,使全文结构紧凑。 6.达到了预期的写作目的。 第三档(适当):(11~15分) 1.基本完成了试题规定的任务。

2.虽漏掉一些内容,但覆盖所有主要内容。 3.应用的语法结构和词汇能满足任务的要求。 4.有一些语法结构或词汇方面的错误,但不影响理解。 5.应用简单的语句间的连接成分,使全文内容连贯。 6.整体而言,基本达到了预期的写作目的。 第二档(较差):(6-10分) 1.未恰当完成试题规定的任务。 2.漏掉或未描述清楚一些主要内容,写了一些无关内容。 3.语法结构单调、词汇项目有限。 4.有一些语法结构或词汇方面的错误,影响了对写作内容的理解。 5.较少使用语句间的连接成分,内容缺少连贯性。 6.信息未能清楚地传达给读者。 第一档(差):(1~5分) 1.未完成试题规定的任务。 2.明显遗漏主要内容,写了一些无关内容,原因可能是未理解试题要求。 3.语法结构单调、词汇项目有限。 4.较多语法结构或词汇方面的错误,影响对写作内容的理解。 5.缺乏语句间的连接成分,内容不连贯。 6.信息未能传达给读者。 不得分:(0分)

英语作文写作要点及评分标准

英语作文写作要点及评分标准 一、写作要点: 1、人们对此有不同看法; 2、赞同:理由一、理由二; 3、反对:理由一、理由二; 4、你的看法。 二、英语作文评分标准 1、本题总分为25分,按5个档次给分。 2、评分时,先根据文章的内容和语言初步确定其所属档次,然后以该档次的 要求来衡量,确定或调整档次,最后给分。 3、词数少于 80和多于 120的,从总分中减去2分。 4、评分时,应注意的主要内容为:内容要点、应用词汇和语法结构的数量 和准确性、上下文的连贯性及语言的得体性。 5、拼写与标点符号是语言准确性的一个方面,评分时,应视其对交际的影 响程度予以考虑。英、美拼写汉词汇用法均可接受。 6、如书写较差,以至影响交际,将分数降低一个档次。 7、内容要点可用不同方式表达,对紧扣主题的适当发挥不予扣分。 各档次的给分范围和要求: Ⅰ. 第五档(很好);(21-25分): ⑴完全完成了试题规定的任务;⑵覆盖所有内容要点; ⑶应用了较多的语法结构和词汇; ⑷语法结构或词汇方面有些许错误,但为尽力使用较复杂结构或较高级词 汇所致;具备较强的语言运用能力; ⑸有效地使用了语句间的连接成分,使全文结构紧凑; ⑹完全达到了预期的写作目的。 Ⅱ. 第四档(好):(16-20分) ⑴完全完成了试题规定的任务;⑵虽漏掉1、2个次重点,但覆盖所有主要内容; ⑶应用的语法结构和词汇能满足任务的要求; ⑷语法结构或词汇方面应用基本准确,些许错误主要是因尝试较复杂语法结构或词汇所致; ⑸应用简单的语句间的连接成分,使全文结构紧凑; ⑹达到了预期的写作目的。 Ⅲ. 第三档(适当):(11-15分) ⑴基本完成了试题规定的任务; ⑵虽漏掉一些内容,但覆盖所有主要内容; ⑶应用的语法结构和词汇能满足任务的要求; ⑷有一些语法结构或词汇方面的错误,但不影响理解; ⑸应用简单的语句间的连接成分,使全文内容连贯; ⑹整体而言,基本达到了预期的写作目的。 Ⅳ. 第二档(较差):(6-10分) ⑴未恰当完成试题规定的任务;⑵漏掉或未描述清楚一些主要内容,写了一些无关内容;

高考英语作文评分标准详解

高考英语作文评分标准详解 一般来说,写作题的高考评分标准包含评分原则、内容要点、给分范围及要求、说明和参考范文五个部分。其中内容要点以及词数、标点、书写等方面的原则比较容易理解、操控和落实。但“评分时,应该注意的主要内容为……应用词汇和语法结构的数量……上下文的连贯性和语言的得体性”等评分原则,“应用了较多的语法结构和词汇;语法结构或词汇方面有些许错误,但为尽力使用较复杂结构或较高级词汇所致,具备较强的语言运用能力;有效地使用了语句间的连接成份,使全文结构紧凑”等给分要求、以及“对紧扣主题的适当发挥不予扣分”等说明,相对比较抽象,不易捉摸。 一、如何理解“应用了较多的词汇” 这里所说的“词汇”,可以从高级词汇的使用、同义词的使用、短语的使用等方面去理解: (一)高级词汇的使用 评分标准第五档次的要求中提到,“词汇方面有些许错误,但为尽力使用较复杂结构或较高级词汇所致”。这里所说的“高级词汇”,指的是大纲中没有列入或没有识记要求,但在实际运用中却出现比较频繁的词汇,比如frustration, awkward, awfully, concern等词,都可以算作是“高级词汇”。考生若能够适当地运用一些高级词汇,定会给评卷老师留下深刻的印象。 1. I can’t find any way to solve the problem. (换作高级词汇:I can’t find any solution to the problem.) 2. The pet dog is so lovely that almost everybody likes her. (换作高级词汇:The pet dog is so cute that almost everybody likes her.) 3. The question is really difficult to understand. (换作高级词汇:The question is really confusing.) 4. He had to face all the possible difficulties. (换作高级词汇:He had to cope with all the possible difficulties) (二)同义词的使用 英语中有些词的使用频率非常高,比如interesting, clever等,在表达时大家都很喜欢用,这样很容易令文章入千人一面的窘境中。但如果我们能够使用它们相应的同义词,就可以做到与众不同,给评卷者带来清新的感觉。例如: 1. It will be very interesting. (换作同义词:It will be a lot of fun.) 2. He was so clever that he could count all the way up to 100 at one year old.( 换作同义词:He was so smart that he could count all the way up to 100 at one year old.)

在线英语写作自动评分系统Writing

在线英语写作自动评分系统Writing 在线英语写作自动评分系统Writing Roadmap的应用计划 淄博市周村城北中学英语组 2010-11-10 1、支撑性理论 英国文学家弗兰西斯培根在《谈读书》中有句经典论断“Reading makes a full man; conference a ready man; writing an exact man.” 麦格劳-希尔教育测评中心(CTB/McGraw-Hill)是成立于1926年的国际知名专业教育测评机构,“有氧英语课堂”是麦格劳-希尔教育测评中心经过三年的调查、研发、论证和试点,为中国基础英语教学量身打造的全新英语课堂教学解决方案。在“有氧英语课堂”的课程设计中特别引入了WritingRoadmap2.0等数字化测评工具,这在国内英语教学尚属首例。 2、研究目标 利用WritingRoadmap2.0数字化测评工具培养学生对英语学习的兴趣和自信心,为中考英语的读写部分做好充分准备,提倡学生学习用英语进行沟通,培养英文思维习惯,同时引导学生关注中西方文化的共性和差异性并体现在文字上的表述形式。 通过“有氧英语课堂教师培训”,教师可以学到最新的读写教学法、写作命题法及作文评判技巧。同时,在教学中,教师可以运用在线英语写作自动评分系统对学生的英语写作水平进行评估、指导,还可以使用系统提供的报告量化教学效果。积累的数据既可以支撑教师的科研,又能改善教师的教学质量。让教师在教学的过程中,完成自己教学水平的升华。 3、研究内容设计

以学生为中心 “有氧英语课堂”更加突出了学生为中心、学生为主导者的思想。常规英语课堂以传授语言知识和技能为主,“有氧英语课堂”则以培养学生英语语感和思维能力为主。作为传统课堂的补充,“有氧英语课堂”可以帮助学生消化吸收在传统课堂上学习到的知识点,给学生提供综合运用所学语言技能的平台,在使用英语的过程中,精进语言掌控能力,从而更好激发学生的自主学习潜能。 全人教育 “有氧英语课堂”注重学生综合素质提升,强调学生的培养不能只注重知识和技能,同时要兼顾道德观念、综合素质、文化底蕴以及学习方法的指引和教导。“有氧英语课堂”选用西方原版简易读物作为教材,其中不少涉及立志、科学、名人传记等内容的优秀作品,让学生在学习语言的过程中培养正确的价值观,在了解西方文化的同时为将来成为一名优秀的复 合型人才打下坚实的基础。 教学相长 “有氧英语课堂”在课堂模式、教师定位、选用教材等方面都与传统课堂有很大差异,同时还需使用WritingRoadmap2.0等数字化的测评工具,所以对教师来说具有一定的挑战性。但是通过“有氧英语课堂教师培训”,教师可以学到最新的读写教学法、写作命题法及作文评判技巧。同时,教师可以运用在线英语写作自动评分系统对学生的英语写作水平进行评估、指导,还可以使用系统提供的报告量化教学效果。积累的数据既可支撑教师的科研,又能改善教师的教学质量。让教师在教学的过程中,完成自身教学水平的提升。 课程设计科学 “有氧英语课堂”的设计注重“过程教学(Process Meaning)”;“语言情景活动(PlentyMeaningfulActivities)”以及“趣味性和系统性(Engaging

高考英语作文评分标准

高考英语作文评分标准 1本体总分为25分,按5个档次给分。 2评分时,先根据文章的内容和语言初步确定其所属档次,然后以该档次的要求来衡量,确定或调整档次,最后给分。 3词数少于80和多余120的,从总分中减去2分 4评分时,应注意的主要内容为:内容要点,应用词汇和语法结构的数量和准确性,上下文的连贯性及语言的得体性。 5拼写与标点符号是语言准确性的一个方面,评分时,应视其对交际的影响程度予以考虑。英,美拼写汉词汇用法均可接受。 6如书写较差,以至影响交际,将分数降低一个档次。 7内容要点可用不同方式表达,对紧扣主题的适当发挥不予扣分。 {各档次的给分范围和要求} 第五档(很好);(21-25分) 1完全完成了试题规定的任务。 2覆盖所有内容要点。 3应用了较多的语法结构和词汇。 4语法或词汇方面有些许错误,但为尽力使用较复杂结构或词汇所致。具备较强的语言运用能力。 5有效地使用了语句间的成份,使全文结构紧凑。 6完全达到了预期的写作目的。 第四档(好);(16-20分) 1完全完成了试题规定的任务。 2虽漏掉一两个次重点,但覆盖所有主要内容。 3运用的语法结构或词汇方面能满足任务的要求。 4语法结构或词汇方面应用基本准确,些许错误主要是因尝试较复杂语法结构或词汇所致。5应用简单的语句间的连接成分,使全文结构紧凑。 6达到了预期的写作目的。 第三档(适当);(11-15分) 1基本完成了试题规定的任务。

2虽漏掉一些内容,但覆盖所有主要内容。 3应用的语法结构和词汇能满足任务的要求。 4有一些语法结构或词汇方面的错误,但不影响理解。 5应用简单的语句间的连接成分,使全文内容连贯。 6整体而言,基本达到了语气的写作目的。 第二档(较差);(6-10分) 1未恰当完成试题规定的任务。 2漏掉或未描述清楚一些主要内容,写了一些无关内容。 3词法结构单调,词汇项目有限。 4有一些语法结构词汇方面的错误,影响了对写作内容的理解。 5较少使用语句间的连接成分,内容缺少连贯性。 6信息未能清楚地传达给读者。 第一档(差);(1-5分) 1未完成试题规定的任务。 2明显遗漏主要内容,写了一些无关内容,原因可能是未理解试题要求。 3语法结构单调,词汇项目有限。 4较多语法结构或词汇方面的错误,影响对写作内容的理解。 5缺乏语句间的连接成分,内容不连贯。 6信息未能传达给读者。 不得分(0分) 未能传达给读者任何信息:内容太少,无法评判,写的内容均与所要求内容无关或所写内容无法看清。

英语作文评分标准,解析及答题技巧

(一)高考英语作文评分标准 (二)高考英语作文评分标准解析及答题技巧 (一)高考英语作文评分标准 1本体总分为25分,按5个档次给分。 2评分时,先根据文章的内容和语言初步确定其所属档次,然后以该档次的要求来衡量,确定或调整档次,最后给分。 3词数少于或多余要求字数的,从总分中减去2分 4评分时,应注意的主要内容为:内容要点,应用词汇和语法结构的数量和准确性,上下文的连贯性及语言的得体性。 5拼写与标点符号是语言准确性的一个方面,评分时,应视其对交际的影响程度予以考虑。英,美拼写汉词汇用法均可接受。 6如书写较差,以至影响交际,将分数降低一个档次。7内容要点可用不同方式表达,对紧扣主题的适当发挥不予扣分。 {各档次的给分范围和要求} 第五档(很好);(21-25分) 1完全完成了试题规定的任务。 2覆盖所有内容要点。 3应用了较多的语法结构和词汇。 4语法或词汇方面有些许错误,但为尽力使用较复杂结构或词汇所致。具备较强的语言运用能力。 5有效地使用了语句间的成份,使全文结构紧凑。 6完全达到了预期的写作目的。 第四档(好);(16-20分) 1完全完成了试题规定的任务。 2虽漏掉一两个次重点,但覆盖所有主要内容。 3运用的语法结构或词汇方面能满足任务的要求。 4语法结构或词汇方面应用基本准确,些许错误主要是因尝试较复杂语法结构或词汇所致。5应用简单的语句间的连接成分,使全文结构紧凑。 6达到了预期的写作目的。 第三档(适当);(11-15分) 1基本完成了试题规定的任务。 2虽漏掉一些内容,但覆盖所有主要内容。 3应用的语法结构和词汇能满足任务的要求。 4有一些语法结构或词汇方面的错误,但不影响理解。5应用简单的语句间的连接成分,使全文内容连贯。 6整体而言,基本达到了语气的写作目的。 第二档(较差);(6-10分) 1未恰当完成试题规定的任务。 2漏掉或未描述清楚一些主要内容,写了一些无关内容。3词法结构单调,词汇项目有限。 4有一些语法结构词汇方面的错误,影响了对写作内容的理解。 5较少使用语句间的连接成分,内容缺少连贯性。 6信息未能清楚地传达给读者。 第一档(差);(1-5分) 1未完成试题规定的任务。 2明显遗漏主要内容,写了一些无关内容,原因可能是未理解试题要求。 3语法结构单调,词汇项目有限。 4较多语法结构或词汇方面的错误,影响对写作内容的理解。 5缺乏语句间的连接成分,内容不连贯。 6信息未能传达给读者。 不得分(0分) 未能传达给读者任何信息:内容太少,无法评判,写的内容均与所要求内容无关或所写内容无法看清。

(完整)高考英语作文评分标准

安徽省高考英语作文评分标准,答题技巧,答题方法1本体总分为25分,按5个档次给分。 2评分时,先根据文章的内容和语言初步确定其所属档次,然后以该档次的要求来衡量,确定或调整档次,最后给分。 3词数少于80和多余120的,从总分中减去2分 4评分时,应注意的主要内容为:内容要点,应用词汇和语法结构的数量和准确性,上下文的连贯性及语言的得体性。 5拼写与标点符号是语言准确性的一个方面,评分时,应视其对交际的影响程度予以考虑。英,美拼写汉词汇用法均可接受。 6如书写较差,以至影响交际,将分数降低一个档次。 7内容要点可用不同方式表达,对紧扣主题的适当发挥不予扣分。 {各档次的给分范围和要求} 第五档(很好);(21-25分) 1完全完成了试题规定的任务。 2覆盖所有内容要点。 3应用了较多的语法结构和词汇。 4语法或词汇方面有些许错误,但为尽力使用较复杂结构或词汇所致。具备较强的语言运用能力。 5有效地使用了语句间的成份,使全文结构紧凑。 6完全达到了预期的写作目的。 第四档(好);(16-20分) 1完全完成了试题规定的任务。 2虽漏掉一两个次重点,但覆盖所有主要内容。 3运用的语法结构或词汇方面能满足任务的要求。 4语法结构或词汇方面应用基本准确,些许错误主要是因尝试较复杂语法结构或词汇所致。5应用简单的语句间的连接成分,使全文结构紧凑。 6达到了预期的写作目的。 第三档(适当);(11-15分) 1基本完成了试题规定的任务。

2虽漏掉一些内容,但覆盖所有主要内容。 3应用的语法结构和词汇能满足任务的要求。 4有一些语法结构或词汇方面的错误,但不影响理解。 5应用简单的语句间的连接成分,使全文内容连贯。 6整体而言,基本达到了语气的写作目的。 第二档(较差);(6-10分) 1未恰当完成试题规定的任务。 2漏掉或未描述清楚一些主要内容,写了一些无关内容。 3词法结构单调,词汇项目有限。 4有一些语法结构词汇方面的错误,影响了对写作内容的理解。 5较少使用语句间的连接成分,内容缺少连贯性。 6信息未能清楚地传达给读者。 第一档(差);(1-5分) 1未完成试题规定的任务。 2明显遗漏主要内容,写了一些无关内容,原因可能是未理解试题要求。 3语法结构单调,词汇项目有限。 4较多语法结构或词汇方面的错误,影响对写作内容的理解。 5缺乏语句间的连接成分,内容不连贯。 6信息未能传达给读者。 不得分(0分) 未能传达给读者任何信息:内容太少,无法评判,写的内容均与所要求内容无关或所写内容无法看清。 注意事项: 1、对于写作内容,无题目或以书信体写作的不扣分。对于引言(李华在学校举行的英语比赛中获得一等奖)的描述与否,不宜作扣分处理。 2、评分时,先根据要点的覆盖面和语言表达的流畅性初步确定是否到及格线(即15分),划定其所属档次后,以该档次的要求来衡量,调整上下分值,最后确定分数。 3、词数少于120,应从得分中减去2分。 4、大小错误的界定: 小错:单词拼写,冠词,大小写、标点符号错误。 大错:搭配错误、用词用错(介词、名词、动词、形容词、副词)、时态、语态、 主谓一致、非谓语动词、句式等错误。

高职高专英语作文自动评分指标探索

高职高专英语作文自动评分指标探索 李恩亮 (江苏海事职业技术学院外语系,江苏南京211170) 【摘要】高职高专英语教学突出“实用为主、够用为度”的原则,英语课程不仅应打好语言基础,更要注重培养实际使用语言的技能,特别是使用英语处理日常和涉外业务活动的能力。然而,在高校扩招背景下,基础相对薄弱的高职高专学生在英文写作方面反映出的问题尤为突出,远达不到规定的要求。由于高职高专学生英语基础较差和自主学习能力不够,所以老师监督和反馈就显得非常重要,但是部分高职高专院校英语教师的师生比已经达到了130:1,所以采用计算机辅助批改作文对于高职高专教师来说就变得越来越重要。目前针对大学英语作文的自动评分方法已经有大量的研究成果,比如北京外国语大学的梁茂成教授、北京语言大学的葛诗利博士以及国外的ETS等机构,但是针对高职高专领域的专门研究还比较少,本文尝试在已有英语作文自动评分研究为基础上,通过研究教育部高职高专英语课程的写作要求,以及以2012年(第三届)全国高职高专英语写作大赛江苏省赛区参赛作文作为测试样本,探索符合高职高专特点的英语作文自动评分指标。 【关键词】高职高专;英语写作;自动作文评分;评分指标 一、引言 全国高职高专英语写作大赛已经举办过三届,前两届参赛作文均采用人工批改与评审,在这过程中发现人工批改英语作文存在一定的问题。主要的问题包括: 第一、主观性强,不同的阅卷教师对同一篇作文可能会给出完全不一样的评价。 第二、一致性差,同一篇作文阅卷教师在不同的时候评分可能不一样,比如心情好的时候分数可能会高一些,心情不好的时候可能会差一些。 第三、工作量大,以2012年(第三届)全国高职高专英语写作大赛(江苏赛区)为例,每个评阅教师要在3个小时内看300篇作文,平均每篇 作文的批改时间不到1分钟,阅卷教师这么短的时间下很容易疲劳, 导致给出不完全客观的评价。 近年来英语作文自动评分(Automated Essay Scoring,简称为AES)已经逐渐成为语言测评中的热点方向,成熟的系统已有十余个,文章与著述也比较多,但大多数针对英语母语作文评分,涉及英语作为外语(EFL)作文评价并不多见(葛诗利,2010)。

相关主题
文本预览
相关文档 最新文档