衡量考试质量的四个重要指标
- 格式:doc
- 大小:24.00 KB
- 文档页数:1
考试成绩质量分析考试成绩质量分析考试成绩质量分析(一)一、项目分析评价试题质量的指标主要是试题的难度和区分度,再是选择题分心答案的诱导效用性。
项目分析是对每道试题的难度、区分度以及选择题的分心答案的诱导效用性分别加以分析。
1、难度分析难度是表示试题难易程度的指标。
其计算方法是以学生答对某题的比率来进行的。
依题型及评分方法的不同,可用下面几个公式计算。
<1>当用二值计分法时(只有答对或答错两种情况),可用公式P=R/N计算。
P 表难度,R表答对人数,N表受试总人数或抽样的总样本数。
因受试者有可能凭猜测答对某些试题2、提出了依D值大小,对考试成绩质量进行评价的标准。
D≥0.4,质量非常良好;0.30≤D≤0.39,质量良好;0.20≤D≤0.29,质量尚可,应修改;D≤0.19,质量低劣,应淘汰。
D值越大,区分度越高,则能力强、水平高的受试者得分较高;能力弱、水平低的受试者得低分,这样可把不同程度的受试者鉴别开来。
影响区分度的因素较多,其中最主要的是难度,通过理论计算得出:当P=0.5时,D有极大值。
由此可知,改变难度就可调节区分度。
3.选择题分心答案诱导效用性分析选择题在客观性测验与考试中应用最广。
每题都由一个题干和几个备选答案组成。
备选答案中,有对有错,且对与错有一定相关性,这样可使备选答案形成似是而非的状况。
受试者在选择正确答案时,错误的答案会起到分心或迷惑作用,故错误的备选答案常被称作分心答案或诱答。
对受试者来说,只有认真地分析、比较,才能选出正确答案。
那些对所学知识掌握不够好的受试者,常被诱答迷惑住,那么该诱答就失去了应有作用,其效用性就低。
分析诱答的诱导效用性,其方法是比较高分组和低分组选答每一个诱答的人数。
良好诱答,应促使高分组选答它的人数少于低分组选答它的人数。
设高分组选第i个诱答的人数为H,低分组选其人数为L。
对i诱答,若满足L>H,则该诱答的诱导效用性就高。
若一个选择题的几个诱答都满足上述条件,则该题的质量就高。
命题前请仔细阅读考试命题双向细目表的编制考试命题双向细目表编制考试命题双向细目表是一种考查目标(能力)和考查内容之间的列联表。
制作考试命题双向细目表,是命题工作的一个重要环节。
双向细目表可以使命题工作避免盲目性而具有计划性;使命题者明确测验的目标,把握试题的比例与份量,提高命题的效率和质量。
同时,它对于审查试题的效度也有重要的指导意义。
双向细目表是包括两个维度(双向)的表格,细目表也可以是多维的,一般用双向细目表。
较常见的有四种:(1)反映测验内容与测验目标关系的双向细目表。
(2)反映测验内容与测验目标、题型之间关系的双向细目表。
该表是上一个表的改进,增加了题型。
(3)反映题型与难度、测验内容之间关系的双向细目表。
该表可以体现题型数量、难易度、测验内容的分配问题。
优点是试题取样代表性高,试题难易程度也可以作适当控制,表中数据容易分配。
局限性是未能反映测验目标。
(4)反映题型与难度、测验目标之间关系的双向细目表。
难易度:A.较易 B.中等 C.较难 D.难度较大认知度:Ⅰ识记Ⅱ理解Ⅲ简单应用Ⅳ综合运用下面主要说明反映测验内容与测验目标(学习水平)和题型分数的双向细目表。
即把要考查的知识内容与学习水平(能力)、试题的类型和分数呈现在一张表上,这样命题时,一目了然,便于操作。
该表是由一张概括程度比较高的知识内容和分类比较细的学习水平构成,在表中,纵、横两表头双向决定的每个点(交叉的格)为一个考察点,每个考察点要体现题型、题量、得分点三个参数。
这样对试卷结构、对考查的主要内容就具有了明确的指向性。
举例,假设每一个得分点的分数值定为2分,以100分为满分,则整个试卷可以有50个得分点。
再假定每个得分点考生平均能以一分钟时间答完题,并考虑考生复核、检查时间,那么这次测验时间可定为60分钟。
另外,由于实际上不同考查点的重要性与难度不同,在所占分数上它们应当占有不同的比例;由于不同题型的解答难度不同,通常按不同题型给出不同的权重。
目录考试成绩评价的区分度、信度、效度等概念 (1)高一化学备课组 2009.3.26 (4)考试成绩评价的区分度、信度、效度等概念1、试卷的区分度试卷的区分度指测试题目对被测试者实际水平的区分能力。
区分度高的试题,能将不同水平的被试者区分开来;区分度低的试题则对被试者水平不能很好地鉴别。
区分度是指试题对被试者情况的分辨能力的大小。
一般在-1~+1之间,值越大区分度越好。
试题的区分度在0.4以上表明此题的区分度很好,0.3 ~0.39表明此题的区分度较好,0.2 ~0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。
计算区分度的方法很多,特别需要注意的是对同一个试题的考试成绩采用不同的方法所得到的区分度的值是不同的。
我们可以使用下面的两种方法计算区分度:(1)先将分数排序,P1=27﹪高分组的难度,P2= 27﹪低分组的难度区分度D =P1-P2或区分度 D = (27﹪高分组的平均分-27﹪低分组的平均分)?/font>满分值(2)利用积差系数r 计算区分度D当两个变量都是正态连续变量,而且两者之间呈线性关系,表示这两个变量之间的相关成为积差相关。
积差相关的使用条件a、两个变量都是由测量获得的连续性数据。
如百分制分数。
b、两个变量的总体都呈正态分布,或接近正态分布,至少是单峰对称的分布。
c、必须是成对的数据,而且每对数据之间是相互独立的。
d 、两个变量之间呈线性关系。
积差相关系数r的计算在计算机上是很容易进行的。
积差相关系数r的公式如下:r=(无法显示)原谅!2、试卷的信度试卷的信度主要从两个方面进行分析,一方面是考试成绩期望值与实际成绩平均值的差异,考试成绩期望值一般应以平时成绩的平均值为依据确定.另一方面是考试成绩的预期及格率与实际及格率的差异,考试成绩及格率的预期值同样以平时成绩的及格率为确定依据.两个方面的差异性较小,说明试卷信度较高.考试信度,简单地说是考试结果的可信程度,是推测考试可信与否的最重要的量化指标。
作业设计与试题的编制过程作业和试题作为协助学生巩固和消化及检测所学知识,并转化为技能技巧的重要环节,其重要性不容无视。
随着课改的持续深入,很多教师都开始改革数学作业和试题,增添作业和试题的形式与花样,消除学生对作业和试题的厌恶感与恐惧感,让他们真正喜欢上数学作业,积极参与检测,最大限度地培养学生的自主学习水平。
【案例展示】马老师在学生掌握了规则的长方体、正方体、圆柱体等立体体积计算方法后,布置了这样一道课后作业:求不规则物体的体积计算方法——如何测量一块土豆的体积,要求能够和家长或者同学一起完成,看看谁是“智多星”!第二天答案反馈后,大多数学生课后做了如下实验:①准备一个能放进土豆的容器(长方体或正方体或圆柱体形状),放入水,测量相关数据,计算出水的体积;②把土豆用线吊起来轻轻地沉入水中;③再次测量此时相关数据,求出此时水的体积;④用两次水的体积作差求出土豆的体积。
也有的学生是这样“做”出来的:将土豆蒸熟后捏成一个近似的长方体(或正方体、圆柱体),量出相关数据再计算。
也有的先称出土豆的质量,再从中挖出一个1立方厘米的正方体,称出质量,利用比例知识换算出土豆的体积。
还有的学生把土豆近似看成一个圆柱,测出相关数据,用估算知识得出土豆的近似体积。
也有的学生将土豆切成薄片,将其近似地视为圆片,用尺子测量圆片的半径及厚度,求出小圆片体积,再加起来得出土豆的体积……学生在动手、动脑中学会了用动手实验、取样类比、等积变形、估测求积等多种探究问题的方式方法去解决生活中的问题。
【案例解析】课程标准要求“不同的人在数学上得到不同的发展”,必须通过唤起学生这个主体,让他们把学习情感、学习兴趣、质疑水平、创新意识、动手动脑解决问题的水平等融入数学作业中和试题解答中逐步实现。
教师只有设计多种形式的数学作业和试题,让数学作业和试题丰富多彩,使学生数学学习的活动,成为一个生动、活泼和富有个性的过程,学生才会喜欢数学,并成为数学学习的主人。
认真做好双向细目表科学公正出好考试题一、为什么要制定双向细目表平时我们承担期末考试出题任务时,有时觉得自己出题很简单,可是成绩出来后学生成绩很不理想;有时觉得自己题出得有点难了,但是成绩出来后发现学生成绩还真的不错。
为什么会出现这种状况呢?那是因为我们对自己出的题只是从目测或者感觉上来判断,缺乏科学的依据,导致成绩和自己预期的有差别。
作为一名教学能手,出好一份试卷是我们能力范围内的事,必须让我们的试卷做到公正、合理的评价一名学生的阶段性学习效果。
那么我们出试卷前第一件事就是要制定双向细目表。
二、什么是双向细目表1.双向细目表是指为了科学地安排考试内容,对即将命制的试卷进行科学规划的命制试题规划表。
最常用的考试命题双向细目表是一种考查内容和考查目标之间的关联表,实际上就是教材内容和学习结果两个维度,其中一维反映教材的内容,另一维反映学生应达到的学习水平。
2.双向细目表的三个要素:考查目标、考查内容以及二者之间的比例。
三、命题“双向细目表”的作用1.是命题的依据。
命题双向细目表主要是用于指导命题的,命题者依据该表中对各项目的具体要求来命题,2.是核检内容效度的依据内容效度是指在考试内容上考到了要考的那些东西的程度,具体指平日里我们所说的试题是否具有代表性,覆盖面是否全面。
3.是评价教学质量的依据由于命题双向细目表在很大程度上体现了教学的“质”(指考查目标和考查内容)和“量”(指相应的比例),即教学内容是否达到了课程标准的要求,因此可以利用该表来实施教学质量评价。
四、制定双向细目表的注意事项(一)四个重要指标双向细目表既然是制定试卷的依据,那么我们就有必要了解衡量考试质量的四个重要的指标:即考试的效度、信度、试题的难度和区分度。
①效度。
只说内容效度,是测试内容的代表性和试题的覆盖面。
一般要体现课程标准规定的学习要求。
内容比较全面,难度适中,试题比较科学,题型使用合理,评分标准合理。
②信度。
考试的信度是指考试结果的可靠性程度,也就是考试内容是否达到衡量学生阶段性学习效果。
《教育测量与评价》习题(一)填空题1. _桑代克_的论著《精神与社会测量导论》一书标志着教育测量理论的诞生,泰勒领导了著名的八年研究并提出“行为目标评价模式”,最先提出了教育评价的概念,被称为“今世教育评价之父”。
2. 依照测量的精准程度,教育测量量表从低级到高级分为称名量表、顺序量表、区间量表/等距量表和比率量表。
3. 某道论述题满分12分,所有考生在这道题上的平均得分为分,则此题的难度为。
4.教育大体理论研究、教育测量与评价科学研究和教育发展理论研究已成为现代教育科学研究的三大领域。
5. 教学工作评价的内容包括对教师的备课、上课、批改作业、课外辅导、命题考试等教学工作大体环节的评价。
(二)判断题(√)1. 考试的信度受许多因素的影响。
一般来讲,增加考试的长度,可以提高试题取样的代表性,因此有助于提高考试的信度。
(√)2. 标准分数本身是关于原始分数的一种线性变换,因此,标准分数不改变原始分数的散布形态。
(×)3. 假设某学生在期中语文统考中卷面分数为85分,又知该学生所在年级中有60%的学生成绩低于85分,则该学生的百分品级为51。
(×)4. 等距变量具有品级变量的特征,要求持续数量之间的差距相等,亦即具有相等的单位。
因此,等距变量可以作加减乘除运算。
(×)5. 教育评价的主要功能就是甄别和选拔,通过各个层次的教育评价可以监督教师的教学工作和学生的学习活动,确保学校教育教学工作的正常进行。
(√)6. 考试试题的难度影响着考试分数的散布。
(×)7. 现代测量理论是在经典测量理论的基础上发展起来的,修正了经典测量理论的不足,所以现代测量理论可以完全代替经典测量理论。
(√)8. 发展性教学评价以为面面俱到的课不是好课,只是“教教材”,没有“用教材教”的课也不是好课。
(三)简答题1. 常见的指标权重分派方式有哪几种?【答题要点】:常见的指标权重分派方式包括:(1)关键特征调查法;(2)两两比较法;(3)专家评判平均法;(4)倍数比较法;(5)Q分类法。
试题评价指标通常包括以下几个方面:
1.信度:信度是衡量试题质量的指标之一,它反映了试题的可靠
性和稳定性。
一个好的试题应该在不同的时间、不同的地点和不同的条件下,对同一组考生进行测试,其结果应该保持一致。
2.效度:效度是衡量试题质量的另一个重要指标,它是指试题是
否能够准确地测试出考生所要测量的知识和能力。
一个好的试题应该具有较高的效度,即能够有效地测试出考生对于所要测量的知识和能力的掌握程度。
3.难度:难度是衡量试题难易程度的指标,它通常用试题的得分
率来表示。
难度过高或过低都会影响试题的质量,因此需要选择适当的难度水平。
4.区分度:区分度是指试题对于不同水平的考生能够区分出他们
的能力差异的程度。
一个好的试题应该具有较高的区分度,以便能够区分出不同水平的考生。
5.覆盖面:覆盖面是指试题所涉及的知识面和能力的范围。
一个
好的试题应该具有较广的覆盖面,能够测试出考生的全面知识和能力。
6.表述清晰度:表述清晰度是指试题的语言表达是否清晰、简洁、
易懂。
一个好的试题应该具有较高的表述清晰度,以便让考生能够理解并回答问题。
7.结构合理性:结构合理性是指试题的组成和排列是否合理。
一
个好的试题应该具有合理的结构,以便能够全面地测试考生的
知识和能力。
试卷的难度、区分度、信度和效度一.试卷的难度(一)什么是难度难度是指试卷的难易程度,是评价考试的一个非常重要的一个指标。
一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。
客观题难度计算公式:P(难度指数)=试卷答对人数/考生人数;主观题难度计算公式:P=试卷平均得分/试卷满分。
试卷难度计算公式:P=为平均分,K为试卷满分值。
易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。
一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。
(二)难度的计算(1)客观性试卷难度P(这时也称通过率)计算公式:P=k/N(k为答对该题的人数,N为参加测验的总人数)(2)主观性试卷难度P计算公式:P=X/M(X为试卷平均得分;M为试卷满分)(3)适用于主、客观试卷的计算公式:P=(P H+P L)/2(P H、P L分别为试卷针对高分组和低分组考生的难度值)步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④计算。
(三)试卷难度的一般要求就高考来说,难度以适中为宜,单个试卷的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。
一般将难度值大于和等于0.7的试卷定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试卷定为难题。
命题时难度一般要按一定比例分配,如3:6:1或3:5:2。
二.试卷的区分度(一)什么是区分度区分度是指考试卷目对考生心理特征的区分能力。
区分度高的试卷能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。
区分度高的考试,优秀、一般、差三个层次的学生都有一定比例,如果某一分数区间学生相对集中,高分太多或不及格太多的考试,区分度则低。
(二)区分度的计算1.单个选择题目区分度的计算将全体考生总分从高到低排列,将总分最高的27%考生定为高分组,总分最低的27%考生定为低分组,分别计算两组考生在某道题目上的通过率,两个通过率之差就是这道题的区分度(又叫鉴别指数)。
教育测量与评价案例分析题信度与区分度效度与信度难度与效度难度与区分度,下列哪种效应的弊端为以偏概全,评价者在评价中坚持反映自己大我价值观的心理现象是指,期望效应时尚效应理想效应近因效应。
教育测量与评价试题一、选择题1.根据某种规则把所观察的对象予以数量化的过程,这一概念是()A.测量B.评价C.统计D.测验2.衡量测验题目质量的两个重要指标是()A.信度与区分度B.效度与信度C.难度与效度D.难度与区分度3.测量结果的稳定性程度是()A.效度B.稳定性C.信度D.可信度4.我国高考标准分数采用了一种方案,这种方案是()A.对比参照方案B.常模参照方案C.正态化转换方案D.百级等级方案5.测量学生对问题的理解、再认、比较与辨别的能力,以及思维的敏捷性和准确的推断力的题型是()A.填空题B.选择题C.是非题D.计算题6.下列不属于教育评价的原则的是()A.方向性原则B.公平性原则C.指导性原则D.主体性原则7.下列哪种效应的弊端为“以偏概全”()A.晕轮效应B.参照效应C.首因效应D.成见效应8.在评价对象的集合之外确定一个标准,评价时把评价对象与客观标准进行比较的评价法是()A.定性分析评价法B.临床督导评价法C.绝对评价法D.相对评价法9.评价者在评价中坚持反映自己“大我”价值观的心理现象是指()A.本位心理B.逆反心理C.“趋”中心理D.从众心理10.体育运动会中各个项目的名次为“第1名,第2名,第3名”,这一变量属于()A.比率变量B.称名变量C.顺序变量D.等距变量11.评价者的心理现象中被称为“皮格马利翁效应”的是()A.期望效应B.时尚效应C.理想效应D.近因效应12.“权,然后知轻重;度,然后知长短”所指的测量的特点是()A.间接性B.相对性C.可测性D.准确性13.根据题目答案的范围和评价误差的大小,可把测验题目分为()A.选择题和填空题B.论述题和操作题C.选择题和简答题D.客观题和主观题14.在一36名学生数学考试分数的频数分布表中,最高分数为97,最低分数为50,并将其分为8组,则组距为()A.5B.6C.5.6D.715.用来表示两个平行测验测量同一批被试所得结果的一致程度,且大小等于同一组被试在两个复本测验上所得分数的积差相关系数的信度是()A.同质性信度B.重测信度C.复合信度D.评分者信度16.下列为评价信息收集标准的是()A.可靠性和准确性B.时限性和客观性C.准确性和一致性D.可靠性和有效性17.表示每项评价指标在指标体系中所占的重要性程度,并赋予相应的值,这一概念是()A.评价指标B.评价标准C.指标权数D.指标权重18.标准分数属于什么变量()A.类别变量B.等级变量C.等距变量D.比率变量19.定性分析评价法和定性综合判断法的教育评价方法是按照()来分A.基种B.思维方法C.行为目标D.单项指标评分方式20.T分数的计算公式是()A.100Z+500B.2Z+50C.10Z+50D.2Z+5二、填空题1、衡量教育测量的质量可采用的四个指标是、、、。
衡量考试质量的四个重要指标
1.信度
考试的信度是指考试结果的可靠性程度对任何学生的多次测定都会产生比较稳定的、前后一致的结果。
2. 效度
效度指考试的准确性,反映的是考试内容与课程标准的吻合程度。
效度高的试卷,能够较准确地测试出学生掌握和运用所学知识的真实度。
3. 难度
平均得分/满分。
可根据不同的考试略有调整,建议控制在0.75左右。
若大于0.85则偏易,若小于0.65则偏难。
4. 区分度
考出学生的不同水平,把优秀、一般、差三个层次的学生真正分别开。
具体做法是:把成绩从高往低排序,前50%的考生为高分组,后50%为低分组,其计算公式为:D=2(XH—XL)/W。
其中,XH为高分组平均分,XL为低分组平均分,W为试卷总分(一般为100分)。