第七章测验等值
- 格式:ppt
- 大小:842.50 KB
- 文档页数:38
摘要本文对测验等值的几种设计和方法进行分析比较,并讨论如何使用这些设计和方法,同时指出一些尚待进一步研究的问题。
关键词测验等值等值设计等值方法一、等值的意义和作用人们有种种理由要求比较、解释不同时间、不同地点、不同考生的测验分数,以便对试卷或试题的质量,对不同学年的考生水平作出公正的评价、合理的解释,特别是高考、自考这种规模大、影响广的全国统一考试,它决定数百万考生的命运因而备受社会各界关注。
人们当然想知道,各年度试卷的难度水平是否有变化?各年度考生的实际水平是否有提高?不同年度考试之间的考试分数究竟有何关系?如果我们能够把不同年度、不同考生的考试成绩转化到同一个单位系统上去,则上述问题就能得到解决。
在教育与心理测量中,把测量同一种心理特质的不同测验分数,通过一定的数学模型转换成同一单位系统中的过程就称为测验的等值,可见测验等值是心理与教育测量中一个重要的研究领域。
根据等值对象的不同,测验等值包含两方面的内容,如果我们想把不同次测验所得到的分数进行等值,这种等值称为测验分数等值,例如在自学考试中,我们想知道去年的高数考试成绩60分究竟等同于今年的高数成绩多少分。
如果我们想对测验题目的参数如难度、区分度进行等值,这种等值就称为项目参数等值,本文主要讨论测验分数等值,项目参数等值的思想方法与之相似。
二、等值的条件等值是有条件的,不是任意两个测验都可以进行等值。
首先,要求等值的两个测验必须是测量同一心理物质的。
很难想象可以把数学测验的分数等值转换成语文测验的分数,但数学测验分数却可能转换成另一次内容难度近似的数学测验分数。
其次,只有当测量同一特质的两次测验的信度即可靠性相同或相近时才能进行等值。
信度值相差太大的两次测验不能进行等值,第三,测验等值转换关系应具有公平性。
公平性的意思是:若两个或多个测验可以进行等值,则无论以其中任何一个作为基准来进行转换都是可行的,这样考生接受其中任何一个测验,其分数经等值变换后都不会低估或高估其实际水平。
测验等值一、为什么进行测验等值研究测验、考试被作为一种尺度来对人的心理特质进行测量。
这种尺度应该具有稳定性。
不同的考试版本之间应该具有一致性。
对于同一个测量对象,不能用这个版本测量得到一个度量,用另一个版本测量却得到相差很大的另一个度量。
尽管我们在命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免的。
这种差别不仅会影响到测验的质量,影响到评价标准的客观性,而且会使参加考试时间不同、使用试卷不用的考生受到不公平的对待。
这样,就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量尺之上,采用统一的量尺对应考者进行测量。
这种将一个测验的不同版本的分数统一在一个量表上的过程即等值(equating)。
如果不进行等值处理化,不同时间举行的考试的成绩之间不具备可比性,评价标准或证书授予标准会受到试卷难度起伏的影响。
一些水平不高的考生可能会由于运气好遇到较容易的试卷而通过考试获得相应资格,一些水平较高的考生可能会由于运气不好遇到较难的试卷而未通过考试并未能获得相应资格。
这种状况,不仅影响到选拔效率和人员素质,而且对考生也是很不公平的。
等值研究的意义并不局限于保证考试公平。
今天,为了避免命题和试卷编制中的盲目性和偶然性,许多考试机构都在致力于建设题库。
实现基于项目反应理论(Item Response Theory,简称IRT)的题目参数等值是建设科学化、大规模题库的前提。
基于经典测验理论(Classical T esing Theory,简称CCT)之上的等值方法只能实现不同试卷之间的等值,满足“试卷库”建设的需要,很难实现在统一的量尺上标定试题难度和区分度的任务,很难满足大规模题库建设的需要。
实现计算机化自适应性考试是许多考试的发展方向,也是摆在许多考试机构面前的重要课题。
计算机化自适应性测验开发中的一个核心环节就是在统一的量表上标定试题参数,实现各个考生所回答的不同题目之间的等值。
测验等值的方法:共同被试法
一帆
【期刊名称】《教育测量与评价(理论版)》
【年(卷),期】2015(000)006
【摘要】共同被试法是通过相同被试寻找不同测验形式之间等值关系的方法,适用于大规模测验的等值转换.当两个实际被试组能力分布差异较大或能力分布未知的情况下,可采用同一组被试,让他们参加两种测验形式的测验。
然后通过比较这一组被试在两种测验上的分数,得出测验等值关系。
【总页数】1页(P45-45)
【作者】一帆
【作者单位】
【正文语种】中文
【相关文献】
1.测验等值与量表研究的最前沿——美国《测验等值、量表制订、联结的方法和实践》(中文版)即将出版
2.无锚题测验等值设计方法研究进展
3.测验等值与量表研究的最前沿——美国《测验等值、量表制订、联结的方法和实践》(中文版)即将出版
4.对称相对熵测验等值法
5.测验等值设计的一种新方法──单组设计试卷分半法
因版权原因,仅展示原文概要,查看原文内容请购买。
心理测量学练习题册2014版第一章:心理测验总论名词解释1.心理测验:2.心理测量:简答:1.中国古代心理测量学思想的特点主要表现在哪些方面?2.简述从20世纪初叶开始至今心理测量运动的发展轨迹。
3.试述心理测量在当代的发展趋势?第二章:心理测验的编制选择题1.心理测验编制完成,试测时的时限一般规定为()。
(A)所有被试都完成测验(B)60%的被试完成测验(C)80%的被试完成测验(D)90%的被试完成测验2.编写容易并且无法猜测,但是评分不够客观的试题类型是()。
(A)匹配题(B)是非题(C)填空题(D)简答题3.下面哪一个难度的项目的区分度最不理想()。
(A) 0.8 (B) 0.5 (C) 0.1 (D) 0.64. 在一次心理测验中,高分组的通过率为75%,低分组的通过率为15%,那么该项心理测验的区分度为()。
(A) 50% (B) 60% (C) 100% (D) 70%5. 在一次全省招生考试中,高分组的通过率为80%,低分组的通过率为20%,那么该次考试的难度为()。
(A) 50% (B) 60% (C) 100% (D) 70%6.心理测验编制完成,测验的最终的时限一般规定为()。
(A)所有被试都完成测验(B)60%的被试完成测验(C)80%的被试完成测验 (D)90%的被试完成测验7.编写容易、评分客观的试题类型是()。
(A)填空题(B)是非题(C)论文题 (D)简答题8.下面哪一个难度的项目的区分度最小()。
(A) 1.0 (B) 0.5 (C) 0.3 (D) 0.69.编制心理测验时,最初编制的题目数量应是最终所需题目数量的()倍。
(A)1-1.5 (B)2-3 (C)3-3.5 (D)4-510. 在量表编制过程中,因素分析的主要目的是()。
(A)确定项目之间的相关(B)确定量表的信度(C)探索并降低测量维度(D)建立常模11. 下列选项中,可以不写进测验使用手册的是()。
《心理测量学》对教育测量的参考价值[摘要]本文首先对心理测量与教育测量的关系做了简要阐述,接着介绍了教育测量专业的发展和教学现状,最后对《心理测量学》一书的特色做简要评论,指出该书对教育测量专业发展及教学的一些借鉴意义。
[关键词]心理测量教育测量影响一、引言心理测量是通过观察人的少数的、代表性的行为,对贯穿在人的全部行为活动中的心理特点做出推论和数量化分析的一种科学手段(郑日昌,1987)。
教育测量学是以教育学、心理学、统计学为基础,应用各种测试方法和手段,对教育现状、教学效果、学生学业成绩、个人能力、品德等方面进行科学测定和评价的一门教育科学(张敏强,1997)。
心理测量学和教育测量学作为两个不同的专业,有着各自不同的学科特色和发展轨迹。
心理测量研究的重心是个体的心理活动及其特点,而教育测量则更加关注学习者的学习效果,二者的研究范围和关注重点有一定的差异。
但是,心理测量学和教育测量学在理论发展与实际应用方面却又是密切相关的,最大的相同点在于两个专业都要使用大量的统计技术对个体的行为进行分析,不管这些行为是心理行为还是学习行为。
人们常常将心理测量和教育测量相提并论,认为教育测量就是心理测量学在教育领域的应用,这种看法也是有一定道理的,毕竟个体的学习行为也属于人类心理活动和社会行为的一种。
二、教育测量学的学科发展和教学现状在教育领域里,教育测量学包括教育测验和教育评估。
其中,教育测验是指在教育过程中,对学生学习成绩、学习能力或个性特征等一种量的测定,教育测验又可以分为水平测验、成绩测验、能力倾向测验、分班测验和诊断测验。
教育评估是根据已定的教学目标来判断学生、教师、学校在多大程度上完成或达到了这个目标的一个系统的评价过程。
我国正在积极倡导和大力推进素质教育,要想真正推进素质教育,必须建立素质教育运行机制,用教育评价理论和现代测量技术手段来评价学校、教师、学生,因此应该、加强对教育测量学的重视、加大对教育测量专业学科建设的投入。
2010年2月第26卷第1期教育科学EducationScienceFeb,2010V01.26No.1测验等值是开发中考评价功能之必需杨悦(大连教育学院,辽宁大连116021)[摘要)中考是各地区规模较大和有影响力的高利害性考试,只有建立科学完善的考试评价系统才能充分发挥中考对地区初中教学多方面的服务作用,而建立完善考试评价系统的必备程序是等值。
IRT等值的步骤包括估计项目参数、进行IRT量袁转换以及制作分数转换表。
[关键词)中考评价;测验等值;IRT等值(中图分类号]G622.474(文献标识码]A(文章编号)1002—8064(2010)01—0047—03中考是判定初中毕业生是否达到初中毕业水平以及为高中阶段学校选拔新生提供录取依据的高利害性考试,因此是一个组织严密、命题规范、社会关注度极高的考试。
中考被作为一把量尺,用来度量考生知识与能力、素质与潜能,它的主要功能表现在两个方面,即评价和选拔。
以往人们更多地关注了中考的甄别与选拔功能,而对中考评价功能的开发与利用却远远不够。
其实,考试的本质是对教育现象的数量化认识,是一种事实判断[1],因此中考丰富的数据资源中蕴藏着大量的能够折射出初中教学质量的各方面信息,如何利用中考成绩,在现代测量理论和统计方法的指导下,借助先进的技术手段,挖掘这些信息,发挥中考的潜在评价功能,为初中教学改革提供有价值的参考依据和引领初中教学具有重要的现实意义和指导意义。
一、中考评价对地区初中教学的服务作用2001年,教育部在《基础教育课程改革纲要(试行)》中明确指出要“建立促进学生全面发展的评价体系。
评价不仅关注学生的学业成绩,而且要发现和发展学生多方面的潜能,了解学生发展中的需求,帮助学生认识自我,建立自信。
发挥评价的教育功能,促进学生在原有的水平上的发展。
”教育评价是按照社会的价值标准,对受教育者的诸种要素进行价值评估,其本质是一种价值判断[2]。
中考既然是各地区按照国家《课程标准》要求对本地区初中教学质量的一次检验,因此,中考评价可以为地区的初中教学提供以下服务:第一,可以向每所学校定量的描述该校学生各学科的整体学业水平以及学生在各学科不同能力维度的表现状况和对不同内容维度知识的学习效果。
测验等值一,选择题1. (D)的目的是为了比较两个不同测验形式之间的实测分数A. 导出分数转换B.测验形式转换C. 数据平滑D. 等值转换2. 两个不同形式的测验之间进行测验等值是必须具备一定条件的,其中不包括(B)A. 同质性B. 样本可变性C. 等信度D. 可递推性3. 数据的采集方法,等值实现的途径,等值的计算方法进行周密的设计,称为(A)A. 测验等值设计B. 锚测验C. 数据平滑法D. 等值标准误差4. 测验等值结果是两个不同测验形式分数或项目参数间的转换关系,有三种表示方法,其中不包括( C )A. 表列法B. 公式法C. 对应法D. 图示法5. 线性等值用数学公式表示为,可以改写为y=Ax+B,其中A=(A)A. B. Sx / Sy C. y-Ax D. Fb+Lb二,填空题6. 经典测验理论下,测验等值关系的计算方法主要分为两类:百分位等值,线性等值7. 在等百分位等值方法的公式中PR代表:百分等级8. 锚测验的要求:与原测验测量同种心理品质,与原测验有相同的测验质量,长度不短于原测验1/59. 测验等值的需要源于:测量实践的需要三,简答题10. 为什么需要测验等值?答:在心理与教育测量实践中,经常遇到一个测验需要配备多个测验形式的情况,特别是那些测验内容易受记忆或针对性训练影响的测验,在测验之前需严格保密,测验之后不能再用,必须配备多个不同形式供不同次施测所用。
对于这种情况,测验编制者显然希望这些不同形式的测验结果分数应该是“相等”的,也就是说,如果是对同一个被试施测,通过各个不同形式所测得的结果应该是完全一样的。
为达此目的,测验编制者在测验编制的技术上作了许多努力,但在实际施测后,不同形式之间分数的差异依然存在,这就会引起评价的不公正。
这种结果在需要对参加不同形式施测的被试作统一评价时,就会造成些明显的失误。
避免这种失误的一条途径是寻找到不同测验形式之间分数的转换关系,把所有不同形式测验的分数你转换到同个分数系统上,就不会再出现上述不公正现象。