项目难度与项目极大区分度之问的关系
- 格式:doc
- 大小:107.00 KB
- 文档页数:8
教育测量与评价第一章教育测量与评价的学科发展第一节教育测量与评价的基本问题一、教育测量与评价的含义1.测量:从广义上是根据某些法则与程序,用数字对事物在量上的规定性予以确定和描述的过程。
2.测量的要素:一是必须依据某些科学原理与法则,发展出合适的量具或制定出科学的测量方案;二是必须有意义相对明确的测量单位;三是用数字对事物在量上的规定性予以确定,就需要有一个测量或计算的起点,即参照点。
参照点不同,其策略结果也就不同,且测量结果之间也无法进行直接比较。
参照点分绝对零点和相对零点。
测量三个基本要素:量具、单位、参照点。
3.教育测量的含义:针对学校教育影响下学生各方面的发展,侧重从量的规定性上予以确定和描述的过程。
教育测量反馈的是关于课堂教与学两方面的信息。
4.教育测量的特点:总的来看,教育测量是属于精神特性的测量。
与物理量的测量相比,其具有(1):间接性和推断性。
目前只能通过人的外显行为或通过人对来自外界的一些刺激所作出的反应,对人的知识技能、智力水平、思维品质、创造能力、心理素质、情感态度、思想道德等作出间接性、推断性的测量。
(2)测量对象的模糊性和测量误差的不可避免性(3)量表具有多样性,结果具有相对抽象性。
量表根据测量的精确程度,从低级到高级可分为称名量表、顺序量表、等距量表和比率量表四种水平(各自定义)。
测验的原始分数经过统计处理后推导出一种新的量表分数,此时分数“零”有时也是一个相对的零点。
但绝大多数教育测量的内容不可穷尽,故大多数教育测量往往没有绝对的零点。
二、教育评价的基本问题1.评价的含义:广义的评价泛指衡量、判断人物或事物的价值。
2.教育评价的概念:格兰郎德(N. E. Gronlund)认为,评价是为了确定学生达到教学目标的程度,收集、分析和解释信息的(课堂)系统过程;评价包括对学生的定量描述(测量)和定性描述(非测量)两方面。
根据格兰朗德的观点,评价总是包括对测量结果需求程度的价值判断。
题目区分度,又称题目鉴别力,是指一个测验题目能够在多大程度上区分所要测量的心理品质,反映了测验题目对心理品质区分的有效性。
一个具有良好区分度的题目,在区分被测者时应当是有效的。
能通过该项目或是在该项目上得分高的被测者,其对应的品质也较突出;反之,区分度较差的项目就不能有效地鉴别水平高或低的被测者。
因此,区分度也叫做项目的效度,并作为评价项目质量、筛选项目的主要依据。
区分度的计算以被测者对项目的反应与某种参照标准之间的关系为基础,其取值范围是-1.00~+1.00。
一般情况下,区分度应为正值,称作积极区分,值越大则区分度越好;若区分度为负值,则为消极区分,说明这个题目有问题,应删除或重新修订;区分度为0,为无区分作用。
如需获取更多关于题目区分度的信息,建议查阅心理学专业书籍或咨询专业人士。
区分度名词解释
区分度是测试或测验项目的一个重要指标,用来评定测试题目对被试者能力的识别度。
简单地说,区分度反映了一个问题在回答正确的人群与回答错误的人群之间的差异程度。
区分度可以用统计学方法来衡量,最常见的方法是使用皮尔逊积矩相关系数(P-value)。
P-value的取值范围为-1到1,数
值越接近1表示区分度越高,数值越接近-1表示区分度越低。
通常,一个区分度大于0.3或0.4的问题被认为是具有较好的
区分度,而小于0.2的问题则被认为是具有较低的区分度。
区分度可以从不同的角度来理解和解释。
首先,区分度反映了测试题目的难度水平。
当一个问题的难度适中时,被试者能力较高的人更容易回答正确,能力较低的人更容易回答错误,从而产生较高的区分度。
如果问题过于简单或过于困难,被试者的回答可能没有明显的差异,从而导致较低的区分度。
其次,区分度也反映了问题的有效性。
一个能够很好区分不同能力水平的问题,可以更准确地评估被试者的能力。
与此相反,一个区分度较低的问题意味着无法很好地区分不同的能力水平,测试可能缺乏有效性。
最后,区分度还可以用来评估测试题目的质量和优劣。
具有较高区分度的问题更有助于提供准确的测量结果,因为它们能更好地区分不同能力水平的被试者。
反之,具有较低区分度的问题可能引入测量误差,从而降低测试题目的质量。
总结而言,区分度是测试或测验项目的一个重要指标,它反映了一个问题在回答正确的人群与回答错误的人群之间的差异程度,具有较高的区分度的问题能够更好地识别被试者的能力,从而提高测试的准确性和有效性。
心理量表编制中的若干问题及题解一、本文概述在心理学研究中,心理量表的编制是一项至关重要的任务。
心理量表作为一种测评工具,能够客观地衡量个体的心理特征、行为表现以及情感状态,为心理学研究提供了有力的数据支持。
然而,在心理量表的编制过程中,常常会遇到一系列的问题和挑战。
本文旨在探讨心理量表编制中的若干关键问题,并提出相应的解决方案。
本文将概述心理量表编制的基本步骤和方法,包括确定测量目标、选择适当的题项、制定评分标准等。
本文将分析心理量表编制过程中常见的问题,如题项选择不当、评分标准模糊、样本代表性不足等,并深入探讨这些问题的产生原因和影响。
针对这些问题,本文将提出一系列切实可行的解决方案,如优化题项设计、明确评分标准、提高样本代表性等,以期提高心理量表编制的科学性和准确性。
通过本文的阐述,读者可以更加深入地了解心理量表编制的过程和要点,掌握解决编制过程中常见问题的策略和方法,从而更好地应用于心理学研究和实践中。
二、心理量表编制的基本原则在心理量表的编制过程中,我们需遵循一系列基本原则以确保量表的科学性、有效性和可靠性。
目标明确性原则:在编制心理量表前,首先要明确量表的目标和用途,例如是用于评估个体的心理健康状况,还是测量特定心理特质。
只有明确了目标,才能有针对性地选择合适的测量指标和编制方法。
内容全面性原则:心理量表应涵盖与测量目标相关的各个方面,确保测量内容的全面性和完整性。
同时,要避免重复和冗余,保证量表条目之间的独立性。
科学性原则:在编制量表时,应遵循心理学和相关学科的理论和研究成果,确保量表条目具有科学依据。
量表的编制过程应遵循科学的研究方法,如样本选择、数据分析等。
可操作性原则:心理量表应具有良好的可操作性,方便施测者和被测者使用。
量表的条目应清晰明确,易于理解和回答。
同时,量表的设计应考虑到施测的时间和成本等因素,以确保其在实际应用中的可行性。
标准化原则:心理量表的编制应遵循标准化的流程和规范,确保量表的信度和效度。
1、心理测量的概念:心理测量是依据一定的心理学理论,使用一定的操作程序,给人的行为和心理属性确定出一种数量化的价值。
(名词解释)8、定性分析:主要是依靠测验编制者丰富的经验和所受的训练,对项目的内容和形式是否得当进行分析。
定量分析:主要是指对项目难度和区分度等进行分析。
难度:就是指测验项目的难易程度。
9、区分度:是指测验项目对被试心理特性的区分能力。
11、误差:是在测量中与目的无关的因素所产生的不准确的或不一致的结果。
(名词解释)1、误差由无关变量所致2、误差表现为不准确或不一致两种方式3、误差不一定是错误13、真分数:是指在测量没有误差时所得到的真值。
把实际测量的分数称作该特质的观测分数或观察分数,也叫实测分数。
14、信度的概念:信度是指测量结果的一致性或稳定性。
信度的大小用信度系数来表示。
18、效度的含义:是指测量的有效性,即一个测验对它所要测量的特质准确测量的程度。
20、内容效度的含义:指测验题目对所要测量的内容范围的代表性程度。
实际上是说题目取样的代表性问题。
21、构想效度的含义:是指测验对理论上的构想或特质的测量程度。
构想效度也称为结构效度。
同时效度:效标资料是与测验分数同时搜集的;预测效度:预测效度的效标资料需要过一段时间才可以搜集到。
22、效标效度:也称为准则关联效度、效标关联效度、实证效度、统计效度,考查测验分数与效标的一致性程度。
分数合成:既可以在一个测验内部进行,也可以在不同的测验进行分数合成。
31、原始分数:直接从测验上得到的分数叫做原始分数。
导出分数:通过统计方法由原始分数转化到量表上的分数叫做导出分数。
32、用来作比较的参考团体叫常模团体,常模团体的分数分布叫常模。
发展常模:将个体测验成绩与各种发展水平的人的成绩相比较,来说明该个体发展,包括年龄常模、年级常模和顺序常模。
团体内常模:也称作组内常模,通常是根据标准化被试样组的测验分数、经过统计处理而建立起来的、具有参照点和单位的测验量表。
可编辑修改精选全文完整版常见研究性学习课题举例环境保护1、加快防治“白色污染”的步伐2、对(某某地区)废电池回收情况的调查及建议3、(某某地区)饮用水污染与自然人为因素的关系和控制对策4、(某某地区)空气中SO2对土壤的负面影响及治理措施5、(某某地区)废旧电池的回收与利用6、环保筷的开发与推广7、(某某地区)空气污染现状及对策8、浅谈水资源的污染其治理9、汽车尾气的治理及再利用10、如何降低汽车尾气净化的成本11、关于城市垃圾资源化的设想与调查12、塑料及其回收利用13、大气污染与人体健康14、酸雨与人体健康15、光污染与光能节约16、降解塑料的发展17、关于口香糖的报告18、水体的富营养化19、富营养水质的生物治理20、城市的供水、净水及水再利用21、创造绿色电能22、无污染能源在家庭中的利用23、绿色费24、氟利昂问题25、溪水的调查生活中的化学问题1、农用生肥2、对化妆品成分的研究3、方便面可食性内分装4、纯净水是否“纯净”5、维生素王国探秘6、浅淡当今社会之健康饮食7、修正液对人体的危害8、竹制品代替木制品的可行性研究9、中学生营养与健康10、浅谈食盐与人体健康11、早上的饮食12、工业废水污染情况13、农村生活用水调查15、居室污染历史研究性学习课题1、台湾问题的由来2、某某地名的由来3、抗日战争和解放战争时期,本地区的英雄人物和革命斗争事迹生物研究性学习课题1、校园植物分类调查2、娃娃鱼生存转台的调查3、调查学校生物种类(植物、动物、真菌)4、某某地方水土保持的调查5、调查当地“植树造林、绿化祖国”活动的开展情况6.校园草坪的护养问题7.植物、花卉的杆插数学研究性学习课题1、银行存款利息和利税的调查2、气象学中的数学应用问3、统计某地月降水量4、关于数学知识在物理上的应用探索5、某地区车辆构成6、如何计算一份试卷的难度与区分度7、以“养老金”问题谈起8、中国体育彩票中的数学问题9、中国电脑福利彩票中的数学问题10、丈量成功大厦11、如何存款最合算12、计算器对运算能力影响体育研究性学习课题1、对乒乓球运动竞技制胜的探讨2、地方体育项目普及程度的调查3、体育项目普及程度与地方经济发展的关系4、体育运动中的团队心理5、体育锻炼与学习效率的关系程度的探讨6、高中生喜欢的运动项目之调查物理研究性学习课题1、估测高压锅内的水温2、菜刀上的力学知识3、调查研究:灶具的演变4、初中物理学习困难调查5、男女生对初中物理的学习差异6、生活中的电磁辐射7、家用电器的发展带来的安全问题英语研究性学习课题1、趣味英语收集2、英语学习中性别差异3、英语交际中的非语言行为4、英语中的性别语言语文研究性学习课题1、某地民俗探究2、某地成年人阅读情况抽样调查及我的见解3、校园言语文化及其影响原因4、我校学生课外阅读的情况调查5、如何处理好课外阅读与课本知识的关系6、网络对中学生的影响政治研究性学习课题:1、对钱的看法。
试卷质量分析一、项目分析评价试题质量的指标要紧是试题的难度和区分度,再是挑选题分心答案的诱导效用性。
项目分析是对每道试题的难度、区分度以及挑选题的分心答案的诱导效用性分别加以分析。
1、难度分析难度是表示试题难易程度的指标。
其计算办法是以学生答对某题的比率来进行的。
依题型及评分办法的别同,可用下面几个公式计算。
<1>当用二值计分法时(惟独答对或答错两种事情),可用公式P=R/N计算。
P表难度,R表答对人数,N表受试总人数或抽样的总样本数。
因受试者有可能凭推测答对某些试题2、提出了依D值大小,对试卷质量进行评价的标准。
D≥0.4,质量特别良好;0.30≤D≤0.39,质量良好;0.20≤D≤0.29,质量尚可,应修改;D≤0.19,质量低劣,应淘汰。
D值越大,区分度越高,则能力强、水平高的受试者得分较高;能力弱、水平低的受试者得低分,如此可把别同程度的受试者鉴别开来。
妨碍区分度的因素较多,其中最要紧的是难度,经过理论计算得出:当P=0.5时,D有极大值。
由此可知,改变难度就可调节区分度。
3.挑选题分心答案诱导效用性分析挑选题在客观性测验与考试中应用最广。
每题都由一具题干和几个备选答案组成。
备选答案中,有对有错,且对与错有一定相关性,如此可使备选答案形成似是而非的状况。
受试者在挑选正确答案时,错误的答案会起到分心或迷惑作用,故错误的备选答案常被称作分心答案或诱答。
对受试者来说,惟独仔细地分析、比较,才干选出正确答案。
那些对所学知识掌握别够好的受试者,常被诱答迷惑住,那么该诱答就失去了应有作用,其效用性就低。
分析诱答的诱导效用性,其办法是比较高分组和低分组选答每一具诱答的人数。
良好诱答,应促使高分组选答它的人数少于低分组选答它的人数。
设高分组选第i个诱答的人数为H[,i],低分组选其人数为L[,io]。
对i诱答,若满脚L[,i]>H[,i],则该诱答的诱导效用性就高。
项目难度与项目极大区分度之间的关系 席仲恩 (作者简介:席仲恩,副教授,上海外国语大学博士生,绍兴文理学院语言测试与评价研究所所长,上海,200083)
摘要:本文在项目就是待测量特质的量具、受考在项目上的作业成绩为正态分布这两个简单假定的条件下,通过简单的数学推导,确定出了经典测试理论模型中的项目难度(用易度指数表示)和极大区分度(用高低分组通过率或得分率差表示)之间的两个函数关系式,望这两个关系式能为题库建设和试卷开发提供一个既明确又简单可行的参考数学模型。 关键词:心理测验;教育测量;项目分析;项目难度;项目极大区分度
一、引言 项目分析(item analysis)是题库建设(item banking)的至关重要的一个环节,是开发高质量试卷的基础性工作。试卷由一道一道的项目组成,如果没有合格的项目,就不可能有合格的试卷;没有高质量的项目,就无法构出高质量的试卷。对于一个项目,既可以做定性分析,也可以做定量分析。本文关心的仅是项目的定量分析。 对于项目进行定量分析时,在经典理论框架中,通常求出项目的两个指标:难度指标和区分度指标。难度指标传统上用项目的易度指数(facility index)——项目的平均答对率(对于选择型题)或平均得分率表示①。区分度指标尽管有多种表示方法,本文选取了用高低分组难度差刻划的区分度,一方面这种区分度直观,其含义又和项目反应理论框架下的区分度一致(请参见席仲恩,2001),而且经过爱贝尔(Ebel)的研究提出了具体的项目评价指标(参见Ebel & Frisbie,1986:P234),此外它计算又十分简便,便于应用。 在我国现行的心理与教育测量著作(例如:戴忠恒,1987;王孝玲,1989;谢小庆,l988;余嘉元,1987;于信凤;1987)和语言测试论著(例如:高兰生、陈辉岳,l996;桂诗春,1986;李筱菊,1997;刘润清、韩宝成,2000;舒运祥,1999;徐强,l992;杨钟琳l992)、国外的同类著作(例如:Anastasi,1976;Salvia & Ysseldyke,1996;Alderson, Clapham & Walt,1995;Bachman,1990;Bachman and Palmer,1996;Baker,1989;Harris,1969;Heaton,1988:Lado,1961;Madsen,1983;Spotsky,1995)中,都未见专门详细定量论述项目极大区分度和项目难度之间的关系的。使题库建设和试卷开发者无所适从,给工作带来一些不便。导致像中国全国硕士研究生英语入学考试这类重大筛选性考试中难度、区分度失调,或者只顾难度而忽略区分度等问题,使试卷中的项目区分度普遍不高,甚至出现负值这种奇特现象,严重威胁了考试的信度和效度,使考试的功效打了折扣。本文在项目就是待测量特质的量具、受考在项目上的作业成绩为正态分布这两个简单假定下,通过简单的数学推导,确定出了经典测试理论模型中的项目难度和极大区分度之间的函数关系,望能为题库建设和试卷开发提 供一个既明确又简单可行的参考模型。 二、关系式的推导 本文关心的是数学模型的建立,并不关心实施中的问题。但是,这并不意味着我们认为实施中的问题就不重要,相反,我们认为实施中的问题一样重要。我们这样做,是由我们的研究目标决定的。我们的目标是建立一个理想状况下的数学模型,为实践提供一个工作参考和努力方向,使实践者明确项目和试卷开发的潜力和限度,更好地发挥和挖掘考试的功效。为此,我们假定已经获得了有关项目的可靠的实际测量数据,而且这些数据的采集程序可靠、准确、合法。 设DI为项目区分度,U为高分组(一般指总分最高的27%或30%受考)的答对率或平均得分率,L为低分组(一般指总分最低的27%或30%受考)的答对率或平均得分率,则高低分组难度差区分度可定义为: DI=U-L (1)
设FI为表示难度的易度指数,M为中间组的答对率或平均得分,UMAX为高分组的极大答对率或极大平均得分率,LMIN为低分组的最小答对率或最小平均得分率,假定受考在给定项目上的作业成绩为正态分布,则显而易见,项目的易度指数可定义为:
22MINMAXLULUMFI (2)
同时,我们又设DIMAX为项目的极大区分度,则极大区分度显然可以定义为: DIMAX=UMAX - LMIN (3)
再由(2)中析出
2MINMAXLUFI (4)
联立解由(3)、(4)组成的方程组得: DIMAX=2UMAX – 2FI (5)
DIMAX=2FI - 2LMIN (6)
表达式(5)、(6)就是我们要求的项目极大区分度和用易度指数表示的项目难度之间的关系式。两个式子沿不同的方向(一个从上而下,一个从下而上)刻划了易度与极大区分度之间的函数关系。在项目的易度指数值大于或者等于诸极大区分度中最大的那个极大区分度(以下称做“最大极大区分度”)所对应的易度指数值时,可根据公式(5)计算出对应于不同易度指数值的极大区分度;在项目的易度指数值小于或者等于最大极大区分度所对应的易度指数值时,可根据公式(6)计算出对应于不同易度指数值的极大区分度(见表l和表2)。显而易见,最大极大区分度既可以根据公式(5)求得,也可以根据公式(6)求得。 由于在项目易度指数达到最大极大区分度所对应的易度指数时,UMAX=1,以及LMIN=1/A(A为备选项的个数),则(5)、(6)简化为 DIMAX=2-2FI (7) DIMAX =2FI-2/A (8)
(7)、(8)两式就是我们要建立的项目难度与项目极大区分度之间的函数关系。 三、关系式的应用 关于公式(7)、(8)的应用可分有猜测因素存在和无猜测因素存在两种情况。两者的区别主要在A的取值上。如果没有猜测因素存在,就相当于A=∞;如果有猜测因素存在,备选项个数是几,A就取几。显而易见,有猜测因素存在时,低分组的最小答对率就是假定这组受考对该项目一无所知,仅凭随机猜测就能答对该项目的概率,有关扣除这个因子的理据,由于与本文关系不大,恕不赘述(感兴趣的读者,请参看席仲恩,2000b)。以下,我们先计算有猜测因素存在时的极大区分度,然后再计算没有猜测因素存在时的极大区分度。 (一)有猜测因素存在时易度与极大区分度的关系 我们计算A=2(即二选一),A=3(即三选一),A=4(即四选一),和A=5(即五选一)时,项目易度与对应的项目极大区分度。因为,这几种选型是最常见的多选型项目。我们给出1~0.20②之间不同易度指数值,为了方便起见,变化幅度基本取0.05,到了最大极大区分度对应的易度指数时,我们给出它的确切值。求出的相应极大区分度见表1。 表1 考虑猜测因素时难度与极大区分度之间的关系 易度指数值 FI 极大区分度 A=2DIMAX 极大区分度 A=3DIMAX 极大区分度 A=4DIMAX 极大区分度 A=5DIMAX 1.00 0.00 0.00 0.00 0.00 0.95 0.10 0.10 0.10 0.10 0.90 0.20 0.20 0.20 0.20 0.85 0.30 0.30 0.30 0.30 0.80 0.40 0.40 0.40 0.40 0.75 0.50 0.50 0.50 0.50 0.70 0.40 0.60 0.60 0.60 0.667 0.334 0.667 0.666 0.666 0.625 0.25 0.583 0.75 0.75 0.60 0.20 0.533 0.70 0.80 0.55 0.10 0.433 0.60 0.70 0.50 0.00 0.333 0.50 0.60 0.45 0.233 0.40 0.50 0.40 0.133 0.30 0.40 0.35 0.033 0.20 0.30 0.30 0.00 0.10 0.20 0.25 0.00 0.10 0.20 0.00
(二)不考虑猜测因素时易度与极大区分度的关系 从理论上讲,只要是固定选项个数选择型项目,无论是多选一,还是多选多,测量结果都不可能不存在猜测成分,项目的区分度也不可能不受到影响。换句话说,只有在项目是非 选择型项目或者不定项选择型项目的条件下,在对项目进行分析时才可以不考虑猜测因素。我们之所以计算出不考虑猜测因素时难度与其对应的极大区分度并列于表2,主要是为了和考虑猜测因素时难度与其对应的极大区分度加以比较,从而揭示选择型项目选项数目与区分度的关系。不考虑猜测因素,并不意味着我们就不承认或者忽视猜测因素,而是我们假定猜测因素①为零。这是理论上的抽象和假定,在理论建设中是非常必要的,不可缺少的。 在不考虑猜测因素时,关于给定易度对应的极大区分度的计算方法与考虑猜测因素时的情况基本相同,惟一区别是,我们假定A=∞计算结果见表2。 表2不考虑猜测因素时难度与极大区分度之间的关系 易度指数值 FI 极大区分度 A=2DIMAX 极大区分度 A=3DIMAX 极大区分度 A=4DIMAX 极大区分度 A=5DIMAX 1.00 0.00 0.00 0.00 0.00 0.95 1.00 1.00 1.00 1.00 0.90 0.20 0.20 0.20 0.20 0.85 0.30 0.30 0.30 0.30 0.80 0.40 0.40 0.40 0.40 0.75 0.50 0.50 0.50 0.50 0.70 0.60 0.60 0.60 0.60 0.667 0.666 0.666 0.6156 0.666 0.625 0.75 0.75 0.75 0.75 0.60 0-80 0.80 0.80 0.80 0.55 0.90 0.90 0.90 0.90 0.50 1.00 1.00 1.00 1.00 0.45 0.90 0.90 0.90 0.90 0.40 0.80 0.80 0.80 0.80 0.35 0.70 0.70 0.70 0.70 0.30 0.60 0.60 0.60 0.60 0.25 0.50 0.50 0.50 0.50 0.20 0.40 0.40 0.40 0.40 0.15 0.30 0.30 0.30 0.30 0.10 0.20 0.20 0.20 0.20 0.05 0.10 0.10 0.10 0.10 0.00 0.00 0.00 0.00 0.00
(三)有无猜测因素存在时的对比分析 对比表1和表2,我们不难看出,由于猜测因素的介入,即使在项目难度不变的情况下,项目的极大区分度在一定的范围内③打了折扣,限制了项目区分度的挖掘潜力。而且我们还可以看出,猜测因素对于区分度的影响发生在极大区分度达到相应的最大极大区分度之后(沿易度指数值由大而小或自上而下),而在极大区分度还没有达到最大极大区分度之前,极大区分度并不受猜测因素的影响。对于以选拔或者筛选为目的的测试来说,区分度是试卷的