第二章教育测验信度和效度

格式：ppt
大小：1.06 MB
文档页数：36

下载文档原格式

/ 36

信度、效度、区分度、难度的使用

信度、效度、难度、区分度及其在试卷分析中的使用教学测量（instructional measurement）是考核教学成效的一种方法。

这是借助于一定的手段与方式，对学生的学习成绩（简称学绩）进行探察，并以一定的数量来表示的考核办法。

2. 在教学测量中应注意什么（1）教学测量的目的在于考核教学成效，也就是考察教学目标的完成情况。

因此，教学测量的目标应以教学目标为依据，测量目标应与教学目标一致，而不能偏离教学目标（2）教学测量的对象是学生内在的能力与品德等的形成状况，它不可能像物理测量那样直接进行，只能借助于一定的手段与方式间接进行。

（3）教学成效是通过量化的学绩进行考察的。

也就是说，教学成效是以学生的学习成绩为直接考察依据的，而学绩是以一定的数量来表示的，因此命题的合理性与评分的客观性是有效教学测量的一个重要影响因素教学评价（instructional evaluation）就是依据教学目标，对学绩测验所得测量结果进行分析及解释。

它主要包含以下两个方面的工作。

（1）教学评价必须对学绩测验数据所表明的教学成效作出确切的诊断。

（2）教学评价必须对教学的成败原因进行分析，并对今后教学工作的改进方面作出明确的规定。

评价（估）的功能：为家长提供信息，为选拔提供信息，为学生提供信息，为教师提供信息，为学校（间）提供信息教学目标，有时也称为行为目标，是指对学生在一段时间教学后应该掌握的技能与概念的陈述。

信度信度指的是测量结果的稳定性程度，信度是衡量一个量表质量高低的重要指标。

信度不高的量表是不能使用的。

3.常见的信度种类（1）重测信度（2）复本信度（3）分半信度（4）同质信度(内部一致性信度）（5）评分者信度影响信度的因素♦被试♦主试者♦施测情境♦测量工具信度是指考试的可靠性，即考试结果的可信程度。

信度高的试题很少受到外部因素的影响，对任何学生的多次测定都会产生比较稳定的、前后一致的结果。

提高试卷信度的因素大致可包括以下几种情况：（1）使用ABC卷随机抽取试题。

信度效度难度区分度分析

信度效度难度区分度分析在教育测量和评估领域，信度、效度、难度和区分度是四个非常重要的概念。

它们对于衡量测试的质量、评估学生的学习成果以及改进教学方法都具有至关重要的意义。

接下来，让我们逐一深入探讨这四个概念。

信度，简单来说，就是指测试结果的稳定性和可靠性。

如果我们对同一批学生在相同的条件下进行多次相同的测试，得到的结果应该是相近的。

就好比用同一把尺子去测量一个物体的长度，每次测量的结果都应该差不多。

信度主要包括重测信度、复本信度和内部一致性信度等。

重测信度是在不同时间对同一批被试进行重复测量。

比如，今天对一群学生进行了一次数学测验，一周后再用相同的测验对他们进行测试，如果两次测试的成绩相近，说明这个测验的重测信度较好。

然而，重测可能会受到记忆、练习等因素的影响。

复本信度则是使用两个平行的测验（即内容、形式、难度等方面都相似）对同一批被试进行测量。

如果两个测验的结果一致性高，就表明复本信度良好。

但要编制两个高质量的平行测验并非易事。

内部一致性信度通常通过计算测验内部各个项目之间的相关程度来衡量。

例如，一份试卷中的各个题目，如果它们在测量同一个知识点或能力方面表现出较高的一致性，那么这份试卷的内部一致性信度就比较高。

常用的计算方法有克朗巴赫α系数等。

效度是指测试能够准确测量出所要测量的东西的程度。

好比射箭要射中靶心，测验也要准确测量到我们期望测量的内容。

效度主要包括内容效度、结构效度和效标关联效度。

内容效度关注的是测验内容是否涵盖了所要考查的知识和技能范围。

比如，一场语文考试如果能够全面考查学生的字词、语法、阅读理解和写作能力，那么它在内容效度方面就表现较好。

为了确保内容效度，出题者需要对教学大纲和课程目标有清晰的理解。

结构效度考察的是测验是否能够反映出所假设的理论结构或心理特质。

比如，一个智力测验是否真正测量了智力的各个方面，而不仅仅是某些表面的表现。

这需要通过复杂的统计分析和理论研究来验证。

效标关联效度则是将测验结果与一个外在的标准进行比较。

教育测量的质量指标--信度概述

奇数题总分偶数题总分
X
Y
38
37
37
37
38
36
41
39
40
39
36
34
38
38
39
39
40
39
35
36
方法：分半法
得分被试
01 02 03 04 05 06 07 08 09 10
σ2
可见为，［0，E 1越］小。，测量的信度就越高。信度的取值范围
例：对5个人的某种智力因素的测验结果如表1-1，试估计测量的信度。
表1-1 测量5个学生的某种分数
学生
真分数误差分数实得分16
B
9
+1
10
C
15
+2
17
D
21
+1
22
E
12
-2
10
（1）按2σ
(xx)2 的方差公式， N
r A1A2 [N
NXYxY X2 ( X)2] [N Y2 (
Y)2]

126420280286
[1265942820 1269122826

采用重测法计算稳定系数时，要注意的问题：
1、两次测验之间的时间间隔要适宜，尽可能在较短的时距内进行。
2、两次测验试卷要等值，即在内容范围、题型、题数、难度、区分度等方面要基本相同。
分别计算2T、 σσ E2和σ 2x并列入表内。
学生 A B C D E
平均数方差
真分数 18 9 15 21 12 15 18
误差分数－2 ＋1 ＋2 ＋1 －2 0 2.8
实得分数 16 10 17 22 10 15 20.8

什么是测试的信度和效度,如何保证测试的信度和效度

什么是测试的信度和效度,如何保证测试的信度和效度什么是测试的信度和效度，如何保证测试的信度和效度棋盘中小张倩倩在教育研究中，信度与效度是很常见的两个概念。

但每次看到或听到这两个名词，我的脑袋老反应不过来，看来基础就是不扎实。

我在这里就谈谈我浅显的认识。

一、信度所谓的信度，是指使用相同指标或测量工具重复测量相同事物时，得到相同结果的可能性。

如果说某个指标或测量工具的信度高，那它提供的测量结果就不会因为指标、测量工具或测量设计本身的特性而发生变化；反之亦然。

根据测量过程中不同的误差来源，可分为再测信度、复本信度和折半信度。

再测信度，是用同一测量工具在不同的时间对同一群受试者前后测量两次，然后计算两次测量分数的相关系数，相关系数越大说明两次测量的一致性越高。

相隔的时间不应该太长。

复本信度，是用两个完全等值的（平行的）复本对同一群受试者进行测试，计算两种复本测量分数的相关系数，相关系数越大说明两个复本构成带来的变异越小。

如考试中使用的Ａ、Ｂ卷折半信度，只用一个测量工具对同一群受试者实施一次测量，但将奇数题和偶数题分开计分，再计算奇数试题和偶数试题分数之间的相关系数。

二、效度所谓的效度，是指测量工具能够测出其所要测量的特征的正确性程度。

效度越高，即表示测量结果越能显示其所要测量的特征。

如果说根据某项特征能够区分人、物或事件，那么说某个测量该特征的测量工具是有效的，就是指它的测量结果能把具有不同特征的人、物或事件进行有效的区分。

常用的有变面效度、内容效度和效标效度。

表面效度是指测量效果和人们头脑中的印象或学术界形成的共识之间的吻和程度，吻合程度高，表面效度就高。

内容效度是指测量在多大程度上涵盖了被测量概念的全部内涵，测量工具代表概念定义的内容越多，内容效度就越高。

效标效度是指测量结果与一些标准之间的一致性程度，这些标准能够精确表示被测概念。

三、信度与效度的关系信度是效度的必要条件，但不是充分条件。

一个测量工具要有效度必须有信度，没有信度就没有效度；但是有了信度不一定有效度。

信度与效度（ReliabilityandValidity）

信度与效度（ReliabilityandValidity）信度（Reliability）信度（Reliability）即可靠性，它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。

信度指标多以相关系数表示，在实际应用中，信度的估计和分析是从几个方面根据不同的情况分别处理的，大致可分为三类：即从稳定性(stability)、内在一致性(internal consistency)和等价性(equivalency)三个方面来分析测量的信度。

信度分析的方法主要有以下四种：1、重测信度法这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相关系数。

显然，重测信度属于稳定系数。

重测信度法特别适用于事实式问卷，如性别、出生年月等在两次施测中不应有任何差异，大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。

如果没有突发事件导致被调查者的态度、意见突变，这种方法也适用于态度、意见式问卷。

由于重测信度法需要对同一样本试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

2、复本信度法复本信度法是让同一组被调查者一次填答两份问卷复本，计算两个复本的相关系数。

复本信度属于等值系数。

复本信度法要求两个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到这种要求，因此采用这种方法者较少。

3、折半信度法折半信度法是将调查项目分为两半，计算两半得分的相关系数，进而估计整个量表的信度。

折半信度属于内在一致性系数，测量的是两半题项得分间的一致性。

这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。

4、α信度系数法Cronbach α信度系数是目前最常用的信度系数，评价的是量表中各题项得分间的一致性，属于内在一致性系数。

这种方法适用于态度、意见式问卷（量表）的信度分析。

简述信度与效度的概念

简述信度与效度的概念关于信度和效度的概念，是高考试题中经常涉及到的内容。

我们首先来了解一下什么是信度和效度。

从心理学角度看，信度是指某一测验能够测量出其所要测量的东西的程度，即能回答“是什么”的程度；效度则是指该项测验有效地测量了所要测量的东西的程度，即能回答“有什么”的程度。

在心理测验中，信度和效度相辅相成，互相制约。

没有信度，效度也就失去了意义；反过来，如果没有效度，信度也将会受到影响。

两者之间不存在矛盾，但又不可偏废。

具体地说，信度和效度的关系是：(1)测验的信度高，则测验的效度也高； (2)测验的信度低，则测验的效度也低； (3)测验的效度高，则测验的信度也高； (4)测验的效度低，则测验的信度也低。

效度比信度更能反映测验的优劣，但如果信度差，测验的效度高，也会掩盖真实情况，而且效度高并不等于信度高。

例如，甲学校组织学生进行测验，有96%的学生得A，有90%的学生得B，则这次测验的信度为96%，效度为90%，即很好，能代表全校大多数同学的水平。

又如，乙学校组织学生进行测验，有96%的学生得A，有93%的学生得B，则这次测验的信度为93%，效度为92%，即一般，能代表部分学生的水平。

信度是指测验结果的稳定性。

效度是指测验的有效性。

信度和效度这两个概念虽然没有明确的界限，但在测验时，由于两者之间的密切关系，往往用效度代替信度。

从目前世界各国发展趋势来看，心理测验越来越重视测验的效度。

所谓信度，是指测验分数的稳定性、一致性和可靠性。

一份好的测验应该是内容效度和形式效度的统一。

内容效度是指测验题目对知识内容的覆盖面，即测验对特定内容的测量程度，通常以所得分数在正常分布范围之内的百分比来表示。

它反映的是一项测验能测量其所要测量内容的程度，也就是测验对所测内容的代表性。

另外，还要注意测验的效度不仅与题目本身的难度有关，也与测验所测的心理特征的性质有关。

在相同条件下，一道难题与一道容易题相比，前者的效度低；测验内容效度和难度之间的关系可以从以下几方面反映出来：(1)测验的难度与所测心理特征的效度呈正相关。

信度和效度名词解释

信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。

一般多以内部一致性来加以表示该测验信度的高低。

信度系数愈高即表示该测验的结果愈一致、稳定与可靠。

例如，用同一个量表对同一组被试在不同时间进行测量，如果每次测量结果都很相近，就说明这个量表的信度较高。

2. 信度的类型- 重测信度：用同一种测验，对同一组被试者，前后施测两次，再根据被试者两次测验分数计算其相关系数，即得重测信度。

它反映了测验跨时间的稳定性。

例如，在一个月内，对同一批学生使用相同的智力测验进行两次测试，两次测试结果的相关性就是重测信度。

- 复本信度：复本是内容、形式、难度等方面与原测验相似的测验。

复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。

有A、B两套英语水平测试题，它们在题型、难度等方面相似，对同一组学生先进行A卷测试，过一段时间再进行B卷测试，然后计算两次成绩的相关系数就是复本信度。

- 内部一致性信度：主要反映的是测验内部题目之间的关系，表示测验能够测量相同内容或特质的程度。

例如，在一个包含多个项目的人格测验中，内部一致性信度高意味着各个项目之间测量的是人格的同一个方面，常用的计算方法有克伦巴赫α系数等。

- 评分者信度：用于衡量不同评分者对同一组被试评分的一致性程度。

在一些主观性较强的测验中，如作文评分、面试评分等，评分者信度就非常重要。

如果不同评分者对同一篇作文或同一个面试者的评分比较接近，那么评分者信度就较高。

3. 影响信度的因素- 被试样本：被试样本的同质性（相似性）程度会影响信度。

如果被试样本的同质性高，信度可能会较低，因为他们在测验所测特质上的差异较小；反之，异质性高的被试样本可能会使信度较高。

例如，在一个只针对高智商学生的智力测验中，由于学生的智商都比较高且接近，可能会导致信度系数较低。

- 测验长度：一般来说，测验的题目数量越多，信度越高。

因为较长的测验能够更全面地测量被试的特质，减少随机误差的影响。

信度、效度和区分度

信度、效度、区分度和难度(一)教学测验的信度、效度、区分度及难度设计和编制任何一种测验，都必须使其在效度、信度、难度和区分度方面达到一定要求，即达到有效、可信，具有一定难度和区分度。

1.效度效度是指一个测验或测量工具能真实地测量出所要测量的事物的程度。

一次测验是否有效，主要看其是否能准确地测量所要测量的东西。

效度是评价工具最重要的必备条件，一个缺乏效度的评价工具是没有什么使用价值的。

同时，效度又是一个相对概念，任何一种评价工具只是对一定的目的来说才是有效的。

有效，就是测验能不能用，有没有用。

假的没办法用，只有真的才有用。

2.信度信度是指测验结果的稳定性或可靠性，即某一测验在多次施测后所得到的分数的稳定、一致程度。

它既包括在时间上的一致性，也包括内容和不同评分者之间的一致性。

几次测验的结果稳定而没有剧烈的上下浮动，那么就是信度高；几次测验结果相差太多，则为信度低。

3.难度难度指测验的难易程度。

在教学测量中，通常用答对或通过测验的人数比例作为难度值。

难度值(P)=答对人数(R)/被试总人数(N)×100%P值越大，难度越低;P值越小，难度越高。

一般来说，难度值平均在0.5最佳;难度值过高或过低，都会降低测验的信度。

通过的人少，则难度高，通过的人少则难度低。

4.区分度区分度有时也称鉴别力，主要指测验对于不同水平的被试加以区分的能力。

能够有效区分出水平不同的测验。

二、掌握方法1.效度在掌握效度时，大家可以抓住关键点“正确性/准确性”。

它所指的就是看一个测验能否正确测出想要的东西。

即“一个测验或测量工具能真实地测量出所要测量的事物的程度。

”例如：现在想测学生的英语成绩，但是拿了一张语文卷子给学生做。

那么这个测验的效度就是很低的，因为不能准确地测出学生的数学成绩。

2.信度在掌握信度时，大家可以抓住关键点“稳定性或可靠性”。

它所指的就是一个测验的结果是否可信。

举个例子：现在拿了一张数学卷子给小明做，小明做了90分。

教育测量中的信度和效度

数。即：ｒXX= ρXX´
实际意义
教育测量与评价的质量特性 NWNU
三、信度的估计方法
重测信度复本信度
同质性信度
教育测量与评价的质量特性 NWNU
重测信度
重测信度是指用一个量表（测验或评价表）对同一组被试施测两次所得结果的一致性程度，其大小等于同一组被试在两次测验上所得分数的相关系数。
教育测量与评价的质量特性
——信度和效度
教育测量与评价的质量特性 NWNU
教育测量与评价的质量特性
教育测量与评价的信度教育测量与评价的效度
教育测量与评价中题目的难度
教育测量与评价中题目的区分度教育测量与评价方案的可用性
“四度” & 方案的可用性
教育测量与评价的质量特性 NWNU
标准参照测验的概念
标准参照测验是以预定的标准为参考，来衡量个体被试是否达到标准的一种测验。所谓标准就是有测样所参考的行为领域和或教学目标所确定的被试在测验上应当达到的行为表现。
教育测量与评价的质量特性 NWNU
标准测验的信度分析
标准测验信度分析的两种方法
百分比一致性指标
百分比一致性指标是指同一测验或两平行测验先后两次施测，其对被试的分类结果一致的比例。其计算公式为：
等方面都相当，并且都用来测量相同潜在特质或属性，但试题
又是不相同的测验。
教育测量与评价的质量特性 NWNU
复本信度
实施复本测验的方式：一是在同一个时间连续施测（此时所得的复本信度叫等值性系数），二是间隔一段时间后施测（此时所得复本信度叫等值稳定性系数）。
使用复本信度首先要构造出两份或两份以上的真正的平行测验。
二、信度的统计定义

测验信度效度

效度估计方法
（1）内容效度
表示测验所选的题目（测题）符合所欲测验内容的程度。是测验题目对有关内容或行为总体取样
的适当性程度。能力倾向和人格测验不适合作内容效度
确定内容效度的方法：
逻辑法：专家判断，专家对测验题目进行考核，看测验是否能够测出所要测的内容；经验法：经验判断，通过实践检查测验能否测出欲测的内容。
2个评分者用斯皮尔曼等级相关法，3人以上用肯德尔和谐系统。
影响信度的因素
1）样本特征：样本团体得分分布的影响，样本越分散信度越高；样本团体异质性的影响，异质性越高信度越高；样本团体平均能力水平的影响，平均能力越低信度越高 2）测验的长度：测验越长题目越多，测验的内容取样就越有代
表性；测验越长被试的猜测因素影响越小，信度就高。
3、项目分析（难度和鉴别力）
测验的好坏与项目（测题）的选择有很大的关系，好的测题是鉴别力高并且难度适宜的项目。项目分析三内容 2）难度分析：通过率：回答某个项目的样本中，正确回答该项目的人数P=R/N*100。 3）鉴别力分析：鉴别力是对于所测量的心理特性的区分能力。
1）诱答分析：每个项目只有一个正确答案其余均为诱答。
3）测验的难度：测验难度对信度有间接影响。对于人格测验、兴趣、态度、价值观等测验，不存在难度问题。从理论上说，只有难度水平为50%时，才能使测验分数分布范围最大，求得的信度也最高。
4）测量的时间间隔：时间间隔只对重测信度和不同时测量的复本有影响，时间越短信度值越高。
2、效度
它表示一个测验实际测量出所测特性或功能的真实性程度，或它指一个测ห้องสมุดไป่ตู้真正确实地测量到它所欲测量的东西的程度。
2

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

1 2 3 4 5 6 7 8 9 10
二、非0，1记分测验的内部一致性信度主要采用克伦巴赫（Cronbach） 1．主要采用克伦巴赫（Cronbach）信度系系数。数，即α系数。计算方法： 2．计算方法： k ∑σ i2 ) rtt= σ 2 ：表示每个测题分数的方差 ·(1k −1
σ t2
27225 2025 7425 298525 23609 83891
复本信度（alternate-form reliability） alternatereliability）
（1）定义：复本信度是指同一组被试在复本测验上所得结定义：复本信度是指同一组被试在复本测验复本测验上所得结果的相关系数。果的相关系数。复本测验，又称等值测验，是指在性质、内容、复本测验，又称等值测验，是指在性质、内容、题题数、难度等方面都一致的两份或多份测验。型、题数、难度等方面都一致的两份或多份测验。计算方法：（2）计算方法：积差相关系数说明：（3）说明： 1．两个测验必须是等值的，这点比较困难。两个测验必须是等值的，这点比较困难。测验时间间隔的确定，应综合考虑练习效应、 2．测验时间间隔的确定，应综合考虑练习效应、迁移效应来确定，应尽可能短；如果有适当时间间隔，迁移效应来确定，应尽可能短；如果有适当时间间隔，也可称作等值稳定性系数可称作等值稳定性系数。等值稳定性系数。适用于速度测验，也适用于难度测验， 3．适用于速度测验，也适用于难度测验，是考察信度最可靠、使用最广泛的方法。信度最可靠、使用最广泛的方法。有高估信度系数的倾向。 4．有高估信度系数的倾向。
积差相关系数的求法
◆对数据的要求：对数据的要求： 1．成对数据 2．两列数据要呈正态分布 3．定距量表获得的数据 4．两列变量之间的关系的是线性的
◆计算公式——用原始观测值计算计算公式—— ——用原始观测值计算皮尔逊相关系数（Pearson）皮尔逊相关系数（Pearson）
例1：下表是10名中学生身高和体重的测量结果，问 10名中学生身高和体重的测量结果下表是10名中学生身高和体重的测量结果，身高与体重的关系如何？身高与体重的关系如何？
评分者信度（Scorer
目标参照性测验的信度系数前面提到的几个信度系数都用于常模参照性测验前面提到的几个信度系数都用于常模参照性测验（1）估计测题组的信度测题组根据所考察的目标进行划分；然后，测题组根据所考察的目标进行划分；然后，对每个测题组采取常模参照性测验的信度估计方法。每个测题组采取常模参照性测验的信度估计方法。（2）阶段比较法第一次测验第二次测验经过学习训练后，经过学习训练后，第一次测验中通过的学生在第二次测验中通过率较高，则说明信度高。二次测验中通过率较高，则说明信度高。甲测验（3）复本信度估计法通过未通过通过 a b rtt=(a+d)/n 乙
x ( k − xt ) k ) ·(一年级学生进行地理成绩测验，每答对初中一年级学生进行地理成绩测验，对一题得1 答错1题得0 对一题得1分，答错1题得0分，试估计该测验的折半信度。半信度。
1题 1 0 1 1 1 1 1 0 1 1 2题 0 0 0 1 1 1 1 1 1 0 3题 0 0 1 0 1 1 0 1 1 0 4题 0 1 0 0 0 1 1 0 1 1 5题 0 0 0 1 1 0 1 0 1 0 6题 0 0 0 0 1 1 0 1 1 0
本章内容概览
第一节第二节测验的误差信度再测信度（稳定性信度） 1．再测信度（稳定性信度） 2．复本信度 3．内部一致性信度 4．评分者信度 5．目标参照性测验的信度系数效度 1．内容效度 2．结构效度 3．效标关联效度
第三节
第一节测验的误差
一、定义：测验误差是指由与测量目标无关的变因定义：所引起的不准确和不一致的效应。所引起的不准确和不一致的效应。测验误差包括：测验误差包括：随机误差： 1．随机误差：由偶然因素引起的无规律的误差系统误差： 2．系统误差：由某些常定因素引起的有规律的变化，是对测量结果的一种偏差。的变化，是对测量结果的一种偏差。系统误差的出现是不应该的，系统误差的出现是不应该的，是测验编制中出现的错误；而随机误差则是不可避免的，的错误；而随机误差则是不可避免的，受一些偶然的、不可预见因素的影响产生，然的、不可预见因素的影响产生，是我们本节内容所关注的。容所关注的。
内部一致性信度
一、二分记分法的测验（0，1，对错，有无等）二分记分法的测验（对错，有无等）折半信度（splitreliability），），将每（1）折半信度（split-half reliability），将每一个被试的测验分数按测题分成两部分记分，一个被试的测验分数按测题分成两部分记分，然后用每个被试在两半测验上的得分求整个测验的信度。信度。一般分成奇数项-偶数项；前一半-后一半。一般分成奇数项-偶数项；前一半-后一半。计算方法：计算方法： 1．折半求出两半的积差相关系数r 2．求出两半的积差相关系数rhh 用斯皮尔曼-布朗（Spearman-Brown)公 3．用斯皮尔曼-布朗（Spearman-Brown)公式进行校正：式进行校正：rtt=2rhh/(1+rhh)
K-R20 公式：rtt= 公式：
k 2 pq ·(1- 2 ) k −1 σt
k：测题数目： p：表示每个测题做对人数的比率 q=1-p ：
k k pq K-R21 公式：rtt= 公式： ·(1- 2 ) k −1 σt
p ：表示答对人数比率的平均数 q ：表示各题答错人数比率的平均数
rtt=
1 2 3 4 5 6 7 8 9 10 ∑ 身高X 身高X 170 173 160 155 173 188 178 183 180 165 体重 Y 50 45 47 44 50 53 50 49 52 45 X2 Y2 XY
1 2 3 4 5 6 7 8 9 10 ∑
身高X 身高X 170 173 160 155 173 188 178 183 180 165 1725
二、信度的估计方法
再测信度（test-retest test-
reliability） reliability）
（1）定义：又称为稳定性系数，是指以同一个测验定义：又称为稳定性系数，对同一组被试先后施测两次，对同一组被试先后施测两次，所得结果的相关系这是计算相关系数最方便的方法。数，这是计算相关系数最方便的方法。计算方法：（2）计算方法：积差相关系数说明：（3）说明：重测时间间隔的确定，时间间隔的确定 1．重测时间间隔的确定，应综合考虑练习效记忆效应、个体成长等因素；对于任何个体，应、记忆效应、个体成长等因素；对于任何个体，重测的时间间隔一般不应超过6个月。重测的时间间隔一般不应超过6个月。适用于速度测验， 2．适用于速度测验，而不适用于难度测验应注意提高被试对重测的积极性和兴趣。 3．应注意提高被试对重测的积极性和兴趣。
（2）库德-理查德（Kuder-Richardson）信度：根库德-理查德（Kuder-Richardson）信度：据各个问题的正确反应数为基础，据各个问题的正确反应数为基础，或根据各人总分的均值和标准差来计算信度系数。分的均值和标准差来计算信度系数。计算方法： R20和计算方法：K-R20和K-R21
reliability）：是指 reliability）：是指）：评分者所评分数之间的相关系数。评分者所评分数之间的相关系数。常用于无法以客观方法记分的测验，（1）常用于无法以客观方法记分的测验，如人格投射测验、创造力测验以及主观题等。投射测验、创造力测验以及主观题等。记分方法：（2）记分方法： • 对于定距量表：两个评分者： 1．两个评分者：积差相关系数多个评分者： 2．多个评分者：α系数 • 对于顺序量表：对于顺序量表：两个评分者： 1．两个评分者：二列等级相关 2．多个评分者：肯德尔（Kandall）和谐多个评分者：肯德尔（Kandall）系数（又叫多列等级相关）系数（又叫多列等级相关）
二、引起测验误差的因素测验本身的误差：（1）测验本身的误差：如测验题目选择是否有代表性；如测验题目选择是否有代表性；被试对测验题目的熟悉程度和知识范围；测验是否限定时间；题目的熟悉程度和知识范围；测验是否限定时间；指导与是否清晰；测验材料是否标准；所用仪器是指导与是否清晰；测验材料是否标准；否精确；否精确；题目用词是否准确等等（2）测验施测过程的误差物理环境：施测现场的温度、光线、噪音、 1．物理环境：施测现场的温度、光线、噪音、通风等；外界环境的干扰：通风等；2．外界环境的干扰：卷子印刷质量差或发错、有人作弊、发错、有人作弊、天气陡变等（3）测验记分过程的误差如评分不客观（评分者的偏好、心境、如评分不客观（评分者的偏好、心境、疲劳）；计算计算、等）；计算、登分中的错误
（4）主试方面的误差主试者效应，主试者效应，也叫罗森塔尔效应（5）被试方面的误差被试的应试技巧及稳定的反应倾向； 1．被试的应试技巧及稳定的反应倾向； 2．被试的应试动机和情绪的紧张焦虑状态被试对特定测验任务的理解， 3．被试对特定测验任务的理解，在所测特定知识技能上的练习水平，特定知识技能上的练习水平，在记忆或注意力上的波动等被试的健康状态、 4．被试的健康状态、疲劳因素等（6）机遇引起的测验误差猜测或意外干扰
测验未通过
c
d
三、提高信度的方法
◆信度系数以多大为宜学科测验：0.9以上智力测验：0.8以上以上；以上；学科测验：0.9以上；智力测验：0.8以上；品德测验：0.6以上品德测验：0.6以上 ◆提高测验信度的方法 1．适当增加测题的数量 2．测验的难度要适中 3．测验的内容应尽量同质 4．测验的程序应统一 5．测验时间要充分评分要尽量做到客观化、 6．评分要尽量做到客观化、减少评分误差

第二章教育测验信度和效度

合集下载

信度、效度、区分度、难度的使用

信度效度难度区分度分析

教育测量的质量指标--信度概述

什么是测试的信度和效度,如何保证测试的信度和效度

信度与效度（ReliabilityandValidity）

简述信度与效度的概念

信度和效度名词解释

信度、效度和区分度

教育测量中的信度和效度

测验信度效度

文档推荐

最新文档

第二章 教育测验信度和效度

合集下载

信度、效度、区分度、难度的使用

信度效度难度区分度分析

教育测量的质量指标--信度概述

什么是测试的信度和效度,如何保证测试的信度和效度

信度与效度（ReliabilityandValidity）

简述信度与效度的概念

信度和效度名词解释

信度、效度和区分度

教育测量中的信度和效度

测验信度效度

文档推荐

最新文档

第二章教育测验信度和效度