第四章 测量信度
- 格式:doc
- 大小:62.50 KB
- 文档页数:11
第四章心理测量的信度一、单项选择题。
1.当代信度理论的大部分要点是()。
(4.1.63)A斯皮尔曼 B皮尔逊 C桑代克 D库德2.重测信度的大小等于同一组被试在两次测验上所得分数的()。
(4.2.67)A.克伦巴赫α系数B.皮尔逊积差相关系数C.肯德尔和谐系数D.肯德尔W系数3.关于重测信度说法正确的是()。
(4.2.67)A.每一种信度系数都能说明信度B.重测信度高,说明分数受被试状况和测验情境变化的影响小C.所有的测验都可以计算重测信度D.重测信度不仅反映了随机误差的影响,也反映了被试心理特点的长期变化4.关于重测信度下列说法正确的是()。
(4.2.67)A每一种信度系数都能说明信度。
B重测信度高,说明分数受被试状态和测验情境变化的影响小。
C所有的测验都可以计算重测信度。
D重测信度不仅反映了随机误差的影响,也反映了被试心理特点的长期变化。
5.关于重测信度下列说法不正确的是()。
(4.2.69)A任何一个测验都可能有不止一个再测信度系数。
B一份完备的测验应有很多重测系数,分别与不同的测验间隔时间相对应。
C重测相关很低意味着测验不可信。
D重测相关很低可能是被试被研究的特性发生了改变。
6.等值性系数取决于平行测验的得分之间的相关,且两次测验的时间间隔极短,所以若等值性系数偏低肯定是由于()造成的。
( 4.2.71)A.学生自身变化B.题目取样不同C.主试的反应D.测试环境变化7.分半信度只适用于()。
(4.2.7 4)A.难度测验B.速度测验C.=非标准化测验D.成就测验8.同质性信度是指测验的()的一致性程度。
(4.2.74)A.题目内容B.题目形式C.所有题目间D.各维度题目9.下列估计信度的方法需施测2次的是()。
(4.2.80)A.分半信度 B.同质性信度C.评分者信度D.再测信度10.下列哪项不是影响信度的因素()。
(4.3.82)A.样本团体平均水平B.题目数量C.系统误差D.施测情境11.人格测验的信度应达()以上。
第四章 测量信度一、填空题1、 根据一组被试在 两个平行或两个复本 测验上的得分计算的相关系数即为复本信度。
2、各种估计信度的方法都是对测验的一致性进行估计,但由于误差来源不同,它们研究的侧面各不相同,说明的是信度的不同方面。
其中,再测信度可用来估计________________________,复本信度可用来估计_________________,等值稳定性系数可用来估计_______________________,内部一致性系数可用来估计测验跨项目或两个分测验之间的一致性,评分者信度可用来估计测验跨评分者的一致性。
3、用同一个测验,对同一组被试前后施测两次,对两次测验分数求相关,其相关系数就叫 重测信度 。
4、一般认为经过训练的成对评分者之间的一致性达 0.90 以上,评分才是客观的。
5、再测信度又叫__________。
6、增加测验长度对信度产生的效果可用XXXX KK r K Kr r )1(1-+=公式来计算。
7、利用两平行形式测验测查同一批被试所得的两批观察分数,求其间的相关系数,跟____一样,也可求得测验的信度系数。
这种用平行形式相关求得的信度系数,因为特别强调两测验形式的____,所以又叫____。
8、复本信度又叫( )系数。
二、单项选择题信度的定义1、如果某测验的信度系数为0.80,那么该测验中真分数造成的变异占( A )A 80%B 20%C 64%D 36%2、信度之于效度正如(B )。
A 准确性之于一致性B 一致性之于准确性C 偏差数之于常模D 常模之于偏差数3、在能力测验中,代表测验量表的稳定性和一致性的指标是( C )。
(华南师大2001研) A 效度B 区分度C 信度D 难度4、信度指的是测量的( C )。
A 正确性B 针对性C 一致性D 有效性5、信度指数的( B )就是信度系数。
7、关于信度的指标正确的是( C )。
A 信度系数,即实得分数方差与真分数的方差的比值B 信度指数即是信度系数C 测量标准误与信度呈负相关D 测量标准误与信度呈正相关(相似题目)关于信度的指标,说法错误的是( D )。
第四章测量信度一、单选题1.速度测验的信度应以( c )取得。
dA.奇偶法 B.筛选法 C.反应时法 D.重测法2.在其他条件均等的情况下,测验长度和信度之间的关系是( d )。
bA.测验越长,信度越低B.测验越长,信度越高C.没有关系D.上述说法都不正确3.计算一项测验的分半信度最常用的方法是比较( b )。
A.测验的前半部分与后半部分的得分。
B.奇数项目与偶数项目的得分。
C.将测验随机分为两部分,比较这两部分的得分。
.D.上述方法都可以。
4.一个40道题目的测验其奇偶分半后的信度为0.50,那么该测验的信度接近多少?( b )A. 0.50B. 0.67C. 0.80D. 1.05.当测验的信度减少(接近0)时,测量的标准误将会怎样变化(c )?A.减小,趋向于零。
B.只要趋向于1.0,它就会要么增大,要么减小。
C.增大,趋向于测验的标准差。
D.增大,逼近无限大。
6.再测信度所考虑的误差来源是(d )所带来的随机影响。
A.形式的不同B.题目的不同C.考生的不同D.时间的不同7.在考查评分者信度时,如果三人以上评阅数份试卷,则需计算( a )。
A.肯德尔和谐系数B.等级相关系数C.皮尔逊积差相关系数D.克伦巴赫α系数8.(a )是指在不同时间内用同一测验(或用另一套相等的测验)重复测量同一被试者,所得结果的一致程度。
A.信度B.效度C.难度D.区分度9.信度只受(d )的影响。
bA .系统误差 B.随机误差 C.恒定效应 D.概化理论10.复本信度又称等值性系数。
它是以两个等值但题目不同的测验(复本)来测量同一群体,然后求得被试者在两个测验上得分的相关系效。
复本信度反映的是测验在( c )上的等值性。
dA.时间B.题目C.评分D.内容11.分半信度通常是在测验实施后将测验按奇、偶数分为等值的两半,并分别计算每位被试者在两半测验上的得分,求出这两半分数的相关系效。
这个相关系数就代表了( d )内容取样的一致程度。
第四章测量信度第一节信度概述一、什么是信度信度又叫可靠性,是指测量结果的稳定性程度或一致性程度。
一个好的测验必须稳定可靠,即多次测量的结果保持一致,否则便不可信。
例如:我们用一个智力量表去测量某一个儿童,第一次测得的结果是IQ=90,第二次测得的结果是IQ=120。
那么我们就会问:到底这儿童的智商是多少?这就是该智力测验的可靠性有问题。
就好象用橡皮筋去量东西的长度。
前面讲过,任何一种测量,总有或多或少的误差,信度受随机误差的影响。
随机误差越大,信度也就越低;随机误差越小,信度就越高。
因此,信度也可看作测量结果受机遇影响的程度。
信度的含义可以从两个层面加以分析:(1)当我们以同样的测量工具重复测量某项持久性的特质时,是否得到相同的结果?由此可知此一测量工具的稳定性。
(2)测量工具能否减少随机误差的影响,提供某项特质个别差异程度的真实量数?由此可知测量结果的精确性。
(如新旧枪射击结果图)在测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得分数的变异数)的比率。
即:γXX = S T2 /S X2式中γXX代表测量的信度,S T2代表真分数变异数,S X2代表总变异数,即实得分数的变异数。
由于X=T+E,所以信度还可表示为:γXX=(S X2-S E2)/ S X2=1- S E2/ S X2由于真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,由于我们无法得到测验的真正信度,我们只能用一些指标对它进行估计。
二、信度系数大部分的信度指标都以标志着系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称作信度系数。
对信度系数要注意三点:(1)在不同的情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。
(2)信度系数只是对测量分数不一致程度的估计,并没有指出不一致的原因。
(3)获得较高的信度系数并不是心理测量追求的最终目标,它只是迈向目标的一步,是使测验有效的一个必要条件。
信度系数达到多高才可以接受呢?最理想的情况是γXX=1,但这是办不到的。
不过我们可用已有的同类测验作为比较的基准。
一般能力与成就测验的信度系数要求在0.90以上,有的可以达到0.95;至于性格、兴趣、价值观等人格测验的信度系数,通常在080到085或更高些。
当γXX<0.70时,不能用测验来对个人作评价,也不能在团体间作比较;当γXX大于或等于0.70时,可用于团体间比较;当γXX大于或等于0.85时,可用于鉴别个人。
任何测验只有包含特定样本的题目,由特定的施测者,对特定的被试,在特定的时间、地点施测,情况不同便会得到不同的分数。
由于信度系数总是在特定情况下获得的,因此,只有当一个测验在很多情况下被证实具有较高的信度时,才可以说它是比较可靠的测验。
三、信度的作用信度系数有两个实际用处:一是用来解释个人分数的意义,二是用来比较不同测验分数的差异。
1.信度可以用来解释个人测验分数的意义由于存在测量误差,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。
理论上我们可对一个人施测无限多次,然后求所得分数的平均数与标准差,这样平均数就是这个人的真分数,标准差就是测量误差大小的指标。
但这在实际上是行不通的。
然而,我们可以用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测,以估计测量误差的变异数。
此时,每个人在两次测验中的分数之差可以构成一个新的分布,这个分布的标准差就是测量的标准误,是表示测量误差大小的指标。
测量的标准误可用下式计算:SE=S X 1 - γXX这里SE为测量的标准误,S X为所得分数的标准差,γXX为测量的信度。
从式中可以看出,测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误越大。
根据上公式,知道了一组测量的标准差和信度系数,就可以求出测量的标准误。
进一步我们就可以从每个人的实得分数估计出真分数的可能范围,即确定出在不同或然率水准上真分数的置信区间。
人们一般采用95%的或然率水准,其置信区间为:(X-1.96SE)≤ T ≤ (X+1.96SE)这就是说,大约有95%的可能性真正分数落在所得分数±1.96SE的范围内,或者5%的可能性落在这范围之外。
这实际上也表明了再测时分数改变的可能范围。
例如:在一次测验中有一学生得80分,这是否反映了他们的真实水平?如果再测一次他的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84。
首先计算SE:SE= 5⨯1-0.84 =2T=80 ± 1.96 ⨯ 2 = 76.08—83.92我们可以说该学生的真正分数有95%的可能性落在76与84分之间。
2.信度可以帮助进行不同测验分数的比较来自不同测验的原始分数是无法直接比较的,而必须将它们转换成相同尺度的标准分数才能进行比较。
如某班期末考试,张生语文、数学的成绩转换成T分数(平均数为50、标准差为10)分别为65和70,由此我们可以知道张生的数学比语文考得稍好些,但二者差异是否有意义,仍不清楚。
为了说明个人在两种测验上表现的优劣,我们可以用“差异的标准误”来检验其差异的显著性,常用的公式为:SE d=S 2 - γXX -γYY公式中SE d为差异的标准误,S为标准分数的标准差(如T分数的S=10),γXX和γYY 分别是两个测验的信度系数。
如上例中,假定此次语文、数学考试的信度分别为0.84和0.91,张生的两个分数差异的标准误为:SE d=10 ⨯2-0.84-0.91 = 5若采用95%的置信区间(即.05显著水平),则张生在这两门课上T分数的差异必须达到或超过1.96Sed = 1.96 ⨯ 5 = 9.8 ,才能认为二者真有差异。
因为数学的T分数只比语文高5分,所以差异并不显著。
用SE估计个人分数的误差要注意三点:(1)一个测验有很多可能的信度估计,因而也有同样多的标准误估计,在实际工作中要注意选择最适合某一特殊情况的信度估计来解决问题。
(2)本理论假定SE在所有分数水平都一样,但有时高分段与低分段其标准误并不相同。
水平高的人与水平低的人在做测量时会有不同的随机误差,受随机误差的影响也不一样。
(3)测验分数是一个人真正分数的最佳估计,但由于存在测量误差,所以必须将测验分数看成以该点为中心上下波动的范围,而不要看成确切的点。
这一范围有多宽将取决于测量标准误的大小,最终取决于信度系数。
(4)测量标准误是对测量误差的描绘,用它能对个人真正分数的置信区间作出估计,但用它来估计个人真正水平则可能导致严重错误,因为它没有考虑到系统误差的影响。
第二节信度的估计方法信度是反映测量中随机误差大小的指标。
由于赞成测量的随机误差的方式或来源多种多样,所以信度的估计方法也多种多样。
下面所介绍的信度估计方法是分别考察信度的某一方面的,使用时要特别注意它的含义及适用范围。
一、重测信度1.含义和计算重测信度(test-retest reliability)指的是用同一个量表对同一组被试施测两次所得结果的一致性程度。
重测信度能表示两次测验结果有无变动,反映测验分数的稳定程度,所以又叫稳定性系数。
其计算公式即皮尔逊积差相关公式:γXX = [∑ (X -⎺X ) (Y-⎺Y )] / ∑ (X -⎺X )2. ∑ (Y-⎺Y )2公式中,γXX是重测信度,X及⎺X是第一次测量的实得分数及实得分数的平均值,Y 及⎺Y是第二次测量的实得分数及实得分数的平均值。
人的多数心理特质如智力、性格等,具有相对的稳定性,因此对这些心理特质的测量,应该前后一致。
因此,我们希望得到测验稳定性的证据。
另外,我们还经常要用测验分数对人做预测,此时测验分数的跨时间的稳定性更加重要。
重测信度的优点在于提供有关测验结果是否随时间而变异的资料,作为预测受试者将来行为表现的依据。
其缺点是易受学习和记忆的影响。
如果相隔时间太短,则记忆犹在,练习的影响很大,往往造成假性的高相关;如果相隔时间太长,那么身心特质的发展与学习经验的累积等均足以改变测验分数的意义,使相关降低。
一般来说,最适宜的相隔时间随测验的目的和性质而异,少者两周,多者半年。
2.使用的前提条件重测信度的特点是用同一工具对同一批人测两次,因此,它只能在允许重测的情况下才使用。
具体地说,它必须满足3个条件:(1)该测验测量的心理特性必须相当稳定。
(2)遗忘和练习的效果基本上相互抵消。
(3)两次测验期间的学习效果没有差异。
但是,我们可以看到,对于学校的各种测验或标准化考试,上面三个假设几乎是无法满足的。
因此,一般标准化考试很少用重测法来估计测验的信度。
相反,成人的人格特质一般是稳定的,并且不容易受遗忘、练习、学习的影响,较多用重测法估计信度。
二、复本信度1.含义与计算任何测验都只是所有可能题目中的一份取样,所以可能编制许多平行的等值测验,叫做复本。
复本信度(alternate-form reliability)就是指用两个复本测验测量同一批被试所得结果的一致性程度。
其大小等于同一批被试在两个复本测验上所得分数的积差相关系数。
两个等值测验可同时连续施测或相距一段时间分两次施测。
前者的复本信度又称等值性系数,其分数的不一致主要来自题目取样的差别,因为两次测验的间隔极短,所以没有时间造成的误差。
后一种复本信度又称稳定性与等值性系数。
因为它把复本法与重测法结合起来,所有影响施测和再施测不一致的因素以及影响平行型不一致的因素都将对它发生影响,因此分数的不一致性最高。
可见与稳定性系数和等值性系数相比,稳定性与等值性系数是对信度的最严格的检验,其值最低。
2.使用前提条件以复本法估计测验的信度可以避免重测法的缺点,但用复本法估计测验的信度的条件之一首先要有两份或两份以上真正平行的测验。
即两测验在题目内容、数量、形式、难度、区分度、指导语、时限、以及所用的例题、公式和测验的其它所有方面都应该相同或相似。
若不一致,所得的信度就成了歪曲的估计。
事实上,要编制两份完全等值的测验是不大可能的,即使是很有经验的测验编制者,也只能编制出基本等值的测验。
用复本法估计测验的信度的条件之二便是被试要有条件接受两个测验。
这种条件主要取决于时间和经费等几个方面。
三、分半信度在一种测验没有复本且只能实施一次的情况下,通常采用分半法估计信度。
分半信度(split-half reliability)指的是将一个测验分成对等的两半,根据所有被试在这两半测验上所得分数的一致性程度。
分半信度系数可以和等值性系数一样解释。
因为这两半测验基本上相当于最短时距施测验的两个平行的复本,由于只需要对一个测验进行一次施测,考察的是两半题目之间的一致性,所以这种信度系数有时也被称为内部一致系数。