信度与效度
- 格式:doc
- 大小:29.50 KB
- 文档页数:7
对信度与效度关系正确的表述一、信度是效度的必要条件而非充分条件1. 信度是效度的必要条件- 含义:如果一个测量工具没有信度,就不可能有效度。
信度反映的是测量结果的一致性、稳定性。
例如,用一个天平去称物体的重量,如果这个天平每次测量的结果都不一样(缺乏信度),那它就不可能准确地测量出物体的真实重量(效度)。
- 数学解释:效度系数的绝对值不会超过信度系数的平方根。
这从数学上表明了信度对效度的限制作用。
若信度系数为0.64,效度系数最大为0.8(0.64的平方根)。
2. 信度不是效度的充分条件- 含义:有信度的测量不一定有效度。
例如,一把尺子,它的刻度非常精准,每次测量同一个物体的长度结果都相同(有信度),但是如果这把尺子的单位刻度被错误标记,比如1厘米的刻度实际上是1.5厘米,那么用这把尺子测量物体长度虽然结果稳定,但却是不准确的(没有效度)。
二、效度受信度制约1. 信度低则效度必然低- 低信度意味着测量结果不稳定、不可靠。
在这种情况下,测量工具很难准确地测量出想要测量的特质或属性,也就难以达到有效的测量。
例如,一份考试试卷,如果题目的表述模糊不清,导致学生每次作答的结果波动很大(信度低),那么这份试卷就无法准确地考查学生对知识的掌握程度(效度低)。
2. 效度高则信度必然高- 当一个测量工具能够有效地测量出目标特质或属性时,说明它在一定程度上是稳定可靠的。
例如,一个经过精心设计的职业能力测试,能够准确地筛选出适合某一职业的人员(效度高),那么这个测试在多次使用时,对相同人群的测量结果应该是比较一致的(信度高)。
因为如果它每次测量的结果都大相径庭(信度低),就不可能准确地评估职业能力(效度高)。
三、两者相互关联又有区别1. 关联方面- 都与测量的准确性有关。
信度是从测量结果的稳定性、一致性角度来考虑测量的质量,而效度是从测量结果与目标特质或属性的符合程度来考虑。
它们都是衡量测量工具好坏的重要指标。
2. 区别方面- 信度关注的是测量误差的影响,主要是随机误差。
一、信度1.定义信度主要是指测量结果的可靠性或一致性。
信度只受随机误差的影响,随机误差越大,信度越低。
因此,信度可以视为测试结果受随机误差影响的程度。
系统误差产生恒定效应,不影响信度。
每一个测试的实得分数(X)总是由真实分数(T)和误差(E)两部分构成的,用公式表示如下:X=T+E如果我们讨论一组测验分数的特性时,可用方差代表具体分数,得到公式:S^2(x)=S^2(t)+S^2(e)公式中,S^2(x)是实得分数的方差,S^2(t)是真分数的方差,S^2(e)是误差的方差在测量理论中,信度被定义为:一组测量分数的真分数方差与中方差(实得方差)的比率。
即:r(xx)=S^2(t)/S^2(x)2.信度的指标大部分情况下,信度是以信度系数为指标,它是一种相关系数。
常常是同一被试样本所得到的两组资料的相关,理论上说就是真分数方差与实得分数方差的比值,公式为:r(xx)=r^2(xt)=S^2(t)/S^2(x)3.信度信度评估的方法(见具体例子)(一)重测信度,又称为稳定性系数,它的计量方法是采用重测法:用同一测验,在不同时间对同一群体施测两次,这两次测量分数的相关系数即为重测系数。
重测信度所考察的误差来源是时间的变化所带来的随机影响。
在评估重测信度时,必须注意重测间隔的时间。
对于人格测验,重测间隔在两周到6个月之间比较合适。
在进行重测信度的评估时,还应注意以下两个重要问题:⑴重测信度一般只反映由随机因素导致的变化,而不反映被试行为的长久变化。
⑵不同的行为受随机误差影响不同。
(二)复本信度,是以两个测验复本来测量同一群体,然后求得应试者在这两个测验上得分的相关系数。
复本信度的高低反映了这两个测验复本在内容上的等值性程度。
两个等值的测验互为复本。
计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。
复本信度也考虑两个复本实施的时间间隔。
复本信度的主要优点在于:⑴能够避免重测信度的一些问题,如记忆效果、练习效应等;⑵适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响;⑶减少了辅导或作弊的可能性。
信度和效度分析范文信度分析:信度是指测量工具在不同时间、不同测量者或不同测量内容下的稳定性和一致性。
如果测量工具具有高信度,那么它将能够产生相似或一致的结果。
以下是几种常见的信度分析方法:1.重测信度方法:重测信度方法是通过对同一组被试者进行两次以上的测量来评估测量工具的信度。
可以使用相关系数(如皮尔森相关系数、斯皮尔曼相关系数)来计算两次测试结果之间的相关性。
如果相关系数接近于1,则表明测量工具具有较高的重测信度。
2.分裂半信度方法:分裂半信度方法通过将测量工具分为两部分或多部分,然后计算这些部分得分之间的相关性来评估信度。
常见的方法包括将问卷的奇数题目和偶数题目分开计分,然后计算这两个得分之间的相关系数。
如果相关系数接近于1,则说明测量工具具有较高的分裂半信度。
3.内部一致性信度方法:内部一致性信度方法通过统计测量工具各个项目之间的相似性来评估信度。
最常见的方法是计算Cronbach's Alpha系数。
Cronbach's Alpha 系数越接近1,说明测量工具的内部一致性越高。
效度分析:效度是指测量工具能否准确地度量所要研究的概念或变量。
以下是几种常见的效度分析方法:1.内容效度:内容效度评估测量工具中各个项目是否能够充分覆盖研究的内容领域。
一般通过专家评审的方式来进行评估,专家将判断每个项目是否与所要研究的概念相关。
通常采用一致性指数来衡量内容效度,如简单一致性指数。
2.结构效度:结构效度评估测量工具所测量的概念结构的一致性。
可以使用因子分析或验证性因子分析来进行评估。
如果因子载荷值较高且具有合理的因子结构,那么测量工具就具有较高的结构效度。
3.判据效度:判据效度评估测量工具与其他已经被接受为有效的判据测量工具之间的相关性。
例如,对于一个测试学生的数学能力的测量工具,可以与学生成绩进行相关性分析。
如果相关系数较高,则说明测量工具具有较高的判据效度。
综上所述,信度和效度分析是量化研究中评估测量工具的关键步骤。
效度和信度名词解释
嘿,你知道啥是效度吗?就好比你要量一个人的身高,那尺子得是
准确的吧,能真正反映出这个人的实际身高,这就是效度啊!比如说,你用一把刻度都不准的尺子去量,那能得到准确的身高数据吗?肯定
不行啊!效度就是衡量我们所使用的测量工具或者方法,是不是真的
能够准确地测量到我们想要测量的东西。
那信度又是啥呢?想象一下,你每天早上都称体重,结果一会儿重
一斤,一会儿又轻两斤,你能相信这个称吗?这就和信度有关啦!信
度就是说,同一个测量工具或者方法,在不同的时间、不同的情况下,测量的结果得是稳定的、可靠的呀!如果一会儿一个样,那怎么能让
人相信呢?
咱就说,效度和信度那可太重要啦!就像盖房子,效度是根基得牢固,信度是建筑得稳定,缺了哪个房子都盖不起来呀!你想想,如果
考试的试卷效度不高,那能考出学生的真实水平吗?不能吧!如果一
个心理测试的信度不行,那结果能靠谱吗?肯定不靠谱呀!
再打个比方,效度就像是射箭要射中靶心,得瞄得准才行;信度就
像是箭要直直地飞过去,不能歪七扭八的。
没有效度,就像射箭射偏了;没有信度,就像箭飞着飞着就不知道去哪儿了。
所以啊,在各种研究、测量中,效度和信度那绝对是不能忽视的呀!它们是保证我们得到准确、可靠结果的关键呢!我的观点就是,一定
要重视效度和信度,不然一切都白搭!。
信度与效度关系的公式信度与效度是两个重要的概念,在研究和评估领域中起着至关重要的作用。
信度指的是测量工具或评估方法的稳定性和一致性,而效度则是测量工具或评估方法所测量的概念或现象的准确性和有效性。
信度与效度是评估研究结果的重要指标,下面将介绍信度与效度的关系以及相关公式。
一、信度的定义和测量方法信度是指测量工具或评估方法在重复使用时得到相似结果的程度。
在研究中,如果测量工具或评估方法具有较高的信度,那么在不同的时间、不同的测量者或不同的环境下使用,所得到的结果应该是相似的。
常用的信度测量方法包括重测信度、内部一致性信度和平行表单信度。
1. 重测信度:重测信度是指在一段时间后重新进行相同或相似的测量,通过比较两次测量结果的一致性来评估信度。
计算重测信度的常用公式为:重测信度=重测得分与初始得分的相关系数。
2. 内部一致性信度:内部一致性信度是指测量工具或评估方法的各个项目或题目之间的一致性程度。
常用的内部一致性信度测量方法有Cronbach's alpha系数和Kuder-Richardson系数。
3. 平行表单信度:平行表单信度是指两个或多个相似的测量工具或评估方法在相同条件下进行测量,通过比较它们的结果的一致性来评估信度。
二、效度的定义和测量方法效度是指测量工具或评估方法所测量的概念或现象的准确性和有效性。
一个有效的测量工具或评估方法应该能够准确地反映所研究的概念或现象。
常用的效度测量方法包括内容效度、构效度和标准效度。
1. 内容效度:内容效度是指测量工具或评估方法是否覆盖了所研究的概念或现象的各个方面。
内容效度通常通过专家评审或内容分析来进行评估。
2. 构效度:构效度是指测量工具或评估方法是否能够反映出所研究的概念或现象的内在结构或关系。
常用的构效度测量方法包括因子分析和结构方程模型。
3. 标准效度:标准效度是指测量工具或评估方法与已有的标准测量工具或评估方法之间的相关性。
常用的标准效度测量方法包括与其他测量工具的相关性分析和与已知标准的比较。
统计学中的信度与效度在统计学中,信度与效度是涉及测量工具的两个重要却又常常相互关联的概念。
它们分别从不同的侧面来评估测量工具的质量和可靠性。
在科学研究、心理测量以及社会调查等领域,理解和掌握信度与效度的概念,对于研究结果的解释和应用至关重要。
本文将深入探讨信度与效度的定义、类型、影响因素及其在实际研究中的应用。
一、信度信度指的是测量工具在多次测量中所获得结果的一致性或稳定性。
换句话说,如果我们使用同样的测量工具对同一对象多次进行测量,理论上应该得到相似或相同的结果。
如果测量结果的一致性较高,则说明该测量工具具有良好的信度。
1. 信度的类型信度可以分为以下几种主要类型:重测信度重测信度是通过对同一组受试者在不同时间点使用同一测量工具进行测试,以评估其一致性。
若两次测量结果高度相关,说明该工具具有较高的重测信度。
内部一致性内部一致性评估的是测量工具内各个项目之间的一致性。
例如,在问卷调查中,针对某一特定特质的多个问题,若回答之间存在高度相关,说明问卷具有良好的内部一致性。
常用的评估方法是计算克朗巴赫α系数。
评分者间信度评分者间信度用于比较不同评分者对同一现象或对象进行评价时所给出的结果一致性。
当多个评分者对同一个被试进行评分时,如果他们的评分高度一致,则表明该测量工具具备良好的评分者间信度。
2. 信度的重要性信度在统计学研究中的重要性不可低估。
首先,高信度意味着研究结果稳定可靠,能够有效反映所要研究的对象特征。
同时,低信度可能导致统计分析结果的不准确,使得结论失去可信性。
因此,在设计研究时,确保所使用的测量工具具备较高的信度,是任何研究者必须关注的重要环节。
二、效度效度则是指测量工具是否能够准确地测量其所声称要测量的内容或特质。
简单来说,一个具备效度的测试应该能够区分出不同被试之间真实存在的差异,而不仅仅是能重复地得到相同结果。
1. 效度的类型效度一般可分为以下几种类型:内容效度内容效度指的是测量工具所包含内容是否全面代表了待测特质。
信度与效度的名词解释在社会科学研究中,信度和效度是两个重要的概念,用于评估研究工具的质量和可靠性。
信度指的是测量工具的稳定性和一致性,即无论是在不同时间还是不同场合下,该工具测量的结果是否具有一致性。
效度则是指测量工具所测量的内容是否与实际情况相符,即是否能够正确地反映出所要测量的概念或变量。
信度主要关注的是测试工具的稳定性和准确性。
如果一个测量工具具有较高的信度,那么无论是在不同的时间还是不同的场合下,使用该工具测量同一个对象所得到的结果应该是一致的。
一个具有高信度的测量工具可以减少测量误差,使得研究结果更加可靠。
常用的衡量信度的方法包括重测信度、等价形式信度和内部一致性信度。
重测信度是一种常见的信度测量方法,它通过对同一组受试者在不同时间或条件下进行两次测量,然后计算两次测量结果之间的相关系数来评估工具的信度。
如果两次测量之间的相关系数较高,说明该工具具有较好的信度。
等价形式信度是一种通过将原测量工具分为两个等价的部分,然后对同一组受试者分别使用两个部分进行测量,最后计算两个部分测量结果之间的相关系数来评估工具的信度。
如果两个部分测量结果之间的相关系数较高,说明该工具具有较好的信度。
内部一致性信度是一种通过对测量工具中的一组项目进行统计分析,例如计算Cronbach's alpha系数,来评估工具的信度。
Cronbach's alpha系数表示了测量工具中各个项目之间的内部一致性。
如果Cronbach's alpha系数较高,说明该工具具有较好的信度。
效度主要关注的是测量工具的准确性和有效性。
一个具有高效度的测量工具应该能够准确地测量所要研究的概念或变量,而不是测量其他无关的内容。
常用的衡量效度的方法包括内容效度、构效度和判别效度。
内容效度是一种通过专家评估测量工具中所包含项目与所要测量的概念之间的关联程度来评估工具的效度。
如果专家评估认为测量工具中的项目与所要测量的概念之间的关联程度较高,那么该测量工具具有较好的内容效度。
信度和效度的数值
信度和效度是评估测量工具或研究方法质量的重要指标。
它们的数值可以提供关于测量工具或研究方法可靠性和有效性的量化信息。
信度是指测量工具或研究方法的一致性或稳定性。
通常通过计算内部一致性信度来评估信度,常见的信度指标包括Cronbach's alpha 系数、分半信度等。
Cronbach's alpha 系数是一种常用的信度指标,它表示多个项目或指标之间的一致性程度,取值范围通常在 0 到1 之间。
一般认为,alpha 系数大于 0.7 表示信度较好,而大于 0.9 则表示信度非常高。
效度是指测量工具或研究方法能够准确测量所需概念或变量的程度。
效度可以分为多种类型,如内容效度、构念效度、预测效度等。
不同类型的效度评估方法和指标可能不同。
例如,内容效度可以通过专家评估来确定,而构念效度可以通过因子分析等方法来评估。
在实际研究中,信度和效度的数值通常是通过特定的统计分析方法计算得出的。
这些数值可以帮助研究者评估测量工具或研究方法的可靠性和有效性,并确定其是否适用于特定的研究目的。
需要注意的是,信度和效度的数值是相对的,并且受到多种因素的影响,如样本大小、测量工具的设计和实施方式等。
因此,在评估信度和效度时,需要综合考虑多个因素,并结合实际情况进行判断。
希望以上内容对你有所帮助。
如果你有任何其他问题或需要进一步的信息,请随时告诉我。
信度和效度的名词解释一、信度( reliability)信度是指测量结果与预定标准之间的一致性程度。
它是指在一定条件下,多次测量同一量时所得结果的变异程度,或者说一组测量值分散到另一组测量值中所引起的变异程度。
信度分为内部信度和外部信度,两者又合称为可靠度。
1、内部信度信度是指测量结果与预定标准之间的一致性程度。
它是指在一定条件下,多次测量同一量时所得结果的变异程度,或者说一组测量值分散到另一组测量值中所引起的变异程度。
内部信度与效度是密切相关的。
只要有可能影响测量结果的不确定性,就会影响到测量的信度;反过来,如果对这些不确定性进行修正,又会改善测量的效度。
而且某一项目的实验本身可能就具有很好的内部信度,只是缺乏适当的统计学上的显著性水平而已。
如何才能获得较高的信度呢?首先,要对被测量进行严格的定义和仔细的选择,其次,应当考虑到测量结果的正态分布性质,以保证试验条件的稳定,减少各种不可控因素的干扰。
一般来说,系统误差小,分布集中,测量误差小的仪器和方法,信度较高。
否则,测量信度低。
在实际工作中,通常认为下列三个因素对信度有重大影响:( 1)测量方法本身的随机性( 2)观察或调查对象的变异性( 3)被测量的数据范围( 4)观察或调查人员的主观判断与偏见2、外部信度是指测量结果与处理前标准之间的一致性程度。
对一个实验室来说,其处理前的原始数据有重复性的一组数据作为样本,使用标准差来衡量信度的高低。
数据的重复性越大,其外部信度也就越高。
二、效度( validity)效度指的是测量结果与被测量之间的一致性程度。
用预先规定的效度标准来评价测量结果的有效性。
如一组数据若不同于参照组的数据则该组数据无效。
有效性也叫可靠性,即一个特定的测量方法或测量工具,所给出的测量结果在真值附近的可靠程度。
信度与效度都有助于提高试验资料的精确程度。
例如:医师在诊断病情时,应根据病情做出正确的诊断,然后选择最佳的治疗措施。
但是对一位病人进行体温测量并不能给出很好的诊断,因为病人体温受多种因素影响,包括环境温度、衣着、食物等。
试卷信度与效度
高考的性质最主要的在两个方面:一、高考是一种选拔性考试,高考成绩是高等学校录取新生的依据,这是高考的选拔性质。
二、高考是一种导向性考试,高考是中学教学的指挥棒,起着对中学教学的引导作用,这是高考的引导性质。
高考性质的这两方面决定了高考试题应有的信度、效度、难度和区分度,而这些是我们进行高考生物复习首先要清楚的,能够避免我们在复习时的盲目。
下面我先简单地介绍一下信度、效度、难度和区分度四个概念:
信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。
效度是指考试有效性或正确性的质量指标,考试效度的高低反映着考试是否达到它的预定目的,是否考了要考的内容。
难度指试卷(题)的难易程度。
一般用试卷(题)的得分率或答对率表示,所以难度事实上是容易度或通过率。
其值在0~1之间,数值越大,说明试卷(题)越容易。
区分度是指试题对不同考生的知识、能力水平的鉴别程度。
如果一个题目的测试结果使水平高的考生答对(得高分),而水平较低的考生答错(得低分),它的区分能力就很强。
题
目的区分度反映了试题这种区分能力的高低。
一般认为,区分度的数值达到了0.3,便可以接受;低于0.3的题目,区分能力差。
高考的性质决定了高考试题首先要保证信度,缺少信度或信度较低都无法向几百万考生交代,无法向考生家长交代,无法向社会交代。
从这一角度看高考试题所考查的一定是确定性和稳定性的内容,对于现在还没有被确定的内容或者说有争议内容是不能作为高考命题依据的。
你知道了吗?复习时,可不要让这样的问题浪费你的精力呀!同时要注意,有些题目看起来让你回答的是假设和猜想,你可不要忘记高考试题的确定性,不要得意忘形呀,还是老老实实从生物学的基本原理来回答,只有这样你才能得分。
OK!
高考的效度要求高考试题是有效和正确的,考查的是考纲规定的内容。
你想想牵动着百万考生、千万家庭、亿万人员,如果哪位命题大人在命题中出了错误或者超出了考试要求,会怎么样呢?哪他可就大了,他将成为千夫所指,这样的事情是每一位命题人都不会干的。
鉴于此,我们的复习一定要紧紧盯住考试纲要,对考试纲要要求的内容理解、记牢,让它扎根心田;对于违背考试纲要或超出纲要要求的内容,则不要理睬;一些脑筋急转弯、文字游戏类的问题就让它见鬼去吧。
高考试题要有难度,这个难度有多大,平时复习需要用
什么样的态度去对待不同难度的试题呢?高考试题的难度与参加考试人数和当年高等学校的录取人数是密切关联的。
去年山东省高考报名人数是70多万,实际录取人数接近40万,高考试题的难度定位应该是有利于把这40万考生选拔出来,因此,试题的难度系数应在0.6左右。
这意味着什么?意味着将有60%左右的考生通过高考被定位在基础较好、能力较强、具有学习潜能;而90年代只有10%左右的考生能够进入高校相比,那时10%左右的考生通过高考被定位在基础较好、能力较强、具有学习潜能。
这不是说现在学生中优秀的比例提高了,而是高考试题的难度变了,高考试题的侧重点变了。
变成什么样了呢?变成60%的试题是基础题目了。
你只有能把基础概念、基本原理、基本事实掌握了你就至少能拿到60%的分,你就进入了优秀基础较好、能力较强、具有学习潜能的考生的行列。
高三复习,特别是一轮复习的重点和目标就确定了——基本概念、基本生物事实、基本生物学原理、基本生物学方法、基本生物学思想。
记住了,抓基础,把60%先抓在手中。
高考是选拔性考试,高考试题一定要有区分度,以利于不同层次学校对人才的选拔。
因此高考还要有中档题和难度较大的题目,根据考生人数和录取人数的比例,这两类题目所占的比例将在40%左右。
对于生物学科讲,这部分试题的难度主要体现在生物科学思想和生物知识的运用,以及生物试题
的解题技巧上。
要想在这部分试题中得高分也不难,需要在平时复习时注意在做题目的同时总结方法,逐步建立起生物科学的思维方法和熟练生物学试题的解题技巧。
前60%是进入高校的保证,后40%则是进入较好大学所必需的,谁不想上大学,谁不想上好大学,因此这部分试题往往成了香饽饽,为此,今后每期我们都专门开设专门栏目进行辅导,设计专门的创新题供大家热身。
这部分确实很重要,但要有前面的60%作基础,切不可逐末舍根呀。
测试信度(test reliability)也叫测试的可靠性,指的是测试结果是否稳定可靠。
也就是说,测试的成绩是不是反映了受试者的实际语言水平。
例如,如果同一套测试在对同一测试对象(即受试者本身没有变化)进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。
测试的信度与测试的效度有着密切的关系。
一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。
测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。
试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素;评分是否可靠则要看评分标准是否客观和准确。
测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。
当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,
则测试的可靠性降到最低程度。
在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。
对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如“托福”的信度大致为0.95,而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。
测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法:
1)重测法(the retesting method)。
用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。
当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。
但是若该试题是比较可靠的,每个学生在两次测试中的排名次序应该是基本不变的。
2)交替形式法(the alternative method)。
对同一批受试者使用试题类型完全相同,难易程度相当,但具体题目不同的两套对等试卷先后进行两次测试,然后计算出两次得分的相关系数。
3)对半法(the split-half method)。
测试只进行一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用Spearman-Brown的公式计算整份试卷的信度系数。
具体计算步骤是:将两组分
数的相关系数乘以2,再除以1加两组分数的相关系数。
测试效度(test validity)亦称测试的有效性,指一套测试对应该测试的内容所测的程度。
也就是说,一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。
例如:“Is photography an art orscience?Discuss.”这种题目以摄影的知识为前提和主要内容,用来考语言能力,就不具有效性。
又如用听写来测量学生的听觉能力,其效度也是不理想的,因为书面记录有声语言不仅涉及学生的听觉能力,而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。
测试的效度一般可分为以下几类:
1)表面效度(face validity)。
指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的。
例如,若一次阅读理解力的测试包括许多受试者没有学过的方言词汇,则可认为这次测试缺乏表面效度。
表面效度是测试出受试者正常水平的一种保证因素。
2)内容效度(content validity)。
指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求,即测试的代表性和覆盖面的程度。
例如,如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音,而不考查重读、语调或音素在词语中
的发音,那么,该测试的内容效度就很低。
3)编制效度(construct validity)。
指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。
例如,以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的,那么,强调词汇和语法环境的测试题目就失去了编制效度。
4)经验效度(empirical validity)。
经验效度是一种衡量测试有效性的量度,通过把一次测试与一个或多个标准尺度相对照而得出。
经验效度可分为两种:一是共时效度(concurrent validity),即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的系数;二是预测效度(predictive validity),即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数。
一般来说,对某次测试的效度进行检验时,除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法,即计算出本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。
系数高则有效性大。
课堂测试的效度应在0.4-0.7之间,规模较大的测试其效度应在0.7以上。