当前位置：文档之家› 语言测试的信度和效度及其关系

语言测试的信度和效度及其关系

科技信息 2008年第 17期 SCIENCE &TECHNOLOGY INFORMATION

我们知道 , 测试是教与学的向导 , 而为了让它发挥出向导的作用 , 一份好的试卷是必不可少的 , 而且是至关重要的 . 一般情况下 , 我们判断一份试卷的好坏的主要标准是:是否有信度、效度、区分度、实用性、全面性、公正性及后期效应。其中, 以信度和效度最为重要。

一、语言测试的信度

语言测试的信度, 又叫可靠性, 是指考试结果的可靠性和稳定性。即看学生的分数是否稳定, 如果同一个学生做同一套试卷 , 做的几次的结果都是一致的 , 那么我们说这次考试是有信度的; 反之 , 如果分数忽高忽低就说明信度不高 , 那么表明考试的信度不高。

信度可以分为复测的效度、判卷的效度和每一个测试项目的效度。同一学生不管考多少次, 所得的分数都是一样, 那么就说这个分数有复测的可靠性。影响分数的一个很重要的因素就是判卷人, 在判卷过程中, 不同的判卷人对同一试卷也会做出不同的反映; 同一个人在不同的时间对同一试卷给的分数也是不一样的。试卷不仅要达到其整体的可靠性, 而且每一题都必须能达到这个标准, 那才是一份有信度的试卷。

与能力无关却又会影响试卷信度评判的因素有很多,例如:1. 考试条件差, 天气热、考场周围太吵闹等。 2. 考试条件不一样。同一个学生在安静与吵闹的环境中做同一份试卷,其结果不一样。 3. 监考施策。不同的老师对考生的松与严, 看见考生作弊或违纪不勒令禁止。 4. 题目要求不清, 学生根本无法弄清题义, 也就无法真实的反映考生的水平。 5. 保密工作做的不好, 泄题事件发生。 6. 评分。主观测试的评分常常因评卷人而异, 难以达到较高的信度; 客观试卷的评分不受评卷人的影响因此信度较高。 7. 样品数量太小, 样本不足。 8. 身体及心理状态不好等等, 这些因素都会影响到信度。因此, 为了提高信度, 我们必须对症下药, 采取各种措施。例如:提供统一规范的考试环境、规范监考、题目必须做到明了易懂等等。

通常, 用来检测信度最常用的有三种方法:1. 考后复测法。在考试后再让学生做同一套试卷, 如果几次考试的结果是一致的, 这份试卷就是有信度的。但是在实际操作过程中, 学生在不断的学习提高, 而且记忆因素也会影响复测的结果,因此用这一方法很难检测考试的信度。 2. 平行测试法。设计试卷时, 设计两份难度一样的试卷, 在不同的时间给学生做, 如果结果一致, 则有效。但是, 在设计试卷时我们无法确信两套试卷在难度及内容上是否完全相同,因此操作起来很困难。这种方法常用在补考试题的设计中。 3. 分半法。设计一套试题让学生做, 然后把结果分为奇数和偶数题进行分析评判, 并算出它们之间的相关性。

二、语言测试的效度

效度, 即有效性, 是指试题是否考了出题者想考的内容或多大程度上考了出题者想考的内容。效度是语言测试的最重要的一个指标, 或者说是语言测试的基本出发点, 效度不高的测试是没有意义的。效度可分为以下五种:

1. 表面效度。表面效度就是说, 一套试卷看起来是否合适, 像不像一套试卷。具有表面效度的测试容易引起人的兴趣。 Alan Davies 曾说, 表面信度是可以达到的, 但却不是必要的, 表面的但却又是有用的。他可以让别人相信试卷是有效的。

2. 内容效度。内容效度是指是否符合大纲的要求, 是否与测试目的有关。例如:老师教了一个学期想看看学生对于所教内容掌握得如何, 但是在选题时, 所出的题目与学生学的内容无关, 则这套试卷没内容效度。在有内容效度的测试中考查的语言要素和技能都能有所体现。成绩测试和诊断测试尤其要注意符合教学内容。

3. 同期效度。同期效度就是一次测试的结果与另一次时间相近的有效测试的结果相比较,或同教师对学生的评估相比较而得出的系数。

4. 预测效度。它是指试卷结果是否, 或者在多大程度上可以预测将来的考试成绩。

5. 结构效度。即从理论上说, 试卷的各个部分是否出的有道理。结构效度测试是说一套测试要以一定的语言学习理论为依据。

Alan Davies 在论述语言测试的信度时说,信度的种类与运用有关。例如:成绩考试既要表面效度又要内容效度; 能力测试要有表面效度、结构效度和内容效度特别依靠内容效度; 水平测试必须要有表面效度、预测效度和同期效度。语言测试的种类不同, 对各种效度的要求也就不同。语言潜能测试多基于某种语言行为理论和语言学习理论, 因此重视编制效度。水平测试强调共时效度和预示效度。成绩测试和诊断测试要受教学大纲的限制, 因此首先要看内容效度。

提高效度的常用方法有:明确考试的目的、决定与目的相反的考试内容、决定考试的方法以及增加考试的信度四种。

三、信度和效度的关系

通常, 我们把信度和效度看成是不同的, 但是却在测试中两者又是具有相互联系的特征。尽管效度是最重要的特征, 但是信度却是效度必不可少的条件。但在涉及到测试的方法时, 两者的差异就变的模糊了。

Campbell , Lyle F. Bachman 和 Fiske 都曾对信度和效度的关系做过经典的论述。 Lyle F. Bachman 认为:在研究影响分数的因素时, 信度和效度是互为补充的两个方面。信度回答的是引起考试结果不一致的原因有多少是由测量误差所引起的; 然而, 效度则是找出考试结果中那些导致有效的不一致的因素, 即考试结果有多少是由考生的某种特殊语言能力的程度而引起的。因此, 我们可以说信度是考查考试结果哪些是由想考的内容以外的因素引起的, 效度则是看考试结果的差异哪些是由语言能力所引起的。

信度和效度有密切的联系, 但它们的关系是单方面的。效度是信度的前提, 但有信度的试卷可能是高效度的, 也可能是效度较低的, 即效度较高不能保证信度也一定较高。一项测试有信度 , 它的效度有可能高 , 也有可能低; 但是如果一项测试没有信度, 则这次测试必然是无效的。信度差效度就差, 但效度差不一定信度就差。信度是效度必不可少的条件, 试卷如果没有信度根本不可能对测试进行(下转第 214页

语言测试的信度和效度及其关系

曹桂花

(孝感学院外国语学院湖北孝感 432000

【摘要】语言测试是对语言教学的评价。通过对语言知识或语言技能及语言能力的测试, 老师可以了解教学效果, 了解到学生对知识的掌握程度, 看到他们的进步与不足, 有利于教学的调整。要达到这个目的, 就必须有好的试卷, 我们一般从信度、效度、区分度、实用性、全面性、公正性及后期效应来对试卷进行评价。本文讨论了其中极其重要的两个标准信度和效度以及它们之间的关系。

【关键词】语言测试; 信度; 效度

The relationship between validity and reliability of language testing

Cao Gui-hua

(school of foreign language, Xiaogan University

【 Abstract 】 Language testing is a way to value the language teaching. From language testing, the teachers can know whether the students master what they have taught, the students ’ weaknesses and strengths and improvement, which is helpful to the language teaching. To achieve this purpose a well-designed paper is needed. Usually, we think good qualities of good test include:validity, reliability, discrimination, practicality, and backwash effect. This paper is mainly validity and reliability and the relationship of these two.

【 Key words 】 language testing ; validity ; and reliability

○ 高校讲坛○

182

科技信息 2008年第 17期 SCIENCE &TECHNOLOGY INFORMATION

(上接第 182页有效的解释。

例如:我们希望对学生进行一次期中测试, 检查一下学生半学期以来对所学知

识的掌握程度。假如试卷本身设计得不合理, 有些题目好学生不会做而基础较差的学生却做得出来, 或者由于外界的条件较差, 非常吵闹, 气温很高, 或者评卷人的主

观评卷等, 都会影响测试的信度, 那么的测试结果就根本达不到检测学生的目的, 因为评判的条件没有达到, 此次测试就是无效的了, 也无从判断试卷本身的效度。只有我们确信测试是有效的了之后, 对效度做出判断才是有意义的。在确信了测试是有效的之后, 我们才可能从内容、结构共时、预测和表面等几个方面来判断测试

是否达到了考试的目的,即是否考了想考内容。又如, 我们想了解学生的写作能力, 可是给他们考的题型却是多项选择题、听力和阅读, 根本没有设计写作的题型。

这样的考试虽然是有效的, 但却偏离了考试的初衷, 因此不能很好的检测学生的写

作能力, 因此此次考试无效的。反之, 我们确信试卷的效度很低, 即没考想考的内容, 那么我们说其信度可能高也可能低, 因为影响信度的因素主要是我们上文提到, 与

效度没有多大关系。

需要指出的是, 高效度和高信度是测试者的目标, 但是这只是一种理想, 一项测试既有高信度, 又有高效度是不可能的。

四、结论

语言测试的信度及效率问题一直是语言测试专家关注的问题, 也是教师所关心的。了解了测试中的信度和效度这两个最重要的标准及其关系后, 试卷的设计者在设计试卷时一定要注意试题的本身的科学性, 紧扣考试的目的; 而监考者在测试的

过程中也应尽量减少来自于外界的影响测试的效度和信度的因素,以期测试能更好的服务于教学。

【参考文献】

[1]李筱菊 . 语言测试科学与艺术 [M]. 湖南教育出版社 ,1997.

[2]刘润清, 韩宝成 . 语言测试和它的方法 [M]. 外研社 ,2000.

[3]Davies, Alan. 1990. Principles of Language Testing . Oxford:Basil Blackwell.

[4]Bachman, Lyle F. 1990. Fundamental Consideration in Language Testing . Oxford University Press.

[5]Bachman, L. F. &Adrian S. Palmer . 1996. Language Testing in Practice. Oxford University Press.

作者简介:曹桂花(1979— , 女, 湖北荆州人, 孝感学院外国语学院讲师, 英语语言文学硕士。

[责任编辑:张新雷]科

科

好的生活方式和能积极地参加体育锻炼。国家鼓励、扶持社会组织或者个人兴办老年福利院、敬老院、老年公寓、老年医疗康复中心和老年文化体育活动场所等设施。更需要大量专业的社会体育的组织者和引路人。

2.5.3奥运会的推动作用

奥林匹克主义追求的是“ 高水平竞技体育与群众体育高度的结合” 。回顾历史, 我们会发现每一届奥运会的举办国都极尽全力将本国的竞技水平推到了极致。他们之间的不同之处也许就在于有的国家不但收获了金牌, 并且借主办奥运会之良机成功地推动了群众体育的发展, 提高了全民身体素质。毋庸置疑, 2008年的北京奥运会, 我们的竞技体育一定会再创新高, 那么北京奥运会我们的群众体育将收获些什么昵 ? 我们如何充分利用北京奥运会这样千载良机, 把全民身体素质、健康水平提到一个新的更高层次呢? 1964年日本成功地举办了东京奥运会, 1988年韩国也成功地举办了汉城奥运会。在举办过奥运会后, 日、韩的大众体育都得到迅速发展。如今, 他们的大众体育都已形成规模, 其体育人口的比例、国民体质状况、人均体育消费额在全世界尤其是亚洲位居前列。我国与日本、韩国同时亚洲国家, 在

文化、历史等方而共通之处较多,他们在大众体育的发展历程中所采取的政策、方针、方法, 必然有值得我们借鉴之处。

2.5.4面临的挑战

21世纪, 社会对体育人才的需求及对体育教师素质方面的要求, 都将更加突出。当前, 学校体育 21世纪发展的总趋势是 :学校体育目标向着多元化方向发展, 学校体育不只是以生物体育观为基础的教育体育, 而是形成了一个健康、保健体育、娱乐体育目标、教养教育目标、竞技体育目标和促进学生个性全面发展等学校体育目标的新体系。大大拓展了学校体育目标的内容。同时学校体育向追求阶段效益和长远效益相结合的方向发展, 过去学校体育一般只强调阶段效益, 即学生在校学习期间的效益。随着社会发展, 改革的深入, 学校体育将十分重视其长远效益, 即培养终身体育的习惯。要符合这个发展趋势, 作为中学体育教育的母机—体育教育专业, 必须主动适应这个变化。体育教师的工作对象和范围不仅仅只限制在学校, 而更具有社会性, 这给体育教育专业的人才培养提出了新的要求。江泽民同志在全国科技大会上提出“ 科教兴国” 。体育是科教兴国的一个必不可少的组成部分。体育界己经提出“ 科教兴体” 的战略, 这就要求我国培养的人才具有科研意识, 及时摄取信息的能力和具有一定的科研能力, 这给体育专业人才培养提出新的要求。

3. 解决问题

3.1高校方面的因素

高等院校要通过改革教学思想与教育观念, 加强素质教育, 拓宽专业口径, 推动教学与科研、生产相结合等方面的改革, 逐步建立起注重素质教育和创新精神, 融传授知识、培养能力, 提高素质为一体, 培养基础扎实、知识面宽、能力强、素质高, 创新性强的专门人才, 打造具有时代特征的多样化的人才培养模式, 并完善管理与监督机制保障改革切实有效地进行。对学生进行就业指导以市场需要为导向“ 生产学生”使就业后的学生“ 回炉” 接受再教育, 提高其社会适应能力使其始终能够适应社会的发展。

3.2学生方面的因素

在学校打好自己专业基础的同时积极学习适应未来社会发展需求的知识和技能使自己真正成为一名“ 厚基础宽口径” 的多能型人才。还应该转变就业观念, 响应政府的号召, 在学习之余积极投身到社会主义全民健身运动的指导和实践当中去。学以致用, 让自己能够在实践中得到锻炼并培养自己解决实际问题的能力。让自己能够更好的适应未来社会的需求。

3.3社会方面的因素

政府部门的政策支持是一切工作的前提和最有力的保障。一、建立体育指导员轮训制, 使体育指导员的体育健康知识保持常新, 以使他们能够科学合理地传授体育健身知识, 指导社区体育健身。二、是积极引进体育院校毕业生或在校生到社区进行体育志愿服务, 为社区体育输入新鲜血液。三、是利用重大体育比赛群众体育快速发展的契机, 转化为社区体育发展的动力。四、是社区体育的制度化、常规化、全民化, 是培养社区居民体育健身习惯的重要手段。五、应将社区体育基础设施建设纳入市政工程建设规划, 社区体育基本经费的投入应纳入政府的财政预算,并确保群众体育事业费在体育事业费中的合理比例, 真正体现“ 确保体育事业经费随财政收入的增民逐步增长” 。

4. 结语

让我们共同关注体育教育专业学生的就业问题。因为, 解决体育教育专业学生的就业问题不是学生、学校或是社会单一方面的努力所能解决的事情, 而是三者共同努力的结果。奥运将至, 全民健身的高潮也即将到来。让体育工作者更好的发挥他们的专业优势推动全民健身运动科学而有序开展, 为构建社会主义和谐社会奏出和谐的音符。

【参考文献】

[1]谢芳 . 试论未来高师体育院系面临的机遇与发展对策 [J]. 山东体育科

技 ,2005(3. [2]沙灵 . 关于中学教师组织管理行为的探讨 [J]. 中外学校体育文

摘 ,1985(3:11. [3]王兴林 . 田径专修课培养教学能力的研究 [J]. 体育学刊 ,1996(1.

[4]夏书红 , 邹师 . 日韩在主办奥运会后大众体育发展策略的分析与借鉴 [J]. 体育科学 ,2007(1.

[5]赵原 . 社区体育发展的问题与途径 [J]. 柳州师专学报 ,2007(1.

[责任编辑:田瑞鑫]●

○ 高校讲坛○ 214

SPSS信度和效度检验全套资料(吐血推荐)

关于调查问卷的信度和效度检验（一）信度 1 、信度的含义测验的信度又称测验的可靠性 , 是指同一个测验对同一组被试施测两次或多次 , 所得结果一致形程度。一个好的测验必须是稳定可靠的 , 多次使用所获得的结果是前后一致的。例如 , 用直尺测量长度 , 其结果是稳定可靠的 ; 用橡皮筋测长度则是不可靠的 , 前后测量结果缺乏一致性。在测量理论中 , 信度被定义为 : 某次测验分数的真变异数与总变异数 ( 即实测分数 ) 之比 : 2 2 S R x xx ST = 式中 Rxx 表示测量的信度 ,ST 2 代表真分数的变异数 ( 方差 ),Sx 2 表示实得分数的变异数 ( 方差 ) 。从上式可看出 , （ 1 ）信度是指实测值和真值相差的程度 , 实测值是指对某物实际进行测量时所获得值 , 也称实测分数 (X); 真值是指被测事物的真实规模取值 , 也称真分数 (T) 。由于各种原因 , 实得分数常不等于真分数 , 两者之差称为测量误差或误差分数 (E) 。从理论上看 , 实得分数由真分数和误差分数两部分组成即 :X=T+E Rxx 就是对一组测验数据的实测分数与真分数相差程度的最好估计。（ 2 ）信度又是指相同的测验对相同的被试再次测量时引起的同样反应的程度。如果两次测验中 , 受测者所得分数或所处等级前后一致 , 则说明测验结果的信度较高 ; 反之 , 两次测验结果一致性低 , 说明测验结果的信度低。信度是任何一种测量的必要条件 ( 但不是唯一条件 ), 只有测量值接近或等于真值 , 用同一工具多次测量同一特性获得相同或相近的结果 , 才能认为这个测量结果是可靠的。信度对于教育测量尤其重要 , 只有信度高的教育测验才能成为教育工作者有用的工具 , 才能为教育工作者提供可靠的信息 , 为教育预测和决策提供客观依据。 2 、信度的估计方法测验的信度是用信度系数的大小来表示的 , 根据测量理论 , 信度系数 2 2 S R x xx ST = 但是在实际测量中 , 一般只能获得实得分数 (X) 及实得变异数 (Sx 2 ), 而真分数 (T) 及真变异数 (ST 2 ) 是不知道的 , 因此 , 依据上述公式还无法机算信度系数。在统计上 , 主要采用相关分析的方法即机算两列变量的相关系数 , 用相关系数的大小来表示信度的高低。主要用以下方法来求得信度 : （ 1 ）再测法 : 用同一测验对同一被试 , 前后施测两次 , 根据两次测验分数计算相关系数 , 即是再测信度。该信度反映了测验的稳定性程度 , 故又称稳定性系数 , 是用皮尔逊积差相关公式计算的 : 2 12 1/21S S M M N X X R xx ?-= ∑ 式中 X 1 .X 2 为同一被试的两次测验得分 ,M1.M2 为两次测验的平均分数 ,S 1 .S 2 是两次测验的标准差 ,N 是被试人数。用再测法估计信度 , 可以得到有关测验结果是否随时间而变化及变化程度的资料 , 可以作为预测被测者将来行为表现的依据。但也存在明显的局限性 : 前后两次测验结果易受到练习和记忆的影响 , 前后两次施测的时间间隔影响稳定性系数 , 特别是对学绩测验的影响较大。如果时间间隔太长 , 被测者的身心因受环境影响将发生大的变化 , 从而对第二次施测结果产生较大影响 , 使稳定性系数降低 ; 如果间隔太短 , 则被试第一次完成测验时练习和记忆会对第二次测验产生较大影响 , 使第二次测验性质发生变化。另外 , 有些测验不宜用再测法估计信度 , 如测量创造力测验 , 被试一旦掌握了解决问题的办法、原则 , 重测时 , 他将很容易作出反应 , 这样测验的性质就发生了改变。因此 , 只有在没有复本可用 , 测验不易受重复使用影响 , 现实条件又允许重复施测的情况下才使用重测法估计信度。用重测法估计信度 , 间隔时间长短没有严格的规定 , 一般说 , 间隔时间越长 , 稳定性系数越低 , 最适

浅谈语言测试的信度与效度

?２００９年第１期? ５陈静浅谈语言测试的信度与效度收稿日期：2008-09-24作者简介：陈静（1981-），女，吉林华桥外国语学院科研处，讲师，长春130117 [摘要]本文通过测试的信度与效度的对比分析，结合其发展过程分析了信度与效度的相互关系对语言测试及语言教学的影响。正确、科学的现代语言测试的取向应该是效度重于信度。提高测试的效度可以提高语言测试的正面反拨作用，即促进语言教学的质量。 [关键词]语言测试；信度；效度[中图分类号]H087[文献标识码]A [文章编号](2009 01-0005-04 语言测试学, 作为应用语言学的一个分支, 现已发展成一个相对独立的学科。作为对语言教学进行测量和评估的一个重要手段, 语言测试愈来愈受到广大外语教学工作者的重视。Bachman (2004:54 曾说:“在教育程序中, 语言测试的基本运用是给教学评估提供重要的信息。”通过测试可以检查学生对知识的掌握情况和教学中存在的问题，对今后的教学提供指导和帮助；同时，通过测试可以衡量教学任务和教

学大纲的执行情况。不科学的测试不仅不能起指挥棒的作用, 有时反而会误导教学, 将学生和教师引向歧途。因此我们主张的是科学的, 符合教育原理的测试, 这样的测试会对教学产生积极的反拨作用。一套设计比较科学的测试，一般认为应该有四点特征, 即效度, 信度, 实用性和良好的反拨作用。其中信度与效度是后两者的基础，是语言测试的永恒主题，信度与效度孰重孰轻, 也是现代语言测试学家一直争论不休的话题。本篇论文通过测试信度与效度的研究，旨在帮助教师设计合理的测试，并在测试后对试题总结、归纳，以加大测试力度，提高测试效果。一、信度与效度的概念语言测试的信度是指测试结果的可靠程度。浅谈语言测试的信度与效度吉林华桥外国语学院学报６即当被测试对象发生变化，用同样的“尺子”去重复测量时，总是获得类似的结果。影响信度的因素很多, 它们存在于语言测试的每个环节中，就试卷本身来说主要是样本的大小和区分度等。取样大, 样本具有广泛性, 测试的信度就高, 反之信度就低。另外试题太难或太易, 考试分数集中于某一点或某一区域测试也失去信度。在测试的组织、实施这个环节中, 一方面考试的环境和条件要对考试有利。另一方面考试的环境和条件对所有的受试者是否一致也影响到考试的信度。在测试评分的环节上, 评分标准是否一致对信度影响很大，尤其是主观题的评分很难能达到很高的标准。

信度与效度的关系

研究信度与效度的关系一、信度与效度的定义信度即可靠性，它指的是采取同样的方法对同一对象重复进行测量时，其所得结果相一致的程度，或者说，信度是指测量结果的一致性或稳定性。效度即准确度,它是指测量工具或测量手段能够准确测出所要测量的变量的程度，或者说能够准确、真实地度量事物属性的程度.二、信度与效度的关系 (一)教育科学研究中信度与效度的关系信度是研究结果所显示的一致性、稳定性程度，也是对研究结果一致性和稳定性的评价标准。一个具有信度的研究程序，不论其过程是由谁操作，或进行多少次同样的操作，其结果总是非常一致的.效度是一个研究程序的性质和功能，也是对研究结果正确性的评价标准，一个有效度的研究程序，不仅能够明确地回答研究的问题和解释研究结果，而且能够保证研究结果在一定规模的领域中推广。把两者的作用结合起来看，信度和效度是一项教育科学研究活动和结果具有科学价值和意义的保证。研究的信度是研究的效度的一个必要的前提，没有信度,效度不可能单独存在，也就是说，一项研究不可能没有信度却具有效度。（二）人力资源招聘信度与效度的关系影响测评信度的因素有很多，主要是系统误差和随机误差.包括测评者的专业性和素质、被测评者本人的心理、侧评工具的稳定性、

环境的稳定性等都会影响测评的可信度。影响测评的效度因素也有很多，如测评工具、测评过程及测评者因素、被测评者状态、效标因素和信度因素等。在实际招聘与录用评估过程中要把握各相关方面，不仅要有专业的测评人员,同时也要在稳定的环境中为被测评者提供一个放松真实的氛围。信度和效度是人才侧评与选拔质量的重要指标.图形形式表现分析得出的信度和效度的三种关系,则会是以下这些样式，如图8—l .图8-2和图8—3所示。所以，：高信度是高效度的必要条件，但非充分条件.即信度高不一定其效度就高，但要想获得较高的测评效度,其信度必定要高, （三）用结构式问卷来测量家长“溺爱孩子”的行为中信度与效

心理学中的各种信度和效度

心理学中的各种信度和效度一、信度所谓信度，指的是测量结果的稳定性程度，其操作定义是，信度乃是一个测验X与它的任意一个“平行测验X＇的相关系数。无关因素、测验的长度、测验试题的区分度、被试团体的代表性都会影响信度。（一）重测信度 1、定义：利用同一量表，让同一被试群体在不同时间两次施测之后的相关值。这一信度值表示的是测验结果的稳定性，故也称之为稳定性系数。 2、形式：施测——经过适当时间——再施测 3、举例：假设有一份主观幸福感调查表，先后两次施测于10名学生，时间间隔为半年，结果如下表所示，求该测验的重测信度。 4、使用的前提条件（1）所测量的心理特质必须是稳定的。（2）遗忘和练习的效果基本上互相抵消。（3）在两次施测的间隔期内，被试在所要测查的心理特质方面没有更多的学习和训练。5、注意事项（1）有些测验不宜采用重测法估计信度，如测量推理和创造力的测验。那些不易受重复使用影响的测验才能用再测法估计信度。如感觉运动测验、人格测验。（2）两次测验间隔的时间要适当，并注意提高被试的积极性（3）测验手册中报告重测信度时应说明两次施测的间隔，以及在此期间内被试的有关经历（4）时间间隔的把握：适宜时间间隔依照测验目的、性质及被试特点而定，可以是几分钟甚至几年。例如对于年幼儿童的间隔要小；年长群体的间隔可大。但智力测验的间隔不能太短，成就测验的间隔不能太长。一般间隔时间不超过六个月，既不能让被试记住上一次测验的内容，又不能让其特质发生变化，或对所学知识产生遗忘。 6、重测信度的评价：（1）优点：能够提供有关测验结果是否随时间而变异的资料，可作为预测受测者将来行为表现的依据。（2）缺点：易受练习和记忆的影响，前后两次施测间隔的长短必须要适度。（二）复本信度

量表的信度效度检验

第六章量表的信度效度检验我们采用含有多个项目的量表来测量人们的意见、态度、看法等、这样得到的结果是否准确、可靠，是否有适用性？这就需要评价量表的信度和效度。从理论的观点来看，一个良好的测量工具（量表）应具有足够的效度和信度。一、信度检验信度（Reliability）即可靠性，是指采用同一方法对同一对象进行调查时，问卷调查结果的稳定性和一致性，即测量工具（问卷或量表）能否稳定地测量所测的事物或变量。信度指标多以相关系数表示，具体评价方法大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性\替换形式）和内在一致性系数（跨项目的一致性）。信度表示的方法主要有以下四种： 1、稳定性系数稳定性系数是采用同样的问卷，对同一组访问对象在尽可能相同的情况下，在不同时间内进行两次测量，用两次测量结果间的相关分析来评价量表信度的高低，连皮尔逊积差相关系数即是信度系数，也称为重测信度，或再测信度。两次测量，如果间隔时间过长，调查对象容易受环境和个人经历的影响而发生态度的转变，如果间隔时间过短，则受到上次调查记忆的影响。适当的间隔时间是既不能让调查对象记住上一次测验的内容，也不能让其被测的主观特征在两次测验之间没有发生较大的变化。适合的间隔时间要视调查对象和测量内容不同而不同，一般来说，年幼儿童，间隔时间要小，年长者，间隔时间可以延长。并且调查对象在两次测量期间没有发生于相关的重大事件。在最后提交调研报告时，要对间隔时间加以说明，报告间隔的时间。 2、等值系数（复本信度）用两个复本在最短时间内对同一组调查对象进行测量所得结果的一致性程度，复本信度系数等于两个复本测量所得分数的皮尔逊积差相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度，是等值系数。复本类似于考试中得A、B卷，如果一个人在A卷和B卷的得分相同，就说明考题具有信度；如果两者差异很大，则缺乏信度。复本信度的使用前提是测量所用的两个复本必须是等效的，两个复本要满足以下几个条件：两个复本测量的是同一种特征。两个复本具有相同的内容和形

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度一.试卷的难度（一）什么是难度难度是指试卷的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。客观题难度计算公式：P（难度指数）＝试卷答对人数/考生人数；主观题难度计算公式：P＝试卷平均得分/试卷满分。试卷难度计算公式：P＝为平均分，K 为试卷满分值。易、中、难的标准为：易：P≥0.7，中：0.4≤P≤0.69，难：P≤0.39；P值越大，难度越低，P值越小，难度越高。一般来说，难度值平均在0.5最佳，难度值过高或过低，都会降低测验的信度。（二）难度的计算（1）客观性试卷难度P（这时也称通过率）计算公式： P=k/N（k为答对该题的人数，N为参加测验的总人数）（2）主观性试卷难度P计算公式： P=X/M（X为试卷平均得分；M为试卷满分）（3）适用于主、客观试卷的计算公式： P=（P H +P L ）/2（P H 、P L 分别为试卷针对高分组和低分组考生的难度值）步骤为:①将考生的总分由高至低排列；②从最高分开始向下取全部试卷的27%作为高分组；③从最低分开始向上取全部试卷的27%作为低分组；④计算。（三）试卷难度的一般要求就高考来说，难度以适中为宜，单个试卷的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试卷定为难题。命题时难度一般要按一定比例分配，如3：6：1或3：5：2。二.试卷的区分度（一）什么是区分度区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的

如何保证人才测评的信度和效度

如何保证人才测评的信度和效度人才测评的主要工作是通过各种方法对被试者加以了解，从而为企业组织的人力资源管理决策提供参考和依据。经过长期的发展和适应不同情况的需要，形成了多种人才测评方法。而人才素质测评作为一项重要的人事技术，已经为越来越多的企业人力资源部门所接受，而如何保证能力素质测评中的信度和效度，也越来越受到关注。下面，就具体案例讲讲如何保证能力素质测评的信度和效度。一、案例背景 N公司是一家外资工程管理公司，成立于1998年，总部设在上海。随着WTO的开放和工程项目的增多，工程公司在国内如雨后春笋般成长起来，就此拉开了人才竞争的序幕。尤其是上海，工程项目管理人才的争夺十分激烈，N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力，保留现有中高层骨干人才，并让他们“适人适位”，N公司请来了北大纵横管理咨询公司，希望通过专业评估解决这个问题。二、建立人才能力素质模型并实施测评（一）中高层能力素质模型及测评方法的确定鉴于本次测评的对象是N公司的中高层管理人才和精英人物，测评的目的是为了保留人才、适人适岗，因此经过双方共同探讨，项目组在北大纵横经理人能力素质指标体系的基础上，结合N公司的实际情况，选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时，采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法，来确定各测评因素在管理素质和业务素质上的权重。通过向N公司老总介绍人才测评的方法及工具，大家一致选定评价中心技术进行本次人才测评，并主要运用三类测评工具：心理测验、深度面谈和情景模拟测验。（二）测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起，围绕测评因素，结合N公司实际情况进行测试题目的设计，并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试，人机对话；深度面谈设计了20个题目，涵盖了测评的各个维度；情景模拟采用案例分析和主题演讲两种测评工具，其中案例分析题库包含12题，主题演讲题库包含15题，被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中，测评小组成员由N公司内部专家、外部专家，以及北大纵横项目组组成。在测评实施前，对测评小组进行培训，使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问，被测评人根据提问回答问题，与测评小组进行双向沟通后，由测评小组根据评分标准对被测评人的表现现场打分，填入评分表；16PF人格要素测试要求被测试人进行40分钟的人机对话，由测评小组保存有效答卷。由于不同的测评者其衡量的尺度会存在差异，为保证各个被试者成绩排序的正确性，在测评时，向测评者提供“成绩比较表”，供其记载各个被试者的各项测试的评分，便于他们进行比较。 4、分析测评结果并统计成绩。采用肯德尔和谐系数法对每个被测评者在各个测评要素上的得分进行评分者信度分析，并结合各测评要素在管理素质和业务素质方面的权重，计算出被测评人在业务素质和管理素质上的得分。测评结束后，测评小组对被测人员进行了问卷调查，了解他们对测评效果的看法。三、测评为保证信度和效度所采取的措施（一）保证测评信度采取措施分析 1、16PF测试采取的是计算机标准化题目的方式，计算机答题、计算机处理结果。被测试人员全部独立进行测试，并在规定时间内完成了测试。 2、深度面谈使用了20个题目，围绕测评因素的各个维度对被测评者进行考察。面谈进行顺利，被测人员都能较积极配合回答问题，和主试人进行较好的双向交流。 3、情景模拟采用案例分析和主题演讲两种测评工具，被测人员从两个题库中各抽取1题，测评小组根据其表现进行现场评估。测评得到了被测人员的积极配合，都能就问题提出自己的见解。 4、为增加评分者信度，本次测评工作专门成立了测评小组，并在测评前熟悉了整个测评程序和操作；各类能力素质附有评分标准，各类试题附有评分参考，力图对被测试者的表现进行量化分析；测评中，向测评者提供“成绩比较表”，

SPSS与测验信度、效度、及项目分析

SPSS在测验信度、效度、及项目分析中的应用李鹏云南师范大学教育科学与管理学院在SPSS中，专门用来进行测验信度分析的模块为Scale下的Reliability Analysis；使用Data Reduction之下的Factor模块，可以利用因素分析的方法来进行测验的建构效度检验；至于项目分析则没有专门的模块可以之间进行计算分析，但是却可以利用Summarize下的Frequencies、Correlate下的Bivariate 和Compare Mean下的Independent-Samples T Test来计算几个常用的项目分析指标。一、信度分析 Reliability Analysis模块主要功能是检验测验的信度，主要用来检验分半信度、库李及a系数以及Hoyt信度系数值。至于重测信度和复本信度，只需将样本在二次（份）测验的分数的数据合并到同一数据文件之后，利用Correlate 之下的Bivariate求其相关系数，即为重测或复本信度；而评分者信度则就是使用的Spearman等级相关及Kendall和谐系数。表1 Reliability Analysis模块的Model选项的参数及对应中文术语关键字功能 Alpha Cronbach a系数 Split-half 分半信度，n是第二分量表的题数 Guttman Guttman最低下限真实信度法 Parallel 各题目变异数同质时的最大概率（maximum-likelihood）信度Strict parallel 各题目平均数与变异数均同质时的最大概率信度表2 Reliability Analysis模块的Statistics部分选项的参数及对应中文术语关键字功能 F test Hoyt信度系数 Friedman Chi Friedman等级变异数分析及Kendall和谐系数 Cochran Chi Cochran’s Q检验，适用于答案为二分（如是非题）的量表

信度和效度

信度和效度社会学系02研王丽云当我们建构和评估测量时，我们通常使用信度和效度这两个技术性指标。简单地说信度就是指测量数据和结论的可靠性程度，也就是说测量工具能否稳定地测量到它要测量的事项的程度。我们可以举例说明信度的问题：如果想知道某人的体重，我们可以叫两个人来估计，一个人的估计为150镑，另一个人的估计为300镑，那么我们就可以认为，叫别人来估计体重是非常不可信的方法。如果用磅秤，连续测量两次的结果都是相同的，因而我们可以说，在测量体重方面，用磅秤的方法要比叫人来估计更可信。我们可以用信度系数来表示信度的大小。我们知道在进行测量时，误差是难免的，这就使得真实值和测量值之间是不可能完全一致。我们可以这样来表示真实值和测量值之间的关系。 X=T+B+E T表示真实值，B表示偏差即系统误差，E表示测量误差即随机误差。由于系统误差很难分解，因而有些书中的分解式将系统误差包括在真实值之中，因而X可以简单地概括为X=T+E 对于测量误差E，一般假定他的期望值是0，却与真实值相独立，在此假定下，可以证明：E(x)=E(T)实得分数和真分数的总体均值相等。σ2x=σ2T+σ2E实得分的方差等于真分数的方差与误差方差

之和。信度一般规定是真分数的方差在总体方差中所占的比例，即：信度系数Rxx=σ2T/σ2X=1-(σ2E/σ2X) 信度系数越大，表明测量的可信程度越大。在实际应用中，信度主要有以下几种类型： (一) 重测信度这种方法通常是重复同样的测量来检验信度信度系数可以用相关系数来表示。假如我们第一次测量时的观测值是X，第二次的观测值是Y,那么重测信度就等于X与Y的相关系数。但重复测量时，我们要注意两次测量的时间间隔要恰当。如果时间间隔太久，可能会发生一些变故，影响到被调查者的态度，那么前后的测量就会有很大的差异。（二）复本信度复本是针对原本而言的，它使原本的复制品。对一项调查的问题，让被调查者接受问卷测量，并同时接受调查问卷的副本的调查，然后根据结果计算原本和复本的相关系数，就得到复本信度。（三）折半信度通常是在无副本且不准备重测的情况下，我们就用折半信度来计算信度系数。举例来说，如果有一份问卷，其中有十个问题涉及到女性歧视现象。利用折半信度时，可将是个问题随机分成两组，每组有五个问题，

信度与效度的关系

信度与效度的关系信度是效度的必要条件，但不是充分条件。一个测量工具要有效度必须有信度，没有信度就没有效度；但是有了信度不一定有效度。信度低，效度不可能高。因为如果测量的数据不准确，也并不能有效地说明所研究的对象。信度高，效度未必高。例如，如果我们准确地测量出某人的经济收入，也未必能够说明他的消费水平。效度低，信度很可能高。例如，即是一项研究未能说明社会流动的原因，但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。效度高，信度也必然高。信度：测量的数据准确性

效度：结果的符合程度 1请问为什么随机分派前后测就可以控制选择、被试缺失的干扰了。而随即分派后侧就不能对被试缺失加以控制了。它们的不同只是多了一次前侧，怎么会对被试产生影响呢？ 2消除无关变量的方法平衡法和恒定法，有何区别呢，我总是有点弄混，能各举个例子吗？ 1、在一个延续时间较长的研究中，被试的更换、淘汰或者中途退出可能会对研究结果产生深刻的影响。所以如果只有后测，两组或多组相等的假设就无法保证，很难控制被试的情况。而前后测可以解决这个问题。 2、恒定法。恒定法就是采取一定措施，使某些无关变量在整个研究过程中保持恒定不变。它也是控制无关变量的基本方法。平衡法。平衡法就是对某些不能被消除，又不能或不便被恒定的无关变量，通过采取某些综合平衡的措施或方式，使其影响通过平衡而抵消，达到控制它们的方法。平衡法主要采用对比组方法和循环法。

先体会一下两者定义。简单的说：恒定法：前后不变，比如上课时间、学生作业平衡法：分组实验中，各组作用相同，比如教师水平，学生数目，知识基础。在实验设计主要格式中，带有随机分配的优点是可以控制选择与成熟的交互作用，是什么意思啊？这里的成熟是指的被试身心的成熟程度吗？支持(0) 中立(0) 反对(0) 单帖管理举报帖子使用道具 | 引用| 回复 zdjy 小大2楼个性首页| 博客| 信息| 搜索| 邮箱| 主页| UC

浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位，是从属于应用语言学这一学科的。在过去语言测试在应用语言学中处于边缘地位，而在长达三十多年的发展中，语言测试现已发展成为一个相对独立的学科，已经在学术上占有了一席之地。通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导，也可以衡量教学任务和教学大纲的执行情况，但是这些都是基于科学的语言测试能够得到良好的反馈情况，反之，如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率，所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。一套设计比较科学的测试应该是具有信度，效度，难度和区分度四点特征，信度与效度是难度和区分度的基础，同时也是语言测试的两大根本要求，只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。信度指的是测量的一致性，一个实验或测试的信度指它在重复测量时产生同样结果的程度，也就是说测量的稳定性是否一致。影响信度的因素很多，其不仅存在于考试过程中的各个环节，也存在于阅卷的过程中，如试卷中的试题长度偏长，项目种类多，那么测试的信度就会提高，反之则会降低，考试分数集中于某一点或某一个区域时信度也会有所降低；考试期间考生时间充裕那么估算能力考试的信度也相对较高等等，这些都是存在于考试过程中各个环节的部分举例，在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一，如在评阅主观性的题目时（作文，口语等），阅卷者在评分时就具有很大的主观色彩，而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时，不容易取得一致，也会使得测试的信度不稳定。效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断，也就是考试是否检测到了它所要检测的东西，是否达到了它的预定目标。效度共分为三种不同的类型，其不同类型的效度测试有各自不同的测试着重面，内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的，如果测试的样本能够充分代表总体，那么测试在内容上就是有效的，反之效度则不高；预测效度和共时效度都是属于与标准有关的效度，预测效度是标志测试者将来能力的标准，如通过摸底考试分班，共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致，也就是说验证的是我们所做的假设是否有效。信度和效度是语言测试中的两个最重要的方面，两者之间既相互依存又相互对立，可以说二者是存在于对立统一的一个整体中。

信度和效度检验

2.3.3 信度和效度检验（1）信度检验采用Cronbach α系数、个别项目信度、潜在变量的组合信度（Composite Reliability, CR）进行信度检验，其中运用SPSS15.0中的“Analyze-Scale-Reliability Analysis”命令，并选择“Statistics”中的“Scale if item deleted”，来计算Cronbach α系数，利用LISREL8.70进行验证性因子分析来计算个别项目信度和组合信度，验证性因子分析的运算结果（详见附录3）经整理如表2.6所示：从表2.6中关于Cronbach α系数的三栏中可以看出：C1、B4对应的“校正得项总计相关性”（Corrected Item-Total Correlation）偏低（相对于该部分量表中的其他指标对应值而言），且删除C1、B4有利于分别提升该部分量表的总体信度，故应将C1、B4两个指标删除。同时“个别项目信度”一栏中C1、C2、B3、B4、P1这5个指标的因子负荷均小于0.50，根据社会科学研究特点，这5个指标也应删除，且删除后有利于提高整个因素的一致性；而另外35个指标的因子负荷均大于0.5，满足信度要求。除此之外，诚信环境、企业素质、投标诚信、履约诚信、社会诚信各个量表以及整体的Cronbach α系数分别为0.750、0.845、0.817、0.862、0.830、0.939，属于很可信的区间范围；且对应的组合信度分别为0.75、0.85、0.83、0.86、0.83、0.96，均大于0.5，满足信度要求。（2）效度检验在信度检验删除5个指标基础上，首先，对有效样本数据进行KMO抽样适当性检验和Bartlett球形检验，检验结果显示KMO值为0.5，Bartlett球形检验的x2值为250.278（自由度为105），达到显著水平（p=0.000<0.001）。一般认为，当KMO值大于0.5时，即可进行因子分析，而本次KMO的检验值为0.5，说明本调查问卷的样本数据基本适合进行因子分析。其次，采用主成分分析法，进行V arimax方差正交旋转，最终提取特征值大于1的因子4个，7个共同因子累计解释的变异量为60.74%，且正交旋转后得到的因子负荷矩阵如表2.7所示：

试卷分析：信度、效度、难度和区分度

附件6、难度、区分度、信度和效度的一般说明一、难度难度是指试题的难易程度，它是衡量试题质量的一个重要指标参数，它和区分度共同影响并决定试卷的鉴别性。一般认为，试题的难度指数在－之间比较合适，整份试卷的平均难度最好在左右，高于和低于的试题不能太多。 1、难度的两种定义（1）P=1－x/w 其中：x为某题得分的平均分数，w为该题的满分。这种定义法，难度值小时表明试题容易，值大时表明试题难，最小值为0，最大值为1。（2）P=x/w 这种定义法，难度值小时表明试题难，值大时表明试题容易，最小值为0，最大值为1。 2、难度的计算（1）主观性试题的难度 A、基本公式法：P=1－x/w B、极端分组法 P=1－(XH+XL)/2W 其中：XH为高分组的平均得分（前27%），XL为低分组的平均得

分（后27%）。（2）客观性试题的难度 A、基本公式法：P=1－R/N 其中：R为答对人数，N为全体人数。 B 极端分组法： P=1－（PH+PL）/2 其中：PH=RH/n叫高分组通过率，RH为高分组答对人数，n为总人数的前27%。PL=RL/n 叫低分组通过率，RL为低分组答对人数。二、区分度区分度是区分应试者能力水平高低的指标。试题区分度高，可以拉开不同水平应试者分数的距离，使高水平者得高分，低水平者得低分。而区分度低则反映不出不同应试者的水平差异。试题的区分度与试题的难度直接相关。通常来说，中等难度的试题区分度较大。另外，试题的区分度也与应试者的水平密切相关，试题难度只有等于或略低于应试者的实际能力，其区分性能才能充分显现出来。 1、区分度指标的评价 ≤D≤+，区分度指数越高，试题的区分度就越强。一般认为，区分度指数高于，试题便可以被接受。 2、区分度的计算方法（1）基本公式法：D＝（H－L）/N 其中：D代表区分度指数，H代表高分组答对题的人数，L代表

调查表的的信度与效度评价方法

调查表的的信度与效度评价方法问卷调查法是教育研究中广泛采用的一种调查方法，根据调查目的设计的调查问卷是问卷调查法获取信息的工具，其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性，在形成正式问卷之前，应当对问卷进行试测，并对试测结果进行信度和效度分析，根据分析结果筛选问卷题项，调整问卷结构，从而提高问卷的信度和效度。一、信度分析信度（Reliability）即可靠性，是指采用同一方法对同一对象进行调查时，问卷调查结果的稳定性和一致性，即测量工具（问卷或量表）能否稳定地测量所测的事物或变量。信度指标多以相关系数表示，具体评价方法大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和内在一致性系数（跨项目的一致性）。信度分析的方法主要有以下四种： 1、重测信度法同样的问卷，对同一组访问对象在尽可能相同的情况下，在不同时间进行两次测量。两次测量相距一般在两到四周之内。用两次测量结果间的相关分析或差异的显著性检验方法，评价量表信度的高低。 2、折半法。折半法是将上述两份问卷合成一份问卷（通常要求

这两份问卷的问题数目相等），每一份作为一部分，然后考察这两个部分的测量结果之间的相关性。 3、折半信度法折半信度法是将调查项目分为两半，计算两半得分的相关系数，进而估计整个量表的信度。折半信度属于内在一致性系数，测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷（如年龄与性别无法相比），常用于态度、意见式问卷的信度分析。在问卷调查中，态度测量最常见的形式是5级李克特（Likert）量表。进行折半信度分析时，如果量表中含有反意题项，应先将反意题项的得分作逆向处理，以保证各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相关系数（rhh，即半个量表的信度系数），最后用斯皮尔曼-布朗（Spearman-Brown）公式：求出整个量表的信度系数（ru）。 4、α信度系数法 Cronbach α信度系数是目前最常用的信度系数，其公式为：其中，K为量表中题项的总数，为第i题得分的题内方差，为全部题项总得分的方差。从公式中可以看出，α系数评价的是量表中各题项得分间的一致性，属于内在一致性系数。这种方法适用于态度、意见式问卷（量表）的信度分析。二、效度分析效度（Validity）即有效性，它是指测量工具或手段能够准确测出所需测量的事物的程度。效度分为三种类型：内容效度、准则效度

什么是测试的信度和效度,如何保证测试的信度和效度

什么是测试的信度和效度，如何保证测试的信度和效度棋盘中小张倩倩在教育研究中，信度与效度是很常见的两个概念。但每次看到或听到这两个名词，我的脑袋老反应不过来，看来基础就是不扎实。我在这里就谈谈我浅显的认识。一、信度所谓的信度，是指使用相同指标或测量工具重复测量相同事物时，得到相同结果的可能性。如果说某个指标或测量工具的信度高，那它提供的测量结果就不会因为指标、测量工具或测量设计本身的特性而发生变化；反之亦然。根据测量过程中不同的误差来源，可分为再测信度、复本信度和折半信度。再测信度，是用同一测量工具在不同的时间对同一群受试者前后测量两次，然后计算两次测量分数的相关系数，相关系数越大说明两次测量的一致性越高。相隔的时间不应该太长。复本信度，是用两个完全等值的（平行的）复本对同一群受试者进行测试，计算两种复本测量分数的相关系数，相关系数越大说明两个复本构成带来的变异越小。如考试中使用的Ａ、Ｂ卷折半信度，只用一个测量工具对同一群受试者实施一次测量，但将奇数题和偶数题分开计分，再计算奇数试题和偶数试题分数之间的相关系数。二、效度所谓的效度，是指测量工具能够测出其所要测量的特征的正确性程

度。效度越高，即表示测量结果越能显示其所要测量的特征。如果说根据某项特征能够区分人、物或事件，那么说某个测量该特征的测量工具是有效的，就是指它的测量结果能把具有不同特征的人、物或事件进行有效的区分。常用的有变面效度、内容效度和效标效度。表面效度是指测量效果和人们头脑中的印象或学术界形成的共识之间的吻和程度，吻合程度高，表面效度就高。内容效度是指测量在多大程度上涵盖了被测量概念的全部内涵，测量工具代表概念定义的内容越多，内容效度就越高。效标效度是指测量结果与一些标准之间的一致性程度，这些标准能够精确表示被测概念。三、信度与效度的关系信度是效度的必要条件，但不是充分条件。一个测量工具要有效度必须有信度，没有信度就没有效度；但是有了信度不一定有效度。信度低，效度不可能高。因为如果测量的数据不准确，也并不能有效地说明所研究的对象。信度高，效度未必高。例如，如果我们准确地测量出某人的经济收入，也未必能够说明他的消费水平。效度低，信度很可能高。例如，即是一项研究未能说明社会流动的原因，但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。效度高，信度也必然高。

如何进行信度检验、效度检验：概念介绍 & 软件操作

如何进行信度检验、效度检验：概念介绍&软件操作一、构念的维度：可以用验证性因子分析（CFA）检验因子（维度）与测项之间的从属关系是否正确。检验指标是各个拟合优度指数和路径系数。二、量表的信度：信度包括重测信度、复本信度和内部一致性信度。在一次测量中，只能检验内部一致性信度，通常是用α系数。SPSS可以进行信度检验，一般要求α>0.7。每个测项的item-total correlation（项对总项相关系数）>0.4。同时还要看每个测项“α if item deleted”的值，它表示的是当删除该测项时，量表的α系数的值。如果α if item deleted>原来的α，则应该删除该测项。三、构念的效度 1. 构念的收敛效度（convergent validity）收敛效度指的是量表与同一构念的其他指标确实相互关联的程度。收敛效度可通过CFA检验，观察测量项目在构念上的负载（loading），如果标准化估计值（standardizes estimate）大于0.5，且t值大于1.96，平均提取方差（Average variance extracted，AVE）大于0.6，组合信度（construct reliability，CR）大于0.7，通常认为收敛效度较高。 ●平均提取方差（AVE）：表示的是潜变量的变异量中有多大比例能用指标变异量来解释（即指标解释潜变量的程度）； ●组合信度（CR）：模型内在质量的判别准则之一，反映了每个潜变量中所有测项是否一致性地解释该潜变量。 2. 构念的判别效度（discriminant validity）判别效度指的是一个测量值与其他应该有所不同的构念之间不相互关联的程度。判别效度可通过CFA检验，如果各个因子的AVE的平方根比该因子与其他因子之间的相关系数都大，则判别效度较高（或者说AVE的平方根大于该构念与任何其他构念的相关系数，则判别效度较高）。另外一种检验判别效度的方法是卡方检验。在一个限制模型中(相关系数限制为1)，配对构念之间的相关系数如果允许自由估计，卡方值显著地减少了，则说明两个构念之间的判别效度较高。卡方分布临界点为 3.84(P<0.05)或6.63(P<0.01)。 3. 构念的法则效度（nomological validity）法则效度指的是量表以在理论上可以预测的方式，与不同但相关的构念的测量值之间相互关联的程度。 ◆收敛效度、判别效度、法则效度并称为建构效度（construct validity）；另外两种效度是内容效度（content validity）和标准效度（criterion validity）。内容效度是对量表的内容表现特定测量项目任务的优劣程度的一个主观而系统的评价。标准效度指一个量表是否像预期的那样反映与选作标准的其他变

浅论语言测试的效度

浅论语言测试的效度 [摘要] 信度与效度是语言测试两大基本要求,信度与效度的关系问题是语言测试的根本问题。考试的效度指的是考试在多大程度上测出预期要测量的东西,信度指的是考试结果的可靠性。本文重点介绍了效度的含义,对效度的测量方法以及效度与信度的关系等问题做了详细的阐述。 [关键词] 语言测试效度信度 [Abstract] As a branch of applied linguistics, language testing has developed into a relative independent subject. Validity and reliability is the most important two criteria of language testing and the relationship of both is the ultimate issue. This article makes comments on the two criteria in detail. Validity is concerned with if a test measures accurately what it is intended to measure. Reliability means the quality of being reliable on consistency. This article puts emhasis on validity and also explains the testing methods of validity as well as the relation between validity and reliability. [Key words] Language testing validity reliability 一、引言语言测试学作为应用语言学的一个分支,现已发展成一个相对独立的学科。信度与效度原是计量学中的两个重要概念,30年代被引入语言测试领域,60年代以Lado等人为代表的结构主义测试学家对这两个概念进行了系统的阐述和论证,标志着语言测试已形成科学的体系,成为一门独立的学科。可以说语言测试理论和实践上的发展和纷争都是以信度与效度为主线进行的,信度与效度是语言测试的永恒主题。二、效度( Validity) 效度是一个相对概念。效度的有效性总是相对于一定的目的、功能和范围而言。效度具有相对性:任何测验的效度是对一定的目标来说的,或者说测验只有用于与测验目标一致的目的和场合才会有效。同时,效度具有连续性,测验效度通常用相关系数表示,它只有程度上的不同,而没有“全有”或“全无”的区别。根据美国心理学会1974年出版的《教育与心理测试标准》一书,考试的效度可分成三大类:内容效度(Content Validity)、构想效度(Construct Validity)和效标关联效度(Criterion-related Validity)。 (一)内容效度(Content Validity) 内容效度指的是测验题目对有关内容或行为取样的适用性,从而确定测验是

评估测评的信度与效度

评估测评的信度与效度案例一、案例背景 N公司是一家外资工程管理公司，成立于1998年，总部设在上海。随着WTO 的开放和工程项目的增多，工程公司在国内如雨后春笋般成长起来，就此拉开了人才竞争的序幕。尤其是上海，工程项目管理人才的争夺十分激烈，N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力，保留现有中高层骨干人才，并让他们“适人适位”， N公司请来了北大纵横管理咨询公司，希望通过专业评估解决这个问题。二、建立人才能力素质模型并实施测评（一）中高层能力素质模型及测评方法的确定鉴于本次测评的对象是N公司的中高层管理人才和精英人物，测评的目的是为了保留人才、适人适岗，因此经过双方共同探讨，项目组在北大纵横经理人能力素质指标体系的基础上，结合N公司的实际情况，选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时，采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法，来确定各测评因素在管理素质和业务素质上的权重。通过向N公司老总介绍人才测评的方法及工具，大家一致选定评价中心技术进行本次人才测评，并主要运用三类测评工具：心理测验、深度面谈和情景模拟测验。（二）测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起，围绕测评因素，结合N公司实际情况进行测试题目的设计，并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试，人机对话；深度面谈设计了20个题目，涵盖了测评的各个维度；情景模拟采用案例分析和主题演讲两种测评工具，其中案例分析题库包含12题，主题演讲题库包含15题，被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中，测评小组成员由N公司内部专家、外部专家，以及北大纵横项目组组成。在测评实施前，对测评小组进行培训，使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问，被测评人根据提问回答问题，与测评小组进行双向沟通后，由测