当前位置:文档之家› 测量的信度

测量的信度

测量的信度
测量的信度

问卷的信度与效度

调查问卷的信度效度分析方法 问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。信度和效度分析的方法包括逻辑分析和统计分析,本文主要讨论后者。 一、信度分析 信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种: 1、重测信度法 这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。 2、复本信度法 复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。 3、折半信度法 折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的

信度与效度的关系

研究信度与效度的关系 一、信度与效度的定义 信度即可靠性,它指的是采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度,或者说,信度是指测量结果的一致性或稳定性。 效度即准确度,它是指测量工具或测量手段能够准确测出所要测量的变量的程度,或者说能够准确、真实地度量事物属性的程度.二、信度与效度的关系 (一)教育科学研究中信度与效度的关系 信度是研究结果所显示的一致性、稳定性程度,也是对研究结果一致性和稳定性的评价标准。一个具有信度的研究程序,不论其过程是由谁操作,或进行多少次同样的操作,其结果总是非常一致的.效度是一个研究程序的性质和功能,也是对研究结果正确性的评价标准,一个有效度的研究程序,不仅能够明确地回答研究的问题和解释研究结果,而且能够保证研究结果在一定规模的领域中推广。把两者的作用结合起来看,信度和效度是一项教育科学研究活动和结果具有科学价值和意义的保证。研究的信度是研究的效度的一个必要的前提,没有信度,效度不可能单独存在,也就是说,一项研究不可能没有信度却具有效度。 (二)人力资源招聘信度与效度的关系 影响测评信度的因素有很多,主要是系统误差和随机误差.包括测评者的专业性和素质、被测评者本人的心理、侧评工具的稳定性、

环境的稳定性等都会影响测评的可信度。影响测评的效度因素也有很多,如测评工具、测评过程及测评者因素、被测评者状态、效标因素和信度因素等。在实际招聘与录用评估过程中要把握各相关方面,不仅要有专业的测评人员,同时也要在稳定的环境中为被测评者提供一个放松真实的氛围。信度和效度是人才侧评与选拔质量的重要指标.图形形式表现分析得出的信度和效度的三种关系,则会是以下这些样式,如图8—l .图8-2和图8—3所示。所以,:高信度是高效度的必要条件,但非充分条件.即信度高不一定其效度就高,但要想获得较高的测评效度,其信度必定要高, (三)用结构式问卷来测量家长“溺爱孩子”的行为中信度与效

如何保证人才测评的信度和效度

如何保证人才测评的信度和效度 人才测评的主要工作是通过各种方法对被试者加以了解,从而为企业组织的人力资源管理决策提供参考和依据。经过长期的发展和适应不同情况的需要,形成了多种人才测评方法。而人才素质测评作为一项重要的人事技术,已经为越来越多的企业人力资源部门所接受,而如何保证能力素质测评中的信度和效度,也越来越受到关注。下面,就具体案例讲讲如何保证能力素质测评的信度和效度。 一、案例背景 N公司是一家外资工程管理公司,成立于1998年,总部设在上海。随着WTO的开放和工程项目的增多,工程公司在国内如雨后春笋般成长起来,就此拉开了人才竞争的序幕。尤其是上海,工程项目管理人才的争夺十分激烈,N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力,保留现有中高层骨干人才,并让他们“适人适位”,N公司请来了北大纵横管理咨询公司,希望通过专业评估解决这个问题。 二、建立人才能力素质模型并实施测评 (一)中高层能力素质模型及测评方法的确定 鉴于本次测评的对象是N公司的中高层管理人才和精英人物,测评的目的是为了保留人才、适人适岗,因此经过双方共同探讨,项目组在北大纵横经理人能力素质指标体系的基础上,结合N公司的实际情况,选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时,采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法,来确定各测评因素在管理素质和业务素质上的权重。 通过向N公司老总介绍人才测评的方法及工具,大家一致选定评价中心技术进行本次人才测评,并主要运用三类测评工具:心理测验、深度面谈和情景模拟测验。 (二)测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起,围绕测评因素,结合N公司实际情况进行测试题目的设计,并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试,人机对话;深度面谈设计了20个题目,涵盖了测评的各个维度;情景模拟采用案例分析和主题演讲两种测评工具,其中案例分析题库包含12题,主题演讲题库包含15题,被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中,测评小组成员由N公司内部专家、外部专家,以及北大纵横项目组组成。在测评实施前,对测评小组进行培训,使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问,被测评人根据提问回答问题,与测评小组进行双向沟通后,由测评小组根据评分标准对被测评人的表现现场打分,填入评分表;16PF人格要素测试要求被测试人进行40分钟的人机对话,由测评小组保存有效答卷。 由于不同的测评者其衡量的尺度会存在差异,为保证各个被试者成绩排序的正确性,在测评时,向测评者提供“成绩比较表”,供其记载各个被试者的各项测试的评分,便于他们进行比较。 4、分析测评结果并统计成绩。采用肯德尔和谐系数法对每个被测评者在各个测评要素上的得分进行评分者信度分析,并结合各测评要素在管理素质和业务素质方面的权重,计算出被测评人在业务素质和管理素质上的得分。测评结束后,测评小组对被测人员进行了问卷调查,了解他们对测评效果的看法。 三、测评为保证信度和效度所采取的措施 (一)保证测评信度采取措施分析 1、16PF测试采取的是计算机标准化题目的方式,计算机答题、计算机处理结果。被测试人员全部独立进行测试,并在规定时间内完成了测试。 2、深度面谈使用了20个题目,围绕测评因素的各个维度对被测评者进行考察。面谈进行顺利,被测人员都能较积极配合回答问题,和主试人进行较好的双向交流。 3、情景模拟采用案例分析和主题演讲两种测评工具,被测人员从两个题库中各抽取1题,测评小组根据其表现进行现场评估。测评得到了被测人员的积极配合,都能就问题提出自己的见解。 4、为增加评分者信度,本次测评工作专门成立了测评小组,并在测评前熟悉了整个测评程序和操作;各类能力素质附有评分标准,各类试题附有评分参考,力图对被测试者的表现进行量化分析;测评中,向测评者提供“成绩比较表”,

SPSS与测验信度、效度、及项目分析

SPSS在测验信度、效度、及项目分析中的应用 李鹏 云南师范大学教育科学与管理学院 在SPSS中,专门用来进行测验信度分析的模块为Scale下的Reliability Analysis;使用Data Reduction之下的Factor模块,可以利用因素分析的方法来进行测验的建构效度检验;至于项目分析则没有专门的模块可以之间进行计算分析,但是却可以利用Summarize下的Frequencies、Correlate下的Bivariate 和Compare Mean下的Independent-Samples T Test来计算几个常用的项目分析指标。 一、信度分析 Reliability Analysis模块主要功能是检验测验的信度,主要用来检验分半信度、库李及a系数以及Hoyt信度系数值。至于重测信度和复本信度,只需将样本在二次(份)测验的分数的数据合并到同一数据文件之后,利用Correlate 之下的Bivariate求其相关系数,即为重测或复本信度;而评分者信度则就是使用的Spearman等级相关及Kendall和谐系数。 表1 Reliability Analysis模块的Model选项的参数及对应中文术语 关键字功能 Alpha Cronbach a系数 Split-half 分半信度,n是第二分量表的题数 Guttman Guttman最低下限真实信度法 Parallel 各题目变异数同质时的最大概率(maximum-likelihood)信度Strict parallel 各题目平均数与变异数均同质时的最大概率信度 表2 Reliability Analysis模块的Statistics部分选项的参数及对应中文术语 关键字功能 F test Hoyt信度系数 Friedman Chi Friedman等级变异数分析及Kendall和谐系数 Cochran Chi Cochran’s Q检验,适用于答案为二分(如是非题)的量表

信效度计算的题目

信度计算题 1. 方法一:运用卢伦公式计算 方法二:运用弗朗那根公式计算 方法三:分别计算两部分的方差,发现方差大小近似相等,故可以先计算两者的皮尔逊积差相关系数,然后用斯皮尔曼—布朗校正公式校正。 主要问题:大部分同学都能正确运用公式,计算正确,但是有部分同学在运用皮尔逊积差相关公式后,忘记校正。还有部分同学在使用积差相关公式之前没有计算两者的方差。 2. 直接运用公式α=K(1-)/(K-1)计算克伦巴赫α系数即可. 该题除部分同学计算错误外,大部分同学都能够正确运用斯皮尔曼—布朗公式,并得到结果:0.84. 3. 先计算测验的标准误:SE= Sx。从而得出被试分数误差分布的标 准差。 根据题目可知取Z=1.96,故其分布范围为:X-SE·Z T X+SE·Z。 该题除部分同学计算错误外,大部分同学都能够正确运用公式,并得到结果:[109,120] 4. 先计算差异的标准误:SE=S 方法一:(116-108)/SE=1.33<1.96<2.58 方法二:116-108=8<1.96*SE<2.58*SE 因此差异不显著。 这道题错的人很多,一种错误在于标准误的计算,由于本题中是两个测验结果的比较,需要计算分部整体的标准误,而许多同学错用了第三题的标准误公式,分别计算两个测验的标准误。另一种错误是部分同学没有理解题意,分别计算了两个测验的分布范围,然后看实际得分是否在这个分布范围内。 5. 直接运用公式r=1-(1-r1)/计算。

该题绝大部分同学都能够正确运用上述公式,并得到结果:0.40 效度 1.直接运用公式r2=Kr1/(1-r1+Kr1)计算。结果为6.4、13.8。 这道题部分同学取了整数,因为公式中的K是整数,但是取整数的时候需要注意,不能四舍五入,而是只要有有小数部分就要进1。该题不取整数亦可。 2.根据公式b=r·/可求得回归方程的系数b、a。根据公式= 可得分布的标准误。根据公式Y-Z·SE y即可求得分布范围。 该题出现错误的同学也较多,一部分同学在最后没有将员工的测验成绩通过回归公式换算成工作表现成绩。还有同学在计算标准误时,公式运用错误。 3.大家都能正确运用公式P=(正确接受+正确拒绝)/总人数 最后结果为0.76

测量工具的信度和效度分析

测量工具的信度和效度分析 常用的测量工具主要有调查问卷和量表,它们都是对个人行为和态度的一种测量技术,是测量答卷者对问卷题目主观认识的个体差异的工具,也是研究者用来搜集资料的一种技术。一般情况下,编制一份量表必须做效度和信度评价,而调查问卷则不是必须的。对于有些调查问卷,其包含了类似量表性质对答卷者客观指标测量的题目,对这部分题目需要进行效度和信度的评价。 第一节信度分析概述 一、信度的概念 信度是指测量工具的可靠性和稳定性的程度,或是指使用某测量工具所获得结果的一致程度或准确程度。 测量工具的信度包含2层含义:一是相同的个体在不同时间,以相同的测量工具测验或以复本测验,或在不同的情景下测验,是否能得到相同的结果,即测量工具的测验结果是否随时间和地点等因素而变化;二是能否减少随机误差对测量工具测验结果的影响,从而反映测量工具所要测量的真实情况,即测量工具是否具有稳定性、可靠性和可预测性。 信度的三个特征是:稳定性、内部一致性和等同性。一个好的测量工具必须是稳定可靠,且多次测验结果应前后一致。 信度本质上是一个统计学概念,是用于估计测量误差大小的尺度,主要说明测量工具测验结果中测量误差所占的比例。实际应用中主要通过构建平行测验来计算测量工具的信度。 二、信度的评价方法 信度研究的是测量工具测验结果的可靠性与稳定性,这种可靠性与稳定性可以从4个不同的角度来评价:①在相同条件下所得测量工具测验结果一致程度; ②不同研究者用同一种测量工具同时测验所得结果的一致程度;③同一研究者用同一种测量工具在不同时间内测验所得结果的一致程度;④同一答卷者在不同时间内对同一种测量工具测验的稳定程度。 根据研究角度不同,信度分为外在信度(external reliability)与内在信度(internal reliability)两大类。外在信度是指不同时间测量时测量工具测量的一致性程度。内在信度是指测量工具是否测量的是单一概念,同时也表明测

测量工具地信度和效度分析报告报告材料

测量工具的信度和效度分析

测量工具的信度和效度分析 常用的测量工具主要有调查问卷和量表,它们都是对个人行为和态度的一种测量技术,是测量答卷者对问卷题目主观认识的个体差异的工具,也是研究者用来搜集资料的一种技术。一般情况下,编制一份量表必须做效度和信度评价,而调查问卷则不是必须的。对于有些调查问卷,其包含了类似量表性质对答卷者客观指标测量的题目,对这部分题目需要进行效度和信度的评价。

第一节信度分析概述 一、信度的概念 信度是指测量工具的可靠性和稳定性的程度,或是指使用某测量工具所获得结果的一致程度或准确程度。 测量工具的信度包含2层含义:一是相同的个体在不同时间,以相同的测量工具测验或以复本测验,或在不同的情景下测验,是否能得到相同的结果,即测量工具的测验结果是否随时间和地点等因素而变化;二是能否减少随机误差对测量工具测验结果的影响,从而反映测量工具所要测量的真实情况,即测量工具是否具有稳定性、可靠性和可预测性。 信度的三个特征是:稳定性、内部一致性和等同性。一个好的测量工具必须是稳定可靠,且多次测验结果应前后一致。 信度本质上是一个统计学概念,是用于估计测量误差大小的尺度,主要说明测量工具测验结果中测量误差所占的比例。实际应用中主要通过构建平行测验来计算测量工具的信度。 二、信度的评价方法 信度研究的是测量工具测验结果的可靠性与稳定性,这种可靠性与稳定性可以从4个不同的角度来评价:①在相同条件下所得测量工具测验结果一致程度;②不同研究者用同一种测量工具同时测验所得结果的一致程度;③同一研究者用同一种测量工具在不同时间内测验所得结果的一致程度;④同一答卷者在不同时间内对同一种测量工具测验的稳定程度。 根据研究角度不同,信度分为外在信度(external reliability )与内在信度(internal reliability )两大类。外在信度是指不同时间测量时测量工具测量的

试题的难度、区分度、信度和效度

试卷的难度、区分度、信度和效度 一.试卷的难度 (一)什么是难度 难度是指试卷的难易程度,是评价考试的一个非常重要的一个指标。一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。 客观题难度计算公式:P(难度指数)=试卷答对人数/考生人数;主观题难度计算公式:P=试卷平均得分/试卷满分。试卷难度计算公式:P=为平均分,K 为试卷满分值。易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。 (二)难度的计算 (1)客观性试卷难度P(这时也称通过率)计算公式: P=k/N(k为答对该题的人数,N为参加测验的总人数) (2)主观性试卷难度P计算公式: P=X/M(X为试卷平均得分;M为试卷满分) (3)适用于主、客观试卷的计算公式: P=(P H +P L )/2(P H 、P L 分别为试卷针对高分组和低分组考生的难度值) 步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④计算。 (三)试卷难度的一般要求 就高考来说,难度以适中为宜,单个试卷的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。一般将难度值大于和等于0.7的试卷定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试卷定为难题。命题时难度一般要按一定比例分配,如3:6:1或3:5:2。 二.试卷的区分度 (一)什么是区分度 区分度是指考试卷目对考生心理特征的区分能力。区分度高的试卷能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。区分度高的

问卷的信度与效度

?调查问卷的信度效度分析方法 问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。信度和效度分析的方法包括逻辑分析和统计分析,本文主要讨论后者。 一、信度分析 信度(Reliability)即可靠性,它是指采用同样的方法对同一对象重复测量时所得结果的一致性程度。信度指标多以相关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种: 1、重测信度法 这一方法是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间也不会有十分明显的变化。如果没有突发事件导致被调查者的态度、意见突变,这种方法也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。 2、复本信度法

复本信度法是让同一组被调查者一次填答两份问卷复本,计算两个复本的相关系数。复本信度属于等值系数。复本信度法要求两个复本除表述方式不同外,在容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到这种要求,因此采用这种方法者较少。 3、折半信度法 折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级克特(Likert)量表。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(r hh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式: 求出整个量表的信度系数(r )。 u 4、α信度系数法 Cronbach α信度系数是目前最常用的信度系数,其公式为: 其中,K为量表中题项的总数,为第i题得分的题方差,为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。 二、效度分析

信度的计算

1.问卷设计质量的信度检验 所谓问卷设计质量的信度检验,指的是对问卷测量结果准确性的分析,即对设计的问卷在多次重复使用下得到的数据结果的可靠性的检验。在实际应用中,信度检验多以相关系数表示,常用的方法有:重测信度,复本信度,折半信度,克朗巴哈 信度,评分者信度等。国内外已经有很多关于这些信度分析方法介绍的文献,在这里,笔者不再一一详述,仅列出相关公式作为参考。 (1)重测信度,也叫稳定系数,对同一组调查对象采用同一调查问卷进行先后两次调查,采用检验公式 ,其中 为两次调查结果的协方差, 为第一次调查结果 的协方差, 为第二次调查结果的协方差。系数值越大说明信度越高。 (2)复本信度,也叫等值系数,对同一组调查对象进行两种相等或相近的调查,要求两份问卷的题数、形式、内容及难度和鉴别度等方面都要尽可能的一致。检验公式同稳定系数公式,系数越大,说明两份问卷的信度越高,具体调查时使用哪一份都可以。 (3)折半信度,也叫内在一致性系数,将调查的项目按前后分成两等份或按奇偶题号分成两部分,通过计算这两部分调查结果的相关系数来衡量信度。当假定两部分调查结果得分的方差相等时,检验用Spearman-Brown 公式来表示: , 其中 表示折半信 度系数;当假定方差不相等时,采用Flanagan 公式: ,其中 、 分别 表示两部分调查结果的方差, 表示整个问卷调查结果的方差。如果折半信度很高,则说明这份问卷的各项题之间难度相当,调查结果信度高。 (4)Cronbach’s α系数是Cronbach 于1951年创立的,是指测验内部的项目在多大程度上考察了同一内容,评价的是量表中各题项得分间的一致性。同构型信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。α信度系数法是目前最常用的内部信度系数。 实际上,α系数是所有可能的分半信度的平均值,α系数是估计信度的最低限度,α系数高时,信度就高,α系数低时,信度不一定低。低信度:α<0.35, 中信度: 0.35<α<0.70,高信度: 0.70<α。一般来说,问卷的α系数在0.8以上该问卷的信度较好,达0.85以上,表明问卷信度良好。 克朗巴哈 信度,是对折半信度的改进,检验公式是:)1(1 k k 2 2i σ σα∑- -= ,其中K 表示问卷中的题目数, 为第i 题的调查结果方差, 为全部调查结果的方差。 信度 系数是目前最常用的信度分析法。 (5)评分者信度,包括 信度和 信度,将问卷中的每道题看作是一个变量,然后 通过调查的结果得分对所有问题做因子分析。得到 , ,其中 是最大特征值,N 是问题数, 是因子分析法的第i 个问题的共同度。

什么是测试的信度和效度,如何保证测试的信度和效度

什么是测试的信度和效度,如何保证测试的信度和效度 棋盘中小张倩倩 在教育研究中,信度与效度是很常见的两个概念。但每次看到或听到这两个名词,我的脑袋老反应不过来,看来基础就是不扎实。我在这里就谈谈我浅显的认识。 一、信度 所谓的信度,是指使用相同指标或测量工具重复测量相同事物时,得到相同结果的可能性。如果说某个指标或测量工具的信度高,那它提供的测量结果就不会因为指标、测量工具或测量设计本身的特性而发生变化;反之亦然。根据测量过程中不同的误差来源,可分为再测信度、复本信度和折半信度。 再测信度,是用同一测量工具在不同的时间对同一群受试者前后测量两次,然后计算两次测量分数的相关系数,相关系数越大说明两次测量的一致性越高。相隔的时间不应该太长。 复本信度,是用两个完全等值的(平行的)复本对同一群受试者进行测试,计算两种复本测量分数的相关系数,相关系数越大说明两个复本构成带来的变异越小。如考试中使用的A、B卷 折半信度,只用一个测量工具对同一群受试者实施一次测量,但将奇数题和偶数题分开计分,再计算奇数试题和偶数试题分数之间的相关系数。 二、效度 所谓的效度,是指测量工具能够测出其所要测量的特征的正确性程

度。效度越高,即表示测量结果越能显示其所要测量的特征。如果说根据某项特征能够区分人、物或事件,那么说某个测量该特征的测量工具是有效的,就是指它的测量结果能把具有不同特征的人、物或事件进行有效的区分。常用的有变面效度、内容效度和效标效度。 表面效度是指测量效果和人们头脑中的印象或学术界形成的共识之间的吻和程度,吻合程度高,表面效度就高。 内容效度是指测量在多大程度上涵盖了被测量概念的全部内涵,测量工具代表概念定义的内容越多,内容效度就越高。 效标效度是指测量结果与一些标准之间的一致性程度,这些标准能够精确表示被测概念。 三、信度与效度的关系 信度是效度的必要条件,但不是充分条件。一个测量工具要有效度必须有信度,没有信度就没有效度;但是有了信度不一定有效度。 信度低,效度不可能高。因为如果测量的数据不准确,也并不能有效地说明所研究的对象。 信度高,效度未必高。例如,如果我们准确地测量出某人的经济收入,也未必能够说明他的消费水平。 效度低,信度很可能高。例如,即是一项研究未能说明社会流动的原因,但它很有可能很精确很可靠地调查各个时期各种类型的人的流动数量。 效度高,信度也必然高。

评估测评的信度与效度

评估测评的信度与效度 案例 一、案例背景 N公司是一家外资工程管理公司,成立于1998年,总部设在上海。随着WTO 的开放和工程项目的增多,工程公司在国内如雨后春笋般成长起来,就此拉开了人才竞争的序幕。尤其是上海,工程项目管理人才的争夺十分激烈,N公司老总越来越感觉到市场的压力和人才的短缺。为了应对市场压力,保留现有中高层骨干人才,并让他们“适人适位”, N公司请来了北大纵横管理咨询公司,希望通过专业评估解决这个问题。 二、建立人才能力素质模型并实施测评 (一)中高层能力素质模型及测评方法的确定 鉴于本次测评的对象是N公司的中高层管理人才和精英人物,测评的目的是为了保留人才、适人适岗,因此经过双方共同探讨,项目组在北大纵横经理人能力素质指标体系的基础上,结合N公司的实际情况,选择个人驱动力、判断能力、分析能力、决策能力和水准、创新能力、客户服务能力、影响力、项目管理能力、任务分配能力等作为测评因素。同时,采用广泛用于企业人员素质测评、方案比较、科学技术成果评比等方面的层次分析法,来确定各测评因素在管理素质和业务素质上的权重。 通过向N公司老总介绍人才测评的方法及工具,大家一致选定评价中心技术进行本次人才测评,并主要运用三类测评工具:心理测验、深度面谈和情景模拟测验。 (二)测评实施程序 1、设计测评题目。咨询顾问和N公司相关人员一起,围绕测评因素,结合N公司实际情况进行测试题目的设计,并给出评分标准和评分参考。本次心理测试采取16PF人格要素测试,人机对话;深度面谈设计了20个题目,涵盖了测评的各个维度;情景模拟采用案例分析和主题演讲两种测评工具,其中案例分析题库包含12题,主题演讲题库包含15题,被测人员可以从各题库中抽取一题进行测试。 2、成立测评小组。其中,测评小组成员由N公司内部专家、外部专家,以及北大纵横项目组组成。在测评实施前,对测评小组进行培训,使大家能全面了解测评的程序、评分标准及方法。 3、实施测评。深度面谈和情景模拟测试是由测评小组根据测试题目对被测评人进行提问,被测评人根据提问回答问题,与测评小组进行双向沟通后,由测

前测数据分析--信度和效度分析

第二节信度和效度分析 一、信度分析 与预测试数据分析方法一样,为了确保问卷的可靠性,先进行信度分析,信度检验指标在前面已详细述,在此不再述。问卷信度分析如表4-2所示: 表4-2:量表信度检验结果 - . -优质文档

经过SPSS24.0数据统计软件分析得知个变量Cronbach's α均大于0.6,且 组合信度在0.792以上,说明所有问卷都具备可靠性,能够较好的反应变量的真实情况。 二、效度检验 (一)容效度 为了确保调研问卷容的有效性,问卷量表通过文献研究先初步圈定问卷容,所用量表大多采用国外已经开发出的成熟量表,对于这部分量表,本文给予直接采用的方式,其余量表则是在前人研究的基础上,根据本文的研究目的和方向进行谨慎的拟定。因此,本问卷具有容效度。 (二)结构效度 在测量结构效度时,通常采用探索性因子分析。在进行因子分析时,通常采用主成分分析法,主成分分析的目的在于利用变量间的线性组合来解释每个层面的方差,变量的第一个线性组合可以解释最大的变异量,以此类推,所以主成分分析法的步骤是,选取特征值大于1的因子,然后利用方差最大旋转法进行旋转,使得旋转后题目在各个因子的负荷量大小出现明显差异,大部分题目在每个公共 因子中有一个差异较大的因子负荷量出现。但在因子分析之前需要进行KMO值- . -优质文档

和Bartlett球形检验,只有当KMO>0.5且Bartlett球形检验的Sig.值小于0.05时,问卷才具有结构效度,才能够进行因子分析。本研究中对三个量表进行的结构效度分析具体情况如下。 (1)虚拟品牌社群价值的效度检测 1.1虚拟品牌社群价值的KMO值和Bartlett球形检验 在对虚拟品牌社群价值做因子分析之前,先做KMO值和Bartlett球形检验,检测结果如表4-3所示: 表4-3:虚拟品牌社群价值的KMO值和Bartlett检验 取样足够度的Kaiser-Meyer-Olkin度量.901 Bartlett的球形度检验近似卡方4892.820 df 186 Sig. .000 通过对虚拟品牌社群价值量表的14个题项进行KMO检验和Bartlett球形检验,发现虚拟品牌社群价值量表的KMO值为0.901,表明各个变量之间的相关系数非常高,适合做因子分析,同时Sig.值为0.000<0.05,达到显著性水平,综上可以得出虚拟品牌社群价值量表适合做因子分析。 1.2虚拟品牌社群价值因子分析 通过KMO值和Bartlett球形检验可知,虚拟品牌社群价值适合做因子分析,运用主成分提取法进行因子旋转后得到以下数据,如:表4-4所示: 表4-4:虚拟品牌社群价值旋转因子负荷值 - . -优质文档

调查表的的信度与效度评价方法

调查表的的信度与效度评价方法 问卷调查法是教育研究中广泛采用的一种调查方法,根据调查目的设计的调查问卷是问卷调查法获取信息的工具,其质量高低对调查结果的真实性、适用性等具有决定性的作用。为了保证问卷具有较高的可靠性和有效性,在形成正式问卷之前,应当对问卷进行试测,并对试测结果进行信度和效度分析,根据分析结果筛选问卷题项,调整问卷结构,从而提高问卷的信度和效度。 一、信度分析 信度(Reliability)即可靠性,是指采用同一方法对同一对象进行调查时,问卷调查结果的稳定性和一致性,即测量工具(问卷或量表)能否稳定地测量所测的事物或变量。信度指标多以相关系数表示,具体评价方法大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和内在一致性系数(跨项目的一致性)。信度分析的方法主要有以下四种: 1、重测信度法 同样的问卷,对同一组访问对象在尽可能相同的情况下,在不同时间进行两次测量。两次测量相距一般在两到四周之内。用两次测量结果间的相关分析或差异的显著性检验方法,评价量表信度的高低。 2、折半法。折半法是将上述两份问卷合成一份问卷(通常要求

这两份问卷的问题数目相等),每一份作为一部分,然后考察这两个部分的测量结果之间的相关性。 3、折半信度法折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度。折半信度属于内在一致性系数,测量的是两半题项得分间的一致性。这种方法一般不适用于事实式问卷(如年龄与性别无法相比),常用于态度、意见式问卷的信度分析。在问卷调查中,态度测量最常见的形式是5级李克特(Likert)量表。进行折半信度分析时,如果量表中含有反意题项,应先将反意题项的得分作逆向处理,以保证各题项得分方向的一致性,然后将全部题项按奇偶或前后分为尽可能相等的两半,计算二者的相关系数(rhh,即半个量表的信度系数),最后用斯皮尔曼-布朗(Spearman-Brown)公式: 求出整个量表的信度系数(ru)。 4、α信度系数法 Cronbach α信度系数是目前最常用的信度系数,其公式为: 其中,K为量表中题项的总数,为第i题得分的题内方差,为全部题项总得分的方差。从公式中可以看出,α系数评价的是量表中各题项得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。 二、效度分析 效度(Validity)即有效性,它是指测量工具或手段能够准确测出所需测量的事物的程度。效度分为三种类型:内容效度、准则效度

测试效度和信度

福建省中考英语试卷的预测效度研究 一以泉州市德化八中为个案分析 A Study on the Predictive Validity of Senior High School Entrance English Test in Fujian Province Evidence Based on Dehua No.8 Middle School ⑴2000-2009年上海市高考英语完型填空效度研究 The Study on the Validity of the Cloze Test in Shanghai Matriculation English Test ①文献综述:语言测试学的发展历史完型填空效度 ②研究的内容与实施:巴克曼关于交际语言能力的学说/中学英语课程标准 上海市高考英语完型填空试题的内容效度历时分析:文本材料分析 考点效度分析 上海市高考英语完型填空调整前后对比分析:完型填空与语法、阅读理解相关分析 完型填空推理因素分析 上海市高考英语完型填空的特点:选文特点、设空特点、干扰项特点 上海高考英语完型填空对教学的启示:高考完型填空对学生能力的要求、语境中的词汇教学、完型填空对语篇教学的启示 ⑵高中英语阅读测试选择题型的效度分析 A Validity Analysis of Multiple Choice Questions in Senior High School Reading Comprehension Tests ⑶中文摘要 Abstract 第一章前言 第一节研究背景 第二节研究目的和意义

第三节论文框架 第二章文献综述 第三章 第一节关于语言测试的研究 第二节试卷效度的研究 第三节小结二 第三章理论基础 第一节效度的定义 第二节效度的分类 第三节预测效度及其验证 第四节小结 第四章研究设计 第一节研究问题 第二节研究对象 第三节研究方法 第四节数据分析方式. 第五章分析与讨论. 第一节初中英语课程标准和高中英语课程标准对比分析. 第二节中考英语和高考英语的考试大纲及考试说明对比分析第三节问卷调查结果与分析 第四节部分学生高中三年的学业情况及高考成绩的数据分析第五节中考英语成绩和高考英语成绩的相关性分析

浅析语言测试中信度与效度两者之间的关系

浅析语言测试中信度与效度两者之间的关系语言测试在语言教学中处于中心地位,是从属于应用语言学这一学科的。在过去语言测试在应用语言学中处于边缘地位,而在长达三十多年的发展中,语言测试现已发展成为一个相对独立的学科,已经在学术上占有了一席之地。通过语言测试教育者可以及时发现学习者学习上存在的不足之处并在日后的教学过程中加以正确引导,也可以衡量教学任务和教学大纲的执行情况,但是这些都是基于科学的语言测试能够得到良好的反馈情况,反之,如果是一套不科学的语言测试就很可能对学习者做出错误的判断从而影响学习效率,所以科学的语言测试无论是对受教育者还是对教育者来说都是非常重要的。一套设计比较科学的测试应该是具有信度,效度,难度和区分度四点特征,信度与效度是难度和区分度的基础,同时也是语言测试的两大根本要求,只有正确认识了信度与效度两者之间的关系才能寻找出一个科学的方法使得语言测试更加科学准确。 信度指的是测量的一致性,一个实验或测试的信度指它在重复测量时产生同样结果的程度,也就是说测量的稳定性是否一致。影响信度的因素很多,其不仅存在于考试过程中的各个环节,也存在于阅卷的过程中,如试卷中的试题长度偏长,项目种类多,那么测试的信度就会提高,反之则会降低,考试分数集中于某一点或某一个区域时信度也会有所降低;考试期间考生时间充裕那么估算能力考试的信度也相对较高等等,这些都是存在于考试过程中各个环节的部分举例,在阅卷过程中阅卷者自身的信度和阅卷者之间的信度等问题也是影响信度的因素之一,如在评阅主观性的题目时(作文,口语等),阅卷者在评分时就具有很大的主观色彩,而不同的阅卷者掌握的主观的评分标准在评阅主观性试题时,不容易取得一致,也会使得测试的信度不稳定。效度指的是我们所获的证据在多大程度上支持我们根据分数所做出的推断,也就是考试是否检测到了它所要检测的东西,是否达到了它的预定目标。效度共分为三种不同的类型,其不同类型的效度测试有各自不同的测试着重面,内容效度测试的目的是为了了解测试者在一些实际环境中是如何运作的,如果测试的样本能够充分代表总体,那么测试在内容上就是有效的,反之效度则不高;预测效度和共时效度都是属于与标准有关的效度,预测效度是标志测试者将来能力的标准,如通过摸底考试分班,共时效度是指一个测试结果与另一个同时使用的标准的结果的关系;构想效度是指要考察一个测试者在多大程度上和我们根据某一理论所作出的预测是否一致,也就是说验证的是我们所做的假设是否有效。 信度和效度是语言测试中的两个最重要的方面,两者之间既相互依存又相互对立,可以说二者是存在于对立统一的一个整体中。

测量问卷信效度分析

测量问卷信效度分析 信度和效度分析是问卷分析的第一步,也是检验该问卷是否合格的标准之一,所以,我们在做问卷调查的时候第一步就要进行信度和效度的分析,才能确保我们的问卷有意义。 信度(Reliability)即可靠性,是指使用相同指标或测量工具重复测量相同事物时,得到相同结果的一致性程度。一个好的测量工具,对同一事物反复多次测量,其结果应该始终保持不变才可信。例如,我们用一把尺子测量一张桌子的高度,今天测量得高度与明天测量的高度不同,那么我们就会对这把尺子产生怀疑。因此,一张设计合理的调查问卷应该具有它的可靠性和稳定性。 目前最常用的是Alpha信度系数,一般情况下我们主要考虑量表的内在信度——项目之间是否具有较高的内在一致性。通常认为,信度系数应该在0~1之间,如果量表的信度系数在0.9以上,表示量表的信度很好;如果量表的信度系数在0.8~0.9之间,表示量表的信度可以接受;如果量表的信度系数在0.7~0.8之间,表示量表有些项目需要修订;如果量表的信度系数在0.7以下,表示量表有些项目需要抛弃。 信度分析是:“分析”——“度量”——“可靠性分析”,把所有主观题选到:“项目”中,确定即可,得出总的信度。把统一维度的题目选中,得出先关维度的信度。 具体步骤:分析——度量——可靠性分析 模型选择a,点击确定即可。 结果分析: 分析各个维度和总量的信度后,将它们列出一个表格,其中每个维度的a信度系数都大于0.7,说明该量表信度较好,符合问卷调查。 效度(Validity)即有效性,是衡量综合评价体系是否能够准确反映评价目的和要求。是指测量工具能够测出其所要测量的特征的正确性程度。效度越高,即表示测量结果越能显示其所 要测量的特征,反之,则效度越低。常用于调查问卷效度分析的方法主要有以下几种。 1、单项与总和相关效度分析 这种方法用于测量量表的内容效度。内容效度又称表面效度或逻辑效度,它是指所设计的题项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评价结果,即计算每个题项得分与题项

效度与信度

效度(validity) 又称准确度,用以反映测量指标或观测结果与“真值”的差异大小(接近程度),即多大程度上反映了事物的客观真实性。其主要受系统误差的影响,偏倚具有方向性。 例如评价某人的健康状况有三种方法:可以根据本人的主诉、也可以统计他近三个月到医疗机构就诊的次数、还可以对他进行临床检查。效度情况:主诉最差,就诊次数尚可,临床检查结果最好。但从获取资料的成本(复杂性、费用、时间等)来看,则临床检查最高,主诉最低。选择观察指标应兼顾效度和成本,即选择效度较高而成本较低的测量方法。 常用的效度评价方法 (1)表面效度(face validity)指测量方法或观测结果所要说明的问题符合专家和公众的共识。如用专业技术职称说明医生的学术水平,用抢救次数反映患者的病情危重程度。 (2)内容效度(content validity)或称一致性效度(agreement validity),指测量方法或测量指标得到多少专家的认同。请一批有代表性的专家独立对各预选指标的效度进行评判,计算一致率(百分比)。 如测量睡眠情况,一批专家各自给出的测量指标和一致率分别为:仪器监控的睡眠时间(100%),受试者主诉的睡眠时间(92%),受试者对睡眠好坏的自我评价(80%),受试者亲属报告的睡眠时间(60%)。虽然仪器监控的睡眠时间用于测量睡眠情况的效度最好,但测量成本也高。 (3)平行效度(convergent validity)又称同期效度(concurrent validity)或标准关联效度(criterion-related validity),指用一个预选测量指标X和一个公认效度高的指标Y同时测量同一对象,计算X和Y的相关系数r。如果r较大(>0.75)且P<0.05,则认为预选测量指标X具有与Y相似的平行效度。如受试者主诉的睡眠时间(X)与仪器监控的睡眠时间(金标准,Y)的相关系数约为0.80~0.95,因此,用主诉的睡眠时间测量睡眠状况有与“金标准”相似的平行效度。 (4)预测效度(predictive validity)指测量结果是否与后来发生的事件相吻合。如采用问卷评分测量口腔保健知识的了解程度,如果评分结果与后来临床检查发现的口腔疾病严重程度呈现负相关(如r<-0.75),则说明问卷调查结果确能反映出口腔保健知识的水平。 注意:预测效度与平行效度的区别,前者是两种测量方法前后相关,后者是两种测量方法的同期相关。 (5) 结构效度(construct validity)指对客观事物的多指标测量是否具有专业上的理想结构。结构效度的评价通常没有“金标准”或专家意见可以参照,需要先收集一定数量的实际调查数据,采用统计分析的方法进行分析评价,如因子分析。例如,关于健康测量的效度评价,无论有多少调查项目,至少要具有“体格健康”和“心理健康”两个稳定的结构。5种效度指标的使用 在大多数情况下采用表面效度和内容效度,主要计算一致率; 在有“金标准”作为参照的情况下,采用平行效度或预测效度,主要进行相关分析; 结构效度的评价涉及到比较复杂的统计方法。 2. 信度(reliability) 又称可靠性或精确度,用以反映相同条件下对同一客观事物重复测量结果的相互符合程度,其主要受随机因素的影响,误差不具有方向性。信度评价主要是评价不同的测量者、不同的测量时间、不同的测量工具对数据可靠性的影响。 常用的信度评价方法 (1)客观信度(objectivity reliability) 也称测量者间信度(inter-rater reliability),指m(>=2)个的测量者(raters)同一时间段对同一对象进行重复测量。如两名护士先后测量同一患者的血压。如果测量了n个患者,两名护士的客观信度用简单相关系数r表示。当

相关主题
文本预览
相关文档 最新文档