4.2.3 效标效度
- 格式:pdf
- 大小:146.10 KB
- 文档页数:1
(一)研究对象教育测量与评价the Educational Measurement and Evaluation一课程性质教育测量与评价主要是研究对教育现象进行测量和价值判断的理论方法和技术。
本门课程分为两大部分:第一教育测量与评价的基本原理与方法;第二教育测量与评价的具体应用。
(二)学科性质在课程设置和学科建设中,教育测量与评价可以看成是测量学和评价学内容的整合,而且侧重于教育测量,是综合性教育科学。
又可以看成兼容了教育统计教育测量心理测量教育评价教育评估教育督导甚至教育科学研究方法在内的学科群,所以这门学科是一门应用性的学科,但又是一门综合性的课程。
在教育学科分类中,教育测量与评价属于研究如何运用方法分析教育活动。
总之教育测量学是应用性学科,又是综合性学科。
二教学内容组织1教育测量与评价的基本概念2教育测量的质量指标3教育测验的编制与实施,包括各种题型的设计和使用试题编排测评实施和评估等4教育测量结果的整理和解释5教育评价方案的编制与实施6教育评价的方法:很多方法如诊断性评价形成性评价总结性测量与评价等等。
综合是用多种评价。
7教育评价的应用,包括课程评价(课程大纲教学设计等)学生评价(老师的评价学生自己的评价同学的评价等)教师评价等方面8教育质量评价9现代教育测量与评价的发展趋势三教学目标1了解教育测量与评价的形成和发展历史。
2掌握教育测量与评价的概念一般原理和方法。
3掌握编制测量量表的方法和步骤。
4掌握评价方案设计以及建立评价指标体系的方法和技巧。
5树立科学的先进的教育测量与评价理念。
6初步具备开展教育测量与评价的能力。
四课程学习的重要意义1教育测量与评价知识是构成现代教育技术教育管理小学教育专业学生必备知识的重要组成部分2掌握先进的教育测评理念,以促进学生的健康发展五教育测评的学科地位和作用(一)现代教育科学研究的三大领域之一教育基本理论研究教育测量与评价科学研究以及教育发展研究已成为教育科学研究的三大领域。
调查问卷效度分析调查问卷效度分析在进行问卷研究时,特别是问卷中有非常多的量表题时,量表设计是否合适,量表设置有效与否,如同信度一样,是非常重要的问题。
如果量表设计不合理,基于此量表的数据也会受到置疑。
接下来就具体阐述效度分析以及效度分析时的操作方法,如何解决出现的问题等。
效度分析,简单来说就是量表设计的有效性情况,其可分为三类,分别是:内容效度、结构效度和效标效度,建议研究人员使用内容效度和结构效度对问卷进行效度质量衡量,一般很少使用到效标效度。
(1)内容效度内容效度是指问卷题项对相关概念测量的适用性情况,简单来讲即题项设计合理性情况。
内容效度可以从两个方面进行说明,第一是专家判断,专家具有权威性,因此专家对问卷进行判断并得出肯定结论后也即说明问卷具有有效性,此处专家是指行业内专家,或者参考文献,也或者权威来源等。
第二为问卷前测结果,通过对问卷前测并结合结果进行题项的修正等工作以充分说明问卷的有效性。
在具体分析过程中,内容效度通常是指研究题项的设计是否具有参考文献出处,是否有经过老师(专家)的认可,以及是否得到同专业相关人员比如同学的认可等。
以及研究人员是否对问卷进行修正工作,比如对问卷进行前测后发现问题,并做出修正工作。
内容效度是通过文字性进行描述说明,而并非统计软件进行的统计方法,对于问卷研究来讲,基本上均需要进行内容效度说明。
(2)结构效度结构效度指测量题项与测量维度之间的对应关系,其测量方法有两种,一种是探索性因子分析,另外一种是验证性因子分析。
探索性因子分析是当前使用最为广泛的结构效度测量方法,此方法可以使用SPSS客户端或者在线网页版SPSSSPSSAU实现。
使用探索性因子分析进行效度验证时,应该以量表为准,对变量或者量表分别进行分析。
使用探索性因子分析进行效度验证时,首先需要对KMO值进行说明(最为简单的效度验证是直接对每个变量进行探索性因子分析,并且通过KMO值进行判断,勿需判断题项与因子对应关系情况等,此种判断方法过于简单,使用较少),KMO值指标的常见标准是大于0.6,接着具体说明提取的因子数量,每个因子的方差解释率,总共方差解释率值,并且详细描述各个题项与因子的对应关系,如果对应关系与预期相符(专业知识预期一致),则说明有着良好的结构效度。
自测健康评定量表(SRHMS)(Self-rated Health Measurement Scale Versionl.0)自测健康是指您本人对自己健康状况的主观评价和期望,自测健康评定是目前国际上比较流行的健康测量方法之一。
世界卫生组织(WHO)将健康定义为:健康不仅仅是没有疾病和虚弱,而且是生理、心理和社会上的完好状态。
个体的健康应该是生理健康、心理健康和社会健康的总和。
本量表就是让您从生理、心理和社会三个方面对自己的健康状况进行定量化测量,以便能够及时、全面、准确地了解自身的健康信息为自己的健康保护提供帮助!填表要求:本量表由48个问题组成,问的都是您过去四周内的有关情况。
每个问题下面有一个划分为10个刻度的标尺,请逐条在您认为适当的位置以“x”号在标尺上作出标记。
(请注意每个标尺上只能划上一个“x”号)例如:您的睡眠怎么样?非常差0 1 2 3 4 5 6 7 8 9 10非常好0:表示睡眠非常差;10:表示睡眠非常好;在0-10间:越靠近0表明睡眠越差,越靠近10表明睡眠越好;1.您的视力怎么样2.您的听力怎么样3.您的食欲怎么样4.您的胃肠部经常不适(如腹胀、拉肚子、便秘等)吗5.您容易感到累吗6.您的睡眠怎么样7.您的身体有不同程度的疼痛吗8.您自己穿衣服有困难吗9.您自己梳理有困难吗10.您承担日常的家务劳动有困难吗11.您能独自上街购买一般物品吗12.您自己吃饭有困难吗13.您弯腰、屈膝有困难吗14.您上下楼梯(至少一层楼梯)有困难吗15.您步行半里路有困难吗16.您步行三里路有困难吗17.您参加能量消耗较大的活动(如剧烈的体育锻炼、田间体力劳动、搬重物移动等)有困难吗18.与您的同龄人相比,从总体上说,您认为自己的身体健康状况如何19.您对未来乐观吗20.您对目前的生活状况满意吗21.您对自己有信心吗22.您对自己的日常生活环境感到安全吗23.您有幸福的感觉吗24.您感到精神紧张吗25.您感到心情不好、情绪低落吗26.您会毫无理由地感到害怕吗27.您对做过的事情经反复确认才放心吗28.与别人在一起时,您也感到孤独吗29.您感到坐立不安、心神不定吗30.您感到空虚无聊或活着没有什么意义吗31.您的记忆力怎么样32.您容易集中精力去做一件事吗33.您思考问题或处理问题的能力怎么样34.从总体上说,您认为自己的心趣健康状况如何35.对于在生活、学习和工作中发生在自己身上的不愉快事情,您能够妥善地处理好吗36.您能够较快地适应新的生活、学习和工作环境吗37.您如何评价自己在工作、学习和生活中担当的角色38.您的家庭生活和睦吗39.与您关系密切的同事、同学、邻居、亲戚或伙伴多吗40.您有可以与您分享快乐和忧伤的朋友吗41.您与您的朋友或亲戚在一起谈论问题吗42.您与亲朋好友经常保持联系(如互相探望、电话问候、通信等)吗43.您经常参加一些社会、集体活动(如党团、工会、学生会、宗教、朋友聚会、体育比赛、文娱等)吗44.在您需要帮助的时候,您在很大程度能够依靠家庭吗45.在您需要帮助的时候,您在很大程度能够依靠朋友吗46.在您遇到困难时,您主动地去寻求他人的帮助吗47.与您的同龄人相比,从总体上说,您认为您的社会功能(如人际关系、社会交往等)如何48.与您的同龄人相比,从总体上说,您认为您的健康状况如何自测健康评定级表(SRHMS)(Self-rated Health Measurement Scale Versionl.0)一、前言自测健康是个体对其健康状况的主观评价和期望,这一概念最早是由Suchman等人在1958年提出,此后,许多学者对这一概念进行了充实和完善,目前,自测健康已成为国际上比较通用的健康测量方法之一。
一、最早的智力测验-—比奈-西蒙量表P111。
比奈(Alfred Binet)法国心理学家,心理测验的鼻祖。
贡献:(1)提出了测量智力的方法,并建立了最早的相对客观、量化的度量工具。
(2)将智力测验成功地运用于教育领域,使人们看到了心理测验的应用价值,推动了心理测验的迅速发展.智龄是比奈-西蒙智力量表中使用的判断智力的术语。
比奈智力量表系列主要有比奈量表、斯坦福—比奈量表和中国比奈量表。
(一)比奈量表比奈量表是比奈和西蒙编制的,有1905年、1908年和1911年三种版本。
内容:1905年版共有30道题,题目顺序由易到难排列,通过对3岁至11岁各50名正常儿童和部分智力落后儿童以及成人测试的结果,分析确定题目的难易程度,并用不同难度的题目代表不同年龄的智力水平。
特点:①个体测验;②用智力年龄来评判结果。
不足:(1)从内容上看,该量表主要是对判断、理解和推理能力的测查,并不能涵盖智力的全部内容。
(2)从形式上看,这个量表无论是测验主持人的指导,还是被测者的回答或反应,主要都是以语言形式进行的,因而对语言能力的依赖程度较大,这对某些特殊儿童如聋哑儿童是不公平的。
(3)这个量表不能准确地表示测验总分,只能以被测者完成题目的多少来大致确定其智力水平.行为样本(behavioral sample)就是“少数有代表性的行为”P31标准化(standardization)P32是指测验编制、实施、记分和测验分数解释必须遵循严格的统一的科学程序,保证对所有被测者来说施测的内容、条件、记分过程、解释系统都相同。
①测验题目的标准化;②实施过程和记分的标准化;③选用有代表性的常模。
信度(reliability),主要是指测量结果的可靠性或一致性。
P32信度(reliability)是指测验结果的可靠性、稳定性,即测验结果是否反映了被测者的稳定的、一贯性的真实特征。
简言之,信度就是对测量一致性程度的估计.#误差的含义和类型P1401.含义:误差—-测量中与目的无关的变因所产生的不准确、不一致的效应.2。
信度和效度名词解释一、信度1. 定义- 信度是指测验结果的一致性、稳定性及可靠性。
一般多以内部一致性来加以表示该测验信度的高低。
信度系数愈高即表示该测验的结果愈一致、稳定与可靠。
例如,用同一个量表对同一组被试在不同时间进行测量,如果每次测量结果都很相近,就说明这个量表的信度较高。
2. 信度的类型- 重测信度:用同一种测验,对同一组被试者,前后施测两次,再根据被试者两次测验分数计算其相关系数,即得重测信度。
它反映了测验跨时间的稳定性。
例如,在一个月内,对同一批学生使用相同的智力测验进行两次测试,两次测试结果的相关性就是重测信度。
- 复本信度:复本是内容、形式、难度等方面与原测验相似的测验。
复本信度是根据一组被试者接受两个复本测验的得分计算的相关系数。
有A、B两套英语水平测试题,它们在题型、难度等方面相似,对同一组学生先进行A卷测试,过一段时间再进行B卷测试,然后计算两次成绩的相关系数就是复本信度。
- 内部一致性信度:主要反映的是测验内部题目之间的关系,表示测验能够测量相同内容或特质的程度。
例如,在一个包含多个项目的人格测验中,内部一致性信度高意味着各个项目之间测量的是人格的同一个方面,常用的计算方法有克伦巴赫α系数等。
- 评分者信度:用于衡量不同评分者对同一组被试评分的一致性程度。
在一些主观性较强的测验中,如作文评分、面试评分等,评分者信度就非常重要。
如果不同评分者对同一篇作文或同一个面试者的评分比较接近,那么评分者信度就较高。
3. 影响信度的因素- 被试样本:被试样本的同质性(相似性)程度会影响信度。
如果被试样本的同质性高,信度可能会较低,因为他们在测验所测特质上的差异较小;反之,异质性高的被试样本可能会使信度较高。
例如,在一个只针对高智商学生的智力测验中,由于学生的智商都比较高且接近,可能会导致信度系数较低。
- 测验长度:一般来说,测验的题目数量越多,信度越高。
因为较长的测验能够更全面地测量被试的特质,减少随机误差的影响。