现代心理教育与统计学 第三版复习资料(张厚粲)
- 格式:wps
- 大小:141.56 KB
- 文档页数:15
第4章差异量数1.度量离中趋势的差异量数有哪些?为什么要度量离中趋势?答:(1)度量离中趋势的差异量数有全距、四分位差、百分位差、平均差、标准差与方差。
差异量数就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称离散量数(measures of dispersion)。
(2)度量离中趋势的必要性在心理和教育研究中,要全面描述一组数据的特征,不但要了解数据的典型情况,而且还要了解特殊情况。
这些特殊性常表现为数据的变异性。
因此,只用集中量数不可能真实地反映出它们的分布情形。
为了全面反映数据的总体情况,除了必须求出集中量数外,这时还需要使用差异量数。
2.各种差异量数各有什么特点?答:(1)标准差计算最严密,它根据全部数据求得,考虑到了每一个样本数据,测量具有代表性,适合代数法处理,受抽样变动的影响较小,反应灵敏。
缺点是较难理解,运算较繁琐,易受极端值的影响。
(2)方差的描述作用不大,但是由于它具有可加性,是对一组数据中造成各种变异的总和的测量,通常采用方差的可加性分解并确定属于不同来源的变异性,并进一步说明各种变异对总结果的影响。
因此,方差是推论统计中最常用的统计量数。
(3)全距计算简便,容易理解,适用于所有类型的数据,但它易受极值影响,测量也太粗糙,只能反映分布两极端值的差值,不能显示全部数据的差异情况,仅作为辅助量数使用。
(4)平均差容易理解,容易计算,能说明分布中全部数值的差异情况,缺点是会受两极数值的影响,但当数据较多时,这种影响较小,因有绝对值也不适合代数方法处理。
(5)百分位差易理解,易计算,不易受极值影响,但不能反映出分布的中间数值的差异情况,也仅用作补助量数。
(6)四分位差意义明确,计算方便容易,对极端值不敏感,较不受极端值影响。
当组距不确定,其他差异量数都无法计算时,可以计算四分位差。
但是,四分位差无法反映分布中所有数据的离散状况,不适合使用代数方法处理,受抽样变动影响较标准差大。
第三部分章节题库第1章绪论一、单选题1.三位研究者评价人们对四种速食面品牌的喜好程度。
研究者甲让评定者先挑出最喜欢的品牌,然后挑出剩下三种品牌中最喜欢的,最后再挑出剩下两种品牌中比较喜欢的。
研究者乙让评定者将四种品牌分别给予1—5的等级评定,(1表示非常不喜欢,5表示非常喜欢),研究者丙只是让评定者挑出自己最喜欢的品牌。
研究者甲,乙,丙所使用的数据类型分别是:()A.类目型---顺序型---计数型B.顺序型---等距型---类目型C.顺序型---等距型---顺序型D.顺序型---等比型---计数型【答案】B2.调查了n=200个不同年龄组的被试对手表显示偏好程度偏好程度年龄组数字显示钟面显示不确定30岁或以下90401030岁以上104010该题自变量与因变量的数据类型分别是:()A.类目型-顺序型B.计数型-等比型C.顺序型-等距型D.顺序型-命名型【答案】D3.157.5这个数的上限是()。
A.157.75B.157.65C.157.55D.158.5【答案】C4.随机现象的数量化表示称为()。
A.自变量B.随机变量C.因变量D.相关变量【答案】B5.实验或研究对象的全体被称之为()。
A.总体B.样本点C.个体D.元素【答案】A6.下列数据中,哪个数据是顺序变量?()A.父亲的月工资为1300元B.小明的语文成绩为80分C.小强100米跑得第2名D.小红某项技能测试得5分【答案】C二、概念题1.描述统计(吉林大学2002研)答:描述统计指研究如何整理心理教育科学实验或调查的数据,描述一组数据的全貌,表达一件事物的性质的统计方法。
比如整理实验或调查来的大量数据,找出这些数据分布的特征,计算集中趋势、离中趋势或相关系数等,将大量数据简缩,找出其中所传递的信息。
2.推论统计(中国政法大学2005研,浙大2000研)答:推论统计又称推断统计,主要研究如何通过局部数据所提供的信息,推论总体或全局的情形;如何对假设进行检验和估计;如何对影响事物变化的因素进行分析;如何对两件事物或多种事物之间的差异进行比较等。
第13章多变量统计分析简介1.探索性因素分析与验证性因素分析有什么区别?答:(1)探索性因素分析(exploratory factor analysis,简写为EFA)就是指传统的因素分析。
这种因素分析方法对于观察变量因子结构的寻找,并未有任何事前的预设假定。
对于因子的抽取、因子的数目、因子的内容以及变量的分类,研究者也没有事前的预期,而是由因素分析的程序去决定。
在典型的EFA中,研究者通过共变关系的分解,找出最低限度的主要成分(principal component)或共同因子(common factor),然后进一步探讨这些主成分或共同因子与个别变量的关系,找出观察变量与其相对应因子之间的强度,也就是因子负荷值(factor loading),以说明因子与所属的观察变量的关系,决定因子的内容,为因子取一个合适的名字。
由于传统的因素分析企图找出最少的因子来代表所有的观察变量,因此研究者必须在因子数目与可解释变异量(explained variance)两者间寻找平衡点。
因为因素分析至多可以抽取出相等于观察变量总数的因子数目,这样,虽然可以解释全部百分之百的变异,但失去因素分析找寻因子结构的目的,但如果研究者企图以少数几个较明显的因子来代表所有的项目,势必然将损失部分可解释变异来作为代价。
因而在EFA中,研究者相当一部分工作是在决定因子数目与提高因子解释的变异(即R square)。
(2)验证性因素分析(confirmatory factor analysis,简写为CFA)是在研究人员积极改善传统因素分析的限制,扩大其应用范围的基础上产生的。
这类因素分析要求,研究者对于潜在变量的内容与性质,在测量之初就必须有非常明确的说明,或有具体的理论基础,并已先期决定相对应的观察变量的组成模式,进行因素分析的目的是为了检验这一先期提出的因子结构的适合性。
这种因素分析方法也可用于理论架构的检验,它在结构方程模型中占有相当重要的地位,有着重要的应用价值,也是近年来心理测量与测验发展中相当重视的内容。
第8章 假设检验1.从假设检验的过程看,统计推断有什么特点? 答:(1)假设检验的基本过程是①根据问题要求,提出虚无假设0H 和备择假设1H 。
②选择适当的检验统计量。
③规定显著性水平α。
④计算检验统计量的值。
⑤做出决策。
(2)从假设检验的过程看,“反证法”是统计推论的一个重要特点。
假设检验是推论统计中最重要的内容,它的基本任务就是事先对总体参数或总体分布形态做出一个假设,然后利用样本信息来判断原假设是否合理,从而决定是否接受原假设。
假设检验的基本思想是概率性质的反证法。
为了检验虚无假设,首先假定虚无假设为真。
在虚无假设为真的前提下,如果导致违反逻辑或违背人们常识和经验的不合理现象出现,则表明“虚无假设为真”的假定是不正确的,也就不能接受虚无假设。
若没有导致不合理现象出现,那就认为“虚无假设为真”的假定是正确的,也就是说要接受虚无假设。
2.从α与β两类错误的关系分析,为什么α与β的和不一定等于1?答:α与β是在两个前提下的概率。
α是拒绝0H 时犯错误的概率(这时前提是“0H 为真”);β是接受0H 时犯错误的概率(这时“0H 为假”是前提),所以αβ+不一定等于1。
图8.3 α与B 的关系示意图如果010H μμ=:为真,关于i X 与μ的差异就要在图8.3中左边的正态分布中讨论。
对于某一显著性水平α,其临界点为X α。
(将两端各/2α放在同一端)。
X α右边表示0H 的拒绝区,面积比率为α;左边表示0H 的接受区,面积比率为1α-。
在“0H 为真”的前提下随机得到的i X 落到拒绝区时拒绝0H 是犯了错误的。
由于i X 落到拒绝区的概率为α,因此拒绝在“0H 为真”时所犯错误(I 型)的概率等于α。
而又落到0H 的接受区时,由于前提仍是“0H 为真”,因此接受0H 是正确决定,i X 落在接受区的概率为1α-。
,那么正确接受0H 的概率就等于1α-。
如0.05α=则10.95α-=,这0.05和0.95均为“0H 为真”这一前提下的两个概率,一个指犯错误的可能性,一个指正确决定的可能性,这二者之和当然为1。
张厚粲《现代心理与教育统计学》(第3版)笔记和课后习题(含考研真题)第一部分复习笔记本章重点ü心理与教育统计的研究内容ü选择使用统计方法的基本步骤ü统计数据的基本类型ü心理与教育统计的基本概念一、统计方法在心理和教育科学研究中的作用(一)心理与教育统计的定义与性质1.心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的一门学科。
2.具体讲,就是在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按统计学原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得出结论的一种研究方法。
3.统计学大致分为理论统计学(theoretical statistics)和应用统计学(applied statistics)两部分。
前者侧重统计理论与方法的数理证明,后者侧重统计理论与方法在各个实践领域中的应用。
心理与教育统计学属于应用统计学范畴,是应用统计学的一个分支。
类似的还有生物统计、社会统计、医学统计、人口统计、经济统计等。
(二)心理与教育科学研究数据的特点1.心理与教育科学研究数据与结果多用数字形式呈现2.心理与教育科学研究数据具有随机性和变异性3.心理与教育科学研究数据具有规律性4.心理与教育科学研究的目标是通过部分数据来推测总体特征(三)学习心理与教育统计应注意的事项1.学习心理与教育统计学要注意的几个问题(1)学习心理与教育统计学时,必须要克服畏难情绪。
心理与教育统计学偏重于应用,只要有中学数学知识就具备了学好心理与教育统计学的前提。
(2)在学习时要注意重点掌握各种统计方法使用的条件。
(3)要做一定的练习。
2.应用心理与教育统计方法时要做到:(1)克服“统计无用”与“统计万能”的思想,注意科研道德。
(2)正确选用统计方法,防止误用和乱用统计。
第11章非参数检验一、单选题1.秩和检验法首先由()提出。
A.弗里德曼B.维尔克松C.惠特尼D.克—瓦氏【答案】B2.秩和检验与参数检验中的()相对应。
A.两独立样本平均数之差t检验B.相关样本的t检验C.独立样本的t检验D.配对样本差异显著性t检验【答案】C3.符号检验法与参数检验中的()相对应。
A.两独立样本平均数之差t检验B.相关样本的t检验C.独立样本的t检验D.配对样本差异显著性t检验【答案】D4.在秩和检验中,当两个样本容量都大于10时,秩和分布为()。
A.T分布B.接近t分布C.接近正态分布D.接近F分布【答案】C5.参数检验中两独立样本的平均数之差的t检验,对应着非参数检验中的()。
A.秩和检验法B.中数检验法C.符号检验法D.符号等级检验法【答案】B6.运用非参数分析时,要求处理的数据是()。
A.十分精确的B.自由分布的C.大量的D.等级形式的【答案】A二、多选题1.非参数检验包括()A.秩和检验法B.中数检验法C.符号检验法D.等级方差分析【答案】ABCD2.两个独立样本的非参数检验方法有()A.秩和检验法B.中数检验法C.符号检验法D.等级方差分析【答案】AB3.配对样本的非参数检验方法有()A.秩和检验法B.中数检验法C.符号检验法D.等级方差分析【答案】CD三、概念题1.非参数检验(华东师大2002研,西北师大2002研,苏州大学2002研)答:非参数检验指对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验。
常见的非参数检验有符号检验、秩和检验、中数检验等。
其优点:(1)不需要对被检验的总体作出关于正态性或其他特定分布的假定;(2)容易理解、容易操作、应用范围广。
缺点是功效较低,因为它常会丢失数据中的信息。
经常属于大样本检验。
2.参数检验(parametric test)答:参数检验是统计假设检验的一种。
与“非参数检验”相对。
适用于总体分布形式已知。
张厚粲《现代心理与教育统计学》(第3版)笔记和课后习题详解第1章绪论一、统计方法在心理和教育科学研究中的作用(一)心理与教育统计的定义与性质1.心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的一门学科。
2.具体讲,就是在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按统计学原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得出结论的一种研究方法。
3.统计学大致分为理论统计学(theoretical statistics)和应用统计学(applied statistics)两部分。
前者侧重统计理论与方法的数理证明,后者侧重统计理论与方法在各个实践领域中的应用。
心理与教育统计学属于应用统计学范畴,是应用统计学的一个分支。
类似的还有生物统计、社会统计、医学统计、人口统计、经济统计等。
(二)心理与教育科学研究数据的特点1.心理与教育科学研究数据与结果多用数字形式呈现2.心理与教育科学研究数据具有随机性和变异性3.心理与教育科学研究数据具有规律性4.心理与教育科学研究的目标是通过部分数据来推测总体特征(三)学习心理与教育统计应注意的事项1.学习心理与教育统计学要注意的几个问题(1)学习心理与教育统计学时,必须要克服畏难情绪。
心理与教育统计学偏重于应用,只要有中学数学知识就具备了学好心理与教育统计学的前提。
(2)在学习时要注意重点掌握各种统计方法使用的条件。
(3)要做一定的练习。
2.应用心理与教育统计方法时要做到:(1)克服“统计无用”与“统计万能”的思想,注意科研道德。
(2)正确选用统计方法,防止误用和乱用统计。
二、心理与教育统计学的内容心理与教育统计学的研究内容,可依不同的分类标志划分为不同的类别。
(一)依据统计方法的功能进行分类,统计学可分为下述三种类别,这是由于数理统计的发展历史所决定的,也是最常见的分类方法。
张厚粲《现代心理与教育统计学》第3版笔记和课后习题含考研真题详解第14章抽样原理及方法14.1复习笔记本章重点✓各类抽样方法的概念✓抽样原理✓抽样方法的应用✓确定样本容量的方法在心理、教育以及其他领域的调查研究中,绝大部分不可能也没有必要对研究总体中的每个个体逐一进行调研。
一般是从中抽取一部分个体作为研究样本,应用参数估计或假设检验等统计方法,从样本的研究结果对总体特征进行推论。
这种推论的可靠性,一方面依赖于研究过程中无关变量的控制和数据处理的准确性,另一方面则依赖于样本的代表性。
一、抽样的意义和原则(一)抽样调查研究的意义1.抽样调查的概念(1)从总体中抽取部分个体组成样本,对样本进行观察或实验,获得样本信息,进而推断未知总体情况,称为抽样调查。
(2)抽样调查分为非概率抽样调查和概率抽样调查两大类。
①非概率抽样调查是依据调查者的经验有目的地挑选一部分个体组成样本,然后根据对样本的观察来推断总体的基本情况。
典型调查和重点调查就是常见的非概率抽样。
它常常不能作为推断未知总体参数的依据,而且不能计算调查结果的理论精确度和可靠程度。
②概率抽样调查则要求总体中每个个体被抽中的概率是已知的。
这样,研究者就可以根据概率论的原理,随机地抽取部分个体组成样本,然后利用各种推断统计的方法进行参数估计和假设检验,并能计算出调查结果的理论精确度和可靠程度。
(3)任何一个抽样调查都可能产生误差。
调查的总误差可以分为两部分:非抽样误差和抽样误差。
非抽样误差指漏报、错报、测量误差以及在调查结果的登录、汇总等环节上产生的误差,其误差大小很大程度上取决于调查的组织工作是否完善;抽样误差则是根据样本信息来推断总体信息时产生的随机误差。
2.抽样调查的作用(1)节省人力及费用(2)节省时间,提高调查研究的时效性(3)保证研究结果的准确性(二)抽样的基本原则1.随机化(randomization)是抽样研究的基本原则。
随机化原则,是指在进行抽样时,总体中每一个体是否被抽取,并不由研究者主观决定,而是每一个体按照概率原理被抽取的可能性是相等的。
第3章集中量数1.应用算术平均数表示集中趋势要注意什么问题?答:在应用算术平均数表示几种趋势时,要注意:①算术平均数易受两极端数值(极大或极小)的影响。
②一组数据中某个数值的大小不够确切时就无法计算其算术平均数。
如果不处理好这两个问题,那么算术平均数将无法表示集中趋势。
2.中数,众数,几何平均数,调和平均数各适用于心理与教育研究中的哪些资料?答:中数的适用条件:①当一组观测结果中出现两个极端数目时;②当次数分布的两端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值;③当需要快速估计一组数据的代表值时,也常用中数。
众数的适用条件:①当需要快速而粗略地寻求一组数现代心理与教育统计学据的代表值时;②当一组数据出现不同质的情况时,可用众数表示典型情况,如工资收入、学生成绩等常以次数最多者为代表值;③当次数分布中有两极端的数目时,除了一般用中数外,有时也用众数;④当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标;⑤当一组数据中同时有两个数值的次数都比较多时,即次数分布中出现双众数时,也多用众数来表示数据分布形态。
几何平均数的适用资料:当要计算教育经费增加率、学习方面的进步率和学生或人口增加率的估计时,可使用几何平均数。
调和平均数的适用资料:在心理与教育研究方面的应用,主要是用来描述学习速度方面的问题。
调和平均数作为一种集中量数,在描述速度方面的集中趋势时,优于其他集中量数。
在有关研究学习速度的实验设计中,反应指标一般常取两种形式:一是工作量固定,记录各被试完成相同工作所用的时间。
二是学习时间一定,记录一定时间内各被试完成的工作量。
由于反应指标不同,在计算学习速度时也不一样,这是应用调和平均数要特别注意的地方。
3.对于下列数据,使用何种集中量数表示集中趋势其代表性更好?并计算它们的值。
(1)4 5 6 6 7 29(2)3 4 5 5 7 5(3)2 3 5 6 7 8 9答:(1)中数6,因为题目中有极端数据,不适合用算术平均数。
第11章 非参数检验1.什么是非参数检验?与参数方法比较,它有哪些特点?答:非参数检验指对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验。
常见的非参数检验有符号检验、秩和检验、中数检验等。
非参数检验相对参数检验不需要严格的前提假设,特别是关于分布正态性假设,所以也称为自由分布检验;特别适用于等级/名义型资料,对这类数据参数方法无法直接检验;特别适用于小样本的探索性/预备研究;其优点是计算简便,直观,易于掌握,检验速度较快;缺点是对资料的信息利用少,方法的效能和完善性都不及参数检验2.符号检验法的基本思想是什么?答:符号检验(sign test )以正负符号作为资料的一种非参数检验程序。
它是一种简单的非参数检验方法,适用于检验两个配对样本分布的差异,与参数检验中配对样本差异显著性t 检验相对应。
符号检验法也是将中数作为集中趋势的量度,虚无假设是配对资料差值来自中位数为零的总体。
具体而言,它是将两样本每对数据之差(i i X Y )用正负号表示,若两样本没有显著性差异,则正差值与负差值应大致各占一半。
在实际中,当碰到无法用数字去描述的问题时,符号检验法就是一种简单而有效的检验方法。
3.秩和检验的基本思想是什么?答:“秩和”(the sum of ranks)即秩次的和或者等级之和。
这一方法首先由维尔克松(Wilcoxon )提出,叫维尔克松两样本检验法,后来曼—惠特尼(Mann —Whitney )将其应用到两样本容量不等(12n n ≠)的情况,因而又称做曼—惠特尼维尔克松秩和检验(Mann-Whitney —Wilcoxon rank sum test ),曼—惠特尼U 检验。
(1)秩统计量(rank statistics )的统计定义是:如果将样本数据记为1X ,…,n X ,相应的顺序统计量记为,若j ,则称i R j =为i X 在样本中的“秩”(rank ),就是秩统计量,又称为“秩次统计量”(rank orderstatistics )。
第2章统计图表一、单选题1.统计图中的y轴一般代表()。
A.因变量B.自变量C.数据D.被试变量【答案】A2.上限与下限之差为()。
A.极限B.组距C.组数D.全距【答案】B3.直方图一般适用于自变量的是()。
A.称名变量B.顺序变量C.等距变量D.等比变量【答案】C4.小李认为实验获得的数据有一定的偏斜,他想通过一种迅速有效的方式描述这种偏斜。
下列各种统计图中能描述这种偏斜的是()。
A.直条图B.直方图C.圆形图D.线形图【答案】C5.次数分布曲线图的横坐标代表各组数据的()。
A.上限B.中点C.下限D.平均值【答案】B6.特别适用于描述具有百分比结构的分类数据的统计图是()。
A.散点图B.圆形图C.条形图D.线形图【答案】B7.特别适用于描述具有相关结构的分类数据的统计分析图是()。
A.散点图B.圆形图C.条形图D.线形图【答案】A8.为了解某个数值以下的数据数目是多少,需要制作()。
A.次数分布表B.次数分布图C.累积次数分布表D.累积次数百分数的分布表【答案】C9.在一个统计图中y轴适用于表示()。
A.实验条件,即被试所在的组别B.每个组中被试的人数C.被试解决所有问题所花费的时间D.被试解决第三个问题所花费的时间【答案】D10.在一个统计图中X轴适用于表示()。
A.实验条件,即被试所在的组别B.每个组中被试的人数C.被试解决所有问题所花费的时间D.被试解决第三个问题所花费的时间【答案】A11.以下各种图形中,表示间断性资料频数分布的是()。
A.圆形图B.直方图C.散点图D.线形图【答案】A12.适用于描述某种事物在时间上的变化趋势,及一种事物随另一种事物发展变化的趋势模式,还适用于比较不同的人物团体在同一心理或教育现象上的变化特征及相互联系的统计分析图是()。
A.散点图B.圆形图C.条形图D.线形图【答案】D二、多选题:1.次数分布可分为()。
A.简单次数分布B.分组次数分布C.相对次数分布D.累积次数分布【答案】ABCD2.以下各种图形中,表示连续性资料频数分布的是()。
第一章绪论1.描述统计(descriptive statistics)主要研究如何将实验或调查得到的大量数据进行图表整理或简缩成有代表性的数字(即统计量数),使其能客观、全面地反映这组数据的全貌,将其所提供的信息充分显现出来,为进一步统计分析和推论提供可能。
2.描述统计只限于对试验样本所得观测数据的统计分析,不考察其总体的特性。
3.推论统计(inferential statistics)是以描述统计为基础,从而解决由局部到全体的推论问题,即通过对一组统计量的计算分析,推论该组数据所代表的总体特性。
4.变量(variables):一个可以取不同数值的物体属性/事件。
5.事前无法预期结果的变量——随机变量6.观测值(原始取值):事后测定的某一结果。
7.概念理解:[涉及“实验”] 自变量(及其各水平)& 因变量(及相应的反应指标);[涉及“调查”,粗略对应于] 属性变量& 反应变量8.计数资料(count data):计算个数的数据,(如人口数,学校数,男女数等)9.计量资料(measurement data):借助于一定的测量工具或一定的测量标准而获得的数据(如分数,身高,体重,IQ)10.称名数据(nominal data):只区分属性或类别上的不同,只可计数,不能排序(性别,学科,职业)11.等级/顺序数据(ordinal data):可排序,但无相等单位,不能加减。
(等级评定,受教育程度,职称)12.等距数据(interval data):具有相等单位,无绝对零的数据,能加减不能乘除。
13.比率数据(ratio data):既表明量的大小,又具有相等单位,可以加减乘除,具有绝对零点。
14.称名数据和顺序数据合称为离散数据。
15.等距数据和比率数据合称为连续数据。
16.离散数据(discrete data)又称为不连续数据,这类数据在任何两个数据点之间所取的数据的个数是有限的。
17.连续数据(continuous data)指任意两个数据点之间都可以细分出无限多个大小不同的数值。
18.总体(population):具有某种特征的一类事物的全体。
用N表示。
19.个体(individual):构成总体的每个基本单元。
20.样本(sample):从总体中抽取的一部分个体。
21.频数(frequency):某一时间在某一类别中出现的数目22.频率:某一事件数目与此类别所有事件数目之比。
23.概率:用P。
某一事件在无限的观测中所能预料的相对出现的次数。
24.参数(parameter):描述总体特征的统计指标25.样本统计量/特征值:描述样本特征的统计指标。
26.统计量(statistics):样本的特征值第二章统计图表1.统计分组是根据被研究对象的特征,将所得数据划分到时各个级别中去。
2.统计分组应注意的问题:①分组要以被研究对象的本质特性为基础。
②分类标志的确立必须坚持穷尽性和互斥性原则。
3.分组次数分布表编制步骤:①求全距(最大值与最小值之差)②决定组距与组数③列出分组区间(精确组限、组中值):注意核实是否满足穷尽和互斥原则。
④登记并计算次数⑤编制次数分布表。
4.条形图适用资料为离散数据,饼图适用资料是间断性(离散性)资料,线形图、散点图用于连续性资料5.条形图与直方图的区别:①适用资料不同;②横轴标尺不同;③图形形状不同。
6.累加折线图 → 累加曲线图(如,图2-8):分正偏态、正态、负偏态三种(如,图2-9)P.437.第三章 集中量数1.集中趋势:数据向某方向的集中程度。
离中趋势:数据彼此的分散程度。
用来描述一组数据这两种特点的统计量即为集中量数和差异量数。
2.平均数的计算:N fX X c∑=,i N fd AM X ⨯+=∑其中,∑f 为各组数据的总次数(等于N ),X c 为各分组区间的组中值,f 为各组次数,AM 为估计平均数,i 为组距。
p.563.平均数的特点①离均差总和为0。
②每个数加上C ,则所得平均数为原平均数加上C。
③每个数乘以C,则所得平均数为原平均数乘以C。
4.平均数的优缺点1、优点:①反应灵敏。
②计算严密。
③计算简单。
④简明易解。
⑤适合于进一步代数演算。
⑥较少受抽样变动的影响。
2、缺点:①易受极值的影响。
“修剪平均数”②若有数据不够确切,则无法计算该样本平均数。
5.中数又称中位数/中点数,符号为Md(Median),是指一组数据中位于较大一半与较小一半中间位置的那个数。
适用资料:顺序数据及以上6.中数计算方法,p.617.中数优点:计算严密;计算简单;简明易解。
缺点:反应不灵敏;不适合进一步代数演算;受抽样变动影响较大。
8.众数又称范数/密集数/通常数,符号Mo(Mode),是指一组数据中出现次数最多那个数。
适用资料:称名数据及以上9.众数一般计算方法:直接观察10.众数优点:简明易解。
缺点:反应不灵敏;不适合进一步代数演算;受抽样变动影响较大。
11.正态分布中三者相等,正偏态中M > Md > Mo,负偏态中M < Md < Mo。
P.66第四章差异量数1.全距又称两极差,用最大值与最小值之差来表示离中趋势,符号R (range),R=X max-X min适用于等距数据及以上(将就也会用于顺序数据),计算所得数值越大,表明数据越离散/分散。
2.百分位差:用百分位数之间的差值来表示离中趋势,常用的有P90-P10、P93-P7。
3.四分位差(及四分位数)可视为百分位差的一种,符号Q(quartile deviation),公式Q =(P75 - P25)/2(即第三个四分位数与第一个四分位数之差的一半)4.平均差:离均差绝对值的均值,符号A.D.,公式5.平均差优缺点:描述离中趋势/离散程度最为直观,计算简单严密易懂、反应灵敏、受抽样变动影响小;但受限于取绝对值不利于进一步代数运算,因此仍属低效,应用不多。
(与平均数差不多)6.方差:离均差平方的均值,符号S2,公式7.标准差:符号S、s或SD,公式8.方差性质:①方差的可加性和可分解性②每个数加上C,则所得标准差等于原标准差。
③每个数乘以C,则所得标准差为原标准差乘以C。
9.优势①反应灵敏。
②计算严密。
③(还算)计算简单。
④(还算)简明易懂。
⑤适合于进一步代数演算。
⑥较少受抽样变动的影响。
缺点:①受极端数据影响大,若有缺失值,则计算不出标准差10.差异系数(coefficient of variation)用以比较多组数据之间离散程度的大小。
常用于:①同一团体不同观测值离散程度的比较(如,身高vs. 体重);②(各均值相差较大时)不同团体同种观测值离散程度的比较(如,成人体重vs. 小孩体重)11.差异系数计算公式:①适用资料至少是等距,理论要求为比率数据;②尚不能进行统计推论。
12.标准分数(standard score,又称Z分数)是以标准差为单位来表示一个原始分数在团体中所处的相对位置量数。
可用以比较多个数在其所在数组分布中的相对位置的高低(Z分数越大,表明该数据在其分布中取值越大、相对位置越靠前)。
计算公式:13.标准分数的优缺点优点:可比性;可加性;明确性;稳定性。
缺点:计算相对繁琐;常为负数或带有小数,难理解标准分数的应用(适用前提:正态变量)⑴(利用Z分数具有可比性)用于比较几个分属性质不同的观测值在各自数据分布中相对位置的高低。
⑵(再利用Z分数具有可加性)计算不同质的观测值的总和,以表示在团体中的相对位置。
[自习例4-9、4-10]⑶表示标准测验分数。
(如,“离差智商”,自习)⑷极端数据的取舍:M±2S或M±3S标准(即“正负两个或三个标准差原则”)第五章相关关系1.相关关系:变量之间存在相互联系,但不能直接做因果判断。
2.相关系数(coefficient of correlation):变量间相关程度的数字表现形式,即表示相关强度的指标(相关量数)。
符号:样本r ,总体ρ3.取值范围:-1≤r≤1该式表明:①相关系数的取值范围介于-1.00至+1.00之间,他是一个比率,常用小数形式表示。
②正负只表示方向,取值大小表示相关的强弱程度(值越大,相关越高)。
③相关系数r=+1.00时表示完全正相关。
④它只是顺序数据;4.散点图(scatter plot)以点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度。
5.皮尔逊积差相关(Pearson’s product-moment correlation)适用资料适用资料[诸多条件缺一不可!]①(大样本的)成对数据(表现为两组数据存在一一对应关系),每对数据相互独立。
②正态双变量(即两总体服从正态分布或渐近正态的单峰分布)。
[样本咋样就不管了]③两数据类型均为连续数据(即等距/比率数据)。
④两变量呈直线相关(先用散点图预测)6.皮尔逊积差相关计算公式:7.斯皮尔曼等级相关(Spearman’s rank correlation)符号:rR或rS适用资料①两列变量,成对数据,各对数据相互独立;②均为顺序数据(及以上);③直线相关。
8.斯皮尔曼相关(较之积差相关)优点:适用范围大;缺点:精确度低。
因此,凡符合计算积差相关的资料,不要用等级相关计算。
9.斯皮尔曼等级相关计算公式:10.肯德尔W系数(和谐系数,Kendall’s concordance coefficient)P128适用资料:多列等级变量。
采用等级评定法或排序评定法所获得的资料。
(评分者信度)11.肯德尔U系数(一致性系数,Kendall’s consistency coefficient)适用资料:多列等级变量。
采用对偶比较法所获得的资料。
12.点二列相关分为:真正的vs. 人为的二分变量;后者可降级为前者。
13.点二列相关适用资料:连续变量与真正的二分变量,常用以评价是非题之类测验的内部一致性等。
连续数据与人为二分变量常用二列相关.14.求连续变量与顺序变量之间相关系数的降级方法通常为:①连续↘顺序求斯皮尔曼等级相关;②顺序↘称名求质量相关。
(前者居多)15.多列相关适用资料:两列正态变量,连续+人为地分成多组。
16.四分相关适用资料:两个都是人为的二分变量(本来是连续数据),其R ×C表为四格表。
17.Φ相关(系数)适用资料:两个都是真正的二分变量,其R×C表为四格表。
第六章概率分布1.频率:在对随机事件进行n次观测中,事件A出现m次,则m/n称为n 次试验中A出现的频率。
2.后验概率:当n→∞时,m/n将稳定于某个常数P上,P即为概率。
特点:试验之前无法预计,只有借助试验结果来估计。
3.先验概率:如果基本事件的总数为n,事件A包括m个基本事件,则事件A出现的概率记作P(A)=m/n。