教育与心理统计学 第八章 X2检验考研笔记-精品
- 格式:docx
- 大小:21.64 KB
- 文档页数:1
张敏强《教育与心理统计学》修订本笔记和课后习题(含考研真题)详解第13章聚类分析【本章重点】☆Q型与R型聚类☆聚类分析中距离的六种定义13.1复习笔记一、聚类分析的基本原理(一)聚类分析1.聚类分析的概念聚类分析是分类学与多元统计分析相结合的一种方法。
它将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。
其与一般分类方法的不同之处在于:(1)一般分类法往往从专业知识出发进行分析归类,而聚类分析先是仅凭变量指标进行定量分析,整理出分类的谱系追踪图,然后再据专业知识确定最终类型数目和类型命名;(2)一般的分类允许在不同层次上有不同的分类依据或分类准则,而聚类分析在所有层次上的分类依据和分类准则都是一样的;(3)一般分类不要求被分对象一次性完备,允许分类后继续补充样品甚至建立新类,而聚类分析要求被分类对象一次性完备,不允许中间插入新样品,否则要重复聚类分析的全过程。
2.聚类分析的分类依据(1)聚类分析作为一种数值分类法,分类依据是数据指标,要进行聚类分析必须建起一个描写事物本质属性的指标体系,或者一个变量组合。
(2)入选的指标需满足的要求:①指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,互相配合共同刻画事物的本质特征。
②要求每一个入选指标都与所研究的问题紧密联系,并且都有较强的分辨能力。
③指标本身还必须可测和稳定,可测是分类得以进行的先决条件,稳定是分类准确的前提。
如果分类指标间还具有直交性,那么还可提高聚类的效率。
若有N个样品、有M个指标,称为M维空间上N个样本点,测值X ik表示第i个样本点在第k维指标上的测量值。
空间N个样本点的所有测值可以矩阵X记之:(13.1)④在聚类分析中,要求入选的所有指标变量有统一的量纲。
(3)常用的整理原始数据的方法有以下几种:①数据中心化变换。
如果一批数据指标由于各自的分布中心有显著差异而导致量纲不一致,可以对数据作中心化变换,新的指标中心皆为0。
目 录第一部分 考研真题精选一、单项选择题二、多项选择题三、简答题四、综合题第二部分 章节题库第1章 绪 论第2章 统计图表第3章 集中量数第4章 差异量数第5章 相关关系第6章 概率分布第7章 参数估计第8章 假设检验第9章 方差分析第10章 χ2检验第11章 非参数检验第12章 线性回归第13章 多变量统计分析简介第14章 抽样原理及方法第一部分 考研真题精选一、单项选择题1已知某小学一年级学生的体重平均数21kg,标准差3.2kg,身高平均数120cm,标准差6.0cm,则下列关于体重和身高离散程度的说法正确的是( )。
[统考2019研]A.体重离散程度更大B.身高离散程度更大C.两者离散程度一样D.两者无法比较【答案】A【解析】计算体重和身高的变异系数,CV体重=(3.2/21)×100%=15.2%,CV身高=(6/120)×100%=5%。
由此可知体重离散程度更大。
2已知某正态总体的标准差为16,现从中随机抽取一个n=100的样本,样本标准差为16,则样本平均数分布的标准误为( )。
[统考2019研]A.0.16B.1.6C.4D.25【答案】B【解析】总体正态,且方差已知,则样本平均数的分布为正态分布,标准误SE=σ/sqr(n)=16/10=1.6。
3如果学生参加压力量表测试的分数服从正态分布,平均数为5,标准差为2,那么分数处在5和9之间的学生百分比约为( )。
[统考2019研]A.34%B.48%C.50%D.68%【答案】B【解析】计算原始分数为5的标准分数Z1=0,原始分数为9的标准分数Z2=2,已知±1.96包含95%的个体,则可估计p(0<Z<2)=0.48。
4对样本平均数进行双尾假设检验,在α=0.10水平上拒绝了虚无假设。
如果用相同数据计算总体均值的置信区间,下列描述正确的是( )。
[统考2019研]A.置信区间不能覆盖总体均值B.置信区间覆盖总体均值为10%C.置信区间覆盖总体均值为90%D.置信区间覆盖总体均值为0.9%【答案】C【解析】置信度即置信区间覆盖总体均值的概率,题干说明置信度为1-α=0.90。
心理统计学笔记(1)基本概念总体:具有某些共同的、可观测特征的一类事物的全体,构成总体的每个基本单元称为个体样本:由于不能或没必要对整个总体进行研究,我们只能从总体中选择出一些个体代表总体,这些个体的集合叫样本变量:本身是变化的或者对于不同个体有不同值得特征或条件常量:本身不变且对不同的个体的值也相同参数:描述总体的数值,它可以从一次测量中获得,也可以从总体的一系列测量中推论得到比例:全组中取值为X的比例,p=f/N插值法:一种求两个已知数值之间中间值的方法,其假设所求解点附近数据呈线性变化统计量:描述样本的数值,与参数的获得方式相同随机取样:从总体抽取样本的一种策略,要求总体中的每一个个体被抽到的机会均等取样误差:样本统计量与相应的总体参数之间的差距偏态分布:分数堆积在分布的一端,而另一端成为比较尖细的尾端,其与对称分布对应次数分布:一批数据在某一量度的每一个类目所出现的次数情况离散型变量:由分离的、不可分割的范畴组成,临近范畴之间没有值存在连续型变量:在任何两个观测值之间都存在无限多个可能值,它可被分割成无限多个组成部分(2)学习建议①将注意放在概念上,心理统计应该是一门概念性的科学,而非纯数学。
②一定要将统计方法与心理学研究的情景结合起来学习。
③弄懂一个概念再开始学习下一个,心理统计中的概念应用性较差却是之后做题的基础。
④做题按照推荐格式能避免出错几率。
(3)统计检验总表数据类型单样本问题独立样本比较相关样本比较多组样本的比较相关问题独立样本重复测量等距型总体正态分布单样本t/z检验独立样本t/z检验相关样本t检验独立样本方差分析重复测量方差分析Pearson积差相关分布形态未知大样本下的相应的t/z检验大样本下的相应的t/z检验大样本下的相应的t检验转化为顺序型转化为顺序型顺序型符号检验法曼-惠特尼U检验维尔克松T检验克-瓦氏单向方差分析弗里德曼双向等级方差分析Spearman等级相关命名型χ2匹配度检验χ2独立性检验符号检验法χ2独立性检验χ2独立性检验一、描述统计描述统计是指用来整理、概括、简化数据的统计方法,侧重于描述一组数据的全貌,表达一件事物的性质。
第一章绪论统计学内容(凑字数):(1)描述统计(整理数据):第二章图表第三章集中量数第四章差异量数第五章相关(2)推论统计(推断总体):第七章参数估计;第八第十第十一章假设检验。
(3)实验设计(取样,实验条件控制,结果分析):第九章方差第十二章回归第十三章因子分析第十四章样本选择数据类型:(1)观测方法:计数数据:能数出来的计量数据:用工具量的(2)测量水平:称名数据:类别顺序数据:类别、次序--------心理测验的原始数据是这个等距数据:类别、次序、相差程度-------心理测验数据都会转换成这个等比数据:类别、次序、相差程度、相差比例(3)是否连续:离散数据:非连续,有个数能数出来连续数据:中间可以无限细分出无数个值第二章图表统计表:(1)次数表:简单次数分布表:无论什么类型数据只要用来记录次数就可,数据少时使用分组次数分布表:同样只要记录次数就能用,数据多时使用相对次数分布表:用比率和百分数表示次数。
累加次数分布表:需知道某个数据以下和以上人数时使用。
双列次数分布表:两列变量的次数用同一个表来表示。
不等距次数分布:无法等距分组时使用。
(2)其他表:简单表:无分类分组表:一个分类复合表:多个分类统计图:(1)次数图:直方图(表分布):横坐标连续数据,纵坐标频次次数多边图:直方图条条去掉连成线就是这个。
比直方图轮廓好易看出规律。
累加次数分布图:横坐标(等距数据以上)分组区间;纵坐标(任何记录次数的数据)累加次数累加曲线:累加次数分布图曲线化。
可更好的看出数据的形态(正态,偏态)(2)其他图:条形图(表内容):对计数或离散数据进行描述圆形图(表内容):不连续的数据-----------可以按比例分的数据线形图(表变化):连续型数据进行描述散点图(表相关):横坐标可计数可离散,纵坐标必须连续数据茎叶图(表分布和保留具体数值):两位数的数据次数箱型图(表数据离散状况)第三章集中量数:一组数据的最佳代表值算数平均数:最好的集中量数,能用就用这个(1)何时不能使用:有极端数值时,有模糊数据时。
概念(1)随机变量:在统计学上把取值之前,不能准确预料取到什么值的变量,称为随机变量.(2)总体:总体(population)又称为母全体或全域,是具有某种特征的一类事物的总体,是研究对象的全体。
(3)样本:样本是从总体中抽取的一部分个体。
(4)个体:构成总体的每个基本单元.(5)次数:是指某一事件在某一类别中出现的数目,又称作频数,用f表示。
(6)频率:又称相对次数,即某一事件发生的次数除以总的事件数目,通常用比例或百分数来表示。
(7)概率:概率论术语,指随机事件发生的可能性大小度量指标.其描述性定义。
随机事件A在所有试验中发生的可能性大小的量值,称为事件A的概率,记为P(A).(8)统计量:样本的特征值叫做统计量,又称作特征值。
(9)参数:又称总体参数,是描述一个总体情况的统计指标。
(10)观测值:随机变量的取值,一个随机变量可以有多个观测值。
2何谓心理与教育统计学?学习它有何意义?答:(1)心理与教育统计学是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育统计活动规律的一门学科。
具体讲,就是在心理与教育研究中,通过调查、实验、测量等手段有意地获取一些数据,并将得到的数据按统计学原理和步骤加以整理、计算、绘制图表、分析、判断、推理,最后得出结论的一种研究方法。
(2)学习心理与教育统计学有重要的意义.①统计学为科学研究提供了一种科学方法.科学是一种知识体系。
它的研究对象存在于现实世界各个领域的客观事实之中. 它的主要任务是对客观事实进行预测和分类,从而揭示蕴藏于其中的种种因果关系.要提高对客观事实观测及分析研究的能力,就必须运用科学的方法。
统计学正是提供了这样一种科学方法.统计方法是从事科学研究的一种必不可少的工具.②心理与教育统计学是心理与教育科研定量分析的重要工具.凡是客观存在事物,都有数量的表现.凡是有数量表现的事物,都可以进行测量。
教育学专业考研复习资料教育心理测量与统计重点知识总结教育心理测量与统计作为教育学专业考研的一门重要课程,对于考生来说是必须要掌握的知识点之一。
在考试中,对于这门课程的重点知识的理解和应用能力,将直接影响到考生的分数和成绩。
本文将对教育心理测量与统计的重点知识进行总结,以供考生复习使用。
一、教育心理测量教育心理测量是指通过测量个体的心理特征和能力,来评价和推断个体的心理状态、心理水平以及个体在不同教育环境中的适应能力。
教育心理测量的基本概念和方法是考研中必须要掌握的内容。
1. 信度信度是指心理测量中测得结果的稳定性和可靠性。
常用的信度分析方法有:重测信度法、等分测验相关法和Kuder-Richardson公式等。
2. 效度效度是指心理测量中测得结果与被测者实际情况之间的关联程度。
常见的效度分析方法有:内容效度法、判据效度法和结构效度法等。
3. 标准化标准化是指根据测验结果的分布规律,将每个被测者的成绩转化为标准分或百分位等标准单位,以便进行比较和评估。
4. 题目难度和区分度题目的难度是指被试者正确作答某道题目的难易程度,可以通过计算平均分或正确率来评估。
而题目的区分度是指某道题目能否有效地区分高分组和低分组的被试者,可以通过计算鉴别指数或相关系数来评估。
5. 总分与分项分析在教育心理测量中,常常需要对总分和分项进行分析。
总分分析可以揭示被测者整体水平,而分项分析可以揭示被测者在不同能力维度上的表现。
二、教育统计教育统计是指用统计方法对教育过程和教育结果进行定量分析和概括的过程。
在教育学专业考研中,掌握教育统计的基本概念和方法非常重要。
1. 统计描述统计描述是指通过统计指标对教育数据进行概括性描述。
常用的统计指标有:均值、中位数、众数、标准差、偏度和峰度等。
2. 相关分析相关分析是指通过计算两个变量之间的相关系数,来评估它们的关联程度。
常见的相关系数有:皮尔逊相关系数、斯皮尔曼相关系数和判定系数等。
第9章非参数检验【学习目标】1.识记参数检验与非参数检验的区别。
2.识记各种非参数检验方法的适应条件。
3.掌握符号检验与符号秩次检验。
4.掌握中位数检验。
5.掌握秩和检验。
6.掌握按变量类型、检验假设、样本容量选择非参数检验的方法。
9.1复习笔记一、非参数检验的特点1.不需要严格的前提假设。
2.特别适用于顺序资料(等级变量)。
3.非常适用于小样本,且计算简明、迅速。
4.最大的不足是未能充分利用资料的全部信息。
二、符号检验(一)符号检验的介绍1.含义符号检验是通过对两个相关样本的每对数据差数的符号(正号或负号)的检验,来比较这两个样本差异的显著性。
2.过程(1)用符号检验来比较两个相关样本的差异,先将两个样本中每对数据的差数用正负号表示。
(2)如果两个样本无显著性差异,正号与负号的数量应相等,或接近相等。
(3)如果绝大部分是正号(或负号),两个样本有显著性差异的可能性较大。
(二)小样本情况1.适用情况当样本容量较小,n<25时,可用查表法进行符号检验。
2.检验的步骤(1)提出假设(2)求差数符号计算对应的各个差值的正值与负值的个数,分别记为n+和n-;将n+和n-中较小的一个记为r,r=min(n+,n-)。
(3)确定检验形式根据题意确定是采用双侧检验还是单侧检验。
(4)统计决断:根据及显著性水平,查符号检验表确定r的临界值,并作出统计决断。
(三)大样本情况1.适用情况当样本容量较大,即n>25时,二项分布接近于正态分布,因此可以用正态分布近似处理。
2.检验的步骤(1)提出假设(2)选择检验统计量并计算其值样本容量较大,二项分布近似于正态分布,可用Z比率作为检验统计量。
其中,r表示n+(正号的数目)与n-(负号的数目)中数值较小的一个;n表示n+与n之和。
-(3)确定检验形式根据题意确定是采用双侧检验还是单侧检验。
(4)统计决断根据实际计算出的Z值及显著性水平,作出统计决断。
三、符号秩次检验符号秩次检验法由威尔科克逊提出,也称为符号等级检验法或添号秩次检验法。
绪论(一)什么是教育与心理统计学教育与心理统计学的概念是专门研究如何运用统计学原理和方法,搜集、整理、分析教育与心理科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出教育与心理活动规律的一门学科。
(二)教育与心理统计学的基本内容描述统计:对已获得的数据进行整理、概括,显现其分布特征的统计方法。
(一、二章节)推断统计:通过局部数据所提供的信息,推论总体情况。
(四、五、六、七、八、九章节)多元分析统计:寻找主要影响因素,对相近或相关因素合并或归类。
(三)教育与心理统计的昨天、今天和明天1904年美国人桑代克写的《心理与社会测量导论》是第一本教育与心理统计的专著。
(四)预备知识1. 随机现象及随机变量的概念随机现象:在相同的条件下,其分数或者其他数据结果可能不止一个,由实验或观测得到的数据,事先无法确定。
随机变量:取值之前不能预料取到什么值的变量。
随机变量分为:称名变量:说明某一事物与其他事物属性上的不同或类别上的差异。
比如:性别顺序变量:可以按事物的某一属性,把它们按多少或从大到小排列。
等距变量:变量之间有相等的距离。
除了有量的大小还有相等单位。
比如:温度比率变量:有量的大小,相等单位,还有绝对零点。
比如:身高、体重总体指具有某一种特征的一类事物的全体。
样本指总体中抽取的一部分有代表性的个体。
个体指构成总体的每一个基本元素。
2. 常用的符号及其计算法则离散变量:数值只能用自然数和整数表达。
连续变量:能在一定区间内任意取值的变量。
二分称名变量:变量只能有两个结果,比如是或否,对或者错。
(笔记部分)第一章常用的统计表与图(一)次数分布表与图1. 次数分布的概念数据在各个不同数值点上所出现的次数情况(75分在100个人的班级中出现了8次),或是一批数据在整个取值范围内各个等距区间中所出现的次数情况(70~80这个区间内出现了15次)。
2. 次数分布图通常的两种表达方式次数直方图和次数多边图3. 简单次数分布表、次数直方图与次数多边图的编制(笔记部分)(二)几种常用的统计分析图1. 散点图、线形图、条形图、圆形图的涵义一、散点图散点图是用平面直角坐标系上点的散布图形来表示两种事物之间的相关性及联系模式。
华东师大心理统计学大纲教材:《教育统计学》第一章绪论第一节什么是统计学和心理统计学一、什么是统计学统计学是研究统计原理和方法的科学。
具体地说,它是研究如何搜集、整理、分析反映事物总体信息的数字资料,并以此为依据,对总体特征进行推断的原理和方法。
统计学分为两大类。
一类是数理统计学。
它主要是以概率论为基础,对统计数据数量关系的模式加以解释,对统计原理和方法给予数学的证明。
它是数学的一个分支。
另一类是应用统计学。
它是数理统计原理和方法在各个领域中的应用,如数理统计的原理和方法应用到工业领域,称为工业统计学;应用到医学领域,称为医学统计学;应用到心理学领域,称为心理统计学,等等。
应用统计学是与研究对象密切结合的各科专门统计学。
二、统计学和心理统计学的内容统计学和心理统计学的研究内容,从不同角度来分,可以分为不同的类型。
从具体应用的角度来分,可以分成描述统计,推断统计和实验设计三部分。
1.描述统计对已获得的数据进行整理、概括,显示其分布特征的统计方法,称为描述统计。
2.推断统计根据样本所提供的信息,运用概率的理论进行分析、论证,在一定可靠程度上,对总体分布特征进行估计、推测,这种统计方法称为推断统计。
推断统计的内容包括总体参数估计和假设检验两部分。
3.实验设计实验者为了揭示试验中自变量和因变量的关系,在实验之前所制定的实验计划,称为实验设计。
其中包括选择怎样的抽样方式;如何计算样本容量;确定怎样的实验对照形式;如何实现实验组和对照组的等组化;如何安排实验因素和如何控制无关因素;用什么统计方法处理及分析实验结果,等等。
以上三部分内容,不是截然分开,而是相互联系的。
第二节统计学中的几个基本概念一、随机变量具有以下三个特性的现象,成为随机变量。
第一,一次试验有多中可能结果,其所有可能结果是已知的;第二,试验之前不能预料哪一种结果会出现;第三,在相同的条件下可以重复试验。
随机现象的每一种结果叫做一个随机事件。
我们把能表示随机现象各种结果的变量称为随机变量。
第八章X2检验(卡方检验)
一、基本概念
(一)X2检验[一级]
X2检验是一种非参数检验方法,适用于心理研究中的计数数据(即命名变量),应用卡方检验分析计数数据时,对计数数据总体的分布形 态不作任何假设,它能处理一个因素两项或多项分类的实际观察频数与理论频数分布是否相一致问题,或说无显著差异问题。
又称为列联 表分析或交叉表分析、百分比检验等。
(二)实际频数[一级]
简称实计数或实际数,是指在实验或调查中得到的计数资料,又称为观察频数。
(三)理论次数[一级]
是指根据概率原理、某种理论、某种理论次数分布或经验次数分布计算出来的次数,又称为期望次数。
二.简述X2检验的主要用途
卡方检验主要可以用于处理计数数据的拟合问题。
具体说,它可以检验单变量多项分类上的实计数和理论次数分布之间的差异显著性,称 为配合度检验;也可以检验两个变量各项分类上的次数之间是否存在显著关联,称为独立性检验。
卡方检验主要是处理计数费 法,由于其对数据的分布不像参数检验那样通常要求正态,因此也被认为属于非参数检验法。
三;X2检验的假设(使用条件)卡方检验的适用条件[苏大15]卡方检验的假定与限定。
[一级「 (1)分类相互排斥,互不包容:检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中。
(2)观测值相互独立:各个被试的观测值之间彼此独立,这是X2检验最基本的一个假定。
在实验研究中,让观测值的总数等于实验中不同 被试的总数,要求每个被试只有一个观测值,这是确保观测值相互独立最安全的做法。
(3)期里次数的大小:为了努力使X2分布成为X2值合理准确的近似估计,每一个单元格中的期望次数应该至少在5个以上。
拟合度(配合度)检验、独立性检验、同质性检验。
广型合度检验
Q )拟合度检验的定义
拟合度检验的定义:
即总体分布的假设检验,也称为总体分布的拟合优度检验,简称拟合度检验、拟合检验,也称为无差假说检验。
拟合度检验的主要原理是借助X2统计量的实得指标来考察实际观测次数fO 与某一理论假定下的次数fe 之间的差异是否显著。
若两者的差 异越小,检验的结果越不容易达到显著性水平;两者的差异越大,检验的结果越可能达到显著性水平。
拟合度检验主要用途是用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种X2检验方法有时也称为无差假说检验。
(2)拟合度检验的用途
主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,由于它检验的内容仅涉及一个因素多项分类的计数资料,也算是单 因素检验。
这里主要是考虑某总体分布和某种分布相符合,不涉及总体参数的问题。
所以卡方检验的本质就是检验实测次数与期望次数是 否一致。
应拟合度检验的应用
[1]检验无差假设:[各项分类间的概率相等,理论次数=总数x1/(分类项数)]。
[2]检验假设分布的概率:[如,观测次数是否按某种概率分布,某因素各项分类的次数分布是否正态]。
(二)独立性检验 的统计方
X2检验的类别。