张敏强《教育与心理统计学》【章节题库】(常用统计参数)【圣才出品】
- 格式:pdf
- 大小:668.33 KB
- 文档页数:11
第4章抽样理论与参数估计
1.试述点估计和区间估计的定义,并叙述其优缺点。
答:(1)点估计
①定义
点估计是指用一个样本值来估计总体参数值的过程。
判断估计量优劣的标准是无偏性、有效性和一致性。
如:通常用样本平均数来作为总体平均数的估计,而总体标准差的估计则要用n-1的标准差来估计。
②优缺点
a.优点:计算简单,容易理解。
b.缺点:因为点估计值是由样本数据计算出的一个单一数值,由于是随机抽样的,因此由计算样本统计量而得到的点估计值,就有可能不是总体参数的真正值。
且当用点估计去估计总体参数的真值时,其误差大小及可靠程度如何都不知道。
(2)区间估计
①定义
区间估计是指在一定的置信度水平下,用置信区间来对总体参数进行估计的过程。
②优缺点
a.优点:克服了点估计的缺点,它不仅告诉了总体参数估计的值范围,而且还给出了可靠程度。
b.缺点:点估计是一个精确的值,但区间估计是一个大致的范围。
2.已知某中学一次数学考试成绩的分布为正态分布,总体标准差为σ=5,从这个总体中抽取n=16,并计算得到81X =,6S =,试问该次考试中全体考生成绩均值μ的95%的置信区间。
解:因为成绩的分布为正态分布,总体标准差已知,置信度为95%, 且题目已知:σ=5,0.052
1.96Z =,n=16,81X =
1.96/81 1.96 1.2578.55X n σ-=-⨯=
1.96/81 1.96 1.2583.45X n σ+=+⨯=
故μ的置信度为0.95时,置信区间是[78.55,83.45]。
张敏强《教育与心理统计学》修订本笔记和课后习题(含考研真题)详解第13章聚类分析【本章重点】☆Q型与R型聚类☆聚类分析中距离的六种定义13.1复习笔记一、聚类分析的基本原理(一)聚类分析1.聚类分析的概念聚类分析是分类学与多元统计分析相结合的一种方法。
它将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。
其与一般分类方法的不同之处在于:(1)一般分类法往往从专业知识出发进行分析归类,而聚类分析先是仅凭变量指标进行定量分析,整理出分类的谱系追踪图,然后再据专业知识确定最终类型数目和类型命名;(2)一般的分类允许在不同层次上有不同的分类依据或分类准则,而聚类分析在所有层次上的分类依据和分类准则都是一样的;(3)一般分类不要求被分对象一次性完备,允许分类后继续补充样品甚至建立新类,而聚类分析要求被分类对象一次性完备,不允许中间插入新样品,否则要重复聚类分析的全过程。
2.聚类分析的分类依据(1)聚类分析作为一种数值分类法,分类依据是数据指标,要进行聚类分析必须建起一个描写事物本质属性的指标体系,或者一个变量组合。
(2)入选的指标需满足的要求:①指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,互相配合共同刻画事物的本质特征。
②要求每一个入选指标都与所研究的问题紧密联系,并且都有较强的分辨能力。
③指标本身还必须可测和稳定,可测是分类得以进行的先决条件,稳定是分类准确的前提。
如果分类指标间还具有直交性,那么还可提高聚类的效率。
若有N个样品、有M个指标,称为M维空间上N个样本点,测值X ik表示第i个样本点在第k维指标上的测量值。
空间N个样本点的所有测值可以矩阵X记之:(13.1)④在聚类分析中,要求入选的所有指标变量有统一的量纲。
(3)常用的整理原始数据的方法有以下几种:①数据中心化变换。
如果一批数据指标由于各自的分布中心有显著差异而导致量纲不一致,可以对数据作中心化变换,新的指标中心皆为0。
第5章 假设检验一、单项选择题1.在假设检验中,β值是( )。
A .犯Ⅰ型错误的概率B .犯Ⅱ型错误的概率C .犯Ⅰ型与Ⅱ型错误的概率之和D .犯Ⅰ型与Ⅱ型错误的概率之差【答案】B【解析】在进行假设检验时,有可能犯两类错误:①弃真错误,指虚无假设H 。
本来是正确的,但拒绝了H 。
的错误,即Ⅰ型错误。
由于这类错误的概率用α表示,故又称为α型错误。
②取伪错误,指虚无假设H 本来是不正确的,但却接受了H 的错误,即Ⅱ型错误,这类错误的概率以β表示,因此又称β型错误。
2.假设检验中的双侧检验是( )。
A .强调方向的检验B .强调差异大小的检验C .强调方向不强调差异的检验D .强调差异不强调方向性的检验【答案】D【解析】当只关心1μ和0μ是否有差异,而不关心到底1μ与0μ哪个更大,即只强调差异而不强调方向性的检验称为双侧检验。
当不仅关心1μ和0μ是否有差异,而且关心到底1μ与0μ哪个更大,即不仅强调差异性而且强调方向性的检验称为单侧检验。
3.应该使用单侧检验的问题进行了双侧检验,会导致( )。
A .α值减少,β值增加B .α值不变,β值增加C .α值增加,β值越小D .α值不变,β值减少【答案】A【解析】以显著性水平α=0.05为例,当使用单侧检验时,0.05的犯α错误概率只分布在一侧;而使用双侧检验时,0.05的犯α错误概率平均分配在两侧,一侧有0.025的犯α错误概率。
由于该检验本来应该是单侧检验,其中一侧的0.025的犯α错误的概率是不存在的,因此α值会减少。
α和β是此消彼长的关系,当α值减少时,β值会增加。
4.有研究者以韦氏儿童智力测验考察孤儿院中的儿童的智力水平是否比正常儿童低。
已知韦氏儿童智力测验常模的平均分是l00,标准差是15。
从孤儿院中随机抽取81个儿童进行韦氏儿童智力测验,得到的智商的平均分数是97。
那么从上述数据可知( )。
A .孤儿院长大的儿童与正常儿童在智商上没有统计学意义上的差距B .在0.05显著性水平上,孤儿院长大的儿童的智商低于正常儿童的智商C .在0.01显著性水平上,孤儿院长大的儿童的智商低于正常儿童的智商D .无法比较孤儿院长大的儿童的智商和正常儿童的智商【答案】B【解析】当总体是正态分布、总体方差已知时,样本平均数的分布为正态分布,需要检验的统计量为0X X CR Z SE μ-==,其中X SE =CR=1.8。
第7章回归分析一、单项选择题1.如果要建立两个变量之间的数学模型,下列统计方法中,最恰当的是()。
[统考2009研]A.方差分析法B.因素分析法C.回归分析法D.聚类分析法【答案】C【解析】回归分析是用数学模型来表示变量之间的关系;方差分析法是两个及两个以上样本均数差别的显著性检验;因素分析法是对问卷的结构等进行分析;聚类分析也是适合对结构进行分类等。
2.在回归分析中,考察回归效果使用的指标是()。
[统考2008研]A.内部一致性系数B.决定系数C.概化系数D.列联系数【答案】B【解析】回归分析中的决定系数表示因变量的变异中有多少是由自变量的变异引起,是用来考察回归效果的指标;内部一致性系数即同质性信度是信度的一种;概化系数是概化理论的指标;列联系数是表示相关的指标。
3.回归分析的主要功能是()。
A.量化描述事物之间的关系B.根据一个变量预测另一个变量C.使变量关系中不确定的部分给予严格确定D.确定变量关系的方向【答案】B【解析】回归分析的基本思想是试图对不确定的关系进行确定,然后依据所能得到的最大程度的确定关系,由已知变量预测未知变量。
4.在回归分析中,决定系数等于()。
A.相关系数B.相关系数的平方C.相关系数的平方根D.回归系数的平方【答案】B【解析】相关系数的平方等于回归平方和在总平方和中的比例,因此相关系数的平方能够说明一个变量对另一个变量解释的比例,称为决定系数。
5.如果要研究两个自变量对因变量的解释量,应选用的统计方法是()。
A.方差分析法B.因素分析法C.回归分析法D.聚类分析法【答案】C【解析】当研究两个或两个以上的自变量对因变量的预测时,采用的研究方法是回归分析中的多元线性回归分析法,可以计算多个自变量对因变量的解释量,指标就是多元决定系数(R2)。
6.对一元线性回归方程回归系数进行显著性检验通常采用的方法是()。
A.2χ检验B.F检验C.t检验D.Z检验【答案】C【解析】对回归系数b进行显著性检验,实则就是假设总体回归系数β=0,考察b是否也为0。
第10章常用教育与心理实验设计1.试述教育实验设计的意义及作用。
答:教育实验或心理实验是一种计划好的有控制的教育研究,其目的是为了解答问题,检验假设和估计效果。
(1)教育实验设计的意义教育实验设计的意义主要表现为如下几个方面。
①教育实验设计是教育科学研究计划内关于研究方法与步骤的一项重要内容。
②在教育科研工作中,在制订研究计划时,都应根据实验的目的和条例,结合统计学的要求,针对实验的全过程,认真考虑实验设计问题。
③在教育科研工作中,一个周密而完善的实验设计,能合理地安排各种实验因素,严格地控制实验误差,最大限度地获得丰富而可靠的资料。
总之,教育实验设计是教育研究中实验过程的依据、实验数据处理的前提,也是提高科研成果质量的一个重要保证。
(2)教育实验设计的作用教育实验设计的作用主要包括如下几个方面。
①能够回答教育研究心理研究的某些问题;②安排教育与心理实验,获得实验数据;③节省人力和物力;④获得科学结论。
2.教育实验设计要遵循哪些原则?答:费希尔首先提出实验设计应遵循三个原则:重复、局部控制和随机化。
它们是提高实验精度的最有效的方法。
(1)重复重复是指每一因素的水平(或因素的水平组合)的实验次数不少于2。
重复的作用是为了估计实验误差和减少实验误差。
(2)局部控制局部控制是力求使得非实验的影响尽可能减少的一种做法。
即让非实验条件在多次重复的实验中具有同质性。
(3)随机化随机化是实验设计中能够应用统计方法的保证。
它是指实验对象或实验材料的分配,以及各次实验中的先后次序,等等,都是随机选择和安排的。
其目的是使实验结果尽量避免受到主客观系统因素的影响而出现偏倚性,其作用是正确地估计误差。
3.比较随机区组实验设计和析因实验设计的异同。
答:(1)相同点随机区组实验设计和析因实验设计都是用来考查各实验处理对因变量的影响的实验设计;都可以用在多因素的实验设计中。
(2)不同点①概念不同随机区组设计是指将实验对象按一定的标准划分为数个区组,使得区组内的实验对象的个别差异尽可能小,既保证区组内的同质性,并使每个区组均接受所有实验处理,且各个区组内每个处理仅有一次观测,其顺序是随机决定的。
二、多项选择题1.描述数据离中趋势的统计量有()。
[统考2007年研]A.方差B.标准差C.平均差D.四分位差【答案】ABCD【解析】描述数据离中趋势的统计量称为差异量数,差异量数包括平均差、方差与标准差、四分位差、全距、百分位差等。
2.方差分析需要满足的前提条件有()。
[统考2008年研]A.总体正态分布B.各处理方差齐性C.总体方差已知D.各组样本容量相同【答案】AB【解析】方差分析的前提是总体正态、方差齐性、变异可加。
3.某次高考分数呈正态分布,以此为基础可以()。
[统考2009年研]A.计算考生的标准分数B.由P值,计算Z值C.确定某一分数界限内的考生比例D.知道计划录取人数后确定录取分数线【答案】ABCD【解析】正态分布的应用主要有四方面:①计算标准分数;②根据概率计算Z;③确定某一分数范围内的人数比率;④根据计划录取人数来确定录取分数线。
4.散点图的形状为一条直线,且两个变量方差均不为0,它们之间的相关系数可能为()。
[统考2010年研]A.1B.0.5C.OD.-l【答案】AD【解析】散点图的形状为一条直线,它们之间的相关系数可能为1或者-1。
5.线性回归分析的前提假设有()。
[统考2011年研]A.变量总体服从正态分布B.个体间随机误差相互独立C.自变量的个数多于因变量的个数D.因变量和自变量之间存在线性关系【答案】ABD【解析】线性回归的基本假设有四点:线性关系假设,X与Y在总体上存在线性关系,正态性假设,回归分析中的Y服从正态分布。
独立性假设,一是指与某一个X值对应的一组Y值和与另一个X值对应的一组Y值间没有关系,二是误差项独立,不同的X所产生的误差之间应相互独立。
误差等分散性假设。
6.下列关于χ2分布的特点描述,正确的有()。
[统考2012年研]A.χ2取值均为正值B.χ2分布是正偏态分布C.χ2分布为非连续性分布D.χ2分布的标准差与自由度相同【答案】AB【解析】卡方分布的特点:①χ2值是正值;②χ2分布呈正偏态,随着参数n 的增大,χ2分布趋近于正态分布;③χ2分布具有可加性,χ2分布的和也是χ2分布;④χ2分布是连续分布,但有些离散分布也服从χ2分布,尤其在次数统计上非常广泛。
第2章 常用统计参数1.某班学生的心理学平均成绩为75分,标准差为l0分,学生总数为43人。
根据这些信息,无法计算出的统计量有( )。
A .差异系数B .分数总和C .中数D .方差【答案】C【解析】中数计算方法:①首先确定中数在数据序列中的位置:dn M n =12n ,式中:dn M n 表示中数在数列中的位置;n 表示数列数据个数。
②然后再求数列中位于dn M n 位置上的那个数Mdn 。
题中没有具体数据序列,因此无法计算得到中数。
2.已知一组数据为2,5,13,10,8,21,则它们的中位数为( )。
A .8B .9C .10D .不存在【答案】B【解析】中位数又称中数,符号记为Mdn ,计算方法:①确定中数在数据序列中的位置:dn M n =12n +,式中,nMdn 表示中数在数列中的位置;n 表示数列数据个数。
②求数列中位于dn M n 位置上的那个数Mdn 。
由题可知,数据排序后为:2,5,8,10,13,21。
因为数据个数为偶数,则其中数为第(6+1)/2=3.5个数,即Mdn 应在8、10之间,因此答案为9。
3.某班30名学生的平均成绩是75分,其中10名女生的平均成绩是85分,那么该班男生的平均成绩是多少分?( ) A .65分B .70分C .75分D .68分【答案】B【解析】此题为加权平均数的变形,加权平均数的计算公式为:。
由公式可知,75=10852030X ⨯+⨯,X=70。
4.在教育与心理研究中,求平均增长率或对心理物理学中的等距与等比量表实验的数据处理,应当使用的统计量是( )。
A .算术平均数B .加权平均数C .几何平均数D.方差或标准差【答案】C【解析】几何平均数的应用:①心理物理学中等距与等比量表实验的数据处理;②教育与心理研究中平均增长率的计算。
5.如果把某班所有学生的分数都减少5分,则该班成绩的均值和方差会如何变化?()A.均值变小,方差不变B.均值不变,方差变小C.均值方差同时变小D.均值变小,方差变大【答案】A【解析】由方差的性质可知,每一个观测值都加或减一个相同常数c后,计算得到的方差等于原方差;由平均数的性质可知,每一个观测值都加上或减去一个相同常数c后,计算得到的平均数等于原平均数加上或减去这个常数c。
第2章常用统计参数
一、单项选择题
1.数据11、11、11、11、14、14、14、17、17的中位数是()。
A.14.0
B.12.5
C.13.66
D.13.83
【答案】C
【解析】当一组数据的中间的数与它附近的数重复时,要根据重复的个数将其均等地分开。
在本题中,数据个数是奇数,位于中间的数是第一个14,而l4有三个,此时要将l4均等的分为三部分,即第一个14是l3.5~l3.83(就是l3.66);第二个14是13.83~14.16(就是l3.99);第三个14是14.16~13.49(就是l4.32)。
因为位于这组数据中间的数是第一个14,所以该组数据的中位数就是l3.66。
2.数据11、11、11、ll、14、14、14、17、17、18的中位数是()。
A.15.0
B.15.5
C.13.83
D.14.0
【答案】C
【解析】当一组数据的中间的数与它附近的数重复时,要根据重复的个数将其均等地分开。
在本题中,数据个数是偶数,中位数应位于第一个l4和第二个14之间,而l4有三个,此时要将l4均等的分为三部分,即第一个14是l3.5~l3.83(就是l3.66);第二个14是13.83~14.16(就是l3.99);第三个14是14.16~13.49(就是l4.32)。
因为第一个14和第二个l4的中间是13.83,所以该组数据的中位数就是l3.83。
3.现有一列数据,它们是3,3,5,3,5,5。
这列数据的平均数、标准差和全距依次是( )。
A .4,1,2
B .4,6,2
C .4,6,1
D .4,1,1
【答案】A
【解析】根据平均数的公式i X X N
∑=,标准差的公式S ==(其中22X X ∑=∑(X-)),可以计算出平均数为4,标准差为1。
根据全距的求法(最大值减最小值),该组数据的全距是2。
4.有一组数据:3,6,2,6,32,4,8,6,5。
在进行计算这组数据的平均数之前,剔除了极端值,剔除极端值之后,该组数据的平均数是( )。
A .9
B .4.44
C.5
D.8
【答案】C
【解析】在本题中极值是32,将它剔除后剩余8个数之和为40,40除以8等于5。
5.关于平均数的描述错误的是()。
A.在一组数据中离均差的总和等于0
B.若出现模糊不清的数据时,无法计算平均数
C.容易受到抽样变动的影响
D.一组数据的每一个数都加上常数C,则所得平均数与原来平均数之差等于C
【答案】C
【解析】离均差是一组数据中的数据与平均数之差。
离均差之和必定等于0。
平均数是一组数据之和除以数据的个数,因此出现模糊数据时,无法计算平均数。
和其他的集中量数相比,平均数较少受到抽样变动的影响,观测样本的大小或个体的变化,都对计算平均数影响很小。
一组数据的每一个数都加上常数C,那么总和就增加了NC,所得的平均数就增加了C。
6.在次数分布中出现次数最多的那个数的数值是()。
A.中数
B.范数
C.平均数
D.几何平均数
【答案】B
【解析】在次数分布中出现次数最多的那个数的数值是众数,又称范数、密集数、通常数。
7.通常情况下,真值最好的估计值是()。
A.平均数
B.中数
C.众数
D.百分位数
【答案】A
【解析】算术平均数是应用最普遍的一种集中量数。
它是真值渐近、最佳的估计值。
8.在正偏态分布中,下列各数值最大的是()。
A.平均数
B.中数
C.众数
D.Q1
【答案】A
【解析】在正偏态分布中,平均数大于中数,中数大于众数。
第一四分位数(Q1)小于中数(中数即第二四分位数Q2),因此肯定也小于平均数。
所以,平均数最大。
9.已知变量x与变量Y之间存在着正相关,下列回归方程中哪个肯定是错的?()
A.Y=2+6X
B.Y=6+2X
C.Y=-8+2X
D.Y=8-8X
【答案】D
【解析】如果x和Y存在正相关,那么回归方程里x前面的系数肯定为正数。
10.下列数据类型属于顺序数据的是()。
A.智商分数
B.反应时
C.年级
D.数学成绩
【答案】C
【解析】顺序数据指既无相等单位,也无绝对零点的数据,是按事物某种属性的多少或大小按次序将各个事物加以排列后获得的数据资料,年级表示学生在校学习等级的高低,没有相等单位(不能认为一年级与二年级、二年级与三年级之间的差距是相等的),也没有绝对零点,因此属于顺序数据。
11.一个人的性别和体重这两个变量的数据类型分别属于()。
A.称名数据和等距数据
B.等距数据和比率数据
C.等距数据和等距数据
D.称名数据和比率数据
【答案】D
【解析】称名数据只说明某一事物与其他事物在属性上的不同或类别上的差异。
性别有男和女两种类别,男和女只表示属性不同,没有量上和顺序上的差别,因此属于称名数据。
比率数据既表明量的大小,也有相等单位,同时还有绝对零点的数据。
体重就是个体身体的重量,重量有绝对零点,也有相等单位,因此属于比率数据。
12.下列数据类型属于离散数据的是()。
A.智商分数
B.反应时
C.班级个数
D.数学成绩
【答案】C
【解析】按照数据是否具有连续性,可以把数据分为:①离散数据,又称为不连续数据,指数据在任何两个数据点之间所取的数值的个数是有限的,本题中,班级个数的取值个数有限,是离散数据;②连续数据,指在任意两个数据点之间都可以细分出无限多个不同的数值,本题中,智商分数、反应时和数学成绩取值个数无限,属于连续数据。
二、简答题
1.简述平均数、中数与众数的含义及三者的关系。
答:集中量数是描述数据集中程度的统计量,主要有算术平均数、中数、众数等。
(1)平均数、中数与众数的含义。