张敏强《教育与心理统计学》【课后习题】(概率与分布)【圣才出品】
- 格式:pdf
- 大小:356.93 KB
- 文档页数:4
第4章抽样理论与参数估计
1.试述点估计和区间估计的定义,并叙述其优缺点。
答:(1)点估计
①定义
点估计是指用一个样本值来估计总体参数值的过程。
判断估计量优劣的标准是无偏性、有效性和一致性。
如:通常用样本平均数来作为总体平均数的估计,而总体标准差的估计则要用n-1的标准差来估计。
②优缺点
a.优点:计算简单,容易理解。
b.缺点:因为点估计值是由样本数据计算出的一个单一数值,由于是随机抽样的,因此由计算样本统计量而得到的点估计值,就有可能不是总体参数的真正值。
且当用点估计去估计总体参数的真值时,其误差大小及可靠程度如何都不知道。
(2)区间估计
①定义
区间估计是指在一定的置信度水平下,用置信区间来对总体参数进行估计的过程。
②优缺点
a.优点:克服了点估计的缺点,它不仅告诉了总体参数估计的值范围,而且还给出了可靠程度。
b.缺点:点估计是一个精确的值,但区间估计是一个大致的范围。
2.已知某中学一次数学考试成绩的分布为正态分布,总体标准差为σ=5,从这个总体中抽取n=16,并计算得到81X =,6S =,试问该次考试中全体考生成绩均值μ的95%的置信区间。
解:因为成绩的分布为正态分布,总体标准差已知,置信度为95%, 且题目已知:σ=5,0.052
1.96Z =,n=16,81X =
1.96/81 1.96 1.2578.55X n σ-=-⨯=
1.96/81 1.96 1.2583.45X n σ+=+⨯=
故μ的置信度为0.95时,置信区间是[78.55,83.45]。
张敏强《教育与心理统计学》修订本笔记和课后习题(含考研真题)详解第13章聚类分析【本章重点】☆Q型与R型聚类☆聚类分析中距离的六种定义13.1复习笔记一、聚类分析的基本原理(一)聚类分析1.聚类分析的概念聚类分析是分类学与多元统计分析相结合的一种方法。
它将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类。
其与一般分类方法的不同之处在于:(1)一般分类法往往从专业知识出发进行分析归类,而聚类分析先是仅凭变量指标进行定量分析,整理出分类的谱系追踪图,然后再据专业知识确定最终类型数目和类型命名;(2)一般的分类允许在不同层次上有不同的分类依据或分类准则,而聚类分析在所有层次上的分类依据和分类准则都是一样的;(3)一般分类不要求被分对象一次性完备,允许分类后继续补充样品甚至建立新类,而聚类分析要求被分类对象一次性完备,不允许中间插入新样品,否则要重复聚类分析的全过程。
2.聚类分析的分类依据(1)聚类分析作为一种数值分类法,分类依据是数据指标,要进行聚类分析必须建起一个描写事物本质属性的指标体系,或者一个变量组合。
(2)入选的指标需满足的要求:①指标必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,互相配合共同刻画事物的本质特征。
②要求每一个入选指标都与所研究的问题紧密联系,并且都有较强的分辨能力。
③指标本身还必须可测和稳定,可测是分类得以进行的先决条件,稳定是分类准确的前提。
如果分类指标间还具有直交性,那么还可提高聚类的效率。
若有N个样品、有M个指标,称为M维空间上N个样本点,测值X ik表示第i个样本点在第k维指标上的测量值。
空间N个样本点的所有测值可以矩阵X记之:(13.1)④在聚类分析中,要求入选的所有指标变量有统一的量纲。
(3)常用的整理原始数据的方法有以下几种:①数据中心化变换。
如果一批数据指标由于各自的分布中心有显著差异而导致量纲不一致,可以对数据作中心化变换,新的指标中心皆为0。
第10章常用教育与心理实验设计1.试述教育实验设计的意义及作用。
答:教育实验或心理实验是一种计划好的有控制的教育研究,其目的是为了解答问题,检验假设和估计效果。
(1)教育实验设计的意义教育实验设计的意义主要表现为如下几个方面。
①教育实验设计是教育科学研究计划内关于研究方法与步骤的一项重要内容。
②在教育科研工作中,在制订研究计划时,都应根据实验的目的和条例,结合统计学的要求,针对实验的全过程,认真考虑实验设计问题。
③在教育科研工作中,一个周密而完善的实验设计,能合理地安排各种实验因素,严格地控制实验误差,最大限度地获得丰富而可靠的资料。
总之,教育实验设计是教育研究中实验过程的依据、实验数据处理的前提,也是提高科研成果质量的一个重要保证。
(2)教育实验设计的作用教育实验设计的作用主要包括如下几个方面。
①能够回答教育研究心理研究的某些问题;②安排教育与心理实验,获得实验数据;③节省人力和物力;④获得科学结论。
2.教育实验设计要遵循哪些原则?答:费希尔首先提出实验设计应遵循三个原则:重复、局部控制和随机化。
它们是提高实验精度的最有效的方法。
(1)重复重复是指每一因素的水平(或因素的水平组合)的实验次数不少于2。
重复的作用是为了估计实验误差和减少实验误差。
(2)局部控制局部控制是力求使得非实验的影响尽可能减少的一种做法。
即让非实验条件在多次重复的实验中具有同质性。
(3)随机化随机化是实验设计中能够应用统计方法的保证。
它是指实验对象或实验材料的分配,以及各次实验中的先后次序,等等,都是随机选择和安排的。
其目的是使实验结果尽量避免受到主客观系统因素的影响而出现偏倚性,其作用是正确地估计误差。
3.比较随机区组实验设计和析因实验设计的异同。
答:(1)相同点随机区组实验设计和析因实验设计都是用来考查各实验处理对因变量的影响的实验设计;都可以用在多因素的实验设计中。
(2)不同点①概念不同随机区组设计是指将实验对象按一定的标准划分为数个区组,使得区组内的实验对象的个别差异尽可能小,既保证区组内的同质性,并使每个区组均接受所有实验处理,且各个区组内每个处理仅有一次观测,其顺序是随机决定的。
二、多项选择题1.描述数据离中趋势的统计量有()。
[统考2007年研]A.方差B.标准差C.平均差D.四分位差【答案】ABCD【解析】描述数据离中趋势的统计量称为差异量数,差异量数包括平均差、方差与标准差、四分位差、全距、百分位差等。
2.方差分析需要满足的前提条件有()。
[统考2008年研]A.总体正态分布B.各处理方差齐性C.总体方差已知D.各组样本容量相同【答案】AB【解析】方差分析的前提是总体正态、方差齐性、变异可加。
3.某次高考分数呈正态分布,以此为基础可以()。
[统考2009年研]A.计算考生的标准分数B.由P值,计算Z值C.确定某一分数界限内的考生比例D.知道计划录取人数后确定录取分数线【答案】ABCD【解析】正态分布的应用主要有四方面:①计算标准分数;②根据概率计算Z;③确定某一分数范围内的人数比率;④根据计划录取人数来确定录取分数线。
4.散点图的形状为一条直线,且两个变量方差均不为0,它们之间的相关系数可能为()。
[统考2010年研]A.1B.0.5C.OD.-l【答案】AD【解析】散点图的形状为一条直线,它们之间的相关系数可能为1或者-1。
5.线性回归分析的前提假设有()。
[统考2011年研]A.变量总体服从正态分布B.个体间随机误差相互独立C.自变量的个数多于因变量的个数D.因变量和自变量之间存在线性关系【答案】ABD【解析】线性回归的基本假设有四点:线性关系假设,X与Y在总体上存在线性关系,正态性假设,回归分析中的Y服从正态分布。
独立性假设,一是指与某一个X值对应的一组Y值和与另一个X值对应的一组Y值间没有关系,二是误差项独立,不同的X所产生的误差之间应相互独立。
误差等分散性假设。
6.下列关于χ2分布的特点描述,正确的有()。
[统考2012年研]A.χ2取值均为正值B.χ2分布是正偏态分布C.χ2分布为非连续性分布D.χ2分布的标准差与自由度相同【答案】AB【解析】卡方分布的特点:①χ2值是正值;②χ2分布呈正偏态,随着参数n 的增大,χ2分布趋近于正态分布;③χ2分布具有可加性,χ2分布的和也是χ2分布;④χ2分布是连续分布,但有些离散分布也服从χ2分布,尤其在次数统计上非常广泛。
第2章 常用统计参数1.某班学生的心理学平均成绩为75分,标准差为l0分,学生总数为43人。
根据这些信息,无法计算出的统计量有( )。
A .差异系数B .分数总和C .中数D .方差【答案】C【解析】中数计算方法:①首先确定中数在数据序列中的位置:dn M n =12n ,式中:dn M n 表示中数在数列中的位置;n 表示数列数据个数。
②然后再求数列中位于dn M n 位置上的那个数Mdn 。
题中没有具体数据序列,因此无法计算得到中数。
2.已知一组数据为2,5,13,10,8,21,则它们的中位数为( )。
A .8B .9C .10D .不存在【答案】B【解析】中位数又称中数,符号记为Mdn ,计算方法:①确定中数在数据序列中的位置:dn M n =12n +,式中,nMdn 表示中数在数列中的位置;n 表示数列数据个数。
②求数列中位于dn M n 位置上的那个数Mdn 。
由题可知,数据排序后为:2,5,8,10,13,21。
因为数据个数为偶数,则其中数为第(6+1)/2=3.5个数,即Mdn 应在8、10之间,因此答案为9。
3.某班30名学生的平均成绩是75分,其中10名女生的平均成绩是85分,那么该班男生的平均成绩是多少分?( ) A .65分B .70分C .75分D .68分【答案】B【解析】此题为加权平均数的变形,加权平均数的计算公式为:。
由公式可知,75=10852030X ⨯+⨯,X=70。
4.在教育与心理研究中,求平均增长率或对心理物理学中的等距与等比量表实验的数据处理,应当使用的统计量是( )。
A .算术平均数B .加权平均数C .几何平均数D.方差或标准差【答案】C【解析】几何平均数的应用:①心理物理学中等距与等比量表实验的数据处理;②教育与心理研究中平均增长率的计算。
5.如果把某班所有学生的分数都减少5分,则该班成绩的均值和方差会如何变化?()A.均值变小,方差不变B.均值不变,方差变小C.均值方差同时变小D.均值变小,方差变大【答案】A【解析】由方差的性质可知,每一个观测值都加或减一个相同常数c后,计算得到的方差等于原方差;由平均数的性质可知,每一个观测值都加上或减去一个相同常数c后,计算得到的平均数等于原平均数加上或减去这个常数c。
第11章主成分分析1.试述主成分分析的主要作用。
答:主成分分析主要是用以寻找判断某种事物或现象的主要综合指标,它是在不损失或很小损失原有信息的前提下,将原来多个彼此相关的指标转换为新的少数几个彼此独立的综合指标的一种多元统计分析方法。
概括来讲,主成分分析主要包括以下几个方面的作用。
(1)主成分分析能降低所研究的数据空间的维数。
(2)有时可通过因子负荷的结论,弄清X变量间的某些关系。
(3)它是多维数据的一种图形表示方法。
经过主成分分析后,可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样本在二维平面上的分布情况,由图形可直观地看出各样本在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。
(4)由主成分分析法构造回归模型。
(5)用主成分分析筛选回归变量。
回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。
用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。
2.试述主成分分析与推断统计的主要异同。
答:主成分分析主要是用以寻找判断某种事物或现象的主要综合指标,它是在不损失或很小损失原有信息的前提下,将原来多个彼此相关的指标转换为新的少数几个彼此独立的综合指标的一种多元统计分析方法。
推断统计是研究如何利用样本数据来推断总体特征的统计方法。
二者的异同主要表现为:(1)相同点主成分分析和推断统计都是用观测的数据来对所研究的问题进行推断。
主成分分析的贡献率至少达85%,而推断统计中的假设检验和参数估计也是在一定的置信度下来推断总体的数据,如常用的置信度水平为95%或者99%。
(2)不同点①基本原理主成分分析是一种通过降维技术把多个变量化为少数几个主成分的统计分析方法。
这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线形组合。
当原来p个变量的总变差能够由少数几个线形组合来概括,那么这些线形组合中包含的信息与原来p个变量几乎一样多,可以用这些线形组合替代原来的p个变量,这样使观测数据从高维降到低维,简化了数据。
第11章聚类分析【学习目标】1.了解聚类分析的原理法。
2.了解聚类分析的数据整理方法。
3.识记聚类分析中距离的六种定义。
4.识记相关系数相关概念。
5.掌握聚类分析的三种方法。
11.1复习笔记一、聚类分析的基本原理(一)聚类分析1.聚类分析的概念聚类分析是指将分类对象置于一个多维空间中,按照它们空间关系的亲疏程度进行分类的统计方法。
其与一般分类方法的不同之处在于:(1)一般分类法往往从专业知识出发进行分析归类,而聚类分析先是仅凭变量指标进行定量分析,整理出分类的谱系追踪图,然后再据专业知识确定最终类型数目和类型命名;(2)一般的分类允许在不同层次上有不同的分类依据或分类准则,而聚类分析在所有层次上的分类依据和分类准则都是一样的;(3)一般分类不要求被分对象一次性完备,允许分类后继续补充样品甚至建立新类,而聚类分析要求被分类对象一次性完备,不允许中间插入新样品,否则要重复聚类分析的全过程。
2.聚类分析的分类依据(1)聚类分析作为一种数值分类法,分类依据是数据指标,要进行聚类分析必须建起一个描写事物本质属性的指标体系,或者一个变量组合。
(2)入选的指标需满足的要求①必须能刻画事物属性的某个侧面,所有指标组合起来形成一个完备的指标体系,互相配合共同刻画事物的本质特征。
②要求每一个入选指标都与所研究的问题紧密联系,并且都有较强的分辨能力。
③对于指标本身还必须可测和稳定,可测是分类得以进行的先决条件,稳定是分类准确的前提。
如果分类指标间还具有直交性,那么还可提高聚类的效率。
若有N个样品、有M个指标,称为M维空间上N个样本点,测值X ik表示第i个样本点在第k维指标上的测量值。
空间N个样本点的所有测值可以矩阵X记之:④在聚类分析中,要求入选的所有指标变量有统一的量纲。
⑤常用的整理原始数据的方法有以下几种:a.数据中心化变换如果一批数据指标由于各自的分布中心有显著差异而导致量纲不一致,可以对数据作中心化变换,新的指标中心皆为0。
第3章概率与分布
1.什么是概率?概率与频率有何区别?
答:(1)概率
概率是对随机事件发生的可能性的度量。
①概率的统计定义
在大量重复N次的试验中,当N无限增大时,事件A发生的频率n/N稳定在一个确定的常数附近,这个数用来表示事件A发生的概率,记作P(A):。
②概率的古典定义
若试验由n个有限的基本事件组成,且每次试验中每个基本事件出现是等可能的,有利事件A发生的次数为m,则事件A的概率为:。
(2)概率与频率的区别
①某随机事件发生的概率是一个常数,是客观存在的,与试验次数无关。
而频率是随机的,试验前无法确定。
②频率是事件发生的外在表现,而概率体现着事件发生的内在实质。
2.某考生对微积分知识一无所知,完全凭猜测回答10道微积分的是非题,问猜对5题的概率是多大?猜对7题以上的概率有多大?
答:把考生回答微积分的一题看成是一个事件,回答10次为独立的事件,每次试验结果只有两个结果,记答对的概率为p,答错的概率为q,则:p=q=0.5;用随机变量x表示10次试验答对的题数。
猜中5题的概率为:
猜对7题以上的概率为:
P=
=0.11719+0.04395+0.00977+0.00098
=0.17189
3.有一份20道四选一的单项选择题的试卷,考生全凭猜测,问:
(1)猜对10题
(2)猜对15题
(3)猜对10题到15题
(4)全部猜对
(5)至少猜对15题
的概率各为多少?
解:把考生对每一个四选一的单项选择题的猜测看成是一次试验,则20道题为相互独立的试验,记猜对的概率为p ,错误的概率为q ,则13,44p q ==。
(1)猜对10题的概率为:
1010101020!13()()0.0099210!(2010)!44
P p q =⨯=⨯-1020(x=10)=C (2)猜对15题的概率为:
155155620!13()() 3.42651015!(2015)!44
P p q -=⨯=⨯⨯-15
20(x=15)=C (3)猜对10题到15题概率为:
P P P P P P P =⨯-2(x=10)+(x=11)+(x=12)+(x=13)+(x=14)+(x=15)=1.38610
(4)全部猜对的概率为:
20020131()9.095104
P p q -==⨯2020(x=20)=C (5)至少猜对15题的概率为:
23.81710P P P P P P P -=⨯(x=15)+(x=16)+(x=17)+(x=18)+(x=19)+(x=20)=
4.已知X 服从均值为μ,标准差为σ的正态分布,求以下的概率并解释其概率意义。
(1)
(2) 解:首先将一般的正态分布转换为标准正态分布,因为x ~N (μ,σ2),利用变换后,Z ~N (0,1),再根据正态分布表以及上面两个原则进行计算。
{}{}{}{}1.86 1.86 1.86 1.86 1.86 1.861.86 1.8620 1.8620.468560.93712
X P X P X P P z P z μμσμσσμσσ-⎧⎫-≤≤+=-≤-≤=-≤≤+⎨⎬⎩⎭
=-≤≤=<≤=⨯=
{}{}{}{}3.7 3.7 3.7 3.7 3.7 3.73.7 3.720 3.720.499890.9998
X P X P X P P z P z μμσμσσμσσ-⎧⎫-≤≤+=-≤-≤=-≤≤+⎨⎬⎩⎭
=-≤≤=<≤=⨯=
(1)(2)的计算结果分别表明了正态曲线下正负1.86和3.7个标准差之间所包含的面积分别占正态曲线下总面积的93.712%,99.978%。
5.某市组织招工考试,考试成绩平均分=70分,标准差S=12分,若这次招工录取率约为16%,查正态分布表确定最低录取分数。
解:设这次招工考试成绩服从x ~N (70,122),通过Z=(x-70)/12的变换后,Z ~N (0,1)。
依题意,招生人数的概率:
=0.16
=0.34
查表得:当Z=1时,P=0.34134;当Z=0.99时,P=0.33891。
故取近似值1或0.99
均可作为Z的值。
若要求更精确些的Z值,可以用内插法。
Z=0.995
故分数线应定为:x=12Z+70=12×0.995+70=81.94分
答:如果这次招工的录取率为16%,那么最低的录取分数线应该定为82分。