张厚粲《现代心理与教育统计学》配套题库【课后习题】(参数估计)【圣才出品】
- 格式:pdf
- 大小:533.63 KB
- 文档页数:13
第12章线性回归1.线性回归的基本假设是什么?答:(1)线性关系假设X与Y在总体上具有线性关系,这是一条最基本的假设。
回归分析必须建立在变量之间具有线性关系的假设成立上。
如果X与Y的真正关系不是线性,而回归方程又是按线性关系建立的,这个回归方程就没有什么意义了。
非线性的变量关系,需使用非线性模型。
(2)正态性假设正态性的假设系指回归分析中的Y服从正态分布。
(3)独立性假设①指与某一个X值对应的一组Y值和与另一个X值对应的一组Y值之间没有关系,彼此独立。
②指误差项独立,不同的X所产生的误差之间应相互独立,无自相关,而误差项也需与自变量X相互独立。
(4)误差等分散性假设误差等分散性是指特定X水平的误差,除了应呈随机化的常态分配,其变异量也应相等。
不相等的误差变异量(即误差变异歧异性),反应出不同水平的X与Y的关系不同,不应以单一的回归方程式去预测Y。
当研究资料具有极端值存在时,或非线性关系存在时,误差变异歧异性的问题就容易出现。
违反假设时,对于参数的估计检验力就会变得不足。
2.回归分析与相关分析的区别和联系是什么?答:(1)联系它们通常都是基于两正态连续变量的假设,都是处理两变量间相互关系的统计方法,通常两种方法不同时出现在文章中。
(2)区别①作为相互关系分析的方法,相关分析是通过提供一个相关系数来考察两变量间的联系程度,而回归分析则是重在建立两变量间的函数关系式,因此通常可以先考察相关系数的显著性,如果显著则可以进一步考虑建立变量间的回归方程。
②相关分析和回归分析各有一些具体方法用于处理不同的情况,如相关分析还包括等级相关、质量相关和品质相关,回归分析还包括非线性回归等。
3.解释回归系数。
答:在回归方程式Y∧=a+bX中常数b称为Y对X的回归系数,表示该直线的斜率,实际上也是Y∧的变化率,它表示当X增加1个单位时Y的平均增加或减少的数量,即当X 变化一个单位时,Y∧将变化b个单位。
4.利用下面的数据建立英语对语文的线性回归方程,并对方程进行检验,根据所建方程,若某学生语文40分,则其英语成绩的0.95预测区间是多少?答:(1)建立回归方程经计算X_=41,Y_=46.5,s X=25.48,s Y=19.88。
第三部分章节题库第1章绪论一、单选题1.三位研究者评价人们对四种速食面品牌的喜好程度。
研究者甲让评定者先挑出最喜欢的品牌,然后挑出剩下三种品牌中最喜欢的,最后再挑出剩下两种品牌中比较喜欢的。
研究者乙让评定者将四种品牌分别给予1—5的等级评定,(1表示非常不喜欢,5表示非常喜欢),研究者丙只是让评定者挑出自己最喜欢的品牌。
研究者甲,乙,丙所使用的数据类型分别是:()A.类目型---顺序型---计数型B.顺序型---等距型---类目型C.顺序型---等距型---顺序型D.顺序型---等比型---计数型【答案】B2.调查了n=200个不同年龄组的被试对手表显示偏好程度偏好程度年龄组数字显示钟面显示不确定30岁或以下90401030岁以上104010该题自变量与因变量的数据类型分别是:()A.类目型-顺序型B.计数型-等比型C.顺序型-等距型D.顺序型-命名型【答案】D3.157.5这个数的上限是()。
A.157.75B.157.65C.157.55D.158.5【答案】C4.随机现象的数量化表示称为()。
A.自变量B.随机变量C.因变量D.相关变量【答案】B5.实验或研究对象的全体被称之为()。
A.总体B.样本点C.个体D.元素【答案】A6.下列数据中,哪个数据是顺序变量?()A.父亲的月工资为1300元B.小明的语文成绩为80分C.小强100米跑得第2名D.小红某项技能测试得5分【答案】C二、概念题1.描述统计(吉林大学2002研)答:描述统计指研究如何整理心理教育科学实验或调查的数据,描述一组数据的全貌,表达一件事物的性质的统计方法。
比如整理实验或调查来的大量数据,找出这些数据分布的特征,计算集中趋势、离中趋势或相关系数等,将大量数据简缩,找出其中所传递的信息。
2.推论统计(中国政法大学2005研,浙大2000研)答:推论统计又称推断统计,主要研究如何通过局部数据所提供的信息,推论总体或全局的情形;如何对假设进行检验和估计;如何对影响事物变化的因素进行分析;如何对两件事物或多种事物之间的差异进行比较等。
第2章统计图表一、单项选择题1.统计图中的y轴一般代表()。
A.因变量B.自变量C.数据D.被试变量【答案】A【解析】统计图一般采用直角坐标系,通常横坐标或横轴表示事物的组别或自变量X,称为分类轴;纵坐标或纵轴表示事物出现的次数或因变量Y,称为数值轴。
2.上限与下限之差为()。
A.组限B.组距C.组数D.全距【答案】B【解析】A项,组限是一个组的起点值和终点值之间的距离,起点值称组下限,终点值称组上限,包括表述组限和精确组限两种。
B项,组距是指任意一组的起点和终点之间的距离,用符号i表示。
C项,组数(分组数目)的多少要根据数据的多少来定。
如果数据个数在100以上,习惯上一般分10~20组,经常取12~16组;数据个数较少时,一般分为7~9组。
D项,全距指最大数与最小数两个数据值之间的差距。
3.直方图一般适用于自变量的是()。
A.称名变量B.顺序变量C.等距变量D.等比变量【答案】C【解析】直方图,又称等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。
一般用纵轴表示数据的频数,横轴表示数据的等距分组点,即各分组区间的上下限,有时用组中值表示。
直方图适用于等距变量。
4.小李认为实验获得的数据有一定的偏斜,他想通过一种迅速有效的方式描述这种偏斜。
下列各种统计图中能描述这种偏斜的是()。
A.直条图B.直方图C.圆形图D.线形图【答案】C【解析】A项,直条图主要用于表示离散型数据资料,即计数资料。
它是以条形的长短表示各事物间数量的大小与数量之间的差异情况。
B项,直方图,又称等距直方图,是以矩形的面积表示连续性随机变量次数分布的图形。
C项,圆形图,又称饼图,主要用于描述间断性资料,目的是为显示各部分在整体中所占的比重大小,以及各部分之间的比较。
D项,线形图更多用于连续性资料,凡欲表示两个变量之间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象随另一种现象变化的情形,用线形图表示是较好的方法。
二、多项选择题1.卡方检验可以应用于()。
[统考2019年研]A.拟合性检验B.中位数检验C.独立性检验D.符号秩次检验【答案】ABC【解析】卡方检验包括拟合度检验、独立性检验和同质性检验,同时在非参数检验中的中位数检验也应用到卡方检验。
2.取样时应遵循的原则有()。
[统考2018年研]A.随机化B.代表性C.数量化D.置换性【答案】ABD【解析】A项,随机性是指研究中的被试、实验处理等被抽选的概率均等。
B项,代表性是指当样本能够代表总体的程度。
常用的方法之一是通过随机取样,使样本具有代表性。
这只在统计意义上获得的特征。
D项,置换性是指取样过程中已取样的样本成分返回到总体,继续参加取样;这在随机取样中特别重要。
一些研究表明,非置换性随机取样避免了在样本中出现重复选择的成分,因而比置换性取样更准确地估算样本指标。
3.建立一元线性回归模型的主要方法有()。
[统考2018年研]A.因素分析法B.平均数方法C.最小二乘法D.逐步回归法【答案】BC【解析】建立回归模型的方法有平均数法和最小二乘法。
如果只想从一组(X,Y)值中粗略地看看X与Y的简单线性关系,有时可以用平均数法建立回归方程来描述这种关系。
如果想得到比较精确的回归方程,则常用最小二乘法。
所谓最小二乘法,就是如果散点图中每一点沿Y轴方向到直线的距离(即Y i-Y i)的平方和最小,简单讲就是使误差的平方和最小,则在所有直线中这条直线的代表性就是最好的,它的表达式就是所要求的回归方程。
4.下列关于非参数检验的表述,正确的有()。
[统考2017年研]A.适用于小样本B.变量总体须服从二项分布C.适用于顺序数据资料D.未能充分利用资料的全部信息【答案】ACD【解析】非参数检验的特点:一般需要严格的前提假设;适用于小样本,方法简单;适用于顺序资料(等级变量);未能充分利用资料的全部信息,目前不能处理“交互作用”。
5.以下可以用于顺序量表数据的统计方法有()。
第7章参数估计一、单项选择题1.()表明了从样本得到的结果相比于真正总体的变异量。
A.信度B.效度C.置信区间D.取样误差【答案】D【解析】A项,信度是指测量结果的稳定性程度。
B项,效度是指一个测验或量表实际能测出其所要测的心理特质的程度。
C项,置信区间,也称置信间距,是指在某一置信度时,总体参数所在的区域距离或区域长度。
D项,取样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全局指标的绝对离差。
抽样误差不是由调查失误所引起的,而是随机抽样所特有的误差。
2.样本平均数的可靠性和样本的大小()。
A.没有一定关系B.成反比C.没有关系D.成正比【答案】D【解析】样本平均数的标准差与总体标准差成正比,与样本容量的平方根成反比。
计算公式为:x SE Nσ=式中σ为总体标准差,N 为样本的大小。
在一定范围内,样本量越大,样本的标准误差越小,则该样本平均数估计总体平均数的可靠性越大。
因此样本平均数的可靠性与样本的大小成正比。
3.样本容量均影响分布曲线形态的是()。
A.正态分布和F 分布B.F 分布和t 分布C.正态分布和t 分布D.正态分布和χ2分布【答案】B【解析】t 分布是一种左右对称、峰态比较高狭,分布形状会随样本容量n-1的变化而变化的一族分布:①当样本容量趋于∞时,t 分布为正态分布,方差为1;②当n-1>30以上时,t 分布接近正态分布,方差大于1,随n-1的增大而方差渐趋于1;③当n-1<30时,t 分布与正态分布相差较大,随n-1减少,离散程度(方差)越大,分布图的中间变低但尾部变高。
χ2分布是一个正偏态分布,随每次所抽取的随机变量X 的个数(n 的大小)不同,其分布曲线的形状不同,n 或n-1越小,分布越偏斜。
df 很大时,接近正态分布,当df→∞时,χ2分布即为正态分布。
F 分布形态是一个正偏态分布,它的分布曲线随分子、分母的自由度不同而不同,随df 1与df 2的增加而渐趋正态分布。
第4章差异量数一、单项选择题1.测得某班学生的物理成绩(平均分78分)和英语成绩(平均分70分),若比较两者的离中趋势,应计算()。
A.方差B.标准差C.四分差D.差异系数【答案】D【解析】两个或两个以上样本所使用的观测工具不同,所测的特质不同,此时不能用绝对差异量来比较不同样本的离散程度,而应使用相对差异量数。
最常用的相对差异量就是差异系数。
差异系数,又称变异系数、相对标准差等,它是一种相对差异量,用CV来表示,是标准差对平均数的百分比。
2.研究者决定通过每一个分数除以10来对原始分数进行转换。
原始分数分布的平均数为40,标准差为15。
那么转换以后的平均数和标准差将会是()。
A.4,1.5B.0.4,0.15C.40,1.5D.0.4,1.5【答案】A 【解析】平均数的特点是在一组数据中,每一个数都乘以一个常数c 所得的平均数为原来的平均数乘以常数c ,因此转换后的平均数为4;标准差的特点是每一个观测值都乘以一个相同的常数c ,则所得的标准差等于原标准差乘以这个常数,因此转换后的标准差为1.5。
3.已知平均数M =4.0,S =1.2,当X =6.4时,其相应的标准分数为( )。
A .2.4B .2.0C .5.2D .1.3【答案】B【解析】标准分数,又称基分数或Z 分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。
其计算公式为X X Z s-=把数据代入: 6.4 4.021.2X X Z s --===4.求数据16,18,20,22,17的平均差( )。
A .18.6B .1.92C .2.41D .5【答案】B【解析】平均数 161820221718.65i X X N++++===∑平均差 ..1618.61818.62018.62218.61718.651.92i X XA D n-=-+-+-+-+-==∑5.某学生某次数学测验的标准分为2.58,这说明全班同学中成绩在他以下的人数百分比是( ),如果是-2.58,则全班同学中成绩在他以上的人数百分比是( )。
第一部分考研真题一、单项选择题1.已知某小学一年级学生的体重平均数21kg,标准差3.2kg,身高平均数120cm,标准差6.0cm,则下列关于体重和身高离散程度的说法正确的是()。
[统考2019年研] A.体重离散程度更大B.身高离散程度更大C.两者离散程度一样D.两者无法比较【答案】A【解析】计算体重和身高的变异系数,CV体重=(3.2/21)×100%=15.2%,CV身高=(6/120)×100%=5%。
由此可知体重离散程度更大。
2.已知某正态总体的标准差为16,现从中随机抽取一个n=100的样本,样本标准差为16,则样本平均数分布的标准误为()。
[统考2019年研]A.0.16B.1.6C.4D.25【答案】B【解析】总体正态,且方差已知,则样本平均数的分布为正态分布,标准误SE=σ/sqr (n)=16/10=1.6。
3.如果学生参加压力量表测试的分数服从正态分布,平均数为5,标准差为2,那么分数处在5和9之间的学生百分比约为()。
[统考2019年研]A.34%B.48%C.50%D.68%【答案】B【解析】计算原始分数为5的标准分数Z1=0,原始分数为9的标准分数Z2=2,已知±1.96包含95%的个体,则可估计p(0<Z<2)=0.48。
4.对样本平均数进行双尾假设检验,在α=0.10水平上拒绝了虚无假设。
如果用相同数据计算总体均值的置信区间,下列描述正确的是()。
[统考2019年研] A.置信区间不能覆盖总体均值B.置信区间覆盖总体均值为10%C.置信区间覆盖总体均值为90%D.置信区间覆盖总体均值为0.9%【答案】C【解析】置信度即置信区间覆盖总体均值的概率,题干说明置信度为1-α=0.90。
5.一元线性回归分析中对回归方程是否有效进行检验,H0∶β=0,t=7.20,b=1.80,则斜率抽样分布的标准误SE b为()。
[统考2019年研]A .0.25B .1.48C .2.68D .4.00【答案】A 【解析】斜率即回归系数,回归系数的显著性检验t =(b -β)/SE b =7.20,已知β=0,b =1.80,则可计算得到标准误SE b =0.25。
第7章参数估计
1.何谓点估计与区间估计,它们各有哪些优缺点?
答:(1)点估计
①定义
点估计是指用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示。
②优缺点
a.优点
它能够提供总体参数的估计值。
b.缺点
点估计以随机变量中的某一个值来做估计,很显然会产生一定的误差。
若误差较小,这个点估计值还是一个好的估计值,若误差较大,这个点估计便失去了意义。
(2)区间估计
①定义
区间估计是指根据估计量以一定可靠程度推断总体参数所在的区间范围,它是用数轴上的一段距离表示未知参数可能落入的范围。
②优缺点
a.优点
不仅给出一个估计的范围,使总体参数包含在这个范围之内,而且还能给出估计精度并说明估计结果的有把握的程度。
b .缺点 无法具体指出总体参数等于什么。
2.试以方差的区间估计为例说明区间估计的原理。
答:区间估计的原理是样本分布理论。
在计算区间估计值,解释估计的正确概率时,依据的是该样本统计量的分布规律及样本分布的标准误(SE )。
也就是说,只有知道了样本统计量的分布规律和样本统计量分布的标准误才能计算总体参数可能落入的区间长度,并对区间估计的概率进行解释,可见标准误及样本分布对于总体参数的区间估计是十分重要的。
样本分布可提供概率解释,而标准误的大小决定区间估计的长度。
一般情况下,加大样本容量可使标准误变小。
自正态分布的总体中,随机抽取容量为n 的样本,其样本方差与总体方差比值的分布为χ2分布。
根据χ2分布,可以说:σ2有1-α的概率落在与之间。
3.总体平均数估计的具体方法有哪些?
答:总体平均数估计的具体方法有两种:
(1)总体方差σ2已知时,用Z 分数对总体平均数μ的估计
①当总体分布为正态时,不论样本n 的大小,其标准误X σ都是,这时样本的方差S 2在计算中没有用处。
依据上面所讲的步骤,查正态表,确定Z α/2,一般情况下显著性水平α确定为0.05或0.01。
()212/21n n s αχ--()()212
1/2
1n n s αχ---
②当总体为非正态分布时,只有当样本容量n >30以上,才能根据样本分布对总体平均数μ进行估计,否则不能进行估计。
(2)总体方差σ2未知,用样本的无偏方差()作为总体方差的估计值 在这种情况下,样本平均数的分布为t 分布,故应查t 值表,确定t α/2或t (1-α)/2有两种情况:
①总体的分布为正态时,可不管n 之大小。
②总体分布为非正态时,只有n >30,才能用概率对其样本分布进行解释,否则不能推论。
4.总体相关系数的置信区间,应根据何种分布计算?
答:当总体相关系数未知时,可用样本的相关系数作为其无偏点估计值。
而区间估计则有下述几种情况:
(1)当总体相关系数ρ=0时
样本相关系数的分布服从自由度df =n -2的t 分布,标准误
r σ=
置信区间为:r -t α/2×σr
<ρ<r +t α/2×σr 。
(2)当总体相关系数不为零时
①如果n >500,r 的分布呈现渐进正态分布,标准误
2
1r r σ-≈
置信区间为:r -Z α/2×σr <ρ<r +Z α/2×σr 。
21n s -
②利用费舍Z 函数分布计算
不论样本容量n 之大小,亦不论总体相关ρ=0还是ρ≠0函数的分布近似正态分布。
因此可用Z 的置信区间,估计相关系数r 的置信区间,具体步骤如下: a .将样本相关系数转换成Z 函数,有两种方法可选用:
第一,用公式计算
或
r 为已知样本相关系数。
第二,查r -Z r 转换表,由样本
r 值查Z r 值。
b .计算Z r 的置信区间
/2r αZ Z Z SE ±⋅
1
Z SE =
其中,Z r 为费舍Z 函数;Z α/2为查正态表得到的Z 分数。
c .将Z r 的置信区间转换成相关系数,亦有两种方法:
第一,用公式
2211
r
r Z Z e r e -=+ 计算r 值;
11log 21e r Z r +⎛⎫= ⎪-⎝⎭
1011.1513log 1r Z r +⎛⎫=⨯ ⎪-⎝⎭
第二,查r -Z r 转换表,将Z r 转换成r 值,因为Z r 置信区间有上下两个值,故也可查得两个r 值,这两个值便是总体相关系数的置信界限。
5.已知某科测验成绩的分布为正态,其标准差σ=5,从这个总体中抽取n =16的样本,算得X _=81,s =6,问该科测验的真实分数是多少?
答:成绩分布一般看作正态分布,总体方差已知。
平均数的抽样分布为正态分布。
取α=0.05,Z 0.05/2=1.96,则总体平均数μ的95%的置信区间为
/2/2ααX X
X Z σμX Z σ-<<+
代入数据
81-1.96×1.25<μ<81+1.96×1.25
78.55<μ<83.45 故该科测验的真实分数在78.55~83.45之间,估计正确的概率为0.95,错误概率为0.05。
6
.为了检查教学情况,某区级领导从所属学校中随机抽取100名学生回答一个问卷,最后计算得X _
=80分,s =7分,问该区教学的真实情况如何?
答:n >30为大样本,样本平均数的抽样分布为渐进正态分布,标准误为 70.704X s
σ===
取α=0.05,Z 0.05/2=1.96,则总体平均数μ的95%的置信区间为
5
1.25X σ
σ===
/2/2ααX X
X Z σμX Z σ-<<+ 代入数据,得:78.62<μ<81.38。
故该区教学的真实情况在78.62~81.38之间,估计正确的概率为0.95,错误概率为0.05。
7.已知历年学生体检情况。
如身高的标准差为8cm ,今年随机抽取
20名学生测其身高得X _
=171cm ,s =6cm ,试估计学生身高的真实情况。
答:假定身高的总体分布为正态分布,方差已知,则标准误为 1.789X ===σ 取α=0.05,Z 0.05/2=1.96,则总体平均数μ的95%的置信区间为 /2/2ααX X
X Z σμX Z σ-<<+
代入数据,得:167.49<μ<174.52。
故学生身高的真实情况在167.49~174.51之间,估计正确的概率为0.95,错误概率为0.05。
8.在一次预试中,得知某校150
名学生的成绩X _
=78,
s n -1=9,如果正式测验与预试的题目相同,试估计正式测验的平均成绩是多少?
答:n >30为大样本,样本平均数的抽样分布为渐进正态分布,标准误为 90.735X s ===σ。