SPSS方差分析案例实例
- 格式:doc
- 大小:111.10 KB
- 文档页数:4
请分析一个班三组不同性别的同学(分别接受了三种不同的教学方法)在数学成绩上是否有显著差异?根据题意,数学成绩分数的高低可能受到不同的教学方法跟性别的的影响,因此考虑两个因素水平下成绩的差异问。
在对其进行方差齐性分析前,首先对数据进行独立性,正态性,方差齐性检验。
1独立性检验用游程检验,检验其独立性,检验结果如下:图1-1游程检验数学成绩检验值a76.83案例 < 检验值8案例 >= 检验值10案例总数18Runs 数7Z -1.176渐近显著性(双侧) .240a. 均值根据图1-1数学成绩关于游程检验的结果可以看到,游程检验的P值为0.089 大于显著性水平 =0.05,故接受原假设,即认为各位同学的数学成绩不具有相关性,所以各变量之间是独立的。
2 正态性检验图1-2单样本 Kolmogorov-Smirnov 检验数学成绩N 18正态参数a,b均值76.83标准差17.041最极端差别绝对值.244正.167负-.244Kolmogorov-Smirnov Z 1.035渐近显著性(双侧) .235a. 检验分布为正态分布。
b. 根据数据计算得到。
根据图1-2可以看到数学成绩的K-S正太分布检验显著性水平位0.235,大于0.05,故接受原假设,既数学成绩服从正太分布。
3方差齐性检验图1-3根据图1-3可以看到,sig值为0.477,明显大于显著性水平0.05,故接受原假设,即认为各样本的数学成绩具方差齐性。
主体间因子N组别0 61 62 6性别 f 7m 11从上表可以看出,组别的SIG值为0,既拒绝原假设,可以认为,在95%的置信水平下,组别既不同的教学方法对成绩的影响存在显著的差异。
性别跟组别跟性别之间的叫互影响均对数学成绩没有显著地影响。
并且也可以看到2R=0.849,调整后的2R=0.849可见方程的拟合度非常好。
问题:已知一个班三组同学的入学成绩和分别接受了三种不同的教学方法后的数学成绩如下表所示,试研究这三组同学在接受了不同的教学方法后在数学成绩上是否有显著性差异?本案例中,主要研究不同的教学方法对数学成绩的影响,但是入学成绩可能可能对数学成绩有一定的影响,但又不是我们主要关心的因素,应尽量排除入学成绩对成绩的影响,因此将入学成绩做为协变量。
多元方差分析1992年美国总统选举的三位候选人为布什、佩罗特、克林顿。
从支持三位候选人的选民中分别分析:该题自变量为三位候选人,因变量为年龄段和受教育程度。
从自变量来看要进行方差分析,从因变量来看是二元分析,所以最终确定使用多变量分析具体操作(spss)1、打开spss,录入数据,定义变量和相应的值在此不作详述。
结果如图1图1 被投票人:1、布什2、佩罗特3、克林顿2、在spss窗口中选择分析——一般线性模型——多变量,调出多变量分析主界面,将年龄段和受教育程度移入因变量框中,被投票人移入固定因子框中。
如图2图2 多变量分析主界面3、点击选项按钮在输出框中选择方差齐性分析(既包括协方差矩阵等同性分析也包括误差方差齐性分析),其它使用默认即可,点击继续返回主界面。
如图3图3 选项子对话框4、点击确定,运行多变量分析过程。
结果解释1、协方差矩阵等同性的Box检验结果,如图4图4 协方差矩阵检验结果说明:此Box检验的协方差矩阵为三位候选人每个人的支持者的年龄段和受教育程度的协方差矩阵。
因为sig>0.05,所以差异不显著,即各个因变量的协方差矩阵在所有三个候选人组中是相等的。
可以对其进行多元方差分析。
2、多变量检验结果,如图5图5 多变量检验结果说明:被投票人在四种统计方法中的sig均小于0.05,所以差异显著,即三组的总体均值有显著性差异3、误差方差等同性的Levene检验结果,如图6图6 Levene检验结果说明:只考虑单个变量,年龄段或者受教育程度,每位候选人的20名支持者的随机误差是否有显著性差异。
因为sig>0.05,差异不显著,所以三位候选人的20名支持者的随机误差相等。
可以进行单因素方差分析。
4、主体间效应的检验结果,如图7图7 主体间效应的检验结果说明:被投票人一行中,年龄段的sig<0.05,差异显著,即支持三位候选人的选民中,年龄段之间存在显著差异;而受教育程度的sig>0.05,差异不显著,即支持三位候选人的选民中,受教育程度差异不显著。
SPSS第二次作业——方差分析1、案例背景:在一些大型考试中,为了保证结果的准确和一致性,通常针对一些主观题,都采取由多个老师共同评审的办法。
在评分过程中,老师对学生的信息不可见,同时也无法看到其他评分,保证了结果的公正性。
然而也有特殊情况的发生,导致了成绩的不稳定,这就使得对不同教师的评分标准考察变得十分必要。
2、案例所需资料及数据的获取方式和表述,变量的含义以及类型:所需资料:抽样某地某次考试中不同教师对不同的题目的学生成绩的评分;获取方式:让一组学生前后参加四次考试,由三位教师进行批改后收集数据;变量含义、类型:一份试卷的每道主观题由三名教师进行评定,3个教师的评定结果可看成事从同一总体中抽出的3个区组,它们在四次评定的成绩是相关样本。
表1如下:3、分析方法:用方差分析的方法对四个总体的平均数差异进行综合性的F检验。
4、数据的检验和预处理:a) 奇异点的剔除:经检验得无奇异点的剔除;b) 缺失值的补齐:无;c) 变量的转换(虚拟变量、变量变换):无;d) 对于所用方法的假设条件的检验:进行正态性和方差齐性的检验。
✓正态性,用QQ图进行分析得下图:得到近似满足正态性。
✓对方差齐性的检验:用SPSS对方差齐性的分析得下表:Test of Homogeneity of Variances分数Levene Statistic df1 df2 Sig..732 2 9 .508易知P〉0.05,接受方差齐性的假设。
5、分析过程:a) 所用方法:单因素方差分析;方差分析中的多重比较。
b) 方法细节:●单因素方差分析第一步,提出假设:H0:μ1=μ2=μ3;(教师的评定基本合理,即均值相同)H1:μi(i=1,2,3)不全相等;(教师的评定不够合理,均值有差异)第二步,为检验H0是否成立,首先计算以下统计量:1,计算水平均值及总体均值:表2 三位教师评选结果的均值2-计算平方和和自由度:总离差平方和:SST=211)-(∑∑==ki n j iij x x =16.947,自由度为n-1=11组内离差平方和:SSE=211)x -(i ∑∑==ki n j iij x =16.275,自由度为n-k=9组间平方和:SSA=211)-(∑∑==ki n j ii x x =0.672,自由度为k-1=23-计算均方:MSA=1SSA -k =0.336MSE=kn -SSE =1.8084-计算检验的统计量F : F=MSEMSA ~F(k-1,n-k) 计算F=0.186将结果汇集到表中:第三步,统计决断:查F 值表得F 0.01(2,11)=7.21>0.186。
第一题:data0706-nutrition为地衣(lichen)、树叶成叶和嫩叶的蛋白质和可溶性碳水化合物(water soluble carbohydrate)的含量,先分析三者之间蛋白质的含量有无差异?如果有差异,具体是怎么差异的?再可溶性碳水化合物的含量有无差异?如果有差异,具体怎么差异?(1)地衣(lichen)、树叶成叶和嫩叶的蛋白质的含量差异分析;第一步:导出变量items和protein,以便删除protein中缺失数据。
第二步:打开导出数据data0706-nutrition1,先排序,然后删除缺失数据。
第三步:对data0706-nutrition1数据的正态性、异常值和极值、方差齐性进行检验,对数据做一个检查,Analyze->Descriptive Statistics->Explore;首先:如上图,把要检验的变量protein送入Dependent List,把分组变量(因素变量)items送入Factor List。
其次:如下图,点击Plots打开:选择Factor Levels together、Stem-and-leaf、Histogram、Normality plots with tests,下方Spread vs Level with Levene Test可以提供方差齐性的检验,选择Untransformed(不对数据进行转换)。
输出结果:第一组是尽管sig=0.935,但由于样本数太小,正态一般;第二组正态性不好。
第三组中,p较小,也只是近似正态。
基于平均数的计算(Based on Mean),各组方差有差异(p=0.044)。
由直方图可以看出,在第二组和第三组存在一些极值,数据分布不均匀,连续性不好。
由茎叶图可知,第二组和第三组分别存在4个,3个极值。
由qq图和QQ图不能得到一些较有用的信息,因为正态性之前已经判断。
箱图并与茎叶图一致,在第二组标识了4个异常值,第三组标识了3个异常值。
本次实验采用2005年东部、中部和西部各地区省份城镇居民月平均消费类型划分的数据(课本139页),将东部、中部和西部看作三个不同总体,31个数据分别来自于这三个总体。
本人对这三个不同地区的城镇居民月平均消费水平进行比较,并选取人均粮食支出、副食支出、烟酒及饮料支出、其他副食支出、衣着支出、日用杂品支出、水电燃料支出和其他非商品支出八个指标来衡量城镇居民月平均消费情况。
在进行比较分析之前,首先对个数据是否服从多元正态分布进行检验,输出结果为:表一如表一,因为该例中样本数n=31<2000,所以此处选用Shapiro-Wilk统计量。
由正态性检验结果的sig.值可以看到,人均粮食支出、烟酒及饮料支出、其他副食支出、水电燃料支出和其他非商品支出均明显不遵从正态分布(Sig.值小于,拒绝服从正态分布的原假设),因此,在下面分析中,只对人均副食支出、衣着支出和日用杂品支出三项指标进行比较,并认为这三个变量组成的向量都遵从正态分布,并对城镇居民月平均消费状况做出近似的度量。
另外,正态性的检验还可以通过Q-Q图来实现,此时应判别数据点是否与已知直线拟合得好。
如果数据点均落在直线附近,说明拟合得好,服从正态分布,反之,不服从。
具体情况这里不再赘述。
下面进行多因素方差分析:一、多变量检验表二由地区一栏的(即第二栏)所列几个统计量的Sig.值可以看到,无论从那个统计量来看,三个地区的城镇居民月平均消费水平都是有显著差别的(Sig.值小于,拒绝地区取值不同,对Y,即城镇居民月平均消费水平的取值没有显著影响的原假设)。
二、主体间效应检验表三如表三,可以看到三个指标地区一栏的(即第三栏)Sig.值分别为、、,说明三个地区在人均衣着支出指标上没有明显的差别(Sig.值大于,不拒绝地区取值不同,对指标的取值没有显著影响的原假设),反之,而在人均副食支出和日用杂品支出指标上有显著差别。
三、多重比较表四Contrast Results (K Matrix)地区 Simple Contrast aDependent Variable 人均副食支出(元/人)人均日用杂品支出(元/人)人均衣着支出(元/人)Level 1 vs. Level 3 Contrast EstimateHypothesized Value0 0 0 Difference (Estimate - Hypothesized) Std. Error Sig..001.036.51795% Confidence Interval for DifferenceLower Bound.173Upper BoundLevel 2 vs. Level 3 Contrast EstimateHypothesized Value0 0 0 Difference (Estimate - Hypothesized) Std. Error Sig..668.343.63895% Confidence Interval for DifferenceLower BoundUpper Bound表四Contrast Results (K Matrix)地区 Simple Contrast aDependent Variable 人均副食支出(元/人)人均日用杂品支出(元/人)人均衣着支出(元/人)Level 1 vs. Level 3 Contrast EstimateHypothesized Value0 0 0 Difference (Estimate - Hypothesized) Std. Error Sig..001.036.51795% Confidence Interval for DifferenceLower Bound.173Upper BoundLevel 2 vs. Level 3 Contrast EstimateHypothesized Value0 0 0 Difference (Estimate - Hypothesized) Std. Error Sig..668.343.63895% Confidence Interval for DifferenceLower BoundUpper Bounda. Reference category = 3如表四,在显著水平下,东部和西部的人均副食支出(Sig.值为)和日用杂品支出(Sig.值为)指标有明显差别(小于,拒绝原假设),而在人均衣着支出(Sig.值为)指标上没有明显的差别。
SPSS双因素方差分析例1 对小白鼠喂以三种不同的营养素,目的是了解不同营养素增重的效果。
采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。
现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。
三周后体重增量结果(克)列于下表,问小白鼠经三种不同营养素喂养后所增体重有无差别?区组号营养素1 营养素2 营养素31 50.10 58.20 64.502 47.80 48.50 62.403 53.10 53.80 58.604 63.50 64.20 72.505 71.20 68.40 79.306 41.40 45.70 38.407 61.90 53.00 51.208 42.20 39.80 46.20这可以认为是无重复实验的双因素方差分析,SPSS软件版本:18.0中文版。
1、建立数据文件变量视图:建立3个变量,如下图1数据视图:如下图:区组号用1-8表示,营养素号用1-3表示。
数据文件见“小白鼠喂3种不同的营养素增重数量.sav”,可以直接使用。
2、统计分析菜单选择:分析-> 一般线性模型-> 单变量1点击进入“单变量”对话框1旗开得胜将“体重”选入“因变量”框,“区组”、“营养素”选入固定因子框点击右边“模型”按钮,进入“单变量:模型对话框”1点击“设定”单选按钮(无重复双因素方差分析不能选全因子!),在“构建项”下拉菜单中选择“主效应”(只能选主效应)1把左边的因子与协变量框中区组和营养素均选入右边的模型框中其余选项取默认值就行,点击“继续”按钮,回到“单变量”界面1点击“两两比较”按钮,进入下面对话框1将左边框中“区组”、“营养素”均选入右边框中再选择两两比较的方法,LSD、S-N-K,Duncan为常用的三种方法,点击“继续”按钮回到“单变量”主界面。
1点击“选项”按钮1勾选“统计描述”及“方差齐性检验”,设置显著性水平,点击“继续”按钮,回到“单变量”主界面1点击下方“确定”按钮,开始分析。
SPSS第二次作业——方差分析
1、案例背景:
在一些大型考试中,为了保证结果的准确和一致性,通常针对一些主观题,都采取由多个老师共同评审的办法。
在评分过程中,老师对学生的信息不可见,同时也无法看到其他评分,保证了结果的公正性。
然而也有特殊情况的发生,导致了成绩的不稳定,这就使得对不同教师的评分标准考察变得十分必要。
2、案例所需资料及数据的获取方式和表述,变量的含义以及类型:
所需资料:抽样某地某次考试中不同教师对不同的题目的学生成绩的评分;
获取方式:让一组学生前后参加四次考试,由三位教师进行批改后收集数据;变量含义、类型:一份试卷的每道主观题由三名教师进行评定,3个教师的评定结果可看成事从同一总体中抽出的3个区组,它们在四次评定的成绩是相关样本。
表1如下:
3、分析方法:
用方差分析的方法对四个总体的平均数差异进行综合性的F检验。
4、数据的检验和预处理:
a) 奇异点的剔除:经检验得无奇异点的剔除;
b) 缺失值的补齐:无;
c) 变量的转换(虚拟变量、变量变换):无;
d) 对于所用方法的假设条件的检验:进行正态性和方差齐性的检验。
✓正态性,用QQ图进行分析得下图:
得到近似满足正态性。
✓对方差齐性的检验:
用SPSS对方差齐性的分析得下表:
Test of Homogeneity of Variances
分数
Levene Statistic df1 df2 Sig.
.732 2 9 .508
易知P〉0.05,接受方差齐性的假设。
5、分析过程:
a) 所用方法:单因素方差分析;方差分析中的多重比较。
b) 方法细节:
●单因素方差分析
第一步,提出假设:
H0:μ1=μ2=μ3;(教师的评定基本合理,即均值相同)
H1:μi(i=1,2,3)不全相等;(教师的评定不够合理,均值有差异)第二步,为检验H0是否成立,首先计算以下统计量:
1,计算水平均值及总体均值:
表2 三位教师评选结果的均值
2-计算平方和和自由度:
总离差平方和:SST=2
11
)-(∑∑==k
i n j i
ij x x =16.947,自由度为n-1=11
组内离差平方和:SSE=211
)x -(i ∑∑==k
i n j i
ij x =16.275,自由度为n-k=9
组间平方和:SSA=211)-(∑∑==k
i n j i
i x x =0.672,自由度为k-1=2
3-计算均方:
MSA=1SSA -k =0.336
MSE=k
n -SSE =1.808
4-计算检验的统计量F : F=MSE
MSA ~F(k-1,n-k) 计算F=0.186
将结果汇集到表中:
第三步,统计决断:
查F 值表得F 0.01(2,11)=7.21>0.186。
样本值落在了接受域内,因此应该接受原假设,表明三位教师给出的评分均值相同。
方差分析中的多重比较
1) 提出假设:H 0:μ1=μ2; H 1:μ1≠μ2; 2) 检验的统计量为:j i x x - 3) 计算LSD=)1
1(
2/j
i n n MSE t +∂。
若|j i x x -|≥LSD ,拒绝H 0;反之不能拒绝H 0。
计算得
LSD=3.250*)(4
141*1.808+≈3.09 经简单计算易得各位老师之间的评价无显著差异,即总有|j i x x -|≤LSD 。
6、对结果的分析:
a) 结合输出结果给出的说明:样本值落在了接受域内,因此应该接受原假设,表明三位教师给出的评分均值相同。
b) 结合案例背景给出的政策建议:总体上不同教师对同一题目的评分算是公正的,可以继续实行这个方案。
7、总结:
结果可以大致得出教师的评分结果满意,能够很好地达到学生成绩的客观评定。
可以继续推广多个教师评选的方法。