统计案例分析
案例2.1 大学生月平均生活费的估计和检验姓名:覃玉冰
学号:
班级:16应用统计
一、数据
为了了解大学生日常生活费支出及生活费来源状况,对中国人民大学在校本科生的月生活费支出问题进行了抽样调查。该问卷随机抽取中国人民大学大一、大二、大三、大四在校本科生男女各30多人作为样本。调查采取分层抽样,对在校本科生各个年级男生、女生各发放问卷30多份,共发放问卷300份,回收问卷291份,其中有效问卷共272份。其中,男生的有效问卷为127份,女生为145份。调查得到的部分数据见表一。
表一大学生月平均生活费支出的调查数据(仅截取部分)
二、生活费支出的区间估计和假设检验
(一)平均月生活费的描述统计量
为了更好地研究全校本科学生平均月生活费支出,我们先来看一下样本数据中平均月生活费支出的一些描述统计量。
在spss中,点分析→描述统计→描述→变量选择“平均月生活费”,选项选择“均值、标准差、均值的标准误”,得到的样本数据中平均月生活费的描述统计量见表二。
表二平均月生活费的描述统计量
从表二可以看到,样本数据中平均月生活费支出的均值为595.04,标准差为243.444,均值的标准误为14.761.
(二)平均月生活费的假设检验
从表二中我们已经知道了样本数据中平均月生活费支出的均值为595.04,现在我们来检验一下全校本科学生即总体的月平均生活费支出是否等于500。
1.检验统计量的确定
样本数据的样本量n为272,其大于30,可以认为该数据是一个大样本。现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的
条件下,如果总体为正态分布,样本统计量服从正态分布:如果总体为非正态分布,样本统计量也是渐进服从正态分布的。所以在这种情况下,我们都可以把样本统计量视为正态分布,这时可以使用z 统计量(z 分布)。即在总体标准差δ已知时,有
n
x /z 0
δμ-=
而我们这里总体标准差δ是未知的,此时可以用样本标准差s 代替,上式可以写为:
n
s x /z 0
μ-=
2. 提出假设
原假设0H 为:全校本科学生月平均生活费支出u=500 备择假设1H 为:全校本科学生月平均生活费支出u=500 3. spss 操作及结果分析
在spss 中点分析→比较均值→单样本T 检验→检验变量选“平均月生活费”→检验值填“500”,得到的平均月生活费的假设检验的结果见表三。
表三 平均月生活费的假设检验的结果
从表三可以看到,检验的P 值接近于0,其小于0.05,根据小拒大接的原则,拒绝原假设,表面全校学生的月平均生活费支出与500元有显著差异。
(三)平均月生活费的区间估计
1. 数学模型的建立
样本数据的样本量n 为272,其大于30,可以认为该数据是一个大样本。现在我们并不知道总体的月平均生活费支出是否服从正态分布,但是在样本量大的条件下,样本均值x 的抽样分布均为正态分布,其数学期望为总体均值μ,方差
为n
2
δ。x 经过标准化以后的随机变量服从标准正态分布,即 )1,0(~/z N n
x δμ
-=
由上式和正态分布的性质,可以得出总体均值μ在α-1置信水平下的置信区间为
?????
?
+-n z x n z x δδαα22, 式中,n
z x δ
α
2
-称为置信下限,n
z x δ
α
2
+称为置信上限;α是事先所确
定的一个概率值,也称为风险值,它是总体均值不包括在置信区间的概率;α
-1称为置信水平;2αz 是标准正态分布右侧面积为2α时的z 值;n δ
是总体均值的
标准误;n
z δ
α
2
是估计总体均值时的估计误差。
这里,我们并不知道全校本科学生的平均月生活费支出的方差,但是由于样本数据的样本量较大,所以上式中的总体方差2δ可以用样本方差2s 代替,这时总体均值μ在α-1置信水平下的置信区间可以写为:
?????
?
+-n s z x n s z x 22,αα 2.模型的求解
由表二可知,样本均值为595.04,样本均值的标准误
n
s
为14.761.当风险值α取0.05时,即置信水平α-1取95%时,全校学生月平均生活费支出的95%的置信区间为[595.04-1.96*14.761,595.04+1.96*14.761],即566.11到623元之间。
三、男女学生的平均月生活费的假设检验
(一)男女学生的平均月生活费的描述统计量
为了更好地研究全校本科男女学生的平均月生活费支出间是否有显著差异,我们先来看一下样本数据中男女学生的平均月生活费支出的一些描述统计量。
在spss 中点数据→拆分文件→勾选“比较组”→分组方式选“性别” 然后点分析→描述统计→描述→变量选择“平均月生活费”,选项选择“均值、标准差、均值的标准误”,得到的平均月生活费的描述统计量见表四。
表四 男女学生平均月生活费的描述统计量
从表四可以看到,样本数据中男生的平均月生活费支出的均值为596.69,标准差为229.748;女生的平均月生活费支出的均值为617.24.标准差为253.543。单从样本数据中男女学生的平均月生活费支出的均值来看,全校本科男女学生的平均月生活费支出间是有差异的,但是这只是我们主观的看法,下面我们用两个总体均值之差的假设检验来探究全校本科男女学生的平均月生活费支出间是否
有显著差异。
(二)男女学生的平均月生活费间的假设检验 1. 检验统计量的确定
样本数据中男学生有127人,女学生有145人,均大于30,说明两个总体的样本量均较大,此时无论两个总体的分布是不是正态分布,可以证明的是,由两个独立样本算出来的21x x -的抽样分布都是服从正态分布的,此时,作为检验统计量z 的计算公式为:
2
22
1
21
2111)
()(n n x x z δ
δ
μμ+
---=
式中,21μμ,分别为两个总体的均值,2221δδ,分别为两个总体的方差。 这里,我们并不知道全校本科男学生和女学生的平均月生活费支出的方差,
但是由于两个总体的样本量都较大,所以可以用样本方差2
221S S ,来替代总体方
差2221δδ,.此时,上式可以写为:
2
22
121
2111)
()(n s
n s x x z +---=μμ
2. 提出假设
原假设0H 为:全校本科男女学生月平均生活费支出之差0-21=μμ,即全校本科男女学生的平均月生活费支出之间没有显著差别。
备择假设1H 为:全校本科男女学生月平均生活费支出之差0-21≠μμ,即全校本科男女学生的平均月生活费支出之间有显著差别。
3. spss 操作及结果分析
在spss中点数据→拆分文件→勾选“分析所有个案,不创建组”,然后点分析→比较均值→独立样本T检验→检验变量选“平均月生活费”→分组变量选“性别编号”,定义组选择“使用指定值1和2”,得到的男女学生的平均月生活费间的假设检验的结果见表四。
表四男女学生的平均月生活费间的假设检验的结果
从表四可以看出,当原假设是男女学生的平均月生活费的方差相等时,检验所对应的P值是0.487,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明方差是不相等的,故我们看假设方差相等时的假设检验的结果就可以了。
从假设方差相等时的假设检验的结果上来看,检验的P值为0.108,其大于0.05,根据小拒大接的原则,不能拒绝原假设,即没有证据表明男女学生的月平均生活费支出之间有显著差异。
四、估计乡镇地区学生的比例
(一)对学生按性别和来源进行分类汇总
为了估计乡镇地区学生的比例,我们先对学生按性别和来源进行分类汇总,在spss中点分析→描述统计→交叉表→行选择“性别”,列选择“家庭所在地区”→单元格中的百分比勾选“行”,得到如表五所示的汇总表。
表五 按性别和家庭所在地区进行的分类汇总
从表五可以看到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。
(三)乡镇地区学生比例的区间估计
1. 数学模型的建立
样本数据的样本量n 为272,其大于30,可以认为该数据是一个大样本。由样本比例p 的抽样分布可知,当样本量足够大时,比例p 的抽样分布可用正态分
布近似。p 的数学期望为π=)(p E ;p 的方差为n
p )
1(2ππδ-=
。样本比例经标准
化后的随机变量则服从标准正态分布,即
)1,0(~/)1(N n
p z πππ
--=
与总体均值的区间估计类似,在样本比例p 的基础上加减估计误差p z δα2
,
即得总体比例π在α-1置信水平下的置信区间为:
??
?
???-+--n z p n z p )1(,)1(22ππππαα
用上式计算总体比例π的置信区间时,π值应该是已知的。但实际情况不然,
π值恰好是要估计的,所以,需要用样本比例p 来替代π。这时,总体比例的置信区间可表示为:
??
?
??
?
-+--n p p z p n
p p z p )1(,)
1(22
α
α
式中,n
p p z p )
1(2
--α
称为置信下限,n
p p z p )
1(2-+α
称为置信上限;α是显著性水平;2αz 是标准正态分布右侧面积为2α时的z 值;n
p p z )
1(2-α是估计总体比例时的估计误差。
2. 模型的求解
从表五可以得到,家庭所在地区为乡镇地区的学生占所有被抽中的学生的25%。所以全校本科学生中,乡镇学生比例的95%的置信区间为
??
?????+?27225.0-125.096.125.027225.0-125.096.1-25.0)
(,)(,即19.85%到30.15%之间。
五、单因素对月平均生活费支出的影响分析
(一)数学模型
1. 单因素方差分析
单因素方差分析是指对单因素试验结果进行分析,检验因素对试验结果有无
显著性影响的方法。单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。
在数据中,总误差反映全部观测数据的误差;处理误差(组间误差)是由于不同处理造成的误差,它反映了处理对观测数据的影响,因此称为处理效应;随机误差(组内误差)是由于随机因素造成的误差,也简称为误差。
数据的误差用平方和表示,记为SS 。其中总平方和记为SST ,其计算公式为:
∑∑==-=l
i n
j ij y y SST 112
)(
它反映全部数据总误差大小的平方和。
处理平方和记为SSA ,其计算公式为:
2
1)(y y n SSA l
i i i -=∑=
它反映处理误差大小的平方和,也称为组间平方和。
误差平方和记为SSE ,其计算公式为:
∑∑==-=l
i n
j i ij y y SSE 112)(
它反映了随机误差大小的平方和,也称为组内平方和。
误差平方和的分解及其关系所图一所示。
图一 误差平方和的分解及其关系
方差分析的基本原理就是要分析数据的总误差中有没有处理误差。如果处理对观测数据没有显著影响,意味着没有处理误差。这时,每种处理所对应的总体均值应该相等,如果存在处理误差,每种处理所对应的总体均值至少有一对不相等。
在只考虑一个因素的情况下,方差分析也就是要检验下面的假设:
k i H μμμμ===== 210: 不全相等:),,2,1(1k i H i =μ
注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等。
2.多重比较
多重比较的作用是在拒绝原假设的条件下,通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。多重比较方法有多种,如Fisher 的 LSD 方法、Tukey-Kramer 的HSD 方法等。
其中LSD 是最小显著差异(least significant difference)的缩写,该检验方法是由统计学家Fisher 提出来的,因此也称为Fisher 的最小显著差异方法,简称LSD 方法。LSD 的适用场合是:如果研究者在事先就已经计划好要对某对或某几对均值进行比较,不管方差分析的结果如何(拒绝或不拒绝原假设),都要进行比较,这时适合采用LSD 方法。我们在下面的操作中都是用LSD 方法进行多重比较的。
(二)年级对月平均生活费支出的影响分析
不同年级的学生的月平均生活费支出可能有所不同,现在我们来探究年级对学生的月平均生活费支出是否有显著的影响。方差分析中有三个基本假定: (1)每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观测值是来自正态分布总体的简单随机样本。
(2)各个总体的方差必须相同。也就是说,各组观察数据是从具有相同方差的正态总体中抽取的。
(3)观测值是独立的
每个年级各抽取了60多个学生,样本量比较大,故对于因素的每一个 水平,其观测值均可以认为近似服从正态分布,所以满足了第一个假定。由于抽取四个年级的学生是独立进行的,所以可以认为四组样本观测值是相互独立的,即满足了第三个假定。对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。
在spss 中点分析→一般线性模型→单变量→因变量选择“平均月生活费”,
固定因子选择“所在年级”→两两比较中的两两比较检验选择“所在年级”,假定方差齐性选择“LSD”→选项中勾选“方差齐性检验”,得到的年级对月平均生活费支出的影响分析结果如表六、表七和表八所示。
表六年级对支出影响的方差齐性检验
从表七可以看出,方差齐性检验的P值为0.977,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析。
表七年级对支出影响的方差分析表
因变量:平均月生活费
源III 型平方和df均方F Sig.
校正模型75378.112a325126.037.421.738
截距87257473.269187257473.2691462.896.000
所在年级75378.112325126.037.421.738
误差15985421.52126859647.095
总计 1.124E8272
校正的总计16060799.632271
a. R 方= .005(调整R 方= -.006)
从表七可以看到,方差分析检验的P值为0.738,大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即认为没有证据表明年级对生活费支出有
显著影响。
表八年级对支出影响的多重比较
从表七可以看到,在多重比较中,检验的各P值均大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,这表明各年级之间的月平均生活费支出之间没有显著差异。
(三)地区对月平均生活费支出的影响分析
不同地区的学生的月平均生活费支出可能有所不同,现在我们来探究地区对学生的月平均生活费支出是否有显著的影响。
从表五可以看出,每个地区所抽取的样本量都比较大,故对于因素的每一个
水平,其观测值均可以认为近似服从正态分布,所以满足了第一个假定。由于抽取三个地区的学生是独立进行的,所以可以认为三组样本观测值是相互独立的,即满足了第三个假定。对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。
在spss中点分析→一般线性模型→单变量→因变量选择“平均月生活费”,固定因子选择“家庭所在地区”→两两比较中的两两比较检验选择“家庭所在地区”,假定方差齐性选择“LSD”→选项中勾选“方差齐性检验”,得到的年级对月平均生活费支出的影响分析结果如表九、表十和表十一所示。
表九地区对支出影响的方差齐性检验
从表九可以看出,方差齐性检验的P值为0.279,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,此处的原假设是四个总体的方差相等,故满足方差齐性的假设,即满足第二个假定,可以进行方差分析。
表十地区对支出影响的方差分析表
误差15669490.91726958250.896
总计 1.124E8272
校正的总计16060799.632271
a. R 方= .024(调整R 方= .017)
从表十可以看到,方差分析检验的P值为0.036,小于显著性水平0.05,根据小拒大接的原则,应该拒绝原假设,即有证据表明地区对生活费支出有显著影响。
表十一地区对支出影响的多重比较
表十一给出的各P值表明,乡镇地区与大城市和中小城市之间的月平均生活费支出之间均有显著差异,而大城市与中小城市之间的差异则不显著。
六、双因素对月平均生活费支出的影响分析
(一)数学模型
双因素方差分析有两种类型:一个是无交互作用的双因素方差分析,它假定因素A和因素B的效应之间是相互独立的,不存在相互关系;另一个是有交互作用的双因素方差分析,它假定因素A和因素B的结合会产生出一种新的效应。
只考虑主效应的误差分解如图二所示。
图二只考虑主效应的误差分解
考虑交互效应的误差分解如图三所示。
图三考虑交互效应的误差分解
(二)不考虑交互效应的性别和地区对月平均生活费支出的影响分析
不同性别和地区的学生的月平均生活费支出可能有所不同,现在我们来探究不考虑交互效应时的性别和地区两个因素对学生的月平均生活费支出是否有显著的影响。
在双因素方差分析中,每个观测值看作由行因素(性别)的2两个水平和列因素(家庭所在地区)的三个水平所组合成的6个总体中抽取的样本量为1的独立随机样本。这六个总体中的每一个总体都应该服从正态分布且具有相同的方差。由于每个总体的样本量较大,所以可以认为近似服从正态分布,对于第二个假定,我们需要进一步的验证,故我们在做方差分析时要顺带做一下方差齐性检验。
在spss中点分析→一般线性模型→单变量→因变量选择“平均月生活费”,固定因子选择“性别和家庭所在地区”→模型中的指定模型勾选“设定”,构建项选择“主效应”,并将“性别和家庭所在地区”选入模型→绘制中选择图“性别*家庭所在地区、家庭所在地区*性别”→选项中勾选“方差齐性检验”,得到的同时考虑性别和地区两个因素的影响但不考虑交互效应的分析结果如表十二和表十三所示。
表十二考虑性别和地区影响(只考虑主效应)分析的方差齐性检验
从表十二可以看出,方差齐性检验的P值为0.625,大于显著性水平0.05,根据小拒大接的原则,应该接受原假设,故满足方差齐性的假设,可以进行方差分析。
表十三考虑性别和地区影响(只考虑主效应)的方差分析表因变量:平均月生活费
源III 型平方和df均方F Sig.
校正模型455828.125a3151942.708 2.609.052
截距88948545.338188948545.3381527.604.000
家庭所在地区302712.4462151356.223 2.599.076
性别64519.409164519.409 1.108.293
误差15604971.50826858227.506
总计 1.124E8272
校正的总计16060799.632271
a. R 方= .028(调整R 方= .018)
从表十三可以看到,方差分析中,家庭所在地区检验的P值为0.076,性别检验的P值为0.293,均大于显著性水平0.05,根据小拒大接的原则,不能拒绝原假设,即均没有证据表明二者对生活费支出有显著影响。