《统计分析与SPSS的应用(第五版)》课后练习答案(第4章)
- 格式:doc
- 大小:344.00 KB
- 文档页数:11
《统计分析与SPSS的应用》课后练习答案在学习《统计分析与 SPSS 的应用》这门课程后,通过课后练习能够帮助我们更好地掌握所学知识,并将其应用到实际的数据分析中。
以下是针对部分课后练习的答案及解析。
一、选择题1、在 SPSS 中,用于描述数据集中变量分布特征的统计量是()A 均值B 标准差C 中位数D 众数答案:ABCD解析:均值、标准差、中位数和众数都是描述数据分布特征的常用统计量。
均值反映了数据的集中趋势;标准差反映了数据的离散程度;中位数是将数据排序后位于中间位置的数值;众数则是数据集中出现次数最多的数值。
2、进行独立样本 t 检验时,需要满足的前提条件是()A 样本来自正态分布总体B 两样本方差相等C 两样本相互独立D 以上都是答案:D解析:独立样本 t 检验要求样本来自正态分布总体、两样本方差相等以及两样本相互独立。
只有在这些条件满足的情况下,t 检验的结果才是可靠的。
3、以下哪种方法适用于多组数据的比较()A 单因素方差分析B 配对样本 t 检验C 相关分析D 回归分析答案:A解析:单因素方差分析用于比较三个或三个以上组别的数据是否存在显著差异。
配对样本 t 检验适用于配对数据的比较;相关分析用于研究变量之间的线性关系;回归分析用于建立变量之间的预测模型。
二、简答题1、请简述 SPSS 中数据录入的基本步骤。
答:SPSS 中数据录入的基本步骤如下:(1)打开 SPSS 软件,选择“新建数据文件”。
(2)在变量视图中定义变量的名称、类型、宽度、小数位数等属性。
(3)切换到数据视图,按照定义好的变量逐行录入数据。
(4)录入完成后,保存数据文件。
2、解释相关分析和回归分析的区别。
答:相关分析主要用于研究两个或多个变量之间的线性关系程度和方向,但它并不确定变量之间的因果关系。
相关分析的结果通常用相关系数来表示,如皮尔逊相关系数。
回归分析则不仅可以确定变量之间的关系,还可以建立数学模型来预测因变量的值。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第5 章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下:80, 81, 72, 60, 78, 65, 56, 79,77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss 数据→分析→比较均值→单样本t 检验→相关设置→输出结果(Analyze->compare means->one-samples T test ;)采用单样本T 检验(原假设H0:u=u0=75, 总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值= 75差分的95% 置信区间t df Sig.( 双侧) 均值差值下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test 后的框中输入检验值(填75),最后ok!分析:N=11 人的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean) 为2.87.t 统计量观测值为-4.22,t 统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14), 由此采用双尾检验比较 a 和p。
T 统计量观测值的双尾概率p-值(sig.(2-tailed) )为0.668>a=0.05 所以不能拒绝原假设;且总体均值的95% 的置信区间为(67.31,80.14), 所以均值在67.31~80.14 内,75 包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35 名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1)请利用SPSS 对上表数据进行描述统计,并绘制相关的图形。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第5 章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下:80, 81, 72, 60, 78, 65, 56, 79,77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss 数据→分析→比较均值→单样本t 检验→相关设置→输出结果(Analyze->compare means->one-samples T test ;)采用单样本T 检验(原假设H0:u=u0=75, 总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值= 75差分的95% 置信区间t df Sig.( 双侧) 均值差值下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test 后的框中输入检验值(填75),最后ok!分析:N=11 人的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean) 为2.87.t 统计量观测值为-4.22,t 统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14), 由此采用双尾检验比较 a 和p。
T 统计量观测值的双尾概率p-值(sig.(2-tailed) )为0.668>a=0.05 所以不能拒绝原假设;且总体均值的95% 的置信区间为(67.31,80.14), 所以均值在67.31~80.14 内,75 包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35 名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1)请利用SPSS 对上表数据进行描述统计,并绘制相关的图形。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第3章SPSS数据的预处理1、利用第2章第7题数据,采用SPSS数据筛选功能将数据分成两份文件。
其中,第一份数据文件存储常住地是“沿海或中心繁华城市”且本次存款金额在1000至5000之间的调查数据;第二份数据文件是按照简单随机抽样所选取的70%的样本数据。
第一份文件:选取数据数据——选择个案——如果条件满足——存款>=1000&存款<5000&常住地=沿海或中心繁华城市。
第二份文件:选取数据数据——选择个案——随机个案样本——输入70。
2、利用第2章第7题数据,将其按常住地(升序)、收入水平(升序)、存款金额(降序)进行多重排序。
排序数据——排序个案——把常住地、收入水平、存款金额作为排序依据分别设置排列顺序。
3、利用第2章第9题的完整数据,对每个学生计算得优课程数和得良课程数,并按得优课程数的降序排序。
计算转换——对个案内的值计数输入目标变量及目标标签,把所有课程选取到数字变量,定义值——设分数的区间,之后再排序。
4、利用第2章第9题的完整数据,计算每个学生课程的平均分以及标准差。
同时,计算男生和女生各科成绩的平均分。
方法一:利用描述性统计,数据——转置学号放在名称变量,全部课程放在变量框中,确定后,完成转置。
分析——描述统计——描述,将所有学生变量全选到变量框中,点击选项——勾选均值、标准差。
先拆分数据——拆分文件按性别拆分,分析——描述统计——描述,全部课程放在变量框中,选项——均值。
方法二:利用变量计算,转换——计算变量分别输入目标变量名称及标签——均值用函数mean完成平均分的计算,标准差用函数SD完成标准差的计算。
数据——分类汇总——性别作为分组变量、全部课程作为变量摘要、(创建只包含汇总变量的新数据集并命名)——确定5、利用第2章第7题数据,大致浏览存款金额的数据分布状况,并选择恰当的组限和组距进行组距分组。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第5 章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下:80, 81, 72, 60, 78, 65, 56, 79,77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss 数据→分析→比较均值→单样本t 检验→相关设置→输出结果(Analyze->compare means->one-samples T test ;)采用单样本T 检验(原假设H0:u=u0=75, 总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值= 75差分的95% 置信区间t df Sig.( 双侧) 均值差值下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test 后的框中输入检验值(填75),最后ok!分析:N=11 人的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean) 为2.87.t 统计量观测值为-4.22,t 统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14), 由此采用双尾检验比较 a 和p。
T 统计量观测值的双尾概率p-值(sig.(2-tailed) )为0.668>a=0.05 所以不能拒绝原假设;且总体均值的95% 的置信区间为(67.31,80.14), 所以均值在67.31~80.14 内,75 包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35 名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1)请利用SPSS 对上表数据进行描述统计,并绘制相关的图形。
《统计分析与S P S S的应用(第五版)》课后练习答案(第8章)(总6页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第8章SPSS的相关分析1、对15家商业企业进行客户满意度调查,同时聘请相关专家对这15家企业编号客户满意度得分综合竞争力得分编号客户满意度得分综合竞争力得分1907091060 210080102030 31501501180100 41301401270110 512090133010 6110120145040 740201560508140130关,为什么能。
步骤:(1)图形旧对话框散点/点状简单分布进行相应设置确定;(2)再双击图形元素总计拟合线拟合线线性确定(3)分析相关双变量进行相关项设置确定相关性客户满意度得分综合竞争力得分客户满意度得分Pearson 相关性1.864**显著性(双尾).000N1615综合竞争力得分Pearson 相关性.864**1显著性(双尾).000N1515 **. 在置信度(双测)为时,相关性是显著的。
两者的简单相关系数为,说明存在正的强相关性。
2、为研究香烟消耗量与肺癌死亡率的关系,收集下表数据。
(说明:1930年左右几乎极少的妇女吸烟;采用1950年的肺癌死亡率是考虑到吸烟的效果需国家1930年人均香烟消耗量1950年每百万男子中死于肺癌的人数澳大利亚480180加拿大500150丹麦380170芬兰1100350英国1100460荷兰490240冰岛23060挪威25090瑞典300110瑞士510250美国1300200是否存在显著的相关关系。
香烟消耗量与肺癌死亡率的散点图(操作方法与第1题相同)相关性人均香烟消耗死于肺癌人数人均香烟消耗Pearson 相关性1.737**显著性(双尾).010N1111死于肺癌人数Pearson 相关性.737**1显著性(双尾).010N1111**. 在置信度(双测)为时,相关性是显著的。
第四章统计数据的概括性度量4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:2 4 7 10 10 10 12 12 14 15要求:(1)计算汽车销售量的众数、中位数和平均数。
(2)根据定义公式计算四分位数。
(3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。
解:Statistics10Missing 0Mean 9.60Median 10.00Mode 10Std. Deviation 4.169Percentiles 25 6.2550 10.0075单位:周岁19 15 29 25 2423 21 38 22 1830 20 19 19 1623 27 22 34 2441 20 31 17 23要求;(1)计算众数、中位数:排序形成单变量分值的频数分布和累计频数分布:网络用户的年龄(2)根据定义公式计算四分位数。
Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。
(3)计算平均数和标准差;Mean=24.00;Std. Deviation=6.652(4)计算偏态系数和峰态系数:Skewness=1.080;Kurtosis=0.773(5)对网民年龄的分布特征进行综合分析:分布,均值=24、标准差=6.652、呈右偏分布。
如需看清楚分布形态,需要进行分组。
1、确定组数: ()lg 25lg() 1.398111 5.64lg(2)lg 20.30103n K =+=+=+=,取k=6 2、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取53、分组频数表网络用户的年龄 (Binned)分组后的直方图:客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第3章SPSS数据的预处理1、利用第2章第7题数据,采用SPSS数据筛选功能将数据分成两份文件。
其中,第一份数据文件存储常住地是“沿海或中心繁华城市”且本次存款金额在1000至5000之间的调查数据;第二份数据文件是按照简单随机抽样所选取的70%的样本数据。
第一份文件:选取数据数据——选择个案——如果条件满足——存款>=1000&存款<5000&常住地=沿海或中心繁华城市。
第二份文件:选取数据数据——选择个案——随机个案样本——输入70。
2、利用第2章第7题数据,将其按常住地(升序)、收入水平(升序)、存款金额(降序)进行多重排序。
排序数据——排序个案——把常住地、收入水平、存款金额作为排序依据分别设置排列顺序。
3、利用第2章第9题的完整数据,对每个学生计算得优课程数和得良课程数,并按得优课程数的降序排序。
计算转换——对个案内的值计数输入目标变量及目标标签,把所有课程选取到数字变量,定义值——设分数的区间,之后再排序。
4、利用第2章第9题的完整数据,计算每个学生课程的平均分以及标准差。
同时,计算男生和女生各科成绩的平均分。
方法一:利用描述性统计,数据——转置学号放在名称变量,全部课程放在变量框中,确定后,完成转置。
分析——描述统计——描述,将所有学生变量全选到变量框中,点击选项——勾选均值、标准差。
先拆分数据——拆分文件按性别拆分,分析——描述统计——描述,全部课程放在变量框中,选项——均值。
方法二:利用变量计算,转换——计算变量分别输入目标变量名称及标签——均值用函数mean完成平均分的计算,标准差用函数SD完成标准差的计算。
数据——分类汇总——性别作为分组变量、全部课程作为变量摘要、(创建只包含汇总变量的新数据集并命名)——确定5、利用第2章第7题数据,大致浏览存款金额的数据分布状况,并选择恰当的组限和组距进行组距分组。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第5 章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下:80, 81, 72, 60, 78, 65, 56, 79,77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss 数据→分析→比较均值→单样本t 检验→相关设置→输出结果(Analyze->compare means->one-samples T test ;)采用单样本T 检验(原假设H0:u=u0=75, 总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值= 75差分的95% 置信区间t df Sig.( 双侧) 均值差值下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test 后的框中输入检验值(填75),最后ok!分析:N=11 人的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean) 为2.87.t 统计量观测值为-4.22,t 统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14), 由此采用双尾检验比较 a 和p。
T 统计量观测值的双尾概率p-值(sig.(2-tailed) )为0.668>a=0.05 所以不能拒绝原假设;且总体均值的95% 的置信区间为(67.31,80.14), 所以均值在67.31~80.14 内,75 包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35 名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1)请利用SPSS 对上表数据进行描述统计,并绘制相关的图形。
《统计分析与SPSS的应⽤(第五版)》课后练习答案(第5章)《统计分析与SPSS的应⽤(第五版)》(薛薇)课后练习答案第5章SPSS的参数检验1、某公司经理宣称他的雇员英语⽔平很⾼,如果按照英语六级考试的话,⼀般平均得分为75分。
现从雇员中随机选出11⼈参加考试,得分如下: 80, 81, 72, 60, 78, 65, 56, 79, 77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:⽣成spss数据→分析→⽐较均值→单样本t检验→相关设置→输出结果(Analyze->compare means->one-samples T test;)采⽤单样本T检验(原假设H0:u=u0=75,总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值 = 75t df Sig.(双侧) 均值差值差分的 95% 置信区间下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test后的框中输⼊检验值(填75),最后ok!分析:N=11⼈的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean)为2.87.t统计量观测值为-4.22,t统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14),由此采⽤双尾检验⽐较a和p。
T统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668>a=0.05所以不能拒绝原假设;且总体均值的95%的置信区间为(67.31,80.14),所以均值在67.31~80.14内,75包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35名⼤学⽣,调查他们每周的上⽹时间情况,得到的数据如下(单位:⼩时):(1)请利⽤SPSS对上表数据进⾏描述统计,并绘制相关的图形。
《统计分析与S P S S的应用(第五版)》(薛薇)课后练习答案第6章SPSS的方差分析1、入户推销有五种方法。
某大公司想比较这五种方法有无显著的效果差异,设计了一项实验。
从应聘人员中尚无推销经验的人员中随机挑选一部分人,并随机地将他们分为五个组,每组用一种推销方法培训。
一段时期后得到他们在一个月内的推销额,如下表所示:第一组20.0 16.8 17.9 21.2 23.9 26.8 22.4第二组24.9 21.3 22.6 30.2 29.9 22.5 20.7第三组16.0 20.1 17.3 20.9 22.0 26.8 20.8第四组17.5 18.2 20.2 17.7 19.1 18.4 16.5第五组25.2 26.2 26.9 29.3 30.4 29.7 28.21)请利用单因素方差分析方法分析这五种推销方式是否存在显著差异。
2)绘制各组的均值对比图,并利用LSD方法进行多重比较检验。
(1)分析→比较均值→单因素ANOV A→因变量:销售额;因子:组别→确定。
ANOVA销售额平方和df 均方 F 显著性组之间405.534 4 101.384 11.276 .000组内269.737 30 8.991总计675.271 34概率P-值接近于0,应拒绝原假设,认为5种推销方法有显著差异。
(2)均值图:在上面步骤基础上,点选项→均值图;事后多重比较→LSD多重比较因变量: 销售额LSD(L)(I) 组别(J) 组别平均差(I-J) 标准错误显著性95% 置信区间下限值上限第一组第二组-3.30000* 1.60279 .048 -6.5733 -.0267 第三组.72857 1.60279 .653 -2.5448 4.0019第四组 3.05714 1.60279 .066 -.2162 6.3305第五组-6.70000* 1.60279 .000 -9.9733 -3.4267 第二组第一组 3.30000* 1.60279 .048 .0267 6.5733 第三组 4.02857* 1.60279 .018 .7552 7.3019第四组 6.35714* 1.60279 .000 3.0838 9.6305第五组-3.40000* 1.60279 .042 -6.6733 -.1267 第三组第一组-.72857 1.60279 .653 -4.0019 2.5448 第二组-4.02857* 1.60279 .018 -7.3019 -.7552第四组 2.32857 1.60279 .157 -.9448 5.6019第五组-7.42857* 1.60279 .000 -10.7019 -4.1552第四组第一组-3.05714 1.60279 .066 -6.3305 .2162第二组-6.35714* 1.60279 .000 -9.6305 -3.0838第三组-2.32857 1.60279 .157 -5.6019 .9448第五组-9.75714* 1.60279 .000 -13.0305 -6.4838第五组第一组 6.70000* 1.60279 .000 3.4267 9.9733第二组 3.40000* 1.60279 .042 .1267 6.6733第三组7.42857* 1.60279 .000 4.1552 10.7019第四组9.75714* 1.60279 .000 6.4838 13.0305*. 均值差的显著性水平为 0.05。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第5 章SPSS的参数检验1、某公司经理宣称他的雇员英语水平很高,如果按照英语六级考试的话,一般平均得分为75分。
现从雇员中随机选出11人参加考试,得分如下:80, 81, 72, 60, 78, 65, 56, 79,77,87, 76 请问该经理的宣称是否可信。
原假设:样本均值等于总体均值即u=u0=75步骤:生成spss 数据→分析→比较均值→单样本t 检验→相关设置→输出结果(Analyze->compare means->one-samples T test ;)采用单样本T 检验(原假设H0:u=u0=75, 总体均值与检验值之间不存在显著差异);单个样本统计量N 均值标准差均值的标准误成绩11 73.73 9.551 2.880单个样本检验检验值= 75差分的95% 置信区间t df Sig.( 双侧) 均值差值下限上限成绩-.442 10 .668 -1.273 -7.69 5.14分析:指定检验值:在test 后的框中输入检验值(填75),最后ok!分析:N=11 人的平均值(mean)为73.7,标准差(std.deviation)为9.55,均值标准误差(std error mean) 为2.87.t 统计量观测值为-4.22,t 统计量观测值的双尾概率p-值(sig.(2-tailed))为0.668,六七列是总体均值与原假设值差的95%的置信区间,为(-7.68,5.14), 由此采用双尾检验比较 a 和p。
T 统计量观测值的双尾概率p-值(sig.(2-tailed) )为0.668>a=0.05 所以不能拒绝原假设;且总体均值的95% 的置信区间为(67.31,80.14), 所以均值在67.31~80.14 内,75 包括在置信区间内,所以经理的话是可信的。
2、在某年级随机抽取35 名大学生,调查他们每周的上网时间情况,得到的数据如下(单位:小时):(1)请利用SPSS 对上表数据进行描述统计,并绘制相关的图形。
_ 《统计分析与SPSS的应用(第五版)》(薛薇) 课后练习答案
第10章SPSS的聚类分析 1、根据“高校科研研究.sav”数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。要求: 1) 根据凝聚状态表利用碎石图对聚类类数进行研究。 2) 绘制聚类树形图,说明哪些省市聚在一起。 3) 绘制各类的科研指标的均值对比图。 4) 利用方差分析方法分析各类在哪些科研指标上存在显著差异。
采用欧氏距离,组间平均链锁法 利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。大约聚成4类。
步骤:分析分类系统聚类按如下方式设置…… _ 结果: 凝聚计划
阶段 组合的集群 系数 首次出现阶段集群 下一个阶段 集群 1 集群 2 集群 1 集群 2 1 26 30 328.189 0 0 2 2 26 29 638.295 1 0 7 3 20 25 1053.423 0 0 5 4 4 12 1209.922 0 0 15 5 8 20 1505.035 0 3 6 6 8 16 1760.170 5 0 9 7 24 26 1831.926 0 2 10 8 7 11 1929.891 0 0 11 9 5 8 2302.024 0 6 22 10 24 31 2487.209 7 0 22 11 2 7 2709.887 0 8 16 12 22 28 2897.106 0 0 19 13 6 23 2916.551 0 0 17 14 10 19 3280.752 0 0 25 15 4 21 3491.585 4 0 21 16 2 3 4229.375 11 0 21 17 6 13 4612.423 13 0 20 18 9 18 5377.253 0 0 25 19 14 22 5622.415 0 12 24 20 6 15 5933.518 17 0 23 21 2 4 6827.276 16 15 26 22 5 24 7930.765 9 10 24 23 6 27 9475.498 20 0 26 24 5 14 14959.704 22 19 28 _ 25 9 10 19623.050 18 14 27 26 2 6 24042.669 21 23 28 27 9 17 32829.466 25 0 29 28 2 5 48360.854 26 24 29 29 2 9 91313.530 28 27 30 30 1 2 293834.503 0 29 0 _
《统计分析与S P S S的应用(第五版)》课后练习答案第一章练习题答案1、SPSS的中文全名是:社会科学统计软件包(后改名为:统计产品与服务解决方案)英文全名是:Statistical Package for the Social Science.(Statistical Product and Service Solutions)2、SPSS的两个主要窗口是数据编辑器窗口和结果查看器窗口。
●数据编辑器窗口的主要功能是定义SPSS数据的结构、录入编辑和管理待分析的数据;●结果查看器窗口的主要功能是现实管理SPSS统计分析结果、报表及图形。
3、SPSS的数据集:●SPSS运行时可同时打开多个数据编辑器窗口。
每个数据编辑器窗口分别显示不同的数据集合(简称数据集)。
●活动数据集:其中只有一个数据集为当前数据集。
SPSS只对某时刻的当前数据集中的数据进行分析。
4、SPSS的三种基本运行方式:●完全窗口菜单方式、程序运行方式、混合运行方式。
●完全窗口菜单方式:是指在使用SPSS的过程中,所有的分析操作都通过菜单、按钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简洁和直观。
●程序运行方式:是指在使用SPSS的过程中,统计分析人员根据自己的需要,手工编写SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。
该方式适用于大规模的统计分析工作。
●混合运行方式:是前两者的综合。
5、.sav是数据编辑器窗口中的SPSS数据文件的扩展名.spv是结果查看器窗口中的SPSS分析结果文件的扩展名.sps是语法窗口中的SPSS程序6、SPSS的数据加工和管理功能主要集中在编辑、数据等菜单中;统计分析和绘图功能主要集中在分析、图形等菜单中。
7、概率抽样(probability sampling):也称随机抽样,是指按一定的概率以随机原则抽取样本,抽取样本时每个单位都有一定的机会被抽中,每个单位被抽中的概率是已知的,或是可以计算出来的。
《统计分析与SPSS 的应用(第五版)》课后练习答案(第10 章)《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第10章SPSS的聚类分析1、根据高校科研研究.sav数据,利用层次聚类分析对各省市的高校科研情况进行层次聚类分析。
要求:1)根据凝聚状态表利用碎石图对聚类类数进行研究。
2)绘制聚类树形图,说明哪些省市聚在一起。
3)绘制各类的科研指标的均值对比图。
4)利用方差分析方法分析各类在哪些科研指标上存在显著差异。
采用欧氏距离,组间平均链锁法利用凝聚状态表中的组间距离和对应的组数,回归散点图,得到碎石图。
大约聚成4类。
步骤:分析分类系统聚类按如下方式设置结果:凝聚计划阶段组合的集群系数首次岀现阶段集群下一个阶段集群1 集群2 集群1 集群21 26 30 328.189 0 02 '2 26 29 638.295 1 0 73 20 25 1053.423 0 0 54 4 12 1209.922 0 0 155 8 20 1505.035 0 3 66 8 16 1760.170 5 0 97 24 26 1831.926 0 2 108 7 11 1929.891 0 0 11 19 5 8 2302.024 0 6 22 110 24 31 2487.209 7 0 22 111 2 7 2709.887 0 8 1612 22 28 2897.106 0 0 1913 6 23 2916.551 0 0 1714 10 19 3280.752 0 0 2515 4 21 3491.585 4 0 21 116 2 3 4229.375 11 0 21 117 6 13 4612.423 13 0 2018 9 18 5377.253 0 0 25 19 14 22 5622.415 0 12 24 20 6 15 5933.518 17 0 23 21 2 4 6827.276 16 15 26 22 5 24 7930.765 9 10 24 23 6 27 9475.498 20 0 26 24 5 14 14959.704 22 19 28 25 9 10 19623.050 18 14 27 26 2 6 24042.669 21 23 28 27 9 17 32829.466 25 0 29 28 2 5 48360.854 26 24 29 29 2 9 91313.530 28 27 30 3012293834.50329r.J ;.-::r■-﹂r+浙江MJ .-1士u 西S I怛i南®wo-23..N Hl sr-::-'lrI G llr.—£,•';v l''l5一蚩«07:-亠特;rK >5I I I I I I I I k I I I I I I k I I k I I I U 1 I I J I k I I k I5-10-1520■一30选中数据列,点击“插入”菜单拆线图碎石图:由图可知,北京自成一类,江苏、广东、上海、湖南、湖北聚成一类。
《统计分析与SPSS的应用》课后练习答案在学习《统计分析与 SPSS 的应用》这门课程后,通过课后练习,我们对所学知识有了更深入的理解和掌握。
以下是针对课后练习的详细答案及相关解释。
一、单选题1、在 SPSS 中,用于描述数据集中变量分布特征的命令是()A FrequenciesB DescriptivesC ExploreD Crosstabs答案:B解释:Descriptives 命令可以提供变量的集中趋势、离散程度等分布特征的统计量。
2、进行独立样本 t 检验时,需要满足的前提条件是()A 样本来自正态分布总体B 两样本方差相等C 以上都是D 以上都不是答案:C解释:独立样本 t 检验要求样本来自正态分布总体,且两样本方差相等。
3、用于分析两个变量之间线性关系强度的统计量是()A 相关系数B 决定系数C 方差D 标准差答案:A解释:相关系数用于衡量两个变量之间线性关系的密切程度。
二、多选题1、以下哪些是 SPSS 中的数据类型()A 数值型B 字符型C 日期型D 以上都是答案:D解释:SPSS 中的数据类型包括数值型、字符型和日期型。
2、方差分析的基本假定包括()A 正态性B 方差齐性C 独立性D 以上都是答案:D解释:方差分析需要满足正态性、方差齐性和独立性这三个基本假定。
三、简答题1、请简述 SPSS 中数据录入的基本步骤。
答:首先打开 SPSS 软件,在变量视图中定义变量的名称、类型、宽度、小数位数等属性。
然后切换到数据视图,逐行录入数据。
在录入过程中,要注意数据的准确性和完整性。
2、解释均值、中位数和众数的含义及适用情况。
答:均值是所有数据的算术平均值,反映数据的集中趋势,但容易受极端值影响。
适用于数据分布较为对称、不存在极端值的情况。
中位数是将数据从小到大排序后位于中间位置的数值,不受极端值影响,适用于数据分布偏态或存在极端值的情况。
众数是数据中出现次数最多的数值,适用于描述数据的集中趋势,尤其在类别数据中常用。
《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第4章SPSS基本统计分析1、利用第2章第7题数据采用SPSS频数分析,分析被调查者的常住地、职业和年龄分布特征,并绘制条形图。
分析——描述统计——频率,选择“常住地”,“职业”和“年龄”到变量中,然后,图表——条形图——图表值(频率)——继续,勾选显示频率表格,点击确定。
Statistics户口所在地职业年龄N Valid 282 282 282Missing 0 0 0户口所在地Frequency Percent ValidPercentCumulativePercentValid 中心城市200 70.9 70.9 70.9 边远郊区82 29.1 29.1 100.0 Total 282 100.0 100.0职业Frequency Percent ValidPercentCumulativePercentValid 国家机关24 8.5 8.5 8.5 商业服务业54 19.1 19.1 27.7 文教卫生18 6.4 6.4 34.0 公交建筑业15 5.3 5.3 39.4 经营性公司18 6.4 6.4 45.7 学校15 5.3 5.3 51.1 一般农户35 12.4 12.4 63.5 种粮棉专业户4 1.4 1.4 64.9种果菜专业户10 3.5 3.5 68.4 工商运专业户34 12.1 12.1 80.5 退役人员17 6.0 6.0 86.5 金融机构35 12.4 12.4 98.9 现役军人 3 1.1 1.1 100.0 Total 282 100.0 100.0年龄Frequency Percent ValidPercent Cumulative PercentValid 20岁以下 4 1.4 1.4 1.4 20~35岁146 51.8 51.8 53.2 35~50岁91 32.3 32.3 85.5 50岁以上41 14.5 14.5 100.0 Total 282 100.0 100.0分析:本次调查的有效样本为282份。
常住地的分布状况是:在中心城市的人最多,有200人,而在边远郊区只有82人;职业的分布状况是:在商业服务业的人最多,其次是一般农户和金融机构;年龄方面:在35-50岁的人最多。
由于变量中无缺失数据,因此频数分布表中的百分比相同。
2、利用第2章第7题数据,从数据的集中趋势、离散程度以及分布形状等角度,分析被调查者本次存款金额的基本特征,并与标准正态分布曲线进行对比。
进一步,对不同常住地储户存款金额的基本特征进行对比分析。
分析——描述统计——描述,选择存款金额到变量中。
点击选项,勾选均值、标准差、方差、最小值、最大值、范围、偏度、峰度、按变量列表,点击继续——确定。
分析:由表中可以看出,有效样本为282份,存(取)款金额的均值是4738.09,标准差为10945.09,峰度系数为33.656,偏度系数为5.234。
与标准正态分布曲线进行对比,由峰度系数可以看出,此表的存款金额的数据分布比标准正态分布更陡峭;由偏度系数可以看出,此表的存款金额的数据为右偏分布,表明此表的存款金额均值对平均水平的测度偏大。
分析:由表中可以看出,中心城市有200人,边远郊区为82人。
两部分样本存取款金额均呈右偏尖峰分布,且边远郊区更明显。
3、利用第2章第7题数据,如果假设存款金额服从正态分布,能否利用本章所讲解的功能,找到存款金额“与众不同”的样本,并说明理由。
分析——描述统计——描述,选择存款金额到变量中。
对“将标准化得分另存为变量”打上勾,然后对数据编辑窗口中的最后一列变量标准化Z变量进行排序,并观察,找到它的绝对值大于3的都是“与众不同”的样本。
理由:标准化值反映的是样本值与样本均值的差是几个标准差单位。
如果标准化值等于0,则表示该样本值等于样本均值;如果标准化值大于0,则表示该样本值大于样本均值;如果标准化值小于0,则表示该样本值小于样本均值。
如果标准化值的绝对值大于3,则可认为是异常值。
4、利用第2章第7题数据,结合被调查者的常住地或职业或年龄状况,分析储户的收入分布特征。
分析——描述统计——交叉表,选择常住地、职业、年龄到行中,选择收入水平到列中,勾选“显示复式条形图”。
点击单元格——选择观测值、期望、行、列、合计。
点击统计量——选择卡方。
点击继续。
确定利用列联分析实现。
首先编制列联表,然后进行卡方检验。
以户口和收入的列联分析为例:表中,卡方统计量的观测值等于32.064,概率-P值等于0.001。
若显著性水平设为0.05,由于0.001<0.05,拒绝原假设,表明户口地与收入水平不独立。
5、说明第2章第7题资料中的多选项问题是按照哪种拆分方式拆分的。
利用多选项分析被调查者本次存款的最主要目的是什么。
答:第2章第7题资料的多选项问题是按照分类法拆分的。
目的是为了把多选项问题的分析转化为对多个问题的分析,即对多个SPSS变量的分析。
多选项分类法;存款的最主要目的是正常生活零用6、三代同堂的家庭中,婆婆与儿媳妇关系紧张的现象并不少见,为了了解住房条件对婆媳关系的影响,对600户家庭进行了调查并进行了列联分析,如下表:1)补充表中第一行和第四行空缺的计算结果。
差一般好Count577860195Expected Count 48.7568.2578195% within婆媳关系29.23%40.00%30.77%100.00%% within住房条件38.00%37.14%25.00%32.50%Count458763195Expected Count48.7568.2578195% within婆媳关系23.08%44.62%32.31%100.00%% within住房条件30.00%41.43%26.25%32.50%Count4845117210Expected Count 52.573.584210% within婆媳关系22.86%21.43%55.71%100.00%% within住房条件32.00%21.43%48.75%35.00%Count150210240600Expected Count150210240600% within婆媳关系25.00%35.00%40.00%100.00%% within住房条件100.00%100.00%100.00%100.00%婆媳关系*住房条件Crosstabulation婆媳关系Total紧张一般和睦住房条件Total2) 写出卡方检验的统计量并说明其构造基本原理。
∑-=ee f f f X 202)(3) 婆媳关系与住房条件有无联系?判断婆媳关系与住房条件有无关系:因为P 值为0.000,小于显著性水平0.01,属于高度显著,拒绝原假设,所以婆媳关系与住房条件有关系。
计算结果:卡方统计量:∑∑==-=ricjeijeijoijfff1122) (χ,用于测度各个单元格的观测频数与期望频数的差异,并依卡方理论分布判断差异是否统计显著。
由于期望频数代表的是行列变量独立下的分布,所以卡方值越大表明实际分布与期望分布差异越明显。
本例中,由于概率P值小于显著性水平,应拒绝原假设,婆媳关系与住房条件有关系。
7、利用第2章第4题资料,分析两种减肥产品所产生的效果分布是否一致。
分析——描述统计——交叉表,选择“产品类型”到行,选择“体重变化”到列。
点击统计量——勾选卡方。
点击单元格——选择观察值、期望值、行、列、总计。
点击继续,确定。
将计数数据还原为原始数据,采用交叉分组下的频数分析,并进行卡方检验。
表中,卡方统计量观测值为4.339,对应的概率P-值为0.037,小于显著性水平0.05,应拒绝原假设,说明减肥效果并不一致。
8、根据第2 章第8题数据,回答以下问题:(1)该问卷中的多选项问题是按照哪种方式分解的?(2)请给出调查问卷数排在前三位的城市编码。
这三个城市的有效问卷共有多少份?(3)股民中有多大比例的人赚钱了?有多大比例的人亏钱了?(4)股民买卖股票主要依据的是哪种办法?股民买卖股票最少依据的是哪种办法?(5)要研究专职投资者与业余投资者在股票投资结果上是否有差异,请给出你的分析思路、计算结果和分析绪论。
(1)多选项二分法;(2)102(794份)、101(514份)、401(400份)(3)赚钱比例:30.3%,赔钱比例38%(4)主要依据:基本因素法;最少依据:更跟方法(5)采用列联分析。
卡方检验结果表明:专职和业余投资者在投资结果上存在显著差异。
9、为分析私家车主倾向接受的汽车销售价格是否与其居住地区有关,一家汽车企业的销售汽车价格东部地区中部地区西部地区10万元以下20 40 4010万~20万元50 60 5020万~30万元30 20 2030万元以上40 20 10(1(2)可使用哪种分析方法分析上表?请说明分析的基本思路并利用SPSS 进行分析。
(1)变量:汽车价格、居住地区;类型:定序型变量、定类型变量(2)上述是计数数据的组织方式,应首先组织到SPSS的数据编辑器窗口中,再利用交叉分组下的频数分析方法。
利用【交差表】来分析上表,步骤如下:①先将上表中数据录入SPSS 中。
共有400 个个案。
②【分析】→【描述统计】→【交叉表】,将“地区”作为列变量,将“汽车价格”作为行变量,在【统计量】中选择“卡方”,在【单元格】中选择观察值、期望值、行、列和总计,得到分析结果。
③提出原假设:认为地区和汽车价格无关系。
列联分析。
原假设:不同居住区的私家车主接受的汽车价格具有一致性的。
上表可知,如果显著性水平为0.05,由于卡方检验的概率P-值小于显著性水平,因此应拒绝原假设。
由卡方检验表可知,渐进Sig(双侧)为0.000,如果认为显著性水平为0.05,因为0.000 < 0.05,所以拒绝原假设,认为地区和汽车价格有关系,地区分布不同,汽车价格也不同。
请浏览后下载,资料供参考,期待您的好评与关注!。