SPSS常见用法
- 格式:doc
- 大小:1.10 MB
- 文档页数:25
spss操作⼿册第⼀章 SPSS概览--数据分析实例详解1.1 数据的输⼊和保存1.1.1 SPSS的界⾯1.1.2 定义变量1.1.3 输⼊数据1.1.4 保存数据1.2 数据的预分析1.2.1 数据的简单描述1.2.2 绘制直⽅图1.3 按题⽬要求进⾏统计分析1.4 保存和导出分析结果1.4.1 保存⽂件1.4.2 导出分析结果 欢迎加⼊SPSS使⽤者的⾏列,⾸先祝贺你选择了权威统计软件中界⾯最为友好,使⽤最为⽅便的SPSS来完成⾃⼰的⼯作。
由于该软件极为易学易⽤(当然还⾄少要有不太⾼的英语⽔平),我们准备在课程安排上做⼀个新的尝试,即不急于介绍它的界⾯,⽽是先从⼀个数据分析实例⼊⼿:当你将这个例题做完,SPSS的基本使⽤⽅法也就已经被你掌握了。
从下⼀章开始,我们再详细介绍SPSS各个模块的精确⽤法。
我们教学时是以SPSS 10.0版为蓝本讲述的--什么?你还在⽤7.0版!那好,由于10.0版在数据管理的界⾯操作上和以前版本有较⼤区别,本章我们将特别照顾⼀下⽼版本,在数据管理界⾯操作上将按9.0及以前版本的情况讲述,但具体的统计分析功能则按10.0版本讲述。
没关系,基本操作是完全⼀样的。
好,说了这么多废话,等急了吧,就让我们开始吧!希望了解SPSS 10.0版具体情况的朋友请参见本⽹站的SPSS 10.0版抢鲜报道。
例1.1 某克⼭病区测得11例克⼭病患者与13名健康⼈的⾎磷值(mmol/L)如下, 问该地急性克⼭病患者与健康⼈的⾎磷值是否不同(卫统第三版例4.8)?患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11健康⼈: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87让我们把要做的事情理理顺:⾸先要做的肯定是打开计算机(废话),然后进⼊瘟98或瘟2000(还是废话,以下省去废话2万字),在进⼊SPSS后,具体⼯作流程如下:1. 将数据输⼊SPSS,并存盘以防断电。
* SPSS的syntax语法实例一* 编写者彭昆靖(大部分内容使用了SPSS帮助文档)* 对于每一个做数据分析的人来说,数据整理是得到分析结果的基础,但是每个人都知道数据的整理是最枯燥和耗费时间的。
特别是对于要做月报表甚至日报表的人来说,从服务器下载数据后的整理只是机械的重复,虽然可以用excel的编程和批处理来进行处理,但是如果能在SPSS中进行数据的处理是更好的选择,并且不用重新学习VB或者VC。
Spss的也可以利用程序对数据进行处理,并且对使用者的编程能力要求更低,因为大部分的操作都可以直接得到程序代码,不用使用者自己编写。
因此本文只选择了几个不能直接得到的语法进行说明。
本文主要是以实例说明SPSS中语法的使用方法,使用我以前的一个工作结果来进行演示,看完之后,你会发现SPSS的数据处理编写真的是非常容易的事情。
本文中,左半部分是程序内容,右半部分斜体是我写的解释内容,由于不是专业书籍,只是简单的说明如何使用,因此不能像SPSS的Syntex英文说明书一样详尽。
有更多需要的同学,请查阅SPSS的syntex说明书。
在syntex文档中,每句程序是以大写的标准命令起头,以英文的句号.结尾。
而在命令行的前面加上*,表示此句为注释性语句,不会参与命令自行。
SET Printback命令语句输出开关SET Printback=Off. off表示以后的执行语句不会出现在结果窗口中。
SET Printback=On. On表示以后的语句会出现在结果窗口中GET DATA 读入数据文档。
GET DATA 读入数据,下面以/开头的语句是本命 /TYPE=TXT 令的的参数。
/FILE="D:\CARD.csv" 意思是读入D盘根目录下的 CARD.csv文档/DELCASE=LINE/DELIMITERS=","/ARRANGEMENT=DELIMITED/FIRSTCASE=2/IMPORTCASE=ALL/VARIABLES=卡片 A20 卡片字段采用字符型,有20位长度报告单位 F9.0 单位字段采用数字型,有9位长度,其中小数后有0位出生日期SDATE10 出生日期采用日期型,采用顺序号为10的格式。
* SPSS的syntax语法实例一* 编写者彭昆靖(大部分内容使用了SPSS帮助文档)* 对于每一个做数据分析的人来说,数据整理是得到分析结果的基础,但是每个人都知道数据的整理是最枯燥和耗费时间的。
特别是对于要做月报表甚至日报表的人来说,从服务器下载数据后的整理只是机械的重复,虽然可以用excel的编程和批处理来进行处理,但是如果能在SPSS中进行数据的处理是更好的选择,并且不用重新学习VB或者VC。
Spss的也可以利用程序对数据进行处理,并且对使用者的编程能力要求更低,因为大部分的操作都可以直接得到程序代码,不用使用者自己编写。
因此本文只选择了几个不能直接得到的语法进行说明。
本文主要是以实例说明SPSS中语法的使用方法,使用我以前的一个工作结果来进行演示,看完之后,你会发现SPSS的数据处理编写真的是非常容易的事情。
本文中,左半部分是程序内容,右半部分斜体是我写的解释内容,由于不是专业书籍,只是简单的说明如何使用,因此不能像SPSS的Syntex英文说明书一样详尽。
有更多需要的同学,请查阅SPSS的syntex说明书。
在syntex文档中,每句程序是以大写的标准命令起头,以英文的句号.结尾。
而在命令行的前面加上*,表示此句为注释性语句,不会参与命令自行。
SET Printback命令语句输出开关SET Printback=Off. off表示以后的执行语句不会出现在结果窗口中。
SET Printback=On. On表示以后的语句会出现在结果窗口中GET DATA 读入数据文档。
GET DATA 读入数据,下面以/开头的语句是本命 /TYPE=TXT 令的的参数。
/FILE="D:\CARD.csv" 意思是读入D盘根目录下的 CARD.csv文档/DELCASE=LINE/DELIMITERS=","/ARRANGEMENT=DELIMITED/FIRSTCASE=2/IMPORTCASE=ALL/VARIABLES=卡片 A20 卡片字段采用字符型,有20位长度报告单位 F9.0 单位字段采用数字型,有9位长度,其中小数后有0位出生日期SDATE10 出生日期采用日期型,采用顺序号为10的格式。
* SPSS的syntax语法实例一* 编写者彭昆靖(大部分内容使用了SPSS帮助文档)* 对于每一个做数据分析的人来说,数据整理是得到分析结果的基础,但是每个人都知道数据的整理是最枯燥和耗费时间的。
特别是对于要做月报表甚至日报表的人来说,从服务器下载数据后的整理只是机械的重复,虽然可以用excel的编程和批处理来进行处理,但是如果能在SPSS中进行数据的处理是更好的选择,并且不用重新学习VB或者VC。
Spss的也可以利用程序对数据进行处理,并且对使用者的编程能力要求更低,因为大部分的操作都可以直接得到程序代码,不用使用者自己编写。
因此本文只选择了几个不能直接得到的语法进行说明。
本文主要是以实例说明SPSS中语法的使用方法,使用我以前的一个工作结果来进行演示,看完之后,你会发现SPSS的数据处理编写真的是非常容易的事情。
本文中,左半部分是程序内容,右半部分斜体是我写的解释内容,由于不是专业书籍,只是简单的说明如何使用,因此不能像SPSS的Syntex英文说明书一样详尽。
有更多需要的同学,请查阅SPSS的syntex说明书。
在syntex文档中,每句程序是以大写的标准命令起头,以英文的句号.结尾。
而在命令行的前面加上*,表示此句为注释性语句,不会参与命令自行。
SET Printback命令语句输出开关SET Printback=Off. off表示以后的执行语句不会出现在结果窗口中。
SET Printback=On. On表示以后的语句会出现在结果窗口中GET DATA 读入数据文档。
GET DATA 读入数据,下面以/开头的语句是本命 /TYPE=TXT 令的的参数。
/FILE="D:\CARD.csv" 意思是读入D盘根目录下的 CARD.csv文档/DELCASE=LINE/DELIMITERS=","/ARRANGEMENT=DELIMITED/FIRSTCASE=2/IMPORTCASE=ALL/VARIABLES=卡片 A20 卡片字段采用字符型,有20位长度报告单位 F9.0 单位字段采用数字型,有9位长度,其中小数后有0位出生日期SDATE10 出生日期采用日期型,采用顺序号为10的格式。
变异系数又称“标准差率”,是衡量资料中各观测值变异程度的另一个统计量。
当进行两个或多个资料变异程度的比较时,如果度量单位与平均数相同,可以直接利用标准差来比较。
如果单位和(或)平均数不同时,比较其变异程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。
标准差与平均数的比值称为变异系数,记为C.V。
变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。
标准变异系数是一组数据的变异指标与其平均指标之比,它是一个相对变异指标。
变异系数有全距系数、平均差系数和标准差系数等。
常用的是标准差系数,用CV(Coefficient of Variance)表示。
CV(Coefficient of Variance):标准差与均值的比率。
用公式表示为:CV=σ/μ作用:反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。
若两个总体的均值相等,则比较标准差系数与比较标准差是等价的。
变异系数又称离散系数。
cpa中也叫“变化系数”Analyze-Descriptive,计算出标准差和均值,然后用标准差除以均值就算出变异系数了如何用SPSS软件计算两个变量之间的相关系数?怎么判定相关是不是显著相关呢?analyze-correlate-bivariate-选择变量OK输出的是相关系数矩阵相关系数下面的Sig.是显著性检验结果的P值,越接近0越显著。
另外,表格下会显示显著性检验的判断结果,你看看表格下的解释就知道,比如“**. Correlation is significant at the 0.01 level (2-tailed).”就是说,如果相关系数后有"**"符号,代表在0.01显著性水平下显著相关粗略判断的方法是,相关系数0.8以上,可以认为显著相关了在这个图表中,你说的R值就是皮尔逊相关系数~(pearson correlation)r>0 代表两变量正相关,r<0代表两变量负相关。
第四章:SPSS结果窗口用法详解§4.1结果窗口元素介绍SPSS实际上提供了两个结果窗口--结果浏览窗口和结果草稿浏览窗口。
前者最为常用,显示美观,但非常消耗系统资源;后者实际上是一个RTF格式文档,显示简单朴素,但节省资源。
我们可以根据所用计算机的情况选择使用哪一种窗口。
结果草稿浏览窗口的内容虽然是RTF格式,但由于中、英文兼容性的问题,其中的表格读入WORD以后会变的面目全非,因此对我们不是很适用。
4.1.1 结果浏览窗口SPSS的输出结果美观大方,是该软件的一大特色,下面是一个典型的结果浏览窗口。
相信99%的人都用过资源管理器,SPSS的结果浏览窗口和Windows资源管理器的结构完全相同,操作也几乎相同。
除了上面的菜单栏、工具栏以外,绝大部分窗口被纵向一分为二!左侧是大纲视图(Outline view),又称结构视图,右侧则显示详细的统计结果(统计表、统计图和文本结果),两侧的元素是完全一一对应的,即选中一侧的某元素,在另一侧该元素也会被选中。
例如左侧的Title图标旁有一个红色的箭头,表明该内容为结果窗口当前所在位置,相应的,右侧的标题Descriptives旁也出现一个红色三角,表明这就是Title图标所代表的内容。
下面解释一下大纲视图的各个元素。
大纲视图顾名思义,大纲视图用于概略显示结果的结构,用于在宏观上对结果进行管理,如移动,删除等。
里面采取和资源管理器类似的层次方式排列元素,每个元素用一个小图标来表示。
常见的图标有:大纲图标,代表一段或整个输出结果,含下级元素,单击左侧的减号就可以将下级元素折叠,折叠后减号变为加号,图标则变为。
运行记录图标,代表系统操作产生的一段运行记录。
警告图标,代表输出结果中的系统警告。
注解图标,代表系统自动产生的注解,默认情况下注解内容在输出结果中是隐藏的。
标题图标,代表输出标题。
页标题图标,代表输出标题,较少出现。
表格图标,代表输出结果中的统计表(Pivot table,字面意思为数据透视表)。
目录:一、画图二、描述统计分析的SPSS应用三、均值比较检验的SPSS应用四、方差分析五、相关分析六、回归分析注:其中使用到的数据和资料可以访问/s/1pJwPBeF进行安全下载!1、散点图1)简单散点图Graphs->Legacy Dialogs->Scatter/Dot->Simple Scatter设置因变量、自变量及其标志(关键字)在散点图上右键单击,然后选择在新的窗口中编辑可绘制曲线2)三维散点图(图1)Graphs->Legacy Dialogs->Scatter/Dot->3-D Scatter3)矩阵散点图(可描述变量间的两两相关关系)(图2)Graphs->Legacy Dialogs->Scatter/Dot->Matrix Scatter由图2可知卷面成绩和最终总成绩有明显的线性关系图 1 图2注:在word文档中同一行插入两张图:把两张图片都插入进去,然后右击图片选择属性,在里面把图文混排改一下——浮于文字上方analysis→descriptive Statistics(描述统计)→explore→ok图3组箱线图:Graphs->Legacy Dialogs->BoxPlot->组箱线图如图4所示:图4将数据转置,可得横轴为课程的组箱线图如图5:图5 3、茎叶图analysis→descriptive Statistics(描述统计)→explore->销售量 Stem-and-Leaf PlotFrequency Stem & Leaf3.00 14 . 1341.00 14 . 95.00 15 . 023344.00 15 . 56898.00 16 . 001123348.00 16 . 5556788813.00 17 . 011222223344414.00 17 . 55556677888999 7.00 18 . 001223413.00 18 . 5667777888999 6.00 19 . 00124411.00 19 . 556666677885.00 20 . 012335.00 20 . 567896.00 21 . 0011342.00 21 . 581.00 22 . 33.00 22 . 5684.00 23 . 33441.00 Extremes (>=237)Stem width: 10Each leaf: 1 case(s)4、条形图图表->旧对话框->条形图注:MATLAB 方法:1)>> x=3:6;>> y=7:10;>> bar(x,y)2) >>x=3:6; >>y=[5.3000 13.0000 0.4000;5.1000 11.8000 -1.7000;3.7000 8.1000 0.6000;1.5000 7.7000 -4.5000]012345678910>>bar(x,y)3456-6-4-224681012145、 直方图MATLAB 作图:语法:hist(y,m) %统计每段的元素个数并画出直方图 hist(y,x)说明:m 是分段的个数,省略时则默认为10;x 是向量,用于指定所分每个数据段的中间值;y 可以是向量或矩阵,如果是矩阵则按列分段。
例:y=randn(10,2) %产生10*2的正态分布的随机数矩阵x=-2:0.5:2;hist(y,x)6、 饼图 (matlab )y=[200 100 250 400];%四个季度支出额explode=[0 0 1 0];pie(y,explode,{'第一季度','第二季度','第三季度','第四季度'}) 第二季第三季度四季度pie3(y,explode,{'第一季度','第二季度','第三季度','第四季度'})第三季度第第一季二、描述统计分析的SPSS 应用1、求均值、方差分析->描述统计->频率->结果为:2、求样本协方差分析->度量(scale)->可靠性分析(reliability analysis) (在“统计量”中的”协方差“前打对勾)3、样本相关系数(两列数) 分析->相关(correlate)->双相关(Bivariate)三、均值比较检验的SPSS应用(一)单一样本均值的检验分析->比较均值(Compare Means)->单样本T检验(One-Sample T Text),输出:结果分析:P值为0.972>α=0.05,故接受原假设,说明15名学生的平均身高与整个年级的平均身高165无显著差异。
(二)独立样本均值的检验分析->比较均值(Compare Means)->独立样本T检验(Independent-Samples T Text),输出结果:组统计量性别N 均值标准差均值的标准误身高 1.00 8 169.8750 3.90741 1.38148.00 7 159.2857 5.55921 2.10118结果分析:假设方差相等时和假设方差不相等时的P值分别为0.001和0.002,都小于显著性水平0.05,故拒绝原假设,说明男生和女生的身高有显著性差异。
(三)配对样本均值的检验分析->比较均值(Compare Means)->配对样本T 检验(Paired-Samples TText),输出结果:结果分析:双尾概率P=0.008<α=0.05,故拒绝原假设,说明期中成绩和期末成绩有显著性差异,期末成绩比期中成绩进步了。
四、方差分析方差分析是通过对实验结果的分析来判断因子是否显著的一种统计方法,它从分析样本的离差平方和入手,鉴别影响事物变化的各种因素的效应是否显著,进而可以找出显著因素的最佳方法。
高度显著:F>F0.01显著:F0.05<F<F0.01一般显著:F0.1<F<F0.05(一)单因子方差分析分析->比较均值->单因素方差分析->输出结果:F0.05<F<F0.01,所以可以判断因子A显著,即竞争者个数对超市的销售额有显著的影响。
(二)多因子方差分析1、无交互作用的多因子方差分析分析->一般线性模型->单变量(Univariate)->输出结果:P=0.144 >α=0.05,地区因子不显著,即不同地区的地区对电脑销售量的影响不显著;同理,品牌因子的概率值P=0.000<α=0.05品牌因子高度显著,即不同品牌对电脑销售量的影响高度显著。
2、有交互作用的多因子方差分析分析->一般线性模型->单变量(Univariate)->输出结果:结果分析:竞争者和地区因子的概率值P均为0.000,这两个因子都高度显著。
而竞争者和地区交互作用的P值为0.017,介于显著性水平0.05和0.01之间,所以交互作用一般显著,即竞争者和地区的交互作用对超市销售额有一般的显著影响。
(三)协方差分析分析->一般线性模型->单变量(Univariate)->输出结果:结果分析:因子饲料种类和协变量初始重量的概率值P都为0.000,可推断这两个因子都高度显著,即饲料种类和初始重量对猪的生长都有高度显著的影响。
五、相关分析用统计方法揭示变量之间是否存在相关关系及如何将相关的密切程度及相关的方向描述出来,就是相关分析。
简单相关分析、复相关分析、偏相关分析都是通过对应的相关系数来描述变量间的相关程度的。
(一)简单相关分析Pearson相关系数:测度两数值变量的相关性Spearman(斯皮尔曼)等级相关系数:测度两顺序变量的相关性(非参数方法)Kendall’s tau-b相关系数:测度两顺序变量的相关性(非参数方法)分析->相关(correlate)->双变量(bivariate)->输出结果:(二)偏相关分析偏相关分析就是在控制对两变量之间的相关性可能产生影响的其他变量的前提下,即在剔除其他变量的干扰后,研究两个变量间的相关性。
偏相关分析假定变量之间的关系均为线性关系,没有线性关系的变量不能进行偏相关分析。
因此在进行偏相关分析之前可以先通过计算皮尔逊相关系数来考察两两变量间的线性关系。
分析->相关(correlate)->偏相关(Partial)->输出结果:偏相关系数小于皮尔逊简单相关系数,可见简单相关系数有夸大的成分,而偏相关系数与实际更加吻合。
(二)距离相关分析(分为不相似性测度和相似性测度)距离相关分析是对样品或变量之间相似或不相似程度的一种度量。
,计算的是一种广义距离。
距离相关分析可以用于度量样品之间的相互接近的程度也可用于度量变量之间的相互接近的程度。
但距离相关分析一般不单独使用,而是作为聚类分析、因子分析等统计方法的预分析过程,探测复杂数据的内在结构,以得到初步的分析线索,为进一步分析做准备。
一般而言,考察变量之间的相关性采用相似性测度,而对于样品间的相关性采用不相似性测度。
分析->相关->距离->度量标准处选择“相似性”,输出结果:啤酒品牌的一行记录是一个样品,“热量、钠含量”等是变量。
由结果可知,本题最好选用不相似性测量。
六、回归分析 (一)线性回归 1、 总平方和(SST )=Lyy反映因变量的 n 个观察值与其均值的总离差 2、 回归平方和(SSR )=β12L xx反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 3、残差平方和(SSE )反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和判定系数(可决系数)r 2:回归平方和占总离差平方和的比例()()()()∑∑∑∑====---=--==nii ni inii ni iy y y y y y y y SSTSSRR 121212122ˆˆ1ˆ判定系数等于相关系数的平方,即R 2=r 2预测:估计值y0,则置信水平为95%的y的的预测区间近似为(y0-2δ,y0+2δ)δ为回归标准差计算公式为:()MSEnSSEnyysniiiy=-=--=∑=22ˆ12(二)逐步回归分析基本思想:将变量一个一个引入,每引入一个变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。