SPSS学习笔记
- 格式:pdf
- 大小:155.80 KB
- 文档页数:13
SPSS学习笔记课(1)数据输⼊第三种输⼊法:开始——运⾏——“edit”课(2)数据检查(1)简单检查:排序观察(右击数据名——Sort Ascending/Descending)(2)极端值处理:将要检查的变量转换为Z分数(Descriptive Statistics---Descriptive---选中变量,在save standardized values as variables上打勾)——Data--Select Cases—选if condition is satisfied---定义条件:-2<=za1&za1<=2(两个标准差之内)----filtered/Deleted(3)缺失值处理:Transform---Replace Missing Values---选中处理的数据和处理⽅式课(3)数据整理(1)⽂件的合并(merge files):打开被合并的⽂件------Data------merge files-----Add variables (2)⾏列转置(transpose):Data------transpose-----选⼊Variable(s)⼩贴⼠:①时不时按下ctrl+s快捷键存盘②记事本和run edit.exe⽐较适合于中⼩型数据③重复相同命令,点击如下按键课(4)⾮连续性变量的描述统计Bar 直条图,⾮连续性变量(名称变量或顺序变量)Pie 饼图,⾮连续性变量课(5)连续性变量的描述统计Histogram 直⽅图,连续性变量,还可要求绘制正态曲线Frequencies/Descriptive/ExploreExplore在⼀般描述性统计指标的基础上,增加有关数据的其他特征的⽂字与图形描述,显得更加细致与全⾯,有助于⽤户思考对数据进⾏进⼀步分析的⽅案。
Plots对话框:Normality plot with test: 结果中Q—Q图,⽽且有变量正态分布的检验、Kolmogorov-Smirnov 检验和Shapiro—Wilk检验(样本量少于50时适⽤),如果P<.05,说明变量服从正态分布Spread-versus-Level with levene test:变异数同质性检验。
SPSS学习笔记之——相关分析(Pearson、Spearman、卡方检验)一、相关分析方法的选择及指标体系(一)两个连续变量的相关分析1、Pearson相关系数最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。
该系数的计算和检验为参数方法,适用条件如下:(1)两变量呈直线相关关系,如果是曲线相关可能不准确。
(2)极端值会对结果造成较大的影响(3)两变量符合双变量联合正态分布。
2、Spearman秩相关系数对原始变量的分布不做要求,适用范围较Pearson相关系数广,即使是等级资料,也可适用。
但其属于非参数方法,检验效能较Pearson系数低。
(二)有序分类变量的相关分析有序分类变量的相关性又称为一致性,即行变量等级高的列变量等级也高,如果行变量等级高而列变量等级低,则称为不一致。
常用的统计量有:Gamma、Kendall的tau-b、Kendall的tau-c 等。
(三)无序分类变量的相关分析最常用的为卡方检验,用于评价两个无序分类变量的相关性。
根据卡方值衍生出来的指标还有列联系数、Phi、Cramer的V、Lambda 系数、不确定系数等。
OR、RR也是衡量两变量之间的相关程度的指标。
二、SPSS相关操作SPSS的相关分析散布在交叉表和相关分析两个模块中。
(1)交叉表过程如下图:以上的指标很全面,解释如下:(1)“卡方”复选框:为常用的卡方检验,适用于两个无序分类变量的检验。
(2)“相关性”复选框:适用于两个连续性变量的相关分析,给出两变量的Pearson相关系数和Spearman相关系数。
(3)“有序”复选框组:包含了一组反映有序分类变量一致性的指标,只能用于两变量均为有序分类变量的情况。
(4)“名义”复选框组:包含一组分类变量相关性的指标,有序和无序分类时都可使用,但变量为有序时,检验效能没有“有序”复选框组中的统计量高。
(5)Kappa:为内部一致性系数。
(6)风险:给出OR或RR值。
一、生存分析基本概念1、事件(Event)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。
根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
2、生存时间(Survival time)指从某一起点到事件发生所经过的时间。
生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。
有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
3、删失(Sensoring)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。
常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
4、生存函数(Survival distribution function)又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。
t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。
二、生存分析的方法1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。
对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。
2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。
这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。
下面用一个例子来说明SPSS中Cox回归模型的操作方法。
例题要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:操作步骤:SPSS变量视图菜单选择:点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor变量选入“状态”框,其余分析变量选入“协变量”框。
SPSS学习笔记描述样本数据一般的,一组数据拿出来,需要先有一个整体认识。
除了我们平时最常用的集中趋势外,还需要一些离散趋势的数据。
这方面EXCEL就能一次性的给全了数据,但对于SPSS,就需要用多个工具了,感觉上表格方面不如EXCEL好用。
个人感觉,通过描述需要了解整体数据的集中趋势和离散趋势,再借用各种图观察数据的分布形态。
对于SPSS提供的OLAP cubes(在线分析处理表),Case Summary(观察值摘要分析表),Descriptives (描述统计)不太常用,反喜欢用Frequencies(频率分析),Basic Table(基本报表),Crosstabs(列联表)这三个,另外再配合其它图来观察。
这个可以根据个人喜好来选择。
一.使用频率分析(Frequencies)观察数值的分布。
频率分布图与分析数据结合起来,可以更清楚的看到数据分布的整体情况。
以自带文件Trends chapter 13.sav为例,选择Analyze->Descriptive Statistics->Frequencies,把hstarts选入Variables,取消在Display Frequency table前的勾,在Chart里面histogram,在Statistics选项中如图1图1分别选好均数(Mean),中位数(Median),众数(Mode),总数(Sum),标准差(Std. deviation),方差(Variance),范围(range),最小值(Minimum),最大值(Maximum),偏度系数(Skewness),峰度系数(Kutosis),按Continue返回,再按OK,出现结果如图2图2表中,中位数与平均数接近,与众数相差不大,分布良好。
标准差大,即数据间的变化差异还还小。
峰度和偏度都接近0,则数据基本接近于正态分布。
下面图3的频率分布图就更直观的观察到这样的情况图3二.采用各种图直观观察数据分布情况,如采用柱型图观察归类的比例等。
第一章 基本统计分析功能1. Frequencies 过程1 【Charts 钮】用于设定所做的统计图。
2 Chart type 单选钮组 定义统计图类型,有四种选择:无、条图(Bar chart )、圆图(Pie chart)、直方图Histogram ),其中直方图还可以选择是否加上正态曲线(With normal curve )。
3 Chart Values 单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度)。
4 【Format 钮】用于定义输出频数表的格式,不过用处不大,一般不管。
5 Order by 单选钮组 定义频数表的排列次序,有四个选项:1. Ascending values 为根据数值大小按升序从小到大作频数分布;2. Descending values 为根据数值大小按降序从大到小作频数分布;3. Ascending counts 为根据频数多少按升序从少到多作频数分布;4. Descending counts 为根据频数多少按降序从多到少作频数分布。
3 Multiple Variables 单选钮组如果选择了两个以上变量做频数表,则4. Compare variables 可以将他们的结果在同一个频数表过程输出结果中显示,便于互相比较,5. Organize output by variables 则将结果在不同的频数表过程输出结果中显示。
6 Suppress Tables more than...复选框 当频数表的分组数大于下面设定数值时禁止它在结果中输出,这样可以避免产生巨型表格。
Descriptives 过程【Save standardized values as variables 复选框】确定是否将原始数据的标准正态评分存为新变量。
1 【Display 单选钮组】用于选择输出结果中是否包含统计描述、统计图或两者均包括。
2 【Dependent List 框】用于选入需要分析的变量。
SPSS学习笔记
第1章Modeler操作
1.1节点
添加节点:双击鼠标左键
删除节点:直接DEL
添加连接:ALT+鼠标拖动
绕过节点:ALT+鼠标双击
禁用节点:编辑—节点—禁用启用
删除链接:鼠标右键。
删除节点全部链接:选中节点 F3
缓存:除了源节点其他中间节点可使用缓存增加处理速度
注释:添加注释,在注释选项卡开的时候所有的都显示,如果不开就不会显示。
模型块:如果是选择的建模节点,或者数据库建模,则会出现模型块。
双机模型块可以看到预测数据。
给模型块添加输出节点可以输出
注释:通过流属性编辑注释颜色
载入文件:可以在IBM® SPSS® Modeler 中重新载入以下几种已保存的对象:
•流 (.str) •状态 (.cst) •模型 (.gm) •模型选项板 (.gen) •节点 (.nod)
•输出 (.cou) •工程 (.cpj)
映射数据流:可以将原数据源替换或者映射。
一、生存分析基本概念1、事件(Event)指研究中规定的生存研究的终点,在研究开始之前就已经制定好。
根据研究性质的不同,事件可以是患者的死亡、疾病的复发、仪器的故障,也可以是下岗工人的再就业等等。
2、生存时间(Survival time)指从某一起点到事件发生所经过的时间。
生存是一个广义的概念,不仅仅指医学中的存活,也可以是机器出故障前的正常运行时间,或者下岗工人再就业前的待业时间等等。
有的时候甚至不是通用意义上的时间,比如汽车在出故障前的行驶里程,也可以作为生存时间来考虑。
3、删失(Sensoring)指由于所关心的事件没有被观测到或者无法观测到,以至于生存时间无法记录的情况。
常由两种情况导致:(1)失访;(2)在研究终止时,所关心的事件还未发生。
4、生存函数(Survival distribution function)又叫累积生存率,表达式为S(t)=P(T>t),其中T为生存时间,该函数的意义是生存时间大于时间点t的概率。
t=0时S(t)=1,随着t的增加S(t)递减(严格的说是不增),1-S(t)为累积分布函数,表示生存时间T不超过t的概率。
二、生存分析的方法1、生存分析的主要目的是估计生存函数,常用的方法有Kaplan-Meier法和寿命表法。
对于分组数据,在不考虑其他混杂因素的情况下,可以用这两种方法对生存函数进行组间比较。
2、如果考虑其他影响生存时间分布的因素,可以使用Cox回归模型(也叫比例风险模型),利用数学模型拟合生存分布与影响因子之间的关系,评价影响因子对生存函数分布的影响程度。
这里的前体是影响因素的作用不随时间改变,如果不满足这个条件,则应使用含有时间依存协变量的Cox回归模型。
下面用一个例子来说明SPSS中Cox回归模型的操作方法。
例题要研究胰腺癌术中放疗对患者生存时间的影响,收集了下面所示的数据:操作步骤:SPSS变量视图菜单选择:点击进入Cox主对话框,如下,将time选入“时间”框,将代表删失的censor变量选入“状态”框,其余分析变量选入“协变量”框。
SPSS学习笔记---------------------------------------1. SPSS学习笔记之——常用统计方法的选择汇总2. SPSS学习笔记之——多因素方差分析3. SPSS学习笔记之——协方差分析4. SPSS学习笔记之——重复测量的多因素方差分析5.SPSS学习笔记之——二项Logistic回归分析6.SPSS学习笔记之——两配对样本的非参数检验(Wilcoxon符号秩检验)7.SPSS学习笔记之——两独立样本的非参数检验(Mann-Whitney U秩和检验)8.SPSS学习笔记之——多个独立样本的非参数检验(Cruskal-Wallis秩和检验)9.SPSS学习笔记之——生存分析的Cox回归模型(比例风险模型)10.SPSS学习笔记之——相关分析(Pearson、Spearman、卡方检验)11.SPSS学习笔记之——配对logistic回归分析12.SPSS学习笔记之——单样本非参数检验13.SPSS学习笔记之——ROC曲线14.SPSS学习笔记之——Kaplan-Meier生存分析15.SPSS学习笔记之——多相关样本的非参数检验(Friedman检验)16.R×C列联表(分类数据)的统计分析方法选择与SPSS实现17.SPSS学习笔记之——OR值与RR值----------------------------------------价SPSS学习笔记之——多因素方差分析问题:对小白鼠喂以三种不同的营养素,目的是了解不同营养素增重的效果。
采用随机区组设计方法,以窝别作为划分区组的特征,以消除遗传因素对体重增长的影响。
现将同品系同体重的24只小白鼠分为8个区组,每个区组3只小白鼠。
三周后体重增量结果(克)列于下表,问小白鼠经三种不同营养素喂养后所增体重有无差别?区组号营养素1营养素2营养素3150.1058.2064.50247.8048.5062.40353.1053.8058.60463.5064.2072.50571.2068.4079.30641.4045.7038.40761.9053.0051.20842.2039.8046.20SPSS软件版本:18.0中文版。
1、信度分析(指标及其降维与量表的可靠性关系,即Cronbachα系数) (2)2分析——频率分析(把握数据分布特征) (3)3、分析——探索 (4)4、P-P图 (4)5、制图 (5)附加内容:参数估计 (5)6、t检验(student t检验)——均值的差异性 (6)附加:非参数检验 (6)7、方差F检验 (6)8、单因素ANONA检验(亦是方差检验,即一维方差分析) (7)9、分析→一般线性模型→单变量 (8)10、卡方分析(Kappa)——表示观测值A t与理论值p t间的偏离程度。
(8)11、相关分析(不确定性关系分析)——方向与大小方面的关联 (9)附加:二元变量相关分析:(两个及以上变量零假设的相关性分析) (9)12、偏相关分析:(控制可能影响性变量) (10)13、回归分析基础(确定性关系的分析) (10)附加:线性回归分析(R2、F(方差)、Sig.) (10)14、主成分分析与因子分析 (15)15、因子分析 (17)16、分析→分类 (19)分类概述(非分层的) (19)附加:K-means聚类过程:(用变量来实现样品的动态分类) (20)附加:系统聚类(分层聚类) (20)两步聚类:(置信度Confidence level区别其是否有差异) (21)1、信度分析(指标及其降维与量表的可靠性关系,即Cronbachα系数)信度界定:人们在衡量某事物的某种综合特征时,往往要从影响该事物该种特征的多个方面进行分析。
例如评价某人的身体素质,就要从他的身高、胸围、脉搏、血压及肺活量等多个方面进行考虑。
由这些指标的聚集构成的表称为量表。
量表的结构是否合理,或者说所选择的指标是否全面反映对应事物的性质,以及指标取值的可信程度等等,需要作出判断。
可靠性分析就是一种对上面几个问题进行解决的方法。
基本功能:通过研究测量数值和组成研究指标的特性,剔除无效的或者对研究对象作用较小的指标,从而达到将一个多维的研究对象进行降维的目的,正是由于对分析数据进行了降维,发现了反映研究对象的数据结构,从而提高数据的可靠性。
第一节:spss的基本脉络:20世纪60年代末,美国斯坦福大学的三位研究生研发了最早的统计分析软件spss,同时成立了spss公司并在1975年组建spss总部;伴随着spss的成长壮大,其产品内涵也在不断扩大并由最初的spss(Statistical Package for the Social Sciences“社会科学统计软件包”)发展至2000年更名为spss(Statistical Product and Service Solutions“统计产品与服务解决方案”);2009年4月spss公司重新定义其产品并更名为PASW(Predictive Analytics Software“预测统计分析软件”),新产品包括四部分PASW Statistics(统计分析)、PASW Modeler(建模)、Data Collection family(数据收集)、PASW Collaboration and Deployment Services(部署协作服务)。
其版本也有最初的spss/pc+输入命令行的方式发展成为如今的可视对象的交互式操作方式:spss for windows,目前较新的版本是pasw(spss)18.0版。
相比较其他专业统计软件来说,spss易学易用以普及,这也是spss兴盛的主要原因之一。
spss被广泛的应用于社会科学和自然科学领域。
并在各个行业产生了深远的影响,提高各行业数据处理能力,并为各领域数据挖掘和数据预测提供准确的数据支持,提升了诸多领域的运作效率,在人类活动各领域发挥了巨大作用。
第二节:PASW主窗口菜单介绍PASW主窗口菜单包含File、Edit、View、Data、Transform、Analyze、DirectMarketing、Graphs、Utilities、Add-ons、Window、Help等菜单项。
主窗口菜单及功能PASW也包含两个基本窗口Data View(数据查看及录入修改窗口)和Variable View(变量属性窗口)Data View窗口如下:Variable View窗口如下:利用SPSS进行数据分心的一般步骤:1)spss数据的准备阶段;2)spss数据的加工整理阶段;3)spss数据的分析阶段;4)spss分析结果的阅读和解释;缺失数据(missing)pasw数据文件1.pasw数据文件的扩展名是.sav;2.pasw数据文件是一种有结构的数据文件,pasw数据的基本组织方式(数据机构、数据内容);原始数据的组织方式(case、variable),频数数据的组织方式egpasw数据结构和定义方法(variable view窗口中)变量名(name)、类型(type)、宽度(width)、小数点位数(decimals)、标签(label)、值(values)、缺失值(missing)、列宽度(columns)、对齐方式(align)、度量尺度(measure)、数据来源方式(role)变量名(name)1)变量名的字符个数不多于8个(可变);2)首字符应以英文字母或汉字开头,后面可以跟!、?、*以外的字母或数字符号;3)变量名不区分大小写,不能与特定含义的字符同名,如ALL,BY,AND,OR,NOT等4)Spss有默认的变量名,以字母“var”开头,后面补足5位数字。