SPSS简明教程(X2检验和T检验)
- 格式:pdf
- 大小:902.69 KB
- 文档页数:24
S P S S最适用的统计学方法(X 2检验和T检验)1.SPSS的启动(1)在windows[开始]→[程序]→[spss20],进入SPSSforWindows对话框,2.创建一个数据文件三个步骤:(1)选择菜单【文件】→【新建】→【数据】新建一个数据文件。
(2)单击左下角【变量视窗】标签进入变量视图界面,定义每个变量类型。
(1(2所示)在SPSS6.语言切换:编辑(E)—选项(N)--用户界面-语言--简体中文第六章:描述性统计分析(X2检验)完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
6.1.1界面说明界面如下所示:分析—描述统计—频率用于定义需要计算的其他描述统计量。
现将各部分解释如下:PercentileValues复选框组定义需要输出的百分位数,可计算1.四分位数(Quartiles)、2.每隔指定百分位输出当前百分位数(Cutpointsforequalgroups)3.直接指定某个百分位数(Percentiles),如直接P2.5和P97.5o Centraltendency复选框组用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
o Dispersion复选框组用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、604.473.644.345.186.143.244.903.05解:为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为X,具体解法如下:得出结果后手工计算出CV 。
6.1.3结果解释上题除直方图外的的输出结果如下:Frequencies统计量 XN有效101缺失0均值 4.6995中值 4.6100标准差.8616225 3.0455百分位数97.5 6.4565最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。
u检验、t检验、F检验、X2检验常用显著性检验1.t检验适用于计量资料、正态分布、方差具有齐性的两组间小样本比较。
包括配对资料间、样本与均数间、两样本均数间比较三种,三者的计算公式不能混淆。
2.t'检验应用条件与t检验大致相同,但t′检验用于两组间方差不齐时,t′检验的计算公式实际上是方差不齐时t检验的校正公式。
3.U检验应用条件与t检验基本一致,只是当大样本时用U检验,而小样本时则用t检验,t检验可以代替U检验。
4.方差分析用于正态分布、方差齐性的多组间计量比较。
常见的有单因素分组的多样本均数比较及双因素分组的多个样本均数的比较,方差分析首先是比较各组间总的差异,如总差异有显著性,再进行组间的两两比较,组间比较用q检验或LST检验等。
5.X2检验是计数资料主要的显著性检验方法。
用于两个或多个百分比(率)的比较。
常见以下几种情况:四格表资料、配对资料、多于2行*2列资料及组内分组X2检验。
6.零反应检验用于计数资料。
是当实验组或对照组中出现概率为0或100%时,X2检验的一种特殊形式。
属于直接概率计算法。
7.符号检验、秩和检验和Ridit检验三者均属非参数统计方法,共同特点是简便、快捷、实用。
可用于各种非正态分布的资料、未知分布资料及半定量资料的分析。
其主要缺点是容易丢失数据中包含的信息。
所以凡是正态分布或可通过数据转换成正态分布者尽量不用这些方法。
8.Hotelling检验用于计量资料、正态分布、两组间多项指标的综合差异显著性检验。
计量经济学检验方法讨论计量经济学中的检验方法多种多样,而且在不同的假设前提之下,使用的检验统计量不同,在这里我论述几种比较常见的方法。
在讨论不同的检验之前,我们必须知道为什么要检验,到底检验什么?如果这个问题都不知道,那么我觉得我们很荒谬或者说是很模式化。
检验的含义是要确实因果关系,计量经济学的核心是要说因果关系是怎么样的。
那么如果两个东西之间没有什么因果联系,那么我们寻找的原因就不对。
最适用的统计学方法(检验和检验)1.的启动(1)在[开始]→[程序]→[],进入对话框,.创建一个数据文件三个步骤:()选择菜单【文件】→【新建】→【数据】新建一个数据文件。
()单击左下角【变量视窗】标签进入变量视图界面,定义每个变量类型。
()单击【数据视窗】标签进入数据视窗界面,录入数据库单元格内。
.读取外部数据当前版本的可以很容易地读取数据,步骤如下:()按【文件】→【打开】→【数据】的顺序使用菜单命令调出打开数据对话框,在文件类型下拉列表中选择数据文件,如图所示。
图对话框()选择要打开的文件,单击“打开”按钮,调出打开数据源对话框,如图所示。
对话框中各选项的意义如下:工作表下拉列表:选择被读取数据所在的工作表。
范围输入框:用于限制被读取数据在工作表中的位置。
图对话框.数据编辑在中,对数据进行基本编辑操作的功能集中在和菜单中。
.数据的保存数据录入并编辑整理完成以后应及时保存,以防数据丢失。
保存数据文件可以通过【文件】→【保存】或者【文件】→【另存为】菜单方式来执行。
在数据保存对话框(如图所示)中根据不同要求进行数据保存。
图数据的保存. 数据分析在中,数据整理的功能主要集中在【数据】和【分析】两个主菜单下.语言切换:编辑()—选项()用户界面语言简体中文第六章:描述性统计分析(检验)完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的检验也在其中完成。
界面说明界面如下所示:分析—描述统计—频率用于定义需要计算的其他描述统计量。
现将各部分解释如下:复选框组定义需要输出的百分位数,可计算.四分位数()、.每隔指定百分位输出当前百分位数( ).直接指定某个百分位数(),如直接和复选框组用于定义描述集中趋势的一组指标:均数()、中位数()、众数()、总和()。
复选框组用于定义描述离散趋势的一组指标:标准差()、方差()、全距()、最小值()、最大值()、标准误()。
复选框组用于定义描述分布特征的两个指标:偏度系数()和峰度系数()。
检验步骤总结:1、t检验2、方差分析3、卡方检验4、秩和检验5、相关分析6、线性回归1、t检验要求数据来自正态总体,可能需要先做正态检验(1)单一样本t检验数据特征:单一样本变量均数与某固定已知均数进行比较方法:ANALYZE-COMPARE MEANS-ONE SAMPLE t TEST(2)独立样本t检验数据特征:两个独立、没有配对关系的样本有专门变量表示组数方法:ANALYZE-COMPARE MEANS-INDEPENDENT SAMPLES t TEST注意观察方差分析结果,判断查看的数据是哪一行(3)配对样本t检验数据特征:两个不独立的,有配对关系的样本没有专门变量表示组数方法:ANALYZE-COMPARE MEANS-PAIRED SAMPLES t TEST不需要方差分析结果检验步骤:(1)正态性检验1有同学推荐,老师没有强调,但依据理论应进行(2)建立假设H0:;;;;来自同一样本; H1:;;;;不来自同一样本(3)确定检验水准(4)计算统计量依据上面不同样本类型选择检验方法,注意独立样本t检验要先注明方差分析结果(5)确定概率值P(6)得出结论2、方差分析要求数据来自正态总体,可能需要先做正态检验(1)单因素方差分析数据特征:相互独立、来自正态总体、随机、方差齐性的多样本有专门变量表示组数,且组数大于2方法:ANALYZE-COMPARE MEANS-ONE WAY ANOVA注意需要在options 里面选择homogeneity variance test 做方差分析符合方差齐性才可以得出结论>(2)双因素方差分析1正态性检验方法:analyze-explore-plot里面选择normality test数据特征:有三列数据,1列是主要研究因素,1列是配伍组因素,1列是研究数据;方法:GENERAL LINEAR MODEL-UNIVARIATE 注意选择model里的custom,type是main effect,注意把两个因素选择为fixed factor检验步骤:(1)正态性检验有同学推荐,老师没有强调,但依据理论应进行(2)建立假设H0:;;;;来自同一样本; H1:;;;;不全来自同一样本或全不来自同一样本(3)确定检验水准(4)计算统计量依据上面不同样本类型选择检验方法,注意单因素方差分析要先注明方差分析结果(5)确定概率值P(6)得出结论3、卡方检验(1)Crosstabs数据特征:单个或多个样本率的比较;加权数据有三列数据,注意将最后一列数字加权其不参与运算,仅是说明前两列数据的数量;不加权数据有两列;其中运算列中通常第一列表述组数,可以大于二;第二列表述阳性或阴性,通常为1或2;检验方法:ANALYZE-DESCRIPTIVE STASTICS-CROSS TABS-注意加选statistics里面的chi-square复选框得到检验结果后,根据样本量以及每框的数据选择查看的数据行详见课件如果要看有无线性趋势,直接查看linear行(2)非参数检验数据特征:如果针对的是明确两种检测疾病手段的差异性,那么两种手段的阳性结果都要被剔除,此时选择非参数检验具体理论不详检验方法:NONPARAMETIC TESTS- TWO RELATED SAMPLES- 勾选MC MEAR复选框检验步骤:(1)建立假设H0:;;;;来自同一样本; H1:;;;;(2)确定检验水准(3)计算统计量注意cross tabs检验依据样本量以及单元格数据大小选择适宜的数据读取(4)确定概率值P(5)得出结论4、秩和检验T检验以及方差分析中,不满足条件的资料,可以进行秩和检验即非参数检验获得结论参数检验以及非参数检验范围详见课件,依据特征可以分为4类(1)两独立样本数据特征:两列,类似独立样本T检验,一列表明组数,一列是数据检验方法:NONPARAMETIC TESTS-2 INDEPENDENT SAMPLES-复选框勾选KOMOLGOROV(2)两配对样本数据特征:两列,类似独立样本T检验,分别是不同组数据检验方法:NONPARAMETIC TESTS-2 related SAMPLES-复选框勾选wilcoxon (3)多组独立随机样本数据特征:两列, 类似单因素方差分析检验方法:NONPARAMETIC TESTS-k INDEPENDENT SAMPLES-复选框勾选Krushal—Wallis H(4)多组配对样本数据特征:多列,1列说明分组,其余多列都为数据检验方法:NONPARAMETIC TESTS-k related SAMPLES-复选框勾选Friedman检验步骤:(1)建立假设H0:;;;;来自同一样本; H1:;;;;(2)确定检验水准(3)计算统计量(4)确定概率值P(5)得出结论5、相关分析(1)制作散点图:数据特点:双变量,两列数据方法: graphs------scatter,可利用双击左键方式选择绘出相关直线(2)双变量正态分布且连续相关性分析:数据特点:双变量,两列计算方法:一定要检验正态性,首先对两者进行正态性检验,两个正态结果CORRELATE-BIVARIATE-勾选Pearson(3)等级资料相关性分析:数据特点:明显等级资料,三列一列是编号,但不入计算CORRELATE-BIVARIATE-勾选spearman(4)双变量非正态;;;数据特点:检验后非正态CORRELATE-BIVARIATE-勾选kendall检验步骤:非等级资料:(1)正态性检验(2)计算相关系数r(3)建立相关系数的假设检验H0:p=0, 两变量间无直线相关关系H1:p≠0,两变量间有直线相关关系(4)确定检验水准a=(5)计算统计量其实表中会直接给出(6)确定p值(7)得出结论等级资料:(1)计算相关系数r(2)建立相关系数的假设检验H0:p=0, H1:p≠0,(3)确定检验水准a=(4)计算统计量其实表中会直接给出(5)确定p值(6)得出结论6、一元线性回归需建立拟合方程是否需要正态检验、相关分析铺垫7、8、数据类型:类似相关分析计算方法:regression-linear-勾选好后,选enter模式拟合步骤:1)计算回归系数系数表内看,通常<12)对回归系数b进行假设检验系数表内,最后1列3)建立回归方程系数表内4)评价回归方程模型汇总表内R2xybxay bb1+=+=ΛΛ或。
SPSS最适用的统计学方法(X2检验和T检验)1.SPSS的启动(1)在windows[开始]→[程序]→[spss20],进入SPSS for Windows对话框,2.创建一个数据文件三个步骤:(1)选择菜单【文件】→【新建】→【数据】新建一个数据文件。
(2)单击左下角【变量视窗】标签进入变量视图界面,定义每个变量类型。
(3)单击【数据视窗】标签进入数据视窗界面,录入数据库单元格内。
3.读取外部数据当前版本的SPSS可以很容易地读取Excel数据,步骤如下:(1)按【文件】→【打开】→【数据】的顺序使用菜单命令调出打开数据对话框,在文件类型下拉列表中选择数据文件,如图2.2所示。
图2.2 Open File对话框(2)选择要打开的Excel文件,单击“打开”按钮,调出打开Excel数据源对话框,如图2.3所示。
对话框中各选项的意义如下:工作表下拉列表:选择被读取数据所在的Excel工作表。
范围输入框:用于限制被读取数据在Excel工作表中的位置。
图2.3 Open Excel Data Source对话框4.数据编辑在SPSS中,对数据进行基本编辑操作的功能集中在Edit和Data菜单中。
5.SPSS数据的保存SPSS数据录入并编辑整理完成以后应及时保存,以防数据丢失。
保存数据文件可以通过【文件】→【保存】或者【文件】→【另存为】菜单方式来执行。
在数据保存对话框(如图2.5所示)中根据不同要求进行SPSS数据保存。
图2.5 SPSS数据的保存5. 数据分析在SPSS中,数据整理的功能主要集中在【数据】和【分析】两个主菜单下6.语言切换:编辑(E)—选项(N)--用户界面-语言--简体中文第六章:描述性统计分析(X2检验)完成计数资料和等级资料的统计描述和一般的统计检验,我们常用的X2检验也在其中完成。
6.1.1界面说明界面如下所示:分析—描述统计—频率用于定义需要计算的其他描述统计量。
现将各部分解释如下:Percentile Values复选框组定义需要输出的百分位数,可计算1.四分位数(Quartiles)、2.每隔指定百分位输出当前百分位数(Cut points for equal groups)3.直接指定某个百分位数(Percentiles),如直接P2.5和P97.5o Central tendency复选框组用于定义描述集中趋势的一组指标:均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)。
o Dispersion复选框组用于定义描述离散趋势的一组指标:标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)。
o Distribution复选框组用于定义描述分布特征的两个指标:偏度系数(Skewness)和峰度系数(Kurtosis)。
o Values are group midpoints复选框当你输出的数据是分组频数数据,并且具体数值是组中值时,选中该复选框以通知SPSS,免得它犯错误。
【Charts钮】弹出Charts对话框,用于设定所做的统计图。
o Chart type单选钮组定义统计图类型,有四种选择:无、条图(Bar chart)、圆图(Pie chart)、直方图Histogram),其中直方图还可以选择是否加上正态曲线(With normal curve)。
例:许根友要求统计的。
丙氨酸氨基转移酶(ALT)调查,男性244人有50人异常,女性255人有6人结果异常,结果是否有统计学意义。
X2卡方值是41.777,P<0.0016.1.2 分析实例例6.1 某地101例健康男子血清总胆固醇值测定结果如下,请绘制频数表、直方图,计算均数、标准差、变异系数CV、中位数M、p2.5和p97.5(卫统第三版p233 1.1题)。
4.77 3.37 6.14 3.95 3.56 4.23 4.31 4.715.69 4.12 4.56 4.37 5.396.30 5.217.225.54 3.93 5.21 4.12 5.18 5.77 4.79 5.12 5.20 5.10 4.70 4.74 3.50 4.69 4.38 4.896.25 5.32 4.50 4.63 3.61 4.44 4.43 4.25 4.03 5.85 4.09 3.35 4.08 4.79 5.30 4.97 3.18 3.97 5.16 5.10 5.86 4.79 5.34 4.24 4.32 4.77 6.36 6.38 4.88 5.55 3.04 4.553.354.87 4.175.85 5.16 5.09 4.52 4.38 4.31 4.58 5.726.55 4.76 4.61 4.17 4.034.47 3.40 3.91 2.70 4.60 4.095.96 5.48 4.40 4.55 5.38 3.89 4.60 4.47 3.64 4.345.186.14 3.24 4.90 3.05解:为节省篇幅,这里只给出精确频数表的做法,假设数据已经输好,变量名为X,具体解法如下:1. Analyze==>Descriptive Statistics==>Frequencies (分析—描述统计—频率--)2. Variables(变量)框:选入X3. 单击Statistics(统计量)钮:4. 选中Mean(均数)、Std.deviation(标准差)、Median(中位数)复选框5. 单击Percentiles(百分位数):输入2.5:单击Add(添加):输入97.5:单击Add:6. 单击Continue钮7. 单击Charts(图表)钮:8. 选中Bar charts (条形图)9. 单击Continue钮10.单击OK得出结果后手工计算出CV。
6.1.3 结果解释上题除直方图外的的输出结果如下:Frequencies统计量X最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。
系统对变量x作频数分布表(此处只列出了开头部分),Vaild右侧为原始值,Frequency 为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Valid percent为各组频数占总例数的有效百分比,Cum Percent为各组频数占总例数的累积百分比。
§6.2 Descriptives过程最上方为表格名称,左上方为分析变量名,可见样本量N为101例,缺失值0例,均数Mean=4.69,中位数Median=4.61,标准差STD=0.8616,P2.5=3.04,P97.5=6.45。
系统对变量x作频数分布表(此处只列出了开头部分),Vaild右侧为原始值,Frequency 为频数,Percent为各组频数占总例数的百分比(包括缺失记录在内),Valid percent为各组频数占总例数的有效百分比,Cum Percent为各组频数占总例数的累积百分比。
6.2 Descriptives过程(描述性统计分析)以上面的题为例,分析—统计描述—描述—选项—均值、标准差、方差、最小值、最大值、均值的标准误、变量例表---继续---确定。
§6.4 Crosstabs过程(交叉表)Crosstabs过程用于对计数资料和有序分类资料进行统计描述和简单的统计推断。
在分析时可以产生二维至n维列联表,并计算相应的百分数指标。
统计推断则包括了我们常用的X2检验、Kappa值,分层X2(X2)。
如果安装了相应模块,还可计算n维列联表的M-H确切概率(Fisher's Exact Test)值。
6.4.2 分析实例例6.2 某医生用国产呋喃硝胺治疗十二指肠溃疡,以甲氰咪胍作对照组,问两种方法治疗效果有无差别(医统第二版P37 例3.10)?处理愈合未愈合合计呋喃硝胺54 8 62甲氰咪胍44 20 64合计98 28 126解:由于此处给出的直接是频数表,因此在建立数据集时可以直接输入三个变量――行变量、列变量和指示每个格子中频数的变量,然后用Weight Cases对话框指定频数变量,最后调用Crosstabs过程进行X2检验。
假设三个变量分别名为R、C和W,则数据集结构和命令如下:R C W1.00 1.00 54.001.002.00 44.002.00 1.00 8.002.00 2.00 20.00也可以这样治疗情况药物X1.00 1.00 54.001.002.00 44.002.00 1.00 8.002.00 2.00 20.00在变量视图—治疗情况的值中标签(1=愈合,2=未愈合)在变量视图—药物的值中标签(1=呋喃硝胺,2=甲氰咪胍)在变量视图—治疗情况、药物、X的类型全为数值一、1. Data==>Weight Cases (数据==>加权个案)2. Weight Cases by单选框:选中加权个案单选框3. Freqency Variable(频率变量):选入X4. 单击OK钮(单击确定按钮)二、5. Analyze==>Descriptive Statistics==>Crosstabs (分析==>描述统计==>交叉表)6. Rows(行)框:选入药物、7. Columns(列)框:选入治疗情况8. Statistics(统计量)钮:Chi-square(卡方)复选框:选中:单击Continue(继续)钮9. 单击OK(确定)钮6.4.3 结果解释上题的结果如下:首先是处理记录缺失值情况报告,可见126例均为有效值。
上面为列出的四格交叉表,实际使用时可以在其中加入变量值标签,使看起来更清楚。
上表给出了一堆检验结果,从左到右为:检验统计量值(Value)、自由度(df)、双侧近似概率(Asymp.Sig.2-sided)、双侧精确概率(Exact Sig.2-sided)、单侧精确概率(Exact Sig.1-sided);从上到下为:Pearson卡方(Pearson Chi-Square即常用的卡方检验)、连续性校正的卡方值(Continuity Correction)、对数似然比方法计算的卡方(Likelihood Ratio)、Fisher's确切概率法(Fisher's Exact Test)、线性相关的卡方值(Linear by Linear Association)、有效记录数(N of Valid Cases)。