SAS卡方检验(正式)
- 格式:ppt
- 大小:535.50 KB
- 文档页数:87
SPSS非参数检验之一卡方检验一、卡方检验的概念和原理卡方检验是一种常用的非参数检验方法,用于检验两个或多个分类变量之间的关联性。
它利用实际观察频数与理论频数之间的差异,来判断两个变量是否独立。
卡方检验的原理基于卡方分布,在理论上,如果两个变量是独立的,那么它们的观测频数应该等于理论频数。
卡方检验通过计算卡方值来度量观察频数与理论频数之间的差异程度,进而判断两个变量是否独立。
卡方值的计算公式为:卡方值=Σ((观察频数-理论频数)²/理论频数)其中,观察频数为实际观察到的频数,理论频数为理论上计算得到的频数。
二、卡方检验的步骤卡方检验的步骤包括以下几个方面:1.建立假设:首先需要建立原假设和备择假设。
原假设(H0)是两个变量之间独立,备择假设(H1)是两个变量之间存在关联。
2.计算理论频数:根据原假设和已知数据,计算出各组的理论频数。
3.计算卡方值:利用卡方值的计算公式,计算观察频数与理论频数之间的差异。
4.计算自由度:自由度的计算公式为自由度=(行数-1)*(列数-1)。
5.查表或计算P值:根据卡方值和自由度,在卡方分布表中查找对应的临界值,或者利用计算机软件计算P值。
6.判断结果:判断P值与显著性水平的关系,如果P值小于显著性水平,则拒绝原假设,认为两个变量存在关联;如果P值大于显著性水平,则接受原假设,认为两个变量是独立的。
三、卡方检验在SPSS中的应用在SPSS软件中,进行卡方检验的操作相对简单。
下面以一个具体的案例来说明:假设我们有一份数据,包括了男性和女性在健康习惯(吸烟和不吸烟)方面的调查结果。
我们想要检验性别与吸烟习惯之间是否存在关联。
1.打开SPSS软件,导入数据。
2.选择"分析"菜单,点击"拟合度优度检验"。
3.在弹出的对话框中,将两个变量(性别和吸烟习惯)拖入"因子"栏目中。
4.点击"统计"按钮,勾选"卡方拟合度"。
220 SAS 统计分析与应用从入门到精通为方便起见,通过四栺表的基本数据即实际数(a ,b ,c ,d )直接计算,此时行合计可写为(a+b )和(c+d ),列合计写为(a+c )和(b+d ),以a 、b 、c 、d 改写计算理论数代入χ2公式,化简后得到四栺表专用公式如下:22()()()()()ad bc a b c d a c b d χ-=++++ 同理,代入连续性校正χ2公式,可得到校正的专用公式如下:22(/2)()()()()ad bc n na b c d a c b d χ--=++++13.1.2 四格表卡方检验的SAS 程序在SAS/STAT 模块中,FREQ 、TABULATE 和SUMMARY 等过程可用于分类资料的统计描述,其中FREQ 过程兼具统计描述和统计推断的功能,可对分类变量计算频数分布,产生从一维到n 维的频数表和列联表;对于二维表,可迚行χ2检验;对于三维表,可作Mentel-Hanszel 分层分析。
FREQ 过程是SAS 用于分析分类资料的一个常用过程。
下面介绍FREQ 过程的语句及其栺式。
FREQ 过程的语句基本栺式如下:Proc freq data= order= ;Table 分类变量*分类变量/ <Ooptions>;Weight 变量;Run;各语句选项说明如下。
DATA =数据集:觃定PROC FREQ 语句使用的数据集。
ORDER =FREQ ,按频数递减顺序排列;ORDER =DATA ,按数据集中出现的顺序排列;ORDER=INTERNAL ,按内部值排列(缺省);ORDER =FORMATTED ,按外部栺式值排列。
Table 语句指定构成表栺的变量和表栺结构。
表栺的结构由变量个数和变量排列顺序决定,一个table 语句允许列出多个表栺结构。
PROC FREQ 过程中可以有多条TABLES 语句,TABLES 语句后面可接多个表栺请求式,每个请求式可包含仸何数量的变量,从而得到所需的表栺。
24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
趋势卡方检SAS程序及例题解析趋势卡方检验主要是用于对一些数据的趋势行变化进行检验,在医学上常用于同一地区连续多年小学生龋齿率、肥胖率,疾病的发病率、死亡率等。
例如,某高校口腔执业医师考试基础知识掌握率情况,是否存在一定的趋势。
表1基础知识各学科掌握率(%)及趋势分析2007年2008年2009年2010年2011年Z P 药理51.83 61.31 49.86 63.7 62.87 1.5674 0.117 口腔解剖49.71 64.49 60.38 66.44 70.68 2.8645 0.0042这种数据进行结构整理,如下:表2 药理学掌握率通过率不通过率2007年51.83 48.172008年61.31 38.692009年49.86 50.142010年63.7 36.32011年62.87 37.13通过率不通过率2007年49.71 50.292008年64.49 35.512009年60.38 39.622010年66.44 33.562011年70.68 29.32SAS程序:表2数据data trend;do r=1to5;do c=1to2;input f@@;output;end;end;cards;51.83 48.1761.31 38.6949.86 50.1463.7 36.362.87 37.13;proc freq;weight f;tables r*c /trend nocol norow nopct(这三项可以不选择); run;表3结果FREQ 过程r * c 表r c频数| 1| 2| 合计--------+--------+--------+1 | 49.71 | 50.29 | 100--------+--------+--------+2 | 64.49 | 35.51 | 100--------+--------+--------+3 | 60.38 | 39.62 | 100--------+--------+--------+4 | 66.44 | 33.56 | 100--------+--------+--------+5 | 70.68 | 29.32 | 100--------+--------+--------+合计311.7 188.3 500r * c 表的统计量Cochran-Armitage 趋势检验-------------------统计量(Z) 2.8645 单侧Pr> Z 0.0021 双侧Pr>|Z| 0.0042样本大小= 500。
SPSS学习系列24.- 卡方检验24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f0 与理论频数f e(又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2分布,即(f0 f e)2~(2 n)卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2值越小。
卡方检验要求:1)分类相互排斥,互不包容;2)观察值相互独立;3)样本容量不宜太小,理论频数≥ 5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)卡方校正公式为:( f0 f e 0.5) 2卡方检验的原假设H0: 2= 0; 备择假设H1: 2≠0;卡方检验的用途:1)检验某连续变量的数据是否服从某种分布(拟合优度检验);2)检验某分类变量各类的出现概率是否等于指定概率;3)检验两个分类变量是否相互独立(关联性检验);4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2 )1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2. 【字段】界面,勾选“使用定制字段分配” ,将变量“性别” 选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型3. 【设置】界面,选择“自定义检验” ,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5 ,勾选“所有类别概率相等” ;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率点【确定】回到原窗口,点【运行】得到双击上表,得到更多的描述:结果说明:1)男生的观察频数为28,理论频数为25,残差=3;女生的观察频数为22,理论频数为25,残差=-3;可以计算卡方值=[3 2+(-3) 2]/25=0.722)卡方检验的P 值=0.396>0.05, 故接受原假设H0,即认为男女性别人数无差异。
SPSS学习系列24.- 卡方检验24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f0 与理论频数f e(又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2分布,即(f0 f e)2~(2 n)卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2值越小。
卡方检验要求:1)分类相互排斥,互不包容;2)观察值相互独立;3)样本容量不宜太小,理论频数≥ 5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)卡方校正公式为:( f0 f e 0.5) 2卡方检验的原假设H0: 2= 0; 备择假设H1: 2≠0;卡方检验的用途:1)检验某连续变量的数据是否服从某种分布(拟合优度检验);2)检验某分类变量各类的出现概率是否等于指定概率;3)检验两个分类变量是否相互独立(关联性检验);4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2 )1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2. 【字段】界面,勾选“使用定制字段分配” ,将变量“性别” 选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型3. 【设置】界面,选择“自定义检验” ,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5 ,勾选“所有类别概率相等” ;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率点【确定】回到原窗口,点【运行】得到双击上表,得到更多的描述:结果说明:1)男生的观察频数为28,理论频数为25,残差=3;女生的观察频数为22,理论频数为25,残差=-3;可以计算卡方值=[3 2+(-3) 2]/25=0.722)卡方检验的P 值=0.396>0.05, 故接受原假设H0,即认为男女性别人数无差异。
20. 用PROC FREQ计算频数及卡方检验(一)卡方检验一、卡方分布k 个相互独立的标准正态分布变量的平方和服从自由度为k 的卡方分布。
二、卡方检验概述卡方检验,由英国统计学家Karl Pearson得到,主要应用于计数数据(定性变量中的无序分类变量)的分析,对于总体的分布不作任何假设,因此它属于非参数检验法。
理论证明,实际观察频数(f0)与理论频数(f e, 又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从卡方分布,可表示为:)(n f f f e e 2202~)(χχ∑-= 这是卡方检验的原始公式,其中当f e 越大,近似效果越好。
显然f o 与f e 相差越大,卡方值就越大;f o 与f e 相差越小,卡方值就越小;因此它能够用来表示f o 与f e 相差的程度。
根据这个公式,卡方检验的一般问题是要检验名义型变量的实际观测频数和理论频数分布之间是否存在显著差异。
一般卡方检验要求:① 分类相互排斥,互不包容;② 观察值相互独立;③ 样本容量不宜太小,理论频数≥5,否则需要进行校正。
如果个别单元格的理论频数小于5,处理方法有四种:(1)单元格合并法;(2)增加样本数;(3)去除样本法;(4)使用校正公式。
当期望次数小于5时,应该用校正公式计算卡方值:∑--=e e f f f 202)5.0(χ二、卡方检验的原理1. 卡方检验所检测的是样本观察频数与理论(或总体)频数的差异性;2. 理论或总体的分布状况,可用统计的期望值(理论值)来体现;3. 卡方的统计原理,是取观察频数与期望频数相比较。
当观察频数与期望频数完全一致时,2χ值为0;观察频数与期望频数越接近,两者之间的差异越小,2χ值越小;观察频数与期望频数差别越大,两者之间的差异越大,2χ值越大。
一旦2χ值大于某一个临界值,即可获得显著的统计结论。
4. 步骤:原假设H0: 2χ= 0; 备择假设H1: 2χ≠0;根据数据计算卡方值、P值(右尾面积);若P值≤α,则拒绝H0; 若P值>α,则接受H0.三、卡方检验的应用1. 拟合优度检验检验单个多项分类名义型变量的各分类间的实际观测次数(根据样本数据得到的实计数)与理论次数(根据理论或经验得到的期望次数)之间是否一致、或者服从理论上的某种分布?这一类检验称为拟合性检验。