SPSS非参数检验之一卡方检验
- 格式:docx
- 大小:234.91 KB
- 文档页数:5
医学统计学之卡方检验SPSS操作卡方检验(Chi-Square Test)是一种常用的统计方法,用于比较两个或多个分类变量的分布是否存在差异。
该方法主要用于处理分类数据,例如比较男女性别和吸烟与否对癌症发生的关系。
在SPSS(Statistical Package for the Social Sciences)软件中,进行卡方检验的操作主要分为数据准备、假设设定和计算步骤。
第一步:数据准备首先,需要在SPSS中导入数据。
假设我们需要在一个样本中比较男女性别和吸烟与否的关系,我们可以将性别和吸烟状况作为两个分类变量,分别用“Male”和“Female”表示性别,“Smoker”和“Non-smoker”表示吸烟状况。
将这些数据输入到SPSS中的一个数据表中。
第二步:假设设定接下来,需要设置假设。
在卡方检验中,我们通常有一个原假设和一个备择假设:-原假设(H0):两个或多个分类变量之间没有显著差异。
-备择假设(H1):两个或多个分类变量之间存在显著差异。
在本例中,原假设可以是“性别和吸烟状况之间没有显著差异”,备择假设可以是“性别和吸烟状况之间存在显著差异”。
第三步:计算步骤进行卡方检验的计算步骤如下:1.打开SPSS软件并导入数据。
2. 选择“分析(Analyse)”菜单,然后选择“非参数检验(Nonparametric Tests)”子菜单,最后选择“卡方(Chi-Square)”选项。
3.在弹出的对话框中选择两个分类变量(性别和吸烟状况),并将它们添加到变量列表中。
4.点击“确定(OK)”按钮,开始进行卡方检验的计算。
5.SPSS将计算卡方统计量的值和相关的P值。
如果P值小于指定的显著性水平(通常为0.05),则可以拒绝原假设,接受备择假设。
这样,就完成了卡方检验的SPSS操作。
需要注意的是,卡方检验是一种只能说明变量之间是否存在关系的方法,不能用于确定因果关系。
此外,在进行卡方检验之前,需要确保样本符合一些假设,例如每个单元格的期望频数应该大于5、如果不满足这些假设,可以考虑使用其他适用的统计方法。
SPSS非参数检验之一卡方检验一、卡方检验的概念和原理卡方检验是一种常用的非参数检验方法,用于检验两个或多个分类变量之间的关联性。
它利用实际观察频数与理论频数之间的差异,来判断两个变量是否独立。
卡方检验的原理基于卡方分布,在理论上,如果两个变量是独立的,那么它们的观测频数应该等于理论频数。
卡方检验通过计算卡方值来度量观察频数与理论频数之间的差异程度,进而判断两个变量是否独立。
卡方值的计算公式为:卡方值=Σ((观察频数-理论频数)²/理论频数)其中,观察频数为实际观察到的频数,理论频数为理论上计算得到的频数。
二、卡方检验的步骤卡方检验的步骤包括以下几个方面:1.建立假设:首先需要建立原假设和备择假设。
原假设(H0)是两个变量之间独立,备择假设(H1)是两个变量之间存在关联。
2.计算理论频数:根据原假设和已知数据,计算出各组的理论频数。
3.计算卡方值:利用卡方值的计算公式,计算观察频数与理论频数之间的差异。
4.计算自由度:自由度的计算公式为自由度=(行数-1)*(列数-1)。
5.查表或计算P值:根据卡方值和自由度,在卡方分布表中查找对应的临界值,或者利用计算机软件计算P值。
6.判断结果:判断P值与显著性水平的关系,如果P值小于显著性水平,则拒绝原假设,认为两个变量存在关联;如果P值大于显著性水平,则接受原假设,认为两个变量是独立的。
三、卡方检验在SPSS中的应用在SPSS软件中,进行卡方检验的操作相对简单。
下面以一个具体的案例来说明:假设我们有一份数据,包括了男性和女性在健康习惯(吸烟和不吸烟)方面的调查结果。
我们想要检验性别与吸烟习惯之间是否存在关联。
1.打开SPSS软件,导入数据。
2.选择"分析"菜单,点击"拟合度优度检验"。
3.在弹出的对话框中,将两个变量(性别和吸烟习惯)拖入"因子"栏目中。
4.点击"统计"按钮,勾选"卡方拟合度"。
24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
SPSS 中非参数检验之一:总体分布的卡方(Chi-square )检验在得到一批样本数据后,在得到一批样本数据后,人们往往希望从中得到样本所来自的总体的分布形人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合。
这可以通过绘制样本数据直方图的方法来进行粗略的判断。
略的判断。
如果需要进行比较准确的判断,如果需要进行比较准确的判断,如果需要进行比较准确的判断,则需要使用非参数检验的方法。
则需要使用非参数检验的方法。
则需要使用非参数检验的方法。
其中其中总体分布的卡方检验(也记为χ2检验)就是一种比较好的方法。
检验)就是一种比较好的方法。
一、定义总体分布的卡方检验适用于配合度检验,是根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。
它的零假设H0:样本来自的总体分布形态和期望分布或某一理论分布没有显著差异。
总体分布的卡方检验的原理是:如果从一个随机变量尤中随机抽取若干个观察样本,这些观察样本落在X 的k 个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k 趋于无穷时,就近似服从X 的总体分布。
的总体分布。
因此,假设样本来自的总体服从某个期望分布或理论分布集的实际观察频数同时获得样本数据各子集的实际观察频数,并依据下面的公式计算统计量Q ()21ki i i iO E Q E =-=å其中,Oi 表示观察频数;Ei 表示期望频数或理论频数。
可见Q 值越大,表示观察频数和理论频数越不接近;Q 值越小,说明观察频数和理论频数越接近。
SPSS 将自动计算Q 统计量,由于Q 统计量服从K-1个自由度的X 平方分布,因此SPSS 将根据X 平方分布表给出Q 统计量所对应的相伴概率值。
统计量所对应的相伴概率值。
如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体分布形态与期望分布或理论分布存在显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设HO ,认为样本来自的总体分布形态与期望分布或理论分布不存在显著差异。
学习必备欢迎下载总体分布未知,不会涉及有关总体分布的参数1.单样本非参数检验:卡方分布,二项分布,K-S检验,变量值随机性检验2.两独立样本非参数检验:两独立样本所来自的总体分布是否存在显著差异3.两配对样本非参数检验4.多独立样本非参数检验5.多配对样本非参数检验得到样本数据后,判断总体分布:直方图、P-P图、Q-Q图,或非参数检验1.1 卡方检验:根据样本数据,推断总体分布于期望分布或某一理论分布是否存在显著性差异,是一种吻合性检验,离散型数据。
原假设:样本来自总体的分布与期望分布或某一理论分布无显著性差异。
Eg:心脏病猝死人数与日期。
1.2二项分布检验:检验总体是否服从指定概率为P的二项分布,原假设:样本来自的总体与指定的二项分布无显著差异。
用于:二值型数据,性别,是否合格,是否为三好学生,硬币正反面等,用01表示。
注:检验概率值(检验比例)1.3单样本K-S检验:样本来自的总体是否与某一理论分布有显著差异,是一种拟合优度的检验方法。
用于:探索连续性变量的分布。
正态分布(normal)、均匀分布(uniform)、指数分布(ex.)、泊松分布。
原假设:样本来自的总体与指定的理论分布无显著差异。
另外,对于数据量很大的连续型变量,可以用图形直观判断。
P-P图:数据与理论分布一致时,各个数据点应落在对角线上。
Q-Q图:如果数据与理论分布无显著差异,点应分布在0横线附近。
(没找到啊?)2 Test type:Mann-Whitney: 秩:变量值排序的名次或位置K-S检验:游程检验Wald-wolfwitz Runs极端反应检验Moses Extreme Reactions:踢出极端值前后P值变化情况,是否踢出。
注:不同分析方法对同批数据的分析,结论可能不相同,要反复进行探索性分析,还要注意方法本身侧重点上的差异性。
4 中位数检验强调位置,Kruskal-Wallis检验侧重分析平均秩,Jonckheere比较同相对数。
利用SPSS进行非参数检验(卡方检验)
一、启动SPSS
二、建立数据文件
1、定义两个数值型变量:组限L和频数f(先确定变量名称,
变量类型的默认值为数值型)。
2、输入组限L和频数f的实际数据。
3、用Data菜单中的Weight cases将f变成Frequency(频率)。
三、单击Analyze s菜单,选择Nonparametric Test中的
Chi-Square选项,打开相应的对话框。
选择要进行检验的变量L。
四、根据需要选择相应的选择项:
1、在Expected Range中选择Get from data或Use specified
range,后者需指定Lower(下限)和Upper(上限)。
2、在Expected Values指定期望值:如检验总体是否服从均匀分
布,只需选定All categories equal项;如检验总体是否服从某
个给定的分布,需选定Values,并键入相应各组所对应的由
给定分布计算而得的期望值。
五、选定所需的各项后,单击Ok即可得所需结果。
SPSS数据分析—卡方检验卡方统计量是基于卡方分布的一种检验方法,根据频数值来构造统计量,是一种非参数检验方法。
SPSS中在交叉表和非参数检验中,都可调用卡方检验。
卡方检验的主要有两类应用一、拟合度检验1.检验单个无序分类变量各分类的实际观察次数和理论次数是否一致此类问题为单变量检验,首先要明确理论次数,这个理论次数是根据专业或经验已知的,原假设为观察次数与理论次数一致例】:随机抽取60名高一学生,问他们文理要不要分科,回答赞成的39人,反对的21人,问对分科的意见是否有显著的差异。
分析:如果意见没有差异,那么赞成反对的人数应该各半,即30次,因此理论次数为30例】:一周内各日患忧郁症的人数漫衍如下表所示,请检验一周内各日人们忧郁数是否满足1:1:2:2:1:1:1例】:一个骰子投掷120次,记录掷得每个点数的次数,问该骰子是否存在问题如果骰子是正常的,那么每个点数掷得的概率应该相等,操作方法和前面一样,也使用非参数检验过程,选择默认的所有类别相等卡方检验主要用于分类变量,但是也可以用于对连续变量的拟合度检验上,此类问题的基本思想是:将总体X的取值范围分成k个互不重叠的小区间A1.A2.Ak,把落入第i个小区间的样本值个数作为实际频数,所有实际频数之和等于样本容量,根据理论分布,可以算出总体X的值落入每个小区间Ai的概率Pi,于是nPi就是落入Ai的样本值的理论频数。
有了实际频数和理论频数,就可以计算卡方统计量并进行卡方检验了。
二、独立性检验独立性检验分析两变量之间是否相互独立或有无分歧,也可以在控制某种因素之后,分析两变量之间是否相互独立或有无分歧。
原假设为两变量相互独立或两变量间的相互作用没有分歧。
对于两变量一般采用列联表的形式记录观察数据,分为四格表和R*C列联表,根据卡方统计量和分类变量的类型,又衍生出一些相关系数,这在相关分析中已经讲过。
例】:为了解男女在公开场合禁烟上的态度,随机调查100名男性和80名女性。
卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
SPSS非参数检验非参数检验 SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法,其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。
参数检验与非参数检验的区别:参数检验是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。
但是,在数据分析过程中,由于种种原因,人们往往无法对总体分布形态作简单假定,此时参数检验的方法就不再适用了。
非参数检验正是一类基于这种考虑,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。
由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数检验”。
一、几种常见的非参数检验1、总体分布的卡方检验卡方检验方法可以根据样本数据,推断总体分布与期望分布或某一理论分布是否存在显著差异,是一种吻合性检验,通常适于对有多项分类值的总体分布的分析。
它的原假设是:样本来自的总体分布与期望分布或某一理论分布无差异。
例如,医学家在研究心脏病人猝死人数与日期的关系时发现:一周之中,星期一心脏病人猝死者较多,其他日子则基本相当。
当天的比例近似为2.8:1:1:1:1:1:1。
现收集到心脏病人死亡日期的样本数据,推断其总体分布是否与上述理论分布相吻合。
2、二项分布检验SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布,其原假设是:样本来自的总体与指定的二项分布无显著差异。
在生活中有很多数据的取值是二值的,例如,人群可以分成男性和女性,产品可以分成合格和不合格,学生可以分成三好学生和非三好学生,投掷硬币实验的结果可以分成出现正面和出现反面等。
通常将这样的二值分别用1或0表示。
如果进行n次相同的实验,则出现两类(1或0)的次数可以用离散型随机变量X来描述。
如果随机变量X为1的概率设为P,则随机变量X值为0的概率Q便等于1-P,形成二项分布。
从某产品中随机抽取23个样品进行检测并得到检测结果。
单样本非参数检验SPSS单样本非参数检验是对单个总体的分布形态等进行推断的方法,其中包括卡方检验、二项分布检验、K-S检验以及变量值随机性检验等方法。
1、总体分布的卡方检验例如,医学家在研究心脏病人猝死人数与日期的关系时发现:一周之中,星期一心脏病人猝死者较多,其他日子则基本相当。
当天的比例近似为2.8:1:1:1:1:1:1。
现收集到心脏病人死亡日期的样本数据,推断其总体分布是否与上述理论分布相吻合。
卡方检验方法可以根据样本数据,推断总体分布与期望分布或某一理论分布是否存在显著差异,是一种吻合性检验,通常适于对有多项分类值的总体分布的分析。
它的原假设是:样本来自得总体分布与期望分布或某一理论分布无差异。
2、二项分布检验在生活中有很多数据的取值是二值的,例如,人群可以分成男性和女性,产品可以分成合格和不合格,学生可以分成三好学生和非三好学生,投掷硬币实验的结果可以分成出现正面和出现反面等。
通常将这样的二值分别用1或0表示。
如果进行n次相同的实验,则出现两类(1或0)的次数可以用离散型随机变量X来描述。
如果随机变量X为1的概率设为P,则随机变量X值为0的概率Q便等于1-P,形成二项分布。
SPSS的二项分布检验正是要通过样本数据检验样本来自的总体是否服从指定的概率为P的二项分布,其原假设是:样本来自的总体与指定的二项分布无显著差异。
从某产品中随机抽取23个样品进行检测并得到检测结果。
用1表示一级品,用0表示非一级品。
根据抽样结果验证该批产品的一级品率是否为90%。
3、单样本K-S检验K-S检验方法能够利用样本数据推断样本来自的总体是否服从某一理论分布,是一种拟合优度的检验方法,适用于探索连续型随机变量的分布。
例如,收集一批周岁儿童身高的数据,需利用样本数据推断周岁儿童总体的身高是否服从正态分布。
再例如,利用收集的住房状况调查的样本数据,分析家庭人均住房面积是否服从正态分布。
单样本K-S检验的原假设是:样本来自得总体与指定的理论分布无显著差异,SPSS的理论分布主要包括正态分布、均匀分布、指数分布和泊松分布等。
SPSS 中非参数检验之一:总体分布的卡方(Chi-square )检验
在得到一批样本数据后,人们往往希望从中得到样本所来自的总体的分布形态是否和某种特定分布相拟合。
这可以通过绘制样本数据直方图的方法来进行粗略的判断。
如果需要进行比较准确的判断,则需要使用非参数检验的方法。
其中总体分布的卡方检验(也记为χ2检验)就是一种比较好的方法。
一、定义
总体分布的卡方检验适用于配合度检验,是根据样本数据的实际频数推断总
体分布与期望分布或理论分布是否有显著差异。
它的零假设H0:样本来自的总体分布形态和期望分布或某一理论分布没有显著差异。
总体分布的卡方检验的原理是:如果从一个随机变量尤中随机抽取若干个观察样本,这些观察样本落在X 的k 个互不相交的子集中的观察频数服从一个多项分布,这个多项分布当k 趋于无穷时,就近似服从X 的总体分布。
因此,假设样本来自的总体服从某个期望分布或理论分布集的实际观察频数同时获得样本数据各子集的实际观察频数,并依据下面的公式计算统计量Q
()
2
1
k
i i i i
O E Q E =-=∑
其中,Oi 表示观察频数;Ei 表示期望频数或理论频数。
可见Q 值越大,表示观察频数和理论频数越不接近;Q 值越小,说明观察频数和理论频数越接近。
SPSS 将自动计算Q 统计量,由于Q 统计量服从K-1个自由度的X 平方分布,因此SPSS 将根据X 平方分布表给出Q 统计量所对应的相伴概率值。
如果相伴概率小于或等于用户的显著性水平,则应拒绝零假设H0,认为样本来自的总体分布形态与期望分布或理论分布存在显著差异;如果相伴概率值大于显著性水平,则不能拒绝零假设HO ,认为样本来自的总体分布形态与期望分布或理论分布不存在显著差异。
因此,总体分布的卡方检验是一种吻合性检验,比较适用于一个因素的多项分类数据分析。
总体分布的卡方检验的数据是实际收集到的样本数据,而非频数数据。
二、实例
某地一周内各日患忧郁症的人数分布如下表所示,请检验一周内各日人们忧
实施步骤:
1、打开SPSS 20.0,导入数据。
2、数据--加权个案,如下图所示。
3、分析--非参数检验--旧对话框--卡方检验
将要检验的一周内各日人们忧郁数比例1:1:2:2:1:1:1输入到SPSS中。
由结果可知P=0.331>0.05,不能拒绝原假设,因此可以得出结论:一周内各日人们忧郁数比例为1:1:2:2:1:1:1。