第四章 分类变量资料的卡方检验
- 格式:ppt
- 大小:535.01 KB
- 文档页数:55
24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。
方检验的这点,你千万不能忽视哦!方检验方检验有两种用途:1、拟合优度检验(goodness offit test ):用卡方统计量进行统计学检验,依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到对分类变量的分布进行分析的目的。
2、拟合优度检验是对一个分类变量的检验,有时我们会遇到两个分类变量的问题(也就是列联表数据,横标目和纵标目各代表一个分类变量),看这两个分类变量是否存在联系。
现在,来个题考考大家!双向无序列联表资料什么时候能用卡方检验,什么时候要用精确概率法?传统的统计教材中般认为:对双向无序的RxC 列联表资料进行卡方检验中,当样本量小,存在单元格的理论频数(又叫期望计数)小于5 ,或这样的单元格数超过总单元格数的20% ,才需要选用精确概率法。
其实,这种说法已经过时了。
John H. McDonald 在Handbook of BiologicalStatistics (3rd ed.)一书中对卡方检验的适用条件进行了新的阐述。
完全颠覆了我的以往思路。
现总结归纳如下、只要样本量小于1000 的列联表资料,都应该使用精确概率法。
因为,1000 以下样本量的精确概率法在Excel 、SAS 、SPSS 等软件中都可以轻松实现。
、当样本量比1000 大很多时,即使在大型计算机上的强大软件(例如SAS )做精确概率法的运算都可能存在困难,所以对于样本量大于1000 时,应该使用卡方检验。
如果自由度只有1 ,可以使用Yates 连续性校正(但是对于如此大的样本量,Yates 连续性校正对P 值在准确性上的改进是微不足道。
)、为了便于操作,McDonald 将其经验法则建立在总样本量的基础上,而不是最小的期望计数;如果一个或多个期望计数是非常小(个位数),即使总样本量大于1000 ,也应该使用精确概率法,只是但愿你的计算机能够处理这样的运算量。
卡方检验分类变量事物相互独立临界值解释说明1. 引言1.1 概述本篇论文探讨了卡方检验在分类变量相互独立性判断中的应用,并重点关注了临界值的计算方法及其意义。
卡方检验是一种常用的统计方法,可用于确定两个分类变量之间是否存在相关性。
分类变量是指通过将样本分为不同类别或组别来描述数据的变量。
事物相互独立性是指两个分类变量之间没有任何关联或联系。
1.2 文章结构本文分为五个主要部分:引言、卡方检验与分类变量、事物相互独立的概念和判断方法、卡方检验的临界值计算方法与意义解释、结论。
在引言部分中,我们将简要介绍文章的背景和目标,以及各个章节的内容和结构。
1.3 目的本文旨在解释说明卡方检验在分类变量相互独立性判断中的作用,并深入讨论临界值计算方法与其意义。
通过对相关理论和实际案例进行分析,我们将提供一个具有实践价值和学术参考价值的综合指南,帮助读者更好地理解和应用卡方检验在统计分析中的作用。
同时,我们还将评估卡方检验在分类变量相互独立性判断中的应用价值,并展望未来可能的发展方向。
2. 卡方检验与分类变量2.1 卡方检验概述卡方检验是一种统计方法,用于确定两个或多个分类变量之间的相关性。
它基于观察到的频数与期望频数之间的差异来判断分类变量之间是否存在显著关系。
在实际应用中,卡方检验通常用于验证研究假设和分析数据。
2.2 分类变量的定义和特点分类变量指的是可被分配到有限数目类别中的自变量。
例如,性别、民族和教育程度等都是分类变量。
分类变量具有离散性,它们按照不同类别进行排序,并且各个类别之间没有固定顺序。
2.3 卡方检验在分类变量中的应用卡方检验可用于衡量两个或多个分类变量之间的相关性或独立性。
在进行卡方检验时,我们首先建立一个原假设(H0),即假设两个或多个分类变量是相互独立的。
然后,通过计算观察到的频数与期望频数之间的差异来评估原假设。
如果观察到的频数与期望频数之间没有显著差异,则说明两个或多个分类变量之间是相互独立的。
24. 卡方检验卡方检验,是针对无序分类变量的一种非参数检验,其理论依据是:实际观察频数f 0与理论频数f e (又称期望频数)之差的平方再除以理论频数所得的统计量,近似服从2χ分布,即)(n f f f ee 2202~)(χχ∑-= 卡方检验的一般是用来检验无序分类变量的实际观察频数和理论频数分布之间是否存在显著差异,二者差异越小,2χ值越小。
卡方检验要求:(1)分类相互排斥,互不包容; (2)观察值相互独立;(3) 样本容量不宜太小,理论频数≥5,否则需要进行校正(合并单元格、增加样本数、去除样本法、使用校正公式校正卡方值)。
卡方校正公式为:∑--=ee f f f 202)5.0(χ卡方检验的原假设H 0: 2χ= 0; 备择假设H 1: 2χ≠0; 卡方检验的用途:(1)检验某连续变量的数据是否服从某种分布(拟合优度检验); (2)检验某分类变量各类的出现概率是否等于指定概率; (3)检验两个分类变量是否相互独立(关联性检验); (4)检验控制某几个分类因素之后,其余两个分类变量是否相互独立;(5)检验两种方法的结果是否一致,例如两种方法对同一批人进行诊断,其结果是否一致。
(一)检验单样本某水平概率是否等于某指定概率一、单样本案例例如,检验彩票中奖号码的分布是否服从均匀分布(概率=某常值);检验某产品市场份额是否比以前更大;检验某疾病的发病率是否比以前降低。
有数据文件:检验“性别”的男女比例是否相同(各占1/2)。
1. 【分析】——【非参数检验】——【单样本】,打开“单样本非参数检验”窗口,【目标】界面勾选“自动比较观察数据和假设数据”2.【字段】界面,勾选“使用定制字段分配”,将变量“性别”选入【检验字段】框;注意:变量“性别”的度量标准必须改为“名义”类型。
3. 【设置】界面,选择“自定义检验”,勾选“比较观察可能性和假设可能性(卡方检验)”;4. 点【选项】,打开“卡方检验选项”子窗口,本例要检验男女概率都=0.5,勾选“所有类别概率相等”;注:若有类别概率不等,需要勾选“自定义期望概率”,在其表中设置各类别水平及相应概率。