第十章-卡方检验
- 格式:ppt
- 大小:193.50 KB
- 文档页数:33
第十章 交互分类与2χ检验练习题:1. 为了研究婆媳分居对于婆媳关系的影响,在某地随机抽取了180个家庭,调查结果如下表所示:(1) 计算变量X 与Y 的边际和(即边缘和)X F 和Y F 并填入上表。
(2) 请根据表10-26的数据完成下面的联合分布的交互分类表。
表10-27(3) 根据表10-27指出关于X 的边缘分布和关于Y 的边缘分布。
(4) 根据表10-27指出关于X 的条件分布和关于Y 的条件分布。
解:(1)Y F (从上到下):50;30;100.X F (从左到右):115;65.(2)P 11=15/180;P 21=35/180;1Y F N =50/180;P 12=20/180;P 22=10/180;2Y F N =30/180;P 13=80/180;P 23=20/180;3Y F N =100/180;1X F N =115/180;2X F N =65/180.(3)关于X 的边缘分布:x 分居 不分居 P(x)115/18065/180关于Y 的边缘分布: y 紧张 一般 和睦 P(y)50/18030/180100/180(4)关于X 的条件分布有三个:y=“紧张” x 分居 不分居 P(x)15/5035/50y=“一般” x 分居 不分居 P(x)20/3010/30y=“和睦” x 分居 不分居 P(x) 80/10020/100关于y 的条件分布有两个: X=“分居”y紧张 一般 和睦 P(y)15/11520/11580/115X=“不分居”y紧张 一般 和睦 P(y)35/6510/6520/652. 一名社会学家关于“利他主义”的研究中,对被调查者的宗教信仰情况进行 了分析,得到的结果如下表所示:表10-28(1)根据表10-28的观察频次,计算每一个单元格的期望频次并填入表10-29。
表10-29 (2)根据表10-28和表10-29计算2χ,计算公式为2()2o e ef f f χ-=∑。
卡方检验知识点总结卡方检验的原理是基于观测值与期望值的差异来进行判断的。
在卡方检验中,我们会对观测频数和期望频数进行比较,从而得出相关性的结论。
下面将详细介绍卡方检验的相关知识点。
1. 卡方检验的基本思想卡方检验的基本思想是比较观测频数与期望频数之间的差异,通过检验这种差异是否显著来判断两个变量之间的关系是否存在。
当观测频数与期望频数之间的差异较大时,可以认为两个变量之间存在相关性;当观测频数与期望频数之间的差异较小时,可以认为两个变量之间不存在相关性。
2. 卡方检验的适用条件在进行卡方检验时,需要满足一定的条件才能得到可靠的结果。
首先,变量的测量水平必须是分类(或者说是定性的)。
其次,样本的观测数据必须是频数形式,而且样本量要足够大(通常要求每个单元的期望频数不小于5)。
最后,在进行卡方检验前,需要明确变量之间的关系是独立的还是相关的。
3. 卡方检验的类型卡方检验有两种类型:独立性检验和拟合优度检验。
独立性检验是用于判断两个分类变量之间是否存在相关性,可以用于解决“两个变量关系是否显著”这类问题;拟合优度检验是用于判断观测频数与期望频数之间是否存在差异,可以用于解决“观测数据是否符合某种理论模型”这类问题。
4. 卡方检验的步骤进行卡方检验时,首先要确定研究的问题类型(是独立性检验还是拟合优度检验),然后计算卡方值,最后根据卡方值进行显著性检验。
具体的步骤如下:- 确定问题类型:根据研究的问题类型选择相应的卡方检验类型,是独立性检验还是拟合优度检验。
- 构建假设:根据问题类型构建原假设和备择假设,通常原假设是变量之间不存在相关性,备择假设是变量之间存在相关性。
- 计算卡方值:根据观测频数和期望频数计算卡方值,通常使用下面的公式进行计算:卡方值= Σ((观测频数-期望频数)² / 期望频数)。
- 计算自由度:根据研究问题的条件计算卡方检验的自由度,一般计算公式为:自由度 = (行数-1) * (列数-1)。
卡方检验什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验的基本原理卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。
根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
卡方值的计算与意义χ2值表示观察值与理论值之问的偏离程度。
计算这种偏离程度的基本思路如下。
(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。
因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。
考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为:其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。
卡方检验及其应用一、卡方检验概述:卡方检验主要应用于计数数据的分析,对于总体的分布不作任何假设,因此它属于非参数检验法中的一种。
它由统计学家皮尔逊推导。
理论证明,实际观察次数(f o )与理论次数(f e ),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:)(n f f f ee 2202~)(χχ∑-= 这是卡方检验的原始公式,其中当f e 越大,近似效果越好。
显然f o 与f e 相差越大,卡方值就越大;f o 与f e 相差越小,卡方值就越小;因此它能够用来表示f o 与f e 相差的程度。
根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。
一般用卡方检验方法进行统计检验时,要求样本容量不宜太小,理论次数≥5,否则需要进行校正。
如果个别单元格的理论次数小于5,处理方法有以下四种:1、单元格合并法;2、增加样本数;3、去除样本法;4、使用校正公式。
当某一期望次数小于5时,应该利用校正公式计算卡方值。
公式为:∑--=ee f f f 202)5.0(χ二、卡方检验的统计原理:• 卡方检验所检测的是样本观察次数﹙或百分比﹚与理论或总体次数﹙或百分比﹚的差异性。
• 理论或总体的分布状况,可用统计的期望值(理论值)来体现。
• 卡方的统计原理,是取观察值与期望值相比较。
卡方值越大,代表统计量与理论值的差异越大,一旦卡方值大于某一个临界值,即可获得显著的统计结论。
三、卡方检验的主要应用: 1、独立性检验独立性检验主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。
如果两变量无关联即相互独立,说明对于其中一个变量而言,另一变量多项分类次数上的变化是在无差范围之内;如果两变量有关联即不独立,说明二者之间有交互作用存在。
独立性检验一般采用列联表的形式记录观察数据, 列联表是由两个以上的变量进行交叉分类的频数分布表,是用于提供基本调查结果的最常用形式,可以清楚地表示定类变量之间是否相互关联。