第十二章 分类变量统计推断(2)卡方检验
- 格式:ppt
- 大小:394.50 KB
- 文档页数:62
分类变量的卡方检验方法及其适用条件分类变量的卡方检验是一种常用的统计方法,主要用于比较两个或多个分类变量之间是否存在关联或独立性。
其基本原理是通过比较观察到的频数与期望频数之间的差异,来判断变量之间的关联性。
适用条件:1. 样本量要求较大,一般每个类别的期望频数都应大于5。
2. 适用于离散型变量,且变量分类数不宜过多。
3. 适用于没有先验概率的假设情况。
4. 分类变量之间应相互独立,即没有混杂因素存在。
5. 适用于二分类或多分类的情况,但多分类时需要考虑分类之间的平衡性。
具体操作步骤如下:1. 提出原假设:H₀:总体X的分布函数为F(x)。
如果总体分布为离散型,则假设具体为 H₀:总体X的分布律为P{X=x}=p。
2. 将总体X的取值范围分成k个互不相交的小区间A1,A2,A3,…,Ak,如可取 A1=(a0,a1],A2=(a1,a2],...,Ak=(ak-1,ak),其中a0可取-∞,ak可取+∞,区间的划分视具体情况而定,但要使每个小区间所含的样本值个数不小于5,而区间个数k不要太大也不要太小。
3. 把落入第i个小区间的Ai的样本值的个数记作fi,成为组频数(真实值),所有组频数之和f1+f2+...+fk等于样本容量n。
4. 当H0为真时,根据所假设的总体理论分布,可算出总体X的值落入第i 个小区间Ai的概率pi,于是,npi就是落入第i个小区间Ai的样本值的理论频数(理论值)。
5. 计算卡方统计量:卡方统计量是根据观察频数与期望频数的差异来计算的,具体计算方法是将每个小区间的观察频数与期望频数的差值的平方除以期望频数,然后求和。
6. 判断显著性:根据卡方统计量的大小和自由度,可以判断变量之间的关联性是否显著。
通常情况下,如果卡方统计量大于临界值(如、等),则可以认为变量之间的关联性是显著的。
以上内容仅供参考,建议查阅统计学相关书籍或咨询统计学专业人士获取更多专业解答。
统计学方法卡方检验
卡方检验是一种统计学方法,主要用于分类变量分析,包括两个率或两个构成比的比较、多个率或多个构成比的比较以及分类资料的相关分析等。
具体步骤如下:
首先,观察实际观测值和理论推断值的偏离程度,此处的理论值可以是预期的发生频率或概率。
实际观测值与理论推断值之间的偏离程度决定了卡方值的大小。
如果卡方值越大,说明实际观测值与理论值之间的差异越大;反之,则差异越小。
如果两个值完全相等,卡方值就是0,这表明理论值完全符合实际观测值。
此外,在没有其他限定条件或说明时,卡方检验通常指的是皮尔森卡方检验。
在进行卡方检验时,研究人员通常会将观察量的值划分成若干互斥的分类,并尝试用一套理论(或零假设)去解释观察量的值落入不同分类的概率分布模型。
卡方检验的目的就在于衡量这个假设对观察结果所反映的程度。
卡方检验什么是卡方检验卡方检验是一种用途很广的计数资料的假设检验方法。
它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。
它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。
卡方检验的基本原理卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。
该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。
根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。
如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。
卡方值的计算与意义χ2值表示观察值与理论值之问的偏离程度。
计算这种偏离程度的基本思路如下。
(1)设A代表某个类别的观察频数,E代表基于H0计算出的期望频数,A与E之差称为残差。
(2)显然,残差可以表示某一个类别观察值和理论值的偏离程度,但如果将残差简单相加以表示各类别观察频数与期望频数的差别,则有一定的不足之处。
因为残差有正有负,相加后会彼此抵消,总和仍然为0,为此可以将残差平方后求和。
(3)另一方面,残差大小是一个相对的概念,相对于期望频数为10时,期望频数为20的残差非常大,但相对于期望频数为1 000时20的残差就很小了。
考虑到这一点,人们又将残差平方除以期望频数再求和,以估计观察频数与期望频数的差别。
进行上述操作之后,就得到了常用的χ2统计量,由于它最初是由英国统计学家Karl Pearson在1900年首次提出的,因此也称之为Pearson χ2,其计算公式为:其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。