第五章第一次课 卡方检验 第一节检验原理 第二及节 适合性检验

  • 格式:doc
  • 大小:505.50 KB
  • 文档页数:12

下载文档原格式

  / 12
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第五章 x 2检验

教学要求1.了解卡方分布的特点,掌握适合性检验的原理和适用范围 2. 掌握独立性检验的原理和适用范围

一、χ2检验的定义

χ2 检验(Chi-square test) 对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验,即根据样本的频数分布来推断总体的分布。

χ2检验与测量数据假设检验的区别:

(1)测量数据的假设检验,其数据属于连续变量,而χ2检验的数据属于点计而来的间断变量。

(2) 测量数据所来自的总体要求呈正态分布,而χ2检验的数据所来自的总体分布是未知的。

(3)

测量数据的假设检验是对总体参数或几个总体参数之差所进行的假设检验,而χ2 检验在多数情况下不是对总体参数的检验,而是对总体分布的假设检验。

二、χ2检验与连续型资料假设检验的区别

三、χ2检验的用途

适合性检验(吻合度检验):是指对样本的理论数先通过一定的理论分布推算出来,然后用实际观测值与理论数相比较,从而得出实际观测值与理论数之间是否吻合。因此又叫吻合度检验。

独立性检验:

是指研究两个或两个以上的计数资料或属性资料之间是相互独立的或者是相互联系的假设检验,通过假设所观测的各属性之间没有关联,然后证明这种无关联的假设是否成立。

同质性检验:

在连续型资料的假设检验中,对一个样本方差的同质性检验,也需进行χ2 检验。

连续型资料假设检验

χ2 检验

第一节:χ2检验的原理与方法

χ2检验的基本原理:χ2检验就是统计样本的实际观测值与理论推算值之间的偏离程度。

实际观测值与理论推算值之间的偏离程度就决定其χ2值的大小。理论值与实际值之间偏差越大,χ2值就越大,越不符合;偏差越小,χ2值就越小,越趋于符合;若两值完全相等时,χ2值就为0,表明理论值完全符合。

χ2检验统计量的基本形式:

(Oi-Ei)2

χ2=∑

Ei

O--实际观察的频数(observational frequency)

E--无效假设下的期望频数(expectation frequency)

要回答这个问题,首先需要确定一个统计量,将其用来表示实际观测值与理论值偏离的程度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。

判断实际观测值与理论值偏离的程度,最简单的办法是求出实际观测值与理论值的差数。

由于差数之和正负相消,并不能反映实际观测值与理论值相差的大小。

为了避免正、负相抵消的问题,可将实际观测值与理论值的差数平方后再相加,也就是计算:

∑(O-E)2

O--实际观察的频数

E--无效假设下的期望频数

数的平方除以相应的理论值,将之化为相对数,从而来反映(O-E)2 的比重,最后将各组求和,这个总和就是χ2。

羔羊性别观测值与理论值

χ2值就等于各组观测值和理论值差的平方与理论值之比,再求其和。

χ2值的特点

可加性 非负值

随O 和E 而变化

χ2值与概率P 成反比, χ2值越小,P 值越大,说明实际值与理论值之差越小,样本分布与假设的理论分布越相一致;

χ2越大,P 值越小,说明两者之差越大,样本分布与假设理论分布越不一致。

χ2检验的基本步骤

1.

提出无效假设H 0:观测值与理论值的差异由抽样误差引起,即观测值=理论值。同时给出相就的备择假设HA :观测值与理论值的差值不等于0,即观测值≠理论值

2. 确定显著水平α:一般确定为0.05或0.01

3.

计算样本的χ2值

χ2

= ∑

(O i -E i )2

E i

χ2

= ∑

(O i -E i )2

E

4. 进行统计推断

χ2检验的注意事项

1、 任何一组的理论次数Ei 都必须大于5,如果Ei ≤5,则需要合并理论组或增大样本容量以满足Ei >5

2、

2、在自由度=1时,需进行连续性矫正,其矫正的χ2c 为:

χ2分布是连续型变量的分布,每个不同的自由度都有一个相应的χ2分布曲线,所以其

分布是一组曲线。

由于检验的对象-次数资料是间断性的,而χ2分布是连续型的,检验计算所得的χ2

值只是近似地服从χ2分布,所以应用连续型的χ2分布的概率检验间断性资料所得的χ2值就有一定的偏差。

χ2 < χ

2

α

P > α χ2 > χ2α

P < α

H 0 H 0

χ2= ∑

( O i -E i - 0.5 )2

E i

由次数资料算得的χ2均有偏大的趋势,即概率偏低。当df=1,尤其是小样本时,必须作连续性矫正。

第五章 第二节 适合性检验

适合性检验定义:比较观测数与理论数是否符合的假设检验。

用 途

鲤鱼遗传试验F2观测结果

(1) H0:鲤鱼体色F2分离符合3:1比率; HA :鲤鱼体色F2分离不符合3:1比率; (2)取显著水平α=0.05 (3)计算统计数χ2 :

样本的分布与理论分布是否相等

适合性检验的df 由于受理论值的总和等于

观测值总和这一条件的约束,故df =n-1

χ2c

( O i -E i - 0.5 )2

E i

df= k-1 = 2-1 =1 需要连续性校正

在无效假设H0正确的前提下,青灰色的理论数为:Ei =1602×3/4=1201.5 红色理论数为: Ei =1602×1/4=400.5

=75.41+226.22=301.63

(4)查χ2值表,当df=1时,χ20.05 =3.84。现实得χ2c =301.63>χ20.05 ,故应否

定H0 ,接受HA ,即认为鲤鱼体色F2分离不符合3:1比率。

在遗传学中,有许多显、隐性比率可以划分为两组的资料,如欲测其与某种理论比率的适合性,则χ2值可用下表中的简式进行计算:

检验两组资料与某种理论比率符合度的χ2值公式

例:大豆花色遗传试验F2观测结果

χ2

= ∑

( O i -E i - 0.5 )2

E i

i=1

2

=

(1503-1201.5 - 0.5 )2 1201.5 (99-400.5 - 0.5 )2 400.5