生物统计5-卡平方测验
- 格式:doc
- 大小:74.00 KB
- 文档页数:4
第八章卡平方(χ2)测验知识目标:●理解卡平方(χ2)的概念;●掌握适合性测验的方法;●掌握独立性测验的方法;●了解卡平方(χ2)的可加性和联合分析。
能力目标:●学会适合性测验的方法;●学会独立性测验的方法;前面介绍了数量性状资料的统计分析方法。
在生物和农业科学研究中,还有许多质量性状的资料,这样的资料可以转化为次数资料。
间断性变数的计数资料也可整理为次数资料。
凡是试验结果用次数表示的资料,皆称为次数资料。
次数资料的统计分析方法有二项分布的正态接近法和卡平方(χ2)测验法等。
本章主要介绍卡平方测验。
第一节卡平方(χ2)测验一、卡平方(χ2)概念为了便于理解,现结合一实例说明χ2统计量的意义。
菠菜雌雄株的性比为1:1,今观测200株菠菜,其中有92棵雌株,108棵雄株。
按1:1的性比计算,雌、雄株均应为100株。
以O表示实际观察次数,E表示理论次数,可将上述情况列成表8-1。
表8-1 菠菜雌雄株实际观测株数与理论株数的比较性别观测株数O理论株数EO-E(O-E)2/E雌92(O1) 100(E1) -8 0.64雄108(O2) 100(E2) 8 0.64合计200 200 0 1.28从表8-1看到,实际观察次数与理论次数存在一定的差异,这里雌、雄各相差8株。
这个差异是属于抽样误差,还是菠菜雌雄性比发生了实质性的变化?要回答这个问题,首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度,然后判断这一偏离程度是否属于抽样误差,即进行显著性测验。
为了度量实际观察次数与理论次数偏离的程度,最简单的办法是求出实际观察次数与理论次数的差数。
从表8-1看出:O1-E1= 8,O 2-E 2=8,由于这两个差数之和为0, 显然不能用这两个差数之和来表示实际观察次数与理论次数的偏离程度。
为了避免正、负抵消,可将两个差数O 1-E 1、O 2-E 2平方后再相加,即计算∑-2)(E O ,其值越大,实际观察次数与理论次数相差亦越大,反之则越小。
卡平方测验公式卡平方检验是一种常用的假设检验方法,用于检测两个变量之间是否存在统计学上的关联性。
其中,卡方分布是一种概率分布,常用于统计学分析中。
本文将从卡平方测验的定义、原理、公式、注意事项等方面进行详细介绍。
一、卡平方测验的定义卡平方测验(Chi-square test)是一种用于分析分类资料的统计方法,用来评估随机变量的频率分布与某种理论分布之间的偏离程度。
它通过比较实际观测值和理论值的差异,来判断这种差异是否显著。
二、卡平方测验的原理卡平方测验的原理是基于卡方分布的统计原理。
卡方分布是指自由度为n的卡方变量X2的概率分布,其概率密度函数为f(x) =x^(n/2-1)*e^(-x/2) / (2^(n/2)*Γ(n/2)) ,其中,Γ(n/2)为伽玛函数值。
卡方分布的特点是非对称的,取值范围为[0,+∞)。
卡平方测验的基本思路是:1.设定原假设和备择假设;2.收集样本数据;3.计算观测值的卡方值;4.确定自由度;5.查找卡方分布表,找到临界值;6.比较观测值的卡方值和临界值;7.根据比较结果,判断原假设是否成立。
三、卡平方测验的公式卡平方测验的公式如下:卡方值=Σ(观测值-理论值)²/理论值其中,Σ表示对所有分类统计量求和。
四、注意事项1.在进行卡平方测验时,样本数量应该尽可能大,否则可能会导致误差增大;2.进行卡平方测验时,要保证分类变量的独立性,即各分类变量之间应该互相独立;3.进行卡平方测验时,要注意设置显著性水平,一般取α=0.05或α=0.01;4.进行卡平方测验时,要选择合适的观测和理论值,否则可能会导致结果不准确;5.进行卡平方测验时,最好使用专业的卡平方测验软件或计算器,以提高效率和准确性。
五、总结卡平方测验是一种重要的假设检验方法,常用于分析分类数据和判断两个变量之间的关联性。
它基于卡方分布的统计原理,通过比较理论值和观测值的差异来判断原假设是否成立。
在进行卡平方测验时,需要注意样本数量的大小、分类变量的独立性、显著性水平的设置、观测和理论值的选择以及使用专业工具等因素。
第11章 卡平方测验
次数资料的统计分析方法有二项分布的正态接近法和卡平方测验法。
例:大豆花色一对等位基因的遗传研究,F2代共289株,紫花208株,白花81,问这一资料的实际观察值是否符合3:1的理论数值? 方法一:二项资料的百分数假设测验,U 测验。
Ho :p =0.75;H A :p ≠0.75;α=0.05;U0.05=1.96
0.05
2080.7197289
0.0255
0.71970.75
1.19
0.0255
p
p u u u σ
===
=
=-=
=-=
p>0.05
接受Ho ,即实际观察值符合3:1的理论数值。
方法二:O :Observe ;E :Theory
比较理论次数与实测次数符合程度,适合性测验,可用()O E -∑来表示;但()O E -∑为0,可用2()O E -∑消除负号;但如: O1-E1=303-300=3,300次中占3次 O2-E2=18-15=3,15次中占3次 比重不同
可用
2
()O E E
-∑即将绝对数变为相对数。
1、故定义2
2
1
()
k
O E E
χ-=
∑
,其中k 为组数。
显然,卡平方越大,越不符合;卡平方为0
时完全符合。
2、χ2分布:是一组曲线,随自由度不同而不同,呈正偏斜,不是对称分布;v =1时偏斜最厉害,v 增大时趋近于正态分布。
是连续性变数的理论分布而不是间断性变数的抽样分布。
小结:连续性变数的理论分布:正态分布 连续性变数的抽样分布:t ,F ,χ2
间断性变数的理论分布:二项分布,潘松分布 3、χ2测验
Ho :观察次数与理论次数的差异是抽样误差 H A :观察次数与理论次数的差异不是抽样误差 α=0.05
假定Ho 正确,算得χ2值,再查χ2(α,v )
推断:如实得卡平方值大于临界值,则否定Ho ,即不符合。
注意v =k -1,k 为组数,不是样本容量。
4、平方的连续性矫正
卡平方分布是连续性的,次数资料是间断性的,由次数资料算得的卡平方值偏大,易达到显著水平。
一般v =1,尤其是小样本,须矫正。
V ≥2的样本可不矫正, V ≥30时接近正态分布。
2
2
1
(0.5)
k
c O E E
χ--=
∑
c :correct
5、适合性测验:
上例:大豆花色是否符合一对等位基因遗传规律?
2
2
1
(0.5)
k
c O E E
χ--=
∑
=1.256<χ2(α,v )=χ2(0.05,1)=3.84,故接受Ho ,即大豆花色符合一
对等位基因遗传规律。
6、昆虫分布型的拟合(适合性测验)
随机分布:个体间相互独立,即不相互吸引,也不相互排斥。
包括潘松分布和正二项分布。
其理论次数为()!
k
m
m
NP k Ne
k -=
均匀分布:个体间相互排斥,如沙滩上水母的分布,鸟类领域筑巢等。
聚集分布:个体间相互吸引,包括核心分布和负二项分布等。
在昆虫生态及预测预报中有详细讨论。
7、独立性测验
主要探求两个变数间是否相互独立,只介绍2×2列联表。
种间关联是对两个种群间的相互关系的一个测定尺度。
正联接表明两个物种趋于在一起相互有吸引作用,或对同一环境有相同的适应,如共生、共栖、捕食者-猎物、植食者-植物等。
负联接表明两个物种趋于分离,相互有排斥干扰作用,或对相同环境有不同的适应性,如两种单寄生物对同一个寄主有排斥作用;三化螟等单食性害虫与非取食水稻的植食性害虫等。
无联接表明两物种独立存在,既不干扰,也不吸引。
例:调查460株甘蓝上蚜虫和食蚜蝇的有无,数据如下:
现在测定天敌对害虫跟随作用的强弱。
Ho :相互独立无关联;H A :有关联。
在460株中,有蚜虫的为250株,故p1=250/460 在460株中,有食蚜蝇的为76株,故p2=76/460 两者都有的概率为p1×p2
两者都有的理论株数=p1×p2×460=41.3株
同理算得其他各格的理论次数,计算卡平方值,注意要作连续性矫正。
在实际应用中一般不求理论次数,而直接由观察值求得2c χ。
2
2
112212212
1212
460
()(5018420026)460
22
76384250210
c n a a a a n
C C R R χ--
⨯-⨯-
⨯=
=
⨯⨯⨯=4.267
χ2(0.05,1)=3.84
否定Ho ,即两物种之间有关联。
再进一步判定联接方向:
11221221a a a a >,正连接,同时出现,同时不在,相互吸引; 11221221a a a a <,负连接,有我无你,有你无我,相互排斥; 11221221a a a a ,无连接,相互独立。
现1122122192005200a a a a =>=,故为正联接。
注意:只有存在关联时才进一步判定联结方向。
若考虑0.01显著水平,则:
正联结:+,++,分别代表显著和极显著 负联结:-,――, 无联结:0
对多个种同时测定两两之间的联结关系,可得下图:
也可考虑用两物种之间得协调系数来表示,可得一量化关系。
a a a a v -=
v ∈[-1,1]
v 约等于0,无协调。
V>0,正协调 V<0,负协调。