Z检验和卡方检验
- 格式:doc
- 大小:889.00 KB
- 文档页数:33
假设检验的常用方法一种常见的方法是Z检验呢。
这个Z检验呀,就像是一个很直爽的小伙伴。
它比较适合那种总体方差已知,样本量还比较大的情况哦。
比如说,你想知道一个大工厂生产的产品尺寸是不是符合标准,你手里又清楚总体的方差情况,这时候Z检验就可以闪亮登场啦。
它通过计算样本统计量和总体参数之间的差异,然后看这个差异在标准正态分布下是不是合理的。
就好像是在一个大家都知道规则的游戏里,看看新的情况是不是符合这个规则一样。
还有t检验呢,这个就更灵活一点啦。
当总体方差未知,但是样本是小样本的时候,t检验就派上用场啦。
它就像是一个贴心的小助手,在数据不那么完整的时候来帮忙。
比如说你在研究一个新的小范围的实验结果,样本不多,总体方差也不清楚,t 检验就会说“我来看看这到底有没有啥不一样的”。
t检验会根据样本的数据来估算总体的情况,然后判断样本和假设的总体之间有没有显著差异呢。
卡方检验也很有趣哦。
它像是一个爱整理的小管家。
这个方法主要是用来检验分类变量之间的关系的。
比如说,你想知道男生和女生对于不同颜色的喜好有没有差别,这就是分类变量啦。
卡方检验就会把这些数据整理好,看看实际观察到的情况和我们假设的没有差异的情况之间的距离有多远。
如果这个距离很大,那就说明这两个分类变量之间可能存在着某种联系哦。
最后呀,还有F检验呢。
F检验就像是一个大管家,它主要是用来比较两个总体的方差是否相等的。
比如说有两组数据,你想知道它们的波动情况是不是差不多,F 检验就可以来帮忙啦。
它通过计算两个样本方差的比值,然后看看这个比值在F分布下是不是合理的。
如果不合理,那就说明这两组数据的方差可能是不一样的呢。
这些假设检验的方法呀,就像是我们在数据海洋里的小导航,帮助我们判断各种情况,是不是很神奇呢? 。
假设检验的方法选择在进行假设检验时,我们需要选择适合的方法来判断样本数据是否支持或拒绝其中一种假设。
下面将介绍一些常用的方法选择原则和方法:1.比较均值的方法比较均值的常用方法有t检验和方差分析。
当只涉及两个样本时,可以使用t检验。
当涉及多个样本时,可以使用方差分析。
需要注意的是,t检验和方差分析都要求样本数据符合正态分布。
2.比较比例的方法比较两个或多个比例的常用方法有Z检验和卡方检验。
当样本量较大时,可以使用Z检验。
当样本量较小时,可以使用卡方检验。
3.相关性的方法相关性的常用方法有相关系数检验和秩和检验。
相关系数检验适用于两个连续变量之间的相关性检验。
秩和检验适用于一个连续变量和一个分类变量之间的相关性检验。
4.拟合优度的方法拟合优度的常用方法是卡方检验。
拟合优度检验用于检验观察频数与理论频数之间的差异是否显著。
5.分类问题的方法对于分类问题,常用的方法有Fisher精确检验、G独立性检验和McNemar检验。
Fisher精确检验适用于二分类问题,G独立性检验适用于多分类问题,McNemar检验适用于配对分类问题。
6.多重比较的方法多重比较的常用方法有Bonferroni校正、Tukey HSD和Scheffe方法。
这些方法可以避免因多次比较而带来的类型I错误的增加。
在选择方法时,我们需要考虑以下几个因素:1.数据的类型:根据问题的性质和数据类型选择合适的方法进行假设检验。
2.假设的类型:根据研究问题和假设的类型选择相应的方法。
例如,比较均值问题使用t检验,比较比例问题使用Z检验等。
3.样本量:对于样本量较大的情况,我们可以使用正态分布近似方法进行假设检验。
对于样本量较小的情况,我们可以使用非参数方法进行假设检验。
4.数据的分布:假设检验通常基于数据分布的假设,所以需要先对数据的分布进行检验。
如果数据不符合正态分布,可以尝试进行转换或使用非参数方法。
5.类型I错误和类型II错误:在选择方法时,需要考虑希望控制的错误率。
抽样检验的形态分类与定义引言在统计学中,抽样检验是一种常用的统计推断方法,通过从总体中抽取一部分样本数据进行统计分析,以便对总体的某个特征作出推断或判断。
抽样检验通常涉及到两个假设:原假设和备择假设。
原假设通常表示没有差异或没有效应,备择假设则表示有差异或有效应。
根据检验目的不同,抽样检验可以分为以下几种形态分类。
1. 单总体检验单总体检验用于推断一个总体的参数是否符合某个特定的值或假设。
该形态分类通常包括以下两种常见的检验:1.1. 均值检验均值检验用于判断一个总体的均值是否等于某个给定的值。
常见的均值检验方法有:•单样本t检验:用于检验一个样本的均值是否与给定值相等。
•单样本z检验:用于检验一个样本的均值是否与给定值相等,但要求样本的大小大于等于30。
1.2. 比例检验比例检验用于判断一个总体中某个特定属性所占比例是否等于某个给定的值。
常见的比例检验方法有:•单样本比例检验:用于检验一个样本的比例是否与给定值相等。
2. 两样本检验两样本检验用于比较两个不同总体的参数是否存在差异。
该形态分类通常包括以下几种常见的检验:2.1. 均值差异检验均值差异检验用于判断两个总体的均值是否存在差异。
常见的均值差异检验方法有:•独立样本t检验:用于检验两个独立样本的均值是否存在差异。
•配对样本t检验:用于检验两个配对样本的均值是否存在差异。
2.2. 比例差异检验比例差异检验用于判断两个总体中某个特定属性所占比例是否存在差异。
常见的比例差异检验方法有:•独立样本比例检验:用于检验两个独立样本的比例是否存在差异。
2.3. 方差差异检验方差差异检验用于判断两个总体的方差是否存在差异。
常见的方差差异检验方法有:•F检验:用于检验两个独立样本的方差是否存在差异。
3. 多样本检验多样本检验用于比较多个不同总体的参数是否存在差异。
该形态分类通常包括以下几种常见的检验:3.1. 方差分析方差分析用于判断多个总体的均值是否存在差异。
什么是Z检验〔U检验〕?Z检验是一般用于大样本〔即样本容量大于30〕平均值差异性检验的方法。
它是用标准正态分布的理论来推断差异发生的概率,从而比拟两个平均数>平均数的差异是否显著。
当标准差时,验证一组数的均值是否与某一期望值相等时,用Z检验。
Z检验的步骤第一步:建立虚无假设,即先假定两个平均数之间没有显著差异。
第二步:计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法。
1、假如检验一个样本平均数〔〕与一个的总体平均数(μ0)的差异是否显著。
其Z值计算公式为:其中:是检验样本的平均数;μ0是总体的平均数;S是样本的方差;n是样本容量。
2、假如检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。
其Z值计算公式为:其中:是样本1,样本2的平均数;S1,S2是样本1,样本2的标准差;n1,n2是样本1,样本2的容量。
第三步:比拟计算所得Z值与理论Z值,推断发生的概率,根据Z值与差异显著性关系表作出判断。
如下表所示:第四步:根据是以上分析,结合详细情况,作出结论。
Z检验举例某项教育技术实验,对实验组和控制组的前测和后测的数据分别如下表所示,比拟两组前测和后测是否存在差异。
实验组和控制组的前测和后测数据表前测实验组n1 = 50 S1a = 14控制组n2 = 48 S2a = 16后测实验组n1 = 50 S1b = 8控制组n2 = 48 S2b = 14由于n>30,属于大样本,所以采用Z检验。
由于这是检验来自两个不同总体的两个样本平均数,看它们各自代表的总体的差异是否显著,所以采用双总体的Z检验方法。
计算前要测Z的值:∵|Z|=0.658<1.96∴ 前测两组差异不显著。
再计算后测Z的值:∵|Z|= 2.16>1.96∴ 后测两组差异显著。
什么是T检验?T检验,亦称student t检验〔Student's t test〕,主要用于样本含量较小〔例如n<30〕,总体标准差σ未知的正态分布资料。
常见的假设检验方法嘿,咱今儿就来说说常见的假设检验方法!这可真是个有意思的事儿呢!你想想啊,生活中咱经常会碰到各种各样需要判断的情况。
就好比说,你觉得今天会不会下雨,这其实就是一种假设呀!那怎么去检验这个假设对不对呢?常见的假设检验方法里有个叫 Z 检验的。
这就好像是个厉害的侦探,能通过一些数据线索来判断假设是不是成立。
比如说,咱要检验一批产品是不是合格,Z 检验就能派上大用场啦!它能通过对样本数据的分析,告诉咱这批产品大体上是个啥情况。
还有 T 检验呢!它就像是个精细的工匠,专门处理一些比较“小气”的数据。
比如样本量没那么大的时候,T 检验就能发挥它的作用啦!它能在有限的数据里找出真相来。
那这两种方法怎么用呢?就好比你要去开一把锁,Z 检验和 T 检验就是不同的钥匙。
你得根据锁的情况,也就是数据的特点,来选择合适的钥匙呀!不然你拿着 T 检验这把钥匙去开 Z 检验能开的锁,那可不得折腾半天也打不开呀!咱再说说卡方检验。
这个呀,就像是个分类专家!它能把一堆杂乱的数据按照不同的类别整理得清清楚楚。
比如说,你想知道不同性别对某个事物的看法是不是有差异,卡方检验就能帮你搞明白。
假设检验方法可真是神奇啊!它们就像我们的秘密武器,能让我们在面对一堆数据和假设的时候不再迷茫。
你说要是没有这些方法,我们该多抓瞎呀!比如说,一个公司要推出新产品,要是没有这些假设检验方法,怎么知道这个新产品会不会受欢迎呢?那不就跟闭着眼睛走路一样,容易摔跟头嘛!这些方法还能帮我们在科学研究里找到真理呢!科学家们通过假设检验,不断地验证自己的理论,推动着知识的进步。
所以啊,常见的假设检验方法可真是太重要啦!咱可得好好学一学,用一用,让它们为我们的生活和工作服务呀!别小看了这些方法,它们能发挥的作用可大着呢!你还在等什么呢?赶紧去研究研究吧!。
统计学检验方法比较统计学检验方法是在统计学中用来判断研究假设是否成立的一种方法。
它通过分析样本数据来推断总体参数,并根据结果得出判断。
在进行统计学检验之前,我们首先需要明确研究问题和研究假设。
接下来,我将介绍一些常见的统计学检验方法的比较。
1.T检验和Z检验T检验和Z检验都是用来推断一个样本的均值是否与总体均值有显著差异。
T检验主要用于小样本,而Z检验适用于大样本。
相较于Z检验,T检验考虑到了样本的自由度,因此对于小样本的推断更加准确。
2.单样本检验和双样本检验单样本检验用于比较一个样本的均值是否与一个已知的总体均值有显著差异。
双样本检验则用于比较两个样本的均值是否存在显著差异。
双样本检验可以进一步分为独立样本检验和配对样本检验。
独立样本检验适用于两个独立的样本,而配对样本检验适用于同一组个体在不同时间或不同处理下的两次测量。
3.卡方检验和F检验卡方检验主要用于判断两个分类变量之间是否存在相关性。
它将观察频数与期望频数进行比较,以确定差异的显著性。
F检验则用于比较两个或更多个总体方差是否相等。
它将组间离散度与组内离散度进行比较,从而推断总体方差是否存在显著差异。
4.非参数检验和参数检验非参数检验不依赖于总体的特定分布,而是对总体的分布进行较少的假设。
它通过对数据的排序和秩次转换来进行推断。
非参数检验一般适用于数据不服从正态分布或样本量较小的情况。
参数检验则建立在对总体参数分布的假设上,通常假设数据服从正态分布。
参数检验的推断结果相对较为准确,但对数据的假设要求较高。
综上所述,不同的统计学检验方法适用于不同的研究问题和数据类型。
选择合适的统计学检验方法可以提高推断结果的准确性。
因此,在进行统计学检验之前,我们需要充分理解研究问题的背景,研究假设的特点以及数据的类型和分布,从而选择适当的检验方法。
同时,还需要注意检验过程中的假设和限制,以及结果的解释和推断的合理性。
检验假设的方法有检验假设的方法主要有参数估计法和假设检验法。
下面将分别介绍这两种方法。
参数估计法是一种通过样本数据估计总体参数的统计方法。
在进行参数估计时,我们首先需要选择适当的统计方法来估计总体参数,并根据样本数据计算出相应的估计值。
常用的参数估计方法有最大似然估计和最小二乘估计。
最大似然估计是通过寻找最可能使得观测数据出现的参数值来估计总体参数。
最小二乘估计则是通过最小化预测值与观测值之间的平方差来估计总体参数。
假设检验法是一种通过样本数据来进行统计推断的方法。
假设检验的目的是为了评估一个关于总体的假设是否成立。
在进行假设检验时,我们首先需要明确所要检验的假设,分为原假设和备择假设。
原假设通常表示无效或不变的假设,备择假设则表示对立或有变化的假设。
然后,我们根据样本数据计算对应的检验统计量,并参照某个统计分布来判断该统计量是否支持拒绝原假设。
具体的判断方法包括给定显著性水平,根据统计量的临界值或P值来判断。
常用的假设检验方法包括Z检验、T检验、卡方检验和ANOVA等。
Z检验适用于总体均值的假设检验,当总体标准差已知时使用。
T检验适用于总体均值的假设检验,当总体标准差未知时使用。
卡方检验适用于两个或多个分类变量之间的关联性检验。
ANOVA适用于多个总体均值的比较,主要用于分析差异来源于哪些因素。
总之,参数估计法和假设检验法是统计学中常用的推断方法,用于检验总体参数或假设是否成立。
参数估计法用于估计总体参数,而假设检验法用于评估假设的合理性。
根据具体问题和数据特点,我们可以选择合适的方法进行统计推断。
计数资料常用检验方法
1、Chi-square test(卡方检验)
卡方检验是一种针对离散变量之间(或内部)的关系的常见的统计检
验方法。
它通过检验样本观察值和样本理论分布的偏离程度来衡量两个总
体是否相同。
卡方检验可用于完全指定表,大于2阶分类表,完全指定表
中数据类型为定数(指样本观察值)或实数的多比例表,2阶分类表中数
据类型为定数的实数表(包括均匀表)和双方表。
2、Z-test(Z检验)
Z检验是一种用于检验两个总体均值是否有显著差异的统计检验方法。
它是由样本均值标准差和样本大小的组合度量的,也就是把两个样本的标
准偏差组合成Z分布函数。
Z检验经常用于评估两个样本的平均值是否有
显著差异,以及是否存在统计学上有效的差异。
3、Kolmogorov-Smirnov test(KS检验)
K-S检验是一种基于统计分布的非参数检验,用来检验数据是否属于
其中一特定的分布。
K-S检验是基于比较观察值的分布和其中一种理论分
布之间的最大距离,从而检验它们是否属于同一个总体。
它经常用于检验
独立的实数数据是否符合其中一特定的概率分布。
4、T-test(T检验)
T检验是一种统计检验,它比较一个样本所要检验的总体均值与另一
样本的总体均值之间的差异。
常⽤的假设检验⽅法(U检验、T检验、卡⽅检验、F检验)⼀、假设检验假设检验是根据⼀定的假设条件,由样本推断总体的⼀种⽅法。
假设检验的基本思想是⼩概率反证法思想,⼩概率思想认为⼩概率事件在⼀次试验中基本上不可能发⽣,在这个⽅法下,我们⾸先对总体作出⼀个假设,这个假设⼤概率会成⽴,如果在⼀次试验中,试验结果和原假设相背离,也就是⼩概率事件竟然发⽣了,那我们就有理由怀疑原假设的真实性,从⽽拒绝这⼀假设。
⼆、假设检验的四种⽅法1、有关平均值参数u的假设检验根据是否已知⽅差,分为两类检验:U检验和T检验。
如果已知⽅差,则使⽤U检验,如果⽅差未知则采取T检验。
2、有关参数⽅差σ2的假设检验F检验是对两个正态分布的⽅差齐性检验,简单来说,就是检验两个分布的⽅差是否相等3、检验两个或多个变量之间是否关联卡⽅检验属于⾮参数检验,主要是⽐较两个及两个以上样本率(构成⽐)以及两个分类变量的关联性分析。
根本思想在于⽐较理论频数和实际频数的吻合程度或者拟合优度问题。
三、U检验(Z检验)U检验⼜称Z检验。
Z检验是⼀般⽤于⼤样本(即⼤于30)平均值差异性检验的⽅法(总体的⽅差已知)。
它是⽤标准的理论来推断差异发⽣的概率,从⽽⽐较两个的差异是否显著。
Z检验步骤:第⼀步:建⽴虚⽆假设 H0:µ1 = µ2 ,即先假定两个平均数之间没有显著差异,第⼆步:计算Z值,对于不同类型的问题选⽤不同的计算⽅法,1、如果检验⼀个样本平均数(X)与⼀个已知的总体平均数(µ0)的差异是否显著。
其Z值计算公式为:其中:X是检验样本的均值;µ0是已知总体的平均数;S是总体的标准差;n是样本容量。
2、如果检验来⾃两个的两组样本平均数的差异性,从⽽判断它们各⾃代表的总体的差异是否显著。
其Z值计算公式为:第三步:⽐较计算所得Z值与理论Z值,推断发⽣的概率,依据Z值与差异显著性关系表作出判断。
如下表所⽰:第四步:根据是以上分析,结合具体情况,作出结论。
4.6 二项分布和Poisson 分布大样本资料的Z 检验1.二项分布总体概率的Z 检验(大样本,n 较大)设 X B n ~(,)π,当n 相当大,以致n π和n ()1-π 都较大(例如,大于5)时,前已学过,X 近似地服从 N n n (,())πππ1-,P 近似地服从 N n(,())πππ1-(1) 单组样本例4.7 传染科人员n =150中,乙肝化验阳性35名, 问总体阳性率是否高于当地一般人群的阳性率17%?欲检验 H H 0010:,:ππππ=≠ (或 H 10:ππ> 或 H 10:ππ<) ,05.0=αH 0成立时, Z P nN =--πππ000101()~(,) 若Z 的当前值所对应的P 值很小,则拒绝H 0, 否则,不拒绝H 0。
例4.7的解:欲检验%17:%,17:10>=ππH H (单侧) α=005.,Z =--=351500170171017150206..(.).,2.06>1.645,P<0.05,故拒绝H 0 。
可认为传染科人员的总体阳性率高于当地一般人群的阳性率。
(2) 两组样本例4.8 常规治疗组:80名中有效者48名常规+心理治疗组:75名中有效者55名 问两组有效率是否相等?P X n 111= 近似地服从))1(,(1111n N πππ- P X n 222= 近似地服从))1(,(2222n N πππ- P P 12- 近似地服从N n n (,()())ππππππ1211122211--+-欲检验 H H 012112:,:ππππ=≠ (或 H 112:ππ>) α=005.,H 0成立时会如何? πππ12==先求π的联合估计 P X X n n 01212=++, 再用P 0代替ππ12,:P P 12- 近似地服从N P P n P P n (,()())011001002-+- Z P P P P n n N =---+12001211101()()~(,)据Z 的当前值查Z 分布表得P 值,若P 值很小,则拒绝H 0;否则,不拒绝H 0。
例4.8的解:欲检验 H H 012112:,:ππππ=≠α=005.,H 0成立时,作联合估计155103758055480=++=P计算Z 的当前值Z =--+=-488055751031551103155180175176()(). 查Z 分布表,得双侧P =008.,不能拒绝H 0。
尚不能认为两组有效率的差异有统计学意义。
2.Poisson 分布总体均数的Z 检验(大样本,λ较大)“λ较大”,例如,20≥λ (1) 单个观察值例4.9 规定:一定时间内放射质点数的总体均数不 得超过50.现一次测定结果为X =58,问总体均数是否 超过50?欲检验 H H 0010::λλλλ=≠ α=005.,设 X ~()∏λ,大样本时,X 近似地服从N (,,)λλ H 0成立时会如何?X 近似地服从N (,)λλ00 Z X =-λλ0近似地服从N (.)01例4.9的解:欲检验H H 015050::λλ=> (单侧)α=005.,Z X =-=-=5050585050113. 查正态分布表,得单侧 P>0.05, 不能拒绝H 0。
尚不能认为总体均数超过50。
(2) 两个观察值 X X 12,例4.10 两样品各测1分钟,X X 12150120==,,问相应的两个总体均数是否相等?欲检验 H H 012112::λλλλ=≠ α=005.,H 0成立时会如何?记λλλ12==X 1 近似地服从N (,,)λλ, X 2近似地服从N (,,)λλX X 12-近似地服从N (,)02λ但λ 未知,只能用X X 122+近似地代替λ)2(20)(2121X X X X Z +--=近似地服从N (,)01 即 2121X X X X Z +-= 近似地服从N (,)01据Z 的当前值查正态分布表,得双侧P 值, 若P 值很小,则拒绝H 0;否则,不拒绝H 0例4.10的解:欲检验 H H 012112::λλλλ=≠α=005., Z X X X X =-+=-+=1212150120*********.查正态分布表,得双侧 P>0.05,不能拒绝H 0。
尚不能认为相应的两个总体均数的差异有统计学意义。
(2) 两组观察值例4.11 A 样品:测10分钟,X X 11121500++= ,B 样品:测15分钟,X X 21221800++=问以1分钟为观察单位,A 、B 两样品总体均数是否相等?A 组:独立重复观察n 1个时间单位,记观察值为X X 1112,, ,平均值为 1X设每一个时间单位内,X X 111121~(),~(),,∏∏λλB 组:独立重复观察n 2个时间单位,记观察值为X X 2122,, ,平均值为 2X设每一个时间单位内,X X 212222~(),~(),,∏∏λλ欲检验 H H 012112::λλλλ=≠X X 1112,, 等都近似地服从N (,)λλ11⇒ X 1近似地服从N n (,)λλ111X X 2122,, 等都近似地服从 N (,)λλ22⇒ X 2近似地服从 N n (,)λλ222X X 12- 近似地服从 N n n (,)01122λλ+但λλ12,均未知,用X 1代替λ1,用X 2代替λ2Z X X X n X n =--+121122近似地服从 N (,)01据Z 的当前值查正态分布表得双侧P 值, 若P 值很小,则拒绝H 0, 否则,不拒绝H 0例4.11的解:欲检验 211210:,:λλλλ≠=H H α=005.,26.6151201015012015012015/1800,15010/150022112121=+-=+-=====n X n X X X Z X X查正态分布表得双侧P 值很小很小,<0.01故拒绝H 0.可以认为AB 两样品总体均数不相等。
第六章 离散型分类计数资料的χ2检验6.1 χ2分布和Pearson 拟合优度检验1. χ2分布(1) 自由度为1的χ2分布若Z N ~(,),01则Z 2的分布称为自由度为1的χ2分布.(chi-square distribution),记为χ()12或χ21().E ()()χ121=图形:从纵轴某个点开始单调下降,先凸后凹.02468100.00.10.20.3(2) νZ Z Z ,...,,21互相独立,均服从N (,)01,则22221...νZ Z Z +++的分布称自由度为ν的χ2分布,记为χν()2或)(2νχ,或简记为χ2.E ()()χνν2=* 图形:单峰,正偏峰;自由度ν很大时,χν2()近似地服从正态分布. * 界值:* 自由度ν≤100时,查附表7. * 自由度ν较大时,利用 χνν()()221221≈+-Z 两种做法:(1)给定α,先查正态分布的临界值z α;再代入右端,算出χν()2的临界值χα2。
或(2)给定χν()2的当前值,先算出Z 的当前值;再由标准正态分布表查出P 值。
例:ν==100164005,..z 98.123)19964.1(21)1)100(2(212205.0205.0=+=-+≈z χ若查表,χ005212434..=,相差不远。
* 性质:若χνχν2122(),()互相独立,则 χνχν2122()()+服从χ2分布, 自由度=+νν12χνχν2122()()-服从χ2分布, 自由度=-νν122.关于拟合优度的χ2检验(大样本) 给定一张频数表:问题:试判断这份样本,是否来自该理论分布?χ2检验:(1) H 0:样本的总体与该理论分布无区别H 1 :样本与该理论分布有区别(2)Pearson χ2统计量()kk k k i Pe ef e e f e e f 222221211122)(...)(--++-+-==∑=理论频数理论频数)(实际频数χ可以证明,H 0成立时,χχPi ki i if e e 2122=-=∑()~分布 * 似然比χ2统计量分布理论频数实际频数实际频数222211112~ln ...ln ln 2ln 2χχ⎥⎦⎤⎢⎣⎡+++=⎥⎦⎤⎢⎣⎡=∑=k k k ki Le f f e f f e f f自由度)(1本资料估计的参数个数计算理论分布时利用样--=k ν(3) 将观察值代入得当前值和相应的P 值. 若P 值很小,则拒绝H 0;否则,不拒绝H 0. “大样本”:,...,21e e 等都不小于5.6.2 两二项分布总体概率的比较表6.1 反应变量按二项分类的两个独立样本资料(四格表类型之一)某事件 观察 总频数阳性频率 阳性 阴性表6.2 肺心病患者心律失常观察资料 洋地黄 用药史 某事件 观察 总频数 阳性 频率 阳性 阴性合计 100 115 21546.51解法一:检验 211210::ππππ≠=H H5175.1)5111641)(2151001(215100511916481)11)(1(210021=+--=+--=n n P P P P Z其中,2151005116419810=++=P据当前值1.5175查标准正态分布表,P = 0.065 ,不能拒绝H 0 。
解法二: (1)检验 211210::ππππ≠=H H(2) H 0成立时, πππ12==, 用P n n01=+近似地代替π,理论上应有:e n n n n 11111=≈+++π e n n n n 121121=-≈+++()πe n n n n 21221=≈+++π e n n n n222221=-≈+++()π一般地, 理论频数行和列和总和=()()(3) 统计量的当前值* Pearson χ2统计量()χPf e e f e e f e e f e e 211112111212212212122122222222222817628762883877287721923722372322728272823028=-+-+-+-=-+-+-+-=()()()(.).(.).(.),(.)..上述关于四格表统计量χP 2的计算公式等价于:χPf f f f nn n n n 21122122121212=-++++()本例中,χP 22813283192151645110011523028=⨯-⨯⨯⨯⨯⨯=().* 似然比χ2统计量χLf f e f f e f f e f f e 2111111121212212121222222228181762883838772191923723232272823277=+++⎡⎣⎢⎤⎦⎥=++⎡⎣⎢⎤⎦⎥=ln ln ln ln ln .ln .ln .ln ..由上可见, χχP L 22≈ 实践中,可任用其中之一.(4) 自由度计算理论频数时,利用了行和、列和,两个行和中, 只有一个是独立的,两个列和中也只有一个是独立的, 故 利用样本资料来估计的参数个数 = 2自由度 = 4 - 1 - 2 = 1 另一种算法 :自由度 = ( 行数 - 1 )( 列数 - 1 ) 对于例6.1, 自由度 = ( 2 - 1 )( 2 - 1 ) = 1 (5)决策:* 据χ2统计量的当前值,查附表7,得P 值,若P 值很小,则拒绝H 0,否则,不拒绝H 0 .或 * 给定α,查附表7,得临界值χα2,若χ2统计量的 当前值≥χα2,则拒绝H 0,否则,不拒绝H 0 .本例中, χP 2当前值为2.3028,,查附表7,得 自由度 = 1时, 010025..<<P ,故不拒绝H 0. 或 给定α=005.,查附表7,得自由度 = 1时,临界值χα2384=.,22αχχ<P ,故不拒绝H 0.讨论: 关于统计量χP 2:● 解法一和解法二Pearson χ2检验完全等价● χχP P Z Z 2222302815175===.,., ● 统计量χP 2的连续性校正:当n >40(认为是大样本),若有15≤<e ij , 必须作连续性校正:χPf e e f e e f e e f e e 2111121112122122121221222222205050505=--+--+--+--(.)(.)(.)(.)或21212211222112)5.0(++++--=n n n n nn f f f f Pχ 它们等价于二项分布正态近似中的连续性校正: 若P P 12>22210021)11)(1()5.0()5.0(Z n n P P P P Z P=+---+=χ6.3 2×2交叉分类资料的χ2检验2×2列联表: 将样本中个体按照两个二分类属性作 交叉分类形成的双向表.表6.3 2×2交叉分类资料表( 四格表类型之二)按属性A分类按属性B分类合计1 2合计(给定)+1+21.两种属性分布间独立性检验(或关联性检验)例6.2 260份血清样品,每份用两种免疫学方法检测风湿因子A法B法合计+ -合计184 76 260设计: 一份样本;给定n=260;行和与列和事先是不定的; 按两种属性交叉分类.问题:两种免疫测定结果是否有关联?(1) 检验的假设H 0: 属性A 和B 互相独立 , H 1: 属性A 和B 互相关联表6.4 2×2交叉分类资料的概率表 按属性A 分类 按属性B 分类 合计1 2合计 +1+2 1(2) H 0成立时必有.ππππππππππππ1111121221212222====++++++++用样本资料估计ππππ1212++++,,,,ππππ11221122++++++++≈≈≈≈n nn nn nn n理论频数:e n n n n n n n n n n 1111111111==≈=++++++πππ()()e n n n n n n n n n n 1212121212==≈=++++++πππ()()e n n n n n n n n n n 2121212121==≈=++++++πππ()()e n n n n n n n n n n 2222222222==≈=++++++πππ()()一般地, 理论频数行和列和总和=()()(3) 统计量的当前值 — 同前 (4) 自由度 — 同前(5)决策 — 同前两种属性分布间独立性检验与两二项分布总体概率 的比较虽资料分析的计算方法相同,但设计和解释不同(1) 检验的假设H 0: 方法A 和B 互相独立 ,H 1: 方法A 和B 互相关联 (2) H 0成立时必有e n n n 111118418026012738==⨯=++.e n n n 1212761802605262==⨯=++.e n n n 2121184802605662==⨯=++.e n n n 222276802602338==⨯=++.(3) 统计量的当前值利用(6.8a)或(6.7a),χP 217374=. (4) 自由度 = (2-1)(2-1) = 1 (5)决策据χP 217374=.查附表7, 自由度 =1时,P <0.05( 更确切P<0.001) 故拒绝H 0,或给定05.0=α,查附表7, 自由度 =1时, 84.32=αχ,χχαP 22>, P <0.05,故拒绝H 0.(更确切χα21083=.,P<0.001) 结论:可认为两种方法测定结果间有关联.定义: 关联系数 = ±χ2n(取值在 -1与+1之间)其中,符号由关联的方向决定,与 f f f f 11221221-的符号相同上例中, f f f f 11221221172681280-=⨯-⨯>,故关联系数 = 17374260082..2.两份非独立样本总体概率相等的检验( McNemer检验)常用于配对设计,数据结构同上.问题不同.例6.2 260份血清样品,每份用两种免疫学方法检测风湿因子A法B法合计+ -合计184 76 260设计: 一份样本;问:两种测定方法的阳性率是否相等?解:这里不是问是否关联,故不能用上面的办法分析!这里有两份样本,接受方法A 的个体与接受方法B 的个体有关联,故不能用前一节的办法分析!方法A 样本阳性率 =n n f f n 11112+=+方法B 样本阳性率 =n n f f n +=+11121样本阳性率之差 = f nf n1221- 取决于四格表副对角线上两个格子中的观察值f 12和f 21. 问题: f 12和f 21的差异是否是偶然的?(1) 检验的假设在两种方法结论不一致的条件下,个体出现在这两个 格子里的概率为π1和π2 H H 012112050:.:ππππ==≠ (2) H 0成立时应当如何?若共有f f 1221+个体(大样本)结论不一致, 则应当有理论频数e ef f 122112212==+且 χχP f e e f e e 2121221221212212=-+-()()~分布左边=-+++-++=-+()()()f f f f f f f f f f f f f f 121221************12211221212212222故H 0成立时应当有χχPf f f f 21221212212=-+()~分布 (3) 统计量的当前值 — 同前 (4) 自由度 = 2 - 1 (5) 决策 — 同前以上解决问题的思路:在两方法测定结果已经不一致的条件下考虑问题.这类统计方法称”条件”方法.另有”非条件”方法来处理 这类问题,比较复杂,超出了本课程的范围.* 连续性校正— 同前,当f f 122140+<时,由χPf e e f e e 2121221221212210505=--+--(.)(.)可得 ()χχPff f f 212212122121=--+~分布例6.3的解:问两种方法的阳性率是否相等? ()χP228121812045=--+=.查附表7,自由度为1时,P 值≈050.>0.05,不拒绝H 0. 可以认为,这两种测定方法的总体阳性率的差别无统计学意义。