当前位置:文档之家› 第八章卡方检验#(精选.)

第八章卡方检验#(精选.)

第八章卡方检验#(精选.)
第八章卡方检验#(精选.)

第八章

2

χ

检验

一、教学大纲要求

(一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2

χ检验。

(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2

χ检验。 3. 行?列表的2

χ检验。 (二) 熟悉内容

频数分布拟合优度的2

χ检验。 (三) 了解内容 1.2

χ分布的图形。

2.四格表的确切概率法。

二、教学内容精要

(一) 2

χ检验的用途

2χ检验(Chi-square test )用途较广,主要用途如下:

1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2

χ检验的基本思想

1.2

χ检验的基本思想是以2

χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2

χ值不应该很大,若实际计算出的2

χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。

2. 基本公式:()∑

-=

T

T A 2

2

χ,A 为实际频数(Actual Frequency ),T 为理论频数

(Theoretical Frequency )。四格表2

χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2

χ值是一致的。

(三)率的抽样误差与可信区间 1.率的抽样误差与标准误

样本率与总体率之间存在抽样误差,其度量方法:

n

p )

1(ππσ-=

,π为总体率,或 (8-1)

n

p p S p )

1(-=

, p 为样本率; (8-2)

2.总体率的可信区间

当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。

总体率的可信区间:(p p S u p S u p ?+?-2/2/,αα)。 (8-3) (四)2

χ检验的基本计算 见表8-1。

表8-1 2

χ检验的用途、假设的设立及基本计算公式

资料形式

用途

0H 、1H 的设立与计算公式

自由度

四格表

①独立资料两 样本率的比较

②配对资料两 样本率的比较

0H :两总体率相等 1H :两总体率不等

①专用公式

))()()(()(22

d b c a d c b a n

bc ad ++++-=χ

②当n ≥40但1≤T<5时,校正公式

)

)()()(()2/(2

2

d b c a d c b a n n bc ad ++++--=

χ ③配对设计c

b c b +--=

2

2

)1(χ

1

R ?C 表

①多个样本率、 构成比的比较

②两个变量之 间关联性分析

0H :多个总体率(构成比)相等

(0H :两种属性间存在关联)

1H :多个总体率(构成比)不全相等

(0H :两种属性间存在关联)

)1(

2

2-=∑

C

R n n A n χ (R-1)(C-1)

频数分布表 频数分布的拟合优

度检验

0H :资料服从某已知的理论分布 1H :资料不服从某已知的理论分布

-T

T A 2)(

据频数表的组数而定

(五)四格表的确切概率法

当四格表有理论数小于1或n <40时,宜用四格表的确切概率法。 (六)2

χ检验的应用条件及注意事项

1.分析四格表资料时,应注意连续性校正的问题,当140时,用连续性校正

2χ检验;T ≤1,或n ≤40时,用Fisher 精确概率法。

2.对于R ?C 表资料应注意以下两点:

(1)理论频数不宜太小,一般要求:理论频数<5的格子数不应超过全部格子的1/5; (2)注意考察是否有有序变量存在。对于单向有序R ?C 表资料,当指标分组变量是有序的时,宜用秩和检验;对于双向有序且属性不同的R ?C 表资料,若希望弄清两有序变量之间是否存在线性相关关系或存在线性变化趋势,应选用定性资料的相关分析或线性趋势检验;对于双向有序且属性相同的R ?C 表资料,为考察两种方法检测的一致性,应选用Kappa 检验。

三、典型试题分析

(一)单项选择题

1.下列哪项检验不适用2

χ检验( )

A . 两样本均数的比较

B . 两样本率的比较

C . 多个样本构成比的比较

D . 拟合优度检验

答案:A

[评析] 本题考点:2χ检验的主要用途。2

χ检验不能用于均数差别的比较。 2.分析四格表时,通常在什么情况下需用Fisher 精确概率法( )

A .140

B .T <5

C .T 1≤或n 40≤

D .T 1≤或n 100≤ 答案: C

[评析] 本题考点:对于四格表,当T 1≤或n 40≤时,不宜用2

χ检验,应用Fisher 精确概率法。

3.2

χ值的取值范围为

A .∞-<2

χ<∞+ B .+∞≤≤2

0χ C .12

≤χ D .02

≤≤∞-χ

答案: B

[评析]根据2χ分布的图形或2χ的基本公式可以判断2

χ值一定是大于等于零且没有上界的,故应选B 。

(二)是非题 两样本率的比较可以采用2

χ检验,也可以采用双侧u 检验。 答案:正确。

[评析]就两个样本率的比较而言,双侧u 检验与2

χ检验是等价的。 (三)简答题

1.四格表的2

χ检验和u 检验有何联系与区别?

答案:相同点:凡是能用u 检验进行的两个率比较检验的资料,都可用2

χ检验,两者是等价的,即2

2

χ=u ;相异点:(1)u 检验可进行单侧检验;(2)满足四格表u 检验的资料,

计算两个率之差的可信区间,可从专业上判断两率之差有无实际意义;(3)2

χ检验可用于2?2列联表资料有无关联的检验。

2.R ?C 表2

χ检验的适用条件及当条件不满足时可以考虑的处理方法是什么? 答案:R ?C 表2χ检验的适用条件是理论频数不宜过小,否则有可能产生偏性。当条件不满足时有三种处理方法:①增大样本例数使理论频数变大;②删去理论数太小的行或列;③将理论数太小的行或列与性质相近的邻行或邻列合并,使重新计算的理论频数变大。但②、③法都可能会损失信息或损害样本的随机性,因此应慎用。

(四)计算题

1.为研究静脉曲张是否与肥胖有关,观察122对同胞兄弟,每对同胞兄弟中有一个属肥胖,另一个属正常体重,记录得静脉曲张发生情况见表8-2,试分析之。

表8-2 122对同胞兄弟静脉曲张发生情况

正常体重 肥胖

合计 发生 未发生 发 生

19 5 24 未发生 12 86 98 合 计

31 91

122

[评析]这是一个配对设计的资料,因此用配对2

χ检验公式计算。 H 0:肥胖者与正常体重者的静脉曲张发生情况无差别 H 1:肥胖者与正常体重者的静脉曲张发生情况不同 05.0=α c

b c b +--=

2

2

)1(χ=

()12.212

511252

=+--,1=ν

2χ=2.11<2

1,05.0χ,P >0.05,尚不能认为静脉曲张与肥胖有关。

2.某卫生防疫站在中小学观察三种矫正近视眼措施的效果,近期疗效数据见表8-3。试对这三种措施的疗效作出评价。

表8-3 三种措施的近期有效率比较 矫治方法

有效人数 无效人数 合计

有效率(%)

夏天无眼药水 51 84 135 37.78 新医疗法 6 26 32 18.75 眼保健操 5 13 18 27.78 合计 62 123 185

33.51

[评析]

0H :三种措施有效率相等

1H :三种措施有效率不相等或不全相等 05.0=α

)1(2

2

-=∑c

r n n A n χ=185?

?

??

? ??-?+?+?+?+?+?1181231318625321232632626135123841356251222222=4.498,ν=(2-1)(3-1)=2

查表得0.25>P >0.10,按0.05α=水准不拒绝0H ,尚不能认为三种措施有效率有差别。 3.某医院以400例自愿接受妇科门诊手术的未产妇为观察对象,将其分为4组,每组100例,分别给予不同的镇痛处理,观察的镇痛效果见表8-4,问4种镇痛方法的效果有无差异?

颈麻

100 41 注药

100 94 置栓

100 89 对照

100 27 [评析] 为了应用2

χ检验,首先应计算出有效和无效的实际频数,列出计算表,见表8-5。

表8-5 4种镇痛方法的效果比较

镇痛方法 有效例数 无效例数 合计

颈麻

41 59 100 注药

94 6 100 置栓

89 11 100 对照

27 73 100 合计 251 149 400 0H :4种镇痛方法的效果相同 1H :4种镇痛方法的效果不全相同

05.0=α

)1(22

-=∑c r n n A n χ=400???

? ??-?++?+??110014973

...1001495910025141222=146.175, ν=(4-1)(2-1)=3

查表得P <0.05,按0.05α=水准拒绝0H ,接受1H ,即4种镇痛方法的效果不全相同。

四、习 题

(一) 单项选择题

1. 关于样本率p 的分布正确的说法是: A . 服从正态分布 B . 服从2

χ分布

C . 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布

D . 服从t 分布 2. 以下说法正确的是: A . 两样本率比较可用u 检验 B . 两样本率比较可用t 检验 C . 两样本率比较时,有2

χ=u D . 两样本率比较时,有22

χ=t 3. 率的标准误的计算公式是: A .

)1(p p - B .

n p p )

1(- C.1-n p D.

n

p p )

1(- 4. 以下关于2χ检验的自由度的说法,正确的是: A .拟合优度检验时,2-=n ν(n 为观察频数的个数) B .对一个43?表进行检验时,11=ν C .对四格表检验时,ν=4

D .若2

,05.02,05.0ηνχχ>,则ην>

5. 用两种方法检查某疾病患者120名,甲法检出率为60%,乙法检出率为50%,甲、乙法一致的检出率为35%,问两种方法何者为优?

A .不能确定

B .甲、乙法一样

C .甲法优于乙法

D .乙法优于甲法 6.已知男性的钩虫感染率高于女性。今欲比较甲乙两乡居民的钩虫感染率,适当的方法是:

A .分性别比较

B .两个率比较的2χ检验

C .不具可比性,不能比较

D .对性别进行标准化后再做比较 7.以下说法正确的是

A .两个样本率的比较可用u 检验也可用2χ检验

B .两个样本均数的比较可用u 检验也可用2χ检验

C .对于多个率或构成比的比较,u 检验可以替代2χ检验

D .对于两个样本率的比较,2χ检验比u 检验可靠 (二) 名词解释

1. 实际频数与理论频数 2. 2χ界值表 3. 拟合优度 4. 配对四格表

5. 双向有序分类资料 6. 率的标准误

7. 多个率的两两比较 8. Fisher 精确概率

9. McNemar 检验 10. Yates 校正 (三) 是非题

四个样本率做比较,2

)3(05.02χχ> ,可认为各总体率均不相等。 (四) 计算题

1.121名前列腺癌患者中,82名接受电切术治疗,术后有合并症者11人;39名接受开放手术治疗,术后有合并症1人。试分析两种手术的合并症发生率有无差异?

2.某厂在冠心病普查中研究冠心病与眼底动脉硬化的关系,资料见表8-6。问两者是否存在一定的关系?

表8-6 冠心病诊断结果与眼底动脉硬化级别的关系 眼底动脉硬化级别 冠心病诊断结果

合计 正常 可疑 冠心病 0 340 11 6 357

I 73 13 6 92 II 97 18 18 133 III 3 2 1

6 合计

513 44 31 588

3.表8-7是用两种方法检查已确诊的乳腺癌患者120名的检查结果,问:两种方法何者为优?

表8-7 两种方法检查结果比较

乙法 甲法

合计

+ - +

42 18 60 - 30 30 60 合计

72 48 120

4.用噬菌体治疗小儿细菌性痢疾结果见表8-8,问两组阴转率有无显著差异?

表8-8 两种方法检查结果比较 组 别

观察人数 粪见检阴性人数 阴转率(%)

试验组 29 25 86.2 对照组 28 17 60.7 合 计 57 42

73.7

5.某医院用冠心2号方治疗心绞痛患者,经三个月疗程后,疗效见表8-9,问三个疗程组的有效率之间有无显著差异?

表8-9 冠心2号方治疗心绞痛的有效率

疗 程

例数 有效例数 有效率(%) 一疗程 110 82 74.5 二疗程 150 130 86.7 三疗程 63 56 88.9 合 计

323 268 83.0

6.某医院比较急性黄疸型肝炎与正常人在超声波波型上的表现,见表8-10。问两组肝波型的差异有无显著性?

表8-10 急性黄疸型肝炎与正常人的超声波波形

组别波型

合计

正常可疑较密

黄疸型肝炎组12 43 232 287

正常人组277 39 11 327

合计289 82 243 614

7.有人研究惯用手与惯用眼之间是否存在一定关系,得资料如表8-11,试作统计分析。

表8-11 冠心2号方治疗心绞痛的有效率

惯用左眼两眼并用惯用右眼合计惯用左手34 62 28 124 两手并用27 28 20 75

惯用右手57 105 52 214

合计118 195 100 413

8.苏格兰西南部两个地区献血人员的血型记录如下表(表8-12),问两地的血型分布是否相同?

表8-12 两个地区献血人员的血型分布

地区血型

合计

A B O AB

Eskdale 33 6 56 5 100

Annandale 54 14 52 5 125

合计87 20 108 10 225

五、习题答题要点

(一)单项选择题

1.C

2.A

3.D

4.D

5.A

6.D

7.A

(二)名词解释

1.实际频数:actual frequency,即实际观察值。理论频数:theoretical frequency,在假设多个率或构成比相等的前提下,由合计率(构成比)推算出来的频数。

χ界值表:将2χ分布右侧尾部面积等于α时所对应的2χ值称为2χ分布的临界值,2.2

χ界值表。

对于不同的自由度及α有不同的临界值,由这些临界值构成的表即2

3.拟合优度:goodness of fit,指一种度量某事物的频数分布是否符合某一理论分布或数据是否与模型吻合的方法。

4.配对四格表:为了控制随机误差而采用配对设计方案,将条件相似的两个受试对象配成一对,然后随机地让其中一个接受A处理,另一个接受B处理,每种处理的反应都按二项

分类。全部n 对实验结果的资料以表8-12表示,这样的表称为配对四格表。

表8-12 配对四格表的形式 A 处理 B 处理 + - + a b -

c

d

5.

双向有序分类资料:对于R C 表资料,当两个定性变量都有序时,这样的资料称

为双向有序分类资料,如“急性放射病分度与放射烧伤面积占不同体表面积的百分比”,这里的两个变量均为有序的。

6. 率的标准误:用以衡量由于抽样引起的样本率与总体率之间的误差的统计量,记为

P σ。n

p )

1(ππσ-=

,π为总体率,n 为样本容量;当总体率π未知时,以样本率P 作为π

的估计值,率的标准误为n

p p S p )

1(-=

。 7. 多个率的两两比较:指当假设检验确定了多个率之间存在差别后,检验哪两个两个样本率之间的差别具有统计学意义的方法。

8.

Fisher 精确概率: 指当四格表中出现理论数小于1或n <40时,用R.A.Fisher (1934)

提出的方法直接计算出的有利于拒绝H 0的概率。

9. McNemar 检验:McNemar’s test for correlated proportions ,是分析配对四格表资料的方法,其计算公式为c

b c b +--=

2

2

)1(χ,v =1。

10.Yates 校正:英国统计学家Yates F 认为,由于2χ分布理论上是一连续性分布,而分类资料是间断性的,由此计算出的2χ值不连续,尤其是自由度为1的四格表,求出的概率P 值可能偏小,此时需对2χ值作连续性校正(correction of continuity ),这一校正即所谓的Yates 校正(Yates’ correction )。

(三) 是非题

错。多个样本率做比较时,H 1为各总体率不全相等,所以当接受H 1时,并不能说明各总体率均不相等。

(四) 计算题:

1.将资料整理成四格表

手术方法 合并症

电切术 开放手术

用四格表校正公式算得37.22=χ,P >0.05,尚不能认为两种手术的合并症发生率有差异。 2.该资料属双向有序分类资料,用2χ检验解决。

H 0: 冠心病诊断结果与眼底动脉硬化级别无关联 H 1: 冠心病诊断结果与眼底动脉硬化级别有关联

05.0=α

2

χ=61.59,2χ<26,01.0χ,P<0.05,

α水准拒绝H0接受H1,故可认为冠心病与眼底动脉硬化有关联。

按05

=

.0

3.采用配对2χ检验。

H0:两法不分优劣

α

H1: 两法能分优劣05

=

.0

2

α水准不拒绝H0,尚不能认为检出率有差别。

χ=3.00,按05

=

.0

4.可用u检验或2χ检验。用2χ检验时,首先将资料整理成四格表形式,然后再代入

α水准拒绝H0接受H1,认为两组阴转率差别有统计学意义。公式。算得2

χ=4.774,按05

=

.0

α水准拒绝H0接受5.用R?C表2χ检验公式算得2χ=8.539,v=2,P<0.05,,按05

=

.0

H1,三个疗程有效率的差异有统计学意义。

α水准拒绝H0接6.用R?C表2χ检验公式算得2χ=443.456,v=2,P<0.05,,按05

=

.0

受H1,两组肝波型的差异有统计学意义。

α水准不拒绝H0,尚不能认7.由2χ检验公式算得2χ=4.020,v=4,P>0.05,,按05

.0

=

为惯用手与惯用眼之间存在关系。

8.本例只有一个格子的理论频数小于5,故仍可用2χ检验。2χ=5.710,v=3,P>0.05,,α水准不拒绝H0,尚不能认为两地的血型分布不同。

按05

=

.0

(徐勇勇马跃渊)最新文件仅供参考已改成word文本。方便更改如有侵权请联系网站删除

卫生统计学 案例版丁元林课后思考题答案

第一章:ECDBB 第二章:BDABC 第三章:DEBCD AEA 第四章:DCCDD DCBD 第五章:DCBDB AEEEC 第六章:CBEDC DDDDA 第七章:ACCBB DACEA 第八章:ABCDD BDADB 第九章:DDBCD AEA 第十章:BDCCE BDAEA 第十一章:CAEDC DBCCD 第十二章:BCAEE BA 第十三章:DDBCC BCDE 第十四章:无 第十五章:无 第十六章:无 第十七章:DBABC BDE 第十八章:无 第十九章:BDCDC CCADC 《卫生统计学》思考题参考答案 第一章绪论 1、统计资料可以分为那几种类型?举例说明不同类型资料之间是如何转换的? 答:(1)1定量资料(离散型变量、连续型变量)、2无序分类资料(二项分类资料、无序多项分类资料)、3有序分类资料(即等级资料);(2)例如人的健康状况可分为“非常好、较好、一般、差、非常差”5个等级,应归为等级资料,若将该五个等级赋值为5、4、3、2、1,就可按定量资料处理。 2、统计工作可分为那几个步骤? 答:设计、收集资料、整理资料、分析资料四个步骤。 3、举例说明小概率事件的含义。 答:某人打靶100次,中靶次数少于等于5,那么该人一次打中靶的概率≤0.05,即可称该人一次打中靶的事件为小概率事件,可以视为很可能不发生。 第二章调查研究设计 1、调查研究有何特点? 答:(1)不能人为施加干预措施 (2)不能随机分组 (3)很难控制干扰因素 (4)一般不能下因果结论 2、四种常用的抽样方法各有什么特点? 答:(1)单纯随机抽样:优点是操作简单,统计量的计算较简便;缺点是当总体观察单位数量庞大时,逐一编号繁复,有时难以做到。 (2)系统抽样:优点是易于理解、操作简便,被抽到的观察单位在总体中分布均匀,抽样误差较单纯随机抽样小;缺点是在某些情况下会出现偏性或周期性变化。 (3)分层抽样:优点是抽样误差小,各层可以独立进行统计分析,适合大规模统计;缺点是事先要进行分层,操作麻烦。

第八章卡方检验

第八章 2 χ 检验 一、教学大纲要求 (一) 掌握内容 1. 2χ检验的用途。 2. 四格表的2 χ检验。 (1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2 χ检验。 3. 行?列表的2 χ检验。 (二) 熟悉内容 频数分布拟合优度的2 χ检验。 (三) 了解内容 1.2 χ分布的图形。 2.四格表的确切概率法。 二、教学内容精要 (一) 2 χ检验的用途 2χ检验(Chi-square test )用途较广,主要用途如下: 1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2 χ检验的基本思想 1.2 χ检验的基本思想是以2 χ值的大小来反映理论频数与实际频数的吻合程度。在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2 χ值不应该很大,若实际计算出的2 χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠)。 2. 基本公式:()∑ -= T T A 2 2 χ,A 为实际频数(Actual Frequency ),T 为理论频数 (Theoretical Frequency )。四格表2 χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2 χ值是一致的。 (三)率的抽样误差与可信区间 1.率的抽样误差与标准误 样本率与总体率之间存在抽样误差,其度量方法: n p ) 1(ππσ-= ,π为总体率,或 (8-1) n p p S p ) 1(-= , p 为样本率; (8-2) 2.总体率的可信区间 当n 足够大,且p 和1-p 均不太小,p 的抽样分布逼近正态分布。

非参数检验

非参数检验 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*第五章非参数检验SPSS(中文版)统计分析实用教程(第版)电子工业出版社*主要内容参数检验与非参数检验的比较单样本的非参数检验独立样本非参数检验相关样本的非参数检验SPSS(中文版)统计分析实用教程(第版)电子工业出版社*参数检验与非参数检验的比较参数检验和非参数检验的区别参数检验和非参数检验最本质的区别:参数检验需要事先确定或假定总体的分布非参数检验则不需要假定总体的分布而是直接用样本来推断总体的分布。 可以通过是否假定总体的分布来区分参数检验和非参数检验除此之外二者之间还可以从很多方面来区分。 ()研究的对象和目标不同。 参数检验研究的是总体的参数不涉及总体的分布检验一旦总体的参数确定总体的分布也就确定了非参数检验的目标是直接从样本推导总体的分布或两个总体的分布是否相同。 ()研究的统计量有所不同。 参数检验中很少用到秩来构造统计量无论样本量大小都能对总体进行推断非参数检验中常用秩、秩和等来构造统计量且常要求样本量较大。 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*参数检验与非参数检验的比较非参数检验的优点()它对总体分布一般不做过多的限制性假设任何分布都可以用非参数检验进行研究从应用范围

看其应用范围大于参数检验。 ()由于非参数检验不依赖于总体的分布形式因而它天然具有稳健性特征。 ()对资料的测量水平要求不高这给资料的搜集带来了很大的方便可以大大减轻统计资料的搜集工作量。 同时也为属性资料研究提供了广泛的基础。 ()非参数检验比较直观很容易理解不需要太多数学知识和统计理论。 多数非参数检验的运算比较简单可以较快地取得统计结果。 非参数检验的上述优点表明在实际问题的研究中它是一种比较有用的统计方法。 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*参数检验与非参数检验的比较非参数检验的缺点有些人主张用非参数检验取代参数检验这种看法有点偏激因为非参数检验毕竟存在着一些自身难以克服的不足表现在:()两者的效率有差距。 非参数检验主要处理定序资料这类资料的测量尺度比较低如果把那些能够用参数检验处理的资料转化为定类和定序资料必然会丢失检验数据的一部分信息因此非参数检验的有效性或检验效率不如参数检验。 ()当样本容量比较大时非参数检验的计算也比较繁杂、困难。 ()参数检验与非参数检验各有各的特点并非所有的参数检验都能转用非参数检验。

卡方检验法

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数 (f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布, 可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。它主要应用于两种情况:

spss实验报告

专业统计软件应用 实验报告 实验课程专业统计软件应用 上课时间2013 学年上半学期 14 周( 2013 年 5 月 27 日— 31 日)学生姓名杨守玲学号2011211432 班级0361102 所在学院经管上课地点金融实验指导教师唐兴艳

第五章思考与练习 3.表5.20 是某班级学生的高考数学成绩,试分析该班的数学成绩与全国的平均成绩70 分之间是否有显著性差异(数据文件:data5-16.sav)。 解:解决问题的原理:独立T样本检验 提出原假设和备择假设: Ho:p<0.05,该班的数学成绩与全国的平均成绩70 分之间不存在显著相关性;H1:p>0.05,该班的数学成绩与全国的平均成绩70 分之间存在显著相关性。 第1步单样本T 检验分析设置 (1)选择菜单:“分析”→“比较均值”→“单样本T 检验(S)”,打开“单样本T 检验主对话框”,确定要进行T 检验的变量并输入检验值,按如图所示进行设置。将“成绩”选入“检验变量”中,输入待检验的值“70”,用来检验产生的样本均值与检验值有无显著性差异。 第2步“选项”对话框设置:指定置信水平和缺失值的处理方法。

第3步主要结果及分析 完成以上的操作步骤后,点击“确定”按钮,运行结果如下所示,具体分析如下:下表给出了单样本T 检验的描述性统计量,包括样本数(N)、均值、标准差、均值的标准误差。 当置信水平为95%时,显著性水平为0.05,从表5.2 中可以看出,双尾检测概率P 值为0.002,小于0.05,故接受原假设,也就是说该班的数学成绩与全国的平均成绩70 分之间不存在显著相关性,即班的数学成绩与全国的平均成绩70 分之间存在显著性差异。 4. 在某次测试中,随机抽取男女同学的成绩各10 名,数据如下: 男:99 79 59 89 79 89 99 82 80 85 女:88 54 56 23 75 65 73 50 80 65 假设样本总体服从正态分布,比较置信度为95%的情况下男女得分是否有显著性

第八章 卡方检验与交互分析#(精选.)

第八章卡方检验与交互分析 交互分析是社会调查研究中常用方法之一,用于研究两个定类变量的关系。交互分析中用于检验两个变量是否相关的方法叫做卡方检验,也叫独立性检验。卡方检验是建立在观测频次和期望频次之差基础上的一种检验。 一、卡方检验的原理 例:一项调查得到890个样本的与收入和所处地区的数据,希望分析收入和地区的关系。 表1 要检验的H0:收入和地区之间没有相关性,即每一地区的收入分布模式应该是相同的,收入的高低不应随着地区的不同而有所差异。也就是说,如果东部城市的四个收入类别各自比重和中西北部城市的四个收入类别各自比重一致,那么,收入和地区之间是相互独立的。 如果这个890人的样本能够反应总体的独立性特征,那么就应该能够观测到两个地区具有相同的收入分布模式,称为期望模式,样本的期望观测频次如下:表2 接下来,计算观测频次f0与期望频次f e之间的偏差(f0-f e),如果这些偏差比较小,则有利于证明原假设即总体的独立性。反之,则可能推翻原假设。但偏差之和为0,所以对偏差进行平方。但是,为了说明每一个偏差的相对重要性,每一偏差平方和都需要和本组中的期望频次相比较,计算相对(f0-f e)2/f e。然后,将所有组的贡献相加,从而得到度量全部偏差的一个量,叫做卡方

χ2= ,服从自由度为(c-1)(r-1)的卡方分布。如用c 和r 分别表示表 中的列数和行数,自由度为(c-1)(r-1)。 f 0 f e 153.3 164.7 80 86 66 71 129.7 139.3 (f 0-f e ) (f 0-f e )2/f e 计算出卡方值后,可根据已知 的显著性 水平和自由度查卡方分布表,找出临界值,与之作对比。反过来,也可以计算出概值,再根据我们所希望的显著性水平做比较。该例题中计算出χ2为31.6,查表发现对应自由度为3的那一行的所有临界值都小于χ2,因此,概值小于0.001。由于概值如此小,检验水平可以是1%甚至更小,所以一定可以拒绝原假设。也就是说,在总人口中,收入与地区有显著的相关性,二者并不独立。 练习题:在电视的收视率调查中,得到性别与收视习惯的联列表如下,试分析性别和收视习惯的关系。 男 女 总频次 几乎天天看 38 24 62 偶尔看 31 7 38 总频次 69 31 100 相对频率 0.69 0.31 1.00 解:原假设为“性别和收视习惯相互独立”,如果原假设成立,那么两列期望凭此应通过0.69和0.31分别乘以最后一列总频次而得到。 42.8 19.2 146 172 66 100 51 86 166 103 -7.3 7.3 -14 14 -15 15 36.3 -36.3 0.35 0.32 2.45 2.28 3.41 3.17 10.16 9.46 38 24 31 7

卫生统计学第七章卡方检验 十

卫生统计学第七章卡方检验十 一、题型:A1 题号:1 本题分数:2 四格表资料两样本率比较的χ2检验,正确的一项为 A.χ2值为两样本率比较中u值 B.P<α前提下,χ2值越大,越有理由拒绝H0 C.χ2值大小与样本含量无关 D.每个格子的理论频数与实际频数的差值相等 E.χ2检验只能进行单侧检验 正确答案:B 答案解析:根据专业知识确定四格表资料两样本率比较的χ2检验采用单侧检验或是双侧检验,(也可使用四格表专用公式),可以证明四格表计算得出的χ2值与正态近似法两率比较中u值的平方相等,其大小与样本含量有关,且每个格子的理论频数与实际频数的差的绝对值相等,P<α前提下,自由度一定时,χ2值越大,P值越小,越有理由拒绝H0,故答案为B。 做答人数:0

做对人数:0 所占比例: 0 题号:2 本题分数:2 下列能用χ2检验的是 A.成组设计的两样本均数的比较 B.配对设计差值的比较 C.多个样本频率的比较 D.单个样本均数的比较 E.多个样本均数的比较 正确答案:C 答案解析:χ2检验可用于率或构成比比较的假设检验中,不适宜于均数的比较。 做答人数:0 做对人数:0 所占比例: 0 题号:3 本题分数:2 行×列表的自由度是 A.行数-1 B.列数-1

C.行数×列数 D.(行数-1)×(列数-1) E.样本含量-1 正确答案:D 答案解析:行×列表中,行的自由度=行数-1,列的自由度=列数-1,行×列二维表资料的χ2统计量所对应的自由度=(行数-1)×(列数-1)。做答人数:0 做对人数:0 所占比例: 0 题号:4 本题分数:2 四个百分率做比较,有一个理论数小于5,其他都大于5,则 A.只能做校正χ2检验 B.不能做χ2检验 C.直接采用行×列表χ2检验 D.必须先做合理的合并 E.只能做秩和检验 正确答案:C 答案解析:四个百分率做比较,资料可整理为4×2的行×列表,多个率比较的行×列表资料不适宜采用秩和检验,当满足行×列表资料

次数资料分析卡方检验

第五章 次数资料分析 ——2χ检验本章将分别介绍对次数资料、等级资料进行统计分析的方法。

第节χ2统计量与χ2分布 第一节 一、χ2统计量的意义 为了便于理解现结合实例说明( 为了便于理解,现结合一实例说明χ2读作卡方) 统计量的意义。根据遗传学理论,动物的性别比例是1:1。统计某羊场一年所产的876只羔羊中有公羔只母羔只按11只羔羊中,有公羔428只,母羔448只。按1:1性别例计算公母均应为只 的性别比例计算,公、母羔均应为438只。以A表示实际观察次数,T 表示理论次数,可将上述情况列成表5‐1。

表5‐1 羔羊性别实际观察次数与理论次数

从表5‐1看到,实际观察次数与理论次数存在一定的差异,这里公、母各相差10只。这个差异是属于抽样误差(把对该羊场一年所生羔羊 羔的性别统计当作是次抽样调查)、还是羔羊性的性别统计当作是一次抽样调查还是羔羊性别比例发生了实质性的变化? 要回答这个问题,首先需要确定一个统计量用以表示实际观察次数与理论次数偏离的程度 度;然后判断这一偏离程度是否属于抽样误差,即进行显著性检验。

为了度量实际观察次数与理论次数偏离的程 度,最简单的办法是求出实际观察次数与理论次 数的差数。从表51看出:A1T1=10,A2T2=10, ‐‐‐‐ 由于这两个差数之和为0,显然不能用这两个差 数之和来表示实际观察次数与理论次数的偏离程 度了免负抵将两个数 度。为了避免正、负抵消,可将两个差数A‐T、 11 A2‐T2 平方后再相加,即计算∑(A‐T)2,其值越大,实际观察次数与理论次数相差亦越大,反实际观察次数与理论次数相差亦越大 之则越小。但利用∑(A‐T)2表示实际观察次数与 理论次数的偏离程度尚有不足。例如某一组 实际观察次数为

卡方检验应用

卡方检验应用

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据 统计方法。 卡方检验是专用于解决计数数据统计分析 的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否 有关联或是否独立的问题。

在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题

第十章 卡方检验..

第十章χ2检验 χ检验的原理 第一节2 χ检验的假设 一、2 (一)分类相互排斥,互不包容 2 χ检验中的分类必须相互排斥,这样每一个观测值就会被划分到一个类别或另一个类别之中。此外,分类必须互不包容,这样,就不会出现某一观测值同时划分到更多的类别当中去的情况。 (二)观测值相互独立 各个被试的观测值之间彼此独立,这是最基本的一个假定。如一个被试对某一品牌的选择对另一个被试的选择没有影响。当同一被试被划分到一个以上的类别中时,常常会违反这个假定。 当讨论列联表时,独立性假定是指变量之间的相互独立。这种情况下,这种变量的独立性正在被检测。而观测值的独立性则是预先的一个假定。 (三)期望次数的大小 每一个单元格中的期望次数应该至少在5以上。一些更加谨慎的统计学家提出了更严格 χ检验时,每一个单元格的期望次数至少不应低于的标准,当自由度等于1时,在进行2 10,这样才能保证检验的准确性。 另外,在许多分类研究中会存在这样一种情况,如自由度很大,有几个类别的理论次数虽然很小,但在给以接受的标准范围内,只有一个类别的理论次数低于1。此时,一个简单的处理原则是设法使每一个类别的理论次数都不要低于1,分类中不超过20%的类别的理论次数可以小于5。在理论次数较小的特殊的四格表中,应运用一个精确的多项检验来避免使χ检验。 用近似的2 χ检验的类别 二、2 (一)配合度检验 配合度检验主要用来检验一个因素多项分类的实际观察数与某理论次数是否接近,这种2 χ检验方法有时也称为无差假说检验。当对连续数据的正态性进行检验时,这种检验又可称为正态吻合性检验。 (二)独立性检验 独立性检验是用来检验两个或两个以上因素各种分类之间是否有关联或是否具有独立 χ检验适用于探讨两个变量之间是否具有关联(非独立)或无关(独性的问题。这种类型的2

第十一章 分类资料的回归分析

第十一章分类资料的回归分析 ――Regression菜单详解(下) (医学统计之星:张文彤) 在很久很久以前,地球上还是一个阴森恐怖的黑暗时代,大地上恐龙横行,我们的老祖先--类人猿惊恐的睁大了双眼,围坐在仅剩的火堆旁,担心着无边的黑暗中不知何时会出现的妖魔鬼怪,没有电视可看,没有网可上... 我是疯了,还是在说梦话?都不是,类人猿自然不会有机会和恐龙同时代,只不过是我开机准备写这一部分的时候,心里忽然想到,在10年前,国内的统计学应用上还是卡方检验横行,分层的M-H卡方简直就是超级武器,在流行病学中称王称霸,更有那些1:M的配对卡方,N:M的配对卡方,含失访数据的N:M 配对卡方之类的,简直象恐龙一般,搞得我头都大了。其实恐龙我还能讲出十多种来,可上面这些东西我现在还没彻底弄明白,好在社会进步迅速,没等这些恐龙完全统制地球,Logistic模型就已经飞速进化到了现代人的阶段,各种各样的Logistic模型不断地在蚕食着恐龙爷爷们的领地,也许还象贪吃的人类一样贪婪的享用着恐龙的身体。好,这是好事,这里不能讲动物保护,现在我们就远离那些恐龙,来看看现代白领的生活方式。 特别声明:我上面的话并非有贬低流行病学的意思,实际上我一直都在做流行病学,我这样写只是想说明近些年来统计方法的普及速度之快而已。 据我一位学数学的师兄讲,Logistic模型和卡方在原理上是不一样的,在公 式推演上也不可能划等号,只是一般来说两者的检验结果会非常接近而已,多数情况下可忽略其不同。 §10.3 Binary Logistic过程 所谓Logistic模型,或者说Logistic回归模型,就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在0~1之间,回归方程的应变量取值可是在实数集中,直接做会出现0~1范围之外的不可能结果,因此就有人耍小聪明,将率做了一个Logit变换,这样取值区间就变成了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了Logistic回归。 随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类Logistic外,还有配对Logistic模型,多分类Logistic模型、随机效应的Logistic模型等。由于SPSS的能力所限,对话框只能完成其中的两分类和多分类模型,下面我们就介绍一下最重要和最基本的两分类模型。

统计分析与SPSS的应用第五版课后练习答案doc1

《统计分析与SPSS的应用(第五版)》课后练习答案 第一章练习题答案 1、SPSS的中文全名是:社会科学统计软件包(后改名为:统计产品与服务解决方案) 英文全名是:Statistical Package for the Social Science.(Statistical Product and Service Solutions) 2、SPSS的两个主要窗口是数据编辑器窗口和结果查看器窗口。 ●数据编辑器窗口的主要功能是定义SPSS数据的结构、录入编辑和管理待分析的数据; ●结果查看器窗口的主要功能是现实管理SPSS统计分析结果、报表及图形。 3、SPSS的数据集: ●SPSS运行时可同时打开多个数据编辑器窗口。每个数据编辑器窗口分别显示不同 的数据集合(简称数据集)。 ●活动数据集:其中只有一个数据集为当前数据集。SPSS只对某时刻的当前数据集 中的数据进行分析。 4、SPSS的三种基本运行方式: ●完全窗口菜单方式、程序运行方式、混合运行方式。 ●完全窗口菜单方式:是指在使用SPSS的过程中,所有的分析操作都通过菜单、按 钮、输入对话框等方式来完成,是一种最常见和最普遍的使用方式,最大优点是简 洁和直观。 ●程序运行方式:是指在使用SPSS的过程中,统计分析人员根据自己的需要,手工 编写SPSS命令程序,然后将编写好的程序一次性提交给计算机执行。该方式适用 于大规模的统计分析工作。 ●混合运行方式:是前两者的综合。 5、.sav是数据编辑器窗口中的SPSS数据文件的扩展名 .spv是结果查看器窗口中的SPSS分析结果文件的扩展名 .sps是语法窗口中的SPSS程序 6、SPSS的数据加工和管理功能主要集中在编辑、数据等菜单中;统计分析和绘图功能主要集中在分析、图形等菜单中。 7、概率抽样(probability sampling):也称随机抽样,是指按一定的概率以随机原则抽取样本,抽取样本时每个单位都有一定的机会被抽中,每个单位被抽中的概率是已知的,或是可以计算出来的。概率抽样包括简单随机抽样、系统抽样(等距抽样)、分层抽样(类型抽样)、整群抽样、多阶段抽样等。 ●简单随机抽样(simple random sampling):从包括总体N个单位的抽样框中随机地 抽取n个单位作为样本,每个单位抽入样本的概率是相等的。是最基本的抽样方法,是其它抽样方法的基础。优点:简单、直观,在抽样框完整时,可直接从中抽取样 本,用样本统计量对总体参数进行估计比较方便。局限性:当N很大时,不易构造 抽样框,抽出的单位很分散,给实施调查增加了困难。 ●分层抽样(stratified sampling):将抽样单位按某种特征或某种规则划分为不同 的层,然后从不同的层中独立、随机地抽取样本。优点:保证样本的结构与总体的 结构比较相近,从而提高估计的精度,组织实施调查方便(当层是以行业或行政区 划分时),既可以对总体参数进行估计,也可以对各层的参数进行估计。 ●整群抽样(cluster sampling):将总体中若干个单位合并为组(群),抽样时直接抽 取群,然后对选中群中的所有单位全部实施调查。优点:抽样时只需群的抽样框, 可简化工作量;调查的地点相对集中,节省调查费用,方便调查的实施。缺点:估

第八章卡方检验

第八章
2 χ 检验
次数资料分析
上一张 下一张 主 页
退 出

第一节
性别 男 女
卡方检验的意义和原理
理论次数 T 50 50 100
实际次数 A 51 49 100
问男女比例是否符合1:1, 即与1:1性别比差异是否显著。 性别比差异是否显著。

χ =
2

A—实际次数
(A ? T) T
2
T—理论次数
χ2是度量实际观察次数与理 论次数偏离程度的一个统计量, 论次数偏离程度的一个统计量, χ2越小, 越小,表明实际观察次数与理 论次数越接近; 论次数越接近; χ2 =0,表示两 者完全吻合; 者完全吻合; χ2越大, 越大,表示两者 相差越大。 相差越大。
上一张 下一张 主 页 退 出

在对次数资料进行χ2检验利用连续型随 机变量χ2分布计算概率时, 分布计算概率时,常常偏低, 常常偏低,特 别是当自由度为1时偏差较大。 时偏差较大。 Yates(1934)提出了一个矫正公式, 提出了一个矫正公式,矫正 后的χ2值记为
χ =∑
2 c
( A ? T ? 0.5) T
2
上一张 下一张 主 页
退 出

当自由度大于1时,χ2分布与连续型随机 变量χ2分布相近似 ,这时, 这时,可不作连续性矫 正 , 但 要 求各组内的理论次数不小于5。若 某组的理论次数小于5,则应把它与其相邻的 一组或几组合并, 一组或几组合并,直到理论次数大 于5 为 止。

《应用统计学》网上复习题库

《应用统计学》课程网上考试题库 第一章数据与统计学 一、单项选择题 1、统计学具有()特点 A.数量性和总体性 B.数量性和差异性 C.总体性和差异性 D.数量性和 答案:A 2、“统计”作为社会经济生活中经常使用的名词,以下哪项不是其含义() A.统计工作 B.统计资料 C.统计数据 D.统计科学 答案:C 3、专业、性别属于以下哪项统计数据的计量尺度()。 A.定类尺度 B.定序尺度 C.定距尺度 D.定比尺度 答案:A 4、在对工业企业的生产设备进行普查时,调查对象是()。 A . 所有工业企业 B. 每一个工业企业 C . 工业企业的所有生产设备 D. 工业企业的每台生产设备 答案:C 5、统计有三种涵义,其中()是基础、是源。 A. 统计学 B. 统计资料 C. 统计工作 D. 统计方法 答案:C 6、要了解 100 个学生的学习情况,则总体单位()。 A. 100 个学生 B. 100 个学生的学习情况 C. 每一个学生 D. 每一个学生的学习情况 答案:C 二、多项选择题 1、下列哪项可以归于无限总体内。()

A.中国目前居民 B.电脑内所有零件 C.某快递公司所有订单 D.报警电话 E.美国现在的农业科研所数 答案:CD 2、要了解 100 个工业企业的生产情况,则统计指标有()。 A. 100 个工业企业的工业总产值 B. 每一个工人的月工资 C. 全部工业企业 D. 一个工业企业的工资总额 E.全部工业企业的劳动生产率 答案:AE 3、下面哪些属于变量()。 A、可变品质标志 B、质量指标 C、数量指标 D、可变的数量标志 E、某一指标数值 答案:BCD 三、判断题 1、总体性是统计研究的前提。() 答案:错 2、总体单位是构成统计总体的个别事物。() 答案:对 3、推断统计学是研究在一定的概率下,如何用样本资料去推断总体数量特征的方法。() 答案:对 4、全国人口数量是统计总体。() 答案:错 答案: 5、人口的性别是说明总体的品质标志。() 答案:错 6、人的年龄是离散变量。() 答案:错

卡方检验

卡方(2χ)检验 常用于检验两个或多个样本率(或构成比)之间有无差别,也用于检验配对计数资料的 差异等。 (一)四格表资料的卡方检验 [例7-30] 某医院用甲、乙两种药物治疗十二指肠球部溃疡,结果见表7-12,试问两种药物疗效有无差别? 表7-12 两种药物治疗十二指肠球部溃疡效果比较 组 别 愈合人数 未愈合人数 合计 愈合率(%) 甲 75(a ) 25(b ) 100(a +b ) 75.00 乙 合 计 50(c ) 30(d ) 80(c +d ) 62.50 125 55 180(n ) 69.44 1.四格表2χ检验的基本公式为: ∑ -=T T A 2 2 )(χ (公式7-44) (1)建立假设,确定检验水准 H 0:π1=π2,即两组愈合率相同; H 1: π1≠π2,即两组愈合率不同; α=0.05 (2)计算理论数RC T n n n T C R RC = (公式7-45) 表7-13 两种药物治疗十二指肠球部溃疡效果比较 组 别 愈合人数 未愈合人数 合计 愈合率(%) 甲 75(69.44) 25(30.56) 100 75.00 乙 合 计 50(55.56) 30(24.44) 80 62.50 125 55 180 69.44 (3)计算检验统计量2χ值 按公式7-44计算: =3.27 (4)确定P 值 ν=(R-1)(C-1)。 本例ν=(2-1)(2-1)=1,查2χ界值表,2105.0,χ=3.84,2 1,1.0χ=2.71,故0.1>P >0.05。 (5)做出推断结论 按α=0.05水准,不拒绝H 0,差异无统计学意义。还不能认为两种药物治疗十二指肠球部溃疡疗效有差别。 2.四格表的专用公式 四格表资料还可用专用公式求2χ值。 44 .24)44.2430(56.55)56.5550(56.30)56.3025(44.69)44.6975()(2 22222 -+ -+-+-=-=∑T T A χ

概率论与数理统计公式总结【已整理 可直接打印】

第一章 P(A+B)=P(A)+P(B)- P(AB) 特别地,当A 、B 互斥时, P(A+B)=P(A)+P(B) 条件概率公式 概率的乘法公式 全概率公式:从原因计算结果 Bayes 公式:从结果找原因 第二章 二项分布(Bernoulli 分布)——X~B(n,p) 泊松分布——X~P(λ) 概率密度函数 怎样计算概率 均匀分布X~U(a,b) 指数分布X~Exp (θ) 分布函数 对离散型随机变量 对连续型随机变量 分布函数与密度函数的重要关系: 二元随机变量及其边缘分布 分布规律的描述方法 联合密度函数 联合分布函数 联合密度与边缘密度 离散型随机变量的独立性 连续型随机变量的独立性 第三章 数学期望 离散型随机变量,数学期望定义 连续型随机变量,数学期望定义 ● E(a)=a ,其中a 为常数 ● E(a+bX)=a+bE(X),其中a 、b 为常数 ● E(X+Y)=E(X)+E(Y),X 、Y 为任意随机变量 随机变量g(X)的数学期望 常用公式 ) () ()|(B P AB P B A P =)|()()(B A P B P AB P =) |()(A B P A P =∑ ==n k k k B A P B P A P 1)|()()(∑ ==n k k k i i k B A P B P B A P B P A B P 1 )|()()|()()|() ,...,1,0()1()(n k p p C k X P k n k k n =-==-,,...) 1,0(! )(== =-k e k k X P k ,λλ 1)(=? +∞ ∞ -dx x f )(b X a P ≤≤?=≤≤b a dx x f b X a P )()() 0(1 )(/≥= -x e x f x θ θ ∑≤==≤=x k k X P x X P x F ) ()()(? ∞ -=≤=x dt t f x X P x F )()()(? ∞ -=≤=x dt t f x X P x F )()()() ,(y x f ) ,(y x F 0 ),(≥y x f 1),(=?? +∞∞-+∞ ∞ -dxdy y x f 1),(0≤≤y x F } ,{),(y Y x X P y x F ≤≤=?+∞ ∞ -=dy y x f x f X ),()(?+∞ ∞ -=dx y x f y f Y ),()(} {}{},{j Y P i X P j Y i X P =====) ()(),(y f x f y x f Y X =∑+∞ -∞ =?= k k k P x X E )(? +∞ ∞ -?=dx x f x X E )()(∑ =k k k p x g X g E )())((∑∑=i j ij i p x X E )(dxdy y x xf X E ??=),()() (1 )(b x a a b x f ≤≤-= ) ()('x f x F =

卡方检验应用

卡方检验应用 Prepared on 24 November 2020

第八章记数数据统计法—卡方检验法 知识引入 在各个研究领域中,有些研究问题只能划分为不同性质的类别,各类别没有量的联系。例如,性别分男女,职业分为公务员、教师、工人、……,教师职称又分为教授、副教授、……。有时虽有量的关系,因研究需要将其按一定的标准分为不同的类别,例如,学习成绩、能力水平、态度等都是连续数据,只是研究者依一定标准将其划分为优良中差,喜欢与不喜欢等少数几个等级。对这些非连续等距性数据,要判别这些分类间的差异或者多个变量间的相关性方法称为计数数据统计方法。 卡方检验是专用于解决计数数据统计分析的假设检验法。本章主要介绍卡方检验的两个应用:拟合性检验和独立性检验。拟合性检验是用于分析实际次数与理论次数是否相同,适用于单个因素分类的计数数据。独立性检验用于分析各有多项分类的两个或两个以上的因素之间是否有关联或是否独立的问题。 在计数数据进行统计分析时要特别注意取样的代表性。我们知道,统计分析就是依据样本所提供的信息,正确推论总体的情况。在这一过程中,最根本的一环是确保样本的代表性及对实验的良好控制。在心理与教育研究中,所搜集到的有些数据属于定性资料,它们常常是通过调查、访问或问卷获得,除了少数实验可以事先计划外,大部分收集数据的过程是难于控制的。例如,某研究者关于某项教育措施的问卷调查,由于有一部分教师和学生对该项措施存有意见,或对问卷本身有偏见,根本就不填写问卷。这样该研究所能收回的问卷只能代表一部分观点,所以它是一个有偏样本,若据此对总体进行推论,就会产生一定的偏差,势必不能真实地反映出教师与学生对这项教育措施的意见。因此应用计数资料进行统计推断时,要特别小心谨慎,防止样本的偏倚性,只有具有代表性的样本才能作出正确的推论。 第一节卡方拟合性检验 一、卡方检验的一般问题 卡方检验应用于计数数据的分析,对于总体的分布不作任何假设,因此它又是非参数检验法中的一种。它由统计学家皮尔逊推导。理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为: 这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来

社会统计作业

作业 第一章数据的初步整理 1、区分定类、定序、定距、定比变量的依据是什么? 2、交互分类表的主要作用是什么? 第二章集中量数与差异量数 1、8名学生的成绩依次为:优、良、良、差、中、差、差、良,求中位数和众数。 2、差异量数的主要作用是什么? 3、离散系数CV适用于什么层次的变量或数据? 4、常用的集中量数主要有哪些?分别适用于哪些变量(数据)? 5、常用的差异量数主要有哪些?分别适用于哪些变量(数据)? 6、若比较两个地区的贫富差异程度,应该使用哪个统计量? 7、若比较个体在不同群体中的位置前后(名次的相对高低),应该使用哪个统计量? 8、国家女子体操队人均身高160公分,国家女子篮球队人均身高190公分,二者的标准差分别为8公分和10公分,试比较哪一个队的身高差异程度更大。 9、某班期末考试,数学平均成绩为80分,语文平均成绩为70分,标准差分别为10分和7分。某学生数学得到92分,语文得到80分,若从相对名次的角度看,该生哪门课程的成绩在全部考生的排名中位置更靠前? 10、试求下列资料的平均数、标准差、中位数和四分位差。 第三章相关 1、四种相关统计量各适用于什么层次的变量? 2、若 =0.45,对此是怎样解释的? y 3、若Pearson相关为0.6,则消减误差比例等于多少? 4、研究文化程度x与生育意愿y之间的关系,随机调查190人,得到下表结果:

计算文化程度与生育意愿之间的相关,并对计算结果作出解释。 5、父母离异与子女学习成绩的调查结果如下,请计算相关: 6、关于婆媳冲突的调查资料如下,请计算相关。 7、试述详析模式的分析步骤 8、某公司抽样调查两个部门员工对某议案的态度,调查数据经归类得到三张表。以下是其中的两张表。1、请将缺失的表补上;2、请对三张表的结果作出分析。(注:表中数据为人数,括号内为相应的百分比) 第四章概率及随机变量的分布 1、若) B x,则x的平均数(数学期望)和标准差各是什么? n ~p , ( 2、某对夫妻能活到20年后的概率,夫为0.2,妻为0.25,问1)、双方均能活到20年后的概率;2)、至少有一个能活到20年后的概率。 3、某婚姻介绍所,平均每天介绍4对男女青年结识有一对建立恋爱关系,假定二项分布

生物统计学第四版教学大纲

课程简介 《生物统计学》是运用数理统计的原理和方法 来分析和解释生物界各种现象和试验调查资料的一 门学科,是生物学各专业的专业基础课。本门课程 在第七学期进行,是在学生已学习了《高等数学》 课程和《植物学》、《动物学》、《生理学》、《遗传学》等生物学各学科的基础知识的基础上开设本门课 程。 本课程系统地介绍了生物统计学的基本原理和 方法,在简要叙述了生物统计学的概念、产生、发 展和作用、生物学研究中试验资料的整理、特征数 的计算、概率和概率分布、抽样分布基础上,着重 介绍了平均数和频率的假设检验、X 2检验、方差分析、直线回归与相关分析、可直线化的非线性回 归分析、协方差分析、试验设计的原理和常用试验 设计及其统计分析、多元回归与相关分析和多项式 回归分析,同时简要介绍聚类分析、判别分析、主 成分分析、因子分析、典型相关、时间序列分析等 多元分析。 本课程的主要目的是培养学生具有生物学试验 设计的能力和对试验资料进行统计分析处理的能 力。 一、教学环节和教学方法 1教学环节 本门课程为生物学的专业基础课,在第七学 期进行。学生已学习了《高等数学》课程和《植物学》、《动物学》、《生理学》、《遗传学》等生物学各学科的基础知识,在此基础上开设本门课程。主要

教学形式为课堂讲授,主要教学环节包括课堂讲授、辅导答疑、课外作业、习题讲解等。 2教学方法 以课堂讲授为主,研制电子教案和多媒体幻灯片以及C A I课件,在教学方法和手段上采用现代教育技术。 二、本课程的性质和任务 《生物统计学》是运用数理统计的原理和方法来分析和解释生物界各种现象和试验调查资料的 一门学科,是生物学各专业的专业基础课。随着生物学的不断发展,对生物体的研究和观察已不再局限于定性的描述,而是需要从大量调查和测定数据中,应用统计学方法,分析和解释其数量上的变化,以正确制定试验计划,科学地对试验结果进行分析,从而作出符合科学实际的推断。《生物统计学》不仅提供如何正确地设计科学试验和收集数据的 方法,而且也提供如何正确地整理、分析数据,得出客观、科学的结论的方法。其主要目的是培养学生具有生物学试验设计的能力和对试验资料进行 统计分析处理的能力。 主要任务是: 1、培养学生掌握正确收集、整理试验资料的方法。 2、培养学生掌握数据资料的基本统计分析方法。 3、培养学生掌握生物统计基本理论、基本技术和常用方法。 4、培养学生掌握常用的生物学试验设计方法并能对试验资料进行正确的统计分析。 5、培养学生掌握必要的计算技术,包括现行统计软件的使用方法。

相关主题
文本预览
相关文档 最新文档