独立性检验

  • 格式:ppt
  • 大小:1.70 MB
  • 文档页数:45

下载文档原格式

  / 45
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

题型一 作列联表 例 1 在一项有关医疗保健的社会调查中,调查的男性为 530 人,女性为 670 人,其中男性中喜欢吃甜食的为 117 人,女性中 喜欢吃甜食的为 492 人,请作出性别与是否喜欢吃甜食的列联表.
【解析】 作列联表如下:
喜欢吃甜食 不喜欢吃甜食

117
413

Leabharlann Baidu
492
178
总计
609
因为 P(K2≥3.841)≈0.05,所以有 95%的把握认为性别与休 闲方式有关系.
题型三 独立性检验的综合应用 例 3 在调查的 480 名男人中有 38 名患有色盲,520 名女人 中有 6 名患有色盲,分别利用图形和独立性检验的方法来判断色 盲与性别是否有关?你所得到的结论在什么范围内有效?
【解析】 法一:通过计算穿新、旧防护服的工人患皮肤病 的发病率可知,穿新防护服的发病率为 6.7%,而穿旧的发病率约 为 35.7%,说明新防护服对预防皮肤炎有一定效果.
法二:通过作等高条形图(如图所示)可知,穿上新防护服后 也有明显的效果.
法三:通过计算 K2 的观测值 k 知, k=(a+b)(cn+(da)d-(bac+)c2)(b+d)≈13.826.查表可知, P(K2≥10.828)≈0.001,而 13.826 大于 10.828,故至少有 99.9% 的把握说明新防护服比旧防护服对预防患这种皮肤炎有效.
检查两组工人的皮肤炎患病人数如下:
防护服种类 阳性例数 阴性例数 总计

5
70
75

10
18
28
总计
15
88
103
问这种新防护服对预防工人职业性皮肤炎是否有效?并说
明你的理由.(注:显阴性即未患皮肤炎)
【思路】 解答本题可先结合列联表作出等高条形图并进行 定性分析,再利用随机变量 K2 的值进行定量分析.
(1)根据以上数据建立一个 2×2 列联表. (2)试问该种药物以治疗“H7N9”病毒是否有效?
解析 (1)2×2 列联表如下:
存活数 死亡数 合计
服用药物 132
18
150
未服药物 114
36
150
合计
246
54
300
(2)由(1)知 K2=300(24163×2×543×6-15101×4×15108)2≈7.317>6.635.
4.在独立性检验中,设 K2 的观测值为 k,当 k>3.841 时, 有 95%的把握说事件 A 与 B 有关;当 k>6.635 时,有 99%的把握 说事件 A 与 B 有关;当 k≥10.828 时,有 99.9%的把握认为 A 与 B 有关;当 k≤3.841 时,认为事件 A 与 B 是无关的.
患慢性气管炎 未患慢性气管炎 总计
吸烟
43
162
205
不吸烟
13
121
134
总计
56
283
339
试问:50 岁以上的人患慢性气管炎与吸烟有关系吗?
(P(K2≥6.635)≈0.010))
【解析】 本题意思是要考虑 50 岁以上的人的两种状态, 是否吸烟,是否患慢性气管炎,每种状态又分两种情况,吸烟、 不吸烟以及患慢性气管炎、未患慢性气管炎,表中的数据是调查 来的结果,可以利用这些数据计算出 K2 的值,并判断二者之间 的关系.
故我们有 99%的把握认为该种药物对“H7N9”病毒有治疗效
果.
课后巩固
1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分 析数据得“吸烟与患肺癌有关”的结论,并有 99%以上的把握认 为这个结论是成立的,下列说法中正确的( )
A.100 个吸烟者中至少有 99 个患有肺癌 B.1 个人吸烟,那么这个人一定患有肺癌 C.在 100 个吸烟者中一定有患肺癌的人 D.在 100 个吸烟者中可能一个患肺癌的人也没有
(1)利用等高条形图,可以对两个分类变量是否有关系进行粗 略地判断.根据列联表,计算出相应的两个频率,作出等高条形 图,如果通过图形发现两个频率值a+a b与c+c d相差很大,就判断 这两个分类变量之间有关系.但是这种判断无法精确地给出所得 结论的可靠程度.
(2)利用独立性检验来考查两个分类变量是否有关系,能较精 确地给出这种判断的可靠程度,具体的做法是:①根据实际问题 的需要确定容许推断“两个分类变量有关系”犯错误概率的上界 α,然后查表确定临界值 k0.②计算随机变量 K2 的观测值 k.③如 果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误的概率不 超过 α,否则就认为在犯错误的概率不超过 α 的前提下不能推断 “X 与 Y 有关系”,或者在样本数据中没有发现足够证据支持结 论“X 与 Y 有关系”.
1.分类变量和列联表 (1)分类变量. 变量的不同值“表示个体所属的不同类别,像这样的变量称 为分类变量. (2)列联表. ①定义:两个分类变量的频数表称为列联表. ②2×2 列联表.
一般地,假设有两个分类变量 X 和 Y,它们的可能取值分别
为{x1,x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)如下 表.
K2=(a+b)(bn+(da)d-(bca)+c2)(c+d),得 K2 的观测值为 k=1 000×48(0×385×205×144-4×6×954642)2≈27.1.
由于 K2≈27.1>10.828,所以至少有 99.9%的把握认为性别与 患色盲有关系.这个结论只对所调查的 480 名男人和 520 名女人 有效.
【解析】 列联表如下:
不服用 服用 总计
头发稠密 14 55 69
头发稀疏 总计
46
60
5
60
51
120
题型二 等高条形图及 K 2 公式
例 2 某矿石粉厂当生产一种矿石粉时,在数天内就有部分
工人患职业性皮肤炎,在生产季节开始,随机抽取 75 名车间工
人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,
答案 D
2.经过对 K2 的统计量的研究,得到了若干个观测值,当 K2<2.706 时,我们认为两分类变量 A、B( )
A.有 95%的把握认为 A 与 B 有关系 B.有 99%的把握认为 A 与 B 有关系 C.没有充分理由说明 A 与 B 有关系 D.不能确定
答案 C
3.若两个分类变量 X 和 Y 的 2×2 列联表为:
x1 x2 总计
y1 a c a+c
y2 b d b+d
总计 a+b c+d a+b+c+d
2.等高条形图 (1)等高条形图与表格相比,更能直观地反映出两个分类变量 间是否互相影响,常用等高条形图展示列联表数据的频率特征. (2)观察等高条形图发现a+a b和c+c d相差很大,就判断两个分 类变量之间有关系.
果如下表所示:
死亡 存活 合计
第一种剂量 14
11
25
第二种剂量 6
19
25
合计
20 30
50
进行统计分析时的统计假设是____________________.
答案 假设电离辐射的剂量与人体受损程度无关
5.在研究某种药物对“H7N9”病毒的治疗效果时,进行动物 试验,得到以下数据,对 150 只动物服用药物,其中 132 只动物 存活,18 只动物死亡,对照组 150 只动物进行常规治疗,其中 114 只动物存活,36 只动物死亡.
591
总计 530 670 1 200
探究 1 对问题中的不同数据分成不同的类别,然后列表.注 意到列联表中的类别书写格式与数据也要对应清晰.
◎思考题 1 服用某种维生素对婴儿头发稀疏或稠密的影响 调查如下:服用维生素的婴儿有 60 人,头发稀疏的有 5 人;不 服用维生素的婴儿有 60 人,头发稀疏的有 46 人.由以上数据作 出列联表.
y1
y2
x1
5
15
x2
40
10
则 X 与 Y 之间有关系的可信度为________.
答案 99.9% 解析 K2≈18.8>10.828. 故有 99.9%的把握认为 X 与 Y 有关系.
4.为了探究电离辐射的剂量与人体的受损程度是否有关,
用两种不同剂量的电离辐射照射小白鼠.在照射后 14 天内的结
探究 3 仅从等高条形图上只可以粗略的估计两个分类变量 的关系,可以结合所求的数值来进行比较,作图应注意单位统一, 图形准确,但它不能给我们两个分类变量有关或无关的精确的可 信程度,若要作精确的判断,可以作独立性检验的有关计算.
◎思考题 3 为了探究患慢性气管炎是否与吸烟有关,调查
了 339 名 50 岁以上的人,调查结果如表所示:
2.独立性检验的方法与步骤
一般地,假设两个分类变量 X 和 Y,它们的取值分别为{x1,
x2}和{y1,y2},其样本频数列联表(称为 2×2 列联表)为下表:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c
b+d a+b+c+d
要推断的结论:H0:X 与 Y 有关系.
通常可有以下两种方法来进行独立性检验,即判断 H0 成立 的可能性.
探究 2 判断两个分类变量是否有关系的途径有: (1)通过计算它们发生的频率来初步判断; (2)通过作等高条形图,利用图形的形象直观来定性判断; (3)计算随机变量 K2 的值,利用独立性假设的基本思想来定 量地判断.
◎思考题 2 在对人们的休闲方式的一次调查中,共调查了 124 人,其中女性 70 人,男性 54 人,女性中有 43 人主要的休闲 方式是看电视,另外 27 人主要的休闲方式是运动;男性中有 21 人主要的休闲方式是看电视,另外 33 人主要的休闲方式是运动.
(1)根据以上数据建立一个 2×2 的列联表; (2)试判断性别与休闲方式是否有关系.
【解析】 (1)列联表如下:
看电视 运动 总计
男性
21
33
54
女性
43
27
70
总计
64
60 124
(2)法一:作等高条形图 通过等高条形图可以判断性别与休闲方式有关系
法二:提出统计假设 H0:性别与休闲方式没有关系,根据表 中数据,由公式得 K2 的观测值为 k≈6.201 2>3.841.
【思路】 解答本题可先作出调查数据的列联表,再根据列 联表画出二维条形图或三维柱形图,并进行分析,最后利用独立 性检验作出判断.
【解析】 由题意作出列联表:
色盲 非色盲

38
442

6
514
总计
44
956
总计 480 520 1 000
根据列联表中所给的数据可以有 a=38,b=442,c=6,d= 514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000, 代入公式
3.独立性检验 (1)定义:利用随机变量 K2 来判断“两个分类变量有关系” 的方法称为独立性检验. (2)K2=(a+b)(cn+(da)d-(bac+)c2)(b+d),其中 n=a+b +c+d.
(3)独立性检验的具体做法: ①根据实际问题的需要确定容许推断“两个分类变量有关 系”犯错误概率的上界 α,然后查表确定临界值 k0. ②利用公式计算随机变量 K2 的观测值 k. ③如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误 的概率不超过 α,否则就认为在犯错误的概率不超过 α 的前提下 不能推断“X 与 Y 的关系”,或者在样本数据中没有发现足够证 据支持结论“X 与 Y 有关系”.
从题目的 2×2 列联表中可知: a=43,b=162,c=13,d=121, a+b=205,c+d=134,a+c=56, b+d=283,n=a+b+c+d=339,
代入公式 K2=(a+b)(bn+(da)d-(bac+)c2)(c+d),得 K2 的观测值为 k=339×2(054×3×13142×1-561×622×8313)2≈7.469. 由于 7.469>6.635, 所以我们有 99%的把握认为 50 岁以上的人患慢性气管炎与 吸烟有关.
1.两个分类变量之间相关关系的定性分析 (1)分类变量. 取不同的“值”表示个体所属的不同类别的变量称为分类 变量. (2)频率分析. 通过对样本的每个分类变量的不同类别的事件发生的频率 的大小比较来分析两分类变量之间是否有关系.
(3)图形分析. 我们也可以利用等高条形图来分析两分类变量之间是否具 有相关关系,这是因为图形的形象直观,更能反映出相关数据的 总体状况.