1.2独立性检验的基本思想及其初步应用导学案
- 格式:doc
- 大小:77.00 KB
- 文档页数:4
1.2独立性检验的基本思想及其初步应用(第一课时)。
教学目标:1理解独立性检验的基本思想2、会从列联表、柱形图、条形图直观判断吸烟与患癌有关。
3、了解随机变量K 2的含义。
教学重点:理解独立性检验的基本思想。
教学难点;1、理解独立性检验的基本思想、2、了解随机变量K 2的含义。
教学过程:一、引入:从问题“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表,柱形图,和条形图的展示,使学生直观感觉到吸烟和患肺癌可能会有关系。
但这种结论能否推广到总体呢?要回答这个问题,就必须借助于统计理论来分析。
二、独立性检验就是检验两个分类变量是否有关的一种统计方法:用字母表示吸烟与患肺癌的列联表:不患肺癌 患肺癌 合计不吸烟 a b a+b吸烟 c d c+d合计 a+c b+d a+b+c+d样本容量 n=a+b+c+d假设H 0 : 吸烟与患肺癌没有关系。
则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:()()()()()()()220a c a c d c a b ad bc a b c dad bc n ad bc k a b c d a c b d n a b c d ≈⇒+≈+⇒-≈++--=++++=+++因此 : 越小, 说明吸烟与患肺癌之间关系越弱.构造随机变量 其中()()2781721489874916.635⨯⨯≈⨯⨯⨯≥≈≥f 2020220202若H 成立,则K 应该很小. 把表中数据代入公式9965777549-422099K =56.632在H 成立的情况下.统计学家估算出如下概率P K 0.01即在H 成立的情况下,K 的值大于6.635的概率非常小.如果K 6.635,就断定H 不成立,出错的可能性有多大?出现K =56.632 6.635 的概率不超过1% .因此,我们有99%的把握认为"吸烟与患肺癌有关系."三、作业:预习17页。
第一章 统计案例第二节 独立性检验的基本思想及初步应用(第1课时)一、学习目标1.了解两个分类变量的列联表,并用二维条形图表示,会计算K 2的观测值.2.了解独立性检验的思想,并会用独立性检验思想对两个变量之间是否有关联进行检验.3.通过实例说明独立性检验的方法和步骤,会根据22⨯列联表求统计量2K ,体会独立性检验的作用.【重点、难点】用独立性检验思想对两个变量之间是否有关联进行检验;根据22⨯列联表求统计量2K .二、学习过程复习引入:经常上网会影响学习吗?下表为教育部对1000名中学生进行调查的结果.经常上网影响学习吗?如何判断?经常上网 不经常上网总计 不及格 80 120 200及格 120 680 800总计 200 800 1000问题1:(1)通过上述数据经常上网的人成绩及格的比例为 ,不经常上网的人成绩及格的比例为 ,这个数据可以初步判断经常上网对学习成绩是有影响的,但这种说法的把握性有多大,还需要进行独立性检验才知道.(2)独立性检验的概念用统计量K 2的大小来研究两个变量是否有关系的方法,称为独立性检验.问题2:两个分类变量A 和B 的2×2列联表一般地,假设有两个分类变量A 和B ,它们的可能取值分别为{A 1,A 2}和{B 1,B 2}, 其样本频数列联表(称为2×2列联表)为:B AB 1 B 2 总计 A 1 a bA 2 c d总计问题3:统计量K 2的计算公式是怎样的?若有如下列联表所示的抽样数据:类1 类2 总计类 A a b a+b类 B c d c+d总计 a+cb+d a+b+c+d则K 2= (其中n=a+b+c+d ).问题4:根据K 2判断两变量是否有关联当K 2≤2.706时, 充分的证据判定变量A 、B 有关联,可以认为变量A 、B 是 关联的;当K 2>2.706时,有 的把握判定变量A 、B 有关联;当K 2>3.841时,有 的把握判定变量A 、B 有关联;当K 2>6.635时,有 的把握判定变量A 、B 有关联.答案:问题1:(1)60% 85% ;问题2:a+b c+d a+c b+d a+b+c+d问题3:错误!未找到引用源。
高中数学选修1,2《独立性检验的基本思想及其初步应用》教案高中数学选修1-2《独立性检验的基本思想及其初步应用》教案教学要求:通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表、柱形图和条形图展示在吸烟者中患肺癌的比例比不吸烟者中患肺癌的比例高,让学生亲身体验独立性检验的实施步骤与必要性.教学重点:理解独立性检验的基本思想及实施步骤.教学难点:了解独立性检验的基本思想、了解随机变量的含义.教学过程:教学过程:一、复习准备:独立性检验的基本步骤、思想二、讲授新课:1. 教学例1:例1 在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶;而另外772名不是因为患心脏病而住院的男性病人中有175名秃顶. 分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?① 第一步:教师引导学生作出列联表,并分析列联表,引导学生得出“秃顶与患心脏病有关”的结论;第二步:教师演示三维柱形图和二维条形图,进一步向学生解释所得到的统计结果;第三步:由学生计算出的值;第四步:解释结果的含义.② 通过第2个问题,向学生强调“样本只能代表相应总体”,这里的数据来自于医院的住院病人,因此题目中的结论能够很好地适用于住院的病人群体,而把这个结论推广到其他群体则可能会出现错误,除非有其它的证据表明可以进行这种推广.2. 教学例2:例2 为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300由表中数据计算得到的观察值 . 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?(学生自练,教师总结)强调:①使得成立的前提是假设“性别与是否喜欢数学课程之间没有关系”.如果这个前提不成立,上面的概率估计式就不一定正确;②结论有95%的把握认为“性别与喜欢数学课程之间有关系”的含义;③在熟练掌握了两个分类变量的独立性检验方法之后,可直接计算的值解决实际问题,而没有必要画相应的图形,但是图形的直观性也不可忽视.不健康健康总计不优秀41626667优秀37296333三、课时小结:独立性检验的方法、原理、步骤四、巩固练习:某市为调查全市高中生学习状况是否对生理健康有影响,随机进行调查并得到如下的列联表:请问有多大把握认为“高中生学习状况与生理健康有关”?五、课外作业课时练习六、板书设计。
独立性检验的基本思想及其初步应用教学目标1、知识与技能通过本节知识的学习,了解独立性检验的基本思想和初步应用,能对两个分类变量是否有关做出明确的判断。
明确对两个分类变量的独立性检验的基本思想具体步骤,会对具体问题作出独立性检验。
2、过程与方法在本节知识的学习中,应使学生从具体问题中认识进行独立性检验的作用及必要性,树立学好本节知识的信心,在此基础上学习三维柱形图和二维柱形图,并认识它们的基本作用和存在的不足,从而为学习下面作好铺垫,进而介绍K的平方的计算公式和K的平方的观测值R的求法,以及它们的实际意义。
从中得出判断“X与Y有关系”的一般步骤及利用独立性检验来考察两个分类变量是否有关系,并能较准确地给出这种判断的可靠程度的具体做法和可信程度的大小。
最后介绍了独立性检验思想的综合运用。
3、情感、态度与价值观通过本节知识的学习,首先让学生了解对两个分类博变量进行独立性检验的必要性和作用,并引导学生注意比较与观测值之间的联系与区别,从而引导学生去探索新知识,培养学生全面的观点和辨证地分析问题,不为假想所迷惑,寻求问题的内在联系,培养学生学习数学、应用数学的良好的数学品质。
加强与现实生活相联系,从对实际问题的分析中学会利用图形分析、解决问题及用具体的数量来衡量两个变量之间的联系,学习用图形、数据来正确描述两个变量的关系。
明确数学在现实生活中的重要作用和实际价值。
教学中,应多给学生提供自主学习、独立探究、合作交流的机会。
养成严谨的学习态度及实事求是的分析问题、解决问题的科学世界观,并会用所学到的知识来解决实际问题。
教学重点、难点教学重点:理解独立性检验的基本思想;独立性检验的步骤。
教学难点;1、理解独立性检验的基本思想;2、了解随机变量K2的含义;3、独立性检验的步骤。
教学策略教学方法:诱思探究教学法学习方法:自主探究、观察发现、合作交流、归纳总结。
教学手段:多媒体辅助教学教学过程:对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.在现实生活中,分类变量是大量存在的,例如是否吸烟,宗教信仰,国籍,等等.在日常生活中,我们常常关心两个分类变量之间是否有关系.例如,吸烟与患肺癌是否有关系?性别对于是否喜欢数学课程有影响?等等.为调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)表3-7 吸烟与肺癌列联表那么吸烟是否对患肺癌有影响吗?像表3一7 这样列出的两个分类变量的频数表,称为列联表.由吸烟情况和患肺癌情况的列联表可以粗略估计出:在不吸烟者中,有0.54 %患有肺癌;在吸烟者中,有2.28%患有肺癌.因此,直观上可以得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异.与表格相比,三维柱形图和二维条形图能更直观地反映出相关数据的总体状况.图3. 2 一1 是列联表的三维柱形图,从中能清晰地看出各个频数的相对大小.图3.2一2 是叠在一起的二维条形图,其中浅色条高表示不患肺癌的人数,深色条高表示患肺癌的人数.从图中可以看出,吸烟者中患肺癌的比例高于不吸烟者中患肺癌的比例.为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”.那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?为了回答上述问题,我们先假设H 0:吸烟与患肺癌没有关系.用A 表示不吸烟, B 表示不患肺癌,则“吸烟与患肺癌没有关系”独立”,即假设 H 0等价于PAB )=P(A )+P(B) .把表3一7中的数字用字母代替,得到如下用字母表示的列联表:表3-8 吸烟与肺癌列联表在表3一8中,a 恰好为事件AB 发生的频数;a+b 和a+c 恰好分别为事件A 和B 发生的频数.由于频率近似于概率,所以在H 0成立的条件下应该有a ab ac n n n++≈⨯, 其中n a b c d =+++为样本容量, (a+b+c+d)≈(a+b)(a+c) ,即ad ≈bc.因此,|ad -bc|越小,说明吸烟与患肺癌之间关系越弱;|ad -bc|越大,说明吸烟与患肺癌之间关系越强.为了使不同样本容量的数据有统一的评判标准,基于上面的分析,我们构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++ (1)其中n a b c d =+++为样本容量. 若 H 0 成立,即“吸烟与患肺癌没有关系”,则 K “应该很小.根据表3一7中的数据,利用公式(1)计算得到 K “的观测值为()22996577754942209956.63278172148987491K ⨯-⨯=≈⨯⨯⨯, 这个值到底能告诉我们什么呢?统计学家经过研究后发现,在 H 0成立的情况下,2( 6.635)0.01P K ≥≈. (2)(2)式说明,在H 0成立的情况下,2K 的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在2K 的观测值k ≈56.632 ,远远大于6. 635,所以有理由断定H 0不成立,即认为“吸烟与患肺癌有关系”.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为“吸烟与患肺癌有关系” .在上述过程中,实际上是借助于随机变量2K 的观测值k 建立了一个判断H 0是否成立的规则:如果k ≥6. 635,就判断H 0不成立,即认为吸烟与患肺癌有关系;否则,就判断H 0成立,即认为吸烟与患肺癌没有关系.在该规则下,把结论“H 0 成立”错判成“H 0 不成立”的概率不会超过2( 6.635)0.01P K ≥≈,即有99%的把握认为从不成立.上面解决问题的想法类似于反证法.要确认是否能以给定的可信程度认为“两个分类变量有关系”,首先假设该结论不成立,即H 0:“两个分类变量没有关系”成立.在该假设下我们所构造的随机变量2K 应该很小.如果由观测数据计算得到的2K 的观测值k 很大,则在一定可信程度上说明H 0不成立,即在一定可信程度上认为“两个分类变量有关系”;如果k 的值很小,则说明由样本观测数据没有发现反对H 0 的充分证据.怎样判断2K 的观测值 k 是大还是小呢?这仅需确定一个正数0k ,当0k k ≥时就认为2K 的观测值k 大.此时相应于0k 的判断规则为:如果0k k ≥,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的0k 为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为20()P K k ≥.在实际应用中,我们把0k k ≥解释为有20(1())100%P K k -≥⨯的把握认为“两个分类变量之间有关系”;把0k k <解释为不能以20(1())100%P K k -≥⨯的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据.上面这种利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验.利用上面结论,你能从列表的三维柱形图中看出两个变量是否相关吗?一般地,假设有两个分类变量X 和Y ,它们的可能取值分别为{12,x x }和{12,y y },其样本频数列联表(称为2×2列联表)为:表3一 9 2×2列联表若要推断的论述为H l :X 与Y 有关系,可以按如下步骤判断结论H l 成立的可能性:1.通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.① 在三维柱形图中,主对角线上两个柱形高度的乘积ad 与副对角线上的两个柱形高度的乘积bc 相差越大,H 1成立的可能性就越大.② 在二维条形图中,可以估计满足条件X=1x 的个体中具有Y=1y 的个体所占的比例a a b+,也可以估计满足条件X=2x 的个体中具有Y=2y ,的个体所占的比例c c d +.“两个比例的值相差越大,H l 成立的可能性就越大.2.可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:① 根据实际问题需要的可信程度确定临界值0k ;② 利用公式( 1 ) ,由观测数据计算得到随机变量2K 的观测值k ;③ 如果0k k >,就以20(1())100%P K k -≥⨯的把握认为“X 与Y 有关系”;否则就说样本观测数据没有提供“X 与Y 有关系”的充分证据.在实际应用中,要在获取样本数据之前通过下表确定临界值:表3一10(四)、举例:例1.在某医院,因为患心脏病而住院的 665 名男性病人中,有 214 人秃顶,而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系.(2)能够以 99 %的把握认为秃顶与患心脏病有关系吗?为什么?解:根据题目所给数据得到如下列联表:(1)相应的三维柱形图如图3.2一4所示.比较来说,底面副对角线上两个柱体高度的乘积要大一些,可以在某种程度上认为“秃顶与患心脏病有关”.(2)根据列联表3一11中的数据,得到21437(214597175451)3891048665772k ⨯⨯-⨯=⨯⨯⨯≈16.373>6 .因此有 99 %的把握认为“秃顶与患心脏病有关” .例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:表3一12 性别与喜欢数学课程列联表由表中数据计算得2K 的观测值 4.514k ≈.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.[解析]可以有约95%以上的把握认为“性别与喜欢数学课之间有关系”.作出这种判断的依据是独立性检验的基本思想,具体过程如下:分别用a , b , c , d 表示样本中喜欢数学课的男生人数、不喜欢数学课的男生人数、喜欢数学课的女生人数、不喜欢数学课的女生人数.如果性别与是否喜欢数学课有关系,则男生中喜欢数学课的比例a a b+与女生中喜欢数学课的人数比例c c d +应该相差很多,即||||()()a c ad bc abcd a b c d --=++++ 应很大.将上式等号右边的式子乘以常数因子, 然后平方得22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.因此2K 越大,“性别与喜欢数学课之间有关系”成立的可能性越大.另一方面,在假设“性别与喜欢数学课之间没有关系”的前提下,事件A ={2K ≥3. 841}的概率为P (2K ≥3. 841) ≈0.05,因此事件A 是一个小概率事件.而由样本数据计算得2K的观测值k=4.514,即小概率事件A发生.因此应该断定“性别与喜欢数学课之间有关系”成立,并且这种判断结果出错的可能性约为5 %.所以,约有95 %的把握认为“性别与喜欢数学课之间有关系”.补充例题1:打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?[解析]略。
1.1 独立性检验【课标要求】1.了解独立性检验的意义、理解2×2列联表.2.会用χ2判断事件A与B之间的关系.3.掌握独立性检验的基本步骤.4.通过典型案例,掌握独立性检验的基本思想.【核心扫描】1.用χ2判断事件A与B之间的关系.(重点)2.独立性检验的基本思想及方法.(难点)自学导引1.2×2列联表与卡方统计量(1)一般地,对于两个研究对象Ⅰ和Ⅱ,Ⅰ有两类取值类A和类B,Ⅱ也有两类取值类1和类2,可以得下联表所示的抽样数据:将形如此表的表格称为2×2列联表.(2)卡方统计量χ2=,其中n=a+b+c+d为样本容量.2.独立性检验利用χ2统计量来研究两类对象是否有关系的方法称为独立性检验.3.独立性检验的基本步骤(1)提出假设H0:Ⅰ与Ⅱ没有关系;(2)根据2×2列联表与公式χ2=(n=a+b+c+d),计算χ2的值;(3)查对临界值(如表),作出判断.试一试:结合反证法与独立性检验原理的关系,说明独立性检验.提示独立性检验类似于数学中的反证法,要确认“两个变量有关系”这一结论成立的可信度,首先假设结论不成立,在假设下,我们构造的统计量χ2应该很小.如果由观测数据计算得到的χ2值很大,则在一定程度上说明假设不合理,再根据不合理的程度与临界值的关系作出判断.想一想:当χ2>6.635时,我们应当拒绝统计假设,还是接受统计假设.这种估计出错的可能性有多大?提示拒绝统计假设,由P(χ2>6.635)=0.01,即这种估计出错的可能性为1%.名师点睛1.独立性检验(1)利用随机变量χ2=,(其中n=a+b+c+d为样本容量),来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.(2)独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量χ2应该很小.如果由观测数据计算得到的χ2的观测值很大,则在一定程度上说明假设不合理.根据随机变量χ2的含义,可以通过概率P(χ2≥x0)的大小来评价该假设不合理的程度有多大,从而说明这“两个分类变量有关系”这一结论成立的可信程度有多大.如P(χ2≥6.635)≈0.01,由实际计算得χ2>6.635说明假设不合理的程度约为99%,即两个分类变量有关系这一结论成立的可信程度为99%.2.利用χ2的值判定两个研究对象Ⅰ和Ⅱ之间的关系(1)若χ2>10.828,则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;(2)若χ2>6.635,则有99%的把握认为“Ⅰ与Ⅱ有关系”;(3)若χ2>2.706,则有90%的把握认为“Ⅰ与Ⅱ有关系”;(4)若χ2≤2.706,则认为没有充分的证据显示“Ⅰ与Ⅱ有关系”,但也不能作出结论“H0成立”,即不能认为Ⅰ与Ⅱ没有关系.题型一利用χ2判定两个变量间的关系【例1】某电视台联合相关报社对“男女同龄退休”这一公众关注的问题进行了民意调查,数据如下表所示:根据表中数据,能否在犯错误的概率不超过0.001的前提下认为对这一问题的看法与性别有关系?(P(χ2≥10.828)≈0.001)[思路探索] 属于计算χ2,并用临界值表作出判断.解提出假设H0:对这一问题的看法与性别无关.由列联表中的数据,可以得到:χ2=≈125.161>10.828.又P(χ2>10.828)≈0.001.故在犯错误的概率不超过0.001的前提下认为对“男女同龄退休”这一问题的看法与性别有关.规律方法根据假设检验的思想,比较计算出的χ2与临界值的大小,选择接受假设还是拒绝假设.【训练1】为了研究色盲与性别的关系,调查了1 000人,调查结果如下表所示:根据上述数据试问色盲与性别是否是相互独立的?解提出假设H0:色盲与性别没有关系.由已知条件可得下表依据公式得χ2=≈27.139.当H0成立时,χ2≥10.828的概率约为0.001,因为χ2≈27.139>10.828,所以我们有99.9%的把握认为色盲与性别是有关的.题型二独立性检验的基本思想【例2】某教育机构为了研究人具有大学专科以上学历(包括大学专科)和对待教育改革态度的关系,随机抽取392名成年人进行调查,所得数据如下表所示:对于教育机构的研究项目,根据上述数据能得出什么结论?[思路探索] 计算χ2的值,作出判断.解提出假设H0:具有大学专科以上学历和对待教育改革的态度无关.由公式得:χ2=≈1.78.因为1.78<2.706.所以我们没有理由说人具有大学专科以上学历(包括大学专科)和对待教育改革的态度有关.规律方法提出假设,计算χ2的值,结合临界值得出结论.【训练2】某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出什么结论?解提出假设H0:工作积极性与是否积极支持企业改革无关.χ2=≈10.759.当H0成立时,χ2>6.635的概率约为0.010,因为10.759>6.635,所以有99%的把握说:抽样员工对待企业改革的态度与工作积极性是有关的,可以认为企业的全体员工对待企业改革的态度与其工作积极性是有关的.题型三独立性检验综合应用【例3】(14分)某中学举办安全法规知识竞赛,从参赛的高一、高二学生中各抽出100人的成绩作为样本.对高一年级的100名学生的成绩进行统计,并按[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]分组,得到成绩分布的频率分布直方图(如图).(1)若规定60分以上(包括60分)为合格,计算高一年级这次知识竞赛的合格率;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此,估计高一年级这次知识竞赛的学生的平均成绩;(3)若高二年级这次知识竞赛的合格率为60%,由以上统计数据填写下面2×2列联表,并问是否有99%的把握认为“这次知识竞赛的成绩与年级有关系”?参考数据与公式:由列联表中数据计算χ2的公式χ2=临界值表审题指导本题综合考查了频率分布直方图的识图、应用、统计量的计算,2×2列联表及独立性检验知识.【解题流程】―→―→―→―→―→[规范解答] (1)高一合格率为0.02×10+0.03×10+0.02×10+0.01×10=0.8=80%.(2分)(2)高一样本的平均数为45×+55×+65×+75×+85×+95×=72,据此,可以估计高一年级这次知识竞赛的学生的平均成绩为72分.(7分)(3)(12分)χ2=≈9.5>6.635.所以有99%的把握认为“这次知识竞赛的成绩与年级有关系”.(14分)【题后反思】统计的基本思维模式是归纳,通过部分数据的性质来推测全部数据的性质,从数据上体现的只是统计关系,而不是因果关系.【训练3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:乙厂:(1)试分别估计两个分厂生产零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:χ2=,【解析】(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%. (2)χ2=≈7.35>6.635,所以有99%的把握认为两个分厂生产的零件的质量有差异.误区警示不理解χ2的意义,得出的结论出现错误【示例】吃零食是中学生中普遍存在的现象,吃零食对中学生的身体发育有诸多不利的影响,下面给出了性别与吃零食的2×2列联表:试推断,男生与女生,谁更喜欢吃零食.[错解] 由公式χ2=≈4.722>3.841.所以说女生更喜欢吃零食,一个人吃零食与性别有关.我们由χ2的值判断A与B是否有关系,只是统计上的结论,具体到每个个体则不一定成立.[正解] 由公式χ2=≈4.722>3.841.所以有95%的把握认为吃零食与性别有关,但具体到每一个人则不能说吃零食与性别有关,也可能与其他因素有关.统计量χ2的值说明变量有关的可信度,与所给统计数据也有关系.所得结论也只是统计上的结论,不能具体到个体.。
第三章 统计案例3.2独立性检验的基本思想及其初步应用一、学习目标1、了解独立性检验的基本思想、方法及初步应用。
了解独立性检验的常用方法:等高条形图及2k 统计量法。
2、了解实际推断原理和假设检验的基本思想、方法及初步应用。
3、能运用自己所学知识对具体案例进行检验。
【重点、难点】重点:1、了解独立性检验的基本思想、方法及初步应用。
了解独立性检验的常用方法:等高条形图及2k 统计量法。
2、了解实际推断原理和假设检验的基本思想、方法及初步应用。
3、能运用自己所学知识对具体案例进行检验。
难点:1、实际推断原理和假设检验的基本思想、方法及初步应用。
2、解决独立性检验与其它知识(如概率)等的综合应用题。
二、学习过程 【导入新课】1.与列联表相关的概念(1)分类变量:变量的不同“___”表示个体所属的_________,像这样的变量称为分类变量. (2)列联表:①列出的_____分类变量的_______,称为列联表.②一般地,假设有两个分类变量X 和Y ,它们的取值分别为 {}{}2121,,y y x x 和其样本频数列联表(称为2×2列联表)为:2.等高条形图等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否 _________,常用等高条形图展示列表数据的_________. 3.独立性检验的基本思想(1)定义:利用随机变量__来判断“两个分类变量_______”的方法称为独立性检验.(2)公式:=2k ____________________,其中=n ________.(3)独立性检验的具体做法:①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后k.查表确定_______k的_______k.②利用公式计算随机变量2③如果_____,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在_____________不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中_________________支持结论“X与Y有关系”.典型例题类型一利用等高条形图判断两个分类变量是否相关例1.下列关于等高条形图的叙述正确的是( )A.从等高条形图中可以精确地判断两个分类变量是否有关系B.从等高条形图中可以看出两个变量频数的相对大小C.从等高条形图可以粗略地看出两个分类变量是否有关系D.以上说法都不对例2、为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:病人与尿棕色素为阳性是否有关系?类型二独立性检验的基本思想例3、为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.能否在犯错误的概率不超过0.1的前提下,认为“学生选报文、理科与对外语的兴趣有关”?类型三独立性检验的综合应用例4、某高校共有学生15 000人,其中男生10 500人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时.请完成每周平均体育运动时间与性别的列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:变式拓展1、在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?2、在一次重要会议上,为了搞好对外宣传工作,会务组选聘了16名男记者和14名女记者担任对外翻译工作,调查发现,男、女记者中分别有10人和6人会俄语.根据以上数据完成以下2×2列联表:会俄语不会俄语总计男女总计30并回答能否在犯错误的概率不超过0.10的前提下认为性别与会俄语有关?3、某中学将100名高一新生分成水平相同的甲、乙两个“平行班”,每班50人.陈老师采用A,B两种不同的教学方式分别在甲、乙两个班级进行教改实验.为了解教学效果,期末考试后,陈老师分别从两个班级中各随机抽取20名学生的成绩进行统计,作出茎叶图如图.记成绩不低于90分者为“成绩优秀”.(1)在乙班样本的20个个体中,从不低于86分的成绩中随机抽取2个,求抽出的两个均“成绩优秀”的概率;(2)由以上统计数据作出列联表,并判断能否在犯错误的概率不超过0.1的前提下认为:“成绩优秀”与教学方式有关.三、学习反思1.判断两个分类变量是否有关系的两种常用方法(1)利用数形结合思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法.(2)一般地,在等高条形图中,b a a + 与 dc c+ 相差越大,两个分类变量有关系的可能性就越大.2、独立性检验的步骤:第一步,确定分类变量,获取样本频数,得到列联表.第二步,根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值0k .第三步,利用公式()()()()d b c a d c b a bc ad n k ++++-=22)( 计算随机变量2k 的观测值k .第四步,作出判断.如果0k k >,就推断“X 与Y 有关系”这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 的关系”,或者在样本数据中没有发现足够证据支持结论“X 与Y 有关系”.四、随堂检测1、某地区甲校高二年级有1 100人,乙校高二年级有900人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了200名学生的数学成绩,如下表:(已知本次测试合格线是50分,两校合格率均为100%) 甲校高二年级数学成绩:(1)计算x,y的值,并分别估计以上两所学校数学成绩的平均分(精确到1分).(2)若数学成绩不低于80分为优秀,低于80分为非优秀,根据以上统计数据写下面2×2列联表,并回答能否在犯错误的概率不超过0.05的前提下认为“两个学校的数学成绩有差异?”。
1.2独立性检验的基本思想及其初步应用学习目标:通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表展示,让学生亲身体验独立性检验的实施步骤与必要性. 学习重点:理解独立性检验的基本思想及实施步骤.学习难点:了解独立性检验的基本思想、了解随机变量2K 的含义. 学习过程: 一、课前准备:某医疗机构为了解吸烟与患肺癌是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人. 调查结果是:吸烟的220人中有37人患肺癌,183人未患肺癌;不吸烟的295人中有21人患肺癌,274人未患肺癌.问题1:吸烟与不吸烟,患肺癌的可能性的大小是否有差异? 为了研究这个问题,我们将上述数据用下表表示:问题2:差异大到什么程度才能作出“吸烟与患肺癌有关”的判断? 问题3:能否用数量刻画出“有关”的程度?二、新课导学: (一)独立性检验:1.独立性检验的含义:用2K 统计量研究吸烟与患肺癌是否有关、用药效果与用药方式是否有关、性别与数学成绩是否有关等这类问题的方法称为独立性检验. 2. 卡方统计量卡方统计量:22()()()()()n ad bc K a b c d a c b d -=++++其中n a b c d =+++为样本量.如果两个变量1x 与2x 无关系,则2K 的值应该很小.3. 用独立性检验来考察“1x 与2x 是否有关系”的步骤:(1)提出假设0H :1x 与2x 没有关系;(2)根据2×2列联表与公式计算2K 的值; (3)查对临界值表作出判断.4. 临界值表:例如:(1)210.828K >,则有99.9%的把握认为“1x 与2x ”有关系;(2)2 6.635K >,则有99%的把握认为“1x 与2x ”有关系; (3)2 2.706K >,则有90%的把握认为“1x 与2x ”有关系; (4)2 2.706K ≤,则认为没有充分的证据显示“1x 与2x ”有关系,但也不能作出结论“0H 成立”,即不能认为“1x 与2x ”没有关系.(二)典型例题【例1】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人,六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.(1)根据以上数据建立一个2×2的列联表;(2)判断人的饮食习惯是否与年龄有关.【解析】动动手:在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机. 【解析】三、总结提升:独立性检验的方法、原理、步骤.四、反馈练习:1.独立性检验中的统计假设就是假设相关事件A 、B ( )A.互斥B.不互斥C.相互独立D.不独立 2.下列说法中正确的是 ( )①独立性检验的基本思想是带有概率性质的反证法;②独立性检验就是选取一个假设0H 条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝0H 的推断;③独立性检验一定能给出明确的结论.A. ①②B.①③C.②③D.①②③3.给出假设0H ,下列结论中不能对0H 成立与否作出明确判断的是 ( ) A.2K =2.535 B.2K =7.723 C.2K =10.321 D.2K =20.1254.某班主任对全班50名学生进行了作业量的调查,数据如下表:则学生的性别与作业量的大小有关系的把握大约为( ) A.99% B.95% C.)90% D.无充分根据5.考察棉花种子经过处理跟生病之间的关系得到如下表数据:根据以上数据,则 ( )A.种子经过处理跟是否生病有关B.种子经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到2250(1320107) 4.84423272030K ⨯⨯-⨯=≈⨯⨯⨯,因为2 3.841K ≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为____ .7.在性别与吃零食这两个分类变量的计算中,下列说法正确的是 .①若的观测值为2K =6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么此人是女性的可能性为99%;③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.8.下列关于2K 的说法中,正确的是 .①2K 在任何相互独立问题中都可以用于检验是否相关;②2K 越大,两个事件的相关性越大;③2K 是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题.9 .在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2的列联表;(2)判断性别与休闲方式是否有关系.【解析】五、学后反思参考答案(二)典型例题【例1】【解析】(1)2×2的列联表如右:(2)提出统计假设,0H : 假设人的饮食习惯与年龄无关, 22124(43332721) 6.20170546460K ⨯-⨯=≈⨯⨯⨯,当统计假设0H 成立时,2 5.024K ≥的概率约为2.5%,即有97.5%的把握认为“人的饮食习惯与年龄有关”.动动手:【解析】根据题意,列出列联表如下:提出统计假设,0H :在恶劣气候飞行中男人与女人一样容易晕机则2289(2426318) 3.68955343257K ⨯-⨯==⨯⨯⨯,2 2.706K >,故我们有90%的把握认为在这次航程中男人比女人更容易晕机.四、反馈练习: 1. C 2. A 3. A 4. B 5. B. 6. 5%. 7.③ 8.③9 .【解析】(1)2×2的列联表(2)假设“休闲方式与性别无关” 计算2124(43332721) 6.20170546460k ⨯⨯-⨯=≈⨯⨯⨯,因为 5.024k ≥,所以有理由认为假设“休闲方式与性别无关”是不合理的, 即有97.5%的把握认为“休闲方式与性别有关”.。
1.2独立性检验的基本思想及其初步应用【问题导思】吸烟变量有几种类别?国籍变量呢?【提示】吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别,如中国、美国、法国…….1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表(1)定义:列出的两个分类变量的频数表,称为列联表.(2)2×2列联表:一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:2×2列联表【问题导思】表格和图形哪一个更能直观地反映出两个分类变量间是否相互影响?【提示】图形.(1)定义:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.(2)特征:等高条形图与表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.(3)用法:观察等高条形图发现和相差很大,就判断两个分类变量之间有关系.(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)公式:K2=,其中n=a+b+c+d为样本容量.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用与判断二者是否有关系.【思路探究】对变量进行分类→求出分类变量的不同取值→作出2×2列联表→计算与的值作出判断【自主解答】2×2列联表如下:将表中数据代入公式得==0.671 875.==0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.2.作2×2列联表时,关键是对涉及的变量分清类别.题中条件不变,尝试用|ad-bc|的大小判断饮食习惯与年龄是否有关.【解】将本例2×2列联表中的数据代入可得|ad-bc|=|43×33-21×27|=852.相差较大,可在某种程度上认为饮食习惯与年龄有关系.某学校对高三学生作了一项调查,发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张.作出等高条形图,利用图形判断考前心情紧张与性格类别是否有关系.【思路探究】作出2×2列联表―→根据列联表数据作等高条形图―→对比乘积的差距判断两个分类变量是否有关【自主解答】作列联表如下:相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的比例.从图中可以看出,考前紧张的样本中性格内向占的比例比考前心情不紧张样本中性格内向占的比例高,可以认为考前紧张与性格类型有关.1.利用列联表中数据计算出各类变量取值对应频率,作出等宽度且高度均为1的等高条形图.2.利用数形结合的思想,借助等高条形图来判断两个分类变量是否相关是判断变量相关的常见方法之一.一般地,在等高条形图中,与相差越大,两个分类变量有关系的可能性就越大.作等高条形图时可以用列联表来寻找相关数据,作图要精确,且易于观察,使对结论的判断不出现偏差.某生产线上,质量监督员甲在生产现场时,990件产品中有合格品982件,次品8件;不在生产现场时,510件产品中有合格品493件,次品17件.试利用图形判断监督员甲在不在生产现场对产品质量好坏有无影响.【解】根据题目所给数据得如下2×2列联表:相应的等高条形图如图所示.图中两个深色条的高分别表示甲在生产现场和甲不在生产现场样本中次品数的频率.从图中可以看出,甲不在生产现场样本中次品数的频率明显高于甲在生产现场样本中次品数的频率.因此可以认为质量监督员甲在不在生产现场与产品质量好坏有关系.下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.【思路探究】求出k2的值―→与临界值作比较―→作出判断.【自主解答】(1)假设H0:传染病与饮用水无关.把表中数据代入公式得:K2的观测值k=≈54.21.在H0成立的情况下,P(K2>10.828)≈0.001,是小概率事件,所以拒绝H0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,K2的观测值k=≈5.785.因为5.785>5.024,P(K2>5.024)≈0.025,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.解决一般的独立性检验问题的步骤:(1)通过列联表确定a、b、c、d、n的值,根据实际问题需要的可信程度确定临界值k0;(2)利用K2=求出K2的观测值k;(3)如果k≥k0,就推断“两个分类变量有关系”,这种推断犯错误的概率不超过α;否则就认为在犯错误的概率不超过α的前提下不能推断“两个分类变量有关系”.某社区医疗服务部门为了考察人的高血压病是否与食盐摄入量有关,对该社区的1 633人进行了跟踪测查,得出以下数据:问能否判断在犯错误的概率不超过0.001的前提下,认为患高血压与食盐摄入量有关?【解】提出假设H0:该社区患有高血压病与食盐的摄入量无关.由公式计算K2的观测值为k=≈80.155.因为80.155>10.828,因此在犯错误的概率不超过0.001的前提下,我们认为该社区患有高血压病与食盐的摄入量有关.因未理解P(K2≥k0)的含义而致误某小学在对232名小学生调查中发现:180名男生中有98名有多动症,另外82名没有多动症,52名女生中有2名有多动症,另外50名没有多动症,用独立性检验方法判断多动症与性别是否有关系?【错解】由题目数据列出如下列联表:k=≈42.117>10.828.所以有0.1%的把握认为多动症与性别有关系.【错因分析】应该是有(1-P(K2≥10.828))×100%=(1-0.001)×100%的把握,而不是P(K2≥10.828)×100%=0.001×100%的把握.【防范措施】本题的错误之处在于不能正确理解独立性检验步骤的含义,当计算的K2的观测值k大于临界值k0时,就可推断在犯错误的概率不超过α的前提下说两分类变量有关系.这一点需牢记,才能避免类似错误.【正解】由题目数据列出如下列联表:由表中数据可得到:k=≈42.117>10.828.所以有99.9%的把握认为多动症与性别有关系.1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是()A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有【解析】独立性检验的结果与实际问题有差异,即独立性检验的结论是一个数学统计量,它与实际问题中的确定性存在差异.【答案】D2.(2013·威海高二检测)分类变量X和Y的列联表如下,则()A.ad-bc越小,说明X与Y的关系越弱B.ad-bc越大,说明X与Y的关系越强C.(ad-bc)2越大,说明X与Y的关系越强D.(ad-bc)2越接近于0,说明X与Y的关系越强【解析】由K2的计算公式可知,(ad-bc)2越大,则K2越大,故相关关系越强.【答案】C3.观察下列各图,其中两个分类变量x、y之间关系最强的是()【解析】在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.【答案】D4.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:【解】从题目的2×2列联表中可知:a=43,b=162,c=13,d=121,a+b=205,c+d =134,a+c=56,b+d=283,n=a+b+c+d=339,代入公式:K2=,得k=≈7.469.因为7.469>6.635,所以我们有99%的把握认为50岁以上的人患慢性气管炎与吸烟习惯有关系.一、选择题1.有两个分类变量X与Y的一组数据,由其列联表计算得k≈4.523,则认为“X与Y有关系”犯错误的概率为()A.95%B.90%C.5%D.10%【解析】P(K2≥3.841)≈0.05,而k≈4.523>3.841.这表明认为“X与Y有关系”是错误的可能性约为0.05,即认为“X与Y有关系”犯错误的概率为5%.【答案】C2.(2013·大连高二检测)在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差B.回归分析C.独立性检验D.概率【解析】判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.【答案】C3.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅临界值表来确定推断“X与Y有关系”的可信度,如果k>5.024,那么就推断“X和Y有关系”,这种推断犯错误的概率不超过()A.0.25 B.0.75C.0.025 D.0.975【解析】∵P(k>5.024)=0.025,故在犯错误的概率不超过0.025的条件下,认为“X和Y 有关系”.【答案】C4.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图中可以看出()图1-2-1A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%【解析】本题考查学生的识图能力,从图中可以分析,男生喜欢理科的可能性比女生大一些.【答案】C5.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是()A.男、女患色盲的频率分别为0.038,0.006B.男、女患色盲的概率分别为,C.男人中患色盲的比例比女人中患色盲的比例大,患色盲与性别是有关的D.调查人数太少,不能说明色盲与性别有关【解析】男人中患色盲的比例为,要比女人中患色盲的比例大,其差值为|-|≈0.0 676,差值较大.【答案】C二、填空题6.某班主任对全班50名学生作了一次调查,所得数据如表:由表中数据计算得到K2的观测值k≈5.059,于是________(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.【解析】查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,则临界值k0=6.635.本题中,k≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.【答案】不能7.独立性检验所采用的思路是:要研究A,B两类型变量彼此相关,首先假设这两类变量彼此________.在此假设下构造随机变量K2,如果K2的观测值较大,那么在一定程度上说明假设________.【答案】无关不成立8.某高校《统计初步》课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:为了检验主修统计专业是否与性别有关系,根据表中的数据得到随机变量K2的观测值为k =≈4.844.因为k>3.841,所以确认“主修统计专业与性别有关系”,这种判断出现错误的可能性为________.【解析】因为随机变量K2的观测值k>3.841,所以在犯错误的概率不超过0.05的前提下认为“主修统计专业与性别有关系”.故这种判断出现错误的可能性为5%.【答案】5%三、解答题9.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是否有关?【解】列出2×2列联表代入公式得K2的观测值k=≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.10.某校对学生课外活动进行调查,结果整理成下表:运用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?【解】其等高条形图如图所示.由图可以直观地看出喜欢体育还是喜欢文娱与性别在某种程度上有关系,但只能作粗略判断,具体判断方法如下:假设“喜欢体育还是喜欢文娱与性别没有关系”,∵a=21,b=23,c=6,d=29,n=79,∴K2的观测值为k=≈8.106.且P(K2≥7.879)≈0.005,即我们得到的K2的观测值k≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.11.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:乙厂:(1)试分别估计两个分厂生产零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K2=【解】(1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为=64%. (2)k=≈7.353>6.635,因此,在犯错误的概率不超过0.01的前提下,即有99%的把握认为“两个分厂生产的零件的质量有差异”.。
§1.2独立性检验的基本思想及其初步应用(导学案)
编写人:谢文审核人:付双全班级姓名
【学习目标】
通过典型案例的探究,了解独立性检验的基本思想,会对两个分类变量进行独立性检验,明确独立性检验的基本步骤,并能利用独立性检验的基本思想来解决实际问题。
【学习过程】
问题的引入:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
患肺癌不患肺癌总计
吸烟49 2099 2148
不吸烟42 7775 7817
总计91 9874 9965
那么吸烟是否对患肺癌有影响?
直观上来判断:
在不吸烟的样本中,有_______%患肺癌;在吸烟的样本中,则有______%
由此,吸烟群体和不吸烟群体患肺癌的可能性存在差异.
但,这种“差异”有多大呢?能够有一个评判的标准呢?我们可以通过以下的统计分析回答这个问题。
独立性检验:
1、把上表中数字用字母代替,得到如下用字母表示的列联表:
吸烟与肺癌列联表
不患肺癌患肺癌总计
吸烟 a b a+b
不吸烟 c d c+d 总计
a+c
b+d
a+b+c+d
2、假设0H :吸烟与患肺癌没有关系
那么吸烟样本中不患肺癌的比例应该与不吸烟样本中不患肺癌的比例差不多,即:
______________________________________________________ 因此:
bc
ad -越小说明吸烟与患肺癌之间的关系______.反之,则_____
3、计算2
K
为了使不同样本变量的数据有统一的评测标准,构造一个随机变量
2K =
_________________________________________________________ 其中_______________=n 为样本容量.
从而,若0H 成立,即“吸烟与患肺癌没有关系”,则2
K 应该_______,
反之,2
K 应该___________。
上题2
K =56.632.这个值到底能告诉我们什么?能从中得到什么结论? 4、查表 P (K2>k0) 0.50 0.40
0.25 0.15 0.10 k0 0.455 0.708
1.323
2.072
2.706
P (K2>k0) 0.05 0.025
0.010 0.005 0.001 k0
3.841 5.024
6.635
7.879
10.828
上题中2K =56.632>10.828,所以
001.0)828.10(2=>K P
该数据表明了在假设0H 成立的情况下,2
K 的值大于10.828的概率非常小,为
0.001,是一个小概率事件。
所以有理由断定假设0H 不成立,即认为“吸烟与患肺癌有关系”,但这种判断会犯错误,犯错误的概率不会超过0.001
例题一、在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶。
利用图形判断秃顶与患心脏病是否有关系。
能否在犯错误的概率不超过0.010的前提下认为秃顶与患心脏病有关系?
解:根据题目所给数据得到如下列联表:
在秃顶样本中患心脏病的频率为_______________,在不秃顶样本中患心脏病的频率为_____________,相应的等高条形图如图所示:
从条形图中可以判断: 假设秃顶与患心脏病没有关系
计算 2
K
说明了:
当堂练习:
1.下面是一个22⨯列联表,则表中b a ,的值分别是 ( ) A. 94,96 B. 52,50 C. 52,54 D. 54,52
2、在独立性检验时计算的2
K 的观测值k =3.99,那么我们有 的把握认为这两个分类变量有关系 ( ) A .90% B .95% C .99% D .以上都不对
3、在一项打鼾与患心脏病的调查中,共调查1768人,经计算的2
K =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_____ 的.(填“有关”“无关”)
4、为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:
喜欢数学课程
不喜欢数学 总 计 男 37 85 122 女 35 143 178 总计 72
228
300
由表中数据计算得到2
K 的观察值 4.513k ≈. 在多大程度上可以认为高中生的性别与是否数学课程之间有关系?为什么?
不健康 健 康 总计 不优秀 a 21 73 优 秀 2 25 27 总 计
b
46
100。