列联表检验
- 格式:ppt
- 大小:973.50 KB
- 文档页数:32
新高考数学复习考点知识讲解列联表与独立性检验1、简单随机抽样得到了X 和Y 的抽样数据列联表2、基于小概率值α的检验规则是:当αχx ≥2时,我们就推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过α当αχx <2时,我们没有充分证据推断0H 不成立,可以认为X 和Y 独立这种利用2χ的取值推断分类变量X 和Y 是否独立的方法称为2χ独立性检验,读作“卡方独立性检验”,简称独立性检验3、应用独立性检验解决实际问题大致应包括以下几个主要环节: (1)提出零假设0H :X 和Y 相互独立,并给出在问题中的解释; (2)根据抽样数据整理出2×2列联表,计算2χ的值,并与临界值αx 比较 (3)根据检验规则得出推断结论(4)在X 和Y 不独立的情况下,根据需要,通过比较相应的频率,分析X 和Y 间的影响规律题型一 变量关系例 1 为了判断两个分类变量X 、Y 是否有关系,应用独立性检验的方法算得2K 的观测值为5,则下列说法中正确的是( ) A .有95%的把握认为“X 和Y 有关系” B .有95%的把握认为“X 和Y 没有关系” C .有99%的把握认为“X 和Y 有关系” D .有99%的把握认为“X 和Y 没有关系” 【答案】A 【分析】利用2K 的观测值与临界值进行比较得解. 【详解】因为2( 3.841)0.050P K =≥,5 3.841>,所以有95%的把握认为“X 和Y 有关系”. 故选:A若由一个22⨯列联表中的数据计算得2 4.013K =,那么有( )把握认为两个变量有关系.知识典例巩固练习()20P K k ≥ 0.500.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.0010k0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828A .95%B .97.5%C .99%D .99.9%【答案】A 【分析】由2 3.841K >可对照临界值表得到结果. 【详解】2 4.013 3.841K =>,∴有()10.05100%95%-⨯=的把握认为两个变量有关系. 故选:A.题型二 列联表例 2 如表是一个2×2列联表:则表中a ,b 的值分别为( )y 1 y 2 合计x 1 a21 73x 2 22 25 47合计 b 46 120A .94,72B .52,50C .52,74D .74,52【答案】C 【分析】根据表中数据简单计算即可. 【详解】a =73-21=52,b =a +22=52+22=74. 故选:C.下面是一个22⨯列联表:1y 2y总计 1x35 a 70 2x15 1530 总计 50b100其中,a b 处填的值分别为_______. 【答案】35,50. 【分析】由列联表易得结果. 【详解】由3570a +=,得35a =,15a b +=,得50b =.巩固练习故答案为:35,50.题型三 独立性检验应用例 3 2016年3月9日至15日,谷歌人工智能系统“阿尔法”迎战围棋冠军李世石,最终结果“阿尔法”以总比分4比1战胜李世石.许多人认为这场比赛是人类智慧的胜利,也有许多人持反对意见,有网友为此在某大学进行了调查,参加调查的共80位学生,调查数据的22⨯列联表如下所示: 持反对意见 赟同 总计男40 女 5总计2580(1)①请将列联表补充完整;②请根据表中数据判断,能否有的99.9%把握认为是否持反对意见与性别有关; (2)若表中持反对意见的5个女学生中,3个是大三学生,2个是大四学生.现从这5个学生中随机选2个学生进行进一步调查,求这2个学生是同一年级的概率.附参考公式及数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.()20P K k ≥ 0.40 0.25 0.10 0.010 0.005 0.001 0k7.879 1.3232.7066.6357.87910.828【答案】(1)①列联表见解析,②有99.9%的把握认为是否持反对意见与性别有关;(2)25.【分析】()1①由已知数据得出列联表;②由题可知,计算2K 的观测值013.09110.828k ≈>,可得出结论;()2记3个大三学生分别为,123,,,2A A A 个大四学生分别为12,B B 、运用列举法列出所有事件,由古典概率公式可得答案. 【详解】()1①②由题可知,2K 的观测值2080203552013.09110.828404055(25)k ⨯-⨯=≈>⨯⨯⨯所以有99.9%的把握认为是否持反对意见与性别有关.()2记3个大三学生分别为,123,,,2A A A 个大四学生分别为12,B B 、则从中抽取2个的基本事件有:1213231213112223212,,,,,,,,,A A A A A A AB A B A B A B A B A B B B ,共10个,其中抽取的2人是同一年级的基本事件有12132312,,,A A A A A A B B 共4个, 则这2个学生是同一年级的概率为42105P ==.这一年来人类与新型冠状病毒的“战争”让人们逐渐明白一个道理,人类社会组织模式的差异只是小事情,病毒在地球上存在了三四十亿年,而人类的文明史不过只有几千年而已,人类无法消灭病毒,只能与之共存,或者病毒自然消亡,在病毒面前,个体自由要服从于集体或者群体生命的价值.在传染病学中,通常把从致病刺激物侵入机体内或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期,因此我们应该注意做好良好的防护措施和隔离措施.某研究团队统计了某地区10000名患者的相关信息,得到如表表格: 潜伏期(天)(]0,2(]2,4(]4,6(]6,8(]8,10 (]10,12 (]12,14人数6001900300025001600250150(1)新冠肺炎的潜伏期受诸多因素的影响,为研究潜伏期与年龄的关系,通过分层抽样从10000名患者中抽取200人进行研究,完成下面的2×2列联表,并判断能否在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关?潜伏期8≤天潜伏期8>天总计 60岁以上(含60岁)150 60岁以下 30 总计200(2)依据上述数据,将频率作为概率,且每名患者的潜伏期是否超过8天相互独立.为了深入研究,该团队在这一地区抽取了20名患者,其中潜伏期不超过8天的人数最有巩固练习可能是多少?附:()()()()()22n ad bcKa b c d a c b d-=++++.【答案】(1)表格见解析,能;(2)16名.【分析】(1)由表中数据可知,求得潜伏期大于8天的人数,列出2×2列联表,利用公式求得2K的值,结合附表,即可得到结论;(2)求得该地区10000名患者中潜伏期不超过8天的人数,求得潜伏期不超过8天的概率,进而抽取的20名患者中潜伏期不超过8天的人数.【详解】(1)由表中数据可知,潜伏期大于8天的人数为16002501502004010000++⨯=人,补充完整的2×2列联表如下,所以()2220013*********.66710.8281505016040K ⨯⨯-⨯=≈>⨯⨯⨯, 故能在犯错误的概率不超过0.001的前提下认为潜伏期与患者年龄有关.(2)该地区10000名患者中潜伏期不超过8天的人数为6001900300025008000+++=名,将频率视为概率,潜伏期不超过8天的概率为80004100005=, 所以抽取的20名患者中潜伏期不超过8天的人数最有可能是420165⨯=名.1、为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算得x 2=7.01,则认为“喜欢乡村音乐与性别有关系”的把握约为( )A .0.1%B .1%C .99%D .99.9%【答案】C 【分析】由x 2=7.01>6.635,对照临界值表求解即可.巩固提升【详解】易知x2=7.01>6.635,对照临界值表知,有99%的把握认为喜欢乡村音乐与性别有关系.故选:C2、某班主任对全班50名学生进行了作业量的评价调查,所得数据如表所示:则认为作业量的大小与学生的性别有关的犯错误的概率不超过()A.0.01 B.0.05C.0.10 D.无充分证据【答案】B【分析】计算2K,再进行判断.【详解】因为2250(181598)5.059 3.84127232624K⨯⨯-⨯=≈>⨯⨯⨯,又()2 3.8410.05P K≥=所以认为作业量的大小与学生的性别有关的犯错误的概率不超过0.05. 故选:B3、(多选)有关独立性检验的四个命题,其中正确的是()A.两个变量的2×2列联表中,对角线上数据的乘积相差越大,说明两个变量有关系成立的可能性就越大B.对分类变量X与Y的随机变量2K的观测值k来说,k越小,“X与Y有关系”的可信程度越小C.从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,我们说某人秃顶,那么他有95%的可能患有心脏病D.从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关【答案】ABD【分析】根据独立性检验的原理与知识,对选项中的命题判断正误即可.【详解】选项A,两个变量的2×2列联表中,对角线上数据的乘积相差越大,则2K观测值越大,两个变量有关系的可能性越大,所以选项A正确;选项B,根据2K的观测值k越小,原假设“X与Y没关系”成立的可能性越大,则“X与Y有关系”的可信度越小,所以选项B正确;选项C,从独立性检验可知:有95%的把握认为秃顶与患心脏病有关,不表示某人秃顶他有95%的可能患有心脏病,所以选项C不正确;选项D,从独立性检验可知:有99%的把握认为吸烟与患肺癌有关,是指在犯错误的概率不超过1%的前提下认为吸烟与患肺癌有关,是独立性检验的解释,所以选项D正确.故选:ABD.4、为了判断某高中学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (x 2≥3.841)≈0.05,P (x 2≥6.635)≈0.01.根据表中数据,得到x 2=250(1320107)23272030⨯⨯-⨯⨯⨯⨯≈4.844,则认为选修文科与性别有关系出错的概率约为________.【答案】0.05 【分析】直接根据表中数据计算的x 2值与P (x 2≥3.841)≈0.05比较判断,即得结果. 【详解】因为x 2≈4.844>3.841,而P (x 2≥3.841)≈0.05,故认为选修文科与性别有关系出错的概率约为0.05. 故答案为:0.05.5、调查者通过询问72名男、女大学生在购买食品时是否看营养说明得到的数据如下表所示:大学生的性别和是否看营养说明之间___(填“有”或“没有”)关系.【答案】有【分析】由表中的数据直接计算卡方,从而可得结论【详解】解:因为22722820168)=8.4167.879 44283636χ⨯⨯-⨯≈>⨯⨯⨯(,所以有的把握认为大学生性别与购买食品时是否看营养说明之间有关,故答案为:有6、某高校《统计》课程的教师随机调查了选该课的一些学生情况,具体数据如下表: 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到k=2 50(1320-107) 23272030⨯⨯⨯⨯⨯⨯=4.844>3.841,所以有_____的把握判定主修统计专业与性别有关系.附:【答案】95%【分析】根据独立性检验的基本思想,因为2K的观测值k=4.844>3.841,参考临界值表即可得出【详解】根据表格数据得2K的观测值k=250(1320-107)23272030⨯⨯⨯⨯⨯⨯≈4.844 3.841>,所以有95%的把握判定主修统计专业与性别有关系.故答案为:95%.7、某学生对其30名亲属的饮食习惯进行了一次调查,依据统计所得数据可得到如下的22⨯列联表:根据以上列联表中的数据,可得2K 的观测值k =__________,__________(填“有”或“没有”)99%的把握认为其亲属的饮食习惯与年龄有关.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【答案】10 有 【分析】根据列联表,求得a b c d ,,,的值,利用公式,求得2K 的值,结合附表,即可得到结论. 【详解】由列联表可得20a =,10b =,12c =,4d =,可得2230(8128)10 6.63512182010K ⨯-==>⨯⨯⨯, 所以有99%的把握认为其亲属的饮食习惯与年龄有关. 故答案为:10;有.8、2017年3月27日,一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.游泳作为一项重要的求生技能和运动项目受到很多人的喜爱.其实,已有不少高校将游泳列为必修内容.某中学为了解2018届高三学生的性别和喜爱游泳是否有关,对100名高三学生进行了问卷调查,得到如下列联表:已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为35.(1)请将上述列联表补充完整;(2)判断是否有99.9%的把握认为喜欢游泳与性别有关.附:x2=2()()()()()n ad bca b c d a c b d-++++【答案】(1)表格见解析;(2)有. 【分析】(1)根据概率补全列联表即可;(2)计算2x,再进行判断即可.【详解】(1)因为在100人中随机抽取1人抽到喜欢游泳的学生的概率为3 5所以喜欢游泳的学生人数为3 100605⨯=.其中女生有20人,男生有40人,列联表补充如下:(2)因为22100(40302010)16.6710.82860405050x⨯⨯-⨯=≈>⨯⨯⨯所以有99.9%的把握认为喜欢游泳与性别有关.9、某班主任对全班50名学生的学习积极性和对待班级工作的态度进行了调查,得出以下22⨯列联表:如果随机抽查该班的一名学生,那么抽到积极参加班级工作的学生的概率是12 25.(1)求a,b,c,d的值.(2)试运用独立性检验的思想方法分析:能否有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系?并说明理由.参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:【答案】(1)6a =,19b =,24c =,26d =;(2)有. 【分析】(1)由抽到积极参加班级工作的学生的概率是1225,可求出c 的值,然后根据表中的数据可求出,,a b d 的值;(2)直接利用22()()()()()n ad bc K a b c d a c b d -=++++公式求解,然后根临界值表判断即可【详解】解:(1)积极参加班级工作的学生有c 人,总人数为50, 由抽到积极参加班级工作的学生的概率1125025c P ==, 解得24c =,所以6a =.所以2525619b a =-=-=,50502426d c =-=-=.(2)由列联表知,2250(181967)11.53825252426K ⨯⨯-⨯=≈⨯⨯⨯, 由11.53810.828>,可得有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系.。
列联表和卡方检验的定义及应用概述在统计学中,列联表和卡方检验是重要的分析工具。
列联表是用于比较两个或多个变量之间关系的一种表格形式,而卡方检验则是用于检验这些变量之间是否存在显著的关联性。
本文将介绍列联表和卡方检验的定义、原理和应用。
一、列联表1.1 定义列联表是一种展示两个或多个变量之间关系的二元频数表,用于比较不同组别之间的差异。
它通常由两个或多个分类变量和个体数(或频数)组成。
例如,我们可以用一个列联表来比较男女学生在一个考试中的得分情况,或者比较不同疾病在不同年龄段中的发生情况。
1.2 列联表的应用列联表可以用于研究任何两个或多个变量之间的关系。
它可以帮助我们发现隐藏在数据中的模式,并在研究中提供有关变量之间关系的信息。
列联表还可以用于产生一些其他的统计工具,例如卡方检验和残差分析等。
二、卡方检验2.1 定义卡方检验是一种用于分析列联表数据的统计方法。
它基于一个假设:假设两个变量之间不存在显著的关联性。
如果列联表数据显示这种关联性可能存在,则拒绝这个假设,说明两个变量之间存在显著的关联性。
2.2 卡方检验的原理卡方检验的原理很简单。
它比较观测值和期望值之间的差异,其中期望值是假设两个变量之间不存在关系时的期望结果。
卡方值则是这些差异之和的平方除以期望值的总和,其值越大就意味着观测值与期望值之间的差异越大,显著性水平也越高。
2.3 卡方检验的步骤卡方检验可以分为三个主要步骤。
第一,建立研究假设。
我们需要制定研究假设:H0假设两个变量之间不存在关系,H1假设两个变量之间存在关系。
如果我们无法拒绝H0假设,则可以认为数据中不存在两个变量之间的显著关联性。
第二,计算卡方值。
我们需要计算出卡方值。
从列联表中计算每个单元格的观测值和期望值,然后计算出所有单元格观测值和期望值之间的差异。
将这些差异加起来,并用期望值的总和除以卡方值。
如果卡方值越大,则差异越大,两个变量之间的关系也越显著。
通常,我们需要将卡方值与指定的显著性水平进行比较。
4x4列联表卡方检验步骤概述及解释说明1. 引言1.1 概述本篇文章旨在介绍和解释4x4列联表卡方检验步骤。
通过对列联表和卡方检验原理的简要概述,我们将详细探讨如何进行4x4列联表卡方检验,并解释各个步骤的含义与目的。
1.2 文章结构本文将按照以下顺序来展开对4x4列联表卡方检验步骤的概述及解释说明:- 引言部分将提供整篇文章的概览,并阐明本文的目的。
- 第2部分将介绍列联表的基本概念,使读者了解什么是列联表及其在数据分析中的应用。
- 接下来,第3部分将对卡方检验原理进行简要介绍,帮助读者理解该统计方法背后的原理及意义。
- 第4部分将详细解释进行4x4列联表卡方检验所需的步骤,包括计算和推导过程。
- 在随后的三个部分(第5部分、第6部分和第7部分),我们将重点介绍该主题下涉及到的三个重要要点,并给出相关子要点以支持我们对这些要点的深入讨论。
- 最后,在结论部分,我们将对前文进行总结,并提供对于4x4列联表卡方检验步骤的应用价值以及未来研究方向的一些观点和建议。
1.3 目的本文的目的是介绍和解释4x4列联表卡方检验步骤。
通过对该统计方法背后的原理、计算过程以及相关要点和子要点的详细阐述,读者将能够全面了解并掌握如何进行4x4列联表卡方检验。
此外,本文还旨在提供给读者一个应用场景下实施该统计方法的指南,并挖掘其在实际数据分析中可能存在的局限性。
希望本文能为读者提供有益而全面的知识,并促进对于该领域的深入研究与讨论。
2. 4x4列联表卡方检验步骤概述及解释说明:2.1 列联表介绍:列联表是一种用于比较两个变量之间关系的交叉分析方法。
它将两个分类变量交叉组合形成一个二维表格,并显示出各个分类变量之间的关系。
在4x4列联表中,有四行和四列,每个单元格表示了两个分类变量之间的交叉频数。
2.2 卡方检验原理简介:卡方检验是一种统计方法,用于确定观察到的频数与期望频数之间是否存在显著差异。
通过比较实际观察到的频数和预期的频数,来判断两个分类变量是否存在相关性。