1.2。2独立性检验的基本思想及其初步应用(1)ppt
- 格式:ppt
- 大小:1.03 MB
- 文档页数:20
§3.2独立性检验的基本思想及其初步应用学习目标 1.了解独立性检验的基本思想、方法及其简单应用.2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤(重、难点).知识点1两个分类变量之间关联关系的定性分析1.分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.这里的“变量”和“值”都应作为“广义”的变量和值进行理解,它们取的不一定是具体的数值.2.列联表列出的两个分类变量的频数表,称为列联表.假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+d3.两个分类变量之间关联关系的定性分析的方法(1)频率分析法:通过对样本的每个分类变量的不同类别事件发生的频率大小进行比较来分析分类变量之间是否有关联关系.通常通过列联表列出两个分类变量的频数表来进行分析.(2)图形分析法:与表格相比,图形更能直观地反映出两个分类变量间是否互相影响,常用等高条形图展示列联表数据的频率特征.【预习评价】(1)下面是一个2×2列联表:y1y2总计x1 a 2173x282533总计 b 46则表中a,b处的值分别为()A.94,96B.52,50C.52,60D.54,52(2)根据如图所示的等高条形图可知吸烟与患肺病关系(填“有”或“没有”).知识点2独立性检验1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(2)利用公式计算随机变量K2的观测值k.(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【预习评价】(1)在吸烟与患肺病这两个分类变量是否相关的判断中,下列说法中正确的是()①若K2的观测值k>6.635,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知在在犯错误的概率不超过0.01前提下,认为吸烟与患肺病有关系时,我们说若某人吸烟,则他有99%的可能患有肺病;③从统计量中得知在犯错误的概率不超过0.05的前提下认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误.A.①B.①③C.③D.②(2)某班主任对全班50名学生进行了作业量的调查,数据如下表:认为作业量大认为作业量不大总计男生18927女生81523总计262450则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过()A.0.01B.0.005C.0.025D.0.001题型一利用等高条形图判断两个分类变量是否有关系【例1】为考察某种药物预防疾病的效果进行动物试验,得到如下列联表:患病未患病总计服用药104555未服用药203050总计3075105试用等高条形图分析服用药和患病之间是否有关系.规律方法(1)本题采用数形结合法通过条形图直观地看出差异,得出结论. (2)应用等高条形图判断两变量是否相关的方法在等高条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占的比例aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例cc+d.“两个比例的值相差越大,H1成立的可能性就越大.”【训练1】网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?方向1 有关“相关的检验”【例2-1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?方向2有关“无关的检验”【例2-2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关?规律方法(1)独立性检验的关注点在2×2列联表中,如果两个分类变量没有关系,则应满足ad-bc≈0,因此|ad -bc|越小,关系越弱;|ad-bc|越大,关系越强.(2)独立性检验的具体做法①根据实际问题的需要确定允许推断“两个分类变量有关系”犯错误的概率的上界α,然后查表确定临界值k0.②利用公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算随机变量K2的观测值k.③如果k>k0,推断“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.【训练2】打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据:根据独立性检验,能否在犯错误的概率不超过0.001的前提下认为每一晚都打鼾与患心脏病有关系?题型三独立性检验的综合应用【例3】某高校共有学生15 000人,其中男生10 500人,女生4 500人.为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间(单位:时)的样本数据.(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图),其中样本数据的分组区间为[0,2],(2,4],(4,6],(6,8],(8,10],(10,12].估计该校学生每周平均体育运动时间超过4小时的概率.(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否认为“该校学生的每周平均体育运动时间与性别有关”.附:P(K2≥k0)0.1000.0500.0100.005k0 2.706 3.841 6.6357.879K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).规律方法(1)解答此类题目的关键在于正确利用K2=n(ad-bc)2计算k的值,再用它与临界值k0的大小作比(a+b)(c+d)(a+c)(b+d)较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【训练3】某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中,物理、化学、总分成绩优秀的人数如下表所示,能否在犯错误的概率不超过0.001的前提下认为数学成绩优秀与物理、化学、总分成绩优秀有关系?物理优秀化学优秀总分优秀数学优秀228225267数学非优秀14315699注:该年级在此次考试中数学成绩优秀的有360人,非优秀的有880人.课堂达标1.观察下列各图,其中两个分类变量x,y之间关系最强的是()2.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜 偏爱肉类 总计50岁以下 4 8 12 50岁以上 16 2 18 总计201030则可以说其亲属的饮食习惯与年龄有关的把握为( ) A.90%B.95%C.99%D.99.9%3.为了判断高中学生的文理科选修是否与性别有关系,随机调查了50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.可认为选修文理科与性别有关系的可能性不低于 . 4.根据下表计算:不看电视 看电视 男 37 85 女35143K 2的观测值k ≈ (保留3位小数).5.在109个人身上试验某种药物预防感冒的作用,得到如下列联表:感冒 未感冒 总计 服用药1146 57 未服用药 213152总计3277109则有多大把握认为该药有效?课堂小结1.列联表与等高条形图列联表由两个分类变量之间频率大小差异说明这两个变量之间是否有关联关系,而利用等高条形图能形象直观地反映它们之间的差异,进而推断它们之间是否具有关联关系.2.对独立性检验思想的理解独立性检验的基本思想类似于数学中的反证法.先假设“两个分类变量没有关系”成立,计算随机变量K2的值,如果K2值很大,说明假设不合理.K2越大,两个分类变量有关系的可能性越大.基础过关1.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0B.1C.2D.32.高二第二学期期中考试,按照甲、乙两个班学生的数学成绩优秀和及格统计人数后,得到如下列联表:优秀及格总计甲班113445乙班83745总计197190则随机变量K2的观测值约为()A.0.600B.0.828C.2.712D.6.0043.考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的4.2013年6月11日,中国的“神舟十号”发射成功,由此许多人认为中国进入了航天强国之列,也有许多人持反对意见,为此进行了调查.在参加调查的3 648名男性公民与3 432名女性公民中,持反对意见的男性有1 843人、女性有1 672人,在运用这些数据说明中国“神十”发射成功是否与中国进入航天强国有关系时,用下列最具说服力.①回归直线方程;②平均数与方差;③独立性检验.5.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K2的观测值k≈9.643,根据临界值表,以下说法正确的是(填序号).①没有充足的理由认为课外阅读量大与作文成绩优秀有关;②有0.5%的把握认为课外阅读量大与作文成绩优秀有关;③有99.9%的把握认为课外阅读量大与作文成绩优秀有关;④有99.5%的把握认为课外阅读量大与作文成绩优秀有关.6.在研究某种药物对“H1N1”病毒的治疗效果时,进行动物试验,得到以下数据,对150只动物服用药物,其中132只动物存活,18只动物死亡,对照组150只动物进行常规治疗,其中114只动物存活,36只动物死亡.(1)根据以上数据建立一个2×2列联表;(2)试问该种药物对治疗“H1N1”病毒是否有效?7.在一次恶劣天气的飞行航程中调查男女乘客在飞机上晕机的情况如下表所示,根据此资料是否能在犯错误的概率不超过0.05的前提下认为在恶劣天气飞行中男人比女人更容易晕机?能力提升8.利用独立性检验来考察两个分类变量X和Y是否有关系时,通过查阅下表来确定“X与Y有关系”的可信程度.如果K2≥5.024,那么就有把握认为“X与Y有关系”的百分比为()A.25%B.75%C.2.5%D.97.5%9.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2表3表4A.成绩B.视力C.智商D.阅读量10.下表是关于男婴与女婴出生时间调查的列联表:那么,A=,B=,C=,D=,E=.11.在研究性别与吃零食这两个分类变量是否有关系时,下列说法中正确的是(填序号).①若K2的观测值k=6.635,则我们在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;②由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,如果某人吃零食,那么此人是女性的可能性为99%;③由独立性检验可知在犯错误的概率不超过0.01的前提下认为吃零食与性别有关系时,是指每进行100次这样的推断,平均有1次推断错误.12.随着生活水平的提高,人们的休闲方式也发生了变化.某机构随机调查了n 个人,其中男性占调查人数的25.已知男性中有一半的人的休闲方式是运动,而女性中只有13的人的休闲方式是运动. (1)完成下列2×2列联表:(2)若在犯错误的概率不超过0.05的前提下,可认为“性别与休闲方式有关”,那么本次被调查的人数至少有多少?(3)根据(2)的结论,本次被调查的人中,至少有多少人的休闲方式是运动? 13.(选做题)某学校为了解该校高三年级学生在市一练考试的数学成绩情况,随机从该校高三文科与理科各抽取50名学生的数学成绩,作出频率分布直方图如图,规定考试成绩在[120,150]内为优秀.(1)由以上频率分布直方图填写下列2×2列联表.若按是否优秀来判断,是否有99%的把握认为该校的文理科数学成绩有差异.文科理科总计优秀非优秀总计5050100(2)某高校派出2名教授对该校随机抽取的学生成绩中一练数学成绩在140分以上的学生进行自主招生面试,每位教授至少面试一人,每位学生只能被一位教授面试.若甲教授面试的学生人数为ξ,求ξ的分布列和均值.。
独立性检验的基本思想及其初步应用》生更加直观地理解两个分类变量之间的关系。
问题2:根据三维柱形图和二维条形图,你能否看出吸烟者和不吸烟者患肺癌的比例有何不同?二、独立性检验的基本思想1、独立性检验的基本思想:独立性检验是用来检验两个分类变量是否有关系的一种统计方法。
如果两个分类变量是独立的,那么它们之间是没有关系的;如果两个分类变量不独立,则它们之间是有关系的。
2、独立性检验的步骤:1)列出列联表;2)计算期望频数;3)计算卡方值;4)查表得出显著性水平;5)判断两个分类变量是否有关系。
三、K2检验的计算公式1、K2检验的计算公式:K2=∑(Oi-Ei)²/Ei其中,Oi为观察频数,Ei为期望频数。
2、K2检验的含义:K2检验的值越大,观察频数与期望频数的差距越大,两个分类变量之间的关系就越显著。
四、独立性检验的应用举例1、应用举例:1)医学研究:调查吸烟是否对患肺癌有影响;2)社会调查:调查男女是否对某一品牌的喜好程度有影响;3)市场调查:调查年龄与消费金额是否有关系。
2、独立性检验的应用:通过独立性检验,可以判断两个分类变量是否有关系,从而为我们提供科学的依据,进行合理的决策。
教学反思:本节课通过生动的例子和图表,引入了独立性检验的基本概念和思想。
通过对K2检验公式的介绍,让学生了解了如何计算卡方值。
同时,通过应用举例,让学生了解了独立性检验的实际应用。
在教学过程中,教师注重启发学生的思维,让学生在合作探究中主动掌握知识,达到了预期的教学目标。
练1、在某医院,665名男性病人中,214人秃顶,而在772名非心脏病男性病人中,175人秃顶。
能否以99%的置信度认为“秃顶与患心脏病”有关系?思考1、为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别。
是否需要志愿者需要。
不需要男性。
30.170女性。
373.271)估计该地区老年人中需要志愿者提供帮助的比例;2)能否以99%的置信度认为该地区的老年人是否需要志愿者提供帮助与性别有关系?思考2、某研究小组为了研究中学生的身体发育情况,在某学校随机抽出20名15至16周岁的男生,将他们的身高和体重制成2×2列联表,根据列联表的数据,能否以95%的置信度认为该学校15至16周岁的男生的身高和体重之间有关系?课后作业:课本第18页第1题和第2题。