专题3.4+二联表与独立性检验-高考数学备考之百强校大题狂练
- 格式:pdf
- 大小:418.00 KB
- 文档页数:12
第47讲数据分析——列联表与独立性检验附表:,其中n=a+b+c+d.参考公式:χ2=(a+b)(c+d)(a+c)(b+d)A组夯基精练一、单项选择题(选对方法,事半功倍)1. 下表是2×2列联表,则表中a,b的值分别为()C. 27,37D. 28,372. 某中学调查了高一年级学生的选科倾向,随机抽取300人,其中选考物理的有220人,选考历史的有80人,统计各选科人数如下表,则下列说法正确的是()B. 物理类的学生中选择地理的比例比历史类的学生中选择地理的比例高C. 根据小概率值α=0.1的独立性检验,认为选择生物与选考类别无关D. 根据小概率值α=0.1的独立性检验,认为选择生物与选考类别有关3. (2022·烟台模拟)某校为了研究“学生的性别”与“对待某一活动的态度”是否有关,运用2×2列联表进行独立性检验,经计算χ2=7.069,则认为“学生性别与支持某项活动有关系”的犯错误的概率不超过()A. 0.1%B. 1%C. 99%D. 99.9%4. 某校团委对“学生性别和喜欢某款软件是否有关”作了一次调查,其中被调查的男、女生人数相同,男生喜欢某款软件的人数占男生人数的45,女生喜欢某款软件的人数占女生人数的35,若有95%的把握(但没有99%的把握)认为是否喜欢某款软件和性别有关,则调查的学生中男生可能有()A. 20人B. 40人C. 60人D. 80人二、多项选择题(练—逐项认证,考—选确定的)5. 晚上睡眠充足是提高学习效率的必要条件,某市甲高中的高三年级学生晚上10点10分必须休息,另一所同类乙高中的高三年级学生晚上11点休息,并鼓励学生还可以继续进行夜自习,稍晚再休息.有关人员分别对这两所高中的高三年级学习总成绩前50名学生的学习效率进行问卷调查,其中甲高中有30名学生的学习效率高,且从这100名学生中随机抽取1人,抽到学习效率高的学生的概率是0.4,则()A. 甲高中的前50名学生中有60%的学生学习效率高B. 乙高中的前50名学生中有40%的学生学习效率高C. 有99.9%的把握认为“学生学习效率高低与晚上睡眠是否充足有关”D. 认为“学生学习效率高低与晚上睡眠是否充足有关”的犯错误的概率超过0.056. 为了增强学生的身体素质,提高适应自然环境、克服困难的能力,某校在课外活动中新增了一项登山活动,并对“学生喜欢登山和性别是否有关”做了一次调查,其中被调查的男、女生人数相同,得到如图所示的等高堆积条形图,则下列说法中正确的有()(第6题)A. 被调查的学生中喜欢登山的男生人数比喜欢登山的女生人数多B. 被调查的女生中喜欢登山的人数比不喜欢登山的人数多C. 若被调查的男、女生均为100人,则有99%的把握认为喜欢登山和性别有关D. 无论被调查的男、女生人数为多少,都有99%的把握认为喜欢登山和性别有关三、填空题(精准计算,整洁表达)7. 为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.得到的结论是__________________.8. (2022·青岛模拟)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.9. 在某病毒疫苗研发过程中,需要利用基因编辑小鼠进行动物试验.现随机抽取100只基因编辑小鼠对某病毒疫苗进行试验,得到如下2×2列联表(部分数据缺失):表中a的值为________;计算可知,在犯错误的概率最多不超过________的前提下,可认为“给基因编辑小鼠注射该种疫苗能起到预防某病毒感染的效果”.四、解答题(让规范成为一种习惯)10. 某企业销售部门为了解员工的销售能力,设计了关于销售的问卷调查表,从该部门现有员工中按性别(男生占45%)分层随机抽取n名进行问卷调查,得分分为1,2,3,4,5五个档次,各档次中参与问卷调查的员工的人数如条形图所示,已知第5档员工的人数占总人数的1 5.(第10题)(1) ①求n与a的值;②若将某员工得分所在的档次作为该员工的销售能力基数(记销售能力基数x0=5为能力基数高,其他均为能力基数不高).在销售能力基数为5的员工中,女生与男生的比例为7∶3,以抽取的n名员工为研究对象,完成下面的2×2列联表,并依据小概率值α=0.1的独立性检验,判断销售能力基数高低与性别是否有关联.每位员工的营销能力指数y与销售能力基数x0以及参加培训的次数t满足函数关系式y=x0+(1+x0)(1+e t15).如果员工甲的销售能力基数为4,员工乙的销售能力基数为2,则在甲不参加培训的情况下,乙至少需要参加多少次培训,其营销能力指数才能超过甲?参考数据:ln 3≈1.099.11. (2022·济南期末)某机构为了解市民对交通的满意度,随机抽取了100位市民进行调查,调查结果如下:回答“满意”的人数占总人数的一半,在回答“满意”的人中,“上班族”的人数是“非上班族”人数的37;在回答“不满意”的人中,“非上班族”占15.(1) 请根据以上数据填写下面2×2列联表,并依据小概率值α=0.001的独立性检验,分析能否认为市民对于交通的满意度与是否为上班族有关联.调查.规定:抽样的次数不超过n (n ∈N *),若随机抽取的市民属于不满意群体,则抽样结束;若随机抽取的市民属于满意群体,则继续抽样,直到抽到不满意市民或抽样次数达到n 时,抽样结束.记抽样的总次数为随机变量X n .①若n =5,写出X 5的分布列和数学期望;②请写出X n 的数学期望的表达式(不需证明),根据你的理解说明X n 的数学期望的实际意义.B 组 滚动小练12. (2023·益阳调研)(多选)已知双曲线C :x 2a 2-y 216=1(a >0)的离心率为5,则( )A. C 的右顶点坐标为(2,0)B. C 的焦距为45C. C的渐近线方程为y=±2xD. 直线y=3x与C有两个交点13. (2023·扬州宝应期初)已知函数f(x)=x3-32(k+1)x2+3kx+1,其中k∈R.(1) 当k=3时,求函数f(x)在(0,3)内的极值点;(2) 若函数f(x)在[1,2]上的最小值为3,求实数k的取值范围.。
本文档仅供文库使用。
百度文库是百度发布的供网友在线分享文档的平台。
百度文库的文档由百度用户上传,需要经过百度的审核才能发布,百度自身不编辑或修改用户上传的文档内容。
网友可以在线阅读和下载这些文档。
百度文库的文档包括教学资料、考试题库、专业资料、公文写作、法律文件等多个领域的资料。
百度用户上传文档可以得到一定的积分,下载有标价的文档则需要消耗积分。
当前平台支持主流的doc(.docx)、.ppt(.pptx)、.xls(.xlsx)、.pot、.pps、.vsd、.rtf、.wps、.et、.dps、.pdf、.txt文件格式。
回归分析及独立性检验一、选择题(本大题共12小题,共60分)1. 设某中学的高中女生体重单位:与身高单位:具有线性相关关系,根据一组样本数据2,3,,,用最小二乘法近似得到回归直线方程为,则下列结论中不正确的是A. y与x具有正线性相关关系B. 回归直线过样本的中心点C. 若该中学某高中女生身高增加1cm,则其体重约增加D. 若该中学某高中女生身高为160cm,则可断定其体重必为(正确答案)D【分析】本题考查了回归分析与线性回归方程的应用问题,是基础题目根据回归分析与线性回归方程的意义,对选项中的命题进行分析、判断正误即可.【解答】解:由于线性回归方程中x的系数为,因此y与x具有正的线性相关关系,A正确;由线性回归方程必过样本中心点,因此B正确;由线性回归方程中系数的意义知,x每增加1cm,其体重约增加,C正确;当某女生的身高为160cm时,其体重估计值是,而不是具体值,因此D错误.故选:D.2. 为了研究某班学生的脚长单位:厘米和身高单位:厘米的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系,设其回归直线方程为,已知,,,该班某学生的脚长为24,据此估计其身高为A. 160B. 163C. 166D. 170(正确答案)C解:由线性回归方程为,则,,则数据的样本中心点,由回归直线方程样本中心点,则,回归直线方程为,当时,,则估计其身高为166,故选C.由数据求得样本中心点,由回归直线方程必过样本中心点,代入即可求得,将代入回归直线方程即可估计其身高.本题考查回归直线方程的求法及回归直线方程的应用,考查计算能力,属于基础题.3. 为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:万元万元据上表得回归直线方程,其中,,据此估计,该社区一户收入为15万元家庭年支出为A. 万元B. 万元C. 万元D. 万元(正确答案)B解:由题意可得,,代入回归方程可得,回归方程为,把代入方程可得,故选:B.由题意可得和,可得回归方程,把代入方程求得y值即可.本题考查线性回归方程,涉及平均值的计算,属基础题.4. 下列说法错误的是A. 回归直线过样本点的中心B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 在回归直线方程中,当解释变量x每增加1个单位时,预报变量平均增加个单位D. 对分类变量X与Y,随机变量的观测值k越大,则判断“X与Y有关系”的把握程度越小(正确答案)D解:回归直线过样本点的中心,正确;B.两个随机变量相关性越强,则相关系数的绝对值越接近1,因此正确;C.在线性回归方程中,当x每增加1个单位时,预报量平均增加个单位,正确;D.对分类变量X与Y的随机变量的观测值k来说,k越大,“X与Y有关系”可信程度越大,因此不正确.综上可知:只有D不正确.故选:D.利用线性回归的有关知识即可判断出.本题考查了线性回归的有关知识,考查了推理能力,属于基础题.5. 某产品的广告费用x与销售额y的统计数据如下表:广告费用万元销售额万元根据上表可得回归方程中的b为,据此模型预报广告费用为6万元时销售额为A. 万元B. 万元C. 万元D. 万元(正确答案)A解:,,数据的样本中心点在线性回归直线上,回归方程中的b为,,,线性回归方程是,广告费用为6万元时销售额为,故选A.首先求出所给数据的平均数,得到样本中心点,根据线性回归直线过样本中心点,求出方程中的一个系数,得到线性回归方程,把自变量为6代入,预报出结果.本题考查线性回归方程的求法和应用,是一个基础题,本题解答关键是利用线性回归直线必定经过样本中心点.6. 观察下面频率等高条形图,其中两个分类变量x,y之间关系最强的是A. B.C. D.(正确答案)D解:在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,四个选项中,即等高的条形图中,所占比例相差越大,则分类变量x,y关系越强,故选D.在频率等高条形图中,与相差很大时,我们认为两个分类变量有关系,即可得出结论.本题考查独立性检验内容,使用频率等高条形图,可以粗略的判断两个分类变量是否有关系,但是这种判断无法精确的给出所的结论的可靠程度.7.零售价瓶销量瓶已知x,y的关系符合线性回归方程,其中,当单价为元时,估计该小卖部销售这种品牌饮料的销量为A. 20B. 22C. 24D. 26(正确答案)D解:;,,回归直线方程为:,当时,,故选:D.利用平均数公式计算平均数,,利用求出a,即可得到回归直线方程,把代入回归方程求出y值.本题考查回归方程的求法,考查学生的计算能力,运算要细心.8. 为考察A、B两种药物预防某疾病的效果,进行动物试验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法最佳的一项是A. 药物A、B对该疾病均没有预防效果B. 药物A、B对该疾病均有显著的预防效果C. 药物A的预防效果优于药物B的预防效果D. 药物B的预防效果优于药物A的预防效果(正确答案)C解:根据两个表中的等高条形图知,药物A实验显示不服药与服药时患病的差异较药物B实验显示明显大,药物A的预防效果优于药物B的预防效果.故选:C.根据两个表中的等高条形图看药物A的预防效果优于药物B的预防效果.本题考查了等高条形图的应用问题,是基础题.9. 下列说法错误的是A. 回归直线过样本点的中心B. 两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C. 对分类变量X与Y,随机变量的观测值越大,则判断“X与Y有关系”的把握程度越小D. 在回归直线方程中,当解释变量x每增加1个单位时预报变量平均增加个单位(正确答案)C解:回归直线过样本点的中心,正确;B.两个随机变量相关性越强,则相关系数的绝对值越接近1,因此正确;C.对分类变量X与Y的随机变量的观测值k来说,k越大,“X与Y有关系”可信程度越大,因此不正确;D.在线性回归方程中,当x每增加1个单位时,预报量平均增加个单位,正确.综上可知:只有C不正确.故选:C.利用线性回归的有关知识即可判断出.本题考查了线性回归的有关知识,考查了推理能力,属于中档题.10. 在利用最小二乘法求回归方程时,用到了如表中的5组数据,则表格a中的值为A. 68B. 70C. 75D. 72(正确答案)A解:由题意可得,,因为回归直线方程,过样本点的中心点,所以,解得故选A.由题意回归直线方程,过样本点的中心点,即可得a的值.本题考查线性回归方程,利用回归直线过样本点的中心点是解决问题的关键,属基础题.11. 如表提供了某厂节能降耗改造后在生产A产品过程中记录的产量吨与相应的生产能耗吨的几组对应数据,根据表中提供的数据,求出y关于x的线性回归方程为,则下列结论错误的是A. 线性回归直线一定过点B. 产品的生产能耗与产量呈正相关C. t的取值必定是D. A产品每多生产1吨,则相应的生产能耗约增加吨(正确答案)C解:,则,即线性回归直线一定过点,故A正确,,产品的生产能耗与产量呈正相关,故B正确,,得,故C错误,A产品每多生产1吨,则相应的生产能耗约增加吨,故D正确故选:C根据回归直线的性质分别进行判断即可.本题主要考查命题的真假判断,根据回归直线的性质分别进行判断是解决本题的关键比较基础.12. 已知x,y的取值如表所示,若y与x线性相关,且,则A. B. C. D.(正确答案)A解:由图表知,,,代入,得,解得.故选:A.由图表求得,,代入回归直线方程得答案.本题考查线性回归方程,关键是明确线性回归直线恒过样本中心点,是基础题.二、填空题(本大题共4小题,共20分)13. 给出下列命题:线性相关系数r越大,两个变量的线生相关性越强;反之,线性相关性越弱;由变量x和y的数据得到其回归直线方程l:,则l一定经过点;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;在回归分析模型中,残差平方和越小,说明模型的拟合效果越好;在回归直线方程中,当解释变量x每增加一个单位时,预报变量增加个单位;其中真命题的序号是______ .(正确答案)解:线性相关系数越大,两个变量的线性相关性越强,故不正确;由变量x和y的数据得到其回归直线方程l:,则l一定经过点,故正确;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样不是分层抽样,故不正确;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好,故正确;在回归直线方中,当解释变量x每增加一个单位时,预报变量平均增加个单位,故正确.故答案为:.线性相关系数越大,两个变量的线性相关性越强;回归直线方程l:,一定经过样本中心点;从匀速传递的产品生产流水线上,质检员每10分钟从中抽取一件产品进行某项指标检测,这样的抽样系统抽样;可用残差平方和判断模型的拟合效果,残差平方和越小,模型的拟合效果越好;在回归直线方中,当解释变量x每增加一个单位时,预报变量平均增加个单位.本题考查独立性检验,考查分层抽样方法,考查线性回归方程,考查判断两个相关变量之间的关系,是一个综合题目,这种题考查的知识点比较多,需要认真分析.14. 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验根据收集到的数据零件数加工时间分钟由最小二乘法求得回归方程,则a的值为______ .(正确答案)解:由题意,计算,,且回归直线方程的图象过样本中心点,所以.故答案为:.根据回归直线方程的图象过样本中心点,求出平均数代入方程即可求出a的值.本题考查了回归直线方程的图象过样本中心点的应用问题,是基础题目.15. 如图是一组数据的散点图,经最小二乘法计算,得y与x之间的线性回归方程为,则______.(正确答案)解:由散点图得:,,将代入,解得:,故答案为:.求出样本点的中心,代入回归方程求出系数的值即可.本题考查了回归方程,考查样本点的中心,是一道基础题.16. 对具有线性相关关系的变量x,y有一组观测数据2,,,其回归直线方程是,且,请估算时, ______ .(正确答案)解:,,,样本中心点的坐标为,代入回归直线方程得,,.时,.故答案为:.求出横标和纵标的平均数,写出样本中心点,把样本中心点代入线性回归方程,得到关于a的方程,解方程即可.本题考查线性回归方程,解题的关键是线性回归直线一定过样本中心点,这是求解线性回归方程的步骤之一.三、解答题(本大题共3小题,共40分)17. 某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制了频率分布直方图如图所示,规定80分及以上者晋级成功,否则晋级失败.Ⅰ求图中a的值;Ⅱ根据已知条件完成下面列联表,并判断能否有的把握认为“晋级成功”与性别有关?Ⅲ将频率视为概率,从本次考试的所有人员中,随机抽取4人进行约谈,记这4人中晋级失败的人数为X,求X的分布列与数学期望.参考公式:,其中(正确答案)解:Ⅰ由频率分布直方图各小长方形面积总和为1,可知,解得;Ⅱ由频率分布直方图知,晋级成功的频率为,所以晋级成功的人数为人,填表如下:假设“晋级成功”与性别无关,根据上表数据代入公式可得,所以有超过的把握认为“晋级成功”与性别有关;Ⅲ由频率分布直方图知晋级失败的频率为,将频率视为概率,则从本次考试的所有人员中,随机抽取1人进行约谈,这人晋级失败的概率为,所以X可视为服从二项分布,即,,故,,,,,所以X的分布列为数学期望为,或Ⅰ由频率和为1,列出方程求a的值;Ⅱ由频率分布直方图求出晋级成功的频率,计算晋级成功的人数,填写列联表,计算观测值,对照临界值得出结论;Ⅲ由频率分布直方图知晋级失败的频率,将频率视为概率,知随机变量X服从二项分布,计算对应的概率值,写出分布列,计算数学期望;本题考查了频率分布直方图与独立性检验和离散型随机变量的分布列、数学期望的应用问题,是中档题.18. 近年来,手机已经成为人们日常生活中不可缺少的产品,手机的功能也日趋完善,已延伸到了各个领域,如拍照,聊天,阅读,缴费,购物,理财,娱乐,办公等等,手机的价格差距也很大,为分析人们购买手机的消费情况,现对某小区随机抽取了200人进行手机价格的调查,统计如下:元及元元Ⅰ完成关于人们使用手机的价格和年龄的列联表,再判断能否在犯错误的概率不超过的前提下,认为人们使用手机的价格和年龄有关?Ⅱ如果用分层抽样的方法从样本手机价格在5000元及以上的人群中选择5人调查他的收入状况,再从这5人中选3人,求3人的年龄都在45岁及以下的概率.附,在犯错误的概率不超过的前提下,认为人们使用手机的价格和年龄有关;Ⅱ样本手机价格在5000元及以上的人共15人,用分层抽样的方法选择5人,45岁及以下的抽取4人,45岁以上的抽取1人,从这5人中选3人,有种情况,3人的年龄都在45岁及以下,有4种情况,人的年龄都在45岁及以下的概率为.Ⅰ由题中数据可得列联表,计算,从而与临界值比较,即可得到结论;Ⅱ样本手机价格在5000元及以上的人共15人,用分层抽样的方法选择5人,45岁及以下的抽取4人,45岁以上的抽取1人,从这5人中选3人,有种情况,3人的年龄都在45岁及以下,有4种情况,即可求出3人的年龄都在45岁及以下的概率.本题考查概率的计算,考查独立性检验知识,考查学生的计算能力,属于中档题.19. 在“新零售”模式的背景下,某大型零售公司为推广线下分店,计划在S市的A区开设分店为了确定在该区开设分店的个数,该公司对该市已开设分店的其他区的数据作了初步处理后得到下列表格记x表示在各区开设分店的个数,y表示这x个分店的年收入之和.个百万元Ⅰ该公司已经过初步判断,可用线性回归模型拟合y与x的关系,求y关于x的线性回归方程;Ⅱ假设该公司在A区获得的总年利润单位:百万元与x,y之间的关系为,请结合Ⅰ中的线性回归方程,估算该公司应在A区开设多少个分店时,才能使A区平均每个分店的年利润最大?参考公式:,,.(正确答案)解:Ⅰ,,,,关于x的线性回归方程.Ⅱ,A区平均每个分店的年利润,时,t取得最大值,故该公司应在A区开设4个分店时,才能使A区平均每个分店的年利润最大Ⅰ求出回归系数,可得y关于x的线性回归方程;Ⅱ求出A区平均每个分店的年利润,利用基本不等式,可得结论.本题考查回归方程,考查基本不等式的运用,正确求出回归方程是关键.。
高中数学独立性检验精选题目(附解析)(1)分类变量和列联表①分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.②列联表(ⅰ)定义:列出的两个分类变量的频数表,称为列联表.(ⅱ)2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)等高条形图①等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.②观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.(3)独立性检验一、用2×2列联表分析两分类变量间的关系1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用aa+b与cc+d判断二者是否有关系.解:2×2列联表如下:a a+b =4364=0.671 875.cc+d=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.注:(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d⎝⎛⎭⎪⎫ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.2.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:则当m取下面何值时,X)A.8B.9C.14D.19解析:选C由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.3.分类变量X和Y的列联表如下:则下列说法正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析:选C|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.4.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:为()A.a=50,b=40,c=30,d=20B.a=50,b=30,c=40,d=20C.a=20,b=30,c=40,d=50 D.a=20,b=30,c=50,d=40解析:选D当(ad-bc)2的值越大,随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.5.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba+b=1858,dc+d=2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是二、用等高条形图分析两分类变量间的关系1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.解:作列联表如下:续表考前心情不紧94381475张总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.注:利用等高条形图判断两个分类变量是否相关的步骤:2.在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解:根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计449561000根据列联表作出相应的等高条形图:从等高条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.3.观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.4.在独立性检验中,可以粗略地判断两个分类变量是否有关系的是() A.散点图B.等高条形图C.假设检验的思想D.以上都不对解析:选B用等高条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.5.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟678522 1 200总计915605 1 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.三、独立性检验1.研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.(链接教材P95-例1)附:解:根据2×2k=170×(22×38-22×88)2110×60×44×126≈5.622>5.024.所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”.注:根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.2.“开门大吉”是某电视台推出的游戏节目.选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁),其猜对歌曲名称与否的人数如图所示.(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系;说明你的理由;(下面的临界值表供参考)P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879(2)6名选手,并抽取3名幸运选手,求3名幸运选手中至少有一人在20~30岁之间的概率.解:(1)根据所给的二维条形图得到列联表:正确错误总计20~30岁10304030~40岁107080总计20100120k=120×(10×70-10×30)220×100×40×80=3.∵3>2.706,∴在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.(2)按照分层抽样方法可知,20~30(岁)抽取:6×40120=2(人);30~40(岁)抽取:6×80120=4(人).在上述抽取的6名选手中,年龄在20~30(岁)有2人,年龄在30~40(岁)有4人.记至少有一人年龄在20~30岁为事件A,则P(A)=1-C34C36=1-420=45.故至少有一人年龄在20~30岁之间的概率为4 5.3.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差B.回归分析C.独立性检验D.概率解析:选C判断两个分类变量是否有关的最有效方法是进行独立性检验.4.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是() A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.5.某班主任对全班50名学生进行了作业量的调查,数据如下表,则学生的性别与认为作业量的大小有关的把握大约为()A.99%C.90% D.无充分证据解析:选B由2×2列联表得K2的观测值k=50×(18×15-8×9)2 27×23×26×24≈5.059>5.024,故有97.5%的把握认为学生性别与认为作业量大小有关,故选B.6.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.附:解:k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100(32×38-18×12)250×50×44×56≈16.234.因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.巩固练习:1.下列关于K2的说法不正确的是()A.根据2×2列联表中的数据计算得出K2的观测值k≥6.635,而P(K2≥6.635)≈0,01,则有99%的把握认为两个分类变量有关系B.K2的观测值k越大,两个分类变量的相关性就越大C.K2是用来判断两个分类变量是否有关系的随机变量D.K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量解析:选D D选项的公式中分子应该是n(ad-bc)2.故选D.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2A.成绩B.视力C.智商D.阅读量解析:选D因为K21=52×(6×22-14×10)2 16×36×32×20=52×8216×36×32×20,K22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,K23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,K24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有K24>K22>K23>K21,所以阅读量与性别有关联的可能性最大.2.在某次独立性检验中,得到如下列联表:最后发现,两个分类变量没有任何关系,则a的值可能是() A.200 B.720C.100 D.180解析:选B由于A和B没有任何关系,根据列联表可知2001 000和180180+a基本相等,检验可知,B满足条件,故选B.3.两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:若两个分类变量X,Y没有关系,则下列结论正确的是________(填序号).①ad≈bc;②aa+b≈cc+d;③c+da+b+c+d≈b+da+b+c+d;④c+aa+b+c+d≈b+da+b+c+d;⑤(a+b+c+d)(ad-bc)2(a+b)(b+d)(a+c)(c+d)≈0.解析:因为分类变量X,Y独立,所以aa+b ≈cc+d,化简得ad≈bc,所以①②⑤正确,③④显然不正确.答案:①②⑤4.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为4 15.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?解:(1)设患肝病中常饮酒的人有x人,x+230=415,x=6.常饮酒不常饮酒总计患肝病628 不患肝病41822 总计102030由已知数据可求得K2=30×(6×18-2×4)210×20×8×22≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.故抽出一男一女的概率是P=8 15.5.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1甲流水线样本频数分布表产品质量/克频数(490,495] 6(495,500]8(500,505]14(505,510]8(510,515] 4(1)根据上表数据作出甲流水线样本频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.解:(1)甲流水线样本频率分布直方图如下:(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75. 从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9. (3)2×2列联表如下:甲流水线 乙流水线 总计 合格品 a =30 b =36 66 不合格品 c =10 d =4 14 总计4040n =80因为K 2k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=80×(120-360)266×14×40×40≈3.117>2.706, 所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。
《8.3 列联表与独立性检验》复习小结【学习目标】1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.【知识梳理】知识点一分类变量为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.知识点二2×2列联表1.2×2列联表给出了成对分类变量数据的交叉分类频数.2.定义一对分类变量X和Y,我们整理数据如下表所示:X Y合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计a+c b+d n=a+b+c+d像这种形式的数据统计表称为2×2列联表.知识点三独立性检验1.定义:利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”.简称独立性检验.2.χ2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.3.独立性检验解决实际问题的主要环节(1)提出零假设H:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.思考独立性检验与反证法的思想类似,那么独立性检验是反证法吗?答案不是.因为反证法不会出错,而独立性检验依据的是小概率事件几乎不发生.【判断正误】1.分类变量中的变量与函数的变量是同一概念.( ×)2.等高堆积条形图可初步分析两分类变量是否有关系,而独立性检验中χ2取值则可通过统计表从数据上说明两分类变量的相关性的大小.( √) 3.事件A与B的独立性检验无关,即两个事件互不影响.( ×)4.χ2的大小是判断事件A与B是否相关的统计量.( √)【题型探究】一、等高堆积条形图的应用例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别尿棕色素合计阳性数阴性数铅中毒病人29 7 36对照组9 28 37合计38 35 73试画出列联表的等高堆积条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?解等高堆积条形图如图所示:其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率.由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.反思感悟等高堆积条形图的优劣点(1)优点:较直观地展示了aa+b与cc+d的差异性.(2)劣点:不能给出推断“两个分类变量有关系”犯错误的概率.跟踪训练1 网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用等高堆积条形图判断学生学习成绩与经常上网有关吗?解根据题目所给的数据得到如下2×2列联表:学习成绩上网合计经常不经常不及格80 120 200及格120 680 800合计200 800 1 000得出等高堆积条形图如图所示:比较图中阴影部分高可以发现经常上网不及格的频率明显高于经常上网及格的频率,因此可以认为学习成绩与经常上网有关.二、由χ2进行独立性检验命题角度1 有关“相关的检验”例2 某校对学生课外活动进行调查,结果整理成下表:试根据小概率值α=0.005的独立性检验,分析喜欢体育还是文娱与性别是否有关系.性别喜欢合计体育 文娱男生 21 23 44 女生 6 29 35 合计 275279解 零假设为H 0:喜欢体育还是喜欢文娱与性别没有关系. ∵a=21,b =23,c =6,d =29,n =79, ∴χ2=n ad -bc 2a +bc +d a +cb +d=79×21×29-23×6244×35×27×52≈8.106>7.879=x 0.005.根据小概率值α=0.005的独立性检验,我们推断H 0不成立,即认为喜欢体育还是喜欢文娱与性别有关.反思感悟 用χ2进行“相关的检验”步骤 (1)零假设:即先假设两变量间没关系. (2)计算χ2:套用χ2的公式求得χ2值.(3)查临界值:结合所给小概率值α查得相应的临界值x α. (4)下结论:比较χ2与x α的大小,并作出结论.跟踪训练2 甲、乙两机床加工同一种零件,抽检得到它们加工后的零件尺寸x(单位:cm)及个数y ,如下表:零件 尺寸x 1.01 1.02 1.03 1.04 1.05 零件个数y 甲3 7 8 9 3 乙7444a由表中数据得y 关于x 的经验回归方程为y ^=-91+100x(1.01≤x≤1.05),其中合格零件尺寸为1.03±0.01(cm).完成下面列联表,并依据小概率值α=0.01的独立性检验,分析加工零件的质量与甲、乙是否有关.机床加工 零件的质量合计合格零件数不合格零件数 甲 乙 合计解 x =1.03,y =a +495, 由y ^=-91+100x ,知a +495=-91+100×1.03, 所以a =11.由于合格零件尺寸为1.03±0.01 cm, 故甲、乙加工的合格与不合格零件的数据表为:机床加工 零件的质量合计 合格零件数 不合格零件数 甲 24 6 30 乙 12 18 30 合计362460零假设为H 0:加工零件的质量与甲、乙无关.则 χ2=n ad -bc 2a +bc +d a +cb +d=60×24×18-6×12230×30×36×24=10,因为χ2=10>6.635=x 0.01,根据小概率值α=0.01的独立性检验,我们推断H 0不成立.即认为加工零件的质量与甲、乙有关. 命题角度2 有关“无关的检验”例3 下表是某届某校本科志愿报名时,对其中304名学生进入高校时是否知道想学专业的调查表:知道想学专业 不知道想学专业合计 男生 63 117 180 女生 4282124合计105 199 304根据表中数据,则下列说法正确的是________.(填序号)①性别与知道想学专业有关;②性别与知道想学专业无关;③女生比男生更易知道所学专业.答案②解析χ2=304×63×82-42×1172180×124×105×199≈0.041≤2.706=x0.1,所以性别与知道想学专业无关.反思感悟独立性检验解决实际问题的主要环节(1)提出零假设H:X和Y相互独立,并给出在问题中的解释.(2)根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较.(3)根据检验规则得出推断结论.(4)在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.跟踪训练3 某省进行高中新课程改革,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)试根据小概率值α=0.01的独立性检验,分析对新课程教学模式的赞同情况与教师年龄是否有关系.解(1)2×2列联表如下表所示:教师年龄对新课程教学模式合计赞同不赞同老教师10 10 20 青年教师24 6 30 合计34 16 50(2)零假设为H:对新课程教学模式的赞同情况与教师年龄无关.由公式得χ2=50×10×6-24×10234×16×20×30≈4.963<6.635=x0.01,根据小概率值α=0.01的独立性检验,没有充分证据推断H不成立,即认为对新课程教学模式的赞同情况与教师年龄无关.【跟踪训练】1.下面是一个2×2列联表:X Y合计Y=0 Y=1X=0 a 21 73X=1 8 25 33合计 b 46则表中a,b处的值分别为( )A.94,96 B.52,50C.52,60 D.54,52答案 C解析∵a+21=73,∴a=52,b=a+8=52+8=60.2.某班主任对全班50名学生进行了作业量的调查,数据如下表:性别作业量合计大不大男生18 9 27女生8 15 23合计26 24 50则推断“学生的性别与认为作业量大有关”这种推断犯错误的概率不超过( ) A.0.01 B.0.005C.0.05 D.0.001答案 C解析由公式得χ2=50×18×15-8×9226×24×27×23≈5.059>3.841=x0.05.∴犯错误的概率不超过0.05.3.(多选)若在研究吸烟与患肺癌的关系中,通过收集、整理分析数据得“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,则下列说法中正确的是( )A.在犯错误的概率不超过0.01的前提下,认为吸烟和患肺癌有关系B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有答案AD解析独立性检验的结论是一个统计量,统计的结果只是说明事件发生的可能性的大小,具体到一个个体,则不一定发生.4.根据如图所示的等高堆积条形图可知喝酒与患胃病________关系.(填“有”或“没有”)答案有解析从等高堆积条形图上可以明显地看出喝酒患胃病的频率远远大于不喝酒患胃病的频率.5.某销售部门为了研究具有相关大学学历和能按时完成销售任务的关系,对本部门200名销售人员进行调查,所得数据如下表所示:能按时完成销售任务不能按时完成销售任务合计具有相关大学学历57 42 99不具有相关大学学历36 65 101合计93 107 200根据上述数据能得出结论:有________以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.答案99%解析由公式χ2=n ad-bc2a+b c+d a+c b+d,得χ2=200×57×65-42×36299×101×93×107≈9.67.因为9.67>6.635=x0.01,所以有99%以上的把握认为“销售人员具有相关大学学历与能按时完成销售任务是有关系的”.【课堂小结】1.知识清单:(1)分类变量.(2)2×2列联表.(3)等高堆积条形图.(4)独立性检验,χ2公式.2.方法归纳:数形结合.3.常见误区:对独立性检验的原理不理解,导致不会用χ2分析问题.【课后练习】1.观察下列各图,其中两个分类变量x,y之间关系最强的是( )答案 D解析观察等高堆积条形图易知D选项两个分类变量之间关系最强.2.(多选)给出下列实际问题,其中用独立性检验可以解决的问题有( ) A.两种药物治疗同一种病是否有区别B.吸烟者得肺病的概率C.吸烟是否与性别有关系D.网吧与青少年的犯罪是否有关系答案ACD解析独立性检验是判断两个分类变量是否有关系的方法,而B是概率问题,故选ACD.3.为了研究高中学生中性别与对乡村音乐态度(喜欢和不喜欢两种态度)的关系,运用2×2列联表进行独立性检验,经计算χ2=8.01,则所得到的统计学结论是认为“性别与喜欢乡村音乐有关系”的把握约为( )A.0.1% B.0.5%C.99.5% D.99.9%答案 C,所以认为性别与喜欢乡村音乐有关系的把解析因为χ2=8.01>7.879=x0.005握有99.5%.4.某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:则可以说其亲属的饮食习惯与年龄有关的把握为( )A.95% B.99%C.99.5% D.99.9%答案 C解析因为χ2=30×4×2-16×8212×18×20×10=10>7.879=x0.005,所以有99.5%的把握认为其亲属的饮食习惯与年龄有关.5.考察棉花种子处理情况跟生病之间的关系得到下表数据:种子种子合计处理未处理得病32 101 133不得病61 213 274合计93 314 407根据以上数据,可得出( )A.种子是否经过处理跟生病有关B.种子是否经过处理跟生病无关C.种子是否经过处理决定是否生病D.以上都是错误的答案 B解析由χ2=407×32×213-61×101293×314×133×274≈0.164<2.706=x0.1,即没有把握认为种子是否经过处理跟生病有关.6.χ2的大小可以决定是否拒绝原来的统计假设H,如果χ2值较大,就拒绝H,即接受两个分类变量________关系.(填“有”或“无”)答案有7.下表是关于男婴与女婴出生时间调查的列联表:时间合计晚上白天男婴45 A B女婴 E 35 C合计98 D 180那么,A=______,B=______,C=______,D=______,E=______.答案 47 92 88 82 53解析 由列联表得⎩⎪⎨⎪⎧ 45+E =98,98+D =180,A +35=D ,E +35=C ,B +C =180,解得⎩⎪⎨⎪⎧A =47,B =92,C =88,D =82,E =53.8.某高校“统计初步”课程的教师随机调查了选该课的一些学生的情况,具体数据如下表:性别 专业合计 非统计专业 统计专业 男 13 10 23 女720 27 合计 203050为了判断主修统计专业是否与性别有关系,根据表中的数据,得到χ2=50×13×20-10×7223×27×20×30≈4.844,因为χ2>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性最大为__________. 答案 5%解析 因为χ2>3.841=x 0.05,所以依据小概率值α=0.05的独立性检验,认为主修统计专业与性别有关,出错的可能性最大为5%.9.在某测试中,卷面满分为100分,60分为及格,为了调查午休对本次测试前两个月复习效果的影响,特对复习中进行午休和不进行午休的考生进行了测试成绩的统计,数据如下表所示:分数段 29~ 40 41~ 50 51~ 60 61~ 70 71~ 80 81~ 90 91~ 100 午休考生 人数2347 30 21 14 31 14 不午休考 1751671530173(1)根据上述表格完成列联表;(2)根据列联表可以得出什么样的结论?对今后的复习有什么指导意义? 解 (1)2×2列联表如下表所示:(2)计算可知,午休的考生及格率为P 1=80180=49.不午休的考生的及格率为P 2=65200=1340,由P 1>P 2,可以粗略判断午休与考生考试及格有关系,并且午休的及格率高,所以在以后的复习中考生应尽量适当午休,以保持最佳的学习状态. 10.为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为2 3 .(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)根据小概率值α=0.05的独立性检验,能否据此推断喜爱打篮球与性别有关?(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.解(1)列联表补充如下:性别打篮球合计喜爱不喜爱男生22 6 28 女生10 10 20 合计32 16 48(2)零假设H0:喜爱打篮球与性别无关,由χ2=48×220-60228×20×32×16≈4.286>3.841=x0.05,根据小概率值α=0.05的独立性检验,我们推断H不成立,即认为喜爱打篮球与性别有关.(3)喜爱打篮球的女生人数X的可能取值为0,1,2. 其概率分别为P(X=0)=C210C220=938,P(X=1)=C110C110C220=1019,P(X=2)=C210C220=938,故X的分布列为X 0 1 2P9381019938X 的均值为E(X)=0+1019+919=1.11.(多选)下列关于回归分析与独立性检验的说法不正确的是( ) A .回归分析和独立性检验没有什么区别B .回归分析是对两个变量准确关系的分析,而独立性检验是分析两个变量之间的不确定关系C .回归分析研究两个变量之间的相关关系,独立性检验是对两个变量是否具有某种关系的一种检验D .独立性检验可以100%确定两个变量之间是否具有某种关系 答案 ABD解析 由回归分析及独立性检验的特点知,选项C 正确.12.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.下列说法正确的是( )A .男人、女人中患色盲的频率分别为0.038和0.006B .男、女患色盲的概率分别为19240,3260C .男人中患色盲的比例比女人中患色盲的比例大,可以认为患色盲与性别是有关的D .调查人数太少,不能说明色盲与性别有关 答案 C解析 男人中患色盲的比例为38480=19240,要比女人中患色盲的比例6520=3260大,其差值为⎪⎪⎪⎪⎪⎪38480-6520≈0.067 6,差值较大,故认为患色盲与性别是有关的.13.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( ) 表1表2表3表4A.成绩B.视力C.智商D.阅读量答案 D解析因为χ21=52×6×22-14×10216×36×32×20=52×8216×36×32×20,χ22=52×4×20-16×12216×36×32×20=52×112216×36×32×20,χ23=52×8×24-12×8216×36×32×20=52×96216×36×32×20,χ24=52×14×30-6×2216×36×32×20=52×408216×36×32×20,则有χ24>χ22>χ23>χ21,所以阅读量与性别有关联的可能性最大.14.世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:年龄西班牙队合计不喜欢喜欢高于40岁p q 50 不高于40岁15 35 50 合计 a b 100若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为35,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.附:χ2=n ad-bc2a+b c+d a+c b+d.临界值表:α0.10 0.05 0.010 0.005 0.001xα2.7063.841 6.635 7.879 10.828答案 95%解析 设“从所有人中任意抽取一个,取到喜欢西班牙队的人”为事件A ,由已知得P(A)=q +35100=35, 所以q =25,p =25,a =40,b =60. χ2=100×25×35-25×15240×60×50×50=256≈4.167>3.841=x 0.05. 故有超过95%的把握认为年龄与西班牙队的被喜欢程度有关.15.(多选)有两个分类变量X ,Y ,其2×2列联表如下所示:X Y 合计Y 1 Y 2X 1 a20-a 20X 215-a 30+a 45合计 155065其中a,15-a 均为大于5的整数,若依据小概率值α=0.05的独立性检验,认为X ,Y 有关,则a 的值为( ) A .6 B .7 C .8 D .9答案 CD 解析 由题意可知 χ2=65×[a30+a -15-a20-a ]220×45×15×50=13×13a -60220×45×3×2>3.841,根据a>5且15-a>5,a∈Z ,求得当a =8或9时满足题意.16.“中国式过马路”存在很大的交通安全隐患.某调查机构为了解路人对“中国式过马路”的态度是否与性别有关,从马路旁随机抽取30名路人进行了问卷调查,得到了如下列联表:态度性别合计男性女性反感10不反感8合计30已知在这30人中随机抽取1人抽到反感“中国式过马路”的路人的概率是8 15 .(1)请将上面的列联表补充完整(直接写结果,不需要写求解过程),并据此资料分析反感“中国式过马路”与性别是否有关?(2)若从这30人中的女性路人中随机抽取2人参加一活动,记反感“中国式过马路”的人数为X,求X的分布列和均值.附:χ2=n ad-bc2a+b c+d a+c b+d.解(1)态度性别合计男性女性反感10 6 16不反感 6 8 14合计16 14 30零假设为H,反感“中国式过马路”与性别无关,由已知数据得χ2=30×10×8-6×62 16×14×16×14≈1.158<2.706=x0.1.所以,没有充足的理由认为反感“中国式过马路”与性别有关.(2)X的可能取值为0,1,2,P(X=0)=C28C214=413,P(X=1)=C16C18C214=4891,P(X =2)=C 26C 214=1591.所以X 的分布列为X 的均值为E(X)=0×413+1×4891+2×1591=67.《8.3 列联表与独立性检验》同步练习【基础达标练】1.下列说法错误的是( ) A.经验回归直线过(x,y )B.若两个随机变量的线性相关性越强,则样本相关系数的绝对值就越接近于1C.对分类变量X 与Y,随机变量χ2越大,则推断X 与Y 有关联时犯错误的概率越大D.在经验回归方程y ^=0.2x+0.8中,当解释变量x 每增加1个单位时,响应变量y ^增加0.2个单位A,B,D 正确;对分类变量X 与Y,随机变量χ2越大,则推断X 与Y 有关联时犯错误的概率越小,故C 错误,故选C.2.针对“中学生追星问题”,某校团委对“学生性别和中学生追星是否有关联”进行了一次调查,其中女生人数是男生人数的12,男生追星的人数占男生人数的16,女生追星的人数占女生人数的23.零假设为H 0:追星和性别无关联.若依据α=0.05的独立性检验认为追星和性别有关联,则男生的人数至少为( ) 参考数据及公式如下:χ2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ) A.12 B.11 C.10 D.18x,依题意可得如下2×2列联表:若依据α=0.05的独立性检验认为喜欢追星和性别有关联, 则χ2≥3.841. 由χ2=3x 2(x 236-5x 218)2x 2·x ·x ·x 2=38x≥3.841,解得x≥10.24.因为x 2,x6为整数,所以依据α=0.05的独立性检验,我们推断H 0不成立,即认为喜欢追星和性别有关联,男生的人数至少为12.故选A.3.某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下的列联表.零假设为H 0:男、女生对该食堂的服务评价无差异.经计算χ2≈4.762,则可以推断出( )性别满意不满意 合计附:A.该学校男生对食堂服务满意的概率的估计值为45B.调研结果显示,该学校男生比女生对食堂服务更满意C.依据α=0.05的独立性检验认为男、女生对该食堂服务的评价有差异D.依据α=0.01的独立性检验认为男、女生对该食堂服务的评价有差异A,该学校男生对食堂服务满意的概率的估计值为3030+20=35,故A错误;对于选项B,该学校女生对食堂服务满意的概率的估计值为4040+10=45>35,故B错误;因为χ2≈4.762>3.841=x0.05,所以依据α=0.05的独立性检验,我们推断H不成立,即认为男、女生对该食堂服务的评价有差异,故C正确,D错误. 故选C.4.在对某小学的学生进行吃零食的调查中,得到数据如下表:根据上述数据分析,可得χ2约为.2=102×(27×29-34×12)239×63×61×41≈2.334.5.在独立性检验中,x α有两个临界值:3.841和6.635.当χ2>3.841时,依据α=0.05的独立性检验认为两个事件有关联;当χ2>6.635时,依据α=0.01的独立性检验认为两个事件有关联;当χ2≤3.841时,依据α=0.05的独立性检验认为两个事件无关联.在一项打鼾与患心脏病的调查中,共调查了2 000人,零假设为H 0:打鼾与患心脏病之间无关联.经计算χ2=20.87.根据这一数据分析,我们有理由认为打鼾与患心脏病之间 .(有关联、无关联).χ2=20.87>6.635,所以依据α=0.01的独立性检验,我们推断H 0不成立,即认为两者有关联.6.有人发现了一个有趣的现象,中国人的邮箱里含有数字比较多,而外国人邮箱名称里含有数字比较少.为了研究国籍和邮箱名称里含有数字的关系,小明收集了124个邮箱名称,其中中国人的64个,外国人的60个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字. (1)根据以上数据建立2×2列联表;(2)他发现在这组数据中,外国人邮箱里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关联,你能依据α=0.025的独立性检验帮他判断一下吗? 附:的列联表如下:(2)零假设为H 0:国籍和邮箱名称里是否含有数字无关联. 由表中数据得χ2=124×(43×33-27×21)270×54×64×60≈6.201>5.024=x 0.025.依据α=0.025的独立性检验,我们推断H 0不成立,即认为国籍和邮箱名称里是否含有数字有关联.【能力提升练】1.某研究所为了检验某血清预防感冒的作用,把500名使用了该血清的志愿者与另外500名未使用该血清的志愿者一年中的感冒记录作比较,零假设为H 0:这种血清与预防感冒之间无关联.利用2×2列联表计算得χ2≈3.918.下列叙述中正确的是( )A.依据α=0.05的独立性检验认为这种血清与预防感冒之间有关联B.若有人未使用该血清,则他一年中有95%的可能性得感冒C.这种血清预防感冒的有效率为95%D.这种血清预防感冒的有效率为5%χ2≈3.918>3.841=x 0.05,所以依据α=0.05的独立性检验,我们推断H 0不成立,即认为这种血清与预防感冒之间有关联.故选A.2.(多选)针对时下的“抖音热”,某校团委对学生性别和喜欢抖音是否有关联进行了一次调查,其中被调查的男生、女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数的35.零假设为H 0:喜欢抖音和性别无关联.若依据α=0.05的独立性检验认为喜欢抖音和性别有关联,则调查人数中男生的人数可能为( ) 附表:α 0.050 0.010 x α3.8416.635附:χ2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d )A.25B.45C.60D.755n(n ∈N *),根据题意列出2×2列联表如下:则χ2=10n×(4n×2n -3n×n )25n×5n×7n×3n=10n 21.因为依据α=0.05的独立性检验,我们推断H 0不成立,即认为喜欢抖音和性别有关联,所以χ2≥3.841,即10n21≥3.841,解得n≥8.066 1, 因为n ∈N *,所以调查人数中男生人数的可能值为45或60. 故选BC.3.某班主任对全班50名学生进行了一次调查,所得数据如下表:由表中数据计算得到χ2≈5.059,依据α=0.01的独立性检验认为喜欢玩电脑游戏与认为作业多 .(有关联、无关联)H 0:喜欢玩电脑游戏与认为作业多无关联.由题意可得χ2=50×(18×15-9×8)226×24×27×23≈5.059<6.635=x 0.01.依据α=0.01的独立性检验,我们推断H 0不成立,即认为喜欢玩电脑游戏与认为作业多无关联.4.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则依据α= 的独立性检验认为同意限定区域停车与家长的性别有关联.附:χ2=n (ad -bc )2(a+b )(c+d )(a+c )(b+d ),其中n=a+b+c+d.H 0:同意限定区域停车与家长的性别无关联.因为χ2=50×(20×15-5×10)225×25×30×20≈8.333>7.789=x 0.005,所以依据α=0.005的独立性检验,我们推断H 0不成立,即认为同意限定区域停车与家长的性别有关联. 5.随着生活水平的提高,人们患肝病的越来越多.为了解中年人患肝病与经常饮酒是否有关联,现对30名中年人进行了问卷调查,得到的数据如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为415.(1)请将上面的列联表补充完整,依据α=0.005的独立性检验能否认为患肝病与常饮酒有关联?说明你的理由.(2)现从常饮酒且患肝病的中年人(恰有2名女性)中抽取2人参加电视节目,则正好抽到一男一女的概率是多少? 参考数据:设患肝病中常饮酒的人有x 人,则x+230=415,解得x=6. 补充完整的列联表如下:零假设为H 0:患肝病与经常饮酒无关联.由已知数据可求得 χ2=30×(6×18-2×4)210×20×8×22≈8.523>7.879=x 0.005,依据α=0.005的独立性检验,我们推断H 0不成立,即认为患肝病与经常饮酒有关联.(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.故抽出一男一女的概率是P=815.6.书籍是文化的重要载体,读书是承继文化的重要方式.某地区为了解学生课余时间的读书情况,随机抽取了n 名学生进行调查,根据调查得到的学生日均课余读书时间绘制成如图所示的频率分布直方图,将日均课余读书时间不低于40分钟的学生称为“读书之星”,日均课余读书时间低于40分钟的学生称为“非读。
《4.3 独立性检验》同步训练(答案在后面)一、单选题(本大题有8小题,每小题5分,共40分)1、在下列关于独立性检验的描述中,正确的是()A. 卡方检验适用于两个分类变量之间的独立性检验B. 独立性检验是用于检验两个事件是否相互独立的统计方法C. 在进行独立性检验时,需要满足总体是正态分布的假设D. 独立性检验的结果总是显著的2、为了研究中学生的性别与对待某一新教学方法的态度之间是否有关系,调查了某学校的300名学生,其中200名男生和100名女生。
在这300名学生中,有120名学生支持新教学方法,其中男生支持的人数为80人。
假设有90%的把握,下列正确的是()。
A、性别与态度的相关系数为0.2,可以认为两者的相关性为强相关。
B、通过捉样表明,性别与态度独立,两者之间没有关系。
C、性别与态度有关,男生比女生更倾向于支持新教学方法。
D、基于上述数据,两者之间可能存在一定的关联性,但无法得出明确的结论。
3、甲乙两城市天气变化的相关系数为0.8,则以下说法正确的是()A、甲乙两城市天气变化无关B、甲乙两城市天气总是同时降温或同时升温C、甲乙两城市天气变化的相关程度极高D、甲乙两城市天气变化呈完全正相关4、(单选题)某班同学对数学、英语、物理三门课程的兴趣程度进行了调查,其中对数学感兴趣的同学人数为20人,对英语感兴趣的同学人数为25人,对物理感兴趣的同学人数为15人,同时对数学和英语感兴趣的同学人数为10人,同时对数学和物理感兴趣的同学人数为8人,同时对英语和物理感兴趣的同学人数为5人,那么对三门课程都感兴趣的同学人数为()。
A. 3人B. 4人C. 5人D. 6人5、在进行独立性检验时,如果将多个属性合并为一个属性,以下描述正确的是()。
A、会增大实验的数量,降低检验的准确性B、会减小实验的数量,降低检验的准确性C、不会影响实验的数量和检验的准确性D、会减小实验的数量,提高检验的准确性6、在一次社会调查活动中,随机调查了男女各100人,让他们依次回答是否支持某项社会改革措施,结果显示:支持的男生有40人,支持的女生有30人。
第2课时列联表与独立性检验课标解读考向预测1.通过实例,理解2×2列联表的统计意义.2.通过实例,了解2×2列联表独立性检验及其应用.预计2025年高考列联表、独立性检验可能会以实际问题为背景,与概率、随机变量的分布列及数字特征相结合命题,难度适中.必备知识——强基础1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.2×2列联表一般地,假设有两个分类变量X和Y,它们的取值均为0,1,其2×2列联表为XY合计Y=0Y=1X=0a b a+bX=1c d c+d合计a+c b+d a+b+c+d3.独立性检验(1)零假设:以Ω为样本空间的古典概型,设X和Y为定义在Ω上,取值于{0,1}的成对分类变量,H0:01P(Y=1|X=0)=P(Y=1|X=1).通常称H0为零假设或原假设.(2)χ2的计算公式:记n=a+b+c+d,则χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(3)临界值:对于任何小概率值α,可以找到相应的正实数xα,使得后面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可以作为判断χ2大小的标准,概率值α02越小,临界值xα越大.(4)基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.(5)应用独立性检验解决实际问题的主要环节①提出零假设H0:X和Y相互独立,并给出在问题中的解释;②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;③根据检验规则得出推断结论;④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则认为两分类变量有关的把握越大.1.概念辨析(正确的打“√”,错误的打“×”)(1)分类变量中的变量与函数中的变量是同一概念.()(2)2×2列联表是借助两个分类变量之间频率大小差异说明两个变量之间是否有关联.()(3)应用独立性检验的基本思想对两个变量间的关系作出的推断一定是正确的.()(4)若分类变量X,Y关系越密切,则由观测数据计算得到的χ2的观测值越小.()答案(1)×(2)√(3)×(4)×2.小题热身(1)(人教B选择性必修第二册4.3.2练习A T2改编)为了解某大学的学生是否爱好体育锻炼,用简单随机抽样方法在校园内调查了120位学生,得到如下2×2列联表:男女合计爱好a b73不爱好c25合计74则a-b-c=()A.7B.8C.9D.10答案C解析根据题意,可得c =120-73-25=22,a =74-22=52,b =73-52=21,∴a -b -c=52-21-22=9.(2)在下列两个分类变量X ,Y 的样本频数列联表中,可以判断X ,Y 之间有无关系的是()y 1y 2合计x 1a b a +b x 2c d c +d 合计a +cb +da +b +c +dA .|a a +b -b c +d |B .|c a +b -d c +d|C .|b a +b -c c +d |D .|a a +b -c c +d |答案D解析∵χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),则分类变量X 和Y 有关系时,ad 与bc 差距会比较大,由a a +b -c c +d =ac +ad -ac -bc (a +b )(c +d )=ad -bc (a +b )(c +d ),故a a +b 与cc +d 的值相差应该大,即|a a +b -c c +d |的大小可以判断X ,Y 之间有无关系.(3)已知P (χ2≥6.635)=0.01,P (χ2≥10.828)=0.001.在检验喜欢某项体育运动与性别是否有关的过程中,某研究员搜集数据并计算得到χ2=7.235,则根据小概率值α=________的χ2独立性检验,分析喜欢该项体育运动与性别有关.答案0.01解析因为6.635<7.235<10.828,所以根据小概率值α=0.01的χ2独立性检验,分析喜欢该项体育运动与性别有关.考点探究——提素养考点一分类变量的两种统计表示形式(多考向探究)考向1等高堆积条形图例1(2023·四川南充三诊)为考查A ,B 两种药物预防某疾病的效果,进行动物实验,分别得到如下等高堆积条形图,根据图中信息,下列说法最佳的是()A .药物B 的预防效果优于药物A 的预防效果B .药物A 的预防效果优于药物B 的预防效果C .药物A ,B 对该疾病均有显著的预防效果D .药物A ,B 对该疾病均没有预防效果答案B解析根据题干中两个等高堆积条形图知,药物A 实验显示不服药与服药时患病差异较药物B 实验显示明显,所以药物A 的预防效果优于药物B 的预防效果.【通性通法】在等高堆积条形图中,a a +b 与cc +d 相差越大,我们认为两个分类变量之间关系越强.【巩固迁移】1.(多选)现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列统计结论正确的是()A .样本中的女生数量多于男生数量B .样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C .样本中的男生偏爱两理一文D .样本中的女生偏爱两文一理答案ABC解析由等高堆积条形图知,女生数量多于男生数量,故A 正确;有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故B 正确;男生偏爱两理一文,故C 正确;女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故D 错误.故选ABC.考向22×2列联表例2(1)下面是一个2×2列联表,则表中a ,c 处的值分别为()X Y 合计y 1y 2x 1a 2573x 221b c合计d 49A .98,28B .28,98C .48,45D .45,48答案C解析由2×2列联表知a +25=73,b +25=49,b +21=c ,解得a =48,b =24,c =45.故选C.(2)假设两个分类变量X 和Y 的2×2列联表如下:X Y 合计y 1y 2x 1a 10a +10x 2c 30c +30合计a +c40100对于同一样本,以下数据能说明X 和Y 有关系的可能性最大的一组是()A .a =40,c =20B .a =45,c =15C .a =35,c =25D .a =30,c =30答案B解析χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=根据2×2列联表和独立性检验的相关知识,知当b ,d 一定时,a ,c 相差越大,a a +10与cc +30相差就越大,χ2就越大,即X和Y有关系的可能性越大,结合选项,知B中a-c=30与其他选项相比相差最大.【通性通法】在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.【巩固迁移】2.(多选)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀,得到列联表如下:班级数学成绩优秀非优秀合计甲班10b乙班c30合计105已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是()A.c=30,b=35B.c=15,b=50C.c=20,b=45D.由列联表可看出数学成绩与班级有关系答案CD解析依题意10+c105=27,解得c=20,由10+20+b+30=105,解得b=45.补全2×2列联表如下:班级数学成绩合计优秀非优秀甲班104555乙班203050合计3075105甲班学生数学成绩的优秀率为1055≈0.182,乙班学生数学成绩的优秀率为2050=0.4,乙班学生数学成绩的优秀率明显高于甲班学生数学成绩的优秀率,可以认为两班学生的数学成绩优秀率存在差异,所以数学成绩与班级有关.故选CD.考点二独立性检验的应用例3(2024·山西太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:SO2的浓度空气质量等级[0,50](50,150](150,475]1(优)28622(良)5783(轻度污染)3894(中度污染)11211若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题:(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;(2)完成下面的2×2列联表;SO2的浓度空气质量[0,150](150,475]合计空气质量好空气质量不好合计(3)根据(2)中的列联表,依据小概率值α=0.01的独立性检验,能否据此推断该市一天的空气质量与当天SO2的浓度有关?解(1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+5+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P=46100=0.46.(2)由表格数据可得列联表如下,SO2的浓度空气质量[0,150](150,475]合计空气质量好461056空气质量不好242044合计7030100(3)零假设为H 0:该市一天的空气质量与当天SO 2的浓度无关.由(2)知χ2=100×(46×20-10×24)256×44×70×30≈8.936>6.635=x 0.01,根据小概率值α=0.01的独立性检验,我们推断H 0不成立,即认为该市一天的空气质量与当天SO 2的浓度有关,此推断犯错误的概率不超过0.01.【通性通法】独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算;(3)比较χ2与临界值的大小关系,作统计推断.【巩固迁移】3.(2022·全国甲卷)甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A 24020B21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),α0.1000.0500.010x α2.7063.8416.635解(1)根据表中数据,A 家公司共有班次260次,其中准点班次有240次,设A 家公司长途客车准点事件为M ,则P (M )=240260=1213;B 家公司共有班次240次,其中准点班次有210次,设B 家公司长途客车准点事件为N ,则P (N )=210240=78.故A 家公司长途客车准点的概率为1213,B 家公司长途客车准点的概率为78.(2)由题可得χ2=500×(240×30-20×210)2(240+20)×(210+30)×(240+210)×(20+30)≈3.205>2.706,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.课时作业一、单项选择题1.如表是2×2列联表,则表中a ,b 的值分别为()y 1y 2合计x 1a 835x 2113445合计b4280A .27,38B .28,38C .27,37D .28,37答案A解析a =35-8=27,b =a +11=27+11=38.2.某课外兴趣小组通过随机调查,利用2×2列联表和χ2统计量研究数学成绩优秀是否与性别有关.计算得χ2=6.748,经查阅临界值表知P (χ2≥6.635)=0.010,则下列判断正确的是()A .每100名数学成绩优秀的人中就会有1名是女生B .若某人数学成绩优秀,那么他为男生的概率是0.010C .有99%的把握认为“数学成绩优秀与性别无关”D .在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”答案D解析∵χ2=6.748>6.635,∴有99%的把握认为“数学成绩优秀与性别有关”,即在犯错误的概率不超过1%的前提下认为“数学成绩优秀与性别有关”.故选D.3.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为y1y2合计x1101828x2m26m+26合计m+1044m+54则当整数m取________时,X与Y的关系最弱.()A.8B.9C.14D.19答案C解析在两个分类变量的列联表中,当|ad-bc|的值越小时,认为两个分类变量有关的可能性越小.令|ad-bc|=0,得10×26=18m,解得m≈14.4,又m为整数,所以当m=14时,X与Y的关系最弱.4.(2024·海南华侨中学模拟)某同学寒假期间对其30位亲属的饮食习惯进行了一次调查,列出了如下2×2列联表:偏爱蔬菜偏爱肉类合计50岁以下481250岁以上16218合计201030则可以说其亲属的饮食习惯与年龄有关的把握为()附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.0500.0100.001xα 3.841 6.63510.828A.90%B.95% C.99%D.99.9%答案C解析根据列联表中数据,计算χ2=30×(4×2-8×16)212×18×20×10=10>6.635,可以说其亲属的饮食习惯与年龄有关的把握为99%.故选C.5.为了考查某种病毒疫苗的效果,现随机抽取100只小白鼠进行试验,得到如下2×2列联表:感染未感染合计服用104050未服用203050合计3070100附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.100.050.0250.0100.0050.001xα 2.706 3.841 5.024 6.6357.87910.828根据以上数据,得到的结论正确的是()A.在犯错误的概率不超过2.5%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”B.在犯错误的概率不超过1%的前提下,认为“小白鼠是否被感染与有没有服用疫苗有关”C.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”D.有95%的把握认为“小白鼠是否被感染与有没有服用疫苗无关”答案C解析依题意,χ2=100×(10×30-40×20)250×50×30×70=10021≈4.762,显然有3.841<4.762<5.024<6.635,所以有95%的把握认为“小白鼠是否被感染与有没有服用疫苗有关”,A,B,D不正确,C正确.6.假设有两个变量x与y的2×2列联表如下:y1y2x1a bx2c d对于以下数据,对同一样本能说明x与y有关系的可能性最大的一组为()A.a=20,b=30,c=40,d=50B.a=50,b=30,c=30,d=40C.a=30,b=60,c=20,d=50D.a=50,b=30,c=40,d=30答案B解析对于A,|ad-bc|=200;对于B,|ad-bc|=1100;对于C,|ad-bc|=300;对于D,|ad -bc|=300,显然B中|ad-bc|最大,该组数据能说明x与y有关系的可能性最大.7.为了解某社区60岁以上老年人使用手机支付和现金支付的情况,抽取了部分居民作为样本,统计其喜欢的支付方式,并制作出如下等高堆积条形图:根据图中的信息,下列结论中不正确的是()A.样本中多数男性喜欢手机支付B.样本中的女性数量少于男性数量C.样本中多数女性喜欢现金支付D.样本中喜欢现金支付的数量少于喜欢手机支付的数量答案C解析对于A,由题中右图可知,样本中多数男性喜欢手机支付,A正确;对于B,由题中左图可知,样本中的男性数量多于女性数量,B正确;对于C,由题中右图可知,样本中多数女性喜欢手机支付,C不正确;对于D,由题中右图可知,样本中喜欢现金支付的数量少于喜欢手机支付的数量,D正确.故选C.8.针对短视频热,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为5m(m∈N*),男生中喜欢短视频的人数占男生人数的45,女生中喜欢短视频的人数占女生人数的35.零假设为H0:喜欢短视频和性别相互独立.若依据α=0.05的独立性检验认为喜欢短视频和性别不独立,则m的最小值为()附:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).α0.050.01x α3.8416.635A .7B .8C .9D .10答案C解析根据题意,不妨设a =4m ,b =m ,c =3m ,d =2m ,于是χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=10m ·(5m 2)25m ·5m ·7m ·3m =10m21,由于依据α=0.05的独立性检验认为喜欢短视频和性别不独立,根据表格可知10m 21≥3.841,解得m ≥8.0661,于是m 的最小值为9.二、多项选择题9.(2024·福建福州一中模拟)“一粥一饭,当思来之不易”,道理虽简单,但每年我国还是有2000多亿元的餐桌浪费,被倒掉的食物相当于2亿多人一年的口粮.为营造“节约光荣,浪费可耻”的氛围,某市发起了“光盘行动”.某机构为调研民众对“光盘行动”的认可情况,在某大型餐厅中随机调查了90位来店就餐的客人,制成如下所示的列联表,通过计算得到χ2的观测值为9.认可不认可40岁以下202040岁以上(含40岁)4010已知P (χ2≥6.635)=0.010,P (χ2≥10.828)=0.001,则下列判断正确的是()A .在该餐厅用餐的客人中大约有66.7%的客人认可“光盘行动”B .在该餐厅用餐的客人中大约有99%的客人认可“光盘行动”C .有99%的把握认为对“光盘行动”的认可情况与年龄有关D .在犯错误的概率不超过0.001的前提下,认为对“光盘行动”的认可情况与年龄有关答案AC解析∵χ2的观测值为9,且P (χ2≥6.635)=0.010,P (χ2≥10.828)=0.001,又9>6.635,但9<10.828,∴有99%的把握认为对“光盘行动”的认可情况与年龄有关,或者说,在犯错误的概率不超过0.010的前提下,认为对“光盘行动”的认可情况与年龄有关,故C正确,D错误;由表可知,认可“光盘行动”的人数为60,∴在该餐厅用餐的客人中认可“光盘行动”的比例为60×100%≈66.7%,故A正确,B错误.故选AC.9010.为了解阅读量多少与幸福感强弱之间的关系,一个调查机构根据所得到的数据,绘制了如下所示的2×2列联表(个别数据暂用字母表示):幸福感强幸福感弱合计阅读量多m1872阅读量少36n78合计9060150计算得χ2≈12.981,参照下表:α0.100.050.0250.0100.0050.001xα 2.706 3.841 5.024 6.6357.87910.828下列说法正确的是()A.根据小概率值α=0.010的独立性检验,可以认为“阅读量多少与幸福感强弱无关”B.m=54C.根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”D.n=52答案BC解析∵χ2≈12.981>7.879>6.635,∴根据小概率值α=0.010的独立性检验,可以在犯错误的概率不超过1%的前提下认为“阅读量多少与幸福感强弱有关”,根据小概率值α=0.005的独立性检验,可以在犯错误的概率不超过0.5%的前提下认为“阅读量多少与幸福感强弱有关”,∴A错误,C正确;∵m+36=90,18+n=60,∴m=54,n=42,∴B正确,D错误.故选BC.三、填空题11.某校为研究该校学生性别与体育锻炼的经常性之间的联系,随机抽取100名学生(其中男生60名,女生40名),并绘制得到如图所示的等高堆积条形图,则这100名学生中经常锻炼的人数为________.答案68解析这100名学生中经常锻炼的人数为60×0.8+40×0.5=68.12.长绒棉是世界上纤维品质最优的棉花,也是全球高端纺织品及特种纺织品的重要原料.新疆具有独特的自然资源优势,是我国最大的长绒棉生产基地,产量占全国长绒棉总产量的95%以上.新疆某农科所为了研究不同土壤环境下棉花的品质,选取甲、乙两地实验田进行种植.在棉花成熟后采摘,分别从甲、乙两地采摘的棉花中各随机抽取50份样本,测定其马克隆值,整理测量数据得到如下2×2列联表(单位:份),其中40≤a≤50且a∈N*.注:棉花的马克隆值是反映棉花纤维细度与成熟度的综合指标,是棉纤维重要的内在质量指标之一.根据现行国家标准规定,马克隆值可分为A,B,C三个级别,A级品质最好,B级为标准级,C级品质最差.A级或B级C级合计甲地a50-a50乙地80-a a-3050合计8020100当a=a0时,有99%的把握认为该品种棉花的马克隆值级别与土壤环境有关,则a0的最小值为________.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.0500.0100.001xα 3.841 6.63510.828答案46解析依题意,χ2≥6.635,即100×[a(a-30)-(50-a)(80-a)]250×50×80×20≥6.635,(10a-400)2≥2654,由于40≤a≤50且a∈N*,所以10a-400≥2654,a≥40+265410,因为45<40+265410<46,所以a0的最小值为46.四、解答题13.某城市地铁将于2024年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:月收入(单位:百元)[15,25)[25,35)[35,45)赞成定价者人数123认为价格偏高者人数4812月收入(单位:百元)[45,55)[55,65)[65,75]赞成定价者人数534认为价格偏高者人数521(1)若以区间的中点值作为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距(结果保留两位小数);(2)由以上统计数据列出2×2列联表,依据小概率值α=0.01的独立性检验,可否认为“月收入以55百元为分界点对地铁定价的态度有差异”?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.α0.10.050.010.005xα 2.706 3.841 6.6357.879解(1)“赞成定价者”的月平均收入为x1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2≈50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:对地铁定价的态度月收入合计不低于55百元的人数低于55百元的人数认为价格偏高者32932赞成定价者71118合计104050零假设为H0:月收入以55百元为分界点对地铁定价的态度无差异.χ2=50×(3×11-29×7)232×18×10×40≈6.27<6.635=x0.01,∴根据小概率值α=0.01的独立性检验,没有充分证据推断H0不成立,因此可以认为“月收入以55百元为分界点对地铁定价的态度无差异”.14.(2023·全国甲卷)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.218.820.221.322.523.225.826.527.530.132.634.334.835.635.635.836.237.340.543.2试验组的小白鼠体重的增加量从小到大排序为7.89.211.412.413.215.516.518.018.819.219.820.221.622.823.623.925.128.232.336.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表;<m≥m对照组试验组(ⅱ)根据(ⅰ)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),α0.1000.0500.010xα 2.706 3.841 6.635解(1)试验组的样本平均数为120×(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)=39620=19.8.(2)(ⅰ)依题意,可知这40只小白鼠体重的增加量的中位数是将两组数据合在一起,从小到大排序后第20位与第21位数据的平均数,第20位数据为23.2,第21位数据为23.6,所以m=23.2+23.62=23.4,故列联表为<m≥m对照组614试验组146(ⅱ)由(ⅰ)可得,χ2=40×(6×6-14×14)220×20×20×20=6.4>3.841,所以能有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.。
一、解答题1.学校对甲、乙两个班级的同学进行了体能测验,成绩统计如下(每班50人):(1)成绩不低于80分记为“优秀”.请填写下面的列联表,并判断是否有的把握认为“成绩优秀”与所在教学班级有关?(2)从两个班级的成绩在的所有学生中任选2人,其中,甲班被选出的学生数记为,求的分布列与数学期望.赋:.2.中国大学先修课程,是在高中开设的具有大学水平的课程,旨在让学有余力的高中生早接受大学思维方式、学习方法的训练,为大学学习乃至未来的职业生涯做好准备,某高中每年招收学生1000人,开设大学先修课程已有两年,共有300人参与学习先修课程,两年全校共有优等生200人,学习先修课程的优等生有50人,这两年学习先修课程的学生都参加了考试,并且都参加了某高校的自主招生考试(满分100分),结果如下表所示:(1)填写列联表,并画出列联表的等高条形图,并通过图形判断学习先修课程与优等生是否有关系,根据列联表的独立性体验,能否在犯错误的概率不超过0.01的前提下认为学习先修课程与优等生有关系?(2)已知今年有150名学生报名学习大学先修课程,以前两年参加大学先修课程学习成绩的频率作为今年参加大学先修课程学习成绩的概率.①在今年参与大学先修课程的学生中任取一人,求他获得某高校自主招生通过的概率;②某班有4名学生参加了大学先修课程的学习,设获得某高校自主招生通过的人数为,求的分布列,并求今年全校参加大学先修课程的学生获得大学自主招生通过的人数.参考数据:参考公式:,期中,3.近年来随着我国在教育科研上的投入不断加大,科学技术得到迅猛发展,国内企业的国际竞争力得到大幅提升.伴随着国内市场增速放缓,国内有实力企业纷纷进行海外布局,第二轮企业出海潮到来.如在智能手机行业,国产品牌已在赶超国外巨头,某品牌手机公司一直默默拓展海外市场,在海外共设多个分支机构,需要国内公司外派大量后、后中青年员工.该企业为了解这两个年龄层员工是否愿意被外派工作的态度,按分层抽样的方式从后和后的员工中随机调查了位,得到数据如下表:(1)根据调查的数据,是否有以上的把握认为“是否愿意被外派与年龄有关”,并说明理由;(2)该公司举行参观驻海外分支机构的交流体验活动,拟安排名参与调查的后、后员工参加.后员工中有愿意被外派的人和不愿意被外派的人报名参加,从中随机选出人,记选到愿意被外派的人数为;后员工中有愿意被外派的人和不愿意被外派的人报名参加,从中随机选出人,记选到愿意被外派的人数为,求的概率.参考数据:(参考公式:,其中).4.通过随机询问名不同性别的大学生在购买食物时是否看营养说明,得到如下列联表:附:(1)由以上列联表判断,能否在犯错误的概率不超过的前提下认为性别和是否看营养说明有关系呢?(2)从被询问的名不读营养说明的大学生中随机选取名学生,求抽到女生人数的分布列及数学期望.5.共享单车已成为一种时髦的新型环保交通工具,某共享单车公司为了拓展市场,对两个品牌的共享单车在编号分别为的五个城市的用户人数(单位:十万)进行统计,得到数据如下:(Ⅰ)若共享单车用户人数超过50万的城市称为“优城”,否则称为“非优城”,据此判断能否有85%的把握认为“优城”和共享单车品牌有关?(Ⅱ)若不考虑其它因素,为了拓展市场,对A品牌要从这五个城市选择三个城市进行宣传,(ⅰ)求城市2被选中的概率;(ⅱ)求在城市2被选中的条件下城市3也被选中的概率.6.为推动实施健康中国战略,树立国家大卫生、大健康概念,手机APP也推出了多款健康运动软件,如“微信运动”,杨老师的微信朋友圈内有600位好友参与了“微信运动”,他随机选取了40位微信好友(女20人,男20人),统计其在某一天的走路步数,其中,女性好友的走路步数数据记录如下:男性好友走路的步数情况可分为五个类别:(说明:“”表示大于等于0,小于等于2000,下同),,,,,且,,三种类别人数比例为,将统计结果绘制如图所示的条形图,若某人一天的走路步数超过8000步被系统认定为“卫健型”,否则被系统认定为“进步型”.若以杨老师选取的好友当天行走步数的频率分布来估计所有微信好友每日走路步数的概率分布,请估计杨老师的微信好友圈里参与“微信运动”的600名好友中,每天走路步数在5001~10000步的人数;请根据选取的样本数据完成下面的列联表并据此判断能否有以上的把握认定“认定类型”与“性别”有关?若按系统认定类型从选取的样本数据中在男性好友中按比例选取10人,再从中任意选取3人,记选到“卫健型”的人数为,女性好友中按比例选取5人,再从中任意选取2人,记选到“卫健型”的人数为,求事件“”的概率.。