高考必备——独立性检验-独立性检验
- 格式:docx
- 大小:76.26 KB
- 文档页数:7
高三独立性检验知识点总结高三是每个学生都将经历的重要时刻,而对于理科生来说,数学是其中最关键的一门学科。
而在数学中,统计学更是高中数学中的重要组成部分。
在统计学中,独立性检验是一个非常重要的概念和方法,它用于判断两个变量之间是否存在相关性。
本文将对高三独立性检验的相关知识点进行总结。
首先,我们需要了解什么是独立性检验。
独立性检验是用于检验两个变量之间是否存在相关性的一种统计方法。
在进行独立性检验时,我们通常有两个变量,一个为自变量,另一个为因变量。
我们的目标是通过样本数据来判断自变量与因变量之间是否存在相关性。
如果两个变量之间存在相关性,我们可以得出结论说它们之间不是独立的;如果两个变量之间没有相关性,我们可以得出结论说它们之间是独立的。
在独立性检验中,我们常用的方法是卡方检验。
卡方检验是一种常用的统计方法,用于判断两个变量之间是否存在相关性。
在进行卡方检验时,我们通常会建立一个观察值和期望值的对比表格。
观察值是通过实际的样本数据得出的,而期望值则是通过某种假设或模型推算出来的。
通过比较观察值和期望值的差异,我们可以判断两个变量之间是否存在相关性。
独立性检验的核心思想是通过计算观察值和期望值的差异,并根据差异的显著性来判断两个变量之间的关系是否存在。
在卡方检验中,我们通常要计算一个统计量,称为卡方值。
卡方值越大,说明观察值和期望值的差异越大,从而说明两个变量之间的相关性越强。
而卡方值的显著性则需要进行假设检验,通常使用显著性水平来进行判断。
如果卡方值小于显著性水平,则我们可以得出结论说两个变量之间不存在相关性;如果卡方值大于显著性水平,则我们可以得出结论说两个变量之间存在相关性。
在进行独立性检验时,我们还需要注意一些常见的误区和注意事项。
首先,样本容量要足够大。
只有样本容量足够大时,我们才能够得到可靠的统计推断。
其次,变量的取值要具有一定的多样性。
如果变量的取值过于集中,样本数据的信息就会不足,从而影响独立性检验的结果。
iiS€题晒晒看蛊一独立牲枪验高看看蛊题型例祈■江苏省盐城市时杨中学刘长柏随着新高考的不断深入,独立性检验及其综合应用也进入了高考命题者的视野。
独立性检验是考查两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度的一种重要的统计方法。
利用独立性检验,能够帮助同学们对日常生活中的实际问题作出合理的推断和预测。
因此,大家在学习中通过对统计案例的分析,理解和掌握独立性检验的方法,体会独立性检验的基本思想在解决实际问题中的应用,以提高大家处理实际问题的能力。
独立性检验既会单独考查一个知识点,也会与概率、随机变量的分布列与期望等交汇考查,这也为我们的学习及高考备考鸣响了警钟——不可忽视独立性检验综合应用题。
下面借助于考题举例说明。
亶接考査独立性检验侧/【2021年南京市、盐城市高三年级第一次模拟考试】某词汇研究机构为对某城市人们使用流行语的情况进行调査,随机抽取了200人进行调查统计,得下方的2X2列联表(表1)。
则根据列联表可知(表2P(K2>k)0.150.100.050.0250.0100.0050.001 k 2.072 2.706 3.841 5.024 6.6357.87910.828解析:K?200X(125X15—25X35严160X40X150X504.167>3,841,所以有95%的把握认为“经常用流行用语”与“年轻人”有关系,选A。
点评:本题主要考查了独殳性检验的直接应用,要想解答独立性检验问题应做好两方面:一是准确解读2X2列联表,落实表中相关数据;二是正确利用公式求出K2的观测值,并与临界值比较。
练习1:【2020年四川省绵阳南山中学高三一模】为调查某地区被隔离者是否需要社区非医护人员提供帮助,用简单随机抽样方法从该地区调査了500位被隔离者,结果如下:表3性别是否轟男女需要4030不需要160270表1年轻人非年轻人总计经常用流行用语12525150不常用流行用语351550总计16040200表4PU。
概率与统计知识点及专练(一)统计基础知识:1. 随机抽样:(1).简单随机抽样:设一个总体的个数为N ,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法.(2).系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).(3).分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.2. 普通的众数、平均数、中位数及方差: (1).众数:一组数据中,出现次数最多的数(2).平均数:常规平均数:12nx x x x n ++⋅⋅⋅+=(3).中位数:从大到小或者从小到大排列,最中间或最中间两个数的平均数(4).方差:2222121[()()()]n s x x x x x x n =-+-+⋅⋅⋅+-(5).标准差:s3 .频率直方分布图中的频率:(1).频率 =小长方形面积:f S y d ==⨯距;频率=频数/总数; 频数=总数*频率(2).频率之和等于1:121n f f f ++⋅⋅⋅+=;即面积之和为1: 121n S S S ++⋅⋅⋅+=4. 频率直方分布图下的众数、平均数、中位数及方差: (1).众数:最高小矩形底边的中点(2).平均数:112233n n x x f x f x f x f =+++⋅⋅⋅+ 112233n n x x S x S x S x S =+++⋅⋅⋅+(3).中位数:从左到右或者从右到左累加,面积等于0.5时x 的值(4).方差:22221122()()()nn s x x f x x f x x f =-+-+⋅⋅⋅+-5.线性回归直线方程:(1).公式:ˆˆˆy bx a=+其中:1122211()()ˆ()n ni i i ii in ni ii ix x y y x y nxybx x x nx====---∑∑==--∑∑(展开)ˆˆa y bx=-(2).线性回归直线方程必过样本中心(,) x y(3).ˆ0:b>正相关;ˆ0:b<负相关(4).线性回归直线方程:ˆˆˆy bx a=+的斜率ˆb中,两个公式中分子、分母对应也相等;中间可以推导得到6. 回归分析:(1).残差:ˆˆi i ie y y=-(残差=真实值—预报值)分析:ˆie越小越好(2).残差平方和:2 1ˆ() ni iiy y =-∑分析:①意义:越小越好;②计算:222211221ˆˆˆˆ()()()() ni i n niy y y y y y y y =-=-+-+⋅⋅⋅+-∑(3).拟合度(相关指数):2 2121ˆ()1()ni iiniiy y Ry y==-∑=--∑分析:①.(]20,1R∈的常数;②.越大拟合度越高(4).相关系数:()()n ni i i ix x y y x y nx y r---⋅∑∑==分析:①.[1,1]r∈-的常数;②.0:r>正相关;0:r<负相关③.[0,0.25]r∈;相关性很弱;(0.25,0.75)r∈;相关性一般;[0.75,1]r∈;相关性很强7. 独立性检验:(1).2×2列联表(卡方图): (2).独立性检验公式①.22()()()()()n ad bc k a b c d a c b d -=++++②.上界P 对照表:(3).独立性检验步骤:①.计算观察值k :2()()()()()n ad bc k a b c d a c b d -=++++ ②.查找临界值0k :由犯错误概率P ,根据上表查找临界值0k③.下结论:0k k ≥即认为有P 的没把握、有1-P 以上的有把握认为两个量相关;0k k <:即认为没有1-P 以上的把握认为两个量是相关关系。
独立性检验—高考真题一、解答题二、解答题1.一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g ).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2试验组的小白鼠体重的增加量从小到大排序为7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m ,再分别统计两样本中小于m 与不小于m 的数据的个数,完成如下列联表m <m≥对照组试验组(ⅱ)根据(i )中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:()()()()22()n ad bc K a b c d a c b d -=++++,()2P K k ≥0.1000.0500.010k2.7063.841 6.6352.甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品合计甲机床15050200乙机床12080200合计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++()2P K k≥0.0500.0100.001k 3.841 6.63510.8283.某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:22()()()()()n ad bcKa b c d a c b d-=++++,P(K2≥k)0.0500.010 0.001k 3.841 6.63510.8284.某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++.P(K2≥k)0.0500.0100.001k 3.841 6.63510.8285.为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:是否需要志愿性别男女需要4030不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由附:P(2K k ≥)0.0500.0100.001k 3.841 6.63510.828()()()()()22n ad bc K a b c d a c b d -=++++6.甲、乙两城之间的长途客车均由A 和B 两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:准点班次数未准点班次数A 24020B 21030(1)根据上表,分别估计这两家公司甲、乙两城之间的长途客车准点的概率;(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bc K a b c d a c b d -=++++,()2P K k 0.1000.0500.010k2.7063.841 6.635参考答案:1.(1)19.8(2)(i)23.4m=;列联表见解析,(ii)能【分析】(1)直接根据均值定义求解;(2)(i)根据中位数的定义即可求得23.4m=,从而求得列联表;(ii)利用独立性检验的卡方计算进行检验,即可得解.【详解】(1)试验组样本平均数为:1(7.89.211.412.413.215.516.518.018.819.219.820.220+++++++++++39621.622.823.623.925.128.232.336.5)19.820++++++++==(2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,由原数据可得第11位数据为18.8,后续依次为19.2,19.8,20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6, ,故第20位为23.2,第21位数据为23.6,所以23.223.623.42m+==,故列联表为:m<m≥合计对照组61420试验组14620合计202040(ii)由(i)可得,2240(661414)6.400 3.84120202020K⨯⨯-⨯==>⨯⨯⨯,所以能有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异. 2.(1)75%;60%;(2)能.【分析】根据给出公式计算即可【详解】(1)甲机床生产的产品中的一级品的频率为15075%200=,乙机床生产的产品中的一级品的频率为12060%200=.(2)()22400150801205040010 6.63527013020020039K ⨯-⨯==>>⨯⨯⨯,故能有99%的把握认为甲机床的产品与乙机床的产品质量有差异.3.(1)该市一天的空气质量等级分别为1、2、3、4的概率分别为0.43、0.27、0.21、0.09;(2)350;(3)有,理由见解析.【分析】(1)根据频数分布表可计算出该市一天的空气质量等级分别为1、2、3、4的概率;(2)利用每组的中点值乘以频数,相加后除以100可得结果;(3)根据表格中的数据完善22⨯列联表,计算出2K 的观测值,再结合临界值表可得结论.【详解】(1)由频数分布表可知,该市一天的空气质量等级为1的概率为216250.43100++=,等级为2的概率为510120.27100++=,等级为3的概率为6780.21100++=,等级为4的概率为7200.09100++=;(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100203003550045350100⨯+⨯+⨯=(3)22⨯列联表如下:人次400≤人次400>空气质量好3337空气质量不好228()221003383722 5.820 3.84155457030K ⨯⨯-⨯=≈>⨯⨯⨯,因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.【点睛】本题考查利用频数分布表计算频率和平均数,同时也考查了独立性检验的应用,考查数据处理能力,属于基础题.4.(1)43 ,55;(2)能有95%的把握认为男、女顾客对该商场服务的评价有差异.【分析】(1)从题中所给的22⨯列联表中读出相关的数据,利用满意的人数除以总的人数,分别算出相应的频率,即估计得出的概率值;(2)利用公式求得观测值与临界值比较,得到能有95%的把握认为男、女顾客对该商场服务的评价有差异.【详解】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,所以男顾客对商场服务满意率估计为1404 505P==, 50名女顾客对商场满意的有30人,所以女顾客对商场服务满意率估计为2303 505P==,(2)由列联表可知22100(40203010)1004.762 3.8417030505021K⨯-⨯==≈>⨯⨯⨯,所以能有95%的把握认为男、女顾客对该商场服务的评价有差异.【点睛】该题考查的是有关概率与统计的知识,涉及到的知识点有利用频率来估计概率,利用列联表计算2K的值,独立性检验,属于简单题目.5.(1)7014%500=,(2)有99%的把握(3)见解析【详解】(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估算值为7014% 500=(2)22500(4027030160)9.96720030070430K⨯⨯-⨯==⨯⨯⨯.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法比采用简单随机抽样方法更好.6.(1)A,B两家公司长途客车准点的概率分别为1213,78(2)有【分析】(1)根据表格中数据以及古典概型的概率公式可求得结果;(2)根据表格中数据及公式计算2K ,再利用临界值表比较即可得结论.【详解】(1)根据表中数据,A 共有班次260次,准点班次有240次,设A 家公司长途客车准点事件为M ,则24012()26013==P M ;B 共有班次240次,准点班次有210次,设B 家公司长途客车准点事件为N ,则210()27840==P N .A 家公司长途客车准点的概率为1213;B 家公司长途客车准点的概率为78.(2)列联表准点班次数未准点班次数合计A24020260B21030240合计4505050022()()()()()n ad bc K a b c d a c b d -=++++=2500(2403021020) 3.205 2.70626024045050⨯⨯-⨯≈>⨯⨯⨯,根据临界值表可知,有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关.。
《独立性检验》一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。
“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。
独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。
3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。
4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一. 三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的:1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。
概率与统计 专题四:独立性检验一、知识储备 1.22⨯列联表设X ,Y 为两个变量,它们的取值分别为12{}x x ,和12{}y y ,,其样本频数列联表(22⨯列联表)如下:2.独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 3.独立性检验的一般步骤(1)根据样本数据列出22⨯列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.二、例题讲解1.(2022·榆林市第十中学高三月考(文))随着经济的发展,人们的生活水平显著提高,健康意识不断增强,健康管理理念深入人心,人们参加体育锻炼的次数与时间在逐渐增加.某校一个课外学习小组为研究居民参加体育锻炼的时长(时长不超过60分钟)是否与性别有关,对某小区居民进行调查,并随机抽取了100名居民的调查结果,其中男性有55人,根据调查结果绘制了居民日均锻炼时间的频率分布直方图如下:(1)求样本中居民日均锻炼时间的中位数;(2)将日均锻炼时间不低于40分钟的居民称为“健生达人”(健康生活达人),已知样本中“健生达人”中有10名女性,根据已知条件完成下面22⨯列联表,并据此资料判断是否有95%的把握认为“健生达人”与性别有关.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.【答案】(1)32.8分钟;(2)表格见解析,没有95%的把握认为“健生达人”与性别有关. 【分析】(1)根据中位数的定义求样本中居民日均锻炼时间的中位数;(2)分析数据,完成列联表,计算2K ,通过比较其与临界值的大小,确定是否接受假设. 【详解】解:本题考查独立性检验.(1)由频率分布直方图知日均锻炼时间在[)0,30对应的频率为0.050.180.20.43++=,则中位数位于[)30,40,且中位数为0.500.43301032.80.25-+⨯=(分钟)(2)由频率分布直方图可知在抽取的100人中,“健生达人”有32人,从而22⨯列联表如下:得()210033103522 3.595 3.84155456832K ⨯-⨯=≈<⨯⨯⨯,所以没有95%的把握认为“健生达人”与性别有关2.(2022·江苏南京市·高三开学考试)科研小组为提高某种水果的果径,设计了一套实验方案,并在两片果园中进行对比实验.其中实验园采用实验方案,对照园未采用.实验周期结束后,分别在两片果园中各随机选取100个果实,按果径分成5组进行统计:[)21,26,[)26,31,[)31,36,[)36,41,[]41,46(单位:mm ).统计后分别制成如下的频率分布直方图,并规定果径达到36mm 及以上的为“大果”.(1)请根据题中信息完成下面的列联表,并判断是否有99.9%的把握认为“大果”与“采用实验方案”有关;(2)根据长期种植经验,可以认为对照园中的果径X 服从正态分布()2,N μσ,其中μ近似为样本平均数x ,5.5σ≈,请估计对照园中果径落在区间()39,50内的概率.(同一组中的数据以这组数据所在区间中点的值作代表)附:①()()()()()22n ad bc K a b c d a c b d -=++++;②若X 服从正态分布()2,N μσ,则()0.683P X μσμσ-<<+=,()220.954P X μσμσ-<<+=,()330.997P X μσμσ-<<+=.【答案】(1)列联表见解析,有99.9%的把握认为两者有关;(2)0.157. 【分析】(1)根据频率分布直方图分别求出采用实验方案大果和非大果数量及未采用实验方案大果和非大果数量,从而可得出列联表,再根据公式求出2K ,对照临界值表即可得出结论;(2)求出样本平均数x ,再根据正态分布的性质即可得出答案. 【详解】解:(1)由频率分布直方图可得:采用实验方案大果的数量为()50.1100.01010060⨯+⨯=个, 则非大果数量为1006040-=个,未采用实验方案大果的数量为()50.0400.02010030⨯+⨯=个, 则非大果数量为1003070-=个, 列联表如下:22006070304020010.8281001009011011K ⨯-⨯==⨯⨯⨯>,所以有99.9%的把握认为两者有关; (2)由题中数据,23.50.128.50.233.50.438.50.243.50.133.5x =⨯+⨯+⨯+⨯+⨯=, 则33.5μ=,则()()0.9970.683395030.157P X P X μσμσ-=++==<<<<.三、实战练习1.(2022·定远县育才学校高三开学考试(文))微信是腾讯公司推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人.为了调查微信用户每天使用微信的时间,某经销化妆品的店家在一广场随机采访男性、女性用户各50名,将男性、女性平均每天使用微信的时间(单位:h )分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据频率分布直方图估计女性平均每天使用微信的时间;(2)若每天玩微信超过4h 的用户称为“微信控”,否则称为“非微信控”,判断是否有90%的把握认为“微信控”与性别有关. 附表:(参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)【答案】(1)4.76()h ;(2)有90%的把握认为“微信控”与性别有关. 【分析】(1)用每个小矩形的面积乘以对应小矩形底边的中点,然后求和即可得到答案;(2)先通过频率分布直方图面积为1求出a ,进而根据参考公式求出K 2,然后将数据进行对比即可得到答案. 【详解】(1)由女性的频率分布直方图,可知女性用户平均每天使用微信的时间为0.1610.2430.2850.2070.129 4.76()h ⨯+⨯+⨯+⨯+⨯=.(2)由男性的频率分布直方图,可得2(0.040.1420.12)1a +++⨯=,解得0.08a =.由两个频率分布直方图,可得22⨯列联表如下:2K的观测值2100(38203012)2.941 2.70650506832k⨯⨯-⨯=≈>⨯⨯⨯,所以有90%的把握认为“微信控”与性别有关.2.(2022·河北唐山·高三开学考试)数字人民币是由央行发行的法定数字货币,它由指定运营机构参与运营并向公众兑换,与纸钞和硬币等价.截至2022年6月30日,数字人民币试点场景已超132万个,覆盖生活缴费、餐饮服务、交通出行、购物消费、政务服务等领域.为了进一步了解普通大众对数字人民币的感知以及接受情况,某机构进行了-次问卷调查,部分结果如下:(1)如果将高中及高中以下的学历称为“低学历”,大学专科及以上学历称为“高学历”,根据所给数据,完成下面的22⨯列联表;(2)若从低学历的被调查者中,按对数字人民币的了解程度用分层抽样的方法抽取8人,然后从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率;(3)根据列联表,判断是否有95%的把握认为“是否了解数字人民币”与“学历高低”有关? 附:()()()()()22n ad bc K a b c d a c b d -=++++【答案】(1)列联表答案见解析;(2)914;(3)没有95%的把握认为“是否了解数字人民币”与“学历高低”有关. 【分析】(1)根据题中所给数据完成22⨯列联表即可;(2)根据分层抽样分别求出不了解数字人民币和了解数字人民币的人数,再根据古典概型公式即可得解; (3)根据公式求出2K ,在参照临界值表即可得出结论. 【详解】解:(1)22⨯列联表如下:(2)从低学历被调查者中按对数字人民币的了解程度用分层抽样的方法抽取8人,抽取的8人中,不了解数字人民币的有81503400⨯=人, 了解数字人民币的有82505400⨯=人, 从这8人中抽取2人进行进一步调查,求被选中的2人中至少有1人对数字人民币不了解的概率2528C 91C 14P =-=.(3)根据列联表得()22800125250150275800 3.463 3.841275525400400231K ⨯⨯-⨯==≈<⨯⨯⨯.故没有95%的把握认为“是否了解数字人民币”与“学历高低”有关.3.(2022·广东实验中学高三月考)在传染病学中,通常把从致病刺激物侵入机体或者对机体发生作用起,到机体出现反应或开始呈现该疾病对应的相关症状时止的这一阶段称为潜伏期.一研究团队统计了某地区1000名患者的相关信息,得到如下表格:(1)求这1000名患者的潜伏期的样本平均值x (同一组中的数据用该组区间的中点值作代表); (2)该传染病的潜伏期受诸多因素的影响,为研究潜伏期与患者年龄的关系,以潜伏期是否超过6天为标准进行分层抽样,从上述1000名患者中抽取200人,得到如下列联表请将列联表补充完整,并根据列联表判断是否有95%的把捏认为潜伏期与息者年龄有关;(3)以这1000名患者的潜伏期超过6天的频率,代替该地区1名患者潜伏期超过6天发生的概率,每名患者的潜伏期是否超过6天相互独立.为了深入研究,该研究团队随机调查了20名患者,其中潜伏期超过6天的人数最有可能(即概率最大)...........是多少? 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】(1)5.4天;(2)列联表见解析,没有95%的把捏认为潜伏期与息者年龄有关.(3)潜伏期超过6天最有可能....是8人.【分析】(1)根据频率直方表求平均值即可.(2)由题设写出列联表,根据卡方检验公式计算卡方值,比照参考值即可知是否有95%的把捏认为潜伏期与息者年龄有关;(3)由题意知潜伏期超过6天的人数2(20,)5X B ,则202032()()()55k k kP X k C -==,应用不等法求最大概率时的k 值即可. 【详解】(1)10.08530.20550.3170.2590.13110.015130.005x =⨯+⨯+⨯+⨯+⨯+⨯+⨯ 5.4=天.(2)由题设知:[0,6]的频率为0.6,(6,14]的频率为0.4,故200人中潜伏期在[0,6]上有120人,在(6,14]上有80人. 列联表如下:∴22200(65453555) 2.083 3.84110010012080K ⨯⨯-⨯=≈<⨯⨯⨯,故没有95%的把捏认为潜伏期与息者年龄有关.(3)由患者潜伏期超过6天发生的概率400210005=, 设潜伏期超过6天的人数为X ,则2(20,)5XB ,∴202032()()()55k k kP X k C -==且020k ≤≤,*k N ∈,由题意,()(1)()(1)P X k P X k P X k P X k =≥=+⎧⎨=≥=-⎩,即2019112020202111202032325555{32325555k k k k k k k k k k k k C C C C --++----⎛⎫⎛⎫⎛⎫⎛⎫≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭⎛⎫⎛⎫⎛⎫⎛⎫≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭,化简得3(1)2(20)2(21)3k k k k +≥-⎧⎨-≥⎩,解得374255k ≤≤, ∴8k ,即潜伏期超过6天最有可能....是8人. 4.(2022·黑龙江高三其他模拟(文))据有关部门统计,2021年本科生的平均签约薪酬为每月4300元.2021年某高校毕业生就业指导中心为了分析本校本科毕业生的专业课成绩优秀与否与本科毕业生就业后获得薪酬的关系,随机调查了从学校毕业的200名本科毕业学进行研究.研究结果表明:在专业课成绩优秀的120名本科毕业生中有90人每月工资超过人民币4300元,另30人每月工资低于人民币4300元;在专业课成绩不优秀的80名本科毕业生中有20人每月工资超过人民币4300元,另60人每月工资低于人民币4300元. (1)试根据上述数据完成22⨯列联表;(2)能否在犯错误的概率不超过0.001的前提下认为“该高校本科毕业生的专业课成绩优秀”与“每月工资超过当年本科生的平均签约薪酬”有关系?参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【答案】(1)列联表见解析;(2)能. 【分析】(1)根据题目已知数据完成22⨯列联表;(2)计算2K,根据临界值表判断即可【详解】(1)22⨯列联表如下:(2)因为()22009060302016004810.828 120801109033K⨯⨯-⨯==>>⨯⨯⨯.所以能在犯错误的概率不超过0.001的前提下认为“该校毕业生的专业课成绩优秀”与“每月工资超过当年本科生的平均签约薪酬”有关系.【点睛】方法点睛:本题考查22⨯联表判断相关性,独立性检验的一般步骤:第一步,提出假设0H:两个分类变量A和B没有关系;第二步,根据22⨯列联表和公式计算2K统计量;第三步,查对课本中临界值表,作出判断。
独立性检验应用例析在日常生活中,经常会面临一些需要推断的问题.在对这些问题作出推断时,我们不能仅凭主观意愿作出结论,需要通过试验来收集数据,并依独立性检验的原理做出合理的推断.下面举例说明.例1为考察高中生的数学成绩与语文成绩的关系,对高二(1)班的55名学生进行了一次摸底考试,按照考试成绩优秀和不优秀统计成绩后,得到如下列联表:数学成绩与语文成绩的列联表优秀不优秀总计数学成绩21 34 55语文成绩13 42 55总计34 76 110 请问数学成绩与语文成绩在多大程度上有关系?解析:假设“数学成绩与语文成绩之间没有关系”.而随机变量2K的观测值2110(21423413)21296000 k≈,2.7242.706(2134)(1342)(2113)(3442)781600且2( 2.706)0.10P K≥≈.这就意味着“数学成绩与语文成绩之间有关系”这一结论是错误的可能性约为0.10,即有90%的把握认为“数学成绩与语文成绩之间有关系”.例2 调查339名50岁以上的吸烟者,得到吸烟习惯与患慢性气管炎病的关系如下列联表:吸烟习惯与患慢性气管炎病列联表急慢性气管炎未患慢性气管炎总计吸烟43 162 205不吸烟13 121 134总计56 283 339 试问吸烟者与不吸烟者慢性气管炎患病率是否有所不同?K的观测值解析:假设“吸烟者与不吸烟者慢性气管炎患病率无关的”,而随机变量22339(4312116213)32514875617.469 6.635k≈.(43162)(13121)(4313)(162121)435344560这就意味着“吸烟者与不吸烟者慢性气管炎患病率是不同的”这一结论错误的可能性约为0.010,即有99%的把握认为吸烟与慢性气管炎的患病率有关.解题感悟:独立性检验是考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度的一种重要的统计方法.利用独立性检验,能够帮助我们对日常生活中的实际问题作出合理的推断和预测.因此,在学习中通过对统计案例的分析,理解和掌握独立性检验的方法,体会独立性检验的基本思想在解决实际问题的应用,以提高我们处理生活和工作中的某些问题的能力.。
专题一、独立性检验题型一、独立事件的判断1、独立事件的定义:对于两个事件A 、B ,如果有P(AB)=P(A)P(B)就称事件A 与B 互相独 立,简称A 与B 独立.2、当事件A 与B 独立时,事件A 与B 、A 与B 、A 与B 也独立.【例1】从一副52X 扑克牌(不含大小王)中,任意抽一X 出来,设事件A :“抽到黑桃”, B:“抽到皇后Q ”,试用P(AB)=P(A)·P(B)验证事件A 与B 及A 与B 是否独立?【变式1】设两个独立事件A 和B 都不发生的概率为19,A 发生B 不发生的概率与B 发生A不发生的概率相同,则事件A 发生的概率P(A)是( )A 、29B 、118C 、13D 、23【变式2】掷一枚硬币,记事件A :“出现正面”,B :“出现反面”,则有( )A 、A 与B 相互独立 B 、P(AB)=P(A)·P(B)C 、A 与B 不相互独立D 、P(AB)=14【变式3】坛子中放有3个白球,2个黑球,从中进行不放回地摸球,用A 表示第一次摸到 白球,B 表示第二次摸到白球,则A 与B 是( )A 、互斥事件B 、相互独立事件C 、对立事件D 、不相互独立事件【变式4】假设生男孩和生女孩是等可能的,设事件A 为“一个家庭中既有男孩,又有女孩”,事件B 为“一个家庭中最多有一个女孩”.某一家庭有三个小孩,则事 件A 与B 是否独立?【变式5】(1)甲、乙两名射手同时向一目标射击,设事件A :“甲击中目标”,事件B : “乙击中目标”,则事件A 与事件B ( )A 、相互独立但不互斥B 、互斥但不相互独立C 、相互独立且互斥D 、既不相互独立也不互斥(2)掷一颗骰子一次,设事件A :“出现偶数点”,事件B :“出现3点或6点”, 则事件A ,B 的关系是( )A 、互斥但不相互独立B 、相互独立但不互斥C 、互斥且相互独立D 、既不相互独立也不互斥题型二、独立性检验1、2×2列联表判断两个事件A 、B 是否有关,我们可以把A 发生、A 不发生(A )、B 发生、B 不发生(B )注意:(1)作独立性检验时,要求2×2列联表中的4个数据都要大于等于5。
高二独立性检验知识点总结独立性检验是统计学中的一种重要方法,用于确定两个或多个变量之间是否存在关联性。
在高二阶段的学习中,独立性检验是一个必不可少的统计学概念。
本文将对高二独立性检验的知识点进行总结,旨在帮助同学们更好地理解和应用该概念。
1. 独立性检验的概念独立性检验用于判断两个分类变量之间是否存在显著关联。
其中,第一个分类变量称为自变量或行变量,第二个分类变量称为因变量或列变量。
独立性检验的目标是确定两个分类变量之间的关联性程度。
2. 卡方检验卡方检验是一种常用的独立性检验方法。
它基于卡方统计量,通过比较实际观察频数与期望频数之间的差异,判断两个分类变量是否独立。
卡方检验可以应用于两个或多个分类变量的关联性检验。
3. 单样本卡方检验单样本卡方检验用于检验一个分类变量在整体上是否符合期望分布。
通过计算观察频数与期望频数之间的差异,判断观察结果是否与期望分布存在显著差异。
单样本卡方检验是独立性检验的基础,可以帮助我们理解和掌握更复杂的卡方检验方法。
4. 独立性卡方检验独立性卡方检验用于判断两个分类变量之间是否存在关联。
它的原假设为两个分类变量独立,备择假设为两个分类变量不独立。
通过计算卡方统计量和查阅卡方分布表,我们可以得出检验结果,确定两个分类变量之间的关联性。
5. 列联表和期望频数独立性检验的前提是我们需要有观察数据和期望数据。
观察数据是指我们实际获得的数据,期望数据是指两个分类变量独立时的理论分布情况。
为了进行独立性检验,我们通常会将观察数据整理成列联表形式,并计算期望频数,以便进行后续分析。
6. 自由度和显著性水平在独立性检验中,自由度是一个重要的概念。
自由度取决于列联表的行数和列数。
自由度的选择会影响卡方统计量的分布。
显著性水平是我们设定的接受或拒绝原假设的临界点。
通常情况下,我们使用0.05的显著性水平作为判断标准。
7. 应用案例独立性检验广泛应用于各个领域,如医学、社会科学、市场调研等。
D.有以上的把握认为“爱好该项运动与性别⽆关”
考点:利⽤k2进⾏独⽴性检验
知识点:2*2列联表、两分类变量之间关联的定性分析的⽅法答案:C 解析:,在犯错误的概率不超过的前提下,认为“爱好该项运动与性别有关”
即有以上的把握认为“爱好该项运动与性别有关”故选:.
⼀般已测:4499次正确率:71.9 %
9.现⾏普通⾼中学⽣在⾼⼀升⾼⼆时⾯临着选⽂理科的问题,学校抽取了部分男、⼥学⽣意愿的⼀份样本,制作出如下两个等⾼堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的是( ).
A.样本中的⼥⽣数量多于男⽣数量
B.样本中有理科意愿的学⽣数量多于有⽂科意愿的学⽣数量
C.样本中的男⽣偏爱理科
D.样本中的⼥⽣偏爱⽂科
考点:列联表与等⾼条形图的应⽤知识点:等⾼条形图答案:D
解析:由图可知,男、⼥⽣均偏爱理科,故错误.故选.
简单已测:4267次正确率:96.0 %
10.如图的等⾼条形图可以说明的问题是( )
99%∵K = ≈7.8>6.6352
60×50×60×50
110×(40×30−20×20)2
∴0.01=1%99%C D D。
高考数学专题复习:独立性检验一、单选题1.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,则2K 的观测值可能为( ) k 2.706 A .2 3.206K =B .2 6.625K =C .27.869K =D .211.208K =2.某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到2 3.936K =,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为( )A .1%B .5%C .95%D .99%3.某校为了调查喜欢语文与性别的关系,随机调查了一些学生,数据如下表,由此判断喜欢语文与性别有关系,那么这种判断出错的可能性为( )()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .99.5%B .5%C .0.5%D .95%4.以下四个命题,其中正确的个数有( )①在独立性检验中,随机变量2K 的观测值越大,“认为两个分类变量有关”,这种判断犯错误的概率越小.②在线性回归方程ˆ0.80.35yx =-时,变量x 与y 具有负的线性相关关系; ③随机变量X 服从正态分布2(3,)N σ,若(4)0.64P X ≤=,则(23)0.07P X ≤≤=; ④两个随机变量相关性越强,则相关系数r 的值越接近于1. A .1个B .2个C .3个D .4个5.两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表如下表所示:则下列四组数据中,分类变量X 和Y 之间关系最强的是( ) A .4a =,2b =,3c =,6d = B .2a =,1b =,3c =,5d = C .4a =,5b =,6c =,8d =D .2a =,3b =,4c =,6d =6.为了丰富教职工业余文化生活,某校计划在假期组织70名老师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男老师选择方案一,有75%的女老师选择方案二,且选择方案一的老师中女老师占40%,则参照附表,得到的正确结论是( )附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”7.利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.236K =,参照下表:得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关"D .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”8.如果根据性别与是否爱好运动的列联表得到2 3.852 3.841x ≈>,所以判断性别与运动有关,那么这种判断犯错的可能性不超过( ) A .2.5%B .0.5%C .1%D .5%9.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用22⨯列联表进行独立性检验.经计算2 6.058K =,则所得到的统计学结论是:有( )的把握认为“学生性别与支持该活动有关系”A .0.025%B .97.5%C .99%D .99.9%10.根据分类变量x 与y 的观测数据,计算得到2 2.974χ=.依据0.05α=的独立性检验,结论为( )A .变量x 与y 不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.05C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.05二、填空题11.为了调查高中学生参加课外兴趣活动选篮球和舞蹈是否与性别有关,现随机调查了30名学生,得到如下22⨯列联表:根据表中的数据,及观测值2K(其中22()()()()()n ad bcKa b c d a c b d-=++++),参考数据:则在犯错误的概率不超过__________前提下,认为选择舞蹈与性别有关.12.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:(单位:人)由上表中数据计算得2K的观测值22105(10302045)6.10955503075K⨯⨯-⨯=≈⨯⨯⨯,请估计在犯错误的概率不超过__________的前提下认为“文化程度与月收入有关系”.13.利用独立性检验的方法调查高中性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.245K≈,参照下表2.706 至少有__________以上的把握认为“爱好该项运动与性别有关”.14.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =250(1320107)23272030⨯⨯-⨯⨯⨯⨯≈4.844.则认为选修文科与性别有关系出错的可能性为__________.三、解答题15.为了解某市市民对政府出台楼市限购令的态度,在该市随机抽取了50名市民进行调查,他们月收入(单位:百元)的频率分布直方图如下:(1)求该市市民平均月收入的估计值(每组数据以区间中点值为代表).(2)将月收入不低于7500元称为“高收入”,否则称为“非高收入”,根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为市民对楼市限购令的态度与收入有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.16.为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果: 表1:男生上网时间与频数分布表表2:女生上网时间与频数分布表(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数; (2)完成联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”.附:()()()()22()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.0.45517.某大学为鼓励学生进行体育锻炼,购买了一批健身器材供学生使用,并从该校大一学生中随机抽取了100名学生调查使用健身器材的情况,得到数据如表所示:(1)设每周使用健身器材的次数不低于3次为“爱好健身”,根据上表数据,填写22⨯列联表,并判断能否在犯错误的概率不超过0.10的前提下认为“男生和女生在使用健身器材的爱好方面有差异”;(2)从上述每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,再从抽取的5名学生中随机抽取3人,求3人中至多有一名女生的概率.18.在对人们休闲方式的一次调查中,仅就看电视与运动这两种休闲方式比较喜欢哪一种进行了调查.调查结果:接受调查总人数110人,其中男、女各55人;受调查者中,女性有30人比较喜欢看电视,男性有35人比较喜欢运动.(1)请根据题目所提供的调查结果填写下列22⨯列联表:(2)能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”?注:22()()()()()n ad bcKa b c d a c b d-=++++,(其中n a b c d=+++为样本容量)参考答案1.B【分析】根据把握率确定2K的观测值区间范围即可选择.【详解】∵有97.5%的把握但没有99%的把握,∴2K的观测值区间范围为[5.024,6.635),结合选项可知,2K的观测值可能为6.625.故选:B2.B【分析】根据2K的值,对照附表即可得解.【详解】由题得2 3.936 3.841K=>,所以判定玩手机游戏与学习成绩有关系,这种判断出错的可能性为5%. 故选:B3.C【分析】计算出2K的值可得答案.【详解】因为()22501520510258.33320307.89225753K⨯⨯-⨯==≈>⨯⨯⨯,所有这种判断出错的可能性0.5%.故选:C.4.A【分析】利用随机变量2K的观测值越大,说明两个变量有关系的可能性越大判断①;根据回归方程一次项系数的正负判断②;根据正态分布的性质判断③; 利用线性相关的概念判断④. 【详解】①:在独立性检验中,因为随机变量2K 的观测值越大,说明两个变量有关系的可能性越大,即犯错误的概率越大,故①错误;②:回归方程ˆ0.80.35yx =-的一次项系数为-0.35<0,故变量x 与y 具有负的线性相关关系,故②正确;③:随机变量X 服从正态分布2(3)N σ,,则(34)(4)(3)0.640.50.14P X P X P X <≤=≤-<=-=, 由对称性可知,(23)0.14P X ≤≤=,故③错误;④:两个随机变量的线性相关关系越强,则相关系数r 的绝对值越接近于1,故④错误. 正确的选项有1个. 故选:A 5.A 【分析】逐项求出ad bc -的值并加以对比,最大值对应的分类变量之间关系最强. 【详解】我们可以用ad bc -的大小近似的判断两个分类变量之间关系的强弱,ad bc -的值越小,关系越弱,越大,关系越强.这四组数据中ad bc -的值分别为18、7、2、0, 所以A 组数据的ad bc -的值最大,相比较而言这组数据反应的X 和Y 的关系最强. 故选:A. 6.C 【分析】设该校男老师的人数为x ,女老师的人数为y ,根据条件,得到22⨯列联表,求出x ,y 的值,利用公式计算2K 的值,再与表中临界值比较可得结果. 【详解】设该校男老师的人数为x ,女老师的人数为y ,则可得如下表格:由题意0.40.50.25x y =+,可得43y x =,可得30x =,40y =,则()227015301510 4.667 3.84125453040K ⨯-⨯=≈>⨯⨯⨯, 但4.667 5.024<,所以无97.5%以上有95%以上的把握认为“选择方案与性别有关”. 故选:C. 7.B 【分析】由已知的27.236K =,对比临界值表可得答案 【详解】解:因为27.236 6.635K =>,所以有99%以上的把握认为“爱好该项运动与性别有关”. 故选:B. 8.D 【分析】根据临界值附表比较,即得结论. 【详解】根据以下临界值附表可知这种判断犯错的可能性不超过5%. 故选:D 9.B【分析】将2K 的值与表中数据比较大小可知5.024 6.058 6.635<<,由此确定出相应的把握有多少.【详解】因为2 6.058K =,对照表格:5.024 6.058 6.635<<,所以有10.0250.97597.5%-==的把握认为“学生性别与是否支持该活动有关系”. 故选:B.10.C【分析】由表中数据以及独立性检验的思想即可得出结果.【详解】0.05α=时,2 3.841 2.974χ=>,所以在犯错概率不超过0.1时变量x 与y 有关.故选:C11.0.025【分析】由列联表中的数据,根据公式计算出2K 的值,再对照临界表即可得答案.【详解】 解:由列联表中的数据可得,2230(13827)27 5.4 5.024*********K ⨯⨯-⨯===>⨯⨯⨯, 所以在犯错误的概率不超过0.025的前提下,认为选择舞蹈与性别有关.故答案为:0.025.12.0.025【分析】根据2K ,对比临界值即可得出结论.【详解】∵6.109 5.024>,故能在犯错误的概率不超过0.025的前提下认为“文化程度与月收入有关系”.故答案为:0.025.13.99%【分析】根据卡方的值与参考数据比较即可判断;【详解】解:因为27.245K ≈,6.6357.2457.879<<,所以10.0199%-=故至少有99%以上的把握认为“爱好该项运动与性别有关”,故答案为:99%14.5%【分析】根据观测值k ≈4.844以及独立性检验的基本思想即可得出结果.【详解】K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.故答案为:5%15.(1)63;(2)表格见解析,有.【分析】(1)每组数据区间中点值乘以该组的频率求和可得答案;(2)根据每组频率乘以50可得每组的人数可完成列联表,计算2K 可得答案.【详解】(1)该市市民平均月收入的估计值为400.1500.2600.3700.2800.1900.163⨯+⨯+⨯+⨯+⨯+⨯=.(2)根据频率分布直方图知每组的人数分别为5,10,15,10,5,5.可得22⨯列联表如下:所以()22502882128.33340103020K ⨯⨯-⨯=≈⨯⨯⨯,因为8.333 6.635>,所以有99%的把握认为市民对楼市限购令的态度与收入有关.16.(1)225;(2)列联表答案见解析,没有90%的把握认为“大学生上网时间与性别有关”.【分析】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,计算即可; (2)填写列联表,计算2K ,对照临界值得出结论.【详解】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,解得225x =,所以估计其中上网时间不少于60分钟的人数是225.(2)塻22⨯列联表如下:由表中数据可得到22200(60304070) 2.20 2.70610010013070K ⨯-⨯=≈<⨯⨯⨯, 故没有90%的把握认为“大学生上网时间与性别有关”.17.(1)表格见解析,不能;(2)710. 【分析】(1)根据已知数据统计列联表中的各项的人数,填写列联表,进而计算2K 并与0.1的临界值进行比较,得到论断;(2)利用分层抽样的等比例原则求得抽取的5人中男女生的人数,利用符号表示每个学生,利用列举法计数,得到所求概率.【详解】解:(1)填写的列联表如下所示:()2210222422320.506 2.70644565446K ⨯⨯-⨯=≈<⨯⨯⨯.所以不能在犯错误的概率不超过0.1的前提下认为“男生和女生在使用健身器材的爱好方面有差异”.(2)从每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,则抽取男生3名,抽取女生2名.将抽取的3名男生分别记为a ,b ,c ,2名女生分别记为m ,n ,则从5人中随机抽取3人的不同情况有abc ,abm ,abn ,acm ,acn ,amn ,bcm ,bcn ,bmn ,cmn ,共10种, 其中至多有一名女生的情况有abc ,abm ,abn ,acm ,acn ,bcm ,bcn ,共7种. 所以从抽取的5名学生中随机抽取3人,至多有一名女生的概率为710. 18.(1)答案见解析;(2)不能.【分析】(1)由题意填写列联表即可;(2)代入数据计算2K 的观测值,比较观测值与3.841的大小,判断能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系” .【详解】解.(1)根据题目所提供的调查结果,可得下列22⨯列联表:(2)根据列联表中的数据,可计算()2211030352025 3.66750605555K ⨯⨯-⨯=≈⨯⨯⨯,因为03.667 3.841k k ≈<=,所以不能在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”.。
专题19 独立性检验一、解答题1.(2022·全国·高考真题)一医疗团队为研究某地的一种地方性疾病与当地居民的卫生习惯(卫生习惯分为良好和不够良好两类)的关系,在已患该疾病的病例中随机调查了100例(称为病例组),同时在未患该疾病的人群中随机调查了100人(称为对照组),得到如下数据:(2)从该地的人群中任选一人,A表示事件“选到的人卫生习惯不够良好”,B表示事件“选到的人患有该疾病”.(|) (|)P B A P B A 与(|)(|)P B AP B A的比值是卫生习惯不够良好对患该疾病风险程度的一项度量指标,记该指标为R.(ⅰ)证明:(|)(|)(|)(|)P A B P A BRP A B P A B=⋅;(ⅰ)利用该调查数据,给出(|),(|)P A B P A B的估计值,并利用(ⅰ)的结果给出R的估计值.附22()()()()()n ad bcKa b c d a c b d-=++++,A和B两家公司运营,为了解这两家公司长途客车的运行情况,随机调查了甲、乙两城之间的500个班次,得到下面列联表:(2)能否有90%的把握认为甲、乙两城之间的长途客车是否准点与客车所属公司有关?附:22()()()()()n ad bcKa b c d a c b d-=++++,()2P K k0.1000.0500.010k 2.706 3.841 6.6353.(2021·全国·高考真题(文))甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:22()()()()()n ad bc K a b c d a c b d -=++++)国内某大学有男生6000人,女生4000人,该校想了解本校学生的运动状况,根据性别采取分层抽样的方法从全校学生中抽取100人,调查他们平均每天运动的时间(单位:小时),统计表明该校学生平均每天运动的时间范围是[]0,3,若规定平均每天运动的时间不少于2小时的学生为“运动达人”,低于2小时的学生为“非运动达人”.根据调查的数据按性别与“是否为‘运动达人’”进行统计,得到如下2×2列联表:前提下认为性别与“是否为‘运动达人’”有关;(2)将此样本的频率估计为总体的概率,随机调查该校的3名男生,设调查的3人中运动达人的人数为随机变量X ,求X 的分布列和数学期望()E X 及方差()D X . 附表及公式:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.5.(2022·青海·海东市第一中学模拟预测(文))某公司为了解用户对公司生产的产品的满意度做了一次随机调查,共随机选取了100位用户对其产品进行评分.用户对产品评分情况如表所示(已知满分100分,选取的100名用户的评分分值在区间[)70,100上).选取的100名用户中男性用户评分情况:(1)分别估计用户对产品评分分值在,,的概率;(2)若用户评分分值不低于80分,则定位用户对产品满意.填写下面的22⨯列联表,并分析有没有95%以上的把握认为用户对产品满意与否与性别有关?参考公式与数据:22()()()()()n ad-bcKa+b c+d a+c b+d=,n a b c d=+++.100周年,举办一系列活动,通过调查得知其中参加文艺活动与体育活动的居民人数如下表:0.5%的前提下认为参加活动的类型与性别有关?(2)在参加活动的男性居民中,用分层抽样方法抽取7人,再从这7人中随机抽取3人接受采访,记抽到参加文艺活动的人数为X,求X的分布列与期望.附:()()()()2()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.7.(2022·山西大附中三模(文))甲、乙两所学校高三年级分别有1000人,1100人,为了了解两所学校全体高三年级学生高中某学科基础知识测试情况,采用分层抽样方法从两个学校一共抽取了105名学生的该学科成绩,并作出了如下的频数分布统计表,规定考试成绩在[120,150]内为优秀. 甲校:(2)由以上统计数据填写下面2×2列联表,若按是否优秀来判断,是否有97.5%的把握认为两个学校的数学成绩有差异?规定;分数不低于125分为优秀.(1)求本次成绩的众数、中位数;(2)从该班中任意抽取一位学生,求该学生成绩优秀的概率;(3)完成下列22⨯列联表,并判断是否有90%的把握认为学生数学成绩是否优秀与性别有关?附:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.2022年2月4日在北京开幕,本次冬季奥运会共设7个大项,15个分项,109个小项.为调查学生对冬季奥运会项目的了解情况,某大学进行了一次抽样调查,若被调查的男女生人数均为10m (*m ∈N ),统计得到以下22⨯列联表,经过计算可得2 4.040K ≈.(2)为弄清学生不了解冬季奥运会项目的原因,采用分层抽样的方法从抽取的不了解冬季奥运会项目的学生中随机抽取9人,再从这9人中抽取2人进行面对面交流,求“至少抽到一名女生”的概率. 附:独立性检验临界值表(参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++)10.(2022·吉林·洮南市第一中学模拟预测(文))某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如表:(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++,11.(2022·河南·平顶山市第一高级中学模拟预测(文))2021年10月1日是中华人民共和国第72个国庆日,很多人通过短视频APP或微信、微博表达了对祖国的祝福.某调查机构为了解通过短视频APP或微信、微博表达对祖国祝福的人们是否存在年龄差异,将年龄不低于45岁的人称为中老年,低于45岁的人称为青少年.通过不同途径调查了数千个通过短视频APP或微信、微博表达对祖国祝福的人,并从参与者中随机选出400人.经统计这400人中通过微信、微博表达对祖国祝福的有320人,其中中老年占25,这400人中通过短视频APP表达对祖国祝福的青少年有28人.(1)完成下列22⨯列联表,并判断是否有99.9%的把握认为通过短视频APP或微信、微博表达对祖国的祝福与年龄有关?5人,再从这5人中随机抽取2人,求这2人中恰好有一个是青少年的概率. 附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.12.(2022·河南开封·模拟预测(理))大豆是我国重要的农作物,种植历史悠久.某种子实验基地培育出某大豆新品种,为检验其最佳播种日期,在A ,B 两块试验田上进行实验(两地块的土质等情况一致).6月25日在A 试验田播种该品种大豆,7月10日在B 试验田播种该品种大豆.收获大豆时,从中各随机抽取20份(每份1千粒),并测量出每份的质量(单位:克),按照[)100,150,[)150,200,[]200,250进行分组,得到如下表格:(1)判断是否有97.5%的把握认为大豆籽粒饱满与播种日期有关?(2)从A ,B 两块实验田中各抽取一份大豆,求抽取的大豆中至少有一份籽粒饱满的概率;(3)用样本估计总体,从A 试验田随机抽取100份(每份千粒)大豆,记籽粒饱满的份数为X ,求X 的数学期望和方差.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.数均为()*10n n ∈N ,统计得到以下2×2列联表,经过计算可得2 4.040K ≈.(2)①为弄清学生不喜欢长跑的原因,采用分层抽样的方法从调查的不喜欢长跑的学生中随机抽取9人,再从这9人中抽取3人进行面对面交流,求“至少抽到一名女生”的概率;②将频率视为概率,用样本估计总体,从该校全体学生中随机抽取10人,记其中对长跑喜欢的人数为X,求X的数学期望.附表:附:()()()()()22n ad bcKa b c d a c b d-=++++.14.(2022·四川省泸县第二中学模拟预测(理))中国探月工程自2004年立项以来,聚焦“自主创新、重点跨越、支撑发展、引领未来”的目标,创造了许多项中国首次.2020年12月17日凌晨,嫦娥五号返回器携带“月壤”着陆地球,又首次实现了我国地外天体无人采样返回.为了了解某中学高三学生对此新闻事件的关注程度,从该校高三学生中随机抽取了50名学生进行调查,调查样本中有20名女生.如图是根据样本的调查结果绘制的等高条形图(阴影区域表示关注“嫦娥五号”的部分).“嫦娥五号”的关注程度与性别有关”? (2)若将频率视为概率,现从该中学高三的女生中随机抽取3人.记被抽取的3名女生中对“嫦娥五号”新闻关注的人数为随机变量X ,求X 的分布列及数学期望.附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.)如今大家对运动越来越重视,讨论也越来越多,时常听到有人说“有氧运动”和“无氧运动”,有氧运动主要的作用是健身,而无氧运动主要的作用是塑形,一般的健身计划都是有氧运动配合无氧运动以达到强身健体的目的.某健身机构对其60位会员的健身运动进行了一次调查,统计发现有氧运动为主的有42人,30岁以下无氧运动为主的有12人,占30岁以下调查人数的25. (1)根据以上数据完成如下22⨯列联表;附:参考公式:()()()()2n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.16.(2022·四川省宜宾市第四中学校模拟预测(文))为了助力北京2022年冬奥会、冬残奥会,某校组织全校学生参与了奥运会项目知识竞赛. 为了解学生的竞赛成绩(竞赛成绩都在区间[50,100]内)的情况,随机抽取n 名学生的成绩,并将这些成绩按照[50,60),[60,70),[70,80),[80,90),[90,100]分成5组,制成了如图所示的频率分布直方图.其中[50,60),[60,70),[70,80)三组的频率成等比数列,且成绩在[90,100]的有16人.(1)求n 的值;(2)在这n 名学生中,将成绩在[80,100]的学生定义为“冬奥达人”,成绩在[50,80)的学生定义为“非冬奥达人”.请将下面的列联表补充完整,并判断是否有99%的把握认为“是否是冬奥达人与性别有关”?并说明你的理由.参考公式:2()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:据《漳州府志》记载,漳州地区在宋代就已经有布袋木偶戏了,清朝中叶后,布袋木偶戏开始进入兴盛时期,一直到抗日战争前,漳州的龙溪、漳浦、海澄、长泰等县,几乎乡乡都有布袋木偶戏,在传承的基础上,不断创新和发展壮大,走向更广阔的世界,为了了解民众对布袋木偶戏的了解程度,某单位随机抽取了漳州地区男女各100名市民,进行问卷调查根据调查结果绘制出得分条形图,如图所示形图,完成22⨯联表,并根据列联表,判断能否有90%的把握认为对布袋木偶戏的了解程度与性别有关?(2)恰逢三八妇女节,该单位对参与调查问卷的女市民制定如下抽奖方案;得分低于60分的可以获得1次抽奖机会,得分不低于60分的可以获得2次抽奖机会,每次抽奖结果相互独立,在一次抽奖中,获得一个木偶纪念品的概率为13,获得两个木偶纪念品的概率为16,不获得木偶纪念品的概率为12,在这100名女市民中任选一人.记X为她获得木偶纪念品的个数,求X的分布列和数学期望.参考公式:22()()()()()n ad bcKa b c d a c b d-=++++参考数据.居家隔离期间,人们对社会的依赖,对政府部门的期待也达到了前所未有的高度.某机构对封管区居民对政府部门的态度进行了一项网络调查,并随机抽取了100份问卷进行了成绩统计,得到下表,规定成绩在[]70,100为满意.状相同的4个白球,4个红球的口袋中,一次摸4个球,如果摸到2个红球获得20元话费,摸到3个红球获得50元话费,4个都是红球获得100元话费,某人参加了问卷调查,他获得的话费为X元,求X的分布列及数学期望.附:()()()()()22n ad bcKa b c d a c b d-=++++卫生与健康教育工作的意见》中指出:中小学生各项身体素质有所改善,大学生整体下降.某高校为提高学生身体素质,号召全校学生参加体育锻炼运,结合“微信运动”APP每日统计运动情况,对每日平均运动10000步或以上的学生授予“运动达人”称号,低于10000步称为“参与者”,统计了200名学生在某月的运动数据,结果如下:0.1的前提下认为获得“运动达人”称号与性别有关?(2)从全校运动“参与者”中按性别分层抽取8人,再从8人中选取3人参加特训,将男生人数记为X,求X 的分布列与期望EX.参考公式:()()()()()22n ad bcXa b c d a c b d-=++++,n a b c d=+++.“天宫课堂”第二课在中国空间站开讲,神舟十三号乘组航天员翟志刚、王亚平、叶光富相互配合进行授课,中央广播总台面向全球进行现场直播.此次授课活动采取天地对话方式进行,由航天员在轨演示太空“冰雪”实验、液桥演示实验、水油分离实验、太空抛物实验,介绍与展示空间科学实施,皆在传播普及空间科学知识,激发广大青年不断追寻“科学梦”实现“航天梦”的热情.某校组织在校中学生观看学习“天宫课堂”,并对其中500名学生进行了一次“飞天宇航梦”的调查,得到如下的两个等高条形图,其中被调查的男女学生比例为3:2.(1)求m ,n 的值(结果用分数表示);(2)完成以下表格,并根据表格数据判断能否有97.5%的把握认为学生性别和有飞天宇航梦有关?5人.若从这5人中随机抽取3人进一步调查,求抽到有飞天宇航梦的女生人数X 的分布列及数学期望.附表:()()()()()2,n ad bc K n a b c d a b c d a c b d -==+++++++.。
备战高考数学复习考点知识与题型讲解第86讲独立性检验考向预测核心素养利用2×2列联表和卡方独立性检验判断两个变量的相关关系是高考考查的热点,各种题型均会出现.数据分析、数学运算一、知识梳理1.分类变量与列联表(1)分类变量在讨论问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以区别不同的现象或性质,这类随机变量称为分类变量.分类变量的取值可以用实数表示.(2)2×2列联表列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为y 1y2合计x1a b a+bx2c d c+d合计a+c b+d a+b+c+d2.独立性检验(1)零假设以Ω为样本空间的古典概型.设X和Y为定义在Ω上,取值于{0,1}的成对分类变量.H:分类变量X和Y独立.通常称H0为零假设或原假设.(2)χ2公式假设我们通过简单随机抽样得到了X和Y的抽样数据列联表,如下表所示:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).对于任何小概率值α,可以找到相应的正实数xα,使得下面关系成立:P(χ2≥xα)=α.我们称xα为α的临界值,这个临界值就可作为判断χ2大小的标准.概率值α越小,临界值xα越大.(3)独立性检验基于小概率值α的检验规则是:当χ2≥xα时,我们就推断H0不成立,即认为X和Y不独立,该推断犯错误的概率不超过α;当χ2<xα时,我们没有充分证据推断H0不成立,可以认为X和Y独立.这种利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.二、教材衍化1.(人A选择性必修第三册P134练习T1改编) 为调查中学生近视情况,测得某校男生150名中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )A.回归分析 B.均值与方差C.独立性检验 D.概率答案:C2.(人A选择性必修第三册P134练习T4改编)为了判断高三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:根据表中数据,得到χ2=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性不大于________.解析:χ2≈4.844>3.841=x0.05,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性不大于0.05.答案:0.053.(人A选择性必修第三册P132例3改编)随着国家三孩政策的放开,为了调查一线城市和非一线城市的三孩生育意愿,某机构用简单随机抽样的方法从不同地区调查了100位育龄妇女,结果如下表.由χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),得χ2=100×(45×22-20×13)265×35×58×42≈9.616.参照下表:α根据小概率值α=0.010的独立性检验,可以得到的结论是____________.答案:生育意愿与城市级别有关一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)独立性检验是检验两个分类变量是否有关的一种统计方法.( )(2)独立性检验得到的结论一定是正确的.( )(3)独立性检验的样本不同,其结论可能不同.( )(4)若事件X,Y关系越密切,则由观测数据计算得到的χ2越小.( ) 答案:(1)√(2)×(3)√(4)×二、易错纠偏1.(列联表意义不明致误)下面是2×2列联表:y 1y2合计x1a 2173x2222547合计 b 46120则表中a,b的值分别为( )A.94,72 B.52,50C.52,74 D.74,52解析:选C.因为a+21=73,所以a=52.又a+22=b,所以b=74.2.(独立性检验理解不当致误)(2022·揭阳模拟)随机询问50名大学生调查爱好某项运动是否和性别有关.利用2×2列联表计算得χ2=8.333,则下列结论正确的是( )附:α0.0100.0050.001αA.在犯错误的概率不大于0.005的前提下认为“是否爱好该项运动与性别有关”B.在犯错误的概率不大于0.005的前提下认为“是否爱好该项运动与性别无关”C.在犯错误的概率不大于0.001的前提下,认为“是否爱好该项运动与性别有关”D.在犯错误的概率不大于0.001的前提下,认为“是否爱好该项运动与性别无关”解析:选 A.因为8.333>7.879,由附表知,在犯错误的概率不大于0.005的前提下,认为“是否爱好该项运动与性别有关”.故选A.考点一分类变量与列联表(自主练透)复习指导:掌握分类变量的含义;通过实例,理解2×2列联表的统计意义.1.(多选)根据如图所示的等高堆积条形图,下列叙述正确的是( )A.吸烟患肺病的频率约为0.2B.吸烟不患肺病的频率约为0.8C.不吸烟患肺病的频率小于0.05D.不能判断吸烟与患肺病之间的关系解析:选ABC.从等高堆积条形图上可以明显地看出,吸烟患肺病的频率远远大于不吸烟患肺病的频率.A,B,C都正确,D不正确.2.(2022·湖南省永州市高三适应性考试)“直播电商”已经成为当前经济发展的新增长点,某电商平台的直播间经营化妆品和服装两大类商品,2021年前三个季度,该直播间每个季度的收入都比上一季度的收入翻了一番,其前三季度的收入情况如图所示,则( )A.该直播间第三季度总收入是第一季度总收入的3倍B.该直播间第二季度化妆品收入是第三季度化妆品收入的1 3C.该直播间第一季度化妆品收入是第三季度化妆品收入的1 6D.该直播间第三季度服装收入低于前两个季度的服装收入之和解析:选B.对于选项A,因为该直播间每个季度的收入都比上一季度的收入翻了一番,所以第三季度的总收入是第一季度的2×2=4倍,故A错误;对于选项B,设第一季度的总收入为a,则第二季度、第三季度的总收入分别为2a,4a,第二季度的化妆品收入为2a×20%=0.4a,第三季度的化妆品收入为4a×30%=1.2a,所以第二季度化妆品收入是第三季度化妆品收入的0.4a1.2a=13,故B正确;对于选项C,第一季度的化妆品收入为a×10%=0.1a,所以第一季度化妆品收入是第三季度化妆品收入的0.1a1.2a=112,故C错误;对于选项D,第一、二季度服装收入和为a+2a-0.1a-0.4a=2.5a,第三季度服装收入为4a-1.2a=2.8a,故D错误.故选B.3.(2022·上海华师大二附中高二月考)假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其2×2列联表为XY合计y1y2x1a b a+bx2c d c+d合计a+c b+d a+b+c+d对同一样本,以下数据能说明X与Y有关的可能性最大的一组为( )A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=3,b=2,c=4,d=5解析:选D.对于同一样本,|ad-bc|越小,说明X与Y相关性越弱,而|ad-bc|越大,说明X与Y相关性越强,通过计算知,对于A、B、C都有|ad-bc|=|10-12|=2;对于选项D,有|ad-bc|=|15-8|=7,显然7>2.4.为了搞好对外宣传工作,会务组选聘了30名记者担任对外翻译工作,在下面“性别与会俄语”的2×2列联表中,a-b+d=________.性别俄语合计会俄语不会俄语男 a b 20女6 d合计1830解析:由2×2列联表的性质,可得:a=18-6=12,b=20-12=8,6+d=30-20,可得d=4,所以a-b+d=8.答案:8求解参数的方法(1)根据等高堆积条形图的高度差直接判断.(2)直接利用2×2列联表的性质,建立方程即可求参数.考点二独立性检验(多维探究)复习指导:通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验的基本思想、方法及初步应用.角度1 简单的独立性检验问题某校推广新课改,在两个程度接近的班进行试验,一班为新课改班级,二班为非课改班级,经过一个学期的教学后对期末考试进行分析评价,规定:总分超过550(或等于550分)为优秀,550以下为非优秀,得到以下列联表:优秀非优秀合计一班3513二班1725合计(1)请完成列联表;(2)依据小概率值α=0.01的独立性检验,能否认为推广新课改与总成绩是否优秀有关系?参考数据:α0.10.050.010.005xα2.7063.841 6.6357.879χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).【解】(1)优秀非优秀合计一班351348二班172542合计523890 (2)零假设为H0:推广新课改与总成绩是否优秀无关.根据列联表中的数据,得到χ2=90×(35×25-13×17)248×42×52×38≈9.663>6.635=x0.01,故根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为推广新课改与总成绩是否优秀有关系,此推断犯错误的概率不大于0.01.角度2 独立性检验与统计、概率的综合问题(2022·四川雅安5月三模改编)高铁在出行方式中越来越受欢迎,某部门利用大数据随机抽取了出行人群中的100名旅客进行调查统计,得知在40岁及以下的旅客中乘坐高铁出行的占23.(1)请完成下面的2×2列联表,并依据小概率值α=0.001 的独立性检验,分析能否认为乘坐高铁出行与年龄有关;(2)为提升服务质量,该部门从这100名旅客中按年龄采用分层随机抽样的方法选取5人参加座谈会,会后再进行抽奖活动,奖品共三份,由于年龄差异,规定40岁及以下的旅客若中奖,则每人得800元,40岁以上的旅客若中奖,则每人得1 000元,设三份奖品总金额为X 元,求X 的分布列与数学期望.参考公式:χ2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:【解】 (1)由已知可得,样本中40岁及以下乘坐高铁出行的有60×23=40(人).2×2列联表如下:零假设为H 0:乘坐高铁出行与年龄无关.由列联表中的数据计算可得χ2=100×(40×30-20×10)260×40×50×50≈16.667>10.828=x0.001.根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为乘坐高铁出行与年龄有关,此推断犯错误的概率不大于0.001.(2)采用分层随机抽样的方法,则从40岁及以下的人中抽取3人,从40岁以上的人中抽取2人.X的所有可能取值为2 400,2 600,2 800.P(X=2 400)=C33C02C35=110,P(X=2 600)=C23C12C35=35,P(X=2 800)=C13C22C35=310.故分布列如下:X 2 400 2 600 2 800P11035310E(X)=2 400×110+2 600×35+2 800×310=2 640.(1)在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.(2)解决独立性检验的应用问题,一定要按照独立性检验的步骤得到结论.独立性检验的一般步骤:①根据样本数据制成2×2列联表;②根据公式χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算得到χ2的值;③比较χ2的值与临界值的大小关系,作统计推断.|跟踪训练|(2022·西藏拉萨那曲第二高级中学高三月考)某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(40,50]的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个2×2列联表:依据小概率值α=0.01的独立性检验,能否认为语文成绩是否优秀与课外阅读时间有关?参考公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d). 参考数据:解:(1)设这50名同学的平均阅读时长为x-min,则x-=5×4+15×10+25×14+35×18+45×450=26.6,故这50名同学的平均阅读时长为26.6 min.(2)设这4名学生中分别为甲、乙、丙、丁,从这4名学生中任取2名学生,所有的样本点有:(甲,乙),(甲,丙),(甲,丁),(乙,丙),(乙,丁),(丙,丁),共6个,其中,事件“甲同学被选中”所包含的样本点有:(甲,乙),(甲,丙),(甲,丁),因此,所求概率为P=36=12.(3)零假设为H0:语文成绩是否优秀与课外阅读时间无关.由列联表中的数据计算得χ2=50×(20×25-2×3)222×28×23×27≈31.897>6.635=x0.01,因此,根据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为语文成绩是否优秀与课外阅读时间有关,此推断犯错误的概率不大于0.01.[A 基础达标]1.下面的等高条形图可以说明的问题是( )A.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响是绝对不同的B.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响没有什么不同C.此等高条形图看不出两种手术有什么不同的地方D.“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握解析:选D.由等高条形图可知“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的频率不同,所以“心脏搭桥”手术和“血管清障”手术对“诱发心脏病”的影响在某种程度上是不同的,但是没有100%的把握,所以选项D正确,故选D.2.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,得到“偏爱蔬菜还是肉类与性别有关”这个结论犯错误的概率大于0.001,而不大于0.01,则χ2的值可能为( ) 附表:A.3.206B.6.561C.7.879D.11.028解析:选 C.根据题意得χ2的取值范围为[6.635,10.828),因此χ2的值可能为7.879.故选C.3.(多选)假设有两个分类变量X和Y,其2×2列联表如下表所示:在犯错误的概率不超过0.05的前提下,下面哪个选项可以认为变量X,Y有关( )A.a=10 B.a=12C.a=8 D.a=9解析:选ACD.根据列联表知,aa+40与30-a60-a的差距越小,则越无法认为变量X,Y有关联,分析四个选项,B选项中,a=12时,aa+40与30-a60-a的差距最小,且不满足犯错误的概率不超过0.05的条件,而其他选项均满足.4.小波同学为了验证谚语“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表,并计算得到χ2≈19.05,下列小波对地区A 天气判断不正确的是( )附表:A.夜晚下雨的概率约为1 2B.未出现“日落云里走”夜晚下雨的概率约为5 14C.做出“‘日落云里走’是否出现与当晚是否下雨有关”这一推断犯错误的概率不大于0.001D.出现“日落云里走”,有99.9%的把握认为夜晚会下雨解析:选D.据列联表,100天中有50天下雨,50天未下雨,因此下雨的概率约为50 100=12,A正确;同样,未出现“日落云里走”夜晚下雨的概率约为2525+45=514,B正确;因为χ2≈19.05>10.828=x0.001,所以做出“‘日落云里走’是否出现与当晚是否下雨有关”这一推断犯错误的概率不大于0.001,C正确;有关只是说可能性,不代表一定下雨,D错误.故选D.5.(多选)某俱乐部为了解会员对运动场所的满意程度,随机调查了50名会员,每位会员对俱乐部提供的场所给出满意或不满意的评价,得到如图所示的列联表,经计算χ2≈5.059,则可以推断出( )附:A.该俱乐部的男性会员对运动场所满意的概率的估计值为2 3B.调查结果显示,该俱乐部的男性会员比女性会员对俱乐部的场所更满意C.做出“男性会员、女性会员对运动场所的评价有差异”这一推断犯错误的概率不大于0.05D.做出“男性会员、女性会员对运动场所的评价有差异”这一推断犯错误的概率不大于0.01解析:选ABC.对于选项A,该俱乐部男性会员对运动场所满意的概率的估计值为18 27=23,故A正确;对于选项B,该俱乐部女性会员对运动场所满意的概率的估计值为823,而23=4669>823=2469,故B正确;因为χ2≈5.059>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,我们认为男性会员、女性会员对运动场所的评价有差异,此推断犯错误的概率不大于0.05,故C正确,D错误.6.(多选)某机构在研究性别与是否爱好拳击运动的关系中,通过收集数据得到如下2×2列联表.经计算得χ2=100×(35×28-15×22)250×50×57×43≈6.895.之后又对被研究者的身高进行了统计,得到男、女身高分别近似服从正态分布N(175,16)和N(164,9),则下列选项中正确的是( )A.“爱好拳击运动与性别有关”,这个结论犯错误的概率不超过0.01B.在100个男生中,至少有一个人爱好打拳击C.男生身高的平均数为175,男生身高的标准差为16D.女生身高的平均数为164,女生身高的标准差为3解析:选AD.χ2≈6.895>6.635=x0.01,A对;显然B错;男生身高的标准差为4,C 错;显然D对,故选AD.7.(2022·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层随机抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)根据上述数据,推断视觉和空间想象能力与性别有关系,则这种推断犯错误的概率不超过________.附表:解析:由列联表计算得χ2=50×(22×12-8×8)2≈5.556>3.841=x0.05,所以推断犯错误的概率不超过0.05.30×20×20×30答案:0.058.(2022·黑龙江模拟)为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:性别疗效合计无效有效男性患者153550女性患者64450合计2179100设H0:服用此药的效果与患者的性别无关,则χ2≈________(小数点后保留3位有效数字),从而得出结论;服用此药的效果与患者的性别有关,这种判断出错的概率不大于________.解析:由公式计算得χ2=100×(15×44-6×35)221×79×50×50≈4.882,因为χ2>3.841=x0.05根据α=0.05的独立性检验,分析服用此药的效果与患者的性别有关,判断出错的概率不大于0.05.答案:4.882 0.059.(2022·山东省济南市高二期末)为了研究某种疾病的治愈率,某医院对100名患者中的一部分患者采用了外科疗法,另一部分患者采用了化学疗法,并根据两种治疗方法的治愈情况绘制了等高堆积条形图,如下:(1)根据图表完善以下关于治疗方法和治愈情况的2×2列联表;疗法疗效合计未治愈治愈外科疗法化学疗法18合计100(2)依据小概率值α=0.05的独立性检验,分析此种疾病治愈率是否与治疗方法有关.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).(如需计算χ2,结果精确到0.001)α0.10.050.010.0050.001xα2.7063.841 6.6357.87910.828解:(1)根据等高条形图,采用化学疗法的治愈率为30%,由列联表得化学疗法治愈的人数为18人,故采用化学疗法的人共有18÷30%=60人,采用外科疗法的有40人,其中治愈的有40×50%=20人.所以列联表如下表:疗法疗效合计未治愈治愈外科疗法202040化学疗法421860合计6238100 (2)零假设为H0:设此种疾病治愈率与治疗方法无关.则根据列联表中的数据计算χ2=100×(20×18-42×20)262×38×60×40=2 400589≈4.075>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为此种疾病治愈率与治疗方法有关,此推断犯错误的概率不大于0.05.10.(2022·福州市质量检测)某部门研究成果认为,房租支出超过月收入13的租户“幸福指数”低,房租支出不超过月收入13的租户“幸福指数”高.为了了解甲、乙两小区租户的幸福指数高低,随机抽取甲、乙两小区的租户各100户进行调查.甲小区租户的月收入以[0,3),[3,6),[6,9),[9,12),[12,15](单位:千元)分组的频率分布直方图如图所示.乙小区租户的月收入(单位:千元)的频数分布表如下:(1)设甲、乙两小区租户的月收入相互独立,记M表示事件“甲小区租户的月收入低于6千元,乙小区租户的月收入不低于6千元”,把频率视为概率,求M的概率;(2)利用频率分布直方图,求所抽取的甲小区100户租户的月收入的中位数;(3)若甲、乙两小区每户的月租费分别为2千元、1千元.请根据条件完成下面的2×2列联表,并依据小概率值α=0.001的独立性检验,分析幸福指数与租住的小区是否有关.附:临界值表参考公式:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解:(1)记A表示事件“甲小区租户的月收入低于6千元”,记B表示事件“乙小区租户的月收入不低于6千元”,甲小区租户的月收入低于6千元的频率为(0.060+0.160)×3=0.66,故P(A)的估计值为0.66;乙小区租户的月收入不低于6千元的频率为24+9+2100=0.35,故P(B)的估计值为0.35.因为甲、乙两小区租户的月收入相互独立,所以事件M的概率的估计值为P(M)=P(A)P(B)=0.66×0.35=0.231.(2)设甲小区所抽取的100户租户的月收入的中位数为t,则0.060×3+(t-3)×0.160=0.5,解得t=5.(3)零假设为H0:幸福指数与租住的小区无关.根据2×2列联表中的数据,得到χ2=200×(66×62-34×38)2100×100×104×96≈15.705>10.828=x0.001,依据小概率值α=0.001的独立性检验,我们认为H0不成立,即认为幸福指数与租住的小区有关,此推断犯错误的概率不大于0.001.[B 综合应用]11.(多选)(2022·梅州高二模拟)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若做出“是否喜欢抖音和性别有关”这一推断犯错误的概率不大于0.05,则调查人数中男生的人数可能为( )附表:附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).A.25 B.35C.45D.60解析:选CD.设男生可能有x人,依题意得女生有x人,可得2×2列联表如下:若做出“是否喜欢抖音和性别有关”这一推断犯错误的概率不大于0.05,则χ2≥3.841=x0.05,即χ2=2x·⎝⎛⎭⎪⎫45x·25x-35x·15x275x·35x·x·x=221x≥3.841,解得x≥40.330 5,由题意知x>0,且x是5的整数倍,所以45和60都满足题意.故选CD.12.(2022·青岛市统一质量检测)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55名学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30名.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).解析:由题意作出2×2列联表:则χ2=105×(45×20-10×30)2 55×50×75×30≈6.109>5.024=x0.025,所以认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过0.025.答案:0.025[C 素养提升]13.(2020·新高考卷Ⅱ改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:(3)根据(2)中的列联表,并依据小概率值α=0.01的独立性检验,能否认为该市一天空气中PM2.5浓度与SO2浓度有关?附:χ2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),解:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8 =64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64100=0.64.(2)根据抽查数据,可得2×2列联表:(3)零假设为H0:该市一天空气中PM2.5浓度与SO2浓度无关.根据(2)的列联表得χ2=100×(64×10-16×10)280×20×74×26≈7.484>6.635=x0.01.依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该市一天空气中PM2.5浓度与SO2浓度有关,此推断犯错误的概率不大于0.01.。
统计案例了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.1.22⨯列联表设X ,Y 为两个变量,它们的取值分别为12{}x x ,和12{}y y ,,其样本频数列联表(22⨯列联表)如下:1y2y总计1x a b a +b 2xc d c +d总计a +cb +da b c d +++2.独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 3.独立性检验的一般步骤(1)根据样本数据列出22⨯列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:20()P K k ≥ 0.500.40 0.25 0.15 0.100 0.050 0.025 0.010 0.005 0.0010k0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.考向一两类变量相关性的判断已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算2K,然后作出判断.典例 1 利用独立性检验来考查两个分类变量X和Y是否有关系时,通过查阅下表来确定“X和Y有关k>,那么就有把握认为“X和Y有关系”的百分比为系”的可信度.如果 5.024()2>0.500.400.250.150.100.050.0250.0100.0050.001 P K kK0.4550.708 1.323 2.072 2.706 3.84 5.024 6.6357.87910.828 A.25%B.75%C.2.5%D.97.5%【答案】D【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据进行比较,而在观测值表中对应于5.024的是0.025,从而得到结果.典例2 有人发现,多看电视容易使人变冷漠,下表是一个调査机构对此现象的调查结果:附表:()2P K k > 0.05 0.025 0.010 0.005 0.001K 3.84 5.024 6.635 7.879 10.828则认为多看手机与人冷漠有关系的把握大约为 A .99.9%B .97.5%C .95%D .90%【答案】A【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力.把所给的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得到所求的值大于10.828,得到有99.9%的把握认为看电视与人变冷漠有关系.1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:作文成绩优秀 作文成绩一般 总计课外阅读量较大 22 10 32 课外阅读量一般8 20 28 总计303060由以上数据,计算得到2K 的观测值9.643k ≈,根据临界值表,以下说法正确的是 附:P (K 2≥k 0) 0.50 0.40 0.25 0.15 0.10 0.05 0.05 0.010 0.005k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879A .在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”B .在犯错误的概率不超过0.001的前提下,认为作文成绩优秀与课外阅读量大有关C .在犯错误的概率不超过0.05的前提下,认为作文成绩优秀与课外阅读量大有关D .在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关考向二 独立性检验与概率统计的综合独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解问题.典例3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:现规定平均成绩在80分以上(不含80分)的为优秀. (1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面22⨯列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助?参考公式及数据:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.20()P K k ≥ 0.400.25 0.15 0.100 0.050 0.025 0.010k0.708 1.323 2.072 2.706 3.841 5.024 6.635【答案】(1)甲、乙两班的优秀率分别为60%和50%;(2)列联表见解析,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(2)22⨯列联表如下:因为22100(30252025)1001.010 1.3235050554599K⨯⨯-⨯==≈<⨯⨯⨯,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.2.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中随机抽取了55人,从美国某城市的高中生中随机抽取了45人进行答题.中国高中生答题情况是:选择家的占25、朋友聚集的地方占310、个人空间占310.美国高中生答题情况是:朋友聚集的地方占35、家占15、个人空间占15.如下表:在家里最幸福在其他场所幸福合计中国高中生美国高中生合计(1)请将22⨯列联表补充完整,试判断能否有95%的把握认为“恋家”与否与国别有关;(2)从被调查的不“恋家”的美国学生中,用分层抽样的方法选出4人接受进一步调查,再从4人中随机抽取2人到中国交流学习,求2人中含有在“个人空间”感到幸福的学生的概率.附:()()()()()22n ad bcka b c d a c b d-=++++,其中n a b c d=+++.()2P k k≥0.050 0.025 0.010 0.001k 3.841 5.024 6.635 10.8281.观察如图所示的等高条形图,其中最有把握认为两个分类变量x,y之间有关系的是A.B.C.D.2.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是A.100个心脏病患者中至少有99人打酣B.1个人患心脏病,那么这个人有99%的概率打酣C.在100个心脏病患者中一定有打酣的人D.在100个心脏病患者中可能一个打酣的人都没有3.已知两个统计案例如下:①为了探究患肺炎与吸烟的关系,调查了339名50岁以上的人,调查结果如下表:患肺炎未患肺炎总计②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:则对这些数据的处理所应用的统计方法是 A .①回归分析,②取平均值B .①独立性检验,②回归分析C .①回归分析,②独立性检验D .①独立性检验,②取平均值4.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是 A .18a =B .19b =C .50c d +=D .1f e -=5.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了下表:参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是 A .97.5% B .99% C .99.5%D .99.9%6.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据: (1)统计量:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)独立性检验的临界值表:则下列说法正确的是A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 7.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为 A .5,35b d == B .15,25b d == C .20,20b d ==D .30,10b d ==参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.8.某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22⨯列联表:根据表中数据得到,已知()23.8410.05P K ≥≈,()2 5.0240.025P K ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为A .97.5%B .95%C .2.5%D .5%9.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为__________. 附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.10.已知下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程0.52y x ∧=-+中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是__________.11.一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.其实,已有不少高校将游泳列为必修内容.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,该学校对100名高一新生进行了问卷调查,得到如下22⨯列联表:已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为35.(1)请将上述列联表22⨯补充完整,并判断是否可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)已知在被调查的学生中有6名来自高一(1)班,其中4名喜欢游泳,现从这6名学生中随机抽取2人,求恰有1人喜欢游泳的概率.附:()()()()()22=n ad bcKa b c d a c b d-++++12.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在A市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到表格:(单位:人)(1)根据以上数据,能否在犯错误的概率不超过0.15的前提下认为A市使用共享单车情况与年龄有关?(2)现从所抽取的30岁以上的网友中利用分层抽样的方法再抽取5人.(i)分别求这5人中经常使用、偶尔或不用共享单车的人数;(ii)从这5人中,再随机选出2人赠送一件礼品,求选出的2人中至少有1人经常使用共享单车的概率.参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:1.(2017年高考新课标Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ), 其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:P () 0.050 0.010 0.001k3.841 6.635 10.82822()()()()()n ad bc K a b c d a c b d -=++++.2.(2018年高考新课标Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.0500.0100.001k 3.841 6.63510.8281.【答案】D【解析】因为根据临界值表,9.643>7.879,所以在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关.故选D.【名师点睛】本题考查卡方含义,考查基本求解能力.根据临界值表,确定犯错误的概率即可. 2.【答案】(1)见解析;(2)12.【解析】(1)由已知得:在家里最幸福在其他场所幸福合计中国高中生22 33 55美国高中生9 36 45合计31 69 100∴()22100223693331695545K⨯⨯-⨯=⨯⨯⨯1001134.628 3.8413123⨯⨯=≈>⨯,∴有95%的把握认为“恋家”与否与国别有关.【思路点拨】(1)根据题意填写列联表,计算观测值2K,对照临界值表得出结论;变式拓展(2)用分层抽样方法抽出4人,其中在“朋友聚焦的地方”感到幸福的有3人,在“个人空间”感到幸福的有1人,分别设为123,,,a a a b ,再设“含有在‘个人空间’感到幸福的学生”为事件A ,求出基本事件数,即可求得概率值.1.【答案】D【解析】在等高条形图中,x 1,x 2所占比例相差越大,分类变量x ,y 有关系的把握越大. 故答案为D【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识的掌握水平和分析推理能力.(2)在等高条形图中,如果两个分类变量所占的比例差距越大,则说明两个分类变量有关系的把握越大. 2.【答案】D【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释. 3.【答案】B【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变量的相关程度,综上可知选B. 4.【答案】D【解析】因为725,625,6,7,50,50a c b d a e b f c d e f +==+==+=+=+=+=, 所以18,19,50,24,26,2a b c d e f f e ==+===-=. 故选D.【名师点睛】本题考查列联表有关概念,考查基本求解能力.先根据列联表列方程组,解得a ,b ,c ,d ,e ,f 再判断各选项. 5.【答案】A考点冲关【解析】由已知可得222()50(2510105) 6.3492()()()()35153020n ad bc K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯, 由临界值表可知2( 5.024)0.025P K ≥=,所以根据表中的数据可以认为喜爱打篮球与性别之间有关系的把握是97.5%,故选A. 6.【答案】C【解析】因为2240(141376)202021 4.91192K ⨯⨯-⨯=⨯⨯⨯≈,所以3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关. 7.【答案】D8.【答案】D【解析】由题意得2 4.844 3.841K ≈>,而()23.8410.05P K ≥≈,这种判断出错的可能性约为5%,故选D. 9.【答案】99.5% 【解析】因为K 2=()2502015-51025253020⨯⨯⨯⨯⨯⨯ ≈8.333,且P (K 2≥7.789)=0.005=0.5%.所以,我们有99.5%的把握认为是否同意限定区域停车与家长的性别有关.故答案为99.5%.【名师点睛】本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中档题.利用公式求得K 2,与临界值比较,即可得到结论. 10.【答案】①②③11.【答案】(1)列联表见解析,可以;(2)815. 【解析】(1)根据条件可知喜欢游泳的人数为3100605⨯=人. 完成22⨯列联表:喜欢游泳 不喜欢游泳 合计 男生 40 10 50 女生 20 30 50 合计6040100根据表中数据,计算()221004030201016.66710.82860405050K ⨯-⨯=≈>⨯⨯⨯所以可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,基本事件总数有15种:1213141112,,,,,a a a a a a a b a b 23242122343132414212,,,,,,,,,a a a a a b a b a a a b a b a b a b b b ,其中恰有一人喜欢游泳的基本事件有8种:1112212231324142,,,,,,,a b a b a b a b a b a b a b a b ,所以()815P A =. 【名师点睛】本题考查了独立性检验与运算求解能力,同时考查通过列举法求概率的应用,属于中档题.(1)根据题意计算喜欢游泳的学生人数,求出女生、男生多少人,完善列联表,再计算观测值2K ,对照临界值表即可得出结论;(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,通过列举法即可得到答案.12.【答案】(1)能在犯错误的概率不超过0.15的前提下认为A 市使用共享单车情况与年龄有关;(2)(i )经常使用共享单车的有3人,偶尔或不用共享单车的有2人;(ii )910.(2)(i )依题意可知,所抽取的5名30岁以上的网友中,经常使用共享单车的有6053100⨯=(人),偶尔或不用共享单车的有4052100⨯=(人). (ii )设这5人中,经常使用共享单车的3人分别记为a ,b ,c ;偶尔或不用共享单车的2人分别记为d ,e .则从5人中选出2人的所有可能结果为:(),a b ,(),a c ,(),a d ,(),a e ,(),b c ,(),b d ,(),b e ,(),c d ,(),c e ,(),d e ,共10种.其中没有1人经常使用共享单车的可能结果为:(),d e ,共1种, 故选出的2人中至少有1人经常使用共享单车的概率1911010P =-=. 1.【答案】(1)0.62;(2)列联表见解析,有99%的把握认为箱产量与养殖方法有关;(3)新养殖法优于旧直通高考养殖法.【解析】(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50 kg旧养殖法62 38新养殖法34 66K2=2 2006266343815.705 10010096104⨯⨯-⨯⨯⨯⨯()≈.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.【名师点睛】(1)频率分布直方图中小长方形面积等于对应概率,所有小长方形面积之和为1.(2)频率分布直方图中均值等于组中值与对应概率乘积的和.(3)均值大小代表水平高低,方差大小代表稳定性.2.【答案】(1)第二种生产方式的效率更高,理由见解析;(2)见解析;(3)能.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知7981802m+==.列联表如下:超过m不超过m第一种生产方式15 5第二种生产方式 5 15。