8.4列联表独立性检验
- 格式:ppt
- 大小:497.50 KB
- 文档页数:20
《列联表与独立性检验》教学分析一、本节知识结构框图二、重点、难点重点:22⨯列联表,独立性检验的思想和方法.难点:2χ统计量的导出和意义,独立性检验的思想和方法.三、教科书编写意图及教学建议统计最基本的思想是用样本推断总体,而估计和假设检验是两种基本而重要的推断方法.在前面的学习中,主要学习了统计估计的推断方法,例如,用样本数据的均值和方差分别估计总体的均值和方差;用样本相关系数估计两个数值变量的相关系数,从而推断这两个变量线性关系的密切程度;利用最小二乘思想估计一元线性回归模型中的参数等,本节结合具体实例,01,的分类变量的独立性,了解根据频率稳定到概率的原理及小概率原理,检验两个取值于{}独立性检验的思想方法,进一步提升学生的数据分析素养.本节内容对学生来说难度较大,涉及的基础知识有古典概型、条件概率、频率稳定到概率的原理及分类变量独立性的概念,涉及的统计思想方法主要是假设检验的思想方法.教科书结合丰富的实例,通过问题引导,采取了由易到难、逐步深入的处理方式,使学生了解独立性检验的基本思想.在本节教学中,应通过具体案例渗透独立性检验的基本思想和方法,使学生了解统计推断可能犯错误的特点,避免单纯地记忆独立性检验的基本步骤和机械地套用公式解决问题.应注重培养学生联系实际的意识,提高学生解决实际问题的能力.教科书注重信息技术与相关内容的有机融合,强调使用计算器、计算机等工具探索和解决问题.例如,在画等高堆积条形图时,借助信息技术作图,不但作出的图形准确美观,而且省时省力.面对复杂的计算,教学中应使用统计软件,解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上.8.3.1分类变量与列联表教科书首先设置问题情境,对某中学全体学生分性别就体育锻炼的经常性进行普查,全校523名女生中有331人经常锻炼,601名男生中有473人经常锻炼,据此判断该中学学生不同性别在体育锻炼的经常性方面是否有差异.由于是普查数据,而且仅对这所学校进行判断,因此只需分别计算出女生经常参加体的比率和男生经常参加体育锻炼的比率,并比较这两个值是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.实际计算的结果显示经常参加体育锻炼的比率男生比女生高15.4个百分点.因此可判断该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.这个问题还可以从概率的角度进行解答.从女生和男生中各随机选取一名学生,分别计算两个群体中抽到经常参加体育锻炼学生的概率,并比较两个概率是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.若令0,1,X ⎧⎨⎩该生为女生,该生为男生,0,1,Y ⎧⎨⎩该生不经常锻炼,该生经常锻炼,则问题可以转化为比较条件概率|(10)P Y X ==和|(11)P Y X ==是否相等.如果数据是采用抽样调查得到的,怎样判断两个条件概率是否相等,从而推断两个分类变量是否存在关联性呢?接着教科书设置了例1,根据随机样本数据,推断两所学校学生数学成绩的优秀率是否有差异.根据频率稳定于概率的原理,直观上看,如果两校学生数学成绩优秀的频率差异较大,则可推断对应的两个条件概率不等,从而认为两校学生的数学成绩优秀率存在差异.基于所给的数据,计算得到甲校学生数学成绩优秀的频率为0.2326;乙校学生数学成绩优秀的频率为0.1556.因为两个频率存在明显差异,所以可以认为两校学生的数学成绩优秀率存在差异,并且甲校学生的数学成绩优秀率高于乙校.但是频率具有随机性,频率与概率之间存在误差,因此根据频率进行推断有可能犯错误.对此教科书设置了一个思考栏目,让学生思考上面推断的结论是否可能犯错误,进而深刻理解抽样数据的随机性特点,实际上也指出,例1给出的解答方法也是有缺陷的,为后面引出独立性检验方法作了铺垫.1.数值变量与分类变量数值变量的取值为实数,其大小和运算都具有实际含义.例如年龄、身高、体重、学习成绩等都是数值变量,张明的身高是180cm,李立的身高是175cm,说明张明比李立高5cm.常见数值变量的数字特征(如均值、方差、百分位数等)均有明确的含义.分类变量的取值表示个体所属类别,例如性别变量是分类变量,取男、女两个值;同样,数学考试等级是分类变量,取优、良、中等、及格、不及格五个值;等等.有时也可以把分类变量的不同取值用实数表示,但这些数值仅作为编号使用,通常没有大小关系和运算意义,例如,用0表示“男”,1表示“女”,性别变量这个分类变量的取值就变成0和1,但这里的0和1仅作为分类用,没有其他含义,比较0和1的大小没有意义,通常计算其均值和方差也没有意义.2.列联表列联表是由两个及两个以上分类变量进行交叉分类的频数分布表,教科书中仅涉及两个分类变量的列联表,并且每个变量只取两个值,这样的列联表称为2×2列联表.一般的独立性检验并不要求每个分类变量只取两个值.在教学中,不要求给出这些概念的严格定义,只需给出描述性的说明即可.3.例题及其教学例1给出了借助概率的观点研究“两校学生的数学成绩优秀率之间是否存在差异”的过程:(1)根据实际问题,引入样本空间,建立古典概型,并定义分类变量X和Y.(2)将样本数据整理成2×2列联表的形式.(3)计算并比较分类变量X和Y相应的频率.(4)用等高堆积条形图直观展示上述频率.(5)根据频率稳定于概率的原理,估计分类变量X和Y相应的条件概率,进而作出推断.在例1的教学中,要注意渗透用频率估计概率的思想.既要理解这种推断方法的合理性,又要认识到这种推断方法的缺陷.对于等高堆积条形图,可以借助统计软件绘制.对于例1,教科书中比较的是甲校学生中数学成绩不优秀和优秀的频率与乙校学生中数学成绩不优秀和优秀的频率,是从行的角度进行比较.同样地,也可以从列的角度进行比较:数学成绩不优秀的学生中甲校和乙校的频率分别为330.464871≈和380.53571≈2,数学成绩优秀的学生中甲校和乙校的频率分别为100.588217≈和70.411817≈,比较相应的频率,也能得出两校学生中数学成绩优秀率之间存在差异.4.例1后的“思考”例1事实上是根据两个频率的差异进行推断的,没有考虑随机性的影响.但事实上,即便两个样本来自同一个总体,也会因为随机性使得频率产生差异,因此需要用概率的方法进行推断.例1后安排的思考栏目,目的是让学生体会在样本推断总体的过程中,由于样本具有随机性,依据频率所作的推断可能会犯错误.8.3.2独立性检验假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断的结果是拒绝或接受零假设.独立性检验是假设检验的一个特例.独立性检验的基本原理是根据观测值与期望值的差异的大小作出推断,这种差异由2χ统计量进行刻画,其大小的标准根据推理有关联时犯错误的概率确定.独立性检验的依据是小概率原理,即小概率事件在一次试验中几乎不可能发生.在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设.教科书首先借助古典概型的观点对独立性检验问题进行分析,给出基于分类变量X 和Y 的零假设o H 的两种严格的数学表述.然后结合22⨯列联表,给出了在零假设o H 成立的前提下, 构造2χ统计量的全过程,通过推导过程让学生感悟其合理性.最后教科书总结了独立性检验的基本步骤,并与反证法进行了比较.1.独立性检验的基本步骤(1)提出零假设0:H X 和Y 相互独立对不同背景的实际问题,判断两种现象之间是否有关联或是否相互影响,需要给出严格的数学描述.当定义了两个只取两个值的分类变量X 和Y 后,由前面的分析可知,判断X 和Y 是否有关联只需判断(1|0)P Y X ==和(1|1)P Y X ==是否相等.根据条件概率的定义,可推出(1|0)(1|1)P Y X P Y X =====等价于事件{1}X =与{1}Y =相互独立,由后者又可推出{0}X =与{1},{1}Y X ==与{0},{0}Y X ==与{0}Y =都相互独立.如果这4组事件独立.则称分类变量X和Y 独立.因此,零假设可改述为0:H X 和Y 相互独立.(2)构造检验的统计量将样本数据整理成22⨯列联表的形式,4个积事件的观测频数分别为,,,a b c d .在X 和Y 独立的假设下,分别估计这4个积事件的期望频数,根据频率稳定到概率的原理,考虑所有对应频数的总的偏差并加以调整,构造2χ统计量.这种构造方法非常容易推广到取值超过两个的分类变量的独立性检验.根据2χ统计量的构造过程可知,2χ的值越小,零假设0H 成立的可能性越大;2χ的值越大,零假设0H 成立的可能性越小.为了方便查阅,这里给出2χ统计量的简化形式的推导过程.教科书中给出的该统计量最初的形式为22222()()()()()()()()()()()()()()()()a b a c a b b d c d a c c d b d a b c d n n n n a b a c a b b d c d a c c d b d n n n n χ++++++++⎡⎤⎡⎤⎡⎤⎡⎤----⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦=+++++++++++. 由上式得22222[()()][()()][()()][()()]()()()()()()()()na a b a c nb a b b d nc c d a c nd c d b d n a b a c n a b b d n c d a c n c d b d χ-++-++-++-++=+++++++++++, 把n a b c d =+++代入上式各项分子,得22222()()()()()()()()()()()()ad bc bc ad bc ad ad bc n a b a c n a b b d n c d a c n c d b d χ----=+++++++++++, 对上式右边的分式进行通分,得22()[()()()()()()()()]()()()()ad bc c d b d c d a c a b b d a b a c n a b c d a c b d χ-+++++++++++=++++. 进一步化简得2222()()()()()()()()()()()ad bc a b c d n ad bc n a b c d a c b d a b c d a c b d χ-+++-==++++++++. 上式等号右边即为教科书中给出的2χ统计量的简化形式.(3)确定检验规则,得出推断结论由2χ统计量的构造过程可以看出,2χ统计量的分布与n 有关.在零假设0H 成立的条件下, 统计学家证明,当n →∞时,2χ的分布收敛到随机变量2(1)χ的分布,后者就是自由度为1的卡方分布.也就是说,当n →∞时,对任意的0x ,都有()()22(1)P x P x χχ→,根据卡方分布的性质,对于事先给定的小概率值α,都可以找到相应的正实数a x ,使得()2(1)a P x χα=.在n 充分大时,可以忽略2χ和2(1)χ分布之间的误差,因此认为()2a P x χα=成立.这里的值a x 即可作为与小概率值α对应的判断2χ大小标准的临界值.根据列联表计算2χ的值,当2a x χ时,拒绝零假设,由()2P x αχα=知,犯错误的概率不超过α.当2x αχ<时,不能拒绝零假设,意味着在小概率值α的检验规则下,根据样本数据,没有足够理由认为零假设不成立.我们在作统计推断时,如果不能拒绝零假设,不妨暂且接受它.但这并不代表零假设就是成立的,只是表明若要拒绝零假设,则需要积累更多的证据,作进一步验证.当小概率值0.01α=时,临界值 6.635x α=,当2 6.635χ时,我们推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过0.01;当2 6.635χ<时,我们没有充分证据推断0H 不成立,可以暂且认为X 和Y 独立,待有新的证据时再作进一步检验.下面我们提供一个应用独立性检验解决问题的案例,并给出完整的过程,供大家参考. 案例 为了研究一种新药对治疗某疾病是否有效,进行了临床试验.采用放回简单随机抽样的方法得到了如下数据:抽到服用新药的患者44名,其中34名痊愈,10名未痊愈;抽到服用没有任何疗效安慰剂的患者56名,其中32名痊愈,24名未痊愈.依据小概率值0.01α=的独立性检验,能否认为新药治疗该疾病有明显的效果?解:零假设为o H 新药治疗该疾病没有明显的效果.由样本数据可得列联表(表8-1).表8-1根据列联表中的数据, 经计算得到220.01100(34241032) 4.449 6.63544566634x χ⨯-⨯=≈<=⨯⨯⨯. 根据小概率值0.01α=的独立性检验,没有充分证据推断0H 不成立,因此可以认为0H 成立,即认为新药治疗该疾病没有明显的效果.药品对人类的健康至关重要,在没有充分证据表明新药对治疗疾病有效的情况下,必须慎重处理,可以等待时机成熟后,再作进一步试验.各类药品的使用在疾病治疗中具有十分重要的作用,一种新药在投放市场前需要检验其对疾病是否具有疗效.新药的推广使用涉及多方面的因素,成本往往很高,也伴随一定风险.因此,在对药品治疗疾病是否有效进行独立性检验时,一般会选取较小的小概率值α,以不轻易作出药品有效的结论.针对某些疾病,民间有些“食疗方法,这些方法往往简单易行、成本低廉,而且已流传多年,没有什么风险.在对这些“食疗”方法是否有疗效进行独立性检验时,通常不必像对药品的检验那样严苛,可以把小概率值α取得稍大一些.为了减少复杂的计算所花费的时间,同时对2χ分布有一个直观认识,建议使用GeoGebra 软件进行本案例的教学.利用该软件可以计算2χ的值.如图8-18,在“概率统计”视图下,在“统计”标签中选择卡方检验,只要输入观测频数,同时勾选预期次数,即可得到2χ的值为4.4494,即22222(3429.04)(1014.96)(3236.96)(2419.04) 4.449429.0414.9636.9619.04χ----=+++≈. 其中的p 值为0.0349,其含义是()2 4.44940.034P χ≈9.因为()2 6.6350.01P χ≈,所以0.01p >等价于2 6.635χ<.利用该软件还可以根据小概率值α求对应的临界值.如图8-19,在“分布”标签中选择卡方检验,输入自由度为1,概率值为0.1,即得到对应的临界值为2.7055.(4)分析X 和Y 之间的影响规律拒绝零假设,简单地认为X 和Y 有关联或相互影响,不一定是最终想要的结果.在很多时候还需要明确X 和Y 之间是什么样的关联或在多大程度上相互影响,这可以通过样本数据计算相应的频率,推断X 和Y 之间的影响规律.2.应用独立性检验解决实际问题时的注意事项(1)一般来说,样本量n a b c d =+++越大,2χ统计量的分布与2χ(1)分布的近似程度越高.因此,为了保证一定的精度,在实际应用中通常要求列联表中的四个数,,a b c 和d 都不小于5.(2)当零假设被接受时,也可能犯错误,至于犯这种错误的概率(不妨记为p )是多少,我们并不清楚.但是我们知道,当α增大时,p 会减小;反之,当α减小时,p 会增大.因此,在具体操作中,要根据实际问题,选择恰当的小概率值,不能一味地降低或提高α的取值.3.对犯错误概率的解释在零假设0H 成立的前提下,随着小概率值α的逐渐减小,2χ统计量对应的临界值0x 逐当增大,则事件2{}x αχ越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐当增大,2χ统计量对应的临界值x α逐渐减小,则事件2{}x αχ越来越容易发生,零假设越来越容易被拒绝.例如,对于例3中的数据,经计算得2 4.881χ≈.(1)当小概率值α取0.005时,0.0057.879x =,此时20,0054.8817.879x χ≈<=,则没有充分理由拒绝零假设,因此可以接受0H ,即认为两种疗法的效果没有差异.(2)当小概率值α取0.05时,0.05 3.841χ=,此时20.054.881 3.841x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.(3)当小概率值α取0.1时,0.1 2.706χ=,此时20.14.881 2.706x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.对于(2)和(3),用的是与(1)同一组数据,但都得到了与(1)相反的结论,可见推断的结论与检验规则有关.另外,由于依据不同的检验规则,(2)和(3)两个推断犯错误的概率上界是不同的,而这种犯错误的概率只能通过多次试验才能表现出来.因此在具体的问题中,所使用的小概率值往往是由有经验的专家事先确定的.4.样本量对于2χ独立性检验结果的影响对于例1列联表8.3-2中的数据,依据0.1α=的独立性检验,得出的结论是两校学生数学成绩的优秀率没有明显差异.假设对于例1中的问题我们得到如表82-的数据.表8-2显然,基于这些数据计算出的频率与例1中的相同.然而在相同的检验标准下作2χ独立性检验,可以推出两校学生数学成绩的优秀率有明显差异,结论却发生了变化.通常情况下,样本量越大,提供的信息越充分,观测的结果通常会更准确.与例1中的数据相比,这里的每个数据都变为原来的10倍,即样本量变为原来的10倍,这种差异无法通过频率的计算表现出来,而2χ独立性检验可能会得出不同的结论,可见2χ统计量能够有效地提取样本所包含的有用信息.5.例题及其教学关于两校学生数学成绩的优秀率是否有差异,例2利用独立性检验的方法得到的结论与例1用频率估计概率的方法得到的结论截然相反,应注意结合例2后的“思考”,使学生体会独立性检验的必要性.例3是检验甲、乙两种疗法的疗效哪个更好.在例3的教学中,应通过复习列联表的制作,引导学生运用学过的知识解决问题,熟悉运用独立性检验的方法解决具体问题的步骤,教学的重点应该放在解释独立性检验的基本思想上,避免学生单纯地记忆处理问题的步骤和机械套用公式进行计算.需要注意的是,利用独立性检验得出的结论是有条件的,不能在使用时随意扩大范围.例如,例3中的样本数据来自于某儿童医院,根据样本数据得出的结论能很好地适用于该儿童医院.若将这个结论推广到其他群体,则可能会犯错误.例4主要研究吸烟与患肺癌的关系,属于直接运用独立性检验的方法解决实际问题的经典范例.在例4的教学中,应让学生亲自处理数据、解决问题,从中体会统计思维和确定性思维之间的差异,在理解独立性检验思想的过程中,培养学生数据处理的能力,提升学生的数学运算、数据分析等核心素养.6.对132页观察栏目的说明在教科书表8.3-5中,对调两种疗法或两种疗效的位置,不会影响2χ值的计算结果.事实上,对调两种疗法的位置,相当于对调a与,c b与d的位置,由2χ的表达式知,并不影响2χ值的计算结果.同样地,对调两种疗效的位置,相当于对调a与,b c与d的位置,也不影响2χ值的计算结果.7.对本节最后思考栏目的说明可以在与反证法思想的比较中帮助学生了解独立性检验的思想.表8-3给出了反证法与独立性检验两种方法的比较.表8-3从表8-3的对比中,可以看出独立性检验的思想和反证法类似,但需要注意的是:在全部逻辑推理正确的情况下,反证法不会犯错误,而独立性检验可能会犯错误,对于这种错误概率的估计是2 独立性检验的重要组成部分.11/ 11。
专题8.3 列联表与独立性检验姓名:班级:重点分类变量与列联表难点独立性检验例1-1.在一次独立性检验中,其把握性超过了%99,则随机变量2K 的可能值为( )。
A 、841.3B 、024.5C 、635.6D 、897.7【答案】D【解析】∵在一次独立性检验中,其把握性超过了%99,对应的临界值表中数值为小于01.0,查表可得01.0)635.6(2=≥K P ,故635.62>K ,故选D 。
例1-2.把两个分类变量的频数列出,称为( )。
A 、三维柱形图B 、二维条形图C 、列联表D 、独立性检验【答案】C【解析】选项A 、B 是粗略地判断两个分类变量是否相关的方法,错,选项C 用两个分类变量的频数列表,对,选项D 是通过列联表计算得到两变量是否相关的方法,错,故选C 。
例1-3.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量2K 的观测值892.4≈k ,参照附表,得到的正确结论是( )。
)(02k K P ≥100.0050.0025.00k 706.2841.3024.5A 、有%5.97以上的把握认为“爱好该项运动与性别有关”B 、有%5.97以上的把握认为“爱好该项运动与性别无关”C 、在犯错误的概率不超过%5的前提下,认为“爱好该项运动与性别有关”D 、在犯错误的概率不超过%5的前提下,认为“爱好该项运动与性别无关”【答案】C【解析】∵计算得到统计量值2K 的观测值841.3892.4>≈k ,参照题目中的数值表,得到正确的结论是:在犯错误的概率不超过%5的前提下,认为“爱好该运动与性别有关”,故选C 。
例1-4.某22⨯列联表:1y 2y 总计1x 431622052x 13121134总计56283339则随机变量2K 的值为 。
【答案】469.7【解析】469.728356134205)1621312143(33922=⨯⨯⨯⨯-⨯⨯=K 。
8.3 列联表及独立性检验(精讲)考点一独立性检验的辨析【例1】(2021·全国·高二课时练习)北京市人民政府新闻办公室召开疫情防控第200场例行新闻发布会时表示不在18~59岁接种年龄段范围的人员,需要等待进一步临床试验数据.近日专家对该年龄段内和该年龄段外的110人进行了临床试验,得到如下2×2列联表:附:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段无关”B.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段有关”C.有99%以上的把握认为“能接种与年龄段无关”D.有99%以上的把握认为“能接种与年龄段有关”【一隅三反】1(2021·全国·高二专题练习)为了解某次考试中语文成绩是否优秀与性别的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:( )根据这一数据分析,下列说法正确的是( )下面的临界值表供参考:A.有99.5%的把握认为语文成绩是否优秀与性别有关系B.有99.9%的把握认为语文成绩是否优秀与性别有关系C.有99%的把握认为语文成绩是否优秀与性别有关系D.没有理由认为语文成绩是否优秀与性别有关系2.(2021·全国·高二学业考试)为大力提倡“厉行节约,反对浪费”,某大学通过随机询问100名学生能否做到“光盘”行动,得到如下列联表:χ≈.经计算:2 3.03附:参考附表,得到的正确结论是( )A.有95%的把握认为“该校学生能否做到‘光盘’行动与性别有关”B.有95%的把握认为“该校学生能否做到‘光盘’行动与性别无关”C.有90%的把握认为“该校学生能否做到‘光盘’行动与性别有关”D.有90%的把握认为“该校学生能否做到‘光盘’行动与性别无关”3.(2021·全国·高二单元测试)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则2χ的值可能为( )附表:A.3.206B.6.561C.7.879D.11.028考点二独立性检验的应用【例2】(2021·重庆九龙坡)为张扬学生的个性,彰显青春的智慧与力量,2021年5月某重点高中举办了一年一度的大型学生社团活动,学生社团有近40个,吸引了众多学生.此次活动由学校高一、高二的学生参加,参加社团的学生共有400多人.已知学校高一和高二的所有学生中男生与女生人数比为6:4,为了解学生参加社团活动的情况,从高一、高二所有学生中按性别采用分层抽样的方法抽取部分学生,统计得到如下等高条形图表示参加社团活动的学生频率.(1)求该重点高中参加社团的学生中,任选1人是女生的概率;p=的独立性检验,能否认为该学校(2)若抽取了100名学生,完成下列22⨯列联表,并依据小概率值0.05高一和高二学生的性别与参加学生社团有关联?请说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.【一隅三反】1.(2021·全国·高二单元测试)微信是腾讯公司推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人.为了调查微信用户每天使用微信的时间,某经销化妆品的店家在一广场随机采访男性、女性用户各50名,将他们平均每天使用微信的时间(单位:h)分成5组:(]0,2,(]2,4,(]4,6,(]6,8,(]8,10,分别加以统计,得到如图所示的频率分布直方图.(1)根据频率分布直方图估计女性用户平均每天使用微信的时间;(2)若把每天使用微信超过4h 的用户称为“微信控”,否则称为“非微信控”,请你根据已知条件完成下列22⨯列联表,并判断是否有90%的把握认为“微信控”与性别有关.2.(2021·全国·高二课时练习 )某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关.3(2021·全国·高二单元测试)下表是某地区的一种传染病与饮用水卫生程度的调查表:(1)得这种传染病(简称得病)是否与饮用不干净水有关?请说明理由;(2)若饮用干净水得病的有5人,未得病的有50人;饮用不干净水得病的有9人,未得病的有22人.按此样本数据分析:得这种传染病是否与饮用不干净水有关?并比较两种样本在反映总体时的差异.附表及公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++,临界值表:4.(2021·全国·高二课时练习) “中国科学十大进展”遴选活动由科学技术部高技术研究发展中心牵头举办,旨在激励广大科技工作者的科学热情和奉献精神,开展基础研究科学普及,促进公众理解、关心和支持基础研究,在全社会营造良好的科学氛围.2021年2月,科技部高技术研究发展中心(基础研究管理中心)发布了2020年度中国科学十大进展.某校为调查本校中学生对2020年度中国科学十大进展的了解与关注情况,从该校高中年级在校生中,按高一、高二年级,高三年级分成两个年级段,随机抽取了200名学生进行调查,其中高一、高二年级共调查了120人,高三年级调查了80人,以说出10项科学进展的名称个数为标准,统计情况如下.假设以能至少说出四项科学进展的名称为成绩优秀.(1)根据频数分布表完成22⨯列联表,并回答是否有95%的把握认为成绩优秀与否与年级分段有关?(2)按分层抽样的方法,在被调查且成绩优秀的学生中抽取6名同学,再在这6名同学中随机抽取4名同学组成“2020科技展”宣讲队,求至少有2名高三年级的同学入选宣讲队的概率.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.考点三独立性检验与其他的综合运用【例3】(2021·山东无棣·高二期中)某市为了解乡村振兴,农业农村现代化进程,对全市村庄进行全方位的调研.根据调研成绩评定“要加油”“良好”“优秀”三个等级.现随机抽取200个村庄的成绩统计结果如表:(1)若调研成绩在80分及以上认定为“优良”.抽取的200个村庄中东西部村庄的分布情况如下表.完成2×2列联表,并判断是否有99%的把握认为优良村庄与东西部位置有关?(2)用分层抽样的方法,从评定为“优秀”、“良好”、“要加油”的三个等级的村庄中随机选取5个进行细致调查,同时对相应等级进行量化:“优秀”记10分,“良好”记5分,“要加油”记0分.现再从抽取的5个村庄中任选2个村,所选村的量化分之和记为X,求X的分布列及数学期望.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【一隅三反】1.(2021·福建省宁德市教师进修学院高二期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展.下表是近几年我省某地区新能源乘用车的年销售量与年份的统计表:某机构调查了该地区60位购车车主的性别与购车种类情况,得到的部分数据如下表所示:(1)求新能源乘用车的销量y 关于x 年份的线性相关系数r ,并判断y 与x 是否线性相关;(2)请将上述22⨯列联表补充完整,并判断是否有99%的把握认为购车车主是否购置新能源乘用车与性别有关; 参考公式:相关系数()()nntii ix x y y x y nx yr ---=∑∑;()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++;参考数据:()5210.66i i y y=-=∑,()()512.5i ii x xy y =--=∑ 2.6≈.备注:若0.75r >,则可判断y 与x 线性相关. 卡方临界值表:2.(2021·福建省永泰县第一中学高二期中)2021年某地区初中升学体育考试规定:考生必须参加长跑、200米游泳、1分钟跳绳三项测试.某学校在初三上学期开始,为了了解掌握全年级学生1分钟跳绳情况,抽取了100名学生进行测试,得到下面的频率分布直方图.(1)规定学生1分钟跳绳个数大于等于175为优秀.若在抽取的100名学生中,女生共有45人,男生1分钟跳绳个数大于等于175的有30人.根据已知条件完成下面的22⨯列联表,并根据这100名学生的测试成绩,判断能否有99%的把握认为学生1分钟跳绳成绩是否优秀与性别有关.(2)根据往年经验,该校初三年级学生经过训练,正式测试时每人1分钟跳绳个数都有明显进步.假设正式测试时每人1分钟跳绳个数都比初三上学期开始时增加10个,全年级恰有1000名学生,若所有学生的1分钟跳绳个数X 服从正态分布()2,N μσ,用样本数据的平均值和标准差估计μ和σ,各组数据用中点值代替,估计正式测试时1分钟跳绳个数大于173的人数(结果四舍五入到整数).附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.若随机变量X 服从正态分布()2,N μσ,则()0.6827,(22)0.9545,(33)0.9973,12.P X P X P X μσμσμσμσμσμσ-<≤+≈-<≤+≈-<≤+≈≈3.(2021·四川眉山 )新疆地区的棉花是世界上最好的棉花之一,新疆长绒棉,世界顶级,做衣被,暖和、透气、舒适,长年供不应求.评价棉花质量的重要指标之一就是棉花的纤维长度,新疆农科所在土壤环境不同的A 、B 两块实验地分别种植某品种的棉花,为了评价该品种的棉花质量,在棉花成熟后,分别从A 、B两地的棉花中各随机抽取40根棉花纤维进行统计,结果如下表:(记纤维长度不低于300mm的为“长纤维”,其余为“短纤维”).(1)由以上统计数据,填写下面22⨯列联表,并判断能否在犯错误概率不超过0.01的前提下认为“纤维长度与土壤环境有关系”(2K的观测值精确到0.01).附:()()()()()22n ad bcKa b c d a c b d-=++++临界值表:(2)现从抽取的80根棉花纤维中“短纤维”里任意抽取2根做进一步研究,记B地“短纤维”的根数为Y,求Y的分布列和数学期望;(3)根据上述B地关于“长纤维”与“短纤维”的调查,将B地“长纤维”的频率视为概率,现从B地棉花(大量的棉花)中任意抽取3根棉花,记抽取的“长纤维”的根数为X,求X的数学期望和方差.。