8.4列联表独立性检验
- 格式:ppt
- 大小:497.50 KB
- 文档页数:20
《列联表与独立性检验》教学分析一、本节知识结构框图二、重点、难点重点:22⨯列联表,独立性检验的思想和方法.难点:2χ统计量的导出和意义,独立性检验的思想和方法.三、教科书编写意图及教学建议统计最基本的思想是用样本推断总体,而估计和假设检验是两种基本而重要的推断方法.在前面的学习中,主要学习了统计估计的推断方法,例如,用样本数据的均值和方差分别估计总体的均值和方差;用样本相关系数估计两个数值变量的相关系数,从而推断这两个变量线性关系的密切程度;利用最小二乘思想估计一元线性回归模型中的参数等,本节结合具体实例,01,的分类变量的独立性,了解根据频率稳定到概率的原理及小概率原理,检验两个取值于{}独立性检验的思想方法,进一步提升学生的数据分析素养.本节内容对学生来说难度较大,涉及的基础知识有古典概型、条件概率、频率稳定到概率的原理及分类变量独立性的概念,涉及的统计思想方法主要是假设检验的思想方法.教科书结合丰富的实例,通过问题引导,采取了由易到难、逐步深入的处理方式,使学生了解独立性检验的基本思想.在本节教学中,应通过具体案例渗透独立性检验的基本思想和方法,使学生了解统计推断可能犯错误的特点,避免单纯地记忆独立性检验的基本步骤和机械地套用公式解决问题.应注重培养学生联系实际的意识,提高学生解决实际问题的能力.教科书注重信息技术与相关内容的有机融合,强调使用计算器、计算机等工具探索和解决问题.例如,在画等高堆积条形图时,借助信息技术作图,不但作出的图形准确美观,而且省时省力.面对复杂的计算,教学中应使用统计软件,解决计算量大的问题,使学生从烦琐的计算中解脱出来,把更多的精力放在对于独立性检验的基本思想的理解上.8.3.1分类变量与列联表教科书首先设置问题情境,对某中学全体学生分性别就体育锻炼的经常性进行普查,全校523名女生中有331人经常锻炼,601名男生中有473人经常锻炼,据此判断该中学学生不同性别在体育锻炼的经常性方面是否有差异.由于是普查数据,而且仅对这所学校进行判断,因此只需分别计算出女生经常参加体的比率和男生经常参加体育锻炼的比率,并比较这两个值是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.实际计算的结果显示经常参加体育锻炼的比率男生比女生高15.4个百分点.因此可判断该校的女生和男生在体育锻炼的经常性方面有差异,而且男生更经常锻炼.这个问题还可以从概率的角度进行解答.从女生和男生中各随机选取一名学生,分别计算两个群体中抽到经常参加体育锻炼学生的概率,并比较两个概率是否相等.如果不相等,就认为不同性别在体育锻炼的经常性方面有差异,否则就认为没有差异.若令0,1,X ⎧⎨⎩该生为女生,该生为男生,0,1,Y ⎧⎨⎩该生不经常锻炼,该生经常锻炼,则问题可以转化为比较条件概率|(10)P Y X ==和|(11)P Y X ==是否相等.如果数据是采用抽样调查得到的,怎样判断两个条件概率是否相等,从而推断两个分类变量是否存在关联性呢?接着教科书设置了例1,根据随机样本数据,推断两所学校学生数学成绩的优秀率是否有差异.根据频率稳定于概率的原理,直观上看,如果两校学生数学成绩优秀的频率差异较大,则可推断对应的两个条件概率不等,从而认为两校学生的数学成绩优秀率存在差异.基于所给的数据,计算得到甲校学生数学成绩优秀的频率为0.2326;乙校学生数学成绩优秀的频率为0.1556.因为两个频率存在明显差异,所以可以认为两校学生的数学成绩优秀率存在差异,并且甲校学生的数学成绩优秀率高于乙校.但是频率具有随机性,频率与概率之间存在误差,因此根据频率进行推断有可能犯错误.对此教科书设置了一个思考栏目,让学生思考上面推断的结论是否可能犯错误,进而深刻理解抽样数据的随机性特点,实际上也指出,例1给出的解答方法也是有缺陷的,为后面引出独立性检验方法作了铺垫.1.数值变量与分类变量数值变量的取值为实数,其大小和运算都具有实际含义.例如年龄、身高、体重、学习成绩等都是数值变量,张明的身高是180cm,李立的身高是175cm,说明张明比李立高5cm.常见数值变量的数字特征(如均值、方差、百分位数等)均有明确的含义.分类变量的取值表示个体所属类别,例如性别变量是分类变量,取男、女两个值;同样,数学考试等级是分类变量,取优、良、中等、及格、不及格五个值;等等.有时也可以把分类变量的不同取值用实数表示,但这些数值仅作为编号使用,通常没有大小关系和运算意义,例如,用0表示“男”,1表示“女”,性别变量这个分类变量的取值就变成0和1,但这里的0和1仅作为分类用,没有其他含义,比较0和1的大小没有意义,通常计算其均值和方差也没有意义.2.列联表列联表是由两个及两个以上分类变量进行交叉分类的频数分布表,教科书中仅涉及两个分类变量的列联表,并且每个变量只取两个值,这样的列联表称为2×2列联表.一般的独立性检验并不要求每个分类变量只取两个值.在教学中,不要求给出这些概念的严格定义,只需给出描述性的说明即可.3.例题及其教学例1给出了借助概率的观点研究“两校学生的数学成绩优秀率之间是否存在差异”的过程:(1)根据实际问题,引入样本空间,建立古典概型,并定义分类变量X和Y.(2)将样本数据整理成2×2列联表的形式.(3)计算并比较分类变量X和Y相应的频率.(4)用等高堆积条形图直观展示上述频率.(5)根据频率稳定于概率的原理,估计分类变量X和Y相应的条件概率,进而作出推断.在例1的教学中,要注意渗透用频率估计概率的思想.既要理解这种推断方法的合理性,又要认识到这种推断方法的缺陷.对于等高堆积条形图,可以借助统计软件绘制.对于例1,教科书中比较的是甲校学生中数学成绩不优秀和优秀的频率与乙校学生中数学成绩不优秀和优秀的频率,是从行的角度进行比较.同样地,也可以从列的角度进行比较:数学成绩不优秀的学生中甲校和乙校的频率分别为330.464871≈和380.53571≈2,数学成绩优秀的学生中甲校和乙校的频率分别为100.588217≈和70.411817≈,比较相应的频率,也能得出两校学生中数学成绩优秀率之间存在差异.4.例1后的“思考”例1事实上是根据两个频率的差异进行推断的,没有考虑随机性的影响.但事实上,即便两个样本来自同一个总体,也会因为随机性使得频率产生差异,因此需要用概率的方法进行推断.例1后安排的思考栏目,目的是让学生体会在样本推断总体的过程中,由于样本具有随机性,依据频率所作的推断可能会犯错误.8.3.2独立性检验假设检验是统计推断的一种基本形式,其基本思想是根据观察或试验的结果去检验一个假设(零假设)是否成立,即通过样本的某个指标对总体的某种属性进行推断,推断的结果是拒绝或接受零假设.独立性检验是假设检验的一个特例.独立性检验的基本原理是根据观测值与期望值的差异的大小作出推断,这种差异由2χ统计量进行刻画,其大小的标准根据推理有关联时犯错误的概率确定.独立性检验的依据是小概率原理,即小概率事件在一次试验中几乎不可能发生.在零假设成立的条件下,若一个不利于零假设的小概率事件在一次试验中发生了,则有理由拒绝零假设;若在一次试验中,此小概率事件没有发生,则没有充足的理由拒绝零假设,通常会接受零假设.教科书首先借助古典概型的观点对独立性检验问题进行分析,给出基于分类变量X 和Y 的零假设o H 的两种严格的数学表述.然后结合22⨯列联表,给出了在零假设o H 成立的前提下, 构造2χ统计量的全过程,通过推导过程让学生感悟其合理性.最后教科书总结了独立性检验的基本步骤,并与反证法进行了比较.1.独立性检验的基本步骤(1)提出零假设0:H X 和Y 相互独立对不同背景的实际问题,判断两种现象之间是否有关联或是否相互影响,需要给出严格的数学描述.当定义了两个只取两个值的分类变量X 和Y 后,由前面的分析可知,判断X 和Y 是否有关联只需判断(1|0)P Y X ==和(1|1)P Y X ==是否相等.根据条件概率的定义,可推出(1|0)(1|1)P Y X P Y X =====等价于事件{1}X =与{1}Y =相互独立,由后者又可推出{0}X =与{1},{1}Y X ==与{0},{0}Y X ==与{0}Y =都相互独立.如果这4组事件独立.则称分类变量X和Y 独立.因此,零假设可改述为0:H X 和Y 相互独立.(2)构造检验的统计量将样本数据整理成22⨯列联表的形式,4个积事件的观测频数分别为,,,a b c d .在X 和Y 独立的假设下,分别估计这4个积事件的期望频数,根据频率稳定到概率的原理,考虑所有对应频数的总的偏差并加以调整,构造2χ统计量.这种构造方法非常容易推广到取值超过两个的分类变量的独立性检验.根据2χ统计量的构造过程可知,2χ的值越小,零假设0H 成立的可能性越大;2χ的值越大,零假设0H 成立的可能性越小.为了方便查阅,这里给出2χ统计量的简化形式的推导过程.教科书中给出的该统计量最初的形式为22222()()()()()()()()()()()()()()()()a b a c a b b d c d a c c d b d a b c d n n n n a b a c a b b d c d a c c d b d n n n n χ++++++++⎡⎤⎡⎤⎡⎤⎡⎤----⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦=+++++++++++. 由上式得22222[()()][()()][()()][()()]()()()()()()()()na a b a c nb a b b d nc c d a c nd c d b d n a b a c n a b b d n c d a c n c d b d χ-++-++-++-++=+++++++++++, 把n a b c d =+++代入上式各项分子,得22222()()()()()()()()()()()()ad bc bc ad bc ad ad bc n a b a c n a b b d n c d a c n c d b d χ----=+++++++++++, 对上式右边的分式进行通分,得22()[()()()()()()()()]()()()()ad bc c d b d c d a c a b b d a b a c n a b c d a c b d χ-+++++++++++=++++. 进一步化简得2222()()()()()()()()()()()ad bc a b c d n ad bc n a b c d a c b d a b c d a c b d χ-+++-==++++++++. 上式等号右边即为教科书中给出的2χ统计量的简化形式.(3)确定检验规则,得出推断结论由2χ统计量的构造过程可以看出,2χ统计量的分布与n 有关.在零假设0H 成立的条件下, 统计学家证明,当n →∞时,2χ的分布收敛到随机变量2(1)χ的分布,后者就是自由度为1的卡方分布.也就是说,当n →∞时,对任意的0x ,都有()()22(1)P x P x χχ→,根据卡方分布的性质,对于事先给定的小概率值α,都可以找到相应的正实数a x ,使得()2(1)a P x χα=.在n 充分大时,可以忽略2χ和2(1)χ分布之间的误差,因此认为()2a P x χα=成立.这里的值a x 即可作为与小概率值α对应的判断2χ大小标准的临界值.根据列联表计算2χ的值,当2a x χ时,拒绝零假设,由()2P x αχα=知,犯错误的概率不超过α.当2x αχ<时,不能拒绝零假设,意味着在小概率值α的检验规则下,根据样本数据,没有足够理由认为零假设不成立.我们在作统计推断时,如果不能拒绝零假设,不妨暂且接受它.但这并不代表零假设就是成立的,只是表明若要拒绝零假设,则需要积累更多的证据,作进一步验证.当小概率值0.01α=时,临界值 6.635x α=,当2 6.635χ时,我们推断0H 不成立,即认为X 和Y 不独立,该推断犯错误的概率不超过0.01;当2 6.635χ<时,我们没有充分证据推断0H 不成立,可以暂且认为X 和Y 独立,待有新的证据时再作进一步检验.下面我们提供一个应用独立性检验解决问题的案例,并给出完整的过程,供大家参考. 案例 为了研究一种新药对治疗某疾病是否有效,进行了临床试验.采用放回简单随机抽样的方法得到了如下数据:抽到服用新药的患者44名,其中34名痊愈,10名未痊愈;抽到服用没有任何疗效安慰剂的患者56名,其中32名痊愈,24名未痊愈.依据小概率值0.01α=的独立性检验,能否认为新药治疗该疾病有明显的效果?解:零假设为o H 新药治疗该疾病没有明显的效果.由样本数据可得列联表(表8-1).表8-1根据列联表中的数据, 经计算得到220.01100(34241032) 4.449 6.63544566634x χ⨯-⨯=≈<=⨯⨯⨯. 根据小概率值0.01α=的独立性检验,没有充分证据推断0H 不成立,因此可以认为0H 成立,即认为新药治疗该疾病没有明显的效果.药品对人类的健康至关重要,在没有充分证据表明新药对治疗疾病有效的情况下,必须慎重处理,可以等待时机成熟后,再作进一步试验.各类药品的使用在疾病治疗中具有十分重要的作用,一种新药在投放市场前需要检验其对疾病是否具有疗效.新药的推广使用涉及多方面的因素,成本往往很高,也伴随一定风险.因此,在对药品治疗疾病是否有效进行独立性检验时,一般会选取较小的小概率值α,以不轻易作出药品有效的结论.针对某些疾病,民间有些“食疗方法,这些方法往往简单易行、成本低廉,而且已流传多年,没有什么风险.在对这些“食疗”方法是否有疗效进行独立性检验时,通常不必像对药品的检验那样严苛,可以把小概率值α取得稍大一些.为了减少复杂的计算所花费的时间,同时对2χ分布有一个直观认识,建议使用GeoGebra 软件进行本案例的教学.利用该软件可以计算2χ的值.如图8-18,在“概率统计”视图下,在“统计”标签中选择卡方检验,只要输入观测频数,同时勾选预期次数,即可得到2χ的值为4.4494,即22222(3429.04)(1014.96)(3236.96)(2419.04) 4.449429.0414.9636.9619.04χ----=+++≈. 其中的p 值为0.0349,其含义是()2 4.44940.034P χ≈9.因为()2 6.6350.01P χ≈,所以0.01p >等价于2 6.635χ<.利用该软件还可以根据小概率值α求对应的临界值.如图8-19,在“分布”标签中选择卡方检验,输入自由度为1,概率值为0.1,即得到对应的临界值为2.7055.(4)分析X 和Y 之间的影响规律拒绝零假设,简单地认为X 和Y 有关联或相互影响,不一定是最终想要的结果.在很多时候还需要明确X 和Y 之间是什么样的关联或在多大程度上相互影响,这可以通过样本数据计算相应的频率,推断X 和Y 之间的影响规律.2.应用独立性检验解决实际问题时的注意事项(1)一般来说,样本量n a b c d =+++越大,2χ统计量的分布与2χ(1)分布的近似程度越高.因此,为了保证一定的精度,在实际应用中通常要求列联表中的四个数,,a b c 和d 都不小于5.(2)当零假设被接受时,也可能犯错误,至于犯这种错误的概率(不妨记为p )是多少,我们并不清楚.但是我们知道,当α增大时,p 会减小;反之,当α减小时,p 会增大.因此,在具体操作中,要根据实际问题,选择恰当的小概率值,不能一味地降低或提高α的取值.3.对犯错误概率的解释在零假设0H 成立的前提下,随着小概率值α的逐渐减小,2χ统计量对应的临界值0x 逐当增大,则事件2{}x αχ越来越不容易发生,零假设越来越不容易被拒绝;随着小概率值α的逐当增大,2χ统计量对应的临界值x α逐渐减小,则事件2{}x αχ越来越容易发生,零假设越来越容易被拒绝.例如,对于例3中的数据,经计算得2 4.881χ≈.(1)当小概率值α取0.005时,0.0057.879x =,此时20,0054.8817.879x χ≈<=,则没有充分理由拒绝零假设,因此可以接受0H ,即认为两种疗法的效果没有差异.(2)当小概率值α取0.05时,0.05 3.841χ=,此时20.054.881 3.841x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.05.(3)当小概率值α取0.1时,0.1 2.706χ=,此时20.14.881 2.706x χ≈>=,则拒绝零假设,即认为两种疗法的效果有差异,该推断犯错误的概率不超过0.1.对于(2)和(3),用的是与(1)同一组数据,但都得到了与(1)相反的结论,可见推断的结论与检验规则有关.另外,由于依据不同的检验规则,(2)和(3)两个推断犯错误的概率上界是不同的,而这种犯错误的概率只能通过多次试验才能表现出来.因此在具体的问题中,所使用的小概率值往往是由有经验的专家事先确定的.4.样本量对于2χ独立性检验结果的影响对于例1列联表8.3-2中的数据,依据0.1α=的独立性检验,得出的结论是两校学生数学成绩的优秀率没有明显差异.假设对于例1中的问题我们得到如表82-的数据.表8-2显然,基于这些数据计算出的频率与例1中的相同.然而在相同的检验标准下作2χ独立性检验,可以推出两校学生数学成绩的优秀率有明显差异,结论却发生了变化.通常情况下,样本量越大,提供的信息越充分,观测的结果通常会更准确.与例1中的数据相比,这里的每个数据都变为原来的10倍,即样本量变为原来的10倍,这种差异无法通过频率的计算表现出来,而2χ独立性检验可能会得出不同的结论,可见2χ统计量能够有效地提取样本所包含的有用信息.5.例题及其教学关于两校学生数学成绩的优秀率是否有差异,例2利用独立性检验的方法得到的结论与例1用频率估计概率的方法得到的结论截然相反,应注意结合例2后的“思考”,使学生体会独立性检验的必要性.例3是检验甲、乙两种疗法的疗效哪个更好.在例3的教学中,应通过复习列联表的制作,引导学生运用学过的知识解决问题,熟悉运用独立性检验的方法解决具体问题的步骤,教学的重点应该放在解释独立性检验的基本思想上,避免学生单纯地记忆处理问题的步骤和机械套用公式进行计算.需要注意的是,利用独立性检验得出的结论是有条件的,不能在使用时随意扩大范围.例如,例3中的样本数据来自于某儿童医院,根据样本数据得出的结论能很好地适用于该儿童医院.若将这个结论推广到其他群体,则可能会犯错误.例4主要研究吸烟与患肺癌的关系,属于直接运用独立性检验的方法解决实际问题的经典范例.在例4的教学中,应让学生亲自处理数据、解决问题,从中体会统计思维和确定性思维之间的差异,在理解独立性检验思想的过程中,培养学生数据处理的能力,提升学生的数学运算、数据分析等核心素养.6.对132页观察栏目的说明在教科书表8.3-5中,对调两种疗法或两种疗效的位置,不会影响2χ值的计算结果.事实上,对调两种疗法的位置,相当于对调a与,c b与d的位置,由2χ的表达式知,并不影响2χ值的计算结果.同样地,对调两种疗效的位置,相当于对调a与,b c与d的位置,也不影响2χ值的计算结果.7.对本节最后思考栏目的说明可以在与反证法思想的比较中帮助学生了解独立性检验的思想.表8-3给出了反证法与独立性检验两种方法的比较.表8-3从表8-3的对比中,可以看出独立性检验的思想和反证法类似,但需要注意的是:在全部逻辑推理正确的情况下,反证法不会犯错误,而独立性检验可能会犯错误,对于这种错误概率的估计是2 独立性检验的重要组成部分.11/ 11。
专题8.3 列联表与独立性检验姓名:班级:重点分类变量与列联表难点独立性检验例1-1.在一次独立性检验中,其把握性超过了%99,则随机变量2K 的可能值为( )。
A 、841.3B 、024.5C 、635.6D 、897.7【答案】D【解析】∵在一次独立性检验中,其把握性超过了%99,对应的临界值表中数值为小于01.0,查表可得01.0)635.6(2=≥K P ,故635.62>K ,故选D 。
例1-2.把两个分类变量的频数列出,称为( )。
A 、三维柱形图B 、二维条形图C 、列联表D 、独立性检验【答案】C【解析】选项A 、B 是粗略地判断两个分类变量是否相关的方法,错,选项C 用两个分类变量的频数列表,对,选项D 是通过列联表计算得到两变量是否相关的方法,错,故选C 。
例1-3.通过随机询问200名性别不同的大学生是否爱好踢毽子运动,计算得到统计量2K 的观测值892.4≈k ,参照附表,得到的正确结论是( )。
)(02k K P ≥100.0050.0025.00k 706.2841.3024.5A 、有%5.97以上的把握认为“爱好该项运动与性别有关”B 、有%5.97以上的把握认为“爱好该项运动与性别无关”C 、在犯错误的概率不超过%5的前提下,认为“爱好该项运动与性别有关”D 、在犯错误的概率不超过%5的前提下,认为“爱好该项运动与性别无关”【答案】C【解析】∵计算得到统计量值2K 的观测值841.3892.4>≈k ,参照题目中的数值表,得到正确的结论是:在犯错误的概率不超过%5的前提下,认为“爱好该运动与性别有关”,故选C 。
例1-4.某22⨯列联表:1y 2y 总计1x 431622052x 13121134总计56283339则随机变量2K 的值为 。
【答案】469.7【解析】469.728356134205)1621312143(33922=⨯⨯⨯⨯-⨯⨯=K 。
8.3 列联表及独立性检验(精讲)考点一独立性检验的辨析【例1】(2021·全国·高二课时练习)北京市人民政府新闻办公室召开疫情防控第200场例行新闻发布会时表示不在18~59岁接种年龄段范围的人员,需要等待进一步临床试验数据.近日专家对该年龄段内和该年龄段外的110人进行了临床试验,得到如下2×2列联表:附:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段无关”B.在犯错误的概率不超过0.1%的前提下,认为“能接种与年龄段有关”C.有99%以上的把握认为“能接种与年龄段无关”D.有99%以上的把握认为“能接种与年龄段有关”【一隅三反】1(2021·全国·高二专题练习)为了解某次考试中语文成绩是否优秀与性别的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:( )根据这一数据分析,下列说法正确的是( )下面的临界值表供参考:A.有99.5%的把握认为语文成绩是否优秀与性别有关系B.有99.9%的把握认为语文成绩是否优秀与性别有关系C.有99%的把握认为语文成绩是否优秀与性别有关系D.没有理由认为语文成绩是否优秀与性别有关系2.(2021·全国·高二学业考试)为大力提倡“厉行节约,反对浪费”,某大学通过随机询问100名学生能否做到“光盘”行动,得到如下列联表:χ≈.经计算:2 3.03附:参考附表,得到的正确结论是( )A.有95%的把握认为“该校学生能否做到‘光盘’行动与性别有关”B.有95%的把握认为“该校学生能否做到‘光盘’行动与性别无关”C.有90%的把握认为“该校学生能否做到‘光盘’行动与性别有关”D.有90%的把握认为“该校学生能否做到‘光盘’行动与性别无关”3.(2021·全国·高二单元测试)某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有99%的把握但没有99.9%的把握认为偏爱蔬菜还是肉类与性别有关,则2χ的值可能为( )附表:A.3.206B.6.561C.7.879D.11.028考点二独立性检验的应用【例2】(2021·重庆九龙坡)为张扬学生的个性,彰显青春的智慧与力量,2021年5月某重点高中举办了一年一度的大型学生社团活动,学生社团有近40个,吸引了众多学生.此次活动由学校高一、高二的学生参加,参加社团的学生共有400多人.已知学校高一和高二的所有学生中男生与女生人数比为6:4,为了解学生参加社团活动的情况,从高一、高二所有学生中按性别采用分层抽样的方法抽取部分学生,统计得到如下等高条形图表示参加社团活动的学生频率.(1)求该重点高中参加社团的学生中,任选1人是女生的概率;p=的独立性检验,能否认为该学校(2)若抽取了100名学生,完成下列22⨯列联表,并依据小概率值0.05高一和高二学生的性别与参加学生社团有关联?请说明理由.附:22()()()()()n ad bc K a b c d a c b d -=++++,n a b c d =+++.【一隅三反】1.(2021·全国·高二单元测试)微信是腾讯公司推出的一种手机通信软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人.为了调查微信用户每天使用微信的时间,某经销化妆品的店家在一广场随机采访男性、女性用户各50名,将他们平均每天使用微信的时间(单位:h)分成5组:(]0,2,(]2,4,(]4,6,(]6,8,(]8,10,分别加以统计,得到如图所示的频率分布直方图.(1)根据频率分布直方图估计女性用户平均每天使用微信的时间;(2)若把每天使用微信超过4h 的用户称为“微信控”,否则称为“非微信控”,请你根据已知条件完成下列22⨯列联表,并判断是否有90%的把握认为“微信控”与性别有关.2.(2021·全国·高二课时练习 )某校高一年级进行安全知识竞赛(满分为100分),所有学生的成绩都不低于75分,从中抽取100名学生的成绩进行分组调研,第一组[)75,80,第二组[)80,85,,第五组[]95,100(单位:分),得到如下的频率分布直方图.若竞赛成绩不低于85分为优秀,低于85分为非优秀,且成绩优秀的男学生人数为35,成绩非优秀的女学生人数为25,请判断是否有95%的把握认为竞赛成绩的优秀情况与性别有关.3(2021·全国·高二单元测试)下表是某地区的一种传染病与饮用水卫生程度的调查表:(1)得这种传染病(简称得病)是否与饮用不干净水有关?请说明理由;(2)若饮用干净水得病的有5人,未得病的有50人;饮用不干净水得病的有9人,未得病的有22人.按此样本数据分析:得这种传染病是否与饮用不干净水有关?并比较两种样本在反映总体时的差异.附表及公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++,临界值表:4.(2021·全国·高二课时练习) “中国科学十大进展”遴选活动由科学技术部高技术研究发展中心牵头举办,旨在激励广大科技工作者的科学热情和奉献精神,开展基础研究科学普及,促进公众理解、关心和支持基础研究,在全社会营造良好的科学氛围.2021年2月,科技部高技术研究发展中心(基础研究管理中心)发布了2020年度中国科学十大进展.某校为调查本校中学生对2020年度中国科学十大进展的了解与关注情况,从该校高中年级在校生中,按高一、高二年级,高三年级分成两个年级段,随机抽取了200名学生进行调查,其中高一、高二年级共调查了120人,高三年级调查了80人,以说出10项科学进展的名称个数为标准,统计情况如下.假设以能至少说出四项科学进展的名称为成绩优秀.(1)根据频数分布表完成22⨯列联表,并回答是否有95%的把握认为成绩优秀与否与年级分段有关?(2)按分层抽样的方法,在被调查且成绩优秀的学生中抽取6名同学,再在这6名同学中随机抽取4名同学组成“2020科技展”宣讲队,求至少有2名高三年级的同学入选宣讲队的概率.附:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.考点三独立性检验与其他的综合运用【例3】(2021·山东无棣·高二期中)某市为了解乡村振兴,农业农村现代化进程,对全市村庄进行全方位的调研.根据调研成绩评定“要加油”“良好”“优秀”三个等级.现随机抽取200个村庄的成绩统计结果如表:(1)若调研成绩在80分及以上认定为“优良”.抽取的200个村庄中东西部村庄的分布情况如下表.完成2×2列联表,并判断是否有99%的把握认为优良村庄与东西部位置有关?(2)用分层抽样的方法,从评定为“优秀”、“良好”、“要加油”的三个等级的村庄中随机选取5个进行细致调查,同时对相应等级进行量化:“优秀”记10分,“良好”记5分,“要加油”记0分.现再从抽取的5个村庄中任选2个村,所选村的量化分之和记为X,求X的分布列及数学期望.附表及公式:22()()()()()n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.【一隅三反】1.(2021·福建省宁德市教师进修学院高二期末)“绿水青山就是金山银山”的生态文明发展理念已经深入人心,这将推动新能源汽车产业的迅速发展.下表是近几年我省某地区新能源乘用车的年销售量与年份的统计表:某机构调查了该地区60位购车车主的性别与购车种类情况,得到的部分数据如下表所示:(1)求新能源乘用车的销量y 关于x 年份的线性相关系数r ,并判断y 与x 是否线性相关;(2)请将上述22⨯列联表补充完整,并判断是否有99%的把握认为购车车主是否购置新能源乘用车与性别有关; 参考公式:相关系数()()nntii ix x y y x y nx yr ---=∑∑;()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++;参考数据:()5210.66i i y y=-=∑,()()512.5i ii x xy y =--=∑ 2.6≈.备注:若0.75r >,则可判断y 与x 线性相关. 卡方临界值表:2.(2021·福建省永泰县第一中学高二期中)2021年某地区初中升学体育考试规定:考生必须参加长跑、200米游泳、1分钟跳绳三项测试.某学校在初三上学期开始,为了了解掌握全年级学生1分钟跳绳情况,抽取了100名学生进行测试,得到下面的频率分布直方图.(1)规定学生1分钟跳绳个数大于等于175为优秀.若在抽取的100名学生中,女生共有45人,男生1分钟跳绳个数大于等于175的有30人.根据已知条件完成下面的22⨯列联表,并根据这100名学生的测试成绩,判断能否有99%的把握认为学生1分钟跳绳成绩是否优秀与性别有关.(2)根据往年经验,该校初三年级学生经过训练,正式测试时每人1分钟跳绳个数都有明显进步.假设正式测试时每人1分钟跳绳个数都比初三上学期开始时增加10个,全年级恰有1000名学生,若所有学生的1分钟跳绳个数X 服从正态分布()2,N μσ,用样本数据的平均值和标准差估计μ和σ,各组数据用中点值代替,估计正式测试时1分钟跳绳个数大于173的人数(结果四舍五入到整数).附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.若随机变量X 服从正态分布()2,N μσ,则()0.6827,(22)0.9545,(33)0.9973,12.P X P X P X μσμσμσμσμσμσ-<≤+≈-<≤+≈-<≤+≈≈3.(2021·四川眉山 )新疆地区的棉花是世界上最好的棉花之一,新疆长绒棉,世界顶级,做衣被,暖和、透气、舒适,长年供不应求.评价棉花质量的重要指标之一就是棉花的纤维长度,新疆农科所在土壤环境不同的A 、B 两块实验地分别种植某品种的棉花,为了评价该品种的棉花质量,在棉花成熟后,分别从A 、B两地的棉花中各随机抽取40根棉花纤维进行统计,结果如下表:(记纤维长度不低于300mm的为“长纤维”,其余为“短纤维”).(1)由以上统计数据,填写下面22⨯列联表,并判断能否在犯错误概率不超过0.01的前提下认为“纤维长度与土壤环境有关系”(2K的观测值精确到0.01).附:()()()()()22n ad bcKa b c d a c b d-=++++临界值表:(2)现从抽取的80根棉花纤维中“短纤维”里任意抽取2根做进一步研究,记B地“短纤维”的根数为Y,求Y的分布列和数学期望;(3)根据上述B地关于“长纤维”与“短纤维”的调查,将B地“长纤维”的频率视为概率,现从B地棉花(大量的棉花)中任意抽取3根棉花,记抽取的“长纤维”的根数为X,求X的数学期望和方差.。
8.4列联表独立性分析案例[读教材·填要点]1.列联表一般地,对于两个因素X和Y,X的两个水平取值:A和A(如吸烟和不吸烟),Y也有两个水平取值:B和B(如患肺癌和不患肺癌),我们得到下表中的抽样数据,这个表格称为2×2列联表.2.χ2公式χ2=n ad-bc2a +b c+d a+c b+d.3.独立性检验的概念用随机变量χ2研究两变量是否有关的方法称为独立性检验.4.独立性检验的步骤要判断“X与Y有关系”,可按下面的步骤进行:(1)提出假设H0:X与Y无关;(2)根据2×2列联表及χ2公式,计算χ2的值;(3)查对临界值,作出判断.其中临界值如表所示:表示在H0成立的情况下,事件“χ2≥x0”发生的概率.5.变量独立性判断的依据(1)如果χ2>10.828时,就有99.9%的把握认为“X与Y有关系”;(2)如果χ2>6.635时,就有99%的把握认为“X与Y有关系”;(3)如果χ2>2.706时,就有90%的把握认为“X与Y有关系”;(4)如果χ2≤2.706时,就认为没有充分的证据显示“X与Y有关系”,但也不能作出结论“H0成立”,即X与Y没有关系.[小问题·大思维]1.利用χ2进行独立性分析,估计值的准确度与样本容量有关吗?提示:利用χ2进行独立性分析,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断因素相关时,P(χ2≥6.64)≈0.01和P(χ2≥7.88)≈0.005,哪种说法是正确的?提示:两种说法均正确.P(χ2≥6.64)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两因素相关;而P(χ2≥7.88)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两因素相关.[例1]数据:[解] 由列联表中的数据,得χ2的值为χ2=-2254×1 379×54×1 579≈68.033>6.635.因此,有99%的把握认为每一晚打鼾与患心脏病有关系.解决一般的独立性分析问题,首先由所给2×2列联表确定a,b,c,d,a+b+c+d 的值,然后代入随机变量的计算公式求出观测值χ2,将χ2与临界值x0进行对比,确定有多大的把握认为两个分类变量有关系.1.某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,经过调查得到如下列联表:系?解:由列联表中的数据,得 χ2=-294×95×86×103≈10.759>6.635,∴有99%的把握认为工作态度与支持企业改革之间有关系.[例2] (1)(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[解] (1)假设H 0:传染病与饮用水无关.把表中数据代入公式,得χ2=-2146×684×518×312≈54.21,因为当H 0成立时,χ2≥10.828的概率约为0.001,所以我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关.(2)依题意得2×2列联表:此时,χ2=-214×72×55×31≈5.785.由于5.785>2.706,所以我们有90%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有90%的把握肯定.独立性分析的步骤:要推断“X与Y是否有关”可按下面的步骤进行:①提出统计假设H0:X与Y无关;②根据2×2列联表与χ2计算公式计算出χ2的值;③根据两个临界值,作出判断.2.为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.是否有90%的把握认为“学生选报文、理科与对外语的兴趣有关”?解:根据题目所给的数据得到如下列联表:χ2=-2211×150×236×125≈1.871×10-4.因为1.871×10-4<2.706,所以没有90%的把握认为“学生选报文、理科与对外语的兴趣有关”.[例3] 为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1:注射药物A后皮肤疱疹面积的频数分布表表2:注射药物B 后皮肤疱疹面积的频数分布表完成下面2×2列联表,并回答是否有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:[解]χ2=-2100×100×105×95≈24.56>6.635.因此,有99%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.在绘制列联表时,应对问题中的不同数据分成不同的类别,然后列表.要注意列联表中各行、各列中数据的意义及书写格式.3.已知某班n 名同学的数学测试成绩(单位:分,满分100分)的频率分布直方图如图所示,其中a ,b ,c 成等差数列,且成绩在[90,100]内的有6人.(1)求n 的值;(2)规定60分以下为不及格,若不及格的人中女生有4人,而及格的人中,男生比女生少4人,借助独立性检验分析是否有90%的把握认为“本次测试的及格情况与性别有关”?附:χ2=a +bc +d a +cb +d解:(1)依题意得⎩⎪⎨⎪⎧+0.025+c +2b +a =1,2b =a +c ,解得b =0.01.因为成绩在[90,100]内的有6人, 所以n =60.01×10=60.(2)由于2b =a +c ,而b =0.01,可得a +c =0.02,则不及格的人数为0.02×10×60=12,及格的人数为60-12=48,设及格的人中,女生有x 人,则男生有x -4人, 于是x +x -4=48,解得x =26,故及格的人中,女生有26人,男生有22人. 于是本次测试的及格情况与性别的2×2列联表如下:结合列联表计算可得χ2=30×30×48×12=1.667<2.706,故没有90%的把握认为“本次测试的及格情况与性别有关”.性别与患色盲是否有关?你所得到的结论在什么范围内有效?[解] 由题意作2×2列联表如下:法一:由列联表中数据可知,在调查的男人中,患色盲的比例是38480≈7.917%,女人中患色盲的比例为6520≈1.154%,由于两者差距较大,因而我们可以认为性别与患色盲是有关系的.法二:由列联表中所给的数据可知,a=38,b=442,c=6,d=514,a+b=480,c+d=520,a+c=44,b+d=956,n=1 000,代入公式得χ2=-2480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握即在犯错误不超过0.01的前提下认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.1.下面是2×2列联表:则表中a,b的值分别为A.94,96 B.52,50C.52,54 D.54,52解析:选C ∵a+21=73,∴a=52.又∵a+2=b,∴b=54.2.下列关于χ2的说法中正确的是( )A.χ2在任何相互独立问题中都可以用于检验是否相关B.χ2的值越大,两个事件的相关性越大C.χ2是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题D.χ2=n ad-bca +b c+d a+c b+d答案:C3.对于因素X与Y的随机变量χ2的值,下列说法正确的是( )A.χ2越大,“X与Y有关系”的可信程度越小B.χ2越小,“X与Y有关系”的可信程度越小C.χ2越接近于0,“X与Y没有关系”的可信程度越小D.χ2越大,“X与Y没有关系”的可信程度越大解析:选B χ2越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大.即χ2越小,“X与Y有关系”的可信程度越小.4.若由一个2×2列联表中的数据计算得χ2的观测值为4.013,那么在犯错误的概率不超过________的前提下,认为两个变量之间有关系.解析:因为4.013>3.841,所以在犯错误的概率不超过0.05的前提下,认为两个变量之间有关系.答案:0.055.某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮肤炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍穿原用的防护服,生产进行一个月后,检查两组工人的皮肤炎患病人数如下:解析:χ2=-275×28×15×88≈13.826>6.635.故有99%的把握说,新防护服比旧防护服对预防工人职业性皮炎有效.答案:99%6.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:已知在全部50人中随机抽取1人抽到爱打篮球的学生的概率为35.(1)请将上面的列联表补充完整;(2)是否有99%的把握认为喜爱打篮球与性别有关;请说明理由. 附参考公式:χ2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d .解:(1)列联表补充如下:(2)∵χ2=-230×20×25×25≈8.333>6.635,∴有99%的把握认为喜爱打篮球与性别有关.一、选择题1.有两个因素X 与Y 的一组数据,由其列联表计算得χ2≈4.523,则认为X 与Y 有关系是错误的可信度为( )A .95%B .90%C .5%D .10%解析:选C ∵χ2≥3.841.∴X 与Y 有关系的概率为95%,∴X 与Y 有关系错误的可信度为5%.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:计算得,χ2=-260×50×60×50≈7.8.附表:A.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别有关”B.在犯错误的概率不超过0.1% 的前提下,认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动与性别有关”D.有99%以上的把握认为“爱好该项运动与性别无关”解析:选C 根据独立性分析的思想方法,正确选项为C.3.某高校“统计初步”课程的老师随机调查了选该课的一些学生情况,具体数据如下表:为了分析主修统计中的数据,得到χ2=-223×27×20×30≈4.84,所以断定主修统计专业与性别有关系,这种判断出错的可能性为( )A.0.025 B.0.05C.0.975 D.0.95解析:选B ∵χ2≈4.84>3.841,所以我们有95%的把握认为主修统计专业与性别无关,即判断出错的可能性为0.05.4.已知P(x2≥2.706)=0.10,两个因素X和Y,取值分别为{x1,x2}和{y1,y2},其样本频数分别是a=10,b=21,c+d=35.若在犯错误的概率不超过0.1的前提下,认为X与Y有关系,则c等于( )A.5 B.6C.7 D.8解析:选A 经分析,c=5.二、填空题5.班级与成绩2×2列联表:表中数据m,n,p,解析:m=10+7=17,n=35+38=73,p=7+38=45,q=m+n=90.答案:17,73,45,906.在吸烟与患肺病是否相关的判断中,有下面的说法:①若χ2>6.64,则在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性分析可知在犯错误的概率不超过0.01的前提下,认为吸烟与患肺病有关系时,若某人吸烟,则他有99%的可能患有肺病;③从独立性分析可知在犯错误的概率不超过0.05的前提下,认为吸烟与患肺病有关系时,是指有5%的可能性使得推断错误.其中说法正确的是________.解析:χ2是检验吸烟与患肺病相关程度的量,是相关关系,而不是确定关系,是反映有关和无关的概率,故说法①不正确;说法②中对“确定容许推断犯错误概率的上界”理解错误;说明③正确.答案:③7.统计推断,当________时,在犯错误的概率不超过0.05的前提下认为事件A与B 有关;当________时,认为没有充分的证据显示事件A与B是有关的.解析:当k>3.841时,就有在犯错误的概率不超过0.05的前提下认为事件A与B有关,当k<2.706时认为没有充分的证据显示事件A与B是有关的.答案:k>3.841 k<2.7068.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:由表中数据直观分析,收看新闻节目的观众是否与年龄有关:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba +b =1858,dc +d =2742,两者相差较大,所以,经直观分析,收看新闻节目的观众与年龄是有关的.答案:是 三、解答题9.某市对该市一重点中学2018年高考上线情况进行统计,随机抽查得到表格:解:对于上述四个科目,分别构造四个随机变量 χ21,χ22,χ23,χ24. 由表中数据可以得到: 语文:χ21=-2201×43×204×40=7.294>6.64,数学:χ22=-2201×43×201×43=30.008>6.64,英语:χ23=-2201×43×200×44=24.155>6.64,综合科目: χ24=-2201×43×201×43=17.264>6.64.所以有99%的把握认为语文、数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.10.一次对人们休闲方式的调查中共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表;(2)能否在犯错误的概率不超过0.05的前提下认为性别与休闲方式有关系? 解:(1)2×2列联表如下:(2)χ2=-270×54×64×60≈6.201.因为6.201>3.841,所以有理由认为假设休闲方式与性别无关是不合理的,即在犯错误的概率不超过0.05的前提下认为休闲方式与性别有关.。
8.3 列联表与独立性检验(基础知识+基本题型)知识点一 列联表与等高条形图1.列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表(也称为22⨯列联表)为:1y 2y 总计 1x aba b + 2xc d c d + 总计a c +b d +a b c d +++2.等高条形图:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图.图就是一个等高条形图,其中两个浅色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率;两个深色条的高分别表示不吸烟和吸烟样本中患肺癌的频率. 提示⑴等高条形图中有两个高度相同的矩形,每一个矩形中都有两种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显(即a ab +和c c d+相差很大),就判断两个分类变量之间有关系. ⑴列联表与等高条形图的关系与特点:它们都可以用来分析分类变量之间是否有关系,但等高条形图能更直观地反映出两个分类变量是否相互影响. 知识点二 独立性检验为了使不同样本容量的数据有统一的评判标准,我们构造一个随机变量()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.要判断“两个分类变量有关系”,首先假设该结论不成立,即“0H :两个分类变量没有关系”成立.在该假设下我们所构造的随机变量2K 应该很小.若由观测数据计算得到的2K 的观测值k 很大,则断言0H 不成立,即认为“两个分类变量有关系”;若观测值k 很小,则说明在样本数据中没有发现足够证据拒绝0H .上面这种利用随机变量2K 来判断“两个分类变量有关系”的方法称为独立性检验. 提示独立性检验与反证法的比较一般地,假设有两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表为:若要推断的论述为1H :“X 与Y 有关系”.⑴根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查临界值表确定临界值0k . 附:临界值表⑴利用公式()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++,计算随机变量2K 的观测值k .⑶如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X 与Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.考点一利用等高条形图判断两个分类变量之间的关系例1为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组合对照组的尿棕色素定性检查,结果如下表:用等高条形图判断铅中毒病人和对照人群的尿棕色素阳性数有无差别.解:根据列联表,画出等高条形图,如图所示.其中,阴影部分的高分别为病人组和对照组中尿棕色素呈阴性的频率.比较图中两个无色条的高可以发现,病人组中尿棕色素呈阳性的频率要比对照组中尿棕色素呈阳性的频率高很多,因此,只管上可以认为铅中毒病人和对照人群的尿棕色素阳性数有差别.(1)利用等高条形图可以粗略地判断两个分类变量是否有关系.(2)还可以利用ad bc-越大,说明两个分类变量的关-的大小判断两个分类变量关系的强弱,ad bc系越强;ad bc-越小,说明两个分类变量的关系越弱.考点二独立性检验的相关检验例2某大型企业人力资源部为了研究企业员工的工作积极性和对待企业改革态度的关系,随机抽取了189名员工积极性和对待企业改革态度的关系,随机抽取了189名员工进行调查,所得数据如下表所示.对于人力资源部的研究项目,根据上述数据能得出什么结论?李明和张宇都对该题进行了独立性检验的分析,李明的结论是“在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”;张宇的结论是“在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系”.他们两人的结论正确吗?他们的结论为什么不一样? 解:正确.由列联表中的数据求得2K 的观测值为()21895463403210.759949586103k ⨯⨯-⨯=≈⨯⨯⨯.10.7597.879 6.635>>,若以07.879k =为临界值,则在犯错误的概率不超过0.005的前提下认为企业员工的工作积极性和对待企业改革的态度有关系;若以0 6.635k =为临界值,则在犯错误的概率不超过0.01的前提下认为企业员工的工作积极性和对待企业改革的态度有关系. 故李明和张宇的结论都正确.造成结论不一样的原因是两人采用了两种不同的判断规则,即所选用的临界值不同.总结:随机变量2K 的观测值k 越大,说明“X 与Y 有关系”成立的可能性越大,因为根据列联表中数据求得2K 的观测值k ,而选用不同的临界值0k 作为比照时,认为“X 与Y 有关系”犯错误的概率就会有所有所不同.考点三 独立性检验的无关检验 例3 为了研究高中学生选学文科、理科是否与“对外语的兴趣”有关,某老师调查了361名高二在校学生,调查结果如下:理科对外语感兴趣的有138人,不感兴趣的有52人.能否在犯错误的概率不超过0.1的前提下认为学生选学文科、理科与“对外语的兴趣”有关? 解:由上表,知138a =,73b =,98c =,52d =,211a b +=,150c d +=,236a c +=,125b d +=,361n =, 代入公式,得2K 的观测值为()24361138527398 1.87110211150236125k -⨯⨯-⨯=≈⨯⨯⨯⨯.因为41.87110 2.706-⨯<,所以在犯错误的概率不超过0.1的前提下不能推断学生选学文科、理科与“对外语的兴趣”有关. 总结(1)计算()()()()22()n ad bc K a b c d a c b d -=++++,如果2K 的值较大,就拒绝假设,也就是拒绝两个分类变量无关,从而认为它们是有关的.(2)若2 6.635K ≥,则在犯错误的概率不超过0.01的前提下认为两个分类变量有关;若2 2.706K ≤,则认为没有发现足够证据说明两个分类变量有关. 考点四 独立性检验的基本思想及综合应用例4 下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种传染病是否与饮用水的卫生程度有关,并比较两种样本在反映总体时的差异. 解:(1)假设0H :传染病与饮用水的卫生程度无关. 把表中数据代入公式,得2K 的观测值为()2830522184669454.21518312146684k ⨯⨯-⨯=≈⨯⨯⨯,因为54.2110.828>,所以拒绝0H .因为在犯错误的概率不超过0.001的前提下认为这种传染病与饮用水的卫生程度有关. (2)依题意,得如下列联表:根据列联表中的数据得到2K 的观测值为()286522509 5.78555311472k ⨯⨯-⨯=≈⨯⨯⨯.因为5.785 5.024>,所以在犯错误的概率不超过0.025的前提下认为这种传染病与饮用水的卫生程度有关.两个样本都能统计得到传染病与饮用水的卫生程度有关这一相同结论,但(1)中是在犯错误的概率不超过0.001的前提下认为结论正确,(2)中是在犯错误的概率不超过0.025的前提下认为结论正确.解决这类问题,关键是正确计算2K 的观测值,利用临界值来进行判断.如果求出的2K 的观测值很大,就认为两个分类变量有关;如果2K 的观测值很小,就认为没有足够证据说明两个分类变量有关. 例5 电视传媒公司为了解某地区电视观众对某类体育节目的收视情况,随机抽取了100名观众进行调查.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目不低于40min 的观众称为“体育迷”.(1)根据已知条件完成下面的列联表,并据此资料你是否能在犯错误的概率不超过0.05的前提下“体(2)将上述调查所得到的频率视为概率.现在从该地区大量电视观众中,采用随机抽样方法每次抽取1名观众,抽取3此,记被抽取的3名观众中的“体育迷”人数为X .若每次抽取的结果是相互独立的,求X 的分布列,数学期望()E X 和方差()D X .解:(1)由频率分布直方图可知,在抽取的100名观众中,“体育迷”有()1000.0200.0051025⨯+⨯=(人) 则22⨯列联表如下:将列联表中的数据代入公式计算,得2K 的观测值为()210030101545 3.03045557525k ⨯⨯-⨯=≈⨯⨯⨯.因为3.030 3.841<,所以在犯错误的概率不超过0.05的前提下没有足够的理由认为“体育迷”与性别有关.(2)由频率分布直方图,知随机抽到“体育迷”的概率为14.将频率视为概率,即从观众中随机抽到1名“体育迷”的概率为14. 由题意,知13,4XB ⎛⎫⎪⎭,从而X 的分布列为()13344E X =⨯=, ()119314416D X ⎛⎫=⨯⨯-= ⎪⎝⎭.(1)解决第(1)问的关键是先根据频率分布直方图求出“体育迷”的人数,进而完成22⨯列联表,再计算出的观测值2K ,从而作出判断.(2)解决第(2)问的关键是正确写出分布列.。
8.4 列联表独立性分析案例(3)一、教学目标(一)知识目标通过对典型案例(如“色弱与性别是否有关”“中学生物理考试成绩和吃早点是否相关”)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用。
(二)能力目标让学生经历数据处理的过程,会用所学知识对具体案例进行检验,提高探索解决问题的能力。
(三)情感目标从实例中发现问题,提高学习兴趣,激发学习积极性和主动性,不断自我完善,养成不断探求知识完善自我的良好态度。
二、教学重点进一步理解独立性检验的实施步骤三、教学难点对临界值的理解作出判断四、教学过程(一)引入课题独立性检验的步骤。
1.若要推断的论述为H1:“X与Y有关系”。
可按如下步骤判断H1成立的可能性。
A 通过三维柱形图和二维条形图,粗略判断两个分类变量是否有关系。
B 可以利用独立性检验来考察两个分类变量是否有关系。
并能精确判断可靠程度。
2.由观测数据算2χ,其值越大,说明“X与Y有关系”成立的可能性越大。
3.由临界值表确定可靠程度。
(二)案例讲解分析:设从表格中提供的统计数据,可以计算得到如下数值:男性所占百分比:132120.48300+=;女性所占百分比:15150.52300+=在这300人的样本中,男性色弱患者的百分比:120.04300≈;女性色弱的百分比:50.017300≈直观上看,300人中男性色弱的比例高于女性(0.040.017>)。
色弱应该与性别有关。
下面进一步运用独立性的概念进行检验。
从300人中随机选取一人,设1A 表示男性,2A 表示女性,1B 表示色觉正常,2B 表示色弱。
则:1()0.48P A =,2()0.52P A =,2125()0.06300P B +=≈ P (此人为男性且色弱)=12()0.04P A B = 而12()()0.480.060.028P A P B =⨯= 显然1212()()()P A B P A P B ≠P (此人为女性且色弱)=22()0.017P A B =,22()()0.520.060.031P A P B =⨯=显然2222()()()P A B P A P B ≠因此,1A 与2B 、2A 与2B 都不是独立的。