统计学 《独立性检验》
- 格式:ppt
- 大小:246.00 KB
- 文档页数:10
《独立性检验》一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。
“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。
独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。
3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。
4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一. 三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的:1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。
统计学中的独立性检验统计学中的独立性检验(Test of Independence)是一种常用的统计方法,用于研究两个或多个分类变量之间是否存在相互独立的关系。
通过对随机抽样数据进行分析,可以判断不同变量之间是否有关联,并衡量关联的强度。
本文将介绍独立性检验的基本原理、常用的检验方法以及实际应用。
一、独立性检验的基本原理独立性检验的基本原理是基于统计学中的卡方检验(Chi-Square Test)。
卡方检验是一种非参数检验方法,用于比较观察值频数与期望频数之间的差异。
在独立性检验中,我们首先建立一个原假设,即所研究的两个或多个变量之间不存在关联,然后通过计算卡方统计量来判断观察值与期望值之间的差异是否显著。
二、常用的独立性检验方法1. 皮尔逊卡方检验(Pearson's Chi-Square Test):这是最常见的独立性检验方法,适用于有两个以上分类变量的情况。
它基于观察频数和期望频数之间的差异,计算出一个卡方统计量,并根据卡方分布表给出显著性水平。
2. Fisher精确检验(Fisher's Exact Test):当样本量较小或者某些期望频数很小的情况下,皮尔逊卡方检验可能存在一定的偏差。
在这种情况下,可以使用Fisher精确检验来代替皮尔逊卡方检验,得到更准确的结果。
3. McNemar检验:适用于配对数据比较的独立性检验,例如一个样本在两个时间点上的观察结果。
三、独立性检验的实际应用独立性检验在各个领域都有广泛的应用,以下是几个常见的实际应用场景:1. 医学研究:独立性检验可以用于研究某种药物治疗方法是否具有显著的疗效,或者判断不同年龄组和性别之间是否存在患病率的差异。
2. 教育领域:独立性检验可用于研究学生成绩与家庭背景、教育水平之间是否存在关联。
3. 市场调研:在市场调研中,可以通过独立性检验来分析不同年龄、性别、收入水平等因素对消费者购买习惯的影响。
4. 社会科学研究:独立性检验可以帮助社会科学研究人员探索个体特征与社会行为之间的关系,例如政治倾向与不同年龄群体之间的关联性等。
独立性检验的方法
独立性检验是用来判断两个变量之间是否存在关联或者依赖关系的统计方法。
常见的独立性检验方法有以下几种:
1. 卡方检验(Chi-square test):用于检验两个分类变量之间的独立性。
它将观察到的频数与期望频数进行比较,判断是否存在显著的差异。
2. Fisher精确检验(Fisher's exact test):在小样本数据中使用的一种精确方法,用于检验两个分类变量之间的独立性。
该方法不依赖于样本的分布假设,适用于小样本和稀有事件的情况。
3. 独立样本t检验(Independent samples t-test):用于检验两个组的均值是否存在显著差异。
这种方法适用于两个互不相关的样本。
4. 方差分析(Analysis of Variance, ANOVA):用于检验多个组之间均值的差异是否显著。
ANOVA分为单因素和多因素两种,前者适用于一个自变量,后者适用于多个自变量的情况。
5. 斯皮尔曼相关系数(Spearman's rank correlation coefficient):用于衡量两个变量之间的非线性关系。
斯皮尔曼相关系数是一种非参数的方法,适用于顺序变量或非正态分布的变量。
以上是常见的几种独立性检验方法,不同的方法适用于不同的情况和变量类型。
在进行独立性检验时,需要根据实际情况选择合适的方法进行分析。
独立性检验§1.2独立性检验的基本思想及其初步应用课前热身1.2×2列联表(1)分类变量的定义变量的不同“值”表示__________,像这样的变量称作分类变量.(2)2×2列联表的定义一般地取两个分类变量X和Y,它们的值域分别为__________和__________,其样本频数列联表(也称2×2列联表)为下表:2.二维条形图在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占比例__________,也可以估计满足X=x2的个体中具有Y=y1的个体所占比例为__________,两个比例的值相差越大,则两分类变量有关系的可靠程度越大.3.K2统计量为了消除样本量|ad-bc|的影响,统计学中引入下面的量K2=_____________________________________________________,其中n=__________为样本容量.4.独立性检验的定义及实施步骤(1)独立性检验的定义利用随机变量K2来确定是否能以给定把握认为“________________”的方法,称为两个分类变量的独立性检验.(2)判断“__________________________”的方法有列联表法、__________及K2公式的计算.名师讲解一般地,假设两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为下表:若要推断的论述为H1:“X与Y有关系”.可以按如下步骤判断H1成立的可能性.(1)通过二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度.在二维条形图中,可以估计满足条件X=x1的个体中具有Y=y1的个体所占比例为aa+b,也可以估计满足条件X=x2的个体中具有Y=y1的个体所占的比例为cc+d,两个比例的值相差越大,H1成立的可能性就越大.(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,具体的做法是:根据数据代入公式K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)求出随机变量K2的观测值k,其值越大,说明X与Y有关系的可能性越大,当得到的观测数据a、b、c、d都不小于5时,可以得到以下结论用于确定X与Y的可信程度:①如果k>10.828,有99.9%的把握认为X与Y有关系.②如果k>7.879,就有99.5%的把握认为X与Y有关系.③如果k>6.635,就有99%的把握认为X与Y有关系.④如果k>5.024,就有97.5%的把握认为X与Y有关系.⑤如果k>3.841,就有95%的把握认为X与Y有关系.⑥如果k>2.706,就有90%的把握认为X与Y有关系.⑦如果k≤2.706,就认为没有充分的证据显示X与Y有关系.典例剖析题型一概念辨析例1在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是()A.如果K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推理出现错误D.以上三种说法都不正确误区警示题中所说的“有99%的把握认为吸烟与患肺病有关”是指统计上的关系,而不是因果关系,也不能认为99%是指某人患有肺病的概率.变式训练1下列说法正确的个数为()①对事件A与B的检验无关,说明两事件互不影响;②事件A与事件B关系越密切,K2的值就越大;③K2的大小是判断事件A与B是否相关的唯一数据;④若判断两事件A与B相关,则A发生B一定发生.A.1B.2C.3D.4例2打鼾不仅影响别人休息,而且可能与患某种疾病有关.下表是一次调查所得的数据,试问:每晚都打鼾与患心脏病有关吗?用图表分析.变式训练2在500人身上试验某种血清预防感冒的作用,把一年中的记录与另外500个未用血清的人作比较,结果如下:题型三利用K2公式进行独立性检验例3在研究某种新措施对猪白痢的防治效果问题时,得到以下数据:试问新措施对防治猪白痢是否有效果?分析对于新措施对防治猪白痢是否有效果?可以计算K2的值与临界值进行比较,作出判断.规律技巧虽然二维条形图也能判断新措施对防治猪白痢是否有效果,但不能给出它们关系这一结论的可靠程度,因而我们常用K2公式解答问题.变式训练3调查者询问了72名大学生在购买食品时是否观看营养说明得到下表所示的数据,从表中数据分析看不看说明书与大学生的性别之间有没有关系.题型四独立性检验的应用例4下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.变式训练4现有两种治疗运动员膝关节损伤的药方,为了比较两药方的疗效收集的数据如下表:(2)哪种药方疗效好?技能演练基础强化1.下列关于K2的说法正确的是()A.K2在任何相互独立问题中都可以用来检验有关还是无关B.K2的值越大,两个事件的相关性越大C.K2是用来判断两个分类变量是否有关系的随机变量,只对于两个分类变量适合D.K2的观测值的计算公式为K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d)2.下面是一个2×2列联表则表中aA.94、96B.52、50 C.52、54 D.54、52 3.观察下列各图,其中两个分类变量x,y之间关系最强的是()4.考察棉花种子经过处理跟生病之间的关系得到如下表数据:A .种子经过处理跟是否生病有关B .种子经过处理跟是否生病无关C .种子是否经过处理决定是否生病D .以上都是错误的 5.分类变量x 和y 的列联表如下,则( )A.ad -bc C .(ad -bc )2越大,说明x 与y 的关系越强 D .(ad -bc )2越小,说明x 与y 的关系越强 6.某班主任对全班50名学生进行了作业量多少的调查,数据如下表:A .99%B .95%C .90%D .无充分依据7.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:k =50(13×20-10×7)220×30×23×27≈4.844,因为k >3.841,所以确定主修统计专业与性别有关系,那么这种判断出错的可能性为__________.8.某大学在研究性别与职称(分正教授,副教授)之间是否有关系,你认为应该收集的数据是__________.能力提升9.利用独立性检验来考虑两个分类变量X和Y是否有关系时,通过查阅下表来确定断言“X 和Y有关系”的可信度.如果k>5.024,那么就有把握认为“X和Y有关系”的百分比为__________.1011.在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人,女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动,你能否判断性别与休闲方式是否有关系?品味高考12.(2010·新课标)为了调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关;(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )。