独立性检验介绍
- 格式:ppt
- 大小:714.50 KB
- 文档页数:21
独立性检验及其在日常生活中的应用
独立性检验是统计分析中一种常用的分析方法,用来检验两个或多个变量之间是否存在独
立性。
它可以用来分析实验结果,判断哪一变量对另一变量有多大影响。
独立性检验包括卡方检验、t检验、卡方检验和秩相关检验四种。
卡方检验是一种检验样
本中变量间独立性的常用方法,可以用于分析多组实验数据,以识别哪些变量之间存在相
互关系。
t检验则用于检验一组样本的均值和样本的成分是否有显著的差异。
卡方检验经
常用于研究样本组之间是否存在显著的观测值,或者在两个和多个非互斥分类中检验变量
之间是否存在关联。
最后,秩相关检验是一种检验两个变量之间存在折中或正向相关性的统计技术。
独立性检验在日常生活中也有广泛的应用。
比如,大量的调查性研究中都需要用独立性检验来评估调查结果,以考察某种情况下两个或多个因素之间的关系。
此外,在医药研究中,也广泛应用独立性检验,以检验某种药物对治疗所谓的“抑郁症”有何效果。
食品行业也用
独立性检验来评估口味与品质之间的关联,以确定质量控制水平。
另外,主流企业也通过
独立性检验来分析销售额,市场占有率,投资回报率等多种指标之间的相关性,为决策提
供科学依据。
总之,独立性检验作为统计分析中常用的分析方法,在实际应用中具有重要意义。
它可以帮助我们理解实验结果,找出合理的解释,并指导我们合理有效地做出决策,有助于提高
我们的工作效率。
《独立性检验》一、内容与内容解析《独立性检验》为新课标教材中新增加的内容. 虽然本节是新增内容,理论比较复杂,教学时间也不长(1-2课时),但由于它贴近实际生活,在整个高中数学中,地位不可小视.在近几年各省新课标高考试题中,本节内容屡屡出现,而且多以解答题的形式呈现,其重要性可见一斑.该内容是前面学生在《数学3》(必修)中的统计知识的进一步应用,并与本册课本前面提到的事件的独立性一节关系紧密,此外还涉及到与《数学2-2》(选修)中讲到的“反证法”类似的思想.本小节的知识内容如右图。
“独立性检验”是在考察两个分类变量之间是否具有相关性的背景下提出的,因此教材上首先提到了分类变量的概念,并给出了考察两个分类变量之间是否相关的一种简单的思路,即借助等高条形图的方法,随后引出相对更精确地解决办法——独立性检验。
独立性检验的思想,建立在统计思想、假设检验思想(小概率事件在一次试验中几乎不可能发生)等基础之上,通常按照如下步骤对数据进行处理:明确问题→确定犯错误概率的上界α及2K 的临界值0k →收集数据→整理数据→制列联表→计算统计量2K 的观测值k →比较观测值k 与临界值0k 并给出结论.本节的重点内容是通过实例让学生体会独立性检验的基本思想,掌握独立性检验的一般步骤.二、目标与目标解析本节课的教学目标是主要有:1.理解分类变量(也称属性变量或定性变量)的含义,体会两个分类变量之间可能具有相关性;2.通过对典型案例(吸烟和患肺癌有关吗?)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法、步骤及应用。
3.鼓励学生体验用多种方法(等高条形图法与独立性检验法)解决同一问题,并对各种方法进行比较。
4.让学生对统计方法有更深刻的认识,体会统计方法应用的广泛性,进一步体会科学的严谨性(如统计可能犯错误,原因可能是收集的数据样本容量小或样本采集不合理,也可能是理论上的漏洞,如在一次实验中,我们假设小概率事件不发生,这一点本身就值得质疑). 其中第2条是重点目标,也是《课程标准》中明确指出的教学要求之一. 三、教学问题诊断分析基于对学生已有数学水平的分析,在本节新学内容时,有以下几点是初学者不易理解或掌握的:1.2K 的结构比较奇怪,来的也比较突然,学生可能会提出疑问.关于这个问题的处理,要首先利用好前面对“比例”或者两个分类变量“独立”的分析。
独立性检验
独立性检验,统计学的一种检验方式。
与适合性检验同属于X2检验,它是根据次数资料判断两类因子彼此相关或相互独立的假设检验。
即为什么不能只凭列联表中的数据和由其绘出的图形下结论, 由列联表可以粗略地估计出两个变量(两类对象)是否有关(即粗略地进行独立性检验),但2×2列联表中的数据是样本数据,它只是总体的代表,具有随机性,故需要用独立性检验的方法确认所得结论在多大程度上适用于总体。
关于这一点,在后面的案例中还要进一步说明。
在H0成立的条件下,吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即aa+b≈c;c+d;a(c+d)≈c(a+b);ad-bc≈0.。
统计学中的独立性检验统计学中的独立性检验(Test of Independence)是一种常用的统计方法,用于研究两个或多个分类变量之间是否存在相互独立的关系。
通过对随机抽样数据进行分析,可以判断不同变量之间是否有关联,并衡量关联的强度。
本文将介绍独立性检验的基本原理、常用的检验方法以及实际应用。
一、独立性检验的基本原理独立性检验的基本原理是基于统计学中的卡方检验(Chi-Square Test)。
卡方检验是一种非参数检验方法,用于比较观察值频数与期望频数之间的差异。
在独立性检验中,我们首先建立一个原假设,即所研究的两个或多个变量之间不存在关联,然后通过计算卡方统计量来判断观察值与期望值之间的差异是否显著。
二、常用的独立性检验方法1. 皮尔逊卡方检验(Pearson's Chi-Square Test):这是最常见的独立性检验方法,适用于有两个以上分类变量的情况。
它基于观察频数和期望频数之间的差异,计算出一个卡方统计量,并根据卡方分布表给出显著性水平。
2. Fisher精确检验(Fisher's Exact Test):当样本量较小或者某些期望频数很小的情况下,皮尔逊卡方检验可能存在一定的偏差。
在这种情况下,可以使用Fisher精确检验来代替皮尔逊卡方检验,得到更准确的结果。
3. McNemar检验:适用于配对数据比较的独立性检验,例如一个样本在两个时间点上的观察结果。
三、独立性检验的实际应用独立性检验在各个领域都有广泛的应用,以下是几个常见的实际应用场景:1. 医学研究:独立性检验可以用于研究某种药物治疗方法是否具有显著的疗效,或者判断不同年龄组和性别之间是否存在患病率的差异。
2. 教育领域:独立性检验可用于研究学生成绩与家庭背景、教育水平之间是否存在关联。
3. 市场调研:在市场调研中,可以通过独立性检验来分析不同年龄、性别、收入水平等因素对消费者购买习惯的影响。
4. 社会科学研究:独立性检验可以帮助社会科学研究人员探索个体特征与社会行为之间的关系,例如政治倾向与不同年龄群体之间的关联性等。
独立性检验的诠释与备考
独立性检验,又称为卡方检验,是一种常用的统计技术,用于检验两个变量之间是否存在独立性的关系。
它的原理是比较两组数据之间的差异,从而判断数据是否独立。
首先,我们要明确独立性检验的定义:两个变量之间的独立性,指的是两个变量是否有着相互独立的关系,也就是说,这两个变量之间没有因果关系。
其次,我们要了解独立性检验的用途:它可以帮助我们确定两个变量之间是否存在相互独立的关系,也可以用来测试不同类别的变量之间的关系,从而推断出这两个变量是否有着相互独立的关系。
再次,我们要了解独立性检验的方法:它的基本步骤是:首先,确定两个变量的分类;其次,计算每类变量的频率;最后,使用卡方检验(Chi-Square Test)来检验两个变量是否相互独立。
最后,要了解独立性检验的备考方法:
1.了解变量的定义和分类:在备考独立性检验时,要先明确变量的定义和分类,以便于更好地理解相关的概念和计算公式。
2.研究卡方检验:卡方检验是独立性检验的基础,要了解它的概念以及计算公式。
3.练独立性检验:复时要多练独立性检验,比如说可以尝试某些实际例子,这样可以加深对独立性检验的理解。
总之,独立性检验是一种非常有用的统计技术,在备考时要搞清楚它的定义、用途和方法,并多练,以便在考试中取得良好的成绩。
独立性检验基本思想及应用独立性检验是一种用于确定两个变量之间是否存在关联的统计方法。
其基本思想是通过比较观察到的数据与预期的数据之间的差异来推断这两个变量之间的关系。
独立性检验的应用非常广泛。
在社会科学中,独立性检验常被用于研究两个分类变量之间是否存在关联,例如性别和职业、教育水平和政治倾向等。
在医学研究中,独立性检验也可以用来检查某种治疗方法是否与疾病的发展有关,以及风险因素和某种疾病之间的关系。
此外,独立性检验还被广泛应用于市场调查、品牌定位以及质量控制等领域。
独立性检验的基本思想是建立一个零假设(H0)和一个备择假设(H1)。
零假设认为两个变量是独立的,即它们之间没有关联;备择假设则认为两个变量之间存在关联。
独立性检验的步骤可以分为以下几步:1. 收集数据:需要收集两个分类变量的数据,例如通过问卷调查或观察获得数据。
2. 建立列联表:将数据整理成列联表形式,列联表是一种用于描述两个或多个分类变量之间关系的矩阵。
表格的行表示一个变量的不同类别,列表示另一个变量的不同类别,表格中的每个单元格表示两个类别的交叉数量。
3. 计算期望频数:在独立性检验中,我们假设两个变量是独立的,因此可以基于各类别的边际总数以及样本总数来计算期望频数。
期望频数是在两个变量独立情况下,各个类别的交叉数量。
4. 计算卡方统计量:卡方统计量用于衡量观察到的数据与期望数据之间的差异程度。
计算公式为:χ2 = Σ((观察频数- 期望频数)^2 / 期望频数)。
其中,Σ表示对所有单元格进行求和。
5. 设定显著性水平:显著性水平α为决策的临界点,用于决定是否拒绝零假设。
通常,α的常见选择为0.05或0.01。
6. 判断和解释结果:根据计算出的卡方统计量与临界值进行比较,如果计算出的卡方值大于临界值,拒绝零假设,认为两个变量之间存在关联;反之,接受零假设,认为两个变量是独立的。
独立性检验的结果常常以卡方统计量和p值的形式呈现。
p值是在零假设成立的条件下,观察到的数据与期望数据之间差异的概率。
独立性检验原理
一、独立性检验原理
独立性检验是一种统计学方法,用来检验两个变量之间是否具有某种特定的关联。
这种检验通常被称为卡方检验,也称为假设检验,可用于衡量总体比例的差异。
独立性检验的原理是基于卡方检验的假设。
卡方检验是一种假定检验,由卡方分布检验构成,它主要对两个及以上的分类字段进行检验,以确定两个或多个字段是否存在某种统计关联。
此外,在独立性检验中,被检验的时间变量不能过剩或不足。
检验的内容取决于所检验的变量是多变量还是单变量。
如果是多变量检验,可以分析多个变量之间的时间关系;而如果是单变量检验,则只能测量单变量之间的关系。
独立性检验也是针对总体比例的,因此它可以用于衡量独立变量和因变量间的关系。
例如,独立性检验可用于测量某种健康行为的总体比例,以及分析事件发生的不同国家或地区之间是否具有某种统计关联性。
另外,独立性检验也可用于分析多项结果之间具有相互影响的概率,以及分析某种疾病的发病率。
例如,它可以用于确定一个人决定一种某种疾病发病的概率是否与另一个人的不同因素(例如性别)有关。
独立性检验【学习目标】1.了解独立性检验的基本思想、方法及其简单应用2.理解判断两个分类变量是否有关系的常用方法、独立性检验中K2的含义及其实施步骤【自主学习】知识点独立性检验(1)定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.(3)独立性检验的具体做法①根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.②利用公式计算随机变量K2的观测值k.③如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”.【合作探究】探究一 有关“相关的检验”【例1】某校对学生课外活动进行调查,结果整理成下表:用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?解 判断方法如下:假设H 0“喜欢体育还是喜欢文娱与性别没有关系”,若H 0成立,则K 2应该很小. ∵a =21,b =23,c =6,d =29,n =79, ∴K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=79×(21×29-23×6)244×35×27×52≈8.106.且P (K 2≥7.879)≈0.005即我们得到的K 2的观测值k ≈8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”.归纳总结:(1)利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )求出K 2的观测值k 的值.再利用临界值的大小来判断假设是否成立.(2)解题时应注意准确代数与计算,不可错用公式,准确进行比较与判断.【练习1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解 由公式得K 2的观测值k =189×(64×73-22×30)286×103×95×94≈38.459.∵38.459>10.828,∴有99.9%的把握说学生学习数学的兴趣与数学成绩是有关的.探究二 有关“无关的检验”【例2】为了探究学生选报文、理科是否与对外语的兴趣有关,某同学调查了361名高二在校学生,调查结果如下:理科对外语有兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,无兴趣的有52人.分析学生选报文、理科与对外语的兴趣是否有关? 解 列出2×2列联表代入公式得K 2的观测值k =361×(138×52-73×98)2236×125×211×150≈1.871×10-4.∵1.871×10-4<2.706,∴可以认为学生选报文、理科与对外语的兴趣无关.归纳总结:运用独立性检验的方法:(1)列出2×2列联表,根据公式计算K 2的观测值k . (2)比较k 与k 0的大小作出结论.【练习2】第16届亚运会于2010年11月12日至27日在中国广州进行,为了搞好接待工作,组委会招募了16名男志愿者和14名女志愿者,调查发现,男、女志愿者中分别有10人和6人喜爱运动,其余人不喜爱运动. (1)根据以上数据完成以下2×2列联表:(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关? 解 (1)(2)假设是否喜爱运动与性别无关,由已知数据可求得: K 2=30×(10×8-6×6)2(10+6)(6+8)(10+6)(6+8)≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.探究三 独立性检验的基本思想【例3】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸,结果如下表: 甲厂乙厂(1)试分别估计两个分厂生产的零件的优质品率;(2)由以上统计数据填下面2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),解 (1)甲厂抽查的产品中有360件优质品,从而甲厂生产的零件的优质品率估计为360500=72%;乙厂抽查的产品中有320件优质品,从而乙厂生产的零件的优质品率估计为320500=64%.(2)K 2=1 000×(360×180-320×140)2500×500×680×320≈7.353>6.635,所以有99%的把握认为“两个分厂生产的零件的质量有差异”.归纳总结:(1)解答此类题目的关键在于正确利用K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算k 的值,再用它与临界值k 0的大小作比较来判断假设检验是否成立,从而使问题得到解决.(2)此类题目规律性强,解题比较格式化,填表计算分析比较即可,要熟悉其计算流程,不难理解掌握.【练习3】下表是某地区的一种传染病与饮用水的调查表:(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9人,不得病22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.解 (1)假设H 0:传染病与饮用水无关.把表中数据代入公式得:K 2的观测值k =830×(52×218-466×94)2146×684×518×312≈54.21,∵54.21>10.828,所以拒绝H 0.因此我们有99.9%的把握认为该地区这种传染病与饮用不干净水有关. (2)依题意得2×2列联表:此时,K 2的观测值k =86×(5×22-50×9)14×72×55×31≈5.785.由于5.785>5.024,所以我们有97.5%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有97.5%的把握肯定.课后作业A组基础题一、选择题1.经过对K2的统计量的研究,得到了若干个临界值,当K2的观测值k>3.841时,我们() A.在犯错误的概率不超过0.05的前提下可认为X与Y有关B.在犯错误的概率不超过0.05的前提下可认为X与Y无关C.在犯错误的概率不超过0.01的前提下可认为X与Y有关D.没有充分理由说明事件X与Y有关系【答案】A2.用独立性检验来考察两个分类变量x与y是否有关系,当统计量K2的观测值() A.越大,“x与y有关系”成立的可能性越小B.越大,“x与y有关系”成立的可能性越大C.越小,“x与y没有关系”成立的可能性越小D.与“x与y有关系”成立的可能性无关【答案】B3.在一个2×2列联表中,由其数据计算得K2的观测值k=7.097,则这两个变量间有关系的可能性为()A.99% B.99.5%C.99.9% D.无关系【答案】A解析K2的观测值6.635<k<7.879,所以有99%的把握认为两个变量有关系.4.对两个分类变量A,B的下列说法中正确的个数为()①A与B无关,即A与B互不影响;②A与B关系越密切,则K2的值就越大;③K2的大小是判定A与B是否相关的唯一依据A.0 B.1 C.2 D.3【答案】B解析①正确,A与B无关即A与B相互独立;②不正确,K2的值的大小只是用来检验A 与B是否相互独立;③不正确,例如借助三维柱形图、二维条形图等.故选B.5.考察棉花种子经过处理跟生病之间的关系得到下表数据:根据以上数据,可得出()A.种子是否经过处理跟是否生病有关B.种子是否经过处理跟是否生病无关C.种子是否经过处理决定是否生病D.以上都是错误的【答案】B解析由K2=407×(32×213-61×101)293×314×133×274≈0.164<2.706,即没有把握认为种子是否经过处理跟是否生病有关. 二、填空题 6.根据下表计算:K 2的观测值k ≈________(保留3位小数). 【答案】 4.514解析 k =300×(37×143-85×35)2122×178×72×228≈4.514.7.如果K 2的观测值为6.645,可以认为“x 与y 无关”的可信度是________. 【答案】 1%解析 查表可知可信度为1%.8.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到K 2的观测值k ≈9.643,根据临界值表,有________把握认为课外阅读量大与作文成绩优秀有关. 【答案】 99.5%解析根据临界值表,9.643>7.879,在犯错误的概率不超过0.005的前提下,认为课外阅读量大与作文成绩优秀有关,即有99.5%的把握认为课外阅读量大与作文成绩优秀有关.9.为研究某新药的疗效,给50名患者服用此药,跟踪调查后得下表中的数据:设H0:服用此药的效果与患者的性别无关,则K2的观测值k≈________(小数点后保留三位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.【答案】 4.8825%解析由公式计算得K2的观测值k≈4.882,∵k>3.841,∴我们有95%的把握认为服用此药的效果与患者的性别有关,从而有5%的可能性出错.三、解答题10.高中流行这样一句话“文科就怕数学不好,理科就怕英语不好”.下表是一次针对高三文科学生的调查所得数据,试问:在出错概率不超过0.025的前提下,能否判断“文科学生总成绩不好与数学成绩不好有关系”?解依题意,计算随机变量K2的观测值:k =913×(478×24-399×12)2490×423×877×36≈6.233>5.024,所以在出错概率不超过0.025的前提下,可以判断“文科学生总成绩不好与数学成绩不好有关系”.11.吃零食是中学生中普遍存在的现象,吃零食对学生身体发育有诸多不利影响,影响学生的健康成长.下表是性别与吃零食的列联表:请问喜欢吃零食与性别是否有关?解K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),把相关数据代入公式,得 K 2的观测值k =85×(5×28-40×12)217×68×45×40≈4.722>3.841.因此,在犯错误的概率不超过0.05的前提下,可以认为“喜欢吃零食与性别有关”. 12.在某校对有心理障碍学生进行测试得到如下列联表:试说明在这三种心理障碍中哪一种与性别关系最大?解 对于题中三种心理障碍分别构造三个随机变量K 21,K 22,K 23.其观测值分别为k 1,k 2,k 3.由表中数据列出焦虑是否与性别有关的2×2列联表可得k 1=110×(5×60-25×20)30×80×25×85≈0.863<2.706,同理,k 2=110×(10×70-20×10)230×80×20×90≈6.366>5.024,k 3=110×(15×30-15×50)230×80×65×45≈1.410<2.706.因此,在犯错误的概率不超过0.025的前提下,认为说谎与性别有关,没有充分的证据显示焦虑、懒惰与性别有关.B组能力提升一、选择题1.千百年来,我国劳动人民在生产实践中根据云的形状、走向、速度、厚度、颜色等的变化,总结了丰富的“看云识天气”的经验,并将这些经验编成谚语,如“天上钩钩云,地上雨淋淋”“日落云里走,雨在半夜后”……小波同学为了验证“日落云里走,雨在半夜后”,观察了所在地区A的100天日落和夜晚天气,得到如下2×2列联表:0010并计算得到219.05K≈,下列小波对地区A天气判断不正确的是()A. 夜晚下雨的概率约为1 2B. 未出现“日落云里走”夜晚下雨的概率约为5 14C. 有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关D. 出现“日落云里走”,有99.9%的把握认为夜晚会下雨【答案】:D【分析】把频率看作概率,即可判断,A B的正误;根据独立性检验可判断,C D的正误,即得【答案】.【详解】由题意,把频率看作概率可得:夜晚下雨的概率约为252511002+=,故A正确;未出现“日落云里走”夜晚下雨的概率约为255254514=+,故B正确;由219.0510.828K≈>,根据临界值表,可得有99.9%的把握认为“‘日落云里走’是否出现”与“当晚是否下雨”有关,故C正确;故D错误.故选:D.2.为了判断英语词汇量与阅读水平是否相互独立,某语言培训机构随机抽取了100位英语学习者进行调查,经过计算2K的观测值为7,根据这一数据分析,下列说法正确的()附:A. 有99%以上的把握认为英语词汇量与阅读水平无关B. 有99.5%以上的把握认为英语词汇量与阅读水平有关C. 有99.9%以上的把握认为英语词汇量与阅读水平有关D. 在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关 【答案】:D 【分析】由题意()26.6350.01P K ≥=,由独立性检验的原理即可得解.【详解】由题意27K =,()26.6350.01P K ≥=,所以在犯错误的概率不超过1%的前提下,可以认为英语词汇量与阅读水平有关,有99%的把握认为英语词汇量与阅读水平有关. 故选:D.3.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的22⨯列联表:由22()()()()()n ad bc a b c d a c b d χ-=++++算得,22110(40302020)7.860506050χ⨯⨯-⨯=≈⨯⨯⨯.附表:参照附表,得到的正确结论是()A. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”;B. 在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”;C. 有99%以上的把握认为“爱好该项运动与性别有关”;D. 有99%以上的把握认为“爱好该项运动与性别无关”.【答案】:C【分析】根据给定的2K的值,结合附表,即可得到结论.【详解】由22110(40302020)7.8 6.63560506050χ⨯⨯-⨯=≈>⨯⨯⨯,所以有99%以上的把握认为“爱好该项运动与性别有关.故选:C.4.在一次独立性检验中得到如下列联表:若这两个分类变量A和B没有关系,则a的可能值是() A. 200 B. 720C. 100D. 180【答案】:B 【分析】令2k 的观测值为零,解方程即得解.【详解】当a =720时,k =0,易知此时两个分类变量没有关系. 故【答案】为B5.(多选题)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的45,女生喜欢抖音的人数占女生人数35,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表:附:()()()()()22n ad bc K a b c d a c b d -=++++ A. 25 B. 45C. 60D. 75【答案】:BC 【分析】设男生的人数为()5n n N*∈,列出22⨯列联表,计算出2K 的观测值,结合题中条件可得出关于n 的不等式,解出n 的取值范围,即可得出男生人数的可能值.【详解】设男生的人数为()5n n N*∈,根据题意列出22⨯列联表如下表所示:则()221042310557321n n n n n n K n n n n ⨯⨯-⨯==⨯⨯⨯,由于有95%的把握认为是否喜欢抖音和性别有关,则23.841 6.632K ≤<,即103.841 6.63221n≤<,得8.066113.9272n ≤<, n N *∈,则n 的可能取值有9、10、11、12,因此,调查人数中男生人数的可能值为45或60. 故选:BC. 二、填空题6.某手机运营商为了拓展业务,现对该手机使用潜在客户进行调查,随机抽取国内国外潜在用户代表各100名,调查用户对是否使用该手机的态度,得到如图所示的等高条形图.根据等高图,______(填“有”或“没有”)99.5%以上的把握认为持乐观态度和国内外差异有关.(参考公式与数据:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++)()20P K k ≥0.05 0.01 0.005 0.001 0k3.841 6.635 7.879 10.828【答案】:有依题意,可知国内代表乐观人数60人,不乐观人数40人,国外乐观人数40人,不乐观人数60人,总计乐观人数100人,不乐观人数100人,所以,而,所以有99.5%以上的把握认为持乐观态度和国内外差异有关.7.给给给给给给给 给线性回归方程y bx a =+必过点(),x y ;给相关系数r 越小,表明两个变量相关性越弱; ()22200606040408100100100100K ⨯-⨯==⨯⨯⨯87.879>给相关指数2R 越接近1,表明回归的效果越好;给在一个2×2列联表中,由计算得2K 的观测值k =13.079,则有99%以上的把握认为这两个变量之间没有关系;给设有一个线性回归方程35y x =-,则变量x 增加一个单位时,y 平均增加5个单位. 其中正确的说法有 (填序号).【答案】:给给对于给,应该是相关系数r 的绝对值越小,表明两个变量相关性越弱.所以它是错误的.对于给,应该是有99%以上的把握认为这两个变量之间有关系.对于给,应该是变量x 增加一个单位时,y 平均减少5个单位.故填给给.三、解答题8.随着现代教育技术的不断发展,我市部分学校开办智慧班教学,某校从甲乙两智慧班各随机抽取45名学生,调查两个班学生对智慧课堂的评价:“满意”与“不满意”,调查中发现甲班评价“满意”的学生人数比乙班评价“满意”的学生人数多9人,根据调查情况制成如下图所示的2×2列联表:(1)完成2×2列联表,并判断能否有97.5%的把握认为评价与班级有关系?(2)从甲乙两班调查评价为“不满意”的学生中按照分层抽样的方法随机抽取7人,现从这7人中选派3人到校外参加智慧课堂研究活动,求其中至少有2人选自乙班学生的概率. 附:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.【答案】:(1)表格见解析,有97.5%的把握认为评价与班级有关系;(2)67. 【分析】 (1)首先根据题意填写22⨯列联表,再计算2 5.031 5.024=>K 即可得到结论.(2)首先根据题意得到甲班选取2人,乙班选取5人,再计算概率即可.【详解】(1)完成列联表如下:2290(3915306)=5.031 5.024********⨯-⨯=>⨯⨯⨯K . 所以有97.5%的把握认为评价与班级有关系.(2)抽样比17213==,甲班选取2人,乙班选取5人,则1232553767C C CpC+==.9.盲盒里面通常装的是动漫、影视作品的周边,或者设计师单独设计出来的玩偶.由于盒子上没有标注,购买者只有打开才会知道自己买到了什么,因此这种惊喜吸引了众多年轻人,形成了“盲盒经济”.某款盲盒内可能装有某一套玩偶的A、B、C三种样式,且每个盲盒只装一个.(1)若每个盲盒装有A、B、C三种样式玩偶的概率相同.某同学已经有了A样式的玩偶,若他再购买两个这款盲盒,恰好能收集齐这三种样式的概率是多少?(2)某销售网点为调查该款盲盒的受欢迎程度,随机发放了200份问卷,并全部收回.经统计,有30%的人购买了该款盲盒,在这些购买者当中,女生占23;而在未购买者当中,男生女生各占50%.请根据以上信息填写下表,并分析是否有95%的把握认为购买该款盲盒与性别有关?参考公式:()()()()()22n ad bca b c d a c b dχ-=++++,其中n a b c d=+++.参考数据:(3)该销售网点已经售卖该款盲盒6周,并记录了销售情况,如下表:由于电脑故障,第二周数据现已丢失,该销售网点负责人决定用第4、5、6周的数据求线性回归方程,再用第1、3周数据进行检验.①请用4、5、6周的数据求出y关于x的线性回归方程y bx a=+;(注:()()()1122211n ni i i ii in ni ii ix x y y x y nx ybx x x nx====---==--∑∑∑∑,a y bx=-)②若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2盒,则认为得到的线性回归方程是可靠的,试问①中所得的线性回归方程是否可靠?③如果通过②的检验得到的回归直线方程可靠,我们可以认为第2周卖出的盒数误差也不超过2盒,请你求出第2周卖出的盒数的可能取值;如果不可靠,请你设计一个估计第2周卖出的盒数的方案.【答案】:(1)29;(2)表格见解析,有95%把握认为购买该款盲盒与性别有关;(3)给2.514.5y x=+;给是可靠的;给第2周卖出的盒数的可能值为18、19、20、21.【分析】(1)用列举法写出所有基本事件,再从中找出满足要求的基本事件,用古典概型的公式即可求得结果;(2)通过计算,完成列联表,再计算出观测值2 4.714k ≈,比表中0.05所对应的数据3.841大,故得出结论“有95%把握认为购买该款盲盒与性别有关”;(3)给将第4、5、6周的数据代入公式,计算出b 和a ,写出回归直线方程;给将第1、3周的数据代入给所求出的回归直线方程进行检验,该方程可靠;给将2x =代入给所求出的回归直线方程,解得19.5y =,根据可靠性的要求,以及该应用题的实际要求,得出第2周卖出的盒数的可能取值.【详解】解:(1)由题意,基本事件空间为{}(,),(,),(,),(,),(,),(,),(,),(,),(,)A A A B A C B A B B B C C A C B C C Ω=,其中基本事件的个数为9,设事件D 为:“他恰好能收集齐这三种样式”,则()(){},,,D B C C B =,其中基本事件的个数为2, 则他恰好能收集齐这三种样式的概率29P =; (2)22200(40702070) 4.7141109060140k ⨯-⨯=≈⨯⨯⨯, 又因为4.714 3.841>,故有95%把握认为“购买该款盲盒与性别有关”;(3)给由数据,求得5x =,27y =,由公式求得 222(45)(2527)(55)(2627)(65)(3027)5(45)(55)(65)2b --+--+--==-+-+-, 527514.52a =-⨯=, 所以y 关于x 的线性回归方程为 2.514.5y x =+;给当1x =时, 2.5114.517y =⨯+=,17162-<,同样,当3x =时, 2.5314.522y =⨯+=,22232-<,所以,所得到的线性回归方程是可靠的;给由给可知回归直线方程可靠,2x =时 2.5214.519.5y =⨯+=,设第二周卖出的盒数为()n n N ∈,则19.52n -≤,≤≤,n17.521.5给n能取18、19、20、21,即第2周卖出的盒数的可能值为18、19、20、21.【点睛】本题考查了古典概型的概率计算,独立性检验的实际应用,线性回归直线方程的求解及实际应用问题,综合性较强.10.阿基米德是古希腊伟大的哲学家、数学家、物理学家,对几何学、力学等学科作出过卓越贡献.为调查中学生对这一伟大科学家的了解程度,某调查小组随机抽取了某市的100名高中生,请他们列举阿基米德的成就,把能列举阿基米德成就不少于3项的称为“比较了解”,少于三项的称为“不太了解”.他们的调查结果如下:(1)完成如下2×2列联表,并判断是否有99%的把握认为,了解阿基米德与选择文理科有关?(2)在抽取的100名高中生中,按照文理科采用分层抽样的方法抽取10人的样本. (i )求抽取的文科生和理科生的人数;(ii )从10人的样本中随机抽取3人,用X 表示这3人中文科生的人数,求X 的分布列和数学期望.参考数据:22()()()()()n ad bc k a b c d a c b d -=++++,n a b c d =+++. 【答案】:(1)见解析;(2) (i )文科生3人,理科生7人 (ii )见解析【分析】(1)写出列联表后可计算2K ,根据预测值表可得没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )文科生与理科生的比为310,据此可计算出文科生和理科生的人数. (ii )利用超几何分布可计算X 的分布列及其数学期望.【详解】解:(1)依题意填写列联表如下:计算222()100(42182812) 3.382 6.635()()()()30705446n ad bc K a b c d a c b d -⨯-⨯==≈<++++⨯⨯⨯, ∴没有99%的把握认为,了解阿基米德与选择文理科有关.(2)(i )抽取的文科生人数是30103100⨯=(人),理科生人数是70107100⨯=(人). (ii )X 的可能取值为0,1,2,3,则0337310C C 7(0)C 24P X ===⋅, 1237310C C 21(1)C 40P X ===⋅, 17213307(2)40C C P X C ⋅===, 3037310C C 1(3)C 120P X ===⋅. 其分布列为所以72171369()01232440401204010E X =⨯+⨯+⨯+⨯==.31。
统计案例了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用,并能解决一些实际问题.1.22⨯列联表设X ,Y 为两个变量,它们的取值分别为12{}x x ,和12{}y y ,,其样本频数列联表(22⨯列联表)如下:1y2y总计1x a b a +b 2xc d c +d总计a +cb +da b c d +++2.独立性检验利用随机变量2K (也可表示为2χ)2()()()()()n ad bc a b c d a c b d -=++++(其中n a b c d =+++为样本容量)来判断“两个变量有关系”的方法称为独立性检验. 3.独立性检验的一般步骤(1)根据样本数据列出22⨯列联表;(2)计算随机变量2K 的观测值k ,查下表确定临界值k 0:20()P K k ≥ 0.500.40 0.25 0.15 0.100 0.050 0.025 0.010 0.005 0.0010k0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828(3)如果0k k ≥,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过()20P K k ≥;否则,就认为在犯错误的概率不超过()20P K k ≥的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为 2.706k ≤时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.(3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.考向一两类变量相关性的判断已知分类变量的数据,判断两类变量的相关性.可依据数据及公式计算2K,然后作出判断.典例 1 利用独立性检验来考查两个分类变量X和Y是否有关系时,通过查阅下表来确定“X和Y有关k>,那么就有把握认为“X和Y有关系”的百分比为系”的可信度.如果 5.024()2>0.500.400.250.150.100.050.0250.0100.0050.001 P K kK0.4550.708 1.323 2.072 2.706 3.84 5.024 6.6357.87910.828 A.25%B.75%C.2.5%D.97.5%【答案】D【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据进行比较,而在观测值表中对应于5.024的是0.025,从而得到结果.典例2 有人发现,多看电视容易使人变冷漠,下表是一个调査机构对此现象的调查结果:附表:()2P K k > 0.05 0.025 0.010 0.005 0.001K 3.84 5.024 6.635 7.879 10.828则认为多看手机与人冷漠有关系的把握大约为 A .99.9%B .97.5%C .95%D .90%【答案】A【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力.把所给的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得到所求的值大于10.828,得到有99.9%的把握认为看电视与人变冷漠有关系.1.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:作文成绩优秀 作文成绩一般 总计课外阅读量较大 22 10 32 课外阅读量一般8 20 28 总计303060由以上数据,计算得到2K 的观测值9.643k ≈,根据临界值表,以下说法正确的是 附:P (K 2≥k 0) 0.50 0.40 0.25 0.15 0.10 0.05 0.05 0.010 0.005k 00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879A .在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关”B .在犯错误的概率不超过0.001的前提下,认为作文成绩优秀与课外阅读量大有关C .在犯错误的概率不超过0.05的前提下,认为作文成绩优秀与课外阅读量大有关D .在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关考向二 独立性检验与概率统计的综合独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作出判断,再根据概率统计的相关知识求解问题.典例3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解’训练对提高‘数学应用题’得分率作用”的试验,其中甲班为试验班(加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练),在试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题测试的平均成绩(均取整数)如下表所示:现规定平均成绩在80分以上(不含80分)的为优秀. (1)试分别估计两个班级的优秀率;(2)由以上统计数据填写下面22⨯列联表,并问是否有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助?参考公式及数据:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.20()P K k ≥ 0.400.25 0.15 0.100 0.050 0.025 0.010k0.708 1.323 2.072 2.706 3.841 5.024 6.635【答案】(1)甲、乙两班的优秀率分别为60%和50%;(2)列联表见解析,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.(2)22⨯列联表如下:因为22100(30252025)1001.010 1.3235050554599K⨯⨯-⨯==≈<⨯⨯⨯,所以由参考数据知,没有75%的把握认为“加强‘语文阅读理解’训练对提高‘数学应用题’得分率”有帮助.2.高中生在被问及“家,朋友聚集的地方,个人空间”三个场所中“感到最幸福的场所在哪里?”这个问题时,从中国某城市的高中生中随机抽取了55人,从美国某城市的高中生中随机抽取了45人进行答题.中国高中生答题情况是:选择家的占25、朋友聚集的地方占310、个人空间占310.美国高中生答题情况是:朋友聚集的地方占35、家占15、个人空间占15.如下表:在家里最幸福在其他场所幸福合计中国高中生美国高中生合计(1)请将22⨯列联表补充完整,试判断能否有95%的把握认为“恋家”与否与国别有关;(2)从被调查的不“恋家”的美国学生中,用分层抽样的方法选出4人接受进一步调查,再从4人中随机抽取2人到中国交流学习,求2人中含有在“个人空间”感到幸福的学生的概率.附:()()()()()22n ad bcka b c d a c b d-=++++,其中n a b c d=+++.()2P k k≥0.050 0.025 0.010 0.001k 3.841 5.024 6.635 10.8281.观察如图所示的等高条形图,其中最有把握认为两个分类变量x,y之间有关系的是A.B.C.D.2.在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的.下列说法中正确的是A.100个心脏病患者中至少有99人打酣B.1个人患心脏病,那么这个人有99%的概率打酣C.在100个心脏病患者中一定有打酣的人D.在100个心脏病患者中可能一个打酣的人都没有3.已知两个统计案例如下:①为了探究患肺炎与吸烟的关系,调查了339名50岁以上的人,调查结果如下表:患肺炎未患肺炎总计②为了解某地母亲与女儿身高的关系,随机测得10对母女的身高如下表:则对这些数据的处理所应用的统计方法是 A .①回归分析,②取平均值B .①独立性检验,②回归分析C .①回归分析,②独立性检验D .①独立性检验,②取平均值4.某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:已知抽取的老年人、年轻人各25名.则完成上面的列联表数据错误的是 A .18a =B .19b =C .50c d +=D .1f e -=5.为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了下表:参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.临界值表:根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是 A .97.5% B .99% C .99.5%D .99.9%6.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:附:参考公式及数据: (1)统计量:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.(2)独立性检验的临界值表:则下列说法正确的是A .有99%的把握认为环保知识测试成绩与专业有关B .有99%的把握认为环保知识测试成绩与专业无关C .有95%的把握认为环保知识测试成绩与专业有关D .有95%的把握认为环保知识测试成绩与专业无关 7.假设有两个分类变量X 和Y 的22⨯列联表为:对同一样本,以下数据能说明X 与Y 有关系的可能性最大的一组为 A .5,35b d == B .15,25b d == C .20,20b d ==D .30,10b d ==参考公式:22()()()()()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.8.某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下22⨯列联表:根据表中数据得到,已知()23.8410.05P K ≥≈,()2 5.0240.025P K ≥≈.现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为A .97.5%B .95%C .2.5%D .5%9.某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查.根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为__________. 附:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.10.已知下列命题:①在线性回归模型中,相关指数2R 表示解释变量x 对于预报变量y 的贡献率,2R 越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于1;③在回归直线方程0.52y x ∧=-+中,当解释变量x 每增加一个单位时,预报变量y ∧平均减少0.5个单位;④对分类变量X 与Y ,它们的随机变量2K 的观测值k 来说, k 越小,“X 与Y 有关系”的把握程度越大.其中正确命题的序号是__________.11.一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响.其实,已有不少高校将游泳列为必修内容.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,该学校对100名高一新生进行了问卷调查,得到如下22⨯列联表:已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为35.(1)请将上述列联表22⨯补充完整,并判断是否可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)已知在被调查的学生中有6名来自高一(1)班,其中4名喜欢游泳,现从这6名学生中随机抽取2人,求恰有1人喜欢游泳的概率.附:()()()()()22=n ad bcKa b c d a c b d-++++12.随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在A市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到表格:(单位:人)(1)根据以上数据,能否在犯错误的概率不超过0.15的前提下认为A市使用共享单车情况与年龄有关?(2)现从所抽取的30岁以上的网友中利用分层抽样的方法再抽取5人.(i)分别求这5人中经常使用、偶尔或不用共享单车的人数;(ii)从这5人中,再随机选出2人赠送一件礼品,求选出的2人中至少有1人经常使用共享单车的概率.参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:1.(2017年高考新课标Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ), 其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:P () 0.050 0.010 0.001k3.841 6.635 10.82822()()()()()n ad bc K a b c d a c b d -=++++.2.(2018年高考新课标Ⅲ卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表:超过m不超过m第一种生产方式第二种生产方式(3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?附:()()()()()22n ad bcKa b c d a c b d-=++++,()2P K k≥0.0500.0100.001k 3.841 6.63510.8281.【答案】D【解析】因为根据临界值表,9.643>7.879,所以在犯错误的概率不超过0.005的前提下,认为作文成绩优秀与课外阅读量大有关.故选D.【名师点睛】本题考查卡方含义,考查基本求解能力.根据临界值表,确定犯错误的概率即可. 2.【答案】(1)见解析;(2)12.【解析】(1)由已知得:在家里最幸福在其他场所幸福合计中国高中生22 33 55美国高中生9 36 45合计31 69 100∴()22100223693331695545K⨯⨯-⨯=⨯⨯⨯1001134.628 3.8413123⨯⨯=≈>⨯,∴有95%的把握认为“恋家”与否与国别有关.【思路点拨】(1)根据题意填写列联表,计算观测值2K,对照临界值表得出结论;变式拓展(2)用分层抽样方法抽出4人,其中在“朋友聚焦的地方”感到幸福的有3人,在“个人空间”感到幸福的有1人,分别设为123,,,a a a b ,再设“含有在‘个人空间’感到幸福的学生”为事件A ,求出基本事件数,即可求得概率值.1.【答案】D【解析】在等高条形图中,x 1,x 2所占比例相差越大,分类变量x ,y 有关系的把握越大. 故答案为D【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识的掌握水平和分析推理能力.(2)在等高条形图中,如果两个分类变量所占的比例差距越大,则说明两个分类变量有关系的把握越大. 2.【答案】D【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释. 3.【答案】B【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变量的相关程度,综上可知选B. 4.【答案】D【解析】因为725,625,6,7,50,50a c b d a e b f c d e f +==+==+=+=+=+=, 所以18,19,50,24,26,2a b c d e f f e ==+===-=. 故选D.【名师点睛】本题考查列联表有关概念,考查基本求解能力.先根据列联表列方程组,解得a ,b ,c ,d ,e ,f 再判断各选项. 5.【答案】A考点冲关【解析】由已知可得222()50(2510105) 6.3492()()()()35153020n ad bc K a b c d a c b d -⨯⨯-⨯==≈++++⨯⨯⨯, 由临界值表可知2( 5.024)0.025P K ≥=,所以根据表中的数据可以认为喜爱打篮球与性别之间有关系的把握是97.5%,故选A. 6.【答案】C【解析】因为2240(141376)202021 4.91192K ⨯⨯-⨯=⨯⨯⨯≈,所以3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关. 7.【答案】D8.【答案】D【解析】由题意得2 4.844 3.841K ≈>,而()23.8410.05P K ≥≈,这种判断出错的可能性约为5%,故选D. 9.【答案】99.5% 【解析】因为K 2=()2502015-51025253020⨯⨯⨯⨯⨯⨯ ≈8.333,且P (K 2≥7.789)=0.005=0.5%.所以,我们有99.5%的把握认为是否同意限定区域停车与家长的性别有关.故答案为99.5%.【名师点睛】本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中档题.利用公式求得K 2,与临界值比较,即可得到结论. 10.【答案】①②③11.【答案】(1)列联表见解析,可以;(2)815. 【解析】(1)根据条件可知喜欢游泳的人数为3100605⨯=人. 完成22⨯列联表:喜欢游泳 不喜欢游泳 合计 男生 40 10 50 女生 20 30 50 合计6040100根据表中数据,计算()221004030201016.66710.82860405050K ⨯-⨯=≈>⨯⨯⨯所以可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,基本事件总数有15种:1213141112,,,,,a a a a a a a b a b 23242122343132414212,,,,,,,,,a a a a a b a b a a a b a b a b a b b b ,其中恰有一人喜欢游泳的基本事件有8种:1112212231324142,,,,,,,a b a b a b a b a b a b a b a b ,所以()815P A =. 【名师点睛】本题考查了独立性检验与运算求解能力,同时考查通过列举法求概率的应用,属于中档题.(1)根据题意计算喜欢游泳的学生人数,求出女生、男生多少人,完善列联表,再计算观测值2K ,对照临界值表即可得出结论;(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为1234,,,a a a a ,不喜欢游泳的学生为12,b b ,通过列举法即可得到答案.12.【答案】(1)能在犯错误的概率不超过0.15的前提下认为A 市使用共享单车情况与年龄有关;(2)(i )经常使用共享单车的有3人,偶尔或不用共享单车的有2人;(ii )910.(2)(i )依题意可知,所抽取的5名30岁以上的网友中,经常使用共享单车的有6053100⨯=(人),偶尔或不用共享单车的有4052100⨯=(人). (ii )设这5人中,经常使用共享单车的3人分别记为a ,b ,c ;偶尔或不用共享单车的2人分别记为d ,e .则从5人中选出2人的所有可能结果为:(),a b ,(),a c ,(),a d ,(),a e ,(),b c ,(),b d ,(),b e ,(),c d ,(),c e ,(),d e ,共10种.其中没有1人经常使用共享单车的可能结果为:(),d e ,共1种, 故选出的2人中至少有1人经常使用共享单车的概率1911010P =-=. 1.【答案】(1)0.62;(2)列联表见解析,有99%的把握认为箱产量与养殖方法有关;(3)新养殖法优于旧直通高考养殖法.【解析】(1)旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50 kg 箱产量≥50 kg旧养殖法62 38新养殖法34 66K2=2 2006266343815.705 10010096104⨯⨯-⨯⨯⨯⨯()≈.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.【名师点睛】(1)频率分布直方图中小长方形面积等于对应概率,所有小长方形面积之和为1.(2)频率分布直方图中均值等于组中值与对应概率乘积的和.(3)均值大小代表水平高低,方差大小代表稳定性.2.【答案】(1)第二种生产方式的效率更高,理由见解析;(2)见解析;(3)能.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.(2)由茎叶图知7981802m+==.列联表如下:超过m不超过m第一种生产方式15 5第二种生产方式 5 15。
独立性检验的方法
独立性检验是用来判断两个变量之间是否存在关联或者依赖关系的统计方法。
常见的独立性检验方法有以下几种:
1. 卡方检验(Chi-square test):用于检验两个分类变量之间的独立性。
它将观察到的频数与期望频数进行比较,判断是否存在显著的差异。
2. Fisher精确检验(Fisher's exact test):在小样本数据中使用的一种精确方法,用于检验两个分类变量之间的独立性。
该方法不依赖于样本的分布假设,适用于小样本和稀有事件的情况。
3. 独立样本t检验(Independent samples t-test):用于检验两个组的均值是否存在显著差异。
这种方法适用于两个互不相关的样本。
4. 方差分析(Analysis of Variance, ANOVA):用于检验多个组之间均值的差异是否显著。
ANOVA分为单因素和多因素两种,前者适用于一个自变量,后者适用于多个自变量的情况。
5. 斯皮尔曼相关系数(Spearman's rank correlation coefficient):用于衡量两个变量之间的非线性关系。
斯皮尔曼相关系数是一种非参数的方法,适用于顺序变量或非正态分布的变量。
以上是常见的几种独立性检验方法,不同的方法适用于不同的情况和变量类型。
在进行独立性检验时,需要根据实际情况选择合适的方法进行分析。
独立性检验教学重点、独立性检验的基本方法,独立性检验的步骤 难点:.基本思想的领会与方法应用.知识点 一、 独立性检验的基本概念和原理独立性检验是研究相关关系的方法. 1.分类变量:变量的不同"值〞表示个体所属的不同类别的变量称为分类变量.比如男女、是否吸烟、是否患癌症,##信仰、国籍等等. 2列联表:分类变量的汇总统计表〔频数表〕. 一般我们只研究每个分类变量只取两个值,为了更清晰地表达这个特征,我们还可用如下的等高条形图表示两种情况下患肺癌的比例.如图3.2一3 所示,在等高条形图中,浅色的条高表示不患肺癌的百分比;深色的条高表示患肺癌的百分比.通过分析数据和图形,我们得到的直观印象是"吸烟和患肺癌有关〞.那么我们是否能够以一定的把握认为"吸烟与患肺癌有关〞呢?4.独立性检验的步骤为了回答下面问题,我们先假设H 0:吸烟与患肺癌没有关系,看看能够得到什么样的结论.不患肺癌 患肺癌 合计 不吸烟 a b a+b 吸烟 c d c+d 合计 a+c b+d a+b+c+d样本容量 n=a+b+c+d如果 "吸烟与患肺癌没有关系〞,则吸烟者中不患肺癌的的比例应该与不吸烟者中相应的比例差不多,即:若 H 0 成立,即"吸烟与患肺癌没有关系〞,则 K "应该很小.根据表3一7中的数据,利用公式〔1〕计算得到 K "的观测值为()22996577754942209956.63278172148987491K ⨯-⨯=≈⨯⨯⨯,这个值到底能告诉我们什么呢?统计学家经过研究后发现,在 H 0成立的情况下,2( 6.635)0.01P K ≥≈. <2><2〕式说明,在H 0成立的情况下,2K 的观测值超过 6. 635 的概率非常小,近似为0 . 01,是一个小概率事件.现在2K 的观测值k ≈56.632 ,远远大于6. 635,所以有理由断定H 0不成立,即认为"吸烟与患肺癌有关系〞.但这种判断会犯错误,犯错误的概率不会超过0.01,即我们有99%的把握认为"吸烟与患肺癌有关系〞 .在上述过程中,实际上是借助于随机变量2K 的观测值k 建立了一个判断H 0是否成立的规则:如果k ≥6. 635,就判断H 0不成立,即认为吸烟与患肺癌有关系;否则,就判断H 0成立,即认为吸烟与患肺癌没有关系.在该规则下,把结论"H 0成立〞错判成"H 0不成立〞的概率不会超过2( 6.635)0.01P K ≥≈,即有99%的把握认为H 0不成立. 假设检验 备择假设H 1在H 1不成立的条件下,即H 0成立的条件下进行推理推出有利于H 1成立的小概率事件〔概率不超过α的事件〕发生,意味着H 1成立的可能性〔可能性为〔1-α〕〕很大 推出有利于H 成立的小概率事件不发生,接受原假设第一步:提出假设检验问题H 0:吸烟与患肺癌没有关系↔H 1:吸烟与患肺癌有关系第二步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++〔它越小,原假设"H 0:吸烟与患肺癌没有关系〞成立的可能性越大;它越大,备择假设"H 1:吸烟与患肺癌有关系〞成立的可能性越大.注意:1观测值是2K 的值2.假设没有关系,如果2K 大,则H 0不成立,即两个量有关系. 如果2K 小,说明没有足够证据证明H 0不成立,即两个量没有关系 3.查表后,大于某个值0k 的可能性很小,如果大于0k ,则得出两个量有关系4得到两个量有〔没有〕关系的结论是在概率基础上决定的,存在犯错误的概率5有99%的把握〔相当于正确概率99%〕认为有关⇔在犯错误的概率不超过1%的前提下,认为"有关〞说明:95%就是概率,可以说成有95%的把握,这种事件出现的可能性极大5%当然也是概率,这种事件出现的可能性极小,在新闻中播报的水灾20年一遇,就是概率5%事件发生了题型一概念辨析例题在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是<>A .若K 2的观测值为k =6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B .从独立性检验可知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病C .若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推判出现错误D.以上三种说法都不正确A变式1下列关于独立性检验的说法中,错误的是〔〕A.独立性检验得到的结论一定正确B.独立性检验依赖小概率原理C.样本不同,独立性检验的结论可能有差异D.独立性检验不是判定两事物是否相关的唯一方法考点:独立性检验的基本思想.分析:对选项进行判断,独立性检验取决于样本、独立性检验是依据小概率原理,用样本计算统计量的、样本不同,观测值统计量也不同、对于检验两个事件是否相关除了统计量外,还可以根据两个分类变量之间频率大小差异进行粗略判断,即可得出结论.解答:解:因为独立性检验取决于样本,故结论不一定正确,即A不正确独立性检验是依据小概率原理,用样本计算统计量的,故正确;样本不同,观测值统计量也不同,故正确;对于检验两个事件是否相关除了统计量外,还可以根据两个分类变量之间频率大小差异进行粗略判断,故正确.故选:A.点评:本题主要考查了独立性检验的定义和检验步骤,独立性检验的意义,属基础题A变式2对于独立性检验,下列说法正确的是〔〕A.K2独立性检验的统计假设是各事件之间相互独立B.K2可以为负值C.K2独立性检验显示"患慢性气管炎和吸烟习惯有关〞,这就是指"有吸烟习惯的人必定会患慢性气管炎〞D.2×2列联表中的4个数据可以是任意正数分析:利用独立性检验的定义和解题步骤逐一筛选四个选项即可解答:解:由独立性检验的检验步骤可知A正确;∵2×2列联表中的数据均为正整数,故k2不可能为负值,排除B;∵K2独立性检验显示"患慢性气管炎和吸烟习惯有关〞,是指有一定的把握说他们相关,或者说有一定的出错率,故排除C;∵2×2列联表中的4个数据是对于某组特定数据的统计数据,故四个数据间有一定的关系,故排除D故选A点评:本题主要考查了独立性检验的定义和检验步骤,独立性检验的意义,属基础题A.变式3独立性检验中,假设H0:变量X与变量Y没有关系.则在H0成立的情况下,估算概率P〔K2≥6.635〕≈0.01表示的意义是〔〕A.变量X与变量Y有关系的概率为1%B.变量X与变量Y没有关系的概率为99%C.变量X与变量Y有关系的概率为99%D.变量X与变量Y没有关系的概率为99.9%考点:实际推断原理和假设检验的应用.分析:根据所给的估算概率,得到两个变量有关系的可信度是1-0.01,即两个变量有关系的概率是99%,这里不用计算,只要理解概率的意义即可.解答:解:∵概率P〔K2≥6.635〕≈0.01,∴两个变量有关系的可信度是1-0.01=99%,即两个变量有关系的概率是99%,故选C.点评:本题考查实际推断原理和假设检验的应用,本题解题的关键是理解所求出的概率的意义,本题是一个基础题.B变式1 在独立性检验中,统计量Χ2有两个临界值:3.841和6.635.当Χ2>3.841时,有95%的把握说明两个事件有关,当Χ2>6.635时,有99%的把握说明两个事件有关,当Χ2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2000人,经计算Χ2=20.87.根据这一数据分析,认为打鼾与患心脏病之间〔〕A.有95%的把握认为两者有关B.约有95%的打鼾者患心脏病C.有99%的把握认为两者有关D.约有99%的打鼾者患心脏病考点:独立性检验的应用.分析:这是一个独立性检验理论分析题,根据K2的值,同所给的临界值表中进行比较,可以得到有99%的把握认为打鼾与心脏病有关.解答:解:∵计算Χ2=20.87.有20.87>6.635,∵当Χ2>6.635时,有99%的把握说明两个事件有关,故选C.点评:考查独立性检验的应用,是一个典型的问题,注意解题时数字运算要认真,不要出错,本题不需要运算直接考查临界值对应的概率的意义二.独立性检验的应用题型二、独立性检验的应用 例2.为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:由表中数据计算得2K 的观测值 4.514k .能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?请详细阐明得出结论的依据.在假设"性别与喜欢数学课之间没有关系〞的前提下,事件A ={2K ≥3. 841}的概率为P <2K ≥3. 841>≈0.05因此事件 A 是一个小概率事件.而由样本数据计算得2K 的观测值k=4.514,即小概率事件 A 发生.因此应该断定"性别与喜欢数学课之间有关系〞成立,并且这种判断结果出错的可能性约为5 %.所以,约有95%的把握认为"性别与喜欢数学课之间有关系〞. A .变式1某卫生机构对366人进行健康体检,阳性家族史者糖尿病发病的有16人,不发病的有93人;阴性家族史者糖尿病发病的有17人,不发病的有240人,有______的把握认为糖尿病患者与遗传有关系.<>A .99.9%B .99.5%C .99%D .97.5%[解析]可以先作出如下列联表<单位:人>:糖尿病患者与遗传列联表根据列联表中的数据,得到K 2的观测值为 k =错误!≈6.067>5.024.故我们有97.5%的把握认为糖尿病患者与遗传有关系.A .变式2在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示.问:该种血清能否起到预防感冒分析:在使用该种血清的人中,有24248.4%500=的人患过感冒;在没有使用该种血清的人中,有28456.8%500=的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大.从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异.解:提出假设0H :感冒与是否使用该种血清没有关系.由列联表中的数据,求得∵当0H 成立时,26.635χ≥的概率约为0.01,∴我们有99%的把握认为:该种血清能起到预防感冒的作用.A 变式通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表: 男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计 60 50 110 由,算得参照独立性检验附表,得到的正确结论是〔 〕 A . 有99%的把握认为"选择过马路的方式与性别有关〞 B . 有99%的把握认为"选择过马路的方式与性别无关〞 C . 在犯错误的概率不超过0.1%的前提下,认为"选择过马路的方式与性别有关〞 D . 在犯错误的概率不超过0.1%的前提下,认为"选择过马路的方式与性别无关〞B 变式1媒体为调查喜欢娱乐节目A 是否与性格外向有关,随机抽取了500名性格外向的和500名性格内向的居民,抽查结果用等高条形图表示如下:〔1〕作出2×2列联表;〔2〕试用独立性检验的方法分析,能否在犯错的概率不超过0.001的前提下说明喜欢娱乐节目A与性格外向有关?1000×<400×250−100×250>500×500×650×350≈98.901>10.828,∴能在犯错的概率不超过0.001的前提下说明喜欢娱乐节目A与性格外向有关.点评:本题考查独立性检验的应用,本题解题的关键是正确理解观测值对应的概率的意义.B变式2.为研究不同的给药方式〔口服或注射〕和药的效果〔有效与无效〕是否有关,进行了相应的抽样调查,调查结果如表所示.根据所选择的193个病人的数据,能否作出药的效果与给药方式有关的结论?分析:在口服的病人中,有5859%98≈的人有效;在注射的病人中,有6467%95≈的人有效.从直观上来看,口服与注射的病人的用药效果的有效率有一定的差异,能否认为用药效果与用药方式一定有关呢?下面用独立性检验的方法加以说明. 解:提出假设0H :药的效果与给药方式没有关系.由列联表中的数据,求得当0H 成立时,21.3896χ≥的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设0H ,即不能作出药的效果与给药方式有关的结论20×<10×5−2×3> 12×8×13×7≈4.432.因为p 〔K 2>3.84〕=0.05,所以我们有95%把握认为该中学的高三学生选报文理科与性别有关.点评:本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中档题题型三、已知可信度,求观测值k 2例题4.确定结论"X 与Y 有关系〞的可信度为99.5%时,则随即变量k 2的观测值k 必须〔 〕 A . 小于7.879 B . 大于10.828 C . 小于6.635 D . 大于2.706•A 变式用的方法,我们得到能有99%的把握认为变量X 与Y 有关系,则〔 〕A .K 2≥2.706B .K 2≥6.635C .K 2<2.706D .K 2<6.635A 变式随机调查某校110名学生是否喜欢跳舞,由列联表和公式K 2=计算出K 2,并由此作出结论:"有99%的可能性认为学生喜欢跳舞与性别有关〞,则K 2可以为〔 〕 附表:P 〔K 2≥k 0〕0.10 0.05 0.025 0.010 k 02.7063.841 5.024 6.635 A . 3.565 B .4.204 C .5.233 D .6.842总结:第一步:提出假设检验问题H 0:与没有关系↔H 1:与有关系第二步:选择检验的指标22()K ()()()()n ad bc a b c d a c b d -=++++〔它越小,原假设"H 0:吸烟与患肺癌没有关系〞成立的可能性越大;它越大,备择假设"H 1:吸烟与患肺癌有关系〞成立的可能性越大. 第三步:查表得出结论 1. 观测值是2K 的值2. 假设没有关系,如果2K 大,则H 0不成立,即两个量有关系.如果2K 小,说明没有足够证据证明H 0不成立,即两个量没有关系 3.查表后,大于某个值0k 的可能性很小,如果大于0k ,则得出两个量有关系4得到两个量有〔没有〕关系的结论是在概率基础上决定的,存在犯错误的概率5有99%的把握〔相当于正确概率99%〕认为有关⇔在犯错误的概率不超过1%的前提下,认为"有关〞。