高中数学1-1独立性检验
- 格式:ppt
- 大小:464.00 KB
- 文档页数:29
3. 2.1独立性检验的基本思想及其初步应用教学目标(1)通过对典型案例的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用;(2)经历由实际问题建立数学模型的过程,体会其基本方法。
教学重点:独立性检验的基本方法教学难点:基本思想的领会及方法应用教学过程一、问题情境5月31日是世界无烟日。
有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。
这些疾病与吸烟有关的结论是怎样得出的呢?我们看一下问题:某医疗机构为了了解肺癌与吸烟是否有关,进行了一次抽样调查,共调查了9965个人,其中吸烟者2148人,不吸烟者7817人。
调查结果是:吸烟的2148人中有49人患肺癌,2099人未患肺癌;不吸烟的7817人中有42人患肺癌,7775人未患肺癌。
问题:根据这些数据能否断定“患肺癌与吸烟有关”?二、学生活动(1)引导学生将上述数据用下表(一)来表示:(即列联表)不患肺癌患肺癌总计不吸烟7775 42 7817吸烟2099 49 2148总计9874 91 9965(2)估计吸烟者与不吸烟者患肺癌的可能性差异:在不吸烟者中,有427817≈0.54%的人患肺癌;在吸烟的人中,有492148≈2.28%的人患肺癌。
问题:由上述结论能否得出患肺癌与吸烟有关?把握有多大?三、建构数学1、从问题“吸烟是否与患肺癌有关系”引出独立性检验的问题,借助样本数据的列联表,柱形图和条形图的展示,使学生直观感觉到吸烟和患肺癌可能会有关系。
但这种结论能否推广到总体呢?要回答这个问题,就必须借助于统计理论来分析。
2、独立性检验:(1)假设H:患肺癌与吸烟没有关系。
即:“吸烟与患肺癌相互独立”。
用A表示不吸烟,B表示不患肺癌,则有P(AB)=P(A)P(B)若将表中“观测值”用字母代替,则得下表(二):患肺癌未患肺癌合计吸烟 a b b a + 不吸烟 cd d c + 合计c a +d b +d c b a +++学生活动:让学生利用上述字母来表示对应概率,并化简整理。
选修1-1、1-2数学知识点 选修1-1数学知识点第一章 简单逻辑用语1、命题:用语言、符号或式子表达的,可以判断真假的陈述句. 真命题:判断为真的语句.假命题:判断为假的语句.2、“若p ,则q ”形式的命题中的p 称为命题的条件,q 称为命题的结论.3、原命题:“若p ,则q ” 逆命题: “若q ,则p ” 否命题:“若p ⌝,则q ⌝” 逆否命题:“若q ⌝,则p ⌝”4、四种命题的真假性之间的关系:(1)两个命题互为逆否命题,它们有相同的真假性;(2)两个命题为互逆命题或互否命题,它们的真假性没有关系. 5、若p q ⇒,则p 是q 的充分条件,q 是p 的必要条件. 若p q ⇔,则p 是q 的充要条件(充分必要条件).利用集合间的包含关系: 例如:若B A ⊆,则A 是B 的充分条件或B 是A 的必要条件;若A=B ,则A 是B 的充要条件;6、逻辑联结词:⑴且(and ) :命题形式p q ∧;⑵或(or ):命题形式p q ∨; ⑶非(not ):命题形式p ⌝.p q p q ∧ p q ∨ p ⌝真 真 真 真 假 真 假 假 真 假 假 真 假 真 真 假假假假真7、⑴全称量词——“所有的”、“任意一个”等,用“∀”表示;全称命题p :)(,x p M x ∈∀; 全称命题p 的否定⌝p :)(,x p M x ⌝∈∃。
⑵存在量词——“存在一个”、“至少有一个”等,用“∃”表示;特称命题p :)(,x p M x ∈∃; 特称命题p 的否定⌝p :)(,x p M x ⌝∈∀;第二章 圆锥曲线与方程1、平面内与两个定点1F ,2F 的距离之和等于常数(大于12F F )的点的轨迹称为椭圆. 即:|)|2(,2||||2121F F a a MF MF >=+。
这两个定点称为椭圆的焦点,两焦点的距离称为椭圆的焦距. 2、椭圆的几何性质:焦点的位置焦点在x 轴上焦点在y 轴上图形标准方程()222210x y a b a b +=>> ()222210y x a b a b +=>>范围a x a -≤≤且b y b -≤≤ b x b -≤≤且a y a -≤≤顶点()1,0a A -、()2,0a A()10,b B -、()20,b B()10,a A -、()20,a A ()1,0b B -、()2,0b B轴长 短轴的长2b = 长轴的长2a =焦点 ()1,0F c -、()2,0F c ()10,F c -、()20,F c焦距 ()222122F F c c a b ==-对称性 关于x 轴、y 轴、原点对称离心率()22101c b e e a a==-<<3、平面内与两个定点1F ,2F 的距离之差的绝对值等于常数(小于12F F )的点的轨迹称为双曲线.即:|)|2(,2||||||2121F F a a MF MF <=-。
高中数学独立性检验教学一、教学任务及对象1、教学任务本节课的教学任务是向高中学生传授和解释独立性检验的基本概念、原理和应用。
在当前教育背景下,独立性检验作为统计学中的一个重要内容,不仅是高考数学的考查点,更是培养学生数据分析能力和逻辑思维能力的有效工具。
通过本节课的学习,学生应掌握如何使用独立性检验来分析两个分类变量之间是否存在显著的关联,能够运用假设检验的基本步骤,解释统计结果,并培养他们基于数据进行合理推断的能力。
2、教学对象教学对象为高中二年级的学生,他们已经具备了初步的统计学知识,如数据的收集、整理和描述,以及概率的基础知识。
此外,学生也具备了一定的代数和几何知识基础,这些都是进行独立性检验学习的必要前提。
然而,由于独立性检验涉及较为抽象的统计概念和逻辑推理,学生可能在理解和应用上存在一定难度,因此需要教师采用适当的教学策略,帮助学生构建知识框架,提高解决问题的能力。
二、教学目标1、知识与技能(1)理解独立性检验的基本概念,掌握独立性检验的原理和应用范围。
(2)学会使用卡方公式进行独立性检验的计算,并能解释计算结果。
(3)掌握假设检验的基本步骤,包括建立假设、构造统计量、确定显著性水平、做出决策等。
(4)能够运用统计软件或计算器进行独立性检验的数据处理和分析。
(5)培养运用独立性检验解决实际问题的能力,提高数据分析技能。
2、过程与方法(1)通过小组讨论、案例分析等方式,让学生在实践中掌握独立性检验的方法。
(2)引导学生运用已学的统计学知识,自主探索和发现独立性检验的原理。
(3)采用问题驱动的教学方法,培养学生主动提问、积极思考的学习习惯。
(4)通过课堂讲解、课后练习、讨论交流等多种途径,巩固所学知识,提高解决问题的能力。
3、情感,态度与价值观(1)培养学生对统计学产生兴趣,激发他们学习数学的热情。
(2)引导学生认识到统计学在日常生活和科学研究中的重要性,增强学生的实际应用意识。
(3)培养学生严谨、客观的科学态度,使他们能够用数据说话,避免主观臆断。
1.1独立性检验[对应学生用书P2]相互独立事件从分别写有1,2,3,4,5,6的6张卡片中任意抽取一张,设事件A =“抽出的是写有偶数的卡片”,B =“抽出的是写有3的倍数的卡片”.问题1:计算P(A),P(B). 提示:P(A)=36=12,P(B)=26=13.问题2:把事件A,B 同时发生记作AB,计算P(AB). 提示:P(AB)=16.问题3:P(A),P(B),P(AB)之间有什么关系? 提示:P(AB)=P(A)·P(B).1.定义一般地,对于两个事件A,B,如果有P(AB)=P(A)P(B),就称事件A与B相互独立,简称A与B独立.2.性质当事件A与B独立时,事件A与B,A与B,A与B也独立.3.定义的推广如果有P(A1A2…A n)=P(A1)P(A2)…P(A n),则称事件A1,A2,A3,…,A n相互独立.独立性检验1.2×2列联表B B合计A n11n12n1+A n21n22n2+合计n+1n+2n其中:n+1=n11+n21,n+2=n12+n22,n1+=n11+n12,n2+=n21+n22,n=n11+n21+n12+n22.2.独立性检验(1)χ2统计量的表达式χ2=n n11n22-n12n212n1+n2+n+1n+2.(2)经过对χ2统计量分布的研究,已经得到了两个临界值:3.841与6.635①当χ2>3.841时,有95%的把握说事件A与B有关;②当χ2>6.635时,有99%的把握说事件A与B有关;③当χ2≤3.841时,认为事件A与B是无关的.1.事件的独立性,A与B,A与B,A与B,A与B只要有一对相互独立,其余三对必然也相互独立.2.在列联表中,如果两个事件没有关系,则应有n11n22-n12n21≈0,因此|n11n22-n12n21|越小,说明两个事件之间关系越弱;|n11n22-n12n21|越大,说明两个事件之间关系越强.3.利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确.如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.[对应学生用书P3]事件的独立性[例1] 一个家庭中有若干个小孩,假设生男孩和生女孩是等可能的,设A ={一个家庭中有男孩,又有女孩},B ={一个家庭中最多有一个女孩}.对下列两种情形讨论事件A 与事件B 的独立性.(1)家庭中有两个小孩; (2)家庭中有三个小孩.[思路点拨] 利用P(AB)与P(A)P(B)是否相等来判定.[精解详析] (1)有两个小孩的家庭,对应的样本空间Ω={(男,男),(男,女),(女,男),(女,女)},有4个基本事件,每个基本事件发生的概率均为14,这时A ={(男,女),(女,男)},B ={(男,男),(男,女),(女,男)} AB ={(男,女),(女,男)}, 于是P(A)=12,P(B)=34,P(AB)=12.由此可知P(AB)≠P(A)P(B),所以事件A 与事件B 不相互独立.(2)有三个小孩的家庭,样本空间为Ω={(男,男,男),(男,男,女),(男,女,男),(女,男,男),(男,女,女),(女,男,女),(女,女,男),(女,女,女)},由等可能性知,每个基本事件发生的概率均为18,这时A 中有6个基本事件,B 中有4个基本事件,AB 中含有3个基本事件, 于是P(A)=68=34,P(B)=48=12,P(AB)=38.P (A)P(B)=38,即P(AB)=38=P(A)P(B)成立,所以事件A 与事件B 是相互独立的.[一点通] 事件A 与事件B 相互独立的检验,应充分利用相互独立的定义,验证P(AB)与P(A)P(B)是否相等,若相等则相互独立;若不相等,则不相互独立.解决这一类问题,关键在于准确求出基本事件空间中的基本事件总数,确定事件A 与事件B 的概率.另一个关键点是正确理解题意,分析出事件AB 中的基本事件的个数,求出P(AB),即事件A 与事件B 同时发生的概率.1.从一副52张的扑克牌(不含大小王)中,任意抽出一张,设事件A :“抽到黑桃”,B :“抽到皇后Q”,事件A 与B 及A 与B 是否独立?解:从52张扑克牌中任意抽出一张的基本事件空间Ω中的基本事件总数为52, 事件A“抽到黑桃”的基本事件数为13,所以P(A)=1352=14. 事件B“抽到皇后Q”的基本事件数为4,所以P(B)=452=113.事件AB 为“抽到黑桃Q”,则P(AB)=152,所以P(AB)=P(A)P(B),即有152=14×113, 因此A 与B 相互独立.P(A )=3952=34,P(B )=4852=1213,P(A B )=3652=913,P(A )P(B )=34×1213=913,因此P(A B )=P(A )P(B ). 因此,A 与B 相互独立.2.甲、乙两名篮球运动员分别进行一次投篮,如果两人投中的概率都是0.6.计算: (1)两人都投中的概率; (2)其中恰有一人投中的概率.解:设A =“甲投篮一次,投中”,B =“乙投篮一次,投中”. (1)AB ={两人各投篮一次,都投中},由题意知,事件A 与B 相互独立, 所以P(AB)=P(A)·P(B)=0.6×0.6=0.36.(2)事件“两人各投篮一次,恰好有一人投中”包括两种情况:一种是甲投中,乙未投中(事件A B 发生),另一种是甲未投中,乙投中(事件A B 发生).根据题意,这两种情况在各投篮一次时不可能同时发生,即事件A B 与A B 互斥,并且A 与B ,A 与B 各自相互独立,因而所求概率为P(A B )+P(A B)=P(A)·P(B )+P(A )·P(B)=0.6×(1-0.6)+(1-0.6)×0.6=0.48.独立性检验的应用[例2] (12分)下表是某地区的一种传染病与饮用水的调查表:得病 不得病 合计 干净水 52 466 518 不干净水 94 218 312 合计146684830(1)这种传染病是否与饮用水的卫生程度有关,请说明理由;(2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异.[精解详析] (1)由公式得: χ2=830×52×218-466×942146×684×518×312≈54.21.∵54.21>6.635,所以有99%的把握说该地区这种传染病与饮用不干净水有关.(6分) (2)依题意得2×2列联表:得病 不得病 合计 干净水 5 50 55 不干净水 9 22 31 合计147286(8分)此时,χ2=86×5×22-50×9214×72×55×31≈5.785.(10分)因为5.785>3.841,所以我们有95%的把握认为该种疾病与饮用不干净水有关.两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但(1)中我们有99%的把握肯定结论的正确性,(2)中我们只有95%的把握肯定.(12分)[一点通] 解决独立性检验问题的基本步骤是:①根据相关数据,作列联表;②求χ2的值;③将χ2与临界值作比较,得出事件有关的可能性大小.3.为了调查某生产线上某质量监督员甲在与不在对产品质量好坏有无影响,现统计数据如下:质量监督员甲在现场时,990件产品中合格品有982件,次品有8件;甲不在现场时,510件产品中合格品有493件,次品有17件.试列出其2×2列联表.解:根据题目所给的数据作出如下的列联表:产品正品数次品数 合计 甲在现场 982 8 990 甲不在现场493 17 510 合计1 475251 5004.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,用独立性检验的方法来判断色盲与性别是否有关,你所得到的结论在什么范围内有效?解:由题意作出如下的列联表:色盲 非色盲 合计 男 38 442 480 女 6 514 520 合计449561 000将列联表中所给的数据,χ2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2,得χ2=1 000×38×514-6×4422480×520×44×956≈27.1.由于χ2≈27.1>6.635,所以我们有99%的把握认为性别与患色盲有关系.这个结论只对所调查的480名男人和520名女人有效.5.同时抛掷两颗均匀的骰子,请回答以下问题: (1)求两颗骰子都出现2点的概率;(2)若同时抛掷两颗骰子180次,其中甲骰子出现20次2点,乙骰子出现30次2点,问两颗骰子出现2点是否相关?解:(1)每颗骰子出现2点的概率都为16,由相互独立事件同时发生的概率公式得两颗骰子都出现2点的概率为16×16=136.(2)依题意,列2×2列联表如下:出现2点 出现其他点合计 甲骰子 20 160 180 乙骰子 30 150 180 合计50310360由公式计算得χ2=360×20×150-160×30250×310×180×180≈2.323.因为2.323<3.841,因此我们没有理由说两颗骰子出现2点相关.1.若事件A 与B 相互独立,则P(AB)=P(A)P(B),即可用P(AB)=P(A)P(B)来求相互独立事件同时发生的概率.2.独立性检验的步骤[对应学生用书P5]1.甲、乙两人分别对一目标射击一次,记“甲射击一次,击中目标”为事件A,“乙射击一次,击中目标”为事件B,则在A与B,A与B,A与B,A与B中,满足相互独立的有( )A.1对B.2对C.3对D.4对解析:由已知:A与B相互独立,则A与B,A与B,A与B均相互独立,故有4对.答案:D2.下面是2×2列联表:则表中a,b的值分别为( )A.94,96 B.52,50C.52,54 D.54,52解析:∵a+21=73,∴a=52.又∵a+2=b,∴b=54.答案:C3.在调查中发现480名男人中有38名患有色盲,520名女人中有6名患有色盲.则下面的2×2列联表中n12和n+2的值分别是( )A.474,956 B.442,956C.38,44 D.514,994解析:n12=480-n11=480-38=442,n+2=1 000-38-6=956.答案:B4.博士生和硕士生毕业情况的一个随机样本给出了关于所获取的学位类别与学生性别的分类数据如下表.由表中的数据,可得( )硕士博士合计男162 27 189女143 8 151合计305 35 340A.性别与获取学位类别有关B.性别与获取学位类别无关C.性别决定获取学位的类别D.以上说法都不正确解析:χ2=162×8-143×272×340305×35×189×151≈7.34>6.635,所以有99%的把握认为性别与获取学位类别有关.而选项C中的表述不恰当,因为性别与获取学位类别不是因果关系,只是统计学上的一种非确定性关系,故不能用“决定”二字描述.答案:A5.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算χ2=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是的.(有关、无关).解析:∵χ2=27.63,∴χ2>6.635.∴有理由认为打鼾与患心脏病是有关的.答案:有关6.在某段时间内,甲地下雨的概率为0.3,乙地下雨的概率为0.4,假设在这段时间内两地是否下雨相互之间没有影响,则这段时间内,甲、乙两地都不下雨的概率为.解析:设A=“甲地下雨”,B=“乙地下雨”,则P(A)=0.3,P(B)=0.4,P(A)=0.7,P(B)=0.6,且A,B相互独立,故所求概率为P(A B)=P(A)P(B)=0.7×0.6=0.42.答案:0.427.已知甲、乙两袋中分别装有编号为1,2,3,4的四个小球,现从两袋中各取一球,设事件A=“两球的编号都是偶数”,B=“两球的编号之和大于6”.判断事件A,B是否相互独立.解:P(A)=416=14,P(B)=316.又AB=“两球的编号都为4”,P(AB)=1 16 .显然P(AB)≠P(A)P(B), 所以事件A,B 不独立.8.在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有44人主要的休闲方式是看电视,另外26人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2列联表; (2)判断性别与休闲方式是否有关系. 解:(1)由题意得2×2列联表如下.看电视 运动 合计 女 44 26 70 男 21 33 54 合计6559124(2)由(1)中表格所给数据,代入公式得 χ2=124×44×33-26×21265×59×70×54≈7.021>6.635,所以我们有99%的把握认为性别与休闲方式有关.。
1.1独立性检验一、独立事件 1.独立事件的定义一般地,对于两个事件A ,B ,如果有P (AB )=P (A )P (B ),则称事件A 与B 相互独立,简称A 与B 独立.2.如果事件A ,B 相互独立,则A 与B ,A 与B ,A 与B 也相互独立. 二、2×2列联表与χ2统计量的计算公式 1.对于两个事件A ,B ,用下表表示抽样数据表中:n +1=n 11+n 21,+2=n 12+n 22,1+=n 11+n 12,2+=n 21+n 22,n =n 11+n 21+n 12+n 22.形如此表的表格为2×2列联表.2.统计量χ2的计算公式χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2.三、独立性检验思想1.用H 0表示事件A 与B 独立的判定式,即H 0:P (AB )=P (A )P (B ),称H0为统计假设.2.用χ2与其临界值3.841与6.635的大小关系来决定是否拒绝统计假设H0,如下表:1.判断(正确的打“√”,错误的打“×”)(1)甲、乙两人分别对一目标射击一次,记“甲射击一次击中目标”为事件A,“乙射击一次击中目标”为事件B,则事件A与事件B是相互独立事件.(2)在使用χ2统计量作2×2列联表的独立性检验时,要求表中的4个数据可以是任意的.()(3)当χ2>3.841认为两事件有99%的关系.()[解析](1)根据题意,“甲的射击”与“乙的射击”没有关系,是相互独立.(2)由2×2列联表知,每表中的4个数据大于等于5.(3)由临界值知,当χ2>3.841时有95%的把握认为两事件有关.[答案](1)√(2)×(3)×2.下面是一个2×2列联表:A .94,96B .52,50C .52,60D .54,52[解析] ∵a +21=73,∴a =52. 又b =a +8=52+8=60. [答案] C3.甲、乙两人分别独立地解一道题,甲做对的概率是12,甲、乙都做错的概率是16,则乙做对的概率是_______________.[解析] 设“甲、乙做对”分别为事件A ,B ,则P (A )=12,P (A B )=16, 由P (A B )=(1-P (A ))·(1-P (B )), 得⎝ ⎛⎭⎪⎫1-12·()1-P (B )=16,解得P (B )=23. [答案] 23随机地抽取一粒,求:(1)两粒都能发芽的概率; (2)至少有一粒种子能发芽的概率; (3)恰好有一粒种子能发芽的概率.[思路探究] 甲(或乙)中的种子是否发芽对乙(或甲)中的种子是否发芽的概率是没有影响的,故“甲批种子中某粒种子发芽”与“乙批种子中某粒种子发芽”是相互独立事件.因此可以求出这两个事件同时发生的概率.对于(2)(3)应把符合条件的事件列举出来或考虑其对立面.[解] 设以A ,B 分别表示“取自甲、乙两批种子中的某粒种子发芽”这一事件,A -,B -则表示“取自甲、乙两批种子中的某粒种子不发芽”这一事件,则P (A )=0.8,P (B )=0.7,且A ,B 相互独立,故有(1)P (AB )=P (A )P (B )=0.8×0.7=0.56, 故两粒都能发芽的概率为0.56. (2)法一:P (A ∪B )=P (A )+P (B )-P (AB ) =0.8+0.7-0.56=0.94.法二:至少有一粒种子能发芽的对立事件为两粒种子都不发芽,即 P (A ∪B )=1-P (A - B -)=1-P (A -)P (B -) =1-(1-0.8)×(1-0.7)=0.94.故至少有一粒种子能发芽的概率为0.94. (3)P (A B -∪A -B )=P (A B -)+P (A -B ) =0.8×(1-0.7)+(1-0.8)×0.7=0.38. 故恰好有一粒种子能发芽的概率为0.38.1.求解简单事件概率的思路:(1)确定事件间的关系,即两事件是互斥事件还是对立事件; (2)判断事件发生的情况并列出所有事件;(3)确定是利用和事件的概率公式还是用积事件的概率公式计算. 2.求解复杂事件概率的思路:(1)正向思考:通过“分类”或“分步”将较复杂事件进行分解,转化为简单的互斥事件的和事件或相互独立的积事件;(2)反向思考:对于含有“至少”“至多”等事件的概率问题,可转化为求其对立事件的概率.1.甲、乙、丙三位学生用计算机联网学习数学,每天独立完成6道数学题,已知甲及格的概率是810,乙及格的概率是610,丙及格的概率是710,三人各答一次,求三人中只有一人答题及格的概率是多少?[解] 设“甲、乙、丙三人答题及格”分别为事件A ,B ,C ,则P (A )=810,P (B )=610,P (C )=710,设“三人各答题一次只有一人及格”为事件D ,则D 的情况为A B C ,A -B C -,A -B -C ,所以P (D )=P (A B -C -)+P (A -B C -)+P (A B C )=P (A )P (B -)P (C -)+P (A -)P (B )P (C -)+P (A -)P (B -)·P (C )=810×⎝ ⎛⎭⎪⎫1-610⎝ ⎛⎭⎪⎫1-710+⎝ ⎛⎭⎪⎫1-810×610×⎝ ⎛⎭⎪⎫1-710+⎝ ⎛⎭⎪⎫1-810⎝ ⎛⎭⎪⎫1-610×710=47250.以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用n 11n 1+与n 21n 2+判断二者是否有关系. [思路探究] 对变量进行分类→求出分类变量的不同取值 →作出2×2列联表→计算n 11n 1+与n 21n 2+的值作出判断 [解] 饮食习惯与年龄2×2列联表如下:n 11n 1+=4364≈0.67. n 21n 2+=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.1.作2×2列联表时,注意应该是4行4列,计算时要准确无误.2.作2×2列联表时,关键是对涉及的变量分清类别.1.利用χ2进行独立性检验,估计值的准确度与样本容量有关吗?[提示]利用χ2进行独立性检验,可以对推断的正确性的概率作出估计,样本容量n越大,这个估计值越准确,如果抽取的样本容量很小,那么利用χ2进行独立性检验的结果就不具有可靠性.2.在χ2运算后,得到χ2的值为29.78,在判断变量相关时,P(χ2≥6.635)≈0.01和P(χ2≥7.879)≈0.005,哪种说法是正确的?[提示]两种说法均正确.P(χ2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下认为两个变量相关;而P(χ2≥7.879)≈0.005的含义是在犯错误的概率不超过0.005的前提下认为两个变量相关.【例3】为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中需要志愿者提供帮助的老年人的比例?说明理由.[思路探究]题中给出了2×2列联表,从而可通过求χ2的值进行判定.对于(1)(3)可依据古典概率及抽样方法分析求解.[解](1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要帮助的老年人的比例的估计值为70500=14%.(2)χ2=500×(40×270-30×160)270×430×200×300≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法进行抽样,这比采用简单随机抽样方法更好.1.检验两个变量是否相互独立,主要依据是利用χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2公式计算χ2的值,再利用该值与3.841,6.635两个值进行比较作出判断.2.χ2计算公式较复杂,一是公式要清楚;二是代入数值时不能张冠李戴;三是计算时要细心.3.统计的基本思维模式是归纳,它的特征之一是通过部分数据的性质来推测全部数据的性质.因此,统计推断是可能犯错误的,即从数据上体现的只是统计关系,而不是因果关系.2.某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:的饮食习惯方面有差异”.[解] 将2×2列联表中的数据代入公式计算,得χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=100×(60×10-20×10)280×20×70×30=10021≈4.762.因为4.762>3.841,所以有95%的把握认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.1.为了研究高中学生对乡村音乐的态度(喜欢和不喜欢两种态度)与性别的关系,运用2×2列联表进行独立性检验,经计算χ2≈8.01,则认为“喜欢乡村音乐与性别有关系”的把握性约为()A.0.1%B.1%C.99% D.99.9%[解析]因为χ2≈8.01>6.635,所以有99%以上的把握认为“喜欢乡村音乐与性别有关系”.[答案] C2.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过0.01的前提下认为这个结论是成立的,下列说法中正确的是()A.100个吸烟者中至少有99人患有肺癌B.1个人吸烟,那么这个人有99%的概率患有肺癌C.在100个吸烟者中一定有患肺癌的人D.在100个吸烟者中可能一个患肺癌的人也没有[解析]独立性检验的结果与实际问题有差异,即独立性检验的结论是一个数学统计量,它与实际问题中的确定性存在差异.[答案] D3.有两个分类变量X与Y的一组数据,由其列联表计算得χ2≈4.523,则认为“X与Y有关系”犯错误的概率为()A.95% B.90%C.5% D.10%[解析]P(χ2≥3.841)≈0.05,而χ2≈4.523>3.841.这表明认为“X与Y有关系”是错误的可能性约为0.05,即认为“X与Y有关系”犯错误的概率为5%.[答案] C4.甲、乙两人分别对一目标射击一次,记“甲射击一次,击中目标”为事件A,“乙射击一次,击中目标”为事件B,则在A与B,A与B,A与B,A 与B中,满足相互独立的有________对.[解析]由已知:A与B相互独立,则A与B,A与B,A与B均相互独立,故有4对.[答案] 45.已知甲、乙两袋中分别装有编号为1,2,3,4的四个小球,现从两袋中各取一球,设事件A=“两球的编号都是偶数”,B=“两球的编号之和大于6”.判断事件A,B是否相互独立.[解]P(A)=416=14,P(B)=316.又AB=“两球的编号都为4”,P(AB)=1 16.显然P(AB)≠P(A)P(B),所以事件A,B不相互独立.课时分层作业(一)(建议用时:40分钟)[基础达标练]一、选择题1.以下关于独立性检验的说法中,错误的是() A.独立性检验依赖小概率原理B.独立性检验得到的结论一定正确C.样本不同,独立性检验的结论可能有差异D.独立性检验不是判定两事物是否相关的唯一方法[解析]受样本选取的影响,独立性检验得到的结论不一定正确,选B.[答案] B2.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差B.回归分析C.独立性检验D.概率[解析]判断两个分类变量是否有关的最有效方法是进行独立性检验,故选C.[答案] C3.如果有95%的把握说事件A和B有关,那么具体算出的数据满足() A.χ2>3.841 B.χ2>6.635C.χ2<3.841 D.χ2<6.635[解析]根据独立性检验的两个临界值及其与χ2大小关系的意义可知,如果有95%的把握说事件A与B有关时,统计量χ2>3.841,故选A.[答案] A4.一个学生通过一种英语能力测试的概率是12,他连续测试两次,那么其中恰有一次通过的概率是()A.14 B.13 C.12 D.34[解析]设A为第一次测试通过,B为第二次测试通过,则所求概率为P(A B)+P(A B)=P(A)P(B)+P(A)·P(B)=12×12+12×12=12.[答案] C5.在事件A和B的2×2列联表中,n11=10,n12=21,n2+=35,若有95%的把握认为A与B有关系,则n21可能等于()A.4B.5C.6D.7[解析]由题意可知χ2=66×[10×(35-n21)-21×n21]231×35×(10+n21)×(56-n21)>3.841,把A,B,C,D中的数据分别代入验证可知选A.[答案] A二、填空题6.甲、乙两人射击时命中目标的概率分别为12,13,现两人同时射击,则两人都命中目标的概率为________.[解析]设“甲命中目标”为事件A,“乙命中目标”为事件B,则A与B 相互独立.于是P(AB)=P(A)P(B)=12×13=16.[答案]1 67.独立性检验中,两个分类变量“X和Y有关系”的可信程度是95%,则随机变量χ2的取值范围是________.[解析]当χ2>3.841时,有95%的把握判断X与Y有关系,当χ2>6.635时,有99%的把握判断X与Y有关系,∴3.841<χ2≤6.635.[答案](3.841,6.635]8.为了探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠.在照射后14天的结果如下表所示:量对小白鼠的致死作用________________________.(填“相同”或“不相同”)[解析]统计假设是“小白鼠的死亡与使用电离辐射剂量无关”.由列联表可以算出χ2≈5.33>3.841,故有95%的把握认为小白鼠的死亡与使用的电离辐射剂量有关,所以两种电离辐射剂量对小白鼠的致死作用不相同.[答案]小白鼠的死亡与使用电离辐射剂量无关 5.33不相同三、解答题9.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:[解] 从题目的2×2列联表中可知: n 11=43,n 12=162,n 21=13,n 22=121,n 1+=205,n 2+=134,n +1=56,n +2=283,n =339, χ2=n (n 11n 22-n 12n 21)2n 1+n 2+n +1n +2=339×(43×121-162×13)2205×134×56×283≈7.469.因为7.469>6.635,所以我们有99%的把握认为50岁以上的人患慢性气管炎与吸烟有关系.10.下面是某班英语及数学成绩的分布表,已知该班有50名学生,成绩分1~5共5个档次.如:表中所示英语成绩为第4档,数学成绩为第2档的学生有5人,现设该班任意一名学生的英语成绩为第m 档,数学成绩为第n 档.(2)若m =2与n =4是相互独立的,求a ,b 的值.[解] (1)由表知英语成绩为第4档、数学成绩为第3档的学生有7人,而总学生数为50人,∴P=7 50.(2)由题意知,a+b=3. ①又m=2与n=4相互独立,所以P(m=2)P(n=4)=P(m=2,n=4),即1+b+6+a50·3+1+b50=b50. ②由①②,解得a=2,b=1.[能力提升练]1.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算的χ2≈3.918,经查临界值表知P(χ2>3.841)≈0.05,则下列表述中正确的是()A.有95%的把握认为“这种血清能起到预防感冒的作用”B.若有人未使用该血清,那么他一年中有95%的可能性得感冒C.这种血清预防感冒的有效率为95%D.这种血清预防感冒的有效率为5%[解析]因χ2≈3.918>3.841,故有95%的把握认为“这种血清能起到预防感冒的作用”.[答案] A2.假设有两个分类变量X和Y,它们的值域分别为{X1,X2}和{Y1,Y2},其2×2列联表为:) A.a=5,b=4,c=3,d=2B.a=5,b=3,c=4,d=2C.a=2,b=3,c=4,d=5D.a=2,b=3,c=5,d=4[解析]对于同一样本,|ad-bc|越小,说明X与Y之间的关系越弱;|ad-bc|越大,说明X与Y之间的关系越强.[答案] D3.某班主任对全班50名学生作了一次调查,所得数据如表:(填“能”或“不能”)在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.[解析]查表知若要在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关,χ2≈5.059<6.635,所以不能在犯错误的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.[答案]不能4.为了研究色盲与性别的关系,调查了1 000人,调查结果如表所示:[解]由已知条件可得下表:21/21 χ2=1 000×(442×6-514×38)2956×44×480×520≈27.139. 因为27.139>6.635,所以有99%的把握认为色盲与性别是有关的.。
高考数学专题复习:独立性检验一、单选题1.某学校食堂对高三学生偏爱蔬菜还是肉类与性别的关系进行了一次调查,根据独立性检验原理,处理所得数据之后发现,有97.5%的把握但没有99%的把握认为偏爱蔬菜还是肉类与性别有关,则2K 的观测值可能为( ) k 2.706 A .2 3.206K =B .2 6.625K =C .27.869K =D .211.208K =2.某校为了解学生“玩手机游戏”和“学习成绩”是否有关,随机抽取了100名学生,运用2×2列联表进行独立性检验,经计算得到2 3.936K =,所以判定玩手机游戏与学习成绩有关系,那么这种判断出错的可能性为( )A .1%B .5%C .95%D .99%3.某校为了调查喜欢语文与性别的关系,随机调查了一些学生,数据如下表,由此判断喜欢语文与性别有关系,那么这种判断出错的可能性为( )()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.A .99.5%B .5%C .0.5%D .95%4.以下四个命题,其中正确的个数有( )①在独立性检验中,随机变量2K 的观测值越大,“认为两个分类变量有关”,这种判断犯错误的概率越小.②在线性回归方程ˆ0.80.35yx =-时,变量x 与y 具有负的线性相关关系; ③随机变量X 服从正态分布2(3,)N σ,若(4)0.64P X ≤=,则(23)0.07P X ≤≤=; ④两个随机变量相关性越强,则相关系数r 的值越接近于1. A .1个B .2个C .3个D .4个5.两个分类变量X 和Y ,它们的取值分别为{}12,x x 和{}12,y y ,其样本频数列联表如下表所示:则下列四组数据中,分类变量X 和Y 之间关系最强的是( ) A .4a =,2b =,3c =,6d = B .2a =,1b =,3c =,5d = C .4a =,5b =,6c =,8d =D .2a =,3b =,4c =,6d =6.为了丰富教职工业余文化生活,某校计划在假期组织70名老师外出旅游,并给出了两种方案(方案一和方案二),每位老师均选择且只选择一种方案,其中有50%的男老师选择方案一,有75%的女老师选择方案二,且选择方案一的老师中女老师占40%,则参照附表,得到的正确结论是( )附:()()()()()22n ad bc K a b c d a c b d -=++++,n a b c d =+++.A .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别有关”B .在犯错误的概率不超过2.5%的前提下,认为“选择方案与性别无关”C .有95%以上的把握认为“选择方案与性别有关”D .有95%以上的把握认为“选择方案与性别无关”7.利用独立性检验的方法调查高中生性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.236K =,参照下表:得到的正确结论是( )A .有99%以上的把握认为“爱好该项运动与性别无关”B .有99%以上的把握认为“爱好该项运动与性别有关”C .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别有关"D .在犯错误的概率不超过0.5%的前提下,认为“爱好该项运动与性别无关”8.如果根据性别与是否爱好运动的列联表得到2 3.852 3.841x ≈>,所以判断性别与运动有关,那么这种判断犯错的可能性不超过( ) A .2.5%B .0.5%C .1%D .5%9.某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用22⨯列联表进行独立性检验.经计算2 6.058K =,则所得到的统计学结论是:有( )的把握认为“学生性别与支持该活动有关系”A .0.025%B .97.5%C .99%D .99.9%10.根据分类变量x 与y 的观测数据,计算得到2 2.974χ=.依据0.05α=的独立性检验,结论为( )A .变量x 与y 不独立B.变量x与y不独立,这个结论犯错误的概率不超过0.05C.变量x与y独立D.变量x与y独立,这个结论犯错误的概率不超过0.05二、填空题11.为了调查高中学生参加课外兴趣活动选篮球和舞蹈是否与性别有关,现随机调查了30名学生,得到如下22⨯列联表:根据表中的数据,及观测值2K(其中22()()()()()n ad bcKa b c d a c b d-=++++),参考数据:则在犯错误的概率不超过__________前提下,认为选择舞蹈与性别有关.12.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:(单位:人)由上表中数据计算得2K的观测值22105(10302045)6.10955503075K⨯⨯-⨯=≈⨯⨯⨯,请估计在犯错误的概率不超过__________的前提下认为“文化程度与月收入有关系”.13.利用独立性检验的方法调查高中性别与爱好某项运动是否有关,通过随机调查200名高中生是否爱好某项运动,利用22⨯列联表,由计算可得27.245K≈,参照下表2.706 至少有__________以上的把握认为“爱好该项运动与性别有关”.14.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =250(1320107)23272030⨯⨯-⨯⨯⨯⨯≈4.844.则认为选修文科与性别有关系出错的可能性为__________.三、解答题15.为了解某市市民对政府出台楼市限购令的态度,在该市随机抽取了50名市民进行调查,他们月收入(单位:百元)的频率分布直方图如下:(1)求该市市民平均月收入的估计值(每组数据以区间中点值为代表).(2)将月收入不低于7500元称为“高收入”,否则称为“非高收入”,根据已知条件完成下面的22⨯列联表,并判断能否有99%的把握认为市民对楼市限购令的态度与收入有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.16.为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查,得到了如下的统计结果: 表1:男生上网时间与频数分布表表2:女生上网时间与频数分布表(1)若该大学共有女生750人,试估计其中上网时间不少于60分钟的人数; (2)完成联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”.附:()()()()22()n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量.0.45517.某大学为鼓励学生进行体育锻炼,购买了一批健身器材供学生使用,并从该校大一学生中随机抽取了100名学生调查使用健身器材的情况,得到数据如表所示:(1)设每周使用健身器材的次数不低于3次为“爱好健身”,根据上表数据,填写22⨯列联表,并判断能否在犯错误的概率不超过0.10的前提下认为“男生和女生在使用健身器材的爱好方面有差异”;(2)从上述每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,再从抽取的5名学生中随机抽取3人,求3人中至多有一名女生的概率.18.在对人们休闲方式的一次调查中,仅就看电视与运动这两种休闲方式比较喜欢哪一种进行了调查.调查结果:接受调查总人数110人,其中男、女各55人;受调查者中,女性有30人比较喜欢看电视,男性有35人比较喜欢运动.(1)请根据题目所提供的调查结果填写下列22⨯列联表:(2)能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”?注:22()()()()()n ad bcKa b c d a c b d-=++++,(其中n a b c d=+++为样本容量)参考答案1.B【分析】根据把握率确定2K的观测值区间范围即可选择.【详解】∵有97.5%的把握但没有99%的把握,∴2K的观测值区间范围为[5.024,6.635),结合选项可知,2K的观测值可能为6.625.故选:B2.B【分析】根据2K的值,对照附表即可得解.【详解】由题得2 3.936 3.841K=>,所以判定玩手机游戏与学习成绩有关系,这种判断出错的可能性为5%. 故选:B3.C【分析】计算出2K的值可得答案.【详解】因为()22501520510258.33320307.89225753K⨯⨯-⨯==≈>⨯⨯⨯,所有这种判断出错的可能性0.5%.故选:C.4.A【分析】利用随机变量2K的观测值越大,说明两个变量有关系的可能性越大判断①;根据回归方程一次项系数的正负判断②;根据正态分布的性质判断③; 利用线性相关的概念判断④. 【详解】①:在独立性检验中,因为随机变量2K 的观测值越大,说明两个变量有关系的可能性越大,即犯错误的概率越大,故①错误;②:回归方程ˆ0.80.35yx =-的一次项系数为-0.35<0,故变量x 与y 具有负的线性相关关系,故②正确;③:随机变量X 服从正态分布2(3)N σ,,则(34)(4)(3)0.640.50.14P X P X P X <≤=≤-<=-=, 由对称性可知,(23)0.14P X ≤≤=,故③错误;④:两个随机变量的线性相关关系越强,则相关系数r 的绝对值越接近于1,故④错误. 正确的选项有1个. 故选:A 5.A 【分析】逐项求出ad bc -的值并加以对比,最大值对应的分类变量之间关系最强. 【详解】我们可以用ad bc -的大小近似的判断两个分类变量之间关系的强弱,ad bc -的值越小,关系越弱,越大,关系越强.这四组数据中ad bc -的值分别为18、7、2、0, 所以A 组数据的ad bc -的值最大,相比较而言这组数据反应的X 和Y 的关系最强. 故选:A. 6.C 【分析】设该校男老师的人数为x ,女老师的人数为y ,根据条件,得到22⨯列联表,求出x ,y 的值,利用公式计算2K 的值,再与表中临界值比较可得结果. 【详解】设该校男老师的人数为x ,女老师的人数为y ,则可得如下表格:由题意0.40.50.25x y =+,可得43y x =,可得30x =,40y =,则()227015301510 4.667 3.84125453040K ⨯-⨯=≈>⨯⨯⨯, 但4.667 5.024<,所以无97.5%以上有95%以上的把握认为“选择方案与性别有关”. 故选:C. 7.B 【分析】由已知的27.236K =,对比临界值表可得答案 【详解】解:因为27.236 6.635K =>,所以有99%以上的把握认为“爱好该项运动与性别有关”. 故选:B. 8.D 【分析】根据临界值附表比较,即得结论. 【详解】根据以下临界值附表可知这种判断犯错的可能性不超过5%. 故选:D 9.B【分析】将2K 的值与表中数据比较大小可知5.024 6.058 6.635<<,由此确定出相应的把握有多少.【详解】因为2 6.058K =,对照表格:5.024 6.058 6.635<<,所以有10.0250.97597.5%-==的把握认为“学生性别与是否支持该活动有关系”. 故选:B.10.C【分析】由表中数据以及独立性检验的思想即可得出结果.【详解】0.05α=时,2 3.841 2.974χ=>,所以在犯错概率不超过0.1时变量x 与y 有关.故选:C11.0.025【分析】由列联表中的数据,根据公式计算出2K 的值,再对照临界表即可得答案.【详解】 解:由列联表中的数据可得,2230(13827)27 5.4 5.024*********K ⨯⨯-⨯===>⨯⨯⨯, 所以在犯错误的概率不超过0.025的前提下,认为选择舞蹈与性别有关.故答案为:0.025.12.0.025【分析】根据2K ,对比临界值即可得出结论.【详解】∵6.109 5.024>,故能在犯错误的概率不超过0.025的前提下认为“文化程度与月收入有关系”.故答案为:0.025.13.99%【分析】根据卡方的值与参考数据比较即可判断;【详解】解:因为27.245K ≈,6.6357.2457.879<<,所以10.0199%-=故至少有99%以上的把握认为“爱好该项运动与性别有关”,故答案为:99%14.5%【分析】根据观测值k ≈4.844以及独立性检验的基本思想即可得出结果.【详解】K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.故答案为:5%15.(1)63;(2)表格见解析,有.【分析】(1)每组数据区间中点值乘以该组的频率求和可得答案;(2)根据每组频率乘以50可得每组的人数可完成列联表,计算2K 可得答案.【详解】(1)该市市民平均月收入的估计值为400.1500.2600.3700.2800.1900.163⨯+⨯+⨯+⨯+⨯+⨯=.(2)根据频率分布直方图知每组的人数分别为5,10,15,10,5,5.可得22⨯列联表如下:所以()22502882128.33340103020K ⨯⨯-⨯=≈⨯⨯⨯,因为8.333 6.635>,所以有99%的把握认为市民对楼市限购令的态度与收入有关.16.(1)225;(2)列联表答案见解析,没有90%的把握认为“大学生上网时间与性别有关”.【分析】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,计算即可; (2)填写列联表,计算2K ,对照临界值得出结论.【详解】(1)设上网时间不少于60分钟的人数为x ,依题意有30750100x =,解得225x =,所以估计其中上网时间不少于60分钟的人数是225.(2)塻22⨯列联表如下:由表中数据可得到22200(60304070) 2.20 2.70610010013070K ⨯-⨯=≈<⨯⨯⨯, 故没有90%的把握认为“大学生上网时间与性别有关”.17.(1)表格见解析,不能;(2)710. 【分析】(1)根据已知数据统计列联表中的各项的人数,填写列联表,进而计算2K 并与0.1的临界值进行比较,得到论断;(2)利用分层抽样的等比例原则求得抽取的5人中男女生的人数,利用符号表示每个学生,利用列举法计数,得到所求概率.【详解】解:(1)填写的列联表如下所示:()2210222422320.506 2.70644565446K ⨯⨯-⨯=≈<⨯⨯⨯.所以不能在犯错误的概率不超过0.1的前提下认为“男生和女生在使用健身器材的爱好方面有差异”.(2)从每周使用健身器材3次的学生中,利用分层抽样的方法抽取5名学生,则抽取男生3名,抽取女生2名.将抽取的3名男生分别记为a ,b ,c ,2名女生分别记为m ,n ,则从5人中随机抽取3人的不同情况有abc ,abm ,abn ,acm ,acn ,amn ,bcm ,bcn ,bmn ,cmn ,共10种, 其中至多有一名女生的情况有abc ,abm ,abn ,acm ,acn ,bcm ,bcn ,共7种. 所以从抽取的5名学生中随机抽取3人,至多有一名女生的概率为710. 18.(1)答案见解析;(2)不能.【分析】(1)由题意填写列联表即可;(2)代入数据计算2K 的观测值,比较观测值与3.841的大小,判断能否在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系” .【详解】解.(1)根据题目所提供的调查结果,可得下列22⨯列联表:(2)根据列联表中的数据,可计算()2211030352025 3.66750605555K ⨯⨯-⨯=≈⨯⨯⨯,因为03.667 3.841k k ≈<=,所以不能在犯错误的概率不超过0.05的前提下认为“性别与休闲方式有关系”.。
独立性检验
1.独立性检验
【知识点的知识】
1、分类变量:
如果某种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.
2、原理:假设性检验(类似反证法原理).
一般情况下:假设分类变量和之间没有关系,通过计算值,然后查表对照相应的概率,发现这种假
X Y K2 P
设正确的概率很小,从而推翻假设,最后得出和之间有关系的可能性为,也就是“和有关P X Y (1﹣P)X Y 系”.(表中的就是的观测值,即).
k K2 k=K 2
其中(考试给出)
n=a b c d
3、列联表:
2 2
4、范围:;性质:越大,说明变量间越有关系.
K2 (0,)K 2
5、解题步骤:
(1)认真读题,取出相关数据,作出列联表;
2 2
(2)根据列联表中的数据,计算的观测值;
2 2 K2 k
(3)通过观测值k 与临界值k 比较,得出事件有关的可能性大小.
1/ 1。
高中数学独立性检验精选题目(附解析)(1)分类变量和列联表①分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.②列联表(ⅰ)定义:列出的两个分类变量的频数表,称为列联表.(ⅱ)2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为(2)等高条形图①等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.②观察等高条形图发现aa+b和cc+d相差很大,就判断两个分类变量之间有关系.(3)独立性检验一、用2×2列联表分析两分类变量间的关系1.在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人.六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.请根据以上数据作出饮食习惯与年龄的列联表,并利用aa+b与cc+d判断二者是否有关系.解:2×2列联表如下:a a+b =4364=0.671 875.cc+d=2760=0.45.显然二者数据具有较为明显的差距,据此可以在某种程度上认为饮食习惯与年龄有关系.注:(1)作2×2列联表时,关键是对涉及的变量分清类别.计算时要准确无误.(2)利用2×2列联表分析两个分类变量间的关系时,首先要根据题中数据获得2×2列联表,然后根据频率特征,即将aa+b与cc+d⎝⎛⎭⎪⎫ba+b与dc+d的值相比,直观地反映出两个分类变量间是否相互影响,但方法较粗劣.2.假设有两个分类变量X与Y,它们的可能取值分别为{x1,x2}和{y1,y2},其2×2列联表为:则当m取下面何值时,X)A.8B.9C.14D.19解析:选C由10×26≈18m,解得m≈14.4,所以当m=14时,X与Y的关系最弱.3.分类变量X和Y的列联表如下:则下列说法正确的是()A.ad-bc越小,说明X与Y关系越弱B.ad-bc越大,说明X与Y关系越强C.(ad-bc)2越大,说明X与Y关系越强D.(ad-bc)2越接近于0,说明X与Y关系越强解析:选C|ad-bc|越小,说明X与Y关系越弱,|ad-bc|越大,说明X与Y关系越强.4.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:为()A.a=50,b=40,c=30,d=20B.a=50,b=30,c=40,d=20C.a=20,b=30,c=40,d=50 D.a=20,b=30,c=50,d=40解析:选D当(ad-bc)2的值越大,随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)的值越大,可知X与Y有关系的可能性就越大.显然选项D中,(ad-bc)2的值最大.5.某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:________(填“是”或“否”).解析:因为在20至40岁的58名观众中有18名观众收看新闻节目,而大于40岁的42名观众中有27名观众收看新闻节目,即ba+b=1858,dc+d=2742,两者相差较大,所以经直观分析,收看新闻节目的观众与年龄是有关的.答案:是二、用等高条形图分析两分类变量间的关系1.某学校对高三学生作了一项调查发现:在平时的模拟考试中,性格内向的学生426人中有332人在考前心情紧张,性格外向的学生594人中有213人在考前心情紧张,作出等高条形图,利用图形判断考前心情紧张与性格类型是否有关系.解:作列联表如下:续表考前心情不紧94381475张总计426594 1 020相应的等高条形图如图所示:图中阴影部分表示考前心情紧张与考前心情不紧张中性格内向的人数的比例,从图中可以看出考前心情紧张的样本中性格内向的人数占的比例比考前心情不紧张样本中性格内向的人数占的比例高,可以认为考前紧张与性格类型有关.注:利用等高条形图判断两个分类变量是否相关的步骤:2.在调查的480名男人中有38人患色盲,520名女人中有6名患色盲,试利用图形来判断色盲与性别是否有关?解:根据题目给出的数据作出如下的列联表:色盲不色盲总计男38442480女6514520总计449561000根据列联表作出相应的等高条形图:从等高条形图来看,在男人中患色盲的比例要比在女人中患色盲的比例大得多,因此,我们认为患色盲与性别是有关系的.3.观察下列各图,其中两个分类变量x,y之间关系最强的是()解析:选D在四幅图中,D图中两个深色条的高相差最明显,说明两个分类变量之间关系最强.4.在独立性检验中,可以粗略地判断两个分类变量是否有关系的是() A.散点图B.等高条形图C.假设检验的思想D.以上都不对解析:选B用等高条形图可以粗略地判断两个分类变量是否有关系,体现了数形结合思想,但是无法给出结论的可信程度,故选B.5.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:父母吸烟父母不吸烟总计子女吸烟23783320子女不吸烟678522 1 200总计915605 1 520利用等高条形图判断父母吸烟对子女吸烟是否有影响?解:等高条形图如图所示:由图形观察可以看出父母吸烟者中子女吸烟的比例要比父母不吸烟者中子女吸烟的比例高,因此可以在某种程度上认为“子女吸烟与父母吸烟有关系”.三、独立性检验1.研究人员选取170名青年男女大学生为样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的有22名,否定的有38名;110名男生在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.(链接教材P95-例1)附:解:根据2×2k=170×(22×38-22×88)2110×60×44×126≈5.622>5.024.所以在犯错误的概率不超过0.025的前提下,认为“性别与态度有关系”.注:根据题意列出2×2列联表,计算K2的观测值,如果K2的观测值很大,说明两个分类变量有关系的可能性很大;如果K2的观测值比较小,则认为没有充分的证据显示两个分类变量有关系.2.“开门大吉”是某电视台推出的游戏节目.选手面对1~8号8扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.在一次场外调查中,发现参赛选手多数分为两个年龄段:20~30;30~40(单位:岁),其猜对歌曲名称与否的人数如图所示.(1)写出2×2列联表;判断能否在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系;说明你的理由;(下面的临界值表供参考)P(K2≥k0)0.100.050.0100.005k0 2.706 3.841 6.6357.879(2)6名选手,并抽取3名幸运选手,求3名幸运选手中至少有一人在20~30岁之间的概率.解:(1)根据所给的二维条形图得到列联表:正确错误总计20~30岁10304030~40岁107080总计20100120k=120×(10×70-10×30)220×100×40×80=3.∵3>2.706,∴在犯错误的概率不超过0.10的前提下认为猜对歌曲名称与年龄有关系.(2)按照分层抽样方法可知,20~30(岁)抽取:6×40120=2(人);30~40(岁)抽取:6×80120=4(人).在上述抽取的6名选手中,年龄在20~30(岁)有2人,年龄在30~40(岁)有4人.记至少有一人年龄在20~30岁为事件A,则P(A)=1-C34C36=1-420=45.故至少有一人年龄在20~30岁之间的概率为4 5.3.在一项中学生近视情况的调查中,某校男生150名中有80名近视,女生140名中有70名近视,在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A.平均数与方差B.回归分析C.独立性检验D.概率解析:选C判断两个分类变量是否有关的最有效方法是进行独立性检验.4.对于分类变量X与Y的随机变量K2的观测值k,下列说法正确的是() A.k越大,“X与Y有关系”的可信程度越小B.k越小,“X与Y有关系”的可信程度越小C.k越接近于0,“X与Y没有关系”的可信程度越小D.k越大,“X与Y没有关系”的可信程度越大解析:选B k越大,“X与Y没有关系”的可信程度越小,则“X与Y有关系”的可信程度越大,即k越小,“X与Y有关系”的可信程度越小.5.某班主任对全班50名学生进行了作业量的调查,数据如下表,则学生的性别与认为作业量的大小有关的把握大约为()A.99%C.90% D.无充分证据解析:选B由2×2列联表得K2的观测值k=50×(18×15-8×9)2 27×23×26×24≈5.059>5.024,故有97.5%的把握认为学生性别与认为作业量大小有关,故选B.6.为了解决高二年级统计案例入门难的问题,某校在高一年级的数学教学中设有试验班,着重加强统计思想的渗透,下面是高二年级统计案例的测验成绩统计表(单位:分)的一部分,试分析试验效果.附:解:k=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)=100(32×38-18×12)250×50×44×56≈16.234.因为16.234>6.635,所以,在犯错误的概率不超过0.01的前提下认为高二年级统计案例的测试成绩与高一年级数学教学中增加统计思想的渗透有联系.巩固练习:1.下列关于K2的说法不正确的是()A.根据2×2列联表中的数据计算得出K2的观测值k≥6.635,而P(K2≥6.635)≈0,01,则有99%的把握认为两个分类变量有关系B.K2的观测值k越大,两个分类变量的相关性就越大C.K2是用来判断两个分类变量是否有关系的随机变量D.K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量解析:选D D选项的公式中分子应该是n(ad-bc)2.故选D.2.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查了52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是()表1表2A.成绩B.视力C.智商D.阅读量解析:选D因为K21=52×(6×22-14×10)2 16×36×32×20=52×8216×36×32×20,K22=52×(4×20-16×12)216×36×32×20=52×112216×36×32×20,K23=52×(8×24-12×8)216×36×32×20=52×96216×36×32×20,K24=52×(14×30-6×2)216×36×32×20=52×408216×36×32×20,则有K24>K22>K23>K21,所以阅读量与性别有关联的可能性最大.2.在某次独立性检验中,得到如下列联表:最后发现,两个分类变量没有任何关系,则a的值可能是() A.200 B.720C.100 D.180解析:选B由于A和B没有任何关系,根据列联表可知2001 000和180180+a基本相等,检验可知,B满足条件,故选B.3.两个分类变量X,Y,它们的取值分别为{x1,x2}和{y1,y2},其列联表为:若两个分类变量X,Y没有关系,则下列结论正确的是________(填序号).①ad≈bc;②aa+b≈cc+d;③c+da+b+c+d≈b+da+b+c+d;④c+aa+b+c+d≈b+da+b+c+d;⑤(a+b+c+d)(ad-bc)2(a+b)(b+d)(a+c)(c+d)≈0.解析:因为分类变量X,Y独立,所以aa+b ≈cc+d,化简得ad≈bc,所以①②⑤正确,③④显然不正确.答案:①②⑤4.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为4 15.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?解:(1)设患肝病中常饮酒的人有x人,x+230=415,x=6.常饮酒不常饮酒总计患肝病628 不患肝病41822 总计102030由已知数据可求得K2=30×(6×18-2×4)210×20×8×22≈8.523>7.879,因此有99.5%的把握认为患肝病与常饮酒有关.(2)设常饮酒且患肝病的男性为A,B,C,D,女性为E,F,则任取两人有AB,AC,AD,AE,AF,BC,BD,BE,BF,CD,CE,CF,DE,DF,EF,共15种.其中一男一女有AE,AF,BE,BF,CE,CF,DE,DF,共8种.故抽出一男一女的概率是P=8 15.5.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随机在这两条流水线上各抽取40件产品作为样本称出它们的质量(单位:克),质量值落在(495,510]的产品为合格品,否则为不合格品.表1是甲流水线样本频数分布表,图1是乙流水线样本频率分布直方图.表1甲流水线样本频数分布表产品质量/克频数(490,495] 6(495,500]8(500,505]14(505,510]8(510,515] 4(1)根据上表数据作出甲流水线样本频率分布直方图;(2)若以频率作为概率,试估计从两条流水线分别任取1件产品,该产品恰好是合格品的概率分别是多少;(3)由以上统计数据作出2×2列联表,并回答在犯错误的概率不超过多少的前提下认为“产品的包装质量与两条要自动包装流水线的选择有关”.解:(1)甲流水线样本频率分布直方图如下:(2)由表1知甲样本合格品数为8+14+8=30,由图1知乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样本合格品的频率为3040=0.75,乙样本合格品的频率为3640=0.9,据此可估计从甲流水线任取1件产品,该产品恰好是合格品的概率为0.75. 从乙流水线任取1件产品,该产品恰好是合格品的概率为0.9. (3)2×2列联表如下:甲流水线 乙流水线 总计 合格品 a =30 b =36 66 不合格品 c =10 d =4 14 总计4040n =80因为K 2k =n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=80×(120-360)266×14×40×40≈3.117>2.706, 所以在犯错误的概率不超过0.1的前提下认为产品的包装质量与两条自动包装流水线的选择有关.。
独立性检验是统计学中用于判断两个或多个随机变量之间是否存在关联关系的一种方法。
它通常用于假设检验中,以确定观察到的数据是否支持某个假设。
常用的独立性检验方法包括卡方检验、Fisher精确检验、列联表分析等。
其中,卡方检验是最常用的一种方法,适用于分类变量之间的独立性检验。
它通过计算观察频数与期望频数之间的差异,来判断两个分类变量之间是否存在关联关系。
在进行独立性检验时,需要先提出一个原假设和一个备择假设。
原假设通常表示两个随机变量之间不存在关联关系,而备择假设则表示它们之间存在关联关系。
然后,根据样本数据计算出观察频数和期望频数,并计算它们的卡方值。
最后,根据卡方值和自由度的大小,来决定是否拒绝原假设。
独立性检验在各个领域都有广泛的应用,例如医学、社会科学、经济学等。
它可以用来分析因果关系、控制实验误差、预测未来趋势等。
高中数学独立性检验例题1 什么是高中数学独立性检验?高中数学独立性检验是一种数学技术,用于检验一组随机变量之间是否具有独立性,而不依赖于其他系统变量,也就是说,是否具有“独立性”。
独立性检验是一项重要的统计推断工作,它根据变量之间的相关关系,来推断系统变量与其他变量之间是否存在某种类型的独立关系。
2 如何进行独立性检验?高中数学独立性检验的具体方法包括:先应用概率模型或统计模型来阐明变量之间的关系,然后使用算法对模型参数进行估计和检验,或者使用分类分析、回归分析、实验设计等技术。
最后,使用统计方法来检验系统变量与其他变量之间的独立关系,比如使用特征分析、因子分析、卡方分析等多种统计方法。
3 高中数学独立性检验的应用场景高中数学独立性检验主要用于处理数据分析过程中发现的变量之间的统计关系。
比如在经济分析中,在考察不同的经济模型时,可以使用这种方法来确定一组因素之间的“独立性”。
其他应用场景还包括行为研究、诊断、信息控制等。
4 例题针对以下问题,我们可以运用高中数学独立性检验来解决:假设学校有一组数学课,每一节数学课都有不同的教学方法。
我们要测试教学方法与学生学习成绩之间的独立性的关系。
首先我们需要收集一组数据,包括每位学生的学习成绩和他们所上的每一节数学课的教学方法。
然后假设他们之间有一个潜在的独立变量,用高中数学的独立性检验来检验教学方法与学生学习成绩之间的关系。
在进行检验时,令检验统计量(比如卡方检验)计算出来后,再和某个临界值进行比较,看看这一组数据与独立假设的拒绝区是否一致,如果不一致,则可以推断出教学方法和学生的学习成绩之间的独立性存在某种关系。
2χ检验(一)掌握内容1. 2χ检验的用途。
2. 四格表的2χ检验.(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验. (二) 熟悉内容频数分布拟合优度的2χ检验. (三) 了解内容1.2χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途2χ检验(Chi —square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠).2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency ).四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:np )1(ππσ-=,π为总体率,或 (8—1)np p S p )1(-=,p为样本率;(8—2)2.总体率的可信区间当n 足够大,且p 和1—p 均不太小,p 的抽样分布逼近正态分布.总体率的可信区间:(ppS u p S u p ⨯+⨯-2/2/,αα)。
(8—3)(四)2χ检验的基本计算见表8-1。
表8—1 2χ检验的用途、假设的设立及基本计算公式资料形式 用途 0H 、1H 的设立与计算公式 自由度 四格表 ①独立资料两 样本率的比较②配对资料两样本率的比较0H :两总体率相等 1H :两总体率不等①专用公式))()()(()(22d b c a d c b a n bc ad ++++-=χ②当n ≥40但1≤T 〈5时,校正公式))()()(()2/(22d b c a d c b a n n bc ad ++++--=χ③配对设计cb c b +--=22)1(χ1 R ⨯C 表 ①多个样本率、 0H :多个总体率(构成比)相等 (R —1)构成比的比较②两个变量之间关联性分析(0H:两种属性间存在关联)1H:多个总体率(构成比)不全相等(H:两种属性间存在关联))1(22-=∑CRnnAnχ(C—1)频数分布表频数分布的拟合优度检验H:资料服从某已知的理论分布1H:资料不服从某已知的理论分布∑-TTA2)(据频数表的组数而定(五)四格表的确切概率法当四格表有理论数小于1或n〈40时,宜用四格表的确切概率法。