统计案例--独立性检验及其初步
- 格式:docx
- 大小:184.42 KB
- 文档页数:11
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
统计案例之独立性检验班级姓名学号参考公式:,其中.1.在中学生综合素质评价某个维度的测评中,分优秀、合格、尚待改进三个等级进行学生互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响,采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下:表一:男生表二:女生(1)从表二的非优秀学生中随机抽取2人交谈,求所选2人中恰有1人测评等级为合格的概率;(2)由表中统计数据填写下面的列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.2.东亚运动会将于2013年10月6日在天津举行.为了搞好接待工作,组委会打算学习北京奥运会招募大量志愿者的经验,在某学院招募了16名男志愿者和14名女志愿者,调查发现,男女志愿者中分别有10人和6人喜爱运动,其余人不喜欢运动.(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?(3)如果从喜欢运动的女志愿者中(其中恰有4人会外语),抽取2名负责翻译工作,那么抽出的志愿者中至少有1人能胜任翻译工作的概率是多少?3.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,现从高一学生中抽取人做调查,得到如下列联表:已知在这人中随机抽取一人抽到喜欢游泳的学生的概率为,(Ⅰ)请将上述列联表补充完整,并判断是否有%的把握认为喜欢游泳与性别有关?并说明你的理由;(Ⅱ)针对问卷调查的名学生,学校决定从喜欢游泳的人中按分层抽样的方法随机抽取人成立游泳科普知识宣传组,并在这人中任选两人作为宣传组的组长,求这两人中至少有一名女生的概率,4.某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A 类、B类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm作为达标的标(1)完成上表;5.某校进行文科、理科数学成绩对比,某次考试后,各随机抽取100名同学的数学考试成绩进行统计,其频率分布表如下.(Ⅰ)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值;(Ⅱ)请填写下面的列联表,并根据列联表判断是否有90%的把握认为数学成绩与文理科有关:(Ⅲ)设文理科数学成绩相互独立,记表示事件“文科、理科数学成绩都大于等于120分”,估计的概率.答案:1.(1)设从高一年级男生中抽出人,则,,则从女生中抽取20人,所以,.表二中非优秀学生共5人,记测评等级为合格的3人为,,,尚待改进的2人为,,则从这5人中任选2人的所有可能结果为,,,,,,,,,,共10种,设事件表示“从表二的非优秀学生中随机选取2人,恰有1人测评等级为合格”,则的结果为,,,,,,共6种,所以,即所求概率为.(2)列联表如下:因为,,而,所以没有90%的把握认为“测评结果优秀与性别有关”.(2)根据已知数据可求得:K2=≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.(3)喜欢运动的女志愿者有6人,设喜欢运动的女志愿者分别为A,B,C,D,E,F,其中A,B,C,D会外语,则从这6人中任取2人,共15种取法.其中两人都不会外语的只有EF一种取法.故抽出的志愿者之中至少有1人能胜任翻译工作的概率是P=1-=.3.5.。
独立性检验的基本思想及其初步应用知识点1.与列联表相关的概念(1)分类变量:变量的不同“值”表示个体所属的不同类型,像这样的变量称为分类变量. (2)列联表:①列出的两个分类变量的频数表, 称为列联表.①一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +d在2×2列联表中,如果两个分类变量没有关系,则应满足ad -bc ≈0, 因此|ad -bc |越小, 关系越弱; |ad -bc |越大, 关系越强. 2.等高条形图将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分别对应不同的颜色,这就是等高条形图。
等高条形图与表格相比,图形更能直观地反映出两个分类变量间是否相互影响, 常用等高条形图展示列表数据的频率特征. 列联表和等高条形图的优劣:列联表可以准确掌握总体中各部分的频率,但是需要计算;等高条形图可以比较各个部分之间的差异,明确展现两个分类变量的关系。
3.独立性检验的基本思想(1)定义:利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)公式:K 2=n ad -bc 2a +bc +d a +cb +d,其中n =a +b +c +d 为样本容量.用它的大小可以用来决定是否拒绝原来的统计假设0H .如果K 2的值较大,就拒绝0H ,即认为A 与B 是有关的.注:独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的.4.独立性检验的步骤:(1)确定分类变量,获取样本频数,得到列联表.(2) 利用公式K2=n ad-bc2a+b c+d a+c b+d计算随机变量K2的观测值k0.(3) 根据实际问题的需要推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0.(4)作出判断.如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y的关系”。
常见的临界值表为:P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001 k00.4550.708 1.323 2.072 2.706 3.841 5.024 6.6357.87910.828题型一等高条形图的应用【例1】为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下:组别阳性数阴性数总计铅中毒病人29736对照组92837总计383573试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系?【过关练习】1.1网络对现代人的生活影响较大,尤其是对青少年,为了解网络对中学生学习成绩的影响,某地区教育主管部门从辖区初中生中随机抽取了1 000人调查,发现其中经常上网的有200人,这200人中有80人期末考试不及格,而另外800人中有120人不及格.利用图形判断学生经常上网与学习成绩有关吗?题型二独立性检验【例1】某大学餐饮中心为了解新生的饮食习惯,在全校一年级学生中进行了抽样调查,调查结果如下表所示:喜欢甜品不喜欢甜品合计南方学生602080北方学生101020合计7030100根据表中数据,问是否在犯错误的概率不超过0.05的前提下认为“南方学生和北方学生在选用甜品的饮食习惯方面有差异”.【过关练习】1.某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.【例2】(2017·全国Ⅱ改编)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如图:(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关.箱产量<50 kg箱产量≥50 kg旧养殖法新养殖法附:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d).【过关练习】为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由; (3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为X ,求X 的分布列与均值.课后练习【补救练习】1.分类变量X 和Y 的列联表如下:A .ab -bc 越小,说明X 与Y 关系越弱B .ad -bc 越大,说明X 与Y 关系越强C .(ad -bc )2越大,说明X 与Y 关系越强D .(ad -bc )2越接近于0,说明X 与Y 关系越强2.下列关于等高条形图的叙述正确的是()A.从等高条形图中可以精确地判断两个分类变量是否有关系B.从等高条形图中可以看出两个变量频数的相对大小C.从等高条形图中可以粗略地看出两个分类变量是否有关系D.以上说法都不对3.通过对K2的统计量的研究得到了若干个临界值,当K2≤2.706时,我们认为() A.在犯错误的概率不超过0.05的前提下认为X与Y有关系B.在犯错误的概率不超过0.01的前提下认为X与Y有关系C.没有充分理由认为X与Y有关系D.不能确定4.下面是调查某地区男女学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从图324中可以看出()图324A.性别与喜欢理科无关B.女生中喜欢理科的比为80%C.男生比女生喜欢理科的可能性大些D.男生不喜欢理科的比为60%【巩固练习】1.假设有两个变量X与Y,它们的取值分别为x1,x2和y1,y2,其列联表为:y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d()A.a=50,b=40,c=30,d=20B.a=50,b=30,c=40,d=20C.a=20,b=30,c=40,d=50D.a=20,b=30,c=50,d=402.在对某小学的学生进行吃零食的调查中,得到如下表数据:3.在独立性检验中,统计量K2有两个临界值:3.841和6.635.当K2>3.841时,有95%的把握说明两个事件有关,当K2>6.635时,有99%的把握说明两个事件有关,当K2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病的调查中,共调查了2 000人,经计算K2=20.87.根据这一数据分析,我们有理由认为打鼾与患心脏病之间是________的(有关、无关).4.下列关于K2的说法中,正确的有________.①K2的值越大,两个分类变量的相关性越大;②K2的计算公式是K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d);③若求出K2=4>3.841,则有95%的把握认为两个分类变量有关系,即有5%的可能性使得“两个分类变量有关系”的推断出现错误;④独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断.5.为了研究子女吸烟与父母吸烟的关系,调查了一千多名青少年及其家长,数据如下:6.有人发现一个有趣的现象,中国人的邮箱里含有数字比较多,而外国人邮箱名称里含有数字比较少,为了研究国籍和邮箱名称里含有数字的关系,他收集了124个邮箱名称,其中中国人的64个,外国人的60个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.(1)根据以上数据建立2×2列联表;(2)他发现在这组数据中,外国人邮箱里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?【拔高练习】1.观察下列各图,其中两个分类变量x,y之间关系最强的是()A BC D2.某研究所为了检验某血清预防感冒的作用,把500名使用了该血清的志愿者与另外500名未使用该血清的志愿者一年中的感冒记录作比较,提出假设H:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列叙述中正确的是()A.有95%的把握认为“这种血清能起到预防感冒的作用”B.若有人未使用该血清,那么他一年中有95%的可能性得感冒C.这种血清预防感冒的有效率为95%D.这种血清预防感冒的有效率为5%3.某班主任对全班50名学生作了一次调查,所得数据如表:的概率不超过0.01的前提下认为喜欢玩电脑游戏与认为作业多有关.4.为研究某新药的疗效,给100名患者服用此药,跟踪调查后得下表中的数据:设H小数点后保留一位有效数字),从而得出结论:服用此药的效果与患者的性别有关,这种判断出错的可能性为________.5.随着生活水平的提高,人们患肝病的越来越多,为了解中年人患肝病与经常饮酒是否有关,现对30名中年人进行了问卷调查得到如下列联表:已知在全部30人中随机抽取1人,抽到肝病患者的概率为4 15.(1)请将上面的列联表补充完整,并判断是否有99.5%的把握认为患肝病与常饮酒有关?说明你的理由;(2)现从常饮酒且患肝病的中年人(恰有2名女性)中,抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:。