统计案例一_----独立性检验
- 格式:doc
- 大小:239.50 KB
- 文档页数:5
8.5 统计案例(精讲)(提升版)思维导图考点一独立性检验【例1】(2022·吉林·梅河口市第五中学高三开学考试)某中学准备组建“文科”兴趣特长社团,由课外活动小组对高一学生进行了问卷调查,问卷共100道题,每题1分,总分100分,该课外活动小组随机抽取了100名学生的问卷成绩(单位:分)进行统计,将数据按照[0,20),[20,40),[40,60),[60,80),[80,100]分成5组,绘制的频率分布直方图如图所示,若将不低于60分的称为“文科方向”学生,低于60分的称为“理科方向”学生.(1)根据已知条件完成下面2×2列联表,并据此判断是否有99.5%的把握认为“文科方向”与性别有关?理科方向文科方向总计男40女45考点呈现例题剖析总计 1001人,共抽取4次,记被抽取的4人中“文科方向”的人数为X ,若每次抽取的结果是相互独立的,求X 的分布列和数学期望.参考公式:()()()()22()n ad bc a b c d a c b d χ-=++++,其中n a b c d =+++.参考临界值:()2P k αχ=0.10 0.05 0.025 0.010 0.005 0.001k2.7063.841 5.024 6.635 7.879 10.828【一隅三反】1.(2022·白山模拟)十三届全国人大四次会议表决通过了关于国民经济和社会发展第十四个五年规划和2035年远景目标纲要的决议,决定批准这个规划纲要,纲要指出:“加强原创性引领性科技攻关”.某企业集中科研骨干,攻克系列“卡脖子”技术,已成功实现离子注入机全谱系产品国产化,包括中束流、大束流、高能、特种应用及第三代半导体等离子注入机,工艺段覆盖至28nm,为我国芯片制造产业链补上重要一环,为全球芯片制造企业提供离子注入机一站式解决方案.此次技术的突破可以说为国产芯片的制造做出了重大贡献.该企业使用新技术对某款芯片进行试生产,在试产初期,生产一件该款芯片有三道工序,每道工序的生产互不影响,这三道工序的次品率分别为118,119,120.附:()()()()()22n ad bcKa b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.0500.0100.0050.001 k 3.841 6.6357.87910.828(①P①100X(2)某手机生产厂商将该款芯片投入到某新款手机上使用,并对部分芯片做了技术改良,推出了两种型号的手机,甲型号手机采用没有改良的芯片,乙型号手机采用改良了的芯片,现对使用这两种型号的手机用户进行回访,就他们对开机速度进行满意度调查.据统计,回访的100名用户中,使用甲型号手机的有30人,其中对开机速度满意的有15人;使用乙型号手机的有70人,其中对开机速度满意的有55人.完成下列22⨯列联表,并判断是否有99.5%的把握认为该项技术改良与用户对开机速度的满意度有关.甲型号乙型号合计满意不满意合计2.(2022·陕西咸阳·三模(理))2022年北京冬奥组委发布的《北京2022年冬奥会和冬残奥会经济遗产报告(2022)》显示,北京冬奥会已签约45家赞助企业,冬奥会赞助成为一项跨度时间较长的营销方式.为了解该45家赞助企业每天销售额与每天线上销售时间之间的相关关系,某平台对45家赞助企业进行跟踪调查,其中每天线上销售时间不少于8小时的企业有20家,余下的企业中,每天的销售额不足30万元的企业占35,统计后得到如下22⨯列联表:销售额不少于30万元销售额不足30万元合计线上销售时间不少于8小时 17 20 线上销售时间不足8小时合计45售时间有关?(2)按销售额在上述赞助企业中采用分层抽样方法抽取5家企业.在销售额不足30万元的企业中抽取时,记“抽到线上销售时间不少于8小时的企业数”为X ,求X 的分布列和数学期望. 附: ()20P K k ≥0.050 0.010 0.001 0k3.841 6.635 10.828参考公式:()()()()2 n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.考点二 线性回归方程【例2-1】(2022·齐齐哈尔模拟)某单位为了解夏季用电量与月份的关系,对本单位2021年5月份到8月份的日平均用电量y (单位:千度)进行了统计分析,得出下表数据:月份(x )5 6 7 8 日平均用电量(y )1.93.4t7.11.7877ˆ.0y x =-t 的值为( )A .5.8B .5.6C .5.4D .5.2【例2-2】(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iii ii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X ,求随机变量X 的分布列和数学期望.(视频率为相应事件发生的概率)【一隅三反】1.(2022·安徽三模)对某位同学5次体育测试的成绩(单位:分)进行统计得到如下表格:第x 次 1 2 3 4 5 测试成绩y3940484850根据上表,可得关于的线性回归方程为ˆ3ˆy x a =+,下列结论不正确的是( )A .ˆ36a= B .这5次测试成绩的方差为20.8 C .y 与x 的线性相关系数0r < D .预测第6次体育测试的成绩约为542.(2022·安徽模拟)新冠疫情期间,口罩的消耗量日益增加,某药店出于口罩进货量的考虑,连续9天统计了第i (i 1239)x =,,,,天的口罩的销售量i y (百件),得到的数据如下:99i i i=1i=145171x y ==∑∑,,()99922ii i i i=1i=1i=1312528510953x x y y y ==-=∑∑∑,,. 参考公式:相关系数()()()()iii=122iii=1i=1nnnx x y y r x x y y --=--∑∑∑数据()i i ()i 123x y n =,,,,,,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计分别为()()()iii i1222i i11ˆˆˆnn i inni i x x y y x y nxybay bx x x xnx ===---===---∑∑∑∑, (1)若用线性回归模型ˆˆˆybx a =+拟合y 与x 之间的关系,求该回归直线的方程; (2)统计学家甲认为用(1)中的线性回归模型(下面简称模型1)进行拟合,不够精确,于是尝试使用非线性模型(下面简称模型2)得到i x 与i y 之间的关系,且模型2的相关系数20989r =.,试通过计算说明模型1,2中,哪一个模型的拟合效果更好. 3.(2022·湖南模拟)《中共中央国务院关于全面推进乡村振兴加快农业农村现代化的意见》,这是21世纪以来第18个指导“三农”工作的中央一号文件.文件指出,民族要复兴,乡村必振兴.为助力乡村振兴,某电商平台为某地的农副特色产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:单价x (元/件) 8 8.2 8.4 8.6 8.8 9 销量y (万件)908483807568附:参考公式:回归方程ˆˆˆybx a =+,其中()()()iiiii 1i 1222iii 1i 1ˆnnx x y y x y nxyb x x xnx ====---==--∑∑∑∑,ˆˆay bx =-. 参考数据:614066i ii x y==∑,621434.2i i x ==∑.(1)(i )根据以上数据,求y 关于x 的线性回归方程;(ii )若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润.(2)为了解该产品的价格是否合理,在试销平台上购买了该产品的顾客中随机抽了400人,阅读“购买后的评价”得知:对价格满意的有300人,基本满意的有50人,不满意的有50人.为进一步了解顾客对该产品价格满意度形成的原因,在购买该产品的顾客中随机抽取4人进行电话回访,记抽取的4人中对价格满意的人数为随机变量X,求随机变量X的分布列和数学期望.(视频率为相应事件发生的概率)考点三非线性回归方程【例3】(2022·福建·三明一中模拟预测)当前,新一轮科技革命和产业变革蓬勃兴起,以区块链为代表的新一代信息技术迅猛发展,现收集某地近5年区块链企业总数量相关数据,如下表年份20172018201920202021编号x12345企业总数量y(单位:千个) 2.156 3.7278.30524.27936.224(1)根据表中数据判断,y a bx=+与e dxy c=(其中 2.71828e=…为自然对数的底数),哪一个回归方程类型适宜预测未来几年我国区块链企业总数量?(给出结果即可,不必说明理由),并根据你的判断结果求y关于x的回归方程;(2)为了促进公司间的合作与发展,区块链联合总部决定进行一次信息化技术比赛,邀请甲、乙、丙三家区块链公司参赛.比赛规则如下:①每场比赛有两个公司参加,并决出胜负;①每场比赛获胜的公司与未参加此场比赛的公司进行下一场的比赛;①在比赛中,若有一个公司首先获胜两场,则本次比赛结束,该公司获得此次信息化比赛的“优胜公司”.已知在每场比赛中,甲胜乙的概率为12,甲胜丙的概率为13,乙胜丙的概率为35,若首场由甲乙比赛,求甲公司获得“优胜公司”的概率.参考数据:5174.691i i y ==∑,51312.761i i i x y ==∑,5110.980i i z ==∑,5140.457i i i x z ==∑(其中ln z y =). 附:样本(),(1,2,,)i i x y i n =的最小二乘法估计公式为1221ˆni ii nii x y nx ybxnx==-=-∑∑,ˆa y bx=-.【一隅三反】1.(2022·山西二模)数据显示,中国在线直播用户规模及在线直播购物规模近几年都保持高速增长态势,下表为2017-2021年中国在线直播用户规模(单位:亿人),其中2017年-2021年对应的代码依次为1-5.年份代码x 1 2 3 4 5 市场规模y3.984.565.045.866.36参考数据: 5.16y =, 1.68v =,145.10i ii v y==∑,其中i i v x =.参考公式:对于一组数据()11v y ,,()22v y ,,…,()n n v y ,,其回归直线ˆˆˆybv a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i v y nvybv nv ==-=-∑∑,ˆˆay bv =-. (1)由上表数据可知,可用函数模型ˆˆyx a =拟合y 与x 的关系,请建立y 关于x 的回归方程(ˆa ,ˆb 的值精确到0.01);(2)已知中国在线直播购物用户选择在品牌官方直播间购物的概率为p ,现从中国在线直播购物用户中随机抽取4人,记这4人中选择在品牌官方直播间购物的人数为X ,若()()34P X P X ===,求X 的分布列与期望.2.(2022·广东广州·一模)人们用大数据来描述和定义信息时代产生的海量数据,并利用这些数据处理事务和做出决策,某公司通过大数据收集到该公司销售的某电子产品1月至5月的销售量如下表. 月份x1 2 3 4 5 销售量y (万件)4.95.86.88.310.2该公司为了预测未来几个月的销售量,建立了y 关于x 的回归模型:ˆv . (1)根据所给数据与回归模型,求y 关于x 的回归方程(ˆu 的值精确到0.1);(2)已知该公司的月利润z (单位:万元)与x ,y 的关系为z x x=,根据(1)的结果,问该公司哪一个月的月利润预报值最大? 参考公式:对于一组数据()()()1122,,,,,,n n x y x y x y ,其回归直线ˆˆˆy bx a =+的斜率和截距的最小二乘估计公式分别为()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.11 / 113.(2022·广东肇庆·二模)下表是我国从2016年到2020年能源消费总量近似值y (单位:千万吨标准煤)的数据表格: 年份2016 2017 2018 2019 2020 年份代号x1 2 3 4 5 能源消费总量近似值y (单位:千万吨标准煤) 442 456 472 488 498以x 为解释变量,y 为预报变量,若以11为回归方程,则相关指数210.9946R ≈,若以22ˆln ya b x =+为回归方程,则相关指数220.9568R ≈. (1)判断11ˆyb x a =+与22ˆln y a b x =+哪一个更适宜作为能源消费总量近似值y 关于年份代号x 的回归方程,并说明理由;(2)根据(1)的判断结果及表中数据,求出y 关于年份代号x 的回归方程.参考数据:512356i i y ==∑,517212i i i x y ==∑.参考公式:回归方程ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为:()()()1122211ˆn ni i i ii i n n ii i i x x y y x y nxy b x x x nx ====---==--∑∑∑∑,ˆˆa y bx =-.。
第四节 变量间的相关关系、统计案例变量间的相关关系、统计案例 1.变量间的相关关系(1)会作两个有关联变量的数据的散点图,会利用数点图认识变量间的相关关系. (2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程. 2.统计案例了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题. (1)独立性检验了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. (2)回归分析了解回归分析的基本思想、方法及其简单应用. 知识点一 回归分析 1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y∑ni =1x 2i -n x 2,a ^=y -b ^x . (3)通过求Q =∑ni =1(y i -bx i -a )2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫作最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.易误提醒1.易混淆相关关系与函数关系,两者的区别是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上 .3.利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).[自测练习]1.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.3 4.86.7A.3.25 B .2.6 C .2.2D .0解析:∵回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入回归方程,得a ^=2.6.答案:B2.(2016·镇江模拟)如图所示,有A ,B ,C ,D ,E 5组(x ,y )数据,去掉________组数据后,剩下的4组数据具有较强的线性相关关系.解析:由散点图知呈带状区域时有较强的线性相关关系,故去掉D . 答案:D知识点二 独立性检验 独立性检验假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)(其中n=a+b+c+d为样本容量).易误提醒(1)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表.在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果做出错误的解释.[自测练习]3.下面是2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120则表中a,b的值分别为()A.94,72B.52,50C.52,74 D.74,52解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.答案:C考点一相关关系的判断|1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3解析:易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r2<r4<0<r3<r1.答案:A2.(2015·高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:因为y=-0.1x+1,x的系数为负,故x与y负相关;而y与z正相关,故x与z 负相关.答案:C相关关系的判断的两种方法(1)散点图法.(2)相关系数法:利用相关系数判定,当|r|越趋近于1相关性越强.考点二回归分析|(2015·高考全国卷Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费x i和年销售量y i(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.xyw∑8i =1(x i -x)2∑8i =1(w i -w)2∑8i =1(x i -x )(y i-y )∑8i =1(w i -w )(y i -y ) 46.6 563 6.8 289.8 1.6 1 469108.8表中w i =x i ,w =18∑i =1w i.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为β^=∑ni =1 (u i -u )(v i -v )∑ni =1(u i -u )2,α^=v -β^ u . [解] (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于 d ^=∑8i =1(w i -w )(y i -y )∑8i =1 (w i -w )2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值 y ^=100.6+6849=576.6, 年利润z 的预报值 z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.回归直线方程的求法(1)利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心求系数.1.(2016·银川一中模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6 y2.5344.5(1)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^. (2)已知该厂技改前,100吨甲产品的生产能耗为90吨标准煤,试根据(1)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低了多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)解:(1)由对照数据,计算得∑4i =1x 1y 1=66.5,∑4i =1x 21=32+42+52+62=86,x =4.5,y =3.5,b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7,a ^=y -b ^x =3.5-0.7×4.5=0.35,所求的回归方程为y ^=0.7x +0.35.(2)x =100,y ^=100×0.7+0.35=70.35,预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).考点三 独立性检验|(2016·邯郸模拟)为了解少年儿童的肥胖是否与常喝碳酸饮料有关,现对30名六年级学生进行了问卷调查得到如下列联表.平均每天喝500 mL 以上为常喝,体重超过50 kg 为肥胖.常喝 不常喝 合计 肥胖 2 不肥胖 18 合计30已知在全部30人中随机抽取1人,抽到肥胖的学生的概率为415.(1)请将上面的列联表补充完整.(2)是否有99.5%的把握认为肥胖与常喝碳酸饮料有关?说明你的理由.(3)设常喝碳酸饮料且肥胖的学生中有2名女生,现从常喝碳酸饮料且肥胖的学生中抽取2人参加电视节目,则正好抽到一男一女的概率是多少?参考数据:K 2≥k 0 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 02.0722.7063.8415.0246.6357.87910.828参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .[解] (1)设常喝碳酸饮料肥胖的学生有x 人,x +230=415,解得x =6.常喝 不常喝 合计 肥胖 6 2 8 不肥胖 4 18 22 合计102030(2)由已知数据可求得K 2=30×(6×18-2×4)210×20×8×22≈8.523>7.879.因此有99.5%的把握认为肥胖与常喝碳酸饮料有关.(3)设常喝碳酸饮料的肥胖男生为A ,B ,C ,D ,女生为E ,F ,任取两人的取法有AB ,AC ,AD ,AE ,AF ,BC ,BD ,BE ,BF ,CD ,CE ,CF ,DE ,DF ,EF ,共15种.其中一男一女的取法有AE ,AF ,BE ,BF ,CE ,CF ,DE ,DF ,共8种.故抽出一男一女的概率是P =815.解独立性检验的应用问题的关注点(1)两个明确: ①明确两类主体; ②明确研究的两个问题. (2)两个关键:①准确画出2×2列联表; ②准确理解K 2.提醒:准确计算K 2的值是正确判断的前提.2.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计6050110K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .附表:P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:K 2=110×(40×30-20×20)260×50×60×50≈7.8.P (K 2≥6.635)=0.01=1-99%,∴有99%以上的把握认为“选择过马路的方式与性别有关”,故选A.答案:A12.独立性检验与概率交汇综合问题的答题模板【典例】(12分)(2016·保定调研)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:(1)判断是否有(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:(参考公式:K2=n(ad-bc)(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d)[规范解答](1)由公式K2=55×(20×20-10×5)230×25×25×30≈11.978>7.879,(3分) 所以有99.5%的把握认为喜欢“应用统计”课程与性别有关.(6分)(2)设所抽样本中有m个男生,则630=m20,得m=4,所以样本中有4个男生,2个女生,分别记作B1,B2,B3,B4,G1,G2.从中任选2人的基本事件有(B1,B2),(B1,B3),(B1,B4),(B1,G1),(B1,G2),(B2,B3),(B2,B4),(B2,G1),(B2,G2),(B3,B4),(B3,G1),(B3,G2),(B4,G1),(B4,G2),(G1,G2),共15个,(9分)其中恰有1个男生和1个女生的事件有(B1,G1),(B1,G2),(B2,G1),(B2,G2),(B3,G1),(B3,G2),(B4,G1),(B4,G2),共8个.(11分)所以恰有1个男生和1个女生的概率为815.(12分)[模板形成]分析2×2列联表数据↓利用K 2公式计算K 2值↓对分类变量的相关性作出判断↓求相应事件的概率↓反思解题过程,注意规范化[跟踪练习] 某班主任对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据见下表所示:(1)加社团活动且学习积极性一般的学生的概率是多少?(2)运用独立性检验的思想方法分析:学生的学习积极性与参加社团活动情况是否有关系?并说明理由.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d );其中n =a +b +c +d .解:(1)随机从该班抽查一名学生,抽到参加社团活动的学生的概率是2250=1125;抽到不参加社团活动且学习积极性一般的学生的概率是2050=25.(2)因为K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(17×20-5×8)225×25×22×28≈11.688>10.828,所以大约有99.9%的把握认为学生的学习积极性与参加社团活动情况有关系.A 组 考点能力演练1.根据如下样本数据得到的回归方程为y ^=b ^x +a ^,则( )A.a ^>0,b ^>0 B.a >0,b <0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:把样本数据中的x ,y 分别当作点的横、纵坐标,在平面直角坐标系xOy 中作出散点图(图略),由图可知b ^<0,a ^>0.故选B.答案:B2.已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能为( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y^=-0.3x +4.4解析:依题意知,相应的回归直线的斜率应为正,排除C ,D.且直线必过点(3,3.5),代入A ,B 得A 正确.答案:A3.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .则下面的正确结论是( )A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:由2×2列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k 0=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”,故选A.答案:A4.根据如下样本数据:得到的回归方程为y =b x +a .若样本点的中心为(5,0.9),则当x 每增加1个单位时,y 就( )A .增加1.4个单位B .减少1.4个单位C .增加7.9个单位D .减少7.9个单位解析:依题意得,a +b -25=0.9,故a ^+b ^=6.5①;又样本点的中心为(5,0.9),故0.9=5b ^+a ^②,联立①②,解得b ^=-1.4,a ^=7.9,则y ^=-1.4x +7.9,可知当x 每增加1个单位时,y 就减少1.4个单位,故选B.答案:B5.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a ,若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′ B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D.b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑6i =1x i y i -6x ·y ∑6i =1x 2i -6x2=58-6×72×13691-6×⎝⎛⎭⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.答案:C6.(2016·忻州联考)已知x ,y 的取值如下表:从散点图分析,y 与x 线性相关,且回归方程为y =1.46x +a ,则实数a ^的值为________. 解析:x =2+3+4+54=3.5,y =2.2+3.8+5.5+6.54=4.5,回归方程必过样本的中心点(x ,y ).把(3.5,4.5)代入回归方程,计算得a ^=-0.61.答案:-0.617.为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:(请用百分数表示).解析:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=50×(20×15-5×10)225×25×30×20≈8.333>7.879.答案:0.5%8.已知下表所示数据的回归直线方程为y ^=4x +242,则实数a =________.解析:回归直线y ^=4x +242必过样本点的中心点(x ,y ),而x =2+3+4+5+65=4,y =251+254+257+a +2665=1 028+a 5,∴1 028+a 5=4×4+242,解得a =262.答案:2629.(2015·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)(1)根据以上数据完成下列2×2列联表:主食蔬菜主食肉类合计 50岁以下 50岁以上 合计(2)能否有99% 解:(1)2×2列联表如下:主食蔬菜主食肉类合计 50岁以下 4 8 12 50岁以上 16 2 18 合计201030(2)因为K 2=30×(8-128)212×18×20×10=10>6.635,所以有99%的把握认为其亲属的饮食习惯与年龄有关.10.(2015·高考重庆卷)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份 2010 2011 2012 2013 2014 时间代号t12345(1)求y 关于t 的回归方程y =b t +a ;(2)用所求回归方程预测该地区2015年(t =6)的人民币储蓄存款. 附:回归方程y ^=b ^t +a ^中, b ^=∑ni =1t i y i -n t y ∑ni =1t 2i -n t2,a ^=y -b ^t .解:(1)列表计算如下这里n =5,t =1n ∑n i =1t i =155=3,y =1n ∑n i =1y i =365=7.2. 又l tt =∑ni =1t 2i -n t2=55-5×32=10,l ty =∑ni =1t i y i-n t y =120-5×3×7.2=12,从而b ^=l ty l tt =1210=1.2,a ^=y -b ^t =7.2-1.2×3=3.6,故所求回归方程为y ^=1.2t +3.6.(2)将t =6代入回归方程可预测该地区2015年的人民币储蓄存款为y ^=1.2×6+3.6=10.8(千亿元).B 组 高考题型专练1.(2015·高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:根据上表可得回归直线方程y =b x +a ,其中b =0.76,a =y -b x .据此估计,该社区一户年收入为15万元家庭的年支出为( )A .11.4万元B .11.8万元C.12.0万元D.12.2万元^=0.76,∴a^=8-0.76×10=0.4,∴回归方程为y^=0.76x 解析:∵x=10.0,y=8.0,b+0.4,把x=15代入上式得,y^=0.76×15+0.4=11.8(万元),故选B.答案:B2.(2015·高考北京卷)高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如图所示,甲、乙、丙为该班三位学生.从这次考试成绩看,(1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是________;(2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是________.解析:(1)由题图分析乙的语文成绩名次略比甲的语文成绩名次靠前,但总成绩名次靠后,所以甲、乙两人中语文成绩名次比总成绩靠前的是乙;(2)丙同学的数学成绩名次位于中间稍微靠后,而总成绩名次相对靠后,所以丙同学的语文成绩名次比较靠后,所以丙同学的成绩名次靠前的科目是数学.答案:乙数学。
统计案例之独立性检验班级姓名学号参考公式:,其中.1.在中学生综合素质评价某个维度的测评中,分优秀、合格、尚待改进三个等级进行学生互评.某校高一年级有男生500人,女生400人,为了了解性别对该维度测评结果的影响,采用分层抽样方法从高一年级抽取了45名学生的测评结果,并作出频数统计表如下:表一:男生表二:女生(1)从表二的非优秀学生中随机抽取2人交谈,求所选2人中恰有1人测评等级为合格的概率;(2)由表中统计数据填写下面的列联表,并判断是否有90%的把握认为“测评结果优秀与性别有关”.2.东亚运动会将于2013年10月6日在天津举行.为了搞好接待工作,组委会打算学习北京奥运会招募大量志愿者的经验,在某学院招募了16名男志愿者和14名女志愿者,调查发现,男女志愿者中分别有10人和6人喜爱运动,其余人不喜欢运动.(2)根据列联表的独立性检验,能否在犯错误的概率不超过0.10的前提下认为性别与喜爱运动有关?(3)如果从喜欢运动的女志愿者中(其中恰有4人会外语),抽取2名负责翻译工作,那么抽出的志愿者中至少有1人能胜任翻译工作的概率是多少?3.某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,现从高一学生中抽取人做调查,得到如下列联表:已知在这人中随机抽取一人抽到喜欢游泳的学生的概率为,(Ⅰ)请将上述列联表补充完整,并判断是否有%的把握认为喜欢游泳与性别有关?并说明你的理由;(Ⅱ)针对问卷调查的名学生,学校决定从喜欢游泳的人中按分层抽样的方法随机抽取人成立游泳科普知识宣传组,并在这人中任选两人作为宣传组的组长,求这两人中至少有一名女生的概率,4.某学校高三年级有学生1 000名,经调查,其中750名同学经常参加体育锻炼(称为A 类同学),另外250名同学不经常参加体育锻炼(称为B类同学),现用分层抽样方法(按A 类、B类分两层)从该年级的学生中共抽查100名同学,如果以身高达165 cm作为达标的标(1)完成上表;5.某校进行文科、理科数学成绩对比,某次考试后,各随机抽取100名同学的数学考试成绩进行统计,其频率分布表如下.(Ⅰ)根据数学成绩的频率分布表,求理科数学成绩的中位数的估计值;(Ⅱ)请填写下面的列联表,并根据列联表判断是否有90%的把握认为数学成绩与文理科有关:(Ⅲ)设文理科数学成绩相互独立,记表示事件“文科、理科数学成绩都大于等于120分”,估计的概率.答案:1.(1)设从高一年级男生中抽出人,则,,则从女生中抽取20人,所以,.表二中非优秀学生共5人,记测评等级为合格的3人为,,,尚待改进的2人为,,则从这5人中任选2人的所有可能结果为,,,,,,,,,,共10种,设事件表示“从表二的非优秀学生中随机选取2人,恰有1人测评等级为合格”,则的结果为,,,,,,共6种,所以,即所求概率为.(2)列联表如下:因为,,而,所以没有90%的把握认为“测评结果优秀与性别有关”.(2)根据已知数据可求得:K2=≈1.157 5<2.706,因此,在犯错误的概率不超过0.10的前提下不能判断喜爱运动与性别有关.(3)喜欢运动的女志愿者有6人,设喜欢运动的女志愿者分别为A,B,C,D,E,F,其中A,B,C,D会外语,则从这6人中任取2人,共15种取法.其中两人都不会外语的只有EF一种取法.故抽出的志愿者之中至少有1人能胜任翻译工作的概率是P=1-=.3.5.。
2χ检验(一)掌握内容1. 2χ检验的用途。
2. 四格表的2χ检验.(1) 四格表2χ检验公式的应用条件; (2) 不满足应用条件时的解决办法; (3) 配对四格表的2χ检验。
3. 行⨯列表的2χ检验. (二) 熟悉内容频数分布拟合优度的2χ检验. (三) 了解内容1.2χ分布的图形。
2.四格表的确切概率法。
(一) 2χ检验的用途2χ检验(Chi —square test )用途较广,主要用途如下:1.推断两个率及多个总体率或总体构成比之间有无差别 2.两种属性或两个变量之间有无关联性 3.频数分布的拟合优度检验 (二) 2χ检验的基本思想1.2χ检验的基本思想是以2χ值的大小来反映理论频数与实际频数的吻合程度。
在零假设0H (比如0H :21ππ=)成立的条件下,实际频数与理论频数相差不应该很大,即2χ值不应该很大,若实际计算出的2χ值较大,超过了设定的检验水准所对应的界值,则有理由怀疑0H 的真实性,从而拒绝0H ,接受H 1(比如1H :21ππ≠).2. 基本公式:()∑-=TT A 22χ,A 为实际频数(Actual Frequency ),T 为理论频数(Theoretical Frequency ).四格表2χ检验的专用公式正是由此公式推导出来的,用专用公式与用基本公式计算出的2χ值是一致的。
(三)率的抽样误差与可信区间 1.率的抽样误差与标准误样本率与总体率之间存在抽样误差,其度量方法:np )1(ππσ-=,π为总体率,或 (8—1)np p S p )1(-=,p为样本率;(8—2)2.总体率的可信区间当n 足够大,且p 和1—p 均不太小,p 的抽样分布逼近正态分布.总体率的可信区间:(ppS u p S u p ⨯+⨯-2/2/,αα)。
(8—3)(四)2χ检验的基本计算见表8-1。
表8—1 2χ检验的用途、假设的设立及基本计算公式资料形式 用途 0H 、1H 的设立与计算公式 自由度 四格表 ①独立资料两 样本率的比较②配对资料两样本率的比较0H :两总体率相等 1H :两总体率不等①专用公式))()()(()(22d b c a d c b a n bc ad ++++-=χ②当n ≥40但1≤T 〈5时,校正公式))()()(()2/(22d b c a d c b a n n bc ad ++++--=χ③配对设计cb c b +--=22)1(χ1 R ⨯C 表 ①多个样本率、 0H :多个总体率(构成比)相等 (R —1)构成比的比较②两个变量之间关联性分析(0H:两种属性间存在关联)1H:多个总体率(构成比)不全相等(H:两种属性间存在关联))1(22-=∑CRnnAnχ(C—1)频数分布表频数分布的拟合优度检验H:资料服从某已知的理论分布1H:资料不服从某已知的理论分布∑-TTA2)(据频数表的组数而定(五)四格表的确切概率法当四格表有理论数小于1或n〈40时,宜用四格表的确切概率法。
独立性检验是如何判断两个事件是否相互独立的独立性检验的基本思想类似于反证法.要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量2χ应该很小.如果由观测数据计算得到的2χ的观测值很大,则在一定程度上说明假设不合理.根据随机变量2χ的含义,可以通过概率式评价该假设不合理的程度,由实际计算的2χ>6.635,说明假设不合理的程度约为99%,即“两个分类变量有关系”这一结论成立的可信程度约为99%.当2χ≤3.841时,认为两个分类变量是无关的.对于两事件而言即相互独立. 1.两个事件独立的判定例1: 为了研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进根据193个病人的数据,能否作出药的效果与给药方式有关的结论?请说明理由. 解:提出假设H 0:药的效果与给药方式无关系.根据列联表中的数据,得χ2=2193(58314064)122719895-⨯-⨯⨯⨯⨯≈1.3896<2.072.当H 0成立时,χ2>1.3896的概率大于15%,这个概率比较大,所以根据目前的调查数据,不能否定假设H 0,即不能作出药的效果与给药方式有关的结论.注意:这是一个由列联表来验证的独立性检验问题,其结论是没有关系的假设成立.并且应该注意上述结论是对所有口服药物与注射药物的实验人而言的,绝不要误以为对被跟踪的193个跟踪研究对象成立.例2:调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能以多大把握认为婴儿的性别与出生时间有关系.分析:利用表中的数据通过公式计算出2χ统计量,可以用它的取值大小来推断独立性是否成立. 解:由公式()841.368892.35732345531826248922<≈⨯⨯⨯⨯-⨯⨯=χ 故婴儿的性别与出生时间是相互独立的(也可以说没有充分证据显示婴儿的性别与出生时间有关).2.两个事件不独立的判定例3:在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.利用独立性检验方法判断秃顶与患心脏病是否有关系?你所得的结论在什么范围内有效?分析:列出22⨯列联表,利用公式求出2χ与两个临界值3.841与6.635比较大小得适当范围.解:根据题目所给数据得到如下表所示: 秃顶与患心脏病列联表由公式,得:()635.6373.167726651048389451175597214143722>≈⨯⨯⨯⨯-⨯⨯=χ 所以有99%的把握认为“秃顶与患心脏病有关”.说明:因为这组数据来自住院的病人,因此所得到的结论适合住院的病人群体.例 4.某班主任对全班50名学生进行了作业量多少的调查,喜欢玩电脑游戏的同学认为作业多的有18人,认为作业不多的有9人,不喜欢玩电脑游戏的同学认为作业多的有8人,认为作业不多的有15人,则认为喜欢玩电脑游戏与认为作业量的多少有关系的把握大约是多少?2x =059.523272426)981518(502=⨯⨯⨯⨯-⨯, ()024.52>x P =0.025,有97.5%的把握认为喜欢玩电脑游戏与认为作业多有关系.。
统计案例 了解独立性检验(只要求 2X 2列联表)的基本思想、方法及其简单应用,并能解决一些实际问题、曙知识整合1 .2 2列联表设X , Y 为两个变量,它们的取值分别为 {x i , X 2}和{y i ,y 2},其样本频数列联表(2 2列联表)如下:2 .独立性检验判断“两个变量有关系”的方法称为独立性检验.3 .独立性检验的一般步骤(1) 根据样本数据列出 2 2列联表;(2) 计算随机变量 K 2的观测值k ,查下表确定临界值k o :(3)如果k k o ,就推断“X 与Y 有关系”,这种推断犯错误的概率不超过 o ;否则,就认为在犯错误的概率不超过 P K 2 k o 的前提下不能推断“X 与Y 有关系”.【注意】(1)通常认为k 2.706时,样本数据就没有充分的证据显示“X 与Y 有关系”.(2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结 论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可 能对统计计算的结果作出错误的解释. (3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断.利用随机变量 K 2(也可表示为2)n (ad be)2 (a b)(e d )(a e)(b d)(其中n abed 为样本容量)来頁心糞点考向.考向一两类变量相关性的判断已知分类变量的数据,判断两类变量的相关性•可依据数据及公式计算K2,然后作出判断.典例引领典例1利用独立性检验来考查两个分类变量X和Y是否有关系时,通过查阅下表来确定“ X和Y有关A • 25% B. 75%C. 2.5%D. 97.5%【答案】D【解析】:乂>攵02斗,而在观测值表中对应于5血4的是0.02S? 1 - 0.025=0575=97.5%, 二有97.5%^把揭认为廿和F有关豪.故选D.【名师点睛】本题考查独立性检验的应用,属于基础题,根据所给的观测值,与所给的临界值表中的数据进行比较,而在观测值表中对应于 5.024的是0.025,从而得到结果.典例2附表:A • 99.9%B. 97.5%c. 95% D • 90%【答案】Al解析】由题可得总」68x〔68x3£-20x42尸说口打I88x80x110x58'/11.377>10.828, /.有也9%的把握认为看电视与人变冷漠有关系.故答案为A【名师点睛】本题主要考查独立性检验,意在考查学生对该知识的掌握水平和解决实际问题的能力•把所给的数据代入求独立性检验的观测值的公式,求出观测值,把观测值同独立性检验的临界值表进行比较,得到所求的值大于10.828,得到有99.9%的把握认为看电视与人变冷漠有关系.1 •为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取60名高中生做问卷调查,得到以下数据:由以上数据,计算得到K2的观测值k 9.643,根据临界值表,以下说法正确的是附:A •在样本数据中没有发现足够证据支持结论“作文成绩优秀与课外阅读量大有关B. 在犯错误的概率不超过0.001的前提下,认为作文成绩优秀与课外阅读量大有关C. 在犯错误的概率不超过0.05的前提下,认为作文成绩优秀与课外阅读量大有关D •在犯错误的概率不超过 0.005的前提下,认为作文成绩优秀与课外阅读量大有关考向二 独立性检验与概率统计的综合 独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为中档 题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤,作 出判断,再根据概率统计的相关知识求解问题 典例引领典例3 某中学对高三甲、乙两个同类班级进行“加强‘语文阅读理解'训练对提高‘数学应用题 率作用”的试验,其中甲班为试验班 (加强语文阅读理解训练),乙班为对比班(常规教学,无额外训练 试验前的测试中,甲、乙两班学生在数学应用题上的得分率基本一致,试验结束后,统计几次数学应用题 测试的平均成绩(均取整数)如下表所示: 得分 ),在现规定平均成绩在 80分以上(不含80分)的为优秀. (1 )试分别估计两个班级的优秀率(2)由以上统计数据填写下面2 2列联表,并问是否有 75%的把握认为“加强’语文阅读理解’训练对提高’数学应用题’得分率”有帮助? 参考公式及数据: n(ad be)2 (a b)(e d )(a e)(b d) ,其中n abed . 【答案】(1 )甲、乙两班的优秀率分别为 60%和50% ; ( 2)列联表见解析,没有 75%的把握认为“加强 '语文阅读理解’训练对提高’数学应用题’得分率”有帮助•【解析】由题育知」甲、乙两班均有学生知人,3D甲班优秀人数为30人」优秀率为- = 60%,乙班优秀人咖25儿优秀率为磊乍耐 所以甲*乙两班的'优秀率分别为60%和50%.(2) 2 2列联表如下:2因为 K 2100 (3°25 2025)50 50 55 45所以由参考数据知,没有 75%的把握认为“加强‘语文阅读理解'训练对提高‘数学应用题’得分率” 有帮助•2 •高中生在被问及“家,朋友聚集的地方,个人空间 ”三个场所中“感到最幸福的场所在哪里?”这个问 题时,从中国某城市的高中生中随机抽取了55人,从美国某城市的高中生中随机抽取了45人进行答题•23 3 中国高中生答题情况是: 选择家的占一、朋友聚集的地方占、个人空间占•美国高中生答题情况是:510103 1 1 朋友聚集的地方占 、家占一、个人空间占-•如下表:5(1)请将2 2列联表补充完整,试判断能否有 95%的把握认为“恋家”与否与国别有关;(2) 从被调查的不“恋家”的美国学生中,用分层抽样的方法选出 4人接受进一步调查, 再从4人中随 机抽取2人到中国交流学习,求 2人中含有在“个人空间”感到幸福的学生的概率•2100 991.010 1.323 ,2n ad bc附:k ,其中n abed.abed a e b d、兰点冲关1芬r1 •观察如图所示的等高条形图,其中最有把握认为两个分类变量x, y之间有关系的是A •B.C. D.2 •在研究打酣与患心脏病之间的关系中,通过收集数据、整理分析数据得“打酣与患心脏病有关”的结论,并且有99%以上的把握认为这个结论是成立的•下列说法中正确的是A. 100个心脏病患者中至少有99人打酣B. 1个人患心脏病,那么这个人有99%的概率打酣C. 在100个心脏病患者中一定有打酣的人D •在100个心脏病患者中可能一个打酣的人都没有3 .已知两个统计案例如下:①为了探究患肺炎与吸烟的关系,调查了339名50岁以上的人,调查结果如下表:则对这些数据的处理所应用的统计方法是A •①回归分析,②取平均值B.①独立性检验,②回归分析C.①回归分析,②独立性检验D.①独立性检验,②取平均值4 .某村庄对该村内50名老年人、年轻人每年是否体检的情况进行了调查,统计数据如表所示:已知抽取的老年人、年轻人各 25名•则完成上面的列联表数据错误的是 A • a 18 B - b 19 C . cd 505 •为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了下表:参考公式:、八n (ad be)2"亠 , ,K,其中 n abed(a b)(c d)(a c)(b d)临界值表:根据表中的数据你认为喜爱打篮球与性别之间有关系的把握是 A . 97.5% B . 99% C . 99.5%D . 99.9%6 •为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试•统计得到成绩与专业的列联表:D . f e 1附:参考公式及数据: (1) 统计量:2n (ad be)2K,其中 n abed(a b)(e d)(a e)(b d)(2) 独立性检验的临界值表:则下列说法正确的是A •有99%的把握认为环保知识测试成绩与专业有关 B. 有99%的把握认为环保知识测试成绩与专业无关 C. 有95%的把握认为环保知识测试成绩与专业有关 D .有95%的把握认为环保知识测试成绩与专业无关 7 .假设有两个分类变量 X 和Y 的2 2列联表为:对同一样本,以下数据能说明 X 与Y 有关系的可能性最大的一组为A . b 5,d35 B . b 15,d 25 C . b 20, d 20参考公式:2— n(ad bc)K,其中 n a b c d .(a b)(c d )(a c)(b d)8 .某学校为判断高三学生选修文科是否与性别有关,现随机抽取50名学生,得到如下2 2列联表:D . b 30,d102根据表中数据得到K2 50 13 2°10 74844,已知P K23.84123 27 20 30P K2 5.024 0.025•现作出结论“选修文科与性别相关”,估计这种判断出错的可能性约为0.05 ,A • 97.5% B. 95%C. 2.5%D. 5%9 •某学校为了制定治理学校门口上学、放学期间家长接送孩子乱停车现象的措施,对全校学生家长进行了问卷调查根据从中随机抽取的50份调查问卷,得到了如下的列联表:则认为“是否同意限定区域停车与家长的性别有关”的把握约为___________附: K22n ad bc …--------------------------- ,其中n a be d. abed a e b d10 .已知下列命题:①在线性回归模型中,相关指数R2表示解释变量x对于预报变量y的贡献率,R2越接近于1,表示回归效果越好;②两个变量相关性越强,则相关系数的绝对值就越接近于 1 ;③在回归直线方程y 0 5x 2中,当解释变量x每增加一个单位时,预报变量y平均减少0.5个单位;④对分类变量X与Y ,它们的随机变量K2的观测值k来说,k越小,“ X与Y有关系”的把握程度越大.其中正确命题的序号是_________ .11. 一则“清华大学要求从2017级学生开始,游泳达到一定标准才能毕业”的消息在体育界和教育界引起了巨大反响•其实,已有不少高校将游泳列为必修内容•某中学拟在高一下学期开设游泳选修课,为了了解高一学生喜欢游泳是否与性别有关,该学校对100名高一新生进行了问卷调查,得到如下 2 2列联表:已知在这100人中随机抽取1人,抽到喜欢游泳的学生的概率为5(1)请将上述列联表2 2补充完整,并判断是否可以在犯错误的概率不超过0.001的前提下认为喜欢游泳与性别有关.(2)已知在被调查的学生中有6名来自高一(1)班,其中4名喜欢游泳,现从这6名学生中随机抽取 2 人,求恰有1人喜欢游泳的概率•22 n ad bc附:K2=-abcd acbd12 .随着资本市场的强势进入,互联网共享单车"忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在A市的使用情况,某调查机构借助网络进行了问卷调查,并从参与调查的网友中抽取了200人进行抽样分析,得到表格:(单位:人)(1)根据以上数据,能否在犯错误的概率不超过0.15的前提下认为A市使用共享单车情况与年龄有关?(2)现从所抽取的30岁以上的网友中利用分层抽样的方法再抽取5人.(i)分别求这5人中经常使用、偶尔或不用共享单车的人数;(ii )从这5人中,再随机选出2人赠送一件礼品,求选出的 2人中至少有1人经常使用共享单车的概2n ad be»亠,其中 n abed . abedaebd参考数据:2P Kk o0.15 0.10 0.05 0.025 0.0102.072 2.7063.841 5.024 6.6351. (2017年高考新课标n 卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了 100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:I 勝疽法新羔疸法参考公式:K 2、直通高考讣 z -(1 )记A 表示事件“旧养殖法的箱产量低于 50 kg ”,估计A 的概率; (2 )填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3 )根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较 附:P () 0.050 0.010 0.001 k3.8416.63510.8282__________n (ad be)2(a b)(e d)(a e)(b d)2 . (2018年高考新课标川卷)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种 新的生产方式•为比较两种生产方式的效率,选取 40名工人,将他们随机分成两组,每组20人•第一组 工人用第一种生产方式,第二组工人用第二种生产方式. 根据工人完成生产任务的工作时间 (单位:min ) 绘制了如下茎叶图: 第一种生产方成 箒二种生产方式 8 65 56 8 9 H 97 6 2 10 12 2 3 4 5 6 6 S98776543 3 2 8 14 4 5 2 1IOO 9 0(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;(2)求40名工人完成生产任务所需时间的中位数 m ,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:(3)根据(2)中的列联表,能否有 99%的把握认为两种生产方式的效率有差异?2n ad be abedaebd鼻.参考答案.变式拓展1 .【答案】D【解析】因为根据临界值表, 9.643>7.879,所以在犯错误的概率不超过 0.005的前提下,认为作文成绩 优秀与课外阅读量大有关•故选 D.【名师点睛】本题考查卡方含义,考查基本求解能力•根据临界值表,确定犯错误的概率即可 •12 .【答案】(1 )见解析;(2).2【解析】(1)由已知得:附:K 222100 22 36 9 33 100 11 3二 K4.628 3.841 ,31 69 55 4531 23•••有95%的把握认为“恋家”与否与国别有关•⑵用分层抽样的方法損出4人,苴中在哪友歸焦的地方噁到幸福的有3人,在拎人空间稳到幸福 的有1人'分别设污弘他吗上一T 总的基本事件空间为G 珂佃・畋),(%码)工珂上)•(玛牛上)•(吗上)},• ••总的基本事件个数为加=&进含有在洽人空间懣到幸福的学主为事件/则X 珂(备»(码』),(禺耐,二事件/的个数対刖二3一 古攵尸(4)=—=—=丄.w 6 2【思路点拨】(1)根据题意填写列联表,计算观测值K 2,对照临界值表得出结论;(2)用分层抽样方法抽出 4人,其中在“朋友聚焦的地方”感到幸福的有3人,在“个人空间”感到幸福的有1人,分别设为a,a 2,a 3,b ,再设“含有在’个人空间’感到幸福的学生”为事件A ,求出基本 事件数,即可求得概率值.考点冲关1 .【答案】D【解析】在等高条形图中, 为,X 2所占比例相差越大,分类变量 x , y 有关系的把握越大• 故答案为D【名师点睛】(1)本题主要考查通过等高条形图判断两个分类变量是否有关系,意在考查学生对该知识 的掌握水平和分析推理能力•(2)在等高条形图中,如果两个分类变量所占的比例差距越大, 2 .【答案】D则说明两个分类变量有关系的把握越大【解析】利用独豈性检殓幅论可得:若啣酣与患心脏病有关”的结论,并且有99%以上的把握认対掘亍结论是咸立的,则在100个心脏病患者中可冒卄个打酣的人都没有.本諷选择D选项.【名师点睛】独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.3 .【答案】B【解析】常用独立性检验研究两个分类变量之间是否有关系,常用回归分析研究两个具有相关关系的变量的相关程度,综上可知选 B.4 •【答案】D【解析】因为a 7 c所以a 18,b 19,c d 故选D.25,6 b d 25,a 6 e,7 b f ,e d 50, e f50 , 50, e 24, f 26, f e 2.【名师点睛】本题考查列联表有天概念,考查基本求解能力.先根据列联表列方程组,解得a,b,c,d,e,f 再判断各选项•5.【答案】A2【解析】由已知可得Kn (ad be)250 (25 10 10 5)26.3492 ,(a b)(e d )(a e)(b d)35 15 30 20由临界值表可知P(K2 5.024) 0.025,所以根据表中的数据可以认为喜爱打篮球与性别之间有关系的把握是97.5%,故选A.6 .【答案】C2【解析】因为K2 4°(14 13 7 6)4.912,所以3.841<K2<6.635 ,20 20 21 19所以有95%勺把握认为环保知识测试成绩与专业有关.7 .【答案】D【解析】将耕中的数据和选项中提供的数稣入公式:妄乙+验&二如屮并计算可选项7』;驚;第寻选项U -型0Z 空匹丄20x40x25^357所以圧A K 扌用由选顶D 中的数据得5J 的值最大,也就能说明X 与F 有关系的可能 性最大故选D.8 •【答案】由题意得 K 2 4.844 3.841,而P K 2 3.841 0.05,这种判断出错的可能性约为 5%,故选D.2〜8.333,且 P (K 》7.789) =0.005=0.5% •所以,我们有99.5%的把握认为是否同意限定区域停车与家长的性别有关. 故答案为99.5%.【名师点睛】本题考查独立性检验知识,考查学生的计算能力,考查学生分析解决问题的能力,属于中 档题.利用公式求得 K 2,与临界值比较,即可得到结论 10 .【答案】①②③n(ad — bc)得© d ^^60x(5x35-15x5/ 320x40x10x50选项D :蜀』如20x40x35x25【解析】 9 •【答案】 99.5%【解析】2250 20 15-5 10因为K=-25 25 30 20【解析】CD 相关指数疋表示解籟变量就对于预报变量P 的贡就率,史越接近于1,夷示回归蝕果越好, 杲正确的$② 两个变量相关性越强,则相关系数旷的绝対值就越接近干1,是正确的.③ 在回归直线方程J = -0.5JC +2中,当解塞变量工哥增加一个单位时,预报变量$平均减少0-5个单 位是正确的,因为回归方稈』并不是祥本点都落在方程上』枚只能是估计值』所以说是平均增长; ④ 对分奏变重X 与F 』它们的随机变量的观测值氐来说,氐越小』与F 有关系77的把握程度越 ds 故嫖命题错误一 故答案为;0X3®.811.【答案】(1)列联表见解析,可以;(2).15 3【解析】(1)根据条件可知喜欢游泳的人数为 100 — 60人.5完成2 2列联表:2100 40 30 20 10根据表中数据,计算 K 216.667 10.82860 40 50 50所以可以在犯错误的概率不超过 0.001的前提下认为喜欢游泳与性别有关.(2)设“恰有一人喜欢游泳”为事件A ,设4名喜欢游泳的学生为 a 1,a 2,a 3,a 4,不喜欢游泳的学生为 bb ,基 本 事 件 总 数 有15种a 1a 2, a 1a 3, a 1a 4, a 1b l, a 1b 2, a 2a 3, a 2a 4 , a 2b 1, a 2b , a 3a 4 , a 3b 1, a 3b 2 , a 4b 1, a 4b ,b 1b2,其中恰有一人喜欢游泳的基本事件有 8种:aD, a 1b 2, a 2“, a 2b 2,a3b, a s b ?, a 4“, a q b ?,所以P A —.15【名师点睛】本题考查了独立性检验与运算求解能力,同时考查通过列举法求概率的应用,属于中档(1)根据题意计算喜欢游泳的学生人数,求出女生、男生多少人,完善列联表,再计算观测值K2,对照临界值表即可得出结论;(2)设“恰有一人喜欢游泳”为事件A,设4名喜欢游泳的学生为a i,a2,a3,a4,不喜欢游泳的学生为b,b2,通过列举法即可得到答案.12 •【答案】(1)能在犯错误的概率不超过0.15的前提下认为A市使用共享单车情况与年龄有关;9(2) (i)经常使用共享单车的有3人,偶尔或不用共享单车的有2人;(ii) .10【解析】⑴由列麻表可知,或= ---------- --------------------- L®2J98 -130x70x100x100因为Z198 >2.072,所以能在犯错误的槪率不超过0-15的前提下认为/市便用共享单车情况与年龄有关.60(2) (i)依题意可知,所抽取的5名30岁以上的网友中,经常使用共享单车的有 5 3 (人),10040偶尔或不用共享单车的有5上02 (人). 100(ii)设这5人中,经常使用共享单车的3人分别记为a , b , c ;偶尔或不用共享单车的2人分别记为d , e.则从5人中选出2人的所有可能结果为:a,b , a, c , a,d , a,e , b,c , b, d , b,e ,c,d , c,e , d,e,共10 种•其中没有1人经常使用共享单车的可能结果为:d,e,共1种,1 9故选出的2人中至少有1人经常使用共享单车的概率P 1 .10 10直通咼考1 •【答案】(1) 0.62; (2)列联表见解析,有99%的把握认为箱产量与养殖方法有关;(3 )新养殖法优于旧养殖法•【解析】(1) 旧养殖法的箱产量低于50 kg的频率为(0.012+0.014+0.024+0.034+0.040 ) x 5=0.62.因此,事件A的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表/ 200 (62 66 34 38)2K= ~15.705・100 100 96 104由于15.705 > 6.635,故有99%的把握认为箱产量与养殖方法有关•(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg到55 kg之间,旧养殖法的箱产量平均值(或中位数)在45 kg到50 kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.【名师点睛】(1)频率分布直方图中小长方形面积等于对应概率,所有小长方形面积之和为 1.(2)频率分布直方图中均值等于组中值与对应概率乘积的和(3 )均值大小代表水平高低,方差大小代表稳定性2 •【答案】(1 )第二种生产方式的效率更高,理由见解析;(2)见解析;(3)能.【解析】第二种生产方式的敷率更髙一理宙如F:<i)由至叶團可知:用第一种生产方武的工人中』有乃%的工人宪成生产忏务所需时间至少鮒分钟,用第二手畦产方式的工人中,有托%的工人完成生产任劳所需时间至梦79分钟.因止湍二种生产方式的效率更高一由茎叶團可知;用第一种生产方式的工人完成生产任务所需时间的中位数为瞄占分钟」用第二种生产方式的工人死成生产任务所需时间的中位数为73.5分钟'因此第二种生产方式的效率更高.<iii)由茎叶團可扣:用第一种生产方式的工人完成生产任务平均所需时间寓干盹分钟;用第二种生产方式的工人完成生产任务平均所需时间低于如分钟/因11備二种生产方式龈率更高.(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分⑶由于疋一似际5-祸5,20x20x20x20所以有购%的把握认为两种生产方式的效率有差异.(2)由茎叶图知m79 8180.列联表如下:。
统计案例一独立性检验
研修学院数学教研室闻岩
一、课标要求
学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
内容与要求
1.统计案例(约14课时)
通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。
(1)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用。
(2)通过对典型案例(如“质量控制”“新药是否有效”等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用(参见例1)。
------删掉了
(3)通过对典型案例(如“昆虫分类”等)的探究,了解聚类分析的基本思想、方法及初步应用。
------删掉了
(4)通过对典型案例(如“人的体重与身高的关系”等)的探究,进一步了解回归的基本思想、方法及初步应用。
说明与建议
1.统计案例的教学中,应鼓励学生经历数据处理的过程,培养他们对数据的直观感觉,认识统计方法的特点(如统计推断可能犯错误,估计结果的随机性),体会统计方法应用的广泛性。
应尽量给学生提供一定的实践活动机会,可结合数学建模的活动,选择1个案例,要求学生亲自实践。
对于统计案例内容,只要求学生了解几种统计方法的基本思想及其初步应用,对于其理论基础不作要求,避免学生单纯记忆和机械套用公式进行计算。
2.教学中,应鼓励学生使用计算器、计算机等现代技术手段来处理数据,有条件的学校还可运用一些常见的统计软件解决实际问题。
例1某地区羊患某种病的概率是0.4,且每只羊患病与否是彼此独立的。
今研制一种新的预防药,任选5只羊做实验,结果这5只羊服用此药后均未患病。
问此药是否有效。
初看起来,会认为这药一定有效,因为服药的羊均未患病。
但细想一下,会有问题,因为大部分羊不服药也不会患病,患病的羊只占0.4左右。
这5只羊都未患病,未必是药的作用。
分析这问题的一个自然想法是:若药无效,随机抽取5只羊都不患病的可能性大不大。
若这件事发生的概率很小,几乎不会发生,那么现在我们这几只羊都未患病,应该是药的效果,即药有效。
现假设药无效,5只羊都不生病的概率是
(1-0.4)5≈0.078.
这个概率很小,该事件几乎不会发生,但现在它确实发生了,说明我们的假设不对,药是有效的。
这里的分析思想有些像反证法,但并不相同。
给定假设后,我们发现,一个概率很小几乎不会发生的事件却发生了,从而否定我们的“假设”。
应该指出的是,当我们作出判断“药是有效的”时,是可能犯错误的。
犯错误的概率是0.078。
也就是说,我们有近92%的把握认为药是有效的。
二、全国考纲的要求
17.统计案例
了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.
①独立检验
列联表)的基本思想、方法及简单应用.
了解独立检验(只要求22
④回归分析
了解回归分析的基本思想、方法及简单应用.
三、教学中的注意事项:
1、关于独立性。
可以先介绍独立性的概念,假设检验的思想,再讲统计案例;也可以考虑A 版的处理,不给出概率中独立性的定义,直接有统计案例讲起。
2、关于课本相关知识的思考参看A 版教学参考书。
3、充分利用Excei 表完成本节的教学。
4、对于2
K 的观测值,用B 版的两个临界值就可以了。
其他的象A 版那样可以介绍,但没必要刻意去做。
5、整体回顾统计都学习了什么内容,解决了什么样的问题。
展望本章将学习什么内容,给学生一个整体的认识。
另外,关于“统计案例”部分教学:
1、文科教师关于“统计案例”部分教学,多上研修网看有关的提示、建议。
研修网上有一些资料,希望对大家有帮助。
关于具体教学内容的处理,参看老师们写的教学简案。
如A 版,苏版,B 版(刘健吾老师给出了一种处理教材的方案)
2、此部分学探诊电子版 在网上有。
3、遇问题、提建议请多借助研修网中的“讨论区”“留言区”等。
4、如果感到把握困难,可以考虑先讲复数,有时间缓冲一下。
把相关资料进一步研究后再讲这部分内容。
-------------------------------------------------------------------------- 附:A 版教材的处理
一、关于列联表的研究和计算
分类变量:变量不同值表示不同类别。
列联表:列出两个分类变量的频数表。
可以r c ⨯表(r 行c 列的二维列联表),简单的为22⨯列联表。
例题:为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机的调查了9965人,得到如下结果(单位:人):
利用Excel 表可以进行很快的计算:(这个表格只需改动四个原始数据,其他计算及相应的图表自动生成。
回归分析也可以这样来。
)
用字母表示:
先假设:0H :吸烟与患肺癌没有关系, 应有
a c
a b c d
=++, ()()a c d c a b +≈+, 0ad bc -≈, 因此,ad bc -越小,说明吸烟与患肺癌的关系越弱;ad bc -越大,说明吸烟与患肺癌的关系越强。
构造随机变量2
2
()()()()()
n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量。
于是,若0H 成立,即“吸烟与患肺癌没有关系”,则2
K 应该很小,
上面例题中2
K 的观测值56.632K =。
二、对2
K 的观测值k 的认识 研究表明:
0H 成立的情况下,( 6.635)0.010P k ≥≈,
即在0H 成立的情况下,2
K 的观测值大于6.6356.635的概率非常小,近似于0.010,是一个小概
率事件。
(统计中常将概率小于0.05的事件成为小概率事件,)
1、例题中的观测值远大于6.635,所以有理由断定0H 不成立,即“吸烟与患肺癌有关系”。
2、这个判断会犯错误,犯错误的概率不会超过0.010。
即我们是以99%的把握认为“吸烟与患肺癌有关系”。
3、上诉过程中,依据随机变量2
K 的观测值k ,建立了一个判断0H 是否成立的规则:
如果 6.635k ≥,就判断0H 不成立,即两个分类变量有关系;否则,就判断0H 成立,即两个分类变量没有关系。
在该规则之下,把结论“0H 成立”错判成“不成立”的概率不会超过( 6.635)0.010P k ≥≈,即有
99%的把握认为0H 不成立。
4、6.635是一个常用的判断规则的临界值。
5、一般情况下,判断2
K 的观测值k 是大还是小,需要确定一个正数0k ,当0k k ≥时就认为2
K 的观测值k 大,此时相应于0k 的判断规则为:
如果0k k ≥,就认为“两个分类变量有关系”;否则就认为“两个分类变量没有关系”。
正数0k 为一个判断规则的临界值。
在此规则下,把结论“两个分类变量没有关系”错判成“两个分类变量有关系”的概率为
20()P K k ≥。
在实际应用中,我们把0k k ≥解释为有20(1())100%P K k -≥⨯的把握认为“两个分类变量有关系”;把0k k <解释为不能以20(1())100%P K k -≥⨯的把握认为“两个分类变量有关系”,或则由样本观测数值不能充分说明“两个分类变量有关系”。
6、上面这样利用随机变量2
K 来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。
7、在实际应用中,在获取样本数据之前,通常通过查阅下表确定临界值:
三、一般情况
一般的,假设有两个分类变量X 和Y ,它们的可能取值分别为12{,}x x 和12{,}y y ,其样本频数列联表(称为22⨯列联表)为:
若要推断的论述为 1H :X 与 Y 有关系, 可以按如下步骤判断成立的可能性:
1、通过三维柱形图和二维条形图,可以粗略的判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。
(1)在三维柱形图中,主对角线上两个柱形高度的成绩ad 与副对角线上高度的乘积bc 相差越大,
1H 成立的可能性就越大。
(2)在二维条形图中,可以估计满足条件1X x =的个体中具有1Y y =的个体所占的比例a
a b
+,也可以估计满足条件2X x =的个体中具有1Y y =的个体所占的比例
c c d
+。
两个比例的值相差越大,1H 成立的可能性就越大。
2、可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
具体做法如下:
(1)先根据实际问题需要的可信程度确定临界值0k ;
(2)根据观测数据计算由公式22
()()()()()
n ad bc K a b c d a c b d -=++++给出的随机变量2
K 的值k ;
(3)如果0k k ≥,就以20(1())100%P K k -≥⨯的把握认为“X 与Y 有关系”;否则就认为由样本数据没有充分的证据显示“X 与Y 有关系”。