高中数学 第三章 统计案例 2 独立性检验教学案 北师大版选修23
- 格式:doc
- 大小:332.02 KB
- 文档页数:10
独立性检验两种基本思想的解读与对比一、利用三维柱形图或二维条形图粗略地判断运用三维柱形图和二维条形图可以粗略地判断两个分类变量X与Y是否有关系,利用图形的直观性可以较好地向非专业人士解释所得到的统计分析结果.但需要注意的是:①运用两种图形法判断两个分类变量是否有关系时,作图一定要规范;②由于这两种方法无法精确地给出所得结论的可靠程度,因而只做粗略统计,而不做具体运算.例1.为考查某种药物预防疾病的效果,进行动物试验,得到如下的列联表:未患病患病总计服用药45 10 55没有服用药30 20 50总计75 30 105试用三维柱形图分析服用药和患病之间是否有关系?解:根据列联表所给的数据作出三维柱形图,如图1所示.比较说来,底面主对角线上两个柱体高度的乘积要大的多,可以在很大程度上认为“患病与是否服用药有关”.例2.在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,试用二维条形图判断色盲与性别是否有关系?解:根据题中已知数据作出如下的列联表:色盲未患色盲总计男38 442 480女 6 514 520总计44 956 1000根据列联表作出相应的二维条形图,如图2所示.从二维条形图来看,在男人中患色盲的比例38 480,要比在女人中患色盲的比例6520大,因而我们可以在很大程度上认为患色盲与性别是有关的.二、独立性检验独立性检验是用来考查两个分类变量是否具有相关关系,并且能较精确地给出这种判断的可靠程度的一种统计方法,利用这一方法,可以直接用2K的值解决实际问题.这里需特别说明的是:2K与k的关系并不是2k K=,2K是一个随机变量,它在a b c d,,,取不同的值时,2K可能不同;而k是2K的观测值,是取定一组数a、b、c、d后的一个确定的值.例3.运动员参加比赛前往往做热身运动,下表是一体育运动的研究机构对160位专业运动员追踪而得的数据,试问:由此数据,你认为运动员受伤与不做热身运动有关吗?解:由22()()()()()n ad bcKa c abcd b d-=++++2160(19207645)38.97495656496⨯⨯-⨯=≈⨯⨯⨯.因为38.974>7.879,所以有99.5%的把握说,运动员受伤与不做热身运动有关.针对训练1.研究人员选取170名青年男女大学生的样本,对他们进行一种心理测验.发现有60名女生对该心理测验中的最后一个题目的反应是:作肯定的22名,否定受伤不受伤合计做热身19 76 95不做热身45 20 65合计64 96 160的38名;男生110名在相同的项目上作肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?分别用图形和独立性检验的方法判断.2.在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个2×2的列联表;(2)判断性别与休闲方式是否有关系?参考答案1、解析:根据题目所给数据建立如下列联表:性别与态度的关系列联表肯定否定总计男生22 88 110女生22 38 60总计44 126 170相应的三维柱形图如图所示,比较来说,底面副对角线上两个柱体高度的乘积要大一些,因此可以在某种程度上认为“性别与态度有关”.根据列联表中的数据得到22170(22382288)5.622 5.0241106044126K⨯⨯-⨯=≈>⨯⨯⨯.所以有97.5%的把握认为“性别与态度有关”.2、解析:(1)依据题意“性别与休闲方式”2×2列联表为:看电视运动总计女43 27 70男21 33 54总计64 60 124(2)假设“休闲方式与性别无关”,计算22124(43332721)6.201 5.02470546460K⨯⨯-⨯=≈>⨯⨯⨯.所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”.。
2 独立性检验一、教学目标:1、通过对典型案例的探究,了解独立性检验(只要求22⨯列联表)的基本思想、方法及初步应用;2、经历由实际问题建立数学模型的过程,体会其基本方法。
二、教学重点、难点:独立性检验的基本方法是重点.基本思想的领会及方法应用是难点。
三、教学方法:讨论交流,探析归纳四、教学过程(一)、问题情境5月31日是世界无烟日。
有关医学研究表明,许多疾病,例如:心脏病、癌症、脑血管病、慢性阻塞性肺病等都与吸烟有关,吸烟已成为继高血压之后的第二号全球杀手。
这些疾病与吸烟有关的结论是怎样得出的呢?我们看一下问题:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病.问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”?(二)、学生活动为了研究这个问题,(1)引导学生将上述数据用下表来表示:(2)估计吸烟者与不吸烟者患病的可能性差异:在吸烟的人中,有3716.82%220≈的人患病,在不吸烟的人中,有217.12%295≈的人患病.问题:由上述结论能否得出患病与吸烟有关?把握有多大?(三)、探析新课1.独立性检验:(1)假设0H :患病与吸烟没有关系.若将表中“观测值”用字母表示,则得下表:患病未患病合计吸烟 a b b a +不吸烟 c d d c + 合计c a +d b +d c b a +++(近似的判断方法:设n a b c d =+++,如果0H 成立,则在吸烟的人中患病的比例与不吸烟的人中患病的比例应差不多,由此可得a ca b c d≈++,即()()0a c d c a b ad bc +≈+⇒-≈,因此,||ad bc -越小,患病与吸烟之间的关系越弱,否则,关系越强.) 设n a b c d =+++,在假设0H 成立的条件下,可以通过求 “吸烟且患病”、“吸烟但未患病”、“不吸烟但患病”、“不吸烟且未患病”的概率(观测频率),将各种人群的估计人数用,,,,a b c d n 表示出来.如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论.(四)、课堂练习:课本P90页练习题 (五)、回顾小结:吸烟与肺癌列联表a恰好为事件AB发生的频数;a+b 和a+c恰好分别为事件A和B发生的频数.由于频率近似于概率,所以在H0成立的条件下应该有a a b a cn n n++≈⨯,其中n a b c d=+++为样本容量, (a+b+c+d)≈(a+b)(a+c) , 即ad≈bc.因此,|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad -bc|越大,说明吸烟与患肺癌之间关系越强。
生活中的独立性检验独立性检验在实际生活中有广泛的应用,解决该类问题的关键是熟记公式,准确的运算。
独立性检验的基本步骤为: (1)找相关数据,作列联表;(2)求2K 2()()()()()n ad bc a b c d a c b d -=++++的值;(3)判断可能性.随机变量2K 的值越大,说明“X与Y 有关系”成立的可能性越大.例1某大型企业人力资源部为了研究企业员工工作积极性和对待企业改革态度的关系,随机抽取189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出什么结论?解:由题目中表的数据可知:a=64,b=40,c=32,d=63,a+b=94,c+d=95,a+c=86,b+d=103,n=189.代入公式得K 2=≈⨯⨯⨯⨯-⨯⨯=++++-103869594)32406354(189))()()(()(22d b d c b a c a bc ad n 10.759,因为10.759>7.879,所以有99.5%的把握说:员工“工作积极性”和“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革态度和工作积极性是有关的。
点评:首先由已知条件确定a 、b 、c 、d 、n 的数值,再利用公式求出K 2的观测值,最后与6.635比较再下结论。
例2 考察黄烟经过培养液处理与否跟发生青花病的关系,调查了457株黄烟,得到下表中的数据,请根据数据作统计分析。
培养液处理 未处理 合计 青花病 25 210 235 无青花病 80 142 222 合计105352457解析:根据公式得()22457251428021041.61235222105352K ⨯⨯-⨯=≈⨯⨯⨯由于41.6110.828>,说明黄烟经过培养液处理与否跟发生青花病是有关系的。
点评:计算2K的值与临界值的大小进行比较即可。
例3.为了研究色盲与性别的关系,调查了1000人,调查结果如下表所示:根据上述数据,试问色盲与性别是否是相互独立的?解析:由已知条件可得下表依据公式得()22100044263851427.13995644480520K⨯⨯-⨯=≈⨯⨯⨯。
高中数学 第三章 统计案例整合学案 北师大版选修2-3知识建构综合应用专题一确定回归直线方程的策略准确确定回归直线方程,有利于进一步加强数学应用意识,培养运用所学知识解决实际问题的能力,正确地求出回归直线方程是本节的重点,现介绍求回归直线方程的三种方法. 一、利用回归直线过定点确定回归直线方程回归直线方程y=a+bx 经过样本的中心(x,y)点,(x,y)称为样本点的中心,回归直线一定过此点.x -1 -2 -3 -4 -5 5 4 3 2 1 y-0.9-2-3.1-3.9-5.154.12.92.10.9A.y=0.5x-1B.y=xC.y=2x+0.3D.y=x+1 答案:B二、利用公式求a,b ,确定回归直线方程 利用公式求回归直线方程时应注意以下几点:①求b 时利用公式b=2111)())((∑∑==---ni ini i x xy y x x,先求出x =n 1(x 1+x 2+x 3+…+x n ),y =n1(y 1+y 2+ y 3+…+y n ).再由a=y -b x 求a 的值,并写出回归直线方程.②线性回归方程中的截距a 和斜率b 都是通过样本估计而来,存在着误差,这种误差可能导致预报结果的偏差.③回归直线方程y=a+bx 中的b 表示x 每增加1个单位时y 的变化量,而a 表示y 不随x 的变化而变化的量.④可以利用回归直线方程y=a+bx 预报在x 取某一个值时y 的估计值. 学科学生 A B C D E 数学成绩(x )8876736663(2)求化学成绩y 对数学成绩x 的回归直线方程. 解:(1)散点图略. (2) x =51×(88+76+73+66+63)=73.2,y =51×(78+65+71+64+61)=67.8. 所以b=251151)())((∑∑==---i i i ix xy y x x≈0.625.a=y -b x =67.8-0.625×73.2=22.05.所以y 对x 的回归直线方程为y=0.625x+22.05.三、先判定相关性,再求回归直线方程利用样本相关系数r 来判断两个变量之间是否有线性相关关系时,可以依据若|r|>0.75,我们认为有很强的线性相关关系,可以求回归直线方程,并可用求得的回归直线方程来预报变量的取值;若|r|<0.75,则认为两个变量之间的线性相关关系并不强,这时求回归直线方程没有太大的实际价值.(1)y 与x 是否具有相关关系;(2)如果y 与x 具有线性相关关系,求回归直线方程. 解:(1)由已知表格中的数据,求得x =71,y =72.3,r=2101121011)()())((∑∑∑===----i i n i ii i y y x xy y x x≈0.78.由于0.78>0.75,所以y 与x 之间具有很强的线性相关关系. (2)y 与x 具有线性相关关系,设回归直线方程为: y=a+bx,则有b=∑∑==---1012101)())((i ii i ix xy y x x=1.22,a=y -b x =72.3-1.22×71=-14.32.所以y关于x的回归直线方程为y=1.22x-14.32.专题二可线性化的回归分析一、曲线线性化的意义曲线的线性化是曲线拟合的重要手段之一,对于某些非线性的资料可以通过简单的变量替换使之线性化,这样就可以按最小二乘法原理求出变换后变量的线性回归方程,在实际工作中常利用该线性回归方程绘制资料的标准工作曲线,同时根据需要可将此线性回归方程还原成曲线回归方程,实现对曲线的拟合.二、常用的非线性函数(一)指数函数y=ae bx (1)对(1)式的两边取对数,得lny=lna+bx当b>0时,y随着x的增大而增大;当b<0时,y随着x的增大而减小.当以lny和x绘制的散点图呈直线趋势时,可考虑采用指数函数来描述y与x间的非线性关系,lna和b分别为截距与斜率.更一般的指数函数是y=ae bx+k,式中的k为一常量,往往未知,应用时可试用不同的值. (二)对数函数y=a+blnx(x>0)当b>0时,y随着x的增大而增大,先快后慢;当b<0时,y随着x的增大而减小,先快后慢,当以y和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中a和b分别为截距与斜率.更一般的对数函数是y=a+bln(x+k),式中的k为一常量,往往未知.(三)幂函数y=ax b(a>0,x>0)(2)当b>0时,y随着x的增大而增大;b<0时,y随着x的增大而减小.对(2)式的两边取对数,得lny=lna+blnx,当以lny和lnx绘制的散点图呈直线趋势时,可考虑采用对数函数描述y与x间的非线性关系,式中lna和b分别为截距与斜率.更一般的幂函数是y=ax b+k,式中的k为一常量,往往未知.以上三种模型是我们在日常生活中常遇到的曲线模型,掌握这三种模型,有利于我们研究更多的曲线拟合与回归分析的问题.三、利用线性回归拟合曲线的一般步骤(一)绘制散点图一般根据资料性质结合专业知识便可确定资料的曲线类型,不能确定时,可在方格坐标纸上绘制散点图,根据散点的分布,选择接近的、合适的曲线类型.(二)进行变量替换y′=f(y),x′=g(x)使变换后的两个变量呈线性相关关系.(三)按最小二乘法原理求线性回归方程及进行方差分析.(四)将线性化方程转换为关于原始变量x,y的回归方程.【例1】经过调查得到8个厂家同种类型的产品年新增加投资额和年利润额的数据资料,如表(1)所示.表(1) 八个厂家年新增投资额与年利润额数据资料x的增大Y也有明显的增加的趋势,因此两者之间存在着相关关系,但是这种相关关系与其用一条直线来描述倒不如用曲线描述更加合适,因此Y 与x 之间更加倾向于被认为是一种非线性关系.回归方程也需要用一些非线性函数来刻画,比如图(2) 年新增加投资额与年利润额数据的散点图图3 经过对数变换后的散点图Y=β0·e β1·x; ①或者Y=β0+β1·x 2②等等.图(3)给出的是变量lnY 与变量x 的散点图,从中可以看出这些点基本上是围绕一条直线波动,说明变量lnY 与x 之间近似是一种线性关系,从而也印证了回归方程取①形式的合理性.同时,图(3)也提示我们一种求解回归方程①的思路,即通过求解变量lnY 对x 的线性回归方程即可得到相应的①式所表示的Y 和x 的回归方程,即在图(3)中的回归直线同图(2)中的曲线(Ⅱ)是一致的.具体来说,首先对样本数据(x i ,Y i ),i=1,2,…,n 作对数变换 Z i =lnY i ,i=1,2,…,n ; ③ 然后利用最小二乘法求出变量Z 对x 的回归方程Z=a 0+a 1·x; ④即图(3)中的直线方程,则相应的形如①式的Y 对x 的回归方程是 Y=e z =e a0·e a1x; ⑤即β0=e a0,β1=a 1.利用表(1)中给出的数据,可以得到lnY 对x 的线性回归方程是 Z=1.314+0.100x由此可得Y 对x 的回归方程是Y=3.720 5·e 0.100x; ⑥如果采用形如②式的抛物线型回归方程,容易看出,令ω=x 2,②式就是表示了变量Y 对ω的线性回归方程:Y=β0+β1·ω; ⑦所以,对样本数据做变换ωi =x i 2(i=1,2,…,n ),利用(ωi ,Y i )(i=1,2,…,n )求解出⑦中的系数估计值β0、β1代入②式即得到Y 对x 的回归方程. 对表(1)中的数据计算结果为Y=4.413+0.057x 2; ⑧ 专题三独立性检验的基本方法判断结论成立的可能性的一般步骤:(1)假设两个分类变量X 和Y 没有关系; (2)给定一个显著水平,查表给出临界值;(3)计算χ2=;))()()(()(2d b d c b a c a bc ad n ++++-(4)若χ2大于临界值,则认为x 与y 有关系,否则没有充分的理由说明这个结论不成立随机抽取189名员工进行调查,所得数据如下表所示:对于人力资源部的研究项目,根据上述数据能得出什么结论?分析:首先由已知条件确定a ,b ,c ,d ,n 的数值,再利用公式求出χ2的观测值,最后与临界值比较再下结论. 解:由题目中表的数据可知:a=54,b=40,c=32,d=63,a+b=94,c+d=95,a+c=86,b+d=103,n=189.代入公式得χ2=103869594)32406354(1892⨯⨯⨯⨯-+⨯≈10.759.因为10.759>6.635,所以有99%的把握认为员工“工作积极”与“积极支持企业改革”是有关的,可以认为企业的全体员工对待企业改革态度和工作积极性是有关的.【例2】在一次恶劣气候的飞行航程中调查男女乘客晕机的情况如下表所示,根据此资料您χ2=57323455)8312624(892⨯⨯⨯⨯-⨯⨯≈3.689.因为3.689>2.706,所以有90%的把握认为此次飞行中晕机与否跟男女性别有关. 几点注意:(1)在列联表中注意各项的对应及有关值的确定,避免混乱. (2)若要判断X 与Y 有关时,先假设X 与Y 无关.(3)把计算出的χ2的值与相关的临界值作比较,确定出“X 与Y 有关系”的把握.科海观潮 相关与相关系数一、什么是相关事物总是相互联系的,它们之间的关系多种多样,分析起来,大概有以下几种情况:(1)一种是因果关系,即一种现象是另一种现象的因,而另一种现象则是果.例如学习的努力程度是学习成绩好坏的因(至少是部分的因);在一定刺激强度范围内,刺激强度经常是反应强度的因等.(2)第二种是共变关系,即表面看来有联系的两种事物都与第三种现象有关,这时两种事物之间的关系,便是共变关系.例如春天出生的婴儿与春天栽种的小树,就其高度而言,表面上看来都在增长,好像有关,其实,这二者都是受时间因素影响在发生变化,在它们本身之间并没有直接的关系.(3)第三种是相关关系,即两类现象在发展变化的方向与大小方面存在一定的关系,但不能确定这两类现象之间哪个是因,哪个是果;也有理由认为这两者并不同时受第三因素的影响,即不存在共变关系.具有相关关系的两种现象之间,关系是复杂的,甚至可能包含有暂时尚未认识的因果关系及其共变关系在内.例如,同一组学生的语文成绩与数学成绩的关系,即属于相关关系.统计学中所讲的相关是指具有相关关系的不同现象之间的关系程度.相关的情况有以下三种:一是两列变量变动方向相同,即一列变量变动时,另一列变量亦同时发生或大或小与前一列变量同方向的变动,这称为正相关.如身高与体重的关系,一般讲身长越长体重就越重.第二种相关情况是负相关,这时两列变量中若有一列变量变动时,另一列变量呈或大或小,但与前一列变量指向相反的变动.例如初学打字时练习次数越多,出现错误的量就越少等.第三处相关情况是零相关,即两列变量之间无关系.这种情况下,一列变量变动时,另一列变量作无规律的变动.如学习成绩优劣与身高之间的关系,就属零相关,即无相关关系,二者都是独立的随机变量.二、相关系数相关系数是两列变量间相关程度的数字表现形式,或者说是表示相关程度的指标,作为样本间相互关系程度的统计特征数,常用r表示,作为总体参数,一般用ρ表示,并且是指线性相关而言.相关系数的取值介于-1.00至+1.00之间,常用小数形式表示.它只是一个比率,不代表相关的百分数,更不是相关量的相等单位的度量.相关系数的正负号,表示相关方向,正值表示正相关,负值表示负相关.相关系数取值的大小表示相关的程度.相关系数为0时,称零相关即毫无相关,为1.00时,表示完全正相关,相关系数为-1.00时,为完全负相关.这二者都是完全相关.如果相关系数的绝对值在1.00与0之间不同时,则表示关系程度不同.接近1.00端一般为相关程度密切,接近0端一般为关系不够密切.(注意:若是非线性相关关系,而且直线相关计算r值可能很小,但不能说两变量关系不密切)关于这一点如何判定,尚需考虑计算相关系数时样本数目的多少.如果样本数目较少,受取样偶然因素的影响较大,很有可能本来无关的两类事物,却计算出较大的相关系数来.例如欲研究身高与学习有无关系,如果只选3、5个人,很可能遇到身材愈高学习愈好这一类偶然现象,这时虽然计算出的相关系数可能接近 1.00,但实际上这两类现象之间并无关系.究竟如何综合考虑样本数目大小,相关系数取值大小而判定相关是否密切这一问题,一般要经过统计检验后方能确定.相关系数不是等距的度量值,因此在比较相关程度时,只能说绝对值大者比绝对值小者相关更密切一些,如只能说相关系数r=0.50的两列数值比相关系数r=0.25的两列数值之间的关系程度更密切,而绝不能说前二者的密切程度是后二者密切程度的两倍.也不能说相关系数从0.25到0.50与从0.50到0.75所提高的程度一样多.存在相关关系,即相关系数取值较大的两类事物之间,不一定存在因果关系,这一点要从事物的本质方面进行分析,绝不可简单化.计算相关系数一般要求成对的数据,即若干个体中每个个体要有两种不同的观测值.例如每个学生(智力相同者)的算术和语文成绩;每个人的视反应和听反应时;每个学生的智力分数与学习成绩等等.任意两个个体之间的观测值不能求相关.计算相关的成对数据的数目,一般以30以上为宜.。
课时教案科目:数学授课时间:第周星期年月日(一)、学生活动练习:(1)某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该收集哪些数据?.(2)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:为了判断主修统计专业是否与性别有关系,根据表中的数据,得到2χ250(1320107)4.84423272030⨯⨯-⨯=≈⨯⨯⨯,∵χ2 3.841≥,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为.(答案:5%)附:临界值表(部分):(二)运用探析1、例题:例1、在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动。
(1)根据以上数据建立一个2× 2列联表;(2)判断性别与休闲方式是否有关系。
解:(1)2× 2的列联表:(2)假设“休闲方式与性别无关”2χ2124(43332721)6.20170546460⨯⨯-⨯=≈⨯⨯⨯因为2χ 5.024≥,所以有理由认为假设“休闲方式与性别无关”是不合理的,即有97.5%的把握认为“休闲方式与性别有关”。
例2、气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示.问它们的疗效有无差异(可靠性不低于99%)?分析:由列联表中的数据可知,服用复方江剪刀草的患者的有效率为75%245≈,服用胆黄片的患者的有效率为9191%100=,可见,服用复方江剪刀草的患者与服用胆黄片的患者的有效率存在较大差异.下面用2χ进行独立性检验,以确定能有多大把握作出这一推断.解:提出假设H:两种中草药的治疗效果没有差异,即病人使用这两种药物中的何种药物对疗效没有明显差异。
当0H 成立时,210.828χ≥的概率约为0.001,而这里211.09810.828χ≈> 所以我们有99.9%的把握认为:两种药物的疗效有差异。
§2 独立性检验[对应学生用书P40]1.2×2列联表设A ,B 为两个变量,每个变量都可以取两个值,变量A :A 1,A 2=A -1;变量B :B 1,B 2=B -1,用下表表示抽样数据并将此表称为2.χ2的计算公式 χ2=n ad -bc 2a +bc +d a +cb +d.3.独立性判断的方法(1)当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的;(2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联.(1)独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断.(2)使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性.[对应学生用书P41][例1] 在调查的6名患有色盲,试作出性别与色盲的列联表.[思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后出相应的数据,列表即可.[精解详析] 根据题目所给的数据作出如下的列联表:[一点通]1.下面是一个2×2列联表:则表中a ,b 处的值分别为( )A.32,40 C .74,82D .64,72解析:a =53-21=32,b =a +8=40. 答案:A2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×2列联表.解:列联表如下:[例2] (8分)该地区调查了500位老年人,结果如下:(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?[思路点拨] 解答本题先分析列联表数,后计算χ2,再与临界值比较,判断两个变量是否相互独立.[精解详析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%. 分)(2)χ2=-2200×300×70×430≈9.967.分)因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关.分)[一点通] 这类问题的解决方法为先确定a,b,c,d,n的值并求出χ2的值,再与临界值相比较,作出判断,解题时注意正确运用公式,代入数据准确计算.3.在一个2×2列联表中,通过数据计算χ2=8.325,则这两个变量间有关系的可能性为________.答案:99%4.某高校《统计初步》课程的教师随机调查了选该课的学生的一些情况,具体数据如下表:则χ2≈________,有 解析:χ2=-220×30×23×27≈4.844>3.841,故有95%的把握认为主修统计专业与性别有关.答案:4.844 95%5.(福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?附:χ2=a +bc +d a +cb +d解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),25周岁以下组工人有40×0.05=2(人).从中随机抽取2名工人,记至少抽到一名25周岁以下组工人的事件为A ,故P (A )=1-C 23C 25=710,故所求概率为710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:所以得χ2=a +bc +d a +cb +d=260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.独立性检验的基本步骤: 1.列出2×2列联表. 2.求出χ2=n ad -bc 2a +ca +b b +dc +d.3.判断是否有关联,得出事件有关的可能性大小.[对应课时跟踪训练十七1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到下表:由χ2=n ad -bc 2a +bc +d a +cb +d算得,χ2=-260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99.9%以上的把握认为“爱好该项运动与性别有关”B.有99.9%以上的把握认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动和性别有关”D.有99%以上的把握认为“爱好该项运动和性别无关”解析:因为χ2=7.8>6.635,所以有99%以上的把握认为有关.答案:C2.下面是2×2列联表:则表中a,bA.94、96 B.52、50C.52、54 D.54、52解析:a=73-21=52,b=100-46=54,故选C.答案:C3.高二第二学期期中考试,对甲、乙两个班级学生的数学考试成绩按照优秀和不优秀统计人数后,得到2×2列联表,则随机变量χ2的值为( )班级与成绩统计表A.0.600 B.0.828C.2.712 D.6.004解析:随机变量χ2=-219×71×45×45≈0.600,故选A.答案:A4.(江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1表2表3A.成绩B.视力C.智商D.阅读量解析:因为χ21=-216×36×32×20=52×8216×36×32×20,χ22=-216×36×32×20=52×112216×36×32×20,χ23=-216×36×32×20=52×96216×36×32×20,χ24=-216×36×32×20=52×408216×36×32×20,则有χ24>χ22>χ23>χ21,所以阅读量与性别关联的可能性最大.答案:D5.在独立性检验中,统计量χ2有两个临界值:3.841和6.635.当χ2>3.841时,有95%的把握说明两个事件有关,当χ2>6.635时,有99%的把握说明两个事件有关,当χ2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病关系的调查中,共调查了2 000人,经计算得χ2=20.87,根据这一数据分析,下列关于打鼾与患心脏病之间关系的说法,正确的是________.①有95%的把握认为两者有关;②约有95%的打鼾者患心脏病;③有99%的把握认为两者有关;④约有99%的打鼾者患心脏病.解析:χ2=20.87>6.635,有99%的把握说明两个事件有关,但只是估计,不能肯定什么.答案:③6.为探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后14天内的结果如下表所示:在研究小白鼠的死亡与剂量是否有关时,根据以上数据求得χ2=________. 解析:χ2=-220×30×25×25≈5.333.答案:5.3337.为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查,得到如下数据:判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解:由公式求得χ2=-286×103×94×95≈38.459.∵38.459>6.635,∴有99%的把握认为数学成绩的好坏与对学习数学的兴趣有关.8.现对某市工薪阶层关于“楼市限购政策”的态度进行调查,随机抽查了50人,他们月收入(单位:百元)的频数分布及对“楼市限购政策”的赞成人数如下表:5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异;(2)“楼市限购政策”的概率.解:(1)由题意得2×2列联表:假设月收入以5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度没有差异,根据列联表中的数据,得到:χ2=-210×40×32×18≈6.272<6.635,所以没有99%的把握认为当月收入以5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异.(2)已知在收入[55,65)中共有5人,2人赞成,3人不赞成,设至少有一个不赞成楼市限购政策为事件A ,则P (A )=1-C 22C 25=910.故所求概率为910.。
第三章统计案例小结与复习一、教学目标:会利用散点图和线性回归方程,分析变量间的相关关系;掌握独立性检验的步骤与方法。
二、教学重难点:会利用散点图和线性回归方程,分析变量间的相关关系;掌握独立性检验的步骤与方法。
三、教学方法:探析归纳,讲练结合 四、教学过程(一)、知识归纳与梳理 1、线性回归:(1)相关关系:自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系。
注:与函数关系不同,相关关系是一种非确定性关系。
(2)回归分析:对具有相关关系的两个变量进行统计分析的方法。
(3)散点图:表示具有相关关系的两个变量的一组数据的图形。
(4)回归直线方程:a bx y +=,其中⎪⎪⎩⎪⎪⎨⎧-=--=∑∑==x b y a x n x y x n y x b n i i ni i i 2121, ∑==n i i x n x 11。
相应的直线叫回归直线,对两个变量所进行的上述统计叫做回归分析。
(5)相关系数:)()(21221211y n y x n x yx n yx r ni i n i i ni ii ---=∑∑∑====相关系数的性质:(1)|r|≤1。
(2)|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小。
2、独立性检验①22⨯列联表:列出的两个分类变量X 和Y ,它们的取值分别为12{,}x x 和12{,}y y 的样本频数表称为22⨯列联表1构造随机变量2χ()()()()()2n ad bc a b c d a c b d -=++++(其中n a b c d =+++)得到2χ常与以下几个临界值加以比较:如果 2 2.706χ>,就有0090的把握因为两分类变量X 和Y 是有关系; 如果 2 3.841χ> 就有0095的把握因为两分类变量X 和Y 是有关系; 如果 2 6.635χ> 就有0099的把握因为两分类变量X 和Y 是有关系; 如果22.706χ≤,就认为没有充分的证据说明变量X 和Y 是有关系. (二)、典例探析例1、一个工厂在某年里每月产品的总成本y (万元)与该月产量x (万件)之间由如下一组数据:归直线方程. 解: 1)画出散点图:x2)r=∑∑∑===---1211212222121)12)(12(12i i i i i ii y y x x yx yx=18.534.1754.243120.997891-⨯⨯=在“相关系数检验的临界值表”查出与显著性水平0.05及自由度12-2=10相应的相关数临界值r 0 05=0.576<0.997891, 这说明每月产品的总成本y (万元)与该月产量x (万件)之间存在线性相关关系.3)设回归直线方程a bx y+=ˆ, 利用⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=∑∑==xb y a x x y x y x b i i i i i 121221211212,计算a ,b ,得b≈1.215, a=x b y -≈0.974,∴回归直线方程为:974.0215.1ˆ+=x y例2、在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人。
2 独立性检验学习目标 1.理解2×2列联表,并会依据列联表判断两个变量是否独立.2.理解统计量χ2的意义和独立性检验的基本思想.知识点一2×2列联表思考某教育行政部门大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表:如何判定“喜欢体育还是文娱与性别是否有联系”?梳理设A、B为两个变量,每一变量都可以取两个值,得到表格.其中,a表示变量A取 ________,且变量B取 ________时的数据,b表示变量A取 ________,且变量B取 ________时的数据;c表示变量A取 ________,且变量B取 ________时的数据;d表示变量A取 ________,且变量B取 ________时的数据.上表在统计中称为2×2列联表.知识点二统计量χ2=________________________.(其中n=a+b+c+d为样本容量)知识点三独立性检验当χ2≤2.706时,没有充分的证据判定变量A,B________;当χ2>2.706时,有__________的把握判定变量A,B有关联;当χ2>3.841时,有__________的把握判定变量A,B有关联;当χ2>6.635时,有__________的把握判定变量A,B有关联.类型一2×2列联表和统计量χ2例1 某企业为了更好地了解设备改造与生产合格品的关系,随机抽取了180件产品进行分析,其中设备改造前生产的合格品有36件,不合格品有49件;设备改造后生产的合格品有65件,不合格品有30件,请根据数据,列出2×2列联表,并说明可以用本列表研究什么问题?反思与感悟2×2列联表将文字语言转换为图表语言,使问题更为清晰,可为进一步研究问题作充分的准备.跟踪训练1 已知药物效果与动物试验列联表如下所示:则χ2≈________.(结果保留3位小数)类型二独立性检验的方法例2 研究人员选取170名青年男、女大学生作为样本,对他们进行一种心理测验,发现有60名女生对该心理测验中的最后一个题目的反应是:肯定的有22名,否定的有38名;男生110名在相同的题目上肯定的有22名,否定的有88名.问:性别与态度之间是否存在某种关系?用独立性检验的方法判断.反思与感悟独立性检验可以通过2×2列联表计算χ2的值,然后和临界值对照作出判断.跟踪训练2 为了研究人的性别与患色盲是否有关系,某研究所进行了随机调查,发现在调查的480名男性中有39名患有色盲,520名女性中有6名患有色盲,试问人的性别与患色盲有关系吗?1.当χ2>3.841时,认为事件A与事件B( )A.有95%的把握有关B.有99%的把握有关C.没有理由说它们有关D.不确定2.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校中学生中随机抽取了300名学生,得到如下列联表:你认为性别与是否喜欢数学课程之间有关系的把握有( )A.0 B.95% C.99% D.100%3.某大学在研究性别与职称(分正教授、副教授)之间是否有关系时,你认为应该收集哪些数据?4.2014年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否喜欢西班牙队进行调查,对高于40岁的调查了50人,不高于40岁的调查了50人,所得数据制成如下列联表:若工作人员从所有统计结果中任取一个,取到喜欢西班牙队的人的概率为35,则有超过________的把握认为年龄与西班牙队的被喜欢程度有关.5.某省进行高中新课程改革已经四年了,为了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查,共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)判断是否有99%的把握说明对新课程教学模式的赞同情况与教师年龄有关系.1.独立性检验的思想:先假设两个事件无关,计算统计量χ2的值.若χ2值较大,则拒绝假设,认为两个事件有关.2.独立性检验的步骤(1)画列联表.(2)计算χ2.(3)将得到的χ2值和临界值比较,下结论.答案精析问题导学知识点一思考可通过表格与图形进行直观分析,也可通过统计分析定量判断.梳理a+b c+d a+c b+d a+b+c+d A1B1A1B2A2B1A2B2知识点二n ad -bc2a +b c+d a+c b+d知识点三有关联90% 95% 99%题型探究例1 解根据题意列出2×2列联表如下:通过研究此2×2列联表可以研究设备改造对产品合格率是否有影响.跟踪训练1 6.109解析χ2=-230×75×55×50≈6.109.例2 解根据题目所给数据建立如下2×2列联表:根据2×2列联表中的数据,得χ2=-2110×60×44×126≈5.622>3.841,所以有95%的把握认为性别与态度有关系.跟踪训练2 解由题意列出2×2列联表:由公式得χ2=-2480×520×45×955≈28.225.因为28.225>6.635,所以有99%的把握认为人的性别与患色盲有关系.当堂训练1.A 2.B3.女正教授人数、男正教授人数、女副教授人数、男副教授人数4.95%5.解(1)2×2列联表如下所示:(2)假设“对新课程教学模式的赞同情况与教师年龄无关”.由公式,得χ2=-234×16×20×30≈4.963<6.635,所以没有99%的把握认为对新课程教学模式的赞同情况与教师年龄有关.。
第三章统计案例§1回归分析1.1 回归分析(教师用书独具)●三维目标1.知识与技能(1)了解回归分析的基本思想,会对两个变量进行回归分析.(2)明确建立回归模型的基本步骤,并对具体问题进行回归分析.(3)会解决实际问题.2.过程与方法(1)通过实际问题去理解回归分析的必要性,明确回归分析的基本思想.(2)从散点图中的点的分布上,发现直接求回归直线方程存在明显不足,从中引导学生去发现解决问题的新思路——进行回归分析.3.情感、态度与价值观(1)培养学生用整体的观点和互相联系的观点,来分析问题.(2)进一步加强数学的应用意识,培养学生学好数学、用好数学的信心.(3)加强与现实生活中的联系,以科学的态度评价两个变量的相关关系.●重点难点重点:掌握回归分析的步骤、相关系数、建立回归模型的步骤;体会有些非线性模型通过变换,可以转化为线性回归模型;在解决实际问题的过程中寻找更好的建型方法.难点:求线性回归方程的系数a,b;相关系数;选择不同的模型建模.回归分析主要是研究两个变量间的关系,是在必修三的基础上学习,教材的1.1回归分析是复习必修三的内容,为了使建立回归方程有意义,提出了相关系数,这与回归直线中b的系数有关联,教师可通过实例,让学生了解相关系数的大小与线性相关的关系;在现实中又有一种非线性的相关性,如何解决引导学生转化为线性关系,主要通过数形结合思想、函数思想,使问题化归为线性关系,教学中可通过提醒、猜想、练习等方法,使学生掌握本节的重点内容.(教师用书独具)●教学建议建议本节课用3课时讲解完成.教学中通过组织学生自己动手操作计算、观察、分析、交流、讨论、归纳让他们在探究学习中经历知识形成的全过程,从而形成“自主探究、合作交流”的数学学习方法.教师在课堂上可以用计算机软件进行参数的估计、相关系数的计数,让学生掌握利用计算器进行线性回归方程的求解和评价.●教学流程第1课时以实际问题作为课题引入.⇒回顾建立回归直线方程的基本步骤.⇒通过实例巩固、体验线性回归直线方程的求法及应用.⇒第2课时提出新问题,如何用其他方法刻画变量之间的线性相关.⇒师生共同探究,得出相关系的概念及相关系数的大小与线性相关之间的关系.⇒通过例题,巩固验证相关系数刻画变量之间的线性相关的特点.⇒第3课时引导学生探究如果不是线性回归模型,如何估计参数,能否利用线性回归模型.⇒对数据进行分析变换后,对新数据建立线性模型.⇒转化为原来变量模型,得出结论,总结建模思想,补充拓展.⇒课堂小结并完成当堂双基达标,巩固本节所学知识.课标解读 1.通过实例掌握回归分析的基本思想方法.2.利用最小二乘法会求线性回归直线方程,并能用线性回归直线方程进行预报.变量之间的相关关系【问题导思】1.正方形的面积S 与其边长a 是什么关系?圆的周长l 与半径r 是什么关系? 【提示】 ∵S =a 2,l =2πr , ∴它们都是确定的函数关系.2.父亲的身高与儿子的身高之间有何关系?耕种深度与水稻产量之间有何关系? 【提示】 非确定关系.1.变量之间有一定的联系,但不能完全用函数来表达.如人的体重y 与身高x .一般来说,身高越高,体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.相关关系是非确定性关系,因变量的取值具有一定的随机性.2.在考虑两个变量的关系时,为了对变量之间的关系有一个大致的了解,人们通常将变量所对应的点描出来,这些点就组成了变量之间的一个图,通常把这种图叫作变量之间的散点图.线性回归方程【问题导思】1.确定线性回归方程,只需得出哪两个量?【提示】 确定线性回归直线方程,只需确定a ,b 两个量即可.2.在线性回归方程y =a +bx 中,当一次项系数b 为正数时,说明两个变量有何相关关系?在散点图上如何反映? 【提示】 说明两个变量正相关,在散点图上自左向右看这些点呈上升趋势.假设样本点为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),设线性回归方程为y =a +bx ,要使这n 个点与直线y =a +bx 的“距离”平方之和最小,即使得Q (a ,b )=(y 1-a -bx 1)2+(y 2-a -bx 2)2+…+(y n -a -bx n )2达到最小,a ,b 需满足b =∑nb =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x .由数据求线性回归方程已知x ,y 之间一组数据:x 0 1 2 3 y1357(1)分别计算:x 、y 、x 1y 1+…+x 4y 4,x 21+x 22+…+x 24; (2)求出线性回归方程y =bx +a .【思路探究】 可利用表格的数直接计算,然后把这些结果代入线性回归方程系数公式,分别求得a ,b ,再求出线性回归方程. 【自主解答】 (1)x =0+1+2+34=1.5,y =1+3+5+74=4,x 1y 1+…+x 4y 4=0×1+1×3+2×5+3×7=34,x 21+x 22+…+x 24=02+12+22+32=14;(2)b =x 1y 1+x 2y 2+x 3y 3+x 4y 4-4x yx 21+x 22+x 23+x 24-4x 2=34-4×1.5×414-4×1.52=2;a =y -b x =4-2×1.5=1.故y =2x +1.答:(1)所求的值分别为:1.5,4,34,14; (2)所求的线性回归方程是:y =2x +1.求线性回归方程的步骤:(1)列表求出x ,y ,∑ni =1x 2i ,∑ni =1x i y i ;(2)利用公式b =∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x ,求出b ,a ;(3)写出线性回归方程.观察两相关量得如下数据:x -1 -2 -3 -4 -5 5 3 4 2 1 y-9-7-5-3-115379求两变量间的回归方程. 【解】 列表i 12345678910 x i-1-2-3-4-55342 1 y i-9-7-5-3-115379 x2i1491625259164 1 x i y i9141512551512149由此可得x=0,y=0,∑10i=1x2i=110,∑10i=1x i y i=110,b=∑10i=1x i y i-10x y∑10 i=1x2i-10x2=110-10×0110-10×0=1,a=y-b x=0,∴所求回归方程为y=x.求实际问题的回归方程某企业想通过做广告来提高自己的知名度,经预测可知本企业产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:x 24568y 3040605070(1)判断y与x是否具有线性相关关系;(2)求回归直线方程.【思路探究】先画出散点图,即可判断y与x是否具有相关关系,如果y与x具有相关关系可将有关数据代入公式求得回归直线方程.【自主解答】(1)散点图如图所示:根据散点图可知,所给的数据点都在一条直线的附近,所以y与x具有线性相关关系.(2)列出下表,并且科学地的进行有关计算.i 1234 5x i24568y i3040605070x i y i60160300300560x=5,y=50,∑5 i=1x2i=145,∑5i=1y2i=135 000,∑5i=1x i y i=1 380于是可得,b=∑5i=1x i y i-5x y∑5 i=1x2i-5x2=1 380-5×5×50145-5×52=6.5,a=y-b x=50-6.5×5=17.5,于是所求的回归直线方程是y=6.5x+17.5.对一级数据进行线性回归分析时,应先画出其散点图,看其是否呈直线形,再依系数a、b的计算公式,算出a、b.由于计算量较大,所以在计算时应借助技术手段,认真细致,谨防计算中产生错误.某医院用光电比色计检验尿汞时,得尿汞含量(毫克/升)与消光系数如下表:汞含量x 2 4 6 8 10 消光系数y64138205285360(1)作散点图;(2)如果y 与x 之间具有线性相关关系,求线性回归方程. 【解】 (1)散点图如图.(2)由散点图可知,y 与x 呈相关关系,设线性回归方程为:y =bx +a .经计算:得x =6,y =210.4,∑5i =1x 2i =220,∑5i =1x i y i =7 790.∴b =7 790-5×6×210.4220-5×62=36.95, a =210.4-36.95×6=-11.3.∴线性回归方程为y =36.95x -11.3.利用回归直线方程进行统计某商场经营一批进价是30元/台的小商品,在市场试验中发现,此商品的销售单价x (x 取整数)元与日销售量y 台之间有如下关系:x 35 40 45 50 y 56 41 28 11(1)画出散点图,并判断y 与x 是否具有线性相关关系; (2)求日销售量y 对销售单价x 的线性回归方程;(3)设经营此商品的日销售利润为P 元,根据(2)写出P 关于x 的函数关系式,并预测当销售单价x 为多少元时,才能获得最大日销售利润.【思路探究】 两个变量呈现近似的线性关系,可通过公式计算出其线性回归方程,并根据方程求出其预测值.【自主解答】 (1)散点图如图所示,从图中可以看出这些点大致分布在一条直线附近,因此两个变量线性相关.(2)∵x =14×(35+40+45+50)=42.5,y =14×(56+41+28+11)=34,∑4i=1x i y i=35×56+40×41+45×28+50×11=5 410,∑4i=1x2i=352+402+452+502=7 350,∴b=∑4i=1x i y i-4x·y∑4 i=1x2i-4x2=5 410-4×42.5×347 350-4×42.52=-370125=-2.96.∴a=y-b x=34-(-2.96)×42.5=159.8.∴y=-2.96x+159.8.(3)依题意有P=(-2.96x+159.8)(x-30)=-2.96x2+248.6x-4 794,∴当x=248.62×2.96≈42时,P有最大值,约为426,即预测销售单价为42元时,能获得最大日销售利润.1.b=-2.96是斜率的估计值,说明单价每增加一个单位,日销售量就减少2.96. 2.借助于回归方程对实际问题的估计值是个近似值,不是一个准确值.假设关于某设备的使用年限x 和所支出的维修费y (万元)有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0若由资料可知y 对x 呈线性相关关系. (1)求线性回归方程;(2)估计使用年限为10年时,维修费用是多少万元? 【解】 (1)列表如下:ix iy ix 2ix i y i1 2 2.2 4 4.4 2 3 3.8 9 11.4 3 4 5.5 16 22.0 4 5 6.5 25 32.5 5 6 7.0 36 42.0 ∑202590112.3由此可得:x =4,y =5.进而可以求得b =∑5i =1x i y i -5x y∑5i =1x 2i -5x2=1.23,a =y -b x =0.08.∴线性回归方程为y =0.08+1.23x .(2)当x =10时,y =0.08+1.23×10=12.38(万元),即估计使用10年时维修费用是12.38万元.数形结合思想在回归分析中的应用(12分)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨标准煤)与相应的生产能耗y(吨标准煤)的几组对照数据.x 345 6y 2.534 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a;(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)【思路点拨】(1)可直接由表格提供的点,列出散点图;(2)可利用线性回归方程中a,b公式直接求解;(3)直接用方程来估计所求值.【规范解答】(1)图形如图所示.3分(2)x =3+4+5+64=4.5;y =2.5+3+4+4.54=3.5;∑4i =1x i y i =3×2.5+4×3+5×4+6×4.5=66.5.∑4i =1x 2i =32+42+52+62=86. 6分∴b =∑4i =1x i y i -4x ·y ∑4i =1x 2i -4x2=66.5-4×4.5×3.586-4×4.52=0.7, 8分 a =y -b x =3.5-0.7×4.5=0.35. 9分∴y =0.7x +0.35. 10分 (3)现在生产100吨甲产品用煤y =0.7×100+0.35=70.35,∴降低90-70.35=19.65吨标准煤. 12分线性回归方程的应用(1)描述两变量间的依存关系;(2)利用回归方程可进行预测;(3)利用回归方程还可以进行统计控制.1.作回归分析要有实际意义.2.回归分析前,最好先做出散点图.3.应用回归分析预测时,最好先作出散点图.1.下列说法正确的是( )A.任何两个变量都具有相关关系B.球的体积与该球的半径具有相关关系C.农作物的产量与施化肥量之间是一种确定性的关系D.某商品的生产量与该商品的销售价格之间是一种非确定性的关系【解析】两个变量之间的关系有两种,即函数关系与相关关系,故A错误.B中球的体积与该球的半径是函数关系.C中农作物的产量与施化肥量之间不是严格的函数关系,但是具有相关关系,因而是非确定性的关系.D中商品的生产量还和市场需求有关,故商品的生产量与该商品的销售价格之间是非确定性的关系.故选D.【答案】 D2.一位母亲记录了儿子3岁~9岁的身高(数据略),由此建立的身高y(单位:cm)与年龄x(单位:岁)的回归模型为y=7.19x+73.93.用这个模型预测这个孩子10岁时的身高,则下列叙述正确的是( )A.身高一定是145.83 cmB.身高在145.83 cm以上C.身高在145.83 cm以下D.身高在145.83 cm左右【解析】x=10时,y=7.19×10+73.93=145.83,但这是预测值而不是精确值,所以只能选D.【答案】 D3.在一次实验中,测得(x,y)的四组值分别是A(1,2),B(2,3),C(3,4),D(4,5),则y与x之间的线性回归方程为________.【解析】通过检验A,B,C,D四点共线,都在直线y=x+1上.【答案】y=x+14.已知一个回归直线方程为y=1.5x+45,x∈{1,7,5,13,19},求y.【解】由已知可知:x=1+7+5+13+195=9.又∵回归直线过点(x,y),∴y =1.5x +45,即y =1.5×9+45=58.5.一、选择题1.对具有线性相关关系的两个变量建立的线性回归方程y =a +bx 中,回归系数b ( ) A .可以小于0 B .只能大于0 C .可能等于0D .只能小于0【解析】 b 可能大于0,也可能小于0,但当b =0时,x ,y 不具有线性相关关系. 【答案】 A2.下列两个变量间的关系不是函数关系的是( ) A .正方体的棱长与体积 B .角的弧度数与它的正弦值C .单产为常数时,土地面积与粮食总产量D .日照时间与水稻亩产量【解析】 ∵A 、B 、C 都可以得出一个函数关系式,而D 不能写出确定的函数关系式,它只是一个不确定关系. 【答案】 D3.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y =bx +a 中的b 为9.4,据此模型预报广告费用为6万元时销售额为( ) A .63.36万元 B .65.5万元 C .67.7万元D .72.0万元【解析】 x =4+2+3+54=3.5,y =49+26+39+544=42,∴a=y-b x=42-9.4×3.5=9.1,∴回归方程为y=9.4x+9.1,∴当x=6时,y=9.4×6+9.1=65.5,故选B.【答案】 B4.由一组样本数据(x1,y1),(x2,y2),…,(x n,y n)得到回归直线方程y=bx+a,那么下列说法中不正确的是( ) A.直线y=bx+a必经过点(x,y)B.直线y=bx+a至少经过点(x1,y1)(x2,y2),…,(x n,b n)中的一个点C.直线y=bx+a的斜率为∑ni=1x i y i-n x·y∑ni=1x2i-n x2D.直线y=bx+a的纵截距为y-b x【解析】回归直线可以不经过任何一个点.其中A:由a=y-b x代入回归直线方程y=bx+y-a x,即y=b(x-x)+y过点(x,y).∴B错误.【答案】 B5.已知两个变量x和y之间具有线性相关性,甲、乙两个同学各自独立地做了10次和15次试验,并且利用线性回归的方法求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均数都为s,对变量y的观测数据的平均数都是t,则下列说法正确的是( )A.l1与l2一定有公共点(s,t)B.l1与l2相交,但交点一定不是(s,t)C.l1与l2必定平行D.l1与l2必定重合【解析】由于回归直线y=bx+a恒过(x,y)点,又两人对变量x的观测数据的平均值为s,对变量y的观测数据的平均值为t,所以l1和l2恒过点(s,t).【答案】 A二、填空题6.从某大学随机选取8名女大学生,其身高x(cm)和体重y(kg)的线性回归方程为y=0.849x-85.712,则身高172 cm的女大学生,由线性回归方程可以预测其体重约为________.【解析】将x=172代入线性回归方程y=0.849x-85.712,有y=0.849×172-85.712=60.316(kg).【答案】60.316 kg7.面对竞争日益激烈的消费市场,众多商家不断扩大自己的销售市场,以降低生产成本.某白酒酿造企业市场部对该企业9月份的产品销量(单位:千箱)与单位成本的资料进行线性回归分析,结果如下:x=72,y=71,∑6i=1x2i=79,∑6i=1x i y i=1 481.b =1 481-6×72×7179-6×722≈-1.818 2,a =71-(-1.818 2)×72≈77.36,则销量每增加1 000箱,单位成本下降________元.【解析】 由上表可得,y =-1.818 2x +77.36,销量每增加1千箱,则单位成本下降1.818 2元. 【答案】 1.818 28.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y =0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 【答案】 0.254 三、解答题9.某电脑公司有6名产品推销员,其工作年限与年推销金额数据如下表:推销员编号 1 2 3 4 5 工作年限x /年 3 5 6 7 9 推销金额y /万元23345(1)求年推销金额y 关于工作年限x 的线性回归方程;(2)若第6名推销员的工作年限为11年,试估计他的年推销金额. 【解】 (1)设所求的线性回归方程为y =bx +a ,则b =∑i =15x i -xy i -y∑i =15x i -x2=1020=0.5, a =y -b x =0.4.所以年推销金额y 关于工作年限x 的线性回归方程为y =0.5x +0.4. (2)当x =11时,y =0.5x +0.4=0.5×11+0.4 =5.9(万元).所以可以估计第6名推销员的年推销金额为5.9万元.10.一种机器可以按各种不同速度运转,其生产物件中有一些含有缺点,每小时生产有缺点物件的多少随机器运转速度而变化,用x 表示转速(单位:转/秒),用y 表示每小时生产的有缺点物件个数.现观测得到(x ,y )的4组值为(8,5),(12,8),(14,9),(16,11).(1)假设y 与x 之间存在线性相关关系,求y 与x 之间的线性回归方程.(2)若实际生产中所容许的每小时最大有缺点物件数为10,则机器的速度不得超过多少转/秒?(精确到1) 【解】 (1)设回归方程为y =a +bx ,则x =8+12+14+164=12.5,y =5+8+9+114=8.25, ∑4i =1x 2i =660,∑4i =1x i y i =438,b =∑4i =1x i y i -4x y∑4i =1x 2i -4x2=438-4×12.5×8.25660-4×12.52≈0.73, a =y -b x =8.25-0.73×12.5=-0.875,所以所求回归方程为y =-0.875+0.73x .(2)由y ≤10,即-0.875+0.73x ≤10,得x ≤10.8750.73≈15,即机器速度不得超过15转/秒.11.高二(3)班学生每周用于数学学习的时间x (单位:小时)与数学成绩y (单位:分)之间有如下数据:x 24 15 23 19 16 11 20 16 17 13 y92799789644783687159若某同学每周用于数学学习的时间为18小时,试预测该同学的数学成绩.【解】 显然学习时间与学习成绩间具有相关关系,可以列出下表,并用科学计算器进行计算.i 1 2 3 4 5 6 7 8 9 10 x i 24 15 23 19 16 11 20 16 17 13 y i 927997896447 83687159 x i y i2 208 1 185 2 231 1 691 1 024 5171 660 1 088 1 207767∑10i =1x 2i=3 182,∑10i =1x i y i=13 578于是可得b =∑10i =1x i y i -10x y∑10i =1x 2i -10x2=545.4154.4≈3.53,a=y-b x=74.9-3.53×17.4≈13.5.因此可求得回归直线方程为y=3.53x+13.5.当x=18时,y=3.53×18+13.5≈77.故该同学预计可得77分左右.(教师用书独具)在一段时间内,某种商品的价格x(万元)和需求量y(t)之间的一组数据如下表所示:价格x 1.4 1.6 1.82 2.2需求量y 121075 3(1)画出散点图;(2)求出y对x的回归直线方程;(3)如价格定为1.9万元,预测需求量大约是多少.(精确到0.01 t)【思路探究】先根据所给数据画出散点图,判断y与x是否具有线性相关关系,在此基础上利用回归方程系数的有关公式,求出相应的系数,然后结合函数知识预测需求量.【自主解答】(1)散点图如图所示.(2)采用列表的方法计算a与回归系数b.序号x i y i x2i x i y i1 1.412 1.9616.82 1.610 2.56163 1.87 3.2412.64 25 4 105 2.2 3 4.84 6.6Σ9 37 16.6 62x=15×9=1.8,y=15×37=7.4,b=62-5×1.8×7.416.6-5×1.82=-11.5,a=7.4+11.5×1.8=28.1.所以y对x的回归直线方程为y=a+bx=28.1-11.5x.(3)当x=1.9时,y=28.1-11.5×1.9=6.25,所以价格定为1.9万元时,需求量大约是6.25 t.解答本类题目的关键首先应先通过散点图来分析两变量间的关系是否相关,然后再利用求回归方程的公式求解回归方程,在此基础上,借助回归方程对实际问题进行预测.已知10只狗的血球体积x(单位:mm3)及红血球数y(单位:百万)的测量值如下:x 45424648423558403950y 6.53 6.309.257.50 6.99 5.909.49 6.20 6.557.72(1)画出散点图;(2)求出y对x的回归线性方程;(3)若血球体积为49 mm3,预测红血球数大约是多少?【解】(1)散点图如图(2)设线性回归方程为y =bx +a ,由表中数据代入公式,得b =∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.16,a =y -b x ≈0.12.所以所求线性回归方程为y =0.16x +0.12. (3)把x =49代入线性回归方程得:y =0.16×49+0.12≈7.96(百万),计算结果表明,当血球体积为49 mm 3时,红血球数大约为7.96百万.拓展阅读GDDS 和SDDS随着世界经济一体化的加快,各国间的交流与合作越来越频繁,为加强国际组织对各国经济运行状况的监督,国际社会在各领域纷纷建立了国际通行标准,其中国际货币基金组织(简称IMF)制定的数据公布通用系统(简称GDDS)和数据公布特殊标准(简称SDDS).GDDS 的主要内容和要求:在统计范围内,它将国民经济活动划分为5大经济部门,对每一部门各选定一组能够反映其活动实绩和政策以及可以帮助理解经济发展和结构变化的最为重要的数据.系统提出了五大部门综合框架和相关的数据类别和指标编制、公布的目标.选定的数据类别和指标中规定为主要部分.SDDS 将国民经济活动划分为4大经济部门.选定的数据类别分为:必须的、受鼓励的和“视相关程度”三类.必须的数据类别包括:综合统计框架、跟踪性数据、与部门有关的其他数据.IMF 为什么制定GDDS 和SDDS 呢?进入20世纪90年代以来,世界一些地区金融危机频繁爆发.1994年墨西哥的金融危机、1997年东南亚金融危机都导致国际金融市场剧烈动荡.两次金融危机给IMF 一个深刻的教训,也对其职能提出了挑战,在总结经验教训的基础上,IMF 认为,在新的国际经济、金融形势下,必须制定统一的数据发布标准,使各成员国按照统一程序提供全面、准确的经济金融信息,从而可以有效及时地对各国的经济进行正确的分析预测,从宏观上来作出调控,减少金融危机的发生和影响.1.2 相关系数课标解读 1.了解两个随机变量间的线性相关系数r ,并能利用公式求出相关系数r ;了解正相关、负相关、不相关的概念. 2.能利用相关系数r 判断两个随机变量间线性相关程度的大小,从而判断回归直线拟合的效果.相关系数【问题导思】1.有什么办法判断两个变量是否具有线性相关关系?【提示】 作出散点图,看这些点是否在某一直线的附近,计算线性相关系数. 2.线性相关系数与最小误差有何关系? 【提示】 Q (误差)=l yy (1-r 2).3.相关系数r 的绝对值的大小对相关性有何影响?【提示】 |r |越大,变量之间的相关程度越高;|r |越小,变量间线性相关程度越低;当r =0时,两个变量线性不相关.4.r 的正负对相关性的影响. 【提示】 r >0,b =l xyl xx>0两变量正相关; r <0,b =l xyl xx<0,两变量负相关.1.判断两个变量之间的线性相关关系的方法有: (1)计算线性相关系数r . (2)画散点图.2.假设两个随机变量的数据分别为(x 1,y 1),(x 2,y 2),…,(x n ,y n ),则变量间线性相关系数r 的计算公式为r =l xyl xx l yy=∑ni=1x i-x y i-y∑ni=1x i-x2i=1ny i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2相关系数及其应用维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y来衡量,这个指标越高,耐热水性能就越好,而甲醛浓度是影响“缩醛化度”的重要因素,在生产中常用甲醛浓度x(克/升)去控制这一指标,为此必须找出它们之间的关系,现安排一批试验,获得如下表数据.甲醛浓度18202224262830(克/升)缩醛化度26.8628.3528.7528.8729.7530.0030.36(克分子%)求相关系数r.【思路探究】可直接利用相关系数r的公式直接计算.【自主解答】列表如下:i x i y i x2i x i y i y2i11826.86324483.48721.459 622028.35400567803.722 532228.75484632.5826.562 542428.87576692.88833.476 952629.75676773.5885.062 562830.0078484090073030.36900910.80921.729 6∑168202.94 4 144 4 900.16 5 892.013 6 x=24,y=28.99,r=∑7i=1x i y i-7x y∑7i=1x2i-7x2∑7i=1y2i-7y2=4 900.16-7×24×28.994 144-7×242×5 892.013 6-7×28.992≈0.94.当相关系数|r|越接近1时,两个变量的线性相关程度越高,当相关系数|r|越接近0时,两个变量的线性相关程度越低.下列是小麦产量与施化肥量的一组观测数据:施化肥量15202530354045小麦产量320330360410460470480 判断施化肥量与水稻产量是否有相关关系.【解】i x i y i x2i y2i x i y i115320225102 400 4 800220330400108 900 6 600325360625129 6009 000430410900168 10012 300535460 1 225211 60016 100640470 1 600220 90018 800745480 2 025230 40021 600∑210 2 8307 000 1 171 90089 200∴r=∑i=17x i y i-7x y∑i=17x2i-7x2∑i=17y2i-7y2=4 300700×27 771.43≈0.975.由于r=0.975>0,因此施化肥量和水稻产量近似成线性正相关关系.线性回归分析的综合应用“阿曼德匹萨”是一个制作和外卖意大利匹萨的餐饮连锁店,其主要客户群是在校大学生,为研究各店铺的销售额与店铺附近地区大学生人数的关系,随机抽取十个分店的样本,得到数据如下:店铺编号 区内大学生数(万人)季度销售额(万元)1 0.2 5.8 2 0.6 10.53 0.8 8.84 0.8 11.85 1.2 11.76 1.6 13.7 7 2 15.78 2 16.9 9 2.2 14.9 10 2.620.2(1)试对区内大学生人数与店铺的销售额的关系进行相关性检验;(2)试根据这些数据建立回归模型,然后再进一步根据回归方程预测一个区内大学生人数1万人店铺的季度销售额; (3)若店铺的季度销售额低于10万元则亏损,试求建店区内大学生人数至少约多少人?【思路探究】 先根据表中的数据作相关检验,然后判断是否具有相关关系,再根据所给的数据解出线性回归方程,最后进行预测. 【自主解答】 (1)根据数据我们对区内大学生人数x 与店铺季度销售额y 作相关检验.根据数据可知:x =110(0.2+0.6+…+2.6)=1.4;y =110(5.8+10.5+…+20.2)=13,∑10i =1x 2i -10x 2=5.68,∑10i =1x i y i -10x y =28.4,∑10i =1y 2i -10y 2=157.3,因此r =28.45.68×157.3≈0.95;|r |接近1,因此有把握认为区内大学生人数x 与店铺季度销售额y 具有线性相关关系,求y 对x 的回归直线方程有意义.(2)回归系数b =28.45.68=5,a =13-5×1.4=6.因此回归直线方程是y=bx+a=5x+6.当x=1时,y=5×1+6=11,即区内大学生人数1万元店铺的季度销售额约11万元.(3)由回归直线方程是y=5x+6.令y≥10,解得x≥0.8,所以当建店区内大学生人数至少8 000人时才适合建店.进行相关性检验主要有两种常用方法,一是作散点图,观察所给的数据点是否在一条直线的附近,作散点图的优点是既直观又方便,是解决相关性检验问题比较常用的方法;缺点是作图总是存在误差,有时很难判断这些点是不是分布在一条直线的附近.二是利用样本相关系数对其进行相关性检验,优点是判断准确,缺点是计算繁琐,但可以借助计算器进行处理.在我国某地的一个县城,近期发现了好几个癌症村.政府部门十分震惊,马上组成调查组调查病因,经调查发现致癌的罪魁祸首是水源中的金属砷,它们来自附近的几家化工厂,化工厂排出的废水中含有金属砷,废水污染了水源,人食用了这种水就会致癌.下面就是调查组对几个癌症村水源中的砷超标的倍数和患癌症的人数统计的数据:砷超标的倍数x 34 5.5 4.2 5.86 3.5患癌症人数y 15202824354434(1)画出表中数据的散点图; (2)求y 对x 的回归方程;(3)若一个村的水源中砷超标的倍数为7,试估计这个村的患癌症的人数. 【解】 (1)散点图如图所示:(2)观察散点图,可知x 、y 成线性相关关系. 计算得x =327,y =2007,根据求b 公式代入数据计算得b ≈6.065,a =2007-6.065×327≈0.846. 所以患癌症人数y 对水源中砷超标的倍数x 的回归直线方程为y =6.065x +0.846.(3)根据上面求得的回归直线方程,当水源中砷超标的倍数为7时,y =6.065×7+0.846=43.301. 即该村患癌症的人数约为43人.对误差的大小与变量相关关系的理解有误对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不正确的是( )A.由样本数据得到的回归方程y=bx+a必过样本点的中心(x,y)B.在回归分析中,误差Q越小,变量之间的线性相关程度越高C.相关系数r越小,说明变量之间的线性相关程度越小D.在散点图中,若n个点在一条直线上,说明变量之间的相关性强【错解】 B【错因分析】对误差Q与变量间的相关关系理解错误.【防范措施】正确理解回归方程、相关系数r、误差Q、散点图等概念是解决概念题的基础.【正解】∵误差Q越小,|r|越大,变量之间的线性相关程度越高,而相关系数r的范围为-1≤r≤1,∴C错误.【答案】 C1.相关系数是用来刻画两个变量相关关系的强与弱的.2.相关系数的计算公式r=∑ni=1x i-x y i-y∑ni=1x i-x2∑ni=1y i-y2=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y21.在对变量y和x进行线性相关检验时,已知n是观测值组数,r是相关系数,且已知:①n=7,r=0.953 3;②n=15,r=0.301 2;③n=17,r=0.499 1;④n=3,r=0.9950.则变量y和x具有较高线性相关程度的是( )A.①和②B.①和④C.②和④D.③和④【解析】相关系数r的绝对值越大,变量x,y的线性相关程度越高,故选B.【答案】 B2.对相关系数r,下列说法正确的是( )A.|r|越大,相关程度越大B.|r|越小,相关程度越大C.|r|越大,相关程度越小,|r|越小,相关程度越大D.|r|≤1且|r|越接近于1,相关程度越大,|r|越接近0,相关程度越小【解析】由两个变量相关系数公式。
§2 独立性检验[对应学生用书P40]1.2×2列联表设A ,B 为两个变量,每个变量都可以取两个值,变量A :A 1,A 2=A -1;变量B :B 1,B 2=B -1,用下表表示抽样数据B A B 1 B 2 总计A 1 a b a +b A 2c d c +d 总计a +cb +dn =a +b +c +d并将此表称为2×2列联表. 2.χ2的计算公式χ2=n ad -bc 2a +bc +d a +cb +d.3.独立性判断的方法(1)当χ2≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的;(2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联.(1)独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断.(2)使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性.[对应学生用书P41]2×2列联表[例1] 在调查的6名患有色盲,试作出性别与色盲的列联表.[思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后出相应的数据,列表即可.[精解详析] 根据题目所给的数据作出如下的列联表:色盲性别患色盲不患色盲男38442女6514[一点通]1.下面是一个2×2列联表:则表中a,b处的值分别为( )y1y2总计x1 a 2153x282533总计 b 46A.32,40C.74,82 D.64,72解析:a=53-21=32,b=a+8=40.答案:A2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×2列联表.解:列联表如下:性格情况考前心情是否紧张性格内向性格外向总计考前心情紧张 332 213 545 考前心情不紧张94 381 475 总计4265941 020独立性检验的应用[例2] (8分)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:性别是否需要志愿者男 女 需要 40 30 不需要160270(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? [思路点拨] 解答本题先分析列联表数,后计算χ2,再与临界值比较,判断两个变量是否相互独立.[精解详析] (1)调查的500位老年人中有70位需要志愿者提供帮助,因此在该地区老年人中,需要帮助的老年人的比例的估计值为70500×100%=14%.(4分)(2)χ2=500×40×270-30×1602200×300×70×430≈9.967.(6分)因为9.967>6.635,所以有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关. (8分)[一点通] 这类问题的解决方法为先确定a ,b ,c ,d ,n 的值并求出χ2的值,再与临界值相比较,作出判断,解题时注意正确运用公式,代入数据准确计算.3.在一个2×2列联表中,通过数据计算χ2=8.325,则这两个变量间有关系的可能性为________.答案:99%4.某高校《统计初步》课程的教师随机调查了选该课的学生的一些情况,具体数据如下表:非统计专业统计专业 男 13 10 女720则χ2≈________,有________的把握判定主修统计专业与性别有关. 解析:χ2=50×13×20-10×7220×30×23×27≈4.844>3.841,故有95%的把握认为主修统计专业与性别有关.答案:4.844 95%5.(福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分为5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P (χ2≥k )0.100 0.050 0.010 0.001 k2.7063.8416.63510.828附:χ2=2a +bc +d a +cb +d解:(1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名. 所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),25周岁以下组工人有40×0.05=2(人).从中随机抽取2名工人,记至少抽到一名25周岁以下组工人的事件为A ,故P (A )=1-C 23C 25=710,故所求概率为710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手 非生产能手合计 25周岁以上组 15 45 60 25周岁以下组15 25 40 合计3070100所以得χ2=n ad -bc 2a +bc +d a +cb +d=100×15×25-15×45260×40×30×70=2514≈1.79.因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.独立性检验的基本步骤: 1.列出2×2列联表. 2.求出χ2=n ad -bc 2a +ca +b b +dc +d.3.判断是否有关联,得出事件有关的可能性大小.[对应课时跟踪训练十七]1.通过随机询问110名性别不同的大学生是否爱好某项运动,得到下表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由χ2=n ad -bc 2a +bc +d a +cb +d算得,χ2=110×40×30-20×20260×50×60×50≈7.8.附表:参照附表,得到的正确结论是( )A.有99.9%以上的把握认为“爱好该项运动与性别有关”B.有99.9%以上的把握认为“爱好该项运动与性别无关”C.有99%以上的把握认为“爱好该项运动和性别有关”D.有99%以上的把握认为“爱好该项运动和性别无关”解析:因为χ2=7.8>6.635,所以有99%以上的把握认为有关.答案:C2.下面是2×2列联表:则表中a,bA.94、96 B.52、50C.52、54 D.54、52解析:a=73-21=52,b=100-46=54,故选C.答案:C3.高二第二学期期中考试,对甲、乙两个班级学生的数学考试成绩按照优秀和不优秀统计人数后,得到2×2列联表,则随机变量χ2的值为( )班级与成绩统计表A.0.600 B.0.828C.2.712 D.6.004解析:随机变量χ2=90×11×37-34×8219×71×45×45≈0.600,故选A.答案:A4.(江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1成绩 性别 不及格 及格 总计 男 6 14 20 女 10 22 32 总计163652表2视力 性别好 差 总计 男 4 16 20 女 12 20 32 总计163652表3智商 性别偏高 正常 总计 男 8 12 20 女 8 24 32 总计16 3652阅读量性别丰富 不丰富 总计 男14620女 2 30 32 总计163652A .成绩B .视力C .智商D .阅读量解析:因为χ21=52×6×22-14×10216×36×32×20=52×8216×36×32×20, χ22=52×4×20-16×12216×36×32×20=52×112216×36×32×20, χ23=52×8×24-12×8216×36×32×20=52×96216×36×32×20, χ24=52×14×30-6×2216×36×32×20=52×408216×36×32×20, 则有χ24>χ22>χ23>χ21,所以阅读量与性别关联的可能性最大. 答案:D5.在独立性检验中,统计量χ2有两个临界值:3.841和6.635.当χ2>3.841时,有95%的把握说明两个事件有关,当χ2>6.635时,有99%的把握说明两个事件有关,当χ2≤3.841时,认为两个事件无关.在一项打鼾与患心脏病关系的调查中,共调查了2 000人,经计算得χ2=20.87,根据这一数据分析,下列关于打鼾与患心脏病之间关系的说法,正确的是________.①有95%的把握认为两者有关; ②约有95%的打鼾者患心脏病; ③有99%的把握认为两者有关; ④约有99%的打鼾者患心脏病.解析:χ2=20.87>6.635,有99%的把握说明两个事件有关,但只是估计,不能肯定什么.答案:③6.为探究电离辐射的剂量与人体的受损程度是否有关,用两种不同剂量的电离辐射照射小白鼠,在照射后14天内的结果如下表所示:死亡 存活 总计 第一种剂量 14 11 25 第二种剂量 6 19 25 总计203050在研究小白鼠的死亡与剂量是否有关时,根据以上数据求得χ2=________. 解析:χ2=5014×19-6×11220×30×25×25≈5.333.答案:5.3337.为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查,得到如下数据:成绩优秀 成绩较差 总计 兴趣浓厚的 64 30 94 兴趣不浓厚的22 73 95 总计86103189判断学生的数学成绩好坏与对学习数学的兴趣是否有关? 解:由公式求得χ2=189×64×73-22×30286×103×94×95≈38.459.∵38.459>6.635,∴有99%的把握认为数学成绩的好坏与对学习数学的兴趣有关.8.现对某市工薪阶层关于“楼市限购政策”的态度进行调查,随机抽查了50人,他们月收入(单位:百元)的频数分布及对“楼市限购政策”的赞成人数如下表: 月收入 [15,25) [25,35) [35,45) [45,55) [55,65) [65,75] 频数 5 10 15 10 5 5 赞成人数48125215 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异;月收入不低于5500元 月收入低于5 500元 总计 赞成 不赞成 总计(2)“楼市限购政策”的概率.解:(1)由题意得2×2列联表:月收入不低于5 500元 月收入低于5 500元 总计赞成 3 29 32 不赞成 7 11 18 总计104050假设月收入以5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度没有差异,根据列联表中的数据,得到:χ2=50×3×11-7×29210×40×32×18≈6.272<6.635,所以没有99%的把握认为当月收入以5 500元为分界点时,该市的工薪阶层对“楼市限购政策”的态度有差异.(2)已知在收入[55,65)中共有5人,2人赞成,3人不赞成,设至少有一个不赞成楼市限购政策为事件A ,则P (A )=1-C 22C 25=910.故所求概率为910.。