2017-2018学年高中数学 模块综合复习课1 统计案例课件 北师大版选修1-2
- 格式:ppt
- 大小:14.49 MB
- 文档页数:47
回归分析高中数学复习课(一)统计案例教案(含解析)北师大版选修12(1)变量间的相关关系是高考解答题命题的一个,主要考查变量间相关关系的判断,求解回归方程并进行预报估计,题型多为解答题,有时也有小题出现.(2)掌握回归分析的步骤的是解答此类问题的关键,另外要掌握将两种非线性回归模型转化为线性回归分析求解问题.[考点精要]1.一个重要方程对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其线性回归直线方程为y =bx +a .其中b =∑i =1nx i -xy i -y∑i =1nx i -x2,a =y -b x .2.重要参数相关系数r 是用来刻画回归模型的回归效果的,其绝对值越大,模型的拟合效果越好. 3.两种重要图形[典例] (2017·全国卷Ⅰ)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸: 抽取次序 1 2 3 4 5 6 7 8 零件尺寸 9.95 10.12 9.96 9.9610.01 9.92 9.98 10.04 抽取次序 9 10 11 12 13 14 15 16 零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得x =116∑i =116x i =9.97,s =116∑i =116x i -x 2=116⎝⎛⎭⎪⎪⎫∑i =116x 2i -16x2≈0.212,∑i =116i -8.52≈18.439,∑i =116(x i -x )(i -8.5)=-2.78,其中x i 为抽取的第i 个零件的尺寸,i =1,2, (16)(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x -3s ,x +3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x -3s ,x +3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)附:样本(x i ,y i )(i =1,2,…,n )的相关系数r =∑i =1nx i -xy i -y∑i =1nx i -x2∑i =1ny i -y2,0.008≈0.09.[解] (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数为r =∑i =116x i -xi -8.5∑i =116x i -x2∑i =116i -8.52=-2.780.212×16×18.439≈-0.18.由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x -3s ,x +3s )以外,因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为115(16×9.97-9.22)=10.02,所以这条生产线当天生产的零件尺寸的均值的估计值为10.02,∑i =116x 2i =16×0.2122+16×9.972≈1 591.134, 剔除第13个数据,剩下数据的样本方差为 115(1 591.134-9.222-15×10.022)≈0.008, 所以这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.[类题通法]求线性回归方程的基本步骤[注意] 对非线性回归问题应利用变量代换,把问题化为线性回归分析问题,使之得到解决.[题组训练]1.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的回归系数为b,回归截距是a,那么必有( )A.b与r的符号相同B.a与r的符号相同C.b与r的符号相反D.a与r的符号相反解析:选A 正相关时,b>0,r>0;负相关时,b<0,r<0.2.为研究某种图书每册的成本费y(元)与印刷数x(千册)的关系,收集了一些数据并作了初步处理,得到了下面的散点图及一些统计量的值.x y u∑i=18(x i-x)2∑i=18(x i-x)(y i-y)∑i=18(u i-u)2∑i=18(u i-u)(y i-y) 15.25 3.630.269 2 085.5-230.30.7877.049表中u i =1x i ,u =18∑i =18u i .(1)根据散点图判断:y =a +bx 与y =c +dx哪一个更适宜作为每册成本费y (元)与印刷数x (千册)的回归方程类型?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程(回归系数的结果精确到0.01);(3)若每册书定价为10元,则至少应该印刷多少千册才能使销售利润不低于78 840元?(假设能够全部售出,结果精确到1)(附:对于一组数据(ω1,v 1),(ω2,v 2),…,(ωn ,v n ),其回归直线v =a +βω的斜率和截距的最小二乘估计分别为β=∑i =1nωi -ωv i -v∑i =1nωi -ω2,α=v -β ω)解:(1)由散点图判断,y =c +d x适宜作为每册成本费y (元)与印刷册数x (千册)的回归方程.(2)令u =1x,先建立y 关于u 的线性回归方程,由于d =∑i =18u i -uy i -y∑i =18u i -u2=7.0490.787≈8.957≈8.96, ∴c =y -d ·u =3.63-8.957×0.269≈1.22, ∴y 关于u 的线性回归方程为y =1.22+8.96u , 从而y 关于x 的回归方程为y =1.22+8.96x.(3)假设印刷x 千册,依题意:10x -⎝ ⎛⎭⎪⎫1.22+8.96x ·x ≥78.840.即8.78x ≥87.8,解得x ≥10,∴至少印刷10千册才能使销售利润不低于78 840元.独立性检验(1)为容易题,多与概率、统计等内容综合命题.(2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系” 这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系” 成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过概率P(K2≥6.635)≈0.01来评价该假设不合理的程度,由实际计算出的k>6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%.[考点精要]独立性判断的方法(1)当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;(2)当χ2>2.706时,有90%的把握判定变量A,B有关联;(3)当χ2>3.841时,有95%的把握判定变量A,B有关联;(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.[典例] (2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件“旧养殖法的箱产量低于50 kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg箱产量≥50 kg旧养殖法 新养殖法(3)根据箱产量的频率分布直方图,对这两种养殖方法的优劣进行比较. 附:P (χ2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828,χ2=n ad -bc 2a +bc +d a +cb +d.[解] (1)旧养殖法的箱产量低于50 kg 的频率为 (0.012+0.014+0.024+0.034+0.040)×5=0.62. 因此,事件A 的概率估计值为0.62. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 k g旧养殖法 62 38 新养殖法3466根据表中数据及χ2的计算公式得, χ2=200×62×66-34×382100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)箱产量的频率分布直方图表明:新养殖法的箱产量平均值(或中位数)在50 kg 到55 kg 之间,旧养殖法的箱产量平均值(或中位数)在45 kg 到50 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.[类题通法]独立性检验问题的求解策略(1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性.(2)χ2统计量法:通过公式χ2=n ad -bc 2a +bc +d a +cb +d先计算χ2,再与临界值表作比较,最后得出结论.[题组训练]1.如果有99%的把握认为变量A 和B 有关系,那么χ2( ) A .χ2≥3.841B .χ2<3.841C .χ2≥6.635D .χ2<6.635解析:选C 将χ2的值与临界值比较,可知若有99%的把握认为变量A 和B 有关系,则χ2≥6.635.故选C.2.下表是某地区的一种传染病与饮用水的调查表:得病 不得病 总计 干净水 52 466 518 不干净水 94 218 312 总计146684830(1)能否有99%的把握认为这种传染病与饮用水的卫生程度有关,请说明理由. (2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否有95%的把握认为这种疾病与饮用水有关.解:(1)把表中的数据代入公式得 χ2=830×52×218-466×942146×684×518×312≈54.21.∵54.21>6.635,所以有99%的把握认为该地区这种传染病与饮用水不干净有关. (2)依题意得2×2列联表:得病 不得病 总计 干净水 5 50 55 不干净水 9 22 31 总计147286此时,χ2=86×5×22-50×9214×72×55×31≈5.785.因为5.785>3.841,所以有95%的把握认为该种疾病与饮用水不干净有关.1.为了研究气温对某种饮料销售的影响,经过统计,得到一个卖出饮料数与当天气温的对比表:摄氏温度 -1 3 8 13 17 饮料瓶数3405273122( ) A .140 B .190 C .210D .240。
第三章统计案例学习目标 1.能通过相关系数判断两变量间的线性相关性.2.掌握建立线性回归模型的步骤.3.理解条件概率的定义及计算方法.4.能利用相互独立事件同时发生的概率公式解决一些简单的实际问题.5.掌握利用独立性检验解决一些实际问题.知识点一线性回归分析1.线性回归方程在线性回归方程y=a+bx中,b=____________=____________,a=____________.其中x =____________,y=____________.2.相关系数(1)相关系数r的计算公式r=∑ni=1x i y i-n x y∑ni=1x2i-n x2∑ni=1y2i-n y2.(2)相关系数r的取值范围是________,|r|值越大,变量之间的线性相关程度越高.(3)当r>0时,b________0,称两个变量正相关;当r<0时,b________0,称两个变量负相关;当r=0时,称两个变量线性不相关.知识点二独立性检验1.2×2列联表设A、B为两个变量,每一变量都可以取两个值,得到表格其中,a表示变量A取 ________,且变量B取 ________时的数据,b表示变量A取 ______,且变量B取________时的数据;c表示变量A取 __________,且变量B取 ________时的数据;d表示变量A取________,且变量B取________时的数据.上表在统计中称为2×2列联表.2.统计量χ2=____________________.3.独立性检验当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的;当χ2>2.706时,有________的把握判定变量A,B有关联;当χ2>3.841时,有________的把握判定变量A,B有关联;当χ2>6.635时,有________的把握判定变量A,B有关联.类型一线性回归分析例1 某城市理论预测2010年到2014年人口总数与年份的关系如表所示:(1)请画出上表数据的散点图;(2)请根据上表提供的数据,求出y关于x的线性回归方程y=bx+a;(3)据此估计2018年该城市人口总数.反思与感悟解决回归分析问题的一般步骤(1)画散点图.根据已知数据画出散点图.(2)判断变量的相关性并求回归方程.通过观察散点图,直观感知两个变量是否具有相关关系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程.(3)实际应用.依据求得的回归方程解决实际问题.跟踪训练1 在一段时间内,某种商品的价格x元和需求量y件之间的一组数据为:且知x与y具有线性相关关系,求出y关于x的线性回归方程.类型二 独立性检验思想与应用例2 为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为23.(1)请将上面的2×2列联表补充完整;(不用写计算过程)(2)能否在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关?说明你的理由.反思与感悟 独立性检验问题的求解策略 χ2统计量法:通过公式 χ2=n ad -bc 2a+bc +d a +cb +d先计算统计量,再用以下结果对变量的独立性进行判断.(1)当χ2≤2.706时,没有充分的证据判定变量A,B有关联,可以认为变量A,B是没有关联的.(2)当χ2>2.706时,有90%的把握判定变量A,B有关联.(3)当χ2>3.841时,有95%的把握判定变量A,B有关联.(4)当χ2>6.635时,有99%的把握判定变量A,B有关联.跟踪训练2 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主).(1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯;(2)根据以上数据完成如下2×2列联表;(3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”?1.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y与父亲的身高x的线性回归方程y=bx+a中,b( )A.在(-1,0)内B.等于0C.在(0,1)内D.在[1,+∞)内2.已知线性回归方程中斜率的估计值为1.23,回归方程过点(4,5),则线性回归方程为( ) A.y=1.23x+0.08 B.y=0.08x+1.23C.y=1.23x+4 D.y=1.23x+53.为了解高中生作文成绩与课外阅读量之间的关系,某研究机构随机抽取了60名高中生,通过问卷调查,得到以下数据:由以上数据,计算得到χ2≈9.643,则以下说法正确的是( )A.没有充足的理由认为课外阅读量大与作文成绩优秀有关B.有1%的把握认为课外阅读量大与作文成绩优秀有关C.有99.9%的把握认为课外阅读量大与作文成绩优秀有关D.有99%的把握认为课外阅读量大与作文成绩优秀有关4.考察棉花种子经过处理与生病之间的关系,得到下表中的数据:根据以上数据可得出( )A.种子是否经过处理与是否生病有关B.种子是否经过处理与是否生病无关C.种子是否经过处理决定是否生病D.有90%的把握认为种子经过处理与生病有关5.对于线性回归方程y=bx+a,当x=3时,对应的y的估计值是17,当x=8时,对应的y的估计值是22,那么,该线性回归方程是________,根据线性回归方程判断当x=________时,y的估计值是38.1.建立回归模型的基本步骤(1)确定研究对象,明确变量.(2)画出散点图,观察它们之间的关系.(3)由经验确定回归方程的类型.(4)按照一定的规则估计回归方程中的参数.2.独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.答案精析知识梳理 知识点一1.∑ni =1x i -xy i -y∑n i =1x i -x 2∑ni =1x i y i -n x y∑n i =1x 2i -n x2y -b x 1n ∑ni =1x i 1n ∑ni =1y i2.(2)[-1,1] (3)> < 知识点二1.a +b c +d a +c b +d a +b +c +d A 1 B 1 A 1 B 2 A 2 B 1 A 2 B 2 2.n ad -bc 2a+bc +d a +cb +d3.90% 95% 99% 题型探究例1 解 (1)散点图如图.(2)因为x =0+1+2+3+45=2,y =5+7+8+11+195=10,∑5i =1x i y i =0×5+1×7+2×8+3×11+4×19=132,∑5i =1x 2i =02+12+22+32+42=30, 所以b =132-5×2×1030-5×22=3.2, a =y -b x =3.6.所以线性回归方程为y =3.2x +3.6. (3)令x =8,则y =3.2×8+3.6=29.2, 故估计2018年该城市人口总数为292万人.跟踪训练1 解 x =15×(14+16+18+20+22)=18,y =15×(12+10+7+5+3)=7.4,∑i =15x 2i =142+162+182+202+222=1 660, ∑i =15y 2i =122+102+72+52+32=327, ∑i =15x i y i =14×12+16×10+18×7+20×5+22×3=620,所以b =∑i =15x i y i -5x y∑i =15x 2i -5x 2=620-5×18×7.41 660-5×182=-1.15,所以a =7.4+1.15×18=28.1,所以y 对x 的线性回归方程为y =-1.15x +28.1. 例2 解 (1)列联表补充如下:(2)由χ2=-228×20×32×16≈4.286.因为4.286>3.841,所以能在犯错误的概率不超过0.05的前提下认为喜爱打篮球与性别有关. 跟踪训练2 解 (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主.(2)2×2列联表如下:(3)χ2=-212×18×20×10=10>6.635,故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”.当堂训练1.C 2.A 3.D 4.B5.y=x+14 24。