高中数学第一章统计案例1_2回归分析一学案新人教B版选修1-2
- 格式:doc
- 大小:165.50 KB
- 文档页数:7
高中数学人教版选修1-2全套教案第一章统计案例第一课时 1.1回归分析的基本思想及其初步应用(一)教学目标1、知识与技能目标 认识随机误差;2、过程与方法目标(1)会使用函数计算器求回归方程; (2)能正确理解回归方程的预报结果. 3、情感、态度、价值观通过本节课的学习,加强数学与现实生活的联系,以科学的态度评价两个变量的相关性,理解处理问题的方法,形成严谨的治学态度和锲而不舍的求学精神.培养学生运用所学知识,解决实际问题的能力.教学中适当地利用学生合作与交流,使学生在学习的同时,体会与他人合作的重要性.教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析. 教学难点:解释残差变量的含义,了解偏差平方和分解的思想. 教学过程: 一、复习准备:1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2. 复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报. 二、讲授新课: 1. 教学例题:① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示: 编 号 1 2 3 4 5 6 7 8 身高/cm165165 157 170 175 165 155 170 体重/kg 4857505464614359求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重. (分析思路→教师演示→学生整理)第一步:作散点图第二步:求回归方程 第三步:代值计算010203040506070150155160165170175180身高/cm体重/k g② 提问:身高为172cm 的女大学生的体重一定是60.316kg 吗? 不一定,但一般可以认为她的体重在60.316kg 左右. ③ 解释线性回归模型与一次函数的不同事实上,观察上述散点图,我们可以发现女大学生的体重y 和身高x 之间的关系并不能用一次函数y bx a =+来严格刻画(因为所有的样本点不共线,所以线性模型只能近似地刻画身高和体重的关系). 在数据表中身高为165cm 的3名女大学生的体重分别为48kg 、57kg 和61kg ,如果能用一次函数来描述体重与身高的关系,那么身高为165cm 的3名女在学生的体重应相同. 这就说明体重不仅受身高的影响还受其他因素的影响,把这种影响的结果e (即残差变量或随机变量)引入到线性函数模型中,得到线性回归模型y bx a e =++,其中残差变量e 中包含体重不能由身高的线性函数解释的所有部分. 当残差变量恒等于0时,线性回归模型就变成一次函数模型. 因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.2. 相关系数:相关系数的绝对值越接近于1,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好,此时建立的线性回归模型是有意义.3. 小结:求线性回归方程的步骤、线性回归模型与一次函数的不同.第二课时 1.1回归分析的基本思想及其初步应用(二)教学目标:1知识与技能:会建立回归模型,进而学习相关指数(相关系数r 、总偏差平方和、随机误差的效应即残差、残差平方和、回归平方和、相关指数R2、残差分析) 2过程与方法:通过学习会求上述的相关指数3情感态度价值观:从实际问题发现已有知识不足,激发好奇心、求知欲。
高中数学学习材料唐玲出品回归分析的基本思想及其初步应用(二)班级: 姓名:_____________1.在判断两个变量y 与x 是否相关时,选择了4个不同的模型,它们的相关指数R 2分别为:模型1的相关指数R 2为0.98,模型2的相关指数R 2为0.80,模型3的相关指数R 2为0.50,模型4的相关指数R 2为0.25.其中拟合效果最好的模型是( ).A .模型1B .模型2C .模型3D .模型42.若一组观测值(x 1,y 1),(x 2,y 2),…,(x n ,y n )之间满足y i =bx i +a +e i (i =1,2,…,n ),且e i 恒为0,则R 2为________.3. 已知回归方程35.0log 21.1ˆ2-=x y,则样本点P (4,2.71)的残差为________________。
4. 已知线性相关的两变量x ,y 的三个样本点A (0,0),B (1,3),C (4,11),若用直线AB 作为其预测模型,则点C 的残差是________。
5. 若一组观测值(x 1,y 1)、(x 2,y 2)、…、(x n ,y n )之间满足y i =bx i +a +e i (i =1、2. …n)若e i 恒为0,则R 2为6. 已知线性相关的两变量x ,y 的三个样本点A (0,0),B (1,3),C (4,11),若用直线AB 作为其预测模型,则其相关指数=2R ________。
7. 现有一个由身高预测体重的回归方程:体重预测值=4(磅/英寸)×身高-130(磅)。
其中体重和身高分别以磅和英寸为单位,已知1英寸≈2.5 cm ,1磅≈0.45 kg ,则该回归方程应该是______________。
8.某运动员训练次数与成绩之间的数据关系如下:次数x 30 33 35 37 39 44 46 50 成绩y3034373942464851(1)作出散点图; (2)求出回归方程;(3)作出残差图;(4)计算相关指数R2;(5)试预测该运动员训练47次及55次的成绩.。
1.1回归分析的基本思想及其初步应用教学设计一.教学目标设计: (1).知识与技能:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用 (2).过程与方法:通过本课程德尔学习,使学生了解回归分析的基本思想、方法及初步应用 (3).情感,态度与价值观:充分利用图形的直观性,简捷巧妙的解题 二.教学重点设计:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析. 三,教学难点设计:解释残差变量的含义,了解偏差平方和分解的思想. 四.教学过程设计: (一)、复习探究:设计例1,既复习了以前的知识,又做好了前后知识的衔接,承上启下。
再通过三个思考设问,引出新课。
(二)、讲授新课:1. 通过散点图,让学生直观感受线性回归模型与一次函数的不同。
2. 通过散点图,让学生体会预报身高与实际身高的关系,进而得到线性回归模型y bx a e =++,引出残差变量e 。
求根据女大学生的身高预报体重的回归方程,并预报身高为172cm的女大学生的体重。
例1. 从某大学中随机选取8名女大学生,其身高和体重如下:3. 作残差分析。
(1)介绍残差的概念和计算方法。
(2)作残差图,使学生了解,通过残差图可以直观的观测出两变量相关性的强弱。
同时感受残差图的优势和不足。
顺势引出相关系数2R4. 相关系数2R(1)介绍相关系数2R的计算公式(2)解释相关系数2R的意义及与r的关系。
5. 例题的设计通过例题的讲述,是学生掌握:(1)样本数据的中心点与回归直线的位置关系(2)回顾模型的建立方法。
(3)回归分析的思想和方法,用残差图与相关系数判断拟合效果的方法和步骤。
6. 归纳出回顾模型的建立方法(三)、课堂小结设计:由学生归纳出本节课的知识点和思想方法。
新课程标准数学选修1—2第一章课后习题解答第一章统计案例1.1回归分析的基本思想及其初步应用练习(P8)1、画散点图的目的是通过变量的散点图判断两个变量更近似于什么样的函数关系,以确定是否直接用线性回归模型来拟合原始数据.说明:学生在对常用的函数图象比较了解的情况下,通过观察散点图可以判断两个变量的关系更近似于哪种函数.2、分析残差可以帮助我们解决以下两个问题:(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错.(2)分析残差图可以发现模型选择是否合适.说明:分析残差是回归诊断的一部分,可以帮助我们发现样本数据中的错误,分析模型选择是否合适,是否有其他变量需要加入到模型中,模型的假设是否正确等. 本题只要求学生能回答上面两点即可,主要让学生体会残差和残差图可以用于判断模型的拟合效果.3、(1)解释变量和预报变量的关系式线性函数关系.R=.(2)21说明:如果所有的样本点都在一条直线上,建立的线性回归模型一定是该直线,所以每个=+,没有随机误差项,是严样本点的残差均为0,残差平方和也为0,即此时的模型为y bx aR=.格的一次函数关系. 通过计算可得21习题1.1 (P9)1、(1)由表中数据制作的散点图如下:从散点图中可以看出GDP值与年份近似呈线性关系.y表示GDP值,t表示年份. 根据截距和斜率的最小二乘计算公式,得(2)用tˆ14292537.729a≈-,ˆ7191.969b≈从而得线性回归方程ˆ7191.96914292537.729=-.y t残差计算结果见下表.GDP 值与年份线性拟合残差表(年实际GDP 值为117251.9,所以预报与实际相差4275.540-.(4)上面建立的回归方程的20.974R =,说明年份能够解释约97%的GDP 值变化,因此所建立的模型能够很好地刻画GDP 和年份的关系.说明:关于2003年的GDP 值的来源,不同的渠道可能会有所不同.2、说明:本题的结果与具体的数据有关,所以答案不唯一.3、由表中数据得散点图如下:从散点图中可以看出,震级x 与大于或等于该震级的地震数N 之间不呈线性相关关系,随着x 的减少,所考察的地震数N 近似地以指数形式增长. 做变换lg y N =,得到的数据如下表所示.x 和y 的散点图如下:从这个散点图中可以看出x 和y 之间有很强的线性相关性,因此可以用线性回归模型拟合它们之间的关系. 根据截距和斜率的最小二乘计算公式,得ˆ 6.704a≈,ˆ0.741b ≈-, 故线性回归方程为 ˆ0.741 6.704y x =-+. 20.997R ≈,说明x 可以解释y 的99.7%的变化.因此,可以用回归方程 0.741 6.704ˆ10x N-+= 描述x 和N 之间的关系. 1.2独立性检验的基本思想及其初步应用练习(P15)列联表的条形图如图所示.由图及表直观判断,好像“成绩优秀与班级有关系”. 因为2K 的观测值0.653 6.635k ≈<,由教科书中表1-11克重,在犯错误的概率不超过0.01的前提下,不能认为“成绩与班级有关系”.说明:(1)教师应要求学生画出等高条形图后,从图形上判断两个分类变量之间是否有关系. 这里通过图形的直观感觉的结果可能会出错.(2)本题与例题不同,本题计算得到的2K 的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”. 这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立. 在独立性检验中,没有推出小概率事件发生类似于反证法中没有推出矛盾.习题1.2 (P16)1、假设“服药与患病之间没有关系”,则2K 的值应该比较小;如果2K 的值很大,则说明很可能“服药与患病之间没有关系”. 由列联表中数据可得2K 的观测值 6.110 5.024k ≈>,而由教科书表1-11,得2( 5.024)0.025P K ≥≈,所以在犯错误的概率不超过0.025的前提下可以认为“服药与患病之间有关系”. 又因为服药群体中患病的频率0.182小于没有服药群体中患病的频率0.400,所以“服药与患病之间关系”可以解释为药物对于疾病有预防作用. 因此在犯错误的概率不超过0.025的前提下,可以认为药物有效.说明:仿照例1,学生很容易完成此题,但希望学生能理解独立性检验在这里的具体含义,即“服药与患病之间关系”可以解释为“药物对于疾病有预防作用”.2、如果“性别与读营养说明之间没有关系”,由题目中所给数据计算,得2K 的观测值为8.416k ≈,而由教科书中表1-11知2(7.879)0.005P K ≥≈,所以在犯错误的概率不超过0.005的前提下认为“性别与读营养说明之间有关系”.3、说明:需要收集数据,所有没有统一答案. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.4、说明:需要从媒体上收集数据,学生关心的问题不同,收集的数据会不同. 第一步,要求学生收集并整理数据后得到列联表;第二步,类似上面的习题做出判断.第一章 复习参考题A 组(P19)根据散点图,可以认为中国人口总数与年份呈现很强的线性相关关系,因此选用线性回归模型建立回归方程.由最小二乘法的计算公式,得 2095141.503a ≈-,1110.903b ≈,则线性回归方程为 ˆ1110.9032095141.503yx =-. 由2R 的计算公式,得 20.994R ≈,明线性回归模型对数据的拟合效果很好.根据回归方程,,预计2003年末中国人口总数约为129997万人,而实际情况为129227万人,预测误差为770万人;预计2004年末中国人口总数约为131108万人,而实际情况为129988万人,预测误差为1120万人.说明:数据来源为《中国统计年鉴》(2003). 由于人数为整数,所以预测的数据经过四舍五入的取整运算.2、(1)将销售总额作为横轴,利润作为纵轴,根据表中数据绘制散点图如下:由于散点图中的样本点基本上在一个带形区域内分布,猜想销售总额与利润之间呈现线性相关关系.(2)由最小二乘法的计算公式,得 ˆ1334.5a≈,ˆ0.026b ≈, 则线性回归方程为 ˆ0.0261334.5yx =+ 其残差值计算结果见下表:(3)对于(2)中所建立的线性回归方程,20.457R ≈,说明在线性回归模型中销售总额只能解释利润变化的46%,所以线性回归模型不能很好地刻画销售总额和利润之间的关系. 说明:此题也可以建立对数模型或二次回归模型等,只要计算和分析合理,就算正确.3、由所给数据计算得2K 的观测值为 3.689k ≈,而由教科书中表1-11知2( 2.706)0.10P K ≥=所以在犯错误的概率不超过0.10的前提下认为“婴儿的性别与出生的时间有关系”.第一章 复习参考题B 组(P19)1、因为 21(,)()ni i i Q a b y a bx ==--∑21(()())n i i i y bx y bx a y bx ==--+--+∑ 2211()()n n i i i i y bx y bx a y bx ===--++-+∑∑12()()ni i i y bx y bx a y bx =---+-+∑ 并且221()()n i a y bx n a y bx =-+=-+∑,12()()n i i i y bx y bx a y bx =--+-+∑ 1()(())ni i i a y bx y bx ny nbx ==-+--+∑ ()()0a y b x n y n b xn y n b x=-+--+= 所以 221(,)()()ni i i Q a b y bx y bx n a y bx ==--++-+∑.考察上面的等式,等号右边的求和号中不包含a ,而另外一项非负,所以ˆa和ˆb 必然使得等号右边的最后一项达到最小值,即 ˆˆ0ay bx -+=, 即ˆˆy a bx =+. 2、总偏差平方和21()n i i y y =-∑表示总的效应,即因变量的变化效应;残差平方和21ˆ()ni i y y =-∑表示随机误差的效应,即随机误差的变化效应;回归平方和21ˆ()ni yy =-∑表示表示变量的效应,即自变量的变化效应. 等式 222111ˆˆ()()()n n n i ii i i y y y y y y ===-=-+-∑∑∑ 表示因变量的变化总效应等于随机误差的变化效应与自变量的变化效应之和.3、说明:该题主要是考察学生应用回归分析模型解决实际问题的能力,解答应该包括如何获取数据,如何根据散点图寻找合适的模型去拟合数据,以及所得结果的解释三方面的内容.。
高二数学选修1-2第一章《统计案例》学案1.1.1 回归分析的基本思想及其初步应用课标转述:①通过对典型案例(如“人的体重与身高的关系”等)的探究,了解回归的基本思想、方法及初步应用 ②通过对现行案例(如“质量控制”“新药是否有效”等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用。
③通过对典型案例(如“昆虫分类”等)的探究,了解聚类分析的基本思想、方法及初步应用。
④通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验的基本思想、方法及初步应用。
学习目标:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.学习重、难点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析. 学习过程: 一、复习准备:1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?2. {⎧⎨⎩确定关系两个变量间的关系相关不确定关系不相关复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤: → → →3.最小二乘法:线性回归模型ˆy bx a=+,其中 ˆb=ˆa=二、学习新知: 1.例题分析:① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:. 解:由于问题中要求根据身高预报体重,因此选取身高为自变量x,体重为因变量y,做散点图: y40150 155 160 165 170 175 180 x由图可知,样本点呈条状分布,身高和体重有比较好的线性相关关系,可以用线性回归模型ˆy bx a=+来刻画。
由最小二乘法计算:121()()ˆ()niii nii x x y y b x x ==--=-∑∑,ˆa y bx =-其中1111,n ni ii i x x y y n n ====∑∑经计算得:ˆ0.849,85.712ba==- 于是得线性回归方程得:0.84985.712y x =-所以,对于身高为172cm 得女大学生,由回归方程可以预报其体重为ˆ0.84917285.71260.316()ykg =⨯-=0.849b =得意义是什么?②身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解释以下原因么?2.随机误差和残差⑴引入线性回归模型:Y=bx+a+e解释变量x ,预报变量y,随机误差 e产生随机误差的项e的原因是什么?练习反馈研究某灌溉渠道水的流速y与水深x之间的关系,测得一组数据如下:水深xm 1.40 1.50 1.60 1.70 1.80 1.90 2.00 2.101.70 1.79 1.88 1.952.03 2.10 2.16 2.21流速ym/s(1)求y对x的回归直线方程;(2)预测水深为1.95m 时水的流速是多少?三、课后小结:四、课后作业:p9 习题1.1 第1题高二数学选修1-2第一章《统计案例》学案1.1.2 回归分析的基本思想及其初步应用课标转述:①通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验的基本思想、方法及初步应用。
1.1回归分析的基本思想及其初步应用教学目标:(1).知识与技能:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用。
(2).过程与方法:了解回归分析的基本思想、方法及初步应用。
了解在解决实际问题的过程中寻找更好的模型的方法,了解可用残差分析的方法,比较两种模型的拟合效果.(3).情感,态度与价值观:充分利用图形的直观性,简捷巧妙的解题 教学重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法-相关指数和残差分析.教学难点:解释残差变量的含义,了解偏差平方和分解的思想.教学方法:讲解法,引导法一、复习准备:1、复习:函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据→作散点图→求回归直线方程→利用方程进行预报.2例题:① 例1 从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编 号 12 3 4 5 6 7 8 身高/cm165165 157 170 175 165 155 170 体重/kg4857 50 54 64 61 43 59 求根据一名女大学生的身高预报她的体重的回归方程,并预报一名身高为172cm 的女大学生的体重.(分析思路→教师演示→学生整理)② 提问:身高为172cm 的女大学生的体重一定是60.316kg 吗?不一定,但一般可以认为她的体重在60.316kg 左右.二、新课探究1、真实值和预测值之间有误差的,造成这个误差的原因是什么?2、随机误差和残差y y e -=3、残差分析:①残差图:分布在带状区域,可以检验某些样本点是否合理②相关指数R 2=1- ∑∑==--ni i n i i i y yy y 1212)()( R 2越接近1,拟合效果越好 三、课堂总结:用回归方程探究线性回归问题的方法、步骤、残差分析。
四、作业: 五、板书设计1.1回归分析的基本思想及其初步应用复习线性回归分析的步骤:1 例1234新课残差分析 5课后反思:。
1.2 回归分析(建议用时:45分钟)[学业达标]一、选择题1.在画两个变量的散点图时,下面叙述正确的是( ) A.预报变量在x 轴上,解释变量在y 轴上 B.解释变量在x 轴上,预报变量在y 轴上 C.可以选择两个变量中任意一个变量在x 轴上 D.可以选择两个变量中任意一个变量在y 轴上【解析】 结合线性回归模型y =bx +a +ε可知,解释变量在x 轴上,预报变量在y 轴上,故选B.【答案】B2.在回归分析中,相关指数r 的绝对值越接近1,说明线性相关程度( ) A.越强 B.越弱 C.可能强也可能弱D.以上均错【解析】 ∵r =∴|r |越接近于1时,线性相关程度越强,故选A. 【答案】A3.已知x 和y 之间的一组数据x 0 1 2 3 y1357则y 与x 的线性回归方程y =b x +a 必过点( ) A.(2,2) B.⎝ ⎛⎭⎪⎫32,0 C.(1,2)D.⎝ ⎛⎭⎪⎫32,4 【解析】 ∵x -=14(0+1+2+3)=32,y -=14(1+3+5+7)=4,∴回归方程y ^=b ^x +a ^必过点⎝ ⎛⎭⎪⎫32,4.【答案】D4.已知人的年龄x 与人体脂肪含量的百分数y 的回归方程为y ^=0.577x -0.448,如果某人36岁,那么这个人的脂肪含量( )【导学号:37820004】A.一定是20.3%B.在20.3%附近的可能性比较大C.无任何参考数据D.以上解释都无道理【解析】 将x =36代入回归方程得y ^=0.577×36-0.448≈20.3.由回归分析的意义知,这个人的脂肪含量在20.3%附近的可能性较大,故选B.【答案】B5.某产品的广告费用x (万元)与销售额y (万元)的统计数据如下表所示,根据表中数据可得回归方程y ^=b ^x +a ^中的b ^=10.6.据此模型预测广告费用为10万元时的销售额为( )万元 万元D.113.9万元【解析】 由题表中数据得x -=3.5,y -=43.由于回归直线y ^=b ^x +a ^过点(x -,y -),且b ^=10.6,解得a ^=5.9,所以线性回归方程为y ^=10.6x +5.9,于是x =10时,y ^=111.9. 【答案】C 二、填空题6.已知x ,y 的取值如下表所示,由散点图分析可知y 与x 线性相关,且线性回归方程为y =0.95x +2.6,那么表格中的数据m 的值为________.【解析】x -=04=2,y -=4=4,把(x -,y -)代入回归方程得11.3+m4=0.95×2+2.6,解得m =6.7.【答案】 6.77.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为________.【解析】 根据样本相关系数的定义可知,当所有样本点都在直线上时,相关系数为1.【答案】 18.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.【解析】 以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支出平均增加0.254万元.【答案】 0.254 三、解答题9.关于某设备的使用年限x 和所支出的维修费用y (万元),有如下的统计资料:x 2 3 4 5 6 y2.23.85.56.57.0如由资料可知y 对x 呈线性相关关系.试求:(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少? 【解】 (1)x -=2+3+4+5+65=4,y -=2.2+3.8+5.5+6.5+7.05=5,于是a ^=y --b ^x =5-1.23×4=0.08.所以线性回归方程为:y ^=b ^x +a ^=1.23x +0.08. (2)当x =10时,y ^=1.23×10+0.08=12.38(万元), 即估计使用10年时维修费用是12.38万元.10.在一次抽样调查中测得样本的5个样本点,数值如下表:x 0.25 0.5 1 2 4 y1612521试建立y 与x 之间的回归方程.【解】 作出变量y 与x 之间的散点图如图所示.由图可知变量y 与x 近似地呈反比例函数关系.设y =k x,令t =1x ,则y =kt .由y 与x 的数据表可得y 与t 的数据表:t 4 2 1 0.5 0.25 y1612521作出y 与t 的散点图如图所示.由图可知y 与t 呈近似的线性相关关系.又t -=1.55,y -=7.2,∑5i =1t i y i =94.25,∑5i =1t 2i =21.312 5,b ^=∑5i =1t i y i -5t -y -∑5i =1t 2i -5t -2=94.25-5×1.55×7.221.312 5-5×1.552≈4.134 4,a ^=y --b ^t -=7.2-4.134 4×1.55≈0.8,∴y ^=4.134 4t +0.8.即y 与x 之间的回归方程为y ^=4.134 4x+0.8.[能力提升]1.对于下列表格所示的五个散点,已知求得的线性回归直线方程为y ^=0.8x -155.则实数m 的值为( )C.8.4D.8.5【解析】 依题意得x -=15×(196+197+200+203+204)=200,y -=15×(1+3+6+7+m )=17+m 5,因为回归直线必经过样本点的中心,所以17+m5=0.8×200-155,解得m =8,选A.【答案】A2.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:A.y =x -1B.y =x +1C.y =88+12xD.y =176【解析】 因为x -=174+176+176+176+1785=176,y -=175+175+176+177+1775=176,而回归方程经过样本中心点,所以排除A ,B ,又身高的整体变化趋势随x 的增大而增大,排除D ,所以选C.【答案】C3.以模型y =c e kx去拟合一组数据时,为了求出回归方程,设z =ln y ,其变换后得到线性回归方程z =0.3x +4,则c =________.【导学号:37820005】【解析】 由题意得:ln(c e kx)=0.3x +4, ∴ln c +kx =0.3x +4, ∴ln c =4,∴c =e 4. 【答案】e 44.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.图122(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题:①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为【解】 (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程. 由于d ^==108.81.6=68,,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
1.2 回归分析(二)明目标、知重点 1.进一步体会回归分析的基本思想.2.通过非线性回归分析,判断几种不同模型的拟合程度.1.常见的非线性回归模型有幂函数曲线y=ax b,指数曲线y=a e bx.倒指数曲线e b xa,对数曲线y=a+b ln x.2.非线性函数可以通过变换转化成线性函数,得到线性回归方程,再通过相应变换得到非线性回归方程.探究点一非线性回归模型思考1 有些变量间的关系并不是线性相关,怎样确定回归模型?答首先要作出散点图,如果散点图中的样本点并没有分布在某个带状区域内,则两个变量不呈现线性相关关系,不能直接利用回归方程来建立两个变量之间的关系,这时可以根据已有的函数知识,观察样本点是否呈指数函数关系或二次函数关系,选定适当的回归模型. 思考2 如果两个变量呈现非线性相关关系,怎样求出回归方程?答可以通过对解释变量进行变换,如对数变换或平方变换,先得到另外两个变量间的回归方程,再得到所求两个变量的回归方程.例1 某地区不同身高的未成年男性的体重平均值如下表:身高x/cm60708090100110体重y/kg 6.137.909.9912.1515.0217.5身高x/cm120130140150160170体重y/kg 20.9226.8631.1138.8547.2555.05试建立y与x解根据上表中数据画出散点图如图所示.由图看出,样本点分布在某条指数函数曲线y =21c xc e的周围,于是令z =ln y .x 60 70 80 90 100 110 120130140150160170z 1.81 2.07 2.30 2.50 2.71 2.86 3.04 3.29 3.44 3.66 3.86 4.01由表中数据可得z 与x 之间的线性回归方程:z ^=0.663+0.020x ,则有y ^=e 0.663+0.020x .反思与感悟 根据已有的函数知识,可以发现样本分布在某一条指数型函数曲线y =21c xc e 的周围,其中c 1和c 2是待定参数;可以通过对x 进行对数变换,转化为线性相关关系. 跟踪训练1 在彩色显影中,由经验知:形成染料光学密度y 与析出银的光学密度x 由公式y =bxAe (b <0)表示.现测得试验数据如下:xi0.05 0.06 0.25 0.31 0.07 0.10 yi0.100.141.001.120.230.37xi0.38 0.43 0.14 0.20 0.47 yi1.191.250.590.791.29试求y 对x 的回归方程.解 由题给的公式y =b xAe ,两边取自然对数,便得ln y =ln A +b x,与线性回归方程相对照,只要取u =1x,v =ln y ,a =ln A .就有v =a +bu .题给数据经变量置换u =1x,v =ln y 变成如下表所示的数据:可得ln y =0.548-x,即y ^=e0.548-0.146x=e0.548·e-0.146x≈1.73e-0.146x,这就是y 对x 的回归方程. 探究点二 非线性回归分析思考 对于两个变量间的相关关系,是否只有唯一一种回归模型来拟合它们间的相关关系? 答 不一定.我们可以根据已知数据的散点图,把它与幂函数、指数函数、对数函数、二次函数图象进行比较,挑选一种拟合比较好的函数,作为回归模型.例2 对两个变量x ,y 取得4组数据(1,1),(2,1.2),(3,1.3),(4,1.37),甲、乙、丙三人分别求得数学模型如下: 甲 y =0.1x +1,乙 y =-0.05x 2+0.35x +0.7,丙 y =-0.8·(0.5)x+1.4,试判断三人谁的数学模型更接近于客观实际. 解 甲模型,当x =1时,y =1.1; 当x =2时,y =1.2;当x =3时,y =1.3;当x =4时,y =1.4. 乙模型,当x =1时,y =1;当x =2时,y =1.2; 当x =3时,y =1.3;当x =4时,y =1.3. 丙模型,当x =1时,y =1;当x =2时,y =1.2; 当x =3时,y =1.3;当x =4时,y =1.35. 观察4组数据并对照知, 丙的数学模型更接近于客观实际.跟踪训练2 根据统计资料,我国能源生产自1986年以来发展很快.下面是我国能源生产总量(单位:亿吨标准煤)的几个统计数据:根据有关专家预测,到归模型是下列四种模型中的哪一种 .(填序号)①y=ax+b(a≠0);②y=ax2+bx+c(a≠0);③y=a x(a>0且a≠1);④y=log a x(a>0且a≠1).答案①1.散点图在回归分析中的作用是( )A.查找个体个数B.比较个体数据大小关系C.探究个体分类D.粗略判断变量是否相关答案 D2.变量x与y之间的回归方程表示( )A.x与y之间的函数关系B.x与y之间的不确定性关系C.x与y之间的真实关系形式D.x与y之间的真实关系达到最大限度的吻合答案 D3.变量x,y的散点图如图所示,那么x,y之间的样本相关系数r最接近的值为( )A.1B.-0.5C.0D.0.5答案 C4.某矿山采煤的单位成本Y与采煤量x有关,其数据如下:采煤量(千899816222729293150 吨)单位成本3.5 2.9 2.19.69.18.58.08.07.0(元)则Y的相关系数为 .答案-0.559 3[呈重点、现规律]1.对于可确定具有非线性相关关系的两个变量,可以通过对变量进行变换,转化为线性回归问题去解决.2.可以通过计算相关系数r 判断模型拟合的好坏程度.由于2004对应的x =55,代入回归直线方程可得y ^=1 322.506(百万),即2004年的人口总数估计为13.23亿.下面对其进行线性相关性检验:(1)作统计假设H 0∶x 与y 不具有线性相关; (2)由0.01与n -2=9的附表中查得r 0.01=0.735; (3)根据公式得相关系数r =0.998; (4)因为|r |=0.998>0.735,即|r |>r 0.01,所以有99%的把握认为x 与y 之间具有线性相关关系,回归直线方程为y ^=527.591+14.453x ,用这个方程去估计我国2004年的人口数是有意义的.。
1.2.3《回归分析》(教学设计)一、教材分析教材的地位和作用:回归分析是高中阶段较难的一个内容,它属于统计学部分。
在教学中,抓住统计学的基本思想“用样本数据估计总体的数据”,让学生知道统计学知识的这个共性;展现概率统计学的应用功能——“分析统计出来的数据为决策提供依据”;让学生体会学以致用。
在《数学③(必修)》之后,学生已经学习了两个变量之间的相关关系,包括画散点图,版选修1-2第一章第二节进一步通过具体案例介绍回归分析的基本思想及其初步应用从线性相关性检验探索数据是否符合线性相关关系,引入非线性相关关系,正确选择回归模型,以及建立回归模型的基本步骤。
教学目标根据大纲要求,考虑到学生的接受能力和课容量,确定了本次课的教学目标:知识和技能:知道最小二乘法的思想,利用散点图分析两个变量是否存在相关关系,利用合适的回归模型求回归方程.会用相关系数r,进行线性相关性检验过程与方法:经历数据处理全过程,培养对数据的直观感觉,体会统计方法的应用。
通过一次函数模型和线性回归模型的比较,使学生体会函数思想。
情感、态度与价值观:通过案例分析,了解回归分析的实际应用,感受数学“源于生活,用于生活”,提高学习兴趣二、教学重点和难点1、根据《课程标准》,我将本节课的教学重点确立为:重点:1、了解回归模型与函数模型的区别2、了解任何模型只能近似描述实际问题难点:会用相关系数r,进行线性相关性检验2 教学重、难点的突破方法本节课主要采用“问题探究法”引导课堂内容层层推进,力求每个问题与前后知识都紧密联系、承上启下,确保整节课内容主干清晰、逻辑严密。
每个问题都有完整的“发现问题分析问题解决问题”过程。
而且在问题探究的过程中,采用归纳类比法,比如由“线性回归方程”提出“非线性回归方程”,以及“在什么情形是选择非线性回归模型分析两变量关系?”问题的提出都是“举一反三”。
切实提高学生自主探究问题和归纳推理能力,让学生在能力提高之余体会到成功的喜悦感和成就感,从而增强数学学习兴趣。
1.2 回归分析(一)明目标、知重点 1.会建立线性回归模型分析两个变量间的相关关系.2.能通过相关系数判断两个变量间的线性相关程度.1.回归直线方程在回归直线方程y ^=a ^+b ^x 中,b ^=∑ni =1x i -xy i -y∑n i =1x i -x 2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2,a ^=y-b ^x .其中x =1n ∑ni =1x i ,y =1n∑n i =1y i . (x ,y )称为样本点的中心,回归直线过样本点的中心. 2.相关系数(1)对于变量x 与y 随机抽到的n 对数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),检测统计量是样本相关系数r =∑n i =1 x i -xy i -y∑n i =1x i -x2∑n i =1y i -y2=∑ni =1x i y i -n x y∑n i =1x 2i -n x2∑ni =1y 2i -n y2.(2)相关系数r 的取值范围是[-1,1],|r |值越大,变量之间的线性相关程度越高;|r |值越接近0,变量之间的线性相关程度越低.当|r |>r 0.05时,表明有95%的把握认为两个变量之间有线性相关关系.[情境导学]“名师出高徒”这句谚语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关? 探究点一 回归直线方程思考1 两个变量之间的关系分几类? 答 分两类:①函数关系,②相关关系.函数关系是一种确定性关系,而相关关系是一种非确定性关系. 上面所提的“名师”与“高徒”之间的关系就是相关关系.思考2 什么叫回归分析?答 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. 思考3 对具有线性相关关系的两个变量进行回归分析有哪几个步骤? 答 基本步骤为画散点图,求回归直线方程,用回归直线方程进行预报. 例1 若从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号 1 2 3 4 5 6 7 8 身高/cm 165 165 157 170 175 165 155 170 体重/kg4857505464614359. 解 (1)画散点图选取身高为自变量x ,体重为因变量y ,画出散点图,展示两个变量之间的关系,并判断二者是否具有线性关系.由散点图可以发现,样本点呈条状分布,身高和体重有比较好的线性相关关系,因此可以用回归直线y =bx +a 来近似刻画它们之间的关系.(2)建立回归方程由计算器可得b ^=0.849,a ^=-85.712.于是得到回归直线方程为y ^=0.849x -85.712. (3)预报和决策当x =172时,y ^=0.849×172-85.712=60.316(kg). 即一名身高为172 cm 的女大学生的体重预报值为60.316 kg. 反思与感悟 在使用回归直线方程进行预报时要注意: (1)回归直线方程只适用于我们所研究的样本的总体; (2)我们所建立的回归直线方程一般都有时间性; (3)样本取值的范围会影响回归直线方程的适用范围;(4)不能期望回归直线方程得到的预报值就是预报变量的精确值.跟踪训练1 某研究机构对高三学生的记忆力x 和判断力y 进行统计分析,得下表数据:x 6 8 10 12 y2356(1)请画出上表数据的散点图((2)请根据上表提供的数据,用最小二乘法求出y 关于x 的回归直线方程y ^=b ^x +a ^; (3)试根据求出的回归直线方程,预测记忆力为9的同学的判断力. 解 (1)如图:(2)∑ni =1x i y i =6×2+8×3+10×5+12×6=158, x =6+8+10+124=9,y =2+3+5+64=4, ∑ni =1x 2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7, a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由(2)中回归直线方程,当x =9时,y ^=0.7×9-2.3=4,预测记忆力为9的同学的判断力约为4.探究点二 相关性检验思考1 给出n 对数据,按照公式求出的回归直线方程,是否一定能反映这组成对数据的变化规律?答 如果数据散点图中的点都大致分布在这条直线附近,这条直线就能反映这组成对数据的变化规律,否则求出的方程没有实际意义. 思考2 怎样定量确定两个变量的相关关系?答 可以通过计算相关系数r 来确定,若|r |>r 0.05,可以有95%的把握认为两个变量具有线性相关关系;若|r |≤r 0.05,则没有理由认为两个变量具有线性相关关系,此时寻找回归直线方程毫无意义.例2 维尼纶纤维的耐热水性能的好坏可以用指标“缩醛化度”y 来衡量,这个指标越高,耐热水性能也越好,而甲醛浓度是影响缩醛化度的重要因素,在生产中常用甲醛浓度x (g/L)去控制这一指标,为此必须找出它们之间的关系,现安排一批实验,获得如下数据:甲醛浓度(g/L) 18 20 22 24 26 28 30 缩醛化度(克分子%) 26.8628.3528.7528.8729.7530.0030.36(1)画散点图; (2)求回归直线方程;(3)求相关系数r ,并进行相关性检验. 解 (1)散点图如下图:(2)可以看出,两变量之间有近似的线性相关关系,下面用列表的方法计算a ^,b ^.ix iy ix i 2x i y i1 18 26.86 324 483.482 20 28.35 400 5673 22 28.75 484 632.5 4 24 28.87 576 692.88 5 26 29.75 676 773.5 6 28 30.00 784 8407 30 30.36 900 910.80 ∑168202.944 1444 900.16x =1687=24,y =202.947, b ^ =∑7i =1x i y i -7x y ∑7i =1x i 2-7x 2=4 900.16-7×24×202.9474 144-7×242≈0.264 3, a ^=y -b ^x =202.947-0.264 3×24≈22.648, ∴回归直线方程为y ^=22.648+0.264 3x .(3)∑7i =1y i 2≈5 892,r =∑7i =1x i y i -7x y∑7i =1x i 2-7x2∑7i =1y i 2-7y2=4 900.16-7×24×202.9474 144-7×242×[5 892-7×⎝ ⎛⎭⎪⎫202.9472]≈0.96.∵r =0.96>r 0.05=0.754.∴有95%的把握认为“甲醛浓度与缩醛化度有关系”,求得的回归直线方程有意义. 反思与感悟 根据已知数据求得回归直线方程后,可以利用相关系数和临界值r 0.05比较,进行相关性检验.跟踪训练2 为了研究3月下旬的平均气温(x )与4月20日前棉花害虫化蛹高峰日(y )的关系,某地区观察了2007年至2012年的情况,得到了下面的数据:年份2007 2008 2009 2010 2011 2012 x (℃) 24.4 29.6 32.9 28.7 30.3 28.9 y (日)19611018(1)对变量x 、y 进行相关性检验;(2)据气象预测,该地区在2013年3月下旬平均气温为27℃,试估计2013年4月化蛹高峰日为哪天.解 由已知条件可得下表:i 1 2 3 4 5 6 x i 24.4 29.6 32.9 28.7 30.3 28.9 y i19611018x ≈29.13,y =7.5,∑i =16x i 2=5 130.92,∑i =16y i 2=563,∑i =16x i y i =1 222.6(1)r =∑i =16x i y i -6x y∑i =16x i 2-6x2∑i =16y i 2-6y2≈-0.934 1.查表知:r 0.05=0.811.由|r |>r 0.05,可知变量y 和x 存在线性相关关系.(2)b ^=1 222.6-6×29.13×7.55 130.92-6×29.132≈-2.23, a ^=y -b ^x ≈72.46.所以回归直线方程为y ^=-2.23x +72.46.当x =27时,y ^=-2.23×27+72.46≈12.据此,可估计该地区2013年4月12日为化蛹高峰日.1.下列各组变量之间具有线性相关关系的是( ) A.出租车费与行驶的里程 B.学习成绩与学生身高 C.身高与体重 D.铁的体积与质量 答案 C2.对变量y 和x 进行相关性检验,已知n 为数据的对数,r 是相关系数,且已知①n =3,r =0.995 0;②n =7,r =0.953 3;③n =15,r =0.301 2;④n =17,r =0.499 1.则变量y 和x 具有线性相关关系的是( )A.①和②B.①和③C.②和④D.③和④答案 C解析 ①n =3时,r 0.05=0.997,所以|r |<r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.②n =7时,r 0.05=0.754,所以|r |>r 0.05,表明有95%的把握认为x 与y 之间具有线性相关关系.③n =15时,r 0.05=0.514,所以|r |<r 0.05,我们没有理由拒绝原来的假设,这时寻找回归直线方程是毫无意义的.④n =17时,r 0.05=0.482,所以|r |>r 0.05,表明有95%的把握认为x 与y 之间具有线性相关关系.所以②和④满足题意.3.某商品销售量y (件)与销售价格x (元/件)负相关,则其回归直线方程可能是( )A.y ^=-10x +200B.y ^=10x +200C.y ^=-10x -200D.y ^=10x -200 答案 A解析 由于销售量y 与销售价格x 成负相关,故排除B 、D.又当x =10时,A 中y =100,而C 中y =-300,C 不符合题意,故选A.4.调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元. 答案 0.2540.254x+1+0.321-(0.254x+0.321)=0.254.解析由题意知[][呈重点、现规律]1.对具有相关关系的两个变量进行统计分析,可从散点图观察大致呈条状分布,可以求回归直线方程并进行预报.2.通过求相关系数并和临界值r0.05比较可以判断两个变量是否有线性相关关系,求得的回归直线方程是否有意义.。