高中数学 3.1回归分析(一)教案 北师大选修2-3
- 格式:doc
- 大小:994.50 KB
- 文档页数:9
第三章、统计案例3.1回归分析的基本思想及其初步应用(共计4课时) 授课类型:新授课一、教学内容与教学对象分析学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。
二、学习目标1、知识与技能通过本节的学习,了解回归分析的基本思想,会对两个变量进行回归分析,明确建立回归模型的基本步骤,并对具体问题进行回归分析,解决实际应用问题。
2、过程与方法 本节的学习,应该让学生通过实际问题去理解回归分析的必要性,明确回归分析的基本思想,从散点图中点的分布上我们发现直接求回归直线方程存在明显的不足,从中引导学生去发现解决问题的新思路—进行回归分析,进而介绍残差分析的方法和利用R 的平方来表示解释变量对于预报变量变化的贡献率,从中选择较为合理的回归方程,最后是建立回归模型基本步骤。
3、情感、态度与价值观 通过本节课的学习,首先让显示了解回归分析的必要性和回归分析的基本思想,明确回归分析的基本方法和基本步骤,培养我们利用整体的观点和互相联系的观点,来分析问题,进一步加强数学的应用意识,培养学生学好数学、用好数学的信心。
加强与现实生活的联系,以科学的态度评价两个变量的相关系。
教学中适当地增加学生合作与交流的机会,多从实际生活中找出例子,使学生在学习的同时。
体会与他人合作的重要性,理解处理问题的方法与结论的联系,形成实事求是的严谨的治学态度和锲而不舍的求学精神。
培养学生运用所学知识,解决实际问题的能力。
三、教学重点、难点教学重点:熟练掌握回归分析的步骤;各相关指数、建立回归模型的步骤;通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法。
教学难点:求回归系数 a , b ;相关指数的计算、残差分析;了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较。
3.1回归分析的基本思想及其初步应用学习目标:1.通过对典型案例的探究,了解回归分析的基本思想、方法及其初步应用.2.会求回归直线方程,并用回归直线方程进行预报.(重点难点) 知识梳理:[基础·初探]教材整理1 回归直线方程 1.回归直线方程其中b ^的计算公式还可以写成b ^=∑i =1nx i y i -n x -y-∑i =1n x 2i -n x -2. 2.线性回归模型:y =bx +a +εi ,其中εi 称为随机误差项,a 和b 是模型的未知参数,自变量x 称为解释变量,因变量y 称为预报变量.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系.根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中正确的是________(填序号).(1)y 与x 具有正的线性相关关系; (2)回归直线过样本点的中心(x ,y );(3)若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; (4)若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg.【解析】 回归方程中x 的系数为0.85>0,因此y 与x 具有正的线性相关关系,A 正确;由回归方程系数的意义可知回归直线过样本点的中心(x ,y ),B 正确;依据回归方程中b ^的含义可知,x 每变化1个单位,y ^相应变化约0.85个单位,C 正确; 用回归方程对总体进行估计不能得到肯定结论,故D 不正确. 【答案】 (1)(2)(3) 教材整理2 相关性检验 1.相关系数计 算r =∑i =1n(x i -x -)(y i -y -)∑i =1n(x i -x -)2∑i =1n (y i -y -)2=∑i =1nx i y i -n x -y-(∑i =1nx 2i -n x -2)(∑i =1ny 2i -n y -2)性 质 范围 |r |≤1线性相关程度)|r |越接近1,线性相关程度越强 |r |越接近0,线性相关程度越弱2.相关性检验的步骤(1)作统计假设:x 与Y 不具有线性相关关系.(2)根据小概率0.05与n -2在附表中查出r 的一个临界值r 0.05. (3)根据样本相关系数计算公式算出r 的值.(4)作统计推断.如果|r |>r 0.05,表明有95%的把握认为x 与Y 之间具有线性相关关系.如果|r |≤r 0.05,没有理由拒绝原来的假设.1.判断(正确的打“√”,错误的打“×”)(1)求回归直线方程前必须进行相关性检验.( ) (2)两个变量的相关系数越大,它们的相关程度越强.( ) (3)若相关系数r =0,则两变量x ,y 之间没有关系.( )【解析】 (1)√ 相关性检验是了解成对数据的变化规律的,所以求回归方程前必须进行相关性检验.(2)× 相关系数|r |越接近1,线性相关程度越强;|r |越接近0,线性相关程度越弱. (3)× 若r =0是指x ,y 之间的相关关系弱,但并不能说没有关系.【答案】 (1)√ (2)× (3)× 2.下列结论正确的是( )①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.A.①②B.①②③C.①②④D.①②③④【解析】 函数关系和相关关系的区别是前者是确定性关系,后者是非确定性关系,故①②正确;回归分析是对具有相关关系的两个变量进行统计分析的一种方法,故③错误,④正确.【答案】 C[质疑·手记]预习完成后,请将你的疑问记录,并与“小伙伴们”探讨交流: 疑问1: 解惑: 疑问2: 解惑: 疑问3: 解惑: 疑难探究:[小组合作型]回归分析的有关概念(1)有下列说法:①线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归方程y ^=b ^x +a ^,可以估计和观测变量的取值和变化趋势;④因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.其中正确命题的个数是( ) A.1 B.2 C.3D.4(2)关于变量y 与x 之间的回归直线方程叙述正确的是( ) A.表示y 与x 之间的一种确定性关系 B.表示y 与x 之间的相关关系C.表示y 与x 之间的最真实的关系D.表示y 与x 之间真实关系的一种效果最好的拟合(3)如果某地的财政收入x 与支出y 满足线性回归方程y ^=b ^x +a ^+ε(单位:亿元),其中b ^=0.8,a ^=2,|ε|≤0.5,如果今年该地区财政收入10亿元,则今年支出预计不会超过________亿.【自主解答】 (1)①反映的正是最小二乘法思想,故正确.②反映的是画散点图的作用,也正确.③解释的是回归方程y ^=b ^x +a ^的作用,故也正确.④是不正确的,在求回归方程之前必须进行相关性检验,以发现两变量的关系.(2)回归直线方程能最大可能地反映y 与x 之间的真实关系,故选项D 正确.(3)由题意可得:y ^=0.8x +2+ε,当x =10时,y ^=0.8×10+2+ε=10+ε,又|ε|≤0.5,∴9.5≤y ^≤10.5.故今年支出预计不会超过10.5亿. 【答案】 (1)C (2)D (3)10.51.在分析两个变量的相关关系时,可根据样本数据散点图确定两个变量之间是否存在相关关系,然后利用最小二乘法求出回归直线方程.2.由线性回归方程给出的是一个预报值而非精确值.3.随机误差的主要来源.(1)线性回归模型与真实情况引起的误差; (2)省略了一些因素的影响产生的误差; (3)观测与计算产生的误差. [再练一题]1.下列有关线性回归的说法,不正确的是________(填序号).①自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系;②在平面直角坐标系中,用描点的方法得到表示具有相关关系的两个量的一组数据的图形叫做散点图;③线性回归方程最能代表观测值x ,y 之间的关系; ④任何一组观测值都能得到具有代表意义的回归直线方程.【解析】 只有具有线性相关的两个观测值才能得到具有代表意义的回归直线方程. 【答案】 ④线性回归分析为研究拉力x (N)对弹簧长度Y (cm)的影响,对不同拉力的6根弹簧进行测量,测得如下表中的数据:x510 15 20 25 30 Y7.258.128.959.910.911.8(1)画出散点图;(2)如果散点图中的各点大致分布在一条直线的附近,求y 与x 之间的回归直线方程. 【精彩点拨】 作散点图→得到x ,y 有较好的线性关系→代入公式求得线性回归方程【自主解答】 (1)散点图如图所示.(2)将已知表中的数据列成下表:x i 5 10 15 20 25 30 y i 7.25 8.12 8.95 9.9 10.9 11.8 x i y i 36.25 81.2 134.25 198 272.5 354 x 2i25100225400625900x =17.5,y ≈9.49,∑i =16x i y i =1 076.2,∑i =16x 2i =2 275.∴b ^=∑i =16x i y i -6x -y -∑i =16x 2i -6x -2=1 076.2-6×17.5×9.492 275-6×17.52≈0.18,a ^=y -b ^x =9.49-0.18×17.5=6.34, ∴回归直线方程为y ^=0.18x +6.34.1.散点图是定义在具有相关关系的两个变量基础上的,对于性质不明确的两组数据,可先作散点图,在图上看它们有无关系,关系的密切程度,然后再进行相关回归分析.2.求回归直线方程时,首先应注意到,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.[再练一题]2.本题条件不变,若x 增加2个单位,y ^增加多少? 【解】 若x 增加2个单位,则y ^=0.18(x +2)+6.34 =0.18x +6.34+0.36, 故y ^增加0.36个单位.[探究共研型]非线性回归分析探究1 如何解答非线性回归问题?【提示】 非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为:探究2 已知x 和y 之间的一组数据,则下列四个函数中,哪一个作为回归模型最好?x 1 2 3 y35.9912.01①y =3×2x -1;②y =log 2x ;③y =4x; ④y =x 2.【提示】 观察散点图中样本点的分布规律可判断样本点分布在曲线y =3×2x-1附近.①作为回归模型最好.某地区不同身高的未成年男性的体重平均值如下表: 身高x (cm) 60 70 80 90 100 110 体重y (kg) 6.13 7.90 9.99 12.15 15.02 17.50 身高x (cm) 120 130 140 150 160 170 体重y (kg)20.9226.8631.1138.8547.2555.05(1)试建立y 与x 之间的回归方程;(2)如果一名在校男生身高为168 cm ,预测他的体重约为多少?【精彩点拨】 先由散点图确定相应的函数模型,再通过对数变换将非线性相关转化为线性相关的两个变量来求解.【自主解答】 (1)根据表中的数据画出散点图,如下:由图看出,这些点分布在某条指数型函数曲线y =c 1e c 2x 的周围,于是令z =ln y ,列表如下:x 60 70 80 90 100 110 z 1.81 2.07 2.302.502.712.86x 120 130 140 150 160 170 z3.043.293.443.663.864.01作出散点图,如下:由表中数据可求得z 与x 之间的回归直线方程为z ^=0.693+0.020x ,则有y ^=e 0.693+0.020x . (2)由(1)知,当x =168时,y ^=e 0.693+0.020×168≈57.57,所以在校男生身高为168 cm ,预测他的体重约为57.57 kg.两个变量不具有线性关系,不能直接利用线性回归方程建立两个变量的关系,可以通过变换的方法转化为线性回归模型,如y =c 1e c 2x ,我们可以通过对数变换把指数关系变为线性关系,令z =ln y ,则变换后样本点应该分布在直线z =bx +aa =ln c 1,b =c 2的周围.[再练一题]3.有一个测量水流量的实验装置,测得试验数据如下表:i1234567水深h (厘米) 0.7 1.1 2.5 4.9 8.1 10.2 13.5 流量Q (升/分钟)0.0820.251.811.237.566.5134根据表中数据,建立Q 与h 之间的回归方程. 【解】 由表中测得的数据可以作出散点图,如图.观察散点图中样本点的分布规律,可以判断样本点分布在某一条曲线附近,表示该曲线的函数模型是Q =m ·h n (m ,n 是正的常数).两边取常用对数,则lg Q =lg m +n ·lg h ,令y =lg Q ,x =lg h ,那么y =nx +lg m , 即为线性函数模型y =bx +a 的形式(其中b =n ,a =lg m ).由下面的数据表,用最小二乘法可求得b ^≈2.509 7,a ^=-0.707 7,所以n ≈2.51,m ≈0.196.i h i Q i x i =lg h i y i =lg Q i x 2i x i y i 1 0.7 0.082 -0.154 9 -1.086 2 0.024 0.168 3 2 1.1 0.25 0.041 4 -0.602 1 0.001 7 -0.024 9 3 2.5 1.8 0.397 9 0.255 3 0.158 3 0.101 6 4 4.9 11.2 0.690 2 1.049 2 0.476 4 0.724 2 5 8.1 37.5 0.908 5 1.574 0 0.825 4 1.430 0 6 10.2 66.5 1.008 6 1.822 8 1.017 3 1.838 5 7 13.5 134 1.130 3 2.127 1 1.277 6 2.404 3 ∑41251.3324.0225.140 13.780 76.642于是所求得的回归方程为Q =0.196·h 2.51.[构建·体系]达标检测:1.下表是x 和y 之间的一组数据,则y 关于x 的线性回归方程必过点( )x 1 2 3 4 y1357A.(2,3)B.(1.5,4)C.(2.5,4)D.(2.5,5)【解析】 线性回归方程必过样本点的中心(x ,y ),即(2.5,4),故选C. 【答案】 C2.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时销售额为( )A.63.6万元B.65.5万元C.67.7万元D.72.0万元【解析】 样本点的中心是(3.5,42),则a ^=y -b ^x =42-9.4×3.5=9.1,所以回归直线方程是y ^=9.4x +9.1,把x =6代入得y ^=65.5.【答案】 B3.如图3-2-1所示,有5组(x ,y )数据,去掉点________,剩下的4组数据的线性相关系数最大.图3-2-1【答案】 D (3,10)4.为了考查两个变量Y 与x 的线性相关性,测量x ,Y 的13对数据,若Y 与x 具有线性相关关系,则相关系数r 绝对值的取值范围是________.【解析】 相关系数临界值r 0.05=0.553,所以Y 与x 若具有线性相关关系,则相关系数r 绝对值的取值范围是(0.553,1].【答案】 (0.553,1]5.某种产品的广告费支出x 与销售额Y (单位:百万元)之间有如下对应数据:x 2 4 5 6 8 Y3040605070(1)画出散点图;(2)对两个变量进行相关性检验; (3)求回归直线方程. 【解】 (1)散点图如图所示.(2)计算各数据如下:i 1 2 3 4 5 x i 2 4 5 6 8 y i 30 40 60 50 70 x i y i60160300300560x =5,y =50,∑i =15x 2i =145,∑i =15y 2i =13 500,∑i =15x i y i =1 380 r =1 380-5×5×50(145-5×52)(13 500-5×502)≈0.92,查得r 0.05=0.878,r >r 0.05,故有95%的把握认为该产品的广告费支出与销售额之间具有线性相关关系.(3)b ^=∑i =15x i y i -5x -y-∑i =15x 2i -5x2=1 380-5×5×50145-5×52=6.5,a ^=y -b ^x =50-6.5×5=17.5, 于是所求的回归直线方程是y ^=6.5x +17.5.我还有这些不足: (1) (2)我的课下提升方案: (1) (2)。
第三章 统计案例
§1 回归分析
1.1 回归分析
备课资源参考
教学建议
1.近几年高考中,对回归分析考查的次数逐渐增多,回归分析的思想和应用非常重要,预计在今后的高考中,会涉及这方面的知识.考查内容以线性回归系数为主,同时考查利用散点图判断变量间的相关关系,多以选择题、填空题为主,也可以在解答题中出现.
2.本节的重难点是回归直线方程的求法以及用回归直线方程作出预测.
3.在求回归直线过程中涉及大量运算,不借助于计算器或计算机难以完成.因而在教学中应教给学生正确使用计算器.
备选习题
在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y与腐蚀时间x的一组数据如下表所示:
x/秒
5
1
1
5
2
3
4
5
6
y/微米
6
1
1
1
1
3
1
6
1
7
1
9
2
3
(1)画出数据的散点图.
(2)根据散点图,你能得出什么结论?解:(1)如图所示.
(2)结论:x与y是具有相关关系的两个变量,且相应于n组观测值的n个点大致分布在一条
直线附近,其中整体上与这n个点最接近的一条直线最能代表变量x与y之间的关系.。
回归分析答疑解惑一.回归含义探究“回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。
如根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高,Y记子辈身高。
虽然子辈身高一般受父辈影响,但同样身高的父亲,其子身高并不一致,因此,X和Y之间存在一种相关关系。
一般而言,父辈身高者,其子辈身高也高.依此推论祖祖辈辈遗传下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将身高拉向中心,即子辈的身高有向中心回归的特点,“回归”一词即源于此。
不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也发挥着重要作用。
二.如何认识相关关系研究两个变量间的相关关系是学习本节的目的。
对于相关关系我们可以从下三个方面加以认识:(1)相关关系与函数关系不同。
函数关系中的两个变量间是一种确定性关系。
例如正方形面积S与边长x之间的关系2xS 就是函数关系。
即对于边长x的每一个确定的值,都有面积S的惟一确定的值与之对应。
相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系。
例如人的身高与年龄;商品的销售额与广告费等等都是相关关系.(2)函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系。
例如有人发现,对于在校儿童,身高与阅读技能有很强的相关关系。
然而学会新词并不能使儿童马上长高,而是涉及到第三个因素——年龄,当儿童长大一些,他们的阅读能力会提高而且由于长大身高也会高些。
(3)函数关系与相关关系之间有着密切联系,在一定的条件下可以相互转化。
例如正方形面积S与其边长x间虽然是一种确定性关系,但在每次测量边长时,由于测量误差等原因,其数值大小又表现出一种随机性。
而对于具有线性关系的两个变量来说,当求得其回归直线后,我们又可以用一种确定性的关系对这两个变量间的关系进行估计。
相关关系在现实生活中大量存在,从某种意义上讲,函数关系是一种理想的关系模型,而相关关系是一种更为一般的情况。
课时教案科目:数学授课时间:第周星期年月日(一)、问题情境(一)、复习引入:1、给出例题:一只红铃虫的产卵数y 和温度x 有关,现收集了7组观测数据列于下表中,试建立y 与x 之间的回归方程.(学生描述步骤,教师演示)2、讨论:观察右图中的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系.(二)、新课探究:1. 探究非线性回归方程的确定:① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=2C 1e x C 的周围(其中12,c c 是待定的参数),故可用指数函数模型来拟合这两个变量.③ 在上式两边取对数,得21ln ln y c x c =+,再令ln z y =,则21ln z c x c =+,而z 与x 间的关系如下:观察z 与回归方程来拟合.④ 利用计算器算得 3.843,0.272a b =-=,z 与x 间的线性回归方程为0.272 3.843z x =-,因此红铃虫的产卵数对温度的非线性回归方程为0.272 3.843x y e -=.⑤ 利用回归方程探究非线性回归问题,可按“作散点图→建模→确定方程”这三个步骤进行.其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题. 2. 小结:(1)、用回归方程探究非线性回归问题的方法、步骤.(2)、化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式.(1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)by ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+.(3)bxy ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+.(4)b xy ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+. (三)、巩固练习:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(2)试求出预报变量对解释变量的回归方程。
知识整合与阶段检测[对应学生用书]一、离散型随机变量的分布列.定义设离散型随机变量的取值为,,…随机变量取的概率为(=,…),记作:(=,(=)=),…①或把上式列成下表.求随机变量的分布列的步骤①明确随机变量的取值;②准确求出取每一个值时的概率;③列成表格的形式.[说明]已知随机变量的分布列,则它在某范围内取值的概率等于它取这个范围内各个值时的概率之和..离散型随机变量分布列的性质()>,=,…;()++…++…=.[说明]分布列的两个性质是求解有关参数问题的依据.二、条件概率与独立事件.发生时发生的条件概率为()=..对于两个事件,,如果()=()(),则称,相互独立.若与相互独立,则与,与,与也相互独立..求条件概率的常用方法()定义:即()=.()借助古典概型公式()=..概率问题常常与排列组合相结合,求事件概率的关键是将事件分解成若干个子事件,然后利用概率加法(互斥事件求和)、乘法(独立事件同时发生)、除法(条件概率)来求解.三、离散型随机变量的均值与方差.定义:一般地,设一个离散型随机变量所有可能取的值是,,…,,这些值对应的概率是,,…,,则=++…+叫作这个离散型随机变量的均值或数学期望(简称期望).(-)是(-)的期望,并称之为随机变量的方差,记为..意义:均值反映了离散型随机变量取值的平均取值水平,而方差反映了随机变量取值偏离于均值的平均程度.方差越小,则随机变量偏离于均值的平均程度越小.四、超几何分布及二项分布.超几何分布一般地,设有件产品,其中有(≤)件次品,从中任取(≤)件产品,用表示取出件产品中次品的件数.那么(=)=(∈),服从参数为,,的超几何分布.其均值=..二项分布在次相互独立的试验中,每次试验“成功”的概率均为,“失败”的概率均为-.用表示这次试验中成功的次数则(=)=(-)-(=,…).称为服从参数为,的二项分布.其均值为=,方差为=(-).五、正态分布.正态分布的密度函数为()=,-∞<<+∞,其中{()}=()..正态分布密度函数满足以下性质:()函数图像关于直线=μ对称.()σ(σ>)的大小决定函数图像的“胖”“瘦”.()(μ-σ<<μ+σ)=;(μ-σ<<μ+σ)=;(μ-σ<<μ+σ)=.见开试卷)))(时间分钟,满分分)一、选择题(本大题共小题,每小题分,满分分.在每小题给出的四个选项中,只有一项是正确的).下列表格可以作为的分布列的是( )..。
3.1 回归分析教学目标(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法; (3)能求出简单实际问题的线性回归方程. 教学重点,难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法. 教学过程 一.问题情境1. 情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计当根据《数学(必修)》中的有关内容,解决这个问题的方法是: 先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间x 与位置观测值y 之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()ni i i nii x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 可以得到线性回归方为 3.5361 2.1214y x =+,所以当9x =时,由线性回归方程可以估计其位置值为22.6287y =2.问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗?二.学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x 与y 之间的关系,y 的值不能由x 完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差. 三.建构数学1.线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型.说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差; ②忽略了某些因素的影响; ③存在观测误差.(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计a ,b ? 2.探求线性回归系数的最佳估计值:对于问题②,设有n 对观测数据(,)i i x y (1,2,3,,)i n =,根据线性回归模型,对于每一个i x ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()niii Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为a ,b .注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离. 用什么方法求a ,b ?回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a ,b 的方法:最小二乘法.利用最小二乘法可以得到a ,b 的计算公式为1122211()()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x n x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑, 其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线y a bx =+就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中a ,b 分别为a ,b 的估计值,a 称为回归截距,b 称为回归系数,y 称为回归值.在前面质点运动的线性回归方程 3.5361 2.1214y x =+中, 3.5361a =, 2.1214b =. 3. 线性回归方程y a bx =+中a ,b 的意义是:以a 为基数,x 每增加1个单位,y 相应地平均增加b 个单位;4. 化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)b y ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bx y ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+. (4)b xy ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.四.数学运用 1.例题:例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y表示,作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得14.453,527.591.b a ⎧≈⎪⎨≈⎪⎩ 这里的,a b 分别为,a b 的估 计值,因此线性回归方程 为527.59114.453y x =+由于2004年对应的55x =,代入线性回归方程527.59114.453y x =+可得1322.506y =(百万),即2004年的人口总数估计为13.23亿. 例2. 某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的人均资本x (万元)与人均产出y (万元)的数据:(1)设y 与x 之间具有近似关系b y ax ≈(,a b 为常数),试根据表中数据估计a 和b 的值; (2)估计企业人均资本为16万元时的人均产出(精确到0.01).分析:根据x ,y 所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方程处理.但由对数运算的性质可知,只要对b y ax ≈的两边取对数,就能将其转化为线性关系.解(1)在b y ax ≈的两边取常用对数,可得lg lg lg y a b x ≈+,设lg y z =,lg a A =,lg x X =,则z A bX ≈+.相关数据计算如图327--所示.仿照问题情境可得A ,b 的估计值A ,b 分别为0.2155,1.5677,A b ⎧=-⎪⎨=⎪⎩由lg 0.2155a =-可得0.6088a ≈,即a ,b 的估计值分别为0.6088和1.5677.(2)由(1)知1.56770.6088y x =.样本数据及回归曲线的图形如图328--(见书本102P页)当16x =时, 1.56770.60881647.01y =⨯≈(万元),故当企业人均资本为16万元时,人均产值约为47.01万元.2.练习:104P 练习第1题. 五.回顾小结:1. 线性回归模型y a bx ε=++与确定性函数y a bx =+相比,它表示y 与x 之间是统计相关关系(非确定性关系)其中的随机误差ε提供了选择模型的准则以及在模型合理的情况下探求最佳估计值a ,b 的工具;2. 线性回归方程y a bx =+中a ,b 的意义是:以a 为基数,x 每增加1个单位,y 相应地平均增加b 个单位; 3.求线性回归方程的基本步骤. 六.课外作业:106P 第2题.回归分析(2)教学目标(1)通过实例了解相关系数的概念和性质,感受相关性检验的作用; (2)能对相关系数进行显著性检验,并解决简单的回归分析问题; (3)进一步了解回归的基本思想、方法及初步应用. 教学重点,难点相关系数的性质及其显著性检验的基本思想、操作步骤. 教学过程 一.问题情境1.情境:下面是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程可以用作预测和估计吗?2.问题:思考、讨论:求得的线性回归方程是否有实际意义. 二.学生活动对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量x 与y 的线性相关性进行检验(简称相关性检验).三.建构数学1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n =,样本相关系数r 的计算公式为()()nniii ix x y y x y nx yr ---==∑∑.()22.相关系数r 的性质: (1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强; (3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 3.对相关系数r 进行显著性检验的步骤:相关系数r 的绝对值与1接近到什么程度才表明利用线性回归模型比较合理呢?这需要对相关系数r 进行显著性检验.对此,在统计上有明确的检验方法,基本步骤是: (1)提出统计假设0H :变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在附录2(教材P111)中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); (3)计算样本相关系数r ;(4)作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系.说明:1.对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. 2.这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.3.这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释. 4.对于上节课的例1,可按下面的过程进行检验: (1)作统计假设0H :x 与y 不具有线性相关关系;(2)由检验水平0.05与29n -=在附录2中查得0.050.602r =; (3)根据公式()2得相关系数0.998r =;(4)因为0.9980.602r =>,即0.05r r >,所以有95﹪的把握认为x 与y 之间具有线性相关关系,线性回归方程为527.59114.453y x =+是有意义的. 四.数学运用 1.例题:例1.下表是随机抽取的8对母女的身高数据,试根据这些数据探讨y 与x 之间的关系.解:所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近,因为()1541571638159.25x =+++÷=,()1551561668161y =+++÷=,()82222218()1541638159.2559.5ii xx =-=++-⨯=∑, ()82222218()1551668161116ii yy =-=++-⨯=∑,()8181541551631668159.2516180iii x y x y =-⨯++⨯-⨯⨯=∑,所以963.01165.5980≈⨯=r ,由检验水平0.05及26n -=,在附录2中查得707.005.0=r ,因为0.9630.707>,所以可以认为x 与y 之间具有较强的线性相关关系.线性回归模型y a bx ε=++中,a b 的估计值,a b 分别为()8182218 1.345,8i ii ii x y x yb xx==-=≈-∑∑ 53.191a y bx =-≈-,故y 对x 的线性回归方程为x y 345.1191.53+-=.例2.要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随10(2)如果x 与y 之间具有线性相关关系,求线性回归方程;(3)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.解:(1)因为()16367767010x =⨯+++=,()16578757610y =⨯+++=, 101()()1894xy i i i L x x y y ==--=∑,2101()2474xx i i L x x ==-=∑,1021()2056yy i i L y y ==-=∑.因此求得相关系数为10()()0.840iix x y y L r --===∑.结果说明这两组数据的相关程度是比较高的;小结解决这类问题的解题步骤:(1)作出散点图,直观判断散点是否在一条直线附近; (2)求相关系数r ;(3)由检验水平和2n -的值在附录中查出临界值,判断y 与x 是否具有较强的线性相关关系;(4)计算a ,b ,写出线性回归方程. 2.练习:104P 练习第1题. 五.回顾小结:1.相关系数的计算公式与回归系数b 计算公式的比较; 2.相关系数的性质;3.探讨相关关系的基本步骤.P习题3.2第1题.六.课外作业:106。
3.1 回归剖析教课目的(1)经过实例引入线性回归模型,感觉产生随机偏差的原由;(2)经过对回归模型的合理性等问题的研究,浸透线性回归剖析的思想和方法;(3)能求出简单实质问题的线性回归方程.教课要点,难点线性回归模型的成立和线性回归系数的最正确预计值的探究方法.教课过程一.问题情境1.情境:对一作直线运动的质点的运动过程观察了8次,获得以下表所示的数据,试预计当x=9时的地点 y 的值.时辰 x /s1*******地点观察值 y /cm 5.547.5210.0211.7315.6916.1216.9821.06依据《数学 3 (必修)》中的有关内容,解决这个问题的方法是:先作散点图,以下列图所示:从散点图中能够看出,样本点呈直线趋向,时间 x 与地点观察值y 之间有着较好的线性关系.所以能够用线性回归方程来刻画它们之间的关系.依据线性回归的系数公式,nx i y i nx yb i1n2n(x)2x ii1a y bx能够获得线性回归方为$y 3.5361 2.1214x ,所以当 x9 时,由线性回归方程能够估计其地点值为2.问题:在时辰$y 22.6287x 9 时,质点的运动地点必定是22.6287cm吗?二.学生活动思虑,议论:这些点其实不都在同一条直线上,上述直线其实不可以精准地反应x 与y之间的关系,y 的值不可以由x 完整确立,它们之间是统计有关关系,y 的实质值与预计值之间存在着偏差.三.建构数学1.线性回归模型的定义:我们将用于预计y 值的线性函数a bx 作为确立性函数;y 的实质值与预计值之间的偏差记为,称之为随机偏差;将 y a bx称为线性回归模型.说明:( 1)产生随机偏差的主要原由有:①所用确实定性函数不适合惹起的偏差; ②忽视了某些要素的影响; ③存在观察偏差.( 2)关于线性回归模型,我们应当考虑下边两个问题:①模型能否合理(这个问题在下一节课解决);②在模型合理的状况下,怎样预计a ,b ?2.探究线性回归系数的最正确预计值:关于问题②,设有n 对观察数据 ( x i , y i ) (i1,2,3, L , n) ,依据线性回归模型,关于每一个 x i ,对应的随机偏差项iy i(a bx i ) ,我们希望总偏差越小越好,即要使n2越小越好. 所以,只需求出使 Q(n)2获得最小值时的i, )( y ix i,i 1i 1值作为 a , b 的预计值,记为 $ $.a , b注:这里的i 就是拟合直线上的点x i ,abx i 到点 P i x i , y i 的距离.用什么方法求 $ $a ,b ?回想《数学 3(必修)》“ 2.4 线性回归方程” P71“热茶问题”中求 a , b 的方法:最小二乘法.利用最小二乘法能够获得$ $的计算公式为a , b$ bnn(x i x)( y i y)x i y i nx yi 1i 1nnn( x)2,( x i x)2x i2i 1i1$$ a ybx此中 x1 n1nn ix i , yy i1n i 1由此获得的直线 $ $ $n 对数据的回归直线, 此直线方程即为线性回归y a bx 就称为这 $ $ 分别为 a , b 的预计值, $ $称为回归系数, $ 方程.此中 a , b a 称为回归截距, b y 称为回归值.在前方质点运动的线性回归方程$ $ $2.1214 .y 3.53612.1214x 中, a3.5361 , b 3. 线性回归方程 $ $ $ $ $ $y a bx 中 a , b 的意义是:以 a 为基数, x 每增添 1 个单位, y 相应地$均匀增添 b 个单位;4.化归思想(转变思想)在实质问题中,有时两个变量之间的关系其实不是线性关系,这就需要我们依据专业知识或散点图,对某些特别的非线性关系,选择适合的变量代换,把非线性方程转变为线性回归方程,进而确立未知参数.下边列举出一些常有的曲线方程,并给出相应的化为线性回归方程的换元公式.( 1)y a by ,x '1,则有 y ' a bx ' .,令 y 'xx( 2)y ax b,令 y 'ln y ,x 'ln x , a 'ln a ,则有y ' a 'bx ' .( 3)y ae bx,令 y 'ln y ,x 'x , a 'ln a ,则有y ' a 'bx ' .b1( 4)y ae x,令 y 'ln y , x ', a 'ln a ,则有y ' a 'bx ' .x( 5)y a b ln x ,令 y ' y ,x'ln x ,则有y' a bx '.四.数学运用1.例题:例 1 .下表给出了我国从1949年至1999年人口数据资料,试依据表中数据预计我国2004年的人口数.年份人口数 / 百万1949 1954 1959 1964 1969 1974 1979 1984 1989 1994 1999 542 603 672 705 807 909 975 1035 1107 1177 1246解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y 表示,获得下边的数据表:x05101520253035404550y5426036727058079099751035110711771246作出 11个点x, y组成的散点图,由图可知,这些点在一条直线邻近,能够用线性回归模型的关系.依据公式( 1)可得y a bx来表示它们之间$14.453,b$527.591.a$ $这里的 a, b 分别为a, b的估计值,所以线性回归方程$为y 527.591 14.453x由于 2004 年对应的 x55,代入线性回归方程$527.591 14.453x 可得y$1322.506(百万),即 2004 年的人口总数预计为13.23 亿 .y例 2.某地域对当地的公司进行了一次抽样检查,下表是此次抽查中所获得的各公司的人均资本 x (万元)与人均产出y(万元)的数据:人均资本34 5.5 6.578910.511.514x /万元人均产出 4.12 4.678.6811.0113.0414.4317.5025.4626.6645.20 y/ 万元( 1)设y与x之间拥有近似关系y ax b( a, b 为常数),试依据表中数据预计 a 和b的值;( 2)预计公司人均资本为16万元时的人均产出(精准到0.01).剖析:依据 x ,y所拥有的关系可知,此问题不是线性回归问题,不可以直接用线性回归方程办理.但由对数运算的性质可知,只需对y ax b的两边取对数,就能将其转变为线性关系.解( 1)在y ax b的两边取常用对数,可得lg y lg a b lg x ,设 lg y z , lg a A ,lg x X ,则z A bX .有关数据计算如图 327 所示.A B C D E F G H I J K1人均资本34 5.5 6.578910.511.514 x /万元2人均产出4.12 4.678.6811.0113.0414.4317.525.4626.6645.2 y /万元3X lg x0.477120.602060.740360.812910.84510.903090.95424 1.02119 1.0607 1.14613 4z lg y0.61490.669320.93852 1.04179 1.11528 1.15927 1.24304 1.40586 1.42586 1.65514μ0.2155,模仿问题情境可得 A , b 的预计值μ $分别为A$0.2155可得A , b$由 lg a1.5677,b$0.6088 ,即a ,b的预计值分别为0.6088和1.5677.a(2)由( 1)知页)$0.6088x1.56773 2 8(见书籍P102 y.样本数据及回归曲线的图形如图当x 16时,$1.56770.60881647.0116万元时,人(万元),故当公司人均资本为均产值约为 47.01万元.2.练习:P104练习第1题.五.回首小结:1. 线性回归模型y a bx 与确立性函数 ya bx 对比,它表示 y 与 x 之间是统计相关关系(非确立性关系) 此中的随机偏差 供给了选择模型的准则以及在模型合理的状况下探究最正确预计值$ $ 的工具; a , b 2. 线性回归方程 $$ $ $ $$ ya bx 中 a ,b 的意义是:以 a 为基数, x 每增添 1 个单位, y 相应地$均匀增添 b 个单位;3.求线性回归方程的基本步骤.六.课外作业: P 106 第 2 题.回归剖析 (2)教课目的( 1)经过实例认识有关系数的观点和性质,感觉有关性查验的作用; ( 2)能对有关系数进行明显性查验,并解决简单的回归剖析问题; ( 3)进一步认识回归的基本思想、方法及初步应用.教课要点,难点有关系数的性质及其明显性查验的基本思想、操作步骤.教课过程一.问题情境1.情境:下边是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程能够用作展望和预计吗?10 10 8 8664系4 2 2 051015510152.问题:思虑、议论:求得的线性回归方程能否有实质意义. 二.学生活动对随意给定的样本数据,由计算公式都能够求出相应的线性回归方程,但求得的线性回归方程未必有实质意义.左图中的散点显然不在一条直线邻近,不可以进行线性拟合,求得的线性回归方程是没有实质意义的;右图中的散点基本上在一条直线邻近,我们能够大略地预计两个变量间有线性有关关系,但它们线性有关的程度怎样,怎样较为精准地刻画线性有关关系呢?这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量 x 与 y 的线性有关性进行查验(简称有关性查验) .三.建构数学1.有关系数的计算公式:关于 x ,y随机取到的 n 对数据 (x i , y i) (i1,2,3, L , n) ,样真有关系数r 的计算公式为n n( x i x)( y i y)x i y i nx yr i 1i1. 2n n n n( x i x) 2( y i y) 2(x i2n( x)2 )(y i2n( y)2 )i 1i 1i1i 12.有关系数r 的性质:(1)| r | 1;(2)| r |越靠近与 1,x,y的线性有关程度越强;(3)| r |越靠近与 0,x,y的线性有关程度越弱.可见,一条回归直线有多大的展望功能,和变量间的有关系数亲密有关.3.对有关系数r 进行明显性查验的步骤:有关系数 r 的绝对值与1靠近到什么程度才表示利用线性回归模型比较合理呢?这需要对有关系数 r 进行明显性查验.对此,在统计上有明确的查验方法,基本步骤是:( 1)提出统计假定H 0:变量 x ,y不拥有线性有关关系;( 2)假如以95%的掌握作出推测,那么能够依据1 0.950.05与n 2( n 是样本容量)在附录 2 (教材P111)中查出一个r 的临界值 r0.05(此中10.950.05 称为查验水平);( 3)计算样真有关系数r ;( 4)作出统计推测:若| r |r0.05,则否认 H 0,表示有95%的掌握以为变量y与 x 之间拥有线性有关关系;若| r |r0.05,则没有原由拒绝H 0,即就当前数据而言,没有充足理由以为变量y 与x之间拥有线性有关关系.说明: 1.对有关系数r进行明显性查验,一般取查验水平0.05,即靠谱程度为 95% .2.这里的r指的是线性有关系数,r 的绝对值很小,不过说明线性有关程度低,不必定不有关,可能是非线性有关的某种关系.3.这里的r是对抽样数据而言的.有时即便| r |1,二者也不必定是线性有关的.故在统计剖析时,不可以就数据论数据,要联合实质状况进行合理解说.4.关于上节课的例1,可按下边的过程进行查验:(1)作统计假定H 0: x 与y不拥有线性有关关系;(2)由查验水平0.05与 n 2 9 在附录 2 中查得r0.050.602 ;(3)依据公式 2 得有关系数 r0.998 ;(4 )由于 r0.998 0.602,即 rr0.05 ,所以有 95 ﹪的掌握以为 x 与 y 之间拥有线 性有关关系 ,线性回归方程为 $y 527.591 14.453x 是存心义的.四.数学运用1.例题:例 1.下表是随机抽取的8 对母女的身高数据 ,试依据这些数据商讨y 与 x 之间的关系.母亲自高 x / cm 154 157 158 159 160 161 162 163女儿身高 y / cm155156159162161164165166解:所给数据的散点图以下图:由图能够看出,这些点在一条直线邻近,由于 x154 157 L163 8 159.25, y155 156 L 166 8 161,82 8( x)2 15421632 8 159.252x i L59.5 ,i 1 8y i 2 8( y)21552 L 1662 8 1612 116 ,i 1 8x i y i 8x y 154155 L163 166 8 159.25 161 80 ,i 1所以 r800.963 ,59.5116由查验水平 0.05及n2 6 ,在附录 2 中查得 r 0.05 0.707 ,由于 0.963 0.707,所以可以以为 x 与 y 之间拥有较强的线性有关关系.线性回归模型y a bx 中 a, b 的预计值 a$, b $分别为8x i y i 8x y$$bi 11.345,53.191,82a ybx2xx i8i 1故 y 对 x 的线性回归方程为y 53.191 1.345x .例 2.要剖析学生高中入学的数学成绩对高一年级数学学习的影响, 在高一年级学生中随机抽取 10名学生,剖析他们入学的数学成绩和高一年级期末数学考试成绩以下表:学生编号12 3 4 5 6 7 8 9 10 入学成绩 x63 67 45 88 81 71 52 99 58 76高一期末成绩 y 65 78 52 82 92 89 73 98 56 75( 1)计算入学成绩 x 与高一期末成绩 y 的有关系数;( 2)假如 x 与 y 之间拥有线性有关关系,求线性回归方程;( 3)若某学生入学数学成绩为 80 分,试预计他高一期末数学考试成绩.解: (1) 由于 x1 63 67 L76 1 6578L 7576 ,1070 , y1010102Lxy(x ix)( y iy) 1894 , L xx( x ix)2474 ,i1i 110y) 2Lyy( y i2056 .i110( x i x)( y i y)Lxy所以求得有关系数为ri 10.840 .10x) 210y) 2L xxLyy( x i( y ii 1i 1结果说明这两组数据的有关程度是比较高的; 小结解决这种问题的解题步骤:( 1)作出散点图,直观判断散点能否在一条直线邻近;( 2)求有关系数 r ;( 3)由查验水平易 n 2 的值在附录中查出临界值,判断y 与 x 能否拥有较强的线性有关关系;$ $,写出线性回归方程.( 4)计算 a , b2.练习: P 104 练习第 1题.五.回首小结:1.有关系数的计算公式与回归系数$计算公式的比较;b2.有关系数的性质;3.商讨有关关系的基本步骤.六.课外作业:P106习题3.2第1题.。
3.1 回归分析教学目标(1)通过实例引入线性回归模型,感受产生随机误差的原因;(2)通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法; (3)能求出简单实际问题的线性回归方程. 教学重点,难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法. 教学过程 一.问题情境1. 情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计当时刻x /s 1 2 3 45 6 7 8 位置观测值y /cm5.54 7.52 10.02 11.73 15.69 16.12 16.98 21.06根据《数学(必修)》中的有关内容,解决这个问题的方法是: 先作散点图,如下图所示:从散点图中可以看出,样本点呈直线趋势,时间x 与位置观测值y 之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()ni i i nii x y nx y b x n x a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑ 可以得到线性回归方为$3.5361 2.1214y x =+,所以当9x =时,由线性回归方程可以估计其位置值为$22.6287y =2.问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗?二.学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x 与y 之间的关系,y 的值不能由x 完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差. 三.建构数学1.线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型.说明:(1)产生随机误差的主要原因有:①所用的确定性函数不恰当引起的误差; ②忽略了某些因素的影响; ③存在观测误差.(2)对于线性回归模型,我们应该考虑下面两个问题: ①模型是否合理(这个问题在下一节课解决); ②在模型合理的情况下,如何估计a ,b ? 2.探求线性回归系数的最佳估计值:对于问题②,设有n 对观测数据(,)i i x y (1,2,3,,)i n =L ,根据线性回归模型,对于每一个i x ,对应的随机误差项()i i i y a bx ε=-+,我们希望总误差越小越好,即要使21nii ε=∑越小越好.所以,只要求出使21(,)()niii Q y x αββα==--∑取得最小值时的α,β值作为a ,b 的估计值,记为$a,b $. 注:这里的i ε就是拟合直线上的点(),i i x a bx +到点(),i i i P x y 的距离.用什么方法求$a,b $? 回忆《数学3(必修)》“2.4线性回归方程”P71“热茶问题”中求a ,b 的方法:最小二乘法.利用最小二乘法可以得到$a,b $的计算公式为 $1122211()()()()nni i i ii i n ni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑$$,其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线$$y abx =+$就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中$a ,b $分别为a ,b 的估计值,$a 称为回归截距,b $称为回归系数,$y 称为回归值.在前面质点运动的线性回归方程$3.5361 2.1214y x =+中,$ 3.5361a=, 2.1214b =$. 3. 线性回归方程$$y abx =+$中$a ,b $的意义是:以$a 为基数,x 每增加1个单位,y 相应地平均增加b$个单位;4. 化归思想(转化思想)在实际问题中,有时两个变量之间的关系并不是线性关系,这就需要我们根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数.下面列举出一些常见的曲线方程,并给出相应的化为线性回归方程的换元公式. (1)b y a x =+,令'y y =,1'x x=,则有''y a bx =+. (2)by ax =,令'ln y y =,'ln x x =,'ln a a =,则有'''y a bx =+. (3)bxy ae =,令'ln y y =,'x x =,'ln a a =,则有'''y a bx =+. (4)b x y ae =,令'ln y y =,1'x x=,'ln a a =,则有'''y a bx =+. (5)ln y a b x =+,令'y y =,'ln x x =,则有''y a bx =+.四.数学运用 1.例题:例1.下表给出了我国从1949年至1999年人口数据资料,试根据表中数据估计我国2004年的人口数.年份1949 1954 1959 1964 1969 1974 1979 1984 1989 1994 1999人口数/百万 542 603 672 705 807 909 975 1035 1107 1177 1246解:为了简化数据,先将年份减去1949,并将所得值用x 表示,对应人口数用y 表示,x 05 10 15 20 25 30 35 40 45 50 y 542 603 672 705 807 909 975 1035 1107 1177 1246 作出11个点(),x y 构成的散点图,由图可知,这些点在一条直线附近,可以用线性回归模型y a bx ε=++来表示它们之间的关系.根据公式(1)可得$14.453,527.591.ba ⎧≈⎪⎨≈⎪⎩$ 这里的$,a b$分别为,a b 的估 计值,因此线性回归方程 为$527.59114.453y x =+由于2004年对应的55x =,代入线性回归方程$527.59114.453y x =+可得$1322.506y =(百万),即2004年的人口总数估计为13.23亿. 例2. 某地区对本地的企业进行了一次抽样调查,下表是这次抽查中所得到的各企业的人均资本x (万元)与人均产出y (万元)的数据:(1)设y 与x 之间具有近似关系by ax ≈(,a b 为常数),试根据表中数据估计a 和b 的值; (2)估计企业人均资本为16万元时的人均产出(精确到0.01).分析:根据x ,y 所具有的关系可知,此问题不是线性回归问题,不能直接用线性回归方程处理.但由对数运算的性质可知,只要对by ax ≈的两边取对数,就能将其转化为线性关系.解(1)在by ax ≈的两边取常用对数,可得lg lg lg y a b x ≈+,设lg y z =,lg a A =,lg x X =,则z A bX ≈+.相关数据计算如图327--所示.仿照问题情境可得A ,b 的估计值µA ,b $分别为µ0.2155,1.5677,A b ⎧=-⎪⎨=⎪⎩$由$lg 0.2155a =-可得$0.6088a≈,即a ,b 的估计值分别为0.6088和1.5677. (2)由(1)知$ 1.56770.6088y x =.样本数据及回归曲线的图形如图328--(见书本102P页)当16x =时,$ 1.56770.60881647.01y =⨯≈(万元),故当企业人均资本为16万元时,人均产值约为47.01万元.2.练习:104P 练习第1题. 五.回顾小结:1. 线性回归模型y a bx ε=++与确定性函数y a bx =+相比,它表示y 与x 之间是统计相关关系(非确定性关系)其中的随机误差ε提供了选择模型的准则以及在模型合理的情况下探求最佳估计值$a,b $的工具; 2. 线性回归方程$$y abx =+$中$a ,b $的意义是:以$a 为基数,x 每增加1个单位,y 相应地平均增加b$个单位; 3.求线性回归方程的基本步骤. 六.课外作业:106P 第2题.回归分析(2)教学目标(1)通过实例了解相关系数的概念和性质,感受相关性检验的作用; (2)能对相关系数进行显著性检验,并解决简单的回归分析问题; (3)进一步了解回归的基本思想、方法及初步应用. 教学重点,难点相关系数的性质及其显著性检验的基本思想、操作步骤. 教学过程 一.问题情境1.情境:下面是一组数据的散点图,若求出相应的线性回归方程,求出的线性回归方程可以用作预测和估计吗?2.问题:思考、讨论:求得的线性回归方程是否有实际意义. 二.学生活动对任意给定的样本数据,由计算公式都可以求出相应的线性回归方程,但求得的线性回归方程未必有实际意义.左图中的散点明显不在一条直线附近,不能进行线性拟合,求得的线性回归方程是没有实际意义的;右图中的散点基本上在一条直线附近,我们可以粗略地估计两个变量间有线性相关关系,但它们线性相关的程度如何,如何较为精确地刻画线性相关关系呢?这就是上节课提到的问题①,即模型的合理性问题.为了回答这个问题,我们需要对变量x 与y 的线性相关性进行检验(简称相关性检验).三.建构数学1.相关系数的计算公式:对于x ,y 随机取到的n 对数据(,)i i x y (1,2,3,,)i n =L ,样本相关系数r 的计算公式为()()nniii ix x y y x y nx yr ---==∑∑.()22.相关系数r 的性质: (1)||1r ≤;(2)||r 越接近与1,x ,y 的线性相关程度越强; (3)||r 越接近与0,x ,y 的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 3.对相关系数r 进行显著性检验的步骤:相关系数r 的绝对值与1接近到什么程度才表明利用线性回归模型比较合理呢?这需要对相关系数r 进行显著性检验.对此,在统计上有明确的检验方法,基本步骤是: (1)提出统计假设0H :变量x ,y 不具有线性相关关系;(2)如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在附录2(教材P111)中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); (3)计算样本相关系数r ;(4)作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系.说明:1.对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%. 2.这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.3.这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释. 4.对于上节课的例1,可按下面的过程进行检验: (1)作统计假设0H :x 与y 不具有线性相关关系;(2)由检验水平0.05与29n -=在附录2中查得0.050.602r =; (3)根据公式()2得相关系数0.998r =;(4)因为0.9980.602r =>,即0.05r r >,所以有95﹪的把握认为x 与y 之间具有线性相关关系,线性回归方程为$527.59114.453y x =+是有意义的. 四.数学运用 1.例题:例1.下表是随机抽取的8对母女的身高数据,试根据这些数据探讨y 与x 之间的关系. 母亲身高/x cm 154 157 158 159 160 161 162 163 女儿身高/y cm155156159162161164165166解:所给数据的散点图如图所示:由图可以看出,这些点在一条直线附近,因为()1541571638159.25x =+++÷=L ,()1551561668161y =+++÷=L ,()82222218()1541638159.2559.5ii xx =-=++-⨯=∑L , ()82222218()1551668161116ii yy =-=++-⨯=∑L ,()8181541551631668159.2516180iii x y x y =-⨯++⨯-⨯⨯=∑L,所以963.01165.5980≈⨯=r ,由检验水平0.05及26n -=,在附录2中查得707.005.0=r ,因为0.9630.707>,所以可以认为x 与y 之间具有较强的线性相关关系.线性回归模型y a bx ε=++中,a b 的估计值$,a b$分别为()8182218 1.345,8i ii i i x y x yb x x==-=≈-∑∑ $53.191ay bx =-≈-$, 故y 对x 的线性回归方程为x y 345.1191.53+-=).例2.要分析学生高中入学的数学成绩对高一年级数学学习的影响,在高一年级学生中随(2)如果x 与y 之间具有线性相关关系,求线性回归方程;(3)若某学生入学数学成绩为80分,试估计他高一期末数学考试成绩.解:(1)因为()16367767010x =⨯+++=L ,()16578757610y =⨯+++=L ,101()()1894xy i i i L x x y y ==--=∑,2101()2474xx i i L x x ==-=∑,1021()2056yy i i L y y ==-=∑.因此求得相关系数为10()()0.840iix x y y L r --===∑.结果说明这两组数据的相关程度是比较高的;小结解决这类问题的解题步骤:(1)作出散点图,直观判断散点是否在一条直线附近; (2)求相关系数r ;(3)由检验水平和2n -的值在附录中查出临界值,判断y 与x 是否具有较强的线性相关关系;(4)计算$a,b $,写出线性回归方程. 2.练习:104P 练习第1题. 五.回顾小结:1.相关系数的计算公式与回归系数b$计算公式的比较; 2.相关系数的性质;3.探讨相关关系的基本步骤.P习题3.2第1题.六.课外作业:106。