相关性与最小二乘估计
- 格式:ppt
- 大小:1.74 MB
- 文档页数:18
最新资料推荐最小二乘法拟合原理最小二乘法拟合原理最小二乘拟合在物理实验中经常要观测两个有函数关系的物理量。
根据两个量的许多组观测数据来确定它们的函数曲线,这就是实验数据处理中的曲线拟合问题。
这类问题通常有两种情况:一种是两个观测量x与y之间的函数形式已知,但一些参数未知,需要确定未知参数的最佳估计值;另一种是x与y之间的函数形式还不知道,需要找出它们之间的经验公式。
后一种情况常假设x与y之间的关系是一个待定的多项式,多项式系数就是待定的未知参数,从而可采用类似于前一种情况的处理方法。
一、最小二乘法原理在两个观测量中,往往总有一个量精度比另一个高得多,为简单起见把精度较高的观测量看作没有误差,并把这个观测量选作x,而把所有的误差只认为是y的误差。
设x和y的函数关系由理论公式y = f (x; cl , c2 , cm) (0-0-1 ) 给出,其中cl , c2 , cm是m个要通过实验确定的参数。
对于每组观测数据(xi , yi ) i = 1, 2 , , N。
都对应于xy平面上一个点。
若不存在测量误差,则这些数据点都准确落在理论曲线上。
只要选取m组测量值代入式(0-0-1 ),便得到方程组yi1 / 12=f (x; cl , c2 , cm)(0-0-2 )式中i = 1,2 , , m.求m个方程的联立解即得m个参数的数值。
显然Nm时,参数不能确定。
在Nm的情况下,式(0-0-2)成为矛盾方程组,不能直接用解方程的方法求得m个参数值,只能用曲线拟合的方法来处理。
设测量中不存在着糸统误差,或者说已经修正,则y 的观测值yi围绕着期望值f (x ;cl ,c2 , cm)摆动,其分-布为正态分布,则yi的概率密度为p yi 1 yi f xi;c1, c2, ............................... , cm exp 2 2 i2 i2 ,式中i是分布的标准误差为简便起见,下面用C代表(cl,c2,cm)。
第三节 最小二乘估计量的性质三大性质:线性特性、无偏性和最小偏差性 一、 线性特性的含义线性特性是指参数估计值1ˆβ和2ˆβ分别是观测值t Y 或者是扰动项t μ的线性组合,或者叫线性函数,也可以称之为可以用t Y 或者是t μ来表示。
1、2ˆβ的线性特征证明 (1)由2ˆβ的计算公式可得: 222222()ˆt tttt ttttttt tt tt x y x Y x Y xxx xx x x x β--===⎛⎫== ⎪ ⎪⎝⎭∑∑∑∑∑∑∑∑∑∑∑Y Y Y Y需要指出的是,这里用到了因为t x 不全为零,可设2tt tx b x =∑,从而,t b 不全为零,故2ˆt t b β=∑Y 。
这说明2ˆβ是t Y 的线性组合。
(2)因为12t t t Y X ββμ=++,所以有()212122ˆt t t t t t t t t t t tb b X b b X b b βββμββμβμ==++=++=+∑∑∑∑∑∑Y这说明2ˆβ是t μ的线性组合。
需要指出的是,这里用到了220t t t t t x x b x x ===∑∑∑∑∑以及 ()2222222201t t tt t t tt ttttttttx x X x b X X x x x x X x X x x x x x⎛⎫+⎪== ⎪⎝⎭++==+=∑∑∑∑∑∑∑∑∑∑∑∑∑2、1ˆβ的线性特征证明 (1)因为12ˆˆY X ββ=-,所以有 ()121ˆˆ1t t t t tY X Y X b nXb n ββ=-=-⎛⎫=- ⎪⎝⎭∑∑∑Y Y这里,令1a Xb n=-,则有1ˆt a β=∑Y 这说明1ˆβ是t Y 的线性组合。
(2)因为回归模型为12t t t Y X ββμ=++,所以()11212ˆt t t t t t t t t ta a X a a X a βββμββμ==++=++∑∑∑∑∑Y因为111t t t a Xb X b nn⎛⎫=-=-=⎪⎝⎭∑∑∑∑。
相关性最小二乘估计回归分析与独立性检验一、相关性相关性是指两个变量之间的相互关系程度。
在统计学中,常用的衡量相关性的指标是相关系数。
相关系数可以分为皮尔逊相关系数和斯皮尔曼相关系数。
1. 皮尔逊相关系数(Pearson correlation coefficient):用于测量两个连续变量之间的线性相关性。
其取值范围为[-1,1],其中1表示完全正相关,-1表示完全负相关,0表示无相关性。
2. 斯皮尔曼相关系数(Spearman correlation coefficient):用于测量两个变量之间的单调相关性,适用于变量类型是有序或等级的情况。
与皮尔逊相关系数类似,斯皮尔曼相关系数的取值范围也是[-1,1]。
二、最小二乘估计最小二乘估计是一种常用的参数估计方法,主要用于线性回归模型。
其思想是通过最小化残差平方和来寻找最优的模型参数。
在回归分析中,最小二乘估计可以帮助我们找到最佳拟合线,使得观测值与预测值之间的差异最小化。
具体而言,最小二乘估计的步骤如下:1.指定一个线性回归模型,并假设模型中的参数。
2.根据观测值和估计的参数计算预测值。
3.计算观测值与预测值之间的差异,即残差。
4.最小化残差平方和,得到最优的模型参数。
最小二乘估计的优点是计算简单,容易理解。
然而,最小二乘估计也有一些局限性,如对异常值敏感等。
三、回归分析回归分析是一种用于研究两个或多个变量之间关系的统计方法。
在回归分析中,自变量用于预测因变量的取值。
回归分析可以帮助我们了解变量之间的相互作用,并可以用于预测未来值。
回归分析主要有两种类型:线性回归和非线性回归。
线性回归假设自变量和因变量之间存在线性关系,而非线性回归假设关系可以是任意的。
回归分析的步骤如下:1.选择回归模型:确定自变量和因变量之间的关系类型。
2.收集数据:收集自变量和因变量的观测值。
3.估计参数:使用最小二乘估计等方法估计回归方程中的参数。
4.检验拟合优度:通过计算残差平方和等指标来评估回归模型的拟合优度。
§7相关性§8最小二乘估计1.变量之间的两种关系(1)函数关系:函数关系是一种①的关系.例如,圆的面积S=πr2,面积S与半径r之间就是一种确定性的关系,对于自变量r的每一个确定的值,都有唯一的确定的S的值与之对应.(2)相关关系:变量之间有一定的联系,但不能完全用②来表示.如人的体重与身高的关系,一般来说,身高越高体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.在现实生活中,相关关系到处存在,从某种意义上说,函数关系可以看作是一种理想的关系模型.研究和学习相关关系,不仅使我们能够处理更为广泛的数学问题,还可以使我们对函数关系的认识再上升到一个新的高度.2.线性回归方程(1)散点图用横坐标表示一个变量,纵坐标表示另一个变量,建立平面直角坐标系,将给出的数据所表示的点在坐标系内标出,这样的图就称为③.从散点图可以看出,给出的点是否集中在一条直线附近.(2)最小二乘法如果有几个样本点(x1,y1),(x2,y2),…,(xn,yn),可以用表达式[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2来刻画这些点与直线y=a+bx的接近程度,使此式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.(3)线性相关关系能用直线方程近似表示的相关关系叫作④.如果在散点图中,各点集中在一条直线附近,则称这两个变量具有线性相关关系.(4)线性回归方程、回归直线一般地,设x与y是具有相关关系的两个变量,且相应的n组观测值的n个点(xi ,yi)(i=1,2,…,n)大致分布在一条直线的附近,求在整体上与这n个点最接近的一条直线.设所求直线的方程为y=bx+a,其中a,b是待定的参数,则{b=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2=∑i=1nx i y i-nx y∑i=1nx i2-nx2, a=y-bx,其中x=1n ∑i=1nxi,y=1n∑i=1nyi.这时我们将所得到的直线方程叫作线性回归方程,相应的直线叫作回归直线.注意:(i)在求出这种具有两个变量的回归直线后,就可以根据其部分观测值获得对这两个变量之间的整体关系的了解;(ii)线性相关关系主要研究两个变量之间的关系;(iii)由不具有线性相关关系的数据求出的线性回归方程是毫无意义的.一、判断变量间的相关性1.(2013湖北,4,5分,★★☆)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是( )A.①②B.②③C.③④D.①④思路点拨本题主要考查线性回归的有关概念,注意题目中选择的是不正确的.二、线性回归方程的应用2.(2014重庆,3,5分,★★☆)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x+2.3 B.y ^=2x-2.4C.y ^=-2x+9.5 D.y ^=-0.3x+4.4思路点拨 线性回归方程一定过点(x ,y ),验证各选项,由正相关,可得答案. 3.(2012湖南,5,5分,★☆☆)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71,则下列结论中不正确的是( ) A.y 与x 具有正的线性相关关系 B.回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg思路点拨 本题主要考查两个变量间的相关性、最小二乘法及正相关、负相关的概念.4.(2013福建,11,5分,★★☆)已知x 与y 之间的几组数据如下表:x 1 2 3 4 5 6 y 0 2 1 3 3 4假设根据上表数据所得线性回归直线方程为y ^=b ^x+a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x+a',则以下结论正确的是( ) A.b ^>b',a ^>a' B.b ^>b',a ^<a' C.b ^<b',a ^>a' D.b ^<b',a ^<a'5.(2012福建,18,12分,★★☆)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据: 单价x(元) 8 8.2 8.4 8.6 8.8 9 销量y(件)908483 807568(1)求回归直线方程y ^=bx+a,其中b=-20,a=y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)思路点拨利用待定系数法求得回归直线方程,列关于利润的方程求解,即得结论.基础巩固训练1.下列两个变量之间的关系不是函数关系的是( )A.角度和它的余弦值B.正方形边长和面积C.正n边形的边数和内角和D.人的年龄和身高2.变量y与x之间的回归方程( )A.表示y与x之间的函数关系B.表示y与x之间的不确定关系C.反映y与x之间的真实关系D.反映y与x之间的真实关系达到最大限度的吻合3.对变量x,y,有观测数据(xi ,yi)(i=1,2,…,10),得散点图(1);对变量u,v,有观测数据(ui ,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )A.变量x与y线性相关,u与v非线性相关B.变量x与y非线性相关,u与v线性相关C.变量x与y线性相关,u与v线性相关D.变量x与y非线性相关,u与v非线性相关4.若用水量x与某种产品的产量y的线性回归方程是y=2x+1 250,若用水量为50 kg,预计该种产品的产量是( )A.1 350 kgB.大于1 350 kgC.小于1 350 kgD.以上都不对5.已知x与y具有线性相关关系,它们之间的一组数据如下表:x 0 1 2 3y 1 2 4 6则y与x的回归直线y=bx+a必过点( )A.(2,3)B.(1.5,2)C.(1.5,3.25)D.(2,3.25)6.画出下表中对应数据的散点图.根据散点图判断两个变量是否具有相关关系.A 26 18 13 10 4 -1B 20 24 34 38 50 64能力提升训练7.若在一次试验中,测得(x,y)的四组数值分别是(1,3),(2,3.8),(3,5.2),(4,6),则y 与x 之间的回归直线方程是( ) A.y=x+1.9 B.y=1.04x+1.9 C.y=0.95x+1.04D.y=1.05x-0.98.“回归”一词是在研究子女身高与父母身高之间的遗传关系时,由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程y=a+bx 中,b( ) A.在(-1,0)内 B.等于0 C.在(0,1)内D.在[1,+∞)内9.某个服装店经营某种服装,在某周内每天获得的纯利y(元)与该周每天销售这种服装件数x(件)的数据如下表所示: x 3 4 5 6 7 8 9 y66697381899091已知∑i=17x i 2=280,∑i=17y i 2=45 309,∑i=17x i y i =3 487.(1)求x ,y ; (2)画出散点图;(3)求每天获得的纯利y(元)与每天销售件数x(件)之间的线性回归方程.10.一机器可以按不同的速度运转,其生产物件有一些会有缺陷,每小时生产有缺陷物件的多少随机器运转速度而变化,用x 表示转速(单位:转/秒),用y 表示每小时生产的有缺陷物件个数,现得到(x,y)的4组观测值为(8,5),(12,8),(14,9),(16,11).(1)假定y与x之间有线性相关关系,求y与x之间的回归直线方程;(2)若实际生产中所容许的每小时最多生产的有缺陷物件个数为10,则机器的速度不得超过多少转/秒?(精确到1)11.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量与冶炼时间的关系.已测得炉料熔化完毕时,钢水含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据如下表所示:x(0.01%) 104 180 190 177 147 134 150 191 204 121 y(min) 100 200 210 185 155 135 170 205 235 125(1)作出散点图,你能从散点图中发现钢水含碳量与冶炼时间的一般规律吗?(2)求线性回归方程;(3)预测当钢水含碳量为160时,冶炼时间应为多长较合适?知识清单①确定性 ②函数 ③散点图 ④线性相关关系链接高考1.D 由回归直线方程y ^=^x+a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.2.A 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 3.D ∵0.85>0, ∴y 与x 正相关, ∴A 正确;∵线性回归方程经过样本点的中心(x ,y ), ∴B 正确;∵Δy=f(x+1)-f(x)=0.85(x+1)-85.71-(0.85x-85.71)=0.85, ∴C 正确.故选D.4.C x =216=72,y =136,代入公式求得b ^=58-6×72×13691-6×(72)2=57,a ^=y -b ^x =136-57×72=-13, 而b'=2,a'=-2,∴b ^<b',a ^>a',故选C. 5.解析 (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5, y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80,所以a=y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x+250. (2)设工厂获得的利润为L 元, 依题意得L=x(-20x+250)-4(-20x+250) =-20x 2+330x-1 000 =-20(x -334)2+361.25.当且仅当x=334=8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.基础过关基础巩固训练1.D D 是相关关系,非函数关系.2.D3.C 由题中两个散点图可以判断,变量x 与y 线性相关,u 与v 线性相关,故选C.4.A 预测值为y=2×50+1 250=1 350(kg).5.C x =0+1+2+34=1.5,y =1+2+4+64=3.25.回归直线必过点(x ,y ),即(1.5,3.25). 6.解析 散点图如图所示.从图中可以看出各点都在一条直线附近,因此两个变量具有相关关系. 能力提升训练 7.B x =1+2+3+44=2.5,y =3+3.8+5.2+64=4.5,将(2.5,4.5)代入选项验证得B 正确.8.C 因为子代的平均身高向中心回归,所以b∈(0,1). 9.解析 (1)x =3+4+5+6+7+8+97=6.y =66+69+73+81+89+90+917=5597≈79.86.(2)散点图如下:(3)由(2)中散点图知,y 与x 有线性相关关系.设线性回归方程为y=bx+a,∵∑i=17x i 2=280,∑i=17x i y i =3 487,x =6,y =5597, ∴b=3 487-7×6×5597280-7×36=13328=4.75,a=5597-6×4.75≈51.36.∴线性回归方程为y=4.75x+51.36. 10.(1)设回归直线方程为y=bx+a, 则x =8+12+14+164=12.5,y =5+8+9+114=8.25,x 2=156.25,x ·y =103.125,∑i=14x i y i =5×8+12×8+14×9+16×11=438, ∑i=14x i 2=82+122+142+162=660.∴b=∑i=14x i y i -4x ·y ∑i=14x i 2-4x 2=438-4×103.125660-4×156.25=438-412.5660-625≈0.728 6,a=y -b x =8.25-0.7286×12.5=-0.857 5.∴y 与x 之间的回归直线方程为y=0.728 6x-0.857 5.(2)要使y≤10,即0.728 6x-0.857 5≤10,所以x≤14.901 9,所以机器的速度不得超过15转/秒.11.解析 (1)以x 轴表示钢水含碳量,y 轴表示冶炼时间,可作散点图如图所示.从图中可以看出,各点分布在一条直线附近,即它们线性相关. (2)列出下表,并用科学计算器进行计算: i 1 2 3 4 5 x i 104 180 190 177 147 y i100200210185155x i y i 10 400 36 000 39 900 32 745 22 785 i 6 7 8 9 10 x i 134 150 191 204 121 y i 135 170 205 235 125 x i y i18 09025 50039 15547 94015 125x =159.8,y =172, ∑i=110x i 2=265 448,∑i=110x i y i =287 640.设所求的线性回归方程为y=bx+a.b=∑i=110x i y i -10x ·y ∑i=110x i2-10x 2≈1.267,a=y -b x =-30.466 6.∴线性回归方程为y=1.267x-30.466 6.(3)当x=160时,y=1.267×160-30.466 6=172.253 4. 即预测当钢水含碳量为160时,冶炼172.253 4 min 较合适.。
标准曲线的最⼩⼆乘法拟合和相关系数标准曲线的最⼩⼆乘法拟合和相关系数(合肥⼯业⼤学控释药物研究室尹情胜)1 ⽬的⽤最⼩⼆乘法拟合⼀组变量(,,i=1-n)之间的线性⽅程(y=ax+b),表⽰两变量间的函数关系;(开创者:德国数学家⾼斯)⼀组数据(,,i=1-n)中,两变量之间的相关性⽤相关系数(R)来表⽰。
(开创者:英国统计学家卡尔·⽪尔逊)2 最⼩⼆乘法原理⽤最⼩⼆乘法拟合线性⽅程时,其⽬标是使拟合值()与实测值()差值的平⽅和(Q)最⼩。
式(1)3 拟合⽅程的计算公式与推导当Q最⼩时,;得到式(2)、式(3):式(2)式(3)由式(3)和式(4),得出式(4)和式(5):式(4)式(5)式(4)乘以n,式(5)乘以,两式相减并整理得斜率a:斜率(k=xy/xx,n*积和-和积)式(6)截距b的计算公式为公式(5),也即:截距b=(y-x)/n,差平均差)式(7)4 相关系数的意义与计算公式相关系数(相关系数的平⽅称为判定系数)是⽤以反映变量之间相关关系密切程度的统计指标。
相关系数(也称积差相关系数)是按积差⽅法计算,同样以两变量与各⾃平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
相关系数r xy取值在-1到1之间。
r xy = 0时,称x,y不相关;| r xy | = 1时,称x,y完全相关,此时,x,y之间具有线性函数关系;| r xy | < 1时,X的变动引起Y的部分变动,r xy的绝对值越⼤,x的变动引起y的变动就越⼤,|r xy | > 0.8时称为⾼度相关,当0.5< | r xy|<0.8时称为显著相关,当0.3<| r xy |<0.5时,成为低度相关,当| r xy | < 0.3时,称为⽆相关。
(式(7)5 临界相关系数的意义5.1 临界相关系数中显著性⽔平(α)与置信度(P)的关系显著性⽔平取0.05,表⽰置信度为95%;取0.01,置信度就是99%。
第9章第3节相关性最小二乘估计回归分析与独立性检验首先来看相关性。
相关性是指两个或多个变量之间的关联程度。
相关性可以用相关系数来度量,最常用的是皮尔逊相关系数。
皮尔逊相关系数的取值范围为-1到1,其中1表示完全正相关,-1表示完全负相关,0表示无相关性。
相关性分析可以帮助我们了解两个变量之间的关系,以及一个变量的变化如何影响另一个变量。
最小二乘估计是一种用于估计回归方程中参数的方法。
回归方程是用来描述一个因变量和一个或多个自变量之间关系的数学模型。
最小二乘估计通过最小化实际观测值和回归方程预测值之间的平方差来找到最佳拟合的回归模型。
最小二乘估计的结果是一组参数估计值,可以用来预测因变量的值。
回归分析是利用回归模型来分析因变量和自变量之间的关系。
回归分析可以用于预测因变量的值,检验自变量对因变量的影响,以及评估模型的拟合度等。
回归分析可以应用于各种领域,如经济学、医学、社会学等。
通过回归分析,我们可以找出自变量对因变量的贡献程度,并使用回归模型进行预测和决策。
独立性检验是用于判断两个或多个变量之间是否存在关联性的方法。
独立性检验通常用于分析分类变量之间的关系。
最常用的独立性检验方法是卡方检验。
卡方检验通过比较实际观测值和期望频数之间的差异来判断两个变量之间是否独立。
如果实际观测值和期望频数之间没有显著差异,可以认为两个变量是独立的;反之,如果有显著差异,则说明两个变量存在关联性。
总结起来,相关性、最小二乘估计、回归分析和独立性检验是统计学中常用的分析变量之间关系的方法。
它们可以帮助我们了解变量之间的关联程度,估计回归方程中的参数,预测因变量的值,判断变量之间是否独立等。
在实际应用中,我们可以根据具体研究问题选择适当的方法来进行分析。
8.2.2 一元线性回归模型参数的最小二乘估计(第2课时)教学设计一、课时教学内容本节的主要内容是一元线性回归模型,它是线性回归分析的核心内容,也是后续研究两变量间的相关性有关问题的基础.通过散点图直观探究分析得出的直线拟合方式不同,拟合的效果就不同,它们与实际观测值均有一定的偏差.在经历用不同估算方法描述两个变量线性相关关系的过程中,解决用数学方法刻画从整体上看各观测点到拟合直线的距离最小的问题,让学生在此基础上了解更为科学的数据处理方式——最小二乘法,有助于他们更好地理解核心概念“经验回归直线”,并最终体现回归方法的应用价值.二、课时教学目标1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.2.了解非线性回归模型.3.会通过分析残差和利用R2判断回归模型的拟合效果.三、教学重点、难点1.重点:一元线性回归模型的基本思想,经验回归方程,最小二乘法.2.难点:求最小二乘估计,残差分析.四、教学过程设计环节一创设情境,引入课题例经验表明,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高由于测量树高比测量胸径困难,因此研究人员希望由胸径预测树高,在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据(表8.2-3),试根据这些数据建立树高关于胸径的经验回归方程.表8.2-3出散点,进而得到散点图,再根据散点图推断树高与胸径是否线性相关.如果是,再利用公式(2)计算出b ,a 即可.解:以胸径为横坐标、树高为纵坐标作散点图,得到图8.2-9.在图8.2-9中,散点大致分布在一条从左下角到右上角的直线附近,表明两个变量线性相关,并且是正相关,因此可以用一元线性回归模型刻画树高与胸径之间的关系.用d 表示胸径,h 表示树高,根据最小二乘法,计算可得经验回归方程为0.249314.84h d =+,相应的经验回归直线如图8.2-10所示,根据经验回归方程,由表8.2-3中胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差,如表8.2-4所示/cm/cm表8.2-4以胸径为横坐标,残差为纵坐标,作残差图,得到图8.2-11.观察残差表和残差图,可以看到,残差的绝对值最大是0.8,所有残差分布在以横轴为对称轴、宽度小于2的带状区域内.可见经验回归方程较好地刻画了树高与胸径的关系,我们可以根据经验回归方程由胸径预测树高.【师生互动】教师让学生总结建立线性回归模型的一般步骤.建立线性回归模型的基本步骤:(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量.(2)画出解释变量与响应变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型.(4)按一定规则(如最小二乘法)估计经验回归方程中的参数.(5)得出结果后需进行线性回归分析. ①残差平方和越小,模型的拟合效果越好.②决定系数R 2取值越大,说明模型的拟合效果越好.需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可. 环节二 观察分析,感知概念问题 人们常将男子短跑100 m 的高水平运动员称为“百米飞人”.表8.2-5给出了1968年之前男子短跑100 m 世界纪录产生的年份和世界纪录的数据,试依据这些成对数据,建立男子短跑100 m 世界纪录关于纪录产生年份的经验回归方程.表8.2-5【师生活动】师:以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图如下图所示.由散点图可以看出,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.现在用丫表示男子短跑100m 的世界纪录,f 表示纪录产生的年份,你能利用一元线性回归模型求经验回归方程吗?在图8.2-12中,散点看上去大致分布在一条直线附近,似乎可用一元线性回归模型建立经验回归方程.用Y 表示男子短跑100 m 的世界纪录,t 表示纪录产生的年份,利用一元线性回归模型2,()0,()Y bt a e E e D e σ=++⎧⎨==⎩ 来刻画世界纪录和世界纪录产生年份之间的关系.根据最小二乘法,由表中的数据得到经验回归方程为1ˆ0.020*******.76913031yt =-+.① 将经验回归直线叠加到散点图,得到图8.2-13师:在散点图中画出经验回归直线,你能看出其中存在的问题吗? 生:得到下图:环节三 抽象概括,形成概念布特征,例如,第一个世界纪录所对应的散点远离经验回归直线,并且前后两时间段中的散点都在经验回归直线的上方,中间时间段的散点都在经验回归直线的下方,这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征思考:你能对模型进行修改,以使其更好地反映散点的分布特征吗?仔细观察图8.2-12,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数ln y x =-的图象具有类似的形状特征.注意到100 m 短跑的第一个世界纪录产生于1896年,因此可以认为散点是集中在曲线12()ln(1895)y f t c c t ==+-的周围,其中1c ,2c 为未知的参数,且20c <.【设计意图】目的是使学生明白,不是所有的两个变量的关系都适合用一元线性回归模型刻画.师:这说明散点并不是随机分布在经验回归直线的周围,而是围绕着经验回归直线有一定的变化规律,即成对样本数据呈现出明显的非线性相关的特征.师:你能对模型进行修改,以使其更好地反映散点的分布特征吗?生:仔细观察散点图,可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.回顾已有的函数知识,可以发现函数ln y x =-的图象具有类似的形状特征.【设计意图】提醒学生需熟悉常见非线性函数模型的特点.用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中1c ,2c 是待定参数.现在问题转化为如何利用成对数据估计参数1c 和2c .为了利用一元线性回归模型估计参数1c 和2c ,我们引进一个中间变量x ,令ln(1895)x t =-.通过ln(1895)x t =-,将年份变量数据进行变换,得到新的成对数据(精确到0.01),如表8.2-6所示.表8.2-6型和新的成对数据,对参数1c 和2c 作出估计,进而可以得到Y 关于t 的非线性经验回归方程. 在直角坐标系中画出表8.2-6中成对数据的散点图,如图8.2-14所示,散点的分布呈现出很强的线性相关特征.因此,用一元线性回归模型212()0,()Y c x c uE u D u δ=++⎧⎨==⎩拟合表8.2-6中的成对数据,得到经验回归方程2ˆ0.426439811.8012653yx =-+,(*) 再在图8.2-14中画出(*)式所对应的经验回归直线,得到图8.2-15.(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).图8.2-15表明,经验回归方程(*)对于表8.2-6中的成对数据具有非常好的拟合精度.将图8.2-15习图8.2-13进行对比,可以发现x 和Y 之间的线性相关程度比原始样本数据的线性相关程度强得多.将ln(1895)x t =-代入(*)式,得到由创纪录年份预报世界纪录的经验回归方程2ˆ0.4264398ln(1895)11.8012653yt =--+ ② 在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色),表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.【师生活动】师:对于通过创纪录时间预报世界纪录的问题,我们建立了两个回归模型,得到了两个经验回归方程①②,你能判断哪个经验回归方程拟合的精度更好吗?生:散点图中各散点都非常靠近②的图象,表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.【设计意图】分析两个模型的拟合效果,由比较不同回归模型拟合效果的需要,引出评价模型好坏的指标.环节四 辨析理解 深化概念下面通过残差来比较这两个经验回归方程对数据刻画的好坏.在表8.2-5中,用i t 表示编号为i 的年份数据,用i y 表示编号为i 的纪录数据,则经验回归方程①和②的残差计算公式分别为ˆˆ0.020*******.76913031,1,2,,8;0.4264398ln(1895)11.8012653,1,2,,8.i i i i i i ey t i y t i u=+-==+--=图8.2-15(2).残差分析:残差平方和越小,模型拟合效果越好.两个经验回归方程的残差(精确到0.001)如表8.2-7所示.观察各项残差的绝对值,发现经验回归方程②远远小于①,即经验回归方程②的合效果要远远好于①.表8.2-5的绝对值比另一个模型的小,而另一些散点的情况则相反.可以通过比较残差的平方和来比较两个模型的效果.由82110.)669(i i Q e ==≈∑,8221()ˆ0.004i i Q u==≈∑. 可知2Q 小于1Q .因此在残差平方和最小的标准下,非线性回归模型212ln(1895)()0,()Y c t c uE u D u δ=-++⎧⎨==⎩ 的拟合效果要优于一元线性回归模型 的拟合效果.(3).利用决定系数2R 刻画回归效果.也可以用决定系数2R 来比较两个模型的拟合效果,2R 的计算公式为22121()()ˆ1niii nii y yR y y ==-=--∑∑在2R 表达式中,21()n i i y y =-∑与经验回归方程无关,残差平方和21()ˆni i i y y=-∑与经验回归方程有关.因此2R 越大,表示残差平方和越小,即模型的拟合效果越好;2R 越小,表示残差平方和越大,即模型的拟合效果越差.由表8.2-7容易算出经验回归方程①和②的2R 分别约为0.7325和0.9983,因此经验回归方程②的刻画效果比经验回归方程①的好很多.(4) 用新的观测数据来检验模型的拟合效果另外,我们还可以用新的观测数据来检验模型的拟合效果.事实上,我们还有1968年之后的男子短跑100 m 世界记录数据,如表8.2-8所示.表8.2-8回归直线(红色),以及经验回归方程②所对应的经验回归曲线(蓝色),得到图8.2-17显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①.环节五 概念应用,巩固内化思考:在上述问题情境中,男子短跑100 m 世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗? 在使用经验回归方程进行预测时,需要注意下列问题:(1)经验回归方程只适用于所研究的样本的总体.例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系.同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干旱地区的树高与胸径之间的关系.(2)经验回归方程一般都有时效性.例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系.(3)解释变量的取值不能离样本数据的范围太远.一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差.(4)不能期望经验回归方程得到的预报值就是响应变量的精确值.事实上,它是响应变量的可能取值的平均值.师生互动:学生总结建立非线性回归模型的基本步骤.教师及时补充完善.建立非线性经验回归模型的基本步骤:1.确定研究对象,明确哪个是解释变量,哪个是响应变量;2.由经验确定非线性经验回归方程的模型;3.通过变换,将非线性经验回归模型转化为线性经验回归模型;4.按照公式计算经验回归方程中的参数,得到经验回归方程;5.消去新元,得到非线性经验回归方程;6.得出结果后分析残差图是否有异常.判断模型的拟合效果的依据如下:①残差平方和越小,模型的拟合效果越好.②决定系数斤取值越大,说明模型的拟合效果越好.需要注意的是:若题中给出了检验回归方程是否理想的条件,则根据题意进行分析检验即可.【设计意图】探索非线性回归分析问题的求解方法,培养学生的数学应用意识.环节六归纳总结,反思提升1.本节课学习的概念有哪些?(1)非线性回归模型.(2)决定系数.2.比较两个模型拟合效果的方法:(1)残差法,残差越大,拟合效果越差;残差越小,拟合效果越小.(2)R2法,R2越接近1,拟合效果越好,R2越接近0,拟合效果越差.3.对于线性回归模型与非线性回归模型,当数据的散点图分布在直线带状区域内,则选用线性回归模型刻画;当数据的散点分布在曲线带状区域内,要先对数据进行适当变换,再利用线性回归模型进行拟合.4. 在解决问题时,用到了哪些数学思想?转化与化归思想.【设计意图】通过总结,让学生进一步巩固本节所学内容,提高概括能力。
相关函数-最⼩⼆乘法参数估计北⼯商北京⼯商⼤学《系统辨识》课程上机实验报告(2014年秋季学期)专业名称:控制⼯程上机题⽬:相关函数-最⼩⼆乘法参数估计专业班级:计研班学⽣姓名:学号:指导教师:刘、刘2015年1 ⽉⽬录1实验⽬的 (1)2实验原理 (1)2.1 C OR-L S法的思路和算法 (1)2.2 C OR-L S法的计算步骤 (2)2.3 C OR-L S法的特点 (3)3实验内容 (3)4仿真结果 (3)5总结 (5)6附录 (6)6.1 仿真程序 (6)1 实验⽬的1. 利⽤相关函数-最⼩⼆乘结合法进⾏参数估计2. 运⽤MATLAB 编程,掌握算法实现⽅法2 实验原理第⼀步,利⽤相关函数对数据进⾏⼀次相关分析,滤去有⾊噪声的影响,获得被辨识对象的⾮参数模型——脉冲响应(或相关函数);第⼆步,利⽤最⼩⼆乘法进⼀步估计模型的参数。
因此,这种⽅法⼜称⼆步法。
在辨识中,输⼊信号既可以是⽩噪声、伪随机⼆位式信号,也可以是有⾊噪声。
实践证明,这种辨识⽅法效果⾮常好。
2.1 C or-Ls 法的思路和算法离散随机序列(){}u k 和(){}y k (平稳遍历) 有:101()()()N uu N k R u k u k N Lim ττ-→∞==-∑(1)11()()()N uy n k R u k y k N Lim ττ-→∞==-∑(2)考虑过程:()()()()()()1111n n y k a y k a y k n bu k b u k n e k +-+?+-=-+?+-+ (3)设(){}u k 和(){}y k 不相关,即 0ue R ≡,将式(3)左右两边同乘以()u k τ-,有()()()()()()11()()()()()()11 n n u k y k a u k y k a u k y k n b u k u k b u k u k n u k e k ττττττ-+--+?+--=--+?+--+- (4)令0 ,, 1k N =?-,共得N 个等式,将N 个等式相加并除以N ,得出:11()()()()()()11 uy uy n uy uu n uu R a R a R n b R b R n h ττττττ+-+?+-=-+?+-+ (5) 如果从样本数据计算出()1,..,0,1,,n L τ=--,共L 组相关函数,由式(5)得出L 个由*uy R ()和*uu R ()组成的⽅程组:11(1)(0)(1)(0)(1)(2)(1)(2)(1)(2)*()(1)()(1)()uy uy uy uu uu uy uy uy uu uu n uy uy uy uu uu n R R R n R R n a R R R n R R n a b R L R L R L n R L R L n b --------???=??------??(1)()h h L ??+???(6)上式可表达成如下矩阵形式:L L L g R h θ=+(7)上式与最⼩⼆乘的N N N N y θε=Φ+ 相似,故⽤LS 法可得出参数估计θ为:()1T T L L L L R R R g θ-=+(8)为保证()T L L R R 满秩,要求2L n ≥。
(本栏目内容,学生用书中以活页形式单独装订成册!)一、选择题1.下列关系属于线性负相关的是( )A.父母的身高与子女身高的关系B.球的体积与半径之间的关系C.汽车的重量与汽车每消耗1 L汽油所行驶的平均路程D.一个家庭的收入与支出【解析】A、D中的两个变量属于线性正相关,B中两变量是函数关系.【答案】 C2.已知变量x,y呈线性相关关系,回归方程为y=0.5+2x,则变量x,y 是( )A.线性正相关关系B.由回归方程无法判断其正负相关C.线性负相关关系D.不存在线性相关关系【解析】随着变量x增大,变量y有增大的趋势,则x、y称为正相关,则A是正确的.【答案】 A3.某考察团对全国10大城市进行职工人均工资水平x(千元)与居民人均消费水平y(千元)统计调查,y与x具有相关关系,回归方程为y=0.66x+1.562,若某城市居民人均消费水平为7.675千元,估计该城市人均消费额占人均工资收入的百分比约为( )A.83% B.72%C.67% D.66%【解析】将y=7.675代入回归方程,可计算得x≈9.26,所以该城市人均消费额占人均工资收入的百分比为7.675÷9.26≈0.83,即约为83%.【答案】 A4.设有一个回归方程y=2-2.5x ,变量x增加一个单位时,变量y( ) A.平均增加2.5个单位 B.平均增加2个单位C.平均减少2.5个单位 D.平均减少2个单位【解析】因为随x变量增加,y减小,x、y是负相关的,且b=-2.5,故选C.【答案】 C5.下表是x与y之间的一组数据,则y关于x的回归方程y=bx+a必过( )A.点C.点(1,2) D.点(1.5,4)【解析】回归方程必过样本中心点(x,y),经计算得(1.5,4).【答案】 D二、填空题6.已知回归方程y=4.4x+838.19,则可估计x与y增长速度之比约为________.【解析】y=y2-y1=4.4(x2-x1).∴x2-x1y2-y1=14.4=1044≈0.227.【答案】0.2277.在一次实验中,测得(x,y)的四组数值分别为A(1,3),B(2,3.4),C(3,5.6),D(4,6),假设它们存在相关关系,则y与x之间的回归方程为________.【解析】x=1+2+3+44=52,y=3+3.4+5.6+64=92.=(1×3+2×3.4+3×5.6+4×6)-4×52×92 (12+22+32+42)-4×(52)2=5.65=1.12.a=y-b x=92-1.12×52=1.7.∴y=1.7+1.12x.【答案】y=1.7+1.12x8.人的身高与手的扎长存在相关关系,且满足y=0.303x-31.264(x为身高,y为扎长,单位:cm),则当扎长为24.8 cm时,身高为________.【解析】将y=24.8代入,得x=185.03(cm).【答案】185.03 cm三、解答题9.山东鲁洁棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg).(1)画出散点图;(2)判断是否具有相关关系.【解析】(1)散点图如图所示,(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x 与产量y具有线性相关关系.10.某企业的某种产品产量与单位成本统计数据如下:月份 1 2 3 4 5 6 产量(千件) 2 3 4 3 4 5 单位成本(元/件) 73 72 71 73 69 68(2)指出产量每增加1 000件时,单位成本下降多少?(3)假定产量为6 000件时,单位成本是多少?单位成本为70元/件时,产量应为多少件?【解析】(1)设x表示每月产量(单位:千件),y表示单位成本(单位:元/件),作散点图.由图知y与x间呈线性相关关系,设线性回归方程为y=bx+a.由公式可求得b≈-1.818,a=77.364,∴回归方程为y=-1.818x+77.364.(2)由回归方程知,每增加1 000件产量,单位成本下降1.818元.(3)当x=6时,y=-1.818×6+77.364=66.455;当y=70时,70=-1.818x+77.364,得x≈4.051千件.∴产量为6 000件时,单位成本是66.455元/件,单位成本是70元/件时,产量约为4 051件.。