相关性与最小二乘估计
- 格式:ppt
- 大小:1.74 MB
- 文档页数:18
最新资料推荐最小二乘法拟合原理最小二乘法拟合原理最小二乘拟合在物理实验中经常要观测两个有函数关系的物理量。
根据两个量的许多组观测数据来确定它们的函数曲线,这就是实验数据处理中的曲线拟合问题。
这类问题通常有两种情况:一种是两个观测量x与y之间的函数形式已知,但一些参数未知,需要确定未知参数的最佳估计值;另一种是x与y之间的函数形式还不知道,需要找出它们之间的经验公式。
后一种情况常假设x与y之间的关系是一个待定的多项式,多项式系数就是待定的未知参数,从而可采用类似于前一种情况的处理方法。
一、最小二乘法原理在两个观测量中,往往总有一个量精度比另一个高得多,为简单起见把精度较高的观测量看作没有误差,并把这个观测量选作x,而把所有的误差只认为是y的误差。
设x和y的函数关系由理论公式y = f (x; cl , c2 , cm) (0-0-1 ) 给出,其中cl , c2 , cm是m个要通过实验确定的参数。
对于每组观测数据(xi , yi ) i = 1, 2 , , N。
都对应于xy平面上一个点。
若不存在测量误差,则这些数据点都准确落在理论曲线上。
只要选取m组测量值代入式(0-0-1 ),便得到方程组yi1 / 12=f (x; cl , c2 , cm)(0-0-2 )式中i = 1,2 , , m.求m个方程的联立解即得m个参数的数值。
显然Nm时,参数不能确定。
在Nm的情况下,式(0-0-2)成为矛盾方程组,不能直接用解方程的方法求得m个参数值,只能用曲线拟合的方法来处理。
设测量中不存在着糸统误差,或者说已经修正,则y 的观测值yi围绕着期望值f (x ;cl ,c2 , cm)摆动,其分-布为正态分布,则yi的概率密度为p yi 1 yi f xi;c1, c2, ............................... , cm exp 2 2 i2 i2 ,式中i是分布的标准误差为简便起见,下面用C代表(cl,c2,cm)。
第三节 最小二乘估计量的性质三大性质:线性特性、无偏性和最小偏差性 一、 线性特性的含义线性特性是指参数估计值1ˆβ和2ˆβ分别是观测值t Y 或者是扰动项t μ的线性组合,或者叫线性函数,也可以称之为可以用t Y 或者是t μ来表示。
1、2ˆβ的线性特征证明 (1)由2ˆβ的计算公式可得: 222222()ˆt tttt ttttttt tt tt x y x Y x Y xxx xx x x x β--===⎛⎫== ⎪ ⎪⎝⎭∑∑∑∑∑∑∑∑∑∑∑Y Y Y Y需要指出的是,这里用到了因为t x 不全为零,可设2tt tx b x =∑,从而,t b 不全为零,故2ˆt t b β=∑Y 。
这说明2ˆβ是t Y 的线性组合。
(2)因为12t t t Y X ββμ=++,所以有()212122ˆt t t t t t t t t t t tb b X b b X b b βββμββμβμ==++=++=+∑∑∑∑∑∑Y这说明2ˆβ是t μ的线性组合。
需要指出的是,这里用到了220t t t t t x x b x x ===∑∑∑∑∑以及 ()2222222201t t tt t t tt ttttttttx x X x b X X x x x x X x X x x x x x⎛⎫+⎪== ⎪⎝⎭++==+=∑∑∑∑∑∑∑∑∑∑∑∑∑2、1ˆβ的线性特征证明 (1)因为12ˆˆY X ββ=-,所以有 ()121ˆˆ1t t t t tY X Y X b nXb n ββ=-=-⎛⎫=- ⎪⎝⎭∑∑∑Y Y这里,令1a Xb n=-,则有1ˆt a β=∑Y 这说明1ˆβ是t Y 的线性组合。
(2)因为回归模型为12t t t Y X ββμ=++,所以()11212ˆt t t t t t t t t ta a X a a X a βββμββμ==++=++∑∑∑∑∑Y因为111t t t a Xb X b nn⎛⎫=-=-=⎪⎝⎭∑∑∑∑。
相关性最小二乘估计回归分析与独立性检验一、相关性相关性是指两个变量之间的相互关系程度。
在统计学中,常用的衡量相关性的指标是相关系数。
相关系数可以分为皮尔逊相关系数和斯皮尔曼相关系数。
1. 皮尔逊相关系数(Pearson correlation coefficient):用于测量两个连续变量之间的线性相关性。
其取值范围为[-1,1],其中1表示完全正相关,-1表示完全负相关,0表示无相关性。
2. 斯皮尔曼相关系数(Spearman correlation coefficient):用于测量两个变量之间的单调相关性,适用于变量类型是有序或等级的情况。
与皮尔逊相关系数类似,斯皮尔曼相关系数的取值范围也是[-1,1]。
二、最小二乘估计最小二乘估计是一种常用的参数估计方法,主要用于线性回归模型。
其思想是通过最小化残差平方和来寻找最优的模型参数。
在回归分析中,最小二乘估计可以帮助我们找到最佳拟合线,使得观测值与预测值之间的差异最小化。
具体而言,最小二乘估计的步骤如下:1.指定一个线性回归模型,并假设模型中的参数。
2.根据观测值和估计的参数计算预测值。
3.计算观测值与预测值之间的差异,即残差。
4.最小化残差平方和,得到最优的模型参数。
最小二乘估计的优点是计算简单,容易理解。
然而,最小二乘估计也有一些局限性,如对异常值敏感等。
三、回归分析回归分析是一种用于研究两个或多个变量之间关系的统计方法。
在回归分析中,自变量用于预测因变量的取值。
回归分析可以帮助我们了解变量之间的相互作用,并可以用于预测未来值。
回归分析主要有两种类型:线性回归和非线性回归。
线性回归假设自变量和因变量之间存在线性关系,而非线性回归假设关系可以是任意的。
回归分析的步骤如下:1.选择回归模型:确定自变量和因变量之间的关系类型。
2.收集数据:收集自变量和因变量的观测值。
3.估计参数:使用最小二乘估计等方法估计回归方程中的参数。
4.检验拟合优度:通过计算残差平方和等指标来评估回归模型的拟合优度。
§7相关性§8最小二乘估计1.变量之间的两种关系(1)函数关系:函数关系是一种①的关系.例如,圆的面积S=πr2,面积S与半径r之间就是一种确定性的关系,对于自变量r的每一个确定的值,都有唯一的确定的S的值与之对应.(2)相关关系:变量之间有一定的联系,但不能完全用②来表示.如人的体重与身高的关系,一般来说,身高越高体重越重,但不能用一个函数来严格地表示身高与体重之间的关系.在现实生活中,相关关系到处存在,从某种意义上说,函数关系可以看作是一种理想的关系模型.研究和学习相关关系,不仅使我们能够处理更为广泛的数学问题,还可以使我们对函数关系的认识再上升到一个新的高度.2.线性回归方程(1)散点图用横坐标表示一个变量,纵坐标表示另一个变量,建立平面直角坐标系,将给出的数据所表示的点在坐标系内标出,这样的图就称为③.从散点图可以看出,给出的点是否集中在一条直线附近.(2)最小二乘法如果有几个样本点(x1,y1),(x2,y2),…,(xn,yn),可以用表达式[y1-(a+bx1)]2+[y2-(a+bx2)]2+…+[yn-(a+bxn)]2来刻画这些点与直线y=a+bx的接近程度,使此式达到最小值的直线y=a+bx就是所要求的直线,这种方法称为最小二乘法.(3)线性相关关系能用直线方程近似表示的相关关系叫作④.如果在散点图中,各点集中在一条直线附近,则称这两个变量具有线性相关关系.(4)线性回归方程、回归直线一般地,设x与y是具有相关关系的两个变量,且相应的n组观测值的n个点(xi ,yi)(i=1,2,…,n)大致分布在一条直线的附近,求在整体上与这n个点最接近的一条直线.设所求直线的方程为y=bx+a,其中a,b是待定的参数,则{b=∑i=1n(x i-x)(y i-y)∑i=1n(x i-x)2=∑i=1nx i y i-nx y∑i=1nx i2-nx2, a=y-bx,其中x=1n ∑i=1nxi,y=1n∑i=1nyi.这时我们将所得到的直线方程叫作线性回归方程,相应的直线叫作回归直线.注意:(i)在求出这种具有两个变量的回归直线后,就可以根据其部分观测值获得对这两个变量之间的整体关系的了解;(ii)线性相关关系主要研究两个变量之间的关系;(iii)由不具有线性相关关系的数据求出的线性回归方程是毫无意义的.一、判断变量间的相关性1.(2013湖北,4,5分,★★☆)四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且y^=2.347x-6.423;②y与x负相关且y^=-3.476x+5.648;③y与x正相关且y^=5.437x+8.493;④y与x正相关且y^=-4.326x-4.578.其中一定不正确的结论的序号是( )A.①②B.②③C.③④D.①④思路点拨本题主要考查线性回归的有关概念,注意题目中选择的是不正确的.二、线性回归方程的应用2.(2014重庆,3,5分,★★☆)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( ) A.y ^=0.4x+2.3 B.y ^=2x-2.4C.y ^=-2x+9.5 D.y ^=-0.3x+4.4思路点拨 线性回归方程一定过点(x ,y ),验证各选项,由正相关,可得答案. 3.(2012湖南,5,5分,★☆☆)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i=1,2,…,n),用最小二乘法建立的回归方程为y ^=0.85x-85.71,则下列结论中不正确的是( ) A.y 与x 具有正的线性相关关系 B.回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg思路点拨 本题主要考查两个变量间的相关性、最小二乘法及正相关、负相关的概念.4.(2013福建,11,5分,★★☆)已知x 与y 之间的几组数据如下表:x 1 2 3 4 5 6 y 0 2 1 3 3 4假设根据上表数据所得线性回归直线方程为y ^=b ^x+a ^.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y=b'x+a',则以下结论正确的是( ) A.b ^>b',a ^>a' B.b ^>b',a ^<a' C.b ^<b',a ^>a' D.b ^<b',a ^<a'5.(2012福建,18,12分,★★☆)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据: 单价x(元) 8 8.2 8.4 8.6 8.8 9 销量y(件)908483 807568(1)求回归直线方程y ^=bx+a,其中b=-20,a=y -b x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)思路点拨利用待定系数法求得回归直线方程,列关于利润的方程求解,即得结论.基础巩固训练1.下列两个变量之间的关系不是函数关系的是( )A.角度和它的余弦值B.正方形边长和面积C.正n边形的边数和内角和D.人的年龄和身高2.变量y与x之间的回归方程( )A.表示y与x之间的函数关系B.表示y与x之间的不确定关系C.反映y与x之间的真实关系D.反映y与x之间的真实关系达到最大限度的吻合3.对变量x,y,有观测数据(xi ,yi)(i=1,2,…,10),得散点图(1);对变量u,v,有观测数据(ui ,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( )A.变量x与y线性相关,u与v非线性相关B.变量x与y非线性相关,u与v线性相关C.变量x与y线性相关,u与v线性相关D.变量x与y非线性相关,u与v非线性相关4.若用水量x与某种产品的产量y的线性回归方程是y=2x+1 250,若用水量为50 kg,预计该种产品的产量是( )A.1 350 kgB.大于1 350 kgC.小于1 350 kgD.以上都不对5.已知x与y具有线性相关关系,它们之间的一组数据如下表:x 0 1 2 3y 1 2 4 6则y与x的回归直线y=bx+a必过点( )A.(2,3)B.(1.5,2)C.(1.5,3.25)D.(2,3.25)6.画出下表中对应数据的散点图.根据散点图判断两个变量是否具有相关关系.A 26 18 13 10 4 -1B 20 24 34 38 50 64能力提升训练7.若在一次试验中,测得(x,y)的四组数值分别是(1,3),(2,3.8),(3,5.2),(4,6),则y 与x 之间的回归直线方程是( ) A.y=x+1.9 B.y=1.04x+1.9 C.y=0.95x+1.04D.y=1.05x-0.98.“回归”一词是在研究子女身高与父母身高之间的遗传关系时,由高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论,在儿子的身高y 与父亲的身高x 的回归方程y=a+bx 中,b( ) A.在(-1,0)内 B.等于0 C.在(0,1)内D.在[1,+∞)内9.某个服装店经营某种服装,在某周内每天获得的纯利y(元)与该周每天销售这种服装件数x(件)的数据如下表所示: x 3 4 5 6 7 8 9 y66697381899091已知∑i=17x i 2=280,∑i=17y i 2=45 309,∑i=17x i y i =3 487.(1)求x ,y ; (2)画出散点图;(3)求每天获得的纯利y(元)与每天销售件数x(件)之间的线性回归方程.10.一机器可以按不同的速度运转,其生产物件有一些会有缺陷,每小时生产有缺陷物件的多少随机器运转速度而变化,用x 表示转速(单位:转/秒),用y 表示每小时生产的有缺陷物件个数,现得到(x,y)的4组观测值为(8,5),(12,8),(14,9),(16,11).(1)假定y与x之间有线性相关关系,求y与x之间的回归直线方程;(2)若实际生产中所容许的每小时最多生产的有缺陷物件个数为10,则机器的速度不得超过多少转/秒?(精确到1)11.炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,必须掌握钢水含碳量与冶炼时间的关系.已测得炉料熔化完毕时,钢水含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据如下表所示:x(0.01%) 104 180 190 177 147 134 150 191 204 121 y(min) 100 200 210 185 155 135 170 205 235 125(1)作出散点图,你能从散点图中发现钢水含碳量与冶炼时间的一般规律吗?(2)求线性回归方程;(3)预测当钢水含碳量为160时,冶炼时间应为多长较合适?知识清单①确定性 ②函数 ③散点图 ④线性相关关系链接高考1.D 由回归直线方程y ^=^x+a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.2.A 由变量x 与y 正相关知C 、D 均错,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A. 3.D ∵0.85>0, ∴y 与x 正相关, ∴A 正确;∵线性回归方程经过样本点的中心(x ,y ), ∴B 正确;∵Δy=f(x+1)-f(x)=0.85(x+1)-85.71-(0.85x-85.71)=0.85, ∴C 正确.故选D.4.C x =216=72,y =136,代入公式求得b ^=58-6×72×13691-6×(72)2=57,a ^=y -b ^x =136-57×72=-13, 而b'=2,a'=-2,∴b ^<b',a ^>a',故选C. 5.解析 (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5, y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80,所以a=y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x+250. (2)设工厂获得的利润为L 元, 依题意得L=x(-20x+250)-4(-20x+250) =-20x 2+330x-1 000 =-20(x -334)2+361.25.当且仅当x=334=8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.基础过关基础巩固训练1.D D 是相关关系,非函数关系.2.D3.C 由题中两个散点图可以判断,变量x 与y 线性相关,u 与v 线性相关,故选C.4.A 预测值为y=2×50+1 250=1 350(kg).5.C x =0+1+2+34=1.5,y =1+2+4+64=3.25.回归直线必过点(x ,y ),即(1.5,3.25). 6.解析 散点图如图所示.从图中可以看出各点都在一条直线附近,因此两个变量具有相关关系. 能力提升训练 7.B x =1+2+3+44=2.5,y =3+3.8+5.2+64=4.5,将(2.5,4.5)代入选项验证得B 正确.8.C 因为子代的平均身高向中心回归,所以b∈(0,1). 9.解析 (1)x =3+4+5+6+7+8+97=6.y =66+69+73+81+89+90+917=5597≈79.86.(2)散点图如下:(3)由(2)中散点图知,y 与x 有线性相关关系.设线性回归方程为y=bx+a,∵∑i=17x i 2=280,∑i=17x i y i =3 487,x =6,y =5597, ∴b=3 487-7×6×5597280-7×36=13328=4.75,a=5597-6×4.75≈51.36.∴线性回归方程为y=4.75x+51.36. 10.(1)设回归直线方程为y=bx+a, 则x =8+12+14+164=12.5,y =5+8+9+114=8.25,x 2=156.25,x ·y =103.125,∑i=14x i y i =5×8+12×8+14×9+16×11=438, ∑i=14x i 2=82+122+142+162=660.∴b=∑i=14x i y i -4x ·y ∑i=14x i 2-4x 2=438-4×103.125660-4×156.25=438-412.5660-625≈0.728 6,a=y -b x =8.25-0.7286×12.5=-0.857 5.∴y 与x 之间的回归直线方程为y=0.728 6x-0.857 5.(2)要使y≤10,即0.728 6x-0.857 5≤10,所以x≤14.901 9,所以机器的速度不得超过15转/秒.11.解析 (1)以x 轴表示钢水含碳量,y 轴表示冶炼时间,可作散点图如图所示.从图中可以看出,各点分布在一条直线附近,即它们线性相关. (2)列出下表,并用科学计算器进行计算: i 1 2 3 4 5 x i 104 180 190 177 147 y i100200210185155x i y i 10 400 36 000 39 900 32 745 22 785 i 6 7 8 9 10 x i 134 150 191 204 121 y i 135 170 205 235 125 x i y i18 09025 50039 15547 94015 125x =159.8,y =172, ∑i=110x i 2=265 448,∑i=110x i y i =287 640.设所求的线性回归方程为y=bx+a.b=∑i=110x i y i -10x ·y ∑i=110x i2-10x 2≈1.267,a=y -b x =-30.466 6.∴线性回归方程为y=1.267x-30.466 6.(3)当x=160时,y=1.267×160-30.466 6=172.253 4. 即预测当钢水含碳量为160时,冶炼172.253 4 min 较合适.。