应用统计方法课件 3-1
- 格式:pps
- 大小:1.35 MB
- 文档页数:32
数理统计的基本概念与抽样分布§1.1 引言什么是数理统计学?它的研究内容有哪些?这是每位初学者所关心的问题。
我们先看一个这样的例子:某钢筋厂每天可以生产某型号钢筋10000根,钢筋厂每天需要对生产过程进行控制,对产品的质量进行检验。
如果把钢筋的强度作为钢筋质量的重有指标,于是质量管理人员需要做如下方面的工作第一,对生产出来的钢筋的强度进行检测,获得必要的数据。
这里有两种获得数据的方法,⑴对10000根钢筋的强度均进行检测,可得到10000个强度数据,这种检测方式称为全面试验,全面地进行试验一般是不可取的,它费时、费力、甚至于不可能。
⑵从10000根钢筋中抽取一部分钢筋进行检测,得到部分强度数据。
这里抽取部分钢筋进行检测的方式称为抽样。
抽取的方式也有很多种方法,它是数理统计的一个重要内容,形成了试验设计与抽样理论。
第二,对通过抽样获取的部分数据进行整理、分析并推断出这10000根钢筋的质量是否合乎要求。
由于抽取的数据不全面,并且检测过程中每个数据还有测量误差(我们称为随机误差)。
含有随机误差的数据会给我们带来一定影响,并且难以获得准确的结论。
概率论就是解决这些问题主要数学工具。
为解决这些问题所发展起来的理论和方法就构成了数理统计的内容。
一般说来,数理统计是以概率论为主要的数学工具,研究如何有效地收集、整理和分析受随机影响的数据,并对所考虑的问题作出推断和预测,为决策和行动提供依据和建议的一门数学学科。
数理统计方法的应用十分广泛,几乎在人类活动的一切领域都能不同程度地找到它的应用。
英国著名的统计学家费歇(R.A.Fisher)和皮尔逊(K.Pearson)是数理统计的奠基人,在20世纪初从事大量的数理统计方法的研究,就是出于在生物学、数量遗传学、优生学和农业科学的需要。
数理统计的内容十分丰富,一般可分为两大类:一类是抽样理论与试验设计;另一类是统计推断,其中包括估计理与假设检验等。
回归分析、方差分析、Bayes分析,聚类分析,主成分分析等是数理统计的应用分支。
第三章回归分析回归分析是研究变量间相关关系的一个统计分支,它主要解决以下面几个问题:(1)确定几个特定的变量之间是否存在相关关系,如果存在,找出它们之间合适的数学表达式;(2)根据一个或几个变量的值,预测或控制另一个变量的取值,并且要知道这种预测或控制可达到什么样的精确度;(3)进行因素分析,在共同影响一个变量的许多变量(因素)之间找出哪些因素重要,哪些因素次要,这些因素之间有什么关系等。
学习目的学习本章时,要密切联系实际,着重理解回归分析的基本思想,力求掌握利用回归分析解决实际问题的一般步骤和方法,提高分析问题、解决问题的能力.frist4基本要求1.理解一元线性回归分析的基本思想、掌握一元线性回归分析的方法及一般步骤.并能解决简单的实际问题;2.理解多元线性回归分析的基本思想、解决问题的方法和步骤;3.理解可线性化的非线性回归的基本思想、解决问题的方法和步骤;4.了解逐步回归的基本思想方法和实现步骤.回归分析一元线性回归多元线性回归逐步回归非线性回归与回归诊断一元线性回归建立模型参数估计显著性检验预测预报一.建立模型 引例1.一个作匀速直线运动的质点,在时刻t 的位置是S ,则S a bt =+,其中a 为质点在t =0时刻的初始位置,b 为平均速度。
观测到的数据是ε+=s y ,其中ε是随机误差(测量误差)。
于是我们有ε+=s y ε++=bt a (3-1) 其中t 是非随机的,ε是随机的,通常认为E ε=0,显然y 也是随机的。
modeling为了估计a 、b ,现在n 个不同时刻作观察,得n 组观察值)(i i y t ,n i ,21 ,,=。
即 y i =i i bt a ε++ (i n =12,,, )用向量矩阵形式表示如下:εβ+=X Y其中,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n y y y Y 21,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n εεεε 21,⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=n t t t X 21111,⎪⎭⎫ ⎝⎛=b a β。
问题:如何利用Y X 、的观测值来估计参数a 、b ,进一步预测未来时刻t 质点的位置。
引例2.在硝酸钠(3NaNO )的溶解度试验中,测得在不同温度C X 0下溶解于100份水中的硝酸钠份数y 数据见下表:x i 0 4 10 15 21 29 36 51 68 y i 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125 试找出X 与Y 之间的关系。
y = ε +bx a +(3-2) Y X =+βε 问题:如何利用观测值来估计参数a 、b ,从而确定y 与x 的近似线性关系。
020406080100120140020406080图3-1设变量y 与x 有下述关系 y =++a bx ε (3-3) 其中ε是零均值的v r .,x 是可控制变量,a 、b 为未知参数,则称(3-3)为一元线性回归模型。
假设对x 、y 进行n 次观察,得n 组观察值()x y i i ,(i n =12,,, )。
即y i =a bx i i ++ε (n i ,,,21=) (3-4) 通常假定εεε12,,, n 独立同分布),0(2σN (记为i.i.d )0(2σ,N ).即一元线性回归模型Y X =+βε (3-5)Independent identical distributionLinear regression在(3-3)中若能用某种方法获得未知参数a 、b 的估计 ab 、,那么用 a bx +作为y 的估计,即y= a bx + (3-6) 称(3-6)为一元线性回归直线(或回归方程),对于任意的x x =0,称 y 0= a bx +0为回归值。
一元线性回归直线Regression equation二.参数估计 (最小二乘估计)令Q y a bx i i i n=--=∑()21==∑εii n21(3-7)我们取使Q 达最小的 ab 、作为未知参数a b 、的估计,这种方法称为最小二乘估计法,所得的估计称为最小二乘估计,Q 称为残差平方和。
对Q 求关于a b 、的偏导数,得如下方程∂∂Qa y a bx i i i n =---==∑201() (3-8)∂∂Qb y a bx x i i i i n =---==∑201() (3-9)Parameter estimate由(3-8)式得y na b x i i n i i n==∑∑=+11即 a y xb =-,代入(3-9)式∑∑∑====--n i ni ii n i i i x b x a x y 1121得 y x nx y bnx b x i i i ni i n==∑∑-⋅+-=12210 配方整理y x nx y i ii n=∑-⋅1yx n y x n y x n x y n i ii ⋅+⋅-⋅-=∑=1)(1y x y x y x x y i i ni i i ⋅+--=∑=∑=--=ni i i y y x x 1))(( ∂∂Q b y a bx x i i i i n =---==∑201() (3-9) ∂∂Q a y a bx i i i n =---==∑201() (3-8)∑=-ni ix b x bn 12222122xnb x nb x b x bn ni i+--=∑=)(212x x x x x x b i i ni i+---=∑=∑=--=ni i x x b 12)(得()()()x x y y b x x i i i i n i n ----===∑∑211记 l x x x nxxx i ii ni n()=-=-==∑∑22211l x x y y x y nx y xy i i i i i ni n()()=--=-⋅==∑∑11即得a y bxl b l xx xy =-=⎧⎨⎩(3-10)解上述方程组得a 、b 的最小二乘估计为a y bxb l l xy xx =-=⎧⎨⎪⎩⎪ (3-11)根据上述推导可看出,对于任意一组观测数据(,)x y i i (i n =12,,, ),当0≠xx l 时,由(3-11)总可建立回归方程(3-6)。
这样建立的回归方程是否有意义,即x 对y 是否有所影响,而且是线性的,这就需要进行检验。
三、回归方程的显著性检验(H b 00:=)由x 的n 个不全相同的值x x x n 12,,, 得到相应观测值y y y n 12,,, 。
y 值的差异现象称为变差。
对每次观测值来说,变差的大小可用y y i -(称为离差)来表示,而n 次观测值的总变差可由这些离差的平方和表示,记为S 总2,即S 总2=-=∑()y y i i n21(3-12)S 总2=-=∑(y y i i n)21∑=-+-=ni i i i y y y y 12)ˆˆ( =-=∑( )y yi i i n21+-=∑( )y y i i n21+--=∑21( )( )y y y y i i i i nSignificance tests1.F 检验法S 总2=-=∑(y y i i n)21 =-=∑( )y yi i i n21+-=∑( )y y i i n21=+S S 残回22 (3-13) 其中,( )( )y y y y i i i i n--=∑1∑=-+-=ni i i i y x ba y y 1)ˆˆ)(ˆ( =--=∑( )( )a y y y i i i n 1+-=∑( ) y y bx i i ii n1=-=∑ ( )b y yx i i i i n1=0 (由3-9式) 通常称(3-13)为平方和分解,其中 ∂∂Q a y a bx i i i n =---==∑201() (3-8)∂∂Q b y a bx x i i i i n =---==∑201() (3-9)S 回2=-=∑( )yy i i n21 (3-14) S 残2=-=∑( )y yi i i n21 (3-15) 分别称为回归平方和、残差平方和。
由(3-11)及(3-6)可以证明 yy =,即 yn y a bx y i i n==+==∑11 于是回归平方和又可表示成 S 回2=-=∑( )y y i i n 21----回归值的总变差。
a y bx b l l xy xx =-=⎧⎨⎪⎩⎪ (3-11) y = a bx + (3-6)由上分析看出, y i = a bx i +反映了y i中受x 影响的那一部分; 而y yi i - 则反映了y i 中扣除x 的影响后其它种种因素影响的部分,故称为残差。
F S Sn =-回残222/()~)2,1(-n F (H 0成立时) (3-16)对给定水平α(α较小),由P F {}>=λα查F 分布表可求得λ。
若F >λ,则否定H 0,说明x 与y 存在线性关系,否则回归方程无意义。
进一步当α=0.05时,若F <λα=005.,则x 与y 无线性关系;当α=0.01时,若F >λα=001.,则x 与y 存在十分显著的线性关系;若λα=005.<<F λα=001.,则称x 与y 存在显著的线性关系。
在计算F 统计量时,常用下列公式计算S 回2:S 回2=-==∑( ) y y bl i i nxy21(3-17) 事实上:S 回2=-=+--==∑∑( )( )yy a bx a bx i i ni i n2121=-===∑ ()() b x x l l l bl ii nxy xxxx xy22122.相关系数检验法对于线性回归中的变量x 与y ,其样本相关系数yyxx xy ni ni i i ni i i l l l y y x x y y x x r =----=∑∑∑===11221)()())((xy xxxy yy l l l l -=)1()1(22≥-=-=r l l l llyy yyxx xyyy22回残S l S yy -=xy yy l b l ˆ-=利用相关系数检验法对线性回归进行显著性检验: 对于给定的显著水平α,由样本算得yy xx xyl l l r =,若)2(->n r r α,则认为线性回归效果显著;若)2(-≤n r r α,则认为x 与y 之间不存在线性相关关系。
注意:在一元线性回归中,容易证明,F 检验法与相关系数检验法其实质是相同的,两者检验的结果也是一致的。
因此,在线性回归的显著性检验中,选择F 检验法与相关系数检验法中的任意一种方法进行检验就可以了。
这里顺便指出,在实际应用中,若对具有某种关系的变量进行拟合,有时也用相关系数的平方yyyy xy yy xx xy l S l l b l l l r 222ˆ回=== (3-18) 对拟合效果进行度量,并称2r 为决定系数或相关指数。