SAS 报表 - 线性模型2
- 格式:pdf
- 大小:1.13 MB
- 文档页数:12
用SAS的mixed过程拟合林分的线性差分生长模型0. 前言在林分生长与收获预估的模型中,差分生长模型得到了广泛的应用。
线性差分模型基本上为Schumacher 模型的变型,广泛应用于林分蓄积、胸高断面积的建模,以及单位面积株数和优势木树高生长模型。
差分生长模型拟合方法有“直接最小二乘估计法”和“分类变量回归法” [1] 。
一般认为后者可以获得近似无偏的估计,而前者则导致检验统计量如RMSE勺失真[2]。
传统上差分生长模型的拟合主要是直接拟合差分生长模型,然后根据拟合统计量如RMSE R2等确定最优拟合模型。
与传统方法不同,本文直接拟合生长模型,在获得参数估计值后,再用代数差分法导出相应的代数差分生长模型。
这样做的优越之处在于非常便于对期望模型和方差结构模型进行筛选。
更为重要的是,可以通过模型拟合识别最适合的随林分变化参数。
本文详细讨论了如何用“分类变量回归法”和SAS的mixed 过程拟合代数差分生长模型,可简述如下:i ). 直接以生长收获模型为对象,同时确定一个随林分变化的参数和最优拟合方差结构模型;ii ). 保持方差结构模型不变,根据拟合统计量逐步化简期望模型;iii ). 在确定最优拟合的期望模型后,运用代数差分法导出相对应的代数差分生长模型。
所有拟合与筛选均用SAS 的mixed过程完成,并给出了详细的SAS代码和代码解释。
1. 方法与材料1.1 数据数据来源于148 个集约经营的火炬松实验人工林逐年观测的固定样地数据(样地约0.152公顷)。
SAS的数据集basal的内容如表( 1 )。
表 1 模型拟合的基本数据结构Table 1 data structure for mode fittingage=#分年龄;fert=经营措施,分别取值为H=施加除草剂以控制竞争植物、尸=施肥以增加土壤肥力、日尸=除草剂和施肥并用、C=M照;code=样地代码,每个样地有一个唯一代码;logba= 样地胸高断面积的自然对数值;logdh=样地优势木树高的自然对数值;iage= 林分年龄的倒数;logtpa= 样地株数的自然对数值。
第三十一课一元线性回归分析回归分析是一种统计分析方法,它利用两个或两个以上变量之间的关系,由一个或几个变量来预测另一个变量。
在SAS/STA T中有多个进行回归的过程,如REG、GLM等,REG过程常用于进行一般线性回归模型分析。
一、回归模型1. 基本概念回归模型是一种正规工具,它表示统计关系中两个基本的内容:①用系统的形式表示因变量Y随一个或几个自变量X变化的趋势;②表现观察值围绕统计关系曲线的散布情况。
这两个特点是由下列假设决定的:●在与抽样过程相联系的观察值总体中,对应于每一个X值,存在Y的一个概率分布;这些概率分布的均值以一些系统的方式随X变化。
●图31.1是用透视的方法来显示回归曲线。
Y对给定X具有概率分布这一概念总是与统计关系中的经验分布形式上相对应;同样,描述概率分布的均值与X之间关系的回归曲线,与统计关系中Y系统地随X变化的一般趋势相对应。
图31.1线性回归模型的图示在回归模型中,X称为“自变量”,Y称为“因变量”;这只是传统的称法,并不表明在给定的情况下Y因果地依赖于X,无论统计关系多么密切,回归模型不一定是因果关系,在某些应用中,比如我们由温度表水银柱高度(自变量)来估计温度(因变量)时,自变量实际上依赖于因变量。
此外,回归模型的自变量可以多于一个。
2. 回归模型的构造(1)自变量的选择构造回归模型时必须考虑到易处理性,所以在有关的任何问题中,回归模型只能(或只应该)包括有限个自变量或预测变量。
(2) 回归方程的函数形式选择回归方程函数形式与选择自变量紧密相关。
有时有关理论可能指出适当的函数形式。
然而,通常我们预先并不能知道回归方程的函数形式,要在收集和分析数据后,才能确定函数形式。
我们经常使用线性和二次回归函数来作为未知性质回归方程的最初近似值。
图31.2(a)表示复杂回归函数可以由线性回归函数近似的情况,图31.2(b)表示复杂回归函数可以由两个线性回归函数分段近似的情况。
用SAS/INSIGHT进行线性回归分析上面我们已经看到,用菜单“Analyze | Fit (Y X)”就可以拟合一条回归直线,这是对回归方程的估计结果。
这样的线性回归可以推广到一个因变量、多个自变量的情况。
线性模型写成矩阵形式为下面列出了线性模型中常用的一些量和结论:∙为因变量向量∙为矩阵,一般第一列元素全是1,代表截距项∙为未知参数向量∙为随机误差向量,元素独立且方差为相等的(未知)。
∙正常情况下,系数的估计为∙拟合值(或称预报值)为∙其中是空间内向的列张成的线性空间投影的投影算子矩阵,叫做“帽子”矩阵。
∙拟合残差为∙残差平方和为∙误差项方差的估计为(要求设计阵满秩)均方误差(MSE)∙ 在线性模型的假设下,若设计阵 满秩, 和 分别是 和 的无偏估计,系数估计的方差阵 。
∙ 判断回归结果优劣的一个重要指标为复相关系数平方(决定系数)(其中),它代表在因变量的变差中用模型能够解释的部分的比例,所以 越大说明模型越好。
例如,我们在“Fit (Y X)”的选择变量窗口选Y 变量(因变量)为体重(WEIGHT ),选X 变量(自变量)为身高(HEIGHT )和年龄(AGE ),则可以得到体重对身高、年龄的线性回归结果。
下面对基本结果进行说明。
回归基本模型:WEIGHT = HEIGHT AGEResponse Distribution: NormalLink Function: Identity回归模型方程:Model EquationWEIGHT = - 141.2238 + 3.5970 HEIGHT + 1.2784 AGE 拟合概况:Summary of FitMean of Response 100.0263 R-Square 0.7729 Root MSE 11.5111 Adj R-Sq 0.7445 其中Mean of Response 为因变量(Response )的均值,Root MSE 叫做根均方误差,是均方误差的平方根,R-Square 即复相关系数平方,Adj R-Sq 为修正的复相关系数平方,其公式为 ,其中 当有截距项时取1,否则取0,这个公式考虑到了自变量个数 的多少对拟合的影响,原来的随着自变量个数的增加总会增大,而修正的则因为 对它有一个单调减的影响所以 增大时修正的不一定增大,便于不同自变量个数的模型的比较。
使用SAS进行变量筛选、模型诊断、多元线性回归分析在其他地方看到的帖子,自己动手做了实验并结合自己的理解做了修订第一节多元线性回归分析的概述回归分析中所涉及的变量常分为自变量与因变量。
当因变量是非时间的连续性变量(自变量可包括连续性的和离散性的)时,欲研究变量之间的依存关系,多元线性回归分析是一个有力的研究工具。
多元回归分析的任务就是用数理统计方法估计出各回归参数的值及其标准误差;对各回归参数和整个回归方程作假设检验;对各回归变量(即自变量)的作用大小作出评价;并利用已求得的回归方程对因变量进行预测、对自变量进行控制等等。
值得注意的是∶一般认为标准化回归系数的绝对值越大,所对应的自变量对因变量的影响也就越大。
但是,当自变量彼此相关时,回归系数受模型中其他自变量的影响,若遇到这种情况,解释标准化回归系数时必须采取谨慎的态度。
当然,更为妥善的办法是通过回归诊断(TheDiagnosis ofRegression),了解哪些自变量之间有严重的多重共线性(Multicoll-inearity),从而,舍去其中作用较小的变量,使保留下来的所有自变量之间尽可能互相独立。
此时,利用标准化回归系数作出解释,就更为合适了。
关于自变量为定性变量的数量化方法设某定性变量有k个水平(如ABO血型系统有4个水平),若分别用1、2、…、k代表k个水平的取值,是不够合理的。
因为这隐含着承认各等级之间的间隔是相等的,其实质是假定该因素的各水平对因变量的影响作用几乎是相同的。
比较妥当的做法是引入k-1个哑变量(Dummy Variables),每个哑变量取值为0或1。
现以ABO血型系统为例,说明产生哑变量的具体方法。
当某人为A型血时,令X1=1、X2=X3=0;当某人为B 型血时,令X2=1、X1=X3=0;当某人为AB型血时,令X3=1、X1=X2=0;当某人为O型血时,令X1=X2=X3=0。
这样,当其他自变量取特定值时,X1的回归系数b1度量了E(Y/A型血)-E(Y/O型血)的效应;X2的回归系数b2度量了E(Y/B型血)-E(Y/O型血)的效应;X3的回归系数b3度量了E(Y/AB型血)-E(Y/O型血)的效应。