应用回归分析课程设计(SAS)
- 格式:doc
- 大小:365.00 KB
- 文档页数:18
sas回归分析数据预处理->数据探索->模型选择->残差检验、共线性争端,强影响点判断->模型修正(否->模型选择,是->模型预测)⼀:数据预处理⼆:数据探索看y是否服从正态分布(PP图)proc univariate data=reg.b_fitness;var Runtime -- Performance;histogram Runtime -- Performance / normal; /*主要从统计指标上⾯看*/probplot Runtime -- Performance /normal (mu=est sigma=est color=red w=2);/*主要从图形来看*/run;看x的离散程度(散点图)看y与x的相关系数(散点图,R^2)proc gplot data=reg.b_fitness;plot Oxygen_Consumption *(Run_PulseRest_PulseMaximum_PulsePerformanceRuntimeAgeWeight);symbol v=dot color=red;run;quit;proc corr data=reg.b_fitness;var Run_Pulse Rest_Pulse Maximum_Pulse Performance Runtime Age Weight;with Oxygen_Consumption;run;三:模型选择CP法(全模型法)功能:在特定的模型⼤⼩范围内,找出指定的最佳模型(具有最⼩CP)BEST=N 表⽰在不同的变量个数组成的模型中,选择N个最好的模型,所有组合数为[2^(变量个数)-1]在由1个⾃变量组成的模型中选N个最好的在由2个⾃变量组成的模型中选N个最好的。
在由M(总共变量的个数)个⾃变量组成的模型中选N个最好的总共会选M*N个模型这⾥统计量为Cp,建议是Cp<=p ,p是所有变量个数加1逐步法向前回归法特点:和变量进⼊的顺序有很⼤关系,如果第⼀个进来的变量的解释效应过⼤,很可能造成后进的变量进不来模型引⼊第⼀个变量进⼊⽅程,对整个⽅程进⾏F检验,并对单个回归系数进⾏T检验,计算残差平⽅和Se1,如果通过检验则保留,否则剔除引⼊第⼆个变量进⼊⽅程,对整个⽅程进⾏F检验,并对单个回归系数进⾏T检验,计算残差平⽅和Se2,那么Se1>Se2,称Se1-Se2为第⼆个变量的偏回归平⽅和,如果该值明显偏⼤,则保留,说明其对因变量有影响,否则剔除。
实验五 回归分析SAS 过程(2)实验目的:1.会对实际问题建立有效的多元回归模型,能对回归模型进行残差分析;2.掌握SAS 输出结果用于判别回归方程优良性的不同统计量,能对回归模型进行运用,对实际问题进行预测或控制. 实验要求:编写程序,结果分析. 实验内容:1.误差的正态性检验有几种方法,何时认为误差项服从正态分布? 答:1.学生化残差2.残差正态性的频率检验3.残差的正态QQ 图检验 判断若散点),()()(i i r q ),,2,1(n i 大致在一条直线上相关系数:1)()())((1)(12)(1)()(ni i ni i i i i q q r rq q r r认为i r ),,2,1(n i 来自正态分布,接受误差正态性检验.2.回归方程的选取的穷举法中,评价回归方程优良性的准则有哪些?根据准则何 时方程最优?答:1)修正的复相关系数准则或均方残差准则()(2p R a 或p MSE 准则)2)p C 准则3)预测平方和准则(p PRESS 准则)拟合所有可能的121 M 个回归方程,画出p C 图:),(p C p ,在p C 图中选取最接近参考直线p C p 的点所对应的回归方程为最优方程.3.简述逐步回归方法的思想和步骤.基本思想:逐个引入自变量建立回归方程,每次引入对Y影响最显著的自变量, 并对方程中旧变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中,既不漏掉对Y显著影响的变量,又不包含对Y 影响不显著的变量. 添加或删除某个自变量的准则是用残差平方和的相对减少或增加来衡量.步骤:(1)修正的复相关系数准则、C准则选择模型p(2)预测平方和准则选择PRESSp最优回归方程(3)最优模型的拟合检验4.做2.6 2.8(选作) 2.9注意:可以选课外综合题目。
2.6程序:data examp2_6;input x1 x2 y;cards;8.3 70 10.38.6 65 10.38.8 63 10.210.5 72 16.410.7 81 18.810.8 83 19.711.0 66 15.611.1 80 22.6 11.2 75 19.9 11.3 79 24.2 11.4 76 21.0 11.4 76 21.411.7 69 21.312.0 75 19.1 12.9 74 22.212.9 85 33.813.3 86 27.4 13.7 71 25.713.8 64 24.914.0 78 34.5 14.2 80 31.7 14.5 74 36.3 16.0 72 38.316.3 77 42.617.3 81 55.4 17.5 82 55.717.9 80 58.318.0 80 51.520.6 87 77.0run;proc reg data= examp2_6;model y=x1-x2;output out=a p=predict r=resid h=h student=r;run;data b;set a;drop x1-x2;run;proc print data=b;run;proc capability graphics noprint data=a; /* 对数据集a调用capability过程,高分辨图,不打印输出 */qqplot r/normal; /* 作student数据的正态QQ图*/run;goptions reset=all; /*将图形的设置恢复为默认状态*/proc gplot data=a; /* 对数据集a作出画高分辨的散点图或曲线图*/plot resid*predict; /* 画纵坐标为残差、横坐标为yi散点图 */ symbol v=dot i=none; /* 散点表示符号圆点•,不画连线 */run;/*此处至Quit 是计算学生化残差对应的标准正态分布的分位数*/ proc sort data=a;by r; /* 按r 排序*/proc iml; /* 调用iml 矩阵分析模块,计算数据 */ use a; /* 打开数据集a */read all var{r} into rr; /* 读入集a 中变量r(学生化残差)各观测值到矩阵rr 中*/do i=1 to 31; /* 此循环计算 */ qi=probit((i-0.375)/54.25);q=q//qi; /* 矩阵qi 上下连接而成,即得54*1阶矩q=(q(1),q(2),,q(30))T */ end;rq=rr||q; /* 表示矩阵rq=(rr q )*/create correl var{r q}; /* 创建数据集correl, 变量为r 、q */append from rq; /* 从矩阵rq 读取数据 ( ) */ quit; /* iml 过程结束 */proc corr data=correl; /* 计算学生化残差与对应的标准正态分布的分位数的相关系数*/ run;(a )学生化残差的正态QQ 图(b )拟合值yˆ的残差图 结果分析:1) 由学生化残差的正态QQ 图可知,其点明显不在一条直线上;2) 求得有序学生化残差与相应正态分布的分位数的相关系数=0.94091与1相差较大.因此,若拟合线性回归模型,则误差分布与正态分布有较大的偏离;3) Y 拟合值的残差图也表明Y 与21,X X 不满足线性关系,且两个拟合值还为负数.由此知, 直接假定体积与直径和树干高度之间的线性回归关系是不恰当的.(2)对因变量Y 作Box-Cox 变换 第一步:确定变换参数鉴于(1)中的残差分析结果,我们对Y 作Box-Cox 变换0,ln 0,1)( Y Y Y .对不同的 值,由式);()( Z SSE ,并利用SAS 系统proc iml 过程计算);()( Z SSE 的值.由图2.5给出了);()( Z SSE 随 的变化曲线. 求变换参数的程序:proc iml; n=31; t=1;use examp2_6; read all var{x1 x2 y} into m; do i=1 to n; t=t#m[i,3]; end;prod=t##(1/n); j=j(n,1,1); xx=j||m[,1:2];h=xx*inv(xx`*xx)*xx`;do lamb=-0.5 to 0.5 by 0.01;if lamb=0 then zlamb=prod#log(m[ ,5]);else zlamb=(m[,3]##lamb-j)/(lamb#(prod##(lamb-1))); sse=zlamb`*(i(n)-h)*zlamb;lsse=lsse//(lamb||sse);end;tt=prod#log(m[ ,3]);sse0=tt`*(i(n)-h)*tt;lsse[30,1]=0;lsse[30,2]=sse0;index=lsse[>:<,];minlsse=index[1,2];lambda0=lsse[minlsse,1];print lambda0;create plotdata var{lambda sse};append from lsse;z=(m[,3]##lambda0-j(n,1,1))/lambda0;outm=m[,1:2]||z;create trans var{x1 x2 z};append from outm;quit;proc print data=trans;run;画)()()()()();( Z H I Z Z T SSE 图 goptions reset =all; proc gplot data =plotdata; plot sse*lambda; symbol v =point i =spline; run ;由结果给出了);()( Z SSE 随 的变化曲线.由图可知,);()( Z SSE 在0.31 时达到最小,因此,在Box-Cox 变换式中取0.31 .记变换后的因变量为Z ,即第二步:对Z 关于4321,,,X X X X 拟合线性回归模型 X Z ,利用残差分析考察模型的合理性并作出拟合结果建立回归模型 X Z ,作残差分析程序如下: proc reg data=trans; model z=x1-x2;output out=c p=predict1 r=resid1 student=r1; run;goptions reset=all;proc capability graphics noprint data=c; qqplot r1/normal; run;goptions reset=all; proc gplot data=c;plot resid1*predict1; symbol v=dot i=none; run;回归模型 X Z 及残差分析结果输出:对Z 关于12,X X 拟合线性回归模型,求出残差i ˆ及学生化残差(1,2,,31)i r i L .做出学生化残差的正态QQ 图以及Z 的拟合值的残差图如图所示.(a )学生化残差的正态QQ 图(q, r )(b) Z 的拟合值zˆ的残差图 由图知,线性回归关系高度显著且复相关系数的平方和为20.9776R ,即线性部分描述了Z 的绝大部分变化量.由此得拟合的回归方程为回归模型01122Z X X 残差的相关系数检验 有序学生化残差与相应正态分布的分位数的相关系数=0.96990与1比较接近.因此变换效果比以前好了。
课时授课计划课次序号:10 一、课题:实验四回归分析SAS过程(1)———统计推断与预测二、课型:上机实验三、目的要求:1.掌握利用SAS建立多元回归方程的方法;2.能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.四、教学重点:会对实际数据建立有效的多元回归模型;能对回归模型进行运用,对实际问题进行预测或控制.教学难点:多元回归模型的建立.五、教学方法及手段:传统教学与上机实验相结合.六、参考资料:《应用多元统计分析》,高惠璇编,北京大学出版社,2005;《使用统计方法与SAS系统》,高惠璇编,北京大学出版社,2001;《多元统计分析》(二版),何晓群编,中国人民大学出版社,2008;《应用回归分析》(二版),何晓群编,中国人民大学出版社,2007;《统计建模与R软件》,薛毅编著,清华大学出版社,2007.七、作业:2.3(单) 2.4八、授课记录:九、授课效果分析:实验四回归分析SAS过程(1)2学时一、实验目的和要求掌握利用SAS建立多元回归方程的方法,掌握PROC REG过程,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制.二、实验内容1. PROC REG过程一般格式:PROC REG <DATA=SAS data set>;MODEL 因变量=回归变量/ <选项部分>;其它选择语句;OUTPUT OUT=SAS数据集名关键字名=输出数据集中的变量名;RUN;(1)PROC REG语句此语句是PROC REG过程的必需语句,指出要进行分析的数据集.省略此项,SAS系统对最新建立的数据集进行分析.(2)MODEL语句中的选项部分该语句定义建模用的因变量、回归变量(自变量)、模型的选择及拟合结果输出的选择.在关键词“Model”之后,应指明因变量,等号后依次列出回归变量,每个变量间用空格分开.此语句的选项部分提供了最优模型的选择方法和其他拟合结果的输出选项,其中包括:1)选择合适的建立模型方法:SELECTION=name其中“name”可以是FORWARD(或F)、BACKW ARD(或B)、STEPWISE、RSQUARE、ADJRSQ、CP等之一.SELECTION=FORWARD SLENTRY=显著性水平向前选择最优模型法(FORWARD):从仅含常数项的回归模型开始,逐个加入自变量,对每一个尚不在方程内的自变量按一定显著性水平,根据其一旦进入模型后对模型的贡献大小逐步引入方程,直至再没有对模型有显著贡献的自变量.“SLENTRY=显著性水平”为自变量进入模型的控制水平,写在选择方法语句之后.若省去此句,则SAS系统默认的水平为SLENTRY=0.05.●SELECTION=BACKWARD SLSTAY=显著性水平向后删除法(BACKWARD):先建立包含全部自变量的线性回归模型,然后按一定的显著性水平从模型中逐步剔除变量.缺省SLSTAY =0.1●SELECTION=STEPWISE SLENTRY =入选水平SLSTAY=剔除水平逐步回归法(STEPWISE):按向前选择法(前进法)进入变量,再对模型内所有变量检验,看是否有因新变量引入而对模型的贡献变得不显著,若有就剔除,若无则保留,直至方程内所有变量均显著.逐步法有两个控制水平,即选入水平(SLENTRY=入选水平)和剔除水平(SLSTAY=剔除水平),而且剔除水平应低于选入水平.缺省SLENTRY =0.15 SLSTAY =0.15●SELECTION=RSQUARE在所有可能的回归方程中用2pR准则选择最优模型的方法.在每一个给定的自变量个数的水平上,打印出使2pR达到最大的那个回归模型的拟合结果.●SELECTION=ADJRSQ:修订的2pR准则选择最优模型法.●SELECTION=CP:p C准则选择最优模型法.注意:以上方法只可在选项部分写出其中一种,不可并用.2)对模型选取细节的选项●DETAILS:对模型选取方法FORWARD、BACKWARD、STEPWISE,若打印出每一步引入和删除自变量及相关信息选用此项.如一个自变量选入模型时的偏F值、模型的2R值和一个自变量被剔除时模型2R值及有关参数估计的信息.●NOINT:取消回归模型的常数项,即拟合过原点的回归方程.3)对估计细节内容的选择:在选项部分,还可以选择一个或多个(中间用空格分开)参数估计和拟合残差等相关内容,常用的有:●CORRB:输出参数估计的相关系数矩阵,第i行第j列为∧iβ与∧jβ相关系数估计.●COVB:输出估计参数的协方差矩阵,即MSE(X T X)-1.●P:输出因变量拟合值、观测值、拟合残差.若已选CLI、CLM、R,无需该选项.● R :输出有关残差及用于影响性分析的各量,包括拟合值的标准差、残差、学生化残差(残差除以标准差)及Cook 距离(度量了当删除某观测值后,参数估计的总变化量).● I :输出矩阵1)(-X X T .输出形式为⎥⎥⎦⎤⎢⎢⎣⎡∧∧-SSE T ββX X T 1)( 注意:以上选择内容可以和最优模型选择方法并用于Model 语句的“选项部分”.对BACKWARD 、FORWARD 、STEPWISE 的模型选择方法,以上估计细节内容只是最终选择模型的相应结果;对RSQUARE 准则,只给出全模型的相应结果;对于ADJRSQ 和CP 方法,给出具有最大2a R 和p C 值的模型的相应结果. (3)OUTPUT 语句——建立SAS 的输出结果数据集此语句建立一个与估计内容有关的SAS 数据集.语句格式为:OUTPUT OUT=SAS 数据集名 关键字名=输出数据集中的变量名;● 关键字名为需要的统计量名,它们有PREDICTED (或P )=name :因变量拟合值,指定名称为name ;RESIDUAL (或R )=name :残差及指定的名称;STUDENT=name :标准化(或学生化)残差;L95M=name :因变量期望值的95%的置信区间的置信下限;U95M=name :因变量期望值的95%的置信上限;L95=name :因变量值的95%置信区间的置信下限;U95=name :因变量值的95%的置信区间的置信上限;COOKD (COOK 氏D 值)=name :Cooki 距离,用于影响性分析的统计量;H=name :杠杆量,即T i T i x x 1)(-X X ,n i ,,2,1 =,i x 是设计矩阵X 的第i 行;PRESS=name :)(p d i 值,用以估计第i 组观测值对拟合值的影响;DFFITS=name :用以估计第i 组观测值对参数估计的影响;STDP=name :期望值的标准误差STDR=name :残差的标准误差;STD I =name :预测值的标准误差;其中等号前的部分为输出语句的关键词,后面的name 飞等号前的变量指定一名称.以上介绍了一些常用的选项.无论选项如何,PROC REG 过程总是自动输出相应模型的参数估计值及其标准差,检验参数是否为零的t 统计量值及相应的p 值.方差分析表、检验回归关系显著性的F 统计量和p 值,复相关系数及其平方值等.2.示例例1(书上例2.3)某科学基金会的管理人员欲了解从事研究工作的中、高水平的数学家的年工资额Y 与他们研究成果(论文、著作等)的质量指标1X 、从事研究工作时间2X 、能获得资助的指标3X .为此按一定设计方案调查了24位此类型的数学家,得数据如书上表2.3所示.(1)假设误差服从),0(2σN 分布,建立Y 与321,,X X X 之间的线性回归方程并研究相应的统计推断问题;(2)假设某位数学家的关于321,,X X X 的值为)(2.7,20,1.5),,(030201=x x x ,试预测他的年工资额并给出置信度为95%的置信区间.解:(1)建立回归模型进行统计推断设Y 与321,,X X X 回归模型εββββ++++=3322110X X X Y ,观测值满足i i i i i x x x y εββββ++++=3322110,24,,2,1 =i其中i ε(24,,2,1 =i )相互独立,且),0(~2σεN i .即 ,εX βY += ),(~2I 0εσN1)SAS 系统回归分析的proc reg 过程进行统计推断程序:data examp2_3;input y x1-x3;cards ; 33.2 3.5 9 6.1 40.3 5.3 20 6.4 38.7 5.1 18 7.4 46.8 5.8 33 6.7 41.4 4.2 31 7.5 37.5 6.0 13 5.9 39.0 6.8 25 6.0 40.7 5.5 30 4.0 30.1 3.1 5 5.8 52.9 7.2 47 8.3 38.2 4.5 25 5.031.8 4.9 11 6.443.3 8.0 23 7.6 44.1 6.5 35 7.0 42.8 6.6 39 5.0 33.6 3.7 21 4.4 34.2 6.2 7 5.5 48.0 7.0 40 7.0 38.0 4.0 35 6.0 35.9 4.5 23 3.5 40.4 5.9 33 4.9 36.8 5.6 27 4.3 45.2 4.8 34 8.0 35.1 3.9 15 5.0 ;run ;proc reg data =examp2_3; /* 调用回归分析的reg 过程 */model y=x1-x3/i; /* 模型因变量y,自变量x1、x2、x3,输出Hessian 矩阵*/run ;2)由方差分析表进行统计推断Analysis of Variance 方差分析表Sum of MeanSource DF Squares Square F Value Pr > F方差来源 自由度 平方和(SS ) 均方(MS ) F 0=MSR/MSE 检验p 值0pModel p-1=3 SSR=627.81700 MSR=SSR/3=209.27233 F 0=68.12 <.0001Error n-p=24-4=20 SSE=61.44300 MSE=SSE/20=3.07215Corrected Total 23 SST=689.26000Root MSE 1.75276 R-Square 0.9109Dependent Mean 39.50000 Adj R-Sq 0.8975Coeff Var 4.43735从方差分析表得出0722.32==∧MSE σ;线性回归关系显著性检验: 0:3210===βββH 统计量)20,3(~0F MSEMSR F H 真=,其观测值119.680=F 0001.0)(00=≥=F F P p H ,拒绝0H ,认为Y 与321,,X X X 的线性回归关系是高度显著的.另外,由方差分析表给出9109.026.689817.6272===SST SSR R , 也表明线性回归关系高度显著.3) 回归参数的统计推断的SAS 输出结果Parameter Estimates参数估计表Parameter StandardVariable DF Estimate Error t Value Pr > |t|参数 参数估计值k ∧β 标准差估计值)(k s ∧β t 值k t 0 |)||(|00k k H t t P p ≥= Intercept 1 17.84693 2.00188 8.92 <.0001x1 1 1.10313 0.32957 3.35 0.0032x2 1 0.32152 0.03711 8.66 <.0001x3 1 1.28894 0.29848 4.32 0.0003由程序结果给出参数估计值k ∧β,检验假设0:0=k k H β,3,2,1=k )20(~0t c c t kk k H kk kk k ∧∧∧∧=-=σβσββ真对给出显著性水平05.0=α,由参数估计表最后一列检验k p 0值看出,05.0|)||(|000<≥=k k H k t t P p k ,拒绝k H 0,认为k X (3,2,1=k )对Y 均有显著影响.4)回归参数的区间估计进一步,取置信水平05.0=α,由于086.2)20()(975.021==--t p n tα,利用表中的参数估计值和相应的标准差估计式)()20(975.0k k s t ∧∧±ββ,求得4210,,,ββββ的置信度95%的置信区间分别为)0229.22,6709.13(0019.2086.28469.17)()20(:0975.000=⨯±=±∧∧βββs t)7906.1,4156.0(3296.0086.21031.1:1=⨯±β )3989.0,2441.0(0371.0086.23215.0:2=⨯±β)9116.1,6662.0(2985.0086.22889.1:3=⨯±β(2)关于Y 的预测The REG ProcedureModel: MODEL1Dependent Variable: yX'X Inverse, Parameter Estimates, and SSE1)(-X X T 参数估计 SSEVariable Intercept x1 x2 x3 y 回归参数值Intercept 1.3044630488 -0.101873528 0.0004420084 -0.121579266 17.846930636x1 -0.101873528 0.035355881 -0.001674335 -0.007647007 1.1031303951x2 0.0004420084 -0.001674335 0.0004482371 -0.000443861 0.3215196814x3 -0.121579266 -0.007647007 -0.000443861 0.028******* 1.2889408958y 17.846930636 1.1031303951 0.3215196814 1.2889408958 SSE =61.443003635由上表1-4行,2-5列构成的矩阵为⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡----------=-02900.000044.000765.012158.000044.000045.000167.000044.000765.000167.003536.010187.012158.000044.010187.030446.1)(1X X T 4430.61=SSE ,T T )2889.1,3215.0,1031.1,8469.17()(1==-∧Y X XX β,代入得3212889.13215.01031.18469.17X X X +++=∧Y --------经验回归方程 对于给定321,,X X X 的值)2.7,20,1.5(),,(030201=x x x ,由经验回归方程可得0y 预测值1828.392.72889.1203215.01.51031.18469.170=⨯+⨯+⨯+=∧y令T T x x x )2.7,20,1.5,1(),,,1(0302010==x ,由0722.3=MSE 直接计算可得 0y 的置信度为95%的置信区间)0236.43,3420.35(8412.1086.21828.39])(1[)20(010975.00=⨯±=+±-∧x X X x T TMSE t y 此置信区间的长度较小,因而对实际有较好的参考价值.求因变量均值和因变量均值的置信区间:OUTPUT OUT=b L95M=u1 U95M=u2 L95=v1 U95=v2;Proc print data=b;run;结果:The SAS System 08:32 Wednesday, September 22, 2012 3 y 置信下限 置信上限 y 置信下限 上限])(1[)20(1975.0i i T Ti MSE t y x X X x -∧+± Obs y x1 x2 x3 u1 u2 v1 v21 33.2 3.5 9 6.1 30.8968 34.0314 28.4861 36.44212 40.3 5.3 20 6.4 37.4854 39.2609 34.6107 42.13563 38.7 5.1 18 7.4 37.4707 40.1261 34.9086 42.68824 46.8 5.8 33 6.7 42.5205 44.4618 39.7083 47.27405 41.4 4.2 31 7.5 40.4232 43.8053 38.0859 46.14266 37.5 6.0 13 5.9 34.8524 37.6481 32.3359 40.16457 39.0 6.8 25 6.0 39.8817 42.3580 37.2597 44.98008 40.7 5.5 30 4.0 37.1681 40.2629 34.7453 42.68579 30.1 3.1 5 5.8 28.5559 32.1443 26.2774 34.422810 52.9 7.2 47 8.3 49.6366 53.5616 47.4495 55.748711 38.2 4.5 25 5.0 36.2392 38.3482 33.4885 41.098912 31.8 4.9 11 6.4 33.7304 36.3460 31.1552 38.921213 43.3 8.0 23 7.6 41.7930 45.9327 39.6615 48.064314 44.1 6.5 35 7.0 44.1509 46.4352 41.4626 49.123515 42.8 6.6 39 5.0 42.5368 45.6863 40.1307 48.092516 33.6 3.7 21 4.4 32.9302 35.7734 30.4289 38.274617 34.2 6.2 7 5.5 32.1359 35.9164 29.9103 38.142018 48.0 7.0 40 7.0 46.0530 48.8515 43.5374 51.367019 38.0 4.0 35 6.0 39.6197 42.8729 37.2446 45.248020 35.9 4.5 23 3.5 33.0568 36.3778 30.7017 38.732821 40.4 5.9 33 4.9 40.0280 42.5347 37.4163 45.146422 36.8 5.6 27 4.3 36.9005 39.5954 34.3514 42.144523 45.2 4.8 34 8.0 42.6520 46.1184 40.3390 48.431324 35.1 3.9 15 5.0 32.2029 34.6304 29.5643 37.2690说明:10程序窗口直接调入Txt数据文件做回归分析Example2_3数据存在桌面ex2-3.txt文件里,无变量名,调用Txt文件做回归分析,程序:DATA examp2_3;INFILE 'C:\Users\Administrator\Desktop\ex2-3.txt';INPUT Y X1 X2 X3;PROC PRINT;RUN;proc reg data=examp2_3; /* 调用回归分析的reg过程 */model Y=X1-X3/i; /* 模型因变量y,自变量x1、x2、x3,输出Hessian矩阵*/ run;输出结果同上。
proc import out= xt49 /*使用import过程导入数据并输出到数据集xt4.9*/datafile="E:\xt49.xls"dbms=excel2000 replace;getnames=yes; /*首行为变量名*/run;proc plot data=xt49;/*对xt49绘图*/plot y*x='*';/*以x为横坐标,y为纵坐标,以*为各点,画散点图*/run;proc corr pearson data=xt49;/*对xt49运行相关分析过程*/var y x;/*计算y和x的Pearson相关系数*/run;proc reg data=xt49;/*对xt4.9运行回归分析过程*/model y=x;/*建立以y为因变量,以x为自变量的线性回归方程*/model y=x/p r dw;/*建立以y为因变量,以x为自变量的线性回归方程,p 是要求输出拟合值,r是要求输出残差值, dw是要求输出DW检验统计量的值*/model y=x1-x4/vif;/*建立以y为因变量,以x1-x4为自变量的线性回归方程,vif是要求输出各自变量的VIF值*/output out=res p=yhat r=residual;/*输出拟合值和残差值至数据集res,以便绘制残差图*/run;-------------------------以下是绘制残差图的程序,data res_new;/*创建新数据集res_new*/set res;/*先把res 数据集复制过来*/lag1residual=lag1(residual);/*lagn (n 自定)函数可把一变量的各观测值移后n 位;residual 即t e ,lag1residual 即1t e -*/t=_n_;/*_n_是data 步内读取观测值的计数器变量,从1开始,每读取一观测值自加1,因此变量t 的观测值即为期数1,2,...,n*/run;proc plot data=res_new;/*绘制残差图*/plot residual*lag1residual='*';/*以residual 即残差值为纵坐标,以residual2即拟合值为横坐标*/plot residual*t='*';/*以residual 即残差值为纵坐标,以t 即拟合值为横坐标*/run;- ------------------以下是进行一阶差分后建立回归模型以及其自相关检验的程序data et49_new;/*创建新数据集ch4_new*/set xt49;/*先把ch4数据集复制过来*/difx=x-lag1(x);/*lagn (n 自定)函数可把一变量的各观测值移后n 位;对x 各观测值作一阶差分*/dify=y-lag1(y);/*lagn (n 自定)函数可把一变量的各观测值移后n 位;对y 各观测值作一阶差分*/run;proc reg;/*对ex4.9_new运行回归分析过程*/model dify=difx/p r dw;/*建立以y为因变量,以difx为自变量的线性回归方程,p是要求输出拟合值,r是要求输出残差值,dw是要求输出DW检验统计量的值*/output out=res p=yhat r=residual;/*输出拟合值和残差值至数据集res,以便绘制残差图*/run;data res_new;/*创建新数据集res_new*/set res;/*先把res数据集复制过来*/lag1residual=lag1(residual);/*lagn(n自定)函数可把一变量的各观测值移后n位;residual即 ,lag1residual即 */t=_n_;/*_n_是data步内读取观测值的计数器变量,从1开始,每读取一观测值自加1,因此变量t的观测值即为期数1,2,...,n*/run;proc plot data=res_new;/*绘制残差图*/plot residual*lag1residual='*';/*以residual即残差值为纵坐标,以residual2即拟合值为横坐标*/plot residual*t='*';/*以residual即残差值为纵坐标,以t即拟合值为横坐标*/run;_ _ _ _ _ _ _ _ _ 异常值的的识别假定有一数据集ch,因变量为y,自变量为x1-x2(或x)。
SAS统计分析与应用课程设计一、课程设计背景和目的在传统的统计分析领域,SAS是一款广泛使用的统计软件之一。
其强大的计算能力和灵活的数据处理功能使得这款软件在企业、教育和科学领域广泛应用。
本课程设计旨在通过深入学习SAS统计分析软件,掌握其基本操作和高级应用,为学生提供实际数据处理及应用的能力。
二、教学内容1. SAS基础操作•SAS软件安装及环境配置•SAS控制台的基本操作•SAS语法规则与基础函数•数据导入和导出2. SAS数据清洗•数据的缺失值处理•数据的去重及异常值处理•数据类型转换和重编码3. SAS统计分析•常用的统计量及分析方法•数据分析及图形生成•统计模型和分析4. SAS应用案例•实际应用数据处理及分析•基于数据的实际问题解决三、课程设计要求1.学生需要独立完成一项SAS应用案例,体现对SAS基础操作和数据分析能力的结合应用。
2.学生需要提交本课程的学习笔记和实验报告。
学习笔记需要记录每次课堂的重点内容和自己的收获。
实验报告需要记录自己对SAS软件的理解和应用案例的分析过程,同时还需包含数据源、数据预处理、数据分析与结果等内容。
3.学生需要参与课堂讨论,和其他学生分享自己的经验和看法。
四、课程设计评价方法1.学生的学习笔记和实验报告将作为主要评价依据。
2.学生的应用项目和课堂参与表现也将作为评价依据之一。
3.教师将根据学生的学习情况以及作业表现,给出评语和成绩。
五、总结通过本课程的学习,学生将深入了解SAS统计分析软件的基本操作和高级应用,具备较强的实际数据处理和分析能力。
同时,在应用案例的实践中,学生还将培养合作与创新精神,提升自己的综合素质和能力水平。
sas应用多元分析课程设计一、课程目标知识目标:1. 掌握SAS软件的基本操作和功能,理解多元分析的基本概念和原理;2. 学习并掌握常用的多元分析方法,如因子分析、聚类分析、判别分析等;3. 了解多元分析在实际问题中的应用场景,能运用所学知识解决实际问题。
技能目标:1. 能够运用SAS软件进行多元分析操作,熟练运用相关命令和函数;2. 能够根据实际问题选择合适的多元分析方法,并进行数据处理和分析;3. 能够对多元分析结果进行正确解读和评价,提出有效的数据见解。
情感态度价值观目标:1. 培养学生对数据分析的兴趣,激发主动学习和探索精神;2. 培养学生严谨的科学态度,注重数据真实性和分析客观性;3. 培养学生团队协作意识,提高沟通与交流能力。
课程性质:本课程为应用型课程,结合实际案例,强调理论与实践相结合。
学生特点:学生具备一定的统计学基础和计算机操作能力,对数据分析感兴趣。
教学要求:以学生为中心,注重培养实际操作能力和解决问题能力,鼓励学生积极参与讨论和思考。
在教学过程中,将课程目标分解为具体的学习成果,便于教学设计和评估。
二、教学内容1. SAS软件基础操作与功能介绍:包括数据导入、数据清洗、数据转换等基本操作,以及SAS编程语言的基本语法和常用函数。
教材章节:第一章 SAS软件概述与操作入门2. 多元分析基本概念与原理:讲解多元分析的基本思想、类型及其应用场景,如因子分析、聚类分析、判别分析等。
教材章节:第二章 多元分析概述3. 常用多元分析方法及SAS实现:a. 因子分析:介绍因子分析的原理、步骤及SAS实现方法。
教材章节:第三章 因子分析b. 聚类分析:讲解聚类分析的原理、方法及SAS操作。
教材章节:第四章 聚类分析c. 判别分析:阐述判别分析的原理、步骤及SAS应用。
教材章节:第五章 判别分析4. 实际案例分析与数据处理:结合实际问题,引导学生运用所学知识进行数据分析,提高解决实际问题的能力。
用SAS 作回归分析前面我们介绍了相关分析,并且知道变量之间线性相关的程度可以通过相关系数来衡量。
但在实际工作中,仅仅知道变量之间存在相关关系往往是不够的,还需要进一步明确它们之间有怎样的关系。
换句话说,实际工作者常常想知道某些变量发生变化后,另一个相关变量的变化程度。
例如,第六章中已经证明消费和收入之间有很强的相关关系,而且也知道,消费随着收入的变化而变化,问题是当收入变化某一幅度后,消费会有多大的变化?再比如,在股票市场上,股票收益会随着股票风险的变化而变化。
一般来说,收益和风险是正相关的,也就是说,风险越大收益就越高,风险越小收益也越小,著名的资本资产定价模型(CAPM )正说明了这种关系。
现在的问题是当某个投资者知道了某只股票的风险后,他能够预测出这只股票的平均收益吗?类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。
第一节 线性回归分析方法简介一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由19世纪英国生物学家兼统计学家F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。
高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。
这一回归定律后来被统计学家K.Pearson 通过上千个家庭成员身高的实际调查数据进一步得到证实,从而产生了“回归”这一名称。
当然,现代意义上的“回归”比其原始含义要广得多。
一般来说,现代意义上的回归分析是研究一个变量(也称为因变量Dependent Variable 或被解释变量Explained Variable )对另一个或多个变量(也称为自变量Independent Variable 或Explanatory Variable )的依赖关系,其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。
多重线性回归sas课程设计一、课程目标知识目标:1. 学生能理解多重线性回归的基本概念、原理和数学模型;2. 学生掌握使用SAS软件进行多重线性回归分析的操作步骤;3. 学生能解释多重线性回归分析结果中各参数的含义及其在实际问题中的应用。
技能目标:1. 学生能够运用SAS软件进行多重线性回归数据预处理;2. 学生能够运用SAS软件进行多重线性回归模型拟合和参数估计;3. 学生能够运用SAS软件进行多重线性回归模型的假设检验和结果解读。
情感态度价值观目标:1. 学生通过本课程的学习,培养对数据分析的兴趣,提高解决实际问题的能力;2. 学生在学习过程中,培养严谨的科学态度和良好的团队合作精神;3. 学生能够将所学知识应用于实际生活,提高对统计学科在现实世界中重要性的认识。
课程性质:本课程为选修课,适用于具有一定统计学基础的高年级本科生。
学生特点:学生具备基本的统计学知识和一定的软件操作能力,对数据分析有一定兴趣。
教学要求:结合SAS软件,注重理论与实践相结合,强调学生在课堂上的主体地位,鼓励学生积极参与讨论和实际操作。
通过本课程的学习,使学生能够掌握多重线性回归分析方法,并应用于实际问题。
教学过程中,将课程目标分解为具体的学习成果,便于教学设计和评估。
二、教学内容1. 多重线性回归基本概念:变量选择、模型建立、参数估计;2. SAS软件操作:数据预处理、模型拟合、结果解读;3. 多重线性回归诊断:残差分析、共线性检验、异方差性检验;4. 多重线性回归应用实例:实际数据集分析、模型优化。
教学大纲:第一周:回顾统计学基础知识,介绍多重线性回归的基本概念和原理;第二周:学习SAS软件的基本操作,进行数据预处理;第三周:多重线性回归模型拟合,参数估计及解读;第四周:多重线性回归诊断,分析模型可能存在的问题;第五周:实例分析,运用所学知识解决实际问题,进行模型优化。
教学内容与教材关联性:1. 多重线性回归基本概念与教材第二章相关;2. SAS软件操作与教材第三章相关;3. 多重线性回归诊断与教材第四章相关;4. 多重线性回归应用实例与教材第五章相关。
《应用回归分析》课程设计报告学院专业学号分数二○一一年十二月关于居民家庭人均可支配收入与消费支出的一元回归分析【摘要】实行改革开放的三十多年里,全国经济发展迅速,经济的发展也带动着人民生活的提高,居民家庭人均可支配收入逐年提高,人民生活环境不断优化。
与此同时,人民生活水平的提高也反作用于经济的发展,人均可支配收入的增加也拉动国的商品消费,促进经济的发展。
为了进一步深入了解居民家庭人均可支配收入与消费支出的关系,本文选择通过一元回归分析的方法,在已有数据的基础上挖掘居民家庭人均可支配收入与消费支出的明确关系。
一、问题提出:改革开放三十多年里,随着经济的发展,居民家庭人均可支配收入不断提高,而居民家庭人均可支配收入的提高又反作用于商品消费,不断促进着国商品消费的发展,拉动国家经济的发展。
由此可见在居民家庭人均可支配收入与消费支出之间必然存在着一定的联系,我们将尝试通过已有的数据,进行分析总结,挖掘出二者之间的数学关系。
二、数据分析:数据样本与数据来源全国各地区城市居民家庭人均可支配收入与消费支出,数据均选自“国家统计局网”中2000—2005年的统计数据(见表1)。
全国各地区居民家庭人均可支配收入与消费支出(2000-2005)现运用SAS软件对筛选后的数据进行一元回归分析:设居民家庭人均可支配收入为y,消费支出为x:源程序:data yy;input y x;cards;13249.8 1046418645.03 13773.4117652.95 13244.2016682.8 12631.016293.77 12253.7415637.8 12200.414867.49 11040.3414769.94 11809.8714546.4 10636.113882.62 11123.8413627.7 10694.812883.46 9336.112638.55 9653.2612463.92 10284.612380.43 9636.2712321.31 8794.4112318.57 8621.8211718.01 8868.1911467.2 8802.410481.9 7332.310415.19 8099.6310312.91 7867.539431.18 8617.119337.56 7191.969265.90 6996.90;proc print;run;proc gplot;plot y*x;symbol c=black v=star i=none;run;proc corr pearson;var y x;run;proc reg;model y=x/p r dw;output out=out r=residual; run;print cli;print clm;plot y*x/conf95;run;proc gplot data=out;plot residual*x;symbol c=black v=star i=none; run;data out1;set out;z=abs(residual);lag1residual=lag1(residual);t=_n_;run;proc print data=out1 ;run;proc corr data=out1;var x z;run;proc gplot data=out1;plot residual*lag1residual=1; plot residual*t=2;symbol1c=black v=star i=none; symbol2c=black v=star i=none; run;三、输出结果以及相关分析:1.录入数据:2.散点图:有相关图我们可以发现,居民家庭人均可支配收入与消费支出具有明显的一元线性关系。
sas回归分析实验报告SAS回归分析实验报告引言:回归分析是一种常用的统计方法,用于研究变量之间的关系。
在本次实验中,我们使用SAS软件进行回归分析,探索自变量和因变量之间的关系,并对结果进行解释和推断。
本实验旨在通过实际数据的分析和处理,加深对回归分析方法的理解和应用。
实验设计:本次实验使用了某公司销售数据,其中自变量包括广告费用、产品价格和季节因素,因变量为销售额。
我们的目标是通过回归分析,探究广告费用、产品价格和季节因素对销售额的影响,并建立一个可靠的模型来预测销售额。
数据处理:首先,我们对数据进行了清洗和预处理。
去除了缺失值和异常值,并进行了变量的标准化处理,以确保数据的准确性和可比性。
接下来,我们使用SAS软件进行回归分析。
回归模型建立:我们选择了多元线性回归模型来建立自变量和因变量之间的关系。
通过分析数据,我们发现广告费用、产品价格和季节因素对销售额都可能有影响。
因此,我们的模型为:销售额= β0 + β1 × 广告费用+ β2 × 产品价格+ β3 × 季节因素+ ε其中,β0、β1、β2和β3分别为回归系数,ε为误差项。
回归分析结果:通过SAS软件进行回归分析后,我们得到了如下结果:回归方程:销售额= 1000 + 2.5 × 广告费用+ 1.8 × 产品价格+ 0.3 × 季节因素回归系数的显著性检验结果显示,广告费用和产品价格对销售额的影响是显著的(p < 0.05),而季节因素的影响不显著(p > 0.05)。
模型解释和推断:根据回归方程的结果,我们可以得出以下结论:1. 广告费用对销售额有正向影响:每增加1单位的广告费用,销售额将增加2.5单位。
2. 产品价格对销售额也有正向影响:每增加1单位的产品价格,销售额将增加1.8单位。
3. 季节因素对销售额的影响不显著:季节因素对销售额的变化没有明显的影响。
.. 回归分析课程设计旭俊5指导教师丁仕虹学院名称理学院专业名称统计学设计提交日期2012年12月目录1.课程设计简述--------------------------------------------------------22.多元线性回归--------------------------------------------------------33.违背基本假设的情况-------------------------------------------------53.1 异差性--------------------------------------------------------53.2 自相关性--------------------------------------------------------63.3 异常值检验------------------------------------------------------64.自变量的选择与逐步回归---------------------------------------------74.1 所有子集回归----------------------------------------------------74.2 逐步回归--------------------------------------------------------85.多重共线性的情形及其处理-----------------------------------------105.1 多重共线性诊断------------------------------------------------105.2 消除多重共线性------------------------------------------------116.岭回归--------------------------------------------------------------127.主成分回归----------------------------------------------------------148.含定性变量的回归模型----------------------------------------------15Logistic模型-------------------------------------------------------15 9.附录(程序代码)---------------------------------------------------171.课程设计简述本课程设计的主题是讨论国生产总值GDP与一些因素,包括进出口额、旅客客运量、第一产业固定投资额、居民消费价格指数等10个因素之间的统计关系。
关于居民家庭人均可支配收入与消费支出的一元回归分析【摘要】实行改革开放的三十多年里,全国经济发展迅速,经济的发展也带动着人民生活的提高,居民家庭人均可支配收入逐年提高,人民生活环境不断优化。
与此同时,人民生活水平的提高也反作用于经济的发展,人均可支配收入的增加也拉动国内的商品消费,促进经济的发展。
为了进一步深入了解居民家庭人均可支配收入与消费支出的关系,本文选择通过一元回归分析的方法,在已有数据的基础上挖掘居民家庭人均可支配收入与消费支出的明确关系。
一、问题提出:改革开放三十多年里,随着经济的发展,居民家庭人均可支配收入不断提高,而居民家庭人均可支配收入的提高又反作用于商品消费,不断促进着国内商品消费的发展,拉动国家经济的发展。
由此可见在居民家庭人均可支配收入与消费支出之间必然存在着一定的联系,我们将尝试通过已有的数据,进行分析总结,挖掘出二者之间的数学关系。
二、数据分析:数据样本与数据来源全国各地区城市居民家庭人均可支配收入与消费支出,数据均选自“国家统计局网”中2000—2005年的统计数据(见表1)。
全国各地区居民家庭人均可支配收入与消费支出(2000-2005)现运用SAS软件对筛选后的数据进行一元回归分析:设居民家庭人均可支配收入为y,消费支出为x:源程序:data yy;input y x;cards;13249.8 1046418645.03 13773.4117652.95 13244.2016682.8 12631.016293.77 12253.7415637.8 12200.414867.49 11040.3414769.94 11809.8714546.4 10636.113882.62 11123.8413627.7 10694.812883.46 9336.112638.55 9653.2612463.92 10284.612380.43 9636.2712321.31 8794.4112318.57 8621.8211718.01 8868.1911467.2 8802.410481.9 7332.310415.19 8099.6310312.91 7867.539431.18 8617.119337.56 7191.969265.90 6996.90;proc print;run;proc gplot;plot y*x;symbol c=black v=star i=none; run;proc corr pearson;var y x;run;proc reg;model y=x/p r dw;output out=out r=residual; run;print cli;print clm;plot y*x/conf95;run;proc gplot data=out;plot residual*x;symbol c=black v=star i=none; run;data out1;set out;z=abs(residual);lag1residual=lag1(residual); t=_n_;run;proc print data=out1 ;run;proc corr data=out1;var x z;run;proc gplot data=out1;plot residual*lag1residual=1; plot residual*t=2;symbol1c=black v=star i=none; symbol2c=black v=star i=none; run;三、输出结果以及相关分析:1.录入数据:2.散点图:有相关图我们可以发现,居民家庭人均可支配收入与消费支出具有明显的一元线性关系。
3.简单统计量和Pearson相关系数:由相关图和相关系数我们可以发现,居民家庭人均可支配收入与消费支出具有明显的一元线性相关关系,所以我们选择用一元回归模型对其进行拟合。
4.参数估计及模型检验:由结果看出:参数x显著,而常数项不显著,但一般情况下我们都选择保留常数项,来体现实际意义,而方差分析中p<0.0001,所以一元回归方程也显著。
所以拟合模型为:y=86.48762+1.30066*x5.区间估计预测值与模型均值的拟合图,以及残差图:由区间估计与模型均值的拟合图,我们可以确定,一元回归拟合效果良好,置信区间分部也合理。
再由残差图中我们可以看出:点都在0值上下随机分布,没有明显的趋势,所以一元回归拟合效果良好。
为了增强模型的可靠性,我们进一步对模型进行异方差检验和自相关性检验。
6.异方差检验:等级相关系数法:z为残差的绝对值,所以由p=0.9966>0.05,以及结合上面的残差图:点的分布没呈现明显的规律性,可以确定上述数据不存在异方差。
7.自相关性检验:(1)图示法:残差e t与e t-1的散点图残差e t与t的散点图由残差e t与e t-1的散点图中,点都没呈现出明显的规律性,而残差e t与t的散点图中,点都在0值附近随机分布,没有明显的规律性跳跃或波动,所以我们可以认为随机误差项不存在自相关性。
(2)DW检验法:有输出结果,可以看出DW值为:2.058,查DW表,n=25,k=2,显著性水平a=0.05,得dL=1.29,dU=1.45。
由于1.45<2.058<2.55,因而我们依然可以认为随机误差项不存在自相关性。
四、结论总结:由一元回归分析,得到了居民家庭人均可支配收入与消费支出的函数关系为:y=86.48762+1.30066*x。
t检验和方差分析检验结果确定回归方程显著有效,拟合效果良好,并且通过了异方差和自相关性检验,所以我们可以确定,此一元回归方程可以可靠地体现居民家庭人均可支配收入与消费支出的关系。
关于病虫预报的多元回归分析【摘要】病虫害作为一类频发性生物灾害,是生产和生态工程建设的一个重要制约因素。
我国是世界上病虫害发生较为严重的国家之一。
为减少森林病虫害的危害造成的损失,通过研究生态系统中病虫害种群变化的规律,对病虫害未来发生和增长趋势作出科学的预测预报,从而实现对病虫害的可持续控制。
病虫害的发生流行是有害生物和气象等因素综合作用的结果,其中部分因素是决定有害生物发生流行的关键因子。
在生态系统中,可以根据这一类因素对病虫害种群动态的影响,通过数学、生态学方法构建系统模型,利用这些模型进行主要病虫害的种群趋势的准确预测,并采取科学的综合治理措施。
本文根据多元回归分析的原理,分析多个预报因子与病虫害种群变动之间的内在联系,构建预测模型,利用文献资料和病虫害的调查数据有效地拟合和预报病虫害危害程度和发生趋势。
一、问题提出:我国是世界上病虫害多发的国家之一,多年来,严重的病虫害不但制约着我国农业等产业的持续发展,而且对生态环境也带来了破坏性的影响,所以如何有效地预防,治理病虫害已经成为了我国的重要生态项目之一。
经过多年的研究观察,我们发现生态系统中有许多重要预报因子对病虫害的爆发具有很强的同步性,由此可见在这一类预报因子与病虫害爆发之间必然存在着密切的联系,我们将尝试通过对已有文献的数据进行分析总结,挖掘出它们之间确切的数学关系。
二、数据分析1、设置指标某地区病虫测报站选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米);x4为4月中旬雨日(天);y 为预报一代粘虫幼虫发生量(头/m2)。
其中,预报因子:x1诱蛾量:0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量:0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量:0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日:0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。
y预报量:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。
2、数据样本与数据来源某地区病虫测报站相关指标数据:现运用SAS软件对上述数据进行多元回归分析。
源程序:data dy;input y x1-x4;cards;1 4 1 1 11 1 3 1 11 3 1 1 14 4 4 4 41 1 1 1 11 2 1 1 13 3 3 2 21 12 1 14 3 4 4 23 34 3 22 2 2 2 22 134 23 1 24 33 2 1 1 34 3 4 4 22 1 1 1 1;proc print;run;proc corr pearson;var y x1-x4;run;proc reg;model y=x1-x4;model y=x1-x4/selection=adjrsq cp aic dw; model y=x1-x4/selection=stepwise vif; output out=out r=residual;run;data out1;set out;z=abs(residual);lag1residual=lag1(residual);t=_n_;run;proc print data=out1 ;run;proc corr data=out1 out=out2;var x2 x4 z;run;proc gplot data=out1;plot residual*lag1residual=1;plot residual*t=2;symbol1c=black v=star i=none;symbol2c=black v=star i=none;run;proc princomp data=dy;var x1-x4;run;proc reg data=dyoutest=pcr;model y=x1-x4/pcomit=1;run;proc print data=pcr;run;proc reg data=dy outest=rid;model y=x1-x4/ridge=0 to 1 by 0.1;plot/ridgeplot;run;proc print data=rid;run;三、输出结果以及相关分析:1.录入数据:2. 简单统计量和Pearson相关系数:由相关系数我们可以认为,各个预报因子都与预报一代粘虫幼虫发生量具有较强的的相关关系,所以尝试使用多元回归模型对其进行拟合。
3.随机误差项的异方差检验和自相关性检验:由异方差检验结果,我们可以选择使用x2来构造权函数,进行加权最小二乘来估计参数系数,来减小随机误差项的异方差影响。