(整理)实验五__回归分析SAS过程(2).
- 格式:doc
- 大小:769.50 KB
- 文档页数:33
sas回归分析数据预处理->数据探索->模型选择->残差检验、共线性争端,强影响点判断->模型修正(否->模型选择,是->模型预测)⼀:数据预处理⼆:数据探索看y是否服从正态分布(PP图)proc univariate data=reg.b_fitness;var Runtime -- Performance;histogram Runtime -- Performance / normal; /*主要从统计指标上⾯看*/probplot Runtime -- Performance /normal (mu=est sigma=est color=red w=2);/*主要从图形来看*/run;看x的离散程度(散点图)看y与x的相关系数(散点图,R^2)proc gplot data=reg.b_fitness;plot Oxygen_Consumption *(Run_PulseRest_PulseMaximum_PulsePerformanceRuntimeAgeWeight);symbol v=dot color=red;run;quit;proc corr data=reg.b_fitness;var Run_Pulse Rest_Pulse Maximum_Pulse Performance Runtime Age Weight;with Oxygen_Consumption;run;三:模型选择CP法(全模型法)功能:在特定的模型⼤⼩范围内,找出指定的最佳模型(具有最⼩CP)BEST=N 表⽰在不同的变量个数组成的模型中,选择N个最好的模型,所有组合数为[2^(变量个数)-1]在由1个⾃变量组成的模型中选N个最好的在由2个⾃变量组成的模型中选N个最好的。
在由M(总共变量的个数)个⾃变量组成的模型中选N个最好的总共会选M*N个模型这⾥统计量为Cp,建议是Cp<=p ,p是所有变量个数加1逐步法向前回归法特点:和变量进⼊的顺序有很⼤关系,如果第⼀个进来的变量的解释效应过⼤,很可能造成后进的变量进不来模型引⼊第⼀个变量进⼊⽅程,对整个⽅程进⾏F检验,并对单个回归系数进⾏T检验,计算残差平⽅和Se1,如果通过检验则保留,否则剔除引⼊第⼆个变量进⼊⽅程,对整个⽅程进⾏F检验,并对单个回归系数进⾏T检验,计算残差平⽅和Se2,那么Se1>Se2,称Se1-Se2为第⼆个变量的偏回归平⽅和,如果该值明显偏⼤,则保留,说明其对因变量有影响,否则剔除。
SAS整理下之相关分析和回归分析相关分析1.⽤INSIGHT模块作相关分析先说⼀下建⽴数据集,找到题中的某句话的意思是,“为了弄清楚。
形成的原因,或者是为了分析。
的影响因素。
”找到这句话就成功⼀半了,将这个。
元素就写到Y的列下,其他的元素就设成X1 X2。
这样,有⼏个元素就⼏列,但是Y只有⼀列,⽽X就看题中给得了!!1. 制作散点图⾸先制作变量之间的散点图,以便判断变量之间的相关性。
步骤如下:1) 在INSIGHT模块中,打开数据集;2) 选择菜单“Analyze(分析)”→“Scatter Plot (Y X)(散点图)”;3) 在打开的“Scatter Plot (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4;4) 单击“OK”按钮,得到变量的分析结果。
从各散点的分布情况看,初步有⼀个跟每个元素的线性关系密切或不密切就⾏了。
2. 相关系数计算1) 在INSIGHT模块中,打开数据集;2) 选择菜单“Analyze(分析)”→“Multivariate (Y X)(多变量)”;3) 在打开的“Multivariate (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4;4) 单击“OK”按钮,得到分析结果。
结果显⽰各变量的统计量和相关(系数)矩阵,从相关矩阵中可以看出,相关系数⾼的就关系密切,相关系数低的就关系不密切。
5) 为了检验各总体变量的相关系数是否为零,选择菜单:“Tables”→“CORR p-values”,得到相关系数为零的原假设的p值,如图所⽰。
基于这些p值,拒绝原假设,即Y因素与其他⼏个变量之间均存在着显著的正相关关系;若p值>0.05,则⽆法拒绝原假设。
3. 置信椭圆继续上述步骤。
6) 选择菜单:“Curves”→“Scatter Plot Cont Ellipse”→“Prediction:95%”,得到Y与其他⼏个变量的散点图及预测值的置信椭圆变量Y和x1间散点图上的这个椭圆被拉得很长,表明变量Y和x1之间有很强的相关性。
实验五回归分析一.实验目的和要求回归分析是研究自变量与因变量之间的关系形式的研究方法,其目的在于根据已知自变量来估计和预测因变量的总平均值。
本次实验根据已有的银行业务数据信息进行回归分析,找出影响不良贷款的因素,进而控制并减少不良贷款,降低银行进一步的损失。
二.实验内容1.实验数据2010年该银行所属的25家分行的有关业务数据如下表所示。
某商业银行2010年的制药业务数据表分行编号不良贷款(亿元)y各项贷款余额(亿元)x1本年累计应收贷款(亿元)x2贷款项目个数(个)x3本年固定资产投资额(亿元)x41 1.2 70.6 7.7 6 54.72 1.4 114.6 20.7 17 93.83 5.1 176.3 8.6 18 76.64 3.5 83.9 8.1 11 18.55 8.2 202.8 17.5 20 66.36 2.9 19.5 3.4 2 4.97 1.9 110.7 11.7 17 23.68 12.7 188.9 27.9 18 46.99 1.3 99.6 2.6 11 56.110 2.9 76.1 10.1 16 67.611 0.6 67.8 3.1 12 45.912 4.3 135.6 12.1 25 79.813 1.1 67.7 6.9 16 25.914 3.8 177.9 13.6 27 120.115 10.5 266.6 16.5 35 149.916 3.3 82.6 9.8 16 32.717 0.5 17.9 1.5 4 45.618 0.7 76.7 6.8 13 28.619 1.3 27.8 5.9 6 16.820 7.1 143.1 8.1 29 67.821 11.9 371.6 17.7 34 167.222 1.9 99.2 4.7 12 47.823 1.5 112.9 11.2 16 70.224 7.5 199.8 16.7 18 43.125 3.6 105.7 12.9 12 100.22.实验过程分别绘制不良贷款与贷款余额、应收贷款、贷款项目数、固定资产投资额之间的散点图。
实验五 回归分析SAS 过程(2)实验目的:1.会对实际问题建立有效的多元回归模型,能对回归模型进行残差分析;2.掌握SAS 输出结果用于判别回归方程优良性的不同统计量,能对回归模型进行运用,对实际问题进行预测或控制. 实验要求:编写程序,结果分析. 实验内容:1.误差的正态性检验有几种方法,何时认为误差项服从正态分布? 答:1.学生化残差2.残差正态性的频率检验3.残差的正态QQ 图检验 判断若散点),()()(i i r q ),,2,1(n i 大致在一条直线上相关系数:1)()())((1)(12)(1)()(ni i ni i i i i q q r rq q r r认为i r ),,2,1(n i 来自正态分布,接受误差正态性检验.2.回归方程的选取的穷举法中,评价回归方程优良性的准则有哪些?根据准则何 时方程最优?答:1)修正的复相关系数准则或均方残差准则()(2p R a 或p MSE 准则)2)p C 准则3)预测平方和准则(p PRESS 准则)拟合所有可能的121 M 个回归方程,画出p C 图:),(p C p ,在p C 图中选取最接近参考直线p C p 的点所对应的回归方程为最优方程.3.简述逐步回归方法的思想和步骤.基本思想:逐个引入自变量建立回归方程,每次引入对Y影响最显著的自变量, 并对方程中旧变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中,既不漏掉对Y显著影响的变量,又不包含对Y 影响不显著的变量. 添加或删除某个自变量的准则是用残差平方和的相对减少或增加来衡量.步骤:(1)修正的复相关系数准则、C准则选择模型p(2)预测平方和准则选择PRESSp最优回归方程(3)最优模型的拟合检验4.做2.6 2.8(选作) 2.9注意:可以选课外综合题目。
2.6程序:data examp2_6;input x1 x2 y;cards;8.3 70 10.38.6 65 10.38.8 63 10.210.5 72 16.410.7 81 18.810.8 83 19.711.0 66 15.611.1 80 22.6 11.2 75 19.9 11.3 79 24.2 11.4 76 21.0 11.4 76 21.411.7 69 21.312.0 75 19.1 12.9 74 22.212.9 85 33.813.3 86 27.4 13.7 71 25.713.8 64 24.914.0 78 34.5 14.2 80 31.7 14.5 74 36.3 16.0 72 38.316.3 77 42.617.3 81 55.4 17.5 82 55.717.9 80 58.318.0 80 51.520.6 87 77.0run;proc reg data= examp2_6;model y=x1-x2;output out=a p=predict r=resid h=h student=r;run;data b;set a;drop x1-x2;run;proc print data=b;run;proc capability graphics noprint data=a; /* 对数据集a调用capability过程,高分辨图,不打印输出 */qqplot r/normal; /* 作student数据的正态QQ图*/run;goptions reset=all; /*将图形的设置恢复为默认状态*/proc gplot data=a; /* 对数据集a作出画高分辨的散点图或曲线图*/plot resid*predict; /* 画纵坐标为残差、横坐标为yi散点图 */ symbol v=dot i=none; /* 散点表示符号圆点•,不画连线 */run;/*此处至Quit 是计算学生化残差对应的标准正态分布的分位数*/ proc sort data=a;by r; /* 按r 排序*/proc iml; /* 调用iml 矩阵分析模块,计算数据 */ use a; /* 打开数据集a */read all var{r} into rr; /* 读入集a 中变量r(学生化残差)各观测值到矩阵rr 中*/do i=1 to 31; /* 此循环计算 */ qi=probit((i-0.375)/54.25);q=q//qi; /* 矩阵qi 上下连接而成,即得54*1阶矩q=(q(1),q(2),,q(30))T */ end;rq=rr||q; /* 表示矩阵rq=(rr q )*/create correl var{r q}; /* 创建数据集correl, 变量为r 、q */append from rq; /* 从矩阵rq 读取数据 ( ) */ quit; /* iml 过程结束 */proc corr data=correl; /* 计算学生化残差与对应的标准正态分布的分位数的相关系数*/ run;(a )学生化残差的正态QQ 图(b )拟合值yˆ的残差图 结果分析:1) 由学生化残差的正态QQ 图可知,其点明显不在一条直线上;2) 求得有序学生化残差与相应正态分布的分位数的相关系数=0.94091与1相差较大.因此,若拟合线性回归模型,则误差分布与正态分布有较大的偏离;3) Y 拟合值的残差图也表明Y 与21,X X 不满足线性关系,且两个拟合值还为负数.由此知, 直接假定体积与直径和树干高度之间的线性回归关系是不恰当的.(2)对因变量Y 作Box-Cox 变换 第一步:确定变换参数鉴于(1)中的残差分析结果,我们对Y 作Box-Cox 变换0,ln 0,1)( Y Y Y .对不同的 值,由式);()( Z SSE ,并利用SAS 系统proc iml 过程计算);()( Z SSE 的值.由图2.5给出了);()( Z SSE 随 的变化曲线. 求变换参数的程序:proc iml; n=31; t=1;use examp2_6; read all var{x1 x2 y} into m; do i=1 to n; t=t#m[i,3]; end;prod=t##(1/n); j=j(n,1,1); xx=j||m[,1:2];h=xx*inv(xx`*xx)*xx`;do lamb=-0.5 to 0.5 by 0.01;if lamb=0 then zlamb=prod#log(m[ ,5]);else zlamb=(m[,3]##lamb-j)/(lamb#(prod##(lamb-1))); sse=zlamb`*(i(n)-h)*zlamb;lsse=lsse//(lamb||sse);end;tt=prod#log(m[ ,3]);sse0=tt`*(i(n)-h)*tt;lsse[30,1]=0;lsse[30,2]=sse0;index=lsse[>:<,];minlsse=index[1,2];lambda0=lsse[minlsse,1];print lambda0;create plotdata var{lambda sse};append from lsse;z=(m[,3]##lambda0-j(n,1,1))/lambda0;outm=m[,1:2]||z;create trans var{x1 x2 z};append from outm;quit;proc print data=trans;run;画)()()()()();( Z H I Z Z T SSE 图 goptions reset =all; proc gplot data =plotdata; plot sse*lambda; symbol v =point i =spline; run ;由结果给出了);()( Z SSE 随 的变化曲线.由图可知,);()( Z SSE 在0.31 时达到最小,因此,在Box-Cox 变换式中取0.31 .记变换后的因变量为Z ,即第二步:对Z 关于4321,,,X X X X 拟合线性回归模型 X Z ,利用残差分析考察模型的合理性并作出拟合结果建立回归模型 X Z ,作残差分析程序如下: proc reg data=trans; model z=x1-x2;output out=c p=predict1 r=resid1 student=r1; run;goptions reset=all;proc capability graphics noprint data=c; qqplot r1/normal; run;goptions reset=all; proc gplot data=c;plot resid1*predict1; symbol v=dot i=none; run;回归模型 X Z 及残差分析结果输出:对Z 关于12,X X 拟合线性回归模型,求出残差i ˆ及学生化残差(1,2,,31)i r i L .做出学生化残差的正态QQ 图以及Z 的拟合值的残差图如图所示.(a )学生化残差的正态QQ 图(q, r )(b) Z 的拟合值zˆ的残差图 由图知,线性回归关系高度显著且复相关系数的平方和为20.9776R ,即线性部分描述了Z 的绝大部分变化量.由此得拟合的回归方程为回归模型01122Z X X 残差的相关系数检验 有序学生化残差与相应正态分布的分位数的相关系数=0.96990与1比较接近.因此变换效果比以前好了。
sas实验报告SAS实验报告一、实验目的:1.了解SAS软件的使用方法和基本操作2.熟悉SAS数据处理和分析的流程3.掌握SAS数据导入和导出的方法二、实验原理:SAS(Statistical Analysis System)是一个用于统计分析的软件系统,包括数据管理、数据挖掘、报告和图形展示等功能。
SAS语言是一种功能强大的编程语言,通过SAS语言,可以对数据进行处理、分析和建模。
三、实验内容和步骤:1.打开SAS软件,创建一个新的SAS工作空间。
2.使用DATA和SET语句导入外部数据文件,并观察数据的结构和变量。
3.使用PROC PRINT和PROC FREQ等语句对数据进行描述性统计和频数分析。
4.使用PROC MEANS和PROC UNIVARIATE等语句对数据进行均值分析和单变量分析。
5.使用PROC CORR和PROC REG等语句进行相关分析和回归分析。
6.使用PROC GRAPH和PROC PLOT等语句绘制图形。
四、实验结果分析:通过使用SAS软件进行数据处理和分析,我们得到了以下结果:1.数据结构和变量分析:数据包含了10个变量,其中包括年龄、性别、教育水平、职业等信息。
2.描述性统计和频数分析:我们对数据进行了描述性统计,包括计算了平均值、中位数、标准差等统计量,并使用频数分析对变量进行了分组统计。
3.均值分析和单变量分析:我们使用PROC MEANS和PROC UNIVARIATE进行了变量的均值分析和单变量分析,得到了各变量的均值、标准差、四分位数等统计量。
4.相关分析和回归分析:我们使用PROC CORR和PROC REG 对变量之间的相关性进行了分析,并使用回归分析模型进行了拟合。
5.图形绘制:我们使用PROC GRAPH和PROC PLOT对数据进行了可视化展示,绘制了直方图、散点图等图形。
通过对实验结果的分析,我们可以对数据进行进一步的理解和解读,得到了对变量之间关系和趋势的更深入的认识。
proc import out= xt49 /*使用import过程导入数据并输出到数据集xt4.9*/datafile="E:\xt49.xls"dbms=excel2000 replace;getnames=yes; /*首行为变量名*/run;proc plot data=xt49;/*对xt49绘图*/plot y*x='*';/*以x为横坐标,y为纵坐标,以*为各点,画散点图*/run;proc corr pearson data=xt49;/*对xt49运行相关分析过程*/var y x;/*计算y和x的Pearson相关系数*/run;proc reg data=xt49;/*对xt4.9运行回归分析过程*/model y=x;/*建立以y为因变量,以x为自变量的线性回归方程*/model y=x/p r dw;/*建立以y为因变量,以x为自变量的线性回归方程,p 是要求输出拟合值,r是要求输出残差值, dw是要求输出DW检验统计量的值*/model y=x1-x4/vif;/*建立以y为因变量,以x1-x4为自变量的线性回归方程,vif是要求输出各自变量的VIF值*/output out=res p=yhat r=residual;/*输出拟合值和残差值至数据集res,以便绘制残差图*/run;-------------------------以下是绘制残差图的程序,data res_new;/*创建新数据集res_new*/set res;/*先把res 数据集复制过来*/lag1residual=lag1(residual);/*lagn (n 自定)函数可把一变量的各观测值移后n 位;residual 即t e ,lag1residual 即1t e -*/t=_n_;/*_n_是data 步内读取观测值的计数器变量,从1开始,每读取一观测值自加1,因此变量t 的观测值即为期数1,2,...,n*/run;proc plot data=res_new;/*绘制残差图*/plot residual*lag1residual='*';/*以residual 即残差值为纵坐标,以residual2即拟合值为横坐标*/plot residual*t='*';/*以residual 即残差值为纵坐标,以t 即拟合值为横坐标*/run;- ------------------以下是进行一阶差分后建立回归模型以及其自相关检验的程序data et49_new;/*创建新数据集ch4_new*/set xt49;/*先把ch4数据集复制过来*/difx=x-lag1(x);/*lagn (n 自定)函数可把一变量的各观测值移后n 位;对x 各观测值作一阶差分*/dify=y-lag1(y);/*lagn (n 自定)函数可把一变量的各观测值移后n 位;对y 各观测值作一阶差分*/run;proc reg;/*对ex4.9_new运行回归分析过程*/model dify=difx/p r dw;/*建立以y为因变量,以difx为自变量的线性回归方程,p是要求输出拟合值,r是要求输出残差值,dw是要求输出DW检验统计量的值*/output out=res p=yhat r=residual;/*输出拟合值和残差值至数据集res,以便绘制残差图*/run;data res_new;/*创建新数据集res_new*/set res;/*先把res数据集复制过来*/lag1residual=lag1(residual);/*lagn(n自定)函数可把一变量的各观测值移后n位;residual即 ,lag1residual即 */t=_n_;/*_n_是data步内读取观测值的计数器变量,从1开始,每读取一观测值自加1,因此变量t的观测值即为期数1,2,...,n*/run;proc plot data=res_new;/*绘制残差图*/plot residual*lag1residual='*';/*以residual即残差值为纵坐标,以residual2即拟合值为横坐标*/plot residual*t='*';/*以residual即残差值为纵坐标,以t即拟合值为横坐标*/run;_ _ _ _ _ _ _ _ _ 异常值的的识别假定有一数据集ch,因变量为y,自变量为x1-x2(或x)。
学生实验报告学生实验报告一、实验目的及要求:1、目的学会和掌握参数估计与假设检验2、内容及要求学会用SAS作总体均值、方差估计,以及单样本均值、方差比例检验,双样本均值、方差、比例的比较和配对样本均值比较检验等操作二、仪器用具:三、实验方法与步骤:步骤一、运行SAS软件,新建各题要用到的数据集;步骤二、新建数据集后,输入analyst命令或在点击解决方案—分析—分析家,进入分析员应用环境;步骤三、在分析员应用环境打开新建的数据集;步骤四、再根据各题要求,点击统计选项来分析。
四、实验结果与数据处理:1.下面是某地一年级的12位女生的体重(kg)和肺活量(L)的数据试求肺活量对体重的回归方程。
体重42 42 46 46 46 50 50 50 52 52 58 58 肺活量2.55 2.2 2.75 2.4 2.8 2.813.41 3.1 3.46 2.85 3.5 3(1)对肺活量和体重进行相关分析。
绘制体重与肺活量的散点图,计算其相关系数。
并对输出结果进行解释。
①将数据保存至EXCEL文件,导入数据,得到数据集;②在INSIGHT环境中调入数据,绘制体重与肺活量的散点图,如图所示。
③在INSIGHT环境中利用多元进行分析,得出体重与肺活量的相关系数。
“单变量统计量”中提供了每个变量的5个统计量,分别为数量、均值、标准差、最小值和最大值。
“相关系数举证”中则提供了变量间的相关系数,体重(weight )和肺活量(pulmonary)的相关系数为0.7495(2)判断体重和肺活量两变量的关系,拟合肺活量对体重的方程,对回归系数进行解释和对回归系数进行检验,绘制残差图。
①用insight 视图下的分析来拟合肺活量对体重的方程;得到简单线性回归方程为 X Y 0588.00004.0+== 对回归系数进行解释和对回归系数进行检验:上表提供模型拟合的汇总度量,肺活量的均值是2.9025 ,模型的5617.02=R ,说明肺活量变异的大约56%可以由体重来说明。
SPSS在生物统计学中的应用——实验指导手册实验五:方差分析一、实验目标与要求1.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思想和原理2.掌握方差分析的过程。
3.增强学生的实践能力,使学生能够利用SPSS统计软件,熟练进行单因素方差分析、两因素方差分析等操作,激发学生的学习兴趣,增强自我学习和研究的能力。
二、实验原理在现实的生产和经营管理过程中,影响产品质量、数量或销量的因素往往很多。
例如,农作物的产量受作物的品种、施肥的多少及种类等的影响;某种商品的销量受商品价格、质量、广告等的影响。
为此引入方差分析的方法。
方差分析也是一种假设检验,它是对全部样本观测值的变动进行分解,将某种控制因素下各组样本观测值之间可能存在的由该因素导致的系统性误差与随即误差加以比较,据以推断各组样本之间是否存在显著差异。
若存在显著差异,则说明该因素对各总体的影响是显著的。
方差分析有3个基本的概念:观测变量、因素和水平。
●观测变量是进行方差分析所研究的对象;●因素是影响观测变量变化的客观或人为条件;●因素的不同类别或不通取值则称为因素的不同水平。
在上面的例子中,农作物的产量和商品的销量就是观测变量,作物的品种、施肥种类、商品价格、广告等就是因素。
在方差分析中,因素常常是某一个或多个离散型的分类变量。
⏹根据观测变量的个数,可将方差分析分为单变量方差分析和多变量方差分析;⏹根据因素个数,可分为单因素方差分析和多因素方差分析。
在SPSS中,有One-way ANOV A(单变量-单因素方差分析)、GLM Univariate(单变量多因素方差分析);GLM Multivariate (多变量多因素方差分析),不同的方差分析方法适用于不同的实际情况。
本节仅练习最为常用的单变量方差分析。
三、实验演示内容与步骤㈠单变量-单因素方差分析单因素方差分析也称一维方差分析,对两组以上的均值加以比较。
检验由单一因素影响的一个分析变量由因素各水平分组的均值之间的差异是否有统计意义。
回归分析与REG 过程前面我们介绍了相关分析,并且知道变量之间线性相关的程度可以通过相关系数来衡量。
但在实际工作中,仅仅知道变量之间存在相关关系往往是不够的,还需要进一步明确它们之间有怎样的关系。
换句话说,实际工作者常常想知道某些变量发生变化后,另一个相关变量的变化程度。
例如,第六章中已经证明消费和收入之间有很强的相关关系,而且也知道,消费随着收入的变化而变化,问题是当收入变化某一幅度后,消费会有多大的变化?再比如,在股票市场上,股票收益会随着股票风险的变化而变化。
一般来说,收益和风险是正相关的,也就是说,风险越大收益就越高,风险越小收益也越小,著名的资本资产定价模型(CAPM )正说明了这种关系。
现在的问题是当某个投资者知道了某只股票的风险后,他能够预测出这只股票的平均收益吗?类似这类通过某些变量的已知值来预测另一个变量的平均值的问题正是回归分析所要解决的。
第一节 线性回归分析方法简介一、回归分析的含义及其所要解决的问题“回归”(Regression)这一名词最初是由19世纪英国生物学家兼统计学家F.Galton(F.高尔顿)在一篇著名的遗传学论文中引入的。
高尔顿发现,虽然有一个趋势:父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高的趋势。
这一回归定律后来被统计学家K.Pearson 通过上千个家庭成员身高的实际调查数据进一步得到证实,从而产生了“回归”这一名称。
当然,现代意义上的“回归”比其原始含义要广得多。
一般来说,现代意义上的回归分析是研究一个变量(也称为因变量Dependent Variable 或被解释变量Explained Variable )对另一个或多个变量(也称为自变量Independent Variable 或Explanatory Variable )的依赖关系,其目的在于通过自变量的给定值来预测因变量的平均值或某个特定值。
sas回归分析实验报告SAS回归分析实验报告引言:回归分析是一种常用的统计方法,用于研究变量之间的关系。
在本次实验中,我们使用SAS软件进行回归分析,探索自变量和因变量之间的关系,并对结果进行解释和推断。
本实验旨在通过实际数据的分析和处理,加深对回归分析方法的理解和应用。
实验设计:本次实验使用了某公司销售数据,其中自变量包括广告费用、产品价格和季节因素,因变量为销售额。
我们的目标是通过回归分析,探究广告费用、产品价格和季节因素对销售额的影响,并建立一个可靠的模型来预测销售额。
数据处理:首先,我们对数据进行了清洗和预处理。
去除了缺失值和异常值,并进行了变量的标准化处理,以确保数据的准确性和可比性。
接下来,我们使用SAS软件进行回归分析。
回归模型建立:我们选择了多元线性回归模型来建立自变量和因变量之间的关系。
通过分析数据,我们发现广告费用、产品价格和季节因素对销售额都可能有影响。
因此,我们的模型为:销售额= β0 + β1 × 广告费用+ β2 × 产品价格+ β3 × 季节因素+ ε其中,β0、β1、β2和β3分别为回归系数,ε为误差项。
回归分析结果:通过SAS软件进行回归分析后,我们得到了如下结果:回归方程:销售额= 1000 + 2.5 × 广告费用+ 1.8 × 产品价格+ 0.3 × 季节因素回归系数的显著性检验结果显示,广告费用和产品价格对销售额的影响是显著的(p < 0.05),而季节因素的影响不显著(p > 0.05)。
模型解释和推断:根据回归方程的结果,我们可以得出以下结论:1. 广告费用对销售额有正向影响:每增加1单位的广告费用,销售额将增加2.5单位。
2. 产品价格对销售额也有正向影响:每增加1单位的产品价格,销售额将增加1.8单位。
3. 季节因素对销售额的影响不显著:季节因素对销售额的变化没有明显的影响。
实验五 回归分析SAS 过程(2)实验目的:1.会对实际问题建立有效的多元回归模型,能对回归模型进行残差分析;2.掌握SAS 输出结果用于判别回归方程优良性的不同统计量,能对回归模型进行运用,对实际问题进行预测或控制.实验要求:编写程序,结果分析. 实验内容:1.误差的正态性检验有几种方法,何时认为误差项服从正态分布? 答:1.学生化残差2.残差正态性的频率检验3.残差的正态QQ 图检验判断若散点),()()(i i r q ),,2,1(n i =大致在一条直线上相关系数:1)()())((1)(12)(1)()(≈-⋅---=∑∑∑===∧ni i ni i i i i q q r rq q r rρ认为i r ),,2,1(n i =来自正态分布,接受误差正态性检验.2.回归方程的选取的穷举法中,评价回归方程优良性的准则有哪些?根据准则何 时方程最优?答:1)修正的复相关系数准则或均方残差准则()(2p R a 或p MSE 准则) 2)p C 准则3)预测平方和准则(p PRESS 准则) 拟合所有可能的121--M 个回归方程,画出p C 图:),(p C p ,在p C 图中选取最接近参考直线p C p =的点所对应的回归方程为最优方程.3.简述逐步回归方法的思想和步骤.基本思想:逐个引入自变量建立回归方程,每次引入对Y影响最显著的自变量, 并对方程中旧变量逐个进行检验,把变为不显著的变量逐个从方程中剔除掉,最终得到的方程中,既不漏掉对Y显著影响的变量,又不包含对Y影响不显著的变量. 添加或删除某个自变量的准则是用残差平方和的相对减少或增加来衡量.C准则选择模型步骤:(1)修正的复相关系数准则、p(2)预测平方和准则选择PRESSp最优回归方程(3)最优模型的拟合检验4.做2.6 2.8(选作) 2.9注意:可以选课外综合题目。
2.6程序:data examp2_6;input x1 x2 y;cards;8.3 70 10.38.6 65 10.38.8 63 10.210.5 72 16.410.7 81 18.810.8 83 19.711.0 66 15.611.0 75 18.211.1 80 22.611.2 75 19.911.3 79 24.211.4 76 21.011.4 76 21.411.7 69 21.312.0 75 19.112.9 74 22.212.9 85 33.813.3 86 27.413.7 71 25.713.8 64 24.914.0 78 34.514.2 80 31.714.5 74 36.316.0 72 38.316.3 77 42.617.3 81 55.417.5 82 55.717.9 80 58.318.0 80 51.518.0 80 51.020.6 87 77.0;run;proc reg data= examp2_6;model y=x1-x2;output out=a p=predict r=resid h=h student=r;run;data b;set a;drop x1-x2;run;proc print data=b;run;proc capability graphics noprint data=a; /* 对数据集a调用capability 过程,高分辨图,不打印输出 */qqplot r/normal; /* 作student数据的正态QQ图*/run;goptions reset=all; /*将图形的设置恢复为默认状态*/proc gplot data=a; /* 对数据集a作出画高分辨的散点图或曲线图 */ plot resid*predict; /* 画纵坐标为残差、横坐标为yi散点图 */symbol v=dot i=none; /* 散点表示符号圆点•,不画连线 */run;/*此处至Quit是计算学生化残差对应的标准正态分布的分位数*/proc sort data=a;by r; /* 按r排序*/proc iml; /* 调用iml矩阵分析模块,计算数据 */use a; /* 打开数据集a */read all var{r} into rr; /* 读入集a中变量r(学生化残差)各观测值到矩阵rr中*/ do i=1 to 31; /* 此循环计算 */qi=probit((i-0.375)/54.25);q=q//qi; /* 矩阵qi上下连接而成,即得54*1阶矩q=(q(1),q(2),,q(30))T */ end;rq=rr||q; /* 表示矩阵rq=(rr q)*/create correl var{r q}; /* 创建数据集correl, 变量为r、q */append from rq; /* 从矩阵rq读取数据() */quit; /* iml过程结束 */proc corr data=correl; /* 计算学生化残差与对应的标准正态分布的分位数的相关系数*/ run;(a)学生化残差的正态QQ图(b )拟合值yˆ的残差图结果分析:1) 由学生化残差的正态QQ 图可知,其点明显不在一条直线上;2) 求得有序学生化残差与相应正态分布的分位数的相关系数∧ρ=0.94091与1相差较大.因此,若拟合线性回归模型,则误差分布与正态分布有较大的偏离;3) Y 拟合值的残差图也表明Y 与21,X X 不满足线性关系,且两个拟合值还为负数.由此知, 直接假定体积与直径和树干高度之间的线性回归关系是不恰当的.(2)对因变量Y 作Box-Cox 变换第一步:确定变换参数λ鉴于(1)中的残差分析结果,我们对Y 作Box-Cox 变换⎪⎩⎪⎨⎧=≠-=0,ln 0,1)(λλλλλY Y Y .对不同的λ值,由式);()(λλZ SSE ,并利用SAS 系统proc iml 过程计算);()(λλZ SSE 的值.由图2.5给出了);()(λλZ SSE 随λ的变化曲线.求变换参数λ的程序:proc iml; n=31; t=1;use examp2_6; read all var{x1 x2 y} into m; do i=1 to n; t=t#m[i,3]; end;prod=t##(1/n); j=j(n,1,1); xx=j||m[,1:2];h=xx*inv(xx`*xx)*xx`; do lamb=-0.5 to 0.5 by 0.01; if lamb=0 then zlamb=prod#log(m[ ,5]);else zlamb=(m[,3]##lamb-j)/(lamb#(prod##(lamb-1))); sse=zlamb`*(i(n)-h)*zlamb; lsse=lsse//(lamb||sse); end;tt=prod#log(m[ ,3]); sse0=tt`*(i(n)-h)*tt; lsse[30,1]=0; lsse[30,2]=sse0; index=lsse[>:<,];minlsse=index[1,2]; lambda0=lsse[minlsse,1]; print lambda0;create plotdata var{lambda sse}; append from lsse; z=(m[,3]##lambda0-j(n,1,1))/lambda0; outm=m[,1:2]||z;create trans var{x1 x2 z};append from outm;quit;proc print data=trans;run;画)()()()()();(λλλλZ H I Z Z -=T SSE 图goptions reset =all; proc gplot data =plotdata; plot sse*lambda; symbol v =point i =spline; run ;由结果给出了);()(λλZSSE 随λ的变化曲线.由图可知,);()(λλZSSE 在0.31λ=时达到最小,因此,在Box-Cox 变换式中取0.31λ=.记变换后的因变量为Z ,即0.3110.31Y Z -=第二步:对Z 关于4321,,,X X X X 拟合线性回归模型εβ+=X Z ,利用残差分析考察模型的合理性并作出拟合结果建立回归模型εβ+=X Z ,作残差分析程序如下: proc reg data=trans; model z=x1-x2;output out=c p=predict1 r=resid1 student=r1; run;goptions reset=all;proc capability graphics noprint data=c; qqplot r1/normal; run;goptions reset=all; proc gplot data=c; plot resid1*predict1; symbol v=dot i=none; run;回归模型εβ+=X Z 及残差分析结果输出:对Z 关于12,X X 拟合线性回归模型,求出残差i εˆ及学生化残差(1,2,,31)i r i =.做出学生化残差的正态QQ 图以及Z 的拟合值的残差图如图所示.(a )学生化残差的正态QQ 图(q, r )(b) Z 的拟合值zˆ的残差图 由图知,线性回归关系高度显著且复相关系数的平方和为20.9776R =,即线性部分描述了Z 的绝大部分变化量.由此得拟合的回归方程为122.848300.419400.04051Z X X =-++回归模型01122Z X X βββε=+++残差的相关系数检验有序学生化残差与相应正态分布的分位数的相关系数∧ρ=0.96990与1比较接近.因此变换效果比以前好了。
2.9(1)程序如下: data examp2_9; input x1 x2 x3 y;cards;50 51 2.3 48 36 46 2.3 5740 48 2.2 6641 44 1.8 70 28 43 1.8 89 49 54 2.9 36 42 50 2.2 46 45 48 2.4 54 52 62 2.9 26 29 50 2.1 77 29 48 2.4 89 43 53 2.4 67 38 55 2.2 47 34 51 2.3 51 53 54 2.2 57 36 49 2.0 66 33 56 2.5 79 29 46 1.9 88 33 49 2.1 60 55 51 2.4 49 29 52 2.3 77 44 58 2.9 52 43 50 2.3 60;run;proc reg data= examp2_9;model y=x1-x3;output out=a p=predict r=resid h=h student=r;run;data b;set a;drop x1-x3;run;proc print data=b;run;proc capability graphics noprint data=a; /* 对数据集a调用capability过程,高分辨图,不打印输出 */qqplot r/normal; /* 作student数据的正态QQ图*/ run;goptions reset=all; /*将图形的设置恢复为默认状态*/proc gplot data=a; /* 对数据集a作出画高分辨的散点图或曲线图 */plot resid*predict; /* 画纵坐标为残差、横坐标为yi散点图 */ symbol v=dot i=none; /* 散点表示符号圆点•,不画连线 */ run;/*此处至Quit是计算学生化残差对应的标准正态分布的分位数*/ proc sort data=a;by r; /* 按r排序*/proc iml; /* 调用iml矩阵分析模块,计算数据 */ use a; /* 打开数据集a */read all var{r} into rr; /* 读入集a中变量r(学生化残差)各观测值到矩阵rr中*/do i=1 to 23; /* 此循环计算 */qi=probit((i-0.375)/54.25);q=q//qi; /* 矩阵qi上下连接而成,即得54*1阶矩q=(q(1),q(2), ,q(30))T */end;rq=rr||q; /* 表示矩阵rq=(rr q)*/ create correl var{r q}; /* 创建数据集correl, 变量为r、q */append from rq; /* 从矩阵rq读取数据() */quit; /* iml过程结束 */proc corr data=correl; /* 计算学生化残差与对应的标准正态分布的分位数的相关系数*/run;(a)学生化残差的正态QQ图(b )拟合值yˆ的残差图结果分析:1) 由学生化残差的正态QQ 图可知,其点基本在一条直线上;2) 求得有序学生化残差与相应正态分布的分位数的相关系数∧ρ=0.96428与1相差较小.因此,若拟合线性回归模型,则误差分布与正态分布有较小的偏离;3) Y 拟合值的残差图也表明Y 与3,,21X X X 满足线性关系,由此知, 直接假定病人的满意程度与病人的年龄和病情程度、忧虑程度之间的线性回归关系是恰当的.(2)【1】1)修正的复相关系数准则、p C 准则选择模型 data examp2_9;input x1-x3 y; cards;50 51 2.3 48 36 46 2.3 57 40 48 2.2 6641 44 1.8 70 28 43 1.8 89 49 54 2.9 36 42 50 2.2 46 45 48 2.4 54 52 62 2.9 26 29 50 2.1 77 29 48 2.4 89 43 53 2.4 67 38 55 2.2 47 34 51 2.3 51 53 54 2.2 57 36 49 2.0 66 33 56 2.5 79 29 46 1.9 88 33 49 2.1 60 55 51 2.4 49 29 52 2.3 77 44 58 2.9 52 43 50 2.3 60 ;data a;set examp2_9;z=(y**0.07-1)/0.07; /* 作Box-Cox 变换Z=(Y0.07-1)/0.07 */ run;proc reg data=a; /* 对集合a 调用回归分析的reg 过程 */ model z=x1-x3/selection=adjrsq; /* 建立回归模型Z=0+1X2+3X3+ ,用修正的 准则选择模型 */run;proc reg data=a; /* 对集a 调用回归分析的reg 过程 */ model z=x1-x3/selection=cp;/* 建立回归模型Z=0+1X2+3X3 + ,利用 准则选择模型 */ run;2)修正的)(2p R a准则选择模型结果)(2p R a =0.6237最大 x1 x2 为最优由)(2p R a准则选择最优模型Z=β0+β1X 1+β2X 2+ε.3)利用p C 准则选择模型结果C 3=2.7967≈3 x1 x2 最优集由p C 准则选择最优模型Z=β0+β1X 1+β2X 2+ε.【2】预测平方和准则选择PRESSp 最优回归方程对集a 调用回归分析的reg 过程,用预测平方和准则(∑==ni i p p d PRESS 12)()选择回归方程)1)程序proc reg data=a; /* 对集a 调用回归分析的reg 过程 */ model z=x1/noprint; /* 建立回归模型 不打印输出 */output out=aa1 press=press; /* 输出数据集aa1,以press 为变量,值 */ run;proc means uss data=aa1; /* 对集aa1调用描述性means 过程,列出平方和uss */ var press; /* 计算变量press 平方和即 */ run;/* 以下对集a调用reg过程,模型Z=0+2X2+ ,输出及预测平方和uss*/ proc reg data=a;model z=x2/noprint;output out=aa2 press=press;run;proc means uss data=aa2;var press;run;/* 以下对集a调用reg过程,模型Z=0+3X3+ ,输出预测及预测平方和PRESSp */proc reg data=a;model z=x3/noprint;output out=aa3 press=press;run;proc means uss data=aa3;var press;run;/* 以下调用reg过程,模型Z=0+1X1+2X2+ ,输出预测及预测平方和PRESS */proc reg data=a;model z=x1 x2/noprint;output out=aa4 press=press;run;proc means uss data=aa4;var press;run;/* 以下调用reg过程,模型Z=0+1X1+3X3+ ,输出预测及预测平方和PRESSp */proc reg data=a;model z=x1 x3/noprint;output out=aa5 press=press;run;proc means uss data=aa5;var press;run;/* 以下调用reg过程,模型Z=0+2X2+3X3+ ,输出预测及PRESSp */ proc reg data=a;model z=x2 x3/noprint;output out=aa6 press=press;run;proc means uss data=aa6;var press;run;/* 调用reg过程,模型Z=0+1X1+2X2+3X3+ ,输出预测及预测平方和PRESSp */proc reg data=a;model z=x1 x2 x3/noprint;output out=aa7 press=press;run;proc means uss data=aa7;var press;run;/* 以上模型PRESSp准则选择结束,选出最优自变量集,下面建立最优回归模型Z=0+1X1+2X2+3X3+ ,给出方差分析表和参数估计表 */proc reg data=a; /* 调用回归模reg过程,模型Z=0+1X1+2X2+ */ model z=x1-x2;run;2)PRESSp输出结果Z=β0+β1X1+β2X2+ε的预测平方和PRESS p=1.5990749最小,为最优选择模型全模型Z=β0+β1X1+β2X2+β3X3+ε的预测平方和PRESS p= 1.8059710由上述预测平方和结果看出,的预测平方和PRESSp=1.5990749最小,此模型为最终选择的模型.3)最优模型的拟合检验复相关系数平方和为与表2.8的结果相比较,可见均方残差、回归系数估计及拟合优度的度量值2R均变化很小,即当在模型中时,对Z的影响是很小的.最优回归方程为由上述三种模型的选择结果可以看出各准则下的选择结果不一致。