应用多元统计分析SAS作业
- 格式:docx
- 大小:413.56 KB
- 文档页数:7
应用多元统计分析S A S作业YKK standardization office【 YKK5AB- YKK08- YKK2C- YKK18】5-9 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。
对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。
表1 岩石化学成分的含量数据(1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等);(2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为2.95,2.15和1.54,试判断该标本是含矿还是不含矿?问题求解1 使用广义平方距离判别法对样本进行判别归类用SAS软件中的DISCRIM过程进行判别归类。
SAS程序及结果如下。
data d59;input group x1-x3@@;cards;1 2.58 0.9 0.951 2.9 1.23 11 3.55 1.15 11 2.35 1.15 0.791 3.54 1.85 0.791 2.7 2.23 1.31 2.7 1.7 0.482 2.25 1.98 1.062 2.16 1.8 1.062 2.33 1.74 1.12 1.96 1.48 1.042 1.94 1.4 1 23 1.3 1 2 2.78 1.7 1.48 ;proc print data =d59; run ;proc discrim data =d59 pool =yes distance list ; class group; var x1-x3; run ;由输出结果可知,两总体间的广义平方距离为D 2=3.19774。
还可知两个三元总体均值相等的检验结果:D =3.19774,F =3.10891,p =0.0756<0.10,故在显着性水平=0.10α时量总体的均值向量有显着差异,即认为讨论这两个三元总体的判别问题是有意义的。
(一)院系:数学与统计学学院专业:__ _统计学年级: 2009级课程名称:统计分析学号:姓名:指导教师:2012年 4月 28 日(一)实验名称1.编程计算样本协方差矩阵和相关系数矩阵;2.多元方差分析MANOVA。
(二)实验目的1.学习编制sas程序计算样本协方差矩阵和相关系数矩阵;2.对数据进行多元方差分析。
(三)实验数据第一题:第二题:(四)实验内容1.打开SAS软件并导入数据;2.编制程序计算样本协方差矩阵和相关系数矩阵;3.编制sas程序对数据进行多元方差分析;4.根据实验结果解决问题,并撰写实验报告;(五)实验体会(结论、评价与建议等)第一题:程序如下:proc corr data=sasuser.shan cov;proc corr data=sasuser.shan nosimple cov;with x3 x4;partial x1 x2;run;结果如下:(1)协方差矩阵(2)相关系数矩阵第二题:程序如下:proc anova data=sasuser.huang; class kind; model x1-x4=kind; manova h=kind; run;结果如下:(1)分组水平信息(2)x1、x2、x3、x4的方差分析(3)多元方差分析根据多元分析结果,p指小于0.05,表明在0.05的显著水平下,四个变量有显著差异。
(注:文档可能无法思考全面,请浏览后下载,供参考。
可复制、编制,期待你的好评与关注!)。
6-10 今有6个铅弹头,用“中子活化”方法测得7种微量元素的含量数据(见表1)。
(1) 试用多种系统聚类法对6个弹头进行分类;并比较分类结果; (2) 试用多种方法对7种微量元素进行分类。
问题求解1对6个弹头进行分类对数据进行标准化变换,样品间距离定义为欧式距离,系统聚类的方法分别使用类平均法(A VE )、中间距离法(MID )、可变类平均法(FLE )和离差平方合法(WARD )。
使用SAS 软件CLUSTER 过程对数据进行聚类分析(程序见附录1)。
1.1类平均法图1 类平均聚类法相关矩阵特征值图图2 类平均聚类分析法聚类历史图由图2可知,NCL=1时半偏R 2最大且伪F 统计量在NCL=2,5时和伪t 方统计量在NCL=1,4时较大。
因此,将6个弹头分为两类{}{}(2)(2)121,2,4,6,3,5G G ==。
SAS 绘制的谱系聚类图如图3所示。
图3 类平均聚类分析法谱系聚类图1.2中间距离法图4 中间距离聚类法相关矩阵特征值图图5 中间距离聚类法聚类历史图由图5可知,中间距离法与类平均法结果一致。
因此,也将6个弹头分为两类{}{}(2)(2)121,2,4,6,3,5G G ==。
SAS 绘制的谱系聚类图如图6所示。
图6中间距离聚类法谱系聚类图1.3可变类平均法图7可变类平均聚类法分析结果图图8 可变类平均聚类法聚类历史图由图8可知,可变类平均法(=0.25β-)输出结果与前两种方法稍有不同,NCL=1时半偏R2最大且伪F统计量在NCL=2时次大,NCL=5时最大;而伪t方统计量在NCL=1时最大。
因此,分类结果与之前相同,将6个弹头分为两类{}{}(2)(2)121,2,4,6,3,5G G ==。
SAS 绘制的谱系聚类图如图9所示。
图9 可变类平均聚类法谱系聚类图1.4离差平方和法图10 离差平方和聚类法相关矩阵特征值图图11 离差平方和聚类法聚类历史由图11可知,离差平方和法输出结果与可变类平均法结果一致。
《应用多元分析》(第三版)各章附录中SAS程序的说明等(王学民编)附录1-1 SAS的应用例1—1.1的SAS程序:proc iml;x={1 2 3 4 5,2 4 7 8 9,3 7 10 15 20,4 8 15 30 20,5 9 20 20 40};g=inv(x);e=eigval(x);d=eigvec(x);h=det(x);t=trace(x);print g e d h t;程序说明:“proc iml"是一个矩阵运算的过程步;“x={1 2 3 4 5,2 4 7 8 9,3 7 10 15 20,4 815 30 20,5 9 20 20 40}”是输入矩阵1234524789371015204815302059202040⎛⎫⎪⎪⎪⎪⎪⎪⎝⎭,并赋值给变量x;inv(x)是x的逆矩阵函数,eigval(x)是x的特征值函数,eigvec(x)是x的特征向量函数,det(x) 是x的行列式函数,trace(x)是x的迹函数,这些函数分别赋值给我们取的变量g,e,d,h,t;“print g e d h t”是打印语句,指定将g e d h t的值输出。
附录2—1 SAS的应用例2.3。
3和例2。
3.6的SAS程序:proc iml;a={2 -1 4,0 1 —1,1 3 -2};b={5,-2,7};c={4 1 2,1 9 —3,2 —3 25};d=block(2,3,5);e=a*b;v=a*c*t(a);r=inv(d)*c*inv(d);print e v r;程序说明:“proc iml”是一个矩阵运算的过程步;“a={2 —1 4,0 1 —1,1 3 -2}”是输入矩阵214011132-⎛⎫⎪-⎪⎪-⎝⎭,并赋值给变量a;“b={5,—2,7}"是输入向量527⎛⎫⎪- ⎪⎪⎝⎭,并赋值给变量b;“c={4 1 2,1 9 -3,2 -3 25}”是输入矩阵4121932325⎛⎫⎪-⎪⎪-⎝⎭,并赋值给变量c;“d=block(2,3,5)”是输入对角阵diag(2,3,5),并赋值给变量d;“e=a*b”是将a与b相乘,并赋值给变量e;“v=a*c*t(a)”是将a,c,a’三个矩阵相乘,并赋值给变量v,其中t(a)是a的转置函数;“r=inv(d)*c*inv(d)”是将d-1,c,d-1相乘,并赋值给变量r,其中inv(d)是d的逆矩阵函数;”print e v r”是打印语句,指定将e v r的值输出.附录3-1 SAS的应用例3-1.1的SAS程序:proc corr data=sasuser.examp3a1 cov;var x1—x7;run;proc corr data=sasuser.examp3a1 nosimple cov;var x5 x6 x7;with x3 x4;partial x1 x2;run;程序说明:Proc步是以proc开头的一组或几组语句,它以另一个proc步、data步或run语句结束。
多元统计分析大作业班级:数学15-2班**1:***学号1:************2:***学号2:************3:**学号3:**********指导老师:***完成时间:2018年6月12日摘要本文针对影响财政收入的8个因素:社会从业人数、年末总人口、全社会固定资产投入、第一产业值、工业产值、国民总收入、税收、居民消费价格指数,在收集并处理大量数据信息的基础上,研究财政收入的线性回归问题。
本文主要依托于SAS 软件进行初步的线性回归和变量选择的线性回归。
为得到关于财政收入的回归方程,我们对财政收入和8个自变量运用SAS 的REG 过程进行初步的线性回归,得到的回归方程为式(6.1),方程高度显著,而自变量2467x x x x ,,,的p 值均大于α,这与回归方程高度显著产生矛盾,基于此我们运用逐步回归法进行变量的选择和删除,结合SAS 得到,当逐步回归进行到第六步时,由回归方程显著性检验结果和回归系数显著性检验结果知该回归方程高度显著,因此最终的回归方程为:1358ˆ9702.823220.091400.091320.17543 1.06277=-+-+Y x x x x 。
一.背景介绍与问题提出1.1背景介绍财政预测[1]是对财政分配过程及其发展趋势预先作出分析、判断和推测的过程。
财政预测不是主观意识的先知先觉,而是在正确理论的指导下,通过对大量信息资料的占有、分析和科学测算,来揭示财政分配的变化规律及其发展趋势的。
财政预测是现代财政管理的重要环节。
通过预测推断未来财政分配规模、结构、形式等的变化,达到提高财政决策水平,增强财政决策的科学性,减少财政分配的盲目性,优化财政分配活动的目的。
经查阅资料知,影响财政收入的因素有很多,本文选以下因素作为自变量进行分析:社会从业人数、年末总人口、全社会固定资产投入、第一产业值、工业产值、国民总收入、税收、居民消费价格指数。
1.2问题的提出在此背景下,我们小组按以下三个个问题建立关于财政收入的回归模型,实现对财政收入的预测。
实验三我国各地区城镇居民消费性支出的主成分分析和聚类分析一、实验目的1.掌握如何使用SAS软件来进行主成分分析和聚类分析;2.看懂和理解SAS输出的结果,并学会以此来作出分析;3.掌握对实际数据如何来进行主成分分析;4.对同一组数据使用五种系统聚类方法及k均值法,学会对各种聚类效果的比较,获取重要经验;5.掌握使用主成分进行聚类二、实验内容数据集sasuser.examp633中含有1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。
对这些数据进行主成分分析,可将这31个地区的前两个主成分得分标示于平面坐标系内,对各地区作直观的比较分析。
对同样的数据使用五种系统聚类方法及k均值法聚类,并对聚类效果作比较。
最后,对主成分的图形聚类和正规聚类的效果进行比较。
实验1进行主成分分析,根据前两个主成分得分所作的散点图对31个地区进行比较分析。
实验2分别使用最长距离法、中间距离法、两种类平均法、离差平方和法和k均值法进行聚类分析,并比较其聚类效果。
实验3主成分聚类,并与上述正规的聚类方法进行比较三、实验要求1.用SAS软件的交互式数据分析菜单系统完成主成分分析;2.完成五种系统聚类方法及k均值法,比较其聚类效果;3.根据前两个主成分得分的散点图作直观的聚类,并与上述正规的聚类方法进行比较。
四、实验指导1.进行主成分分析在inshigt中打开数据集sasuser.examp633,见图1。
选菜单过程如下:在图1中选分析⇒多元(Y X)⇒在变量框中选x1,x2,x3,x4,x5,x6,x7,x8(见图2)⇒Y⇒选输出⇒选主分量分析,主分量选项(见图3)⇒在图4中作图中的选择(主成分个数缺省时为“自动”选项,此时只输出特征值大于1的主成分)⇒确定⇒确定⇒确定图1图2图3图4 得到如图5、图6所示的结果:图5图6 从图5可以看出,前两个和前三个主成分的累计贡献率分别达到80.6%和87.8%,第一主成分1ˆy 在所有变量(除在*2x 上的载荷稍偏小外)上都有近似相等的正载荷,反映了综合消费性支出的水平,因此第一主成分可称为综合消费性支出成分。
应用多元统计分析作业(七)——回归分析4-2:利用回归分析方法分析某种消费品的销售量于相关指标之间的关系。
解:●执行SAS程序代码:data dxiti42;input number x1 x2 x3 x4 Y;cards;1 82.9 92.0 17.1 94.0 8.42 88.0 93.0 21.3 96.0 9.63 99.9 96.0 25.1 97.0 10.44 105.3 94.0 29.0 97.0 11.45 117.7 100.0 34.0 100.0 12.26 131.0 101.0 40.0 101.0 14.27 148.2 105.0 44.0 104.0 15.88 161.8 112.0 49.0 109.0 17.99 174.2 112.0 51.0 111.0 19.610 184.7 112.0 53.0 111.0 20.8;proc reg data=dxiti42;model Y = x1 x2 x3 x4;run;quit;●结果分析:输出结果首先给出了回归模型的方差分析表:Model 4 169.5535 42.38838 1021.41 <.0001Error 5 0.2075 0.0415Corrected Total 9 169.761以及回归模型的一些统计量的值:0.20.9988Dependent Mean14 Adj R‐Sq 0.9978Coeff Var 1.45从以上两表中可以看出,此回归模型的拟合效果较好,R2值达到了0.9978;同时回归模型的F值也很大,为1021.41;并且F的p值很小(<0.0001),小于显著性水平α=0.05。
综上,可以判定此回归模型在α = 0.05 的水平上是显著的。
进一步给出了回归模型参数估计的一些信息:Intercept 1 ‐17.6677 5.9436 ‐2.97 0.0311 x1 1 0.09006 0.02095 4.3 0.0077x2 1 ‐0.23132 0.07132 ‐3.24 0.0229x3 1 0.01806 0.03907 0.46 0.6633x4 1 0.42075 0.11847 3.55 0.0164从上表中的最后一栏可以看出,截距项、x1、x2、x4的回归系数的t统计量的尾概率均小于显著水平α=0.05,而x3的回归系数的t统计量的尾概率大于显著水平α=0.05。
3-8假定人体尺寸有这样的一般规律,身高(X 1),胸围(X 2)和上半臂围(X 3)的平均尺寸比例是6:4:1,假设()()1,,X n αα=L 为来自总体()123=,,X X X X '的随机样本,并设()~,X N μ∑。
试利用表3.4中男婴这一数据来检验其身高、胸围和上半臂围这三个尺寸变量是否符合这一规律(写出假设H 0,并导出检验统计量)。
解:设32,~(,),~(,)Y CX X N Y N C C C μμ'=∑∑。
121231233106,,,,,014C X X X μμμμμμμ⎛⎫-⎛⎫ ⎪== ⎪⎪-⎝⎭ ⎪⎝⎭其中,分别为 的样本均值。
则检验三个变量是否符合规律的假设为0212:,:H C O H C O μμ=≠。
检验统计量为21(1)1~(1,1)(3,6)(1)(1)n p F T F p n p p n n p ---+=--+==--,由样本值计算得:=(82,60.2,14.5)X ',及15840.2 2.5=40.215.86 6.552.5 6.559.5A ⎛⎫ ⎪ ⎪ ⎪⎝⎭, 2-1(1)()()()=47.1434T n n CX CAC CX ''=-,221(1)12=18.8574(1)(1)5n p F T T n p ---+=⨯=--,对给定显著性水平=0.05α,利用软件SAS9.3进行检验时,首先计算p 值: p =P {F ≥18.8574}=0.0091948。
因为p 值=0.0091948<0.05,故否定0H ,即认为这组男婴数据与人类的一般规律不一致。
在这种情况下,可能犯第一类错误·且犯第一类错误的概率为0.05。
SAS 程序及结果如下:prociml ; n=6;p=3; x={7860.616.5, 7658.112.5, 9263.214.5, 815914, 8160.815.5, 8459.514 };m0={00,00}; c={10 -6,01 -4}; ln={[6]1}; x0=(ln*x)`/n; print x0;mm=i(6)-j(6,6,1)/n; a=x`*mm*x; a1=inv(c*a*c`); a2=c*x0; dd=a2`*a1*a2; d2=dd*(n-1); t2=n*d2;f=(n+1-p)*t2/((n-1)*(p-1)); print x0 a d2 t2 f; p0=1-probf(f,p-1,n-p+1); fa=finv(0.95,2,4); print p0; run ;3-11表3.4给出15名两周岁婴儿的身高(X 1),胸围(X 2)和上半臂围(X 3)的测量数据。
应用数理统计报告所在院系计算机与信息工程学院学科专业农业信息化研究生姓名宋玲指导老师:薛河儒2013年12月21日用线性回归分析方法分析林木生物量的影响因素1.题目在林木生物量生产率研究中,为了了解林地施肥量(x1,kg)、灌水量(x2,10)与生物量(Y,kg)的关系,在同一林区共进行了20次试验,观察值见下表,试建立Y关于x1,x2的线性回归方程。
1.程序DATA ct;INPUT x1 x2 y @@; XSQ=x1*x2; CARDS;54 29 5061 39 5152 26 5270 48 5463 42 5379 64 6068 45 5965 30 6579 51 6776 44 7071 36 7082 50 7375 39 7492 60 7896 62 8292 61 8091 50 8785 47 84 106 72 8890 52 92;PROC REG;MODEL y=x1 x2/P CLI; MODEL y=x1 x2 xsq/P CLI; Run;3.输出结果4.分析结果(1)回归模型是否显著,显著水平是多少?复相关系数是多少?答:回归方程显著,显著水平是<0.0001。
复相关系数是0.9659。
(2)回归系数的估计值是多少?显著性如何?答:Intercept -4.94048 0.1711X1 1.53952 <0.0001X2 -0.94385 <0.0001X1与X2的系数对于表达式极显著,intercept对应的系数对表达式在0.01下不显著(3)写出回归方程的表达式。
y=1.53952x1-0.94385x2 - 4.94048(4)利用残差(实测值与预测值之差)、95%置信取间的上下限讨论预测预报效果及预报的稳定性。
答:根据上面结果可知残差和95%置信区间的上下限的差异很大,最大的达到7.4640.最小的达到0.2868.幅度比较大。
应用多元统计分析S A S作
业
Prepared on 22 November 2020
5-9 设在某地区抽取了14块岩石标本,其中7块含矿,7块不含矿。
对每块岩石测定了Cu,Ag,Bi三种化学成分的含量,得到的数据如表1。
表1 岩石化学成分的含量数据
(1)假定两类样本服从正态分布,使用广义平方距离判别法进行判别归类(先验概率取为相等,并假定两类样本的协方差阵相等);
(2)今得一块标本,并测得其Cu,Ag,Bi的含量分别为,和,试判断该标本是含矿还是不含矿
问题求解
1 使用广义平方距离判别法对样本进行判别归类
用SAS软件中的DISCRIM过程进行判别归类。
SAS程序及结果如下。
data d59;
input group x1-x3@@;
cards;
1
1 1
1 1
1
1
1
1
2
2
2 2 2 1 2
3 1 2 ;
proc print data =d59; run ;
proc discrim data =d59 pool =yes distance list ; class group; var x1-x3; run ;
由输出结果可知,两总体间的广义平方距离为D 2=。
还可知两个三元总体均值相等的检验结果:D =,F =,p =<,故在显着性水平=0.10α时量总体的均值向量有显着差异,即认为讨论这两个三元总体的判别问题是有意义的。
线性判别函数为:
判别结果为含矿的6号样本错判为不含矿;不含矿的13号样本错判为含矿。
2 对给定样本判别归类
将Cu ,Ag ,Bi 的含量数值、、分别代入线性判别函数得:
1244.674246.978882Y Y ==,。
贝叶斯判别的解{}***1,
,k D D D = 为
{}*|()(),,1,
,(1,
,)t t j D X Y X Y X j t j k t k =>≠==,
由于1244.6742246.97888Y Y =<=,因此待判的样品判为不含矿。
5-10 已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。
假定样本均来自正态总体。
表2 判别分类的数据
(1)试用马氏距离判别法进行判别分析,并对3个待判样品进行判别归类。
(2)使用其他的判别法进行判别分析,并对3个待判样品进行判别归类,然后比较之。
问题求解
1判别分析及判别归类
使用SAS软件中的DISCRIM过程进行判别归类,SAS程序及结果如下。
data d510;
input x1-x4 group @@;
cards;
6 19 90 1
-11 25 -36 3
-17 17 3 2
-4 -15 13 54 1
0 -14 20 35 2
19 37 3
-10 -19 21 -42 3
0 -23 5 -35 1
20 -22 8 -20 3
-100 7 -15 1
-100 15 -40 2
13 18 2 2
-5 15 18 1
10 -18 14 50 1
-8 -14 16 56 1 -13 26 21 3 -40 -20 22 -50 3
-8 -14 16 56 . -17 18 3 . -14
25
-36 .
;
proc print ; run ;
proc discrim data =d510 simple pcov wsscp psscp wcov distance list ; class group; var x1-x4; run ;
从结果来看,样本2、3类之间的马氏距离为d 212=,检验(2)
(3)0:H μ
μ= 的F 统计
量为,相应的p =>,故在显着性水平=0.10α时量总体2、3类的均值向量没有显着差异,即认为对讨论样本分为2、3类的判别问题是没有太大意义的。
此外,判别结果中两个样本被判错归类:1类中8号样本应属于2类,2类中9号样本应属于1类;且待判得三个样本分别属于1,2,3类。
2 二次判别函数判别
由第一问SAS 运行结果可知三个总体的协方差阵不同,因此使用二次判别函数进行判别。
此时贝叶斯判别的解{}***1,
,k D D D = 为
{}*|()(),,1,
,(1,
,)t t j D X Z X Z X j t j k t k =>≠==,
其中
将第一问中SAS 程序proc discrim data=d510后加入pool=no ,使其采用二次判别函数进行再分类,变动部分程序如下:
proc discrim data =d510 simple pool =no distance list ;
程序运行结果如下图。
由此可知,17个观测全部判别正确;待判的三个观测依次判归1,1,3类。
5-11某城市的环保监测站与1982年在全市均匀地布置了14个监测点,每日三年次定时抽取大气样品,测量大气中的二氧化硫、氮氧化物和飘尘的含量。
前后5天,每个取样点(监测点)每种污染元素实测15次,取15次实测值的平均作为该取样点的大气污染元素的含量(数据见表3)。
表中最后一列给出的类号是使用第六章将介绍的聚类分析方法分析得到的结果(第1类为严重污染地区,第2类为一般污染地区,第3类为基本没有污染地区)。
表3 大气污染数据
(1)试用广义平方距离判别法建立判别准则(假设三个总体为多元正态总体,其协方差阵相等,先验概率取为各类样本的比例),并列出回判结果。
(2)该城市另有两个单位在同一期间测定了所在单位大气中这三种污染元素的含量(见表3中最后两行),试用马氏距离判别方法判断这两个单位的污染情况属于哪一类。
问题求解
用SAS软件中的DISCRIM过程进行判别归类。
data d511;
input x1-x3 group @@;
cards;
2
2
2
3
3
1
2
1
1
2
3
3
1
2
.
.
;
proc print;
run;
proc discrim data=d511 simple distance list;
class group;
var x1-x3;
run;
由输出结果可知三个三元总体均值相等的检验结果中均满足 p<,故在显着性水平 时量总体的均值向量有显着差异,即认为讨论这三个三元总体的判别问题是=0.10
有意义的。
判别结果:14个监测点全部判对。
且待判的两个观测点依次判归2,3类。