多元统计分析实验报告计算协方差矩阵相关矩阵SAS
- 格式:docx
- 大小:36.91 KB
- 文档页数:2
SAS/IML矩阵功能简介SAS/IML是SAS提供的一个可以进行矩阵运算编程的工具,详细使用请参见有关资料或系统帮助(Help | Extended Help | SAS System Help: Main Menu | Help for SAS Products | SAS/IML)。
下面给出SAS/IML常用命令:●proc iml 调用SAS/IML矩阵运算编程的工具;●用+、-、*符号表示矩阵的加减乘;●用||表示矩阵左右连接,用//表示矩阵上下连接;●用#表示用某个常数分别乘以矩阵中的每个元素3#x;●用/表示用某个常数分别去除矩阵中的每个元素x/3;●用##矩阵中的每个元素进行乘方运算x##2;●用g=inv(x)表示g是x的逆;●用e=eigval(x) 表示e是x特征值;●用d=eigvec(x) 表示d是x特征向量;●用h=det(x) 表示h是x行列式;●用t=trace(x) 表示t是x的迹;●用rank=round(trace(ginv(x)*x)) 表示rank是x的秩;G = GINV(A) 表示求A的广义逆矩阵,如果G = GINV(A),那么AGA = A,GAG =G,(AG)' = AG和(GA)' = GA;●用下面的程序表示求矩阵x的某个子矩阵proc iml;x={123,456,789};m=x[2:3,1:3]; (矩阵m是x的第2行到第3行和第1列到第3列构成的子矩阵)print m;●用下面的程序求由几个子矩阵构成一个矩阵⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦ABC。
proc iml; a={2 2, 4 4} ;b={6 6,8 8} ;c=block(a,b);print c;2 2 0 04 4 0 00 0 6 60 0 8 8⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦c● 用a=I(k)求k 阶单位矩阵a=I(k) 111k ⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦I = ● 用b=j(k)求每个元素均为“1”的k 阶矩阵111111111k⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦J 。
32. 协方差分析(一)原理一、基本思想在实际问题中,有些随机因素是很难人为控制的,但它们又会对结果产生显著影响。
如果忽略这些因素的影响,则有可能得到不正确的结论。
这种影响的变量称为协变量(一般是连续变量)。
例如,研究3种不同的教学方法的教学效果的好坏。
检查教学效果是通过学生的考试成绩来反映的,而学生现在考试成绩是受到他们自身知识基础的影响,在考察的时候必须排除这种影响。
协方差分析回归分析与方差分析的结合,在做两组和多组均值之间的比较前,用直线回归的方法找出各组因变量Y与协变量X之间的数量关系,求得在假定X相等时的修正均均值,然后用方差分析比较修正均值之间的差别。
简单来说,协方差分析就是扣除协变量的影响,或者将这些协变量处理成相等,再对修正的Y的均值作方差分析。
根据协变量的个数的不同,协方差分析分为一元协方差分析和多元协方差分析。
二、协方差分析需要满足的条件(1)自变量是分类变量,协变量是定距变量,因变量是连续变量;对连续变量或定距变量的协变量的测量不能有误差;(2)协变量与因变量之间的关系是线性关系,可以用协变量和因变量的散点图来检验是否违背这一假设;协变量的回归系数(即各回归线的斜率)是相同的,且不等于0,即各组的回归线是非水平的平行线。
否则,就有可能犯第一类错误,即错误地接受虚无假设;(3)自变量与协变量相互独立,若协方差受自变量的影响,那么协方差分析在检验自变量的效应之前对因变量所作的控制调整将是偏倚的,自变量对因变量的间接效应就会被排除;(4)各样本来自具有相同方差σ2的正态分布总体,即要求各组方差齐性。
三、基本理论1. 观测值=均值+分组变量影响+协变量影响+随机误差. 即()ij i ij ij y u t x x βε=++-+ (1)其中,X 为所有协变量的平均值。
注:在方差分析中,协变量影响是包含在随机误差中的,在协方差分析中需要分离出来。
用协变量进行修正,得到修正后的y ij (adj)为(adj)()ij ij ij i ij y y x x u t βε=--=++就可以对y ij (adj)做方差分析了。
实验一SPSS软件的基本操作与均值向量和协方差阵的检验【实验目的】通过本次实验,了解SPSS的基本特征、结构、运行模式、主要窗口等,了解如何录入数据和建立数据文件,掌握基本的数据文件编辑与修改方法,对SPSS有一个浅层次的综合认识。
同时能够掌握对均值向量和协方差阵进行检验。
【实验性质】必修,基础层次【实验仪器及软件】计算机及SPSS软件【实验内容】1.操作SPSS的基本方法(打开、保存、编辑数据文件)2.问卷编码3.录入数据并练习数据相关操作4.对均值向量和协方差阵进行检验,并给出分析结论。
【实验学时】4学时【实验方法与步骤】1.开机2.找到SPSS的快捷按纽或在程序中找到SPSS,打开SPSS3.认识SPSS数据编辑窗、结果输出窗、帮助窗口、图表编辑窗、语句编辑窗4.对一份给出的问卷进行编码和变量定义5.按要求录入数据6.练习基本的数据修改编辑方法7.检验多元总体的均值向量和协方差阵8.保存数据文件9.关闭SPSS,关机。
【实验注意事项】1.实验中不轻易改动SPSS的参数设置,以免引起系统运行问题。
2.遇到各种难以处理的问题,请询问指导教师。
3.为保证计算机的安全,上机过程中非经指导教师和实验室管理人员同意,禁止使用移动存储器。
4.每次上机,个人应按规定要求使用同一计算机,如因故障需更换,应报指导教师或实验室管理人员同意。
5.上机时间,禁止使用计算机从事与课程无关的工作。
【上机作业】1.定义变量:试录入以下数据文件,并按要求进行变量定义。
表1学号姓名性别生日身高(cm)体重(kg)英语(总分100分)数学(总分100分)生活费($代表人民币)200201 刘一迪男1982.01.12 156.42 47.54 75 79 345.00 200202 许兆辉男1982.06.05 155.73 37.83 78 76 435.00 200203 王鸿屿男1982.05.17 144.6 38.66 65 88 643.50 200204 江飞男1982.08.31 161.5 41.68 79 82 235.50 200205 袁翼鹏男1982.09.17 161.3 43.36 82 77 867.00 200206 段燕女1982.12.21 158 47.35 81 74200207 安剑萍女1982.10.18 161.5 47.44 77 69 1233.00 200208 赵冬莉女1982.07.06 162.76 47.87 67 73 767.80 200209 叶敏女1982.06.01 164.3 33.85 64 77 553.90 200210 毛云华女1982.09.12 144 33.84 70 80 343.00200211 孙世伟男1981.10.13 157.9 49.23 84 85 453.80200212 杨维清男1981.12.6 176.1 54.54 85 80 843.00男1981.11.21 168.55 50.67 79 79 657.40 200213 欧阳已祥200214 贺以礼男1981.09.28 164.5 44.56 75 80 1863.90200215 张放男1981.12.08 153 58.87 76 69 462.20200216 陆晓蓝女1981.10.07 164.7 44.14 80 83 476.80200217 吴挽君女1981.09.09 160.5 53.34 79 82200218 李利女1981.09.14 147 36.46 75 97 452.80200219 韩琴女1981.10.15 153.2 30.17 90 75 244.70200220 黄捷蕾女1981.12.02 157.9 40.45 71 80 253.00要求:1)变量名同表格名,以“()”内的内容作为变量标签。
多元统计公式大揭秘协方差矩阵与多元正态分布的计算公式多元统计公式大揭秘——协方差矩阵与多元正态分布的计算公式统计学中的多元统计分析是一门研究多个变量之间相互关系的学科。
在多元统计分析中,协方差矩阵和多元正态分布是两个重要的概念和计算工具。
本文将为大家揭秘协方差矩阵和多元正态分布的计算公式。
让我们一起进入多元统计的世界,掌握这些重要的概念和工具。
一、协方差矩阵协方差矩阵是用于度量多个变量之间线性关系的工具。
它描述了各个变量之间的相关程度,以及每个变量本身的方差。
协方差矩阵是一个方阵,其行和列对应于各个变量。
协方差矩阵的计算公式如下:假设我们有n个变量(x1, x2, ..., xn),每个变量有m个观测值。
计算协方差矩阵的步骤如下:1. 计算每个变量的平均值:x1̄= (x1₁ + x1₂ + ... + x1m) / mx2̄= (x2₁ + x2₂ + ... + x2m) / m...x n = (xn₁ + xn₂ + ... + xnm) / m2. 计算协方差:cov(x1, x1) = (x11 - x1̄) * (x11 - x1̄) + (x12 - x1̄) * (x12 - x1̄) + ... + (x1m - x1̄) * (x1m - x1̄)cov(x1, x2) = (x11 - x1̄) * (x21 - x2̄) + (x12 - x1̄) * (x22 - x2̄) + ... + (x1m - x1̄) * (x2m - x2̄)...cov(xn, xn) = (xn1 - x n) * (xn1 - x n) + (xn2 - x n) * (xn2 - x n) + ... + (xnm - x n) * (xnm - x n)3. 构建协方差矩阵:Cov = [ cov(x1, x1) cov(x1, x2) ... cov(x1, xn) ][ cov(x2, x1) cov(x2, x2) ... cov(x2, xn) ][ ... ... ... ... ][ cov(xn, x1) cov(xn, x2) ... cov(xn, xn) ]协方差矩阵的主对角线上的元素是各个变量的方差,非对角线上的元素是各个变量之间的协方差。
实验四 上市公司财务报表数据的因子分析(王学民 编写)一、实验目的1.掌握如何使用SAS 软件来进行因子分析;2.看懂和理解SAS 输出的结果,并学会以此来作出分析;3.掌握对实际数据如何来进行因子分析;4.了解异常值对数据分析的影响 二、实验内容数据集sasuser.case4中含有2001年沪市611家上市公司年财务报表的十个主要财务指标。
对这些数据进行因子分析,可将这十个指标成功地归结于三个公共因子,达到较好的降维目的,并给出符合实际背景和意义的解释。
在作因子分析之前需先进行预分析,找出影响因子分析的不合理数据和异常数据。
通过因子分析,对各因子的得分大小进行排序分析,同时结合各上市公司的三个因子得分用SAS 软件建立旋转图,通过三维图形的旋转进行分析和描述。
由于图中有600多个散点,故需巧妙地运用SAS 软件不断地对图形作出调节使之能更清楚地用来进行观测。
实验1剔除不合理数据和异常数据。
实验2进行因子分析。
实验3利用SAS 软件观测和调节含600多个散点的旋转图。
三、实验要求1.用SAS 软件完成因子分析的计算;2.根据SAS 输出结果完成因子分析;3.学会利用软件观测含有众多散点的旋转图。
四、实验指导1.剔除不合理数据和异常数据(1)注意到,如每股净资产(6x )值接近于零或为负,通常将使净资产收益率(7x )没有意义或数值特大。
为发现这些值,在inshigt环境下打开数据集sasuser.case4,见图1。
选菜单过程如下:在图1中,选x6⇒在数据区域点击右键,出现上托菜单⇒选排序…图1随即得到图1中按每股净资产值从小到大的排序。
每股净资产最小的三只股票:“PT郑百”(66.166x=-元),“ST同达”(60.488x=-元)和“PT红光”(60.006x=元)必须被删去。
其原因有两个:(i)这三只股票的每股净资产为负或非常接近于零,它们的净资产收益率没有意义。
(ii) “PT红光”和“ST同达”的净资产收益率(7x)分别是621.15和82.34,在数值上比排名第三的40.20要大许多,特别是前者为一个非常大的异常值,会对因子分析的结果产生明显的不良影响。
实验零多元正态总体检验(均值向量检验)1.实验目的:本实验讨论利用多元正态总体检验中的均值向量检验方法去判断满足多元正态分布的总体的均值是否等于预先判断的向量(单正态总体检验)或判断两个独立的、满足多元正态分布的总体的均值是否相等(双正态总体检验)。
通过该实验,能够起到如下的效果:(1) 理解多元正态总体检验中的均值向量检验方法的作用、思想、数学基础、方法和步骤;(2) 熟悉如何利用多元正态总体检验中的均值向量检验方法,提出问题、分析问题、解决问题、得出结论;(3)会调用SAS软件实现多元正态总体检验中的均值向量检验方法的各个步骤,根据计算的结果进行分析,得出正确的结论,解决实际的问题。
2.知识准备:多元正态总体检验中的均值向量检验是从判断满足多元正态分布的总体的均值是否等于预先判断的向量(单正态总体检验)或判断两个独立的、满足多元正态分布的总体的均值是否相等(双正态总体检验)。
其思想和步骤是:1.假设“需判断的总体均值等于预先判断的向量(单正态总体检验)”或“需判断的两个总体的均值相等(双正态总体检验)”;2.在该假设下,构造适当的统计量并给出其分布;3.根据观测数据算出其统计量的值;4.根据预先确定的检验水平查阅相应的分布表确定临界值和拒绝域;5.根据结果判断接受或拒绝原假设,得出结论。
(具体见书【1】第三章)3.实验内容:一、单正态总体检验:人出汗多少与人体内钠、钾含量有一定关系。
今测20名健康成年女性出汗多少(X1)、钠含量(X2)、钾含量(X3),其数据如下表1:表1 健康成年女性出汗情况的基本数据序号X1 X2 X3 序号X1 X2 X31 3.7 48.5 9.3 11 3.9 36.9 12.72 5.7 65.1 8 12 4.5 58.8 12.33 3.8 47.2 10.9 13 3.5 27.8 9.84 3.2 53.2 12 14 4.5 40.2 8.45 3.1 55.5 9.7 15 1.5 13.5 10.16 4.6 36.1 7.9 16 8.5 56.4 7.17 2.4 24.8 14 17 4.5 71.6 8.28 7.2 33.1 7.6 18 6.5 52.8 10.99 6.7 47.4 8.5 19 4.1 44.1 11.210 5.4 54.1 11.3 20 5.5 40.9 9.4利用多元正态总体检验中的单正态均值向量检验方法判断“(X1,X2,X3)的均值是否等于(4,50,10)”【1】(假设总体服从正态分布,分别取检验水平为0.05、0.01)。
多元统计分析实验报告学院名称理学院专业班级应用统计学14-2学生姓名张艳雪学号201411081051工资、受教育年限、初始工资和工作经验资料如下表所示: 设职工总体的以上变量服从多元正态分布,根据样本资料利用 SPSS 软件求出均注 1:最大似然估计公式为: μˆ = X = ∑ ∑ (X i - X )(X i - X )' ; ˆ第一章 多元正态分布1.1 从某企业全部职工中随机抽取一容量为 6 的样本,该样本中个职工的目前值向量和协方差矩阵的最大似然估计。
1 n n i =1 X i , Σ = 1 nn i =1一.SPSS 操作步骤:第一步:利用 spss 建立数据集第二步:分析--描述统计--描述 计算样本均值向量 第三步:分析--相关--双变量计算样本协方差阵与样本相关系数二.输出结果:⎪ μ= 37125 ⎪ 152.50⎪ ⎛ 352068000 12500 -110677500 102000 ⎫= -110677500 - 86250 2192793750 691125 ⎪16695.1⎪⎭ ∑ X i,∑ (X i - X )(X i - X )'ˆ三.实验结果分析:样本均值为样本的协方差∑⎪⎪如此就可以按照极大似然估计方程:1 nΣ =n i =1得出均值向量与协方差向量的最大似然估计结果。
μ=X=1nn i=1ˆ第三章聚类分析3.1下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法利用SPSS软件分别对这些公司进行聚类,并对结果进行比较分析。
公司编号净资产收益率每股净利润总资产周转率资产负债率流动负债比率每股净资产净利润增长率总资产增长率111.090.210.0596.9870.53 1.86-44.0481.99211.960.590.7451.7890.73 4.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.18 1.14 6.55-56.325-6.19-0.090.0343.382.24 1.52-1713.5-3.366100.470.4868.486 4.7-11.560.85710.490.110.3582.9899.87 1.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.759 3.410.040.267.8698.51 1.25-11.25-11.4310 1.160.010.5443.7100 1.03-87.18-7.411130.220.160.487.3694.880.53729.41-9.97128.190.220.3830.31100 2.73-12.31-2.771395.79-5.20.5252.3499.34-5.42-9816.52-46.821416.550.350.9372.3184.05 2.14115.95123.4115-24.18-1.160.7956.2697.8 4.81-533.89-27.74一、实验原理:1.系统聚类的基本思想是:首先,每个样品(或变量)先聚成一类,然后,选择距离公式计算类与类之间的距离,把距离相近的样品(或变量)先聚成类,距离相远的后聚成类,该过程一直进行下去,每个样品(或变量)总能聚到合适的类中,最后,所有的样品(或变量)聚成一类。
多元统计分析实验报告课程名称多元统计分析实验成绩实验内容典型相关分析指导老师姓名专业班级一、实验目的典型相关分析(Canonical correlation)又称规则相关分析,用以分析两组变量间关系的一种方法;两个变量组均包含多个变量,所以简单相关和多元回归的解惑都是规则相关的特例。
典型相关将各组变量作为整体对待,描述的是两个变量组之间整体的相关,而不是两个变量组个别变量之间的相关。
本文旨在通过分析农业基础用品投入量与农产品产量数据,利用典型相关分析分析两者的关系,同时达到熟练使用SPSS软件进行典型相关分析操作的目的。
二、实验数据本文使用2002-2011年全国农产品产量与农业基础用品投入量数据,如表2-1所示。
第一组数据为农产品产量(由左到右依次为,粮食产量X1、油料产量X2、糖料产量X3、蔬菜产量X4),第二组数据为农业基础用品投入量(由左到右依次为,农用塑料薄膜使用量Y1、农用柴油使用量Y2、农药使用量Y3)。
表2-1 2011-2011年全国农产品产量与农业基础用品投入量数据由于cancorr不能读取中文名称,所以变量名均需为英文名。
将表2-1数据转换为能够进行典型相关分析形式的数据,如表2-2所示。
表2-2 典型相关分析数据(农产品产量与农业基础用品投入量数据)三、实验过程SPSS 16.0并未提供典型相关分析的交互窗口,只能直接在syntax editor 窗口呼叫SPSS的CANCORR程序来执行分析。
选择【File】—【New】—【Syntax】,弹出Syntax对话框,在对话框中写入调用Cancorr程序,如图3-1所示。
图3-1 Syntax窗口调用CONCORR函数四、实验结果表4-1为第一组数据,即农产品产量之间的相关关系表。
从表中可以看出,粮食产量(X1)与蔬菜产量(X4)有较高的相关关系,相关系数高达0.9035;粮食产量(X1)与糖料产量(X3)相关关系也较大,相关系数为0.8081;油料产量(X2)与蔬菜产量(X4)的相关关系较大,为0.7442。
多元统计分析实验报告计算协方差矩阵相关矩阵SAS
实验目的:
通过对多元统计分析中的协方差矩阵和相关矩阵的计算,探究变量之
间的相关性,并使用SAS进行实际操作。
实验步骤:
1.数据准备:选择一个数据集,例如学生的成绩数据,包括数学成绩、语文成绩和英语成绩。
2.数据整理:将数据转化为矩阵形式,每一行代表一个学生,每一列
代表一个变量(即成绩),记为X。
3. 计算协方差矩阵:根据公式计算协方差矩阵C,其中元素Cij表
示变量Xi和Xj之间的协方差。
计算公式为Cij = cov(Xi, Xj) = E((Xi - u_i)(Xj - u_j)),其中E为期望值,u_i和u_j分别是变量Xi和Xj
的均值。
4. 计算相关矩阵:根据协方差矩阵计算相关矩阵R,其中元素Rij
表示变量Xi和Xj之间的相关性。
计算公式为Rij = cov(Xi, Xj) / (sigma_i * sigma_j),其中sigma_i和sigma_j分别是变量Xi和Xj的
标准差。
5.使用SAS进行实际操作:使用SAS软件导入数据集,并使用PROCCORR和PROCPRINT命令进行协方差矩阵和相关矩阵的计算和输出。
实验结果:
通过计算协方差矩阵和相关矩阵,可以得到变量之间的相关性信息。
协方差矩阵的对角线上的元素表示每个变量的方差,非对角线上的元素表
示不同变量之间的协方差。
相关矩阵的对角线上的元素都是1,表示每个
变量与自身的相关性为1,非对角线上的元素表示不同变量之间的相关性。
使用SAS进行实际操作后,我们可以得到一个包含协方差矩阵和相关
矩阵的输出表格。
该表格可以帮助我们更直观地理解变量之间的相关性情况,从而为后续的统计分析提供参考。
实验总结:
通过本次多元统计分析实验,我们了解了协方差矩阵和相关矩阵的计
算方法,并使用SAS软件进行实际操作。
这些矩阵可以帮助我们评估变量
之间的相关性,为后续的统计分析提供重要的基础信息。
在实际应用中,
我们可以根据协方差矩阵和相关矩阵的结果,选择合适的统计方法和模型,并做出恰当的推断和决策。