当前位置:文档之家› SAS典型判别过程

SAS典型判别过程

SAS典型判别过程
SAS典型判别过程

典型判别分析

SAS/STAT/Candisc 过程

典型判别分析的思路从几何的概念来说,是将高维空间的样本点投影到低维空间,利用低维空间的变量做判别分析,从而使分析更加直观,即对原始数据进行坐标变换,寻求能使总体尽可能分开的方向。

从代数的概念来说,就是根据一个分类变量和几个定量变量,通过典型判别过程得出典型变量,典型变量是定量变量的线性组合。典型判别分析得出与组有最大可能多重相关的变量的线性组合,最大的多重相关叫做第一典型相关,其线性组合称为第一典型变量1u ,线性组合的相关系数称为典型系数,次大的叫做第二典型相关,其线性组合称为第二典型变量2u 。

Candisc 过程可使用的语句为:

数据集选项:

DATA=SAS-data-set (SAS 数据集):指定欲分析的数据集。

OUT=SAS-data-set (SAS 数据集):生成一个包含原始数据和典型变量得分的数据集。

OUTSTAT=SAS-data-set (SAS 数据集):生成一个type=corr 包含各种统计量的输出数据集。

典型变量选项:

NCAN=n :指定将被计算的典型变量的个数。n 的值必须小于或等于变量的个数。

u 能使总体单位

打印选项:

BCORR:类间相关系数。

PCORR:合并类内相关系数。

TCORR全样本相关系数。

WCORR每一类水平的类内相关系数。

BCOV:类间协方差。

PCOV:合并类内协方差。

TCOV:全样本协方差。

WCOV:每一类水平的类内协方差。

BSSCP:类间SSCP矩阵。

PSSCP:合并类内修正SSCP矩阵。

TSSCP:全样本修正SSCP矩阵。

WSSCP:每一类水平的类内修正SSCP矩阵。

ANOVA:检验总体中每一个变量类均值相等的假设的单变量统计量。

SIMPLE:全样本合类内的简单描述性统计量。

ALL:产生以上所有的打印选项。

NOPRINT:不打印。

一般语句

By variables;

By语句与Proc candisc一起使用可以对由BY变量分组的观测进行独立分析。

Class variable;

Class变量的值定义分析的组,类水平由有格式的Class变量的值确定。Class变量可以是数字变量也可以是字符变量。

Var variables;

Var语句指定分析中包括的定量变量。如果省略Var语句,分析包括未在其他语句中列出的全部变量。

程序示例:该例是Fisher的Iris数据进行典型判别分析。数据从三种刚毛弋尾花品种各采集了50各样本。测量其萼片长度、萼片宽度、花瓣长度和花瓣宽度。做典型判别分析并观察第一和第二个典型变量的散点图,是否与原始数据的结果相符。

data iris;

input sepallen sepalwid petallen petalwid species @@;

label sepallen='Sepal Length in mm.'

sepalwid='Sepal Width in mm.'

petallen='Petal Length in mm.'

petalwid='Petal Width in mm.';

cards;

数据行;

proc candisc data=iris ncan=2 out=outcan distance anova;

class species;

var sepallen sepalwid petallen petalwid;

proc print data=outcan;

run;

proc plot;

plot can2*can1=species;run;

输出结果:

Plot of Canonical Variables

Canonical Discriminant Analysis

150 Observations 149 DF Total

4 Variables 147 DF Within Classes

3 Classes 2 DF Between Classes

类水平信息:包括分类变量取值,每类的频数、频率和权重

Class Level Information

SPECIES Frequency Weight Proportion

1 50 50.0000 0.333333

2 50 50.0000 0.333333

3 50 50.0000 0.333333

类间的马氏平方距离 Pairwise Squared Distances Between Groups

)(cov )()/(12j i j i x x x x j i D -'-=-

Squared Distance to SPECIES

From SPECIES 1 2 3

1 0 89.86419 179.38471

2 89.86419 0 17.20107

3 179.38471 17.20107 0

F Statistics, NDF=4, DDF=144 for

Squared Distance to SPECIES

From SPECIES 1 2 3

1 0 550.18889 1098

2 550.18889 0 105.31265

3 1098 105.31265 0

Prob > Mahalanobis Distance for

Squared Distance to SPECIES

From SPECIES 1 2 3

1 1.0000 0.0001 0.0001

2 0.0001 1.0000 0.0001

3 0.0001 0.0001 1.0000

单变量检验的统计量,当F p r >的值小于5%,则说明每个变量在类间的差异是非常显著的。

Univariate Test Statistics

F Statistics, Num DF= 2 Den DF= 147

Total Pooled Between RSQ/

Variable STD STD STD R-Squared (1-RSQ) F Pr > F

SEPALLEN 8.2807 5.1479 7.9506 0.618706 1.6226 119.2645 0.0001

SEPALWID 4.3587 3.3969 3.3682 0.400783 0.6688 49.1600 0.0001

PETALLEN 17.6530 4.3033 20.9070 0.941372 16.0566 1180.1612 0.0001

PETALWID 7.6224 2.0465 8.9673 0.928883 13.0613 960.0071 0.0001

Average R-Squared: Unweighted = 0.7224358 Weighted by Variance = 0.8689444

多元变量检验的统计量,当F p r >的值小于5%,则说明联合检验,变量在类间的差异是非常显著的。 Multivariate Statistics and F Approximations

S=2 M=0.5 N=71

Statistic Value F Num DF Den DF Pr > F

Wilks' Lambda 0.02343863 199.145 8 288 0.0001

Pillai's Trace 1.19189883 53.466 8 290 0.0001

Hotelling-Lawley Trace 32.47732024 580.532 8 286 0.0001

Roy's Greatest Root 32.19192920 1166.957 4 145 0.0001

NOTE: F Statistic for Roy's Greatest Root is an upper bound.

NOTE: F Statistic for Wilks' Lambda is exact.

Eigenvalues of INV(E)*H

Adjusted Approx Squared = CanRsq/(1-CanRsq)

Canonical Canonical Standard Canonical

Correlation Correlation Error Correlation Eigenvalue Difference Proportion Cumulative

1 0.984821 0.984508 0.002468 0.96987

2 32.1919 31.9065 0.9912 0.9912

2 0.471197 0.461445 0.063734 0.222027 0.2854 . 0.0088 1.0000

总体中当前的典型相关及更小的典型相关为零的检验,F p r >的值小于5%时,可以认为当前的典

型相关显著不为零。

Test of H0: The canonical correlations in the

current row and all that follow are zero

Likelihood

Ratio Approx F Num DF Den DF Pr > F

1 0.02343863 199.1453 8 288 0.0001

2 0.77797337 13.7939

3 145 0.0001

全样本的标准化的典型系数

Total-Sample Standardized Canonical Coefficients

CAN1 CAN2

SEPALLEN -0.686779533 0.019958173 Sepal Length in mm.

SEPALWID -0.668825075 0.943441829 Sepal Width in mm.

PETALLEN 3.885795047 -1.645118866 Petal Length in mm.

PETALWID 2.142238715 2.164135931 Petal Width in mm.

原始典型相关系数

Plot of Canonical Variables

Canonical Discriminant Analysis

Raw Canonical Coefficients

CAN1 CAN2

SEPALLEN -.0829377642 0.0024102149 Sepal Length in mm.

SEPALWID -.1534473068 0.2164521235 Sepal Width in mm.

PETALLEN 0.2201211656 -.0931921210 Petal Length in mm.

PETALWID 0.2810460309 0.2839187853 Petal Width in mm.

典型变量的类均值

Class Means on Canonical Variables

SPECIES CAN1 CAN2

1 -7.607599927 0.215133017

2 1.825049490 -0.727899622

3 5.782550437 0.512766605

……

Plot of CAN2*CAN1. Symbol is value of SPECIES.

CAN2 ?

4 ?

?

?

?

? 1 3 ? 3 3 ? 3

2 ?

3 3 3

? 1 1 1 3 3 33 ? 1 3 3 3 3 ? 1 1 1 1 1 2 2 3

? 1 1 2 3 3 3 ? 1111 1 1 1 2 3 3 3 3

? 1 1 1 1 2 2 3 3 3 3

0 ? 1 1 1 2 2 2 2 2 22 3 3 33 3

? 1 1 1 1 2 2 2 2 3 33 3

? 11 22222 22 3 3

? 111 1 2 2 22 2 3 23 3 3 3 ? 1 1 2 2

? 2 2 2 3

? 22 2 2 2 2

-2 ? 1 2 2 3

? 3

? 2

?

?

?

?

-4 ?

???????????????????????????????????????????????????????????????????????????????????????????????????????

-10 -8 -6 -4 -2 0 2 4 6 8 10 10

CAN1

SAS软件运用实验指导书

数据分析 实验指导书 理学院实验中心数学专业实验室编写

实验一SAS系统的使用 【实验类型】(验证性) 【实验学时】2学时 【实验目的】使学生了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。 【实验内容】 1. 启动SAS系统,熟悉各个菜单的内容;在编辑窗口、日志窗口、输出窗口之间切换。 2. 建立数据集 表1 Name Sex Math Chinese English Alice f908591 Tom m958784 Jenny f939083 Mike m808580 Fred m848589 Kate f978382 Alex m929091 Cook m757876 Bennie f827984 Hellen f857484 Wincelet f908287 Butt m778179 Geoge m868582 Tod m898484 Chris f898487 Janet f866587 1)通过编辑程序将表1读入数据集sasuser.score; 2)将下面记事本中的数据读入SAS数据集,变量名为code name scale share price: 000096 广聚能源8500 0.059 1000 13.27 000099 中信海直6000 0.028 2000 14.2 000150 ST麦科特12600 -0.003 1500 7.12 000151 中成股份10500 0.026 1300 10.08 000153 新力药业2500 0.056 2000 22.75

3)将下面Excel表格中的数据导入SAS数据集work.gnp; name x1 x2 x3 x4 x5 x6 北京190.33 43.77 7.93 60.54 49.01 90.4 天津135.2 36.4 10.47 44.16 36.49 3.94 河北95.21 22.83 9.3 22.44 22.81 2.8 山西104.78 25.11 6.46 9.89 18.17 3.25 内蒙古128.41 27.63 8.94 12.58 23.99 3.27 辽宁145.68 32.83 17.79 27.29 39.09 3.47 吉林159.37 33.38 18.37 11.81 25.29 5.22 黑龙江116.22 29.57 13.24 13.76 21.75 6.04 上海221.11 38.64 12.53 115.65 50.82 5.89 江苏144.98 29.12 11.67 42.6 27.3 5.74 浙江169.92 32.75 21.72 47.12 34.35 5 安徽153.11 23.09 15.62 23.54 18.18 6.39 福建144.92 21.26 16.96 19.52 21.75 6.73 江西140.54 21.59 17.64 19.19 15.97 4.94 山东115.84 30.76 12.2 33.1 33.77 3.85 河南101.18 23.26 8.46 20.2 20.5 4.3 湖北140.64 28.26 12.35 18.53 20.95 6.23 湖南164.02 24.74 13.63 22.2 18.06 6.04 广东182.55 20.52 18.32 42.4 36.97 11.68 广西139.08 18.47 14.68 13.41 20.66 3.85 四川137.8 20.74 11.07 17.74 16.49 4.39 贵州121.67 21.53 12.58 14.49 12.18 4.57 云南124.27 19.81 8.89 14.22 15.53 3.03 陕西106.02 20.56 10.94 10.11 18 3.29 甘肃95.65 16.82 5.7 6.03 12.36 4.49 青海107.12 16.45 8.98 5.4 8.78 5.93 宁夏113.74 24.11 6.46 9.61 22.92 2.53 新疆123.24 38 13.72 4.64 17.77 5.75 4)使用VIEWTABLE格式新建数据集earn,输入如表所示数据Year earn 1981 125000 1982 136000 1983 122350 1984 65200 1985 844600 1986 255000 1987 265000 1988 280000 1989 136000

SAS区间估计与假设检验实验报告

2014——2015学年第 1 学期 合肥学院数理系 实验报告 课程名称:统计软件选讲 实验项目:区间估计与假设检验 实验类别:综合性□设计性□验证性□√ 专业班级: 12级信息与计算科学 姓名:马坤鹏学号: 1207011017 实验地点:数理系数学模型实验室 实验时间: 2014.9.24 指导教师:段宝彬成绩:

一、实验目的 掌握使用SAS对总体参数进行区间估计与假设检验方法。 二、实验内容 1、用INSIGHT对总体参数进行区间估计与假设检验 2、用“分析家”对总体参数进行区间估计与假设检验 3、编程对总体参数进行区间估计与假设检验 三、实验步骤或源程序 1、生成来自标准正态总体的10000个随机数: (1) 求总体的平均值和方差的置信水平为90%的置信区间; (2) 改变随机数的个数,观察并总结样本均值、样本方差的变化以及总体均值和方差的置信区间的变化规律。 2、从某大学总数为500名学生的“数学”课程的考试成绩中,随机地抽取60名学生的考试成绩如表5-6(lx5-2.xls)所示: 表5-6 学生成绩 (1) 分别求500名学生平均成绩的置信水平为98%、90%和85%的置信区间,并观察置信水平与置信区间的关系。 (2) 分别求500名学生成绩的标准差的置信水平为98%和85%的置信区间。 3、装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取12件产品,记录下各自的装配时间如表5-7(lx5-3.xls)所示: 表5-7 装配时间(单位:分钟) 设两总体为正态总体,且方差相同。问两种方法的装配时间有无显著不同(α = 0.05)?data my.five1; input m n$@@; cards; 31 m 34 m 29 m 32 m 35 m 38 m 34 m 30 m 29 m 32 m 31 m 26 m 26 n 24 n 28 n 29 n 30 n 29 n 32 n 26 n 31 n 29 n 32 n 28 n ; proc ttest h0 = 0alpha = 0.05data= my.five1; var m; class n; run;

完整word版数据分析实验报告分析解析

实验课程:数据分析 信息与计算科学 业: 专 级: 班 号:学 姓名: 中北大学理学院.

实验一 SAS系统的使用 【实验目的】 了解SAS系统,熟练掌握SAS数据集的建立及一些必要的SAS语句。 【实验内容】 1. 将SCORE数据集的内容复制到一个临时数据集test。 SCORE数据集 English Math Sex Chinese Name 91 90 f 85 Alice 95 Tom m 87 84 93 90 Jenny f 83 80 85 80 Mike m 84 85 89 m Fred 97 83 f 82 Kate 92 Alex 90 m 91 75 Cook m 78 76 82 f Bennie 79 84 85 Hellen f 74 84 90 82 Wincelet f 87 77 Butt m 81 79 86 85 Geoge m 82 89 Tod m 84 84 89 Chris f 84 87 86 65 f 87 Janet math的高低拆分到3个不同的数据集:SCORE2.将数据集中的记录按照math大于等于90的到good数据集,math在80到89之间的到normal数据集,math 在80以下的到bad数据集。 3.将3题中得到的good,normal,bad数据集合并。 【实验所使用的仪器设备与软件平台】SAS 【实验方法与步骤】 1: DATA SCORE; INPUT NAME $ Sex $ Math Chinese English; CARDS; 2

91 85 Alice f 90 84 Tom m 95 87 83 f 93 90 Jenny 80 80 85 Mike m 89 85 m Fred 84 82 83 Kate f 97 91 Alex m 92 90 76 Cook m 78 75 84 82 79 f Bennie 84 74 Hellen f 85 87 82 Wincelet f 90 79 Butt m 77 81 82 m 86 85 Geoge 84 89 84 Tod m 87 84 f Chris 89 87 Janet f 86 65 ; ; Run PROC PRINT DATA=SCORE; DATA test; SET SCORE; :2 good normal bad; DATA SCORE; SET; SELECT) output good; 90when(math>=) output normal; 80when(math>=&math<90) output bad; when(math<80; end; Run=good; DATA PRINT PROC=normal; DATA PRINT PROC=bad; DATA PRINT PROC :3 All; DATA good normal bad; SET=All; DATA PROC PRINT;Run 3 【实验结果】 结果一:

SAS编程基础

实验2 SAS编程基础 SAS语言和其它计算机语言一样,也有其专有的词汇(即关键字)和语法。关键字、名字、特殊字符和运算符等按照语法规则排列组成SAS语句,一个SAS程序由若干数据步、过程步组合而成,而每一个程序步通常由若干语句构成。SAS程序是在Editor窗口中进行编辑,提交运行后可以在Log窗口中显示有关信息和提示,在Output窗口显示运行的结果。 2.1 实验目的 通过实验了解SAS编程的基本概念,掌握SAS编程的基本方法,掌握SAS数据步对数据集的管理和对数据的预处理。 2.2 实验内容 一、建立逻辑库与数据集,包括逻辑库的建立、直接输入数据建立数据集与读取外部数据文件建立数据集。 二、数据文件的编辑与整理,包括数据集的横向合并与纵向合并、数据集内容的复制、变量的增加与筛选、数据集的拆分和数据的排序。 2.3 实验指导 一、建立逻辑库与数据集 1.建立逻辑库 【实验2-1】编程建立逻辑库。 (1) 首先在D盘创建一个文件夹,如D:\SAS_SHYAN\SAS数据集。 (2) 建立逻辑库mylib,编辑并运行下面程序语句即可。 libname mylib "D:\sas_shiyan\sas数据集"; 2.直接输入数据建立数据集 【实验2-2】将表2-1(sy2_2.xls)中的数据直接输入建立数据集sy2_2,并将其存入逻辑库mylib中。 表2-1 职工工资 编号 姓名 性别工作日期 职称 部门基本工资工龄工资奖金扣款 实发工资 1420 0 3003 王以平男1992-8-1 助工生产620300500

3004 林红女1993-8-1 助工供销620280500 200 12003005 吕兴良男1982-1-30 工程师技术1100500500 100 20003006 司马宇男1971-2-17 工人生产520720500 0 17403007 张学武男1967-10-9 工人保卫520800500 200 16203008 冯玉霞女1987-8-1 工程师生产1100400500 250 17503009 赵大强男1968-5-10 工人财务520780500 0 18003010 王萍 女 1987-8-1 工程师 技术 1100 400 500 100 1900 代码如下: data mylib.sy2_2; length gzrq $ 10; input bh $ xm $ xb $ gzrq $ zc $ bm $ jbgz glgz jj kk sfgz; label bh='编号' xm='姓名' xb='性别' gzrq='工作日期' zc='职称' bm='部门' jbgz='基本工资' glgz='工龄工资' jj='奖金' kk='扣款' sfgz='实发工资'; cards; 3003 王以平 男 1992-8-1 助工 生产620 300 500 0 1420 3004 林红 女 1993-8-1 助工 供销620 280 500 200 1200 3005 吕兴良 男 1982-1-30 工程师 技术 1100 500 500 100 2000 3006 司马宇 男 1971-2-17 工人 生产520 720 500 0 1740 3007 张学武 男 1967-10-9 工人 保卫520 800 500 200 1620 3008 冯玉霞 女 1987-8-1 工程师 生产1100 400 500 250 1750 3009 赵大强 男 1968-5-10 工人 财务520 780 500 0 1800 3010 王萍 女 1987-8-1 工程师 技术 1100 400 500 100 1900 ; RUN; 运行完成后,在逻辑库mylib 中双击数据集名sy2_2,可以查看结果如图2-1所示: 图2-1 数据集mylib.sy2_2 说明: (1) SAS 变量的基本类型有两种:数值型和字符型。数值型变量在数据集中的存贮一般使用8个字节。SAS 的字符型变量缺省的长度是8个英文字符,可以使用LENGTH 语句指定变量长度,LENGTH 语句一般应出现在定义变量的Input 语句之前,格式为: LENGTH 字符型变量名 $ 长度; 如: LENGTH gzrq $ 10; (2) 语句:

时间序列分析,sas各种模型,作业神器

实验一分析太阳黑子数序列 一、实验目的:了解时间序列分析的基本步骤,熟悉SAS/ETS软件使用方法。 二、实验内容:分析太阳黑子数序列。 三、实验要求:了解时间序列分析的基本步骤,注意各种语句的输出结果。 四、实验时间:2小时。 五、实验软件:SAS系统。 六、实验步骤 1、开机进入SAS系统。 2、创建名为exp1的SAS数据集,即在窗中输入下列语句: 3、保存此步骤中的程序,供以后分析使用(只需按工具条上的保存按钮然后填写完提问 后就可以把这段程序保存下来即可)。 4、绘数据与时间的关系图,初步识别序列,输入下列程序: ods html; ods listing close; 5、run;提交程序,在graph窗口中观察序列,可以看出此序列是均值平稳序列。

6、识别模型,输入如下程序。 7、提交程序,观察输出结果。初步识别序列为AR(2)模型。 8、估计和诊断。输入如下程序: 9、提交程序,观察输出结果。假设通过了白噪声检验,且模型合理,则进行预测。 10、进行预测,输入如下程序: 11、提交程序,观察输出结果。

12、退出SAS系统,关闭计算机。总程序: data exp1; infile "D:\"; input a1 @@;

year=intnx('year','1jan1742'd,_n_-1); format year year4.; ; proc print;run; ods html; ods listing close; proc gplot data=exp1 ; symbol i=spline v=dot h=1 cv=red ci=green w=1; plot a1*year/autovref lvref=2 cframe=yellow cvref=black ; title "太阳黑子数序列"; run; proc arima data=exp1; identify var=a1 nlag=24 minic p=(0:5) q=(0:5); estimate p=3; forecast lead=6 interval=year id=year out=out; run; proc print data=out; run; 选取拟合模型的规则: 1.模型显著有效(残差检验为白噪声)

抑郁(SDS)焦虑自评量表(SAS)_实验报告

一、实验目的 通过实验了解受试抑郁的主观感受、轻重程度及其在治疗中的变化,掌握个别施测的使用方法。掌握抑郁自评量表的原理、实施、记分与结果解释方法。 二、实验材料 大学生心理测验系统 三、实验步骤 3.1 进入大学生心理测验系统后再点击进入人格特点测评项目。 3.2 点击测试项目名称即抑郁自评量表(SDS),进入抑郁自评量表界面。 3.3输入被试信息,确定后桌面弹出测验指导与窗口,认真阅读指导语: ①在这个问卷测试当中有20个问题,请你依次回答这些问题,答案选项包括“没有或很少时间”、“少部分时间”、“相当多时间”和“绝大部分或全部时间”四个选项,每一测题只能选择一个答案; ②该问卷测试评定的是最近一周的实际感觉; ③本测验不计时间,但应凭自己的直觉反应进行作答,不要迟疑不决,拖延时间; ④有些题目你可能从未思考过,或者感到不太容易回答。对于这样的题目,同样要求你做出一种倾向性的选择。 确定阅读完毕后开始测试。 3.4按照出现题目的先后顺序作答,直至答题完毕。 四、实验结果 4.1 受试信息 姓名:XXX 性别:女年龄:20 文化程度:本科测验耗时:00:00:43 4.2 受试结果 总粗分65 标准总分81.25 参考诊断:有(重度)抑郁症状 重点提示: 抑郁精神性,因子得分:6 抑郁躯体障碍,因子得分:27 抑郁精神运动性障碍,因子得分:6 抑郁心理障碍,因子得分:26 五、实验结果分析 该测试结果提示受试有重度抑郁的倾向,主要表现为: 情绪非常低落,感觉毫无生气,没有愉快的感觉,经常产生无助感或者绝望感,自怨自责。经常有活着太累,想解脱、出现消极的念头,还常哭泣或者整日愁眉苦脸,话语明显少,活动也少,兴趣缺乏,睡眠障碍明显,入睡困难或者早醒,性欲功能 基本没有。 六、讨论或思考 SDS为短程量表,操作方便,容易掌握,能有效地反映抑郁状态的有关症状及其严重程度和变化。SDS的评分不受年龄、性别、经济状况等因素影响,目前在国外已被广泛应用。

数据分析SAS报告

90-08年人民消费能力分析 一、问题提出 改革开放以来中国经济飞速发展,GDP连续超过德国、日本,现以成为世界上第二大经济体,人民生活水平不断提高,但受金融危机的影响,近几年来物价持续上涨,本月CPI创历史新高,人民的消费能力是否随着GDP的增加而增加呢?本文以中国经济年鉴中的“人民消费支出构成”的数据为依据利用统计软件SAS 进行了相关分析。数据如下 食品衣着居住家庭设备用品及服务交通通讯文教娱乐用品及服务医疗保健其他商品及服务 1990 58.8000 7.7700 17.3400 5.2900 1.4400 5.3700 3.2500 0.7400 1995 58.6200 6.8500 13.9100 5.2300 2.5800 7.8100 3.2400 1.7600 2000 49.1300 5.7500 15.4700 4.5200 5.5800 11.1800 5.2400 3.1400 2005 45.4800 5.8100 14.4900 4.3600 9.5900 11.5600 6.5800 2.1300 2007 43.0800 6.0000 17.8000 4.6300 10.1900 9.4800 6.5200 2.3000 2008 43.6700 5.7900 18.5400 4.7500 9.8400 8.5900 6.7200 2.0900 二、问题分析 1、通过对消费种类进行主成分分析判断人民的消费情况。 2、对主成分标准化后在分析各年的消费能力排名。 三、解决问题 3.1 SAS程序: data examp4_4; input id x1-x8; cards; 1990 58.8000 7.7700 17.3400 5.2900 1.4400 5.3700 3.2500 0.7400 1995 58.6200 6.8500 13.9100 5.2300 2.5800 7.8100 3.2400 1.7600 2000 49.1300 5.7500 15.4700 4.5200 5.5800 11.1800 5.2400 3.1400 2005 45.4800 5.8100 14.4900 4.3600 9.5900 11.5600 6.5800 2.1300 2007 43.0800 6.0000 17.8000 4.6300 10.1900 9.4800 6.5200 2.3000 2008 43.6700 5.7900 18.5400 4.7500 9.8400 8.5900 6.7200 2.0900 ; run; proc corr cov nosimple data=examp4_4; var x1-x8; run; proc princomp data=examp4_4 out=bb; var x1-x8; run; data score1; /*以下程序是对各年按第一主成分得分进行排名并打印结果*/ set bb; keep id prin1;

多元统计分析实验报告,计算协方差矩阵,相关矩阵,SAS

院系:数学与统计学学院 专业:__统计学 年级:2009 级 课程名称:统计分析 ____ 学号:____________ 姓名:_________________ 指导教师:____________ 2012年4月28日 (一)实验名称 1. 编程计算样本协方差矩阵和相关系数矩阵;

2. 多元方差分析MANOVA。 (二)实验目的 1. 学习编制sas程序计算样本协方差矩阵和相关系数矩阵; 2. 对数据进行多元方差分析。 (三)实验数据 第一题: 第二题:

(四)实验内容 1. 打开SAS软件并导入数据; 2. 编制程序计算样本协方差矩阵和相关系数矩阵; 3. 编制sas程序对数据进行多元方差分析; 4. 根据实验结果解决问题,并撰写实验报告; (五)实验体会(结论、评价与建议等) 第一题: 程序如下: proc corr data=sasuser.sha n cov; proc corr data=sasuser.sha n no simple cov; with x3 x4; partial x1 x2; run; 结果如下: (1)协方差矩阵 $AS亲坯 曲;15 Friday, Apr: I SB,沙DO COUR过程 x4 目由度=30 Xi x2x3x4x5X? -10.I9B4944-0.45E2GJ5I.3347097-G.1193E48-£0.e75?GS

-ID. 188494669,36&Q3?9-7.22IO&OS1J5692043I5.49ee^91S.Oa97SM -8.45S2645■7,221050829.S78&S46-6.372E47I-15.3084183-21.7352376-11.5674785 1.3841097 1.G5S2M7t.3726171IJ24?17B 4.e093011 4.4C12473 2.B747CM -G. I1S3S49 1.GS92043-is.soul aa 4.B09B01I68.7978495劣』S670971S.57ai1B3 -IH.05l6l?a15.43S6569-J1.73S2376孔耶124TB27.0387097105.103225&S7.3505S7E: -2D K5752??319-11337204-1L55M7S52r9747?3i19,573118337.3S0&87E33.3SQ6452 (2) 相关系数矩阵 Pearson相关系数” N =引 当HO: Rho=0 时.Prob > |r| Xi Xi xl 1.QQ000 x2 -C.23954 0.2061 x3 -0,30459 0.0957 x4 0.18975 Q.3092 x5 '0.14157 0.4475 x6 -0.83787 0.0630 -0.49292 0.0150 x2-0.23354 1.00000-0.162750.143510.022700.181520.24438 x20.20C10.31:1?0.441?0.90350.32640.1761 x3-0.30459-0.16275 1.00000-0.06219-0.34641-0.^797-0.23674 x30.095?0.381?<.00010.0563o.oses0 JS97 x40.1S8760.14351-0.86219L000000.400540,313650.22610 x40.30920.4412<.0001 D.02EG Q.085S0.2213 x5-0J 41570.02270-0.946410.40054 1.000000.317370.26750 x50.4J750.90350.0G68Q.025&0.08130 + 1620 x6-0.33?e?0.1S162-0.397970.813650.31787LOOOOO0.82976 x60.0S300.32840.02660.08580.0813C0001辺-0.432920.24938-0.288740.22810 D.267600.92976 1.00000 x70,01500J7610.19970.22130JG20<.0001 第二题: 程序如下: proc anova data=sasuser.hua ng; class kind; model x1-x4=k ind; manova h=k ind; run; 结果如下: (1)分组水平信息 The ANNA Procedure Cla^s Level Informat ion Class Level?Values kind 3 123 Number of observatIons CO (2) x1、x2、x3、x4的方差分析

SAS实训报告心得

通过这次的课程设计,让我对SAS有了进一步的的了解,在设计过程中,虽然有的例题已经做过了,但还是会遇到些问题,一个不显眼的小字符错了,程序就会一遍遍的报错,而且错误容易被忽视,修改时不容易发现。所以我们平常思考问题做事情都要认真严谨,思考全面。 实训不仅可以巩固我们以前所学过的知识,而且学到了很多在书本上所没有学到过的知识。这周不仅对数据集的创建,时间序列的平稳性分析和纯随机性检验有了更深刻的认识,而且更能在小细节中多上心。实践出真知,平常所学的理论只有通过实践,自己动手才能真正感觉到知识的乐趣。实训不仅能培养我们独立思考的能力,动手操作能力,在其他方面的我们的能力也能有所提高。 学习最怕的就是缺少兴趣,有了兴趣和好奇心,做什么事都不会感到累。“知之者不如好之者,好之者不如乐之者。”这句话为我们揭示了一个怎样才能取得好的学习效果的秘诀,那就是对学习的热爱。不同的人在同样的学习环境下学习效果不一样,自身的素质固然是一个方面,更加重要的还在于学习者对学习内容的态度或感觉。正所谓“兴趣是最好的老师”,当你对一门科目产生了兴趣之后,自然会学得比别人好。所以,无论以后学习什么,都要带着愉悦的心情去学习。 实际操作过程中我找出自身存在的不足,对今后的会计学习有了一个更为明确的方向和目标。虽说一周的时间很短,但其中的每一天都使我收获很大、受益匪浅,它不但极大地加深了我对一些知识的理解,从而真正做到了理论联系实际;更让我学到了很多之前在课堂上所根本没法学到的东西,这对于我的学业,乃至我以后人生的影响无疑都是极其深远的。 我希望以后能够有更多的这种实训的机会,这一周感觉过的很充实,我也真正的融入到了学习当中去,别无他思,一切都还不错,感觉非常好。我达到了我自己的预期目标和要求,受益匪浅。

抑郁(SDS)焦虑自评量表(SAS)_实验报告

抑郁自评量表(SDS)实验报告 一、实验目的 通过实验了解受试抑郁的主观感受、轻重程度及其在治疗中的变化,掌握个别施测的使用方法。掌握抑郁自评量表的原理、实施、记分与结果解释方法。 二、实验材料 大学生心理测验系统 三、实验步骤 3.1 进入大学生心理测验系统后再点击进入人格特点测评项目。 3.2 点击测试项目名称即抑郁自评量表(SDS),进入抑郁自评量表界面。 3.3 输入被试信息,确定后桌面弹出测验指导与窗口,认真阅读指导语: ①在这个问卷测试当中有20个问题,请你依次回答这些问题,答案选项包括“没有或很少时间”、“少部分时间”、“相当多时间”和“绝大部分或全部时间”四个选项,每一测题只能选择一个答案; ②该问卷测试评定的是最近一周的实际感觉; ③本测验不计时间,但应凭自己的直觉反应进行作答,不要迟疑不决,拖延时间; ④有些题目你可能从未思考过,或者感到不太容易回答。对于这样的题目,同样要求你做出一种倾向性的选择。 确定阅读完毕后开始测试。 3.4 按照出现题目的先后顺序作答,直至答题完毕。 四、实验结果 4.1 受试信息 姓名:XXX性别:女年龄: 2 0 文化程度:本科测验耗时:00:00:43 4.2 受试结果 总粗分65 标准总分81.25 参考诊断:有(重度)抑郁症状 重点提示: 抑郁精神性,因子得分:6 抑郁躯体障碍,因子得分:27 抑郁精神运动性障碍,因子得分:6 抑郁心理障碍,因子得分:26 五、实验结果分析 该测试结果提示受试有重度抑郁的倾向,主要表现为: 情绪非常低落,感觉毫无生气,没有愉快的感觉,经常产生无助感或者绝望感,自怨自责。经常有活着太累,想解脱、出现消极的念头,还常哭泣或者整日愁眉苦脸,话语明显少,活动也少,兴趣缺乏,睡眠障碍明显,入睡困难或者早醒,性欲功能基本没有。 六、讨论或思考

实验报告七-SAS典型相关分析

实验报告 实验项目名称典型相关分析 所属课程名称统计分析及SAS实现实验类型验证性实验 实验日期2016-12-11 班级数学与应用数学 学号 姓名 成绩

【实验方案设计】 一.理解典型相关分析的概念及步骤; 二.掌握典型相关分析的方法; 三.用INSIGHT、“分析家”计算统计量和编程实现实际问题中的典型相关分析; 【实验过程】(实验步骤、记录、数据、分析) 【练习7-1】对某高中一年级男生38人进行体力测试及运动能力测试,如表所示,试对两组指标作典型相关分析。

34 47 55 113 40 71.4 19 64 7.6 410 29 7 331 35 49 74 120 53 54.5 22 59 6.9 500 33 21 342 36 44 52 110 37 54.9 14 57 7.5 400 29 2 421 37 52 66 130 47 45.9 14 45 6.8 505 28 11 355 38 48 68 100 45 53.6 23 70 7.2 522 28 9 352 其中,体力测试指标为:X 1-------反复横向跳(次),X 2 -------纵跳(cm), X 3------背力(kg),X4------捏力(kg),X 5 -----台阶测试(指数),X 6 ------ 定向体前屈(cm),X 7 -------俯卧上提后仰(cm)。 运动能力测试的指标为y 1-50m跑(s),y 2 -跳远(cm),y 3 -投球(m),y 4 引体 向上(次),y 5 -耐力跑(s)。 【解答】 利用INSIGHT模块进行典型相关分析: 结果: 表7.1 Univariate Statistics Variable N Mean Std Dev Minimum Maximum y1 38 7.1316 0.3354 6.6000 8.0000 y2 38 441.8421 43.2138 362.0000 522.0000 y3 38 27.8158 2.7495 21.0000 33.0000 y4 38 7.5263 3.8326 2.0000 21.0000

sas数据挖掘与应用实验报告

SAS 数据挖掘与应用 实验报告 陕西省各地市经济发展水平评价研究

实验要求: 1. 选择经济领域中的一个问题,确定相关的分析变量,描述通过数据挖掘来探究(或解释、或解决)问题的逻辑思路,说明预期的结果(结论)等。 2. 查询和搜集相关原始数据 3. 整理、准备数据,建立数据集 4. 采用二种或二种以上的挖掘方法,或进行对比分析,或先后进行多个阶段的分析。 5. 对挖掘结果进行分析和说明。 6. 总结研究结论或结果。 实验目的: 1.熟悉SAS软件操作 2.练习SAS编程 3.学习并练习描述性统计分析、因子分析等方法与实际操作 4.研究实际问题 问题描述: 陕西省各市的经济发展一直受到陕西人民的关注,而对于2014年如何分析各市的发展情况,一直是一个仁者见仁的问题,指标体系的建立以及研究方法的选择多种多样,本文以各市2014年各市的重要经济发展指标出发,对11个地市的经济发展进行评价

解决思路: 为了研究上述问题,我们应当以2014年的各地市相关经济发展指标为数据源,通过描述性统计分析对整体数据进行初步了解;并利用主成分分析对2014年各地市的经济发展进行一个综合评价和排序。 1.描述性分析 2.主成分分析 实验过程: 1.搜集数据 通过陕西省统计局网站搜寻到2014年各地市经济发展的指标并汇总,选择其中的五个指标(生产总值、财政收入、固定资产投资、外贸进出口总额、人均可支配收入),得到如下数据: 2.数据准备和预处理 首先建立数据集,我将数据存在D:\saswork.sas中

为便于进行分析,将生产总值、财政收入、固定资产投资、外贸进出口、人均可支配收入均用X1-X5代替。 3.描述性统计分析 ①单变量分析: 首先要对数据的基本情况有一个初步的了解,因此先进行单变量分析。再次我们利用means过程计算一些描述性统计量,编写程序如下: proc means data=saswork.sas maxdec=2 mean std max min range cv skewness; var x1-x5; run; 运行结果如下: 分析: 陕西省各市生产总值平均水平约为1613亿元,从标准差看来,无论是哪个指标都有着较大的差异,而且变异系数除了X5(人均收入)外其他都有着较高的值,这也说明了各地市的经济发展水平不同,而且在最大值的选择中,西安市的值正好与最大值相对应,说明西安市的经济发展处于绝对优势地位,但仅仅如此并不能反映出更多的信息,因此进行接下来的进一步统计指标计算和分析。 ②相关系数分析和P值检验 代码如下: proc corr data=saswork.sas; var x1-x5; run; 运行后得到相关系数矩阵:

数据分析5.5实验报告

5.5 考察鸢尾属植物中三个不同品种的话的如下四个形状指标: 1X :萼片长度;2X 萼片宽度;3X :花瓣长度;4X :花瓣宽度。 重这三个品种(记为1,2,3)各选取50株,测得上述指标的取值如表5.10所示。假如三个品种的着、这4个指标均服从4维正态分布,且先验概率相等,按下列要求进行Bayes 判别分析:

(1)只考虑指标2X 和4X ,并假定各总体协方差矩阵不全相等,给出误判率的回代 估计和交叉确认估计; (2)只考虑指标2X 和4X ,并假定各总体协方差矩阵相等,写出线性判别函数,给 出误判率的回代估计和交叉确认估计并于(1)中结果作比较; (3)假定有新样品T T o x x x )18,35(),(42==,在(1),(2)之下,该样品非别被判归哪个总 体? (4)利用全部4个指标重复(1)和(2)的分析,结果如何?是否所用指标越多,分类效 果越好?在尝试其他几个指标组合,情况有如何? 解:(1) 误判率的回代估计: 误判率的交叉确认估计: 由以上结果可以看出,当只考虑指标2X 和4X ,并假定各总体协方差矩阵不全相等的情况下,无论用回代法还是用交叉分析法,均存在误判,且误判情况相同,共有7个误判:将第52号的样品由品种2误判为品种3;第53号的样品由品种2误判为品种3;第55号的样品由品种2误判为品种3;第100号的样品由品种2误判为品种3;第103号的样品由品种3误判为品种2;第124号的样品由品种3误判为品种2;第130号的样品由品种3误判为品种2。误判的回代估计∧ *r p 和交叉确认估计∧*c p 为: 0467.01507 ??**≈==c r p p (2)当各总体协方差矩阵相等,即∑∑∑∑===123,只需把程序中pool =no 改为pool =yes ,运行结果整理如下: 线性判别函数为: 421 06379.238648.363828.56?x x W -+-= 422 76415.179074.141765.37?x x W ++-=

数据分析实验报告(主成分分析)

实验八主成分分析 一、实验目的和要求 能利用原始数据与相关矩阵、协主差矩阵作主成分分析,并能理解标准化变量主成分与原始数据主成分的联系与区别; 能根据SAS输出结果选出满足要求的几个主成分. 实验要求:编写程序,结果分析. 实验内容:书上4.5 4.6 4.5 data examp4_5; input id x1-x8; cards; 1 8.35 23.53 7.51 8.6 2 17.42 10.00 1.04 11.21 2 9.25 23.75 6.61 9.19 17.77 10.48 1.72 10.51 3 8.19 30.50 4.72 9.78 16.28 7.60 2.52 10.32 4 7.73 29.20 5.42 9.43 19.29 8.49 2.52 10.00 5 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76 6 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35

7 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81 8 9.09 28.12 7.40 9.62 17.26 11.12 2.49 12.65 9 9.41 28.20 5.77 10.80 16.36 11.56 1.53 12.17 10 8.70 28.12 7.21 10.53 19.45 13.30 1.66 11.96 11 6.93 29.85 4.54 9.49 16.62 10.65 1.88 13.61 12 8.67 36.05 7.31 7.75 16.67 11.68 2.38 12.88 13 9.98 37.69 7.01 8.94 16.15 11.08 0.83 11.67 14 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.23 15 8.14 37.75 9.61 8.49 13.15 9.76 1.28 11.28 16 7.67 35.71 8.04 8.31 15.13 7.76 1.41 13.25 17 7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29

数据分析实验报告

广东石油化工学院 数据分析(抽样调查)实验报告题目:多元统计分析在股票投资中的作用

摘要:随着我国股票市场的迅速发展和逐步完善,股票的投资特点和前景越来越受到投资者的追捧。理性的投资者,将会更加重视上市公司的经营业绩和股票的内在价值。但如何对股票的价值进行评价在实践中是个难点,对此进行探讨十分必要。本文首先运用图形分析法和移动平均法分析股票风险,再运用聚类分析对影响上市公司股票业绩的变量进行分类,运用因子分析模型得出决定股票业绩的公因子,并进行了比较。 关键词:图形分析法;移动平均法;聚类分析;因子分析;SAS;股票投资分析 一、研究目的及意义 随着我国股票市场的不断发展,股票投资已经成为我国投资者的主要投资途径,而且也将成为我国投资者的重要投资渠道。因此,他们必须重视上市公司的经营业绩,重视股票自身的品质,即重视投资对象的选择。面对众多股票及各个公司的财务数据,怎样才能客观、全面、准确的分析并选出绩优股和潜力股呢?本文选择30家上市公司作为研究对象,进行业绩评价。目的是对上市公司财务分析的基础上,探索各上市公司的投资价值,为投资者提供一定的决策指导和理论参考。 二、研究方法 多元统计分析方法中的图表分析法、移动平均法、聚类分析和因子分析在股票的综合评价中有着广泛的应用。本文采用的分析方法是图表分析法、移动平均法、因子分析和聚类分析。在对上市公司进行综合评价时,先用图表分析法和移动平均法分析其风险,接着用聚类分析进行分类,然后再利用因子分析法对多维变量进行降维,降维后的变量是原变量的线性组合,并能反映原变量绝大部分信息,使信息的损失最小,对原变量的综合解释能力强。该方法通过因子的方差贡献率来表示变量的作用,可避免在系统分析中对权重的主观判断,使权重的分配更合理,尽可能地减少重叠信息的不良影响,克服

统计软件(sas,spss)实验报告

《统计软件》期末课程总结报告 课程名称:统计软件 学期:2014-2015-1 学院:应用数学学院 专业: 姓名: 学号: 日期:2015.01.12

《统计软件》课程总结要求 给出3~5个本课程具体应用实例(包括知识点的掌握;不同统计方法的实际操作过程和结果解读;数据、程序、结果和解读)。 (50分) 答:(结果以SAS9.2中文版和SPSS 19中文版来实现) (一)描述性统计并绘出统计图:对原始数据归纳整理,用相应的统计指标如均值、方差等进行描述,此操作可以在SAS进行也可以在SPSS上运作。 例:期末成绩分析:某班级的同学期末成绩汇总如下: 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7 75.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4 请根据成绩分析出相应的结论。 (1)SAS程序: Libname whj"C:\Users\asus\Pictures\Documents\My SAS Files(32)\9.2"; data whj.chengji1; input x @@; cards; 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7 75.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4 run;

相关主题
文本预览
相关文档 最新文档