SAS系统和数据分析用在DATA步的控制语句
- 格式:doc
- 大小:312.50 KB
- 文档页数:21
第十五课用在DATA步的控制语句
DA TA步的基本概念、流程和有关文件的操作语句我们前面已介绍。但我们所介绍的DA TA步中的SAS语句都是按语句出现的次序对每一个观测进行处理。有时需要对一些确定的观测跳过一些SAS处理语句,或者改变SAS语句的处理次序,就需要用到DA TA步中的控制语句,实现SAS程序的分支、转移和循环等改变处理次序的功能。
SAS系统提供的控制语句从实现功能的角度看主要有以下五大类:
●实现循环(DO语句)
●实现选择(SELECT语句)
●实现分支(IF语句)
●实现转移(GOTO语句)
●实现连接(LINK语句)
一、实现循环(DO语句)
循环程序中使用DO语句的主要形式有四种,如下所示:
●DO语句的程序格式之一:
IF条件表达式THEN DO ;
一些SAS语句;
END ;
●DO语句的程序格式之二:
DO 变量=开始值TO 终值BY 步长值;
一些SAS语句;
END ;
●DO语句的程序格式之三:
DO WHILE (条件表达式);
一些SAS语句;
END ;
●DO语句的程序格式之四:
DO UNTIL (条件表达式);
一些SAS语句;
END ;
DO WHILE 和DO UNTIL语句中的表达式是用括号括起来的。两种循环程序格式的区别
是,对条件表达式的判断位置。DO WHILE是在循环体的开头,而DO UNTIL是在循环体的结束,也就是说DO UNTIL至少执行循环体中一些SAS语句一次。
下面我们举例来说明DO语句的使用。
1.使用循环DO组产生随机数数据集
例如,我们需要产生一组均匀分布的随机数流的数据集,程序如下:
Data DoRanuni ;
seed = 20000101 ;
Do I = 1 to 10 by 2 ;
X1=ranuni(seed ) ;
X2=ranuni(seed ) ;
Output ;
End ;
Proc print data=DoRanuni;
Run ;
程序中的X1和X2都采用相同种子变量值SEED=20000101来产生的均匀分布的随机数流。在数据步DATA中使用DO循环语句时常常与OUTPUT语句配合来产生数据集。OUTPUT 语句作用是把当前的观测输出到正在被创建的数据集DoRanuni中。第一次顺序执行产生Seed、I、X1、X2四个变量,OUTPUT输出后,遇到END语句回到DO语句,产生I、X1、X2变量的第二次值,Seed变量因为没有遇到DA TA语句,继续保持原来值,DO-END循环结束后,DATA步也就结束了。均匀分布随机数是最基本也是最重要的随机数,其他分布的随机数都可以用均匀随机数经过变换得到。最常用的均匀分布随机函数是RANUNI(seed),这个函数是一个模为231-1,乘子为397204094的素数模发生器。Seed必须是小于模231-1任何数值的常数。相同的Seed值会产生相同的随机数序列数,但不同次调用随机函数所产生的值通常是不同的,因此计算机所产生的随机数是一种伪随机数。这个程序中的X1和X2都采用相同种子变量值SEED=20000101所产生的均匀分布的随机数流。SAS系统提供产生了11种常见分布随机数的函数,如表15.1所示,随机数是我们实验和研究问题的重要的输入数据。因此要能编写程序,产生符合要求分布的随机数数据集。
程序运行结果如图15.1所示。
图15.1 用循环DO组产生随机数数据集
表15.1 SAS系统的各种随机函数
随机数函数名作用
UNIFORM(seed)产生(0,1)区域均匀分布随机数,乘同余发生器RANUNI(seed) 产生(0,1)区域均匀分布随机数,素数模发生器NORMAL(seed) 产生标准正态分布随机数,利用中心极限定理近似公式RANNOR(seed) 产生标准正态分布随机数,利用变换抽样法
RANEXP(seed) 产生λ=1的指数分布随机数
RANGAM(seed,alpha) 产生伽马分布随机数,alpha>0,seed为任意数值
RANTRI(seed,h) 产生三角分布随机数,0 RANCAU(seed) 产生标准柯西分布随机数 RANBIN(seed,n,p) 产生二项分布随机数,n>0的整数,0 0,seed为任意数值RANTBL(seed,p1,…,p2,…pn)产生离散分布随机数,0≤p i≤1,seed为任意数值注:种子seed一般取0,或5位,6位,7位的奇整数。 对于均值为M,标准差为S的正态分布随机数,可由标准正态分布随机数的线性函数得到: X=M+S*NORMAL(seed) 2.在循环DO组中使用下标数组产生数据集 当我们需要用同一种方法来处理很多变量时,可以用数组语句定义这组变量为数组的一些元素,这个数组中的一些元素就可以在DATA步中较后面的SAS语句里以数组下标的形式被引用。数组ARRAY语句的基本格式为: Array 数组名{下标} <$><长度> <<数组元素> <(初始值)>>; 例如,以下的几种数组定义方式都是合法的: ●Array x{3} T1 T2 T3 ; ●Array x{5,3} T1-T15 ; ●Array x{2:6,2:4} T1-T15 ; ●Array x{3} T1 T2 T3 (100,99,98) ; ●Array x{*} T1 T2 T3 ; 第一种方式表示定义了一个一维名为X的数组,它有三个元素,对应的变量为T1,T2和T3。第二种方式表示定义了一个二维名为X的数组,它共有5×3=15个元素,对应的变量为T1到T15。第三种方式与第二种方式的区别是还规定每一维下标的下界和上界,通常不特别指明下标的下界从1开始。第四种方式给出了数组中相应元素的初始值T1=100,T2=99,T3=98。第五种方式下标用星号*来代替,表示SAS系统通过数组中的变量个数来确定下标。 下面我们通过一个在循环中使用数组变量来产生一个新的数据集的例子,来说明循环中使用数组变量的用法。假设要由一个老的数据集产生一个新的数据集,新的数据集要新增n 个变量,新增变量T i的值与原数据集的变量X j值和新增变量的位置值i有关。为简便起见,假设新增变量T i=∑X j×i。程序如下: Data DoArray ; Input X1-X3; Array a{4} T1-T4; Do i = 1 to 4 ; a{i}=(X1+X2+X3)*i ; End ; Card ; 1 2 3 4 5 6 Proc print data= DoArray; Run ; 程序运行结果如图15.2所示。