第四讲 SAS的描述统计(2)
- 格式:ppt
- 大小:318.50 KB
- 文档页数:34
SAS中的描述性统计过程(2012-08-01 18:07:01)▼分类:数据分析挖掘标签:杂谈SAS中的描述性统计过程描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary过程、univariate过程以及tabulate过程。
它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。
相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。
不同点:(1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量;(2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数;(3)summary过程执行后不会自动给出分析的结果,须引用output语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果;(4)univariate过程具有统计制图的功能,其它三个过程则没有;(5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。
统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。
大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。
chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。
SAS中的描述性统计过程(2012-08-01 18:07:01)标签:分类:SAS中的描述性统计过程描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary过程、univariate过程以及tabulate 过程。
它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。
相同点:他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等,均可应用by语句将样本分割为若干个更小的样本,以便分别进行分析。
不同点:(1)means过程、summary过程、univariate过程可以计算样本的偏度(skewness)和峰度(kurtosis),而tabulate过程不计算这些统计量;(2)univariate过程可以计算出样本的众数(mode),其它三个过程不计算众数;(3)summary过程执行后不会自动给出分析的结果,须引用output语句和print过程来显示分析结果,而其它三个过程则会自动显示分析的结果;(4)univariate过程具有统计制图的功能,其它三个过程则没有;(5)tabulate过程不产生输出资料文件(存储各种输出数据的文件),其它三个均产生输出资料文件。
统计制图的过程均可以实现对样本分布特征的图形表示,一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot 过程。
大家有没有发现前两个和后两个只有一个字母‘g’(代表graph)的差别,其实它们之间(只差一个字母g的过程之间)的统计描述功能是相同的,区别仅在于绘制出的图形的复杂和美观程度。
chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形,只能概括地反映出资料分布的大体形状,实际上这两个过程绘制的图形并不能称之为图形,因为他根本就没有涉及一般意义上图形的任何一种元素(如颜色、分辨率等)。
SAS中的描述性统计过程SAS是一种强大的统计分析软件,提供了丰富的描述性统计分析过程。
这些过程可以帮助统计分析师对数据进行总体的描述和了解。
下面将详细介绍SAS中的描述性统计过程及其应用。
一、数据准备在进行描述性统计之前,需要准备数据。
SAS可以导入各种格式的数据集,如SAS数据集、CSV文件、Excel文件等。
导入数据后,可以使用SAS的数据步骤对数据进行预处理,包括数据清洗、缺失值处理、变量转换等。
这样可以确保数据的质量和完整性。
二、数据探索1.频数统计SAS提供了PROCFREQ过程来计算变量的频数、百分比和交叉表。
可以使用该过程来了解变量的分布情况、缺失值情况和数据异常情况。
通过频数统计,可以发现数据集中的异常值或需要进一步处理的特殊情况。
2.描述性统计SAS中的PROCMEANS和PROCSUMMARY过程可计算变量的均值、标准差、最大值、最小值、中位数等描述性统计量。
这些统计量可以帮助我们了解数据的中心趋势、离散程度和分布情况。
此外,我们还可以使用PROCUNIVARIATE过程来绘制直方图、箱线图和正态概率图,以更直观地了解数据的分布情况。
3.相关分析SAS提供了PROCCORR过程来计算变量之间的相关系数。
通过相关分析,可以了解变量之间的线性关系强度和方向。
PROCCORR还可以生成相关矩阵和散点图,帮助我们观察变量之间的关系。
4.排序和排名SAS提供了PROCRANK过程来对变量进行排序和排名。
排序可以帮助我们找出变量中的异常值或极端值。
排名可以用于对变量进行等级分类,如将考试成绩按照从高到低进行排名。
5.缺失值处理SAS提供了多种方法来处理缺失值,如删除带有缺失值的观测、使用均值或中位数代替缺失值、使用插补方法进行缺失值估计等。
可以使用PROCMEANS、PROCUNIVARIATE和PROCMI过程对缺失值进行处理。
三、数据汇总和报告1.数据表汇总SAS中的PROCTABULATE和PROCREPORT过程可以生成数据表和报告。
第四讲:SAS Data步和SAS数据集编辑建立SAS数据集之后,需要对数据集进行必要的编辑。
如删除一些变量或观测、产生新变量等等。
利用SAS的DATA步,通过编程可以灵活的对SAS数据集进行编辑。
§4.1 SAS编程基础1、SAS程序SAS语句:由SAS关键词、SAS名字、特殊字符和运算符组成的字符串,并以分号(;)结尾。
它要求SAS系统执行一个操作或给SAS系统提供信息。
如:data score;proc means;set A;等都是SAS语句,其中的data 、proc、set等都是关键词,score、means、A等为SAS名字。
SAS关键词:除个别语句(赋值语句、累加语句、注释语句和空语句)外,SAS语句都是以关键词开始的,相当于一句话中的动词,告诉SAS要执行什么操作。
如data 关键词告诉SAS要产生一个数据集合。
SAS名字:可以理解为SAS关键词的作用对象。
SAS名字分很多种,如变量名、数据集合名、过程名等。
如语句data score;中的score就是数据集合名,它表明要产生一个临时数据集合score。
SAS名字的命名规则与Window命名规则类似。
例如,第一个字符必须是字母或者下划线、不能出现空格和一些特殊字符($、@、#等),也不能和系统已有的特殊名字重名。
SAS程序:按一定次序排列、并以run;语句结束的一系列语句,具有特定功能。
SAS程序分为两大类:DATA(数据)步和PROC(过程)步。
DATA可以产生一个或多个SAS数据集合,并可以对所创建的集合进行必要的运算和操作。
报表编写、文件管理、信息检索等都在DATA步中完成。
PROC步从SAS系统的过程库中调出过程并执行,执行的对象通常是一个SAS数据集合。
因此,PROC后面紧接的是过程名,然后是对数据集合的指定。
如PROC means data=class;就是对临时数据库(work)中的数据集合class进行描述统计分析。
第四讲:资料的统计描述(二):数值化描述SPSS的许多模块均可完成资料的数值化描述,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中:Frequencies过程的特色是产生频数表,不论对计量或计数资料都适用; Descriptive过程则进行一般性的统计描述,主要用于满足正态分布的计量资料,其特色为可以对原始数据进行标准正态性转换; Explore过程用于对数据概况不清时的探索性分析;Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验,常用的X2检验也在其中完成;Ratio过程用于对两个数值变量计算其相对比指标(其中涉及许多在医学统计学中不常用的相对比指标)。
Frequencies:频数表分布是统计描述中最常用的方法之一。
该命令不但可以产生频数表还可以绘制常用的条图、圆图以及直方图等描述统计图,同时可以计算相应的描述数据集中、离散趋势以及分布形态的统计量。
和Descriptive过程相比,它更加适用于分类变量。
研究者想研究某地110名20岁男大学生的身高(cm),请计算相应的集中、离散趋势以及分布形态的统计量指标;生成一个由11个组段组成的频数分布表;并且作适当的统计图。
根据我们的经验,相同性别同年龄人群的身高近似服从正态分布,因此可以考虑用算术平均数与标准差描述其集中与离散趋势,用偏态系数与峰态系数描述其分布形态,用直方图描述其频数分布。
打开“身高.sav”,点击Frequencies:将身高选入variables中,系统默认结果输出时显示频数分布表(Display frequency tables),但是该表和我们的要求相差甚远,必须对其进行调整,调整方法见后所述。
进而可以在statistics中选择统计量。
该对话框为选用统计量,其中Mode为众数,表述为在原始数据众出现频数最多的数值。
至于values are group midpoint表示当计算百分位数时,如果选择该项则频数表中的数值为组段的组中值;通常情况下由于我们输入的都是原始数据,所以在算百分位数时通常该项均不选。