描述性统计量
- 格式:pptx
- 大小:379.88 KB
- 文档页数:46
基本描述性统计分析1.means 过程SAS系统的BASE模块提供了一些计算基础统计量的过程,如:means过程、univariate过程、corr过程、freq过程等。
这些过程可完成单变量或多变量的描述统计量计算。
SAS系统Means过程可以用来计算数据集中指定的各变量的一些基本描述性统计量的值(如观测值个数、均值、标准差、方差、偏度、峰度等)。
Means过程的一般格式为:proc means 输入数据集名选项列表;var 变量列表;class 变量列表;by 变量列表;freq 变量;weight 变量;id 变量列表;output out=输出数据集名统计量关键字=变量名列表>;run ;语句说明:V AR语句——指定要分析的变量名列;BY语句——按变量名列分组统计(数据集需事先按该变量名列排序);CLASS语句——按变量名列分组统计(数据集不需事先排序);FREQ语句——表明该变量为分析变量的频数;WEIGHT语句——表明分析变量在统计时要按该变量加权;ID语句——输出时加上该变量作为索引;OUTPUT语句——指定统计量输出的数据集及输出的内容(OUT指定统计量的输出数据集名,统计量关键字指定统计量在输出数据集中对应的新变量名).选项说明:PROC MEANS语句,选项列表中常用“选项options”有:①DATA=SAS数据集名:指明要分析的SAS数据集,缺省为最近建立的SAS数据集。
②MAXDEC=k:规定输出结果小数部分的最大位数,③ALPHA=value:设置置信区间的置信水平α。
④统计量关键词常用的有:统计量。
例:针对讲义4中生成的成绩数据集updatescore(程序4.2、4.4所生成),按班级和性别分组统计语文chinese、英语english、数学math、平均分avg的均值、方差、均值标准误差、99%置信区间上下界。
并将这四个变量的均值统计量值输入到数据集stat里面去。
一、什么是描述统计分析(Descriptive Analysis)概念:使用几个关键数据来描述整体的情况描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。
描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。
Excel里的分析工具库里的数据分析可以实现描述性统计分析的功能。
描述性统计分析即是对数据源最初的认知,包括数据的集中趋势、分散程度以及频数分布等,了解了这些后才能去做进一步的分析。
二、常用指标均值、中位数、众数体现了数据的集中趋势。
极差、方差、标准差体现了数据的离散程度。
偏度、峰度体现了数据的分布形状。
1、均值。
均值容易受极值的影响,当数据集中出现极值时,所得到的的均值结果将会出现较大的偏差。
2、中位数:数据按照从小到大的顺序排列时,最中间的数据即为中位数。
当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。
中位数不受极值影响,因此对极值缺乏敏感性。
3、众数:数据中出现次数最多的数字,即频数最大的数值。
众数可能不止一个,众数不能能用于数值型数据,还可用于非数值型数据,不受极值影响。
4、极差:=最大值-最小值,是描述数据分散程度的量,极差描述了数据的范围,但无法描述其分布状态。
且对异常值敏感,异常值的出现使得数据集的极差有很强的误导性。
5、四分位数:数据从小到大排列并分成四等份,处于三个分割点位置的数值,即为四分位数,四分位数分为上四分位数(数据从小到大排列排在第75%的数字,即最大的四分位数)、下四分位数(数据从小到大排列排在第25%位置的数字,即最小的四分位数)、中间的四分位数即为中位数。
四分位数可以很容易地识别异常值。
箱线图就是根据四分位数做的图。
Stata—描述性统计1.资料的基本信息①summarizesummarize:汇总所有变量的名称,个案数⽬,均值,标准差等,缩写为sumformat age %6.2f:指定age变量的统计量输出时的保留2位⼩数sum age, format:结合上个命令,对年龄变量进⾏描述的汇总保留2位⼩数sum age,detail:汇总更加详细的信息②codebookcodebook没有sum详细codebook:汇总所有变量codebook var:汇总var变量③inspectinspect age:可以画出简单的直⽅图2.基本信息的统计①tabulate和table命令tabulate places:对places变量进⾏列表统计,此命令可缩写为tabtable places:只有频数统计,不可缩写为tabtab places price:统计不同地⽅的价格的列表tab places price:统计不同places的price的列表②tabstat命令tabstat price places:显⽰2个变量的平均值tabstat price places, stats(mean med min max):显⽰2个变量的平均值,中位数等统计量tabstat price places, stat(mean med min max p25) col(s) format(%6.2f):均值等统计量在表格的⾏中,并且将结果⼩数点保持在2位。
此命令也可以写为tabstat price places, s(mean med min max) c(s) f(%6.2f)。
tabstat price places, s(mean med min max) c(s) f(%6.2f) by (gender):根据性别分类来陈述上述的统计量。
③结果呈现(1)将Stata中的结果选中,右击⿏标选择Copy table,直接贴⼊Excel或者Word。