stata初级入门描述性统计指标
- 格式:pptx
- 大小:472.72 KB
- 文档页数:21
零基础⼩⽩STATA数据分析实⽤常见命令整理STATA基础⼊门零基础实⽤命令整理第⼀章数据的读⼊与熟悉1.读⼊⽂件中的部分变量. use[变量] using [⽂件名]Eg . use age sex height weight using [⽂件名]2.读⼊⽂件中的部分观察量. use[⽂件名] in X/Y. use "I:\stata\chapter3.dta" in 601/1000软件只读⼊从第601个观察到第1000个观察之间的400个观察量3.描述、管理数据的基本命令命令功能. describe描述数据的基本情况:样本总量、变量总数、变量的格式等. list. list [变量名]-列出数据中所有变量的分布,从第⼀个样本到最后⼀个样本-列出选定变量的分布. list [变量名] in X/Y 列出数据中被选定的变量分布。
in限定数据的观察值范围。
⽐如,若只想查看第100个-200个观察值的分布,则将X/Y替换成100/200. order [变量名]按选定变量排序。
⽐如,样本的编号、年龄、性别、教育程度,……,等. aorder 将所有变量从 a-z 排序. label variable给变量贴上标签命令功能. sort [变量名] -将某个变量的数值进⾏排序。
⼀般情况下,排序的⽅式是从⼩到⼤-可同时排序多个变量-Stata将缺失值描述为最⼤数值,故排列在最后. sort [变量名] [in] 对某些变量的某个取值范围进⾏排序;没有指定的取值范围保持在原地⽅. gsort [+|-][变量名] -可从⼩到⼤和从⼤到⼩-若变量名前没有任何符号或加上+号,则按升序排列;若在变量名前加上-号,则按降序排列-变量可以是数值型、也可以是字符型. gsort [+|-][变量名] ,mfirst -mfirst指定将缺失值置于所有有效数值之前. gsort -age第⼆章变量的⽣成与处理1.离散和连续测量离散⽅式(discrete measure):由定性测量和定序测量组成;适⽤于低层次数据连续⽅式(continuous measure):由定距测量和定⽐测量组成。
Stata软件基本操作和数据分析入门第二讲统计描述入门赵耐青一调查某市1998年110名19岁男性青年的身高(cm)资料如下,计算均数、标准差、中位数、百分位数和频数表。
Stata数据结构(读者可以把数据直接粘贴到Stata的Edit窗口)在介绍统计分析命令之前,先介绍打开一个保存统计分析结果的文件操作:计算样本的均数、标准差、最大值和最小值命令1:su 变量名 (可以多个变量:即:su 变量名1 变量名2 …变量名m)命令2:su 变量名,d (可以多个变量:即:su 变量名1 变量名2 …变量名m,d) 本例命令su x本例命令. su x,d计算百分位数还可以用专用命令centile。
centile 变量名(可以多个变量),centile(要计算的百分位数) 例如计算P2.5,P97.5等centile 变量名,centile(2.5 97.5)本例计算P2.5,P97.5,P50,P25,P75。
本例命令. centile x,centile(2.5 25 50 75 97.5)制作频数表,组距为2,从164开始,gen f=int((x-164)/2)*2+164 其中int( )表示取整数tab f 频数汇总和频率计算作频数图命令 graph 变量,bin(#) norm其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以不要) 本例命令为graph x,bin(8) norm为了使坐标更清楚地在图上显示,可以输入下列命令graph x,bin(8) xlabel norm ylabel图形可以从Stata中复制到word中来,操作如下:计算几何均数可以用means 变量名(可以多个变量:即:means 变量1 …变量m) means x作Pie图描述构成比:每一类的频数用一个变量表示,命令:graph 各类频数变量名,pie第1地区血型构成比的Pie图的命令和图graph a b o ab if area==1,pie注意逻辑表达式中if area==1是两个等号。
Stata—描述性统计1.资料的基本信息①summarizesummarize:汇总所有变量的名称,个案数⽬,均值,标准差等,缩写为sumformat age %6.2f:指定age变量的统计量输出时的保留2位⼩数sum age, format:结合上个命令,对年龄变量进⾏描述的汇总保留2位⼩数sum age,detail:汇总更加详细的信息②codebookcodebook没有sum详细codebook:汇总所有变量codebook var:汇总var变量③inspectinspect age:可以画出简单的直⽅图2.基本信息的统计①tabulate和table命令tabulate places:对places变量进⾏列表统计,此命令可缩写为tabtable places:只有频数统计,不可缩写为tabtab places price:统计不同地⽅的价格的列表tab places price:统计不同places的price的列表②tabstat命令tabstat price places:显⽰2个变量的平均值tabstat price places, stats(mean med min max):显⽰2个变量的平均值,中位数等统计量tabstat price places, stat(mean med min max p25) col(s) format(%6.2f):均值等统计量在表格的⾏中,并且将结果⼩数点保持在2位。
此命令也可以写为tabstat price places, s(mean med min max) c(s) f(%6.2f)。
tabstat price places, s(mean med min max) c(s) f(%6.2f) by (gender):根据性别分类来陈述上述的统计量。
③结果呈现(1)将Stata中的结果选中,右击⿏标选择Copy table,直接贴⼊Excel或者Word。
stata描述性统计分析报告describedescribe命令可以描述数据文件的整体,包括观测总数,变量总数,生成日期,每个变量的存储类型(storagetype),标签(label)等。
list[varlist][if exp][in range]summarize[varlist][weight][if exp][in range][,detail]summarize可以提供varlist指定变量(可以不止一个)的如下统计量:Percentiles(分位数),四大最大的数和四个最小的数,Variance(方差),Std.Dev.(标准差),Skewness(偏度),Kurtosis(斜度)tabstattabstat varlist[weight][if exp][in range][,stats(statname[...])]tabstat提供[,stats(statname[...])]指定的统计量,可供选择的有mean(均值),count(非缺失观测值个数),sum(总和),max(最大值),min(最小值),range(最大值-最小值),sd (标准差),var(方差),cv(变易系数=标准差/均值),skewness(偏度),kurtosis(斜度),median(中位数),p1(1%分位数,类似地有p5, p10,p25,p50,p75,p95,p99),iqr(interquantile range=p75–p25)。
比如,想知道变量pop在整个样本的均值和方差,可以使用如下命令:tabstat pop,stats(mean var)anova命令anova y x1 x2anova做方差分析(analysis of variance),研究y的平均值在分类变量x1和x2不同取值之间的差异。
signrank命令signrank y1=y2signrank做Wilcoxon秩检验。
stata描述性统计代码Stata是一种强大的数据分析软件,它提供了丰富的统计分析功能和数据处理工具。
在Stata中进行描述性统计分析是非常常见的一种数据处理任务,下面是一些常用的Stata描述性统计代码: 1. 描述性统计分析summarize varname通过summarize命令可以计算变量varname的描述性统计量,包括平均数、标准差、最小值、最大值、中位数等。
2. 频数统计tabulate varname通过tabulate命令可以计算变量varname的频数统计,包括每个取值的频数和频率。
3. 分组统计summarize varname, by(groupvar)通过by子句可以按照groupvar变量进行分组统计,计算每个组别内变量varname的描述性统计量。
4. 交叉统计tabulate varname1 varname2通过tabulate命令可以计算两个变量varname1和varname2的交叉统计表,包括每个组合的频数和频率。
5. 分组交叉统计tabulate varname1 varname2, by(groupvar)通过by子句可以按照groupvar变量进行分组交叉统计,计算每个组别内两个变量varname1和varname2的交叉统计表。
6. 相关分析correlate varname1 varname2通过correlate命令可以计算两个变量varname1和varname2之间的相关系数和协方差。
7. 回归分析regress depvar indepvar1 indepvar2...通过regress命令可以进行回归分析,其中depvar为因变量,indepvar1、indepvar2等为自变量。
以上是一些常用的Stata描述性统计代码,可以帮助你快速地完成数据分析任务。
stata描述性统计命令
Stata的描述性统计命令有多种,它们可以帮助研究者更好地了解数
据集的总体特征。
summarize命令用于描述变量的汇总统计。
它可以提供数据的总体基
本统计信息,包括变量的极值,求和和平均值,标准偏差,偏度和峰度等。
tabstat命令可以提供许多汇总统计,如平均数,极差,中位数,众数,标准偏差,偏度和峰度等。
means命令用于计算一般变量的平均值,可以指定组分的变量(空格
分隔),以计算某个变量对应不同组分的平均值。
summarize, tabstat和means命令都可以设置if和in选项,以按
某个条件或某组约束变量汇总统计。
假设检验命令可以用于检验某个假设是否为真。
t-test可以用来检
验均值之间是否存在显著差异;ranksum可以用来检验两个样本是否具有
相同或不同的数据分布;correlate可以用来检验两个变量之间是否存在
线性关系。
graph box可以创建箱线图,以显示一组数据的总体分布。
histogram可以创建一种特定的直方图,可以清楚地显示数据的分布
状况。
Stata还提供了其他描述性统计命令,比如contrast,prtest,correlate等,用于更深入地了解数据集的总体特征。
第二章描述性统计命令与输出结果说明上述数据也可以用变量x表示血磷测定值,分组变量group=0表示患者组和group=1表示健康组(如:患者组中第一个数据为2.6,则x=2.6,group=0;又如:健康组中第三个数据为1.98,则x为1.98以及group为1),并假定这些数据已以STATA格式存入ex2a.dta文件中。
计算资料均数,标准差命令summarize,以述资料为例:. summarizeVariable Obs Mean Std. Dev. Min Maxx1 11 4.710909 1.302977 2.6 6.53x2 13 3.354615 1.304368 1.67 5.78Mean 均值;Std.Dev.标准差即:本例中急性克山病患者组的样本数为11,血磷测定值均数为4.711(mg%),相应的标准差为1.303,最小值为2.6以及最大值为6.53;健康组的样本量为13,血磷测定值均数为3.3546,相应的标准差为1.3044,最小值为1.67以及最大值为5.78。
计算资料均数,标准差,中位数,低四分位数和高四分位数的命令summarize 以及子命令detail,仍以述资料为例:. summarize x1 x2,detailx1Percentiles Smallest1% 2.6 2.65% 2.6 3.2410% 3.24 3.73 Obs 1125% 3.73 3.73 Sum of Wgt. 1150% 4.73 Mean 4.710909Largest Std. Dev. 1.30297775% 5.78 5.5890% 6.4 5.78 Variance 1.69774995% 6.53 6.4 Skewness -.081344699% 6.53 6.53 Kurtosis 1.809951x2Percentiles Smallest1% 1.67 1.675% 1.67 1.9810% 1.98 1.98 Obs 1325% 2.33 2.33 Sum of Wgt. 1350% 3.6 Mean 3.354615Largest Std. Dev. 1.30436875% 4.17 4.1790% 4.82 4.57 Variance 1.70137795% 5.78 4.82 Skewness .296394399% 5.78 5.78 Kurtosis 1.875392.结果:Percentiles 显示了从1%到99%的分位数的取值。
【stata代码模板】描述性统计_summarize_table_tablestat(1)summarize简单描述————————————————模板————————————————summarize 要描述的变量1 要描述的变量2… if var==value1,detail format ————————————————模板————————————————If用来筛选满足条件的数据。
detail意味着详细描述,比缺省状态下多出偏度、峰度、方差、9个百分位数、4个最大值、4个最小值。
Format则将显示格式设置为变量的显示格式,而不是默认的普通格式。
这三个选项可以不要。
比如,描述班级中,女生的语文和英语成绩tummarize Chinese English if gender==”女”(2)table列表统计——————————————模板——————————————table 行变量列变量,row c(统计量1 变量1 统计量2 变量2 …) ——————————————模板——————————————也可以只有行变量,没有列变量。
Row的作用是产生总计行total,可以缺省。
统计量1 变量1:如mean x就是x的均值。
常用的统计量有:Freq 频数Mean 均值Sd 标准差SumCount 非缺失值个数N 同countMaxMinMedianP# 第#百分位数Iqr 四分位数之差,即上四分位数-下四分位数比如,描述不同班级不同性别的语文平均成绩,即班级作为行变量,性别作为列变量:table class,gender,row c(mean)(3)tabstat多个变量进行描述———————————————————模板——————————————————tabstat 要描述的变量1 要描述的变量2 要描述的变量3 … if…,stat(统计量1 统计量2 …) by (分类变量)———————————————————模板——————————————————比如,按班级分组计算语文、英语和数学成绩的均值:tabstat Chinese English maths,stat(mean) by(class)。