Stata操作入门(中文)
- 格式:pdf
- 大小:9.11 MB
- 文档页数:58
stata17 中文操作手册Stata 17 中文操作手册Stata是一款广泛应用于数据分析和统计建模的统计软件,它能够帮助用户进行各种数据处理和分析任务。
本操作手册将带领您了解如何在Stata 17中进行常见的数据操作、统计分析和图表制作等操作。
请按照以下步骤进行操作:1. 数据导入和保存在Stata 17中,您可以使用"import"命令将外部数据文件导入Stata工作环境。
例如,您可以使用"import excel"命令导入Excel文件,使用"import delimited"命令导入CSV文件。
导入后,您可以使用"save"命令将数据保存为Stata格式的文件,以便以后使用。
2. 数据清理与转换在进行数据分析之前,您可能需要对数据进行清理和转换。
Stata提供了一系列命令来实现这些操作。
例如,使用"drop"命令可以删除数据集中的某些变量或观测值,使用"rename"命令可以重新命名变量,使用"generate"命令可以创建新的变量。
3. 描述性统计分析Stata 17提供了大量的命令和功能来进行描述性统计分析。
例如,使用"summarize"命令可以计算变量的均值、标准差、最大值和最小值等统计量,使用"tabulate"命令可以生成交叉表并计算频数和百分比等。
4. 统计推断在进行统计推断时,Stata 17提供了各种命令来进行假设检验和参数估计。
例如,使用"ttest"命令可以进行单样本或双样本均值差异的t 检验,使用"regress"命令可以进行线性回归分析。
5. 绘图功能Stata 17具备强大的绘图功能,能够绘制各种类型的图表以可视化数据。
例如,使用"histogram"命令可以绘制直方图,使用"scatter"命令可以绘制散点图,使用"line"命令可以绘制折线图。
STATA使用教程第一章:介绍 StataStata 是一款统计分析软件,广泛应用于经济学、社会科学、健康科学和医学研究等领域。
本章将介绍 Stata 软件的基本特点、适用范围和主要功能。
1.1 Stata 的特点Stata 是一款功能强大、易于使用的统计软件。
不同于其他统计软件,Stata 具有灵活性高、数据处理效率好的优点。
它支持多种数据文件格式,可以处理大规模的数据集,并且具有丰富的数据处理、统计分析和图形展示功能。
1.2 Stata 的适用范围Stata 软件适用于各类研究领域,涵盖了经济学、社会科学、医学、健康科学等多个领域。
它广泛应用于定量分析、回归分析、面板数据分析、时间序列分析等领域,可用于统计推断、数据可视化和模型建立等任务。
1.3 Stata 的主要功能Stata 软件提供了丰富的功能模块,包括数据导入导出、数据清洗、数据管理、描述性统计、推断统计、回归分析、面板数据分析、时间序列分析、图形展示等。
这些功能模块为用户提供了全面且灵活的数据分析工具。
第二章:Stata 数据处理数据处理是统计分析的前置工作,本章将介绍 Stata 软件的数据导入导出、数据清洗和数据管理等功能。
2.1 数据导入导出Stata 支持导入多种文件格式的数据,如文本文件、Excel 文件和 SAS 数据集等。
用户可以使用内置命令或者图形界面进行导入操作,导入后的数据可以存储为 Stata 数据文件(.dta 格式),方便后续的数据处理和分析。
2.2 数据清洗数据清洗是数据处理的重要环节,Stata 提供了多种数据清洗命令,如缺失值处理、异常值处理和数据类型转换等。
用户可以根据实际情况选择合适的数据清洗操作,确保数据的准确性和完整性。
2.3 数据管理数据管理是有效进行数据处理的关键,Stata 提供了许多数据管理命令,如数据排序、数据合并、数据分割和数据标记等。
这些命令可以帮助用户高效地对数据进行管理和组织,提高数据处理效率。
stata操作指南计量经济学stata操作(实验课)第一章stata基本知识1、stata窗口介绍2、基本操作(1)窗口锁定:Edit-preferences-general preferences-windowing-lock splitter (2)数据导入(3)打开文件:use E:\example.dta,clear(4)日期数据导入:gen newvar=date(varname, “ymd”)format newvar %td 年度数据gen newvar=monthly(varname, “ym”)format newvar %tm 月度数据gen newvar=quarterly(varname, “yq”)format newvar %tq 季度数据(5)变量标签Label variable tc ` “total output” ’(6)审视数据describelist x1 x2list x1 x2 in 1/5list x1 x2 if q>=1000drop if q>=1000keep if q>=1000(6)考察变量的统计特征summarize x1su x1 if q>=10000su q,detailsutabulate x1correlate x1 x2 x3 x4 x5 x6(7)画图histogram x1, width(1000) frequency kdensity x1scatter x1 x2twoway (scatter x1 x2) (lfit x1 x2) twoway (scatter x1 x2) (qfit x1 x2) (8)生成新变量gen lnx1=log(x1)gen q2=q^2gen lnx1lnx2=lnx1*lnx2gen larg=(x1>=10000)rename larg largeg large=(q>=6000)replace large=(q>=6000)drop ln*(8)计算功能display log(2)(9)线性回归分析regress y1 x1 x2 x3 x4vce #显示估计系数的协方差矩阵reg y1 x1 x2 x3 x4,noc #不要常数项reg y1 x1 x2 x3 x4 if q>=6000reg y1 x1 x2 x3 x4 if largereg y1 x1 x2 x3 x4 if large==0reg y1 x1 x2 x3 x4 if ~large predict yhatpredict e1,residualdisplay 1/_b[x1]test x1=1 # F检验,变量x1的系数等于1test (x1=1) (x2+x3+x4=1) # F联合假设检验test x1 x2 #系数显著性的联合检验testnl _b[x1]= _b[x2]^2(10)约束回归constraint def 1 x1+x2+x3=1cnsreg y1 x1 x2 x3 x4,c(1)cons def 2 x4=1cnsreg y1 x1 x2 x3 x4,c(1-2)(11)stata的日志File-log-begin-输入文件名log off 暂时关闭log on 恢复使用log close 彻底退出(12)stata命令库更新Update allhelp command第二章有关大样本ols的stata命令及实例(1)ols估计的稳健标准差reg y x1 x2 x3,robust(2)实例use example.dta,clearreg y1 x1 x2 x3 x4test x1=1reg y1 x1 x2 x3 x4,rtestnl _b[x1]=_b[x2]^2第三章最大似然估计法的stata命令及实例(1)最大似然估计help ml(2)LR检验lrtest #对面板数据中的异方差进行检验(3)正态分布检验sysuse auto #调用系统数据集auto.dtahist mpg,normalkdensity mpg,normalqnorm mpg*手工计算JB统计量sum mpg,detaildi (r(N)/6)*((r(skewness)^2)+[(1/4)*(r(kurtosis)-3)^2]) di chi2tail(自由度,上一步计算值)*下载非官方程序ssc install jb6jb6 mpg*正态分布的三个检验sktest mpgswilk mpgsfrancia mpg*取对数后再检验gen lnmpg=log(mpg)kdensity lnmpg, normaljb6 lnmpgsktest lnmpg第四章处理异方差的stata命令及实例(1)画残差图rvfplotrvfplot varname*例题use example.dta,clearreg y x1 x2 x3 x4rvfplot # 与拟合值的散点图rvfplot x1 # 画残差与解释变量的散点图(2)怀特检验estat imtest,white*下载非官方软件ssc install whitetst(3)BP检验estat hettest #默认设置为使用拟合值estat hettest,rhs #使用方程右边的解释变量estat hettest [varlist] #指定使用某些解释变量estat hettest,iidestat hettest,rhs iidestat hettest [varlist],iid(4)WLSreg y x1 x2 x3 x4 [aw=1/var]*例题quietly reg y x1 x2 x3 x4predict e1,resgen e2=e1^2gen lne2=log(e2)reg lne2 x2,nocpredict lne2fgen e2f=exp(lne2f)reg y x1 x2 x3 x4 [aw=1/e2f](5)stata命令的批处理(写程序)Window-do-file editor-new do-file#WLS for examplelog using E:\wls_example.smcl,replaceset more offuse E:\example.dta,clearreg y x1 x2 x3 x4predict e1,resgen e2=e1^2g lne2=log(e2)reg lne2 x2,nocpredict lne2fg e2f=exp(lne2f)*wls regressionreg y x1 x2 x3 x4 [aw=1/e2f]log closeexit第五章处理自相关的stata命令及实例(1)滞后算子/差分算子tsset yearl.l2.D.D2.LD.(2)画残差图scatter e1 l.e1ac e1pac e1(3)BG检验estat bgodfrey(默认p=1)estat bgodfrey,lags(p)estat bgodfrey,nomiss0(使用不添加0的BG检验)(4)Ljung-Box Q检验reg y x1 x2 x3 x4predict e1,residwntestq e1wntestq e1,lags(p)* wntestq指的是“white noise test Q”,因为白噪声没有自相关(5)DW检验做完OLS回归后,使用estat dwatson(6)HAC稳健标准差newey y x1 x2 x3 x4,lag(p)reg y x1 x2 x3 x4,cluster(varname)(7)处理一阶自相关的FGLSprais y x1 x2 x3 x4 (使用默认的PW估计方法)prais y x1 x2 x3 x4,corc (使用CO估计法)(8)实例use icecream.dta, cleartsset timegraph twoway connect consumption temp100 time, msymbol(circle) msymbol(triangle) reg consumption temp price incomepredict e1, resg e2=l.e1twoway (scatter e1 e2) (lfit e1 e2)ac e1pac e1estat bgodfreywntestq e1estat dwatsonnewey consumption temp price income, lag (3)prais consumption temp price income, corcprais consumption temp price income, nologreg consumption temp l.temp price incomeestat bgodfreyestat dwatson第六章模型设定与数据问题(1)解释变量的选择reg y x1 x2 x3estat ic*例题use icecream.dta, clearreg consumption temp price incomeestat icreg consumption temp l.temp price incomeestat ic(2)对函数形式的检验(reset检验)reg y x1 x2 x3estat ovtest (使用被解释变量的2、3、4次方作为非线性项)estat ovtest, rhs (使用解释变量的幂作为非线性项,ovtest-omitted variable test)*例题use nerlove.dta, clearreg lntc lnq lnpl lnpk lnpfestat ovtestg lnq2=lnq^2reg lntc lnq lnq2 lnpl lnpk lnpfestat ovtest(3)多重共线性estat vif*例题use nerlove.dta, clearreg lntc lnq lnpl lnpk lnpfestat vif(4)极端数据reg y x1 x2 x3predict lev, leverage (列出所有解释变量的lev值)gsort –levsum levlist lev in 1/3*例题use nerlove.dta, clearquietly reg lntc lnq lnpl lnpk lnpfpredict lev, leveragesum levgsort –levlist lev in 1/3(5)虚拟变量gen d=(year>=1978)tabulate province, generate (pr)reg y x1 x2 x3 pr2-pr30(6)经济结构变动的检验方法1:use consumption_china.dta, cleargraph twoway connect c y year, msymbol(circle) msymbol(triangle)reg c yreg c y if year<1992reg c y if year>=1992计算F统计量方法2:gen d=(year>1991)gen yd=y*dreg c y d ydtest d yd第七章工具变量法的stata命令及实例(1)2SLS的stata命令ivregress 2sls depvar [varlist1] (varlist2=instlist)如:ivregress 2sls y x1 (x2=z1 z2)ivregress 2sls y x1 (x2 x3=z1 z2 z3 z4) ,r firstestat firststage,all forcenonrobust (检验弱工具变量的命令)ivregress liml depvar [varlist 1] (varlist2=instlist)estat overid (过度识别检验的命令)*对解释变量内生性的检验(hausman test),缺点:不适合于异方差的情形reg y x1 x2estimates store olsivregress 2sls y x1 (x2=z1 z2)estimates store ivhausman iv ols, constant sigmamore*DWH检验estat endogenous*GMM的过度识别检验ivregress gmm y x1 (x2=z1 z2) (两步GMM)ivregress gmm y x1 (x2=z1 z2),igmm (迭代GMM)estat overid*使用异方差自相关稳健的标准差GMM命令ivregress gmm y x1 (x2=z1 z2), vce (hac nwest[#])(2)实例use grilic.dta,clearsumcorr iq sreg lw s expr tenure rns smsa,rreg lw s iq expr tenure rns smsa,rivregress 2sls lw s expr tenure rns smsa (iq=med kww mrt age),restat overidivregress 2sls lw s expr tenure rns smsa (iq=med kww),r first estat overidestat firststage, all forcenonrobust (检验工具变量与内生变量的相关性)ivregress liml lw s expr tenure rns smsa (iq=med kww),r *内生解释变量检验quietly reg lw s iq expr tenure rns smsaestimates store olsquietly ivregress 2sls lw s expr tenure rns smsa (iq=med kww) estimates store ivhausman iv ols, constant sigmamoreestat endogenous (存在异方差的情形)*存在异方差情形下,GMM比2sls更有效率ivregress gmm lw s expr tenure rns smsa (iq=med kww)estat overidivregress gmm lw s expr tenure rns smsa (iq=med kww),igmm*将各种估计方法的结果存储在一张表中quietly ivregress gmm lw s expr tenure rns smsa (iq=med kww)estimates store gmmquietly ivregress gmm lw s expr tenure rns smsa (iq=med kww),igmmestimates store igmmestimates table gmm igmm第八章短面板的stata命令及实例(1)面板数据的设定xtset panelvar timevarencode country,gen(cntry) (将字符型变量转化为数字型变量)xtdesxtsumxttab varnamextline varname,overlay*实例use traffic.dta,clearxtset state yearxtdesxtsum fatal beertax unrate state yearxtline fatal(2)混合回归reg y x1 x2 x3,vce(cluster id)如:reg fatal beertax unrate perinck,vce(cluster state)estimates store ols对比:reg fatal beertax unrate perinck(3)固定效应xtreg y x1 x2 x3,fe vce(cluster id)xi:reg y x1 x2 x3 i.id,vce(cluster id) (LSDV法)xtserial y x1 x2 x3,output (一阶差分法,同时报告面板一阶自相关)estimates store FD*双向固定效应模型tab year, gen (year)xtreg fatal beertax unrate perinck year2-year7, fe vce (cluster state)estimates store FE_TWtest year2 year3 year4 year5 year6 year7(4)随机效应xtreg y x1 x2 x3,re vce(cluster id) (随机效应FGLS)xtreg y x1 x2 x3,mle (随机效应MLE)xttest0 (在执行命令xtreg, re 后执行,进行LM检验)(5)组间估计量xtreg y x1 x2 x3,be(6)固定效应还是随机效应:hausman testxtreg y x1 x2 x3,feestimates store fextreg y x1 x2 x3,reestimates store rehausman fe re,constant sigmamore (若使用了vce(cluster id),则无法直接使用该命令,解决办法详见P163)estimates table ols fe_robust fe_tw re be, b se (将主要回归结果列表比较)第九章长面板与动态面板(1)仅解决组内自相关的FGLSxtpcse y x1 x2 x3 ,corr(ar1) (具有共同的自相关系数)xtpcse y x1 x2 x3 ,corr(psar1) (允许每个面板个体有自身的相关系数)例题:use mus08cigar.dta,cleartab state,gen(state)gen t=year-62reg lnc lnp lnpmin lny state2-state10 t,vce(cluster state)estimates store OLSxtpcse lnc lnp lnpmin lny state2-state10 t,corr(ar1) (考虑存在组内自相关,且各组回归系数相同)estimates store AR1xtpcse lnc lnp lnpmin lny state2-state10 t,corr(psar1) (考虑存在组内自相关,且各组回归系数不相同)estimates store PSAR1xtpcse lnc lnp lnpmin lny state2-state10 t, hetonly (仅考虑不同个体扰动性存在异方差,忽略自相关)estimates store HETONL Yestimates table OLS AR1 PSAR1 HETONL Y, b se(2)同时处理组内自相关与组间同期相关的FGLSxtgls y x1 x2 x3,panels (option/iid/het/cor) corr(option/ar1/psar1) igls注:执行上述xtpcse、xtgls命令时,如果没有个体虚拟变量,则为随机效应模型;如果加上个体虚拟变量,则为固定效应模型。
stata中⽂教程Stata介绍作为流⾏的计量经济学软件,Stata的功能⼗分地全⾯和强⼤。
可以毫不夸张地说,凡是成熟的计量经济学⽅法,在Stata中都可以找到相应的命令,⽽这些命令都有许多选项以适应不同的环境或满⾜不同的需要。
即使是最详细的Stata⼿册,也难免有遗珠之憾,更何况本⽂仅是⼀个粗浅的介绍。
掌握Stata最好的办法是在实践中学习:Stata 本⾝提供了⾮常强⼤的帮助系统,并且关于Stata的书籍和⽹络资源都不少。
本⽂拟根据如下顺序介绍Stata:1.界⾯;2.⽂件和数据;3.语法和命令;4.数据管理;5.描述统计;6.画图;7.回归和回归分析;8.常⽤命令。
第3和第4部分是最体现Stata灵活性的地⽅,也是应⽤Stata的基础。
第5和第6部分介绍如何⽤Stata完成基本的统计功能。
Stata的功能很多,⽐如回归,曲线拟合,⽣存分析,主成分分析,因⼦分析,聚类分析,时间序列分析等等。
但回归⽆疑是其中最重要的功能。
第7部分介绍如何⽤Stata作线性回归和Logistic回归。
本⽂第2和第3部分包含了作者的观点,难免有偏颇之处。
其余部分主要来⾃⽂献的归纳和总结。
限于⽔平有限,错误在所难免,敬请原谅。
1.界⾯图1 Stata界⾯Stata有4个窗⼝:1. Stata Command(右下)⽤于向Stata输⼊命令;2. Stata Results(右上)⽤于显⽰运⾏结果;3. Review(左上)记录使⽤过的命令;4. Variables(左下)显⽰当前memory中的所有变量。
窗⼝上⽅是⼯具栏,其上的按钮依次为(从左到右)Open, Save, Print Graph/Print Log, Log Start/Stop/Suspend, Bring Log to Front, Bring Graph to Front, Do-file Editor, Data Editor, Data Browser, Clear –more- condition, Break。
及数据处理目录第一章基础的使用有两种方式,即菜单驱动和命令驱动。
菜单驱动比较适合于初学者,容易入学,而命令驱动更有效率,适合于高级用户。
我们主要着眼于经验分析,因而重点介绍命令驱动模式。
图的基本界面关于的使用,可以参考手册,特别是[] ,尤其是第1章和第2章。
有关使用的资料非常多,其中官方的有手册,比如对于初学者,[]是有用的起点,最有用的手册可能是[] ’ 。
除此之外,还有很多的其他相关手册,相关介绍参见用户手册[] —。
() 和 () 是的官方期刊,里面介绍一些没有包括在当前安装里的例子和程序。
其中,是的前身,自年起,改为。
另外,的网站上有很多有用的信息软件本身也提供很多有用的帮助命令,其中使用最多的可能是命令,比如当你忘记命令的使用方法时,可以在命令窗口输入,从而调出的窗口,提供命令的使用方法。
有时,你如果不知道具体的命令,也可以使用命令获得帮助,比如想了解特征的函数命令,但有忘记了,可以使用调出所有的函数。
另外,还提供、、等搜索命令。
会在官方帮助文件、、例子、、等搜索关键词,但不会搜索网络。
会在网络(包括)上搜索可安装的程序。
会进行更广范围的搜索,包括本机和网络信息,并且关键词不必完整。
会在本机上搜索所有的帮助文件(扩展名为或的文件),包括官方命令和用户写的命令。
1.1命令格式所有命令基本具有下列模式[:] [] [ ][][][][ ][, ]方括号表示可选项,打字机体是直接输入,斜体需要用户替代,其中表示前缀,是相应的命令,是变量列表,是表达式,是文件名,表示适用于该命令的一个或多个可选项。
比如,简单统计命令的命令格式为[] [] [] [] [, ]下划线表示该命令也可缩写为。
以系统自带数据为例,看一下命令的使用。
. sysuse auto(1978 Automobile Data). summarizeVariable Obs Mean Std. Dev. Min Maxmake 0price 74 6165.257 2949.496 3291 15906mpg 74 21.2973 5.785503 12 41rep78 69 3.405797 .9899323 1 5headroom 74 2.993243 .8459948 1.5 5trunk 74 13.75676 4.277404 5 23weight 74 3019.459 777.1936 1760 4840length 74 187.9324 22.26634 142 233turn 74 39.64865 4.399354 31 51displacement 74 197.2973 91.83722 79 425gear_ratio 74 3.014865 .4562871 2.19 3.89foreign 74 .2972973 .4601885 0 1可以利用查看它的可选项,比如用可选项,还可以把变量的偏度和峰度显示出来。
Stata软件入门教程李昂然浙江大学社会学系Email: ********************版本:2020/02/051. 导论本教程将快速介绍Stata软件(版本16)的一些基本操作技巧和知识。
对于详细的Stata介绍和入门,小伙伴们可以参考Stata官方的英文手册以及教程所提供的学习资料。
跟其他大多数统计软件一样,Stata可以同时通过下拉菜单以及命令语句来操作。
初学者可以通过菜单选项来逐步熟悉Stata,但是命令语句的使用是Stata用户的最佳选择。
因此,本教程将着重介绍命令语句的使用。
对于中文用户来讲,在打开Stata之后,可以通过下拉菜单选项中的用户界面语言选择将中文设置为默认语言。
同时,也可以在命令窗口中输入set locale ui zh_CN来设置中文显示。
在选择完语言后,记得重新启动Stata。
需要提醒大家,虽然Stata用户界面可以显示中文,但是统计分析的结果仍然将以英文显示。
本教程中使用的案列数据源自中国家庭追踪调查(China Family Panel Studies)。
具体数据出自本人于2019年发表于Chinese Sociological Review上“Unfulfilled Promise of Educational Meritocracy? Academic Ability and China’s Urban-Rural Gap in Access to Higher Education”一文中使用的数据。
关于数据的具体问题,请联系本人。
同时,本教程提供相应的do file和数据文件给同学们下载,同学们可以根据do file复制本教程的全部内容。
下载地址为我个人网站:https://angranli.me/teaching/温馨提示:关于Stata操作的大多数疑问,都可以在官方手册上找到答案。
同时,在Stata中输入help [command]便可以查看关于命令使用的详细信息。
Stata操作⼊门(中⽂)第⼀讲Stata操作⼊门第⼀节概况Stata最初由美国计算机资源中⼼(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。
它操作灵活、简单、易学易⽤,是⼀个⾮常有特⾊的统计分析软件,现在已越来越受到⼈们的重视和欢迎,并且和SAS、SPSS⼀起,被称为新的三⼤权威统计软件。
Stata最为突出的特点是短⼩精悍、功能强⼤,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全⾯,⽐起1G以上⼤⼩的SAS系统也毫不逊⾊。
另外,由于Stata在分析时是将数据全部读⼊内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。
由于Stata的⽤户群始终定位于专业统计分析⼈员,因此他的操作⽅式也别具⼀格,在Windows席卷天下的时代,他⼀直坚持使⽤命令⾏/程序操作⽅式,拒不推出菜单操作系统。
但是,Stata的命令语句极为简洁明快,⽽且在统计分析命令的设置上⼜⾮常有条理,它将相同类型的统计模型均归在同⼀个命令族下,⽽不同命令族⼜可以使⽤相同功能的选项,这使得⽤户学习时极易上⼿。
更为令⼈叹服的是,Stata语句在简洁的同时⼜拥有着极⾼的灵活性,⽤户可以充分发挥⾃⼰的聪明才智,熟练应⽤各种技巧,真正做到随⼼所欲。
除了操作⽅式简洁外,Stata的⽤户接⼝在其他⽅⾯也做得⾮常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这⼀切都使得Stata成为⾮常适合于进⾏统计教学的统计软件。
Stata的另⼀个特点是他的许多⾼级统计模块均是编程⼈员⽤其宏语⾔写成的程序⽂件(ADO⽂件),这些⽂件可以⾃⾏修改、添加和下载。
⽤户可随时到Stata⽹站寻找并下载最新的升级⽂件。
事实上,Stata的这⼀特点使得他始终处于统计分析⽅法发展的最前沿,⽤户⼏乎总是能很快找到最新统计算法的Stata程序版本,⽽这也使得Stata⾃⾝成了⼏⼤统计软件中升级最多、最频繁的⼀个。
1 STATA入门Stata的界面主要是由四个窗口构成:结果窗口:位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。
窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。
命令窗口:位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。
命令回顾窗口:即review窗口,位于界面左上方,所有执行过的命令会依次在该窗口中列出,单击后命令即被自动拷贝到命令窗口中;如果需要重复执行,用鼠标双击相应的命令即可。
变量名窗口:位于界面左下方,列出当前数据及中的所有变量名称,。
除以上四个默认打开的窗口外,在Stata中还有数据编辑窗口、程序文件编辑窗口、帮助窗口、绘图窗口、Log窗口等,如果需要使用,可以用Window或Help菜单将其打开。
(4)点击右上角的X号退出。
建议安装路径为:D: /stata9。
一般不要安装在C盘下,更不要直接放在桌面上。
这是因为我们通常会将数据和程序存储于安装目录下,如果安装 c 盘,一旦计算机出现意外故障,很可能导致我们存储在上面的数据无法恢复。
1.3打开和查看数据打开和查看一个数据文件有三种方式,这三种方式分别是窗口式操作、命令式和程序式操作。
例:我们要打开STATA自带的示例数据文件auto.dta。
1.3.1 窗口执行方式(1)点左上角的第一个按扭,弹出一个对话框,选择STATA软件自带的示例数据文件auto.dta,双击即打开该文件。
(2)然后点击倒数第四个按扭图标,弹出一个数据库窗口,显示的是auto 数据文件包含的具体内容。
该数据集共有12列74行,每一列为一个变量,如第一列为汽车品牌,第二列为价格等;每一行为一辆汽车的相关信息,如第一行的汽车是AMC Concord,价格为4099美元。
(3)点右上角的X号,退出数据窗口。
1.3.2命令互动执行方式注意到执行上述操作后,结果窗口新出现了两行白色字体显示的如下内容:use "D:\Stata9\auto.dta", clearedit其中,前者为打开auto数据文件的命令,后者为查看该数据的命令。
第一讲Stata操作入门第一节概况Stata最初由美国计算机资源中心(Computer Resource Center)研制,现在为Stata公司的产品,其最新版本为7.0版。
它操作灵活、简单、易学易用,是一个非常有特色的统计分析软件,现在已越来越受到人们的重视和欢迎,并且和SAS、SPSS一起,被称为新的三大权威统计软件。
Stata最为突出的特点是短小精悍、功能强大,其最新的7.0版整个系统只有10M左右,但已经包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,比起1G以上大小的SAS系统也毫不逊色。
另外,由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此运算速度极快。
由于Stata的用户群始终定位于专业统计分析人员,因此他的操作方式也别具一格,在Windows席卷天下的时代,他一直坚持使用命令行/程序操作方式,拒不推出菜单操作系统。
但是,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。
更为令人叹服的是,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。
除了操作方式简洁外,Stata的用户接口在其他方面也做得非常简洁,数据格式简单,分析结果输出简洁明快,易于阅读,这一切都使得Stata成为非常适合于进行统计教学的统计软件。
Stata的另一个特点是他的许多高级统计模块均是编程人员用其宏语言写成的程序文件(ADO文件),这些文件可以自行修改、添加和下载。
用户可随时到Stata网站寻找并下载最新的升级文件。
事实上,Stata的这一特点使得他始终处于统计分析方法发展的最前沿,用户几乎总是能很快找到最新统计算法的Stata程序版本,而这也使得Stata自身成了几大统计软件中升级最多、最频繁的一个。
由于以上特点,Stata已经在科研、教育领域得到了广泛应用,WHO的研究人员现在也把Stata作为主要的统计分析工作软件。
第二节Stata操作入门一、Stata的界面图1即为Stata 7.0启动后的界面,除了Windows版本的软件都有的菜单栏、工具栏,状态栏等外,Stata的界面主要是由四个窗口构成,分述如下:1.结果窗口位于界面右上部,软件运行中的所有信息,如所执行的命令、执行结果和出错信息等均在这里列出。
窗口中会使用不同的颜色区分不同的文本,如白色表示命令,红色表示错误信息。
2.命令窗口位于结果窗口下方,相当于DOS软件中的命令行,此处用于键入需要执行的命令,回车后即开始执行,相应的结果则会在结果窗口中显示出来。
3.命令回顾窗口即review窗口,位于界面左上方,所有执行过的命令会依次在该窗口中列出,单击后命令即被自动拷贝到命令窗口中;如果需要重复执行,用鼠标双击相应的命令即可。
4.变量名窗口位于界面左下方,列出当前数据及中的所有变量名称。
除以上四个默认打开的窗口外,在Stata中还有数据编辑窗口、程序文件编辑窗口、帮助窗口、绘图窗口、Log窗口等,如果需要使用,可以用Window或Help菜单将其打开。
二、数据的录入与储存Stata为用户提供了简捷,但是非常完善的数据接口,熟悉它的用法是使用Stata的第一步,在Stata 中读入数据可以有三种方式:直接从键盘输入、打开已有数据文件和拷贝、粘贴方式交互数据。
(1)从键盘输入数据在Stata中可以使用命令行方式直接建立数据集,首先使用input命令制定相应的变量名称,然后一次录入数据,最后使用end语句表明数据录入结束。
例1 在某实验中得到如下数据,请在Stata中建立数据集。
观测数据:X 1 3 5 7 9 ,Y 2 4 6 8 10解:此处需要建立两个变量X、Y,分别录入相应数值,Stata中的操作如下,其中划线部分为操作者输入部分。
(2)用Stata的数据编辑工具②数据编辑Stata 数据编辑器界面:此时进入了数据全屏幕编辑状态。
图3在第一列输入数据后,Stata第一列自动命名为var1;在第二列输入数据后,第二列自动命名为var2……依次类推。
在输入数据后,双击纵格顶端的变量名栏(如:Var1或Var2处),可以更改变量名,并可以在label栏中注释变量名的含义,点击确认(如图4所示)。
仍沿用上例,双击观察值所在列顶端的变量名栏,更改变量名为x,并在label栏中注明“7岁男童身高/cm”。
数据输入完毕后,单击键确认所输数据,按关闭键即可退出编辑器。
数据输入完毕后,单击认所输数据,按关闭键即可退出编辑器。
(3)拷贝、粘贴方式交互数据Stata的数据编辑窗口是一个简单的电子表格,可以使用拷贝、粘贴方式直接和EXCEL等软件交互数据,在数据量不大时,这种方式操作极为方便。
例2 现在EXCEL中已录入了三个变量,共五条记录,格式见下图,请将数据读入Stata。
解:首先将EXCEL中的A1-C6全部18个单元格选中,选择菜单编辑è复制,将数据拷贝到剪贴板上;然后切换到Stata,选择菜单Window->Data Editor,打开数据编辑窗口;再选择Edit->Paste,相应的数据就会被直接粘贴如数据编辑窗口中,并且变量名、记录数、变量格式等均会被自动正确设置,见图6和图7。
(4)打开已有的数据文件Stata能够直接打开的数据文件只能是自身专用格式或者以符号分隔的纯文本格式,后者第一行可以是变量名,分述如下:①点击图标,然后选择路径和文件名,可以打开Stata专用格式的数据文件,并且扩展名为.dta。
②打开Dta数据文件:该格式文件是Stata的专用格式数据文件,也使用use命令即可打开,例如要打开,则命令为:数据文件“C:\data1.dta”. use c:\data1即扩展名可以省略,如果Stata中已经修改或者建立了数据集,则需要使用clear选项清除原有数据,命令为:. use c:\data1 , clear②读入文本格式数据:需要使用insheet命令实现,例如需要读入已建立好的文本格式数据文件“C:d ata1.txt”,则命令为:. insheet using c:\data1.txt该命令会自动识别第一行是否为变量名,以及变量列间的分隔符是tab、逗号还是其他字符。
如果Stata 中已经修改或者建立了数据集,则需要使用clear选项清除原有数据,命令为:. insheet using c:\data1.txt , clear(5)数据文件的保存为了方便以后重复使用,输入Stata的数据应存盘。
Stata实际上只能将数据存为自身专用的数据格式或者纯文本格式,分述如下:①点击图标,然后选择路径和文件名,点击。
②存为dta格式:可以直接使用文件菜单,也可以使用save命令操作,如欲将上面建立的数据文件存入“C:”中,文件名为Data1.dta,则命令为:. save c:\data1file c:\data1.dta saved该指令将在C盘根目录建立一个名为“data1.dta”的Stata数据文件,后缀dta可以在命令中省略,会被自动添加。
该文件只能在Stata中用use命令打开。
如所指定的文件已经存在,则该命令将给出如下信息:file c:\data1.dta already exists,告诉用户在该目标盘及子目录中已有相同的文件名存在。
如欲覆盖已有文件,则加选择项replace。
命令及结果如下:. save c:\data1.dta , replacefile c:\data1.dta saved3.存为文本格式:需要使用outsheet命令实现,该命令的基本格式如下。
outsheet [变量名列表] using 文件名[, nonames replace ]其中变量名列表如果省略,则将全部变量存入指定文件。
如欲将上面建立的数据文件存入文本文件中,则命令为:“C:d ata1.txt”. outsheet using c:\data1.txt此时建立的文件data1.txt第一行为变量名,第2-6行为变量值。
变量列间用Tab键分隔。
如果不希望在第一行存储变量名,则可以使用nonames选项。
如果文件已经存在,则需要使用replace选项。
第二讲统计描述入门例调查某市1998年110名19岁男性青年的身高/cm资料如下,计算均数、标准差、中位数、百分位数和频数表。
Stata数据结构(读者可以把数据直接粘贴到Stata的Edit窗口)在介绍统计分析命令之前,先介绍打开一个保存统计分析结果的文件操作:计算样本的均数、标准差、最大值和最小值命令1:su 变量名(可以多个变量:即:su 变量名1 变量名2 … 变量名m)命令2:su 变量名,d (可以多个变量:即:su 变量名 1 变量名 2 … 变量名m,d)本例命令su x本例命令. su x,d计算百分位数还可以用专用命令centile。
centile 变量名(可以多个变量),centile(要计算的百分位数) 例如计算P2.5,P97.5等centile 变量名,centile(2.5 97.5)本例计算P2.5,P97.5,P50,P25,P75。
本例命令. centile x,centile(2.5 25 50 75 97.5)制作频数表,组距为2,从164开始,gen f=int((x-164)/2)*2+164 其中int( )表示取整数tab f 频数汇总和频率计算作频数图命令graph 变量,bin(#) norm其中#表示频数图的组数;norm表示画一条相应的正态曲线(可以不要)本例命令为graph x,bin(8) norm为了使坐标更清楚地在图上显示,可以输入下列命令graph x,bin(8) xlabel norm ylabel图形可以从Stata中复制到word中来,操作如下:然后到Word中粘贴和编辑,便可以得到所需要的图形。
计算几何均数可以用means 变量名(可以多个变量:即:means 变量1 …变量m) means xArithmetic(算术均数) Geometric(几何均数) 调和均数(Harmonic)作Pie图描述构成比:每一类的频数用一个变量表示,命令:graph 各类频数变量名,pie例:下列有2个地区的血型频数分布数据,请用Pie描述:第1地区血型构成比的Pie图的命令和图graph a b o ab if area==1,pie注意逻辑表达式中if area==1是两个等号。
第2地区血型构成比的Pie图的命令和图graph a b o ab if area==2,pie两个地区合并后的血型构成比的Pie图的命令和图正态性检验. swilk 变量名 1 变量名 2 … 变量名m在上例中的110名19岁男性青年的身高资料正态性检验如下: . swilk x无效假设H0:资料服从正态分布备选假设H1:资料不服从正态分布设α=0.05 (样本比较大时,α取0.05,样本很小时,α取0.1)因此可以认为资料近似服从正态分布。