STATA简单命令
- 格式:docx
- 大小:27.13 KB
- 文档页数:19
stata的reg命令Stata的reg命令是Stata的一个随机数据分析函数,它可以用来拟合一元和多元的线性回归模型,以及估计平均差和平均效应,并计算相关系数和模型的拟合优度指标。
【Reg命令的基本形式】reg命令的一般形式是:reg y x1 x2 x3...。
其中,y是回归模型的自变量,x1、x2、x3分别代表多个变量,可以是因变量,也可以是虚拟变量。
例如:reg y x1 x2这段代码就可以用来拟合一元线性回归模型,其中y是因变量,x1和x2是自变量。
此外,reg命令可以用来拟合多元线性回归模型,只要将一元线性回归模型中的自变量替换为多元回归模型中的自变量即可。
例如:reg y x1 x2 x3 x4这段代码就可以用来拟合多元线性回归模型,其中y是因变量,x1、x2、x3、x4是自变量。
【reg命令的可选参数】reg命令还可以使用可选参数来扩展其功能,并增强拟合精度。
例如,当使用头模型或双重线性回归模型时,可以使用如下参数:1.N:可以显示样本的观察数。
2.fweight:可以建立基于样本的权重的回归模型。
3. robust:可以以健壮标准误差估计,并考虑到异方差问题。
4. if:可以将一部分样本不包括在模型中估计,从而提高拟合的精度。
【reg命令的估计结果】使用reg命令拟合线性回归模型后,将显示模型的拟合结果,包括:模型的回归系数、拟合指标(R2等)和相关系数。
模型的回归系数是模型中每个自变量对因变量的影响程度,它们可以用来判断自变量对因变量的重要程度。
拟合指标(R2等)可以反映模型的好坏,高于0.7的R2可以认为拟合是较好的,低于0.7的R2可以认为拟合是较差的。
相关系数可以反映自变量与因变量的相关程度,其值一般介于-1和1之间,接近1或-1时,表明自变量和因变量之间的相关性较强;接近0时,表明自变量和因变量之间的相关性较弱。
【结论】以上就是Stata的reg命令的基本内容介绍。
可以看出,reg命令可以用来拟合多种不同的线性回归模型,并使用可选参数来拟合更精确的模型,最后可以显示拟合结果,包括:模型的回归系数、拟合指标和相关系数。
用help命令熟悉以下命令的功能:cd:(Change directory)改变stata的工作路径用法:(cd changes the current working directory to the specified drive and directory.)●指定全路径:cd e:\●指定相对路径(如果当前路径已经指向e:\那么下面命令将达到和上面全路径命令同样效果):●cd .. 返回上一级目录dir:(Display filenames)显示当前目录下的文件信息用法:(list the names of files in the specified,the names of the commands come from names popular on Unix and Windows,filespec may be any valid Mac, Unix, or Windows file path or file)工作列表文件中指定的名称目录,命令的名称来自名字流行的Unix和Windows文件规范可以是任何有效的Mac,Unix或Windows文件路径或文件。
. dir, w. dir *.dta. dir \mydata\*.dtaList:(List values of variables)列出指定变量的取值用法:(st displays the values of variables. If no varlist is specified, the values of all the variables are displayed)列表显示变量的值。
如果没有指定varlist,所有的值显示的变量。
list [varlist] [if] [in] [, options]. list in 1/10. list mpg weight. list mpg weight in 1/20. list if mpg>20. list mpg weight if mpg>20. list mpg weight if mpg>20 in 1/10Describe:(Describe data in memory or in file)描述内存或者文件中的数据(样本数、变量类型等信息)用法:(describe produces a summary of the dataset in memory or of the data stored in a Stata-format dataset. For a compact listing of variable names, use describe, simple.)●描述内存数据:●描述文件数据:describe [varlist] using filename [, file_options]Use:(Load Stata dataset)调用数据,打开数据文件(以dta结尾)文件名+.dta 数据读入stata用法:(use loads into memory a Stata-format dataset previously saved by save. If filename is specified without an extension, .dta is assumed. If yourfilename contains embedded spaces, remember to enclose it in double quotes.)使用Stata-format加载到内存中保存数据集之前保存。
stata dw检验命令Stata DW检验命令是统计学中常用的一种方法,用来检验序列数据的平稳性。
DW检验的全称为Durbin-Watson检验,是由统计学家James Durbin和Geoffrey Watson于1951年提出的一种自相关性检验方法。
在时间序列数据分析中,如果变量之间存在自相关性,就会导致数据不满足独立同分布的假设,从而影响到最终的统计推断结果。
在Stata中,可以通过使用“dw”命令进行DW检验。
该命令会输出检验统计量的值,以及对应的临界值,从而帮助我们判断序列数据是否存在自相关性。
一般来说,如果DW统计量的值接近于2,表明序列数据不存在一阶自相关性;如果DW统计量的值远离2,就意味着序列数据存在自相关性。
为了进行DW检验,首先需要导入需要分析的数据集。
在Stata中,可以使用命令“use 文件路径\文件名”来导入数据。
接着,我们可以使用“dw 变量名”来对指定的变量进行DW检验。
Stata会输出DW 统计量的值,以及对应的上下临界值,我们可以通过比较DW统计量与临界值的大小来判断序列数据是否存在自相关性。
除了使用“dw”命令外,我们还可以使用“dwtest”命令进行DW检验。
这个命令会输出更加详细的检验结果,包括DW统计量的值、临界值、p值等信息,帮助我们做出更准确的判断。
需要注意的是,在进行DW检验之前,需要确保数据的时间序列是连续的,没有缺失值。
否则,DW检验的结果可能会出现偏差,影响到最终的分析结论。
总的来说,Stata中的DW检验命令是一种简单而有效的方法,用来检验时间序列数据的自相关性。
通过对DW统计量的计算和比较,我们可以快速判断序列数据是否存在自相关性,为进一步的数据分析提供参考依据。
希望本文对读者们能够有所帮助,谢谢阅读。
stata条件命令的使用方法stata条件命令的使用方法1. 引言在数据分析和统计学中,条件命令是一种非常重要的工具,可以根据特定的条件对数据进行筛选、变换和计算。
Stata作为一种流行的统计软件,也提供了丰富的条件命令来满足用户的需求。
本文将介绍stata 中常用的条件命令及其使用方法,以帮助读者更好地掌握这一功能。
2. if条件语句if条件语句是stata中最基本的条件命令之一。
它允许用户根据某个条件选择满足要求的观测值或进行相关的计算。
if条件语句的基本语法是:if condition,其中condition是一个逻辑表达式,用于判断观测值是否满足某个条件。
我们可以使用if条件语句筛选出某一特定年份的观测值,具体的命令如下:```use datafilekeep if year == 2019```上述命令将只保留年份等于2019的观测值,其他观测值将被删除。
3. in条件语句in条件语句是另一种常见的条件命令,它允许用户按照观测值的序号或标识来选择特定的数据。
in条件语句的基本语法是:in range,其中range是一个数字范围,用于指定观测值的序号。
我们可以使用in条件语句选择某个指定范围内的观测值,具体的命令如下:```use datafilekeep in 1/100```上述命令将只保留数据集中的前100个观测值,其他观测值将被删除。
4. by条件命令by条件命令是一种基于某个变量进行分组计算的命令。
它允许用户按照某个变量的取值对数据进行分组,并在每个分组内进行特定的计算。
by条件命令的基本语法是:by varlist: command,其中varlist是一个或多个变量名,用于指定分组变量,command是在每个分组内执行的计算命令。
我们可以使用by条件命令对数据进行分组计算,具体的命令如下:```use datafileby year: summarize price```上述命令将按照年份对数据进行分组,并计算每个年份的价格的均值、标准差等统计量。
目录STATA 常用命令 (2)一、基本运算 (2)二、数据处理 (3)三、数据导入导出 (3)四、描述性统计 (4)五、相关系数 (4)六、t检验 (4)七、非参数检验Wilcoxon (4)八、多元线性回归 (4)九、面板数据多元回归 (4)十、Logit回归 (5)十一、主成分分析与因子分析 (5)十二、PSM(倾向性匹配) (5)十三、内生性检验 (6)十四、DID (双重差分模型) (6)十五、作图 (7)十六、错误修正 (7)十七、应用技巧 (7)STATA 常用命令一、基本运算2.新变量产生1至n(行数)的变量:gen z=_n新变量赋值:gen y=log(x) if x>0gen y=seq(x)gen y=rmean(x)gen y=x+zDummy 变量:gen d=1 if x>1replace d=0 if x<=1自动生成年度(year)的Dummy变量:tabulate year, gen(Dyear)替换变量中的数值:replace x=0 if x<0更换变量名称:rename var1 x字符型变量转换为数值型:destring x, replace force(手动操作:选定变量=>右键=>数据)提取年度:gen ymd=date(date,”YMD”)format %td ymdgen year=year(ymd)提取字符:gen code=substr(x,1,1)3.变量处理一阶滞后变量:gen lag_x=L.x将所有变量的缺失值改为0:mvencode _all, mv(0) override去掉重复数值:duplicates drop x, force变量的标准化:egen x1=std(x)变量的缩尾处理:先安装:ssc install winsor, replacewinsor x , gen (x1) p(0.01)二、数据处理1.基本操作帮助:help ttestsearch ttest打开文件:use “ “查看:list x in 1/4展示数据集:describe (d)频率:tab x 或tab x y z命令窗口的执行命令:enter命令文件的执行命令:ctrl +D命令窗口换行:ctrl+enter清空内存(对新数据集开始检验时先清除原数据):clear点击历史窗口,可以将已执行的命令重新恢复为待执行的命令从小到大排列:sort x从大到小排列:gsort -x删除变量:drop x删除若干行:drop in 10/12删除前3行:drop in 1/3删除负数行:drop if x<0删除缺失值:drop if x==.删除不等于C的值:drop if x~=“C”保留变量x和y,删除其他变量:keep x y保留若干行,删除其他行:keep in 10/12保存:save “ 路径” , replace2.数据集合并横向合并:merge x y using “ “纵向合并:append using “ “按一个变量合并:merge 1:m code using "E:\Research\STATA\income.dta"drop _merge按两个变量合并:merge 1:1 code year using "E:\Research\STATA\income.dta"drop _merge3.三、数据导入导出1.Data=>data editor (改为数值型)=>将excel数据粘贴到data editor2.直接导入excel数据,并把第一行作为变量名称:import excel “路径”, firstrow clear3.导入stata 数据集:use “ ”4.导出: 安装asdoc: ssc intall asdoc, replace然后回归分析时:asdoc reg y x在结果窗口点击:Myfile.doc四、描述性统计1.summarize x2.su x3.su x if x>204.su 后不输入具体变量,则对全体变量进行描述性统计。
STATA面板数据模型操作命令讲解1. xtset:该命令用于设置面板数据模型的数据结构。
在使用面板数据模型命令之前,需要先使用xtset命令来指定数据集的面板结构。
例如,如果数据集中包含一列代表时间(年份)和一列代表个体(公司),则可以使用以下命令指定数据结构:2. xtreg:该命令用于估计面板数据模型的普通最小二乘回归系数。
以下是xtreg命令的一般形式:xtreg dependent_var independent_vars, options其中,dependent_var是依赖变量,independent_vars是自变量,options是可选参数。
通过指定options参数,可以对估计结果进行调整和控制,例如指定固定效应、随机效应或混合效应模型。
3. xtreg, fe:该命令用于估计固定效应模型。
固定效应模型是一种控制个体固定效应的面板数据模型。
使用以下命令可以估计固定效应模型:xtreg dependent_var independent_vars, fe通过指定fe参数,可以估计固定效应模型,并控制除个体固定效应以外的其他混杂效应。
4. xtreg, re:该命令用于估计随机效应模型。
随机效应模型是一种允许个体固定效应和随机效应的面板数据模型。
使用以下命令可以估计随机效应模型:xtreg dependent_var independent_vars, re通过指定re参数,可以估计随机效应模型,并考虑个体固定效应和随机效应对因变量的影响。
5. xtreg, mle:该命令用于估计混合效应模型。
混合效应模型是一种允许个体固定效应和随机效应的面板数据模型,并且可以对效应参数进行最大似然估计。
使用以下命令可以估计混合效应模型:xtreg dependent_var independent_vars, mle通过指定mle参数,可以估计混合效应模型,并通过最大似然估计法对参数进行估计。
stata中计算公式命令在Stata中,可以使用不同的命令来计算公式。
以下是一些常用的计算公式命令。
1. generate命令:用于计算新变量并将结果存储在数据集中。
下面是一些示例:- 用变量A和变量B的和创建一个新变量C:generate C = A + B- 计算变量X的平方并创建一个新变量Y:generate Y = X^2- 使用if条件计算变量A和变量B的和,并存储在变量C中:generate C = A + B if condition2. replace命令:用于替换现有变量的值。
下面是一些示例:- 将变量X的值替换为其平方:replace X = X^2- 使用if条件将变量A和变量B的和替换为变量C的值:replace C = A + B if condition3. egen命令:用于根据条件计算统计指标。
以下是一些示例:- 根据组变量G,计算变量X的平均值并存储在变量Y中:egen Y = mean(X), by(G)- 根据组变量G,计算变量X的总和并存储在变量Y中:egen Y = total(X), by(G)- 根据组变量G,计算变量X的标准差并存储在变量Y中:egen Y = sd(X), by(G)4. qui命令:用于抑制输出,并使用返回值来计算公式。
以下是一些示例:-计算变量A和变量B的和- 计算变量X的平方,并将结果存储在宏变量中:qui gen Y = X^2 locals square = Y5. matrix命令:用于进行矩阵计算。
以下是一些示例:- 创建一个2x2矩阵A,其中包含变量X和变量Y的值:matrix A = (X, Y \ X, Y)- 计算矩阵A的逆矩阵并存储在矩阵B中:matrix B = inv(A)- 计算矩阵A和矩阵B的乘积并存储在矩阵C中:matrix C = A * B 这些命令可以帮助你在Stata中计算公式。
根据你的具体需求,选择适当的命令来执行所需的计算操作。
Stata空间计量回归的简单命令cd C:\Users\10853\Desktop\Stata分析spshape2dta "C:\Users\10853\Desktop\中国省级行政区划_shp\省界_region.shp",replaceuse 省界_region.dta,clearreplace NAME=ustrfrom( NAME , "gb18030", 1)rename NAME provincelist province X Y in 1/10replace province=subinstr( province,"市","",.)merge 1:m province using "合并数据.dta"keep if _merge==3keep province year X Y cz income edu earning gdp cost studentsave "分析数据.dta", replace*反经济距离权重use "分析数据.dta",clearencode province,g(id)sort year idspwmatrix gecon X Y, wn(province) wtype(invecon) cart econvar(gdp) rowstand xport(WW,txt) replace //由于选择的是invecon(经济反距离矩阵)因此需要声明相应的经济变量duplicates drop id,forcespwmatrix gecon X Y, wn(province) wtype(invecon) cart econvar(gdp) rowstand xport(W,txt) replaceimport excel "W.xls", sheet("W") clearsave "W.dta",replaceimport excel "WW.xls", sheet("WW") clearsave "WW.dta",replaceuse "分析数据.dta",clearencode province,g(id)sort year idg lnedu=ln(edu)g lncz=ln(cz)g lnincome=ln(income)g lnearning=ln( earning)g lngdp=ln(gdp)g lncost=ln(cost)g lnstudent=ln( student)*全局莫兰指数spatwmat using WW.dta,name(WW) standardizespatgsa lnedu,weights(WW) moran //全局莫兰指数spatlsa lnedu,weights(WW) moran //局部莫兰指数spatlsa lnedu,weight(WW) moran graph (moran) symbol(n) //莫兰散点图*空间效应检验reg lnedu lncz lnincome lnearning lngdp lncost lnstudentspatdiag, weights(WW)*----面板空间自回归模型PSARM------------*xtset id yearspatwmat using W.dta,name(W) standardizexsmle lnedu lncz lnincome lnearning lngdp lncost lnstudent, wmat(W) fe type(ind) hausman nolog effects hausmanest sto PSARM1xsmle lnedu lncz lnincome lnearning lngdp lncost lnstudent, wmat(W) fe type(time) hausman nolog effects hausmanest sto PSARM2xsmle lnedu lncz lnincome lnearning lngdp lncost lnstudent, wmat(W) fe type(both) hausman nolog effects hausmanest sto PSARM3*LM检验:选SEM模型还是SLM模型?*SEM模型回归与检验spregxt lnedu lncz lnincome lnearning lngdp lncost lnstudent, nc(30) wmfile(W) model(sem) test mfx(lin) predict(Yh) resid(Ue)*LR检验:选SEM模型、SLM模型还是SLM模型?xsmle lnedu lncz lnincome lnearning lngdp lncost lnstudent,fe model(sdm) wmat(W) type(both) nolog effectsest sto sdmxsmle lnedu lncz lnincome lnearning lngdp lncost lnstudent,fe model(sar) wmat(W) type(both) nolog effectsest sto sarxsmle lnedu lncz lnincome lnearning lngdp lncost lnstudent,fe model(sem) emat(W) type(both) nolog effectsest sto semlrtest sdm sarlrtest sdm semxsmle lnedu lncz lnincome lnearning lngdp lncost lnstudent,fe model(sdm) wmat(W) type(both) nolog effectstest[Wx]lncz=[Wx]lnincome=[Wx]lnearning=[Wx]lngdp=[Wx]lncost=[Wx]lnstudent=0 //检验是否会退化为SLMtestnl ([Wx]lncz=-[Spatial]rho*[Main]lncz)([Wx]lnincome=-[Spatial]rho*[Main]lnincome)([Wx]lnearning=-[Spatial]rho*[Main]lnearning)([Wx]lngdp=-[Spatial]rho*[Main]lngdp)([Wx]lncost=-[Spatial]rho*[Main]lncost)([Wx]lnstudent=-[Spatial]rho*[Main]lnstude nt) //检验是否会退化为SEM*最终选择空间杜宾模型esttab sar sem sdm using table.doc,ar2(%8.4f) se(%8.4f) nogap brackets aic bic mtitles replace。
********* 面板数据计量分析与软件实现 *********说明:以下do文件相当一部分内容来自于中山大学连玉君STATA教程,感谢他的贡献。
本人做了一定的修改与筛选。
*----------面板数据模型* 1.静态面板模型:FE 和RE* 2.模型选择:FE vs POLS, RE vs POLS, FE vs RE (pols混合最小二乘估计) * 3.异方差、序列相关和截面相关检验* 4.动态面板模型(DID-GMM,SYS-GMM)* 5.面板随机前沿模型* 6.面板协整分析(FMOLS,DOLS)*** 说明:1-5均用STATA软件实现, 6用GAUSS软件实现。
* 生产效率分析(尤其指TFP):数据包络分析(DEA)与随机前沿分析(SFA)*** 说明:DEA由DEAP2.1软件实现,SFA由Frontier4.1实现,尤其后者,侧重于比较C-D与Translog生产函数,一步法与两步法的区别。
常应用于地区经济差异、FDI 溢出效应(Spillovers Effect)、工业行业效率状况等。
* 空间计量分析:SLM模型与SEM模型*说明:STATA与Matlab结合使用。
常应用于空间溢出效应(R&D)、财政分权、地方政府公共行为等。
* ---------------------------------* --------一、常用的数据处理与作图-----------* ---------------------------------* 指定面板格式xtset id year (id为截面名称,year为时间名称)xtdes /*数据特征*/xtsum logy h /*数据统计特征*/sum logy h /*数据统计特征*/*添加标签或更改变量名label var h "人力资本"rename h hum*排序sort id year /*是以STATA面板数据格式出现*/sort year id /*是以DEA格式出现*/*删除个别年份或省份drop if year<1992drop if id==2 /*注意用==*/*如何得到连续year或id编号(当完成上述操作时,year或id就不连续,为形成panel 格式,需要用egen命令)egen year_new=group(year)xtset id year_new**保留变量或保留观测值keep inv /*删除变量*/**或keep if year==2000**排序sort id year /*是以STATA面板数据格式出现sort year id /*是以DEA格式出现**长数据和宽数据的转换*长>>>宽数据reshape wide logy,i(id) j(year)*宽>>>长数据reshape logy,i(id) j(year)**追加数据(用于面板数据和时间序列)xtset id year*或者xtdestsappend,add(5) /表示在每个省份再追加5年,用于面板数据/tsset*或者tsdes.tsappend,add(8) /表示追加8年,用于时间序列/*方差分解,比如三个变量Y,X,Z都是面板格式的数据,且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov(Z,Y)bysort year:corr Y X Z,cov**生产虚拟变量*生成年份虚拟变量tab year,gen(yr)*生成省份虚拟变量tab id,gen(dum)**生成滞后项和差分项xtset id yeargen ylag=l.y /*产生一阶滞后项),同样可产生二阶滞后项*/gen ylag2=L2.ygen dy=D.y /*产生差分项*/*求出各省2000年以前的open inv的平均增长率collapse (mean) open inv if year<2000,by(id)变量排序,当变量太多,按规律排列。
-------------精选文档----------------- 可编辑 STATA的简单命令
Stata中最重要的命令莫过于help和search了。 help用于查找精确的命令,而search是模糊查找。 例如:help regress 又如:我们记不清regress命令的全名,只记得regress的前半部分reg, 那么可以输入search reg
用户获得信息最有效的另一个途径是使用Statalist在线论坛,该论坛提供Stata用户交流的一个良好的平台。要加入Statalist,我们可以给以下地址发个邮件: majordomo@hsphsun2.harvard.edu 邮件的内容为:subscribe Statalist
变量的命名: 1. 变量名可达32个字符。 2. 字符组成部分为A~Z、a~z、0~9与下划线“_”,这些字符以外的其他符号不可以出现在变量名中。 3. 变量名不能以数字开头。 4. 变量名区分大小写。 5. 倘若遵循以上原则依然无法正常命名变量,那么这个变量可能与Stata自身保留的供系统使用的变量重复了。 -------------精选文档----------------- 可编辑 创建数据文件的方法: 1. 手动输入。 2. 从excel等文件中复制粘贴到stata数据表中。 3. 运用stata软件导入。
查看数据的概貌: summarize x codebook x 如果上面两个命令后面不加内容,那么显示的结果是所有变量的概貌。
对数据进行排序的命令:sort 标准1 标准2 标准3 生成数据的命令:gen 1. 如果要得到一阶差分,可以用以下命令:gen Difference_invest(新变量的名称是任意的)=d.invest(d.是运算符号,不得改变;invest是变量名称) 2. 要想产生一个新的变量Lag_invest,也就是invest的一阶滞后,那么我们可以采用如下命令:gen Lag_invest = l.invest 3. 生成对数的命令:gen Ln_invest=ln(invest)
作散点图的命令:scatter 1. scatter x1 x2:scatter后的第一个变量是纵轴的变量,第二个变量是横轴的变量。 2. scatter x1 x2, connect(1):以直线的方式连接相邻的两个点。 3. scatter x1 x2, connect(1) msymbol(i):散点的显示方式为“看不见”。
相关性检验: -------------精选文档----------------- 可编辑 回归方程的斜率系数在一定程度上也是反映两个变量之间关系的密切程度,斜率系数的平方根就是相关系数。 1. pwcorr命令(用于计算Pearson相关系数),它的好处是尽可能使用两两变量中所有没有缺失的数据,而不像correlate只采用没有任何缺失数据的完整的观测值。 pwcorr [varlist], sig star(.1):star(.1)是为了对显著性超过0.1的相关系数打上星号 pwcorr [varlist], sig print (.1):print (.1)则是仅仅显示这些显著的相关系数
2. spearman命令(用于计算Spearman相关系数)。 截面数据的估计命令 如何创建一个截面数据文件?只需要从excle中拷贝相应的数据到stata中即可,不需要特别的命令说明它是截面数据。
截面数据的回归主要需要注意以下几点:多重共线性(当样本量较小时,例如小于100)和异方差。而且需要考察t统计值、R2(adj-R2)、F统计量。
1. 检验自变量的相关性。(第1步也可以暂时不做,等到回归结束以后再做) pwcorr [varlist], sig print(.05) 2. 对模型进行回归。 一个普通的回归命令:reg y x1 x2 x3 x4 x5, robust(截面数据一律加上robust) 倘若回归结果的经济学含义不合理(包括系数的正负号和显著性水平),而且前面的相关性检验中自变量的相关性十分高,那么有可能存在严重的多重共线性,为了精确起见,可以用vif来判断多重共线性是否严重(当vif的最大值大于10,同时各vif的平均值大于1时,表明多重共线性比较严重。使用vif命令时一定要在回归命令执行以后再用)。-------------精选文档----------------- 可编辑 如何处理多重共线性?剔除变量法、逐步回归法以及增加样本容量。 3. 运用剔除变量法进行回归。 4. 运用逐步回归法进行回归。 逐步回归命令: sw reg y x1 x2 x3 x4 x5, pr(.1):逐步回归,从最不显著的变量开始删除,直到所有变量在设定水平下(0.1)显著。 sw reg y x1 x2 x3 x4 x5, pr(.1) lockterm1:逐步回归,从最不显著的变量开始删除,直到所有变量在设定水平下(0.1)显著;而且加入lockterm项,为了保证第一项自变量不被删除。 sw reg y x1 x2 x3 (x4 x5), pr(.1):逐步回归,从最不显著的变量开始删除,直到所有变量在设定水平下(0.1)显著;而且加入()项,为了保证x4和x5要么同时出现,要么同时不出现。 -------------精选文档-----------------
可编辑 时间序列数据的估计命令
如何创建一个截面数据文件?先把数据转移到stata中,然后用tsset命令。 tsset time, yearly(或者weekly、monthly、quarterly) 此时,一定要保证表示时间的那一列数据(即年份)的名称为time。
时间序列数据的回归主要需要注意以下几点:多重共线性(当样本量较小时,例如小于100)和序列相关性。而且需要考察t统计值、R2(adj-R2)、F统计量、D.W.值。
首先用reg命令进行回归,例如:reg y x1 x2 x3 x4 x5,并考察D.W.值(使用estat dwatson这一命令),如果D.W.值严重远离2,那么要进行调整(调整方法如黄色底纹),直到调整到2附近,然后考察回归结果是否符合经济学含义,倘若不符合,那么要注意是否受到多重共线性的影响(通过相关系数和vif值来判断)。在处理多重共线性时,可以用类似于处理截面数据的方法(剔除变量法),同时还要看D.W.值。此外,还可以用差分法来处理多重共线性(此方法用得不多)。
检验DW值的命令:estat dwatson 用广义差分法考虑序列相关性的命令(即调整DW值的命令): reg y x1 x2 x3 x4 x5 L.y(后面还可以运用L.y L2.y)
用序列相关稳健标准误法考虑序列相关性的命令(即调整DW值的命令): reg y x1 x2 x3 x4 x5, robust
考虑多重共线性的方法除了以上截面数据中用到的方法以外,还可以用差分法,然后再看vif值。 -------------精选文档----------------- 可编辑 reg D.y D.x1 D.x2 D.x3 D.x4 D.x5
面板数据的估计命令 如何创建一个面板数据文件? 录入数据 xtset id year
面板数据的回归主要需要注意:多重共线性(当样本量较小时),异方差和序列相关性在很多研究中可以不必深究。而且需要考察t统计值、R2(adj-R2)、F统计量,选择固定效应(fixed effect)或随机效应(random effect)。
多重共线性的处理方法可以参照截面数据和时间序列数据的处理方法。 固定效应和随机效应的选择:(xtreg后面紧挨着的变量是被解释变量,然后接下来才是解释变量) xtreg 被解释变量 解释变量, fe est store fe xtreg 被解释变量 解释变量, re est store re hausman fe 原假设是随机效应,p值太小可以拒绝原假设,如果hausman检验的结果(Prob>chi2)小于0.1,那么选择固定效应;如果(Prob>chi2)大于0.1,或者chi2的值小于0,那么选择随机效应。 -------------精选文档----------------- 可编辑 其它命令
GMM方法: xtabond depvar indepvars
sargan 检验: estat sargan
自相关检验: estat abond
同时控制时间因素(year)和行业因素(industrycode),即自动加入虚拟变量的命令xi的用法: xi i.year i.industrycode
加入自动生成的虚拟变量,并且运用稳健标准误进行固定效应回归的命令: xtreg lnex lngdpcn lngdppartner educationjob iprrd lawhi i.year i.industrycode, fe robust
面板数据中2sls的命令(这可能是默认的命令,还可以根据具体情况更改): (1)xtivreg lnex lk tfp rd size fdi i.year i.id (finance=l.finance),此时怀疑解释变量finance是内生的,而且以finance的一阶滞后作为IV。注意:括号前面必须有空格!
(2)xtivreg lnex lk tfp rd size fdi i.year i.id (finance=l.finance l2.finance),此时怀疑解释变量finance是内生的,而且以finance的一阶滞后和二阶滞后作为IV。注意:括号前面必须有空格!