Stata学习笔记
- 格式:doc
- 大小:968.50 KB
- 文档页数:16
Stata笔记1.clear2.input3.savee5.sysuse6.d/des/desc/describe7.sum & return list & ereturn list8.reg9.clear results10.matrix11.type12.insheet13.rename14.infile15.browse16.xmlusepress18.xpose19.tsset20.outfile21.outsheet22.xmlsave23.变量Stata笔记1.clear清除内存数据。
数据都是存入内存来计算的,所以在输入大量数据之前,要先清除内存中的数据来释放空间。
删除的不光包括数据,还有变量,以及Data Editor 中的数据。
(就是删除所有数据,什么都不留)不影响已经存在硬盘上的数据。
(只删除内存中的所有数据)具体使用方法在下文中有具体例子。
手动输入数据。
可以分五次输入,也可以直接复制到Command 。
input x y x50 30 2020 30 5020 52 60end保存数据。
此项如果保存在C 盘可能因为权限不够而报错。
换到其他盘符即可。
save data_name[,replace]save 名称[,如果之前已经有这个名称,则替换(覆盖)。
]使用、导入(.dta )数据。
use data_name[,clear]use “file_path”[,clear]use url[,clear]use 名称[,清除。
]2.input3.savee导入软件安装时自带的数据时用。
sysuse auto,clear导入汽车数据。
显示数据变量信息。
(名称、类型等等)describe[,detail]sum price weight turn(以刚刚导入的汽车价格数据为例,price weight turn 为变量名称)显示一些相关信息。
(观察值个数、平均数、最大最小值等等)5.sysuse6.d/des/desc/describe7.sum & return list & ereturn listreturn listreturn 可以简写为ret返回更多信息(包括sum 没有显示的)ereturn listereturn 可以简写为eret返回更详细的信息。
以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据 sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助 summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助 summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sumSum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。
经济数据的特点与类型。
1、横截面数据:多个经济个体的变量在同一时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年山东省每年的GDP3、面板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP 小样本OLS(最小二乘法):单一方程线性回归最常见方法条件:解释变量与扰动项正交、扰动项无自相关、同方差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越高说明模型拟合程度越好。
单系数T检验:对回归方程扰动项的具体概率进行假设显著性水平进行检验F检验:整个回归方程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导入stata后可能会被视为字符串,因此对于日度数据,可以使用命令gen newvar=date(varname,YMD),将其转换为整数日期变量,其中YMD说明原始数据的格式为年月日,如果原始数据的格式为月日年则使用MDY;对于月度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌.drop keep:删除和保留.su:统计特征Pwcorr:变量之间相关系数Star(.05):5%显著性水平gen:产生g intc=log(tc):取自然对数. reg:OLS回归.Vce:协方差矩阵reg。
,noc表示在进行回归时不要常数项大样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异方差,则应使用稳健标准误最大似然估计法:如果回归方程存在非线性,则使用最大似然估计法(MLE )或非线性最小二乘法(NLS )三类在大样本下渐进等价的统计检验:Wald test LR (似然比检验) LM操作步骤如下:sysuse auto (调用数据集)Hist mpg ,normal (画变量mpg 的直方图,并与正态密度比较)D e n s i t y直方图显示,变量mpg 的分布于正态分布有一定差距。
1.一般检验假设系数为0,t比较大则拒绝假设,认为系数不为0.假设系数为0,P比较小则拒绝假设,认为系数不为0.假设方程不显著,F比较大则拒绝假设,认为方程显著。
2.小样本运用OLS进行估计的前提条件为:(1)线性假定。
即解释变量与被解释变量之间为线性关系。
这一前提可以通过将非线性转换为线性方程来解决。
(2)严格外生性。
即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。
(工具变量法解决)(3)不存在严格的多重共线性。
一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。
Stata可以自动剔除。
(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。
3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。
大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。
(4)E(XiXit)为非退化矩阵。
(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。
与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。
4.命令稳健标准差回归:reg y x1x2x3,robust回归系数与OLS一样,但标准差存在差异。
如果认为存在异方差,则使用稳健标准差。
使用稳健标准差可以对大样本进行检验。
只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用对单个系数进行检验:test lnq=1线性检验:testnl_b[lnpl]=_b[lnq]^25.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违背经典假设,即存在异方差的情况。
截面数据通常会出现异方差。
因此检验异方差可以:(1)看残差图,但只是直观,可能并不准确。
rvfplot(residual-versus-fitted plot)与拟合值的散点图rvpplot varname(residual-versus-predictor plot)与解释变量的散点图扰动项的方差随观测值而变动,表示可能存在异方差。
(完整版)Stata学习笔记和国贸理论总结Stata学习笔记⼀、认识数据(⼀)向stata中导⼊txt、csv格式的数据1.这两种数据可以⽤⽂本⽂档打开,新建记事本,然后将相应⽂档拖⼊记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能⽤Excel打开,不可⽤记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(⼆)⽹页数据⽹页上的表格只要能选中的,都能复制到excel中;⽹页数据的下载可以通过百度“国家数据”进⾏搜索、下载⼆、Do-file 和log⽂件打开stata后,第⼀步就要do-file,记录步骤和历史记录,⽅便⽇后查看。
Stata处理中保留的三种⽂件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导⼊StataStata不识别带有中⽂的变量,如果导⼊的数据第⼀⾏有中⽂就没法导⼊。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红⾊⽂本显⽰;被分析的数据,⿊⾊显⽰);第⼀⾏是英⽂变量名,选择“Treat first row as variable names”在导⼊新数据的时候,需要清空原有数据,clear命令。
导⼊空格分隔数据:复制——Stata中选择edit按钮或输⼊相应命令——右键选择paste special——并选择,确定;导⼊Excel 中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导⼊后统⼀使⽤此格式。
四、基本操作(⼏个命令)(⼀)use auto,clear 。
在清空原有数据的同时,导⼊新的auto数据。
(⼆)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使⽤list命令能使我们根据⾃⼰的需要选择数据(例如其与in/if语句的结合使⽤)。
Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式的数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中的edit按钮,右键选择paste special3.*.xls/*.xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔的数据常为csv数据。
(二)网页数据网页上的表格只要能选中的,都能复制到excel中;网页数据的下载可以通过百度“国家数据”进行搜索、下载二、Do-file 和log文件打开stata后,第一步就要do-file,记录步骤和历史记录,方便日后查看。
Stata处理中保留的三种文件:原始数据(*.dta),记录处理步骤(*.do),以及处理的历史记录(*.smcl)。
三、导入StataStata不识别带有中文的变量,如果导入的数据第一行有中文就没法导入。
但是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析的数据,黑色显示);第一行是英文变量名,选择“Treat first row as variable names”在导入新数据的时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*.dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据的同时,导入新的auto数据。
(二)browse 。
浏览数据。
(三)describe 和list。
查看数据,describe 和list 使用list命令能使我们根据自己的需要选择数据(例如其与in/if语句的结合使用)。
Stata学习笔记一、认识数据(一)向stata中导入txt、csv格式得数据1.这两种数据可以用文本文档打开,新建记事本,然后将相应文档拖入记事本即可打开数据,复制2.按下stata中得edit按钮,右键选择paste special3.*、xls/*、xlsx数据仅能用Excel打开,不可用记事本打开,打开后会出现乱码,也不要保存,否则就恢复不了。
逗号分隔得数据常为csv数据。
闡贄鲜饩狈酾阑。
(二)网页数据网页上得表格只要能选中得,都能复制到excel中;网页数据得下载可以通过百度“国家数据”进行搜索、下载恒險谅枫諷为誣。
二、Do-file 与log文件打开stata后,第一步就要do-file,记录步骤与历史记录,方便日后查瞧。
Stata处理中保留得三种文件:原始数据(*、dta),记录处理步骤(*、do),以及处理得历史记录(*、smcl)。
鍥糶斷轻浆辆钓。
三、导入StataStata不识别带有中文得变量,如果导入得数据第一行有中文就没法导入。
但就是对于列来说不会出现这个问题,不分析即可(Stata不分析字符串,红色文本显示;被分析得数据,黑色显示);第一行就是英文变量名,选择“Treat first row as variable names”馀紋锭箩谅绾纭。
在导入新数据得时候,需要清空原有数据,clear命令。
导入空格分隔数据:复制——Stata中选择edit按钮或输入相应命令——右键选择paste special——并选择,确定;导入Excel中数据,复制粘贴即可艰鍤悵铧恥郑顎。
;逗号分隔数据,选择paste special后点击comma,然后确定。
Stata数据格式为*、dta,导入后统一使用此格式。
四、基本操作(几个命令)(一)use auto,clear 。
在清空原有数据得同时,导入新得auto数据。
(二)browse 。
浏览数据。
(三)describe 与list。
查瞧数据,describe 与list 使用list命令能使我们根据自己得需要选择数据(例如其与in/if语句得结合使用)。
stata学习笔记(stata学习笔记)data managementCreate a new dataEdit / / variables in the data table and the creation of open dataInput x1 x2......Set OBS 10Gen x1=_nGen, x2=seq ()Egen, x3=seq (), B (5) t (5)Egen x4=fill (3434)Rename X1 pop / / variable VAR1 renamed popRename x2 placeMax C= (1,0.8\0.8,1)Drawnorm, x1, X2, means (1,10), SDS (0.3,2), corr (C), n (500)Gen x1=invnormal (uniform ())Gen roll=1+trunc (uniform () *6) randomly generates 1-6 randomnumbersGen x=exp (uniform ())Gen x=-3ln (uniform ())Gen x= (invnorm (uniform ())) ^2 chi square distributionGen, x=invttail (DF, uniform ()) t distributionGen, x=invFtail (DF1, df2, uniform ()) F distributionSample 10, countLabel variable pop population in 1000s, 1995 "/ / add tags for the variable popLabel define, sex_label 1, "male", 2 "female""Label values sex sex_label / / add value labels for the variable sexSave AAA / / keep the aaa.dta fileSave, replaceMerge dataUse a.datAppend using B.datUse a.datSort placeSave, replaceUse B.datSort placeMerge place using a.datReshape, long, grow, I (ID), J (year)Reshppe, wide, grow, I (ID), J (year)ClearCD f:\ statistics \stataUse AAASort pop / / as the pop variable orderingOrder place pop place pop / / variables were placed in the first, second positionDescrible / / description variable informationList / / show variable and variable valuesList, Sep (3) is shown separately in each of the 3 linesList, sepby (VaR) is shown as bounded by the VaR variableSummarize X / / display basic information variables, can add "d" to display detailed informationBy, VAR1, var2, sort:su, X (by can be used for Su, CI, centile, etc.)Tabstat, x, stats (mean, median, SD,, VaR, skewness, kurtosis, IQR, CV, semean, P2, etc)Collapse (sum), VAR1, var2 (SD), var3 (mean), newvar1=var4 (median), newvar2=var5A subset of variables (used by if and in)List, pop, place, sex, in, 1/50Sort popList pop place in -4/1 / / four observation shows that the value of pop maximumSummarize if pop<1000Summarize if place = = "China""Summarize, pop, place, sex, if, pop>100 & pop<1000Summarize place sex if pop<100 pop>1000 |Summarize place if pop<. / / the missing value is bigger than any numericalDrop, pop, if, place==, "China""KeepCreate and replace variables1, use, canada1, clearGenerate gap=flife-mlife"Label variable gap" "flife-mlife gap life""Format gap%4.1f / / fixed width of 4 decimal 1Other%4.1g (width 4, decimal part at least 1, can be displayed by decimal or scientific notation),%4.1eFormat only changes the display and does not affect the calculationUse, canada1, clearGenerate type=1Replace, type=2, if, place==, "Canada""Replace, type=3, if, place==, "Yukou""operator+ * / ^ mod (x, y)Use function(ABS)ACOS () //di ACOS (0.5) *180/_piSin, cos, asin, atan, atan2 () y/x's tangent functionSqrt, log (), ==ln (), log10, expThe smallest integer of ceil (x) >xThe maximum integer of floor (x) <xRound (x) four into fiveComb () lnfactorial ()distribution functionProbability of Ttail (DF, t) t>t0.05 (Dan Ce)Invttail (DF, P) calculates the T value based on the probability, and P is the right probabilityF (DF1, df2, f) left probability invF (N1, N2, P)Ftail (DF1, df2, f) the right probability invFtail (N1, N2, P)Chi2 (DF, x) left probabilityChi2tail (DF, x) right probabilityBinomial (n, x, P), n trials, x times and smaller probability1-binomial (n, X-1, P)Normal (z) standard normal distribution, left, cumulative probabilityDate function(1) assume that the numeric variable a is 20100312Gen str str_a=string (a,%10.0f) / / a conversion to character variableGene _ to date = DATE ("STR _, Ymd") / / 转换str _ a为日期变量, 返回值为当前日期 - 1960年1月1日的数值FORMAT DATE _% TD / / 转换date _ a的格式为日期12may2010假设有数值变量a格式为20100312101205STR str Gene _ = String ("% 16.0f")To _ = Clock Gene Double Date (STR _, "ymdhms")_% TC to date format假设有三个数值变量m、d、y分别表示月、日、年Gene _ date to mdy = (m, d)EgenEgen = seq (x t), B (3) (2) 111222111222Egen fill (x = 100,98) 100 98 94 96X = (0,2,7,0,2,7 egne fill)Rowmean egen x = (x1, X2, x3) 产生新变量, 其值为x1x2x3各行的均值Rowsum egen x = (x1, X2, x3) 产生新变量, 其值为x1x2x3各行的和Egen = STD X (a)Num 1: 15 for STD / egen xx = (AX)Xrank egen = RANK (X)10、其他函数Recode Group encodeX1 = recode gene (AGE, 24,28,32, ~) / / < < = 24 = 28Egen Group (x2 = x1)Strvar Gene ENCODE, 将字符变量转为数值变量 (numvar)Decode numvar, Gene (strvar)创建新的分类变量和定序变量假设有分类变量 (byte) type (1 - 3)Tab typeTab type, Gene (type) / / 产生type1 - 3三个哑变量2、将数值变量X1 = recode gene (AGE, 24,28,32, ~) / / 以 < < = 24 = 28~分组Egen Group (x2 = x1)变量下标Di x [4]Gene _ = X - X [N - 1] / / x与其前一个数值的差B gene _ = X - X [n + 1]从外部ascii文件导入数据以空格分隔, 字符串需带引号Str30 INFILE Place ulife tlife using aaa.raw / / 产生三个变量, place为30长度的字符变量COMPRESS / / 压缩place变量为最长的字符以tab或 "," 分隔Insheet Place ulife tlife using aaa.raw, comma (or tab).固定栏宽Infix Wood Year 1 - 4 5 - 8 9 - 10 aaa.raw using Water绘图Hist X, Bin (10) xlabel (0 (2) 10) ylabel (100 1000 xtick (100) (1) (2) 11) Norm fractionHist Start (50 x width (5) (FREQ by Group, total)Graph TwoWay Scatter and | | X Line and | | lfit X and X, mlabel (ID) msymbol (o / X)Graph TwoWay Scatter and x | | lfitci, STDFGraph Matrix X and ZGraph TwoWay line and year XGraph TwoWay line and yaxis (1 year) | yaxis | x Year (2)Graph TwoWay area and year XGraph box x and Z over (Group) yline (6.35).Graph pie x and Z, by (Group) foot (3, explode)Graph BAR (Mean) of X and Z, over (Group)Grapg DOT (median) x1 x2, over (Group) Marker (1, msymbol (OH) (2) Marker, msymbol (X))X Qnorm, GridPnorm X, Grid交叉表Tab B, SUM (X) meanTab B, All tabi B \ C D, All tab b] [FW = count, AllA B C 分布绘制abc的一维表 tab1A B C 建立所有可能的二维表 Tab2Sort by: a B C, Tab, All 以c的不同取值分别绘制a b的二维表Table Row col (col1, by 绘制多维表 row1)Sktest x swilk sfrancia正态性检验及数据变换Sktest x swilk sfrancia立方严重负偏态平方轻度负偏态平方根轻度正偏态对数正偏态平方根负倒数严重正偏态倒数非常严重正偏态平方倒数同上立方倒数同上X / / 产生以上8种变换后的正态性检验 LadderGladder X / / 针对ladder结果绘制直方图Bcskews newx = X / / 产生新变量newx, 是对x的变换方差齐性检验Sdtest X1 = x2Sdtest X1, by (Group)Robvar X, by levene检验, 返回值 (Group)W0: 均数 W50: 中位数 W10: 后的均数 trim10%方差分析单个样本TTEST (x = 10 signtest x = 10 二项分布ttest x1 = x2 signrank x1 = x2 wilcoxon符号检验ttest x city (group) ranksum x city (group) wilcoxon检验ttest x1 = x2, unpaired unequalbitest x = = pbitesti n c p单因素方差分析oneway x group, tabluate scheffe bonferroni sidak kwallis x city (group)多因素方差分析anova x a # # btest 1 (a = (test 2 (b = 3. bbonferonni: r (p) * c c: 比较次数, 组数x (组数 - 1) / 2scheffe: 1 - f (组数 - 1, 误差自由度, r (f) / (组数 - 1))regresspredict newvar 预测值predict newvar, stdp 预测值标准误anova x a b | aanova x a / id | a b a # banova x a b c.age相关分析 (town was:)cor x ypwcorr x y, bonferrior / sidakspearman x y, bonferrior / sidakpcorr y x1 - x3 去除其他x的影响后y与x的偏相关系数回归分析基本方法reg y x1 x2 x3, beta uncons预测值predict newvar, cooksd hat covratio dfits residuals rstudent rstandard stdp stdfhat > 2p / n 发现高杠杆值dfits > 2sqrt (p / n) 案例的自变量组合对回归直线的影响力cooksd > 4 / n 同上welsch > 3sqrt (p) 同上covratio: | r - 1 | > = 3p / nrvfplot, yline (0)假设检验reg x * ytest x1 x2 x1 和x2回归系数同时为0test x1 = x2虚拟变量loss region gene (reg) / / 产生reg1 - 4四个哑变量reg cmat reg2 / / reg2与其他3个地区的比较reg cmat reg1 reg2 reg3 reg4 = = xi: reg cmat i.region 此方法便于做交互分析char region [omit] 4 (与xi共同使用)xi: reg camt i.region逐步回归sw reg y x1 - x4, per (. 06) pe (0.05)sw reg y x1 x2 (x3, x4) lockterm1 per (. 06)面板数据iis regionten yearxtreg y x1 x2, rextmixed y 固定变量 | | school: 随机变量回归诊断estate ic 返回aic bic ll (null) ll (model) 值 (log likelihood 对数似然值)quietly reg y x1 - 85estimates of large fullquietly reg y x1 - x4lrtest fullovtest p < 0.05提示有二次、三次或四次方项目需要添加hettest p < 0.05提示方差不齐, 误差散点图不是随机分布的dwstat 一价自相关的durbin - watson检验kic 自变量共线性检查kic > 10 平均vif > 1 有问题宽容度 (vif的倒数) 表示该变量独立程度, 越大则越独立rvfplot 预测值与残差值的散点图rvpplot x 某一个自变量x与残差的散点图avplot x 去除其他变量影响后的x与y的线性关系, x轴上偏离的数值多为高杠杆值avplotsacprplot x, lowess 虚线在中间部分与直线不重和表示可能x与y 存在其他非线性关系,另外可以报告与x具有线性关系的其他自变量lvr2plot 注意拟合不好且具有较高杠杆作用的值可能是高杠杆值hat 较大值提示高杠杆值dfits cooksd covratio 提示对y影响较大的值logistic回归logit y x * logit y x *, orblogit n x * ylrocroctab y x, graphroccomp y x1 x2 比较y与x1的roc曲线和y与x2的是否相同rocgold y x x1 x2 比较y与x (金标准) 的roc曲线和y与x1的是否相同lsens, genprob (prob) gensens (sen) genspec (spec)lstatlfit, group (10) est gof, group (10)predict the phat, hat deviance ddeviance dbet dx2 dbetaclogit y x *, group (matchvar)ologit x * ymlogit y x *, b (1) mlogit y x *, rrrconstraint define 1 [3] x = 2 [2] xconstranit define 2 [4] x = 3 [2] xmlogit y x, c (1, 2) b (1)多元方差分析hotelling x *hotelling x *, city (group)manova x1 x2 x3 = g b g * b广义线性模型gaec y x1 x2家庭(高斯)链接(身份)* /正态分布线性回归GLM y x1 x2,家庭(二项式)链接(Logit)* /物流回归GLM y x1 x2,家庭(Poisson)链接(日志)lnoffset(暴露人年变量)泊松y x1 x2,曝光(暴露人年变量)poisgof [皮尔森]GLM y x1 x2,家庭(nbinomial)链接(日志)nbreg y x1 x2gnbreg y x1 x2,lnalpha(VAR)预测主成份分析PCA X点状图因子分析X因子*,PCF矿(0.5)主成份法X因子*,ML矿(0.5)最大似然法X因子*,IPF /迭代主因子法旋转方差极大旋转旋转,旋转斜交法生存分析认识时间,失败(结果)stsum,由(治疗)后缀树,由rmean(处理)STS列表,由(治疗)以损失为例的STS图STS图,通过gwood(治疗)STS测试组streg治疗组,诺尔公司(指数/ Weibull)预测new_var = = 1如果治疗,监测stcox治疗组,诺尔考克斯结果治疗组,死亡(结果)诺尔申银万国考克斯结果治疗组,死亡(结果)诺尔流行病队列研究IR案例的曝光时间(人年数)硝酸铵CS案例曝光[或数]CSI(A组)可使用结核病和精确(默认)计算RR可信区间,不能使用伍尔夫病例对照研究cc案例由(组)公开甲丙氨酯MCC的病例对照选择A B C D可使用精确(默认)、伍尔夫、麦田计算RR可信区间tabodds模型不如用物流、考克斯比例风险模型。
Stata学习笔记以下命令均采用小写字母Chapter 1 stata入门1.1打开数据use "D:\Stata9\auto.dta", clear 用use命令打开数据sysuse auto,clear auto 为系统数据sysuse为打开系统数据的命令1.2获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize,net 寻找网络帮助summarize为需要获取帮助对象Search summarize ,net 寻找网络帮助summarize为需要获取帮助对象显示结果Display 5+91.3描述统计(summarize 可简写成sum)Use atuo,clearSummarize price 描述price的观察值个数、平均值、标准差、最小值、最大值Sum weight summarize可简写成sum Sum weight price 同时完成上面两步1.4绘图Scatter price weight scatter 为绘制散点图命令Line price weight ,sort line 为绘制折线图命令,sort为排序,绘制折线图前需要先排序1.5生成新的数据(generate 可简写成gen)ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+1001.6控制结果输出显示List n1.7设置屏幕滚动Set more off 先设置此项则显示时,屏幕不停止Set more on 先设置此项则显示时,会使显示停止1.8清除内存中原有内容clear1.9设置文件存取路径(cd)Cd d:\stata d:\stata为路径1.10如果想知道当前路径下有哪些文件,可以用dir 命令来列示.dir1.11假设你想在D 盘的根目录下创建一个新的文件夹mydata 来存放数据文件,命令为mkdir。
Stata学习笔记1、横截⾯数据:多个经济个体的变量在同⼀时间点上的取值,如2012年中国各省的GDP2、时间数列数据:指的是某个经济个体的变量在不同时点上的取值,如1978-2012年⼭东省每年的GDP3、⾯板数据:多个经济个体的变量在不同时点上的取值,如1978-2012年中国各省的GDP⼩样本OLS(最⼩⼆乘法):单⼀⽅程线性回归最常见⽅法条件:解释变量与扰动项正交、扰动项⽆⾃相关、同⽅差。
拟合优度:衡量线性回归模型对样本数据的拟合程度(R2),越⾼说明模型拟合程度越好。
单系数T检验:对回归⽅程扰动项的具体概率进⾏假设显著性⽔平进⾏检验F检验:整个回归⽅程是否显著STATA操作简介:如果数据中包含1949-10-01或1949/10/01的时间变量,导⼊stata后可能会被视为字符串,因此对于⽇度数据,可以使⽤命令gen newvar=date(varname,YMD),将其转换为整数⽇期变量,其中YMD说明原始数据的格式为年⽉⽇,如果原始数据的格式为⽉⽇年则使⽤MDY;对于⽉度数据则gen newvar=monthly(varname,YM)。
.describe:数据的概貌 .drop keep:删除和保留.su:统计特征 Pwcorr:变量之间相关系数Star(.05):5%显著性⽔平 gen:产⽣g intc=log(tc):取⾃然对数. reg:OLS回归.Vce:协⽅差矩阵 reg。
,noc表⽰在进⾏回归时不要常数项⼤样本OLS:只要求解释变量与同期的扰动项正交即可Robust:稳健标准误,如果存在异⽅差,则应使⽤稳健标准误最⼤似然估计法:如果回归⽅程存在⾮线性,则使⽤最⼤似然估计法(MLE)或⾮线性最⼩⼆乘法(NLS)三类在⼤样本下渐进等价的统计检验:Wald test LR(似然⽐检验) LM操作步骤如下:sysuse auto(调⽤数据集)Hist mpg,normal(画变量mpg的直⽅图,并与正态密度⽐较)直⽅图显⽰,变量mpg的分布于正态分布有⼀定差距。