Stata上机实验笔记

格式：docx
大小：48.74 KB
文档页数：9

下载文档原格式

数据分析与Stata软件应用(微课版)上机实训参考答案

上机实训1.完成Stata 16.0的安装，并展示其工作界面。

Stata软件安装较为简单，按照安装向导一步一步进行即可。

用户选择接受Stata软件安装协议，并输入用户名等相关信息后，选择StataSE，并由用户指定安装路径后即可进行软件的初步安装。

软件初步安装完成后，需要创建桌面快捷方式，双击桌面快捷方式进行信息注册，并根据自己电脑操作系统的位数进行相应属性的修改后，生成新的桌面快捷方式，并删除原有桌面快捷方式，此时软件安装工作完成，可以双击Stata软件桌面快捷方式或在程序中寻找Stata软件，打开软件并进行数据分析工作。

上机实训参考答案1. 统计得到3个班级学生的基本信息，包括班级（class）、性别（sex）、年龄（age）、体重（height）和身高（weight），数据详情如表2-8所示。

表2-8 习题1数据详情将数据导入Stata软件，并形成名为xiti1.dta的数据文件（1）根据体重数据按照从小到大的顺序将观测个案排序。

（2）将身高大于165厘米的观测个案挑选出来。

（3）计算新变量体重身高比，其数值等于体重/身高。

上机实训参考答案1.某地区统计了1980~1982年3年间不同年龄组下的课外体育培训参与率，数据详情如表3-12所示。

其中年龄组分为5组，定义为1：14岁及以下；2：15~18岁；3：19~20岁；4：21~24岁；5：25岁以上。

数据包括3个变量，即年份（year）、课外体育培训参与率（rate）、年龄组（group）。

表3-12 实训1数据导入数据，保存为名为xiti2.dta的数据文件（1）分析不同年份的课外体育培训参与率和不同年龄组的课外体育培训参与率的平均水平。

（2）制作不同年份、不同年龄组下的交叉列联表，并就变量间的独立性进行分析。

（3）绘制不同年份、不同年龄组下课外体育培训参与率的条形图。

上机实训参考答案1.在某项医学试验中，对不同的群体测定尿铅含量，选定24个观测个案，将这24名观测个案分为男女两组，同时观测个案可分为3个年龄组。

实验报告模板作业

实验报告
一、实验目的和要求
学习stata软件的应用要求自带电脑和老师要求准备的课件
二、实验原理
stata的上机操作
三、主要仪器设备、试剂或材料
电脑、课件以及上课要用到的关于stata的文件
四、实验方法与步骤
输入list
输入list make
输入scatter wage educ
输入line wage educ
输入line wage educ
输入twoway area wage educ,sort
输入histogram wage
输入histogram lwage
输入histogram lwage if married==1
输入histogram lwage if married==0
五、实验数据记录、处理及结果分析
在stata的应用过程中数据都记录在软件中
六、讨论、心得
通过对stata软件的上机练习，对其有了初步的认识，对计量经济学的研究学习有更进一步的帮助。

(最新整理)stata上机实验第五讲——面板数据的处理..

201xtgls命令xtglsinvestmvaluekstockpanelsiidpooledolsxtglsinvestmvaluekstockpanelhet截面异方差xtglsinvestmvaluekstockcorrarl所有个体具有相同的自相关系数xtglsinvestmvaluekstockcorrpsarl每个个体有自己的自相关系数xtglsinvestmvaluekstockpanelcorr截面间相关且异方差xtglsinvestmvaluekstockpanelcorrcorrarl异方差序列相关和截面相关2xtpcse命令xtpcseinvestmvaluekstockols估计面板稳健性标准差xtpcseinvestmvaluekstockcorrarlpraiswinsten估计个体具有共同的自相关系数xtpcseinvestmvaluekstockcorrpsarl每个截面有自己的自相关系数xtpcseinvestmvaluekstockcorrar1hetonly不考虑截面相关
• corr(u_i, Xb) 个体效应与解释变量的相关系数，相关系数为0或者接近于0，可以使用随机效应模型；相关系数不为0，需要使用固定效应模型。u-i不表示残差，表示个体效应。
2021/7/26
19
模型选择
• 固定效应还是混合OLS？可以直接观测F值
• 随机效应还是混合OLS？先用随机效应回归，然后运行xttest0
• xtgls Panel-data models using GLS
• xtpcse OLS or Prais-Winsten models with panelcorrected standard errors
• xtrchh Hildreth-Houck random coefficients models

（完整版）Stata学习笔记和国贸理论总结

（完整版）Stata学习笔记和国贸理论总结Stata学习笔记⼀、认识数据（⼀）向stata中导⼊txt、csv格式的数据1．这两种数据可以⽤⽂本⽂档打开，新建记事本，然后将相应⽂档拖⼊记事本即可打开数据，复制2．按下stata中的edit按钮，右键选择paste special3．*.xls/*.xlsx数据仅能⽤Excel打开，不可⽤记事本打开，打开后会出现乱码，也不要保存，否则就恢复不了。

逗号分隔的数据常为csv数据。

（⼆）⽹页数据⽹页上的表格只要能选中的，都能复制到excel中；⽹页数据的下载可以通过百度“国家数据”进⾏搜索、下载⼆、Do-file 和log⽂件打开stata后，第⼀步就要do-file，记录步骤和历史记录，⽅便⽇后查看。

Stata处理中保留的三种⽂件：原始数据(*.dta)，记录处理步骤(*.do)，以及处理的历史记录(*.smcl)。

三、导⼊StataStata不识别带有中⽂的变量，如果导⼊的数据第⼀⾏有中⽂就没法导⼊。

但是对于列来说不会出现这个问题，不分析即可（Stata不分析字符串，红⾊⽂本显⽰；被分析的数据，⿊⾊显⽰）；第⼀⾏是英⽂变量名，选择“Treat first row as variable names”在导⼊新数据的时候，需要清空原有数据，clear命令。

导⼊空格分隔数据：复制——Stata中选择edit按钮或输⼊相应命令——右键选择paste special——并选择，确定；导⼊Excel 中数据，复制粘贴即可；逗号分隔数据，选择paste special后点击comma，然后确定。

Stata数据格式为*.dta，导⼊后统⼀使⽤此格式。

四、基本操作（⼏个命令）（⼀）use auto，clear 。

在清空原有数据的同时，导⼊新的auto数据。

（⼆）browse 。

浏览数据。

（三）describe 和list。

查看数据，describe 和list 使⽤list命令能使我们根据⾃⼰的需要选择数据（例如其与in/if语句的结合使⽤）。

stata笔记

1.一般检验假设系数为0，t比较大则拒绝假设，认为系数不为0.假设系数为0，P比较小则拒绝假设，认为系数不为0.假设方程不显着，F比较大则拒绝假设，认为方程显着。

2.小样本运用OLS进行估计的前提条件为：（1）线性假定。

即解释变量与被解释变量之间为线性关系。

这一前提可以通过将非线性转换为线性方程来解决。

（2）严格外生性。

即随机扰动项独立于所有解释变量：与解释变量之间所有时候都是正交关系，随机扰动项期望为0。

(工具变量法解决)（3）不存在严格的多重共线性。

一般在现实数据中不会出现，但是设置过多的虚拟变量时，可能会出现这种现象。

Stata可以自动剔除。

（4）扰动项为球型扰动项，即随即扰动项同方差，无自相关性。

3.大样本估计时，一般要求数据在30个以上就可以称为大样本了。

大样本的前提是（1）线性假定（2）渐进独立的平稳过程（3）前定解释变量，即解释变量与同期的扰动项正交。

（4）E（XiXit）为非退化矩阵。

（5）gt为鞅差分序列，且其协方差矩阵为非退化矩阵。

与小样本相比，其不需要严格的外生性和正太随机扰动项的要求。

4.命令稳健标准差回归：reg y x1 x2 x3, robust 回归系数与OLS一样，但标准差存在差异。

如果认为存在异方差，则使用稳健标准差。

使用稳健标准差可以对大样本进行检验。

只要样本容量足够大，在模型出现异方差的情况下，使用稳健标准差时参数估计、假设检验等均可正常进行，即可以很大程度上消除异方差带来的副作用对单个系数进行检验：test lnq=1线性检验：testnl _b[lnpl]=_b[lnq]^25.如果回归模型为非线性，不方便使用OLS,则可以采取最大似然估计法（MLE）,或者非线性最小二乘法（NLS）6.违背经典假设，即存在异方差的情况。

截面数据通常会出现异方差。

因此检验异方差可以：（1）看残差图，但只是直观，可能并不准确。

rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图扰动项的方差随观测值而变动，表示可能存在异方差。

stata上机练习总结

教席尧
阶
—(1)
验异方差
rvfplot 自量
predict e,residuals
朗
乘
异方差
验验方差
November 10, 2006 7 / 19
验 H0 :
)
White异方差异方差常
Econometrics Test
estat imtest,white 验
(
4、
法 predict r gen lagr=l.r
阶
OLS
立系系
regress y x1 x2 x3 F R2
方差分分判依据p 最显符
验进经验一显
显验除一量
进
t
教
席尧
(
)
Econometrics Test
November 10, 2006
6 / 19
3、立
阶
OLS
立系系判
regress y x1 x2 x3 F R2
November 10, 2006
5 / 19
2、
方法据换
据
阶
要
gen lnq=log(q)
replace year=2001 in 23
量 summarize
教
席尧
(
)
Econometrics Test
November 10, 2006
5 / 19
2、
方法据换
据
阶
要
gen lnq=log(q)
量 summarize 相系矩矩
pwcorr y x1 x2 x3,obs sig star(5)
线

stata学习笔记（stata学习笔记）

stata学习笔记（stata学习笔记）data managementCreate a new dataEdit / / variables in the data table and the creation of open dataInput x1 x2......Set OBS 10Gen x1=_nGen, x2=seq ()Egen, x3=seq (), B (5) t (5)Egen x4=fill (3434)Rename X1 pop / / variable VAR1 renamed popRename x2 placeMax C= (1,0.8\0.8,1)Drawnorm, x1, X2, means (1,10), SDS (0.3,2), corr (C), n (500)Gen x1=invnormal (uniform ())Gen roll=1+trunc (uniform () *6) randomly generates 1-6 randomnumbersGen x=exp (uniform ())Gen x=-3ln (uniform ())Gen x= (invnorm (uniform ())) ^2 chi square distributionGen, x=invttail (DF, uniform ()) t distributionGen, x=invFtail (DF1, df2, uniform ()) F distributionSample 10, countLabel variable pop population in 1000s, 1995 "/ / add tags for the variable popLabel define, sex_label 1, "male", 2 "female""Label values sex sex_label / / add value labels for the variable sexSave AAA / / keep the aaa.dta fileSave, replaceMerge dataUse a.datAppend using B.datUse a.datSort placeSave, replaceUse B.datSort placeMerge place using a.datReshape, long, grow, I (ID), J (year)Reshppe, wide, grow, I (ID), J (year)ClearCD f:\ statistics \stataUse AAASort pop / / as the pop variable orderingOrder place pop place pop / / variables were placed in the first, second positionDescrible / / description variable informationList / / show variable and variable valuesList, Sep (3) is shown separately in each of the 3 linesList, sepby (VaR) is shown as bounded by the VaR variableSummarize X / / display basic information variables, can add "d" to display detailed informationBy, VAR1, var2, sort:su, X (by can be used for Su, CI, centile, etc.)Tabstat, x, stats (mean, median, SD,, VaR, skewness, kurtosis, IQR, CV, semean, P2, etc)Collapse (sum), VAR1, var2 (SD), var3 (mean), newvar1=var4 (median), newvar2=var5A subset of variables (used by if and in)List, pop, place, sex, in, 1/50Sort popList pop place in -4/1 / / four observation shows that the value of pop maximumSummarize if pop<1000Summarize if place = = "China""Summarize, pop, place, sex, if, pop>100 & pop<1000Summarize place sex if pop<100 pop>1000 |Summarize place if pop<. / / the missing value is bigger than any numericalDrop, pop, if, place==, "China""KeepCreate and replace variables1, use, canada1, clearGenerate gap=flife-mlife"Label variable gap" "flife-mlife gap life""Format gap%4.1f / / fixed width of 4 decimal 1Other%4.1g (width 4, decimal part at least 1, can be displayed by decimal or scientific notation),%4.1eFormat only changes the display and does not affect the calculationUse, canada1, clearGenerate type=1Replace, type=2, if, place==, "Canada""Replace, type=3, if, place==, "Yukou""operator+ * / ^ mod (x, y)Use function(ABS)ACOS () //di ACOS (0.5) *180/_piSin, cos, asin, atan, atan2 () y/x's tangent functionSqrt, log (), ==ln (), log10, expThe smallest integer of ceil (x) >xThe maximum integer of floor (x) <xRound (x) four into fiveComb () lnfactorial ()distribution functionProbability of Ttail (DF, t) t>t0.05 (Dan Ce)Invttail (DF, P) calculates the T value based on the probability, and P is the right probabilityF (DF1, df2, f) left probability invF (N1, N2, P)Ftail (DF1, df2, f) the right probability invFtail (N1, N2, P)Chi2 (DF, x) left probabilityChi2tail (DF, x) right probabilityBinomial (n, x, P), n trials, x times and smaller probability1-binomial (n, X-1, P)Normal (z) standard normal distribution, left, cumulative probabilityDate function(1) assume that the numeric variable a is 20100312Gen str str_a=string (a,%10.0f) / / a conversion to character variableGene _ to date = DATE ("STR _, Ymd") / / 转换str _ a为日期变量, 返回值为当前日期 - 1960年1月1日的数值FORMAT DATE _% TD / / 转换date _ a的格式为日期12may2010假设有数值变量a格式为20100312101205STR str Gene _ = String ("% 16.0f")To _ = Clock Gene Double Date (STR _, "ymdhms")_% TC to date format假设有三个数值变量m、d、y分别表示月、日、年Gene _ date to mdy = (m, d)EgenEgen = seq (x t), B (3) (2) 111222111222Egen fill (x = 100,98) 100 98 94 96X = (0,2,7,0,2,7 egne fill)Rowmean egen x = (x1, X2, x3) 产生新变量, 其值为x1x2x3各行的均值Rowsum egen x = (x1, X2, x3) 产生新变量, 其值为x1x2x3各行的和Egen = STD X (a)Num 1: 15 for STD / egen xx = (AX)Xrank egen = RANK (X)10、其他函数Recode Group encodeX1 = recode gene (AGE, 24,28,32, ~) / / < < = 24 = 28Egen Group (x2 = x1)Strvar Gene ENCODE, 将字符变量转为数值变量 (numvar)Decode numvar, Gene (strvar)创建新的分类变量和定序变量假设有分类变量 (byte) type (1 - 3)Tab typeTab type, Gene (type) / / 产生type1 - 3三个哑变量2、将数值变量X1 = recode gene (AGE, 24,28,32, ~) / / 以 < < = 24 = 28～分组Egen Group (x2 = x1)变量下标Di x [4]Gene _ = X - X [N - 1] / / x与其前一个数值的差B gene _ = X - X [n + 1]从外部ascii文件导入数据以空格分隔, 字符串需带引号Str30 INFILE Place ulife tlife using aaa.raw / / 产生三个变量, place为30长度的字符变量COMPRESS / / 压缩place变量为最长的字符以tab或 "," 分隔Insheet Place ulife tlife using aaa.raw, comma (or tab).固定栏宽Infix Wood Year 1 - 4 5 - 8 9 - 10 aaa.raw using Water绘图Hist X, Bin (10) xlabel (0 (2) 10) ylabel (100 1000 xtick (100) (1) (2) 11) Norm fractionHist Start (50 x width (5) (FREQ by Group, total)Graph TwoWay Scatter and | | X Line and | | lfit X and X, mlabel (ID) msymbol (o / X)Graph TwoWay Scatter and x | | lfitci, STDFGraph Matrix X and ZGraph TwoWay line and year XGraph TwoWay line and yaxis (1 year) | yaxis | x Year (2)Graph TwoWay area and year XGraph box x and Z over (Group) yline (6.35).Graph pie x and Z, by (Group) foot (3, explode)Graph BAR (Mean) of X and Z, over (Group)Grapg DOT (median) x1 x2, over (Group) Marker (1, msymbol (OH) (2) Marker, msymbol (X))X Qnorm, GridPnorm X, Grid交叉表Tab B, SUM (X) meanTab B, All tabi B \ C D, All tab b] [FW = count, AllA B C 分布绘制abc的一维表 tab1A B C 建立所有可能的二维表 Tab2Sort by: a B C, Tab, All 以c的不同取值分别绘制a b的二维表Table Row col (col1, by 绘制多维表 row1)Sktest x swilk sfrancia正态性检验及数据变换Sktest x swilk sfrancia立方严重负偏态平方轻度负偏态平方根轻度正偏态对数正偏态平方根负倒数严重正偏态倒数非常严重正偏态平方倒数同上立方倒数同上X / / 产生以上8种变换后的正态性检验 LadderGladder X / / 针对ladder结果绘制直方图Bcskews newx = X / / 产生新变量newx, 是对x的变换方差齐性检验Sdtest X1 = x2Sdtest X1, by (Group)Robvar X, by levene检验, 返回值 (Group)W0: 均数 W50: 中位数 W10: 后的均数 trim10%方差分析单个样本TTEST (x = 10 signtest x = 10 二项分布ttest x1 = x2 signrank x1 = x2 wilcoxon符号检验ttest x city (group) ranksum x city (group) wilcoxon检验ttest x1 = x2, unpaired unequalbitest x = = pbitesti n c p单因素方差分析oneway x group, tabluate scheffe bonferroni sidak kwallis x city (group)多因素方差分析anova x a # # btest 1 (a = (test 2 (b = 3. bbonferonni: r (p) * c c: 比较次数, 组数x (组数 - 1) / 2scheffe: 1 - f (组数 - 1, 误差自由度, r (f) / (组数 - 1))regresspredict newvar 预测值predict newvar, stdp 预测值标准误anova x a b | aanova x a / id | a b a # banova x a b c.age相关分析 (town was:)cor x ypwcorr x y, bonferrior / sidakspearman x y, bonferrior / sidakpcorr y x1 - x3 去除其他x的影响后y与x的偏相关系数回归分析基本方法reg y x1 x2 x3, beta uncons预测值predict newvar, cooksd hat covratio dfits residuals rstudent rstandard stdp stdfhat > 2p / n 发现高杠杆值dfits > 2sqrt (p / n) 案例的自变量组合对回归直线的影响力cooksd > 4 / n 同上welsch > 3sqrt (p) 同上covratio: | r - 1 | > = 3p / nrvfplot, yline (0)假设检验reg x * ytest x1 x2 x1 和x2回归系数同时为0test x1 = x2虚拟变量loss region gene (reg) / / 产生reg1 - 4四个哑变量reg cmat reg2 / / reg2与其他3个地区的比较reg cmat reg1 reg2 reg3 reg4 = = xi: reg cmat i.region 此方法便于做交互分析char region [omit] 4 (与xi共同使用)xi: reg camt i.region逐步回归sw reg y x1 - x4, per (. 06) pe (0.05)sw reg y x1 x2 (x3, x4) lockterm1 per (. 06)面板数据iis regionten yearxtreg y x1 x2, rextmixed y 固定变量 | | school: 随机变量回归诊断estate ic 返回aic bic ll (null) ll (model) 值 (log likelihood 对数似然值)quietly reg y x1 - 85estimates of large fullquietly reg y x1 - x4lrtest fullovtest p < 0.05提示有二次、三次或四次方项目需要添加hettest p < 0.05提示方差不齐, 误差散点图不是随机分布的dwstat 一价自相关的durbin - watson检验kic 自变量共线性检查kic > 10 平均vif > 1 有问题宽容度 (vif的倒数) 表示该变量独立程度, 越大则越独立rvfplot 预测值与残差值的散点图rvpplot x 某一个自变量x与残差的散点图avplot x 去除其他变量影响后的x与y的线性关系, x轴上偏离的数值多为高杠杆值avplotsacprplot x, lowess 虚线在中间部分与直线不重和表示可能x与y 存在其他非线性关系,另外可以报告与x具有线性关系的其他自变量lvr2plot 注意拟合不好且具有较高杠杆作用的值可能是高杠杆值hat 较大值提示高杠杆值dfits cooksd covratio 提示对y影响较大的值logistic回归logit y x * logit y x *, orblogit n x * ylrocroctab y x, graphroccomp y x1 x2 比较y与x1的roc曲线和y与x2的是否相同rocgold y x x1 x2 比较y与x (金标准) 的roc曲线和y与x1的是否相同lsens, genprob (prob) gensens (sen) genspec (spec)lstatlfit, group (10) est gof, group (10)predict the phat, hat deviance ddeviance dbet dx2 dbetaclogit y x *, group (matchvar)ologit x * ymlogit y x *, b (1) mlogit y x *, rrrconstraint define 1 [3] x = 2 [2] xconstranit define 2 [4] x = 3 [2] xmlogit y x, c (1, 2) b (1)多元方差分析hotelling x *hotelling x *, city (group)manova x1 x2 x3 = g b g * b广义线性模型gaec y x1 x2家庭（高斯）链接（身份）* /正态分布线性回归GLM y x1 x2，家庭（二项式）链接（Logit）* /物流回归GLM y x1 x2，家庭（Poisson）链接（日志）lnoffset（暴露人年变量）泊松y x1 x2，曝光（暴露人年变量）poisgof [皮尔森]GLM y x1 x2，家庭（nbinomial）链接（日志）nbreg y x1 x2gnbreg y x1 x2，lnalpha（VAR）预测主成份分析PCA X点状图因子分析X因子*，PCF矿（0.5）主成份法X因子*，ML矿（0.5）最大似然法X因子*，IPF /迭代主因子法旋转方差极大旋转旋转，旋转斜交法生存分析认识时间，失败（结果）stsum，由（治疗）后缀树，由rmean（处理）STS列表，由（治疗）以损失为例的STS图STS图，通过gwood（治疗）STS测试组streg治疗组，诺尔公司（指数/ Weibull）预测new_var = = 1如果治疗，监测stcox治疗组，诺尔考克斯结果治疗组，死亡（结果）诺尔申银万国考克斯结果治疗组，死亡（结果）诺尔流行病队列研究IR案例的曝光时间（人年数）硝酸铵CS案例曝光[或数]CSI（A组）可使用结核病和精确（默认）计算RR可信区间，不能使用伍尔夫病例对照研究cc案例由（组）公开甲丙氨酯MCC的病例对照选择A B C D可使用精确（默认）、伍尔夫、麦田计算RR可信区间tabodds模型不如用物流、考克斯比例风险模型。

stata上机实验第八讲似不相关回归(SUR)

Stata上机实验
use hsb2,clear sureg (read write math science) (socst write
math),corr isure test [read]math=[socst]math
例2：用三家公司的公司投资额对公司市值、资本存量进行回归。（grunfeld2.dta）
Invest11011mvalue112kstock11 Invest22021mvalue222kstock22 Invest33031mvalue332kstock33
sureg (invest1 = mvalue1 kstock1) (invest2 = mvalue2 kstock2) (invest3 = mvalue3 kstock3)
这种迭代估计方法必须设定初始值和停止法则。初始值的选择对于迅速找到最优解非常重要。
例1：利用NLS方法估计非线性消费函数（数据文件：usmacro）
csinc u
nl (realcons = {a} + {b}*realgdp^{gamma=1}) 如果不给定gamma的初始条件将无法达到收
分位数回归
传统回归模型着重考察解释变量x对被解释变量y的条件期望的影响，实际上是“均值回归” 。但这种方法容易产生如下问题：1。无法了解y的整体分布； 2。结果受极端值影响严重。
如果能够估计出条件分布的若干重要的“条件分位数”（conditional quantiles），比如“中位数” （median）、“分位数”（lower quartile）、“分位数”（upper quartile），就能对条件分布有更全面的认识。
4。利用自助法重复100次计算[0.25，0.75]的分位数回归。

Stata笔记北京科技大学

list if new==14 (==为等于，=为赋值，可以点击more）
li(st) if new2>=14 & new2<24 (按q可以退出，即quit）
replace new3=rep78 (输错了替换)
drop new new2 new3删除变量
list if new>10000
list make if new<10000|new>2000（竖线表示或者，回车上面那个）
reg因变量（因变量：被解释变量；自变量：解释变量）
set linesize 140加宽显示窗格
reg price rep78 headroom trunk weight (std. err.=standard error,T值,confidence interval置信区间)
P与T反向关系，标准误=T值
. save bs
file bs.dta saved
. clear
. import excel "D:\Stata\BS_AD8BD666A41_(1)0417\newIS_8CBBC6F6EBB_(1)0417.xls", sheet("IS") firstrow
. duplicates drop _Stkcd y,force删除重复的
data
而master data指主数据库，using data从数据库
（替换变量名Stked改成A_Stked）repA_Stked Stked
（替换原数据is3）save is3，replace
clear清除合并
use bs3
duplicates report A_Stkcd year报告重复的变量（两个）

实验报告2

安徽财经大学统计与数学模型分析实验中心
《统计分析软件》实验报告
班级：学号：姓名：实验时间实验地点
实验名称：实验2 Stata软件的使用基础使用软件：Stata
实
验
目
的
通过本次实验的学习与上机操作，让同学们掌握几个常用的Stata设置；了解Stata命令语句的基本语法结构；熟悉应用Stata软件进行数据处理与统计分析的一般流程。
实
验
内
容
(一)复习上课内容
(二)在实验报告上完成以下练习
5.将屏幕滚动设置为满屏停止。
6.在D盘根目录下创建“data”文件夹，并将Stata的工作目录转到此文件夹。
7.利用数据集ex1.dta，通过分类操作语句（by）对男女同学的统计学成绩进行简单描述统计（命令：summarize）
8.利用数据集ex1.dta，通过条件语名（if）对统计2班男同学的统计学成绩进行简单描述统计（命令：summarize）。
实
验
结
果
分
析Leabharlann 教师评语成绩

stata上机实验第六讲

不同，其参数估计值并不直接可比。雨宫（Amemiya）提出：同一个模型的logit和 probit模型大概具有如下关系： Blogit 约等于 1.6*BProbit 但利用mfx计算的两者的边际效应应该大致相同。
一个综合例子
使用美国妇女就业数据集“womenwork.dta”，
估计决定就业的Probit与Logit模型。被解释变量为work=1，就业；work=0，不就业。解释变量为age（年龄）, married（婚否）, children（子女数）, education（教育年限）。
排序选择模型
根据GSS的调查数据，不同的家庭母亲与子女之间的关系也不同。根据调查显示，有的家庭母子（女）关系比较紧张，有的比较融洽。变量包括：warm=关系融洽度（0、1、2、 3）；educ=子女接受教育的程度；age=子女年龄；male=儿子；prst=职业威望；white= 白人；y89=89年调查结果。分析不同因素对母子（女）关系的融洽程度有何影响。
sysuse auto,clear truncreg price weight length gear_ratio, ll(10000) reg price weight length gear_ratio if price>=10000
截取回归
对于线性模型yi =x’B+εi，如果满足yi ≥ c或者
nbreg daysabs langarts male 命令结果中将提供一个LR 检验，原假设：不存在过度分散，应该使用泊松回归。此时alpha=0。备则假设： alpha<>0，不能使用泊松回归。
受限因变量模型
1。断尾回归
2。截取回归

stata上机实验操作

第六章第二题：1. 建立完成的教育年数（ED ）对到最近大学的距离（Dist ）的回归：. reg ed dist, robust斜率估计值是：-0.0732. reg ed dist bytest female black hispanic incomehi ownhome dadcoll cue80 stwmfg80,robustDist 对ED 的效应估计是：-0.0323. 系数下降50%，存在很大差异，（1）中回归存在遗漏变量偏差4. di e(r2_a)（可看到调整后的R2）第一问中=0.0074 调整的2R =0.00718796_cons 13.95586 .0378112 369.09 0.000 13.88172 14.02999dist -.0733727 .0134334 -5.46 0.000 -.0997101 -.0470353ed Coef. Std. Err. t P>|t| [95% Conf. Interval]RobustRoot MSE = 1.8074R-squared = 0.0074Prob > F = 0.0000F( 1, 3794) = 29.83Linear regression Number of obs = 3796. reg ed dist , robust2R第二问中=0.2788 2R = 0.27693235可以得到第二问中的拟合效果要优于第一问。

第二问中相似的原因：因为n 很大。

5. Dadcoll 父亲有没有念过大学：系数为正（0.6961324）衡量父亲念过大学的学生接受的教育年数平均比其父亲没有年过大学的学生多。

-.0517777 1）原因：这些参数在一定程度上构成了上大学的机会成本。

2）它们的系数估计值的符号应该如此。

当Stwmfg80增加时，放弃的工资增加，所以大学入学率降低了；因而Stwmfg80的系数对应为负。

stata笔记

1.一般检验假设系数为0，t比较大则拒绝假设，认为系数不为0.假设系数为0，P比较小则拒绝假设，认为系数不为0.假设方程不显著，F比较大则拒绝假设，认为方程显著。

2.小样本运用OLS进行估计的前提条件为：（1）线性假定。

即解释变量与被解释变量之间为线性关系。

这一前提可以通过将非线性转换为线性方程来解决。

（2）严格外生性。

即随机扰动项独立于所有解释变量：与解释变量之间所有时候都是正交关系，随机扰动项期望为0。

(工具变量法解决)（3）不存在严格的多重共线性。

一般在现实数据中不会出现，但是设置过多的虚拟变量时，可能会出现这种现象。

Stata可以自动剔除。

（4）扰动项为球型扰动项，即随即扰动项同方差，无自相关性。

3.大样本估计时，一般要求数据在30个以上就可以称为大样本了。

大样本的前提是（1）线性假定（2）渐进独立的平稳过程（3）前定解释变量，即解释变量与同期的扰动项正交。

（4）E（XiXit）为非退化矩阵。

（5）gt为鞅差分序列，且其协方差矩阵为非退化矩阵。

与小样本相比，其不需要严格的外生性和正太随机扰动项的要求。

4.命令稳健标准差回归：reg y x1 x2 x3, robust 回归系数与OLS一样，但标准差存在差异。

如果认为存在异方差，则使用稳健标准差。

使用稳健标准差可以对大样本进行检验。

截面数据通常会出现异方差。

因此检验异方差可以：（1）看残差图，但只是直观，可能并不准确。

Stata上机实验笔记

Stata上机实验Stata 统计软件包是目前世界上最著名的统计软件之一，国外将Stata与SAS、SPSS 一起被并称为三大权威软件。

它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点，几乎可以完成全部复杂的统计分析工作。

Stata有什么优势？1。

Stata 的命令语句极为简洁明快，易学易记。

2。

强大的帮助信息。

本地帮助 Help 命令名在线帮助Findit 命令名3。

始终处于计量经济学和统计学的最前沿。

许多Stata 程序员会针对计量经济学发展编写一些最新的程序（ADO 文件）， Stata提供了严谨、简练而灵活的程序语句，用户可以编写自己的命令和函数，同时可随时到Stata 网站寻找并下载最新的升级文件。

下载后可以直接使用，也可以自行修改、添加功能。

（例如当前流行的面板单位根和面板门限数据，均可以安装下载使用）不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。

以SE版为例，其最大变量个数为32767，最大字符长度为244字节，最大矩阵阶数为11000（即11000 11000）。

Stata默认值为：最大变量个数为5000，最大矩阵阶数为400，最大内存为10兆。

如果用户需要更多的内存或者更多的变量，可以在命令栏输入如下命令进行扩展。

set maxvar 5000 <最大变量个数5000个。

>set memory 50m <占内存50兆。

>最重要的有三类文件1。

文件名.dta 数据文件2。

文件名.do 命令文件3。

文件名.ado 程序文件如果不加改变，安装时Stata会将系统程序安装到：C：\Program file\stata10 中。

将所用系统自带的一些系统数据、应用程序、帮助文件安装到C：\Program file\stata10\ado\base 中将所有升级程序安装到：C：\Program file\stata10\ado\update 中1。

stata上机实验第四讲

误差项存在自相关：非主对角线上的元素不
为0 。
2 . n 1

.
2
.. ... ... ...

n2
n2 . 2

n 1
考察英国政府如何根据长期利率（r20）的变
化来调整短期利率（rs），数据集为 ukrates.dta （1）做如下回归：rst r 20t 1 t ，其中：
5,000
国产拟合整体拟合
1。仅截距发生变化。我们以国产还是进口作为虚
拟变量，为了熟悉虚拟变量的产生过程，这里不用 foreign，而是产生一个新的虚拟变量dummy（虚拟变量的生成要灵活运用gen语句和replace语句）。 gen dummy = 0 replace dummy = 1 if foreign==1 reg price dummy weight 和前面做的回归比较，dummy反映了进口车和国产车常数项即截距的差异，斜率基本没有变化。
理论分析：加入虚拟变量后，方程变为
price = b0+b1*dummy+b2*weight +u 国产车，即dummy=0时：
方程变为：price = b0+b2*weight+u 进口车，即dummy=1时：方程变为：price = (b0+b1)+b2*weight+u 结论：截距变化但斜率未变。
rst rst rst 1 Nhomakorabea归方程为：
r 20t 1 r 20t 1 r 20t 2
use ukrates,clear tsset month reg D.rs LD.r20

Stata学习笔记

Stata学习笔记以下命令均采⽤⼩写字母Chapter 1 stata⼊门打开数据use "D:\Stata9\", clear ⽤use命令打开数据sysuse auto，clear auto 为系统数据sysuse为打开系统数据的命令获取帮助Help summarize summarize为需要获取帮助对象可以改为其他的需要帮助的对象Findit summarize，net 寻找⽹络帮助summarize为需要获取帮助对象Search summarize ，net 寻找⽹络帮助summarize为需要获取帮助对象显⽰结果Display 5+9描述统计（summarize 可简写成sum）Use atuo，clearSummarize price 描述price的观察值个数、平均值、标准差、最⼩值、最⼤值Sum weight summarize可简写成sumSum weight price 同时完成上⾯两步绘图Scatter price weight scatter 为绘制散点图命令Line price weight ，sort line 为绘制折线图命令，sort为排序，绘制折线图前需要先排序⽣成新的数据（generate 可简写成gen）ClearSet obs 1000 设置观测值的组数Gen x=_n _n 为观察值得序号Gen y=x+100控制结果输出显⽰List n设置屏幕滚动Set more off 先设置此项则显⽰时，屏幕不停⽌Set more on 先设置此项则显⽰时，会使显⽰停⽌清除内存中原有内容clear设置⽂件存取路径（cd）Cd d:\stata d:\stata为路径如果想知道当前路径下有哪些⽂件，可以⽤dir 命令来列⽰.dir假设你想在D 盘的根⽬录下创建⼀个新的⽂件夹mydata 来存放数据⽂件，命令为mkdir。

mkdir d:\mydata错误提⽰List myvar上述命令试图显⽰变量myvar，但是结果窗⼝仅出现如下的显⽰variable myvar not foundr(111);红⾊信息表明，没有找到⼀个叫myvar 的变量，的确，我们的数据中并没有这个变量。

stata上机实验第五讲工具变量(IV)

xtdes。 3。对每个个体分别显示该变量的时间序列图：
xtline。 4。静态面板数据基本回归命令：xtreg。
use grunfeld,clear xtset company year xtdes xtline invest 混合回归：reg invest mvalue kstock 固定效应：xtreg invest mvalue kstock ,fe 随机效应：xtreg invest mvalue kstock ,re
机干扰项的设定上。
怎样选择固定效应和随机效应？
随机效严格要求个体效应与解释变量不相关，即
Cov(ai,XitB)=0 而固定效应模型并不需要这个假设条件。这是两种模型选择的关键。
面板数据基本命令
1。指定个体截面变量和时间变量：xtset 2。对数据截面个数、时间跨度的整体描述：
结果解读
固定效应随机效应
特别注意： 1。三个R2哪个重要？ 2。固定效应为什么有两个F检验？ 3。corr(u_i, Xb) 的含义。 4。 sigma_u、sigma_e、rho的含义。
模型选择
固定效应还是混合OLS？可以直接观测F值
随机效应还是混合OLS？先用随机效应回归，然后运行xttest0
究竟该用OLS 还是IV
即解释变量是否真的存在内生性？假设能够找到方程外的工具变量。 1。如果所有解释变量都是外生变量，则OLS
比IV 更有效。在这种情况下使用IV，虽然估计量仍然是一致的，会增大估计量的方差。2。如果存在内生解释变量，则OLS 是不一致的，而IV 是一致的。
豪斯曼检验（Hausman specification test）原假设： H0 ：所有解释变量均为外生变量。 H1：至少有一个解释变量为内生变量。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Stata上机实验Stata 统计软件包是目前世界上最著名的统计软件之一，国外将Stata与SAS、SPSS 一起被并称为三大权威软件。

它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点，几乎可以完成全部复杂的统计分析工作。

Stata有什么优势？1。

Stata 的命令语句极为简洁明快，易学易记。

2。

强大的帮助信息。

本地帮助 Help 命令名在线帮助Findit 命令名3。

始终处于计量经济学和统计学的最前沿。

下载后可以直接使用，也可以自行修改、添加功能。

（例如当前流行的面板单位根和面板门限数据，均可以安装下载使用）不同版本对样本容量、变量个数、矩阵阶数、宏的字符长度等有着不同的限制。

以SE版为例，其最大变量个数为32767，最大字符长度为244字节，最大矩阵阶数为11000（即11000 11000）。

Stata默认值为：最大变量个数为5000，最大矩阵阶数为400，最大内存为10兆。

如果用户需要更多的内存或者更多的变量，可以在命令栏输入如下命令进行扩展。

set maxvar 5000 <最大变量个数5000个。

>set memory 50m <占内存50兆。

>最重要的有三类文件1。

文件名.dta 数据文件2。

文件名.do 命令文件3。

文件名.ado 程序文件如果不加改变，安装时Stata会将系统程序安装到：C：\Program file\stata10 中。

将所用系统自带的一些系统数据、应用程序、帮助文件安装到C：\Program file\stata10\ado\base 中将所有升级程序安装到：C：\Program file\stata10\ado\update 中1。

所有的系统自带数据可以利用sysuse命令打开。

2。

Use命令只能打开 C:\data 或者 D:\data中的数据。

3。

如果需要打开其他文件夹的数据，必须改变目录（例如，将自己的数据放入D:\abc）cd "D:\abc”或者直接 file------open特别注意：1。

Stata的命令区分大小写。

2。

大部分命令可以缩写。

use 打开数据文件，一般加clear选型清空内存中现有数据。

sysuse 打开系统数据文件。

describe 描述数据edit 利用数据编辑器进行数据编辑list 类似于edit，但只能显示不能修改数据。

display 显示计算结果。

经常写为： disummarize 求某个变量的观察值个数、平均值、标准差、最小值和最大值。

经常写为：sumscatter 生成两个变量的散点图。

set obs 定义样本个数(使用前一定要用drop或者clear命令清空)generate 建立新变量并赋值。

经常写为gen举例：画出Y=X2的曲线图drop _all (drop data from memory)set obs 100 (make 100 observations)gen x = _n (x = 1, 2, 3, .., 100)gen y = x^2 (y = 2, 4, 9, .., 10000)scatter y x (make a graph)stata命令格式[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]1。

Command 命令动词，经常用缩写。

2。

varlist 表示一个变量或者多个变量，多个变量之间用空格隔开。

如 sum price weight3。

by varlist 分类信息按照某一变量的不同特性分类4。

=exp 赋值及运算5。

if exp 挑选满足条件的数据6。

in range 对数据进行范围筛选7。

Weight 给数据赋一个权重8。

, options 命令增加一些可选信息Stata数据处理1。

Stata的数据格式为文件名.dta2。

对于系统自带数据文件，任何情况下可以用 sysuse 命令打开。

3。

对于C:\data(或者D:\data)下的文件，可以使用use命令打开。

4。

放在其他目录的文件可以利用设置目录或者“打开”菜单打开。

Stata数据类型数值型：用0、1、2…9 及+、–（正负号）与小数点和( )来表示。

字符型：字符串变量由字母数字或一些特殊的符号组成（如地名、住址，职业等等）。

注意：数字不表示大小信息，如电话、身份证号等。

字符型数据必须要加“”。

日期型：在Stata中，1960 年1 月1 日被认为是第0 天，因此1959 年12 月31 日为第-1天，表示形式为：jan/10/2001或者10jan2001。

数据导入1。

直接录入。

利用data editor2。

在Excel或者记事本文件编辑好后导入。

直接粘贴3。

Import导入除了csv格式，还可以导入txt格式和raw格式。

添加标签1。

为整个数据添加标签：例如，将数据命名为“工资表”。

菜单：Data->Labels->Label dataset命令：label data “工资表“2。

为变量增加标签，例如，给变量wage增加标签“年工资总额”菜单：Data->Labels->Label variables命令 label variable wage “年工资总额"3.为变量值增加标签例如：为变量marrid添加数值标签marry：1=married; 0=Unmarried 菜单：Data->Labels->Label values->Define or modify label values Data->Labels->Label values->Assign label values to variable命令：. label define marry 1 “married” 0 “unmarried". label values married marryStata作图STATA 提供各种曲线类型，包括点（scatter）、线（line）、面（area），直方图（histogram）、条形图（bar）、饼图（pie）、函数曲线（function）以及矩阵图（matrix）等。

同时，对时间序列数据有以ts 开头的一系列特殊命令，如tsline。

还有一类是对双变量的回归拟合图（lfit、qfit 、lowess）等。

小样本OLS小样本OLS假设条件较为严格假设1: 二者之间存在线性关系y = a0 + a1*x1 + a2*x2 + ... + ak*xk +εy = Xb +ε假设2: X 是满秩的，i.e. rank(X) = k假设3: 干扰项的条件期望为零（严格外生性）* E[ε| X] = 0通过上课的学习我们得到：1ˆ(')'-=βX X X y习惯上我们用y_hat = X*b /* 被解释变量的拟合值*/e = y - y_hat = y - Xb /* 残差 */建立回归方程打开系统文件auto ，建立如下方程：sysuse auto,clearregress price mpg weight foreignRegress 命令详解：regress depvar [indepvars] [if] [in] [weight] [, options]1。

要求方程省略常数项(自己设置常数项)reg price mpg weight foreign, nocons(hascons)2。

稳健性估计（一般用于大样本OLS ）reg price mpg weight foreign, vce(robust)或者：reg price mpg weight foreign, r3。

设置置信区间（默认95%）reg price mpg weight foreign, level(99)4。

标准化系数reg price mpg weight foreign, beta5。

部分数据回归reg price mpg weight length foreign in 1/30（为什么foreign 被drop 掉？）reg price mpg weight length if foreign==0回归结果解读系数/标准误差= t 值P 值系数=0的概率为 p 值在5%的水准上显著不为0否则和0的差异不显著95%下限=估计值-t 值*标准误差95%下限=估计值+t 值*标准误差置信区间：系数在95%的概率下会落在---之间跨越0，则与0不显著模型常用的其他形式：对数平方项 n 次方指数交乘项虽然对函数形式的选择有检验方法，但最好还是从“经济意义”角度确定。

回归后预测值的获得Predict1。

拟合值的获得：predict yhat, xb 或者 predict yhat2。

残差的获得predict e , residuals 或者 predict e, res回归的假设检验Test命令例一 sysuse auto, clearreg price mpg weight length1。

检验参数的联合显著性2。

分别检验各参数的显著性3。

三个参数对被解释变量的影响相同例二： use wage2, clearreg lnwage educ tenure exper expersq1。

教育（educ）和工作时间（tenure）对工资的影响相同。

test educ=tenure2。

工龄（exper）对工资没有影响test exper 或者 test exper =03。

检验 educ和 tenure的联合显著性test educ tenure 或者 test (educ=0) (tenure=0)例三：生产函数productionuse production,clearreg lny lnl lnktest lnl lnktest (lnl=0.8) (lnk=0.2)test lnk+lnl=1非线性检验：testnl例一 .sysuse autogen weight2 = weight^2reg price mpg trunk length weight weight2 foreigntestnl _b[mpg] = 1/_b[weight]testnl (_b[mpg] = 1/_b[weight]) (_b[trunk] = 1/_b[length])例二：打开productionreg lny lnl lnktestnl _b[lnl] * _b[lnk] = 0.25testnl _b[lnl] * _b[lnk] = 0.5大样本OLS大样本OLS经常采用稳健标准差估计(robust)稳健标准差是指其标准差对于模型中可能存在的异方差或自相关问题不敏感，基于稳健标准差计算的稳健t统计量仍然渐进分布t分布。

Stata上机实验笔记

合集下载

数据分析与Stata软件应用(微课版)上机实训参考答案

实验报告模板作业

(最新整理)stata上机实验第五讲——面板数据的处理..

（完整版）Stata学习笔记和国贸理论总结

stata笔记

stata上机练习总结

stata学习笔记（stata学习笔记）

stata上机实验第八讲似不相关回归(SUR)

Stata笔记北京科技大学

实验报告2

stata上机实验第六讲

stata上机实验操作

stata笔记

Stata上机实验笔记

stata上机实验第四讲

Stata学习笔记

stata上机实验第五讲工具变量(IV)

文档推荐

最新文档

Stata上机实验笔记

合集下载

数据分析与Stata软件应用(微课版)上机实训参考答案

实验报告模板作业

(最新整理)stata上机实验第五讲——面板数据的处理..

（完整版）Stata学习笔记和国贸理论总结

stata笔记

stata上机练习总结

stata学习笔记（stata学习笔记）

stata上机实验第八讲 似不相关回归(SUR)

Stata笔记 北京科技大学

实验报告2

stata上机实验第六讲

stata上机实验操作

stata笔记

Stata上机实验笔记

stata上机实验第四讲

Stata学习笔记

stata上机实验第五讲 工具变量(IV)

文档推荐

最新文档

stata上机实验第八讲似不相关回归(SUR)

Stata笔记北京科技大学

stata上机实验第五讲工具变量(IV)