当前位置:文档之家› 第五章 stata语言初步

第五章 stata语言初步

第五章 stata语言初步
第五章 stata语言初步

第五章stata语言初步

本章导读:

Stata系统最为突出的特点是短小精悍、功能强大,包含了全部的统计分析、数据管理和绘图等功能,尤其是他的统计分析功能极为全面,Stata的命令语句极为简洁明快,而且在统计分析命令的设置上又非常有条理,它将相同类型的统计模型均归在同一个命令族下,而不同命令族又可以使用相同功能的选项,这使得用户学习时极易上手。而且,Stata语句在简洁的同时又拥有着极高的灵活性,用户可以充分发挥自己的聪明才智,熟练应用各种技巧,真正做到随心所欲。

本章简单介绍stata语言的基本成分与规则,stata语言如何用来管理数据库,stata语言作为作为一个统计计算语言的用法,以及stata过程使用的初步知识。

5.1 Stata语句基本成分与规则

构成stata语言的基本单位是stata语句。每个stata语句包括stata命令、变量,特殊字符、运算符。

5.1.1 Stata变量名

除以下字符不能用作变量名外,任何字母、字母与数字(单独的数字也不允许)组合均可用做变量名:

_all _b byte _coef _cons double float if in int long _n _N _pi _pred _rc _se _skip using with

基本要求如下:

_ 第一个字元可以是英文字母或下划线, 但不能是数字;

_ 最多只能包括32 个英文字母、数字或下划线;

_ 由于STATA 保留了很多以“_ “开头的内部变量,所以最好不要用为第一个字元来

定义变量。

5.1.2 Stata变量类型

由于stata语言是一种统计计算语言,因此在程序中需要频繁应用数学表达式。表达式就是把常量、变量、函数调用用运算符、括号连接在一起得到的计算结果。

在表达式中最重要的就是常量和变量。常量代表固定不变的数,变量则代表具有一定意义、变化的数值。

Stata变量主要有是数值型,字符型和日期型三类。

(1)数值型变量

用0、1、2…9 及+、–(正负号)与小数点“(.)”来表示。

在输入数据时,逗号不能被识别,如1,024 应该直接写成1024. 其他示例5,-5,5.2,5.2e+3,5.2e-2后面两个数据为科学计数法的数据,分别表示5200 和0.052,其中的e 相当于10,因此5.2e+3 的意思是:5.2*103=5200

数值型变量按其精度区分有五种类型,分别是:

1.0000 的精度是不同的,前者在(0.5,1.5)区间内近似,而后者在(0.99995,1.00005)区间内近似。若多次运算反复取四舍五入,精度较低时将使计算误差迅速变大,然而,精度高时占用的内存资源较多。下面的命令有助于理解变量存贮类型变换。

(2)字符型变量

字符型变量由字母或一些特殊的符号组成(如地名〈籍贯〉变量,迁出地,住址,职业等等)。字符变量通常是一些身份信息,如姓名,地名。另外,定类变量也可以用字符变量来表示,如性别分为“男”和“女”。字符串变量也可以由数字来组成,但数字在这里仅代表一些符号而不再是数字。字符串变量通常以引号“”注标,而且引号一般不被视同为字符的一部分,注意这里的引号必须是英文输入状态下的引号。字符串最多可以达244 个字符。一般用str#来表示字符的多少,如str20表示将有20 个字符。一般三个中文字的姓名需要6 个字符。

“String”

“string”

” string”

”string ”

”” //特殊字符串,表示空字符,缺失值。

” ” //注意与空字符串的区别,含有一个空格

”125.27” //”125.27”由于有双引号,将被视同为字符而非数值。

“$2,343.68”

“I love you”

“旺材是条狗”

注意前四个字符串均不相同,大小写是不一样的,有无空格及空格的位置不同,都表示不同的字符串。对于”125.27”这样的数值型的字符串,可以用real()函数或者destring 命令转化成数值型变量。

(3)日期型变量

在STATA 中,1960 年1 月1 日被认为是第0 天,因此1959 年12 月31 日为第-1 天,2001 年1 月25 日为15000 天。

例:1999 12 10

Jan/10/2001

10Jan2001

...

-15,000 --- 01Dec1918

-31 ---01Dec1959

...

-1 --- 31Dec1959

0 --- 01Jan1960

1 ---- 02Jan1960

...

31 ---- 01Feb1960

...

15,000 ---- 25Jan2001 (4) 缺失值

因为stata 是一种数据处理语言,而实际中经常会遇到缺失值,比如没有观测到数值,或者观测值已经丢失等等。Stata 总用一个单独的小数点”.”表示缺失值。

5.1.3 Stata 的运算

Stata 共有四种运算,分别是代数运算、字符运算、关系运算和逻辑运算。 运算符一览表

运算的优先序:!(或~),^,-(负号),/,*,-(减),+,!=(或~=),>,<,<=,>=,==,&,| 当不确定优先序的时候,最好用括号将优先序直接表达出来。

● 代数运算

包括加(+)、减(-)、乘(*)、除(/),幂(^)和负数(-),当遇到缺失值或者运算不可行时(比如除数为零)均会得到缺失值。

例:求正式的值,若x=4,y=2,显然经过心算,应该为:-1

xy y x y x -+-

. di –(4+2^(4-2))/(2*4) //di 是display 命令的略写,表示显示结果

. di 4-2 //输出2 . di 3*5 //输出15

. di 8/2 //8除以2,输出4 . di 2^3 //2的立方,输出8

. di –(2+3^(2-3))/sqrt(2*3) //括号运算优先,想一想,结果应为多少? 实际上,更多的情形是两个或多个变量的直接运算。比如,将进口车的价格都增加100元(可能是关税),而国产车不变。 . sysuse auto, clear

. gen nprice=price+foreign*100 . list nprice price foreign

● 字符运算

加(+)号同样可用于字符运算,当加号出现在两个字符之间时,两个字符将被连成一个字符。比如把”我爱”“STATA”合并在一起,命令为:

. scalar a=”我爱” +“STATA”//要特别注意,引号必须是半角和英文模式

. scalar list a //scalar命令将两个字符运算后的结果赋于a,然后显示a

. scalar a=2 +“3”//注意到:字符与数值不能直接相加,显示类型不匹配

type mismatch

r(109);

●关系运算

关系运算包括大于、小于、等于;不等于、不小于、不大于等多种比较关系。特别要注意到STA TA中的等于符号为“==”,是两个等号连写在一起,不同于赋值时用的单个等号“=”。. di 3<5 //输出结果为1,意味着3小于5为真

. di 3>5 //输出的结果为0,意味着3大于5为假。

当数据中含有缺失值的时候需要特别小心,因为系统缺失值大于任何一个数据,利用这一点,我们可以使用条件语句排除缺失值。

任务:将年龄分组为65岁以下和65岁及以上两组,缺失值显然不能包括在任何一组中。

. clear

. edit

将上述数据复制到STA TA中,然后退出数据编辑器。

. gen agegrp1=(age>=65)

生成的数据中,将缺失值视为65岁以上分在了高龄组,这是错误的

. gen agegrp2=(age>=65) if age<.

生成的数据中,将缺失值排除在外,正确!这一命令常被用于生成虚拟变量。

. gen agegrp3=(age==65) if age<. //仅判断是否恰好为65岁

. list //比较agegrp1、agegrp2和agegrp3的差异,体会if age<.的作用。

●逻辑运算

逻辑运算包括非(!),和(&)、或(|)三种,主要用于条件语句中。

例:列示出价格大于10000元的任何车,或者小于4000元的国产车。

. sysuse auto, clear

. list price foreign if price>10000 | price<4000 & forei==0

在STATA中,和(&)优先于或(|),因此上述命令与下面的命令等价:

. list price foreign if price>10000 | (price<4000 & forei==0)

试一试下面的命令,这里列示的是国产车中价格高于10000元或者低于4000元的车。

. list price foreign if (price>10000 | price<4000) & forei==0

5.2 stata用作一般高级语言

Stata是一种专用的数据处理、统计计算语言,但是它也包括一般的高级语言变成能力并扩充了许多数学、统计等方面的函数。本节介绍stata语言用来进行一般编程计算的功能,即介绍一些常用的数据处理的命令。stata语句命令有以下的格式:

[by varlist:] command [varlist] [=exp] [if exp] [in range] [weight] [, options]

注:[ ]表示可有可无的项,显然只有command 是必不可少的,下面结合例子分项来讲解命令的各个组成部分。

5.2.1 改变变量名

rename old_varname new_varname

old_varname是原变量名,new_varname是新变量名。

例1 将表示年份的变量yr更名为year,则可以编写程序:rename yr year

5.2.2生成新变量

generate newvar = exp [if exp] [in range]

newvar是生成的新变量,exp是由现有变量生成新变量的算术或逻辑表达式,[if exp] 和[in range]指定对哪些观测计算新变量值。

例2,generate age2 = age*age (新变量age2等于age的平方),

例3,generate return =0.2 >ret>-1& ret~=. /*若return大于-1小于0.2且不缺失,则新变量return 为1,否则为0

generate bh=_n /* 将数据库的内部编号赋给变量bh。

generate group=int((_n-1)/5)+1 /* 按当前数据库的顺序,依次产生5个1,5个2,5个3……。直到数据库结束。

generate block=mod(_n,6) /* 按当前数据库的顺序,依次产生1,2,3,4,5,0。

generate y=log(x) if x>0 /* 产生新变量y,其值为所有x>0的对数值log(x),当x<=0时,用缺失值代替。

5.2.3 对现有变量重新赋值

replace oldvar = exp [if exp] [in range]

oldvar为现有的变量。对满足[if exp]和[in range]的样本,oldvar将根据表达式exp重新赋值。

例4,replace income=. if income<=0 /* 将所有小于0的z值用缺失值代替。

例5 replace price = 18 in 1000 /*令第1000个观测中price为18

replace income=6 if income==0 /* 将income=0的数全部替换为6。

for var x* : replace X=0 if X==. /* 将所有第一个字母为x的变量替换为0,如果该变量的值为缺失值

5.2.4 删除变量或观测

drop varlist (去掉varlist指定的变量)

drop _all (去掉全部变量)

drop if exp (去掉符合表达式exp的观测)

drop in range (去掉处在range指定范围内的观测)

例6 drop if 1998<=year<=2006/*删掉1998到2006年的数据

drop x1 x2 /* 删除变量x1和x2

drop x1-x5 /* 删除数据库中介于x1和x5间的所有变量(包括x1和x5)

drop if x<0 /* 删去x1<0的所有记录

drop in 10/12 /* 删去第10~12个记录

drop if x==. /* 删去x为缺失值的所有记录

drop if x==.|y==. /* 删去x或y之一为缺失值的所有记录

drop if x==.&y==. /* 删去x和y同时为缺失值的所有记录

drop _all /* 删掉数据库中所有变量和数据

5.2.5 保留变量或观测

keep varlist (保留varlist指定的变量,其余变量去掉)

keep if exp (保留符合表达式exp的观测,其余观测去掉)

keep in range (保留处在range指定范围内的观测)

我们使用drop,keep命令的目的无非是修改样本或删除样本,最终有两个目的,一是对修改后的样本作统计或回归分析,二是保存一份新的数据。所以,如果由于drop或keep命令误删了一些数据,问题解决方法如下:

如果你是使用命令窗口的话,就可以在每次执行一个尝试性的动作之前使用preserve 命令,如果这个操作有误,再采用restore命令(相当于word里的ctrl+Z)返回使用preserve之前的状态即可. 如

use acc2006, clear

.....

preserve /*状态1*/

keep weight

restore /*回复到状态1*/

例7,如果你想尝试看将年份设定为1998到2002年的数据集的回归结果,但是不知道是否可行,但是你又不想因为尝试而改变现有的数据集格式,则你可以进行如下步骤:Use acc2006, clear

.....

Preserve/*此处你想尝试一下年份为1998到2002年的回归结果*/

Reg car cashdum sgdum if 1998

Restore/*若此时的结果不理想,你可以通过此命令返回到preserve之前的数据集状态,而

不用重新打开acc2006*/

5.2.6排序

(1) sort

sort varlist [in] [, stable]

将全部观测按varlist指定的变量按升序排列。varlist中的变量个数灭有限制,可以有不止一个变量,此时排序与字典顺序相当。数字型的缺失值被认为比任何其他数字都大,所以它被排列在最后。当你按照字符型的变量排序时,空的字符被排在最前面。如果指定了排序的范围,则只有被指定的那些观测值会重新排列,没有被指定的观测值将会保持相同的位置。

例8,按照debt的升序排列观测值

sort debt

例9,列出按debt升序排列的最小的5个观测值

list debt in 1/5

例10,列出按debt升序排列的最大的5个观测值

list debt in -5/L

例11,按年份year和债务debt升序排列观测值

sort year debt

(2) gsort

gsort [+|-] varname [[+|-] varname ...] [, generate(newvar) mfirst]

gsort不同于sort命令只可以将观测值按升序排列,它可以按升序排列也可以降序排列。变量名称varname可以是数字型的也可以是字符型的。如果varname前没有符号或+,则按升序排列,如果varname前为符号,则按降序排列。

generate(newvar) 产生新的变量,表示排序数。 mfirst 表示按降序排列时,缺失值排在前面而不是后面。

例12,将观测值按照price的升序排列

gsort + price 或者gsort price

例13 将观测值按price降序排列

gsort –price

例14 将观测值按先按股票代码dm升序排列,再对于每个代码的收益数据再按年份升序排列gsort dm year

可以观测到如下的数据形式:

dm year

12005

12006

12007

22008

32005

12006

2 2007

2 2008

3 2005

3 2006

3 2007

3 2008

例15 将观测值按先按股票代码dm升序排列,再对于每个代码的收益数据再按年份降序排列gsort dm -year

dm year

1 2008

1 2007

1 2006

1 2005

2 2008

2 2007

2 2006

2 2005

3 2008

3 2007

3 2006

3 2005

例16 现有的观测值分为10年(year),每年分为30个省级行政单位(province),再在每个单位下有n个样本。现将样本规模按大小(scale)分为每年、每省(共300组)排序,再将排名生成一个新的变量(rank)

程序如下:

gsort year province -scale

bysort year province: gen rank = _n

5.2.7 数据文件的合并

数据文件的合并涉及两个数据文件:在memory中的和不在memory中的。称前者为原数据文件(the master data),后者为新数据文件(the using data)。数据文件的合并有两种情形。

若新数据文件与原数据文件的变量完全一样,此时新数据文件相当于新的观测,使用append命令:

append using filename

其中filename是新数据文件的文件名。

若新数据文件对应着同样的观测,但变量不全一样,则使用merge命令:

merge [varlist] using filename

其中filename是新数据文件的文件名,varlist是合并的依据,varlist(可以不止一个变量)取值一样的观测视为同一个观测。在合并之前,原数据文件和新数据文件都要先按照varlist排序。如果除了varlist外,原数据文件和新数据文件还有一部分变量是相同的。对这部分变量,merge命令有两个常用的选项。

merge [varlist] using filename, update 将原数据文件中的缺失值替换成新数据文件中的相应值(前提是后者不缺失)。

merge [varlist] using filename, update replace将原数据文件中的变量值替换成新数据文件中的相应值(前提是两者不一样)。

在这两种情形下,merge自动生成一个指示变量_merge。该变量的不同取值,代表了合并的不同情形。但一般会连续进行几次merge操作,所以在完成一次merge后应马上使用drop _merge 指令将其去掉。

例16 纵向连接数据库

Ex3-3.dta:

x0 x1

1. 3550 2450

2. 2000 2400

3. 3000 1800

4. 3950 3200

5. 3800 3250

use "E:\data\ex3-2.dta", clear

x0 x1 g

1. 2450 1450 2

2. 2100 2400 2

3. 2300 3800 2

4. 1590 4200 2

append using "E:\data\ex3-2.dta"

显示结果:

x0 x1 g

1. 2450 1450 2

2. 2100 2400 2

3. 2300 3800 2

4. 1590 4200 2

5. 3550 2450 .

6. 2000 2400 .

7. 3000 1800 .

8. 3950 3200 .

9. 3800 3250 .

例17 横向连接数据库

Ex3-5.dta:

bh y0 y1 x0

1. 1 35 79.2 2

2. 3 45 47.4 8

3. 4 52 3

4.6 6

4. 6 66 28.0 9

命令

. drop _all

use E:\data\ex3-5.dta

sort bh

save " E:\data\ex3-5.dta",replace

file E:\data\ex3-5.dta saved

use E:\data\ex3-4.dta

sort bh

merge bh E:\data\ex3-5.dta

结果显示:

bh x0 x1 y0 y1 _merge

1. 1 12 24 35 79.2 3

2. 2 15 26 . . 1

3. 3 16 49 45 47.4 3

4. 4 18 57 52 34.6 3

5. 5 20 68 . . 1

6. 6 9 . 66 28 2

5.2.8 下标引用

下标引用使Stata能很有效地处理时间序列数据和面板数据。对每个数据文件,_N表示观测的总数,_n为观测的序号(_n=1为第一个观测,_n=2为第二个观测,…,_n=_N是最后一个观测)。

下标引用可以很方便地生成滞后变量和做差分

generate lagprice = price [_n-1] (生成滞后变量)

generate difprice = price – price[_n-1] (做差分)。

如果是时间序列数据,可以直接由L. 命令生成滞后变量。

例18 gen Lag_return= L.return /*生成变量return的一阶滞后变量Lag_return gen lag1 = x[_n-1] / *生成变量x的一阶滞后变量Lag1

gen lag2 = x[_n-2] / *生成变量x的二阶滞后变量Lag1

gen lead1 = x[_n+1] / *生成变量x的一阶变量Lag1

例19 用前缀可以对不同的数据子集产生滞后变量或前置变量。

sort dm year . by dm: gen lag_ret= ret[_n-1] /*将数据集按公司代码dm和年份year升序排列,对每个代码生成股票收益ret的一阶滞后变量lag_ret

sort dm year . by dm: gen lag_ret = ret[_n-1] if year==year[_n-1]+1 /*对年份进行了设定,只有在满足了if后的条件时生成一阶滞后变量

5.2.9 生成虚拟变量

在很多场合,需要对分别变量(categorical variables)生成虚拟变量。Stata提供的xi命令能很方便地实现这一点。这是Stata最引人入胜的功能之一。本文仅介绍xi命令最基本的用法:

xi [, prefix(string)] i.varname

varname是某一分类变量,设其共有m个可能的取值;string是prefix()指定的前缀。上述指令生成了K-1个虚拟变量:stringvarname_2, stringvarname_3, …, stringvarname_K。其中stringvarname表示字符串string和varname的联合。如果不使用[, prefix(string)]选项,则默认的前缀是_I。

比如,数据集中year的取值范围是2001,2002,2003,2004,2005,则指令xi i.year生成4个虚拟变量_Iyear_2,_Iyear_3,_Iyear_4,_Iyear_5,分别对应year取值为2002,2003,2004,2005的情形。

5.2.10 保存对数据文件的改变

对数据文件做了如上处理后,有两种保存方法。其一是生成新的数据文件(设其文件名

为newfilename),原数据文件不变(设其文件名为filename),可使用如下指令

save newfilename

其二是处理的结果写入原数据文件中,原数据文件发生改变,可使用如下指令save filename, replace

5.3 附录:常用命令

需求帮助

? help 帮助

? search 网络寻求帮助

进入某路径

? cd

设定内存

? set memory 20m 设置STATA 的内存空间为20m

打开和保存数据

? clear 清空内存数据

? use 打开STATA 格式的数据文件

? save 保存内存中的数据

导入数据

? input 录入数据

? edit 编辑数据

? infile 导入数据

? insheet 导入数据

重整数据

? append 将有相同结果的数据纵向拼接(观察值拼接)

? merge 将两个数据文件横向拼接

? xpose 数据转置

? reshape

? generate 生成新的数据

? egen 生成新的数据

? rename 变量重命令

? drop 删除变量或观察值

? keep 保留变量或观察值

? sort 对观察值按从小到大顺序重新排列

? encode 数值型数据转换为字符型数据

? decode 字符型数据转换为数值型数据

? order 变量顺序的重新排列

? by 分类操作

报告数据

? describe 总体展示数据情况

? codebook 展示数据库中的每个变量情况

? list 列示内存中的数据

? count 报告共有多少观察值

? inspect 报告变量的分布

? table 数据列表

? tabulate 联列表

显示和保存输出结果

? display 显示计算结果

? log 将输出结果存放入结果文件

Stata12软件的基本设定(设置)

Stata12 软件的基本设定 如果你已经安装了stata12,请直接跳到(6)。 ( 1)将StataSE12.1绿色版.7z解压到D盘根目录,即D:\stata12(注意:是D:\stata12,而 非D:\stata12 \stata12,另外, stata12 是小写)。 (下载地址: https://www.doczj.com/doc/737398367.html,/share/link?shareid=2683949182&uk=3523563089) (2)打开stata12:双击图1中带有蓝色阴影的图标即可。1 图 1stata12 放置界面 (3)关于更新 A 、首次打开 stata12,会弹出对话框,询问你是否需要更新。如果不需要更新,请按下 图进行设定: 图 2首次打开stata12 时的更新设定B(、为了节省时间,这一步可以跳过,对于一般用户而言,更新与否不会影响你的使 用效果)如需把stata12 更新到最新版本,请在command窗口中输入updateal l命令。更新过程大概需要几分钟到几十分钟不等。特别注意的是,更新完毕后,你一定要输入如下 命令,才算是真正完成了stata 的更新: updateswap。这个命令的作用是用新下载的文件覆盖 旧文件。忘记这一步,往往会导致你的stata 丢失变量或出现一些奇怪的现象。 1 你也可以右击这个图标,然后选择“附加到开始菜单”。这样 stata12 的 logo 就会出现在开始 菜单中,每次启动 stata12 就只需从“开始”菜单中单击这个 logo 即可。

(4)关于profile.do文件。每次启动stata12 时,它会自动执行D:\stata12 文件夹下的 profile.do文件,该文件中包含了一系列命令,用于设定stata所占用的内存,各种 文件路径的位置等信息。如果你是按照上述要求放置stata12 文件的,那么启动 stata12 后,屏幕上应该显示如下信息(否则你要检查文件名的拼写是否正确):running stata12 profi le .do... ( 5)如果你的计算机分区中没有 D 盘,你也可以把stata12 放置于其他盘符下,但需要做一些微小的调整。这里以 F 盘为例,也可以是C, H, K 等其他盘 ①.将 stata12 解压后放置于 F 盘下,即F:\stata12 。注意: stata 是小写。 ②.修改 profile.do 文件,具体方法为 : Step1: 输入 doedit F:\stata12 \prof il e. do命令,打开 profile.do 文件; Step2:将第六行 中的 localD"D" 命令修改为 l ocal D"F"; Step3:保存 profile.do文件,退出stata12,然后重启即可。 ③.若上述设定无误,则在重新打开stata12 后,屏幕第一行会显示如下信息: running stata12profi le .d o... 同时,输入sysdir命令,屏幕上会呈现如下信息( 此时你才能正确使用外部命令): .sy sdir STATA: F stata12 UPDATES: F stata12 \ado\updat BASE: F stata12 \ado\bas SIT E: F stata12 \ado\s it PLUS: F stata12 \ado\p PERSONAL: F stata12 \ado\personal PartII :课件的使用方法 Q1. 如何打开课堂上使用的do 文档? A:请将PX_aufe.rar压缩包解压到D:\stata12\ado\personal 文件夹中,即 D:\stata12\ado\personal\PX_aufe 。若希望练习第一讲中的相关操作,可依次执行如下命令:Step1:在STATA命令窗口中输入cdD:\stata12\ado\personal\PX_aufe命令,定义当前工作 路径(会显示在 STATA 屏幕左下角); Step2:输入doedit xB01_Panel_Data命令,即可打开第一讲的讲义 xB01_Panel_Data.do 文件。当然,我们也可以通过点击菜单的方式完成 上述操作,步骤如下: Step1:在 STATA 主菜单中点击 “ Newdo-fileEditor ”图标; Step2:在第一步中弹出的“ Do-fileEditor”窗口中点击“O pen”图标,然后到D:\stata12\ado\personal\PX_aufe文件夹下,双击“ xB01_Panel_Data”文件即可打开之。 B:在练习之前,请先执行如下命令,以便进入第一讲所在目录,本讲中使用的所有数 据文件和相关文档都存放于该目录下。请选中下图中第 34-37 行的命令,点击菜单条中第二行中 带有蓝色阴影的按钮( ExecuteSelection(do) ,快捷键为 Ctrl+D )。

STATA面板数据模型操作命令讲解

S T A T A 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 it x y it i it 固定效应模型 it it it 随机效应模型(一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y= i i i it ~e it ~1-t e i ,8858.0~ 5.0-~验:是否存在门槛效应 混合面板:reg is lfr lfr2 hc open psra tp gr,vce(cluster sf) 固定效应、随机效应模型 xtreg is lfr lfr2 hc open psra tp gr,fe est store fe xtreg is lfr lfr2 hc open psra tp gr,re est store re hausman fe 两步系统GMM 模型 xtdpdsys rlt plf1 nai efd op ew ig ,lags(1) maxldep(2) twostep artests(2) 注:rlt 为被解释变量,“plf1 nai efd op ew ig ”为解释变量和控制变量; maxldep(2)表示使用被解释变量的两个滞后值为工具变量;pre ()表示以某一个变量为前定解释变量;endogenous ()表示以某一个变量为内生解释变量。 自相关检验:estat abond

萨甘检验:estat sargan 差分GMM模型 Xtabond rlt plf1 nai efd op ew ig ,lags(1) twostep artests(2) 内生:该解释变量的取值是(一定程度上)由模型决定的。内生变量将违背解释变量与误差项不相关的经典假设,因而内生性问题是计量模型的大敌,可能造成系数估计值的非一致性和偏误; 外生:该解释变量的取值是(完全)由模型以外的因素决定的。外生解释变量与误差项完全无关,不论是当期,还是滞后期。 前定:该解释变量的取值与当期误差项无关,但可能与滞后期误差项相关。

stata使用手册

STATA基本入门 前言 STATA是一个十分好用而且简单的统计软件包,透过轻松的数据输入方式,而且简单的指令,即可执行一般在计量经济学上常用的计量模型。除了计 量模型外,STATA的软件包中也可执行统计学中的估计和检定,甚至是多变量分析中的各项分析工具。因此,STATA可以说是一个相当强而有力的统计软件。 一、安装 STATA所须的内存容量不大,只有4.03MB。此外,安装也相当简单,只要在〝SETUP〞上点两下,安装完成后再分别输入”Sn”、”Code”和”Key”即可开始使用。但是安装过程中有一点必须注意的是,如下图所示,有”Intercooled”和”Small”两个选项。一般而言,为了方便日后要设定较大的内存容量来处理大笔的资料,通常选择以”Intercooled”进行安装。 以此項進行安裝 二、窗口介绍

安装完成后,点选桌面上STATA的图标,窗口画面如下图所示。为了使画 面美观,我们可以将画面拉到自己喜欢的地方,如下图所示。为了保存这个窗口画面,我们必须点选工具列上的”Prefs”下的”Save Windowing Preferences”。如此一来,以后开启STATA时都会以此窗口画面呈现。

接下来,我们依序介绍四个窗口的功用: 左上─Review:此一窗口用于记录在开启STATA后所执行过的所有指令。因 此,若欲使用重复的指令时,只要在该指令上点选两下即可执 行相同的指令;若欲使用类似的指令时,在该指令上点一下, 该指令即会出现在窗口”Stata Command”上,再进行修改即可。 此外,STATA还可以将执行过的指令储存下来,存在一个 do-file内,下次即可再执行相同的指令。 左下─Variables:此一窗口用于呈现某笔数据中的所有变量。换言之,当数据 中的变量都有其名称时,变量名称将会出现在此一窗口中。 只要数据有读进STATA中,变量名称就会出现。它的优点 是(1)确认数据输入无误;(2)只要在某变量上点选两下,该 变量即会出现在窗口”Stata Command”上。 右上─Stata Results:此一窗口用于呈现并记录指令执行后的结果。 右下─Stata Command:此一窗口用于输入所欲执行的指令。 Note:以上四个窗口都可以从”Fonts”去更改字体大小。 三、输入数据(Entering data)

5分钟速学stata面板数据回归(初学者超实用!)

5分钟速学stata面板数据回归(超实用!) 第一步:编辑数据。 面板数据的回归,比如该回归模型为:Y it=β0+β1X1it+β2X2it+β3X3it+εt,在stata中进行回归,需要先将各个变量的数据逐个编辑好,该模型中共有Y X1 X2 X3三个变量,那么先从Y的数据开始编辑,将变量Y的面板数据编辑到stata软件中,较方便的做法是,将excel的数据直接复制到stata软件的数据编辑框中,而excel中的数据需要如下图编辑: 从数据的第二行开始选中20个样本数据,如图:

直接复制粘贴至stata中的data editor中,如图: 第二步:格式调整。 首先,请将代表样本的var1Y变量数据是选20个省份5年的数据为样本,那么口令为rename var1 province 。例如:本例中的Y变量数据编辑接下来需要输入口令为reshape long var,i(province) 其中,var代表的是所有的年份(var2,var3,var4,var5,var6),转化后格式如图: 转化成功后,继续重命名,其中_j这里代表原始表中的年份,var代表该变量的名称

例如,我们编辑的是Y变量的数据,所以口令3和口令4的输入如下: 口令3:rename _j year 口令4:rename var taxi (注:taxi就是Y变量,我们用taxi表示Y) 命名完,数据编辑框如下图所示。 第三步:排序。 例如,本例中的Y变量(taxi),是20个省份和5年的面板数据, 那么口令4为sort province year (虽意思是将province按升序排列,然后再根据排好的province数列排year这一列升序排列。然很多时候在执行sort之前,数据已经符合排序要求了,但为以防万一,请务必执行此操作) 第三步:保存。

主成分分析在STATA中的实现以及理论介绍

第十二章 主成分分析 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata 对主成分分析的主要容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为: p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中,a 称为得分,b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。 Stata 中可以通过负偏相关系数矩阵、负相关系数平方和KMO 值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin 抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO 介于0于1之间。KMO 越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO 比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser (1974),一般的判断标准如下:0.00-0.49,不能接受(unacceptable );0.50-0.59,非常差(miserable );0.60-0.69,勉强接受(mediocre );0.70-0.79,可以接受(middling );0.80-0.89,比较好(meritorious );0.90-1.00,非常好(marvelous )。 SMC 即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC 比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。 成分载荷、KMO 、SMC 等指标都可以通过extat 命令进行分析。 多元方差分析是方差分析在多元中的扩展,即模型含有多个响应变量。本章介绍多元(协)方差分析以及霍特林(Hotelling)均值向量T 检验。 12.1 主成分估计 Stata 可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。 (1)sysuse auto,clear pca trunk weight length headroom pca trunk weight length headroom, comp(2) covariance

5分钟搞定Stata面板数据分析

【原创】5分钟搞定Stata面板数据分析简易教程ver2.0作者:张达 5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 原始表如下, 数据请以时间(1998 ,1999,2000, 2001 ??)为横轴,样本名(北京,天津,河北??) 为纵轴 1 裁*■■別1A I 11 ■u 9K ILEXxl- V,j si ao LL B- iic190 ..1( HJ曲1 1 g力?r4 々■l* Mfl 1 KM J| JgRi MM3icm*w II7QQ -HQ SiqD tuff 1 'C4 3 4 IftJV -mi KH>loogi liW (0M 3M9WH jaii I MO Kai W w ■齐itm xm fill OTI Mil taiK ■5W?U|J TXE HH sia心?9 f Id 叼m in a* ft I*■JtaC如M~4 気Hi A|$A rm inoo IM? livra.w vtatr1IJMj X#*4>t1| 筑?BF7 ■?|!N I9*V1IRV gw 1W1VJ I-J H itW Ml ? 稠申审砂y li>M l>R Md w VIM e> mu IM HM 內)944 w 命■ n I L BII i mi 靜Ml hw w 3K:1ST? *7^ FJE inm ifini uni 4 5w 心 HtJ TW JTfl 9MI*HAS ■ilJto KO >4*461/M3 1 <141*11诃却4LJt 4ktt VM匸F w g ivt E4M laM ■ii T PD w im W i.JV 1 P w L*l 1tiZF MM7 <1 H1! liyi 将中文地名替换为数字。

STATA实用教程

文档收集于互联网,已重新整理排版.word版本可编辑,有帮助欢迎下载支持. 第一章接触STATA 小而功能强大;数据存储在内存中,运算速度快;语法简单,结果易读;可编程?cd [direction] /*调整默认目录,当路径中存在空格时要加引号*/ ?set memory [number]/*内存设定,默认单位为KB,可自定MB*/ ?exit /*退出*/ 第二章STATA命令 [prefix:]command[varlist] [=exp.] [if exp.] [using filename] [in range] [weigh:] [, options] 命令前缀命令变量串表达式条件式使用文件个案范围权重选项?var | var#-var## | var* /*表示单变量、多变量、以var开头的变量*/ ?in # | in -# | in #/## /*表示第#个、倒数第#个、从第#到第##个变量*/ ?help commandname/*帮助*/ 第三章使用STATA数据文件 一、读取数据 ?use filename [, clear] /*读取全部数据,选项clear表示清空内存*/ ?use var1 var#using filename /*将数据部分变量读进内存*/ ?use in #/## using filename /*将数据部分个案读进内存*/ ?use if var==# using filename /*将数据特定个案读进内存*/ ?use filename if var==# /*同上*/ 二、数据的标签与注释 ?label data “text”/*标签用于对数据整体的说明,这是贴标签的命令*/ 1文档来源为:从网络收集整理.word版本可编辑.

主成分分析在STATA中的实现以及理论介绍

主成分分析在S T A T A中 的实现以及理论介绍 Ting Bao was revised on January 6, 20021

第十二章 主成分分析 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata 对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为: p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中,a 称为得分,b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。 Stata 中可以通过负偏相关系数矩阵、负相关系数平方和KMO 值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin 抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO 介于0于1之间。KMO 越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO 比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser (1974),一般的判断标准如下:不能接受(unacceptable );非常差(miserable );,勉强接受(mediocre );可以接受(middling );,比较好(meritorious );非常好(marvelous )。 SMC 即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC 比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。 成分载荷、KMO 、SMC 等指标都可以通过extat 命令进行分析。 多元方差分析是方差分析在多元中的扩展,即模型含有多个响应变量。本章介绍多元(协)方差分析以及霍特林(Hotelling)均值向量T 检验。 主成分估计 Stata 可以通过变量进行主成分分析,也可以直接通过相关系数矩阵或协方差矩阵进行。 (1)sysuse auto,clear pca trunk weight length headroom pca trunk weight length headroom, comp(2) covariance

STATA面板数据模型操作命令

STATA 面板数据模型估计命令一览表 一、静态面板数据的STATA 处理命令 εαβit ++=x y it i it 固定效应模型 μβit +=x y it it εαμit +=it it 随机效应模型 (一)数据处理 输入数据 ●tsset code year 该命令是将数据定义为“面板”形式 ●xtdes 该命令是了解面板数据结构 ●summarize sq cpi unem g se5 ln 各变量的描述性统计(统计分析) ●gen lag_y=L.y /////// 产生一个滞后一期的新变量

gen F_y=F.y /////// 产生一个超前项的新变量 gen D_y=D.y /////// 产生一个一阶差分的新变量 gen D2_y=D2.y /////// 产生一个二阶差分的新变量 (二)模型的筛选和检验 ●1、检验个体效应(混合效应还是固定效应)(原假设:使用OLS混合模型)●xtreg sq cpi unem g se5 ln,fe 对于固定效应模型而言,回归结果中最后一行汇报的F统计量便在于检验所有的个体效应整体上显著。在我们这个例子中发现F统计量的概率为0.0000,检验结果表明固定效应模型优于混合OLS模型。 ●2、检验时间效应(混合效应还是随机效应)(检验方法:LM统计量) (原假设:使用OLS混合模型) ●qui xtreg sq cpi unem g se5 ln,re (加上“qui”之后第一幅图将不会呈现) xttest0

可以看出,LM检验得到的P值为0.0000,表明随机效应非常显著。可见,随机效应模型也优于混合OLS模型。 ●3、检验固定效应模型or随机效应模型(检验方法:Hausman检验) 原假设:使用随机效应模型(个体效应与解释变量无关) 通过上面分析,可以发现当模型加入了个体效应的时候,将显著优于截距项为常数假设条件下的混合OLS模型。但是无法明确区分FE or RE的优劣,这需要进行接下来的检验,如下: Step1:估计固定效应模型,存储估计结果 Step2:估计随机效应模型,存储估计结果 Step3:进行Hausman检验 ●qui xtreg sq cpi unem g se5 ln,fe est store fe qui xtreg sq cpi unem g se5 ln,re est store re hausman fe (或者更优的是hausman fe,sigmamore/ sigmaless) 可以看出,hausman检验的P值为0.0000,拒绝了原假设,认为随机效应模型的基本假设得不到满足。此时,需要采用工具变量法和是使用固定效应模型。

主成分分析在STATA中的实现以及理论介绍

主成分分析在S T A T A 中的实现以及理论介绍 文件编码(TTU-UITID-GGBKT-POIU-WUUI-0089)

第十二章 主成分分析 主成分分分析也称作主分量分析,是霍特林(Hotelling)在1933年首先提出。主成分分析是利用降维的思想,在损失较少信息的前提下把多个指标转化为较少的综合指标。转化生成的综合指标即称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分互不相关。Stata 对主成分分析的主要内容包括:主成分估计、主成分分析的恰当性(包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度)、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。 p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为: p p j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧='' ==∧=∑ 2121),,,,(0 1 其中,a 称为得分,b 称为载荷。主成分分析主要的分析方法是对相关系数矩阵(或协方差矩阵)进行特征值分析。

Stata中可以通过负偏相关系数矩阵、负相关系数平方和KMO值对主成分分析的恰当性进行分析。负偏相关系数矩阵即变量之间两两偏相关系数的负数。非对角线元素则为负的偏相关系数。如果变量之间存在较强的共性,则偏相关系数比较低。因此,如果矩阵中偏相关系数较高的个数比较多,说明某一些变量与另外一些变量的相关性比较低,主成分模型可能不适用。这时,主成分分析不能得到很好的数据约化效果。 Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标,是通过比较两个变量的相关系数与偏相关系数得到的。KMO介于0于1之间。KMO越高,表明变量的共性越强。如果偏相关系数相对于相关系数比较高,则KMO比较低,主成分分析不能起到很好的数据约化效果。根据Kaiser(1974),一般的判断标准如下:不能接受(unacceptable);非常差(miserable);,勉强接受(mediocre);可以接受(middling);,比较好(meritorious);非常好(marvelous)。 SMC即一个变量与其他所有变量的复相关系数的平方,也就是复回归方程的可决系数。SMC比较高表明变量的线性关系越强,共性越强,主成分分析就越合适。

stata 中文教程

Stata介绍 作为流行的计量经济学软件,Stata的功能十分地全面和强大。可以毫不夸张地说,凡是成熟的计量经济学方法,在Stata中都可以找到相应的命令,而这些命令都有许多选项以适应不同的环境或满足不同的需要。即使是最详细的Stata手册,也难免有遗珠之憾,更何况本文仅是一个粗浅的介绍。掌握Stata最好的办法是在实践中学习:Stata 本身提供了非常强大的帮助系统,并且关于Stata的书籍和网络资源都不少。 本文拟根据如下顺序介绍Stata: 1.界面; 2.文件和数据; 3.语法和命令; 4.数据管理; 5.描述统计; 6.画图; 7.回归和回归分析; 8.常用命令。 第3和第4部分是最体现Stata灵活性的地方,也是应用Stata的基础。第5和第6部分介绍如何用Stata完成基本的统计功能。Stata的功能很多,比如回归,曲线拟合,生存分析,主成分分析,因子分析,聚类分析,时间序列分析等等。但回归无疑是其中最重要的功能。第7部分介绍如何用Stata作线性回归和Logistic回归。本文第2和第3部分包含了作者的观点,难免有偏颇之处。其余部分主要来自文献的归纳和总结。限于水平有限,错误在所难免,敬请原谅。

1.界面 图1 Stata界面 Stata有4个窗口: 1. Stata Command(右下)用于向Stata输入命令; 2. Stata Results(右上)用于显示运行结果; 3. Review(左上)记录使用过的命令; 4. Variables(左下)显示当前memory中的所有变量。 窗口上方是工具栏,其上的按钮依次为(从左到右)Open, Save, Print Graph/Print Log, Log Start/Stop/Suspend, Bring Log to Front, Bring Graph to Front, Do-file Editor, Data Editor, Data Browser, Clear –more- condition, Break。其中常用的有Open, Save, Do-file Editor, Data Editor和Data Browser(图1中已用圆圈标出)。它们的使用办法将在下文介绍。 工具栏上方是菜单栏。其中最常用的是Help菜单。 界面左下角显示了Stata的默认路径。Stata使用的数据文件一般存放在该路径下。

STATA简介

进入词条搜索词条 欧冠 首页自然文化人物经济科学体育 百科消息: 百度百科“知识先锋”计划启动 免费试吃百度身边满汉全席你开宴 展望“十二五” 看亚运游广州--旅游大拼盘 百度百科权威合作

编辑本段 级统计部分 ) 都是用 Stata 自己的语言编写的 Stata 其统计分析能力远远超过了 SPSS ,在许多方面也超过了 SAS !由于 Stata 在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此计算速度极快(一般来说, SAS 的运算速度要比 SPSS 至少快一个数量级,而 Stata 的某些模块和执行同样功能的 SAS 模块比,其速度又比 SAS 快将近一个数量级!) Stata 也是采用命令行方式来操作,但使用上远比 SAS 简单。其生存数据分析、纵向数据(重复测量数据)分析等模块的功能甚至超过了 SAS 。用 Stata 绘制的统计图形相当精美,很有特色。 STATA 的功能列表 数据管理 (Data management) 资料转换、分组处理、附加档案、 ODBC 、行 - 列转换、数据标记、字符串函数…等 基本统计 (Basic statistics) 直交表、相关性、 t- 检定、变异数相等性检定、比例检定、信赖区间…等 线性模式 (Linear models) 稳健 Huber/White/sandwich 变异估计 , 三阶最小平方法、类非相关回归、齐次多项式回归、 GLS 广义型线性模式 (Generalized linear models) 十连结函数、使用者 - 定义连结、 ML 及 IRLS 估计、 九变异数估计、七残差…等 二元、计数及有限应变量 (Binary, count, and limited dependent variables) 罗吉斯特、 probit 、卜松回归、 tobit 、 truncated 回归、条件罗吉斯特、多项式逻辑、巢状逻辑、负二项、 zero-inflated 模型、 Heckman 选择模式、边际影响 Panel 数据 / 交叉 - 组合时间序列 (Panel data/cross-sectional time-series) 随机及固定影响之回归、 GEE 、随机及固定 - 影响之 卜松及负二项分配、随机 - 影响、工具变量回归、 AR(1) 干扰回归 无母数方法 (Nonparametric methods) 多变量方法 (Multivariate methods) 因素分析、多变量回归、 anonical 相关系数 模型检定及事后估计量支持分析 (Model testing and post-estimation support) Wald 检定、 LR 检定、 线性及非线性组合、非线性限制检定、边际影响、修正平均数 Hausman 检定 群集分析 (Cluster analysis) 加权平均 , 质量中心及中位数联结、 kmeans 、 kmedians 、 dendrograms 、停止规则、使用者扩充 图形 (Graphics) 直线图、散布图、条状图、圆饼图、 hi-lo 图、 回归诊断图… 调查方法 (Survey methods) 抽样权重、丛集抽样、分层、线性变异数估计量、拟 - 概似最大估计量、回归、工具变量… 生存分析 (Survival analysis) Kaplan – Meier 、 Nelson – Aalen, 、 Cox 回归 ( 弱性 ) 、参数模式 ( 弱性 ) 、危险比例测试、时间共变项

5分钟搞定Stata面板数据分析小教程

5分钟搞定Stata面板数据分析 简易教程 步骤一:导入数据 口令:insheet u sing 文件路径 例如:insheet u sing C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 数据请以时间(1999,2000,2001 )为横轴,样本名(1,2,3 )为纵轴 请注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值,没有数据的位置请以0代替。 如图: 也可直接将数据复制粘贴到stata的data e ditor中 如图:

步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename v ar1 样本名 例如:rename v ar1 p rovince

也可直接在var1处双击,在弹出的窗口中修 改: 接下来将数据转化为面板数据的格式 口令:reshape l ong v ar, i(样本名) 例如:reshape l ong v ar, i(province) 其中var代表的是所有的年份(var2,var3,var4 ) 转化后的格式如图:

转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称 口令例如: rename _j y ear rename v ar t axi 也可直接在需要修改的名称处双击,在弹出的窗口中修改 如图:

步骤三:排序 口令:sort 变量名 例如:sort p rovince y ear 意思为将province按升序排列,然后再根据排好的province数列排year这一列 如图:

stata 介绍与命令

Introduction to Stata Getting Data Into Stata There are three ways of getting data into Stata 1.direct keyboard entry using the Stata EDITOR 2.read raw data (ASCII files) directly into a Stata dataset (Stata can import tab or comma delimited data or data in fixed column format) https://www.doczj.com/doc/737398367.html,e a data transfer program such as DBMScopy or Stat/Transfer (we use Stat/Transfer) which can convert data from almost any common program (database, spreadsheet or statistical package) into Stata and vice versa Typing Commands vs Using Menus vs Batch Files There are three ways that you can run Stata. 1.choose commands from the drop-down menus 2.type commands in to the “Command” box 3.type a set of commands into a small file (called a -do- file) and then run the whole set of commands at once. Ultimately, you want to use -do- files for all of your research work because it is the only way that you can exactly reproduce any analyses that you have done. To move you in this direction, we will primarily use the “Command” box (ie type in commands), but if you are stuck, you can use the menus.

STATA实用教程

S T A T A实用教程-CAL-FENGHAI.-(YICAI)-Company One1

第一章接触STATA 小而功能强大;数据存储在内存中,运算速度快;语法简单,结果易读;可编程cd [direction] /*调整默认目录,当路径中存在空格时要加引号*/ set memory [number] /*内存设定,默认单位为KB,可自定MB*/ exit /*退出*/ 第二章 STATA命令 [prefix:]command[varlist] [=exp.] [if exp.] [using filename] [in range] [weigh:] [, options]命令前缀命令变量串表达式条件式使用文件个案范围权重选项var | var#-var## | var* /*表示单变量、多变量、以var开头的变量*/ in # | in -# | in #/## /*表示第#个、倒数第#个、从第#到第##个变量*/ help commandname/*帮助*/ 第三章使用STATA数据文件 一、读取数据 use filename [, clear] /*读取全部数据,选项clear表示清空内存*/ use var1 var# using filename /*将数据部分变量读进内存*/ use in #/## using filename /*将数据部分个案读进内存*/ use if var==# using filename /*将数据特定个案读进内存*/ use filename if var==# /*同上*/ 二、数据的标签与注释 label data “text” /*标签用于对数据整体的说明,这是贴标签的命令*/ notes:“text” /*注释用于记录操作过程,这是写注释的命令*/

stata处理面板数据及修正命令集合

步骤一:导入数据 原始表如下, 数据请以时间(1998,1999,2000,2001??)为横轴,样本名(北京,天津,河北??)为纵轴 将中文地名替换为数字。 注意:表中不能有中文字符,否则会出现错误。面板数据中不能有空值。 去除年份的一行,将其余部分复制到stata的data editor中,或保存为csv格式。 打开stata,调用数据。 方法一:直接复制到data editor中。 方法二:使用口令:insheet using??文件路径 调用例如:insheet using? C:\STUDY\paper\taxi.csv 其中csv格式可用excel的“另存为”导出 步骤二:调整格式 首先请将代表样本的var1重命名 口令:rename var1?样本名 例如:rename var1 province ?也可直接在var1处双击,在弹出的窗口中修改: 接下来将数据转化为面板数据的格式 口令:reshape long var, i(样本名) 例如:reshape long var, i(province) 其中var代表的是所有的年份(var2,var3,var4??) 转化成功后继续重命名,其中_j 这里代表原始表中的年份,var代表该变量的名称 口令例如: rename _j year rename var taxi

也可直接在需要修改的名称处双击,在弹出的窗口中修改 步骤三:排序 口令:sort?变量名 例如:sort province year 意思为将province按升序排列,然后再根据排好的province数列排year这一列 最后,保存。 至此,一个变量的前期数据处理就完成了,请如法炮制的处理所有的变量,也就是说每个变量都做一个dta文件。在处理新变量前请使用 口令:clear 将stata重置 步骤四:合并数据 任意打开一个处理过的变量的dta文件作为基础表(推荐使用因变量的dta文件,这里使用so2作为因变量) 口令:?merge?样本名时间?using?文件路径 例如:merge province year using C:\STUDY\paper\taxi.dta ?意思是将taxi的数据添加到so2的数据表中 然后使用 口令:tab _merge 然后使用 口令:drop _merge 将数据表中的_merge一列去掉, 接着重新使用 口令:sort?样本名时间 例如:sort province year 为新生成的表排序。 如法炮制,将所有的变量都添加到基础表中,

Stata入门之整体介绍

Stata入门介绍 . Stata入门介绍 转载,原作者不详。 (1) Stata要在使用中熟练的,大家应该多加练习。 (2) Stata的很多细节,这里不会涉及,只是选取相对重要的部分加以解释,大家在使用Stata 过程中留心积累。作为入门性质的介绍,本文只选取和中级计量经济学作业相关的内容和一些 处理数据所使用的基本命令。对于更高深的内容,请大家参看STATA manual.” 界面 当我们把stata装好以后,首先需要了解的是它的界面。打开Stata后我们便可以看到它常用的四个窗口:Stata Results; Review; Variables; Stata Command。我们所有的运行结果都会在Stata Results界面中显示;而命令的输入则在Stata Command窗口;Review窗口记录我们使用过的命令;最后Variables窗口显示存在于当前数据库中的所有变量的名称。可以直接点击 Review窗口来重新输入已使用过的命令,我们所需变量可以通过点击Varaibles窗口来得到,这些都可以简便我们的操作。 Stata 命令 Stata软件功能强大,体现在它提供了丰富的命令,可以实现许多功能。每一个stata命令都相应的命令格式。我们在这里介绍常用的一些命令的功能和相应的格式,大家在使用stata的过程中会不断积累命令的相关知识。 需要对命令的帮助时可以用help命令查询。例如了解命令:“reg”,就可以在Stata Command 窗口输入“help reg”,也可以在Help选项下content中查找我们需要的相关命令。用help 查询,则窗口会显示关于该命令的详尽说明。更直接的办法是看Examples中的范例是如何使用该命令,阅读一些相关的说明并加以模仿。 重要习惯 我们使用stata进行回归分析时,需要养成一些好的习惯。在进行一些数据量很大,过程复杂 的分析时尤其重要。 (1)使用日志(log)。它可以帮助我们记录stata的运行结果。 格式:log using c:\stata8\logfiles\10.21.5_30.log (注意:我们需要先建好文件夹c:\stata8\logfiles) 关闭log的命令为“log close”。 格式: log close 那么“10.21.5_30.log”文件就记录了从“log using”命令到“log close”命令之间stata

相关主题
文本预览
相关文档 最新文档