stata简单讲义第六讲
- 格式:doc
- 大小:90.50 KB
- 文档页数:11
第六讲⽅差分析第五章⽅差分析第⼀节概述前⾯介绍了两样本均数⽐较的t 检验,但在实际研究中经常需要多组均数的⽐较。
如:例5.1 患有某种肿瘤的⼤⽩⿏接受不同实验处理后(对照未服药;服抗癌A 药;服抗癌B 药;服抗癌C 药),2周后体内存活的肿瘤细胞数如表5.1所⽰,⽐较不同实验处理后的平均存活肿瘤细胞数是否有差异。
表5.1 不同实验处理后存活肿瘤细胞数(有丝分裂细胞/10个⾼倍镜视野)对照服抗癌A 药服抗癌B 药服抗癌C 药合计48 45 23 5 50 51 20 6 46 47 22 0 52 48 19 2 48 47 21 250 4 N5 6 5 6 22 x48.80 48.00 21.00 3.17 33.45 s2.282.191.582.2320.14本例中共有4种实验处理,在实验设计中称为⼀个因素中的4个⽔平:第⼀个⽔平为对照处理;第⼆个⽔平为服⽤A 药处理;第三个⽔平为服⽤B 药处理;第四个⽔平为服⽤C 药处理。
根据本例的研究问题,相应的假设检验为H 0:µ1=µ2=µ3=µ4 vs H 1:µ1,µ2,µ3,µ4不全相同●不能⽤t 检验进⾏两两⽐较,第⼀类错误会增⼤。
由于本例共有4组的均数需要⽐较。
如果⽤t 检验进⾏两两⽐较,共要进⾏246C =次t 检验。
如果每次t 检验犯第⼀类错误的概率为0.05,则不犯第⼀类错误的概率为0.95,6次都不犯第⼀类错误的概率为60.950.7351=,因此在6次t 检验中⾄少有⼀次犯第⼀类错误的概率为610.950.26490.05-=>>。
由此可见⽤t 检验进⾏多组均数的⽐较会增⼤犯第⼀类错误的概率。
●要⽤⽅差分析或多组的秩和检验(Kruskal Wallis test)的⽅法进⾏多组⽐较:⽅差分析的英⽂全称为Analysis of Variance ,缩写简称为ANOVA 。
Stata简明讲义王非中国经济研究中心ebwf@〇、写在前面的话关于学习Stata的意义,大家只需知道:目前,Stata是计量经济学、特别是微观计量经济学的主流软件。
因此,Stata很重要、很有用,而大家也会在使用Stata 的过程中慢慢体会到它的特点。
本讲义取名为“Stata简明讲义”,意在突出“简”和“明”两个字。
虽然讲义长达五十多页,但相比Stata的完全手册来说,还不及九牛之一毛,故为“简”。
实际上,完全手册中的很多内容都鲜有人(特别是计量经济学者)问津,而本讲义列出的内容则是大家经常用到的操作;所以,“简”也有“简”的好处。
即便如此,掌握这份讲义也并非易事。
所谓“明”,是明晰的意思。
本讲义本着“手把手教”的精神,力求把每项操作都说得具体明晰,以方便初学者(特别是没有程序操作经历的初学者)尽快上手。
至于本讲义在“简明”上做得怎么样,还需要各位读者来评判。
中心的一位学长邹传伟,曾经写过一份“Stata介绍”,在网上可以下载。
那份讲义比较全面,但不够具体明晰。
本讲义参照那份讲义,在框架上查漏补缺,并进一步地明晰化。
本讲义第二部分的“do文件”和第七部分的“残差分析”的相关内容均来自于中心的沈艳老师的相关讲义,而沈老师对于本讲义的成形给予了细致的指导。
本讲义附带了一些数据文件,其中“WAGE1.dta”和“WAGEPRC.dta”均来自Wooldridge的中级计量教材的数据集,而其他数据则为作者自己的杜撰。
尽管从别人那里拿来了许多好东西,但本讲义的任何错误仍源于作者自己的疏忽。
本讲义是这样安排的:第一部分讲Stata的界面,第二部分讲do文件,第三部分讲怎样把数据导入Stata,第四部分专门讲help和search命令以及帮助文件的阅读方法,第五部分讲数据的描述及管理,第六部分讲如何画图,第七部分讲初步的回归分析。
祝各位学习愉快。
一、Stata长什么样?首先,让我们看看Stata长什么样。
我们以Stata 9.1(以下简称Stata)为例。
Stata及数据处理目录第一章STATA基础 (3)1.1 命令格式 (4)1.2 缩写、关系式和错误信息 (6)1.3 do文件 (6)1.4 标量和矩阵 (7)1.5 使用Stata命令的结果 (8)1.6 宏 (10)1.7 循环语句 (11)1.8 用户写的程序 (15)1.9 参考文献 (15)1.10 练习 (15)第二章数据管理和画图 (18)2.1数据类型和格式 (18)2.2 数据输入 (19)2.3 画图 (21)第3章线性回归基础 (22)3.1 数据和数据描述 (22)3.1.1 变量描述 (23)3.1.2 简单统计 (23)3.1.3 二维表 (23)3.1.4 加统计信息的一维表 (26)3.1.5 统计检验 (26)3.1.6 数据画图 (27)3.2 回归分析 (28)3.2.1 相关分析 (28)3.2.2 线性回归 (29)3.2.3 假设检验 Wald test (30)3.2.4 估计结果呈现 (30)3.3 预测 (34)3.4 Stata 资源 (35)第4章数据处理的组织方法 (36)1、可执行程序的编写与执行 (36)方法1:do文件 (36)方法2:交互式-program-命令 (36)方法3:在do文件中使用program命令 (38)方法4:do文件合并 (39)方法5:ado 文件 (40)2、do文件的组织 (40)3、数据导入 (40)4、_n和_N的用法 (44)第一章STATA基础STATA的使用有两种方式,即菜单驱动和命令驱动。
菜单驱动比较适合于初学者,容易入学,而命令驱动更有效率,适合于高级用户。
我们主要着眼于经验分析,因而重点介绍命令驱动模式。
图1.1Stata12.1的基本界面关于STATA的使用,可以参考Stata手册,特别是[GS] Getting Started with Stata,尤其是第1章A sample session和第2章The Stata User Interface。
Stata学习讲义刘志阔一、如何导入数据Stata的数据处理功能是极其强大的,不过我们最好在excel中整理数据,然后导入到stata中就可以了。
命令:insheet using name.csv*注意,Stata只能用csv格式,另外把数据放到stata的目录中。
二、如何进行回归Stata中有很多命令,这些命令都是现成的,直接用就可以了。
不过,怎么用是个问题。
熟悉命令的基础上学会如何使用Help。
最简单的命令reg做ols回归,xtreg处理面板等。
命令:reg y x*注意,Stata命令的格式,自己回去看手册。
网络帮助可以采用如下命令获得findit scat3, net;search scat3, net三、如何导出结果Stata可以直接导出发表论文中回归结果,当然不是完全一样。
命令:outreg2 Results using name.word四、如何画图Stata的画图功能也是极其强大的,可以画出各种类型的图标。
命令:scatter y x || lfit y x五、如何存储结果Stata可以储存回归结果,便于分析。
命令:log using name log closed1.codebook可以查看数据有没有缺失2.xml_tab estout 可以输出结果3.qui tab year, gen(yr) 可以生产时间虚拟变量。
4.g q=quarterly( qtr,"YQ")5.form q %tq6.recode province (min/11=1) (12/19=2) (20/31=3)gen eastern=(province==1)gen middle=(province==2)gen western=(province==3)Logout 命令可以把界面内容存到word里面,而不用复制。
Logout,save(名称) word/excel replace:各种描述性命令,statsXml_tab可以输出Excel格式的结果。
第六讲配伍区组设计资料的统计分析的Stata实现例1 某研究者用某药物治疗高血压患者10名,治疗前后舒张压的变化情况见表9-1。
表9-1 10名患者用某药物治疗后的舒张压测定值(mmHg)患者编号(1)治疗前(2)治疗后(3)差值d(4)=(3)-(2)12 3 4 5 67 89 10 115110129109110116116116120104116901088992901101208896-120212218266- 4328Stata数据为:Stata命令为:ttest x1= x2结果为:P=0.0035,治疗前后舒张压有差别,治疗后下降。
例2为了解不同治疗方法对高胆固醇血症的疗效,根据专业要求,在采取相关清洗或洗脱措施,保证相邻两次疗效不受影响的前提下,某研究者用3种不同方法对9只受试动物进行实验,其血浆胆固醇测定值(mmol/L)见表9-3。
表9-3 3种治疗方法的血浆胆固醇测定结果(mmol/L)动物编号甲方法乙方法丙方法1 2 3 4 5 6 10.106.7813.227.787.476.116.695.4012.676.565.655.267.746.8310.957.206.855.887 89 6.028.087.565.436.265.065.797.876.45Stata数据为:Stata命令为:结果为:P=0.0006,3种不同方法得到的血浆胆固醇测定值(mmol/L)不全相同。
例3将30只小白鼠按体重、性别、窝别、活泼性分成10个区组,每个区组的3只小白鼠随机分配到3个实验组,分别以不同蛋白质饲料进行喂养,60天后测量小白鼠的体重增加量(g),数据如表9-4。
表9-4 三种饲料喂养30只小白鼠的体重增加量(g)区组饲料ⅠⅡⅢ1 2 3 4 5 6 7 8 9 10 304041413648334537323344625244414955534877687681847875737472Stata数据为:1. 建立检验假设,确定检验水准 针对处理组H 0:三种不同饲料喂养的小白鼠体重平均增加量相同H 1:三种不同饲料喂养的小白鼠体重平均增加量不同或不全相同05.0=α针对区组H 0:对于任何一种饲料喂养,10个区组的小白鼠平均体重增加量相同 H 1:对于任何一种饲料喂养,10个区组的小白鼠平均体重增加量不同或不全相同05.0=αStata命令为:结果为:则P处理<0.01,P区组>0.05,表9-6中P值为统计软件计算后直接给出的数值。
线性相关和回归
赵耐青
在实际研究中,经常要考察两个指标之间的关系,即:相关性。
现以体重与身高的关系为例,分析两个变量之间的相关性。
要求身高和体重呈双正态分布,既:在身高和体重平均数的附近的频数较多,远离身高和体重平均数的频数较少。
样本相关系数计算公式(称为Pearson 相关系数):
)
()
()
)((2
2
YY
XX
XY L L L Y Y X X Y Y X X r =
----=
∑
∑
∑
(1)
1. 考察随机模拟相关的情况。
显示两个变量相关的散点图程序simur.ado (本教材配套程序,使用见前言)。
命令为simur 样本量 总体相关系数 如显示样本量为100,ρ=0的散点图 本例命令为simur 100 0
如显示样本量为200,ρ=0.8的散点图本例命令为simur 200 0.8
如显示样本量为200,ρ=0.99的散点图本例命令为simur 200 0.99
如显示样本量为200,ρ=-0.99的散点图
本例命令为simur 200 -0.99
例1. 测得某地15名正常成年男子的身高x(cm)、体重y(kg)如试计算x和y之间的相关系数r并检验H0:ρ=0 vs H1: ρ≠0。
α=0.05
数据格式为
176.0 69.0
175.0 74.0
172.0 68.0
170.0 64.0
173.0 68.5
168.0 56.0
172.0 54.0
170.0 62.0
172.0 63.0
173.0 67.0
168.0 60.0
171.0 68.0
172.0 76.0
173.0 65.0
Stata命令pwcorr 变量1 变量2 …变量m,sig
本例命令pwcorr x y,sig
pwcorr x y,sig
Pearson相关系数=0.5994,P值=0.0182<0.05,因此可以认为身高与体重呈正线性相关。
注意:Pearson相关系数又称为线性相关系数并且要求X和Y双正态分布,通常在检查中要求X服从正态分布并且Y服从正态分布。
如果不满足双正态分布时,可以计算Spearman相关系数又称为非参数相关系数。
Spearman相关系数的计算基本思想为:用X和Y的秩代替它们的原始数据,然后代入Pearson相关系数的计算公式并且检验与Pearson 相关系数类同。
Stata实现
spearman x y
stata计算结果与手算的结果一致。
结论为身高与体重呈正相关,并且有统计学意义。
直线回归
例2 为了研究3岁至8岁男孩身高与年龄的规律,在某地区在3岁至8岁男孩中随机抽样,共分6个年龄层抽样:3岁,4岁,…,8岁,每个层抽10个男孩,共抽60个男孩。
资料如下:
60个男孩的身高资料如下
年龄3岁4岁5岁6岁7岁8岁
身高92.5 96.5 106.0 115.5 125.5 121.5 97.0 101.0 104.0 115.5 117.5 128.5 96.0 105.5 107.0 111.5 118.0 124.0
96.5 102.0 109.5 110.0 117.0 125.5 97.0 105.0 111.0 114.5 122.0 122.5 92.0 99.5 107.5 112.5 119.0 123.5 96.5 102.0 107.0 116.5 119.0 120.5 91.0 100.0 111.5 110.0 125.5 123.0 96.0 106.5 103.0 114.5 120.5 124.0 99.0 100.0 109.0 110.0 122.0 126.5 平均身高
95.4 101.8 107.6 113.1 120.6 124.0
由于男孩的身高与年龄有关系,不同的年龄组的平均身高是不同的,由平均身高与年龄作图可以发现:年龄与平均身高的点在一条直线附近。
考虑到样本均数存在抽样误差,故有理由认为身高的总体均数与年龄的关系可能是一条直线关系x
μαβ=+y
,其中y 表示身高,x 表示
年龄。
由于身高的总体均数与年龄有关,所以更正确地标记应为
x
μαβ=+y|x
表示在固定年龄情况下的身高总体均数。
上述公式称为直线回归方程。
其中β为回归系数(regression coefficient ),或称为斜率(slope );α称为常数项(constant ),或称为
截距(intercept)。
回归系数β表示x变化一个单位y平均变化β个单位。
当x和y都是随机的,x、y间呈正相关时β>0,x、y间呈负相关时β<0,x、y间独立时β=0。
一般情况而言,参数α和β是未知的。
对于本例而言,不同民族和不同地区,α和β往往是不同的,因此需要进行估计的。
由于不同年龄的身高实际观察值应在对应的身高总体均数附近(即:实际观察值与总体均数之间仅存在个体变异的差异),故可以用年龄和实际身高观察值的资料对未知参数α和β进行估计。
得到样本估计的回归方程
ˆy a bx
=+
二、直线回归方程的建立
直线回归分析的Stata实现:
数据结构:
392.5
397
396
396.5
397
392
396.5
391
396
399
496.5
4101
4105.5
4102
4105
499.5
4102
4100
4106.5 4100 5106 5104 5107 5109.5 5111 5107.5 5107 5111.5 5103 5109 6115.5 6115.5 6111.5 6110 6114.5 6112.5 6116.5 6110 6114.5 6110 7125.5 7117.5 7118 7117 7122 7119 7119 7125.5 7120.5 7122 8121.5 8128.5 8124 8125.5 8122.5 8123.5 8120.5 8123 8124 8126.5
多重线性回归命令为
regress 因变量 自变量1 自变量2 ……自变量m 直线回归命令regress 因变量 自变量 本例为 regress y x ,得到下列结果:
得到回归系数b=5.854286,常数项a=78.18746,回归系数的检验统计量t b =27.88,P 值<0.0001,可以认为Y 与X 呈直线回归关系。
来源 平方和SS 自由度df
均方MS F P 值 回归 5997.71571 1 5997.71571 777.41
<0.0001
残差 447.467619 58 7.71495895
合计
6445.18333
59
称2
1SS R
SS =-
残差合计
为决定系数(本例Stata 计算结果R-squared=0.9306),因此
0≤R 2≤1,因此残差平方和SSE 越小,决定系数R 2就越接近1。
特别当所有的残差为0时,SSE=0,相应的决定系数R 2=1。
决定系数R 2表示y 被x 所解释的部分所占的百分比,R 2越接近于1说明x 对y 的解释越充分。
残差=应变量观察值(y )-预测值(ˆy
) Stata 的残差计算命令
在输入回归命令regress y x后,再
输入predict e,residual计算残差并用变量e表示残差
输入sktest e残差的正态性检验
输入predict yy 计算预测值。
残差正态性检验(H0:残差正态分布,α=0.05)
P值=0.5534>>0.05,可以认为残差呈正态分布。
所建立的回归方程是否有意义,仅凭借假设检验的结论或R2的大小还不能充分说明问题。
残差Y
=的大小直接反应回归方程的
-
Y
eˆ
优劣,经常采用图示的方法,以e做纵轴,Yˆ为横轴作图来考察残差的变化,如果残差比较均匀地散布在e=0的周围,没有明显的散布趋势和明显的离群点,则说明所建回归方程比较理想,否则要借助统计软件做进一步诊断。
graph 残差预测值
本例graph e yy
说明残差比较均匀地散布在e=0的周围,没有明显的散布趋势和明显的离群点,故说明所建回归方程比较理想。