stata笔记
- 格式:doc
- 大小:83.00 KB
- 文档页数:14
《社会研究方法》课程笔记第一章:导论一、定量研究与定性研究1. 定量研究定义:定量研究是一种基于数学和统计学的社会科学研究方法,它通过量化的方式来收集和分析数据,以便对社会现象进行描述、解释和预测。
特点:- 数据量化:定量研究依赖数字数据,这些数据可以通过问卷调查、实验等方式收集。
- 可操作性:定量研究通常具有较高的可操作性,可以通过标准化流程进行重复。
- 统计分析:定量研究使用统计学方法来分析数据,从而得出普遍性结论。
分类:- 描述性统计:涉及数据的收集、整理、描述和展示,如频数分布、平均数、中位数等。
- 推断性统计:从样本数据推断总体特征,包括假设检验、置信区间、相关分析和回归分析等。
2. 定性研究定义:定性研究是一种探索性的研究方法,它通过非数字化的手段来理解社会现象的深层含义和背景。
特点:- 数据非量化:定性研究侧重于文字、图像、声音等非数字数据。
- 灵活性:定性研究方法更加灵活,可以根据研究进展进行调整。
- 深入理解:定性研究旨在深入理解个体的经验、观点和行为的背景。
分类:- 田野调查:研究者深入到研究对象的生活环境中,进行长期的观察和记录。
- 访谈法:通过与研究对象进行深入对话,收集他们的看法和经验。
- 内容分析:对文本、图像、视频等资料进行系统分析,以揭示其中的主题和模式。
二、社会研究的方法体系1. 研究方法论研究方法论是对研究方法和过程的哲学思考,它包括:- 研究范式:指导研究的基本信念和假设,如实证主义、建构主义等。
- 研究逻辑:研究推理的逻辑结构,如归纳推理和演绎推理。
- 研究伦理:研究过程中应遵循的伦理原则,如知情同意、隐私保护等。
2. 研究方法研究方法是实现研究目的的具体手段,包括:- 数据收集方法:如问卷调查、访谈、观察、实验等。
- 数据处理方法:如数据编码、数据清洗、数据转换等。
- 数据分析方法:如统计分析、主题分析、案例研究等。
3. 研究技术研究技术是指研究过程中使用的工具和技巧,例如:- 问卷设计技巧:如何设计有效、可靠的问题。
倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。
基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。
但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。
匹配法就是为了解决这种不可观测事实的方法。
在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。
倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。
入门指南Free Guide简体中文 Chinese SimplifiedMAXQDA 2022 入门指南简体中文技术支持与销售:VERBI软件. 德国(柏林)社会研究咨询有限责任公司./china版权所有·侵权必究MAXQDA is a registered trademark of VERBI Software. Consult. Sozialforschung. GmbH,Berlin/Germany; Mac is a registered trademark of Apple Computer, Inc. in the United States and/or other countries; Microsoft Windows, Word, Excel, and PowerPoint are registered trademarks of Microsoft Corporation in the United States and/or other countries; SPSS is a registered trademark of IBM Corporation in the United States and/or other countries; Stata is a registered trademark of Stata Corp LLC. in the United States and/or other countries.All other trademarks or registered trademarks are the property of their respective owners, and may be registered in the United States and/or other jurisdictions.© VERBI软件. 德国(柏林)社会研究咨询有限责任公司. 2022目录 5目录目录 (5)引言 (7)MAXQDA概述 (8)项目启动 (8)用户界面 (9)有关数据存储和保存的几条说明 (11)重要概念 (12)数据输入和探索 (13)数据输入 (13)数据探索 (14)数据搜索 (17)颜色编码和备忘录 (18)数据编码 (20)数据片段编码 (20)数据分析 (23)文件激活 (23)检索使用相同代码编码的文件片段 (24)可视化的使用 (25)6混合方法分析的实施 (26)定义文件变量 (26)变量值的输入 (27)将代码频率转化为变量 (28)文件变量在分析中的使用 (29)推荐文献 (30)结束语 (31)引言7引言欢迎使用MAXQDA入门指南!鉴于当下几乎无人喜欢阅读冗长的介绍性文本或使用手册,我们努力为您提供一份尽可能精短的指南。
倾向得分匹配法(PSM )举例及stata 实现——读书笔记【例】培训对工资的效应1政策背景:国家支持工作示范项目(National Supported Work,NSW )研究目的:检验接受该项目(培训)与不接受该项目(培训)对工资的影响。
基本思想:分析接受培训组(处理组,treatment group )接受培训行为与不接受培训行为在工资表现上的差异。
但是,现实可以观测到的是处理组接受培训的事实,而处理组没有接受培训会怎样是不可能观测到的,这种状态也成为反事实(counterfactual )。
匹配法就是为了解决这种不可观测事实的方法。
在倾向得分匹配方法(Propensity Score Matching )中,根据处理指示变量将样本分为两个组,一是处理组,在本例中就是在NSW 实施后接受培训的组;二是对照组(comparison group ),在本例中就是在NSW 实施后不接受培训的组。
倾向得分匹配方法的基本思想是,在处理组和对照组样本通过一定的方式匹配后,在其他条件完全相同的情况下,通过接受培训的组(处理组)与不接受培训的组(对照组)在工资表现上的差异来判断接受培训的行为与工资之间的因果关系。
变量定义:变量 定义TREAT * 处理指示变量,1表示接受培训(处理组),0表示没有接受培训(对照组)AGE 年龄(年)EDUC 受教育年数(年)BLACK 种族虚拟变量,黑人时,1BLACK =HSIP 民族虚拟变量,西班牙人时,=1HSIPMARR婚姻状况虚拟变量,已婚,1MARR = 74RE 1974年实际工资(1982年美元)75RE 1975年实际工资78RE 1978年实际工资74U 当在1974年失业,741U =75U当在1975年失业,751U = NODEGREE 当12EDUC <时,1NODEGREE =,否则为0 AGESQAGE AGE × 1 本例选自Cameron&Trivedi 《微观计量经济学:方法与应用》(中译本,上海财经大学出版社,2010)pp794-800 所有数据及程序均来自于本书的配套网站(/mmabook/mmaprograms.html )。
1.一般检验假设系数为0,t比较大则拒绝假设,认为系数不为0.假设系数为0,P比较小则拒绝假设,认为系数不为0.假设方程不显著,F比较大则拒绝假设,认为方程显著。
2.小样本运用OLS进行估计的前提条件为:(1)线性假定。
即解释变量与被解释变量之间为线性关系。
这一前提可以通过将非线性转换为线性方程来解决。
(2)严格外生性。
即随机扰动项独立于所有解释变量:与解释变量之间所有时候都是正交关系,随机扰动项期望为0。
(工具变量法解决)(3)不存在严格的多重共线性。
一般在现实数据中不会出现,但是设置过多的虚拟变量时,可能会出现这种现象。
Stata可以自动剔除。
(4)扰动项为球型扰动项,即随即扰动项同方差,无自相关性。
3.大样本估计时,一般要求数据在30个以上就可以称为大样本了。
大样本的前提是(1)线性假定(2)渐进独立的平稳过程(3)前定解释变量,即解释变量与同期的扰动项正交。
(4)E(XiXit)为非退化矩阵。
(5)gt为鞅差分序列,且其协方差矩阵为非退化矩阵。
与小样本相比,其不需要严格的外生性和正太随机扰动项的要求。
4.命令稳健标准差回归:reg y x1 x2 x3, robust 回归系数与OLS一样,但标准差存在差异。
如果认为存在异方差,则使用稳健标准差。
使用稳健标准差可以对大样本进行检验。
只要样本容量足够大,在模型出现异方差的情况下,使用稳健标准差时参数估计、假设检验等均可正常进行,即可以很大程度上消除异方差带来的副作用对单个系数进行检验:test lnq=1线性检验:testnl _b[lnpl]=_b[lnq]^25.如果回归模型为非线性,不方便使用OLS,则可以采取最大似然估计法(MLE),或者非线性最小二乘法(NLS)6.违背经典假设,即存在异方差的情况。
截面数据通常会出现异方差。
因此检验异方差可以:(1)看残差图,但只是直观,可能并不准确。
rvfplot (residual-versus-fitted plot) 与拟合值的散点图rvpplot varname (residual-versus-predictor plot) 与解释变量的散点图扰动项的方差随观测值而变动,表示可能存在异方差。
(2)怀特检验:estat imtest, white (post-estimation information matrix test)P比较小,则拒绝同方差假设,表示存在异方差,不能用OLS。
反之则证明为同方差。
(3)BP检验estat hettest,iid (默认设置为使用拟合值y^)estat hettest, rhs iid (使用方程右边的解释变量,而不是y^)estat hettest [ varlist],iid (使用某个指定的解释变量)P小,则拒绝原假设。
如果存在异方差,则可以:(1)使用OLS+稳健标准差robust(2)广义最小二乘法(GLS)(3)加权最小二乘法(WLS)predict el, res (预测残差)g e2=el^2辅助回归:g lne2=log(e2)reg lne2 lnq, nocpredict lne2f 计算辅助回归的拟合值g e2f=exp(lne2f) 去掉对数即权重之倒数reg lntc lnq lnpl lnpk lnpf [aw=1/e2f]reg y x1 x2 x3 [aw=1/var] (aw表示analytical weight, var表示随即扰动项的方差。
)或者:predict u, residualspredict yf, xbgen lnu2=ln(u^2)gen yf2=yf^2quietly reg lnu2 yf yf2predictnl u2f = exp (xb())gen sd=sqrt(u2f)vwls lntc lnq lnpl lnpf lnpk , sd(sd)(4)可行广义最小二乘法(FGLS)FGLS所做的过程和GLS一样,只是GLS假设扰动项的方差已知,若要用GLS,必须计算得到扰动项方差,而FGLS则是在未知方差的情况下求方差并最终通过将异方差转换为同方差后再运用OLS的结果。
因此,GLS和FGLS在过程上是一致的。
6.自相关时间序列中容易出现自相关,而截面数据也可能存在空间自相关。
人为处理数据如移动平均等做法也可能导致自相关。
检验自相关可以:(1)作图,但并不严格。
定义滞后算子L.(只有时间序列数据和面板数据才能定义时间变量。
)tsset yaear一阶差分:D.x=xt-xt-1 D2. X=xt-xt-2LD. 表示一阶差分的滞后值画图:scatter el L.elac el (看自相关图)pac el (看偏相关图)(2)BG检验estat bgodfrey (默认p=1)estat bgodfrey,lags(p)estat bgodfrey,nomiss0 (使用不添加0的BG检验)使用命令ac 查看自相关图,或者设置较大的p值进行显著性检验,t期不显著了,则选择P=T-1统计检验P值小,则拒绝假设。
(3)box-pierce Q检验/ Ljung-Box Qreg y x1 x2 x3predict el, residwntestq el (使用stata提供的默认滞后期)wntestq el, lags(p) (使用自己设定的滞后期)(4)DW检验:现在已经不常用,因为其只能检验一阶自相关。
estat dwatson自相关的处理方法:(1)使用OLS+异方差自相关稳健的标准差(Heteroskedasticity and Autocorrelation Consistent Standard Error, HAC)newey y x1 x2 x3, lag(p) (HAC标准差,必须制定滞后阶数p)滞后期数选择n^1/4(2)使用OLS+聚类稳健的标准差(cluster robust standard error)面板数据中经常使用聚类稳健的标准差。
reg y x1 x2 x3, cluster(state) (聚类稳健标准差,假设“state”为聚类变量)(3)使用可行广义最小二乘法(FGLS)prais y x1 x2 x3 (使用默认的PW估计法)prais y x1 x2 x3, corc (使用CO估计法)(4)修改模型设定,可能自相关是由于遗漏了自相关的解释变量。
7多重共线性在回归后,使用命令VIFestat vif 经验表示,vif <10, 则不存在多重共线性。
如果存在多重共线性,但是只关心整个方程预测被解释变量的能力,或者只关心变量的显著性,则不必理会多重共线性,因为多重共线性只是对单个解释变量的解释能力估计出现了偏差。
存在多重共线性,则逐个剔除。
8.遗漏变量(解决扰动项严格外生性的问题)遗漏变量与解释变量不相关时,扰动项与解释变量不相关,OLS估计依然一致,但扰动项方差过大,影响估计的精确度如果遗漏变量与解释变量相关,扰动项与解释变量则会相关,导致OLS估计不再一致。
出现“遗漏变量偏差”。
所以可以不研究某些解释变量而只对感兴趣的解释变量进行研究,但是重要的是遗漏解释变量不能与解释变量相关。
解决遗漏解释变量的方法有:(1)加入尽可能多的控制变量(control varible),从理论上说明遗漏变量与扰动项不相关,或很弱的相关(2)使用代理变量(proxy variable),这在控制变量不可得的时候采用,如用IQ代替能力(3)工具变量法(4)使用面板数据(短面板、长面板、动态面板)(5)随即实验和自然实验9.选择解释变量的个数的时候,要选择适当的方式。
(1)按照变量个数使得矫正可决系数最大的准则选择个数(如果加入变量,反倒A-R变小,则去掉加入的变量。
)(2)赤池信息准则(AIC akaike Information Criteria)(3)贝叶斯信息准则(Bayesian Information Criteria)(4)汉南-昆信息准则(Hanan-Quinn Information Criteria)但这一准则不常用命令:estat ic取AIC BIC 最大时候的变量个数10.处理极端数据:reg y x1 x2 x3predict lev, leverage (列出所有解释变量的影响力值)gsort –lev (将所有的观测值按照lev的降序排列)sum lev (看LVE的最大值和平均值)list lev 1/3 (列出影响力最大的三个值)可以将极端数据加入和省略进行对比。
10虚拟变量M个定性的量,最多可以有(M-1)个虚拟变量设置虚拟变量:generate d=(year>=1978)如希望将每个省设置为虚拟变量,则需要:tabulate province, generate(pr)回归简化为:reg y x1 x2 x3 pr2-pr3111.工具变量法这可以解决扰动项与自变量的相关问题,设置的工具变量需要与扰动项无关而与内生解释变量相关。
传统的工具变量法一般通过两阶段最小二乘法TSLS、2SLS(two stage least square)。
第一阶段,工具变量对内生解释变量回归;第二阶段,被解释变量对工具变量的拟合值进行回归。
多个工具变量的线性组合仍然可以作为工具变量。
命令:ivregress 2sls depvar [varlist1] (varlist2=inslist)Depvar为被解释变量,varlist1为外生解释变量,varlist2为内生解释变量,instlist 为工具变量。
如:ivregress 2sls y x1 (x2 = z1 z2)ivregress 2sls y x1 (x2 x3 = z1 z2 z3 z4), r first (r表示用异方差的标准差,first表示在结果中显示第一阶段的回归。
)在面板数据中执行2SLS可以用:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (详见help xtivreg)检验工具变量与解释变量的相关性:即检验工具变量是否为弱工具变量,命令:estat firststage, all forcenonrobust (all表示显示每个内生变量的统计量,而非仅仅所有内生变量综合的统计量,forcenonrobust表示及时在进行工具变量法时用了稳健标准差,也仍然允许计算estat firststage)解决弱工具变量的方法包括A.寻找更强的工具变量B.弱工具变量较多,则舍弃弱工具变量,C.用有限信息最大似然估计法(Limited information maximum likelihood estimation, LIML)LIML与2SLS渐进等价,但在弱工具变量的情况下,LIML的小样本性质可能优于2SLS.命令为:ivregress liml depvar [varlist 1] (varlist2 = instlist)过度识别(即多余的工具变量的个数)命令为:estat overid 但并不能告诉哪些工具变量无效。