忽略干扰因素,内生性,遗漏变量偏差及相关问题下的估计
- 格式:pdf
- 大小:1000.37 KB
- 文档页数:7
回归分析是一种统计学方法,用于研究自变量与因变量之间的关系。
在实际应用中,有时候因变量受到多个因素的影响,而这些因素之间可能存在内生性或者遗漏变量的问题。
为了解决这些问题,研究者可以采用二阶段最小二乘法进行回归分析。
本文将分析二阶段最小二乘法的应用技巧,以及在实际研究中的一些注意事项。
一、二阶段最小二乘法的基本原理二阶段最小二乘法是一种用于处理内生性和遗漏变量的回归分析方法。
它的基本原理是将回归方程分为两个阶段进行估计。
在第一阶段,研究者利用外生变量对内生变量进行预测,得到预测值。
在第二阶段,研究者将这些预测值作为新的自变量,与因变量进行回归分析。
通过这种方法,可以有效地解决内生性和遗漏变量的问题,提高回归分析的准确性和可靠性。
二、二阶段最小二乘法的应用技巧在实际应用中,研究者需要注意一些技巧,以确保二阶段最小二乘法的有效性和准确性。
首先,研究者需要选择合适的外生变量来预测内生变量。
外生变量应该与内生变量有一定的相关性,同时又与遗漏变量无关,以确保预测的准确性和可靠性。
其次,在进行第二阶段的回归分析时,研究者需要检验预测值与实际值之间的相关性,以确保预测的有效性。
除此之外,研究者还需要注意控制可能存在的遗漏变量。
遗漏变量可能会对回归分析的结果产生影响,因此在选择外生变量和进行回归分析时,需要对可能存在的遗漏变量进行控制。
此外,研究者还需要注意样本选择和数据质量的问题,以确保回归分析的可靠性和有效性。
三、二阶段最小二乘法的实际案例为了更好地理解二阶段最小二乘法的应用技巧,我们可以通过一个实际案例来进行分析。
假设我们要研究教育水平对个体收入的影响,而教育水平受到家庭背景的影响。
在这种情况下,我们可以利用家庭背景作为外生变量,对教育水平进行预测。
在第二阶段,我们将预测的教育水平与个体收入进行回归分析,从而得到教育水平对个体收入的影响。
在这个案例中,我们需要注意选择合适的外生变量,并进行预测的有效性和准确性。
内生性问题引言:内生性问题是指与一个系统、组织或现象内在联系紧密、相互影响、互为因果的问题。
这些问题既不是纯粹由外部因素所引起,也不是完全由内部因素所导致,而是两者相互作用的结果。
内生性问题在社会科学领域尤为常见,包括经济学、政治学、社会学等。
一、内生性问题的定义内生性问题在研究中意味着变量之间存在相互影响关系,不仅自变量影响因变量,同时也可能因变量对自变量产生影响。
这种相互影响可以是正向的也可以是负向的,有时甚至是复杂的回馈关系。
内生性问题的存在使得我们需要更加谨慎地解读数据和分析结果,以避免产生误导性的结论。
二、内生性问题的原因内生性问题的主要原因在于变量之间的复杂关系。
一方面,变量之间可能存在遗漏变量问题。
在研究中,我们不能将所有可能影响因变量的因素都纳入考虑,有些变量可能被忽略而导致结果出现偏差。
另一方面,变量之间也可能存在反向因果关系。
因变量可能同时作为自变量影响其他因变量,这种复杂的关系造成了内生性问题的存在。
三、内生性问题的解决方法为了解决内生性问题,研究者可以采用以下方法:1. 仔细控制变量:通过控制可能产生内生性问题的其他变量,使得自变量与因变量之间的关系更加可靠。
这可以通过实验设计、随机分配处理组和对照组等方法来实现。
2. 使用工具变量:工具变量是一种在经济学领域中常用的解决内生性问题的方法。
它通过引入一个与自变量相关但不直接影响因变量的变量来进行分析。
通过工具变量的引入,可以排除内生性问题对研究结果的影响。
3. 进行因果推断:通过仔细验证变量之间的因果关系,可以帮助我们更清楚地了解内生性问题的存在。
借助因果推断的方法,可以准确地解释变量之间的相互作用,并确定影响因变量的主要因素。
四、内生性问题的影响内生性问题的存在会对研究结果产生明显的影响。
如果不加以解决,内生性问题可能导致对因果关系的错误解读,使得研究结论产生偏差,缺乏可靠性和有效性。
此外,内生性问题还可能使得研究结果的泛化能力受到限制,难以推广到其他情境或群体。
公共管理与政策研究中的实地实验:因果推断与影响评估的视角王思琦【摘要】实验方法作为统计学因果推断的重要方法,在公共管理与公共政策研究中得到了越来越多的应用.实地实验作为实验方法的新发展,相比传统的实验室实验和调查实验具有更高的外在效度和现实应用价值,被广泛用于变量之间的因果推断及政策与项目的影响评估中.论文在解释实验方法的统计学因果推断基础、并比较各类实验优劣势之后,举例分析了实地实验的基本原理、程序和可能出现的各种现实问题,并以公共政策影响评估为切入点讨论了中国公共管理与政策研究中使用实地实验方法面临的挑战与机遇.【期刊名称】《公共行政评论》【年(卷),期】2018(011)001【总页数】25页(P83-107)【关键词】因果推断;实地实验;准实验;自然实验;影响评估【作者】王思琦【作者单位】西南交通大学公共管理与政法学院【正文语种】中文【中图分类】D63一、引言实地实验(Field Experiments,也称为田野实验或现场实验)方法是近年来社会科学实验方法发展的一个新阶段。
相比于传统的观察研究(Observational Studies),如社会科学研究方法中最常用的问卷调查与管理数据分析等,实验研究(Experimental Studies)对模型设定(Specification)和变量控制的依赖程度较小,因此不必限定过多的假设条件和想方设法找出各种控制变量。
同时,实验方法通过随机分配(Random Assignment)和进行干预(Treatment,也称为处理),能够有效克服内生性(Endogeneity)、遗漏变量(Omitted Variable)、混淆变量(Confounder)、样本选择性偏误(Selection Bias)等统计推断中的常见问题。
作为目前社会科学因果推断(Causal Inference)的前沿方法,实验方法受到了越来越多的关注与应用。
在实验方法内部,不同于经典的实验室实验(Lab Experiments)通常招募学生作为实验被试(Subjects)、采用抽象的激励手段(金钱或点数)来研究诸如拍卖、决策、偏好等心理学和博弈论的理论问题。
硕士毕业论文内生性问题学术研究人员通常对因果性(Causality)问题感兴趣,而在经济、金融以及管理领域的实证研究中,往往因为研究过程中存在内生性(Endogeneity)问题导致理想的因果推断难以实现。
建立因果关系最清晰的方法是进行一个理想的随机试验,其中x(自变量)对y(因变量)的因果效应通过随机抽样分离出来。
也就是说,对不同水平的预测变量x进行随机抽样,可以确保在足够的样本量下,当理想条件得到满足时,实验效应(研究中已考虑的那些因素)与被忽略的因素无关。
随机试验并非没有问题,但原则上,它们不会产生内生性问题。
然而,随机试验并不总是可行的,因此研究人员经常在不可能进行随机试验的情况下使用档案数据、准实验或调查数据等替代方法。
在分析这类数据时,问题是我们能否用估计系数近似表示在理想实验中可能确定的因果效应。
为了使因果推断有效,必须满足分析方法的假设(例如,普通最小二乘法[OLS]回归、结构方程建模[SEM])。
值得关注的是外生性假设(即内生性不存在)——也就是说,给定预测变量的任何实例,模型中的残差的预期值为零,因此预测变量和残差之间没有相关性。
例如,一个估计方程y = a + Bx +u,其中y是被解释变量,x是解释变量,a是模型中的常数(截距),B是估计系数,u是残差。
内生性问题(Endogeneity issue) 是指模型中的一个或多个解释变量与误差项存在相关关系,即观察到的预测因子x与未观察到的剩余u相关。
学者称u是任何分析中最重要的部分,因为u包含无数可能影响y的不可观察因素。
捕捉和定义这种关系的困难在于,理解u本质上是一种理论操作,因为u包含x没有包括的所有信息。
当研究者不能用随机试验的方式来排除内生性问题时,他们必须提供理论、实证证据,证明x与u无关。
产生内生性的四个原因1. 遗漏变量回归方程的残差中还包括哪些其他预测因素或结构?这些因素是否也可能与预测变量相关?示例一:X=工作满意度,Y=工作表现,个人的负面影响可能与这两个变量相关,例如一个人的坏心情会影响到工作满意度,也会影响到其工作表现,这会导致“员工工作满意度和工作表现之间”的因果推断受到干扰。
回归分析是统计学中常用的一种方法,通过对自变量和因变量之间的关系进行建模和分析,以预测、解释或控制变量之间的关系。
其中,二阶段最小二乘法是回归分析中常用的一种技巧,特别适用于处理因变量与自变量之间存在内生性的情况。
本文将从二阶段最小二乘法的基本概念、应用技巧和注意事项等方面展开讨论。
一、二阶段最小二乘法的基本概念在回归分析中,如果自变量与因变量之间存在内生性,即自变量中的某些变量同时也是因变量的决定因素,那么传统的最小二乘法估计结果将会产生偏误。
为了解决这一问题,可以采用二阶段最小二乘法。
该方法的基本思想是将内生性变量视为外生变量的函数,先利用外生变量对内生变量进行估计,然后再将估计得到的内生变量代入到原始模型中进行回归分析。
二、二阶段最小二乘法的应用技巧1. 识别内生性变量在应用二阶段最小二乘法时,首先需要准确识别出模型中的内生性变量。
通常可以通过理论分析、实证检验或经验判断等方式来确定哪些自变量可能存在内生性。
在实际操作中,还可以利用工具变量、差分法等方法来识别和处理内生性问题。
2. 进行第一阶段回归一旦确定了内生性变量,就需要进行第一阶段回归,即利用外生变量对内生性变量进行估计。
在进行第一阶段回归时,需要选择合适的模型和工具变量,以确保估计结果的有效性和稳健性。
3. 进行第二阶段回归在完成第一阶段回归后,就可以得到内生性变量的估计值,接下来就可以将这些估计值代入到原始模型中进行第二阶段回归分析。
在进行第二阶段回归时,需要注意控制其他可能影响因变量的因素,以确保估计结果的准确性和可靠性。
三、二阶段最小二乘法的注意事项1. 工具变量的选择在进行第一阶段回归时,选择合适的工具变量是非常重要的。
工具变量需要满足一定的条件,如与内生性变量相关但与因变量不相关,同时不能与误差项存在相关性等。
因此,需要仔细选择和检验工具变量,以确保其符合要求。
2. 内生性的处理对于存在内生性的回归模型,必须对内生性进行有效的处理。
选择性偏误的原因和影响工具变量回归的公式和参数估计方法选择性偏误是指在数据分析过程中,基于已有假设或期望结果的选择而导致的偏差。
这种偏误可能会严重影响研究结果的准确性和可信度。
在经济学和社会科学的研究中,选择性偏误往往是一个严重的问题。
为了克服选择性偏误,研究者常使用工具变量回归方法,其公式和参数估计方法有助于减轻选择性偏误的影响。
一、选择性偏误的原因选择性偏误的主要原因有以下几点:1. 数据的选择性:在研究中,研究者往往选择有利于自身假设或期望结果的数据进行分析,而忽略其他数据。
这样会导致由于样本的选择性而产生偏误。
2. 模型的选择性:在建立模型时,研究者可能会选择与自身研究问题相吻合的模型,而忽略其他可能存在的模型。
这样会导致由于模型的选择性而产生偏误。
3. 结果的选择性:在研究结果的分析和呈现过程中,研究者可能会选择有利于自身假设或期望结果的数据进行呈现,而忽略其他可能存在的结果。
这样会导致由于结果的选择性而产生偏误。
二、工具变量回归的公式和参数估计方法工具变量回归是一种用于解决内生性问题的方法,其公式和参数估计方法如下:假设我们的线性回归模型为:y = β0 + β1x + ε其中,y为被解释变量,x为解释变量,β为回归系数,ε为误差项。
在工具变量回归中,我们引入一个工具变量z来代替内生解释变量x。
工具变量z必须满足两个条件:与内生解释变量x相关,且与误差项ε不相关。
基于工具变量回归的公式为:y = α0 + α1z + ε'其中,α为工具变量回归的参数估计结果,ε'为修正后的误差项。
在进行工具变量回归时,我们可以使用两阶段最小二乘法(Two-Stage Least Squares, 2SLS)来估计参数。
具体步骤如下:第一阶段:通过回归 z 对 x 进行拟合,得到预测值 x'。
第二阶段:将预测值 x' 代入原始的回归模型,即y = β0 + β1x' + ε',进行回归估计,得到α的估计值。
内生变量名词解释一、内生变量名词解释:这是由统计理论与模型决定的,是无法通过个人经验、直觉来判断的。
1)独立性(independence):指当前特征或行为与另外某个行为没有直接因果关系。
即如果没有任何直接证据显示这种结果的发生,那么就可以假定某些东西在发生着。
2)因果联系(causality):指两种现象之间存在着一种必然的因果关系。
如一件事情的发生必然引起另外一件事情的发生。
3)因果关系中的“果”:一般指现象(of phenomenon)而不是原因(as the cause)比如说“苹果掉到地上”和“我摔倒了”这两个现象之间并没有因果关系。
但是当它们同时发生时就被称作“因果关系”。
3)内生性:与测量理论和研究方法相关,其他因素未知或干扰较大时,用内生性代替。
因为只有内生性才能避免经济损失。
二、内生变量( logit variables):被观察的对象(个体)在样本中出现的概率。
1)内生性:内生性是指由于样本回答方式而造成的。
2)重要性:样本均值对因变量估计的重要程度。
3)先验信息:样本中事件发生的频率。
4)随机误差:样本分布的数字特征与实际数字特征的差别,例如由于抽样造成的离散程度。
5)构成样本的子总体的方差相等:由于随机误差的存在,总体参数并非真正相等。
三、标准化效应( standardization effect):是指自变量对因变量影响存在的一种连续的度量,它是描述因变量与自变量之间的相互依赖性的一种连续度量。
四、小样本容量效应( small sample size effect):是指自变量对因变量影响存在的一种连续的度量,它是描述因变量与自变量之间的相互依赖性的一种连续度量。
五、验后效应( post hoc effect):是指当前的知识水平或已有的经验对预测将来结果的影响。
六、模型效应( model effect):是指由所考虑的模型及其假设所产生的各种影响。
七、异常效应( out-of-the-ordinary effect):指研究对象在实际的或所期望的活动中出现了与研究者所预料不同的结果。
忽略⼲扰因素,内⽣性,遗漏变量偏差及相关问题下的估计由于因果关系让⼈难以捉摸,所以评估数据的因果关系是研究⼈员的努⼒⽅向之⼀。
在忽略⼲扰因素,内⽣性,遗漏变量或者⼀个错误模型前,预测值的估计和利益影响就会不⼀致,因果关系也就变的越加模糊。
控制因果关系的试验就是⼀种替代选择。
然⽽,进⾏控制实验可能是不可⾏的。
例如,政策制定者不能随机征税。
在试验数据缺失的情况下,⼀个替代选择就是使⽤⼯具变量或控制函数⽅法。
Stata有许多内置的估计来执⾏这些潜在的解决⽅法和⼯具,也可以创建评估⼯具以实现内置评估⼯具覆盖不到的情况。
下⾯就举例说明线性模型的两种可能性,在后续的⽂章中,再讨论⾮线性模型。
我们先从两个协变量的线性模型开始,x1和x2。
在这个模型中,x1与错误项Ɛ⽆关;这是给定条件 E(x1Ɛ)=0,x1是外⽣变量,x2是错误相关项;给定条件是E(X2Ɛ)≠0,x2是内⽣变量。
模型如下:事实上X2与不可观测因素Ɛ相关,这意味着采⽤线性回归拟合模型得到不⼀致的参数估计。
⼀种选择是使⽤两阶段最⼩⼆乘法估计。
两阶段最⼩⼆乘法是有效的,需要为x2指定⼀个正确的模型包括⼀个变量z1,这对利益结果的不可观测变量X1⽆关。
我们同样需要z1和x1与不可观测结果Ɛ⽆关,并且x2⽅程式也是不可观测的。
表达式如下:在(1)的关系中暗⽰x2可以被分为2个部分,⼀个是与Ɛ相关,问题的症结所在是V,另⼀个是与Ɛ不相关,两阶段最⼩⼆乘法的关键是得到⼀个跟x2后部分⼀致的估计。
下⾯是模拟满⾜以上假设的数据:如果⽤最⼩⼆乘法估计模型参数,将得到恢复协变量的系数值,x1的是-2,x2也是-2,2是常数。
使⽤sem结构⽅程模型也可以恢复模型参数。
这⾥的关键是要指定两个线性⽅程并且声明两个⽅程的不可观测部分是相关的。
有趣的是,模型并不满意sem估计不可观测的假设联合正态性,因此得到⼀致的估计,如下⾯输出表中⽅程y的系数值所⽰:sem语法要求写两个线性⽅程。
忽略⼲扰因素,内⽣性,遗漏变量偏差及相…
由于因果关系让⼈难以捉摸,所以评估数据的因果关系是研究⼈员的努⼒⽅向之⼀。
在忽略⼲扰因素,内⽣性,遗漏变量或者⼀个错误模型前,预测值的估计和利益影响就会不⼀致,因果关系也就变的越加模糊。
控制因果关系的试验就是⼀种替代选择。
然⽽,进⾏控制实验可能是不可⾏的。
例如,政策制定者不能随机征税。
在试验数据缺失的情况下,⼀个替代选择就是使⽤⼯具变量或控制函数⽅法。
Stata有许多内置的估计来执⾏这些潜在的解决⽅法和⼯具,也可以创建评估⼯具以实现内置评估⼯具覆盖不到的情况。
下⾯就举例说明线性模型的两种可能性,在后续的⽂章中,再讨论⾮线性模型。
我们先从两个协变量的线性模型开始,x1和x2。
在这个模型中,x1与错误项Ɛ⽆关; 这是给定条件 E(x1Ɛ)=0,x1是外⽣变量,x2是错误相关项;给定条件是E(X2Ɛ)
≠0,x2是内⽣变量。
模型如下:
事实上X2与不可观测因素Ɛ相关,这意味着采⽤线性回归拟合模型得到不⼀致的参数估计。
⼀种选择是使⽤两阶段最⼩⼆乘法估计。
两阶段最⼩⼆乘法是有效的,需要为x2指定⼀个正确的模型包括⼀个变量z1,这对利益结果的不可观测变量X1⽆关。
我们同样需要z1和x1与不可观测结果Ɛ⽆关,并且x2⽅程式也是不可观测的。
表达式如下:
在(1)的关系中暗示x2可以被分为2个部分,⼀个是与Ɛ相关,问题的症结所在是V,另⼀个是与Ɛ不相关, 两阶段最⼩⼆乘法的关键是得到⼀个跟x2后部分⼀致的估计。
下⾯是模拟满⾜以上假设的数据:
如果⽤最⼩⼆乘法估计模型参数,将得到
恢复协变量的系数值,x1的是-2,x2也是-2,2是常数。
使⽤sem结构⽅程模型也可以恢复模型参数。
这⾥的关键是要指定两个线性⽅程并且声明两个⽅程的不可观测部分是相关的。
有趣的是,模型并不满意sem估计不可观测的假设联合正态性,因此得到⼀致的估计,如下⾯输出表中⽅程y的系数值所示:
sem语法要求写两个线性⽅程。
使⽤⼀个<-建⽴内变量,并且声明两个内变量为不可观测变量,由相关联的e.y和e.x2表示。
使⽤选项cov(e.y*e.x2)指定相关性。
使⽤sem得到的系数和标准误差与最⼩⼆乘法得到的是完全相同的。
这种等式发⽣在矩估计中,像两阶段最⼩⼆乘法与⼴义矩估计(GMM)中,或当矩条件和分数⽅程相同时,基于似然估计中。
因此,即使假设不同,但是估计的⽅程是相同的。
这些模型的估计⽅程由(2)提供。
也可以在gmm中使⽤gmm来拟合这个模型。
⽅法如下:
1. 写出内⽣变量⽅程的残差。
例⼦如下:
2. 在系统中使⽤所有外⽣变量作为⼯具,在这个例⼦中为x1和z1.
使⽤gmm得到如下:
再来⼀遍,⽤ivregress 和gsem.得到相同的参数值,但是标准误差是不同的。
原因是gmm计算稳健标准误差是默认的。
如果⽤稳健标准误差计算ivregress,结果⼜是完全
⼀样的:
另⼀种⽅法是使⽤控制功能⽅法来得到感兴趣的参数。
使⽤来⾃⼯具x1和z1的内⽣变量x2的回归残差,作为x1和x2回归因⼦y。
使⽤gmm来实现控制功能的⽅法如下所示:
正如前⾯的例⼦所示,定义残差和⼯具,gmm使⽤这两个信息创建矩条件。
在以上例⼦中,模型外⽣变量的内⽣变量的回归残差,同时也是残差和⼯具。
因此,我没把它们当作外⽣⼯具。
相反,在eq3的内⽣变量回归中,⼿动给残差建⽴矩条件。
在前三个例⼦中,使⽤控制功能⽅法再次给出了相同的结果。
第⼀个例⼦中使⽤了Stata中已有的估计。
后两个例⼦,使⽤了估计⼯具得到了⼤型的模型估计结果。
估计现有的内⽣性模型参数和相关问题是相当困难的。
以上举例说明了在Stata中如何使⽤命令来估计这些模型的参数,⽬的也是为了说明如何使⽤gmm和sem来评估这些模型。