无条件分位数回归文献综述与应用实例上学习资料
- 格式:doc
- 大小:458.00 KB
- 文档页数:18
无条件分位数回归的统计文献研究:一、引言自从Koenker和Bassett(1978)提出分位数回归(quantile regression,QR)方法以来,其已发展成为经济学实证研究的常用方法之一。
最初,QR方法仅被看作是用来替代最小二乘(OLS)估计的一种稳健(robust)估计。
事实上,经济学家们在如今的实证研究,特别是基于微观数据的研究中青睐QR方法,并不在于它的稳健特性,而是可以借此方法了解解释变量对于被解释变量在扰动项的不同分位点上的异质性影响。
通常,人们在评估一项经济政策对受众群体的影响时,不但希望了解政策对任一参与者的平均影响,更希望知道政策对位于特征分布不同位置(分布末端或顶端)人群的异质性作用。
例如,教育对于人们收入的影响作用是劳动经济学中极具争议的问题之一。
由于人的能力不可直接观测,且普遍被认为与个人的收入水平密切相关,因此,工资方程的扰动项很大意义上就是用来包含不可观测的个人能力。
在这种设定下,通过分位点回归,人们可以了解对于不同能力水平的个人,可观测的个体特征如何影响他们的收入。
从以上例子不难理解,Koenker和Bassett(1978)提出的只是条件分位数回归方法。
条件分位数(CQR)方法的结果实际上只告诉我们对于具有相同观测特征的个人(例如,具有某一特定年龄,家庭背景的女性),不可观测的能力差异对于收入的异质性影响。
由于CQR的经济学意义阐释基于过多甚至是不必要的个体特征,其结果与政策制定者所关心的问题很有可能并不一致。
例如,人们可能只想了解教育年限对于个人收入的一般边际影响,而无论个体的年龄,性别与家庭背景如何,这就是所谓收入关于教育程度的无条件分位数估计问题。
解决这个问题的一个直觉想法是在计算中抛弃除了教育年限外的其他解释变量,直接用收入对教育年限进行分位数回归,但这种做法得到的无条件分位数不是一致估计。
这一点类似于在最小二乘法中即使研究者只想了解某一解释变量对被解释变量的偏影响系数,遗漏剩余解释变量仍会导致所有系数估计的不一致性,除非遗失变量与所剩变量是正交的。
中国性别工资差异的分位数回归分析一、本文概述本文旨在探讨中国性别工资差异的问题,并运用分位数回归分析方法进行深入的研究。
性别工资差异是一个全球性的议题,而中国在过去的几十年里,尽管在经济和社会发展方面取得了显著的成就,但性别工资差异问题依然存在。
本文希望通过对中国性别工资差异的分位数回归分析,揭示其内在机制,并为相关政策制定提供科学依据。
我们将对中国性别工资差异的现状进行概述,包括整体差异、不同行业、不同地区的差异等。
我们将介绍分位数回归分析方法的基本原理及其在性别工资差异研究中的应用。
这种方法不仅可以揭示整体的性别工资差异,还可以揭示不同工资水平下的性别差异,从而更全面地理解问题。
接着,我们将详细阐述分位数回归分析的结果,包括各分位点上的性别工资差异、影响因素及其作用机制等。
我们将根据分析结果,提出针对性的政策建议,以期缩小性别工资差异,实现性别平等。
本文的研究不仅具有重要的理论价值,也有重要的现实意义。
通过深入剖析中国性别工资差异的内在机制,我们可以为政府和社会各界提供决策参考,推动性别平等进程,促进社会的和谐与发展。
二、文献综述性别工资差异作为劳动经济学的重要议题,长久以来受到国内外学者的广泛关注。
国内外学者对性别工资差异的研究多从理论基础、影响因素、现状分析等角度展开。
早期的研究多关注于性别工资差异的存在性及其程度,随后,研究焦点逐渐转向工资差异的来源和形成机制。
在理论基础方面,贝克尔的人力资本理论提出,男性和女性在教育、职业培训等人力资本投资上的差异,可能导致工资差异。
同时,劳动市场分割理论则强调,不同劳动市场的进入壁垒和机会不均等,是性别工资差异的重要原因。
在影响因素方面,国内外研究普遍认为,教育程度、工作经验、职业选择、行业分布、企业所有制等是影响性别工资差异的重要因素。
例如,一些研究发现,女性在教育程度较高的情况下,工资水平相对男性有所改善,但仍存在差距。
职业选择也是影响性别工资差异的重要因素,一些传统上被认为是“男性领域”的职业往往工资更高。
LP )估计其最小加权绝对偏分位数回归及其实例一、分位数回归的概念分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它 利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变 量的条件分布的相应的分位数方程。
与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。
传统的线性回归模型描述了因变量的条件分布受到自变量 X 的影响过程。
普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。
如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动 项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M 切甩)。
但是在实际的经济生活中,这种假设常常不被满足,饲如数据出 现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再 具有上述优良性且稳健性非常差。
最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(OLs)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression) 的思想。
它依据因变量的条 件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。
因此分 位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量 X 对于因变量y 的变化范围以及条件分布形状 的影响。
分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸, 用多个分 位函数来估计整体模型。
中位数回归是分位数回归的特殊情况, 用对称权重解决 残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。
一般线性回归模型可设定如下:x(t) t( I(t 0)), (0,1).在满足咼斯-马尔可夫假设前提下,可表示如下: E(y|x) 01X12X 2...k Xk其中U 为随机扰动项0, 1, 2,…,k 为待估解释变量系数。
对无条件分位数回归的统计文献研究无条件分位数回归是一种用于数据分析的建模工具,它已被许多统计学家广泛应用于社会科学、公共卫生和医学研究领域。
本文将介绍无条件分位数回归的定义、方法和常见应用,以及在相关学科中的最新研究成果。
定义无条件分位数回归是一种回归分析方法,用于把变量与分位数联系起来,把一个因变量作为一个由自变量组成的不等分组变量进行分析。
这种方法和标准回归分析方法类似,但它强调了数据的不对称性和极端值的重要性,以在数据量少、数据异常或数据非正态分布的情况下减少数据误差。
方法无条件分位数回归的方法与传统的线性回归方法相似,但是它允许我们在建立模型时确定不同的分位数。
通过对一个特定变量的不同分位数建立模型,我们可以把因变量和自变量之间的关系变得更为细致。
常见应用无条件分位数回归被广泛用于公共卫生和医学研究领域,用于探索危险因素对疾病发生率、变量之间关系的影响,以及研究社会福利等多种问题。
在公共卫生方面,无条件分位数回归是一种工具,用于探索不同社会群体的健康状况之间关系的影响,以及探索一系列危险因素与健康状况之间的关系。
例如,它可用于探索性别、年龄、地理位置对慢性病的风险的影响,以及危险因素的管理、预防和治疗对疾病发生率的影响等。
在医学研究领域,无条件分位数回归可用于估计药物剂量、探索医疗费用和患病风险之间的关系,以及预测患病率、死亡率等多种问题。
最新研究成果近年来,在无条件分位数回归方面已有许多研究成果。
对美国儿童青少年健康民调调查(National Health Interview Survey,简称NHIS)的数据进行分析的研究表明,不同年龄群体中BMI 对血压的影响是不同的,以及不同性别对血糖的影响也不同。
研究结果还发现了在2010年到2015年间,儿童和青少年的BMI、高血压和糖尿病的发生率都有所上升。
在医学研究领域,研究人员正在探索用于心脏疾病的无条件分位数回归模型。
研究结果表明,通过这种方法建模,可以预测心脏疾病的风险,并有助于发展预防方案和治疗方案。
分位数回归理论及其应用共3篇分位数回归理论及其应用1分位数回归理论及其应用分位数回归是一种重要的统计方法,可以有效地应用于对数据进行分析和建模。
本文将介绍分位数回归理论的概念、方法和应用,并通过实际案例来说明其在实践中的运用。
一、分位数回归理论概述分位数回归是通过对分位数进行建模,而不是对中心点(如平均数或中位数)进行建模的回归分析。
该方法可以帮助我们更好地理解数据的分布情况。
通常情况下,我们关注的是中位数或平均数,因为它们代表了数据集中的位置信息。
但是,在某些情况下,这些中心点可能无法提供足够的信息,或者它们可能无法很好地描述分布情况。
分位数回归方法就是通过对数据进行分位数的建模来解决这些问题。
分位数回归给出了不同分位数对自变量的响应,可以确定不同分位数下因变量与自变量之间的关系。
二、分位数回归方法1.示例数据在了解分位数回归方法之前,我们先介绍数据集。
假设我们有一组来自UNICEF的数据集,记录了不同国家儿童死亡率和GDP(卫生)支出的信息。
这些数据明显不是线性的,因为它们不能用单独的直线来描述。
2.分位数回归假设我们希望了解死亡率与GDP支出之间的关系。
我们可以在不同的分位数水平下,对死亡率和GDP支出之间的关系进行建模。
这个过程被称为分位数回归。
在本例中,我们将使用分位数水平为0.25、0.5和0.75。
我们可以首先在0.25和0.75分位数水平下建立模型,确定死亡率与GDP支出之间的关系。
然后,我们在0.5分位数水平下建立模型,确定这两个变量之间的中心关系。
3.结果分析在分位数回归分析后,我们可以得到以下结果。
在0.25分位数水平下,我们发现GDP支出与死亡率呈现负相关;在0.75分位数水平下,我们发现GDP支出与死亡率呈现正相关,这意味着一些经济条件较好的国家的死亡率可能会上升。
在0.5分位数水平下,我们可以看到两种情况都可能发生,因为这是分布的中心位置。
这种方法允许我们更灵活地研究不同分位数下的自变量与因变量之间的关系。
分位数回归及应用简介分位数回归(Quantile Regression)是一种预测模型,与传统的最小二乘法回归(OLS regression)不同,它不仅可以估计数据的均值,还可以估计数据分布的其他分位数。
这种方法在处理不同分位数下的潜在差异时非常有用,因为它可以提供理解和预测在不同条件下的数据变化情况。
最小二乘法回归通过最小化预测值与实际值的平方差,给出一个数据分布的均值估计。
然而,由于数据的分布可能是非对称的,存在异常值或极端值,使用最小二乘法回归的均值估计可能不准确。
在这种情况下,分位数回归是一种更好的方法,因为它可以估计多个分位数,包括中位数(50%分位数)和极值(例如90%或95%分位数)。
分位数回归可以通过最小化损失函数来估计模型参数,常用的损失函数是加权绝对值损失函数。
这个损失函数对应的优化问题可以使用线性规划或非线性规划的方法求解。
通过计算不同分位数的估计结果,可以获得数据分布的详细信息。
分位数回归有一些应用的优势。
首先,它可以提供更全面的数据估计,对于非对称或含有异常值的数据分布具有更好的预测能力。
其次,分位数估计结果可以用来比较不同分位数处的特征变量对因变量的影响程度。
例如,在收入预测模型中,分位数回归可以帮助我们比较高收入人群和低收入人群对某个特征变量的影响程度。
此外,分位数回归还可以用于分析不同条件下的潜在差异,例如预测某个特征变量在不同行业、不同地区或不同时间段的变化情况。
分位数回归的应用非常广泛。
在经济学领域,它常被用于研究收入分布、贫富差距以及社会流动性等问题。
它还可以用于金融学中的风险评估和资产定价分析,其中分位数回归可以帮助我们理解极端事件的风险程度。
此外,分位数回归还可以在医学和社会科学领域中,用于研究不同群体或个体的特征与某个健康指标或社会指标的关系。
尽管分位数回归有许多优点,但也存在一些限制。
首先,分位数回归对于数据分布的假设较少,因此可以适用于各种类型的数据。
分位数回归及应用简介分位数回归是一种在统计学和经济学中常用的回归分析方法,它与传统的平凡最小二乘回归分析相比,更加适用于处理非正态分布、异方差和异常值等问题。
本文将对分位数回归的基本原理进行介绍,并探讨其在实际应用中的一些例子。
一、基本原理分位数回归是指通过对数据进行分位数划分,将不同分位数的回归干系进行建模和分析的方法。
在传统的回归分析中,我们通常关注的是条件均值(条件期望)的回归干系,而分位数回归则可以揭示在不同条件下,数据的不同分位数的回归干系。
以简易的线性回归为例,我们通常会建立一个关于自变量和因变量的条件均值模型,即通过最小化猜测值与实际观测值之间的平方差,得到最佳拟合直线。
而在分位数回归中,我们可以通过最小化猜测值与实际观测值的分位差,得到在不同分位数条件下的最佳拟合直线。
这样做的好处是能够更好地理解数据的分布状况,以及对不同条件下的不确定性进行建模和猜测。
二、实际应用1. 收入差距探究分位数回归常被用于探究收入差距的影响因素。
以中国为例,我们可以通过对个人收入数据的分位数回归分析,得到不同分位数收入的影响因素和差异。
探究发现,教育水平、工作阅历和性别等因素对于不同收入分位数的影响程度是不同的。
通过分位数回归,我们可以更全面地洞察不同收入群体之间的差距和不对等现象。
2. 健康状况评估分位数回归也可以用于对健康状况评估的探究。
例如,我们可以通过分位数回归分析,探讨不同健康指标(如体重指数、血压等)与不同健康分位数(如50%、70%)的干系,从而对健康状况进行更精细的刻画和猜测。
探究发现,不同健康指标对不同健康分位数的影响具有显著差异,分位数回归可以援助揭示这些差异。
3. 风险评估在金融风险评估中,分位数回归也有重要应用。
通过分位数回归,我们可以建立基于市场因素、公司基本面等的风险模型,猜测不同风险分位数下的收益变化。
这对于投资组合的构建和风险管理具有重要意义。
探究表明,通过引入分位数回归,能够更准确地预估金融市场的风险暴露和收益猜测。
分位数回归及其实例一、分位数回归的概念分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。
与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。
传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。
普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。
如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。
但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。
最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。
它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。
因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。
分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。
中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。
一般线性回归模型可设定如下:()((0)),(0,1).x t t I t ρττ=-<∈在满足高斯-马尔可夫假设前提下,可表示如下:01122(|)...k k E y x x x x αααα=++++其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。
分位数回归及应用简介一、本文概述分位数回归是一种统计学中的回归分析方法,它扩展了传统的均值回归模型,以揭示自变量和因变量之间的非线性关系。
本文将简要介绍分位数回归的基本原理、方法及其在各种领域中的应用。
我们将概述分位数回归的基本概念和数学模型,解释其如何适应不同的数据分布和异质性。
接着,我们将讨论分位数回归的统计性质和估计方法,包括其稳健性、灵活性和有效性。
我们将通过实例展示分位数回归在经济学、医学、环境科学等领域中的实际应用,并探讨其未来的发展前景和挑战。
通过本文的阐述,读者可以对分位数回归有更深入的理解,并了解其在处理复杂数据分析问题中的潜力和价值。
二、分位数回归的基本理论分位数回归(Quantile Regression)是统计学中的一种回归分析方法,它不同于传统的最小二乘法回归,旨在估计因变量的条件分位数与自变量之间的关系。
最小二乘法回归主要关注因变量的条件均值,而分位数回归则能够提供更为全面的信息,包括条件中位数、四分位数等。
分位数回归的基本理论建立在分位数函数的基础上,分位数函数是描述随机变量在某个特定概率水平下的取值。
在分位数回归模型中,自变量通过一组参数β影响因变量Y的条件分位数。
这些参数β是通过最小化因变量的实际值与预测值之间的某种损失函数来估计的。
分位数回归的优点在于,它对于因变量的分布假设较为宽松,不需要满足正态分布或同方差性等假设。
分位数回归对异常值和离群点的影响较小,因此具有较高的稳健性。
这使得分位数回归在处理具有复杂分布和非线性关系的实际问题时表现出色。
分位数回归的估计方法主要有线性规划法、单纯形法和非线性规划法等。
这些方法的选择取决于具体的研究问题和数据特点。
在实际应用中,分位数回归通常与一些机器学习算法相结合,如随机森林、支持向量机等,以提高模型的预测精度和泛化能力。
分位数回归在金融、医学、环境科学等领域有着广泛的应用。
例如,在金融领域,分位数回归可以用于预测股票价格的风险价值(VaR)和预期损失(ES),帮助投资者进行风险管理。
stata无条件分位数回归在 Stata 中,进行无条件分位数回归可以使用 qreg 命令,该命令用于执行分位数回归。
分位数回归是一种估计给定分位数下的条件中位数,而无条件分位数回归则是对整个分布的分位数进行估计。
以下是使用 qreg 命令进行无条件分位数回归的基本语法:
qreg dependent_variable independent_variables, quantile(level)
其中:
dependent_variable 是因变量。
independent_variables 是自变量。
quantile(level) 指定了要估计的分位数水平,level 为一个介于 0 和 1 之间的值。
例如,如果你想要估计中位数,可以将 quantile(0.5) 添加到qreg 命令中。
以下是一个简单的示例:
// 生成一些模拟数据
clear
set obs 100
gen x = rnormal()
gen y = 2 * x + rnormal()
// 进行无条件分位数回归估计中位数
qreg y x, quantile(0.5)
在这个例子中,我们生成了一些模拟数据,然后使用 qreg 命令估计了中位数。
你可以根据自己的数据和需要修改这个语法。
注意,分位数回归可能对异常值比较敏感,因此在使用时需要谨慎。
无条件分位数回归:文献综述与应用实例(上)朱平芳张征宇2013-1-7 11:17:39 来源:《统计研究》(京)2012年3期第88~96页内容提要:条件分位数回归(conditional quantile regression,CQR)方法已成为经济学实证研究的常用方法之一。
由于CQR 结果的经济学阐释基于过多甚至是不必要的控制变量,这与人们所关心的问题有可能并不一致。
例如,在劳动经济学对教育回报的研究中,无论个体的年龄,性别与家庭特征如何,教育程度对于个人收入的异质性影响是人们关注的重点,即人们想了解收入关于教育程度的无条件分位数估计。
本文旨在介绍近年来发展起来的无条件分位数回归(unconditional quantile regression,UQR)技术并梳理相关文献。
特别地,本文介绍三种重要的无条件分位数回归模型:Firpo,Fortin和Lemieux(2009)提出的再中心化影响函数(recentered influence function,RIF)回归,Frolich和Melly(2010)提出的无条件分位数处理效应模型与Powell(2010)提出的一般无条件分位数回归。
另外,论文还运用一个研究居民收入分配格局变化对其医疗支出影响的实例详细说明了新方法的应用。
关键词:条件分位数回归无条件分位数回归 RIF回归处理效应模型作者简介:朱平芳(1961-),男,浙江兰溪人,1987年毕业于上海财经大学应用统计专业,获经济学硕士学位,2005年毕业于上海社会科学院经济研究所,获经济学博士学位,现为上海社会科学院数量经济研究中心主任,研究员,博士生导师,兼任中国数量经济学会常务理事,上海市数量经济学会副理事长兼秘书长,研究方向为科技政策与科技进步;张征宇(1981-),男,浙江宁波人,2006年毕业于复旦大学数学系数学专业,获理学硕士学位,2009年毕业于上海财经大学经济学院数量经济学专业,获经济学博士学位,现为上海社会科学院数量经济研究中心副研究员,兼任上海市数量经济学会理事,研究方向为微观计量经济学。
一、引言自从Koenker和Bassett(1978)提出分位数回归(quantile regression,QR)方法以来,其已发展成为经济学实证研究的常用方法之一。
最初,QR方法仅被看作是用来替代最小二乘(OLS)估计的一种稳健(robust)估计。
事实上,经济学家们在如今的实证研究,特别是基于微观数据的研究中青睐QR方法,并不在于它的稳健特性,而是可以借此方法了解解释变量对于被解释变量在扰动项的不同分位点上的异质性影响。
通常,人们在评估一项经济政策对受众群体的影响时,不但希望了解政策对任一参与者的平均影响,更希望知道政策对位于特征分布不同位置(分布末端或顶端)人群的异质性作用。
例如,教育对于人们收入的影响作用是劳动经济学中极具争议的问题之一。
由于人的能力不可直接观测,且普遍被认为与个人的收入水平密切相关,因此,工资方程的扰动项很大意义上就是用来包含不可观测的个人能力。
在这种设定下,通过分位点回归,人们可以了解对于不同能力水平的个人,可观测的个体特征如何影响他们的收入。
从以上例子不难理解,Koenker和Bassett(1978)提出的只是条件分位数回归方法。
条件分位数(CQR)方法的结果实际上只告诉我们对于具有相同观测特征的个人(例如,具有某一特定年龄,家庭背景的女性),不可观测的能力差异对于收入的异质性影响。
由于CQR的经济学意义阐释基于过多甚至是不必要的个体特征,其结果与政策制定者所关心的问题很有可能并不一致。
例如,人们可能只想了解教育年限对于个人收入的一般边际影响,而无论个体的年龄,性别与家庭背景如何,这就是所谓收入关于教育程度的无条件分位数估计问题。
解决这个问题的一个直觉想法是在计算中抛弃除了教育年限外的其他解释变量,直接用收入对教育年限进行分位数回归,但这种做法得到的无条件分位数不是一致估计。
这一点类似于在最小二乘法中即使研究者只想了解某一解释变量对被解释变量的偏影响系数,遗漏剩余解释变量仍会导致所有系数估计的不一致性,除非遗失变量与所剩变量是正交的。
无条件分位数回归(unconditional quantile regression,UQR)技术正是对于CQR技术的补充和拓展,在基于微观数据的实证研究中,特别是在劳动经济学与经济政策评估中具有十分重要的意义。
在这一前沿领域,国外学者的研究也只是刚刚开始,并且有关无条件分位数回归的理论与方法正在逐渐完善之中。
本文旨在介绍UQR技术并梳理相关文献。
特别地,我们介绍三种重要的无条件分位数回归模型:Firpo、Fortin和Lemieux(2009)的再中心化影响函数(recentered influence function,RIF)回归,Frolich和Melly(2010)的无条件分位数处理效应模型与Powell(2010)的无条件分位数回归。
有关UQR与CQR的差别,本文将在第二部分“无条件分位数回归的最新进展”中详细说明。
另外,本文试图用一个研究居民收入分配格局变化对其医疗支出影响的实例说明新方法的应用。
该实例将说明居民总体收入分配格局的变化如何影响其医疗支出的分布,而已有基于条件分位数回归技术的文献无法对这一问题做出全面的回答。
运用新方法的实证结果表明:在控制了疾病严重程度与城乡差异等因素后,由收入引起的居民医疗消费不平等显著存在;居民收入的按量(by amount)增长无法改善这种不平等,而收入的按比例(by proportion)增长对医疗高消费人群的拉动作用远大于对低消费人群的作用,因而进一步加剧了这种不平等性。
二、无条件分位数回归的最新进展(一)RIF回归假设已经获得了被解释变量Y以及可能影响Y的k维解释变量X的观测值。
我们关心的是X的变动对Y的影响。
例如研究者时常关心以下条件分位数偏效应(conditional quantile partial effects,CQPE)的估计值:问题1:仅当收入发生微小改变时,引起所有具备特征X=x的个体组成群体的Y分布τ-条件分位数的变化量①。
CQPE尽管可以帮助我们回答问题1,但是却无法回答下面虽与问题1密切相关,但有明显区别的另一问题:问题2:当整个人群的收入分布发生微小变化时,他们的Y分布的τ-分位数将产生何种变化?问题2与问题1的相似之处在于两者都是关心X的边际变动对Y分布的影响;两者的显著不同是:问题1只是针对整个人群中的某一(具有特征X=x)子人群而言,而问题2是针对整个人群整体而言。
一般地,我们需要了解X分布的微小变化对于被解释变量Y无条件分布τ-分位数的影响。
这等价于计算以下无条件分位数偏效应(unconditional quantile partial effects,UQPE):来获得UQPE的估计。
为应对这一难题,Firpo,Fortin和Lemieux(FFL,2009)借用稳健估计(robust estimation)中影响函数(influence function)的基本概念,建立了估计UQPE的一般步骤。
该方法的基本思想如下:利用统计学中稳健估计的若干知识,可得以下恒等式:将式(6)与式(5)右边相减,除以增量Δx并令Δx趋向于零,可以得到X的单位平移变换对Y的τ-无条件分位数的边际影响,即无条件分位数偏效应:最后,FFL建议从式(7)出发,通过以下三步获得UQPE的一致估计:来获得UQPE(τ)的一致估计。
(二)无条件分位数处理效应处理效应模型和普通的回归框架探究变量之间的相关关系不同,它研究的是变量之间的因果关系,允许研究者在十分弱的假定下获得变量之间因果关系的准确估计,因而在微观经济政策评估中占据十分重要的地位。
假设D是一个0-1处理变量。
D=1表示个体接受了某种政策,D=0表示未接受这种政策。
用与分别表示个体在D=1或D=0状态下的结果。
平均处理效应(average treatment effect)E(-)表示的是该政策对潜在受众对象的平均作用大小。
但是,政策的平均影响并不是政策制定者关心的全部内容,通常他们还关心政策对于群体在整个分布不同分位点上的异质性影响,这等价于需要估计如下的分位点处理效应(quantile treatment effect,QTE):FM首先注意到并非所有个体的QTE都可以被识别出来,而只有那些可以通过变动工具Z来改变他们处理状态D的遵从者(complier)的QTE才能被识别出来。
其中,遵从者当D=1时的分布函数满足可以看出的是,要通过式(10)和式(11)的逆函数来求解式(12)其实十分困难。
为克服这一难题使得UQTE便于计算,FM采用了再赋权(reweighting)分位点回归的算法,其主要思路如下。
定义权重函数其中p(X)=E(D=1|X)。
在以上权重下,可以证明式(10)和式(11)具有等价表示为计算在特定τ处的UQTE,令式(13)和式(14)的等号的左边都等于数值τ,即得其中(u)=u(τ-1(u<0))。
基于以上思路,实际计算可分为三步,首先获得得分倾向p(X)的非参数估计p(·),随后代入W的表达式获得W的一致估计(三)无条件分位数回归回顾以上两类对UQR的研究,Powell(2010)认为,FFL的RIF回归虽然具备无条件分位数回归的思想,但是它将所有解释变量都等同于控制变量,即RIF回归无法同时基于一些变量的条件分位数回归时计算另一些变量的无条件分位数回归。
另一方面,FM的无条件分位数处理效应无法推广到处理变量取值为连续的一般情形。
Powell(2010)考虑以下回归方程Y=g(D,X,ε)(17)其中Y是被解释变量,D是政策变量,X是反映个体特征的一组控制变量,ε是不可观察的扰动项。
这里区分政策变量与控制变量的目的主要是为了计算Y关于D是有条件的分位数回归,同时关于X的部分分量是无条件分位数回归。
这种部分无条件分位数回归在实际应用中具有极大的灵活性,因为,人们可以根据研究目的自由地选择自己想要了解哪些解释变量对于被解释变量的异质性作用。
例如,当人们想要了解教育对于工资的分位数影响时,可以令D只包含教育变量,而将其他有关个人性别、年龄、家庭背景等因素全部放入控制变量X中。
此时部分无条件分位数回归结果回答的问题将完全不同于FFL的RIF回归结果回答的问题,当然也不同于一般条件分位数回归结果回答的问题。
为简单起见且能够说明部分无条件分位数回归的基本想法,Powell只考虑当Y关于D的无条件分位函数是线性的情形。
在这种情况下,式(17)可以进一步写成Y=αD+U(X,ε)其中E(P(U(X,ε)≤0|D,X)|D)=τ(18)比较式(18)与CQR框架下对应的条件可以帮助我们理解UQR与CQR的重要区别。