最新张晓峒分位数回归讲义
- 格式:doc
- 大小:1.17 MB
- 文档页数:27
分位数回归分析简介分位数回归分析(Quantile Regression Analysis)是一种统计分析方法,用来研究因变量与一个或多个自变量之间关系的非线性问题。
相比于传统的OLS(Ordinary Least Squares)回归分析,分位数回归分析更加灵活,能够提供对不同分位数的因变量条件分布的估计。
分位数回归的定义在传统的OLS回归中,我们通过找到一条线性回归方程来描述自变量和因变量之间的关系。
但是,OLS回归假设因变量在各个条件上的分布是相同的,即在不同的自变量取值下,因变量的条件分布是相同的。
而在分位数回归中,我们允许因变量在不同条件下的分布产生变化,因此可以更准确地描述不同区间的因变量与自变量之间的关系。
分位数回归的目标是找到一组系数,用于描述自变量与因变量在给定分位数时的关系。
分位数回归通过最小化残差的绝对值之和来估计这组系数。
这种方法使得我们能够探索不同分位数下自变量和因变量之间的变化。
分位数回归的优势相比于OLS回归,分位数回归具有以下优势:1.非线性建模能力:分位数回归能够对因变量和自变量之间的非线性关系进行建模,从而更准确地描述实际数据的特征。
2.探索条件分布的能力:由于分位数回归允许因变量在不同条件下的分布变化,因此可以提供对不同分位数的条件分布的估计,进一步帮助我们理解数据的性质。
3.对异常值的鲁棒性:分位数回归对异常值更加鲁棒,因为它通过最小化残差的绝对值之和来估计系数,而不是最小二乘法中常用的最小化残差的平方和。
4.考虑不完全因果关系:分位数回归可以用来研究因变量对自变量的影响程度,考虑到因变量可能由其他未观测的变量影响,从而提供了一种更加全面的因果分析方法。
分位数回归的应用分位数回归广泛应用于各个领域,以下是一些常见的应用场景:1.收入和贫困研究:分位数回归可以用来研究不同收入水平下的贫困率变化,进一步探讨收入不平等的影响因素。
2.教育研究:分位数回归可以用来研究教育水平对工资收入的影响情况,从而分析教育对个体生活水平的提高程度。
分位数回归分样本回归一、基本概念分位数回归是一种回归分析方法,与传统的OLS回归不同,它能够揭示自变量对因变量在不同分位数上的影响。
在传统OLS回归中,我们只能得到因变量均值对自变量的影响,而分位数回归则能提供更加全面的信息。
分位数是指将一组数据按大小顺序排列后,划分为若干等份,每一份包含相同比例的数据。
例如,25%分位数就是将数据分为四份,每一份包含25%的数据。
二、应用场景分位数回归在经济学、社会科学等领域具有广泛的应用。
它能够帮助研究人员了解不同自变量对因变量在不同分位数上的影响程度,从而更好地理解数据背后的规律。
例如,在研究收入不平等问题时,传统OLS回归只能告诉我们收入水平对平均收入的影响,而分位数回归可以告诉我们不同收入水平下收入的分布情况,从而更全面地了解收入分配状况。
三、分位数回归分析步骤进行分位数回归分析一般需要以下几个步骤:1. 数据准备:收集所需的自变量和因变量数据,并进行必要的数据清洗和变量转换。
2. 模型设定:根据研究问题和数据特点,选择适当的分位数回归模型。
常用的模型包括线性分位数回归模型和非线性分位数回归模型。
3. 估计模型参数:利用最小二乘法或其他合适的方法,对模型进行估计,并得到各个分位数上的回归系数。
4. 模型诊断:对估计结果进行检验,包括残差分析、异方差性检验等,以确保模型的可靠性和有效性。
5. 结果解释:根据估计结果,解释自变量对因变量在不同分位数上的影响情况。
可以通过绘制分位数回归曲线或计算边际效应来展示结果。
四、分位数回归的优势和局限性分位数回归具有以下优势:1. 揭示了因变量在不同分位数上的影响情况,提供了更加全面的信息。
2. 对于非线性关系的建模更加灵活,适用性广泛。
然而,分位数回归也存在一些局限性:1. 对于数据量较小的样本,分位数回归可能会产生估计不准确的问题。
2. 分位数回归依赖于分位数的选择,不同的分位数选择可能会导致不同的结果。
五、总结分位数回归是一种重要的回归分析方法,能够揭示自变量对因变量在不同分位数上的影响。
分位数回归通俗理解分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。
与传统的OLS只得到均值方程相比,它可以更详细地描述变量的统计分布。
传统的线性回归模型描述了因变量的条件分布受到自变量X的影响过程。
普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X对于因变量y的均值影响。
如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(MⅥ甩)。
但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。
最小二乘回归假定自变量X只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett于1978年提出了分位数回归(Quantile Regression)的思想⋯。
它依据因变量的条件分位数对自变量X进行回归,这样得到了所有分位数下的回归模型。
因此分位数回归相比普通最小二乘回归只能描述自变量X对于因变量y局部变化的影响而言,更能精确地描述自变量X对于因变量y的变化范围以及条件分布形状的影响。
分位数回归能够捕捉分布的尾部特征,当自变量对不同部分的因变量的分布产生不同的影响时.例如出现左偏或右偏的情况时。
它能更加全面的刻画分布的特征,从而得到全面的分析,而且其分位数回归系数估计比OLS回归系数估计更稳健。
近10多年来,分位数回归在国外得到了迅猛的发展及应用,其研究领域包括经济、医学、环境科学、生存分析以及动植物学等方面(见本文第四部分)。
分位数回归参数估计-回复分位数回归是一种可以用于估计不同分位数之间关系的统计方法。
它在经济学、金融学和社会科学等领域广泛应用。
本文将分为三个部分来介绍分位数回归参数估计的方法和步骤。
第一部分:什么是分位数回归分位数回归是传统OLS(最小二乘法)回归的一种推广。
与OLS回归的目标是估计条件均值函数(即给定自变量的情况下,因变量的平均值),分位数回归的目标是估计给定分位数的条件函数(即给定自变量的情况下,因变量的特定分位数)。
这种方法的主要优势是能够提供关于因变量在不同条件下的不同分位数的有关信息。
在分位数回归中,我们首先假设有一个基本的线性模型:对于观测值i,有y_i = x_i'β+ ε_i,其中y_i 是因变量,x_i 是自变量,β是回归系数,ε_i 是误差项。
然而,与OLS回归不同的是,我们关心的是回归系数在不同分位数上的估计。
第二部分:分位数回归参数估计的步骤1. 选择分位数:首先,我们需要选择感兴趣的分位数进行回归分析。
常见的分位数包括中位数(50分位数)、上四分位数(75分位数)和下四分位数(25分位数),也可以选择其他分位数。
2. 估计回归系数:在选择了感兴趣的分位数后,我们可以使用极大似然估计、最小二乘法或其他统计手段对回归系数进行估计。
这里,我们以最小二乘法为例来说明估计方法。
a. 对于每个分位数q(对应着因变量y 在q 分位数处的值),我们定义一个新的误差项u_i=(y_i-x_i'β)。
在传统OLS回归中,我们用平方误差来度量误差项,但在分位数回归中,我们使用另一种度量标准,即绝对值误差(quantile loss function)。
b. 为了估计回归系数,我们通过最小化分位数损失函数来求解。
这可以通过线性规划等数值优化算法来实现。
3. 检验回归结果:在得到回归系数估计后,我们可以进行统计检验来评估模型的拟合度和显著性。
常见的检验方法包括计算标准误差、计算置信区间和进行假设检验。
分位数回归解读
分位数回归(Quantile regression)是一种回归分析方法,最早由Roger Koenker和Gilbert Bassett于1978年提出。
相较于传统的回归分析,分位数回归研究自变量与因变量的条件分位数之间的关系,而不仅仅是条件期望。
这使得分位数回归能够更加全面地描述因变量条件分布的全貌,而不仅仅是分析条件期望。
分位数回归的主要优势有以下两点:
1. 能够更加全面地描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望。
通过分析不同分位数下的回归系数估计量,可以了解解释变量对不同水平被解释变量的影响程度,从而得到更加丰富的信息。
2. 分位数回归对离群值的影响较小。
在传统最小二乘回归中,离群值会对估计结果产生较大影响。
而分位数回归则可以通过选择合适的分位数,使得离群值对估计结果的影响减小,从而提高模型的鲁棒性。
在实际应用中,分位数回归可以用于各个领域,例如经济学、金融学、医学、社会科学等。
通过对自变量与因变量的条件分位数之间的关系进行建模,分位数回归能够为研究者提供更加全面和深入的分析结果。
1。
第15章分位数回归模型15.1 总体分位数和总体中位数15.2总体中位数的估计15.3分位数回归15.4分位数回归模型的估计15.5分位数回归模型的检验15.6分位数的计算与分位数回归的EViews操作15.7分位数回归的案例分析以往介绍的回归模型实际上是研究被解释变量的条件期望。
人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。
这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。
正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。
它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。
在残差检验、回归系数检验、模型设定、预测等方面那么基本相同。
分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。
不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。
另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值那么表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量那么更加稳健。
15.1 总体分位数和总体中位数在介绍分位数回归之前先介绍分位数和中位数概念。
对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:y小于等于y(τ)的概率是τ,即τ = P(y≤y(τ)) = F(y(τ))其中P()表示概率,F(y(τ))表示y的累积(概率)分布函数(cdf)。
比如y(0.25) = 3,那么意味着y≤3的概率是0.25。
分位数回归原理
分位数回归是一种经济学统计学方法,用于估计因变量在不同分位数处的条件中位数。
该方法可以用于分析收入、财富等分布情况,以及其他极值敏感的问题。
分位数回归的基本原理是通过线性模型来拟合不同分位数处的中位数。
在回归分析中,我们通常使用最小二乘法来拟合一个平均值,但这种方法并不能很好地处理极值问题。
分位数回归则通过拟合中位数来解决这个问题。
在一个简单的例子中,我们可以使用分位数回归来预测一个人的年收入。
我们假设收入的分布是偏斜的,并且我们要预测收入的中位数。
我们可以使用分位数回归来估计这个中位数,并且可以对不同因素对收入的影响进行分析。
分位数回归的优点是可以对极值数据进行更准确的预测,而且可以提供更丰富的信息。
不过,分位数回归的缺点是比传统的最小二乘法更复杂,并且需要更多的计算。
此外,分位数回归可能不适用于某些数据集,需要根据实际情况进行选择。
总之,分位数回归是一种非常有用的统计学方法,可以用于分析极值敏感的问题,并且可以提供更丰富的信息。
然而,分位数回归也有其局限性,需要在实际应用中进行慎重选择。
- 1 -。
分位数回归及应用简介一、本文概述分位数回归是一种统计学中的回归分析方法,它扩展了传统的均值回归模型,以揭示自变量和因变量之间的非线性关系。
本文将简要介绍分位数回归的基本原理、方法及其在各种领域中的应用。
我们将概述分位数回归的基本概念和数学模型,解释其如何适应不同的数据分布和异质性。
接着,我们将讨论分位数回归的统计性质和估计方法,包括其稳健性、灵活性和有效性。
我们将通过实例展示分位数回归在经济学、医学、环境科学等领域中的实际应用,并探讨其未来的发展前景和挑战。
通过本文的阐述,读者可以对分位数回归有更深入的理解,并了解其在处理复杂数据分析问题中的潜力和价值。
二、分位数回归的基本理论分位数回归(Quantile Regression)是统计学中的一种回归分析方法,它不同于传统的最小二乘法回归,旨在估计因变量的条件分位数与自变量之间的关系。
最小二乘法回归主要关注因变量的条件均值,而分位数回归则能够提供更为全面的信息,包括条件中位数、四分位数等。
分位数回归的基本理论建立在分位数函数的基础上,分位数函数是描述随机变量在某个特定概率水平下的取值。
在分位数回归模型中,自变量通过一组参数β影响因变量Y的条件分位数。
这些参数β是通过最小化因变量的实际值与预测值之间的某种损失函数来估计的。
分位数回归的优点在于,它对于因变量的分布假设较为宽松,不需要满足正态分布或同方差性等假设。
分位数回归对异常值和离群点的影响较小,因此具有较高的稳健性。
这使得分位数回归在处理具有复杂分布和非线性关系的实际问题时表现出色。
分位数回归的估计方法主要有线性规划法、单纯形法和非线性规划法等。
这些方法的选择取决于具体的研究问题和数据特点。
在实际应用中,分位数回归通常与一些机器学习算法相结合,如随机森林、支持向量机等,以提高模型的预测精度和泛化能力。
分位数回归在金融、医学、环境科学等领域有着广泛的应用。
例如,在金融领域,分位数回归可以用于预测股票价格的风险价值(VaR)和预期损失(ES),帮助投资者进行风险管理。
分位数回归控制变量-概述说明以及解释1.引言1.1 概述分位数回归是一种广泛应用于经济学、统计学和社会科学领域的分析方法,它有助于了解变量之间的关系,并能够更全面地理解数据分布情况。
在实际应用中,我们通常会遇到很多影响变量的因素,因此需要进行控制变量来减少潜在的误差和混淆。
本文将重点探讨如何在分位数回归中有效地进行控制变量,以获得更准确和可靠的分析结果。
1.2 文章结构本文分为引言、正文和结论三部分。
在引言部分,将会对分位数回归以及控制变量进行概述,明确文章的目的和结构安排。
接着在正文部分,将详细介绍什么是分位数回归以及如何进行该方法的应用,同时探讨分位数回归相对于传统OLS回归的优势和特点。
在结论部分,将总结分位数回归的应用,重点讨论控制变量在分位数回归中的重要性,并展望未来研究方向,为读者提供对该方法更深入理解和应用的指导。
文章结构清晰,层次分明,旨在帮助读者更好地理解和掌握分位数回归和控制变量的相关知识。
1.3 目的:本文旨在探讨分位数回归在研究中的应用和重要性,特别是在控制变量方面的作用。
通过对分位数回归的概念、方法和优势进行深入的介绍和分析,旨在帮助读者更好地理解如何利用分位数回归方法来解决实际问题,并有效地控制变量的影响。
同时,本文还将探讨控制变量在分位数回归中的重要性,以及未来在这一领域的研究方向,为相关研究提供参考和启发。
2.正文2.1 什么是分位数回归:分位数回归是一种统计方法,用于探究自变量对因变量不同分位数值的影响程度。
在传统的最小二乘回归中,我们通常估计的是因变量的均值,而在分位数回归中,我们可以估计因变量在不同分位数下的条件分布。
具体来说,分位数回归可以帮助我们了解自变量对因变量在不同分位数下的影响程度是否一致。
通过估计不同分位数下的回归系数,我们可以发现数据的不确定性和非对称性,从而更全面地了解变量之间的关系。
分位数回归在处理异方差性、非线性和数据分布偏斜等问题时,具有很强的鲁棒性和灵活性。
分位数回归分位数回归及其实例一、分位数回归的概念分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。
与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。
传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。
普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。
如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。
但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。
最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。
它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。
因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。
分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。
中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。
一般线性回归模型可设定如下:()((0)),(0,1).x t t I t ρττ=-<∈在满足高斯-马尔可夫假设前提下,可表示如下:01122(|)...k k E y x x x x αααα=++++其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。
分位数回归命令介绍分位数回归是一种统计分析方法,用于研究自变量对因变量特定分位数的影响程度。
它可以帮助我们了解不同部分数据的变动情况,并提供了一个更全面的数据分析工具。
在本文中,我们将详细介绍分位数回归的概念、原理和应用。
分位数回归的概念分位数回归是一种对统计数据进行建模的方法,它通过估计条件分布的分位数来描述自变量对因变量的影响。
与传统的OLS(最小二乘法)回归分析相比,分位数回归更注重观察数据的不同部分,而不仅仅是整体的平均水平。
分位数回归的原理分位数回归基于条件分布函数,通过估计分位数来确定自变量对因变量在不同分位数位置上的影响。
它的核心思想是对每个分位数进行截断回归分析,得到相应的系数估计。
这些估计可以告诉我们在特定分位数下,因变量受自变量影响的程度。
分位数回归的应用分位数回归在许多领域都有广泛的应用。
以下是一些常见的应用场景: 1. 经济学研究:分位数回归可以用于分析收入差距、教育对收入的影响等经济现象。
2. 医学研究:分位数回归可以用于探索各因素对特定生命指标的影响程度,例如体重、血压等。
3. 社会学研究:分位数回归可以帮助我们了解不同因素对社会问题的影响,如犯罪率、幸福感等。
分位数回归的命令对于分位数回归,我们可以使用各种统计软件来执行分位数回归命令。
以下是常见的一些命令示例: 1. Stata:使用qreg命令执行分位数回归分析,语法为qreg y x1 x2, quantile(p),其中p为所选的分位数。
2. R:使用quantreg包中的rq函数执行分位数回归分析,语法为rq(y ~ x1 + x2, tau = p),其中tau为所选的分位数。
3. Python:使用Statsmodels库中的QuantReg类执行分位数回归分析,示例代码如下:import statsmodels.api as smmodel = sm.QuantReg(y, X)result = model.fit(q=p)分位数回归的优缺点分位数回归方法具有一些优点和缺点,我们需要在应用时对其进行权衡和考虑: - 优点: 1. 提供了对数据不同部分的更详细描述。
第15章分位数回归模型15.1 总体分位数和总体中位数15.2 总体中位数的估计15.3 分位数回归15.4 分位数回归模型的估计15.5 分位数回归模型的检验15.6 分位数的计算与分位数回归的EViews操作15.7 分位数回归的案例分析以往介绍的回归模型实际上是研究被解释变量的条件期望。
人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。
这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。
正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。
它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。
在残差检验、回归系数检验、模型设定、预测等方面则基本相同。
分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。
不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。
另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。
15.1 总体分位数和总体中位数在介绍分位数回归之前先介绍分位数和中位数概念。
对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:y小于等于y(τ)的概率是τ,即τ = P( y≤y(τ)) = F(y(τ))其中P(⋅)表示概率,F(y(τ)) 表示y的累积(概率)分布函数(cdf)。
比如y(0.25) = 3,则意味着y≤ 3的概率是0.25。
且有y(τ) = F-1(y(τ))即F(y(τ))的反函数是y(τ)。
当τ=0.5时,y(τ)是y的中位数。
τ= 0.75时,y(τ)是y的第3/4分位数,τ= 0.25时,y(τ) 是y的第1/4分位数。
若y服从标准正态分布,y(0.5) = 0,y(0.95) =1.645,y(0.975) =1.960。
另外,如果随机变量y的分布是对称的,那么其均值与中位数是相同的。
当其中位数小于均值时,分布是右偏的。
反之,分布是左偏的。
对于回归模型,被解释变量y t对以X为条件的第τ分位数用函数y(τ)t|X表示,其含义是:以X为条件的y t小于等于y(τ)t|X的概率是τ。
这里的概率是用y t对X的条件分布计算的。
且有y(τ)t|X= F-1(y(τ)t|X)其中F(y(τ)t|X) 是y t在给定X条件下的累积概率分布函数(cdf)。
则y(τ)t|X称作被解释变量y t对X 的条件分位数函数。
而F '(y(τ)t|X)= f (y(τ)t|X)则称作分位数概率密度函数。
其中F'(y(τ)t|X)表示F(y(τ)t|X)对y (τ)t |X 求导。
15.2 总体中位数的估计在介绍分位数回归之前,先来看中位数的估计和中位数回归。
下面以连续变量为例介绍定理15.1。
定理15.1连续变量用y 表示,其概率密度函数用f (y )表示,累计概率密度函数用F (y )表示,y 的中位数用y (0.5)表示,则y 与任一值α的离差绝对值的期望)(α-y E 以α = y (0.5) 时为最小。
证明: )(α-y E =dy y f y dy y f y )()()()(--⎰⎰∞∞-+-αααα =)()()()(--y dF y y dF y ⎰⎰∞∞-+-αααα (15.1) 根据莱布尼兹公式,若dy y f F ba⎰=),()(αα,则有dy y fF b a⎰∂∂='ααα),()(。
令αα-),(y y f =,则有⎰⎰=∂∂='ba b ady dy y F -)-()(ααα。
运用于式(15.1),得αα∂-∂)(t y E =αααααα∂-∂+∂-∂⎰⎰∞∞dy y f y dy y f y )()()()(--=⎰⎰∞∞αα)(-)(-y dF y dF= 1-)(2))(-(1-)(])(-[1-)(-αααααF F F y dF F ==⎰∞式(15.1)求极小的一阶条件是αα∂-∂)(t y E = 0,即1-)(2αF =0,0.5)(=αF 。
这意味着α等于中位数y (0.5)。
α = y (0.5)与定理15.1等价的表述是∑-αy 以α = y(0.5)(中位数)时为最小。
因此,中位数回归估计量可以通过最小绝对离差法(least absolute deviation, LAD )估计。
其中X 和β分别为(k ⨯1)阶列向量。
同理,对于线性回归模型y t = X 'β + u t ,通过求∑'-(0.5)ˆβX t y 最小,估计β的中位数回归系数估计量(0.5)ˆβ,从而得到y t 的中位数回归估计量(0.5))5.0(ˆ)ˆ(βX X =t y。
15.3 分位数回归Koenker 和Bassett(1978)证明,若用t y)(ˆτ表示y t 的分位数回归估计量,则对于以检查函数(check function )w τ为权数,y t 对任意值α的加权离差绝对值和∑-ατt y w 只有在α =t y)(ˆτ时取得最小值。
其中∑-ατt y w = )())(1(::∑∑≥<-+---Ty t t T y i t i i y y ααατατ (15.2)τ∈(0, 1)。
据此,分位数回归可以通过加权的最小绝对离差和法(weighted least absolute deviation,WLAD )进行估计。
根据式(15.2),对于线性回归模型y t = X 'β + u t , 求第τ分位数回归方程系数的估计量)(ˆτβ的方法是求下式(目标函数)最小, ∑∑≥<+--=Tut T ut t t u u Q 0ˆ)(0ˆ)()()(ˆˆ)1(ττττττ∑∑'≥'<'-+'---=TX y t t TX y t t t t y y )()(ˆ:)(ˆ:)()ˆ()ˆ)(1(ττβτβτττβX βX (15.3) 其中t u)(ˆτ表示第τ分位数回归方程对应的残差。
τ∈(0, 1)。
第τ分位数的回归方程表达式是 t y )(ˆτ=)(ˆτβX ' 其中X ,β都是k ⨯1阶列向量。
)(ˆτβ称作分位数回归系数估计量,或最小绝对离差和估计量,估计方法称作最小绝对离差和估计法。
当τ=0.5时,式(15.3)变为 ∑∑∑='≥'<'-='-+'--=Tt t TX y t t TX y t t y y y Q t t 1)0.5(ˆ:)0.5(ˆ:)0.5(ˆ0.5)ˆ(0.5)ˆ(0.5)0.5()0.5(βX βX βX ββ t y )0.5(ˆ=)0.5(ˆβX '称作中位数回归方程,)0.5(ˆβ称作中位数回归系数估计量。
一旦得到估计的分位数回归方程,就可以计算分位数回归的残差t u)(ˆτ。
t t t t y y y u =-=)()(ˆˆττ-)(ˆτβX ' 对一个样本,估计的分位数回归式越多,对被解释变量y t 条件分布的理解就越充分。
以一元回归为例,如果用LAD 法估计的中位数回归直线与用OLS 法估计的均值回归直线有显著差别,则表明被解释变量y t 的分布是非对称的。
如果散点图上侧分位数回归直线之间与下侧分位数回归直线之间相比,相互比较接近,则说明被解释变量y t 的分布是左偏倚的。
反之是右偏倚的。
对于不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影响是不同的。
15.4 分位数回归模型的估计由于目标函数(15.3)不可微,因此传统的对目标函数求导的方法不再适用。
估计分位数回归方程参数)(ˆτβ的一种较好的方法是线性规划方法。
基于Barrodale 和Roberts (1973,以下简写为BR )提出的单纯形法(simplex algorithm),Koenker和D’Orey(1987)提出一种估计分位数回归系数的方法。
EViews 中应用的是上述算法的改进形式。
BR 算法由于其非有效性和大样本下的一些非优良特性曾备受批评。
Koenker 和Hallock(2001) 以及Portnoy 和Koenker(1997)通过模拟证实,与内点法(interior point method)等替代方法相比,BR 算法的估计次数往往较多,大约是样本容量的平方次数。
然而,改进的BR 算法的估计次数在一定程度上是可以接受的,大约是样本容量的线性倍次数,在实际中是可以使用的。
分位数回归方程的BR 算法原理略。
下面讨论分位数回归系数估计量的渐近分布。
在弱条件下,分位数回归系数渐近服从正态分布(Koenker, 2005)。
回归系数的方差协方差矩阵的计算在分位数回归的系数估计中占有重要位置。
其方差协方差矩阵的估计方法根据分位数密度函数是否与解释变量相关分为三种方法:①误差项独立同分布(i.i.d.)假设下的直接估计方法。
由Koenker 和Bassett(1978)提出。
②误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。
③误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。
(1)独立同分布假设下的参数渐近分布Koenker 和Bassett(1978)在独立同分布假设下得出分位数回归系数渐近服从正态分布,可以表述为在弱条件下: )ˆ()()(ττββ-n ~))1(,0(12)(--J s N τττ (15.5) 其中)(lim )(lim TXX T X X J n ii i n '='=∞→∞→∑(15.6) ))((/1)(11)(τττ--='=F f F s (15.7)其中s (τ) 称为稀疏函数(Sparsity function)或分位数密度函数(quantile density function)。
s (τ)是分位数函数的导数,或在第τ分位数条件下概率密度函数的倒数(见Welsh,1988)。
另外,模型误差项独立同分布假设意味着s (τ)与解释变量X 无关,因此,分位数方程只和X 在局部期间相关,即所有的条件分位数平面互相平行。