分位数回归
- 格式:doc
- 大小:52.50 KB
- 文档页数:3
分位数回归分析简介分位数回归分析(Quantile Regression Analysis)是一种统计分析方法,用来研究因变量与一个或多个自变量之间关系的非线性问题。
相比于传统的OLS(Ordinary Least Squares)回归分析,分位数回归分析更加灵活,能够提供对不同分位数的因变量条件分布的估计。
分位数回归的定义在传统的OLS回归中,我们通过找到一条线性回归方程来描述自变量和因变量之间的关系。
但是,OLS回归假设因变量在各个条件上的分布是相同的,即在不同的自变量取值下,因变量的条件分布是相同的。
而在分位数回归中,我们允许因变量在不同条件下的分布产生变化,因此可以更准确地描述不同区间的因变量与自变量之间的关系。
分位数回归的目标是找到一组系数,用于描述自变量与因变量在给定分位数时的关系。
分位数回归通过最小化残差的绝对值之和来估计这组系数。
这种方法使得我们能够探索不同分位数下自变量和因变量之间的变化。
分位数回归的优势相比于OLS回归,分位数回归具有以下优势:1.非线性建模能力:分位数回归能够对因变量和自变量之间的非线性关系进行建模,从而更准确地描述实际数据的特征。
2.探索条件分布的能力:由于分位数回归允许因变量在不同条件下的分布变化,因此可以提供对不同分位数的条件分布的估计,进一步帮助我们理解数据的性质。
3.对异常值的鲁棒性:分位数回归对异常值更加鲁棒,因为它通过最小化残差的绝对值之和来估计系数,而不是最小二乘法中常用的最小化残差的平方和。
4.考虑不完全因果关系:分位数回归可以用来研究因变量对自变量的影响程度,考虑到因变量可能由其他未观测的变量影响,从而提供了一种更加全面的因果分析方法。
分位数回归的应用分位数回归广泛应用于各个领域,以下是一些常见的应用场景:1.收入和贫困研究:分位数回归可以用来研究不同收入水平下的贫困率变化,进一步探讨收入不平等的影响因素。
2.教育研究:分位数回归可以用来研究教育水平对工资收入的影响情况,从而分析教育对个体生活水平的提高程度。
分位数回归及其实例一、分位数回归的概念分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。
与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。
传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。
普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。
如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。
但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。
最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。
它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。
因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。
分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。
中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。
一般线性回归模型可设定如下:()((0)),(0,1).x t t I t ρττ=-<∈在满足高斯-马尔可夫假设前提下,可表示如下:01122(|)...k k E y x x x x αααα=++++其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。
数据分析知识:数据挖掘中的分位数回归分位数回归是一种用于数据挖掘的统计方法,它通过将目标变量的分位数作为样本分布的参考点,对回归模型进行拟合和预测。
在实际应用中,分位数回归通常用于研究一组变量对目标变量的不同分位数的影响,以便确定影响因素和预测目标变量。
以医学研究为例,医生可能需要预测病人的生存时间或治疗效果。
传统的回归模型通常通过计算平均值来预测目标变量,但在医疗应用中,研究人员更关注在不同患者之间生存时间或治疗效果的变化,在这种情况下,分位数回归成为了更有用的工具。
分位数回归的基本思想是,将目标变量设置为分位数,并计算每个分位数的条件概率密度函数。
这些密度函数描述了每个分位数与输入变量之间的关系,并且和传统的回归模型不同,分位数回归不会把所有变量的影响简单地平均起来,而是通过对不同分位数进行建模,更准确地描述了变量之间的复杂关系。
分位数回归的另一个优点是,它可以处理异常值和数据偏斜的问题。
在传统的回归模型中,异常值和数据偏斜会对预测结果产生重大影响,而分位数回归可以通过选择适当的分位数来抵消这些影响,提高模型的预测能力和稳健性。
分位数回归的主要实现方法有两种,一种是基于最小二乘法的线性分位数回归(LQR),另一种是非参数分位数回归(NQR)。
LQR是分位数回归的最简单形式,在这种方法中,目标变量被建模为输入变量的线性组合。
更具体地说,对于多个输入变量,LQR可以被表达为如下的公式:y = β0 + β1x1 + β2x2 +…+ βpxp + ε其中y是目标变量,x1,x2,…,xp是输入变量,β0,β1,β2,…,βp是回归系数,ε是误差项。
在分位数回归中,我们将目标变量的分位数作为参考,通过最小化拟合误差来估计回归系数。
具体地说,我们可以根据数据分布选择适当的分位数,如第25、50和75个百分位数,来构建回归模型。
相比于LQR,NQR是一种更为灵活的方法,它不需要假设目标变量与输入变量之间的线性关系,而是通过基于核密度估计的非参数方法来建模。
前言:普通线性回归模型关注的是均值,研究的是在某些解释变量在取值固定的条件下响应变量的期望均值,模型估计方法是最小二乘法,使各个样本残差平方和(MSE)最小。
且只能够获得“在控制一系列干扰因素后,自变量增加一个单位,因变量(的均值)增加多少”这样的结果。
然而,普通最小二乘法处理异常值是将它们平方,平方会显著增加异常值对平均值等统计数据的巨大影响,如果我们不仅希望研究响应变量的期望均值,而且还想知道其对不同分位数上因变量的影响,这时候就需要分位数回归了。
1 分位数回归概述1.1 分位数概念分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数(第25、50和75个百分位)、百分位数等。
1.2 分位数回归概念分位数回归既能研究在不同分位点处自变量X对于因变量Y的影响变化趋势,也能研究在不同分位点处的哪些自变量X是主要影响因素。
原理是将数据按因变量进行拆分成多个分位数点,研究不同分位点情况下时的回归影响关系情况。
比如说想要研究学习时间对学业成绩的影响,使用分位数回归我们就可以研究学习时间每增加一个单位,学生的学业成绩会如何变化,这里的学生可以是学习成绩位列前20%的好学生,也可以是位列50%的普通学生,还可以是位列后20%的后进生。
瞬间研究的范围就变大了,群体的异质性也体现出来了。
本质上,分位数回归就是一个加权最小二乘法,给不同的y值(大于分位点和小于分位点的y)不同的权重,比如现在我们有一个数据集是1到10各整数,我们希望求0.7分位数,假设这个0.7分位数是q,然后所有大于q的数都被赋上权重0.7,小于q的赋予权重0.3。
2 案例介绍建立分位数回归来分析产品质量、广告投放对产品销售的影响。
3 软件操作及结果解读3.1 软件操作可以添加需要分析的分位数,常用的分位数有四分位数、十分位数。
本例设定十分位数。
3.2 结果解读1)分位数回归结果表图表说明:上表格展示了分位数回归的参数结果,包括分位数点、变量、样本量、拟合度R²等,可从两方面来进行分析:●在不同分位数处自变量对因变量的回归系数呈现的变化趋势。
分位数回归通俗理解分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。
与传统的OLS只得到均值方程相比,它可以更详细地描述变量的统计分布。
传统的线性回归模型描述了因变量的条件分布受到自变量X的影响过程。
普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X对于因变量y的均值影响。
如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(MⅥ甩)。
但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。
最小二乘回归假定自变量X只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett于1978年提出了分位数回归(Quantile Regression)的思想⋯。
它依据因变量的条件分位数对自变量X进行回归,这样得到了所有分位数下的回归模型。
因此分位数回归相比普通最小二乘回归只能描述自变量X对于因变量y局部变化的影响而言,更能精确地描述自变量X对于因变量y的变化范围以及条件分布形状的影响。
分位数回归能够捕捉分布的尾部特征,当自变量对不同部分的因变量的分布产生不同的影响时.例如出现左偏或右偏的情况时。
它能更加全面的刻画分布的特征,从而得到全面的分析,而且其分位数回归系数估计比OLS回归系数估计更稳健。
近10多年来,分位数回归在国外得到了迅猛的发展及应用,其研究领域包括经济、医学、环境科学、生存分析以及动植物学等方面(见本文第四部分)。
分位数回归理论及其应用共3篇分位数回归理论及其应用1分位数回归理论及其应用分位数回归是一种重要的统计方法,可以有效地应用于对数据进行分析和建模。
本文将介绍分位数回归理论的概念、方法和应用,并通过实际案例来说明其在实践中的运用。
一、分位数回归理论概述分位数回归是通过对分位数进行建模,而不是对中心点(如平均数或中位数)进行建模的回归分析。
该方法可以帮助我们更好地理解数据的分布情况。
通常情况下,我们关注的是中位数或平均数,因为它们代表了数据集中的位置信息。
但是,在某些情况下,这些中心点可能无法提供足够的信息,或者它们可能无法很好地描述分布情况。
分位数回归方法就是通过对数据进行分位数的建模来解决这些问题。
分位数回归给出了不同分位数对自变量的响应,可以确定不同分位数下因变量与自变量之间的关系。
二、分位数回归方法1.示例数据在了解分位数回归方法之前,我们先介绍数据集。
假设我们有一组来自UNICEF的数据集,记录了不同国家儿童死亡率和GDP(卫生)支出的信息。
这些数据明显不是线性的,因为它们不能用单独的直线来描述。
2.分位数回归假设我们希望了解死亡率与GDP支出之间的关系。
我们可以在不同的分位数水平下,对死亡率和GDP支出之间的关系进行建模。
这个过程被称为分位数回归。
在本例中,我们将使用分位数水平为0.25、0.5和0.75。
我们可以首先在0.25和0.75分位数水平下建立模型,确定死亡率与GDP支出之间的关系。
然后,我们在0.5分位数水平下建立模型,确定这两个变量之间的中心关系。
3.结果分析在分位数回归分析后,我们可以得到以下结果。
在0.25分位数水平下,我们发现GDP支出与死亡率呈现负相关;在0.75分位数水平下,我们发现GDP支出与死亡率呈现正相关,这意味着一些经济条件较好的国家的死亡率可能会上升。
在0.5分位数水平下,我们可以看到两种情况都可能发生,因为这是分布的中心位置。
这种方法允许我们更灵活地研究不同分位数下的自变量与因变量之间的关系。
分位数回归及应用简介分位数回归是一种在统计学和经济学中常用的回归分析方法,它与传统的平凡最小二乘回归分析相比,更加适用于处理非正态分布、异方差和异常值等问题。
本文将对分位数回归的基本原理进行介绍,并探讨其在实际应用中的一些例子。
一、基本原理分位数回归是指通过对数据进行分位数划分,将不同分位数的回归干系进行建模和分析的方法。
在传统的回归分析中,我们通常关注的是条件均值(条件期望)的回归干系,而分位数回归则可以揭示在不同条件下,数据的不同分位数的回归干系。
以简易的线性回归为例,我们通常会建立一个关于自变量和因变量的条件均值模型,即通过最小化猜测值与实际观测值之间的平方差,得到最佳拟合直线。
而在分位数回归中,我们可以通过最小化猜测值与实际观测值的分位差,得到在不同分位数条件下的最佳拟合直线。
这样做的好处是能够更好地理解数据的分布状况,以及对不同条件下的不确定性进行建模和猜测。
二、实际应用1. 收入差距探究分位数回归常被用于探究收入差距的影响因素。
以中国为例,我们可以通过对个人收入数据的分位数回归分析,得到不同分位数收入的影响因素和差异。
探究发现,教育水平、工作阅历和性别等因素对于不同收入分位数的影响程度是不同的。
通过分位数回归,我们可以更全面地洞察不同收入群体之间的差距和不对等现象。
2. 健康状况评估分位数回归也可以用于对健康状况评估的探究。
例如,我们可以通过分位数回归分析,探讨不同健康指标(如体重指数、血压等)与不同健康分位数(如50%、70%)的干系,从而对健康状况进行更精细的刻画和猜测。
探究发现,不同健康指标对不同健康分位数的影响具有显著差异,分位数回归可以援助揭示这些差异。
3. 风险评估在金融风险评估中,分位数回归也有重要应用。
通过分位数回归,我们可以建立基于市场因素、公司基本面等的风险模型,猜测不同风险分位数下的收益变化。
这对于投资组合的构建和风险管理具有重要意义。
探究表明,通过引入分位数回归,能够更准确地预估金融市场的风险暴露和收益猜测。
分位数回归三部分:分位数回归简介分位数回归的应用R程序实践一、分位数回归简介为什么要分位数回归?传统的线性回归描述条件均值受自变量的影响,若随机误差满足经典假设,参数估计将具有无偏性、有效性等优良性质。
但实际生活假设往往不满足,如存在异方差,偏态分布等会使传统线性回归不具有以上性质。
分位数回归1、随机扰动项不做分布的假定,估计具有很强稳健型2、对所有分位数进行回归,这样对异常点具有抗耐性一体两面的,更加精确地描述自变量对因变量变化范围的影响3、分位数回归具有较好的弹性性质4、对于因变量具有单调变换性5、估计参数在大样本下具有渐进优良性为了方便解释清楚分位数回归,先利用一个图形来作简要说明:上图的横坐标表示的是家庭收入,而纵坐标表示的是食物支出。
这个例子稍后会用R实现。
回归分析的基本思想就是使样本值与拟合值之间的距离最短,对于Y的一组随机样本,样本均值回归是使误差平方和最小,即样本中位数回归是使误差绝对值之和最小,即样本分位数回归是使加权误差绝对值之和最小,即现假设因变量Y由k个自变量组成的矩阵某线性表示,对于条件均值函数得到参数其中加权表述方式。
二、分位数回归的应用为检查函数,等价于上述近10多年来,分位数回归的理论和方法在各个领域中都得到了非常迅速的发展:在环境科学方面,典型的有Chock,Winkler和Chen使用非参数分位数回归法研究了匹兹堡这座城市中日死亡率和空气污染集中度的相互关系;在生存分析方面,Koenker和Hallock(2001)研究了诸多因数对于新生儿出体重的影响。
Cole和Green以及Royton和Altman讨论了分位数回归在医学上的应用。
Deaton对于分位数回归在需求分析方面上的应用做了介绍,并分析了巴基斯坦的Engel曲线,等等收入不平等问题是分位数回归的另一个研究方面,Goling、Machin和Meghir研究了英国家庭的收入和财富的分布状况;三、R程序实践1、了解包quantreg:包括文档、代码;文档vignette其他文档有crq、rq文档2、了解线性分位数函数rq()rq(formula,tau=.5,data,ubet,weight,na.action,method=\method=:此参数指定用于计算分位数回归的算法1、默认为“br”2、参数设置为“fn”3、参数设置为“fnc”介绍返回值:参数tau决定返回值得对象类型不同。
分位数回归及应用简介一、本文概述分位数回归是一种统计学中的回归分析方法,它扩展了传统的均值回归模型,以揭示自变量和因变量之间的非线性关系。
本文将简要介绍分位数回归的基本原理、方法及其在各种领域中的应用。
我们将概述分位数回归的基本概念和数学模型,解释其如何适应不同的数据分布和异质性。
接着,我们将讨论分位数回归的统计性质和估计方法,包括其稳健性、灵活性和有效性。
我们将通过实例展示分位数回归在经济学、医学、环境科学等领域中的实际应用,并探讨其未来的发展前景和挑战。
通过本文的阐述,读者可以对分位数回归有更深入的理解,并了解其在处理复杂数据分析问题中的潜力和价值。
二、分位数回归的基本理论分位数回归(Quantile Regression)是统计学中的一种回归分析方法,它不同于传统的最小二乘法回归,旨在估计因变量的条件分位数与自变量之间的关系。
最小二乘法回归主要关注因变量的条件均值,而分位数回归则能够提供更为全面的信息,包括条件中位数、四分位数等。
分位数回归的基本理论建立在分位数函数的基础上,分位数函数是描述随机变量在某个特定概率水平下的取值。
在分位数回归模型中,自变量通过一组参数β影响因变量Y的条件分位数。
这些参数β是通过最小化因变量的实际值与预测值之间的某种损失函数来估计的。
分位数回归的优点在于,它对于因变量的分布假设较为宽松,不需要满足正态分布或同方差性等假设。
分位数回归对异常值和离群点的影响较小,因此具有较高的稳健性。
这使得分位数回归在处理具有复杂分布和非线性关系的实际问题时表现出色。
分位数回归的估计方法主要有线性规划法、单纯形法和非线性规划法等。
这些方法的选择取决于具体的研究问题和数据特点。
在实际应用中,分位数回归通常与一些机器学习算法相结合,如随机森林、支持向量机等,以提高模型的预测精度和泛化能力。
分位数回归在金融、医学、环境科学等领域有着广泛的应用。
例如,在金融领域,分位数回归可以用于预测股票价格的风险价值(VaR)和预期损失(ES),帮助投资者进行风险管理。
分位数回归 r方分位数回归是一种在统计学和经济学中常用的方法,用于研究变量之间的关系。
通过分位数回归可以得到不同分位数水平下的回归系数,从而更全面地理解变量之间的关系,并且可以避免极端值对回归结果的影响。
在传统的OLS(普通最小二乘法)回归中,通过最小化观测值与预测值之间的平方差来估计回归系数。
然而,OLS回归对于极端值非常敏感,即使一个极端值的存在也可能导致回归结果的显著变化。
而分位数回归则通过考虑不同分位数水平下的条件中位数来估计回归系数,从而更准确地刻画变量之间的关系。
分位数回归的核心思想是将数据集按照不同的分位数水平进行拆分,然后在每个分位数水平上进行回归分析。
例如,可以将数据集按照分位数水平分为上、中、下三个部分,然后在每个部分上分别进行回归分析,得到不同的回归系数。
这样可以更全面地了解变量之间的关系,因为不同分位数水平下可能存在不同的影响因素。
分位数回归可以用于多个领域的研究。
在经济学中,分位数回归可以用于研究收入差距、贫富分化等问题。
在医学研究中,分位数回归可以用于研究药物对不同分位数水平下患者的治疗效果。
在社会学研究中,分位数回归可以用于研究教育对不同分位数水平下个人收入的影响。
分位数回归的优势在于可以更全面地了解变量之间的关系。
通过考虑不同分位数水平下的条件中位数,可以避免极端值对回归结果的影响,从而得到更准确的回归系数。
此外,分位数回归还可以提供不同分位数水平下的预测结果,为决策提供更全面的参考。
然而,分位数回归也存在一些限制。
首先,分位数回归需要大量的计算,尤其是在处理大规模数据集时。
其次,分位数回归对于样本量的要求较高,如果样本量过小,可能会导致估计结果不准确。
此外,分位数回归也对数据的分布做了一定的假设,如果数据不符合假设的分布,可能会导致回归结果的偏差。
分位数回归是一种在统计学和经济学中常用的方法,可以更全面地了解变量之间的关系。
通过考虑不同分位数水平下的条件中位数,分位数回归可以避免极端值对回归结果的影响,得到更准确的回归系数。
第15章分位数回归模型15.1 总体分位数和总体中位数15.2 总体中位数的估计15.3 分位数回归15.4 分位数回归模型的估计15.5 分位数回归模型的检验15.6 分位数的计算与分位数回归的EViews操作15.7 分位数回归的案例分析以往介绍的回归模型实际上是研究被解释变量的条件期望。
人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。
这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。
正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。
它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。
在残差检验、回归系数检验、模型设定、预测等方面则基本相同。
分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。
不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。
另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。
15.1 总体分位数和总体中位数在介绍分位数回归之前先介绍分位数和中位数概念。
对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:y小于等于y(τ)的概率是τ,即τ = P( y≤y(τ)) = F(y(τ))其中P(⋅)表示概率,F(y(τ)) 表示y的累积(概率)分布函数(cdf)。
比如y(0.25) = 3,则意味着y≤ 3的概率是0.25。
分位数回归结果输出概述分位数回归是一种基于分位数的统计方法,用于解决传统回归分析中无法解决的一些问题,例如异常值的影响、异方差性和非线性关系等。
在分位数回归中,我们将目标变量在不同分位数处进行建模,可以得到更加全面和准确的回归结果。
分位数回归的基本原理分位数回归是通过拟合多个分位数来研究自变量对因变量的影响,从而得到一个关于不同分位数的完整回归曲线。
与传统的OLS(最小二乘法)回归不同,分位数回归能够提供因变量在不同条件下的分布信息,对异常值和极端观察值具有更好的鲁棒性。
分位数回归的优点•鲁棒性:分位数回归对异常值和极端观察值具有更好的鲁棒性,能够减轻这些观察值对回归结果的影响。
•非对称性:传统的OLS回归假设了因变量和自变量之间的关系是线性的,而分位数回归则能够应对非对称的关系,更好地捕捉到尾部数据的影响。
•分布信息:分位数回归能够提供因变量在不同条件下的分布信息,对于分析潜在影响因素的不确定性具有重要的参考价值。
分位数回归的实现在Stata中,可以使用qreg命令进行分位数回归的估计和输出结果。
下面是一个简单的分位数回归的步骤:步骤1:加载数据首先,我们需要加载要进行分位数回归的数据集。
可以使用use命令加载Stata自带的示例数据集,或者使用import命令导入自己的数据。
步骤2:估计分位数回归模型使用qreg命令可以估计分位数回归模型,语法如下:qreg depvar indepvars, quantiles(levels)其中,depvar是因变量,indepvars是自变量,quantiles(levels)指定了要估计的分位数水平。
步骤3:输出回归结果通过estimates table命令可以输出分位数回归的结果,语法如下:estimates store model_nameestimates table model_name, stats(coef p)其中,model_name是模型名称,可以自己指定,stats(coef p)指定了要输出的统计量。
分位数回归及其实例
一、分位数回归的概念
分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。
与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。
传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。
普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。
如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。
但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。
最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。
它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。
因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。
分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。
中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。
一般线性回归模型可设定如下:
()((0)),(0,1).x t t I t ρττ=-<∈
在满足高斯-马尔可夫假设前提下,可表示如下:
01122(|)...k k E y x x x x αααα=++++
其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。
这是均值回归(OLS )模型表达式,类似于均值回归模型,也可以定义分位数回归模型如下:
01122(|)...()y k k u Q x x x x Q ταααατ=+++++
对于分位数回归模型,则可采取线性规划法(LP )估计其最小加权绝对偏差,从而得到解释变量的回归系数,可表示如下:
01122min (...)x k k E y x x x ραααα-----
求解得:01122ˆˆˆˆˆ(|)y
k k Q x a a x a x a x τ=++++ 其中,
,,001,0234,0,log(/)ln()ln(/)ln()ln()i T i i i T y y y I GDP n g h βββββε=+++++∂++1
从参数的估计方法来看,一般线性回归模型的原理是使得被解释变量y 与其拟合值之差(称作残差)的平方和最小,而分位数回归是使得这个残差的绝对值的一个表达式最小,这个表达式不可微,因此传统的求导方法不再适用,而是采用线性规划方法或单纯形算法。
这也是它与一般线性回归最大的不同点之一。
随着计算机技术的不断突破,上述算法可以很方便地由各种软件实现。
现在主流统计、计量与科学计算软件SAS 、STATA 、EViews 、MATLAB 等中都可以加载分位数回归软件包。
分位数回归能够捕捉分布的尾部特征,当自变量对不同部分的因变量的分布产生不同的影响时.例如出现左偏或右偏的情况时。
它能更加全面的刻画分布的特征,从而得到全面的分析,而且其分位数回归系数估计比OLS 回归系数估计更稳健。
近10多年来,分位数回归在国外得到了迅猛的发展及应用,其研究领域包括经济、医学、环境科学、生存分析以及动植物学等方面。
二、分位数回归的实例
下面举一个实例,关于我国地区经济增长收敛的分位数回归分析。
β-收敛的分位数回归分析。
绝对β-收敛的检验
分三阶段对中国经济增长的绝对收敛情况分位数回归方法进行分析。
表1 1978-2007年关于中国经济绝对收敛的OLS 估计和分位数回归结果 变量
分位数 1978-1991 1992-2003 2004-2007 0
ln t y 0.1 -0.2448(-6.93***) 0.1309(2.84*** ) -0.1098(-6.15***) 0.25 -0.2711(-5.49***) 0.1554(1.72*) -0.0482(-0.76
) 0.5 -0.3253(-4.28***) 0.1914(2.17**) -0.0386(-0.88
) 0.75 -0.2301(-2.05**) 0.1842( 1.55) -0.0497(-1.01
) 0.9
-0.3854(-5.86***) 0.2328(7.43***) -0.1067(-2.20**)
OLS
-0.2791(-4.06***)
0.1727(2.96***)
-0.0806(-2.59**)
常数
0.1
2.8573(12.75
***)
0.3483( 0.9
9 )
1.4088(8.11**
*)
0.25
3.0627(9.77*
**)
0.2172(0.31
)
0.8984(1.54) 0.5
3.4860(7.70*
**)
0.0158(0.02
)
0.8556(2.08**
)
0.75
3.0649(
4.36*
**)
0.2203( 0.2
4)
1.0185(
2.20**
)
0.9
4.1783(9.6**
*)
-0.0141(-0.
06)
1.5943(3.30**
*)
OLS
3.2428(7.95*
**)
0.1893(0.42
)
1.2535
(4.30***)
分位数回归结果分析
通过观察表1,看出人均生产总值在第一阶段从十分位到九十分位β系数显著为负,存在着绝对收敛,而且β系数的绝对值呈现逐渐增加的趋势。
而从1992年到2003年这一阶段可以明显看出十分位,四分之一分位,中位数,四分之三分位,九十分位β系数均为正,而且显著性水平都很高,β系数从十分位的0.1309增加到九十分位的0.2328,存在着显著的递增趋势,因此不存在绝对收敛。
在第三阶段,只有十分位和九十分位β系数通过了显著性检验,其余水平下的β系数都不是很显著,但是总体上β系数均是负的,说明这阶段也存在着绝对β-收敛。
这与许绍元、李善同(2006)得到的结果相似,他们认为我国的地区差距经历了一个先缩小后持续扩大的历程。
与20世纪90年代相比,近年来我国的地区差距发展趋势出现了一定的变化,2000-2004年,我国的地区差距仍然在持续扩大,但扩展的速度比20世纪90年代有所减缓,2004年出现了地区差距缩小的迹象。