分位数回归.
- 格式:doc
- 大小:887.50 KB
- 文档页数:24
分位数回归方法在居民收入中的应用
分位数回归(quantile regression)是一种对数据进行统计建模的方法,它可以用来研究居民收入的分布情况,分析不同人群收入的差异,以及收入增长的趋势。
分位数回归的思想是,将研究对象的收入分成不同的分位数,然后分析每个分位数的收入情况。
比如,可以将居民收入分为10个分位数,从最低收入的居民到最高收入的居民依次分组,每组包含10%的居民。
分位数回归可以用来描述每个分组的收入情况,从而分析不同人群收入的差异,以及收入增长的趋势。
另外,分位数回归还可以用来研究不同人群在收入上的差异,比如,男女收入的差异、不同年龄段收入的差异、不同学历收入的差异、不同地区收入的差异等。
通过分位数回归,可以看出不同人群之间收入的差异,并分析收入差异的原因。
总之,分位数回归在居民收入研究中有着广泛的应用。
它可以用来分析不同人群收入的差异,以及收入增长的趋势,也可以用来研究不同人群在收入上的差异,从而为政策制定提供参考。
分位数回归及其实例一、分位数回归的概念分位数回归(Quantile Regression):是计量经济学的研究前沿方向之一,它利用解释变量的多个分位数(例如四分位、十分位、百分位等)来得到被解释变量的条件分布的相应的分位数方程。
与传统的OLS 只得到均值方程相比,它可以更详细地描述变量的统计分布。
传统的线性回归模型描述了因变量的条件分布受到自变量X 的影响过程。
普通最dx--乘法是估计回归系数的最基本的方法,它描述了自变量X 对于因变量y 的均值影响。
如果模型中的随机扰动项来自均值为零而且同方差的分布,那么回归系数的最dx--乘估计为最佳线性无偏估计(BLUE);如果近一步随机扰动项服从正态分布,那么回归系数的最dx--乘法或极大似然估计为最小方差无偏估计(M Ⅵ甩)。
但是在实际的经济生活中,这种假设常常不被满足,饲如数据出现尖峰或厚尾的分布、存在显著的异方差等情况,这时的最小二乘法估计将不再具有上述优良性且稳健性非常差。
最小二乘回归假定自变量X 只能影响因变量的条件分布的位置,但不能影响其分布的刻度或形状的任何其他方面。
为了弥补普通最dx--乘法(0Ls)在回归分析中的缺陷,Koenkel"和Pxassett 于1978年提出了分位数回归(Quantile Regression)的思想。
它依据因变量的条件分位数对自变量X 进行回归,这样得到了所有分位数下的回归模型。
因此分位数回归相比普通最小二乘回归只能描述自变量X 对于因变量y 局部变化的影响而言,更能精确地描述自变量X 对于因变量y 的变化范围以及条件分布形状的影响。
分位数回归是对以古典条件均值模型为基础的最小二乘法的延伸,用多个分位函数来估计整体模型。
中位数回归是分位数回归的特殊情况,用对称权重解决残差最小化问题,而其他的条件分位数回归则用非对称权重解决残差最小化。
一般线性回归模型可设定如下:()((0)),(0,1).x t t I t ρττ=-<∈在满足高斯-马尔可夫假设前提下,可表示如下:01122(|)...k k E y x x x x αααα=++++其中u 为随机扰动项k αααα,...,,,210为待估解释变量系数。
分位数回归分析简介分位数回归分析(Quantile Regression Analysis)是一种统计分析方法,用来研究因变量与一个或多个自变量之间关系的非线性问题。
相比于传统的OLS(Ordinary Least Squares)回归分析,分位数回归分析更加灵活,能够提供对不同分位数的因变量条件分布的估计。
分位数回归的定义在传统的OLS回归中,我们通过找到一条线性回归方程来描述自变量和因变量之间的关系。
但是,OLS回归假设因变量在各个条件上的分布是相同的,即在不同的自变量取值下,因变量的条件分布是相同的。
而在分位数回归中,我们允许因变量在不同条件下的分布产生变化,因此可以更准确地描述不同区间的因变量与自变量之间的关系。
分位数回归的目标是找到一组系数,用于描述自变量与因变量在给定分位数时的关系。
分位数回归通过最小化残差的绝对值之和来估计这组系数。
这种方法使得我们能够探索不同分位数下自变量和因变量之间的变化。
分位数回归的优势相比于OLS回归,分位数回归具有以下优势:1.非线性建模能力:分位数回归能够对因变量和自变量之间的非线性关系进行建模,从而更准确地描述实际数据的特征。
2.探索条件分布的能力:由于分位数回归允许因变量在不同条件下的分布变化,因此可以提供对不同分位数的条件分布的估计,进一步帮助我们理解数据的性质。
3.对异常值的鲁棒性:分位数回归对异常值更加鲁棒,因为它通过最小化残差的绝对值之和来估计系数,而不是最小二乘法中常用的最小化残差的平方和。
4.考虑不完全因果关系:分位数回归可以用来研究因变量对自变量的影响程度,考虑到因变量可能由其他未观测的变量影响,从而提供了一种更加全面的因果分析方法。
分位数回归的应用分位数回归广泛应用于各个领域,以下是一些常见的应用场景:1.收入和贫困研究:分位数回归可以用来研究不同收入水平下的贫困率变化,进一步探讨收入不平等的影响因素。
2.教育研究:分位数回归可以用来研究教育水平对工资收入的影响情况,从而分析教育对个体生活水平的提高程度。
分位数回归工具变量
分位数回归是一种统计学方法,用于估计给定分位数的响应变量的值。
工具变量是一种用于解决回归分析中内生性问题的重要方法。
在分位数回归中,工具变量可以用于解决回归模型中的遗漏变量偏差问题。
具体来说,在分位数回归中,工具变量可以用于解决以下问题:
1. 遗漏变量偏差:如果回归模型中遗漏了与解释变量
相关的变量,那么回归系数可能会受到这种遗漏变量的影响,从而导致有偏估计。
通过使用工具变量,可以消除这种遗漏变量偏差,得到无偏的回归系数估计。
2. 异方差问题:在分位数回归中,残差项的方差可能
随着解释变量的变化而变化,从而导致回归系数的方差估计不准确。
通过使用工具变量,可以减轻这种异方差问题,得到更准确的回归系数估计。
3. 样本选择偏倚:在现实世界中,观测数据的获取可
能存在选择性偏倚,从而导致回归系数的有偏估计。
通过使
用工具变量,可以消除这种样本选择偏倚,得到无偏的回归系数估计。
在分位数回归中,工具变量的选择至关重要。
理想情况下,工具变量应该与解释变量相关,但与残差项不相关。
然而,在实际应用中,找到这样的工具变量并不容易。
因此,需要使用各种统计方法来评估工具变量的有效性,例如过度识别约束检验、随机推断等。
总之,在分位数回归中使用工具变量可以帮助解决遗漏变量偏差、异方差问题和样本选择偏倚等问题,从而得到更准确的回归系数估计。
然而,工具变量的选择和使用需要谨慎,并需要使用适当的统计方法来评估工具变量的有效性。
分位数模型回归分析分位数是描述数据分布特征的重要指标,它不同于平均数和中位数,是以一定的百分比为界限,将数据分为等量的小组内容,并计算每一组内容的平均值而被定义出来的。
分位数可以快速、全面地描述数据分布特征,是定量分析研究中一个重要的理论工具,在金融、心理学等多个学科都有广泛的应用。
分位数模型回归分析(Quantile Regression)是基于分位数理论而发展起来的,它是一种包含变量的统计回归方法,基本思想是用若干统计模型的参数估计来识别数据的分布特征,以达到更好的描述数据的目的。
它的优势在于可以拟合出更加完整的数据分布情况,更有利于我们对数据的解读。
二、分位数模型回归分析的基本原理分位数模型回归分析是一种用来估计量化分布情况的统计回归方法,基本方法是以特定的分位数来定义变量的分布,然后根据观测数据分布的特征和回归解释变量,来进行参数估计。
它同样采用最小二乘法求得拟合参数,但与其他的最小二乘法不同的是,它是将数据根据分位数分为等量的小组内容后,考虑每组中的变量均值进行回归分析,而非只考虑全部数据的拟合情况,从而完善拟合结果。
分位数模型回归分析一般分为两个步骤:首先,根据先观察到的分位数和观测数据分布情况,定义回归模型参数;然后,根据观测数据拟合参数,完成分位数模型回归分析。
三、应用分位数模型回归分析的应用已经广泛,主要在金融学、心理学、市场营销、社会学等领域,都有不同程度的使用。
1.融领域:在金融分析中,分位数模型回归分析可以用来确定数据的分布特征,从而实现对金融风险的评估和管理,并有助于金融机构获取更多有价值的信息。
2.理学领域:分位数模型回归分析可以用来准确描述各类心理和行为变量的分布特征,从而更好地掌握人类思想的内涵,为心理研究收集有价值的信息。
3.场营销:分位数模型回归分析可以用来精准描述市场需求和购买行为,从而更有效地完成消费者目标定位,为市场营销提供有价值的指导。
4.会学:分位数模型回归分析也可以用来明确社会现象的分布特征,如收入分布、社会资本分布等,从而有助于更加有效地实施社会管理和政策,实现社会系统的稳定发展。
解释变量的分位数回归在统计分析中,分位数回归是一种用来研究解释变量对不同分位数的因变量影响的方法。
与传统的普通最小二乘回归不同,分位数回归允许我们对不同分位数的条件分布进行建模。
通过分析解释变量在不同分位数下对因变量的影响程度,我们能够获取更全面的信息,揭示数据内部的特点。
分位数回归的基本思想是利用分位数损失函数来估计出不同分位数下的回归系数。
在普通最小二乘回归中,我们通常使用最小二乘损失函数,即最小化残差平方和来拟合模型。
但是这种方法在面对异常值存在的情况下可能表现不佳,因为它对所有观测值都给予相同的权重。
而分位数损失函数则能够更好地处理异常值,因为它将不同分位数下的残差赋予不同的权重,使得模型对异常值更加鲁棒。
在进行分位数回归时,我们需要指定所关注的分位数。
常用的分位数包括0.25、0.5和0.75,分别对应着数据的下四分位数、中位数和上四分位数。
通过估计这些分位数下的回归系数,我们可以得到一个更全面的回归模型,揭示不同部分数据的特点。
分位数回归不仅可以用于解释变量对因变量的影响,还可以用于解释变量之间的关系。
我们可以通过在分位数回归模型中加入交互项来研究解释变量之间的非线性关系。
例如,我们可以检验某个解释变量在不同分位数下是否对因变量产生不同的影响。
这种方法能够帮助我们发现变量之间更加复杂的相互作用,大大拓宽了我们对数据的理解和解释。
总而言之,解释变量的分位数回归是一种强大的统计分析方法,通过研究解释变量在不同分位数下对因变量的影响,我们能够获取更全面的信息,发现数据内部的特点。
分位数回归不仅能够解释变量对因变量的影响,还能够揭示变量之间的非线性关系。
它为我们研究和理解数据提供了一种有效的工具和方法。
分位数回归非连续变量
分位数回归是一种统计方法,用于估计因变量在给定自变量条件下特定分位数的值。
通常用于处理非连续变量的情况,这些非连续变量可以是分类变量或定性变量。
在分位数回归中,我们希望估计的不再是因变量的均值,而是它的分位数,比如中位数或其他分位数。
这种方法对于处理非连续变量特别有用,因为它不依赖于对数据分布的假设,而是通过对条件分布的估计来得到结果。
对于非连续变量,我们可以将其转化为虚拟变量,然后引入到分位数回归模型中。
虚拟变量是用来表示分类变量的一种方式,它可以帮助我们对非连续变量进行建模和分析。
在分位数回归中,我们可以将这些虚拟变量作为自变量引入模型,从而控制这些非连续变量对因变量特定分位数的影响。
除了引入虚拟变量外,我们还可以考虑使用其他变量转换方法来处理非连续变量,比如对数变换或者分组处理等。
这些方法可以帮助我们更好地理解非连续变量对分位数的影响,并进行有效的建模和分析。
总之,分位数回归是一种适用于处理非连续变量的统计方法,通过引入虚拟变量或其他变量转换方法,可以对非连续变量进行建模和分析,从而更好地理解其对特定分位数的影响。
分位数回归数据产生过程分位数回归是一种统计方法,用于在非线性关系的数据中估计不同分位数的条件分布函数。
它能够提供关于变量之间关系的更全面的信息,比传统的OLS(普通最小二乘法)回归更加灵活和准确。
在分位数回归中,我们首先要了解分位数。
分位数是指将一组数据按大小顺序排列后,将其分为几个等份的数值点。
常见的分位数包括中位数(将数据分为两等份)、四分位数(将数据分为四等份)和十分位数(将数据分为十等份)等。
分位数回归则是基于这些分位数的概念来进行的。
分位数回归的数据产生过程是通过对样本数据进行拟合,得到关于不同分位数的条件分布函数。
具体而言,我们首先收集一组自变量(例如年龄、收入等)和因变量(例如房价、股票收益等)的数据。
然后,我们使用分位数回归模型来估计不同分位数的条件分布函数。
在分位数回归中,我们通常使用最小绝对偏差(LAD)作为估计方法,因为它对异常值更加鲁棒。
LAD估计方法旨在找到一条直线,使得样本数据点到该直线的绝对偏差之和最小。
通过最小化绝对偏差,我们可以得到不同分位数的条件分布函数。
分位数回归的结果可以提供关于变量之间关系的更全面信息。
传统的OLS回归只能提供关于均值的估计,而分位数回归能够提供关于不同分位数的估计。
这对于研究非线性关系、分析收入分配不均等问题非常有用。
值得注意的是,分位数回归并不是解决所有问题的万能工具。
它的适用性取决于数据的特点和研究问题的性质。
在使用分位数回归时,我们需要仔细分析数据的分布情况,选择适当的分位数和估计方法,并进行统计推断和模型检验,以确保结果的准确性和可靠性。
总结来说,分位数回归是一种在非线性关系的数据中估计不同分位数的条件分布函数的统计方法。
它能够提供关于变量之间关系的更全面信息,比传统的OLS回归更加灵活和准确。
然而,在使用分位数回归时,我们需要仔细选择适当的分位数和估计方法,并进行统计推断和模型检验,以确保结果的准确性和可靠性。
分位数回归是统计学中的重要工具,对于研究非线性关系、分析收入分配不均等问题具有重要意义。
Stata分位数回归;如何加强定效应与聚类一、介绍Stata是一种广泛使用的统计软件,可用于数据分析、数据管理和图形展示。
在经济学、社会科学和生物统计学等领域,Stata被广泛应用于各种研究和分析工作中。
其中,分位数回归是Stata中常见的一种数据分析方法,常用于探究影响因素对结果的不同影响程度。
在进行分位数回归分析时,加入定效应(Fixed Effects)和聚类(Cluster)可以提高模型的准确性和鲁棒性。
本文将介绍Stata中如何进行分位数回归分析,并重点讨论如何加强定效应和聚类。
二、Stata分位数回归在Stata中进行分位数回归分析,可以使用`qreg`命令。
该命令的基本语法为:```qreg depvar indepvars, quantile(level)```其中,depvar代表因变量(Dependent Variable),indepvars代表自变量(Independent Variables),而quantile(level)代表分位数水平(Quantile Level)。
在实际应用中,我们通常会给出需要估计的分位数水平,比如10、50和90等。
通过指定不同的分位数水平,我们可以对不同位置的因变量进行分析,从而了解各自不同的影响因素和变化规律。
三、定效应(Fixed Effects)的加强定效应是指在面板数据分析中控制个体特征的一种方法,它通过引入个体固定效应来消除个体特征对模型的影响。
在Stata中,可以使用`xtreg`命令实现面板数据的定效应估计。
1. 在Stata中加强定效应有以下几个步骤:(1) 加载数据:使用`use`命令加载需要进行定效应估计的数据集。
(2) 设置面板数据格式:通过`xtset`命令,设置数据为面板数据格式,即指定数据中的个体和时间变量。
(3) 进行定效应估计:使用`xtreg`命令进行定效应估计,语法类似于普通的回归命令。
2. 定效应的加强能够有效控制个体固有特征对模型的影响,提高了模型的准确性和稳健性。
stata分位数回归结果导出Stata是一种功能强大的统计分析软件,常用于数据处理和建模。
分位数回归(Quantile Regression)是一种比传统最小二乘回归更加灵活的方法,它可以用来研究不同分位数上自变量对因变量的影响。
进行分位数回归的第一步是加载数据。
可以使用Stata的`use`命令将数据加载到内存中。
```use "数据文件名.dta", clear```然后,可以使用`qreg`命令来进行分位数回归。
`qreg`命令有许多选项,可以控制回归模型的具体设置。
比如,可以使用`robust`选项来进行异方差鲁棒的标准误估计。
下面是一个示例:```qreg y x1 x2, quantile(0.25 0.5 0.75) robust```这个命令会将变量`y`作为因变量,变量`x1`和`x2`作为自变量进行分位数回归。
`quantile(0.25 0.5 0.75)`选项指定了所需的分位数。
`robust`选项告诉Stata使用异方差鲁棒的标准误估计。
分位数回归的另一个重要部分是结果导出。
在Stata中,可以使用`estout`命令将回归结果导出为表格。
首先,需要安装`estout`命令:```ssc install estout```然后,可以使用以下命令将回归结果导出为表格:```eststo cleareststo: qreg y x1 x2, quantile(0.25 0.5 0.75) robustesttab, stats(coef se) b(%10.2f) star(* 0.05 ** 0.01) collabels(none) nonum```这个命令将创建一个名为`est1`的回归结果存储器,并将回归结果存储在其中。
然后,`esttab`命令将结果从`est1`导出为一个表格。
`stats(coef se)`选项指定了要显示的估计值和标准误。
分位数回归stata命令
Stata(色塔)是一种功能强大的软件工具,通常被用来进行数据处理和统计分析。
分位数回归(Quantile Regression)也由Stata实现,其为用户提供了灵活的数据探宝工具,可用于寻找解释数据中特定变量的最优模型。
一、Stata的分位数回归的特点
1、以中位数为准:与传统的多元线性回归(OLS)相比,Stata中的分位数回归更加灵活。
它使用一般线性模型来估计指定位置(如均值,中位数或四分位数)的回归参数,从而可以更好地描述分布的不对称性。
2、多元分析:与OLS回归方法相比,Stata中的分位数回归可以实现多元分析。
这意味着用户可以在单个模型中同时考虑多个自变量。
3、可解释性:Stata中的分位数回归允许用户通过检查分位数的偏差来检验模型的可解释性。
根据结果,用户可以更加准确地描述数据集。
二、Stata中分位数回归的用法
1、安装:安装Stata并搜索安装分位数回归的Stata宏包。
2、数据处理:准备数据,并用Stata编辑器进行分析。
3、回归模型:在Stata命令窗口中输入合适的模型,以创建分位数回归模型。
4、模型评估:根据模型结果,用Stata评估回归拟合的精度,并检查参数估计量的有效性。
5、模型应用:在实际应用中,可以利用拟合的模型,来进行预测以及分析数据集的不对称性。
总之,Stata的分位数回归能够提供一种快速方便的分析工具,帮助用户更准确地描述数据集。
使用正确的方法,用户可以用它来获得准确的结果。
分位数回归及应用简介一、本文概述分位数回归是一种统计学中的回归分析方法,它扩展了传统的均值回归模型,以揭示自变量和因变量之间的非线性关系。
本文将简要介绍分位数回归的基本原理、方法及其在各种领域中的应用。
我们将概述分位数回归的基本概念和数学模型,解释其如何适应不同的数据分布和异质性。
接着,我们将讨论分位数回归的统计性质和估计方法,包括其稳健性、灵活性和有效性。
我们将通过实例展示分位数回归在经济学、医学、环境科学等领域中的实际应用,并探讨其未来的发展前景和挑战。
通过本文的阐述,读者可以对分位数回归有更深入的理解,并了解其在处理复杂数据分析问题中的潜力和价值。
二、分位数回归的基本理论分位数回归(Quantile Regression)是统计学中的一种回归分析方法,它不同于传统的最小二乘法回归,旨在估计因变量的条件分位数与自变量之间的关系。
最小二乘法回归主要关注因变量的条件均值,而分位数回归则能够提供更为全面的信息,包括条件中位数、四分位数等。
分位数回归的基本理论建立在分位数函数的基础上,分位数函数是描述随机变量在某个特定概率水平下的取值。
在分位数回归模型中,自变量通过一组参数β影响因变量Y的条件分位数。
这些参数β是通过最小化因变量的实际值与预测值之间的某种损失函数来估计的。
分位数回归的优点在于,它对于因变量的分布假设较为宽松,不需要满足正态分布或同方差性等假设。
分位数回归对异常值和离群点的影响较小,因此具有较高的稳健性。
这使得分位数回归在处理具有复杂分布和非线性关系的实际问题时表现出色。
分位数回归的估计方法主要有线性规划法、单纯形法和非线性规划法等。
这些方法的选择取决于具体的研究问题和数据特点。
在实际应用中,分位数回归通常与一些机器学习算法相结合,如随机森林、支持向量机等,以提高模型的预测精度和泛化能力。
分位数回归在金融、医学、环境科学等领域有着广泛的应用。
例如,在金融领域,分位数回归可以用于预测股票价格的风险价值(VaR)和预期损失(ES),帮助投资者进行风险管理。
分位数回归的应用领域听起来有些高大上的“分位数回归”,其实是一种统计分析方法,被广泛应用于各个领域。
那么,究竟什么是分位数回归?它有哪些应用领域呢?本文将为你揭晓这些问题。
一、什么是分位数回归?首先,我们需要了解回归分析的基本概念。
回归分析是一种用来探究一个或多个自变量与因变量之间关系的统计学方法。
在一元线性回归中,我们只用一个自变量(如某个因素),来解释一个因变量(如收入)。
但在多元回归中,可能有多个因素同时影响因变量。
分位数回归则是对于自变量和因变量都是连续型变量的情况,通过在因变量的不同分位数上估计自变量对应的条件分位数来分析两个变量之间的关系。
简单来说,它是将回归中的侧重点由平均数转变成了中位数、四分位数等不同的分位数。
二、分位数回归的应用领域1. 经济学领域分位数回归在经济学领域得到广泛应用,特别是在收入和财富分配的研究中。
以最近几十年来的研究为例,一些学者发现,在美国和其他国家,财富分配变得越来越不平等。
分位数回归可以用来研究哪些因素导致这种情况的发生,以及不同收入群体的财富和收入是否都随着时间的推移而变得不平等。
2. 医学领域医学领域中,分位数回归可以用来研究不同药物和治疗方法对患者疗效的影响。
此外,也可以应用于探究人口健康和寿命与某些风险因素(如饮食偏好和体育锻炼)之间的关系。
3. 教育领域分位数回归在教育领域也有重要的应用,可以研究学校教育和其他教育形式(如在线学习)的效果。
它可以探究教育对学生成果的影响,以及教育程度对收入和就业机会的影响等。
4. 社会科学领域分位数回归可以用于研究社会问题,例如种族和性别不平等、贫困和社会流动性等。
研究人员可以使用分位数回归数据来探究这些问题的原因和影响。
三、总结随着数据获取和分析技术的不断发展,分位数回归依然是探究统计分析中常用的工具。
它的应用领域十分广泛,包括经济学、医学、教育和社会科学等领域。
尽管分位数回归有一些局限性,比如对数据分布的要求较高,但在适当的条件下,分位数回归仍然是一种十分有价值的统计分析方法。
2、不同分位点拟合曲线的比较# 散点图attach(engel) # 打开engel数据集,直接运行其中的列名,就可以调用相应列plot(income,foodexp,cex=0.25,type="n", # 画图,说明①xlab="Household Income", ylab="Food Expenditure")points(income,foodexp,cex=0.5,col="blue") # 添加点,点的大小为0.5abline( rq(foodexp ~ income, tau=0.5), col="blue" ) # 画中位数回归的拟合直线,颜色蓝abline( lm(foodexp ~ income), lty = 2, col="red" ) # 画普通最小二乘法拟合直线,颜色红taus = c(0.05, 0.1, 0.25, 0.75, 0.9, 0.95)for(i in 1:length(taus)){ # 绘制不同分位点下的拟合直线,颜色为灰色abline( rq(foodexp ~ income, tau=taus[i]), col="gray" )}detach(engel)3、穷人和富人的消费分布比较# 比较穷人(收入在10%分位点的那个人)和富人(收入在90%分位点的那个人)的估计结果# rq函数中,tau不在[0,1]时,表示按最细的分位点划分方式得到分位点序列z = rq(foodexp ~ income, tau=-1)z$sol # 这里包含了每个分位点下的系数估计结果x.poor = quantile(income, 0.1) # 10%分位点的收入x.rich = quantile(income, 0.9) # 90%分位点的收入ps = z$sol[1,] # 每个分位点的tau值qs.poor = c( c(1,x.poor) %*% z$sol[4:5,] ) # 10%分位点的收入的消费估计值qs.rich = c( c(1,x.rich) %*% z$sol[4:5,] ) # 90%分位点的收入的消费估计值windows(, 10,5)par(mfrow=c(1,2)) # 把绘图区域划分为一行两列plot(c(ps,ps),c(qs.poor,qs.rich),type="n", # type=”n”表示初始化图形区域,但不画图xlab=expression(tau), ylab="quantile")plot(stepfun(ps,c(qs.poor[1],qs.poor)), do.points=F,add=T)plot(stepfun(ps,c(qs.poor[1],qs.rich)), do.points=F,add=T, col.hor="gray", col.vert="gray")ps.wts = ( c(0,diff(ps)) + c(diff(ps),0) )/2ap = akj(qs.poor, z=qs.poor, p=ps.wts)ar = akj(qs.rich, z=qs.rich, p=ps.wts)plot(c(qs.poor,qs.rich), c(ap$dens, ar$dens),type="n", xlab="Food Expenditure", ylab="Density")lines(qs.rich,ar$dens,col="gray")lines(qs.poor,ap$dens,col="black")legend("topright", c("poor","rich"), lty=c(1,1),col=c("black","gray"))上图表示收入(income)为10%分位点处(poor,穷人)和90%分位点处(rich,富人)的食品支出的比较。
从左图可以发现,对于穷人而言,在不同分位点估计的食品消费差别不大。
而对于富人而言,在不同分位点对食品消费的差别比较大。
右图反应了穷人和富人的食品消费分布曲线。
穷人的食品消费集中于400左右,比较陡峭;而富人的消费支出集中于800结果:Quantile Regression Analysis of Deviance TableModel: foodexp ~ incomeJoint Test of Equality of Slopes: tau in { 0.25 0.5 0.75 }Df Resid Df F value Pr(>F)1 2 703 15.557 2.449e-07 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘’ 1其中P值远小于0.05,故不同分位点下收入对食品支出的影响机制不同。
(五)残差形态的检验也可以理解为是比较不同分位点的模型之间的关系。
主要有两种模型形式:(1)位置漂移模型:不同分位点的估计结果之间的斜率相同或近似,只是截距不同;表现为不同分位点下的拟合曲线是平行的。
(2)位置-尺度漂移模型:不同分位点的估计结果之间的斜率和截距都不同;表现为不同分位点下的拟合曲线不是平行的。
# 残差形态的检验source("C:/Program Files/R/R-2.15.0/library/quantreg/doc/gasprice.R")x = gaspricen = length(x)p = 5X = cbind(x[(p-1):(n-1)],x[(p-2):(n-2)],x[(p-3):(n-3)],x[(p-4):(n-4)])y = x[p:n]# 位置漂移模型的检验T1 = KhmaladzeTest(y~X, taus = -1, nullH="location")T2 = KhmaladzeTest(y~X, taus = 10:290/300,nullH="location", se="ker")结果:运行T1,可以查看其检验结果。
其中nullH表示原假设为“location”,即原假设为位置漂移模型。
Tn表示模型整体的检验,统计量为4.8。
THn是对每个自变量的检验。
比较T1和T3的结果(T3的原假设为“位置尺度漂移模型”),T1的统计量大于T3的统计量,可见相对而言,拒绝“位置漂移模型”的概率更大,故相对而言“位置尺度漂移模型”更加合适一些。
> T1$nullH[1] "location"$Tn[1] 4.803762$THnX1 X2 X3 X41.0003199 0.5321693 0.5020834 0.8926828attr(,"class")[1] "KhmaladzeTest"> T3$nullH[1] "location-scale"$Tn[1] 2.705583$THnX1 X2 X3 X41.2102899 0.6931785 0.5045163 0.8957127attr(,"class")[1] "KhmaladzeTest"(六)非线性分位数回归这里的非线性函数为Frank copula函数。
## Demo of nonlinear quantile regression model based on Frank copulavFrank <- function(x, df, delta, u) # 某个非线性过程,得到的是[0,1]的值-log(1-(1-exp(-delta))/(1+exp(-delta*pt(x,df))*((1/u)-1)))/delta# 非线性模型FrankModel <- function(x, delta, mu,sigma, df, tau) {z <- qt(vFrank(x, df, delta, u = tau), df)mu + sigma*z}n <- 200 # 样本量df <- 8 # 自由度delta <- 8 # 初始参数set.seed(1989)x <- sort(rt(n,df)) # 生成基于T分布的随机数v <- vFrank(x, df, delta, u = runif(n)) # 基于x生成理论上的非参数对应值y <- qt(v, df) # v 对应的T分布统计量windows(5,5)plot(x, y, pch="o", col="blue", cex = .25) # 散点图Dat <- data.frame(x = x, y = y) # 基本数据集us <- c(.25,.5,.75)for(i in 1:length(us)){v <- vFrank(x, df, delta, u = us[i])lines(x, qt(v,df)) # v为概率,计算每个概率对应的T分布统计量}cfMat <- matrix(0, 3, length(us)+1) # 初始矩阵,用于保存结果的系数for(i in 1:length(us)) {tau <- us[i]cat("tau = ", format(tau), ".. ")fit <- nlrq(y ~ FrankModel(x, delta,mu,sigma, df = 8, tau = tau), # 非参数模型data = Dat, tau = tau, # data表明数据集,tau分位数回归的分位点start= list(delta=5, mu = 0, sigma = 1), # 初始值trace = T) # 每次运行后是否把结果显示出来lines(x, predict(fit, newdata=x), lty=2, col="red") # 绘制预测曲线cfMat[i,1] <- tau # 保存分位点的值cfMat[i,2:4] <- coef(fit) # 保存系数到cfMat矩阵的第i行cat("\n") # 如果前面把每步的结果显示出来,则每次的结果之间添加换行符}colnames(cfMat) <- c("分位点",names(coef(fit))) # 给保存系数的矩阵添加列名cfMat结果:拟合结果:(过程略)> cfMat分位点delta mu sigma [1,] 0.25 14.87165 -0.20530041 0.9134657[2,] 0.50 16.25362 0.03232525 0.9638209[3,] 0.75 12.09836 0.11998614 0.9423476(七)半参数和非参数分位数回归非参数分位数回归在局部多项式的框架下操作起来更加方便。