当前位置:文档之家› [VIP专享]用R语言做非参数和半参数回归笔记

[VIP专享]用R语言做非参数和半参数回归笔记

[VIP专享]用R语言做非参数和半参数回归笔记
[VIP专享]用R语言做非参数和半参数回归笔记

由詹鹏整理,仅供交流和学习

根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出!

教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008.

-------------------------------------------------------------------------

第一章 introduction: Global versus Local Statistic

一、主要参考书目及说明

1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书

2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰

3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难

4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典

5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错

6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大

学出版社. (P127/143)

7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3)

8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24)

【其他参看原ppt第一章】

二、内容简介

方法:

——移动平均(moving average)

——核光滑(Kernel smoothing)

——K近邻光滑(K-NN)

——局部多项式回归(Local Polynormal)

——Loesss and Lowess

——样条光滑(Smoothing Spline)

——B-spline

——Friedman Supersmoother

模型:

——非参数密度估计

——非参数回归模型

——非参数回归模型

——时间序列的半参数模型

——Panel data 的半参数模型

——Quantile Regression

三、不同的模型形式

1、线性模型linear models

2、Nonlinear in variables

3、Nonlinear in parameters

四、数据转换 Power transformation(对参数方法)

In the GLM framework, models are equally prone(倾向于) to some

misspecification(不规范) from an incorrect functional form.

It would be prudent(谨慎的) to test that the effect of any independent variable of a model does not have a nonlinear effect. If it does have a nonlinear effect, analysts in the social science usually rely on Power Transformations to address nonlinearity.

[ADD: 检验方法见Sanford Weisberg. Applied Linear Regression (Third Edition). A John Wiley & Sons, Inc., Publication.(本科的应用回归分析课教材)]

----------------------------------------------------------------------------

第二章 Nonparametric Density Estimation

非参数密度估计

一、三种方法

1、直方图 Hiatogram

2、Kernel density estimate

3、K nearest-neighbors estimate

二、Histogram 对直方图的一个数值解释

Suppose x1,…xN – f(x), the density function f(x) is unknown.

One can use the following function to estimate f(x)

【与x的距离小于h的所有点的个数】

三、Kernel density estimate

Bandwidth: h; Window width: 2h.

1、Kernel function的条件

The kernel function K(.) is a continuous function, symmetric(对称的) around zero, that integrates(积分) to unity and satisfies additional bounded conditions:

(1) K() is symmetric around 0 and is continuous;

(2) ,,;

(3) Either

(a) K(z)=0 if |z|>=z0 for z0

Or

(b) |z|K(z) à0 as ;

(4) , where is a constant.

2、主要函数形式

3、置信区间

其中,

4、窗宽的选择

实际应用中,。其中,s是样本标准差,iqr是样本

分位数级差(interquartile range)

四、K nearest-neighbors estimate

五、R语言部分

---------------------------------------------------------------------------- 第三章 smoothing and local regression

一、简单光滑估计法 Simple Smoothing

1、Local Averaging 局部均值

按照x排序,将样本分成若干部分(intervals or “bins”);将每部分x对应的y值的均值作为f(x)的估计。

三种不同方法:

(1)相同的宽度(equal width bins):uniformly distributed.

(2)相同的观察值个数(equal no. of observations bins):k-nearest neighbor.(3)移动平均(moving average)

K-NN:

等窗宽:

2、kernel smoothing 核光滑

其中,

二、局部多项式估计Local Polynomial Regression

1、主要结构

局部多项式估计是核光滑的扩展,也是基于局部加权均值构造。

——local constant regression

——local linear regression

——lowess (Cleveland, 1979)

——loess (Cleveland, 1988)

【本部分可参考:

Takezana(2006). Introduction to Nonparametric Regression.(P185 3.7 and P195 3.9) Chambers and Hastie(1993). Statistical models in S. (P312 ch8)】

2、方法思路

(1)对于每个xi,以该点为中心,按照预定宽度构造一个区间;

(2)在每个结点区域内,采用加权最小二乘法(WLS)估计其参数,并用得到的模型估计该结点对应的x值对应y值,作为y|xi的估计值(只要这一个点的估计值);

(3)估计下一个点xj;

(4)将每个y|xi的估计值连接起来。

【R操作

library(KernSmooth) #函数locpoly()

library(locpol) #locpol(); locCteSmootherC()

library(locfit) #locfit()

#weight funciton: kernel=”tcub”. And “rect”, “trwt”, “tria”, “epan”, “bisq”, “gauss”

3、每个方法对应的估计形式

(1)变量个数p=0, local constant regression (kernel smoothing)

min

(2)变量个数p=1, local linear regression

min

(3)Lowess (Local Weighted scatterplot smoothing)

p=1:

min

【还有个加权修正的过程,这里略,详见原书或者PPT】

(4)Loess (Local regression)

p=1,2:

min

【还有个加权修正的过程,这里略,详见原书或者PPT】

(5)Friedman supersmoother

symmetric k-NN, using local linear fit,

varying span, which is determined by local CV,

not robust to outliers, fast to compute

supsmu( ) in R

三、模型选择

需要选择的内容:(1)窗宽the span;(2)多项式的度the degree of polynomial for the local regression models;(3)权重函数the weight functions。

【其他略】

四、R语言部分

---------------------------------------------------------------------------- 第四章样条估计spline

一、基本思想

按照x将样本分成多个区间,对每个区间分别进行估计。不同于核估计,这里不用移动计算,从而减小了计算量。

二、最简单的形式

Linear Spline with k knots:

其中,,

三、其他样条模型

1、p次样条估计

——二次样条Quadratic Spline (basis functions with k knots)

——三次样条Cubic Spline (with k knots, use quadratic basis functions)

——p-order spline (with k knots)

2、B-splines (with k knots cubic B-spline basis)

其中,

3、Natural Splines

以上估计方法对结点(knots)之间的估计比较准确,但对边界的拟合效果较差。自然样条的思想是,在自变量最小值和最大值处各增加一个结点,用线性模型拟合边界位置的样本点。

4、k的选择和模型比较

采用AIC准则

四、光滑样条smoothing spline

基于如果目标得到参数估计值

min

向量自回归模型简介

一、Var模型的基本介绍 向量自回归模型(Vector Autoregressive Models,VAR)最早由Sims(1980)提出。他认为,如果模型设定和识别不准确,那么模型就不能准确地反应经济系统的动态特性,也不能很好地进行动态模拟和政策分析。因此,VAR模型通常使用最少的经济理论假设,以时间序列的统计特征为出发点,通常对经济系统进行冲击响应(Impulse-Response)分析来了解经济系统的动态特性和冲击传导机制。由于VAR模型侧重于描述经济的动态特性,因而它不仅可以验证各种经济理论假设,而且在政策模拟上具有优越性。 VAR模型主要用于替代联立方程结构模型,提高经济预测的准确性。用联立方程模型研究宏观经济问题,是当前世界各国经济学者的一种通用做法,它把理论分析和实际统计数据结合起来,利用现行回归或非线性回归分析方法,确定经济变量之间的结构关系,构成一个由若干方程组成的模型系统。联立方程模型适合于经济结构分析,但不适合于预测:联立方程模型的预测结果的精度不高,其主要原因是需要对外生变量本身进行预测。与联立方程模型不同,VAR模型相对简洁明了,特别适合于中短期预测。目前,VAR模型在宏观经济和商业金融预测等领域获得了广泛应用。 二、VAR模型的设定 VAR模型描述在同一样本期间内的n个变量(内生变量)可以作为它们过去值的线性函数。 一个VAR(p)模型可以写成为: 或: 其中:c是n × 1常数向量,A i是n × n矩阵,p是滞后阶数,A(L)是滞后多项式矩阵,L是滞后算子。是n × 1误差向量,满足: 1. —误差项的均值为0 2. Ω—误差项的协方差矩阵为Ω(一个n × 'n正定矩阵) 3.(对于所有不为0的p都满足)—误差项不存在自相关 虽然从模型形式上来看比较简单,但在利用VAR模型进行分析之前,对模型的设定还需要意以下两点: 一是变量的选择。理论上来讲,既然VAR模型把经济作为一个系统来研究,那么模型中

用R语言做非参数和半参数回归笔记学习资料

用R语言做非参数和半参数回归笔记

由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出! 教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data 的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

非参数回归模型资料

非参数回归模型

精品资料 仅供学习与交流,如有侵权请联系网站删除 谢谢2 非参数回归模型 非参数回归模型也叫多元回归模型,它是一种脱离于混沌理论的多条路段分析方法。它是对当前路段和几条相邻路段的交通流信息对当前路段进行交通流预测的单条路段分析的扩展。它不需要先验知识,只需要有足够的历史数据即可。它的原理是:在历史数据库中寻找与当前点相似的近邻,并根据这些近邻来预测下一时间段的流量。该算法认为系统所有的因素之间的内在联系都蕴含在历史数据中,因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型。非参数回归最为一种无参数、可移植、预测精度高的算法,它的误差比较小,且误差分布情况良好。尤其通过对搜索算法和参数调整规则的改进,使其可以真正达到实时交通流预测的要求。并且这种方法便于操作实施,能够应用于复杂环境,可在不同的路段上方便地进行预测。能够满足路网上不同路段的预测,避免路段位置和环境对预测的影响。随着数据挖掘技术左键得到人们的认可和国内外学者的大量相关研究,使得非参数回归技术在短时交通流预测领域得到广泛应用。 非参数回归的回归函数()X g Y =的估计值()X g n 一般表示为: ()()∑==n i i i i n Y X W X g 1 其中,Y 为以为广策随机变量;X 为m 维随机变量;(Xi,Yi )为第i 次观测值,i=1,...,n ;Wi(Xi)为权函数.非参数回归就是对g(X)的形状不加任何限制,即对g (X )一无所知的情况下,利用观测值(Xi,Yi ),对指定的X 值去估计Y 值。由于其不需要对系统建立精确的数学模型,因此比较适合对事变的、非线性的系统进行预测,符合对城市交通流的预测,同时可以与历史平均模型实现优缺点的互补。 K 近邻法 Friedman 于1977年提出了K 近邻法。其并不是让所有的数据都参与预 测,而是以数据点到X 点的距离为基础,甲醛是只有离X 最近的K 个数据被用来估计相应的g(X)值。可以引入欧式空间距离d ,然后按这个距离将X1,X2,...,Xn 与X 接近的程度重新排序:Xk1,...,Xkn,取权值如下: Wki(X:X1,...,Xn)=ki,i=1,..,n 将与X 最近的前K 个观测值占有最大的权K=1,其余的观测值赋予权值k=0.最终得到应用于短时交通流预测的K 近邻法可表示为:

CY非参数回归介绍

非参数回归简介 一、参数回归与非参数回归的特点 无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。 参数回归与非参数回归的优缺点比较: 参数回归: 优点: (1).模型形式简单明确,仅由一些参数表达(eg: y=a+bx+e, a,b为待估参数) (2).在经济中,模型的参数一般都具有明确的经济含义 (3).当模型参数假设成立,统计推断的精度较高,能经受实际检验 (4).模型能够进行外推运算 (5).模型可以用于小样本的统计推断 缺点: (1).回归函数的形式预先假定 (2).模型限制较多:一般要求样本满足某种分布要求,随机误差满足正态假设,解释变量间独立,解释变量与随机误差不相关,等

(3).需要对模型的参数进行严格的检验推断,步骤较多 (4).模型泛化能力弱,缺乏稳健性,当模型假设不成立,拟合效果不好,需要修正或者甚至更换模型 非参数回归: 优点; (1).回归函数形式自由,受约束少,对数据的分布一般不做任何要求 (2).适应能力强,稳健性高,回归模型完全由数据驱动 (3).模型的精度高 (4).对于非线性、非齐次问题,有非常好的效果 缺点: (1).不能进行外推运算 (2).估计的收敛速度慢 (3).一般只有在大样本的情况下才能得到很好的效果,而小样本的效果较差 (4).高维诅咒, 光滑参数的选取一般较复杂 二、非参数回归的方法简介 非参数回归方法 样条光滑 正交回归 核回归:N-W估计、P-C估计、G-M估计 局部多项式回归:线性、多项式 光滑样条:光滑样条、B样条近邻回归:k-NN、k近邻核、对称近邻 正交级数光滑 局 部 回 归 Fourier级数光滑 wavelet光滑

非参数回归模型与半参数回归模型

第七章 非参数回归模型与半参数回归模型 第一节 非参数回归与权函数法 一、非参数回归概念 前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。 设Y 是一维观测随机向量,X 是m 维随机自变量。在第四章我们曾引进过条件期望作回归函数,即称 g (X ) = E (Y |X ) (7.1.1) 为Y 对X 的回归函数。我们证明了这样的回归函数可使误差平方和最小,即 22)]([min )]|([X L Y E X Y E Y E L -=- (7.1.2) 这里L 是关于X 的一切函数类。当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。 细心的读者会在这里立即提出一个问题。既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。 所以我们知道,参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。 二、权函数方法 非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式: ∑==n i i i n Y X W X g 1 )()( (7.1.3)

非参数回归模型

非参数回归模型 非参数回归模型也叫多元回归模型,它是一种脱离于混沌理论的多条路段分析方法。它是对当前路段和几条相邻路段的交通流信息对当前路段进行交通流预测的单条路段分析的扩展。它不需要先验知识,只需要有足够的历史数据即可。它的原理是:在历史数据库中寻找与当前点相似的近邻,并根据这些近邻来预测下一时间段的流量。该算法认为系统所有的因素之间的内在联系都蕴含在历史数据中,因此直接从历史数据中得到信息而不是为历史数据建立一个近似模型。非参数回归最为一种无参数、可移植、预测精度高的算法,它的误差比较小,且误差分布情况良好。尤其通过对搜索算法和参数调整规则的改进,使其可以真正达到实时交通流预测的要求。并且这种方法便于操作实施,能够应用于复杂环境,可在不同的路段上方便地进行预测。能够满足路网上不同路段的预测,避免路段位置和环境对预测的影响。随着数据挖掘技术左键得到人们的认可和国内外学者的大量相关研究,使得非参数回归技术在短时交通流预测领域得到广泛应用。 非参数回归的回归函数()X g Y =的估计值()X g n 一般表示为: ()()∑==n i i i i n Y X W X g 1 其中,Y 为以为广策随机变量;X 为m 维随机变量;(Xi,Yi )为第i 次观测值,i=1,...,n ;Wi(Xi)为权函数.非参数回归就是对g(X)的形状不加任何限制,即对g (X )一无所知的情况下,利用观测值(Xi,Yi ),对指定的X 值去估计Y 值。由于其不需要对系统建立精确的数学模型,因此比较适合对事变的、非线性的系统进行预测,符合对城市交通流的预测,同时可以与历史平均模型实现优缺点的互补。 K 近邻法 Friedman 于1977年提出了K 近邻法。其并不是让所有的数据都参与预测,而是以数据点到X 点的距离为基础,甲醛是只有离X 最近的K 个数据被用来估计相应的g(X)值。可以引入欧式空间距离d ,然后按这个距离将X1,X2,...,Xn 与X 接近的程度重新排序:Xk1,...,Xkn,取权值如下: Wki(X:X1,...,Xn)=ki,i=1,..,n 将与X 最近的前K 个观测值占有最大的权K=1,其余的观测值赋予权值k=0.最终得到应用于短时交通流预测的K 近邻法可表示为: ()()()()K t V t V g t V K i i ∑=+==+111

用R语言做非参数和半参数回归笔记

由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出! 教材为:Luke Keele:Semiparametric Regression for the Social Sciences.John Wiley &Sons,Ltd.2008. ------------------------------------------------------------------------- 第一章introduction:Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994).Applied Nonparametic Regresstion.较早的经典书 2、Hardle etc(2004).Nonparametric and semiparametric models:an introduction. Springer.结构清晰 3、Li and Racine(2007).Nonparametric econometrics:Theory and Practice.Princeton.较全面和深入的介绍,偏难 4、Pagan and Ullah(1999).Nonparametric Econometrics.经典 5、Yatchew(2003).Semiparametric Regression for the Applied Econometrician.例子不错 6、高铁梅(2009).计量经济分析方法与建模:EVIEWS应用及实例(第二版).清华大学出版社.(P127/143) 7、李雪松(2008).高级计量经济学.中国社会科学出版社.(P45ch3) 8、陈强(2010).高级计量经济学及Stata应用.高教出版社.(ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

非参数回归模型与半参数回归模型

第七章 非参数回归模型与半参数回归模型 第一节 非参数回归与权函数法 一、非参数回归概念 前面介绍的回归模型,无论是线性回归还是非线性回归,其回归函数形式都是已知的,只是其中参数待定,所以可称为参数回归。参数回归的最大优点是回归结果可以外延,但其缺点也不可忽视,就是回归形式一旦固定,就比较呆板,往往拟合效果较差。另一类回归,非参数回归,则与参数回归正好相反。它的回归函数形式是不确定的,其结果外延困难,但拟合效果却比较好。 设Y 是一维观测随机向量,X 是m 维随机自变量。在第四章我们曾引进过条件期望作回归函数,即称 g (X ) = E (Y |X ) (7.1.1) 为Y 对X 的回归函数。我们证明了这样的回归函数可使误差平方和最小,即 22)]([min )]|([X L Y E X Y E Y E L -=- (7.1.2) 这里L 是关于X 的一切函数类。当然,如果限定L 是线性函数类,那么g (X )就是线性回归函数了。 细心的读者会在这里立即提出一个问题。既然对拟合函数类L (X )没有任何限制,那么可以使误差平方和等于0。实际上,你只要作一条折线(曲面)通过所有观测点(Y i ,X i )就可以了是的,对拟合函数类不作任何限制是完全没有意义的。正象世界上没有绝对的自由一样,我们实际上从来就没有说放弃对L(X)的一切限制。在下面要研究的具体非参数回归方法,不管是核函数法,最近邻法,样条法,小波法,实际都有参数选择问题(比如窗宽选择,平滑参数选择)。 所以我们知道,参数回归与非参数回归的区分是相对的。用一个多项式去拟合(Y i ,X i ),属于参数回归;用多个低次多项式去分段拟合(Y i ,X i ),叫样条回归,属于非参数回归。 二、权函数方法 非参数回归的基本方法有核函数法,最近邻函数法,样条函数法,小波函数法。这些方法尽管起源不一样,数学形式相距甚远,但都可以视为关于Y i 的线性组合的某种权函数。也就是说,回归函数g (X )的估计g n (X )总可以表为下述形式: ∑==n i i i n Y X W X g 1 )()( (7.1.3)

用R语言做非参数和半参数回归笔记.docx

由詹鹏整理 ,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改 ,在此感谢孙老师的辛勤付出! 教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍 ,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大 学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24) 【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型 ——Panel data 的半参数模型 ——Quantile Regression 三、不同的模型形式 1、线性模型linear models 2、Nonlinear in variables

第11章 非参数回归(非参数统计,西南财大)范文

第十二章 非参数回归及其相关问题 第一节 参数回归问题的回顾 在线性回归模型中,我们总是假定总体回归函数是线性的,即 多元线性回归模型一般形式为: i Ki K i i i X X X Y μββββ+++++= 33221 总体回归函数(PRF ) Ki K i i ki i i i X X X X X X Y E X m ββββ++++== 3322132),,,()( 但是,经验和理论都证明,当)(X m 不是线性函数时,基于最小二乘的回归效果不好,非参数回归就是在对)(X m 的形式不作任何假定的前提下研究估计)(X μ。 例 设二维随机变量,其密度函数为 ?? ?≤≤≤≤+=其它 10,10),(y x y x y x f ,求)/(x X Y E =. 解:1 02 1),()(1 ≤≤+ == ? x x dy y x f x f x ?==1 ) () ,()/(dy x f y x f y x X Y E x ?++=1 021dy x y x y ?++=1 )(2 11 dy y x y x )()321(122x m x x =++= 从例可知,)/(x X Y E =仅与x 有关,条件期望)/()(x X Y E x m y ===表明Y 与X 在条件期望的意义下相关。 由样本均值估计总体均值的思想出发,假设样本),(11Y X ,),(22Y X ,…,),(n n Y X 中有相当i X 恰好等于x ,()(/)m x E Y x =,不妨记为1i X ,2i X ,…,k i X ,自然可取相应 的Y 的样本1i Y ,2i Y ,…,k i Y ,用他们的平均数∑=k j i j Y k 1 1去估计)/()(X Y E X m =。可是

人口增长率的非参数自回归预测模型

收稿日期:2006201204 作者简介:巩永丽(1980—),女,山西永济人,西安理工大学硕士研究生,主要从事应用概率统计方面的研究. 山西师范大学学报(自然科学版)第21卷第1期Journal of Shanxi Nor mal University Vol .21 No .12007年3月 Natural Science Editi on M ar .2007 文章编号:100924490(2007)0120038205 人口增长率的非参数自回归预测模型 巩永丽1 ,张德生1 ,武新乾2 ,姜爱平 1 (11西安理工大学理学院,陕西西安710054;21西北工业大学,陕西西安710072) 摘 要:针对传统的人口增长预测模型不能理想地捕获我国人口增长率数据的非线性性特征,本文基于局部线性非参数估计理论,对我国建国以来的年人口增长率建立了非参数自回归NAR (1)模型,并对 2000年~2003年的年人口增长率进行了预测,计算结果表明,相对于参数自回归模型而言,非参数自回 归模型能够很好地解决人口增长预测这一非线性问题,预测精度较高.关键词:非参数估计;非参数自回归模型;预测中图分类号:O29 文献标识码:A 0 引言 我国是一个发展中国家,又是世界上人口最多的国家,人口问题一直是制约我国经济和社会发展的首要因素,因此,能否对人口增长做出比较准确的预测,对于加速推进我国现代化建设有着极为重要的现实 意义.对于人口增长预测,传统的方法有增长曲线模型、灰色系统模型、系统动力学模型、自回归模型等.增长曲线模型预测方法 [1] 相对简单,但是精度不高;灰色系统模型 [1] 主要是对人口增长趋势波动进行分析, 它在预测资料不全或资料的波动太大、不平稳的发展趋势效果较好;系统动力学模型[1] 在分析问题、收集 资料、建立模型和求证的过程中都要消耗一定的财力、物力和人力,还需要占用大量的计算机工作时间,而且建模人员的专业水平也直接影响模型的质量和结果.自回归模型由于是线性参数化形式,难以较好的解决人口增长预测这一非线性问题.因此,本文尝试利用非参数估计方法,建立我国人口增长率的非参数自回归预测模型,结果表明非参数自回归模型用于人口预测可以获得令人满意的结果,可为相关部门制定人口政策提供科学的依据. 1 非参数自回归预测模型基本原理 1.1 非参数自回归模型 非参数自回归模型(NAR (p ))为:Y t =m (X t )+εt ,其中,解释性变量X t ∈R p 由响应变量(或被解释性变量)Y t ∈R 的一些滞后项所组成(p 为正整数);随机误差序列{εt }独立同分布,E (εt )=0, E (ε2t )=σ2 ,并且εt 与X s ,s ≤t 相互独立;未知函数m (? )称为条件均值函数(或自回归函数).1.2 非参数预测 对一组平稳时间序列{Y t },t =1,2,...,n,我们的目的是对确定的正整数k,k ≥1,预测Y n +k 的值.非参数自回归模型对未知值Y n +k 进行预测的计算步骤如下: (1)对这组平稳时间序列建立相应的非参数自回归模型 Y t =m (X t )+εt (1)

第七章分布滞后模型与自回归模型答案(最新整理)

第七章 分布滞后模型与自回归模型 一、判断题 1.无限分布滞后模型不可以转换为一阶自回归模型。( F ) 2.局部调整模型变换后得到的一阶自回归模型可以应用OLS 法估计。( T ) 3.估计自回归模型的问题仅在于滞后被解释变量的存在可能导致它与随机扰动项相关。(F ) 4.自回归模型的产生背景都是相同的。( F ) 5.库伊克模型和自适应预期模型都存在解释变量与随机扰动项相关问题。( T ) 二、单项选择题 1.设无限分布滞后模型为,且该模型满足t 0t 1t-12t-2t Y = + X + X +X ++ U αβββ Koyck 变换的假定,则长期影响系数为( C )。 A . B . C . D .不确定0βλ01βλ+01βλ -2.对于分布滞后模型,时间序列的序列相关问题,就转化为( B )。 A .异方差问题 B .多重共线性问题 C .多余解释变量 D .随机解释变量 3.在分布滞后模型中,短期影响乘数为( 01122t t t t t Y X X X u αβββ--=+++++ D )。 A . B . C . D .11βα-1β01βα -0β4.对于自适应预期模型变换后的自回归模型,估计模型参数应采用( D ) 。 A .普通最小二乘法 B .间接最小二乘法 C .二阶段最小二乘法 D .工具变量法 5.经过库伊克变换后得到自回归模型,该模型参数的普通最小二乘估计量是( D ) 。 A .无偏且一致 B .有偏但一致 C .无偏但不一致 D .有偏且不一致 6.下列属于有限分布滞后模型的是( D )。 A . B . 01122t t t t t Y X Y Y u αβββ--=+++++ 01122t t t t k t k t Y X Y Y Y u αββββ---=++++++ C . D . 01122t t t t t Y X X X u αβββ--=+++++ 01122t t t t k t k t Y X X X X u αββββ---=++++++ 7.消费函数模型,其中为收入,则当期收入对未来12 ?4000.50.30.1t t t t C I I I --=+++I t I 消费的影响是:增加一单位,增加( C )。 2t C +t I 2t C +A .0.5个单位 B .0.3个单位 C .0.1个单位 D .0.9个单位

非参数统计学讲义相关与回归

非参数统计学讲义 主讲:统计系 袁靖 第五章 相关和回归 §1 引言 所谓相关,是指两组或两组以上观察结果之间的连带性或联系。换句话说,也就是各组观察结果所反映的特性之间有关系。如几个亲生兄弟间的智商与出生顺序有关系,受教育程度与性别有关系,出生率X 和文盲率Y 之间的关系等等。在实际问题的研究中,人们常常想知道两组或两组以上的观察结果是否有联系,同时也想知道联系的程度如何。前面的统计检验能够在一定的显著性水平上,确定各组观察值的关系是否存在。相关方法被用来度量两个或更多变量之间的线性关系的强度,是回归分析的基础。 在数理统计学中,我们使用相关系数定义变量X 和变量Y 之间的相关性。 ) var()var(),cov(),(Y X Y X Y X corr = =ρ1 (0.1>对于样本),(11Y X ,),(22Y X ,……,),(n n Y X 来说,Pearson 相关系数为 ∑∑∑∑∑∑----= ----= 2 2 2 2 11) ()())(() ()() )((Y Y X X Y Y X X Y Y X X Y Y X X r i i i i i i n i i n (0.2>如果在这个样本中的n 个观察值独立,则r 是ρ的渐近无偏估计;如果它又是二元正态分布,则r 是 ρ的ML 估计。 为了检验0:0=ρH ,0:1≠ρH ,可以选取统计量)2(~122 ---=n t r n r t 结论:Pearson 相关系数度量的是一种线性关系,而我们所要介绍的非参数的Spearman 秩相关系数s r 和Kendall τ相关系数实际上度量的是一种形式的相依联系,或是更广义的单调关系。因此相关的概念被推广,不仅指线性相关,而泛指相依或联系。§2 两个样本的相关分析 一、 等级相关 等级相关(Rank Correlation>也称作级序相关,用于两个至少是定序尺度测量的样本问相关程度的测定 研究背景 1 ρ度量了总体样本点在标准差线周围的聚集程度,详见笔记P38。

用R语言做非参数

用R语言做非参数

用R语言做非参数&半参数回归 笔记 由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出! 教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. ------------------------------------------------------------------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24)【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型

用R语言做非参数

用R语言做非参数&半参数回归 笔记 由詹鹏整理,仅供交流和学习 根据南京财经大学统计系孙瑞博副教授的课件修改,在此感谢孙老师的辛勤付出!教材为:Luke Keele: Semiparametric Regression for the Social Sciences. John Wiley & Sons, Ltd. 2008. --------------------------------------------------------- ---------------- 第一章 introduction: Global versus Local Statistic 一、主要参考书目及说明 1、Hardle(1994). Applied Nonparametic Regresstion. 较早的经 典书 2、Hardle etc (2004). Nonparametric and semiparametric models: an introduction. Springer. 结构清晰 3、Li and Racine(2007). Nonparametric econometrics: Theory and Practice. Princeton. 较全面和深入的介绍,偏难 4、Pagan and Ullah (1999). Nonparametric Econometrics. 经典 5、Yatchew(2003). Semiparametric Regression for the Applied Econometrician. 例子不错 6、高铁梅(2009). 计量经济分析方法与建模:EVIEWS应用及实例(第二版). 清华大学出版社. (P127/143) 7、李雪松(2008). 高级计量经济学. 中国社会科学出版社. (P45 ch3) 8、陈强(2010). 高级计量经济学及Stata应用. 高教出版社. (ch23/24)【其他参看原ppt第一章】 二、内容简介 方法: ——移动平均(moving average) ——核光滑(Kernel smoothing) ——K近邻光滑(K-NN) ——局部多项式回归(Local Polynormal) ——Loesss and Lowess ——样条光滑(Smoothing Spline) ——B-spline ——Friedman Supersmoother 模型: ——非参数密度估计 ——非参数回归模型 ——非参数回归模型 ——时间序列的半参数模型

非参数统计讲义(2010版)

第一章 绪 论 第一章主要是通过与所学的参数统计的比较来介绍非参数统计的概念、背景、理论与应用的价值,目的是激发学生学习本课程的兴趣。为更好地掌握本课程的内容,本章将介绍和回忆所需的基本概念、基本公式和方法。 本章主要内容: 1.非参数方法介绍 2.预备知识 第一节 非参数方法介绍 一. 非参数方法的概念和实例 我们从接触数理统计开始,一直学习的都是参数统计,比如参数估计,总体 为正态时的假设检验等等。首先回忆什么是参数方法? 定义:设总体X 的分布函数的形式是已知的,而未知的仅仅是分布函数具体的参数值,用样本对这些未知参数进行估计或进行某种形式的假设检验,这类推断方法称为参数方法。 先来看两个实例。 例1.1 供应商供应的产品是否合格? 某工厂产品的零件由某个供应商供应。合格零件标准长度为(8.5±0.1)cm 。这也就是说合格零件长度的中心位置为8.5cm ,允许误差界为0.1cm ,即长度在 8.4-8.6cm 之间的零件是合格的。为评估近年来供应的零件是否合格,随机抽查了n=100个零件,它们的长度数据X 见第一章附表1.1。 解答: 根据我们已学过的参数统计的方法,如何根据数据来判断这批零件合格否? 用参数数据分析方法,在参数统计中,运用得最多的是正态分布,所以考虑假设供应商供应的零件长度X 服从正态分布,即 X ~),(2σμN 其中两个参数均未知,但可用样本均值估计μ,样本方差估计2σ。 由已知的数据计算可得:零件的平均长度,即样本均值为x =8.4958cm ,样本标准差为s=0.1047cm 。 则零件合格的可能性近似等于 )/)4.8(()/)6.8(()6.84.8(σμσμ-Φ--Φ=≤≤X P )1047.0/)4958.84.8(()1047.0/)9458.86.8((-Φ--Φ≈ %66≈ 这个说明:约有三分之一的零件不合格,该工厂需要换另一个供销商了。 但这个结论与实际数据符不符合呢?这是我们要思考的问题。 我们可以对数据做一个描述性分析,先对这100个样本数据做一个频率分布。 观察到:在这100个零件中有91个零件的长度在8.4cm ~8.6cm 之间,所以零件合格的比例为91%,超过66%很多!

相关主题
文本预览
相关文档 最新文档